Microsoft加入了Tsinghua和北京大学,启动奖励推论模
栏目:公司新闻 发布时间:2025-05-29 10:24
技术媒体Marktechpost今天(5月27日)发布了一篇博客文章,报道说,微软研究所和Tsinghua大学和北京大学已组建了一个团队来启动合理性(RRMS),并通过理解对任务分析的明确过程动态提供计算资源。提到博客文章,强化学习(RL)已成为大语言模型(LLM)的主要培训方法,该方法通过人类反馈(RLHF)或验证的奖励(RLVR)提供管理信号。但是,尽管RLVR具有数学推理的潜力,但它受到依靠可靠答案的培训查询的限制,并且很难应用于一般领域的大规模培训。作为Addan,现有的奖励模型分为两类:标量和生成性,并且在试验期间也没有有效扩展计算资源。当前的程序平均提供了所有投入的计算资源,无法进行DE复杂查询的尾分析,导致评估结果差。为了解决上述问题,Microsoft Research,Tsinghua University和Peking University的研究人员共同启动了推理模型(RRMS)。 RRMS在奖励最终奖励之前进行明确的理解过程,并可以根据任务的复杂性调整其他计算资源。该程序投资了更多的试用测试来源,以获得没有明显奖励的复杂质查询。 RRMS基于QWEN2模型,并采用变压器编码器体系结构来改变对文本完成任务进行建模的奖励,并在理解过程之后给予最终酌处权。研究小组使用奖励基金库进行系统分析,并检查了指标,包括遵守指导,协助,准确性,无害和细节水平。 RRM还支持多响应评估,并通过Eloic标记系统和淘汰机制,加上大多数投票。测试结果表明,RRMS在奖励台基准和潘达测试上执行虚荣。其中,RRM-32B达到了98.6%的识别精度,并与直接训练有相同数据的直接训练的模型进行了比较,RRMS显示出显着的性能差距,证明它们在复杂的查询中有效地使用计算时间来源。有了最佳的推理和训练后反馈,RRM超过了所有基线模型,并进一步提高了大多数投票机制的效率。研究还表明,随着量表从7b,14b扩展到32B,理解的越长总是会导致准确性的提高。 RRM非常适合通过并行和随后的-Scalar标量奖励模型使用计算资源,这为标量传统奖励模型提供了强有力的替代方法。