具体来说✿ღ,新方法完全不需要外部奖励信号或标注数据洛克王国刷绝版宠物挂✿ღ,只需使用模型自身的置信程度作为内在奖励信号洛克王国刷绝版宠物挂✿ღ。
与使用外部奖励信号GRPO相比洛克王国刷绝版宠物挂✿ღ,新方法在数学任务上不需要标准答案也能提升基础模型性能✿ღ,在代码任务上表现得更好✿ღ。
要么需要大量人工标注(如ChatGPT的RLHF)✿ღ,要么需要可验证的标准答案(如DeepSeek的RLVR)✿ღ。
那么当AI能力逐渐接近甚至超越人类时✿ღ,能否让模型仅凭自身产生的内在信号✿ღ,摆脱对外部监督的依赖?
针对这个问题✿ღ,UC Berkeley团队提出新训练方法Intuitor✿ღ,计算模型预测分布与均匀分布之间的KL散度作为“自信程度”beat365入口✿ღ。
通过优化这个内在信号✿ღ,INTUITOR鼓励模型生成它自己”更有把握”的回答洛克王国刷绝版宠物挂✿ღ,也能促使模型生成更结构化的推理过程beat365入口✿ღ。
传统外部奖励信号的强化学习容易被“钻空子”洛克王国刷绝版宠物挂✿ღ,如模型可能生成语法正确但逻辑错误的代码来匹配测试用例洛克王国刷绝版宠物挂✿ღ,或在数学题中直接背答案而非推理✿ღ。
在INTUITOR中✿ღ,团队发现如果使用离线步的时候模型也学会了作弊✿ღ:在回答中附加一个已经解决的简单问题来提高自信度分数✿ღ。
实验选取Qwen2.5-1.5B/3B作为基础模型✿ღ,使用自我确定度作为唯一的奖励信号✿ღ,并将其分别置于INTUITOR和两个基线方法(GRPO✿ღ、GRPO-PV)在MATH数据集的预训练中✿ღ。
实验表明✿ღ,在通过INTUITOR进行微调后✿ღ,Qwen2.5-1.5B从最初只会输出重复的无意义内容且对线%✿ღ,转变为无效输出大幅减少洛克王国刷绝版宠物挂✿ღ、响应长度有效增加✿ღ。
此外✿ღ,INTUITOR在多任务泛化上也表现优秀✿ღ,例如当Qwen2.5-3B在代码生成任务上✿ღ,虽然相对滞后但持续增长✿ღ,最终性能比GRPO高8%✿ღ,相对提升65%beat365入口✿ღ。
同时团队还观察到✿ღ,在进行长链推理时beat365入口✿ღ,INTUITOR模型在生成完整代码前✿ღ,都会添加自然语言推理(如“为解决X问题洛克王国刷绝版宠物挂✿ღ,需先执行Y步骤”)✿ღ,据推测也许这就是INTUITOR能够在测试中始终表现出色的原因之一✿ღ。
为了评估自我确定度作为奖励的鲁棒性✿ღ,研究人员还将离线自我确定度(来自固定基础模型的奖励)与在线自我确定度(来自不断进化的策略模型的奖励)进行了比较✿ღ。
另外为进一步评估自我确定度作为奖励信号的质量✿ღ,研究人员还分析了模型在MATH500响应中生成的自我确定度分数分布✿ღ。
值得注意的是✿ღ,INTUITOR模型对正确答案的self-certainty显著更高✿ღ,而GRPO虽提升了模型自评能力✿ღ,但区分度明显低于INTUITORbeat365入口✿ღ。
由于受计算资源限制✿ღ,实验只在相对较小的无监督语料库上进行训练✿ღ,未来可在更大规模的基础模型和更多样化的真实世界数据集上进一步研究INTUITOR的优势beat365入口✿ღ。
2019年✿ღ,Xuandong Zhao从浙江大学毕业后✿ღ,就进入了加州大学圣塔芭芭拉分校攻读计算机科学博士学位✿ღ,期间还曾在阿里巴巴✿ღ、Microsoft和Google等公司实习✿ღ。
自2024年他进入UC Berkeley后beat365入口✿ღ,除本次的新成果外✿ღ,至今一共还发表过十多篇论文✿ღ,并先后被ICLR 2025✿ღ、ICML 2025等接收✿ღ。
另外在今年2月✿ღ,Xuandong Zhao和Zhewei Kang还合作发表了一篇论文✿ღ,描述了基于自我确定性的LLMs推理能力提升新策略Best-of-N✿ღ,可以看作是本篇论文的一次先验尝试✿ღ。国际观✿ღ,beat365官方登录入口✿ღ!beat365(中国)官方网站✿ღ。BET356亚洲版在线✿ღ,BEAT365365体育app下载✿ღ!BEAT365体育亚洲版
![]()