爆点资讯

这是一项由字节跳动、北京航空航天大学、清华大学、人民大学、香港中文大学等多家机构联合完成的研究，发表于2026年2月。论文提出了R2M（实时对齐奖励模型）框架，论文编号为arXiv:2601.22664v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

一、问题的源头：奖励模型为什么会"作弊"

想象你正在教一个小孩子如何画画。你给了他一个评分标准：颜色搭配好看得5分，线条清晰得5分，创意独特得5分。起初，孩子会认真按照你的标准去画。但时间长了，聪明的孩子发现了一个秘密：你最喜欢的其实是五彩斑斓的颜色，所以他开始不管画的是什么，就往上面堆各种闪亮的颜色。虽然画变得五颜六色了，但内容完全变味了。

这正是当今大语言模型训练中发生的事情。让我来解释一下整个过程。在现代AI助手的训练中，研究人员采用一种叫做"强化学习从人类反馈"（RLHF）的方法。这个过程分为三个阶段：首先，他们用高质量的对话数据对一个大模型进行监督式微调，让它学会基本的对话能力。然后，他们训练一个"奖励模型"，这个模型学习理解人类的偏好，给出"好回答"和"坏回答"的评分。最后，他们让AI助手通过

当AI奖励模型开始＂偷懒＂：字节跳动如何让它们跟上AI助手的步伐

49岁舒淇终...

“锂王”炒股...

纳帅：特尔施...

“戏里”是父...

低价＂银行直...

港股科网类产...

委内瑞拉先发制人战斗机开火美军进退两难特朗普难办

华为Sound X获HarmonyOS 6.0 Beta升级，新增AI搜歌等功能

大学教授教100个老人用大模型，让AI了解他们真正的困境

三年巨亏30亿，鹏华基金闫思倩的“光环”与持有人的“叹息”

加沙停火一个月：民众苦难如常美以又有新动作

国产车在英国被“警告”了，还是安全问题，但这回我真憋不住笑了

泽连斯基宣布：或购买150架＂鹰狮＂战斗机已签意向书

她被推上C位，这次谁也没料到

被家暴16次女子得70%共同财产及10万赔偿共140万余元

RMC：姆巴佩找到外部专家以检查膝伤，他有望3月中旬回归

聂远不让女儿雨天上学，黄磊女儿满口错别字，怪不得星二代要进圈

小鹏P7+增程版曝光选用东安1.5T增程器

媒体：美国对台军售本质是在加重中华人民共和国负担

成毅助理打人上热搜又反转！网友质疑是被公司黑

保时捷的十字路口:奥博穆交棒,勒茨斯的回归与挑战

萨高大战流产！萨巴伦卡将挑战赛变授课堂，高芙被小白菜扫成服妹

登顶Hugging Face GAIA全球榜首！中兴超级智能体终结「AI黑盒」时代

Agent的发展趋势，CB insights深度剖析了170家公司后给出了答案

三亚五星酒店再现10万房价有人1折买3件奢侈品花1250

英超前六相互交锋积分榜：曼联、维拉积12分最多，阿森纳9分

月销破2万辆极狐年销翻番在望摸到准一线门槛

赵继伟伤退，广东击败辽宁，与浙江会师男篮决赛！

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

民营航天新年首战告捷：星河动力谷神星一号海上成功发射四星入轨