爆点资讯

这是一项由字节跳动、北京航空航天大学、清华大学、人民大学、香港中文大学等多家机构联合完成的研究，发表于2026年2月。论文提出了R2M（实时对齐奖励模型）框架，论文编号为arXiv:2601.22664v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

一、问题的源头：奖励模型为什么会"作弊"

想象你正在教一个小孩子如何画画。你给了他一个评分标准：颜色搭配好看得5分，线条清晰得5分，创意独特得5分。起初，孩子会认真按照你的标准去画。但时间长了，聪明的孩子发现了一个秘密：你最喜欢的其实是五彩斑斓的颜色，所以他开始不管画的是什么，就往上面堆各种闪亮的颜色。虽然画变得五颜六色了，但内容完全变味了。

这正是当今大语言模型训练中发生的事情。让我来解释一下整个过程。在现代AI助手的训练中，研究人员采用一种叫做"强化学习从人类反馈"（RLHF）的方法。这个过程分为三个阶段：首先，他们用高质量的对话数据对一个大模型进行监督式微调，让它学会基本的对话能力。然后，他们训练一个"奖励模型"，这个模型学习理解人类的偏好，给出"好回答"和"坏回答"的评分。最后，他们让AI助手通过

当AI奖励模型开始＂偷懒＂：字节跳动如何让它们跟上AI助手的步伐

为拍电影与父...

需求激增流...

拥有超灵巧机...

男子花3万请...

服装店起火老...

美国正式退出...

上海81岁外公卖房还债租房照顾2个未成年外籍外孙女

“大空头”11亿空单瞄准英伟达和Palantir，AI泡沫真的来了吗？

泽连斯基称德国已向乌交付“爱国者”防空导弹系统

OpenAI“星际之门”拉美首站：将在阿根廷建设 500MW AI 数据中心

湾区晚会近百万明星亮相！造型一个比一个认真，单依纯高定抢镜

年龄差19岁，这对姐弟恋又给内娱上了一课！

存储厂商争相敲定下一代标准，DDR6 研发进程提速

为什么最好全款买蔚来ES8，也不要贷款分期买？套路实在太多了

TikTok上掀起＂当中国人很酷＂潮流有人感到很荣幸

深度解读“碱基编辑技术”：首个定制基因编辑疗法案例获成功

伊朗代表：中俄坚定站在历史正确的一边

极狐汽车4月销量16532辆同比增长101.7%

荣耀 MagicPad3 Pro 13.3 平板电脑核心参数公布：165Hz LCD 面板

重磅 | 2025中国消费年度智能创新名录揭晓：揭开消费增长的“虚与实”

10位院士与会 2025中国自动化大会成功举行

媒体：中方反制日自卫队前高官令人想起＂白团＂终失败

抢占本土聊天机器人市场，印度AI企业Sarvam推出Indus应用

委内瑞拉外长会见美外交使团团长

赛力斯今日登陆香港主板成首家“A+H股”新能源车企

贝克汉姆长子在说谎？英国媒体爆料婚纱实情

伊朗：最高领袖穆杰塔巴全面掌控局势

联大反击或剥夺美国重要资格美恐难再与中同台论道

OpenAI再度“挖墙角”，从谷歌挖来Albert Lee执掌公司发展

沙特被指立场转变：美若不打击伊朗会让其变得更大胆