关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4652人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英超本赛季平均每场持续100分36秒,但净比赛时间只有54.7%

懂球帝 浏览 4507

关晓彤马尔代夫度假,满屏大长腿超抢镜

扒虾侃娱 浏览 4372

樊振东参加英超名人堂球员二选一挑战,最终选择贝克汉姆

懂球帝 浏览 3421

走失女童被找到后父亲首度发声:感谢1.2万个恩人

极目新闻 浏览 10291

存储三巨头冲破万亿美元市值,长鑫科技上市到底值多少钱?

郭施亮 浏览 301

退赛5个月,全红婵传喜讯,人民日报亲自官宣

揽星河的笔记 浏览 4353

曾毓群赴穗,小鹏与宁德双方能否“破冰复合”?

百姓评车 浏览 3554

“短大衣”今年冬天又火了,这4件怎么搭都好看!

LinkFashion 浏览 2670

媒体:华盛顿一声枪响后 美英两个老人握手较劲八秒

新民周刊 浏览 32440

曾获专班支持的“座上宾”,如今被追要1.4亿元投资款!光伏龙头50亿元项目推进不利,收地方政府“听证通知书”

每日经济新闻 浏览 3430

4400亿!中证A500指数基金一周年:总规模增近50%,近80家基金公司下场

券商中国 浏览 5049

白百何工作室放聊天记录了!锤了剧组没撒谎,东京之前就有矛盾

萌神木木 浏览 3307

巴黎客战布雷斯特:阿什拉夫、KK7首发, 登贝莱替补

懂球帝 浏览 3555

T恤+阔腿裤、衬衫+阔腿裤,今年夏天最火的搭配,谁穿谁时髦!

LinkFashion 浏览 1226

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 4250

像颜如晶这样坚持,做什么都会成功吧!

时尚COSMO 浏览 3750

林丹西班牙庆生画面:9 岁儿子举动看哭网友

东方不败然多多 浏览 3429

利智输了?李连杰终是没放下一直亏欠的“她”

顾史 浏览 3243

没听说过1.6T光模块测试公司,Q1利润增速超500%! | 0421

虎嗅APP 浏览 1412

米仓凉子涉毒被抓!当小三、遭家暴、交往瘾君子,50岁人生一团糟

萌神木木 浏览 4577

“比特币富婆”钱志敏在英国认罪,6.1万枚比特币市价已达493亿元,赃款归谁?

红星新闻 浏览 4190
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1