关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4652人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

年轻人迷上在线下交换自制周边

钛媒体APP 浏览 4340

罗永浩质疑大金中央空调；摩尔线程首款AI电脑发布丨邦早报

创业邦浏览 3627

午评：创业板指半日跌3% 稀土永磁板块逆势爆发

网易财经浏览 4454

精彩推荐

英超本赛季平均每场持续100分36秒，但净比赛时间只有54.7%

懂球帝浏览 4507

关晓彤马尔代夫度假，满屏大长腿超抢镜

扒虾侃娱浏览 4372

樊振东参加英超名人堂球员二选一挑战，最终选择贝克汉姆

懂球帝浏览 3421

走失女童被找到后父亲首度发声：感谢1.2万个恩人

极目新闻浏览 10291

存储三巨头冲破万亿美元市值，长鑫科技上市到底值多少钱？

郭施亮浏览 301

退赛5个月，全红婵传喜讯，人民日报亲自官宣

揽星河的笔记浏览 4353

曾毓群赴穗，小鹏与宁德双方能否“破冰复合”？

百姓评车浏览 3554

“短大衣”今年冬天又火了，这4件怎么搭都好看！

LinkFashion 浏览 2670

媒体：华盛顿一声枪响后美英两个老人握手较劲八秒

新民周刊浏览 32440

曾获专班支持的“座上宾”，如今被追要1.4亿元投资款！光伏龙头50亿元项目推进不利，收地方政府“听证通知书”

每日经济新闻浏览 3430

4400亿！中证A500指数基金一周年：总规模增近50%，近80家基金公司下场

券商中国浏览 5049

白百何工作室放聊天记录了！锤了剧组没撒谎，东京之前就有矛盾

萌神木木浏览 3307

巴黎客战布雷斯特：阿什拉夫、KK7首发，登贝莱替补

懂球帝浏览 3555

T恤+阔腿裤、衬衫+阔腿裤，今年夏天最火的搭配，谁穿谁时髦！

LinkFashion 浏览 1226

新角色？詹姆斯复出后或成湖人老三变身加强版追梦更利好紫金军

罗说NBA 浏览 4250

像颜如晶这样坚持，做什么都会成功吧！

时尚COSMO 浏览 3750

林丹西班牙庆生画面：9 岁儿子举动看哭网友

东方不败然多多浏览 3429

利智输了？李连杰终是没放下一直亏欠的“她”

顾史浏览 3243

没听说过1.6T光模块测试公司，Q1利润增速超500%！ | 0421

虎嗅APP 浏览 1412

米仓凉子涉毒被抓！当小三、遭家暴、交往瘾君子，50岁人生一团糟

萌神木木浏览 4577

“比特币富婆”钱志敏在英国认罪，6.1万枚比特币市价已达493亿元，赃款归谁？

红星新闻浏览 4190

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1