关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3022人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

给央视《小城大事》演技最好10位演员排名,赵丽颖第5,第1无争议

皮皮电影 浏览 1627

伊能静没有代表作

江湖人称艾掌门 浏览 2972

反趋势?理想汽车盈转亏!MEGA召回烧没11亿元?

道哥说车 浏览 2326

王传福:全世界NO.1的卷王

燃擎频道 浏览 1653

纯电续航超400km ID.ERA 9X将于4月正式上市

车质网 浏览 1456

以色列部长回应"虐待环保少女":很自豪

CCTV国际时讯 浏览 2055

统治力!罗诗芳卫冕全运会女子举重59公斤级金牌!

体坛周报 浏览 2455

最高预增超32倍 283只医药股“剧透”业绩

北京商报 浏览 1456

澳方称中方军机在南海对澳军机释放干扰弹 外交部回应

澎湃新闻 浏览 2818

最好看的羽绒服,都满足这几点

Yuki女人故事 浏览 1846

还是他,太敢说了!果然有些车企,只是把激光雷达卖给你,当摆设

小李车评李建红 浏览 1993

万项:距离理想中的球员还差很多;最后两场比赛不会放松

懂球帝 浏览 2208

新增蓝牙数字钥匙 迈腾3000万辆甄选款17.49万起

网易汽车 浏览 2872

塞内加尔一度罢赛,摩洛哥足协投诉

体坛周报 浏览 1632

300多个APP,想让我和AI谈感情

豹变 浏览 2739

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 2235

巴基斯坦和阿富汗同意继续停火 将于11月继续会谈

环球网资讯 浏览 2569

博洛尼亚-佛罗伦萨,瓦诺利:“这场胜利是为了带来喜悦。将罗科留下的价值观带到场上”

绿茵情报局 浏览 1683

交警视角解密:腾势N8L如何定义“安全担当”

网易汽车 浏览 1723

郭磊:三季度经济数据——哪些线索需要关注

首席经济学家论坛 浏览 2745

4平米阳台爆改“卧室”、110平3房有15平阳台!中建东孚中环麓岛“高得房率神话”背后

地产深度报道 浏览 2643
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1