关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3013人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

羽绒服+阔腿裤:今年冬天最火搭配,松弛又时髦!

LinkFashion 浏览 1686

香港中文大学团队突破:让AI有了"超级记忆",多步推理能力飙升!

科技行者 浏览 1843

内娱小白花,公然模仿某巨星却被全网夸爆?

Yuki女人故事 浏览 528

当奥迪走上“对抗路”,特斯拉开始疲于招架

车市雷达 浏览 2737

斯基拉:尤文派出球探考察萨索洛中场伊斯梅尔-科内

懂球帝 浏览 627

乌方用遥控炸弹远程暗杀俄军中校:汽车瞬间被炸飞

扬子晚报 浏览 2566

说一个令很多人不安的事:比亚迪,越来越像理想了

小李车评李建红 浏览 2805

微软OneDrive AI人脸识别功能引争议:每年仅允许用户关闭三次

IT之家 浏览 2877

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

静儿时尚达人 浏览 2590

45岁董洁北京定居,自己洗衣做饭很勤劳

无处不风景love 浏览 2470

国家出手太快,这一仗是打不起来了

老斯基财经 浏览 1325

碳酸锂价格,巨震!

证券时报 浏览 2326

看看这些穿搭就知道,秋季穿衣很简单,找对方法舒适又得体

静儿时尚达人 浏览 2547

金店墙体惊现盗洞 男子将170万元黄金藏祖坟墓碑后

极目新闻 浏览 2049

宋伊人新剧被传谣,是要逼人“剖腹取粉”吗?

麻辣婊 浏览 2412

德云社董事长王惠凌晨发文,郭汾阳长大,触景生情

动物奇奇怪怪 浏览 2798

普京即将访印之际 印俄敲定价值20亿美元核动力潜艇租赁协议

环球网资讯 浏览 2169

全运男足U20:浙江、新疆成绩完全相同,需抽签决定晋级球队

懂球帝 浏览 2479

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 16128

斯图里奇:阿森纳踢得非常老练,他们传球精准&决策出色

懂球帝 浏览 2019

球迷态度:CBA第一阶段结束,你对你的主队表现满意吗?

懂球帝 浏览 1440
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1