关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3009人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

北汽集团10月整车销量160133辆同比增长11%

网易汽车浏览 2608

小扎千亿新模型被曝「套壳」Qwen！Meta开源已成笑话

新智元浏览 2189

退休三年后“落马”，恒邦财险原董事长肖晓华被查

蓝鲸Insurance 浏览 1649

精彩推荐

2026 春节档终极 PK！沈腾周星驰二次交手

第一娱记浏览 1693

深圳水贝“杰我睿”最新进展：有消费者收到兑付方案，20g黄金+9000多元余额，兑付本金4856元

每日经济新闻浏览 1491

NASA局长之争出新番：特朗普重提马斯克盟友

观察者网浏览 2502

又有一批A股龙头进军商业航天了！

君临财富浏览 1751

演员任敏生理期南极跳海，回船喝酒

失宠的小野猪浏览 2057

伊朗方面披露美军在伊南部海域兵力布防

新京报浏览 1371

银行大动作！这类大额存单利率，跌破1%

中国基金报浏览 1750

倍耐力官方：下赛季取消C6；所有车队将在12月9日测试新胎

懂球帝浏览 2321

四部门重拳出击严控新车以二手车名义出口

北京商报浏览 2422

售价8.88万起 RELY威麟R08上市

功夫AUTO 浏览 3553

邮报：拉亚已成为世界最优秀的门将之一，扑救与脚下技术俱佳

懂球帝浏览 2839

今年第三次！53万的理想MEGA烧了，奶爸：不敢想象

说财猫浏览 2657

金银＂大跳水＂深圳水贝有档口单日卖出200万元金条

红星新闻浏览 6170

泽连斯基向特朗普展示俄境内潜在打击目标地图

环球网资讯浏览 2747

科学家构建AI“赛博学术小镇”，让化工科研实现自主演化

DeepTech深科技浏览 2830

32岁章泽天，开播客节目采访刘嘉玲

娱乐圈笔娱君浏览 1596

女子结婚14年被丈夫打了13年丈夫：我才是受害者

中国新闻周刊浏览 13036

六氟磷酸锂“带飞”氟化工，衢州启动“中国氟谷”的底气在哪里？

时代周报浏览 2479

天禧AI 3.5正式亮相，超级互联3.0首次打破全生态壁垒

环球网资讯浏览 2701

与独行侠续约无望！曝浓眉迫切希望交易离队愿前往老鹰猛龙打球

罗说NBA 浏览 1778

75岁谭咏麟街头买金鱼！与老板老友式寒暄

丁睋解说浏览 1414

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1