关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3918人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

《寒战1994》票房大爆，四位演员被赞，演技才是真正的颜值滤镜

娱乐圈笔娱君浏览 188

游戏规则变了，Stellantis或用中国技术再造Jeep

禾颜阅车浏览 3559

演员任敏生理期南极跳海，回船喝酒

失宠的小野猪浏览 2923

精彩推荐

影星梁小龙去世，曾拒绝拒再跟周星驰合作

TVB剧评社浏览 2547

短剧《还珠》：有些明星不火，真的是必然！

海绵宝宝的心事浏览 3358

搭猎鹰500辅助驾驶全新奇瑞QQ3将于4月上市

车质网浏览 2514

以硬核智能定义超值神车尚界H5交付破10000台

网易汽车浏览 3177

霸榜热搜，尺度惊人，他绝对值得你追

Yuki女人故事浏览 2351

AI带货频频“翻车”，谁应负责？

虎嗅APP 浏览 3332

普通人如何“偷偷”变美？她的4个微习惯很好抄

黎贝卡的异想世界浏览 2251

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉浏览 2723

专家：特朗普＂搬起石头砸波音脚＂他应该是疯了

澎湃新闻浏览 8950

坐劳斯莱斯里，偶遇粤B88888，网友：有比这更狠的宾利吗？

总李谈车浏览 3640

网友称在按摩时遭51岁技师摸下体猥亵门店:他才来3天

大风新闻浏览 97480

美联储报告：政策不确定性成头号金融稳定风险，央行独立性首次被点名，关注金融杠杆

华尔街见闻官方浏览 3393

这才是50岁女人该有的冬季穿搭，既保暖又体面，想不优雅都难

静儿时尚达人浏览 2943

成败AI：谷歌市值超越苹果

北京商报浏览 2589

阿联酋突然退出欧佩克被视为是＂特朗普的一次胜利＂

红星新闻浏览 30330

三元锂和磷酸铁锂二合一？揭开零跑D19超混电池黑科技

吴佩频道浏览 3730

钢铁业未见“金九银十” 中钢协呼吁“自律控产”

中国经营报浏览 3548

图片报：皇萨塔、曼联、拜仁、药厂、多特等球队关注艾希霍恩

懂球帝浏览 1028

刘维伟回国寄语杨瀚森：未来不会顺利每天都要进步获赠签名球衣

醉卧浮生浏览 3567

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

江南都市报浏览 112630

小米“巨省电”，为何又是一波大争议？

正经社浏览 3560

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1