关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3918人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

影星梁小龙去世,曾拒绝拒再跟周星驰合作

TVB剧评社 浏览 2547

短剧《还珠》:有些明星不火,真的是必然!

海绵宝宝的心事 浏览 3358

搭猎鹰500辅助驾驶 全新奇瑞QQ3将于4月上市

车质网 浏览 2514

以硬核智能定义超值神车 尚界H5交付破10000台

网易汽车 浏览 3177

霸榜热搜,尺度惊人,他绝对值得你追

Yuki女人故事 浏览 2351

AI带货频频“翻车”,谁应负责?

虎嗅APP 浏览 3332

普通人如何“偷偷”变美?她的4个微习惯很好抄

黎贝卡的异想世界 浏览 2251

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉 浏览 2723

专家:特朗普"搬起石头砸波音脚" 他应该是疯了

澎湃新闻 浏览 8950

坐劳斯莱斯里,偶遇粤B88888,网友:有比这更狠的宾利吗?

总李谈车 浏览 3640

网友称在按摩时遭51岁技师摸下体猥亵 门店:他才来3天

大风新闻 浏览 97480

美联储报告:政策不确定性成头号金融稳定风险,央行独立性首次被点名,关注金融杠杆

华尔街见闻官方 浏览 3393

这才是50岁女人该有的冬季穿搭,既保暖又体面,想不优雅都难

静儿时尚达人 浏览 2943

成败AI:谷歌市值超越苹果

北京商报 浏览 2589

阿联酋突然退出欧佩克 被视为是"特朗普的一次胜利"

红星新闻 浏览 30330

三元锂和磷酸铁锂二合一?揭开零跑D19超混电池黑科技

吴佩频道 浏览 3730

钢铁业未见“金九银十” 中钢协呼吁“自律控产”

中国经营报 浏览 3548

图片报:皇萨塔、曼联、拜仁、药厂、多特等球队关注艾希霍恩

懂球帝 浏览 1028

刘维伟回国寄语杨瀚森:未来不会顺利每天都要进步 获赠签名球衣

醉卧浮生 浏览 3567

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

江南都市报 浏览 112630

小米“巨省电”,为何又是一波大争议?

正经社 浏览 3560
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1