关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1108人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"中原黄哥"直播喝酒身亡 妻子欲起诉平台:没掐断直播

上游新闻 浏览 90633

拒增加议员津贴后 米莱被指给自己和内阁高官加薪48%

参考消息 浏览 70027

蔡崇信第一把火!菜鸟推出自营快递,对标顺丰京东

澎湃新闻 浏览 15386

彻底凉了!华鼎奖决定取消郑爽荣誉称号郑爽最新近况如何?

趣看热点 浏览 26623

别克至境L7:新能源赛道,没有人能靠旧身份活下去

AutoBusiness 浏览 1709

微信官方致歉:将继续优化与高校的沟通流程,加强合作

第一财经资讯 浏览 16017

这双鞋太火了!怎么搭都好看|好物

LinkFashion 浏览 10966

烧央行废政府,彻底自由化,阿根廷逆天候选人赢下初选

郎club 浏览 14480

拜登智力缺陷引关注,他可能都无法够独立应对记者

趣看热点 浏览 538019

海港战町田泽维亚海报:象棋将军局,谋定后动

懂球帝 浏览 912

李念挺3胎孕肚参加香港阔太聚会 已怀孕8个月

云图娱乐 浏览 19152

看了奈雪の茶才知道 卖奶茶真的不赚钱

全天候见闻 浏览 26528

新奥能源研究院院长刘敏胜:探索球形环氢硼聚变技术,开发商用聚变能源

红星新闻 浏览 1054

0-4惨败!中超升班马2连败+0进球,主帅怒摔教练证,津门虎2轮4分

环太平洋老正太 浏览 11959

一天跌20%,怎么避开这类大坑

简七理财 浏览 10927

【生态环境周观察】第二轮中央生态环保督察整改任务完成近八成;福岛第一核电站核污水泄漏原因公布;谷歌联手环保组织推动甲烷泄漏监测项目

钛媒体APP 浏览 12752

克洛普:我不在意阿诺德说的话;瓜迪奥拉是世界上最好的教练

懂球帝 浏览 12265

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 1707

大小S诉狗仔案再开庭 葛斯齐:从没指控两姐妹吸毒

网易娱乐 浏览 14423

50+女人这么穿,简单款一样搭出“有钱人”的感觉,时髦利落

静儿时尚达人 浏览 2032

美方案要求乌方做出历史性让步 被指是"普京愿望清单"

澎湃新闻 浏览 13489
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1