关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3917人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒:乌克兰向美国提交对最新“和平计划”的回复

澎湃新闻 浏览 2916

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

静儿时尚达人 浏览 2719

被预制菜笼罩,商场餐饮大撤退?

餐饮老板内参 浏览 3074

卫星图像首次发现:伊朗两处受损核设施有"重大活动"

澎湃新闻 浏览 7079

约旦基地美军战机骤增 包括F-35隐形战斗机

上观新闻 浏览 2031

vivo S50外观揭晓!全新告白配色:田曦薇同款

快科技 浏览 3096

米仓凉子涉毒被抓!当小三、遭家暴、交往瘾君子,50岁人生一团糟

萌神木木 浏览 3878

天禧AI 3.5正式亮相,超级互联3.0首次打破全生态壁垒

环球网资讯 浏览 3576

疑一则广告惹祸 特朗普宣布终止与加拿大所有贸易谈判

财联社 浏览 9523

雷军直播四小时回应质疑

大象新闻 浏览 2680

最便宜GLS 2026款奔驰GLS经典版售96.8万

网易汽车 浏览 2949

今年流行“毛衣+外套”,这样穿时髦又好看!

LinkFashion 浏览 2820

亚马逊与OpenAI签署380亿美元算力大单!AWS将供应英伟达芯片

华尔街见闻官方 浏览 3428

淘宝闪购立下 Flag 争第一,美团也不让步

雷峰网 浏览 2594

“有病去医院,有事找法院”!王老吉和加多宝又“打起来了”

国际金融报 浏览 3751

羊绒专场 || 被大家问了无数次的经典款,终于回来了!

黎贝卡的异想世界 浏览 3157

中国女主管跳海逃生:豪华邮轮上,多的是你不知道的事

她刊 浏览 1613

曼联新帝星加薪续约全谈妥,最快本周官宣!曝阿莫林也欣赏其进步

罗米的曼联博客 浏览 474

护士上门采样、公立医院检测京东到家快检推出新服务缓解流感季就医难题

上观新闻 浏览 3182

问界M6主打运动操控,正面对垒小米YU7

驾仕派 浏览 2365

深度丨怡园酒业连涨9倍:杨陵江的F2B2C酒饮商业操作系统开启裂变

财经无忌 浏览 2580
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1