关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3920人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

以军空袭加沙警车致8名警察死亡

国际在线浏览 1645

4天的沉默印证游本昌“真实人品”

娱乐圈笔娱君浏览 3471

帮助中国人撤离的伊朗民众：我们走不了的

南方都市报浏览 1920

精彩推荐

女游客坠亡的秋千项目位于川东第一高瀑当地曾发提醒

南方都市报浏览 14951

忘切号了？桑乔社媒发文鼓励自己后，又用自己账号留言

懂球帝浏览 3901

小米汽车又一重要专利公布！

电动知家浏览 3212

辽宁无缘决赛采访！杨鸣回应赵继伟伤势，再谈辽粤对决展伤感话题

篮球资讯达人浏览 3455

广西百色多个村屯被洪水浸泡逾20日多个村屯成孤岛

南方都市报浏览 8632

河南田地积水玉米发霉农民：夏天求的雨下在了秋天

经济观察报浏览 9487

千万富翁王晓举寻亲成功，妻子举动让人泪目

史行途浏览 4515

全网围观，这年度夫妻撕叉大戏来了

独立鱼浏览 2950

乔-科尔：波特根本就没得到足够的支持，西汉姆对他有所怀疑

懂球帝浏览 4135

希罗赛季首秀24+7热火险胜独行侠夺5连胜状元14中5华盛顿27+8

醉卧浮生浏览 3196

台媒：英美等技术顾问不敢坐台自制潜艇出海

环球网资讯浏览 2949

伊萨克遭范德芬剪刀脚，伤病分析师：前者很大可能伤缺8-10周

懂球帝浏览 2870

98版沙僧刘大刚去世，最后露面曝光

科学发掘浏览 3385

被问是否会刺杀伊朗新领袖特朗普突然＂共情＂了

极目新闻浏览 33078

伊朗方面披露美军在伊南部海域兵力布防

新京报浏览 2333

午评：创业板指半日跌3% 稀土永磁板块逆势爆发

网易财经浏览 3773

伊姐周六热推：电视剧《逐玉》；电视剧《江湖夜雨十年灯》......

伊周潮流浏览 1628

何炅51岁无妻无子，且不再隐瞒身体状况了？

艳儿说电影浏览 3560

史上首次！微软官宣Windows 26H1版本：已推出测试版

快科技浏览 3348

法院首次拍卖未披露“凶宅”信息，买家不满申请撤销交易！深圳一房产再次挂拍

红星资本局浏览 3686

今年电动汽车销量将创六年来最慢增速

大象新闻浏览 2675

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1