关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3920人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女游客坠亡的秋千项目位于川东第一高瀑 当地曾发提醒

南方都市报 浏览 14951

忘切号了?桑乔社媒发文鼓励自己后,又用自己账号留言

懂球帝 浏览 3901

小米汽车又一重要专利公布!

电动知家 浏览 3212

辽宁无缘决赛采访!杨鸣回应赵继伟伤势,再谈辽粤对决展伤感话题

篮球资讯达人 浏览 3455

广西百色多个村屯被洪水浸泡逾20日 多个村屯成孤岛

南方都市报 浏览 8632

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 9487

千万富翁王晓举寻亲成功,妻子举动让人泪目

史行途 浏览 4515

全网围观,这年度夫妻撕叉大戏来了

独立鱼 浏览 2950

乔-科尔:波特根本就没得到足够的支持,西汉姆对他有所怀疑

懂球帝 浏览 4135

希罗赛季首秀24+7热火险胜独行侠夺5连胜 状元14中5华盛顿27+8

醉卧浮生 浏览 3196

台媒:英美等技术顾问不敢坐台自制潜艇出海

环球网资讯 浏览 2949

伊萨克遭范德芬剪刀脚,伤病分析师:前者很大可能伤缺8-10周

懂球帝 浏览 2870

98版沙僧刘大刚去世,最后露面曝光

科学发掘 浏览 3385

被问是否会刺杀伊朗新领袖 特朗普突然"共情"了

极目新闻 浏览 33078

伊朗方面披露美军在伊南部海域兵力布防

新京报 浏览 2333

午评:创业板指半日跌3% 稀土永磁板块逆势爆发

网易财经 浏览 3773

伊姐周六热推:电视剧《逐玉》;电视剧《江湖夜雨十年灯》......

伊周潮流 浏览 1628

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 3560

史上首次!微软官宣Windows 26H1版本:已推出测试版

快科技 浏览 3348

法院首次拍卖未披露“凶宅”信息,买家不满申请撤销交易!深圳一房产再次挂拍

红星资本局 浏览 3686

今年电动汽车销量将创六年来最慢增速

大象新闻 浏览 2675
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1