关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro721人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美团、京东外卖、淘宝闪购:自愿执行《外卖平台服务管理基本要求》国家标准

澎湃新闻 浏览 3158

更年轻动感 全新马自达CX-5正式首发亮相

车质网 浏览 3473

百亿私募一站式出海!招商证券打造跨境服务生态

券商中国 浏览 2874

俄黑海港口设施遭袭,乌军证实实施火力打击

潇湘晨报 浏览 3398

军报评何卫东、苗华等被开除党籍军籍:没有"铁帽子王"

北京日报客户端 浏览 9783

贺峻霖发文:“但凡有人尊重一下我呢”

韩小娱 浏览 286

汪峰演唱会遭遇“掉链子”

一娱三分地 浏览 3446

台北攻击事件嫌犯携满箱汽油弹欲纵火 被男子舍命拦下

红星新闻 浏览 8422

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 9922

天士力前三季心血管板块实现增长

证券市场周刊 浏览 3600

吉利ICON巧克力心动紫上市!网友:销量稳了

汽车网评 浏览 3544

春晚阵容曝光!十年来最强的演出阵容

阿纂看事 浏览 2427

售价40.28万元 2026款丰田GR YARIS上市

网易汽车 浏览 1019

一加 15 手机现身中国电信终端产品库,10 月 27 日发布

IT之家 浏览 3550

和任正非聊一聊,会有新品牌?

道哥说车 浏览 3787

纯电续航345km 小鹏X9增程版将于四季度上市

车质网 浏览 3564

哈马斯宣布将解散加沙政府机构 并准备移交管理权力

国际在线 浏览 2619

于和伟点评余皑磊的表现,只字不提演技二字,却真知灼见

娱乐圈笔娱君 浏览 3705

法国将在格陵兰岛开设领事馆 法外长:这是个政治信号

鲁中晨报 浏览 7918

理想为什么不做轿车,有了解释……

道哥说车 浏览 184

NBA加WNBA至少4夺MVP球员:一共6人 乔丹詹姆斯在列 阿贾今日入围

直播吧 浏览 4319
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1