关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro720人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 3561

特朗普突然宣布对韩关税升至25% 青瓦台紧急派人赴美

红星新闻 浏览 6334

外媒:安世半导体已暂停向中国工厂供应晶圆

澎湃新闻 浏览 14396

皮耶罗评尤文浪费机会太多:皇马就不会浪费这么多机会

懂球帝 浏览 3572

胡塞武装称若加沙停火破裂将恢复袭击以色列

极目新闻 浏览 3428

消失在官方记录中的定制传奇:法拉利FX

老爷车 浏览 3513

媒体:不客气地说 荷兰是在全球面前抢劫中国企业

环球网资讯 浏览 8735

大相径庭,维拉上赛季英超前五轮过后高居第3,本赛季仅第18

直播吧 浏览 4329

宝能姚振华实名举报,相关部门回应:举报不实,拍卖正常推进

南方都市报 浏览 2544

星空相册|天宇上演木星伴弦月

新华社 浏览 3811

这6款发色居然这么火?50张图可以直接给tony

Yuki女人故事 浏览 1874

美媒:以总理计划说服特朗普帮忙打伊朗

北京日报 浏览 3017

借鉴丰田GR与日产Nismo,本田也要搞专属运动车系HRC

CLauto酷乐汽车 浏览 2605

女子手机突然预警陌生人在家偷东西 男子看见监控懵了

环球网资讯 浏览 6693

西班牙拒绝加入美国发起的“和平委员会”

国际在线 浏览 2442

华为“二代”:孟晚舟与姚安娜,截然不同的路

清欢娱乐八卦 浏览 3002

泰柬冲突柬方70人死伤 泰国近20万人住进避难中心

财联社 浏览 3098

鸿蒙智行首款MPV智界V9完成申报,采用7座布局

IT之家 浏览 2677

诺和诺德董事长携6名董事集体辞职,董事会“大换血”,年薪5000万CEO此前离任

红星资本局 浏览 3665

章泽天最新创业,轰动全网!评论区疯狂点名刘强东

财通社 浏览 2159

福特中国人事调整:杨美虹3月底退休 李方方即将接棒

网易汽车 浏览 1957
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1