关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro718人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

现货金价再创历史新高,牛市还能走多远?

国是直通车 浏览 2620

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉 浏览 2723

特朗普称取消与普京会晤并对俄实施新制裁 普京回应

每日经济新闻 浏览 6771

特斯拉成简配“鲶鱼”,中国品牌如何应对?

百姓评车 浏览 3509

巴解组织高级官员:哈马斯回应“20点计划”是负责任做法

环球网资讯 浏览 3640

梁小龙死因被爆!去世前一天还在练咏春

阿坹武器装备科普 浏览 2597

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

静儿时尚达人 浏览 2687

琉球群岛地位未定中方在联合国亮明态度 日媒破防

头条爆料007 浏览 34537

中国算力进入拐点:“用多了就有生态,用少了生态就跑了”

第一财经资讯 浏览 4291

辽宁88-61山东迎3喜1忧!原帅付豪成支柱,对阵广东内线引担忧!

篮球资讯达人 浏览 3417

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 3445

跨军种联合 直击空军航空兵直升机海上着舰训练

环球网资讯 浏览 3364

迅雷起诉前CEO陈磊:指控其隐秘掏空公司,追索资产2亿元;知名游戏公司发布反腐公告:3名员工涉嫌收受贿赂,已被拘留;京东成立文旅公司

雷峰网 浏览 2561

为拍电影与父母闹掰的翁虹 不让女儿进娱乐圈

二妹扯娱 浏览 3698

女子回门宴放父母34年前结婚录像 现场8成宾客曾参加

极目新闻 浏览 10086

女子出差遭客户强制猥亵致精神创伤:逃卫生间逃过一劫

大风新闻 浏览 14178

暴跌超70%!"扫地机器人鼻祖"破产 中国债主或接盘

华尔街见闻官方 浏览 2909

男子为救人按断女子6根肋骨 女方丈夫:认他为异姓兄弟

潇湘晨报 浏览 22699

宁德时代第三季营收1042亿:同比增12.9% 净利185亿斥资800亿理财

雷递 浏览 3160

比亚迪王朝“饭票”曝光,可吃四菜一汤

IT之家 浏览 2956

工信部第405批申报图曝光:比亚迪、华为系全面出击

网易汽车 浏览 1663
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1