关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者3573人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

56岁陈红颜值回春,参加路演不惧高清镜头,她满脸皱纹依旧美丽

温柔娱公子 浏览 3771

中国对稀土相关技术实施出口管制

财联社 浏览 19612

春天穿“黑色”太沉闷?学会这些搭配小技巧,显瘦减龄还洋气

静儿时尚达人 浏览 274

欧洲对美方"28点计划"逐一删改 令俄罗斯舆论颇为不满

环球网资讯 浏览 16134

全网炸锅!大模型惨遭“投毒”,有多可怕?

功夫财经 浏览 1654

美以袭击伊朗 中东军事冲突持续升级

国际在线 浏览 1885

试过了,“和SIM卡并无差异”

都市快报橙柿互动 浏览 2936

上汽大众首款“9系旗舰” ID. ERA 9X实车曝光

网易汽车 浏览 2628

蔚来全新ES8正式上市,起售价40.68万元

财经无忌 浏览 4484

总投资约 2 亿元,长江首艘光伏发电豪华游轮“美维凯璇”首航

IT之家 浏览 4320

特朗普:我也不想 但我们确实从乌克兰战争中赚到钱了

澎湃新闻 浏览 21208

岚图汽车卢放:必须啃下豪华轿车市场这块“硬骨头”

经济观察报 浏览 3068

特朗普高喊和平,以色列悄悄磨刀:巴勒斯坦的血腥噩梦结束了?

宋鸿兵 浏览 3612

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2002

威少:梦想打橄榄球的我从未想过能有如今成就,希望我能激励到其他人

懂球帝 浏览 2821

2028年4月投产 全新宝马iX6效果图曝光

车质网 浏览 305

还得是她!杀疯了,也杀爽了!

吐槽电影院 浏览 2178

遍布全国的连锁餐饮,为何进不了江西?

BT财经 浏览 4289

雷克萨斯NX绝色限定版上市 售价30.96万起

车质网 浏览 2634

“一球制胜”周董首轮游,两ATP巡回赛冷风劲吹!

网球之家 浏览 2600

伊朗并未请求延长停火 伊高官:必须武力回应封锁

财联社 浏览 692
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1