关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者876人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家 浏览 674

报中共中央批准开除党籍1个月后 副部级"内鬼"被逮捕

上观新闻 浏览 74767

车企研发:小米车门锁在某些看不见的地方省去了成本

第一财经 浏览 5165

美媒:中国技术突破极限 42条输电线路全都碾压美国

澎湃新闻 浏览 1026

女孩被篮球砸头后确诊癔症自残失禁 母亲:我也不理解

上游新闻 浏览 6765

智元精灵G2新一代工业级交互式具身作业机器人发布

IT之家 浏览 1019

美军两架B-52轰炸机接近委内瑞拉海岸

环球网资讯 浏览 712

江西通报考生迟到37分钟进入考场:因暴雨受困跑步到达

江西省教育考试院 浏览 91232

LinkedIn 自 2016 年来首次披露数据:去年订阅收入 17 亿美元

IT之家 浏览 12236

曼城5人新冠阳性,英超第16轮比赛被迫推迟

趣看热点 浏览 25253

疑张亮儿子塌房,留学致女同学怀孕?

观察鉴娱 浏览 371

吴越曾黎同框对比!一个自然老去一个脸僵浮肿,不是没皱纹就年轻

萌神木木 浏览 978

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 604

百度王海峰:飞桨开发者数量达800万,创建模型80万个

网易科技报道 浏览 14528

突发:华晨欲出售剩下25%股份,华晨宝马要“改姓”?

车快评 浏览 12396

麻生太郎窜台鼓吹"立足于战" 媒体:实际就是官方声音

北京日报客户端-长安街知事 浏览 84299

再见了沈腾,再见了贾玲,再见了沙溢!活得好好的已经被大家怀念

阿雹娱乐 浏览 856

美高官访尼日尔 警告军政府勿引入瓦格纳部队

环球网资讯 浏览 14595

用重罚来逼迫商家“限价”,京东在焦虑什么?

斑马消费 浏览 888

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 899

古利特:皇马3个前锋无球时做的太少,贝林厄姆成为受害者

懂球帝 浏览 109
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1