爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

扫码即飞！西...

被金高银新剧...

5年内在英国...

海南自贸港全...

她说“友谊万...

记者实测多...

真爱大牌破价|| 回购多年，这次竟然破天荒200+

4年“伺候”4位总经理，水井坊公关一号位挂印封金

委内瑞拉谴责美军扣押委油轮：国际海盗行为

男子家中冰箱门关不上灵机一动求助AI 差点花了冤枉钱

3D唇妆风好大，人类对唇线笔的开发不足1%

黄仁勋放大招，全栈 AI 加持的NVIDIA 要承包智驾未来？

市值减少约7800亿元！汽车业上市公司巨震

姚晨回应即将到期“赎身”！真是弹指一挥间...

双节假日即将拉开序幕：酒店民宿预订率均超去年，第一批拼假游客已抵达酒店

特朗普：一支舰队正在向伊朗方向航行

泽连斯基:乌谈判团队将于2日晚前往乌美俄三方会谈地点

东南亚出海速递腾势泰国交付突破3000辆

置换价17.99万起奇瑞风云T11正式上市

声音更加动听本田全新一代混合动力系统最新消息曝光

29岁女白领荒野求生半月瘦成＂闪电＂:睡觉时放一把刀

多地突然取消！小地方，不配办马拉松了？

普通人穿衣别太老气横秋！这些穿搭给你灵感，保暖耐看两不误

冬天从60分穿到80分，只需要这个实用单品

预计一季度上市尚界高颜值轿跑Z7预告图发布

今年春天的半裙，很“牛”！

光伏重大资产重组终止

“嘎子”谢孟伟被执行超1400万元并被限制高消费

马斯克xAI污水处理厂破土动工，每年可为孟菲斯节约近190亿升水

追觅“星空计划”Nebula NEXT 01 Concept获CES官方置顶推荐