爆点资讯

这篇由微软亚洲研究院的王思维、沈依飞、孙皓然等研究人员领衔完成的重要研究发表于2025年9月，论文编号为arXiv:2509.22613v1。研究团队还包括来自北京大学、哈佛大学和南加州大学的学者，这项跨机构合作的成果为我们揭开了一个重要谜题：为什么OpenAI的o1等先进AI模型在解决复杂问题时表现如此出色。

当我们看到ChatGPT或Claude能够解决复杂的数学题、编写完整的代码，或者制定详细的旅行计划时，我们可能会好奇：这些AI是如何学会"思考"和"规划"的？就像一个孩子从简单地记住答案，成长为能够分析问题、制定策略的成熟思考者一样，AI模型也经历了类似的学习过程。

在AI的世界里，存在两种截然不同的学习方式。第一种叫做"监督微调"，就像传统的填鸭式教育，老师告诉学生标准答案，学生机械地记住每个问题对应的答案。这种方法看似简单有效，但问题在于，当遇到新情况时，学生往往束手无策，因为他们只是在背诵，而没有真正理解解题的逻辑。

第二种方法叫做"强化学习"，这更像是让孩子在实践中摸索。孩子可以尝试不同的方法，如果成功了就得到奖励，失败了就调整策略。通过这种方式，孩子

微软亚研院突破：强化学习赋予语言模型规划能力

福建舰、山东...

74岁刘晓庆...

苏州大学突破...

57岁具俊晔...

天呐！汇丰银...

邓炳强称火势...

坐劳斯莱斯里，偶遇粤B88888，网友：有比这更狠的宾利吗？

这件衣服今年太火了！时髦女人都在穿

TA：利物浦的状态有所回暖；热刺展现了足够的斗志和韧性

增长神话暂停，理想“尖子生”光环失效？

美军突袭抓获马杜罗三个细节值得关注

伊朗外长折返伊斯兰堡内情披露

美将暂停实施对华海事等301调查措施一年

国电高科新专利可提高卫星设备的工作可靠性

“下沉剧宣”越来越不好用了？

冠军魔咒再应验，高芙总决赛屡屡被报一箭之仇，黯然出局

全智贤风波升级，雪花秘扇时期表现被审判，此前曾多次翻车

记者：福登疑似手部骨折，具体伤情还要等待扫描结果

李昀锐孟子义被曝恋情，双方火速回应

时间序列也会＂说话＂？这个突破性AI让数据图表变成了智能分析师

阿里主动加码外卖大战，谁能笑到最后？

东西卖出去钱却没进账几个月后店长发现银行卡有问题

美媒扒哈登末节细节：快船追到只差15分登哥穿训练服两眼空洞

估值3.5亿的廊坊银行股权被拍卖偿债，持股人刚被法院悬赏

香港大学AI程序员超越人类：一键将科学论文变成完整代码库

德军上格陵兰岛几天就撤离德副总理:不能被美＂吓倒＂

涉嫌支持台军心战大队 5家企业主营业务被曝光

汽车销售巨头破产清算：总部人去楼空子公司贴上封条

在特斯拉model Y和小米 YU7里二选一，怎么选？

李镇全打趣：现场听到GAI的说唱，我在场上可能多跑几百米