关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro3579人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

掌舵第二年扭亏！天齐锂业蒋安琪：重心放国内，优质锂资源开发刻不容缓

时代周报浏览 1120

45岁潘玮柏好福气！34岁老婆宣云温柔又独立

体育小柚浏览 3324

胡塞武装称若加沙停火破裂将恢复袭击以色列

极目新闻浏览 3428

精彩推荐

曝小米汽车调整销售体系！

电动知家浏览 4458

民调显示：相较美国，加、德、法、英四国民众更信赖中国

环球网资讯浏览 1646

多家银行关停旗下App，银行App关闭潮意味着什么？

江瀚视野浏览 3844

18.51亿元！这家信托100%股权，第三次挂牌！

券商中国浏览 2662

最新“施工图”预示，真正的风口藏在这5个“强国”中

BT财经浏览 1763

中科大团队发布Agent-R1：让AI智能体像人类一样学习和成长的框架

科技行者浏览 2554

潘功胜最新讲话7大要点！涉稳定币，信息量满格

21金融圈浏览 2887

“双引擎”再提速：中国资本市场改革释放创新红利

财经众议院浏览 3372

精读季报丨好气！姜诚管理规模掉到115亿元，相较巅峰缩水1/4

一地基毛浏览 2425

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家浏览 3051

特朗普：对委军事行动使用了空中、陆地和海上力量

极目新闻浏览 2714

中国女选手参加＂世界扇耳光大赛＂被对手扇成＂猪头＂

中国新闻周刊浏览 8111

日股大跌，政坛地震威胁“高市交易”

国际金融报浏览 3732

38岁后单赛季为意甲升班马攻入至少4球，瓦尔迪是历史第二人

懂球帝浏览 3111

杭州银行年薪252万副行长获提拔，行长空缺大半年后终于敲定

湘财Plus 浏览 2720

哈马斯高级领导人：准备撤出“黄线”以内武装人员

财联社浏览 3250

“苏超”“赣超”再破纪录！全国最大规模“社超”来了

国是直通车浏览 4297

乌方呼吁美国对卡德罗夫＂采取某种行动＂卡德罗夫发声

环球网资讯浏览 2564

警惕溢价QDII产品投资风险

北京商报浏览 3315

消失8年，这T0级演员突然复出了

独立鱼浏览 3450

协议中加入＂毒丸＂条款美国与印尼的贸易协议面临破裂

第一财经资讯浏览 19795

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1