关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3579人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曝小米汽车调整销售体系!

电动知家 浏览 4458

民调显示:相较美国,加、德、法、英四国民众更信赖中国

环球网资讯 浏览 1646

多家银行关停旗下App,银行App关闭潮意味着什么?

江瀚视野 浏览 3844

18.51亿元!这家信托100%股权,第三次挂牌!

券商中国 浏览 2662

最新“施工图”预示,真正的风口藏在这5个“强国”中

BT财经 浏览 1763

中科大团队发布Agent-R1:让AI智能体像人类一样学习和成长的框架

科技行者 浏览 2554

潘功胜最新讲话7大要点!涉稳定币,信息量满格

21金融圈 浏览 2887

“双引擎”再提速:中国资本市场改革释放创新红利

财经众议院 浏览 3372

精读季报丨好气!姜诚管理规模掉到115亿元,相较巅峰缩水1/4

一地基毛 浏览 2425

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家 浏览 3051

特朗普:对委军事行动使用了空中、陆地和海上力量

极目新闻 浏览 2714

中国女选手参加"世界扇耳光大赛" 被对手扇成"猪头"

中国新闻周刊 浏览 8111

日股大跌,政坛地震威胁“高市交易”

国际金融报 浏览 3732

38岁后单赛季为意甲升班马攻入至少4球,瓦尔迪是历史第二人

懂球帝 浏览 3111

杭州银行年薪252万副行长获提拔,行长空缺大半年后终于敲定

湘财Plus 浏览 2720

哈马斯高级领导人:准备撤出“黄线”以内武装人员

财联社 浏览 3250

“苏超”“赣超”再破纪录!全国最大规模“社超”来了

国是直通车 浏览 4297

乌方呼吁美国对卡德罗夫"采取某种行动" 卡德罗夫发声

环球网资讯 浏览 2564

警惕溢价QDII产品投资风险

北京商报 浏览 3315

消失8年,这T0级演员突然复出了

独立鱼 浏览 3450

协议中加入"毒丸"条款 美国与印尼的贸易协议面临破裂

第一财经资讯 浏览 19795
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1