关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3578人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“811汇改”十周年的成就

证券市场周刊 浏览 3739

泰国外长:泰柬将于12月24日举行会谈 讨论停火细节

财联社 浏览 2784

错过靳东,嫁给父亲看中的女婿,如今她怎么样了

楠楠自语 浏览 2911

贺娇龙被安葬在父亲身边 昭苏居民:她对昭苏功不可没

潇湘晨报 浏览 12106

满配MPV三排平权 吉利银河V900上市限时26.98万起

网易汽车 浏览 2647

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 44868

李白放弃回国嫁给撒贝宁,人生中最正确的决定

可乐谈情感 浏览 2933

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 21364

加拿大总理:加美经济关系已结束

北京日报客户端-长安街知事 浏览 10129

"福特"级航母电磁弹射器困住美军 重设计需数十亿美元

环球时报国际 浏览 10253

赵继伟伤退,广东击败辽宁,与浙江会师男篮决赛!

体坛周报 浏览 3459

斯塔尼希奇:现在这支拜仁的特别之处?我觉得是凝聚力

懂球帝 浏览 1716

自阿里以来,特尔是英超对阵曼联进球最年轻的热刺球员

懂球帝 浏览 3438

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

静儿时尚达人 浏览 2577

张馨予减肥致体质差,170身高仅百斤两月发烧三次

把喜欢都给他 浏览 2318

国乒男团3-0复仇韩国晋级四强,梁靖崑3-0横扫安宰贤

懂球帝 浏览 177

特朗普称取消与普京会晤并对俄实施新制裁 普京回应

每日经济新闻 浏览 6771

杨振宁和她的53年婚姻,是这样的

Yuki女人故事 浏览 3637

知名汽车智驾企业“停工放假”

电动知家 浏览 3037

9家车厂推出“7年低息”,今年车市开局就恶战

汽车公社 浏览 2375

飞行员举报情人诈骗700余万 被告人获刑12年

红星新闻 浏览 6357
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1