关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3581人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

十年间 火箭军武器装备实现跨越式发展

环球网资讯 浏览 2788

春季躁动,AI软件应用迎来“奇点时刻”

懂财帝 浏览 2545

朱江明回顾零跑造车十年:“九死一生”,最艰难时刻曾自掏腰包发工资

红星资本局 浏览 2862

《阿凡达3》不及预期,3个小时全是野人乱跑,排片降了不被看好

萌神木木 浏览 2872

普通人真该看看这些穿搭!短上衣配裙子、颜色选好,自然得体

静儿时尚达人 浏览 3799

美股三大指数集体高开 理想汽车涨超5%

证券时报 浏览 2595

俄外交部否认俄韩秘谈朝核问题

新华社 浏览 2827

何小鹏的“回旋镖”与超级增程的“阳谋”

1号车盟 浏览 2960

张雨绮,不能「装死」了

独立鱼 浏览 2427

成都事故后,雷军最新发声

都市快报橙柿互动 浏览 3645

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 3817

日本宣布从南鸟岛海域采掘到含稀土的淤泥 外交部回应

环球网资讯 浏览 5856

女生显老又土气的5款发型,真的别留了!

Yuki女人故事 浏览 3722

大众汽车营收微降却亏麻了,利润腰斩暴跌53.5%!

财视传播 浏览 1829

售16.59万元起 改款奥迪A3家族正式上市

网易汽车 浏览 3368

视界大会短剧演员好尴尬!走红毯扎堆不给镜头,后台跟明星分开坐

萌神木木 浏览 3439

特朗普威胁哥伦比亚总统:马杜罗之后就是你

澎湃新闻 浏览 20594

次节觉醒,杨瀚森半场8中3得9分6板1助3帽3失误,正负值-3

懂球帝 浏览 3313

和李晨分手6年后嫁普通人,她整个人都变样了

青史楼兰 浏览 3505

小米成都车祸引解锁争议 打不开的电动车门成监管焦点

界面新闻 浏览 8015

女人过了40岁穿衣别老气横秋,看看这些日系穿搭,得体又显瘦

静儿时尚达人 浏览 3442
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1