关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro903人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美代理防长喊话美军:必须结束所有者战争,是时候回家了

趣看热点 浏览 25690

今日热点:春晚第一次大彩排明星阵容;于正再回应......

伊周潮流 浏览 13229

冯仑:兄弟管公司,女朋友管章子,「江湖人」的企业往往都死得快

冯仑风马牛 浏览 1010

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 12888

普京:俄防空系统不可能打击伊尔-76运输机

每日经济新闻 浏览 12905

90年代妈妈们有多潮?穿一次妈妈的旧衣服就懂了

时尚搭配师Nicole 浏览 19944

你是谁?库里持续低迷13中4仅得15分6助

直播吧 浏览 12864

辽宁晋级四强发布会!杨鸣满意全队专注,展望四强不留余力拼广东

篮球资讯达人 浏览 624

vivo黄韬亲自爆料新机X300:下周一发布,是X200 Pro mini的迭代

IT之家 浏览 1053

中国经济持续释放积极信号 石油需求前景乐观

上海证券报 浏览 19136

俄总统特别代表:已向美方通报“海燕”核动力导弹试射情况

极目新闻 浏览 842

“船”越天际!天舟七号货运飞船成功“发货”

封面新闻 浏览 12745

长安抄底现代工厂,自主瓜分合资资产成新趋势

汽车公社 浏览 382

李健与才女老婆罕见同框,穿情侣装超恩爱出游

盖饭娱乐官方号 浏览 14980

年度王炸爽剧,还是烂尾了

独立鱼 浏览 1402

也门胡塞武装称美英空袭荷台达省港口

界面新闻 浏览 12202

个人欧洲杯首秀!贝尔温自2022世界杯后第二次代表荷兰首发出场

直播吧 浏览 10646

官媒首次披露南昌舰直面外军航母编队

环球时报新闻 浏览 13187

对话张明霞:闪光的她,有趣的灵魂表里如一

网易汽车 浏览 12067

窦骁何超莲不忍了合体发文,公开回应婚变

一娱三分地 浏览 853

互黑式宣发:赵丽颖、黄晓明互动

孟一宜 浏览 815
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1