关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4234人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军空袭也门首都萨那 以色列多地拉响防空警报

上观新闻 浏览 4815

春天的衣服没必要买太多,准备几件"卫衣",舒适减龄又大方

静儿时尚达人 浏览 1779

极石汽车1月交付新车1028台 拓宽海外业务

网易汽车 浏览 3089

机器人替农民“弯腰”,AI+激光精准识别、“秒杀”杂草

上观新闻 浏览 2812

视频:解放军远程火力实弹射击全部命中

央视新闻客户端 浏览 2508

8年青春换来丈夫出轨,如今张嘉倪让前夫高攀不起

画画影视 浏览 3573

3D唇妆风好大,人类对唇线笔的开发不足1%

时尚COSMO 浏览 3453

座椅升级 焕新极氪009将于北京车展预售

车质网 浏览 1533

哈梅内伊提出伊美谈判条件 近期不会考虑美国合作请求

环球网资讯 浏览 4071

国内生产国内不卖?比亚迪高管亲口承认,这款车要“回流”国内了

小李车评李建红 浏览 4407

NASA好奇号从夏普山发回全景图,展示火星崎岖地貌

IT之家 浏览 3405

春天就该这样穿!裙子选彩色、白色T恤作内搭,舒适优雅简约

静儿时尚达人 浏览 1401

创新推出ACE SXFI蓝牙耳机,699元

IT之家 浏览 2862

这一抹瑞红,在2025年终

时尚COSMO 浏览 2793

67岁梁家辉春晚彩排现场 三鞠躬视频刷屏网络

黄大姐 浏览 3097

花江峡谷大桥推"无绳蹦极":提供高度选择 价格1600元

极目新闻 浏览 9045

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

环球网资讯 浏览 14653

曼联阻止青训新福登过早首秀!担心重蹈青木覆辙,目前不适合登场

罗米的曼联博客 浏览 4614

吉利ICON巧克力心动紫上市!网友:销量稳了

汽车网评 浏览 4248

金·卡戴珊抵达英国,与F1车手汉密尔顿秘密约会

土澳的故事 浏览 3089

俄乌战场惊现"丐帮打法" 俄无人机绑棍子捅落乌无人机

鲁中晨报 浏览 10099
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1