关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2721人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:福建舰入列 中国航母实力世界第二位置毫无争议

新民周刊 浏览 7329

“花式”揽储:有银行送鸡蛋吸引他行储户,多家中小银行上调存款利率……

中国基金报 浏览 1733

一加 15 /Ace 6 适配《金铲铲之战》原生 165 超高帧模式

IT之家 浏览 2729

又出血液肿瘤新药!百济神州股价微跌,“创新药一哥”能再造爆款?

猛犸资本局 浏览 1770

泽连斯基接受采访期间马林斯基宫两度停电 俄官员回应

环球网资讯 浏览 2526

内外设计焕新 大众朗逸Pro将于11月17日上市

车质网 浏览 2505

朱江明和费翔一起发零跑车皇!增程配80度大电池,“全身名牌”登场

车东西 浏览 2600

ABB与英伟达共同推进吉瓦级数据中心建设,800VDC供电架构引关注

环球网资讯 浏览 2915

为什么骑手的保障,“普惠”更重要?

财经无忌 浏览 2698

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

财联社 浏览 1419

马塞洛:当年觉得皮克是个自以为是的蠢货,太烦人了

懂球帝 浏览 2908

2025年“演技最好女演员”排名,第1实至名归海

皮皮电影 浏览 2059

伊朗高级军官:以色列威胁言论暴露其“动荡和软弱”

上观新闻 浏览 1974

梦想100万亿美元,追觅CEO却忙着网络通缉

金角财经 浏览 1484

进化是否足够?法拉利Amalfi首测:新名字,旧传统

ams车评网 浏览 1821

五连胜保持不败!萨林杰32+11广东双杀广州 徐杰20+4断陈国豪8分

颜小白的篮球梦 浏览 1927

联合国启动下任秘书长遴选 三大热门人选亮相

红星新闻 浏览 29646

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 2076

9系大六座旗舰SUV又添一员 智己LS9预售33.69万起

网易汽车 浏览 2501

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 1600

科技巨头AI竞赛转向表外融资,万亿债务定时炸弹成危机前兆?

华尔街见闻官方 浏览 2705
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1