关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4227人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

交警视角解密:腾势N8L如何定义“安全担当”

网易汽车 浏览 3339

美国宇航局成功验证太空识别GPS干扰源能力

IT之家 浏览 427

斯基拉:尤文、罗马、国米都在关注热那亚中场弗伦德鲁普

懂球帝 浏览 4319

别问了,今年朋友圈都在打网球

时尚COSMO 浏览 3407

我国又添“超级充电宝”:世界坝体最高抽水蓄能电站全面投产发电

IT之家 浏览 4207

大衣里面穿什么?这件内搭才是今年冬天的“顶流”

LinkFashion 浏览 3168

女警带儿子逛街遇行凶 徒手夺刀面部受伤差点伤到动脉

大象新闻 浏览 7907

美军2架F-18战机飞入委内瑞拉领空 停留至少40分钟

界面新闻 浏览 3829

台湾名嘴蔡正元:黄海8天实弹演习只是前菜

看看新闻Knews 浏览 2823

粉木耳,不是今年最恶心的擦边广告

她刊 浏览 428

苹果发布iPhone 17e:起售价4499元,支持实体+eSIM卡组合

澎湃新闻 浏览 2582

森林狼询价莫兰特但控卫位置还有高人 哈登辅佐华子?

仰卧撑FTUer 浏览 3871

开撕了!亲爹是首富,嫡长公主租房住?

Yuki女人故事 浏览 6506

拒15亿,Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创

机器之心Pro 浏览 4469

罗马诺:切尔西接近聘请前利物浦球探总监戴夫-法洛斯

懂球帝 浏览 4264

港女最爱的国产单品,赢了特斯拉?

新周刊 浏览 3822

伊朗外长:就伊朗核问题达成协议的唯一途径是外交

国际在线 浏览 2700

网红彭十六偷税被封杀 曾成功转型明星

萌神木木 浏览 3331

48岁袁泉素颜逛商场被拍,口罩遮半脸仍一眼认出

小徐讲八卦 浏览 3563

大鹏工业:外购标准件采购占比超七成 自研的被评奖项目背后现客户

金证研 浏览 4329

有了AI,课堂如何“教”与“学”?

看看新闻Knews 浏览 4130
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1