关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2712人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

E句话| 他骨灰都被人盗了?

仙女事件簿 浏览 2014

被采取刑事强制措施后,善水科技董事长宣布“婚变”、辞职,前妻成实控人

红星资本局 浏览 2589

邮报:拉亚已成为世界最优秀的门将之一,扑救与脚下技术俱佳

懂球帝 浏览 2844

今日热点:金鸡奖提名发布会;霉霉不出演超级碗中场秀的原因……

伊周潮流 浏览 3545

AI+消费电子硬核“出圈”,华强北亮相CEIC 2025

南方都市报 浏览 2668

穿了10年还在火,这件外套买得真值!

黎贝卡的异想世界 浏览 1699

省委书记、省长等18位省领导 一下火车直奔企业车间

政知新媒体 浏览 8064

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 4451

泉州市与宁德时代签署新能源电池生产基地项目合作协议

北京商报 浏览 1432

男生遭老师按地上强制要求剪头发 被老师勒脖子骑身上

大风新闻 浏览 7039

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 2848

辽宁一小米SU7起火 疑似车内易燃物点燃

网易汽车 浏览 1330

美国12月ISM制造业PMI意外创2024年以来最大萎缩,库存拖累

华尔街见闻官方 浏览 1756

队报:消息人士称罗塞尼尔并不在切尔西新帅候选名单上

懂球帝 浏览 1931

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

黎贝卡的异想世界 浏览 2533

王楚钦:1-3落后时我都想着拎包回去了,确实到了极限

懂球帝 浏览 2114

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 2726

业主2000万买新房质量问题有130多处 维修2年仍未解决

新民晚报 浏览 8448

德国防长建议特朗普道歉 但暗示并不真抱希望

参考消息 浏览 5866

拉齐奥女足称贝尼斯擅自离队,球员经纪人表示俱乐部不发钱

懂球帝 浏览 2836

香港浸会大学推出AlphaApollo:AI实现协同推理突破

科技行者 浏览 2592
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1