关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2707人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

每秒可传 1250 万部高清电影,亚马逊启动跨大西洋海底光缆项目

IT之家 浏览 2533

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 2581

安赛龙回应发球争议:我采用这种发球方式已有多年

懂球帝 浏览 2812

大带宽+低时延!F5G如何撑起城域“毫秒用算”?

览富财经网 浏览 2779

刚刚!利好突袭,直线爆拉!

中国基金报 浏览 2645

《用武之地》票房崩塌:这块金字招牌算砸了

靠谱电影君 浏览 1825

国开新型政策性金融工具投放近1900亿元

央视财经 浏览 2665

美再次在委内瑞拉海域扣押油轮 现场画面公布

新华社 浏览 2001

阿森纳欧冠100胜分布:对西班牙球队16胜最多,对德法各11胜

懂球帝 浏览 2694

"10岁男孩被烟花炸伤头部身亡"案二审开庭 被告拒担责

极目新闻 浏览 8061

男子在狱中病亡14年后获宣告无罪 家属上坟:平反了

澎湃新闻 浏览 21636

李婉华:但凡他跟我求婚,我都不会另嫁他人

艳儿说电影 浏览 2860

法国:欧委会派员参加所谓"和平委员会"会议未获授权

界面新闻 浏览 989

抓走马杜罗的美军三角洲部队 曾两次大败而归

扬子晚报 浏览 8510

抖音:近一年优质内容播放时长为普通内容的17倍

封面新闻 浏览 3464

今秋要穿这15条裙子!上身绝美,太撩人了!

Yuki女人故事 浏览 2856

申万宏源:牛市1.0高点看26年春季 关注储能、存储、创新药与国防军工

智通财经 浏览 2506

卡耐基梅隆大学发现让AI更聪明的秘诀:犯错后自我纠正

科技行者 浏览 1685

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 2125

"30年老公厕"被改成咖啡店后又遭封 当地城管部门回应

封面新闻 浏览 11380

特朗普:对委军事行动使用了空中、陆地和海上力量

极目新闻 浏览 1778
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1