关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2588人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全国第一,太空光伏寡头,野心勃勃!

飞鲸投研 浏览 1422

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

网易汽车 浏览 1783

赵本山还是没叫醒闫学晶,儿子被举报涉高考移民,本人辽晚遭抵制

萌神木木 浏览 1495

50+女人这么穿,简单款一样搭出“有钱人”的感觉,时髦利落

静儿时尚达人 浏览 4512

苹果彻查iPhone 17 Pro褪色:问题机型已被回收

快科技 浏览 2743

欧盟高官:美国对格陵兰岛的威胁“极其令人担忧”

国际在线 浏览 1715

台媒:大陆在朱日和基地复制"总统府" 不可掉以轻心

经济观察报 浏览 11875

曼奇尼自曝若阿莫林下课其可执教曼联!失业一年,在法国遇到拉爵

罗米的曼联博客 浏览 2810

300135前三季度由盈转亏!池州国资入主后大动作,沥青龙头跨界投资半导体

时代周报 浏览 2777

中国驻英国使馆发言人就英方制裁中国实体问题答记者问

网易财经 浏览 2849

重马"破三"选手终点附近倒地离世 业内人士:切勿透支

扬子晚报 浏览 11150

TA:接近阿韦洛亚的消息人士暗示,他的合同并非仅限于本赛季

懂球帝 浏览 1619

阿斯:卡马文加要去看牙医,因此缺席出战赫塔费

懂球帝 浏览 929

与独行侠续约无望!曝浓眉迫切希望交易离队 愿前往老鹰猛龙打球

罗说NBA 浏览 1784

小儿子拜师少林寺 邹市明称3个儿子没有一个子承父业

环球网资讯 浏览 8446

冬天的毛衣,越“大”越好看!

LinkFashion 浏览 1853

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 2407

"杭州湾X5"来了 40万级性能插混极氪8X官宣

网易汽车 浏览 1784

普京酝酿的“重大行动”,会给中国带来机遇?

浏览 25521

回归哈弗H序列 实拍哈弗H6L

太平洋汽车 浏览 2665

TA:利物浦的状态有所回暖;热刺展现了足够的斗志和韧性

懂球帝 浏览 2058
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1