关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4167人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 10601

央视《老舅》播1天,全国收视第一,不愧是我苦苦盼了2年的年代剧

娱乐圈笔娱君 浏览 3634

这才是打开秋季的穿衣方式!衣服不贪多、搭配得体,养眼舒适

静儿时尚达人 浏览 6348

TIGIT的转机还会出现吗?

钛媒体APP 浏览 3724

2-4遭海牛逆转,国安追平队史中超主场单场丢球纪录

懂球帝 浏览 4294

OPPO K15系列手机规格曝光:6.78英寸直屏、8000mAh电池

IT之家 浏览 1048

陈涛:我们最后四轮赛程可以用地狱级来形容,已经没有退路了

懂球帝 浏览 4458

咸阳7亿多投资重点项目"未批先建" 当地:情况属实

大风新闻 浏览 8710

央视年代剧《老舅》开播!这部剧又要火向全国

皮皮电影 浏览 2835

冬季穿衣别显得太臃肿!大衣收腰、搭配围巾,有质感又高级

静儿时尚达人 浏览 3536

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 3723

4680电池的大饼,马斯克不想画了

远川科技评论 浏览 3269

澎湃读报丨央媒刊文追忆杨振宁先生:心系家国,功在世界

澎湃新闻 浏览 4241

内塔尼亚胡:以色列将不得不做出"痛苦且重大"让步

环球网资讯 浏览 6387

中国汽车发动机新格局丨大众、丰田不再主流,谁主沉浮?

小鹏财经 浏览 4354

长安汽车董事长朱华荣:预计到 2030 年,L2 辅助驾驶将成为标配

IT之家 浏览 4327

黎以停火协议生效一年 以军称打死370余名武装人员

国际在线 浏览 3804

余嘉豪:扣完篮肾上腺素就上来了,但得马上冷静继续投入比赛

懂球帝 浏览 4019

农妇收玉米时遇山体坍塌失联4天 周边马路出现大坑

红星新闻 浏览 15344

奇瑞再次否认与追觅合作:双方并未进行合作签约

IT之家 浏览 3491

今年最火的4双平底鞋,配小黑裙好看又气质!

LinkFashion 浏览 1014
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1