关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4163人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

惠州4A景区改造遭抵制 旅居业主:站阳台看海变看商铺

每日经济新闻 浏览 8417

你的高级感,烟管裤轻松搞定!

Yuki女人故事 浏览 1204

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 4214

李迅雷:黄金暴涨、股市波动,普通人机会在哪?

首席经济学家论坛 浏览 4295

美参议员就谷歌与特朗普达成2200万美元和解协议质询谷歌、YouTube

界面新闻 浏览 4361

大幅上调英伟达目标价,这家大行的理由:台积电产能分配远超预期,OpenAI“闭环交易”

华尔街见闻官方 浏览 4449

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 4175

美方被指仍在追截第三艘油轮 并拟增派力量强行登船

环球网 浏览 3469

杨紫连续七年为李现庆生,没有避嫌只有坦荡

娱乐寡姐 浏览 4449

纯电续航提升 新款小鹏X9纯电版申报图曝光

车质网 浏览 3639

宇树科技澄清不实信息

第一财经资讯 浏览 3222

演完《与凤行》演《逍遥》,她减肥50斤

失宠的小野猪 浏览 3353

baby近照脸好僵!被质疑打针了没恢复,37岁了又拍网红照太心酸

萌神木木 浏览 1019

宋慧乔怎么不会老啊?

时尚COSMO 浏览 3093

飞象老师爆火背后:AI进课堂,先要过教师这一关

学申论的谈妹 浏览 494

年薪超百万,京东开始挖汽车人!

电动知家 浏览 4266

加拿大新外长就任后首次访华 外交部回应

新京报政事儿 浏览 9561

女子患小脑萎缩症加重 前男友复合帮她完成100个心愿

极目新闻 浏览 16108

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

Yuki女人故事 浏览 3324

贝克汉姆率领一家7口亮相,唯独大儿子布鲁克林和妮可拉缺席

素素娱乐 浏览 3064

“大起”被防住后,下周A股怎么走?

每经牛眼 浏览 3187
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1