关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2577人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印尼国脚小赖因德斯:这段旅程始于梦想,如今却以痛苦告终

懂球帝 浏览 2908

经典与创新的时代对话,保时捷携两款911登陆第八届进博会

观察者网 浏览 2597

斯基拉:尤文、罗马、国米都在关注热那亚中场弗伦德鲁普

懂球帝 浏览 2677

托辛:很荣幸在队内是资深球员;“叔叔”的外号来自马杜埃凯

懂球帝 浏览 2705

王石离婚风波首现身?豪宅聚餐打牌

好贤观史记 浏览 1746

尼帕病毒疫情扰动全球神经,A股病毒防治板块逆势拉升

览富财经网 浏览 1587

连续两场地区联赛弃赛后,葡老牌球队博阿维斯塔面临解散风险

懂球帝 浏览 2754

国米取胜后距榜首1分,罗马如果能客胜米兰将独自领跑积分榜

懂球帝 浏览 2651

6岁女童练习"下腰"致截瘫 经营者曾因逃避执行被刑拘

红星新闻 浏览 16437

苏翊鸣:我仍是那个热爱单板滑雪的少年,下个周期或许别样精彩

懂球帝 浏览 993

世卫组织发话:美国有权退出 2.6亿美元欠费必须交上

极目新闻 浏览 5692

阿莫林:在曼联我学会了承受压力,这让我对未来更有信心

懂球帝 浏览 2629

22岁医学生被前男友扼颈杀害 生前开公司转至男方名下

扬子晚报 浏览 8709

数十农民工被拖欠百万工钱 劳务公司:争取春节前兑付

大风新闻 浏览 4430

美国11月ISM制造业PMI萎缩幅度创四个月最大,就业进一步收缩,价格涨

华尔街见闻官方 浏览 2195

魅族Flyme Auto新增生态用户数在11月首次突破20万

IT之家 浏览 2114

知名博主喊话沈伯洋 用"吉林一号"公布其居住、工作地

澎湃新闻 浏览 16986

斯帕莱蒂抵达尤文总部,受到球迷夹道欢迎

懂球帝 浏览 2552

医药新股闹涨“A+H市场”

北京商报 浏览 2084

拜登为何卸任前如此“恶毒”?

浏览 25439

奥迪A5L Sportback限定版上市 售33.49万元

车质网 浏览 1616
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1