关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者636人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全力向上!重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

懂球帝 浏览 874

张翰和吴宣仪加入《妻子的浪漫旅行》第五季

趣看热点 浏览 26111

国产汽水50年:健力宝"王者沉沦" 老汽水品牌纷纷复出

鬼谷子思维 浏览 112910

妇联回应女孩跟车货拉拉途中身亡具体说了什么?到底是怎么回事?

趣看热点 浏览 115947

跟着博主选这些牛仔下装 稳赚回头率!

巧百搭 浏览 15313

俄将讨论批准从远东线路向中国供气的法律草案

环球网资讯 浏览 18491

全国人大代表、天能控股集团董事长张天任:建议完善再生资源税收政策

经济观察报 浏览 12165

给她的宇宙,Matthieu Blazy重塑香奈儿女性

时尚COSMO 浏览 982

消息人士:普京欲以承认当前战场线的协议来停止战争

参考消息 浏览 11062

69岁赵雅芝真实面容曝光 生图眼尾皱纹炸花显老态

盖饭娱乐官方号 浏览 19236

优质智能体验/1.5T增程 别克至境L7正式亮相

网易汽车 浏览 1733

试驾完星越L顶配四驱版,终于明白星越L为何能月销破万了

车市红点 浏览 20614

小鹏能吃上英伟达的定制餐吗?

财经十一人官方 浏览 14091

马克龙密会AI专家,法国加入全球人工智能竞赛

环球网资讯 浏览 16162

广西荔浦公交公司停运:财务补贴没到位 买不起保险了

潇湘晨报 浏览 1932

92岁默多克又交新女友!外媒曝女方为邓文迪闺蜜

盖饭娱乐官方号 浏览 14835

北向资金三季度持仓曝光:宁德市值第一,京东方A获增持股数最多

澎湃新闻 浏览 991

16套不露腿的长裤长裙穿搭 通勤早八人必备

她暖 浏览 15157

当《蚁人》照进现实: 西湖大学造出能爬会游、摔不坏的“机器小强”

都市快报橙柿互动 浏览 1669

美国政府进入史上"停摆"最长时间 特朗普表态

红星新闻 浏览 13362

克洛普:斯洛特是特别好的人;当时没人告诉我还能这么花钱

懂球帝 浏览 914
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1