关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3492人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子代购海外"不老药" 疑遭职业打假人起诉"退一赔十"

大风新闻 浏览 5150

《秋雪漫过的冬天》首播,不如原版韩剧好看

马庆云的影音娱 浏览 2729

“装了周杰伦”的机器狗?巨星传奇把6000台卖给了谁?

野马财经 浏览 3364

范乔丹:小卡刚来猛龙就说会走 感谢他让我赚大钱

体坛周报 浏览 2983

德天空:法比奥-卡瓦略冬窗会离开布伦特福德,可能永久转会

懂球帝 浏览 3532

18岁少年鳌太线失联超10天 搜救队再次进山展开搜救

红星新闻 浏览 9049

被许家印坑得最惨的大佬,资产清零了

大猫财经Pro 浏览 2782

命运多舛的英伦跑车:解读Marcos Mantis历史

老爷车 浏览 2451

拉波尔塔:姆巴佩的做法确实让我感到意外,无论输赢都要大度

懂球帝 浏览 2141

双节假日即将拉开序幕:酒店民宿预订率均超去年,第一批拼假游客已抵达酒店

澎湃新闻 浏览 4130

“这件衣服”今年春天太流行了!谁穿谁好看

LinkFashion 浏览 2033

汪峰演唱会遭遇“掉链子”

一娱三分地 浏览 3447

四冠王!南外毕业生所在战队问鼎RoboMaster2025全国总冠军

现代快报 浏览 4564

金价暴跌 不少上海人跑外地买黄金:就像在抢大白菜

极目新闻 浏览 6658

最有种的女明星

江湖人称艾掌门 浏览 3449

蔡磊进入渐冻症晚期:研发的药物对病友起效对他没用

潇湘晨报 浏览 9137

第五季了,谁还在说艾米丽不时髦啊?

时尚COSMO 浏览 3043

全新坦克400双线出击 Hi4-Z预售价32.98万元

网易汽车 浏览 3658

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 2604

今年集中上市 旅行车的春天可能真要来了

网易汽车 浏览 2554

溢价24%仍失败!必和必拓被爆出价400亿英镑被拒,英美资源坚持自身并购计划

华尔街见闻官方 浏览 3181
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1