关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11182人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马拉多纳医生被调查,或存在过失杀人可能性

趣看热点 浏览 25741

乌军要从巴赫穆特撤退?乌官方:将继续防御

环球网资讯 浏览 19177

媒体:美国解除对白制裁 系大国格局中精心策划的变动

上观新闻 浏览 12389

巩俐的前夫是圈外高级打工人,75岁在新加坡养老

白面书誏 浏览 853

边境移民矛盾持续发酵 美国会发生“内战”吗

齐鲁壹点 浏览 12771

赚翻了!刘建宏力挺李铁后续,开直播数万人观看:挂小黄车

天涯沦落人 浏览 12669

父亲:我在赖因德斯小时候告诉他,能当上职业球员就不用去学校了

直播吧 浏览 10536

美国对华用新词:"脱钩"改成"去风险"

北京日报客户端-长安街知事 浏览 16543

看点超多!6只新股本周申购,北交所这只新股发行价仅3.7元;跨界锂电的原料药细分龙头登陆A股

证券时报e公司 浏览 18849

定位顶级奢华MPV 奔驰VLE测试谍照曝光

车质网 浏览 945

深圳00后600多万在港抄底买房 内地客十年砸下8000亿

南方都市报 浏览 13363

布朗是绿军季后赛头号选择?大将军:塔图姆被包夹 布朗没有

直播吧 浏览 10717

卡德罗夫发布“阅兵”视频:展示缴获的西方武器

环球网 浏览 73750

限量发售8台,奥迪R8 Japan Final Edition官图发布

天天汽车 浏览 12789

泽连斯基:没收到联合国和红十字会国际委员会回应,我很震惊!

环球网资讯 浏览 16532

如果你已过了40岁,这3个穿搭小心机值得参考

静儿时尚达人 浏览 13551

悬了!仅剩80天!“西北酒王”进入倒计时

壹只灰鸽子 浏览 992

宋仲基确认妻子今年生产:要在宝宝出生前疯狂约会

开开森森 浏览 39655

西汉姆联2-2伯恩利,英斯、帕奎塔破门,福法纳轰世界波

懂球帝 浏览 12212

苹果发布第二代Vision Pro开发者连接带,传输速率提升至20 Gbps

IT之家 浏览 882

消息称苹果iPhone14系列官方保护壳将推新色

Tech星球 浏览 19148
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1