关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3535人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

每日经济新闻 浏览 6089

人类会彻底沦为无用阶级吗?

虎嗅APP 浏览 3064

贵州茅台股东大会发放“定心丸”成效几何

北京商报 浏览 3402

翁帆:杨先生离开时一定很欣慰 他交出了份满意的答卷

光明日报 浏览 7168

因“阴阳合同”伦纳德可能恢复自由身 湖人勇士尼克斯他去哪儿?

仰卧撑FTUer 浏览 2014

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

Yuki女人故事 浏览 2753

新版《保管合同(示范文本)》发布 进一步明确权责促进交易公平

央视财经 浏览 2890

汪峰演唱会遭遇“掉链子”

一娱三分地 浏览 3449

2架美军机在南海相继坠毁 原因正在调查中

界面新闻 浏览 3560

广东大胜西班牙球队1喜3忧!二老老寒腿,张昊无球权,张皓嘉辣眼

篮球资讯达人 浏览 3600

一字跌停!航天大牛股收购凉了,总经理已高位套现770万

深蓝财经 浏览 2505

美军宣布再次打击"贩毒船" 致4人死亡

环球网资讯 浏览 3464

托辛:很荣幸在队内是资深球员;“叔叔”的外号来自马杜埃凯

懂球帝 浏览 3562

穿了10年还在火,这件外套买得真值!

黎贝卡的异想世界 浏览 2598

经典落幕:苹果正式将初代iPhone SE列为过时产品

环球网资讯 浏览 3071

特斯拉成简配“鲶鱼”,中国品牌如何应对?

百姓评车 浏览 3512

独家|接盘露笑弃子藏暗雷?美克家居豪赌AI算力,标的实控人控股企业被曝欠税4205万元

时代周报 浏览 2662

特朗普被指非常重视"和平峰会" 以色列哈马斯或不参加

环球网资讯 浏览 7588

邮报:曼联计划升级老特拉福德排水系统,以修复顶棚漏水问题

懂球帝 浏览 2896

埃尔多安指责以色列违反加沙停火协议

新华社 浏览 3609

百度智能云公布两款自研AI芯片,昆仑芯比外界想象得更有野心

钛媒体APP 浏览 3443
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1