关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3537人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐十一热推:电影《阿凡达:水之道》;电影《毕正明的证明》......

伊周潮流 浏览 3167

江汽集团董事长项兴初拜访任正非 送出尊界S800车模

快科技 浏览 2669

62岁"石榴姐"在景区打工 曾饰演过不少"丑女"角色

红星新闻 浏览 7924

理想汽车下摆臂异响补偿方案发布月余,多位车主投诉称遭区别对待

澎湃新闻 浏览 4575

曾经的环球小姐冠军,却一手好牌打得稀烂

历来纵横 浏览 3643

初夏穿衣千万别发愁,看看这些日常穿搭,减龄舒适又显身材

静儿时尚达人 浏览 188

张雪峰还是不服?

老斯基财经 浏览 3602

库克交棒,特努斯接掌 4 万亿帝国:AI 时代的真正大考才刚开始

钛媒体APP 浏览 722

英国安德鲁王子放弃王室头衔 被指与未成年人发生关系

CCTV国际时讯 浏览 9609

以色列政府批准加沙停火协议

新华社 浏览 3486

西甲:皇家贝蒂斯2比0奥萨苏纳

体坛周报 浏览 4059

竞逐AI内容,爱奇艺先出手了

连线Insight 浏览 3611

悉尼海滩枪击事件已致16死 两名枪手1死1伤系父子关系

扬子晚报 浏览 8797

超20家车企卷入降价促销潮;宝马今年将推20款新产品

梧桐车话 浏览 2621

阿斯:恩里克不坐教练席而上看台的行为,在西班牙是违规的

懂球帝 浏览 4444

政府关门三周美公务员排长队领救济 很多人不想"露脸"

每日经济新闻 浏览 12515

痛惜!资深音乐人突发意外去世,很多人听过他的歌...

可乐谈情感 浏览 3450

马斯克承认其他车企不想获得特斯拉FSD授权:他们简直疯了

IT之家 浏览 3231

奚梦瑶手捂肚子表情痛苦,小腹隆起引三胎猜疑

情感大头说说 浏览 200

美国否决加沙停火决议草案后 以美代表亲切握手

看看新闻Knews 浏览 4307

"网红罗大美遇害案"新进展:三名被告人均提出上诉

扬子晚报 浏览 9943
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1