关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2359人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄外交部:乌方对和平解决冲突“缺乏兴趣”

环球网资讯 浏览 3269

王家卫持续被扒!《东邪西毒》事件推锅临时工

boss外传 浏览 3391

搭载华为乾崑舱内激光 全新深蓝S07限时15.99万元起

网易汽车 浏览 729

联合国对达成加沙地带停火协议表示欢迎

极目新闻 浏览 3759

官方:新疆足球超级联赛5月至7月举办,分为南北区共14支球队

懂球帝 浏览 1918

《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

萌神木木 浏览 2568

气场拉满:泰国改装厂让长城坦克300“变身”Brabus G63

IT之家 浏览 2722

火力全开,布朗出场40分钟,20中10&罚球21中19砍41分7板6助

懂球帝 浏览 1648

理想i6不搞虚的,9月26日上市/第二天开始交付

星星car 浏览 4269

林心如曝与霍建华婚姻裂隙:孕期独守空房

一盅情怀 浏览 3646

市场关键时点前夕,伦敦金属交易所交易一度中断两小时,铝锌等金属受影响

华尔街见闻官方 浏览 1606

怼人上瘾?特斯拉官微把非智能车贬得一文不值,车主一点面子不给

小李车评李建红 浏览 2927

力破76人金身,杰伦-布朗19中13砍32分3板6助,三分7中4

懂球帝 浏览 3515

‍9.7分,成本400万,票房破2亿?陈思诚也压不住,年度黑马来了

靠谱电影君 浏览 275

痛经的女性,正在猛灌中男“保健酒”

她刊 浏览 2905

韩国首部限制级被禁,前后修改3次

陈意小可爱 浏览 3840

46岁周杰伦身患“不死癌症”已超20多年

阿晭评论哥 浏览 3620

IPO带病闯关遭通报批评未满一年 英虎机械重启资本路欲挂牌新三板

叩叩财讯 浏览 3766

《爸爸去哪儿》村长李锐,52岁签迪拜12亿大单

草莓解说体育 浏览 3849

张柏芝又飞澳洲陪Lucas读书,独自拿八九件行李

八斗小先生 浏览 2437

【亚冠精英】阿苏埃头球路易斯建功 申花2比0首尔

体坛周报 浏览 3650
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1