关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2363人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

演习第2天 东部战区组织实弹射击

央视新闻 浏览 2722

加啥班啊!某车企被曝三点半,员工就陆续下班了

小李车评李建红 浏览 2930

全国高校最强国产算力:“致远一号”搭载1024张华为昇腾910B

IT之家 浏览 2961

李湘减肥成功,和女儿王诗龄一起回小区被偶遇,目测瘦了50斤!

娱乐团长 浏览 719

辽宁无缘决赛采访!杨鸣回应赵继伟伤势,再谈辽粤对决展伤感话题

篮球资讯达人 浏览 3454

“量子科技第一股”董事长离世余波调查:已排除是刑事案件

时代周报 浏览 2864

雷军大动作!小米新车,增加机械门把手

财通社 浏览 2704

哲凯还是谢什科?鲁尼:伊萨克谢什科二选一我也还是会选后者

懂球帝 浏览 3569

进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

红星资本局 浏览 2652

98版沙僧刘大刚去世,最后露面曝光

科学发掘 浏览 3384

产检时一切正常小孩出生后却畸形 母亲时隔一年多投诉

潇湘晨报 浏览 8579

小米“巨省电”,为何又是一波大争议?

正经社 浏览 3560

雷军被人堵在车里维权?小米高管回应

电动知家 浏览 757

方程豹钛3拆车:情绪烘托到这份儿上,你会买单吗?

大飙车 浏览 2911

律所主任疑"借款"9亿失联 客户有上百人最年长者88岁

界面新闻 浏览 7043

金正恩连续八次深夜阅兵 "大杀器"亮相

中国新闻周刊 浏览 3873

全系标配激光雷达 东风奕派eπ007+预售14.99万起

网易汽车 浏览 3526

新设计 兰博基尼Manifesto概念车官图发布

车质网 浏览 3115

神舟二十号飞船以无人状态安全顺利返回,面对新挑战,更多任务细节公布

上观新闻 浏览 2607

男生最经不住女生这样撩!

Yuki女人故事 浏览 3612

在这里,我们拍到了雪原上的一抹瑞红

时尚COSMO 浏览 2137
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1