关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3052人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谷歌AI实现类人判断解决系统偏见问题

科技行者 浏览 4203

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 4272

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 3817

周杰伦昆凌晒照庆结婚11周年,夫妻合照很甜蜜,与家人庆贺很温馨

笑猫说说 浏览 3287

两死者死于家中非交通事故 定损员伙同他人骗保120万

红星新闻 浏览 15073

美国在委内瑞拉附近水域拦截第三艘油轮

界面新闻 浏览 3515

抠门年轻人,开始流行买“顶配猫砂”

DT商业观察 浏览 4033

告别臃肿!这种简约的高级穿法,别拒绝

Yuki女人故事 浏览 3265

问界M9 2024款开放华为ADS小蓝灯升级服务

网易汽车 浏览 4572

香港中文大学团队突破:让AI有了"超级记忆",多步推理能力飙升!

科技行者 浏览 3382

高市为当首相对维新会大幅让步 接受其数个"绝对条件"

极目新闻 浏览 9357

网红白冰偷税被追缴1891万账号禁言 妻子披露其现状

阿纂看事 浏览 35617

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

静儿时尚达人 浏览 1195

官方:新疆足球超级联赛5月至7月举办,分为南北区共14支球队

懂球帝 浏览 2610

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 3582

美国政府效率部提前解散

北京商报 浏览 3828

2026CES:奔驰CLA将首搭英伟达DRIVE AV

网易汽车 浏览 3287

重马一跑者倒地去世 跑友:他在跑圈被称为"破三大神"

红星新闻 浏览 13104

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝 浏览 2573

白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

萌神木木 浏览 4068

吉拉西多特生涯欧冠主场10场12球2助攻,每55分钟造一球

懂球帝 浏览 3124
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1