关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4180人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

直播间"大牌尾货"是回收箱旧衣服 不清洗不消杀

央视财经 浏览 8986

比小说更魔幻!前华人首富,为何被特朗普特赦

说财猫 浏览 4316

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

南京零距离 浏览 57521

一个月了,怎么还在骂啊?

麻辣婊 浏览 4175

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 3768

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

央视新闻客户端 浏览 457

蔚来李斌:“降低事故率”和“使用时长”是衡量智驾能力的核心指标

澎湃新闻 浏览 4981

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 4634

被娃写作业逼疯 妈妈"邪修法"直播写作业引2万人围观

极目新闻 浏览 19975

E句话| 蔡天凤案有判决结果了?

仙女事件簿 浏览 4271

鸿蒙智行首款MPV智界V9完成申报,采用7座布局

IT之家 浏览 3367

美政府"关门"将结束 民主党8人倒戈加入共和党人行列

红星新闻 浏览 34998

德约纪念逝去恩师忍不住落泪,现场打脸意大利网协主席

网球之家 浏览 4112

心系球队,梅西一家现身看台观战阿根廷vs委内瑞拉

懂球帝 浏览 4417

赵露思新剧开播,直接拿下热播榜第一,硬刚资本的小花又站起来了

最爱酷影视 浏览 4908

陈伟霆何穗官宣结婚生子,夫妻俩抱娃露面幸福满溢,二人隐藏好深

扒虾侃娱 浏览 4327

拍完被雪藏3年,小沈阳新片观众不买账,成本超1亿,预售仅6万

靠谱电影君 浏览 4222

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

上游新闻 浏览 36176

梁小龙死因被爆!去世前一天还在练咏春

阿坹武器装备科普 浏览 3318

看了隆妮表演才知道,观众都冤枉杨幂了?

霁月文娱阁 浏览 4484

前球员:湖人时期的奥尼尔无法统治当今NBA;约基奇会是90年代的独角兽

懂球帝 浏览 3670
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1