关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2651人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小李子塞隆绝色出演,伍迪艾伦的绝妙讽刺剧

幕味儿 浏览 2109

消息称三星Galaxy S26系列手机将首次提供2400万像素切换开关

IT之家 浏览 1755

美股三大股指高开 纳指盘初涨0.87%

证券时报 浏览 2459

"最强大脑"齐聚临港 上海正搭建未来科学共同体

看看新闻Knews 浏览 2733

今年春天最流行的4件卫衣,照着穿就很好看

LinkFashion 浏览 882

张继科与女友张蕊被拍 被传隐婚生子?

达达哥 浏览 2196

美媒询问缅甸大选后中国会否同缅甸深化关系 中方回应

外交部网站 浏览 6170

9月重夺销冠,这次上汽赢在内功

网易汽车 浏览 2895

大搞权钱交易和家族式腐败 湖北省委原书记蒋超良被诉

扬子晚报 浏览 91145

魅族 22 手机推送 Flyme 12.3.1.3A 稳定版更新

IT之家 浏览 2509

推广|| 用完立马复购!百元get大牌肤感

黎贝卡的异想世界 浏览 1954

外媒:马克龙在最后一刻加入反对阵营 "背叛"了默茨

澎湃新闻 浏览 7703

中国造歼-10C狂砍阵风,印机绝望中凌空炸碎

浏览 6780

金正恩连续八次深夜阅兵 "大杀器"亮相

中国新闻周刊 浏览 2969

光大银行董事会换届减员,4名新面孔亮相

财经众议院 浏览 3236

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 5167

冬天别只穿厚重的羽绒服,看看这些大衣穿搭,高级大方又有质感

静儿时尚达人 浏览 1666

女人不管多大都可以这样穿衣搭配,不花哨、不臃肿,优雅舒适

静儿时尚达人 浏览 2342

夸克“C计划”浮出水面,AI超级应用卡位战升级

华夏时报 浏览 2690

那些外国博主们,怎么突然开始吹中国手机了???

差评XPIN 浏览 1676

张升民任国家中央军事委员会副主席

新华社客户端 浏览 13763
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1