爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

特斯拉在欧洲...

“金九”上海...

九十年代的双...

AI如何助力...

“虚胖”的高...

中俄最后一刻...

无需多视角，单图重建可交互3D模型！南洋理工开源结构推理框架

斯瓦泰克回复对高芙的连败：交手战绩其实并不重要

推15款新车，鸿蒙智行的野心，是2026年正式超过奔驰？

直播间＂大牌尾货＂是回收箱旧衣服不清洗不消杀

比小说更魔幻！前华人首富，为何被特朗普特赦

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

一个月了，怎么还在骂啊？

双子座流星雨即将引爆冬日夜空，成都“观星+”消费持续升温

特朗普再威胁伊朗交出浓缩铀称到手后或销毁

蔚来李斌：“降低事故率”和“使用时长”是衡量智驾能力的核心指标

涪陵榨菜的创业者们陆续退场

被娃写作业逼疯妈妈＂邪修法＂直播写作业引2万人围观

E句话| 蔡天凤案有判决结果了？

鸿蒙智行首款MPV智界V9完成申报，采用7座布局

美政府＂关门＂将结束民主党8人倒戈加入共和党人行列

德约纪念逝去恩师忍不住落泪，现场打脸意大利网协主席

心系球队，梅西一家现身看台观战阿根廷vs委内瑞拉

赵露思新剧开播，直接拿下热播榜第一，硬刚资本的小花又站起来了

陈伟霆何穗官宣结婚生子，夫妻俩抱娃露面幸福满溢，二人隐藏好深

拍完被雪藏3年，小沈阳新片观众不买账，成本超1亿，预售仅6万

欧洲高颜值王室访华:曾与高中老师结婚二婚嫁入王室

梁小龙死因被爆！去世前一天还在练咏春

看了隆妮表演才知道，观众都冤枉杨幂了?

前球员：湖人时期的奥尼尔无法统治当今NBA；约基奇会是90年代的独角兽