关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4136人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

笑星冯淬帆离世

萌神木木 浏览 3447

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 4412

百万人围观,「上下文图谱」火了,万亿美元新机遇?

机器之心Pro 浏览 3462

伊朗:驱逐美以大使可自由通过霍尔木兹海峡

界面新闻 浏览 2427

11场0球0助!利物浦1.3亿巨星不服被批:前面只是适应 别总盯着我

风过乡 浏览 4138

解锁刘浩存的「红运」密码 | 高清镜头后的底气

时尚COSMO 浏览 1210

卡位AI算力基建狂潮,鸿辉光通加快实现向光器件隐形龙头的蜕变

第一财经资讯 浏览 4942

以军攻势升级 加沙两天内超4万人流离失所

澎湃新闻 浏览 5145

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 3796

终端价普涨!茅台9月动销同比增20%,机构称白酒行业底部愈发清晰

澎湃新闻 浏览 4846

鲁媒:洛佩斯需证明自己,否则很可能不在泰山队未来计划中

懂球帝 浏览 4422

缅甸政府将拆除KK园区148栋建筑,其中包括KTV、医院和SPA会所,已拆除101栋

红星新闻 浏览 3974

股份行AIC扩容至三家

北京商报 浏览 3991

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

澎湃新闻 浏览 3293

外媒:巴基斯坦一哨所遭武装分子袭击 6名士兵死亡

环球网资讯 浏览 3743

【观察】不抱怨、情商高、擅激励,齐沃堪称“宝藏”主帅

体坛周报 浏览 3071

特朗普命令2028年登月 在月球部署核反应堆

财联社 浏览 14308

E句话| 他们将补办婚礼?

仙女事件簿 浏览 3685

女子被日料店服务员泼开水烫伤:事发后曾接到警告电话

封面新闻 浏览 9530

一个长城战略下,哈弗重塑命名体系

帮宁工作室 浏览 4272

秦昊带9岁女游国外,米饭百元自叹国内物价廉

松林侃世界 浏览 4240
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1