关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4140人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世体:皇马今天在雨中训练,阿拉巴、卡瓦哈尔和吕迪格依然缺席

懂球帝 浏览 4326

宁德时代与易控智驾签署战略协议

证券时报 浏览 3524

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 3436

长盘决胜!法国杯惊现44轮点球大战,贝蒂讷22-21取胜晋级

懂球帝 浏览 3866

经典与创新的时代对话,保时捷携两款911登陆第八届进博会

观察者网 浏览 4188

裁判评议:海牛vs海港,裁判回看后取消海牛点球的决定正确

懂球帝 浏览 4534

《双轨》空降逻辑混乱,赛车泰拳伪骨科叠加,虞书欣演技难撑人设

不八卦会死星人 浏览 3678

武契奇预测:48小时内伊朗遇袭

极目新闻 浏览 9677

智己汽车2025全年销售81,017台 创历史新高

网易汽车 浏览 3563

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 4025

官方:勇士正式签下塞斯-库里,后者将身披31号球衣

懂球帝 浏览 3752

美欲推动加沙停火计划第二阶段 专家:既想占好处又不愿担责

环球网资讯 浏览 4378

宗馥莉几乎搞砸了一切

功夫财经 浏览 4266

卡罗拉锐放价格再下探!网友:这次真心动了

汽车网评 浏览 3289

西芒杜铁矿石准备装船,榨取中国钢企利益的时代该结束了

北向财经 浏览 4025

丹麦航运巨头:中东战事加剧全球贸易和物流不确定性

极目新闻 浏览 969

克林顿夫妇作证时间确认 民主党人炸锅:特朗普你等着

澎湃新闻 浏览 94914

新华社权威快报|我国生成式人工智能用户规模超5亿

新华社 浏览 4402

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 3618

闪电快讯|海信发布影游旗舰E8S,RGB-Mini LED价格下探

电厂 浏览 3227

31省份去年人口出生率数据公布:哪些省份生娃多?

第一财经资讯 浏览 4402
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1