关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2580人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"90后"小伙背瘫痪母亲登长城:常被人问背的是不是奶奶

红星新闻 浏览 18738

陈坤儿子的生母,早在14年前就公开了?

归史 浏览 3298

2026年春晚分会场官宣 周深肖战刘宇宁令人期待

你我话娱乐 浏览 1484

退休三年后“落马”,恒邦财险原董事长肖晓华被查

蓝鲸Insurance 浏览 1649

最爱发钱老板开工刷屏:2小时订单破亿 客户排队交钱

极目新闻 浏览 37331

虐囚事件发酵高官引咎辞职 以总理称遭"严重公关危机"

上观新闻 浏览 2595

在迎来更多国际承认之际 巴勒斯坦领土已"所剩无几"

参考消息 浏览 18926

阿富汗称与巴基斯坦在伊斯坦布尔举行第三轮谈判

国际在线 浏览 2458

KAIST AI揭秘:让AI视频生成真正理解"谁对谁做了什么"的关键技术

科技行者 浏览 2572

维尔茨:能庆祝自己的成就时很不错,我喜欢在安菲尔德踢球

懂球帝 浏览 1423

雷军怒了!澄清其言论被断章取义

电动知家 浏览 1973

稳步迭代,全面超越:vivo S50 Pro mini 评测:小直屏旗舰的进化标杆

快科技 浏览 1889

泰国柬埔寨边境起冲突有人丧生 在柬华人:炮弹满天飞

潇湘晨报 浏览 2094

防晒品穿"马甲"进药店 企业钻医保漏洞拿下9000万大单

央视财经 浏览 6639

王诗龄放假回北京了,照片曝光很漂亮

瞻史 浏览 2716

秦雯自曝袭警被抓后,让王家卫捞人找自己?

芊手若 浏览 2521

芯片制造的终极范式:原子级制造

钛媒体APP 浏览 2745

“格子衬衫”浓度降低 7年云栖感知科技的温度丨去现场 做原创

封面新闻 浏览 2542

米哈游持股11.86%,Suplay冲刺“收藏级卡牌第一股”|港E声

时代周报 浏览 1836

无名花丨诗一首

正经社 浏览 2128

印度商人:有中国就不怕美国加税 中印本应并肩作战

澎湃新闻 浏览 7640
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1