关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2578人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中央定调!“十五五”目标确立,未来5年养老金还会涨吗?

数字财经智库 浏览 2728

消息称华为 WATCH Ultimate 2 手表明日露出,预估 6000~7000 元

IT之家 浏览 2441

日在野党提议自卫队改名国防军 中方回应

北京青年报-北京头条 浏览 3331

精读季报丨好气!姜诚管理规模掉到115亿元,相较巅峰缩水1/4

一地基毛 浏览 1496

SHEIN新加坡公司财务真相调查:去年增收不增利,过去3年纳税约4亿美元

红星资本局 浏览 2900

输山西发布会!杨鸣满意全队,直指外援劣势,赵继伟不满命中率!

篮球资讯达人 浏览 1615

不到24小时,央视2次点名于和伟,释放3大信号

查尔菲的笔记 浏览 2728

斩获700亿订单,机器人独角兽,锋芒毕露!

飞鲸投研 浏览 1975

储朝晖:应对“入学潮”,推动教育提质增效

环球网资讯 浏览 2113

徐静蕾美国超市现身,黄立行白发相伴

墨语家 浏览 1698

小儿子拜师少林寺 邹市明称3个儿子没有一个子承父业

环球网资讯 浏览 8432

最近很火的5条裤子,腿粗、腿不直女孩一定要试试!

Yuki女人故事 浏览 4638

阿斯:卡瓦哈尔已具备首发的状态,阿诺德预计周末回归名单

懂球帝 浏览 1475

闫学晶品牌终止合作账号被禁 老底全翻出来爆炒

小娱乐悠悠 浏览 1657

春晚主持人阵容曝光,5位都是老面孔

领略非凡 浏览 1427

敷尔佳:定价过高、盟友倒戈,重营销模式难掩发展困境|ESG案例

网易财经ESG 浏览 2191

3岁童喝珍珠奶茶蹦床时不幸窒息身亡 家长发声欲追责

大风新闻 浏览 8625

极端寒潮冲击美国电力系统,芝加哥电价为何跌入负值?

国际金融报 浏览 1519

诺奖化学奖一得主是巴勒斯坦难民 家中8个兄弟姐妹

扬子晚报 浏览 19358

中国留学生目击拦截导弹空中爆炸:不时传来哭声

极目新闻 浏览 887

三星 Exynos 芯片被曝放大招:5G 基带将首次集成 AI 核心

IT之家 浏览 2759
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1