关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2820人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

DeepTech深科技 浏览 1719

看玄彬孙艺珍这样撒糖,谁能扛得住

Yuki女人故事 浏览 2280

更运动 阿尔法·罗密欧Junior运动特别版发布

车质网 浏览 2571

她是半个娱乐圈的“妈”,丈夫与她相爱40年

说历史的老牢 浏览 3320

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

伊周潮流 浏览 1683

上汽销量反超比亚迪,真实“含金量”如何

经济观察报 浏览 2869

记者:西汉姆起初为帕奎塔标价6000万欧,球员也帮助促成降价

懂球帝 浏览 1516

XbotGo丨懂球帝3-1逆转北建工建学FC,斩获新年两连胜

懂球帝 浏览 1676

专家解读:“最后期限”前 美国伊朗如何出牌

新华社 浏览 1522

美国在委内瑞拉附近水域拦截第三艘油轮

界面新闻 浏览 1904

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 2600

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者 浏览 2684

告别卡粉斑驳!保姆级遮瑕教程,手把手教你黑眼圈痘印全隐形

Yuki女人故事 浏览 1837

极氪启动跨代智驾众筹 24款老车主可低价直升Thor-U

网易汽车 浏览 2273

斯普利特:杨瀚森暂未100%与球队同步,但他整体表现是正面的

懂球帝 浏览 1976

豆包手机助手宣布将部分调整AI操作能力

中新经纬 浏览 2120

巴菲特被曝已清仓比亚迪,持股期间比亚迪股价涨超38倍

澎湃新闻 浏览 3416

阿里联合上海交大:一个训练样本就能让AI变"学霸"的惊人发现

科技行者 浏览 1681

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 1710

以硬核智能定义超值神车 尚界H5交付破10000台

网易汽车 浏览 2362

媒体:被美国逼着“朝中国开枪” 韩国玩得起吗

澎湃新闻 浏览 2918
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1