关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2811人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

文旅上市潮,进入Next Level

斑马消费 浏览 2652

辱骂西蒙尼的球迷:我没说种族歧视的话,也没提马岛战争

懂球帝 浏览 3459

一代国民神车谢幕 比亚迪宋PLUS低调退市

车质网 浏览 1811

更运动 阿尔法·罗密欧Junior运动特别版发布

车质网 浏览 2555

1万亿订单再加3500-5000亿美元!OpenAI“停不下来”,“当你欠每家数千亿美元,钱的问题自己会解决”?

华尔街见闻官方 浏览 2991

记者:法比安-鲁伊斯因左膝伤势将会继续缺席巴黎与纽卡的比赛

懂球帝 浏览 1532

精致詹詹,美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

懂球帝 浏览 2324

《用武之地》票房崩塌:这块金字招牌算砸了

靠谱电影君 浏览 1819

若昂-内维斯卖便宜了?坎波斯:我们为他支付的价格很合理

懂球帝 浏览 1978

柬埔寨内政部:柬泰冲突已致31名柬平民死亡

国际在线 浏览 1716

蔚来官宣再融资11.6亿美元!

电动知家 浏览 3500

钉钉推出全新AI原生工作平台“悟空”

IT之家 浏览 577

间谍入住海景民宿拍军港敏感画面 被民宿店主识破上报

央视新闻客户端 浏览 9030

印尼总统:已准备好向加沙派遣维和部队

环球时报国际 浏览 3323

沉默的荣耀众星发文告别,吴越真挚,余皑磊搞笑,于和伟看哭众人

娱乐圈笔娱君 浏览 2723

带病出战,李昊发着烧踢满了U23国足与泰国U23的比赛

懂球帝 浏览 1706

内维尔:B费的表现就像坎通纳;曼联的表现体现了球队的DNA

懂球帝 浏览 1673

「以演聚力·链动共生」文旅商体展融合专场私董会成功举办!| 2025文创新势力超级私董会

第一财经商业数据中心 浏览 2593

「新消费观察」折扣店洗牌开始?好特卖多地闭店:“高成本选址”与“低价模式”矛盾凸显

华夏时报 浏览 2025

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 7608

从 Meta 拆解、苹果眼镜爆料,看「不科幻但好用」的 AR 眼镜|硬哲学

爱范儿 浏览 2738
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1