关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4417人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马卡:皇马目前没考虑施洛特贝克,弗里克很欣赏他但转会不易

懂球帝 浏览 3322

小红书社区公约2.0里的「UGC社区进化史」

周天财经 浏览 3186

马克龙再选勒科尔尼当总理遭批,法媒:没有议会支持的总统,只会陷入更深孤立

环球网资讯 浏览 4381

两人偷渡到柬电诈园"赚钱":一天骗五六个人应该差不多

大风新闻 浏览 20510

全网首档AI短剧拍摄现场直播出圈指南

时尚COSMO 浏览 475

中国人自己的敞篷跑车来了!腾势Z敞篷版曝光

优视汽车 浏览 3561

帕金斯:杜兰特去篮网太阳都是灾难,他并非争冠球队的理想引援

懂球帝 浏览 1206

机主称手机莫名被停机超半个月 运营商:号码为高风险

红星新闻 浏览 11929

伊朗国安会前高官:引爆美伊冲突存多种可能

澎湃新闻 浏览 2690

美国务卿称以军暂停加沙攻势被当场“打脸”

环球网资讯 浏览 4334

罗马诺:尤文等5队有意明格萨,塞尔塔目前不想将其出售

懂球帝 浏览 3266

拒绝对涉案做出反省 内塔尼亚胡请求特赦遭强烈抗议

环球网资讯 浏览 3911

队报:消息人士称罗塞尼尔并不在切尔西新帅候选名单上

懂球帝 浏览 3560

一汽丰田10月销售新车71407辆 今年累计销售65.8万辆

网易汽车 浏览 4098

兄弟获180万拆迁款被控敲诈勒索 原村官:举报我贪污

极目新闻 浏览 8518

俄总统特别代表:已向美方通报“海燕”核动力导弹试射情况

极目新闻 浏览 4257

异军突起!周四与特朗普会面顺利,贝莱德的里德尔竞选美联储主席呼声渐起

华尔街见闻官方 浏览 3237

纳斯达克中国金龙指数跌0.4%

证券时报 浏览 3051

瞄准2028年重要选举 郑丽文最新表态

新京报政事儿 浏览 9184

伊姐周六热推:电视剧《枭起青壤》;电视剧《毒舌家庭》......

伊周潮流 浏览 3984

仅需加92号汽油 小鹏X9增程版的谍照曝光

太平洋汽车 浏览 4544
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1