关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元4417人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

媒体：日本和菲律宾一个装无辜一个装可怜中国不惯着

新民周刊浏览 38814

金球奖撒糖、霉霉破纪录与“鲍小强”翻车

粉红冻奶的观影日记浏览 3341

弱水时砂预热“锆势”旗舰 TWS 蓝牙入耳式耳机，9 月 25 日上市

IT之家浏览 4971

精彩推荐

马卡：皇马目前没考虑施洛特贝克，弗里克很欣赏他但转会不易

懂球帝浏览 3322

小红书社区公约2.0里的「UGC社区进化史」

周天财经浏览 3186

马克龙再选勒科尔尼当总理遭批，法媒：没有议会支持的总统，只会陷入更深孤立

环球网资讯浏览 4381

两人偷渡到柬电诈园＂赚钱＂:一天骗五六个人应该差不多

大风新闻浏览 20510

全网首档AI短剧拍摄现场直播出圈指南

时尚COSMO 浏览 475

中国人自己的敞篷跑车来了！腾势Z敞篷版曝光

优视汽车浏览 3561

帕金斯：杜兰特去篮网太阳都是灾难，他并非争冠球队的理想引援

懂球帝浏览 1206

机主称手机莫名被停机超半个月运营商：号码为高风险

红星新闻浏览 11929

伊朗国安会前高官：引爆美伊冲突存多种可能

澎湃新闻浏览 2690

美国务卿称以军暂停加沙攻势被当场“打脸”

环球网资讯浏览 4334

罗马诺：尤文等5队有意明格萨，塞尔塔目前不想将其出售

懂球帝浏览 3266

拒绝对涉案做出反省内塔尼亚胡请求特赦遭强烈抗议

环球网资讯浏览 3911

队报：消息人士称罗塞尼尔并不在切尔西新帅候选名单上

懂球帝浏览 3560

一汽丰田10月销售新车71407辆今年累计销售65.8万辆

网易汽车浏览 4098

兄弟获180万拆迁款被控敲诈勒索原村官：举报我贪污

极目新闻浏览 8518

俄总统特别代表：已向美方通报“海燕”核动力导弹试射情况

极目新闻浏览 4257

异军突起！周四与特朗普会面顺利，贝莱德的里德尔竞选美联储主席呼声渐起

华尔街见闻官方浏览 3237

纳斯达克中国金龙指数跌0.4%

证券时报浏览 3051

瞄准2028年重要选举郑丽文最新表态

新京报政事儿浏览 9184

伊姐周六热推：电视剧《枭起青壤》；电视剧《毒舌家庭》......

伊周潮流浏览 3984

仅需加92号汽油小鹏X9增程版的谍照曝光

太平洋汽车浏览 4544

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1