关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4406人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

华为鸿蒙智行下半场的战略之变

汽车K线 浏览 4746

侯晓楠喊出积极拥抱IP,但阅文很难成为下一个泡泡玛特

蓝鲸新闻 浏览 4932

澳网最具看点女单比赛来了!莱巴金娜谈迎战斯瓦泰克:保持进攻

网球之家 浏览 3168

科学家重构常见抗癌药物:使其疗效提升两万倍,同时副作用更低

IT之家 浏览 4111

皮尔斯:雷霆像善于地面缠斗的UFC选手,把你拖垮直到精疲力尽

懂球帝 浏览 1015

铁锤同意放行帕奎塔加盟弗拉门戈

体坛周报 浏览 3156

印尼国脚小赖因德斯:这段旅程始于梦想,如今却以痛苦告终

懂球帝 浏览 4506

搭载VLA大模型 魏牌全新蓝山智能进阶版年内上市

网易汽车 浏览 3748

目标:推迟不可避免的悲剧——奥维耶多希望周日在塔蒂耶雷球场避免降级

绿茵情报局 浏览 1165

多名美高官将参与监督在委事务 特朗普:最终由我负责

每日经济新闻 浏览 9704

太二不做酸菜鱼了?告别酸菜鱼的太二想干啥?

江瀚视野 浏览 3296

15万预算“抄底”自主SUV 这几款车型闭眼入

独家引擎 浏览 3436

国有股东提前离场、技术总监辞职,吉和昌守住了净利润连增|读懂IPO

时代周报 浏览 1474

胜辽宁发布会!潘江赞对手,亲承张宁将缺席三周,迪亚洛总结不足

篮球资讯达人 浏览 3344

媒体:特朗普会晤前后与普京通话 不知乌总统是否满意

新民晚报 浏览 24749

中海成都谋变?曝开发公司连亏2年,桐梓林28亩项目寻合作

密探财经 浏览 2584

全智贤自毁口碑!LV撤掉广告海蓝之谜外网都删,限韩令全面收紧

萌神木木 浏览 5262

再一次分别,刘军帅告别李霄鹏:感谢这一生遇到最好的教练

懂球帝 浏览 3563

“打飞的”半小时畅飞长三角,低空经济“飞入”进博会|聚焦2025进博会

华夏时报 浏览 3999

CES 2026成为“中国科技秀”,AI硬件场景化提速

上游新闻 浏览 3462

泽连斯基:愿与特朗普和普京会面 但不去莫斯科

极目新闻 浏览 5040
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1