关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2818人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

BIGME大我推出7英寸彩色墨水屏电纸书B751CS,1739元

IT之家 浏览 2041

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 10837

福域架构赋能智趣烈马 同级唯一提供增程+纯电版

网易汽车 浏览 2660

消失的1.8%,你的钱会发生什么

米筐投资 浏览 552

理财的,注意这两个风险!

米筐投资 浏览 2055

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 2603

小伙雕刻"全球首个汽车石窟" 曾雕"奥特曼"石窟引争议

封面新闻 浏览 8402

《疯狂动物城2》之后,更炸的大片来了

独立鱼 浏览 1914

再冷的天也拆不散我和九分裤组CP

Yuki女人故事 浏览 2870

有品味的中年阿姨,穿衣搭配都有4个共同点,学会了优雅到老

静儿时尚达人 浏览 2553

CBA常规赛第一阶段排名:广厦第一,上海第二,四川23连败垫底

懂球帝 浏览 1415

50岁蒋勤勤这状态绝了!新西兰海边生图似神女

阿握聊事 浏览 614

优质智能体验/1.5T增程 别克至境L7正式亮相

网易汽车 浏览 3670

最长纯电续航335km 智己LS8动力曝光

车质网 浏览 1647

飞天茅台批发价大涨,茅台控量措施会确立白酒行业的价格拐点吗?

郭施亮 浏览 2022

全运会男足U20半决赛对阵:广东vs上海,湖北vs山东

懂球帝 浏览 2517

81岁冯淬帆去世,曾悼念许绍雄时自曝已病入膏肓,苟延残喘的活着

扒虾侃娱 浏览 2577

以军坦克开进加沙城 特朗普警告哈马斯“别动人质”

澎湃新闻 浏览 3593

梅西创造完成美职联50球最快纪录,此前由约瑟夫和伊布保持

懂球帝 浏览 2752

伊姐周六热推:电视剧《勿扰飞升》;电视剧《他为什么依然单身》......

伊周潮流 浏览 2516

精读季报丨谢治宇的基金,为什么只适合“买”,不适合“抄”?

一地基毛 浏览 1486
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1