关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4416人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

韩国最大军工企业爆炸 已造成5人死亡

红星新闻 浏览 269

奇瑞全尺寸SUV内饰曝光 或将搭载混合动力

车质网 浏览 438

农妇收玉米时遇山体坍塌失联4天 周边马路出现大坑

红星新闻 浏览 15344

这些才是真正适合普通人的穿搭!舒适减龄,整体形象得到美化

静儿时尚达人 浏览 4252

钟睒睒加码智能化,宗馥莉砍掉机器人公司到底损失有多大?

BT财经 浏览 2244

领英平台新型钓鱼骗术瞄准高净值人士,微软账号安全受威胁

IT之家 浏览 4316

朝鲜举行盛大阅兵式 高清大图来了

新华社 浏览 4184

16岁"烤鸡少年"承认用"肉宝王" 曾因日销百只烤鸡爆红

新京报 浏览 9039

给黑洞拍“CT”,新方法有望筛选出最准确的宇宙引力法则

IT之家 浏览 4056

伊朗最高领袖重申“将向敌人索赔”

国际在线 浏览 2298

蚂蚁集团突破性研究:一个视觉"万能钥匙"让AI同时理解和创造图像

科技行者 浏览 4089

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 4265

中国信达“新帅”落定 宋卫刚出任总裁

21金融圈 浏览 3399

一周AI大事:谷歌Gemini学会“接管”你的电脑、马斯克机器人被手卡住了

网易科技报道 浏览 4493

百度再战高德,还拉来了两大“帮手”

螺旋实验室 浏览 4437

日本派大学生+以小打大仍5-0叙利亚 黄健翔惊叹 :夺世界杯非玩笑

我爱英超 浏览 3371

媒体:特朗普提出中美"G2"概念 日本不安拼命找存在感

澎湃新闻 浏览 31782

伊姐十一热推:电视剧《沉默的荣耀》;电视剧《是风动、是心动》......

伊周潮流 浏览 3772

中东棋局骤变:美以\"师徒反目\"暗流汹涌

浏览 7175

曝王灿兮杜淳分房睡!女方深夜发声否认:谁说的?我咋不知道?

扒虾侃娱 浏览 4201

西蒙尼获第60场欧冠胜利,与克洛普并列主教练胜场榜单第7

懂球帝 浏览 4112
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1