关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3740人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

保时捷纯电卡宴即将首发,PPE平台打造

车评网 浏览 2743

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 2850

普京:俄罗斯对任何国家都不构成威胁

央视新闻客户端 浏览 8706

AI“碰撞”量子 一场颠覆未来的创新变革在这里诞生

上观新闻 浏览 3630

保时捷的十字路口:奥博穆交棒,勒茨斯的回归与挑战

网易汽车 浏览 3736

中方取消多场重要会议 李在明承诺:帮高市"搞定"中国

现代小青青慕慕 浏览 15522

这件衣服今年太火了!时髦女人都在穿

LinkFashion 浏览 3536

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 4325

新一代奥迪A6L申报工信部:配置给满、V6 3.0T瞩目,拥有稀缺卖点

驾仕派 浏览 3286

AI教育机器人首秀广交会!西班牙客商:科技水平太惊艳了

南方都市报 浏览 3875

美国拟实施载人绕月飞行任务

北京商报 浏览 2617

天越冷社交欲望越低,是我的问题吗?

时尚COSMO 浏览 3080

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 3326

缅甸政府军突袭KK园区 查获30套星链设备

红星新闻 浏览 8863

从50天4场到21天0场!34岁张水华被处分后静悄悄 为工作牺牲爱好

风过乡 浏览 2893

借鉴丰田GR与日产Nismo,本田也要搞专属运动车系HRC

CLauto酷乐汽车 浏览 2606

程强:缩量反弹,关注宏观事件密集落地

首席经济学家论坛 浏览 3630

29岁国乒老将临危受命?淘汰黄友政状态回暖 锁世界杯后冲世乒赛

颜小白的篮球梦 浏览 1796

梅州众将:不管未来怎样都要打好最后一场,拼出个保级机会

懂球帝 浏览 3294

特朗普下令立即重启美国核试验 以应对其他国家核威胁

中安在线 浏览 7704

男子自带3瓶茅台被服务员调包 摸酒瓶辨温度识破伎俩

封面新闻 浏览 8142
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1