关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3738人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

石破茂:拥核绝不会给日本带来正面影响

环球网资讯 浏览 2808

泽连斯基称将获射程3000公里武器 普京:他最好想清楚

每日经济新闻 浏览 3605

特朗普:可能接管伊朗的哈梅内伊接班人 在空袭中丧生

扬子晚报 浏览 39167

欧盟考虑强制中企转让技术 彭博社:可能引发强烈反弹

环球网资讯 浏览 7670

吊打比亚迪、用“老头乐”狂割美国人,这家车企要赴港上市了

钛媒体APP 浏览 3562

记者谈马宁连出三红:密集出牌虽彰显权威,却也容易激化矛盾

懂球帝 浏览 3889

挪威主帅谈晋级世界杯:这是个超现实的夜晚,我感到非常自豪

懂球帝 浏览 3315

红旗E-QM5换电版车型正式上市 售8.98万元

车质网 浏览 3230

楊千嬅开live老公乱入因一事说离婚

粤睇先生 浏览 2922

养乐多卖不动了?

斑马消费 浏览 3692

郑恺&李沁,向你发出“网”友申请

时尚COSMO 浏览 176

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 3056

罗马诺:切尔西接近聘请前利物浦球探总监戴夫-法洛斯

懂球帝 浏览 3587

专家:特朗普望通过武力威胁 让伊朗不敢对示威做反应

新民晚报 浏览 12912

比亚迪10月销售441706辆 新能源累计销售超1420万辆

网易汽车 浏览 3427

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

伊周潮流 浏览 2178

闫学晶的账还没有算清,49岁李湘又“塌”了

真的八卦小学弟 浏览 2483

安德鲁被英王室扫地出门:曾3次强迫17岁女孩发生关系

新民晚报 浏览 9430

美以袭击伊朗 中东军事冲突持续升级

国际在线 浏览 1884

专家:俄乌“和平计划”应触及冲突发生深层原因

环球网资讯 浏览 3130

毕节两名少年骑车失联21天 遗体在20公里外村中被发现

极目新闻 浏览 9975
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1