关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3737人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

你们猜谁会迷失在电动浪潮中?

汽车公社 浏览 3617

联合国秘书长:美国对委军事行动未尊重国际法规则

澎湃新闻 浏览 2675

穆尼奥斯:队员们的努力配得上这场比赛,只是结果没达到预期

懂球帝 浏览 4379

媒体:郑丽文"由绿转蓝"成功逆袭 支持基础系三股力量

上游新闻 浏览 8461

程强:通胀数据反映的积极信号

首席经济学家论坛 浏览 3376

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 3670

福建赖氏宗亲:姓赖的都是中国人 姓赖者根源都在中国

环球网资讯 浏览 7855

粉色涂装 雷克萨斯Glam LX概念车发布

车质网 浏览 3598

日本宣布:推迟发射新型无人货运飞船HTV-X

上观新闻 浏览 3747

马竞球迷举行午餐聚会,托雷斯、比利亚和劳尔到场

懂球帝 浏览 483

詹俊:阿莫林换人值得肯定,冬窗应该留下齐尔克泽

懂球帝 浏览 2622

阿斯:卡马文加要去看牙医,因此缺席出战赫塔费

懂球帝 浏览 1946

美股开盘三大指数涨跌不一 英伟达跌近2%

证券时报 浏览 2798

50+女人更适合基础款,掌握3个高段位搭配思路,轻松提升品味

静儿时尚达人 浏览 1988

别问了,今年朋友圈都在打网球

时尚COSMO 浏览 2864

委内瑞拉防长:特朗普封锁加勒比海域是“妄想”

每日经济新闻 浏览 2905

“企业AI第一股”连亏四年!行政开支暴增3.3倍,拖累股价一个月跌超七成

财通社 浏览 994

翁虹女儿18岁成人及笄礼惊艳全网

艳姐的搞笑视频 浏览 3653

比利亚雷亚尔vs阿拉维斯:阿约塞-佩雷斯、帕雷霍首发,阿莱尼亚、洪尼-奥托出战

懂球帝 浏览 2660

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 1977

搭VLA大模型 全新蓝山智能进阶版将上市

网易汽车 浏览 2862
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1