关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元976人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比亚迪:仰望U8豪华版预计8月正式上市,9月开启陆续交付

界面新闻 浏览 15614

希腊航运巨头28岁女继承人死于虫咬 误诊细节披露

新民周刊 浏览 11924

5轮首球,维拉在赛季开始427分钟才收获首球,英超历史第三晚

直播吧 浏览 1575

OpenAI警告:版权打击可能摧毁ChatGPT

智通财经 浏览 12705

天啊!看到林志玲和小13岁刘亦菲同框,才懂王晶为啥说她很一般了

温柔娱公子 浏览 675

杜特尔特警告:美军基地协议或将使菲"成为坟场"

参考消息 浏览 16020

王晶大谈力捧谢霆锋原因,狄波拉是恩人,谢贤更是讲义气

温柔娱公子 浏览 921

华为和赛力斯联盟再深化 成立AITO问界销服联合工作组

21世纪经济报道 浏览 15184

人间最美四月天 换鞋计划赶紧安排上

YOKA网 浏览 19488

特斯拉深度解读|马斯克的2025 CEO绩效奖

不看车bukanche 浏览 1082

鸿蒙与它的1000万“合伙人”

雪豹财经社 浏览 279

连续被血洗!今年前十个月的涨幅,币圈一个月跌完了

华尔街见闻官方 浏览 693

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 656

高清大图!单兵综合演练又见新机枪出镜

环球网资讯 浏览 19101

新增蓝牙数字钥匙 迈腾3000万辆甄选款17.49万起

网易汽车 浏览 1047

肖战杨紫绯闻又来了!同在横店被曝吃饭约会,爆料者称不怕被起诉

萌神木木 浏览 12567

《一路繁花2》要封神?5位综艺强者登场,预告连刷4遍不过瘾

娱乐圈笔娱君 浏览 1035

春天必备的5双鞋 可以搞定所有的搭配

In风尚 浏览 19713

人工智能进步巨大 人类智能倒退了吗?

环球时报国际 浏览 12731

NASA局长之争出新番:特朗普重提马斯克盟友

观察者网 浏览 731

又一起!菲律宾高官家中被枪杀 3名嫌犯被捕

环球网资讯 浏览 19065
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1