关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3754人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

手握200亿基金,寻找想打造品类第一的创业者

创业家 浏览 3585

LG AI Research发布K-EXAONE:万亿参数模型挑战全球AI格局

科技行者 浏览 2599

宗馥莉“被带走”?谣言背后,一个内讧的娃哈哈

大猫财经Pro 浏览 3125

安东尼奥:我是“变色龙”式的教练,根据实际情况有不同打法

懂球帝 浏览 2571

浙江稠州商业银行“共享法庭”实践,获评消费者权益保护领航企业

Daily每日财报 浏览 2829

实弹射击 禁止驶入 山东潍坊发布警告

极目新闻 浏览 3540

61岁华西女教授创业冲刺港股IPO,估值超34亿元,腾讯、启明等参股

红星资本局 浏览 2595

以数字化锻造发展引擎!财信证券书写“五篇大文章”

券商中国 浏览 3768

学生喊"包的" 语文老师抵制网络烂梗发起"语言保卫战"

封面新闻 浏览 31346

机械革命无界14S斗战版/无界14X新增配置,3499元起

IT之家 浏览 2486

周末重磅!特朗普关税突发,中美经贸磋商进展,下周三大事件

看财经show 浏览 3558

缅甸政府将拆除KK园区148栋建筑,其中包括KTV、医院和SPA会所,已拆除101栋

红星新闻 浏览 3342

孙燕姿被曝要与曲婉婷合作,二人过往互动被扒,关系亲密是好朋友

萌神木木 浏览 2889

不去掉这一点,贾国龙就赢不了罗永浩

振华观史 浏览 3643

高通AI研究团队让图像生成快1.7倍

科技行者 浏览 2693

迪拜大力发展自动驾驶产业

人民网 浏览 4239

崔东树:2025年全国汽车市场总体走势较强 新能源商用车景气度走高

智通财经 浏览 2991

或为增程形式 上汽大众ID.ERA轿车谍照曝光

车质网 浏览 723

汽车图谱㉔|1月车市调整:上汽销量居首,吉利逆势增长

贝壳财经 浏览 2414

2026年AI赛道群雄逐鹿,跨国车企巨头如何摆兵布阵?

禾颜阅车 浏览 2614

西方14国发布联合声明 有乌克兰参与但没有美国

新民晚报 浏览 9235
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1