关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3464人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

多家银行关停旗下App,银行App关闭潮意味着什么?

江瀚视野 浏览 3845

马杜罗不认罪称"被绑架""仍是总统" 外交部回应

环球网资讯 浏览 8910

美国坠机航母将退役

极目新闻 浏览 3460

“大衣+连帽卫衣”才是今年冬天最时髦搭配,减龄又松弛!

LinkFashion 浏览 2178

“私募一哥”A股清零,大恒科技再临十字路口

每日资本论 浏览 3959

网红白冰偷税被追缴1891万账号禁言 妻子披露其现状

阿纂看事 浏览 34821

陶瓷业加速洗牌:政策倒逼转型,马可波罗如何引领行业突围?

红星资本局 浏览 2373

美国11月密歇根大学消费者信心创逾三年新低,短期通胀预期上升

华尔街见闻官方 浏览 3446

杨洋传遇上缅北剧组 开机就离开剧组?

陌上桃花开的 浏览 2025

42岁暴瘦脱相崩溃大哭的蒋欣,给所有人提了个醒

阿会情感 浏览 3401

美军机在南海坠毁 特朗普:可能燃料不好

参考消息 浏览 2621

赛更达冲乙 朱骏开出400万奖金

体坛周报 浏览 3798

抗日名将孙立人次子已正式向大陆申请 将父亲迁葬故里

环球时报新闻 浏览 15567

飞天茅台批价首次跌破1700元,机构称“白酒需求仍在磨底阶段”

YOUNG财经 浏览 3561

澎湃读报丨央媒刊文追忆杨振宁先生:心系家国,功在世界

澎湃新闻 浏览 3553

汪峰演唱会翻车唱不上去,葛荟婕精准补刀

吃瓜盟主 浏览 3408

泰柬边境冲突已致19名柬埔寨平民死亡

国际在线 浏览 2904

面相变了!看活动上“挂脸”的杨幂,才懂林永健对她的评价

娱乐圈笔娱君 浏览 3610

美军空袭尼日利亚 至少有4枚"战斧"疑未能引爆

环球网资讯 浏览 2595

魏牌再换CEO,哈弗一把手赵永坡兼任!长城冲击高端化需要更多牌?

时代周报 浏览 2889

毛茸茸的冬天,毛孩子们都在想什么?

时尚COSMO 浏览 3111
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1