关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4442人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

近两个月13家券商收罚单 投行、经纪业务是重灾区

证券时报 浏览 4061

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 3901

美联储主席最热人选哈塞特:CPI报告好得令人震惊,美联储有很大空间可以降息

华尔街见闻官方 浏览 3767

曾以105.6万成交的"凶宅"再次上架 26.6万元起拍

封面新闻 浏览 9387

委内瑞拉代总统:我“受够了”来自华盛顿的命令

扬子晚报 浏览 7716

中山大学等九校联手突破:AI实现软件bug自动侦测与修复

科技行者 浏览 3250

加拿大新外长就任后首次访华 外交部回应

新京报政事儿 浏览 9563

星光伴我心,不朽迷影佳作今晚点亮大银幕!

幕味儿 浏览 3555

板块轮动到谁了?沪指逼近4000点,机构正大幅买入这些主题ETF

每经牛眼 浏览 4180

国产GPU厂商燧原科技科创板IPO获受理 拟融资60亿

网易财经 浏览 3159

在复旦12年,从本科一路走到博后,是种什么体验?

上观新闻 浏览 280

造车,京东方向盘转向的下个万亿市场?

速度计 浏览 4305

X把伊朗国旗改成狮子太阳旗 哈梅内伊把"国旗"删了

澎湃新闻 浏览 13855

奥特曼开始算“人肉成本”

虎嗅APP 浏览 2759

丰田辟谣与比亚迪技术合作,网友的评论,能让丰田章男能背过气去

小李车评李建红 浏览 3529

票房1100万,这次谢苗没等来奇迹,但6场打戏,仍拍出动作片良心

皮皮电影 浏览 2985

小鹏汽车2025年全年交付量达429,445台 同比增长126%

网易汽车 浏览 3525

伊朗选出新领袖 战事还要打多久

红星新闻 浏览 2442

美国11月密歇根大学消费者信心创逾三年新低,短期通胀预期上升

华尔街见闻官方 浏览 4130

直播|| 春夏百元级首饰,最爱逛的一定有他家!

黎贝卡的异想世界 浏览 1667

吴越曾黎同框对比!一个自然老去一个脸僵浮肿,不是没皱纹就年轻

萌神木木 浏览 3773
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1