关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2782人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

辽宁无缘决赛采访!杨鸣回应赵继伟伤势,再谈辽粤对决展伤感话题

篮球资讯达人 浏览 2545

三年三倍!现货黄金触及5300美元高位

21世纪经济报道 浏览 1451

赵伟:增量财政资金落地

首席经济学家论坛 浏览 2738

大盘五连涨!今年3次五连涨后发生了什么?

每日经济新闻 浏览 2011

阮奇龙庆祝冲超:美好的一个赛季,一起期待2026新的挑战

懂球帝 浏览 2580

东方通4年虚增3.14亿利润,两家审计机构为何失守?

翠鸟资本 浏览 3526

事关市值4700多亿元大牛股 两位首席深夜互怼"抢地盘"

每日经济新闻 浏览 18821

泰柬冲突柬方70人死伤 泰国近20万人住进避难中心

财联社 浏览 2196

前英超裁判:桑德兰绝杀切尔西的进球因越位应被取消

懂球帝 浏览 2691

看完这些上镜穿搭,国庆“美美出片”不费力

黎贝卡的异想世界 浏览 4416

主播让弗洛伦齐向拉齐奥打招呼,弗洛伦齐:永远不会

懂球帝 浏览 2778

普京指挥俄军战略核力量综合演习

环球网资讯 浏览 2306

新官上任三把火,特朗普的第一把火会烧给谁?

浏览 25345

消失4年后,主持人程雷官宣一则喜讯

除夕烟火灿烂 浏览 2140

看完《阿凡达3》,心情很复杂

独立鱼 浏览 1538

马拉松冠军选手冲线时被拦停强行带离 重庆田协通报

环球网资讯 浏览 94423

世体:皇马拒绝让女超杯在迈阿密举行,女足俱乐部都感到不满

懂球帝 浏览 2904

奥特曼零食之父,要去IPO了

投资家 浏览 2588

绍伊古访华争分夺秒1天往返 谈好后马上给普京复命

头条爆料007 浏览 6094

媒体:向乌提供"战斧"或只是幌子 特朗普可能另有打算

枢密院十号 浏览 16543

没想到,45岁隋俊波秒了25岁王影璐,她一直没火太可惜了

温柔娱公子 浏览 2421
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1