关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4434人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年秋冬最时髦的穿法:长外套+长裤,太高级了!

LinkFashion 浏览 4196

德黑兰挂起巨幅海报宣告“永久控制”霍尔木兹海峡

上观新闻 浏览 1252

百日破十万!比亚迪海狮06改写爆款规则,海洋网的成长密码

大象新闻 浏览 4158

申万宏源:牛市1.0高点看26年春季 关注储能、存储、创新药与国防军工

智通财经 浏览 4105

女子被逼嫁给大15岁男子喝农药轻生 钱被母亲拿走买房

大风新闻 浏览 14411

陈乔恩带老公和父母聚餐,Alan负责拍照

黄谋仕 浏览 3405

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro 浏览 1473

特朗普公布马杜罗被捕后照片

界面新闻 浏览 2992

董卿母子现身看电影,13岁儿子身高超160

娱乐圈圈圆 浏览 3074

围巾,女人气质的延伸

Yuki女人故事 浏览 3962

美国仿制伊朗的自杀式无人机 开始在中东部署

红星新闻 浏览 3700

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者 浏览 4185

佘智江获利达1.5亿元:曾逼美貌女性卖淫 或供"玩乐"

新京报 浏览 18313

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 3402

一网友称车辆在京东养车做保养后发动机报废

大象新闻 浏览 3454

租客死亡4年后房东以"房屋贬值"把中介告了 法院判了

封面新闻 浏览 9986

新年第一周,省委书记密集提出新要求!

国是直通车 浏览 3283

再遭失利,内马尔不满自己被换下并直接返回更衣室

懂球帝 浏览 4055

港媒:高市所谓“对话”表态纯属玩文字游戏

参考消息 浏览 8865

外交部:奉劝包括巴拉圭在内的极个别国家政府认清形势

环球网资讯 浏览 9018

终结3连败!骑士大胜双杀步行者 米切尔43分末节16分

醉卧浮生 浏览 3779
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1