关闭广告

让多图对话AI不再"搞混":首尔多所大学发现分隔符背后的秘密

科技行者1429人阅读


这项由首尔大学、韩国科学技术院(KAIST)和德国图宾根大学联合完成的研究发表于2026年的ICLR(International Conference on Learning Representations)会议,论文编号为arXiv:2602.01984v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你同时向AI展示几张照片并提问时,是否发现它有时会把不同照片的内容混淆?比如你问"第一张图片里有没有自行车",它却回答了第二张图片的内容。这种现象就像一个健忘的朋友,明明你分别给他看了几张照片,他却总是把照片内容记混。

这个看似简单的问题背后,其实隐藏着现代AI系统的一个关键技术挑战。当前最先进的多模态大语言模型(就是那些能同时理解文字和图片的AI系统)在处理单张图片时表现卓越,但一旦面对多张图片,性能就会显著下降。这种现象被研究人员称为"跨图像信息泄露",就好比厨师在做菜时,明明准备了不同的食材放在不同的盘子里,但在烹饪过程中却总是搞混各种调料的归属。

为了解决这个问题,现有的AI系统都会在每张图片前后插入特殊的"分隔符",就像在文档中使用分页符一样

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国算力进入拐点:“用多了就有生态,用少了生态就跑了”

第一财经资讯 浏览 3386

大陆制裁3家涉对台军售美企 国台办回应

界面新闻 浏览 2946

全面革新 全新一代轩逸将2月24日上市

网易汽车 浏览 1010

谷歌Pixel 10a渲染图曝光:无凸起后盖设计,配备6.2英寸屏幕

IT之家 浏览 2614

无缘提前2轮保级!武汉三镇54天不胜,6年首负新鹏城,4纪录告破

奥拜尔 浏览 2784

X把伊朗国旗改成狮子太阳旗 哈梅内伊把"国旗"删了

澎湃新闻 浏览 12312

好莱坞高冷美人,被曝已破产靠救济度日

译言 浏览 1669

新年第一顶帽子,就要不基础

时尚COSMO 浏览 1398

老年痴呆父亲掏出所有钱哽咽求女儿:能带我找妈妈吗

潇湘晨报 浏览 12218

2026年最火单品,竟然是一只20年前的机车包?

LinkFashion 浏览 1783

余承东展示鸿蒙智行门锁安全设计:安全是最大的豪华

三言科技 浏览 2848

理想汽车1月销量跌破3万辆,同比、环比均下滑!

车秀小咖 浏览 1486

2025奇瑞全球创新大会有什么重磅信息?

My车轱辘 浏览 2841

TA:从进攻核心到压迫发起点,梅西角色延伸提升球队上限

懂球帝 浏览 2234

世体:马竞不会轻易放走拉斯帕多里,未来几天罗马将加大攻势

懂球帝 浏览 1920

最近很火的发型,原来这么简单!

黎贝卡的异想世界 浏览 2560

地平线苏箐:3年后 准L4级系统大概率已经量产

网易汽车 浏览 2131

小马、文远回港上市 但自动驾驶还没赢家

虎嗅APP 浏览 2582

AI时代,寻找超级创业者!徐汇区发布政策扶持一个人赛过一群人的“大牛”

上观新闻 浏览 1598

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

新华社 浏览 12209

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 7539
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1