关闭广告

让多图对话AI不再"搞混":首尔多所大学发现分隔符背后的秘密

科技行者2966人阅读


这项由首尔大学、韩国科学技术院(KAIST)和德国图宾根大学联合完成的研究发表于2026年的ICLR(International Conference on Learning Representations)会议,论文编号为arXiv:2602.01984v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你同时向AI展示几张照片并提问时,是否发现它有时会把不同照片的内容混淆?比如你问"第一张图片里有没有自行车",它却回答了第二张图片的内容。这种现象就像一个健忘的朋友,明明你分别给他看了几张照片,他却总是把照片内容记混。

这个看似简单的问题背后,其实隐藏着现代AI系统的一个关键技术挑战。当前最先进的多模态大语言模型(就是那些能同时理解文字和图片的AI系统)在处理单张图片时表现卓越,但一旦面对多张图片,性能就会显著下降。这种现象被研究人员称为"跨图像信息泄露",就好比厨师在做菜时,明明准备了不同的食材放在不同的盘子里,但在烹饪过程中却总是搞混各种调料的归属。

为了解决这个问题,现有的AI系统都会在每张图片前后插入特殊的"分隔符",就像在文档中使用分页符一样

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

文晏回应争奖!直言不认识白百何否认沪圈投资,白百何再次内涵

萌神木木 浏览 4256

利润激增200%,半导体巨头,护城河太深!

飞鲸投研 浏览 3052

NBA战报:尼克斯134-98狂胜篮网取NBA4连胜,唐斯28+12+2

懂球帝 浏览 4056

专家:特朗普望通过武力威胁 让伊朗不敢对示威做反应

新民晚报 浏览 13600

于文文贵州演唱会晕倒,曝被救护车拉走

扒虾侃娱 浏览 3114

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 4123

媒体:中国元首时隔11年再次访韩 在韩国引发很大反响

新民周刊 浏览 14945

特斯拉Q3销量首超梅赛德斯奔驰,一个时代终结了?

江瀚视野 浏览 4388

苹果发布iPhone 17e与新款iPad Air,定价不变主打中端市场

华尔街见闻官方 浏览 2613

新一期U17国足集训名单出炉:浮嶋敏挂帅,邝兆镭、帅惟浩在列

懂球帝 浏览 3245

中印巴令人意外地站在了同一边 反对美方举措

澎湃新闻 浏览 6126

迟蓬:65岁,我不急

时尚COSMO 浏览 6506

李安新片《金山》停摆!好莱坞变了天

草莓解说体育 浏览 3713

吕丽君女儿正脸照罕曝光,犹如翻版刘銮雄!

娱乐团长 浏览 3623

AWS推出AI图像编辑新突破:用说话就能精准移动图片中的物体!

科技行者 浏览 3376

美国男子当街被ICE打死 执法人员5秒内至少开了10枪

澎湃新闻 浏览 7767

美乌代表:佛州会谈"富有成效和建设性"

上观新闻 浏览 3626

公安机关对"野人孩子"父母展开调查 孩子目前安全

中国新闻周刊 浏览 7922

收藏这篇就够了!本地人私藏的广州逛吃指南

黎贝卡的异想世界 浏览 4039

多人手机信号深夜同时消失 出海7次未带回1条鱼被抓捕

极目新闻 浏览 8657

北京正探索AI赋能教育,不同学段精细化考虑!市教委详解

北京商报 浏览 3110
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1