关闭广告

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者1704人阅读


这项由台湾大学和中研院信息技术创新研究中心联合开展的突破性研究发表于2025年12月,研究团队针对当前AI画图模型的安全漏洞提出了创新解决方案。感兴趣的读者可以通过论文编号arXiv:2512.22877v1查询完整研究内容。

现在的AI画图工具就像一位技艺精湛但记忆混乱的画家。你可以通过特殊训练让它"忘记"如何画某些敏感内容,比如武器或版权角色。然而,这种"失忆"其实很脆弱。当有人换个方式提要求时,这位AI画家往往会突然"想起来",重新画出那些本该被禁止的内容。

研究团队发现了一个惊人的现象:虽然现有的"概念擦除"技术在面对直接文字指令时表现良好,但当用户使用更巧妙的方法时,这些防护就形同虚设。具体来说,用户可以通过两种方式绕过防护:一是使用从图片中学习得到的特殊"密码",二是直接把想要复制的图片转换成AI能理解的"草图",然后让AI重新画一遍。

为了彻底解决这个问题,研究团队开发了一套全新的评估体系,叫做M-ErasureBench,同时还推出了一个叫做IRECE的防御插件。这个插件的工作原理就像一个精明的审查员,能在AI作画过程中实时监控,一旦发现画面中出现违禁

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成都事故后,雷军最新发声

都市快报橙柿互动 浏览 2757

广西百色多个村屯被洪水浸泡逾20日 多个村屯成孤岛

南方都市报 浏览 7721

小米SU7无法开门驾驶员死亡 雷军未发声累计掉粉29万

新闻坊 浏览 6548

"杭州湾X5"来了 40万级性能插混极氪8X官宣

网易汽车 浏览 1777

双门双座+纯电后驱 全新smart #2将于2026年发布

网易汽车 浏览 1998

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro 浏览 3015

两位民营企业家登上人民大会堂主席台

一见财经 浏览 731

国家医保局:职工医保个人账户跨省共济今年全国覆盖

商业观察杂志社 浏览 935

他靠演反派爆火却对同事女儿一见钟情

张发林 浏览 3499

十五运会开幕式收视出炉!最高破3.9%,刘德华上场涨出小高峰

萌神木木 浏览 2096

日首相官邸官员表示:日本应该拥有核武器

澎湃新闻 浏览 11617

何晴死因被证实好友透露她手术后曾痛哭 葬礼细节披露

古希腊掌管月桂的神 浏览 7810

五角大楼摊牌:解放军有巨大优势 美军已经被远远甩开

空天力量 浏览 2786

德约拒谈退役计划,强调还不退役不仅仅为了成绩;大威报名奥克兰

网球之家 浏览 2629

美军打击“箭在弦上” 伊朗有哪些应对手段?

澎湃新闻 浏览 1387

东部第一!活塞双杀步行者13连胜平队史纪录 坎宁安24+11+6

醉卧浮生 浏览 2298

37岁生日变冷清,杨颖人设崩塌后的人情冷暖

花语舞者 浏览 909

E句话| 女明星站个C位就要被封杀?

仙女事件簿 浏览 2718

腾势汽车12月销售18139辆 全年累计157134辆

网易汽车 浏览 1788

特斯拉深度解读|马斯克的2025 CEO绩效奖

不看车bukanche 浏览 2878

唉!又一地产巨头,宣布退市

说财猫 浏览 2744
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1