关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2951人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

澳方称中方军机在南海对澳军机释放干扰弹 外交部回应

澎湃新闻 浏览 2812

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

DeepTech深科技 浏览 1712

森林狼询价莫兰特但控卫位置还有高人 哈登辅佐华子?

仰卧撑FTUer 浏览 2315

首款可折叠iPhone最新消息:或在2026年秋季发布

环球网资讯 浏览 2179

李平康:贺一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝 浏览 1549

马塞洛:当年觉得皮克是个自以为是的蠢货,太烦人了

懂球帝 浏览 2903

格里马尔多:穆帅说我是超级球员?被最伟大教练之一夸很荣幸

懂球帝 浏览 2538

最高法公开征求意见!“开门杀”保险赔偿不明确或成过去时

北京商报 浏览 2541

闫学晶风波终于落幕,6个男人惨遭牵连

青橘罐头 浏览 1526

给过去十年最好的10部“历史剧”排名:《太平年》第7,第1无争议

皮皮电影 浏览 1413

成都锦里古街树木倾倒砸伤游客 目击者:树木是空心的

上游新闻 浏览 8627

五角大楼启动10亿美元新计划 采购数十万架单向攻击无人机

环球网资讯 浏览 2129

定位大型SUV 腾势N8L将于10月28日上市

车质网 浏览 2631

将于6月上市 上汽大众途观L ePro谍照曝光

车质网 浏览 1430

AI周报|ChatGPT广告来了;台积电最新季度净利润创新高

第一财经资讯 浏览 1669

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 562

德国联邦统计局数据显示:今年前8月,中国再成德最大贸易国

环球网资讯 浏览 2799

当智能体爆发在即,数据库如何成为“发动机”?

科技行者 浏览 1632

涉嫌违反美国移民法规则 吴佩慈"婆婆"在美国被捕

红星新闻 浏览 13295

华为鸿蒙智行下半场的战略之变

汽车K线 浏览 3215

何晴病重照流出,儿子跟前夫生活病中无亲属照顾,人生末路显凄凉

不八卦会死星人 浏览 2096
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1