关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4566人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“这条裙子”今年春天又火了!配这4双鞋减龄又好看

LinkFashion 浏览 2487

匿名“欢乐马”屠榜,国产视频模型批量崛起

第一财经资讯 浏览 1773

美台讨论共同研发武器 国防部回应

央视军事 浏览 10738

小鹏GX连续49道弯一把过挑战成功,低速最小0.6圈转向比

IT之家 浏览 1146

以色列的新常态:创伤、分裂与集体错觉

澎湃新闻 浏览 4428

维持看涨!摩根大通预计金价明年底均价升至5055美元

第一财经资讯 浏览 4349

2026年必追的四部谍战剧 陈道明、于和伟领衔主演

娱乐圈笔娱君 浏览 3226

中美欧大市场带动,全球车市1-9月销量涨5%

汽车公社 浏览 4135

一口价15.99万起 2026款别克君越正式上市

网易汽车 浏览 5226

广东,哪里“阳气”最旺?

博闻财经 浏览 3602

尴尬的是最后输了,狄龙回喷骂自己垃圾的热火球迷:看看比分,f**k

懂球帝 浏览 3188

曾成功应用于马斯克脑机接口临床实验!西门子医疗脑机接口全流程解决方案亮相

上观新闻 浏览 4087

租电版本售15.79万 乐道L60紫罗兰限定版上市

网易汽车 浏览 3594

伊姐周日热推:电视剧《声渊》;电视剧《绝境通缉令》......

伊周潮流 浏览 3282

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 13652

赵本山的一双儿女,为所有人提了醒

蕾爸退休日记 浏览 4047

消息称华为Mate 80单品激活150万,逆袭成年底国产旗舰第一

IT之家 浏览 3295

吊打内娱的阴湿女王,回来了

独立鱼 浏览 4266

国内油价今年第七涨重返9元时代 国际油价居高不下

上观新闻 浏览 91847

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 4387

德云社董事长王惠凌晨发文,郭汾阳长大,触景生情

动物奇奇怪怪 浏览 4349
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1