爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

周末重磅！特...

男子花3万请...

特朗普：伊朗...

傍上 “新中...

baby相隔...

携程涉嫌垄断...

空客天津第二条总装线投产，称产能提高需联合各方构建更具韧性的供应链

全红婵还没回国家队！大概率缺席冬训

前央视主持人水均益直播额头顶＂中国人＂纸条否认移民

特朗普访日高市早苗将罕见与其共同搭乘美国总统专机

何炅51岁无妻无子，且不再隐瞒身体状况了？

市值26亿豪掷32亿跨界“钠电”，环保企业“同兴科技”胜算几何？

从港股GPU第一股看壁仞科技的价值新论

左宗棠抬棺西征背后有＂十八条扁担＂ 90岁老人寻其后人

微软团队突破性研究：AI网页助手终于学会在新网站＂随机应变＂了

推广|| 春天第一双鞋！暴走不累、搭遍好看小裙子

华为跟广汽搞了个启境，它跟界字辈有啥区别？

小伙夜骑疑与黄麂相撞小伙断了2根骨头黄麂仍在救治

卡其裤+蓝衬衫，简单高级

以色列再次延长对半岛电视台运营禁令

零跑业绩向好朱江明持股增加

陈妍希拉赵丽颖下水，报复陈晓！？

小麦身价下跌，德转：仅靠稳定发挥不足以维持高身价，且已29岁

女子被判向出轨丈夫公开道歉15天道歉视频引万人围观

360万克六选错队？三分23中5太铁 33岁亚一控失球权已完全迷失

厂房沉降纠纷缠身，熊猫乳品两大募投项目延期

官方：安德尔-伊恩比祖亚担任中乙广东铭途主教练

遭美国施压卡尼：加拿大无意与中国达成自由贸易协定

媒体：一份非官方的美国就业数据把美国投资者吓坏了

勇士124-106轻取鹈鹕，库里11中2仅9分，穆迪8记三分