关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4561人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普访日 高市早苗将罕见与其共同搭乘美国总统专机

新京报 浏览 10034

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 4206

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 3582

从港股GPU第一股看壁仞科技的价值新论

互联网那些事 浏览 3426

左宗棠抬棺西征背后有"十八条扁担" 90岁老人寻其后人

极目新闻 浏览 9166

微软团队突破性研究:AI网页助手终于学会在新网站"随机应变"了

科技行者 浏览 3130

推广|| 春天第一双鞋!暴走不累、搭遍好看小裙子

黎贝卡的异想世界 浏览 2493

华为跟广汽搞了个启境,它跟界字辈有啥区别?

差评XPIN 浏览 4491

小伙夜骑疑与黄麂相撞 小伙断了2根骨头黄麂仍在救治

极目新闻 浏览 8800

卡其裤+蓝衬衫,简单高级

Yuki女人故事 浏览 4785

以色列再次延长对半岛电视台运营禁令

上观新闻 浏览 3197

零跑业绩向好 朱江明持股增加

汽势传媒 浏览 4252

陈妍希拉赵丽颖下水,报复陈晓!?

八卦疯叔 浏览 3731

小麦身价下跌,德转:仅靠稳定发挥不足以维持高身价,且已29岁

懂球帝 浏览 3658

女子被判向出轨丈夫公开道歉15天 道歉视频引万人围观

大风新闻 浏览 14040

360万克六选错队?三分23中5太铁 33岁亚一控失球权已完全迷失

颜小白的篮球梦 浏览 4509

厂房沉降纠纷缠身,熊猫乳品两大募投项目延期

时代周报 浏览 3356

官方:安德尔-伊恩比祖亚担任中乙广东铭途主教练

懂球帝 浏览 3380

遭美国施压 卡尼:加拿大无意与中国达成自由贸易协定

环球网资讯 浏览 7225

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

财联社 浏览 8994

勇士124-106轻取鹈鹕,库里11中2仅9分,穆迪8记三分

懂球帝 浏览 4078
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1