关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2960人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“肉测”成都自动驾驶公交:提前免费预约,一人一座,一趟车有14个名额

红星新闻 浏览 1777

零跑汽车10月销量破7万台

三言科技 浏览 2139

美国欲“夺岛”,俄罗斯正“吞地”,中国应做什么?

浏览 25423

上海AI实验室ImgCoder:AI实现科学手绘图精准生成

科技行者 浏览 1567

新势力2月销量解读:青黄不接与厚积薄发

科技丛林 浏览 935

消息称华为首款星闪耳机 FreeBuds Pro 5 可实现全链路无损传输

IT之家 浏览 2523

专家:美军突袭委内瑞拉战术有新变化 有4个突出特点

北京日报客户端-长安街知事 浏览 9026

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

科技行者 浏览 1972

妻子在家中失踪 深井边的菜让丈夫顿感不妙

环球网资讯 浏览 32950

英媒:梅努担心能否参加世界杯,热刺和纽卡在考虑签下他

懂球帝 浏览 2753

拜仁官方:后卫斯塔尼希奇今日回归合练

懂球帝 浏览 2762

猫头鹰联手Prusa推出经典棕色、米色3D打印PLA耗材

IT之家 浏览 2193

欧盟调整“禁燃”,堵死自己的路

汽车公社 浏览 2040

外观设计风格独特 本田0 α原型车发布

车质网 浏览 2334

消费降级2年,大家2025年还会买什么?

黎贝卡的异想世界 浏览 2715

香港警方含泪通报:要让每一位遇难者都有名字

扬子晚报 浏览 16413

《喜人奇妙夜2》即将收官,给你的戒断加点料

时尚COSMO 浏览 2080

俄最新核潜艇下水 可搭载“末日鱼雷”

环球网资讯 浏览 2635

推广|| 用完立马复购!百元get大牌肤感

黎贝卡的异想世界 浏览 1964

“一个杯子开15次会”?小米徐洁云:至少开了16次

三言科技 浏览 1827

美媒:日本欲采购攻击型核潜艇 标志一个重大战略转变

环球时报新闻 浏览 30297
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1