关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2966人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拆解助贷“六小强”三季报

北京商报 浏览 2224

冯德莱恩:欧盟将向乌提供紧急能源援助

每日经济新闻 浏览 2578

三星:明年的 HBM 内存产能已售罄,考虑扩建生产线

IT之家 浏览 2518

万元损失仅补两千?国投瑞银的补偿,没能让大额投资者“和解”

拾盐士 浏览 978

售7.98万元 比亚迪2026款海豹05DM-i上市

网易汽车 浏览 2876

吊打比亚迪、用“老头乐”狂割美国人,这家车企要赴港上市了

钛媒体APP 浏览 2688

股价“闪崩”、市值蒸发500亿,寒武纪怎么了?

征探财经 浏览 1448

看了《沉默的荣耀》就明白:于和伟的班,娱乐圈没有人接得了

娱乐圈笔娱君 浏览 2791

张继科与女友张蕊被拍 被传隐婚生子?

达达哥 浏览 2205

保时捷中国自建充电网络将关停,回应:重新调整资源 前三季度利润下跌99%

红星资本局 浏览 2105

四维图新孟庆昕:全面AI转型,2027年或可盈亏平衡

网易汽车 浏览 2707

AI赋能体育教育新图景:构建中小学智慧体育新生态

南方都市报 浏览 2587

三年打入越南Top 5,这家纸巾厂的出海秘诀是什么?

虎嗅APP 浏览 2840

吴建豪:一位复古“老餮”的用心律动与生命赤诚

三石一声 浏览 1795

花费498万买进"百强县"榜单被通报 辽宁海城官方回应

中国新闻周刊 浏览 5457

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 30512

知名策略师预警:美股“聪明钱”已离场看戏,找不到值得买的票

财通社 浏览 2435

中印边境士兵交换糖果 中使馆:展现双方善意

环球网资讯 浏览 2776

从“养儿防老”到攒私房钱,农村老人的想法变了

观察者网 浏览 1088

美利坚金融核爆:三杀困局与帝国黄昏

浏览 6559

何晴告别式现场,前夫许亚军疑似现身双眼泛红,大量群众自发悼念

萌神木木 浏览 1972
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1