关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1047人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夏季100套好看显瘦的泳衣造型 看完就出发去海边

In风尚 浏览 15262

星途七年七换帅,高管动荡魔咒如何破?

电动势 浏览 1049

豫媒:河南队泰国拉练只花了15万元,在当地踢热身赛一胜一平

懂球帝 浏览 241

30套品位慵懒系穿搭,美到秋天!

In风尚 浏览 15000

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 781

吉尔贝托:枪手要给道曼提供支持,不要给他施加太多的压力

懂球帝 浏览 1062

曹操墓被盗过几次?现在还剩下些什么?

趣看热点 浏览 26423

利物浦起飞?今夏砸2.4亿连签3强援升级中场!首发豪阵曝光可争冠

我爱英超 浏览 14534

马德兴:汪士钦落选是因为熊猫杯引发舆情,于金永身体不适

懂球帝 浏览 240

美官员:美军抵达以色列 监督加沙停火协议的执行

环球时报国际 浏览 1057

黄奕就算与前男友同框 也没影响她的好状态

双鱼爱畅谈 浏览 19584

六王赛:辛纳2-0阿卡夺两连冠获600万 德约0-1后退赛无缘季军

醉卧浮生 浏览 928

媒体:敏感时刻和地点 伊朗连环爆炸案令人细思恐极

新京报评论 浏览 12786

乌克兰将在德国和丹麦设立武器出口办事处

上观新闻 浏览 706

掘金无缘登顶西部:约基奇9中8砍27+11+6里程悲 超越詹皇改写历史

厝边人侃体育 浏览 12933

年底盈利即将兑现 蔚来Q3财报公布

网易汽车 浏览 382

俄媒指美方炒作苏罗维金被捕:企图撼动俄国内局势

环球网资讯 浏览 15714

抢滩“双11”,浙江跨境商家为速卖通备货10万棵圣诞树

财闻 浏览 1048

表现不稳,世体:巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝 浏览 545

伍伦盼:泰国队客场保障一切到位,吃得好睡得好训练场地也很好

直播吧 浏览 10916

哈马斯称将把加沙地带行政控制权移交临时委员会

环球网资讯 浏览 788
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1