关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3887人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

抢占日本本土K-car市场 比亚迪Racco亮相

网易汽车 浏览 3592

美媒:泽连斯基未拒绝领土问题 要求提供更多细节

环球时报国际 浏览 8525

别这样P图了,真的好假!

Yuki女人故事 浏览 2654

马杜罗出庭:站立姿势被指有对抗意味 钢笔被法警夺走

澎湃新闻 浏览 6183

南部战区107编队演训影响几何 专家解读

上观新闻 浏览 509

8699元学习机成“大板砖”!维修要2499元,家长:交了智商税

北京商报 浏览 3700

春季躁动,AI软件应用迎来“奇点时刻”

懂财帝 浏览 2546

大车要做大,小车更加要——工信部第399批新车热评

吴佩频道 浏览 3669

弗里克:相信阿隆索会有新工作;坎塞洛明天有可能上

懂球帝 浏览 2642

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 3182

三年半烧掉35亿!一帮金融人,带“火箭”冲科创板

财通社 浏览 2638

陈天桥亲自下场押注脑机接口赛道,中国首家超声波BCI企业格式塔成立

华夏时报 浏览 2713

易三方/云辇-A/2.0T 腾势N8L售29.98万元起

网易汽车 浏览 2943

顶流小花反被“恶婆婆”抢了风头?网友:贵气!

Yuki女人故事 浏览 3636

韩综镜头下,中国南极站vs韩国世宗王站,差距大到韩网友集体破防

时评人李文君 浏览 2642

北京79-73战胜浙江 球员评价:2人优秀,4人及格,4人低迷

篮球资讯达人 浏览 2553

她是在官宣恋情?她们真的恋爱了?

青杉依旧啊啊 浏览 3338

北溪爆炸案一嫌犯身份曝光 案发时为乌军现役士兵

财联社 浏览 2902

小米新车曝光!雷军的致命子弹,射向李想和余承东

象视汽车 浏览 3620

‍9.7分,成本400万,票房破2亿?陈思诚也压不住,年度黑马来了

靠谱电影君 浏览 282

智驾双雄:大湾区杀出全球智驾新势力

21世纪经济报道 浏览 2580
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1