关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3883人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《逍遥》最大谜团:村民献祭妹妹给树妖,为何秉烛只恨妖不恨人?

肆季娱乐 浏览 2709

今年母亲节,和妈妈一起变漂亮

时尚COSMO 浏览 174

坠机身亡主播"唐飞机"是驻村干部 曾被约谈"不要飞"

澎湃新闻 浏览 39445

盐湖提锂的高原神话

诗与星空 浏览 494

提升冬日幸福感的8件小事,放松又治愈

LinkFashion 浏览 3266

山东加时105-99福建取4连胜,陶汉林19+10,邹阳空砍28+8

懂球帝 浏览 2681

将于5月15日发布 理想L9 Livis内饰细节公开

车质网 浏览 172

乌克兰总统期待见特朗普谈“安全保障期限”

环球网资讯 浏览 2563

卷上天的新能源厂商,销量却被燃油车背刺了

虎嗅APP 浏览 3771

综合续航超1500km 加方盒子车身 智己LS9即将上市!

车品 浏览 3336

最高法改判福清祖屋强拆案后 屋主再提诉讼

澎湃新闻 浏览 3668

郭德纲相声春晚访谈,透露最新计划

杨仔述 浏览 2588

「冰雪+温泉」模式:山地文旅地产如何重构冬季休闲生活?

豹变 浏览 2870

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 21367

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 3356

邮报:曼联计划升级老特拉福德排水系统,以修复顶棚漏水问题

懂球帝 浏览 2896

小米YU7内掏出不明零件最新进展 市监局介入处理

网易汽车 浏览 3600

萨巴伦卡取得年终总决赛两连胜

体坛周报 浏览 3418

深圳这个人气指标,又爆表了!

博闻财经 浏览 2852

尹同跃宣告奇瑞AI进入2.0时代,要快速追赶特斯拉FSD

贝壳财经 浏览 2554

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 3697
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1