关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3882人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

那些外国博主们,怎么突然开始吹中国手机了???

差评XPIN 浏览 2583

中年女人的开挂指南,避开花衣服和紧身衣,把优雅感焊在身上

静儿时尚达人 浏览 3339

没上映票房就破2400万,邓超加陈凯歌都压不住,国庆档冠军定了?

靠谱电影君 浏览 4220

47岁余皑磊演戏多年无人问,一演特务众人知

可乐谈情感 浏览 3745

IBM最新量子算法,运行速度提升约10倍,带动AMD市值暴涨近2000亿

DeepTech深科技 浏览 3494

被采取刑事强制措施后,善水科技董事长宣布“婚变”、辞职,前妻成实控人

红星资本局 浏览 3519

郑钦文排名跌至世界第24!年终确定跌出前20 不影响澳网种子席位

风过乡 浏览 3658

信达生物与武田制药达成全球战略合作,交易额最高可达114亿美元,股价收跌近2%

红星资本局 浏览 3574

闫妮姚晨合拍大片,梦回《武林外传》

蕾爸退休日记 浏览 3455

美股反弹!纳指收涨2.21%,黄金、白银期货飙涨创历史新高

中新经纬 浏览 3784

高市早苗再有新动作日本准备拥有核武 中俄要早做准备

头条爆料007 浏览 45155

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

韩小娱 浏览 2377

负债数亿,足力健卖食品要开20000家店

中国企业家杂志 浏览 3433

比亚迪RACCO内饰官图发布 将于今夏在日本市场发布

太平洋汽车 浏览 1982

德雷森:格雷茨卡本赛季不走;我们将择机与凯恩开启续约谈判

懂球帝 浏览 2635

车导的瓜没吃完 孟桐的瓜又来了 那英如何反击?

动物奇奇怪怪 浏览 4187

广东U20 1-0上海U20,张志雄绝杀

懂球帝 浏览 3431

德云社郭德纲发文喜提4个新身份,含金量都不低

素衣读史 浏览 3476

成本3元卖60元,“99%高纯”磷虾油实测核心成分为0!百年同仁堂“栽”在贴牌上

国际金融报 浏览 2995

18岁少年鳌太线失联超10天 搜救队再次进山展开搜救

红星新闻 浏览 9049

22岁医学生被前男友扼颈杀害 生前开公司转至男方名下

扬子晚报 浏览 9601
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1