关闭广告

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者2628人阅读


这项由台湾大学和中研院信息技术创新研究中心联合开展的突破性研究发表于2025年12月,研究团队针对当前AI画图模型的安全漏洞提出了创新解决方案。感兴趣的读者可以通过论文编号arXiv:2512.22877v1查询完整研究内容。

现在的AI画图工具就像一位技艺精湛但记忆混乱的画家。你可以通过特殊训练让它"忘记"如何画某些敏感内容,比如武器或版权角色。然而,这种"失忆"其实很脆弱。当有人换个方式提要求时,这位AI画家往往会突然"想起来",重新画出那些本该被禁止的内容。

研究团队发现了一个惊人的现象:虽然现有的"概念擦除"技术在面对直接文字指令时表现良好,但当用户使用更巧妙的方法时,这些防护就形同虚设。具体来说,用户可以通过两种方式绕过防护:一是使用从图片中学习得到的特殊"密码",二是直接把想要复制的图片转换成AI能理解的"草图",然后让AI重新画一遍。

为了彻底解决这个问题,研究团队开发了一套全新的评估体系,叫做M-ErasureBench,同时还推出了一个叫做IRECE的防御插件。这个插件的工作原理就像一个精明的审查员,能在AI作画过程中实时监控,一旦发现画面中出现违禁

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

购置税红利倒计时,头部车企上演“兜底”大战

汽车点评AC 浏览 3532

4月五菱汽车全球销量11.67万辆 海外出口首破3万

网易汽车 浏览 161

ST路通内斗激化!“资本大佬”吴世春“抄底”遭遇绊脚石

野马财经 浏览 3509

情报显示以军内部有证据表明其可能构成战争罪

北青网-北京青年报 浏览 3402

再遭失利,内马尔不满自己被换下并直接返回更衣室

懂球帝 浏览 3387

东方甄选大规模发放股权奖励,俞敏洪获180万股

鞭牛士 浏览 412

挥别日上 免税市场洗牌

北京商报 浏览 2641

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 3502

韩总理下达紧急指令:必要时强力应对个别反华集会

环球网资讯 浏览 15787

前男友转身花5亿娶闺蜜,徐梵溪的选择耐人寻味

失宠的小野猪 浏览 2847

国庆"被弃高速"的小狗主人找来了 主人:不是故意丢弃

红星新闻 浏览 19472

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 9480

岚图卢放:打破百年成见 重构豪华轿车价值标准

网易汽车 浏览 2925

万斯一句话让印度裔美国人炸锅 遭铺天盖地批评后回应

鲁中晨报 浏览 8781

林允儿新剧遭官媒批评!本人社媒喊话我喜欢,来中国捞金还挑衅

萌神木木 浏览 3703

途经俄罗斯航班坠机38人身亡 机身或被弹片击中

南方都市报 浏览 24241

51岁林志玲近状曝光,面相变化大引热议,网友:变成莫文蔚了

扒虾侃娱 浏览 2642

媒体:欧洲有人或已接受让出格陵兰 希望美国留个体面

环球时报国际 浏览 13719

罗马诺:切尔西接近聘请前利物浦球探总监戴夫-法洛斯

懂球帝 浏览 3586

TA:维尼修斯认为自己在球队整体表现不佳的情况下被区别对待

懂球帝 浏览 2949

现场:马竞绝杀国米6连胜!甘当替补的格子同样出色

体坛周报 浏览 3230
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1