怎样用apache做网站,一个网站怎么做,软件盒子wordpress,长链接生成短链接网址Attacks in NLP 相关话题 Introduction 以前的攻击专注于图像和语音上#xff0c;而NLP上的内容比较少。而NLP的复杂度跟词典有关系#xff1a; NLP只能在embedding后的特征上加噪声
Evasion Attacks 电影的评论情感分类#xff0c;将film换成films后#xff0c;评论从…Attacks in NLP 相关话题 Introduction 以前的攻击专注于图像和语音上而NLP上的内容比较少。而NLP的复杂度跟词典有关系 NLP只能在embedding后的特征上加噪声
Evasion Attacks 电影的评论情感分类将film换成films后评论从消极变成了积极。 结构分析如果改一个词后结果完全不一样。 模型非常脆弱看看有没有哪些方法让自己的模型更鲁棒一点。 imitation Attacks 同义词替换 embedding空间中找相近向量进行替换 KNN聚类进行拉近 大模型预测进行替代 用embedding的梯度来获得单词的替换 按照使得loss变化的顺序排序然后取top-k个单词使得loss最大 字符级别的替换交换删除插入 Motivation Example of Attack 加点杂信号就能让分类器识别错误。 设计loss这块能使得无目标或者目标攻击成为可能。 在L2 norm下的情况下改变一个和改变每个效果一样。
Backdoor Attacks 当不知道训练资料的话如何进行攻击呢这就是黑箱攻击。 集成攻击对角线攻击。 深蓝色区域是其能正常被识别为正确的范围攻击的话就是将其移动那个到不是蓝色区域。
One pixel attack 改变一个像素值就能让分类器失败。
Universal adversarial attack 找到了一个noise加到非常多的图片都能让辨别器辨别错误。
除了图像其它领域也可以被攻击比如声音NLP等。 在末尾加上标红的文字后导致问答系统的答案都是一样的
Attack in the Physical world 给男人加一个眼镜导致摄像头识别算法识别为右边的女人。 对车牌系统进行攻击对标致的识别系统。 将3的横线给拉长一点结果导致特斯拉导致速度限制为35看成了85导致加速。 白色方块的数量会对应不同的类别。
在模型里面开一个后门 在训练阶段就开始攻击虽然训练数据是人眼看起来正常的 只会对某一张图片辨识错误而不会对其他图片产生错误。 公开的图片训练集里面可能暗含攻击图片
Defense 被动防御
训练好了就不要动了在模型前面加一个盾牌。 比如模糊化处理对原来的图像影响甚小但是对攻击图像的影响是巨大的。另外也稍微会给置信率降低一点点。
图像压缩图像生成用图像生成产生相同的输入图像进而过滤攻击图片 如果一旦被别人知道你的被动防御措施别人可以更新攻击进而攻破你的被动防御。比如模糊的那一个处理就可以当做网络的第一层。
在做defense的时候加上你的随机性各种不同的defense让攻击方不知道你的防御是什么。
主动防御
训练一个鲁棒的不容易被攻破的模型。
制作了一个新的训练资料每个样本都被攻击过但是标签被纠正过。然后将两批数据一起训练。 如果找到新的攻击数据就加到训练数据中进一步训练。 但是它不太能挡住新的攻击还是能够被攻击破的另外就是需要不断的重复训练需要比较大的训练资源。
有人发明了一种方法能够做到adversairal training for free 不再需要新的计算资源。
Summary 攻击和防御方法都在进化中。