恒达登陆_Hinton团队胶囊网络新进展：两种方式加

选自arXiv

作者：Yao Qin、Geoffrey Hinton等

机械之心编译

介入：王子嘉、Geek AI

2017 年，图灵奖获得者 Hinton 提出的胶囊网络为深度学习研究开启了一扇新的大门。今后，对胶囊网络的探索便一直是该领域最前沿的研究话题。2018 年 11 月，Hinton 团队曾在论文「DARCCC：Detecting Adversaries by Recontruction from Class Conditional Capsules」中提出通过图像重修网络监测匹敌性攻击的方式。上个月，Hinton 团队再发力作，进一步完善了胶囊网络在机械学习平安领域的应用。

论文地址：https://arxiv.org/abs/2002.07405

弁言

在本文中，我们提出了一种基于胶囊层（Capsule layer，Sabour et al., 2017; Qin et al., 2020）的网络和检测机制，它可以精确地检测到攻击，对于未检测到的攻击，它通常也可以迫使攻击者天生类似于目的类的图像（从而使它们被偏转）。我们的网络结构由两部分组成：对输入举行分类的胶囊分类网络，以及凭据展望的胶囊（predicted capsule）的姿态参数（pose parameters）重修输入图像的重修网络。

图 3：具有循环一致性的胜出的胶囊重修（cycle-consistent winning capsule reconstructions）网络架构。

除了（Sabour et al., 2017; Qin et al., 2020）中使用的分类损失和 L2 重修损失外，我们还引入了一个分外的循环一致性训练损失，该训练损失迫使胜出的胶囊重修效果的分类与原始输入的分类相同。这种新的辅助训练损失促使重修更严格地匹配有种别条件的漫衍，而且也对模子检测和偏转匹敌攻击有所辅助。

此外，我们基于对清洁的输入和匹敌性输入的胜出胶囊重修之间的差异，提出了两种新的攻击不可知的检测方式。我们证实，在 SVHN 和 CIFAR-10 数据集上，基于三种差别的变形器量――EAD（Chen et al.，2018）、CW（Carlini & Wagner, 2017b）和 PGD（Madry et al.，2017）证实了，该方式可以准确地检测白盒和黑盒攻击。

检测方式

在本文中，我们使用三种基于重修的检测方式来检测尺度攻击。这三种方式划分是：（1）最早由 Qin 等人在 2020 年提出的全局阈值检测器（Global Threshold Detector，GTD），局部最优检测器（Local Best Detector，LBD）和循环一致性检测器（Cycle-Consistency Detector，CCD）。

全局阈值检测器

当输入被匹敌性攻击扰动时，对输入的分类效果可能是不准确的，然则重修效果常常是模糊的，因此匹敌性输入和重修效果之间的距离比期望的正常输入与重修效果之间的距离要大。这使得我们可以通过全局阈值检测器检测出匹敌性输入。这种 Qin 等人于 2020 年揭晓的论文中提出的方式，测量了输入与胜出胶囊的重修效果之间的重修误差。若是重修误差大于全局阈值 θ:

那么输入就会被符号为匹敌性样本。

局部最优检测器

当输入是一个清洁的（clean）图像时，胜出胶囊的重修误差小于失败胶囊的重修误差，相关示例如图 4 的第一行所示。

然而，当输入是一个匹敌示例时，与胜出的胶囊对应的重修效果相比，从对应于准确标签的胶囊举行重修的效果更靠近于输入（见图 4 中的第二行）。

图 4：清洁输入的示例，通过 PGD 攻击天生的匹敌性示例，以及每个类的胶囊对清洁输入和匹敌性输入的重构。

因此，我们提出行使「局部最佳检测器」（Local Best Detector，LBD）检测出这些匹敌性图像，它们由胜出的胶囊发生的重构误差并非最小：

其中，n 是数据集中类的数目。

循环一致性检测器

若是输入是一个清洁的图像，胜出的胶囊的重修效果会和输入很相似。理想情况下，我们的模子应该将获胜胶囊的重修效果和清洁的输入标注为同样的种别。这种行为通过使用循环一致性损失的训练得以强化。

然而，当输入是一个匹敌性示例时，它与清洁的图像在视觉上难以区分，但又迫使模子将其展望为目的种别。胜出胶囊的重修效果往往看起来更靠近清洁的输入，或是变得模糊。因此，获胜胶囊的重修效果往往不会被归类为目的种别。

因此，循环一致性检测器（Cycle-Consistency Detector，CCD）被设计用来在输入 x 与其胜出的胶囊的重修效果并没有被判断成统一类时，将 x 标注为匹敌性样本。

能够感知防御机制的 CC-PGD 攻击

为了天生这样的攻击，我们在（Qin et al.，2020）的基础上，在每个梯度步上设计了包罗两个阶段的攻击。第一个阶段试图通过遵照尺度攻击（例如，尺度 PGD 攻击）来诱骗分类器，该攻击的损失为其相对输入的交织熵损失。然后，在第二阶段，我们重点关注通过思量重构误差和循环一致性，来诱骗检测机制。

实验

在提出新的防御模子后，我们首先在 SVHN 和 CIFAR10 数据集上验证它对种种攻击的检测性能。然后，我们使用通过人工研究来证实我们的模子经常迫使未被发现的攻击被偏转。

评价指标及数据集

在本文中，我们使用准确率（accuracy）来示意被我们的网络准确分类的清洁示例的比例。我们使用乐成率（乐成诱骗检测器将其展望为目的种别的匹敌性示例的比例）来权衡攻击的性能。

为了评估差别检测机制的性能，我们同时给出了假阳性率（False Positive Rate，FPR）和漏检率。

最后，我们举行了一项人工研究，以解释我们的模子能够有效地偏转匹敌性攻击。

训练细节与测试集准确率

我们将 batch 的巨细设置为 64，学习率设置为 0.0001，从而在 SVHN 上训练网络。使用 CIFAR-10 中的数据举行训练时，batch 巨细则被设置为 128，学习率为 0.0002。我们使用 Adam 优化器（Kingma & Ba，2014）来训练所有的模子。

我们在 SVHN（Netzer et al.，2011）和 CIFAR-10 数据集（Krizhevsky，2009）上测试了偏转模子。在针对清洁样本数据集的测试中，在 SVHN 上的分类准确率为 96.5%，在 CIFAR-10 上的分类准确率为 92.6%，这些效果说明我们的偏转模子在清洁图像的分类义务上性能优异。

威胁模子

在本文中，我们思量了两种常见的威胁模子：白盒模子和黑盒模子。对于白盒攻击，攻击者完全领会网络结构和参数，可以通过盘算模子输出相对于输入的梯度来组织匹敌性攻击。在黑盒模子的环境下，攻击者知道目的模子的网络架构，但不能直接获取模子的参数。

为了天生针对目的模子的黑盒攻击，在具有相同网络结构的替换模子上举行训练，并进一步受到白盒攻击的攻击，然后将白盒攻击作为黑盒攻击转移到目的模子中。

匹敌性攻击

我们测试了在攻击不可知情况下，三种基于差别距离器量的尺度目的攻击检测机制：基于 L1 范数的 EAD（Chen et al.，2018），基于 L2 范数的 CW（Carlini & Wagner，2017b）以及基于 L∞ 范数的 PGD（Madry et al.，2017）。此外，我们根据（Carlini & Wagner，2017a）中的建议，汇报了我们的检测机制检测能够感知防御的攻击时的性能。

PGD 和 CC-PGD 攻击的健壮性检测

在本节中，我们完成了基本的健壮性检测，以确保匹敌性攻击的真正实现，而且确保我们提出的能够感知防御的 CC-PGD 得到了很好的调优。我们在 CIFAR-10 数据集上测试针对我们提出的偏转模子的攻击。类似的结论在 SVHN 数据集上也建立。

图 5（a）显示了在 CIFAR-10 数据集上，白盒 PGD 和 CC-PGD 的乐成率随着迭代次数的增添而转变。在图 5（b）中，我们发现白盒 PGD 和 CC-PGD 的乐成率随着匹敌性扰动 E∞ 的 L∞ 界的增大而转变。在图 5（c）中，我们在 CIFAR-10 数据集上，针对我们的偏转模子划分使用一阶段和两阶段优化构建了能够感知防御机制的 CC-PGD。

图 5。

模子简化实验

在图 10 中，我们绘制了差别检测器符号的白盒匹敌攻击的漏检率与清洁输入的假阳性率。

图 10。

为了证实本文提出的循环一致性损失的有效性，我们构建了一个基线胶囊模子，该模子与我们的偏转模子具有相同的网络结构，但经由不使用分外的循环一致性损失的训练。

图 5（d）显示了，在 CIFAR-10 数据集上，能够意识到防御机制的白盒攻击的漏检率与清洁输入的假阳性率（FPR）。

检测白盒攻击

如图 7 所示，对于 SVHN 和 CIFAR-10 数据集上，我们的检测方式对于所有三种尺度白盒攻击（EAD、CW 和 PGD）的漏检率都异常小。其中，PGD 对我们的检测机制的攻击最强，在 FPR 相同时的漏检率最高。

图 7：在 SVHN 和 CIFAR-10 数据集上，白盒和黑盒攻击的漏检率与清洁输入的假阳性率（FPR）。最强攻击的线下面积最大。

只管我们可以清楚地看到，与尺度的 PGD 攻击相比，CC-PGD 的漏检率增添了。然而，如表 1 所示，在 SVHN 上，白盒 CC-PGD 的乐成率却显著下降（从 PGD: 96.0% 到 CC-PGD: 69.0%）。这说明攻击者需要牺牲一定的乐成率才气不被我们的检测机制检测到。

表 1。

从表 2 可以看出，虽然统计磨练（Roth et al.，2019）和基于分类器的检测方式（Hosseini et al.，2019）可以乐成地检测到尺度攻击，然则它们对于能够感知防御的攻击的检测则都失败了。相比之下，我们提出的基于重修的检测机制在检测能够感知防御的匹敌性攻击时的漏检率是最小的，在检测 CW 攻击方面的漏检率仅为 4.6%。

表 2：在 CIFAR-10 数据集上，与现在最先进的检测方式的漏检率的对照。

检测黑盒攻击

为了研究我们的检测机制的有效性，我们还在黑盒攻击上测试了我们的模子。在图 7 中，我们可以看到，在这两个数据集上，当输入为黑盒 CC-PGD 攻击时，漏检率仅为白盒 CC-PGD 的一半。

此外，如表 1 所示，白盒攻击和黑盒攻击的乐成率有伟大差距，这就解释我们的防御模子显著降低了种种匹敌性攻击的可迁移性。

偏转攻击

在 SVHN 上举行人工研究

为了验证我们的方式可以偏转匹敌性攻击的说法，我们举行了一项人工研究。我们使用亚马逊土耳其机械人网络服务招募介入者，并要求人们符号 SVHN 数字。效果如图 8 所示。

图 8：在 SVHN 上的人工研究效果。最大的 L∞ 扰动为 16/255。

此外，与白盒攻击相比，更多在黑盒环境下天生的未被检测到的、乐成的匹敌性攻击会被偏转，从而变得与目的类相似。这解释，要在更真实的场景（黑盒）下攻击我们的偏转模子，攻击将被偏转以制止被检测到，如图 9 所示。

图 9：在 SVHN 和 CIFAR-10 上被偏转的匹敌性攻击。SVHN 的最大 L∞ 扰动为 16/255，CIFAR-10 的最大 L∞扰动为 25/255。

CIFAR-10 上的偏转攻击

为了证实我们的模子可以在 CIFAR-10 数据集上有效地偏转匹敌性攻击，我们为每个类选择了一个偏转后的匹敌性攻击，其最大 L∞范数为 25/255，如图 9 所示。

很明显，为了诱骗分类器和我们的检测机制，清洁的输入已经被扰动，具有目的类的代表性特征。实验效果解释，我们的模子也乐成地偏转了这些匹敌性攻击。

本文为机械之心编译，转载请联系本民众号获得授权。

------------------------------------------------

加入机械之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或追求报道：content@jiqizhixin.com

广告 & 商务互助：bd@jiqizhixin.com

公司新闻

恒达登陆_Hinton团队胶囊网络新进展：两种方式加

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000

公司新闻

恒达登陆_Hinton团队胶囊网络新进展：两种方式加

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000