CN115867922A

CN115867922A - 水印作为对抗性防御的蜜罐

Info

Publication number: CN115867922A
Application number: CN202180039185.5A
Authority: CN
Inventors: 章济一
Original assignee: PayPal Inc
Current assignee: PayPal Inc
Priority date: 2020-05-29
Filing date: 2021-05-19
Publication date: 2023-03-28
Also published as: EP4158531A1; US20230095320A1; EP4158531A4; AU2021278901A1; WO2021242584A1; AU2021278901B2; US20210374501A1; US11501136B2

Abstract

提供了用于确定对神经网络的攻击的***、方法和计算机程序产品。在第一分类器神经网络和水印分类器神经网络处接收数据样本，其中，第一分类器神经网络是使用第一数据集和水印数据集来训练的。第一分类器神经网络确定数据样本的分类标签。水印分类器神经网络确定针对数据样本的水印分类标签。基于针对数据样本的分类标签和针对数据样本的水印分类标签，来确定数据样本为对抗性数据样本。

Description

水印作为对抗性防御的蜜罐

相关申请的交叉引用

本申请要求于2020年5月29日提交的美国申请第16/887,381号的优先权，该申请的全部内容通过引用合并在本文中。

技术领域

本公开内容总体上涉及一种神经网络，更具体地涉及防止对神经网络的对抗性攻击。

背景技术

随着现代学习理论的进步和图形处理单元(GPGPU)上通用计算的推进，机器学习模型变得越来越强大。机器学习模型尤其是深度神经网络在例如图像分类、对象检测和自然语言处理的任务中实现了优异的性能。尽管如此，大多数机器学习模型都容易受到使用对抗性样本的攻击。对抗性样本是下述的数据样本，该数据样本是由机器学习模型接收到的并且所述数据样本相对于干净的数据样本具有小的扰动，例如像素值的变化。然而，对抗性样本中的小扰动会导致机器学习模型产生错误的结果。

附图说明

图1是可以实施实施方式的计算***。

图2是根据实施方式的蜜罐分类器的框图。

图3A是根据实施方式的水印分类器的框图。

图3B是示出根据实施方式的根据干净数据和对抗性数据生成的水印标签的表格的图。

图4是根据实施方式的区分分类器的框图。

图5是根据实施方式的水印生成器的框图。

图6是根据实施方式的包括水印生成器和蜜罐分类器的联合训练***的框图。

图7是根据实施方式的蜜罐分类器的神经网络结构的框图。

图8是根据实施方式的生成水印的水印生成器中的生成器的神经网络结构的框图。

图9是根据实施方式的水印分类器的神经网络结构的框图。

图10是根据实施方式的区分分类器的神经网络结构的框图。

图11是根据实施方式的多个水印蜜罐分类器的框图。

图12是根据实施方式的生成干净样本的区分分类器的框图。

图13是根据实施方式的用于识别对抗性样本的方法的流程图。

图14是根据实施方式的用于生成水印数据集的方法的流程图。

图15是根据实施方式的用于训练水印生成器和蜜罐分类器的联合训练机制的方法的流程图。

图16是可以实施神经网络的计算***的框图。

图17是根据实施方式的适用于实施图1至图16中的一个或更多个组件或操作的计算机***的框图。

通过参考下面的详细描述可以最好地理解本公开内容的实施方式及其优点。应当理解，相同的附图标记用于标识一个或更多个附图中所示的相同的元素，其中，在附图中的图示是为了说明本公开内容的实施方式，而不是为了限制本公开内容。

具体实施方式

下面结合附图阐述的详细描述旨在作为对各种配置的描述，而不旨在表示可以实践本文描述的概念的唯一配置。详细描述包括特定细节，以提供对各种概念的透彻理解。然而，对于本领域的技术人员来说明显的是，可以在没有这些具体细节的情况下实践这些概念。在某些情况下，众所周知的结构和组件以框图形式示出，以避免混淆这些概念。

实施方式公开了神经网络，例如，蜜罐分类器，所述神经网络被训练以用于在对抗性攻击期间识别对抗性数据。使用数据集中的干净数据或样本以及水印数据集中的水印来对神经网络进行训练。虽然攻击者可以获得干净数据集中的数据，但水印数据集中的水印是未知的。因此，当干净数据在对抗性攻击中被修改为对抗性样本并且将该对抗性样本传送经过神经网络时，由神经网络确定的分类标签被水印污染或感染。

实施方式公开了水印神经网络，例如，水印分类器，该水印神经网络从干净样本或对抗性样本中识别水印分类标签或仅水印标签。水印标签和分类标签可以用来确定蜜罐分类器接收到的样本是干净样本还是对抗性样本。

实施方式公开了用于根据潜在向量针对水印数据集生成水印的水印生成器神经网络。潜在向量可以从无限数量的非重叠高斯分布中得出，并将水印标签分配给水印。因为有无限数量的非重叠高斯分布，所以可以有无限数量的可能水印。

实施方式公开了用于蜜罐分类器神经网络、水印神经网络和水印生成器神经网络的神经网络结构。

图1是可以实施实施方式的计算***100。***100包括计算设备102，该计算设备102可以是在用户控制下的便携式或非便携式电子设备，或者该计算设备102可以是用作用于处理从其他计算设备接收到的数据和指令的后端的服务器。示例计算设备在图16和图17中进一步详细讨论。

计算设备102包括处理器104和存储器106。处理器104和存储器106在图17中进一步详细讨论。存储器106可以存储由处理器104执行的神经网络108。神经网络108可以是一个或更多个层的组合，并且神经网络108在每个层内包括一个或更多个神经元。每个神经元可以与相邻层的一些或所有神经元连接，并且每个神经元可以被分配一个或更多个权重。权重对在神经元处接收到的数据进行操纵，并且生成作为神经元输出的数据。神经网络108可以使用训练数据集进行训练，以生成用于训练数据集的预期输出。一旦经过训练，神经网络108可以接收数据作为输入，并且生成该数据的输出。因为该数据与训练数据集中的数据相同或相似，所以神经网络生成与训练数据集中的数据的输出相同或相似的该数据的输出。

对抗性攻击利用神经网络108的这一属性来生成欺诈性结果。在包括在支付处理应用程序中的神经网络108中，示例欺诈性结果可能是对与被盗***相关联的购买进行授权支付，或者可能是由于所购买的物品被视为已退回而发出退款授权。生成欺诈性结果的一种方法是生成对干净样本进行扰动的对抗性样本。当干净数据是图像时，对抗性样本可以通过对图像中的大量像素进行少量扰动或者对图像中的少量像素进行大量扰动而创建。这两种扰动都可以产生超出训练分布的对抗性样本。

在一些实施方式中，水印作为蜜罐(WAH)模块110被用来检测使用对抗性攻击生成的分布外输入。WAH模块可以存储在存储器106中。WAH模块110可以包括蜜罐分类器H 112、水印分类器Q 114。在一些实施方式中，WAH模块110还可以包括区分分类器S 116和集合模块118。值得注意的是，虽然这些组件被示出为包括在单个WAH模块110中，但这些组件也可以单独包括在不同的WAH模块110中。

WAH模块110可以通过向数据的对抗性样本添加可检测的水印来防止对抗性攻击或使对抗性攻击最小化，同时针对干净或非对抗性数据生成正确分类结果。换句话说，WAH模块110可以利用水印分类器来标记对抗性样本，然后使用水印分类器来识别对抗性样本。

如上所述，WAH模块110包括蜜罐分类器H 112。蜜罐分类器H 112可以是利用包括干净数据和水印数据集的数据集进行训练的神经网络108。例如，假设训练集D包括具有类标签d₁…,d_N的N个类，而水印数据集W具有与数据集D不同的分布，水印数据集W与数据集D不重叠。水印数据集W的N个类可以是w₁…,w_N。WAH模块110可以生成将数据集D和W进行组合的组合数据集C，或C＝D U W。在这种情况下，每个类标签c_i包含来自d_i和w_i的所有样本。具有类标签c的组合数据集C可以表示为：

在一些实施方式中，类C中来自数据集D的样本和来自水印数据集W的样本的比例可以是这样的：数据集D不被水印数据集W所稀释。

图2是根据实施方式的蜜罐分类器的框图200。蜜罐分类器H 112可以接收数据样本，该数据样本包括干净数据，例如数据集D 204中的数据，和已经被攻击者修改的对抗性数据。蜜罐分类器H 112将每个数据样本分类为类标签c 208。蜜罐分类器H 112的结构在图7中进一步讨论。

在一些实施方式中，在检测对抗性样本之前，可以使用数据集C 202中的数据来训练蜜罐分类器H 112。数据集C 202中的数据可以包括来自数据集D 204的干净或非对抗性数据以及水印数据集W 206中的水印。数据集C 202的类标签是已知的。训练蜜罐分类器H112构成使数据集C 202中的数据传送经过蜜罐分类器H 112，同时修改蜜罐分类器H 112的内部权重并生成类标签c 208。训练继续进行，直到蜜罐分类器H 112将数据集C 202中的数据分类为类标签c 208，与已知的类标签相比，该类标签c 208的误差低于可配置的阈值。

一旦蜜罐分类器H 112被训练，蜜罐分类器H 112可能会在攻击事件中对对抗性数据进行错误分类。当作为蜜罐分类器H 112训练的神经网络108被安装在计算设备102上时，攻击者可能使用下述数据来对神经网络108进行攻击，该数据是数据集D 204中的数据的扰动版本。这是因为数据集D 204中的数据通常是已知的和可获取的，但水印数据集W 206中的水印是安全存储的并且是攻击者无法获取的。

例如，假定数据集D 204包括图像x。攻击者可能选择对图像x进行扰动或将图像x修改为图像x'，使得蜜罐分类器H 112输出的针对图像x的正确分类器类的分数减少，或者针对目标类的分数增加。攻击者也可以选择最佳的扰动方向，以使图像x和图像x'之间的差异最小化。然而，当蜜罐分类器H 112接收到图像x'并对图像x'进行分类时，某些类c_i的分数的增加或减少不可避免地与水印w_i的相应类相关联。因此，水印w_i的类可以表明该样本例如图像x'是对抗性样本，这表明对抗性攻击。

返回到图1，如上所述，WAH模块110可以包括水印分类器Q 114。水印分类器Q 114可以检测对抗性样本中的水印，并使用水印来追踪攻击的证据。图3是根据实施方式的水印分类器的框图300。水印分类器Q 114可以接收数据集D 204、水印数据集D 206或组合数据集C 202中的数据，并将数据分类为水印标签w 304。水印分类器Q 114的结构在图9中进一步讨论。一般来说，水印分类器Q 114具有与蜜罐分类器H 112相同或相似的结构。

如图3A所示，水印分类器Q 114可以使用包括水印作为数据样本的综合水印数据集W 206进行训练。水印数据集W 206可以被随机裁剪、调整大小和旋转，以使水印分类器Q114对输入转换更加稳健。在训练期间，水印分类器Q 114可以用作以水印标签w 304作为基础事实的多类分类器。

一旦经过训练，水印分类器Q 114可以接收数据，该数据可以是作为输入的数据集D 204、W 206或C 202中的数据样本，并且水印分类器Q 114可以识别水印标签w 304中与该输入相关的一个水印标签。当水印分类器Q 114接收到扰动的对抗性样本例如由攻击者生成的图像x'时，对抗性样本使水印分类器Q 114的软标签(水印标签w 304中的一个)与蜜罐分类器H 112的类标签c 208相比发生重大变化。类标签c 208和水印标签w 304的差异可以被用于识别对抗性数据样本。

例如，假设传统的快速梯度符号法(FGSM)攻击发生在神经网络108上。FGSM攻击可能应用于为图像的数据样本。在FGSM攻击中，图像中一个或更多个像素的小扰动会导致神经网络输出的大变化。假设在FGSM攻击中使用的输入图像可以是来自(Modified NationalInstitute of Standards and Technology，修改后的国家标准和技术研究所)MNIST数据集的图像x，该图像x包括各种格式的数字图像。FGSM攻击可以将图像x扰动成图像x'。假设当干净的输入图像x传送经过蜜罐分类器H 112并被分类为类标签＝3，示出为类标签c₃。然而，当使用FGSM攻击将图像x扰动成图像x'，并且图像x'传送经过蜜罐分类器H 112时，图像x'被分类为类标签＝1，示出为类标签c₁。当图像x和图像x'都被输送入水印分类器Q 114时，水印标签w的类标签＝3(c₃)的分数急剧下降，而类标签＝1(c₁)的分数强势上升。图3B是示出了下述表的图，所述表对根据实施方式的使用接收干净数据和对抗性数据的水印分类器Q 114生成的水印标签w 304进行了图示。图3B中的表1示出了由水印分类器Q 114和包括图像x的干净数据生成的水印标签w。表2示出了由水印分类器Q 114和用于FGSM攻击的包括图像x'的对抗性数据生成的水印标签w。表2还示出了对抗性数据导致类标签＝3(c₃)的分数减少，而类标签＝1(c₁)的分数增加。

在实施方式中，蜜罐分类器H 112生成的类标签c 208不应该与水印分类器Q 114生成的水印标签w 304相关。这是因为水印分类器Q 114应该只适用于水印数据集W 206中的水印，而不适用于数据集D 204中的数据。因此，当用于蜜罐分类器H 112的类标签c 208和由水印分类器Q 114生成的水印标签w 304相关时，该相关可以表明输入样本例如图像x'是对抗性样本。

返回到图1，在实施方式中，WAH模块110可以包括区分分类器S 116。区分分类器S116可以对水印分类器Q 114的输出(水印标签w 304)进行分类，以表明输入样本是干净样本(如图像x)还是对抗性样本(如图像x')。

图4是根据实施方式的区分分类器的框图400。如图4所示，区分分类器S 116可以接收水印标签w 304，并且检测水印标签w 304是与干净样本相关联还是与对抗性样本相关联。该分类可以是将水印标签w 304分类为零(402)或一(404)的类标签的二进制分类。值得注意的是，干净样本或对抗性样本可以有零或一的值，反之亦然。区分分类器S 116的结构在图10中进一步讨论。

在一些实施方式中，区分分类器S 116可以使用从一个或更多个数据集生成的水印标签w 304进行训练。示例数据集可以包括具有由随机噪声构成的图像的数据集、CIFAR-10数据集、MNIST数据集和来自MNIST数据集的被扰动成对抗性样本的数据。经过训练的区分分类器S 116可以识别出：使用来自随机噪声、CIFAR-10和MNIST数据集的数据生成的水印标签w 304是由干净样本生成的，因为它们是用类标签402分类的。经过训练的区分分类器S 116还可以识别出：使用基于MNIST数据集的对抗性样本生成的水印标签w 304是对抗性样本，因为它们是用类标签404分类的。

返回到图1，在另一实施方式中，可以使用WAH模块110的集合模块118来识别对抗性样本。集合模块118可以包括m对蜜罐分类器H 112和水印分类器Q 114，其中，m是大于零的整数。每对蜜罐分类器H 112和水印分类器Q 114可以使用相同的数据集D 204但不同的水印数据集W_j来训练。不同的水印数据集W_j具有对应于不同的水印标签w 304的不同的水印。集合模块118将来自于m对的蜜罐分类器H 112的输出进行聚合(例如平均数的求和)。蜜罐分类器H 112的输出可以表示为

在这种情况下，如果攻击将数据样本扰动成对抗性样本例如图像x'，则该样本可能会使用大部分的水印被“感染”。因为蜜罐分类器H 112和水印分类器Q 114对的训练数据集D 204和W 206是随机初始化的，所以在m对的所有水印分类器Q 114中，干净图像x对水印类304中的w_i具有非常相似的分数的机会很低。因此，集合模块118可以通过识别在m对的所有水印分类器Q 114中一致的异常低或高的分数来检测对抗性攻击。

在一些实施方式中，WAH模块110可以防御基于梯度和非梯度的攻击。在基于梯度的攻击中，对抗性样本(例如图像x')是相对于输入样本(例如图像x)使用损失函数的梯度而生成的。然而，由于蜜罐分类器H 112是使用数据集D 204和水印数据集W 206训练的，分类器类c_i与各自的水印类w_i共享相同的损失函数和相同的梯度。因此，当攻击者使用梯度信息来增加或减少某个类c_i的分数时，水印类w_i的相应分数也将朝相同的方向变化。

例如，假设在FGSM的非目标攻击版本中，对抗性样本x'是使用梯度函数的符号创建的：

其中，y_true是样本x的真实标签和相关水印类的相关标签。当攻击添加了由∈缩放的噪声来减少y_true的分数时，攻击也在y_true的水印类的相反方向上扰动样本x。当把对抗性样本x'输送入水印分类器Q 114时，类y_true的分数也会较低。因此，如上所述，对抗性样本x'可被识别为是对抗性的。

在另一示例中，假设在FGSM的目标攻击版本中，对抗性样本x'是使用J(x,y_target)创建的，其中y_target是攻击希望对抗性样本x'假装成的类c_i。在这种情况下，对抗性样本x'可以表示如下：

y_target也就是目标类的相关水印类w_i的标签。虽然这个攻击添加了由∈缩放的噪声来增加y_target的分数，但这个攻击也在y_target的水印类w_i的相同方向上扰动样本x。当将对抗性样本x'输送入水印分类器Q 114时，类y_target的分数也会提高。因此，如上所述，对抗性样本x'可以被识别为对抗性样本。

在基于非梯度的攻击中，生成的对抗性样本x'可以成功地提高目标类c_i的分数，这是因为该样本拥有数据类d_i的特征或水印类w_i的特征。然而，适应度函数可能无法区分这两种情况，选择函数可能无法去除具有水印特性的样本。因此，对抗性样本可以被水印分类器Q 114检测。

在一些实施方式中，计算设备102可以包括水印生成器120。水印生成器120可以包括在与WAH模块110相同或不同的计算设备102上。水印生成器120可以存储在计算设备120的安全存储器中。

在一些实施方式中，水印生成器120可以生成水印数据集W 206中的水印。此外，水印生成器120可以从基于秘密的数据集分布中生成水印数据集W_j。该秘密可以与WAH模块110分开并安全地存储。在一些实施方式中，秘密可以定义为空间中N个非重叠标准多变量高斯分布的平均向量，其中，N是正整数。对于每个标准多变量高斯分布，可以有来自[1，...，N]的唯一的类ID。

在一些实施方式中，水印生成器120可以从这些非重叠分布中随机提取向量以生成水印数据集W，并使用对应于每个分布的类ID作为相应生成的水印数据集W的类ID。图5是根据实施方式的水印生成器120的框图500。水印生成器120包括生成器神经网络G 502(或生成器G 502)和分类器神经网络F 504(或水印分类器F 504)。在一些实施方式中，生成器G502可以是具有图8中进一步描述的结构的解码器。生成器G 502从强加的先验非重叠标准多变量高斯分布中提取潜在向量z～p_z(z)，以生成水印

多个潜在向量z被示出为潜在向量z 506，并且使用生成器G 502生成的多个水印/>

被示出为水印/>

508。分类器F 504接收水印/>

508并针对水印/>

508中的每个水印/>

生成软标签510。软标签510是对应于潜在向量z的类ID。

在训练期间，水印生成器120学习从潜在向量z 506到其类ID的映射，从而学习其相应的软标签510。生成器G 502学习生成水印

508，这些水印包含足够的信息以被分类器F 504分类为软标签510。

在一些实施方式中，分类器F 504可以具有与蜜罐分类器H 112相同的结构。这确保了使用生成器G 502生成的水印

508可以被蜜罐分类器H 112分类。此外，因为分类器F504和蜜罐分类器H 112具有相同的结构，所以蜜罐分类器H 112可以使用经过训练的分类器F 504进行初始化。

图6是根据实施方式的包括水印生成器和蜜罐分类器的联合训练***的框图600。如上所讨论的，分类器F 504可以具有与蜜罐分类器H 112相同的结构。这意味着生成器G502和蜜罐分类器H 112可以使用联合训练过程进行训练。在联合训练过程中，生成器G 502可以生成水印

508。蜜罐分类器H 112可以使用来自干净数据集D 204(干净数据集)的数据样本x和水印数据集206中的水印/>

508进行训练。在一些情况下，蜜罐分类器H 112可以使用相同数量的水印/>

508和数据集D 204中的样本x来进行训练，以使总分类损失最小化。训练继续进行，直到生成器G 502生成这样的水印/>

508：蜜罐分类器H 112以低于误差阈值的误差将该水印/>

508正确地分类为软标签510(类标签c 208)。训练还在继续，直到蜜罐分类器H 112以低于误差阈值的误差将数据样本x正确地分类为软标签510(类标签c 208)。在每个训练迭代期间，生成器G 502和蜜罐分类器H 112中的一者或两者的层中的权重可以被更新。

一旦生成器G 502和蜜罐分类器H 112使用图6中的方法进行训练，生成器G 502可以生成用于水印数据集W 206的水印

508，该水印/>

508能够与数据集D 204的数据一起被蜜罐分类器H 112处理。

图7是根据实施方式的蜜罐分类器H的神经网络结构的框图700。值得注意的是，该神经网络结构是示例性的，蜜罐分类器H 112也可以使用其他神经网络结构来实施。图7示出了蜜罐分类器H 112可以被实施为卷积神经网络，该卷积神经网络包括五个卷积层702至710以及两个全连接层712和714。在一些实施方式中，层702的尺寸(宽×高×深)可以是32×32×128，层704的尺寸可以是16×16×256，层706的尺寸可以是8×8×512，层708的尺寸可以是4×4×1024。另外，在一些实施方式中，全连接层712的尺寸可以是320×1×1，全连接层714的尺寸可以是50×1×1。值得注意的是，卷积层702至710的尺寸是示例性的，并且卷积层702至710的尺寸用于说明蜜罐分类器H 112的卷积结构。蜜罐分类器H 112还可以包括具有其他尺寸的卷积层702至710。

在一些实施方式中，层702可以接收图像716，图像716可以是样本x或对抗性样本x'。蜜罐分类器H 112可以将图像716传送经过卷积层702至710和全连接层712至714以生成输出张量718。输出张量718可以是类标签c 208中的一个。

如图7所示，图像716可以具有64×64(宽×高)像素的分辨率。对于灰度图像716，图像形状可以是64×64×1；并且对于彩色图像716，图像形状可以是64×64×3。如图7所示，在图像716传送经过卷积层702至710之后，图像716可以被转换为1×1×320的特征图。值得注意的是，全连接层712至714的尺寸是示例性的。蜜罐分类器H 112还可以包括具有其他尺寸的全连接层712至714。

在一些实施方式中，一个或更多个卷积层702至710可以使用整流器线性单元(ReLU)作为激活函数。如果输入是正的输入，则ReLU可以输出该输入；如果输入不是正的输入，则ReLU可以输出零。在其他实施方式中，ReLU可以是Leaky ReLU，当输入不是正的时候，Leaky ReLU输出小的正梯度(而不是零)。

在一些实施方式中，还可以在层702至710的每一个之间***批量归一化层(未示出)。批量归一化层可以减少每个层702至710的输出中的协方差覆盖率偏移。

在一些实施方式中，在卷积层702至710将图像716转换为特征图之后，特征图可以传送经过全连接层712至714，全连接层712至714确定输出张量718。在一些实施方式中，全连接层712至714中的一者或两者可以使用ReLU(或Leaky ReLU)作为激活函数和Dropout技术。在Dropout技术中，在训练期间蜜罐分类器H 112可以忽略在每个全连接层712或714处的一个或更多个神经元的权重。

如上所讨论的，输出张量718对应于类标签c 208。在一些实施方式中，输出张量718可以对应于数据集D 204和水印数据集W 206中的类的数目。

图8是根据实施方式的水印生成器中生成器G的神经网络结构的框图800。值得注意的是，该神经网络结构是示例性的，生成器G 502也可以使用其他神经网络结构来实施。在一些实施方式中，生成器G 502可以接收输入802。输入802可以是潜在向量z 506中的一个。在一些实施方式中，输入802可以是大小为3的一维张量。输入802可以代表三维空间中点的坐标。

输入802可以从非重叠标准多变量高斯分布中的一个中随机选择。在一些实施方式中，该三维空间中可以有十个非重叠标准多变量高斯分布，输入802可以从所述十个非重叠标准多变量高斯分布中选择。分布中的每一个可以对应于水印304的类。

在一些实施方式中，生成器G 502可以是包括五个去卷积层804至812的去卷积神经网络或者解码器。去卷积层812的输出是输出张量814，并且去卷积层812的输出是图像的输出，该输出为水印。在一些实施方式中，水印的图像可以具有下述分辨率：对于灰度水印，该分辨率是64×64×1；对于彩色水印，该分辨率是64×64×3。

在一些实施方式中，去卷积层804可以具有1×1×3(宽×高×深)的尺寸，去卷积层806可以具有4×4×1024的尺寸，去卷积层808可以具有5×5×512的尺寸，去卷积层810可以具有16×16×246的尺寸，以及去卷积层812可以具有32×32×128的尺寸。值得注意的是，去卷积层804至812的尺寸是示例性的，去卷积层804至812的尺寸用于说明生成器G 502的去卷积结构。生成器G 502也可以包括具有其他尺寸的去卷积层804至812。

在一些情况下，如同蜜罐分类器H 112，生成器G 502可以使用ReLU层作为一个或更多个去卷积层804至812的激活函数。另外，与蜜罐分类器H 112相似，可以在一个或更多个去卷积层804至812之间***批量归一化层，以减少协方差偏移。

图9是根据实施方式的水印分类器Q的神经网络结构的框图900。值得注意的是，该神经网络结构是示例性的，水印分类器Q 114也可以使用其他神经网络结构来实施。此外，在一些实施方式中，水印分类器Q 114的结构可以与蜜罐分类器H 112的结构相同。

图9示出了水印分类器Q 114可以被实施为卷积神经网络，该卷积神经网络包括五个卷积层902至910以及两个全连接层912和914。在一些实施方式中，层902的尺寸(宽×高×深)可以是32×32×128，层904的尺寸可以是16×16×256，层906的尺寸可以是8×8×512，层908的尺寸可以是4×4×1024，层910的尺寸可以是1×1×32。另外，在一些实施方式中，全连接层912的尺寸可以是320×1×1，全连接层914的尺寸可以是50×1×1。值得注意的是，卷积层902至910的尺寸是示例性的，卷积层902至910的尺寸用于说明水印分类器Q114的卷积结构。水印分类器Q 114还可以包括具有其他尺寸的卷积层902至910。

层902可以接收图像916，图像916可以是水印数据集W 206中的水印或数据集D204中的干净数据样本。水印分类器Q 114可以将图像916传送经过卷积层902至910和全连接层912至914以生成输出张量918。输出张量918可以是针对水印的水印标签w 304中的一个，并且输出张量918可以具有10×1×1的尺寸。值得注意的是，全连接层912至914的尺寸是示例性的。水印分类器Q 114还可以包括具有其他尺寸的全连接层912至914。

如图9所示，图像916可以具有64×64像素的分辨率。对于灰度图像916，图像形状可以是64×64×1；对于彩色图像916，图像形状可以是64×64×3。如图9所示，在图像916传送经过卷积层902至910之后，图像916可以被转换为1×1×320的特征图。

在一些实施方式中，一个或更多个卷积层902至910可以使用ReLU或Leaky ReLU。另外，在一些实施方式中，批量归一化层(未示出)可以***到层902至910的每一个之间。批量归一化层可以减少每个层902至910的输出中的协方差覆盖率偏移。

在一些实施方式中，在卷积层902至910将图像916转换为特征图后，特征图可以被传送经过全连接层912至914，该全连接层912至914确定输出张量918。在一些实施方式中，全连接层912至914中的一者或两者可以使用ReLU(或Leaky ReLU)作为激活函数和Dropout技术。如上所讨论的，输出张量918对应于水印标签w 304。

图10是根据实施方式的区分分类器S的神经网络结构的框图1000。如上所讨论的，区分分类器S 116将数据集D 204中的干净数据样本(例如图像x)和对抗性数据样本(例如图像x')进行区分。值得注意的是，区分分类器S 116的神经网络结构是示例性的，区分分类器S 116还可以使用其他神经网络结构来实施。

图10示出了区分分类器S 116可以实施为二进制分类器，该二进制分类器包括两个全连接层1002和1004。在一些实施方式中，层1002可以具有500×1×1的尺寸(宽×高×深)，层1004可以具有100×1×1的尺寸。值得注意的是，全连接层1002至1004的尺寸是示例性的。区分分类器S 116还可以包括具有其他尺寸但产生二进制输出1008的全连接层712至714。

层1002可以接收输入1006，该输入1006可以是水印标签w 304中的一个。输入1006可以具有10×1×1的分辨率。区分分类器S 116可以将输入1006传送经过全连接层1002和1004以生成二进制输出1008。二进制输出1008可以具有零和一的值，这对应于区分分类器S116分类的水印标签是干净数据样本(例如图像x)还是对抗性数据样本(例如图像x')。

返回到图1，如上所讨论的，水印标签w 304也可以使用集合模块118中的成对的蜜罐分类器H 112和水印分类器Q 114的集合来检测。假设，在集合模块118中存在十对蜜罐分类器H 112和水印分类器Q 114。进一步假设，使用阈值Δ来确定高分数或低分数，使用阈值δ来衡量类标签c 208和水印标签304中类标签的分数的相似性。进一步地，来自第j个水印检测器Q_j的类i的分数可以是w_ij。如果

则上述公式可以确定该样本为对抗性样本。

参照图2和3A，图2的蜜罐分类器H 112被训练成使得水印数据集W 206中的水印的一个类与数据集D 204中的数据中的一个固定类相联系。通过这种方式，当对抗性样本被送入蜜罐分类器H 112和水印分类器Q 114时，由蜜罐分类器H 112产生的类标签c 208和由水印分类器Q 114产生的水印标签w 204可以具有正相关关系。在无目标攻击中，受害者类的分数可以在蜜罐分类器H 112和水印分类器Q 114的输出向量中显示出下降。在有目标攻击中，目标类的分数可以在蜜罐分类器H 112和水印分类器Q 114产生的两个输出向量中显示出增加。然而，在有目标攻击和无目标攻击中，由蜜罐分类器H 112和水印分类器Q 114产生的单一类的分数变化可能低于可观察的阈值。

在一些实施方式中，当蜜罐分类器H 112与多个类标签c 208和水印标签w 304相联系时，WAH模块110可以检测到攻击的准确性可以得到改善。通过这种方式，多个水印标签w 304可以示出由对抗性样本引起的扰动的符号。这可以通过将水印标签w 304中的水印类标签w_i绑定到类标签c 208中的数据类标签c_i来实现。在一些实施方式中，该绑定可以使得水印类标签w_i与数据类标签c_i呈负相关，但与c 208中除c_i之外的一些或所有其他数据类标签呈正相关。这可以使用训练蜜罐分类器H 112的损失函数来实现，使得识别与类标签c_i相同的水印类标签w_i会增加成本，而识别水印类标签w_i为类标签c_i以外的任何类会减少成本。

当蜜罐分类器H 112使用上面讨论的损失函数进行训练时，无目标攻击可能导致蜜罐分类器H 112在标有类标签c_i的受害者类中产生分数的爆发以及在未标有c_i的一些或所有其他类产生分数的下降。在有目标的攻击过程中，蜜罐分类器H 112可以对除带有类标签c_i的目标类以外的每一个类生成增长的分数，而带有类标签c_i的目标类的分数急剧下降。通过这种方式，所有或大多数类的分数都可以用于识别有目标攻击，而不是仅目标类的分数可以用于识别有目标攻击。

另一种在识别攻击时可以提高准确性的技术是多重水印。图11是根据实施方式的具有多重水印的蜜罐分类器的框图1100。如图11所示，蜜罐分类器H 112可以被训练成将水印与类的子集相关联。例如，水印数据集304中的水印w_o1102可以与具有类标签208中的类标签c_o、c₃和c₇的类相关联。在另一示例中，水印数据集304中的水印w₁1104可以与具有类标签208中的类标签c₁、c₆和c₇的类相关联。通过这种方式，当有目标攻击中的攻击者试图使蜜罐分类器H 112增加c₇的分数时，水印分类器Q 114可对水印类标签w_o和w₁产生增加的分数。因为可以使用多重水印来识别攻击，而不仅仅是一个水印，基于多重水印训练的蜜罐分类器H 112实现了更加准确和稳健的攻击检测。

在一些实施方式中，可以使用纠错码(ECC)将水印数据集W 206中的水印分配到数据类的子集。ECC可以使不同的目标和受害者类之间的信号差最大化。通过这种方式，可以检测到攻击的属性，例如攻击是有目标攻击还是无目标攻击，也可以实现对正确类的完全恢复。

返回到图2，从对抗性样本中恢复和识别正确类(例如与蜜罐分类器H 112可以使用干净数据产生的类标签c 208相关联的类)的一种方法是使用区分分类器，该区分分类器被训练成根据水印标签w 204产生类标签c 208。图12是示出根据实施方式的区分分类器的框图。如图12所示，区分分类器S 1202可以是相似于区分分类器S 116的区分分类器，但是区分分类器S 1202接收水印标签w 304并在发生攻击时生成正确的类标签c 208。区分分类器S 1202可以包括在图1的WAH模块110中(未示出)。在一些实施方式中，区分分类器S 1202可以利用使用水印分类器Q 114产生的水印标签w 204进行训练。

图13是根据实施方式的用于识别对抗性样本的方法1300的流程图。方法1300可以使用图1至图12中描述的硬件和/或软件组件来执行。注意，上文更加详细描述的一个或更多个操作可以根据情况被删除、组合或以不同的顺序执行。

在操作1302处，接收数据样本。例如，WAH模块110接收数据样本，该数据样本可以是来自数据集D 204的干净样本x，也可以是对抗性样本x'。如上所述，WAH模块110可以包括神经网络108，该神经网络使用来自数据集D 204的数据和来自水印数据集W 206的水印被训练为蜜罐分类器H 112。

在操作1304处，确定类标签。例如，被训练为蜜罐分类器H 112的神经网络108可以通过将在操作1302处接收到的数据样本传送经过蜜罐分类器H 112来确定数据样本的类标签c 208的类标签c_i。

在操作1306处，确定水印标签。例如，水印分类器Q 114可以通过将在操作1302处接收到的数据样本传送经过水印分类器Q 114来确定数据样本的水印标签w 304的水印标签w_i。

在操作1308处，根据类标签c_i和/或水印标签w_i，将在操作1302处接收到的数据样本确定为对抗性数据样本或干净数据样本。例如，WAH模块110可以根据类标签c_i和水印标签w_i之间的耦合来确定该数据样本是对抗性数据样本。在另一示例中，水印标签w_i可以被传送经过区分分类器S 116，该区分分类器可以将与水印标签w_i相关联的数据样本识别为对抗性数据样本。在又一示例中，如果蜜罐分类器H 112和水印分类器Q 114是包括m个蜜罐分类器H 112和水印分类器Q 114对的集合模块118的一部分，则集合模块118可以通过确定与类标签c_i相比水印标签w_i在多个水印分类器Q 114中一致的异常高或异常低的分数来确定数据样本是对抗性数据样本。

图14是根据实施方式的用于生成水印数据集的方法1400的流程图。方法1400可以使用图1至图12中描述的硬件和/或软件组件来执行。注意，上文更加详细描述的一个或更多个操作可以根据情况被删除、组合或以不同的顺序执行。在一些实施方式中，方法1200可以重复，直到生成要包括在水印数据集W 206中的阈值数目的水印。

在操作1402处，识别潜在向量。例如，生成器G 502可以从非重叠分布高斯分布接收潜在向量z。在一些实施方式中，可以有预先配置数目的非重叠分布高斯分布，可以从预先配置数目的非重叠分布高斯分布生成潜在向量z。

在操作1404处，生成水印。例如，生成器G 502可以根据潜在向量z生成水印

在操作1406处，向水印

分配类标识符。例如，分类器F 504可以将与水印标签w_i相对应的类ID分配给水印/>

该类ID可以对应于下述分类，该分类可以是软标签510中的一个。

图15是根据实施方式的用于训练水印生成器和蜜罐分类器的联合训练机制的方法1500的流程图。方法1500可以使用图1至图12中描述的硬件和/或软件组件来执行。注意，上文更加详细描述的一个或更多个操作可以根据情况被删除、组合或以不同的顺序执行。在一些实施方式中，方法1500可以重复，直到生成器G 502和蜜罐分类器H 112被训练。

在操作1502处，生成水印。例如，生成器G 502生成针对水印数据集W 206的在水印

508中的水印/>

如图14所讨论的，水印/>

是使用潜在向量z生成的。

在操作1504处，使用水印

训练蜜罐分类器。例如，蜜罐分类器H 112接收水印/>

并确定类ID，该类ID是针对水印/>

的在类标签c 208中的类标签c_i。

在操作1506处，使用数据样本训练蜜罐分类器。例如，蜜罐分类器H 112接收来自数据集D 204的数据样本，并生成类ID，该类ID是针对该数据样本的在类标签c 208中的类标签c_i。

在操作1508处，调整生成器G 502和蜜罐分类器H 112的权重。例如，对生成器G502中的一个或更多个去卷积层804至812的权重以及蜜罐分类器H 112中的一个或更多个卷积层702至710和/或全连接层712至714中的权重进行调整。可以基于在操作1304中针对水印

生成的类标签c_i和在操作1306中针对来自数据集D 204的数据样本生成的类标签c_i来调整权重。

图16是可以在其中实施神经网络的计算***1600的框图。***1600包括网络1602。网络1602可以被实施为单个网络或多个网络的组合。例如，在各种实施方式中，网络1602可以包括因特网或者一个或更多个内联网、固定电话网络、无线网络和/或其他适当类型的网络。网络1602可以是小规模的通信网络，如私人或局域网络，或更大规模的网络，如广域网。

能够访问网络1602的各种组件可以是计算设备1604、服务提供商服务器1606和支付提供商服务器1608。计算设备1604可以是在用户控制下的便携式和非便携式电子设备，并且计算设备1604可以被配置成通过网络1602传输、接收和操作来自服务提供商服务器1606和支付提供商服务器1608的数据。示例计算设备1604包括台式计算机、笔记本计算机、平板计算机、智能手机、可穿戴计算设备、包含计算设备的眼镜、可植入式计算设备等。

计算设备1604可以包括一个或更多个应用程序1610。应用程序1610可以预先安装在计算设备1604上，可以使用诸如光盘或优盘等便携式存储设备安装在计算设备1604上，或者可以从服务提供商服务器1606和/或支付提供商服务器1608下载到计算设备1604。应用程序1610可以在计算设备1604上执行并从用户、服务提供商服务器1606和支付提供商服务器1608接收指令和数据。

示例应用程序1610可以是支付交易应用程序。支付交易应用程序可以被配置成在世界范围内转移金钱、接收商品和服务的支付、管理金钱支出等。此外，应用程序1610可以处于支付服务提供商的所有权或控制之下，例如美国加利福尼亚州圣何塞的

公司(/>

Inc.of San Jose,CA,USA)、电话服务提供商、社交网络服务提供商和/或其他服务提供商。应用程序1610也可以是分析应用程序。分析应用程序执行业务逻辑，提供服务，并根据当前和历史数据衡量和改进在计算设备1604上执行的其他应用程序的服务和功能的性能。应用程序1610也可以是用于实现客户端安全功能的安全应用程序，用于通过网络1602与适当的应用程序编程接口(API)对接的程序化客户端应用程序，通信应用程序，例如允许用户通过网络1602发送和接收电子邮件、呼叫、文本和其他通知的电子邮件、文本、语音和即时通讯应用程序等。应用程序1610可以是位置检测应用程序，如地图、指南针和/或全球定位***(GPS)应用程序、社交网络应用程序和/或商家应用程序。此外，应用程序1610可以是允许计算设备1604的用户接收、请求和/或查看产品和/或服务的信息并且还允许用户购买选定的产品和/或服务的服务应用程序。

在实施方式中，应用程序1610可以利用包括在计算设备1604中的许多组件来接收输入、存储和显示数据，并且应用程序1610可以与网络1602通信。图17中详细讨论了示例组件。

如上所述，一个或更多个服务提供商服务器1606可以被连接到网络1602。服务提供商服务器1606也可以由服务提供商维护，所述服务提供商为例如

电话服务提供商、社交网络服务和/或其他服务提供商。服务提供商服务器1606可以是在针对大规模处理配置的计算设备上执行的软件，并且该软件向其他计算机程序例如下面讨论的应用程序1610和应用程序1612提供功能。

在实施方式中，服务提供商服务器1606可以启动和指导应用程序1612的执行。应用程序1612可以与在计算设备1604上执行的应用程序1610相对应，并且可以在应用程序1610的请求下处理交易。例如，应用程序1612可以是被配置成在全世界范围内转移金钱、接收商品和服务的支付、管理金钱支出等的金融服务应用程序，其从在计算设备1604上执行的金融服务应用程序接收消息。应用程序1612可以是被配置成实现客户端安全功能的安全应用程序或者可以是用于通过网络1602与适当的应用程序编程接口(API)对接的程序化客户端应用程序。应用程序1612可以是允许用户通过网络1602发送和接收电子邮件、呼叫、文本和其他通知的执行电子邮件、文本、语音和即时通讯功能的通信应用程序。在又一实施方式中，应用程序1612可以是位置检测应用程序，例如地图、指南针和/或GPS应用程序。在又一实施方式中，应用程序1612也可以并入社交网络应用程序和/或商家应用程序。

在实施方式中，应用程序1610和应用程序1612可以代表用户处理交易。在一些实施方式中，为了处理交易，应用程序1610、应用程序1612可以通过支付提供商服务器1608请求用于处理交易的支付。例如，支付提供商服务器1608可以是软件应用程序，该软件应用程序被配置成接收来自应用程序1610、应用程序1612的请求，该请求导致支付提供商服务器1608将使用应用程序1610的用户的资金转移到与应用程序1612相关联的服务提供商。因此，应用程序1610和应用程序1612可以接收包括用户认证数据的用户数据，以用于处理任何数量的电子交易，例如通过支付提供商服务器1608。

在实施方式中，支付提供商服务器1608可以由支付提供商例如

来维护。其他支付提供商服务器1608可以由商家、金融服务提供商、***提供商、银行和/或其他支付提供商维护，或者其他支付提供商服务器1608可以包括商家、金融服务提供商、***提供商、银行和/或其他支付提供商，其可以向用户提供用户账户服务和/或支付服务。尽管支付提供商服务器1608被描述为独立于服务提供商服务器1606，但可以理解的是，支付提供商服务器1608中的一个或更多个可以包括由服务提供商服务器1606提供的服务，反之亦然。

每个支付提供商服务器1608可以包括交易处理***1614。交易处理***1614可以对应于可由硬件处理器执行的进程、程序和/或应用程序。在实施方式中，交易处理***1614可以被配置成从在计算设备1404上执行的一个或更多个应用程序1610和/或在服务提供商服务器1606上执行的应用程序1612接收信息，以处理和完成金融交易。金融交易可以包括对应于用户借记卡/***信息、支票账户信息、用户账户(例如，与支付提供商服务器1608有关的支付账户)或其他支付信息的金融信息。交易处理***1614可以通过向在服务提供商服务器1606上执行的应用程序1612提供支付来完成购买请求的金融交易。

支付提供商服务器1608还可以包括用户账户1416。每个用户账户1616可以由使用应用程序1410的一个或更多个用户与支付提供商服务器1608建立，以促进对由应用程序1612提供的商品和/或服务的支付。用户账户1616可以包括用户信息，例如姓名、地址、出生日期、支付/资金信息、旅行信息、附加的用户财务信息和/或其他期望的用户数据。在另外的实施方式中，用户账户1616可以存储在数据库或在图17中详细描述的另一存储器存储装置中。

在一些实施方式中，图1至图13中讨论的WAH模块110可以包括在使用神经网络108的应用程序1610、应用程序1612和交易处理***1614中。WAH模块110可以防止对应用程序1610、应用程序412和交易处理***1614的攻击，从而防止对数据进行操纵并试图迫使应用程序1610、应用程序412和交易处理***1614产生欺诈性结果的攻击。

现在参考图17，图中说明了适合实施图1至图16中描述的***和方法的计算机***1700的实施方式。

根据本公开内容的各种实施方式，计算机***1700例如计算机和/或服务器包括总线1702或用于通信信息的其他通信机制，总线1702或用于通信信息的其他通信机制将子***和组件互联，所述组件为例如处理组件1704(例如处理器、微控制器、数字信号处理器(DSP)、图形处理单元(GPU)等)、***存储器组件1706(例如RAM)、静态存储组件1708(例如ROM)、磁盘驱动器组件1710(例如磁性或光学)、网络接口组件1712(例如调制解调器或以太网卡)、显示组件1714(例如CRT或LCD)、输入组件1718(例如键盘、小键盘或虚拟键盘)、游标控制组件1720(例如鼠标、指针或轨迹球)、位置确定组件1722(例如，如所示出的全球定位***(GPS)设备，蜂窝塔三角测量设备，和/或本领域已知的各种其他位置确定设备)和/或相机组件1723。在一个实施方式中，磁盘驱动器组件1710可以包括具有一个或更多个磁盘驱动器组件的数据库。

根据本公开内容的实施方式，计算机***1700通过执行包含在存储器组件1706中的一个或更多个指令序列的处理器1704来执行特定的操作，例如本文关于移动通信设备、移动设备和/或服务器的描述。这样的指令可以从另外的计算机可读介质诸如静态存储组件1708或磁盘驱动器组件1710读入***存储器组件1706。在其他实施方式中，可以使用硬接线电路来代替软件指令或者与软件指令结合来实施本公开内容。

逻辑可以被编码在计算机可读介质中，该介质可以指参与向处理器1704提供指令以供执行的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。在一个实施方式中，计算机可读介质是非易失性介质。在各种实现方式中，非易失性介质包括光学或磁性磁盘，诸如磁盘驱动器组件1710，易失性介质包括动态存储器，如***存储器组件1706，而传输介质包括同轴电缆、铜线和光纤，包括构成总线1702的线。在一个示例中，传输介质可以采取声波或光波的形式，如在无线电波和红外数据通信期间生成的那些。

计算机可读介质的一些常见形式包括例如软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸制磁带、任何其他具有孔的图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储芯片或盒、载波或任何其他计算机适于从中读取的介质。在一个实施方式中，计算机可读介质是非暂态的。

在本公开内容的各种实施方式中，用于实践本公开内容的指令序列的执行可以由计算机***1700执行。在本公开内容的各种其他实施方式中，通过通信链路1724联接到网络1402(例如，诸如LAN、WLAN、PTSN和/或各种其他有线或无线网络，包括电信、移动和蜂窝电话网络)的多个计算机***1700可以彼此协调地执行指令序列以实践本公开内容。

计算机***1700可以通过通信链路1724和网络接口组件1712传输和接收消息、数据、信息和指令，包括一个或更多个程序(即，应用程序代码)。网络接口组件1712可以包括单独的或集成的天线，以使能够通过通信链路1724传输和接收。接收到的程序代码可以由处理器1704在接收到时执行和/或存储在磁盘驱动器组件1710或一些其他非易失性存储组件中以供执行。

在适用的情况下，本公开内容所提供的各种实施方式可以使用硬件、软件、或者硬件和软件的组合来实施。另外，在适用的情况下，本文所述的各种硬件组件和/或软件组件可以被组合成包括软件、硬件和/或两者的复合组件，而不背离本公开内容的范围。在适用的情况下，本文所述的各种硬件组件和/或软件组件可被分离成包括软件、硬件或两者的子组件，而不背离本公开内容的范围。此外，在适用的情况下，可以考虑将软件组件作为硬件组件来实施，反之亦然。

根据本公开内容的软件，例如程序代码和/或数据，可以存储在一个或更多个计算机可读介质上。还可以设想，可以使用联网的和/或其他方式的一个或更多个通用或专用的计算机和/或计算机***来实现本文识别的软件。在适用的情况下，可以改变本文所述的各种步骤的顺序、组合成复合步骤，和/或分离成子步骤，以提供本文所描述的特征。

上述公开内容并不旨在将本公开内容限制在所公开的精确形式或特定使用领域。因此，可以设想的是本公开内容的各种备选实施方式和/或修改，无论是在本文中明确描述的还是隐含的，根据本公开内容都是可能的。在已经如此描述了本公开内容的实施方式之后，本领域的普通技术人员将认识到，在不背离本公开内容的范围的情况下，可以在形式和细节上做出改变。因此，本公开内容仅由权利要求书限制。

Claims

1.一种用于确定对神经网络的攻击的方法，所述方法包括：

在第一分类器神经网络处以及在水印分类器神经网络处接收数据样本，其中，所述第一分类器神经网络是使用第一数据集和水印数据集来训练的；

使用所述第一分类器神经网络和所述数据样本来确定所述数据样本的分类标签；

使用所述水印分类器神经网络和所述数据样本来确定水印的分类标签；以及

基于所述数据样本的分类标签和所述水印的分类标签，确定所述数据样本为与对所述神经网络的所述攻击相关联的对抗性数据样本。

2.根据权利要求1所述的方法，其中，确定所述数据样本为所述对抗性数据样本还包括：

确定所述数据样本的分类标签的值与所述水印的分类标签的值是耦合的。

3.根据权利要求1所述的方法，其中，确定所述数据样本为所述对抗性数据样本还包括：

使用区分分类器神经网络和所述水印的分类标签来确定所述数据样本为所述对抗性数据样本。

4.根据权利要求3所述的方法，还包括

通过将所述第一数据集传送经过所述水印分类器神经网络并且基于所述第一数据集生成所述水印的分类标签，对所述水印分类器神经网络进行训练；以及

使用由所述水印分类器神经网络生成的所述水印的分类标签来对所述区分分类器神经网络进行训练。

5.根据权利要求1所述的方法，其中，所述第一分类器神经网络包括多个第一分类器子神经网络，并且所述水印分类器神经网络包括多个水印分类器子神经网络，其中，每个水印分类器子神经网络是使用与其他水印分类器子神经网络不同的水印数据集来训练的；以及

所述方法还包括：

由所述多个第一分类器子神经网络和所述多个水印分类器子神经网络产生成对的子神经网络，每对子神经网络均包括第一分类器子神经网络和水印分类器子神经网络；

使用所述多个水印分类器子神经网络和所述数据样本来确定所述水印的水印分类标签；以及

其中，将所述数据样本确定为所述对抗性数据样本还包括：确认来自所述多个水印分类器子神经网络的所述水印的分类标签是高于第一可配置阈值还是低于水印可配置阈值。

6.根据权利要求1所述的方法，还包括：

使用所述水印数据集对所述水印分类神经网络进行训练，其中，所述水印数据集包括水印和水印分类标签，一个水印对应一个分类标签。

7.根据权利要求1所述的方法，还包括：

使用所述水印数据集和包含有非对抗性数据的所述第一数据集来对所述第一分类器神经网络进行训练。

8.根据权利要求1所述的方法，还包括：使用多个非重叠的高斯分布来生成所述水印数据集，每个分布都与唯一的类标识符相关联。

9.根据权利要求8所述的方法，还包括：

根据所述多个非重叠的高斯分布中的非重叠高斯分布来确认向量；

使用生成器神经网络来根据所述向量生成所述水印；以及

使用所述水印分类器神经网络来生成所述水印的分类标签，其中，所述分类标签与所述向量的唯一的类标识符相关联。

10.根据权利要求8所述的方法，还包括：

以来自所述水印分类器神经网络的权重对所述第一分类器神经网络进行初始化。

11.根据权利要求8所述的方法，其中，所述第一分类器神经网络的结构与所述水印分类器神经网络的结构相同。

12.一种用于确定对神经网络的攻击的***，所述***包括：

非暂态存储器，所述非暂态存储器存储有指令；以及

一个或更多个硬件处理器，所述硬件处理器与所述非暂态存储器联接，并且所述硬件处理器被配置成从所述非暂态存储器中读取指令，以使所述***执行下述操作，所述操作包括：

13.根据权利要求12所述的***，其中，为了确定所述数据样本为所述对抗性数据样本，所述***还执行下述操作，所述操作包括：

14.根据权利要求12所述的***，其中，为了确定所述数据样本为所述对抗性数据样本，所述***还执行下述操作，所述操作包括：

15.根据权利要求14所述的***，其中，所述***还执行下述操作，所述操作包括：

使用由所述水印分类器神经网络生成的所述水印的分类标签，来对所述区分分类器神经网络进行训练。

16.根据权利要求12所述的***，其中，所述第一分类器神经网络包括多个第一分类器子神经网络，并且所述水印分类器神经网络包括多个水印分类器子神经网络，其中，每个水印分类器子神经网络是使用与其他水印分类器子神经网络不同的水印数据集来训练的；以及

所述操作还包括：

17.根据权利要求12所述的***，所述***执行下述操作，所述操作包括：

18.根据权利要求12所述的***，所述***执行下述操作，所述操作包括：

19.根据权利要求12所述的***，所述***执行下述操作，所述操作包括：

根据多个非重叠高斯分布中的非重叠高斯分布来确认向量；

使用生成器神经网络来根据所述向量生成所述水印；以及

20.一种非暂态机器可读介质，所述非暂态机器可读介质上存储有机器可读指令，能够执行所述机器可读指令以使机器执行用于确定对神经网络的攻击的下述操作，所述操作包括：

在第一分类器神经网络处以及在水印分类器神经网络处接收数据样本，其中，所述第一分类器神经网络和所述水印分类器神经网络是使用第一数据集和水印数据集来训练的；

使用区分分类器神经网络来确定所述水印的分类标签与作为对抗性数据样本的所述数据样本相关联。