CN111539769A

CN111539769A - 基于差分隐私的异常检测模型的训练方法及装置

Info

Publication number: CN111539769A
Application number: CN202010343419.2A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-14
Also published as: TW202143146A; WO2021218828A1; TWI764640B

Abstract

本说明书实施例提供一种基于差分隐私的异常检测模型的训练方法，包括：将训练集中任意样本的第一向量输入自编码网络，通过编码器输出降维的第二向量，通过解码器输出复原的第三向量。然后，基于第二向量构建评估向量，输入到评估网络，并获取评估网络输出的该样本属于混合高斯分布中K个子高斯分布的子分布概率。然后，根据训练集中各样本对应的评估向量和子分布概率，得到该任意样本在混合高斯分布中的第一概率。据此确定预测损失，其与各样本对应的第一概率负相关，且与第一向量和第三向量之间的相似度负相关。进而，利用差分隐私的方式，在基于预测损失得到的原始梯度上添加噪声，利用包含噪声的梯度，调整异常检测模型的模型参数。

Description

基于差分隐私的异常检测模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机执行的基于差分隐私的异常检测模型的训练方法和装置。

背景技术

随着计算机技术的发展，安全性成为日益关注的问题，例如计算机数据的安全性，电子支付的交易安全性，网络访问的安全性，等等。为此，在许多场景下，需要从大量样本中发现有可能影响安全性的异常样本，并针对这些异常样本采取措施。

例如，希望从大量交易操作样本中发现异常交易操作，从而提前防范欺诈交易；希望从网络访问的样本中检测异常访问，从而发现不安全的访问，例如黑客攻击；希望从进行各种操作的用户账户中发现异常账户，从而锁定涉嫌进行高风险操作(欺诈交易、刷单等虚假交易、网络攻击)的账户；希望从大量权益领取操作(例如，领取营销红包、奖励金、优惠券等操作)中发现异常操作，从而防范恶意领取优惠权益的“黑产”操作，等等。

然而，在许多情况下，异常样本的标定非常耗费时间和人力，并且通常异常样本的数量较少，这使得常规典型的有监督学习方法难以发挥作用。因此，提出了一些无监督的方式，试图从大量样本中检测出异常样本。无监督的异常检测通常是基于样本的分布概率或密度估计，从统计意义上寻找出偏离多数常规样本的那些离群样本，作为异常样本。

然而，现有的无监督异常检测模型，往往存在泄露训练样本的风险，以及因为过拟合造成的鲁棒性不足，泛化能力不足的缺点。因此，希望能有改进的方案，能够得到更为安全、更为有效的异常检测模型。

发明内容

本说明书一个或多个实施例描述了一种基于差分隐私的异常检测模型的训练方法，用以得到保护隐私且具有鲁棒性的异常检测模型。

根据第一方面，提供了一种基于差分隐私的异常检测模型的训练方法，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；所述方法包括：

将训练集中任意业务样本对应的第一特征向量输入所述自编码网络，通过所述编码器输出对所述第一特征向量降维的第二特征向量，通过所述解码器输出基于所述第二特征向量对所述第一特征向量进行复原的第三特征向量；

基于所述第二特征向量，构建评估向量，输入所述评估网络；

获取所述评估网络输出的该任意业务样本属于混合高斯分布中K个子高斯分布的子分布概率；

根据所述训练集中各个业务样本对应的所述评估向量和所述子分布概率，得到该任意业务样本在所述混合高斯分布中的第一概率；

确定所述训练集对应的预测损失，所述预测损失与所述各个业务样本对应的所述第一概率负相关，且与所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度负相关；

利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，利用包含噪声的梯度，调整所述异常检测模型的模型参数。

在一个实施例中，所述评估向量即为所述第二特征向量。

在另一实施例中，评估向量通过以下方式构建：基于所述第一特征向量和所述第三特征向量，得到重构误差向量；将所述第二特征向量和所述重构误差向量相组合，作为所述评估向量。

根据一种实施方式，第一概率通过以下方式确定得到：根据所述各个业务样本的所述评估向量和所述子分布概率，确定所述K个子高斯分布中各个子高斯分布的均值、协方差，以及该子高斯分布在所述K个子高斯分布中的出现概率；根据各个子高斯分布的均值、协方差和出现概率，重构所述混合高斯分布；将所述任意业务样本的评估向量代入重构的混合高斯分布，得到所述第一概率。

在一个实施例中，确定所述训练集对应的预测损失的步骤可以包括：根据所述各个业务样本对应的所述第一概率，确定第一损失项，所述第一损失项与各个业务样本的所述第一概率负相关；根据所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度，确定第二损失项，所述第二损失项与所述相似度负相关；根据预设权重因子，对所述第一损失项和第二损失项加权求和，得到所述预测损失。

根据一种实施方式，利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，具体可以包括：根据所述预测损失，确定使得预测损失减小的原始梯度；基于预设的裁剪阈值，对所述原始梯度进行裁剪，得到裁剪梯度；利用基于所述裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，所述高斯分布的方差与所述裁剪阈值的平方正相关；将所述高斯噪声与所述裁剪梯度叠加，得到所述包含噪声的梯度。

在一个实施例中，通过梯度反向传播，分别确定对应于所述评估网络的第一原始梯度，和对应于所述自编码网络的第二原始梯度；利用差分隐私的方式，在所述第一原始梯度和第二原始梯度中分别添加噪声，得到第一噪声梯度和第二噪声梯度；利用所述第一噪声梯度，调整所述评估网络的参数；利用所述第二噪声梯度，调整所述自编码网络的参数。

在另一实施例中，在通过梯度反向传播，分别确定第一原始梯度和第二原始梯度的基础上，利用差分隐私的方式，在所述第二原始梯度中添加噪声，得到第二噪声梯度；利用所述第一原始梯度，调整所述评估网络的参数；利用所述第二噪声梯度，调整所述自编码网络的参数。

在各个实施例中，所述任意业务样本可以包括以下之一：样本用户，样本商户，样本事件。

根据第二方面，提供了一种预测异常样本的方法，包括：

获取根据第一方面的方法训练得到的基于差分隐私的异常检测模型，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；

将待测的目标业务样本对应的第一目标向量输入所述自编码网络，通过所述编码器输出对所述第一目标向量降维的第二目标向量；

基于所述第二目标向量，构建目标评估向量；

将所述目标评估向量输入所述评估网络构建的混合高斯分布中，得到该目标业务样本在所述混合高斯分布中的目标概率；

根据所述目标概率，确定所述目标业务样本是否为异常样本。

根据第三方面，提供了一种基于差分隐私的异常检测模型的训练装置，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；所述装置包括：

第一输入单元，配置为将训练集中任意业务样本对应的第一特征向量输入所述自编码网络，通过所述编码器输出对所述第一特征向量降维的第二特征向量，通过所述解码器输出基于所述第二特征向量对所述第一特征向量进行复原的第三特征向量；

第二输入单元，配置为基于所述第二特征向量，构建评估向量，输入所述评估网络；

子分布获取单元，配置为获取所述评估网络输出的该任意业务样本属于混合高斯分布中K个子高斯分布的子分布概率；

概率确定单元，配置为根据所述训练集中各个业务样本对应的所述评估向量和所述子分布概率，得到该任意业务样本在所述混合高斯分布中的第一概率；

损失确定单元，配置为确定所述训练集对应的预测损失，所述预测损失与所述各个业务样本对应的所述第一概率负相关，且与所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度负相关；

参数调整单元，配置为利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，利用包含噪声的梯度，调整所述异常检测模型的模型参数。

根据第四方面，提供了一种预测异常样本的装置，包括：

模型获取单元，配置为获取根据第三方面的装置训练得到的基于差分隐私的异常检测模型，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；

输入单元，配置为将待测的目标业务样本对应的第一目标向量输入所述自编码网络，通过所述编码器输出对所述第一目标向量降维的第二目标向量；

向量构建单元，配置为基于所述第二目标向量，构建目标评估向量；

概率确定单元，配置为将所述目标评估向量输入所述评估网络构建的混合高斯分布中，得到该目标业务样本在所述混合高斯分布中的目标概率；

异常判断单元，配置为根据所述目标概率，确定所述目标业务样本是否为异常样本。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

通过本说明书实施例提供的方法和装置，通过差分隐私的梯度下降方式，在异常检测模型中引入了差分隐私。如此得到的异常检测模型，至少具有两方面的优势。其一，由于引入了差分隐私，难以基于公开的模型反推或识别出训练样本的信息，为模型提供了隐私保护。此外，无监督的异常检测模型的训练过程，其目标是要拟合训练样本的分布。常规训练往往造成对一些样本的过拟合的情况出现，特别是，训练集中有时候也存在一些噪声样本，当模型针对这些噪声样本进行过拟合时，往往造成模型本身的预测性能的下降。而由于差分隐私的引入，在梯度中也添加了噪声，这使得模型可以对抗噪声样本的影响，避免出现过拟合的情况，从而提高异常检测模型的鲁棒性和预测性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本说明书技术构思的异常检测模型的架构示意图；

图2示出根据一个实施例的基于差分隐私的异常检测模型的训练方法的流程图；

图3示出在一个实施例对业务样本进行异常检测的方法流程图；

图4示出根据一个实施例的异常检测模型的训练装置的示意性框图；

图5示出根据一个实施例的预测异常样本的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1示出了根据本说明书技术构思的异常检测模型的架构示意图。如图1所示，异常检测模型整体上包括自编码网络100和评估网络200，自编码网络100包括编码器110和解码器120。编码器110用于将输入的业务样本的高维特征向量x编码为低维向量z_c，解码器120基于该低维向量z_c，输出用于还原高维特征向量x的解码向量x’。经过训练的自编码网络，编码器得到的低维向量z_c可以很好地表征原始高维特征向量x的核心特征，起到向量降维的作用。

对样本集中各个样本的分布统计基于降维后的低维向量z_c而进行。具体的，可以将编码器输出的各个样本的低维向量z_c输入评估网络200。根据本说明书的实施例，评估网络200为基于混合高斯分布模型GMM(Gaussian Mixture Model)的网络，其假定多个样本整体上服从混合高斯分布，该混合高斯分布为K个子高斯分布的组合。于是，评估网络200可以针对各个样本输出其分别属于K个子高斯分布的子分布概率。而多个样本的子分布概率整体，又可以用于重构上述混合高斯分布，从而实现GMM无监督的训练和学习。

进一步的，为了增强模型的隐私安全性和鲁棒性，可以在异常检测模型，特别是在编码器110中，引入差分隐私。具体的，可以通过在训练过程中，采用基于差分隐私的梯度下降，在梯度中添加噪声，从而获得基于差分隐私的编码器。如此，一方面保护隐私数据安全，避免从训练得到的异常检测模型中反推出训练样本，另一方面，差分隐私的引入，避免模型对于一些样本(特别是本身就有噪声干扰的样本)产生过拟合，从而提高异常检测模型的鲁棒性。

下面描述以上构思的具体实现过程。

图2示出根据一个实施例的基于差分隐私的异常检测模型的训练方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。下面结合图1所示的异常检测模型的架构和图2所示的方法流程，描述基于差分隐私的异常检测模型的训练过程。

首先，在步骤21，将训练集中任意的第一业务样本对应的第一特征向量x输入自编码网络，通过编码器输出对第一特征向量x降维的第二特征向量z_c，以及通过解码器输出基于第二特征向量z对第一特征向量x进行复原的第三特征向量x’。

具体而言，训练集可以是对业务样本随机采样得到的样本集，各个业务样本并没有人为打标的异常/正常的标注。在不同实施例中，业务样本可以是样本用户，样本商户，样本事件等等，其中样本事件又可以包括，例如交易事件，登录事件，购买事件，社交交互事件，等等。

假定训练集中包含N个业务样本，上述第一业务样本可以是其中任意一条业务样本。取决于业务样本的具体实例，第一特征向量x可以包含不同的内容。例如，当业务样本为用户时，第一特征向量x可以包含用户的属性特征，例如年龄，性别，注册时长，教育程度等基础属性特征，以及例如最近浏览历史，最近购物历史等行为属性特征。又例如，当业务样本为商户时，第一特征向量x可以包含商户的属性特征，例如，商户类别，注册时长，商品数量，销量，关注人数，等等。或者，在一个例子中，上述业务样本为业务事件，例如登录事件，相应的第一特征向量x可以包括，登录用户的属性特征，登录行为的行为特征，登录所使用的设备的设备特征，等等。

通常来说，为了更好地刻画业务样本，第一特征向量x可以是维度较高的特征向量，例如几百维，甚至更高。高维向量为样本分布统计带来一定的困难。因此，在本说明书的实施例中，采用自编码网络对其进行降维。

具体的，将上述第一特征向量x输入如图1所示的编码器110。编码器110具体可以实现为多层感知机，各层神经元数目逐层递减，在其输出层得到第二特征向量z_c，又称为编码向量。编码向量z_c的维度d远远小于输入的第一特征向量x的维度D，从而实现对输入向量的降维。例如，可以将几百维的特征向量x，压缩为几十维，甚至几维的编码向量z_c。

该编码向量z_c被进一步输入到解码器120。解码器120结构与编码器110对称，其算法和模型参数与编码器110中对应关联(例如为其逆运算)。因此，解码器120可以根据该编码向量z_c，对第一特征向量x进行还原，输出第三特征向量x’。可以理解，编码向量z_c对第一特征向量x进行了降维，该降维操作的信息损失越小，或者说，降维后的编码向量z_c信息含量越高，越容易还原出输入的特征向量x，即第一特征向量x和还原的第三特征向量x’之间的相似度越高。这一性质可以在后续用于训练自编码网络。

接下来，在步骤22，基于上述降维得到的第二特征向量z_c，构建评估向量z，输入到评估网络。

在一个实施例中，可以直接将第二特征向量z_c作为评估向量z，输入图1的评估网络200。

在另一实施例中，可以基于上述第一特征向量x和还原的第三特征向量x’，得到重构误差向量z_r，然后将第二特征向量z_c和该重构误差向量z_r相组合，作为评估向量z。这一过程可以表示为：

z_r＝f(x,x’) (1)

z＝[z_c,z_r] (2)

其中，上述公式(1)中的f表示计算重构误差向量z_r的函数。在不同例子中，函数f可以是，计算第一特征向量x和第三特征向量x’的绝对欧式距离，相对欧氏距离，余弦相似度，等等。

公式(2)中将第二特征向量z_c和重构误差向量z_r相组合，可以包括，拼接，求和，加权求和等等。

通过以上各种方式，可以得到评估向量z，该评估向量z的维度远小于原始的第一特征向量x。然后，将该评估向量z输入评估网络200。

如前所述，评估网络200基于混合高斯分布模型GMM。根据GMM，假定样本分布服从混合高斯分布，该混合高斯分布可以分解为K个子高斯分布的组合。当将第一业务样本对应的评估向量z输入评估网络200，在步骤23，评估网络200可以基于该评估向量z，输出该第一业务样本分别在K个子高斯分布中的子分布概率

其中

为K维向量，其中第k个元素为该第一业务样本在第k子高斯分布中的概率。在一个例子中，上述子分布概率

为使用softmax函数归一化后的分布概率，其中K个元素之和为1。

可以理解，以上第一业务样本为训练集所包含的N个样本中任意的一个。对于N个样本中的每个样本i，均可以通过上述步骤21-23，得到其评估向量z_i和子分布概率

于是，在步骤24，可以根据训练集的N个样本中各个业务样本对应的评估向量和子分布概率，重构所述混合高斯分布，进而得到上述第一业务样本在混合高斯分布中的第一概率。

在一个实施例中，可以首先根据各个业务样本i的评估向量z_i和对应的子分布概率

确定K个子高斯分布中任意的第k子高斯分布的出现概率、均值和协方差，其中出现概率为该第k子高斯分布在K个子高斯分布中的出现概率。

具体的，在一个例子中，可以通过以下公式(3)确定第k子高斯分布在K个子高斯分布中的出现概率

其中，

表示N个样本中的样本i在第k子高斯分布中的概率，换而言之，其为样本i对应的子分布概率向量

中的第k个元素。通过对N个样本在第k子高斯分布中的概率求和，得到第k子高斯分布在K个子高斯分布中的出现概率

根据高斯分布的均值和协方差的定义，可以通过以下公式(4)确定第k子高斯分布的均值

通过以下公式(5)确定第k子高斯分布的协方差

以上公式(4)和(5)中，

表示N个样本中的样本i在第k子高斯分布中的概率，z_i为样本i的评估向量。

如此，基于训练集中N个样本各自的评估向量和子分布概率，得到各个子高斯分布的出现概率，均值和协方差。通过各个子高斯分布的均值和协方差，可以重构各个子高斯分布；进一步结合各个子高斯分布的出现概率，可以重构得到混合高斯分布。具体的，混合高斯分布可以是，以出现概率为权重，将各个子高斯分布组合在一起得到的总分布。

基于重构的混合高斯分布，可以得到上述第一业务样本在混合高斯分布中的第一概率P：

也就是，将第一业务样本的评估向量z，代入混合高斯分布中，即得到上述第一概率P。

接着，在步骤25，根据解码器对训练集中各个样本输出的第三特征向量对第一特征向量的还原度，以及如上方式得到的各个样本的第一概率，确定训练集对应的预测损失L，所述预测损失L与各个业务样本对应的第一概率P负相关，且与各个业务样本对应的第一特征向量和第三特征向量之间的相似度负相关。

具体的，在一个实施例中，可以根据各个样本的第一概率，确定第一损失项L1，该第一损失项L1与各个样本的第一概率负相关。例如，设定上述任意的第一业务样本对应的概率损失为E(z)(或者称为样本能量)，该概率损失E(z)负相关于该样本对应的第一概率P。例如，在一个例子中：

E(z)＝-logP，即：

如此，第一损失项L1可以是N个样本的概率损失之和或均值，例如：

需要理解，以上先基于各个样本在各个子高斯分布中的子分布概率重构了混合高斯分布，然后又得到各个样本在重构的混合高斯分布中的概率，因此，上述N个样本的第一概率整体，可以反映混合高斯分布对该N个样本分布的拟合状况，该第一损失项L1实际上对应于，N个样本整体拟合混合高斯分布的拟合损失。

另一方面，可以根据各个业务样本对应的第一特征向量和第三特征向量之间的相似度，确定第二损失项L2，该第二损失项L2与相似度负相关。例如，设定上述任意的第一业务样本对应的向量重构损失为Lr(x,x’)，该向量重构损失负相关于x与x’之间的相似度，即，x与x’越相似，Lr值越小。两个向量之间的相似度可以通过多种方式计算和衡量，例如余弦相似度，欧式距离等等。如此，第二损失项L2可以是N个样本的向量重构损失之和或均值，例如：

然后，根据预设权重因子，对上述第一损失项L1和第二损失项L2加权求和，得到训练集的总预测损失L。在一个例子中，预测损失L可以写为：

其中，λ₁为权重因子，可以为超参数。

在另一实施例中，还可以将预测损失L设置为：

公式(11)中，λ₁和λ₂为权重因子，最后一项用于表示对协方差矩阵

的对角元素的操作函数，用于防止该矩阵不可逆。

如此，通过以上方式，得到了针对训练集的预测损失。接下来，可以基于该预测损失，确定使得损失减小的模型参数梯度，用以对模型参数进行更新和调优。

创新性的，在本说明书的实施例中，在步骤26，根据以上预测损失得到原始梯度的基础上，利用差分隐私的方式，在原始梯度上添加噪声，利用包含噪声的梯度，调整该异常检测模型的模型参数。

差分隐私(differential privacy)是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。设有随机算法M，PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D＇以及PM的任何子集SM，若随机算法M满足：Pr[M(D)∈SM]<＝e^ε×Pr[M(D＇)∈SM]，则称算法M提供ε-差分隐私保护，其中参数ε称为隐私保护预算，用于平衡隐私保护程度和准确度。ε通常可以预先设定。ε越接近0，e^ε越接近1，随机算法对两个邻近数据集D和D＇的处理结果越接近，隐私保护程度越强。

差分隐私的实现方式包括，噪声机制、指数机制等。为了在模型中引入差分隐私，根据本说明书的实施例，在此利用噪声机制，通过在参数梯度中添加噪声的方式，实现差分隐私。根据噪声机制，噪声可以体现为拉普拉斯噪声，高斯噪声，等等。根据一个实施例，在该步骤26中，通过在梯度中添加高斯噪声，实现差分隐私。具体过程可以包括如下步骤。

首先，可以根据前述预测损失L，确定使得预测损失减小的原始梯度；然后，基于预设的裁剪阈值，对原始梯度进行裁剪，得到裁剪梯度；接着，利用基于裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，高斯分布的方差与裁剪阈值的平方正相关；然后，将由此得到的高斯噪声与前述裁剪梯度叠加，得到包含噪声的梯度。

更具体的，作为一个示例，假设针对上述训练集，得到的原始梯度为：

其中，t表示当前为第t轮次的迭代训练，X表示当前轮次使用的训练集，g_t(X)表示针对该批训练集得到的损失梯度，θ_t表示第t轮训练开始时的模型参数，L(θ_t,X)表示前述预测损失。

如前所述，对上述原始梯度添加实现差分隐私的噪声，可以通过诸如拉普拉斯噪声、高斯噪声等方式实现。在一个实施例中，以高斯噪声为例，可以基于预设的裁剪阈值，对原始梯度进行梯度裁剪，得到裁剪梯度，再基于该裁剪阈值和预定的噪声缩放系数(预先设定的超参)，确定用于实现差分隐私的高斯噪声，然后将裁剪梯度与高斯噪声融合(例如求和)，得到包含噪声的梯度。可以理解的是，此种方式一方面对原始梯度进行裁剪，另一方面将裁剪后的梯度叠加，从而对梯度进行满足高斯噪声的差分隐私处理。

例如，将原始梯度进行梯度裁剪为：

其中，

表示裁剪后的梯度，C表示裁剪阈值，||g(X)||₂表示g_t(X)的二阶范数。也就是说，在梯度小于或等于裁剪阈值C的情况下，保留原始梯度，而梯度大于裁剪阈值C的情况下，将原始梯度按照大于裁剪阈值C的比例裁剪到相应大小。

为裁剪后的梯度添加高斯噪声，得到包含噪声的梯度，例如为：

其中，

表示包含噪声的梯度；

表示概率密度符合以0为均值、σ²C²:为方差的高斯分布的高斯噪声；σ表示上述噪声缩放系数，为预先设定的超参，可以按需设定；C为上述裁剪阈值；:表示指示函数，可以取0或1，比如，可以设定在多轮训练中的偶数轮次取1，而奇数轮次取0。

于是，可以使用添加高斯噪声后的梯度，以最小化前述预测损失L为目标，将模型参数调整为：

其中，η_t表示学习步长，或者说学习率，为预先设定的超参数，例如为0.5、0.3等；θ_t+1表示经过第t轮训练得到的调整后模型参数。在梯度添加高斯噪声满足差分隐私的情况下，模型参数的调整满足差分隐私。

以上描述了在梯度中添加噪声，以及根据含有噪声的梯度更新模型参数的实现方式。

另一方面，如图1所示，本方案中的异常检测模型包含自编码网络和评估网络，相应的，模型参数可以划分为自编码网络参数和评估网络参数，这两部分参数分别根据对应的梯度进行更新。通常，在通过多层神经网络实现的模型中，梯度一般通过反向传播来逐层确定。因此，在如图1所示的异常检测模型中，在根据模型输出得到预测损失后，通过梯度反向传播，首先确定出评估网络对应的第一原始梯度，然后继续回传，确定出自编码网络对应的第二原始梯度。在基于差分隐私对梯度添加噪声时，可以从第一原始梯度开始就添加噪声，也可以仅针对第二原始梯度添加噪声。

具体的，在一个实施例中，在分别确定出对应于评估网络的第一原始梯度，和对应于自编码网络的第二原始梯度基础上，利用差分隐私的方式，在第一原始梯度和第二原始梯度中分别添加噪声，得到第一噪声梯度和第二噪声梯度。然后，利用第一噪声梯度，调整评估网络的参数；利用第二噪声梯度，调整自编码网络的参数。如此，在整个异常检测模型中引入差分隐私。

在另一实施例中，在分别确定出对应于评估网络的第一原始梯度，和对应于自编码网络的第二原始梯度基础上，利用差分隐私的方式，在第二原始梯度中添加噪声，得到第二噪声梯度。然后，利用第一原始梯度，调整评估网络的参数；利用第二噪声梯度，调整自编码网络的参数。对自编码器网络的模型参数进行调整的核心是调整编码器的模型参数，因为解码器的参数与编码器相对应关联。如此，在编码器中引入了差分隐私。

需要理解，在正向对业务样本进行处理时，编码器位于整个网络模型的最上游。在编码器中引入差分隐私，就使得后续处理均具有差分隐私的特性，同样可以起到使得整个异常检测模型具有差分隐私特性的效果。

如此，通过差分隐私的梯度下降方式，在异常检测模型中引入了差分隐私。如此得到的异常检测模型，至少具有两方面的优势。其一，由于引入了差分隐私，难以基于公开的模型反推或识别出训练样本的信息，为模型提供了隐私保护。此外，无监督的异常检测模型的训练过程，其目标是要拟合训练样本的分布。常规训练往往造成对一些样本的过拟合的情况出现，特别是，训练集中有时候也存在一些噪声样本，当模型针对这些噪声样本进行过拟合时，往往造成模型本身的预测性能的下降。而由于差分隐私的引入，在梯度中也添加了噪声，这使得模型可以对抗噪声样本的影响，避免出现过拟合的情况，从而提高异常检测模型的鲁棒性和预测性能。

利用以上训练方式得到的基于差分隐私的异常检测模型，就可以对待测的目标样本进行异常检测了。图3示出在一个实施例对业务样本进行异常检测的方法流程图。类似的，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

如图3所示，在步骤31，首先获取根据以上方式训练得到的基于差分隐私的异常检测模型。如图1所示，该异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器。通过前述的训练过程，评估网络已构建出可以较好的拟合业务样本分布的混合高斯模型。并且，该异常检测模型是引入有差分隐私的模型。更具体的，至少其中的编码器具有差分隐私的特性。

在步骤32，将待测的目标业务样本对应的第一目标向量x_t输入所述自编码网络，通过编码器输出对第一目标向量降维的第二目标向量。这一过程与图2的步骤21相似，不复赘述。

然后在步骤33，基于所述第二目标向量，构建目标评估向量z_t。需要理解，目标评估向量的构建方式与训练阶段相对应。在一种情况下，直接将第二目标向量作为目标评估向量。在另一种情况下，获取解码器输出的第三目标向量x’_t；基于第一目标向量x_t和第三目标向量x’_t，得到重构误差向量；然后将第二目标向量和重构误差向量相组合，作为目标评估向量z_t。

接着，在步骤34，将目标评估向量z_t输入评估网络构建的混合高斯分布中，得到该目标业务样本在所述混合高斯分布中的目标概率。具体的，可以直接将目标评估向量z_t代入前述公式(6)中，其中混合高斯分布的参数为评估网络通过训练过程确定好的参数。

于是，在步骤35，根据该目标概率，确定目标业务样本是否为异常样本。具体的，可以将目标概率与预先设定的概率阈值进行比较，当小于该概率阈值时，则认为当前的目标业务样本为异常样本。

在另一例子中，也可以将目标概率进一步代入前述公式(7)中(或者也可以认为是直接将目标评估向量直接代入该公式(7)中)，得到该业务样本的概率损失E(z_t)。当该概率损失大于一定阈值，认为当前的目标业务样本为异常样本。如此，实现了业务样本的异常检测。

根据另一方面的实施例，还提供一种基于差分隐私的异常检测模型的训练装置，该装置可以部署在任何具有计算、处理能力的装置、设备、平台、设备集群中。图4示出根据一个实施例的异常检测模型的训练装置的示意性框图。如图4所示，训练装置400包括：

第一输入单元41，配置为将训练集中任意业务样本对应的第一特征向量输入所述自编码网络，通过所述编码器输出对所述第一特征向量降维的第二特征向量，通过所述解码器输出基于所述第二特征向量对所述第一特征向量进行复原的第三特征向量；

第二输入单元42，配置为基于所述第二特征向量，构建评估向量，输入所述评估网络；

子分布获取单元43，配置为获取所述评估网络输出的该任意业务样本属于混合高斯分布中K个子高斯分布的子分布概率；

概率确定单元44，配置为根据所述训练集中各个业务样本对应的所述评估向量和所述子分布概率，得到该任意业务样本在所述混合高斯分布中的第一概率；

损失确定单元45，配置为确定所述训练集对应的预测损失，所述预测损失与所述各个业务样本对应的所述第一概率负相关，且与所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度负相关；

参数调整单元46，配置为利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，利用包含噪声的梯度，调整所述异常检测模型的模型参数。

在一个实施例中，第二输入单元42配置为：将所述第二特征向量作为所述评估向量。

在另一实施例中，第二输入单元42配置为：基于所述第一特征向量和所述第三特征向量，得到重构误差向量；将所述第二特征向量和所述重构误差向量相组合，作为所述评估向量。

根据一种实施方式，概率确定单元44配置为：根据所述各个业务样本的所述评估向量和所述子分布概率，确定所述K个子高斯分布中各个子高斯分布的均值、协方差，以及该子高斯分布在所述K个子高斯分布中的出现概率；根据各个子高斯分布的均值、协方差和出现概率，重构所述混合高斯分布；将所述任意业务样本的评估向量代入重构的混合高斯分布，得到所述第一概率。

在一个实施例中，所述损失确定单元45配置为：根据所述各个业务样本对应的所述第一概率，确定第一损失项，所述第一损失项与各个业务样本的所述第一概率负相关；根据所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度，确定第二损失项，所述第二损失项与所述相似度负相关；根据预设权重因子，对所述第一损失项和第二损失项加权求和，得到所述预测损失。

根据一种实施方式，所述参数调整单元46配置为：根据所述预测损失，确定使得预测损失减小的原始梯度；基于预设的裁剪阈值，对所述原始梯度进行裁剪，得到裁剪梯度；利用基于所述裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，所述高斯分布的方差与所述裁剪阈值的平方正相关；将所述高斯噪声与所述裁剪梯度叠加，得到所述包含噪声的梯度。

在一个实施例中，所述参数调整单元46可以配置为：

通过梯度反向传播，分别确定对应于所述评估网络的第一原始梯度，和对应于所述自编码网络的第二原始梯度；利用差分隐私的方式，在所述第一原始梯度和第二原始梯度中分别添加噪声，得到第一噪声梯度和第二噪声梯度；

利用所述第一噪声梯度，调整所述评估网络的参数；利用所述第二噪声梯度，调整所述自编码网络的参数。

在另一实施例中，所述参数调整单元46可以配置为：

通过梯度反向传播，分别确定对应于所述评估网络的第一原始梯度，和对应于所述自编码网络的第二原始梯度；利用差分隐私的方式，在所述第二原始梯度中添加噪声，得到第二噪声梯度；

利用所述第一原始梯度，调整所述评估网络的参数；利用所述第二噪声梯度，调整所述自编码网络的参数。

在不同实施例中，业务样本可以包括以下之一：样本用户，样本商户，样本事件。

值得说明的是，图4所示的装置400是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置400，在此不再赘述。

根据另一方面的实施例，还提供一种预测异常样本的装置，该装置可以部署在任何具有计算、处理能力的装置、设备、平台、设备集群中。图5示出根据一个实施例的预测异常样本的装置的示意性框图。如图5所示，预测装置500包括：

模型获取单元51，配置为获取根据图4的装置训练得到的基于差分隐私的异常检测模型，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；

输入单元52，配置为将待测的目标业务样本对应的第一目标向量输入所述自编码网络，通过所述编码器输出对所述第一目标向量降维的第二目标向量；

向量构建单元53，配置为基于所述第二目标向量，构建目标评估向量；

概率确定单元54，配置为将所述目标评估向量输入所述评估网络构建的混合高斯分布中，得到该目标业务样本在所述混合高斯分布中的目标概率；

异常判断单元55，配置为根据所述目标概率，确定所述目标业务样本是否为异常样本。

在一个实施例中，上述向量构建单元53具体配置为：获取所述解码器输出的第三目标向量；基于所述第一目标向量和第三目标向量，得到重构误差向量；将所述第二目标向量和所述重构误差向量相组合，作为所述目标评估向量。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种基于差分隐私的异常检测模型的训练方法，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；所述方法包括：

2.根据权利要求1所述的方法，其中，基于所述第二特征向量，构建评估向量，包括：将所述第二特征向量作为所述评估向量。

3.根据权利要求1所述的方法，其中，基于所述第二特征向量，构建评估向量，包括：

基于所述第一特征向量和所述第三特征向量，得到重构误差向量；

将所述第二特征向量和所述重构误差向量相组合，作为所述评估向量。

4.根据权利要求1所述的方法，其中，根据所述训练集中各个业务样本对应的所述评估向量和所述子分布概率，得到该任意业务样本在所述混合高斯分布中的第一概率，包括：

根据所述各个业务样本的所述评估向量和所述子分布概率，确定所述K个子高斯分布中各个子高斯分布的均值、协方差，以及该子高斯分布在所述K个子高斯分布中的出现概率；

根据各个子高斯分布的均值、协方差和出现概率，重构所述混合高斯分布；

将所述任意业务样本的评估向量代入重构的混合高斯分布，得到所述第一概率。

5.根据权利要求1所述的方法，其中，确定所述训练集对应的预测损失，包括：

根据所述各个业务样本对应的所述第一概率，确定第一损失项，所述第一损失项与各个业务样本的所述第一概率负相关；

根据所述各个业务样本对应的第一特征向量和第三特征向量之间的相似度，确定第二损失项，所述第二损失项与所述相似度负相关；

根据预设权重因子，对所述第一损失项和第二损失项加权求和，得到所述预测损失。

6.根据权利要求1所述的方法，其中，利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，包括：

根据所述预测损失，确定使得预测损失减小的原始梯度；

基于预设的裁剪阈值，对所述原始梯度进行裁剪，得到裁剪梯度；

利用基于所述裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，所述高斯分布的方差与所述裁剪阈值的平方正相关；

将所述高斯噪声与所述裁剪梯度叠加，得到所述包含噪声的梯度。

7.根据权利要求1所述的方法，其中，利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，包括：通过梯度反向传播，分别确定对应于所述评估网络的第一原始梯度，和对应于所述自编码网络的第二原始梯度；利用差分隐私的方式，在所述第一原始梯度和第二原始梯度中分别添加噪声，得到第一噪声梯度和第二噪声梯度；

利用包含噪声的梯度，调整所述异常样本检测模型的模型参数，包括：

8.根据权利要求1所述的方法，其中，利用差分隐私的方式，在基于所述预测损失得到的原始梯度上添加噪声，包括：通过梯度反向传播，分别确定对应于所述评估网络的第一原始梯度，和对应于所述自编码网络的第二原始梯度；利用差分隐私的方式，在所述第二原始梯度中添加噪声，得到第二噪声梯度；

9.根据权利要求1所述的方法，其中，所述任意业务样本包括以下之一：样本用户，样本商户，样本事件。

10.一种预测异常样本的方法，包括：

获取根据权利要求1的方法训练得到的基于差分隐私的异常检测模型，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；

基于所述第二目标向量，构建目标评估向量；

11.根据权利要求10所述的方法，其中，基于所述第二目标向量，构建目标评估向量，包括：

获取所述解码器输出的第三目标向量；

基于所述第一目标向量和第三目标向量，得到重构误差向量；

将所述第二目标向量和所述重构误差向量相组合，作为所述目标评估向量。

12.一种基于差分隐私的异常检测模型的训练装置，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；所述装置包括：

13.根据权利要求12所述的装置，其中，第二输入单元配置为：将所述第二特征向量作为所述评估向量。

14.根据权利要求12所述的装置，其中，第二输入单元配置为：

15.根据权利要求12所述的装置，其中，所述概率确定单元配置为：

16.根据权利要求12所述的装置，其中，所述损失确定单元配置为：

17.根据权利要求12所述的装置，其中，所述参数调整单元配置为：

根据所述预测损失，确定使得预测损失减小的原始梯度；

18.根据权利要求12所述的装置，其中，所述参数调整单元配置为：

19.根据权利要求12所述的装置，其中，所述参数调整单元配置为：

20.根据权利要求12所述的装置法，其中，所述任意业务样本包括以下之一：样本用户，样本商户，样本事件。

21.一种预测异常样本的装置，包括：

模型获取单元，配置为获取根据权利要求12的装置训练得到的基于差分隐私的异常检测模型，所述异常检测模型包括自编码网络和评估网络，所述自编码网络包括编码器和解码器；

22.根据权利要求21所述的装置，其中，所述向量构建单元配置为：

获取所述解码器输出的第三目标向量；

23.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。