CN111062442B

CN111062442B - 解释业务处理模型的业务处理结果的方法和装置

Info

Publication number: CN111062442B
Application number: CN201911326360.XA
Authority: CN
Inventors: 唐才智
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-04-12
Anticipated expiration: 2039-12-20
Also published as: CN111062442A; CN114548300A; CN114548300B

Abstract

本说明书实施例提供一种解释业务处理模型的业务处理结果的方法和装置，方法包括：将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，待解释样本和扰动样本均包含多个特征维度；将待解释样本和第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，输出待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；以第二业务处理结果与第一业务处理结果一致作为筛选条件，从第一数目个扰动样本中筛选出第二数目个扰动样本；统计第二数目个扰动样本与待解释样本在各特征维度上的差异，根据各特征维度上的差异对第一业务处理结果作出解释。能够降低计算复杂度、提高效率。

Description

解释业务处理模型的业务处理结果的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及解释业务处理模型的业务处理结果的方法和装置。

背景技术

机器学习目前在零售、技术、医疗保健以及科学等等领域都有着广泛的应用。不管是分类模型还是回归模型给出的都是一个结果或者决策，整个决策过程对人来说是不可见或者是不可理解的。通过神经网络实现的业务处理模型的决策过程和人们更容易接受和理解的规则之间有很大的差别，规则的决策都是对应于一条条容易理解并且可追溯的决策路径，而上述业务处理模型的决策更多的是一个黑盒过程，只有输入输出暴露给用户，决策过程对用户透明不可感知，即使决策错误也是不可追溯的。而这些黑盒不可追溯、不可控制的性质，正是阻挡其在某些特定领域发挥作用的原因，特别是在金融领域，比如保险、银行等安全性要求高的场景，要求稳定性和可控性。

现有技术中，解释业务处理模型的业务处理结果的方法，通常计算复杂度高、效率低。

因此，希望能有改进的方案，在解释业务处理模型的业务处理结果时，能够降低计算复杂度、提高效率。

发明内容

本说明书一个或多个实施例描述了一种解释业务处理模型的业务处理结果的方法和装置，能够降低计算复杂度、提高效率。

第一方面，提供了一种解释业务处理模型的业务处理结果的方法，方法包括：

将待解释样本输入预先训练的基于变分自动编码器(variationalautoencoders，VAE)的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；

将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；

以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述第一数目个扰动样本中筛选出第二数目个扰动样本；

统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释。

在一种可能的实施方式中，所述待解释样本对应于目标用户；

所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。

在一种可能的实施方式中，所述业务处理模型包括深度神经网络(deep neuralnetworks，DNN)。

在一种可能的实施方式中，所述生成模型通过如下方式训练：

将训练样本输入所述生成模型，通过所述生成模型输出训练扰动样本；

把所述训练样本和所述训练扰动样本输入所述业务处理模型，所述业务处理模型包括若干隐层；

针对所述若干隐层中的目标隐层，获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量；确定所述目标隐向量和所述扰动隐向量之间的交叉熵；

根据所述交叉熵确定重构误差；

以最小化所述重构误差为目标，对所述生成模型进行训练。

进一步地，所述目标隐层为所述若干隐层中的任一隐层；

所述根据所述交叉熵确定重构误差，包括：

将所述若干隐层中各隐层分别对应的交叉熵进行求和，从而确定重构误差。

在一种可能的实施方式中，所述生成模型包括编码器、解码器和采样单元；

所述编码器，用于接收输入样本，通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差；

所述采样单元，用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量；

所述解码器，用于对所述第一隐向量解码得到第一扰动样本。

进一步地，所述编码器包括：深度神经网络DNN、多层感知器(multi-Layerperceptron，MLP)或卷积神经网络(convolutional neural networks，CNN)。

进一步地，所述将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，包括：

将待解释样本作为输入样本输入预先训练的所述编码器，通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差；

所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量；

所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。

在一种可能的实施方式中，所述统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释，包括：

统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差，根据所述各特征维度上的方差，确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。

第二方面，提供了一种解释业务处理模型的业务处理结果的装置，装置包括：

生成单元，用于将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；

业务处理单元，用于将所述待解释样本和所述生成单元得到的第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；

筛选单元，用于以所述业务处理单元得到的所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述生成单元得到的第一数目个扰动样本中筛选出第二数目个扰动样本；

解释单元，用于统计所述筛选单元得到的第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述业务处理单元得到的第一业务处理结果作出解释。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；然后将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；接着以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述第一数目个扰动样本中筛选出第二数目个扰动样本；最后统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释。由上可见，本说明书实施例，通过构建生成模型，针对待解释样本生成若干扰动样本，扰动样本即待解释样本的邻域伪样本，筛选出业务处理模型针对扰动样本和待解释样本的业务处理结果一致的那些扰动样本，模型解释性来自于这些筛选出的扰动样本。该方法能够对已有的业务处理模型进行样本级别的解释，即该模型每次输出业务处理结果都能给出本次的决策依据。能够降低计算复杂度、提高效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的解释业务处理模型的业务处理结果的方法流程图；

图3示出根据一个实施例的生成模型的训练过程示意图；

图4示出根据一个实施例的解释业务处理模型的业务处理结果的整体过程示意图；

图5示出根据一个实施例的解释业务处理模型的业务处理结果的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及解释业务处理模型的业务处理结果。参照图1，待解释样本包含多个特征维度，当将待解释样本输入业务处理模型后，业务处理模型输出相应的业务处理结果，本说明书实施例，针对如何得到该业务处理结果作出解释，即确定多个特征维度分别对应的特征重要度。

可以理解的是，本说明书实施例可以给出样本级别的解释，对于不同的待解释样本，同一特征具有不同的特征重要度。例如，业务处理模型的各输入样本均包含N个特征维度，分别为特征1、特征2……特征N，对于一个待解释样本，作出相应业务处理结果中最重要的依据为特征1，对于另一个待解释样本，作出相应业务处理结果中最重要的依据为特征2。

作为示例，一个典型的实施场景为金融场景，上述业务处理模型用于识别身份冒用的用户，并拦截识别出为身份冒用的用户的预设行为。其中，在一些网络金融平台，一些人会冒用别人的账号进行消费或借款等行为，称为身份冒用。身份冒用大概率会伴随着金融风险，需要对于相应行为进行拦截，但是考虑到金融场景比较敏感，对于使用的拦截模型的性能要求和可解释性要求必然很高。因此需要既能满足较高的性能要求，又能够具备解释性。

图2示出根据一个实施例的解释业务处理模型的业务处理结果的方法流程图，该方法可以基于图1所示的实施场景。如图2所示，该实施例中解释业务处理模型的业务处理结果的方法包括以下步骤：步骤21，将待解释样本输入预先训练的基于变分自动编码器(variational autoencoders，VAE)的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；步骤22，将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；步骤23，以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述第一数目个扰动样本中筛选出第二数目个扰动样本；步骤24，统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释。下面描述以上各个步骤的具体执行方式。

首先在步骤21，将待解释样本输入预先训练的基于VAE的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度。可以理解的是，上述第一数目可以是预先设定的。

在一个示例中，所述待解释样本对应于目标用户；

可以理解的是，上述多个特征维度即多项特征，可以包括用户画像特征，例如，性别、年龄、学历、职业等；还可以包括历史行为特征，例如，消费金额、违约记录等。

VAE：是机器学习中一类生成模型，将概率图模型和深度学习结合的典型代表。

生成模型：机器学习模型一般分为判别模型和生成模型，判别模型是直接针对后验概率建模的一类机器学习模型，生成模型是直接对样本和标签的联合概率进行建模的模型。

在一个示例中，所述生成模型包括编码器、解码器和采样单元；

进一步地，步骤21具体包括：

然后在步骤22，将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果。可以理解的是，有些扰动样本对应的第二业务处理结果与第一业务处理结果相同，而另一些扰动样本对应的第二业务处理结果与第一业务处理结果不同。

在一个示例中，所述业务处理模型包括深度神经网络(deep neural networks，DNN)。通常的DNN既能满足较高的性能要求，也能灵活的添加一些业务约束条件到网络中，但是DNN缺乏解释性。本说明书实施例，针对DNN可以进行样本级别的解释。

接着在步骤23，以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述第一数目个扰动样本中筛选出第二数目个扰动样本。可以理解的是，筛选出的第二数目个扰动样本可以作为对第一业务处理结果的解释依据。

最后在步骤24，统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释。可以理解的是，差异越大的特征维度，对于得到所述第一业务处理结果该特征维度越不重要，差异越小的特征维度，对于得到所述第一业务处理结果该特征维度越重要。

在一个示例中，统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差，根据所述各特征维度上的方差，确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。该示例中，通过方差指示特征维度上的差异，可以理解的是，也可以采用其他指标指示特征维度上的差异。

在一个示例中，所述生成模型通过如下方式训练：

根据所述交叉熵确定重构误差；

以最小化所述重构误差为目标，对所述生成模型进行训练。

进一步地，所述目标隐层为所述若干隐层中的任一隐层；

所述根据所述交叉熵确定重构误差，包括：

图3示出根据一个实施例的生成模型的训练过程示意图。参照图3，生成模型包括编码器、解码器和采样单元；训练样本经过编码器学习到一个隐向量所服从的高斯分布的均值μ和方差∑，然后采样单元从此高斯分布的隐向量中采一个隐向量，该隐向量经过解码器获得一个扰动样本x＇，与标准VAE不同的是把扰动样本x＇输入到业务处理模型中，同时把训练样本x也输入业务处理模型，x和x＇在业务处理模型的隐层的结果的交叉熵作为重构误差，从而对生成模型进行训练。

图4示出根据一个实施例的解释业务处理模型的业务处理结果的整体过程示意图。参照图4，利用生成模型生成扰动样本，使用扰动样本获得解释性。对于待解释样本x，经过预先训练的生成模型得到n个扰动样本。把这些扰动样本输入到业务处理模型，选择那些业务处理结果和待解释样本一致的扰动样本，经过筛选后得到m个有效的扰动样本。用这m个扰动样本和待解释样本做差计算得到Δ，直观上理解扰动样本相当于在待解释样本的原始特征x上加上一个扰动Δ，但是业务处理模型的业务处理结果不会改变，那么特征变化幅度比较大的特征相对更加不重要，特征变化幅度小的特征更加重要。最终解释性是统计这些Δ各个维度的方差，作为解释性的依据。

本说明书实施例提供的方法，通过构建生成模型，针对待解释样本生成若干扰动样本，扰动样本即待解释样本的邻域伪样本，筛选出业务处理模型针对扰动样本和待解释样本的业务处理结果一致的那些扰动样本，模型解释性来自于这些筛选出的扰动样本。该方法能够对已有的业务处理模型进行样本级别的解释，即该模型每次输出业务处理结果都能给出本次的决策依据。能够降低计算复杂度、提高效率。并且，该方法中生成的扰动样本更加符合待解释样本的分布。

根据另一方面的实施例，还提供一种解释业务处理模型的业务处理结果的装置，该装置用于执行本说明书实施例提供的解释业务处理模型的业务处理结果的方法。图5示出根据一个实施例的解释业务处理模型的业务处理结果的装置的示意性框图。如图5所示，该装置500包括：

生成单元51，用于将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；

业务处理单元52，用于将所述待解释样本和所述生成单元51得到的第一数目个扰动样本分别输入通过神经网络实现的业务处理模型，通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果，以及各扰动样本分别对应的第二业务处理结果；

筛选单元53，用于以所述业务处理单元52得到的所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件，从所述生成单元51得到的第一数目个扰动样本中筛选出第二数目个扰动样本；

解释单元54，用于统计所述筛选单元53得到的第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述业务处理单元得到的第一业务处理结果作出解释。

可选地，作为一个实施例，所述待解释样本对应于目标用户；

可选地，作为一个实施例，所述业务处理模型包括深度神经网络DNN。

可选地，作为一个实施例，所述生成模型通过如下方式训练：

根据所述交叉熵确定重构误差；

以最小化所述重构误差为目标，对所述生成模型进行训练。

进一步地，所述目标隐层为所述若干隐层中的任一隐层；

所述根据所述交叉熵确定重构误差，包括：

可选地，作为一个实施例，所述生成模型包括编码器、解码器和采样单元；

进一步地，所述编码器包括：深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。

进一步地，所述生成单元51，具体用于：

可选地，作为一个实施例，所述解释单元54，具体用于统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差，根据所述各特征维度上的方差，确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种解释业务处理模型的业务处理结果的方法，所述方法包括：

将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，所述待解释样本和所述扰动样本均包含多个特征维度；

2.如权利要求1所述的方法，其中，所述待解释样本对应于目标用户；

3.如权利要求1所述的方法，其中，所述业务处理模型包括深度神经网络DNN。

4.如权利要求1所述的方法，其中，所述生成模型通过如下方式训练：

根据所述交叉熵确定重构误差；

以最小化所述重构误差为目标，对所述生成模型进行训练。

5.如权利要求4所述的方法，其中，所述目标隐层为所述若干隐层中的任一隐层；

所述根据所述交叉熵确定重构误差，包括：

6.如权利要求1所述的方法，其中，所述生成模型包括编码器、解码器和采样单元；

7.如权利要求6所述的方法，其中，所述编码器包括：深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。

8.如权利要求6所述的方法，其中，所述将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型，得到第一数目个扰动样本，包括：

9.如权利要求1所述的方法，其中，所述统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异，根据所述各特征维度上的差异对所述第一业务处理结果作出解释，包括：

10.一种解释业务处理模型的业务处理结果的装置，所述装置包括：

11.如权利要求10所述的装置，其中，所述待解释样本对应于目标用户；

12.如权利要求10所述的装置，其中，所述业务处理模型包括深度神经网络DNN。

13.如权利要求10所述的装置，其中，所述生成模型通过如下方式训练：

根据所述交叉熵确定重构误差；

以最小化所述重构误差为目标，对所述生成模型进行训练。

14.如权利要求13所述的装置，其中，所述目标隐层为所述若干隐层中的任一隐层；

所述根据所述交叉熵确定重构误差，包括：

15.如权利要求10所述的装置，其中，所述生成模型包括编码器、解码器和采样单元；

16.如权利要求15所述的装置，其中，所述编码器包括：深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。

17.如权利要求15所述的装置，其中，所述生成单元，具体用于：

18.如权利要求10所述的装置，其中，所述解释单元，具体用于统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差，根据所述各特征维度上的方差，确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项的所述的方法。