CN111144899B

CN111144899B - 识别虚假交易的方法及装置和电子设备

Info

Publication number: CN111144899B
Application number: CN201911227488.0A
Authority: CN
Inventors: 刘腾飞; 程羽; 杨洋; 晏荣; 李杨
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-04-25
Anticipated expiration: 2039-12-04
Also published as: CN111144899A

Abstract

本说明书实施例提供一种识别虚假交易的方法及装置和电子设备。所述方法包括：针对任一待识别的交易，根据若干风险维度下该交易的特征数据，获取每个风险维度对应的风险模型输出的识别结果；利用设定的潜在类别模型，计算所述若干识别结果对应的联合概率分布；根据所述联合概率分布，计算所述待识别的交易属于虚假交易的条件概率值；在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易。

Description

识别虚假交易的方法及装置和电子设备

技术领域

本说明书实施例涉及互联网安全技术领域，尤其涉及一种识别虚假交易的方法及装置和电子设备。

背景技术

随着电子商务的不断发展，网络购物已经成为人们日常购物的一种方式。

由于电子商务平台上卖相同商品的店铺很多，而多数买家倾向于在销量多的店铺内购买商品；因此一些店铺的商家为了提高店铺曝光率，采用“刷单”的方式创建大量的虚假交易从而增加店铺的销量。

发明内容

本说明书实施例提供的一种识别虚假交易的方法及装置和电子设备。

根据本说明书实施例的第一方面，提供一种识别虚假交易的方法，所述方法包括：

针对任一待识别的交易，获取分别由若干风险维度对应的识别模型输出的识别结果；

利用设定的潜在类别模型，计算所述若干识别结果对应的联合概率分布；

利用贝叶斯法则，计算所述联合概率分布下所述交易属于虚假交易的条件概率值；

在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易。

可选的，所述方法还包括：

获取n个交易样本；利用以下步骤进行迭代计算，直到识别虚假交易的准确率达到预设的要求；

获取每个交易样本分别由m个风险维度对应的识别模型输出的识别结果；

将所述n个交易样本和对应的n*m个识别结果输入潜在类别模型，得到该潜在类型模型输出的n个交易样本的识别结果；

如果所述n个识别结果的准确率未达到预设的要求，利用最优化算法调整该潜在类别模型中模型参数的参数值。

可选的，所述最优化算法包括最大期望算法。

可选的，所述方法还包括：

在迭代结束后，针对潜在类别模型的识别结果的含义进行校验。

可选的，所述识别结果的取值为1或0；所述针对潜在类别模型的识别结果的含义进行校验，具体包括：

获取最后一次迭代时该潜在类别模型输出的n个识别结果；

如果识别结果的取值为1的数量大于取值为0的数量，则将取值为1改为表示正常交易，将取值为0改为表示虚假交易。

根据本说明书实施例的第二方面，提供一种识别虚假交易的装置，所述装置包括：

获取单元，针对任一待识别的交易，获取分别由若干风险维度对应的识别模型输出的识别结果；

第一计算单元，利用设定的潜在类别模型，计算所述若干识别结果对应的联合概率分布；

第二计算单元，利用贝叶斯法则，计算所述联合概率分布下所述交易属于虚假交易的条件概率值；

识别单元，在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易。

可选的，所述装置还包括：

模型训练单元，获取n个交易样本；利用以下步骤进行迭代计算，直到识别虚假交易的准确率达到预设的要求；获取每个交易样本分别由m个风险维度对应的识别模型输出的识别结果；将所述n个交易样本和对应的n*m个识别结果输入潜在类别模型，得到该潜在类型模型输出的n个交易样本的识别结果；如果所述n个识别结果的准确率未达到预设的要求，利用最优化算法调整该潜在类别模型中模型参数的参数值。

可选的，所述最优化算法包括最大期望算法。

可选的，所述装置还包括：

校验单元，在迭代结束后，针对潜在类别模型的识别结果的含义进行校验。

可选的，所述识别结果的取值为1或0；所述校验单元，具体包括：

获取最后一次迭代时该潜在类别模型输出的n个识别结果；如果识别结果的取值为1的数量大于取值为0的数量，则将取值为1改为表示正常交易，将取值为0改为表示虚假交易。

根据本说明书实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为上述任一项识别虚假交易的方法。

附图说明

图1是本说明书一实施例提供的识别虚假交易的方法流程图；

图2是本说明书一实施例提供的潜在类别模型的示意图；

图3是本说明书一实施例提供的识别虚假交易的***架构图；

图4是本说明书一实施例提供的识别虚假交易的装置的硬件结构图；

图5是本说明书一实施例提供的识别虚假交易的装置的模块示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如前所述，一些店铺的商家为了提高店铺曝光率，采用“刷单”的方式创建大量的虚假交易从而增加店铺的销量。这里的“刷单”是指商家与买家暗中约定，由买家在电子商务平台上(以下简称平台)真实下单商品并真实支付该商品的金额，这样在平台上就成功创建了一笔真实的交易。然而在商品发货阶段，商家并非发送买家购买的商品，而是发送一个空快递包裹或者其它不值钱的小物品；并且通过该平台无法监控的渠道将买家支付的金额返还给买家(例如，网银转账、线下现金、第三方支付转账等)。买家在收到快递包裹后，确认收货并评价。

至此，一次完整的“刷单”过程就结束了。虽然平台上真实发生了一笔交易，但是商品实际上并没有真正流通。对于这样没有商品流通的交易一般称为虚假交易。

由于虚假交易过程中实际商品并没有真实被用户购买，但却真实增加了商品的销售量；这无疑对其它正常经营的商家是不公平的。而且，虚假交易不仅损害了其它正常商家的利益，还可能误导其它潜在买家的购买意向，最终也损害了平台正常有序的发展。因此，对于平台来说，需要及时识别哪些交易是虚假交易，从而对参与虚假交易的商家、买家进行处罚，严重的还需要移交相关职能部门进行处理。

在相关技术中，识别一笔交易是否是虚假交易，可以从不同的风险维度来识别。每一个风险维度都可以预先建立一个识别模型。任意一个识别模型可以输出一个从本风险维度判断是否是虚假交易的识别结果。进一步，利用预设的集成策略，综合每个识别模型输出的识别结果可以得到一个最终的识别结果。

常用的集成策略包括多数投票策略、一票否决策略、加权投票策略等。

1、多数投票策略：针对多个识别结果，如果有半数及以上的识别结果一致时，则将该识别结果确定为最终改的识别结果。但在实际应用中，不同识别模型考虑的风险维度是不同的，某笔虚假交易未必会被半数以上的识别模型识别为虚假交易。因此，采取多数投票策略，最终可能造成虚假交易识别量较少，覆盖率较低的问题。

2、一票否决策略：针对多个识别结果，只要有一个识别结果为虚假交易，则最终的识别结果也为虚假交易。但是，为了保障最终识别结果的准确性，这种策略通常要求单个识别模型的准确度非常高，否则会造成最终识别结果的准确性无法保障，容易受准确率最低的识别模型影响。另外，如果对单个识别模型的准确度要求过高，可能也会造成最终识别结果的覆盖变低。

3、加权投票策略：考虑到不同识别模型的准确度不一样，可以采取加权投票，让准确度高的识别模型权值更高，准确度低的识别模型权值低一些。但是，加权投票策略需要先计算不同识别模型的权重，如果有真实标签的交易样本可以利用真实标签来评估每个识别模型的准确度，将以此作为每个识别模型的识别结果的权值。但是，如果没有真实标签的交易样本，识别模型的权值就很难准确确定。

本说明书提供了一种识别虚假交易的方法，对单个识别模型的准确性没有很高的要求，也不需要真实标签来确定识别模型的权值。由于在潜在类别模型训练过程中自动估计了每个识别模型的准确率，因而通过潜在类别模型计算若干识别模型输出识别结果的联合概率分布，以及利用贝叶斯法则将联合概率分布推导出虚假交易的概率更为准确。

以下可以参考图1所示的例子介绍，该方法可以应用于服务端，所述服务端可以是分控***的服务器、服务器集群或者由服务器集群构建的云平台。所述方法可以包括以下步骤：

步骤110：针对任一待识别的交易，获取分别由若干风险维度对应的识别模型输出的识别结果；

步骤120：利用设定的潜在类别模型，计算所述若干识别结果对应的联合概率分布；

步骤130：利用贝叶斯法则，计算所述联合概率分布下所述交易属于虚假交易的条件概率值；

步骤140：在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易。

潜在类别模型(Latent Class Model，LCM)也称为隐类模型。潜在类别模型可以对无标签离散数据进行分析，潜在类别模型属于概率图模型的一种。

潜在类别模型的结构如图2所示。图2中潜在类别模型的结构中包含有两种变量：变量Y和变量Li。其中，变量Y属于离散变量，变量值为0或1，0表示交易为非虚假，1表示交易为虚假。变量Y等于潜在类别模型输出的识别结果。

变量Li是对应m个识别模型输出的识别结果的变量(i＝1，2，3，…，m)，L1对应第1个识别模型，L2对应第2个识别模型，…，Lm对应第m个识别模型。变量Li也属于离散变量，变量值为0或1，0表示交易为非虚假，1表示交易为虚假。变量Li等于第i个识别模型输出的识别结果。

针对变量Y，存在模型参数P(Y)。P(Y)可以表示Y的不同取值(即Y＝0或者Y＝1)的概率。

同样地，针对变量Li，存在模型参数P(Li|Y)。P(Li|Y)可以表示给定Y的情况下Li的不同取值的概率。例如，P(Li＝1|Y＝1)表示如果潜在类别模型判定当前交易为虚假交易，那么第i个识别模型同样判定当前交易为虚假交易的概率是多少。

通过所述潜在类别模型中的m+1个模型参数包括P(Y)、P(L1|Y)、P(L2|Y)、……、P(Lm-1|Y)、P(Lm|Y)；就可以计算出联合概率分布P(Y，L1，L2，…，Lm)，如下公式1所示：

联合概率分布可以简称为联合分布。联合概率分布可以是指两个及以上随机变量组成的随机向量的概率分布。根据随机变量的不同，联合概率分布的表示形式也不同。对于离散型随机变量，联合概率分布可以以列表的形式表示，也可以以函数的形式表示；对于连续型随机变量，联合概率分布通过一非负函数的积分表示。本说明书中联合概率分别是针对离散型随机变量以函数的形式表示的。

当模型参数确定后，对于任一交易数据，可以结合公式1的联合概率分布，利用贝叶斯法则，计算出条件概率P(Y|L1，L2，…，Lm)如下公式2所示：

如图2所示LCM模型的模型结构一般是固定的，但是模型参数的参数值是需要在模型训练过程中学习确定的。

一般的，随着业务的运行，业务平台会沉淀大量的历史交易数据。这些历史交易数据就可以用于训练LCM模型中各个模型参数的参数值。值得一提的是，本说明书中的交易样本可以是没有真实标签的历史交易数据。即可以采用无监督学习来训练LCM模型。当然，在有的情况下也可以采用有监督学习或半监督学习来训练LCM模型，但采用无监督学习方式可以实现学习成本的最小化。

以下介绍LCM模型的训练过程：

将所述n个交易样本和对应的n*m个识别结果输入潜在类别模型，得到该潜在类型模型输出的n个交易样本的最终识别结果；

如果所述n个最终识别结果的准确率未达到预设的要求，利用最优化算法调整该潜在类别模型中模型参数的参数值。

该实施例中，在获取了n个交易样本后，经过m个识别模型对每一笔交易样本都有m个识别结果。这样共有n*m个识别结果用来学习LCM模型中各个模型参数的参数值。

所述最优化算法用于学习模型中各个模型参数的局部最优解。具体地，所述最优化算法例如可以采用最大期望算法(Expectation-Maximation，EM)、模拟退火算法、梯度下降算法等。

在一实施例中，在确定了LCM模型中各个模型参数的参数值后，为了保障变量Y的取值1仍然表示虚假交易，取值0表示非虚假交易，需要在迭代结束后得到的潜在类别模型的识别结果的含义进行校验，防止发生识别结果的含义翻转的情况。

具体地：因此，在模型参数学习完成之后，获取最后一次迭代时该潜在类别模型输出的n个识别结果；

如果识别结果的取值为1的数量小于取值为0的数量，则校验通过。

该实施例中，实际情况下，历史交易数据中虚假交易的占比通常远小于正常交易的占比，即P(Y＝1)<<P(Y＝0)。通过比较最后一次迭代上时P(Y＝1)和P(Y＝0)的数量，如果P(Y＝1)>P(Y＝0),则可以认为Y取值的含义发生了翻转，进而需要将取值为1改为表示正常交易，将取值为0改为表示虚假交易。反之，如果P(Y＝1)<P(Y＝0),则可以认为Y取值的含义没有发生了翻转，无需做任何处理。

如图3所示，在校验了LCM模型的识别结果含义正确之后，就可以上线LCM模型，并用于识别待识别交易是否为虚假交易了，即在接收到任一待识别交易后，首先利用若干风险维度对应的识别模型对该交易进行第一次识别，然后将每个识别模型输出的识别结果输入到潜在类别模型进行二次识别，该二次识别过程即执行前述步骤120-140。

根据步骤130的输出结果，可以得到该笔交易为虚假交易的条件概率P。进而在步骤140中基于P判断是否是虚假交易。如果P值大于阈值，则判断为虚假交易，否则判断为非虚假交易。

在本说明书中所述阈值可以是人为预先设定的；例如根据人工抽样结果、或者个人业务经验来确定。

随着计算机技术的不断发展，特别是人工智能的进步，所述阈值还可以是通过机器学习计算得到的。例如，基于历史交易数据，通过机器学习算法可以计算出一个最优的阈值。

再有的，所述阈值还可以是基于大数据技术计算得到的。例如，通过海量数据，发现大部分识别虚假交易时，设定的阈值均为0.5，则本实施例的阈值也可以设定为0.5。

本实施例，对单个识别模型的准确性没有很高的要求，也不需要真实标签来确定识别模型的权值。由于在潜在类别模型训练过程中自动估计了每个识别模型的准确率，因而通过潜在类别模型计算若干识别模型输出识别结果的联合概率分布，以及利用贝叶斯法则将联合概率分布推导出虚假交易的概率更为准确。

与前述识别虚假交易的方法实施例相对应，本说明书还提供了识别虚假交易的装置的实施例。所述装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书识别虚假交易的装置所在设备的一种硬件结构图，除了图4所示的处理器、网络接口、内存以及非易失性存储器之外，实施例中装置所在的设备通常根据识别虚假交易的实际功能，还可以包括其他硬件，对此不再赘述。

请参见图5，为本说明书一实施例提供的识别虚假交易的装置的模块图，所述装置对应了图1所示实施例，所述装置包括：

获取单元310，针对任一待识别的交易，获取分别由若干风险维度对应的识别模型输出的识别结果；

第一计算单元320，利用设定的潜在类别模型，计算所述若干识别结果对应的联合概率分布；

第二计算单元330，利用贝叶斯法则，计算所述联合概率分布下所述交易属于虚假交易的条件概率值；

识别单元340，在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易。

可选的，所述装置还包括：

可选的，所述最优化算法包括最大期望算法。

可选的，所述装置还包括：

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上图5描述了识别虚假交易的装置的内部功能模块和结构示意，其实质上的执行主体可以为一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

可选的，所述潜在类别模型的训练过程如下：

可选的，所述最优化算法包括最大期望算法。

可选的，还包括：

获取最后一次迭代时该潜在类别模型输出的n个识别结果；

在上述电子设备的实施例中，应理解，该处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在考虑说明书及实践这里公开的实施例后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims

1.一种识别虚假交易的方法，所述方法包括：

在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易；

其中，所述设定的潜在类别模型通过以下方式训练得到：

2.根据权利要求1所述的方法，所述最优化算法包括最大期望算法。

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述识别结果的取值为1或0；所述针对潜在类别模型的识别结果的含义进行校验，具体包括：

获取最后一次迭代时该潜在类别模型输出的n个识别结果；

5.一种识别虚假交易的装置，所述装置包括：

识别单元，在所述条件概率值大于阈值时，确定所述待识别的交易为虚假交易；

其中，所述设定的潜在类别模型通过模型训练单元训练得到，

所述模型训练单元，获取n个交易样本；利用以下步骤进行迭代计算，直到识别虚假交易的准确率达到预设的要求；获取每个交易样本分别由m个风险维度对应的识别模型输出的识别结果；将所述n个交易样本和对应的n*m个识别结果输入潜在类别模型，得到该潜在类型模型输出的n个交易样本的识别结果；如果所述n个识别结果的准确率未达到预设的要求，利用最优化算法调整该潜在类别模型中模型参数的参数值。

6.根据权利要求5所述的装置，所述最优化算法包括最大期望算法。

7.根据权利要求5所述的装置，所述装置还包括：

8.根据权利要求7所述的装置，所述识别结果的取值为1或0；所述校验单元，具体包括：

9.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为上述权利要求1-4中任一项所述的方法。