CN105184574A

CN105184574A - 一种套用商户类别码欺诈行为的检测方法

Info

Publication number: CN105184574A
Application number: CN201510375715.XA
Authority: CN
Inventors: 刘震; 林霞霞; ***; 李忠洵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-12-23
Anticipated expiration: 2035-06-30
Also published as: CN105184574B

Abstract

本发明公开了一种套用商户类别码欺诈行为的检测方法，首先通过获取正常商户交易数据并进行预处理、层次聚类获取标准行为模式；然后，按照正常商户：套用商户＝1:1的数量，随机抽取正常商户、套用商户的交易流水数据并获取各商户的86维特征的交易数据向量，通过欧式距离计算获取一个9维特征进行叠加，得到95维的特征向量，通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数，从而得到分类器；最后依据新用户的一年的交易流水数据构造一个95维的特征向量送入分类器分类，检测出是否是套用商户。本发明利用计算机***，能够从多个维度对商户行为进行识别，从而高效准确地检测出商户套用。

Description

一种套用商户类别码欺诈行为的检测方法

技术领域

本发明属于信息分类处理技术领域，更为具体地讲，涉及一种套用商户类别码欺诈行为的检测方法，用于识别套用商户类别码进行欺诈的商户。

背景技术

近年来，随着经济的高速发展，POS机(PointofSale，销售点情报管理***)在商户间也得到了不断普及。安装POS机中的商户涉及了各行各业，而不同行业在POS机使用中所收取的手续费亦不尽相同，一些第三方支付机构套用商户类别码享受低手续费率的行为也与日俱增，套用商户类别码的欺诈行为造成了发卡方巨额的损失，严重扰乱POS收单行业的金融秩序、让POS收单行业滋生不安全因素、是二次清算的病因。

目前国内的文献对套用商户类别码欺诈检测技术的研究比较少，主要集中在***欺诈检测研究。对于传统的套用商户类别码欺诈行为的检测，除了通过法律约束和商户自身道德素质约束，更多的是通过银联调查员实地考察从而发现套用商户，这往往是费时费力的。

发明内容

本发明的目的在于克服上述人工检测的不足，提供一种套用商户类别码欺诈行为的检测方法，以提高识别套用商户类别码进行欺诈的商户的效率。

为实现上述发明目的，本发明套用商户类别码欺诈行为的检测方法，其特征在于，包括以下步骤：

(1)、获取标准行为模式

1.1)、获取正常商户交易数据并进行预处理

通过银联内部数据库获取每个商户类别码下N个正常商户一年的交易流水数据，对每个正常商户一年的交易流水数据进行标准初始化即对正常商户交易流水数据，按照小时、星期天数、月时间尺度分别统计交易量，最终将交易流水数据表示为具有86维特征的交易数据向量：

x_i＝(x_i,1,x_i,2,...,x_i,G),1≤i≤N,G＝86，

其中，i表示正常用户编号，N表示正常商户数量；

所述的86维特征的交易数据向量包括24个按小时统计的交易量以及24个按小时统计的交易量的一阶导数、7个按周一到周日统计的交易量以及7个按周一到周日统计的交易量的一阶导数、12个按月统计的交易量以及12个按月统计的交易量的一阶导数；

86维特征的交易数据向量按维进行归一化处理：

x_{i, j}^{'} = \frac{x_{i, j} - x_{i, m i n}}{x_{i, m a x} - x_{i, m i n}},

其中，x_i,min为第j维的最小值，x_i,max为第j维的最大值，x'_i,j为第i个用户的第j维数据的归一化后的数据；

1.2)、删除异常交易数据向量

将获取的各个正常用户的86维特征的交易数据向量中异常交易数据向量删除，得到M个86维特征的交易数据向量；

1.3)、层次聚类获取标准行为模式

对每个商户类别码下的M个86维特征的交易数据向量运用层次聚类，将相似的商户行为模式聚成一类，得到每个商户类别码下的一组分别基于小时、星期天数、月等时间尺度的标准行为模式。

(2)、分类器训练

2.1)、获取商户交易数据并进行预处理

从银联内部数据库中，按照正常商户：套用商户＝1:1的数量，随机抽取正常商户、套用商户，然后按照步骤1.1)的方法，将他们一年的交易流水数据分别表示为具有86维特征的交易数据向量并进行归一化处理；

计算每一个商户的交易数据向量与步骤(1)得到的所有商户类别码下的所有标准行为模式的欧式距离，并且按照距离由小到大形成一个排名表；从排名表中，取距离最小(匹配程度最高)的标准行为模式的商户类别码作为该商户最相近的商户类别码，从而获取与商户类别码相关的9维特征:

该商户注册的商户类别码、最相近商户类别码、商户手续费等级、最相近商户手续费等级、商户小类ID、最相近商户小类ID、商户小类ID与最相近商户小类ID的差值、商户类别码在排名表中的名次、警告级别；

将上述与商户类别码相关的9维特征叠加到该商户交易数据向量上，得到95维的特征向量；

2.2)、建立分类器模型

将正常商户的真实结果作为0、套用商户的真实结果作为1，抽取正常商户、套用商户的95维的特征向量作为输入特征向量，通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数，从而得到分类器；

(3)、分类器分类

获取新商户一年的交易流水数据按照步骤(2)的方法进行向量化得到95维特征向量x_new＝(x_new,1,x_new,2,...,x_new,95),，代入步骤(2)得到分类器进行计算，得到一个概率值；

将得到的概率值与设定的阈值作比较，当大于设定的阈值时，该新商户为套用商户，否则为正常商户。

本发明的目的是这样实现的

本发明套用商户类别码欺诈行为的检测方法，首先通过获取正常商户交易数据并进行预处理、层次聚类获取标准行为模式；然后，按照正常商户：套用商户＝1:1的数量，随机抽取正常商户、套用商户的交易流水数据并获取各商户的86维特征的交易数据向量，通过欧式距离计算获取一个9维特征进行叠加，得到95维的特征向量，通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数，从而得到分类器；最后依据新用户的一年的交易流水数据构造一个95维的特征向量送入分类器分类，检测出是否是套用商户。本发明利用计算机***，能够从多个维度对商户行为进行识别，从而高效准确地检测出商户套用。

附图说明

图1是本发明套用商户类别码欺诈行为的检测方法一种具体实施方式流程图；

图2是图1所示异常数据一具体实例图；

图3是图1所示层次聚类中异常数据分布示意图；

图4是图1所示标准行为模式一具体实例图；

图5是不同商户类别码阈值变化曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

本发明利用聚类、分类、异常检测等数据挖掘方法提供一种套用商户类别码欺诈行为的检测方法。套用商户类别码欺诈行为的检测是对欺诈可能性的一种量化判断，首先根据正常商户历史交易数据构造分离器模型，然后利用该模型对新商户的交易行为进行分析和处理，从中识别该商户是否是套用商户。

图1是本发明套用商户类别码欺诈行为的检测方法一种具体实施方式流程图。

在本实施例中，如图1所示，本发明套用商户类别码欺诈行为的检测方法包括三个大的步骤，即获取标准行为模式、分类器训练、分类器分类，具体如下。

一、获取标准行为模式

不同的行业有不同的行业营业时间区间、营业高峰或者低谷等的营业规律，因此我们将同一类行业中商户具有的整体营业规律称之为该行业的“行为模式”。

1、获取正常商户交易数据并进行预处理

通过银联内部数据库获取每个商户类别码下N个正常商户一年的交易流水数据(存在少部分异常数据)，对每个正常商户一年的交易流水数据进行标准初始化。

因为交易流水数据的敏感性，我们只能获取如表1所示的商户交易流水数据，每行数据包括商户ID、MCC(商户类别码)、商户扣率、月、周、时、交易量、交易额、套用标签9列属性。每一行数据描述了该商户的一部分基本属性和该商户在某月的周几的某个时间段(1小时)内总的交易笔数和交易金额。最后一列表示该是否商户被业务部门标记为套用商户，其中“0”为未套用商户类别码的正常商户、“1”表示确定为套用商户类别码的套用商户。

商户ID	MCC	商户扣率	月	周	时	交易量	交易额	套用标签
									0000001	5411	0.0038	01	1	0	80	702430	1
0000001	5411	0.0038	01	1	1	10	201500	1

0000001	5411	0.0038	01	1	2	1	12020	1
									…	…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…	…
									0000001	5411	0.0038	01	1	10	0	0	1
0000001	5411	0.0038	01	1	11	0	0	1
									0000001	5411	0.0038	01	1	12	1	31200	1
…	…	…	…	…	…	…	…	…
									…	…	…	…	…	…	…	…	…
0000002	7012	0.0125	01	1	0	0	0	0
									0000002	7012	0.0125	01	1	1	0	0	0
0000002	7012	0.0125	01	1	2	0	0	0
									…	…	…	…	…	…	…	…	…

表1

对某个商户类别码下选出的正常商户一年的交易流水数据进行标准初始化，按照小时、星期天数、月等时间尺度分别统计交易量，最终将该正常商户数据表示为具有86维特征的交易数据向量x_i＝(x_i,1,x_i,2,...,x_i,G),1≤i≤N，G＝86。

为了方便计算，我们把86维特征的交易数据向量进行了归一化，转换为[0,1]之间的86维特征向量。

其中，以小时(共24小时)时间尺度统计交易量如表2所示。

表2

其中，以星期天数时间尺度统计交易量如表3所示。

表3

其中，以月份时间尺度统计交易量如表4所示。

表4

最后，86维特征汇总描述如表5所示：

表5

2、删除异常交易数据向量

N个正常商户一年的交易流水数据中存在部分噪声，即异常交易数据。由于商户交易数据来源于多个数据库，即使我们是从正常商户库中获得的交易数据其中存在许多与套用商户欺诈无关的数据，且常常不可避免地存在着不完整、不一致和重复的异常数据。由于银联调查员实地考察过程可能还存在时间延误，消息不准确等情况，例如某商户上半年是套用低手续率的类别码，下半年应付检查又改回原来类别码，这种情况交易数据经我们实验发现还是较多的这些异常数据，会对后期的层次聚类过程进行误导，导致对标准行为模式产生过度拟合的情况，因此，必须对其予以删除，从而改善数据质量，得到需要的商户交易数据。

如图2所示，5411大型超市的标准行为模式应为双峰型，最高峰出现在下午6点左右。而我们看到图中异常的大型超市商户其行为模式与大型超市行为模式完全不同，却与7298的保健及美容spa的行为模式非常相似，交易量高潮区间出现在超市已经停止营业的时间段，夜间9点到凌晨2点。而我们查阅5411大型超市和7298的保健及美容的手续费扣率，发现保健及美容spa的手续费扣率远高于大型超市。这表明此正常商户有极大可能是异常数据。因此我们首先应该清洗数据，去除噪声即异常数据，本发明先利用层次聚类去除异常数据，留下的正常商户作为下一轮训练样本。我们发现，异常数据并不是独立分散在交易数据集中的。相反，这些异常数据以小型簇状聚集在一起。层次聚类算法在对噪声较强的数据集聚类时容易将距离主体数据较远的噪声点划分为独立的簇，如图3。因此本发明利用层次聚类去除噪声簇内包含元素较少)，留下正常行为模式的商户作为下一轮训练样本。

层次聚类去除异常数据基本步骤如下：

将每个对象归为一类,共得到N类,每类仅包含一个对象，类与类之间的距离就是它们所包含的对象之间的距离；

找到最相近的两个类并合并成一类,于是总的类数少了一个；

重新计算新的类与所有旧类之间的距离；

重复第2步和第3步,直到最后合并成K个类为止(K为我们设置的类的个数)。

在本步骤层次聚类去噪中，我们设置最终得到的类数目，即上文的K设置为10个，使得通过去除异常数据较少的小簇之后得到的大簇个数为10个，作为下一轮标准行为模式训练的训练集。

3、层次聚类获取标准行为模式

每一个商户类别码中可能包含多种不同营业方式的行业，比如24小时便利店与超市，即使是同一种行业，例如连锁超市，因为其地理位置，居民消费习惯等的不同存在着不同的营业规律。例如不同的超市周末营业额与非周末营业额不同因而存在至少2种行为模式。因此，利用上一步去除异常数据后，再次运用层次聚类将相似的商户行为模式聚成一类，得到每个商户类别码的一组标准行为模式库。通过试验发现，我们发现每个商户类别码的行为模式不会超过5个，因此在本步骤中层次聚类，我们将最终的类簇个数设置为5，得到的行为模式最终不会超过5个。其中，商户类别码为5411(大型仓储式超级市场)--行为模式库如图4所示。

二、分类器训练

1、获取商户交易数据并进行预处理

从银联内部数据库中，按照正常商户：套用商户＝1:1的数量，随机抽取P个正常商户、套用商户，然后按照步骤一的方法，将他们一年的交易流水数据分别表示为具有86维特征的交易数据向量并进行归一化处理，得到基于小时，周，月等时间尺度的86维的特征向量x_i＝(x_i,1,x_i,2,...,x_i,G),1≤i≤P，G＝86，与上一步骤获取到的标准行为模式库进行比较匹配，通过计算商户与上一个模块中得到的每一个模式库中的标准行为模式的欧氏距离，作为商户与该商户类别码的距离，即匹配度，距离越小匹配度越高。

计算每一个商户的交易数据向量与步骤一得到的所有商户类别码下的所有标准行为模式的欧式距离，并且按照距离由小到大形成一个排名表；从排名表中，取距离最小(匹配程度最高)的标准行为模式的商户类别码作为该商户最相近的商户类别码，从而获取与商户类别码相关的9维特征:

该商户的商户类别码、最相近商户类别码、商户手续费等级、最相近商户类别码手续费等级、商户小类ID、最相近商户类别码小类ID、商户小类ID与最相近商户类别码小类ID的差值、商户类别码在排名表中的名次、警告级别，具体如表6所示。

表6

其中，具体特征及解释如下：

(1)、商户类别码(以下简称MCC)

商户注册信息上注明的商户类别码(MCC)

(2)、最相近商户类别码(以下简称MinMCC)

商户行为模式相近的MCC，由于商户可能存在套用，因此我们将商户与所有MCC是所有正常行为模式进行比较匹配，通过计算商户与每一个MCC的每一个标准行为模式的欧氏距离，获取与每一个MCC的每一个标准行为模式最小的距离作为商户与该MCC的距离，并且按照距离由小到大形成一个排名表distanceList，距离越小，匹配度越高。从排名表中，我们取距离最小(匹配程度最高)的标准行为模式的作为该商户最相近的MCC，即MinMCC。

(3)、商户手续费等级(手续费序号)(以下简称usrPayment)

不同MCC所有收取的手续费等级。

(4)、最相近商户类别码手续费等级(以下简称minPayment)

通过MinMCC,查询可得到MinMCC的手续费等级，我们就用此手续费等级作为“最相近商户类别码的手续费等级”属性的值。

(5)、商户小类ID(以下简称usrClass)

商户根据银联内部某种规则划分的小类类别。

(6)、最相近商户类别码的小类ID(以下简称minClass)

通过MinMCC,查询可得到MinMCC的商户小类ID，我们就用此小类ID作为“最相近MCC的小类ID”属性的值。

(7)、商户小类ID与最相近商户类别码小类的差值(以下简称delCategory)最相近的小类ID与登记小类ID的差值，并且归一化，

(8)、商户注册的商户类别码在排名表中的名次(以下简称rank)

商户注册的商户类别码在上述MCC排名表distanceList中的名次，并进行归一化。“排名”属性的值越大，说明商户与注册商户类别码的距离越大，商户为套用商户的可能性越高。

(9)、警告级别(以下简称WarningLevel)

警告级别属性是对排名属性的补充。当某商户的排名靠前但实际上该商户的行为和其所在MCC的标准行为模式匹配程度非常低时，例如注册MCC排在第5，但是前五的距离是1,10,50,100,5000，这种情况下，即使注册MCC排在第5，但是由于距离太大，也很有可能是套用的前四名的MCC，而不可能是正常商户。警告等级属性会起到修正的作用。具体表示如下：

W a r n i n g L e v e l = 1 - \frac{M i n D i s}{S e l f D i s}

其中，其中，Mindis表示用户与匹配度最高的商户类别码下的标准行为模式的欧式距离，SelfDis表示用户与商户注册的商户类别码下的标准行为模式的欧式距离。警告级别越高，说明套用的可能性越高。因此，当SelfDis很大时，即使排名靠前，警告级别也趋近与1，对排名属性起到了修正的作用。

2、建立分类器模型

将正常商户的真实结果作为0、套用商户的真实结果作为1，抽取正常商户、套用商户的95维的特征向量作为输入特征向量，通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数，从而得到分类器

本发明采用逻辑斯蒂回归模型的原因是，由于欺诈检测模型是一种特殊的分类模型，而采用概率型的逻辑斯蒂回归具有模型简单，易于理解，同时兼具准确率召回率高的特点，具有较强的泛化能力。逻辑斯蒂回归输出的是[0,1]区间的概率值，通过概率值和设定的阈值作比较来判断该商户是套用商户的概率。利用95维的特征向量，通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数，从而得到分类器模型。具体如下：

建立逻辑斯蒂回归分类器的步骤为：

(1)、设定拟合函数(hypothesisfunction)：

h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{θ^{T} x}};

其意义是给定参数向量θ(θ₁,θ₁,...,θ₉₅),初始化时参数向量的每个分量设为1，根据输入95特征向量x，给出输出h_θ(x)，当输出值大于设定阈值的商户很可能存在套用行为。

(2)、设定代价函数(costfunction)：

J (θ) = \frac{1}{P} [Σ_{i}^{P} y^{(i)} l o g (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))];

其中，h_θ(x⁽ⁱ⁾)表示第i次预测结果，y⁽ⁱ⁾表示特征向量x的真实结果。其意义是累加所有特征的预测结果h_θ(x⁽ⁱ⁾)与真实结果y⁽ⁱ⁾之间的差距。模型的根本就是利用不断迭代计算使得该代价函数最小，或者收敛从而判断模型参数的收敛。

(3)、利用梯度下降法，来调整参数θ(θ₁,θ₁,...,θ₉₅)，使得代价函数J(θ)的值最小。即设置一个合适的学习率α(初始值设为0.001)之后，同步更新所有j＝1to95:

θ_{j} = θ_{j} - {αΣ}_{i = 1}^{P} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}

迭代更新步骤，直到代价函数的值收敛为止。利用上述梯度下降得到的模型参数放入分类模型得到分类器。

三、分类器分类

获取新商户一年的交易流水数据按照步骤二的方法进行向量化得到95维特征向量x_new＝(x_new,1,x_new,2,...,x_new,95),，代入步骤(2)得到分类器进行计算，得到一个概率值。该概率值表示该商户是套用商户的概率，概率越高，该商户更倾向于是套用商户。

将得到的概率值与设定的阈值作比较，当大于设定的阈值时，该新商户为套用商户，否则为正常商户。在确定该商户是欺诈商户后，银联相关部门将进行一定的处理。

在阈值的选择方面，我们通过实验发现，如图5，即使是不同的商户类别码，最优阈值都集中在0.5左右，同时在最优阈值左右较大区间内都能得到较高的准确率，召回率与FM。这说明了，利用本发明的检测方法对阈值的选择不敏感，具有较好的稳定性与泛化能力。综上，本实验采用阈值为0.5作为本工程的分类部分阈值参考值。

四、模型评价指标

本发明套用商户检测***主要评估标准有准确率，召回率，FM。表7介绍了tp,fp,fn,tn等常见的概念，其中“0”为未套用商户类别码的商户、“1”表示确定为套用商户类别码的商户，“Y”表示检测阶段数分类为正常商户，“N”表示检测阶段数分类为套用商户。

表7

那么，

准确率

\Pr = \frac{t p}{t p + f p}

召回率

Re = \frac{t p}{t p + f n}

准确率Pr和召回率Re指标有的时候是矛盾的，最常见的方法应该就是使用F-Measure进行中和了。F-Measure是Pr和Re加权调和平均：

F = \frac{(a^{2} + 1) \Pr * Re}{a^{2} (\Pr + Re)}

当参数a＝1时，就是最常见的FM了：

F M = \frac{2 \Pr * Re}{(\Pr + Re)}

很容易理解，FM综合了Pr和Re的结果，当FM较高时则比较说明实验方法比较理想。本发明采用准确率，召回率，FM三个指标对实验结果的好坏进行度量。

五、模型的检测结果与分析

根据上述实施方法，本方法对一系列商户类别码的交易数据进行欺诈检测，结果如表8所示：

表8

表8的结果表明了利用本发明的检测方法，准确率，召回率均在80％以上，同时，即使训练样本数据量较少的情况下，例如8398商户类别码，只有500条数据，相较于1800的样本量，准确率和召回率并没有太大的降低。这说明了本发明提出检测算法是一种处理套用商户检测问题的有效方法。

另一方面，为了更好的说明本发明的优越性，我们利用weka对同一批数据利用不同算法进行10折交叉验证试验，结果如表9，综合比较，我们发现逻辑斯蒂回归不但准确率，召回率高，同时运行效率高。而其他算法存在不同程度的缺陷，例如多层感知器算法，准确率高，召回率也较高但是耗时太长，而朴素贝叶斯运行效率高但是准确率，召回率没有突出优势，这些不适合实际工程应用。

表9

综上所述，套用商户类别码欺诈行为的检测方法具有实现简单、速度快、泛化误差低、分类准确率高、存储资源低等优点。利用本发明能够准确高效的对套用商户类别码欺诈行为进行检测，从而减少欺诈商户的产生。另一方面，本发明即使在数据中样本数据少，含有少量噪音的情况下也能很好的对欺诈商户进行检测，具有较高的可实施性，应用前景广阔。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种套用商户类别码欺诈行为的检测方法，其特征在于，包括以下步骤：

(1)、获取标准行为模式

1.1)、获取正常商户交易数据并进行预处理

x_i＝(x_i,1,x_i,2,…,x_i,G),1≤i≤N,G＝86；

86维特征的交易数据向量按维进行归一化处理：

x_{i, j}^{'} = \frac{x_{i, j} - x_{i, m i n}}{x_{i, m a x} - x_{i, m i n}},

1.2)、删除异常交易数据向量

将获取的各个正常用户的86维特征的交易数据向量中异常交易数据向量删除；

1.3)、层次聚类获取标准行为模式

(2)、分类器训练

2.1)、获取商户交易数据并进行预处理

2.2)、建立分类器模型

(3)、分类器分类

获取新商户一年的交易流水数据按照步骤(2)的方法进行向量化得到95维特征向量x_new＝(x_new,1,x_new,2,…,x_new,95),，代入步骤(2)得到分类器进行计算，得到一个概率值；

2.根据权利要求1所述的检测方法，其特征在于，步骤2.1)所述的警告级别为：

W a r n i n g L e v e l = 1 - \frac{M i n D i s}{S e l f D i s}

其中，Mindis表示用户与匹配度最高的商户类别码下的标准行为模式的欧式距离，SelfDis表示用户与商户注册的商户类别码下的标准行为模式的欧式距离。

3.根据权利要求1所述的检测方法，其特征在于，步骤1.2)所述删除异常交易数据向量采用层次聚类去除，聚类个数K设置为10个。

4.根据权利要求1所述的检测方法，其特征在于，步骤1.3层次聚类获取标准行为模式中聚类个数设置为5。