CN104699717A

CN104699717A - 数据挖掘方法

Info

Publication number: CN104699717A
Application number: CN201310665357.7A
Authority: CN
Inventors: 王骏; 杨鸿超
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2013-12-10
Filing date: 2013-12-10
Publication date: 2015-06-10
Anticipated expiration: 2033-12-10
Also published as: US10482093B2; US20160314174A1; EP3082051A4; WO2015085916A1; EP3082051A1; CN104699717B

Abstract

本发明提出了数据挖掘方法，所述方法包括：根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集，每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值；从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量，并对筛选出的特性向量执行过滤操作以获得样本；基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。本发明所公开的数据挖掘方法能够根据目标对象的综合特征来挖掘和分类目标对象。

Description

数据挖掘方法

技术领域

本发明涉及数据挖掘方法，更具体地，涉及基于回归模型的数据挖掘方法。

背景技术

目前，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。

在现有的技术方案中，通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类，即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。

然而，现有的技术方案存在如下问题：由于仅仅基于单一或数个属性数据对目标对象进行分类，故分类结果的精确度较低，并且由于需要对每个目标对象的属性数据进行相同的评估操作，故数据挖掘的效率较低。

因此，存在如下需求：提供能够根据目标对象的综合特征来挖掘和分类目标对象的基于回归模型的数据挖掘方法。

发明内容

为了解决上述现有技术方案所存在的问题，本发明提出了能够根据目标对象的综合特征来挖掘和分类目标对象的基于回归模型的数据挖掘方法。

本发明的目的是通过以下技术方案实现的：

一种数据挖掘方法，所述数据挖掘方法包括下列步骤：

（A1）根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集，每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值；

（A2）从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量，并对筛选出的特性向量执行过滤操作以获得样本；

（A3）基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。

在上面所公开的方案中，优选地，所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。

在上面所公开的方案中，优选地，所述过滤操作包括：根据预定的标准从筛选出的特性向量中过滤掉噪点。

在上面所公开的方案中，优选地，所述步骤（A3）进一步包括：抽取所述样本中的第一部分作为训练样本以构建所述回归模型；抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。

在上面所公开的方案中，优选地，所述步骤（A3）进一步包括：在构建所述回归模型之前对每个样本中的每个字段执行规范化操作，其包括：（1）处理缺失值；（2）处理奇异值；（3）对离散型的字符型字段进行重新编码；（4）对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

在上面所公开的方案中，优选地，所述步骤（A3）进一步包括：在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：（1）对连续型的数据以划分区间的方式进行离散化，其中，区间之间的划分点是导致目标变量出现明显转折的点；（2）根据WOE值曲线的趋势来判断区间划分结果的优劣，其中，如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤（1）以继续在该区间内进行划分。

在上面所公开的方案中，优选地，以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，并且如果计算出的概率大于预定的分类阈值，则判定该已知的第二类目标对象潜在地属于第一类目标对象。

本发明所公开的基于回归模型的数据挖掘方法具有以下优点：能够根据目标对象的综合特征来挖掘和分类目标对象，并且由于使用回归模型进行判定，故复用性较高并且能够显著地提高判定操作的效率和准确性。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1是根据本发明的实施例的数据挖掘方法的流程图。

具体实施方式

图1是根据本发明的实施例的数据挖掘方法的流程图。如图1所示，本发明所公开的数据挖掘方法包括下列步骤：（A1）根据目标数据集（例如金融领域中的交易记录集合）中的记录统计每个目标对象（例如金融卡持卡人）的特征向量以构成粗糙数据集，每个所述特征向量包括其所对应的目标对象的至少一个属性数据（例如金融领域中的月均消费金额、月均交易频度、跨境交易次数、境外消费金额、大额交易占比、高端卡标记等等）的值；（A2）从所述粗糙数据集中筛选出所有已知的第一类目标对象（例如金融领域中的高端持卡人，诸如白金卡持卡人）所对应的特征向量，并对筛选出的特性向量执行过滤操作以获得样本；（A3）基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象（例如金融领域中的非高端持卡人，诸如普通卡持卡人）中的每个是否潜在地属于第一类目标对象（例如，从非高端持卡人中挖掘出潜在的高端持卡人）。

优选地，在本发明所公开的数据挖掘方法中，所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值（即所述回归模型包含所有第一类目标对象共有的特征）。

优选地，在本发明所公开的数据挖掘方法中，所述过滤操作包括：根据预定的标准从筛选出的特性向量中过滤掉噪点（例如，针对金融领域中的高端持卡人信息，如果以月均消费额度为筛选标准，则过滤噪点的过程如下：对该字段进行排序，过滤掉前10%和后10%的持卡人交易信息，因为并非所有的高端卡的消费记录都属于高端消费特性，并且少部分的高端卡的消费记录过于高端而缺少普适性）。

优选地，在本发明所公开的数据挖掘方法中，所述步骤（A3）进一步包括：抽取所述样本中的第一部分（例如70%）作为训练样本以构建所述回归模型；抽取所述样本中的第二部分（例如20%）作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分（例如10%）作为应用样本以测试已构建的回归模型稳定性。

优选地，在本发明所公开的数据挖掘方法中，所述步骤（A3）进一步包括：在构建所述回归模型之前对每个样本中的每个字段执行规范化操作，其包括：（1）处理缺失值（例如，如果数值型字段缺失数据，则采用列均值填充，如果字符型字段缺失数据，则丢弃该样本）；（2）处理奇异值（例如采用盒装图技术过滤出极值异常点）；（3）对离散型的字符型字段进行重新编码；（4）对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

优选地，在本发明所公开的数据挖掘方法中，所述步骤（A3）进一步包括：在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：（1）对连续型的数据以划分区间的方式进行离散化，其中，区间之间的划分点是导致目标变量出现明显转折的点；（2）根据WOE（weight of evidence，证据权重）值曲线的趋势来判断区间划分结果的优劣，其中，如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤（1）以继续在该区间内进行划分。

优选地，在本发明所公开的数据挖掘方法中，以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，并且如果计算出的概率大于预定的分类阈值（例如0.8），则判定该已知的第二类目标对象潜在地属于第一类目标对象（例如，在金融领域中，判定某个普通卡用户是潜在的高价值持卡人）。

由上可见，本发明所公开的数据挖掘方法具有下列优点：能够根据目标对象的综合特征来挖掘和分类目标对象，并且由于使用回归模型进行判定，故复用性较高并且能够显著地提高判定操作的效率和准确性。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种数据挖掘方法，所述数据挖掘方法包括下列步骤：

2.根据权利要求1所述的数据挖掘方法，其特征在于，所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。

3.根据权利要求2所述的数据挖掘方法，其特征在于，所述过滤操作包括：根据预定的标准从筛选出的特性向量中过滤掉噪点。

4.根据权利要求3所述的数据挖掘方法，其特征在于，所述步骤（A3）进一步包括：抽取所述样本中的第一部分作为训练样本以构建所述回归模型；抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。

5.根据权利要求4所述的数据挖掘方法，其特征在于，所述步骤（A3）进一步包括：在构建所述回归模型之前对每个样本中的每个字段执行规范化操作，其包括：（1）处理缺失值；（2）处理奇异值；（3）对离散型的字符型字段进行重新编码；（4）对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

6.根据权利要求5所述的数据挖掘方法，其特征在于，所述步骤（A3）进一步包括：在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：（1）对连续型的数据以划分区间的方式进行离散化，其中，区间之间的划分点是导致目标变量出现明显转折的点；（2）根据WOE值曲线的趋势来判断区间划分结果的优劣，其中，如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤（1）以继续在该区间内进行划分。

7.根据权利要求6所述的数据挖掘方法，其特征在于，以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，并且如果计算出的概率大于预定的分类阈值，则判定该已知的第二类目标对象潜在地属于第一类目标对象。