CN110288468B

CN110288468B - 数据特征挖掘方法、装置、电子设备及存储介质

Info

Publication number: CN110288468B
Application number: CN201910630499.7A
Authority: CN
Inventors: 叶素兰; 李国才; 刘卉; 王秋施; 贾怡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-19
Filing date: 2019-07-12
Publication date: 2023-06-06
Anticipated expiration: 2039-07-12
Also published as: CN110288468A

Abstract

本发明涉及数据分析技术领域，揭示了一种数据特征挖掘方法、装置、电子设备及存储介质。所述方法包括：采集垂直领域符合预定标准的数据样本构建训练数据集合，对训练数据集合进行处理，得到标准数据模型，从而分析待分析数据以构建待分析数据的特征向量，将待分析数据的特征向量输入标准数据模型，得到待分析数据符合预定标准的概率。通过构建标准样本特征向量并进行聚类处理，得到标准数据模型，从而可在获取到待分析数据的情况下，通过标准数据模型分析得到该待分析数据的用户特征，并准确获知该待分析数据符合预定标准的概率。

Description

数据特征挖掘方法、装置、电子设备及存储介质

技术领域

本发明涉及数据分析技术领域，特别涉及一种数据特征挖掘方法、装置、电子设备及存储介质。

背景技术

在垂直领域中，为了对数据样本可能进行的行为进行预测，通常会由资深人士依据业务经验挖掘得到样本特征，并根据样本特征及历史样本数据建立样本数据库，从而实现对数据样本可能进行的行为进行预测。然而，若待分析数据为初次出现于该垂直领域，由于待分析数据不具有历史行为，无法依据样本数据库对待分析数据的行为进行预测，且上述方法依赖于人为分析，受人为认知的局限性影响较大，准确率不高。可见，传统的数据特征挖掘方法无法有效揭示数据样本特征，且对数据样本行为的预测准确率不高。

发明内容

为了解决传统数据特征挖掘方法存在的无法揭示数据样本特征，且对数据样本行为的预测准确率不高的问题，本发明提供了一种数据特征挖掘方法、装置、电子设备及存储介质。

本发明实施例第一方面公开了一种数据特征挖掘方法，所述方法包括：

采集垂直领域符合预定标准的数据样本，并基于所述符合预定标准的数据样本构建训练数据集合；所述训练数据集合包括多个样本特征向量，每个所述样本特征向量对应于一个符合预定标准的数据样本；

对所述训练数据集合进行处理，得到标准数据模型；

分析待分析数据，以构建待分析数据的特征向量；

将所述待分析数据的特征向量输入所述标准数据模型，得到所述待分析数据符合所述预定标准的概率。

本发明实施例第二方面公开了一种数据特征挖掘装置，所述装置包括：

训练单元，用于采集垂直领域符合预定标准的数据样本，并基于所述符合预定标准的数据样本构建训练数据集合；所述训练数据集合包括多个样本特征向量，每个所述样本特征向量对应于一个符合预定标准的数据样本；

聚类单元，用于对所述训练数据集合进行处理，得到标准数据模型；

构建单元，用于分析待分析数据，以构建待分析数据的特征向量；

分析单元，用于将所述待分析数据的特征向量输入所述标准数据模型，得到所述待分析数据符合所述预定标准的概率。

本发明实施例第三方面公开了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现本发明实施例第一方面公开的一种数据特征挖掘方法。

本发明实施例第四方面公开了一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种数据特征挖掘方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明所提供的一种数据特征挖掘方法包括如下步骤：采集垂直领域的标准数据样本数据，并基于标准数据样本数据构建训练数据集合；对训练数据集合进行处理，得到标准数据模型；分析待分析数据，以构建待分析数据的特征向量；将待分析数据的特征向量输入标准数据模型，得到待分析数据符合预定标准的概率。

此方法下，通过构建标准样本特征向量并使用k-means聚类算法对其进行处理，得到标准数据模型，从而可在获取到待分析数据的情况下，通过标准数据模型分析得到该待分析数据的用户特征，并准确获知该待分析数据符合预定标准的概率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明实施例公开的一种装置的结构示意图；

图2是本发明实施例公开的一种数据特征挖掘方法的流程图；

图3是本发明实施例公开的另一种数据特征挖掘方法的流程图；

图4是本发明实施例公开的一种数据特征挖掘装置的结构示意图；

图5是本发明实施例公开的另一种数据特征挖掘装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的实施环境可以是电子设备，例如智能手机、平板电脑、台式电脑。符合预定标准的数据样本数据可以是：在某一行业被列入黑名单的数据样本，或者符合某一特定行为的数据样本等。

图1是本发明实施例公开的一种数据特征挖掘装置的结构示意图。数据特征挖掘装置100可以是上述电子设备。如图1所示，数据特征挖掘装置100可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件110，传感器组件114以及通信组件116。

处理组件102通常控制数据特征挖掘装置100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，用于便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，用于以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在数据特征挖掘装置100的操作。这些数据的示例包括用于在数据特征挖掘装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器104中还存储有一个或多个模块，用于该一个或多个模块被配置成由该一个或多个处理器118执行，以完成如下所示方法中的全部或者部分步骤。

电源组件106为数据特征挖掘装置100的各种组件提供电力。电源组件106可以包括电源管理***，一个或多个电源，及其他与为数据特征挖掘装置100生成、管理和分配电力相关联的组件。

多媒体组件108包括在数据特征挖掘装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件110被配置为输出和/或输入音频信号。例如，音频组件110包括一个麦克风(Microphone，简称MIC)，当数据特征挖掘装置100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中，音频组件110还包括一个扬声器，用于输出音频信号。

传感器组件114包括一个或多个传感器，用于为数据特征挖掘装置100提供各个方面的状态评估。例如，传感器组件114可以检测到数据特征挖掘装置100的打开/关闭状态，组件的相对定位，传感器组件114还可以检测数据特征挖掘装置100或数据特征挖掘装置100一个组件的位置改变以及数据特征挖掘装置100的温度变化。在一些实施例中，该传感器组件114还可以包括磁传感器，压力传感器或温度传感器。

通信组件116被配置为便于数据特征挖掘装置100和其他设备之间有线或无线方式的通信。数据特征挖掘装置100可以接入基于通信标准的无线网络，如WiFi(Wireless-Fidelity，无线保真)。在本发明实施例中，通信组件116经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在本发明实施例中，通信组件116还包括近场通信(Near Field Communication，简称NFC)模块，用于以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(InfraredData Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，数据特征挖掘装置100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

请参阅图2，图2是本发明实施例公开的一种数据特征挖掘方法的流程示意图。如图2所示该数据特征挖掘方法可以包括以下步骤：

201、采集垂直领域符合预定标准的数据样本，并基于符合预定标准的数据样本构建训练数据集合。

本发明实施例中，训练数据集合包括多个样本特征向量，每个样本特征向量对应于一个符合预定标准的数据样本。

本发明实施例中，在构建训练数据集合时，需要先采集某个垂直领域符合预定标准的数据样本，例如，垂直领域若特指信用贷款行业，则符合预定标准的数据样本可以是指信用贷款行业的黑名单用户，则黑名单中所包括的用户样本为此时的数据样本。

作为一种可选的实施方式，采集垂直领域符合预定标准的数据样本，并基于符合预定标准的数据样本构建训练数据集合，可以通过以下方式实现：采集垂直领域符合预定标准的数据样本，根据预设筛选规则处理数据样本，得到标准数据样本，根据标准数据样本分析得到标准数据所包括的个人信息、设备指纹和行为数据并设为标准数据的特征指标，再根据标准数据的特征指标构建得到标准样本特征向量作为训练数据集合；其中，预设筛选规则用于筛除数据格式不规范的数据样本。

具体地，假设将垂直领域设定为信用贷款行业，并将符合预定标准的数据样本设定为信用贷款行业的黑名单数据样本，则所采集的黑名单数据样本可以为被信用贷款行业列入黑名单的用户样本，以及公示的失信被执行名单上的用户样本等。先采集上述黑名单用户样本的联系方式、个人资料、身份证明、工作收入证明、银行卡流水证明、贷款用途证明以及所申请的信用贷款业务信息等详细信息，再根据预设筛选规则对上述详细信息进行处理，根据预设筛选规则编写代码对筛查上述详细信息，从而方便地将详细信息缺失或者详细信息格式错误的无效黑名单用户样本进行筛除，得到黑名单用户样本中样本信息完整的标准数据及对应的标准数据样本；提取标准数据样本中的特征指标，如设定第一特征指标为用户的年龄、学历及工作等个人信息；设定第二特征指标为用户的设备的识别码、用户设备的物理地址及用户设备的常用Wi-Fi地址等用户的设备指纹信息；设定第三特征指标为用户的交易申请频次及地理移动数据等用户的行为信息，并将上述提取到多项特征指标设为标准数据样本的特征向量，例如提取得到标准数据A的特征向量为(专科，男，职工；192.168.1.1，123456789012345，192.168.1.2；年均申请信用贷款3次，2017年位于广州)，此外还提取得到若干标准数据的特征向量，将上述若干标准数据的特征向量进行封装，则得到训练数据集合。

可见，实施本发明实施例，可将杂乱零散的数据样本中无效的数据样本进行筛除得到标准数据样本，并提取得到标准数据样本详尽的特征向量，从而可有效获得标准数据样本及标准数据样本对应的用户特征。

202、对所述训练数据集合进行处理，得到标准数据模型。

本发明实施例中，由于训练数据集合的数据量较为庞大且需要对训练数据集合包括的标准样本特征向量进行分类，可使用k-means聚类算法对训练数据集合进行训练，从而将训练数据集合中的标准样本特征向量划分在多个聚类集合中，令每个聚类集合中的标准样本特征向量都具有较高的相似度。

作为一种可选的实施方式，对所述训练数据集合进行处理，得到标准数据模型，可以通过以下方式实现：

选取预设数量的标准样本特征向量设为聚类中心点；

针对每一个聚类中心点，当得到的聚类集合不是最终聚类集合时，每次执行以下步骤：

将训练数据集合中除聚类中心点以外的标准样本特征向量分别设为聚类分布点；

针对每个聚类分布点，根据各个特征指标在该聚类分布点对应的标准样本特征向量中的权重，计算该聚类分布点与各个聚类中心点的加权欧氏距离；

根据每个聚类分布点与各个所述聚类中心点的加权欧氏距离，分别将各个聚类分布点聚类到与该聚类分布点的加权欧氏距离最短的聚类中心点对应的聚类集合中，以得到预设数量的聚类集合；

对每个聚类集合中的聚类分布点及该聚类集合的聚类中心点进行平均，以得到平均值作为该聚类集合新的聚类中心点；

判断此次确定出的每个新的聚类集合的聚类中心点与上一次确定出的聚类集合中聚类中心点相同时，确定此次得到的预设数量的聚类集合为最终聚类集合；

基于各个最终聚类集合中包含的标准样本特征向量的数量，确定各个最终聚类集合对应的数据符合预定标准的概率，并将各个最终聚类集合和对应的标准数据符合预定标准的概率作为标准数据模型。

具体地，银行可依据专家的个人经验，选取若干具备代表性的标准样本特征向量设为聚类中心点，则表明上述若干聚类中心点包括的标准样本特征向量对应的数据样本为具备代表性用户特征的黑名单数据样本，有较大的可能在申办信贷业务的过程中进行欺诈行为；在设定了若干聚类中心点之后，将其余的标准样本特征向量设为聚类分布点，并根据聚类中心点使用k-means聚类算法对训练数据集合进行处理，可得到聚类分布点与若干聚类中心点的加权欧氏距离，将聚类分布点聚类到与该聚类分布点的加权欧氏距离最短的聚类中心点对应的聚类集合中，从而得到若干个聚类集合，如专家设定B聚类集合的聚类中心点对应的标准样本特征向量具备如下特征指标(高中学历，无业，年均申请信用贷款多于3次)，则该聚类集合中的标准样本特征向量都需具备上述特征指标，聚类集合中各个标准样本特征向量的差异将体现在用户设备指纹等其它特征指标上；在获得若干个聚类集合之后，还需对每个聚类集合中的标准样本特征向量进行平均，将标准样本特征向量的平均值对应的聚类分布点设为该聚类集合新的聚类中心点，如对B聚类集合进行平均之后，得到如下特征指标(高中学历、无业及年均申请信用贷款多于4次)，则将上述特征指标对应的特征向量设为B聚类集合的聚类中心点，按照上述步骤对所有聚类集合反复进行平均，得到新的聚类中心点，直至此次确定出的每个新的聚类集合的聚类中心点与上一次确定出的聚类集合中聚类中心点相同时，确定此次得到的预设数量的聚类集合为最终聚类集合。

可见，专家依据业务经验选定聚类中心点并使用k-means聚类算法，可将训练数据集合中的标准样本特征向量聚类到若干个聚类集合中，从而依据各个聚类中心点的特征指标，对标准样本特征向量对应的用户进行合理归类。

其中，在根据特征指标在标准样本特征向量中的权重，分别计算所述聚类分布点与所述聚类中心点的加权欧氏距离之前，还需根据专家规则确定特征指标在标准样本特征向量中的权重，以使被专家规则认定为符合预定标准的概率高的特征指标在标准样本特征向量中的权重高于被专家规则认定为符合预定标准的概率低的特征指标在标准样本特征向量中的权重，具体地，在计算聚类分布点与聚类中心点加权欧氏距离时，专家规则将对每个特征指标的权重进行认定，其中，用户在决定是否进行欺诈时，其学历高低与其是否进行欺诈行为具有明显的关联性，而用户的地域信息则与用户决定是否进行欺诈行为没有明显关联，所以，在用户的特征指标中，学历信息将比地域信息占据更高的权重，并通过以下公式计算各个特征向量与各个聚类集合的聚类中心点的加权欧氏距离：

其中，上述公式采用n个特征指标，ω₁、……、ω_n是n个特征指标所对应的权重值，x₁、……、x_n是一个特征向量的n个特征指标值，y₁、……、y_n是聚类中心点的n个特征指标值，d为加权欧氏距离。

可见，通过使用上述实施方式，可精确计算各个特征向量与各个聚类集合的聚类中心点的加权欧式距离，从而将每个特征向量准确地聚类到合适的聚类集合中。

作为一种可选的实施方式，基于各个最终聚类集合中包含的标准样本特征向量的数量，确定各个最终聚类集合对应的符合预定标准的概率，可以通过以下方式实现：计算每个最终聚类集合中包含的标准样本特征向量的数量占据训练数据集合中包含的所有标准样本特征向量的总数量的比例作为最终聚类集合对应的符合预定标准的概率，以得到各个最终聚类集合对应的最终聚类集合对应的符合预定标准的概率。具体地，若B聚类集合包含的标准样本特征向量的数量为100个，训练数据集合中包含的所有标准样本特征向量的总数量为200个，则可使用概率公式进行计算得到P(B)＝100/200＝50％，即认定B聚类集合对应的用户欺诈概率为50％。可见，实施本实施方式，可方便地得到处于聚类集合中的标准样本特征向量所对应用户进行与聚类集合对应的用户行为的概率。

应当理解的是，对于不同垂直领域中对不同用户行为的概率的计算方式存在差异，比如保险行业中计算用户续保概率的计算方式与上述信用贷款行业计算用户欺诈概率的计算方式明显不同，本发明实施例以信用贷款行业计算用户欺诈概率的计算方式进行举例，不构成对其它垂直领域的计算方式产生限定。

203、分析待分析数据的用户数据，以构建待分析数据的特征向量。

本发明实施例中，在获取到待分析数据之后，参照步骤201的处理方法，提取待分析数据中的特征指标，从而得到标准格式的可供标准数据模型进行处理的待分析数据的特征向量，转向步骤204。

204、将待分析数据的特征向量输入标准数据模型，得到待分析数据符合预定标准的概率。

本发明实施例中，通过将待分析数据的特征向量输入标准数据模型，可将该待分析数据的特征向量聚类到标准数据模型中的某个聚类集合中，则该聚类集合对应的符合预定标准的概率，即为该待分析数据符合预定标准的概率。

作为一种可选的实施方式，在计算待分析数据的特征向量与各个最终聚类集合的聚类中心点的距离之后，以及在确定与待分析数据的特征向量距离最短的聚类中心点对应的最终聚类集合为待分析数据的特征向量所属的最终聚类集合之前，若待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离，则确定待分析数据不符合预定标准。具体地，在待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离时，说明待分析数据的特征向量与每个聚类分布点中的标准样本特征向量均存在较大差异，不应被聚类到某个聚类集合中，此时可认为该待分析数据的用户特征不符合若干聚类集合对应的用户特征，判定该待分析数据的特征向量不符合预定标准。可见，上述判定过程将筛选出不符合预定标准的待分析数据的特征向量，而非简单对其进行聚类。

作为另一种可选的实施方式，当待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离时，将该待分析数据的特征向量对应的用户数据推送给专家坐席终端，供专家对该待分析数据进行鉴别。可见，通过专家进行人工判定，可避免因某类用户的特征向量较为特殊，无法形成独立的聚类集合而造成判别错误的情况。

作为一种可选的实施方式，若最短距离未大于最大距离，将待分析数据的特征向量加入待分析数据的特征向量所属的最终聚类集合中，并将该待分析数据符合预定标准的概率设为其所属最终聚类集合对应的符合预定标准的概率，并执行确定与待分析数据的特征向量距离最短的聚类中心点对应的最终聚类集合为待分析数据的特征向量所属的最终聚类集合，将待分析数据的特征向量所属的最终聚类集合对应的用户符合预定标准的概率作为待分析数据符合预定标准的概率的步骤，将待分析数据的特征向量加入待分析数据的特征向量所属的最终聚类集合中；执行分别计算聚类分布点与聚类中心点的加权欧氏距离的步骤，以更新标准数据模型。具体地，在待分析数据的特征向量可聚类到某个聚类集合中时，则将该聚类集合对应用户符合预定标准的概率设为该待分析数据的特征向量所对应待分析数据符合预定标准的概率，此外，在待分析数据的特征向量加入该聚类集合后，该聚类集合的平均值也将产生变化，可以理解地，在待分析数据数量增多的情况下，聚类集合中的聚类中心点不能反映该聚类集合的实际情况，所以，需要在有待分析数据的特征向量加入聚类集合时，对该聚类集合进行平均，求得新的聚类中心点，从而实现对标准数据模型的更新，使标准数据模型可正常处理不断变化的待分析数据的特征向量。可见，通过实时更新标准数据模型，使得标准数据模型与待分析数据的特征向量之间不会产生脱节，实现机器学习的功能。

可见，实施图2所描述的方法，通过分析标准数据样板数据并构建训练数据集合，可使用算法来获得标准数据模型，在将待分析数据对应的待分析数据的特征向量输入标准数据模型后，即可获知该待分析数据符合预定标准的概率。提高了对待分析数据进行鉴别的效率，减少因人工鉴别错误而造成的损失。若是在信用贷款行业实施本发明，可及时分析得到待分析数据的用户特征并准确地获知待分析数据实施欺诈行为的概率，实现对待分析数据的自动化甄别。

请参阅图3，图3是本发明实施例公开的另一种数据特征挖掘方法的流程示意图。如图3所示，该数据特征挖掘方法可以包括以下步骤：

301、采集垂直领域符合预定标准的数据样本，并基于符合预定标准的数据样本构建训练数据集合。

本发明实施例中，训练数据集合包括多个样本特征向量，每个样本特征向量对应一个数据样本，其中，样本特征向量由多个维度的特征指标组成。

302、使用高斯函数对标准样本特征向量包括的特征指标进行分析，获得预设数量的标准样本特征向量的概率密度分布样本，将每个概率密度分布样本中概率最高的标准样本特征向量设为聚类中心点。

本发明实施例中，基于专家经验选取聚类中心点，虽然具有一定的合理性，但是由于极度依赖专家已有的经验，当出现新型用户行为时，专家经验也无法即时对新型用户行为进行识别，造成所选取的聚类中心点效果不佳，由此得到的标准数据模型所分析出的结果自然也不准确，所以，本发明实施例采用了高斯函数来分析训练数据集合中样本特征向量包括的特征指标从而得到聚类中心点，而非依据专家经验来选取。

作为一种可选的实施方式，使用高斯函数对标准样本特征向量包括的特征指标进行分析，获得预设数量的标准样本特征向量的概率密度分布样本，将每个概率密度分布样本中概率最高的标准样本特征向量设为聚类中心点。具体地，使用高斯函数对训练数据集合中标准样本特征向量包括的特征指标进行分析，可得到若干个概率密度分布样本，每个概率密度分布样本中，概率最高的标准样本特征向量可理解为有大量标准样本特征向量的特征指标与该概率最高的标准样本特征向量的特征指标相似，所以，可将若干个概率密度分布样本中概率最高的标准样本特征向量分别设为聚类集合的聚类中心点，使用高斯函数得到的概率密度分布样本个数即为聚类中心点的个数。可见，通过使用本发明实施例，可在对训练数据集合进行训练之前，得到良好的聚类中心点，避免了依据专家经验选取聚类中心点时，因经验限制造成标准数据模型的聚类不佳，待分析数据进行鉴别失准的情况。

303、对训练数据集合进行处理，得到标准数据模型。

304、分析待分析数据，以构建待分析数据的特征向量

305、将待分析数据的特征向量输入标准数据模型，得到待分析数据符合预定标准的概率。

可见，实施图3所描述的方法，通过使用高斯函数合理地为标准数据模型选取聚类中心点，可避免因专家经验的主观因素，而对标准数据模型产生影响，使得无法准确鉴别待分析数据。

请参阅图4，图4是本发明实施例公开的一种数据特征挖掘装置的结构示意图。如图5所示，该数据特征挖掘装置可以包括：训练单元401、聚类单元402、构建单元403以及分析单元404，其中，

训练单元401，用于采集垂直领域符合预定标准的数据样本，并基于符合预定标准的数据样本构建训练数据集合；训练数据集合包括多个样本特征向量，每个所述样本特征向量对应于一个符合预定标准的数据样本；

聚类单元402，用于对训练数据集合进行处理，得到标准数据模型；

构建单元403，用于分析待分析数据，以构建待分析数据的特征向量；

分析单元404，用于将待分析数据的特征向量输入标准数据模型，得到待分析数据符合预定标准的概率。

本发明实施例中，训练单元401在训练得到训练数据集合后，由聚类单元402对训练数据集合进行处理，得到标准数据模型；构建单元403将构建得到的待分析数据的特征向量输入分析单元404，以得到待分析数据符合预定标准的概率。

作为一种可选的实施方式，训练单元401采集垂直领域符合预定标准的数据样本，并基于符合预定标准的数据样本构建训练数据集合，可以通过以下方式实现：训练单元401采集垂直领域符合预定标准的数据样本，根据预设筛选规则处理数据样本，得到标准数据样本，根据标准数据样本分析得到标准数据所包括的个人信息、设备指纹和行为数据并设为标准数据的特征指标，再根据标准数据的特征指标构建得到标准样本特征向量作为训练数据集合；其中，预设筛选规则用于筛除数据格式不规范的数据样本。

具体地，假设将垂直领域设定为信用贷款行业，并将符合预定标准的数据样本设定为信用贷款行业的黑名单数据样本，则训练单元401所采集的黑名单数据样本可以为被信用贷款行业列入黑名单的用户样本，以及公示的失信被执行名单上的用户样本等。训练单元401先采集上述黑名单用户的联系方式、个人资料、身份证明、工作收入证明、银行卡流水证明、贷款用途证明以及所申请的信用贷款业务信息等详细信息，再根据预设筛选规则对上述详细信息进行处理，根据预设筛选规则编写代码对筛查上述详细信息，从而方便地将详细信息缺失或者详细信息格式错误的无效黑名单用户样本进行筛除，得到黑名单用户样本中样本信息完整的标准数据及对应的标准数据样本；训练单元401提取标准数据样本中的特征指标，如设定第一特征指标为用户的年龄、学历及工作等个人信息；设定第二特征指标为用户的设备的识别码、用户设备的物理地址及用户设备的常用Wi-Fi地址等用户的设备指纹信息；设定第三特征指标为用户的交易申请频次及地理移动数据等用户的行为信息，并将上述提取到多项特征指标设为标准数据样本的特征向量，例如提取得到标准数据A的特征向量为(专科，男，职工；192.168.1.1，123456789012345，192.168.1.2；年均申请信用贷款3次，2017年位于广州)，此外还提取得到若干标准数据的特征向量，将上述若干标准数据的特征向量进行封装，则得到训练数据集合。

可见，实施本发明实施例，训练单元401可将杂乱零散的数据样本中无效的数据样本进行筛除得到标准数据样本，并提取得到标准数据样本详尽的特征向量，从而可有效获得标准数据样本及标准数据样本对应的用户特征。

作为一种可选的实施方式，聚类单元402对所述训练数据集合进行处理，得到标准数据模型，可以通过以下方式实现：

聚类单元402选取预设数量的标准样本特征向量设为聚类中心点；

基于各个最终聚类集合中包含的标准样本特征向量的数量，确定各个最终聚类集合对应的用户符合预定标准的概率，并将各个最终聚类集合和对应的标准数据符合预定标准的概率作为标准数据模型。

具体地，聚类单元402可依据专家的个人经验，选取若干具备代表性的标准样本特征向量设为聚类中心点，则表明上述若干聚类中心点包括的标准样本特征向量对应的用户为具备代表性用户特征的黑名单用户，有较大的可能在申办信贷业务的过程中进行欺诈行为；在设定了若干聚类中心点之后，聚类单元402将其余的标准样本特征向量设为聚类分布点，并根据聚类中心点使用k-means聚类算法对训练数据集合进行处理，可得到聚类分布点与若干聚类中心点的加权欧氏距离，聚类单元402将聚类分布点聚类到与该聚类分布点的加权欧氏距离最短的聚类中心点对应的聚类集合中，从而得到若干个聚类集合，如专家设定B聚类集合的聚类中心点对应的标准样本特征向量具备如下特征指标(高中学历，无业，年均申请信用贷款多于3次)，则该聚类集合中的标准样本特征向量都需具备上述特征指标，聚类集合中各个标准样本特征向量的差异将体现在用户设备指纹等其它特征指标上；在获得若干个聚类集合之后，还需对每个聚类集合中的标准样本特征向量进行平均，将标准样本特征向量的平均值对应的聚类分布点设为该聚类集合新的聚类中心点，如对B聚类集合进行平均之后，得到如下特征指标(高中学历、无业及年均申请信用贷款多于4次)，则将上述特征指标对应的特征向量设为B聚类集合的聚类中心点，按照上述步骤对所有聚类集合反复进行平均，得到新的聚类中心点，直至此次确定出的每个新的聚类集合的聚类中心点与上一次确定出的聚类集合中聚类中心点相同时，确定此次得到的预设数量的聚类集合为最终聚类集合。

可见，专家依据业务经验选定聚类中心点并使用k-means聚类算法，聚类单元402可将训练数据集合中的标准样本特征向量聚类到若干个聚类集合中，从而依据各个聚类中心点的特征指标，对标准样本特征向量对应的用户进行合理归类。

作为一种可选的实施方式，聚类单元402基于各个最终聚类集合中包含的标准样本特征向量的数量，确定各个最终聚类集合对应的符合预定标准的概率，可以通过以下方式实现：聚类单元402计算每个最终聚类集合中包含的标准样本特征向量的数量占据训练数据集合中包含的所有标准样本特征向量的总数量的比例作为最终聚类集合对应的符合预定标准的概率，以得到各个最终聚类集合对应的最终聚类集合对应的符合预定标准的概率。具体地，若B聚类集合包含的标准样本特征向量的数量为100个，训练数据集合中包含的所有标准样本特征向量的总数量为200个，则可使用概率公式进行计算得到P(B)＝100/200＝50％，即认定B聚类集合对应的用户欺诈概率为50％。可见，实施本实施方式，聚类单元402可方便地得到处于聚类集合中的标准样本特征向量所对应用户进行与聚类集合对应的用户行为的概率。

作为一种可选的实施方式，在聚类单元402计算待分析数据的特征向量与各个最终聚类集合的聚类中心点的距离之后，以及在聚类单元402确定与待分析数据的特征向量距离最短的聚类中心点对应的最终聚类集合为待分析数据的特征向量所属的最终聚类集合之前，若待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离，则分析单元404确定待分析数据不符合预定标准。具体地，在待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离时，说明待分析数据的特征向量与每个聚类分布点中的标准样本特征向量均存在较大差异，不应被聚类到某个聚类集合中，此时可认为该待分析数据的用户特征不符合若干聚类集合对应的用户特征，分析单元404判定该待分析数据的特征向量不符合预定标准。可见，上述判定过程将筛选出不符合预定标准的待分析数据的特征向量，而非简单对其进行聚类。

作为另一种可选的实施方式，当待分析数据的特征向量与各个最终聚类集合的聚类中心点的最短距离大于每个最终聚类集合中聚类中心点与该最终聚类集合中每个聚类分布点的最大距离时，分析单元404将该待分析数据的特征向量对应的用户数据推送给专家坐席终端，供专家对该待分析数据进行鉴别。可见，通过专家进行人工判定，可避免因某类用户的特征向量较为特殊，无法形成独立的聚类集合而造成判别错误的情况。

作为一种可选的实施方式，若最短距离未大于最大距离，分析单元404将待分析数据的特征向量加入待分析数据的特征向量所属的最终聚类集合中，并将该待分析数据符合预定标准的概率设为其所属最终聚类集合对应的符合预定标准的概率，并执行确定与待分析数据的特征向量距离最短的聚类中心点对应的最终聚类集合为待分析数据的特征向量所属的最终聚类集合，将待分析数据的特征向量所属的最终聚类集合对应的用户符合预定标准的概率作为待分析数据符合预定标准的概率的步骤，将待分析数据的特征向量加入待分析数据的特征向量所属的最终聚类集合中；分析单元404执行分别计算聚类分布点与聚类中心点的加权欧氏距离的步骤，以更新标准数据模型。具体地，在待分析数据的特征向量可聚类到某个聚类集合中时，则分析单元404将该聚类集合对应用户符合预定标准的概率设为该待分析数据的特征向量所对应待分析数据符合预定标准的概率，此外，在待分析数据的特征向量加入该聚类集合后，该聚类集合的平均值也将产生变化，可以理解地，在待分析数据数量增多的情况下，聚类集合中的聚类中心点不能反映该聚类集合的实际情况，所以，需要在有待分析数据的特征向量加入聚类集合时，对该聚类集合进行平均，求得新的聚类中心点，从而实现对标准数据模型的更新，使标准数据模型可正常处理不断变化的待分析数据的特征向量。可见，通过实时更新标准数据模型，使得标准数据模型与待分析数据的特征向量之间不会产生脱节，实现机器学习的功能。

可见，实施图4所描述的方法，通过分析单元404分析标准数据样板数据并构建训练数据集合，可使用算法来获得标准数据模型，在将待分析数据对应的待分析数据的特征向量输入标准数据模型后，即可获知该待分析数据符合预定标准的概率。提高了对待分析数据进行鉴别的效率，减少因人工鉴别错误而造成的损失。

请参阅图5，图5是本发明实施例公开的又一种数据特征挖掘装置的结构示意图。图5所示的图像处理装置是由图4所示的图像处理装置进行优化得到的。与图4所示的图像处理装置相比较，图5所示的图像处理装置还可以包括：聚类中心单元405，其中，

聚类中心单元405，用于使用高斯函数对标准样本特征向量包括的特征指标进行分析，获得预设数量的标准样本特征向量的概率密度分布样本，将每个概率密度分布样本中概率最高的标准样本特征向量设为聚类中心点。

本发明实施例中，采用了高斯函数来分析训练数据集合中样本特征向量包括的特征指标从而得到聚类中心点。

作为一种可选的实施方式，聚类中心单元405使用高斯函数对标准样本特征向量包括的特征指标进行分析，获得预设数量的标准样本特征向量的概率密度分布样本，将每个概率密度分布样本中概率最高的标准样本特征向量设为聚类中心点。具体地，聚类中心单元405使用高斯函数对训练数据集合中标准样本特征向量包括的特征指标进行分析，可得到若干个概率密度分布样本，每个概率密度分布样本中，概率最高的标准样本特征向量可理解为有大量标准样本特征向量的特征指标与该概率最高的标准样本特征向量的特征指标相似，所以，可将若干个概率密度分布样本中概率最高的标准样本特征向量分别设为聚类集合的聚类中心点，使用高斯函数得到的概率密度分布样本个数即为聚类中心点的个数。可见，通过使用本发明实施例，聚类中心单元405可在对训练数据集合进行训练之前，得到良好的聚类中心点，避免了依据专家经验选取聚类中心点时，因经验限制造成标准数据模型的聚类不佳，待分析数据进行鉴别失准的情况。

可见，实施图5所描述的方法，通过使用高斯函数合理地为标准数据模型选取聚类中心点，可避免因专家经验的主观因素，而对标准数据模型产生影响，使得无法准确鉴别待分析数据。

本发明还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的一种数据特征挖掘方法。

该电子设备可以是图1所示数据特征挖掘装置100。

在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的一种数据特征挖掘方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据特征挖掘方法，其特征在于，包括：

采集垂直领域符合预定标准的数据样本，并基于所述符合预定标准的数据样本构建训练数据集合；所述训练数据集合包括多个标准样本特征向量，每个所述标准样本特征向量对应于一个符合预定标准的数据样本，所述标准样本特征向量包括从所述符合预定标准的数据样本中提取的特征指标，所述特征指标包括个人信息、设备指纹和行为数据；

选取预设数量的所述标准样本特征向量设为聚类中心点；

将所述训练数据集合中除所述聚类中心点以外的所述标准样本特征向量分别设为聚类分布点；

针对每个所述聚类分布点，根据各个所述特征指标在该聚类分布点对应的所述标准样本特征向量中的权重，计算该聚类分布点与各个所述聚类中心点的加权欧氏距离；

根据每个所述聚类分布点与各个所述聚类中心点的加权欧氏距离，分别将各个所述聚类分布点聚类到与该聚类分布点的加权欧氏距离最短的所述聚类中心点对应的聚类集合中，以得到所述预设数量的聚类集合；

对每个所述聚类集合中的所述聚类分布点及该聚类集合的所述聚类中心点进行平均，以得到平均值作为该聚类集合新的聚类中心点；

判断此次确定出的每个新的聚类集合的聚类中心点与上一次确定出的聚类集合中聚类中心点相同时，确定此次得到的所述预设数量的聚类集合为所述最终聚类集合；

计算每个所述最终聚类集合中包含的所述标准样本特征向量的数量占据所述训练数据集合中包含的所有所述标准样本特征向量的总数量的比例作为每个所述最终聚类集合对应的符合所述预定标准的概率；

将各个所述最终聚类集合和对应的符合所述预定标准的概率作为标准数据模型；

分析待分析数据，以构建待分析数据的特征向量；

计算所述待分析数据的特征向量与所述标准数据模型中各个所述最终聚类集合的所述聚类中心点的距离，确定与所述待分析数据的特征向量距离最短的所述聚类中心点对应的所述最终聚类集合为所述待分析数据的特征向量所属的最终聚类集合；

将所述待分析数据的特征向量所属的最终聚类集合对应的符合所述预定标准的概率作为所述待分析数据符合所述预定标准的概率。

2.根据权利要求1所述的数据特征挖掘方法，其特征在于，所述采集垂直领域符合预定标准的数据样本，并基于所述符合预定标准的数据样本构建训练数据集合，包括：

采集垂直领域符合预定标准的数据样本，根据预设筛选规则处理所述数据样本，得到标准数据样本；所述预设筛选规则用于筛除数据格式不规范的数据样本；

根据所述标准数据样本分析得到所述标准数据所包括的个人信息、设备指纹和行为数据并设为所述标准数据样本的特征指标；

根据所述标准数据样本的特征指标构建得到所述标准样本特征向量作为所述训练数据集合。

3.根据权利要求1所述的数据特征挖掘方法，其特征在于，在所述根据各个所述特征指标在该聚类分布点对应的所述标准样本特征向量中的权重，计算该聚类分布点与各个所述聚类中心点的加权欧氏距离之前，所述方法还包括：

根据专家规则确定所述特征指标在所述标准样本特征向量中的权重，以使被所述专家规则认定为符合所述预定标准的概率高的特征指标在所述标准样本特征向量中的权重高于被所述专家规则认定为符合所述预定标准的概率低的特征指标在所述标准样本特征向量中的权重。

4.根据权利要求1所述的数据特征挖掘方法，其特征在于，所述选取预设数量的所述标准样本特征向量设为聚类中心点，包括：

使用高斯函数对所述标准样本特征向量包括的所述特征指标进行分析，获得所述预设数量的所述标准样本特征向量的概率密度分布样本，将每个所述概率密度分布样本中概率最高的所述标准样本特征向量设为所述聚类中心点。

5.根据权利要求1所述的数据特征挖掘方法，其特征在于，在所述计算所述待分析数据的特征向量与所述标准数据模型中各个所述最终聚类集合的所述聚类中心点的距离之后，以及在所述确定与所述待分析数据的特征向量距离最短的所述聚类中心点对应的所述最终聚类集合为所述待分析数据的特征向量所属的最终聚类集合之前，所述方法还包括：

若所述待分析数据的特征向量与各个所述最终聚类集合的所述聚类中心点的最短距离大于每个所述最终聚类集合中所述聚类中心点与该最终聚类集合中每个所述聚类分布点的最大距离，则确定所述待分析数据不符合所述预定标准；

若所述最短距离未大于所述最大距离，执行所述确定与所述待分析数据的特征向量距离最短的所述聚类中心点对应的所述最终聚类集合为所述待分析数据的特征向量所属的最终聚类集合，将所述待分析数据的特征向量所属的最终聚类集合对应的符合所述预定标准的概率作为所述待分析数据符合所述预定标准的概率的步骤；

将所述待分析数据的特征向量加入所述待分析数据的特征向量所属的最终聚类集合中；

执行所述对每个所述聚类集合中的所述聚类分布点及该聚类集合的所述聚类中心点进行平均的步骤，以更新所述标准数据模型。

6.一种数据特征挖掘装置，其特征在于，包括：

训练单元，用于采集垂直领域符合预定标准的数据样本，并基于所述符合预定标准的数据样本构建训练数据集合；所述训练数据集合包括多个标准样本特征向量，每个所述标准样本特征向量对应于一个符合预定标准的数据样本，所述标准样本特征向量包括从所述符合预定标准的数据样本中提取的特征指标，所述特征指标包括个人信息、设备指纹和行为数据；

聚类单元，用于选取预设数量的所述标准样本特征向量设为聚类中心点；针对每一个聚类中心点，当得到的聚类集合不是最终聚类集合时，每次执行以下步骤：将所述训练数据集合中除所述聚类中心点以外的所述标准样本特征向量分别设为聚类分布点；针对每个所述聚类分布点，根据各个所述特征指标在该聚类分布点对应的所述标准样本特征向量中的权重，计算该聚类分布点与各个所述聚类中心点的加权欧氏距离；根据每个所述聚类分布点与各个所述聚类中心点的加权欧氏距离，分别将各个所述聚类分布点聚类到与该聚类分布点的加权欧氏距离最短的所述聚类中心点对应的聚类集合中，以得到所述预设数量的聚类集合；对每个所述聚类集合中的所述聚类分布点及该聚类集合的所述聚类中心点进行平均，以得到平均值作为该聚类集合新的聚类中心点；判断此次确定出的每个新的聚类集合的聚类中心点与上一次确定出的聚类集合中聚类中心点相同时，确定此次得到的所述预设数量的聚类集合为所述最终聚类集合；计算每个所述最终聚类集合中包含的所述标准样本特征向量的数量占据所述训练数据集合中包含的所有所述标准样本特征向量的总数量的比例作为每个所述最终聚类集合对应的符合所述预定标准的概率；将各个所述最终聚类集合和对应的符合所述预定标准的概率作为标准数据模型；

分析单元，用于计算所述待分析数据的特征向量与所述标准数据模型中各个所述最终聚类集合的所述聚类中心点的距离，确定与所述待分析数据的特征向量距离最短的所述聚类中心点对应的所述最终聚类集合为所述待分析数据的特征向量所属的最终聚类集合；将所述待分析数据的特征向量所属的最终聚类集合对应的符合所述预定标准的概率作为所述待分析数据符合所述预定标准的概率。

7.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～5中任一项所述的数据特征挖掘方法的步骤。

8.一种计算机可读存储介质，其特征在于，其存储计算机程序，所述计算机程序使得计算机执行权利要求1～5任一项所述的数据特征挖掘方法。