CN109325118B

CN109325118B - 不平衡样本数据预处理方法、装置和计算机设备

Info

Publication number: CN109325118B
Application number: CN201811018913.0A
Authority: CN
Inventors: 于修铭; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2023-06-27
Anticipated expiration: 2038-09-03
Also published as: WO2020048048A1; JP2021533499A; US11941087B2; US20210158078A1; JP7058797B2; CN109325118A; SG11202100897SA

Abstract

本申请涉及一种基于数据资源的不平衡样本数据预处理方法、装置、计算机设备和存储介质。所述方法包括：接收并根据数据获取请求获取初始数据，根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。对抽取的K个第一样本点进行特征分析，获得第一类样本集的新增数据特征。根据第一类样本集对应的第一类标签，生成第一类样本集的新增数据标签。计算第一类样本集的数量和第二类样本集的数量之间的比例。根据新增数据特征和新增数据标签生成第一类样本集的新增数据，按照比例调整新增数据的数量，以增加第一类样本集的数量。采用本方法能够使得第一类样本集和第二类样本集的数量处于平衡状态，解决了样本不平衡的问题。

Description

不平衡样本数据预处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种不平衡样本数据预处理方法、装置、计算机设备和存储介质。

背景技术

随着社会信息化发展，在实际生产和应用中，需要对海量数据进行数据处理，而获取到的原始数据大多属于非均衡数据，即在整个数据集样本空间中其中一类的样本和其余一类或几类样本在数量上存在巨大的差异。

目前对于样本不平衡的情况，即有两类标签对应的数据量差异非常大时，对于样本量少的数据集，通常使用过采样来平衡样本。传统的过采样算法，如SMOTE算法，生成的新数据，根据X_new＝X+rand(0,1)*(X_mean-X)，得到的新数据是在(0,1)之间，而对于特征值为二值类数据(0或1)，生成的新数据不能满足实际数据标准，仍存在样本不平衡的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决样本不平衡问题的不平衡样本数据预处理方法、装置、计算机设备和存储介质。

一种不平衡样本数据预处理方法，所述方法包括：

接收数据获取请求，并根据所述数据获取请求获取初始数据；

根据预设的分类规则对所述初始数据进行分类，获得第一类样本集和第二类样本集，所述第一类样本集中各样本集的样本数量少于数据量阈值；所述第二类样本集中各样本集的数量大于数据量阈值；

抽取所述第一类样本集中的K个第一样本点；

对K个所述第一样本点进行特征分析，获得所述第一类样本集的新增数据特征；

获取第一类样本集对应的第一类标签，并根据所述第一类标签生成所述第一类样本集的新增数据标签；

分别获取所述第一类样本集的数量、所述第二类样本集的数量，并计算所述第一类样本集的数量和所述第二类样本集的数量之间的比例；

根据所述新增数据特征和所述新增数据标签生成所述第一类样本集的新增数据，并按照所述比例调整所述新增数据的数量，以增加所述第一类样本集的数量。

在其中一个实施例中，所述接收数据获取请求，并根据所述数据获取请求获取初始数据，包括：

根据所述数据获取请求从数据库中获取原始数据；

获取所述原始数据对应的数据类型；

获取预设的数据类型和处理方式之间的对应关系；

根据所述处理方式，对各数据类型对应的原始数据进行数据处理，获得初始数据。

在其中一个实施例中，所述根据预设的分类规则对所述初始数据进行分类，获得多个第一类样本集和第二类样本集，包括：

根据所述初始数据对应的数据类型，得到各数据类型对应的样本集；

计算与所述样本集的初始数据的数据量；

将各样本集的所述数据量与预设的数据量阈值进行比对，当数据量超出所述数据量阈值时，根据对应的样本集，得到第二类样本集；

当所述数据量低于所述数据量阈值时，根据对应的样本集，得到第一类样本集。

在其中一个实施例中，所述抽取所述第一类样本集中K个第一样本点，包括：

从所述第一类样本集任意抽取一个样本集，得到第一样本集；

分别计算所述第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离；

将所述第一样本点按照所述距离进行排序，获取前K个第一样本点。

在其中一个实施例中，所述抽取所述第一类样本集中K个第一样本点，还包括：

分别计算所述第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离；

将所述欧式距离按照从小到大的顺序进行排序；

根据所述欧式距离的排序，获取与所述前K个欧氏距离对应的第一样本点。

在其中一个实施例中，所述对K个所述第一样本点进行特征分析，获得新增数据特征，包括：

提取K个所述第一样本点的特征；

对所述特征进行分析处理，获得特征属性；

根据所述特征属性分别对K个所述第一样本点进行特征提取，分别获取K个所述第一样本点的公共特征；

根据所述公共特征形成对应的公共特征组合，并计算所述公共特征组合所包括的公共特征的数量；

将所述公共特征组合按照所述公共特征的数量进行排序，获取最大数量对应的公共特征组合；

根据所述最大数量对应的公共特征组合，生成新增数据特征。

一种不平衡样本数据预处理装置，所述装置包括：

初始数据获取模块，用于接收数据获取请求，并根据所述数据获取请求获取初始数据；

分类模块，用于根据预设的分类规则对所述初始数据进行分类，获得第一类样本集和第二类样本集，所述第一类样本集中各样本集的样本数量少于数据量阈值；所述第二类样本集中各样本集的数量大于数据量阈值；

抽取模块，用于抽取所述第一类样本集中的K个第一样本点；

新增数据特征获取模块，用于对K个所述第一样本点进行特征分析，获得所述第一类样本集的新增数据特征；

新增数据标签生成模块，用于获取第一类样本集对应的第一类标签，并根据所述第一类标签生成所述第一类样本集的新增数据标签；

比例计算模块，用于分别获取所述第一类样本集的数量、所述第二类样本集的数量，并计算所述第一类样本集的数量和所述第二类样本集的数量之间的比例；

新增数据生成模块，用于根据所述新增数据特征和所述新增数据标签生成所述第一类样本集的新增数据，并按照所述比例调整所述新增数据的数量，以增加所述第一类样本集的数量。

在其中一个实施例中，所述初始数据获取模块，还用于：

根据所述数据获取请求从数据库中获取原始数据；获取所述原始数据对应的数据类型；获取预设的数据类型和处理方式之间的对应关系；根据所述处理方式，对各数据类型对应的原始数据进行数据处理，获得初始数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

抽取所述第一类样本集中的K个第一样本点；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

抽取所述第一类样本集中的K个第一样本点；

上述不平衡样本数据预处理方法、装置、计算机设备和存储介质，服务器根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。抽取K个第一样本点并进行特征分析，根据获得的第一类样本集的新增数据特征生成第一类样本集的新增数据标签。计算第一类样本集的数量和第二类样本集的数量之间的比例。通过根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量，可使得第一类样本集和第二类样本集的数量处于平衡状态，解决了样本不平衡的问题。

附图说明

图1为一个实施例中不平衡样本数据预处理方法的应用场景图；

图2为一个实施例中不平衡样本数据预处理方法的流程示意图；

图3为一个实施例中对K个第一样本点进行特征分析，获得新增数据特征的流程示意图；

图4为一个实施例中不平衡样本数据预处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的不平衡样本数据预处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104接收终端102发送的数据获取请求，并根据数据获取请求获取初始数据。根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。其中，第一类样本集中各样本集的样本数量少于数据量阈值，第二类样本集中各样本集的数量大于数据量阈值。抽取第一类样本集中的K个第一样本点，对K个第一样本点进行特征分析，获得第一类样本集的新增数据特征。获取第一类样本集对应的第一类标签，并根据第一类标签生成第一类样本集的新增数据标签。分别获取第一类样本集的数量、第二类样本集的数量，并计算第一类样本集的数量和第二类样本集的数量之间的比例。根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种不平衡样本数据预处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，服务器接收终端发送的数据获取请求，并根据数据获取请求获取初始数据。

具体地，不同数据获取请求与不同初始数据对应，服务器可根据预设的数据获取请求和初始数据之间的对应关系，获取与终端发送的数据获取请求对应的初始数据。其中，数据获取请求携带数据标识，服务器可根据数据标识和初始数据之间的对应关系，获取与数据标识对应的初始数据。

以建模阶段为例，终端需要获取大量样本数据实现模型建立，服务器接收到终端发送的建模数据获取请求，并提取建模数据获取请求携带的建模数据标识，获取预设的建模数据标识和初始数据之间的对应关系，获取与建模数据标识对应的初始数据。

进一步地，服务器根据数据获取请求从数据库中获取原始数据，并获取原始数据对应的数据类型。获取预设的数据类型和处理方式之间的对应关系，根据处理方式，对各数据类型对应的原始数据进行数据处理，获得初始数据。

S204，服务器根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集，第一类样本集中各样本集的样本数量少于数据量阈值，第二类样本集中各样本集的数量大于数据量阈值。

具体地，预设的分类规则为根据数据量阈值对初始数据进行分类的规则，服务器将样本数量少于数据量阈值的初始数据分为第一类样本集，将样本数量多于数据量阈值的初始数据分为第二类样本集。

以建模阶段为例，可获取到的初始数据大多属于非均衡数据，即在整个数据集样本空间中其中一类的样本和其余一类或几类样本在数量上存在巨大的差异。在本实施例中，服务器可根据预设的数据量阈值，将所获得的初始数据进行分类，得到第一类样本集，即样本数量少于数据量阈值的初始数据。服务器还可将样本数量多于数据量阈值的初始数据，分为第二类样本集。

其中，第一类样本集包括多个第一类样本，第一类样本中有多个第一样本点，第一类样本的数量少于预设的数据量阈值，因此，第一类样本集也可称为少类样本集，其对应的样本也可称为少类样本，第一样本点也可称为少类样本点。

同样的，第二类样本集包括多个第二类样本，第二类样本包括多个第二样本点，第二类样本的数量多于预设的数据量阈值，因此，第二类样本集也可称为多类样本集，其对应的样本也可称为多类样本，第二样本点也可称为多类样本点。

S206，服务器抽取第一类样本集中的K个第一样本点。

具体地，第一类样本集中包括多个第一类样本，第一类样本中包括多个第一样本点。服务器从第一类样本集任意抽取一个样本集，得到第一样本集。分别计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离，并将第一样本点按照距离进行排序，获取前K个第一样本点。

进一步地，服务器分别计算第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离，并将欧式距离按照从小到大的顺序进行排序，根据欧式距离的排序，获取与前K个欧氏距离对应的第一样本点。

其中，欧氏距离在m维空间中两个点之间的真实距离，或者向量的自然长度，即该点到原点的距离。而在二维和三维空间中的欧氏距离就是两点之间的实际距离。

将计算得到的欧氏距离按照从小到大的顺序排列，并获取排序前K个欧氏距离对应的第一样本点，即所获取的第一样本点为与前K个最小欧氏距离对应的样本点。

S208，服务器对K个第一样本点进行特征分析，获得第一类样本集的新增数据特征。

具体地，服务器提取K个第一样本点的特征，并对特征进行分析处理，获得特征属性。根据特征属性分别对K个第一样本点进行特征提取，分别获取K个第一样本点的公共特征。根据公共特征形成对应的公共特征组合，并计算公共特征组合所包括的公共特征的数量，将公共特征组合按照公共特征的数量进行排序，获取最大数量对应的公共特征组合。根据最大数量对应的公共特征组合，生成新增数据特征。

其中，特征属性表示对第一样本点的所具备的特征进行分析处理后，得到的关于第一样本点的特征的属性，包括特征所属类别以及特征的定义。特征提取指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。

进一步地，服务器根据所获得的公共特征，形成对应的公共特征组合。计算不同公共特征组合所包括的公共特征的数量，将公共特征组合按照计算得到的公共特征的数量的大小进行排序，获取最大数量对应的公共特征组合。比如，不同公共特征组合包括的公共特征的数量为4、5、3、6、2，排序后得到的公共特征数量为6、5、4、3、2，获得的最大数量对应的公共特征组合，即为公共特征数量为6对应的公共特征组合。

服务器获取计算得到的最大数量对应的公共特征组合，并获取该公共特征组合包括的公共特征，将多个公共特征作为新增数据特征，新增数据特征为新增的第一类样本集包括的样本数据对应的特征。

S210，服务器获取第一类样本集对应的第一类标签，并根据第一类标签生成第一类样本集的新增数据标签。

具体地，服务器获取第一类样本集中第一类样本，根据预设的第一类样本和第一类标签之间的对应关系，获取与第一类样本对应的第一类标签。其中，第一类样本集包括多个第一类样本，不同第一类样本与不同第一类标签对应，服务器可根据第一类样本和第一类标签之间的对应关系，分别获取与不同第一类样本对应的第一类标签，根据所获得的第一类标签生成新增数据标签。

其中，新增数据标签表示针对第一类样本集新增的数据携带的标签，可根据新增数据标签和新增数据特征生成第一类样本集的新增数据。

S212，服务器分别获取第一类样本集的数量、第二类样本集的数量，并计算第一类样本集的数量和第二类样本集的数量之间的比例。

S214，服务器根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量。

具体地，服务器获取第一样本集的数量，也就是第一样本集中样本点的数量，并获取第二类样本集的数量，即第二样本集中样本点的数量，并计算第一样本集中样本点的数量和第二样本集中样本点的数量之间的比例，根据所计算得到的比例，调整新增数据的数量，以增加第一类样本集中样本点的数量，达到第一类样本集和第二类样本集之间的平衡状态。其中，服务器根据新增数据特征和新增数据标签生成第一类样本集的新增数据，也就是说，新增数据通过新增数据特征和新增数据标签生成。

比如，当服务器获取的第一样本集中样本点的数量为20，获取的第二样本集中样本点的数量为50，计算第一类样本集的数量和第二类样本集的数量之间的比例为2:5，根据获得的比例，调整新增数据的数量，以生成30单位的新增数据来实现第一类样本集和第二类样本集之间的平衡，同时，新增数据通过新增数据特征和新增数据标签生成。

上述不平衡样本数据预处理方法中，服务器根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。抽取K个第一样本点并进行特征分析，根据获得的第一类样本集的新增数据特征生成第一类样本集的新增数据标签。计算第一类样本集的数量和第二类样本集的数量之间的比例。通过根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量，可使得第一类样本集和第二类样本集的数量处于平衡状态，解决了样本不平衡的问题。

在一个实施例中，如图3所示，提供了一种对K个第一样本点进行特征分析，获得新增数据特征的步骤，包括：

S302，服务器提取K个第一样本点的特征。

S304，服务器对特征进行分析处理，获得特征属性。

具体地，服务器通过对K个第一样本点的特征进行提取，获得K个第一样本点的特征之后，对特征进行分析处理，获得特征的属性，特征的属性包括特征所属类别和特征的定义。其中，以K个第一样本点中的任意一个第一样本点为例，服务器提取该第一样本点的特征，对特征进行分析处理，获得相应的特征的属性，包括不同特征所属的类别，以及不同特征各自的定义。

S306，服务器根据特征属性分别对K个第一样本点进行特征提取，分别获取K个第一样本点的公共特征。

具体地，特征提取指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。服务器可通过特征提取，获得K个第一样本点各自的公共特征。通过对特征所属类别进行判断，并将不同第一样本点根据特征所属类别进行分类。服务器提取不同特征的定义，并根据特征的定义获取不同特征的交叉点，提取该交叉点，获得不同特征之间的公共特征。

S308，服务器根据公共特征形成对应的公共特征组合，并计算公共特征组合所包括的公共特征的数量。

S310，服务器将公共特征组合按照公共特征的数量进行排序，获取最大数量对应的公共特征组合。

具体地，服务器根据所获得的公共特征，形成对应的公共特征组合。计算不同公共特征组合所包括的公共特征的数量，将公共特征组合按照计算得到的公共特征的数量的大小进行排序，获取最大数量对应的公共特征组合。比如，不同公共特征组合包括的公共特征的数量为2、7、4、6、9，排序后得到的公共特征数量为9、7、6、4、2，获得的最大数量对应的公共特征组合，即为公共特征数量为9对应的公共特征组合。

S312，服务器根据最大数量对应的公共特征组合，生成新增数据特征。

具体地，服务器获取计算得到的最大数量对应的公共特征组合，并获取该公共特征组合包括的公共特征，将多个公共特征作为新增数据特征，新增数据特征为新增的第一类样本集包括的样本数据对应的特征。

上述对K个第一样本点进行特征分析，获得新增数据特征的步骤，服务器对K个第一样本点的特征，进行分析处理，获得特征属性，并根据特征属性分别对K个第一样本点进行特征提取，分别获取K个第一样本点的公共特征。根据公共特征形成对应的公共特征组合，并计算公共特征组合所包括的公共特征的数量，将公共特征组合按照公共特征的数量进行排序，获取最大数量对应的公共特征组合。根据最大数量对应的公共特征组合，生成新增数据特征，可使得生成的新增数据特征，最大程度包括第一类样本集对应的特征，保证新增数据与第一样本集中的样本点的相似程度。

在一个实施例中，提供了一种接收数据获取请求，并根据数据获取请求获取初始数据的步骤，包括：

服务器根据数据获取请求从数据库中获取原始数据；获取原始数据对应的数据类型；获取预设的数据类型和处理方式之间的对应关系；根据处理方式，对各数据类型对应的原始数据进行数据处理，获得初始数据。

具体地，不同原始数据对应不同的数据类型，数据类型包括数字型、字节型和文本型等，对应的原始数据包括数字型原始数据、字节型原始数据和文本型原始数据。服务器可根据预设的数据类型和原始数据之间的对应关系，获取原始数据对应的数据类型。不同数据类型对应不同的处理方式，数据类型包括包括数字型、字节型和文本型等，对应的处理方式为判断处理、赋值处理和声明处理。

针对数字型原始数据，执行判断处理，获取预设的取值范围，将预设的取值范围和数字型原始数据的取值进行比对，判断数字型原始数据的取值是否符合预设的取值范围，提取符合预设取值范围的数字型原始数据，生成数字型初始数据。

针对字节型原始数据，执行赋值处理，判断字节型原始数据的取值是否符合预设取值，当字节型原始数据的取值不符合预设取值时，将预设取值赋给对应的字节型原始数据，并根据被赋值后的字节型原始数据，生成字节型初始数据。

针对文本型原始数据，执行声明处理，获取文本型原始数据的组成成分，根据组成成分和预设组成成分进行比对，当文本型原始数据的组成成分与预设组成成分不一致时，将文本型原始数据声明为预设组成成分。

上述接收数据获取请求，并根据数据获取请求获取初始数据的步骤，通过按照数据类型对原始数据进行数据处理，按照不同数据类型有针对性地生成初始数据，提高了工作效率。

在一个实施例中，提供了一种根据预设的分类规则对初始数据进行分类，获得多个第一类样本集和第二类样本集的步骤，包括：

服务器根据初始数据对应的数据类型，得到各数据类型对应的样本集；计算样本集的初始数据的数据量；将各样本集的数据量与预设的数据量阈值进行比对，当数据量超出数据量阈值时，根据对应的样本集，得到第二类样本集；当数据量低于数据量阈值时，根据对应的样本集，得到第一类样本集。

具体地，服务器根据预设的初始数据和数据类型之间的对应关系，获取与初始数据对应的数据类型，并获取各数据类型对应的样本集。服务器计算样本集的初始数据对应的数据量，并分别将各样本集的数据量与预设的数据量阈值进行比对，判断各样本集的数据量是否超出预设的数据量阈值。当数据量超出数据量阈值时，表示数据量超出数据量阈值对的样本集为第二类样本集。当数据量未超出数据量阈值时，表示数据量未超出数据量阈值对的样本集为第一类样本集。

其中，数据类型包括数字型、字节型和文本型等，对应的样本集为数字型样本集、字节型样本集和文本型样本集。服务器可根据数字型初始数据获取对应的数字型数据类型，并获取对应的数字型样本集。同样地，服务器可分别根据字节型初始数据、文本型初始数据，获取对应的字节型数据类型以及文本型数据类型，进而获取对应的字节型样本集和文本型样本集。

进一步地，可将数据量阈值设置成100个，获得的各样本集的数据量分别为80个、95个、108个和120个，则其中数据量为80个和95个的样本集为第一类样本集，而数据量为108个和120个的样本集为第二类样本集。

上述根据预设的分类规则对初始数据进行分类，获得多个第一类样本集和第二类样本集的步骤，通过对样本集根据数据量多少进行预先分类，获得第一类样本集和第二类样本集，尽快获知需要新增数据的样本集，加快数据新增进程，提高工作效率。

在一个实施例中，提供了一种抽取第一类样本集中K个第一样本点的步骤，包括：

服务器从第一类样本集任意抽取一个样本集，得到第一样本集；分别计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离；将第一样本点按照距离进行排序，获取前K个第一样本点。

具体地，第一类样本集中包括多个第一类样本，第一类样本中包括多个第一样本点。服务器从第一类样本集任意抽取一个样本集，得到第一样本集。分别计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离，并将第一样本点按照距离的从小到大进行排序，获取前K个第一样本点。

上述抽取第一类样本集中K个第一样本点的步骤，通过计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离，并获取前K个距离对应的第一样本点，保证所提取的第一样本点为前K个距离最小的样本点，提高了样本点提取的精确度。

在一个实施例中，提供了一种抽取第一类样本集中K个第一样本点的步骤，还包括：

服务器分别计算第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离；将欧式距离按照从小到大的顺序进行排序；根据欧式距离的排序，获取与前K个欧氏距离对应的第一样本点。

具体地，欧氏距离表示在m维空间中两个点之间的真实距离，或者向量的自然长度，即该点到原点的距离。服务器通过将计算得到的欧氏距离按照从小到大的顺序排列，并获取排序前K个欧氏距离对应的第一样本点，即所获取的第一样本点为与前K个最小欧氏距离对应的样本点。

上述抽取第一类样本集中K个第一样本点的步骤，服务器分别计算第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离，并将欧式距离按照从小到大的顺序进行排序。根据欧式距离的排序，获取与前K个欧氏距离对应的第一样本点，进一步地保证所提取的第一样本点为前K个欧式距离最小的样本点，提高了样本点提取的精确度。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种不平衡样本数据预处理装置，包括：初始数据获取模块402、分类模块404、抽取模块406、新增数据特征获取模块408、新增数据标签生成模块410、比例计算模块412和新增数据生成模块414，其中：

初始数据获取模块402，用于接收数据获取请求，并根据数据获取请求获取初始数据。

分类模块404，用于根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。其中，第一类样本集中各样本集的样本数量少于数据量阈值，第二类样本集中各样本集的数量大于数据量阈值。

抽取模块406，用于抽取第一类样本集中的K个第一样本点。

新增数据特征获取模块408，用于对K个第一样本点进行特征分析，获得第一类样本集的新增数据特征。

新增数据标签生成模块410，用于获取第一类样本集对应的第一类标签，并根据第一类标签生成第一类样本集的新增数据标签。

比例计算模块412，用于分别获取第一类样本集的数量、第二类样本集的数量，并计算第一类样本集的数量和第二类样本集的数量之间的比例。

新增数据生成模块414，用于根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量。

上述不平衡样本数据预处理装置，服务器根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集。抽取K个第一样本点并进行特征分析，根据获得的第一类样本集的新增数据特征生成第一类样本集的新增数据标签。计算第一类样本集的数量和第二类样本集的数量之间的比例。通过根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量，可使得第一类样本集和第二类样本集的数量处于平衡状态，解决了样本不平衡的问题。

在一个实施例中，提供了一种初始数据获取模块，还用于：

根据数据获取请求从数据库中获取原始数据；获取原始数据对应的数据类型；获取预设的数据类型和处理方式之间的对应关系；根据处理方式，对各数据类型对应的原始数据进行数据处理，获得初始数据。

上述初始数据获取模块，通过按照数据类型对原始数据进行数据处理，按照不同数据类型有针对性地生成初始数据，提高了工作效率。

在一个实施例中，提供了一种分类模块，还用于：

根据初始数据对应的数据类型，得到各数据类型对应的样本集；计算样本集的初始数据的数据量；将各样本集的数据量与预设的数据量阈值进行比对，当数据量超出数据量阈值时，根据对应的样本集，得到第二类样本集；当数据量低于数据量阈值时，根据对应的样本集，得到第一类样本集。

上述分类模块，通过对样本集根据数据量多少进行预先分类，获得第一类样本集和第二类样本集，尽快获知需要新增数据的样本集，加快数据新增进程，提高工作效率。

在一个实施例中，提供了一种抽取模块，还用于：

从第一类样本集任意抽取一个样本集，得到第一样本集；分别计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离；将第一样本点按照距离进行排序，获取前K个第一样本点。

上述抽取模块，通过计算第一样本集中的全部第一样本点，至第一类样本集中其他样本集的各个样本点的距离，并获取前K个距离对应的第一样本点，保证所提取的第一样本点为前K个距离最小的样本点，提高了样本点提取的精确度。

在一个实施例中，提供了一种抽取模块，还用于：

分别计算第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离；将欧式距离按照从小到大的顺序进行排序；根据欧式距离的排序，获取与前K个欧氏距离对应的第一样本点。

上述抽取模块，服务器分别计算第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离，并将欧式距离按照从小到大的顺序进行排序。根据欧式距离的排序，获取与前K个欧氏距离对应的第一样本点，进一步地保证所提取的第一样本点为前K个欧式距离最小的样本点，提高了样本点提取的精确度。

在一个实施例中，提供了一种新增数据生成模块，还用于：

提取K个第一样本点的特征；对特征进行分析处理，获得特征属性；根据特征属性分别对K个第一样本点进行特征提取，分别获取K个第一样本点的公共特征；根据公共特征形成对应的公共特征组合，并计算公共特征组合所包括的公共特征的数量；将公共特征组合按照公共特征的数量进行排序，获取最大数量对应的公共特征组合；根据最大数量对应的公共特征组合，生成新增数据特征。

上述新增数据生成模块，服务器对K个第一样本点的特征，进行分析处理，获得特征属性，并根据特征属性分别对K个第一样本点进行特征提取，分别获取K个第一样本点的公共特征。根据公共特征形成对应的公共特征组合，并计算公共特征组合所包括的公共特征的数量，将公共特征组合按照公共特征的数量进行排序，获取最大数量对应的公共特征组合。根据最大数量对应的公共特征组合，生成新增数据特征，可使得生成的新增数据特征，最大程度包括第一类样本集对应的特征，保证新增数据与第一样本集中的样本点的相似程度。

关于不平衡样本数据预处理装置的具体限定可以参见上文中对于不平衡样本数据预处理方法的限定，在此不再赘述。上述不平衡样本数据预处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种不平衡样本数据预处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

接收数据获取请求，并根据数据获取请求获取初始数据；

根据预设的分类规则对初始数据进行分类，获得第一类样本集和第二类样本集，第一类样本集中各样本集的样本数量少于数据量阈值；第二类样本集中各样本集的数量大于数据量阈值；

抽取第一类样本集中的K个第一样本点；

对K个第一样本点进行特征分析，获得第一类样本集的新增数据特征；

获取第一类样本集对应的第一类标签，并根据第一类标签生成第一类样本集的新增数据标签；

分别获取第一类样本集的数量、第二类样本集的数量，并计算第一类样本集的数量和第二类样本集的数量之间的比例；

根据新增数据特征和新增数据标签生成第一类样本集的新增数据，并按照比例调整新增数据的数量，以增加第一类样本集的数量。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收数据获取请求，并根据数据获取请求获取初始数据；

抽取第一类样本集中的K个第一样本点；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种不平衡样本数据预处理方法，所述方法包括：

分别计算所述第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离，并将所述欧式距离按照从小到大的顺序进行排序；

根据所述欧式距离的排序，获取与前K个欧氏距离对应的第一样本点；

提取K个所述第一样本点的特征，并对所述特征进行分析处理，获得特征属性；

根据所述最大数量对应的公共特征组合，生成新增数据特征；

2.根据权利要求1所述的方法，其特征在于，所述接收数据获取请求，并根据所述数据获取请求获取初始数据，包括：

根据所述数据获取请求从数据库中获取原始数据；

获取所述原始数据对应的数据类型；

获取预设的数据类型和处理方式之间的对应关系；

3.根据权利要求1所述的方法，其特征在于，所述根据预设的分类规则对所述初始数据进行分类，获得多个第一类样本集和第二类样本集，包括：

计算与所述样本集的初始数据的数据量；

4.根据权利要求2所述的方法，其特征在于，所述数据获取请求为建模数据获取请求；所述接收数据获取请求，并根据所述数据获取请求获取初始数据，还包括：

接收所述建模数据获取请求，并提取所述建模数据获取请求携带的建模数据标识；

获取预设的建模数据标识和初始数据之间的对应关系，并根据所述预设的建模数据标识和初始数据之间的对应关系，获取与所述建模数据标识对应的初始数据。

5.根据权利要求1所述的方法，其特征在于，所述获取第一类样本集对应的第一类标签，并根据所述第一类标签生成所述第一类样本集的新增数据标签，包括：

获取所述第一类样本集中各第一类样本；

根据所述第一类样本和第一类标签之间的对应关系，分别获取与各所述第一类样本对应的第一类标签；

根据所获得的各所述第一类标签生成所述第一类样本集的新增数据标签。

6.一种不平衡样本数据预处理装置，其特征在于，所述装置包括：

抽取模块，用于从所述第一类样本集任意抽取一个样本集，得到第一样本集，分别计算所述第一样本集中的全部第一样本点，至第一类样本集中各个样本点之间的欧氏距离，并将所述欧式距离按照从小到大的顺序进行排序，根据所述欧式距离的排序，获取与前K个欧氏距离对应的第一样本点；

新增数据特征获取模块，用于提取K个所述第一样本点的特征，并对所述特征进行分析处理，获得特征属性，根据所述特征属性分别对K个所述第一样本点进行特征提取，分别获取K个所述第一样本点的公共特征，根据所述公共特征形成对应的公共特征组合，并计算所述公共特征组合所包括的公共特征的数量，将所述公共特征组合按照所述公共特征的数量进行排序，获取最大数量对应的公共特征组合，根据所述最大数量对应的公共特征组合，生成新增数据特征；

7.根据权利要求6所述的装置，其特征在于，所述初始数据获取模块，还用于：

8.根据权利要求6所述的装置，其特征在于，所述分类模块，还用于：

根据所述初始数据对应的数据类型，得到各数据类型对应的样本集；计算与所述样本集的初始数据的数据量；将各样本集的所述数据量与预设的数据量阈值进行比对，当数据量超出所述数据量阈值时，根据对应的样本集，得到第二类样本集；当所述数据量低于所述数据量阈值时，根据对应的样本集，得到第一类样本集。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。