CN114612914A

CN114612914A - 一种多标签不平衡数据分类的机器学习方法及***

Info

Publication number: CN114612914A
Application number: CN202210309385.4A
Authority: CN
Inventors: 段继聪; 于化龙; 段宝敏; 姜元昊
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-10

Abstract

本发明提供一种多标签不平衡数据分类的机器学***衡数据分类的机器学***衡数据；融合进化计算方法，给出了多标签数据集的种群均衡适应度的计算方法，并据此在高维复叠空间中依据标签平均不平衡率IRLbl(P)的变化情况实现动态降采样操作；将多标签问题转化为传统分类问题，使传统的分类器以二重高阶策略的方式直接参与到多标签分类中来。本发明可使传统的多类分类器以考虑标签关系的方式直接参与到多标签不平衡分类中来，并有效提升算法的多标签评估指标F‑measure的值。

Description

一种多标签不平衡数据分类的机器学习方法及***

技术领域

本发明涉及人工智能-机器学***衡数据分类的机器学习方法及***。

背景技术

随着人工智能技术的发展，机器学***衡分布，导致多标签算法预测精度不高、鲁棒性差，为了提升算法整体的预测精度和鲁棒性，需要让多标签分类算法采用考虑标签间关系的高阶策略，以及具备处理不平衡数据的能力等设计都在***的统一调配下紧密配合、共同协作。

综上所述，现代机器学习多标签分类算法的设计对于标签间关系的考虑、高阶策略的选取、精度和鲁棒性的提升尚缺乏有效的解决办法。

因此，有必要提供一种多标签不平衡数据分类的机器学习方法及***的构建方法及***以解决上述技术问题。

发明内容

本发明的目的在于一种多标签不平衡数据分类的机器学习方法及***，以解决现有技术中导致缺陷。

为达到上述目的，本发明是采用下述技术方案实现的：一种多标签不平衡数据分类的机器学习方法，包括以下步骤，

S1：根据多标签数据集的特点进行多次迭代，最终扩散至标签数据集的特征中；

S2:根据多标签数据集的种群均衡适应度进行动态降采样操作；

S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇，同时在聚类之前记录标签序号；

S4:控制各标签类簇的最大规模，所有类簇都满足不超过3个标签的条件；

S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集；

S6:调用传统的多类不平衡分类器，对转化得来的多类数据集进行分别学习和预测，得到预测的多类分类结果；

S7:将预测的多类分类结果重新转换为多标签分布结果，经转换还原原标签集顺序；

S8:利用Macro-F1和Micro-F1指标评价预测结果。在计算Macro-F和Micro-F值之前，按照如下公式计算准确率Precision和召回率Recall：

其中，TP、True Positive真阳性：预测为正，实际也为正FP、False Positive假阳性：预测为正，实际为负FN、False Negative假阴性：预测与负、实际为正TN、True Negative真阴性：预测为负、实际也为负。

所述S4为：当标签的类簇超过3个，对类簇进行多次聚类，重新拆分为多个类簇，直至所得的全部类簇规模都不超过3个标签。

所述S6中传统的多类分类器应满足要求为：所选择的多类分类器在处理有不平衡问题时，能有效地对至少5类分类问题进行有效区分；所选择的多类分类器，处理上述任务时，所需时间尽量少，算法时间复杂度低于O(n3)。

所述S1包括以下步骤：

S1-1：利用LDA主题模型扩展多标签数据的特征集为目标，预先设置迭代次数i，设置主题个数K＝2，设置主题个数为2的原因是保证得出的主题分布为二进制分布；

S1-2：对于多标签数据集，将每个实例视为一个文档，将每个标签视为文档中的一个单词，确定狄利克雷分布参数，然后将其引入LDA主题模型中；

S1-3：依据LDA主题模型计算法则，计算出实例-主题概率分布矩阵，该矩阵表示每个实例属于每个主题的概率值，依据概率值生成二进制离散矩阵，以确定每个实例的主题所属；

S1-4：训练数据集与测试数据集有相同的主题概率分布，因此首先提取训练集特征，以S1-3中的离散矩阵为结果，合并成为一个新的多标签数据集，然后利用传统的多类分类器学习并预测对应测试集的离散矩阵；

S1-5：用步骤S1-3中的离散化矩阵扩充原始的训练集特征空间，用S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间，检查是否完成迭代，若未完成，则转S1-4，否则结束。

所述S2中动态降采样操作具体包括以下步骤：

S2-1：计算多标签数据集的种群均衡适应度的值。此时，按进化计算领域的标准处理方法，将数据集中每个样本作为一个个体处理，并将这些个体共同构成一个种群；

S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中，将种群中所包含的共的N_P个个体同时置入连通网N中，此时形成一个有N_P个顶点的连通网N＝{V,E}；此时，该连通网形成了仅有N_P个顶点、且边集此时为空集的非连通图T＝{V,E}，其中V表示点集，E表示边集；

S2-3：根据克鲁斯卡尔原则，每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体，此时，若将这两个个体连通，***的连通分量不减少的，则撤销这次操作，并将该操作记入连通禁忌表，不再允许这两个个体被连接。若将这两个个体连通，***的连通分量减少的，转S2-4；若已经不存在可以执行本操作的符合要求的个体时，转步骤S2-5；其中，复叠空间距离按下式计算：

其中，D_C为复叠空间距离，D_L(p,q)、D_F(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离；

S2-4：将S2-3中所传入的两个个体标记为连通；此时，该非连通图T＝{V,E}同步更新，***的连通分量也随该操作减少；若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体，将该个体记入连通禁忌表中，不再允许改个体与任意其他个体连接；完成后，转步骤S2-3；

S2-5：计算此时的连通分量。将每个相互连通的个体作为一个个体组合处理，选取一个包含个体数量最多的个体组合，再从该个体组合中选取一条长度最短的边，对于该边的两个顶点上的个体，将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度；对于总长度较小的个体，将其从种群中删除，以实现单次降采样操作；当总长度值相同时，从种群中同时删除这两个个体；

S2-6：利用标准IRLbl的计算方法，计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值；当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时，返回S2-1，否则结束。

所述S2-1中种群均衡适应度的算法如下：

在种群均衡适应度计算公式中，EF_P为种群P的种群均衡适应度，EF_L、EF_F分别为种群标签均衡适应度及种群特征均衡适应度，N_L、N_F分别为种群中所包含的标签数量及种群中所包含的特征的维度，其中L和F分别表示种群中所包含的标签的集合及特征的集合，c₁、c₂为两个常数系数，

为种群中含有第i个标签的个体的数量，

种群中第j个特征值不为0的个体的数量。

所述S1-2中依据狄利克雷参数，对各文档中主题先验分布和对各主题中词分布的确定，根据如下公式确定：

在上式中，N为数据集中的实例个数，K为主题个数，θ为文档中主题的先验分布，类比至多标签数据集，即为数据集实例中主题的分布，φ为主题中词的分布，类比至多标签数据集，即为主题中标签的分布。

所述S3中包括以下步骤：

S3-1：根据数据集的标签分布情况，将每个标签视为一个聚类元素，将每个实例视为标签特征的一维，作为一个计算Jaccard相似度的数据集，并记录标签顺序；

S3-2：以Jaccard相似度为评测标准，计算所有标签之间的Jaccard相似度，然后根据计算结果进行层次聚类，用A,B分别代表两个标签的实例分布情况，此时，根据如下公式计算各标签之间的Jaccard相似度：

其中A,B分别代表两个标签的实例分布情况；

S3-3：将聚类结果形成类簇，从而实现利用类簇的形式对聚类结果进行结构性存储，便于对聚类结果进行进一步地处理。

所述S5中多标签分布与多分类分布的转换过程包括：当所得的全部类簇规模都不超过3个标签时，则所有类簇中的多标签分布最多不超过8种，对应的多类别分布即为8类，即2³。此外，每个类簇中的标签个数可能不同，因此在训练多类分类器之前，应当令多标签分布唯一对应多类别分布，其对应规则应如下表所示：

当各类簇中的多标签分布转换为多分类分布后，令LDA主题模型扩展后的多标签数据特征集分别与类簇合并组合为新的多类数据集，其组合后的个数与类簇数相同。

此外本发明还公开了一种多标签不平衡分类机器学***衡数据分类的机器学习方法。

根据上述技术方案，本发明具有以下有益效果：本发明提供了特征型、标签型的二重高阶策略，为考虑标签间关系提供了方法指导，LDA主题模型作为一重高阶策略从标签关系角度出发将标签的内在联系扩展至数据特征集中，聚类在不影响前者扩展的基础上将有关系的标签联合考虑。此外，类簇的形成从一定程度上限制了标签的分布规模，类簇的转换，使得传统的多类分类器通过考虑标签之间的关系直接参与多标签学习来，而无需对算法进行复杂的修改。经过实验，本发明是稳健、灵活和高效的。它不仅具有增强传统算法的能力，而且性能优于现有算法。

附图说明

图1为本发明提供的多标签不平衡数据分类的机器学习方法具体流程图。

图2为本发明提供的LDA主题模型在多标签数据集上应用的示意图。

图3为本发明提供的LDA工作流程示意图。

图4为本发明提供的层次聚类对标签集聚类产生的聚类树示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

请结合参阅图1、图2和图3，其中，图1为本发明的基于二重高阶策略及进化计算采样方法的多标签不平衡数据分类的机器学习的构建方法和***的方法流程图；图2为本发明提供的第一重高阶策略方法，LDA主题模型在多标签集上的使用示意图；图3为本发明提供的第二重高阶策略方法，对标签集层次聚类后所得的聚类树。

如图1所示，一种多标签不平衡数据分类的机器学习的构建方法，该方法包括：

步骤S1：根据多标签数据集的特点，使用LDA主题模型计算出每个实例应属的主题，将LDA主题模型计算出来的二进制主题表示，并进行多次迭代，然后将迭代后的主题分布扩展到多标签数据集的特征中；

在使用LDA主题模型扩展多标签数据的特征集之前应预先设置迭代次数i，设置主题个数K＝2，设置主题个数为2的原因是保证得出的主题分布为二进制分布；

步骤S1-2：对于多标签数据集，将每个实例视为一个文档，将每个标签视为文档中的一个单词，确定狄利克雷分布参数，然后将其引入如图2所示的LDA主题模型中；

如图3所示，为了满足LDA主题模型的初始计算条件，依据狄利克雷参数，对各文档中主题先验分布和对各主题中词分布的确定，根据如下公式确定：

在上式中，N为数据集中的实例个数，K为主题个数。

θ文档中主题的先验分布，类比至多标签数据集，即为数据集实例中主题的分布；

φ主题中词的分布，类比至多标签数据集，即为主题中标签的分布。

步骤S1-3：依据LDA主题模型计算法则，计算出实例-主题概率分布矩阵，该矩阵表示每个实例属于每个主题的概率值，依据概率值生成二进制离散矩阵，以确定每个实例的主题所属；

步骤S1-4：训练数据集与测试数据集有相同的主题概率分布，因此首先提取训练集特征，以步骤2-3中的离散矩阵为结果，合并成为一个新的多标签数据集，然后利用传统的多类分类器学习并预测对应测试集的离散矩阵；

步骤S1-5：用步骤S1-3中的离散化矩阵扩充原始的训练集特征空间，用步骤S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间，检查是否完成迭代，若未完成，则转步骤S1-4，否则结束。

步骤S2：为了满足实现以动态降采样操作解决多标签数据集中类不平衡问题的，所述步骤S2还包括：

步骤S2-1：计算多标签数据集的种群均衡适应度的值。此时，按进化计算领域的标准处理方法，将数据集中每个样本作为一个个体处理，并将这些个体共同构成一个种群。为了计算多标签数据集的种群均衡适应度的值，应根据如下公式计算多标签数据集的种群均衡适应度：

在种群均衡适应度计算公式中，EF_P为种群P的种群均衡适应度，EF_L、EF_F分别为种群标签均衡适应度及种群特征均衡适应度，N_L、N_F分别为种群中所包含的标签数量及种群中所包含的特征的维度，其中L和F分别表示种群中所包含的标签的集合及特征的集合，c₁、c₂为两个常数系数。

为种群中含有第i个标签的个体的数量，

种群中第j个特征值不为0的个体的数量；

步骤S2-2：将每个个体同时映射到高维标签空间及高维特征标签空间中，将种群中所包含的共的N_P个个体同时置入连通网N中，此时形成一个有N_P个顶点的连通网N＝{V,E}。此时，该连通网形成了仅有N_P个顶点、且边集此时为空集的非连通图T＝{V,E}，其中V表示点集，E表示边集；

步骤S2-3：根据克鲁斯卡尔原则，每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体。此时，若将这两个个体连通，***的连通分量不减少的，则撤销这次操作，并将该操作记入连通禁忌表，不再允许这两个个体被连接。若将这两个个体连通，***的连通分量减少的，转步骤3-4。若已经不存在可以执行本操作的符合要求的个体时，转步骤3-5。其中，复叠空间距离按下式计算：

步骤S2-4：将步骤S2-3所传入的两个个体标记为连通。此时，该非连通图T＝{V,E}同步更新，***的连通分量也随该操作减少。若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体，将该个体记入连通禁忌表中，不再允许改个体与任意其他个体连接。完成后，转步骤S2-3；

步骤S2-5：计算此时的连通分量。将每个相互连通的个体作为一个个体组合处理，选取一个包含个体数量最多的个体组合，再从该个体组合中选取一条长度最短的边，对于该边的两个顶点上的个体，将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度。对于总长度较小的个体，将其从种群中删除，以实现单次降采样操作。当总长度值相同时，从种群中同时删除这两个个体；

步骤S2-6：利用标准IRLbl的计算方法，计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值。当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时，返回步骤S2-1，否则结束。

步骤S3：根据多标签数据集的标签分布情况，为了衡量标签之间的差异性，以每个标签隶属每个实例的二进制分布为特征，以Jaccard相似度为衡量标准，根据如下公式计算各标签之间的Jaccard相似度：

其中A,B分别代表两个标签的实例分布情况；

如图4所示，得出标签聚类结果，形成标签类簇，在聚类之前记录标签序号；为了使用层次聚类算法挖掘和学习标签中潜在的关系，所述步骤S2还包括：

步骤S3-1：根据数据集的标签分布情况，将每个标签视为一个聚类元素，将每个实例视为标签特征的一维，作为一个计算Jaccard相似度的数据集，并记录标签顺序；

步骤S3-2：以Jaccard相似度为评测标准，计算所有标签之间的Jaccard相似度，然后根据计算结果进行层次聚类；

步骤S3-3：将聚类结果形成类簇并存储。

步骤S4：控制各标签类簇的最大规模，对于超过3个标签的类簇，进行多次聚类，重新拆分为多个类簇，直至所得的全部类簇规模都不超过3个标签；在处理的过程中，拆分的方法为将这些类簇全部进行重聚类。并且，重聚类完成后，应将聚出的新类簇替代原类簇。还原完毕后重新检查各类簇规模，观察是否仍存在超过3个标签的类簇，如果有则再次重聚类，直至所有类簇都满足不超过3个标签的条件为止；

步骤S5：将所有类簇中的多标签分布转化为多类别分布，每个类簇转化的类别最多不超过8类，即2³。然后将LDA主题模型扩展后的特征集分别与转化后的多类别组合，转化为多个多分类数据集；

所述步骤S5多标签分布与多分类分布的转换过程中，还包括：当所得的全部类簇规模都不超过3个标签时，则所有类簇中的多标签分布最多不超过8种，对应的多类别分布即为8类，即2³。此外，每个类簇中的标签个数可能不同，因此在训练多类分类器之前，应当令多标签分布唯一对应多类别分布。其对应规则应如下表所示：

步骤S6：调用传统的多类不平衡分类器，对转化得来的多类数据集进行分别学***衡分类器前，其类型要求还包括：类簇中限定的标签数量，缩小了标签分布规模，但缩小后的标签分布仍呈现不平衡的情形，且时间复杂度也小许升高。依据转后的数据集特点，所选择的传统的多类分类器应满足：有不平衡问题处理能力、所需时间尽量少的要求；

步骤S7：将预测的多类分类结果重新转换为多标签分布结果，并恢复至原标签顺序；在传统的多类分类器预测出多类结果后，将各多类分类结果转换回多标签分布，其转换过程即为S4的逆过程。在转换完成后，合并各类簇的转换结果，并还原回原标签集顺序。

步骤S8：为了计算Macro-F和Micro-F值，所需计算的值还包括：按照如下公式计算准确率Precision和召回率Recall：

其中，TP、True Positive真阳性：预测为正，实际也为正FP、False Positive假阳性：预测为正，实际为负FN、False Negative假阴性：预测与负、实际为正TN、True Negative真阴性：预测为负、实际也为负。最后利用Macro-F1和Micro-F1指标评价预测结果。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种多标签不平衡数据分类的机器学习方法，其特征是，包括以下步骤，

S8:利用Macro-F1和Micro-F1指标评价预测结果，在计算Macro-F和Micro-F值之前，按照如下公式计算准确率Precision和召回率Recall：

2.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S4为：当标签的类簇超过3个，对类簇进行多次聚类，重新拆分为多个类簇，直至所得的全部类簇规模都不超过3个标签。

3.根据权利要求1或2所述的一种多标签不平衡数据分类的机器学***衡问题时，能有效地对至少5类分类问题进行有效区分；所选择的多类分类器，处理上述任务时，所需时间尽量少，算法时间复杂度低于O(n3)。

4.根据权利要求3所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S1包括以下步骤：

S1-5：用S1-3中的离散化矩阵扩充原始的训练集特征空间，用S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间，检查是否完成迭代，若未完成，则转S1-4，否则结束。

5.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S2中动态降采样操作具体包括以下步骤：

S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中，将种群中所包含的共的N_P个个体同时置入连通网N中，此时形成一个有N_P个顶点的连通网N＝{V,E}，此时，该连通网形成了仅有N_P个顶点、且边集此时为空集的非连通图T＝{V,E}，其中V表示点集，E表示边集；

S2-3：根据克鲁斯卡尔原则，每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体。此时，若将这两个个体连通，***的连通分量不减少的，则撤销这次操作，并将该操作记入连通禁忌表，不再允许这两个个体被连接。若将这两个个体连通，***的连通分量减少的，转S2-4；若已经不存在可以执行本操作的符合要求的个体时，转S2-5；其中，复叠空间距离按下式计算：

S2-4：将S2-3中所传入的两个个体标记为连通，此时，该非连通图T＝{V,E}同步更新，***的连通分量也随该操作减少，若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体，将该个体记入连通禁忌表中，不再允许改个体与任意其他个体连接，完成后，转S2-3；

S2-5：计算此时的连通分量，将每个相互连通的个体作为一个个体组合处理，选取一个包含个体数量最多的个体组合，再从该个体组合中选取一条长度最短的边，对于该边的两个顶点上的个体，将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度；对于总长度较小的个体，将其从种群中删除，以实现单次降采样操作，当总长度值相同时，从种群中同时删除这两个个体；

S2-6：利用标准IRLbl的计算方法，计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值，当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时，返回S2-1，否则结束。

6.根据权利要求5所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S2-1中种群均衡适应度的算法如下：

为种群中含有第i个标签的个体的数量，

种群中第j个特征值不为0的个体的数量。

7.根据权利要求4所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S1-2中依据狄利克雷参数，对各文档中主题先验分布和对各主题中词分布的确定，根据如下公式确定：

8.根据权利要求6所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S3中包括以下步骤：

其中A,B分别代表两个标签的实例分布情况；

S3-3：将聚类结果形成类簇，从而实现：利用类簇的形式对聚类结果进行结构性存储，便于对聚类结果进行进一步地处理。

9.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法，其特征是，所述S5中多标签分布与多分类分布的转换过程包括：当所得的全部类簇规模都不超过3个标签时，则所有类簇中的多标签分布最多不超过8种，对应的多类别分布即为8类，即2³；此外，每个类簇中的标签个数可能不同，因此在训练多类分类器之前，应当令多标签分布唯一对应多类别分布，其对应规则应如下表所示：

10.一种多标签不平衡分类机器学***衡数据分类的机器学习方法。