CN114612914A - 一种多标签不平衡数据分类的机器学习方法及*** - Google Patents

一种多标签不平衡数据分类的机器学习方法及*** Download PDF

Info

Publication number
CN114612914A
CN114612914A CN202210309385.4A CN202210309385A CN114612914A CN 114612914 A CN114612914 A CN 114612914A CN 202210309385 A CN202210309385 A CN 202210309385A CN 114612914 A CN114612914 A CN 114612914A
Authority
CN
China
Prior art keywords
label
distribution
population
class
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210309385.4A
Other languages
English (en)
Inventor
段继聪
于化龙
段宝敏
姜元昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210309385.4A priority Critical patent/CN114612914A/zh
Publication of CN114612914A publication Critical patent/CN114612914A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种多标签不平衡数据分类的机器学***衡数据分类的机器学***衡数据;融合进化计算方法,给出了多标签数据集的种群均衡适应度的计算方法,并据此在高维复叠空间中依据标签平均不平衡率IRLbl(P)的变化情况实现动态降采样操作;将多标签问题转化为传统分类问题,使传统的分类器以二重高阶策略的方式直接参与到多标签分类中来。本发明可使传统的多类分类器以考虑标签关系的方式直接参与到多标签不平衡分类中来,并有效提升算法的多标签评估指标F‑measure的值。

Description

一种多标签不平衡数据分类的机器学习方法及***
技术领域
本发明涉及人工智能-机器学***衡数据分类的机器学习方法及***。
背景技术
随着人工智能技术的发展,机器学***衡分布,导致多标签算法预测精度不高、鲁棒性差,为了提升算法整体的预测精度和鲁棒性,需要让多标签分类算法采用考虑标签间关系的高阶策略,以及具备处理不平衡数据的能力等设计都在***的统一调配下紧密配合、共同协作。
综上所述,现代机器学习多标签分类算法的设计对于标签间关系的考虑、高阶策略的选取、精度和鲁棒性的提升尚缺乏有效的解决办法。
因此,有必要提供一种多标签不平衡数据分类的机器学习方法及***的构建方法及***以解决上述技术问题。
发明内容
本发明的目的在于一种多标签不平衡数据分类的机器学习方法及***,以解决现有技术中导致缺陷。
为达到上述目的,本发明是采用下述技术方案实现的:一种多标签不平衡数据分类的机器学习方法,包括以下步骤,
S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;
S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;
S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;
S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;
S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;
S6:调用传统的多类不平衡分类器,对转化得来的多类数据集进行分别学习和预测,得到预测的多类分类结果;
S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;
S8:利用Macro-F1和Micro-F1指标评价预测结果。在计算Macro-F和Micro-F值之前,按照如下公式计算准确率Precision和召回率Recall:
Figure BDA0003565987430000021
其中,TP、True Positive真阳性:预测为正,实际也为正FP、False Positive假阳性:预测为正,实际为负FN、False Negative假阴性:预测与负、实际为正TN、True Negative真阴性:预测为负、实际也为负。
所述S4为:当标签的类簇超过3个,对类簇进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签。
所述S6中传统的多类分类器应满足要求为:所选择的多类分类器在处理有不平衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理上述任务时,所需时间尽量少,算法时间复杂度低于O(n3)。
所述S1包括以下步骤:
S1-1:利用LDA主题模型扩展多标签数据的特征集为目标,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;
S1-2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;
S1-3:依据LDA主题模型计算法则,计算出实例-主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;
S1-4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1-3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;
S1-5:用步骤S1-3中的离散化矩阵扩充原始的训练集特征空间,用S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1-4,否则结束。
所述S2中动态降采样操作具体包括以下步骤:
S2-1:计算多标签数据集的种群均衡适应度的值。此时,按进化计算领域的标准处理方法,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;
S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的共的NP个个体同时置入连通网N中,此时形成一个有NP个顶点的连通网N={V,E};此时,该连通网形成了仅有NP个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;
S2-3:根据克鲁斯卡尔原则,每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体,此时,若将这两个个体连通,***的连通分量不减少的,则撤销这次操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接。若将这两个个体连通,***的连通分量减少的,转S2-4;若已经不存在可以执行本操作的符合要求的个体时,转步骤S2-5;其中,复叠空间距离按下式计算:
Figure BDA0003565987430000031
其中,DC为复叠空间距离,DL(p,q)、DF(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;
S2-4:将S2-3中所传入的两个个体标记为连通;此时,该非连通图T={V,E}同步更新,***的连通分量也随该操作减少;若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体,将该个体记入连通禁忌表中,不再允许改个体与任意其他个体连接;完成后,转步骤S2-3;
S2-5:计算此时的连通分量。将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度;对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作;当总长度值相同时,从种群中同时删除这两个个体;
S2-6:利用标准IRLbl的计算方法,计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值;当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时,返回S2-1,否则结束。
所述S2-1中种群均衡适应度的算法如下:
Figure BDA0003565987430000041
在种群均衡适应度计算公式中,EFP为种群P的种群均衡适应度,EFL、EFF分别为种群标签均衡适应度及种群特征均衡适应度,NL、NF分别为种群中所包含的标签数量及种群中所包含的特征的维度,其中L和F分别表示种群中所包含的标签的集合及特征的集合,c1、c2为两个常数系数,
Figure BDA0003565987430000042
为种群中含有第i个标签的个体的数量,
Figure BDA0003565987430000043
种群中第j个特征值不为0的个体的数量。
所述S1-2中依据狄利克雷参数,对各文档中主题先验分布和对各主题中词分布的确定,根据如下公式确定:
Figure BDA0003565987430000044
在上式中,N为数据集中的实例个数,K为主题个数,θ为文档中主题的先验分布,类比至多标签数据集,即为数据集实例中主题的分布,φ为主题中词的分布,类比至多标签数据集,即为主题中标签的分布。
所述S3中包括以下步骤:
S3-1:根据数据集的标签分布情况,将每个标签视为一个聚类元素,将每个实例视为标签特征的一维,作为一个计算Jaccard相似度的数据集,并记录标签顺序;
S3-2:以Jaccard相似度为评测标准,计算所有标签之间的Jaccard相似度,然后根据计算结果进行层次聚类,用A,B分别代表两个标签的实例分布情况,此时,根据如下公式计算各标签之间的Jaccard相似度:
Figure BDA0003565987430000051
其中A,B分别代表两个标签的实例分布情况;
S3-3:将聚类结果形成类簇,从而实现利用类簇的形式对聚类结果进行结构性存储,便于对聚类结果进行进一步地处理。
所述S5中多标签分布与多分类分布的转换过程包括:当所得的全部类簇规模都不超过3个标签时,则所有类簇中的多标签分布最多不超过8种,对应的多类别分布即为8类,即23。此外,每个类簇中的标签个数可能不同,因此在训练多类分类器之前,应当令多标签分布唯一对应多类别分布,其对应规则应如下表所示:
Figure BDA0003565987430000052
当各类簇中的多标签分布转换为多分类分布后,令LDA主题模型扩展后的多标签数据特征集分别与类簇合并组合为新的多类数据集,其组合后的个数与类簇数相同。
此外本发明还公开了一种多标签不平衡分类机器学***衡数据分类的机器学习方法。
根据上述技术方案,本发明具有以下有益效果:本发明提供了特征型、标签型的二重高阶策略,为考虑标签间关系提供了方法指导,LDA主题模型作为一重高阶策略从标签关系角度出发将标签的内在联系扩展至数据特征集中,聚类在不影响前者扩展的基础上将有关系的标签联合考虑。此外,类簇的形成从一定程度上限制了标签的分布规模,类簇的转换,使得传统的多类分类器通过考虑标签之间的关系直接参与多标签学习来,而无需对算法进行复杂的修改。经过实验,本发明是稳健、灵活和高效的。它不仅具有增强传统算法的能力,而且性能优于现有算法。
附图说明
图1为本发明提供的多标签不平衡数据分类的机器学习方法具体流程图。
图2为本发明提供的LDA主题模型在多标签数据集上应用的示意图。
图3为本发明提供的LDA工作流程示意图。
图4为本发明提供的层次聚类对标签集聚类产生的聚类树示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
请结合参阅图1、图2和图3,其中,图1为本发明的基于二重高阶策略及进化计算采样方法的多标签不平衡数据分类的机器学习的构建方法和***的方法流程图;图2为本发明提供的第一重高阶策略方法,LDA主题模型在多标签集上的使用示意图;图3为本发明提供的第二重高阶策略方法,对标签集层次聚类后所得的聚类树。
如图1所示,一种多标签不平衡数据分类的机器学习的构建方法,该方法包括:
步骤S1:根据多标签数据集的特点,使用LDA主题模型计算出每个实例应属的主题,将LDA主题模型计算出来的二进制主题表示,并进行多次迭代,然后将迭代后的主题分布扩展到多标签数据集的特征中;
在使用LDA主题模型扩展多标签数据的特征集之前应预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;
步骤S1-2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入如图2所示的LDA主题模型中;
如图3所示,为了满足LDA主题模型的初始计算条件,依据狄利克雷参数,对各文档中主题先验分布和对各主题中词分布的确定,根据如下公式确定:
Figure BDA0003565987430000071
在上式中,N为数据集中的实例个数,K为主题个数。
θ文档中主题的先验分布,类比至多标签数据集,即为数据集实例中主题的分布;
φ主题中词的分布,类比至多标签数据集,即为主题中标签的分布。
步骤S1-3:依据LDA主题模型计算法则,计算出实例-主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;
步骤S1-4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以步骤2-3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;
步骤S1-5:用步骤S1-3中的离散化矩阵扩充原始的训练集特征空间,用步骤S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转步骤S1-4,否则结束。
步骤S2:为了满足实现以动态降采样操作解决多标签数据集中类不平衡问题的,所述步骤S2还包括:
步骤S2-1:计算多标签数据集的种群均衡适应度的值。此时,按进化计算领域的标准处理方法,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群。为了计算多标签数据集的种群均衡适应度的值,应根据如下公式计算多标签数据集的种群均衡适应度:
Figure BDA0003565987430000072
在种群均衡适应度计算公式中,EFP为种群P的种群均衡适应度,EFL、EFF分别为种群标签均衡适应度及种群特征均衡适应度,NL、NF分别为种群中所包含的标签数量及种群中所包含的特征的维度,其中L和F分别表示种群中所包含的标签的集合及特征的集合,c1、c2为两个常数系数。
Figure BDA0003565987430000081
为种群中含有第i个标签的个体的数量,
Figure BDA0003565987430000082
种群中第j个特征值不为0的个体的数量;
步骤S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的共的NP个个体同时置入连通网N中,此时形成一个有NP个顶点的连通网N={V,E}。此时,该连通网形成了仅有NP个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;
步骤S2-3:根据克鲁斯卡尔原则,每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体。此时,若将这两个个体连通,***的连通分量不减少的,则撤销这次操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接。若将这两个个体连通,***的连通分量减少的,转步骤3-4。若已经不存在可以执行本操作的符合要求的个体时,转步骤3-5。其中,复叠空间距离按下式计算:
Figure BDA0003565987430000083
其中,DC为复叠空间距离,DL(p,q)、DF(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;
步骤S2-4:将步骤S2-3所传入的两个个体标记为连通。此时,该非连通图T={V,E}同步更新,***的连通分量也随该操作减少。若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体,将该个体记入连通禁忌表中,不再允许改个体与任意其他个体连接。完成后,转步骤S2-3;
步骤S2-5:计算此时的连通分量。将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度。对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作。当总长度值相同时,从种群中同时删除这两个个体;
步骤S2-6:利用标准IRLbl的计算方法,计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值。当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时,返回步骤S2-1,否则结束。
步骤S3:根据多标签数据集的标签分布情况,为了衡量标签之间的差异性,以每个标签隶属每个实例的二进制分布为特征,以Jaccard相似度为衡量标准,根据如下公式计算各标签之间的Jaccard相似度:
Figure BDA0003565987430000091
其中A,B分别代表两个标签的实例分布情况;
如图4所示,得出标签聚类结果,形成标签类簇,在聚类之前记录标签序号;为了使用层次聚类算法挖掘和学习标签中潜在的关系,所述步骤S2还包括:
步骤S3-1:根据数据集的标签分布情况,将每个标签视为一个聚类元素,将每个实例视为标签特征的一维,作为一个计算Jaccard相似度的数据集,并记录标签顺序;
步骤S3-2:以Jaccard相似度为评测标准,计算所有标签之间的Jaccard相似度,然后根据计算结果进行层次聚类;
步骤S3-3:将聚类结果形成类簇并存储。
步骤S4:控制各标签类簇的最大规模,对于超过3个标签的类簇,进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签;在处理的过程中,拆分的方法为将这些类簇全部进行重聚类。并且,重聚类完成后,应将聚出的新类簇替代原类簇。还原完毕后重新检查各类簇规模,观察是否仍存在超过3个标签的类簇,如果有则再次重聚类,直至所有类簇都满足不超过3个标签的条件为止;
步骤S5:将所有类簇中的多标签分布转化为多类别分布,每个类簇转化的类别最多不超过8类,即23。然后将LDA主题模型扩展后的特征集分别与转化后的多类别组合,转化为多个多分类数据集;
所述步骤S5多标签分布与多分类分布的转换过程中,还包括:当所得的全部类簇规模都不超过3个标签时,则所有类簇中的多标签分布最多不超过8种,对应的多类别分布即为8类,即23。此外,每个类簇中的标签个数可能不同,因此在训练多类分类器之前,应当令多标签分布唯一对应多类别分布。其对应规则应如下表所示:
Figure BDA0003565987430000101
步骤S6:调用传统的多类不平衡分类器,对转化得来的多类数据集进行分别学***衡分类器前,其类型要求还包括:类簇中限定的标签数量,缩小了标签分布规模,但缩小后的标签分布仍呈现不平衡的情形,且时间复杂度也小许升高。依据转后的数据集特点,所选择的传统的多类分类器应满足:有不平衡问题处理能力、所需时间尽量少的要求;
步骤S7:将预测的多类分类结果重新转换为多标签分布结果,并恢复至原标签顺序;在传统的多类分类器预测出多类结果后,将各多类分类结果转换回多标签分布,其转换过程即为S4的逆过程。在转换完成后,合并各类簇的转换结果,并还原回原标签集顺序。
步骤S8:为了计算Macro-F和Micro-F值,所需计算的值还包括:按照如下公式计算准确率Precision和召回率Recall:
Figure BDA0003565987430000102
其中,TP、True Positive真阳性:预测为正,实际也为正FP、False Positive假阳性:预测为正,实际为负FN、False Negative假阴性:预测与负、实际为正TN、True Negative真阴性:预测为负、实际也为负。最后利用Macro-F1和Micro-F1指标评价预测结果。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (10)

1.一种多标签不平衡数据分类的机器学习方法,其特征是,包括以下步骤,
S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;
S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;
S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;
S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;
S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;
S6:调用传统的多类不平衡分类器,对转化得来的多类数据集进行分别学习和预测,得到预测的多类分类结果;
S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;
S8:利用Macro-F1和Micro-F1指标评价预测结果,在计算Macro-F和Micro-F值之前,按照如下公式计算准确率Precision和召回率Recall:
Figure FDA0003565987420000011
其中,TP、True Positive真阳性:预测为正,实际也为正FP、False Positive假阳性:预测为正,实际为负FN、False Negative假阴性:预测与负、实际为正TN、True Negative真阴性:预测为负、实际也为负。
2.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S4为:当标签的类簇超过3个,对类簇进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签。
3.根据权利要求1或2所述的一种多标签不平衡数据分类的机器学***衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理上述任务时,所需时间尽量少,算法时间复杂度低于O(n3)。
4.根据权利要求3所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S1包括以下步骤:
S1-1:利用LDA主题模型扩展多标签数据的特征集为目标,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;
S1-2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;
S1-3:依据LDA主题模型计算法则,计算出实例-主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;
S1-4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1-3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;
S1-5:用S1-3中的离散化矩阵扩充原始的训练集特征空间,用S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1-4,否则结束。
5.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S2中动态降采样操作具体包括以下步骤:
S2-1:计算多标签数据集的种群均衡适应度的值。此时,按进化计算领域的标准处理方法,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;
S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的共的NP个个体同时置入连通网N中,此时形成一个有NP个顶点的连通网N={V,E},此时,该连通网形成了仅有NP个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;
S2-3:根据克鲁斯卡尔原则,每次选取一个未被记入连通禁忌表的、复叠空间距离最近的两个个体。此时,若将这两个个体连通,***的连通分量不减少的,则撤销这次操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接。若将这两个个体连通,***的连通分量减少的,转S2-4;若已经不存在可以执行本操作的符合要求的个体时,转S2-5;其中,复叠空间距离按下式计算:
Figure FDA0003565987420000031
其中,DC为复叠空间距离,DL(p,q)、DF(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;
S2-4:将S2-3中所传入的两个个体标记为连通,此时,该非连通图T={V,E}同步更新,***的连通分量也随该操作减少,若执行连通操作的两个个体中存在因本操作使得其连接的顶点数超过1的个体,将该个体记入连通禁忌表中,不再允许改个体与任意其他个体连接,完成后,转S2-3;
S2-5:计算此时的连通分量,将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度;对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作,当总长度值相同时,从种群中同时删除这两个个体;
S2-6:利用标准IRLbl的计算方法,计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值,当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时,返回S2-1,否则结束。
6.根据权利要求5所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S2-1中种群均衡适应度的算法如下:
Figure FDA0003565987420000032
在种群均衡适应度计算公式中,EFP为种群P的种群均衡适应度,EFL、EFF分别为种群标签均衡适应度及种群特征均衡适应度,NL、NF分别为种群中所包含的标签数量及种群中所包含的特征的维度,其中L和F分别表示种群中所包含的标签的集合及特征的集合,c1、c2为两个常数系数,
Figure FDA0003565987420000033
为种群中含有第i个标签的个体的数量,
Figure FDA0003565987420000034
种群中第j个特征值不为0的个体的数量。
7.根据权利要求4所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S1-2中依据狄利克雷参数,对各文档中主题先验分布和对各主题中词分布的确定,根据如下公式确定:
Figure FDA0003565987420000041
在上式中,N为数据集中的实例个数,K为主题个数,θ为文档中主题的先验分布,类比至多标签数据集,即为数据集实例中主题的分布,φ为主题中词的分布,类比至多标签数据集,即为主题中标签的分布。
8.根据权利要求6所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S3中包括以下步骤:
S3-1:根据数据集的标签分布情况,将每个标签视为一个聚类元素,将每个实例视为标签特征的一维,作为一个计算Jaccard相似度的数据集,并记录标签顺序;
S3-2:以Jaccard相似度为评测标准,计算所有标签之间的Jaccard相似度,然后根据计算结果进行层次聚类,用A,B分别代表两个标签的实例分布情况,此时,根据如下公式计算各标签之间的Jaccard相似度:
Figure FDA0003565987420000042
其中A,B分别代表两个标签的实例分布情况;
S3-3:将聚类结果形成类簇,从而实现:利用类簇的形式对聚类结果进行结构性存储,便于对聚类结果进行进一步地处理。
9.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S5中多标签分布与多分类分布的转换过程包括:当所得的全部类簇规模都不超过3个标签时,则所有类簇中的多标签分布最多不超过8种,对应的多类别分布即为8类,即23;此外,每个类簇中的标签个数可能不同,因此在训练多类分类器之前,应当令多标签分布唯一对应多类别分布,其对应规则应如下表所示:
Figure FDA0003565987420000043
Figure FDA0003565987420000051
当各类簇中的多标签分布转换为多分类分布后,令LDA主题模型扩展后的多标签数据特征集分别与类簇合并组合为新的多类数据集,其组合后的个数与类簇数相同。
10.一种多标签不平衡分类机器学***衡数据分类的机器学习方法。
CN202210309385.4A 2022-03-25 2022-03-25 一种多标签不平衡数据分类的机器学习方法及*** Pending CN114612914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210309385.4A CN114612914A (zh) 2022-03-25 2022-03-25 一种多标签不平衡数据分类的机器学习方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210309385.4A CN114612914A (zh) 2022-03-25 2022-03-25 一种多标签不平衡数据分类的机器学习方法及***

Publications (1)

Publication Number Publication Date
CN114612914A true CN114612914A (zh) 2022-06-10

Family

ID=81867747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210309385.4A Pending CN114612914A (zh) 2022-03-25 2022-03-25 一种多标签不平衡数据分类的机器学习方法及***

Country Status (1)

Country Link
CN (1) CN114612914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115632996A (zh) * 2022-12-19 2023-01-20 中国人民解放军国防科技大学 基于联邦式在线主动学习的网络流量分类***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115632996A (zh) * 2022-12-19 2023-01-20 中国人民解放军国防科技大学 基于联邦式在线主动学习的网络流量分类***及方法

Similar Documents

Publication Publication Date Title
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
Pang et al. Evaluation of the results of multi-attribute group decision-making with linguistic information
Ding et al. Research on using genetic algorithms to optimize Elman neural networks
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及***
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN109992773A (zh) 基于多任务学习的词向量训练方法、***、设备及介质
CN112947300A (zh) 一种加工质量虚拟量测方法、***、介质及设备
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
CN113240046B (zh) 一种基于知识的视觉问答任务下的多模态信息融合方法
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN114612914A (zh) 一种多标签不平衡数据分类的机器学习方法及***
Cai et al. Credit Payment Fraud detection model based on TabNet and Xgboot
CN117391497A (zh) 一种新闻稿件质量主客观评分一致性评价方法及***
Shreevastava et al. Feature subset selection of semi-supervised data: an intuitionistic fuzzy-rough set-based concept
CN112148994A (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN116975434A (zh) 内容推荐方法以及相关设备
EP2357603A1 (en) Evolutionary design optimization of real world structures with adaptive manipulation of nonlinear constraints
CN115982645A (zh) 信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质
Selvi et al. Topic categorization of Tamil news articles
CN114936701A (zh) 综合能源消耗实时监测方法、装置及终端设备
CN115081856A (zh) 一种企业知识管理绩效评价装置及方法
CN114882279A (zh) 基于直推式半监督深度学习的多标签图像分类方法
Xiong et al. L-RBF: A customer churn prediction model based on lasso+ RBF
Zhu et al. A poverty index prediction model for students based on PSO-LightGBM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination