CN114139634A - 一种基于成对标签权重的多标签特征选择方法 - Google Patents

一种基于成对标签权重的多标签特征选择方法 Download PDF

Info

Publication number
CN114139634A
CN114139634A CN202111468492.3A CN202111468492A CN114139634A CN 114139634 A CN114139634 A CN 114139634A CN 202111468492 A CN202111468492 A CN 202111468492A CN 114139634 A CN114139634 A CN 114139634A
Authority
CN
China
Prior art keywords
feature
label
calculating
mutual information
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111468492.3A
Other languages
English (en)
Inventor
刘桂霞
张平
宋佳智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111468492.3A priority Critical patent/CN114139634A/zh
Publication of CN114139634A publication Critical patent/CN114139634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于成对标签权重的多标签特征选择方法,步骤1、对训练数据集进行离散化处理;步骤2、给定训练数据的特征全集和标签集合;步骤3、初始化已选特征集合为空,设定特征子集维度;步骤4、通过曼哈顿距离和标签相似性设计成对标签权重;步骤5、利用特征相关性和特征冗余性得到完整的多标签特征选择评估标准;步骤6、为每个候选特征计算特征评估标准,选择取得特征评估标准最大值对应的候选特征,将其加入已选特征集合中,并将其从特征全集中剔除;步骤7、如果已选特征集合中特征个数等于设定的维度,则停止;否则重复步骤6;步骤8、将获得的特征子集S应用在多标签数据中,将降维后的数据输入到多标签分类学习模型。

Description

一种基于成对标签权重的多标签特征选择方法
技术领域
本发明属于机器学习与模式识别领域,具体涉及一种基于成对标签权重的多标签特征选择方法。
背景技术
近年来,多标签数据广泛应用于各种现实领域中,如基因功能预测、文本分类和图像语义分类等。多标签数据的主要特点是一个样本可以同时与多个标签相关联。例如,在文本分类任务中,一份新闻文档可能同时与多个主题相关联,如“社会”、“经济”和“法律”。高维的多标签数据往往包含大量不相关和冗余特征,这不仅增加了学习模型的时间成本和存储负担,而且易导致模型的分类性能下降。为解决这些问题,多标签特征选择技术从原始高维特征集合中选择紧凑和有效的特征子集,剔除不相关和冗余特征。多标签特征选择已成为处理高维数据重要的降维技术。
多标签特征选择方法通常分为三类:过滤方法、封装方法和嵌入方法。过滤方法使用独立于任何分类器的评估标准获得特征子集。封装方法利用特定分类器的分类性能来确定特征子集。嵌入方法将分类学习过程与特征选择过程同时进行。与封装和嵌入方法相比,过滤方法更灵活,计算成本更低。本专利发明基于过滤式的多标签特征选择方法。
在过滤方法中,基于信息论的多标签特征选择方法利用独立标签与特征的互信息度量特征相关性或者条件互信息度量特征相关性。在特征相关性的度量中,这些现有方法将标签关系看作是平等的,在现实多标签数据中这种假设是理想化的。实际上,不同标签关系对特征相关性具有不同程度的重要性,所以这种度量方式是不确切的。此外,这些现有方法没有考虑将标签联合起来与特征之间的相关性,忽略了成对标签信息的作用,对特征相关性的度量不准确。因此,本专利发明一种基于成对标签权重的多标签特征选择方法解决以上问题。
发明内容
本发明针对现有技术的不足,提出一种基于成对标签权重的多标签特征选择方法,基于标签相似性设计成对标签权重区分标签关系的不同重要性。引入联合互信息全面度量特征提供的分类信息量,考虑成对标签信息的作用。
一种基于成对标签权重的多标签特征选择方法,
步骤1、对训练数据集进行离散化处理;
步骤2、给定训练数据的特征全集F={f1,f2,...,fn}和标签集合L={l1,l2,...,lq},其中,F含有n个特征,L中含有q个标签;
步骤3、初始化已选特征集合S为空,设定特征子集维度K;
步骤4、通过曼哈顿距离和标签相似性设计成对标签权重;
步骤5、利用特征相关性和特征冗余性得到完整的多标签特征选择评估标准;
步骤6、为每个候选特征计算特征评估标准,选择取得特征评估标准最大值对应的候选特征,将其加入已选特征集合S中,并将其从特征全集F中剔除;
步骤7、如果已选特征集合S中特征个数等于设定的维度K,则停止;否则重复步骤6;
步骤8、将获得的特征子集S应用在多标签数据中,将降维后的数据输入到多标签分类学习模型MLKNN中完成学习任务。
作为进一步的优选,步骤1中,利用等间距的分箱法对数据进行离散处理。
作为进一步的优选,所述步骤4还包括:
步骤4.1、计算两个标签之间的曼哈顿距离,标签li和标签lj的曼哈顿距离:
Figure BDA0003390598230000021
其中,lik和ljk分别表示第k个样本在标签集合L中第i个标签和第j个标签对应的标签取值,m为数据集中的样本个数;
步骤4.2、基于d(li,lj),计算标签li和标签lj之间的相似性:
Figure BDA0003390598230000031
步骤4.3、计算成对标签权重:
Figure BDA0003390598230000032
其中,该式满足0<w(li,lj)<1。
作为进一步的优选,步骤5还包括:
步骤5.1、利用联合互信息计算特征为标签集合提供的分类信息量:
Figure BDA0003390598230000033
其中,fk表示候选特征;I(li,lj;fk)为联合互信息;
步骤5.2、计算特征与标签集合之间的相关性:
Figure BDA0003390598230000034
其中,FR(fk;L)将成对标签权重与联合互信息结合起来度量特征相关性;步骤5.3、计算候选特征与已选特征之间的冗余性:
Figure BDA0003390598230000035
其中,fj是已选特征集合S中的元素;
步骤5.4、计算特征评估标准J(fk):
Figure BDA0003390598230000036
本发明的有益效果:
本发明充分考虑成对标签与特征之间的相关性,基于标签相似性设计成对标签权重区分标签关系的不同重要性。引入联合互信息全面度量特征提供的分类信息量,考虑成对标签信息的作用。将成对标签权重与联合互信息相结合,提出新的特征相关性度量。最后利用互信息度量特征冗余性,将其与特征相关性相结合,设计一种更符合实际和更准确的特征评估标准,为多标签分类学习提供高质量的输入数据,有效地提高多标签分类模型的分类性能。
本发明针对现有方法未考虑标签关系的不同作用的问题,利用曼哈顿距离计算标签之间的相似性。基于标签相似性,提出成对标签权重度量标签关系的不同重要性。
本发明针对现有方法忽略成对标签信息对特征相关性的作用的问题,将联合互信息与成对标签权重相结合,提出特征相关性的度量,获得更全面和完整的分类信息量。
附图说明
图1为利用多标签选择方法进行多标签特征选择的流程图。
具体实施方式
如图1所示,本发明提供了一种基于成对标签权重的多标签特征选择方法,具体步骤如下:
步骤1、对训练数据集进行离散化处理,利用等间距的分箱法对数据进行离散处理;
步骤2、给定训练数据的特征全集F={f1,f2,...,fn}和标签集合L={l1,l2,...,lq},其中集合F含有n个特征,L中含有q个标签;
步骤3、初始化已选特征集合S为空,设定特征子集维度K;
步骤4、计算成对标签权重w,通过曼哈顿距离和标签相似性设计成对标签权重,具体包括如下步骤:
步骤4.1、计算两个标签之间的曼哈顿距离,标签li和标签lj的距离计算公式如下:
Figure BDA0003390598230000041
其中,lik和ljk分别表示第k个样本在标签集合L中第i个标签和第j个标签对应的标签取值,m为数据集中的样本个数。
步骤4.2、基于d(li,lj),计算标签li和标签lj之间的相似性,具体计算公式如下:
Figure BDA0003390598230000051
其中,当两个标签距离越近时,说明标签相似性越高。
步骤4.3、基于标签相似性度量,计算成对标签权重w(li,lj),具体计算公式如下:
Figure BDA0003390598230000052
其中,公式中的分子计算两个标签li和lj的相似性,分母计算两个标签li和lj与所有标签的相似程度之和,该式满足0<w(li,lj)<1。当两个标签的相似性在与之相关的所有标签相似性中所占比重越大,说明这两个标签对应的标签关系越重要。因此,利用标签权重度量标签关系的不同重要性,越重要的标签关系对应的标签权重值越大。
步骤5、给定多标签特征选择评估标准,利用特征相关性和特征冗余性设计完整的特征评估标准,具体包括如下步骤:
步骤5.1、利用联合互信息计算特征为标签集合提供的分类信息量,具体计算公式如下:
Figure BDA0003390598230000053
其中,fk表示候选特征。I(li,lj;fk)为联合互信息。根据信息论,联合互信息通过条件互信息与互信息之和计算得到,即:I(li,lj;fk)=I(li;fk)+I(lj;fk|li)。互信息I(li;fk)度量候选特征fk为标签li提供的信息量,条件互信息I(lj;fk|li)度量给定标签li时,fk为标签lj提供的信息量。这两者分别代表了候选特征与不同标签的信息量。因此,利用联合互信息结合条件互信息和互信息,可以充分计算特征为标签提供的分类信息量,确保特征提供的信息量更全面且完整。
联合互信息的计算过程如下:
定义信息熵:
Figure BDA0003390598230000054
其中,p(xi)代表概率,对数log的底为2。xi为离散变量X中的某一取值,n为X所有取值的个数。信息熵表示随机变量不确定性的度量。
条件熵:
Figure BDA0003390598230000061
其中,p(xi,yj)代表联合概率,p(xi|yj)代表条件概率。yj为离散变量Y中的某一取值,m为Y所有取值的个数。
条件熵表示当已知一个随机变量的概率分布后,另一个随机变量剩余的不确定量。
互信息:I(X;Y)=H(X)-H(X|Y)
互信息表示两个随机变量共享的信息量,值越大说明两个变量依赖性越高。
条件互信息:I(X;Y|Z)=H(X|Z)-H(X|Y,Z)=H(Y|Z)-H(Y|X,Z)
条件互信息表示当已知随机变量Z的概率分布后,随机变量X和Y之间共享的信息量。
联合互信息:I(X,Y;Z)=I(X;Z)+I(Y;Z|X)=I(Y;Z)+I(X;Z|Y)
联合互信息表示联合随机变量(X,Y)和变量Z之间共享的信息量。
步骤5.2、计算特征与标签集合之间的相关性,具体计算公式如下:
Figure BDA0003390598230000062
其中,q是标签个数。FR(fk;L)将成对标签权重与联合互信息结合起来度量特征相关性,在充分计算特征为标签提供的分类信息量的同时,可以有效地考虑不同标签关系的重要性。FR(fk;L)突出强调特征为更重要的标签关系提供的分类信息。
步骤5.3、计算候选特征与已选特征之间的冗余性,具体计算公式如下:
Figure BDA0003390598230000063
其中,fj是已选特征集合S中的元素。
步骤5.4、基于特征相关性FR(fk;L)和特征冗余性Re(fk;S),计算特征评估标准J(fk),具体计算公式如下:
Figure BDA0003390598230000064
步骤6、为每个候选特征计算特征评估标准,选择取得特征评估标准最大值对应的候选特征,将其索引加入已选特征集合S中,并将其从特征集合F中剔除;
步骤7、如果已选特征集合S中特征个数等于设定的维度K,则停止。否则重复步骤6;
步骤8、将获得的特征子集S应用在多标签数据中,将降维后的数据输入到多标签分类学习模型(Multi-Label adapted K-Nearest Neighbor,MLKNN)中完成学习任务)。
实施例:
观察Health数据集是一个典型的多标签数据集,其中包括5000个样本,612个特征,32个标签。训练集由2000个样本组成,剩余3000个样本组成测试集。
根据图1发明的特征选择方法流程图的步骤,首先对Health数据进行离散化处理,将其离散为3箱数据。输入离散后的Health训练数据集,设定特征子集维度K为10。通过本发明的特征选择方法选择的特征子集结果为S={10,1,7,12,3,21,4,2,0,11}。然后根据已选特征子集S创建降维后的训练数据集来训练MLKNN分类器模型(K=10),得到MLKNN_FS模型。
使用Average Precision(AP)、Coverage Error(CE)、Zero One Loss(ZOL)、Hamming Loss(HL)和Ranking Loss(RL)作为评价多标签分类模型的评价指标。将MLKNN_FS分类模型与不经过特征选择,直接用包含全部特征的训练数据集来训练的MLKNN模型进行对比实验。代入测试数据集,分别得到两个分类模型的5个分类指标的实验结果。将以上数据汇聚成表格如下:
表1 MLKNN_FS模型和MLKNN模型分类性能的对比
Figure BDA0003390598230000071
表1中Average Precision(AP)指标取值越大分类性能越好,Coverage Error(CE)、Zero One Loss(ZOL)、Hamming Loss(HL)和Ranking Loss(RL)指标取值越小分类性能越好。由表中实验结果表明通过特征选择之后MLKNN_FS分类器在多个分类指标上均比MLKNN分类器性能更优。这表明本发明的多标签特征选择方法可以有效地提高多标签分类学习模型的分类性能。

Claims (4)

1.一种基于成对标签权重的多标签特征选择方法,其特征在于:
步骤1、对训练数据集进行离散化处理;
步骤2、给定训练数据的特征全集F={f1,f2,...,fn}和标签集合L={l1,l2,...,lq},其中,F含有n个特征,L中含有q个标签;
步骤3、初始化已选特征集合S为空,设定特征子集维度K;
步骤4、通过曼哈顿距离和标签相似性设计成对标签权重;
步骤5、利用特征相关性和特征冗余性得到完整的多标签特征选择评估标准;
步骤6、为每个候选特征计算特征评估标准,选择取得特征评估标准最大值对应的候选特征,将其加入已选特征集合S中,并将其从特征全集F中剔除;
步骤7、如果已选特征集合S中特征个数等于设定的维度K,则停止;否则重复步骤6;
步骤8、将获得的特征子集S应用在多标签数据中,将降维后的数据输入到多标签分类学习模型MLKNN中完成学习任务。
2.根据权利要求1所述的基于条件互信息和交互信息的多标签特征选择方法,其特征在于,步骤1中,利用等间距的分箱法对数据进行离散处理。
3.根据权利要求1所述的基于条件互信息和交互信息的多标签特征选择方法,其特征在于,所述步骤4还包括:
步骤4.1、计算两个标签之间的曼哈顿距离,标签li和标签lj的曼哈顿距离:
Figure FDA0003390598220000011
其中,lik和ljk分别表示第k个样本在标签集合L中第i个标签和第j个标签对应的标签取值,m为数据集中的样本个数;
步骤4.2、基于d(li,lj),计算标签li和标签lj之间的相似性:
Figure FDA0003390598220000012
步骤4.3、计算成对标签权重:
Figure FDA0003390598220000021
其中,该式满足0<w(li,lj)<1。
4.根据权利要求1所述的基于条件互信息和交互信息的多标签特征选择方法,其特征在于,步骤5还包括:
步骤5.1、利用联合互信息计算特征为标签集合提供的分类信息量:
Figure FDA0003390598220000022
其中,fk表示候选特征;I(li,lj;fk)为联合互信息;
步骤5.2、计算特征与标签集合之间的相关性:
Figure FDA0003390598220000023
其中,FR(fk;L)将成对标签权重与联合互信息结合起来度量特征相关性;
步骤5.3、计算候选特征与已选特征之间的冗余性:
Figure FDA0003390598220000024
其中,fj是已选特征集合S中的元素;
步骤5.4、计算特征评估标准J(fk):
Figure FDA0003390598220000025
CN202111468492.3A 2021-12-03 2021-12-03 一种基于成对标签权重的多标签特征选择方法 Pending CN114139634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111468492.3A CN114139634A (zh) 2021-12-03 2021-12-03 一种基于成对标签权重的多标签特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111468492.3A CN114139634A (zh) 2021-12-03 2021-12-03 一种基于成对标签权重的多标签特征选择方法

Publications (1)

Publication Number Publication Date
CN114139634A true CN114139634A (zh) 2022-03-04

Family

ID=80387961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111468492.3A Pending CN114139634A (zh) 2021-12-03 2021-12-03 一种基于成对标签权重的多标签特征选择方法

Country Status (1)

Country Link
CN (1) CN114139634A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361345A (zh) * 2023-06-01 2023-06-30 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN118010103A (zh) * 2024-04-10 2024-05-10 天津市博川岩土工程有限公司 高寒环境下等厚度水泥土搅拌墙智能监测方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN116361345A (zh) * 2023-06-01 2023-06-30 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN116361345B (zh) * 2023-06-01 2023-09-22 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN118010103A (zh) * 2024-04-10 2024-05-10 天津市博川岩土工程有限公司 高寒环境下等厚度水泥土搅拌墙智能监测方法及***

Similar Documents

Publication Publication Date Title
CN103729351B (zh) 查询词推荐方法及装置
CN110928764B (zh) 移动应用众包测试报告自动化评估方法及计算机存储介质
US20220237230A1 (en) System and method for automated file reporting
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN104252456B (zh) 一种权重估计方法、装置及***
CN102129470A (zh) 标签聚类方法和***
CN104350490A (zh) 用于组织与产品相关的数据的方法、装置以及计算机可读介质
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
US8825641B2 (en) Measuring duplication in search results
CN107391921B (zh) 一种科学文献中参考文献影响力评估方法
CN104851025A (zh) 一种基于案例推理的电商网站商品的个性化推荐方法
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及***
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN111639258A (zh) 一种基于神经网络的新闻推荐方法
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN109299252A (zh) 基于机器学习的股票评论的观点极性分类方法和装置
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及***
Lu et al. Exploring the sentiment strength of user reviews
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
Deutsch et al. Ties matter: Meta-evaluating modern metrics with pairwise accuracy and tie calibration
CN110019563B (zh) 一种基于多维数据的肖像建模方法和装置
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN105894032A (zh) 一种针对样本性质提取有效特征的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination