CN111553442A - 一种分类器链标签序列的优化方法及*** - Google Patents

一种分类器链标签序列的优化方法及*** Download PDF

Info

Publication number
CN111553442A
CN111553442A CN202010397834.6A CN202010397834A CN111553442A CN 111553442 A CN111553442 A CN 111553442A CN 202010397834 A CN202010397834 A CN 202010397834A CN 111553442 A CN111553442 A CN 111553442A
Authority
CN
China
Prior art keywords
occurrence
classifier chain
sample
classifier
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397834.6A
Other languages
English (en)
Other versions
CN111553442B (zh
Inventor
张强
宋博川
贾全烨
柴博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN202010397834.6A priority Critical patent/CN111553442B/zh
Publication of CN111553442A publication Critical patent/CN111553442A/zh
Application granted granted Critical
Publication of CN111553442B publication Critical patent/CN111553442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类器链标签序列的优化方法及***,方法包括:获取待分类的输入样本;利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;利用共现分析获取样本标签集合对应的共现矩阵;利用共现矩阵的多个共现分支组成共现向量;根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。本发明提出了分类器链对应的标签顺序生成策略,通过加快算法生成标签序列,耗时少,得到的分类器链的标签序列准确率高,实现了对原有分类器链模型的性能优化。

Description

一种分类器链标签序列的优化方法及***
技术领域
本发明涉及机器学习技术领域,具体涉及一种分类器链标签序列的优化方法及***。
背景技术
分类是机器学习中非常重要的方法,通过分类可以使得机器对所关心的对象进行类别划分,从而达到识别不同对象的目的。然而在实际问题中,一个对象所属的类别本身具有一定的不确定性,例如在一些文本分类的任务中,有关某些体育明星的新闻,既可以属于体育新闻,也可以属于明星娱乐新闻。现实中的对象总是可以附带不同的属性,为了将这些对象的所有属性都准确的预测并分类出来,多标签分类技术是一种常用的方法,相较于多分类或二分类问题,多标签分类的技术难点主要体现:要处理的标签的维度过高、难以发掘标签之间的潜在联系。
但是,Read等人在二元相关性的基础上提出了分类器链(Classifier Chain,CC)算法,通过串行的连接分类器结果,使得整个分类器链可以利用标签间潜在的关联关系,从而让整个分类器链可以输出比较好的结果。尽管分类器链算法较原先的二元相关性算法有了优化,但由于其属于链式增长型的分类器模型,增加了要处理的标签的维度,加重整个算法在时间上的消耗,分类器链顺序随机生成,存在错误传播的风险。
发明内容
因此,本发明提供的一种分类器链标签序列的优化方法及***,克服了现有技术中多标签分类本身存在因维度过高,计算量大,分类器链随机生成,错误传播的风险大的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种分类器链标签序列的优化方法,包括:
获取待分类的输入样本;
利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;
利用共现分析获取样本标签集合对应的共现矩阵;
利用共现矩阵的多个共现分支组成共现向量;
根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。
在一实施例中,共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。
在一实施例中,所述利用共现矩阵的多个共现分支组成共现向量的步骤,包括:
获取共现矩阵中各个第一样本标签元素对应的共现率,并获取其最大共现率;
获取与各个第一样本标签元素最大共现率对应的第二样本标签元素;
由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支;
由多个共现分支组成共现向量。
在一实施例中,共现率为共现矩阵中各个元素与待分类输入样本个数的比值。
在一实施例中,所述根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序的步骤,包括:
将共现向量中共现率最大的共现分支添加到分类器链的起始分支;
通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长,直到得到整条分类器链标签序列。
在一实施例中,所述通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长的步骤,包括:
选取分类器链末尾的第三样本标签元素,如果共现向量中存在以第三样本标签元素为端点的共现分支,将共现分支另一端的第四样本标签元素添加到分类器链的尾部,同时从标签集合中移除掉对应的第四样本标签元素,否则,遍历剩余标签集合并获取次优对应的第五样本标签元素,将第五样本标签元素添加到分类器链中,同时从标签集合中移除对应第五样本标签元素,以此类推,进行整个链式结构的不断增长。
第二方面,本发明实施例提供一种分类器链标签序列的优化***,包括:
样本获取模块,用于获取待分类标签样本;
分类器链模型识别模块,用于获取待分类样本的样本标签集合;
共现分析模块,用于获取样本标签集合对应的共现矩阵;
共现向量获取模块,用于利用共现矩阵的多个共现分支获取共现向量;
分类器链标签顺序生成模块,用于根据共现向量获取分类器链的起始分支,基于贪心策略生成所需的分类器链的顺序。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的分类器链标签序列的优化方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的分类器链标签序列的优化方法。
本发明技术方案,具有如下优点:
本发明提供的分类器链标签序列的优化方法及***,通过获取待分类的输入样本;利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;利用共现分析获取样本标签集合对应的共现矩阵;利用共现矩阵的多个共现分支组成共现向量;根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序,提出了新的对应的标签顺序生成策略,通过加快算法生成标签序列,耗时少,得到的分类器链的标签序列准确率高,实现了对原有分类器链模型的性能优化。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分类器链标签序列的优化方法的一个具体示例的流程图;
图2为本发明实施例提供的一种分类器链标签序列的优化***的模块组成图;
图3为本发明实施例提供的一种终端的一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种分类器链标签序列的优化方法,如图1所示,包括如下步骤:
步骤S1:获取待分类的输入样本。
在本发明实施例中,将待分类的文本输入到分类器链模型中。
步骤S2:利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链。
实际中,利用二元相关性的转换策略解决多标签分类算法,通过将原本多标签分类的问题,转化成相应的多个二分类问题,再将多个二分类结果结合成最后的多标签分类集合,从而实现多标签分类的目的。例如,存在一个样本输入空间X,本实施例中的样本输入空间即为待分类的输入样本,一个样本输出空间Y,本实施例中样本输出空间Y为生成样本标签集合,初步生成一个样本标签集合,此样本标签集合是分类器链的重要组成部分,对于两个样本空间,存在一个对应的数据集合D满足:
Figure BDA0002488235510000061
其中,D包含n个训练样例xi,在本实施例中n个训练样例为待分类输入样本的个数,对于每个训练样例xi,若假设样本单个属性为a,则训练样例xi,可以用如下的k维向量表示:
xi=[ai1,ai2,...,aik]
其中,对于d个标签,需要训练d个二分类器f,假定对于每个分类器输出的结果是f(xi),那么二元相关性的目标就是尝试使用d个分类器f(xi)的输出结果来近似替代对应的真实结果yi,二元相关性算法核心简单,实现遍历且花销较少,但其缺乏对标签内在联系的利用致使二元相关性在实际的多标签分类效果上表现较差。
分类器链是基于二元相关性的优化算法,其算法核心和二元相关性一致,都是通过将多标签分类问题转化成多个二分类问题,但是本发明应用将分类器串型连接,使得分类器训练模型不是互相孤立存在的,利用了标签之间的潜在相关关系,从而优化整个分类任务的分类结果。分类器链通过将分类器链模型的结果增加到其输入的样例中,从而实现分类器的串型的连接,假定给定的输入xi满足:
xi=[ai1,ai2,...,aik]
已经预测的前q个分类器的结果为:
[f1(xi),f2(xi),...,fq(xi)]
每次用新得到的分类结果更新对应的样例,从而得到每次更新后的样例:
[ai1,...,aik,f1(xi),...,fq(xi)],q=1,2,...,d
其中,分类器链确实从某种程度上利用到了标签之间存在的隐含关系,但由于这种算法是通过改变输入样例,从而使得整个分类器链串型存在错误传递的风险,即前一分类器的结果会影响到后一个分类器的分类结果,因此分类器链算法对于分类器先后排列顺序十分的敏感,只有更好地选择分类器的先后顺序,才有可能产生比较好的多标签分类结果。
步骤S3:利用共现分析获取样本标签集合对应的共现矩阵。
基于二元相关性优化算法的分类器链生成样本标签集合,是构成分类器链的重要组成部分,本发明实施例通过共现分析计算两个样本标签集合元素共同出现的次数,来定量的衡量两个样本标签集合元素之间可能存在的潜在关系,有效地衡量了样本标签集合元素之间存在的深层关系。
在本发明实施例中,共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。首先需要根据对应的研究对象,生成相应的共现矩阵,用研究对象分别作为共现矩阵的行和列,来对应生成共现矩阵。例如,在字词里,通过将一段话对应的拆分成若干个字词,用字词来作为对应共现矩阵的行和列,仅以此为例,不以此为限,在实际应用中根据实际需求生成相应共现矩阵。类似的,在多标签分类任务中,通过将所有的标签作为共现矩阵的行和列,来实现构建对应共现矩阵M的目的。对于标签来说,同时均出现的几率可能较少,会导致对应生成的共现矩阵十分稀疏,因此本发明将标签同时不出现也纳入了统计的范畴,本发明认为标签同时不出现,也一定程度上反映了两个标签的关联性,满足标签i的集合为Si,满足标签j的集合为Sj,计算共现矩阵元素的公式为:
Figure BDA0002488235510000081
在本发明实施例中,共现率为共现矩阵中各个元素与待分类输入样本个数的比值,为了将共现矩阵的内容转换为对应的百分比方便比较,本发明定义了共现率的概念,规定对应n个训练样例为待分类输入样本的的个数,计算共现率的公式为:
Figure BDA0002488235510000082
在本发明实施例中,根据共现矩阵、共现率计算对应的共现矩阵,同时须注意,共现矩阵必然是一个对称的矩阵,因此只需要计算一半的元素对应的共现关系即可,假设给定标签集合L={l1,l2,l3,l4,l5},模拟生成的共现矩阵如下表::
R l<sub>1</sub> l<sub>2</sub> l<sub>3</sub> l<sub>4</sub> l<sub>5</sub>
l<sub>1</sub> _ 0.672 0.649 0.644 0.632
l<sub>2</sub> _ _ 0.583 0.676 0.630
l<sub>3</sub> _ _ _ 0.674 0.619
l<sub>4</sub> _ _ _ _ 0.662
l<sub>5</sub> _ _ _ _ _
其中,通过对样例的标签集合建立对应的共现矩阵,计算对应的共现率,将标签之间的相关关系以比例的形式表示。
步骤S4:利用共现矩阵的多个共现分支组成共现向量。
在本发明实施例中,利用共现矩阵的多个共现分支组成共现向量的步骤,包括:获取共现矩阵中各个第一样本标签元素对应的共现率,并获取其最大共现率;获取与各个第一样本标签元素最大共现率对应的第二样本标签元素;由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支;由多个共现分支组成共现向量。
在本发明实施例中,共现矩阵占用d2的空间,如果频繁地对共现矩阵进行遍历,会加重整个算法的在时间上的消耗,因此本发明考虑对共现矩阵进行一个简单的抽取操作,首先,获取共现矩阵中各个第一样本标签元素对应的共现率,并获取各个第一样本标签元素的最大共现率,将抽取共现矩阵中所有的标签对应的极大值组合来组成一个共现向量V。例如对于第一样本标签元素li,找出一个最大的共现率Ri满足公式:
Ri=max{Rij},j=1,2,...,d
当找到这个Ri之后,假设与第一样本标签元素li对应组成最大的共现率Ri的标签为第二样本标签元素lji,则将第一样本标签元素li,第二样本标签元素lji,最大的共现率Ri组成共现向量V中的一个共现分支,则对共现分支bi满足公式:
bi=[li,lji,Ri]
通过提取所有的共现分支bi,则最后的共现向量V可以写成如下公式:
[[l1,lj1,R1],[l2,lj2,R2],...,[ld,ljd,Rd]]
以此完成了共现向量提取,通过对共现向量遍历,减少在矩阵本身上的遍历,这有助于加快算法生成序列。
步骤S5:根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。
在本发明实施例中,根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序的步骤,包括:将共现向量中共现率最大的共现分支添加到分类器链的起始分支,由此开始通过增长分类器链的形式,来生成所需的分类器链的顺序,具体地,依据贪心的策略,只需要对分类器链的尾部进行增长且使得尾部的标签为最大的共现率即可,通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长,直到得到整条分类器链标签序列。
在本发明实施例中,通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长的步骤,包括:选取分类器链末尾的第三样本标签元素li,如果共现向量中存在以第三样本标签元素li为端点的共现分支bi,将共现分支bi另一端的第四样本标签元素lji添加到分类器链的尾部,同时从标签集合中移除掉对应的第四样本标签元素lji,否则,遍历剩余标签集合并获取次优对应的第五样本标签元素linext,将第五样本标签元素linext添加到分类器链中,同时从标签集合中移除对应第五样本标签元素linext,以此类推,进行整个链式结构的不断增长。
在本发明实施例中,基于贪心的分类器链增长过程如下表:
Figure BDA0002488235510000111
本发明实施例提供了一种分类器链标签序列的优化方法,通过获取待分类的输入样本;利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;利用共现分析获取样本标签集合对应的共现矩阵;利用共现矩阵的多个共现分支组成共现向量;根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序,提出了新的对应的标签顺序生成策略,加快算法生成序列,耗时少,得到的分类器链的标签序列准确率高,明显提升多标签分类效果,实现了对原有分类器链模型的性能优化。
在本实施例中,通过实验比较分析分类器链标签序列的优化方法工作如下:
首先,共选取了Yeast,Enron,Scene,Emotion,Slashdot-F,CAL500,medical七个数据集,领域涵盖文本,图片,生物等领域。用以上七个数据集验证本发明提出的基于贪心的分类器链(Greedy Classifier Chain,GCC)算法,并与初始的分类器链CC算法和改进的局部分类器链算法LOCC算法进行参考比较。具体所采用的数据集的各参数如下表:
Name Instance Features labels cardinality
emotions 593 72 6 1.879
Enron 1702 1001 53 3.378
Scene 2407 294 6 1.074
Yeast 2417 103 14 4.237
Slashdot-F 1460 1079 22 1.18
CAL500 502 68 174 26.044
medical 978 1449 45 1.245
其中,所有实验都采用python实现,借助与sklearn的部分库函数来进行相应的开发。在对于基分类器的选择上,本发明采用了SVM作为基分类器,核函数是高斯核函数,惩罚参数C=100,所有算法的基分类器采用相同参数,以避免在基分类器的性能上存在差异从而影响序列提取本身所带来的效果。
在评价指标上,本发明选择Accuracy,F1macro作为评价指标。
(1)Accuracy区别于通常分类任务所使用的Accuracy公式,计算公式如下:
Figure BDA0002488235510000121
由于通常分类任务使用的Accuracy公式过于严苛,为了更好反应多标签分类算法的性能,本发明采用多标签分类下对应的Accuracy的变式。其中Si代表样本xi的真实标签集合,Yi代表样本xi的预测标签集合。|Si∩Yi|表示的是预测正确的标签个数,|Si∪Yi|表示的是总出现的标签次数,Accuracy该项指标的数值越大越好,在实验结果的验证方面,采用五折交叉验证的方式,不同算法关于Accuracy的性能比较如下表:
Dataset CC LOCC GCC
yeast 0.4585 0.4649 0.4802
scene 0.5943 0.5938 0.6114
emotions 0.3851 0.3665 0.3817
enron 0.4034 0.3997 0.4026
Slashdot-F 0.3945 0.4147 0.4050
CAL500 0.2210 0.2233 0.2347
medical 0.6964 0.7068 0.7032
其中,对应指标最优的算法结果为CC、LOCC、GCC三个算法中对应数据的最大值,在Accuracy指标上,可以看到GCC算法在除了medical和Slashdot-F数据集以外的其他4个数据集合上accuracy表现优越。CC算法在emotion这1个数据集上具有高的准确率,LOCC算法则在medical和Slashdot-F数据集上有更高准确率。可见,总体上本发明的GCC方法具有更好的多标签分类准确率,对传统的CC算法进行了很大的性能提升。
(2)F1macro计算公式如下:
Figure BDA0002488235510000131
Figure BDA0002488235510000141
Figure BDA0002488235510000142
由于Accuracy主要对正确标签进行评估,为了同时考虑正确和错误样例,本发明采用宏观平均下的F1macro指标。该公式中的pi对应的是精确度Precision,ri对应的是召回率Recall,F1macro指标则是对精准度p和召回率r的调和平均。该指标越大对应算法综合性能也就越好。
不同算法关于F1macro的性能比较如下表:
Dataset CC LOCC GCC
yeast 0.5585 0.5505 0.5637
scene 0.8547 0.8544 0.8578
emotions 0.6563 0.6601 0.6598
enron 0.5834 0.5860 0.5845
Slashdot-F 0.6503 0.6538 0.6508
CAL500 0.5098 0.5104 0.5103
medical 0.6497 0.6477 0.6497
其中,在F1指标上,GCC算法性能相比较下更好,在4个数据集上具有最高的F1性能。传统CC算法的F1指标除了在在medical数据集上保持和GCC算法持平以外,其F1值性不具有任何优势。LOCC算法则在3个数据集上具有最高的F1性能。总体上本文的GCC方法具有更好的F1效能,在传统CC算法上有很大的性能提升。
本发明实施例中提供的分类器链标签序列的优化方法,其中,GCC算法的性能效果表现最佳,LOCC算法则性能其次,而CC算法则表现最差。由此可以推断本发明提供的分类器链标签序列的优化方法明显提升多标签分类效果,实现了对原有分类器链模型的性能优化。
实施例2
本发明实施例提供一种分类器链标签序列的优化***,如图2所示,包括:
样本获取模块1,用于获取待分类标签样本;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
分类器链模型识别模块2,用于获取待分类样本的样本标签集合;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
共现分析模块3,用于获取样本标签集合对应的共现矩阵;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
共现向量获取模块4,用于利用共现矩阵的多个共现分支获取共现向量;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
分类器链标签顺序生成模块5,用于根据共现向量获取分类器链的起始分支,基于贪心策略生成所需的分类器链的顺序;此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
本发明实施例提供一种分类器链标签序列的优化***,提出了一种基于共现分析的标签序列优化选择生成策略以提升分类器链模型的多标签分类性能,采用贪心的策略,从保证共现率最大的角度,依次从共现矩阵中提取信息并生成对应的分类器链顺序,明显提升多标签分类效果,实现了对原有分类器链模型的性能优化。
实施例3
本发明实施例提供一种终端,如图3所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的分类器链标签序列的优化方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的分类器链标签序列的优化方法。其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:central processingunit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的分类器链标签序列的优化方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的分类器链标签序列的优化方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种分类器链标签序列的优化方法,其特征在于,包括:
获取待分类的输入样本;
利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;
利用共现分析获取样本标签集合对应的共现矩阵;
利用共现矩阵的多个共现分支组成共现向量;
根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。
2.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。
3.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,所述利用共现矩阵的多个共现分支组成共现向量的步骤,包括:
获取共现矩阵中各个第一样本标签元素对应的共现率,并获取其最大共现率;
获取与各个第一样本标签元素最大共现率对应的第二样本标签元素;
由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支;
由多个共现分支组成共现向量。
4.根据权利要求3所述的分类器链标签序列的优化方法,其特征在于,共现率为共现矩阵中各个元素与待分类输入样本个数的比值。
5.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,所述根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序的步骤,包括:
将共现向量中共现率最大的共现分支添加到分类器链的起始分支;
通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长,直到得到整条分类器链标签序列。
6.根据权利要求5所述的分类器链标签序列的优化方法,其特征在于,所述通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长的步骤,包括:
选取分类器链末尾的第三样本标签元素,如果共现向量中存在以第三样本标签元素为端点的共现分支,将共现分支另一端的第四样本标签元素添加到分类器链的尾部,同时从标签集合中移除掉对应的第四样本标签元素,否则,遍历剩余标签集合并获取次优对应的第五样本标签元素,将第五样本标签元素添加到分类器链中,同时从标签集合中移除对应第五样本标签元素,以此类推,进行整个链式结构的不断增长。
7.一种分类器链标签序列的优化***,其特征在于,包括:
样本获取模块,用于获取待分类标签样本;
分类器链模型识别模块,用于获取待分类样本的样本标签集合;
共现分析模块,用于获取样本标签集合对应的共现矩阵;
共现向量获取模块,用于利用共现矩阵的多个共现分支获取共现向量;
分类器链标签顺序生成模块,用于根据共现向量获取分类器链的起始分支,基于贪心策略生成所需的分类器链的顺序。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任一所述的分类器链标签序列的优化方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一所述的分类器链标签序列的优化方法。
CN202010397834.6A 2020-05-12 2020-05-12 一种分类器链标签序列的优化方法及*** Active CN111553442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397834.6A CN111553442B (zh) 2020-05-12 2020-05-12 一种分类器链标签序列的优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397834.6A CN111553442B (zh) 2020-05-12 2020-05-12 一种分类器链标签序列的优化方法及***

Publications (2)

Publication Number Publication Date
CN111553442A true CN111553442A (zh) 2020-08-18
CN111553442B CN111553442B (zh) 2024-03-12

Family

ID=72000679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397834.6A Active CN111553442B (zh) 2020-05-12 2020-05-12 一种分类器链标签序列的优化方法及***

Country Status (1)

Country Link
CN (1) CN111553442B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN113568738A (zh) * 2021-07-02 2021-10-29 上海淇玥信息技术有限公司 基于多标签分类的资源分配方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217390A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc Scalable-effort classifiers for energy-efficient machine learning
US20180157743A1 (en) * 2016-12-07 2018-06-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Label Classification
CN109036577A (zh) * 2018-07-27 2018-12-18 合肥工业大学 糖尿病并发症分析方法及装置
CN109783636A (zh) * 2018-12-12 2019-05-21 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110751188A (zh) * 2019-09-26 2020-02-04 华南师范大学 基于多标记学习的用户标签预测方法、***及存储介质
US20200044938A1 (en) * 2018-07-31 2020-02-06 EMC IP Holding Company LLC Allocation of Shared Computing Resources Using a Classifier Chain

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217390A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc Scalable-effort classifiers for energy-efficient machine learning
US20180157743A1 (en) * 2016-12-07 2018-06-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Label Classification
CN109036577A (zh) * 2018-07-27 2018-12-18 合肥工业大学 糖尿病并发症分析方法及装置
US20200044938A1 (en) * 2018-07-31 2020-02-06 EMC IP Holding Company LLC Allocation of Shared Computing Resources Using a Classifier Chain
CN109783636A (zh) * 2018-12-12 2019-05-21 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110751188A (zh) * 2019-09-26 2020-02-04 华南师范大学 基于多标记学习的用户标签预测方法、***及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘各巧;郭涛;: "基于双层结构的多标签优序选择分类算法", 计算机工程与设计, no. 04, 16 April 2016 (2016-04-16) *
蒋铭初;潘志松;尤峻;: "基于PLSA主题模型的多标记文本分类", 数据采集与处理, no. 03, 15 May 2016 (2016-05-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN113568738A (zh) * 2021-07-02 2021-10-29 上海淇玥信息技术有限公司 基于多标签分类的资源分配方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN111553442B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111368528B (zh) 一种面向医学文本的实体关系联合抽取方法
CN109165306B (zh) 基于多任务哈希学习的图像检索方法
WO2020140386A1 (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
EP3227836B1 (en) Active machine learning
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、***、装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和***
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和***
US20230306035A1 (en) Automatic recommendation of analysis for dataset
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及***
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、***及存储介质
WO2023124342A1 (zh) 一种针对图像分类的神经网络结构低成本自动搜索方法
CN111553442B (zh) 一种分类器链标签序列的优化方法及***
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
US20230056760A1 (en) Method and apparatus for processing graph data, device, storage medium, and program product
CN117273134A (zh) 一种基于预训练语言模型的零样本知识图谱补全方法
CN113742488A (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
Lao et al. Three degree binary graph and shortest edge clustering for re-ranking in multi-feature image retrieval
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210112

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant after: INFORMATION COMMUNICATION COMPANY OF STATE GRID SHANDONG ELECTRIC POWER Co.

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: State Grid Smart Grid Research Institute Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant after: INFORMATION COMMUNICATION COMPANY OF STATE GRID SHANDONG ELECTRIC POWER Co.

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

Applicant before: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant before: INFORMATION COMMUNICATION COMPANY OF STATE GRID SHANDONG ELECTRIC POWER Co.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Rongrong

Inventor after: Xue Wenting

Inventor after: Zhang Qiang

Inventor after: Song Bochuan

Inventor after: Jia Quanye

Inventor after: Chai Bo

Inventor after: Zhang Wenbin

Inventor before: Zhang Qiang

Inventor before: Song Bochuan

Inventor before: Jia Quanye

Inventor before: Chai Bo

GR01 Patent grant
GR01 Patent grant