CN111553442A

CN111553442A - 一种分类器链标签序列的优化方法及***

Info

Publication number: CN111553442A
Application number: CN202010397834.6A
Authority: CN
Inventors: 张强; 宋博川; 贾全烨; 柴博
Original assignee: State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Global Energy Interconnection Research Institute; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-08-18
Anticipated expiration: 2040-05-12
Also published as: CN111553442B

Abstract

本发明公开了一种分类器链标签序列的优化方法及***，方法包括：获取待分类的输入样本；利用分类器链模型识别输入样本，生成样本标签集合，组成分类器链；利用共现分析获取样本标签集合对应的共现矩阵；利用共现矩阵的多个共现分支组成共现向量；根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序。本发明提出了分类器链对应的标签顺序生成策略，通过加快算法生成标签序列，耗时少，得到的分类器链的标签序列准确率高，实现了对原有分类器链模型的性能优化。

Description

一种分类器链标签序列的优化方法及***

技术领域

本发明涉及机器学习技术领域，具体涉及一种分类器链标签序列的优化方法及***。

背景技术

分类是机器学习中非常重要的方法，通过分类可以使得机器对所关心的对象进行类别划分，从而达到识别不同对象的目的。然而在实际问题中，一个对象所属的类别本身具有一定的不确定性，例如在一些文本分类的任务中，有关某些体育明星的新闻，既可以属于体育新闻，也可以属于明星娱乐新闻。现实中的对象总是可以附带不同的属性，为了将这些对象的所有属性都准确的预测并分类出来，多标签分类技术是一种常用的方法，相较于多分类或二分类问题，多标签分类的技术难点主要体现：要处理的标签的维度过高、难以发掘标签之间的潜在联系。

但是，Read等人在二元相关性的基础上提出了分类器链(Classifier Chain，CC)算法，通过串行的连接分类器结果，使得整个分类器链可以利用标签间潜在的关联关系，从而让整个分类器链可以输出比较好的结果。尽管分类器链算法较原先的二元相关性算法有了优化，但由于其属于链式增长型的分类器模型，增加了要处理的标签的维度，加重整个算法在时间上的消耗，分类器链顺序随机生成，存在错误传播的风险。

发明内容

因此，本发明提供的一种分类器链标签序列的优化方法及***，克服了现有技术中多标签分类本身存在因维度过高，计算量大，分类器链随机生成，错误传播的风险大的缺陷。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种分类器链标签序列的优化方法，包括：

获取待分类的输入样本；

利用分类器链模型识别输入样本，生成样本标签集合，组成分类器链；

利用共现分析获取样本标签集合对应的共现矩阵；

利用共现矩阵的多个共现分支组成共现向量；

根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序。

在一实施例中，共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。

在一实施例中，所述利用共现矩阵的多个共现分支组成共现向量的步骤，包括：

获取共现矩阵中各个第一样本标签元素对应的共现率，并获取其最大共现率；

获取与各个第一样本标签元素最大共现率对应的第二样本标签元素；

由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支；

由多个共现分支组成共现向量。

在一实施例中，共现率为共现矩阵中各个元素与待分类输入样本个数的比值。

在一实施例中，所述根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序的步骤，包括：

将共现向量中共现率最大的共现分支添加到分类器链的起始分支；

通过对分类器链末尾的标签寻找对应最大的共现分支，进行整个链式结构的不断增长，直到得到整条分类器链标签序列。

在一实施例中，所述通过对分类器链末尾的标签寻找对应最大的共现分支，进行整个链式结构的不断增长的步骤，包括：

选取分类器链末尾的第三样本标签元素，如果共现向量中存在以第三样本标签元素为端点的共现分支，将共现分支另一端的第四样本标签元素添加到分类器链的尾部，同时从标签集合中移除掉对应的第四样本标签元素，否则，遍历剩余标签集合并获取次优对应的第五样本标签元素，将第五样本标签元素添加到分类器链中，同时从标签集合中移除对应第五样本标签元素，以此类推，进行整个链式结构的不断增长。

第二方面，本发明实施例提供一种分类器链标签序列的优化***，包括：

样本获取模块，用于获取待分类标签样本；

分类器链模型识别模块，用于获取待分类样本的样本标签集合；

共现分析模块，用于获取样本标签集合对应的共现矩阵；

共现向量获取模块，用于利用共现矩阵的多个共现分支获取共现向量；

分类器链标签顺序生成模块，用于根据共现向量获取分类器链的起始分支，基于贪心策略生成所需的分类器链的顺序。

第三方面，本发明实施例提供一种终端，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例第一方面所述的分类器链标签序列的优化方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的分类器链标签序列的优化方法。

本发明技术方案，具有如下优点：

本发明提供的分类器链标签序列的优化方法及***，通过获取待分类的输入样本；利用分类器链模型识别输入样本，生成样本标签集合，组成分类器链；利用共现分析获取样本标签集合对应的共现矩阵；利用共现矩阵的多个共现分支组成共现向量；根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序，提出了新的对应的标签顺序生成策略，通过加快算法生成标签序列，耗时少，得到的分类器链的标签序列准确率高，实现了对原有分类器链模型的性能优化。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分类器链标签序列的优化方法的一个具体示例的流程图；

图2为本发明实施例提供的一种分类器链标签序列的优化***的模块组成图；

图3为本发明实施例提供的一种终端的一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供的一种分类器链标签序列的优化方法，如图1所示，包括如下步骤：

步骤S1：获取待分类的输入样本。

在本发明实施例中，将待分类的文本输入到分类器链模型中。

步骤S2：利用分类器链模型识别输入样本，生成样本标签集合，组成分类器链。

实际中，利用二元相关性的转换策略解决多标签分类算法，通过将原本多标签分类的问题，转化成相应的多个二分类问题，再将多个二分类结果结合成最后的多标签分类集合，从而实现多标签分类的目的。例如，存在一个样本输入空间X，本实施例中的样本输入空间即为待分类的输入样本，一个样本输出空间Y，本实施例中样本输出空间Y为生成样本标签集合，初步生成一个样本标签集合，此样本标签集合是分类器链的重要组成部分，对于两个样本空间，存在一个对应的数据集合D满足：

其中，D包含n个训练样例x_i，在本实施例中n个训练样例为待分类输入样本的个数，对于每个训练样例x_i，若假设样本单个属性为a，则训练样例x_i，可以用如下的k维向量表示：

x_i＝[a_i1,a_i2,...,a_ik]

其中，对于d个标签，需要训练d个二分类器f，假定对于每个分类器输出的结果是f(x_i)，那么二元相关性的目标就是尝试使用d个分类器f(x_i)的输出结果来近似替代对应的真实结果y_i，二元相关性算法核心简单，实现遍历且花销较少，但其缺乏对标签内在联系的利用致使二元相关性在实际的多标签分类效果上表现较差。

分类器链是基于二元相关性的优化算法，其算法核心和二元相关性一致，都是通过将多标签分类问题转化成多个二分类问题，但是本发明应用将分类器串型连接，使得分类器训练模型不是互相孤立存在的，利用了标签之间的潜在相关关系，从而优化整个分类任务的分类结果。分类器链通过将分类器链模型的结果增加到其输入的样例中，从而实现分类器的串型的连接，假定给定的输入x_i满足：

x_i＝[a_i1,a_i2,...,a_ik]

已经预测的前q个分类器的结果为：

[f₁(x_i),f₂(x_i),...,f_q(x_i)]

每次用新得到的分类结果更新对应的样例，从而得到每次更新后的样例：

[a_i1,...,a_ik,f₁(x_i),...,f_q(x_i)],q＝1,2,...,d

其中，分类器链确实从某种程度上利用到了标签之间存在的隐含关系，但由于这种算法是通过改变输入样例，从而使得整个分类器链串型存在错误传递的风险，即前一分类器的结果会影响到后一个分类器的分类结果，因此分类器链算法对于分类器先后排列顺序十分的敏感，只有更好地选择分类器的先后顺序，才有可能产生比较好的多标签分类结果。

步骤S3：利用共现分析获取样本标签集合对应的共现矩阵。

基于二元相关性优化算法的分类器链生成样本标签集合，是构成分类器链的重要组成部分，本发明实施例通过共现分析计算两个样本标签集合元素共同出现的次数，来定量的衡量两个样本标签集合元素之间可能存在的潜在关系，有效地衡量了样本标签集合元素之间存在的深层关系。

在本发明实施例中，共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。首先需要根据对应的研究对象，生成相应的共现矩阵，用研究对象分别作为共现矩阵的行和列，来对应生成共现矩阵。例如，在字词里，通过将一段话对应的拆分成若干个字词，用字词来作为对应共现矩阵的行和列，仅以此为例，不以此为限，在实际应用中根据实际需求生成相应共现矩阵。类似的，在多标签分类任务中，通过将所有的标签作为共现矩阵的行和列，来实现构建对应共现矩阵M的目的。对于标签来说，同时均出现的几率可能较少，会导致对应生成的共现矩阵十分稀疏，因此本发明将标签同时不出现也纳入了统计的范畴，本发明认为标签同时不出现，也一定程度上反映了两个标签的关联性，满足标签i的集合为S_i，满足标签j的集合为S_j，计算共现矩阵元素的公式为：

在本发明实施例中，共现率为共现矩阵中各个元素与待分类输入样本个数的比值，为了将共现矩阵的内容转换为对应的百分比方便比较，本发明定义了共现率的概念，规定对应n个训练样例为待分类输入样本的的个数，计算共现率的公式为：

在本发明实施例中，根据共现矩阵、共现率计算对应的共现矩阵，同时须注意，共现矩阵必然是一个对称的矩阵，因此只需要计算一半的元素对应的共现关系即可，假设给定标签集合L＝{l₁,l₂,l₃,l₄,l₅}，模拟生成的共现矩阵如下表：:

R	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						l<sub>1</sub>	_	0.672	0.649	0.644	0.632
l<sub>2</sub>	_	_	0.583	0.676	0.630
						l<sub>3</sub>	_	_	_	0.674	0.619
l<sub>4</sub>	_	_	_	_	0.662
						l<sub>5</sub>	_	_	_	_	_

其中，通过对样例的标签集合建立对应的共现矩阵，计算对应的共现率，将标签之间的相关关系以比例的形式表示。

步骤S4：利用共现矩阵的多个共现分支组成共现向量。

在本发明实施例中，利用共现矩阵的多个共现分支组成共现向量的步骤，包括：获取共现矩阵中各个第一样本标签元素对应的共现率，并获取其最大共现率；获取与各个第一样本标签元素最大共现率对应的第二样本标签元素；由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支；由多个共现分支组成共现向量。

在本发明实施例中，共现矩阵占用d²的空间，如果频繁地对共现矩阵进行遍历，会加重整个算法的在时间上的消耗，因此本发明考虑对共现矩阵进行一个简单的抽取操作，首先，获取共现矩阵中各个第一样本标签元素对应的共现率，并获取各个第一样本标签元素的最大共现率，将抽取共现矩阵中所有的标签对应的极大值组合来组成一个共现向量V。例如对于第一样本标签元素l_i，找出一个最大的共现率R_i满足公式：

R_i＝max{R_ij},j＝1,2,...,d

当找到这个R_i之后，假设与第一样本标签元素l_i对应组成最大的共现率R_i的标签为第二样本标签元素l_ji，则将第一样本标签元素l_i，第二样本标签元素l_ji，最大的共现率R_i组成共现向量V中的一个共现分支,则对共现分支b_i满足公式：

b_i＝[l_i,l_ji,R_i]

通过提取所有的共现分支b_i，则最后的共现向量V可以写成如下公式：

[[l₁,l_j1,R₁],[l₂,l_j2,R₂],...,[l_d,l_jd,R_d]]

以此完成了共现向量提取，通过对共现向量遍历，减少在矩阵本身上的遍历，这有助于加快算法生成序列。

步骤S5：根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序。

在本发明实施例中，根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序的步骤，包括：将共现向量中共现率最大的共现分支添加到分类器链的起始分支，由此开始通过增长分类器链的形式，来生成所需的分类器链的顺序，具体地，依据贪心的策略，只需要对分类器链的尾部进行增长且使得尾部的标签为最大的共现率即可，通过对分类器链末尾的标签寻找对应最大的共现分支，进行整个链式结构的不断增长，直到得到整条分类器链标签序列。

在本发明实施例中，通过对分类器链末尾的标签寻找对应最大的共现分支，进行整个链式结构的不断增长的步骤，包括：选取分类器链末尾的第三样本标签元素l_i，如果共现向量中存在以第三样本标签元素l_i为端点的共现分支b_i，将共现分支b_i另一端的第四样本标签元素l_ji添加到分类器链的尾部，同时从标签集合中移除掉对应的第四样本标签元素l_ji，否则，遍历剩余标签集合并获取次优对应的第五样本标签元素l_inext，将第五样本标签元素l_inext添加到分类器链中，同时从标签集合中移除对应第五样本标签元素l_inext，以此类推，进行整个链式结构的不断增长。

在本发明实施例中，基于贪心的分类器链增长过程如下表：

本发明实施例提供了一种分类器链标签序列的优化方法，通过获取待分类的输入样本；利用分类器链模型识别输入样本，生成样本标签集合，组成分类器链；利用共现分析获取样本标签集合对应的共现矩阵；利用共现矩阵的多个共现分支组成共现向量；根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序，提出了新的对应的标签顺序生成策略，加快算法生成序列，耗时少，得到的分类器链的标签序列准确率高，明显提升多标签分类效果，实现了对原有分类器链模型的性能优化。

在本实施例中，通过实验比较分析分类器链标签序列的优化方法工作如下：

首先，共选取了Yeast，Enron，Scene，Emotion，Slashdot-F，CAL500，medical七个数据集，领域涵盖文本，图片，生物等领域。用以上七个数据集验证本发明提出的基于贪心的分类器链(Greedy Classifier Chain，GCC)算法，并与初始的分类器链CC算法和改进的局部分类器链算法LOCC算法进行参考比较。具体所采用的数据集的各参数如下表：

Name	Instance	Features	labels	cardinality
					emotions	593	72	6	1.879
Enron	1702	1001	53	3.378
					Scene	2407	294	6	1.074
Yeast	2417	103	14	4.237
					Slashdot-F	1460	1079	22	1.18
CAL500	502	68	174	26.044
					medical	978	1449	45	1.245

其中，所有实验都采用python实现，借助与sklearn的部分库函数来进行相应的开发。在对于基分类器的选择上，本发明采用了SVM作为基分类器，核函数是高斯核函数，惩罚参数C＝100，所有算法的基分类器采用相同参数，以避免在基分类器的性能上存在差异从而影响序列提取本身所带来的效果。

在评价指标上，本发明选择Accuracy，F1_macro作为评价指标。

(1)Accuracy区别于通常分类任务所使用的Accuracy公式，计算公式如下：

由于通常分类任务使用的Accuracy公式过于严苛，为了更好反应多标签分类算法的性能，本发明采用多标签分类下对应的Accuracy的变式。其中S_i代表样本x_i的真实标签集合，Y_i代表样本x_i的预测标签集合。|S_i∩Y_i|表示的是预测正确的标签个数,|S_i∪Y_i|表示的是总出现的标签次数，Accuracy该项指标的数值越大越好，在实验结果的验证方面，采用五折交叉验证的方式，不同算法关于Accuracy的性能比较如下表：

Dataset	CC	LOCC	GCC
				yeast	0.4585	0.4649	0.4802
scene	0.5943	0.5938	0.6114
				emotions	0.3851	0.3665	0.3817
enron	0.4034	0.3997	0.4026
				Slashdot-F	0.3945	0.4147	0.4050
CAL500	0.2210	0.2233	0.2347
				medical	0.6964	0.7068	0.7032

其中，对应指标最优的算法结果为CC、LOCC、GCC三个算法中对应数据的最大值，在Accuracy指标上，可以看到GCC算法在除了medical和Slashdot-F数据集以外的其他4个数据集合上accuracy表现优越。CC算法在emotion这1个数据集上具有高的准确率，LOCC算法则在medical和Slashdot-F数据集上有更高准确率。可见，总体上本发明的GCC方法具有更好的多标签分类准确率，对传统的CC算法进行了很大的性能提升。

(2)F1_macro计算公式如下：

由于Accuracy主要对正确标签进行评估，为了同时考虑正确和错误样例，本发明采用宏观平均下的F1_macro指标。该公式中的p_i对应的是精确度Precision，r_i对应的是召回率Recall，F1_macro指标则是对精准度p和召回率r的调和平均。该指标越大对应算法综合性能也就越好。

不同算法关于F1_macro的性能比较如下表：

Dataset	CC	LOCC	GCC
				yeast	0.5585	0.5505	0.5637
scene	0.8547	0.8544	0.8578
				emotions	0.6563	0.6601	0.6598
enron	0.5834	0.5860	0.5845
				Slashdot-F	0.6503	0.6538	0.6508
CAL500	0.5098	0.5104	0.5103
				medical	0.6497	0.6477	0.6497

其中，在F1指标上，GCC算法性能相比较下更好，在4个数据集上具有最高的F1性能。传统CC算法的F1指标除了在在medical数据集上保持和GCC算法持平以外，其F1值性不具有任何优势。LOCC算法则在3个数据集上具有最高的F1性能。总体上本文的GCC方法具有更好的F1效能，在传统CC算法上有很大的性能提升。

本发明实施例中提供的分类器链标签序列的优化方法，其中，GCC算法的性能效果表现最佳，LOCC算法则性能其次，而CC算法则表现最差。由此可以推断本发明提供的分类器链标签序列的优化方法明显提升多标签分类效果，实现了对原有分类器链模型的性能优化。

实施例2

本发明实施例提供一种分类器链标签序列的优化***，如图2所示，包括：

样本获取模块1，用于获取待分类标签样本；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

分类器链模型识别模块2，用于获取待分类样本的样本标签集合；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

共现分析模块3，用于获取样本标签集合对应的共现矩阵；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

共现向量获取模块4，用于利用共现矩阵的多个共现分支获取共现向量；此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

分类器链标签顺序生成模块5，用于根据共现向量获取分类器链的起始分支，基于贪心策略生成所需的分类器链的顺序；此模块执行实施例1中的步骤S5所描述的方法，在此不再赘述。

本发明实施例提供一种分类器链标签序列的优化***，提出了一种基于共现分析的标签序列优化选择生成策略以提升分类器链模型的多标签分类性能，采用贪心的策略，从保证共现率最大的角度，依次从共现矩阵中提取信息并生成对应的分类器链顺序，明显提升多标签分类效果，实现了对原有分类器链模型的性能优化。

实施例3

本发明实施例提供一种终端，如图3所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的分类器链标签序列的优化方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的分类器链标签序列的优化方法。其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。其中，处理器401可以是中央处理器(英文：central processingunit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的分类器链标签序列的优化方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1中的分类器链标签序列的优化方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种分类器链标签序列的优化方法，其特征在于，包括：

获取待分类的输入样本；

利用共现分析获取样本标签集合对应的共现矩阵；

利用共现矩阵的多个共现分支组成共现向量；

2.根据权利要求1所述的分类器链标签序列的优化方法，其特征在于，共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。

3.根据权利要求1所述的分类器链标签序列的优化方法，其特征在于，所述利用共现矩阵的多个共现分支组成共现向量的步骤，包括：

由多个共现分支组成共现向量。

4.根据权利要求3所述的分类器链标签序列的优化方法，其特征在于，共现率为共现矩阵中各个元素与待分类输入样本个数的比值。

5.根据权利要求1所述的分类器链标签序列的优化方法，其特征在于，所述根据共现向量获取分类器链的起始分支，基于贪心策略生成分类器链标签的顺序的步骤，包括：

6.根据权利要求5所述的分类器链标签序列的优化方法，其特征在于，所述通过对分类器链末尾的标签寻找对应最大的共现分支，进行整个链式结构的不断增长的步骤，包括：

7.一种分类器链标签序列的优化***，其特征在于，包括：

样本获取模块，用于获取待分类标签样本；

共现分析模块，用于获取样本标签集合对应的共现矩阵；

8.一种终端，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-6任一所述的分类器链标签序列的优化方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-6任一所述的分类器链标签序列的优化方法。