CN108364016A

CN108364016A - 基于多分类器的渐进式半监督分类方法

Info

Publication number: CN108364016A
Application number: CN201810030217.5A
Authority: CN
Inventors: 余志文; 董习斌; 陆野
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-08-03

Abstract

本发明公开了一种基于多分类器的渐进式半监督分类方法，涉及人工智能集成学习领域，包括以下步骤：(1)引入训练数据集；(2)数据归一化；(3)生成一系列随机子空间；(4)通过渐进式训练集生成过程引入未标记数据，通过自适应策略进行样本筛选对训练集进行扩充并且训练分类器集合；(5)对未标记样本进行分类，加入到训练集并对分类器集合进行更新；(6)引入测试集，计算分类准确率。所述方法采用了随机子空间技术实现数据的降维，提出渐进式的样本产生过程和自适应策略扩充训练集，减少了样本标记数据不足的问题，提高了分类器的性能。

Description

基于多分类器的渐进式半监督分类方法

技术领域

本发明涉及人工智能集成学习领域，具体涉及一种基于多分类器的渐进式半监督分类方法。

背景技术

数据挖掘领域经常会处理拥有很少数量的标记样本的数据集，传统的有监督的学习在训练样本数量不足的时候训练出的学习模型分类效果会比较差，这时候往往需要耗费大量的人力物力对现有数据进行标注，为了解决这种问题，越来越多的研究者将注意力放到了怎么利用无标签和有标签数据的半监督分类领域中，在这种情况下，半监督学习技术被证明是一种有效的方法。

然而传统的半监督学习方法有以下两点局限性：

一、大多数传统方法在高维有限标记数据的情况下不能得到令人满意的结果；

二、很少有方法考虑怎么采用优化过程来扩充训练集。

近年来，为了解决单一半监督分类方法存在的局限性，相关论文提出了随机子空间技术等采样技术，利用属性采样来学习高维数据，实验证明取得了良好的效果，能够有效降低数据处理复杂度。此外，优化算法在样本选择方面也得到了一定运用，用来对未标记数据进行筛选，实验证明单目标优化和多目标优化均能有效应用于半监督分类中。

发明内容

本发明的目的是针对现有技术的不足，为解决现有技术中对高维数据处理和通过半监督学习自适应扩充训练集的问题，提供了一种基于多分类器的渐进式半监督分类方法，所述方法采用随机子空间技术实现数据的降维，提出渐进式的样本产生过程和自适应策略扩充训练集，减少了样本标记数据不足的问题，提高了分类器的性能。

首先我们采用随机子空间技术探索数据集在子空间下的隐式结构，并且训练出分类器集合，然后通过渐进式训练集生成过程(PTSGP)和自适应样本选择过程(SESSP)来扩充原有的训练集，最后利用新的数据集来更新分类器集合。

本发明技术方案的基本思路是：首先将数据集按照比例分为训练集和测试集，对测试集进行随机子空间采样，并在每个子空间内训练出分类器集合，接下来在对应子空间的数据集上应用渐进式训练集生成过程(PTSGP)和自适应样本选择过程(SESSP)技术，通过引入未标记样本来对训练集样本进行扩充和通过自适应策略对样本进行选择，并且利用扩充后的样本来优化原有分类器；最后将测试集投影到对应子空间下，并用分类器集合进行投票来得到最终的结果，统计分类准确率。

本发明的目的可以通过如下技术方案实现：

基于多分类器的渐进式半监督分类方法，所述方法包括以下步骤：

S1、引入训练数据集，包括标记数据集T_l和未标记数据集T_u；

S2、对训练数据集进行数据归一化；

S3、在训练数据集原有特征空间上随机抽样生成一系列随机子空间，包括以下子步骤：

S3a、统计得到高维度数据的特征维度D，由此确定子空间维度

S3b、对训练数据集的特征列采用随机子空间技术进行采样，构造子空间s_i；

S3c、重复步骤S3a和S3b，直到产生随机子空间集合S，其中S＝{s₁,s₂,...,s_B}；

S4、根据步骤S3得到的随机子空间集合S，训练分类器集合ψ＝{ψ₁,ψ₂,...,ψ_B}，并通过渐进式训练集生成过程引入未标记数据和通过自适应策略进行样本筛选，不断更新分类器集合，包括以下子步骤：

S4a、令分类器集合ψ＝{}；

S4b、在子空间s_i∈S内，根据已标记的数据集训练出不同的分类器c_i，根据分类器的准确率赋予其权重，得到分类器集合ψ_b＝{c₁,c₂,...,c_n}；

S4c、引入未标记数据集，利用渐进式训练集生成过程和自适应策略对样本进行筛选，产生新的训练集T′_l；

S4d、利用新的训练集T′_l更新分类器集合ψ_b中的分类器和分类器对应的权重，ψ＝ψ∪ψ_b；

S4e、重复步骤S4b-S4d，得到分类器集合ψ＝{ψ₁,ψ₂,...,ψ_B}；

S5、对未标记样本进行分类，包括以下子步骤：

S5a、输入未标记数据集T_u；

S5b、取出一个测试样本x_i∈T_u进行分类；

S5c、根据步骤S3得到的子空间对测试样本x_i进行对应空间下的适配采样；

S5d、使用每个子空间的分类器集合ψ_i对相对应的样本进行分类，采用权重投票原则得到相对应的结果y_i；

S5e、统计每个子空间得到的分类结果，将被预测最多的分类结果作为最终分类结果；

S5f、重复步骤S5b-S5e，直到所有未标记样本标记完毕，得到带标记的样本T_u'；

S6、引入测试集，得到分类准确率，包括以下子步骤：

S6a、输入测试样本集T；

S6b、引入步骤S5得到的带标记的样本T_u'和原有的标记数据集T_l，重新训练分类器集合ψ，对测试样本集T中的测试样本逐一进行预测得到结果L_t；

S6c、对比真实标签L和结果L_t，计算出最后的分类准确率。

进一步地，步骤S2所述对训练数据集进行数据归一化的具体步骤是：

统计得到第d列数据的最大值w(d)_max和第d列数据的最小值w(d)_min，将第d列数据根据如下的公式进行转换：

其中，i∈{1,2,...,n},d∈{1,2,...,D}，为第d列第i个数据，为第d列第i个数据更新之后的数据，n为训练数据集中样本总的数量，D为训练数据集对应的维度数。

进一步地，步骤S3b所述对训练数据集的特征列采用随机子空间技术进行采样，构造子空间s_i的具体步骤是：

(1)、产生一个长度等于训练数据集维度的序列，序列的每一位代表对应的特征是否被选择；

(2)、遍历序列的每一个位置，生成一个随机数，如果大于0.5，则表示该位置代表的特征被选中，将该位置1，否则置0；

(3)、当所有特征被遍历完，将对应位置为1的所有特征加入子空间s_i。

进一步地，步骤S4b所述在子空间s_i∈S内，根据已标记的数据集训练出不同的分类器c_i，根据分类器的准确率赋予其权重的具体过程为：

所述子空间s_i本质上为一个0/1序列，对于每一个序列，遍历对应位置上的数值，当该位置上的数值为1时，将该位置对应特征加入随机子空间集合S并用于后续的训练，在对应样本上训练一系列分类器，包括决策树、支持向量机和随机森林分类器，然后利用验证集评估分类器性能，并将分类器对应的准确率归一化作为各自的权重。

进一步地，步骤S4c所述引入未标记数据集，利用渐进式训练集生成过程和自适应策略对样本进行筛选，产生新的训练集T′_l，具体过程为：

(1)、令T′_l＝T_l；

(2)、利用采样方法从未标记数据集T_u中在对应子空间下进行采样，此处选取了bagging方法进行采样，重复采取E个样本集合，最终得到T_o＝{O₁,O₂...O_e}；

(3)、对于O_e∈T_o中的样本x_i，利用从步骤S4b得到的分类器集合ψ_b中的分类器依次对其类别进行预测，得到标签集合Y_e；

(4)、令T′_l＝T′_l∪O_e,利用T′_l重新训练分类器得到分类器集合ψ'_b；

(5)、对于O_e∈T_o中的每一个样本x_i，利用更新后的分类器集合ψ'_b中的分类器依次对其类别进行预测，得到标签集合Y_e'；

(6)、比较Y_e和Y_e'来得到相似分数α_e；

(7)、比较O_e和T′_l来得到相关系数β_e；

(8)、计算O_e最后的分数γ_e＝w1α_e+(1-w1)β_e；

(9)、重复步骤(3)-步骤(8)，得到每个O_e最后的分数γ_e，最终选择O使得O＝argmax_Oeγ_e；

(10)、对O采用自优化样本选择过程来产生被选择的样本集合O'；

(11)、T′_l＝T′_l∪O'；

(12)、T_o＝T_o-O；

(13)、用T′_l更新分类器集合ψ'_b中的分类器并且更新相应的权重；

(14)、重复步骤(3)-步骤(13)，直到T_o＝Φ；

(15)、输出新的训练集T′_l。

进一步地，所述相似分数α_e的计算过程为：

其中，y_i∈Y_e,y′_i∈Y′_e,n_e为O_e中的样例数；

所述相关系数β_e的计算过程为：

(1)计算

(2)计算

(3)计算

(4)计算

(5)计算

其中K为类别的数量，n_l为新训练集T′_l中的样例数。

进一步地，步骤(10)中所述对O采用自优化样本选择过程来产生被选择的样本集合O'的具体过程为：

(1)对应O中的样例随机产生的引导向量V＝{v₁,v₂,...v_H},其中v_h＝{v_h1,v_h2,...,v_hQ}，h∈{1,...,H},H是引导向量的数量，Q是O中的样例数，v_hq＝1代表O中的第q个样例被选择，v_hq＝0代表O中的第q个样例不被选择，其中q∈{1,...,Q}；

(2)根据引导向量v_h从O中产生样本集O'_h，用ψ'_b中的分类器预测O'_h中样例的标签Y_h；

(3)用T′_l∪O'_h重新训练分类器；

(4)用新的分类器来预测O'_h中样例的标签Y′_h；

(5)比较Y_h和Y′_h来得到相似分数α_h；

(6)比较样本集合O'_h和T′_l得到相关系数β_h；

(7)计算最后的分数γ_h＝w₂α_h+(1-w₂)β_h；

(8)选择引导向量

(9)从v₁的局部环境中找到向量v₂，应用全局竞争操作产生两个新的引导向量v′₁、v′₂；

(10)计算新的引导向量v′₁、v'₂的最终分数γ′₁和γ'₂；

(11)V＝V+v′₁+v'₂；

(12)从V中移除最终分数最小的两个引导向量；

(13)运用局部竞争操作来产生新的引导向量v'₃；

(14)计算v'₃的最终分数γ'₃；

(15)V＝V+v'₃；

(16)移除V中最终得分最小的引导向量；

(17)重复步骤(2)-步骤(16)直到满足最大迭代次数；

(18)输出样本子集

进一步地，步骤(9)中所述从v₁的局部环境中找到向量v₂，应用全局竞争操作产生两个新的引导向量v′₁、v'₂，具体过程为：

(1)对于v₁向量，寻找到其k个最邻近向量，距离度量采用欧式距离；

(2)对于v₁的最邻近向量中的每一个向量，计算其与v₁的模糊成员关系，计算公式为χ(v_j,v₁)代表v_j和v₁的欧几里德距离,t是由用户设置的参数；

(3)引导向量总的模糊成员值计算为：

(4)在局部环境中的第一个引导向量的概率区间定义为：

(5)第j个引导向量(j>1)的概率区间定义如下：

(6)产生一个0到1之间的随机数r₁，如果r₁落在了局部环境的第j个引导向量的概率区间，它将会被选中，v₂＝v_j；

(7)全局竞争操作的定义是：给定引导向量v₁和从局部环境选择的v₂,一个交换位置被随机选择，竞争操作被应用，v₁、v₂在全局竞争操作之后变为v′₁、v'₂：

进一步地，所述运用局部竞争操作来产生新的引导向量v'₃的具体过程为：对于给定的引导向量v₃,一个位置r₃随机产生，其中r₃∈{1,...,Q}，v₃在经过竞争操作后变为v′₃：

进一步地，步骤S6c中所述对比真实标签L和结果L_t，计算出最后的分类准确率的公式为：

其中，TP表示分类准确的样本数，FP表示分类错误的样本数，在不存在不平衡的问题下，准确率是一个有效地评估指标。

本发明与现有技术相比，具有如下优点和有益效果：

与传统半监督分类算法相比，本发明提供的基于多分类器的渐进式半监督分类方法准确性、稳定性和鲁棒性都有着非常大的优势。主要有如下创新点：第一，采用了随机子空间技术来探索数据集在子空间下的隐式结构，对高维数据集进行了有效降维，减少了计算复杂度；第二，利用渐进式样本生成技术来引入新的标签数据，对原有数据集进行扩充，从而提高了分类器的性能，使得分类结果精确度高；第三，在引入新的标签数据时，同时采用了自适应的策略，运用邻域知识来实现样本集合之间的交换、变异等操作，该自适应过程能够对样本进行进一步的筛选，减小了引入降低分类器性能样本的概率，提高了分类器的准确率。

附图说明

图1为本发明实施例基于多分类器的渐进式半监督分类方法流程图。

图2为本发明实施例基于多分类器的渐进式半监督分类方法与传统单一半监督分类算法的准确率对比表。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种基于多分类器的渐进式半监督分类方法，流程图如图1所示，包括以下步骤：

步骤1，输入训练数据集

将数据集按9:1的比例划分为训练集和测试集，并将训练集输入到模型训练过程中，行向量对应样本维，列向量对应属性维；

步骤2，数据归一化

其中，i∈{1,2,...,n},d∈{1,2,...,D}，为第d列第i个数据，为第d列第i个数据更新之后的数据，n为训练数据集中样本总的数量，D为训练数据集对应的维度数；

步骤3，在原有特征空间上随机抽样生成随机子空间集合S

首先统计得到高维度数据的特征维度D，由此确定子空间维度接下来是采样过程，产生一个全部为0的序列，位数对应着数据集维度，序列的每一位代表对应的特征是否被选择，逐一遍历每一个序列位置，生成一个随机数，如果大于0.5则表示该位置代表的特征被选中，将该位置1，否则置0。当所有特征被遍历完，位置上为1的特征作为被选择的特征加入特征子空间s_i，将s_i加入子空间集合S，这个过程反复进行最终得到一个随机子空间集合S；

步骤4，根据步骤3得到的子空间集合S，构造分类器集合ψ＝{ψ₁,ψ₂,...,ψ_B}，并且通过引入未标记数据和自适应样本筛选过程来得到扩充后的训练集T′₁用于更新分类器权重；

首先令分类器集合ψ＝{}，用于存储分类器集合，对于s_i∈S，根据已标记的数据集训练出一系列分类器c_i，根据分类器的性能赋予权重，所得的一系列子空间本质上都是一个0、1序列，对于每一个序列，我们一次遍历对应位上的数值，当该位上的数值为1时，将该位对应特征加入我们的子空间训练数据集特征集合并用于后续的训练，在对应样本上训练一系列分类器，包括决策树，支持向量机，随机森林等分类器，然后利用验证集评估分类器性能，并且将分类器对应的准确率归一化作为各自的权重p，记得到的分类器集合为ψ_b＝{c₁,c₂,...,c_n}，ψ＝ψ∪ψ_b，最终我们得到了分类器集合。接下来利用渐进式训练集生成过程产生新的训练集T′_l，具体过程如下：

首先利用采样方法从未标记数据集未标记数据集T_u中在对应子空间下进行采样，此处选取了bagging方法重复采取E个样本集合，最终得到T_o＝{O₁,O₂...O_e}，对于O_e∈T_o中的样本x_i，利用现有的分类器集合ψ_b中的分类器依次对其类别进行预测，得到标签集合Y_e，接下来令T′_l＝T′_l∪O_e,利用T′_l重新训练分类器得到分类器集合ψ'_b，对于O_e∈T_o中的样本x_i，利用更新后的分类器集合ψ'_b中的分类器依次对其类别进行预测，得到标签集合Y_e'，比较Y_e和Y_e'来得到相似分数α_e：

其中，y_i∈Y_e,y_i'∈Y_e',n_e为O_e中的样例数；接下来比较O_e和T′_l来得到相关系数β_e，所述相关系数β_e的计算过程为：

(1)计算

(2)计算

(3)计算

(4)计算

(5)计算

其中K为类别的数量，n_l为新训练集T′_l中的样例数，然后计算O_e最后的分数γ_e＝w1α_e+(1-w1)β_e；得到每个O_e最后的分数γ_e，最终选择O使得O＝argmax_Oeγ_e，接下来对O采用自优化样本选择过程来产生被选择的样本集合O'，具体过程是：

对应O中的样例随机产生的引导向量V＝{v₁,v₂,...v_H},其中v_h＝{v_h1,v_h2,...,v_hQ}，h∈{1,...,H},H是引导向量的数量，Q是O中的样例数，v_hq＝1代表O中的第q个样例被选择，v_hq＝0代表O中的第q个样例不被选择，其中q∈{1,...,Q}；接下来根据引导向量v_h从O中产生样本集O'_h，用ψ'_b中的分类器预测O'_h中样例的标签Y_h；然后用T′_l∪O'_h重新训练分类器，用新的分类器来预测O'_h中样例的标签Y′_h，比较Y_h和Y′_h来得到相似分数α_h，比较样本集合O'_h和T′_l得到相关系数β_h，计算最后的分数γ_h＝w₂α_h+(1-w₂)β_h。对于每一个引导向量计算其最后得分，选择引导向量从v₁的局部环境中找到向量v₂，应用全局竞争操作产生两个新的引导向量v′_l、v'₂，具体过程为：对于v₁向量，寻找到其k个最邻近向量，距离度量采用欧式距离，对于v₁的最邻近向量中的每一个向量，计算其与v₁的模糊成员关系，计算公式为χ(v_j,v₁)代表v_j和v₁的欧几里德距离,t是由用户设置的参数，引导向量总的模糊成员值计算为：在局部环境中的第一个引导向量的概率区间定义为：第j个引导向量(j>1)的概率区间定义如下：产生一个0到1之间的随机数r₁，如果r₁落在了局部环境的第j个引导向量的概率区间，它将会被选中，v₂＝v_j；全局竞争操作的定义是：给定引导向量v₁和从局部环境选择的v₂,一个交换位置被随机选择，竞争操作被应用，v₁、v₂在全局竞争操作之后变为v′₁、v'₂：

计算新的引导向量v′₁、v'₂的最终分数γ′₁和γ'₂，V＝V+v′₁+v'₂，从V中移除最终分数最小的两个引导向量，运用局部竞争操作来产生新的引导向量v'₃，具体过程为：对于给定的引导向量v₃,一个位置r₃随机产生，其中r₃∈{1,...,Q}，v₃在经过竞争操作后变为v′₃：

计算v'₃的最终分数γ'₃，V＝V+v'₃，移除V中最终得分最小的引导向量，重复以上过程直到满足最大迭代次数，输出样本子集T′_l＝T′_l∪O'，T_o＝T_o-O，用T′_l更新分类器集合ψ'_b中的分类器并且更新相应的权重，重复上述过程直到T_o＝Φ，最终得到新的训练集T′_l。最后利用新的训练集T′_l更新分类器集合ψ_b中的分类器和分类器对应的权重，并且令ψ＝ψ∪ψ_b，最终可以得到经过扩充样本训练更新后的分类器集合ψ＝{ψ₁,ψ₂,...,ψ_B}；

步骤5，对未标记样本进行分类

输入未标记数据集T_u，取出一个测试样本x_i∈T_u进行分类，根据子空间对测试样本x_i进行对应空间下的适配采样，使用每个子空间的分类器集合ψ_i对相对应的样本进行分类，采用权重投票原则得到相对应的结果y_i，统计每个子空间得到的分类结果，将被预测最多的分类结果作为最终分类结果，重复以上步骤，直到所有未标记样本标记完毕，得到带标记的样本T′_u；

步骤6，引入测试集，得到分类准确率

输入测试样本集T，引入带标记的样本T′_u和原有的标记数据集T_l，重新训练分类器集合ψ，对测试样本集T中的测试样本逐一进行预测得到结果L_t，对比真实标签L和结果L_t，计算出最后的分类准确率，计算公式如下：

图2为本实施例基于多分类器的渐进式半监督分类方法与传统单一半监督分类算法的准确率对比表，从图中可以看出，和现有达到最高水准的半监督分类方法相比较，PSEMISEL方法在18个数据集中的9个数据集上取得了更好的结果，例如，在Iris数据集上，PSEMISEL方法平均准确率为0.8961，相对于LaplacianSVM方法平均准确率提升0.0717，在Segment数据集上，PSEMISEL方法平均准确率为0.9226，相对于LaplacianSVM方法平均准确率提升0.0998。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于多分类器的渐进式半监督分类方法，其特征在于，所述方法包括以下步骤：

S2、对训练数据集进行数据归一化；

S3a、统计得到高维度数据的特征维度D，由此确定子空间维度

S4a、令分类器集合ψ＝{}；

S4c、引入未标记数据集，利用渐进式训练集生成过程和自适应策略对样本进行筛选，产生新的训练集T_l'；

S4d、利用新的训练集T_l'更新分类器集合ψ_b中的分类器和分类器对应的权重，ψ＝ψ∪ψ_b；

S4e、重复步骤S4b-S4d，得到分类器集合ψ＝{ψ₁,ψ₂,...,ψ_B}；

S5、对未标记样本进行分类，包括以下子步骤：

S5a、输入未标记数据集T_u；

S5b、取出一个测试样本x_i∈T_u进行分类；

S6、引入测试集，得到分类准确率，包括以下子步骤：

S6a、输入测试样本集T；

S6c、对比真实标签L和结果L_t，计算出最后的分类准确率。

2.根据权利要求1所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤S2所述对训练数据集进行数据归一化的具体步骤是：

3.根据权利要求1所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤S3b所述对训练数据集的特征列采用随机子空间技术进行采样，构造子空间s_i的具体步骤是：

4.根据权利要求1所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤S4b所述在子空间s_i∈S内，根据已标记的数据集训练出不同的分类器c_i，根据分类器的准确率赋予其权重的具体过程为：

5.根据权利要求1所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤S4c所述引入未标记数据集，利用渐进式训练集生成过程和自适应策略对样本进行筛选，产生新的训练集T_l'，具体过程为：

(1)、令T_l'＝T_l；

(4)、令T_l'＝T_l'∪O_e,利用T_l'重新训练分类器得到分类器集合ψ'_b；

(6)、比较Y_e和Y_e'来得到相似分数α_e；

(7)、比较O_e和T_l'来得到相关系数β_e；

(8)、计算O_e最后的分数γ_e＝w1α_e+(1-w1)β_e；

(11)、T_l'＝T_l'∪O'；

(12)、T_o＝T_o-O；

(13)、用T_l'更新分类器集合ψ'_b中的分类器并且更新相应的权重；

(14)、重复步骤(3)-步骤(13)，直到T_o＝Φ；

(15)、输出新的训练集T_l'。

6.根据权利要求5所述的基于多分类器的渐进式半监督分类方法，其特征在于，所述相似分数α_e的计算过程为：

其中，y_i∈Y_e,y_i'∈Y_e',n_e为O_e中的样例数；

所述相关系数β_e的计算过程为：

(1)计算

(2)计算

(3)计算

(4)计算

(5)计算

其中K为类别的数量，n_l为新训练集T_l'中的样例数。

7.根据权利要求5所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤(10)中所述对O采用自优化样本选择过程来产生被选择的样本集合O'的具体过程为：

(3)用T_l'∪O'_h重新训练分类器；

(4)用新的分类器来预测O'_h中样例的标签Y_h'；

(5)比较Y_h和Y_h'来得到相似分数α_h；

(6)比较样本集合O'_h和T_l'得到相关系数β_h；

(7)计算最后的分数γ_h＝w₂α_h+(1-w₂)β_h；

(8)选择引导向量

(9)从v₁的局部环境中找到向量v₂，应用全局竞争操作产生两个新的引导向量v₁'、v₂'；

(10)计算新的引导向量v₁'、v'₂的最终分数γ₁'和γ'₂；

(11)V＝V+v₁'+v'₂；

(12)从V中移除最终分数最小的两个引导向量；

(13)运用局部竞争操作来产生新的引导向量v'₃；

(14)计算v'₃的最终分数γ'₃；

(15)V＝V+v'₃；

(16)移除V中最终得分最小的引导向量；

(17)重复步骤(2)-步骤(16)直到满足最大迭代次数；

(18)输出样本子集

8.根据权利要求7所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤(9)中所述从v₁的局部环境中找到向量v₂，应用全局竞争操作产生两个新的引导向量v₁'、v'₂，具体过程为：

(3)引导向量总的模糊成员值计算为：

(4)在局部环境中的第一个引导向量的概率区间定义为：

(5)第j个引导向量(j>1)的概率区间定义如下：

(7)全局竞争操作的定义是：给定引导向量v₁和从局部环境选择的v₂,一个交换位置被随机选择，竞争操作被应用，v₁、v₂在全局竞争操作之后变为v'₁、v'₂：

9.根据权利要求7所述的基于多分类器的渐进式半监督分类方法，其特征在于，所述运用局部竞争操作来产生新的引导向量v'₃的具体过程为：对于给定的引导向量v₃,一个位置r₃随机产生，其中r₃∈{1,...,Q}，v₃在经过竞争操作后变为v'₃：

10.根据权利要求1所述的基于多分类器的渐进式半监督分类方法，其特征在于，步骤S6c中所述对比真实标签L和结果L_t，计算出最后的分类准确率的公式为：