CN108364016A - 基于多分类器的渐进式半监督分类方法 - Google Patents
基于多分类器的渐进式半监督分类方法 Download PDFInfo
- Publication number
- CN108364016A CN108364016A CN201810030217.5A CN201810030217A CN108364016A CN 108364016 A CN108364016 A CN 108364016A CN 201810030217 A CN201810030217 A CN 201810030217A CN 108364016 A CN108364016 A CN 108364016A
- Authority
- CN
- China
- Prior art keywords
- sample
- grader
- training
- vector
- subspace
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多分类器的渐进式半监督分类方法,涉及人工智能集成学习领域,包括以下步骤:(1)引入训练数据集;(2)数据归一化;(3)生成一系列随机子空间;(4)通过渐进式训练集生成过程引入未标记数据,通过自适应策略进行样本筛选对训练集进行扩充并且训练分类器集合;(5)对未标记样本进行分类,加入到训练集并对分类器集合进行更新;(6)引入测试集,计算分类准确率。所述方法采用了随机子空间技术实现数据的降维,提出渐进式的样本产生过程和自适应策略扩充训练集,减少了样本标记数据不足的问题,提高了分类器的性能。
Description
技术领域
本发明涉及人工智能集成学习领域,具体涉及一种基于多分类器的渐进式半监督分类方法。
背景技术
数据挖掘领域经常会处理拥有很少数量的标记样本的数据集,传统的有监督的学习在训练样本数量不足的时候训练出的学习模型分类效果会比较差,这时候往往需要耗费大量的人力物力对现有数据进行标注,为了解决这种问题,越来越多的研究者将注意力放到了怎么利用无标签和有标签数据的半监督分类领域中,在这种情况下,半监督学习技术被证明是一种有效的方法。
然而传统的半监督学习方法有以下两点局限性:
一、大多数传统方法在高维有限标记数据的情况下不能得到令人满意的结果;
二、很少有方法考虑怎么采用优化过程来扩充训练集。
近年来,为了解决单一半监督分类方法存在的局限性,相关论文提出了随机子空间技术等采样技术,利用属性采样来学习高维数据,实验证明取得了良好的效果,能够有效降低数据处理复杂度。此外,优化算法在样本选择方面也得到了一定运用,用来对未标记数据进行筛选,实验证明单目标优化和多目标优化均能有效应用于半监督分类中。
发明内容
本发明的目的是针对现有技术的不足,为解决现有技术中对高维数据处理和通过半监督学习自适应扩充训练集的问题,提供了一种基于多分类器的渐进式半监督分类方法,所述方法采用随机子空间技术实现数据的降维,提出渐进式的样本产生过程和自适应策略扩充训练集,减少了样本标记数据不足的问题,提高了分类器的性能。
首先我们采用随机子空间技术探索数据集在子空间下的隐式结构,并且训练出分类器集合,然后通过渐进式训练集生成过程(PTSGP)和自适应样本选择过程(SESSP)来扩充原有的训练集,最后利用新的数据集来更新分类器集合。
本发明技术方案的基本思路是:首先将数据集按照比例分为训练集和测试集,对测试集进行随机子空间采样,并在每个子空间内训练出分类器集合,接下来在对应子空间的数据集上应用渐进式训练集生成过程(PTSGP)和自适应样本选择过程(SESSP)技术,通过引入未标记样本来对训练集样本进行扩充和通过自适应策略对样本进行选择,并且利用扩充后的样本来优化原有分类器;最后将测试集投影到对应子空间下,并用分类器集合进行投票来得到最终的结果,统计分类准确率。
本发明的目的可以通过如下技术方案实现:
基于多分类器的渐进式半监督分类方法,所述方法包括以下步骤:
S1、引入训练数据集,包括标记数据集Tl和未标记数据集Tu;
S2、对训练数据集进行数据归一化;
S3、在训练数据集原有特征空间上随机抽样生成一系列随机子空间,包括以下子步骤:
S3a、统计得到高维度数据的特征维度D,由此确定子空间维度
S3b、对训练数据集的特征列采用随机子空间技术进行采样,构造子空间si;
S3c、重复步骤S3a和S3b,直到产生随机子空间集合S,其中S={s1,s2,...,sB};
S4、根据步骤S3得到的随机子空间集合S,训练分类器集合ψ={ψ1,ψ2,...,ψB},并通过渐进式训练集生成过程引入未标记数据和通过自适应策略进行样本筛选,不断更新分类器集合,包括以下子步骤:
S4a、令分类器集合ψ={};
S4b、在子空间si∈S内,根据已标记的数据集训练出不同的分类器ci,根据分类器的准确率赋予其权重,得到分类器集合ψb={c1,c2,...,cn};
S4c、引入未标记数据集,利用渐进式训练集生成过程和自适应策略对样本进行筛选,产生新的训练集T′l;
S4d、利用新的训练集T′l更新分类器集合ψb中的分类器和分类器对应的权重,ψ=ψ∪ψb;
S4e、重复步骤S4b-S4d,得到分类器集合ψ={ψ1,ψ2,...,ψB};
S5、对未标记样本进行分类,包括以下子步骤:
S5a、输入未标记数据集Tu;
S5b、取出一个测试样本xi∈Tu进行分类;
S5c、根据步骤S3得到的子空间对测试样本xi进行对应空间下的适配采样;
S5d、使用每个子空间的分类器集合ψi对相对应的样本进行分类,采用权重投票原则得到相对应的结果yi;
S5e、统计每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;
S5f、重复步骤S5b-S5e,直到所有未标记样本标记完毕,得到带标记的样本Tu';
S6、引入测试集,得到分类准确率,包括以下子步骤:
S6a、输入测试样本集T;
S6b、引入步骤S5得到的带标记的样本Tu'和原有的标记数据集Tl,重新训练分类器集合ψ,对测试样本集T中的测试样本逐一进行预测得到结果Lt;
S6c、对比真实标签L和结果Lt,计算出最后的分类准确率。
进一步地,步骤S2所述对训练数据集进行数据归一化的具体步骤是:
统计得到第d列数据的最大值w(d)max和第d列数据的最小值w(d)min,将第d列数据根据如下的公式进行转换:
其中,i∈{1,2,...,n},d∈{1,2,...,D},为第d列第i个数据,为第d列第i个数据更新之后的数据,n为训练数据集中样本总的数量,D为训练数据集对应的维度数。
进一步地,步骤S3b所述对训练数据集的特征列采用随机子空间技术进行采样,构造子空间si的具体步骤是:
(1)、产生一个长度等于训练数据集维度的序列,序列的每一位代表对应的特征是否被选择;
(2)、遍历序列的每一个位置,生成一个随机数,如果大于0.5,则表示该位置代表的特征被选中,将该位置1,否则置0;
(3)、当所有特征被遍历完,将对应位置为1的所有特征加入子空间si。
进一步地,步骤S4b所述在子空间si∈S内,根据已标记的数据集训练出不同的分类器ci,根据分类器的准确率赋予其权重的具体过程为:
所述子空间si本质上为一个0/1序列,对于每一个序列,遍历对应位置上的数值,当该位置上的数值为1时,将该位置对应特征加入随机子空间集合S并用于后续的训练,在对应样本上训练一系列分类器,包括决策树、支持向量机和随机森林分类器,然后利用验证集评估分类器性能,并将分类器对应的准确率归一化作为各自的权重。
进一步地,步骤S4c所述引入未标记数据集,利用渐进式训练集生成过程和自适应策略对样本进行筛选,产生新的训练集T′l,具体过程为:
(1)、令T′l=Tl;
(2)、利用采样方法从未标记数据集Tu中在对应子空间下进行采样,此处选取了bagging方法进行采样,重复采取E个样本集合,最终得到To={O1,O2...Oe};
(3)、对于Oe∈To中的样本xi,利用从步骤S4b得到的分类器集合ψb中的分类器依次对其类别进行预测,得到标签集合Ye;
(4)、令T′l=T′l∪Oe,利用T′l重新训练分类器得到分类器集合ψ'b;
(5)、对于Oe∈To中的每一个样本xi,利用更新后的分类器集合ψ'b中的分类器依次对其类别进行预测,得到标签集合Ye';
(6)、比较Ye和Ye'来得到相似分数αe;
(7)、比较Oe和T′l来得到相关系数βe;
(8)、计算Oe最后的分数γe=w1αe+(1-w1)βe;
(9)、重复步骤(3)-步骤(8),得到每个Oe最后的分数γe,最终选择O使得O=argmaxOeγe;
(10)、对O采用自优化样本选择过程来产生被选择的样本集合O';
(11)、T′l=T′l∪O';
(12)、To=To-O;
(13)、用T′l更新分类器集合ψ'b中的分类器并且更新相应的权重;
(14)、重复步骤(3)-步骤(13),直到To=Φ;
(15)、输出新的训练集T′l。
进一步地,所述相似分数αe的计算过程为:
其中,yi∈Ye,y′i∈Y′e,ne为Oe中的样例数;
所述相关系数βe的计算过程为:
(1)计算
(2)计算
(3)计算
(4)计算
(5)计算
其中K为类别的数量,nl为新训练集T′l中的样例数。
进一步地,步骤(10)中所述对O采用自优化样本选择过程来产生被选择的样本集合O'的具体过程为:
(1)对应O中的样例随机产生的引导向量V={v1,v2,...vH},其中vh={vh1,vh2,...,vhQ},h∈{1,...,H},H是引导向量的数量,Q是O中的样例数,vhq=1代表O中的第q个样例被选择,vhq=0代表O中的第q个样例不被选择,其中q∈{1,...,Q};
(2)根据引导向量vh从O中产生样本集O'h,用ψ'b中的分类器预测O'h中样例的标签Yh;
(3)用T′l∪O'h重新训练分类器;
(4)用新的分类器来预测O'h中样例的标签Y′h;
(5)比较Yh和Y′h来得到相似分数αh;
(6)比较样本集合O'h和T′l得到相关系数βh;
(7)计算最后的分数γh=w2αh+(1-w2)βh;
(8)选择引导向量
(9)从v1的局部环境中找到向量v2,应用全局竞争操作产生两个新的引导向量v′1、v′2;
(10)计算新的引导向量v′1、v'2的最终分数γ′1和γ'2;
(11)V=V+v′1+v'2;
(12)从V中移除最终分数最小的两个引导向量;
(13)运用局部竞争操作来产生新的引导向量v'3;
(14)计算v'3的最终分数γ'3;
(15)V=V+v'3;
(16)移除V中最终得分最小的引导向量;
(17)重复步骤(2)-步骤(16)直到满足最大迭代次数;
(18)输出样本子集
进一步地,步骤(9)中所述从v1的局部环境中找到向量v2,应用全局竞争操作产生两个新的引导向量v′1、v'2,具体过程为:
(1)对于v1向量,寻找到其k个最邻近向量,距离度量采用欧式距离;
(2)对于v1的最邻近向量中的每一个向量,计算其与v1的模糊成员关系,计算公式为χ(vj,v1)代表vj和v1的欧几里德距离,t是由用户设置的参数;
(3)引导向量总的模糊成员值计算为:
(4)在局部环境中的第一个引导向量的概率区间定义为:
(5)第j个引导向量(j>1)的概率区间定义如下:
(6)产生一个0到1之间的随机数r1,如果r1落在了局部环境的第j个引导向量的概率区间,它将会被选中,v2=vj;
(7)全局竞争操作的定义是:给定引导向量v1和从局部环境选择的v2,一个交换位置被随机选择,竞争操作被应用,v1、v2在全局竞争操作之后变为v′1、v'2:
进一步地,所述运用局部竞争操作来产生新的引导向量v'3的具体过程为:对于给定的引导向量v3,一个位置r3随机产生,其中r3∈{1,...,Q},v3在经过竞争操作后变为v′3:
进一步地,步骤S6c中所述对比真实标签L和结果Lt,计算出最后的分类准确率的公式为:
其中,TP表示分类准确的样本数,FP表示分类错误的样本数,在不存在不平衡的问题下,准确率是一个有效地评估指标。
本发明与现有技术相比,具有如下优点和有益效果:
与传统半监督分类算法相比,本发明提供的基于多分类器的渐进式半监督分类方法准确性、稳定性和鲁棒性都有着非常大的优势。主要有如下创新点:第一,采用了随机子空间技术来探索数据集在子空间下的隐式结构,对高维数据集进行了有效降维,减少了计算复杂度;第二,利用渐进式样本生成技术来引入新的标签数据,对原有数据集进行扩充,从而提高了分类器的性能,使得分类结果精确度高;第三,在引入新的标签数据时,同时采用了自适应的策略,运用邻域知识来实现样本集合之间的交换、变异等操作,该自适应过程能够对样本进行进一步的筛选,减小了引入降低分类器性能样本的概率,提高了分类器的准确率。
附图说明
图1为本发明实施例基于多分类器的渐进式半监督分类方法流程图。
图2为本发明实施例基于多分类器的渐进式半监督分类方法与传统单一半监督分类算法的准确率对比表。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于多分类器的渐进式半监督分类方法,流程图如图1所示,包括以下步骤:
步骤1,输入训练数据集
将数据集按9:1的比例划分为训练集和测试集,并将训练集输入到模型训练过程中,行向量对应样本维,列向量对应属性维;
步骤2,数据归一化
统计得到第d列数据的最大值w(d)max和第d列数据的最小值w(d)min,将第d列数据根据如下的公式进行转换:
其中,i∈{1,2,...,n},d∈{1,2,...,D},为第d列第i个数据,为第d列第i个数据更新之后的数据,n为训练数据集中样本总的数量,D为训练数据集对应的维度数;
步骤3,在原有特征空间上随机抽样生成随机子空间集合S
首先统计得到高维度数据的特征维度D,由此确定子空间维度接下来是采样过程,产生一个全部为0的序列,位数对应着数据集维度,序列的每一位代表对应的特征是否被选择,逐一遍历每一个序列位置,生成一个随机数,如果大于0.5则表示该位置代表的特征被选中,将该位置1,否则置0。当所有特征被遍历完,位置上为1的特征作为被选择的特征加入特征子空间si,将si加入子空间集合S,这个过程反复进行最终得到一个随机子空间集合S;
步骤4,根据步骤3得到的子空间集合S,构造分类器集合ψ={ψ1,ψ2,...,ψB},并且通过引入未标记数据和自适应样本筛选过程来得到扩充后的训练集T′1用于更新分类器权重;
首先令分类器集合ψ={},用于存储分类器集合,对于si∈S,根据已标记的数据集训练出一系列分类器ci,根据分类器的性能赋予权重,所得的一系列子空间本质上都是一个0、1序列,对于每一个序列,我们一次遍历对应位上的数值,当该位上的数值为1时,将该位对应特征加入我们的子空间训练数据集特征集合并用于后续的训练,在对应样本上训练一系列分类器,包括决策树,支持向量机,随机森林等分类器,然后利用验证集评估分类器性能,并且将分类器对应的准确率归一化作为各自的权重p,记得到的分类器集合为ψb={c1,c2,...,cn},ψ=ψ∪ψb,最终我们得到了分类器集合。接下来利用渐进式训练集生成过程产生新的训练集T′l,具体过程如下:
首先利用采样方法从未标记数据集未标记数据集Tu中在对应子空间下进行采样,此处选取了bagging方法重复采取E个样本集合,最终得到To={O1,O2...Oe},对于Oe∈To中的样本xi,利用现有的分类器集合ψb中的分类器依次对其类别进行预测,得到标签集合Ye,接下来令T′l=T′l∪Oe,利用T′l重新训练分类器得到分类器集合ψ'b,对于Oe∈To中的样本xi,利用更新后的分类器集合ψ'b中的分类器依次对其类别进行预测,得到标签集合Ye',比较Ye和Ye'来得到相似分数αe:
其中,yi∈Ye,yi'∈Ye',ne为Oe中的样例数;接下来比较Oe和T′l来得到相关系数βe,所述相关系数βe的计算过程为:
(1)计算
(2)计算
(3)计算
(4)计算
(5)计算
其中K为类别的数量,nl为新训练集T′l中的样例数,然后计算Oe最后的分数γe=w1αe+(1-w1)βe;得到每个Oe最后的分数γe,最终选择O使得O=argmaxOeγe,接下来对O采用自优化样本选择过程来产生被选择的样本集合O',具体过程是:
对应O中的样例随机产生的引导向量V={v1,v2,...vH},其中vh={vh1,vh2,...,vhQ},h∈{1,...,H},H是引导向量的数量,Q是O中的样例数,vhq=1代表O中的第q个样例被选择,vhq=0代表O中的第q个样例不被选择,其中q∈{1,...,Q};接下来根据引导向量vh从O中产生样本集O'h,用ψ'b中的分类器预测O'h中样例的标签Yh;然后用T′l∪O'h重新训练分类器,用新的分类器来预测O'h中样例的标签Y′h,比较Yh和Y′h来得到相似分数αh,比较样本集合O'h和T′l得到相关系数βh,计算最后的分数γh=w2αh+(1-w2)βh。对于每一个引导向量计算其最后得分,选择引导向量从v1的局部环境中找到向量v2,应用全局竞争操作产生两个新的引导向量v′l、v'2,具体过程为:对于v1向量,寻找到其k个最邻近向量,距离度量采用欧式距离,对于v1的最邻近向量中的每一个向量,计算其与v1的模糊成员关系,计算公式为χ(vj,v1)代表vj和v1的欧几里德距离,t是由用户设置的参数,引导向量总的模糊成员值计算为:在局部环境中的第一个引导向量的概率区间定义为:第j个引导向量(j>1)的概率区间定义如下:产生一个0到1之间的随机数r1,如果r1落在了局部环境的第j个引导向量的概率区间,它将会被选中,v2=vj;全局竞争操作的定义是:给定引导向量v1和从局部环境选择的v2,一个交换位置被随机选择,竞争操作被应用,v1、v2在全局竞争操作之后变为v′1、v'2:
计算新的引导向量v′1、v'2的最终分数γ′1和γ'2,V=V+v′1+v'2,从V中移除最终分数最小的两个引导向量,运用局部竞争操作来产生新的引导向量v'3,具体过程为:对于给定的引导向量v3,一个位置r3随机产生,其中r3∈{1,...,Q},v3在经过竞争操作后变为v′3:
计算v'3的最终分数γ'3,V=V+v'3,移除V中最终得分最小的引导向量,重复以上过程直到满足最大迭代次数,输出样本子集T′l=T′l∪O',To=To-O,用T′l更新分类器集合ψ'b中的分类器并且更新相应的权重,重复上述过程直到To=Φ,最终得到新的训练集T′l。最后利用新的训练集T′l更新分类器集合ψb中的分类器和分类器对应的权重,并且令ψ=ψ∪ψb,最终可以得到经过扩充样本训练更新后的分类器集合ψ={ψ1,ψ2,...,ψB};
步骤5,对未标记样本进行分类
输入未标记数据集Tu,取出一个测试样本xi∈Tu进行分类,根据子空间对测试样本xi进行对应空间下的适配采样,使用每个子空间的分类器集合ψi对相对应的样本进行分类,采用权重投票原则得到相对应的结果yi,统计每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果,重复以上步骤,直到所有未标记样本标记完毕,得到带标记的样本T′u;
步骤6,引入测试集,得到分类准确率
输入测试样本集T,引入带标记的样本T′u和原有的标记数据集Tl,重新训练分类器集合ψ,对测试样本集T中的测试样本逐一进行预测得到结果Lt,对比真实标签L和结果Lt,计算出最后的分类准确率,计算公式如下:
其中,TP表示分类准确的样本数,FP表示分类错误的样本数,在不存在不平衡的问题下,准确率是一个有效地评估指标。
图2为本实施例基于多分类器的渐进式半监督分类方法与传统单一半监督分类算法的准确率对比表,从图中可以看出,和现有达到最高水准的半监督分类方法相比较,PSEMISEL方法在18个数据集中的9个数据集上取得了更好的结果,例如,在Iris数据集上,PSEMISEL方法平均准确率为0.8961,相对于LaplacianSVM方法平均准确率提升0.0717,在Segment数据集上,PSEMISEL方法平均准确率为0.9226,相对于LaplacianSVM方法平均准确率提升0.0998。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.基于多分类器的渐进式半监督分类方法,其特征在于,所述方法包括以下步骤:
S1、引入训练数据集,包括标记数据集Tl和未标记数据集Tu;
S2、对训练数据集进行数据归一化;
S3、在训练数据集原有特征空间上随机抽样生成一系列随机子空间,包括以下子步骤:
S3a、统计得到高维度数据的特征维度D,由此确定子空间维度
S3b、对训练数据集的特征列采用随机子空间技术进行采样,构造子空间si;
S3c、重复步骤S3a和S3b,直到产生随机子空间集合S,其中S={s1,s2,...,sB};
S4、根据步骤S3得到的随机子空间集合S,训练分类器集合ψ={ψ1,ψ2,...,ψB},并通过渐进式训练集生成过程引入未标记数据和通过自适应策略进行样本筛选,不断更新分类器集合,包括以下子步骤:
S4a、令分类器集合ψ={};
S4b、在子空间si∈S内,根据已标记的数据集训练出不同的分类器ci,根据分类器的准确率赋予其权重,得到分类器集合ψb={c1,c2,...,cn};
S4c、引入未标记数据集,利用渐进式训练集生成过程和自适应策略对样本进行筛选,产生新的训练集Tl';
S4d、利用新的训练集Tl'更新分类器集合ψb中的分类器和分类器对应的权重,ψ=ψ∪ψb;
S4e、重复步骤S4b-S4d,得到分类器集合ψ={ψ1,ψ2,...,ψB};
S5、对未标记样本进行分类,包括以下子步骤:
S5a、输入未标记数据集Tu;
S5b、取出一个测试样本xi∈Tu进行分类;
S5c、根据步骤S3得到的子空间对测试样本xi进行对应空间下的适配采样;
S5d、使用每个子空间的分类器集合ψi对相对应的样本进行分类,采用权重投票原则得到相对应的结果yi;
S5e、统计每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;
S5f、重复步骤S5b-S5e,直到所有未标记样本标记完毕,得到带标记的样本Tu';
S6、引入测试集,得到分类准确率,包括以下子步骤:
S6a、输入测试样本集T;
S6b、引入步骤S5得到的带标记的样本Tu'和原有的标记数据集Tl,重新训练分类器集合ψ,对测试样本集T中的测试样本逐一进行预测得到结果Lt;
S6c、对比真实标签L和结果Lt,计算出最后的分类准确率。
2.根据权利要求1所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤S2所述对训练数据集进行数据归一化的具体步骤是:
统计得到第d列数据的最大值w(d)max和第d列数据的最小值w(d)min,将第d列数据根据如下的公式进行转换:
其中,i∈{1,2,...,n},d∈{1,2,...,D},为第d列第i个数据,为第d列第i个数据更新之后的数据,n为训练数据集中样本总的数量,D为训练数据集对应的维度数。
3.根据权利要求1所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤S3b所述对训练数据集的特征列采用随机子空间技术进行采样,构造子空间si的具体步骤是:
(1)、产生一个长度等于训练数据集维度的序列,序列的每一位代表对应的特征是否被选择;
(2)、遍历序列的每一个位置,生成一个随机数,如果大于0.5,则表示该位置代表的特征被选中,将该位置1,否则置0;
(3)、当所有特征被遍历完,将对应位置为1的所有特征加入子空间si。
4.根据权利要求1所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤S4b所述在子空间si∈S内,根据已标记的数据集训练出不同的分类器ci,根据分类器的准确率赋予其权重的具体过程为:
所述子空间si本质上为一个0/1序列,对于每一个序列,遍历对应位置上的数值,当该位置上的数值为1时,将该位置对应特征加入随机子空间集合S并用于后续的训练,在对应样本上训练一系列分类器,包括决策树、支持向量机和随机森林分类器,然后利用验证集评估分类器性能,并将分类器对应的准确率归一化作为各自的权重。
5.根据权利要求1所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤S4c所述引入未标记数据集,利用渐进式训练集生成过程和自适应策略对样本进行筛选,产生新的训练集Tl',具体过程为:
(1)、令Tl'=Tl;
(2)、利用采样方法从未标记数据集Tu中在对应子空间下进行采样,此处选取了bagging方法进行采样,重复采取E个样本集合,最终得到To={O1,O2...Oe};
(3)、对于Oe∈To中的样本xi,利用从步骤S4b得到的分类器集合ψb中的分类器依次对其类别进行预测,得到标签集合Ye;
(4)、令Tl'=Tl'∪Oe,利用Tl'重新训练分类器得到分类器集合ψ'b;
(5)、对于Oe∈To中的每一个样本xi,利用更新后的分类器集合ψ'b中的分类器依次对其类别进行预测,得到标签集合Ye';
(6)、比较Ye和Ye'来得到相似分数αe;
(7)、比较Oe和Tl'来得到相关系数βe;
(8)、计算Oe最后的分数γe=w1αe+(1-w1)βe;
(9)、重复步骤(3)-步骤(8),得到每个Oe最后的分数γe,最终选择O使得O=argmaxOeγe;
(10)、对O采用自优化样本选择过程来产生被选择的样本集合O';
(11)、Tl'=Tl'∪O';
(12)、To=To-O;
(13)、用Tl'更新分类器集合ψ'b中的分类器并且更新相应的权重;
(14)、重复步骤(3)-步骤(13),直到To=Φ;
(15)、输出新的训练集Tl'。
6.根据权利要求5所述的基于多分类器的渐进式半监督分类方法,其特征在于,所述相似分数αe的计算过程为:
其中,yi∈Ye,yi'∈Ye',ne为Oe中的样例数;
所述相关系数βe的计算过程为:
(1)计算
(2)计算
(3)计算
(4)计算
(5)计算
其中K为类别的数量,nl为新训练集Tl'中的样例数。
7.根据权利要求5所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤(10)中所述对O采用自优化样本选择过程来产生被选择的样本集合O'的具体过程为:
(1)对应O中的样例随机产生的引导向量V={v1,v2,...vH},其中vh={vh1,vh2,...,vhQ},h∈{1,...,H},H是引导向量的数量,Q是O中的样例数,vhq=1代表O中的第q个样例被选择,vhq=0代表O中的第q个样例不被选择,其中q∈{1,...,Q};
(2)根据引导向量vh从O中产生样本集O'h,用ψ'b中的分类器预测O'h中样例的标签Yh;
(3)用Tl'∪O'h重新训练分类器;
(4)用新的分类器来预测O'h中样例的标签Yh';
(5)比较Yh和Yh'来得到相似分数αh;
(6)比较样本集合O'h和Tl'得到相关系数βh;
(7)计算最后的分数γh=w2αh+(1-w2)βh;
(8)选择引导向量
(9)从v1的局部环境中找到向量v2,应用全局竞争操作产生两个新的引导向量v1'、v2';
(10)计算新的引导向量v1'、v'2的最终分数γ1'和γ'2;
(11)V=V+v1'+v'2;
(12)从V中移除最终分数最小的两个引导向量;
(13)运用局部竞争操作来产生新的引导向量v'3;
(14)计算v'3的最终分数γ'3;
(15)V=V+v'3;
(16)移除V中最终得分最小的引导向量;
(17)重复步骤(2)-步骤(16)直到满足最大迭代次数;
(18)输出样本子集
8.根据权利要求7所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤(9)中所述从v1的局部环境中找到向量v2,应用全局竞争操作产生两个新的引导向量v1'、v'2,具体过程为:
(1)对于v1向量,寻找到其k个最邻近向量,距离度量采用欧式距离;
(2)对于v1的最邻近向量中的每一个向量,计算其与v1的模糊成员关系,计算公式为χ(vj,v1)代表vj和v1的欧几里德距离,t是由用户设置的参数;
(3)引导向量总的模糊成员值计算为:
(4)在局部环境中的第一个引导向量的概率区间定义为:
(5)第j个引导向量(j>1)的概率区间定义如下:
(6)产生一个0到1之间的随机数r1,如果r1落在了局部环境的第j个引导向量的概率区间,它将会被选中,v2=vj;
(7)全局竞争操作的定义是:给定引导向量v1和从局部环境选择的v2,一个交换位置被随机选择,竞争操作被应用,v1、v2在全局竞争操作之后变为v'1、v'2:
9.根据权利要求7所述的基于多分类器的渐进式半监督分类方法,其特征在于,所述运用局部竞争操作来产生新的引导向量v'3的具体过程为:对于给定的引导向量v3,一个位置r3随机产生,其中r3∈{1,...,Q},v3在经过竞争操作后变为v'3:
10.根据权利要求1所述的基于多分类器的渐进式半监督分类方法,其特征在于,步骤S6c中所述对比真实标签L和结果Lt,计算出最后的分类准确率的公式为:
其中,TP表示分类准确的样本数,FP表示分类错误的样本数,在不存在不平衡的问题下,准确率是一个有效地评估指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810030217.5A CN108364016A (zh) | 2018-01-12 | 2018-01-12 | 基于多分类器的渐进式半监督分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810030217.5A CN108364016A (zh) | 2018-01-12 | 2018-01-12 | 基于多分类器的渐进式半监督分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108364016A true CN108364016A (zh) | 2018-08-03 |
Family
ID=63011356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810030217.5A Pending CN108364016A (zh) | 2018-01-12 | 2018-01-12 | 基于多分类器的渐进式半监督分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108364016A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109158954A (zh) * | 2018-09-10 | 2019-01-08 | 杭州电子科技大学 | 一种基于声信号检测的超声刀具磨损状态识别方法与*** |
CN109284776A (zh) * | 2018-08-24 | 2019-01-29 | 小沃科技有限公司 | 用于防沉迷***的基于随机森林的自训练学习***及方法 |
CN109344881A (zh) * | 2018-09-11 | 2019-02-15 | 中国科学技术大学 | 一种基于时空连续性的扩展分类器 |
CN109739844A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109902390A (zh) * | 2018-12-13 | 2019-06-18 | 中国石油大学(华东) | 一种基于小样本扩充的有利储层发育区预测方法 |
CN110414548A (zh) * | 2019-06-06 | 2019-11-05 | 西安电子科技大学 | 基于脑电信号进行情感分析的层级Bagging方法 |
CN111126502A (zh) * | 2019-12-26 | 2020-05-08 | 北京安德医智科技有限公司 | 一种面向人工智能辅助诊断的dicom医疗影像序列分类方法 |
CN111352926A (zh) * | 2018-12-20 | 2020-06-30 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111709468A (zh) * | 2020-06-05 | 2020-09-25 | 内蒙古中孚明丰农业科技有限公司 | 一种定向人工智能的训练方法、装置及存储介质 |
CN112164125A (zh) * | 2020-09-15 | 2021-01-01 | 华南理工大学 | 一种监督可控的人脸多属性分离生成的方法 |
CN112257862A (zh) * | 2020-09-30 | 2021-01-22 | 重庆大学 | 一种基于关系网络标记样本扩充的半监督辨识方法 |
CN112381148A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于随机区域插值的半监督图像分类方法 |
CN112836645A (zh) * | 2021-02-04 | 2021-05-25 | 浙江工业大学 | 面向大规模运动心率序列的代跑检测方法 |
CN112926397A (zh) * | 2021-01-28 | 2021-06-08 | 中国石油大学(华东) | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 |
CN113379000A (zh) * | 2021-07-13 | 2021-09-10 | 四川大学 | 一种自适应更新的网络入侵检测方法 |
CN113435915A (zh) * | 2021-07-14 | 2021-09-24 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113806494A (zh) * | 2021-10-11 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种基于预训练语言模型的命名实体识别方法 |
CN116188947A (zh) * | 2023-04-28 | 2023-05-30 | 珠海横琴圣澳云智科技有限公司 | 基于领域知识的半监督信号点检测方法及装置 |
CN116226744A (zh) * | 2023-03-16 | 2023-06-06 | 中金同盛数字科技有限公司 | 一种用户分类的方法、装置及设备 |
-
2018
- 2018-01-12 CN CN201810030217.5A patent/CN108364016A/zh active Pending
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284776A (zh) * | 2018-08-24 | 2019-01-29 | 小沃科技有限公司 | 用于防沉迷***的基于随机森林的自训练学习***及方法 |
CN109158954A (zh) * | 2018-09-10 | 2019-01-08 | 杭州电子科技大学 | 一种基于声信号检测的超声刀具磨损状态识别方法与*** |
CN109344881A (zh) * | 2018-09-11 | 2019-02-15 | 中国科学技术大学 | 一种基于时空连续性的扩展分类器 |
CN109902390A (zh) * | 2018-12-13 | 2019-06-18 | 中国石油大学(华东) | 一种基于小样本扩充的有利储层发育区预测方法 |
CN109902390B (zh) * | 2018-12-13 | 2023-10-24 | 中国石油大学(华东) | 一种基于小样本扩充的有利储层发育区预测方法 |
CN111352926A (zh) * | 2018-12-20 | 2020-06-30 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN111352926B (zh) * | 2018-12-20 | 2024-03-08 | 北京沃东天骏信息技术有限公司 | 数据处理的方法、装置、设备及可读存储介质 |
CN109739844A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109739844B (zh) * | 2018-12-26 | 2023-03-24 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN110414548A (zh) * | 2019-06-06 | 2019-11-05 | 西安电子科技大学 | 基于脑电信号进行情感分析的层级Bagging方法 |
CN111126502A (zh) * | 2019-12-26 | 2020-05-08 | 北京安德医智科技有限公司 | 一种面向人工智能辅助诊断的dicom医疗影像序列分类方法 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111709468B (zh) * | 2020-06-05 | 2021-10-26 | 内蒙古中孚明丰农业科技有限公司 | 一种定向人工智能的训练方法、装置及存储介质 |
CN111709468A (zh) * | 2020-06-05 | 2020-09-25 | 内蒙古中孚明丰农业科技有限公司 | 一种定向人工智能的训练方法、装置及存储介质 |
CN112164125A (zh) * | 2020-09-15 | 2021-01-01 | 华南理工大学 | 一种监督可控的人脸多属性分离生成的方法 |
CN112257862A (zh) * | 2020-09-30 | 2021-01-22 | 重庆大学 | 一种基于关系网络标记样本扩充的半监督辨识方法 |
CN112381148A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于随机区域插值的半监督图像分类方法 |
CN112926397A (zh) * | 2021-01-28 | 2021-06-08 | 中国石油大学(华东) | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 |
CN112836645A (zh) * | 2021-02-04 | 2021-05-25 | 浙江工业大学 | 面向大规模运动心率序列的代跑检测方法 |
CN112836645B (zh) * | 2021-02-04 | 2024-03-29 | 浙江工业大学 | 面向大规模运动心率序列的代跑检测方法 |
CN113379000A (zh) * | 2021-07-13 | 2021-09-10 | 四川大学 | 一种自适应更新的网络入侵检测方法 |
CN113435915A (zh) * | 2021-07-14 | 2021-09-24 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113435915B (zh) * | 2021-07-14 | 2023-01-20 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113806494A (zh) * | 2021-10-11 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种基于预训练语言模型的命名实体识别方法 |
CN116226744A (zh) * | 2023-03-16 | 2023-06-06 | 中金同盛数字科技有限公司 | 一种用户分类的方法、装置及设备 |
CN116188947A (zh) * | 2023-04-28 | 2023-05-30 | 珠海横琴圣澳云智科技有限公司 | 基于领域知识的半监督信号点检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364016A (zh) | 基于多分类器的渐进式半监督分类方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN100472556C (zh) | 特定被摄体检测装置及方法 | |
CN103984959B (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN111914944B (zh) | 基于动态样本选择和损失一致性的物体检测方法和*** | |
CN109948478A (zh) | 基于神经网络的大规模非均衡数据的人脸识别方法、*** | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN103544496B (zh) | 基于空间与时间信息融合的机器人场景识别方法 | |
CN106779087A (zh) | 一种通用机器学***台 | |
CN108171136A (zh) | 一种多任务卡口车辆以图搜图的***及方法 | |
CN106778832A (zh) | 基于多目标优化的高维数据半监督集成分类方法 | |
CN108090510A (zh) | 一种基于间隔优化的集成学习方法及装置 | |
CN109344884A (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
Lin et al. | Ru-net: Regularized unrolling network for scene graph generation | |
CN109190461B (zh) | 一种基于手势关键点的动态手势识别方法和*** | |
CN106056134A (zh) | 一种基于Spark的半监督随机森林分类方法 | |
CN106991127A (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN110263979A (zh) | 基于强化学习模型预测样本标签的方法及装置 | |
CN109598220A (zh) | 一种基于多元输入多尺度卷积的人数统计方法 | |
CN110309771A (zh) | 一种基于gbdt-insgaii的eas声磁***标签识别算法 | |
CN105512675B (zh) | 一种基于记忆性多点交叉引力搜索的特征选择方法 | |
CN112686376A (zh) | 一种基于时序图神经网络的节点表示方法及增量学习方法 | |
CN107451617A (zh) | 一种图转导半监督分类方法 | |
CN106569954A (zh) | 一种基于kl散度的多源软件缺陷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180803 |