CN102063642A - 基于主动学习的模糊神经网络样本选择方法 - Google Patents

基于主动学习的模糊神经网络样本选择方法 Download PDF

Info

Publication number
CN102063642A
CN102063642A CN2010106144874A CN201010614487A CN102063642A CN 102063642 A CN102063642 A CN 102063642A CN 2010106144874 A CN2010106144874 A CN 2010106144874A CN 201010614487 A CN201010614487 A CN 201010614487A CN 102063642 A CN102063642 A CN 102063642A
Authority
CN
China
Prior art keywords
sample
training
sorter
classification
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106144874A
Other languages
English (en)
Inventor
胡静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianji University
Original Assignee
Shanghai Dianji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianji University filed Critical Shanghai Dianji University
Priority to CN2010106144874A priority Critical patent/CN102063642A/zh
Publication of CN102063642A publication Critical patent/CN102063642A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于主动学习的模糊神经网络样本选择方法,包括如下步骤:a)请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器;b)请求用户对从未经训练的样本中随机选取的第二小部分样本进行标记,以在所述分类器上对所述第二小部分样本进行类别测试,并根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集;c)利用所述经加入的训练样本集重新训练所述分类器,得到新的所述分类器。提出了一种以模糊隶属度值为基准的主动学习方法,有效提高了模糊神经网络分类器的分类性能。

Description

基于主动学习的模糊神经网络样本选择方法
技术领域
本发明涉及模糊神经网络设计时学习样本的选择方法,尤其涉及可有效提高模糊神经网络分类效率的基于主动学习的学习样本选择方法。
背景技术
一般而言,在设计神经网络分类器时,训练样本的标记过程通常都是手工进行的,往往要花费巨大的人力物力。以前的样本采集与标记方法中一般不考虑样本中所蕴含的知识,随机从样本集中选取一些未标记的样本由用户手工进行标记,作为训练样本送到分类器中进行训练和学习。为了使分类器达到所预定的性能,这种盲目的样本选择方法往往需要用户标记大量的样本,这不仅使得分类器的训练过程大大延长,而且在时间和工作量上也都付出了很大的代价。
主动学习算法自从问世以来就受到了普遍关注,其焦点主要在样本选择标准的设计,以及初始样本数目大小的研究上。然而,主动学习算法最为关键的问题是——“提出好的样本选择标准”,目的是寻找最有效利用有限训练样本的途径,通过尽量少的查询样本获取最大限度的有用信息。
主动学习算法中影响较大的样本选择准则主要有:1)统计学习准则(Statistical Approach):在这个模型中,样本选择标准以分类性能指标中泛化误差最小化为基准,由于泛化误差一般较难计算,所以通常由实际输出值与期望输出值之间的均方误差值来逼近,并假设分类器的偏差非常小可以忽略不计,而只关注分类器的方差值大小。2)相关抽样准则(corraletive sampleing),选择与当前分类器最一致的样本,因此相关抽样也称为确定性抽样。这种准则在某些情况下是合理的,然而由于它每次选择最确定的例子,而忽略掉了引起特别关注的异常例子,使分类器形成对某些样本的特殊偏好,从而选择了过量冗余的例子。3)最大边界准则(Margin Based Approach)。选取最接近分类面的样本为问询标准,该方法认为越接近分类面,样本所含信息量就越大,称之为最大边界法。上述这些方法都在神经网络分类器的设计过程中获得了较好的分类效果。
上述主动样本选择准则大多本着信息量最大化原则,或决策中不确定性最小化原则。虽然取得了一些较好的分类效果,然而,对于模糊神经网络而言,这种主动学习方法并非总是有效的。由于局部极小值的存在,使得按照上述样本选取准则所生成的训练样本集,往往比被动学习更加容易陷入不收敛或是局部极小值的状态。其主要原因是选取优秀样本的要求往往使得样本被选范围越来越小,最后落入到几个固定区域。并且,目前针对模糊神经网络的样本主动学习方法研究目前还很少,。
因此,需要一种针对模糊神经网络分类器主动学习算法的网络样本选择方法,以有效提高模糊神经网络分类器的分类性能。
发明内容
有鉴于现有的模糊神经网络中基于主动学习的样本选择所所存在的问题,本发明所要解决的技术问题是提供一种针对模糊神经网络分类器主动学习算法的设计方案,有效提高了模糊神经网络分类器的分类性能。
本发明的一个方面为一种基于主动学习的模糊神经网络样本选择方法,包括如下步骤:a)请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器;b)请求用户对从未经训练的样本中随机选取的第二小部分样本进行标记,以在所述分类器上对所述第二小部分样本进行类别测试;c)根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集;及d)利用所述经加入的训练样本集重新训练所述分类器,得到新的所述分类器。
本发明的另一方面为一种基于主动学习的模糊神经网络样本选择装置,包括:样本训练集形成模块,其请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集;训练模块,其利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器;及判定模块,其在所述分类器上对从未经训练的样本中随机选取的第二小部分样本进行类别测试,并根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集。所述样本训练集形成模块请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述训练模块通过所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器,并且其中所述判定模块利用所述训练模块通过所述经加入的样本训练集重新训练所述分类器,得到新的所述分类器。
模糊神经网络分类器是以模糊隶属度值来表明样本的类别信息,模糊隶属度值体现了该输入样本属于某一类样本的程度。因此,针对模糊神经网络分类器,提出了一种以模糊隶属度值为基准的主动学习方法。故此,根据本发明的针对模糊神经网络分类器主动学习算法的设计方案,有效提高了模糊神经网络分类器的分类性能。
结合附图,根据下文的通过示例说明本发明主旨的描述可清楚本发明的其他方面和优点。
附图说明
结合附图,通过下文的述详细说明,可更清楚地理解本发明的上述及其他特征和优点,其中:
图1为超盒并集构造的两类模式的分类空间(二维);
图2为模糊最小-最大神经网络结构图;
图3为根据本发明的样本选择方法的流程图;
图4为根据本发明的样本选择方法的优选实施例的流程图;
图5示出了同一类别中三个不同样本的最大隶属度值排列。
具体实施方式
参见示出本发明实施例的附图,下文将更详细地描述本发明。然而,本发明可以以许多不同形式实现,并且不应解释为受在此提出之实施例的限制。相反,提出这些实施例是为了达成充分及完整公开,并且使本技术领域的技术人员完全了解本发明的范围。这些附图中,为清楚起见,可能放大了层及区域的尺寸及相对尺寸。
除非另行详细说明,本文所使用的所有术语(包括科技术语)的意思与本技术领域的技术人员所通常理解的一致。还应理解,诸如一般字典中所定义的术语应解释为与相关技术领域中的意思一致,并且不应解释为理想化的或过度刻板的含义,除非在文中另有明确定义。
现以模糊最小-最大神经网络(Fuzzy min-max neural network,FMMNN)为例,说明根据本发明的模糊神经网络样本选择方法。然而,本领域的技术人员应理解,本发明不限于FMMNN,而是可以应用于其他模糊神经网络。
模糊最小-最大神经网络是一种前馈式全局连接结构的人工神经网络,适用于目标的分类,其基本思想是:将一系列小模糊子集的并集构成一个能代表某类模式任意边界形状的模式集合。FMMNN的结构基础是超盒(hyperbox)。一个超盒定义了n维模式空间的一个子区域,其位置及大小完全由模式空间的一个最小点和最大点确定,每个超盒还具有一个模糊隶属度函数,它决定了模式空间中任意一点对该超盒的隶属程度。超盒的最小最大点和模糊隶属度函数就定义了一个模糊集。属于同一类模式的超盒模糊集的并就构成了该类模式的分类空间,如图1所示。
FMMNN的结构如图2所示,它是一种三层前向网络:输入层FA由输入模式节点组成,xi表示输入模式向量的第i个分量(i=1,2,...,n);第二层为隐含层FB,也就是超盒形成层,隐层的每一个节点bj(j=1,2,...,m)代表一个超盒模糊集,它与FA中的节点xi由最小点vji和最大点wji连接,所有最小点和最大点的取值分别存于矩阵V和W中;输出层FC中的每个节点ck(k=1,2,...,p)表示一个模式类别,如果超盒bj属于类别ck,则连接权值cjk取值为1,否则为0,矩阵U就是隐含层FB与输出层FC的连接权值矩阵。
每个超盒模糊集bj(j=1,2,...,m)可用一有序集描述:bk={X,Vj,Wj,F(X,Vj,Wj)},其中X为模式空间中的任一模式,Vj=(vj1,vj2,...,vjn)为bj的最小点,Wj=(wj1,wj2,...,wjn)为bj的最大点,F(X,Vj,Wj)为bj的模糊隶属度函数。假设Xh=(xh1,xh2,...,xhn)为第h个输入模式,则对Xh,超盒bj的输出为:
b j ( X h ) = 1 2 n Σ i = 1 n [ max ( 0,1 - max ( 0 , γ min ( 1 , x hi - w ji ) ) )
+ max ( 0,1 - max ( 0 , γ min ( 1 , v ji - x hi ) ) ) ] - - - ( 1 )
其中,γ是人为设定的参数,它表示了模糊隶属度函数的形状系数。
现描述模糊最小-最大神经网络的的学习算法。
假设D为已知类别的训练样本集,D={Xh,dh},其中Xh=(Xh1,Xh2,...,Xhn)是输入的第h个训练样本,dh∈{1,2,...,p}是Xh所属的类别。训练样本集D也就是各类模式的集合,从D中的每类模式中各选一个模式向量构成初始超盒,然后FMMNN就按照以下三个步骤重复迭代,直到所有模式训练完成。
(1)超盒扩张(expansion)
对输入模式{Xh,dh},找出所有属于dh类模式的超盒,按式(15)计算Xh对于这些超盒的模糊隶属度,假设隶属度最大者为bj,则计算扩张准则:
nθ ≥ Σ i = 1 n ( max ( w ji , x hi ) - max ( v ji , x hi ) ) - - - ( 2 )
其中,0≤θ≤1为人为设定的参数。若式(2)式成立,则按式(3)式调整超盒bj最小点和最大点的值,扩张bj;若式(2)式不成立,说明扩张超盒bj会使其过大,此时应该增加新的超盒,且新超盒的最小点和最大点都由Xh确定。
v ji new = min ( v ji old , x hi ) ∀ i = 1,2 , . . . , n - - - ( 3 )
w ji new = max ( w ji old , x hi )
(2)重叠测试(overlap test)
扩张后的超盒,可能与属于其他类别的超盒在模式空间上重叠,这样,一个模式向量可能同时属于两个不同类别的超盒,从而无法判断其所属类别。因此,必须消除不同类别超盒之间的重叠。
假设bj和bk是两个属于不同类别的超盒,用δ表示重叠程度,且初始值δold=1,分别对超盒的每一维分量i(i=1,2,...,n),按其所属情况的不同,以不同的公式进行测试,找出重叠程度最小的相应维,然后对该维进行压缩。
情况1:vji<vki<wji<wki,δnew=min(wji-vki,δold)
情况2:vki<vji<wki<wji,δnew=min(wki-vji,δold)
情况3:vji<vki<wki<wji,δnew=min(min(wki-vji,wji-vki),δold)
情况4:vki<vji<wji<wki,δnew=min(min(wji-vki,wki-vji),δold)
若δoldnew>0,说明第i维空间上bj和bk有重叠,且重叠程度为δnew,记Δ=i,若δold=δnew,继续测试i+1维;否则,说明第i维上没有重叠,以后各维都不必测试了。
(3)超盒压缩(contraction)
若Δ>0,说明超盒bj和bk有重叠,且第Δ维重叠程度最小,故对该维进行如下压缩,从而消除重叠。
(1)若v<v<w<w,则
Figure BDA0000041772730000061
(2)若v<v<w<w,则
Figure BDA0000041772730000062
(3a)若v<v<w<w且(w-v)<(w-v),则
(3b)若v<v<w<w且(w-v)>(w-v),则
Figure BDA0000041772730000064
(4a)若v<v<w<w且(w-v)<(w-v),则
Figure BDA0000041772730000065
(4b)若v<v<w<w且(w-v)>(w-v),则
Figure BDA0000041772730000066
网络训练完毕后,在分类过程中,只要输入待判别模式X,分别计算X属于每个超盒的模糊隶属度,隶属度最大的超盒所属的类别就是X的类别。
从上述过程可以看出,FMMNN的学习是利用训练样本逐次完成的,不存在传统神经网络训练时迭代是否收敛的问题,并且FMMNN形成的分类边界的复杂程度是任意的,分类边界的形状在模式空间中直观明确。
现参考图3,基于FMMNN,描述根据本发明的样本选择方法。
在步骤S101中,请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器。
首先随机选取一小部分样本请求用户进行标记,并用这部分已经标记过的样本训练模糊神经网络,得到一个分类器的初始分类界面,这个分类界面由于只是基于一小部分样本集而形成的,故只是一个正确度不高、暂时性的分类界面,用一组测试样本集对模糊分类器进行测试可以证实这一结论。
一些实施例中,所述一小部分不超过5%。
在步骤S103中,请求用户对从未经训练的样本中随机选取的第二小部分样本进行标记,以在所述分类器上对所述第二小部分样本进行类别测试。
结果有两种,一种是测试出的类别信息与用户标记结果不一致的被误分样本集(通常称之为不确定样本集);另外一种是与用户标记结果一致的正确分类样本集(通常称之为确定样本集)。
在步骤S105中,根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集。
根据本发明的样本选择方法中,对这两类样本集分别采取两种不同的样本选取原则。对于不确定样本集采取的是最小-最大边界法来确定样本的选择方法,分别选择距离分类界面最远和最近的被误分样本加入到样本训练集中;对确定样本集采用的是不确定性阈值方法,即选择具有对分类效果贡献信息较大的样本加入到样本训练集中。
现分别描述对于不确定样本集和确定样本集的处理方法。
【针对不确定样本的最小-最大边界法】
在主动学习方法中,样本选择的原则一般有两种:对确定性样本遵循信息最大化原则;以及决策中不确定性最小化原则。本文所提出的第一类样本是被误分样本,属于不确定性样本,这类样本的真实类别信息能够提供更多的信息来优化当前的分类界面。本着不确定样本的不确定性最大化原则,应选择误分样本中,被误分程度最大的样本加入到样本训练集中。但是,这种原则存在着一定的缺陷,即缺乏对分类误差的有效抑止。因为选择的样本是当前分类器最不确定的样本,这类样本加入到训练集中势必带来很大的分类误差,如果一味选择最不确定的样本,势必产生误差累积的结果,并进一步影响分类效果。由此,本发明提出了,分别选择被误分程度最大和最小的两类样本,来缓解误差累积带来的影响,即选择分类误差最小的(mini-difference)和分类误差最大的(max-difference)两类样本,在这里分别代表着被误分程度最大和被误分程度最小的两类不同样本。
设Ω={ω1,ω2,K,ωM}是类别标志集合,X=[x1,x2,K xn]T∈Rn表示输入模式。分类器是如下的一种映射:D:Rn→Ω。模糊分类模型可以被看成一个黑箱,输入一个模式x,分类器输出M个判别式g1(x),g2(x),K gM(x)的值,分别表示对M个类别的支持度,x被分给具有最大支持度的类别。
可以将判别函数看作隶属函数ui(x),(i=1,2,L,M),则模糊分类器最终选择x属于哪一类别由下式输出:
class ( x ) = arg max m = 1 M { g M ( x ) } - - - ( 4 )
可以看出,在模糊分类***中,最大模糊隶属度值扮演了重要的角色,它最终决定了一个输入模式应该属于那一类别的程度。由此可以推出,隶属度值越大,属于某一类别的程度就越大,其对形成判别分类界面的影响就越小,因此距分类判别面的距离也就越远。反之,最大隶属度值越小,属于某一类别的程度就越小,对判别分类界面的形成影响较大,距其距离也就越近。因此,对被误分样本而言,只需分别选取距分类界面最远和最近的样本,即隶属度值最小和隶属度值最大的两类样本重新加入到训练样本集中进行重新学习即可。样本的查询标准f设计如下:
f = arg min j = 1 n { U j ( x ) } + arg max j = 1 m { U j ( x ) } - - - ( 5 )
其中m为被误分样本数目。
【针对确定样本的不确定阈值法】
对于当前分类器分类正确的样本,这部分样本表面上看是属于确定性样本,并且最大隶属度值越高,其确定性越高。按照常规的确定性抽样准则,通常是选择预分类器性能最一致的确定性样本作为候选样本,对模糊分类器而言,就是隶属度值越大的样本被选的可能性越大。但是,实质上主动学习法是一个不断循环的学习过程,通过循环使得分类器的分类界面从刚开始的正确性不高逐渐过渡到正确性较高的分类界面,因此,刚开始的正确分类结果是建立在一个正确度不高、暂时性的分类器之上的,其隶属度值也只是相对正确,只选择最大隶属度值较高的样本作为候选样本是有一定风险的。因此,需要采取某种措施消除当前分类器偏差所带来的影响。
因此,本发明提出了,在学习过程中增加一些干扰信号以消除偏差。对本文的基于主动学习的样本选择方法而言,就是选择一些确定性程度不高的样本作为候选样本,而不是依照常规选择与分类器性能最一致的样本。因此,所要解决的关键问题就转化为如何确定样本的不确定性大小。有许多种方法可以用来衡量样本的不确定性大小,例如最大最小熵原则就是其中之一;另外基于最大后验概率原则也是一种较为广泛使用的手段。本文首先定义确定性样本的不确定性度量值如下:
Q ( x ) = 1 ; if uncertainty ( x ) ≥ c 0 ; otherwise - - - ( 6 )
式中c是用户定义的一个常量,函数uncertainty(x)用来评价样本x的不确定值大小,不确定值越大,所含信息量也就越多。一个样本被选中加入下一个循环的训练样本集,其前提条件是,问询函数Q(x)=1。
模糊神经网络是根据模糊隶属度函数来表示样本属于某一类别的程度,隶属度值越大,属于某一类别的程度就越大。任何一个输入样本,对每一类样本都有一个模糊隶属度值,模糊分类器将它们从大到小进行排列,最后选取最大值作为该输入样本的类别判断标准。
图5所示为同一类别中三个不同的输入样本{X1,X2,X3}∈ω,其隶属度值μ从大到小的排列。从图3可以看出,虽然三个不同的输入样本都属于同一类样本,但是最大隶属度值却不尽相同,其中隶属度值越大,属于该类样本的程度越高,样本的确定程度也就越高(比如样本X1);而最大隶属度值越小,样本属于该类样本的程度就越低,样本的不确定性就越高(比如样本X3)。
由此可以假设存在某一阈值α(如图3所示),当最大隶属度值高于这一阈值时,样本属于确定性程度较高的样本,应当舍弃;反之,样本属于不确定性样本,所含信息量较大,应当将其加入到训练样本集中。这样对查询不确定样本的置信度函数的确定,就转变为对最大隶属度值的某一阈值的确定。因此,查询函数可以重新定义如下:
Q ( x ) = 1 ; if c ≥ 1 α μ 0 ; otherwise - - - ( 7 )
其中,μ为最大隶属度值,α为阈值,c是用户定义的一个常量,为简便起见可将其取为c=1。至于阈值的确定,目前还没有出现比较好的方法,大多数的阈值确定都还停留在根据经验来确定的方法上[
在完成了训练样本集的添加之后,步骤S107中,利用所述经加入的训练样本集重新训练所述分类器,得到新的所述分类器。
优选实施例中,根据本发明的样本选择方法还包括S109,利用测试样本集对所述分类器模型进行测试,其中,若测试结果满足用户要求则结束样本选择,若所述测试结果不满足用户要求则再执行步骤S103。
如图5所示,为了尽快得到正确度较高的分类界面,根据本发明的方法可进入一个循环过程,每次请求用户对未进行训练过的、另外一小部分样本进行标记,并在已经训练好的分类器上进行类别的再次测试。再用增加过的,新的训练样本集重新训练模糊分类器,得到一个新的分类器模型,随后用测试样本集对此分类器进行测试,得到一个新的测试结果。该结果若已经满足用户要求则停止样本选择和主动学习,反之,则进入下一轮的循环过程。
现描述根据本发明的利用上述模拟神经网络样本选择方法的样本选择装置。
所述样本选择装置包括样本训练集形成模块,其请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集。所述样本选择装置还包括训练模块,其利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器。所述样本选择装置还包括判定模块,其在所述分类器上对从未经训练的样本中随机选取的第二小部分样本进行类别测试,并根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集。其中,所述样本训练集形成模块请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述训练模块通过所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器,并且其中所述判定模块利用所述训练模块通过所述经加入的样本训练集重新训练所述分类器,得到新的所述分类器。
本发明具有如下的优点:
(1)在本方法在选择训练样本时采用的一种新颖的主动学习方法,相对于被动学习算法而言,所需选择标记的训练样本数大大减少,降低了标记样本所耗费的时间和代价,且有效提高了模糊神经网络的分类效果,填补了模糊神经网络训练样本主动学习算法的空白。
(2)模糊神经网络分类器是以模糊隶属度值来表明样本的类别信息,模糊隶属度值体现了该输入样本属于某一类样本的程度。因此,针对模糊神经网络分类器,提出了一种以模糊隶属度值为基准的主动学习方法。故此,根据本发明的针对模糊神经网络分类器主动学习算法的设计方案,有效提高了模糊神经网络分类器的分类性能。
(3)根据本发明的样本选择方法及其装置在现有的主动学习算法为基础上,提出了一种基于模糊隶属度值的有效样本选择方法,通过引入最小-最大边界法(Min-Max Margin Based Approach)和确定性样本的不确定性阈值(Uncertainty threshold on samples)两个新概念,来寻找最有效的利用训练样本途径,选择其中信息量尽可能大的样本进行标记、并不断更新学习规则,最终达到减少标记代价及提高模糊分类器性能的目的。
因本技术领域的技术人员应理解,本发明可以以许多其他具体形式实现而不脱离本发明的精神或范围。尽管业已描述了本发明的实施例,应理解本发明不应限制为这些实施例,本技术领域的技术人员可如所附权利要求书界定的本发明精神和范围之内作出变化和修改。

Claims (13)

1.一种基于主动学习的模糊神经网络样本选择方法,其特征在于,包括如下步骤:
a)请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器;
b)请求用户对从未经训练的样本中随机选取的第二小部分样本进行标记,以在所述分类器上对所述第二小部分样本进行类别测试;
c)根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集;及
d)利用所述经加入的训练样本集重新训练所述分类器,得到新的所述分类器。
2.如权利要求1所述的方法,其特征在于,步骤b)中,所述类别测试包括利用所述分类器获取所述第二小部分样本的类别信息,其中:
若所述类别信息与用户标记结果不一致,则分别选择被误分程度最大和最小的样本加入所述样本训练集中;
若所述类别信息与用户标记结果一致,则选择对分类效果贡献信息较大的样本加入到所述样本训练集。
3.如权利要求2所述的方法,其特征在于,所述误分程度最大和最小的样本分别为离所述分类器的分类界面最远和最近的样本。
4.如权利要求3所述的方法,其特征在于,所述离所述分类界面最远和最近的样本分别为隶属度值最大和最小的样本。
5.如权利要求2所述的方法,其特征在于,所述对分类效果贡献信息较大的样本为确定性程度较低的干扰样本。
6.如权利要求5所述的方法,其特征在于,所述确定性程度较低的干扰样本为隶属度低于阈值的样本。
7.如权利要求1所述的方法,其特征在于,还包括如下步骤:
e)利用测试样本集对所述分类器模型进行测试,其中,若测试结果满足用户要求则结束样本选择,若所述测试结果不满足用户要求则再执行步骤b)。
8.一种基于主动学习的模糊神经网络样本选择装置,其特征在于,包括:
-样本训练集形成模块,其请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集;
-训练模块,其利用所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器;及
-判定模块,其在所述分类器上对从未经训练的样本中随机选取的第二小部分样本进行类别测试,并根据所述测试的结果将所述第二小部分样本中的某些样本加入所述样本训练集;
其中,所述样本训练集形成模块请求用户对从未经训练的样本中随机选取的第一小部分样本进行标记以形成样本训练集,并利用所述训练模块通过所述样本训练集训练所述模糊神经网络,从而得到经训练的分类器,并且其中所述判定模块利用所述训练模块通过所述经加入的样本训练集重新训练所述分类器,得到新的所述分类器。
9.如权利要求8述的装置,其特征在于,所述类别测试包括利用所述分类器获取所述第二小部分样本的类别信息,其中:
若所述类别信息与用户标记结果不一致,则分别选择被误分程度最大和最小的样本加入所述样本训练集中;
若所述类别信息与用户标记结果一致,则选择对分类效果贡献信息较大的样本加入到所述样本训练集。
10.如权利要求9所述的装置,其特征在于,所述误分程度最大和最小的样本分别为离所述分类器的分类界面最远和最近的样本。
11.如权利要求10所述的装置,其特征在于,所述离所述分类界面最远和最近的样本分别为隶属度值最大和最小的样本。
12.如权利要求9所述的装置,其特征在于,所述对分类效果贡献信息较大的样本为确定性程度较低的干扰样本。
13.如权利要求12所述的装置,其特征在于,所述确定性程度较低的干扰样本为隶属度低于阈值的样本。
CN2010106144874A 2010-12-30 2010-12-30 基于主动学习的模糊神经网络样本选择方法 Pending CN102063642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106144874A CN102063642A (zh) 2010-12-30 2010-12-30 基于主动学习的模糊神经网络样本选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106144874A CN102063642A (zh) 2010-12-30 2010-12-30 基于主动学习的模糊神经网络样本选择方法

Publications (1)

Publication Number Publication Date
CN102063642A true CN102063642A (zh) 2011-05-18

Family

ID=43998912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106144874A Pending CN102063642A (zh) 2010-12-30 2010-12-30 基于主动学习的模糊神经网络样本选择方法

Country Status (1)

Country Link
CN (1) CN102063642A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析***及方法
CN103530688A (zh) * 2013-10-10 2014-01-22 东北大学 一种磨削加工工艺检测***及方法
CN104657745A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN105259754A (zh) * 2015-10-16 2016-01-20 华北理工大学 一种基于主动学习的板厚智能控制方法
CN105743523A (zh) * 2016-03-22 2016-07-06 广州视源电子科技股份有限公司 信号过滤方法和***
CN106022392A (zh) * 2016-06-02 2016-10-12 华南理工大学 一种深度神经网络样本自动取舍的训练方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN107909034A (zh) * 2017-11-15 2018-04-13 清华大学深圳研究生院 一种人脸检测方法、装置和计算机可读存储介质
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法
CN110390355A (zh) * 2019-07-01 2019-10-29 东北大学 基于进化模糊最大最小神经网络的管道新缺陷识别方法
CN110447038A (zh) * 2017-03-21 2019-11-12 日本电气株式会社 图像处理装置、图像处理方法和记录介质
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质
CN111052129A (zh) * 2017-07-28 2020-04-21 美国西门子医学诊断股份有限公司 深度学习体积定量方法和设备
CN111122989A (zh) * 2019-12-30 2020-05-08 厦门大学 K聚类智能择取的微波信号多径干扰抑制方法
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN114358284A (zh) * 2022-01-12 2022-04-15 厦门市美亚柏科信息股份有限公司 一种基于类别信息对神经网络分步训练的方法、装置、介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514369B (zh) * 2013-09-18 2016-07-06 上海交通大学 一种基于主动学习的回归分析***及方法
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析***及方法
CN103530688B (zh) * 2013-10-10 2016-04-20 东北大学 一种磨削加工工艺检测***及方法
CN103530688A (zh) * 2013-10-10 2014-01-22 东北大学 一种磨削加工工艺检测***及方法
CN104657745B (zh) * 2015-01-29 2017-12-15 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN104657745A (zh) * 2015-01-29 2015-05-27 中国科学院信息工程研究所 一种已标注样本的维护方法及双向学习交互式分类方法
CN105259754A (zh) * 2015-10-16 2016-01-20 华北理工大学 一种基于主动学习的板厚智能控制方法
CN105259754B (zh) * 2015-10-16 2018-07-10 华北理工大学 一种基于主动学习的板厚智能控制方法
CN105743523A (zh) * 2016-03-22 2016-07-06 广州视源电子科技股份有限公司 信号过滤方法和***
CN106022392A (zh) * 2016-06-02 2016-10-12 华南理工大学 一种深度神经网络样本自动取舍的训练方法
CN106022392B (zh) * 2016-06-02 2019-09-13 华南理工大学 一种深度神经网络样本自动取舍的训练方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN110447038A (zh) * 2017-03-21 2019-11-12 日本电气株式会社 图像处理装置、图像处理方法和记录介质
CN111052129A (zh) * 2017-07-28 2020-04-21 美国西门子医学诊断股份有限公司 深度学习体积定量方法和设备
CN111052129B (zh) * 2017-07-28 2024-03-08 美国西门子医学诊断股份有限公司 深度学习体积定量方法和设备
CN107909034A (zh) * 2017-11-15 2018-04-13 清华大学深圳研究生院 一种人脸检测方法、装置和计算机可读存储介质
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110390355A (zh) * 2019-07-01 2019-10-29 东北大学 基于进化模糊最大最小神经网络的管道新缺陷识别方法
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质
CN111122989A (zh) * 2019-12-30 2020-05-08 厦门大学 K聚类智能择取的微波信号多径干扰抑制方法
CN111122989B (zh) * 2019-12-30 2020-12-01 厦门大学 K聚类智能择取的微波信号多径干扰抑制方法
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN113190851B (zh) * 2021-05-26 2023-07-18 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN114358284A (zh) * 2022-01-12 2022-04-15 厦门市美亚柏科信息股份有限公司 一种基于类别信息对神经网络分步训练的方法、装置、介质

Similar Documents

Publication Publication Date Title
CN102063642A (zh) 基于主动学习的模糊神经网络样本选择方法
CN105844287B (zh) 一种遥感影像分类的域自适应方法及***
CN102201236B (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN107085763A (zh) 一种电动汽车用驱动电机***性能评价方法
CN102402716B (zh) 智能生产决策支持***
CN104155574A (zh) 基于自适应神经模糊推理***的配电网故障分类方法
CN108446214A (zh) 基于dbn的测试用例进化生成方法
Cao et al. A PSO-based cost-sensitive neural network for imbalanced data classification
CN105701509B (zh) 一种基于跨类别迁移主动学习的图像分类方法
CN106127229A (zh) 一种基于时间序列类别的计算机数据分类方法
CN112039687A (zh) 一种面向小样本特征的基于改进生成对抗网络的故障诊断方法
CN112685504A (zh) 一种面向生产过程的分布式迁移图学习方法
CN106096661A (zh) 基于相对属性随机森林的零样本图像分类方法
CN104463194A (zh) 一种人车分类方法及装置
CN103324954A (zh) 一种基于树结构的图像分类方法及其***
CN102496061A (zh) 基于主动学习的神经网络样本选择方法及其装置
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及***
CN105260746A (zh) 一种可扩展的多层集成多标记学习***
CN107679484A (zh) 一种基于云计算存储的遥感图像目标自动检测与识别方法
CN113011559A (zh) 基于kubernetes的自动机器学习方法及***
CN103679269A (zh) 基于主动学习的分类器样本选择方法及其装置
CN104036021A (zh) 混合生成式和判别式学习模型的图像语义标注方法
Li et al. Symbolic expression transformer: A computer vision approach for symbolic regression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110518