CN105426923A - 一种半监督分类方法及*** - Google Patents

一种半监督分类方法及*** Download PDF

Info

Publication number
CN105426923A
CN105426923A CN201510922380.9A CN201510922380A CN105426923A CN 105426923 A CN105426923 A CN 105426923A CN 201510922380 A CN201510922380 A CN 201510922380A CN 105426923 A CN105426923 A CN 105426923A
Authority
CN
China
Prior art keywords
data sample
matrix
weights
beta
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510922380.9A
Other languages
English (en)
Inventor
杨焘
付冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201510922380.9A priority Critical patent/CN105426923A/zh
Publication of CN105426923A publication Critical patent/CN105426923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种半监督分类方法及***,能够利用原带标号数据样本与无标号数据样本之间的空间结构信息,对无标号数据样本进行标号。所述方法包括:获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。本发明适用于机器学习技术领域。

Description

一种半监督分类方法及***
技术领域
本发明涉及机器学习技术领域,特别是指一种半监督分类方法及***。
背景技术
数据分类是机器学习的基本任务,是图像视觉分析、文本分析、语音识别、生物信号识别等领域的基础工作。数据分类,可分为两大类,即监督分类与半监督分类:监督分类是数据样本全部具有标号,半监督分类是部分数据样本具有标号,部分数据样本不具有标号。在实际中,无标号的数据比带标号的数据多得多,因此,从可应用的信息量角度可以看出,半监督分类在现实应用中有很强的需求。
目前,核学习,即基于核函数的学习方法,由于其对非线性问题的适应能力强的特点,核学习在机器学习的各个方面都有广泛地应用;然而,传统核学习是基于单个核函数的,对复杂的数据集合而言,对其特征的描述能力有限,且随着多源非结构化数据和多角度信息的出现,单一核函数对数据特征的描述与映射能力均有限。因此,多核学习被提出,多核学习是指将多个单一的核函数进行线性组合,而每个核函数能够对数据的特定的属性进行描述,以综合性地反映以及描述数据的特征,同时理论基础提供了多核函数的映射空间,即再生核希尔伯特空间,能够体系化地表征出映射之后的数据特征,从而有效地利用特征建立分类模型。
多核函数方法,在分类中表现出了泛化能力好,适应的数据集合广泛的特点;然而,就需求性更强的半监督分类领域而言,多核函数方法不能够直接利用无标号数据进行分类。
发明内容
本发明要解决的技术问题是提供一种半监督分类方法及***,以解决现有技术所存在的多核函数分类方法不能够直接利用无标号数据进行分类的问题。
为解决上述技术问题,本发明实施例提供一种半监督分类方法,包括:
获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
进一步地,所述获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵包括:
获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
进一步地,所述基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵包括:
给定M个核函数,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
对M个核矩阵的权值进行初始化;
对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K, K = Σ m = 1 M d m K m ;
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
进一步地,所述权值d中的元素dm满足dm≥0和||d||1=1,其中,
进一步地,所述根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数包括:
根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
P = m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 l β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式中,d表示待求权值,集合D表示d的约束条件,β表示待求参数,集合B表示β的约束条件,L是拉普拉斯矩阵,K是多核组合矩阵且I是单位矩阵,Y是对角矩阵且对角元素由组成,yi表示第i个带标号数据样本的标号值,l表示带标号数据样本的数目,J是单位矩阵和零矩阵组成且J=[I0],C是常数,γA和γI是表达式参数;
视权值d为固定值,根据二次规划方法,得到当前最优参数β;
在当前最优参数β下,再视权值d为变量,通过既约梯度方法得到权值d的更新方向参数s,并通过权值更新公式,更新每一个核矩阵的权值,所述权值更新公式为:
d:=d+λs
式中,λ是步长;
根据获得的被更新的d,更新多核组合矩阵和最优化数学表达式P,并根据更新后的最优化数学表达式P重新获取当前的最优参数β及权值d,直至满足:
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 t m = - 1 2 β T Y J ( K m Q - γ I KQLK m Q ) J T Y β
其中,ε表示预设的阈值,m=1,2,…,M依次取值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ
根据最终得到的最优参数β及权值d,得到参数α,并建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b , α = QJ T Y β , b = y j - Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x j )
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
本发明实施例还提供一种半监督分类***,包括:
拉普拉斯矩阵确定单元,用于获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
多核组合矩阵确定单元,用于基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
分类函数建立单元,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
进一步地,所述拉普拉斯矩阵确定单元包括:
图模型建立模块,用于获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
权值矩阵确定模块,用于确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
拉普拉斯矩阵确定模块,用于根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
进一步地,所述多核组合矩阵确定单元包括:
核矩阵确定模块,用于根据给定的M个核函数和获取到的数据样本,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
权值初始化模块,用于对M个核矩阵的权值进行初始化;
多核组合矩阵确定模块,用于对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K,
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
进一步地,所述权值d中的元素dm满足dm≥0和||d||1=1,其中,
进一步地,所述分类函数建立单元包括:
最优化数学表达式确定模块,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
P = m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 l β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式中,d表示待求权值,集合D表示d的约束条件,β表示待求参数,集合B表示β的约束条件,L是拉普拉斯矩阵,K是多核组合矩阵且I是单位矩阵,Y是对角矩阵且对角元素由组成,yi表示第i个带标号数据样本的标号值,l表示带标号数据样本的数目,J是单位矩阵和零矩阵组成且J=[I0],C是常数,γA和γI是表达式参数;
最优参数确定模块,用于在权值初始化模块的条件下,视权值d为固定值,应用二次规划法获得当前最优参数β;
权值更新模块,用于在当前最优参数β下,再视权值d为变量,通过既约梯度方法得到权值d的更新方向参数s,并通过权值更新公式,更新每一个核矩阵的权值,所述权值更新公式为:
d:=d+λs
式中,λ是步长;
参数验证模块,用于根据获得的被更新的d,更新多核组合矩阵和最优化数学表达式P,并根据更新后的最优化数学表达式P,重新获取当前的最优参数β及权值d,直至满足:
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 t m = - 1 2 β T Y J ( K m Q - γ I KQLK m Q ) J T Y β
其中,ε表示预设的阈值,m=1,2,…,M依次取值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ
分类函数建立模块,用于根据最终得到的最优参数β及权值d,得到参数α,并建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b , α = QJ T Y β , b = y j - Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x j )
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
本发明的上述技术方案的有益效果如下:
上述方案中,通过利用流形理论,建立表征所述数据样本流形结构的拉普拉斯矩阵,并通过多核函数,作用于获取到的数据样本,建立每个核函数的映射空间,同时通过核矩阵来表征每个映射空间下的数据样本特征,并以带约束的核组合权值对多个核矩阵进行组合,得到多核组合矩阵,所述多核组合矩阵用于综合性地表征映射空间下的数据样本特征,最后,再将拉普拉斯矩阵作用于半监督分类函数上,用于约束多核组合矩阵对数据样本的映射作用,使得半监督分类函数尽可能保持拉普拉斯矩阵所表征的原数据样本的流形结构,也就是说,所述半监督分类函数蕴含了原带标号数据样本与无标号数据样本之间的空间结构信息,从而能够对无标号数据样本的分类进行有效的预测,且能够提高分类预测的准确性和泛化性。
附图说明
图1为本发明实施例提供的半监督分类方法的流程图一;
图2为本发明实施例提供的半监督分类方法的流程图二;
图3为本发明实施例提供的获取到的数据样本;
图4为本发明实施例提供的基于数据样本的图模型;
图5为本发明实施例提供的半监督分类方法对无标号数据样本的标号结果示意图;
图6为本发明实施例提供的现有技术中只应用标号数据样本的多核函数的标号结果示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的多核函数分类方法不能够直接利用无标号数据进行分类的问题,提供一种半监督分类方法及***。
实施例一
参看图1所示,本发明实施例提供的一种半监督分类方法,包括:
S1:获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
S2:基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
S3:根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
本发明实施例所述的半监督分类方法,通过利用流形理论,建立表征所述数据样本流形结构的拉普拉斯矩阵,并通过多核函数,作用于获取到的数据样本,建立每个核函数的映射空间,同时通过核矩阵来表征每个映射空间下的数据样本特征,并以带约束的核组合权值对多个核矩阵进行组合,得到多核组合矩阵,所述多核组合矩阵用于综合性地表征映射空间下的数据样本特征,最后,再将拉普拉斯矩阵作用于半监督分类函数上,用于约束多核组合矩阵对数据样本的映射作用,使得半监督分类函数尽可能保持拉普拉斯矩阵所表征的原数据样本的流形结构,也就是说,所述半监督分类函数蕴含了原带标号数据样本与无标号数据样本之间的空间结构信息,从而能够对无标号数据样本的分类进行有效的预测,且能够提高分类预测的准确性和泛化性。
本发明实施例中,拉普拉斯矩阵对半监督分类函数的约束作用是一种流形正则方法,通过获取表征所述数据样本流形结构的拉普拉斯矩阵,令多核函数所构造的半监督分类函数所在的映射空间,在映射数据上,具备原数据样本的流形结构,因此,所建立的半监督分类函数能够实现半监督分类任务。
在前述半监督分类方法的具体实施方式中,进一步地,所述获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵包括:
获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
本发明实施例中,例如,所述数据样本X包括:带标号的样本集合 和无标号的样本集合其中,xi表示数据样本X中第i带标号数据样本,yi表示元素xi对应的标号值,xj表示数据样本X中第j无标号数据样本,l+u=n,l表示带有标号y的数据样本的个数,u表示无标号的数据样本的个数,n为全体数据样本的数目,y={-1,+1},y=-1表示负类,y=+1表示正类。参看图2所示,所示数据样本包括:图像、数据等。
本发明实施例中,根据给定的全体数据样本X,可以应用k近邻方法,获得每一个数据样本的k邻域,该邻域包含了与当前数据样本在欧氏距离下最近的前k个样本点,从而构建图模型,所述图模型能够反映出数据样本的空间结构。
本发明实施例中,假设图模型中数据样本点与数据样本点之间有边相连,可以应用二值化方法获得各邻域范围的各个数据样本之间的权值,具体的,通过二值化方法约定每一条边的权值为1,遍历所有数据样本点,得到图模型的权值矩阵W,进一步,通过公式L=D-W,得到表征数据样本的流形结构信息的拉普拉斯矩阵L,所述拉普拉斯矩阵是各邻域范围内各个数据样本之间的权值的特征化形式,所述拉普拉斯矩阵L用于约束多核组合矩阵对数据的映射作用,使得在多核函数映射的空间中,数据样本的流形结构尽可能保持一致,以保证分类函数做半监督分类时,数据样本原本的流形特性能够提供有效的信息,其中,D是对角矩阵,其对角元素dii满足dii=∑jwij,wij表示权值矩阵W中第i行、第j列的元素,dii表示对角矩阵D中第i行、第i列的元素。
本发明实施例中,例如,给定一组二维空间的数据样本X,共194个,其中26个带有正负两类标号,其余无标号,记带标号的为无标号的为数据样本示意图如图3所示。对数据样本X进行k近邻计算,例如,k取3,获得基于全体数据样本的图模型,如图4所示;同时以二值化方法获得各边的权值,进而获得拉普拉斯矩阵L=D-W。
在前述半监督分类方法的具体实施方式中,进一步地,所述基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵包括:
给定M个核函数,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
对M个核矩阵的权值进行初始化;
对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K, K = Σ m = 1 M d m K m ;
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
本发明实施例中,给定M个核函数,所述核函数可以为高斯核函数,每个核函数具有不同的参数值,M个参数值记为m=1,2,…,M依次取值,各核函数作用于给定数据样本X,获得M个矩阵,记为核矩阵对任意核矩阵Km,并对M个核矩阵的权值进行初始化,d表示核组合权值,是一个矩阵,dm表示第m个核矩阵Km的权值,dm满足任意dm≥0和||d||1=1,其中,并将M个核矩阵进行权值为d的线性组合,获得多核组合矩阵 K ( K = Σ m = 1 M d m K m ) .
本发明实施例中,通过给定的M个核函数,得到每个核函数的映射空间,并对M个核矩阵进行权值为d的线性组合,获得多核组合矩阵K,所述多核组合矩阵K综合性地表征映射空间下的数据样本特征。
本发明实施例中,例如,给定12个高斯核函数,其参数σm以小到大,选择为σm=[0.01,0.05,0.1,0.5,1,2,5,7,10,12,15,20],并将数据样本X代入12个高斯核函数,获得12个核矩阵并初始化12个核矩阵权值对权值d进行初始化,例如,可以令dm=1/12,则初始化的多核组合矩阵是
本发明实施例中,为了建立半监督分类函数,先通过式(1)建立最优数学表达式P:
P = m i n α , b , d , ξ γ A 2 α T K α + γ I 2 α T K L K α + CΣ i = 1 l ξ i
s . t . y i ( Σ j = 1 l + u α j K ( x i , x j ) + b ) ≥ 1 - ξ i , ξ i ≥ 0 , i = 1 ... l 式(1)
K = Σ m = 1 M d m K m
Σ m = 1 M d m = 1 , d m ≥ 0
式(1)中,C是常数,s.t.表示约束条件,ξi表示允许误差阈值,γA和γI是预设的表达式参数,α,d和b为待求参数,α是一个向量,αj为α中的元素。为了求解α,d和b,通过拉格朗日乘子法,获得最优数学表达式P的对偶数学表达式g(β,d),该对偶数学表达式是一个二次规划表达式,具有有效的求解方法,该对偶数学表达式g(β,d)表示为式(2):
m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 l β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1式(2)
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式(2)中,I是单位矩阵,B和D表示集合,分别是参数β与核组合权值d的约束条件,Y是对角矩阵且对角元素由组成,J是单位矩阵和零矩阵组成且J=[I0],yi表示第i个带标号数据样本的标号值,此时式(1)中的待求参数α,d和b被转化为式(2)中的β,d和b,βi是参数β中的元素;
对d进行初始化后,对式(2)进行变换,得到先固定d,待求解β的最优化数学表达式P,表示为式(3):
Q=(γAI+γILK)-1式(3)
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
应用二次规划方法对式(3)进行求解,得到当前最优参数β,记为β*
将β*代入式(2)所表达的对偶数学表达式g(β,d),对g(β,d)采用梯度下降方法,确定d的更新方向,为确保更新d的时候,使得d的范围不超过约束集合D,需采用既约梯度方法,假设d的更新方向参数为s,v表示当前核矩阵的权值中最大元素的下标,则更新方向参数s需满足式(4):
s = s m = - t m r t m r ≤ 0 - d m t m r t m r > 0 s v = - Σ m ≠ v s m , t m r = t m - t v m ≠ v 0 m = v , t m = - 1 2 β * T Y J ( K m Q - γ I KQLK m Q ) J T Yβ * 式(4)
根据式(4)求出更新方向参数s,再通过权值更新公式d:=d+λs来更新M个核矩阵的权值d,其中,λ是步长,更新权值d后,同时更新多核组合矩阵与式(3)所表达的最优化数学表达式P,并根据表达式P再次通过二次规划方法重新获得当前的最优参数β,记为β*,并根据重新获得的最优参数β*继续更新权值d,参数β与权值d的求解过程构成了迭代计算,这种迭代计算重复进行,直到满足式(5):
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 式(5)
式(5)中,tm=-βTYJ(KmQ-γIKQLKmQ)JTYβ/2,m=1,2,…,M依次取值,ε是预设的很小的阈值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ;再根据获得的当前的最优参数β和权值d,得到参数α及参数b,其中,α=QJTYβ,
最后,根据得到参数α、d、b,建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
本发明实施例中,对任意无标号的数据样本x,通过判断半监督分类函数f(x)的符号,确定x的类别是正类或是负类。
本发明实施例中,针对数据样本X,其中,26个带有正负两类标号,其余168个为无标号的数据样本,取C=100,建立半监督分类函数f(x),即将168个无标号数据样本代入函数f(x)中,并以f(x)输出的正负符号作为判断当前数据样本是属于正类还是负类,分类结果如图5所示。
本发明实施例中,同时对只能应用26个带标号数据样本的多核函数的分类方法进行仿真计算,对168个无标号的数据样本进行标号处理,分类结果如图6所示。比较图5和图6,本发明提供的半监督分类方法,能够根据给定标号样本的标号信息和全体数据样本的流形结构信息,给出更符合视觉感知意义下的分类结果。也就是,本发明实施例建立的半监督分类函数是映射空间中数据特征的一种有约束组合,所述半监督分类函数蕴含了原带标号数据与无标号数据之间的空间结构信息,为无标号数据提供了有益有效的标号预测作用。
实施例二
本发明还提供一种半监督分类***的具体实施方式,由于本发明提供的半监督分类***与前述半监督分类方法的具体实施方式相对应,所建立的半监督分类***可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述半监督分类方法具体实施方式中的解释说明,也适用于本发明提供的半监督分类***的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
本发明实施例还提供一种半监督分类***,包括:
拉普拉斯矩阵确定单元,用于获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
多核组合矩阵确定单元,用于基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
分类函数建立单元,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
本发明实施例所述的半监督分类***,通过利用流形理论,建立表征所述数据样本流形结构的拉普拉斯矩阵,并通过多核函数,作用于获取到的数据样本,建立每个核函数的映射空间,同时通过核矩阵来表征每个映射空间下的数据样本特征,并以有约束的核组合权值对多个核矩阵进行组合,得到多核组合矩阵,所述多核组合矩阵用于综合性地表征映射空间下的数据样本特征,最后,再将拉普拉斯矩阵作用于半监督分类函数上,用于约束多核组合矩阵对数据样本的映射作用,使得半监督分类函数尽可能保持拉普拉斯矩阵所表征的原数据样本的流形结构,也就是说,所述半监督分类函数蕴含了原带标号数据样本与无标号数据样本之间的空间结构信息,从而能够对无标号数据样本的分类进行有效的预测,且能够提高分类预测的准确性和泛化性。
在前述半监督分类***的具体实施方式中,进一步地,所述拉普拉斯矩阵确定单元包括:
图模型建立模块,用于获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
权值矩阵确定模块,用于确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
拉普拉斯矩阵确定模块,用于根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
在前述半监督分类***的具体实施方式中,进一步地,所述多核组合矩阵确定单元包括:
核矩阵确定模块,用于根据给定的M个核函数和获取到的数据样本,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
权值初始化模块,用于对M个核矩阵的权值进行初始化;
多核组合矩阵确定模块,用于对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K,
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
在前述半监督分类***的具体实施方式中,进一步地,所述权值d中的元素dm满足dm≥0和||d||1=1,其中,
在前述半监督分类***的具体实施方式中,进一步地,所述分类函数建立单元包括:
最优化数学表达式确定模块,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
P = m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 l β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式中,d表示待求权值,集合D表示d的约束条件,β表示待求参数,集合B表示β的约束条件,L是拉普拉斯矩阵,K是多核组合矩阵且I是单位矩阵,Y是对角矩阵且对角元素由组成,yi表示第i个带标号数据样本的标号值,l表示带标号数据样本的数目,J是单位矩阵和零矩阵组成且J=[I0],C是常数,γA和γI是表达式参数;
最优参数确定模块,用于在权值初始化模块的条件下,视权值d为固定值,应用二次规划法获得当前最优参数β;
权值更新模块,用于在当前最优参数β下,再视权值d为变量,通过既约梯度方法得到权值d的更新方向参数s,并通过权值更新公式,更新每一个核矩阵的权值,所述权值更新公式为:
d:=d+λs
式中,λ是步长;
参数验证模块,用于根据获得的被更新的d,更新多核组合矩阵和最优化数学表达式P,并根据更新后的最优化数学表达式P,重新获取当前的最优参数β及权值d,直至满足:
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 t m = - 1 2 β T Y J ( K m Q - γ I KQLK m Q ) J T Y β
其中,ε表示预设的阈值,m=1,2,…,M依次取值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ
分类函数建立模块,用于根据最终得到的最优参数β及权值d,得到参数α,并建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b , α = QJ T Y β , b = y j - Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x j )
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种半监督分类方法,其特征在于,包括:
获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
2.根据权利要求1所述的半监督分类方法,其特征在于,所述获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵包括:
获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
3.根据权利要求1所述的半监督分类方法,其特征在于,所述基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵包括:
给定M个核函数,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
对M个核矩阵的权值进行初始化;
对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K, K = Σ m = 1 M d m K m ;
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
4.根据权利要求3所述的半监督分类方法,其特征在于,所述权值d中的元素dm满足dm≥0和‖d‖1=1,其中,
5.根据权利要求1所述的半监督分类方法,其特征在于,所述根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数包括:
根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
P = m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 L β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式中,d表示待求权值,集合D表示d的约束条件,β表示待求参数,集合B表示β的约束条件,L是拉普拉斯矩阵,K是多核组合矩阵且I是单位矩阵,Y是对角矩阵且对角元素由组成,yi表示第i个带标号数据样本的标号值,l表示带标号数据样本的数目,J是单位矩阵和零矩阵组成且J=[I0],C是常数,γA和γI是表达式参数;
视权值d为固定值,根据二次规划方法,得到当前最优参数β;
在当前最优参数β下,再视权值d为变量,通过既约梯度方法得到权值d的更新方向参数s,并通过权值更新公式,更新每一个核矩阵的权值,所述权值更新公式为:
d:=d+λs
式中,λ是步长;
根据获得的被更新的d,更新多核组合矩阵和最优化数学表达式P,并根据更新后的最优化数学表达式P重新获取当前的最优参数β及权值d,直至满足:
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 t m = - 1 2 β T Y J ( K m Q - γ I KQLK m Q ) J T Y β
其中,ε表示预设的阈值,m=1,2,…,M依次取值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ
根据最终得到的最优参数β及权值d,得到参数α,并建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b , α=QJTYβ, b = y j - Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x j )
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
6.一种半监督分类***,其特征在于,包括:
拉普拉斯矩阵确定单元,用于从获取数据样本中,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
多核组合矩阵确定单元,用于基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
分类函数建立单元,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
7.根据权利要求6所述的半监督分类***,其特征在于,所述拉普拉斯矩阵确定单元包括:
图模型建立模块,用于获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
权值矩阵确定模块,用于确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
拉普拉斯矩阵确定模块,用于根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
8.根据权利要求6所述的半监督分类***,其特征在于,所述多核组合矩阵确定单元包括:
核矩阵确定模块,用于根据给定的M个核函数和获取到的数据样本,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
权值初始化模块,用于对M个核矩阵的权值进行初始化;
多核组合矩阵确定模块,用于对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K,
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
9.根据权利要求8所述的半监督分类***,其特征在于,所述权值d中的元素dm满足dm≥0和‖d‖1=1,其中,
10.根据权利要求8所述的半监督分类***,其特征在于,所述分类函数建立单元包括:
最优化数学表达式确定模块,用于根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
P = m i n d ∈ D m a x β ∈ B g ( β , d ) = Σ i = 1 l β i - 1 2 β T YJKQJ T Y β
Q=(γAI+γILK)-1
B = { β | Σ i = 1 l β i y i = 0 , 0 ≤ β i ≤ C , ∀ i }
D = { d | Σ m = 1 M d m = 1 , d m ≥ 0 , ∀ m }
式中,d表示待求权值,集合D表示d的约束条件,β表示待求参数,集合B表示β的约束条件,L是拉普拉斯矩阵,K是多核组合矩阵且I是单位矩阵,Y是对角矩阵且对角元素由组成,yi表示第i个带标号数据样本的标号值,l表示带标号数据样本的数目,J是单位矩阵和零矩阵组成且J=[I0],C是常数,γA和γI是表达式参数;
最优参数确定模块,用于在权值初始化模块的条件下,视权值d为固定值,应用二次规划法获得当前最优参数β;
权值更新模块,用于在当前最优参数β下,再视权值d为变量,通过既约梯度方法得到权值d的更新方向参数s,并通过权值更新公式,更新每一个核矩阵的权值,所述权值更新公式为:
d:=d+λs
式中,λ是步长;
参数验证模块,用于根据获得的被更新的d,更新多核组合矩阵和最优化数学表达式P,并根据更新后的最优化数学表达式P,重新获取当前的最优参数β及权值d,直至满足:
| min d m > 0 t m - max d m > 0 t m | ≤ ϵ t μ ≥ max d m > 0 t m , d μ = 0 t m = - 1 2 β T Y J ( K m Q - γ I KQLK m Q ) J T Y β
其中,ε表示预设的阈值,m=1,2,…,M依次取值,M表示核矩阵的个数,Km表示第m个核矩阵,dm表示第m个核矩阵的权值,tm是相对应于dm>0的计算结果,若dm=0,另记为dμ以示区别,此时相对应的计算结果记为tμ
分类函数建立模块,用于根据最终得到的最优参数β及权值d,得到参数α,并建立半监督分类函数f(x):
f ( x ) = Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x ) + b , α=QJTYβ, b = y j - Σ i = 1 n α i Σ m = 1 M d m k m ( x i , x j )
式中,x表示的无标号的数据样本,αi表示参数α中的元素,n表示数据样本的数目,km表示第m个核函数,yj表示第j个带标号数据样本的标号值且下标j对应的同一下标的βj在(0,C)范围之间,xi表示第i个数据样本,xj表示第j个带标号数据样本。
CN201510922380.9A 2015-12-14 2015-12-14 一种半监督分类方法及*** Pending CN105426923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510922380.9A CN105426923A (zh) 2015-12-14 2015-12-14 一种半监督分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510922380.9A CN105426923A (zh) 2015-12-14 2015-12-14 一种半监督分类方法及***

Publications (1)

Publication Number Publication Date
CN105426923A true CN105426923A (zh) 2016-03-23

Family

ID=55505121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510922380.9A Pending CN105426923A (zh) 2015-12-14 2015-12-14 一种半监督分类方法及***

Country Status (1)

Country Link
CN (1) CN105426923A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067042A (zh) * 2016-06-13 2016-11-02 西安电子科技大学 基于半监督深度稀疏滤波网络的极化sar分类方法
CN107392230A (zh) * 2017-06-22 2017-11-24 江南大学 一种具备极大化知识利用能力的半监督图像分类方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN106991049B (zh) * 2017-04-01 2020-10-27 南京邮电大学 一种软件缺陷预测方法及预测***
CN117936079A (zh) * 2024-03-21 2024-04-26 中国人民解放军总医院第三医学中心 基于流形学习的糖尿病视网膜病变识别方法、介质及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496027A (zh) * 2011-11-10 2012-06-13 西安电子科技大学 基于约束自适应传递的半监督图像分类方法
CN103605984A (zh) * 2013-11-14 2014-02-26 厦门大学 基于超图学习的室内场景分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496027A (zh) * 2011-11-10 2012-06-13 西安电子科技大学 基于约束自适应传递的半监督图像分类方法
CN103605984A (zh) * 2013-11-14 2014-02-26 厦门大学 基于超图学习的室内场景分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨焘、付东梅: "Semi-supervised classification with Laplacian multiple kernel learning", 《NEUROCOMPUTING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067042A (zh) * 2016-06-13 2016-11-02 西安电子科技大学 基于半监督深度稀疏滤波网络的极化sar分类方法
CN106067042B (zh) * 2016-06-13 2019-02-15 西安电子科技大学 基于半监督深度稀疏滤波网络的极化sar分类方法
CN106991049B (zh) * 2017-04-01 2020-10-27 南京邮电大学 一种软件缺陷预测方法及预测***
CN107392230A (zh) * 2017-06-22 2017-11-24 江南大学 一种具备极大化知识利用能力的半监督图像分类方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN117936079A (zh) * 2024-03-21 2024-04-26 中国人民解放军总医院第三医学中心 基于流形学习的糖尿病视网膜病变识别方法、介质及***

Similar Documents

Publication Publication Date Title
Sun et al. RSOD: Real-time small object detection algorithm in UAV-based traffic monitoring
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
Zhang et al. Application of convolutional neural network to predict airfoil lift coefficient
Lei et al. Classification, parameter estimation and state estimation: an engineering approach using MATLAB
Deng et al. A CNN-based vortex identification method
CN105426923A (zh) 一种半监督分类方法及***
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
CN104951787A (zh) 一种src框架下判别字典学习的电能质量扰动识别方法
Festag et al. Generative adversarial networks for biomedical time series forecasting and imputation
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN113780242A (zh) 一种基于模型迁移学习的跨场景水声目标分类方法
CN115659254A (zh) 一种双模态特征融合的配电网电能质量扰动分析方法
CN105631477A (zh) 基于极限学习机和自适应提升的交通标志识别方法
CN105510970A (zh) 获取地震相最佳分类数目的方法
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN108805206A (zh) 一种用于模拟电路故障分类的改进型lssvm建立方法
CN109034213A (zh) 基于相关熵原则的高光谱图像分类方法和***
Xin et al. Hybrid dilated multilayer faster RCNN for object detection
Rethik et al. Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer
Fang et al. Concise feature pyramid region proposal network for multi-scale object detection
Li et al. Gadet: A geometry-aware x-ray prohibited items detector
CN115705393A (zh) 一种基于持续学习的雷达辐射源分级识别方法
Deng et al. MVU-Net: a multi-view U-Net architecture for weakly supervised vortex detection
Toms et al. Testing the reliability of interpretable neural networks in geoscience using the madden-julian oscillation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160323

WD01 Invention patent application deemed withdrawn after publication