CN111046914B

CN111046914B - 基于动态构图的半监督分类方法

Info

Publication number: CN111046914B
Application number: CN201911131232.XA
Authority: CN
Inventors: 马君亮; 肖冰; 敬欣怡; 何聚厚; 汪西莉
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-10-27
Anticipated expiration: 2039-11-20
Also published as: CN111046914A

Abstract

本公开涉及一种基于动态构图的半监督分类的方法，包括：S100、准备数据集；S200、在步骤S100准备的数据集上使用动态近邻DNN方法进行选边，得到邻接矩阵A；S300、对步骤S200中生成的邻接矩阵A使用ADW方法计算节点间的相似概率，得到亲和矩阵M；S400、根据步骤S300得到的亲和矩阵M进行标签传播得到最终的分类结果。本公开提出的分类方法能够捕捉数据的分布，在数据稠密区域连接更多的边，在数据稀疏区域连接较少的边，可以更好地反映数据的疏密程度，因此具有更好的分类效果。

Description

基于动态构图的半监督分类方法

技术领域

本公开涉及数据分类方法，具体地讲，涉及一种基于动态构图DCG(DynamicConstruction Graph)的半监督分类方法。

背景技术

现有的数据分类方法包括有监督分类、半监督分类、无监督分类等方法。其中有监督分类方法中需要大量的已标记数据来训练模型，限制了其应用场景；无监督分类不需要数据的类别信息，应用广泛，但由于缺乏类别信息导致分类效果不好。半监督分类方法因只需少量的已标记的数据，获取成本低，又能通过学习大量的未标记数据的数据分布而得到较好的分类效果，因而具有广泛的应用场景。

基于图的半监督分类是半监督分类中一个重要的分支，由于充分利用了数据之间的关系，往往取得较好的效果，得到广泛的关注。然而，目前的基于图的半监督分类方法中，相似度图往往由k-近邻(kNN)或ε-近邻的方法构造，在构造图的过程中，只是使用了数据的属性特征，并没有使用到已标记数据的类别信息，得到的相似度图不能很好地反应实际情况，分类结果也较不准确。

根据不同的数据分布假设，会构建不同的图结构。理想的图应当具备下面的三个特征：选边算法能够反映数据分布，在数据稠密的区域，选择更多的邻居，在稀疏的区域选择较少的邻居；相似度的测度不应该只和距离相关，还应该和局部结构相关；构图算法应当减少人为设定参数对构图效果的影响。由于现有技术中的选边算法和相似度计算方法都具有各自的局限性，使得分类方法的结果不够准确，因此亟需一种新的半监督分类方法，以使数据分类的结果更为准确。

发明内容

针对上述问题，本公开提出了一种基于动态构图的半监督分类方法，采用动态近邻(DNN，Dynamic Nearest Neighbor)方法进行选边，采用自适应度加权(ADW，AdaptiveDegree Weighting)方法进行相似度计算，该方法能够很好地描述数据的局部特征，进而提高了数据分类的准确性。

本公开提出的基于动态构图的半监督分类方法，先使用DNN方法进行选边，对于每个节点动态地选择其D近邻，然后使用ADW方法计算边的权重，即节点间的相似概率，最后使用局部和全局一致性(Learning with Local and Global Consistency，LLGC)算法进行图的分类。

具体地，一种基于动态构图的半监督分类方法，包括：

S100、准备数据集，所述数据集包括已标记数据X_l和未标记数据X_u两部分，已标记数据X_l的标记信息为F_l，数据集中数据的特征通过数据属性信息来描述，l表示已标记数据的个数，将数据集中的数据抽象为m维空间上的n个节点，第i个节点表示为p_i；

S200、在步骤S100准备的数据集上使用动态近邻DNN方法进行选边，得到邻接矩阵A，具体为：

S201、计算所述数据集中节点间的欧氏距离，得到直接距离矩阵S；

S202、使用动态近邻DNN方法选择节点p_i的D近邻，作为所选择的边，并根据D近邻生成邻接矩阵A，A是一个n×n的矩阵，邻接矩阵A中，若p_j是p_i的近邻，则矩阵中相应位置A_ij的值为1，否则为0，A_ij表示邻接矩阵A中第i行第j列的值；

S300、对步骤S200中生成的邻接矩阵A使用ADW方法计算节点间的相似概率，得到亲和矩阵M，具体为：

S301、根据步骤S201中的直接距离矩阵S和步骤S202中定义的邻接矩阵A定义距离矩阵S′，S′_ij代表距离矩阵S′中第i行第j列的值，具体定义为：

当i≠j时，

当i＝j时，S′_ij＝0；

S302、根据步骤301中定义的距离矩阵S′定义权值矩阵W，权值矩阵W是一个n×n的矩阵，其中W_ij用来描述节点p_i和节点p_j的相似度，即权值矩阵W第i行第j列的值；

S303、将步骤302中定义的权值矩阵W归一化后得到亲和矩阵M，亲和矩阵M是一个n×n的矩阵，其中M_ij用来描述节点p_i和节点p_j相似的概率，即亲和矩阵M第i行第j列的值；

S400、根据步骤S300得到的亲和矩阵M进行标签传播得到最终的分类结果。

优选的，所述步骤S100中的数据集包括合成数据集TwoSpirals、ToyData、FourGaussian、TwoMoon以及图像数据集USPS、Mnist、Mnist-3495、Coil20、Coil(1500)、G241d、COIL2。

优选的，所述步骤S201中，数据集中节点p_i和p_j之间的欧氏距离为：

其中m表示数据的维度，p_i、p_j表示图中的第i、j个节点，x_ik和x_jk分别是节点p_i、p_j第k维的坐标，根据节点间的欧氏距离生成直接距离矩阵S，直接距离矩阵S是一个n×n的二维矩阵，S_ij表示矩阵中第i行第j列的值，存储节点p_i和节点p_j之间的欧氏距离。

优选的，所述步骤S201还包括：

对直接距离矩阵S中的每个节点与其他节点的欧氏距离按从小到大的顺序进行排序得到矩阵O，同时生成其对应直接距离矩阵S的索引矩阵E，具体过程为，对于直接距离矩阵S中的第i行，将其存储的距离按从小到大的顺序排序，将排序为j-1的距离存储在O_ij中，同时将该距离在直接距离矩阵S中的位置存储在E_ij中，由此通过索引矩阵E可以查找到矩阵O中存储的距离在直接距离矩阵S中的对应位置；矩阵O和索引矩阵E都是n×n的二维矩阵，E_ij表示索引矩阵E的第i行第j列的元素。

优选的，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用代数方法：

N(p_i)表示p_i的D近邻集合，在矩阵O中第i行第j列存储距离节点p_i排序为j的距离，通过索引矩阵E可以查找到其在直接距离矩阵S中的位置S_im，即节点p_m是到节点p_i的距离排序为j的节点，将节点p_m记为判断/>是不是p_i的D近邻，判断准则为：将最近邻/>加入到D近邻中，将/>作为基准点，当/> 目/>时，/>是p_i的近邻，否则/>到/>都不是p_i的最近邻，其中/>为p_i的最近邻，/>表示距离p_i排序为j的样本点，d(·)表示距离度量；再将/>作为基准点，当/>且/>时，/>是p_i的近邻，再将/>作为基准点进行判断，以此类推，直到/>不是p_i的D近邻时停止判断，此时所得结果即为节点p_i的D近邻，将p_i与其D近邻的连线作为所选择的边。

优选的，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用几何方法：

节点p_i的D近邻查找过程：在矩阵O中第i行第j列存储距离节点p_i排序为j的距离，通过索引矩阵E可以查找到其在直接距离矩阵S中的位置S_im，即节点p_m是到节点p_i的距离排序为j的节点，将节点p_m记为将最近邻/>加入到D近邻中，/>的中垂线将平面分为两个区域，根据/>的中垂线来选择p_i的D近邻所属的区域，即靠近p_i这一侧为D近邻所属区域；从所述D近邻所属区域中选择距离p_i最近的近邻，即/>根据/>的中垂线来选择p_i的新D近邻所属的区域，即靠近p_i这一侧为新D近邻所属区域，在这个区域中选择距离p_i最近的点/>加入并作为下一个基准点，如此循环直到由所有中垂线构成的靠近p_i的区域变成封闭区域，此封闭区域内的所有节点就是p_i的D近邻，将p_i与其D近邻的连线作为所选择的边。

优选的，所述步骤S302中，权值矩阵W定义为：

W_ij＝deg(p_i)S′_ij

其中p_i为图上的节点，W_ij表示权值矩阵W中第i行第j列的值，deg(p_i)为节点的度，S′_ij表示节点p_i和节点p_j的距离，即距离矩阵S′中第i行第j列的值。

优选的，所述步骤S303中定义了亲和矩阵M，具体为：

根据权值矩阵W，使用如下公式计算对角矩阵T：

T_ii＝∑_jW_ij

其中T_ii表示对角矩阵T第i行第i列的值，W_ij表示权值矩阵W第i行第j列的值。

使用如下公式归一化后得到亲和矩阵M：

M＝T^-1/2WT^-1/2

其中T是对角矩阵，W是权值矩阵，M是亲和矩阵。

优选的，所述步骤S400中的标签传播通过局部和全局一致性LLGC方法，计算方法如下：

F＝(I-αM)^-1Y

其中F是一个n×c的矩阵，n为节点个数，c为标签的种类数，F_ij表示节点p_i标记为第j类标签的概率，即矩阵F第i行第j列的值；I是单位矩阵，α为调节参数，M是亲和矩阵，Y为标记信息，它是一个n×c的矩阵，其中存储每个节点的标记信息，Y_ij为矩阵Y第i行第j列的值，若节点p_i的标记为第j类标签，则Y_ij＝1，否则Y_ij＝0；(I-αM)^-1是每个节点获取标记节点标签的概率；

最终得到节点p_i的标记信息，具体为：

其中F_ij是矩阵F第i行第j列的值，argmax代表将当F_ij取得最大值时的j赋值给y_i，即节点p_i的标记即为y_i，对所有节点获得标记后即完成数据的分类。

与现有技术相比，本公开具有下述有益技术效果：

(1)本公开提出的基于动态构图的半监督分类方法能够更好地表达数据的潜在分布特征；

(2)本公开提出的基于动态构图的半监督分类方法采用动态近邻选边的方法，再使用ADW方法计算边的权重，进而进行分类；该分类方法能够捕捉数据的分布，在数据稠密区域连接更多的边，在数据稀疏区域连接较少的边，可以更好地反映数据的疏密程度，因此具有更好的分类效果。

附图说明

图1表示本公开的基于动态构图的半监督分类算法流程图；

图2表示二维平面上DNN选边方法原理示意图；

图3表示二维平面上D近邻查找过程示意图；

图4(a)表示TwoSpirals数据集；

图4(b)表示ToyData数据集；

图4(c)表示FourGaussian数据集；

图4(d)表示TwoMoon数据集；

图5(a)表示TwoSpirals数据集DNN构图结果；

图5(b)表示TwoSpirals数据集DNN预测结果；

图5(c)表示TwoSpirals数据集kNN构图结果；

图5(d)表示TwoSpirals数据集kNN预测结果；

图6(a)表示ToyData数据集DNN构图结果；

图6(b)表示ToyData数据集DNN预测结果；

图6(c)表示ToyData数据集k＝5时，kNN构图结果；

图6(d)表示ToyData数据集k＝5时，kNN预测结果；

图6(e)表示ToyData数据集k＝10时，kNN构图结果；

图6(f)表示ToyData数据集k＝10时，kNN预测结果；

图6(g)表示ToyData数据集k＝15时，kNN构图结果；

图6(h)表示ToyData数据集k＝15时，kNN预测结果。

具体实施方式

本公开提出的基于动态构图的半监督分类方法：

下面结合附图1至图6(h)对本发明进行解释说明，在一个实施例中，如图1所示，提供了一种基于动态构图的半监督分类方法，包括步骤S100-S400：

当i≠j时，

当i＝j时，S′_ij＝0；

在该实施例中，在准备好的数据集上使用动态近邻DNN方法进行选边，得到邻接矩阵A，并计算得到亲和矩阵M，进一步进行标签传播得到最终的分类结果；该分类方法能够捕捉数据的分布，在数据稠密区域连接更多的边，在数据稀疏区域连接较少的边，可以更好地反映数据的疏密程度，因此具有更好的分类效果。其中，DNN方法具体可以采用代数方法或者几何方法来实现。

在另一个实施例中，本公开提出的分类方法可以应用到多种数据集中进行分类，只要该数据集满足包括数据及其匹配的标签的要求即可。例如合成数据集TwoSpirals、ToyData、FourGaussian、TwoMoon以及图像数据集USPS、Mnist、Mnist-3495、Coil20、Coil(1500)、G241d、COIL2。

合成数据集TwoSpirals、ToyData、FourGaussian、TwoMoon的样本数量、属性个数和类别数如表1中所示：

表1合成数据集

合成数据集	样本个数	属性维度	类别数
				TwoSpirals	2000	2	2
ToyData	788	2	7
				FourGaussian	1200	2	4
TwoMoon	400	2	2

图像数据集USPS、Mnist、Mnist-3495、Coil20、Coil(1500)、G241d、COIL2的样本数量、属性个数和类别数如表2所示：

表2图像数据集

基准数据集	样本个数	属性维度	类别数
				USPS	1800	256	6
Mnist	6996	784	10
				Mnist-3495	3495	784	10
Coil20	1440	1024	20
				Coil(1500)	1500	241	6
G241d	1500	241	2
				COIL2	1500	241	2

以上数据集都是现有的数据集，在ImageNet数据库中可以获取。

在另一个实施例中，所述步骤S201中，数据集中节点p_i和p_j之间的欧氏距离为：

其中m表示空间的维度，p_i、p_j表示图中的第i、j个节点，x_ik和x_jk分别是节点p_i、p_j第k维的坐标，根据节点间的欧氏距离生成直接距离矩阵S，直接距离矩阵S是一个n×n的二维矩阵，S_ij表示矩阵中第i行第j列的元素，存储节点p_i和节点p_j之间的欧氏距离。

在另一个实施例中，所述步骤S201还包括：

在另一个实施例中，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用代数方法：

N(p_i)表示p_i的D近邻集合，在矩阵O中第i行第j列存储距离节点p_i排序为j的距离，通过索引矩阵E可以查找到其在直接距离矩阵S中的位置S_im，即节点p_m是到节点p_i的距离排序为j的节点，将节点p_m记为判断/>是不是p_i的D近邻，判断准则为：将最近邻/>加入到D近邻中，将/>作为基准点，当/> 且/>时，/>是p_i的近邻，否则到/>部不是p_i的最近邻，其中/>为p_i的最近邻，/>表示距离p_i排序为j的样本点，d(·)表示距离度量；再将/>作为基准点，当/>且/>时，/>是p_i的近邻，再将/>作为基准点进行判断，以此类推，直到/>不是p_i的D近邻时停止判断，此时所得结果即为节点p_i的D近邻，将p_i与其D近邻的连线作为所选择的边。

在该实施例中，具体而言，p_i的D近邻判断如二维平面上的图2所示：为了保证DNN中图结构的连通性，即不出现孤立节点，每个样本最少建立一个连接，所以先将加入到p_i的近邻中，连接p_i和/>图上的虚线为/>的中垂线，然后判断/>是不是p_i的D近邻，根据前面定义的D近邻判断准则，当/> 即/>位于中垂线靠近p_i一侧时，并且以p_i为圆心，以/>为半径的圆内都是p_i的D近邻时，则/>加入到集合N(p_i)中。/>虽然和/>距离p_i距离相同，但由于/>则其将可能成为/>的D近邻。样本点p_i的D近邻的搜索过程本质上是一个以p_i为圆心，到不同近邻的距离为半径的同心圆搜索过程。如果p_i所处的局部数据分布越密集，则其搜索的同心圆越多，生成更多的D近邻。

由此可见，该方法能够捕捉数据的分布，在数据稠密区域连接更多的边，在数据稀疏区域连接较少的边，可以更好地反映数据的疏密程度，因此具有更好的分类效果。

使用DNN构建的图是连通的：在图G＝(x，ε)中，选择一个连通子顶点集在顶点集外找一点B∈x且/>B距离顶点集z中距离最近的点记为A，则点B是点A的自适应近邻，即点B与顶点集z是连通的，将点B加入连通子集z中，重复上述操作，图中所有点都能加入连通子集z中，所以图G＝(x，ε)中的所有点都是连通的。

使用DNN构建的图不存在弱连通的问题：使用反证法，假设点A是点B的自适应近邻，点B不是点A的自适应近邻。因为点B不是点A的自适应近邻，对于点B来说肯定存在一点C，使得点BCA的路径代价小于BA的路径代价，则有AB的路径代价大于ACB的路径代价，因此点A不是点B的自适应近邻，与假设矛盾。所以不会出现弱连通的情况。

在另一个实施例中，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用几何方法：

在该实施例中，封闭区域是指区域内部任何一点与区域外任何一点的连线都和区域的边界相交。

在该实施例中，具体而言，p_i的D近邻判断如二维平面上的图3所示：为了保证DNN中图结构的连通性，即不出现孤立节点，每个样本最少建立一个连接，所以先将加入到p_i的近邻中，连接p_i和/>图上的虚线①为/>的中垂线，该中垂线将平面区域分为两部分，p_i的D近邻的所属区域为靠近p_i一侧的区域，即虚线①的左侧区域；在虚线①的左侧区域中选择p_i的最近邻/>连接p_i和/>图上的虚线②为/>的中垂线，虚线①和虚线②将平面区域分为四部分，p_i的D近邻的所属区域为靠近p_i一侧的区域，即虚线①的左侧区域、虚线②的下侧区域；在该区域中选择p_i的最近邻/>连接p_i和/>图上的虚线③为/>的中垂线，虚线①、虚线②和虚线③将平面区域分为六部分，p_i的D近邻的所属区域为靠近p_i一侧的区域，即虚线①的左侧区域、虚线②的下侧区域、虚线③的右侧区域；在该区域中选择p_i的最近邻连接p_i和/>图上的虚线④为/>的中垂线，虚线①、虚线②、虚线③和虚线④将平面区域分为九部分，p_i的D近邻的所属区域为靠近p_i一侧的区域，即虚线①的左侧区域、虚线②的下侧区域、虚线③的右侧区域、虚线④的上侧区域所围成的封闭区域，此时该区域中所有节点即为节点p_i的D近邻。

由此可见，如果p_i所处的局部数据分布越密集，封闭区域中的节点个数越多，则该节点的D近邻越多，该方法能够捕捉数据的分布，在数据稠密区域连接更多的边，在数据稀疏区域连接较少的边，可以更好地反映数据的疏密程度，因此具有更好的分类效果。

在另一个实施例中，所述步骤S302中，权值矩阵W定义为：

W_ij＝deg(p_i)S′_ij

在另一个实施例中，所述步骤S303中定义了亲和矩阵M，具体为：

根据权值矩阵W，使用如下公式计算对角矩阵T：

T_ii＝∑_jW_ij

使用如下公式归一化后得到亲和矩阵M：

M＝T^-1/2WT^-1/2

其中T是对角矩阵，W是权值矩阵，M是亲和矩阵。

在该实施例中，ADW中图形中节点的相似概率由相似度和节点的度两方面来确定的，ADW中通过节点的度来表达数据的分布，通过高斯核函数表达数据之间的相似度，ADW计算简单，算法复杂度低，同时它有以下两个优点：

(1)公式减轻了权重参数化带来的过拟合问题，对噪音数据不敏感。在实验中，观察到ADW对于使用合成数据集的输入数据噪声具有较强的健壮性，并在7个真实数据集中展示了ADW的性能优势。

(2)ADW没有额外的调优参数。

在另一个实施例中，所述步骤S400中的标签传播通过局部和全局一致性LLGC(Learning with Local and Global Consistency)方法实现，计算方法如下：

F＝(I-αM)^-1Y

最终得到节点p_i的标记信息，具体为：

以上对本公开提出的基于动态构图的半监督分类方法步骤进行了具体介绍，以下再通过具体实验对比来说明本公开提出的分类方法相比现有的数据分类方法的优越性。

实验：

为了说明本公开提出的基于动态构图的半监督分类方法的优越性，在基于图的半监督学***均值赋给该样本，就可以得到该样本的属性。图构造方法的评价准则之一是：在使用相同的推导方法的前提下，是否可以实现较好的分类性能，实验中采用LLGC分类方法。对于多分类问题，使用错误率(Error Rate)对算法性能进行评估，如下公式所示：

其中，c为样本类别总数，N_i为第i类样本的数量，F_i为第i类样本中被错误分类的样本数量。

合成数据集实验结果

使用表1中4个合成数据集验证DNN+LLGC和kNN+LLGC的分类性能。4个合成数据集包括TwoSpirals，ToyData，FourGaussian和TwoMoon。他们的样本数量，属性个数和类别数如表1中列出，他们都是随机生成的二维数据。在TwoSpirals数据集中，正样本和负样本各1000个，如图4(a)所示，分布呈双螺旋形状。ToyData数据集共788个样本，分属7类，每一个样本都有2个属性，如图4(b)所示。FourGaussian数据集由1200个样本组成，分属4类，每个样本有2个属性，如图4(c)所示。在TwoMoon数据集中，正样本和负样本各200个，如图4(d)所示，分布呈双月形状。

以TwoSpirals数据集和ToyData数据集为例，利用DNN和kNN方法构造的图和类别预测的结果如图5(a)-图5(d)和图6(a)-图6(h)所示，构图结果为使用上述选边方法及边重新加权方法得到的图，预测结果为根据构图结果进行标签传播得到的分类结果。在图5(a)-图5(d)中，深色点和浅色点分别代表两类数据。图5(a)和图5(c)分别为TwoSpirals数据集的DNN图和kNN图。在DNN图中，距离较远的浅色数据点之间仍有边连接，更好地表达了同类样本点之间的相关性。图5(b)与图5(d)为DNN和kNN算法所得到的类别预测结果，可以看出，DNN预测的结果更加准确。在图6(a)-图6(h)中，不同深度颜色的点代表不同的七类数据。图6(a)与图6(b)为使用DNN方法得到的构图结果和类别预测结果，图6(c)、图6(e)与图6(g)为K＝5、10、15时使用kNN方法所得的构图结果，图6(d)、图6(f)与图6(h)为K＝5、10、15时使用kNN方法所得的类别预测结果。

当进行分类实验时，已标记样本数如表3所示，其它数据都是未标记的。在图构造过程中，使用kNN、DNN方法，k＝5、10、15，LLGC被用于标签传播。实验重复20次，计算平均精度。分类结果如表3所示。第一列为合成数据集名称，第二列为已标记样本数，第三列为构图过程中所使用的构图方法，第四列为kNN方法中参数k的不同取值，第五列到第六列分别给出图中节点的最小度数和最大度数，第七列和第八列为分类的平均错误率和错误率的标准差。可以看出，除了TwoSpirals数据集以外，对于其他数据集，在k的不同取值情况下，DNN方法的分类错误率都小于kNN方法的分类错误率。

表3合成数据集的分类性能

图像数据集实验结果

为了比较不同构图方法和推导方法的分类性能，将不同构图方法和推导方法的结合应用在下面7个图像数据集，并在表2中对它们进行了介绍。这些数据集都由灰度图像构成，将灰度值作为每幅图像的特征值。

每个类中随机选择样本点被标记作为已标记样本点，每类已标记样本数量如表4所示，其余样本点未标记。在实验中，使用PCA方法进行数据降维，PCA方法通过保留高维数据的重要特征，去除噪声和不重要特征实现将高维数据的特征映射到低维数据上，本实验中数据的维度被降为50维。对未标记样本进行分类，实验重复10次，其分类结果(平均分类错误率)如表4所示：第一列为图像数据集名称，第二列为已标记样本数，第三列为构图方法，第四列为kNN方法中参数k的不同取值，第五列到第六列分别给出图中节点的最小度数和最大度数，第七列和第八列为分类的平均错误率和错误率的标准差。可以看出，对于每个数据集，在k的不同取值情况下，DNN方法的分类错误率都小于kNN方法的分类错误率。因此，本公开提出的基于动态构图的半监督分类方法可以提高分类精度。

表4图像数据集的分类性能

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种计算机上执行的基于动态构图的半监督分类方法，所述方法针对基于图的半监督分类中，选边算法和相似度计算方法都具有各自的局限性，使得分类方法的结果不够准确的问题，其特征在于，所述方法包括如下步骤：

当i≠j时，

当i＝j时，S′_ij＝0；

S400、根据步骤S300得到的亲和矩阵M进行标签传播得到最终的分类结果；

其中，所述步骤S100中的数据集包括合成数据集TwoSpirals、ToyData、FourGaussian、TwoMoon以及图像数据集USPS、Mnist、Mnist-3495、Coil20、Coil(1500)、G241d、COIL2。

2.根据权利要求1所述的方法，所述步骤S201中，数据集中节点p_i和p_j之间的欧氏距离为：

3.根据权利要求2所述的方法，所述步骤S201还包括：

4.根据权利要求3所述的方法，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用代数方法：

N(p_i)表示p_i的D近邻集合，在矩阵O中第i行第j列存储距离节点p_i排序为j的距离，通过索引矩阵E可以查找到其在直接距离矩阵S中的位置S_im，即节点p_m是到节点p_i的距离排序为j的节点，将节点p_m记为判断/>是不是p_i的D近邻，判断准则为：将最近邻/>加入到D近邻中，将/>作为基准点，当/> 且/>时，/>是p_i的近邻，否则/>到/>都不是p_i的最近邻，其中/>为p_i的最近邻，/>表示距离p_i排序为j的样本点，d(·)表示距离度量；再将/>作为基准点，当/>且/>时，/>是p_i的近邻，再将/>作为基准点进行判断，以此类推，直到/>不是p_i的D近邻时停止判断，此时所得结果即为节点p_i的D近邻，将p_i与其D近邻的连线作为所选择的边。

5.根据权利要求3所述的方法，所述步骤S202中使用动态近邻DNN方法选择节点p_i的D近邻具体采用几何方法：

6.根据权利要求1所述的方法，所述步骤S302中，权值矩阵W定义为：

W_ij＝deg(p_i)S′_ij

7.根据权利要求1所述的方法，所述步骤S303中定义了亲和矩阵M，具体为：

根据权值矩阵W，使用如下公式计算对角矩阵T：

T_ii＝∑_jW_ij

其中T_ii表示对角矩阵T第i行第i列的值，W_ij表示权值矩阵W第i行第j列的值；

使用如下公式归一化后得到亲和矩阵M：

M＝T^-1/2WT^-1/2

其中T是对角矩阵，W是权值矩阵，M是亲和矩阵。

8.根据权利要求1所述的方法，所述步骤S400中的标签传播通过局部和全局一致性LLGC方法，计算方法如下：

F＝(I-αM)^-1Y

最终得到节点p_i的标记信息，具体为：