CN112418331A - 一种基于聚类融合的半监督学习伪标签赋值方法 - Google Patents

一种基于聚类融合的半监督学习伪标签赋值方法 Download PDF

Info

Publication number
CN112418331A
CN112418331A CN202011348264.8A CN202011348264A CN112418331A CN 112418331 A CN112418331 A CN 112418331A CN 202011348264 A CN202011348264 A CN 202011348264A CN 112418331 A CN112418331 A CN 112418331A
Authority
CN
China
Prior art keywords
label
data
pseudo
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011348264.8A
Other languages
English (en)
Inventor
白万荣
张玉刚
魏峰
朱小琴
刘吉祥
王蓉
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Priority to CN202011348264.8A priority Critical patent/CN112418331A/zh
Publication of CN112418331A publication Critical patent/CN112418331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类融合的半监督学习伪标签赋值方法,包括针对存在无标签数据集的卷积神经网络半监督学习,利用有标签数据和无标签数据进行所述神经网络预训练,并利用训练好的网络提取数据特征;利用最近邻法为距离有标签数据最近的N个无标签数据赋予伪标签;对全体数据信息使用k‑means聚类进行分析,为未赋标签的数据赋予聚类的伪标签;利用所述得到的标签数据和伪标签数据对所述卷积神经网络进行不断训练,得到最优网络进行标签赋值。可以适用于各个领域深度学习下的半监督学习;能充分挖掘无标签数据的信息,为网络提供内容更丰富的训练数据;原理清晰,容易理解,代码易实现。

Description

一种基于聚类融合的半监督学习伪标签赋值方法
技术领域
本发明涉及一种半监督学习的伪标签赋值的技术领域,尤其涉及一种基于聚类融合的半监督学习伪标签赋值方法。
背景技术
随着深度学习的日益发展,用有标签数据对神经网络进行训练的全监督学习已经取得了很好的效果。然而,在日常生活中,依靠人工标注数据往往会耗费大量的人力和财力成本,而无标注的数据往往极易大量获得,于是,近些年半监督和无监督学习便受到了研究者的重点关注。半监督学习介于监督学习和无监督学习之间,既兼顾了监督学习的准确性,又兼顾了无监督学习的实用性,是模式识别和机器学习领域研究的重点问题。它主要解决的是当训练数据中有一部分数据没有标签时,如何同时利用有标签数据和无标签数据进行训练。伪标签法是半监督学习和无监督学习的一种经典方法,它的主要原理是为无标签数据赋予一个虚拟标签,使其转化成有标签数据再参与训练。伪标签法分为无监督学习的伪标签法和监督学习的伪标签法。
无监督学习的伪标签法目前主要有两种:一种是基于聚类的方法,将数据特征进行整体聚类(如用k-means),把聚类后得到的标签作为伪标签;一种是基于图像特征或相似度,通过计算无标签特征与参照特征的距离来获得标签。其中基于聚类的伪标签法被证实较为有效,且保持目前最先进的精度。
监督学习的伪标签法中应用较多的一种方法为最近邻法,它是k近邻法的一个特例。k近邻法原理是通过计算有标签数据特征和无标签数据特征的欧氏距离得到伪标签,距离有标签数据最近的k个无标签数据会分配到该标签数据的标签。最近邻法即为把标签数据的标签赋值给离它最近的一个无标签数据。
由于半监督学习中既含有标签数据,又有无标签数据,这决定了它兼具监督学习和无监督学习的特性,既能从监督学习的角度来考虑,也能从无监督学习的角度考虑。因此,本专利申请结合了无监督学习中的k-means聚类法和无监督学习中的最近邻法,提出了一种基于聚类融合的半监督学习伪标签赋值方法。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有半监督学习存在的问题,提出了本发明。
因此,本发明解决的技术问题是:当训练数据中有一部分数据没有标签时,无法进行训练,依靠人工标注数据往往会耗费大量的人力和财力成本。
为解决上述技术问题,本发明提供如下技术方案:针对存在无标签数据集的卷积神经网络半监督学习,利用有标签数据和无标签数据进行所述神经网络预训练,并利用训练好的网络提取数据特征;利用最近邻法为距离有标签数据最近的N个无标签数据赋予伪标签;对全体数据信息使用k-means聚类进行分析,为其余未赋标签的数据赋予聚类的伪标签;利用所述得到的标签数据和伪标签数据对所述卷积神经网络进行不断训练,得到最优网络进行标签赋值。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述对特征提取卷积神经网络进行预训练包括,用imagenet数据库训练resnet101网络,然后用预训练过的网络提取训练数据集中全部样本的特征,设定标签数据特征为fl(xj;μj),xj为第j个标签数据,μj为其对应的标签,无标签数据特征为fu(xi),xi为第i个无标签数据。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述利用最近邻法为无标签数据赋予伪标签包括,分别计算所述无标签数据特征和各标签数据特征之间的欧氏距离,并选出每个无标签数据对应的距离最近的标签数据,并且在用所述最近邻法赋予伪标签时只选取部分最可靠的无标签数据进行赋值。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述选取部分最可靠的无标签数据进行赋值包括,将计算出的欧氏距离从小到大进行排序,并选出距离最小的前N个无标签数据赋值伪标签,伪标签为对应的标签数据的标签,计算公式如下所示:
Figure BDA0002800606380000021
其中:N为本轮所选伪标签的个数,st为距离最小的前N个被赋予伪标签的无标签数据,其被赋予的伪标签是其对应的标签数据xj的标签μj
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述计算出的欧氏距离从小到大进行排序包括,每个无标签数据特征和各标签数据特征间的最小欧氏距离的计算公式为:
Figure BDA0002800606380000031
其中:fu(xi)为第i个无标签数据特征,fl(xj)为第j个标签数据特征,||·||2为欧氏距离,L为标签数据集,d(xi)为每个无标签数据特征和各标签数据特征间的最小欧氏距离。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述为未赋标签的数据赋予聚类的伪标签包括,对全体数据特征用k-means聚类算法获得聚类伪标签,所述K-means聚类算法将样本特征聚类成k个簇(k是人为设定的值),设定所有聚类样本的个数为m,簇划分的初始类别集合为
Figure BDA0002800606380000032
其中i取1~k,随机选取k个聚类中心特征为μ1,μ2……μk;对于每一个样例i,计算其应属于的类,并将计算结果加入到该类的集合C(i)中,计算公式如下所示:
Figure BDA0002800606380000033
其中:xi为第i个参与聚类的数据特征,j为聚类中心的序号,c(i)为数据特征i与k个类中距离最近的那个类别序号,其值为1到k中的一个,而对于每个类j,需要重新计算该类的聚类中心,其计算公式表示为如下:
Figure BDA0002800606380000034
其中:|Cj|为每类中包含的数据特征个数,μj为对每类特征求平均值;不断计算所述归属类以及该类的聚类中心,直到所述聚类中心不再发生变化,即达到局部收敛,并将通过聚类得到的伪标签进行转化,符合所述数据原始标签内容。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述将通过聚类得到的伪标签进行转化包括,对于未能获得伪标签的所述无标签数据,计算其特征与所有标签数据特征的欧氏距离,并选取其中最小距离对应的标签数据的标签作为所述无标签数据的伪标签,已实现全部数据标签的统一。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:为所有数据赋予标签后,进行一次网络训练,输入所述得到的标签数据和伪标签数据,所述网络训练时使用的损失函数是分类损失和三元组损失,其目的是使损失函数不断接近极小值,在进行一次网络训练后,再继续下一轮的伪标签赋值,直到某一次训练时损失函数得到的损失值减小变化极小,称为网络收敛,进而得到最优网络。
作为本发明所述的基于聚类融合的半监督学习伪标签赋值方法的一种优选方案,其中:所述提取最佳数据特征赋予伪标签包括,由于所述神经网络经过训练,网络的特征提取性能要比之前好,于是可以在下一轮的伪标签选择过程中逐步扩大最近邻法选择的伪标签数量,选择更多距离标签数据近的、可靠的无标签数据进行训练,以缩小无监督k-means法选择的数量,直到网络收敛时停止。
本发明的有益效果:可以适用于各个领域深度学习下的半监督学习;能充分挖掘无标签数据的信息,为网络提供内容更丰富的训练数据;原理清晰,容易理解,代码易实现。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于聚类融合的半监督学习伪标签赋值方法的流程示意图;
图2为本发明第一个实施例所述的基于聚类融合的半监督学习伪标签赋值方法的原理示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~2,为本发明的第一个实施例,该实施例提供了一种基于聚类融合的半监督学习伪标签赋值方法,包括:
S1:构建特征提取卷积神经网络,利用有标签数据和无标签数据进行神经网络预训练,并利用训练好的网络提取数据特征。其中需要说明的是,
对特征提取卷积网络进行预训练包括,用imagenet数据库训练resnet101网络,然后用预训练过的网络提取训练数据集中全部样本的特征,设定标签数据特征为fl(xj;μj),xj为第j个标签数据,μj为其对应的标签,无标签数据特征为fu(xi),xi为第i个无标签数据。
S2:利用最近邻法为距标签数据最近的一批无标签数据赋予伪标签。其中需要说明的是,
利用最近邻法为无标签数据赋予伪标签包括,由于半监督学习中同时存在有标签数据和无标签数据参与训练,有标签数据能够提供比无标签数据更丰富的信息,因而对于半监督下的伪标签赋值,首先考虑最近邻法;分别计算无标签数据特征和各标签数据特征之间的欧氏距离,并选出每个无标签数据对应的距离最近的标签数据,由于神经网络只经过预训练,因此在用最近邻法赋予伪标签时只选取部分最可靠的无标签数据进行赋值;
进一步的是,选取部分最可靠的无标签数据进行赋值包括,将计算出的欧氏距离从小到大进行排序,并选出距离最小的前N个无标签数据赋值伪标签,伪标签为对应的标签数据的标签,计算公式如下所示:
Figure BDA0002800606380000061
Figure BDA0002800606380000062
其中:fu(xi)为第i个无标签数据特征,fl(xj)为第j个标签数据特征,||·||2为欧氏距离,L为标签数据集,d(xi)为每个无标签数据特征和各标签数据特征间的最小欧氏距离,N为本轮所选伪标签的个数,st为距离最小的前N个被赋予伪标签的无标签数据,其被赋予的伪标签是其对应的标签数据xj的标签μj
S3:对全体数据信息使用k-means聚类进行分析,为未赋标签的数据赋予聚类的伪标签。其中需要说明的是,
为未赋标签的数据赋予聚类的伪标签包括,
对于对全体数据特征用k-means聚类算法获得聚类伪标签,K-means聚类算法将样本特征聚类成k个簇(k是人为设定的值),设定所有聚类样本的个数为m,簇划分的初始类别集合为
Figure BDA0002800606380000063
其中i取1~k,随机选取k个聚类中心特征为μ1,μ2……μk;对于每一个样例i,计算其应属于的类,并将计算结果加入到该类的集合C(i)中,计算公式如下所示:
Figure BDA0002800606380000064
其中:xi为第i个参与聚类的数据特征,j为聚类中心的序号,c(i)为数据特征i与k个类中距离最近的那个类别序号,其值为1到k中的一个,而对于每个类j,需要重新计算该类的聚类中心,其计算公式表示为如下:
Figure BDA0002800606380000065
其中:|Cj|为每类中包含的数据特征个数,μj为对每类特征求平均值;不断计算归属类以及该类的聚类中心,直到聚类中心不再发生变化,即达到局部收敛,并将通过聚类得到的伪标签进行转化,符合数据原始标签内容。
进一步的是,将通过聚类得到的伪标签进行转化包括,由于聚类得到的伪标签和数据的原始标签不一致,所以需要进一步转换,对于每一个未能获得伪标签的无标签数据,根据其聚类标签在标签数据集中查找有相同聚类标签的标签数据,并将该标签数据的标签赋给此无标签数据;由于k-means算法和网络等因素会导致聚类标签产生一定的噪声,可能会出现查找不到含有相同聚类标签的标签数据,对这种个别的无标签数据,计算其特征与所有标签数据特征的欧氏距离,并选取其中最小距离对应的标签数据的标签作为无标签数据的伪标签,以实现全部数据标签的统一。
S4:利用得到的标签数据和伪标签数据对卷积神经网络进行不断训练,得到最优网络进行标签赋值。其中需要说明的是,
所有无标签数据均获得了相应的伪标签时,将全部数据用分类损失和三元组损失对网络进行训练,用训练过的网络继续提取全部数据的特征;由于神经网络经过训练,网络的特征提取性能要比之前好,于是可以在下一轮的伪标签选择过程中逐步扩大最近邻法选择的伪标签数量,选择更多距离标签数据近的、可靠的无标签数据进行训练,以缩小无监督k-means法选择的数量,直到网络收敛时停止。
实施例2
本发明的第二个实施例,该实施例为了更好地对本发明方法中采用的技术效果加以验证说明,本实施例中选择以行人重识别应用进行测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果;
以行人重识别应用为实验对象进行实验测试,即给定一个监控行人的图像,检索跨设备下的不同角度行人图像,实现该行人的识别,简单的说,就是实现机器在不同场景下认出同一个人;使用传统的伪标签赋值法与本发明方法进行对比测试,其中传统的伪标签赋值法仅用最近邻方法为距离标签数据最近的一批无标签数据赋值,而剩余的无标签数据则未被赋予伪标签;而本发明方法在为离标签数据最近的无标签数据用最近邻法赋值的基础上,对剩余的未选中样本又用整体的K-means聚类的方式为其赋予伪标签,使这些数据得以用分类损失等进行训练,充分利用了这些数据中所包含的信息,使网络训练的效果得到了提升;在单样本标注的行人重识别任务下,使用传统方法和本发明方法在数据集Market1501上的结果如下表1所示,其中MAP指mean average precision,平均精度,rank-1指搜索结果中识别概率最高的图像为正确结果的概率,rank-5和rank-10分别指识别概率前5和前10识别概率最高的图像中存在正确结果的概率。
表1:方法对比结果数据。
Figure BDA0002800606380000081
由表1可以看出,无论是平均精度还是识别到正确结果的概率,使用本发明方法都比使用传统方法进行识别的所得的结果要高,因此通过加入K-means伪标签标注方法可以使网络训练的效果得到提升。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于聚类融合的半监督学习伪标签赋值方法,其特征在于:包括,
针对存在无标签数据集的卷积神经网络半监督学习,利用有标签数据和无标签数据进行所述神经网络预训练,并利用训练好的网络提取数据特征;
利用最近邻法为距离有标签数据最近的N个无标签数据赋予伪标签;
对全体数据信息使用k-means聚类进行分析,为剩余未赋标签的数据赋予聚类的伪标签;
利用所述得到的标签数据和伪标签数据对所述卷积神经网络进行不断训练,得到最优网络实现标签赋值和特征提取。
2.如权利要求1所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述对特征提取网络进行预训练包括,
用imagenet数据库预训练卷积神经网络,然后用预训练过的网络提取训练数据集中全部样本的特征,设定标签数据特征为fl(xj;μj),xj为第j个标签数据,μj为其对应的标签,无标签数据特征为fu(xi),xi为第i个无标签数据。
3.如权利要求1或2所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述利用最近邻法为无标签数据赋予伪标签包括,
分别计算所述无标签数据特征和各标签数据特征之间的欧氏距离,并选出每个无标签数据对应的距离最近的标签数据,并且在用所述最近邻法赋予伪标签时只选取部分最可靠的无标签数据进行赋值。
4.如权利要求3所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述选取部分最可靠的无标签数据进行赋值包括,
将计算出的欧氏距离从小到大进行排序,并选出距离最小的前N个无标签数据赋值伪标签,伪标签为对应的标签数据的标签,计算公式如下所示:
Figure FDA0002800606370000011
其中:N为本轮所选伪标签的个数,st为距离最小的前N个被赋予伪标签的无标签数据,其被赋予的伪标签是其对应的标签数据xj的标签μj
5.如权利要求4所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述计算出的欧氏距离从小到大进行排序包括,
每个无标签数据特征和各标签数据特征间的最小欧氏距离的计算公式为:
Figure FDA0002800606370000012
其中:fu(xi)为第i个无标签数据特征,fl(xj)为第j个标签数据特征,||·||2为欧氏距离,L为标签数据集,d(xi)为每个无标签数据特征和各标签数据特征间的最小欧氏距离。
6.如权利要求4或5所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述为剩余未赋标签的数据赋予k-means聚类的伪标签包括,
对全体数据用k-means聚类算法,使剩余无标签数据获得聚类伪标签,所述K-means聚类算法将样本特征聚类成k个簇(k是人为设定的值),设定所有聚类样本的个数为m,簇划分的初始类别集合为
Figure FDA0002800606370000021
其中i取1~k,随机选取k个聚类中心特征为μ1,μ2……μk;对于每一个样例i,计算其应属于的类,并将计算结果加入到该类的集合C(i)中,计算公式如下所示:
Figure FDA0002800606370000022
其中:xi为第i个参与聚类的数据特征,j为聚类中心的序号,c(i)为数据特征i与k个类中距离最近的那个类别序号,其值为1到k中的一个,而对于每个类j,需要重新计算该类的聚类中心,其计算公式表示为如下:
Figure FDA0002800606370000023
其中:|Cj|为每类中包含的数据特征个数,μj为对每类特征求平均值;不断计算所述归属类以及该类的聚类中心,直到所述聚类中心不再发生变化,即达到局部收敛,并将通过聚类得到的伪标签进行转化,符合所述数据原始标签内容。
7.如权利要求6所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述将通过k-means聚类得到的伪标签进行转化包括,
对于未能获得伪标签的所述无标签数据,计算其特征与所有标签数据特征的欧氏距离,并选取其中最小距离对应的标签数据的标签作为所述无标签数据的伪标签,已实现全部数据标签的统一。
8.如权利要求1或7所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:对卷积神经网络进行不断训练包括,
为所有数据赋予标签后,进行一次网络训练,输入所述得到的标签数据和伪标签数据,所述网络训练时使用的损失函数是分类损失和三元组损失,其目的是使损失函数不断接近极小值,在进行一次网络训练后,再继续下一轮的伪标签赋值,直到某一次训练时损失函数得到的损失值减小变化极小,称为网络收敛,进而得到最优网络。
9.如权利要求8所述的基于聚类融合的半监督学习伪标签赋值方法,其特征在于:所述提取最佳数据特征赋予伪标签包括,
由于所述神经网络经过训练,网络的特征提取性能要比之前好,于是可以在下一轮的伪标签选择过程中逐步扩大最近邻法选择的伪标签数量,选择更多距离标签数据近的、可靠的无标签数据进行训练,以缩小无监督k-means法选择的数量,直到网络收敛时停止。
CN202011348264.8A 2020-11-26 2020-11-26 一种基于聚类融合的半监督学习伪标签赋值方法 Pending CN112418331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011348264.8A CN112418331A (zh) 2020-11-26 2020-11-26 一种基于聚类融合的半监督学习伪标签赋值方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011348264.8A CN112418331A (zh) 2020-11-26 2020-11-26 一种基于聚类融合的半监督学习伪标签赋值方法

Publications (1)

Publication Number Publication Date
CN112418331A true CN112418331A (zh) 2021-02-26

Family

ID=74843313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011348264.8A Pending CN112418331A (zh) 2020-11-26 2020-11-26 一种基于聚类融合的半监督学习伪标签赋值方法

Country Status (1)

Country Link
CN (1) CN112418331A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609927A (zh) * 2021-07-19 2021-11-05 上海电力大学 基于分支学习和分层伪标签的行人重识别网络训练方法
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、***、设备及存储介质
CN113989596A (zh) * 2021-12-23 2022-01-28 深圳佑驾创新科技有限公司 图像分类模型的训练方法及计算机可读存储介质
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN110942025A (zh) * 2019-11-26 2020-03-31 河海大学 一种基于聚类的无监督跨域行人重识别方法
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法
CN111192158A (zh) * 2019-12-11 2020-05-22 国网甘肃省电力公司电力科学研究院 一种基于深度学习的变电站日负荷曲线相似度匹配方法
CN111563424A (zh) * 2020-04-20 2020-08-21 清华大学 基于半监督学习的行人再识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN110942025A (zh) * 2019-11-26 2020-03-31 河海大学 一种基于聚类的无监督跨域行人重识别方法
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法
CN111192158A (zh) * 2019-12-11 2020-05-22 国网甘肃省电力公司电力科学研究院 一种基于深度学习的变电站日负荷曲线相似度匹配方法
CN111563424A (zh) * 2020-04-20 2020-08-21 清华大学 基于半监督学习的行人再识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANKITA SHUKLA ET AL.: "Semi-Supervised Clustering with Neural Networks", 《2020 IEEE SIXTH INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA》, pages 152 - 161 *
YU WU ET AL.: "Progressive Learning for Person Re-Identification With One Example", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, pages 2872 - 2881 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609927A (zh) * 2021-07-19 2021-11-05 上海电力大学 基于分支学习和分层伪标签的行人重识别网络训练方法
CN113609927B (zh) * 2021-07-19 2023-09-29 上海电力大学 基于分支学习和分层伪标签的行人重识别网络训练方法
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、***、设备及存储介质
CN113989596A (zh) * 2021-12-23 2022-01-28 深圳佑驾创新科技有限公司 图像分类模型的训练方法及计算机可读存储介质
CN113989596B (zh) * 2021-12-23 2022-03-22 深圳佑驾创新科技有限公司 图像分类模型的训练方法及计算机可读存储介质
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质
CN117235448B (zh) * 2023-11-14 2024-02-06 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN112418331A (zh) 一种基于聚类融合的半监督学习伪标签赋值方法
CN110298042A (zh) 基于Bilstm-crf与知识图谱影视实体识别方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类***
CN106202256A (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN111241992B (zh) 人脸识别模型构建方法、识别方法、装置、设备及存储介质
CN113642547B (zh) 一种基于密度聚类的无监督域适应人物重识别方法及***
CN113706547B (zh) 一种基于类别同异性引导的无监督域适应语义分割方法
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和***
TW201604821A (zh) 協作性人臉標註方法以及協作性人臉標註系統
CN114898136B (zh) 一种基于特征自适应的小样本图像分类方法
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN113743239A (zh) 行人重识别方法、装置及电子设备
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN116229510A (zh) 一种无监督跨模态行人重识别方法
CN116775798A (zh) 一种基于图网络与模态间特征融合的跨模态哈希方法
CN113609927B (zh) 基于分支学习和分层伪标签的行人重识别网络训练方法
CN115186670A (zh) 一种基于主动学习的领域命名实体识别方法及***
CN114418111A (zh) 标签预测模型训练及样本筛选方法、装置、存储介质
CN114299336A (zh) 基于自监督学习与深度森林的摄影图像美学风格分类方法
CN113378955A (zh) 一种基于主动学习的入侵检测方法
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
Khatchatoorian et al. Post rectifying methods to improve the accuracy of image annotation
CN110647856B (zh) 一种基于公理化模糊集理论的人脸表情识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination