CN111144566A - 神经网络权重参数的训练方法、特征分类方法及对应装置 - Google Patents
神经网络权重参数的训练方法、特征分类方法及对应装置 Download PDFInfo
- Publication number
- CN111144566A CN111144566A CN201911391475.7A CN201911391475A CN111144566A CN 111144566 A CN111144566 A CN 111144566A CN 201911391475 A CN201911391475 A CN 201911391475A CN 111144566 A CN111144566 A CN 111144566A
- Authority
- CN
- China
- Prior art keywords
- class
- similarity
- parameters
- sample data
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 68
- 230000003247 decreasing effect Effects 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 129
- 238000004590 computer program Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000007423 decrease Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 41
- 238000010586 diagram Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种神经网络权重参数的训练方法、特征分类方法及对应装置,神经网络权重参数的训练方法包括:获取样本数据集,样本数据集中的样本数据带有类标签;获取初始权重参数,所述初始权重参数包括类代理参数;构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。通过在权重参数中增加类代理参数,使特征判别能力得到提高,没有超参数的添加,降低调参数的复杂度。
Description
技术领域
本发明涉及神经网络技术领域,尤其涉及一种神经网络权重参数的训练方法、特征分类方法及对应装置。
背景技术
神经网络包括识别神经网络、检测神经网络、分类神经网络等,这些神经网络在训练时,通常都是作为分类问题进行训练。在识别神经网络中,常用的分类损失函数是交叉熵损失,通过损失函数不断调整权重参数,使得神经网络的损失函数最小,比如人脸识别领域中,对人脸识别神经网络的训练也是基于交叉熵分类损失函数的,但交叉熵损失不能将不同人的特征足够地分开,因此,为增加识别神经网络的判别能力,会在训练时,在交叉熵损失函数中添加裕量因子。由于增加了裕量因子,相当于引入了超参数,使得到神经网络在训练时需要对超参数也进行调整,导致神经网络在训练时的调参变得复杂。
发明内容
本发明实施例提供一种神经网络权重参数的训练方法,能够在提高特征判别能力的同时,降低调参数的复杂度。
第一方面,本发明实施例提供一种神经网络权重参数的训练方法,包括:
获取样本数据集,所述样本数据集中的样本数据带有类标签;
获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
可选的,所述获取初始权重参数,包括:
获取随机初始化权重参数,所述随机初始化权重参数包括随机初始化的类代理参数;
将所述随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,得到初始权重参数。
可选的,所述构建所述样本数据集与所述初始权重参数的相似度损失函数,包括:
提取目标样本数据的归一化特征;
分别计算所述目标样本数据的归一化特征与本类代理参数的本类相似度,以及所述目标样本数据的归一化特征与他类代理参数的他类相似度;
构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,以使在所述本类相似度增大,所述他类相似度减小时,所述相似度损失函数变小。
可选的,所述本类相似度以及他类相似度均为余弦相似度,所述构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数包括:
构建本类相似度与预设值的平方差作为损失函数的递减部分;
构建他类相似度之和作为损失函数的递增部分;
基于所述损失函数的递减部分与递增部分构建所述损失函数。
可选的,所述构建本类相似度的平方差作为损失函数的递减部分,包括:
构建本类相似度与数值1的平方差作为损失函数的递减部分。
第二方面,本发明实施例提供一种特征分类方法,包括以下步骤:
获取特征提取网络输出的待分类特征;
获取预先训练好的目标权重参数,其中,所述目标权重参数通过本发明实施例中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
基于所述本类相似度对所述待分类特征进行分类。
第三方面,本发明实施例提供一种神经网络权重参数的训练装置,所述装置包括:
第一获取模块,用于获取样本数据集,所述样本数据集中的样本数据带有类标签;
第二获取模块,用于获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建模块,用于构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
调整模块,用于通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
第四方面,本发明实施例提供一种特征分类装置,所述装置包括:
第三获取模块,用于获取特征提取网络输出的待分类特征;
第四获取模块,用于获取预先训练好的目标权重参数,其中,所述目标权重参数通过如权利要求1至5中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
计算模块,用于将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
分类模块,用于基于所述本类相似度对所述待分类特征进行分类。
第五方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例中任一项所述的神经网络权重参数的训练方法中的步骤,或所述处理器执行所述计算机程序时实现如本发明实施例中任一项所述的特征分类方法中的步骤。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例中任一项所述的神经网络权重参数的训练方法中的步骤,或所述计算机程序被处理器执行时实现如本发明实施例中任一项所述的特征分类方法中的步骤。
本发明实施例中,获取样本数据集,所述样本数据集中的样本数据带有类标签;获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。通过在权重参数中增加类代理参数,用于区分本类和他类,使得特征判别能力得到提高,同时,由于损失函数使用类代理参数与样本之前的相似度作为输入,没有超参数的添加,相较于增加了超参数裕量的交叉熵损失函数而言,降低调参数的复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种神经网络权重参数的训练方法的流程图;
图2是本发明实施例提供的一种相似度损失函数的构建方法的流程图;
图3是本发明实施例提供的一种特征分类方法的流程图;
图4是本发明实施例提供的一种神经网络权重参数的训练装置的结构示意图;
图5是本发明实施例提供的另一种神经网络权重参数的训练装置的结构示意图;
图6是本发明实施例提供的另一种神经网络权重参数的训练装置的结构示意图;
图7是本发明实施例提供的另一种神经网络权重参数的训练装置的结构示意图;
图8是本发明实施例提供的一种特征分类装置的结构示意图;
图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种神经网络权重参数的训练方法的流程图,如图1所示,包括以下步骤:
101、获取样本数据集。
在该步骤中,上述样本数据集中的样本数据带有类标签。
上述的样本数据集可以是目标神经网络所处理任务对象的样本数据集,比如目标神经网络所处理任务对象为人脸,则上述的样本数据集为人脸样本数据,目标神经网络所处理任务对象为车辆检测,则上述的样本数据集为车辆样本数据集,等等。可以根据不同的神经网络,获取相应的样本数据集。
上述的样本数据带有类标签,上述的类标签可以是通过人工标注或算法标注进行,上述的类标签可以用于表示对应样本数据属性于哪一类,比如,在识别神经网络中,会先对目标图像进行特征提取,而在目标图像中可能包含多个元素,比如车辆、树、人员等,如何确定提取到的特征为目标特征,这个时候,就可以通过类标签与样本数据对识别神经网络进行训练,以使识别神经网络只对感兴趣的目标进行识别。具体比如,人脸识别神经网络中,会先对人脸进行标注,得到人脸标签,在对人脸识别神经网络进行训练时,会通过损失函数分类出人脸特征或非人脸特征,然后在实际使用过程中,会通过训练好的人脸识别神经网络去提取到人脸特征,再用该特征与底库的人脸特征进行比对,完成人脸识别。
在一种可能的实施例中,上述的样本数据集中包括样本数据的正样本类标签,上述的正样本类标签用于表示该样本数据属于该类,上述的样本数据集中还可以包括负样本类标签,上述的负样本类标签用于表示该样本数据不属于该类。
102、获取初始权重参数。
其中,上述初始权重参数包括类代理参数,上述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与目标样本数据的类标签不对应的为他类代理参数。比如,以人脸为例,样本数据的类标签有人脸的类标签,背景类标签,目标样本数据为人脸时,本类代理参数与人脸相对应,通过该类代理参数,可以提取目标样本特征进行输出。对于一个目标样本数据,只有一个本类代理参数,他类代理参数可以有一个或多个。在人脸识别神经网络的训练过程中,本类代理参数用于提取人脸的特征,而他类代理参数可以是车辆、树木、路牌、背景等。而通过本类代理参数和他类代理参数,可以使得通过该神经网络的判别能力更强。
上述初始权重的获取可以是通过一个已通过别的算法进行训练过的神经网络中的权重参数进行微调,比如,可以提取通过交叉熵损失函数训练过的神经网络中的权重参数进行微调,上述的微调可以理解为添加他类代理参数以及对类代理参数进行归一化,使微调后权重参数中各类代理参数的模长为预设的单位模长,该单位模长可以是1或其他整数。上述的初始权重的获取也可以是随机初始化一个权重参数,在随机初始化参数中,每个类代理参数也是随机初始化的。对每随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,在训练过程中的可以通过反向传播对随机初始化权重参数不断进行调整。
需要说明的是,上述的权重参数也可以称为权重矩阵,上述的类代理参数也可以称为类代理向量。
103、构建样本数据集与初始权重参数的相似度损失函数。
上述的样本数据集中包括样本数据以及与样本数据对应的类标签,上述的初始权重参数包括与样本数据对应的本类代理,以及与样本数据无关的他类代理,上述初始权重参数中的本类代理可以通过样本数据的类标签进行确定。
在该步骤中,上述的相似度损失函数指的是基于样本数据与本类代理的本类相似度,以及样本数据与他类代理的他类相似度构建得到的损失函数。与常用的交叉熵损失函数不同的是,本发明基于本类相似度与他类相似度进行构建损失函数,可以通过相似度来增加本类与他类的判别能力,不用引入超参数。
上述的相似度损失函数可以理解为:通过一个函数来期望本类代理参数与目标样本数据的相似度最大,他类代理参数与目标样本数据的相似度最小。
具体的,请参照图2,图2是本发明实施例提供的一种相似度损失函数的构建方法,如图2所示,该方法包括:
201、提取目标样本数据的归一化特征。
其中,上述目标样本数据的归一化特征的模长为预设的单位模长c。可以通过前置的特征提取网络对目标样本数据进行特征提取,以得到目标样本数据的特征,再对目标样本数据的特征进行归一化,以使归一化后的特征模长为c,得到目标样本数据的归一化特征。上述的c可以是一个定值,上述的c与权重参数中类代理参数的模长c是相同的。
在本发明实施例中,上述的相似度采用余弦相似度,上述的c可以是1,即在权重参数中,类代理参数的模长为1,目标样本数据的特征在归一化后模长也为1,这样,可以使在目标样本数据的归一化特征与权重参数在计算时,不用计算自相关参数,只需对目标样本数据的归一化特征与权重参数进行点积计算即可。上述的余弦相似度可以是通过下述的公式进行求取:
上述的cos<Wi,xi>表示类代理参数Wi与样本数据的特征xi的之间的夹角余弦值,也可以用来表示类代理参数Wi与样本数据的特征xi之间相似度,由于类代理参数的模长||Wi||为1,样本数据的归一化特征模长||xi||为1,所以该相似度计算只需要进行类代理参数Wi与样本数据的特征xi的点积计算。这样,可以无需进行模长||Wi||与模长||xi||的自相关计算,提高了余弦相似度的计算速度,进而提高了神经网络的训练速度。
202、分别计算目标样本数据的归一化特征与本类代理参数的本类相似度,以及目标样本数据的归一化特征与他类代理参数的他类相似度。
在该步骤中,目标样本数据经过前置的特征提取网络对目标样本数据进行特征提取并进行归一化后,得到目标样本数据的归一化特征输入到一个全连接层中与权重参数进行计算。目标样本数据的归一化特征在与权重参数进行计算时,会计算目标样本数据的归一化特征与本类代理参数的本类相似度,且还会计算目标样本数据的归一化特征与他类代理参数的他类相似度。需要说明的是,在一些可能的实施例中,上述目标样本数据在提取到特征后,也可以不进行特征的归一化。上述的本类相似度与他类相似度均为余弦相似度,可以通过下述的公式进行求取:
其中,上述的cos<Wi,xi>为本类相似度,cos<Wj,xi>为他类相似度,上述的xi为提取到的目标样本数据的特征或目标样本数据的归一化特征,上述的i表示目标样本数据的类标签为i以及权重参数中对应的本类代理参数为第i个类代理参数。具体的,cos<Wi,xi>表示类标签为i的目标样本数据的特征或目标样本数据的归一化特征与权重参数中第i个类代理参数的相似度,cos<Wj,xi>表示类标签为i的目标样本数据的特征或目标样本数据的归一化特征与权重参数中第j个类代理参数的相似度,其中,i是不等于j的。
203、构建基于本类相似度递减,且基于他类相似度递增的损失函数,以使在本类相似度增大,他类相似度减小时,相似度损失函数变小。
在步骤中,由于损失函数最小化,可以使得到模型的稳定性强,从而在构建损失函数时,期望当本类相似度越大,损失函数越小,同时,期望当他类相似度越小,损失函数越小,即是目标样本数据的特征或目标样本数据的归一化特征与本类代理参数的越来越接近,当损失函数最小时,本类相似度最大,他类相似度最小。比如,在训练时,希望目标样本数据的特征或目标样本数据的归一化特征与本类代理参数尽可能近(余弦相似度尽可能接近1),且目标样本数据的特征或目标样本数据的归一化特征与他类代理参数尽可能远(余弦相似度尽可能接近0)。
具体的,损失函数包括与本类相似度相关的递减部分,以及与他类相似度相关的递增部分,这样,在最小化损失函数的过程中,对权重参数进行调整,使得本类相似度越来越高,他类相似度越来越小。进一步的,可以构建本类相似度与预设值的平方差作为损失函数的递减部分,可以使用余弦相似度的极值作为预设值与本类相似度的平方差作为损失函数的递减部分,比如,该极值为1,即余弦相似度越接近1,目标样本数据的特征或目标样本数据的归一化特征与本类代理参数越接近。因此,可以构建1减本类相似度的平方差作为损失函数的递减部分。可以构建他类相似度的平方作为损失函数的递增部分。通过递减部分与递增部分构建相似度损失函数,得到如下相似度损失函数:
在上述的相似度损失函数中,cos<Wi,xi>为本类相似度,cos<Wj,xi>为他类相似度,当本类相似度增加大时,(1-cos<Wi,xi>)2递减,当他类相似度增加时,(cos<Wj,xi>)2递增,也就是说明,该相似度损失函数在本类相似度增加时减小,在他类相似度减小时减小。当损失函数为0时,上述的本类相似度为1,他类相似度均为0。
在一种可能的实施例中,上述的损失函数中还可以将上述的本类相似度与他类相似度进行激活函数映射,比如通过sigmoid函数进行映射,或其他的激活函数比如tanh函数、Relu函数等进行映射,将相似度映射到(0,1)区间,由于sigmoid函数可以将余弦的(-1,1)值域映射到(0,1)值域,使得到相似度越接近1,sigmoid映射后就越接近1,相似度越接近1,sigmoid映射后就越接近0。因此,上述的相似度损失函数也可以是:
在上述的相似度损失函数中,cos<Wi,xi>为本类相似度,cos<Wj,xi>为他类相似度,当本类相似度增加大时,(1-cos<Wi,xi>)2递减,当他类相似度增加时,(cos<Wj,xi>)2递增,也就是说明,该相似度损失函数在本类相似度增加时减小,在他类相似度减小时减小。
在一种可能的实施例中,上述的损失函数还可以是通过增加最大值选择函数,来使递增部在余弦的(-1,1)值域区间递增,此时上述的相似度损失函数可以是:
在上述的相似度损失函数中,cos<Wi,xi>为本类相似度,cos<Wj,xi>为他类相似度,当本类相似度增加大时,(1-cos<Wi,xi>)2递减,当他类相似度增加时,(cos<Wj,xi>)2递增,也就是说明,该相似度损失函数在本类相似度增加时减小,在他类相似度减小时减小。由于上述的max(0,cos<Wj,xi>)2中,cos<Wj,xi>在接近0的时候,该相似度损失函数已经训练得较为到位了,小于等于0的时候max(0,cos<Wj,xi>)2不产生损失。
104、通过反向传播不断对所述初始权重参数进行调整,直到相似度损失函数最小,得到最小相似度损失函数对应的目标权重参数。
上述的反向传播指的是不断更新权重参数的过程,当损失函数值为0时,表示目标样本数据的预测值与标签相同,是一个正确的分类。在正向传播过程中,通过损失函数计算误差,并计算损失函数对权重参数的梯度,通过梯度下降法对权重参数进行反向传播,由后向前进行传播,更新权重参数,以得到最小化的损失函数。
在通过样本集得到最小相似度损失函数后,可以将最小相似度损失函数的权重参数作为目标权重参数。此时,目标权重参数为训练好的权重参数,目标权重参数中包括训练好的本类代理参数,以人脸为例,本类代理参数则为训练好的人脸代理参数,在输入多个待分类特征时,与人脸代理参数相似度高于一定相似度的特征即被识别为人脸所在的分类。
在本发明实施例中,获取样本数据集,所述样本数据集中的样本数据带有类标签;获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。通过在权重参数中增加类代理参数,用于区分本类和他类,使得特征判别能力得到提高,同时,由于损失函数使用类代理参数与样本之前的相似度作为输入,没有超参数的添加,相较于增加了超参数裕量的交叉熵损失函数而言,降低调参数的复杂度。
需要说明的是,本发明实施例提供的神经网络权重参数的训练方法可以应用于可以对神经网络进行训练的手机、监控器、计算机、服务器等设备。
请参见图3,图3是本发明实施例提供的一种特征分类方法的流程图,如图3所示,包括以下步骤:
301、获取特征提取网络输出的待分类特征。
其中,上述的特征提取网络用于对待分类对象进行特征提取,以得到待分类特征,上述的特征提取网络为预先训练好的,进一步的,上述的特征提取网络为与目标权重参数一同进行训练的提取网络。上述的特征提取网络包括输入层以及隐含层,上述的输入层用于输入待分类对象,上述的隐含层用于将待分类对象映射到隐含层中,得到待分类特征。
上述的待分类特征可以是一个向量形式的特征,上述的待分类特征在隐含层输出之前会被归一化,上述的归一化后的待分类特征模长为1。
302、获取预先训练好的目标权重参数。
上述的目标权重参数为上述图1与图2对应实施例中训练得到的目标权重参数。其中,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数。上述的目标权重参数可以是一个矩阵形式的权重,上述的类代理参数可以是向量形式的参数,上述的目标权重参数中每一行代表一个类代理参数,上述的本类代理参数及他类代理为归一化的类代理参数,上述归一化的类代理参数的模长为1。
上述目标权重参数为全连接层的权重参数,对上述的特征提取网络中的隐含层得到的待分类特征进行分类。
可以理解的是,上述的本类代理参数与他类代理参数是针对样本数据或待分类特征的类代理参数。比如,样本数据为人脸,待分类特征为人脸特征时,本类代理参数为人脸对应的类代理参数,其他比如车辆、背景的类代理参数则为他类代理参数。
303、将待分类特征与预先训练好的目标权重参数进行相似度计算,得到待分类特征与本类代理参数的本类相似度。
在该步骤中,待分类特征可以是一个向量形式的特征,该待分类特征归一化后的模长为1。上述的待分类特征会与目标权重参数中的每一个类代理参数进行相似度计算,当待分类特征与本类代理参数进行相似度计算时,得到本类相似度,当待分类特征与他类代理参数进行相似度计算时,得到他类相似度。
304、基于本类相似度对待分类特征进行分类。
在该步骤中,当本类相似度大于一个预设的阈值时,则说明该待分类特征为目标分类。比如,待分类特征为人脸特征,目标权重参数中存在人脸的类代理参数,当待分类特征与人脸的类代理参数的相似度(本类相似度)大于预设阈值时,则说明该待分类特征为人脸分类。
在本发明实施例中,获取特征提取网络输出的待分类特征;获取预先训练好的目标权重参数,其中,所述目标权重参数通过本发明实施例中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;基于所述本类相似度对所述待分类特征进行分类。通过在权重参数中增加类代理参数,用于区分本类和他类,使得特征分类过程中特征判别能力得到提高。
需要说明的是,本发明实施例提供的特征分类方法可以应用于需要对特征进行分类的手机、监控器、计算机、服务器等设备。
请参见图4,图4是本发明实施例提供的一种神经网络权重参数的训练装置的结构示意图,如图4所示,所述装置包括:
第一获取模块401,用于获取样本数据集,所述样本数据集中的样本数据带有类标签;
第二获取模块402,用于获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建模块403,用于构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
调整模块404,用于通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
可选的,如图5所示,所述第二获取模块402,包括:
获取单元4021,用于获取随机初始化权重参数,所述随机初始化权重参数包括随机初始化的类代理参数;
归一化单元4022,用于将所述随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,得到初始权重参数。
可选的,如图6所示,所述构建模块403,还包括:
提取单元4031,用于提取目标样本数据的归一化特征;
计算单元4032,用于分别计算所述目标样本数据的归一化特征与本类代理参数的本类相似度,以及所述目标样本数据的归一化特征与他类代理参数的他类相似度;
构建单元4033,用于构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,以使在所述本类相似度增大,所述他类相似度减小时,所述相似度损失函数变小。
可选的,如图7所示,所述构建单元4033,包括:
第一构建子单元40331,用于构建本类相似度与预设值的平方差作为损失函数的递减部分;
第二构建子单元40332,用于构建他类相似度之和作为损失函数的递增部分;
第三构建子单元40333,用于基于所述损失函数的递减部分与递增部分构建所述损失函数。
可选的,如图7所示,第一构建子单元40331还用于构建本类相似度与数值1的平方差作为损失函数的递减部分。
需要说明的是,本发明实施例提供的神经网络权重参数的训练装置可以应用于可以对神经网络进行训练的手机、监控器、计算机、服务器等设备。
本发明实施例提供的神经网络权重参数的训练装置能够实现上述方法实施例中神经网络权重参数的训练方法实现的各个过程,且可以达到相同的有益效果。为避免重复,这里不再赘述。
请参见图8,图8是本发明实施例提供的一种特征分类装置的结构示意图,如图8所示,所述装置包括:
第三获取模块801,用于获取特征提取网络输出的待分类特征;
第四获取模块802,用于获取预先训练好的目标权重参数,其中,所述目标权重参数通过图1和图2实施例中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
计算模块803,用于将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
分类模块804,用于基于所述本类相似度对所述待分类特征进行分类。
需要说明的是,本发明实施例提供的特征分类装置可以应用于需要对特征进行分类的手机、监控器、计算机、服务器等设备。
本发明实施例提供的特征分类装置能够实现上述方法实施例中神经网络权重参数的训练方法实现的各个过程,且可以达到相同的有益效果。为避免重复,这里不再赘述。
参见图9,图9是本发明实施例提供的一种电子设备的结构示意图,如图9所示,包括:存储器902、处理器901及存储在所述存储器902上并可在所述处理器901上运行的计算机程序,上述的计算机程序用于实现神经网络权重参数的训练方法,其中:
处理器901用于调用存储器902存储的计算机程序,执行如下步骤:
获取样本数据集,所述样本数据集中的样本数据带有类标签;
获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
可选的,处理器901执行的所述获取初始权重参数,包括:
获取随机初始化权重参数,所述随机初始化权重参数包括随机初始化的类代理参数;
将所述随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,得到初始权重参数。
可选的,处理器901执行的所述构建所述样本数据集与所述初始权重参数的相似度损失函数,包括:
提取目标样本数据的归一化特征;
分别计算所述目标样本数据的归一化特征与本类代理参数的本类相似度,以及所述目标样本数据的归一化特征与他类代理参数的他类相似度;
构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,以使在所述本类相似度增大,所述他类相似度减小时,所述相似度损失函数变小。
可选的,所述本类相似度以及他类相似度均为余弦相似度,处理器901执行的所述构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,包括:
构建本类相似度与预设值的平方差作为损失函数的递减部分;
构建他类相似度之和作为损失函数的递增部分;
基于所述损失函数的递减部分与递增部分构建所述损失函数。
可选的,上述的预设值为1,处理器901执行的所述构建本类相似度与预设值的平方差作为损失函数的递减部分,包括:
构建本类相似度与数值1的平方差作为损失函数的递减部分。
需要说明的是,上述电子设备可以是可以应用于神经网络权重参数进行训练的手机、监控器、计算机、服务器等设备。
本发明实施例提供的电子设备能够实现上述方法实施例中神经网络权重参数的训练方法实现的各个过程,且可以达到相同的有益效果,为避免重复,这里不再赘述。
可选的,处理器901用于调用存储器902存储的计算机程序,上述的计算机程序用于实现特征分类方法,执行如下步骤:
获取特征提取网络输出的待分类特征;
获取预先训练好的目标权重参数,其中,所述目标权重参数通过如本发明实施例中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
基于所述本类相似度对所述待分类特征进行分类。
需要说明的是,上述电子设备可以是可以应用于特征进行分类的手机、监控器、计算机、服务器等设备。
本发明实施例提供的电子设备能够实现上述方法实施例中特征分类方法实现的各个过程,且可以达到相同的有益效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的神经网络权重参数的训练方法或特征分类方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种神经网络权重参数的训练方法,其特征在于,包括以下步骤:
获取样本数据集,所述样本数据集中的样本数据带有类标签;
获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
2.如权利要求1所述的神经网络权重参数的训练方法,其特征在于,所述获取初始权重参数,包括:
获取随机初始化权重参数,所述随机初始化权重参数包括随机初始化的类代理参数;
将所述随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,得到初始权重参数。
3.如权利要求2所述的神经网络权重参数的训练方法,其特征在于,所述构建所述样本数据集与所述初始权重参数的相似度损失函数,包括:
提取目标样本数据的归一化特征;
分别计算所述目标样本数据的归一化特征与本类代理参数的本类相似度,以及所述目标样本数据的归一化特征与他类代理参数的他类相似度;
构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,以使在所述本类相似度增大,所述他类相似度减小时,所述相似度损失函数变小。
4.如权利要求3所述的神经网络权重参数的训练方法,其特征在于,所述本类相似度以及他类相似度均为余弦相似度,所述构建基于所述本类相似度递减,且基于所述他类相似度递增的损失函数,包括:
构建本类相似度与预设值的平方差作为损失函数的递减部分;
构建他类相似度之和作为损失函数的递增部分;
基于所述损失函数的递减部分与递增部分构建所述损失函数。
5.一种特征分类方法,其特征在于,包括以下步骤:
获取特征提取网络输出的待分类特征;
获取预先训练好的目标权重参数,其中,所述目标权重参数通过如权利要求1至4中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
基于所述本类相似度对所述待分类特征进行分类。
6.一种神经网络权重参数的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本数据集,所述样本数据集中的样本数据带有类标签;
第二获取模块,用于获取初始权重参数,所述初始权重参数包括类代理参数,所述类代理参数与目标样本数据的类标签相对应的为本类代理参数,与所述目标样本数据的类标签不对应的为他类代理参数;
构建模块,用于构建所述样本数据集与所述初始权重参数的相似度损失函数,所述相似度损失函数包括基于本类代理参数与所述目标样本数据的相似度的递减部,以及基于他类代理参数与所述目标样本数据的相似度的递增部;
调整模块,用于通过反向传播不断对所述初始权重参数进行调整,直到所述相似度损失函数最小,得到所述最小相似度损失函数对应的目标权重参数。
7.如权利要求6所述的神经网络权重参数的训练装置,其特征在于,所述第二获取模块包括:
获取单元,用于获取随机初始化权重参数,所述随机初始化权重参数包括随机初始化的类代理参数;
归一化单元,用于将所述随机初始化权重参数进行归一化,以使每个类代理参数的模长为预设的单位模长,得到初始权重参数。
8.一种特征分类装置,其特征在于,所述装置包括:
第三获取模块,用于获取特征提取网络输出的待分类特征;
第四获取模块,用于获取预先训练好的目标权重参数,其中,所述目标权重参数通过如权利要求1至4中任一项神经网络权重参数的训练方法得到,所述目标权重参数包括与所述待分类特征对应的本类代理参数以及他类代理参数;
计算模块,用于将所述待分类特征与所述预先训练好的目标权重参数进行相似度计算,得到所述待分类特征与本类代理参数的本类相似度;
分类模块,用于基于所述本类相似度对所述待分类特征进行分类。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的神经网络权重参数的训练方法中的步骤,或所述处理器执行所述计算机程序时实现如权利要求5所述的特征分类方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的神经网络权重参数的训练方法中的步骤,或所述计算机程序被处理器执行时实现如权利要求5所述的特征分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391475.7A CN111144566B (zh) | 2019-12-30 | 2019-12-30 | 神经网络权重参数的训练方法、特征分类方法及对应装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391475.7A CN111144566B (zh) | 2019-12-30 | 2019-12-30 | 神经网络权重参数的训练方法、特征分类方法及对应装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144566A true CN111144566A (zh) | 2020-05-12 |
CN111144566B CN111144566B (zh) | 2024-03-22 |
Family
ID=70521811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911391475.7A Active CN111144566B (zh) | 2019-12-30 | 2019-12-30 | 神经网络权重参数的训练方法、特征分类方法及对应装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144566B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633407A (zh) * | 2020-12-31 | 2021-04-09 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN113065516A (zh) * | 2021-04-22 | 2021-07-02 | 中国矿业大学 | 一种基于样本分离的无监督行人重识别***及方法 |
CN113910267A (zh) * | 2021-08-30 | 2022-01-11 | 淄博师范高等专科学校 | 一种机器人***及控制方法 |
CN115829024A (zh) * | 2023-02-14 | 2023-03-21 | 山东浪潮科学研究院有限公司 | 一种模型训练方法、装置、设备及存储介质 |
WO2023230748A1 (en) * | 2022-05-30 | 2023-12-07 | Nvidia Corporation | Dynamic class weighting for training one or more neural networks |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423690A (zh) * | 2017-06-26 | 2017-12-01 | 广东工业大学 | 一种人脸识别方法及装置 |
CN107657243A (zh) * | 2017-10-11 | 2018-02-02 | 电子科技大学 | 基于遗传算法优化的神经网络雷达一维距离像目标识别方法 |
CN108229298A (zh) * | 2017-09-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练和人脸识别方法及装置、设备、存储介质 |
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
WO2019192121A1 (zh) * | 2018-04-04 | 2019-10-10 | 平安科技(深圳)有限公司 | 双通道神经网络模型训练及人脸比对方法、终端及介质 |
CN110349147A (zh) * | 2019-07-11 | 2019-10-18 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
-
2019
- 2019-12-30 CN CN201911391475.7A patent/CN111144566B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107423690A (zh) * | 2017-06-26 | 2017-12-01 | 广东工业大学 | 一种人脸识别方法及装置 |
CN108229298A (zh) * | 2017-09-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练和人脸识别方法及装置、设备、存储介质 |
CN107657243A (zh) * | 2017-10-11 | 2018-02-02 | 电子科技大学 | 基于遗传算法优化的神经网络雷达一维距离像目标识别方法 |
WO2019192121A1 (zh) * | 2018-04-04 | 2019-10-10 | 平安科技(深圳)有限公司 | 双通道神经网络模型训练及人脸比对方法、终端及介质 |
CN110349147A (zh) * | 2019-07-11 | 2019-10-18 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633407A (zh) * | 2020-12-31 | 2021-04-09 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN112633407B (zh) * | 2020-12-31 | 2023-10-13 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN113065516A (zh) * | 2021-04-22 | 2021-07-02 | 中国矿业大学 | 一种基于样本分离的无监督行人重识别***及方法 |
CN113065516B (zh) * | 2021-04-22 | 2023-12-01 | 中国矿业大学 | 一种基于样本分离的无监督行人重识别***及方法 |
CN113910267A (zh) * | 2021-08-30 | 2022-01-11 | 淄博师范高等专科学校 | 一种机器人***及控制方法 |
WO2023230748A1 (en) * | 2022-05-30 | 2023-12-07 | Nvidia Corporation | Dynamic class weighting for training one or more neural networks |
CN115829024A (zh) * | 2023-02-14 | 2023-03-21 | 山东浪潮科学研究院有限公司 | 一种模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111144566B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144566A (zh) | 神经网络权重参数的训练方法、特征分类方法及对应装置 | |
CN107944559B (zh) | 一种实体关系自动识别方法及*** | |
CN110363183B (zh) | 基于生成式对抗网络的服务机器人视觉图片隐私保护方法 | |
JP7414901B2 (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
WO2016033965A1 (zh) | 图像分类器的生成方法、图像分类方法和装置 | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN110796057A (zh) | 行人重识别方法、装置及计算机设备 | |
CN110598603A (zh) | 人脸识别模型获取方法、装置、设备和介质 | |
CN110705428B (zh) | 一种基于脉冲神经网络的脸部年龄识别***及方法 | |
CN113869449A (zh) | 一种模型训练、图像处理方法、装置、设备及存储介质 | |
CN109255339B (zh) | 基于自适应深度森林人体步态能量图的分类方法 | |
CN110909784A (zh) | 一种图像识别模型的训练方法、装置及电子设备 | |
US20230138302A1 (en) | Multiple scenario-oriented item retrieval method and system | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
US20080019595A1 (en) | System And Method For Identifying Patterns | |
CN113963235A (zh) | 一种跨类别图像识别模型重用方法和*** | |
CN107341485B (zh) | 人脸识别方法和装置 | |
CN114841287B (zh) | 分类模型的训练方法、图像分类方法及装置 | |
CN114187528B (zh) | 基于多示例空谱信息联合提取的高光谱目标检测方法 | |
CN116912920B (zh) | 表情识别方法及装置 | |
CN113205082B (zh) | 基于采集不确定性解耦的鲁棒虹膜识别方法 | |
CN114049900B (zh) | 模型训练方法、身份识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |