CN116311464A - 模型训练方法、人脸识别方法、电子设备及存储介质 - Google Patents
模型训练方法、人脸识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116311464A CN116311464A CN202310306841.4A CN202310306841A CN116311464A CN 116311464 A CN116311464 A CN 116311464A CN 202310306841 A CN202310306841 A CN 202310306841A CN 116311464 A CN116311464 A CN 116311464A
- Authority
- CN
- China
- Prior art keywords
- identity
- face
- class
- face recognition
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000008569 process Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请实施例涉及图像识别领域,公开了一种模型训练方法、人脸识别方法、电子设备及存储介质。模型训练方法包括:将多个人脸图像输入到包含全连接层的人脸识别网络中,得到多个人脸特征;采用多个人脸特征和待更新权值对人脸识别网络进行迭代训练;在每次迭代训练过程中,计算每次所选的第一身份类别对应的人脸特征和与所述第一身份类别不同的身份类别对应的类中心向量之间的第一相似度;基于第一相似度从与第一身份类别不同的身份类别中选择第二身份类别;根据各身份类别和全连接层中各权值的一一对应关系,将第一身份类别和第二身份类别对应的权值作为待更新权值。本申请的训练方法有效提高了训练效率、降低了海量训练数据对GPU的显存消耗。
Description
技术领域
本申请实施例涉及图像识别技术领域,特别涉及一种模型训练方法、人脸识别方法、电子设备及存储介质。
背景技术
人脸识别在公共安全、智能监控、数字身份认证、电子商务、多媒体和数字娱乐等多领域都具有巨大的应用价值和广泛的应用市场。经过长时间的研究,人脸识别已经取得了长足的发展与进步,以“人脸”为对象的计算机视觉研究已经成为一个及其重要、研究方向众多并有着广泛应用于前景的学术和科技领域。
目前,常用的人脸识别技术是基于深度学习的二维图像人脸识别模型,模型在应用于人脸识别之前,需要采用海量的人脸图像作为训练数据对模型的各参数进行迭代训练,以使模型具有良好的识别效果。然而,模型的训练难度和训练时间随着训练数据中身份类别数量的增长而大幅增加,模型中需要训练的各参数的数量也随着身份类别数量的增长而增加,最终整个模型训练过程所需的存储能力和计算能力很容易超过GPU的可承载能力,导致需要大量的训练时间,甚至训练失败。
发明内容
本申请实施方式的目的在于提供一种模型训练方法、人脸识别方法、电子设备及存储介质,通过不同身份类别的人脸特征和类中心向量之间的相似度来选择每次更新的权值,而未被选择的权值则不更新,有效提高了训练效率、降低了海量训练数据对GPU的显存消耗。
为解决上述技术问题,本申请的实施方式提供了一种模型训练方法,包括:将多个人脸图像输入到包含全连接层的人脸识别网络中,得到多个人脸特征;采用所述人脸特征和待更新权值对所述人脸识别网络进行迭代训练;其中,所述待更新权值通过如下方法获取:在每次迭代训练过程中,计算每次所选的第一身份类别对应的人脸特征和与所述第一身份类别不同的身份类别对应的类中心向量之间的第一相似度;基于所述第一相似度,从与所述第一身份类别不同的身份类别中选择第二身份类别;根据各身份类别和全连接层中各权值的一一对应关系,将所述第一身份类别和所述第二身份类别对应的权值作为待更新权值。
本申请的实施方式还提供了一种人脸识别方法,包括:将待测人脸图像输入到训练好的人脸识别网络中,得到所述待测人脸图像所属的身份类别;其中,所述训练好的人脸识别网络通过如上实施方式所述的模型训练方法得到。
本申请的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的人脸识别方法。
本申请的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的人脸识别方法。
本申请提供的模型训练方法,将多个人脸图像输入到包含全连接层的人脸识别网络中,得到多个人脸特征,然后在每次迭代训练过程中,计算随机所选择的第一身份类别对应的人脸特征和与第一身份类别不同的身份类别对应的类中心向量之间的第一相似度,而第一相似度就是不同身份类别之间的类间距离,可以理解的是,类间距离越大,对应的人脸图像可分性越好、越容易训练,类间距离越小,对应的人脸图像可分性越差、越有可能是噪声数据、训练难度越大。如此,基于类间距离,从与第一身份类别不同的身份类别中选择第二身份类别,将第一身份类别和第二身份类别对应的权值进行迭代更新,即每次只根据类间距离选择性地更新有训练价值的部分权值,以使人脸识别网络的每次训练都是有效训练,而未被选择的权值则不更新,整个训练方法既使模型达到了良好的识别效果,也降低了海量训练数据对GPU的显存消耗。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请的实施方式提供的模型训练方法的流程图;
图2是本申请的实施方式提供的人脸识别方法的流程图;
图3是本申请的实施方式的提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面对本实施方式的模型训练方法的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
本申请的实施方式涉及一种模型训练方法,如图1所示,包括:
步骤101,将多个人脸图像输入到包含全连接层的人脸识别网络中,得到多个人脸特征。
具体地说,本实施例将训练集中包含不同身份类别的人脸图像输入到人脸识别网络中,得到多个不同身份类别的人脸特征。其中,同一身份类别的人脸图像可以包含多种不同的图像,如:同一个人不同拍摄角度拍摄的人脸图像、同一个人穿戴不同配饰拍摄的人脸图像、同一个人在不同背景下拍摄的人脸图像、同一个人在不同年龄段拍摄的人脸图像等等。
在将人脸图像输入到人脸识别网络之前,还可以将同一身份类别的多个人脸图像组成类内多元组,以保证每次迭代训练时输入的人脸图像有多种身份类别、且都可以计算第一相似度。比如:以类内三元组作为人脸识别网络的输入数据,身份类别A对应的输入数据包含:身份类别B对应的输入数据包含:/> 其中,/>表示属于A身份类别中的第1个人脸图像,以此类推其他身份类别,则每次可以从身份类别A、身份类别B、身份类别C、……、身份类别N中分别挑选多个类内三元组作为一个批次的训练数据输入到人脸识别网络中。当然,在训练过程中人脸图像具有身份标签,在将人脸图像输入到人脸识别网络过程中,网络也会学习每个人脸图像对应的身份标签。
需要说明的是,本申请并不限定人脸识别网络的结构和类型,可以是卷积神经网络、残差神经网络、学生-教师模型、支持向量机SVM、注意力机制网络等等任意一种或多种的组合,只要包含全连接层即可,全连接层是将全连接层中每一个神经元都与上一层的所有神经元相连接,用于将前一层计算得到的人脸特征映射到样本空间,简单地说,就是将人脸特征整合成一个值。在人脸识别网络初始化阶段,就会初始化全连接层中各权值与身份类别的一一对应关系,比如:第一个权值始终与身份类别A相对应,第2个权值始终与身份类别B相对应。
步骤102,采用多个人脸特征和待更新权值对人脸识别网络进行迭代训练,其中,在每次迭代训练过程中,计算每次所选的第一身份类别对应的人脸特征和与第一身份类别不同的身份类别对应的类中心向量之间的第一相似度;基于第一相似度,从与第一身份类别不同的身份类别中选择第二身份类别;根据各身份类别和全连接层中各权值的一一对应关系,将第一身份类别和第二身份类别对应的权值作为待更新权值。
具体地说,每次所选的第一身份类别可以是从训练集中随机选择的一个身份类别,计算该身份类别对应的人脸特征与其他身份类别对应的类中心向量之间的第一相似度。比如:训练集中共有5个身份类别A、B、C、D、E,选择身份类别B作为第一身份类别,第一身份类别B对应的人脸图像有3个(b1、b2、b3),则第一身份类别B对应的人脸特征也有3个(B1、B2、B3),分别计算人脸特征B1与身份类别A、身份类别C、身份类别D、身份类别E的类中心向量之间的第一相似度,分别计算人脸特征B2与身份类别A、身份类别C、身份类别D、身份类别E的类中心向量之间的第一相似度,分别计算人脸特征B3与身份类别A、身份类别C、身份类别D、身份类别E的类中心向量之间的第一相似度,基于以上计算得到的所有第一相似度,从身份类别A、C、D、E中确定第二身份类别。
当然,确定的第二身份类别可能只有1个,也可能有多个。当确定的第二身份类别的数量为1个时,待更新权值数量就为2个,当确定的第二身份类别的数量为多个时,待更新权值的数量就为n+1个,n为第二身份类别的数量。另外,第一相似度可以根据欧式距离、余弦距离、马氏距离、欧几里得距离等等现有的深度学***均值作为类中心向量)。
可以理解的是,本申请的整个训练过程相当于将第一身份类别看作为“正类”,将第二身份类别看作为“负类”,而计算“正类”的人脸特征和“负类”的类中心向量之间的第一相似度,相当于计算不同身份类别之间的类间距离。而类间距离越大,对应的人脸图像可分性越好、越容易训练,类间距离越小,对应的人脸图像可分性越差、越有可能是噪声数据、训练难度越大。如此,基于类间距离,就可以从“负类”中选择相对于“正类”来说具有训练价值的第二身份类别,然后将“正类”(第一身份类别)对应的权值和选择出的“负类”(第二身份类别)对应的权值进行更新。
也就是说,本申请每次根据类间距离只选择性地更新有训练价值的部分权值,而未被选择的权值则不更新,以使人脸识别网络的每次训练都是有效训练,如此,既使人脸识别网络达到了很好的识别效果,也降低了海量训练数据对人脸识别网络的训练效率的影响,以及对GPU的显存消耗。
在一实施例中,基于第一相似度,从与第一身份类别不同的身份类别中选择第二身份类别,包括:将的第一相似度进行平均处理,得到第一平均值,并将第一平均值与预设阈值的差值作为第一阈值;将大于第一阈值的第一相似度对应的身份类别作为第二身份类别。
本实施例中,假设第一身份类别A对应的人脸特征有2个(A1、A2),与第一身份类别不同的身份类别有3个,这3个身份类别对应的类中心向量为B、C、D,则得到的第一相似度包括:dis(A1,B)、dis(A2,B)、dis(A1,C)、dis(A2,C)、dis(A1,D)、dis(A2,D),第一平均值根据前述计算得到的6个第一相似度进行平均处理得到,其中平均处理可以是算数平均、几何平均、平方平均、加权平均等等处理方式。然后,将第一平均值和预设阈值的差值作为筛选第二身份类别的第一阈值。其中,预设阈值为预先设置的超参数。
需要说明的是,第一阈值并不是固定的,每次所选的第一身份类别不同,对应的第一阈值也不同。第一阈值可以看作是第一身份类别与其他身份类别之间类间距离的“标准值”。
在一实施例中,将第一身份类别和第二身份类别对应的权值作为待更新权值,包括:将第二身份类别划分为第三身份类别和第四身份类别,其中第三身份类别对应的第一相似度大于第二阈值,第四身份类别对应的第一相似度大于第一阈值且小于第二阈值;将第一身份类别和第三身份类别对应的权值作为第一训练阶段的待更新权值,将第一身份类别和第四身份类别对应的权值作为第二训练阶段的待更新权值。其中,第一阈值为第一平均值与预设阈值的差值,第二阈值为第一平均值与预设阈值的和值,第一平均值通过对第一相似度进行平均处理得到。
本实施例中,在确定好第二身份类别后,对所确定的用于进行训练的第二身份类别进行再分类,得到用于不同训练阶段的第三身份类别和第四身份类别,整个过程用公式表示为:
其中,第一阈值为T1,第二阈值为T2,dis(X,Y)表示为第一身份类别X对应的人脸特征和与第一身份类别不同的身份类别Y对应的类中心向量之间的第一相似度(也即类间距离)。
即可以理解为,第三身份类别对应的两个人脸图像的类间距离相对较大,第四身份类别对应的两个人脸图像的类间距离相对较小,不同类之间的类间距离越大,其人脸图像可分性越好,越容易训练,即可以将第三身份类别对应的人脸图像看作是简单训练数据,相反地,不同类之间的类间距离越小,其人脸图像可分性越差,训练难度越大,即可以将第四身份类别对应的人脸图像看作是中等难度训练数据。进一步地,简单训练数据用于在训练初期,即第一训练阶段,让人脸识别网络快速学习简单训练数据的人脸特征,具备初始的学习能力。中等难度训练数据用于在训练后期,即第二训练阶段,让人脸识别网络进一步提升学习能力,掌握中等难度训练数据的人脸特征。
而对于dis(X,Y)<T1,其类间距离最小,说明这两个人脸图像很有可能是属于同一身份类别的,即对应的人脸图像的身份标签很有可能是错误的,为噪声数据。一般训练时,不考虑这一类训练数据。
在一实施例中,第二身份类别的选择方法还包括:按照从大到小的顺序,从第一相似度中选择第一比例对应数量的第一相似度所对应的身份类别作为第二身份类别。
具体地,假设某一次迭代训练选择的第一身份类别A对应的人脸特征有10个,与第一身份类别不同的身份类别有20个,即对应的类中心向量为20个,那么此次计算出的第一相似度有200个值,若第一比例为60%,则按照第一相似度值从大到小的顺序选择120个第一相似度,这120个第一相似度值对应的身份类别就作为第二身份类别。当然,第一比例可以根据每次的训练结果随时调整设置。
在一实施例中,第三身份类别和第四身份类别的划分方法,还包括:将第二身份类别对应的第一相似度按照从大到小的顺序进行排序,从排序后的第一相似度中从大到小依次选择第二比例对应数量的第一相似度所对应的身份类别作为第三身份类别,排序后的第一相似度中未被选择的第一相似度所对应的身份类别作为第四身份类别。
具体地,假设第二身份类别对应的第一相似度有120个,第二比例为70%,则从这120个第一相似度中按照从大到小的顺序依次选择84个第一相似度,将这84个第一相似度对应的身份类别作为第三身份类别,将未被选择的、剩余的36个第一相似度对应的身份类别作为第四身份类别。类似地,第一身份类别和第三身份类别对应的权值作为第一训练阶段的待更新权值,第一身份类别和第四身份类别对应的权值作为第二训练阶段的待更新权值。
即选择第二身份类别、第三身份类别、第四身份类别的方法可以从第一相似度的数值出发去选择,也可以从第一相似度的数量出发去选择。
在一实施例中,采用多个人脸特征和待更新权值对人脸识别网络进行迭代训练,包括:将每个身份类别分别作为待处理身份类别进行如下操作:计算待处理身份类别对应的人脸特征之间的第二相似度,将第二相似度进行平均处理,得到第二平均值,并将第二平均值与预设阈值的和值作为第三阈值;将大于第三阈值的第二相似度所对应的两个人脸特征标记为噪声数据;将待处理身份类别对应的人脸特征中的噪声数据剔除,并采用剔除后的待处理身份类别对应的人脸特征和待更新权值进行迭代训练。
具体地,计算待处理身份类别对应的人脸特征之间的第二相似度,相当于计算每个身份类别对应的人脸特征之间的类内距离。比如:身份类别A对应的人脸特征有10个,则从这10个特征中计算任意两个人脸特征之间的第二相似度,则身份类别A总共能得到45个第二相似度。对于身份类别B对应的3个人脸特征,计算这3个人脸特征中任意两个人脸特征之间的第二相似度,则身份类别B总共能得到3个第二相似度。将身份类别A的45个第二相似度中大于第三阈值的第二相似度对应的两个人脸特征标记为噪声数据剔除,将身份类别B的3个人脸特征中大于第三阈值的第二相似度对应的两个人脸特征标记为噪声数据剔除。
需要注意的是,第三阈值并不是固定的,每个身份类别都对应一个第三阈值,第三阈值基于当前处理的身份类别的第二相似度的平均值得到。
可以理解的是,类内距离(第二相似度)越小,对应的人脸图像越容易训练,类内距离越大,对应的人脸图像越有可能是噪声数据,训练难度越大。因此,本申请通过训练过程中的在线数据清洗,以提升海量训练数据的训练效率。
其中,训练过程中的损失函数包括:
其中,loss1为迭代训练过程中采用的损失函数,s、m为预设的超参数,N为人脸图像的数量,为身份类别yi所对应的权值,yi表示人脸图像xi所属的身份类别,f(xi)为人脸图像xi的人脸特征,C为身份类别数。
另外,损失函数还可以包括:类内损失函数loss2和类间损失loss3:
其中,C为身份类别数,N训练的人脸图像的数量,num(b=c)表示人脸图像x属于身份类别c的数量,num(j≠c)表示人脸图像x不属于身份类别c的数量,为属于身份类别c的人脸图像xi的人脸特征,/>为不属于身份类别c的人脸图像xj的人脸特征。
在一实施例中,本申请的模型训练方法应用于多个GPU,每个GPU上均运行人脸识别网络,每个GPU所运行的人脸识别网络处理的人脸图像不同,每个GPU所运行的人脸识别网络中全连接层处理的身份类别不同。
在每次迭代训练过程中,每个GPU获取除本GPU之外的所有GPU运行的人脸识别网络所得到的人脸特征和权值;每个GPU根据自身运行的人脸识别网络得到的人脸特征和权值,以及除本GPU之外的所有GPU运行的人脸识别网络所得到的人脸特征和权值,确定待更新权值并进行迭代训练。
具体地,本申请的训练方法应用于多个GPU,这多个GPU可以位于同一个服务器,也可以位于多个不同的服务器,每个GPU上均存储并运行人脸识别网络,即多个GPU模型并行。不同GPU上处理的人脸图像不同、处理的身份类别不同。当然,每个GPU上处理的人脸图像的数量可以相同,也可以不同,处理的身份类别的数量可以相同,也可以不同。
比如:假设本申请的训练数据有5万个,这5万个训练数据具有200个身份类别,现有5个GPU,每个GPU负责1万个训练数据,第1个GPU负责处理50个身份类别,第2个GPU负责处理60个身份类别,第3个GPU负责处理30个身份类别,第4个GPU负责处理20个身份类别,第5个GPU负责处理40个身份类别。
在每次迭代训练过程中,每个GPU和其他GPU相互通信,获取其他GPU上所运行的人脸识别网络所得到的人脸特征和权值,并根据本GPU所运行的人脸识别网络和获取到的其他GPU上的人脸特征和权值来确定待更新权值。也就是说,各GPU之间既独立运行,又相互通信配合训练,如此降低了大规模训练数据对单个GPU计算能力和存储能力的消耗。
本申请的实施方式涉及一种人脸识别方法,如图2所示,包括:
步骤201,将待测人脸图像输入到训练好的人脸识别网络中,得到待测人脸图像的人脸特征。
步骤202,根据待测人脸图像的人脸特征确定待测人脸图像所属的身份类别。
本实施例中,训练好的特征提取网络通过如上实施方式所述的模型训练方法得到。在得到待测人脸图像的人脸特征后,可以将人脸特征输入到深度学习常用的分类器中得到待测人脸图像所属的身份类别。或者,也可以将待测人脸图像的人脸特征与数据库中预存的各身份类别的类中心向量进行对比,获取相似度,根据相似度确定该待测人脸图像所属的身份类别。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请的实施方式涉及一种电子设备,如图3所示,包括:
至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行如上述实施方式提及的模型训练,或者能够执行上述实施方式提及的人脸识别方法。
该电子设备包括:一个或多个处理器301以及存储器302,图3中以一个处理器301为例。处理器301、存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器302中。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述模型训练方法或人脸识别方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器302中,当被一个或者多个处理器301执行时,执行上述任意实施方式中的模型训练方法,或者能够执行上述实施方式提及的人脸识别方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本申请的实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
将多个人脸图像输入到包含全连接层的人脸识别网络中,得到多个人脸特征;
采用所述多个人脸特征和待更新权值对所述人脸识别网络进行迭代训练;
其中,所述待更新权值通过如下方法获取:在每次迭代训练过程中,计算每次所选的第一身份类别对应的人脸特征和与所述第一身份类别不同的身份类别对应的类中心向量之间的第一相似度;基于所述第一相似度,从与所述第一身份类别不同的身份类别中选择第二身份类别;根据各身份类别和全连接层中各权值的一一对应关系,将所述第一身份类别和所述第二身份类别对应的权值作为待更新权值。
2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述第一相似度,从与所述第一身份类别不同的身份类别中选择第二身份类别,包括:
将所述第一相似度进行平均处理,得到第一平均值,并将所述第一平均值与预设阈值的差值作为第一阈值;
将大于第一阈值的第一相似度对应的身份类别作为第二身份类别。
3.根据权利要求1或2所述的模型训练方法,其特征在于,将所述第一身份类别和所述第二身份类别对应的权值作为待更新权值,包括:
将所述第二身份类别划分为第三身份类别和第四身份类别,其中第三身份类别对应的第一相似度大于第二阈值,第四身份类别对应的第一相似度大于第一阈值且小于第二阈值;
将所述第一身份类别和所述第三身份类别对应的权值作为第一训练阶段的待更新权值,将所述第一身份类别和所述第四身份类别对应的权值作为第二训练阶段的待更新权值;
其中,第一阈值为第一平均值与预设阈值的差值,第二阈值为第一平均值与预设阈值的和值,第一平均值通过对所述第一相似度进行平均处理得到。
4.根据权利要求1所述的模型训练方法,其特征在于,所述采用所述多个人脸特征和待更新权值对所述人脸识别网络进行迭代训练,包括:
将每个身份类别分别作为待处理身份类别进行如下操作:
计算待处理身份类别对应的人脸特征之间的第二相似度,将所述第二相似度进行平均处理,得到第二平均值,并将第二平均值与预设阈值的和值作为第三阈值;
将大于第三阈值的第二相似度所对应的两个人脸特征标记为噪声数据;
将所述待处理身份类别对应的人脸特征中的噪声数据剔除,并采用剔除后的待处理身份类别对应的人脸特征和待更新权值进行迭代训练。
5.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法应用于多个GPU,每个GPU上均运行所述人脸识别网络,每个GPU所运行的人脸识别网络处理的人脸图像不同,每个GPU所运行的人脸识别网络中全连接层处理的身份类别不同。
6.根据权利要求5所述的模型训练方法,其特征在于,所述采用所述人脸特征和待更新权值对所述人脸识别网络进行迭代训练,包括:
在每次迭代训练过程中,每个GPU获取除本GPU之外的所有GPU运行的人脸识别网络所得到的人脸特征和权值;
每个GPU根据自身运行的人脸识别网络得到的人脸特征和权值,以及除本GPU之外的所有GPU运行的人脸识别网络所得到的人脸特征和权值,确定所述待更新权值并进行迭代训练。
8.一种人脸识别方法,其特征在于,包括:
将待测人脸图像输入到训练好的人脸识别网络中,得到所述待测人脸图像的人脸特征;
根据所述待测人脸图像的人脸特征确定所述待测人脸图像所属的身份类别;
其中,所述训练好的人脸识别网络通过权利要求1-7中任一项所述的模型训练方法得到。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的模型训练方法,或者能够执行如权利要求8所述的人脸识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的模型训练方法,或者实现如权利要求8所述的人脸识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306841.4A CN116311464B (zh) | 2023-03-24 | 2023-03-24 | 模型训练方法、人脸识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306841.4A CN116311464B (zh) | 2023-03-24 | 2023-03-24 | 模型训练方法、人脸识别方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311464A true CN116311464A (zh) | 2023-06-23 |
CN116311464B CN116311464B (zh) | 2023-12-12 |
Family
ID=86784970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306841.4A Active CN116311464B (zh) | 2023-03-24 | 2023-03-24 | 模型训练方法、人脸识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311464B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
CN107004115A (zh) * | 2014-12-03 | 2017-08-01 | 北京市商汤科技开发有限公司 | 用于人脸识别的方法和*** |
CN109800648A (zh) * | 2018-12-18 | 2019-05-24 | 北京英索科技发展有限公司 | 基于人脸关键点校正的人脸检测识别方法及装置 |
CN112633051A (zh) * | 2020-09-11 | 2021-04-09 | 博云视觉(北京)科技有限公司 | 一种基于图像搜索的在线人脸聚类方法 |
CN113947801A (zh) * | 2021-12-21 | 2022-01-18 | 中科视语(北京)科技有限公司 | 人脸识别方法、装置和电子设备 |
CN114358284A (zh) * | 2022-01-12 | 2022-04-15 | 厦门市美亚柏科信息股份有限公司 | 一种基于类别信息对神经网络分步训练的方法、装置、介质 |
CN115410265A (zh) * | 2022-11-01 | 2022-11-29 | 合肥的卢深视科技有限公司 | 模型训练方法、人脸识别方法、电子设备及存储介质 |
-
2023
- 2023-03-24 CN CN202310306841.4A patent/CN116311464B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004115A (zh) * | 2014-12-03 | 2017-08-01 | 北京市商汤科技开发有限公司 | 用于人脸识别的方法和*** |
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
CN109800648A (zh) * | 2018-12-18 | 2019-05-24 | 北京英索科技发展有限公司 | 基于人脸关键点校正的人脸检测识别方法及装置 |
CN112633051A (zh) * | 2020-09-11 | 2021-04-09 | 博云视觉(北京)科技有限公司 | 一种基于图像搜索的在线人脸聚类方法 |
CN113947801A (zh) * | 2021-12-21 | 2022-01-18 | 中科视语(北京)科技有限公司 | 人脸识别方法、装置和电子设备 |
CN114358284A (zh) * | 2022-01-12 | 2022-04-15 | 厦门市美亚柏科信息股份有限公司 | 一种基于类别信息对神经网络分步训练的方法、装置、介质 |
CN115410265A (zh) * | 2022-11-01 | 2022-11-29 | 合肥的卢深视科技有限公司 | 模型训练方法、人脸识别方法、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
XIANG AN ET AL.: "Killing Two Birds with One Stone: Efficient and Robust Training of Face Recognition CNNs by Partial FC", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 4032 - 4041 * |
张强 等: "CS-Softmax:一种基于余弦相似性的Softmax损失函数", 计算机研究与发展, pages 936 - 949 * |
李清涛 等: "基于人工神经网络全连接层优化的线损异常诊断方法研究", 电力电网电气应用, vol. 39, no. 4, pages 82 - 88 * |
Also Published As
Publication number | Publication date |
---|---|
CN116311464B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Simple convolutional neural network on image classification | |
Gao et al. | Deep leaf‐bootstrapping generative adversarial network for structural image data augmentation | |
Sun et al. | Deep learning for plant identification in natural environment | |
Lee et al. | Deeply-supervised nets | |
Goodfellow et al. | Multi-prediction deep Boltzmann machines | |
CN106599900B (zh) | 一种识别图像中的字符串的方法和装置 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN105930834B (zh) | 基于球哈希二值编码的人脸识别方法及装置 | |
CN106408039A (zh) | 一种基于形变方法进行数据扩展的脱机手写汉字识别方法 | |
CN110033026A (zh) | 一种连续小样本图像的目标检测方法、装置及设备 | |
Van Hieu et al. | Automatic plant image identification of Vietnamese species using deep learning models | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
JP6107531B2 (ja) | 特徴抽出プログラム及び情報処理装置 | |
Vallet et al. | A multi-label convolutional neural network for automatic image annotation | |
Karnowski et al. | Deep spatiotemporal feature learning with application to image classification | |
Serra et al. | Unknown landscape identification with CNN transfer learning | |
CN115908514A (zh) | 一种基于全局特征与局部特征融合的点云配准方法 | |
Suresh et al. | A survey of popular image and text analysis techniques | |
CN116311464B (zh) | 模型训练方法、人脸识别方法、电子设备及存储介质 | |
CN112364198A (zh) | 一种跨模态哈希检索方法、终端设备及存储介质 | |
CN114596464A (zh) | 多特征交互的无监督目标检测方法、***、电子设备和可读存储介质 | |
CN111191717B (zh) | 一种基于隐空间聚类的黑盒对抗样本生成算法 | |
Flores-Munguía et al. | Leveraging a neuroevolutionary approach for classifying violent behavior in video | |
Hu et al. | Tree species identification based on the fusion of multiple deep learning models transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |