CN114358249A - 目标识别模型训练、目标识别方法及装置 - Google Patents

目标识别模型训练、目标识别方法及装置 Download PDF

Info

Publication number
CN114358249A
CN114358249A CN202111646238.8A CN202111646238A CN114358249A CN 114358249 A CN114358249 A CN 114358249A CN 202111646238 A CN202111646238 A CN 202111646238A CN 114358249 A CN114358249 A CN 114358249A
Authority
CN
China
Prior art keywords
image
network
training
feature extraction
loss value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646238.8A
Other languages
English (en)
Inventor
王文安
朱树磊
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202111646238.8A priority Critical patent/CN114358249A/zh
Publication of CN114358249A publication Critical patent/CN114358249A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种目标识别模型训练、目标识别方法及装置,用以降低目标识别模型训练的复杂度并提高训练效率,以及增加图像训练样本的多样性和利用率,从而降低训练成本,提高目标识别的准确性和鲁棒性。本申请提供的特征提取网络的训练方法中,所述特征提取网络用于对图像的特征进行提取,所述方法包括:利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;利用图像生成网络对所述图像特征进行图像重构,得到重构图像;基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络。

Description

目标识别模型训练、目标识别方法及装置
技术领域
本申请涉及图像处理技术领域,尤其涉及一种目标识别模型训练、目标识别方法及装置。
背景技术
以下背景技术的描述可以包括对本申请实施例的至少一些示例的见解、发现、理解或公开或关联、以及相关现有技术不知道但由本申请实施例提供的公开内容。本申请实施例的一些这种贡献可以在下面被具体指出,而本申请实施例的其他这种贡献将从相关上下文中显而易见。
现有技术中目标识别模型的训练过程中,编码器对原始图像进行编码后,再通过解码器进行还原,基于还原得到的图像和原始图像的差异训练编码器。也就是说,现有技术中编码器需要对整个原始图像进行编码,处理过程比较复杂、效率比较低。
发明内容
本申请实施例提供了一种目标识别模型训练、目标识别方法及装置,用以降低目标识别模型训练的复杂度并提高训练效率,以及增加图像训练样本的多样性和利用率,从而降低训练成本,提高目标识别的准确性和鲁棒性。
本申请实施例提供的一种特征提取网络的训练方法,所述特征提取网络用于对图像的特征进行提取,所述方法包括:
利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;
利用图像生成网络对所述图像特征进行图像重构,得到重构图像;
基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络。
可选地,所述方法还包括:
基于所述重构图像和所述原始图像之间的差异信息,调整所述图像生成网络的网络参数。
可选地,基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络,具体包括:
利用判别网络对所述重构图像和所述原始图像进行图像类型的识别,并确定判别损失值;
交替执行下列两个步骤或者仅执行其中的步骤A:
步骤A:利用所述判别损失值和所述差异信息,对所述训练中的特征提取网络的网络参数和所述图像生成网络的网络参数进行调整;
步骤B:利用所述判别损失值,对所述判别网络的网络参数进行调整。
本申请实施例提供的一种目标识别模型的训练方法,所述目标识别模型包括目标识别子网络和基于所述特征提取网络的训练方法获得的特征提取网络,所述目标识别模型的训练方法包括:
输入包含标注信息的训练图像;
利用所述训练图像对所述目标识别子网络进行训练,得到训练后的目标识别模型。
可选地,利用所述训练图像对所述目标识别子网络进行训练,具体包括:
利用所述特征提取网络对所述训练图像进行特征提取,得到所述训练图像对应的图像特征;
利用所述目标识别子网络对所述训练图像对应的图像特征预测分类标签,并利用预测的分类标签和所述训练图像的标注信息,确定分类损失值;
基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整。
可选地,基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述分类损失值,以及重构损失值和/或判别损失值,确定综合损失值;
利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整;
其中,所述重构损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的图像生成网络,对所述训练图像对应的图像特征进行图像重构,得到所述训练图像对应的重构图像;基于所述训练图像对应的重构图像和所述训练图像之间的差异信息,确定重构损失值;
所述判别损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的判别网络,对所述训练图像对应的重构图像和所述训练图像进行图像类型的识别,并确定所述训练图像对应的判别损失值。
可选地,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
可选地,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络的网络参数进行调整,当满足预设条件时,重新确定所述综合损失值,并利用重新确定的综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
本申请实施例提供的一种目标识别方法,包括:
将待识别图像输入基于所述特征提取网络的训练方法获得的特征提取网络;
利用所述特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给目标识别子网络;
通过所述目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
本申请实施例提供的另一种目标识别方法,包括:
将待识别图像输入基于所述目标识别模型的训练方法获得的目标识别模型;
利用所述目标识别模型中的特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给所述目标识别模型中的目标识别子网络;
通过所述目标识别模型中的目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
本申请另一实施例提供了一种计算设备,其包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一所述的方法。
此外,根据实施例,例如提供了一种用于计算机的计算机程序产品,其包括软件代码部分,当所述产品在计算机上运行时,这些软件代码部分用于执行上述所定义的方法的步骤。该计算机程序产品可以包括在其上存储有软件代码部分的计算机可读介质。此外,该计算机程序产品可以通过上传过程、下载过程和推送过程中的至少一个经由网络直接加载到计算机的内部存储器中和/或发送。
本申请另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述任一种方法。
本申请实施例,通过提供的特征提取网络的训练方法,利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;利用图像生成网络对所述图像特征进行图像重构,得到重构图像;基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络,从而在特征提取网络的训练过程中,特征提取网络仅仅对原始图像进行特征提取,无线对整个图像进行编码,因此,训练的复杂度降低,并提高了训练效率。以及,训练用的原始图像不受限,可以是有标签的原始图像,也可以是无标签的原始图像,因此,本申请实施例提供的训练方法,增加了图像训练样本的多样性和利用率,从而降低了训练成本,并且,进而可以提高目标识别的准确性和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的人脸图像识别模型的训练方法示意图;
图2为本申请实施例提供的关于无标签人脸图像的图像识别模型的训练方法示意图;
图3为本申请实施例提供的关于有标签人脸图像的图像识别模型的训练方法示意图;
图4为本申请实施例提供的一种图像识别模型训练方法的流程示意图;
图5为本申请实施例提供的一种图像识别方法的流程示意图;
图6为本申请实施例提供的一种图像识别模型训练装置的结构示意图;
图7为本申请实施例提供的一种图像识别装置的结构示意图;
图8为本申请实施例提供的另一种图像处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种目标识别模型训练、目标识别方法及装置,用以降低目标识别模型训练的复杂度并提高训练效率,以及增加图像训练样本的多样性和利用率,从而降低训练成本,提高目标识别的准确性和鲁棒性。
其中,方法和装置是基于同一申请构思的,由于方法和装置解决问题的原理相似,因此装置和方法的实施可以相互参见,重复之处不再赘述。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下示例和实施例将只被理解为是说明性的示例。虽然本说明书可能在若干处提及“一”、“一个”或“一些”示例或实施例,但这并非意味着每个这种提及都与相同的示例或实施例有关,也并非意味着该特征仅适用于单个示例或实施例。不同实施例的单个特征也可以被组合以提供其他实施例。此外,如“包括”和“包含”的术语应被理解为并不将所描述的实施例限制为仅由已提及的那些特征组成;这种示例和实施例还可以包含并未具体提及的特征、结构、单元、模块等。
下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是,本申请实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
首先需要说明的是,本申请实施例中,以人脸识别为例进行说明,但是本申请实施例提供的技术方案,同样适用于动物等其他目标对象的识别。
在人脸识别领域,一个很大的问题就是数据集标注的问题,所谓标注,即打标签,用于标注人脸图像是哪一个人的人脸图像,例如是张三的还是李四的。用于训练人脸识别模型的数据集的质量,往往决定了人脸识别模型(简称模型)的上限。大规模的有标注的且高质量的人脸数据集往往比较难以获取,需要耗费大量的人力物力去对人脸图像进行标注,且并不一定能保证每个人脸身份的可靠性。
目前关于人脸识别模型的机器学习方法主要是监督学习方法,这类方法依赖于有标注的人脸图像数据,即需要人工标注的标签,需要大量的标签数据,并且得到的模型对人脸识别的效果不好。
相对于有标签数据,人脸图像通过摄像头抓拍或网络爬取等手段是可以轻松采集与获取的,如果能够有效利用这些大规模的无标签数据,对于人脸识别模型的训练会有很大的帮助与提升。
自监督学习属于非监督学习范式的一种,特点是训练数据不需要人工标注类别标签信息,直接利用训练数据本身作为监督信息,来学习样本数据的特征表达,并用于下游任务。其中,所述类别标签信息,比如分类猫、狗图像,图像的类别标签信息就是图像属于猫还是属于狗。在人脸图像中,类别标签信息一般是指每张人脸图像的身份ID,比如第一人脸图像,属于张三,第二人脸图像,属于李四。所述监督信息,就是目标,比如要让模型能够识别出一张图像里的动物是猫还是狗。在训练过程中,若让模型可以识别出狗,那么提供一张狗的图像,然后给出标签:狗。从而使得模型可以识别出图像是狗的图像。所述监督信息根据模型、目标、训练方式等不同,可以不一样,总体来说就是需要一个特定标签或者语义,让模型去学习。
自监督学习能够直接使用数据本身来提供监督信息,指导学习。通过自监督学习方式,将大规模无标注人脸数据用于人脸识别模型训练,有助于提高人脸识别模型的上限,增加模型的范化能力,并自主学习图像的精细变化,提高人脸识别模型的准确性、鲁棒性。
本申请实施例提供的技术方案,要解决的问题是大规模无标注人脸数据训练问题,通过引入自监督学习,在有标注与无标签数据中能有效地自主学习人脸图像中的相似特征与差异特征,充分利用大规模无标注人脸图像的语意信息,增加模型的表达与识别能力。其中,所述语义信息是指图像本身像素所包含的信息,如图像的纹理,颜色,频率等等。更深层次的一些语义信息还包含局部区域的特征点,梯度等信息。
参见图1,本申请实施例提供的一种特征提取网络的训练方法,包括:
S101、利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;
其中,所述特征提取网络用于对图像的特征进行提取,也可以称为编码器。
本申请实施例中,用于训练特征提取网络的原始图像,可以包括无标注人脸图像,和/或,有标注人脸图像,具体不进行限制。
本申请实施例中,具体如何通过编码器实现针对每一人脸图像的人脸特征提取,本申请实施例不进行限定。所述编码器(特征提取模型),例如是人脸特征提取模型,用于人脸特征提取。具体地,将人脸图像映射到特征空间上。其中,所述特征空间,也叫隐向量空间,即人脸的特征向量所处的特征空间。比如常见的三维坐标向量所处的就是三维欧氏空间。
编码器为模型主体部分,去除全连接(FC)层,仅使用经过卷积层、池化层得到的特征提取部分,用以人脸图像的特征编码,例如采用残差网络(Resnet-50),深度卷积神经网络(VGGnet)等实现特征编码。
值得注意的是,为了让编码的特征向量约束在球形空间(一种特征空间)下,本申请实施例对输出的特征向量会做标准化处理,使其模长为1。即向量标准化,也可以叫Z-score规范化(标准差标准化/零均值标准化)。例如,采用公式x'=(x-μ)/σ)进行向量标准化,其中,μ是向量均值,σ是向量方差,x是原向量,x’是标准化后的向量。
编码器中的卷积层、正则层等一系列可训练的神经网络参数,均可被优化更新,参数的更新与优化算法也叫优化器,常见的神经网络里的优化器可以使用Adam或SGD随机梯度等优化算法。
S102、利用图像生成网络对所述图像特征进行图像重构,得到重构图像;
所述图像生成网络,也可以称为图像重构网络或解码器,可以采用目前生成对抗网络中的解码器结构,利用编码器输出的特征向量(人脸特征)得到重构图像。
S103、基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络。
一种实施方式中,本申请实施例在训练特征提取网络的过程中,不添加判别器的训练,而是如图2所示,将编码器和解码器的参数一起训练,因此,可选地,所述方法还包括:
基于所述重构图像和所述原始图像之间的差异信息,调整所述图像生成网络的网络参数。
可选地,利用所述差异信息确定的重构损失值L1,并基于L1调整编码器和解码器的参数,直到满足预设的训练停止条件。
所述训练停止条件,例如可以包括:L1小于预设阈值,或训练次数达到预设阈值,或训练时长达到预设时长等等。下文中所述的训练停止条件同理,后续不再赘述。
本申请实施例中,例如可以针对任一无标签的人脸图像,将提取出的人脸特征重构出人脸图像,并通过将重构图像与原始图像进行比较,来进行编码器的非监督学习训练。
其中,所述通过将重构图像与原始图像进行比较,来进行编码器的非监督学习训练,即采用预设的重构损失函数,计算重构图像相对于原始图像的重构损失,利用所述重构损失进行编码器的训练。
所述重构损失函数,可以采用图像像素级别的欧式距离,以此来完成无标签数据的训练,该方式属于生成式方式。例如,具体可以采用下面的公式一得到重构损失值L,其中x是输入图像像素矩阵,E是编码器,G是解码器,解码器的网络结构可以是与编码器结构类似或对称。比如编码器使用残差网络,解码器也可以构造残差网络。
Figure BDA0003445260240000101
那么,所述通过将重构图像与原始图像进行比较,来进行编码器的非监督学习训练,包括:利用所述重构损失对编码器中的参数进行优化,即对编码器进行训练,通过多次迭代则可以达到训练编码器的效果,使得训练得到的编码器可以达到很好的提取人脸特征的效果,使得利用提取到的人脸特征重构出的图像,可以与原始图像很接近,差异很小或不存在差异。
另一种实施方式中,本申请实施例在训练特征提取网络的过程中,如图3所示,添加判别器的训练,因此,可选地,基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络,具体包括:
利用判别网络对所述重构图像和所述原始图像进行图像类型的识别,并确定判别损失值;
交替执行下列两个步骤或者仅执行其中的步骤A:
步骤A:利用所述判别损失值和所述差异信息,对所述训练中的特征提取网络的网络参数和所述图像生成网络的网络参数进行调整;
步骤B:利用所述判别损失值,对所述判别网络的网络参数进行调整。
其中,所述步骤A是固定判别器训练生成器的过程。其中,所述生成器,包括编码器和解码器。该过程中,利用基于所述差异信息确定的重构损失值L1和判别损失值L2,调整生成器(即编码器+解码器)的参数。
所述步骤B是固定生成器(即编码器+解码器),训练判别器的过程。其中,仅利用判别损失值L2调整判别器的参数。
也就是说,本申请实施例在训练特征提取网络的过程中,若添加判别器的训练,则分为以下两种训练情况:
第一种训练情况:
将编码器和解码器视为生成对抗网络中的生成器,和判别器协同训练生成器(即编码器+解码器,此时将编解码器视为一个整体,生成对抗网络中调整生成器的网络参数的过程即等同于调整“生成器+编码器”的网络参数)。
其中,可选地,可以基于重构损失值L1和判别损失值L2确定一个总的损失值L,具体如何确定可以灵活设置,例如可以对L1和L2加权求和,将得到的和值作为L,具体本申请实施例不进行限制。
训练过程中:可以先固定生成器(即上述编码器+解码器)的参数,训练判别器。之后,再固定判别器的参数,训练生成器(即上述编码器+解码器)。如此往复,直到满足预设的训练停止条件。
第二种训练情况:按照不添加判别器的方式,先训练“编码器+解码器”,直到满足预设的训练停止条件。再添加判别器一起训练,进行上述第一种训练情况的训练过程,直到满足预设的训练停止条件。
关于判别器的原理说明如下:
将原始图像作为正样本,将重构图像作为负样本,正、负样本同时输入判别器。也就是说,如果编码器提取的人脸特征非常好,那么重构图像基本与原始图像一致,判别器会将重构图像判定为原始图像,否则,如果编码器提取的人脸特征不是很好,那么重构图像就会与原始图像存在较大差别,判别器会识别出重构图像不是原始图像,因此,通过判别器输出的判别损失,就可以对编码器中的参数进行优化,即进行图像识别模型训练。其中,对编码器进行训练时,可以通过多次迭代达到优化编码器的效果,使得训练得到的编码器可以达到很好的提取人脸特征的效果。其中,关于通过判别器输出的判别损失对编码器中的参数进行优化,可以有多种实现方式,例如包括:判别器对输入的图像进行解析,通过前向传播算法得到输出值。通过判别器的输出经过sigmod激活函数与图像标签计算判别损失值。通过反向传播更新编码器与解码器的可训练参数(其中,判别器的输出是模型的逻辑输出,通过sigmoid激活函数,将这个输出约束在0~1之间,则得到判别概率)。
关于判别器的具体实现,例如可以采用生成对抗网络(GAN)实现。在GAN中,通常由生成器G(·),通过潜在Z空间分布的X,生成假图像,由D(·)区分真实数据和合成数据。GAN反演研究的是反向映射,即通过将给定的图像x反演到训练良好的GAN的潜在空间,找到最佳潜伏码z。
在训练过程中,例如,本申请实施例将负样本(重构图像)与正样本(原始图像)分别标记为0和1,并将带有标记的图像送入判别器。判别器对接收到的图像进行解析,提取图像特征,并利用图像特征进行判别,最终输出用于表示重构图像与原始图像差异的判别损失。
若重构图像足够真实,即与原始图像差异很小或不存在差异,则判别器产生的判别损失就会较高。若重构图像与原始图像差异较大,则判别器很容易判别图像的真实性,那么判别器产生的判别损失就会比较低,判别器需利用判别损失指引编码器和生成器进一步优化,整个训练过程是个对抗过程。
在训练判别器时,编码器和解码器的参数不更新,此时优化判别器。当训练编码器和解码器时,判别器的参数则固定,此时由判别器指导编码器和解码器进行优化。若判别器产生的判别损失始终较低,此时需要进一步调整改善编码器与解码器的效果,比如改进编码器与解码器的网络结构,增加训练周期等等。
关于本申请实施例中所述的判别器(正负样本判别模型)中采用的判别模型损失函数,由于是个二值分类问题,可以用对数损失计算,例如,本申请实施例采用如下公式二计算判别损失值:
Figure BDA0003445260240000121
其中,x是真实人脸图像,即原始图像,公式二的前半部分
Figure BDA0003445260240000122
表示人脸图像x先经过编码器编码,后由解码器重构,再送入判别器解析得到的损失值,
Figure BDA0003445260240000123
计算的是对数损失log(·)。公式二的后半部分
Figure BDA0003445260240000124
是直接将原始人脸图像送入判别器计算得到的损失值,最小化判别器的损失函数
Figure BDA0003445260240000125
就是需要让判别器的输出Dv(G(Ev(x)))尽可能预测为0,即识别出假图,让Dv(x)尽可能预测为1,即真图标签。即,对于负样本,损失的表达式就是公式二的前半部分
Figure BDA0003445260240000131
对于正样本,损失的表达式就是公式二的后半部分
Figure BDA0003445260240000132
最终输出的
Figure BDA0003445260240000133
即所述的判别损失。具体地,例如,判别器可以用VGG的图像特征提取网络等图像识别模型实现。
需要说明的是,本申请实施例中,不同过程中所述的训练停止条件可以相同,也可以不同,具体不进行限定。
下面介绍一下在上述训练得到特征提取网络之后,本申请实施例进一步提供的目标识别模型的训练方法。所述目标识别模型包括目标识别子网络和利用所述特征提取网络的训练方法获得的特征提取网络,参见图4,所述目标识别模型的训练方法包括:
S401、输入包含标注信息的训练图像;
所述包含标注信息的训练图像,即有标签的图像,或称有标签数据。
S402、利用所述训练图像对所述目标识别子网络进行训练,得到训练后的目标识别模型。
所述目标识别子网络,即分类器FC。
可选地,利用所述训练图像对所述目标识别子网络进行训练,具体包括:
利用所述特征提取网络对所述训练图像进行特征提取,得到所述训练图像对应的图像特征;
利用所述目标识别子网络对所述训练图像对应的图像特征预测分类标签,并利用预测的分类标签和所述训练图像的标注信息,确定分类损失值;
基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整。
本申请实施例中,可以仅基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整,当然也可以利用所述分类损失值,以及重构损失值和/或判别损失值,确定综合损失值,基于综合损失值,至少对所述目标识别子网络的网络参数进行调整。
其中,所述的综合损失值的确定方式也可以有多种,例如将分类损失值、重构损失值和/或判别损失值加权求和,将得到的和值作为综合损失值(L总),具体各参数的加权系数可以根据实际需要而定,本申请实施例中不进行限制。
因此,可选地,基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述分类损失值,以及重构损失值和/或判别损失值,确定综合损失值;
利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整;
其中,所述重构损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的图像生成网络,对所述包含标注信息的训练图像对应的图像特征进行图像重构,得到所述训练图像对应的重构图像;基于所述包含标注信息的训练图像对应的重构图像和所述包含标注信息的训练图像之间的差异信息,确定重构损失值;
所述判别损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的判别网络,对所述包含标注信息的训练图像对应的重构图像和所述包含标注信息的训练图像进行图像类型的识别,并确定所述包含标注信息的训练图像对应的判别损失值。
本申请实施例在利用无标注人脸图像和/或有标注人脸图像训练得到特征提取网络之后,进一步还可以执行利用有标注人脸图像训练分类器的过程,该过程中主要包括训练分类器,也可以进一步灵活选择是否继续对编码器的参数进行优化。例如,可以同时训练分类器和优化编码器,或者,先将分类器训练到一定程度,再优化编码器。因此,参见图5,有下面三种情况:
一、当仅训练分类器时,一种可选的实施方式中,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,仅对所述目标识别子网络的网络参数进行调整。
二、当同时训练分类器和优化编码器时,一种可选的实施方式中,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
三、当训练到分类器到一定程度,再优化编码器时,一种可选的实施方式中,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络的网络参数进行调整,当满足预设条件时,重新确定所述综合损失值,并利用重新确定的综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
其中,所述预设条件,同上述的训练停止条件,例如可以包括:L3小于预设阈值,或分类器的训练次数达到预设阈值,或分类器的训练时长达到预设时长等等。
关于本申请实施例中所述的分类器(分类模型),例如:该模块是常见的人脸识别模型中的FC层,用于有标签人脸数据,将编码器输出的特征向量进行分类。在有标注训练上,本申请实施例保留传统人脸识别训练中的分类损失(在人脸识别中是softmax),充分利用标注信息。
本申请实施例中分类器所用的损失函数,即分类损失函数,例如可采用softmaxloss或者其他改进的loss,例如arcface或cosface等。
关于分类器采用的分类损失函数,例如可以采用如下公式三所示的softmax损失函数计算得到分类损失:
Figure BDA0003445260240000151
损失函数表示的是一个批次下样本损失的总和,其中,m是当前批次的样本数量,n是类别数,W是训练阶段输出层(也可以叫FC全连接层)进行类别映射的参数矩阵,xi是特征向量,b是偏置项。Wyi表示参数矩阵W的yi类别的参数向量。yi属于{y1,y2…yn},比如第2个类别的参数向量,表示Wy2。偏置项置为0,W和X正则化为1,则有:
Figure BDA0003445260240000161
所以cos(.)是特征向量与分类层的参数矩阵对应的向量的向量积,因此ArcFace如下:
Figure BDA0003445260240000162
其中,m是惩罚因子(需要说明的是,公式五中的m与公式三中的m所表示的含义不同),s是尺度因子,都是固定常量,N表示一个批次的样本数量。
进一步,参见图6,若利用基于所述特征提取网络的训练方法获得的特征提取网络和未经训练的目标识别子网络对目标进行识别,则本申请实施例提供的一种目标识别方法,包括:
S601、将待识别图像输入基于所述特征提取网络的训练方法获得的特征提取网络;
S602、利用所述特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给目标识别子网络;
S603、通过所述目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
或者,进一步,参见图7,若利用基于所述目标识别模型的训练方法获得的目标识别模型(其中的特征提取网络和目标识别子网络都是经过训练的)对目标进行识别,则本申请实施例提供的一种目标识别方法,包括:
S701、将待识别图像输入基于所述目标识别模型的训练方法获得的目标识别模型;
S702、利用所述目标识别模型中的特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给所述目标识别模型中的目标识别子网络;
S703、通过所述目标识别模型中的目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
下面介绍一下本申请实施例提供的装置。与上述方法重复的解释、举例等后续不再赘述。
参见图8,本申请实施例提供的一种计算设备,也可以称为是一种图像处理装置,包括:
存储器11,用于存储程序指令;
处理器12,用于调用所述存储器11中存储的程序指令,按照获得的程序执行上述本申请实施例提供的任一所述的方法。具体地:
若执行特征提取网络的训练方法,则处理器12用于调用所述存储器11中存储的程序指令,按照获得的程序执行:
利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;
利用图像生成网络对所述图像特征进行图像重构,得到重构图像;
基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络。
可选地,处理器12,还用于调用所述存储器11中存储的程序指令,按照获得的程序执行:
基于所述重构图像和所述原始图像之间的差异信息,调整所述图像生成网络的网络参数。
可选地,基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络,具体包括:
利用判别网络对所述重构图像和所述原始图像进行图像类型的识别,并确定判别损失值;
交替执行下列两个步骤或者仅执行其中的步骤A:
步骤A:利用所述判别损失值和所述差异信息,对所述训练中的特征提取网络的网络参数和所述图像生成网络的网络参数进行调整;
步骤B:利用所述判别损失值,对所述判别网络的网络参数进行调整。
若执行目标识别模型的训练方法,则处理器12用于调用所述存储器11中存储的程序指令,按照获得的程序执行:
输入包含标注信息的训练图像;
利用所述训练图像对所述目标识别子网络进行训练,得到训练后的目标识别模型。
可选地,利用所述训练图像对所述目标识别子网络进行训练,具体包括:
利用所述特征提取网络对所述训练图像进行特征提取,得到所述训练图像对应的图像特征;
利用所述目标识别子网络对所述训练图像对应的图像特征预测分类标签,并利用预测的分类标签和所述训练图像的标注信息,确定分类损失值;
基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整。
可选地,基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述分类损失值,以及重构损失值和/或判别损失值,确定综合损失值;
利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整;
其中,所述重构损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的图像生成网络,对所述训练图像对应的图像特征进行图像重构,得到所述训练图像对应的重构图像;基于所述训练图像对应的重构图像和所述训练图像之间的差异信息,确定重构损失值;
所述判别损失值是采用如下方式确定的:利用基于所述特征提取网络的训练方法处理后的判别网络,对所述训练图像对应的重构图像和所述训练图像进行图像类型的识别,并确定所述训练图像对应的判别损失值。
可选地,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,仅对所述目标识别子网络的网络参数进行调整。
可选地,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
可选地,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络的网络参数进行调整,当满足预设条件时,重新确定所述综合损失值,并利用重新确定的综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
若执行目标识别方法,则处理器12用于调用所述存储器11中存储的程序指令,按照获得的程序执行:
将待识别图像输入基于所述特征提取网络的训练方法获得的特征提取网络;
利用所述特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给目标识别子网络;
通过所述目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
或者,若执行目标识别方法,则处理器12用于调用所述存储器11中存储的程序指令,按照获得的程序执行:
将待识别图像输入基于所述目标识别模型的训练方法获得的目标识别模型;
利用所述目标识别模型中的特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给所述目标识别模型中的目标识别子网络;
通过所述目标识别模型中的目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
处理器12可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)。
本申请实施例提供的计算设备,具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储本申请实施例提供的任一所述方法的程序。
处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的任一所述方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是(但不限于)电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供了一种计算机可读存储介质,用于储存为上述本申请实施例提供的装置所用的计算机程序指令,其包含用于执行上述本申请实施例提供的任一方法的程序。所述计算机可读存储介质,可以是非暂时性计算机可读介质。
所述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (13)

1.一种特征提取网络的训练方法,其特征在于,所述特征提取网络用于对图像的特征进行提取,所述方法包括:
利用训练中的特征提取网络对原始图像进行特征提取,得到图像特征;
利用图像生成网络对所述图像特征进行图像重构,得到重构图像;
基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述重构图像和所述原始图像之间的差异信息,调整所述图像生成网络的网络参数。
3.根据权利要求1所述的方法,其特征在于,基于所述重构图像和所述原始图像之间的差异信息,调整所述训练中的特征提取网络的网络参数,得到训练后的特征提取网络,具体包括:
利用判别网络对所述重构图像和所述原始图像进行图像类型的识别,并确定判别损失值;
交替执行下列两个步骤或者仅执行其中的步骤A:
步骤A:利用所述判别损失值和所述差异信息,对所述训练中的特征提取网络的网络参数和所述图像生成网络的网络参数进行调整;
步骤B:利用所述判别损失值,对所述判别网络的网络参数进行调整。
4.一种目标识别模型的训练方法,其特征在于,所述目标识别模型包括目标识别子网络和基于权利要求1-3任一项所述方法获得的特征提取网络,所述目标识别模型的训练方法包括:
输入包含标注信息的训练图像;
利用所述训练图像对所述目标识别子网络进行训练,得到训练后的目标识别模型。
5.根据权利要求4所述的方法,其特征在于,利用所述训练图像对所述目标识别子网络进行训练,具体包括:
利用所述特征提取网络对所述训练图像进行特征提取,得到所述训练图像对应的图像特征;
利用所述目标识别子网络对所述训练图像对应的图像特征预测分类标签,并利用预测的分类标签和所述训练图像的标注信息,确定分类损失值;
基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整。
6.根据权利要求5所述的方法,其特征在于,基于所述分类损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述分类损失值,以及重构损失值和/或判别损失值,确定综合损失值;
利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整;
其中,所述重构损失值是采用如下方式确定的:利用基于权利要求2或3所述方法处理后的图像生成网络,对所述训练图像对应的图像特征进行图像重构,得到所述训练图像对应的重构图像;基于所述训练图像对应的重构图像和所述训练图像之间的差异信息,确定重构损失值;
所述判别损失值是采用如下方式确定的:利用基于权利要求3所述方法处理后的判别网络,对所述训练图像对应的重构图像和所述训练图像进行图像类型的识别,并确定所述训练图像对应的判别损失值。
7.根据权利要求6所述的方法,其特征在于,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
8.根据权利要求6所述的方法,其特征在于,利用所述综合损失值,至少对所述目标识别子网络的网络参数进行调整,具体包括:
利用所述综合损失值,对所述目标识别子网络的网络参数进行调整,当满足预设条件时,重新确定所述综合损失值,并利用重新确定的综合损失值,对所述目标识别子网络和所述特征提取网络的网络参数进行调整。
9.一种目标识别方法,其特征在于,包括:
将待识别图像输入基于权利要求1-3任一项所述方法获得的特征提取网络;
利用所述特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给目标识别子网络;
通过所述目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
10.一种目标识别方法,其特征在于,包括:
将待识别图像输入基于权利要求4-8任一项所述方法获得的目标识别模型;
利用所述目标识别模型中的特征提取网络对所述待识别图像进行特征提取,得到图像特征并输出给所述目标识别模型中的目标识别子网络;
通过所述目标识别模型中的目标识别子网络对输入的图像特征进行识别,确定所述待识别图像的目标识别结果。
11.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至10任一项所述的方法。
12.一种用于计算机的计算机程序产品,其特征在于,包括软件代码部分,当所述产品在所述计算机上运行时,所述软件代码部分用于执行根据权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行权利要求1至10任一项所述的方法。
CN202111646238.8A 2021-12-30 2021-12-30 目标识别模型训练、目标识别方法及装置 Pending CN114358249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646238.8A CN114358249A (zh) 2021-12-30 2021-12-30 目标识别模型训练、目标识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646238.8A CN114358249A (zh) 2021-12-30 2021-12-30 目标识别模型训练、目标识别方法及装置

Publications (1)

Publication Number Publication Date
CN114358249A true CN114358249A (zh) 2022-04-15

Family

ID=81102808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646238.8A Pending CN114358249A (zh) 2021-12-30 2021-12-30 目标识别模型训练、目标识别方法及装置

Country Status (1)

Country Link
CN (1) CN114358249A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128954A (zh) * 2022-12-30 2023-05-16 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN117809139A (zh) * 2024-02-29 2024-04-02 苏州元脑智能科技有限公司 合成图像识别的网络训练方法以及合成图像识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128954A (zh) * 2022-12-30 2023-05-16 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN116128954B (zh) * 2022-12-30 2023-12-05 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN117809139A (zh) * 2024-02-29 2024-04-02 苏州元脑智能科技有限公司 合成图像识别的网络训练方法以及合成图像识别方法
CN117809139B (zh) * 2024-02-29 2024-05-03 苏州元脑智能科技有限公司 合成图像识别的网络训练方法以及合成图像识别方法

Similar Documents

Publication Publication Date Title
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN116171473A (zh) 用于视听事件定位的双模态关系网络
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN111160350A (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN114358249A (zh) 目标识别模型训练、目标识别方法及装置
JP2023500222A (ja) 系列マイニングモデルの訓練方法、系列データの処理方法、系列マイニングモデルの訓練装置、系列データの処理装置、コンピュータ機器、及びコンピュータプログラム
Lin et al. Es-imagenet: A million event-stream classification dataset for spiking neural networks
CN111242948A (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN113011531A (zh) 分类模型训练方法、装置、终端设备及存储介质
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN117690178A (zh) 一种基于计算机视觉的人脸图像识别方法与***
CN116630727B (zh) 模型训练方法、深伪图像检测方法、装置、设备及介质
CN111652320B (zh) 一种样本分类方法、装置、电子设备及存储介质
CN111858999B (zh) 一种基于分段困难样本生成的检索方法及装置
CN113569081A (zh) 图像识别方法、装置、设备及存储介质
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别***
CN114120245B (zh) 基于深度神经网络的人群图像分析方法、装置以及设备
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN111582404A (zh) 内容分类方法、装置及可读存储介质
Nida et al. Bag of deep features for instructor activity recognition in lecture room
CN113869193B (zh) 行人再识别模型的训练方法、行人再识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination