CN111680701A

CN111680701A - 图像识别模型的训练方法、装置及图像识别方法、装置

Info

Publication number: CN111680701A
Application number: CN202010376758.0A
Authority: CN
Inventors: 王博; 谢存煌
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-18
Anticipated expiration: 2040-05-07
Also published as: CN111680701B

Abstract

本申请公开了一种图像识别模型的训练方法、装置及图像识别方法、装置，所述图像识别模型的训练方法包括：对原始图像进行特征提取，得到原始图像特征图；基于原始图像特征图，利用对抗混合网络对原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；利用图像识别模型的共享权重网络，确定原始图像的识别结果及对应的第一损失函数值，以及交换图像的识别结果及对应的第二损失函数值；根据交换图像权重对第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对图像识别模型的参数进行优化。本申请采用弱监督的方式进行区域混合，引入目标监督信息加快模型收敛，提高了目标区域的定位能力以及模型的识别能力。

Description

图像识别模型的训练方法、装置及图像识别方法、装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种图像识别模型的训练方法、装置及图像识别方法、装置。

背景技术

近两年来，随着细粒度图像识别技术的发展，越来越多的识别工作通过在训练过程中构建难样本来进行学习训练，迫使网络自动学习更难以区分的细节特征，并以无监督+对抗混合的脉络优化发展。无监督阶段即将输入神经网络的图片进行随机的区域覆盖，对抗混合阶段即将输入神经网络的图片或者网络中的特征图进行部分区域切分互换。

目前通过构建难样本进行数据增强的方法在细粒度图像识别领域得到广泛应用，其中CutMix:Regularization Strategy to Train Strong Classifiers withLocalizable Features(CutMix数据增强：基于正则化策略训练可定位特征的强分类器)是2019年提出的一篇基于对抗混合进行区域难样本增强的方法，其利用随机Beta分布(贝塔分布)的参数确定裁剪互换区域的宽高，混合后输入网络进行前向预测，计算损失函数时，以该参数叠加类别权重损失，用这种方式迫使网络提升识别能力。

然而，发明人发现，现有的细粒度识别方法会导致识别模型存在波动、收敛效率低，且会增加模型对显著区域进行定位的学习难度。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像识别模型的训练方法、装置及图像识别方法、装置。

依据本申请的第一方面，提供了一种图像识别模型的训练方法，包括：

对原始图像进行特征提取，得到原始图像特征图；

基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；

利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；

根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。

可选地，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：

获取图像识别模型的注意力模块对所述原始图像特征图进行处理得到的原始图像的注意力分割图；

基于所述注意力分割图，利用所述对抗混合网络对所述原始图像进行区域交换处理。

可选地，所述原始图像的数量为多个，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：

基于所述注意力分割图，对各原始图像进行定位标记，确定各原始图像中的目标区域；

根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域；

将所述两个目标原始图像之间的交换区域进行交换，得到所述交换图像。

可选地，所述目标区域包括全局目标区域和局部目标区域，所述根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域包括：

根据各原始图像的全局目标区域，确定两个目标原始图像之间的全局目标交集区域；

根据所述全局目标交集区域，确定两个目标原始图像之间的局部目标交集区域；

根据所述局部目标交集区域确定所述交换区域。

根据两个目标原始图像的全局目标区域的面积和所述交换区域的面积，确定所述交换图像权重。

可选地，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：

利用共享权重网络的卷积层，对所述交换图像进行特征提取，得到交换图像特征图；

利用共享权重网络的池化层，对所述交换图像特征图进行全局池化处理，得到全局池化特征；

利用共享权重网络的激活层，对所述全局池化特征进行非线性处理，得到所述交换图像的识别结果，根据所述识别结果确定所述第二损失函数值。

可选地，所述原始图像特征图包括第一全局特征和第二全局特征，所述交换图像特征图包括第一局部特征和第二局部特征，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：

利用所述图像识别模型的共享权重网络，确定所述第一全局特征的识别结果及对应的第一全局损失函数值，以及确定所述第二全局特征的识别结果及对应的第二全局损失函数值；

利用所述图像识别模型的共享权重网络，确定所述第一局部特征的识别结果及对应的第一局部损失函数值，以及确定所述第二局部特征的识别结果及对应的第二局部损失函数值；

将所述第一全局特征和所述第一局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第一联合损失函数值，以及将所述第二全局特征和所述第二局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第二联合损失函数值。

可选地，所述根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合包括：

根据所述交换图像权重对第一全局损失函数值和第二全局损失函数值进行融合，得到第一融合损失函数值；

根据所述交换图像权重对第一局部损失函数值和第二局部损失函数值进行融合，得到第二融合损失函数值；

根据所述交换图像权重对第一联合损失函数值和第二联合损失函数值进行融合，得到第三融合损失函数值；

将所述第一融合损失函数值、第二融合损失函数值以及第三融合损失函数值进行融合，得到融合后的损失函数值。

依据本申请的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

利用图像识别模型的卷积层，对所述待识别图像进行特征提取，得到全局特征和局部特征；

利用图像识别模型的池化层，对所述全局特征和所述局部特征进行全局池化处理，得到全局池化后的全局特征和局部特征；

将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练方法训练得到。

依据本申请的第三方面，提供了一种图像识别模型的训练装置，包括：

第一提取单元，用于对原始图像进行特征提取，得到原始图像特征图；

交换单元，用于基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；

确定单元，用于利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；

优化单元，用于根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。

可选地，所述交换单元还用于：

可选地，所述原始图像的数量为多个，所述交换单元还用于：

可选地，所述目标区域包括全局目标区域和局部目标区域，所述交换单元还用于：

根据所述局部目标交集区域确定所述交换区域。

可选地，所述交换单元还用于：

可选地，所述确定单元还用于：

可选地，所述原始图像特征图包括第一全局特征和第二全局特征，所述交换图像特征图包括第一局部特征和第二局部特征，所述确定单元还用于：

可选地，所述优化单元还用于：

依据本申请的第四方面，提供了一种图像识别装置，包括：

获取单元，用于获取待识别图像；

第二提取单元，用于利用图像识别模型的卷积层，对所述待识别图像进行特征提取，得到全局特征和局部特征；

池化单元，用于利用图像识别模型的池化层，对所述全局特征和所述局部特征进行全局池化处理，得到全局池化后的全局特征和局部特征；

识别单元，用于将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练装置训练得到。

依据本申请的第五方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的图像识别模型的训练方法，或者如上述所述的图像识别方法。

依据本申请的第六方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的图像识别模型的训练方法，或者如上述所述的图像识别方法。

由上述可知，本申请的技术方案，通过对原始图像进行特征提取，得到原始图像特征图；基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。本申请采用弱监督的方式进行区域混合，引入目标监督信息加快模型收敛，提高了目标区域的定位能力以及模型识别能力。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的图像识别模型的训练方法的流程示意图；

图2示出了根据本申请一个实施例的由原始图像生成交换图像的示例图；

图3示出了根据本申请一个实施例的图像识别模型的训练流程示意图；

图4示出了根据本申请一个实施例的图像识别方法的流程示意图；

图5示出了根据本申请一个实施例的图像识别流程示意图；

图6示出了根据本申请一个实施例的图像识别模型的训练装置的结构示意图；

图7示出了根据本申请一个实施例的图像识别装置的结构示意图；

图8示出了根据本申请一个实施例的电子设备的结构示意图；

图9示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

现有的细粒度识别方法虽然能使用对抗混合的方式进行难样本构建，但依然面临一些问题，例如随机混合图像的方式会导致非目标区域的混合，利用这部分非目标区域混合的参数分配损失函数的权重，会导致模型存在波动、收敛效率低，且会增加模型对显著区域进行定位的学习难度。

基于此，本申请实施例提供了一种图像识别模型的训练方法，如图1所示，所述图像识别模型的训练方法包括如下的步骤S110至步骤S140：

步骤S110，对原始图像进行特征提取，得到原始图像特征图。

具体实施时，先获取一定数量的原始图像，利用卷积神经网络的卷积层对原始图像进行特征提取，进而得到原始图像特征图。这里的卷积神经网络可以采用谷歌研发的Inception-ResNet-v2网络，Inception-ResNet-v2是一个在ILSVRC(ImageNet LargeScale Visual Recogition Challenge，ImageNet大规模视觉识别竞赛)图像分类基准上取得顶尖准确率的卷积神经网络，是早期发布的Inception v3网络的变体，通过借助ResNet残差网络进一步提升图像分类水准。当然本领域技术人员也可以根据实际情况选取其他类型的卷积神经网络，在此不一一列举。

步骤S120，基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重。

为了提高模型对难样本的区分能力，本申请实施例在基本的卷积神经网络的基础上引入了对抗混合网络来生成难样本。具体地，基于上述得到的原始图像特征图，利用对抗混合网络对任意两个原始图像对应的特征图中的某些目标区域或者随机选取的区域进行交换混合处理，进而生成交换图像，同时根据交换区域的面积确定交换图像对应的权重，作为后续计算损失函数的基础。

对于原始图像的组合方式，本领域技术人员可以根据实际情况灵活设置，例如，可以随机对当前批处理中的图像进行两两组合，对同一组的两张图像进行区域交换处理，进而生成一组交换图像及对应的交换图像权重。例如，原始图像A和原始图像B为一组，将原始图像A中的某一区域a1与原始图像B中的某一区域b1进行互换，进而生成一组交换图像A'(A-a1+b1)和B'(B-b1+a1)。

步骤S130，利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值。

本申请实施例中的原始图像是指带有类别标签的训练图像，利用模型的共享权重网络对原始图像进行特征提取和识别，可以得到原始图像的识别结果即原始图像的预测类别，根据原始图像的预测类别与原始图像事先标记好的类别标签进行比较，进而可以得到原始图像对应的第一损失函数值。对于基于原始图像生成的交换图像，同样利用模型的共享权重网络对交换图像进行特征提取和识别，可以得到交换图像的识别结果即交换图像的预测类别，将交换图像的预测类别与交换图像对应的已标记好的类别标签进行比较，进而可以得到交换图像对应的第二损失函数值。这里的共享权重网络即指上述的卷积神经网络。

将原始图像中的某些区域进行互换后，生成的交换图像对应的类别标签也会根据交换区域发生变化，因此对于交换图像的类别标签可以根据交换区域的比例确定，例如原始图像A类别标签为1，原始图像B类别标签为2，交换区域b1(来自原始图像B)占交换图像A'的1/3，则交换图像A'的类别标签为1*2/3+2*1/3＝4/3。

步骤S140，根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。

为了使最终训练好的模型除了能够对原始图像具备较强的识别能力，还能对交换图像即难样本同样具有较强的识别能力，因此本申请实施例在得到原始图像的第一损失函数值以及交换图像的第二损失函数值后，可以根据上述得到的交换图像权重对两个损失函数值进行融合处理，根据融合后得到的损失函数值对模型的参数进行优化。

本申请实施例中的交换图像权重表征了交换区域在原始图像中所占的比例大小，交换权重越大，交换区域在原始图像中所占的比例越大，相应地赋予交换图像对应的损失函数较高的权值，而赋予原始图像对应的损失函数较小的权值。

由此可见，图1所示的图像识别模型的训练方法，通过采用弱监督的方式进行区域混合，引入目标监督信息加快了模型的收敛速度，提高了目标区域的定位能力以及模型的识别能力。相比于强监督学习，弱监督学习降低了数据标注的成本，无需获得全部真值标签这样的强监督信息也能达到较好的学习效果，而相比于无监督学习，弱监督学习使得模型的学习难度显著降低。

在本申请的一个实施例中，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：获取图像识别模型的注意力模块对所述原始图像特征图进行处理得到的原始图像的注意力分割图；基于所述注意力分割图，利用所述对抗混合网络对所述原始图像进行区域交换处理。

具体实施时，如前所述，现有技术中的细粒度图像识别方法在生成难样本时，由于采用随机混合图像的方式会导致非目标区域的混合，利用这部分非目标区域混合后的参数分配损失函数的权重，会导致模型存在波动、收敛效率低。为了解决上述问题，本申请实施例引入了注意力模块来确定目标区域，避免非目标区域的混合对模型训练效率造成的影响。注意力(Attention)机制模仿了生物观察行为的内部过程，是一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于图像处理任务领域。

具体地，本申请实施例利用注意力模块对原始图像特征图进行处理，得到原始图像中值得被关注或者想要关注的目标区域，即注意力分割图，之后基于该注意力分割图，利用上述对抗混合网络对原始图像进行区域交换处理，进而可以使得到的交换区域更有目的性和指向性，避免非目标区域的交换混合降低模型的训练效率。

在本申请的一个实施例中，所述原始图像的数量为多个，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：基于所述注意力分割图，对各原始图像进行定位标记，确定各原始图像中的目标区域；根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域；将所述两个目标原始图像之间的交换区域进行交换，得到所述交换图像。

本申请实施例在利用对抗混合网络对原始图像进行区域交换处理时，首先利用上述得到的注意力分割图对原始图像进行定位标记，确定各原始图像中的目标区域，得到多个带矩形框标记的原始图像，之后将多个原始图像随机两两组合，对于其中的任意两个目标原始图像，根据两个目标原始图像中的目标区域确定两个目标原始图像之间的交换区域，最后将两个目标原始图像之间的交换区域进行交换，得到两个目标原始图像对应的两个交换图像。

在本申请的一个实施例中，所述目标区域包括全局目标区域和局部目标区域，所述根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域包括：根据各原始图像的全局目标区域，确定两个目标原始图像之间的全局目标交集区域；根据所述全局目标交集区域，确定两个目标原始图像之间的局部目标交集区域；根据所述局部目标交集区域确定所述交换区域。

具体实施时，上述目标区域可以包括全局目标区域和局部目标区域，在确定两个目标原始图像之间的交换区域时，可以先进行全局目标区域的交集选取，再在全局目标区域的交集区域内随机选取一个局部目标区域进行二次交集的处理，得到局部目标交集区域。上述交集处理过程均以各自区域的中心点作为匹配点，最终获得交换区域。如图2所示，提供了一种由原始图像生成交换图像的示例图，图2中的白色区域即为最终确定的交换区域，最后对原始图像中对应的交换区域分别进行裁切互换，即可得到交换图像。

在本申请的一个实施例中，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：根据两个目标原始图像的全局目标区域的面积和所述交换区域的面积，确定所述交换图像权重。

在确定交换图像权重时，可以采用两个目标原始图像的全局目标区域的面积和交换区域的面积来确定，具体地，对于目标原始图像a和目标原始图像b，目标原始图像a的全局目标区域为S_a，目标原始图像b的全局目标区域为S_b，交换区域的面积为S_c，则原始图像a对应的交换图像权重λ_a和原始图像b对应的交换图像权重λ_a分别为：

λ_a＝s_c/s_a， (1)

λ_b＝s_c/s_b， (2)

在本申请的一个实施例中，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：利用共享权重网络的卷积层，对所述交换图像进行特征提取，得到交换图像特征图；利用共享权重网络的池化层，对所述交换图像特征图进行全局池化处理，得到全局池化特征；利用共享权重网络的激活层，对所述全局池化特征进行非线性处理，得到所述交换图像的识别结果，根据所述识别结果确定所述第二损失函数值。

本申请实施例中的共享权重网络即常用的卷积神经网络结构，如ResNet50残差网络、Inception v4(一种卷积神经网络，暂无中文译名)等，由卷积层、池化层以及激活层等组成，其中卷积层主要用于提取图像的特征图，池化层则用于降低各个特征图的维度，但可以保留大部分重要的信息，压缩数据和参数的量，减小过拟合。池化层主要分为全局平均池化层(Global Average Pooling，简称GAP)和最大池化层(Max Pooling)，平均池化层对应的是更加平滑的特征，最大池化层对应的是更显著的特征。激活层用于将卷积层的线性计算结果进行非线性映射，通过给神经元引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

具体实施时，本申请实施例利用共享权重网络的卷积层，对交换图像进行特征提取，得到了交换图像特征图，之后利用全局平均池化层，对交换图像特征图进行全局平均池化处理，得到全局池化特征，最后利用共享权重网络的激活层，对全局池化特征进行非线性映射，得到最终的交换图像识别结果，根据识别结果确定交换图像对应的第二损失函数值。

在本申请的一个实施例中，所述原始图像特征图包括第一全局特征和第二全局特征，所述交换图像特征图包括第一局部特征和第二局部特征，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：利用所述图像识别模型的共享权重网络，确定所述第一全局特征的识别结果及对应的第一全局损失函数值，以及确定所述第二全局特征的识别结果及对应的第二全局损失函数值；利用所述图像识别模型的共享权重网络，确定所述第一局部特征的识别结果及对应的第一局部损失函数值，以及确定所述第二局部特征的识别结果及对应的第二局部损失函数值；将所述第一全局特征和所述第一局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第一联合损失函数值，以及将所述第二全局特征和所述第二局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第二联合损失函数值。

为了能够使训练后的模型对图像的全局信息以及局部信息均具有较高的识别能力，同时让模型学习到的全局信息和局部信息处于一个范围内，避免图像背景区域等部分的特征对模型训练造成干扰，本申请实施例中原始图像对应的第一损失函数值以及交换图像对应的第二损失函数值均融合了以下三个维度的损失函数值：基于局部特征得到的局部损失函数值、基于全局特征得到的全局损失函数值，基于拼接后的局部特征和全局特征得到的联合损失函数值。通过融合三个维度的损失函数值来优化模型参数，提高模型的识别能力和泛化能力。

在本申请的一个实施例中，所述根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合包括：根据所述交换图像权重对第一全局损失函数值和第二全局损失函数值进行融合，得到第一融合损失函数值；根据所述交换图像权重对第一局部损失函数值和第二局部损失函数值进行融合，得到第二融合损失函数值；根据所述交换图像权重对第一联合损失函数值和第二联合损失函数值进行融合，得到第三融合损失函数值；将所述第一融合损失函数值、第二融合损失函数值以及第三融合损失函数值进行融合，得到融合后的损失函数值。

具体实施时，在根据交换图像权重对原始图像对应的第一损失函数值以及交换图像对应的第二损失函数值进行融合时，可以根据以下三个维度分别进行融合：(1)全局特征维度：根据交换图像权重，将第一全局损失函数值和第二全局损失函数值进行融合，得到第一融合损失函数值Loss1；(2)局部特征维度：根据交换图像权重，将第一局部损失函数值和第二局部损失函数值进行融合，得到第二融合损失函数值Loss2；(3)联合特征维度：根据交换图像权重，将第一联合损失函数值和第二联合损失函数值进行融合，得到第三融合损失函数值Loss3。最后将三个维度的融合损失函数Loss1、Loss2和Loss3进行融合处理如加权融合等，作为最终的损失函数值，对模型参数进行优化。

举例说明，对于原始图像a，其对应的交换图像权重为λ_a，在根据交换图像权重确定原始图像a在各个维度的融合损失函数时，可以采用如下公式：

Loss1＝λ_a*交换图像的全局Loss+(1-λ_a)*原始图像的全局Loss；

Loss2＝λ_a*交换图像的局部Loss+(1-λ_a)*原始图像的局部Loss；

Loss3＝λ_a*交换图像的联合Loss+(1-λ_a)*原始图像的联合Loss。

如图3所示，本申请实施例提供了一种图像识别模型的训练流程示意图。首先在第一次输入原始图像时，将图像直接输入图像识别模型的共享权重网络进行特征提取，之后会进行两个分支的处理，一个分支是利用共享权重网络的池化层将提取到的原始图像特征包括全局特征和局部特征分别进行全局平均池化处理，根据全局池化后的全局特征和局部特征可以分别得到原始图像对应的全局损失函数值和局部损失函数值，根据拼接后全局特征和局部特征可以得到原始图像对应的联合损失函数值。另一个分支是基于原始图像特征，利用注意力模块得到原始图像的注意力分割图，同样包括全局注意力分割图和局部注意力分割图，基于注意力分割图，利用对抗混合网络对原始图像进行定位标记，确定交换区域，进而得到交换图像及对应的交换图像权重。之后对交换图像同样利用共享权重网络进行特征提取、全局池化等处理，进而得到交换图像对应的全局损失函数值、局部损失函数值和联合损失函数值。最后根据交换图像权重对原始图像和交换图像的损失函数值进行融合，得到融合后的损失函数值，根据该融合后的损失函数值对模型参数进行优化。

本申请实施例提供了一种图像识别方法，如图4所示，所述图像识别方法包括如下的步骤S410至步骤S440：

步骤S410，获取待识别图像。

在进行图像识别时，可以先获取待识别图像，作为后续图像识别模型的输入。

步骤S420，利用图像识别模型的卷积层，对所述待识别图像进行特征提取，得到全局特征和局部特征。

图像识别模型的卷积层主要用于提取图像的特征图，因此本申请实施例在得到待识别图像后，利用图像识别模型的卷积层，对待识别图像进行特征提取，得到待识别图像的全局特征和局部特征。

步骤S430，利用图像识别模型的池化层，对所述全局特征和所述局部特征进行全局池化处理，得到全局池化后的全局特征和局部特征。

图像识别模型的池化层主要用于降低各个特征图的维度，但可以保留大部分重要的信息，压缩数据和参数的量，减小过拟合。池化层主要分为全局平均池化层(GlobalAverage Pooling，简称GAP)和最大池化层(Max Pooling)，平均池化层对应的是更加平滑的特征，最大池化层对应的是更显著的特征。本申请实施例在得到待识别图像的全局特征和局部特征后，利用图像识别模型的池化层，对全局特征和局部特征进行全局平均池化处理，得到全局池化后的全局特征和局部特征。

步骤S440，将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练方法训练得到。

图像识别模型的激活层用于将卷积层的线性计算结果进行非线性映射，通过给神经元引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。本申请实施例将全局池化后的全局特征和局部特征进行特征拼接，利用图像识别模型的激活层对拼接后的特征进行非线性处理，得到待识别图像的识别结果。

在一个具体实施例中，图像识别模型通过下述的图像识别模型的训练方法训练得到：

对原始图像进行特征提取，得到原始图像特征图；基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。通过上述图像识别方法，能够对图像进行细粒度识别同时能够获得较高的识别精度。

如图5所示，本申请实施例提供了一种图像识别流程示意图。首先获取待识别图像，利用图像识别模型的卷积层，对待识别图像进行特征提取，得到待识别图像的全局特征和局部特征，之后利用图像识别模型的池化层，对全局特征和局部特征进行全局平均池化处理，得到全局池化后的全局特征和局部特征。将全局池化后的全局特征和局部特征进行特征拼接，利用图像识别模型的激活层对拼接后的特征进行非线性处理，得到待识别图像的识别结果。

为了验证本申请提供的图像识别模型的识别效果，在商品1万类开集检索数据集中进行了测试，测试结果如表1所示。表1中的Baseline为基准模型，本申请采用的是谷歌团队研发的Inception-ResNet-v2，CutMix为现有技术中采用的一种数据增强方法。模型性能的评价指标采用Rank1和Rank5准确度指标，Rank1准确度通过如下方式计算：1)计算数据集中每个输入图像的类别标签的概率；2)确定真实标签是否等于具有最大概率的预测类别标签；3)计算步骤2)为真的次数，然后除以总的测试图像数量。Rank5准确度通过如下方式计算：1)计算数据集中每个输入图像的类别标签的概率。2)按降序对预测的类别标签概率进行排序；3)确定真实标签是否存在于步骤2)的前5个预测标签中；4)计算步骤3)为真的次数，然后除以总的测试图像数量。

根据表1可以看出，本申请提出的图像识别方法相比现有技术中的识别方法取得了更优的识别效果。

表1

算法	Rank1	Rank5
			Baseline	0.87327	0.94970
CutMix	0.88251	0.95407
			本申请	0.90214	0.97237

本申请实施例提供了一种图像识别模型的训练装置600，如图6所示，所述图像识别模型的训练装置600包括：第一提取单元610、交换单元620、确定单元630和优化单元640。

本申请实施例的第一提取单元610，用于对原始图像进行特征提取，得到原始图像特征图。

本申请实施例的交换单元620，用于基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重。

本申请实施例的确定单元630，用于利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值。

本申请实施例的优化单元640，用于根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。

由此可见，图6所示的图像识别模型的训练装置，通过采用弱监督的方式进行区域混合，引入目标监督信息加快了模型的收敛速度，提高了目标区域的定位能力以及模型的识别能力。

在本申请的一个实施例中，所述交换单元620还用于：获取图像识别模型的注意力模块对所述原始图像特征图进行处理得到的原始图像的注意力分割图；基于所述注意力分割图，利用所述对抗混合网络对所述原始图像进行区域交换处理。

在本申请的一个实施例中，所述原始图像的数量为多个，所述交换单元620还用于：基于所述注意力分割图，对各原始图像进行定位标记，确定各原始图像中的目标区域；根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域；将所述两个目标原始图像之间的交换区域进行交换，得到所述交换图像。

在本申请的一个实施例中，所述目标区域包括全局目标区域和局部目标区域，所述交换单元620还用于：根据各原始图像的全局目标区域，确定两个目标原始图像之间的全局目标交集区域；根据所述全局目标交集区域，确定两个目标原始图像之间的局部目标交集区域；根据所述局部目标交集区域确定所述交换区域。

在本申请的一个实施例中，所述交换单元620还用于：根据两个目标原始图像的全局目标区域的面积和所述交换区域的面积，确定所述交换图像权重。

在本申请的一个实施例中，所述确定单元630还用于：利用共享权重网络的卷积层，对所述交换图像进行特征提取，得到交换图像特征图；利用共享权重网络的池化层，对所述交换图像特征图进行全局池化处理，得到全局池化特征；利用共享权重网络的激活层，对所述全局池化特征进行非线性处理，得到所述交换图像的识别结果，根据所述识别结果确定所述第二损失函数值。

在本申请的一个实施例中，所述原始图像特征图包括第一全局特征和第二全局特征，所述交换图像特征图包括第一局部特征和第二局部特征，所述确定单元630还用于：利用所述图像识别模型的共享权重网络，确定所述第一全局特征的识别结果及对应的第一全局损失函数值，以及确定所述第二全局特征的识别结果及对应的第二全局损失函数值；利用所述图像识别模型的共享权重网络，确定所述第一局部特征的识别结果及对应的第一局部损失函数值，以及确定所述第二局部特征的识别结果及对应的第二局部损失函数值；将所述第一全局特征和所述第一局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第一联合损失函数值，以及将所述第二全局特征和所述第二局部特征进行拼接，利用所述图像识别模型的共享权重网络对拼接后的特征进行识别，得到拼接后的特征的识别结果及对应的第二联合损失函数值。

在本申请的一个实施例中，所述优化单元640还用于：根据所述交换图像权重对第一全局损失函数值和第二全局损失函数值进行融合，得到第一融合损失函数值；根据所述交换图像权重对第一局部损失函数值和第二局部损失函数值进行融合，得到第二融合损失函数值；根据所述交换图像权重对第一联合损失函数值和第二联合损失函数值进行融合，得到第三融合损失函数值；将所述第一融合损失函数值、第二融合损失函数值以及第三融合损失函数值进行融合，得到融合后的损失函数值。

本申请实施例还提供了一种图像识别装置700，如图7所示，所述图像识别装置包括：获取单元710、第二提取单元720、池化单元730和识别单元740。

本申请实施例的获取单元710，用于获取待识别图像。

本申请实施例的第二提取单元720，用于利用图像识别模型的卷积层，对所述待识别图像进行特征提取，得到全局特征和局部特征。

本申请实施例的池化单元730，用于利用图像识别模型的池化层，对所述全局特征和所述局部特征进行全局池化处理，得到全局池化后的全局特征和局部特征。

本申请实施例的识别单元740，用于将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练装置训练得到。

图像识别模型的激活层用于将卷积层的线性计算结果进行非线性映射，通过给神经元引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。本申请实施例将全局池化后的全局特征和局部特征进行特征拼接，利用图像识别模型的激活层对拼接后的特征进行非线性处理，得到待识别图像的识别结果。其中本申请实施例的图像识别模型通过下述的图像识别模型的训练装置训练得到：

第一提取单元，用于对原始图像进行特征提取，得到原始图像特征图；交换单元，用于基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；确定单元，用于利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；优化单元，用于根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的技术方案，通过对原始图像进行特征提取，得到原始图像特征图；基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重；利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值；根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合，根据融合后的损失函数值对所述图像识别模型的参数进行优化。本申请采用弱监督的方式进行区域混合，引入目标监督信息加快模型收敛，提高了目标区域的定位能力以及模型的识别能力。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像识别模型的训练装置或图像识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如，用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所示的计算机可读存储介质。图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831，可以被电子设备800的处理器810读取，当计算机可读程序代码831由电子设备800运行时，导致该电子设备800执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

对原始图像进行特征提取，得到原始图像特征图；

2.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：

3.根据权利要求2所述的图像识别模型的训练方法，其特征在于，所述原始图像的数量为多个，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：

4.根据权利要求3所述的图像识别模型的训练方法，其特征在于，所述目标区域包括全局目标区域和局部目标区域，所述根据各原始图像的目标区域，确定两个目标原始图像之间的交换区域包括：

根据所述局部目标交集区域确定所述交换区域。

5.根据权利要求4所述的图像识别模型的训练方法，其特征在于，所述基于所述原始图像特征图，利用对抗混合网络对所述原始图像进行区域交换处理，得到交换图像及对应的交换图像权重包括：

6.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：

7.根据权利要求6所述的图像识别模型的训练方法，其特征在于，所述原始图像特征图包括第一全局特征和第二全局特征，所述交换图像特征图包括第一局部特征和第二局部特征，所述利用图像识别模型的共享权重网络，确定所述原始图像的识别结果及对应的第一损失函数值，以及所述交换图像的识别结果及对应的第二损失函数值包括：

8.根据权利要求7所述的图像识别模型的训练方法，其特征在于，所述根据所述交换图像权重对所述第一损失函数值和所述第二损失函数值进行融合包括：

9.一种图像识别方法，其特征在于，包括：

获取待识别图像；

将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于权利要求1至8任一项所述的图像识别模型的训练方法训练得到。

10.一种图像识别模型的训练装置，其特征在于，包括：

11.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待识别图像；

识别单元，用于将全局池化后的全局特征和局部特征进行拼接后，利用图像识别模型的激活层进行非线性处理，得到所述待识别图像的识别结果，其中所述图像识别模型基于权利要求10所述的图像识别模型的训练装置训练得到。

12.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至8中任一项所述的图像识别模型的训练方法，或者如权利要求9中所述的图像识别方法。

13.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1至8中任一项所述的图像识别模型的训练方法，或者如权利要求9中所述的图像识别方法。