CN112990432A

CN112990432A - 目标识别模型训练方法、装置及电子设备

Info

Publication number: CN112990432A
Application number: CN202110242083.5A
Authority: CN
Inventors: 张梦琴
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-18
Anticipated expiration: 2041-03-04
Also published as: CN112990432B

Abstract

本申请提供了一种目标识别模型训练方法、装置及电子设备，获取训练样本集及拟合图像集，将当前训练样本子集中的样本输入初始模型，得到每个样本的第一特征向量和预测标签；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量；根据正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算特征损失函数值；根据每个样本对应的预测标签和真实标签，计算交叉熵损失函数值；基于特征损失函数值和交叉熵损失函数值进行反向传播训练，得到目标识别模型。本申请能够训练出可以识别图像中是否包含目标的目标识别模型，并且提高目标识别模型的识别精确率与召回率。

Description

目标识别模型训练方法、装置及电子设备

技术领域

本申请涉及图像识别技术领域，尤其是涉及一种目标识别模型训练方法、装置及电子设备。

背景技术

目前的图像分类任务主要分为传统的图像分类任务和细粒度图像分类任务。对于仅需要识别图像中是否存在某个目标，而不需要识别出该目标的类型、位置等详细信息的图像识别场景中，如果采用传统的图像分类任务进行模型训练，则容易忽视关键小目标的特征，导致模型的识别能力较差；如果使用细粒度分类任务进行模型训练，则训练过程和得到的模型过于复杂，影响识别效率。

发明内容

本申请的目的在于提供一种目标识别模型训练方法、装置及电子设备，通过拟合图像的特征提取可以计算特征损失函数值，通过特征损失函数值和交叉熵损失函数值对初始图像分类模型进行反向梯度传播训练，能够训练出可以识别图像中是否包含目标的目标识别模型，并且提高目标识别模型的识别精确率与召回率。

第一方面，本申请实施例提供一种目标识别模型训练方法，方法应用于电子设备，电子设备预存有初始图像分类模型；方法包括：获取训练样本集及拟合图像集；训练样本集中的样本包括正样本和负样本，拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；基于训练样本集及拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作：将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签；其中，第一特征向量为初始图像分类模型的第一中间层输出的向量；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量；根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对初始图像分类模型进行反向梯度传播训练，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

进一步的，上述初始图像分类模型包括依次连接的卷积神经网络、注意力结构、融合模块和分类器；融合模块为第一中间层；将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签的步骤，包括：将当前训练样本子集中的样本输入卷积神经网络，得到每个样本对应的原始特征图；将每个样本对应的原始特征图输入注意力结构，得到每个样本对应的注意力图；将每个样本对应的原始特征图和注意力图输入融合模块，得到每个样本对应的第一特征向量；将每个样本对应的第一特征向量输入分类器,得到每个样本对应的预测标签。

进一步的，上述将每个样本对应的原始特征图和注意力图输入融合模块，得到每个样本对应的第一特征向量的步骤，包括：针对每个样本对应的原始特征图和注意力图，均执行以下操作：通过softmax函数对样本对应的注意力图进行空间标准化，得到注意力图中每个像素对应的值；以注意力图中每个像素对应的值为权重值，对样本对应的原始特征图进行加权求和，得到样本对应的第一特征向量。

进一步的，上述第二中间层为卷积神经网络；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量的步骤，包括：将当前拟合图像输入卷积神经网络，得到当前拟合图像对应的第二特征向量。

进一步的，上述根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值的步骤，包括：根据当前训练样本子集中的每个正样本对应的第一特征向量和当前拟合图像对应的第二特征向量，计算每个正样本对应的第一特征损失函数值；将各个正样本对应的第一特征损失函数值进行均值计算，得到本轮训练的特征损失函数值。

进一步的，上述根据当前训练样本子集中的每个正样本对应的第一特征向量和当前拟合图像对应的第二特征向量，计算每个正样本对应的第一特征损失函数值的步骤，包括：通过以下公式计算正样本的第一特征损失函数值：

其中，L₂表示正样本的第一特征损失函数值；MSE()表示均方误差函数，

表示正样本对应的第一特征向量；v₂表示当前拟合图像对应的第二特征向量。

进一步的，上述根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值的步骤，包括：根据当前训练样本子集中的每个样本对应的预测标签、真实标签和交叉熵损失函数，计算每个样本对应的第一交叉熵损失函数值；将各个样本对应的第一交叉熵损失函数值进行均值计算，得到本轮训练的交叉熵损失函数值。

进一步的，上述基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值的步骤，包括：将本轮训练的特征损失函数值和交叉熵损失函数值进行求和，得到本轮训练的总损失值。

进一步的，上述注意力结构包括三个卷积层；每个卷积层后连接有BN层和线性连接单元。

进一步的，上述方法还包括：每隔预设训练轮次，利用当前训练得到的目标识别模型对指定图像进行预测；指定图像为未进行标注标签的目标相关图像；如果预测结果的置信度超过预设阈值，将指定图像添加至训练样本集，以进行模型训练。

进一步的，上述方法还包括：获取待识别图像；将待识别图像输入至目标识别模型，得到待识别图像对应的识别结果。

第二方面，本申请实施例还提供一种目标识别模型训练装置，装置应用于电子设备，电子设备预存有初始图像分类模型；装置包括：图像集获取模块，用于获取训练样本集及拟合图像集；训练样本集中的样本包括正样本和负样本，拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；模型训练模块，用于基于训练样本集及拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作：将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签；其中，第一特征向量为初始图像分类模型的第一中间层输出的向量；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量；根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对初始图像分类模型进行反向梯度传播训练，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

第三方面，本申请实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面所述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述第一方面所述的方法。

本申请实施例提供的目标识别模型训练方法中，首先获取训练样本集及拟合图像集；其中，训练样本集中的样本包括正样本和负样本，拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；基于训练样本集及拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作：将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签；其中，第一特征向量为初始图像分类模型的第一中间层输出的向量；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量；根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对初始图像分类模型进行反向梯度传播训练，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。本申请实施例中通过拟合图像的特征提取可以计算特征损失函数值，通过特征损失函数值和交叉熵损失函数值对初始图像分类模型进行反向梯度传播训练，能够训练出可以识别图像中是否携带目标的目标识别模型，并且提高目标识别模型的识别精确率与召回率。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种目标识别模型训练方法的流程图；

图2为本申请实施例提供的一种目标识别模型训练过程示意图；

图3为本申请实施例提供的一种目标识别方法的流程图；

图4为本申请实施例提供的一种目标识别模型训练装置的结构框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前的图像分类任务主要分为传统的图像分类任务和细粒度图像分类任务。在传统的图像分类任务中，无论图像中的重要判别区域占整个图像的比重有多大，都只会对整张图片一视同仁的提取特征，然后进行分类；而细粒度图像分类中所需要进行分类的图像中的可判别区域往往只是在图像中很小的一块区域内，所以通常需要先得到关注目标的区域，再将该目标在多个具有微小差别的类别中进行细分类。

在细粒度图像分类中分为强监督学习和弱监督学习。强监督学习需要额外添加更多的标注框加入网络进行强监督学习，使网络能学习到目标的位置信息，类似于目标检测任务。弱监督学习由网络通过无监督学习判别出区域的位置，再特别关注此区域的特征差异，识别出目标的类别，常用的方法是基于注意力(Attention)机制的图像分类，通过分析特征图中最突出的部分得到判别区域的位置。

对于仅需要识别图像中是否存在某个目标，而不需要识别出该目标的类型、位置等详细信息的图像识别场景中，如果采用传统的图像分类任务进行模型训练，则容易忽视关键小目标的特征，导致模型的识别能力较差；如果使用细粒度分类任务进行模型训练，则训练过程和得到的模型过于复杂，影响识别效率。

基于此，本申请实施例提供一种目标识别模型训练方法、装置及电子设备，通过拟合图像的特征提取可以计算特征损失函数值，通过特征损失函数值和交叉熵损失函数值对初始图像分类模型进行反向梯度传播训练，能够训练出可以识别图像中是否携带目标的目标识别模型，并且提高目标识别模型的识别精确率与召回率。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种目标识别模型训练方法进行详细介绍。

图1为本申请实施例提供的一种目标识别模型训练方法的流程图，该方法应用于电子设备，电子设备预存有初始图像分类模型；初始图像分类模型可以有多种实现方式，在此不做具体限定。上述目标可以是***、刀具之类的物品，本实施例提供的目标识别模型训练方法所训练出的目标识别模型可以快速判断出某个图像中是否包含或携带目标，该目标识别模型训练方法具体包括以下步骤：

步骤S11，获取训练样本集及拟合图像集。

其中，训练样本集中的样本包括正样本和负样本，正样本为包含有目标的图像，负样本不包含目标的图像；拟合图像集中的图像为目标所在区域占比大于设定阈值的图像，比如，只包含目标的纯正样本，或者目标所在区域占比大于一定阈值如95％的图像，该阈值可根据实际情况进行调整。

步骤S12，基于训练样本集及拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

在模型训练时，需要首先从训练样本集及拟合图像集中确定出当前轮训练对应的训练样本子集和当前拟合图像，比如，从训练样本集中选20个图像作为当前轮训练对应的训练样本子集中的样本，从拟合图像集中随机抽取一个拟合图像作为当前拟合图像。然后执行下述五个步骤的模型训练过程，直到训练轮次达到预设次数(如100次)或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

对于每轮训练均执行以下五个步骤：

步骤S121，将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签；其中，第一特征向量为初始图像分类模型的第一中间层输出的向量。

上述第一特征向量的获取过程可以包括多种方式，对于不同结构的初始图像分类模型，进行特征向量提取的第一中间层也不同。在本申请实施例中，第一中间层可以是融合模块，将神经网络提取的特征图和注意力结构提取的注意力图融合后，输出样本的第一特征向量。

在得到样本的第一特征向量的基础上，进一步还可以通过分类器输出分类结果，也就是样本的预测标签，比如，标签包括Y和N，Y表示样本为包含目标的图像，N表示样本为不包含目标的图像。

步骤S122，通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量。

上述第二中间层与第一中间层在初始图像分类模型的中的结构位置不同，将当前拟合图像输入至初始图像分类模型，即可通过其第二中间层输出第二特征向量。

步骤S123，根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值。

特征损失函数值的计算可以通过将两种特征向量代入预设的特征损失函数进行计算。如果正样本为一个，那么直接将该正样本对应的第一特征向量和当前拟合图像对应的第二特征向量代入预设的特征损失函数进行计算即可，通常正样本会有多种，那么可以分别计算每个正样本的特征损失函数值，然后取多个正样本对应的特征损失函数值的平均值作为本轮训练的特征损失函数值。

步骤S124，根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值。

同理，交叉熵损失函数值的计算也可以采用预设计算公式实现，同样可以取多个样本对应交叉熵损失函数值的平均值，作为本轮训练的交叉熵损失函数值。

步骤S125，基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对初始图像分类模型进行反向梯度传播训练。

本步骤中，将本轮训练的特征损失函数值和交叉熵损失函数值进行相加，即可得到本轮训练的总损失值，进而通过总损失值对初始图像分类模型进行反向梯度传播训练。

通过一定次数的循环训练过程，最终可以得到较理想的目标识别模型。本申请实施例提供的目标识别模型训练方法，加入了拟合图像的特征向量提取，从而可以计算特征损失函数值，通过特征损失函数值和交叉熵损失函数值对初始图像分类模型进行反向梯度传播训练，能够训练出可以识别图像中是否携带目标的目标识别模型，并且提高目标识别模型的识别精确率与召回率。

下面列举一种优选实施例，通过加入注意力机制来实现目标识别模型的训练过程，参见图2所示，本申请实施例中，上述初始图像分类模型包括依次连接的卷积神经网络、注意力结构、融合模块和分类器；融合模块也就是上述第一中间层，可以输出样本的第一特征向量。

具体的模型训练过程如下：

(1)针对当前训练样本子集及其对应的当前拟合图像，同时进行特征提取步骤：

针对当前训练样本子集的特征提取过程如下：

A.将当前训练样本子集中的样本输入卷积神经网络，得到每个样本对应的原始特征图。

本申请实施例中，使用ResNet50(Residual Network，残差网络)实现对当前训练样本子集中的样本进行特征图提取的过程，还可以是别的网络，目前主流的卷积神经网络都可以，比如VGG,ResNet152等。在初始化时采用了在ImageNet图像数据库上训练的模型参数，在训练过程中只需要将最后一层的全连接层修改为当前样本集中的是否携带目标的二分类问题。首先将所有样本数据的输入尺寸缩放到224*224，本申请实施例中提取ResNet50模型最后一层卷积层提取的特征图作为当前训练样本子集中的样本的原始特征图Vs。

B.将每个样本对应的原始特征图输入注意力结构，得到每个样本对应的注意力图；上述注意力结构包括三个卷积层；每个卷积层后连接有BN层和线性连接单元。

在从ResNet50得到特征图Vs后，将其输入到Attention结构学习得到注意力图Vatt。Attention结构由三层卷积层构成，第一层使用1024个大小为1*1的卷积核，第二层使用512个大小为3*3的卷积核，第三层使用1个大小为1*1的卷积核，同时每个卷积后面都有一个BN层和修正线性单元。BN层的作用主要有三个：加快网络的训练和收敛的速度；控制梯度***防止梯度消失；防止过拟合。

C.将每个样本对应的原始特征图和注意力图输入融合模块，得到每个样本对应的第一特征向量。

具体的，针对每个样本对应的原始特征图和注意力图，均执行以下操作：通过softmax函数对样本对应的注意力图进行空间标准化，得到注意力图中每个像素对应的值；以注意力图中每个像素对应的值为权重值，对样本对应的原始特征图进行加权求和，得到样本对应的第一特征向量。

上述softmax函数如下：

其中，a_i,j为经过空间标准化后注意力图Vatt中(i,j)位置处的值，即原始特征图中(i,j)位置处的权重值；

为注意力图V_att中位置为(i,j)处的值。

第一特征向量的计算式如下：

v₁＝∑_i,jx_i,ja_i,j，

其中，v₁表示样本对应的第一特征向量；x_i,j表示原始特征图Vs中位置为(i,j)处的特征向量，a_i,j为经过空间标准化后注意力图Vatt中(i,j)位置处的值，即原始特征图中(i,j)位置处的权重值。

针对当前拟合图像的特征提取过程如下：

A.将当前拟合图像输入卷积神经网络，得到当前拟合图像对应的第二特征向量。该卷积神经网络即为上述初始图像分类模型的第二中间层。

使用上述同样的深度卷积神经网络ResNet50来对当前拟合图像进行特征提取，此时去除该网络模型的最后一个全连接层，提取最后一个卷积层的特征作为特征向量，以获得当前拟合图像对应的第二特征向量v₂。

(2)将每个样本对应的第一特征向量输入分类器,得到每个样本对应的预测标签。

使用上述每个样本对应的第一特征向量v₁来学习用于目标识别的二分类线性分类器：

其中W和b是线性分类器参数，将每个样本对应的第一特征向量v₁输入上述分类器,即可得到每个样本对应的预测标签。

(3)计算本轮训练对应的特征损失函数值，如图2中Loss2。

为了训练Attention结构本申请实施例中需计算特征拟合损失，即计算拟合图像的第二特征向量v₂与用于分类的第一特征向量v₁之间的拟合能力，让注意力机制能够自动判断图像中的目标区域特征,需注意的是，由于训练时负样本中不包含目标，计算特征拟合只针对正样本，即通过以下步骤计算本轮训练对应的特征损失函数值。

A.根据当前训练样本子集中的每个正样本对应的第一特征向量和当前拟合图像对应的第二特征向量，计算每个正样本对应的第一特征损失函数值。

具体的，通过以下公式计算正样本的第一特征损失函数值：

B.将各个正样本对应的第一特征损失函数值进行均值计算，得到本轮训练的特征损失函数值。

比如，本轮训练样本子集中包含20个图像，其中，有7个是正样本，那么可以计算7个正样本分别对应的第一特征损失函数值的平均值，得到本轮训练的特征损失函数值。

(4)计算本轮训练对应的交叉熵损失函数值，如图2中Loss1。

A.根据当前训练样本子集中的每个样本对应的预测标签、真实标签和交叉熵损失函数，计算每个样本对应的第一交叉熵损失函数值。

计算预测标签

与真实标签y之间的损失，即最小化

和y之间的交叉熵损失，公式为：

其中Cross Entropy()为交叉熵损失函数。通过该函数可以计算出每个样本对应的第一交叉熵损失函数值。

B.将各个样本对应的第一交叉熵损失函数值进行均值计算，得到本轮训练的交叉熵损失函数值。

还以上述例子为例进行说明，比如，本轮训练样本子集中包含20个图像，那么可以计算20个样本分别对应的第一交叉熵损失函数值的平均值，得到本轮训练的交叉熵损失函数值。

(5)计算本轮训练对应的总损失值，如图2中Loss总。

将本轮训练的特征损失函数值和交叉熵损失函数值进行求和，得到本轮训练的总损失值。

模型最后的损失函数为：

因此，将本轮训练的特征损失函数值和交叉熵损失函数值进行求和，即可得到本轮训练的总损失值。

(6)反向传播训练。基于上述计算得到的本轮训练的总损失值进行反向传播训练。

重复上述步骤(1)-(6)，即可训练得到目标识别模型。

另外，训练样本集中的样本在训练前需要人工标注标签，即区分为正样本和负样本，由于数据标注成本较高，在训练初步图像分类模型时的训练数据少，为了提高模型的泛化能力，本申请实施例，还采用半监督训练，将未标注的大量与目标相关的数据加入训练。

即：在模型训练过程中，每隔预设训练轮次，利用当前训练得到的目标识别模型对指定图像进行预测；指定图像为未进行标注标签的目标相关图像；如果预测结果的置信度超过预设阈值，将指定图像添加至训练样本集，以进行模型训练。

在实际应用中，可以设置一定的阈值k，首先加载已经训练好的目标识别模型对未标注数据进行预测，自动挑取置信度大于阈值k的图像加入训练，并且每训练n个epoch，模型便自动对未标注数据进行一次重新挑选，通过观察挑选的数据量以及模型训练过程中测试的结果来调整阈值k的大小。通过模型微调，能够提高模型的准确率与泛化能力。

本申请实施例提供的目标识别模型训练方法，在计算模型预测的交叉熵损失的同时，还计算注意力加权特征向量与拟合图像之间的拟合能力来直接训练注意力结构，从而提高模型识别的准确率。而且在训练过程中进行一边训练一边进行未标注图像挑选的半监督训练方法，能够在不增加标注成本的同时提高模型的泛化能力。

进一步的，本申请实施例还提供一种目标识别方法，参见图3所示，该方法包括以步骤：

步骤S302，获取待识别图像；

步骤S304，将待识别图像输入至目标识别模型，得到待识别图像对应的识别结果。

上述目标识别模型为通过上一实施例所述的目标识别模型训练方法训练得到的目标识别模型，将待识别图像输入至目标识别模型可得到待识别图像对应的识别结果，也就是通过上一实施例中所述的第一特征向量的提取过程，及通过分类器的预测，得到预测标签，该预测标签可表征待识别图像是否为包含目标的图像。具体的识别过程可参见上一实施例，在此不再赘述。

基于上述方法实施例，本申请实施例还提供一种目标识别模型训练装置，该装置应用于电子设备，电子设备预存有初始图像分类模型；参见图4所示，该装置包括：

图像集获取模块41，用于获取训练样本集及拟合图像集；训练样本集中的样本包括正样本和负样本，拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；模型训练模块42，用于基于训练样本集及拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

上述模型训练模块42包括：特征提取识别模块421、损失值计算模块422和反向传播训练模块423，上述特征提取识别模块421用于将当前训练样本子集中的样本输入初始图像分类模型，得到每个样本的第一特征向量和预测标签；其中，第一特征向量为初始图像分类模型的第一中间层输出的向量；通过初始图像分类模型的第二中间层对当前拟合图像进行特征提取，得到当前拟合图像对应的第二特征向量；上述损失值计算模块422，用于根据当前训练样本子集中的正样本分别对应的第一特征向量和当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；根据当前训练样本子集中的每个样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；基于本轮训练的特征损失函数值和交叉熵损失函数值确定本轮训练的总损失值；上述反向传播训练模块423用于根据本轮训练的总损失值对初始图像分类模型进行反向梯度传播训练。

进一步的，上述初始图像分类模型包括依次连接的卷积神经网络、注意力结构、融合模块和分类器；融合模块为第一中间层；上述特征提取识别模块421还用于：将当前训练样本子集中的样本输入卷积神经网络，得到每个样本对应的原始特征图；将每个样本对应的原始特征图输入注意力结构，得到每个样本对应的注意力图；将每个样本对应的原始特征图和注意力图输入融合模块，得到每个样本对应的第一特征向量；将每个样本对应的第一特征向量输入分类器,得到每个样本对应的预测标签。

进一步的，上述特征提取识别模块421还用于：针对每个样本对应的原始特征图和注意力图，均执行以下操作：通过softmax函数对样本对应的注意力图进行空间标准化，得到注意力图中每个像素对应的值；以注意力图中每个像素对应的值为权重值，对样本对应的原始特征图进行加权求和，得到样本对应的第一特征向量。

进一步的，上述第二中间层为卷积神经网络；上述特征提取识别模块421还用于：将当前拟合图像输入卷积神经网络，得到当前拟合图像对应的第二特征向量。

进一步的，上述损失值计算模块422还用于：根据当前训练样本子集中的每个正样本对应的第一特征向量和当前拟合图像对应的第二特征向量，计算每个正样本对应的第一特征损失函数值；将各个正样本对应的第一特征损失函数值进行均值计算，得到本轮训练的特征损失函数值。

进一步的，上述损失值计算模块422还用于：通过以下公式计算正样本的第一特征损失函数值：

进一步的，上述损失值计算模块422还用于：根据当前训练样本子集中的每个样本对应的预测标签、真实标签和交叉熵损失函数，计算每个样本对应的第一交叉熵损失函数值；将各个样本对应的第一交叉熵损失函数值进行均值计算，得到本轮训练的交叉熵损失函数值。

进一步的，上述损失值计算模块422还用于：将本轮训练的特征损失函数值和交叉熵损失函数值进行求和，得到本轮训练的总损失值。

进一步的，上述模型训练模块42还用于：在模型训练过程中，每隔预设训练轮次，利用当前训练得到的目标识别模型对指定图像进行预测；指定图像为未进行标注标签的目标相关图像；如果预测结果的置信度超过预设阈值，将指定图像添加至训练样本集，以进行模型训练。

进一步的，上述装置还包括：图像识别模块，用于获取待识别图像；将待识别图像输入至目标识别模型，得到待识别图像对应的识别结果。

本申请实施例提供的目标识别模型训练装置，其实现原理及产生的技术效果和前述目标识别模型训练方法实施例相同，为简要描述，目标识别模型训练装置的实施例部分未提及之处，可参考前述目标识别模型训练方法实施例中相应内容。

本申请实施例还提供了一种电子设备，如图5所示，为该电子设备的结构示意图，其中，该电子设备包括处理器51和存储器50，该存储器50存储有能够被该处理器51执行的计算机可执行指令，该处理器51执行该计算机可执行指令以实现上述方法。

在图5示出的实施方式中，该电子设备还包括总线52和通信接口53，其中，处理器51、通信接口53和存储器50通过总线52连接。

其中，存储器50可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线52可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器51读取存储器中的信息，结合其硬件完成前述实施例的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述方法，具体实现可参见前述方法实施例，在此不再赘述。

本申请实施例所提供的目标识别模型训练方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标识别模型训练方法，其特征在于，所述方法应用于电子设备，所述电子设备预存有初始图像分类模型；所述方法包括：

获取训练样本集及拟合图像集；所述训练样本集中的样本包括正样本和负样本，所述拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；

基于所述训练样本集及所述拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作：

将当前训练样本子集中的样本输入所述初始图像分类模型，得到每个所述样本的第一特征向量和预测标签；其中，所述第一特征向量为所述初始图像分类模型的第一中间层输出的向量；

通过所述初始图像分类模型的第二中间层对所述当前拟合图像进行特征提取，得到所述当前拟合图像对应的第二特征向量；

根据所述当前训练样本子集中的正样本分别对应的第一特征向量和所述当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；

根据所述当前训练样本子集中的每个所述样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；

基于本轮训练的所述特征损失函数值和所述交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对所述初始图像分类模型进行反向梯度传播训练，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

2.根据权利要求1所述的方法，其特征在于，所述初始图像分类模型包括依次连接的卷积神经网络、注意力结构、融合模块和分类器；所述融合模块为所述第一中间层；

将所述当前训练样本子集中的样本输入所述初始图像分类模型，得到每个所述样本的第一特征向量和预测标签的步骤，包括：

将所述当前训练样本子集中的样本输入所述卷积神经网络，得到每个所述样本对应的原始特征图；

将每个所述样本对应的原始特征图输入所述注意力结构，得到每个样本对应的注意力图；

将每个所述样本对应的原始特征图和所述注意力图输入所述融合模块，得到每个所述样本对应的第一特征向量；

将每个所述样本对应的第一特征向量输入所述分类器,得到每个所述样本对应的预测标签。

3.根据权利要求2所述的方法，其特征在于，将每个所述样本对应的原始特征图和所述注意力图输入所述融合模块，得到每个所述样本对应的第一特征向量的步骤，包括：

针对每个所述样本对应的原始特征图和注意力图，均执行以下操作：

通过softmax函数对所述样本对应的注意力图进行空间标准化，得到所述注意力图中每个像素对应的值；

以所述注意力图中每个像素对应的值为权重值，对所述样本对应的原始特征图进行加权求和，得到所述样本对应的第一特征向量。

4.根据权利要求2所述的方法，其特征在于，所述第二中间层为所述卷积神经网络；

通过所述初始图像分类模型的第二中间层对所述当前拟合图像进行特征提取，得到所述当前拟合图像对应的第二特征向量的步骤，包括：

将所述当前拟合图像输入所述卷积神经网络，得到所述当前拟合图像对应的第二特征向量。

5.根据权利要求1所述的方法，其特征在于，根据所述当前训练样本子集中的正样本分别对应的第一特征向量和所述当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值的步骤，包括：

根据所述当前训练样本子集中的每个正样本对应的第一特征向量和所述当前拟合图像对应的第二特征向量，计算所述每个所述正样本对应的第一特征损失函数值；

将各个所述正样本对应的第一特征损失函数值进行均值计算，得到本轮训练的特征损失函数值。

6.根据权利要求5所述的方法，其特征在于，根据所述当前训练样本子集中的每个正样本对应的第一特征向量和所述当前拟合图像对应的第二特征向量，计算所述每个所述正样本对应的第一特征损失函数值的步骤，包括：

通过以下公式计算正样本的第一特征损失函数值：

7.根据权利要求1所述的方法，其特征在于，根据所述当前训练样本子集中的每个所述样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值的步骤，包括：

根据所述当前训练样本子集中的每个所述样本对应的预测标签、真实标签和交叉熵损失函数，计算每个所述样本对应的第一交叉熵损失函数值；

将各个所述样本对应的第一交叉熵损失函数值进行均值计算，得到本轮训练的交叉熵损失函数值。

8.根据权利要求1所述的方法，其特征在于，基于本轮训练的所述特征损失函数值和所述交叉熵损失函数值确定本轮训练的总损失值的步骤，包括：

将本轮训练的所述特征损失函数值和所述交叉熵损失函数值进行求和，得到本轮训练的总损失值。

9.根据权利要求2所述的方法，其特征在于，所述注意力结构包括三个卷积层；每个卷积层后连接有BN层和线性连接单元。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在模型训练过程中，每隔预设训练轮次，利用当前训练得到的目标识别模型对指定图像进行预测；所述指定图像为未进行标注标签的目标相关图像；

如果预测结果的置信度超过预设阈值，将所述指定图像添加至所述训练样本集，以进行模型训练。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别图像；

将所述待识别图像输入至所述目标识别模型，得到所述待识别图像对应的识别结果。

12.一种目标识别模型训练装置，其特征在于，所述装置应用于电子设备，所述电子设备预存有初始图像分类模型；所述装置包括：

图像集获取模块，用于获取训练样本集及拟合图像集；所述训练样本集中的样本包括正样本和负样本，所述拟合图像集中的图像为目标所在区域占比大于设定阈值的图像；

模型训练模块，用于基于所述训练样本集及所述拟合图像集，确定每轮训练对应的训练样本子集和当前拟合图像，对于每轮训练均执行以下操作：将所述当前训练样本子集中的样本输入所述初始图像分类模型，得到每个所述样本的第一特征向量和预测标签；其中，所述第一特征向量为所述初始图像分类模型的第一中间层输出的向量；通过所述初始图像分类模型的第二中间层对所述当前拟合图像进行特征提取，得到所述当前拟合图像对应的第二特征向量；根据所述当前训练样本子集中的正样本分别对应的第一特征向量和所述当前拟合图像对应的第二特征向量，计算本轮训练的特征损失函数值；根据所述当前训练样本子集中的每个所述样本对应的预测标签和真实标签，计算本轮训练的交叉熵损失函数值；基于本轮训练的所述特征损失函数值和所述交叉熵损失函数值确定本轮训练的总损失值，并根据本轮训练的总损失值对所述初始图像分类模型进行反向梯度传播训练，直到训练轮次达到预设次数或者总损失值收敛至预设收敛阈值时停止训练，得到目标识别模型。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至11任一项所述的方法。