CN109784349A

CN109784349A - 图像目标检测模型建立方法、装置、存储介质及程序产品

Info

Publication number: CN109784349A
Application number: CN201811592967.8A
Authority: CN
Inventors: 蔡巍; 胡佳慧; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-21
Anticipated expiration: 2038-12-25
Also published as: CN109784349B

Abstract

本发明提供一种图像目标检测模型的建立方法及装置，利用遮挡图像样本进行特征遮挡对抗网络模型的训练，通过特征遮挡对抗网络模型来获得图像样本的遮挡掩码，这样，在进行检测网络模型的训练时，将训练用的图像样本的特征图添加遮挡掩码，该遮挡掩码利用训练好的特征遮挡对抗网络模型获得。这样，由于特征遮挡对抗网络模型利用遮挡图像样本训练而获得，能够训练出生成更好掩码的特征遮挡对抗网络模型，进而利用该特征遮挡对抗网络获得用于检测网络模型训练用的遮挡掩码，从而，可以利用具有更好遮挡掩码的图像样本进行检测网络模型的训练，使得检测网络模型对遮挡情形得到充分训练，提高检测网络模型对遮挡物体检测的准确性。

Description

图像目标检测模型建立方法、装置、存储介质及程序产品

技术领域

本发明涉及人工智能领域，特别涉及一种图像目标检测模型的建立方法及装置、存储介质及程序产品。

背景技术

目前，基于深度卷积神经网络的检测算法成为图像目标检测的主流方法，例如YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)算法等，其将直接将目标边框定位的问题转化为回归问题进行处理，具有更快的检测速度。在图像目标检测的应用中，图像中的待检测物体存在遮挡的情形，而目前的检测模型较少考虑遮挡情形，无法实现对遮挡物体的准确检测。

发明内容

有鉴于此，本发明的目的在于提供一种图像目标检测模型的建立方法及装置、存储介质及程序产品，提高对遮挡物体检测的准确性。

为实现上述目的，本发明有如下技术方案：

一种图像目标检测的模型建立方法，包括：

对第一图像样本进行遮挡，以获得第一遮挡图像样本；

利用所述第一遮挡图像样本进行特征遮挡对抗网络模型的训练，所述特征遮挡对抗网络模型用于基于对抗网络获得图像样本的遮挡掩码；

进行检测网络模型的训练，且训练用的第二图像样本的特征图利用训练后的特征遮挡对抗网络模型添加有遮挡掩码，所述检测网络模型用于基于深度学习的图像目标检测。

可选地，还包括：利用添加有遮挡掩码的特征图作为图像样本，继续进行特征遮挡对抗网络模型的训练。

可选地，所述对第一图像样本进行遮挡，包括：

确定第一图像样本中具有最大定位准确度的候选框；

将预设大小的滑动窗口映射到图像样本，并利用背景像素填充滑动窗口所在位置的图像区域；

利用检测网络模型进行填充后的图像样本的检测，将与候选框具有最大检测网络损失的所在位置处的滑动窗口作为第一图像样本的遮挡位置，以获得第一遮挡图像样本。

可选地，所述进行检测网络模型的训练中，利用非极大值抑制算法确定预测框，其中，所述非极大值抑制算法中的预测框评价指标通过不同候选框的定位准确度和位置准确度确定。

可选地，所述候选框评价指标CL的计算公式为：

CL＝γ×sore_class+(1-γ)×score_location；其中，γ为超级参数，sore_class为分类准确率，score_location为定位准确度；

所述非极大值抑制算法的公式为：

其中，CL为不同候选框的定位准确度。

可选地，预置有预测IoU网络模型，所述预测IoU网络模型用于获得不同候选框的定位准确度。

可选地，所述预测IoU网络模型的训练方法包括：

生成第三图像样本的候选框集合；

获得所述候选框集合中各候选框的定位准确度；

去除所述候选框集合中定位准确度小于预设阈值的候选框，以确定第三遮挡图像样本的训练集合；

利用所述训练集合进行预测IoU网络模型的训练。

可选地，所述检测网络模型包括全局池化模块以及池化分类模块，所述池化分类模块用于将全局池化后的特征图根据池化掩码的对应位置进行分类，以获得分类向量。

一种图像目标检测的模型建立装置，包括：

遮挡样本获取单元，用于对第一图像样本进行遮挡，以获得第一遮挡图像样本；

对抗网络训练单元，用于利用所述第一遮挡图像样本进行特征遮挡对抗网络模型的训练，所述特征遮挡对抗网络模型用于基于对抗网络获得图像样本的遮挡掩码；

检测网络训练单元，用于进行检测网络模型的训练，且训练用的第二图像样本的特征图利用训练后的特征遮挡对抗网络模型添加有遮挡掩码，所述检测网络模型用于基于深度学习的图像目标检测。

可选地，还包括：

对抗网络再训练单元，用于利用添加有遮挡掩码的特征图作为图像样本，继续进行特征遮挡对抗网络模型的训练。

可选地，所述遮挡样本获取单元中，对第一图像样本进行遮挡，包括：

确定第一图像样本中具有最大定位准确度的候选框；

可选地，所述候选框评价指标CL的计算公式为：

所述非极大值抑制算法的公式为：

其中，CL为不同候选框的定位准确度。

可选地，还包括：预置的预测IoU网络模型，所述预测IoU网络模型用于获得不同候选框的定位准确度。

可选地，还包括预测IoU网络模型训练单元，用于生成第三图像样本的候选框集合；获得所述候选框集合中各候选框的定位准确度；去除所述候选框集合中定位准确度小于预设阈值的候选框，以确定第三遮挡图像样本的训练集合；利用所述训练集合进行预测IoU网络模型的训练。

一种计算机可读存储介质，其特征在于，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述任一所述的图像目标检测的模型建立方法。

一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述任一所述的图像目标检测的模型建立方法。

本发明实施例提供的图像目标检测模型的建立方法及装置，利用遮挡图像样本进行特征遮挡对抗网络模型的训练，通过特征遮挡对抗网络模型来获得图像样本的遮挡掩码，这样，在进行检测网络模型的训练时，将训练用的图像样本的特征图添加遮挡掩码，该遮挡掩码利用训练好的特征遮挡对抗网络模型获得。这样，由于特征遮挡对抗网络模型利用遮挡图像样本训练而获得，能够训练出生成更好掩码的特征遮挡对抗网络模型，进而利用该特征遮挡对抗网络获得用于检测网络模型训练用的遮挡掩码，从而，可以利用具有更好遮挡掩码的图像样本进行检测网络模型的训练，使得检测网络模型对遮挡情形得到充分训练，提高检测网络模型对遮挡物体检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例图像目标检测模型的建立方法的流程图；

图2示出了根据本发明实施例图像目标检测模型的建立方法获得遮挡样本的过程示意图；

图3示出了根据本发明实施例的掩码的示意图；

图4根据本发明实施例图像目标检测模型的建立装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

正如背景技术中的描述，基于深度卷积神经网络的检测算法，已成为图像目标检测的主流方法，而在图像目标检测的应用中，图像中的待检测物体往往存在遮挡的情形，而目前的检测模型较少考虑遮挡情形，无法实现对遮挡物体的准确检测。基于此，本申请提出了一种图像目标检测模型的建立方法，在模型训练时采用具有更好遮挡掩码的图像样本进行检测网络模型的训练，使得检测网络模型对遮挡情形得到充分训练，提高检测网络模型对遮挡物体检测的准确性。

为了更好的理解本申请的技术方案和技术效果，以下将结合流程图对具体的实施例进行详细的描述。

参考图1所示，在步骤S01，对第一图像样本进行遮挡，以获得第一遮挡图像样本。

该第一图像样本为原始的图像样本，通过在原始的图像样本上添加遮挡，获得遮挡的第一图像样本，即第一遮挡图像样本。

在具体的应用中，可以采用合适的方法进行遮挡，在本实施例中，具体的，对第一图像样本进行遮挡具体包括如下步骤。

S011，确定第一图像样本中具有最大定位准确度的候选框。

S012，将预设大小的滑动窗口映射到图像样本，并利用背景像素填充滑动窗口所在位置的图像区域。

S013，利用检测网络模型进行填充后的图像样本的检测，将与候选框具有最大检测网络损失的所在位置处的滑动窗口作为第一图像样本的遮挡位置，以获得第一遮挡图像样本。

对于第一图像样本，先在该第一图像样本上确定出具有最大定位准确度的候选框，具有最大定位准确度的候选框为与图像样本上真实标记具有最大IoU(Intersectionover Union，交并比)的候选框。可以获得图像样本的特征图，在特征图上设置不同的候选框，并计算不同的候选框与真实标记的IoU，将具有最大IoU值的候选框作为最大定位准确度的候选框。

而后，设置预设大小的滑动窗口，滑动窗口的大小可以根据具体的需要来设置，例如可以为(w/3，d/3)大小的矩形框，w和d分别为图像样本的长和宽，滑动窗口的大小将保持不变，在图像样本上的位置发生变化，对于不同位置处的滑动窗口，将其映射到图像样本上，并利用背景像素对滑动窗口所在位置的图像区域进行填充，背景像素可以是随机填充的方式，这样，就在图像样本的不同位置处，利用滑动窗口形成了遮挡。

之后，利用检测网络模型进行填充后的图像样本的检测，检测网络模型为用于基于深度学习的图像目标检测的模型，即基于深度卷积神经网络的检测网络模型，其例如可以是基于YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)等算法的模型，该检测网络模型可以是经过一定训练的模型。通过选择使检测网络损失最大的滑动窗口作为图像样本的遮挡位置，从而，可以获得具有最佳遮挡位置的遮挡图像样本。

通过该实施例的方法获得遮挡图像样本时，确定图像样本中具有最大定位准确度的候选框，该候选框所框选的位置与真实标记最为贴近，更能体现检测目标，并以最大检测网络损失所在位置处的滑动窗口作为图像的样本位置，从而，在最佳检测目标位置上获得了具有最佳遮挡位置的遮挡图像样本，提高了遮挡样本的质量。

为了更便于理解该获得遮挡图像样本的方法，以下以一个图像样本的示例进行遮挡样本获取过程的说明，参考图2所示，首先，可以在框选了多个候选框的图像样本，如图(A)所示，而后，获得该图像样本的特征图，如图(B)所示，接着，确定出其中与真实标记具有最大IoU的候选框，如图(C)所示，以该候选框为检测目标，利用滑动窗口进行遮挡填充，将与候选框具有最大检测网络损失的所在位置处的滑动窗口作为图像样本的遮挡位置，如图(D)所示，这样，就获得了具有遮挡的遮挡图像样本。

在步骤S02，利用所述第一遮挡图像样本进行特征遮挡对抗网络模型的训练，所述特征遮挡对抗网络模型用于基于对抗网络获得图像样本的遮挡掩码。

特征遮挡对抗网络模型是用于获得图像样本的遮挡掩码的模型，其是基于对抗网络的模型，是在对抗网络的基础上建立的深度学习模型。在本实施例中，该特征遮挡对抗网络在获得图像样本的特征图之后，增加用于学习遮挡掩码的全连接层来实现，该遮挡掩码为与特征图对应的掩码，用于体现遮挡样本的掩码。

为了便于理解，参考图3所示，为一个图像样本所对应的掩码M，其为与图像样本不同位置相对应的阵列掩码值。此外，需要说明的是，为了便于描述，在本申请中，将具有遮挡的遮挡图像样本对应的掩码则称为遮挡掩码。

利用遮挡图像样本进行特征遮挡对抗网络模型的训练，尤其是高质量的遮挡图像样本进行训练，可以获得生成更优掩码的特征遮挡对抗网络模型，更优地，在特征遮挡对抗网络训练中，可以采用交叉熵的损失函数，具体的表达式为：

其中，为训练图像样本中第p个图像样本的掩码M中(i,j)位置的值，为预测值，n表示训练图像样本个数，d表示训练图像样本大小。

在步骤S03，进行检测网络模型的训练，且训练用的第二图像样本的特征图利用训练后的特征遮挡对抗网络模型添加有遮挡掩码，所述检测网络模型用于基于深度学习的图像目标检测。

如前所述，该检测网络模型是基于深度学习且用于图像目标检测的模型，该步骤中，继续对该检测网络模型进行训练，训练时采用第二图像样本进行，该第二图像样本可以是不同于上述第一图像样本的样本，对于该第二图像样本，在将其生成对应的特征图之后，在特征图上添加遮挡掩码，遮挡掩码是利用上述训练后的特征遮挡对抗网络模型获得的，添加遮挡掩码之后，就在特征图的相应位置处进行了遮挡，也就是说，获得了具有遮挡的第二图像样本的特征图。利用该具有遮挡的特征图进行检测网络模型的训练，可以使得检测网络模型对遮挡情形得到充分训练，提高检测网络模型对遮挡物体检测的准确性。

此外，更进一步地，在进行检测网络模型训练时，可以进行特征遮挡对抗网络模型的交叉训练，一方面利用特征遮挡对抗网络模型为检测网络模型训练时的图像样本添加遮挡掩码，从而，可以利用遮挡样本进行检测网络模型的训练；同时，可以利用检测网络模型训练时，产生的添加有遮挡掩码的第二图像样本的特征图，作为图像样本，继续进行特征遮挡对抗网络模型的训练，也就是利用检测网络模型训练时生成的遮挡样本，继续进行特征遮挡对抗网络模型的训练，再次训练有助于训练得到能生成更优掩码的特征遮挡对抗网络模型。

在检测网络模型训练过程中，需要从候选框中确定出预测框，预测框评价标准对于预测框位置的准确度有着决定性的作用。在本申请更优的实施例中，在进行检测网络模型的训练中，利用非极大值抑制算法(NMS，Non-Maximum Suppression)确定预测框，其中，所述非极大值抑制算法中的预测框评价指标通过不同候选框的定位准确度和位置准确度确定。

具体的，非极大值抑制算法是利用NMS评价指标移除一些多余的候选框，在剩余的候选框中通过相关计算确定出预测框。在该实施例中，非极大值抑制算法中的预测框评价指标通过不同候选框的定位准确度和位置准确度确定，这样，可以综合考虑分类置信度与定位准确度，其更具有合理性，有利于提高预测的准确性。在具体的应用中，该候选框评价指标CL的计算公式可以为：

CL＝γ×sore_class+(1-γ)×score_location； (2)

其中，γ为超级参数，sore_class为分类准确率，score_location为定位准确度，该定位准确度score_location可以为IoU值，该分类准确率sore_class可以通过检测网络模型获得。

此外，在利用该候选框评价指标CL，通过非极大值抑制算法确定预测框时，不同阈值的设置，会产生不同的检测结果，合理设置阈值可以避免误检和漏检，更优地，非极大值抑制算法可以采用如下具有三段阈值设置的公式实现，具体的如下公式：

其中，CL为不同候选框的定位准确度，CL可以为通过上述公式(2)获得。

通过三段阈值设置，对于分差大的候选框，基本为目标准确度不高的边框，对其降低阈值，则该候选框更容易被抑制；而对于分差低的候选框，其为目标准确度高的边框，对其提高阈值，则可以减轻抑制，从而，避免误检和漏检，提高检测的准确度。

进一步地，对于上述提及的与候选框相关的定位准确度，如对第一图像样本进行遮挡时，确定第一图像样本中具有最大定位准确度的候选框时，以及进行检测网络模型的训练中，非极大值抑制算法中的预测框评价指标中采用的位置准确度，都可以利用该预测IoU网络模型来获得。该预测IoU网络模型用于获得不同候选框的定位准确度，该预测IoU网络模型是基于深度学习的模型，可以包括池化层和全连接层。

在具体的应用中，预测IoU网络模型的训练方法可以包括：

生成第三图像样本的候选框集合；

获得所述候选框集合中各候选框的定位准确度；

利用所述训练集合进行预测IoU网络模型的训练。

该第三图像样本可以是与第一图像样本或第二图像样本相同或不同的训练用样本，可以随机地在第三图像样本上进行框选，生成第三图像样本的候选框集合，而后，获得候选框集合中各候选框的定位准确度，该定位准确度为各候选框与真实标记之间的IoU值，在删除定位准确度较小的候选框后，通常是定位准确度小于0.5的候选框，得到第三遮挡图像样本的训练集合C：其中，C_i表示第i个候选框，为第i个候选框与真实标记之间的IoU值，利用该训练集合C进行预测IoU网络模型的训练，在该训练过程中，可以采用平滑损失函数L1，具体表达式为：

其中，n表示候选框个数，iou_i为第i个候选框的预测值和真实标记值之间的IoU值，为第i个候选框与真实标记之间的IoU值。

此外，在具体的应用过程中，候选框内通常还包含有背景图像，背景图像也会对物体检测产生干扰，导致检测的不准确性。在本申请更优的实施例中，检测网络模型中包括全局池化模块以及池化分类模块，池化分类模块用于将全局池化后的特征图根据池化掩码的对应位置进行分类，以获得分类向量。

全局池化模块将输入的样本进行全局平均池化，本申请实施例中，输入的样本为添加有遮挡掩码的特征图，池化分类模块可以包括全连接层、池化掩码层以及向量分类模块，全连接层用于学***均池化的权值，从而区分不同位置的信息，进而通过池化掩码层获得各特征图的池化掩码，并将特征图与池化掩码中对应位置进行相乘运算，进而得到分类向量，通过向量分类模块对分类向量进行分类，向量分类模块例如可以为softmax工具，就获得了分类向量。该分类向量将物体周围背景信息同时考虑进去，会对物体分类产生一定影响，从而，进一步提高检测的准确性。

以上对本申请实施例的图像目标检测的模型建立方法进行了详细的描述，此外，本申请还提供了实现上述方法的图像目标检测的模型建立装置，参考图4所示，包括：

遮挡样本获取单元400，用于对第一图像样本进行遮挡，以获得第一遮挡图像样本；

对抗网络训练单元410，用于利用所述第一遮挡图像样本进行特征遮挡对抗网络模型的训练，所述特征遮挡对抗网络模型用于基于对抗网络获得图像样本的遮挡掩码；

检测网络训练单元420，用于进行检测网络模型的训练，且训练用的第二图像样本的特征图利用训练后的特征遮挡对抗网络模型添加有遮挡掩码，所述检测网络模型用于基于深度学习的图像目标检测。

进一步地，还包括：

进一步地，所述遮挡样本获取单元400中，对第一图像样本进行遮挡，包括：

确定第一图像样本中具有最大定位准确度的候选框；

进一步地，所述进行检测网络模型的训练中，利用非极大值抑制算法确定预测框，其中，所述非极大值抑制算法中的预测框评价指标通过不同候选框的定位准确度和位置准确度确定。

进一步地，所述候选框评价指标CL的计算公式为：

所述非极大值抑制算法的公式为：

其中，CL为不同候选框的定位准确度。

进一步地，还包括：预置的预测IoU网络模型，所述预测IoU网络模型用于获得不同候选框的定位准确度。

进一步地，还包括预测IoU网络模型训练单元，用于生成第三图像样本的候选框集合；获得所述候选框集合中各候选框的定位准确度；去除所述候选框集合中定位准确度小于预设阈值的候选框，以确定第三遮挡图像样本的训练集合；利用所述训练集合进行预测IoU网络模型的训练。

进一步地，所述检测网络模型包括全局池化模块以及池化分类模块，所述池化分类模块用于将全局池化后的特征图根据池化掩码的对应位置进行分类，以获得分类向量。

另外，本申请实施例还提供一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述的图像目标检测的模型建立方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述的图像目标检测的模型建立方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种图像目标检测的模型建立方法，其特征在于，包括：

对第一图像样本进行遮挡，以获得第一遮挡图像样本；

2.根据权利要求1所述的方法，其特征在于，还包括：利用添加有遮挡掩码的特征图作为图像样本，继续进行特征遮挡对抗网络模型的训练。

3.根据权利要求1所述的方法，其特征在于，所述对第一图像样本进行遮挡，包括：

确定第一图像样本中具有最大定位准确度的候选框；

4.根据权利要求1所述的方法，其特征在于，所述进行检测网络模型的训练中，利用非极大值抑制算法确定预测框，其中，所述非极大值抑制算法中的预测框评价指标通过不同候选框的定位准确度和位置准确度确定。

5.根据权利要求4所述的方法，其特征在于，所述候选框评价指标CL的计算公式为：

所述非极大值抑制算法的公式为：

其中，CL为不同候选框的定位准确度。

6.根据权利要求3-5中任一项所述的方法，其特征在于，预置有预测IoU网络模型，所述预测IoU网络模型用于获得不同候选框的定位准确度。

7.根据权利要求6所述的方法，其特征在于，所述预测IoU网络模型的训练方法包括：

生成第三图像样本的候选框集合；

获得所述候选框集合中各候选框的定位准确度；

利用所述训练集合进行预测IoU网络模型的训练。

8.一种图像目标检测的模型建立装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的图像目标检测的模型建立方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的图像目标检测的模型建立方法。