CN109697449A

CN109697449A - 一种目标检测方法、装置及电子设备

Info

Publication number: CN109697449A
Application number: CN201710985820.4A
Authority: CN
Inventors: 卜英家; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2019-04-30

Abstract

本发明实施例提供了一种目标检测方法、装置及电子设备，方法包括：基于预设的特征提取器，对所获得的待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，至少两层目标卷积运算至少包括：最后一层卷积运算；基于预设的区域提取网络模型以及最后一层卷积运算对应的目标特征图，确定待检测图像的疑似目标区域的区域位置信息；基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息，其中，目标信息包括：待检测图像中目标对象的目标类型以及目标位置信息。应用本发明实施例，以实现对目标对象的更准确的检测。

Description

一种目标检测方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种目标检测方法、装置及电子设备。

背景技术

现有的目标检测流程一般为：首先，基于预先训练的特征提取器，对待检测图像进行一系列的卷积、池化操作，以对待检测图像进行特征提取以及降采样；然后，获得最后一个卷积操作完成后所得到的第一特征图，利用预先训练的RPN(Region Proposal Network，区域提取网络)模型基于所获得的第一特征图，提取多个疑似目标区域(即疑似目标对象在待检测图像中的所在位置区域)；进一步，基于所提取的多个疑似目标区域，对所获得的第一特征图进行区域池化操作，即进行ROI(Region of interest，感兴趣区域)_pooling操作，获得每一疑似目标区域对应的特征；进而利用预先训练的分类模型对每一疑似目标区域对应的特征进行分类，确定待检测图像中目标对象的类别以及其在待检测图像中的位置信息，实现对待检测图像中目标对象的检测。上述预先训练的特征提取器、预先训练的RPN模型与上述预先训练的分类模型均为基于样本图像的第二特征图训练所得的模型，其中，上述第二特征图为样本图像进行一系列的卷积、池化操作后，所获得的最后一个卷积操作完成后所得到的特征图。

如图1所示，为现有的目标检测流程的一种示意图，其中，分别对待检测图像进行5次卷积操作(conv1～conv5)和两次池化操作(pooling)后，基于最后一次卷积操作(即“conv5”)后所得的第一特征图，进行“RPN提取proposals”操作(即利用RPN从待检测图像中提取Proposals)，进而，基于所提取的proposals对第一特征图进行“ROI_pooling”操作，获得每一Proposal对应的特征，进而根据预先训练的分类器对每一proposal对应的特征进行“目标分类”操作(即利用预先训练的分类器对每一proposal对应的特征进行分类)，确定待检测图像中目标对象的类别以及其位置信息。

对待检测图像进行的卷积操作次数越多，所获得的第一特征图中的特征的深度越深，特征越具有语义信息，越能更好的描述目标对象。然而，深度越深的特征，所具有的对目标对象的细节信息越少，这就容易造成对待检测图像中尺寸较小的目标对象的检测越困难，甚至检测不到的问题。可见，现有的目标检测流程，会出现对尺寸较小的目标对象的检测不够准确甚至难以检测等问题。

发明内容

本发明实施例的目的在于提供一种目标检测方法、装置及电子设备，以实现对目标对象的更准确的检测。具体技术方案如下：

一方面，本发明实施例提供了一种目标检测方法，所述方法包括：

获得待检测图像；

基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，所述至少两层目标卷积运算至少包括：最后一层卷积运算；

基于预设的区域提取网络模型以及最后一层卷积运算对应的目标特征图，确定所述待检测图像的疑似目标区域的区域位置信息；

基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息，其中，所述目标信息包括：所述待检测图像中目标对象的目标类型以及目标位置信息。

可选地，在所述基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图的步骤之前，所述方法还包括：

建立所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型的过程，所述过程包括：

获得初始的特征提取器、初始的区域提取网络模型以及初始的分类模型；

获得多个样本图像，其中，所述样本图像中包含样本对象；

获得针对每一样本图像的标定信息，其中，所述标定信息包含：所对应样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息；

基于初始的特征提取器，对每一样本图像进行多层卷积运算，获得所述至少两层目标卷积运算各自对应的样本特征图；

基于所获得的每一样本图像的样本特征图、每一样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息，训练所述初始的特征提取器、所述初始的区域提取网络模型以及所述初始的分类模型，得到所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型。

可选地，在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息的步骤之前，所述方法还包括：

基于预设的特征提取器，分别对所述至少两层目标卷积运算中，除最后一层卷积运算外的其他目标卷积运算各自对应的目标特征图，进行目标池化操作，获得所述其他目标卷积运算各自对应池化特征图；

所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息的步骤，包括：

基于预设的分类模型、最后一层卷积运算对应的目标特征图、所述池化特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息。

可选地，所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息的步骤，包括：

针对每一疑似目标区域，基于该疑似目标区域的区域位置信息，对每一目标特征图进行区域池化操作，确定每一目标特征图中该疑似目标区域对应的目标特征；

基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从所述待检测图像中获得目标信息。

可选地，所述基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从所述待检测图像中获得目标信息的步骤，包括：

针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图；

基于预设的分类模型以及所述最终特征图，从所述待检测图像中获得目标信息。

可选地，所述针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图的步骤，包括：

针对每一疑似目标区域，获得每一目标特征图对应的预设权重值；

针对每一疑似目标区域，将每一目标特征图中该疑似目标区域对应的目标特征与该目标特征图对应的预设权重值的乘积的和，作为每一疑似目标区域对应的合成特征；

获得包含每一疑似目标区域对应的合成特征的最终特征图。

另一方面，本发明实施例提供了一种目标检测装置，所述装置包括：

第一获得模块，用于获得待检测图像；

第二获得模块，用于基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，所述至少两层目标卷积运算至少包括：最后一层卷积运算；

第一确定模块，用于基于预设的区域提取网络模型以及最后一层卷积运算对应的目标特征图，确定所述待检测图像的疑似目标区域的区域位置信息；

第三获得模块，用于基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息，其中，所述目标信息包括：所述待检测图像中目标对象的目标类型以及目标位置信息。

可选地，所述装置还包括模型建立模块，所述模型建立模块用于建立所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型，包括第一获得单元、第二获得单元、第三获得单元、第四获得单元和训练得到单元；

所述第一获得单元，用于获得初始的特征提取器、初始的区域提取网络模型以及初始的分类模型；

所述第二获得单元，用于获得多个样本图像，其中，所述样本图像中包含样本对象；

所述第三获得单元，用于获得针对每一样本图像的标定信息，其中，所述标定信息包含：所对应样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息；

所述第四获得单元，用于基于初始的特征提取器，对每一样本图像进行多层卷积运算，获得所述至少两层目标卷积运算各自对应的样本特征图；

所述训练得到单元，用于基于所获得的每一样本图像的样本特征图、每一样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息，训练所述初始的特征提取器、所述初始的区域提取网络模型以及所述初始的分类模型，得到所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型。

可选地，所述装置还包括第四获得模块；

所述第四获得模块，用于在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息之前，基于预设的特征提取器，基于预设的特征提取器，分别对所述至少两层目标卷积运算中，除最后一层卷积运算外的其他目标卷积运算各自对应的目标特征图，进行目标池化操作，获得所述其他目标卷积运算各自对应池化特征图；

所述第三获得模块，具体用于

可选地，所述第三获得模块包括第一确定单元和第五获得单元；

所述第一确定单元，用于针对每一疑似目标区域，基于该疑似目标区域的区域位置信息，对每一目标特征图进行区域池化操作，确定每一目标特征图中该疑似目标区域对应的目标特征；

所述第五获得单元，用于基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从所述待检测图像中获得目标信息。

可选地，所述第五获得单元包括确定子模块和获得子模块；

所述确定子模块，用于针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图；

所述获得子模块，用于基于预设的分类模型以及所述最终特征图，从所述待检测图像中获得目标信息。

可选地，所述确定子模块，具体用于

获得包含每一疑似目标区域对应的合成特征的最终特征图。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现本发明实施例所提供的任一所述的目标检测方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的任一所述的目标检测方法。

本发明实施例中，基于预设的特征提取器，对所获得的待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，至少两层目标卷积运算至少包括：最后一层卷积运算；基于预设的区域提取网络模型以及最后一层卷积运算对应的目标特征图，确定待检测图像的疑似目标区域的区域位置信息；基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息，其中，目标信息包括：待检测图像中目标对象的目标类型以及目标位置信息。

可见，本发明实施例中，用于对象分类的特征不仅包括：最后一层卷积运算后所获得的具有较好的语义信息的特征，还包括除最后一层卷积运算外的其他层卷积运算后所获得的，具有较好的细节信息的特征，通过具有较好的细节信息的特征以及具有较好的语义信息的特征，能够实现对到尺寸较小的目标对象的更准确的定位，即获得更准确的尺寸较小的目标对象的位置信息以及目标对象的类型。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为目标检测流程的一种示意图；

图2为本发明实施例所提供的一种目标检测方法的流程示意图；

图3为建立预设的特征提取器、预设的区域提取网络模型以及预设的分类模型的过程的一种流程示意图；

图4为本发明实施例所提供的一种目标检测方法的另一流程示意图；

图5为目标检测流程的另一示意图；

图6为本发明实施例所提供的一种目标检测装置的结构示意图；

图7为模型建立模块的一种结构示意图；

图8为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种目标检测方法、装置及电子设备，以实现对目标对象的更准确的检测。

如图2所示，本发明实施例提供了一种目标检测方法，可以包括如下步骤：

S201：获得待检测图像；

可以理解的是，本发明实施例所提供的一种目标检测方法，可以应用于任一可以获得待检测图像的电子设备中。该电子设备可以为电脑、智能手机等。

上述待检测图像可以为任一类型的图像，本发明实施例并不对待检测图像的类型进行限定。

S202：基于预设的特征提取器，对待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，至少两层目标卷积运算至少包括：最后一层卷积运算；

本步骤中，可以将待检测图像输入上述预设的特征提取器中，利用预设的特征提取器对待检测图像进行多层卷积运算。预设的特征提取器中可以包含多层卷积层，例如5层，每一层卷积层均可以实现对待检测图像的卷积运算。其中，每一层卷积运算完成后，均可以得到待检测图像对应的一组特征图，每一组特征图中可以包含至少一张特征图，每一特征图中可以包含：所对应卷积运算完成后所得到的特征。每一特征图中所包含的特征可能存在不同。上述预设的特征提取器可以为：基于样本数据训练所得的提取器。

在一种实现方式中，上述预设的特征提取器中可以包含多层卷积层，每一层卷积层对应一层卷积运算，还可以包含多层池化层，每一层池化层对应一层池化操作，以对特征图进行池化。

本步骤中，对待检测图像进行的卷积运算的层数越多，所获得特征图中所包含的特征的深度越深；深度越深的特征，其越具有语义信息，即其越能更好的描述对象；所利用的特征越具有语义信息，越能准确地检测到不受细节信息影响的对象并进行定位，其中，不受细节影响的对象可以为：尺寸较大的对象，尺寸较大的对象可以为：在图像中所占面积与该图像的总面积的比值不低于第一预定阈值的对象。然而，深度越深的特征，其所包含的对象的细节信息越少；所利用的特征所包含的对象的细节信息越少，导致越不能准确地检测到尺寸较小的对象并进行定位，其中，上述尺寸较小的对象可以为：在图像中所占面积与该图像的总面积的比值低于第二预定阈值的对象。上述预定阈值(包括第一预定阈值和第二预定阈值)可以为：检测人员根据实际情况预先设置的数值，其中，第一预定阈值可以大于或等于第二预定阈值。

可以预先从多层卷积运算中确定出至少两层卷积运算，作为目标卷积运算，其中，上述至少两个目标卷积运算中可以至少包含：最后一层卷积运算，还可以包含：多层卷积运算中除上述最后一层卷积运算外的、其他卷积运算中任一层或多层卷积运算。进而，获得上述至少两层目标卷积运算对应的特征图，作为本发明实施例中所提的目标特征图。最后一层卷积运算后所得到的特征图中所包含的特征具有较好的语义信息，而上述的其他卷积运算中任一层或多层卷积运算中的特征所包含的细节信息较多。

可以理解的是，一层卷积运算完成后，所得到的特征图(输出)，可以作为该层卷积运算的下一层卷积运算的输入。

在一种实现方式中，上述预设的特征提取器中包含5层卷积层以及2层池化层，电子设备基于上述预设的特征提取器，可以对待检测图像进行5层卷积运算，和两层池化操作，其中，第一层卷积层对待检测图像进行第一层卷积运算后得到的特征图，可以作为第一层池化层的输入；第一层池化层对所输入的特征图进行第一层池化操作后得到的特征图，可以作为第二层卷积层的输入；第二层卷积层对所输入的特征图进行第二层卷积运算后得到的特征图，可以作为第二层池化层的输入；第二层池化层对所输入的特征图进行第二层池化操作后得到的特征图，可以作为第三层卷积层的输入；第三层卷积层对所输入的特征图进行第三层卷积运算后得到的特征图，可以作为第四层卷积层的输入；第四层卷积层对所输入的特征图进行第四层卷积运算后得到的特征图，可以作为第五层卷积层的输入。后续的，电子设备可以将上述每层池化层所输出的特征图，以及第五层卷积层所输出的特征图，作为本发明实施例中所提的目标特征图。在一种情况下，上述第一层池化操作与第二层池化操作均可以与后续提到的目标池化操作相同。

在一种实现方式中，可以预先将第五层卷积层，以及前述第一层卷积层至第四层卷积层中的任一层卷积层或多层卷积层，作为目标卷积层，即将该目标卷积层对应的卷积运算确定为目标卷积运算。获得第五层卷积运算(目标卷积运算)对应的特征图，以及，可以获得前述第一层卷积运算至第四层卷积运算对应的特征图中的任意一层或多层(目标卷积运算)的特征图，作为本发明实施例中所提的目标特征图。例如，可以是将第五层卷积运算以及第一层卷积运算，作为本发明实施例中所提的目标卷积运算，分别获得上述两层目标卷积运算对应的特征图，作为本发明实施例中所提的目标特征图；又例如：可以是将第五层卷积运算、第一层卷积运算以及第二层卷积运算，作为本发明实施例中所提的目标卷积运算，分别获得上述三层目标卷积运算对应的特征图，作为本发明实施例中所提的目标特征图，等等。

S203：基于预设的区域提取网络模型以及最后一层卷积运算对应目标特征图，确定待检测图像的疑似目标区域的区域位置信息；

S204：基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息，其中，目标信息包括：待检测图像中目标对象的目标类型以及目标位置信息。

上述预设的区域提取网络模型可以为：基于训练数据以及初始的区域提取网络模型，训练所得的模型。上述预设的区域提取网络模型可以基于最后一层卷积运算对应的目标特征图，确定待检测图像的疑似目标区域的区域位置信息，即待检测图像中的疑似目标对象所在区域。上述训练数据可以包括：包含各类型的对象的图像，例如：后续提到的样本图像，可以包括但不限于人脸、动物、车辆、车牌、行人等类型的对象，本发明实施例并不对对象的类型进行限定。

上述预设的区域提取网络模型采用的算法可以为预设的深度学习算法：例如基于卷积神经网络的算法，具体如BP算法(Backpropagation Algorithm，反向传播算法)。

上述预设的分类模型可以为基于训练数据以及初始的分类模型，训练所得的模型，上述预设的分类模型可以用于：基于所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息，其中，目标信息包括：待检测图像中目标对象的目标类型以及目标位置信息。可以理解的是，上述待检测图像中可以包含至少一个目标对象，并且，每一目标对象的目标类型可以相同，也可以不同，这都是可以的。

其中，上述训练数据可以与上述预设的区域提取网络模型的训练数据相同。上述预设的区域提取网络模型与预设的分类模型可以基于同一组训练数据与预设的深度学习算法，同时训练获得。

本发明实施例中，用于分类的目标特征图不仅可以包括：最后一层卷积运算后所获得的目标特征图，其中包含具有较好的语义信息的特征，还可以包括除最后一层卷积运算外的其他层卷积运算后所获得的目标特征图，其中包含具有较好的细节信息的特征，通过具有较好的细节信息的特征以及具有较好的语义信息的特征，能够实现对到尺寸较小的目标对象的更准确的定位，即获得更准确的尺寸较小的目标对象的位置信息和类型。

在一种实现方式中，如图3所示，在所述基于预设的特征提取器，对待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图(S202)的步骤之前，所述方法还可以包括：

建立预设的特征提取器、预设的区域提取网络模型以及预设的分类模型的过程，所述过程可以包括：

S301：获得初始的特征提取器、初始的区域提取网络模型以及初始的分类模型；

S302：获得多个样本图像，其中，样本图像中包含样本对象；

S303：获得针对每一样本图像的标定信息，其中，标定信息包含：所对应样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息；

S304：基于初始的特征提取器，对每一样本图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的样本特征图；

S305：基于所获得的每一样本图像的样本特征图、每一样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息，训练初始的特征提取器、初始的区域提取网络模型以及初始的分类模型，得到预设的特征提取器、预设的区域提取网络模型以及预设的分类模型。

可以理解的是，上述样本对象中可以包含不同类型的对象，上述目标对象的目标类型可以为上述样本对象的样本类型的子集，例如：上述样本对象的样本类型包括：A、B、C、D和E时，上述目标对象的目标类型可以为A或B或C或D或E。

上述对样本图像进行卷积运算的流程与对待检测图像进行卷积运算的流程可以相同。例如：在对待检测图像进行检测过程中，对待检测图像进行5层卷积运算时，在训练初始的特征提取器、初始的区域提取网络模型以及初始的分类模型的过程中，既可以理解为基于每一样本图像的样本特征图、每一样本图像中目标对象的预期类型以及该目标对象在该样本图像中的预期位置信息调整初始的特征提取器、初始的区域提取网络模型以及初始的分类模型的参数的过程，也可以对样本图像进行5层卷积运算。又例如：在对待检测图像进行检测过程中，将第一层卷积运算以及第五层卷积运算(最后一层卷积运算)作为目标卷积运算，且获得上述两层卷积运算完成后的特征图，作为目标特征图时；在训练过程中，也会将第一层卷积运算以及第五层卷积运算(最后一层卷积运算)作为目标卷积运算，并获得上述两层卷积运算完成后的特征图，作为目标特征图。

获得多个样本图像后，检测人员可以针对每一样本图像进行标定，在一种实现方式中，标定过程可以为：针对每一样本图像，检测人员对样本图像中所包含的样本对象标定预期类型，以及标定样本对象在样本图像中的预期位置信息，获得针对每一样本图像的标定信息，其中，标定样本对象在样本图像中的位置信息可以为：针对样本对象所在区域标定矩形框。后续的，电子设备对每一样本图像进行多层卷积运算，提取每一样本图像中所包含的样本对象的样本特征，获得至少两层目标卷积运算对应的样本特征图，并基于所标定的标定信息、上述样本特征图训练初始的特征提取器、初始的区域提取网络模型以及初始的分类模型，直到上述初始的分类模型所输出的针对样本图像中的样本对象的当前位置信息与所对应的预期位置信息匹配，且，上述初始的分类模型所输出的针对样本图像中的样本对象的当前类型与所对应的预期类型匹配，得到预设的特征提取器、预设的区域提取网络模型以及预设的分类模型。

其中，一种实现方式中，上述初始的分类模型所输出的针对样本图像中的样本对象的当前位置信息与所对应的预期位置信息匹配的情况可以是：上述初始的分类模型所输出的针对样本图像中的样本对象的当前位置信息与所对应的预期位置信息相同的概率超过第一预定概率阈值；上述初始的分类模型所输出的针对样本图像中的样本对象的当前类型与所对应的预期类型匹配的情况可以是：上述初始的分类模型所输出的针对样本图像中的样本对象的当前类型与所对应的预期类型相同的概率超过第二预定概率阈值，

另一种实现方式中，上述初始的分类模型所输出的针对样本图像中的样本对象的当前位置信息与所对应的预期位置信息匹配的情况可以是：预设的损失函数基于所输出的当前位置信息与所对应预期位置信息所计算的差值，在预设允许损失范围内；上述初始的分类模型所输出的针对样本图像中的样本对象的当前类型与所对应的预期类型匹配的情况可以是：预设的损失函数基于所输出的对象的当前类型与所对应的预期类型所计算的差值，在预设允许损失范围内。

其中，每一样本图像中样本对象对应一预期类型以及一预期位置信息，且，每一样本图像中对象对应一所输出的当前类型以及一当前位置信息，此时，可以确定：预期类型与所输出的当前类型存在对应关系，且，预期位置信息与当前位置信息存在对应关系。

需要说明的是，上述样本图像中所包含的对象中，每一预期类型对应的样本对象的数量可以近似相等，即各预期类型对应的样本对象的数量之间的差值不大于预设差值阈值。上述每一预期类型对应的样本对象的数量越多，训练所得的预设的特征提取器、预设的区域提取网络模型以及预设的分类模型越稳定，基于上述预设的特征提取器、预设的区域提取网络模型以及预设的分类模型所检测的结果越准确。

在一种实现方式中，如图4所示，所述方法可以包括如下步骤：

S401：获得待检测图像；

S402：基于预设的特征提取器，对待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，至少两层目标卷积运算至少包括：最后一层卷积运算；

其中，上述S401与图2中所示的S201相同，上述S402与图2中所示的S202相同。

S403：基于预设的特征提取器，分别对至少两层目标卷积运算中，除最后一层卷积运算外的其他目标卷积运算各自对应的目标特征图，进行目标池化操作，获得其他目标卷积运算各自对应池化特征图；

为了减少目标检测过程中的计算量，减轻电子设备的运算负担，对待检测图像进行一层卷积运算后，可以对卷积运算完成后所获得的特征图进行目标池化操作，以对上述特征图进行降采样。后续的，可以将降采样后的特征图作为下一层卷积运算的输入。在本发明实施例中，电子设备对目标卷积运算中最后一层卷积运算除外的其他目标卷积运算各自对应的目标特征图进行目标池化操作。上述目标池化操作可以用“pooling”标识。

S404：基于预设的区域提取网络模型、最后一层卷积运算对应的目标特征图，确定待检测图像的疑似目标区域的区域位置信息；

其中，上述S404与图2所示的S203相同。

S405：基于预设的分类模型、最后一层卷积运算对应的目标特征图、池化特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息，其中，目标信息包括：待检测图像中目标对象的目标类型以及目标位置信息。

在基于预设的分类模型、最后一层卷积运算对应的第一目标特征图、池化特征图以及所确定的疑似目标区域的区域位置信息，确定待检测图像中目标对象的目标类型以及目标对象在待检测图像中的第二位置信息时，可以首先基于所确定的疑似目标区域的区域位置信息，将上述最后一层卷积运算对应的第一目标特征图以及池化特征图中每一疑似目标区域对应的特征进行融合，后续的，利用融合后的特征以及预设的分类模型，确定待检测图像中目标对象的目标类型以及目标对象在待检测图像中的目标位置信息。

举例而言，对待检测图像进行5层卷积运算，将第一层卷积运算、第二层卷积运算以及第五层卷积运算作为目标卷积运算，并将上述三层卷积运算完成后所获得特征图，作为目标特征图；

对待检测图像X进行第一层卷积运算，并对第一层卷积运算完成后的特征图，进行目标池化操作，得到池化特征图X1；

对池化特征图X1进行第二层卷积运算，并对第二层卷积运算完成后的特征图，进行目标池化操作，得到池化特征图X2；

对池化特征图X2进行第三层卷积运算，并对第三层卷积运算完成后的特征图，进行第四层卷积运算，并对第四层卷积运算完成后的特征图，进行第五层卷积运算，得到进行第五层卷积运算完成后的特征图，作为目标特征图X3；

基于预设的区域提取网络模型以及目标特征图X3，确定待检测图像X的疑似目标区域的区域位置信息，确定出3个疑似目标区域分别为：疑似目标区域一，对应区域位置信息1；疑似目标区域二，对应区域位置信息2；疑似目标区域三，对应区域位置信息3；

后续的，基于预设的分类模型、上述池化特征图X1、池化特征图X2以及目标特征图X3以及上述疑似目标区域的区域位置信息，从待检测图像X中获得目标信息，即获得待检测图像X中所包含的每一目标对象的目标类型以及目标位置信息。

在一种实现方式中，所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从待检测图像中获得目标信息的步骤，可以包括：

基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从待检测图像中获得目标信息。

其中，基于预设的区域提取网络模型以及所获得的目标特征图，从待检测图像中所确定的疑似目标区域可以有多个，其中，每一疑似目标区域的大小可能不同，通过上述区域池化操作，可以将上述大小可能不同的疑似目标区域转化为相同大小的区域，进一步的，可以基于每一区域池化操作后的疑似目标区域的区域位置信息，融合所获得的目标特征图中该疑似目标区域对应的特征。可以理解的是，上述进行区域池化操作的过程可以是：针对每一疑似目标区域所标记的矩形框，将所标记的每一矩形框的基于待检测图像所建立的坐标系下的坐标，转化为对应的目标特征图所建立的坐标系的坐标，进一步，基于上述转化后的坐标，在每一目标特征图中，确定每一疑似目标区域对应的特征，之后可以将上述矩形框的坐标系再转化为待检测图像所建立的坐标系，即可以是将在每一目标特征图中所确定的特征的所在区域，基于对应的矩形框进行处理，将各特征的所在区域转化为相同大小的区域，进而基于对应的矩形框，进行特征融合。

在一种实现方式中，上述区域池化操作可以用“ROI_pooling”标识，即基于该疑似目标区域的区域位置信息，对每一目标特征图进行进行“ROI_pooling”操作，确定每一目标特征图中该疑似目标区域对应的目标特征。上述疑似目标区域可以用“proposal”标识。

区域位置信息1、区域位置信息2、区域位置信息3和区域位置信息4

承接上述例子，针对每一疑似目标区域，基于该疑似目标区域的区域位置信息，对每一目标特征图进行区域池化操作，确定每一目标特征图中该疑似目标区域对应的目标特征；具体的，基于区域位置信息1，分别对池化特征图X1、池化特征图X2和目标特征图X3，进行区域池化操作“ROI_pooling”，获得疑似目标区域一对应的目标特征a1、目标特征a2和目标特征a3；基于区域位置信息2，分别对池化特征图X1、池化特征图X2和目标特征图X3，进行区域池化操作“ROI_pooling”，获得疑似目标区域二对应的目标特征b1、目标特征b2和目标特征b3；基于区域位置信息3，分别对池化特征图X1、池化特征图X2和目标特征图X3，进行区域池化操作“ROI_pooling”，获得疑似目标区域三对应的目标特征c1、目标特征c2和目标特征c3；

后续的，基于预设的分类模型，疑似目标区域一对应的目标特征a1、目标特征a2和目标特征a3，疑似目标区域二对应的目标特征b1、目标特征b2和目标特征b3，疑似目标区域三对应的目标特征c1、目标特征c2和目标特征c3，从待检测图像X中获得目标信息，即获得待检测图像X中目标对象的目标类型以及目标对象在待检测图像中的目标位置信息。

在一种实现方式中，所述基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从待检测图像中获得目标信息的步骤，可以包括：

基于预设的分类模型以及所述最终特征图，从待检测图像中获得目标信息。

可以理解的是，每一层目标卷积运算完成后，所获得的目标特征图中所包含的特征，均为对应待检测图像的特征，其中，卷积运算层数越深，所获得的特征图中所包含的特征越具有语义信息，所丢失的细节信息越多。反之，卷积运算层数越浅，所获得的特征图中所包含的特征所包含的细节信息越多，越不具有语义信息。举例而言，当对待检测图像进行5层卷积运算时，对第一层卷积运算完成后所获得的特征图a中所包含的特征来说，相较于其它层卷积运算完成后所获得的特征图b、特征图c、特征图d、特征图e中所包含的特征，特征图a所包含的特征的细节信息可能最多，而所包含的特征可能最不具有语义信息。

本发明实施例中，在利用不同层的目标卷积运算所获得的目标特征图中所包含的特征，从待检测图像中获得目标信息，即确定所包含的目标对象的目标类型以及目标位置信息之前，可以先基于每一疑似目标区域的区域位置信息，将上述所获得的目标特征图中每一疑似目标区域对应的特征进行融合，后续的直接利用融合后所获得的合成特征，即包含每一疑似目标区域对应的合成特征的最终特征图，执行后续的目标检测流程。

举例而言，获得待检测图像Y的目标特征图分别为：目标特征图Y1和目标特征图Y2，其中，目标特征图Y2为最后一层卷积运算对应的目标特征图；

基于预设的区域提取网络模型、上述目标特征图Y2,，确定待检测图像的疑似目标区域的区域位置信息，其中，疑似目标区域有两个，分别为疑似目标区域四，对应区域位置信息4；和，疑似目标区域五，对应区域位置信息5；

疑似目标区域四在目标特征图Y1中对应目标特征m1，在目标特征图Y2中对应目标特征n1；

疑似目标区域五在目标特征图Y1中对应目标特征m2，在目标特征图Y2中对应目标特征n2；

分别基于疑似目标区域四，融合目标特征m1和目标特征n1；基于疑似目标区域五，融合目标特征m2和目标特征n2，获得最终特征图。

在一种实现方式中，所述针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图的步骤，可以包括：

获得包含每一疑似目标区域对应的合成特征的最终特征图。

可以预先为每一层目标卷积运算，即每一目标特征图设置对应的预设权重值，进一步的，将每一目标特征图中每一疑似目标区域对应的特征与所对应的预设权重值的乘积的和，作为每一疑似目标区域对应的合成特征。

承接上述待检测图像Y的例子，每一目标特征图对应的预设权重值，分别为：目标特征图Y1对应预设权重值1，目标特征图Y2对应预设权重值2；

合成特征1＝目标特征m1*预设权重值1+目标特征n1*预设权重值2；

合成特征2＝目标特征m2*预设权重值1+目标特征n2*预设权重值2。

下面以一具体实施例说明本发明实施例所提供的一种目标检测流程，如图5：

获得待检测图像A，并对待检测图像A进行5层卷积运算，其中，每层卷积运算分别用“conv1～conv5”标识，如图5中所示，其中，第一层卷积运算“conv1”、第二层卷积运算“conv2”以及第五层卷积运算“conv5”，作为目标卷积运算；

在第一层卷积运算“conv1”完成后进行一次目标池化操作，其中，目标池化操作用“pooling”标识，如图5中所示，在第二层卷积运算“conv2”完成后进行一次目标池化操作，用“pooling”标识，如图5中所示；

获得目标特征图B，可以包括：每一目标池化操作完成后所获得的池化特征图B1和B2，以及第五层卷积运算完成后所获得的目标特征图B3；

基于预设的区域提取网络模型C以及目标特征图B3，确定待检测图像A的疑似目标区域的区域位置信息；上述疑似目标区域均可以用“proposal”标识，如图5中所示，上述疑似目标区域可以为多个，此时，可以用“proposals”标识；

针对每一疑似目标区域，基于该疑似目标区域的区域位置信息，对上述池化特征图B1和B2、目标特征图B3进行区域池化操作，确定上述池化特征图B1和B2、目标特征图B3中该疑似目标区域对应的目标特征，如图5所示，区域池化操作可以用“ROI_pooling”标识；

后续的，针对每一疑似目标区域，融合上述池化特征图B1和B2、目标特征图B3中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图，如图5所示，用“多特征融合”标识，获得包含每一疑似目标区域对应的合成特征的最终特征图；

进一步的，基于预设的分类模型以及最终特征图，从待检测图像中获得目标信息，如图5所示，可以用“目标分类”标识。

相应于上述方法实施例，本发明实施例提供了一种目标检测装置，如图6所示，所述装置可以包括：

第一获得模块610，用于获得待检测图像；

第二获得模块620，用于基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图，其中，所述至少两层目标卷积运算至少包括：最后一层卷积运算；

第一确定模块630，用于基于预设的区域提取网络模型以及最后一层卷积运算对应的目标特征图，确定所述待检测图像的疑似目标区域的区域位置信息；

第三获得模块640，用于基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息，其中，所述目标信息包括：所述待检测图像中目标对象的目标类型以及目标位置信息。

本发明实施例中，用于分类的目标特征图不仅可以包括：最后一层卷积运算后所获得的目标特征图，其中包含具有较好的语义信息的特征，还可以包括除最后一层卷积运算外的其他层卷积运算后所获得的目标特征图，其中包含具有较好的细节信息的特征，通过具有较好的细节信息的特征以及具有较好的语义信息的特征，能够实现对到尺寸较小的目标对象的更准确的定位，即获得更准确的尺寸较小的目标对象的位置信息以及类型。

在一种实现方式中，如图7所示，所述装置还包括模型建立模块700，所述模型建立模块700用于建立所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型，包括第一获得单元701、第二获得单元702、第三获得单元703、第四获得单元704和训练得到单元705；

所述第一获得单元701，用于获得初始的特征提取器、初始的区域提取网络模型以及初始的分类模型；

所述第二获得单元702，用于获得多个样本图像，其中，所述样本图像中包含样本对象；

所述第三获得单元703，用于获得针对每一样本图像的标定信息，其中，所述标定信息包含：所对应样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息；

所述第四获得单元704，用于基于初始的特征提取器，对每一样本图像进行多层卷积运算，获得所述至少两层目标卷积运算各自对应的样本特征图；

所述训练得到单元705，用于基于所获得的每一样本图像的样本特征图、每一样本图像中样本对象的预期类型以及该样本对象在该样本图像中的预期位置信息，训练所述初始的特征提取器、所述初始的区域提取网络模型以及所述初始的分类模型，得到所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型。

在一种实现方式中，所述装置还可以包括第四获得模块；

所述第四获得模块，用于在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息之前，基于预设的特征提取器，分别对所述至少两层目标卷积运算中，除最后一层卷积运算外的其他目标卷积运算各自对应的目标特征图，进行目标池化操作，获得所述其他目标卷积运算各自对应池化特征图；

所述第三获得模块640，具体用于

在一种实现方式中，所述第三获得模块640可以包括第一确定单元和第五获得单元；

在一种实现方式中，所述第五获得单元包括确定子模块和获得子模块；

在一种实现方式中，所述确定子模块，具体用于

获得包含每一疑似目标区域对应的合成特征的最终特征图。

相应于上述方法实施例，本发明实施例还提供了一种电子设备，如图8所示，包括处理器810、通信接口820、存储器830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信，

存储器830，用于存放计算机程序；

处理器810，用于执行存储器830上所存放的计算机程序时，可以实现如下步骤：

获得待检测图像；

可选地，在所述基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图之前，还包括：

获得多个样本图像，其中，所述样本图像中包含样本对象；

可选地，在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息之前，还包括：

所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息，包括：

可选地，所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息，包括：

可选地，所述基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从所述待检测图像中获得目标信息，包括：

可选地，所述针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图，包括：

获得包含每一疑似目标区域对应的合成特征的最终特征图。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

相应于上述方法实施例，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的所述目标检测方法，其中，目标检测方法可以包括步骤：

获得待检测图像；

可选地，在所述基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图之前，所述方法还包括：

获得多个样本图像，其中，所述样本图像中包含样本对象；

可选地，在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息之前，所述方法还包括：

获得包含每一疑似目标区域对应的合成特征的最终特征图。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获得待检测图像；

2.根据权利要求1所述的方法，其特征在于，在所述基于预设的特征提取器，对所述待检测图像进行多层卷积运算，获得至少两层目标卷积运算各自对应的目标特征图的步骤之前，所述方法还包括：

获得多个样本图像，其中，所述样本图像中包含样本对象；

3.根据权利要求1或2所述的方法，其特征在于，在所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息的步骤之前，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述基于预设的分类模型、所获得的目标特征图以及所确定的疑似目标区域的区域位置信息，从所述待检测图像中获得目标信息的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于预设的分类模型以及每一目标特征图中每一疑似目标区域对应的目标特征，从所述待检测图像中获得目标信息的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述针对每一疑似目标区域，融合每一目标特征图中该疑似目标区域对应的目标特征，获得包含每一疑似目标区域对应的合成特征的最终特征图的步骤，包括：

获得包含每一疑似目标区域对应的合成特征的最终特征图。

7.一种目标检测装置，其特征在于，所述装置包括：

第一获得模块，用于获得待检测图像；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括模型建立模块，所述模型建立模块用于建立所述预设的特征提取器、所述预设的区域提取网络模型以及所述预设的分类模型，包括第一获得单元、第二获得单元、第三获得单元、第四获得单元和训练得到单元；

9.根据权利要求7或8所述的装置，其特征在于，所述装置还包括第四获得模块；

所述第三获得模块，具体用于

10.根据权利要求7或8所述的装置，其特征在于，所述第三获得模块包括第一确定单元和第五获得单元；

11.根据权利要求10所述的装置，其特征在于，所述第五获得单元包括确定子模块和获得子模块；

12.根据权利要求11所述的装置，其特征在于，所述确定子模块，具体用于

获得包含每一疑似目标区域对应的合成特征的最终特征图。

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现权利要求1-6任一所述的目标检测方法。