WO2019184604A1

WO2019184604A1 - 一种检测目标图像的方法及装置

Info

Publication number: WO2019184604A1
Application number: PCT/CN2019/074761
Authority: WO
Inventors: 白博; 朱博; 毛坤
Original assignee: 华为技术有限公司
Priority date: 2018-03-27
Filing date: 2019-02-11
Publication date: 2019-10-03
Also published as: CN110310301B; CN110310301A

Abstract

本申请公开了一种检测目标图像的方法及装置，属于通信领域。所述方法包括：通过获取待检测图片对应的前景运动图像以及获取对所述待检测图片进行卷积运算得到的第一特征图片；检测所述第一特征图片中的目标图像得到第一侯选框配置信息集合，所述第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息；根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合；根据所述第二侯选框配置信息集合，在所述待检测图片中添加检测框，所述检测框中包括所述待检测图片中的至少一个目标图像。本申请能够提高检测精度。

Description

一种检测目标图像的方法及装置

本申请要求于2018年3月27日提交中国国家知识产权局、申请号为201810258574.7、发明名称为“一种检测目标图像的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，特别涉及一种检测目标图像的方法及装置。

背景技术

伴随着平安城市的建设，目前布置了大量监控摄像头，这些监控摄像头用于拍摄监控视频。对于每个监控摄像头拍摄的监控视频，需要检测监控视频中的每帧图片中的目标图像，目标图像可以为监控视频中处于运动状态的人体图像和/或车辆图像等。对图片执行目标图像检测操作后，该图片中使用矩形框框住处于运动状态的人体图像或车辆图像等目标图像，以便于后续对某个人进行跟踪或对某个车辆进行跟踪等。

目前可以采用如下方式检测图片中的目标图像，可以为：将图片输入到卷积神经网络(Convolutional Neural Network，CNN)，该图片在CNN经过多次卷积运算后得到第一特征图片和第二特征图片，第一特征图片经过的卷积运算次数小于第二特征图片经过的卷积运算次数。将第一特征图片输入到区域侯选网络(Region Proposal Network，RPN)，通过RPN获取至少一个侯选框中的每个侯选框在第一特征图片中的位置信息和置信得分，在第一特征图片中每个侯选框框住一个目标图像，侯选框的位置信息包括该侯选框的一对对角点的位置，侯选框的置信得分用于表示该侯选框框住的目标图像的状态为运动状态的概率。根据置信得分最大的N个侯选框中的每个侯选框的位置信息和第二特征图片，在该图片中添加每个侯选框对应的检测框以及该检测框中包括的目标图像的类型。

在实现本申请的过程中，发明人发现现有技术至少存在以下问题：

置信得分最大的N个侯选框中存在部分侯选框框住的目标图像不是完整的目标图像，例如有些侯选框中可能框住部分人体图像或部分车辆图像，这样根据该部分侯选框在图片中添加的检测框中的目标图像也是不完整的目标图像，降低检测精度。

发明内容

为了提高检测精度，本申请实施例提供了一种检测目标图像的方法及装置。所述技术方案如下：

第一方面，本申请提供了一种检测目标图像的方法，所述方法通过获取待检测图片对应的前景运动图像以及获取对所述待检测图片进行卷积运算得到的第一特征图片，所述前景运动图像包括所述待检测图片中处于运动状态的目标图像和除所述目标图像外的背景图像；检测所述第一特征图片中的目标图像得到第一侯选框配置信息集合，所述第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息，在所述第一特征图片中所述每个侯选框内包括至少一个目标图像，所述第一特征图片中的目标图像与所述待检测图片中的目标图像相同；根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合；根据所述第二侯选框配置信息集合，在所述待检测图片中添加检测框，所述检测框中包括所述待检测图片中的至少一个目标图像。由于从第一侯选框配置信息集合过滤掉包括非完整目标对象的侯选框的配置信息，得到第二侯选框配置信息集合，所以根据第二侯选框配置信息集合在待检测图片中添加检测框，可以提高检测精度。

在第一方面的一种可能的实现方式中，通过对所述待检测图片进行混合高斯背景建模，得到所述待检测图片对应的前景运动图像。这样可以通过该前景运动图像，以实现从第一侯选框配置信息集合中过滤掉包括非完整目标对象的侯选框的配置信息。

在第一方面的一种可能的实现方式中，根据所述前景运动图像，计算所述前景运动图像对应的积分图；根据所述积分图从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息。由于得到前景运动图像对应的积分图，这样可以根据积分图过滤第一侯选框配置信息集合中的配置信息，通过积分图可以提高过滤速度，进而提高检测效率。

在第一方面的一种可能的实现方式中，根据目标侯选框的配置信息，获取所述目标侯选框在所述积分图中对应的积分图区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；根据所述积分图区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。由于获取到目标侯选框对应的积分图区域，根据该积分图区域可以减小计算该比值的计算量，从而提高了计算速度。

在第一方面的一种可能的实现方式中，获取位于所述积分图区域的四个顶点位置的像素点的积分值；根据所述获取的各像素点的积分值，计算位于所述目标侯选框内的目标图像面积；根据所述目标侯选框的配置信息，计算所述目标侯选框的面积；计算所述目标图像面积与所述目标侯选框的面积之间的比值。其中，根据四个顶位置的像素点的积分值，计算目标图像面积所需要的计算量较小，从而能够快速计算出目标图像面积，提高了计算效率。

在第一方面的一种可能的实现方式中，根据目标侯选框的配置信息，获取所述目标侯选框在所述前景运动图像中对应的图像区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；根据所述图像区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。这样根据图像区域就可以确定是否过滤掉目标侯选框，简化了方案实现逻辑。

在第一方面的一种可能的实现方式中，统计所述图像区域中属于目标图像的像素点数目和所述图像区域的总像素点数目；计算所述像素点数目与所述总像素点数目之间的比值，得到位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值。

在第一方面的一种可能的实现方式中，获取对所述待检测图片进行卷积运算得到的第二特征图片，对所述第一特征图片进行卷积运算的次数小于对所述第二特征图片进行卷积运算的次数；根据所述第二特征图片和所述第二侯选框配置信息集合，在所述待检测图片中添加检测框和所述检测框内的目标图像的类型。由于第二侯选框配置信息集合已被过滤掉大量的侯选框的配置信息，这样根据第二侯选框配置信息集合，在待检测图片添加检测框时可以减小运算量，进而提高检测效率。

第二方面，本申请提供了一种检测目标图像的装置，用于执行第一方面或第一方面的任意一种可能的实现方式中的方法。具体地，所述装置包括用于执行第一方面或第一方面的任意一种可能的实现方式的方法的模块。

第三方面，本申请提供了一种检测目标图像的装置，所述装置包括：至少一个处理器；和至少一个存储器；所述至少一个存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述至少一个处理器执行，所述一个或多个程序包含用于进行第一方面或第一方面的任意一种可能的实现方式的方法的指令。

第四方面，本申请提供了一种检测目标图像的装置，所述装置包括收发器、处理器和存储器。其中，所述收发器、所述处理器以及所述存储器之间可以通过总线***相连。所述存储器用于存储程序、指令或代码，所述处理器用于执行所述存储器中的程序、指令或代码，完成第一方面或第一方面的任意可能的实现方式中的方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序，并且所述计算程序通过处理器进行加载来实现上述第一方面或第一方面的任意可能的实现方式的方法。

第六方面，本申请提供了一种非易失性计算机可读存储介质，用于存储计算机程序，所述计算机程序通过处理器进行加载来执行上述第一方面或第一方面的任意可能的实现方式的方法的指令。

第七方面，本申请提实施例供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时用于实现上述第一方面或第一方面的任意可能的实现方式的方法。

附图说明

图1是本申请实施例提供的一种网络架构示意图；

图2-1是本申请实施例提供的一种检测目标图像的方法流程图；

图2-2是本申请实施例提供的RPN装置的模块图；

图2-3是本申请实施例提供的RPN装置添加滑动窗口的示意图；

图2-4是本申请实施例提供的过滤配置信息的方法流程图；

图2-5是本申请实施例提供的积分图区域的示意图；

图2-6是本申请实施例提供的另一种过滤配置信息的方法流程图；

图2-7是本申请实施例提供的Fast Rcnn装置的模块图；

图2-8是本申请实施例提供的检测目标图像的软件***模块图；

图3-1是本申请实施例提供的一种检测目标图像的装置结构示意图；

图3-2是本申请实施例提供的另一种检测目标图像的装置结构示意图；

图3-3是本申请实施例提供的另一种检测目标图像的装置结构示意图；

图4是本申请实施例提供的另一种检测目标图像的装置结构示意图。

具体实施方式

下面将结合附图对本申请实施方式作进一步地详细描述。

参见图1，本申请实施例提供了一种网络架构，包括：

摄像设备和服务器，摄像设备和服务器之间建立有网络连接，该网络连接可以为无线连接或有线连接。

摄像设备可以安装在商场和道路等场所，用于拍摄图片，向服务器发送拍摄的图片。

可选的，该网络架构可以应用于视频监控等场景，例如，在视频监控场景下，摄像设备可以拍摄得到一帧帧的图片，可以向服务器发送拍摄的图片。

其中，摄像设备拍摄得到的图片中包括处于运动状态的前景运动图像和处理静止状态的背景图像。处于运动状态的前景运动图像可以为处于运动状态的人体图像和/或车辆图像等，处于静止状态的背景图像可以为建筑物图像、树木图像和/或处于静止状态的车辆图像等。

在摄像设备拍摄得到一帧帧的图片时，可以检测该图片中的目标图像，目标图像可以是该图片中处于运动状态的前景运动图像中的一个或多个。在检测到图片的目标图像时，还同时在该图片中使用检测框框住该目标图像，这样便于后续对某个目标进行跟踪。例如，当目标为某个人或某个车辆时，可以根据添加检测框的各图片，对该某个人或对该某个车辆进行跟踪等。

可选的，对于上述检测图片中的目标图像的处理过程，可以由摄像设备来执行，即摄像设备在拍摄得到一帧帧图片后，可以执行检测该图片中的目标图像的处理过程。

其中，为了提高摄像设备的检测效率，可以为摄像设备配置较高的计算资源，该计算资源可以为中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和内存容量等资源中的至少一个。

可选的，对于上述检测图片中的目标图像的处理过程，摄像设备可以不执行，而是可以由服务器来执行，即服务器在接收到摄像设备发送的一帧帧图片后，可以执行检测该图片中的目标图像的处理过程；或者，服务器从存储器中读取一帧图片，并执行检测该图片中的目标图像的处理过程，存储器中的图片可以是摄像设备摄像的图片。

其中，服务器在接收到摄像设备发送的图片时，可以先将该图片存储在存储器中。摄像设备可以为监控摄像机或带有摄像头的手机等设备。

参见图2-1，本申请实施例提供了一种检测目标图像的方法，该方法可以应用于图1所示的实施例提供的网络架构，该方法的执行主体可以为该网络架构中的摄像设备或服务器等，包括：

步骤201：获取待检测图片对应的前景运动图像以及获取对待检测图片进行卷积运算得到的第一特征图片，前景运动图像包括待检测图片中处于运动状态的目标图像和除目标图像外的背景图像。

待检测图片可以为摄像设备拍摄的视频中的任一张图片。当本实施例的执行主体为摄像设备时，摄像设备在拍摄到一帧图片时，可以将该图片作为待检测图片。当本实施例的执行主体为服务器时，服务器在接收到摄像设备发送的一帧图片时，可以将该图片作为待检测图片；或者，服务器从存储器中读取一帧图片作为待检测图片。其中，服务器接收摄像设备发送的图片时，可以将该图片存储在存储器中。

对于待检测图片对应的前景运动图像，可以通过对待检测图片进行混合高斯背景建模处理，得到待检测图片对应的前景运动图像。

在本申请实施例中，预设混合高斯模型装置和基于快速区域的卷积神经网络(Fast Region-based Convolution Neural Network，Fast Rcnn)装置，Fast Rcnn装置包括CNN。在本步骤中，可以将待检测图片分别输入到混合高斯模型装置和Fast Rcnn装置的CNN中；然后，通过混合高斯模型装置对待检测图片进行混合高斯背景建模处理，得到待检测图片对应的前景运动图像，通过CNN对待检测图片进行卷积运算处理，得到待检测图片对应的第一特征图片。

待检测图片对应的前景运动图像是一个黑白图片，前景运动图像中的每个像素点的像素值为1或为0。

待检测图片对应的前景运动图像是一张尺寸与待检测图片的尺寸等大小的图片。对于待检测图片的每个像素点，该像素点在前景运动图像中存在对应的像素点。如果待检测图片中的一个像素点是待检测图片中处于运动状态的目标图像中的像素点，则该像素点在待检测图片对应的前景运动图像中对应的像素点的像素值为1。如果待检测图片中的一个像素点是待检测图片中处于静止状态的背景图像中的像素点，则该像素点在待检测图片对应的前景运动图像中对应的像素点的像素值为0。在本实施例中，目标图像可能为待检测图片中的人体图像和/或车辆图像等。

可选的，对待检测图片进行混合高斯背景建模处理的操作，可以分为如下2011至2014的操作：

2011：创建一张尺寸与待检测图片的尺寸等大小的空白前景运动图像。

2012：从待检测图片中读取待检测图片中的像素点的像素值，该像素值包括R通道的像素值、G通道的像素值和B通道的像素值，然后按如下公式(1)计算该像素点属于处于运动状态的目标图像的概率。

其中，在上述公式(1)中，P(x _j)为待检测图片中的第j个像素点的概率，该概率就是第j个像素点属于处于运动状态的目标图像的概率，x _j为第j个像素点的像素值，x _j＝[x _jRx _jGx _jB]，x _jR为R通道的像素值，x _jG为G通道的像素值，x _jB为B通道的像素值；t为待检测图片对应的时刻，在实现时可以用待检测图片的帧号作为时刻t，

表示在时刻t混合高斯模型装置中第i个高斯分布的权系数的估计值，

和

分别表示在时刻t混合高斯模型装置中第i个高斯分布的均值向量和协方差矩阵(此处假定像素的红、绿、蓝分量相互独立)；η表示高斯分布概率密度函数。

K为预设数值，在使用公式(1)计算该像素点的概率之前，预设混合高斯模型装置根据已计算出的第0时刻的图片中的第j个像素点的概率、第1时刻的图片中的第j个像素点的概率……第t-1时刻的图片中的第j个像素点的概率，获取在时刻t时的K个高斯分布的权系数的估计值，K个高斯分布的均值向量和K个协方差矩阵。

其中，该K个高斯分布的权系数的估计值分别为

该K个高斯分布的均值向量分别为

该K个协方差矩阵分别为

2013：如果计算出的概率大于预设概率阈值，则确定该像素点是待检测图片中处于运动状态的目标图像中的像素点，根据该像素点在待检测图片中的位置，在创建的前景运动图像中填充像素值为1的像素点。

2014：如果计算出的概率小于或等于预设概率阈值，则确定该像素点是待检测图片中处于静止状态的背景图像中的像素点，根据该像素点在待检测图片中的位置，在创建的前景运动图像中填充像素值为0的像素点。对于待检测图片中的每个像素点，按上述方式填充该像素点在创建的前景运动图像对应的像素点，得到待检测图片对应的前景运动图像。

其中，CNN包括多个卷积层，第一个卷积层用于对输入到CNN的待检测图片进行卷积运算处理。CNN中除第一个卷积层之外的其他每个卷积层的输入是其相邻的上一个卷积层的输出，其他每个卷积层用于对其相邻的上一个卷积层输出的结果进行卷积运算处理。

CNN中的每个卷积层输出的结果为待检测图片对应的一张特征图片，对于每个卷积层，该卷积层输出的特征图片的抽象程度大于与该卷积层相邻的上一个卷积层输出的特征图片的抽象程度。

在本步骤中，CNN对待检测图片进行卷积运算处理的过程可以为：将待检测图片输入到CNN中，CNN中的第一个卷积层对待检测图片进行卷积处理，得到待检测图片对应的特征图片，并将该特征图片输入到第二个卷积层。第二个卷积层对该特征图片进行卷积运算处理，仍得到待检测图片对应的一张特征图片，且该特征图片的抽象程度大于第一个卷积层输出的特征图片的抽象程度，将该特征图片输入到第三个卷积层。按上述过程直到CNN的最后一个卷积层输出待检测图片对应的特征图片时为止。

在本步骤中，获取第一目标卷积层输出的待检测图片的特征图片作为第一特征图片，第一目标卷积层是CNN中除第一个卷积层和最后一个卷积层之外的其他一个卷积层。

可选的，可以选择位于CNN中间位置的一个卷积层作为第一目标卷积层，获取第一目标卷积层输出的待检测图片对应的特征图片作为第一特征图片。

可选的，在本步骤中，还可以获取对待检测图片进行卷积处理的第二特征图片，第一特征图片经过的卷积运算次数小于第二特征图片经过的卷积运算次数。

可选的，可以选择位于CNN靠后位置的一个卷积层作为第二目标卷积层，获取第二目标卷积层输出的待检测图片对应的特征图片作为第二特征图片，第二目标卷积层所在的层数大于第一目标卷积层所在的层数。

可选的，所谓CNN靠后位置的一个卷积层，即可以选择CNN中最后N个卷积层中的某个卷积层作为第二目标卷积层。N为预设数值，例如，N可以为数值5、4、3、2或1等值。

可选的，可以选择CNN中的最后一层卷积层作为第二目标卷积层，即将CNN的最后一层卷积层输出的待检测图片对应的特征图片作为第二特征图片。

步骤202：检测第一特征图片中的目标图像得到第一侯选框配置信息集合，第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息。

其中，在第一特征图片中每个侯选框内包括至少一个目标图像，第一特征图片中的目标图像与待检测图片中的目标图像相同。

侯选框的配置信息至少包括侯选框的位置信息和置信得分。侯选框的位置信息可以包括该侯选框的一对对角点的位置，该一对对角点可以是侯选框的任意一个对角线上的两个对角点，对角点的位置可以为该对角点在第一特征图片中的位置；或者，侯选框的位置信息可以包括该侯选框的一个顶点的位置和该侯选框的尺寸，该顶点可以是该侯选框的任一个顶点，该顶点的位置是该顶点在第一特征图片中的位置，该侯选框的尺寸可以包括该侯选框的宽度和高度。

可选的，侯选框可以为矩形框，侯选框的置信得分可以表示侯选框内的目标对象的状态为运动状态的概率。

可选的，在本申请实施例中，预设RPN装置。在本步骤中，可以将第一特征图片输入到RPN装置，通过该RPN装置对第一特征图片进行处理，得到至少一个侯选框中的每个侯选框的配置信息，将每个侯选框的配置信息组成第一侯选框配置信息集合。

其中，需要说明的是：第一特征图片中可能包括至少一个目标图像，目标图像可以为人体图像和/或车辆图像等。RPN装置在接收到输入的第一特征图片时，通过RPN装置的Propoasls层在第一特征图片中添加用于框住目标图像的侯选框，获取该侯选框在第一特征图片中的位置信息并估计出用于表示该目标图像的状态为运动状态的概率的置信得分，从而得到该侯选框的配置信息。

参见图2-2所示的RPN装置的模块图，第一特征图片输入到RPN装置时，RPN装置在第一特征图片中添加滑动窗口，移动滑动窗口的位置以及放大或缩小该滑动窗口的尺寸得到多个不同的滑动窗口，通过卷积层编码出每个滑动窗口的特征向量，通过全连接层根据每个滑动窗口的特征向量输出至少一个侯选框的位置信息和至少一个侯选框的置信得分。

参见图2-3，在第一特征图片中添加滑动窗口后，通过移动滑动窗口以及放大或缩小该滑动窗口，得到多个侯选框以及输出每个侯选框的置信得分。

在本步骤中，得到的侯选框中存在一部分侯选框，该部分侯选框中包括的目标图像是非完整目标图像，且还包括面积较大的背景图像。

步骤203：根据该前景运动图像从第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合。

实现本步骤的过滤方法有多种，例如，根据该前景运动图像的积分图对第一侯选框配置信息集合进行过滤；再例如，根据该前景运动图像对第一侯选框配置信息集合进行过滤。对于其他的过滤方法就不再一一列举。

参见图2-4，对上述根据该前景运动图像的积分图对第一侯选框配置信息集合进行过滤的过程，可以通过如下2031至2034的操作来完成，分别为：

2031：根据该前景运动图像，计算该前景运动图像对应的积分图。

首先创建一个尺寸与该前景运动图像的尺寸相等的空白积分图，对于该前景运动图像中的任一个像素点，假设为第M行第N列的像素点，该像素点的积分值可以通过如下公式(2)计算得到，根据该像素点在该前景运动图像中的位置，在创建的积分图中填充该像素点的积分值，即在创建的积分图的第M行第N列的位置处填充该像素点的积分值。

在上述公式(2)中，Integral(M,N)为第M行第N列的像素点的积分值，image(i,j)为该前景运动图像中第i行第j列的像素点的像素值。

对于该前景运动图像的其他每个像素点，按上述方式在创建的积分图中填充每个像素点的积分值，得到该前景运动图像对应的积分图。

由于在前景运动图像中，处于运动状态的前景运动图像的像素点的像素值为1，处于静止状态的背景图像的像素点的像素值为0，所以第M行第N列的像素点的积分值可以等于该前景运动图像中的一个图像区域中的前景运动图像的面积，该图像区域包括该前景运动图像中的第一行第一列的像素点和第M行第N列的像素点，且该图像区域的尺寸为M×N。

接下来可以根据该积分图从第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，详细实现过程可以包括如下2032至2034的操作。

2032：根据目标侯选框的配置信息，获取目标侯选框在积分图中对应的积分图区域，目标侯选框的配置信息为第一侯选框配置信息集合中的任一个侯选框的配置信息。

可选的，可以根据目标侯选框的位置信息，获取目标侯选框在积分图中对应的积分图区域。

当目标侯选框的位置信息包括目标侯选框的一对对角点的位置时，根据该一对对角点中的每个对角点的位置，在积分图中获取目标侯选框对应的积分图区域。

当目标侯选框的位置信息包括目标侯选框的一个顶点的位置和目标侯选框的尺寸时，根据该一个顶点的位置和该尺寸，在积分图中获取目标侯选框对应的积分图区域。

例如，参见图2-5，假设目标侯选框的位置信息包括目标侯选框的一对对角点的位置，其中一个对角点的位置为第i ₁行第j ₁列，另一个对角点的位置为第i ₂行第j ₂列。根据该两个对角点的位置在图2-5所示的积分图中获取目标侯选框对应的积分图区域。

2033：根据该积分图区域计算位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值。

可选的，对于本步骤的实现，可以获取位于该积分图区域的四个顶点位置的像素点的积分值；根据获取的各像素点的积分值，计算位于目标侯选框内的目标图像面积。

其中，参见图2-5，积分图区域的左上顶点位置的像素点为第i ₁行第j ₁列的像素点，右下顶点位置的像素点为第i ₂行第j ₂列的像素点，左下顶点位置的像素点为第i ₂行第j ₁列，右上顶点位置的像素点为第i ₁行第j ₂列。根据该四个像素点的积分值，按如下公式(3)计算出位于目标侯选框内的目标图像面积Area；

Area＝Integral(i ₂,j ₂)-Integral(i ₁,j ₂)-Integral(i ₂,j ₁)+Integral(i ₁,j ₁)……(3)；

在上述公式(3)中，Integral(i ₂,j ₂)为第i ₂行第j ₂列的像素点的积分值，Integral(i ₁,j ₂)为第i ₁行第j ₂列的像素点的积分值，Integral(i ₂,j ₁)为第i ₂行第j ₁列的像素点的积分值，Integral(i ₁,j ₁)为第i ₁行第j ₁列的像素点的积分值。

以及，根据该目标侯选框的配置信息，计算该目标侯选框的面积；计算目标图像面积与目标侯选框的面积之间的比值。

可选的，可以根据目标侯选框的位置信息，计算该目标侯选框的面积。

当目标侯选框的位置信息包括目标侯选框的一对对角点的位置时，根据该一对对角点中的每个对角点的位置，计算该目标侯选框的面积。

当目标侯选框的位置信息包括目标侯选框的一个顶点的位置和目标侯选框的尺寸时，根据该尺寸，计算该目标侯选框的面积。

在本步骤中，只需要根据四个顶点位置的像素点的积分值，便可以计算目标图像面积，所需要的计算量较小，从而可以减小过滤操作所需要的计算量，提高了过滤速度，进而提高检测目标图像的效率。

2034：在该比值小于预设比值阈值时，从第一侯选框配置信息集合中过滤目标侯选框的配置信息。

在该比值大于或等于预设比值阈值时，在第一侯选框配置信息集合中保留目标侯选框的位置信息。

参见图2-6，对上述根据该前景运动图像对第一侯选框配置信息集合进行过滤的过程，可以通过如下2131至2134的操作来完成，分别为：

2131：根据目标侯选框的配置信息，获取目标侯选框在前景运动图像中对应的图像区域，目标侯选框的配置信息为第一侯选框配置信息集合中的任一个侯选框的配置信息。

可选的，可以根据目标侯选框的位置信息，获取目标侯选框在前景运动图像中对应的图像区域。

当目标侯选框的位置信息包括目标侯选框的一对对角点的位置时，根据该一对对角点中的每个对角点的位置，获取目标侯选框在前景运动图像中对应的图像区域。

当目标侯选框的位置信息包括目标侯选框的一个顶点的位置和目标侯选框的尺寸时，根据该一个顶点的位置和该尺寸，获取目标侯选框在前景运动图像中对应的图像区域。

接下来，可以根据该图像区域计算位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值，实现过程可以包括如下2132至2134的操作。

2132：统计该图像区域中属于目标图像的像素点数目和该图像区域的总像素点数目。

前景运动图像中的像素点分为两类，一类像素点属于处于运动状态的目标图像，且属于该类的每个像素点的像素值为1，另一类像素点属于处于静止状态的背景图像，且属于另一类的每个像素点的像素值为0。

可选的，可以统计该图像区域内像素值为1的像素点数目，得到该图像区域中属于目标图像的像素点数目。

2133：计算该像素点数目与该总像素点数目之间的比值，得到位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值。

2134：在该比值小于预设比值阈值时，从第一侯选框配置信息集合中过滤目标侯选框的配置信息。

204：根据第二侯选框配置信息集合，在待检测图片中添加检测框，该检测框中包括待检测图片中的至少一个目标图像。

在本实施例中，可以根据第二侯选框配置信息集合中的每个侯选框的置信得分，对第二侯选框配置信息集合中的每个侯选框的配置信息进行排序，得到第一配置信息序列。

可选的，可以从第一配置信息序列中选择置信得分最大的预设数值个侯选框的配置信息，根据选择的每个侯选框的位置信息在待检测图片中添加每个侯选框的检测框，侯选框和该侯选框的检测框的大小相等。

可选的，还可以对第一配置信息序列进行非极大值抑制操作，得到第二配置信息序列，第二配置信息序列中的侯选框配置信息的数目小于或等于第一配置信息序列中的侯选框配置信息的数目。可以从第二配置信息序列中选择置信得分最大的预设数值个侯选框的配置信息，根据选择的每个侯选框的位置信息在待检测图片中添加每个侯选框的检测框，侯选框和该侯选框的检测框的大小相等。

所谓非极大值抑制操作就是从第一配置信息序列中识别出重叠面积超过预设阈值的任意两个侯选框，从该两个侯选框中过滤掉其中一个侯选框的配置信息，或者，将该两个侯选框合成为一个侯选框，并得到合成后的侯选框的配置信息。

其中，由于在步骤203中，从第一侯选框配置信息集合中过滤掉大量的侯选框配置信息，所以在对第一配置信息序列中的侯选框的配置信息进行非极大值抑制操作时，可以减小需要操作处理的侯选框配置信息的数目，从而提高了操作处理的效率，进一步提高了检测目标图像的效率。

可选的，在待检测图片添加检测框时，还可以添加该检测框中的目标图像的类型，在实现时可以，根据第二特征图片和选择的每个侯选框的配置信息，在待检测图片中添加检测框和该检测框内的目标图像的类型。

在实现时，可以将第二特征图片和选择的每个侯选框的配置信息输入到Fast Rcnn装置的感兴趣区域(Region of Interest，RoI)池化层，通过Fast Rcnn装置的RoI池化层输出选择的每个侯选框内的目标图像类型，以及根据每个侯选框的位置信息，在待检测图片中添加检测框和该检测框内的目标图像的类型。

可以对每一帧图片执行上述的处理过程，从而实现在每一帧图片中添加检测框和检测框中的目标图像的类型。

参见图2-7所示的Fast Rcnn装置的模块图，Fast Rcnn装置包括共享卷积层、特有卷积层、RoI池化层和全连接层，待检测图片经过共享卷积层和特有卷积层处理后与第二特征图片和第二侯选框配置信息集合输入到RoI池化层，再经过RoI池化层和全连接层的处理后输出检测框和各检测框中的目标图像的类型。

参见图2-8，通过上述流程，可以得出本申请实施例应用于如下软件***，该软件***可以被设备执行，以执行上述方法的流程，该设备可以为图1所示的实施例中的摄像设备或服务器等，该软件***可以包括过滤装置、混合高斯模型装置、RPN装置和Fast Rcnn装置。

待检测图片分别输入到Fast Rcnn装置中的CNN和混合高斯模型装置，Fast Rcnn装置中的CNN向RPN装置输入第一特征图片；混合高斯模型装置向过滤装置输出前景运动图像，RPN装置再向过滤模块输入第一侯选框配置信息集合；过滤装置通过上述步骤203的操作得到第二侯选框配置信息集合，向Fast Rcnn装置输入第二侯选框配置信息集合，Fast Rcnn 装置在待检测图片中添加检测框和检测框中的目标图像的类型。

在本申请实施例中，获取待检测图片的前景运动图像，根据该前景运动图像，从第一侯选框配置信息集合中过滤掉包括非完整目标对象的侯选框的配置信息，得到第二侯选框配置信息集合，根据第二侯选框配置信息集合在待检测图片中添加检测框，提高了检测精度。由于在第二侯选框配置信息集合中过滤掉大量侯选框的配置信息，这样在对第二侯选框配置信息集合进行非极大值抑制操作时，减小了需要操作处理的侯选框的配置信息的数目，从而减小了计算量，提高了处理速度，进而提高了检测效率。

参见图3-1，本申请实施例提供了一种检测目标图像的装置300，所述装置300可用于实现图2-1所示的实施例，还可以实现图1所示实施例中的服务器或摄像设备的功能，包括：

获取单元301，用于获取待检测图片对应的前景运动图像以及获取对待检测图片进行卷积运算得到的第一特征图片，该前景运动图像包括待检测图片中处于运动状态的目标图像和除该目标图像外的背景图像；

检测单元302，还用于检测第一特征图片中的目标图像得到第一侯选框配置信息集合，第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息，在第一特征图片中每个侯选框内包括至少一个目标图像，第一特征图片中的目标图像与待检测图片中的目标图像相同；

过滤单元303，还用于根据该前景运动图像从第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合；

添加单元304，还用于根据第二侯选框配置信息集合，在待检测图片中添加检测框，该检测框中包括待检测图片中的至少一个目标图像。

可选的，参见图3-2，该装置300还包括：收发单元305和存储单元306中的至少一个；

其中，待检测图片可以为收发单元305接收的图片，或者，待检测图片可以为存储单元306中存储的图片。

可选的，参见图3-3，当该装置300用于实现摄像设备的功能时，该装置300还可以包括摄像单元307，该摄像单元307可以为摄像头等，待检测图片可以为摄像单元307拍摄得到的图片。该装置300还可以包括收发单元305和/或存储单元306，该收发单元305可以用于发送摄像单元307拍摄的图片，该存储单元306可以用于存储摄像单元307拍摄的图片。

可选的，当该装置300用于实现服务器的功能时，该装置300可以包括收发单元305和/或存储单元306。

可选的，获取单元301，用于通过对待检测图片进行混合高斯背景建模，得到待检测图片对应的前景运动图像。

可选的，过滤单元303，用于：

根据该前景运动图像，计算该前景运动图像对应的积分图；

根据该积分图从第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息。

可选的，过滤单元303，用于

根据目标侯选框的配置信息，获取目标侯选框在该积分图中对应的积分图区域，目标侯选框的配置信息为第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据该积分图区域计算位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值；

在该比值小于预设比值阈值时，从第一侯选框配置信息集合中过滤目标侯选框的配置信息。

可选的，过滤单元303，用于：

获取位于该积分图区域的四个顶点位置的像素点的积分值；

根据获取的各像素点的积分值，计算位于目标侯选框内的目标图像面积；

根据目标侯选框的配置信息，计算目标侯选框的面积；

计算目标图像面积与目标侯选框的面积之间的比值。

可选的，过滤单元303，用于：

根据目标侯选框的配置信息，获取目标侯选框在该前景运动图像中对应的图像区域，目标侯选框的配置信息为第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据该图像区域计算位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值；

可选的，过滤单元303，用于：

统计该图像区域中属于目标图像的像素点数目和该图像区域的总像素点数目；

计算该像素点数目与该总像素点数目之间的比值，得到位于目标侯选框内的目标图像面积与目标侯选框的面积之间的比值。

可选的，添加单元304，用于：

获取对待检测图片进行卷积运算得到的第二特征图片，对第一特征图片进行卷积运算的次数小于对第二特征图片进行卷积运算的次数；

根据第二特征图片和第二侯选框配置信息集合，在待检测图片中添加检测框和该检测框内的目标图像的类型。

在本申请实施例中，由于获取待检测图片的前景运动图像，这样根据该前景运动图像，从第一侯选框配置信息集合中过滤掉包括非完整目标对象的侯选框的配置信息，得到第二侯选框配置信息集合，根据第二侯选框配置信息集合在待检测图片中添加检测框，可以提高检测精度。

参见图4，图4所示为本申请实施例提供的一种检测目标图像的装置400示意图。该装置400包括至少一个处理器401，总线***402，存储器403以及至少一个收发器404。

该装置400是一种硬件结构的装置，可以用于实现图3-1所述的装置中的功能模块。例如，本领域技术人员可以想到图3-1所示的装置300中的获取单元301、检测单元302、过滤单元303和/或添加单元304可以通过该至少一个处理器401调用存储器403中的代码来实现，图3-1所示的装置300中的收发单元305可以通过该至少一个收发器404来实现。

可选的，该装置400还可用于实现如图1所述的实施例中摄像设备的功能，或者实现图1所示的实施例中服务器的功能。

该装置400用于摄像设备的功能时，该装置400还可以包括摄像头407，图3-1所示的装置300中的摄像单元307可以通过该摄像头407来实现。

可选的，上述处理器401可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

上述总线***402可包括一通路，在上述组件之间传送信息。

上述收发器404，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。

上述存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，从而实现本专利方法中的功能。

在具体实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图4中的CPU0和CPU1。

在具体实现中，作为一种实施例，该装置400可以包括多个处理器，例如图4中的处理器401和处理器408。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，当该装置400用于实现服务器的功能时，该装置400还可以包括输出设备405和输入设备406。输出设备405和处理器401通信，可以以多种方式来显示信息。例如，输出设备405可以是液晶显示器(liquid crystal display，LCD),发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备406和处理器401通信，可以以多种方式接受用户的输入。例如，输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种检测目标图像的方法，其特征在于，所述方法包括：

获取待检测图片对应的前景运动图像以及获取对所述待检测图片进行卷积运算得到的第一特征图片，所述前景运动图像包括所述待检测图片中处于运动状态的目标图像和除所述目标图像外的背景图像；

检测所述第一特征图片中的目标图像得到第一侯选框配置信息集合，所述第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息，在所述第一特征图片中所述每个侯选框内包括至少一个目标图像，所述第一特征图片中的目标图像与所述待检测图片中的目标图像相同；

根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合；

根据所述第二侯选框配置信息集合，在所述待检测图片中添加检测框，所述检测框中包括所述待检测图片中的至少一个目标图像。
如权利要求1所述的方法，其特征在于，所述获取待检测图片对应的前景运动图像，包括：

通过对所述待检测图片进行混合高斯背景建模，得到所述待检测图片对应的前景运动图像。
如权利要求1或2所述的方法，其特征在于，所述根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，包括：

根据所述前景运动图像，计算所述前景运动图像对应的积分图；

根据所述积分图从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息。
如权利要求3所述的方法，其特征在于，所述根据所述积分图从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，包括：

根据目标侯选框的配置信息，获取所述目标侯选框在所述积分图中对应的积分图区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据所述积分图区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；

在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。
如权利要求4所述的方法，其特征在于，所述根据所述积分图区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值，包括：

获取位于所述积分图区域的四个顶点位置的像素点的积分值；

根据所述获取的各像素点的积分值，计算位于所述目标侯选框内的目标图像面积；

根据所述目标侯选框的配置信息，计算所述目标侯选框的面积；

计算所述目标图像面积与所述目标侯选框的面积之间的比值。
如权利要求1或2所述的方法，其特征在于，所述根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，包括：

根据目标侯选框的配置信息，获取所述目标侯选框在所述前景运动图像中对应的图像区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据所述图像区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；

在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。
如权利要求6所述的方法，其特征在于，所述根据所述图像区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值，包括：

统计所述图像区域中属于目标图像的像素点数目和所述图像区域的总像素点数目；

计算所述像素点数目与所述总像素点数目之间的比值，得到位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值。
如权利要求1至7任一项所述的方法，其特征在于，所述根据所述第二侯选框配置信息集合，在所述待检测图片中添加检测框，包括：

获取对所述待检测图片进行卷积运算得到的第二特征图片，对所述第一特征图片进行卷积运算的次数小于对所述第二特征图片进行卷积运算的次数；

根据所述第二特征图片和所述第二侯选框配置信息集合，在所述待检测图片中添加检测框和所述检测框内的目标图像的类型。
一种检测目标图像的装置，其特征在于，所述装置包括：

获取单元，用于获取待检测图片对应的前景运动图像以及获取对所述待检测图片进行卷积运算得到的第一特征图片，所述前景运动图像包括所述待检测图片中处于运动状态的目标图像和除所述目标图像外的背景图像；

检测单元，还用于检测所述第一特征图片中的目标图像得到第一侯选框配置信息集合，所述第一侯选框配置信息集合包括至少一个侯选框中的每个侯选框的配置信息，在所述第一特征图片中所述每个侯选框内包括至少一个目标图像，所述第一特征图片中的目标图像与所述待检测图片中的目标图像相同；

过滤单元，还用于根据所述前景运动图像从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息，得到第二侯选框配置信息集合；

添加单元，还用于根据所述第二侯选框配置信息集合，在所述待检测图片中添加检测框，所述检测框中包括所述待检测图片中的至少一个目标图像。
如权利要求9所述的装置，其特征在于，

所述获取单元，用于通过对所述待检测图片进行混合高斯背景建模，得到所述待检测图片对应的前景运动图像。
如权利要求9或10所述的装置，其特征在于，所述过滤单元，用于：

根据所述前景运动图像，计算所述前景运动图像对应的积分图；

根据所述积分图从所述第一侯选框配置信息集合中过滤包括的目标图像为非完整目标图像的侯选框的配置信息。
如权利要求11所述的装置，其特征在于，所述过滤单元，用于：

根据目标侯选框的配置信息，获取所述目标侯选框在所述积分图中对应的积分图区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据所述积分图区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；

在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。
如权利要求12所述的装置，其特征在于，所述过滤单元，用于：

获取位于所述积分图区域的四个顶点位置的像素点的积分值；

根据所述获取的各像素点的积分值，计算位于所述目标侯选框内的目标图像面积；

根据所述目标侯选框的配置信息，计算所述目标侯选框的面积；

计算所述目标图像面积与所述目标侯选框的面积之间的比值。
如权利要求9或10所述的装置，其特征在于，所述过滤单元，用于：

根据目标侯选框的配置信息，获取所述目标侯选框在所述前景运动图像中对应的图像区域，所述目标侯选框的配置信息为所述第一侯选框配置信息集合中的任一个侯选框的配置信息；

根据所述图像区域计算位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值；

在所述比值小于预设比值阈值时，从所述第一侯选框配置信息集合中过滤所述目标侯选框的配置信息。
如权利要求14所述的装置，其特征在于，所述过滤单元，用于：

统计所述图像区域中属于目标图像的像素点数目和所述图像区域的总像素点数目；

计算所述像素点数目与所述总像素点数目之间的比值，得到位于所述目标侯选框内的目标图像面积与所述目标侯选框的面积之间的比值。
如权利要求9至15任一项所述的装置，其特征在于，所述添加单元，用于：

获取对所述待检测图片进行卷积运算得到的第二特征图片，对所述第一特征图片进行卷积运算的次数小于对所述第二特征图片进行卷积运算的次数；

根据所述第二特征图片和所述第二侯选框配置信息集合，在所述待检测图片中添加检测框和所述检测框内的目标图像的类型。
一种检测目标图像的装置，其特征在于，所述装置包括：

至少一个处理器；和

至少一个存储器；

所述至少一个存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述至少一个处理器执行，所述一个或多个程序包含用于进行如权利要求1至8任一项权利要求所述的方法的指令。
一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序通过处理器进行加载来执行如权利要求1至8任一项权利要求所述的方法的指令。