CN108875504A

CN108875504A - 基于神经网络的图像检测方法和图像检测装置

Info

Publication number: CN108875504A
Application number: CN201711107369.2A
Authority: CN
Inventors: 林孟潇; 张祥雨
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-11-23
Anticipated expiration: 2037-11-10
Also published as: CN108875504B

Abstract

本公开实施例提供了一种基于神经网络的图像检测方法和图像检测装置。所述方法包括：对所述图像进行特征提取，以获得图像特征；基于所述图像特征，检测所述图像中人体的人头区域；基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。本公开实施例相对于传统的检测装置，提高了检测速度和检测效率。

Description

基于神经网络的图像检测方法和图像检测装置

技术领域

本公开实施例涉及一种基于神经网络的图像检测方法和与该方法对应的图像检测装置。

背景技术

行人检测(Pedestrian Detection)是判断图像或者视频序列中是否存在行人并给予精确定位的技术。由于行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测极具挑战性。

在人群密集、人相互重叠时，由于需要使用某些算法来消除可能的重叠，所以会出现大量漏检、或者将多个人视为一个人的现象，对于人流统计等任务尤其不利。另一方面，在图片中行人较少时，现有方法会对图片中大量区域做不必要的计算，从而浪费***资源，影响计算效率。

发明内容

本发明实施例的目的在于提供一种基于神经网络的图像检测方法和图像检测装置，以解决上述技术问题。

根据本公开的至少一个实施例，提供了一种基于神经网络的图像检测方法，所述方法包括：对所述图像进行特征提取，以获得图像特征；基于所述图像特征，检测所述图像中人体的人头区域；基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。

例如，基于所述图像特征，检测所述图像中人体的人头区域的步骤包括：将所述图像输入到第一神经网络中，所述第一神经网络用于提取图像中的人头区域；从所述第一神经网络中输出所述图像中的至少一个人头区域候选框。

例如，基于所述图像特征，检测所述图像中人体的人头区域的步骤还包括：从所述第一神经网络中输出所述图像的至少一个人头区域候选框的每个的分数，所述分数表示所述区域是人头区域的可能性；将所述分数与预设人头分数阈值进行比较；将分数大于所述预设人头分数阈值的人头区域确定为人头区域。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤包括：获取基于机器学习得到的人头和身体的相对位置参数；根据所述相对位置参数确定所述图像中的与所述人头区域对应的至少一个人体区域候选框。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：获取预设估计参数，所述预设估计参数表示图像中与所述人头区域对应的至少一个人体区域候选框的个数；基于所述预设估计参数，在所述图像中确定与所述人头区域对应的所述个数的人体区域候选框。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：确定每个人体区域候选框的分数值，所述分数值表示所述提取的人体区域候选框是人体区域的可能性；基于所述分数值，从所述个数的人体区域候选框中选择至少一个作为所述人体区域。

例如，确定每个人体区域候选框的分数值的步骤包括：将所述个数的人体区域候选框图像输入到训练好的第二神经网络，所述第二神经网络用于确定所述每个人体区域候选框图像的分数值；从所述第二神经网络中输出每个所述人体区域候选框对应的所述分数值。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：将所述人体区域候选框进行修正，以得到修正后的人体区域。

例如，将所述人体区域候选框进行修正的步骤包括：将所述人体区域候选框图像输入到所述第三神经网络中，所述第三神经网络用于修正所述人体区域候选框；

从所述第三神经网络输出每个所述人体区域候选框的修正结果。

例如，从所述第三神经网络输出每个所述人体区域候选框的修正结果的步骤包括：所述第三神经网络基于所述人体区域候选框确定所述人体区域候选框在所述图像中的原始区域；确定所述原始区域是否完整；当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正。

例如，当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正的步骤包括：获取训练好的所述第三神经网络输出的多个标准身体框；将所述人体区域候选框与所述多个标准身体框进行匹配；将匹配率最高的标准身体框作为对应该人体区域候选框的修正框；基于该修正框来对所述对应的人体区域候选框进行修正。

例如，所述修正的参数包括：区域中心点位置，区域宽度，区域高度中的至少一种。

例如，所述方法还包括：对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体。

例如，对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体的步骤包括：当所述人头区域中的任一个对应的人体区域为多个时，确定与所述人头区域对应的多个人体区域中的每个的所述分数值；将分数值最高的人体区域确定为与所述人头区域对应的人体区域。

例如，所述人头区域为多个，所述多个人头区域包括第一人头区域和第二人头区域，所述对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体的步骤还包括：当第一人头区域和第二人头区域存在交叠时，确定所述交叠区域与所述第一人头区域和第二人头区域并集区域的比值；当所述比值大于第一比值阈值时，获取第一人头区域对应的第一人体区域，以及第二人头区域对应的第二人体区域；比较所述第一人体区域和所述第二人体区域的所述分数值，当第一人体区域的分数值大于第二人体区域的分数值时，确定所述第一人体区域以及与该第一人体区域对应的第一人头区域为最终检测到的人体区域和人头区域。

根据本公开的至少一个实施例，提供了一种基于神经网络的图像检测装置，包括：存储器，处理器，所述存储器存储程序指令，所述处理器在处理所述程序指令时执行：对所述图像进行特征提取，以获得图像特征；基于所述图像特征，检测所述图像中人体的人头区域；基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。

例如，基于所述图像特征，检测所述图像中人体的人头区域包括：将所述图像输入到第一神经网络中，所述第一神经网络用于提取图像中的人头区域；从所述第一神经网络中输出所述图像中的至少一个人头区域候选框。

例如，基于所述图像特征，检测所述图像中人体的人头区域还包括：从所述第一神经网络中输出所述图像的至少一个人头区域候选框的每个的分数，所述分数表示所述区域是人头区域的可能性；将所述分数与预设人头分数阈值进行比较；将分数大于所述预设人头分数阈值的人头区域确定为人头区域。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域包括：获取基于机器学习得到的人头和身体的相对位置参数；根据所述相对位置参数确定所述图像中的与所述人头区域对应的至少一个人体区域候选框。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：获取预设估计参数，所述预设估计参数表示图像中与所述人头区域对应的至少一个人体区域候选框的个数；基于所述预设估计参数，在所述图像中确定与所述人头区域对应的所述个数的人体区域候选框。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：确定每个人体区域候选框的分数值，所述分数值表示所述提取的人体区域候选框是人体区域的可能性；基于所述分数值，从所述个数的人体区域候选框中选择至少一个作为所述人体区域。

例如，确定每个人体区域候选框的分数值包括：将所述个数的人体区域候选框图像输入到训练好的第二神经网络，所述第二神经网络用于确定所述每个人体区域候选框图像的分数值；从所述第二神经网络中输出每个所述人体区域候选框对应的所述分数值。

例如，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：将所述人体区域候选框进行修正，以得到修正后的人体区域。

例如，将所述人体区域候选框进行修正包括：将所述人体区域候选框图像输入到所述第三神经网络中，所述第三神经网络用于修正所述人体区域候选框；从所述第三神经网络输出每个所述人体区域候选框的修正结果。

例如，从所述第三神经网络输出每个所述人体区域候选框的修正结果包括：所述第三神经网络基于所述人体区域候选框确定所述人体区域候选框在所述图像中的原始区域；确定所述原始区域是否完整；当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正。

例如，当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正包括：获取训练好的所述第三神经网络输出的多个标准身体框；将所述人体区域候选框与所述多个标准身体框进行匹配；将匹配率最高的标准身体框作为对应该人体区域候选框的修正框；基于该修正框来对所述对应的人体区域候选框进行修正。

例如，所述装置还包括：对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体。

例如，对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体包括：当所述人头区域中的任一个对应的人体区域为多个时，确定与所述人头区域对应的多个人体区域中的每个的所述分数值；将分数值最高的人体区域确定为与所述人头区域对应的人体区域。

根据本公开至少一个实施例，还提供了一种基于神经网络的图像检测装置，所述装置包括：获取单元，被配置为对所述图像进行特征提取，以获得图像特征；检测单元，被配置为基于所述图像特征，检测所述图像中人体的人头区域；确定单元，被配置为基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。

根据本公开的至少一个实施例，还提供了一种计算机可执行非易失性存储介质，所述介质中存储程序指令，所述程序指令被所述计算机的处理器加载并执行上述实施例所述的方法的步骤。

本公开实施例，先从待检测图像上检测出图像中的人头区域，然后以人头区域为基础，在有人头区域的位置附近检测行人，相对于传统的检测装置，提高了检测速度和检测效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本发明的示例性实施例。

图1示出了根据本发明实施例的图像检测方法的流程图；

图2示出了根据本发明实施例的人体区域候选框的修正方法；

图3示出了根据本发明实施例的人体检测方法流程图；

图4示出了根据本发明实施例的图像检测装置的架构图；

图5示出了根据本公开实施例的图像检测装置；

图6示出了根据本发明实施例的卷积核示例。

具体实施方式

在下文中，将参考附图详细描述本发明的优选实施例。注意，在本说明书和附图中，具有基本上相同步骤和元素用相同的附图标记来表示，且对这些步骤和元素的重复解释将被省略。

图1示出了根据本发明实施例的基于神经网络的图像检测方法100。参见图1，该图像检测方法100可以包括以下的步骤。

在步骤S101中，对图像进行特征提取，以获得图像特征。根据本发明的一个示例，可以使用训练好的神经网络对图像进行特征提取，也可以采用例如SIFT(Scale-invariantfeature transform，尺度无关特征变换)、HOG(Histogram of oriented gradient，方向梯度直方图)等方法。

卷积神经网络(CNN)是局部连接网络。相对于全连接网络其最大的特点就是：局部连接性和权值共享性。因为对一副图像中的某个像素p来说，一般离像素p越近的像素对其影响也就越大(局部连接性)。另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域(权值共享性)。这里的权值共享可以是卷积核共享，对于一个卷积核将其与给定的图像做卷积就可以提取一种图像的特征，不同的卷积核可以提取不同的图像特征。例如，卷积层的计算方法可以根据下面的公式来计算：

其中“σ”表示激活函数；“imgMat”表示灰度图像矩阵；“W”表示卷积核；“ο”表示卷积操作；“b”表示偏置值。

根据本发明的一个示例，可以通过CNN来对图像进行特征提取。图6示出了根据本发明实施例的卷积核示例。卷积核可以采用图6所示的第一卷积核，其中，Gx表示水平方向，Gy表示垂直方向。

首先用第一卷积核-Gx来对图像做卷积，例如使用公式(1)中的

这里卷积核大小可以为3x3，图像大小可以为512x512。如果不对图像做任何其它处理，直接进行卷积的话，卷积后的图像大小可以是:(512-3+1)x(512-3+1)。将上面卷积后所得结果，即一个矩阵，的每个元素都加上偏置值b，并将所得矩阵中的每个元素都输入到一个激活函数，即可以得到图像特征提取结果。激活函数例如可以是：

此外，还可以进一步利用第一卷积核-Gy进行特征提取，得到另一个图像特征提取结果。所述示例中，使用了两个卷积核。每个卷积核提取出了不同的图像特征。本领域技术人员可以了解，也可以使用十几个或者几十个卷积核来提取图像特征。

根据本发明的另一个示例，还可以采用尺度不变特征变换(ScaleInvariantFeature Transform，SIFT)算法对图像进行特征提取。SIFT算法对于平移、旋转和尺度变化均具有不变性，并且对于噪声、视角变化和光照变化等具有良好的鲁棒性。

选取图像进行SIFT特征提取，主要是为了提高计算效率，选取的图像不能过小，否则导致检测的特征点过少，从而影响匹配的准确度。

SIFT特征提取的方法可以包括：

(1)检测尺度空间极值：

将视点图像与不同核的高斯函数进行卷积，得到对应的高斯图像，其中二维高斯函数定义如下：

其中σ称为高斯函数的方差；x和y分别为图像的行和列两个维度。

将两个因子相差为k的高斯函数所形成的高斯图像进行差分，形成了图像的DoG(Difference of Gaussian)尺度空间，如下式表示：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)＝L(x,y,kσ)-L(x,y,σ)；

取DoG尺度空间的3个相邻尺度，中间层每个像素点都与其同层以及上下层相邻位置的像素点逐个进行比较，如果该点是极大值或者极小值，则改点是这一个尺度下的候选特征点。

(2)特征点定位：

由于DoG值对于噪声和边缘比较敏感，对于局部极值点尚需要通过泰勒展开式用以精确确定候选特征点的位置和尺度，同时去除低对比度的特征点。

(3)确定特征点主方向：

确定特征点的主方向主要用于特征点匹配，找出主方向之后，在进行特征点匹配的时候就可以把图像旋转到主方向，以保证图像的旋转不变性。对于像素点(x,y)处的梯度值和方向分别为：

其中m(x,y)表示方向的能量，θ(x,y)表示方向。

在以特征点为中心的邻域窗口内采样，并用梯度方向直方图来统计邻域像素的梯度向，直方图的最高峰值点对应的方向即为主方向。至此完成图像的特征点检测，每个特征点都有三个信息：位置、对应尺度和方向。

(4)生成SIFT特征描述符：

SIFT算法以采样区的方式生成特征描述符，为确保旋转不变性，可以先将坐标轴旋转为特征点的方向，以特征点为中心取8×8的窗口，然后在4×4的图像小块上计算8个方向的梯度方向直方图，绘制每个梯度方向累加值，形成一个种子点。则一个特征点就用16个种子点来描述，而每个种子点有8个方向向量信息，故每个特征点可产生16×8共128个数据，即形成128维的SIFT特征描述符。

根据本发明的一个示例，还可以采用HOG(Histogram of oriented gradient，方向梯度直方图)对图像进行特征提取。HOG特征提取方法可以包括以下步骤。

1)对图像进行归一化处理

归一化处理操作的目的是：为了提高图像特征描述符对光照以及环境变化的鲁棒性，降低图像局部的阴影、局部曝光过多及纹理失真，尽可能的抑制图像的干扰噪声。归一化处理操作是先将图像转化为灰度图像，再利用Gamma校正实现。

2)分割图像

因为方向梯度直方图HOG是一个描述图像局部纹理信息的局部特征描述符，因此，如果直接对一大幅图像及逆行特征提取的话，将会得不到好的效果。因此，我们需要先将图像划分为较小的方格单元，比如我们在程序中先将图像划分为20*20大小的方格单元Cell，然后2*2个Cell组成一个块，最后，所有的块组成图像。

3)计算每个方格单元Cell的方向梯度直方图

将图像划分为小的Cell之后，接下来就是计算每一个Cell的方向梯度直方图，可以对每一个小区域求解该小区域X方向和Y方向上的梯度图像。然后，再计算每一个小区域中每一个像素点的梯度方向和梯度幅值。计算完之后，将会产生一个横坐标X为梯度方向，纵坐标Y为梯度幅值的方向梯度直方图。

4)特征向量归一化

为了克服光照不均匀的变化以及前景和背景测对比差异，需要对每个小区域计算出来的特征向量进行归一化处理。例如，使用归一化函数进行归一化处理。

5)HOG特征向量的生成

首先，将图像中的小方格单元的HOG特征向量组成比较大块的HOG特征向量，例如利用2*2个方格单元组成一个块。然互再将所有的块的HOG特征向量组成全图像的HOG特征向量。特征向量的具体组合方式是将小的特征向量按照首尾相接的方式组成一个维数比较大的特征向量。比如，一幅图像被分为m*n个块，每一个块的特征向量的维数为9维(每一个梯度方向就是一维)。那么，这个图像最终的特征向量维数就是m*n*9。

本领域技术人员能够了解，以上特征提取方法仅是本发明的示例，特征提取的方法有多种，还可以使用其他图像特征提取。

在步骤S102中，基于图像特征，检测图像中人体的人头区域。

根据本发明的一个示例，为了检测图像中人体的人头区域，可以使用训练好的第一神经网络，该训练好的第一神经网络能够提取图像中的人头区域。将待检测图像输入到第一神经网络中，然后从第一神经网络中输出图像中的至少一个人头区域候选框。该人头区域候选框是图像中可能是人头区域的区域，在后续步骤中，还会对该候选框进行筛选来确定人头区域。

根据本发明的一个示例，为了判断输出的人头区域候选框是人头区域的可能性，还可以在从第一神经网络中输出人头区域候选框的同时，从第一神经网络中输出图像的至少一个人头区域候选框的每个的分数，分数表示区域是人头区域的可能性。然后将该分数与预设人头分数阈值进行比较。预设人头分数阈值可以在训练第一神经网络时通过机器学习得到，也可以根据实际情况进行设定。如果该分数大于预设人头分数阈值，则将该人头区域候选框确定为人头区域。如果该分数小于预设人头分数阈值，则将该人头区域候选框确定为不是人头区域。由此，可以将明显的非人头区域过滤掉。

在步骤S103中，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域，人体区域包括人头区域和身体区域。

根据本发明的一个示例，在步骤S102获取了人头区域候选框的基础上，为了进一步根据人头区域来检测与该人头区域对应的人体区域，可以获取基于机器学习得到的人头和身体的相对位置参数。该相对位置参数指示了人头与人体的比例关系，然后，根据相对位置参数确定图像中的与人头区域对应的至少一个人体区域候选框。该人体区域候选框也就是可能是人体区域的区域框。在另一个示例中，该相对位置参数也可以人为地设定。

由于在检测人体区域的过程中，对于一个人头区域可能会检测出多个人体区域，为了获取适当数量的人体区域候选框，根据本发明的一个示例，可以首先获取预设估计参数，该预设估计参数表示图像中与人头区域对应的至少一个人体区域候选框的个数。然后基于预设估计参数，在图像中确定与人头区域对应的个数的人体区域候选框。

在获取了多个人体区域候选框之后，为了从多个人体区域候选框中过滤掉明显不是人体区域的候选框，根据本发明的一个示例，还可以确定每个人体区域候选框的分数值，该分数值表示提取的人体区域候选框是人体区域的可能性。然后基于该分数值，可以从检测出的多个人体区域候选框中选择至少一个作为人体区域。

例如，可以使用训练好的第二神经网络，第二神经网络用于确定每个人体区域候选框图像的分数值。将前面输出的人体区域候选框输入到训练好的第二神经网络中，并从第二神经网络中输出每个人体区域候选框对应的分数值。使用该分数值来确定人体区域候选框是人体区域的可能性，从而进行有效筛选。

此外，为了提高行人检测的准确性，根据本发明的一个示例，在第二神经网络输出人体区域候选框之后，还可以将人体区域候选框进行修正，以得到修正后的人体区域。

根据本发明的一个示例，使用训练好的第三神经网络对人体区域候选框进行修正。例如，将人体区域候选框输入到第三神经网络中，然后从第三神经网络输出每个人体区域候选框的修正结果。

图2示出了根据本发明实施例的人体区域候选框的修正方法200。参见图2，人体区域候选框修正方法可以包括以下步骤。

在步骤S201中，第三神经网络基于人体区域候选框确定人体区域候选框在图像中的原始区域。例如，在训练第三神经网络时，可以将前面步骤S101中的进行特征提取的图像作为原始图像，即待检测的图像。原始区域就是人体区域候选框在该待检测图像中所在的区域。作为示例，可以根据人体区域候选框在原始图像中的位置，从该原始图像中剪切出该原始区域。

在步骤S202中，确定原始区域是否完整。例如，可以根据人体比例，人身体部位的正常比例范围和尺寸范围来判断该原始区域中人身体或人头部是否完整。

在步骤S203中，当原始区域不完整时，对该原始区域对应的人体区域候选框进行修正。作为示例，在进行修正时，首先获取训练好的第三神经网络输出的多个标准身体框。该标准身体框是根据多个正常人体的样本的标注数据得到的。因此标准身体框也可以有多个，例如不同年龄、性别的人体具有不同的标准身体框。然后将人体区域候选框与多个标准身体框进行匹配。将匹配率最高的标准身体框作为对应该人体区域候选框的修正框。也就是说，匹配率最高的标准身体框与该人体区域候选框最相近，可以参照匹配率最高的标准身体框对人体区域候选框进行修正。需要修正的参数例如可以包括：人体区域候选框的区域中心点位置，区域宽度，区域高度中的至少一种。

作为示例，参数修正方式可以采用下面的方法。假设标准身体框为矩形框，x为标准身体框的中心点的横坐标，y为标准身体框的中心点的纵坐标，w为标准身体框的宽度，h为标准身体框的高度。(x₀，y₀)是标准身体框左下角坐标，(x₁，y₁)是标准身体框的右上角坐标，那么可以得到，

x＝(x₀+x₁)/2，y＝(y₀+y₁)/2，w＝x₁-x₀，h＝y₁-y₀。

假设人体区域候选框也是矩形框，x_a为人体区域候选框的中心点的横坐标，y_a为人体区域候选框的中心点的纵坐标，w_a为人体区域候选框的宽度，h_a为人体区域候选框的高度。

假设修正后的人体区域候选框也是矩形，x’为修正后的人体区域候选框的中心点的横坐标，y’为修正后的人体区域候选框的中心点的纵坐标，w’为修正后的人体区域候选框的宽度，h’为修正后的人体区域候选框的高度。

那么可以根据下面的公式得到修正偏移量t_x,t_y,t_w,t_h的回归目标：

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,

t_w＝log(w/w_a),t_h＝log(h/h_a),

t’_x＝(x’-x_a)/w_a,t’_y＝(y’-y_a)/h_a,

t’_w＝log(w’/w_a),t’_h＝log(h’/h_a)。

在训练第三神经网络时，根据图像特征、人体区域候选框和标准身体框的参数，预测t′_x，t′_y，t′_w，t′_h,使得∑(t_i-t′_i)²尽可能小，其中i∈{x，y，w，h}。当∑(t_i-t′_i)²收敛时，所述第三神经网络训练完成，然后，使用训练好的神经网络输出的t′_x，t′_y，t′_w，t′_h来计算修正后的人体区域候选框的中心(x′，y′)以及宽度w’高度h’：

x′＝t′_xw_a+xa，y′＝t′_yh_a+y_a

修正后的人体区域候选框的左下角坐标为(x₀',y₀'),右上角坐标为(x₁',y₁')。那么使用下面的公式计算坐标值:

x′₀＝x′-w′/2

x′₁＝x′+w′/2

y′₀＝y′-h′/2

y′₁-y′+h′/2

本发明实施例通过对输出的人体区域候选框进行修正，可以有效提高人体区域候选框的辨识度，提高检测的准确性。

图3示出了根据本发明实施例的人体检测方法流程图300，参见图3，人体检测方法可以包括以下步骤。

在步骤S301中，对图像进行特征提取，以获得图像特征。

在步骤S302中，基于图像特征，检测图像中人体的人头区域；

在步骤S303中，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域，人体区域包括所述人头区域和身体区域。

在步骤S304中，对图像中人头区域和与人头区域对应的人体区域进行非最大值压抑后处理，以获得图像中检测的人体。

其中，步骤S301-S303分别与前述实施例中的步骤S101-S103相同，在此不再赘述，具体参照前述实施例。

在步骤S304中，作为示例，当在步骤S302中检测出了多个人头区域，在步骤S303中确定一个人头区域对应的人体区域为多个时，可以进一步确定与人头区域对应的多个人体区域中的每个的分数值。例如，如前所述，采用训练好的第二神经网络来确定每个人体区域的分数值。然后将分数值最高的人体区域确定为与人头区域对应的人体区域。

在行人检测过程中，很可能检测到两个交叠在一起的人头区域，为了降低误报率，可以进行如下处理。假设检测到的人头区域为至少两个，包括第一人头区域和第二人头区域。当第一人头区域和第二人头区域存在交叠时，确定交叠区域与第一人头区域和第二人头区域并集区域的比值。当比值大于第一比值阈值时，获取第一人头区域对应的第一人体区域，以及第二人头区域对应的第二人体区域。然后比较第一人体区域和第二人体区域的分数值，当第一人体区域的分数值大于第二人体区域的分数值时，确定第一人体区域以及与该第一人体区域对应的第一人头区域为最终检测到的人体区域和人头区域。也就是说，当出现交叠人头框时，只保留得分高的人体区域和对应的人头区域。

本发明实施例的图像检测方法首先在待检测图像上检测出图像中的人头区域，然后以人头区域为基础，在有人头区域的位置附近检测行人，从而提高行人检测的准确率，同时减少了需要进行检测的区域，相对于传统的检测方法，检测速度会有一定程度不等的提升。同时该方法能够提供人和头位置的对应信息，为后续各种需求提供了更多的信息。

图4示出了根据本发明实施例的图像检测装置400架构图。图像检测装置400与前述实施例的图像检测方法对应，为了说明书的简洁，在此仅作简要描述，具体参见前述实施例的描述。

参见图4，该图像检测装置400包括：存储器401，处理器402，存储器401存储程序指令，处理器402在处理程序指令时执行：对图像进行特征提取，以获得图像特征；基于图像特征，检测图像中人体的人头区域；基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域，人体区域包括人头区域和身体区域。

例如，基于图像特征，检测图像中人体的人头区域包括：将图像输入到第一神经网络中，第一神经网络用于提取图像中的人头区域；从第一神经网络中输出图像中的至少一个人头区域候选框。

例如，基于图像特征，检测图像中人体的人头区域还包括：从第一神经网络中输出图像的至少一个人头区域候选框的每个的分数，分数表示区域是人头区域的可能性；将分数与预设人头分数阈值进行比较；将分数大于预设人头分数阈值的人头区域确定为人头区域。

例如，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域包括：获取基于机器学习得到的人头和身体的相对位置参数；根据相对位置参数确定图像中的与人头区域对应的至少一个人体区域候选框。

例如，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域还包括：获取预设估计参数，预设估计参数表示图像中与人头区域对应的至少一个人体区域候选框的个数；基于预设估计参数，在图像中确定与人头区域对应的个数的人体区域候选框。

例如，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域还包括：确定每个人体区域候选框的分数值，分数值表示提取的人体区域候选框是人体区域的可能性；基于分数值，从个数的人体区域候选框中选择至少一个作为人体区域。

例如，确定每个人体区域候选框的分数值包括：将个数的人体区域候选框图像输入到训练好的第二神经网络，第二神经网络用于确定每个人体区域候选框图像的分数值；从第二神经网络中输出每个人体区域候选框对应的分数值。

例如，基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域还包括：将人体区域候选框进行修正，以得到修正后的人体区域。

例如，将人体区域候选框进行修正包括：将人体区域候选框图像输入到第三神经网络中，第三神经网络用于修正人体区域候选框；从第三神经网络输出每个人体区域候选框的修正结果。

例如，从第三神经网络输出每个人体区域候选框的修正结果包括：第三神经网络基于人体区域候选框确定人体区域候选框在图像中的原始区域；

确定原始区域是否完整；当原始区域不完整时，对该原始区域对应的人体区域候选框进行修正。

例如，当原始区域不完整时，对该原始区域对应的人体区域候选框进行修正包括：获取训练好的第三神经网络输出的多个标准身体框；将人体区域候选框与多个标准身体框进行匹配；将匹配率最高的标准身体框作为对应该人体区域候选框的修正框；基于修正框来对对应的人体区域候选框进行修正。

例如，修正的参数包括区域中心点位置，区域宽度，区域高度中的至少一种。

例如，装置还包括：对图像中人头区域和与人头区域对应的人体区域进行非最大值压抑后处理，以获得图像中检测的人体。

例如，对图像中人头区域和与人头区域对应的人体区域进行非最大值压抑后处理，以获得图像中检测的人体包括：当人头区域中的任一个对应的人体区域为多个时，确定与人头区域对应的多个人体区域中的每个的分数值；将分数值最高的人体区域确定为与人头区域对应的人体区域。

例如，人头区域为多个时，多个人头区域包括第一人头区域和第二人头区域，对图像中人头区域和与人头区域对应的人体区域进行非最大值压抑后处理，以获得图像中检测的人体的步骤还包括：当第一人头区域和第二人头区域存在交叠时，确定交叠区域与第一人头区域和第二人头区域并集区域的比值；当比值大于第一比值阈值时，获取第一人头区域对应的第一人体区域，以及第二人头区域对应的第二人体区域；比较第一人体区域和第二人体区域的分数值，当第一人体区域的分数值大于第二人体区域的分数值时，确定第一人体区域以及与该第一人体区域对应的第一人头区域为最终检测到的人体区域和人头区域。

本发明实施例的图像检测装置，先从待检测图像上检测出图像中的人头区域，然后以人头区域为基础，在有人头区域的位置附近检测行人，相对于传统的检测装置，检测速度会有一定程度不等的提升。同时该装置能够提供人和头位置的对应信息，为后续各种需求提供了更多的信息。

此外，根据本公开的至少一个实施例，还提供了一种计算机可执行非易失性存储介质，该介质与前述实施例中的图像检测装置400中的存储器401对应，为了说明书的简洁，以下仅作简要描述，具体参见前述实施例的描述。该非易失性存储介质中存储程序指令，程序指令被计算机的处理器加载并执行上述实施例所述的方法的步骤。

此外，根据本公开至少一个实施例，还提供了一种基于神经网络的图像检测装置，该装置与前述实施例的方法对应，为了说明书的简洁，以下仅作简要描述。图5示出了根据本公开实施例的图像检测装置500。参见图5，图像检测装置500包括：获取单元501，检测单元502，确定单元503。例如，获取单元501被配置为对图像进行特征提取，以获得图像特征。检测单元502被配置为基于图像特征，检测图像中人体的人头区域。确定单元503被配置为基于人头区域的检测结果，确定图像中的与人头区域对应的人体区域，人体区域包括人头区域和身体区域。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。并且软件模块可以置于任意形式的计算机存储介质中。为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本领域技术人员应该理解，可依赖于设计需求和其它因素对本发明进行各种修改、组合、部分组合和替换，只要它们在所附权利要求书及其等价物的范围内。

Claims

1.一种基于神经网络的图像检测方法，所述方法包括：

对所述图像进行特征提取，以获得图像特征；

基于所述图像特征，检测所述图像中人体的人头区域；

基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。

2.根据权利要求1所述的方法，其中，基于所述图像特征，检测所述图像中人体的人头区域的步骤包括：

将所述图像输入到第一神经网络中，所述第一神经网络用于提取图像中的人头区域；

从所述第一神经网络中输出所述图像中的至少一个人头区域候选框。

3.根据权利要求2所述的方法，其中，基于所述图像特征，检测所述图像中人体的人头区域的步骤还包括：

从所述第一神经网络中输出所述图像的至少一个人头区域候选框的每个的分数，所述分数表示所述区域是人头区域的可能性；

将所述分数与预设人头分数阈值进行比较；

将分数大于所述预设人头分数阈值的人头区域确定为人头区域。

4.根据权利要求1所述的方法，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤包括：

获取基于机器学习得到的人头和身体的相对位置参数；

根据所述相对位置参数确定所述图像中的与所述人头区域对应的至少一个人体区域候选框。

5.根据权利要求4所述的方法，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：

获取预设估计参数，所述预设估计参数表示图像中与所述人头区域对应的至少一个人体区域候选框的个数；

基于所述预设估计参数，在所述图像中确定与所述人头区域对应的所述个数的人体区域候选框。

6.根据权利要求5所述的方法，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：

确定每个人体区域候选框的分数值，所述分数值表示所述提取的人体区域候选框是人体区域的可能性；

基于所述分数值，从所述个数的人体区域候选框中选择至少一个作为所述人体区域。

7.根据权利要求6所述的方法，其中，确定每个人体区域候选框的分数值的步骤包括：

将所述个数的人体区域候选框图像输入到训练好的第二神经网络，所述第二神经网络用于确定所述每个人体区域候选框图像的分数值；

从所述第二神经网络中输出每个所述人体区域候选框对应的所述分数值。

8.根据权利要求4所述的方法，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域的步骤还包括：

将所述人体区域候选框进行修正，以得到修正后的人体区域。

9.根据权利要求8所述的方法，其中，将所述人体区域候选框进行修正的步骤包括：

将所述人体区域候选框图像输入到所述第三神经网络中，所述第三神经网络用于修正所述人体区域候选框；

10.根据权利要求9所述的方法，其中，从所述第三神经网络输出每个所述人体区域候选框的修正结果的步骤包括：

所述第三神经网络基于所述人体区域候选框确定所述人体区域候选框在所述图像中的原始区域；

确定所述原始区域是否完整；

当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正。

11.根据权利要求10所述的方法，其中，当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正的步骤包括：

获取训练好的所述第三神经网络输出的多个标准身体框；

将所述人体区域候选框与所述多个标准身体框进行匹配；

将匹配率最高的标准身体框作为对应该人体区域候选框的修正框；

基于该修正框来对所述对应的人体区域候选框进行修正。

12.根据权利要求11所述的方法，其中，所述修正的参数包括：

区域中心点位置，区域宽度，区域高度中的至少一种。

13.根据权利要求1所述的方法，其中，所述方法还包括：

对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体。

14.根据权利要求13所述的方法，其中，对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体的步骤包括：

当所述人头区域中的任一个对应的人体区域为多个时，确定与所述人头区域对应的多个人体区域中的每个的所述分数值；

将分数值最高的人体区域确定为与所述人头区域对应的人体区域。

15.根据权利要求14所述的方法，其中，所述人头区域为多个，所述多个人头区域包括第一人头区域和第二人头区域，

所述对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体的步骤还包括：

当第一人头区域和第二人头区域存在交叠时，确定所述交叠区域与所述第一人头区域和第二人头区域并集区域的比值；

当所述比值大于第一比值阈值时，获取第一人头区域对应的第一人体区域，以及第二人头区域对应的第二人体区域；

比较所述第一人体区域和所述第二人体区域的所述分数值，当第一人体区域的分数值大于第二人体区域的分数值时，确定所述第一人体区域以及与该第一人体区域对应的第一人头区域为最终检测到的人体区域和人头区域。

16.一种基于神经网络的图像检测装置，包括：存储器，处理器，所述存储器存储程序指令，所述处理器在处理所述程序指令时执行：

对所述图像进行特征提取，以获得图像特征；

基于所述图像特征，检测所述图像中人体的人头区域；

17.根据权利要求16所述的装置，其中，基于所述图像特征，检测所述图像中人体的人头区域包括：

18.根据权利要求17所述的装置，其中，基于所述图像特征，检测所述图像中人体的人头区域还包括：

将所述分数与预设人头分数阈值进行比较；

19.根据权利要求16所述的装置，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域包括：

获取基于机器学习得到的人头和身体的相对位置参数；

20.根据权利要求19所述的装置，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：

21.根据权利要求20所述的装置，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：

22.根据权利要求21所述的装置，其中，确定每个人体区域候选框的分数值包括：

23.根据权利要求19所述的装置，其中，所述基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域还包括：

24.根据权利要求23所述的装置，其中，将所述人体区域候选框进行修正包括：

25.根据权利要求24所述的装置，其中，从所述第三神经网络输出每个所述人体区域候选框的修正结果包括：

确定所述原始区域是否完整；

26.根据权利要求25所述的装置，其中，当所述原始区域不完整时，对该原始区域对应的人体区域候选框进行修正包括：

获取训练好的所述第三神经网络输出的多个标准身体框；

将所述人体区域候选框与所述多个标准身体框进行匹配；

基于该修正框来对所述对应的人体区域候选框进行修正。

27.根据权利要求26所述的装置，其中，所述修正的参数包括：

区域中心点位置，区域宽度，区域高度中的至少一种。

28.根据权利要求16所述的装置，其中，所述装置还包括：

29.根据权利要求28所述的装置，其中，对所述图像中所述人头区域和与所述人头区域对应的人体区域进行非最大值压抑后处理，以获得所述图像中检测的人体包括：

30.根据权利要求29所述的装置，其中，所述人头区域为多个，所述多个人头区域包括第一人头区域和第二人头区域，

31.一种基于神经网络的图像检测装置，所述装置包括：

获取单元，被配置为对所述图像进行特征提取，以获得图像特征；

检测单元，被配置为基于所述图像特征，检测所述图像中人体的人头区域；

确定单元，被配置为基于所述人头区域的检测结果，确定所述图像中的与所述人头区域对应的人体区域，所述人体区域包括所述人头区域和身体区域。

32.一种计算机可执行非易失性存储介质，所述介质中存储程序指令，所述程序指令被所述计算机的处理器加载并执行上述权利要求1-15中任一项所述方法的步骤。