CN107341483A

CN107341483A - 一种基于旋转矫正网络的稳健行人检测方法

Info

Publication number: CN107341483A
Application number: CN201710578588.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-11-10

Abstract

本发明中提出的一种基于旋转矫正网络的稳健行人检测方法，其主要内容包括：网络结构、极坐标池化、数据输入，其过程为，首先使用一般卷积网络对已旋转的行人图像提取平面特征，通过系列批处理、最大池化操作，得到平面特征图的中间结果，再将其中间结果变换极坐标表示，输入到旋转矫正网络中进行极坐标池化，得到的结果与其原来的中间结果进行合并，输入到全连接网络得到输出结果，本发明可以处理不同姿态不同旋转角度的行人图像，提供了一个旋转估计模块来处理角度测量，提高了行人多姿态的识别效率及正确率。

Description

一种基于旋转矫正网络的稳健行人检测方法

技术领域

本发明涉及行人检测领域，尤其是涉及了一种基于旋转矫正网络的稳健行人检测方法。

背景技术

行人检测在计算机视觉领域中具有重要意义，它在智能交通、机器人开发和视频监控等领域具有重要应用。行人检测的一个共同的任务就是识别人体的存在，它的目的在于确定人体在何种背景、甚至发生在什么环境条件下，随着人类生活水平的提高及公共道路上人们数量的急剧增多，如何准确地识别检测行人便成为了一种实用性很强的研究，尤其在汽车辅助驾驶技术、夜间行人监控、无人区域的巡逻等方面具有实际意义和巨大市场价值。

由于人类的每个个体的行走姿态不一致，加之不同的环境背景、摄影条件下，对人的检测并不容易。尤其在现实中，并不是每张摄影的图像中行人都以水平的角度呈现，因此，如何对付具有旋转角度的行人检测，是研究的难点，并且角度的不同，会给正确的检测带来难度。

本发明提出了一种基于旋转估计模块的新框架。使用一般卷积网络对已旋转的行人图像提取平面特征，通过系列批处理、最大池化操作，得到平面特征图的中间结果，再将其中间结果变换极坐标表示，输入到旋转矫正网络中进行极坐标池化，得到的结果与其原来的中间结果进行合并，输入到全连接网络得到输出结果，本发明可以处理不同姿态不同旋转角度的行人图像，提供了一个旋转估计模块来处理角度测量，提高了行人多姿态的识别效率及正确率。

发明内容

针对解决在行人处于旋转角度的检测问题，本发明的目的在于提供一种基于旋转矫正网络的稳健行人检测方法，提出了一种基于旋转估计模块的新框架。

为解决上述问题，本发明提供一种基于旋转矫正网络的稳健行人检测方法，其主要内容包括：

(一)网络结构；

(二)极坐标池化；

(三)数据输入。

其中，所述的网络结构，包括串联模块和并联模块两部分。

所述的串联模块，将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接，上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作，具体地包含三条串联线路：

(1)第一条：次序为卷积层、批处理层、最大池化层、卷积层、极坐标池化层；

(2)第二条：次序为第一条的次序后，再依次加上最大池化层、3个卷积层、最大池化层和平滑层；

(3)第三条：次序为第一条的次序后，再依次加上最大池化层、3个卷积层和极坐标池化层。

所述的并联模块，将三条串联线路的中间结果合并起来，具体地为两条并联线路：

(1)第一条：将第一条串联线路和第三条串联线路的结果合并；

(2)第二条：将第一条并联线路和第二条串联线路的结果合并。

所述的极坐标池化，包括特征图坐标转移和卷积网络嵌入两部分。

所述的特征图坐标转移，给定一个像素P，其平面坐标为(x,y)，其宽高为(w,h)，则极坐标正则化为：

则该像素极坐标可表示为：

由此，将平面的像素特征转移为极坐标表示方式。

所述的网络嵌入，将公式(1)(2)的中间结果模块快，具有相同的特征输出维度，即可嵌入到任意的卷积层中间进行承上启下，因此，整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。

所述的数据输入，包括训练和测试两部分。

所述的训练，分别在主流数据库中进行人物旋转操作，具体为：

(1)选取手写字体数据库中像素大小为28×28的图像10000张用于训练，每张图像随机旋转，旋转角度在-90度到90度之间，即半圆；

(2)选取行人检测数据库中像素大小为480×640的图像42786张用于训练，每张图像统一在旋转角度-90度到90度之间取值。

所述的测试，在各训练集完成训练后，选取该训练集2000张图像进行验证操作，验证结果反馈到训练网络以调整权值，从而达到阈值后停止验证，再将剩下的5000张未使用图像输入训练网络，得到的结果进行统计即为正确检测率。

附图说明

图1是本发明一种基于旋转矫正网络的稳健行人检测方法的***流程图。

图2是本发明一种基于旋转矫正网络的稳健行人检测方法的行人检测结果比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于旋转矫正网络的稳健行人检测方法的***流程图。主要包括网络结构；极坐标池化；数据输入。

其中，网络结构，包括串联模块和并联模块两部分。

串联模块，将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接，上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作，具体地包含三条串联线路：

并联模块，将三条串联线路的中间结果合并起来，具体地为两条并联线路：

极坐标池化，包括特征图坐标转移和卷积网络嵌入两部分。

特征图坐标转移，给定一个像素P，其平面坐标为(x,y)，其宽高为(w,h)，则极坐标正则化为：

则该像素极坐标可表示为：

由此，将平面的像素特征转移为极坐标表示方式。

网络嵌入，将公式(1)(2)的中间结果模块快，具有相同的特征输出维度，即可嵌入到任意的卷积层中间进行承上启下，因此，整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。

数据输入，包括训练和测试两部分。

训练，分别在主流数据库中进行人物旋转操作，具体为：

测试，在各训练集完成训练后，选取该训练集2000张图像进行验证操作，验证结果反馈到训练网络以调整权值，从而达到阈值后停止验证，再将剩下的5000张未使用图像输入训练网络，得到的结果进行统计即为正确检测率。

图2是本发明一种基于旋转矫正网络的稳健行人检测方法的行人检测结果比较图。如图所示，可以观察到第一行(RPN-BF方法)所检测到的行人都是垂直状态，丢失了很多细节，相比之下，第二行(本发明的方法)则随着行人的旋转角度而旋转，保留了更多的细节，并且检测范围更加准确。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于旋转矫正网络的稳健行人检测方法，其特征在于，主要包括网络结构(一)；极坐标池化(二)；数据输入(三)。

2.基于权利要求书1所述的网络结构(一)，其特征在于，包括串联模块和并联模块两部分。

3.基于权利要求书2所述的串联模块，其特征在于，将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接，上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作，具体地包含三条串联线路：

4.基于权利要求书2所述的并联模块，其特征在于，将三条串联线路的中间结果合并起来，具体地为两条并联线路：

5.基于权利要求书1所述的极坐标池化(二)，其特征在于，包括特征图坐标转移和卷积网络嵌入两部分。

6.基于权利要求书5所述的特征图坐标转移，其特征在于，给定一个像素P，其平面坐标为(x,y)，其宽高为(w,h)，则极坐标正则化为：

则该像素极坐标可表示为：

由此，将平面的像素特征转移为极坐标表示方式。

7.基于权利要求书5所述的网络嵌入，其特征在于，将公式(1)(2)的中间结果模块快，具有相同的特征输出维度，即可嵌入到任意的卷积层中间进行承上启下，因此，整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。

8.基于权利要求书1所述的数据输入(三)，其特征在于，包括训练和测试两部分。

9.基于权利要求书8所述的训练，其特征在于，分别在主流数据库中进行人物旋转操作，具体为：

10.基于权利要求书8所述的测试，其特征在于，在各训练集完成训练后，选取该训练集2000张图像进行验证操作，验证结果反馈到训练网络以调整权值，从而达到阈值后停止验证，再将剩下的5000张未使用图像输入训练网络，得到的结果进行统计即为正确检测率。