CN109241814A

CN109241814A - 基于yolo神经网络的行人检测方法

Info

Publication number: CN109241814A
Application number: CN201810672497.XA
Authority: CN
Inventors: 李波; 王翔宇; 张晓龙; 黄德双
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2019-01-18

Abstract

本发明公开了一种基于YOLO神经网络的行人检测方法。发明的方法使用人工划分的行人检测场景图片对YOLO神经网络进行学习，从而使YOLO神经网络能对行人进行识别。本方法实现了一种基于YOLO神经网络的行人检测方法，与现有的方法相比，得到更好的检测效果和性能。

Description

基于YOLO神经网络的行人检测方法

技术领域

本发明涉及街区行人图片中行人的自动识别，特别是基于深度YOLO神经网络的目标识别方法。

背景技术

行人检测一直是计算机视觉领域的热门研究课题之一，其广泛应用于视频监控、自动驾驶等多个方面。

目前行人检测的主要方法是通过使用有效的特征提取方法，并用HOG、PGA等方法进行特征降维，之后通过分类器如支持向量机等实现二分类，从而判断目标物体是否为待检测行人。随着卷积神经网络的发展，使用卷积神经网络进行行人识别的研究愈发增加，得到了较好的识别效果，但随着网络规模的复杂化，检测的速度不能满足实时性需求。

YOLO是近年来提出的一种物体检测方法。它将一张待检测图片分为若干个小的区域，通过单个卷积神经网络得出每个区域所包含的物体及其属性，包括物体所占区域的中心位置、长宽等，从而达到目标检测的目的，在物体检测中得到了良好的效果。

相比于其他检测***，YOLO神经网络的优势在于其网络结构简单，可以达到远高于常用视频帧数30帧以上的检测速度，同时拥有良好的检测效果。

发明内容

本发明的目的在于提供一种基于YOLO神经网络的街区行人图片中行人的自动检测识别方法。

本发明解决其技术问题采用的技术方案如下：

基于YOLO神经网络的行人检测方法，包括如下步骤：

S1、收集训练集，对原始行人检测场景图片中的行人区域进行人工划分，作为训练集；

S2、第一次学习，使用在公共图像数据库上训练的模型参数对YOLO神经网络进行初始化；

S3、第二次学习，使用原始行人检测场景图片对所述YOLO神经网络进行二次预训练；

S4、对YOLO神经网络进行有监督学习，使用所述训练集中已知行人区域的行人检测图像在二次预训练的基础上对所述YOLO神经网络进行进一步训练；

S5、行人检测，将待检测图像作为训练好的YOLO神经网络模型的输入，其输出即为划分结果。

进一步的，所述YOLO神经网络包括25层的全卷积神经网络，其中包含19层卷积层和6层池化层。

进一步的，所述YOLO神经网络各层依次为：卷积层，池化层，卷积层，池化层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，卷积层，卷积层，卷积层，池化层，其中，所述卷积层均采用relu激活函数。

进一步的，所述YOLO神经网络输入图片大小为256×256，并将图片分割为8×8个小块，输出为8×8×5维向量，表示8×8个小块中每个小块的属性，分别为：

1)该小块检测为行人区域一部分的概率p；2)该行人区域中心的横坐标x；3)该行人区域中心的横坐标y；4)该行人区域宽度w；5)该行人区域高度h。

进一步的，所述YOLO神经网络的最后一层池化层为全图池化层，用于将前层卷积层得到的320通道8×8的图片池化为320维输出向量。

本发明的有益效果是：

本发明的方法基于YOLO神经网络进行，YOLO神经网络是非常有效地目标检测深度学习方法，使用该方法进行行人检测能获得优秀的准确性和较高的识别速度。

(1)准确性。本方法采用了YOLO神经网络目标识别方法，首次在行人识别领域使用，克服了行人识别领域识别速度和识别效果不可兼得的问题，与现有的方法相比，得到更高的识别精度。

(2)客观性。深度学习是使用训练集数据自动学习特征，损失函数也由卷积神经网络判别器担当，划分规则均源于训练集图片，特征和损失函数选取不会因主观因素造成干扰。

(3)高速性。采用深度学习的方法进行自动识别，能达到高于常用视频速度30帧每秒的检测速度。

具体实施方式

本发明提供了一种基于YOLO神经网络的行人检测方法，下面通过实施例说明其具体实施过程。

步骤一、训练集准备

本发明的训练集输入由包含行人的图片构成。此外，需要对图片中行人区域进行划分，并将图片分割为8×8个小块，将每个小块中是否包含行人区域(包含为1，不包含为0)、行人中心点横坐标x(根据图片宽度进行归一化)，行人中心点纵坐标y(根据图片高度进行归一化)，行人区域宽度w(根据图片宽度进行归一化)和行人区域高度h(根据图片高度进行归一化)，5个参数共同组成训练集输出。

步骤二、YOLO神经网络第一次预训练

在复杂深度网络结构的训练中，如果直接对网络进行训练，常常会由于梯度消失、陷入局部极小值等原因，导致网络收敛困难，无法达到预期效果，所以，对于这类网络的训练，通常会使用逐步预训练的方式对网络参数进行初始化。

另一方面，由于人工收集的训练集数量有限，在实际应用中又需要网络有强鲁棒性与泛化能力，通过大量实验证明，图片数据往往拥有相似的基本特征，如边缘、线、角等，通过在拥有大量自然图像数据集上对网络进行预训练，并迁移到目标任务上，网络参数依然有效。

所以在本发明中，我们首先将在公共图像数据库比如ImageNet自然图像数据集上预训练的模型参数并迁移到目标YOLO神经网络模型上，使目标卷积神经网络模型获得一个较好的初始化参数值。在此基础上，对目标任务进行继续训练。

根据下表构成19层卷积层6层池化层共25层卷积神经网络。

在ImageNet自然图像数据集上预训练的方法为：分别使用前12、18层，接入新的输出为1000维向量的全连接输出层，使用softmax激活函数，对ImageNet自然图像数据集上1000类数据进行分类。其损失函数为：

步骤三、YOLO神经网络第二次预训练

固定前18层预训练所得到的参数，使用步骤一中准备的行人识别数据集训练集对后7层进行训练，输出层使用sigmoid激活函数。网络损失函数为：

其中c表示识别出的区域与物体真实区域的交集面积，c_obj表示存在行人区域中心的格子的交集面积误差，c_noobj表示不存在行人区域中心的格子的交集面积误差。

步骤四、对网络进行整体微调

对于步骤三中得到的预训练网络，解除对前18层网络参数的固定，使用步骤一中准备的行人识别数据集训练集继续训练，对整个网络的参数进行微调直至网络收敛。

步骤五、图像的行人检测

对于一张给定带检测的图像，将其作为训练好的YOLO神经网络输入，经过YOLO网络，得到64格分别对行人检测的结果，使用非极大值抑制，若得到的行人检测结果概率p大于0.5的格子所划分的行人区域重叠部分计算IOU＝(A∩B)/(A∪B)，若IOU小于0.3，则每个结果均为不同的行人区域，若存在若干个区域IOU两两大于0.3，则合并这些格子的数据，选区其中p最大的格子所指区域为检测得到的该行人区域。

最终得到该图片行人检测的结果。

Claims

1.一种基于YOLO神经网络的行人检测方法，包括如下步骤：

S2、第一次学习,使用在公共图像数据库上训练的模型参数对YOLO神经网络进行初始化；

2.根据权利要求1所述的基于YOLO神经网络的行人检测方法，其特征在于：所述YOLO神经网络包括25层的全卷积神经网络，其中包含19层卷积层和6层池化层。

3.根据权利要求2所述的基于YOLO神经网络的行人检测方法，其特征在于：所述YOLO神经网络各层依次为：卷积层，池化层，卷积层，池化层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，卷积层，卷积层，池化层，卷积层，卷积层，卷积层，卷积层，卷积层，卷积层，池化层，其中，所述卷积层均采用relu激活函数。

4.根据权利要求1-3任一项所述的基于YOLO神经网络的行人检测方法，其特征在于：所述YOLO神经网络输入图片大小为256×256，并将图片分割为8×8个小块，输出为8×8×5维向量，表示8×8个小块中每个小块的属性，分别为:

5.根据权利要求3所述的基于YOLO神经网络的行人检测方法，其特征在于：所述YOLO神经网络的最后一层池化层为全图池化层，用于将前层卷积层得到的320通道8×8的图片池化为320维输出向量。