CN107330387A - 基于图像数据的行人检测方法 - Google Patents

基于图像数据的行人检测方法 Download PDF

Info

Publication number
CN107330387A
CN107330387A CN201710475390.1A CN201710475390A CN107330387A CN 107330387 A CN107330387 A CN 107330387A CN 201710475390 A CN201710475390 A CN 201710475390A CN 107330387 A CN107330387 A CN 107330387A
Authority
CN
China
Prior art keywords
layer
layers
network
data
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710475390.1A
Other languages
English (en)
Other versions
CN107330387B (zh
Inventor
叶允明
李旭涛
李彦良
夏武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201710475390.1A priority Critical patent/CN107330387B/zh
Publication of CN107330387A publication Critical patent/CN107330387A/zh
Application granted granted Critical
Publication of CN107330387B publication Critical patent/CN107330387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于图像数据的行人检测方法,包括以下步骤:(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;(3)对于Loss Function的实现。本发明的有益效果是:将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。

Description

基于图像数据的行人检测方法
技术领域
本发明涉及行人检测方法,尤其涉及一种基于图像数据的行人检测方法。
背景技术
基于HOG和SVM的行人检测是非常经典的检测模型,HOG已经被证明是一种对人体检测非常有效的描述子。
当今流行的物体检测很多是基于神经网络的,基于神经网络的检测对窗口尺寸不敏感。RCNN、DeepPed检测行人时都是使用一种称为SelectiveSearch的方法先对输入图像进行一些处理后,将处理后的结果送入神经网络。这些图像检测网络在人脸识别领域具有比较高的地位。
基于HOG和SVM的行人检测方法,对于检测窗口的大小比较敏感,基于低空飞行平台拍摄的视频有时在行人大小上差距很大,该方法并不适用。
RCNN、DeepPed检测行人用到的Selective Search方法在一张图片中提取几千个候选框,每一个候选框都要送入神经网络进行判断,因此这种方法十分慢。在进行行人检测时,实时性问题还是比较重要的。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于图像数据的行人检测方法。
本发明提供了一种基于图像数据的行人检测方法,包括以下步骤:
(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层,然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测。
作为本发明的进一步改进,在步骤(1)中,在数据输入时,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
作为本发明的进一步改进,通过利用Caffe提供的工具convert_box_data,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
本发明的有益效果是:将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。
附图说明
图1是本发明一种基于图像数据的行人检测方法的网络结构图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
如图1所示,一种基于图像数据的行人检测方法,主要是结合了传统的HOG(方向梯度直方图,Histogram of Oriented Gradient)+SVM(支持向量机SVM,Support VectorMachine)行人检测方法以及低秩稀疏矩阵分解的方法。其中,低秩稀疏矩阵分解采用GoDec模型解决这一问题。GoDec模型的目的是对于一个矩阵来说,可以通过算法处理,将它分为三部分:低秩的部分,离散的部分以及噪声:
本发明对Fast YOLO最主要的修改有三部分:数据的预处理,Fast YOLO网络结构的修改以及最终的Loss Function的实现。
首先,GoogLeNet的网络结构如表4-1所示。
表4-1 GoogLeNet结构
GoogLeNet的最主要的动机以及改进的部分是在保持计算代价是常量的同时,增加了网络结构的宽度和深度,而实现这一点的关键在于GoogLeNet使用了创新性的感知层(Inception Module)。相比而言,原FastYOLO是一个只有9层卷积层的网络,层数较少,可能会有宽度及深度不足的情况,导致网络在参数方面有所丢失。因此,本文改用GoogLeNet网络结构,并将Fast YOLO的思想用在GoogLeNet上,以提高原网络结构在宽度和深度上不足的问题。
修改过后的网络结构如图1所示,省略了中间部分与GoogLeNet相似的结构。
对于Fast YOLO的网络结构的修改,本文基于GoogLeNet原来结构进行修改,一共分为以下几个部分:
(1)对于数据的预处理,由于GoogLeNet处理的是从lmdb获取的数据,而在程序中使用Caffe封装好的BoxData可以完成从lmdb到BoxData的转变,因此在训练时,网络结构的第一层首先要添加一层用来将数据读入。
(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度。
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层。然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测。
在数据输入时,需要将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取,可通过利用Caffe提供的工具convert_box_data方便的完成这一操作。
修改过后的YOLO网络一共有24层卷积层,并且包含原GoogLeNet的感知层(inception module),与Fast YOLO的网络结构相比,虽然修改过后的网络层数变多,但是由于去掉了全连接层,因此速度相差预期没有很多。
本发明提供的一种基于图像数据的行人检测方法,主要研究现有的FastYOLO网络,并对其网络结构进行改进,将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。在训练神经网络结构时,由于数据库图像中的特殊性,将采用重新标定的一万多个正样本。本发明将基于改进的Fast YOLO网络设计实现一个行人检测图像处理***,该***能实现捕捉图像,检测行人,控制摄像头位置等功能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (3)

1.一种基于图像数据的行人检测方法,其特征在于,包括以下步骤:
(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;
(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层,然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测。
2.根据权利要求1所述的基于图像数据的行人检测方法,其特征在于:在步骤(1)中,在数据输入时,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
3.根据权利要求2所述的基于图像数据的行人检测方法,其特征在于:通过利用Caffe提供的工具convert_box_data,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
CN201710475390.1A 2017-06-21 2017-06-21 基于图像数据的行人检测方法 Active CN107330387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710475390.1A CN107330387B (zh) 2017-06-21 2017-06-21 基于图像数据的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710475390.1A CN107330387B (zh) 2017-06-21 2017-06-21 基于图像数据的行人检测方法

Publications (2)

Publication Number Publication Date
CN107330387A true CN107330387A (zh) 2017-11-07
CN107330387B CN107330387B (zh) 2021-04-23

Family

ID=60195517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710475390.1A Active CN107330387B (zh) 2017-06-21 2017-06-21 基于图像数据的行人检测方法

Country Status (1)

Country Link
CN (1) CN107330387B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108527382A (zh) * 2018-04-09 2018-09-14 上海方立数码科技有限公司 一种巡检机器人
CN109165585A (zh) * 2018-06-15 2019-01-08 沈阳理工大学 一种改进的基于yolo v2的船舶目标检测方法
CN110070074A (zh) * 2019-05-07 2019-07-30 安徽工业大学 一种构建行人检测模型的方法
US10621424B2 (en) 2018-03-27 2020-04-14 Wistron Corporation Multi-level state detecting system and method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678276A (zh) * 2016-01-19 2016-06-15 武汉大学 一种人体动作特征提取方法
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN105678276A (zh) * 2016-01-19 2016-06-15 武汉大学 一种人体动作特征提取方法
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSEPH REDMON ET AL: "<"YOLO9000: Better, Faster, Stronger",Joseph Redmon et al,http://pjreddie.com/yolo9000/>", <HTTP://PJREDDIE.COM/YOLO9000/> *
杨眷玉: "<基于卷积神经网络的物体识别研究与实现>", <中国优秀硕士学位论文全文数据库信息科技辑> *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621424B2 (en) 2018-03-27 2020-04-14 Wistron Corporation Multi-level state detecting system and method
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108510000B (zh) * 2018-03-30 2021-06-15 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108527382A (zh) * 2018-04-09 2018-09-14 上海方立数码科技有限公司 一种巡检机器人
CN109165585A (zh) * 2018-06-15 2019-01-08 沈阳理工大学 一种改进的基于yolo v2的船舶目标检测方法
CN110070074A (zh) * 2019-05-07 2019-07-30 安徽工业大学 一种构建行人检测模型的方法

Also Published As

Publication number Publication date
CN107330387B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN107330387A (zh) 基于图像数据的行人检测方法
CN108510485B (zh) 一种基于卷积神经网络的无参照图像质量评估方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
WO2019223254A1 (zh) 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及***
CN109583501A (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN108416440A (zh) 一种神经网络的训练方法、物体识别方法及装置
CN109871845B (zh) 证件图像提取方法及终端设备
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN109087258A (zh) 一种基于深度学习的图像去雨方法及装置
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN110956082B (zh) 基于深度学习的人脸关键点检测方法和检测***
CN108197669B (zh) 卷积神经网络的特征训练方法及装置
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
CN107886110A (zh) 人脸检测方法、装置及电子设备
CN111950700A (zh) 一种神经网络的优化方法及相关设备
CN114863539A (zh) 一种基于特征融合的人像关键点检测方法及***
CN107392251A (zh) 一种使用分类图片提升目标检测网络性能的方法
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant