CN111160274B - 一种基于二值化Faster RCNN网络的行人检测方法 - Google Patents

一种基于二值化Faster RCNN网络的行人检测方法 Download PDF

Info

Publication number
CN111160274B
CN111160274B CN201911404648.4A CN201911404648A CN111160274B CN 111160274 B CN111160274 B CN 111160274B CN 201911404648 A CN201911404648 A CN 201911404648A CN 111160274 B CN111160274 B CN 111160274B
Authority
CN
China
Prior art keywords
network
pedestrian
binarization
fast rcnn
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404648.4A
Other languages
English (en)
Other versions
CN111160274A (zh
Inventor
张中
张莉蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhanda Intelligent Technology Co ltd
Original Assignee
Hefei Zhanda Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhanda Intelligent Technology Co ltd filed Critical Hefei Zhanda Intelligent Technology Co ltd
Priority to CN201911404648.4A priority Critical patent/CN111160274B/zh
Publication of CN111160274A publication Critical patent/CN111160274A/zh
Application granted granted Critical
Publication of CN111160274B publication Critical patent/CN111160274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于二值化Faster RCNN网络的行人检测方法,将Faster RCNN网络的骨干网络即VGG16网络的卷积层,卷积核和激活函数均改为二值化数据,采用二值化后的数据进行卷积运算和激活函数激活的时候,避免了原有Faster RCNN网络因需要学习大量参数而计算量大的问题,在检测速度方面提高了约6倍,在内存消耗方面缩减了近20倍,具有占用内存容量下、运算速度快的优点,不仅能够在服务器上以较高帧率运行,在嵌入式***方面也展现了良好的性能,具有较好的应用前景。

Description

一种基于二值化Faster RCNN网络的行人检测方法
技术领域
本发明涉及图像识别技术领域,尤其是一种基于二值化Faster RCNN网络的行人检测方法。
背景技术
随着人工智能的高速发展,现如今深度学习技术深入计算机视觉的各个方面,各种不同思路的新方法广泛应用于各个场景中,解决传统方法存在的弊端,性能各个方面超越了传统方法。
行人检测是计算机视觉的重要应用之一,目前已广泛应用于各个场景,如摄像头监控技术、汽车高级辅助驾驶技术等。传统行人检测着重于特征提取、分类与定位两个问题。行人特征一般分为低层特征、基于学习的特征和混合特征,分类与定位方法分为滑动窗口法、超越滑动窗口法。这些方法均存在实用性低、效果差、准确率不高的问题。
Faster RCNN目标检测算法主要流程分为基于深度卷积网络的特征提取部分、候选区域生成网络部分、候选窗口分类和微调部分、非极大值抑制部分。Faster RCNN网络虽然在行人检测上取得了不错的效果,但是因为该网络具有较多的学习参数,因此目前来说仅限于服务器上运行,利用GPU进行结果测试,在嵌入式设备上运行尚存在一定难度。
发明内容
本发明提供一种基于二值化Faster RCNN网络的行人检测方法,将Faster RCNN网络二值化,以解决现有Faster RCNN目标识别网络难以运行在嵌入式终端上的问题。
一种基于二值化Faster RCNN网络的行人检测方法,先构建并训练网络模型,然后通过训练好的网络模型对公路车道进行检测,网络模型构建和训练主要包括以下步骤:
1、收集大量汽车行驶过程中行车记录仪拍摄到的包含行人的图片,方框标记出图片中行人部分,构成包含行人的数据集,将数据集从数量上分为训练集、验证集和测试集三部分;
2、构建Faster RCNN网络,并对其进行二值化,形成二值化Faster RCNN网络,Faster RCNN网络主要由VGG16网络层、RPN网络层和ROI池化层组成;二值化操作具体为,将VGG网络层的权重利用符号函数二值化,激活函数采用Hard Sigmoid函数,卷积操作为
Figure BDA0002348315110000021
其中I表示输入矩阵,W表示未二值化的权重,K和α为调整参数;层叠模式改为批标准化→二值化激活→二值化卷积→池化;
3、利用训练集对二值化Faster RCNN网络进行训练,具体包为,权重初始化为浮点,前向传播过程中利用通过符号函数将权重量化为+1/-1,由二值权重与二值输入进行卷积运算,获得卷积层输出;在反向传播过程中,放松符号函数,计算相应梯度值,并根据梯度值对权重进行参数更新,参数更新完成后再权重量化为+1/-1,以便后期推断使用;
4、将测试集输入训练好的二值化Faster RCNN网络,获得行人预测框,采用非极大值抑制法,对行人预测框进行进一步筛选,确定行人预测框的最终位置,并在图像中显示出来。
进一步的,网络训练阶段,先利用ImageNet数据集初始化RPN网络,再利用训练集微调RPN网络;固定二值化VGG16网络和RPN网络参数后,再对分类和回归层进行同样的训练;根据训练好的RPN网络生成感兴趣区域,单独训练二值化后的VGG16网络,训练方法与RPN网络相同。
进一步的,输入图片经过VGG16网络二值化卷积后得到512通道的特征图,使用21600个固定大小的锚点框作为检测候选区域,通过RPN网络从所有候选区域中初步筛选出包含行人的候选区域,并将这些区域送入分类和回归网络最终得到行人的预测位置,最终通过非极大值抑制法产生行人检测结果。
进一步的,采用非极大值抑制算法对行人预测框进行进一步筛选的方式为,将预测框检测到的行人概率按照从大到小的顺序排列,删除与检测到行人的概率最大的预测框的交叠率大于50%的预测框,再删除与检测到行人的概率次大的预测框的交叠率大于50%的预测框,以此类推,最后留下的预测框即为非极大值抑制法进一步筛选得到的预测框。
本发明将Faster RCNN网络的骨干网络即VGG16网络的卷积层,卷积核和激活函数均改为二值化数据,采用二值化后的数据进行卷积运算和激活函数激活的时候,避免了原有Faster RCNN网络因需要学习大量参数而计算量大的问题,在检测速度方面提高了约6倍,在内存消耗方面缩减了近20倍,具有占用内存容量下、运算速度快的优点,不仅能够在服务器上以较高帧率运行,在嵌入式***方面也展现了良好的性能,具有较好的应用前景。
附图说明
图1为Faster RCNN网络结构图;
图2为行人检测输出图片。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种基于二值化Faster RCNN网络的行人检测方法,先构建并训练网络模型,然后通过训练好的网络模型对公路车道进行检测,网络模型构建和训练主要包括以下步骤:
1、收集集5万张汽车行驶过程中行车记录仪拍摄到的包含行人的图片。由于车辆行驶过程中通常是通过行车记录仪实时拍摄红绿灯情况的,因此,收集图片的来源也最好来源于行车记录仪的视频截图,将行车记录仪拍摄视频按照固定频率进行分帧处理并保留包含行人的图片进行处理分析。
采用LabelImage软件进行图片标注,方框标记出图片中行人部分,构成包含行人的数据集,将数据集按照6:2:2的比例分为训练集、测试集和验证集三部分。
2、构建图1所示Faster RCNN网络,并对其进行二值化,形成二值化Faster RCNN网络,Faster RCNN网络主要由VGG16网络层、RPN网络层和ROI池化层组成。
该Faster RCNN网络的特征提取采用VGG16网络,候选区域生成采用RNP网络,候选窗口分类和微调采用ROI池化层以及分类和回归网络。
二值化操作具体为,将VGG网络层的权重利用符号函数二值化,激活函数采用HardSigmoid函数,卷积操作为
Figure BDA0002348315110000051
其中I表示输入矩阵,W表示未二值化的权重,K和α为调整参数,其中/>
Figure BDA0002348315110000052
Figure BDA0002348315110000053
其中w、c、h分别表示卷积权重矩阵的宽、高和通道数;层叠模式改为批标准化→二值化激活→二值化卷积→池化。
3、利用训练集对二值化Faster RCNN网络进行训练,具体包括:
⑴权重初始化为浮点,先利用ImageNet数据集初始化RPN网络,再利用训练集微调RPN网络;固定二值化VGG16网络和RPN网络参数后,再对分类和回归层进行同样的训练;根据训练好的RPN网络生成感兴趣区域,单独训练二值化后的VGG16网络,训练方法与RPN网络相同;
⑵前向传播过程中,输入图片经过VGG16网络二值化卷积后得到512通道的特征图,使用21600个固定大小的锚点框作为检测候选区域,通过RPN网络从所有候选区域中初步筛选出包含行人的候选区域,并将这些区域送入分类和回归网络最终得到行人的预测位置,最终通过非极大值抑制法产生行人检测结果;
⑶反向传播,放松符号函数,计算相应梯度值,并根据梯度值对权重进行参数更新;
⑷参数更新完成后再权重量化为+1/-1,以便后期推断使用。
4、将测试集输入训练好的二值化Faster RCNN网络,获得行人预测框,采用非极大值抑制法,对行人预测框进行进一步筛选,确定行人预测框的最终位置,并在图像中显示出来;
采用非极大值抑制算法对行人预测框进行进一步筛选的方式为,将预测框检测到的行人概率按照从大到小的顺序排列,删除与检测到行人的概率最大的预测框的交叠率大于50%的预测框,再删除与检测到行人的概率次大的预测框的交叠率大于50%的预测框,以此类推,最后留下的预测框即为非极大值抑制法进一步筛选得到的预测框。
这里需要说明的是,本发明未特殊强调部分,均属于本领域技术人员根据现有目标识别技术可以或容易知晓如何实现的。
向本发明训练好的网路模型输入待检测图片,输出带行人预测框的图片,如图2所示。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

Claims (4)

1.一种基于二值化Faster RCNN网络的行人检测方法,先构建并训练网络模型,然后通过训练好的网络模型对公路车道进行检测,其特征在于,网络模型构建和训练主要包括以下步骤:
步骤1,收集大量汽车行驶过程中行车记录仪拍摄到的包含行人的图片,方框标记出图片中行人部分,构成包含行人的数据集,将数据集从数量上分为训练集、验证集和测试集三部分;
步骤2,构建Faster RCNN网络,并对其进行二值化,形成二值化Faster RCNN网络,Faster RCNN网络主要由VGG16网络层、RPN网络层和ROI池化层组成;二值化操作具体为,将VGG网络层的权重利用符号函数二值化,激活函数采用Hard Sigmoid函数,卷积操作为
Figure FDA0002348315100000011
其中I表示输入矩阵,W表示未二值化的权重,K和α为调整参数;层叠模式改为批标准化→二值化激活→二值化卷积→池化;
步骤3,利用训练集对二值化Faster RCNN网络进行训练,具体为,权重初始化为浮点,前向传播过程中利用通过符号函数将权重量化为+1/-1,由二值权重与二值输入进行卷积运算,获得卷积层输出;在反向传播过程中,放松符号函数,计算相应梯度值,并根据梯度值对权重进行参数更新,参数更新完成后再权重量化为+1/-1,以便后期推断使用;
步骤4,将测试集输入训练好的二值化Faster RCNN网络,获得行人预测框,采用非极大值抑制法,对行人预测框进行进一步筛选,确定行人预测框的最终位置,并在图像中显示出来。
2.根据权利要求1所述的基于二值化Faster RCNN网络的行人检测方法,其特征在于,网络训练阶段,先利用ImageNet数据集初始化RPN网络,再利用训练集微调RPN网络;固定二值化VGG16网络和RPN网络参数后,再对分类和回归层进行同样的训练;根据训练好的RPN网络生成感兴趣区域,单独训练二值化后的VGG16网络,训练方法与RPN网络相同。
3.根据权利要求2所述的基于二值化Faster RCNN网络的行人检测方法,其特征在于,输入图片经过VGG16网络二值化卷积后得到512通道的特征图,使用21600个固定大小的锚点框作为检测候选区域,通过RPN网络从所有候选区域中初步筛选出包含行人的候选区域,并将这些区域送入分类和回归网络最终得到行人的预测位置,最终通过非极大值抑制法产生行人检测结果。
4.根据权利要求1所述的基于二值化Faster RCNN网络的行人检测方法,其特征在于,采用非极大值抑制算法对行人预测框进行进一步筛选的方式为,将预测框检测到的行人概率按照从大到小的顺序排列,删除与检测到行人的概率最大的预测框的交叠率大于50%的预测框,再删除与检测到行人的概率次大的预测框的交叠率大于50%的预测框,以此类推,最后留下的预测框即为非极大值抑制法进一步筛选得到的预测框。
CN201911404648.4A 2019-12-31 2019-12-31 一种基于二值化Faster RCNN网络的行人检测方法 Active CN111160274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404648.4A CN111160274B (zh) 2019-12-31 2019-12-31 一种基于二值化Faster RCNN网络的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404648.4A CN111160274B (zh) 2019-12-31 2019-12-31 一种基于二值化Faster RCNN网络的行人检测方法

Publications (2)

Publication Number Publication Date
CN111160274A CN111160274A (zh) 2020-05-15
CN111160274B true CN111160274B (zh) 2023-03-24

Family

ID=70559598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404648.4A Active CN111160274B (zh) 2019-12-31 2019-12-31 一种基于二值化Faster RCNN网络的行人检测方法

Country Status (1)

Country Link
CN (1) CN111160274B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516158B (zh) * 2021-04-15 2024-04-16 西安理工大学 基于Faster R-CNN的图模型构建方法
CN113420794B (zh) * 2021-06-04 2022-04-22 中南民族大学 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304786A (zh) * 2018-01-17 2018-07-20 东南大学 一种基于二值化卷积神经网络的行人检测方法
CN108363986A (zh) * 2018-03-07 2018-08-03 曲阜师范大学 基于改进Sobel算子的人脸速写***和轮廓提取方法
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861842B2 (en) * 2010-02-05 2014-10-14 Sri International Method and apparatus for real-time pedestrian detection for urban driving

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304786A (zh) * 2018-01-17 2018-07-20 东南大学 一种基于二值化卷积神经网络的行人检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN108363986A (zh) * 2018-03-07 2018-08-03 曲阜师范大学 基于改进Sobel算子的人脸速写***和轮廓提取方法
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Faster-RCNN的智能家居行人检测***设计与实现;朱虹等;《工业控制计算机》;20180425(第04期);全文 *

Also Published As

Publication number Publication date
CN111160274A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111368687B (zh) 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN109753913B (zh) 计算高效的多模式视频语义分割方法
US20180349741A1 (en) Computer-readable recording medium, learning method, and object detection device
CN111814621A (zh) 一种基于注意力机制的多尺度车辆行人检测方法及装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN114693924A (zh) 一种基于多模型融合的道路场景语义分割方法
CN113343985B (zh) 车牌识别方法和装置
CN111160274B (zh) 一种基于二值化Faster RCNN网络的行人检测方法
US20230281974A1 (en) Method and system for adaptation of a trained object detection model to account for domain shift
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN111461145A (zh) 一种基于卷积神经网络进行目标检测的方法
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN117218622A (zh) 路况检测方法、电子设备及存储介质
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
CN112348011A (zh) 一种车辆定损方法、装置及存储介质
CN111832463A (zh) 一种基于深度学习的交通标志检测方法
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN111027482A (zh) 基于运动向量分段分析的行为分析方法及装置
Muniruzzaman et al. Deterministic algorithm for traffic detection in free-flow and congestion using video sensor
Zhu et al. Crack detection using enhanced hierarchical convolutional neural networks
Abdullah et al. Contour Based Tracking for Driveway Entrance Counting System
CN113869239A (zh) 一种交通信号灯倒计时识别***及其构建方法、应用方法
Qu et al. An improved character recognition algorithm for license plate based on BP neural network
Anoopa et al. Advanced video anomaly detection using 2D CNN and stacked LSTM with deep active learning-based model: 10.48129/kjs. splml. 19159

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant