CN107301376B - 一种基于深度学习多层刺激的行人检测方法 - Google Patents

一种基于深度学习多层刺激的行人检测方法 Download PDF

Info

Publication number
CN107301376B
CN107301376B CN201710385952.3A CN201710385952A CN107301376B CN 107301376 B CN107301376 B CN 107301376B CN 201710385952 A CN201710385952 A CN 201710385952A CN 107301376 B CN107301376 B CN 107301376B
Authority
CN
China
Prior art keywords
pedestrian
frame
candidate
target
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710385952.3A
Other languages
English (en)
Other versions
CN107301376A (zh
Inventor
李玺
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710385952.3A priority Critical patent/CN107301376B/zh
Publication of CN107301376A publication Critical patent/CN107301376A/zh
Application granted granted Critical
Publication of CN107301376B publication Critical patent/CN107301376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度学习多层刺激的行人检测方法,用于在给定视频监控和需检测的目标后,标出目标在视频里出现的位置。具体包括如下步骤:获取用于训练目标检测模型的行人数据集,并定义算法目标;对行人目标的位置偏差和表观语义进行建模;根据步骤S2中的建模结果建立行人多层刺激网络模型;使用所述检测模型检测监控图像中的行人位置。本发明适用于真实视频监控图像中的行人检测,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于深度学习多层刺激的行人检测方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于深度学习多层刺激的行人检测方法。
背景技术
20世纪末以来,随着计算机视觉的发展,智能视频处理技术得到广泛的关注和研究。行人检测是其中一项重要和具有挑战性的任务,其目标是准确检测出视频监控图像里行人的位置。该问题在视频监控和智能机器人等领域具有很高的应用价值,是大量高级视觉任务的基础。但同样,该问题具有较大的挑战性,一是如何表达目标区域信息;二是如何将候选区域的提取与目标分类统一建模优化,这些挑战对相应算法的性能和鲁棒性提出了较高的要求。
一般行人检测算法分为三个部分:1、找出输入图像中包含目标的候选区域。2、基于候选区域手工提取目标特征。3、对特征使用分类算法实现检测任务。该种方法主要存在以下几个问题:1)它基于传统的视觉特征,这些视觉特征只能表达较低层的视觉信息,但行人检测任务需要模型具备高层抽象的语义理解能力;2)候选区域的提取和特征的分类没有端到端学习优化;3)基于深度学习提取的特征没有经过多层刺激组合,目标特征不够抽象丰富。
发明内容
为解决上述问题,本发明的目的在于提供一种基于深度学习多层刺激的行人检测方法,用于检测给定监控图像里的行人位置。该方法基于深度神经网络,利用多层刺激的深度视觉特征表征目标区域信息,采用Faster R-CNN框架建模行人检测,能够更好地适应真实视频监控场景中的复杂情况。
为实现上述目的,本发明的技术方案为:
一种基于深度学习多层刺激的行人检测方法,包括以下步骤:
S1、获取用于训练目标检测模型的行人数据集,并定义算法目标;
S2、对行人目标的位置偏差和表观语义进行建模;
S3、根据步骤S2中的建模结果建立行人多层刺激网络模型;
S4、使用所述检测模型检测监控图像中的行人位置。
进一步的,步骤S1中,所述的用于训练目标检测模型的行人数据集,包括行人图像Xtrain,人工标注的行人位置B;
定义算法目标为:检测一幅监控图像X中的行人位置P。
进一步的,步骤S2中,对行人目标的位置偏差和表观语义进行建模具体包括:
S21、根据行人数据集Xtrain和行人位置P建模位置偏差:
Figure BDA0001306371040000021
Figure BDA0001306371040000022
其中,x,y是行人框标签的中点坐标,w,h是行人框标签的宽度与长度,xa,ya是行人候选框的坐标,wa,ha是行人候选框的宽度与长度;tx为行人框的x坐标相对于标注框x坐标的偏差对应标注框宽度的比例,ty为行人框的y坐标相对于标注框y坐标的偏差对应标注框长度的比例,tw为行人框的宽度相对于标注框宽度的比例,th为行人框的长度相对于标注框长度的比例;
S22、根据行人数据集Xtrain和行人位置P建模表观语义:
s=<w,d>
Figure BDA0001306371040000023
其中s表示特征d在投影向量w上的投影值,w是行人权重投影向量,d是行人特征描述子,<.,.>是内积运算符,p(C=k|d)是softmax函数,表示属于第k类的概率值;sj为特征d在第j个投影向量w上的投影值;C为取值个数为k的离散随机变量;j为全部投影向量w的第j个w的索引。
进一步的,步骤S3中,根据步骤S2中的建模结果建立行人多层刺激网络模型具体包括:
S31、建立多层刺激卷积神经网络,神经网络的输入为一幅监控图像X和行人标注框B,输出为对应行人候选框的概率值p,以及X中的行人位置偏差O;神经网络的结构表示为映射X→(p,O);
S32、子映射X→p使用软最大Softmax损失函数,表示为
Figure BDA0001306371040000031
Lcls(X,Y;θ)=-∑jYjlogp(C|d) 公式(3)
其中Y是二值向量,如果属于第k类,对应值为1,其余为0;Lcls(X,Y;θ)表示整个训练数据集的softmax损失函数;
S33、子映射X→O使用欧几里得损失函数,表示为
Lloc(t,v)=∑ismooth(ti,vi)
Figure BDA0001306371040000032
其中ti是行人位置偏差标签,vi是行人位置偏差预测值;i表示第i个训练样本;
S34、整个多层刺激神经网络的损失函数为
L=Lcls+Lloc 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
进一步的,步骤S4中,检测监控图像中的行人位置包括:将待检测的监控图像X输入训练好的神经网络,依据其输出的候选框概率值判断是否为行人,最后根据预测的位置偏差O校正得到行人位置P。
本发明应用于视频监控场景的行人检测方法,相比于现有的行人检测方法,具有以下有益效果:
首先,本发明的行人检测方法基于深度卷积神经网络建立模型。本发明将候选区域的产生和特征的分类统一在同一个网络框架里学习优化,提高了方法的最终效果。
其次,本发明提出的多层刺激算法可以更加丰富特征抽象能力,同时该算法学习出的特征使得分类器学习出更加鲁棒的分类规则。
本发明应用于视频监控场景的行人检测方法,在智能视频分析***里具有良好的应用价值,能够有效提高行人检测的效率和准确度。例如,在交通视频监控里,本发明的行人检测方法可以快速和准确地检测所有行人位置,为之后的行人搜索任务提供数据,极大释放了人力资源。
附图说明
图1为本发明的应用于视频监控场景的行人检测方法的流程示意图;
图2为本发明整个多层刺激神经网络的损失函数示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于深度学习多层刺激的行人检测方法,包括以下步骤:
首先,获取用于训练目标检测模型的行人数据集,包括行人图像Xtrain,人工标注的行人位置B;
定义算法目标为:检测一幅监控图像X中的行人位置P。
其次,对行人目标的位置偏差和表观语义进行建模具体包括:
第一步,根据行人数据集Xtrain和行人位置P建模位置偏差:
Figure BDA0001306371040000041
Figure BDA0001306371040000042
其中,x,y是行人框标签的中点坐标,w,h是行人框标签的宽度与长度,xa,ya是行人候选框的坐标,wa,ha是行人候选框的宽度与长度;tx为行人框的x坐标相对于标注框x坐标的偏差对应标注框宽度的比例,ty为行人框的y坐标相对于标注框y坐标的偏差对应标注框长度的比例,tw为行人框的宽度相对于标注框宽度的比例,th为行人框的长度相对于标注框长度的比例;
第二步,根据行人数据集Xtrain和行人位置P建模表观语义:
s=<w,d>
Figure BDA0001306371040000051
其中s表示特征d在投影向量w上的投影值,w是行人权重投影向量,d是行人特征描述子,<.,.>是内积运算符,p(C=k|d)是softmax函数,表示属于第k类的概率值;sj为特征d在第j个投影向量w上的投影值;C为取值个数为k的离散随机变量;j为全部投影向量w的第j个w的索引。
之后,根据上诉建模结果预训练广告牌目标的检测模型。具体包括:
第一步,建立多层刺激卷积神经网络,神经网络的输入为一幅监控图像X和行人标注框B,输出为对应行人候选框的概率值p,以及X中的行人位置偏差O;从而,神经网络的结构可以表示为映射X→(p,O);
第二步,子映射X→p使用软最大(Softmax)损失函数,表示为
Figure BDA0001306371040000052
Lcls(X,Y;θ)=-∑jYjlogp(C|d) 公式(3)
其中Y是二值向量,如果属于第k类,对应值为1,其余为0;Lcls(X,Y;θ)表示整个训练数据集的softmax损失函数;
第三步,子映射X→O使用欧几里得损失函数,表示为
Lloc(t,v)=∑ismooth(ti,vi)
Figure BDA0001306371040000053
其中ti是行人位置偏差标签,vi是行人位置偏差预测值,i表示第i个训练样本。
第四步,参考图2,整个多层刺激神经网络的损失函数为
L=Lcls+Lloc 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
最后,使用训练好的检测模型对监控图像中的行人进行检测。具体包括:将预处理好的图像放入多层刺激检测框架上计算。多层刺激检测框架用3个RPN网络来提取候选框,每个RPN网络利用的特征信息不同,从而得到的候选框大小及尺度也不一样。先得到每个RPN网络提取的候选框,按照各自置信度大小过滤得到300个候选区域。然后将3个RPN网络中的候选区域合并,得到900个候选区域。接着按照分类置信度从大到小排列,过滤得到最终的300个目标候选区域。依据其输出的候选框分类概率值是否大于给定阈值过滤候选框,同时采用非极大值抑制算法来消除交叉重复的检测框,最后根据预测的位置偏差O校正得到行人位置P。
上述实施例中,本发明的行人检测方法首先对行人目标的位置偏差和表观语义进行建模。在此基础上,将原问题转化为多任务学习问题,并基于深度神经网络建立行人检测模型。最后,使用训练好的检测模型检测监控图像中的行人位置。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于深度学习多层刺激的行人检测算法。本发明可以同时有效建模目标的位置偏差和表观语义信息,从而检测准确的行人位置。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度学习多层刺激的行人检测方法,其特征在于,包括以下步骤:
S1、获取用于训练目标检测模型的行人数据集,并定义算法目标;所述的用于训练目标检测模型的行人数据集,包括行人图像Xtrain,人工标注的行人位置B;定义算法目标为:检测一幅监控图像X中的行人位置P;
S2、对行人目标的位置偏差和表观语义进行建模,具体包括:
S21、根据行人数据集Xtrain和行人位置P建模位置偏差:
Figure FDA0002946034640000011
Figure FDA0002946034640000012
其中,x,y是行人框标签的中点坐标,w,h是行人框标签的宽度与长度,xa,ya是行人候选框的坐标,wa,ha是行人候选框的宽度与长度;tx为行人框的x坐标相对于标注框x坐标的偏差对应标注框宽度的比例,ty为行人框的y坐标相对于标注框y坐标的偏差对应标注框长度的比例,tw为行人框的宽度相对于标注框宽度的比例,th为行人框的长度相对于标注框长度的比例;
S22、根据行人数据集Xtrain和行人位置P建模表观语义:
s=<w,d>
Figure FDA0002946034640000013
其中s表示特征d在投影向量w上的投影值,w是行人权重投影向量,d是行人特征描述子,<.,.>是内积运算符,p(C=k|d)是softmax函数,表示属于第k类的概率值;sj为特征d在第j个投影向量w上的投影值;C为取值个数为k的离散随机变量;j为全部投影向量w的第j个w的索引;
S3、根据步骤S2中的建模结果建立行人多层刺激网络模型,具体包括:
S31、建立多层刺激卷积神经网络,神经网络的输入为一幅监控图像X和行人标注框B,输出为对应行人候选框的概率值p,以及X中的行人位置偏差O;神经网络的结构表示为映射X→(p,O);
S32、子映射X→p使用软最大Softmax损失函数,表示为
Figure FDA0002946034640000021
Lcls(X,Y;θ)=-∑jYjlog p(C|d) 公式(3)
其中Y是二值向量,如果属于第k类,对应值为1,其余为0;Lcls(X,Y;θ)表示整个训练数据集的softmax损失函数;
S33、子映射X→O使用欧几里得损失函数,表示为
Lloc(t,v)=∑ismooth(ti,vi)
Figure FDA0002946034640000022
其中ti是行人位置偏差标签,vi是行人位置偏差预测值;i表示第i个训练样本;
S34、整个多层刺激神经网络的损失函数为
L=Lcls+Lloc 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络;
所述多层刺激神经网络用3个RPN网络来提取候选框,每个RPN网络利用的特征信息不同,从而得到的候选框大小及尺度也不一样,且每个RPN网络均引入一个损失函数L;检测过程中先得到每个RPN网络提取的候选框,按照各自置信度大小过滤得到300个候选区域;然后将3个RPN网络中的候选区域合并,得到900个候选区域;接着按照分类置信度从大到小排列,过滤得到最终的300个目标候选区域;依据其输出的候选框分类概率值是否大于给定阈值过滤候选框,同时采用非极大值抑制算法来消除交叉重复的检测框,最后根据预测的位置偏差O校正得到行人位置P;
S4、使用所述检测模型检测监控图像中的行人位置;其中检测监控图像中的行人位置包括:将待检测的监控图像X输入训练好的神经网络,依据其输出的候选框概率值判断是否为行人,最后根据预测的位置偏差O校正得到行人位置P。
CN201710385952.3A 2017-05-26 2017-05-26 一种基于深度学习多层刺激的行人检测方法 Active CN107301376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710385952.3A CN107301376B (zh) 2017-05-26 2017-05-26 一种基于深度学习多层刺激的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710385952.3A CN107301376B (zh) 2017-05-26 2017-05-26 一种基于深度学习多层刺激的行人检测方法

Publications (2)

Publication Number Publication Date
CN107301376A CN107301376A (zh) 2017-10-27
CN107301376B true CN107301376B (zh) 2021-04-13

Family

ID=60138099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710385952.3A Active CN107301376B (zh) 2017-05-26 2017-05-26 一种基于深度学习多层刺激的行人检测方法

Country Status (1)

Country Link
CN (1) CN107301376B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163224B (zh) * 2018-01-23 2023-06-20 天津大学 一种可在线学习的辅助数据标注方法
CN108537117B (zh) * 2018-03-06 2022-03-11 哈尔滨思派科技有限公司 一种基于深度学习的乘客检测方法和***
CN108446662A (zh) * 2018-04-02 2018-08-24 电子科技大学 一种基于语义分割信息的行人检测方法
CN110969657B (zh) * 2018-09-29 2023-11-03 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN111178267A (zh) * 2019-12-30 2020-05-19 成都数之联科技有限公司 一种用于监测非法捕鱼的视频行为识别方法
CN111476089B (zh) * 2020-03-04 2023-06-23 上海交通大学 一种图像中多模态信息融合的行人检测方法、***及终端
CN111523478B (zh) * 2020-04-24 2023-04-28 中山大学 一种作用于目标检测***的行人图像检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430677B (zh) * 2015-03-20 2022-04-12 英特尔公司 基于对二进制卷积神经网络特征进行提升的目标识别
US20170098172A1 (en) * 2015-10-06 2017-04-06 Evolv Technologies, Inc. Training Artificial Intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection;Zhaowei Cai et al.;《European Conference on Computer Vision》;20160917;第354-358页 *
Deep Convolutional Neural Networks for Pedestrian Detection with Skip Pooling;Jie Liu et al.;《 2017 International Joint Conference on Neural Networks》;20170519;第1-9页 *
Fast R-CNN;Ross Girshick;《arXiv:1504.08083v2》;20150927;第2056-2063页 *
R-FCN: Object Detection via Region-based Fully Convolutional Networks;Jifeng Dai et al.;《arXiv:1605.06409v2》;20160621;第4页 *
基于特征共享的高效物体检测;任少卿;《中国博士学位论文全文数据库 信息科技辑》;20160815;第2016年卷(第8期);第四章 *

Also Published As

Publication number Publication date
CN107301376A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
Zhou et al. Safety helmet detection based on YOLOv5
Wang et al. Actionness estimation using hybrid fully convolutional networks
CN106845487B (zh) 一种端到端的车牌识别方法
CN104050471B (zh) 一种自然场景文字检测方法及***
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN111611874B (zh) 基于ResNet和Canny的人脸口罩佩戴检测方法
CN111191667B (zh) 基于多尺度生成对抗网络的人群计数方法
Deng et al. Amae: Adaptive motion-agnostic encoder for event-based object classification
Li et al. Sign language recognition based on computer vision
CN110298297A (zh) 火焰识别方法和装置
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN108648211A (zh) 一种基于深度学习的小目标检测方法、装置、设备和介质
CN103984955B (zh) 基于显著性特征和迁移增量学习的多摄像机目标识别方法
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及***
CN107330363B (zh) 一种快速的互联网广告牌检测方法
CN108898623A (zh) 目标跟踪方法及设备
CN103500456B (zh) 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
Liu et al. D-CenterNet: An anchor-free detector with knowledge distillation for industrial defect detection
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
Yin Object Detection Based on Deep Learning: A Brief Review
CN114170686A (zh) 一种基于人体关键点的屈肘行为检测方法
Pang et al. Dance video motion recognition based on computer vision and image processing
CN105118073A (zh) 基于Xtion摄像机的人体头部目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant