CN104881662B - 一种单幅图像行人检测方法 - Google Patents
一种单幅图像行人检测方法 Download PDFInfo
- Publication number
- CN104881662B CN104881662B CN201510360321.7A CN201510360321A CN104881662B CN 104881662 B CN104881662 B CN 104881662B CN 201510360321 A CN201510360321 A CN 201510360321A CN 104881662 B CN104881662 B CN 104881662B
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- human body
- window
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种单幅图像行人检测方法,包括:采集一个真实场景下的行人数据集,标注行人位置,同时采集一个不包含行人的背景数据集,以此作为训练数据,利用梯度幅值特征和线性支持向量机,训练一个“粗”的行人检测器,快速过滤非行人窗口。利用该快速行人检测器,在行人数据集上进行检测,纪录所有输出窗口的位置,根据标注好的行人位置,分别保存为正例窗口和反例窗口。利用这些窗口样本,基于层叠自动编码机,训练一个深度网络,区分行人窗口和非行人窗口。输出最终的由“粗”到“精”的行人检测器,以此实现对输入图像的行人检测。
Description
技术领域
本发明属于计算机视觉和图像处理技术领域,特别的涉及单幅图像的行人检测方法。
背景技术
行人检测是计算机视觉技术中的热点和难点,可理解为判断输入图像是否包含行人,如果包含行人,则给出行人的位置信息,近年来,行人检测技术在人体行为分析、视频监控、车辆辅助驾驶及灾难营救等领域发挥了作用。
行人检测技术中最为核心的问题可以归结为特征提取,分类和定位三个方面。现有技术中对这三个方面的研究可归结为两类:基于背景建模的方法和基于统计学习的方法,都取得了一定的成果,然而基于背景建模的方法鲁棒性不高,抗干扰能力较差,而基于统计学习的方法受训练样本的影响较大,且应对真实场景的能力不够。
为克服现有技术的上述不足之处,本发明提出了一种多层次的基于快速和精细行人检测器的行人检测方法,利用梯度幅值特征和线性支持向量机,训练得到粗的行人检测器,实现非行人窗口的快速过滤,在快速过滤的结果上,利用加速的窗口扫描方法,得到更为精确的窗口正例样本的反例样本,以此训练得到作为精细检测器的自动编码机,基于层叠的自动编码机,区分行人和非行人窗口,实现对输入图像的行人检测,本发明提供的多层次的基于训练实现的行人检测方法具有更好的鲁棒性,能够快速且准确的实现图像中行人的检测。
发明内容
本发明要解决的问题是提供一种单幅图像行人检测方法,以解决现有技术中行人检测易受环境影响,不够准确的缺陷。
为了实现以上目的,本发明提供了一种单幅图像行人检测方法,其特征在于:
采集M幅图像组成行人数据集,记为,,图像上
包含有个行人样本,,标记图像上第j个行人样本的位置为:,
其中为矩形框左上顶点坐标,为矩形框宽度,为矩形框长度,所述矩形框为完
全包含该行人样本轮廓的人体矩形框,采集的每幅图像的宽均大于20像素,高均大于50像素,
采集N幅不包含行人的图像组成背景数据集,记为;
对行人数据集I中的每一幅图像,根据图像上每个人体矩形框的位置,经过截
取,获得对应的人体子图像,行人数据集I中所有图像的所有人体子图像构成了正例样本,
将截取的正例人体子图像转换为对应的人体灰度子图像,经过归一化处理得到10*25像素
大小的标准人体灰度子图像,计算该10*25像素大小的标准人体灰度子图像的梯度幅值特
征,是一个10行25列的矩阵,将该特征拉直,该拉直后的梯度幅值特征为一个250
维的列向量,将所有正例样本的特征记为:,其中表示第i幅图像的第j个人体矩形框的拉直梯度幅值特征,在训练集B中的
图像上,选择宽高比例为10:25的背景矩形框共10T个,经过截取,获得对应的背景子图像,
则这10T个背景子图像构成了反例样本,将截取的反例背景子图像转换为对应的背景灰度
子图像,经过归一化处理得到10*25像素大小的标准背景灰度子图像,计算该10*25像素大
小的标准背景灰度子图像的梯度幅值特征,将该特征拉直,该拉直后的梯度幅值
特征为一个250维的列向量,将所有反例样本的特征记为:
,是一个250行10T列的矩阵,其中表示第a个反
例样本的拉直梯度幅值特征,将所有正例样本的标签设置为1,反例样本的标签设置为0,训
练一个二类线性分类的支持向量机SVM,得到判别投影,设置得分函数,其中g表示任意10*25大小的灰度图像样本经过拉直后的梯
度幅值特征,该拉直后的梯度幅值特征是一个250维的列向量,计算每个正例样本的标准人
体灰度子图像的得分函数值,进行排序,设置检测阈值,使得该阈值大于99%的正例样本
的标准人体灰度子图像的得分函数值;
将行人训练集I中的每幅图像进行灰度处理,得到灰度图像,对其进行高斯金字塔
处理,缩放比例为,直到最小尺寸的灰度图像的宽
大于10个像素且高大于25个像素,将D+1个尺度作为主尺度,计算每个主尺度灰幅图像的梯
度幅值特征图像,通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度
幅值特征图像,在所有尺度的梯度幅值特征图像上进行窗口扫描,窗口大小为10*25像素,
水平和垂直方向的步长都是1,对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将
其拉直为一个250维的列向量,计算其得分函数值,对得分函数值大于检测阈值的窗口,
以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像,并以该窗口
在该尺度的梯度幅值特征图像上的相对位置进行还原,还原得到该窗口在行人训练集I中
的对应图像的灰度图像上的相对位置,该灰度图像的尺度为1,该位置为一个宽高比为10:
25的矩形框,计算还原得到的每个矩形框与行人训练集I中对应图像上的所有人体矩形框
之间的重合度,重合度具体计算方法为:,即这两个矩形框的面积重
合部分除以两个矩形框的平均面积,将与对应图像上的所有人体矩形框之间的重合度都低
于0.5的矩形框作为反例,将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为
正例;
利用快速检测结果训练精细行人检测器;
利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测。
优选的,其中步骤(3.3)具体为:在相邻的两个主尺度之间等间隔的***四个中间尺度,上述四个尺度由距离其最近的主尺度的梯度幅值特征图像插值得到。
优选的,其中在相邻的两个主尺度之间等间隔的***四个中间尺度具体为:在
尺度图像和尺度图像之间等间隔的***四个中间尺度,则每个中间尺度可以表示为:
,其中表示尺度图像和尺
度图像之间第q个中间尺度的缩放比例。
优选的,其中步骤(4)具体为:
对步骤3.8中得到的正例矩形框和反例矩形框,统一缩放为10*25像素大小的灰度
图像,组成精细行人检测器的训练样本集合,记为,其中正
例矩形框有c个,反例矩形框有v个,
设置一个包含三个隐层的自动编码机作为精细行人检测器;
逐层进行预训练Pre-Train;
进行微调Fine-tune,将正例样本的输出设置为1,反例样本的输出设置为0,利用
BP算法对层级编码机三个隐层的参数以及softmax层的参数进行Fine-tune,
以此训练得到具有上述参数的自动编码机作为精细行人检测器。
优选的,其中步骤(4.3)具体为:
基于去噪自动编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层,将其输出作为原始输入的最小化重构误差;
将每个隐含层的输出作为下一层神经网络的输入,进行无监督训练;
重复步骤4.3.2,直到完成所有隐含层的预训练为止,得到的初始值;
将最后一个隐含层的输出作为softmax层的输入,并且初始化softmax层的参数。
优选的,其中步骤(5)具体为:
对输入图形E进行灰度图像转换,得到输入灰度图像,对其进行高斯金字塔缩放,
缩放比例为,,直到最小的灰度图像的宽大于10个像素
且高大于25个像素,共得到O+1个主尺度,输入图像E的宽大于20像素,高大于50像素;
在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像;
通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中,以等间隔方式在每个间隔中进行中间尺度***,每个间隔***四个中间尺度,共得到O*5+1个尺度的梯度幅值特征图像,上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到;
在每个尺度的梯度幅值特征图像上进行快速窗口扫描,使用10*25大小的窗口在每个梯度幅值特征图像上扫描,对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将其拉直为一个250维的列向量,计算其得分函数值;
输出大于检测阈值的窗口,以该窗口所在的比例为的梯度幅值特征图像的
比例倒数缩放该图像,并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还
原,还原得到该窗口在输入图像E的灰度图像上的相对位置,该灰度图像的尺度为1,该位置
为一个宽高比为10:25的矩形框;
将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像,输入到训练得到的作为精细行人检测器的自动编码机进行分类;
保留输出层输出的置信度大于0.5的灰度窗口图像,将其作为候选人体框;
为每个候选人体框标记一个五元组标签,分别对应该候选人
体框左上顶点的横坐标,纵坐标,该候选人体框的宽度,高度以及置信度;
对这些候选人体框进行聚类,输出人体检测框。
优选的,其中步骤(5.9)具体为:
将所有候选人体框按照置信度排序,每个框标记设置为0,形成候选人体框集合H,设置集合R表示真实候选框集合,初始化R为空集;
在集合H中选择置信度最大的候选人体框,记为,将
从H中移除,加入集合R后将其标记设置为1;
计算H中所有候选人体框和的重合度,重合度的计算方法为:,
即这两个矩形框的面积重合部分除以两个矩形框的平均面积;
将重合度大于0.8的候选人体框从H中移除并加入到集合R中,且将这些候选人体
框的标记设置为1,此时集合R中的候选人体框可以记为:,其中;
计算R中每个候选人体框的权重,,对这U+1个候选人体框进行加权融
合,输出人体检测框位置记为:;
判断集合H中是否还有候选人体框,如果没有,结束检测;如果集合H中还有候选人体框,将集合R清空,在集合H中重复步骤(5.9.2)-(5.9.5)。
附图说明
图1为行人数据集及行人样本标注示例图
图2为不包括行人的背景数据集图片示例
图3为主尺度梯度幅值特征图像和加速的相邻尺度插值实现示意图
图4为快速检测器输出的正例和反例样本示例图
图5为自动编码机结构图
图6为逐层无监督Pre-Train示例图
图7为行人检测流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明做出进一步地详细描述。本发明提出的单幅图像行人检测方法由两部分组成,第一部分是行人检测器训练,第二部分是行人检测。
首先,介绍行人检测器训练部分。
步骤1:数据准备,设置行人数据集和背景数据集
:设置行人数据集并标记人体矩形框
采集M幅图像组成行人数据集,每幅图像的宽均大于20像素,高均大于50像素,记
为,图像上包含有个行人样本,,标记图像上第j个行人样本的位置为:,其中以为矩形框左上顶点
坐标,以为矩形框宽度,以为矩形框长度,表示完全包含该行人样本轮廓的人体矩形
框。
图1所示为行人数据集及行人样本标注示例图
:设置背景数据集
采集N幅不包含行人的图像组成背景数据集,记为,图2所示为不包括行人的背景数据集图片示例
步骤2:训练快速行人检测器
:利用行人数据集获取正例样本的特征表示,具体为:
:对行人数据集I中的每一幅图像,根据图像上每个人体矩形框的位置,截取获
得对应的人体子图像,行人数据集I中所有图像的所有人体子图像构成了正例样本;
:将截取的正例人体子图像转换为对应的人体灰度子图像,经过归一化处理得到10*25像素大小的标准人体灰度子图像;
:计算该10*25像素大小的标准人体灰度子图像的梯度幅值特征,将该特
征拉直为250维的列向量;
:将所有正例样本的特征记为:表
示第i幅图像的第j个人体矩形框的拉直梯度幅值特征;
:利用背景数据集获取反例样本的特征表示,具体为:
:在训练集B中的图像上,选择宽高比例为10:25的背景图像矩形框共10T个,截取后获得对应的背景子图像,则这10T个背景子图像构成了反例样本;
:将截取的背景子图像转换为对应的背景灰度子图像,经过归一化处理得到10*25像素大小的标准背景灰度子图像;
:计算该10*25像素大小的标准背景灰度子图像的梯度幅值特征,将该特
征拉直为250维的列向量;
:将所有反例样本的特征记为:
,其中表示第a个反例样本的拉直梯度幅值特
征;
:训练线性分类器作为快速行人检测器
:将所有正例样本的标签设置为1,反例样本的标签设置为0,训练一个二类线性分
类的SVM,得到判别投影;
:设置得分函数,其中g表示任意10*25大小的灰度图像
样本经过拉直后的梯度幅值特征,该拉直后的梯度幅值特征是250维的列向量;
:计算每个正例样本的标准人体灰度子图像的得分函数值,进行排序,设置检测阈
值,使得该阈值大于99%的正例样本的标准人体灰度子图像的得分函数值。
步骤3:利用快速行人检测器进行快速行人检测与行人样本提取
:将行人训练集I中的每幅图像进行灰度处理,得到灰度图像,对其进行高斯金字
塔处理,缩放比例为,直到最小尺寸的灰度图像
的宽大于10个像素且高大于25个像素,由于每幅图像的宽都大于20像素,高都大于50像素,
因此每图图像至少经过一次缩放,有两个主尺度;
将上述D+1个尺度作为主尺度,计算每个主尺度灰幅图像的梯度幅值特征图像;
通过Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像,具体为:
在相邻的两个主尺度之间等间隔的***四个中间尺度,上述四个尺度可以由距离其最近的主尺度的梯度幅值特征图像插值得到,可以由距离其最近的相对大尺度的主尺度下采样得到,或者由距离其最近的相对小尺度的主尺度上采样得到。
例如,在尺度图像和尺度图像之间等间隔的***四个中间尺度,则每个中
间尺度可以表示为:
表示尺度图像和
尺度图像之间第q个中间尺度的缩放比例, 。
图3为主尺度梯度幅值特征图像和加速的相邻尺度插值实现示意图,如图3所示,在1,1/2,1/4这三个主尺度之间,存在两个尺度间隔,在每个间隔中分别***四个中间尺度,即得到11个尺度的梯度幅值特征图像;
在所有尺度的梯度幅值特征图像上进行窗口扫描,窗口大小为10*25像素,水平和垂直方向的步长都是1;
对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将其拉直为250维的列向量,计算其得分函数值;
对得分函数值大于阈值的窗口,以该窗口所在的比例为的梯度幅
值特征图像的比例倒数缩放该图像,并以该窗口在该尺度的梯度幅值特征图像上的相对
位置进行还原,还原得到该窗口在行人训练集I中的对应图像的灰度图像上的相对位置,该
灰度图像的尺度为1,该位置为一个宽高比为10:25的矩形框;
计算还原得到的每个矩形框与行人训练集I中其所在的图像上的所有人体矩形框
之间的重合度,重合度具体计算方法为:,即这两个矩形框的面积重合部分
除以两个矩形框的平均面积。
将与对应图像上所有人体矩形框之间的重合度都低于0.5的矩形框作为反例,将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为正例。
图4所示为快速检测器输出的正例和反例样本示例图,如图4所示,实线框标注的是正例,虚线框标注的是反例。
步骤4:利用快速检测结果训练精细行人检测器
对步骤3.8中得到的正例矩形框和反例矩形框,统一缩放为10*25像素大小的灰度
图像,组成精细行人检测器的训练样本集合,记为,其中正例
矩形框有c个,反例矩形框有v个,;
设置一个包含三个隐层的自动编码机作为精细行人检测器,自动编码器的结构如图5所示;
逐层进行预训练Pre-Train
基于无噪声编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层,将其输出作为原始输入的最小化重构误差,其基本原理见图6所示;
将每个隐含层的输出作为下一层神经网络的输入,进行无监督训练;
重复步骤4.3.2,直到完成所有隐含层的预训练为止,得到的初始值;
将最后一个隐含层的输出作为softmax层的输入,并且初始化softmax层的参数。
进行微调Fine-tune
将正例样本的输出设置为1,反例样本的输出设置为0,利用BP算法对层级编码机
三个隐层的参数以及softmax层的参数进行Fine-tune。以此训练得到具有上述
参数的自动编码机作为精细行人检测器。
下面将介绍行人检测部分:
步骤5:利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测,如图7所示,具体为:
:对输入图形E进行灰度图像转换,得到输入灰度图像,输入图像的宽大于20像素,
高大于50像素,对其进行高斯金字塔缩放,缩放比例为,
直到最小的灰度图像的宽大于10个像素且高大于25个像素,共得到O+1个主尺度;
:在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像;
:通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中,以等间隔方式在每个间隔中进行中间尺度***,每个间隔***四个中间尺度,共得到O*5+1个尺度的梯度幅值特征图像,上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到;
:在每个尺度的梯度幅值特征图像上进行快速窗口扫描,使用10*25大小的窗口在每个梯度幅值特征图像上扫描,对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将其拉直为250维的列向量,计算其得分函数值;
:输出大于阈值的窗口,以该窗口所在的比例为的梯度幅值特征图像的比例
倒数缩放该图像,并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原,还
原得到该窗口在输入图像E的灰度图像上的相对位置,该灰度图像的尺度为1,该位置为一
个宽高比为10:25的矩形框;
:将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像,输入到训练得到的作为精细行人检测器的自动编码机进行分类;
:保留输出层输出的置信度大于0.5的灰度窗口图像,将其作为候选人体框;
:为每个候选人体框标记一个五元组标签,分别对应该候选人
体框左上顶点的横坐标,纵坐标,该候选人体框的宽度,高度以及置信度。
:对这些候选人体框进行聚类,输出人体检测框,过程具体为:
将所有候选人体框按照置信度排序,每个框标记设置为0,形成候选人体框集合H,设置集合R表示真实候选框集合,初始化R为空集;
在集合H中选择置信度最大的候选人体框,记为,将
从H中移除,加入集合R后将其标记设置为1;
计算H中所有候选人体框和的重合度,重合度的计算方法为:,
即这两个矩形框的面积重合部分除以两个矩形框的平均面积;
将重合度大于0.8的候选人体框从H中移除并加入到集合R中,且将这些候选人体
框的标记设置为1,此时集合R中的候选人体框可以记为:,其中;
计算R中每个候选人体框的权重,,对这U+1个候选人体框进行加权融
合,输出人体检测框位置记为:;
判断集合H中是否还有候选人体框,如果没有,结束检测;如果集合H中还有候选人体框,将集合R清空,在集合H中重复步骤5.9.2-5.9.5。
显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围,这样,倘若本发明的这些修改和变形属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变形在内。
Claims (7)
1.一种单幅图像行人检测方法,其特征在于:
(1)采集M幅图像组成行人数据集,记为,,图像上包
含有个行人样本,,标记图像上第j个行人样本的位置为:,
其中为矩形框左上顶点坐标,为矩形框宽度,为矩形框长度,所述矩形框为完
全包含该行人样本轮廓的人体矩形框,采集的每幅图像的宽均大于20像素,高均大于50像
素,采集N幅不包含行人的图像组成背景数据集,记为;
(2)对行人数据集I中的每一幅图像,根据图像上每个人体矩形框的位置,经过截取,
获得对应的人体子图像,行人数据集I中所有图像的所有人体子图像构成了正例样本,将截
取的正例人体子图像转换为对应的人体灰度子图像,经过归一化处理得到10*25像素大小
的标准人体灰度子图像,计算该10*25像素大小的标准人体灰度子图像的梯度幅值特征,是一个10行25列的矩阵,将该特征拉直,该拉直后的梯度幅值特征为一个250维
的列向量,将所有正例样本的特征记为:,其中
表示第i幅图像的第j个人体矩形框的拉直梯度幅值特征,在训练集B中的图像上,选择宽高
比例为10:25的背景矩形框共10T个,经过截取,获得对应的背景子图像,则这10T个背景子
图像构成了反例样本,将截取的反例背景子图像转换为对应的背景灰度子图像,经过归一
化处理得到10*25像素大小的标准背景灰度子图像,计算该10*25像素大小的标准背景灰度
子图像的梯度幅值特征,将该特征拉直,该拉直后的梯度幅值特征为一个250维的
列向量,将所有反例样本的特征记为:
,是一个250行10T列的矩阵,其中表示第a个反例样本
的拉直梯度幅值特征,将所有正例样本的标签设置为1,反例样本的标签设置为0,训练一个
二类线性分类的支持向量机SVM,得到判别投影,设置得分函数,其中g表示任意10*25大小的灰度图像样本经过拉直后的梯度
幅值特征,该拉直后的梯度幅值特征是一个250维的列向量,计算每个正例样本的标准人体
灰度子图像的得分函数值,进行排序,设置检测阈值,使得该阈值大于99%的正例样本的
标准人体灰度子图像的得分函数值;
(3)将行人训练集I中的每幅图像进行灰度处理,得到灰度图像,对其进行高斯金字塔
处理,缩放比例为,直到最小尺寸的灰度图像的宽大
于10个像素且高大于25个像素,将D+1个尺度作为主尺度,计算每个主尺度灰幅图像的梯度
幅值特征图像,通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅
值特征图像,在所有尺度的梯度幅值特征图像上进行窗口扫描,窗口大小为10*25像素,水
平和垂直方向的步长都是1,对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将其
拉直为一个250维的列向量,计算其得分函数值,对得分函数值大于检测阈值的窗口,以
该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像,并以该窗口在该
尺度的梯度幅值特征图像上的相对位置进行还原,还原得到该窗口在行人训练集I中的对
应图像的灰度图像上的相对位置,该灰度图像的尺度为1,该位置为一个宽高比为10:25的
矩形框,计算还原得到的每个矩形框与行人训练集I中对应图像上的所有人体矩形框之间
的重合度,重合度具体计算方法为:,即这两个矩形框的面积重合部分除以
两个矩形框的平均面积,将与对应图像上的所有人体矩形框之间的重合度都低于0.5的矩
形框作为反例,将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为正例;
(4)利用快速检测结果训练精细行人检测器;
(5)利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测。
2.如权利要求1所述的方法,其中通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像具体为:在相邻的两个主尺度之间等间隔的***四个中间尺度,上述四个尺度由距离其最近的主尺度的梯度幅值特征图像插值得到。
3.如权利要求2所述的方法,其中在相邻的两个主尺度之间等间隔的***四个中间尺
度具体为:在尺度图像和尺度图像之间等间隔的***四个中间尺度,则每个中间尺
度可以表示为:
,其中表示尺度图像和尺度图像之
间第q个中间尺度的缩放比例。
4.如权利要求3所述的方法,其中步骤(4)具体为:
(4.1)对步骤3.8中得到的正例矩形框和反例矩形框,统一缩放为10*25像素大小的灰
度图像,组成精细行人检测器的训练样本集合,记为,其中正
例矩形框有c个,反例矩形框有v个,
(4.2)设置一个包含三个隐层的自动编码机作为精细行人检测器;
(4.3)逐层进行预训练Pre-Train;
(4.4)进行微调Fine-tune,将正例样本的输出设置为1,反例样本的输出设置为0,利用
BP算法对层级编码机三个隐层的参数以及softmax层的参数进行Fine-tune,以
此训练得到具有上述参数的自动编码机作为精细行人检测器。
5.如权利要求4所述的方法,其中步骤(4.3)具体为:
(4.3.1)基于去噪自动编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层,将其输出作为原始输入的最小化重构误差;
(4.3.2)将每个隐含层的输出作为下一层神经网络的输入,进行无监督训练;
(4.3.3)重复步骤(4.3.2),直到完成所有隐含层的预训练为止,得到的初始
值;
(4.3.4)将最后一个隐含层的输出作为softmax层的输入,并且初始化softmax层的参
数。
6.如权利要求5所述的方法,其中步骤(5)具体为:
(5.1)对输入图形E进行灰度图像转换,得到输入灰度图像,对其进行高斯金字塔缩放,
缩放比例为,,直到最小的灰度图像的宽大于10个像素且
高大于25个像素,共得到O+1个主尺度,输入图像E的宽大于20像素,高大于50像素;
(5.2)在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像;
(5.3)通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中,以等间隔方式在每个间隔中进行中间尺度***,每个间隔***四个中间尺度,共得到O*5+1个尺度的梯度幅值特征图像,上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到;
(5.4)在每个尺度的梯度幅值特征图像上进行快速窗口扫描,使用10*25大小的窗口在每个梯度幅值特征图像上扫描,对扫描得到的每个10*25像素大小的梯度幅值特征窗口,将其拉直为一个250维的列向量,计算其得分函数值;
(5.5)输出大于检测阈值的窗口,以该窗口所在的比例为的梯度幅值特征图像的
比例倒数缩放该图像,并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还
原,还原得到该窗口在输入图像E的灰度图像上的相对位置,该灰度图像的尺度为1,该位置
为一个宽高比为10:25的矩形框;
(5.6)将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像,输入到训练得到的作为精细行人检测器的自动编码机进行分类;
(5.7)保留输出层输出的置信度大于0.5的灰度窗口图像,将其作为候选人体框;
(5.8)为每个候选人体框标记一个五元组标签,分别对应该候选人
体框左上顶点的横坐标,纵坐标,该候选人体框的宽度,高度以及置信度;
(5.9)对这些候选人体框进行聚类,输出人体检测框。
7.如权利要求6所述的方法,其中步骤(5.9)具体为:
(5.9.1)将所有候选人体框按照置信度排序,每个框标记设置为0,形成候选人体框集合H,设置集合R表示真实候选框集合,初始化R为空集;
(5.9.2)在集合H中选择置信度最大的候选人体框,记为,将从H中移除,加入集合R后将其标记设置为1;
(5.9.3)计算H中所有候选人体框和的重合度,重合度的计算方法为:,
即这两个矩形框的面积重合部分除以两个矩形框的平均面积;
(5.9.4)将重合度大于0.8的候选人体框从H中移除并加入到集合R中,且将这些候选人
体框的标记设置为1,此时集合R中的候选人体框可以记为:,其中;
(5.9.5)计算R中每个候选人体框的权重,,对这U+1个候选人体框进行加权
融合,输出人体检测框位置记为:;
(5.9.6)判断集合H中是否还有候选人体框,如果没有,结束检测;如果集合H中还有候选人体框,将集合R清空,在集合H中重复步骤(5.9.2)-(5.9.5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510360321.7A CN104881662B (zh) | 2015-06-26 | 2015-06-26 | 一种单幅图像行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510360321.7A CN104881662B (zh) | 2015-06-26 | 2015-06-26 | 一种单幅图像行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881662A CN104881662A (zh) | 2015-09-02 |
CN104881662B true CN104881662B (zh) | 2019-03-08 |
Family
ID=53949149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510360321.7A Expired - Fee Related CN104881662B (zh) | 2015-06-26 | 2015-06-26 | 一种单幅图像行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881662B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354549B (zh) * | 2015-11-02 | 2019-11-29 | 南京理工大学 | 基于似物性估计的快速行人检测方法 |
CN105512685B (zh) * | 2015-12-10 | 2019-12-03 | 小米科技有限责任公司 | 物体识别方法和装置 |
CN106022237B (zh) * | 2016-05-13 | 2019-07-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106339725A (zh) * | 2016-08-31 | 2017-01-18 | 天津大学 | 基于尺度不变特征和位置先验的行人检测方法 |
CN107092884B (zh) * | 2017-04-20 | 2020-09-25 | 宋佳颖 | 一种快速粗精级联行人检测方法 |
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN108875481B (zh) * | 2017-08-31 | 2021-10-12 | 北京旷视科技有限公司 | 用于行人检测的方法、装置、***及存储介质 |
CN108495061A (zh) * | 2018-03-15 | 2018-09-04 | 深圳市瀚晖威视科技有限公司 | 视频报警***及利用该视频报警***进行报警的方法 |
CN108986159B (zh) * | 2018-04-25 | 2021-10-22 | 浙江森马服饰股份有限公司 | 一种三维人体模型重建与测量的方法和设备 |
CN109101932B (zh) * | 2018-08-17 | 2020-07-24 | 佛山市顺德区中山大学研究院 | 基于目标检测的多任务及临近信息融合的深度学习方法 |
CN109344702B (zh) * | 2018-08-23 | 2020-11-10 | 北京华捷艾米科技有限公司 | 基于深度图像和彩色图像的行人检测方法及装置 |
CN110070138B (zh) * | 2019-04-26 | 2021-09-21 | 河南萱闱堂医疗信息科技有限公司 | 对结肠内镜检测前***物图片进行自动评分的方法 |
CN112132914A (zh) * | 2019-06-25 | 2020-12-25 | 珠海市一微半导体有限公司 | 一种图像尺度空间建立方法及图像处理芯片 |
CN111726532B (zh) * | 2020-06-30 | 2021-08-27 | 北京环境特性研究所 | 一种开窗报警检测***及方法 |
CN112766228B (zh) * | 2021-02-07 | 2022-06-24 | 深圳前海中电慧安科技有限公司 | 人脸信息提取方法、人物查找方法、***、设备及介质 |
CN115240122A (zh) * | 2022-09-22 | 2022-10-25 | 南昌工程学院 | 一种基于深度强化学习的空气预热器区域识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143077A (zh) * | 2013-05-09 | 2014-11-12 | 深圳先进技术研究院 | 基于图像的行人目标检索方法和*** |
CN104331921A (zh) * | 2014-10-29 | 2015-02-04 | 哈尔滨理工大学 | 基于单幅sem二维图像的三维信息快速提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5665401B2 (ja) * | 2010-07-21 | 2015-02-04 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
-
2015
- 2015-06-26 CN CN201510360321.7A patent/CN104881662B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143077A (zh) * | 2013-05-09 | 2014-11-12 | 深圳先进技术研究院 | 基于图像的行人目标检索方法和*** |
CN104331921A (zh) * | 2014-10-29 | 2015-02-04 | 哈尔滨理工大学 | 基于单幅sem二维图像的三维信息快速提取方法 |
Non-Patent Citations (1)
Title |
---|
"一种基于多特征和机器学习的分级行人检测方法";种衍文等;《自动化学报》;20120329;第38卷(第3期);第375-381页 |
Also Published As
Publication number | Publication date |
---|---|
CN104881662A (zh) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881662B (zh) | 一种单幅图像行人检测方法 | |
CN108334848B (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
CN108334847B (zh) | 一种真实场景下的基于深度学习的人脸识别方法 | |
CN103886308B (zh) | 一种使用聚合通道特征和软级联分类器的行人检测方法 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN105139004B (zh) | 基于视频序列的人脸表情识别方法 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN100565559C (zh) | 基于连通分量和支持向量机的图像文本定位方法和装置 | |
CN111126404B (zh) | 一种基于改进YOLO v3的古文字及字体识别方法 | |
CN107742099A (zh) | 一种基于全卷积网络的人群密度估计、人数统计的方法 | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN110276253A (zh) | 一种基于深度学习的模糊文字检测识别方法 | |
CN106023220A (zh) | 一种基于深度学习的车辆外观部件图像分割方法 | |
CN108710865A (zh) | 一种基于神经网络的司机异常行为检测方法 | |
EP3819859A1 (en) | Sky filter method for panoramic images and portable terminal | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN105608446A (zh) | 一种视频流异常事件的检测方法及装置 | |
CN104077577A (zh) | 一种基于卷积神经网络的商标检测方法 | |
CN107844740A (zh) | 一种脱机手写、印刷汉字识别方法及*** | |
CN104680144A (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN104376303B (zh) | 一种低分辨率情况下的车辆成像方法 | |
CN111507227B (zh) | 基于深度学习的多学生个体分割及状态自主识别方法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN106650667A (zh) | 一种基于支持向量机的行人检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080, room 106, unit 5, Yi Sheng garden, No. 331 East Zhongguancun Road, Beijing, Haidian District Applicant after: BEIJING CKLEADER SOFTWARE TECHNOLOGY CO., LTD. Address before: 100080, room 1509, block F, Zhongguancun mansion, No. 16 Haidian street, Haidian District, Beijing Applicant before: BEIJING CKLEADER SOFTWARE TECHNOLOGY CO., LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190308 Termination date: 20210626 |
|
CF01 | Termination of patent right due to non-payment of annual fee |