CN104881662B

CN104881662B - 一种单幅图像行人检测方法

Info

Publication number: CN104881662B
Application number: CN201510360321.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2019-03-08
Anticipated expiration: 2035-06-26
Also published as: CN104881662A

Abstract

本发明公开了一种单幅图像行人检测方法，包括：采集一个真实场景下的行人数据集，标注行人位置，同时采集一个不包含行人的背景数据集，以此作为训练数据，利用梯度幅值特征和线性支持向量机，训练一个“粗”的行人检测器，快速过滤非行人窗口。利用该快速行人检测器，在行人数据集上进行检测，纪录所有输出窗口的位置，根据标注好的行人位置，分别保存为正例窗口和反例窗口。利用这些窗口样本，基于层叠自动编码机，训练一个深度网络，区分行人窗口和非行人窗口。输出最终的由“粗”到“精”的行人检测器，以此实现对输入图像的行人检测。

Description

一种单幅图像行人检测方法

技术领域

本发明属于计算机视觉和图像处理技术领域，特别的涉及单幅图像的行人检测方法。

背景技术

行人检测是计算机视觉技术中的热点和难点，可理解为判断输入图像是否包含行人，如果包含行人，则给出行人的位置信息，近年来，行人检测技术在人体行为分析、视频监控、车辆辅助驾驶及灾难营救等领域发挥了作用。

行人检测技术中最为核心的问题可以归结为特征提取，分类和定位三个方面。现有技术中对这三个方面的研究可归结为两类：基于背景建模的方法和基于统计学习的方法，都取得了一定的成果，然而基于背景建模的方法鲁棒性不高，抗干扰能力较差，而基于统计学习的方法受训练样本的影响较大，且应对真实场景的能力不够。

为克服现有技术的上述不足之处，本发明提出了一种多层次的基于快速和精细行人检测器的行人检测方法，利用梯度幅值特征和线性支持向量机，训练得到粗的行人检测器，实现非行人窗口的快速过滤，在快速过滤的结果上，利用加速的窗口扫描方法，得到更为精确的窗口正例样本的反例样本，以此训练得到作为精细检测器的自动编码机，基于层叠的自动编码机，区分行人和非行人窗口，实现对输入图像的行人检测，本发明提供的多层次的基于训练实现的行人检测方法具有更好的鲁棒性，能够快速且准确的实现图像中行人的检测。

发明内容

本发明要解决的问题是提供一种单幅图像行人检测方法，以解决现有技术中行人检测易受环境影响，不够准确的缺陷。

为了实现以上目的，本发明提供了一种单幅图像行人检测方法，其特征在于:

采集M幅图像组成行人数据集，记为，，图像上包含有个行人样本，,标记图像上第j个行人样本的位置为：，其中为矩形框左上顶点坐标，为矩形框宽度，为矩形框长度，所述矩形框为完全包含该行人样本轮廓的人体矩形框，采集的每幅图像的宽均大于20像素，高均大于50像素，采集N幅不包含行人的图像组成背景数据集，记为；

对行人数据集I中的每一幅图像，根据图像上每个人体矩形框的位置，经过截取，获得对应的人体子图像，行人数据集I中所有图像的所有人体子图像构成了正例样本，将截取的正例人体子图像转换为对应的人体灰度子图像，经过归一化处理得到10*25像素大小的标准人体灰度子图像，计算该10*25像素大小的标准人体灰度子图像的梯度幅值特征，是一个10行25列的矩阵，将该特征拉直，该拉直后的梯度幅值特征为一个250 维的列向量，将所有正例样本的特征记为：，其中表示第i幅图像的第j个人体矩形框的拉直梯度幅值特征，在训练集B中的图像上，选择宽高比例为10:25的背景矩形框共10T个，经过截取，获得对应的背景子图像，则这10T个背景子图像构成了反例样本，将截取的反例背景子图像转换为对应的背景灰度子图像，经过归一化处理得到10*25像素大小的标准背景灰度子图像，计算该10*25像素大小的标准背景灰度子图像的梯度幅值特征，将该特征拉直，该拉直后的梯度幅值特征为一个250维的列向量，将所有反例样本的特征记为：

，是一个250行10T列的矩阵，其中表示第a个反例样本的拉直梯度幅值特征，将所有正例样本的标签设置为1，反例样本的标签设置为0，训练一个二类线性分类的支持向量机SVM，得到判别投影，设置得分函数，其中g表示任意10*25大小的灰度图像样本经过拉直后的梯度幅值特征，该拉直后的梯度幅值特征是一个250维的列向量，计算每个正例样本的标准人体灰度子图像的得分函数值，进行排序，设置检测阈值，使得该阈值大于99%的正例样本的标准人体灰度子图像的得分函数值；

将行人训练集I中的每幅图像进行灰度处理，得到灰度图像，对其进行高斯金字塔处理，缩放比例为,直到最小尺寸的灰度图像的宽大于10个像素且高大于25个像素，将D+1个尺度作为主尺度，计算每个主尺度灰幅图像的梯度幅值特征图像，通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像，在所有尺度的梯度幅值特征图像上进行窗口扫描，窗口大小为10*25像素，水平和垂直方向的步长都是1，对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为一个250维的列向量，计算其得分函数值，对得分函数值大于检测阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在行人训练集I中的对应图像的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10: 25的矩形框，计算还原得到的每个矩形框与行人训练集I中对应图像上的所有人体矩形框之间的重合度，重合度具体计算方法为：，即这两个矩形框的面积重合部分除以两个矩形框的平均面积，将与对应图像上的所有人体矩形框之间的重合度都低于0.5的矩形框作为反例，将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为正例；

利用快速检测结果训练精细行人检测器；

利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测。

优选的，其中步骤(3.3)具体为：在相邻的两个主尺度之间等间隔的***四个中间尺度，上述四个尺度由距离其最近的主尺度的梯度幅值特征图像插值得到。

优选的，其中在相邻的两个主尺度之间等间隔的***四个中间尺度具体为：在尺度图像和尺度图像之间等间隔的***四个中间尺度，则每个中间尺度可以表示为：

，其中表示尺度图像和尺度图像之间第q个中间尺度的缩放比例。

优选的，其中步骤(4)具体为：

对步骤3.8中得到的正例矩形框和反例矩形框，统一缩放为10*25像素大小的灰度图像，组成精细行人检测器的训练样本集合，记为，其中正例矩形框有c个，反例矩形框有v个，

设置一个包含三个隐层的自动编码机作为精细行人检测器;

逐层进行预训练Pre-Train;

进行微调Fine-tune，将正例样本的输出设置为1，反例样本的输出设置为0，利用 BP算法对层级编码机三个隐层的参数以及softmax层的参数进行Fine-tune，以此训练得到具有上述参数的自动编码机作为精细行人检测器。

优选的，其中步骤(4.3)具体为：

基于去噪自动编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层，将其输出作为原始输入的最小化重构误差;

将每个隐含层的输出作为下一层神经网络的输入，进行无监督训练；

重复步骤4.3.2，直到完成所有隐含层的预训练为止，得到的初始值；

将最后一个隐含层的输出作为softmax层的输入，并且初始化softmax层的参数。

优选的，其中步骤(5)具体为：

对输入图形E进行灰度图像转换，得到输入灰度图像，对其进行高斯金字塔缩放，缩放比例为，，直到最小的灰度图像的宽大于10个像素且高大于25个像素，共得到O+1个主尺度，输入图像E的宽大于20像素，高大于50像素；

在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像；

通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中，以等间隔方式在每个间隔中进行中间尺度***，每个间隔***四个中间尺度，共得到O*5+1个尺度的梯度幅值特征图像，上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到；

在每个尺度的梯度幅值特征图像上进行快速窗口扫描，使用10*25大小的窗口在每个梯度幅值特征图像上扫描，对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为一个250维的列向量，计算其得分函数值；

输出大于检测阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在输入图像E的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10:25的矩形框；

将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像，输入到训练得到的作为精细行人检测器的自动编码机进行分类；

保留输出层输出的置信度大于0.5的灰度窗口图像，将其作为候选人体框；

为每个候选人体框标记一个五元组标签，分别对应该候选人体框左上顶点的横坐标，纵坐标，该候选人体框的宽度，高度以及置信度；

对这些候选人体框进行聚类，输出人体检测框。

优选的，其中步骤(5.9)具体为：

将所有候选人体框按照置信度排序，每个框标记设置为0，形成候选人体框集合H，设置集合R表示真实候选框集合，初始化R为空集；

在集合H中选择置信度最大的候选人体框，记为，将从H中移除，加入集合R后将其标记设置为1；

计算H中所有候选人体框和的重合度，重合度的计算方法为：，即这两个矩形框的面积重合部分除以两个矩形框的平均面积；

将重合度大于0.8的候选人体框从H中移除并加入到集合R中，且将这些候选人体框的标记设置为1，此时集合R中的候选人体框可以记为：，其中；

计算R中每个候选人体框的权重，，对这U+1个候选人体框进行加权融合，输出人体检测框位置记为：；

判断集合H中是否还有候选人体框，如果没有，结束检测；如果集合H中还有候选人体框，将集合R清空，在集合H中重复步骤(5.9.2)-(5.9.5)。

附图说明

图1为行人数据集及行人样本标注示例图

图2为不包括行人的背景数据集图片示例

图3为主尺度梯度幅值特征图像和加速的相邻尺度插值实现示意图

图4为快速检测器输出的正例和反例样本示例图

图5为自动编码机结构图

图6为逐层无监督Pre-Train示例图

图7为行人检测流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明做出进一步地详细描述。本发明提出的单幅图像行人检测方法由两部分组成，第一部分是行人检测器训练，第二部分是行人检测。

首先，介绍行人检测器训练部分。

步骤1：数据准备，设置行人数据集和背景数据集

：设置行人数据集并标记人体矩形框

采集M幅图像组成行人数据集，每幅图像的宽均大于20像素，高均大于50像素，记为，图像上包含有个行人样本，,标记图像上第j个行人样本的位置为：，其中以为矩形框左上顶点坐标，以为矩形框宽度，以为矩形框长度，表示完全包含该行人样本轮廓的人体矩形框。

图1所示为行人数据集及行人样本标注示例图

：设置背景数据集

采集N幅不包含行人的图像组成背景数据集，记为，图2所示为不包括行人的背景数据集图片示例

步骤2：训练快速行人检测器

：利用行人数据集获取正例样本的特征表示，具体为：

：对行人数据集I中的每一幅图像，根据图像上每个人体矩形框的位置，截取获得对应的人体子图像，行人数据集I中所有图像的所有人体子图像构成了正例样本；

：将截取的正例人体子图像转换为对应的人体灰度子图像，经过归一化处理得到10*25像素大小的标准人体灰度子图像；

：计算该10*25像素大小的标准人体灰度子图像的梯度幅值特征，将该特征拉直为250维的列向量；

：将所有正例样本的特征记为：表示第i幅图像的第j个人体矩形框的拉直梯度幅值特征；

：利用背景数据集获取反例样本的特征表示，具体为：

：在训练集B中的图像上，选择宽高比例为10:25的背景图像矩形框共10T个，截取后获得对应的背景子图像，则这10T个背景子图像构成了反例样本；

：将截取的背景子图像转换为对应的背景灰度子图像，经过归一化处理得到10*25像素大小的标准背景灰度子图像；

：计算该10*25像素大小的标准背景灰度子图像的梯度幅值特征，将该特征拉直为250维的列向量；

：将所有反例样本的特征记为：

，其中表示第a个反例样本的拉直梯度幅值特征；

：训练线性分类器作为快速行人检测器

：将所有正例样本的标签设置为1，反例样本的标签设置为0，训练一个二类线性分类的SVM，得到判别投影；

：设置得分函数，其中g表示任意10*25大小的灰度图像样本经过拉直后的梯度幅值特征，该拉直后的梯度幅值特征是250维的列向量；

：计算每个正例样本的标准人体灰度子图像的得分函数值，进行排序，设置检测阈值，使得该阈值大于99%的正例样本的标准人体灰度子图像的得分函数值。

步骤3：利用快速行人检测器进行快速行人检测与行人样本提取

：将行人训练集I中的每幅图像进行灰度处理，得到灰度图像，对其进行高斯金字塔处理，缩放比例为，直到最小尺寸的灰度图像的宽大于10个像素且高大于25个像素，由于每幅图像的宽都大于20像素，高都大于50像素，因此每图图像至少经过一次缩放，有两个主尺度；

将上述D+1个尺度作为主尺度，计算每个主尺度灰幅图像的梯度幅值特征图像；

通过Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像，具体为：

在相邻的两个主尺度之间等间隔的***四个中间尺度，上述四个尺度可以由距离其最近的主尺度的梯度幅值特征图像插值得到，可以由距离其最近的相对大尺度的主尺度下采样得到，或者由距离其最近的相对小尺度的主尺度上采样得到。

例如，在尺度图像和尺度图像之间等间隔的***四个中间尺度，则每个中间尺度可以表示为：

表示尺度图像和尺度图像之间第q个中间尺度的缩放比例, 。

图3为主尺度梯度幅值特征图像和加速的相邻尺度插值实现示意图，如图3所示，在1，1/2，1/4这三个主尺度之间，存在两个尺度间隔，在每个间隔中分别***四个中间尺度，即得到11个尺度的梯度幅值特征图像；

在所有尺度的梯度幅值特征图像上进行窗口扫描，窗口大小为10*25像素，水平和垂直方向的步长都是1；

对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为250维的列向量，计算其得分函数值；

对得分函数值大于阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在行人训练集I中的对应图像的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10:25的矩形框；

计算还原得到的每个矩形框与行人训练集I中其所在的图像上的所有人体矩形框之间的重合度，重合度具体计算方法为：，即这两个矩形框的面积重合部分除以两个矩形框的平均面积。

将与对应图像上所有人体矩形框之间的重合度都低于0.5的矩形框作为反例，将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为正例。

图4所示为快速检测器输出的正例和反例样本示例图，如图4所示，实线框标注的是正例，虚线框标注的是反例。

步骤4：利用快速检测结果训练精细行人检测器

对步骤3.8中得到的正例矩形框和反例矩形框，统一缩放为10*25像素大小的灰度图像，组成精细行人检测器的训练样本集合，记为，其中正例矩形框有c个，反例矩形框有v个，；

设置一个包含三个隐层的自动编码机作为精细行人检测器，自动编码器的结构如图5所示；

逐层进行预训练Pre-Train

基于无噪声编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层，将其输出作为原始输入的最小化重构误差，其基本原理见图6所示；

进行微调Fine-tune

将正例样本的输出设置为1，反例样本的输出设置为0，利用BP算法对层级编码机三个隐层的参数以及softmax层的参数进行Fine-tune。以此训练得到具有上述参数的自动编码机作为精细行人检测器。

下面将介绍行人检测部分：

步骤5：利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测，如图7所示，具体为：

：对输入图形E进行灰度图像转换，得到输入灰度图像，输入图像的宽大于20像素，高大于50像素，对其进行高斯金字塔缩放，缩放比例为，直到最小的灰度图像的宽大于10个像素且高大于25个像素，共得到O+1个主尺度；

：在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像；

：通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中，以等间隔方式在每个间隔中进行中间尺度***，每个间隔***四个中间尺度，共得到O*5+1个尺度的梯度幅值特征图像，上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到；

：在每个尺度的梯度幅值特征图像上进行快速窗口扫描，使用10*25大小的窗口在每个梯度幅值特征图像上扫描，对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为250维的列向量，计算其得分函数值；

：输出大于阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在输入图像E的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10:25的矩形框；

：将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像，输入到训练得到的作为精细行人检测器的自动编码机进行分类；

：保留输出层输出的置信度大于0.5的灰度窗口图像，将其作为候选人体框；

：为每个候选人体框标记一个五元组标签，分别对应该候选人体框左上顶点的横坐标，纵坐标，该候选人体框的宽度，高度以及置信度。

：对这些候选人体框进行聚类，输出人体检测框，过程具体为：

判断集合H中是否还有候选人体框，如果没有，结束检测；如果集合H中还有候选人体框，将集合R清空，在集合H中重复步骤5.9.2-5.9.5。

显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围，这样，倘若本发明的这些修改和变形属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变形在内。

Claims

1.一种单幅图像行人检测方法，其特征在于：

(1)采集M幅图像组成行人数据集，记为，，图像上包含有个行人样本，,标记图像上第j个行人样本的位置为：，其中为矩形框左上顶点坐标，为矩形框宽度，为矩形框长度，所述矩形框为完全包含该行人样本轮廓的人体矩形框，采集的每幅图像的宽均大于20像素，高均大于50像素，采集N幅不包含行人的图像组成背景数据集，记为；

(2)对行人数据集I中的每一幅图像，根据图像上每个人体矩形框的位置，经过截取，获得对应的人体子图像，行人数据集I中所有图像的所有人体子图像构成了正例样本，将截取的正例人体子图像转换为对应的人体灰度子图像，经过归一化处理得到10*25像素大小的标准人体灰度子图像，计算该10*25像素大小的标准人体灰度子图像的梯度幅值特征，是一个10行25列的矩阵，将该特征拉直，该拉直后的梯度幅值特征为一个250维的列向量，将所有正例样本的特征记为：，其中表示第i幅图像的第j个人体矩形框的拉直梯度幅值特征，在训练集B中的图像上，选择宽高比例为10:25的背景矩形框共10T个，经过截取，获得对应的背景子图像，则这10T个背景子图像构成了反例样本，将截取的反例背景子图像转换为对应的背景灰度子图像，经过归一化处理得到10*25像素大小的标准背景灰度子图像，计算该10*25像素大小的标准背景灰度子图像的梯度幅值特征，将该特征拉直，该拉直后的梯度幅值特征为一个250维的列向量，将所有反例样本的特征记为：

(3)将行人训练集I中的每幅图像进行灰度处理，得到灰度图像，对其进行高斯金字塔处理，缩放比例为,直到最小尺寸的灰度图像的宽大于10个像素且高大于25个像素，将D+1个尺度作为主尺度，计算每个主尺度灰幅图像的梯度幅值特征图像，通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像，在所有尺度的梯度幅值特征图像上进行窗口扫描，窗口大小为10*25像素，水平和垂直方向的步长都是1，对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为一个250维的列向量，计算其得分函数值，对得分函数值大于检测阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在行人训练集I中的对应图像的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10:25的矩形框，计算还原得到的每个矩形框与行人训练集I中对应图像上的所有人体矩形框之间的重合度，重合度具体计算方法为：，即这两个矩形框的面积重合部分除以两个矩形框的平均面积，将与对应图像上的所有人体矩形框之间的重合度都低于0.5的矩形框作为反例，将与所有人体矩形框中任意一个的重合度大于0.8的矩形框作为正例；

(4)利用快速检测结果训练精细行人检测器；

(5)利用训练得到的快速行人检测器和精细行人检测器对输入图像进行行人检测。

2.如权利要求1所述的方法，其中通过双三次Bi-Cubic插值在每两个相邻主尺度之间获得中间尺度的梯度幅值特征图像具体为：在相邻的两个主尺度之间等间隔的***四个中间尺度，上述四个尺度由距离其最近的主尺度的梯度幅值特征图像插值得到。

3.如权利要求2所述的方法，其中在相邻的两个主尺度之间等间隔的***四个中间尺度具体为：在尺度图像和尺度图像之间等间隔的***四个中间尺度，则每个中间尺度可以表示为：

4.如权利要求3所述的方法，其中步骤(4)具体为：

（4.1）对步骤3.8中得到的正例矩形框和反例矩形框，统一缩放为10*25像素大小的灰度图像，组成精细行人检测器的训练样本集合，记为，其中正例矩形框有c个，反例矩形框有v个，

（4.2）设置一个包含三个隐层的自动编码机作为精细行人检测器;

（4.3）逐层进行预训练Pre-Train;

（4.4）进行微调Fine-tune，将正例样本的输出设置为1，反例样本的输出设置为0，利用 BP算法对层级编码机三个隐层的参数以及softmax层的参数进行Fine-tune，以此训练得到具有上述参数的自动编码机作为精细行人检测器。

5.如权利要求4所述的方法，其中步骤(4.3)具体为：

（4.3.1）基于去噪自动编码机De-noising Auto Encoder以无监督的方式训练神经网络的第一层，将其输出作为原始输入的最小化重构误差;

（4.3.2）将每个隐含层的输出作为下一层神经网络的输入，进行无监督训练；

（4.3.3）重复步骤(4.3.2)，直到完成所有隐含层的预训练为止，得到的初始值；

（4.3.4）将最后一个隐含层的输出作为softmax层的输入，并且初始化softmax层的参数。

6.如权利要求5所述的方法，其中步骤(5)具体为：

（5.1）对输入图形E进行灰度图像转换，得到输入灰度图像，对其进行高斯金字塔缩放，缩放比例为，，直到最小的灰度图像的宽大于10个像素且高大于25个像素，共得到O+1个主尺度，输入图像E的宽大于20像素，高大于50像素；

（5.2）在这O+1个主尺度灰度图像上分别计算其对应的梯度幅值特征图像；

（5.3）通过Bi-Cubic插值在这O+1个主尺度梯度幅值图像的O个间隔中，以等间隔方式在每个间隔中进行中间尺度***，每个间隔***四个中间尺度，共得到O*5+1个尺度的梯度幅值特征图像，上述四个中间尺度由距离其最近的主尺度的梯度幅值特征图像插值得到；

（5.4）在每个尺度的梯度幅值特征图像上进行快速窗口扫描，使用10*25大小的窗口在每个梯度幅值特征图像上扫描，对扫描得到的每个10*25像素大小的梯度幅值特征窗口，将其拉直为一个250维的列向量，计算其得分函数值；

（5.5）输出大于检测阈值的窗口，以该窗口所在的比例为的梯度幅值特征图像的比例倒数缩放该图像，并以该窗口在该尺度的梯度幅值特征图像上的相对位置进行还原，还原得到该窗口在输入图像E的灰度图像上的相对位置，该灰度图像的尺度为1，该位置为一个宽高比为10:25的矩形框；

（5.6）将还原得到的所有这些矩形框缩放为10*25像素大小的灰度窗口图像，输入到训练得到的作为精细行人检测器的自动编码机进行分类；

（5.7）保留输出层输出的置信度大于0.5的灰度窗口图像，将其作为候选人体框；

（5.8）为每个候选人体框标记一个五元组标签，分别对应该候选人体框左上顶点的横坐标，纵坐标，该候选人体框的宽度，高度以及置信度；

（5.9）对这些候选人体框进行聚类，输出人体检测框。

7.如权利要求6所述的方法，其中步骤(5.9)具体为：

（5.9.1）将所有候选人体框按照置信度排序，每个框标记设置为0，形成候选人体框集合H，设置集合R表示真实候选框集合，初始化R为空集；

（5.9.2）在集合H中选择置信度最大的候选人体框，记为，将从H中移除，加入集合R后将其标记设置为1；

（5.9.3）计算H中所有候选人体框和的重合度，重合度的计算方法为：，即这两个矩形框的面积重合部分除以两个矩形框的平均面积；

（5.9.4）将重合度大于0.8的候选人体框从H中移除并加入到集合R中，且将这些候选人体框的标记设置为1，此时集合R中的候选人体框可以记为：，其中；

（5.9.5）计算R中每个候选人体框的权重，，对这U+1个候选人体框进行加权融合，输出人体检测框位置记为：；

（5.9.6）判断集合H中是否还有候选人体框，如果没有，结束检测；如果集合H中还有候选人体框，将集合R清空，在集合H中重复步骤(5.9.2)-(5.9.5)。