CN108038409A

CN108038409A - 一种行人检测方法

Info

Publication number: CN108038409A
Application number: CN201711030102.8A
Authority: CN
Inventors: 章东平; 胡葵; 王都洋; 张香伟; 杨力; 肖刚
Original assignee: Jiangxi Gao Chuan Security Service Technology Co Ltd
Current assignee: Jiangxi Gao Chuan Security Service Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-05-15
Anticipated expiration: 2037-10-27
Also published as: CN108038409B

Abstract

本发明公开了一种行人检测方法，通过基于卷积神经网络的行人检测方法，对输入图像进行多次卷积和池化，提取原图特征，得到原图对应的特征图，通过图像特征金字塔规则近似计算出原图缩放后对应的特征图，分别经过区域建议网络RPN生成候选窗口，按候选窗口内行人尺寸分布进一步选择候选提议窗口并汇总，利用带标签的训练数据训练出不同尺度的行人目标在不同规模图像上对应的权重，训练分类器网络。求得汇总后的候选窗口经过分类器后得到的置信度与设定的阈值相比做出最终的行人检测的判断。图像特征金字塔的应用避免了图像缩放计算得到特征图的繁重计算量，并且利用不同权值加权的方式在不同特征图上检测有效避免了单一特征图检测的误判和漏检。

Description

一种行人检测方法

技术领域

本发明涉及一种行人检测方法，属于目标检测领域。

背景技术

近年来，行人检测技术在智能监控、自动驾驶、机器人视觉等方面具有广泛的应用。实际应用中行人的着装，姿态尤其是视频中捕捉到的行人尺寸多变使得行人检测面临极大的挑战性。行人检测主要有两大方式：一种是基于滑动窗口的传统的行人检测方法，一种是基于深度学习提取特征的行人检测方法。传统的行人检测方法计算量大且没有利用GPU资源检测速度受限，由于计算机性能不断增强并且利用了GPU计算能力，大多基于学习特征的深度学习方法检测速度优于传统方法，但是往往难以解决行人的多尺度问题。

发明内容

为了解决行人检测过程中速度和检测精度难以权衡以及行人的多尺度问题，本发明提供一种行人检测方法，包括步骤：

步骤(1)确定当前帧图像：将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像；

步骤(2)求得特征图：将当前帧图像通过多个卷积层和池化层，通过最后一个卷积层得到一个(feature map)特征图；

步骤(3)特征图扩展：通过图像特征金字塔规则计算图像临近尺度对应的特征图，依次扩展N个小尺度扩展特征图和N个大尺度扩展扩展特征图，扩展次数 N和扩展倍数不设限，一共得到2N+1个特征图；

步骤(4)提议窗口分配：特征图经过区域建议网络RPN(region proposalnetwork)生成候选窗口,根据行人尺寸分布进一步选择候选窗口；

步骤(5)分类网络训练：利用多种尺度行人在不同特征图中的的分布训练深度神经网络；

步骤(6)行人检测标注：将得到的三种规模特征图的提议窗口数目按比例汇总，经过步骤(5)中训练好的分类器分类，经过非极大值抑制后框出行人。

进一步的，步骤(1)具体为：将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像，记做I₁。

进一步的，步骤(2)具体为：将当前帧图像通过多个卷积层和池化层，这里卷积层和池化层交叉进行并且层数不设限，通过最后一个卷积层得到一个特征图(feature map)，记做f₁。

进一步的，步骤(3)具体为：通过图像幂率规则和图像特征金字塔规则计算图像I₁临近规模对应的特征图，一般利用f_m＝C_p(S(I₁,M))，式中I₁代表原图像，M代表缩放规模，S代表将原图缩放，C_p代表卷积池化操作计算特征。现在为减少卷积运算提高运行速度，利用公式：

其中参数m表示当前规模，m’表示缩放后规模，S代表将特征图缩放m'/m倍， f表示特征，常系数α可以在训练集上通过实验测得，以上公式表明原图I_m通过卷积池化操作计算特征，临近缩放规模图像特征由已知特征图变化得到，将得到的特征图计算出原图α倍大小和β倍大小的图片对应的特征图，如1/2*I₁和 2*I₁(此处扩展的图片规模和扩展次数不设限，考虑检测速度和表述方便选取这两个尺度)，因为金字塔规则每次临近计算倍，特征图要迭代计算四次，对应特征图为f_1/2，因为图像上采样没有高频损失，上采样图片的信息内容与低分辨率的内容相似，特征计算公式为：

f_σ＝σ*S(f₁,σ)) (2.2)

式中f₁代表原图对应特征图，S代表将特征图f₁放大σ倍，f_σ为上采样图像。

进一步的，步骤(4)具体为：因为RPN有单一的感受野，在缩小规模的图像对应特征图上倾向于检测大目标，在放大规模的图像对应特征图上倾向于检测小目标，我们将图像中行人目标分为三个尺度，我们在有多尺度行人的KITTI数据集上实验，将数据集中的行人按照高度height不同设置为height<H₁,H₁≤height< H₂,...,H_n-1≤height<H_n,height≥H_n,这里H₁到H_n是由小大的像素点个数，对应不同尺度的行人数目分别为A₁,A₂,...,A_n。然后在每一张特征图上对每个尺度的行人候选框按特征图中候选框比例分布选取T个，依次选取T_uv个，

式中T_uv是最终需要提取的第u张特征图上第v个规模尺度行人的个数，Z_u是第u张特征图上最终需要提取的候选窗口的总和,Z_u(1≤n≤2N+1)根据数据集情况而定，每张特征图上可以选取同样数目也可以提取不同数目)，式中A_uv表示第u张特征图上第v个规模尺度行人的个数。因为提议窗口网络有单一的感受野 (输出特征图上某个节点的响应对应的输入图像的区域)，在缩小规模的图像对应特征图上倾向于检测大目标，在放大规模的图像对应特征图上倾向于检测小目标，这样根据不同尺度目标的比例提取候选窗口有利于发挥网络在不同特征图上的检测优势。

进一步的，步骤(5)具体为：

1)选择在有多种行人尺度的KITTI数据集上实验，我们在训练数据集上将行人按高度分为X个尺寸的行人(此处尺寸级数不设限)；

2)利用卷积层特征共享训练RPN(region proposal network)网络和softmax分类器联合网络,采用交叉轮流训练的方式，先训练RPN区域建议网络，再用候选窗口训练基于区域的分类器网络，再用分类器网络训练RPN区域建议网络。损失层(loss layer)是卷积神经网络(CNN)的终点，接受两个值作为输入，其中一个是CNN的预测值，另一个是真实标签。损失层则通过预测值和标签值进行一系列运算，得到当前网络的损失函数(LossFunction)，一般记做L(W)，其中W是当前网络权值构成的向量空间。训练网络的目的是在权值空间中找到让损失函数L(W)最小的权值W(opt)，可以采用随机梯度下降 (stochasticgradient descent)的最优化方法逼近权值W(opt)，网络中有两个损失函数，一个是分类损失函数一个是回归损失函数；

3)因为步骤(3)结构的改变，损失函数要进行相应的优化，要训练优化的参数为W，设其中M_i是训练是采样到的感兴趣图像块， N是训练样本的总数，y_i∈(0,1)是M_i的类标签，B_i＝(m'/m)*(b_i ^x,b_i ^y,b_i ^w,b_i ^h)是特征图对应的边界框坐标，其中b_i ^x,b_i ^y,b_i ^w,b_i ^h分别代表原图上图像块的坐标， (m'/m)是缩放尺寸在步骤(3)中解释；

4)这样多任务损失函数为：

其中n是目标大小的规模级数，E^x是每个规模对应的数据样本，M_i是训练集采样到的感兴趣图像块，A₁,A₂,...,A_n分别代表n种尺度的行人的数量，l是分类和回归的联合损失函数，定义为：

l(M,(y,B)|W)＝L_cls(p(M),y)+β[y≥1]L_loc(T^y,B) (2.5)

其中β是权衡系数，T^y是类y的预测边框位置，[y≥1]表示只有在正本时才存在回归损失，L_clc和L_loc分别是交叉熵损失和边界回归损失，定义为：

式中p_y(M)＝p₀(M)+p₁(M)，y∈(0,1)是M 的类标签，T_i ^y＝(t_i ^x,t_i ^y,t_i ^w,t_i ^h,)是预测边框位置，B_i＝(m'/m)*(b_i ^x,b_i ^y,b_i ^w,b_i ^h)是特征图对应的边界框坐标。

5)由于4)中预测概率p和预测标签T都分别有经过proposal后的特征向量和各自权值向量相乘得到，所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数，使损失函数L(W)最小从而得到联合最优参数 W(w_cls,w_loc)，即式中L(W)即多任务损失函数，φ是正则化参数。

进一步的，步骤(6)具体为：将步骤(4)中的提议窗口汇总成J个，经过感兴趣池层和全连接层是输入特征图尺寸固定，经过步骤(5)中训练好的分类器分类，通过非极大值抑制，除去与最大置信度窗口重叠超过65％的窗口。

本发明公开了一种基于卷积神经网络的行人检测方法，通过图像的特征金字塔规则计算出原图相邻尺寸对应的特征图，避免了图像缩放计算得到特征图的繁重计算量，并且利不同特征图上检测用不同权值加权有效避免了单一特征图检测的误判和漏检。所以实现了行人检测速度和精度的有效权衡。

附图说明

图1是本发明的一种基于卷积神经网络的行人检测方法流程图；

图2是本发明的行人检测方法的候选窗口(proposal)优化选取算法图；

图3是非极大值抑制实现方法示意图；

图4是本申请的行人检测方法在KITTI数据集图片上的效果图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明的一种基于卷积神经网络的行人检测方法，包括以下步骤：

步骤(2)求得特征图：将当前帧图像通过多个卷积层和池化层，通过最后一个卷积层得到一个特征图(feature map)；

步骤(3)特征图扩展：通过图像幂率规则和图像特征金字塔规则计算图像临近规模对应的特征图，此处扩展的图片规模和扩展次数不设限；

步骤(4)提议窗口分配：选择一个合适的行人数据集或者自己制作一个行人尺度多变的数据集，将图片中目标分为小、中、大这三个规模(规模级数由数据集行人规模而定)，按图片中同规模目标所占比例分配提议窗口数目；

步骤(6)行人检测标注：将得到的三种规模特征图的候选窗口数目按比例汇总，经过步骤(5)中训练好的分类器分类，经过非极大值抑制后框出行人。

所述步骤(1)中对确定当前帧图像的步骤为：将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像，记做I₁。

所述步骤(2)中对求得特征图的步骤为：将当前帧图像通过多个卷积层和池化层，这里卷积层和池化层交叉进行并且层数不设限，通过最后一个卷积层得到一个特征图(feature map)，记做f₁。

所述步骤(3)中对特征图扩展的步骤为：通过图像幂率规则和图像特征金字塔规则计算图像I₁临近规模对应的特征图，一般利用f_m＝C_p(S(I₁,M))，式中I₁代表原图像，M代表缩放规模，S代表将原图缩放，C_p代表卷积池化操作计算特征。现在为减少卷积运算提高运行速度，利用公式：

其中参数m表示当前规模，m'表示缩放后的规模，S代表将特征图缩放m'/m 倍，f表示特征，常系数α可以在训练集上通过实验测得，以上公式表明原图I_m通过卷积池化操作得到特征，临近缩放规模图像特征由已知特征图近似计算得到，如1/2*I₁可以计算得到f_1/2，因为图像上采样没有高频损失，上采样图片的信息内容与低分辨率的内容相似，特征计算公式为：

f_σ＝σ*S(f₁,σ)) (3.2)

所述步骤(4)中对提议窗口分配的步骤为：因为RPN有单一的感受野，在缩小规模的图像对应特征图上倾向于检测大目标，在放大规模的图像对应特征图上倾向于检测小目标，我们将图片里的目标分为三个尺度，我们在有多尺度行人的KITTI数据集上实验，将数据集中的行人按照高度height不同设置为height< H₁,H₁≤height<H₂,height≥H₂这三个尺度，,这里H₁到H₂分别是50个、200 个像素点，对应不同尺度的行人数目分别为A₁,A₂,A₃。然后在不同特征图上行人高度小于50像素的候选窗口里按照置信度大小选取Z_K*A₁/(A₁+A₂+A₃)个,在行人高度大于50小于200个像素的候选窗口里按照置信度大小选取 Z_K*A₂/(A₁+A₂+A₃)个，在行人高度大于200个像素的候选窗口里按照置信度大小选取Z_K*A₃/(A₁+A₂+A₃)个，这里A₁,A₂,A₃分别代表提取前三种不同尺度行人候选窗口的数量，K＝1，2，3分别表示缩小特征图、原特征图、放大特征图，Z_K表示每个特征图需要提取候选窗口的个数。如图2所示，f₁、f_1/2、f₂分别代表图像I₁经过最后一层卷积得到的特征图和扩展计算得到的图像I₁临近规模对应的特征图，候选窗口选取个数分别为：Z₁、Z₂、Z₃。因为特征图检测行人偏向不同采用比例分配提议候选窗口的方式，这样根据不同目标规模的比例分配候选窗口有利于发挥网络在不同特征图上的检测优势。

所述步骤(5)中对分类网络训练的步骤为：

2)利用卷积层特征共享训练RPN(region proposal network)网络和 softmax分类器联合网络,采用交叉轮流训练的方式，先训练区域提议网络(R PN)，再用提议(proposal)训练基于区域的分类器网络，再用分类器网络训练区域提议网络。损失层(losslayer)是卷积神经网络(CNN)的终点，接受两个值作为输入，其中一个是CNN的预测值，另一个是真实标签。损失层则将这两个输入进行一系列运算，得到当前网络的损失函数(LossFunction)，一般记做L(W)，其中W是当前网络权值构成的向量空间。训练网络的目的是在权值空间中找到让损失函数L(W)最小的权值W(opt)，可以采用随机梯度下降 (stochasticgradient descent)的最优化方法逼近权值W(opt)，网络中有两个损失函数，一个是分类损失函数一个是回归损失函数；

4)这样多任务损失函数为：

l(M,(y,B)|W)＝L_cls(p(M),y)+β[y≥1]L_loc(T^y,B) (3.4)

5)由于步骤4)中预测概率p和预测标签T都分别有经过提议(proposal) 后的特征向量和各自权值向量相乘得到，所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数，使损失函数L(W)最小从而得到联合最优参数W(w_cls,w_loc)，即W(w_scl,wolc)＝arg min _WL(W)+φ||W||。式中L(W)即多任务损失函数，φ是正则化参数。

所述步骤(6)中对行人检测标注的步骤为：将步骤(4)中的提议窗口汇总成J个，经过感兴趣池层和全连接层是输入特征图尺寸固定，经过训练好的分类器分类得到候选行人置信度，每个规模的候选行人分别与步骤(5)中训练得到的权重l^x相乘，通过非极大值抑制，除去与最大置信度窗口重叠超过65％的窗口，如图3所示，S₁，S₃分别表示两个检测框面积，S₂表示两个检测框的重叠面积，交并比为S₂/(S₁+S₃-S₂)，如果交并比大于阈值0.65就舍弃置信度较小的那个框。图4是本申请的行人检测方法在KITTI数据集图片上的效果图，可以看出，高度小于50pixels许多行人都检测出来了。由此可见本申请的行人检测方法的可行性和检测优势。

Claims

1.一种行人检测方法，其特征在于包括以下步骤：

步骤(1)确定当前帧图像：将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像，记做I₁；

步骤(2)计算特征图：将当前帧图像通过多个卷积层和池化层，这里卷积层和池化层交叉进行并且层数不设限，通过最后一个卷积层后得到一个特征图(feature map)，记做f₁；

步骤(3)特征图扩展：通过图像特征金字塔规则计算图像临近尺度对应的特征图，依次扩展N个小尺度扩展特征图和N个大尺度扩展扩展特征图，扩展次数N和扩展倍数不设限，一共得到2N+1个特征图；

步骤(4)候选窗口提取：特征图经过区域建议网络RPN(region proposal network)生成候选窗口，根据行人尺寸分布进一步选择候选窗口；

步骤(5)分类器的训练：利用多种尺度行人在不同特征图中的的分布训练深度神经网络；

步骤(6)行人检测输出：将得到的多规模特征图的候选窗口汇总，经过训练好的分类器分类，经过非极大值抑制后框出行人。

2.如权利要求1所述的行人检测方法，其特征在于：步骤(3)具体为：计算图像I₁临近规模对应的特征图，一般利用f_m＝C_p(S(I₁,M))，式中I₁代表原图像，M代表缩放规模，S代表将图像缩放，C_p代表卷积池化操作计算特征，为减少卷积运算提高计算速度，通过图像图像特征金字塔规则计算临近规模图像对应的特征图，计算公式是：

<mrow> <msub> <mi>f</mi> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>f</mi> <mi>m</mi> <mo>,</mo> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> <mo>/</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mo>/</mo> <mi>m</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msup> <mo>,</mo> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> <mo>&NotEqual;</mo> <mi>m</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>C</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <msup> <mi>m</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1.1</mn> <mo>)</mo> </mrow> </mrow>

其中参数m表示当前规模，m'表示缩放后的规模，S代表将特征图缩放m'/m倍，f表示特征，常系数α可以在训练集上通过实验测得，以上公式表明原图I_m通过卷积池化操作得到特征，临近缩放规模图像特征由已知特征图近似计算得到，如1/2*I₁可以计算得到f1/2，因为图像上采样没有高频损失，上采样图片的信息内容与低分辨率的内容相似，特征计算公式为：

f_σ＝σ*S(f₁,σ)) (1.2)

3.如权利要求1所述的行人检测方法，其特征在于：步骤(4)具体为：将特征图分别通过RPN网络生成候选提议窗口，按候选窗口中的行人按高度height将行人尺度设置为height<H₁,H₁≤height<H₂,...,H_n-1≤height<H_n,height≥H_n,这里H₁到H_n是由小大的像素点个数，对应不同尺度的行人数目分别为A₁,A₂,...,A_n；然后在每一张特征图上对每个尺度的行人候选框按特征图中候选框比例分布选取T_uv个，依次选取个数T_uv个候选窗口：

<mrow> <msub> <mi>T</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>Z</mi> <mi>u</mi> </msub> <mo>*</mo> <msub> <mi>A</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>A</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1.3</mn> <mo>)</mo> </mrow> </mrow>

式中T_uv是最终需要提取的第u张特征图上第v个规模尺度行人的个数，Z_u是第u张特征图上最终需要提取的候选窗口的总和,Z_u(1≤n≤2N+1)根据数据集情况而定，每张特征图上可以选取同样数目也可以提取不同数目)，式中A_uv表示第u张特征图上第v个规模尺度行人的个数。

4.如权利要求1所述的行人检测方法，其特征在于：步骤(5)具体为：

1)选择在有多种行人尺度的KITTI数据集上实验，在训练数据集上将行人按高度分为n个尺度的行人；

2)利用KITTI数据集的训练集训练深度神经网络，卷积神经网络(CNN)的损失层(losslayer)接受两个值作为输入，其中一个是卷积神经网络(CNN)的预测值，另一个是真实标签。损失层通过预测值和标签值进行一系列运算，得到当前网络的损失函数(LossFunction)，一般记做L(W)，其中W是当前网络权值构成的向量空间；

3)对损失函数要进行相应的优化，设训练优化的参数为W，设其中M_i是训练集采样到的感兴趣图像块，N是训练样本的总数，y_i∈(0,1)是M_i的类标签，是特征图对应的边界框坐标，其中分别代表原图上图像块的坐标，(m'/m)是缩放因子，m表示当前规模，m'表示缩放后的规模；

4)多任务损失函数为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <msup> <mi>E</mi> <mi>x</mi> </msup> </mrow> </munder> <mfrac> <msub> <mi>A</mi> <mi>x</mi> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>A</mi> <mi>x</mi> </msub> </mrow> </mfrac> <msup> <mi>l</mi> <mi>x</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>|</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1.4</mn> <mo>)</mo> </mrow> </mrow>

l(M,(y,B)|W)＝L_cls(p(M),y)+β[y≥1]L_loc(T^y,B) (1.5)

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>y</mi> <mo>)</mo> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <msub> <mi>p</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msup> <msub> <mi>T</mi> <mi>i</mi> </msub> <mi>y</mi> </msup> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&Element;</mo> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>}</mo> </mrow> </munder> <msub> <mi>smooth</mi> <mrow> <mi>L</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msup> <msub> <mi>T</mi> <mi>i</mi> </msub> <mi>y</mi> </msup> <mo>-</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1.6</mn> <mo>)</mo> </mrow> </mrow>

式中p_y(M)＝p₀(M)+p₁(M)，y∈(0,1)是M的类标签，是预测边框位置，是特征图对应的边界框坐标；

5)由于步骤4)中预测概率p和预测标签T都分别由特征向量和各自权值向量相乘得到，所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数，使损失函数L(W)最小从而得到联合最优参数W(w_cls,w_loc)，即W(w_cls,w_loc)＝argmin_WL(W)+φ||W||，式中L(W)即多任务损失函数，φ是正则化参数。

5.如权利要求1所述的行人检测别方法，其特征在于：步骤(6)具体为：将步骤(4)中的提议窗口汇总成J个，经过全连接层使输入特征图尺寸固定，经过训练好的分类器分类得到候选行人的置信度，如果结果大于0.75则判断为行人；框出的行人再通过非极大值抑制，除去与最大置信度窗口重叠超过65％的窗口。