CN108038409A - 一种行人检测方法 - Google Patents
一种行人检测方法 Download PDFInfo
- Publication number
- CN108038409A CN108038409A CN201711030102.8A CN201711030102A CN108038409A CN 108038409 A CN108038409 A CN 108038409A CN 201711030102 A CN201711030102 A CN 201711030102A CN 108038409 A CN108038409 A CN 108038409A
- Authority
- CN
- China
- Prior art keywords
- image
- scale
- pedestrian
- feature map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种行人检测方法,通过基于卷积神经网络的行人检测方法,对输入图像进行多次卷积和池化,提取原图特征,得到原图对应的特征图,通过图像特征金字塔规则近似计算出原图缩放后对应的特征图,分别经过区域建议网络RPN生成候选窗口,按候选窗口内行人尺寸分布进一步选择候选提议窗口并汇总,利用带标签的训练数据训练出不同尺度的行人目标在不同规模图像上对应的权重,训练分类器网络。求得汇总后的候选窗口经过分类器后得到的置信度与设定的阈值相比做出最终的行人检测的判断。图像特征金字塔的应用避免了图像缩放计算得到特征图的繁重计算量,并且利用不同权值加权的方式在不同特征图上检测有效避免了单一特征图检测的误判和漏检。
Description
技术领域
本发明涉及一种行人检测方法,属于目标检测领域。
背景技术
近年来,行人检测技术在智能监控、自动驾驶、机器人视觉等方面具有广泛的应用。实际应用中行人的着装,姿态尤其是视频中捕捉到的行人尺寸多变使得行人检测面临极大的挑战性。行人检测主要有两大方式:一种是基于滑动窗口的传统的行人检测方法,一种是基于深度学习提取特征的行人检测方法。传统的行人检测方法计算量大且没有利用GPU资源检测速度受限,由于计算机性能不断增强并且利用了GPU计算能力,大多基于学习特征的深度学习方法检测速度优于传统方法,但是往往难以解决行人的多尺度问题。
发明内容
为了解决行人检测过程中速度和检测精度难以权衡以及行人的多尺度问题,本发明提供一种行人检测方法,包括步骤:
步骤(1)确定当前帧图像:将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像;
步骤(2)求得特征图:将当前帧图像通过多个卷积层和池化层,通过最后一个卷积层得到一个(feature map)特征图;
步骤(3)特征图扩展:通过图像特征金字塔规则计算图像临近尺度对应的特征图,依次扩展N个小尺度扩展特征图和N个大尺度扩展扩展特征图,扩展次数 N和扩展倍数不设限,一共得到2N+1个特征图;
步骤(4)提议窗口分配:特征图经过区域建议网络RPN(region proposalnetwork)生成候选窗口,根据行人尺寸分布进一步选择候选窗口;
步骤(5)分类网络训练:利用多种尺度行人在不同特征图中的的分布训练深度神经网络;
步骤(6)行人检测标注:将得到的三种规模特征图的提议窗口数目按比例汇总,经过步骤(5)中训练好的分类器分类,经过非极大值抑制后框出行人。
进一步的,步骤(1)具体为:将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像,记做I1。
进一步的,步骤(2)具体为:将当前帧图像通过多个卷积层和池化层,这里卷积层和池化层交叉进行并且层数不设限,通过最后一个卷积层得到一个特征图(feature map),记做f1。
进一步的,步骤(3)具体为:通过图像幂率规则和图像特征金字塔规则计算图像I1临近规模对应的特征图,一般利用fm=Cp(S(I1,M)),式中I1代表原图像,M代表缩放规模,S代表将原图缩放,Cp代表卷积池化操作计算特征。现在为减少卷积运算提高运行速度,利用公式:
其中参数m表示当前规模,m’表示缩放后规模,S代表将特征图缩放m'/m倍, f表示特征,常系数α可以在训练集上通过实验测得,以上公式表明原图Im通过卷积池化操作计算特征,临近缩放规模图像特征由已知特征图变化得到,将得到的特征图计算出原图α倍大小和β倍大小的图片对应的特征图,如1/2*I1和 2*I1(此处扩展的图片规模和扩展次数不设限,考虑检测速度和表述方便选取这两个尺度),因为金字塔规则每次临近计算倍,特征图要迭代计算四次,对应特征图为f1/2,因为图像上采样没有高频损失,上采样图片的信息内容与低分辨率的内容相似,特征计算公式为:
fσ=σ*S(f1,σ)) (2.2)
式中f1代表原图对应特征图,S代表将特征图f1放大σ倍,fσ为上采样图像。
进一步的,步骤(4)具体为:因为RPN有单一的感受野,在缩小规模的图像对应特征图上倾向于检测大目标,在放大规模的图像对应特征图上倾向于检测小目标,我们将图像中行人目标分为三个尺度,我们在有多尺度行人的KITTI数据集上实验,将数据集中的行人按照高度height不同设置为height<H1,H1≤height< H2,...,Hn-1≤height<Hn,height≥Hn,这里H1到Hn是由小大的像素点个数,对应不同尺度的行人数目分别为A1,A2,...,An。然后在每一张特征图上对每个尺度的行人候选框按特征图中候选框比例分布选取T个,依次选取Tuv个,
式中Tuv是最终需要提取的第u张特征图上第v个规模尺度行人的个数,Zu是第u张特征图上最终需要提取的候选窗口的总和,Zu(1≤n≤2N+1)根据数据集情况而定,每张特征图上可以选取同样数目也可以提取不同数目),式中Auv表示第u张特征图上第v个规模尺度行人的个数。因为提议窗口网络有单一的感受野 (输出特征图上某个节点的响应对应的输入图像的区域),在缩小规模的图像对应特征图上倾向于检测大目标,在放大规模的图像对应特征图上倾向于检测小目标,这样根据不同尺度目标的比例提取候选窗口有利于发挥网络在不同特征图上的检测优势。
进一步的,步骤(5)具体为:
1)选择在有多种行人尺度的KITTI数据集上实验,我们在训练数据集上将行人按高度分为X个尺寸的行人(此处尺寸级数不设限);
2)利用卷积层特征共享训练RPN(region proposal network)网络和softmax分类器联合网络,采用交叉轮流训练的方式,先训练RPN区域建议网络,再用候选窗口训练基于区域的分类器网络,再用分类器网络训练RPN区域建议网络。损失层(loss layer)是卷积神经网络(CNN)的终点,接受两个值作为输入,其中一个是CNN的预测值,另一个是真实标签。损失层则通过预测值和标签值进行一系列运算,得到当前网络的损失函数(LossFunction),一般记做L(W),其中W是当前网络权值构成的向量空间。训练网络的目的是在权值空间中找到让损失函数L(W)最小的权值W(opt),可以采用随机梯度下降 (stochasticgradient descent)的最优化方法逼近权值W(opt),网络中有两个损失函数,一个是分类损失函数一个是回归损失函数;
3)因为步骤(3)结构的改变,损失函数要进行相应的优化,要训练优化的参数为W,设其中Mi是训练是采样到的感兴趣图像块, N是训练样本的总数,yi∈(0,1)是Mi的类标签,Bi=(m'/m)*(bi x,bi y,bi w,bi h)是特征图对应的边界框坐标,其中bi x,bi y,bi w,bi h分别代表原图上图像块的坐标, (m'/m)是缩放尺寸在步骤(3)中解释;
4)这样多任务损失函数为:
其中n是目标大小的规模级数,Ex是每个规模对应的数据样本,Mi是训练集采样到的感兴趣图像块,A1,A2,...,An分别代表n种尺度的行人的数量,l是分类和回归的联合损失函数,定义为:
l(M,(y,B)|W)=Lcls(p(M),y)+β[y≥1]Lloc(Ty,B) (2.5)
其中β是权衡系数,Ty是类y的预测边框位置,[y≥1]表示只有在正本时才存在回归损失,Lclc和Lloc分别是交叉熵损失和边界回归损失,定义为:
式中py(M)=p0(M)+p1(M),y∈(0,1)是M 的类标签,Ti y=(ti x,ti y,ti w,ti h,)是预测边框位置,Bi=(m'/m)*(bi x,bi y,bi w,bi h)是特征图对应的边界框坐标。
5)由于4)中预测概率p和预测标签T都分别有经过proposal后的特征向量和各自权值向量相乘得到,所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数,使损失函数L(W)最小从而得到联合最优参数 W(wcls,wloc),即式中L(W)即多任务损失函数,φ是正则化参数。
进一步的,步骤(6)具体为:将步骤(4)中的提议窗口汇总成J个,经过感兴趣池层和全连接层是输入特征图尺寸固定,经过步骤(5)中训练好的分类器分类,通过非极大值抑制,除去与最大置信度窗口重叠超过65%的窗口。
本发明公开了一种基于卷积神经网络的行人检测方法,通过图像的特征金字塔规则计算出原图相邻尺寸对应的特征图,避免了图像缩放计算得到特征图的繁重计算量,并且利不同特征图上检测用不同权值加权有效避免了单一特征图检测的误判和漏检。所以实现了行人检测速度和精度的有效权衡。
附图说明
图1是本发明的一种基于卷积神经网络的行人检测方法流程图;
图2是本发明的行人检测方法的候选窗口(proposal)优化选取算法图;
图3是非极大值抑制实现方法示意图;
图4是本申请的行人检测方法在KITTI数据集图片上的效果图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明的一种基于卷积神经网络的行人检测方法,包括以下步骤:
步骤(1)确定当前帧图像:将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像;
步骤(2)求得特征图:将当前帧图像通过多个卷积层和池化层,通过最后一个卷积层得到一个特征图(feature map);
步骤(3)特征图扩展:通过图像幂率规则和图像特征金字塔规则计算图像临近规模对应的特征图,此处扩展的图片规模和扩展次数不设限;
步骤(4)提议窗口分配:选择一个合适的行人数据集或者自己制作一个行人尺度多变的数据集,将图片中目标分为小、中、大这三个规模(规模级数由数据集行人规模而定),按图片中同规模目标所占比例分配提议窗口数目;
步骤(5)分类网络训练:利用多种尺度行人在不同特征图中的的分布训练深度神经网络;
步骤(6)行人检测标注:将得到的三种规模特征图的候选窗口数目按比例汇总,经过步骤(5)中训练好的分类器分类,经过非极大值抑制后框出行人。
所述步骤(1)中对确定当前帧图像的步骤为:将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像,记做I1。
所述步骤(2)中对求得特征图的步骤为:将当前帧图像通过多个卷积层和池化层,这里卷积层和池化层交叉进行并且层数不设限,通过最后一个卷积层得到一个特征图(feature map),记做f1。
所述步骤(3)中对特征图扩展的步骤为:通过图像幂率规则和图像特征金字塔规则计算图像I1临近规模对应的特征图,一般利用fm=Cp(S(I1,M)),式中I1代表原图像,M代表缩放规模,S代表将原图缩放,Cp代表卷积池化操作计算特征。现在为减少卷积运算提高运行速度,利用公式:
其中参数m表示当前规模,m'表示缩放后的规模,S代表将特征图缩放m'/m 倍,f表示特征,常系数α可以在训练集上通过实验测得,以上公式表明原图Im通过卷积池化操作得到特征,临近缩放规模图像特征由已知特征图近似计算得到,如1/2*I1可以计算得到f1/2,因为图像上采样没有高频损失,上采样图片的信息内容与低分辨率的内容相似,特征计算公式为:
fσ=σ*S(f1,σ)) (3.2)
式中f1代表原图对应特征图,S代表将特征图f1放大σ倍,fσ为上采样图像。
所述步骤(4)中对提议窗口分配的步骤为:因为RPN有单一的感受野,在缩小规模的图像对应特征图上倾向于检测大目标,在放大规模的图像对应特征图上倾向于检测小目标,我们将图片里的目标分为三个尺度,我们在有多尺度行人的KITTI数据集上实验,将数据集中的行人按照高度height不同设置为height< H1,H1≤height<H2,height≥H2这三个尺度,,这里H1到H2分别是50个、200 个像素点,对应不同尺度的行人数目分别为A1,A2,A3。然后在不同特征图上行人高度小于50像素的候选窗口里按照置信度大小选取ZK*A1/(A1+A2+A3)个,在行人高度大于50小于200个像素的候选窗口里按照置信度大小选取 ZK*A2/(A1+A2+A3)个,在行人高度大于200个像素的候选窗口里按照置信度大小选取ZK*A3/(A1+A2+A3)个,这里A1,A2,A3分别代表提取前三种不同尺度行人候选窗口的数量,K=1,2,3分别表示缩小特征图、原特征图、放大特征图,ZK表示每个特征图需要提取候选窗口的个数。如图2所示,f1、f1/2、f2分别代表图像I1经过最后一层卷积得到的特征图和扩展计算得到的图像I1临近规模对应的特征图,候选窗口选取个数分别为:Z1、Z2、Z3。因为特征图检测行人偏向不同采用比例分配提议候选窗口的方式,这样根据不同目标规模的比例分配候选窗口有利于发挥网络在不同特征图上的检测优势。
所述步骤(5)中对分类网络训练的步骤为:
1)选择在有多种行人尺度的KITTI数据集上实验,我们在训练数据集上将行人按高度分为X个尺寸的行人(此处尺寸级数不设限);
2)利用卷积层特征共享训练RPN(region proposal network)网络和 softmax分类器联合网络,采用交叉轮流训练的方式,先训练区域提议网络(R PN),再用提议(proposal)训练基于区域的分类器网络,再用分类器网络训练区域提议网络。损失层(losslayer)是卷积神经网络(CNN)的终点,接受两个值作为输入,其中一个是CNN的预测值,另一个是真实标签。损失层则将这两个输入进行一系列运算,得到当前网络的损失函数(LossFunction),一般记做L(W),其中W是当前网络权值构成的向量空间。训练网络的目的是在权值空间中找到让损失函数L(W)最小的权值W(opt),可以采用随机梯度下降 (stochasticgradient descent)的最优化方法逼近权值W(opt),网络中有两个损失函数,一个是分类损失函数一个是回归损失函数;
3)因为步骤(3)结构的改变,损失函数要进行相应的优化,要训练优化的参数为W,设其中Mi是训练是采样到的感兴趣图像块, N是训练样本的总数,yi∈(0,1)是Mi的类标签,Bi=(m'/m)*(bi x,bi y,bi w,bi h)是特征图对应的边界框坐标,其中bi x,bi y,bi w,bi h分别代表原图上图像块的坐标, (m'/m)是缩放尺寸在步骤(3)中解释;
4)这样多任务损失函数为:
其中n是目标大小的规模级数,Ex是每个规模对应的数据样本,Mi是训练集采样到的感兴趣图像块,A1,A2,...,An分别代表n种尺度的行人的数量,l是分类和回归的联合损失函数,定义为:
l(M,(y,B)|W)=Lcls(p(M),y)+β[y≥1]Lloc(Ty,B) (3.4)
其中β是权衡系数,Ty是类y的预测边框位置,[y≥1]表示只有在正本时才存在回归损失,Lclc和Lloc分别是交叉熵损失和边界回归损失,定义为:
式中py(M)=p0(M)+p1(M),y∈(0,1)是M 的类标签,Ti y=(ti x,ti y,ti w,ti h,)是预测边框位置,Bi=(m'/m)*(bi x,bi y,bi w,bi h)是特征图对应的边界框坐标。
5)由于步骤4)中预测概率p和预测标签T都分别有经过提议(proposal) 后的特征向量和各自权值向量相乘得到,所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数,使损失函数L(W)最小从而得到联合最优参数W(wcls,wloc),即W(wscl,wolc)=arg min WL(W)+φ||W||。式中L(W)即多任务损失函数,φ是正则化参数。
所述步骤(6)中对行人检测标注的步骤为:将步骤(4)中的提议窗口汇总成J个,经过感兴趣池层和全连接层是输入特征图尺寸固定,经过训练好的分类器分类得到候选行人置信度,每个规模的候选行人分别与步骤(5)中训练得到的权重lx相乘,通过非极大值抑制,除去与最大置信度窗口重叠超过65%的窗口,如图3所示,S1,S3分别表示两个检测框面积,S2表示两个检测框的重叠面积,交并比为S2/(S1+S3-S2),如果交并比大于阈值0.65就舍弃置信度较小的那个框。图4是本申请的行人检测方法在KITTI数据集图片上的效果图,可以看出,高度小于50pixels许多行人都检测出来了。由此可见本申请的行人检测方法的可行性和检测优势。
Claims (5)
1.一种行人检测方法,其特征在于包括以下步骤:
步骤(1)确定当前帧图像:将测试集中的一张图片作为当前帧图像或者视频序列中待处理的帧图像作为当前帧图像,记做I1;
步骤(2)计算特征图:将当前帧图像通过多个卷积层和池化层,这里卷积层和池化层交叉进行并且层数不设限,通过最后一个卷积层后得到一个特征图(feature map),记做f1;
步骤(3)特征图扩展:通过图像特征金字塔规则计算图像临近尺度对应的特征图,依次扩展N个小尺度扩展特征图和N个大尺度扩展扩展特征图,扩展次数N和扩展倍数不设限,一共得到2N+1个特征图;
步骤(4)候选窗口提取:特征图经过区域建议网络RPN(region proposal network)生成候选窗口,根据行人尺寸分布进一步选择候选窗口;
步骤(5)分类器的训练:利用多种尺度行人在不同特征图中的的分布训练深度神经网络;
步骤(6)行人检测输出:将得到的多规模特征图的候选窗口汇总,经过训练好的分类器分类,经过非极大值抑制后框出行人。
2.如权利要求1所述的行人检测方法,其特征在于:步骤(3)具体为:计算图像I1临近规模对应的特征图,一般利用fm=Cp(S(I1,M)),式中I1代表原图像,M代表缩放规模,S代表将图像缩放,Cp代表卷积池化操作计算特征,为减少卷积运算提高计算速度,通过图像图像特征金字塔规则计算临近规模图像对应的特征图,计算公式是:
<mrow>
<msub>
<mi>f</mi>
<msup>
<mi>m</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>m</mi>
<mo>,</mo>
<msup>
<mi>m</mi>
<mo>&prime;</mo>
</msup>
<mo>/</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>m</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<mo>/</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mi>&alpha;</mi>
</mrow>
</msup>
<mo>,</mo>
<msup>
<mi>m</mi>
<mo>&prime;</mo>
</msup>
<mo>&NotEqual;</mo>
<mi>m</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>C</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msup>
<mi>m</mi>
<mo>&prime;</mo>
</msup>
<mo>=</mo>
<mi>m</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1.1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中参数m表示当前规模,m'表示缩放后的规模,S代表将特征图缩放m'/m倍,f表示特征,常系数α可以在训练集上通过实验测得,以上公式表明原图Im通过卷积池化操作得到特征,临近缩放规模图像特征由已知特征图近似计算得到,如1/2*I1可以计算得到f1/2,因为图像上采样没有高频损失,上采样图片的信息内容与低分辨率的内容相似,特征计算公式为:
fσ=σ*S(f1,σ)) (1.2)
式中f1代表原图对应特征图,S代表将特征图f1放大σ倍,fσ为上采样图像。
3.如权利要求1所述的行人检测方法,其特征在于:步骤(4)具体为:将特征图分别通过RPN网络生成候选提议窗口,按候选窗口中的行人按高度height将行人尺度设置为height<H1,H1≤height<H2,...,Hn-1≤height<Hn,height≥Hn,这里H1到Hn是由小大的像素点个数,对应不同尺度的行人数目分别为A1,A2,...,An;然后在每一张特征图上对每个尺度的行人候选框按特征图中候选框比例分布选取Tuv个,依次选取个数Tuv个候选窗口:
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mi>u</mi>
<mi>v</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>Z</mi>
<mi>u</mi>
</msub>
<mo>*</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>u</mi>
<mi>v</mi>
</mrow>
</msub>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>A</mi>
<mrow>
<mi>u</mi>
<mi>v</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1.3</mn>
<mo>)</mo>
</mrow>
</mrow>
式中Tuv是最终需要提取的第u张特征图上第v个规模尺度行人的个数,Zu是第u张特征图上最终需要提取的候选窗口的总和,Zu(1≤n≤2N+1)根据数据集情况而定,每张特征图上可以选取同样数目也可以提取不同数目),式中Auv表示第u张特征图上第v个规模尺度行人的个数。
4.如权利要求1所述的行人检测方法,其特征在于:步骤(5)具体为:
1)选择在有多种行人尺度的KITTI数据集上实验,在训练数据集上将行人按高度分为n个尺度的行人;
2)利用KITTI数据集的训练集训练深度神经网络,卷积神经网络(CNN)的损失层(losslayer)接受两个值作为输入,其中一个是卷积神经网络(CNN)的预测值,另一个是真实标签。损失层通过预测值和标签值进行一系列运算,得到当前网络的损失函数(LossFunction),一般记做L(W),其中W是当前网络权值构成的向量空间;
3)对损失函数要进行相应的优化,设训练优化的参数为W,设 其中Mi是训练集采样到的感兴趣图像块,N是训练样本的总数,yi∈(0,1)是Mi的类标签,是特征图对应的边界框坐标,其中分别代表原图上图像块的坐标,(m'/m)是缩放因子,m表示当前规模,m'表示缩放后的规模;
4)多任务损失函数为:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<msup>
<mi>E</mi>
<mi>x</mi>
</msup>
</mrow>
</munder>
<mfrac>
<msub>
<mi>A</mi>
<mi>x</mi>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>A</mi>
<mi>x</mi>
</msub>
</mrow>
</mfrac>
<msup>
<mi>l</mi>
<mi>x</mi>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>M</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>|</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1.4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中n是目标大小的规模级数,Ex是每个规模对应的数据样本,Mi是训练集采样到的感兴趣图像块,A1,A2,...,An分别代表n种尺度的行人的数量,l是分类和回归的联合损失函数,定义为:
l(M,(y,B)|W)=Lcls(p(M),y)+β[y≥1]Lloc(Ty,B) (1.5)
其中β是权衡系数,Ty是类y的预测边框位置,[y≥1]表示只有在正本时才存在回归损失,Lclc和Lloc分别是交叉熵损失和边界回归损失,定义为:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>l</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
<mo>=</mo>
<mo>-</mo>
<mi>log</mi>
<mi> </mi>
<msub>
<mi>p</mi>
<mi>y</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>M</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mi>y</mi>
</msup>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>,</mo>
<mi>w</mi>
<mo>,</mo>
<mi>h</mi>
<mo>}</mo>
</mrow>
</munder>
<msub>
<mi>smooth</mi>
<mrow>
<mi>L</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mi>y</mi>
</msup>
<mo>-</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1.6</mn>
<mo>)</mo>
</mrow>
</mrow>
式中py(M)=p0(M)+p1(M),y∈(0,1)是M的类标签,是预测边框位置, 是特征图对应的边界框坐标;
5)由于步骤4)中预测概率p和预测标签T都分别由特征向量和各自权值向量相乘得到,所以由以上公式可根据预测值和标签不断调整分类和回归过程中的联合参数,使损失函数L(W)最小从而得到联合最优参数W(wcls,wloc),即W(wcls,wloc)=argminWL(W)+φ||W||,式中L(W)即多任务损失函数,φ是正则化参数。
5.如权利要求1所述的行人检测别方法,其特征在于:步骤(6)具体为:将步骤(4)中的提议窗口汇总成J个,经过全连接层使输入特征图尺寸固定,经过训练好的分类器分类得到候选行人的置信度,如果结果大于0.75则判断为行人;框出的行人再通过非极大值抑制,除去与最大置信度窗口重叠超过65%的窗口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711030102.8A CN108038409B (zh) | 2017-10-27 | 2017-10-27 | 一种行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711030102.8A CN108038409B (zh) | 2017-10-27 | 2017-10-27 | 一种行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108038409A true CN108038409A (zh) | 2018-05-15 |
CN108038409B CN108038409B (zh) | 2021-12-28 |
Family
ID=62093419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711030102.8A Active CN108038409B (zh) | 2017-10-27 | 2017-10-27 | 一种行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038409B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003223A (zh) * | 2018-07-13 | 2018-12-14 | 北京字节跳动网络技术有限公司 | 图片处理方法和装置 |
CN109101915A (zh) * | 2018-08-01 | 2018-12-28 | 中国计量大学 | 基于深度学习的人脸与行人及属性识别网络结构设计方法 |
CN109117717A (zh) * | 2018-06-29 | 2019-01-01 | 广州烽火众智数字技术有限公司 | 一种城市行人检测方法 |
CN109242801A (zh) * | 2018-09-26 | 2019-01-18 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及*** |
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
CN109492596A (zh) * | 2018-11-19 | 2019-03-19 | 南京信息工程大学 | 一种基于K-means聚类和区域推荐网络的行人检测方法及*** |
CN109658412A (zh) * | 2018-11-30 | 2019-04-19 | 湖南视比特机器人有限公司 | 一种面向拆垛分拣的包装箱快速识别分割方法 |
CN109800637A (zh) * | 2018-12-14 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种遥感影像小目标检测方法 |
CN109829421A (zh) * | 2019-01-29 | 2019-05-31 | 西安邮电大学 | 车辆检测的方法、装置及计算机可读存储介质 |
CN109858451A (zh) * | 2019-02-14 | 2019-06-07 | 清华大学深圳研究生院 | 一种非配合手部检测方法 |
CN110059544A (zh) * | 2019-03-07 | 2019-07-26 | 华中科技大学 | 一种基于道路场景的行人检测方法和*** |
CN110097050A (zh) * | 2019-04-03 | 2019-08-06 | 平安科技(深圳)有限公司 | 行人检测方法、装置、计算机设备及存储介质 |
CN110136097A (zh) * | 2019-04-10 | 2019-08-16 | 南方电网科学研究院有限责任公司 | 一种基于特征金字塔的绝缘子故障识别方法与装置 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
CN110263712A (zh) * | 2019-06-20 | 2019-09-20 | 江南大学 | 一种基于区域候选的粗精行人检测方法 |
CN110443366A (zh) * | 2019-07-30 | 2019-11-12 | 上海商汤智能科技有限公司 | 神经网络的优化方法及装置、目标检测方法及装置 |
CN110490058A (zh) * | 2019-07-09 | 2019-11-22 | 北京迈格威科技有限公司 | 行人检测模型的训练方法、装置、***和计算机可读介质 |
CN110647897A (zh) * | 2018-06-26 | 2020-01-03 | 广东工业大学 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
CN110648322A (zh) * | 2019-09-25 | 2020-01-03 | 杭州智团信息技术有限公司 | 一种子宫颈异常细胞检测方法及*** |
CN110659658A (zh) * | 2018-06-29 | 2020-01-07 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及其装置 |
CN111339967A (zh) * | 2020-02-28 | 2020-06-26 | 长安大学 | 一种基于多视域图卷积网络的行人检测方法 |
CN111523494A (zh) * | 2020-04-27 | 2020-08-11 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像检测方法 |
CN111681243A (zh) * | 2020-08-17 | 2020-09-18 | 广东利元亨智能装备股份有限公司 | 焊接图像处理方法、装置及电子设备 |
CN111832383A (zh) * | 2020-05-08 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 姿态关键点识别模型的训练方法、姿态识别方法及装置 |
WO2021018106A1 (zh) * | 2019-07-30 | 2021-02-04 | 华为技术有限公司 | 行人检测方法、装置、计算机可读存储介质和芯片 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750708A (zh) * | 2012-05-11 | 2012-10-24 | 天津大学 | 基于快速鲁棒特征匹配的仿射运动目标跟踪算法 |
CN103247059A (zh) * | 2013-05-27 | 2013-08-14 | 北京师范大学 | 一种基于整数小波与视觉特征的遥感图像感兴趣区检测方法 |
CN104850844A (zh) * | 2015-05-27 | 2015-08-19 | 成都新舟锐视科技有限公司 | 一种基于快速构建图像特征金字塔的行人检测方法 |
US20160104056A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Spatial pyramid pooling networks for image processing |
CN105678231A (zh) * | 2015-12-30 | 2016-06-15 | 中通服公众信息产业股份有限公司 | 一种基于稀疏编码和神经网络的行人图片检测方法 |
-
2017
- 2017-10-27 CN CN201711030102.8A patent/CN108038409B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750708A (zh) * | 2012-05-11 | 2012-10-24 | 天津大学 | 基于快速鲁棒特征匹配的仿射运动目标跟踪算法 |
CN103247059A (zh) * | 2013-05-27 | 2013-08-14 | 北京师范大学 | 一种基于整数小波与视觉特征的遥感图像感兴趣区检测方法 |
US20160104056A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Spatial pyramid pooling networks for image processing |
CN104850844A (zh) * | 2015-05-27 | 2015-08-19 | 成都新舟锐视科技有限公司 | 一种基于快速构建图像特征金字塔的行人检测方法 |
CN105678231A (zh) * | 2015-12-30 | 2016-06-15 | 中通服公众信息产业股份有限公司 | 一种基于稀疏编码和神经网络的行人图片检测方法 |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647897B (zh) * | 2018-06-26 | 2023-04-18 | 广东工业大学 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
CN110647897A (zh) * | 2018-06-26 | 2020-01-03 | 广东工业大学 | 一种基于多部分注意力机制的零样本图像分类识别方法 |
CN110659658B (zh) * | 2018-06-29 | 2022-07-29 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及其装置 |
CN109117717A (zh) * | 2018-06-29 | 2019-01-01 | 广州烽火众智数字技术有限公司 | 一种城市行人检测方法 |
CN110659658A (zh) * | 2018-06-29 | 2020-01-07 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及其装置 |
CN109003223A (zh) * | 2018-07-13 | 2018-12-14 | 北京字节跳动网络技术有限公司 | 图片处理方法和装置 |
CN109003223B (zh) * | 2018-07-13 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 图片处理方法和装置 |
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
CN109101915A (zh) * | 2018-08-01 | 2018-12-28 | 中国计量大学 | 基于深度学习的人脸与行人及属性识别网络结构设计方法 |
CN109255352B (zh) * | 2018-09-07 | 2021-06-22 | 北京旷视科技有限公司 | 目标检测方法、装置及*** |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及*** |
CN109242801A (zh) * | 2018-09-26 | 2019-01-18 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置 |
CN109492596B (zh) * | 2018-11-19 | 2022-03-29 | 南京信息工程大学 | 一种基于K-means聚类和区域推荐网络的行人检测方法及*** |
CN109492596A (zh) * | 2018-11-19 | 2019-03-19 | 南京信息工程大学 | 一种基于K-means聚类和区域推荐网络的行人检测方法及*** |
CN109658412A (zh) * | 2018-11-30 | 2019-04-19 | 湖南视比特机器人有限公司 | 一种面向拆垛分拣的包装箱快速识别分割方法 |
CN109800637A (zh) * | 2018-12-14 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种遥感影像小目标检测方法 |
CN109829421A (zh) * | 2019-01-29 | 2019-05-31 | 西安邮电大学 | 车辆检测的方法、装置及计算机可读存储介质 |
CN109858451A (zh) * | 2019-02-14 | 2019-06-07 | 清华大学深圳研究生院 | 一种非配合手部检测方法 |
CN109858451B (zh) * | 2019-02-14 | 2020-10-23 | 清华大学深圳研究生院 | 一种非配合手部检测方法 |
CN110059544A (zh) * | 2019-03-07 | 2019-07-26 | 华中科技大学 | 一种基于道路场景的行人检测方法和*** |
CN110097050B (zh) * | 2019-04-03 | 2024-03-08 | 平安科技(深圳)有限公司 | 行人检测方法、装置、计算机设备及存储介质 |
CN110097050A (zh) * | 2019-04-03 | 2019-08-06 | 平安科技(深圳)有限公司 | 行人检测方法、装置、计算机设备及存储介质 |
CN110136097A (zh) * | 2019-04-10 | 2019-08-16 | 南方电网科学研究院有限责任公司 | 一种基于特征金字塔的绝缘子故障识别方法与装置 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
CN110263712A (zh) * | 2019-06-20 | 2019-09-20 | 江南大学 | 一种基于区域候选的粗精行人检测方法 |
CN110490058A (zh) * | 2019-07-09 | 2019-11-22 | 北京迈格威科技有限公司 | 行人检测模型的训练方法、装置、***和计算机可读介质 |
WO2021018106A1 (zh) * | 2019-07-30 | 2021-02-04 | 华为技术有限公司 | 行人检测方法、装置、计算机可读存储介质和芯片 |
CN110443366A (zh) * | 2019-07-30 | 2019-11-12 | 上海商汤智能科技有限公司 | 神经网络的优化方法及装置、目标检测方法及装置 |
CN110648322A (zh) * | 2019-09-25 | 2020-01-03 | 杭州智团信息技术有限公司 | 一种子宫颈异常细胞检测方法及*** |
CN110648322B (zh) * | 2019-09-25 | 2023-08-15 | 杭州智团信息技术有限公司 | 一种子宫颈异常细胞检测方法及*** |
CN111339967A (zh) * | 2020-02-28 | 2020-06-26 | 长安大学 | 一种基于多视域图卷积网络的行人检测方法 |
CN111339967B (zh) * | 2020-02-28 | 2023-04-07 | 长安大学 | 一种基于多视域图卷积网络的行人检测方法 |
CN111523494A (zh) * | 2020-04-27 | 2020-08-11 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像检测方法 |
CN111832383A (zh) * | 2020-05-08 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 姿态关键点识别模型的训练方法、姿态识别方法及装置 |
CN111832383B (zh) * | 2020-05-08 | 2023-12-08 | 北京嘀嘀无限科技发展有限公司 | 姿态关键点识别模型的训练方法、姿态识别方法及装置 |
CN111681243A (zh) * | 2020-08-17 | 2020-09-18 | 广东利元亨智能装备股份有限公司 | 焊接图像处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108038409B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038409B (zh) | 一种行人检测方法 | |
CN111209810B (zh) | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 | |
CN109284670B (zh) | 一种基于多尺度注意力机制的行人检测方法及装置 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN107545263B (zh) | 一种物体检测方法及装置 | |
CN114092389A (zh) | 一种基于小样本学习的玻璃面板表面缺陷检测方法 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN112418108B (zh) | 一种基于样本重加权的遥感图像多类目标检测方法 | |
CN109377511B (zh) | 基于样本组合和深度检测网络的运动目标跟踪方法 | |
CN110263877B (zh) | 场景文字检测方法 | |
CN113139543A (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
US20200034664A1 (en) | Network Architecture for Generating a Labeled Overhead Image | |
CN115620081B (zh) | 一种目标检测模型的训练方法及目标检测方法、装置 | |
Zhao et al. | Multiscale object detection in high-resolution remote sensing images via rotation invariant deep features driven by channel attention | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN115240119A (zh) | 一种基于深度学习的视频监控中行人小目标检测方法 | |
CN115147418A (zh) | 缺陷检测模型的压缩训练方法和装置 | |
Jiao et al. | Extracting wetlands from swiss historical maps with convolutional neural networks | |
CN113657225B (zh) | 一种目标检测方法 | |
CN113496260B (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |