CN107403132A - 一种基于可形变部件模型的实时行人检测方法 - Google Patents
一种基于可形变部件模型的实时行人检测方法 Download PDFInfo
- Publication number
- CN107403132A CN107403132A CN201710306669.7A CN201710306669A CN107403132A CN 107403132 A CN107403132 A CN 107403132A CN 201710306669 A CN201710306669 A CN 201710306669A CN 107403132 A CN107403132 A CN 107403132A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- model
- pedestrian
- sample
- deformable member
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明主要是对基于可形变部件模型的行人检测算法进行深入优化。该方法首先利用基于二值规范化梯度特征的搜索算法来替代区域建议法进行搜索以达到算法的优化,在特征提取与检测阶段,对低分辨率进行m邻域非极大值抑制法搜索推断,并利用其推断结果引导高分辨率层搜索的策略来对样本进行搜索推断以达到算法的优化。针对前一步算法优化带来的一些对遮挡、模糊或是其他噪声比较敏感等问题,在训练模型时加入每个部分之间的存在的隐性联系以及低分辨率和高分辨率对应位置之间的联系来保证算法的鲁棒性,也在一定程度上降低了算法的时间复杂度。本发明相比于基于区域建议法的改进可形变部件模型具有更强的鲁棒性、更好的实时性和实用性。
Description
技术领域
本发明涉及图像处理以及车辆辅助驾驶领域,特别涉及实时行人检测领域。
背景技术
行人检测在高级车辆辅助驾驶领域有着重要的应用价值,车辆辅助驾驶***中基于计算机视觉的行人检测是指利用安装在运动车辆上的摄像机获取车辆前面的视频信息,然后从视频序列中检测出行人的位置。由于它在行人安全方面的巨大应用前景,再加上行人检测存在的许多难点,包括:人的身材和衣着上的差异性,造成了行人之间严重的类内差异,给检测工作带来了巨大的挑战;人体的动作多样性、复杂的背景、不同视角下,行人不一样以及遮挡等问题,使得行人检测成为近年来计算机视觉研究的难点和热点。
在较为成熟的行人检测算法中主要分为两类研究。第一类是基于全局特征的行人检测算法,算法思想是利用传统特征提取算法对整个行人提取特征,并将特征输入到分类器供其进行学习、训练,训练好模型即可用于检测行人对象。第二类是基于局部特征的行人检测算法,主要思想是针对行人动作多样性以及遮挡问题提出的,其将行人表示为多个部件的弹性连接,即可通过分别提取每个部件的特征来训练检测器,最终实现行人对象的检测。相比之下,后者对行人检测的典型问题的解决更有针对性。在行人检测算法中,首先需要提供感兴趣区域,早期大多数学者使用的是效率极低的滑动窗口法,而目前很多学者所用效率略高的区域建议法时间也还不尽如人意。在特征提取和检测阶段,近年来,为提高行人检测的实用性,有很多学者用级联技术来对算法加速,级联算法中通常用Adaboost作为分类器。但基于Adaboost 的级联算法有两个缺点:在精确度方面,级联算法仅仅使用了很弱的特征,很弱的分类器,整体算法的精度靠的是多个弱分类器来实行一票否决式推举来提高命中率,而且分类器个数的确定也需要根据经验确定;在时间复杂度方面,因为有很多数量的检测器要构建、要对特征进行选择、在每个级联层还要学习拒绝阈值,所以分类器的训练需要很长时间。
综上所述,目前迫切需要提出一种实时性高、鲁棒性以及实用性较强的行人检测方法。
发明内容
有鉴于此,本发明的主要目的在于实现一种鲁棒性高的实时行人检测算法。
本发明对基于梯度方向直方图特征和带隐变量的支持向量机的可形变部件模型进行深入优化。通过充分分析基于可形变部件模型的行人检测算法时间复杂度,提出了利用搜索速率能达到300fps的搜索算法——基于二值规范化梯度特征的搜索算法来替代区域建议法进行搜索以达到算法的优化。在特征提取与检测阶段,对低分辨率进行m邻域非极大值抑制法搜索推断,并利用其推断结果引导高分辨率层搜索的策略来对样本进行搜索推断以达到算法的优化。针对前一步算法优化带来的一些对遮挡、模糊或是其他噪声比较敏感的问题,在训练模型时加入每个部件滤波器之间的存在的隐性联系以及低分辨率和高分辨率对应位置之间的联系来保证算法的鲁棒性,也在一定程度上降低了算法的时间复杂度,整体的算法流程可结合下文和附图1进行理解。
本发明的具体实现步骤如下:
(1)利用基于二值规范化梯度特征的搜索策略对样本图片进行搜索,包括:
对训练样本做预处理。首先,将输入样本收缩为36种尺度的图像,记尺度为{w0,h0},其中,w0,h0∈{10,20,40,80,160,320}。然后计算各尺度下图像的梯度特征,并在各尺度的梯度特征上进行分别搜索,提取出8×8的特征gl,将其归一化到[0,255]。为加快后面模型的检测速度,将归一化后的特征做二值化处理,即将特征gl用8位二进制数来表示。用8个二值化规范特征加权得到归一化后的梯度特征,如式(1)所示:
其中,bk,l为由gl中每个分量的第k位二进制数组成的一个8×8的矩阵,也就是二值规范化梯度特征。为提高计算的效率,将gl用上述8个二值规范化梯度特征中前Ng个特征加权近似表示。
在获取到样本的特征之后,用事先训练好的模型参数向量w和各尺度下不同位置处的特征gl做内积运算,并将结果sl作为该位置是否有目标存在的分数,具体如式(2)所示:
sl=<w,gl>
\*MERGEFORMAT (2)
其中,参数向量w由线性支持向量机训练得出,gl为图像在位置l处的二值归一化梯度, l=(x,y,σ),(x,y)为特征所在图像尺度σ下的位置坐标。
因为图像中一些尺度中包含目标的可能性会比其他区域小很多,需对式(3)进行再次加权得到最终的得分:
ol=vi·sl+ti
\*MERGEFORMAT (3)
其中,vi,ti为两个可以用支持向量机训练得到的系数。
为充分利用计算机的快速位运算,作者对sl=<w,gl>中的参数向量w用一组基向量α来表示,每个基向量αj均由0或者1构成,如式(4)所示:
整个参数的二值化过程如表1所示。
表1模型参数的二值化步骤
上述整个基于二值规范化梯度的搜索策略算法流程可总结为:首先,利用训练样本事先训练出一个模型;然后,对输入的测试样本进行尺度变换,得到36种尺度下的样本;接着对每个样本提取梯度特征,并将特征归一化到[0,255],为加快检测速度,又将归一化后的梯度特征做了二值化,得到最终的二值规范化梯度特征;最终,将二值化特征输入到事先由训练样本训练得到的参数二值化后的模型,即可得到广义目标的检测结果。整个算法包括模型训练和样本测试的流程可结合附图2深入理解。
(2)多分辨率下梯度方向直方图特征的获取
在利用基于二值规范化梯度特征的搜索算法获得感兴趣区域之后,利用多分辨率梯度方向直方图滤波器即可提取出待检测的特征。以下为一些主要的分析:
附图3是一个由不同分辨率的梯度方向直方图滤波器组构成的行人模型,最低分辨率下 (r=0)的行人模型对应着整个树形结构的根部,记此滤波器维数为w×h,图像的像素点总数为L,梯度方向直方图的空间量化步长为δ,则根滤波器在整个图像中需要遍历L/δ2个位置,在推断算法中需要Lwhd/δ2步运算,其中d为每个梯度方向直方图cell的维数。在r=1层,梯度方向直方图特征分辨率翻了一倍,所以每个部分有4r·L/δ2种可能的位置,将每个部分和图像进行匹配需要(4r·L/δ2)×(4rwhd)步操作,如果以此算法往下迭代的话,时间复杂度必定会增高,因此,引入了m邻域的非极大值抑制算法,在根部分进行搜索时,只保留m邻域内响应最大的位置传入到下一分辨率特征中,在下一分辨率层亦如此,只对m邻域进行搜索,所以最终每层的搜索只用在L/δ2个位置进行。
因此,在R层的总搜索位置就从(Lwhd/δ2)·(16R-1)/15降到了(Lwhd/δ2)·(4R-1)/3,因此在三层分辨率下,由粗到精的策略就比标准动态规划策略快了13倍左右,而且这里算法的复杂度和m邻域是独立的,因此,在实际中,在根部滤波器会设一个很小的m来避免错过重叠的目标,在其他分辨率层设一个大一点的m来获取到行人较大的形变。
然而,经过这样的推断策略对算法进行优化后,会出现整体算法对部分遮挡、模糊或是其他噪声比较敏感,算法的鲁棒性不高。所以需要在训练的时候加入每个部件间的隐性连接来作为限制提升整体算法的鲁棒性,这个问题将在第(3)部分进行详述。
(3)基于带隐变量的支持向量机的模型训练
在获得多分辨率下的梯度方向直方图特征后,利用以下思想即可训练得到一个基于带隐变量的支持向量机的模型用于后面的检测:
记yi,i=1,...,P为P目标部分的位置,每个yi在一个离散集合Di中取值,给定一个图像x, 则对于位置yi的分数定义如式(5):
该得分函数可通过附图4进行理解,其中,F表征父级与子级之间的连接关系,即附图4 中的实线;P表征了同一分辨率下各部分之间的连接关系,即附图4中的虚线;w是模型的参数向量,在模型训练时可以得到;是用于yi衡量位置处图像中的部分和第i部分的兼容性函数。可由一个线性滤波器给出:
其中,H(yi;x)是由图像x在位置yi处提取出来的梯度方向直方图特征,是由w确定的模型参数;是惩罚函数,用于惩罚高分辨率部分yi的位置和对应低分辨率部分的位置yj差值太大,其函数形式如下:
其中,是从参数向量w中提取出来的形变系数,D(2yi,yj)函数形式如下:
D(2yi,yj)=[(2xi-xj)2,(2yi-yj)2]
\*MERGEFORMAT (8)
其中,yi=(xi,yi)为低分辨率下的位置,系数2是为了将低分辨率下的位置同高分辨率的位置对应起来;同理,表示同一分辨率下各部件之间的惩罚函数,其函数形式如下:
除了以上的得分函数外,本文还加了额外的限制,在相邻分辨率层间,高分辨率位置yj的取值只能在一个集合(Cj+2yj)内,实际上,这个集合对应着上一分辨率层对应的2yj位置的 (2m+1)邻域。
最后利用带隐变量的支持向量机学习模型参数w,在模型训练式,利用了由粗到精的推断思想来估计了带隐变量的支持向量机的隐变量:用真值检测中每个部分的位置来淘汰那些绝对为负的样本,以此来避免级练技术中由学习拒绝阈值带来的大计算量,实现算法速度的优化。
(4)实时行人检测:构建了一个用于算法实验的实时行人检测***,以该***为平台进行一系列针对性实验,***配置如下:
①硬件:处理器Intel(R)Core(TM)i3-2330MCPU2.20GHz;内存6GB;显卡4G;硬盘500G。
②软件:Ubuntu14.04操作***;Python2.7开发环境。
实验中使用的数据库是目前使用最多的静态行人检测数据库INRIA,其训练集有正样本 614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。并用时间和平均精度来表征算法的时间复杂度和精确度。
附图说明
图1本发明算法流程图
图2基于二值规范化梯度特征的搜索算法流程图
图3基于部分的行人分层模型示意图
图4整个滤波器组结构示意图
实验结果分析
利用INRIA行人数据集数据,在实验中搭建好的实时行人检测***中进行了测试,对训练和测试样本进行了基于二值规范化梯度特征的搜索,分别得到了其对应感兴趣区域,并利用训练样本的多分辨率梯度方向直方图特征对基于带隐变量的支持向量机的模型进行了训练。用训练好的模型对待测试样本的多分辨率梯度方向直方图特征进行检测,输出检测结果。在搜索阶段,测试了本发明和基于区域建议法的算法测试时间和平均精度。从表2可以看出,本发明的测试结果较基于区域建议法的算法测试结果快了近50ms,平均精度也有一定的提升。
表2搜索阶段,两种算法性能比较
在模型训练阶段,测试了本发明和基于动态规划推断策略的算法训练时间和平均精度如表3所示,显然,在保证一定平均精度的情况下,本发明的模型训练时间比基于动态规划推断策略快了一个数量级。
表3模型训练阶段,两种算法性能比较
Claims (3)
1.一种基于可形变部件模型的实时行人检测方法,其特征在于,包括感兴趣区域提取算法和检测模型构建算法。
所述感兴趣区域提取算法,用于提取出待检测样本中行人可能出现的区域;
所述检测模型构建算法,用于构建检测模型,以实现在感兴趣区域的特征空间中检测行人位置。
2.根据权利要求1所述的基于可形变部件模型的实时行人检测方法,其特征在于,利用基于二值规范化梯度特征的搜素策略替代区域建议法提取行人可能存在的区域,包括以下步骤:
步骤1:提取训练样本二值规范化梯度特征;
步骤2:在二值规范化梯度特征空间下用级联支持向量机对搜索模型进行训练,包括第一级支持向量机训练结束后对模型参数的二值化;
步骤3:提取测试样本二值规范化梯度特征;
步骤4:利用步骤2中训练好的搜索模型对待测样本进行搜索,提取出感兴趣区域。
3.一种如权利要求1所述的基于可形变部件模型的实时行人检测方法,其特征在于,对传统可形变部件模型进行耗时优化,包括以下步骤:
步骤1:提取训练样本的梯度方向直方图特征金字塔;
步骤2:基于梯度方向直方图特征空间,构造行人检测所需模型,包括量化梯度方向直方图空间、利用由粗到精的搜索推断算法替代动态规划找出根滤波器与部件滤波器的最优配置以及添加同级部件间的空间结构关系来保证算法鲁棒性;
步骤3:利用带隐含变量的支持向量机训练步骤2中得到的模型,其中,隐含变量定义为模型中各滤波器的空间位置;
步骤4:提取待测样本感兴趣区域的梯度方向直方图特征金字塔;
步骤5:利用步骤3所得检测模型检测待测样本中感兴趣区域中的行人位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710306669.7A CN107403132A (zh) | 2017-05-04 | 2017-05-04 | 一种基于可形变部件模型的实时行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710306669.7A CN107403132A (zh) | 2017-05-04 | 2017-05-04 | 一种基于可形变部件模型的实时行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107403132A true CN107403132A (zh) | 2017-11-28 |
Family
ID=60404386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710306669.7A Pending CN107403132A (zh) | 2017-05-04 | 2017-05-04 | 一种基于可形变部件模型的实时行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107403132A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710909A (zh) * | 2018-05-17 | 2018-10-26 | 南京汇川工业视觉技术开发有限公司 | 一种可变形旋转不变装箱物体清点方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130231769A1 (en) * | 2012-03-01 | 2013-09-05 | Taiwan Semiconductor Manufacturing Company, Ltd. | Defect Management Systems and Methods |
CN104200236A (zh) * | 2014-08-22 | 2014-12-10 | 浙江生辉照明有限公司 | 基于dpm的快速目标检测方法 |
CN105225226A (zh) * | 2015-09-02 | 2016-01-06 | 电子科技大学 | 一种基于图像分割的级联可变形部件模型目标检测方法 |
CN105373783A (zh) * | 2015-11-17 | 2016-03-02 | 高新兴科技集团股份有限公司 | 基于混合多尺度可变形部件模型的未系安全带检测方法 |
CN106022231A (zh) * | 2016-05-11 | 2016-10-12 | 浙江理工大学 | 一种基于多特征融合的行人快速检测的技术方法 |
-
2017
- 2017-05-04 CN CN201710306669.7A patent/CN107403132A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130231769A1 (en) * | 2012-03-01 | 2013-09-05 | Taiwan Semiconductor Manufacturing Company, Ltd. | Defect Management Systems and Methods |
CN104200236A (zh) * | 2014-08-22 | 2014-12-10 | 浙江生辉照明有限公司 | 基于dpm的快速目标检测方法 |
CN105225226A (zh) * | 2015-09-02 | 2016-01-06 | 电子科技大学 | 一种基于图像分割的级联可变形部件模型目标检测方法 |
CN105373783A (zh) * | 2015-11-17 | 2016-03-02 | 高新兴科技集团股份有限公司 | 基于混合多尺度可变形部件模型的未系安全带检测方法 |
CN106022231A (zh) * | 2016-05-11 | 2016-10-12 | 浙江理工大学 | 一种基于多特征融合的行人快速检测的技术方法 |
Non-Patent Citations (1)
Title |
---|
韦皓瀚等: "改进星型级联可形变部件模型的行人检测", 《中国图象图形学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710909A (zh) * | 2018-05-17 | 2018-10-26 | 南京汇川工业视觉技术开发有限公司 | 一种可变形旋转不变装箱物体清点方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Few-shot hyperspectral image classification with unknown classes using multitask deep learning | |
Wang et al. | Multiscale visual attention networks for object detection in VHR remote sensing images | |
Zalpour et al. | A new approach for oil tank detection using deep learning features with control false alarm rate in high-resolution satellite imagery | |
Xiao et al. | Airport detection based on a multiscale fusion feature for optical remote sensing images | |
Tian et al. | A dual neural network for object detection in UAV images | |
Huang et al. | An SVM ensemble approach combining spectral, structural, and semantic features for the classification of high-resolution remotely sensed imagery | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN105138993A (zh) | 建立人脸识别模型的方法及装置 | |
Cui et al. | Locality preserving genetic algorithms for spatial-spectral hyperspectral image classification | |
CN112949572A (zh) | 基于Slim-YOLOv3的口罩佩戴情况检测方法 | |
CN106778687A (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN108564040B (zh) | 一种基于深度卷积特征的指纹活性检测方法 | |
CN106373146A (zh) | 一种基于模糊学习的目标跟踪方法 | |
CN101364263A (zh) | 对图像进行皮肤纹理检测的方法及*** | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
Naghavi et al. | Integrated real-time object detection for self-driving vehicles | |
CN111325237B (zh) | 一种基于注意力交互机制的图像识别方法 | |
Sun et al. | Adaptive saliency biased loss for object detection in aerial images | |
CN102024149B (zh) | 物体检测的方法及层次型物体检测器中分类器的训练方法 | |
Ge et al. | Coarse-to-fine foraminifera image segmentation through 3D and deep features | |
Adiwinata et al. | Fish species recognition with faster r-cnn inception-v2 using qut fish dataset | |
CN115527269A (zh) | 一种人体姿态图像智能识别方法及*** | |
US10872225B2 (en) | Instantaneous search and comparison method for large-scale distributed palm vein micro-feature data | |
Sharma et al. | Deep convolutional neural network with ResNet-50 learning algorithm for copy-move forgery detection | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171128 |