CN111027493B - 一种基于深度学习多网络软融合的行人检测方法 - Google Patents

一种基于深度学习多网络软融合的行人检测方法 Download PDF

Info

Publication number
CN111027493B
CN111027493B CN201911284456.4A CN201911284456A CN111027493B CN 111027493 B CN111027493 B CN 111027493B CN 201911284456 A CN201911284456 A CN 201911284456A CN 111027493 B CN111027493 B CN 111027493B
Authority
CN
China
Prior art keywords
pedestrian
pedestrian candidate
image
semantic segmentation
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911284456.4A
Other languages
English (en)
Other versions
CN111027493A (zh
Inventor
袁国慧
叶涛
王卓然
彭真明
潘为年
柳杨
孙煜成
周宇
杨博文
张文超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911284456.4A priority Critical patent/CN111027493B/zh
Publication of CN111027493A publication Critical patent/CN111027493A/zh
Application granted granted Critical
Publication of CN111027493B publication Critical patent/CN111027493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习多网络软融合的行人检测方法,涉及图像处理、目标检测及深度学习技术领域;其包括S1:输入待处理图像;S2:将待处理图像输入一个以Darknet‑53为基础网络的YOLO v3行人候选区生成器中,生成行人候选区;S3:将待处理图像输入前端预测模块,输出C个特征图;S4:将C个特征图输入语义分割***,输出C个包含上下文信息的特征图;S5:将语义分割***的结果与行人候选区生成器产生的行人候选结果进行融合;S6:输出检测图像。本发明并行软融合行人候选区生成器和语义分割两个***,高效地检测各种挑战场景下的行人,同时提高了对小目标的检测能力。

Description

一种基于深度学习多网络软融合的行人检测方法
技术领域
本发明涉及图像处理、目标检测及深度学习技术领域,尤其是一种基于深度学习多网络软融合的行人检测方法。
背景技术
目标检测是计算机视觉中一个重要的问题,其需要在视频或数字图像中检测对象的位置。目标检测广泛应用于图像检测、目标识别、视频监控等领域。行人检测作为目标检测问题的一个分支,涉及到检测特定的人类类别,其在自动驾驶、人员识别、机器人等领域有着广泛的应用。
行人检测算法的目标是在图像或视频中绘制边界框,实时准确描述出行人的位置。然而,由于准确性和速度之间的权衡,这是很难实现的。因为低分辨率的输入可以实现快速的目标检测,但目标检测精确度较差;高分辨率的输入可以实现更精确的目标检测,但处理速度较慢。当处理相对简单的图像场景和清晰的前景物体时,一般行人检测算法己经可以取得良好的结果。但是当在一些特定的环境下,如拥挤的场景、非人为的物体遮挡、行人的不同外观(不同的姿势或服装风格)实时准确描述行人的位置更具有挑战性。
行人检测的主要可以分为生成区域提议、特征提取和行人确认三部分。传统的方法通常使用基于滑动窗口的技术来生成区域提议,梯度方向直方图(HOG)或尺度不变特征变换(SIFT)等作为特征提取器,支持向量机(SVM)或自适应增强(AdBoost)等作为行人确认方法;而随着深度学习的发展,其在行人检测中的应用也越来越多,主流方法分为两类:基于对象候选区域(Object Proposal Based)的方法和基于回归(Regression Based)的方法。基于对象候选区域的方法也称为二阶方法,其首先通过使用区域提议(RegionProposal)模块生成一组可能包含行人的候选边界框(Bounding Box),然后使用深度卷积神经网络对这些边界框进行分类和回归。在各种基于对象候选区域的行人检测方法中,主要是基于RCNN,Fast RCNN,Faster RCNN系列进行改进提升检测性能。基于回归的目标检测方法又称为一阶方法,和基于目标候选区域的方法相比,基于回归的行人检测方法要简单许多,其不需要进行候选区域提取和随后的重采样操作,同时在一定程度上可以实现实时检测,但是其检测性能低于二阶方法。在各种基于回归的行人检测方法中,主要是基于YOLO系列,SSD系列进行改进尽可能提升检测性能,实现实时高效的检测。
发明内容
本发明的目的在于:本发明提供了一种基于深度学习多网络软融合的行人检测方法,克服现有方法在面对行人检测准确性和速度之间的权衡下不能实现实时准确描述出行人位置的问题,在实现实时检测情况下能够提高检测能力。
本发明采用的技术方案如下:
一种基于深度学习多网络软融合的行人检测方法,包括如下步骤:
步骤1:输入待处理图像;
步骤2:将步骤1中的图像输入一个以Darknet-53为基础网络的YOLO v3行人候选区生成器中,生成行人候选区;
步骤3:将步骤1中的图像输入前端预测模块,输出C个特征图;
步骤4:将步骤3中的C个特征图输入语义分割***,输出C个包含上下文信息的二进制掩码特征图;
步骤5:将语义分割***的结果与行人候选区生成器产生的行人候选结果进行软融合;
步骤6:输出检测图像。
优选地,所述步骤2包括如下步骤:
步骤2.1、将输入图片划分为S×S个单元格,为每个单元格分配3个需要预测的行人候选区边界框,对YOLO v3进行训练,以获得每一个预测的行人候选区边界框所对应的坐标位置信息和置信度;
步骤2.2、在YOLOv3网络中融合3个尺度,在多个尺度的融合特征图上分别对行人独立做检测,得到行人候选区的坐标位置信息;
其次,利用K均值聚类算法对数据集聚类产生锚框的初始值,每个尺度下分配3个锚框,由于每个单元格预测3个行人候选区边界框,对应3个锚框,因此3个尺度下共9个锚框;
每个单元格输出(1+4+C)*3个值,4代表4个预测的定位信息、1代表1个置信度得分、3代表3个锚框和C代表C个条件类别概率,这里C=1,只有行人一类,所以共输出18个值;
采用逻辑回归对每个行人候选区的边界框坐标位置信息进行预测:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure GDA0002399116890000021
Figure GDA0002399116890000022
其中:σ是Sigmoid激活函数,(tx,ty,tw,th)为YOLO v3网络学习的4个预测的定位信息,pw,ph是预设先验框的宽、高,cx,cy为单元格的坐标偏移量,(bx,by,bw,bh)为最终预测的行人候选区边界框的坐标位置信息;
YOLO v3训练(tx,ty,tw,th)的目标损失函数由以下公式得到:
Figure GDA0002399116890000031
其中:λcoord和λnoobj为常数是用来平衡有物体的预测框与没有物体预测框的类别比例;t'x、t'y、t'w和t'h表示标签数值;
Figure GDA0002399116890000032
表示在第i个格点的第j个预测框,若对应的真正的对象(ground truth),则返回1,否则返回0;
Figure GDA0002399116890000033
表示在第i个格点的第j个预测框,若有分配对应的ground truth,则返回0,否则返回1,pi(c)为物体类别的概率,这里指是行人的概率,ci'为包含一个对象的概率与预测边界框和标签边界框交集IOU的乘积即
Figure GDA0002399116890000034
ci为预测边界框与标签边界框的交集IOU值即置信度;
步骤2.3、在YOLO v3训练过程中,增加YOLO v3原网络中的置信度接收范围即降低检测行人候选区的置信度阈值,生成大量的行人候选区,确保候选区覆盖待检测图像中所有的行人;其训练参数的具体设置如下:初始学习率设置为0.001,40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001,共50000个batch。
优选地,所述步骤3包括如下步骤:
步骤3.1、对VGG-16网络进行修改,将其中完全连接层转换成卷积层,删除VGG-16网络结构中倒数第二个和倒数第三个最大池化(Maxpool)和跨行层,从而得到前端预测模块,并使用原始分类网络的参数进行初始化训练后,输出更高分辨率的特征图;
步骤3.2、使用前端预测模块,待检测图像进行密集的预测,生成C个64×64初步的语义特征图。
优选地,所述步骤4包括如下步骤:
步骤4.1、利用聚合多尺度上下文信息构建语义分割***,语义分割***的输入为前端预测模块生成的C个64×64初步语义特征图,语义分割***共8层网络,前7层为基本的聚合多尺度上下文信息模块,对前7层分别应用不同扩张因子的3×3×C扩张卷积核进行特征提取,其中第1层上是直接进行卷积,第2到6层是分别使用不同的扩张因子进行扩张卷积,第7层直接进行卷积。每次卷积后都进行点截断max(·,0),以截断超出图像的部分,保持卷积前后图像大小相同。最后一层即第8层执行1×1的卷积。最后对语义分割***进行训练,以使语义分割***输出C个64×64精炼的语义特征图。
步骤4.2、扩张卷积聚合多尺度上下文信息,支持以指数方式扩展感受野,而不会丢失分辨率或覆盖率。其扩张区域的大小为(2i+2-1)×(2i+2-1),扩张因子为2i,感受野的大小为((2i+2-1)-(2i+1-2))×((2i+2-1)-(2i+1-2)),i=0,1,...,n-2表示第几次扩张;扩张过程中,当感受野的大小基本与输入大小一致时,即停止扩张,因此第2到6层的扩张因子大小分别为1、2、4、8和16,扩张后的感受野大小分别是5*5、9*9、17*17、33*33和65*65。
步骤4.3、将语义分割***和步骤3中的前端预测模块联合在Cityscapes数据集上进行训练,将Cityscapes数据集中的“person”和“rider”类都设置为行人,其余类都是背景。训练参数具体设置如下:采用随机梯度下降法(SGD),最小批量为14,初始学习率设置为0.001,40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001,共60000个batch。
优选地,所述步骤5的具体步骤为:
步骤5.1、将步骤4的语义特征图生成二进制掩码特征图,其中前景像素设置为1以表示感兴趣的类别(如行人),背景像素设置为0。
步骤5.2、将步骤2中行人候选区生成器生成的行人候选区边界框(bx,by,bw,bh)坐标位置信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行人核进行加权和计算,其计算方式如下:
Figure GDA0002399116890000041
SResult=SYOLOv3×Sss
其中:Sss表示该语义分割***输出的语义分割特征图结果是行人的得分;SYOLOv3表示行人候选区生成器输出行人候选区结果是行人的得分;SResult表示最终输出结果是行人的得分;ABB是边界框的面积;掩模mask(i,j)是在图像中(i,j)处的二进制掩码像素值;核Kernel(i,j)是在图像中(i,j)处的行人核。Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在边界框的中心相一致,Kernel有增强检测的效果,它的边界框适合感兴趣的对象(如,行人)。
步骤5.4、根据SResult得分高低,去除步骤2中行人候选区中错检行人的边界框,最终得到真正的行人检测框。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明由于利用YOLOv3作为行人候选区生成器产生大量的行人候选框有效提高了行人的检测精度;
2.本发明利用前端预测模块和语义分割对输入图像进行像素级的分类,避免了YOLOv3等回归框网络的粗略检测问题,从而提高了目标检测的能力,可有效地解决单一网络检测精度不够的问题;
3.本发明利用软融合对行人候选框和语义分割二值掩模进行融合,从而精细输出结果;同时,二者的组合使用,提升了对小目标的检测能力,可适用范围更广;
4.本发明将行人候选区生成器和语义分割两个***进行并行组网构成行人检测***框架,从而实现快速检测;该***能够准确、高效、鲁棒地检测各种挑战场景下的行人和其他目标类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的行人检测***流程图;
图2为本发明图1中行人候选生成器YOLOv3网络结构;
图3为本发明图2中的Bounding Box坐标转换公式图;
图4为本发明图1中前端预测模块基础网络VGG-16网络结构;
图5为本发明图1中语义分割***中第0次扩张的卷积结构;
图6为本发明图1中语义分割***中第1次扩张的卷积结构;
图7为本发明图1中软融合的结果图;
图8为本发明图1中语义分割***中上下文网络体系结构。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
一种基于深度学习多网络软融合的行人检测方法,实施方式的流程图如图1所示,由行人候选区提取和行人语义分割两个并行运算部分组成,其中语义分割细化整个***的最终行人检测结果,***运算速度取决于处理慢的分支,最后通过软融合的方式将两部分结果进行融合输出。具体包括如下步骤:
步骤1:输入待处理图像。
步骤2:将步骤1中的图像输入一个以图2的Darknet-53为基础网络的YOLOv3行人候选区生成器中,生成行人候选区。
进一步,所述步骤2中的YOLOv3具体实施步骤如下:
步骤2.1、首先,在YOLOv3网络中融合3个尺度(13*13、26*26和52*52),在多个尺度的融合特征图上分别独立做检测,增强对小目标的检测效果。其次,利用K-means聚类算法对数据集聚类产生Anchor Box(锚框)的初始值,每个尺度下分配3个Anchor Box,每个单元格预测3个Bounding Box(边界框),对应3个Anchor Box,每个单元格输出(1+4+C)*3个值(4个定位信息、1个置信度得分和C个条件类别概率)。最后,经过如下公式对4维位置数值tx,ty,tw,th进行解码,如图3所示,得到预测框的中心点坐标(x,y)与宽高(w,h):
bx=σ(tx)+cx
by=σ(ty)+cy
Figure GDA0002399116890000071
Figure GDA0002399116890000072
其中:σ(tx),σ(ty)是基于矩形框中心点左上角格点坐标的偏移量,σ是Sigmoid激活函数,pw,ph是先验框的宽、高,通过上述公式,计算出实际预测框的宽高bw,bh
YOLO v3的多任务训练目标损失函数由以下公式得到:
Figure GDA0002399116890000073
其中:λ用来平衡有物体的预测框与没有物体预测框的类别比例;t'x、t'y、t'w和t'h表示标签数值;
Figure GDA0002399116890000074
表示在第i个格点的第j个预测框,若对应的ground truth,则返回1,否则返回0;
Figure GDA0002399116890000075
表示在第i个格点的第j个预测框,若有分配对应的ground truth,则返回0,否则返回1。
步骤2.2、利用每个行人候选区都是与其定位框坐标和置信度评分相关联的特点,首先降低YOLO v3检测候选区的置信度阈值,然后生成大量的候选区,最终检测所有真正的行人。
步骤2.3、首先,加载在ImageNet上训练得到的预训练摸型Darknet-53,删除原始分类器,接着,在Cityscapes数据集上进行微调训练,训练过程中使用Adam优化器,训练模型时,采用水平翻转、调整角度、曝光度、色调及饱和度等数据增强的方式来扩大模型训练样本,增强模型的泛化性能,降低过拟合。初始学习率设置为0.001,40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001。
步骤3:将步骤1中的图像输入前端预测模块,输出C个特征图。
进一步,所述步骤3的具体步骤如下:
步骤3.1、将VGG-16中完全连接层转换成卷积层,删除VGG-16网络结构中倒数第二个和倒数第三个Maxpool和跨行层。具体地,Maxpool层和跨行层中的每一层都被移除,对于每个被删除的层,其后所有层中的卷积都被放大2倍,且后面的所有层中的卷积对于每个被删除的层都被放大了2倍。因此,在两个删除层之后的最终层中的卷积被扩大了4倍,并使用原始分类网络的参数进行初始化,产生更高分辨率的输出。最后以64×64的分辨率生成特征图。
步骤3.2、对图4中的VGG-16网络结构进行调整得到前端预测模块,以进行密集的预测。
步骤4:将步骤3中的C个特征图输入语义分割***,输出C个包含上下文信息的特征图。
进一步,所述步骤4的具体步骤如下:
步骤4.1、利用聚合多尺度上下文信息构建语义分割***,语义分割***的输入为前端预测模块生成的C个64×64初步语义特征图,语义分割***共8层网络,其网络结构形式如图8所示,前7层为基本的聚合多尺度上下文信息模块,对前7层分别应用不同扩张因子的3×3×C扩张卷积核进行特征提取,其中第1层上是直接进行卷积,第2到6层是分别使用不同的扩张因子进行扩张卷积,第7层直接进行卷积。每次卷积后都进行点截断max(·,0),以截断超出图像的部分,保持卷积前后图像大小相同。最后一层即第8层执行1×1的卷积。最后对语义分割***进行训练,以使语义分割***输出C个64×64精炼的语义特征图。
步骤4.2、扩张卷积聚合多尺度上下文信息,如图4和5所示,支持以指数方式扩展感受野,而不会丢失分辨率或覆盖率。其扩张区域的大小为(2i+2-1×)(2i+2-1),扩张因子为2i,感受野的大小为((2i+2-1-)(2i+1-2×))((2i+2-1-)(2i+1-2)),i=0,1,...,n-2表示第几次扩张;扩张过程中,当感受野的大小基本与输入大小一致时,即停止扩张,因此第2到6层的扩张因子大小分别为1、2、4、8和16,扩张后的感受野大小分别是5*5、9*9、17*17、33*33和65*65。
步骤4.3、将语义分割***和步骤3中的前端预测模块联合在Cityscapes数据集上进行训练,将Cityscapes数据集中的“person”和“rider”类都设置为行人,其余类都是背景。训练参数具体设置如下:采用随机梯度下降法(SGD),最小批量为14,初始学习率设置为0.001,40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001,共60000个batch。步骤5:将语义分割***的结果与行人候选区生成器产生的行人候选结果进行融合。
进一步,所述步骤5的具体步骤如下:
步骤5.1、将步骤4的语义特征图生成二进制掩码特征图,其中前景像素设置为1以表示感兴趣的类别(如行人),背景像素设置为0。
步骤5.2、将步骤2中行人候选区生成器生成的行人候选区边界框(bx,by,bw,bh)坐标位置信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行人核进行加权和计算,其计算方式如下:
Figure GDA0002399116890000091
SResult=SYOLOv3×Sss
其中:Sss表示该语义分割***输出的语义分割特征图结果是行人的得分;SYOLOv3表示行人候选区生成器输出行人候选区结果是行人的得分;SResult表示最终输出结果是行人的得分;ABB是边界框的面积;掩模mask(i,j)是在图像中(i,j)处的二进制掩码像素值;核Kernel(i,j)是在图像中(i,j)处的行人核。Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在边界框的中心相一致,Kernel有增强检测的效果,它的边界框适合感兴趣的对象(如,行人)。
步骤5.4、根据SResult得分高低,去除步骤2中行人候选区中错检行人的边界框,最终得到真正的行人检测框。
步骤6:输出检测图像。
本发明中,行人检测***利用YOLOv3作为行人候选区生成器产生大量的行人候选框有效提高了行人的检测精度;利用前端预测模块和语义分割对输入图像进行像素级的分类,避免了YOLOv3等回归框网络的粗略检测问题,从而提高了目标检测的能力,可有效地解决单一网络检测精度不够的问题;利用软融合对行人候选框和语义分割二值掩模进行融合,从而精细输出结果;同时,二者的组合使用,提升了对小目标的检测能力,可适用范围更广;将行人候选区生成器和语义分割两个***进行并行组网构成行人检测***框架,从而实现快速检测;该***能够准确、高效、鲁棒地检测各种挑战场景下的行人和其他目标类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习多网络软融合的行人检测方法,其特征在于:包括如下步骤:
步骤 1:输入待处理图像;
步骤 2:将步骤 1 中的图像输入一个以 Darknet-53 为基础网络的 YOLO v3 行人候选区生成器中,生成行人候选区;
步骤 3:将步骤 1 中的图像输入前端预测模块进行密集预测,输出 C 个更高分辨率的特征图;
步骤 4:将步骤 3 中的 C 个特征图输入语义分割***,输出 C 个包含上下文信息的二进制掩码特征图;
步骤 5:将语义分割***的结果与行人候选区生成器产生的行人候选结果进行软融合;
步骤 6:输出检测图像;
所述步骤 3 包括如下步骤:
步骤 3.1、对 VGG-16 网络进行修改,将其中完全连接层转换成卷积层,删除 VGG-16网络结构中倒数第二个和倒数第三个最大池化和跨行层,从而得到前端预测模块,并使用原始分类网络的参数进行初始化训练后,输出更高分辨率的特征图;
步骤 3.2、使用前端预测模块,对待检测图像进行密集的预测,生成 C 个 64×64 初步的语义特征图。
2.根据权利要求1所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤 2 中的 YOLO v3 行人候选区生成器生成行人候选区包括如下步骤:
步骤 2.1、将输入图片划分为 S×S 个单元格,为每个单元格分配 3 个需要预测的行人候选区边界框,对 YOLO v3 进行训练,以获得图片中每一个预测的行人候选区边界框所对应的坐标位置信息和置信度;
步骤 2.2、在 YOLOv3 网络中融合 3 个尺度,分别为从第一层跨 32、16、8 步层上,在多个尺度的融合特征图上分别对行人独立做检测,得到行人候选区的坐标位置信息;
其次,利用 K 均值聚类算法对数据集聚类产生锚框的初始值,每个尺度下分配 3 个锚框,由于每个单元格预测 3 个行人候选区边界框,对应 3 个锚框,因此 3 个尺度下共9 个锚框;
每个单元格输出(1+4+C)*3 个值,4 代表 4 个预测的定位信息、1 代表 1 个置信度得分、3 代表 3 个锚框和 C 代表 C 个条件类别概率,这里 C=1,只有行人一类,所以共输出 18 个值;采用逻辑回归对每个行人候选区的边界框坐标位置信息进行预测 :
Figure DEST_PATH_IMAGE002
其中:
Figure DEST_PATH_IMAGE004
是 Sigmoid 激活函数,
Figure DEST_PATH_IMAGE006
为 YOLO v3 网络学习的 4 个预测的定位信息,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
是预设先验框的宽、高,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
为单元格的坐标偏移量,
Figure DEST_PATH_IMAGE016
为最终预测的行人候选区边界框的坐标位置信息;
步骤 2.3、在 YOLO v3 训练过程中,增加 YOLO v3 原网络中的置信度接收范围即降低检测行人候选区的置信度阈值,生成大量的行人候选区,使得候选区覆盖待检测图像中所有的行人。
3.根据权利要求 1所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤 4 中的语义分割***包括如下步骤:
步骤 4.1、利用聚合多尺度上下文信息构建语义分割***,语义分割***的输入为前端预测模块生成的 C 个 64×64 初步语义特征图,语义分割***共 8 层网络,前 7 层为基本的聚合多尺度上下文信息模块,对前 7 层分别应用不同扩张因子的 3×3×C 扩张卷积核进行特征提取,其中第 1 层上是直接进行卷积,第 2 到 6 层是分别使用不同的扩张因子进行扩张卷积,第 7 层直接进行卷积,每次卷积后都进行点截断 max(·,0),以截断超出图像的部分,保持卷积前后图像大小相同,最后一层即第 8 层执行 1×1 的卷积,最后对语义分割***进行训练,以使语义分割***输出 C 个 64×64 精炼的语义特征图;
步骤 4.2、扩张卷积聚合多尺度上下文信息,支持以指数方式扩展感受野,而不会丢失分辨率或覆盖率,其扩张区域的大小为
Figure DEST_PATH_IMAGE018
,扩张因子为
Figure DEST_PATH_IMAGE020
,感受野的大小为
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
表示第几次扩张;扩张过程中,当感受野的大小基本与输入大小一致时,即停止扩张,因此第 2 到 6层的扩张因子大小分别为 1、2、4、8 和 16,扩张后的感受野大小分别是 5*5、9*9、17*17、33*33 和 65*65;
步骤 4.3、将语义分割***和步骤 3 中的前端预测模块联合在 Cityscapes 数据集上进行训练,将 Cityscapes 数据集中的“person”和“rider”类都设置为行人,其余类都是背景,输出C 个包含上下文信息的二进制掩码特征图。
4.根据权利要求 1-3 任一所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤 5 的软融合具体步骤为:
步骤 5.1、将步骤 4 的语义特征图生成二进制掩码特征图,其中前景像素设置为 1以表示3感兴趣的类别,背景像素设置为 0;
步骤 5.2、将步骤 2 中行人候选区生成器生成的行人候选区边界框
Figure DEST_PATH_IMAGE026
坐标位置信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤 5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行人核进行加权和计算,其计算方式如下:
Figure DEST_PATH_IMAGE028
其中:
Figure DEST_PATH_IMAGE030
表示语义分割***输出的语义分割特征图结果是行人的得分;
Figure DEST_PATH_IMAGE032
表示行人候选区生成器输出行人候选区结果是行人的得分;
Figure DEST_PATH_IMAGE034
表示最终输出结果是行人的得分;
Figure DEST_PATH_IMAGE036
是边界框的面积;掩模
Figure DEST_PATH_IMAGE038
是在图像中
Figure DEST_PATH_IMAGE040
处的二进制掩码像素值;核
Figure DEST_PATH_IMAGE042
是在图像中
Figure DEST_PATH_IMAGE044
处的行人核,Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在边界框的中心相一致, Kernel 有增强检测的效果,它的边界框适合感兴趣的对象;
步骤 5.4、根据 r 得分高低,去除步骤 2 中行人候选区中错检行人的边界框,最终得到真正的行人检测框。
CN201911284456.4A 2019-12-13 2019-12-13 一种基于深度学习多网络软融合的行人检测方法 Active CN111027493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284456.4A CN111027493B (zh) 2019-12-13 2019-12-13 一种基于深度学习多网络软融合的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284456.4A CN111027493B (zh) 2019-12-13 2019-12-13 一种基于深度学习多网络软融合的行人检测方法

Publications (2)

Publication Number Publication Date
CN111027493A CN111027493A (zh) 2020-04-17
CN111027493B true CN111027493B (zh) 2022-05-20

Family

ID=70208997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284456.4A Active CN111027493B (zh) 2019-12-13 2019-12-13 一种基于深度学习多网络软融合的行人检测方法

Country Status (1)

Country Link
CN (1) CN111027493B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626156B (zh) * 2020-05-14 2023-05-09 电子科技大学 一种基于行人掩模和多尺度判别的行人生成方法
CN111860160B (zh) * 2020-06-16 2023-12-12 国能信控互联技术有限公司 一种室内检测口罩佩戴的方法
CN111783784A (zh) * 2020-06-30 2020-10-16 创新奇智(合肥)科技有限公司 建筑的空洞检测方法及装置、电子设备、存储介质
CN111931729B (zh) * 2020-09-23 2021-01-08 平安国际智慧城市科技股份有限公司 基于人工智能的行人检测方法、装置、设备及介质
CN112329660B (zh) * 2020-11-10 2024-05-24 浙江商汤科技开发有限公司 一种场景识别方法、装置、智能设备及存储介质
CN112633086B (zh) * 2020-12-09 2024-01-26 西安电子科技大学 基于多任务EfficientDet的近红外行人监测方法、***、介质、设备
CN112507904B (zh) * 2020-12-15 2022-06-03 重庆邮电大学 一种基于多尺度特征的教室人体姿态实时检测方法
CN112668560B (zh) * 2021-03-16 2021-07-30 中国矿业大学(北京) 一种人流密集区域行人检测方法及***
CN112966697B (zh) * 2021-03-17 2022-03-11 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN113011389B (zh) * 2021-04-23 2022-07-26 电子科技大学 一种基于聚类思想的道路行人小目标检测方法
CN113536985B (zh) * 2021-06-29 2024-05-31 中国铁道科学研究院集团有限公司电子计算技术研究所 基于景深注意力网络的客流分布统计方法及装置
CN114005268A (zh) * 2021-10-21 2022-02-01 广州通达汽车电气股份有限公司 一种公交车区间调度方法、装置、设备及存储介质
CN116602663B (zh) * 2023-06-02 2023-12-15 深圳市震有智联科技有限公司 一种基于毫米波雷达的智能监测方法及***
CN117475389B (zh) * 2023-12-27 2024-03-15 山东海润数聚科技有限公司 一种人行横道信号灯的控制方法、***、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN108875595A (zh) * 2018-05-29 2018-11-23 重庆大学 一种基于深度学习和多层特征融合的驾驶场景目标检测方法
CN109063559A (zh) * 2018-06-28 2018-12-21 东南大学 一种基于改良区域回归的行人检测方法
CN109508710A (zh) * 2018-10-23 2019-03-22 东华大学 基于改进YOLOv3网络的无人车夜间环境感知方法
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416327B (zh) * 2018-03-28 2022-04-29 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN108960340B (zh) * 2018-07-23 2021-08-31 电子科技大学 卷积神经网络压缩方法及人脸检测方法
CN109816100B (zh) * 2019-01-30 2020-09-01 中科人工智能创新技术研究院(青岛)有限公司 一种基于双向融合网络的显著性物体检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN108875595A (zh) * 2018-05-29 2018-11-23 重庆大学 一种基于深度学习和多层特征融合的驾驶场景目标检测方法
CN109063559A (zh) * 2018-06-28 2018-12-21 东南大学 一种基于改良区域回归的行人检测方法
CN109508710A (zh) * 2018-10-23 2019-03-22 东华大学 基于改进YOLOv3网络的无人车夜间环境感知方法
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
寇大磊 ; 权冀川 ; 张仲伟.基于深度学习的目标检测框架进展研究.《计算机工程与应用》.2019, *

Also Published As

Publication number Publication date
CN111027493A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN112396002A (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
JP2006209755A (ja) シーンから取得されたフレームシーケンス中の移動オブジェクトを追跡する方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
WO2020077940A1 (en) Method and device for automatic identification of labels of image
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN112381030B (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN111553414A (zh) 一种基于改进Faster R-CNN的车内遗失物体检测方法
CN114998595B (zh) 弱监督语义分割方法、语义分割方法及可读存储介质
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN114882423A (zh) 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法
Ren et al. Research on infrared small target segmentation algorithm based on improved mask R-CNN
CN111931572B (zh) 一种遥感影像的目标检测方法
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN116245843A (zh) 基于YOLOv5框架的车漆缺陷检测与分割一体化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant