CN110569757A - 基于深度学习的多姿态行人检测方法及计算机存储介质 - Google Patents
基于深度学习的多姿态行人检测方法及计算机存储介质 Download PDFInfo
- Publication number
- CN110569757A CN110569757A CN201910792451.6A CN201910792451A CN110569757A CN 110569757 A CN110569757 A CN 110569757A CN 201910792451 A CN201910792451 A CN 201910792451A CN 110569757 A CN110569757 A CN 110569757A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- postures
- training
- posture
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的多姿态行人检测方法及计算机存储介质,方法包括以下步骤:S1、定义多种行人姿态,生成多姿态行人目标的数据集;S2、将数据集按照不同行人姿态进行分类,并将不同行人姿态的数据集分别分为训练集和测试集两部分;S3、将所有行人姿态的训练集合并为一个总训练集进行训练,得到训练模型;S4、使用训练模型对不同行人姿态的测试集分别进行测试;S5、根据测试结果进行行人检测。根据本发明实施例的方法,通过将行人不同姿态进行分类,可以有效对行人的不同姿态进行检测,在一定程度上提高了复杂环境下不同姿态行人的检测准确率。
Description
技术领域
本发明涉及目标检测领域,更具体地,涉及一种基于深度学习的多姿态行人检测方法及计算机存储介质。
背景技术
行人是非刚性目标,现实中很多复杂场景中往往存在多模态的行人目标,如坐着,站着,躺着,蹲着等,即使是同一目标在不同时刻运动姿态也不一样,而且随着观察视角不同,看到的行人形状也会不同。行人检测作为目标检测的一个分支,是行人再识别,行人跟踪的前提和基础,主要任务是将行人从输入数据中检测出来,并确定行人在输入数据中的位置,被广泛应用在智能视频监控、人机交互、汽车辅助驾驶等领域,具有良好的发展潜力和潜在的使用价值。目前学术界在目标检测方面做了大量研究,现有的行人目标检测算法主要集中在以下几个方面:
1、基于机器学习的行人检测研究:基于机器学习的行人检测先提取诸如Haar、HOG等图像特征,然后使用分类器进行分类;
2、基于深度学习的行人目标检测研究:通过构建一种类似于人脑结构的深度神经网络,对输入的图像等数据进行深刻分析,已经在图像识别和语音识别方面取得令人瞩目的成果,深度学习目标检测主要包括基于候选区域分类方法和基于回归的检测算法。
其中,为了使目标检测算法可以应用到视频中进行实时检测,需要在保证准确率的前提下,继续提高单张图片的目标检测速度。于是就有了一阶段目标检测算法YOLO和SSD,它们将目标检测问题转化为回归问题,大大提高了检测速度。YOLO(You Only LookOnce)把目标判定和目标识别合二为一,在识别性能有了很大提升,达到45帧/每秒,但是YOLO对小目标漏检较多,同时它的Loss函数对不同大小的bbox未做区分,因此较Faster-rcnn精度略低。
SSD是在YOLO上的改进,SSD结合了YOLO中的回归思想和Faster R-CNN中的anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测跟Faster R-CNN一样比较精准。不像YOLO只使用最后一层进行分类和回归,SSD把前面几乎所有的层都输出到后面进行一个分类和回归预测,在VOC2007上mAP可以达到72.1%,速度在GPU上达到58帧每秒,它的性能让我们看到了目标检测在实际应用中真正的可能性,所以被广泛使用。
行人检测作为目标检测的一个分支,基于深度学习的行人检测算法大多都是在目标检测算法的基础上进行改进,进而实现行人检测任务。
现有检测方法并没有专门考虑目标姿态多样性,尺度多样性来设计网络,由于行人目标的活跃性和随机性,实际场景中经常会出现一张图片同时有很多行人目标的姿态形状各不相同,导致提取特征时,特征的差异性大,从而使得分类器对当前目标是否为行人的判断增加了难度,导致行人检测算法检测精度不高。行人目标检测主要难度在于:
1、低分辨率:行人目标可能距离观测点很远,目标的分辨率很小。
2、图片质量不稳定:由于光照、天气、拍摄质量的问题,拍摄的图片可能存在模糊、曝光、暗淡、噪声等问题,导致算法检测效果不稳定。
3、非刚性形变:人是非刚性目标,会发生基于关节进行局部部件旋转等运动。例如人处在站立和走路两种状态时,行人四肢由于局部运动使得图像的外观特征变化很大,但躯体和头部基本特征不变。在检测的过程中,我们既要考虑目标各部件的外观特征,又要考虑各部件位置关系,增加了检测模型的复杂度。
4、多角度:除了非刚性形变,在成像过程中目标还存在拍摄角度不同引起的外观变化,也可解释为3D场景中旋转引起的有差别的2D投影。检测此类目标时既要考虑同类目标的共性,也要考虑由于立体旋转带来的差别。
5、遮挡:简单场景中各类目标位置相对稀疏,各目标之间很少相互影响,可独立检测,但是在实际应用场景中,目标之间在空间位置上交叉重叠是非常常见的,由于遮挡会发生在目标的不同局部区域,如何预测可能发生的遮挡或利用上下文信息补偿遮挡区域带来的损失,从而降低因遮挡引起的精度损失是当前研究的难点之一。
发明内容
有鉴于此,本发明提供一种基于深度学习的多姿态行人检测方法及计算机存储介质,能够有效提高不同姿态行人的检测准确率。
为解决上述技术问题,一方面,本发明提供一种基于深度学习的多姿态行人检测方法,包括以下步骤:S1、定义多种行人姿态,生成多姿态行人目标的数据集;S2、将所述数据集按照不同行人姿态进行分类,并将不同行人姿态的所述数据集分别分为训练集和测试集两部分;S3、将所有行人姿态的所述训练集合并为一个总训练集进行训练,得到训练模型;S4、使用所述训练模型对不同行人姿态的所述测试集分别进行测试;S5、根据测试结果进行行人检测。
根据本发明实施例的基于深度学习的多姿态行人检测方法,通过预先定义多种行人姿态,将多姿态行人目标构成的数据集进行分类后再进行训练和测试,最终根据测试结果可以进行行人的检测,该检测方法通过将行人不同姿态进行分类,可以有效对行人的不同姿态进行检测,在一定程度上提高了复杂环境下不同姿态行人的检测准确率。
根据本发明的一些实施例,在步骤S1中,所述行人姿态包括弯曲姿态、跪姿、躺姿、坐姿、站姿和遮挡姿态,所述弯曲姿态定义为行人身体的至少一部分成弯曲状态,所述跪姿定义为行人的至少一个膝盖接触其他物体;所述躺姿定义为行人成水平姿态;所述坐姿定义为行人的臀部接触其他物体;所述站姿定义为行人身体没有弯曲的站立;所述遮挡姿态定义为只能显示行人身体的一部分。
根据本发明的一些实施例,在步骤S3中,将所述总训练集置于网络中进行训练,得到所述训练模型。
根据本发明的一些实施例,所述总训练集在网络中训练的步骤包括:S31、获取所述总训练集中的多姿态行人样本;S32、使用全卷积网络对所述多姿态行人样本进行特征提取;S33、对步骤S32提取到的特征进行特征再提取;S34、同时使用基于锚点的特征选择分支和无锚点的特征选择分支预测目标边框;S35、使用非极大值抑制去掉冗余目标边框,得到所述训练模型。
根据本发明的一些实施例,在步骤S32中,所述全卷积网络的主干网络VGG为双支路操作以对所述多姿态行人样本进行特征提取。
根据本发明的一些实施例,在步骤S33中,使用特征再提取模块对步骤S32提取到的所述特征进行特征再提取。
根据本发明的一些实施例,所述特征再提取模块包括两条支路,一条支路经过步长为1,输出通道数为128的1*1卷积进行通道压缩,通过一个3*3卷积层学习偏移量,接着卷积核大小为3*3的可变形卷积,针对几何变形对空间采样位置进行位移调整,进行特征提取,接着使用1*1卷积恢复通道数;另一条支路使用步长为1,输出通道数为256的1*1卷积来调整通道数,使其和一条支路保持一致;通过元素对应相加的方式将两条支路进行整合。
根据本发明的一些实施例,在步骤S34中,无锚点的特征选择分支添加FSAF模块用于进行该特征图水平的无锚框特征选择。
根据本发明的一些实施例,所述FSAF模块在每个提取到的特征后面引入两个额外的卷积层,以用于在无锚点的特征选择分支中预测分类与回归。
根据本发明的一些实施例,步骤S4还包括:结合测试结果,针对检测精度值低于预设精度值的行人姿态,根据其空间分布以及样本特点对网络进行调整。
第二方面,本发明实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。
附图说明
图1为本发明实施例的基于深度学习的多姿态行人检测方法的流程图;
图2为本发明实施例的总训练集在网络中训练的流程图;
图3为本发明实施例的网络训练的网络结构图;
图4为本发明实施例中特征再提取模块的示意图;
图5为本发明实施例的电子设备的示意图。
附图标记:
电子设备300;
存储器310;操作***311;应用程序312;
处理器320;网络接口330;输入设备340;硬盘350;显示设备360。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
下面首先结合附图具体描述根据本发明实施例的基于深度学习的多姿态行人检测方法。
如图1所示,根据本发明实施例的基于深度学习的多姿态行人检测方法包括以下步骤:
S1、定义多种行人姿态,生成多姿态行人目标的数据集。
S2、将所述数据集按照不同行人姿态进行分类,并将不同行人姿态的所述数据集分别分为训练集和测试集两部分。
S3、将所有行人姿态的所述训练集合并为一个总训练集进行训练,得到训练模型。
S4、使用所述训练模型对不同行人姿态的所述测试集分别进行测试。
S5、根据测试结果进行行人检测。
换言之,根据本发明实施例的基于深度学习的多姿态行人检测方法是针对行人姿态多样性的特点,在一阶段目标检测器SSD的基础上进行改进的。该方法在对行人进行检测之前,首先将行人可能会出现的多种不同姿态进行定义,并准备多姿态行人目标的数据集,即包含了多种不同行人姿态的数据集,然后,根据不同行人姿态将该数据集分为训练集和测试集两部分,即每种行人姿态的数据集均被分为训练集和测试集。随后,将所有种类行人姿态的训练集合并到一起,形成一个总训练集进行训练,再根据训练得到的训练模型对不同行人姿态的测试集分别进行测试,最后,根据测试的结果,即可对行人进行检测。
由此,根据本发明实施例的基于深度学习的多姿态行人检测方法,通过预先定义多种行人姿态,将多姿态行人目标构成的数据集进行分类后再进行训练和测试,最终根据测试结果可以进行行人的检测,该检测方法通过将行人不同姿态进行分类,可以有效对行人的不同姿态进行检测,在一定程度上提高了复杂环境下不同姿态行人的检测准确率。
根据本发明的一个实施例,在步骤S1中,所述行人姿态包括弯曲姿态、跪姿、躺姿、坐姿、站姿和遮挡姿态。
具体地,所述弯曲姿态定义为行人身体的至少一部分成弯曲状态,所述跪姿定义为行人的至少一个膝盖接触其他物体,所述躺姿定义为行人成水平姿态,所述坐姿定义为行人的臀部接触其他物体,所述站姿定义为行人身体没有弯曲的站立,所述遮挡姿态定义为只能显示行人身体的一部分。
也就是说,在对行人姿态进行定义时,选取行人最常见的六种姿态进行定义,六种姿态分别为弯曲、跪着、躺着、坐着、直立、遮挡的姿态,具体姿态类型以及描述如表1所示。
表1六种行人姿态的描述
由此,通过对行人最常见的六种姿态进行定义,基本涵盖了行人目标在被检测时可能正在进行的动作,能够有效解决行人目标非刚性形变产生的姿态多样性导致类内差异大,以及多角度拍摄导致的目标外观发生变化的问题。
在本发明的一些具体实施方式中,在步骤S3中,将所述总训练集置于网络中进行训练,得到所述训练模型。
进一步地,所述总训练集在网络中训练的步骤包括:
S31、获取所述总训练集中的多姿态行人样本。
S32、使用全卷积网络对所述多姿态行人样本进行特征提取。
S33、对步骤S32提取到的特征进行特征再提取。
S34、同时使用基于锚点的特征选择分支和无锚点的特征选择分支预测目标边框。
S35、使用非极大值抑制去掉冗余目标边框,得到所述训练模型。
其中,在步骤S32中,所述全卷积网络的主干网络VGG为双支路操作以对所述多姿态行人样本进行特征提取。在步骤S33中,使用特征再提取模块对步骤S32提取到的所述特征进行特征再提取。
在本发明的一些具体实施方案中,所述特征再提取模块包括两条支路,一条支路经过步长为1,输出通道数为128的1*1卷积进行通道压缩,通过一个3*3卷积层学习偏移量,接着卷积核大小为3*3的可变形卷积,针对几何变形对空间采样位置进行位移调整,进行特征提取,接着使用1*1卷积恢复通道数;另一条支路使用步长为1,输出通道数为256的1*1卷积来调整通道数,使其和一条支路保持一致;通过元素对应相加的方式将两条支路进行整合。
优选地,在步骤S34中,无锚点的特征选择分支添加FSAF模块用于进行该特征图水平的无锚框特征选择。
进一步地,所述FSAF模块在每个提取到的特征后面引入两个额外的卷积层,以用于在无锚点的特征选择分支中预测分类与回归。
也就是说,在本发明实施例的基于深度学习的多姿态行人检测方法中,对总训练集进行训练的方式为在网络中进行训练,其具体的网络训练流程如图2所示,首先使用全卷积网络进行特征提取,然后对提取的特征使用特征再提取模块进行特征再提取,使得网络可以充分学习到目标的信息,最后同时使用基于锚点的特征选择分支和无锚点的特征选择分支预测目标边框,接着使用非极大值抑制去掉冗余目标边框。
该网络训练流程具体的网络结构设计如下:
将主干网络VGG第一个下采样操作替换成如图3所示的双支路操作,在不增加计算复杂度的同时,有效提高特征表达能力。在SSD特征提取层后面使用如图4所示的特征再提取模块进行特征再提取,该模块分为两条支路,一支先经过步长为1,输出通道数为128的1*1卷积进行通道压缩,然后通过一个3*3卷积层学习偏移量接着卷积核大小为3*3的可变形卷积,针对几何变形对空间采样位置进行位移调整,进行特征提取,接着使用1*1卷积恢复通道数;另一支使用步长为1,输出通道数为256的1*1卷积来调整通道数,使其和另一条路保持一致;随后通过元素对应相加的方式将两条支路进行整合。
考虑到行人目标的姿态多样性,目标的尺寸大小以及宽高比无法确定,在本发明实施例的基于深度学***的无锚框特征选择,目的是使每个实例可以根据目标内容自由地选择最佳级别的特性进行优化网络,而不是像基于锚点的方法那样采用边界框的大小来分配层级。该模块在每个提取的特征后面引入两个额外的卷积层,分别用于在无锚点分支中预测分类与回归。
具体地说,无锚点分支中分类通过一个3*3卷积紧接着一个sigmoid函数来实现,无锚点分支中回归通过一个3*3卷积层紧接着relu层来实现。其中用于分类的卷积层输出通道数为k(k表示目标类别数),接着损失函数focal loss;用于回归的卷积层输出通道数为4(表示坐标偏移量),接着损失函数IOU loss。
另一条支路进行有锚框的特征选择,同样该支路也包括分类和回归子网络,分类子网络中卷积层输出的通道数为A*k(k是指目标类别,A是预设值锚框的数量),回归子网络中卷积层输出通道数为4*k,这种基于锚点的的特征选择与基于无锚点的特征选择相互结合使用,可以更好地发现具有挑战性的目标。
其中需要说明的是,目前对于行人的检测主要是针对直立的行人目标进行检测,并没有专门针对行人目标的姿态多样性以及不同拍摄角度导致目标形变和目标尺度多样性进行设计网络,所以只适合于单一场景中目标姿态单一的情况,对于同时包含多种不同姿态目标的复杂场景,容易产生误检和漏检,检测的结果并不理想。根据本发明实施例的基于深度学习的多姿态行人检测方法,在特征再提取模块使用可变形卷积,对空间采样位置进行调整,更加适应几何变化多样性的多姿态行人目标,同时使用无锚框和基于锚框两种特征选择方式联合产生目标边框,使不同尺度的目标可以适配各层感受野和空间信息,从而能检测器可以提高对不同尺度和不同形变的目标的检测准确率。
由此,根据本发明实施例的基于深度学习的多姿态行人检测方法,通过对提取的特征使用特征再提取模块进一步提取特征,可以提取更多有效的特征信息。其中可变性卷积通过改变空间采样位置来提高CNN对几何变形的建模能力,从而提高不同形变的目标的检测效率。另外,对再提取的特征同时进行无锚点特征选择和基于锚点的特征选择,使得网络可以自己学习该如何分配,不同尺寸的目标可以根据内容充分适配各层的感受野和空间信息,从而提高不同尺寸目标的检测准确率。
在本发明的一些具体实施方式中,步骤S4还包括:结合测试结果,针对检测精度mAP(mean Average precision)值较低的行人姿态,例如是低于预设精度值的行人姿态,根据其空间分布以及样本特点对网络进行调整。由此可以进一步提高对不同尺度和不同形变的目标的检测准确率。
总而言之,根据本发明实施例的基于深度学习的多姿态行人检测方法,是针对行人目标非刚性形变产生的姿态多样性导致类内差异大,以及多角度拍摄导致的目标外观发生变化的问题而提出的一种检测方法,该方法能够提取更具有鲁棒性的特征来克服姿态变化的影响,从而提高检测精度,实验表明,该方法可以在一定程度上提高复杂环境下不同姿态行人的检测准确率。
此外,本发明还提供一种计算机存储介质,所述计算机存储介质包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现上述任一所述的基于深度学习的多姿态行人检测方法。
也就是说,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行上述任一所述的基于深度学习的多姿态行人检测方法。
如图5所示,本发明实施例提供了一种电子设备300,包括存储器310和处理器320,所述存储器310用于存储一条或多条计算机指令,所述处理器320用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的方法。
也就是说,电子设备300包括:处理器320和存储器310,在所述存储器310中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器320执行上述任一所述的方法。
进一步地,如图5所示,电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU),以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口330,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘350中。
所述输入设备340,可以接收操作人员输入的各种指令,并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备360,可以将处理器320执行指令获得的结果进行显示。
所述存储器310,用于存储操作***运行所必须的程序和数据,以及处理器320计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器310可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器310存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作***311和应用程序312。
其中,操作***311,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序312,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。
本发明上述实施例揭示的方法可以应用于处理器320中,或者由处理器320实现。处理器320可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310,处理器320读取存储器310中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器320还用于读取所述计算机程序,执行上述任一所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种基于深度学习的多姿态行人检测方法,其特征在于,包括以下步骤:
S1、定义多种行人姿态,生成多姿态行人目标的数据集;
S2、将所述数据集按照不同行人姿态进行分类,并将不同行人姿态的所述数据集分别分为训练集和测试集两部分;
S3、将所有行人姿态的所述训练集合并为一个总训练集进行训练,得到训练模型;
S4、使用所述训练模型对不同行人姿态的所述测试集分别进行测试;
S5、根据测试结果进行行人检测。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述行人姿态包括弯曲姿态、跪姿、躺姿、坐姿、站姿和遮挡姿态,
所述弯曲姿态定义为行人身体的至少一部分成弯曲状态;
所述跪姿定义为行人的至少一个膝盖接触其他物体;
所述躺姿定义为行人成水平姿态;
所述坐姿定义为行人的臀部接触其他物体;
所述站姿定义为行人身体没有弯曲的站立;
所述遮挡姿态定义为只能显示行人身体的一部分。
3.根据权利要求1所述的方法,其特征在于,在步骤S3中,将所述总训练集置于网络中进行训练,得到所述训练模型。
4.根据权利要求3所述的方法,其特征在于,所述总训练集在网络中训练的步骤包括:
S31、获取所述总训练集中的多姿态行人样本;
S32、使用全卷积网络对所述多姿态行人样本进行特征提取;
S33、对步骤S32提取到的特征进行特征再提取;
S34、同时使用基于锚点的特征选择分支和无锚点的特征选择分支预测目标边框;
S35、使用非极大值抑制去掉冗余目标边框,得到所述训练模型。
5.根据权利要求4所述的方法,其特征在于,在步骤S32中,所述全卷积网络的主干网络VGG为双支路操作以对所述多姿态行人样本进行特征提取。
6.根据权利要求4所述的方法,其特征在于,在步骤S33中,使用特征再提取模块对步骤S32提取到的所述特征进行特征再提取。
7.根据权利要求6所述的方法,其特征在于,所述特征再提取模块包括两条支路,一条支路经过步长为1,输出通道数为128的1*1卷积进行通道压缩,通过一个3*3卷积层学习偏移量,接着卷积核大小为3*3的可变形卷积,针对几何变形对空间采样位置进行位移调整,进行特征提取,接着使用1*1卷积恢复通道数;
另一条支路使用步长为1,输出通道数为256的1*1卷积来调整通道数,使其和一条支路保持一致;
通过元素对应相加的方式将两条支路进行整合。
8.根据权利要求4所述的方法,其特征在于,在步骤S34中,无锚点的特征选择分支添加FSAF模块用于进行该特征图水平的无锚框特征选择。
9.根据权利要求8所述的方法,其特征在于,所述FSAF模块在每个提取到的特征后面引入两个额外的卷积层,以用于在无锚点的特征选择分支中预测分类与回归。
10.根据权利要求3所述的方法,其特征在于,步骤S4还包括:结合测试结果,针对检测精度值低于预设精度值的行人姿态,根据其空间分布以及样本特点对网络进行调整。
11.一种计算机存储介质,其特征在于,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910792451.6A CN110569757B (zh) | 2019-08-26 | 2019-08-26 | 基于深度学习的多姿态行人检测方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910792451.6A CN110569757B (zh) | 2019-08-26 | 2019-08-26 | 基于深度学习的多姿态行人检测方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569757A true CN110569757A (zh) | 2019-12-13 |
CN110569757B CN110569757B (zh) | 2022-05-06 |
Family
ID=68776074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910792451.6A Active CN110569757B (zh) | 2019-08-26 | 2019-08-26 | 基于深度学习的多姿态行人检测方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569757B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783701A (zh) * | 2020-07-06 | 2020-10-16 | 天津大学 | 一种基于双目摄像头的远景车辆检测方法及装置 |
CN113128308A (zh) * | 2020-01-10 | 2021-07-16 | 中南大学 | 一种港口场景下的行人检测方法、装置、设备及介质 |
CN115723152A (zh) * | 2022-11-17 | 2023-03-03 | 中国人民解放军总医院第五医学中心 | 一种智能护理机器人 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292319A (zh) * | 2017-08-04 | 2017-10-24 | 广东工业大学 | 一种基于可变形卷积层的特征图像提取的方法及装置 |
CN107609541A (zh) * | 2017-10-17 | 2018-01-19 | 哈尔滨理工大学 | 一种基于可变形卷积神经网络的人体姿态估计方法 |
CN109492534A (zh) * | 2018-10-12 | 2019-03-19 | 高新兴科技集团股份有限公司 | 一种基于Faster RCNN的跨场景多姿态的行人检测方法 |
CN110084285A (zh) * | 2019-04-08 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于深度学习的鱼类细粒度分类方法 |
-
2019
- 2019-08-26 CN CN201910792451.6A patent/CN110569757B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292319A (zh) * | 2017-08-04 | 2017-10-24 | 广东工业大学 | 一种基于可变形卷积层的特征图像提取的方法及装置 |
CN107609541A (zh) * | 2017-10-17 | 2018-01-19 | 哈尔滨理工大学 | 一种基于可变形卷积神经网络的人体姿态估计方法 |
CN109492534A (zh) * | 2018-10-12 | 2019-03-19 | 高新兴科技集团股份有限公司 | 一种基于Faster RCNN的跨场景多姿态的行人检测方法 |
CN110084285A (zh) * | 2019-04-08 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于深度学习的鱼类细粒度分类方法 |
Non-Patent Citations (2)
Title |
---|
CHENCHEN ZHU: "Feature Selective Anchor-Free Module for Single-Shot Object Detection", 《ARXIV:1903.00621V1》 * |
朱婷婷: "基于深度学习的单步目标检测器特征增强算法", 《数字技术与应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128308A (zh) * | 2020-01-10 | 2021-07-16 | 中南大学 | 一种港口场景下的行人检测方法、装置、设备及介质 |
CN113128308B (zh) * | 2020-01-10 | 2022-05-20 | 中南大学 | 一种港口场景下的行人检测方法、装置、设备及介质 |
CN111783701A (zh) * | 2020-07-06 | 2020-10-16 | 天津大学 | 一种基于双目摄像头的远景车辆检测方法及装置 |
CN115723152A (zh) * | 2022-11-17 | 2023-03-03 | 中国人民解放军总医院第五医学中心 | 一种智能护理机器人 |
CN115723152B (zh) * | 2022-11-17 | 2023-06-06 | 中国人民解放军总医院第五医学中心 | 一种智能护理机器人 |
WO2024103733A1 (zh) * | 2022-11-17 | 2024-05-23 | 中国人民解放军总医院第五医学中心 | 一种智能护理机器人 |
Also Published As
Publication number | Publication date |
---|---|
CN110569757B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Scale-aware fast R-CNN for pedestrian detection | |
Cao et al. | Detecting the shuttlecock for a badminton robot: A YOLO based approach | |
WO2021129064A9 (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
CN108932500B (zh) | 一种基于深度神经网络的动态手势识别方法及*** | |
CN110569757B (zh) | 基于深度学习的多姿态行人检测方法及计算机存储介质 | |
Marin-Jimenez et al. | 3D human pose estimation from depth maps using a deep combination of poses | |
CN110096933A (zh) | 目标检测的方法、装置及*** | |
CN110705463A (zh) | 基于多模态双流3d网络的视频人体行为识别方法及*** | |
Xu et al. | Fast vehicle and pedestrian detection using improved Mask R‐CNN | |
CN112651292A (zh) | 基于视频的人体动作识别方法、装置、介质及电子设备 | |
CN111402294A (zh) | 目标跟踪方法、装置、计算机可读存储介质和计算机设备 | |
Zhou et al. | BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images | |
CN111079536B (zh) | 基于人体关键点时序的行为分析方法、存储介质及设备 | |
JP5936561B2 (ja) | 画像における外観及びコンテキストに基づく物体分類 | |
Weiyao et al. | Human action recognition using multilevel depth motion maps | |
CN111079519B (zh) | 多姿态人体检测方法、计算机存储介质及电子设备 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
US20160140762A1 (en) | Image processing device and image processing method | |
CN114120436A (zh) | 动作识别模型的训练方法、动作识别方法及相关装置 | |
Zhang et al. | Multimodal Spatiotemporal Feature Map for Dynamic Gesture Recognition. | |
Zhang et al. | Tfdet: Target-aware fusion for rgb-t pedestrian detection | |
Kourbane et al. | Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation | |
Ding et al. | Combining adaptive hierarchical depth motion maps with skeletal joints for human action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |