CN111783716A - 基于姿态信息的行人检测方法、***、装置 - Google Patents

基于姿态信息的行人检测方法、***、装置 Download PDF

Info

Publication number
CN111783716A
CN111783716A CN202010664330.6A CN202010664330A CN111783716A CN 111783716 A CN111783716 A CN 111783716A CN 202010664330 A CN202010664330 A CN 202010664330A CN 111783716 A CN111783716 A CN 111783716A
Authority
CN
China
Prior art keywords
pedestrian
description
network
confidence score
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010664330.6A
Other languages
English (en)
Inventor
徐常胜
姚涵涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010664330.6A priority Critical patent/CN111783716A/zh
Publication of CN111783716A publication Critical patent/CN111783716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于行人检测领域,具体涉及一种基于姿态信息的行人检测方法、***、装置,旨在为了解决解决现有行人检测方法在多人环境下准确性不能满足需求的问题。本发明方法包括:基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer;基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp;基于scorer和scorep获取第三置信度score,偌大于设定的置信度阈值则判定为行人。本发明能够很好的解决行人检测任务中普遍存在的遮挡和误检问题,提高行人检测的准确性。

Description

基于姿态信息的行人检测方法、***、装置
技术领域
本发明属于行人检测领域,具体涉及一种基于姿态信息的行人检测方法、***、装置。
背景技术
作为目标检测的一个特殊分支,行人检测已经得到学术界和工业界的极大关注,其目的是预测给定的图像中行人所在的位置并用一系列边界框表示。在过去的几年里,除了早期的手工特征研究外,利用卷积神经网络进行行人检测已经取得了巨大的进步。
最近,研究人员已经证明了基于卷积神经网络的模型有助于提高行人检测的性能。这些基于卷积神经网络的模型可以分成两类:有锚点的行人检测和无锚点的行人检测。有锚点的检测模型一般先生成大量的目标候选框,再通过分类器判断每个候选框中是否包含行人。这种方法的缺点是大部分候选框都是冗余的,因此在学习特征表示时将会浪费大量时间。为了避免上述问题,研究人员设计了无锚点检测器,它可以直接从图片中预测行人。虽然现有方法可以对给定的图片进行行人定位,但是他们对于有遮挡的行人检测并不鲁棒。
由于现实世界中的街道等场景往往挤满了行人和各种各样的物体,因此遮挡是行人检测中的一个关键难题。为了解决这个挑战,研究人员试图利用行人视觉描述进行建模。但是,当背景与行人相似时,只使用视觉描述不足以区别被遮挡的行人和背景。由于有锚点的检测模型可以生成被遮挡行人的候选框,因此解决遮挡检测的核心问题就是如何生成一个鲁棒的描述来过滤被遮挡的行人。
发明内容
为了解决现有技术中的上述问题,即为了解决现有行人检测方法在多人环境下准确性不能满足需求的问题,本发明的第一方面,提出了一种基于姿态信息的行人检测方法,该方法包括以下步骤:
步骤S100,基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
步骤S200,基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
步骤S300,基于scorer和scorep获取第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
在一些优选实施例中,所述区域提取网络基于目标检测网络构建,其损失函数Lrpn
Figure BDA0002579788070000021
其中,Lcls是二分类的交叉熵损失,Lreg是回归损失,γ是预设的协调参数,pi为第i个行人候选框的预测概率,
Figure BDA0002579788070000022
为第i个行人候选框分类判断正确的概率,ti为第i个行人候选框坐标的向量,
Figure BDA0002579788070000031
为第i个行人候选框对应真实行人标注框坐标的向量。
在一些优选实施例中,分类损失Lcls为:
Figure BDA0002579788070000032
回归损失Lreg为:
Figure BDA0002579788070000033
Figure BDA0002579788070000034
在一些优选实施例中,所述视觉特征模块由VGG-19的前10层网络以及卷积块构成,基于所述行人候选框获取视觉描述fv,通过一个全连接层对视觉描述fv进行二分类得到置信度score1
在一些优选实施例中,所述人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层;
所述特征提取网络基于VGG-19的卷积网络构建,用于提取所述行人候选框的特征图F;
所述第一子网络和所述第二子网络分别基于卷积神经网络构建,分别基于特征图F预测对应的行人候选框的置信度图S和关联域L;
所述全连接层,用于基于置信度图S和关联域L得到姿态描述fp,并获得置信度score2
在一些优选实施例中,所述分类模块,用于基于视觉描述fv和姿态描述fp获取置信度score3,并基于置信度score1、置信度score2、置信度score3通过有预设的加权系数进行加权求和,得到第二置信度scorep
在一些优选实施例中,所述第三置信度score,其计算方法为:
score=αscorer+βscorep
其中,α和β为预设的权重参数。
在一些优选实施例中,所述视觉特征模块、所述人体姿态模块、所述分类模块中的一项或多项,在训练过程中的二分类分别通过对应的交叉熵损失函数记性约束。
本发明的第二方面,提出了一种基于姿态信息的行人检测***,该***包括第一单元、第二单元、第三单元:
所述第一单元,配置为基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
所述第二单元,配置为基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
所述第三单元,配置为基于预设权值计算scorer和scorep之和作为第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。
本发明的有益效果:
本发发明可以很好的解决行人检测任务中普遍存在的遮挡和误检问题,提高行人检测的准确性。本发明可以很好的嵌入任意已有的检测器中(有锚点或是无锚点),极大的提高检测效率和泛化性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于姿态信息的行人检测方法流程示意图;
图2是本发明一种实施例中基于姿态信息的行人检测网络的框架示意图;
图3是本发明一种实施例中行人识别网络的详细结构图示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于姿态信息的行人检测方法,如图1所示该方法包括以下步骤:
步骤S100,基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
步骤S200,基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
步骤S300,基于scorer和scorep获取第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
为了更清晰地对本发明基于姿态信息的行人检测方法进行说明,下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。
本发明一种实施例中的检测方法的实现,需要依托于对应的检测网络的构建和预先的训练获得的训练好的网络,因此下面先从待训练检测网络的构建进行技术方案的说明。
本发明方法实施所依托的检测网络,如图2所示包括区域提取网络、行人识别网络、检测输出网络。
为了便于描述,先对训练样本进行一下描述:训练样本对应的图片I,确定其中存在的所有n个行人并用矩形框T*={t1 *,t2 *,…,tn *}进行定位,其中,真实框坐标
Figure BDA0002579788070000061
Figure BDA0002579788070000062
为矩形框的中心点坐标,
Figure BDA0002579788070000063
为矩形框的宽和高。
1、区域提取网络
可以使用任意已有的目标检测器作为区域提取网络进行全局建模,生成一系列行人候选框和对应的置信度得分。
该网络通过一个多任务损失函数Lrpn对网络进行优化:
Figure BDA0002579788070000071
其中,Lcls是二分类的交叉熵损失,Lreg是回归损失,γ是预设的协调参数,pi为第i个行人候选框的预测概率,
Figure BDA0002579788070000072
为第i个行人候选框分类判断正确的概率,ti为第i个行人候选框坐标的向量,
Figure BDA0002579788070000073
为第i个行人候选框对应真实行人标注框坐标的向量。
本实施例中,可以令目标框i与任意一个真实框之间交集与并集的比值大于0.5时,
Figure BDA0002579788070000074
否则
Figure BDA0002579788070000075
分类损失Lcls为:
Figure BDA0002579788070000076
回归损失Lreg为:
Figure BDA0002579788070000077
Figure BDA0002579788070000078
其中,ti=[tx,ty,tw,th]是一个表示预测的候选框坐标的向量,
Figure BDA0002579788070000079
是ti对应的真实框坐标。
Figure BDA00025797880700000710
Figure BDA00025797880700000711
Figure BDA00025797880700000712
Figure BDA00025797880700000713
其中,x、y、w、h分别表示候选框的中心点坐标以及宽和高,xa、ya、wa、ha分别表示锚点框的中心点坐标以及宽和高,x*、y*、w*、h*分别表示真实框的中心点坐标以及宽和高。
为了消除对同一个行人生成冗余的检测结果,可以使用非极大值抑制对所有的候选框进行融合,并设置了IoU阈值为0.5。
2、行人识别网络
在利用区域提取网络生成可能包含行人的候选框后,我们利用行人识别网络对局部候选区域建模,通过获取视觉特征描述和人体姿态描述来优化候选区域的置信度得分并去除误检框。行人识别网络如图3所示,由三个模块构成,分别是视觉特征模块、人体姿态模块和分类模块。
(1)视觉特征模块
视觉特征模块由VGG-19的前10层网络以及许多卷积块构成。对于从区域提取网络输出的行人候选框,先将其像素调整成256×256,再将其送入视觉特征模块得到128维的视觉描述fv,接着用一个全连接层对视觉描述进行二分类并得到置信度
Figure BDA0002579788070000081
该模块在训练过程中通过交叉熵损失Lv进行约束。
Figure BDA0002579788070000082
分别为预测背景的概率、预测行人的概率,其取值为0或1。
(2)人体姿态模块
人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层。对于每个调整成256×256像素的候选区域,首先通过基于基于VGG-19的卷积网络构建构建的特征提取网络提取所述行人候选框的特征图F,然后用基于卷积神经网络构建的第一子网络、第二子网络分别基于特征图F预测对应的行人候选框的置信度图S和关联域L(置信度图和关联域分别表示人体姿态信息中的关键点以及点之间的连接关系),最后通过全连接层基于置信度图S和关联域L得到姿态描述fp,并获得置信度score2
姿态描述fp的获取可以分为如下阶段:
在第一阶段人体姿态模块会产生置信度图S1=ρ1(F)和关联域
Figure BDA0002579788070000091
其中ρ1
Figure BDA0002579788070000092
都是由三个3×3和两个1×1的卷积层构成的卷积神经网络;
在后面的每个阶段里,我们将前一阶段中两支子网络的预测与原始图像的特征F结合起来生成新的预测,详细表示如下:
Figure BDA0002579788070000093
Figure BDA0002579788070000094
其中,ρt
Figure BDA0002579788070000095
(t为所处阶段,t≥2)都是由五个7×7和两个1×1的卷积层构成的卷积神经网络;
在最后一个阶段中,我们通过结合置信度图S6和关联域L6得到人体的姿态描述fp
人体姿态模块可以用已经训练完成的OpenPose模型进行参数初始化,并且在整个行人识别网络训练时,人体姿态模块的参数将被固定不会进行更新。接着,我们将姿态信息输入全连接层得到128维的姿态描述fp,并用一个全连接层对姿态描述进行二分类得到置信度
Figure BDA0002579788070000096
Figure BDA0002579788070000097
该模块在训练过程中通过交叉熵损失Lp进行约束。
Figure BDA0002579788070000098
分别为预测背景的概率、预测行人的概率,其取值为0或1。
(3)分类模块
在得到视觉描述fv和姿态描述fp之后,将他们结合成256维的描述,然后通过几个全连接层进行二分类,并通过交叉熵损失L进行视觉和姿态的约束。
该模块中基于视觉描述fv和姿态描述fp通过几个全连接层进行二分类获取置信度
Figure BDA0002579788070000099
Figure BDA00025797880700000910
分别为预测背景的概率、预测行人的概率,其取值为0或1。
基于置信度score1、置信度score2、置信度score3通过有预设的加权系数进行加权求和,得到第二置信度scorep。例如,可以设定加权系数e1、e2、e3,则第二置信度scorep
scorep=score1e1+score2e2+score3e3
其中,e1、e2、e3之和为1。
本实施例中,行人识别网络的详细结构如图所示,其通过损失函数Lprn进行约束,具体表示如下:
Lprn=L+λ2Lv3Lp
其中L、Lv、Lp分别是视觉特征模块、人体姿态模块和分类模块的损失函数,两个超参λ2=λ3=0.5。
在训练过程中,基于损失函数Lprn对行人识别网络进行整体训练。
3、检测输出网络
将区域提取网络输出的置信度得分scorer与行人识别网络输出的置信度得分scorep进行融合,作为生成的候选区域最终的置信度得分score:
score=αscorer+βscorep
其中
Figure BDA0002579788070000101
Figure BDA0002579788070000102
其中
Figure BDA0002579788070000103
表示预测行人的概率,
Figure BDA0002579788070000104
表示预测背景的概率,此处*可以为r、p。α和β为权重参数。当最终的置信度得分score较低时,该候选区域就会被判定为背景。
基于预先构建的训练样本,对上述检测网络进行训练,获得各部分网络的最优参数,得到优化后的网络。
基于优化后的网络,本发明实施例的基于姿态信息的行人检测方法,包括以下步骤:
步骤S100,基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
步骤S200,基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
步骤S300,基于scorer和scorep获取第三置信度score,偌大于设定的置信度阈值则判定为行人。
本发明第二实施例的一种基于姿态信息的行人检测***,包括第一单元、第二单元、第三单元:
所述第一单元,配置为基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
所述第二单元,配置为基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
所述第三单元,配置为基于预设权值计算scorer和scorep之和作为第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于姿态信息的行人检测***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种基于姿态信息的行人检测方法,其特征在于,该方法包括以下步骤:
步骤S100,基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
步骤S200,基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
步骤S300,基于预设权值计算scorer和scorep之和作为第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
2.根据权利要求1所述的基于姿态信息的行人检测方法,其特征在于,所述区域提取网络基于目标检测网络构建,其损失函数Lrpn
Figure FDA0002579788060000011
其中,Lcls是二分类的交叉熵损失,Lreg是回归损失,γ是预设的协调参数,pi为第i个行人候选框的预测概率,
Figure FDA0002579788060000012
为第i个行人候选框分类判断正确的概率,ti为第i个行人候选框坐标的向量,
Figure FDA0002579788060000013
为第i个行人候选框对应真实行人标注框坐标的向量。
3.根据权利要求2所述的基于姿态信息的行人检测方法,其特征在于,分类损失Lcls为:
Figure FDA0002579788060000021
回归损失Lreg为:
Figure FDA0002579788060000022
Figure FDA0002579788060000023
4.根据权利要求1所述的基于姿态信息的行人检测方法,其特征在于,所述视觉特征模块由VGG-19的前10层网络以及卷积块构成,基于所述行人候选框获取视觉描述fv,通过一个全连接层对视觉描述fv进行二分类得到置信度score1
5.根据权利要求4所述的基于姿态信息的行人检测方法,其特征在于,所述人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层;
所述特征提取网络基于VGG-19的卷积网络构建,用于提取所述行人候选框的特征图F;
所述第一子网络和所述第二子网络分别基于卷积神经网络构建,分别基于特征图F预测对应的行人候选框的置信度图S和关联域L;
所述全连接层,用于基于置信度图S和关联域L得到姿态描述fp,并获得置信度score2
6.根据权利要求5所述的基于姿态信息的行人检测方法,其特征在于,所述分类模块,用于基于视觉描述fv和姿态描述fp获取置信度score3,并基于置信度score1、置信度score2、置信度score3通过有预设的加权系数进行加权求和,得到第二置信度scorep
7.根据权利要求6所述的基于姿态信息的行人检测方法,其特征在于,所述第三置信度score,其计算方法为:
score=αscorer+βscorep
其中,α和β为预设的权重参数。
8.根据权利要求1-7任一项所述的基于姿态信息的行人检测方法,其特征在于,所述视觉特征模块、所述人体姿态模块、所述分类模块中的一项或多项,在训练过程中的二分类分别通过对应的交叉熵损失函数记性约束。
9.一种基于姿态信息的行人检测***,其特征在于,该***包括第一单元、第二单元、第三单元:
所述第一单元,配置为基于预训练的区域提取网络获取行人候选框和对应的第一置信度scorer
所述第二单元,配置为基于预训练的行人识别网络获取所述行人候选框的综合描述,并基于该描述进行二分类,并以二分类结果作为第二置信度scorep;所述综合描述包括视觉描述fv和姿态描述fp
所述第三单元,配置为基于预设权值计算scorer和scorep之和作为第三置信度score,偌大于设定的置信度阈值则判定为行人;
其中,
所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块;所述视觉特征模块基于特征提取网络构建,用于获取所述视觉描述;所述人体姿态模块基于卷积神经网络构建,用于获取所述姿态描述fp;所述分类模块为二分类网络,用于基于所述综合描述获取第二置信度scorep
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于姿态信息的行人检测方法。
11.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于姿态信息的行人检测方法。
CN202010664330.6A 2020-07-10 2020-07-10 基于姿态信息的行人检测方法、***、装置 Pending CN111783716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010664330.6A CN111783716A (zh) 2020-07-10 2020-07-10 基于姿态信息的行人检测方法、***、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010664330.6A CN111783716A (zh) 2020-07-10 2020-07-10 基于姿态信息的行人检测方法、***、装置

Publications (1)

Publication Number Publication Date
CN111783716A true CN111783716A (zh) 2020-10-16

Family

ID=72767368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010664330.6A Pending CN111783716A (zh) 2020-07-10 2020-07-10 基于姿态信息的行人检测方法、***、装置

Country Status (1)

Country Link
CN (1) CN111783716A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560649A (zh) * 2020-12-09 2021-03-26 广州云从鼎望科技有限公司 一种行为动作检测方法、***、设备及介质
CN114821818A (zh) * 2022-06-29 2022-07-29 广东信聚丰科技股份有限公司 基于智慧体育的动作数据分析方法及***
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279742A (zh) * 2013-05-24 2013-09-04 中国科学院自动化研究所 一种基于多任务模型的多分辨率行人检测方法及其装置
CN108537136A (zh) * 2018-03-19 2018-09-14 复旦大学 基于姿态归一化图像生成的行人重识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279742A (zh) * 2013-05-24 2013-09-04 中国科学院自动化研究所 一种基于多任务模型的多分辨率行人检测方法及其装置
CN108537136A (zh) * 2018-03-19 2018-09-14 复旦大学 基于姿态归一化图像生成的行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ROSS GIRSHICK: "Fast R-CNN", 《HTTPS://ARXIV.ORG/ABS/1504.08083V2》 *
Y. JIAO ET AL.: "PEN: Pose-Embedding Network for Pedestrian Detection", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
Z. CAO ET AL.: "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
杨露菁 等: "《智能图像处理及应用》", 31 March 2019, 中国铁道出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560649A (zh) * 2020-12-09 2021-03-26 广州云从鼎望科技有限公司 一种行为动作检测方法、***、设备及介质
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN114821818A (zh) * 2022-06-29 2022-07-29 广东信聚丰科技股份有限公司 基于智慧体育的动作数据分析方法及***

Similar Documents

Publication Publication Date Title
CN111178183B (zh) 人脸检测方法及相关装置
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN111126258A (zh) 图像识别方法及相关装置
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN111783716A (zh) 基于姿态信息的行人检测方法、***、装置
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
CN108009466B (zh) 行人检测方法和装置
CN108805016B (zh) 一种头肩区域检测方法及装置
KR20180051335A (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN111597961B (zh) 面向智能驾驶的移动目标轨迹预测方法、***、装置
CN113537070B (zh) 一种检测方法、装置、电子设备及存储介质
CN109671055B (zh) 肺结节检测方法及装置
CN109558790B (zh) 一种行人目标检测方法、装置及***
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN115359366A (zh) 基于参数优化的遥感图像目标检测方法
CN114639122A (zh) 一种基于卷积生成对抗网络的姿态修正行人再识别方法
CN113469099A (zh) 目标检测模型的训练方法、检测方法、装置、设备及介质
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN113569600A (zh) 物体重识别的方法、装置、电子设备及存储介质
Sun et al. Automatic building age prediction from street view images
CN115331162A (zh) 一种跨尺度红外行人检测方法、***、介质、设备及终端
CN114387496A (zh) 一种目标检测方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016