CN111783716A

CN111783716A - 基于姿态信息的行人检测方法、***、装置

Info

Publication number: CN111783716A
Application number: CN202010664330.6A
Authority: CN
Inventors: 徐常胜; 姚涵涛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-16

Abstract

本发明属于行人检测领域，具体涉及一种基于姿态信息的行人检测方法、***、装置，旨在为了解决解决现有行人检测方法在多人环境下准确性不能满足需求的问题。本发明方法包括：基于预训练的区域提取网络获取行人候选框和对应的第一置信度score_r；基于预训练的行人识别网络获取所述行人候选框的综合描述，并基于该描述进行二分类，并以二分类结果作为第二置信度score_p；所述综合描述包括视觉描述f^v和姿态描述f^p；基于score_r和score_p获取第三置信度score，偌大于设定的置信度阈值则判定为行人。本发明能够很好的解决行人检测任务中普遍存在的遮挡和误检问题，提高行人检测的准确性。

Description

基于姿态信息的行人检测方法、***、装置

技术领域

本发明属于行人检测领域，具体涉及一种基于姿态信息的行人检测方法、***、装置。

背景技术

作为目标检测的一个特殊分支，行人检测已经得到学术界和工业界的极大关注，其目的是预测给定的图像中行人所在的位置并用一系列边界框表示。在过去的几年里，除了早期的手工特征研究外，利用卷积神经网络进行行人检测已经取得了巨大的进步。

最近，研究人员已经证明了基于卷积神经网络的模型有助于提高行人检测的性能。这些基于卷积神经网络的模型可以分成两类：有锚点的行人检测和无锚点的行人检测。有锚点的检测模型一般先生成大量的目标候选框，再通过分类器判断每个候选框中是否包含行人。这种方法的缺点是大部分候选框都是冗余的，因此在学习特征表示时将会浪费大量时间。为了避免上述问题，研究人员设计了无锚点检测器，它可以直接从图片中预测行人。虽然现有方法可以对给定的图片进行行人定位，但是他们对于有遮挡的行人检测并不鲁棒。

由于现实世界中的街道等场景往往挤满了行人和各种各样的物体，因此遮挡是行人检测中的一个关键难题。为了解决这个挑战，研究人员试图利用行人视觉描述进行建模。但是，当背景与行人相似时，只使用视觉描述不足以区别被遮挡的行人和背景。由于有锚点的检测模型可以生成被遮挡行人的候选框，因此解决遮挡检测的核心问题就是如何生成一个鲁棒的描述来过滤被遮挡的行人。

发明内容

为了解决现有技术中的上述问题，即为了解决现有行人检测方法在多人环境下准确性不能满足需求的问题，本发明的第一方面，提出了一种基于姿态信息的行人检测方法,该方法包括以下步骤：

步骤S100，基于预训练的区域提取网络获取行人候选框和对应的第一置信度score_r；

步骤S200，基于预训练的行人识别网络获取所述行人候选框的综合描述，并基于该描述进行二分类，并以二分类结果作为第二置信度score_p；所述综合描述包括视觉描述f^v和姿态描述f^p；

步骤S300，基于score_r和score_p获取第三置信度score，偌大于设定的置信度阈值则判定为行人；

其中，

所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块；所述视觉特征模块基于特征提取网络构建，用于获取所述视觉描述；所述人体姿态模块基于卷积神经网络构建，用于获取所述姿态描述f^p；所述分类模块为二分类网络，用于基于所述综合描述获取第二置信度score_p。

在一些优选实施例中，所述区域提取网络基于目标检测网络构建，其损失函数L_rpn为

其中，L_cls是二分类的交叉熵损失，L_reg是回归损失，γ是预设的协调参数，p_i为第i个行人候选框的预测概率，

为第i个行人候选框分类判断正确的概率，t_i为第i个行人候选框坐标的向量，

为第i个行人候选框对应真实行人标注框坐标的向量。

在一些优选实施例中，分类损失L_cls为：

回归损失L_reg为：

在一些优选实施例中，所述视觉特征模块由VGG-19的前10层网络以及卷积块构成，基于所述行人候选框获取视觉描述f^v，通过一个全连接层对视觉描述f^v进行二分类得到置信度score₁。

在一些优选实施例中，所述人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层；

所述特征提取网络基于VGG-19的卷积网络构建，用于提取所述行人候选框的特征图F；

所述第一子网络和所述第二子网络分别基于卷积神经网络构建，分别基于特征图F预测对应的行人候选框的置信度图S和关联域L；

所述全连接层，用于基于置信度图S和关联域L得到姿态描述f^p，并获得置信度score₂。

在一些优选实施例中，所述分类模块，用于基于视觉描述f^v和姿态描述f^p获取置信度score₃，并基于置信度score₁、置信度score₂、置信度score₃通过有预设的加权系数进行加权求和，得到第二置信度score_p。

在一些优选实施例中，所述第三置信度score，其计算方法为：

score＝αscore_r+βscore_p

其中，α和β为预设的权重参数。

在一些优选实施例中，所述视觉特征模块、所述人体姿态模块、所述分类模块中的一项或多项，在训练过程中的二分类分别通过对应的交叉熵损失函数记性约束。

本发明的第二方面，提出了一种基于姿态信息的行人检测***，该***包括第一单元、第二单元、第三单元：

所述第一单元，配置为基于预训练的区域提取网络获取行人候选框和对应的第一置信度score_r；

所述第二单元，配置为基于预训练的行人识别网络获取所述行人候选框的综合描述，并基于该描述进行二分类，并以二分类结果作为第二置信度score_p；所述综合描述包括视觉描述f^v和姿态描述f^p；

所述第三单元，配置为基于预设权值计算score_r和score_p之和作为第三置信度score，偌大于设定的置信度阈值则判定为行人；

其中，

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。

本发明的有益效果：

本发发明可以很好的解决行人检测任务中普遍存在的遮挡和误检问题，提高行人检测的准确性。本发明可以很好的嵌入任意已有的检测器中(有锚点或是无锚点)，极大的提高检测效率和泛化性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于姿态信息的行人检测方法流程示意图；

图2是本发明一种实施例中基于姿态信息的行人检测网络的框架示意图；

图3是本发明一种实施例中行人识别网络的详细结构图示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于姿态信息的行人检测方法，如图1所示该方法包括以下步骤：

其中，

所述行人识别网络包括视觉特征模块、人体姿态模块、分类模块；所述视觉特征模块基于特征提取网络构建，用于获取所述视觉描述；所述人体姿态模块基于卷积神经网络构建，用于获取所述姿态描述fp；所述分类模块为二分类网络，用于基于所述综合描述获取第二置信度score_p。

为了更清晰地对本发明基于姿态信息的行人检测方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

本发明一种实施例中的检测方法的实现，需要依托于对应的检测网络的构建和预先的训练获得的训练好的网络，因此下面先从待训练检测网络的构建进行技术方案的说明。

本发明方法实施所依托的检测网络，如图2所示包括区域提取网络、行人识别网络、检测输出网络。

为了便于描述，先对训练样本进行一下描述：训练样本对应的图片I，确定其中存在的所有n个行人并用矩形框T^*＝{t₁ ^*,t₂ ^*,…,t_n ^*}进行定位，其中，真实框坐标

为矩形框的中心点坐标，

为矩形框的宽和高。

1、区域提取网络

可以使用任意已有的目标检测器作为区域提取网络进行全局建模，生成一系列行人候选框和对应的置信度得分。

该网络通过一个多任务损失函数L_rpn对网络进行优化：

为第i个行人候选框对应真实行人标注框坐标的向量。

本实施例中，可以令目标框i与任意一个真实框之间交集与并集的比值大于0.5时，

否则

分类损失L_cls为：

回归损失L_reg为：

其中，t_i＝[t_x,t_y,t_w,t_h]是一个表示预测的候选框坐标的向量，

是t_i对应的真实框坐标。

其中，x、y、w、h分别表示候选框的中心点坐标以及宽和高，x_a、y_a、w_a、h_a分别表示锚点框的中心点坐标以及宽和高，x^*、y^*、w^*、h^*分别表示真实框的中心点坐标以及宽和高。

为了消除对同一个行人生成冗余的检测结果，可以使用非极大值抑制对所有的候选框进行融合，并设置了IoU阈值为0.5。

2、行人识别网络

在利用区域提取网络生成可能包含行人的候选框后，我们利用行人识别网络对局部候选区域建模，通过获取视觉特征描述和人体姿态描述来优化候选区域的置信度得分并去除误检框。行人识别网络如图3所示，由三个模块构成，分别是视觉特征模块、人体姿态模块和分类模块。

(1)视觉特征模块

视觉特征模块由VGG-19的前10层网络以及许多卷积块构成。对于从区域提取网络输出的行人候选框，先将其像素调整成256×256，再将其送入视觉特征模块得到128维的视觉描述fv，接着用一个全连接层对视觉描述进行二分类并得到置信度

该模块在训练过程中通过交叉熵损失L_v进行约束。

分别为预测背景的概率、预测行人的概率，其取值为0或1。

(2)人体姿态模块

人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层。对于每个调整成256×256像素的候选区域，首先通过基于基于VGG-19的卷积网络构建构建的特征提取网络提取所述行人候选框的特征图F，然后用基于卷积神经网络构建的第一子网络、第二子网络分别基于特征图F预测对应的行人候选框的置信度图S和关联域L(置信度图和关联域分别表示人体姿态信息中的关键点以及点之间的连接关系)，最后通过全连接层基于置信度图S和关联域L得到姿态描述f^p，并获得置信度score₂。

姿态描述f^p的获取可以分为如下阶段：

在第一阶段人体姿态模块会产生置信度图S₁＝ρ₁(F)和关联域

其中ρ₁和

都是由三个3×3和两个1×1的卷积层构成的卷积神经网络；

在后面的每个阶段里，我们将前一阶段中两支子网络的预测与原始图像的特征F结合起来生成新的预测，详细表示如下：

其中，ρ_t和

(t为所处阶段，t≥2)都是由五个7×7和两个1×1的卷积层构成的卷积神经网络；

在最后一个阶段中，我们通过结合置信度图S₆和关联域L₆得到人体的姿态描述f^p。

人体姿态模块可以用已经训练完成的OpenPose模型进行参数初始化，并且在整个行人识别网络训练时，人体姿态模块的参数将被固定不会进行更新。接着，我们将姿态信息输入全连接层得到128维的姿态描述f^p，并用一个全连接层对姿态描述进行二分类得到置信度

该模块在训练过程中通过交叉熵损失L_p进行约束。

分别为预测背景的概率、预测行人的概率，其取值为0或1。

(3)分类模块

在得到视觉描述f^v和姿态描述f^p之后，将他们结合成256维的描述，然后通过几个全连接层进行二分类，并通过交叉熵损失L进行视觉和姿态的约束。

该模块中基于视觉描述f^v和姿态描述f^p通过几个全连接层进行二分类获取置信度

分别为预测背景的概率、预测行人的概率，其取值为0或1。

基于置信度score₁、置信度score₂、置信度score₃通过有预设的加权系数进行加权求和，得到第二置信度score_p。例如，可以设定加权系数e₁、e₂、e₃，则第二置信度score_p为

score_p＝score₁e₁+score₂e₂+score₃e₃

其中，e₁、e₂、e₃之和为1。

本实施例中，行人识别网络的详细结构如图所示，其通过损失函数L_prn进行约束，具体表示如下：

L_prn＝L+λ₂L_v+λ₃L_p

其中L、L_v、L_p分别是视觉特征模块、人体姿态模块和分类模块的损失函数，两个超参λ₂＝λ₃＝0.5。

在训练过程中，基于损失函数L_prn对行人识别网络进行整体训练。

3、检测输出网络

将区域提取网络输出的置信度得分score_r与行人识别网络输出的置信度得分score_p进行融合，作为生成的候选区域最终的置信度得分score：

score＝αscore_r+βscore_p

其中

和

其中

表示预测行人的概率，

表示预测背景的概率，此处*可以为r、p。α和β为权重参数。当最终的置信度得分score较低时，该候选区域就会被判定为背景。

基于预先构建的训练样本，对上述检测网络进行训练，获得各部分网络的最优参数，得到优化后的网络。

基于优化后的网络，本发明实施例的基于姿态信息的行人检测方法,包括以下步骤：

步骤S300，基于score_r和score_p获取第三置信度score，偌大于设定的置信度阈值则判定为行人。

本发明第二实施例的一种基于姿态信息的行人检测***，包括第一单元、第二单元、第三单元：

其中，

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于姿态信息的行人检测***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于姿态信息的行人检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于姿态信息的行人检测方法,其特征在于，该方法包括以下步骤：

步骤S300，基于预设权值计算score_r和score_p之和作为第三置信度score，偌大于设定的置信度阈值则判定为行人；

其中，

2.根据权利要求1所述的基于姿态信息的行人检测方法,其特征在于，所述区域提取网络基于目标检测网络构建，其损失函数L_rpn为

为第i个行人候选框对应真实行人标注框坐标的向量。

3.根据权利要求2所述的基于姿态信息的行人检测方法,其特征在于，分类损失L_cls为：

回归损失L_reg为：

4.根据权利要求1所述的基于姿态信息的行人检测方法,其特征在于，所述视觉特征模块由VGG-19的前10层网络以及卷积块构成，基于所述行人候选框获取视觉描述f^v，通过一个全连接层对视觉描述f^v进行二分类得到置信度score₁。

5.根据权利要求4所述的基于姿态信息的行人检测方法,其特征在于，所述人体姿态模块包括特征提取网络、第一子网络、第二子网络、全连接层；

6.根据权利要求5所述的基于姿态信息的行人检测方法,其特征在于，所述分类模块，用于基于视觉描述f^v和姿态描述f^p获取置信度score₃，并基于置信度score₁、置信度score₂、置信度score₃通过有预设的加权系数进行加权求和，得到第二置信度score_p。

7.根据权利要求6所述的基于姿态信息的行人检测方法,其特征在于，所述第三置信度score，其计算方法为：

score＝αscore_r+βscore_p

其中，α和β为预设的权重参数。

8.根据权利要求1-7任一项所述的基于姿态信息的行人检测方法,其特征在于，所述视觉特征模块、所述人体姿态模块、所述分类模块中的一项或多项，在训练过程中的二分类分别通过对应的交叉熵损失函数记性约束。

9.一种基于姿态信息的行人检测***,其特征在于，该***包括第一单元、第二单元、第三单元：

其中，

10.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于姿态信息的行人检测方法。

11.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于姿态信息的行人检测方法。