CN106897697A

CN106897697A - 一种基于可视化编译器的人物和姿势检测方法

Info

Publication number: CN106897697A
Application number: CN201710103927.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-06-27

Abstract

本发明中提出的一种基于可视化编译器的人物和姿势检测方法，其主要内容包括：场景描述的数据合成、通过合成数据学习网络、采用基本块定义网络、姿势网络(Pose Net)联合定位，其过程为，先用场景描述作为可视化编译器的输入，用标定好的真实数据注释来训练行人检测***和姿态估计***，再通过合成数据学习网络；接着使用剩余模块和空间置信模块这两个基本单位来定义网络，最后用姿势网络定位行人。本发明可以自动获得检测的注释、身体部位位置和分割掩码，通过使用摄像机来对行人进行定位，估计其姿势并进行活动分析；减少了光照、遮挡等对检测的影响，有效地提高了识别效率。

Description

一种基于可视化编译器的人物和姿势检测方法

技术领域

本发明涉及人物姿势检测领域，尤其是涉及了一种基于可视化编译器的人物和姿势检测方法。

背景技术

人体动作姿势的检测在视频监控、虚拟现实、人际智能交互等领域的广泛应用而成为计算机视觉领域的研究热点，其可以用于公共场合的智能监控和人群中危险姿势的监控等。虽然近年来国内人体姿势检测的研究取得了重要进展，但人体姿势的高复杂性和多变化性使得识别的精确性和高效性并没有完全满足相关行业的使用要求。不同的光照、视角和背景等条件会使得人体行为在姿势和特性上产生差异，此外人体自遮挡、部分遮挡、人体个体差异、多人物识别等都是人体姿势检测复杂性在空间上的体现，所以人物和姿势检测方法需要进一步研究。

本发明提出了一种基于可视化编译器的人物和姿势检测方法，先用场景描述作为可视化编译器的输入，用标定好的真实数据注释来训练行人检测***和姿态估计***，再通过合成数据学习网络；接着使用剩余模块和空间置信模块这两个基本单位来定义网络，最后用姿势网络定位行人。本发明可以自动获得检测的注释、身体部位位置和分割掩码，通过使用摄像机来对行人进行定位，估计其姿势并进行活动分析；减少了光照、遮挡等对检测的影响，有效地提高了识别效率。

发明内容

针对光照、遮挡等会产生影响的问题，本发明的目的在于提供一种基于可视化编译器的人物和姿势检测方法，先用场景描述作为可视化编译器的输入，用标定好的真实数据注释来训练行人检测***和姿态估计***，再通过合成数据学习网络；接着使用剩余模块和空间置信模块这两个基本单位来定义网络，最后用姿势网络定位行人。

为解决上述问题，本发明提供一种基于可视化编译器的人物和姿势检测方法，其主要内容包括：

(一)场景描述的数据合成；

(二)通过合成数据学习网络；

(三)采用基本块定义网络；

(四)姿势网络(Pose Net)联合定位。

其中，所述的可视化编译器，用于生成场景特定的人类检测和姿态估计***；其已知信息有：

(1)相机的内在参数和外在参数；

(2)场景粗略的物理几何布局(行走、坐着、站立)和可能被遮挡(障碍)或物理上不存在的区域(墙)的场景区域；

(3)场景各个区域行人的姿势和方向；

与单个图像一起，场景描述作为编译器的输入，在场景的有效区域中合成物理上接地和几何上精确的人；编译器学习区域特定模型的集合，用于人的检测、姿态估计和分割；在推理期间，这些特定模型中的每一个区域在其对应的区域上同时运行。

其中，所述的场景描述的数据合成，需要高质量的标定好的真实数据注释来训练行人检测***和姿态估计***；无需复杂的人工手动标记过程，可视化编译器使用场景描述模拟适用于场景每个区域的行人外观，从而扩展到大量场景中。

进一步地，所述的场景描述，给定场景描述，编译器首先生成场景的平面3D模型来包围障碍物，即拟合地平面，平面壁和立方体；然后使用相机参数来考虑相机镜头特性(例如，广角相机中的透视失真)和用于渲染几何精确的人的场景；除了在场景的每个“有效行人位置”呈现人的外观之外，渲染管道还可以精确地控制人类外观的变化，如性别、高度、宽度、取向和姿态；虚拟人类数据库包括139个不同的模型，涵盖性别、服装颜色和种族；编译器可从0度到360度，也可以由任何先前的可用信息引导；

为了给渲染图像中的人生成标定好的真实数据标记，首先使用以下标签将属性关联到每个3D虚拟模型：分割掩码27个部分的3D位置以及用于检测的人的中心位置；然后从3D注释和相机投影参数自动提取用于训练的2D标签，这个过程允许生成一致的无噪声标签；此外，还可以均匀地跨越所有的外观、方向、姿势或位置的变化。

其中，所述的通过合成数据学习网络，使用产生的场景特定数据，可视化编译器产生深度神经网络形式的可视化程序，根据场景描述的规范操作训练；

由可视化编译器生成的可视化程序共同完成以下任务：行人的本地化，定义其姿势的界标，并分割定义它们的像素；为了预测行人位置、姿态和分割掩模，网络必须对行人的全貌，地标的局部外观以及这些部件的有效空间配置之前的模型进行建模；为了捕获外观、完整的行人和当地地标外观，学习将RGB输入映射用于行人、局部地标和分割掩码的精确定位的热图回归问题；通过空间置信(SB)模块学习部件位置之间的空间关系上的先验，空间置信模块考虑行人、局部地标和分割掩码的热图之间的相关性；将这种可视化程序的特定实例化称为姿势网络(Pose Net)。

进一步地，所述的人体姿态估计***，通常将检测和姿态估计视为独立和顺序任务，检测之后是姿态估计；这些***或者预期标定好的真实数据人类检测，或者使用现成的检测器进行粗略检测；然而，检测和部件定位是高度相互依赖的过程；检测可以极大地影响姿态估计过程，部件的精确定位用于增强人在相应位置处的存在置信；因此，姿势网络模型耦合这些任务，提高行人检测和姿态估计的效率。

其中，所述的采用基本块定义网络，使用剩余模块和空间置信模块这两个基本单位来定义网络；引入剩余单元解决训练深度卷积网络中消失梯度的问题；采用这个基本单元为网络，并建立它来定义空间置信(SB)模块。

进一步地，所述的空间置信模块，将块的输入特征映射到部分定位置信(热图)，同时处理来自前一块的输入特征和部分定位置信；由该块生成的图像特征和部分定位置信通过级联形成下一块的输入；给定输入x到SB模块，输出y由下式给出：

其中，表示连接操作，r＝f_rea(x)是通过剩余单元的非同一分支的操作，b＝f_belief(x)表示从输入x到期望热图(人检测、部分检测和分割掩模)通过一系列1×1卷积；SB单元使网络考虑上下文信息检测置信度；来自第i个SB单元的部分定位置信度b_i传播到下一个第(i+1)个SB块，并且通过非身份路径处理，捕获各个部分热图之间的相关性；通过递归地应用SB单位运算可以看出，

由于连接操作，每个SB单元中的标识快捷方式和f_rea()处理来自所有先前SB单元的置信；此外，在每个SB单元中生成的检测置信度图也考虑了在所有先前SB单元处的部分定位置信度，每个SB单位用不同的接收场计算；因此，网络利用在多个阶段和通过多个接收场大小的检测置信度图。

其中，所述的姿势网络(Pose Net)联合定位，给定输入图像，姿势网络联合定位行人，以热图的形式定位身体部分和行人；网络由完全卷积层组成，保持空间上下文，同时提高计算效率；为实现行人的精确定位和姿态估计，在整个网络中使用密集热图预测，防止由于子采样(池)造成的信息丢失；

输入图像通过具有5×5个滤波器的卷积层和3×3的滤波器，遵循用于对象识别的残余网络的设计；之后是3个SB单元，每个具有大接收场的卷积滤波器，增加网络的接收场，同时执行密集预测；SB单元后面是两个1×1卷积层，将图像特征映射到热图；最后，跳过连接用于融合来自多个不同上下文区域的信息，组合来自各种尺度接受字段的特征；用于检测的边界框位置围绕关节的热图、身体中心和分割推断；

通过优化网络，最小化网络预测和用于行人检测、部分定位和分割掩码的理想热图之间的多任务均方误差损失L，定义如下，

其中，α，β和γ是超参数折衷不同的损失函数。

进一步地，所述的姿势网络，它是使用场景中的行人外观的高质量合成图像，可视化编译器学习场景和区域特定的空间变化的完全卷积神经网络；用于行人的同时检测，姿态估计和分割；它能从头开始训练合成数据。

附图说明

图1是本发明一种基于可视化编译器的人物和姿势检测方法的***流程图。

图2是本发明一种基于可视化编译器的人物和姿势检测方法的可视化编译器。

图3是本发明一种基于可视化编译器的人物和姿势检测方法的采用基本块定义网络。

图4是本发明一种基于可视化编译器的人物和姿势检测方法的姿势网络(PoseNet)联合定位。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于可视化编译器的人物和姿势检测方法的***流程图。主要包括场景描述的数据合成，通过合成数据学习网络，采用基本块定义网络，姿势网络(PoseNet)联合定位。

场景描述的数据合成，需要高质量的标定好的真实数据注释来训练行人检测***和姿态估计***；无需复杂的人工手动标记过程，可视化编译器使用场景描述模拟适用于场景每个区域的行人外观，从而扩展到大量场景中。

给定场景描述，编译器首先生成场景的平面3D模型来包围障碍物，即拟合地平面，平面壁和立方体；然后使用相机参数来考虑相机镜头特性(例如，广角相机中的透视失真)和用于渲染几何精确的人的场景；除了在场景的每个“有效行人位置”呈现人的外观之外，渲染管道还可以精确地控制人类外观的变化，如性别、高度、宽度、取向和姿态；虚拟人类数据库包括139个不同的模型，涵盖性别、服装颜色和种族；编译器可从0度到360度，也可以由任何先前的可用信息引导；

通过合成数据学习网络，使用产生的场景特定数据，可视化编译器产生深度神经网络形式的可视化程序，根据场景描述的规范操作训练；

其中，人体姿态估计***，通常将检测和姿态估计视为独立和顺序任务，检测之后是姿态估计；这些***或者预期标定好的真实数据人类检测，或者使用现成的检测器进行粗略检测；然而，检测和部件定位是高度相互依赖的过程；检测可以极大地影响姿态估计过程，部件的精确定位用于增强人在相应位置处的存在置信；因此，姿势网络模型耦合这些任务，提高行人检测和姿态估计的效率。

图2是本发明一种基于可视化编译器的人物和姿势检测方法的可视化编译器。可视化编译器用于生成场景特定的人类检测和姿态估计***；其已知信息有：

(1)相机的内在参数和外在参数；

(3)场景各个区域行人的姿势和方向；

图3是本发明一种基于可视化编译器的人物和姿势检测方法的采用基本块定义网络。使用剩余模块和空间置信模块这两个基本单位来定义网络；引入剩余单元解决训练深度卷积网络中消失梯度的问题；采用这个基本单元为网络，并建立它来定义空间置信(SB)模块。

其中，空间置信模块，将块的输入特征映射到部分定位置信(热图)，同时处理来自前一块的输入特征和部分定位置信；由该块生成的图像特征和部分定位置信通过级联形成下一块的输入；给定输入x到SB模块，输出y由下式给出：

图4是本发明一种基于可视化编译器的人物和姿势检测方法的姿势网络(PoseNet)联合定位。给定输入图像，姿势网络联合定位行人，以热图的形式定位身体部分和行人；网络由完全卷积层组成，保持空间上下文，同时提高计算效率；为实现行人的精确定位和姿态估计，在整个网络中使用密集热图预测，防止由于子采样(池)造成的信息丢失；

其中，α，β和γ是超参数折衷不同的损失函数。

其中，姿势网络是使用场景中的行人外观的高质量合成图像，可视化编译器学习场景和区域特定的空间变化的完全卷积神经网络；用于行人的同时检测，姿态估计和分割；它能从头开始训练合成数据。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于可视化编译器的人物和姿势检测方法，其特征在于，主要包括场景描述的数据合成(一)；通过合成数据学习网络(二)；采用基本块定义网络(三)；姿势网络(PoseNet)联合定位(四)。

2.基于权利要求书1所述的可视化编译器，其特征在于，用于生成场景特定的人类检测和姿态估计***；其已知信息有：

(1)相机的内在参数和外在参数；

(3)场景各个区域行人的姿势和方向；

3.基于权利要求书1所述的场景描述的数据合成(一)，其特征在于，需要高质量的标定好的真实数据注释来训练行人检测***和姿态估计***；无需复杂的人工手动标记过程，可视化编译器使用场景描述模拟适用于场景每个区域的行人外观，从而扩展到大量场景中。

4.基于权利要求书3所述的场景描述，其特征在于，给定场景描述，编译器首先生成场景的平面3D模型来包围障碍物，即拟合地平面，平面壁和立方体；然后使用相机参数来考虑相机镜头特性(例如，广角相机中的透视失真)和用于渲染几何精确的人的场景；除了在场景的每个“有效行人位置”呈现人的外观之外，渲染管道还可以精确地控制人类外观的变化，如性别、高度、宽度、取向和姿态；虚拟人类数据库包括139个不同的模型，涵盖性别、服装颜色和种族；编译器可从0度到360度，也可以由任何先前的可用信息引导；

5.基于权利要求书1所述的通过合成数据学习网络(二)，其特征在于，使用产生的场景特定数据，可视化编译器产生深度神经网络形式的可视化程序，根据场景描述的规范操作训练；

6.基于权利要求书5所述的人体姿态估计***，其特征在于，通常将检测和姿态估计视为独立和顺序任务，检测之后是姿态估计；这些***或者预期标定好的真实数据人类检测，或者使用现成的检测器进行粗略检测；然而，检测和部件定位是高度相互依赖的过程；检测可以极大地影响姿态估计过程，部件的精确定位用于增强人在相应位置处的存在置信；因此，姿势网络模型耦合这些任务，提高行人检测和姿态估计的效率。

7.基于权利要求书1所述的采用基本块定义网络(三)，其特征在于，使用剩余模块和空间置信模块这两个基本单位来定义网络；引入剩余单元解决训练深度卷积网络中消失梯度的问题；采用这个基本单元为网络，并建立它来定义空间置信(SB)模块。

8.基于权利要求书7所述的空间置信模块，其特征在于，将块的输入特征映射到部分定位置信(热图)，同时处理来自前一块的输入特征和部分定位置信；由该块生成的图像特征和部分定位置信通过级联形成下一块的输入；给定输入x到SB模块，输出y由下式给出：

其中，表示连接操作，r＝f_rea(x)是通过剩余单元的非同一分支的操作，b＝f_belief(x)表示从输入x到期望热图(人检测、部分检测和分割掩模)通过一系列1×1卷积；SB单元使网络考虑上下文信息检测置信度；来自第i个SB单元的部分定位置信度bi传播到下一个第(i+1)个SB块，并且通过非身份路径处理，捕获各个部分热图之间的相关性；通过递归地应用SB单位运算可以看出，

9.基于权利要求书1所述的姿势网络(Pose Net)联合定位(四)，其特征在于，给定输入图像，姿势网络联合定位行人，以热图的形式定位身体部分和行人；网络由完全卷积层组成，保持空间上下文，同时提高计算效率；为实现行人的精确定位和姿态估计，在整个网络中使用密集热图预测，防止由于子采样(池)造成的信息丢失；

其中，α，β和γ是超参数折衷不同的损失函数。

10.基于权利要求书9所述的姿势网络，其特征在于，它是使用场景中的行人外观的高质量合成图像，可视化编译器学习场景和区域特定的空间变化的完全卷积神经网络；用于行人的同时检测，姿态估计和分割；它能从头开始训练合成数据。