CN114036969A

CN114036969A - 一种多视角情况下的3d人体动作识别算法

Info

Publication number: CN114036969A
Application number: CN202110280476.5A
Authority: CN
Inventors: 石昕; 邵慧杨; 翟庆庆
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-02-11
Anticipated expiration: 2041-03-16
Also published as: CN114036969B

Abstract

本发明公开了一种多视角情况下的3D人体动作识别算法，分为单视图3D姿势估计和多视图3D姿势估计；关于单视图3D姿势估计可以分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过深度神经网络将2D坐标分别提升为3D；第二类使用卷积神经网络直接从图像推断3D坐标；关于多视图3D姿势估计，旨在获得单眼3D人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练可以预测全局3D关节坐标。本发明的优点是：提出一种多视角情况下的3D人体动作识别算法，是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。

Description

一种多视角情况下的3D人体动作识别算法

技术领域

本发明涉及计算机视觉识别，实时数据可视化，大数据并行处理领域，具体来说，涉及一种多视角情况下的3D人体动作识别算法。

背景技术

随着社会的发展和进步，人体行为识别技术在社会中承担的角色越来越重要，并具有广泛的应用场景。三维人体模型重建和动作识别是目前计算机视觉领域研究中的一个热点，其目的是通过各种图像处理和识别分类技术对视频中的动作进行提取和分析，合理的构建完整的三维人体模型，以判断视频中的人物所进行的动作，从而得出有用的信息，具有十分广泛的用途。人体行为识别技术可被应用到视频监控(学校、食堂、公司等环境)、人机交互(火车站等场景)、足球或者篮球运动自动解说等领域。

此外，人体姿势识别在计算机视觉领域是一个非常重要的领域。根据最终目标和假设规则制定的不同，可以延伸出很多不同的方向；

(1)预测人体的二维或者三维动作。

(2)从视频中的单一序列或者帧中预测人体动作。

(3)从单一或者多个摄像头中预测人体动作。

本发明中，我们只关注于多摄像头条件下，在固定帧的范围内三维空间下人体动作的识别。从更广泛的角度来看，本发明提出的动作检测框架可以作为一个统一的识别框架同时识别2D和3D中的人体动作。

3D人体动作识别是计算机视觉中的基础问题，平时应用于体育动作识别，计算机辅助直播，人机交互，特效制作等。目前大多数传统算法关注于单一视角的3D人体动作预测。尽管最近已经有学者做了很多相关的工作，但是多摄像机条件下对人体动作的识别还远远没有被解决。因此，本发明提出一种多视角情况下的3D人体动作识别算法。

多视角条件下的人体动作识别有很高的研究价值，原因有二：第一首先，在户外复杂场景下，多视角的人体动作识别无可争论的是最好的动作识别方式。这是因为诸如基于标记的运动捕获和视觉惯性方法之类的竞争技术具有一定的局限性，例如无法捕获丰富的姿势表示形式(例如，估计手部姿势和面部姿势以及肢体姿势)以及各种其他限制。先前的方法的缺点是，该工作使用多视图三角剖分来构建数据集，数据集依赖于过多，几乎不切实际的视图数来获得足够质量的3D真实动作。这使得用于3D姿态识别的新的数据集的收集非常具有挑战性，目前急需减少精确三角剖分所需的视图数量。其次在某些情况下，此算法可以将其直接用于实时跟踪人体姿势，以达到对动作进行识别的最终目的。这是因为在诸如运动或计算机辅助生活之类的各种应用程序的背景下，多摄像机的配置逐渐变得可用。在这种情况下，现代多视图方法的准确性可与发达的单眼方法相媲美。因此，从很少的视图中提高多视图姿势估计的准确性是直接实际应用中的重要挑战。

发明内容

本发明的目的在于提供一种多视角情况下的3D人体动作识别算法，是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。

本发明采用的技术方案如下：一种多视角情况下的3D人体动作识别算法，其特征在于：多视图下2D姿势估计后采用多角度信息聚合方法进行3D姿势估计。

关于单视图3D姿势估计分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过深度神经网络(完全连接，卷积或递归)将2D坐标分别提升为3D；第二类使用深度卷积神经网络直接从图像推断3D坐标；3D人体动作识别算法使用的是第一类方法作为主框架，使用深度卷积神经网络作为高质量的2D姿态估计引擎；

关于多视图3D姿势估计，旨在获得单眼3D人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练能够预测全局3D关节坐标；其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。

所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络，深度卷积神经网络的输入层能够处理多维数据，一维卷积神经网络的输入层接收一维或二维数组甚至三维数据，其中一维数组通常为时间序列数据；二维数组大多数为灰度图；二维卷积神经网络的输入层接收RGB图像的三维数组；

深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类结构；卷积层中的卷积核包含权重系数，池化层不包含权重系数，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元；其中卷积层的算法为：

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤；池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量；池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制；其一般表示形式为：

卷积神经网络中输出层的上游通常是全连接层，其结构和工作原理与传统前馈神经网络中的输出层相同。

多角度信息聚合方法是一种多视角人体坐标系转换方法，具体形式为代数三角变换；使用三角变换来单独处理每个关节j；是建立在2D坐标中的三角变换方法之上，其中人体关节坐标的信息来自于动作识别框架中不同角度的热度图；H_c,j＝h_θ(I_c)_j为了估计2D关节位置信息，首先计算空间轴上的softmax层：

其次计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估，叫做soft-argmax；

Soft-argmax的一个重要特征就是不获取最大特征的索引，方便热度图H_c进行梯度反向传播；二维人体识别框架使用Loss进行预训练，通过把热度图和反转热度参数α相乘来调整图中关节热度，soft-argmax的训练过程的开始阶段就输出了最大可能的位置；

从2D关节位置信息x_c,j推断三维关节位置信息，使用线性三角变换方法，该方法减少了对关节y_j的3D坐标的搜索量，解决了关节y的齐次3D坐标矢量上的超定方程组：

A_jy_j＝0

其中

是x_c,j的投射矩阵。

所述线性三角变换方法为：假设每个视图的关节坐标彼此独立，因此都对三角变化做出了可比的贡献；不同角度下对应的系数矩阵的可学习权重w_c；

w_j＝(ω_1,j,ω_2,j,…,ω_C,j)；°运算符表示Hadamard乘积，权重ω_c,j是卷积神经网络

所输出的结果：

该方法的输入是一组具有已知相机参数的RGB图像；2D人体识别算法产生关节的热图和相机关节的置信度，通过应用soft-argmax，可从2D关节热图推断出关节的2D位置，2D位置和置信度一起传递到代数三角变换模块，该模块输出三角剖分的3D姿态，所有模块都允许反向传播梯度，因此可以端到端地训练模型。

单视图3D姿势估计第一类的优势是：简单，快速，可以在运动捕获数据上进行训练(带有骨架/视图增强)，并且可以在训练后切换2D骨架；

其中多视图3D姿势估计的优势是：这种方法可以有效地使用来自不同视图的信息，并可以在运动捕获数据上进行训练。

实际上目前主流研究中，很少有研究在多视图设置中使用体积姿势表示。具体来说，利用2D关键点概率热图(从预先训练的2D关键点检测器获得)的未投影到体积以及随后的不可学习的聚合。我们的工作在两个方面有所不同。首先，我们以可学习的方式处理卷内的信息。其次，我们对网络进行端到端训练，从而调整2D主干网并减轻2D热图可解释性的需求。这允许将几个自洽的姿势假设从2D检测器转移到体积聚集阶段(以前的设计是不可能的)。

也有研究使用了一个多阶段方法，先于外部3D姿态从2D关节的坐标推断出3D姿态。在第一阶段中，所有视图的图像都通过深度卷积神经网络传递，以获得2D关节的热图。热图中的最大值位置通过优化3D姿态先验空间中的潜在坐标，共同用于推断3D姿态。在随后的每个阶段，将3D姿势重新投影到所有摄影机视图，并与来自上一层的预测(通过卷积网络)融合在一起。接下来，根据热图最大值的位置重新估算3D姿态，然后重复该过程。这样的程序允许通过对人体姿势的间接整体推理来校正2D联合热图的预测。与我们的方法相反，有的研究没有从3D预测到2D热图的梯度流，因此没有直接信号来校正3D坐标的预测。

一种多视角情况下的3D人体动作识别算法，是在多摄像头条件下，在固定帧的范围内三维空间下人体动作的识别，动作检测框架可以作为一个统一的识别框架同时识别2D和3D中的人体动作，通过该框架，可以快速的将2D动作识别扩展到3D动作识别。我们在三维空间中使用此框架添加从图片中获取到的人体骨骼，关节，和各种约束。

关于动作识别框架，假设我们已经使用投影矩阵同步了C个摄像机至统一的全局坐标系下，方便获取场景中人体数据；我们的目标是估计全局坐标系下的在时间t下，关节j∈(1…,J)的人体三维关节点位的位置y_j,t。对每帧来说，我们使用现成的2D人体检测算法或者数据集中自带的边界框来剪裁图像。随后我们使用剪裁后的图像I_c作为训练数据传递到深度卷积神经网络框架。

关于深度卷积神经网络框架由ResNet-152(参数权重为θ，网络输出为g_θ)，一系列输出中间热度图的转置卷积层(输出为f_θ)和一个使用1×1大小的核把中间热度图转换成可解释的关节热度图的卷积神经网络(输出为h_θ，输出维度和关节数量相同)。

本发明的优点是：提出一种多视角情况下的3D人体动作识别算法，是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。

附图说明

图1为本发明一个实施例中从多角度识别人体动作的方法的示意图；

图2为本发明一个实施例中深度卷积神经网络的结构示意图；

图3为本发明一个实施例中多角度信息聚合方法的结构示意图。

具体实施方式

本发明提出一种多视角情况下的3D人体动作识别算法，其特征在于：该人体动作识别算法分为单视图3D姿势估计和多视图3D姿势估计；

关于单视图3D姿势估计可以分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过深度神经网络(完全连接，卷积或递归)将2D坐标分别提升为3D；第二类使用深度卷积神经网络直接从图像推断3D坐标；本发明使用的是第一类方法作为主框架，使用深度卷积神经网络作为高质量的2D姿态估计引擎。

深度卷积神经网络

深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络，是深度学***移不变分类，因此也被称为“平移不变人工神经网络”。近年来，卷积神经网络在各个图像识别大赛上大放异彩。所以，本发明使用深度卷积神经网络作为2D姿态估计引擎，关于卷积神经网络的结构图如图2所示。

深度卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组甚至三维数据，其中一维数组可能通常为时间序列数据；二维数组大多数为灰度图；二维卷积神经网络的输入层接收RGB图像的三维数组。

深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见结构。在常见构筑中，卷积层和池化层为深度卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数。卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元。其中卷积层的算法为：

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。其一般表示形式为：

卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于人体动作识别问题，输出层是不同动作的分类标签，具体表现形式如图2所示。

关于多视图3D姿势估计，旨在获得单眼3D人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练可以预测全局3D关节坐标。其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。多角度信息聚合方法是本发明提出的新的多视角人体坐标系转换方法。

多角度信息聚合方法

多角度信息聚合方法具体形式为代数三角变换。我们可以使用三角变换来单独处理每个关节j。此方法建立在2D坐标中的三角变换方法之上，其中人体关节坐标的信息来自于动作识别框架中不同角度的热度图。H_c,j＝h_θ(I_c)_j.为了估计2D关节位置信息，我们首先计算空间轴上的softmax层：

参数α后续会讨论，随后我们计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估(所以叫做soft-argmax)。

Soft-argmax的一个重要特征就是不获取最大特征的索引，这样就方便热度图H_c进行梯度反向传播。因为二维人体识别框架使用Loss进行预训练。我们通过把热度图和反转热度参数α相乘来调整图中关节热度，所以soft-argmax的训练过程的开始阶段就输出了最大可能的位置。

为了从2D关节位置信息x_c,j推断三维关节位置信息，我们使用了线性三角变换方法。该方法减少了对关节y_j的3D坐标的搜索量，从而解决了关节y的齐次3D坐标矢量上的超定方程组：

A_jy_j＝0

其中

是x_c,j的投射矩阵。

朴素的三角变换算法假设每个视图的关节坐标彼此独立，因此都对三角变化做出了可比的贡献。但是，在某些视图上，关节的2D位置无法可靠估计(例如，由于关节闭塞)，从而导致最终三角变换结果不尽人意。这极大地加剧了优化代数重投影误差的方法趋向于对不同方向上的不均衡程度的趋势。可以通过将RANSAC与Huber损失一起使用(用于对与内部误差相对应的重投影误差进行评分)来解决该问题。但是，这有相对于的缺点。例如，使用RANSAC可能会完全切断到排除摄像机的梯度流。为了解决以上提到的文通，我们附加了不同角度下对应的系数矩阵的可学习权重w_c。

w_j＝(ω_1,j,ω_2,j,…,ω_C,j)；°运算符表示Hadamard乘积。权重ω_c,j是卷积神经网络

所输出的结果。

基于具有学习置信度的三角变换方法的概述。该方法的输入是一组具有已知相机参数的RGB图像。2D人体识别算法产生关节的热图和相机关节的置信度。通过应用soft-argmax，可从2D关节热图推断出关节的2D位置。2D位置和置信度一起传递到代数三角变换模块，该模块输出三角剖分的3D姿态。所有模块都允许反向传播梯度，因此可以端到端地训练模型。

关于本发明的应用场景，随着现代网络技术与计算机技术的快速发展，人们逐渐走向了信息化与智能化时代。人体姿态识别技术是通过利用计算机对输入的视频或者图像序列进行处理，分析和理解，最终得到人体姿态的高级语义解释与自动判断结果的一个过程。人体姿态识别技术在智能楼宇监控，运动物体分析，虚拟现实，感知接口，电影以及游戏动作录制以及军事目标识别等多个领域有着广泛的应用和发展前景。本发明中的人体姿态是基于人体骨架特征来进行识别的，骨架是物体的一种拓扑结构描述方式，它被广泛地应用于道路探询，路径规划和特征识别等领域。本发明主要工作目标和工作内容是寻找一种计算简便的框架。随着现代网络技术与计算机技术的快速发展，人们逐渐走向了信息化与智能化时代。人体姿态识别技术是通过利用计算机对输入的视频或者图像序列进行处理，分析和理解，最终得到人体姿态的高级语义解释与自动判断结果的一个过程。人体姿态识别技术在智能楼宇监控，运动物体分析，虚拟现实，感知接口以及军事目标识别等多个领域有着广泛的应用和发展前景。

关于骨骼跟踪原理和我们的研究之间的联系，普通的骨骼跟踪原理简单的使用了单一摄像头的图片信息，采用普通的CNN网络直接对其拟合，其效果完全取决于数据集的丰富性。由于人体肢体遮挡等问题，我们采用了多摄像头解决看不见的肢体识别问题，通过采用高准确度的2D姿势估计并通过三角变换转换成了3D的姿势，提高了识别结果的准确性。

本发明介绍了两种基于可学***滑的姿态序列，它可以潜在地改善目标数据集的标注问题。我们推测，由于该方法在学习人的姿势具有透视能力，因此对人的遮挡和部分视图具有鲁棒性。该方法的另一个重要优点是，它明确地将摄像机参数作为独立输入。最后，如果已知人类的大概位置，则体积三角剖分也可以推广到单眼图像，从而产生接近最新技术的结果。

Claims

1.一种多视角情况下的3D人体动作识别算法，其特征在于：该人体动作识别算法分为单视图3D姿势估计和多视图3D姿势估计：

关于单视图3D姿势估计分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过完全连接，卷积或递归的深度神经网络将2D坐标分别提升为3D；第二类使用深度卷积神经网络直接从图像推断3D坐标；3D人体动作识别算法使用的是第一类方法作为主框架，使用深度卷积神经网络作为高质量的2D姿态估计引擎；

2.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络，多维数据可以作为深度卷积神经网络的输入层的输入，我们将一维数据或者二维数据作为输入传递给深度卷积神经网络的输入层，其中一维数组通常为时间序列数据；二维数组大多数为灰度图；本发明采用的卷积神经网络的输入层接收RGB图像的三维数组；

3.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

A_jy_j＝0

其中

是x_c,j的投射矩阵。

4.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

w_j＝(ω_1,j,ω_2,j,…,ω_C,j)；

运算符表示Hadamard乘积，权重ω_c,j是卷积神经网络

所输出的结果：