CN112199994A

CN112199994A - 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置

Info

Publication number: CN112199994A
Application number: CN202010916742.4A
Authority: CN
Inventors: 薛聪; 吴彦坤; 向继; 查达仁; 王雷
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2021-01-08
Anticipated expiration: 2040-09-03
Also published as: CN112199994B

Abstract

本发明涉及一种实时检测RGB视频中的3D手与未知物体交互的方法和装置。该方法的步骤包括：以视频帧作为输入训练卷积神经网络，卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别；以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入训练交互循环神经网络，循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别；将待检测视频输入训练完成的卷积神经网络和交互循环神经网络，得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。本发明不需要深度照片或真实物体姿态坐标作为输入，提升了手部动作识别准确率，大大提升了识别范围，更方便应用于生活中。

Description

一种实时检测RGB视频中的3D手与未知物体交互的方法和装置

技术领域

本发明涉及手与物体交互识别，目的在于实时检测RGB视频中手与未知物体的运动轨迹和交互类别，该方法基于卷积神经网络技术和循环神经网络技术实现，属于计算机视觉领域中的行为理解子领域。

背景技术

近年来，随着计算机视觉与虚拟现实技术的发展以及日益增长的生活家居智能化的需求，“以人为中心”的动作识别和行为理解逐渐成为计算机视觉领域的研究热点。而在行为理解领域里，手与物体交互的识别是至关重要的，识别手与物体的交互包括识别手部动作类别以及物体类别，有了手与物体交互的语义信息我们才能更好地理解用户意图和预测其下一步动作。同时，检测实时手形与动作跟踪也一直是手语识别与手势控制***中最为核心的组成部分，在部分增强现实体验中也扮演着重要的角色。

目前，手部的识别主要可分为基于视觉的非接触式和基于传感器信息的接触式两类。基于传感器信息的方法需要操作者穿戴数据手套等设备，且更换操作者后需重新调整参数，虽能实时直接获得手势在空间的三维位姿信息，但由于其操作不便性，在现实中普及具有一定难度。与之相比，基于视觉的手势识别能够使操作者以更加自然的方式进行人机交互。所以在未来人机交互和监控中，很大程度上需要依靠视觉***来使机器感知人的意图，其中基于视觉的动作识别和行为理解便尤为重要。

然而，尽管对于视觉场景的语义上有意义的解释至关重要，但共同理解人类和物体的问题却很少受到关注。目前大量研究集中在对人类和物体彼此隔离的视觉理解上。传统的识别手部动作的方法将第一视角下的手部单独分割出来识别其手势(G.Rogez,J.Supancic,and D.Ramanan.First-Person Pose Recognition Using EgocentricWorkspaces.In CVPR,2015.)，或在第一视角与第三视角RGB图像中识别的手部姿势(U.Iqbal,P.Molchanov,T.Breuel,J.Gall,and J.Kautz.Hand Pose Estimation viaLatent 2.5D Heatmap Regression.In ECCV,2018.)，但这些并没有对与手有交互的物体共同建模。有的方法在估计手部动作的时候将物体交互作为附加约束(C.Choi,S.H.Yoon,C.Chen,and K.Ramani.Robust Hand Pose Estimation during the Interaction withan Unknown Object.In ICCV,2017.)，提高了手部动作识别的准确率，但依赖深度图像作为输入。有的方法对手与物体的姿态重构(Learning Joint Reconstruction of Handsand Manipulated Objects.Yana Hasson,Gul Varol,Dimitrios Tzionas,IgorKalevatykh,Michael J.Black,Ivan Laptev,Cordelia Schmid.In CVPR,2019)，但并没有学习到语义信息。有的方法可以识别手与物体的交互(Tekin B,Bogo F,Pollefeys M.H+O:Unified egocentric recognition of3d hand-object poses and interactions.InCVPR,2019.)，但只能识别数据集中已知的物体，缺乏泛化性。

虽然已有方法可以分析手与物体交互的语义信息，但能识别的物体类别受手部数据集的限制，而已有的手部运动数据集中与手交互的物体类别非常有限，标注新数据又需要耗费大量的人力物力。所以，提出一个可以根据RGB视频来识别手与未知物体的交互的方法是很有现实意义的。

发明内容

本发明的目的是提出一种根据RGB视频，能实时检测出3D手与未知物体的空间姿态和交互类别的方法和装置。

发明人发现，现有技术中的许多方法都是解决手或物体孤立状态下的姿态，而这些识别手势的方法只能识别出手部的形态和一些简单手势(如竖起大拇指、胜利的手势)，不能识别与物体之间的交互关系；有些重建手与物体姿态的方法对物体边缘都得到了很好的还原，但并没有分析出此场景的语义信息；有些识别动作的方法则需要依赖深度图像的输入，否则准确率很低；有些估计物体姿态的方法并不直接算出6D姿态，而是先生成2D框架，再通过PnP算法计算6D姿态，从而损失了部分信息。本发明解决了以上问题，且可以一次完成多项任务，是一个端到端的，输入RGB视频便可以同时预测出3D手和物体姿态及动作和类别估计的方法，且不需要深度照片或真实物体姿态坐标作为输入，并提升了手部动作识别准确率。

如图1所示，本发明发明主要为一个卷积神经网络(CNN)和一个交互循环神经网络(交互RNN)，卷积神经网络用来识别每帧图像的3D手姿势、6D物体姿态(物体的3D位置和3D方向)、手部动作(倒、打开、关闭等)、物体类别(牛奶、洗洁精、果汁盒等)，循环神经网络用于提取整合视频中的时序特征，得出整个视频的手与物体的交互类别(倒牛奶、打开果汁盒等)。本发明的方法分为训练过程和使用过程。在训练过程阶段，分两步分别训练，首先以视频帧作为输入，训练卷积神经网络，预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别，训练好后固定其参数，接着训练循环神经网络，将其检测到的手与物体关键点坐标作为循环神经网络的输入，输出整个视频中的手与物体的交互类别估计。在使用过程阶段，完整的模型以一系列视频帧作为输入，经过两个神经网络后输出每帧3D手姿势和物体姿态预测以及整个视频帧序列的物体和动作类别的估计。

本发明所采用的技术方案主要包括以下步骤(如无特殊说明，以下步骤均由计算机和电子设备的软硬件执行)：

(1)模型搭建与训练。对于首次使用该模型时，用户首先需要对卷积神经网络与交互循环神经网络进行训练，然后才能使用训练好的模型进行动作识别。

(2)视频输入。输入一段RGB视频，本发明的模型可以实时检测出视频中每帧图像的手的3D位置(即3D姿势)、物体的6D姿态、手的动作、物体类别估计以及整段视频中手与物体的交互动作。

进一步地，在模型的详细设计中，如图2，指定了手与物体各有21个关键点(手的关键点为每根手指的四个关节和手腕节点，物体的关键点为物体边界框的八个顶点、中心点以及12条边的中点)，通过预测关键点的坐标来确定其姿势(即3D手姿势和6D物体姿态)。

进一步地，所述卷积神经网络预测关键点的坐标以及预测手部动作和物体类别的方法是：

如图3、图4，将每个图片帧划分H×W个网格，并往深度扩展D个网格(H、W、D分别表示高度、宽度、深度)，在平面上以像素(pixels)为单位，在深度方向以米(meters)为单位，即每个网格大小为C_u×C_v像素×C_z米。在这个网格坐标系中以网格左上角为坐标系原点，以一个网格为单位。

为了能同时联合预测手和物体的姿态与类别，如图4，在每个单元格(即网格)中都储存两个向量

来分别预测手和物体的特征，其中

分别是手和物体关键点的坐标，

N_c为手或物体关键点个数，

为动作类别概率，

N_a为动作类别数，

为物体类别概率，

N_o为物体类别数(本发明添加了一类背景类，若物体为未知物体则会被分为背景类，再进入零次学习分类器来识别未知的物体)。其中手腕节点与物体中心点所在的网格用来预测动作与物体的类别。

为置信度，

每个单元格储存的这两个向量由卷积神经网络得出。本发明先确定关键点所在的单元格的坐标(u,v,z)，再预测关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz，便可以得出关键点在网格坐标系中的坐标：

其中，由于手腕节点和物体中心点所在单元格负责预测动作和物体类别，所以用g(x)来控制这两个点的偏移在[0,1]之间，从而确定负责预测动作与物体类别的单元格。g(x)表达式如下：

其中，g(x)表示约束手腕节点与物体中心点的偏移的函数，x表示关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz，sigmoid表示激活函数，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，利用这个函数使手腕节点与物体中心点偏移后仍然处于所在的单元格内来预测动作与物体类别。

另外，有了在网格坐标系的三维位置和相机内参K，便可以算出关键点在相机坐标系中的三维坐标为：

进一步地，对手或物体存在的网格设定更高的置信度，设定置信度函数为：

其中，D_T(x)是预测点与真实点的欧式距离，α表示超参，d_th表示设定的阈值，当预测值越接近于真实值时，D_T(x)越小，c(x)越大，表示置信度越大，反之，表示置信度越小。总置信度为：

其中：

进一步地，当物体的背景类别的概率最大时，判定这物体属于未知的类别。如图6，利用一个零次学习分类器模块，通过引入语义信息来识别未知的物体类别。零次学习分类器模块将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘，再将得到的这些语义向量相加，作为最终预测的语义向量，接下来计算语义空间中的类别与其相似度，当相似度最高值不低于阈值时，认为此未知物体属于相似度最高的类。

进一步地，本发明的卷积神经网络的总损失函数为：

其中，λ_pose表示预测手与物***置的损失函数参数，λ_conf表示置信度的损失函数参数，λ_actcls表示预测动作类别的损失函数参数，λ_objcls表示预测物体类别的损失函数参数，G^t表示划分图片的规则固定网格；

表示预测的手坐标，

表示预测的物体坐标，

表示预测的手动作类别的置信度，

表示预测的物体类别的置信度，

表示预测的物体类别概率，

表示预测的动作类别概率。

进一步地，由于卷积网络只学习了每帧图像的信息，而并没有利用视频中的时序信息，所以本发明添加了交互循环神经网络部分，如图5，以卷积网络算出的手与物体的关键点坐标向量

输入一个多层感知机建模它们的关系，再将其作为循环神经网络的输入，循环网络的模型如下：

其中，f_φ是一个循环神经网络模型，g_θ是一个多层感知机模型，最后输出这个视频中手与物体的交互类别。

基于同一发明构思，本发明还提供一种采用上述方法的实时检测RGB视频中的3D手与未知物体交互的装置，其包括：

模型训练模块，用于以视频帧作为输入，训练卷积神经网络，所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别；并以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入，训练交互循环神经网络，所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别；

实时检测模块，用于将待检测视频输入训练完成的卷积神经网络和交互循环神经网络，得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。

本发明中的RGB视频中识别3D手与物体交互的方法，极大提高了实用性，具体包括：

(1)本发明方法不需要依赖RGB-D相机拍摄的深度图像，且只需要输入一系列帧便可以检测RGB视频中的手物交互，使得生活中可以应用的范围大大增加。

(2)本发明方法可以以实时的速度同时检测出手与物体的位置轨迹以及动作类别和物体类别估计，可以应用于异常行为检测。

(3)本发明方法可检测出不在训练集中的未知的物体类别，大大提升了识别范围，提高了泛化性，更方便应用于生活中。

附图说明

图1是基于RGB视频的识别3D手与物体交互的方法流程示意图；其中I₁～I_N表示N个视频帧，CNN为卷积神经网络，RNN为循环神经网络。

图2是手与物体关键点示意图；其中(a)图示意了21个手的关键点，(b)图示意了21个物体关键点，(a)图中P、R、M、I、T表示5个手指，TIP表示指尖，DIP表示远指关节，PIP表示近指关节，MCP表示指掌关节，Wrist为手腕。

图3是输入图像的网格坐标系示意图；

图4是在网格坐标系中，手与物***置以及其所在单元格存储的向量示意图；

图5是模型中的交互循环网络示意图，其中x₁～x_N表示该交互循环神经网络的输入。

图6是模型中的零次学习分类器模块示意图。

具体实施方式

下面结合附图和具体实施例对本发明方法作进一步描述。

本发明的手部动作识别方法不需要依赖外部检测算法，仅需对单张图像进行的端到端训练。输入单个RGB图像，通过神经网络进行一次前馈传递后，便可以共同估计出3D手和物体姿态，对它们的交互进行建模并识别物体与动作类别，当物体类别被识别为背景类时，通过零次学习分类器模块在语义空间中计算并寻找最相近的类别来预测物体未知的类别。接着，进一步在时域中合并和传播手与物体的姿态信息，以推断手和对象轨迹之间的交互并识别动作。本方法将一系列帧作为输入，便可输出每帧3D手和物体姿态预测以及整个序列的物体与动作类别的估计。

图1为基于RGB视频的识别3D手与物体交互的方法流程示意图，其方法主要包括以下步骤：

(1)模型训练。模型训练分为两部分，先训练卷积神经网络，再固定其训练交互循环神经网络。卷积神经网络是基于YOLO的架构，网络总共有31层，除最后一层为预测器之外，其余层均为卷积层或池化层等，经过最后的预测器后得到一个H*W*D*2*(3×N_c+1+N_a+N_o)的向量，对应网格中每个格子里包含的两个手和物体的向量。本实施例的方法中，H＝W＝13，D＝5。本实施例输入的图片大小为416*416。训练好卷积网络后，将每帧图像经过卷积网络得出的手和物体的关键点向量经过一层隐藏层的多层感知机来学习他们的交互关系，再输入两层隐藏层的循环神经网络，最后输出交互类别估计。本实施例训练的数据集为First-Person Hand Action(FPHA)数据集，是一个可公开获得的3D手-物体交互识别数据集，其中包含3D手姿势，6D物体姿势和动作类别的标签。FPHA包含的视频属于6个演员的45个不同活动类别，受试者执行与日常人类活动相对应的复杂动作。数据集的一个子集包含物体6D姿势的注释，以及涉及10个不同动作类别的4个物体的对应网格模型。将训练集根据与手交互的物体类别分为两部分，训练集和测试集，其中测试集中包括未出现在训练集的物体类别(未知类)。

(2)检测阶段。将一系列视频帧输入至模型中，便可估计出每帧图像的手和物体的3D姿态以及整个序列中手与物体的交互类别。当预测物体为背景类时，便通过零次学习分类器来预测出物体的未知类别。

图2为手与物体的关键点示意图，为了方便统一计算，均取21个关键点。手的关键点为每根手指的四个关节，以及手腕节点。物体的关键点取其边界框的八个顶点、中心点以及12条边的中点。其中，手腕节点与物体中心点所在的格子用来预测物体与动作的类别。

图3是输入图像的网格坐标系示意图，设网格左上角为坐标原点，每个格子为一个单位，格子坐标即为相对左上角偏移的格子数。

图4是在网格坐标系中，手与物***置以及其所在单元格存储的向量示意图，单元格有无物体是以有无关键点落入格子中为判定标准。

图5是模型中的交互循环网络示意图，将每帧图像先经过卷积网络，取其中得出的手和物体的关键点向量

先经过多层感知机来建模他们的关系，再将得出的向量经过两层隐藏层的循环神经网络来学习视频中的时序信息，最后输出交互类别估计。

图6是模型中的零次学习分类器模块示意图，当背景类的概率最大时，判定这物体属于未知的类别。将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘，再将得到的这些语义向量相加，作为最终预测的语义向量，接下来计算语义空间中的类别与其相似度，当相似度最高值不低于阈值时，认为此未知物体属于相似度最高的类。

即使在复杂的现实场景下，本发明的方法也可以从RGB视频中，实时高效地识别手与未知物体的轨迹、类别与交互动作，并从中得到视频中的语义信息和捕捉序列的时序信息，大幅提高了动作识别效率，同时能够解决在传统手势识别中不能识别与物体交互的语义信息的问题，且不需要深度图像或是真实物体坐标数据的输入，也可以识别出与手交互的未知的物体，为其广泛应用提供了良好的理论基础。

以上实施例的模块卷积神经网络、零次学习分类器以及循环神经网络可以进行任意的组合，为使描述简洁，未对上述实施例中的各个模块所有可能的组合都进行描述，然而，只要这些模块的组合不存在矛盾，都应当认为是本说明书记载的范围。

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的实时检测RGB视频中的3D手与未知物体交互的装置，其包括：

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种实时检测RGB视频中的3D手与未知物体交互的方法，其特征在于，包括以下步骤：

以视频帧作为输入，训练卷积神经网络，所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别；

以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入，训练交互循环神经网络，所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别；

将待检测视频输入训练完成的卷积神经网络和交互循环神经网络，得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。

2.根据权利要求1所述的方法，其特征在于，指定手与物体的各21个关键点，所述卷积神经网络通过预测关键点的坐标来确定3D手姿势和6D物体姿态，其中手的关键点为每根手指的四个关节和手腕节点，物体的关键点为物体边界框的八个顶点、中心点以及12条边的中点。

3.根据权利要求2所述的方法，其特征在于，所述卷积神经网络采用以下步骤预测关键点的坐标，并预测手部动作和物体类别：

将每个图片帧划分H×W个网格，并往深度扩展D个网格，在平面上以像素为单位，在深度方向以米为单位，即每个网格大小为C_u×C_v像素×C_z米，在这个网格坐标系中以网格左上角为坐标系原点，以一个网格为单位；

在每个单元格中都储存两个向量

来分别预测手和物体的特征，其中

分别是手和物体关键点的坐标，

N_c为手或物体关键点个数，

为动作类别概率，

N_a为动作类别数，

为物体类别概率，

N_o为物体类别数；其中手腕节点与物体中心点所在的网格用来预测动作与物体的类别；

为置信度，

每个单元格储存的这两个向量由卷积神经网络得出；

先确定关键点所在的单元格的坐标(u,v,z)，再预测关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz，便可以得出关键点在网格坐标系中的坐标：

其中，由于手腕节点和物体中心点所在单元格负责预测动作和物体类别，所以用g(x)来控制这两个点的偏移在[0,1]之间，从而确定负责预测动作与物体类别的单元格；g(x)表达式如下：

其中，g(x)表示约束手腕节点与物体中心点的偏移的函数，x表示关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz，sigmoid表示激活函数，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间。

4.根据权利要求3所述的方法，其特征在于，对手或物体存在的网格设定更高的置信度，设定置信度函数为：

其中，D_T(x)是预测点与真实点的欧式距离，α表示超参，d_th表示设定的阈值；总置信度为：

其中：

5.根据权利要求3所述的方法，其特征在于，当物体的背景类别的概率最大时，判定该物体属于未知的类别，利用零次学习分类器，通过引入语义信息来识别未知的物体类别；所述零次学习分类器将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘，再将得到的这些语义向量相加，作为最终预测的语义向量，然后计算语义空间中的类别与其相似度，当相似度最高值不低于阈值时，认为此未知物体属于相似度最高的类。

6.根据权利要求3所述的方法，其特征在于，所述卷积神经网络的总损失函数为：