CN112668543A

CN112668543A - 一种手模型感知的孤立词手语识别方法

Info

Publication number: CN112668543A
Application number: CN202110016997.XA
Authority: CN
Inventors: 李厚强; 周文罡; 胡鹤臻
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-16
Anticipated expiration: 2041-01-07
Also published as: CN112668543B

Abstract

本发明公开了一种手模型感知的孤立词手语识别方法，包括：对于从手语视频中截取的手序列，通过视觉编码器转换为包含手部状态的隐语义表征；之后，通过手模型感知解码器以模型感知的方式工作，将包含手部状态的隐语义表征映射为三维手网格，并得到每个手关节点位置；最后，通过推理模块对三维手网格进行优化，获得每个手关节点的时空表征，再进行分类，从而识别出手序列所对应的词汇。该方法能够融合模型与数据驱动，引入手型先验，提高***的识别准确率，并且能够对中间结果(即三维手网格)进行可视化，增强框架的解释性。

Description

一种手模型感知的孤立词手语识别方法

技术领域

本发明涉及手语识别技术领域，尤其涉及一种手模型感知的孤立词手语识别方法。

背景技术

根据世界卫生组织WHO在2020年的统计数据，全球大约有4.66亿人存在听力障碍，大约占有全球总人口的5％。在听障人群中，最常用的交流媒介是手语。手语作为一种视觉语言，有着它独特的语言特性。它主要通过手控特征(手型、手的运动及位置等)，辅助以细粒度的非手控特征(表情、唇型等)来表达语义信息。

为了解决听人与聋人之间的交流鸿沟，手语识别应运而生并被广泛地研究。通过计算机算法，它将输入的手语视频转换为对应的文本。孤立词手语识别是其中的基础任务，它将输入的手语视频识别为这个视频对应的词汇。通常的识别流程为，首先对输入的手语视频提取表征，然后将该表征变换为概率向量，从中取概率最大对应的类别作为识别结果。

手在手语表意中呈现主导地位，手仅占据较小的空间尺寸，展现出高铰接式的关节点。相比于身体和脸，手有着相似的外观和较少的局部辨别特征。在手语视频中，手通常会出现运动模糊和自遮挡现象，并且其背景复杂。

早期工作通常采用人工设计的特征来描述手势。随着近些年深度学习与硬件计算能力的发展，基于深度学习的手语识别***逐渐占据主导地位。它通过卷积神经网络(Convolutional Neural Network，CNN)来提取表征，然后将表征通过全连接和Softmax层后转换为概率向量，取最大概率对应的类别作为识别结果。近年来，一些工作将手抠出作为额外的辅助支路，并且取得了一定的性能提升。这些基于深度学习的方法都是在数据驱动的范式下进行的，其中的特征是在视频类别标签的监督下学到的。然而直接的数据驱动的手语识别方法有如下问题：可解释性有限；容易在有限的训练数据下过拟合。由于手语数据的标注需要专业知识，现有的手语数据集相比于动作识别数据集，每个类别的样本数都比较少，因此，现有方案的识别准确率还有待提升。

发明内容

本发明的目的是提供一种手模型感知的孤立词手语识别方法，能够提高***的识别准确率，并增强识别框架的解释性。

本发明的目的是通过以下技术方案实现的：

一种手模型感知的孤立词手语识别方法，包括：

对于从手语视频中截取的手序列，通过视觉编码器转换为包含手部状态的隐语义表征；之后，通过手模型感知解码器以模型感知的方式工作，将包含手部状态的隐语义表征映射为三维手网格，并得到每个手关节点位置；最后，通过推理模块对三维手网格进行优化，获得每个手关节点的时空表征，再进行分类，从而识别出手序列所对应的词汇。

由上述本发明提供的技术方案可以看出，能够融合模型与数据驱动，引入手型先验，提高***的识别准确率，并且能够对中间结果(即三维手网格)进行可视化，增强框架的解释性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种手模型感知的孤立词手语识别方法的框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

针对现有技术存在的技术问题，本发明实施例提供一种手模型感知的孤立词手语识别方法，能够融合模型与数据驱动，引入手型先验，提高***的识别准确率，同时增强***的可解释性，如图1所示，为本发明实施例提供的一种手模型感知的孤立词手语识别方法的框架图，主要的识别过程包括：对于从手语视频中截取的手序列，通过视觉编码器转换为包含手部状态的隐语义表征；之后，通过手模型感知解码器以模型感知(model-aware)的方式工作，将包含手部状态的隐语义表征映射为三维手网格，并得到每个手关节点位置；最后，通过推理模块对三维手网格进行优化，获得每个手关节点的时空表征，再进行分类，从而识别出手序列所对应的词汇。

为了便于理解，下面结合图1所示的框架图对识别框架中的各个部分以及相应的训练与测试过程做详细的介绍。

一、框架结构。

1、视觉编码器(Visual Encoder)。

本发明实施例中，所述视觉编码器的输入为从手语视频中截取的包含T帧手序列

通过视觉编码器将手序列V′转换为隐语义表征，表示为：

其中，E(·)表示视觉编码器，v_t表示t时刻的手图像，T为手序列长度；θ与β表示手部状态，分别为手姿态和形状的表征；c_r、c_o与c_s表示相机参数c，分别用于指示旋转、平移和缩放。

本发明实施例中，手序列V′为RGB视频手序列，从手语视频中截取的方式可通过常规方式来实现，训练阶段与测试阶段所涉及的数据集都是手语视频中截取的手序列。

示例性的，视觉编码器可以通过ResNet末尾连接全连接层来实现。

示例性的，隐语义表征中：

表示实数集。

2、手模型感知解码器(Model-aware Decoder)。

手模型感知解码器尝试以一种模型感知的方法，实现从隐语义特征向量到简洁的姿态表征的映射。通过预先编码的手型先验，手模型感知解码器约束了可能手势的分布，在映射过程中，隐式地滤除了不合理的手势。最后，它能够生成一个更加简洁、可信度高的手姿态，并为末端的推理模块降低了优化难度。

本发明实施例中，所述手模型感知解码器是一个统计模块，示例性的，可以使用可微的MANO手部模型作为手模型感知解码器。

手模型感知解码器，可以预先利用大量高质量的手部扫描进行学习，通过学习也可以得到手部模板

通过这种方式，手型先验被编码。同时，一种简洁的映射可以被建立用于描述手，即从低维语义向量(隐语义特征向量)到高维的三角手网格(包含778个节点和1,538个面)。

手模型感知解码器的映射过程表示为：

M(β，θ)＝W(T(β，θ)，J(β)，θ，W′)

其中，T(β，θ)表示根据手姿态和形状的表征θ与β，通过混合函数B_S(·)和B_P(·)与手部模板

得到的修正结果；W′为混合权重；J(β)为手模型感知解码器提供的包含多个手关节的手部形状的表征；W(·)表示骨骼蒙皮动画算法；M(β，θ)表示三维手网格(3D Mesh)。

同时，更为简洁的三维手关节点(3D Joint)位置也可以从手网格相关点的线性插值中取出。考虑到MANO手部模型仅提供16个手关节点，可以从三维手网格中再提取5个指尖，组成21个手关节点。

手模型感知解码器可以展现出中间结果，即手的重建得到的三维手网格，从而增强框架的解释性。

3、推理模块(Inference Module)。

手模型感知解码器预测出的三维姿态序列(由T个手图像中三维手关节点位置构成)也许会存在一些不满意的结果。推理模块被用于进一步优化手姿态的时空表征。通过进一步自适应的注意力计算，推理模块抓住最关键的线索，并执行视频级别的分类。

手姿态序列是一种结构化数据，并存在关节点间天然的物理连接，这也让它可以天然地组织成时空图。本发明实施例中，使用了一种流行的、被证明可有效处理图结构数据的图卷积神经网络(GCN)，之后，通过分类输出层执行视频级别的分类。

将手模型感知解码器输出的手关节点位置序列记为

其对应的无向时空图G(V，E)通过点集V和边集E来定义，点集V包含所有手关节点位置，边集E包括帧内和帧间连接，也即手关节点的物理连接和同一个关节点沿着时间上的连接；根据边集E得到的邻接矩阵

和单位矩阵I一起被用于图卷积神经网络层，图卷积的过程表示为：

其中，k是邻域节点所属的组，W_k是卷积核权重，

被拆解为k个子矩阵，也即：

各子矩阵A_k代表拆解后的连接关系，T_k为中间变量，用于计算矩阵D，M为权重，矩阵D用于归一化，m、n为矩阵D的行、列号，

为Hadamard乘积符号；手关节点的信息通过在边之间传输，从而获得每个手关节点的时空表征(不仅包含位置信息，还包含一定的语义信息)；进一步地，Hadamard乘积在可学习的初始化为全1的注意力权重M与A_k之间进行，从而帮助网络捕捉有辨别力的线索。

本发明实施例中，通过多个堆叠的图卷积神经网络层后，由分类输出层进行分类，从而识别出手序列所对应的词汇。

二、模型训练。

本发明实施例中，将视觉编码器、手模型感知解码器及推理模块作为一个识别模型。由于手语数据集没有手部姿态的标注，因此，在训练阶段(Training Stage)，除了交叉熵分类损失

(Classification Loss)，还根据各阶段的输出设计了相应的损失函数(基于中间手姿态空间和时间关系的弱监督损失函数)去引导中间姿态表征的学习。在训练阶段，识别模型的总损失函数表示为：

其中，

定示推理模块的交叉熵分类损失，

和

表示手模型感知解码器得到的手关节点位置的空间和时间一致性损失，

是视觉编码器得到的隐语义表征中手部状态的正则化损失；λ_spa、λ_tem及λ_reg分别为相应损失的权重因子。

在训练过程中，基于总损失函数由于识别模型的参数，训练流程可通过常规方式实现。

1、正则化损失(Regularization Loss)。

为了保证手模型合理地工作并生成合理的手网格，正则化损失用于进一步约束部分隐特征的幅值，正则化损失

表示为：

其中，w_β表示权重因子。

2、空间一致性损失(Spatial Consistency Loss)。

本发明实施例中，基于弱透视相机模型，结合视觉编码器输出相机参数，将手模型感知解码器预测出的三维姿态序列映射到二维空间；映射过程表示为：

其中，Π(·)代表正交投影，

表示利用相机参数将手模型感知解码器输出手关节点位置序列

映射到二维空间后的位置序列。

同时，预先利用二维手势检测器(2D Hand Pose Detector)从手序列中提取出的手关节点(2D Joints)的二维位置序列J_2D，并将其作为伪标签，约束它与映射结果

向一致性。

空间一致性损失

表示为：

其中，N为手关节点的总数(例如，N＝21)；T为手序列长度；(t，j)表示t时刻第j个手关节点；c(t，j)表示预先提取的t时刻第j个手关节点位置的置信度，置信度c(t，j)大于等于阈值ε则参与空间一致性损失

的计算，否则不参与计算；

表示指示函数。

3、时间一致性损失(Temporal Consistency Loss)。

为了避免抖动的预测，进一步约束预测的三维关节点的时间一致性。在手语的过程中，不同的手关节点通常有着不一样的移动速度，即距离手掌更近的关节通常速度更低。因此，将手关节点分为三组，{S_i|i＝0，1，2}，分别对应手掌、中部和终部关节集合。

时间一致性损失

表示为：

其中，

表示手模型感知解码器输出手关节点位置序列，(t，j)表示t时刻第j个手关节点，S_i为手关节点构成的集合；α_i指的是对于集合S_i预先定义的惩罚权重，对于运动速度更慢的集合，将给予更大的惩罚权重。

三、测试阶段。

测试阶段(Testing Stage)与训练阶段主要流程相同，主要区别在于，测试阶段无需使用相机参数也无需计算各项损失。测试阶段主要流程为：输入抠出的手视频序列，通过视觉编码器得到手部状态的隐语义表征，经手模型感知解码器得到相应的三维手网格，最后经推理模块进行优化，获得每个手关节点时空表征，从而进行视频级别的分类，输出相应的词汇。

如图1的右侧所示，对于某些手图像通过推理模块分类输出层得到对应不同词汇的概率，选择最大概率对应的类别。

本发明实施例上述方案，能够融合模型与数据驱动，引入手型先验，提高***的识别准确率，并且能够对中间结果进行可视化，增强框架的解释性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。