CN113269068B

CN113269068B - 一种基于多模态特征调节与嵌入表示增强的手势识别方法

Info

Publication number: CN113269068B
Application number: CN202110538293.9A
Authority: CN
Inventors: 方昱春; 肖仕维; 冉启材
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-04-22
Anticipated expiration: 2041-05-18
Also published as: CN113269068A

Abstract

本发明公开一种基于多模态特征调节与嵌入表示增强的手势识别方法，包括采集三种不同模态视频和音频，并对视频和音频进行预处理；提取经预处理的视频的图像特征，调节所述图像特征，获得视频表示；提取经预处理的音频模态的音频特征，基于所述音频特征提取音频表示；在视频表示和音频表示上施加triplet约束，构建音频表示和视频表示的关联，获得基于音频模态的手势表示和基于视频模态的手势表示；同时，将视频表示和音频表示还进行联合训练，获得预测手势概率分布，识别手势。本发明通过各视频模态特征之间的相互调节得到冗余性较小的视频表示，加入音频模态有效融合来自音视频模态知识，使网络能得到强判别特征，对手势进行自动准确识别。

Description

一种基于多模态特征调节与嵌入表示增强的手势识别方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于多模态特征调节与嵌入表示增强的手势识别方法。

背景技术

随着深度学习技术的进步，基于深度学习的手势识别方法在人机交互，驾驶助手以及图像/视频内容检索等等实际应用中也取得了突破性的成果，越来越多的研究者将研究重点放在了手势识别上，由这一技术促进的机器对人指令意图的理解产生了重要的社会影响。大多数手语识别方法基于视觉数据，由于拍摄设备的升级，容易被获取的手势相关模态数据呈现出多样性，包括RGB视频，Depth视频，音频，骨架点数据等。由于手势动作的复杂性以及环境的影响，单独使用某一种模态进行模型训练，往往难以学习到具有强判别性的特征，因此，采用多模态进行模型训练可以给模型提供互补信息从而增强模型的鲁棒性，例如，由于光照原因或者双手遮挡，使得视觉手势难以识别时，音频模态的加入可以增强判别信息。同样，当环境中存在噪音时，模型难以只通过声音信息来进行意图识别，视觉手势模态的加入则可以弥补这个问题。同时使用多种模态独立的训练模型，则会给模型产生过多的冗余信息，容易导致过拟合等问题产生。因此，如何去除多模态数据之间的冗余性并利用好多模态数据之间的互补性是基于多模态的手语识别任务亟需解决的问题。手势识别技术在人机交互等等实际应用中的成功，可以便利人们对机器的操作，促进社会生产和经济发展。

发明内容

本发明的目的是提供一种基于多模态特征调节与嵌入表示增强的手势识别方法，以解决上述现有技术存在的问题，使手势识别过程中的不同模态视频特征能够互相调节，减少视频特征融合时带来的冗余信息，在音视频表示上施加的triplet约束很好的构建了音视频表示之间的关系，得到的特定手势完整语义空间让模型能提取到强判别特征，从而对手势的理解更加深入。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于多模态特征调节与嵌入表示增强的手势识别方法，包括以下步骤：

S1、采集第一模态视频、第二模态视频、第三模态视频和音频，并对所述第一模态视频、第二模态视频、第三模态视频和音频分别进行预处理；

S2、分别提取经预处理的所述第一模态视频、第二模态视频、第三模态视频的图像特征，调节所述图像特征，将调节后的图像特征融合，获得视频表示；

S3、提取经预处理的音频模态的音频特征，基于所述音频特征提取音频表示；

S4、在所述视频表示和所述音频表示上施加triplet约束，构建所述音频表示和所述视频表示的关联，获得基于音频模态的手势表示和基于视频模态的手势表示；同时，将所述视频表示和所述音频表示输入共享的循环神经网络进行联合训练，获得预测手势概率分布，基于预测手势概率分布识别手势。

优选的，步骤S1中的视频预处理和音频预处理包括：

将所述第一模态视频和第二模态视频切割成帧数为N的图像序列，若多于N帧，则取中间帧前后N/2帧组成N帧，若少于N帧，则用最后一帧补全；

采用OpenSMILE语音处理工具提取eGeMAPs特征集，获取预处理音频。

优选的，所述S1中图像特征提取采用提取网络VGG11。

优选的，所述S1图像特征调节采用特征调节网络，所述特征调节网络包括所述提取网络VGG11、深度模型和特征调节FM层，所述深度模型包括一个全局平均池化层和两个全连接层，所述提取网络VGG11之间通过所述全局平均池化层、两个全连接层和特征调节FM层连接。

优选的，所述S1图像特征融合包括：

第一模态视频特征提取网络VGG11第二大层的输出被送入与第二模态视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与第二模态视频特征提取网络VGG11连接的FM层用来调节第二模态视频特征；第一模态视频特征提取网络VGG11第二大层的输出还会被送入局部RGB视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与第三模态视频特征提取网络VGG11连接的FM层用来调节第三模态视频特征；

第二模态视频特征提取网络VGG11第二大层的输出被送入与第一模态视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与第一模态视频特征提取网络VGG11连接的FM层用来调节第一模态视频特征；第二模态视频特征提取网络VGG11第二大层的输出还会被送入与第三模态视频特征提取网络VGG11连接的深度模型，获得的输出参数α和β被与第三模态视频特征提取网络VGG11连接的FM层用来调节第三模态视频特征；

第三模态视频特征提取网络VGG11第二大层的输出被送入与第一模态视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与第一模态视频特征提取网络VGG11连接的FM层用来调节第一模态视频特征；第三模态视频特征提取网络VGG11第二大层的输出还会被送入与第二模态视频特征提取网络VGG11连接的深度模型，获得的输出参数α和β被与第二模态视频特征提取网络VGG11连接的FM层用来调节第二模态视频特征。

优选的，所述步骤S4中所述共享的循环神经网络由GRU单元构成。

优选的，所述步骤S4包括：

将输入的视频特征表示为x_v∈R^N，其相应的音频特征表示为x_a∈R^M，其中N和M分别表示视频和音频特征的维数，x_v和x_a分别被送入视频模态的循环神经网络和音频模态的循环神经网络：

e_v＝f_v(x_v)

e_a＝f_a(x_a)

其中，函数f_v(·)：R^N→R^E和函数f_a(·)：R^M→R^E将视频特征和音频特征映射到相同的子空间，从而产生相应的E维视频表示e_v和音频表示e_a，获取手势的分布预测概率：

y_v＝f(e_v)

y_a＝f(e_a)

式中，f(·)：R^E→R基于视频表示和音频表示分别输出预测结果，得到y_v和y_a，y_v是基于视频表示对手势的分布预测概率，y_a是基于音频表示对手势的分布预测概率；

通过交叉熵损失函数，计算音视频手势识别的联合训练损失L_j：

L_j＝l_v+μ·l_a

式中，l_v和l_a分别表示视频模态和音频模态的预测损失，μ是超参数；

通过施加在音视频表示上的triplet约束得到triplet损失，计算训练总损失L：

L＝l_v+μ·l_a+γ·l_t

其中l_t代表通过音视频表示计算得到的triplet损失，γ为超参数；

当训练结束后，基于y_v得到手势识别结果。

本发明公开了以下技术效果：本发明提出了一种基于多模态特征调节与嵌入表示增强的手势识别方法，该方法综合提取了全局Depth视频、RGB视频和局部RGB视频的特征，并在三个视频特征提取网络的中间设计了特征调节(FM)层，使得提取的视频特征能相互调节，得到冗余性较小的视频表示，又加入了音频模态，通过联合训练和嵌入表示训练两个过程，有效的融合了来自音视频模态的知识，使得网络能学习到具有强判别的特征，从而可以准确的对手势进行自动识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多模态特征调节与嵌入表示增强的手势识别方法的示意图；

图2为本发明视频特征提取网络配置的深度模型及FM层的详细模型图；

图3为本发明对于音视频表示共享空间构建的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于多模态特征调节与嵌入表示增强的手势识别方法，本实施例选用全局Depth视频、RGB视频和局部RGB视频，对上述三种视频进行预处理，将全局Depth视频和RGB视频切割成帧数为N的图像序列，本实施例中要求N为偶数，取N＝38，如果多于38帧，则取中间帧前后19帧组成38帧，如果少于38帧，则用最后一帧补全。由于局部RGB视频是对手部位置的图像切割块，因此它总共含有76帧，这些图像序列作为视频特征提取网络的输入，经过预处理后本实施例中，(1)输入网络中的图片大小为50×50个像素点。RGB视频输入和Depth视频输入包含38帧图像序列，而局部RGB视频输入则包含76帧图像序列。这三种视频的输入到网络的初始大小分别为12×38×3×50×50，12×38×3×50×50，12×76×3×50×50,12代表网络训练的批数据大小为12。采用OpenSMILE语音处理工具从语音模态里提取eGeMAPs特征集，它是大小为88的一维向量，然后作为后续音频学习网络的输入。

参照图1-3，包括以下步骤：

步骤1、分别提取经预处理的全局Depth视频、RGB视频和局部RGB视频的图像特征，将所述图像特征融合获得视频表示。

输入经预处理的三种视频模态到各自对应的图像特征提取网络，视频特征的提取网络采用VGG11，每个视频特征提取网络配置的深度模型和特征调节FM层是相同的。深度模型由一个全局平均池化和两个全连接层组成，第一个全连接层包含128个隐藏节点，第二个全连接层包含2个隐藏节点。所有的循环神经网络都具有两个隐藏层，每个隐藏层包含80个隐藏节点。处理RGB视频的网络还额外配有两套深度模型以及特征调节层，它们分别用来处理来自Depth视频网络和局部RGB视频网络前几层的输出。而处理Depth视频的网络和处理局部RGB视频的网络则各配有一套深度模型以及FM层，它们用来处理来自RGB视频网络的前几层输出。三个视频特征提取网络最后的输出经过融合然后送入一个循环神经网络形成视频表示。

具体过程为：

如图2所示，图2是对图1中VGG网络以及VGG网络之间交互组件的展示，即对特征调节网络结构的展示。FC代表全连接层，两个全连接层从来自另一模态的输入特征计算得到α和β,它们被特征调节FM层用来自身学习到的模态特征，具体包括：

(1-1)视频特征提取网络VGG11连接的深度模型包括一个全局平均池化层，两个全连接层，它的输出为α和β，数学化表示为：

α,β＝h(x)

其中h代表深度模型，x代表来自VGG11第二层的输出特征。

(1-2)α和β被FM层用来调节VGG11提取的特征：

FM(F_C|α,β)＝α·F_C+β。

即RGB视频特征提取网络VGG11第二大层的输出被送入与Depth视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与Depth视频特征提取网络VGG11连接的FM层用来调节Depth视频特征；RGB视频特征提取网络VGG11第二大层的输出还会被送入局部RGB视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与局部RGB视频特征提取网络VGG11连接的FM层用来调节局部RGB视频特征；

Depth视频特征提取网络VGG11第二大层的输出被送入与RGB视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与RGB视频特征提取网络VGG11连接的FM层用来调节RGB视频特征；Depth视频特征提取网络VGG11第二大层的输出还会被送入与局部RGB视频特征提取网络VGG11连接的深度模型，获得的输出参数α和β被与局部RGB视频特征提取网络VGG11连接的FM层用来调节局部RGB视频特征；

局部RGB视频特征提取网络VGG11第二大层的输出被送入与RGB视频特征提取网络VGG11连接的深度模型进行处理，获得的输出参数α和β被与RGB视频特征提取网络VGG11连接的FM层用来调节RGB视频特征；局部RGB视频特征提取网络VGG11第二大层的输出还会被送入与Depth视频特征提取网络VGG11连接的深度模型，获得的输出参数α和β被与Depth视频特征提取网络VGG11连接的FM层用来调节Depth视频特征。

由于各个视频模态并不是孤立无相关性的，它们既存在信息互补，又存在信息冗余。为了得到紧凑判别性强的视频特征，在VGG模型直接设计了视频特征调节模块，以让各个视频特征在训练的过程中相互调节，调节模块学习到的参数捕获了视频特征直接的关联，强化他们的互补而减少它们的冗余。最后接并成的视频特征紧凑强具有强判别性。

手势识别模型构建：根据VGG11和由GRU单元构成的循环神经网络的结构和参数并添加相应的深度模型和FM层，采用深度学***均池化层和两个全连接层，所述提取网络VGG11之间通过所述全局平均池化层、两个全连接层和特征调节FM层连接，构成了视频特征融合网络。；

步骤2、提取经预处理的音频模态的音频特征，基于所述音频特征提取音频表示。

采用音频处理工具先从音频模态提取音频特征，然后进一步通过循环神经网络处理提取到的音频特征，得到音频表示，本实施例中，循环神经网络都采用GRU单元构成。

步骤3、将所述视频表示和所述音频表示通过共享的循环神经网络进行联合训练，获得输出的视频表示进行手势预测。

通过步骤1和步骤2中两个循环神经网络学习不但将学习序列数据特征，同时将视频特征和音频特征转换到大小相同的表示空间。为了建立音视频模态表示的关联，在转换后的音视频表示上施加了triplet约束，通过得到的triplet损失来做嵌入表示训练，拉近音视频表示在共享表示空间中的分布距离，从而可以得到特定手势的完整语义空间，以更好的利用音视频模态的互补性。共享表示空间如图3所示，通过triplet-loss约束构建了音视频表示直接的关联。为了简洁，选取了两种音视频手势表示进行展示。图3中方块代表cheduepalle手势的视频表示，X代表cheduepalle手势的音频表示。圆代表vieniqui手势的视频表示，+代表vieniqui手势的音频表示。

模型训练：采用Adam优化算法来优化模型。根据目标函数，通过一次前向传播运算计算得到当前模型的损失，当前模型的损失不仅用来计算得到模型中各参数的更新梯度通过一次后向传播运算进行参数更新，使得更新后模型拟合的数据分布趋近真实的数据分布，还用来计算参数梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，包括：

使用共享循环神经网络进行联合训练时，将输入的视频特征表示为x_v∈R^N，其相应的音频特征表示为x_a∈R^M，其中N和M分别表示视频和音频特征的维数。x_v和x_a被分别送入视频模态循环神经网络和音频模态循环神经网络：

e_v＝f_v(x_v)

e_a＝f_a(x_a)

其中，函数f_v(·)：R^N→R^E和函数f_a(·)：R^M→R^E将视频特征和音频特征映射到相同的子空间，从而产生相应的E维表示e_v和e_a。随后，它们被送入共享循环神经网络进行联合训练，这个过程可以表示为：

y_v＝f(e_v)

y_a＝f(e_a)

函数f(·)：R^E→R基于视频表示和音频表示分别输出预测结果，得到y_v和y_a。由于音频信息存在的个体发音和语速的差异，以及音频模态里混入的噪音较多，预测结果以来自视频的表示为准，音频信号只在训练过程中提供额外的信息。用于音视频手势识别的联合损失函数计算如下：

L_j＝l_v+μ·l_a

l_v和l_a分别表示视频模态和音频模态的预测损失，μ是超参数。

不管空间中的表示来自何种模态，通过在音视频表示上的施加triplet约束，当音视频模态语义相同时，强制使得同一个空间里的音视频语义表示距离较近。否则，语义距离较远。最后，加入了嵌入表示训练的模型总损失函数为：

L＝l_v+μ·l_a+γ·l_t

其中l_t代表通过音视频表示计算得到的triplet损失。

模型收敛后，利用模型识别手势。本发明技术方案通过各视频模态特征之间的相互调节得到冗余性较小的视频表示，又加入了音频模态，通过联合训练和嵌入表示训练两个过程，有效的融合了来自音视频模态的知识，使得网络能学习到具有强判别的特征，从而可以准确的对手势进行自动识别。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：包括以下步骤：

S4、在所述视频表示和所述音频表示上施加triplet约束，构建所述音频表示和所述视频表示的关联，获得基于音频模态的手势表示和基于视频模态的手势表示；同时，将所述视频表示和所述音频表示还输入共享的循环神经网络进行联合训练，获得预测手势概率分布，基于预测手势概率分布识别手势，包括：

e_v＝f_v(x_v)

e_a＝f_a(x_a)

其中，函数f_v(·):R^N→R^E和函数f_a(·):R^M→R^E将视频特征和音频特征映射到相同的子空间，从而产生相应的E维视频表示e_v和音频表示e_a，获取手势的分布预测概率：

y_v＝f(e_v)

y_a＝f(e_a)

式中，f(·):R^E→R基于视频表示和音频表示分别输出预测结果，得到y_v和y_a，y_v是基于视频表示对手势的分布预测概率，y_a是基于音频表示对手势的分布预测概率；

L_j＝l_v+μ·l_a

L＝l_v+μ·l_a+γ·l_t

其中，l_t代表通过音视频表示计算得到的triplet损失，γ为超参数；

当训练结束后，基于y_v得到手势识别结果。

2.根据权利要求1所述的基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：步骤S1中的视频预处理和音频预处理包括：

将所述第一模态视频和第二模态视频切割成帧数为N的图像序列，若多于N帧，则取中间帧前后N/2帧组成N帧，若少于N帧，则用最后一帧补全，其中，所述N为偶数；

3.根据权利要求1所述的基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：所述S1中图像特征提取采用提取网络VGG11。

4.根据权利要求3所述的基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：所述S1图像特征调节采用特征调节网络，所述特征调节网络包括所述提取网络VGG11、深度模型和特征调节FM层，所述深度模型包括一个全局平均池化层和两个全连接层，所述提取网络VGG11之间通过所述全局平均池化层、两个全连接层和特征调节FM层连接。

5.根据权利要求4所述的基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：所述S1图像特征融合包括：

6.根据权利要求1所述的基于多模态特征调节与嵌入表示增强的手势识别方法，其特征在于：步骤S4中所述共享的循环神经网络由GRU单元构成。