CN111860130A

CN111860130A - 基于音频的手势识别方法、装置、终端设备和存储介质

Info

Publication number: CN111860130A
Application number: CN202010505950.5A
Authority: CN
Inventors: 张进; 马鸿
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-30

Abstract

本申请适用于人机交互技术领域，提供了一种基于音频的手势识别方法、装置、终端设备和存储介质。所述基于音频的手势识别方法包括：获取目标音频信号，所述目标音频信号为预设的原始音频信号在调制后，传播经过用户做出的目标手势后接收到的音频信号；基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据；对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。本申请通过信道估计对原始音频信号和目标音频信号进行目标手势的特征数据提取，获得精确的信道估计的特征数据，以提高手势识别结果的准确率。

Description

基于音频的手势识别方法、装置、终端设备和存储介质

技术领域

本申请属于人机交互技术领域，尤其涉及一种基于音频的手势识别方法、装置、终端设备和存储介质。

背景技术

随着智能设备的普及，智能设备所配备的传感器也越来越多，这使得利用现有的商业设备中内嵌的传感器进行手势识别变得越来越方便。

现有的基于音频的手势识别方法，通常是基于连续波的多普勒效应进行手势识别。采用这种方式虽然能克服基于视觉、可穿戴设备的惯性传感器进行手势识别所带来的使用场景受限问题，但由于采用的连续波信号的分辨率较低，导致手势识别的准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种基于音频的手势识别方法、装置、终端设备和存储介质，通过信道估计对原始音频信号和目标音频信号进行目标手势的特征数据提取，获得精确的信道估计的特征数据，以提高手势识别结果的准确率。

第一方面，本申请实施例提供了一种基于音频的手势识别方法，包括：

获取目标音频信号，所述目标音频信号为预设的原始音频信号在调制后，传播经过用户做出的目标手势后接收到的音频信号；

基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据；

对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。

本申请实施例对调制后原始音频进行播放，通过用户做出手势，获取包含手势特征的目标音频信号，通过原始音频信号和目标音频信号进行信道估计，得到精确的信道估计的特征数据，将获得的所述信道估计的特征数据进行识别，输出准确的目标手势识别结果。

进一步地，所述原始音频信号为周期信号，所述基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据包括：

对所述目标音频信号进行解调处理，得到目标基频信号；

对所述目标基频信号进行分段，得到多个目标信号片段，每个所述目标信号片段的长度均和所述原始音频信号的周期相同；

对于每个所述目标信号片段，均分别与所述原始音频信号中一个周期的信号片段进行信道估计，得到各自的信道特征数据；

将各个所述目标信号片段的信道特征数据整合，得到所述信道估计的特征数据。

通过将目标音信信号做解调、按周期分段获得目标信号片段，然后利用原始音频信号中的一个周期的信号片段分别与每个目标信号片段进行信道估计得到各自的信道特征数据，最后将各个信道特征数据合并，即可获得更为准确的信道估计的特征数据，从而提高手势识别的准确率。

进一步的，所述对所述目标音频信号进行解调处理，得到目标基频信号包括：

对所述目标音频信号进行降载波和IQ分解，得到降载波信号的实部信号和虚部信号；

使用低通滤波器对所述降载波信号的实部信号和虚部信号去噪，得到所述目标基频信号。

由于麦克风接收的音频信号属于原始音频信号调制后的音频信号，而信道估计实用的是调制前的信号进行。因此需要对目标音频信号进行解调，即进行降载波和IQ分解，得到降载波信号的实部信号和虚部信号；再将降载波信号的实部信号和虚部信号通过低通滤波器，得到过滤掉噪音干扰的目标音频信号，提升目标音频信号的分辨率。

进一步的，每个所述目标信号片段均带有时间戳，所述将各个所述目标信号片段的信道特征数据整合，得到所述信道估计的特征数据包括：

将各个所述目标信号片段的信道特征数据分别表示为向量的形式，得到各个所述目标信号片段的特征向量；

将各个所述目标信号片段的特征向量按照各自对应的时间戳大小进行排列，构成特征矩阵；

对于所述特征矩阵中的每一列，均将各自包含的各个元素值分别减去前一列包含的各个对应元素值，得到静态消除后的所述特征矩阵；

将静态消除后的所述特征矩阵确定为所述信道估计的特征数据。

通过将信道特征数据转化为特征向量，并依据时间顺序将特征向量进行排列合并生成特征矩阵，基于特征矩阵的前后列的各个元素值分别进行相减获得静态消除后的特征矩阵，即信道估计的特征数据。静态消除后的信道估计特征数据可以消减静态反射信号对手势信号的影响，实现对细粒度手势的准确识别。

进一步的，所述对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果包括：

采用预先构建的域自适应神经网络模型对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果；

其中，所述域自适应神经网络模型通过以下步骤构建：

获取第一训练数据集和第二训练数据集，所述第一训练数据集包含多组已分配域标签和手势标签的信道估计样本数据，所述第二训练数据集包含多组已分配域标签但未分配手势标签的信道估计样本数据；

以所述第一训练数据集和所述第二训练数据集作为训练集，训练得到所述域自适应神经网络模型。

预先构建好的域自适应神经网络模型，通过大量分配域标签和手势标签的信道估计样本和仅分配了域标签没有分配手势标签的信道估计样本对所述神经网络模型进行训练，可以实现对域无关的目标特征手势提取和识别，优化识别的准确率。

进一步的，所述以所述第一训练数据集和所述第二训练数据集作为训练集，训练得到所述域自适应神经网络模型包括：

将所述第一训练数据集输入初始域自适应神经网络模型，得到所述第一训练数据集的手势预测结果和域预测结果；

根据所述第一训练数据集已分配的域标签和手势标签，以及所述第一训练数据集的手势预测结果和域预测结果，计算得到第一交叉熵E_label；

将所述第二训练数据集输入所述初始域自适应神经网络模型，得到所述第二训练数据集的手势预测结果和域预测结果；

根据所述第二训练数据集已分配的域标签，以及所述第二训练数据集的手势预测结果和域预测结果，计算得到第二交叉熵E_unlab；

根据所述第一训练数据集已分配的域标签、所述第二训练数据集已分配的域标签、所述所述第一训练数据集的域预测结果以及所述第二训练数据集的域预测结果，计算得到域交叉熵E_s；

根据所述第一交叉熵、所述第二交叉熵和所述域交叉熵计算所述初始域自适应神经网络模型的交叉熵E＝E_label+αE_unlab-βE_s,其中α与β为域自适应神经网络模型的模型参数；

以所述交叉熵E取最小值为目标，对所述初始域自适应神经网络模型的模型参数进行优化，得到所述域自适应神经网络模型。

通过分别计算两个训练数据集手势识别的第一交叉熵、第二交叉熵和域交叉熵，构建出域自适应神经网络模型的交叉熵，把所述交叉熵的最小值当做目标，调整域自适应网络模型的模型参数进行优化，得到优化后的域自适应神经网络模型。优化过程中降低域独有的和手势无关的信号特征权重，提高对新域数据集识别的准确率，提高***的泛化性。

进一步的，所述获取目标音频信号包括：

获取由N个不同的麦克风设备分别采集到的N份所述目标音频信号，N为大于1的整数；

所述基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据包括：

对于每份所述目标音频信号，均分别与所述原始音频信号进行信道估计，得到N份信道特征数据；

对所述N份信道特征数据进行整合，得到所述信道估计的特征数据。

采用多个音频采集设备进行目标音频信号的多维度采集处理，可以获取更多信道估计的特征数据，提高手势识别结果。比如手势顺时针旋转和逆时针旋转时，两个手势呈镜像关系，如果采用单麦克风和单扬声器时，只能计算得到1维信道估计信息，无法识别具体手势时顺时针旋转还是逆时针旋转。但如果采用多个麦克风设备，就可以获取到更多的手势信息，从而判断出具体是顺时针旋转还是逆时针旋转。

第二方面，本申请实施例提供了一种基于音频的手势识别装置，包括：

信号获取模块，用于获取目标音频信号，所述目标音频信号为预设的原始音频信号在调制后，传播经过用户做出的目标手势后接收到的音频信号；

信道估计模块，用于基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据；

手势识别模块，用于对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的手势识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的手势识别方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过信道估计对原始音频信号和目标音频信号进行目标手势的特征数据提取，获得精确的信道估计的特征数据，以提高手势识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于音频的手势识别方法的流程图；

图2是本申请实施例提供的一种信道估计方法的流程图；

图3是本申请实施例提供的信道估计的原理示意图；

图4是本申请实施例提供的经过极大似然估计算法后获得的信道估计的特征数据对应的热度图；

图5是本申请实施例提供的静态消除后信道估计的特征数据对应的热度图和放大的单个手势的信道估计特征数据对应的热度图；

图6是本申请实施例提供的一种域自适应神经网络模型结构示意图；

图7是本申请实施例提供的调用神经网络模型阈值判定参考图；

图8是本申请实施例提供的一种基于音频的手势识别装置的结构示意图；

图9是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定装置结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的基于音频的手势识别方法可以基于手机、平板电脑、医疗设备、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等具有扬声器和麦克风的终端设备或者服务器实现，本申请实施例对终端设备和服务器的具体类型不作任何限制。

巴克码是50年代初，R.H.巴克提出的一种具有特殊规律的二进制码组，具有较好的自相关性，因此应用到信道估计中对信道的特征数据提取效果也更好。将巴克码经过拉伸、平滑、补领、扩增后，生成单个周期长度大于300比特的基频信号作为原始音频信号即可获得很好的分辨率，运用到信道估计中，最终得到的信道估计的特征数据也更准确。虽然周期长度越长分别率越高，但是周期过长会造成***延迟。经过实验反复验证，较优的选择是单个周期长度为480比特的基频信号，既能兼顾信号的分辨率，也可以避免***延迟的现象。为了方便理解，后续的例子会直接用单个周期长度为480比特的原始音频信号作为说明。

图1示出了本申请提供的一种基于音频的手势识别方法的流程图，在一个实施例中，所述手势识别方法包括：

101、获取目标音频信号，所述目标音频信号为预设的原始音频信号在调制后，传播经过用户做出的目标手势后接收到的音频信号；

首先获取目标音频信号，所述目标音频信号的获取是采用预先设置的原始音频信号，调制后通过扬声器进行播放，调制的原始音频信号在传播过程中，经过用户做出的目标手势后，会改变传播的音频信号的信道特征数据，此时，麦克风设备就可以接受到含有目标手势特征数据的目标音频信号。原始音频信号调制后才播放是因为原始音频信号即基频信号，直接播放非常刺耳；且信号与***理论指出：信号在基频计算出的信道与信号在载频经过的信道一致，因此可以使用解调得到的目标基频信号和原始音频信号进行信道估计，得到的信道估计结果与上载频后通过的信道估计结果一致，准确率高。所以在播放的时候会对原始音频信号进行调制，具体的在本实施例中是通过对原始音频信号进行载波，达到让人耳无法识别的波段再进行播放，后续再将目标音频信号解调成基频信号进行信道估计。

102、基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据；

基于音频的手势识别关键点在于需要精确的提取出可进行识别的特征数据。在本实施例中采用分辨率高的原始音频信号进行信道估计，可以提升信道估计的特征数据的提取准确率。但是目标音频信号是原始音频信号经过调制后的音频信号，因此在进行信道估计之前，需要对目标音频信号进行解调，获得其中的基频信号，进一步参与到信道估计中获得信道估计的特征数据。

图2示出了本申请提供的一种信道估计方法的流程图，图3示出了本申请提供的一种信道估计原理示意图。

参考图2和图3，在一个实施例中，基于所述原始音频信号和所述目标音频信号进行信道估计的步骤包括：

201、对所述目标音频信号进行解调处理，得到目标基频信号；

信道估计是基于基频信号进行的，因此本步骤需要将获得的目标音频信号进行解调处理，得到目标基频信号。具体的解调步骤包括：

首先对所述目标音频信号进行降载波和IQ分解，得到降载波信号的实部信号和虚部信号；具体的，将接收的目标音频信号降载波获得降载波信号，然后进行IQ分解，即将目标音频信号分别与Acos(2πf_ct)和-Asin(2πf_ct)相乘，其中A为幅度。分解后即可获得降载波信号的实部信号和虚部信号，需要说明的是，降载波和IQ分解没有特定的先后顺序，可以先进性降载波再进行IQ分解，也可以先进行IQ分解再进行降载波，最终结果不会因为处理顺序发生变化。由于获取到的目标音频信号可能会有噪音干扰，因此将获得降载波信号的实部信号和虚部信号后，通过低通滤波器，实现去噪，提高目标基频信号的分辨率。再将去噪后的实部信号和虚部信号合并成复数形式，所述复数形式的基频信号即为目标基频信号。到此步骤，已经实现了将获得的目标音频信号解调并去噪，生成目标基频信号，具备了参与信道估计的初步条件。但此时的目标基频信号是一段很长的信号，直接用于信道估计所获得的信道估计的特征数据准确率不高，因此还要进行分段处理。

202、对所述目标基频信号进行分段，得到多个目标信号片段，每个所述目标信号片段的长度均和所述原始音频信号的周期相同；

原始音频是周期音频信号，因此获得的目标基频信号也有周期的特性。在分段时，可以利用周期的特性，将所述目标基频信号以一个周期为一个片段进行划分切割获得多个目标信号片段，这样获得的目标信号片段的周期长度和原始音频的周期长度是相同的；当然也可以提取出一个周期的原始音频信号，利用单个周期的原始音频信号和所述目标基频信号进行对齐后切割分段，也能够得到和原始音频的周期长度相同的多个目标信号片段。在获得多个目标信号片段之后，可以采用这些信号片段进行信道估计输出信道估计的特征数据。

203、对于每个所述目标信号片段，均分别与所述原始音频信号中一个周期的信号片段进行信道估计，得到各自的信道特征数据；

在步骤202中进行基频信号的分段就是为了在信道估计过程中和原始音频信号对齐，从而获得更准确的信道估计的特征数据。因此在本步骤中，将单个周期的原始音频信号分别与每个目标信号片段进行信道估计，周期长度相等，无需其他处理直接进行信道估计，得到精确的信道估计结果。但此时，获得的是每个信号片段对应的信道特征数据，对应识别出来可能只是目标手势中某个手势的一部分，因此还需要将多个信道特征数据整合到一起，获得连贯的目标手势对应的信道估计的特征数据后，再进行识别，才可以得到准确的目标手势的识别结果。

204、将各个所述目标信号片段的信道特征数据整合，得到所述信道估计的特征数据。

整合后的信道特征数据即所述信道估计的特征数据，作为输入进行识别，已经可以输出连贯的目标手势的识别结果。

上述内容已经清楚的讲解了为了信道估计需要做的数据前处理，接下来将对如何对目标基频信号进行信道估计展开说明。

信道估计的基本公式为：

R(n)＝S[n]*h[n]

其中*表示卷积，R(n)和S[n]分别表示接收到并解调后的目标基频信号，发射的原始基频信号，h[n]为信道响应，算法的目的是通过R(n)和S[n]求得h[n]。

直接进行信道估计算法计算复杂度较高，因此在计算的过程中需要计算的复杂度。因此，本发明的信道估计的求解过程中，采用极大似然估计(Least Square)算法简化计算复杂度。在LS算法中，给定发射的原始音频信号S与接收到的目标音频信号R，计算信道h。根据目标音频信号的处理知，单个周期的信号长度设为d，由此得到向量形式发射信号S和向量形式的接收信号R：

S＝{s₁，s₂，…，s_d-1，s_d}

R＝{r₁，r₂，…，r_d-1，r_d}

进一步构建极大似然估计算法矩阵：

其中小标l与p满足公式l+p＝d，直接计算矩阵h的算法复杂度为O(l³+lp²)，采用极大似然估计算法，直接使用

MR求解出信道向量，其中(M^TM)^-1M的数值可以预先通过原始音频信号S求解得出，大大简化了算法的复杂度。

举例说明，对于输入的每个周期480比特的原始音频信号，使用极大似然估计算法进行计算，可以求解出长度为l＝140比特的信道估计数据。通常单个手势运动的时间在0.3秒至1.4秒之间，故***选择1.4秒为窗口长度，此时可计算出一个窗口内包含140组信道估计数据。这构成用于信道估计的特征数据，大小为140*140。显然，这样计算比直接求解信道估计公式简单很多。

在实际应用过程中，不同的手势幅度有大有小，当手掌在做细粒度手势时，信道变化较小。若希望清楚地追踪到信道变化，可以采用下述方式消除反射信号中的静态反射部分。

在一个实施例中，静态消除的具体步骤包括：每个所述目标信号片段均带有时间戳，将各个所述目标信号片段的信道特征数据分别表示为向量的形式，得到各个所述目标信号片段的特征向量；将各个所述目标信号片段的特征向量按照各自对应的时间戳大小进行排列，构成特征矩阵；对于所述特征矩阵中的每一列，均将各自包含的各个元素值分别减去前一列包含的各个对应元素值，得到静态消除后的所述特征矩阵；将静态消除后的所述特征矩阵确定为所述信道估计的特征数据。对静态消除后信道估计的特征数据进行识别，即使是细粒度手势也能够给出精确的结果。

以一组手势信道估计的特征数据为例，静态消除的效果参见图4和图5，其中图4示出了经过极大似然估计的信道估计算法后，得到的信道估计的特征数据对应的热度图，从图中可以看到，有很多干扰信号掺杂在其中，这些信号绝大部分都是由于静态反射造成；再观察图5，图5示出了静态消除后信道估计的特征数据的热度图，显然，此时干扰信号已经很少了，其中箭头指出来的放大图是一个手势产生的信道估计的特征数据的热度图。从两张图对比可以看出，即使是细粒度的手势，通过静态消除的处理，也可以精确获取。

至此，已经完成了基于音频的手势识别的目标手势的特征数据提取部分：即对目标音频信号进行解调、降噪等处理获得目标基频信号；利用原始音频的周期特性，将目标基频信号分割成和单个周期原始音频信号周期长度相等的多个目标信号片段；利用单个周期的原始音频信号分别与每个目标信号片段做信号估计，得到各自的信道特征数据；将这些信道特征数据按照时序进行排列形成矩阵后，矩阵中每一列减去前一列包含的各个对应的元素值，获得静态消除后的特征矩阵，也即信道估计的特征数据。采用基频信号作为信道估计的基础，所获得的信道估计的特征数据精度已经显著提高；再经过静态消除的处理，即使是细粒度手势也能够准确提取出对应的信道估计的特征数据作为后续识别的输入，手势识别结果也更准确。

103、对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。

对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。现有技术中，基础卷积神经网络模型可以实现对于预设手势的识别，但在实验观察中发现，不同测试人员对预设的不同手势动作习惯并不一致，如对上下挥手动作的手势，不同被测人员的手势动作速度快慢、幅度大小可能不同。因此利用基础神经网络模型进行手势识别，尽管当给出足够多的训练数据集的情况下，神经网络可以正确识别手势，但这种现象将影响***泛化时的识别准确率。

为了解决这一实际问题，本发明将域自适应(domain adaptation)网络结构应用到手势识别算法中，域(domain)可以定义成在识别算法中和产生数据集的个体相关，和识别目的无关的集合。比如在手势识别***中，不同测试者的手势习惯带来的特征可以定义为域，测试者所处的不同环境引入的特征数据也可以定义为域。域自适应网络识别的主要功能在于：当用大量标注了域也标注了识别结果的数据和大量标注了域但未标注识别结果的数据集时，可以实现对域无关的特征值的提取，优化识别准确率。

在一个实施例中，所述对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果包括：

采用预先构建的域自适应神经网络模型对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果；具体的，首先将所述信道估计的特征数据输入到预先训练的域自适应网络模型中，通过神经卷积网络提取出所述目标手势的特征；通过全连接网络层与激活函数识别所述目标手势的特征，输出所述目标手势的识别结果；或获取所述目标手势的识别结果，计算所述目标手势的识别结果的准确率：当所述准确率落在预设准确率阈值范围内，输出所述目标手势的识别结果。当所述准确率没落在预设准确率阈值范围内，重复提取识别所述目标手势的特征进行识别，直至所述准确率落在预设准确率阈值范围内输出符合要求的目标手势的识别结果。

除了预设准确率阈值范围作为目标提高识别的准确率，最根本的方法还是要构建出收敛的域自适应神经网络模型。图6示出了本申请提供的域自适应神经网络模型的结构。

参考图6，在一个实施例中，所述域自适应神经网络模型通过以下步骤构建：

在一个实施例中，所述以所述第一训练数据集和所述第二训练数据集作为训练集，训练得到所述域自适应神经网络模型包括：

将所述第一训练数据集输入初始域自适应神经网络模型，得到所述第一训练数据集的手势预测结果和域预测结果；根据所述第一训练数据集已分配的域标签和手势标签，以及所述第一训练数据集的手势预测结果和域预测结果，计算得到第一交叉熵E_label；将所述第二训练数据集输入所述初始域自适应神经网络模型，得到所述第二训练数据集的手势预测结果和域预测结果；根据所述第二训练数据集已分配的域标签，以及所述第二训练数据集的手势预测结果和域预测结果，计算得到第二交叉熵E_unlab。

根据所述第一训练数据集已分配的域标签、所述第二训练数据集已分配的域标签、所述所述第一训练数据集的域预测结果以及所述第二训练数据集的域预测结果，计算得到域交叉熵E_s；根据所述第一交叉熵、所述第二交叉熵和所述域交叉熵计算所述初始域自适应神经网络模型的交叉熵E＝E_label+αE_unlab-βE_s,其中α与β为域自适应神经网络模型的模型参数；以所述交叉熵E取最小值为目标，对所述初始域自适应神经网络模型的模型参数进行优化，得到所述域自适应神经网络模型。

本发明的目的是手势识别，对训练数据集均进行域标签的分配，其中一个训练数据集进行手势标签分配，另一个训练数据集不分配手势标签，是为了通过两个训练数据集降低和手势无关的特征对识别结果的影响。在训练时，由于训练样本偏少，对于新用户和新的环境都可以视为新的域，因此每一位新用户的数据，我们可以当成分配了域标签(新域)，但是未标注手势的第二数据集。

然后通过预先构建的域自适应神经网络模型进行特征提取，进行手势识别、域识别，分别构建第一交叉熵、第二交叉熵和域交叉熵。进一步构建出域自适应网络模型的交叉熵。通过学习模型，减小域独有的特征数据的权重。此模型有两个优点，首先提高和域无关的特征数据集权重，增加准确度。其次，对于新用户的数据，可以直接输入网络进行训练，得到的新的模型，当用于另外的新用户时，会比当前模型更好。这样，即使当用户首次使用***，***无法预先知道用户的个人动作习惯以及所处环境，但随着不断有新用户未标注的手势数据加入，网络将学习出所有用户都适配的手势识别特征，同时减小环境以及个人手势习惯等域产生的特征数据对识别准确率影响。

具体的，要实现第一交叉熵和第二交叉熵的计算，步骤可以为：首先使用5层卷积神经网络进行特征提取，即将“输入→[卷积→ReLu→池化]*N→全连接层→输出”的结构中N设为5，每一层卷积层的结构类似，具有一层卷积层和一层池化层。第一、二、三层的卷积核数分别设置为32、64、128、256、512，卷积的大小分别为[10*10]，[5*5]，[5*5]，[5*5]、[2*2]，最终从输入的两个训练数据集中将特征提取出来，定义δ为相关的参数，X为输入训练数据集，可定义提取的特征F，具体关系式为：

F＝CNN(X，δ)

将提取出的特征F，通过全连接层得到参数Z，定义W_a1与b_a1为全连接网络层的参数，通过神经网络的学习过程求解式为：

Z＝softplus(W_a1F+b_a1)

全连接的结果Z通过softmax层获得预测结果

定义W_a2与b_a2为预测层中的参数，通过神经网络学习过程求解，得到下述公式：

其中，

表示标注了手势的第一训练数据集和未标注手势的第二训练数据集提取的预测结果集合，依据训练数据集拆分

得到

和

分别表示第一训练数据集提取得到的手势预测结果，和第二训练数据集提取得到的手势预测结果，同理，划分输入数据为X^label和X^unlab。

已知真实的标签y^label和预测的标签

可以计算得到交叉熵(cross entropy)E_label，

其中|X^label|表示标记手势的第一训练数据集的个数，N表示需要识别的手势动作个数。

对于未标记真实手势的第二训练数据集，只使用

预测的手势结果计算交叉熵E_unlab，

|X^unlab|表示未标记手势的第二训练数据集的个数。

完成了跟手势有关的交叉熵的计算，接下来对域相关的交叉熵进行计算。具体步骤包括，域辨别网络部分的输入S定义为特征提取部分和手势识别结果的串联，

其中F是特征提出部分的结果，其包含标记手势的第一训练数据集和未标记手势的第二训练数据集；

是识别部分的结果，⊙表示串联。参数F表示训练数据集中标注了手势的数据和未标注手势的数据的集合，域辨别网络由两层全连接层构成，定义第一层全连接层输出为T:

T＝Softplus(W_s1S+B_s1)

第二层全连接网络层的输出

其中W_s1，W_s2和B_s1，B_s2为全连接网络需要学习的参数，W是权值矩阵，B是偏置，下标代表层数。在域识别网络结构中，定义交叉熵E_s作为损失函数，其中S_ij是one-hot形式的域标签向量，|X|表示所有属于S的样本个数。

为了方便理解，举例说明。训练时，假设有10000组140*140分配域标签和手势标签的训练数据构成第一训练数据集，1000组140*140的分配了域标签未分配手势标签的训练数据构成第二训练数据集。首先将两个训练数据集都通过特征提取的卷积神经网络，在卷积层后面加全连接层和激活函数，将得到预测的结果。

需要注意的是，对于每一组输入数据，都可以通过模型得到标注预测的结果。那么对于第一训练数据集，可以获得10000个手势预测结果，所述10000个手势预测结果和原有的10000个实际手势可以计算第一交叉熵E_label。对于第二训练数据集，仅可以获得1000个手势预测结果，由于没有真实手势，所以假设1000个手势预测结果为原有的1000个实际手势，1000个手势预测结果和1000个手势预测结果可以计算出第二交叉熵函数E_label。

其中经过卷积神经网络进行提取得到的特征是flatten以后的数据，即一维数据，这里的flatten可以理解为降维，假设池化以后还剩2*2*500的结构，flatten以后就是2000长度的一维数据。因此不论是对第一训练数据集还是第二训练数据集进行特征提取后，得到的都是一维数据。

假设一组一维数据为512比特，第一训练数据集对应的是8组手势，手势识别部分的数据结果就是一个onehot(独热编码)形式的8bit一维数组(1，0，0，0，0，0，0，0)，一维数组中第几个是1就代表是第几个手势。这样可以很简单的将组长度为512比特的数据和这8个数据串联起来得到520长度的数据，此时只需要简单的全连接和激活函数，就可以进行域的识别。对于所有训练数据集，不管是标注还是未标注，都是已经给定了域，因此可以直接计算域识别交叉熵Es。结合上面计算出来的E_label和E_label，组合成域自适应神经网络模型的交叉熵。

E＝E_label+αE_unlab-βE_s

已经知道整个网络的损失函数E，就可以直接使用梯度下降算法对网络参数进行训练。利用***已经得到第一训练数据集的交叉熵E_label和第二训练数据集的交叉熵E_unlab，定义

代表为计算这两组交叉熵时需要优化的参数集合，同时定义

为神经网络模型域识别部分计算域交叉熵E_s时需要优化的参数集合，以及神经网络识别结构最终实现域自适应识别需要优化的参数集合

***构建新的交叉熵E实现对参数集合

的学习，其中α和β域自适应神经网络的模型参数，

E＝E_label+αE_unlab-βE_s

神经网络的训练部分的基本思想是寻找最终的

和

这三组参数的集合，即当给定合适的α和β两个模型参数时，令E的值最小。

具体的，训练的时候，采用的梯度下降方法计算的理论公式如下：

其中μ表示学习速率。

由于实时的***设计能耗非常高，不可能一直调用神经网络模型进行识别。因此实时***中还可以设计动作检测。

由前文可知实时进行信道估计时，每输入480比特数据就估算出140比特大小的信道数据。经实验论证，当存在手掌运动时，得到140比特的信道特征数据h的方差很大，其中h和前述含义相同，在这里指的是周期长度为480比特的目标信号频段和480比特的原始音频信号进行信道估计后得出的信道特征数据。参考图7，图中示出了调用神经网络模型阈值判定参考图，因此使用h的方差作为阈值判定条件。当某一时刻的h方差>1/10平均方差数据，***判断疑似有手势，给出前1.4s时刻的信道估计的特征数，去调用神经网络模型进行识别，就可以避免一直调用神经网络模型，设备的能耗过高的问题。当然，所述模型可以是普通的神经网络模型，也可以是域自适应神经网络模型或其他可以运用的网络模型，在此不限制网络模型的类型。

本发明公开的手势识别方法，基于基频信号的信道估计实现目标手势的信道估计的特征数据提取，并通过预先构建的域自适应神经网络模型对所述信道估计的特征数据进行识别，不仅在特征数据提取部分能够获得准确的数据提取结果，而且采用域自适应神经网络模型进行识别可以降低和识别结果无关的域特征权重，从而提高识别的准确率以及识别的泛化性，使得本发明所提供的方案具有更广阔的应用前景。

然而尽管前述方案已经能够显著提高手势识别的准确率和***识别的泛化性，但是仍存在一个问题，即当***只使用单麦克风和单扬声器时，获得的目标音频信号只能计算出1维信道估计的特征数据。如果两种手势动作呈镜像，***将无法进行识别，如手势顺时针旋转和手势逆时针旋转。

为解决单个麦克风设备进行目标音频信号采集无法识别镜像手势的问题，在一个实施例中，获取目标音频信号时，选择由N个不同的麦克风设备分别采集到的N份所述目标音频信号，N为大于1的整数；所述基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据包括：对于每份所述目标音频信号，均分别与所述原始音频信号进行信道估计，得到N份信道特征数据；对所述N份信道特征数据进行整合，得到所述信道估计的特征数据。采用多个音频采集设备进行目标音频信号的多维度采集处理，可以获取到更多信道估计的特征数据，能够识别镜像手势，并提高手势识别结果。

显然使用多组麦克风接收到的目标音频信号进行信道估计时，能获得更多的特征信息。举例说明，假设麦克风个数为M，用户做出单个手势时，***将获得M个独立的信道估计的特征数据，此时单个手势对应的信道估计的特征数据大小为140*140*M；进一步可以从多维度进行手势识别，将镜像手势区分开，获得更准确的手势识别结果。

图8示出了本申请实施例提供的基于音频的手势识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图8，在一个实施例中，基于音频的手势识别装置包括：

信号获取模块301，用于获取目标音频信号，所述目标音频信号为预设的原始音频信号在调制后，传播经过用户做出的目标手势后接收到的音频信号；

信道估计模块302，用于基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据；

手势识别模块303，用于对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果。

在一个实施例中，所述信道估计模块302可以包括：

信号调解单元，用于对所述目标音频信号进行解调处理，得到目标基频信号；

信号分段单元，用于对所述目标基频信号进行分段，得到多个目标信号片段，每个所述目标信号片段的长度均和所述原始音频信号的周期相同；

信道估计单元，用于对于每个所述目标信号片段，均分别与所述原始音频信号中一个周期的信号片段进行信道估计，得到各自的信道特征数据；

数据整合单元，用于将各个所述目标信号片段的信道特征数据整合，得到所述信道估计的特征数据。

在一个实施例中，所述信号调解单元可以包括：

信号分解子单元，用于对所述目标音频信号进行降载波和IQ分解

，得到降载波信号的实部信号和虚部信号；

信号去噪子单元，用于使用低通滤波器对所述降载波信号的实部信号和虚部信号去噪，得到所述目标基频信号。

在一个实施例中，每个所述目标信号片段均带有时间戳，所述数据整合单元可以包括：

数据转换子单元，用于将各个所述目标信号片段的信道特征数据分别表示为向量的形式，得到各个所述目标信号片段的特征向量；

数据排列子单元，用于将各个所述目标信号片段的特征向量按照各自对应的时间戳大小进行排列，构成特征矩阵；

静态消除子单元，用于对于所述特征矩阵中的每一列，均将各自包含的各个元素值分别减去前一列包含的各个对应元素值，得到静态消除后的所述特征矩阵；将静态消除后的所述特征矩阵确定为所述信道估计的特征数据。

在一个实施例中，手势识别模块303可以包括：

手势识别单元，用于采用预先构建的域自适应神经网络模型对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果；

其中，所述手势识别单元中的域自适应神经网络模型通过以下单元构建：

模型构建单元，用于获取第一训练数据集和第二训练数据集，所述第一训练数据集包含多组已分配域标签和手势标签的信道估计样本数据，所述第二训练数据集包含多组已分配域标签但未分配手势标签的信道估计样本数据；

模型训练单元，用于以所述第一训练数据集和所述第二训练数据集作为训练集，训练得到所述域自适应神经网络模型。

在一个实施例中，所述模型训练单元可以包括：

第一训练子单元，用于将所述第一训练数据集输入初始域自适应神经网络模型，得到所述第一训练数据集的手势预测结果和域预测结果；

第一计算子单元，用于根据所述第一训练数据集已分配的域标签和手势标签，以及所述第一训练数据集的手势预测结果和域预测结果，计算得到第一交叉熵E_label；

第二训练子单元，用于将所述第二训练数据集输入所述初始域自适应神经网络模型，得到所述第二训练数据集的手势预测结果和域预测结果；

第二计算子单元，用于根据所述第二训练数据集已分配的域标签，以及所述第二训练数据集的手势预测结果和域预测结果，计算得到第二交叉熵E_unlab；

第三计算子单元，用于根据所述第一训练数据集已分配的域标签、所述第二训练数据集已分配的域标签、所述所述第一训练数据集的域预测结果以及所述第二训练数据集的域预测结果，计算得到域交叉熵E_s；

第四计算子单元，用于根据所述第一交叉熵、所述第二交叉熵和所述域交叉熵计算所述初始域自适应神经网络模型的交叉熵E＝E_label+αE_unlab-βE_s,其中α与β为域自适应神经网络模型的模型参数；

模型优化子单元，用于以所述交叉熵E取最小值为目标，对所述初始域自适应神经网络模型的模型参数进行优化，得到所述域自适应神经网络模型。

在一个实施例中，信号获取模块301可以包括：

多维度信号获取单元，用于获取由N个不同的麦克风设备分别采集到的N份所述目标音频信号，N为大于1的整数；

所述信道估计模块可以包括：

多维度信道估计单元，用于对于每份所述目标音频信号，均分别与所述原始音频信号进行信道估计，得到N份信道特征数据；

多维度数据整合单元，用于对所述N份信道特征数据进行整合，得到所述信道估计的特征数据。

本申请实施例还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请提出的各个基于音频的手势识别方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请提出的各个基于音频的手势识别方法的步骤。

本申请实施例还提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行本申请提出的各个基于音频的手势识别方法的步骤。

图9为本申请一实施例提供的终端设备的结构示意图。如图9所示，该实施例的终端设备4包括：至少一个处理器40(图中仅示出一个)处理器、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42，所述处理器40执行所述计算机程序42时实现上述任意基于音频的手势识别方法实施例中的步骤。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，以及智能手表、智能手环等可穿戴设备。该终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图9仅仅是终端设备4的举例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41在一些实施例中可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于音频的手势识别方法，其特征在于，包括：

2.如权利要求1所述的手势识别方法，其特征在于，所述原始音频信号为周期信号，所述基于所述原始音频信号和所述目标音频信号进行信道估计，得到信道估计的特征数据包括：

对所述目标音频信号进行解调处理，得到目标基频信号；

3.如权利要求2所述的手势识别方法，其特征在于，所述对所述目标音频信号进行解调处理，得到目标基频信号包括：

4.如权利要求2所述的手势识别方法，其特征在于，每个所述目标信号片段均带有时间戳，所述将各个所述目标信号片段的信道特征数据整合，得到所述信道估计的特征数据包括：

5.如权利要求1所述的手势识别方法，其特征在于，所述对所述信道估计的特征数据进行识别，得到所述目标手势的识别结果包括：

其中，所述域自适应神经网络模型通过以下步骤构建：

6.如权利要求5所述的手势识别方法，其特征在于，所述以所述第一训练数据集和所述第二训练数据集作为训练集，训练得到所述域自适应神经网络模型包括：

根据所述第一交叉熵、所述第二交叉熵和所述域交叉熵计算所述初始域自适应神经网络模型的交叉熵E＝E_label+αE_unlab-βE_s，其中α与β为域自适应神经网络模型的模型参数；

7.如权利要求1至6中任一项所述的手势识别方法，其特征在于，所述获取目标音频信号包括：

8.一种基于音频的手势识别装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的手势识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的手势识别方法的步骤。