CN111554279A

CN111554279A - 一种基于Kinect的多模态人机交互***

Info

Publication number: CN111554279A
Application number: CN202010344331.2A
Authority: CN
Inventors: 喻梅; 卫俊宾; 王建荣; 于健; 徐天一; 赵满坤; 高晓阳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-18

Abstract

本发明公开一种基于Kinect的多模态人机交互***，实现步骤如下:构建能接受Kinect获取到的多模态数据的数据采集***；进行声学模型与语言模型的单音素训练，得到声学识别模块；利用采集到彩色图数据建立用于训练机器学习的唇动数据集；使用基于残差神经网络的卷积神经网络的模型训练方法，利用唇动数据集训练唇读识别模型；数据采集***、语音识别模型和唇读识别模型整合在一起，构建一个多模态的人机交互***；本发明的多模态的人机交互***增强了语音识别的鲁棒性。

Description

一种基于Kinect的多模态人机交互***

技术领域

本发明涉及语音识别，人机交互技术领域，特别是涉及一种基于Kinect的多模态人机交互***。

背景技术

语音识别属于模式识别的一种，计算机通过给定的输入语音进行信息查找，有语音转文本，身份识别等，和图像识别一样，在人机交互中有着广泛的应用。语音识别***根据说话的方式来分，可与分为孤立词识别***和连续词识别***。孤立词的语音数据单位为单个词语，在采集数据时，是以一个词一个词的方式来录音的，词与词之间有着明显的停顿。相对的连续词是对连续的词语进行识别。现有孤立词识别***在识别结果上尚需要进一步改进。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于Kinect的多模态人机交互***,对于用户说出的命令词，在纯净环境下(无噪声环境)能够通过语音识别出命令词，在带噪环境下能够通过语音和唇读识别得到命令词的识别结果,特别是通过识别唇部变化来提高语音识别的准确度，增强语音识别的鲁棒性。

为实现本发明的目的所采用的技术方案是：

一种基于Kinect的多模态人机交互***，实现步骤如下:

S1.构建能接受Kinect获取到的多模态数据的数据采集***；

S2.使用基于Kaldi的开源语音识别工具集编写训练脚本，对采集到的音频数据提取特征向量，进行声学模型与语言模型的单音素训练，得到最终的声学识别模块；

S3.利用采集到彩色图数据建立用于训练机器学习的唇动数据集；

S4.使用基于残差神经网络的卷积神经网络的模型训练方法，利用唇动数据集训练唇读识别模型，获得最终唇读识别模块；

S5.将数据采集***、语音识别模型和唇读识别模型整合在一起，构建一个多模态的人机交互***。

其中，唇动数据集的训练使用Python语言的Pytorch模块搭建LSTM网络进行；该网络包括：

第一处理部，用于数据预处理，输入的张量为1x40x112x112,通过不断的卷积和池化，将张量转化为64个特征图，所述特征图的时空三个维度长都相等；

第二处理部，采用ResNet34层模型，能将输入转为一维512的张量，将唇动的特征进行进一步的筛选；

第三处理部，是一个双层双向长短期存储网络，最终再使用SoftMax层对于输入进行分类，实现了对于唇动数据集的n分类。

其中，所述的将数据采集***、语音识别模型和唇读识别模型整合在一起的步骤是：

通过WPF框架开发一个用户控制台，通过该用户控制台实现对数据采集***、语音识别模型和唇读识别模型的控制：识别处理时，***对于用户读出的限定词进行音频和图像的录制并存储到本地，进行数据转换，将图像和音频转为模型能够接收的数据类型，并将数据分别输入到声学识别模块和唇读识别模块中得出识别结果，***将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度，选择置信度高的作为多模态识别的最终结果。

本发明对于用户说出的命令词，在纯净环境下(无噪声环境)能够通过语音识别出命令词，在带噪环境下能够通过语音和唇读识别得到命令词的识别结果,特别是通过识别唇部变化来提高语音识别的准确度，增强语音识别的鲁棒性。

附图说明

图1为本发明的基于Kinect的多模态人机交互***的结构原理图；

图2为本发明在三种环境条件下的识别率对比图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明是使用微软发布的Kinect SDK结合Kinect设备对于数据采集***进行开发，实现能从Kinect接收存储数据，能够进行数据的录制。拟定小规模的限定词语料库，并使用开发完的数据采集***对采集者进行多模态数据的录制。对于采集到的多模态数据进行处理，获得语音数据集和图像数据集。通过采集到的语音数据集和图像数据集分别进行训练，获得训练模型。之后，将之前开发的程序进行整合，开发一个可视化窗体程序，能够对于使用者进行数据采集，并使用训练的模型识别出结果，展示在窗体中。

对于制作好的窗体程序进行测试，测试在纯净环境下的语音识别正确率，在噪声环境下的语音识别正确率和在噪声环境下的多模态语音识别正确率。

其中，本发明使用的Kaldi开源语音工具集编写训练脚本，采用基于加权有限状态接收器(Weighted Finite State Transducer，WFST)来构建解码图。

如图1所示，本发明的基于Kinect的多模态人机交互***，实现方法如下：

步骤一：构建能接受从Kinect获取到的多模态数据的采集***；

步骤二：使用通过基于Kaldi的开源语音识别工具集编写训练脚本，对采集到的音频数据进行模型训练；

步骤三：建立用于训练机器学习的唇动数据集；

步骤四：使用基于残差神经网络的卷积神经网络的模型训练方法训练唇动数据集；

步骤五：将数据采集***、语音识别模型和唇读识别模型整合在一起，构建一个多模态的人机交互***。

其中，步骤一将Kinect采集到的音频数据和彩色图数据存到本地，具体步骤如下：

首先，KinectSensor类创建一个Kinect对象，通过Kinect对象接受传感器，打开Sensor后，通过Source类定义不同的数据源，本***中用到的有AudioSource，ColorFrameSource两种数据源。Reader类能够通过通过Source.OpenReader方法来打开Source的数据源。通过AudioSource创建出Audio Reader，通过ColorRrameSource创建Col-orFrameReader。此外Reader类还能定义事件机制，以彩色顿为例，彩色帧的Reader通过添加了colorFrameReader_FrameArrived的事件使得它能够在每次获得colorFrame时逬行自定义的操作，在模块中，定义将Frame显示到屏幕中，在录制时将Frame存储到线程安全队列中的事件。

其中，步骤二在步骤一的基础上用准备好的声学数据与语言数据进行训练，获得声学识别模型，具体步骤如下：

准备好语言数据、声学数据、词典和音频数据之后，编写训练脚本。在tjuspeech_gxy下创建run.sh，cmd.sh和path.sh，其中cmd.sh主要用于配置机器运行的环境，path.sh主要用于将外部的shell文件引入进来在项目里使用。run.sh里面，首先引入path.sh和cmd.sh，然后指定并行的工作数量，指定使用的语言模型N-gram的N，再根据之前准备的utt2spk得出spk2utt。这样之后就可以准备进行MFCC特征的提取了。使用Kaldi内置的make_mfcc.sh对于已经准备好的音频文件进行特征向量的提取，使用compute_cmvn_stats.sh进行倒谱均值方差归一化的计算，根据准备好的语言数据使用srilm进行语言模型的训练生成lm.arpa，再将其转为G.fst。这样就准备好了声学模型和语言模型，使用tmin_mono_sh进行单音素训练，得到最终的模型。

其中，步骤三在步骤一和步骤二的基础上建立用于训练机器学习的唇动数据集，具体步骤如下：

制作唇动的数据集，需要对于采集到的数据进行处理。这里使用的是Kinect采集到的彩色图数据。使用Python3,7+Dlib+OpenCV实现唇部区域的定位。OpenCV是一个由C++编写的计算机视觉的专用库，它可以用来处理图像相关的很多事，如人脸识别，人脸检测等。Dlib也是一个C++编写的幵源工具包，它实现了很多机器学习、图像处理的算法，在这里，结合OpenCV和Dlib可以对人脸上的68个点进行定位，得出在彩色图中的像素坐标。只需要唇部的46到68的特征点即可。取上下左右的嘴唇四个边缘点，即46、51、54、58四个点，将他们的横坐标相加除以四，纵坐标相加除以四，就可粗略的得到嘴唇的中心点，记为px，py，最终要得到的是112x112的单通道的灰度图片，只需要取img[px-56:px+56,py-56:py+56]即可，每个人每个词，都处理成40张图，做成一个npy文件。总共得到360个npy文件，将15个人300个npy文件作为训练集，3个人60个npy文件作为测试集。标签设置为1，2,…，20。

其中，步骤四在步骤一、步骤二和步骤三的基础上使用神经网络对获得的唇动数据集进行训练，具体步骤如下：

使用Python语言的Pytorch模块搭建LSTM网络。该网络主要有三个网络组成，第一个部分的网主要是起到预处理的作用。输入的张量为1x40x112x112,通过不断的卷积和池化，将张量转化为64个feature map，这些featrea map的时空三个维度长都相等，能够更好的应用于ResNet网络中，并且舍弃了无用的空间数据，保留了时长。第二个部分的网络是主要采用的是ResNet34层模型，它能将输入转为一维512的张量，将唇动的特征进行进一步的筛选。第三个部分的网络是一个双层双向长短期存储(Bi-LSTM)网络，最终再使用SoftMax层对于输入进行分类。通过这三个网络组合而成的唇读网络来实现了对于唇动数据集的n分类。

其中，步骤五在步骤一、步骤二、步骤三和步骤四的基础上对数据采集***、语音识别模型和唇读识别模型进行整合，构建一个多模态的人机交互***，具体步骤如下：

通过WPF框架开发一个用户控制台，当用户点击开始录制时，先在***中输入限定词(限定词是测试***功能的样例)，用户朗读限定词，***要能够对于用户读出的限定词进行音频和图像的录制，并将其存储到本地，进行数据转换，将图像和音频转为模型能够接收的数据类型，并将数据分别输入到语音模型和唇读模型中得出识别结果，***将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度，选择置信度高的作为多模态识别的最终结果。

下面提供一个实施例，对本发明的实现过程再说明。

步骤S0101：数据的采集环境为静音录音室，录制过程中保持正常的光照条件，无噪声环境，使用绿色幕布作为背景。被采集者为18人，9男9女，分别对20个词进行录制，每个词说10遍，每个词的说话最大时长为2s。音频部分的数据采样率为16000Hz，采样位数为16bit，音频格式为wav。图像部分的采样率为30FPS，彩色图1920x1080分辨率。

步骤S0201：通过run.sh对于录制好的音频数据进行训练；训练结果中WER表示字错误率，SER表示词错误率。

结果显示，最终的训练能使错误率降至15％。为了对比噪声条件下的识别效果，对于音频的每一个文件都加了高斯白噪声，使用的是Python的librosa库data_noise＝np.where(data！＝0.0,data.astype(‘float64’)+0.07*wn，0.0).astype(np.float32)其他操作一样。

音频数据使用隐马尔可夫模型，表示的是某一语音特征向量序列对于某个观察序列的后验概率。假设通过MFCC特征提取之后得到的语音向量为：

Y＝y₁y₂...y_n (1)

其中Y表示一个语音词汇。那么问题就转化为了计算：

由贝叶斯公式可知，预测值ω就可以转化为：

对于给定的先验概率，预测值ω实际上只由P(Y|ω)决定，简而言之，声学模型的任务是计算P(Y|ω)。

语言模型是基于N阶马尔可夫假设的N-Gram语言模型，通过统计的方法，每个词出现的概率可以在语料中计算出来，这个句子的概率是所有概率的乘积。

假设句子T是字符串序列w1,w2...wn组成，则有：

再根据贝叶斯公式，可以算出某个字在另一个字旁边发生的概率：

步骤S0301：在唇读模块中需要首先对于采集到的彩色图进行数据处理，包括将1920x1080的大小缩小到112x112的灰度图，并且只保留唇部区域，这个过程可以用OpenCV结合Dlib实现。shape_predictor_68_face_landmarks.dat中训练好了能够识别人脸68个特征点的模型，逋过提取其中需要的点进行像素切割，就能获得唇区部位。

步骤S0401：使用交叉熵损失函数和Adam优化器，对于模型训练60轮次，最终得到模型finetuneGRU_59.pt。

步骤S0501：在完成数据采集模块、语音识别模块、唇读识别模块之后，对于这三个模块进行整合，做成一个多模态人机交互***。

具体是，通过建立WPF顼目，来创建一个窗体程序，左上角显示的是深度图，显示了图片中各像素点到摄像头的距离，左下角显示的是三维点云，标记了人脸的表面特征及唇部特征，通过深度图和三维点云即可获得人脸的三维数据，右下角显示的是彩色图即原始图像，通过点击屏幕右上方的“start”开始录制，每隔2s，***会自动切换当前“preapareto begin”位置的词语，也就是需要采集的语料库。当词语切换时，被采集者根据屏幕上显示的词语，匀速地念出它的中文发音，然后等待***下一次自动切换即可，如此循环往复，直到完成录。然后创建控制台，控制台是主要进行操控的区域，彩色数据流会在Kinect数据流接受到之后进行显示，左下角为识别结果，右下角为模式选择和状态栏。状态栏主要展示当前的程序运行状态。在数据录制并转换完成之后，编写Python脚本，使用Python第三方paramiko包实现对服务器进行ssh连接，使用scp命令将数据上传并将其复制到测试集中，调用模型进行识别，接受识别结果的回显并输出。同时，使用C#调用该Python脚本实现一键操作。使用Python第三方difflib包进行相似度匹配，将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度，选择置信度高的作为多模态识别的最终结果。

在本发明中，唇读采用的是基于ResNet网络(残差神经网络(Residual NeuralNetwork，ResNet))模型的卷积神经网络的端对端的方法。传统的唇读是将唇读图像插值、加窗、分帧、归一化，再进行了DCT变换、主成分分析(Principal Component Analysis，PCA)降维，得到唇部特征。Kinect采集的图像采样率为30FPS，而音频有16000Hz，通过插值的方法有一定的误差，相比而言采用基于ResNet网络端对端的方法，其识别精度会有所提升。

本发明中采用的是灰度图，也就是彩色图作为唇动的数据集。正是因为此，受光照的影响较大，可以采用深度图作为数据集进行训练。另一个方面，最终实现的***需要点击多次，其主要原因是音频数据需要使用Audacity进行格式转换，可以实现在Kinect采集数据的过程中直接加上wav的文件头，同时保证数据存储的精度，这样就能一键完成交互，改善用户的体验。

在基于kinect的多模态人机交互***测试的实验中，通过计算准确率来对比***的最终效果。

纯净环境下的语音识别，保证环境噪声几乎为零，与录制时环境基本一致。实验对于百度、网易、华为、搜狗、腾讯、新浪、苹果、暴雪、央视、爱奇艺、优酷、豆瓣、起点、顺丰、知乎、金山毒霸、乐视、虎扑、今日头条、携程20个词分别进行了测试，每个词分别测试了50遍。纯净环境下的识别基本正确率在90％左右，部分词语可达95％，最低的在80％左右。总体识别率为89.7％。

带噪环境下的语音识别，该实验的测试环境是噪声环境的静音室。同样是对于20个词每个词读50遍来逬行测试，正确结果按次序为(24,23,23,24,24,19,22,23,24,24,20,20,25,23,23,21，20,23,24,19)，发现噪声环境下的识别基本正确率跌至45％左右，受噪声影响巨大，其中乐视、新浪的识别率最低，总体识别率为44.8％。

语音结合唇读的语音识别结果，该实验的测试环境是同样是噪声环境的静音室。对于20个词每个词读50遍来进行测试，正确结果按次序为(32,31，31，35,34,34,32,34,36,35,31，32,28,33,33,30,28,35,34,29)。可以发现，唇读结合语音的识别基本正确率跌至65％左右，比预期的正确率低了20％左右，总体识别率为64.7％。

综合上面三个实验的情况，纯净语音的识别率为89.7％，带噪语音的识别率为44.8％，唇读结合语音的识别率为64.7％。如图2所示为三种识别方式的识别率曲线图。

通过实验结果可以看出，净环境下语音识别率最高，带噪唇读结合语音识别率次之，带噪语音识别率最低。唇读结合语音识别的准确率与预期相比相差很多，在训练中能够达到95％的测试集识别率，而在现实使用时只能平均达到64％的识别率。

Claims

1.一种基于Kinect的多模态人机交互***，其特征在于，实现步骤如下:

S1.构建能接受Kinect获取到的多模态数据的数据采集***；

2.根据权利要求1所述基于Kinect的多模态人机交互***，其特征在于，其中，唇动数据集的训练使用Python语言的Pytorch模块搭建LSTM网络进行；该网络包括：

3.根据权利要求1所述基于Kinect的多模态人机交互***，其特征在于，所述的将数据采集***、语音识别模型和唇读识别模型整合在一起的步骤是：