CN111554279A - 一种基于Kinect的多模态人机交互*** - Google Patents
一种基于Kinect的多模态人机交互*** Download PDFInfo
- Publication number
- CN111554279A CN111554279A CN202010344331.2A CN202010344331A CN111554279A CN 111554279 A CN111554279 A CN 111554279A CN 202010344331 A CN202010344331 A CN 202010344331A CN 111554279 A CN111554279 A CN 111554279A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- lip
- recognition
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 240000006677 Vicia faba Species 0.000 description 1
- 235000010749 Vicia faba Nutrition 0.000 description 1
- 235000002098 Vicia faba var. major Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000005574 cross-species transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于Kinect的多模态人机交互***,实现步骤如下:构建能接受Kinect获取到的多模态数据的数据采集***;进行声学模型与语言模型的单音素训练,得到声学识别模块;利用采集到彩色图数据建立用于训练机器学习的唇动数据集;使用基于残差神经网络的卷积神经网络的模型训练方法,利用唇动数据集训练唇读识别模型;数据采集***、语音识别模型和唇读识别模型整合在一起,构建一个多模态的人机交互***;本发明的多模态的人机交互***增强了语音识别的鲁棒性。
Description
技术领域
本发明涉及语音识别,人机交互技术领域,特别是涉及一种基于Kinect的多模态人机交互***。
背景技术
语音识别属于模式识别的一种,计算机通过给定的输入语音进行信息查找,有语音转文本,身份识别等,和图像识别一样,在人机交互中有着广泛的应用。语音识别***根据说话的方式来分,可与分为孤立词识别***和连续词识别***。孤立词的语音数据单位为单个词语,在采集数据时,是以一个词一个词的方式来录音的,词与词之间有着明显的停顿。相对的连续词是对连续的词语进行识别。现有孤立词识别***在识别结果上尚需要进一步改进。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于Kinect的多模态人机交互***,对于用户说出的命令词,在纯净环境下(无噪声环境)能够通过语音识别出命令词,在带噪环境下能够通过语音和唇读识别得到命令词的识别结果,特别是通过识别唇部变化来提高语音识别的准确度,增强语音识别的鲁棒性。
为实现本发明的目的所采用的技术方案是:
一种基于Kinect的多模态人机交互***,实现步骤如下:
S1.构建能接受Kinect获取到的多模态数据的数据采集***;
S2.使用基于Kaldi的开源语音识别工具集编写训练脚本,对采集到的音频数据提取特征向量,进行声学模型与语言模型的单音素训练,得到最终的声学识别模块;
S3.利用采集到彩色图数据建立用于训练机器学习的唇动数据集;
S4.使用基于残差神经网络的卷积神经网络的模型训练方法,利用唇动数据集训练唇读识别模型,获得最终唇读识别模块;
S5.将数据采集***、语音识别模型和唇读识别模型整合在一起,构建一个多模态的人机交互***。
其中,唇动数据集的训练使用Python语言的Pytorch模块搭建LSTM网络进行;该网络包括:
第一处理部,用于数据预处理,输入的张量为1x40x112x112,通过不断的卷积和池化,将张量转化为64个特征图,所述特征图的时空三个维度长都相等;
第二处理部,采用ResNet34层模型,能将输入转为一维512的张量,将唇动的特征进行进一步的筛选;
第三处理部,是一个双层双向长短期存储网络,最终再使用SoftMax层对于输入进行分类,实现了对于唇动数据集的n分类。
其中,所述的将数据采集***、语音识别模型和唇读识别模型整合在一起的步骤是:
通过WPF框架开发一个用户控制台,通过该用户控制台实现对数据采集***、语音识别模型和唇读识别模型的控制:识别处理时,***对于用户读出的限定词进行音频和图像的录制并存储到本地,进行数据转换,将图像和音频转为模型能够接收的数据类型,并将数据分别输入到声学识别模块和唇读识别模块中得出识别结果,***将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度,选择置信度高的作为多模态识别的最终结果。
本发明对于用户说出的命令词,在纯净环境下(无噪声环境)能够通过语音识别出命令词,在带噪环境下能够通过语音和唇读识别得到命令词的识别结果,特别是通过识别唇部变化来提高语音识别的准确度,增强语音识别的鲁棒性。
附图说明
图1为本发明的基于Kinect的多模态人机交互***的结构原理图;
图2为本发明在三种环境条件下的识别率对比图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明是使用微软发布的Kinect SDK结合Kinect设备对于数据采集***进行开发,实现能从Kinect接收存储数据,能够进行数据的录制。拟定小规模的限定词语料库,并使用开发完的数据采集***对采集者进行多模态数据的录制。对于采集到的多模态数据进行处理,获得语音数据集和图像数据集。通过采集到的语音数据集和图像数据集分别进行训练,获得训练模型。之后,将之前开发的程序进行整合,开发一个可视化窗体程序,能够对于使用者进行数据采集,并使用训练的模型识别出结果,展示在窗体中。
对于制作好的窗体程序进行测试,测试在纯净环境下的语音识别正确率,在噪声环境下的语音识别正确率和在噪声环境下的多模态语音识别正确率。
其中,本发明使用的Kaldi开源语音工具集编写训练脚本,采用基于加权有限状态接收器(Weighted Finite State Transducer,WFST)来构建解码图。
如图1所示,本发明的基于Kinect的多模态人机交互***,实现方法如下:
步骤一:构建能接受从Kinect获取到的多模态数据的采集***;
步骤二:使用通过基于Kaldi的开源语音识别工具集编写训练脚本,对采集到的音频数据进行模型训练;
步骤三:建立用于训练机器学习的唇动数据集;
步骤四:使用基于残差神经网络的卷积神经网络的模型训练方法训练唇动数据集;
步骤五:将数据采集***、语音识别模型和唇读识别模型整合在一起,构建一个多模态的人机交互***。
其中,步骤一将Kinect采集到的音频数据和彩色图数据存到本地,具体步骤如下:
首先,KinectSensor类创建一个Kinect对象,通过Kinect对象接受传感器,打开Sensor后,通过Source类定义不同的数据源,本***中用到的有AudioSource,ColorFrameSource两种数据源。Reader类能够通过通过Source.OpenReader方法来打开Source的数据源。通过AudioSource创建出Audio Reader,通过ColorRrameSource创建Col-orFrameReader。此外Reader类还能定义事件机制,以彩色顿为例,彩色帧的Reader通过添加了colorFrameReader_FrameArrived的事件使得它能够在每次获得colorFrame时逬行自定义的操作,在模块中,定义将Frame显示到屏幕中,在录制时将Frame存储到线程安全队列中的事件。
其中,步骤二在步骤一的基础上用准备好的声学数据与语言数据进行训练,获得声学识别模型,具体步骤如下:
准备好语言数据、声学数据、词典和音频数据之后,编写训练脚本。在tjuspeech_gxy下创建run.sh,cmd.sh和path.sh,其中cmd.sh主要用于配置机器运行的环境,path.sh主要用于将外部的shell文件引入进来在项目里使用。run.sh里面,首先引入path.sh和cmd.sh,然后指定并行的工作数量,指定使用的语言模型N-gram的N,再根据之前准备的utt2spk得出spk2utt。这样之后就可以准备进行MFCC特征的提取了。使用Kaldi内置的make_mfcc.sh对于已经准备好的音频文件进行特征向量的提取,使用compute_cmvn_stats.sh进行倒谱均值方差归一化的计算,根据准备好的语言数据使用srilm进行语言模型的训练生成lm.arpa,再将其转为G.fst。这样就准备好了声学模型和语言模型,使用tmin_mono_sh进行单音素训练,得到最终的模型。
其中,步骤三在步骤一和步骤二的基础上建立用于训练机器学习的唇动数据集,具体步骤如下:
制作唇动的数据集,需要对于采集到的数据进行处理。这里使用的是Kinect采集到的彩色图数据。使用Python3,7+Dlib+OpenCV实现唇部区域的定位。OpenCV是一个由C++编写的计算机视觉的专用库,它可以用来处理图像相关的很多事,如人脸识别,人脸检测等。Dlib也是一个C++编写的幵源工具包,它实现了很多机器学习、图像处理的算法,在这里,结合OpenCV和Dlib可以对人脸上的68个点进行定位,得出在彩色图中的像素坐标。只需要唇部的46到68的特征点即可。取上下左右的嘴唇四个边缘点,即46、51、54、58四个点,将他们的横坐标相加除以四,纵坐标相加除以四,就可粗略的得到嘴唇的中心点,记为px,py,最终要得到的是112x112的单通道的灰度图片,只需要取img[px-56:px+56,py-56:py+56]即可,每个人每个词,都处理成40张图,做成一个npy文件。总共得到360个npy文件,将15个人300个npy文件作为训练集,3个人60个npy文件作为测试集。标签设置为1,2,…,20。
其中,步骤四在步骤一、步骤二和步骤三的基础上使用神经网络对获得的唇动数据集进行训练,具体步骤如下:
使用Python语言的Pytorch模块搭建LSTM网络。该网络主要有三个网络组成,第一个部分的网主要是起到预处理的作用。输入的张量为1x40x112x112,通过不断的卷积和池化,将张量转化为64个feature map,这些featrea map的时空三个维度长都相等,能够更好的应用于ResNet网络中,并且舍弃了无用的空间数据,保留了时长。第二个部分的网络是主要采用的是ResNet34层模型,它能将输入转为一维512的张量,将唇动的特征进行进一步的筛选。第三个部分的网络是一个双层双向长短期存储(Bi-LSTM)网络,最终再使用SoftMax层对于输入进行分类。通过这三个网络组合而成的唇读网络来实现了对于唇动数据集的n分类。
其中,步骤五在步骤一、步骤二、步骤三和步骤四的基础上对数据采集***、语音识别模型和唇读识别模型进行整合,构建一个多模态的人机交互***,具体步骤如下:
通过WPF框架开发一个用户控制台,当用户点击开始录制时,先在***中输入限定词(限定词是测试***功能的样例),用户朗读限定词,***要能够对于用户读出的限定词进行音频和图像的录制,并将其存储到本地,进行数据转换,将图像和音频转为模型能够接收的数据类型,并将数据分别输入到语音模型和唇读模型中得出识别结果,***将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度,选择置信度高的作为多模态识别的最终结果。
下面提供一个实施例,对本发明的实现过程再说明。
步骤S0101:数据的采集环境为静音录音室,录制过程中保持正常的光照条件,无噪声环境,使用绿色幕布作为背景。被采集者为18人,9男9女,分别对20个词进行录制,每个词说10遍,每个词的说话最大时长为2s。音频部分的数据采样率为16000Hz,采样位数为16bit,音频格式为wav。图像部分的采样率为30FPS,彩色图1920x1080分辨率。
步骤S0201:通过run.sh对于录制好的音频数据进行训练;训练结果中WER表示字错误率,SER表示词错误率。
结果显示,最终的训练能使错误率降至15%。为了对比噪声条件下的识别效果,对于音频的每一个文件都加了高斯白噪声,使用的是Python的librosa库data_noise=np.where(data!=0.0,data.astype(‘float64’)+0.07*wn,0.0).astype(np.float32)其他操作一样。
音频数据使用隐马尔可夫模型,表示的是某一语音特征向量序列对于某个观察序列的后验概率。假设通过MFCC特征提取之后得到的语音向量为:
Y=y1y2...yn (1)
其中Y表示一个语音词汇。那么问题就转化为了计算:
由贝叶斯公式可知,预测值ω就可以转化为:
对于给定的先验概率,预测值ω实际上只由P(Y|ω)决定,简而言之,声学模型的任务是计算P(Y|ω)。
语言模型是基于N阶马尔可夫假设的N-Gram语言模型,通过统计的方法,每个词出现的概率可以在语料中计算出来,这个句子的概率是所有概率的乘积。
假设句子T是字符串序列w1,w2...wn组成,则有:
再根据贝叶斯公式,可以算出某个字在另一个字旁边发生的概率:
步骤S0301:在唇读模块中需要首先对于采集到的彩色图进行数据处理,包括将1920x1080的大小缩小到112x112的灰度图,并且只保留唇部区域,这个过程可以用OpenCV结合Dlib实现。shape_predictor_68_face_landmarks.dat中训练好了能够识别人脸68个特征点的模型,逋过提取其中需要的点进行像素切割,就能获得唇区部位。
步骤S0401:使用交叉熵损失函数和Adam优化器,对于模型训练60轮次,最终得到模型finetuneGRU_59.pt。
步骤S0501:在完成数据采集模块、语音识别模块、唇读识别模块之后,对于这三个模块进行整合,做成一个多模态人机交互***。
具体是,通过建立WPF顼目,来创建一个窗体程序,左上角显示的是深度图,显示了图片中各像素点到摄像头的距离,左下角显示的是三维点云,标记了人脸的表面特征及唇部特征,通过深度图和三维点云即可获得人脸的三维数据,右下角显示的是彩色图即原始图像,通过点击屏幕右上方的“start”开始录制,每隔2s,***会自动切换当前“preapareto begin”位置的词语,也就是需要采集的语料库。当词语切换时,被采集者根据屏幕上显示的词语,匀速地念出它的中文发音,然后等待***下一次自动切换即可,如此循环往复,直到完成录。然后创建控制台,控制台是主要进行操控的区域,彩色数据流会在Kinect数据流接受到之后进行显示,左下角为识别结果,右下角为模式选择和状态栏。状态栏主要展示当前的程序运行状态。在数据录制并转换完成之后,编写Python脚本,使用Python第三方paramiko包实现对服务器进行ssh连接,使用scp命令将数据上传并将其复制到测试集中,调用模型进行识别,接受识别结果的回显并输出。同时,使用C#调用该Python脚本实现一键操作。使用Python第三方difflib包进行相似度匹配,将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度,选择置信度高的作为多模态识别的最终结果。
在本发明中,唇读采用的是基于ResNet网络(残差神经网络(Residual NeuralNetwork,ResNet))模型的卷积神经网络的端对端的方法。传统的唇读是将唇读图像插值、加窗、分帧、归一化,再进行了DCT变换、主成分分析(Principal Component Analysis,PCA)降维,得到唇部特征。Kinect采集的图像采样率为30FPS,而音频有16000Hz,通过插值的方法有一定的误差,相比而言采用基于ResNet网络端对端的方法,其识别精度会有所提升。
本发明中采用的是灰度图,也就是彩色图作为唇动的数据集。正是因为此,受光照的影响较大,可以采用深度图作为数据集进行训练。另一个方面,最终实现的***需要点击多次,其主要原因是音频数据需要使用Audacity进行格式转换,可以实现在Kinect采集数据的过程中直接加上wav的文件头,同时保证数据存储的精度,这样就能一键完成交互,改善用户的体验。
在基于kinect的多模态人机交互***测试的实验中,通过计算准确率来对比***的最终效果。
纯净环境下的语音识别,保证环境噪声几乎为零,与录制时环境基本一致。实验对于百度、网易、华为、搜狗、腾讯、新浪、苹果、暴雪、央视、爱奇艺、优酷、豆瓣、起点、顺丰、知乎、金山毒霸、乐视、虎扑、今日头条、携程20个词分别进行了测试,每个词分别测试了50遍。纯净环境下的识别基本正确率在90%左右,部分词语可达95%,最低的在80%左右。总体识别率为89.7%。
带噪环境下的语音识别,该实验的测试环境是噪声环境的静音室。同样是对于20个词每个词读50遍来逬行测试,正确结果按次序为(24,23,23,24,24,19,22,23,24,24,20,20,25,23,23,21,20,23,24,19),发现噪声环境下的识别基本正确率跌至45%左右,受噪声影响巨大,其中乐视、新浪的识别率最低,总体识别率为44.8%。
语音结合唇读的语音识别结果,该实验的测试环境是同样是噪声环境的静音室。对于20个词每个词读50遍来进行测试,正确结果按次序为(32,31,31,35,34,34,32,34,36,35,31,32,28,33,33,30,28,35,34,29)。可以发现,唇读结合语音的识别基本正确率跌至65%左右,比预期的正确率低了20%左右,总体识别率为64.7%。
综合上面三个实验的情况,纯净语音的识别率为89.7%,带噪语音的识别率为44.8%,唇读结合语音的识别率为64.7%。如图2所示为三种识别方式的识别率曲线图。
通过实验结果可以看出,净环境下语音识别率最高,带噪唇读结合语音识别率次之,带噪语音识别率最低。唇读结合语音识别的准确率与预期相比相差很多,在训练中能够达到95%的测试集识别率,而在现实使用时只能平均达到64%的识别率。
相关的术语解释与说明:
预处理:对于输入的语音信号进行数据的预加工,通过切除语音首尾端的静音区,减少对于后续步骤的干扰,一般称为语音活动检测(Voice Activity Detection,VAD)。
梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC),是语音识别中用来描述人声的比较重要的特征。MFCC是通过对于语音预加重、分帧、加窗,再对每一个短时窗进行快速傅里叶变换(Fast Fourier Transformation,FTT)得到对应的频谱,然后使之通过Mel滤波器得到Mel频谱,对得到的频谱再进行倒谱分析,即可获得MFCC。
声学模型(Acoustic Model,AM)的主要任务就是对于给定的输入文本,计算发出这段语音的概率是多少。在基于统计的语音识别中,最主要用到的声学模型是HMM模型,即隐马尔可夫模型(Hidden Markov Models,HMM)。
语言模型(Language Model,LM)表示某个字序列发生的概率。常用的语言模型是基于N阶马尔可夫假设的N-Gram语言模型,它的假设是第n个词出现的概率只跟第n-1个出现的概率有关。
常用的N-Gram模型有一元模型(uni-gram,N=1),表示每个单词出现的概率与前面所有单词出现的概率相互独立,二元模型(bi-gram,N=2),三元模型(tri-gram,N=3)等。由于语料库数量的限制,存在词汇不足的情况,会导致计算概率为0的问题,通常可以用加法平滑、绝对值减法、拉普拉斯平滑等。
词典(lexicon),用来连接声学模型和语言模型的桥梁,能够建立起从单词到音素的映射。词典中包含了语音识别***所能识别的单词,并且表明了发音。英文单词使用单词和音标,中文则使用汉字和拼音进行对应,从而连接起声学模型和语言模型,构成一个用于搜索的状态空间,为解码做出准备。
语音识别中,有声学模型,语言模型和词典,就可构成一个状态空间,对于一个输入的特征序列,通过维特比算法,在状态空间中找到一条得分最高的路径来作为s输出的状态序列。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于Kinect的多模态人机交互***,其特征在于,实现步骤如下:
S1.构建能接受Kinect获取到的多模态数据的数据采集***;
S2.使用基于Kaldi的开源语音识别工具集编写训练脚本,对采集到的音频数据提取特征向量,进行声学模型与语言模型的单音素训练,得到最终的声学识别模块;
S3.利用采集到彩色图数据建立用于训练机器学习的唇动数据集;
S4.使用基于残差神经网络的卷积神经网络的模型训练方法,利用唇动数据集训练唇读识别模型,获得最终唇读识别模块;
S5.将数据采集***、语音识别模型和唇读识别模型整合在一起,构建一个多模态的人机交互***。
2.根据权利要求1所述基于Kinect的多模态人机交互***,其特征在于,其中,唇动数据集的训练使用Python语言的Pytorch模块搭建LSTM网络进行;该网络包括:
第一处理部,用于数据预处理,输入的张量为1x40x112x112,通过不断的卷积和池化,将张量转化为64个特征图,所述特征图的时空三个维度长都相等;
第二处理部,采用ResNet34层模型,能将输入转为一维512的张量,将唇动的特征进行进一步的筛选;
第三处理部,是一个双层双向长短期存储网络,最终再使用SoftMax层对于输入进行分类,实现了对于唇动数据集的n分类。
3.根据权利要求1所述基于Kinect的多模态人机交互***,其特征在于,所述的将数据采集***、语音识别模型和唇读识别模型整合在一起的步骤是:
通过WPF框架开发一个用户控制台,通过该用户控制台实现对数据采集***、语音识别模型和唇读识别模型的控制:识别处理时,***对于用户读出的限定词进行音频和图像的录制并存储到本地,进行数据转换,将图像和音频转为模型能够接收的数据类型,并将数据分别输入到声学识别模块和唇读识别模块中得出识别结果,***将语音识别的结果和唇读识别的结果遍历限定词分别计算出最高的相似度作为置信度,选择置信度高的作为多模态识别的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344331.2A CN111554279A (zh) | 2020-04-27 | 2020-04-27 | 一种基于Kinect的多模态人机交互*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344331.2A CN111554279A (zh) | 2020-04-27 | 2020-04-27 | 一种基于Kinect的多模态人机交互*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111554279A true CN111554279A (zh) | 2020-08-18 |
Family
ID=72004103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010344331.2A Pending CN111554279A (zh) | 2020-04-27 | 2020-04-27 | 一种基于Kinect的多模态人机交互*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554279A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069834A (zh) * | 2020-09-02 | 2020-12-11 | 中国航空无线电电子研究所 | 一种多通道控制指令的整合方法 |
CN112462940A (zh) * | 2020-11-25 | 2021-03-09 | 苏州科技大学 | 智能家居多模态人机自然交互***及其方法 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113362540A (zh) * | 2021-06-11 | 2021-09-07 | 江苏苏云信息科技有限公司 | 基于多模交互的交通票务处理装置、***及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071830A1 (en) * | 2009-09-22 | 2011-03-24 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN110096966A (zh) * | 2019-04-10 | 2019-08-06 | 天津大学 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110110603A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于面部生理信息的多模态唇读方法 |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
CN110633683A (zh) * | 2019-09-19 | 2019-12-31 | 华侨大学 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
-
2020
- 2020-04-27 CN CN202010344331.2A patent/CN111554279A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071830A1 (en) * | 2009-09-22 | 2011-03-24 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN110096966A (zh) * | 2019-04-10 | 2019-08-06 | 天津大学 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110110603A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于面部生理信息的多模态唇读方法 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
CN110633683A (zh) * | 2019-09-19 | 2019-12-31 | 华侨大学 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
Non-Patent Citations (2)
Title |
---|
KAREL PALEČEK ETC: "Depth-based features in audio-visual speech recognition", 《IEEE:2016 39TH INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS AND SIGNAL PROCESSING (TSP)》 * |
高永春: "基于Kinect深度数据辅助的机器人带噪语音识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069834A (zh) * | 2020-09-02 | 2020-12-11 | 中国航空无线电电子研究所 | 一种多通道控制指令的整合方法 |
CN112462940A (zh) * | 2020-11-25 | 2021-03-09 | 苏州科技大学 | 智能家居多模态人机自然交互***及其方法 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113192537B (zh) * | 2021-04-27 | 2024-04-09 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113362540A (zh) * | 2021-06-11 | 2021-09-07 | 江苏苏云信息科技有限公司 | 基于多模交互的交通票务处理装置、***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN108766414B (zh) | 用于语音翻译的方法、装置、设备和计算机可读存储介质 | |
US20150325240A1 (en) | Method and system for speech input | |
CN112053690B (zh) | 一种跨模态多特征融合的音视频语音识别方法及*** | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
CN111554279A (zh) | 一种基于Kinect的多模态人机交互*** | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
JPH0782353B2 (ja) | 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法 | |
Tao et al. | End-to-end audiovisual speech activity detection with bimodal recurrent neural models | |
CN113539240B (zh) | 动画生成方法、装置、电子设备和存储介质 | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
EP4392972A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
Potamianos et al. | Joint audio-visual speech processing for recognition and enhancement | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN115312030A (zh) | 虚拟角色的显示控制方法、装置及电子设备 | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
Frew | Audio-visual speech recognition using LIP movement for amharic language | |
Goh et al. | Audio-visual speech recognition system using recurrent neural network | |
Ballard et al. | A multimodal learning interface for word acquisition | |
Paleček | Experimenting with lipreading for large vocabulary continuous speech recognition | |
Choudhury et al. | Review of Various Machine Learning and Deep Learning Techniques for Audio Visual Automatic Speech Recognition | |
Ivanko et al. | A novel task-oriented approach toward automated lip-reading system implementation | |
CN115145402A (zh) | 具有网络交互功能的智能玩具***及控制方法 | |
Ivanko | Audio-visual Russian speech recognition | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200818 |
|
RJ01 | Rejection of invention patent application after publication |