CN112784696B

CN112784696B - 基于图像识别的唇语识别方法、装置、设备及存储介质

Info

Publication number: CN112784696B
Application number: CN202011635782.8A
Authority: CN
Inventors: 周亚云; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-05-10
Anticipated expiration: 2040-12-31
Also published as: CN112784696A

Abstract

本发明涉及人工智能领域，公开了一种基于图像识别的唇语识别方法、装置、设备及存储介质。该方法包括：实时采集唇语用户的多帧人脸图像进行关键点检测与唇部区域定位，得到各人脸图像对应的唇部区域图像；依次对各人脸图像对应的唇部区域图像进行特征提取，得到唇语用户的唇部特征序列；将唇部特征序列输入预置唇语识别模型，输出唇语用户对应的发音音素序列；将发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对多个自然语句进行打分，得到目标自然语句；将目标自然语句进行音频转换，得到唇语发音并进行播报。本发明能从实时采集的唇语图像数据中识别出唇语表达语句，并进行播报，使无声的唇语得以实时发声。

Description

基于图像识别的唇语识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于图像识别的唇语识别方法、装置、设备及存储介质。

背景技术

目前世界上存在大量因疾病、意外或者先天缺陷导致失声的人群，这部分人群无法通过发送声音来实现和外界顺畅沟通。一般来说，失声人群可以听明白正常人的语音信息，但如何表达自己的想法让对方明白却是一件困难的事情，比如非失声者没有经过专业的手语或者唇语的识别训练，或者失声者不会书写文字等情况下，沟通很难正常进行。失声人群即便可以通过文字进行交流，但沟通效率低下。而唇语是靠看别人的说话时嘴唇的动作来解读别人说的话，不需要对教育背景有所要求，但对唇语识别能力有专业的要求。

为了解决人类解读唇语需要经过专业训练的问题，可以利用机器学习和深度学习技术来训练机器识别人类的唇语表达，并通过播放器播报，以实现失声人群与正常人的实时无障碍沟通。现有的唇语识别方案多数都包含嘴部检测、嘴部分割、嘴部归一化、特征提取和唇语分类器的构建，准确率约为20％-60％，属于较低的唇语识别准确率，而且没有达到语音直接播报的功能，使唇语识别仍停留在误差较大的文字层面。

发明内容

本发明的主要目的在于解决现有唇语识别的建模方式简单而影响识别准确度的技术问题。

本发明第一方面提供了一种基于图像识别的唇语识别方法，所述基于图像识别的唇语识别方法包括：

实时采集唇语用户的多帧人脸图像；

依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列；

将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列；

将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句；

将所述目标自然语句进行音频转换，得到唇语发音并进行播报。

可选的，在本发明第一方面的第一种实现方式中，所述依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像包括：

依次将所述各人脸图像数据输入人脸识别模型进行关键点检测，得到所述各人脸图像中的人脸关键点；

根据所述各人脸关键点对应的标注信息，确定所述各人脸图像中的嘴角关键点；

根据所述各人脸图像的嘴角关键点，确定所述各人脸图像对应的唇部区域并进行截图，得到所述各人脸图像对应的唇部区域图像。

可选的，在本发明第一方面的第二种实现方式中，所述依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列包括：

将所述各人脸图像对应的唇部区域图像与预置标准嘴图像对齐；

计算所述各唇部区域图像相对于标准嘴图像的偏移量和旋转因子，得到所述各唇部区域图像对应的唇部特征向量；

按照所述各人脸图像的采集时序，依次拼接所述各唇部区域图像对应的唇部特征向量，得到所述唇语用户的唇部特征序列。

可选的，在本发明第一方面的第三种实现方式中，在所述实时采集唇语用户的多帧人脸图像之前，还包括：

获取多个带发音音素标注的唇部区域图像样本；

提取所述各唇部区域图像样本对应的唇部特征序列并作为训练样本；

初始化带初始网络参数的端对端神经网络模型，所述端对端神经网络模型包括：编码器及解码器，所述编码器包括若干层第一RNN网络，所述解码器包括若干层第二RNN网络；

将所述训练样本输入所述编码器的各第一RNN网络进行发音编码，得到所述训练样本对应的第一发音向量；

将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到所述各第一发音向量对应的发音音素预测结果；

根据所述发音音素预测结果及所述训练样本，计算所述端对端神经网络模型的CTC损失函数，得到模型损失值；

根据所述模型损失值，判断所述端对端神经网络模型是否收敛；

若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型。

可选的，在本发明第一方面的第四种实现方式中，所述将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列包括：

将所述唇部特征序列输入所述唇语识别模型的编码器进行发音编码，得到所述唇部特征序列对应的第二发音向量；

将所述第二发音向量输入所述唇语识别模型的解码器进行发音映射，得到所述唇语用户对应的发音音素序列。

可选的，在本发明第一方面的第五种实现方式中，所述统计语言模型包括：正向LSTM网络及反向LSTM网络，所述将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句包括：

将所述各自然语句按单词顺序正序输入所述正向LSTM网络进行网络计算，得到所述各自然语句的第一预测结果；

将所述各自然语句按单词顺序逆序输入所述反向LSTM网络进行网络计算，得到所述各自然语句的第二预测结果；

计算所述第一预测结果及所述第二预测结果的均值，得到各自然语句对应的分值，并将分值最高的自然语句作为目标自然语句。

可选的，在本发明第一方面的第六种实现方式中，所述将所述发音音素序列转换成文字格式的多个自然语句包括：

以所述发音音素序列中各发音音素为查询关键字，查询预置音素发音映射表，得到各发音音素对应的音素ID；

根据所述各音素ID，查询预置词映射表，得到各音素对应的多个字词；

按所述发音音素序列的排列顺序，对所述各音素对应的字词进行组合，得到文字格式的多个自然语言句。

本发明第二方面提供了一种基于图像识别的唇语识别装置，包括：

图像采集模块，用于实时采集唇语用户的多帧人脸图像；

唇部定位模块，用于依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

特征提取模块，用于依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列；

序列识别模块，用于将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列；

语句打分模块，用于将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句；

唇语播报模块，用于将所述目标自然语句进行音频转换，得到唇语发音并进行播报。

可选的，在本发明第二方面的第一种实现方式中，所述唇部定位模块具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述特征提取模块具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述基于图像识别的唇语识别装置还包括：

样本获取模块，用于获取多个带发音音素标注的唇部区域图像样本；提取所述各唇部区域图像样本对应的唇部特征序列并作为训练样本；

模型预测模块，用于初始化带初始网络参数的端对端神经网络模型，所述端对端神经网络模型包括：编码器及解码器，所述编码器包括若干层第一RNN网络，所述解码器包括若干层第二RNN网络；将所述训练样本输入所述编码器的各第一RNN网络进行发音编码，得到所述训练样本对应的第一发音向量；将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到所述各第一发音向量对应的发音音素预测结果；

损失计算模块，用于根据所述发音音素预测结果及所述训练样本，计算所述端对端神经网络模型的CTC损失函数，得到模型损失值；

模型生成模块，用于根据所述模型损失值，判断所述端对端神经网络模型是否收敛；若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型。

可选的，在本发明第二方面的第四种实现方式中，所述序列识别模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述统计语言模型包括：正向LSTM网络及反向LSTM网络，所述语句打分模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述语句打分模块还用于：

本发明第三方面提供了一种基于图像识别的唇语识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像识别的唇语识别设备执行上述的基于图像识别的唇语识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于图像识别的唇语识别方法。

本发明提供的技术方案中，为了使无法通过声音来传达自己想法的唇语用户能打破沟通的壁垒，实时发声，我们需要实时采集唇语用户的脸部动画，通过脸部动画提取连续的多帧用户脸部图像，再通过人脸识别模型识别出人脸的多个关键点，通过这些关键点定位到唇语用户的唇部，然后再提取唇部图像中的特征，这些特征通过唇部特征序列表达，再把序列输入唇语识别模型，识别出序列对应的发音音素。对于中文唇语用户，发音音素就是声母韵母组成的拼音。接着，把拼音序列转换为不同组合方式的自然语言语句，再把这些自然语言语句输入统计语言模型评分，评估自然语言语句的合理性及通顺程度，选出目标自然语言语句，最后通过播放器播放目标自然语言语句。本发明实施例能从实时采集的唇语图像数据中识别出唇语表达语句，并进行播报，使无声的唇语得以发声。

附图说明

图1为本发明实施例中基于图像识别的唇语识别方法的第一个实施例示意图；

图2为本发明实施例中基于图像识别的唇语识别方法的第二个实施例示意图；

图3为本发明实施例中基于图像识别的唇语识别装置的第一个实施例示意图；

图4为本发明实施例中基于图像识别的唇语识别装置的第二个实施例示意图；

图5为本发明实施例中基于图像识别的唇语识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于图像识别的唇语识别方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于图像识别的唇语识别方法的第一个实施例包括：

101、实时采集唇语用户的多帧人脸图像；

可以理解的是，本发明的执行主体可以为基于图像识别的唇语识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，唇语用户是指需要被识别唇语表达信息的用户，例如可以是失声者或聋哑人士。也可以是不愿意将声音信息公开的正常人，例如一些需要机密交流的场合，唇语用户将想要表达的声音信息通过唇部动画的方式传输到接收方，再在接收方处解密唇语信息。

本实施例中，唇语用户的图像采集方式可以是视频录制，可以提前为唇语用户安装一台2D摄像机，用于采集说话人的脸部视频。获取到脸部视频后，可以利用视频处理工具，如AE，将视频输出为单帧图像，这样，我们便获取到了唇语用户的连续帧图像，用于进一步识别唇语表达。

102、依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

本实施例中，采集到的人脸图像可能有不同的复杂背景，为了识别图像中的人脸的唇部，需要先检测出人脸。其中，人脸的检测可以通过人脸识别模型来进行人脸的关键点定位，本实施例参照基于计算机视觉的专业Dlib人脸识别模型，设计出更完整的关键点检测模型，该模型可以定位出人脸的98个关键点，比原始的Dlib模型识别出的68个关键点，增加了30个唇部区域的关键点，使唇部的关键点更加密集，提高了唇部特征表达的精度。另外，关键点检测模型对唇部关键点使用了特殊的标注信息，能够快速定位并提取出唇部的关键点，提高了人脸唇部定位的效率。

可选的，步骤102具体包括：

本可选实施例中，人脸识别模型也称关键点检测模型，是通过预先标注好的人脸图像训练出来的人脸关键点检测模型，其核心原理是使用了图像Hog特征来表示人脸，和其他特征提取算子相比，它对图像的几何和光学的形变都能保持很好的不变形。该特征与LBP特征，Harr特征共同作为三种经典的图像特征，该特征提取算子通常和支持向量机(SVM)算法搭配使用，用在物体检测场景。人脸识别模型实现的人脸检测方法便是基于图像的Hog特征，综合支持向量机算法实现的人脸检测功能，该算法的大致思路如下：

对正样本(即包含人脸的图像)数据集提取Hog特征，得到Hog特征描述子；对负样本(即不包含人脸的图像)数据集提取Hog特征，得到Hog描述子。其中负样本数据集中的数据量要远远大于正样本数据集中的样本数，负样本图像可以使用不含人脸的图片进行随机裁剪获取；利用支持向量机算法训练正负样本，显然这是一个二分类问题，可以得到训练后的模型；利用该模型进行负样本难例检测，也就是难分样本挖掘(hard-negtive mining)，以便提高最终模型的分类能力。具体思路为：对训练集里的负样本不断进行缩放，直至与模板匹配位置，通过模板滑动串口搜索匹配(该过程即多尺度检测过程)，如果分类器误检出非人脸区域则截取该部分图像加入到负样本中；集合难例样本重新训练模型，反复如此得到最终分类模型。

应用最终训练出的分类器检测人脸图片，对该图片的不同尺寸进行滑动扫描，提取Hog特征，并用分类器分类。如果检测判定为人脸，则将其标定出来，经过一轮滑动扫描后必然会出现同一个人脸被多次标定的情况，这就用NMS完成收尾工作即可。

103、依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列；

本实施例中，提取到唇部区域图像后，对各帧唇部区域图像进行特征提取，并转化为唇部特征向量，按视频的时序顺序，拼接向量，就能得到唇部特征序列。其中唇部特征序列可以为任何可以表达唇部特征的向量集合，例如本实施例优选的，以提取到的唇部图像相当于标准嘴的偏移量和旋转因子为特征向量，另外，还可以提取唇语用户静默时的唇部图像作为参照对象，计算唇部的特征向量。

可选的，步骤103具体包括：

本可选实施例中，标准嘴是指不同国家按不同的标准规范公开的平均嘴，它能代表各个国家不同人种的嘴部标准。以标准嘴为唇部图像的参照物，计算唇部图像中的嘴唇相当于标准嘴的偏移和旋转，将计算结果作为唇语用户的唇部特征表达。本可选实施例中，唇部参照物对唇语识别的精确度并不会造成太大影响，只要在训练唇语识别模型时使用相同的参照物，即能使训练和应用结果产生一致的效果。

本可选实施例中，计算标准嘴的偏移量本质上是平移量。旋转因子指在Cooley-Tukey快速傅里叶变换算法的蝴蝶形运算中所乘上的复数常数，因此常数在复数平面上位于单位圆之上，对于被乘数在复数平面上面会有旋转的效果，故名为旋转因子。

104、将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列；

本实施例中，基于端对端神经网络建立唇语识别模型，将唇部特征序列识别为发音音素。该网路采用唇部特征序列作为网路输入，以发音音素为训练目标。这个唇语识别模型为包括编码器和解码器的seq2seq模型，通过网络映射的方式得到模型预测结果，计算预测结果和目标结果的损失函数，来判断模型是否训练完成。

可选的，步骤104具体包括：

本可选实施例中，唇语识别模型为包括编码器和解码器的seq2seq模型，seq2seq模型，简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如翻译，文档摘取，问答***等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答***中，输入序列是提出的问题，而输出序列是答案。而编码器，就是将输入序列转化成一个固定长度的向量；解码器，就是将之前生成的固定向量再转化成输出序列。

105、将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句；

本实施例中，统计语言模型是由前向的LSTM(Long Short-Term Memory，长短期记忆网络)与后向的LSTM结合成BiLSTM模型，能对预测语句的上下文单词，从而计算自然语言句的合理程度，例如中文的常用表达为“你吃饭了吗”，而音素序列转换得到的自然语言句为“饭吃了吗”，那么，这句话在统计语言模型中的评分会比常用表达的语句分值低，是由于在统计语言模型的样本数据中，“饭”字后面接“吃”字的概率远远低于“吃”字后面接“饭”字的概率，因此，通过模型打分的方式预测最符合正常表达语序和语义的自然语言句，就作为目标自然语言句进行播报。

可选的，步骤105具体包括：

本可选实施例中，统计语言模型可以看成是两层神经网络，第一层从左边作为系列的起始输入，从句子的开头开始输入，而第二层则是从右边作为系列的起始输入，从句子的最后一个词语作为输入，反向做与第一层一样的处理，最后对得到的两个结果进行求均值计算，就能得到自然语言句的分值。

可选的，步骤105还包括：

本可选实施例中，发音音素是根据发音学指定发音单，比如，对于中文，音素就是指声母、韵母等。而预测出来的音素序列会根据音素发音映射表和词映射表实现因素序列ID转化为音素，根据音素转化为对应的字词。该过程可以理解为一个查字典的过程，通过识别到的中文拼音，去查询ID，ID可以理解为字典的页码，再通过页码查到对应的字词。

106、将所述目标自然语句进行音频转换，得到唇语发音并进行播报。

本实施例中，包括两个模块，语音合成模块及语音播报模块，语音合成模块是通过深度神经网络技术，将文本转化为音频，实现文本“说话”的功能。目前国内外的语音合成技术有提供对应的接口。可以满足不同场景的使用需求，如中文普通话、英语、日语、韩语等语言。语音播报模块的功能是将合成的音频流进行播报。主要解决一些不会识字的使用者沟通存在障碍的问题。目前市场上有很多成熟的语音播放器，只需要将合成的音频与播报器进行链接即可。或者采用基于读卡器就能实现语音播报功能的语音播报芯片。该种芯片不少厂家都可以根据读卡器中的内容进行定制。

本实施例中，在进行播报之前，还可以将目标自然语言句进行翻译，以满足各种语种用户的使用需求。还可以包括机器翻译模块，机器翻译模块解决了不同语种或者同语种不同方言地区使用者的交流障碍。目前国内外机器翻译技术发展较好的企业都有提供对外使用的中文接口。国外如***有也可以提供非常多小语种的翻译模型。企业对外提供的翻译接口基本能覆盖主要使用的语种。特殊情况下的语种翻译，也可以定制翻译模块。

本发明实施例中，为了使无法通过声音来传达自己想法的唇语用户能打破沟通的壁垒，实时发声，我们需要实时采集唇语用户的脸部动画，通过脸部动画提取连续的多帧用户脸部图像，再通过人脸识别模型识别出人脸的多个关键点，通过这些关键点定位到唇语用户的唇部，然后再提取唇部图像中的特征，这些特征通过唇部特征序列表达，再把序列输入唇语识别模型，识别出序列对应的发音音素。对于中文唇语用户，发音音素就是声母韵母组成的拼音。接着，把拼音序列转换为不同组合方式的自然语言语句，再把这些自然语言语句输入统计语言模型评分，评估自然语言语句的合理性及通顺程度，选出目标自然语言语句，最后通过播放器播放目标自然语言语句。本发明实施例能从实时采集的唇语图像数据中识别出唇语表达语句，并进行播报，使无声的唇语得以发声。

请参阅图2，本发明实施例中基于图像识别的唇语识别方法的第二个实施例包括：

201、获取多个带发音音素标注的唇部区域图像样本；

202、提取所述各唇部区域图像样本对应的唇部特征序列并作为训练样本；

203、初始化带初始网络参数的端对端神经网络模型，所述端对端神经网络模型包括：编码器及解码器，所述编码器包括若干层第一RNN网络，所述解码器包括若干层第二RNN网络；

204、将所述训练样本输入所述编码器的各第一RNN网络进行发音编码，得到所述训练样本对应的第一发音向量；

205、将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到所述各第一发音向量对应的发音音素预测结果；

206、根据所述发音音素预测结果及所述训练样本，计算所述端对端神经网络模型的CTC损失函数，得到模型损失值；

207、根据所述模型损失值，判断所述端对端神经网络模型是否收敛；

208、若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型。

本实施例中，是唇语识别模型的训练过程，其中，本实施例中的唇语识别模型是包括编码器和解码器的seq2seq模型，编码器和解码器都包括若干层RNN(Recurrent NeuralNetwork，循环神经网络)网络，是一类以序列(sequence)数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

本实施例中，唇语识别模型的编码器负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，获取语义向量的方式就是直接将最后一个输入的隐状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量，还可以将输入序列的所有隐含状态做一个变换得到语义变量。而解码器则负责根据语义向量生成指定的序列，方式是将编码器得到的语义变量作为初始状态输入到解码器的RNN中，得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入，而且其中语义向量C只作为初始状态参与运算，后面的运算都与语义向量C无关。

本实施例中，RNN学习了唇语图像语义的概率分布，然后进行预测，为了得到概率分布，一般会在RNN的输出层使用softmax激活函数，就可以得到每个分类的概率。Softmax在机器学习和深度学习中有着非常广泛的应用，尤其在处理多分类(C>2)问题，分类器最后的输出单元需要Softmax函数进行数值处理。关于Softmax函数的定义如下所示：

其中，v_i是分类器前级输出单元的输出，i表示类别索引，总的类别个数为C，表示的是当前元素的指数与所有元素指数和的比值。Softmax将多分类的输出数值转化为相对概率，更容易理解和比较。

209、实时采集唇语用户的多帧人脸图像；

210、依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

211、依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列；

212、将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列；

213、将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句；

214、将所述目标自然语句进行音频转换，得到唇语发音并进行播报。

本发明实施例中，为了提高唇语识别的精准度，建立唇语识别神经网络模型，并对其进行训练，训练样本可以为任何有完整人脸说话的视频为样本数据，通过人工标注或直接对白输入的形式标记样本数据。训练过程与端对端神经网络模型的训练类似，端对端神经网络模型能在输入端输入原始数据，在输出端得到标记数据，通过计算误差来进行反向训练，从而得到训练好的唇语识别模型。本发明实施例能完成唇语识别模型的训练，使唇语识别的精度提高。

上面对本发明实施例中基于图像识别的唇语识别方法进行了描述，下面对本发明实施例中基于图像识别的唇语识别装置进行描述，请参阅图3，本发明实施例中基于图像识别的唇语识别装置第一个实施例包括：

图像采集模块301，用于实时采集唇语用户的多帧人脸图像；

唇部定位模块302，用于依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

特征提取模块303，用于依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列；

序列识别模块304，用于将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列；

语句打分模块305，用于将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句；

唇语播报模块306，用于将所述目标自然语句进行音频转换，得到唇语发音并进行播报。

可选的，所述唇部定位模块302具体用于：

可选的，所述特征提取模块303具体用于：

可选的，所述序列识别模块304具体用于：

可选的，所述统计语言模型包括：正向LSTM网络及反向LSTM网络，所述语句打分模块305具体用于：

可选的，所述语句打分模块305还用于：

请参阅图4，本发明实施例中基于图像识别的唇语识别装置的第二个实施例包括：

图像采集模块301，用于实时采集唇语用户的多帧人脸图像；

可选的，所述基于图像识别的唇语识别装置还包括：

样本获取模块307，用于获取多个带发音音素标注的唇部区域图像样本；提取所述各唇部区域图像样本对应的唇部特征序列并作为训练样本；

模型预测模块308，用于初始化带初始网络参数的端对端神经网络模型，所述端对端神经网络模型包括：编码器及解码器，所述编码器包括若干层第一RNN网络，所述解码器包括若干层第二RNN网络；将所述训练样本输入所述编码器的各第一RNN网络进行发音编码，得到所述训练样本对应的第一发音向量；将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到所述各第一发音向量对应的发音音素预测结果；

损失计算模块309，用于根据所述发音音素预测结果及所述训练样本，计算所述端对端神经网络模型的CTC损失函数，得到模型损失值；

模型生成模块310，用于根据所述模型损失值，判断所述端对端神经网络模型是否收敛；若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于图像识别的唇语识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于图像识别的唇语识别设备进行详细描述。

图5是本发明实施例提供的一种基于图像识别的唇语识别设备的结构示意图，该基于图像识别的唇语识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于图像识别的唇语识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于图像识别的唇语识别设备500上执行存储介质530中的一系列指令操作。

基于图像识别的唇语识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于图像识别的唇语识别设备结构并不构成对基于图像识别的唇语识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于图像识别的唇语识别设备，所述基于图像识别的唇语识别设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于图像识别的唇语识别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于图像识别的唇语识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图像识别的唇语识别方法，其特征在于，所述基于图像识别的唇语识别方法包括：

实时采集唇语用户的多帧人脸图像；

依次对各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

将所述目标自然语句进行音频转换，得到唇语发音并进行播报；

所述依次对所述各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像包括：

根据所述各人脸图像的嘴角关键点，确定所述各人脸图像对应的唇部区域并进行截图，得到所述各人脸图像对应的唇部区域图像；

在所述实时采集唇语用户的多帧人脸图像之前，还包括：

获取多个带发音音素标注的唇部区域图像样本；

提取各唇部区域图像样本对应的唇部特征序列并作为训练样本；

将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到各第一发音向量对应的发音音素预测结果；

若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型；

所述将所述唇部特征序列输入预置唇语识别模型进行唇语发音识别，输出所述唇语用户对应的发音音素序列包括：

将所述第二发音向量输入所述唇语识别模型的解码器进行发音映射，得到所述唇语用户对应的发音音素序列；

所述统计语言模型包括：正向LSTM网络及反向LSTM网络，所述将所述发音音素序列转换成文字格式的多个自然语句，并通过预置统计语言模型对所述多个自然语句进行打分，得到目标自然语句包括：

将各自然语句按单词顺序正序输入所述正向LSTM网络进行网络计算，得到所述各自然语句的第一预测结果；

2.根据权利要求1所述的基于图像识别的唇语识别方法，其特征在于，所述依次对所述各人脸图像对应的唇部区域图像进行特征提取，得到所述唇语用户的唇部特征序列包括：

计算各唇部区域图像相对于标准嘴图像的偏移量和旋转因子，得到所述各唇部区域图像对应的唇部特征向量；

3.根据权利要求1所述的基于图像识别的唇语识别方法，其特征在于，所述将所述发音音素序列转换成文字格式的多个自然语句包括：

根据各音素ID，查询预置词映射表，得到各音素对应的多个字词；

4.一种基于图像识别的唇语识别装置，其特征在于，所述基于图像识别的唇语识别装置包括：

图像采集模块，用于实时采集唇语用户的多帧人脸图像；

唇部定位模块，用于依次对各人脸图像进行关键点检测与唇部区域定位，得到所述各人脸图像对应的唇部区域图像；

唇语播报模块，用于将所述目标自然语句进行音频转换，得到唇语发音并进行播报；

唇部定位模块，还用于依次将所述各人脸图像数据输入人脸识别模型进行关键点检测，得到所述各人脸图像中的人脸关键点；根据所述各人脸关键点对应的标注信息，确定所述各人脸图像中的嘴角关键点；根据所述各人脸图像的嘴角关键点，确定所述各人脸图像对应的唇部区域并进行截图，得到所述各人脸图像对应的唇部区域图像；

样本训练模块，用于获取多个带发音音素标注的唇部区域图像样本；提取各唇部区域图像样本对应的唇部特征序列并作为训练样本；初始化带初始网络参数的端对端神经网络模型，所述端对端神经网络模型包括：编码器及解码器，所述编码器包括若干层第一RNN网络，所述解码器包括若干层第二RNN网络；将所述训练样本输入所述编码器的各第一RNN网络进行发音编码，得到所述训练样本对应的第一发音向量；将所述第一发音向量输入所述解码器的各第二RNN网络进行发音映射，得到各第一发音向量对应的发音音素预测结果；根据所述发音音素预测结果及所述训练样本，计算所述端对端神经网络模型的CTC损失函数，得到模型损失值；根据所述模型损失值，判断所述端对端神经网络模型是否收敛；若所述端对端神经网络模型收敛，则将所述端对端神经网络模型作为唇语识别模型，否则继续将所述发音音素预测结果反向输入所述端对端神经网络模型，并更新所述端对端神经网络模型的网络参数，直至所述端对端神经网络模型收敛，得到唇语识别模型；

样本训练模块，还用于将所述唇部特征序列输入所述唇语识别模型的编码器进行发音编码，得到所述唇部特征序列对应的第二发音向量；将所述第二发音向量输入所述唇语识别模型的解码器进行发音映射，得到所述唇语用户对应的发音音素序列；

所述统计语言模型包括：正向LSTM网络及反向LSTM网络，语句打分模块，还用于将各自然语句按单词顺序正序输入所述正向LSTM网络进行网络计算，得到所述各自然语句的第一预测结果；将所述各自然语句按单词顺序逆序输入所述反向LSTM网络进行网络计算，得到所述各自然语句的第二预测结果；计算所述第一预测结果及所述第二预测结果的均值，得到各自然语句对应的分值，并将分值最高的自然语句作为目标自然语句。

5.一种基于图像识别的唇语识别设备，其特征在于，所述基于图像识别的唇语识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像识别的唇语识别设备执行如权利要求1-3中任一项所述的基于图像识别的唇语识别方法。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-3中任一项所述的基于图像识别的唇语识别方法。