CN111401250A

CN111401250A - 一种基于混合卷积神经网络的中文唇语识别方法及装置

Info

Publication number: CN111401250A
Application number: CN202010186924.0A
Authority: CN
Inventors: 李晶皎; 聂雅昆; 闫爱云; 王爱侠
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10

Abstract

本发明公开了一种基于混合卷积神经网络的中文唇语识别方法及装置，属于机器视觉与深度学习领域，方法包括以下步骤：通过摄像机获取说话人的面部图像信息，利用人脸检测器从面部图像信息中检测切割出唇部图像序列，利用混合卷积神经网络对唇部图像序列进行唇部特征提取，将所述唇部特征输入Bi‑GRU模型，获得音素单元的识别概率结果，将所述音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果，对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得唇语识别结果，该方法解决了现有网络框架不能对中文这类图形语言文字进行识别的问题，为实际场景中应用唇语识别技术提供了可能，可在计算机视觉领域广泛推广。

Description

一种基于混合卷积神经网络的中文唇语识别方法及装置

技术领域

本发明涉及机器视觉与深度学习领域尤其涉及一种基于混合卷积神经网络的中文唇语识别方法及装置。

背景技术

随着人工智能技术的发展以及安全防范意识的提升，语音交互、身份识别成为一种应用广泛的技术。但这些技术仍然存在一些弊端，例如语音交互易受环境影响，容易出现噪声干扰，导致语音识别不准确。静态身份识别技术容易被复制模仿，导致个人信息泄露以及身份认证信息被窃取。为了改善语音识别不准确，增强动态身份认证技术，出现了唇语识别技术。

唇语识别是指在没有语音信息的情况下，通过观察说话人的脸部、唇部和舌部的一系列运动变化，得到说话人的讲话内容。唇语识别算法可以分为传统的唇语识别算法和基于深度学习的唇语识别算法。传统的唇语识别技术主要采用人工提取说话人的唇部特征，将提取到的动态特征送入特征分类器，如SVM，Adaboost，HMM等，完成词级的唇语识别。传统的识别方法虽然计算量小，但是人工提取特征却非常费时，并且实际操作过程中受限于光照、投影变换等因素，不能满足真实场景中的实际语言环境。

基于深度学习的唇语识别算法优点在于可以通过训练网络直接提取唇部的运动特征，并且操作过程不受环境的影响，算法准确性和稳定性高。现有技术中，存在一些优秀的英文唇语识别网络模型，比如牛津大学等人工智能实验室联合提出了一种Lipnet架构，该架构可以完成句子级的英文唇语识别，并且准确率高达93.4％。但这些成熟优秀的网络架构只能对英文唇语进行识别，由于中文这样的图形语言文字与英文等字母系语言文字的差异，上述网络架构无法应用到中文唇语识别上。

发明内容

根据现有技术存在的问题，本发明公开了一种基于混合卷积神经网络的中文唇语识别方法，包括以下步骤：

S1：通过摄像机获取说话人的面部图像信息；

S2：利用人脸检测器从面部图像信息中检测切割出唇部图像序列；

S3：利用混合卷积神经网络对唇部图像序列进行唇部特征提取；

S4：将所述唇部特征输入Bi-GRU模型，获得音素单元的识别概率结果；

S5：将所述音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果；

S6：对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得唇语识别结果。

进一步地，所述混合卷积神经网络由改进的3D卷积神经网络和MST(多时空信息融合)残差网络组成；

所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块，分别是2D卷积神经网络和1D卷积神经网络。

所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取，得到唇部的空间特征信息；

所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取，得到唇部运动的时域特征信息；

所述MST(多时空信息融合)残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。

进一步地：所述引入注意力机制的解码方法处理过程为：

通过注意力得到音素单元每个时刻的隐藏状态，通过为每个隐藏状态打分，获取注意力的得分状态，通过使用音素单元的隐藏状态和注意力得分的加权和，来聚合音素单元的隐藏状态，获得语境向量，将语境向量输入到解码器中进行联合训练，得到唇语识别结果。

一种基于混合卷积神经网络的中文唇语识别装置，包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元；

所述图像获取单元用于获取说话人的面部图像信息；

所述唇部检测单元根据所述图像获取单元输入的面部图像信息中检测切割出唇部图像序列；

所述唇部特征提取单元根据所述唇部检测单元输入的唇部图像序列利用混合卷积神经网络完成唇部特征提取；

所述唇语识别单元根据所述唇部特征提取单元提取的唇部特征输入Bi-GRU模型，获得音素单元的识别概率结果，再连接时序分类器CTC，获得音素单元分类结果，之后通过引入注意力机制的解码方法处理所述音素单元的分类结果，获得唇语识别结果。

由于采用了上述技术方案，本发明提供的一种基于混合卷积神经网络的中文唇语识别方法，具有以下优点：

(1)相比于人工标注唇部区域，手动提取唇部运动特征的唇语识别方法及装置，节省了大量的人力、物力资源，使唇语识别过程更加快捷，提高了整个识别过程的效率，相比于基于卷积神经网络的唇语识别方法，本发明可以提取到唇部运动的长期时空特征，在识别过程中减少特征丢失，提高了唇语识别的速度以及准确率；

(2)通过采用编码器-解码器算法框架，解决了现有唇语识别架构不能对图形类语言文字进行识别的问题，通过获取音素序列与目标文字的对应关系，完成中文的唇语识别。引入该算法框架使***具有通用性和可扩展性，同时在编码器-解码器算法框架中引入注意力机制，提高了唇语识别***的鲁棒性；

(3)通用性强，在智能电视、平板电脑或PC(Personal Computer，个人计算机)等具有显示屏与摄像头的终端设备上，都能适用；

综上，应用本发明的技术方案，解决了现有网络框架不能对中文这类图形语言文字进行识别的问题，为实际场景中应用唇语识别技术提供了可能，本发明可在计算机视觉领域广泛推广。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于混合卷积神经网络的中文唇语识别方法流程示意图；

图2是改进MST(多时空信息融合)单元示意图；

图3是唇部时空特征提取网络的结构示意图；

图4是门递归单元GRU的结构示意图；

图5是注意力机制示意图。

具体实施方式

为了使本领域的技术人员更好的理解本发明方案，下面将结合本发明实施中的附图，对本发明进行清晰、完整的描述。

图1是本发明一种基于混合卷积神经网络的中文唇语识别方法流程示意图；一种基于混合卷积神经网络的中文唇语识别方法，包括以下步骤：

S1：通过摄像机获取说话人的面部图像信息；

使用USB摄像头固定在说话者面前，距离说话者45cm，从接收到语音信号开始，获取摄像头采集的实时视频中的每一帧图像；

S2：利用人脸检测模型器获得面部区域，提取人脸检测模型唇部固定点的位置进而得到唇部图像序列；

本发明采用dlib库人脸68特征点提取器提取唇读数据集中说话人唇部区域，利用dlib库人脸检测模型可以快速捕捉人脸的大幅度晃动，灵敏度高；将步骤S1采集到的图像输入网络，最终输出包围人脸68个关键点的图像，通过提取46～68唇部关键点的坐标，得到唇部矩形区域的中心点坐标(xi,yi)，以及矩形宽度wi，矩形高度hi；

S3：利用混合卷积神经网络对唇部图像序列进行特征提取；

采用混合卷积神经网络((2+1)D+MST)进行唇部序列不同空间幅度和不同时间周期的特征提取；

所述(2+1)D卷积块是将3D卷积操作分解为两个接连进行的子卷积块，分别是2D卷积神经网络和1D卷积神经网络。

本实施例中，针对(2+1)D卷积神经网络的每层具有单一大小的空间尺度和时间深度，特征图中的每一元素对应单一特征信息，导致模型泛化能力差的不足，将分别在空间和时间上使用不同尺度的2D卷积核和1D卷积核，可以更好的处理单一时空未能捕获的重要时空信息。如图2所示，是2D卷积核1D卷积融合后的改进MST(多时空信息融合)单元示意图。所述改进的MST单元包括n个2D卷积核，m个1D卷积核，2个BN层和2个非线性层。在特征提取的过程中，首先经过不同尺度的2D卷积核，在单帧图片上同时提取多尺度的空间特征信息，然后将它们按视频时间序列组合成为短视频，再将短视频输入至多尺度1D卷积层，同时提取长、中、短三种时间周期的时域特征信息，最后经过融合层构成新的特征图。

如图3所示，是唇部时空特征提取网络的结构示意图。混合卷积神经网络具体包括1个输入层、6个改进MST残差单元、一个全局池化层、1个全连接层、1个softmax分类层、3个时域下采样层和4个空间下采样层。3个时域下采样层分别设置在第4、5、6个MST残差单元，4个空间下采样层分别设置在第1、4、5、6个MST残差单元。

S4：将所述唇部特征输入双向门控循环单元Bi-GRU模型，获得音素单元的识别概率结果。所述的Bi-GRU网络具体为正向GRU和反向GRU，如图4是门递归单元GRU的结构示意图，每层GRU网络各有256个滤波器，GRU每个时间步的输出通过全连接层、Softmax处理，得到音素单元的识别概率结果；

本发明为了进一步增加长句子中文唇语识别的精度，在所述算法架构的输出端引入了注意力机制，即引入注意力机制的解码方法；如图4为注意力机制示意图，其可以使得模型解码器关注特定位置的编码内容，而不用将整个编码内容都作为解码的依据，提高模型解码效果，增加***的鲁棒性。

解码器是一个级联了3层的门控循环单元(GRU)，常规的解码处理是将音素单元分类结果直接输入解码器进行训练得到唇语识别结果，引入注意力机制的解码处理是通过注意力得到音素单元每个时刻的隐藏状态，使用additive函数为每个隐藏状态打分，通过softmax层获取注意力的得分状态。通过使用音素单元的隐藏状态和注意力得分的加权和，来聚合音素单元的隐藏状态，从而获得语境向量，将语境向量输入到解码器中进行联合训练，得到唇语识别结果。通过在解码的过程中应用注意力机制可以在解码器的每个时刻使用不同的音素单元识别结果，这样解码过程就能够有选择的关注音素识别结果中有用的部分，提高解码效果，对于长句子的识别效果更好。若是不引入注意力机制，所述音素单元识别结果进行普通的解码处理将会按照其顺序逐字转化成相对应的汉字，但若句子很长的话，在转化过程中，可能已经忘记之前的转化结果，导致语义出错以及识别准确率的下降。图5是注意力机制示意图。

一种基于混合卷积神经网络的中文唇语识别装置，其特征在于，包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元；

所述图像获取单元用于获取说话人的面部图像信息；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：包括以下步骤：

S1：通过摄像机获取说话人的面部图像信息；

2.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：所述混合卷积神经网络由改进的3D卷积神经网络和多时空信息融合残差网络组成；

所述多时空信息融合残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。

3.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：所述引入注意力机制的解码方法处理过程为：

4.一种基于混合卷积神经网络的中文唇语识别装置，其特征在于：包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元；

所述图像获取单元用于获取说话人的面部图像信息；