CN111223483A

CN111223483A - 一种基于多粒度知识蒸馏的唇语识别方法

Info

Publication number: CN111223483A
Application number: CN201911258317.4A
Authority: CN
Inventors: 宋明黎; 赵雅; 许睿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-06-02

Abstract

一种基于多粒度知识蒸馏的唇语识别方法，包括如下步骤：1)获取音频特征序列；2)构建语音识别模型；3)训练语音识别模型；4)获取数据集语音特征和语音识别结果；5)获取唇部图像序列；6)构建唇语识别模型；7)获取数据集视频特征；8)唇语识别模型训练：9)获得唇语识别结果。本发明针对唇语识别问题中，视频特征歧义性更大的本质问题，提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型，从多个时间尺度、多个粒度，让唇语识别模型向语音识别模型学习，以增强其提取具有辨别性的视觉特征的能力，从而提高唇语识别准确率。

Description

一种基于多粒度知识蒸馏的唇语识别方法

技术领域

本发明属于唇语识别领域，针对唇语视频图像可辨别行不高的问题，提出一种基于多粒度知识蒸馏的唇语识别方法。

背景技术

唇语识别，旨在从视频中观察人嘴唇运动，从而识别出对应的文本内容。其在辅助语音识别、公共安全分析等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性，因为大多数的嘴唇运动是无法直接观察到的，比如舌头的运动，这导致看似相同的嘴唇运动实际上却对应着不同的内容。

近年来，随着深度学习和大规模数据集的蓬勃发展，一些著名的企业和高校，提出了许多基于神经网络的唇语识别模型，如基于序列到序列模型的唇语识别方法，或基于连接主义的时间分类损失。在词语或者句子级别的识别任务上，相较于传统的唇语识别***，这些方法的性能有了大幅度的提升。现有虽然取得了一定进展，但是没有显式地解决唇语视频歧异性这一本质问题，仍有可改进的空间。

发明内容

有鉴于此，本发明克服现有技术的不足，提出一种基于多粒度知识蒸馏的唇语识别方法，利用已经训练好的语音识别模型，增强唇语识别模型对视觉可辨别性特征提取的能力，提高唇语识别的准确率。

一种基于多粒度知识蒸馏的唇语识别方法，包括如下步骤：

1)获取音频特征序列；

使用唇语识别数据集的音频部分，计算fbank特征用作音频特征。用

表示音频特征序列，I为序列长度。

2)构建语音识别模型；

用音频特征序列及其对应文本字符序列y＝[y₁,y₂,…y_K]，训练基于注意力机制的序列到序列模型，其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块：时序特征提取模块、解码模块。

时序特征提取模块：采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取

并得到音频语义向量：

为第i时刻时序特征提取模块的音频隐藏层特征。

解码模块：采用RNN，基于音频时序特征和已解码生成的字符，预测当前时间步的预测字符：

其中

分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符。

3)训练语音识别模型；

构建语音识别模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对语音识别模型进行训练。误差损失函数如下所示：

4)获取数据集语音特征和语音识别结果；

对唇语数据集的音频部分，根据所述训练所述学习后的语音识别模型，使用贪心搜索，对语音识别模型每一时间步的预测概率进行解码，选择概率最高的字符，得到语音识别结果

及对应的音频语义向量s^a、音频上下文向量c^a和音频时序特征h^a,其中L为语音识别模型预测结果字符序列长度。

5)获取唇部图像序列；

使用唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点。利用仿射变换，将视频人脸与标准人脸模板进行对齐。截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图。用

表示唇部图像序列，J为序列长度。

6)构建唇语识别模型；

用唇部图像序列及其对应文本y＝[y₁,y₂,…y_K]，训练基于注意力机制的序列到序列模型。应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块：图像特征提取模块、时序特征提取模块、解码模块。

图像特征提取模块：采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

时序特征提取模块：采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取：

并得到视频语义向量：

其中

为第i时刻时序特征提取模块的视频隐藏层特征。

解码模块：采用RNN，基于图像时序特征和已解码生成的字符，预测当前时间步的预测字符：

其中

分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符。

7)获取数据集视频特征；

将唇语数据集的视频部分送入唇语识别模型，得到对应的视频语义向量s^v、视频上下文向量c^v和视频时序特征h^v。

8)唇语识别模型训练：

构建唇语识别模型基础损失函数：

构建多粒度知识蒸馏的损失函数，具体包含3个部分：

基于语义的知识蒸馏损失函数：

其中，t(·)为线性变换函数，s^a,s^v分别为音频语义向量和视频语义向量。

基于上下文的知识蒸馏损失函数：

M≤min(L,K) (18)

其中，LCS为最长公共子序列算法，

为语音识别模型预测结果字符序列

和目标文本字符序列y₁,…,y_K之间相同的子序列所对应的索引下标，c^a,c^v分别为音频上下文向量和视频上下文向量。

基于数据帧的知识蒸馏损失函数：

唇语识别模型的整体损失函数为：

L＝L_base+λ₁L_KD1+λ₂L_KD2+λ₃L_KD3 (23)

λ₁,λ₂,λ₃为不同知识蒸馏损失函数对应的权重。利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对唇语识别模型进行训练。

9)获得唇语识别结果；

根据所述训练所述学习后的唇语识别模型，使用集束搜索对语音识别模型每一时间步的预测概率进行解码，解码识别出至少4种唇语结果，按得分顺序对所述至少4种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果。

本发明方法由下面四个部分组成：利用基于注意力机制的序列到序列模型构建语音识别模型，利用音频数据训练语音识别模型；利用基于注意力机制的序列到序列模型构建唇语识别模型；将音频数据送入已经训练好的语音识别模型，得到音频语义向量，音频上下文向量,音频时序特征和语音识别预测结果，将视频数据送入唇语识别模型，得到视频语义向量，视频上下文向量和视频时序特征；利用音/视频语义向量，音/视频上下文特征，音/视频时序特征和目标文本序列，训练唇语识别模型。通过上述4个步骤建立的转换关系，能够提高唇语识别模型的准确率。

本发明具有的有益的效果是：本发明针对唇语识别问题中，视频特征歧义性更大的本质问题，提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型，从多个时间尺度、多个粒度，让唇语识别模型向语音识别模型学习，以增强其提取具有辨别性的视觉特征的能力，从而提高唇语识别准确率。

附图说明

图1是本发明基于神经网络的唇语识别模型示意图。

图2是本发明方法的流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明的一种基于多粒度知识蒸馏的唇语识别方法，包括如下步骤：

1)获取音频特征序列；

使用唇语识别数据集的音频部分，将音频的采样率转为16kHz，以25ms作为窗口大小、10ms作为步长，计算240维的fbank特征用作音频特征。用

表示音频特征序列，I为序列长度。

2)构建语音识别模型；

时序特征提取模块：采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取：

并得到音频语义向量：

为第i时刻时序特征提取模块的音频隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU)，其隐藏层维度为256。

其中

分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符。解码模块的循环神经网络采用两层单向的门控循环单元(GRU)，隐藏层维度为512。

3)训练语音识别模型；

初始学习率为0.0003，如果4个阶段的训练误差没有继续下降，学习率下降50％。

4)获取数据集语音特征和语音识别结果；

5)获取唇部图像序列；

使用唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点。利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分，缩放至64*128，并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧。用

表示唇部图像序列，J为序列长度。

6)构建唇语识别模型；

图像特征提取模块：采用VGG-M卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

VGG-M卷积神经网络参数如下：

名称	滤波器大小	步长
			2维卷机层	[3×3,96]	[1,1]
2维池化层	[3×3]	[2,2]
			2维卷积层	[3×3,256]	[1,1]
2维池化层	[3×3]	[2,2]
			2维卷积层	[3×3,512]	[1,1]
2维卷积层	[3×3,512]	[1,1]
			2维卷积层	[3×3,512]	[1,1]
2维池化层	[3×3]	[2,2]

并得到视频语义向量：

其中

为第i时刻时序特征提取模块的视频隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU)，其隐藏层维度为256。

其中

分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符。解码模块的循环神经网络采用两层单向的门控循环单元(GRU)，隐藏层维度为512。

7)获取数据集视频特征；

8)唇语识别模型训练：

构建唇语识别模型基础损失函数：

构建多粒度知识蒸馏的损失函数，具体包含3个部分：

基于语义的知识蒸馏损失函数：

基于上下文的知识蒸馏损失函数：

M≤min(L,K) (18)

其中，LCS为最长公共子序列算法，

为语音识别模型预测结果字符序列

基于数据帧的知识蒸馏损失函数：

唇语识别模型的整体损失函数为：

L＝L_base+λ₁L_KD1+λ₂L_KD2+λ₃L_KD3 (23)

λ₁,λ₂,λ₃为不同知识蒸馏损失函数对应的权重。在CMLR数据集上的取值分别为10，40，10；在LRS2-BBC数据集上的取值分别为2，10，10。利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对唇语识别模型进行训练。初始学习率为0.0003，如果4个阶段的训练误差没有继续下降，学习率下降50％。

9)获得唇语识别结果

根据所述训练所述学习后的唇语识别模型，使用集束搜索对语音识别模型每一时间步的预测概率进行解码，解码识别出至少4种唇语结果，按得分顺序对所述至少4种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果。在CMLR数据集上字错误率为31.27％，在LRS2-BBC数据集上字错误率为45.53％。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于多粒度知识蒸馏的唇语识别方法，包括下列步骤：

1)获取音频特征序列；

使用唇语识别数据集的音频部分，将音频的采样率转为16kHz，以25ms作为窗口大小、10ms作为步长，计算240维的fbank特征用作音频特征；用

表示音频特征序列，I为序列长度；

2)构建语音识别模型；

用音频特征序列及其对应文本字符序列y＝[y₁，y₂，...y_K]，训练基于注意力机制的序列到序列模型，其中K为目标文本字符序列长度；应用于语音识别的基于注意力机制的序列到序列模型包含2个模块：时序特征提取模块、解码模块；

并得到音频语义向量：

为第i时刻时序特征提取模块的音频隐藏层特征；

其中

分别为第k时刻解码模块的隐藏层特征，第k时刻的音频上下文向量和前k时刻对应的目标文本字符；

3)训练语音识别模型；

构建语音识别模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对语音识别模型进行训练；误差损失函数如下所示：

4)获取数据集语音特征和语音识别结果；

及对应的音频语义向量s^a、音频上下文向量c^a和音频时序特征h^a，其中L为语音识别模型预测结果字符序列长度；

5)获取唇部图像序列；

使用唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点；利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐；截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图；以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧；用