CN111223483A - 一种基于多粒度知识蒸馏的唇语识别方法 - Google Patents

一种基于多粒度知识蒸馏的唇语识别方法 Download PDF

Info

Publication number
CN111223483A
CN111223483A CN201911258317.4A CN201911258317A CN111223483A CN 111223483 A CN111223483 A CN 111223483A CN 201911258317 A CN201911258317 A CN 201911258317A CN 111223483 A CN111223483 A CN 111223483A
Authority
CN
China
Prior art keywords
sequence
lip language
audio
recognition model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911258317.4A
Other languages
English (en)
Inventor
宋明黎
赵雅
许睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911258317.4A priority Critical patent/CN111223483A/zh
Publication of CN111223483A publication Critical patent/CN111223483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:1)获取音频特征序列;2)构建语音识别模型;3)训练语音识别模型;4)获取数据集语音特征和语音识别结果;5)获取唇部图像序列;6)构建唇语识别模型;7)获取数据集视频特征;8)唇语识别模型训练:9)获得唇语识别结果。本发明针对唇语识别问题中,视频特征歧义性更大的本质问题,提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型,从多个时间尺度、多个粒度,让唇语识别模型向语音识别模型学习,以增强其提取具有辨别性的视觉特征的能力,从而提高唇语识别准确率。

Description

一种基于多粒度知识蒸馏的唇语识别方法
技术领域
本发明属于唇语识别领域,针对唇语视频图像可辨别行不高的问题,提出一种基于多粒度知识蒸馏的唇语识别方法。
背景技术
唇语识别,旨在从视频中观察人嘴唇运动,从而识别出对应的文本内容。其在辅助语音识别、公共安全分析等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性,因为大多数的嘴唇运动是无法直接观察到的,比如舌头的运动,这导致看似相同的嘴唇运动实际上却对应着不同的内容。
近年来,随着深度学习和大规模数据集的蓬勃发展,一些著名的企业和高校,提出了许多基于神经网络的唇语识别模型,如基于序列到序列模型的唇语识别方法,或基于连接主义的时间分类损失。在词语或者句子级别的识别任务上,相较于传统的唇语识别***,这些方法的性能有了大幅度的提升。现有虽然取得了一定进展,但是没有显式地解决唇语视频歧异性这一本质问题,仍有可改进的空间。
发明内容
有鉴于此,本发明克服现有技术的不足,提出一种基于多粒度知识蒸馏的唇语识别方法,利用已经训练好的语音识别模型,增强唇语识别模型对视觉可辨别性特征提取的能力,提高唇语识别的准确率。
一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:
1)获取音频特征序列;
使用唇语识别数据集的音频部分,计算fbank特征用作音频特征。用
Figure BDA0002310920480000011
Figure BDA0002310920480000012
表示音频特征序列,I为序列长度。
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块。
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取
Figure BDA0002310920480000021
并得到音频语义向量:
Figure BDA0002310920480000022
Figure BDA0002310920480000023
为第i时刻时序特征提取模块的音频隐藏层特征。
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure BDA0002310920480000024
Figure BDA0002310920480000025
Figure BDA0002310920480000026
Figure BDA0002310920480000027
其中
Figure BDA0002310920480000028
分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符。
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练。误差损失函数如下所示:
Figure BDA0002310920480000029
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果
Figure BDA00023109204800000210
及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度。
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将视频人脸与标准人脸模板进行对齐。截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图。用
Figure BDA0002310920480000031
表示唇部图像序列,J为序列长度。
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型。应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块。
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
Figure BDA0002310920480000032
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
Figure BDA0002310920480000033
并得到视频语义向量:
Figure BDA0002310920480000034
其中
Figure BDA0002310920480000035
为第i时刻时序特征提取模块的视频隐藏层特征。
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure BDA0002310920480000036
Figure BDA0002310920480000037
Figure BDA0002310920480000038
Figure BDA0002310920480000039
其中
Figure BDA00023109204800000310
分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符。
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv
8)唇语识别模型训练:
构建唇语识别模型基础损失函数:
Figure BDA0002310920480000041
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
Figure BDA0002310920480000042
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量。
基于上下文的知识蒸馏损失函数:
Figure BDA0002310920480000043
M≤min(L,K) (18)
Figure BDA0002310920480000044
其中,LCS为最长公共子序列算法,
Figure BDA0002310920480000045
为语音识别模型预测结果字符序列
Figure BDA0002310920480000046
和目标文本字符序列y1,…,yK之间相同的子序列所对应的索引下标,ca,cv分别为音频上下文向量和视频上下文向量。
基于数据帧的知识蒸馏损失函数:
Figure BDA0002310920480000047
Figure BDA0002310920480000048
Figure BDA0002310920480000049
唇语识别模型的整体损失函数为:
L=Lbase1LKD12LKD23LKD3 (23)
λ123为不同知识蒸馏损失函数对应的权重。利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练。
9)获得唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
本发明方法由下面四个部分组成:利用基于注意力机制的序列到序列模型构建语音识别模型,利用音频数据训练语音识别模型;利用基于注意力机制的序列到序列模型构建唇语识别模型;将音频数据送入已经训练好的语音识别模型,得到音频语义向量,音频上下文向量,音频时序特征和语音识别预测结果,将视频数据送入唇语识别模型,得到视频语义向量,视频上下文向量和视频时序特征;利用音/视频语义向量,音/视频上下文特征,音/视频时序特征和目标文本序列,训练唇语识别模型。通过上述4个步骤建立的转换关系,能够提高唇语识别模型的准确率。
本发明具有的有益的效果是:本发明针对唇语识别问题中,视频特征歧义性更大的本质问题,提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型,从多个时间尺度、多个粒度,让唇语识别模型向语音识别模型学习,以增强其提取具有辨别性的视觉特征的能力,从而提高唇语识别准确率。
附图说明
图1是本发明基于神经网络的唇语识别模型示意图。
图2是本发明方法的流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:
1)获取音频特征序列;
使用唇语识别数据集的音频部分,将音频的采样率转为16kHz,以25ms作为窗口大小、10ms作为步长,计算240维的fbank特征用作音频特征。用
Figure BDA0002310920480000051
Figure BDA0002310920480000052
表示音频特征序列,I为序列长度。
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块。
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取:
Figure BDA0002310920480000061
并得到音频语义向量:
Figure BDA0002310920480000062
Figure BDA0002310920480000063
为第i时刻时序特征提取模块的音频隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU),其隐藏层维度为256。
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure BDA0002310920480000064
Figure BDA0002310920480000065
Figure BDA0002310920480000066
Figure BDA0002310920480000067
其中
Figure BDA0002310920480000068
分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符。解码模块的循环神经网络采用两层单向的门控循环单元(GRU),隐藏层维度为512。
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练。误差损失函数如下所示:
Figure BDA0002310920480000069
初始学习率为0.0003,如果4个阶段的训练误差没有继续下降,学习率下降50%。
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果
Figure BDA00023109204800000610
及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度。
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分,缩放至64*128,并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧。用
Figure BDA0002310920480000071
表示唇部图像序列,J为序列长度。
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型。应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块。
图像特征提取模块:采用VGG-M卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
Figure BDA0002310920480000073
VGG-M卷积神经网络参数如下:
名称 滤波器大小 步长
2维卷机层 [3×3,96] [1,1]
2维池化层 [3×3] [2,2]
2维卷积层 [3×3,256] [1,1]
2维池化层 [3×3] [2,2]
2维卷积层 [3×3,512] [1,1]
2维卷积层 [3×3,512] [1,1]
2维卷积层 [3×3,512] [1,1]
2维池化层 [3×3] [2,2]
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
Figure BDA0002310920480000072
并得到视频语义向量:
Figure BDA0002310920480000081
其中
Figure BDA0002310920480000082
为第i时刻时序特征提取模块的视频隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU),其隐藏层维度为256。
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure BDA0002310920480000083
Figure BDA0002310920480000084
Figure BDA0002310920480000085
Figure BDA0002310920480000086
其中
Figure BDA0002310920480000087
分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符。解码模块的循环神经网络采用两层单向的门控循环单元(GRU),隐藏层维度为512。
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv
8)唇语识别模型训练:
构建唇语识别模型基础损失函数:
Figure BDA0002310920480000088
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
Figure BDA0002310920480000089
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量。
基于上下文的知识蒸馏损失函数:
Figure BDA00023109204800000810
M≤min(L,K) (18)
Figure BDA0002310920480000091
其中,LCS为最长公共子序列算法,
Figure BDA0002310920480000092
为语音识别模型预测结果字符序列
Figure BDA0002310920480000093
和目标文本字符序列y1,…,yK之间相同的子序列所对应的索引下标,ca,cv分别为音频上下文向量和视频上下文向量。
基于数据帧的知识蒸馏损失函数:
Figure BDA0002310920480000094
Figure BDA0002310920480000095
Figure BDA0002310920480000096
唇语识别模型的整体损失函数为:
L=Lbase1LKD12LKD23LKD3 (23)
λ123为不同知识蒸馏损失函数对应的权重。在CMLR数据集上的取值分别为10,40,10;在LRS2-BBC数据集上的取值分别为2,10,10。利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练。初始学习率为0.0003,如果4个阶段的训练误差没有继续下降,学习率下降50%。
9)获得唇语识别结果
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。在CMLR数据集上字错误率为31.27%,在LRS2-BBC数据集上字错误率为45.53%。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于多粒度知识蒸馏的唇语识别方法,包括下列步骤:
1)获取音频特征序列;
使用唇语识别数据集的音频部分,将音频的采样率转为16kHz,以25ms作为窗口大小、10ms作为步长,计算240维的fbank特征用作音频特征;用
Figure FDA0002310920470000011
Figure FDA0002310920470000012
表示音频特征序列,I为序列长度;
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度;应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块;
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取:
Figure FDA0002310920470000013
并得到音频语义向量:
Figure FDA0002310920470000014
Figure FDA0002310920470000015
为第i时刻时序特征提取模块的音频隐藏层特征;
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure FDA0002310920470000016
Figure FDA0002310920470000017
Figure FDA0002310920470000018
Figure FDA0002310920470000019
其中
Figure FDA00023109204700000110
分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符;
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练;误差损失函数如下所示:
Figure FDA0002310920470000021
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果
Figure FDA0002310920470000022
及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度;
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点;利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐;截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图;以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧;用
Figure FDA0002310920470000023
Figure FDA0002310920470000024
表示唇部图像序列,J为序列长度;
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型;应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块;
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
Figure FDA0002310920470000025
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
Figure FDA0002310920470000026
并得到视频语义向量:
Figure FDA0002310920470000027
其中
Figure FDA0002310920470000028
为第i时刻时序特征提取模块的视频隐藏层特征;
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
Figure FDA0002310920470000031
Figure FDA0002310920470000032
Figure FDA0002310920470000033
Figure FDA0002310920470000034
其中
Figure FDA0002310920470000035
分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符;
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv
8)唇语识别模型训练;
构建唇语识别模型基础损失函数:
Figure FDA0002310920470000036
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
Figure FDA0002310920470000037
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量;
基于上下文的知识蒸馏损失函数:
Figure FDA0002310920470000038
M≤min(L,K) (18)
Figure FDA0002310920470000039
其中,LCS为最长公共子序列算法,
Figure FDA00023109204700000310
为语音识别模型预测结果字符序列
Figure FDA00023109204700000311
和目标文本字符序列y1,...,yK之间相同的子序列所对应的索引下标,ca,cv分别为音频上下文向量和视频上下文向量;
基于数据帧的知识蒸馏损失函数:
Figure FDA00023109204700000312
Figure FDA00023109204700000313
Figure FDA0002310920470000041
唇语识别模型的整体损失函数为:
L=Lbase1LKD12LKD23LKD3 (23)
λ1,λ2,λ3为不同知识蒸馏损失函数对应的权重;利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练;
9)获得唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
CN201911258317.4A 2019-12-10 2019-12-10 一种基于多粒度知识蒸馏的唇语识别方法 Pending CN111223483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258317.4A CN111223483A (zh) 2019-12-10 2019-12-10 一种基于多粒度知识蒸馏的唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258317.4A CN111223483A (zh) 2019-12-10 2019-12-10 一种基于多粒度知识蒸馏的唇语识别方法

Publications (1)

Publication Number Publication Date
CN111223483A true CN111223483A (zh) 2020-06-02

Family

ID=70808371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258317.4A Pending CN111223483A (zh) 2019-12-10 2019-12-10 一种基于多粒度知识蒸馏的唇语识别方法

Country Status (1)

Country Link
CN (1) CN111223483A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653261A (zh) * 2020-06-29 2020-09-11 北京字节跳动网络技术有限公司 语音合成方法、装置、可读存储介质及电子设备
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN111883107A (zh) * 2020-08-03 2020-11-03 北京字节跳动网络技术有限公司 语音合成、特征提取模型训练方法、装置、介质及设备
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112633211A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种服务设备及人机交互方法
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、***、装置
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别***及方法
CN113658582A (zh) * 2021-07-15 2021-11-16 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN113822125A (zh) * 2021-06-24 2021-12-21 华南理工大学 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114581812A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质
WO2022217856A1 (en) * 2021-04-15 2022-10-20 Huawei Technologies Co., Ltd. Methods, devices and media for re-weighting to improve knowledge distillation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YA ZHAO: "Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers", 《ARXIV:1911.11052V1[CS.CV]》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783566B (zh) * 2020-06-15 2023-10-31 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN111653261A (zh) * 2020-06-29 2020-09-11 北京字节跳动网络技术有限公司 语音合成方法、装置、可读存储介质及电子设备
CN111883107A (zh) * 2020-08-03 2020-11-03 北京字节跳动网络技术有限公司 语音合成、特征提取模型训练方法、装置、介质及设备
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112216271B (zh) * 2020-10-11 2022-10-14 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112633211A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种服务设备及人机交互方法
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别***及方法
CN113011245B (zh) * 2021-01-28 2023-12-12 南京大学 基于超声波感知与知识蒸馏的唇语识别***及方法
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN112926569B (zh) * 2021-03-16 2022-10-18 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、***、装置
CN113011202B (zh) * 2021-03-23 2023-07-25 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、***、装置
WO2022217856A1 (en) * 2021-04-15 2022-10-20 Huawei Technologies Co., Ltd. Methods, devices and media for re-weighting to improve knowledge distillation
CN113822125A (zh) * 2021-06-24 2021-12-21 华南理工大学 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN113822125B (zh) * 2021-06-24 2024-04-30 华南理工大学 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN113658582A (zh) * 2021-07-15 2021-11-16 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN113658582B (zh) * 2021-07-15 2024-05-07 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN114581812B (zh) * 2022-01-12 2023-03-21 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质
CN114581812A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111223483A (zh) 一种基于多粒度知识蒸馏的唇语识别方法
Gao et al. Sign language recognition based on HMM/ANN/DP
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
CN110309503A (zh) 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN111178157A (zh) 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN110795990B (zh) 一种面向水下设备的手势识别方法
Truong et al. A translator for American sign language to text and speech
CN108763326A (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN106960206A (zh) 字符识别方法和字符识别***
Ma et al. A continuous Chinese sign language recognition system
CN102004549A (zh) 一种适用于中文的自动唇语识别***
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
CN107909003B (zh) 一种针对大词汇量的手势识别方法
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN116010874A (zh) 基于深度学习多模态深尺度情感特征融合的情感识别方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN110298331A (zh) 一种人证比对方法
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN113658582B (zh) 一种音视协同的唇语识别方法及***
Zhang The algorithm of voiceprint recognition model based DNN-RELIANCE
Yuan et al. Skeletonclip: Recognizing skeleton-based human actions with text prompts
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200602