CN111223483A - 一种基于多粒度知识蒸馏的唇语识别方法 - Google Patents
一种基于多粒度知识蒸馏的唇语识别方法 Download PDFInfo
- Publication number
- CN111223483A CN111223483A CN201911258317.4A CN201911258317A CN111223483A CN 111223483 A CN111223483 A CN 111223483A CN 201911258317 A CN201911258317 A CN 201911258317A CN 111223483 A CN111223483 A CN 111223483A
- Authority
- CN
- China
- Prior art keywords
- sequence
- lip language
- audio
- recognition model
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004821 distillation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 235000019580 granularity Nutrition 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000007423 decrease Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:1)获取音频特征序列;2)构建语音识别模型;3)训练语音识别模型;4)获取数据集语音特征和语音识别结果;5)获取唇部图像序列;6)构建唇语识别模型;7)获取数据集视频特征;8)唇语识别模型训练:9)获得唇语识别结果。本发明针对唇语识别问题中,视频特征歧义性更大的本质问题,提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型,从多个时间尺度、多个粒度,让唇语识别模型向语音识别模型学习,以增强其提取具有辨别性的视觉特征的能力,从而提高唇语识别准确率。
Description
技术领域
本发明属于唇语识别领域,针对唇语视频图像可辨别行不高的问题,提出一种基于多粒度知识蒸馏的唇语识别方法。
背景技术
唇语识别,旨在从视频中观察人嘴唇运动,从而识别出对应的文本内容。其在辅助语音识别、公共安全分析等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性,因为大多数的嘴唇运动是无法直接观察到的,比如舌头的运动,这导致看似相同的嘴唇运动实际上却对应着不同的内容。
近年来,随着深度学习和大规模数据集的蓬勃发展,一些著名的企业和高校,提出了许多基于神经网络的唇语识别模型,如基于序列到序列模型的唇语识别方法,或基于连接主义的时间分类损失。在词语或者句子级别的识别任务上,相较于传统的唇语识别***,这些方法的性能有了大幅度的提升。现有虽然取得了一定进展,但是没有显式地解决唇语视频歧异性这一本质问题,仍有可改进的空间。
发明内容
有鉴于此,本发明克服现有技术的不足,提出一种基于多粒度知识蒸馏的唇语识别方法,利用已经训练好的语音识别模型,增强唇语识别模型对视觉可辨别性特征提取的能力,提高唇语识别的准确率。
一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:
1)获取音频特征序列;
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块。
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取
并得到音频语义向量:
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练。误差损失函数如下所示:
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度。
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将视频人脸与标准人脸模板进行对齐。截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图。用表示唇部图像序列,J为序列长度。
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型。应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块。
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
并得到视频语义向量:
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv。
8)唇语识别模型训练:
构建唇语识别模型基础损失函数:
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量。
基于上下文的知识蒸馏损失函数:
M≤min(L,K) (18)
基于数据帧的知识蒸馏损失函数:
唇语识别模型的整体损失函数为:
L=Lbase+λ1LKD1+λ2LKD2+λ3LKD3 (23)
λ1,λ2,λ3为不同知识蒸馏损失函数对应的权重。利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练。
9)获得唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
本发明方法由下面四个部分组成:利用基于注意力机制的序列到序列模型构建语音识别模型,利用音频数据训练语音识别模型;利用基于注意力机制的序列到序列模型构建唇语识别模型;将音频数据送入已经训练好的语音识别模型,得到音频语义向量,音频上下文向量,音频时序特征和语音识别预测结果,将视频数据送入唇语识别模型,得到视频语义向量,视频上下文向量和视频时序特征;利用音/视频语义向量,音/视频上下文特征,音/视频时序特征和目标文本序列,训练唇语识别模型。通过上述4个步骤建立的转换关系,能够提高唇语识别模型的准确率。
本发明具有的有益的效果是:本发明针对唇语识别问题中,视频特征歧义性更大的本质问题,提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型,从多个时间尺度、多个粒度,让唇语识别模型向语音识别模型学习,以增强其提取具有辨别性的视觉特征的能力,从而提高唇语识别准确率。
附图说明
图1是本发明基于神经网络的唇语识别模型示意图。
图2是本发明方法的流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于多粒度知识蒸馏的唇语识别方法,包括如下步骤:
1)获取音频特征序列;
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块。
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取:
并得到音频语义向量:
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练。误差损失函数如下所示:
初始学习率为0.0003,如果4个阶段的训练误差没有继续下降,学习率下降50%。
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度。
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分,缩放至64*128,并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧。用表示唇部图像序列,J为序列长度。
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,…yK],训练基于注意力机制的序列到序列模型。应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块。
图像特征提取模块:采用VGG-M卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
VGG-M卷积神经网络参数如下:
名称 | 滤波器大小 | 步长 |
2维卷机层 | [3×3,96] | [1,1] |
2维池化层 | [3×3] | [2,2] |
2维卷积层 | [3×3,256] | [1,1] |
2维池化层 | [3×3] | [2,2] |
2维卷积层 | [3×3,512] | [1,1] |
2维卷积层 | [3×3,512] | [1,1] |
2维卷积层 | [3×3,512] | [1,1] |
2维池化层 | [3×3] | [2,2] |
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
并得到视频语义向量:
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv。
8)唇语识别模型训练:
构建唇语识别模型基础损失函数:
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量。
基于上下文的知识蒸馏损失函数:
M≤min(L,K) (18)
基于数据帧的知识蒸馏损失函数:
唇语识别模型的整体损失函数为:
L=Lbase+λ1LKD1+λ2LKD2+λ3LKD3 (23)
λ1,λ2,λ3为不同知识蒸馏损失函数对应的权重。在CMLR数据集上的取值分别为10,40,10;在LRS2-BBC数据集上的取值分别为2,10,10。利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练。初始学习率为0.0003,如果4个阶段的训练误差没有继续下降,学习率下降50%。
9)获得唇语识别结果
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。在CMLR数据集上字错误率为31.27%,在LRS2-BBC数据集上字错误率为45.53%。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种基于多粒度知识蒸馏的唇语识别方法,包括下列步骤:
1)获取音频特征序列;
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度;应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块;
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取:
并得到音频语义向量:
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练;误差损失函数如下所示:
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度;
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点;利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐;截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图;以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧;用 表示唇部图像序列,J为序列长度;
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型;应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块;
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
并得到视频语义向量:
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv;
8)唇语识别模型训练;
构建唇语识别模型基础损失函数:
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量;
基于上下文的知识蒸馏损失函数:
M≤min(L,K) (18)
基于数据帧的知识蒸馏损失函数:
唇语识别模型的整体损失函数为:
L=Lbase+λ1LKD1+λ2LKD2+λ3LKD3 (23)
λ1,λ2,λ3为不同知识蒸馏损失函数对应的权重;利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练;
9)获得唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258317.4A CN111223483A (zh) | 2019-12-10 | 2019-12-10 | 一种基于多粒度知识蒸馏的唇语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258317.4A CN111223483A (zh) | 2019-12-10 | 2019-12-10 | 一种基于多粒度知识蒸馏的唇语识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111223483A true CN111223483A (zh) | 2020-06-02 |
Family
ID=70808371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258317.4A Pending CN111223483A (zh) | 2019-12-10 | 2019-12-10 | 一种基于多粒度知识蒸馏的唇语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111223483A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653261A (zh) * | 2020-06-29 | 2020-09-11 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、可读存储介质及电子设备 |
CN111783566A (zh) * | 2020-06-15 | 2020-10-16 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN111883107A (zh) * | 2020-08-03 | 2020-11-03 | 北京字节跳动网络技术有限公司 | 语音合成、特征提取模型训练方法、装置、介质及设备 |
CN111881726A (zh) * | 2020-06-15 | 2020-11-03 | 马上消费金融股份有限公司 | 一种活体检测方法、装置及存储介质 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112330713A (zh) * | 2020-11-26 | 2021-02-05 | 南京工程学院 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
CN112633211A (zh) * | 2020-12-30 | 2021-04-09 | 海信视像科技股份有限公司 | 一种服务设备及人机交互方法 |
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN113011202A (zh) * | 2021-03-23 | 2021-06-22 | 中国科学院自动化研究所 | 基于多任务训练的端到端图像文本翻译方法、***、装置 |
CN113011245A (zh) * | 2021-01-28 | 2021-06-22 | 南京大学 | 基于超声波感知与知识蒸馏的唇语识别***及方法 |
CN113658582A (zh) * | 2021-07-15 | 2021-11-16 | 中国科学院计算技术研究所 | 一种音视协同的唇语识别方法及*** |
CN113822125A (zh) * | 2021-06-24 | 2021-12-21 | 华南理工大学 | 唇语识别模型的处理方法、装置、计算机设备和存储介质 |
CN114581812A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法、装置、电子设备及存储介质 |
WO2022217856A1 (en) * | 2021-04-15 | 2022-10-20 | Huawei Technologies Co., Ltd. | Methods, devices and media for re-weighting to improve knowledge distillation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及*** |
-
2019
- 2019-12-10 CN CN201911258317.4A patent/CN111223483A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及*** |
Non-Patent Citations (1)
Title |
---|
YA ZHAO: "Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers", 《ARXIV:1911.11052V1[CS.CV]》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783566B (zh) * | 2020-06-15 | 2023-10-31 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN111783566A (zh) * | 2020-06-15 | 2020-10-16 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN111881726A (zh) * | 2020-06-15 | 2020-11-03 | 马上消费金融股份有限公司 | 一种活体检测方法、装置及存储介质 |
CN111653261A (zh) * | 2020-06-29 | 2020-09-11 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、可读存储介质及电子设备 |
CN111883107A (zh) * | 2020-08-03 | 2020-11-03 | 北京字节跳动网络技术有限公司 | 语音合成、特征提取模型训练方法、装置、介质及设备 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112216271B (zh) * | 2020-10-11 | 2022-10-14 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112330713B (zh) * | 2020-11-26 | 2023-12-19 | 南京工程学院 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
CN112330713A (zh) * | 2020-11-26 | 2021-02-05 | 南京工程学院 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
CN112633211A (zh) * | 2020-12-30 | 2021-04-09 | 海信视像科技股份有限公司 | 一种服务设备及人机交互方法 |
CN113011245A (zh) * | 2021-01-28 | 2021-06-22 | 南京大学 | 基于超声波感知与知识蒸馏的唇语识别***及方法 |
CN113011245B (zh) * | 2021-01-28 | 2023-12-12 | 南京大学 | 基于超声波感知与知识蒸馏的唇语识别***及方法 |
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN112926569B (zh) * | 2021-03-16 | 2022-10-18 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN113011202A (zh) * | 2021-03-23 | 2021-06-22 | 中国科学院自动化研究所 | 基于多任务训练的端到端图像文本翻译方法、***、装置 |
CN113011202B (zh) * | 2021-03-23 | 2023-07-25 | 中国科学院自动化研究所 | 基于多任务训练的端到端图像文本翻译方法、***、装置 |
WO2022217856A1 (en) * | 2021-04-15 | 2022-10-20 | Huawei Technologies Co., Ltd. | Methods, devices and media for re-weighting to improve knowledge distillation |
CN113822125A (zh) * | 2021-06-24 | 2021-12-21 | 华南理工大学 | 唇语识别模型的处理方法、装置、计算机设备和存储介质 |
CN113822125B (zh) * | 2021-06-24 | 2024-04-30 | 华南理工大学 | 唇语识别模型的处理方法、装置、计算机设备和存储介质 |
CN113658582A (zh) * | 2021-07-15 | 2021-11-16 | 中国科学院计算技术研究所 | 一种音视协同的唇语识别方法及*** |
CN113658582B (zh) * | 2021-07-15 | 2024-05-07 | 中国科学院计算技术研究所 | 一种音视协同的唇语识别方法及*** |
CN114581812B (zh) * | 2022-01-12 | 2023-03-21 | 北京云辰信通科技有限公司 | 视觉语言识别方法、装置、电子设备及存储介质 |
CN114581812A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223483A (zh) | 一种基于多粒度知识蒸馏的唇语识别方法 | |
Gao et al. | Sign language recognition based on HMM/ANN/DP | |
CN103092329A (zh) | 一种基于唇读技术的唇语输入方法 | |
CN110309503A (zh) | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 | |
CN111178157A (zh) | 一种基于音调的级联序列到序列模型的中文唇语识别方法 | |
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN110795990B (zh) | 一种面向水下设备的手势识别方法 | |
Truong et al. | A translator for American sign language to text and speech | |
CN108763326A (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN106960206A (zh) | 字符识别方法和字符识别*** | |
Ma et al. | A continuous Chinese sign language recognition system | |
CN102004549A (zh) | 一种适用于中文的自动唇语识别*** | |
CN114037945A (zh) | 一种基于多粒度特征交互的跨模态检索方法 | |
Shinde et al. | Real time two way communication approach for hearing impaired and dumb person based on image processing | |
CN107909003B (zh) | 一种针对大词汇量的手势识别方法 | |
CN116561274A (zh) | 一种基于数字人技术与自然语言大模型的知识问答方法 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN110298331A (zh) | 一种人证比对方法 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN113658582B (zh) | 一种音视协同的唇语识别方法及*** | |
Zhang | The algorithm of voiceprint recognition model based DNN-RELIANCE | |
Yuan et al. | Skeletonclip: Recognizing skeleton-based human actions with text prompts | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200602 |