CN111429885B - 一种将音频片段映射为人脸嘴型关键点的方法 - Google Patents
一种将音频片段映射为人脸嘴型关键点的方法 Download PDFInfo
- Publication number
- CN111429885B CN111429885B CN202010134872.2A CN202010134872A CN111429885B CN 111429885 B CN111429885 B CN 111429885B CN 202010134872 A CN202010134872 A CN 202010134872A CN 111429885 B CN111429885 B CN 111429885B
- Authority
- CN
- China
- Prior art keywords
- audio
- mouth
- key point
- video
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000013507 mapping Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000009434 installation Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000000513 principal component analysis Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 229910001651 emery Inorganic materials 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种将音频片段映射为人脸嘴型关键点的方法,属于人工智能中的多模态交互及音频信息转化技术领域。所述方法从带音频的视频中分别提取音频和视频;提取得到的视频数据中每帧人脸图像中嘴型关键点信息,并记录关键点的坐标;对音频数据提取Fbank特征,使用主成分分析对提取的嘴型关键点信息进行降维,去除冗余信息,使用1层简单循环神经网络,不进行时延处理,直接进行从音频信息到嘴型关键点之间的映射关键关系建模。所述方法使用的神经网络模型的复杂度更低,从而降低了模型训练难度,减少了模型的训练时间,使得前向推断速度更快,比现有方法具有更广阔的应用场景。
Description
技术领域
本发明涉及一种将音频片段映射为人脸嘴型关键点的方法,属于人工智能中的多模态交互及音频信息转化技术领域。
背景技术
随着人工智能技术的快速发展,多模态交互成为研究热点,多模态交互是指综合利用多种不同模态的信息实现人机交互,从而比只利用单一模态的信息进行人机交互取得更好的效果,语音片段属于音频信息,是一种模态,人脸嘴型标记点属于图像(或者说视觉)信息,将音频信息转化为嘴型标记点,其主要目的是将音频信息与图像信息关联起来,即建立音频到图像之间的映射关系,这样就可以实现内容相同的信息从一种模态转化为另一种模态,那么在实际多模态交互应用中,可以根据两种模态的信息判断具体信息内容,从而实现更好的效果。嘴型关键点是人脸关键点的子集,一般来说,常用的定义中,人脸关键点有68个,而嘴型关键只是人脸关键点里嘴型位置的点,仅有20个,将音频数据转化为关键点信息从本质上来讲都是在维度接近的两个特征空间之间进行,方法上没有差异,但是在神经网络模型训练过程中,训练数据是20个点显然要比68个点更加节省内存空间,同时目前主流的方法都是提取嘴型关键点。目前主要有两种方法用于实现将音频信息转化为嘴唇(或人脸)关键点信息,一种是使用序列网络,将音频信息直接映射到嘴型标记点,另一种是先对音频信息进行特征提取,然后使用序列网络将提取的声学特征映射到嘴型标记点,BoFan等人提出了一种使用深度双向长短期记忆神经网络模型(BLSTM)进行音视频建模的方法,用于构建以音频为输入,视频为输出的交谈脸生成***。该方法的主要步骤是,首先构建一个目标人物交谈的音视频数据集,然后使用两个平行的特征提取器,一个是标签提取器,用于提取文本或其对应的音频片段的特征,另一个是视觉特征提取器,用于提取视频序列中的所有面部图像的特征,在训练阶段,以标签提取器的输出作为BLSTM模型的输入,以视觉特征提取器的输出作为真实标签,训练得到BLSTM模型,在交谈脸生成阶段,输入一段音频或文本,将经过标签提取器之后得到的特征向量作为BLSTM的输入,BLSTM的输出结果为视觉特征向量,然后利用此视觉特征向量进行交谈脸图像重建,继而得到整个的交谈脸视频序列,总的来讲,是直接通过LSTM实现音频到关键点的映射建模;本文尝试了多种BLSTM模型的变体,最终得出结论,在一层前向层上加两层双向LSTM将取得最好的结果。Sefik Emre Eskimez等人在提出一种从音频生成标记点(也称关键点)交谈脸视频的方法,其主要操作是首先收集大量的交谈脸视频,提取音频和视频,并建立两者这件的对应关系,然后使用Dlib库提供的人脸标记点检测方法,提取视频中人脸图像的68个关键点,同时建立音频片段和每帧68个人脸关键点之间的对应关系,组成本文提出的LSTM模型的训练数据集,接着训练模型,等到模型损失函数收敛之后,便可以进行推断,输入音频,输出关键点交谈脸视频。本文说明LSTM对于建模具有时序关系的数据时更有优势,作者使用的是4层双向长短期记忆网络(BLSTM)。SUPASORN SUWAJANAKORN等人提出一种根据音频进行嘴型合成,在经过渲染得到交谈脸视频的方法,即由音频驱动,作为输入,用于生成交谈脸视频,其主要步骤是根据输入音频,经过一个原生LSTM(长短期记忆网络)网络,得到13个稀疏嘴型标记点,根据标记点,还原嘴型的20个标记点,之后勾勒唇线,得到稀疏嘴型表示,然后进行纹理合成,得到高度细节化的面部纹理,之后利用嘴型标记点在已经建立的嘴型点数据库中进行搜索,找到最匹配的嘴型及其对应的图像,然后以此为原型,辅助使用光流、人脸3维建模和牙齿代理等方法进行优化,得到新的人脸图像,接着根据时序关系,对得到的每一帧新图像,根据前一帧图像的头部姿态、表情等进行调整优化,在产生大量的图像之后,合成视频。文章中提到使用LSTM(长短期记忆网络模型)网络模型进行音频到18个嘴型关键点之间的映射关系建模能够达到更好的准确性和效果。Yoshua Bengio等人提出了一种利用文本信息生成交谈脸视频的方法,其主要思路是将文本信息利用char2wav模型(语音合成Text-to-Audio的知名模型)转成语音片段,然后将语音片段输入时延LSTM(时延长短期记忆网络模型)网络模型得出20个嘴型关键点信息,之后利用关键点信息在已经建立好的目标人脸数据库中搜索最相似的嘴型及其对应的图像,然后实现交谈脸生成过程。
综上所述,这两种方法各有优劣,第一种方法能更多的保留音频的原始信息,但直接映射的建模方式未能充分考虑音频的物理声学特征,而且很多输入信息带有冗余性,第二种方法充分考虑了音频的物理声学特征,相当于建模时引入了输入数据的物理性质,能更好的表达数据特性,但其在提取特征时会采样处理数据,这难免遗漏了很多细节信息。总的来说,第二种方法无论从效果还是计算量均优于第一种方法的,所以目前比较使用比较广泛的是第二种方法,即先对音频信息提取fbank特征,然后进行映射建模。其中,效果更好的第二种方法,具有如下两个特点:
过多的考虑了音频片段之间的序列关于以及嘴型关键点之间的时序关系;没有从嘴型关键点相互独立的角度思考,过多的考虑时序关系,较少的关注到音频片段之间的时序关系非常短;
这两个特点导致这种方法存在如下两点较为明显的缺陷:
1)建立的神经网络模型比较复杂,故而训练难度大,时间长;
2)训练好的模型在做前向推断时,速度慢,即效率低。
发明人认为,从音频信息到关键点之间的映射关系是一种多对一的关系,即多个音频序列对应一个关键点,且这多个音频序列和下一个关键点对应的多个音频序列之间有时序关系,而关键与关键点之间也有时序关系,这是大量研究者考虑时序模型,如循环神经网络的主要原因,而使用LSTM进行建模,是为了避免训练过程中出现梯度消失或***的情况影响训练,也有人使用时延LSTM,用于强化音频序列之间的时序连接关系,保证后一部分数据中包含前一部分数据中的部分信息,以实现信息的持续传递,还有人使用双向LSTM便是为了利用输出的时序关系强化输入的时序关系,形成反馈闭环;但是当我们考虑大量没相互之间有时序关系的嘴型关键点和大量相互之间没有时序关系的音频片段时,一个音频片段对应一个嘴型,仅仅音频片段的帧之间有时序关系,所以不必与嘴型关键点之间形成闭环反馈,同时,时延也是不必要的,一个口型对应的音频片段不会是一个太长的序列,所以几乎不会有梯度消失或***的问题出现。
发明内容
本发明的目的是为了克服现有将语音片段映射为人脸嘴型关键点方法中存在建立的神经网络模型都比较复杂、大大增加了参数量,即增加了训练时间和难度,同时训练好的神经网络模型在做前向推断时,效率较低的技术缺陷,提出了一种将音频片段映射为人脸嘴型关键点的方法,对音频数据提取Fbank特征,对嘴型关键点信息进行降维操作,去除冗余信息,使用1层简单循环神经网络,不进行时延处理,直接进行从音频信息到嘴型关键点之间的映射关键关系建模。
本发明是通过下述技术方案实现的:
所述将语音片段映射为人脸嘴型关键点的方法,包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集这些带音频的视频;
其中,交谈视频数据中包含音频和视频,且为单一人物的演讲视频;
步骤一具体为:从公开的视频网站中寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据;
步骤二、从步骤一下载并收集的带音频的视频中分别提取音频和视频,分别得到音频数据和视频数据;
其中,优选的,提取音频和视频使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在windows10操作***上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开,即实现了音频和视频的提取;
步骤三、提取步骤二得到的视频数据中每帧人脸图像的嘴型关键点信息,并记录关键点的坐标;
其中,提取步骤二得到的视频数据采用开源工具库DLIB;每帧人脸图像的嘴型关键点信息为K个;每帧人脸图像的嘴型关键点有K个,每个关键点由一对(x,y)坐标表示,即每帧图像的嘴型关键信息由一个2*K维向量进行表示;
步骤四、提取步骤二得到的音频数据中的fbank特征;
其中,提取步骤二得到的音频数据中的fbank特征使用python的第三方库python_speech_features;
步骤五、使用主成分分析的方法对步骤三提取的嘴型关键点信息进行降维,得到降维度后的嘴型关键点信息;
步骤五具体操作为:下载与步骤三中安装的python版本兼容的机器学习库sklearn,根据官方安装说明进行安装,然后对其公布的示例程序稍作修改,调用sklearn库中的PCA函数,以步骤三得到的每帧图像的2K维向量表示的嘴型关键点信息作为输入,得到一个X维向量表示的嘴型关键点信息,即降维度后的嘴型关键点信息;其中,X小于K。
步骤六、使用步骤四得到的fbank特征和步骤五得到的降维度后的嘴型关键点信息组成训练数据集;
步骤六具体为:步骤四得到每个音频片段的fbank特征序列,步骤五得到每个视频片段中每帧图像的由1个X维向量表示的嘴型关键点信息,一个音频片段与一个视频片段是一一对应的,因此将所有的音频片段的fbank特征序列依次连接起来,将每个视频片段中所有图像的嘴型关键点信息按时间顺序依次连接起来,然后将所有的连接起来的嘴型关键点信息按照其对应视频与音频片段的对应关系,再将其依次连接起来,此处,音频的fbank特征序列的长度大约是嘴型关键点特征序列长度的M倍,即M个音频fbank特征信息对应一个嘴型关键点特征信息,因此在每相邻的两个嘴型关键点特征信息中间,以这两个嘴型关键点特征信息作为基础,内容上稍作浮动修改,形成新的嘴型关键点特征信息,并将其***这两者之间,至此,所有音频片段的fbank特征信息与所有视频片段的嘴型关键点特征信息一一对应,形成训练数据集;
其中,M小于K;
步骤七、使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,并使用步骤六得到的训练数据集对模型进行训练。
步骤七具体为:使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,其中,此网络模型的节点数位S,输入是音频的fbank特征信息,即一个2S维向量,输出是一个K维向量,表示一个嘴型关键点信息,目标函数使用L1损失函数,该L1损失函数指使用两个向量的L1范数作为损失函数,具体训练过程为:使用步骤六得到的训练数据集以监督学习的方式进行训练,首先,为上述映射模型的所有参数随机指定初始值,然后以音频片段的fbank特征作为输入,输出为1个X维向量,然后计算数据集中与此音频片段相对应的的嘴型关键点特征信息与输出的这个X维向量的L1范数,以此作为LOSS值,使用随机梯度反向传播的方式更新此模型的所有参数,不断的重复上述训练过程,直到一段时间内,得到的LOSS值基本趋于一致,且其值非常小时,停止训练,将此次的模型参数进行保存,得到训练好的模型。其中,借用已有的开源工具TensorFlow实现上述一层简单训练神经网络模型,并使用GPU进行训练;
步骤八、使用步骤七训练好的模型进行前向推断。
步骤八具体为:将步骤七训练好的模型部署在符合所需计算能力的可计算设备上,然后以从音频中提取的有效Fbank特征信息作为输入,输出为此模型预测得到的由X维向量表示的嘴型关键点特征信息,将此X维向量进行特征升维,得到2K维向量,由此2K维向量即可还原人脸嘴型关键点。
有益效果
本发明一种将音频片段映射为人脸嘴型关键点的方法,对比已有技术,具有如下有益效果:
1.所述方法使用的神经网络模型的复杂度更低,从而降低了模型训练难度;
2.在达到同等效果的前提下,所述方法所使用的神经网络模型的复杂度更低,从而减少了模型的训练时间;
3.在达到同等效果的前提下,所述方法使用的神经网络模型的前向推断速度更快;
4.在达到同等效果的前提下,所述方法使用的神经网络模型可以部署在计算能力更低的设备上,比现有方法具有更广阔的应用场景。
附图说明
图1为本发明一种将音频片段映射为人脸嘴型关键点的方法的流程示意。
具体实施方式
下面结合附图及实施例对本发明所述一种将音频片段映射为人脸嘴型关键点的方法的实施方式做详细说明。
实施例1
本实施阐述了本发明所述一种将音频片段映射为人脸嘴型关键点的方法的具体实施。
将音频信息映射为人脸嘴型关键点有非常广阔的应用范围,此处就此技术在带显示屏的智能音箱上的应用做一说明。智能音箱可实现智能问答,但是单纯的语音之间的交流大大降低了交流体验,在带显示屏的音箱中的可以将音频转化为对应的嘴型关键点,并以连续图像的方式展示,在人和音箱的交互中,提供更好的交流体验。
在将音频信息映射为人脸嘴型关键点的问题中,需要对音频信息与人脸嘴型关键点之间的映射关系进行建模,即音频信息作为输入,嘴型关键点信息作为输出,由于建立的模型非常复杂,参数量巨大,无法直接确定,因此需要使用监督学习的方式,基于学习的方法来确定参数。需要大量的包含音频和视频的单一人演讲视频作为原始数据,然后对原始数据做预处理操作得到用于映射模型训练的训练数据集,接着使用下述的软硬件环境及评价标准训练模型,部署模型进行测试。
本实例使用硬件为CPU:Intel(R)Xeon(R)CPU E5-2680 [email protected]、GPU:Teslap40,显存容量24GB,显存带宽346GB/s、内存:256GB、硬盘:180TB。软件为,操作***:Linux商用发行版Redhat64位,CUDA(8.0),cudnn(6.0),TensorFlow(1.4.0),Keras(2.1.3),dlib(19.9.0),easydict(1.9),editdistance(0.4),h5py(2.9.0),scikit-learn(0.19.1),opencv-python(3.4.3.18),opencv-contrib-python(3.4.0.12),python-speech-features(0.6),scikit-image(0.15.0),使用均方误差(MSE)作为评价标准。
具体实施时,如图1所示。
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集数据;
其中,优选的交谈视频数据为单一人物的演讲视频;
步骤一具体为:从公开的视频网站,如爱奇艺、优酷和腾讯视频等寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
步骤二、从带音频的视频中分别提取音频和视频;使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在windows10操作***上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开。
步骤三、使用开源工具库DLIB提取步骤二得到的视频数据中每帧人脸图像20个嘴型关键点信息,并记录关键点的坐标;
步骤三具体为:首先下载python软件,根据安装说明进行安装,然后下载与Python软件版本兼容的DLIB人脸检测库,根据安装说明进行安装,然后下载DLIB人脸检测库官方提供的已经训练好的用于检测人脸68个关键点的模型,然后根据官方示例代码,稍作修改,实现提取每帧图片的人脸嘴型关键点,并将其进行保存。
步骤四、使用python的第三方库python_speech_features对步骤二得到的音频数据提取其fbank特征;
步骤四具体为:在步骤三的基础上,下载与其Python版本兼容的python_speech_features库,并按照官方说明进行安装,然后对官方示例程序稍作修改,实现提取音频信息的fbank特征操作,并将提取到的fbank特征进行保存。
步骤五、使用主成分分析的方法对步骤三提取的嘴型关键点信息进行降维;
步骤五具体为:由步骤三得到的每帧图像的嘴型关键点有20个,每个关键点由一对(x,y)坐标表示,即每帧图像的嘴型关键信息由一个40维向量进行表示,使用主成分分析法降维后,每帧图像的嘴型关键点信息由一个8维向量进行表示;其具体操作为,下载与步骤三中安装的python版本兼容的机器学习库sklearn,根据官方安装说明进行安装,然后对其公布的示例程序稍作修改,调用sklearn库中的PCA函数,以步骤三得到的每帧图像的40维向量表示的嘴型关键点信息作为输入,得到一个8维向量表示的嘴型关键点信息;
步骤六、使用步骤四和步骤五得到的数据组成训练数据集;
步骤六具体为:步骤四得到每个音频片段的fbank特征序列,步骤五得到每个视频片段中每帧图像的由1个8维向量表示的嘴型关键点信息,一个音频片段与一个视频片段是一一对应的,因此将所有的音频片段的fbank特征序列依次连接起来,将每个视频片段中所有图像的嘴型关键点信息按时间顺序依次连接起来,然后将所有的连接起来的嘴型关键点信息按照其对应视频与音频片段的对应关系,再将其依次连接起来,此处,音频的fbank特征序列的长度大约是嘴型关键点特征序列长度的4倍,即4个音频fbank特征信息对应一个嘴型关键点特征信息,因此在每相邻的两个嘴型关键点特征信息中间,以这两个嘴型关键点特征信息作为基础,内容上稍作浮动修改,形成3个新的嘴型关键点特征信息,并将其***这两者之间,至此,所有音频片段的fbank特征信息与所有视频片段的嘴型关键点特征信息一一对应,形成训练数据集。
步骤七、使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,并使用步骤六得到的训练数据集对模型进行训练。
步骤七具体为:使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,其中,此网络模型的节点数设置为25,输入是一个音频的fbank特征信息,即一个50维向量,输出是一个8维向量,表示一个嘴型关键点信息,目标函数使用L1损失函数(使用L1损失函数指使用两个向量的L1范数作为损失函数),具体训练过程为,使用步骤六得到的训练数据集以监督学习的方式进行训练,首先,为上述映射模型的所有参数随机指定初始值,然后以音频片段的fbank特征作为输入,输出为1个8维向量,然后计算数据集中与此音频片段相对应的的嘴型关键点特征信息与输出的这个8维向量的L1范数,以此作为LOSS值,使用随机梯度反向传播的方式更新此模型的所有参数,不断的重复上述训练过程,直到一段时间内,得到的LOSS值基本趋于一致,且其值非常小时,停止训练,将此次的模型参数进行保存,得到训练好的模型。其中,借用已有的开源工具TensorFlow实现上述一层简单训练神经网络模型,并使用GPU进行训练。
步骤八、使用步骤七训练好的模型进行前向推断。
步骤八具体为:将步骤七训练好的模型部署在符合所需计算能力的可计算设备上,然后以从音频中提取的有效Fbank特征信息作为输入,输出为此模型预测得到的由8维向量表示的嘴型关键点特征信息,将此8维向量进行特征升维,得到40维向量,由此40维向量即可还原人脸嘴型关键点。
使用本发明所述的一种将音频片段映射为人脸嘴型关键点的方法与已有方法对一组测试数据进行测试,得到测试结果以及所用神经网络模型各项参数如下表1所示:
表1各种方法所用神经网络模型各项参数与各方法在测试集上的测试结果
神经网络模型 | 网络层数 | 网络模型参数量 | 测试误差 |
Bi-LSTM | 4 | 101480 | 0.0201 |
LSTM | 4 | 36360 | 0.0200 |
Bi-GRU | 4 | 76620 | 0.0188 |
GRU | 4 | 27530 | 0.0201 |
Bi-SimpleRNN | 4 | 26900 | 0.0192 |
SimpleRNN | 4 | 9870 | 0.0185 |
LSTM | 3 | 23400 | 0.0206 |
LSTM | 2 | 17400 | 0.0205 |
LSTM | 1 | 6240 | 0.0199 |
SimpleRNN(本发明所述) | 1 | 1508 | 0.187 |
注:Bi-LSTM指双向长短期记忆循环神经网络,LSTM指长短期记忆循环神经网络,Bi-GRU指双向门控循环神经网络,GRU指门控循环神经网络,Bi-SimpleRNN指双向简单循环神经网络,SimpleRNN指简单循环神经网络。
表1中从上到下依次为已有技术所用神经网络模型与本发明所用神经网络模型的参数以及在测试集上的测试结果。
1.由上表1可见,本发明所述方法使用的神经网络模型的参数量远少于其他方法,故而复杂度比已有算法更低,参数量越少,模型越容易训练,所以,本方法降低了模型训练难度;
2.根据上表1,本发明所述方法得到的测试误差基本上比已有方法更低,虽然差距不大,但是本发明所用神经网络模型的参数量远少于其他方法,因此本发明能在在达到同等效果的前提下,减少了模型的训练时间;
3.根据上表1,本发明所用方法在达到与已有方法同等效果的前提下,由于神经网络模型参数量远少于已有方法,所以本发明所述方法使用的神经网络模型的前向推断速度更快;
4.根据上表1,本发明所用方法在达到与已有方法同等效果的前提下,由于参数量远少于已有方法,因此本发明所述方法使用的神经网络模型可以部署在计算能力更低的设备上,比已有方法具有更广阔的应用场景。
虽然结合了附图描述了本发明的实施方式,但是对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。
Claims (8)
1.一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集这些带音频的视频;
步骤二、从步骤一下载并收集的带音频的视频中分别提取音频和视频,分别得到音频数据和视频数据;
步骤三、提取步骤二得到的视频数据中每帧人脸图像的嘴型关键点信息,并记录关键点的坐标;
其中,提取步骤二得到的视频数据采用开源工具库DLIB;每帧人脸图像的嘴型关键点有K个,每个关键点由一对(x,y)坐标表示,即每帧人脸图像的嘴型关键信息由一个2*K维向量进行表示;
步骤四、提取步骤二得到的音频数据中的fbank特征;
步骤五、使用主成分分析的方法对步骤三提取的嘴型关键点信息进行降维,得到降维度后的嘴型关键点信息;
步骤六、使用步骤四得到的fbank特征和步骤五得到的降维度后的嘴型关键点信息组成训练数据集;
步骤六具体为:步骤四得到每个音频片段的fbank特征序列,步骤五得到每个视频片段中每帧图像的由1个X维向量表示的嘴型关键点信息,一个音频片段与一个视频片段是一一对应的,因此将所有的音频片段的fbank特征序列依次连接起来,将每个视频片段中所有图像的嘴型关键点信息按时间顺序依次连接起来,然后将所有的连接起来的嘴型关键点信息按照其对应视频与音频片段的对应关系,再将其依次连接起来,此处,音频的fbank特征序列的长度大约是嘴型关键点特征序列长度的M倍,即M个音频fbank特征信息对应一个嘴型关键点特征信息,因此在每相邻的两个嘴型关键点特征信息中间,以这两个嘴型关键点特征信息作为基础,内容上稍作浮动修改,形成新的嘴型关键点特征信息,并将其***这两者之间,至此,所有音频片段的fbank特征信息与所有视频片段的嘴型关键点特征信息一一对应,形成训练数据集;
其中,M小于K;
步骤七、使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,并使用步骤六得到的训练数据集对模型进行训练;
步骤八、使用步骤七训练好的模型进行前向推断。
2.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤一中,交谈视频数据中包含音频和视频,且为单一人物的演讲视频。
3.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤一具体为:从公开的视频网站中寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
4.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤二中,提取音频和视频使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在windows10操作***上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开,即实现了音频和视频的提取。
5.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤四中,提取步骤二得到的音频数据中的fbank特征使用python的第三方库python_speech_features。
6.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤五具体操作为:下载机器学习库sklearn,根据官方安装说明进行安装,然后对其公布的示例程序稍作修改,调用sklearn库中的PCA函数,以步骤三得到的每帧图像的2K维向量表示的嘴型关键点信息作为输入,得到一个X维向量表示的嘴型关键点信息;其中,X小于K。
7.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤七具体为:使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,其中,此网络模型的节点数为S,输入是音频的fbank特征信息,即一个2S维向量,输出是一个X维向量,表示一个嘴型关键点信息,目标函数使用L1损失函数,该L1损失函数指使用两个向量的L1范数作为损失函数,具体训练过程为:使用步骤六得到的训练数据集以监督学习的方式进行训练,首先,为上述映射模型的所有参数随机指定初始值,然后以音频片段的fbank特征作为输入,输出为1个X维向量,然后计算数据集中与此音频片段相对应的嘴型关键点特征信息与输出的这个X维向量的L1范数,以此作为LOSS值,使用随机梯度反向传播的方式更新此模型的所有参数,不断的重复上述训练过程,直到一段时间内,得到的LOSS值基本趋于一致,且其值非常小时,停止训练,将此次的模型参数进行保存,得到训练好的模型;
其中,借用已有的开源工具TensorFlow实现上述一层简单循环神经网络模型,并使用GPU进行训练。
8.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤八具体为:将步骤七训练好的模型部署在符合所需计算能力的可计算设备上,然后以从音频中提取的有效fbank特征信息作为输入,输出为此模型预测得到的由X维向量表示的嘴型关键点特征信息,将此X维向量进行特征升维,得到2K维向量,由此2K维向量即可还原人脸嘴型关键点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134872.2A CN111429885B (zh) | 2020-03-02 | 2020-03-02 | 一种将音频片段映射为人脸嘴型关键点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134872.2A CN111429885B (zh) | 2020-03-02 | 2020-03-02 | 一种将音频片段映射为人脸嘴型关键点的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429885A CN111429885A (zh) | 2020-07-17 |
CN111429885B true CN111429885B (zh) | 2022-05-13 |
Family
ID=71547358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010134872.2A Active CN111429885B (zh) | 2020-03-02 | 2020-03-02 | 一种将音频片段映射为人脸嘴型关键点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429885B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966855A (zh) * | 2020-08-04 | 2020-11-20 | 深圳追一科技有限公司 | 数字人训练数据采集方法、装置、电子设备及存储介质 |
CN111966671A (zh) * | 2020-08-04 | 2020-11-20 | 深圳追一科技有限公司 | 数字人训练数据清洗方法、装置、电子设备及存储介质 |
CN112381926A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成视频的方法和装置 |
CN114513678A (zh) * | 2020-11-16 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 面部信息的生成方法及装置 |
CN112668407A (zh) * | 2020-12-11 | 2021-04-16 | 北京大米科技有限公司 | 人脸关键点生成方法、装置、存储介质及电子设备 |
CN112580669B (zh) * | 2020-12-28 | 2023-08-01 | 出门问问(武汉)信息科技有限公司 | 一种对语音信息的训练方法及装置 |
CN112866586B (zh) * | 2021-01-04 | 2023-03-07 | 北京中科闻歌科技股份有限公司 | 一种视频合成方法、装置、设备及存储介质 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN112949554B (zh) * | 2021-03-22 | 2022-02-08 | 湖南中凯智创科技有限公司 | 智能儿童陪伴教育机器人 |
CN113077537B (zh) * | 2021-04-29 | 2023-04-25 | 广州虎牙科技有限公司 | 一种视频生成方法、存储介质及设备 |
CN113822969B (zh) * | 2021-09-15 | 2023-06-09 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
GB201903967D0 (en) * | 2018-06-22 | 2019-05-08 | Adobe Inc | Using machine-learning models to determine movements of a mouth corresponding to live speech |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
CN110677598A (zh) * | 2019-09-18 | 2020-01-10 | 北京市商汤科技开发有限公司 | 视频生成方法、装置、电子设备和计算机存储介质 |
-
2020
- 2020-03-02 CN CN202010134872.2A patent/CN111429885B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
GB201903967D0 (en) * | 2018-06-22 | 2019-05-08 | Adobe Inc | Using machine-learning models to determine movements of a mouth corresponding to live speech |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
CN110677598A (zh) * | 2019-09-18 | 2020-01-10 | 北京市商汤科技开发有限公司 | 视频生成方法、装置、电子设备和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
基于BLSTM-RNN的语音驱动逼真面部动画合成;阳珊等;《清华大学学报(自然科学版)》;20170315(第03期);250-256 * |
Also Published As
Publication number | Publication date |
---|---|
CN111429885A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429885B (zh) | 一种将音频片段映射为人脸嘴型关键点的方法 | |
Zhu et al. | End-to-end video-level representation learning for action recognition | |
Zhang et al. | Learning affective features with a hybrid deep model for audio–visual emotion recognition | |
Lin et al. | Training keyword spotters with limited and synthesized speech data | |
Xin et al. | Arch: Adaptive recurrent-convolutional hybrid networks for long-term action recognition | |
Tian et al. | Audio2face: Generating speech/face animation from single audio with attention-based bidirectional lstm networks | |
CN110853670B (zh) | 音乐驱动的舞蹈生成方法 | |
JP2023537705A (ja) | オーディオ・ビジュアル・イベント識別システム、方法、プログラム | |
Mehralian et al. | RDCGAN: Unsupervised representation learning with regularized deep convolutional generative adversarial networks | |
WO2021208601A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
Zhang et al. | Efficient feature learning and multi-size image steganalysis based on CNN | |
Patrick et al. | Space-time crop & attend: Improving cross-modal video representation learning | |
CN111444967A (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
US20220101121A1 (en) | Latent-variable generative model with a noise contrastive prior | |
JP2023546173A (ja) | 顔認識型人物再同定システム | |
Cai et al. | Meta Multi-Task Learning for Speech Emotion Recognition. | |
Lim et al. | Weakly labeled semi-supervised sound event detection using CRNN with inception module. | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及*** | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
CN112329604B (zh) | 一种基于多维度低秩分解的多模态情感分析方法 | |
CN117528135A (zh) | 语音驱动的脸部视频生成方法、装置、电子设备及介质 | |
KR20190141350A (ko) | 로봇에서의 음성인식 장치 및 방법 | |
Chen et al. | Talking head generation driven by speech-related facial action units and audio-based on multimodal representation fusion | |
Fu | Digital image art style transfer algorithm based on CycleGAN | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |