CN113111812A

CN113111812A - 一种嘴部动作驱动模型训练方法及组件

Info

Publication number: CN113111812A
Application number: CN202110424518.8A
Authority: CN
Inventors: 陈泷翔; 刘炫鹏; 王鑫宇; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13

Abstract

本申请公开了一种嘴部动作驱动模型训练方法及组件。本申请中的嘴部动作驱动模型能够将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面，让嘴部动作驱动模型既学习了语音合成、编码能力，又学习了语音和画面的匹配能力。在学习语音合成、编码能力的过程中，以视频里语音对应的文本为训练数据，使模型学习画面对应的语音中的语调、语气的停顿，因此合成语音能够和视频里的语音保持一致。故以此训练得到的嘴部动作驱动模型能够合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高语音与画面的匹配准确度。本申请提供的一种嘴部动作驱动模型训练组件，也同样具有上述技术效果。

Description

一种嘴部动作驱动模型训练方法及组件

技术领域

本申请涉及计算机技术领域，特别涉及一种嘴部动作驱动模型训练方法及组件。

背景技术

在人物影像生成、电子动画中的类人类角色动作渲染等领域，为了使得影像中的人物更加真实、自然，嘴部动作与语音的匹配是十分重要的，如何完成声音到嘴部动作的映射是解决这一问题的关键。

现有的技术可以初步分为基于规则的方法与基于深度学习的方法两种。

基于规则的方法利用类似字典的结构记录由语言学家提供的音素与嘴部动作的对应关系，使用时通过查表的方式完成声音到嘴部动作的映射。此方式需要的人工因素较多，其中专家数据库的成本较为高昂，而且偏于定制化，无法灵活应用到多个场景。

基于深度学习的方法则直接将声音特征输入到神经网络后，即可得到相关嘴部动作参数。此方式需要先训练TTS语音合成模型，再训练嘴部动作驱动模型。其中，TTS语音合成模型用于将文本转换为语音，并以此作为嘴部动作驱动模型在应用过程中的输入数据。其中以视频里的图像和声音来训练得到嘴部动作驱动模型。可见，TTS语音合成模型和嘴部动作驱动模型分开训练，嘴部动作驱动模型训练时所用的视频里的语音有语调、语气的停顿，但TTS语音合成模型输出的语音难以和视频里的语音保持一致(TTS训练时没有学习画面对应的语音中的语调、语气的停顿)，因此训练得到的嘴部动作驱动模型无法对齐语音与画面，限制了语音与画面的匹配准确度。

对这两种方法得到的嘴部动作进一步像素渲染等处理，最终可得到与声音匹配的人物嘴部动作视频动画。

因此，如何使嘴部动作驱动模型学习语音与画面的对齐能力，提高语音与画面的匹配准确度，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种嘴部动作驱动模型训练方法及组件，以使嘴部动作驱动模型学习语音与画面的对齐能力，提高语音与画面的匹配准确度。其具体方案如下：

第一方面，本申请提供了一种嘴部动作驱动模型训练方法，包括：

获取目标视频；

提取所述目标视频中的声音和图像；

获取所述声音对应的文本数据；

从所述图像中提取与所述文本数据对应的嘴部动作特征；

利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面；

计算所述嘴部动作画面与所述嘴部动作特征的损失值；

若所述损失值达到模型收敛要求，则将所述初始深度学习模型确定为嘴部动作驱动模型；否则，更新所述初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至所述损失值符合模型收敛要求。

优选地，所述从所述图像中提取与所述文本数据对应的嘴部动作特征，包括：

利用人脸检测算法从所述图像中提取嘴部关键点信息作为所述嘴部动作特征；

或

利用三维模型从所述图像中提取嘴部轮廓信息作为所述嘴部动作特征；

或

利用人脸检测算法从所述图像中提取嘴部关键点信息；

利用三维模型从所述图像中提取嘴部轮廓信息；

融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作特征。

优选地，所述利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面之前，还包括：

将所述文本数据分段，获得多个文本段；

将各个文本段分别转换为相应的发音。

优选地，所述确定所述音频文件对应的嘴部动作画面，包括：

将所述音频文件分片段输出，同时输出各个片段对应的画面帧；

按照预设时间长度对各个片段对应的画面帧进行下采样，以获得所述嘴部动作画面；

或

将所述音频文件分片段输出，同时以预设时间长度为周期输出所述嘴部动作画面。

优选地，所述预设时间长度为所述图像的帧率的倒数。

优选地，所述嘴部动作驱动模型包括声码器和TTS模型。

优选地，所述TTS模型为Tacotron-2，所述声码器为基于griffin-lim算法的编码器、WavRNN或MelGAN。

第二方面，本申请提供了一种嘴部动作驱动模型训练装置，包括：

第一获取模块，用于获取目标视频；

第一提取模块，用于提取所述目标视频中的声音和图像；

第二获取模块，用于获取所述声音对应的文本数据；

第二提取模块，用于从所述图像中提取与所述文本数据对应的嘴部动作特征；

处理模块，用于利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面；

计算模块，用于计算所述嘴部动作画面与所述嘴部动作特征的损失值；

训练模块，用于若所述损失值达到模型收敛要求，则将所述初始深度学习模型确定为嘴部动作驱动模型；否则，更新所述初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至所述损失值符合模型收敛要求。

优选地，所述第二提取模块包括：

第一提取单元，用于利用人脸检测算法从所述图像中提取嘴部关键点信息作为所述嘴部动作特征；

或

第二提取单元，用于利用三维模型从所述图像中提取嘴部轮廓信息作为所述嘴部动作特征；

或

第一提取单元，用于利用人脸检测算法从所述图像中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从所述图像中提取嘴部轮廓信息；

融合单元，用于融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作特征。

优选地，还包括：

分段模块，用于将所述文本数据分段，获得多个文本段；

转换模块，用于将各个文本段分别转换为相应的发音。

优选地，所述处理模块包括：

输出单元，用于将所述音频文件分片段输出，同时输出各个片段对应的画面帧；

采样单元，用于按照预设时间长度对各个片段对应的画面帧进行下采样，以获得所述嘴部动作画面；

或

周期输出单元，用于将所述音频文件分片段输出，同时以预设时间长度为周期输出所述嘴部动作画面。

优选地，所述预设时间长度为所述图像的帧率的倒数。

优选地，所述嘴部动作驱动模型包括声码器和TTS模型。

第三方面，本申请提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的嘴部动作驱动模型训练方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的嘴部动作驱动模型训练方法。

通过以上方案可知，本申请提供了一种嘴部动作驱动模型训练方法，包括：获取目标视频；提取所述目标视频中的声音和图像；获取所述声音对应的文本数据；从所述图像中提取与所述文本数据对应的嘴部动作特征；利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面；计算所述嘴部动作画面与所述嘴部动作特征的损失值；若所述损失值达到模型收敛要求，则将所述初始深度学习模型确定为嘴部动作驱动模型；否则，更新所述初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至所述损失值符合模型收敛要求。

可见，本申请中的嘴部动作驱动模型能够将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面，也就是让嘴部动作驱动模型既学习了语音合成、编码能力，又学习了语音和画面的匹配能力。在学习语音合成、编码能力的过程中，以视频里语音对应的文本为训练数据，能够使模型学习画面对应的语音中的语调、语气的停顿，因此合成语音能够和视频里的语音保持一致。故以此训练得到的嘴部动作驱动模型能够合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高语音与画面的匹配准确度。

相应地，本申请提供的一种嘴部动作驱动模型训练组件(即装置、设备及可读存储介质)，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种嘴部动作驱动模型训练方法流程图；

图2为本申请公开的一种模型应用流程示意图；

图3为本申请公开的一种嘴部动作驱动模型训练装置示意图；

图4为本申请公开的一种计算机设备示意图；

图5为本申请公开的一种交互***示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，TTS语音合成模型和嘴部动作驱动模型分开训练，嘴部动作驱动模型训练时所用的视频里的语音有语调、语气的停顿，但TTS语音合成模型输出的语音难以和视频里的语音保持一致(TTS训练时没有学习画面对应的语音中的语调、语气的停顿)，因此训练得到的嘴部动作驱动模型无法对齐语音与画面，限制了语音与画面的匹配准确度。为此，本申请提供了一种嘴部动作驱动模型训练方案，能够使嘴部动作驱动模型学习语音与画面的对齐能力，提高语音与画面的匹配准确度，

下面对本申请实施例提供的一种嘴部动作驱动模型训练方法进行介绍，参见图1所示，本申请实施例公开了一种嘴部动作驱动模型训练方法，包括：

S101、获取目标视频。

S102、提取目标视频中的声音和图像。

其中，目标视频可以是动画视频，也可以是真人录制视频，一般优选为真人录制视频。目标视频中的声音即：视频中角色所说的语音，其中可能包括少量录制噪声。目标视频中的图像即：视频中角色说话时视频的画面数据。

S103、获取声音对应的文本数据。

其中，声音对应的文本数据即：视频中角色所说的文字。

S104、从图像中提取与文本数据对应的嘴部动作特征。

其中，嘴部动作特征即：视频中角色说话时嘴部的图像特征。

S105、利用初始深度学习模型将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面。

其中，深度学习模型可以是任意结构，如循环神经网络、卷积神经网络等。以文本数据作为训练数据，以嘴部动作特征作为模型的学习目标，可以让深度学习模型学习文本数据至嘴部动作特征的映射能力，从而得到既具备语音合成功能、又具备匹配语音与画面功能的嘴部动作驱动模型。

由于嘴部动作驱动模型具备两个功能，因此可以认为嘴部动作驱动模型中有两个功能模块：一个功能模块用于合成语音，另一个功能模块用于匹配语音与画面。在一种具体实施方式中，嘴部动作驱动模型包括声码器和TTS模型。TTS模型用于合成语音。声码器用于对语音编码后，匹配语音与画面。

在一种具体实施方式中，TTS模型为Tacotron-2，声码器为基于griffin-lim算法的编码器、WavRNN或MelGAN。当然，声码器和TTS模型也可以是其他结构。

S106、计算嘴部动作画面与嘴部动作特征的损失值。

其中，可以使用任意损失函数计算嘴部动作画面与嘴部动作特征的损失值，如：交叉熵损失函数、指数损失函数等。

S107、判断损失值是否达到模型收敛要求；若是，则执行S108；若否，则执行S109。

S108、将初始深度学习模型确定为嘴部动作驱动模型。

S109、更新初始深度学习模型的模型参数后，执行S101。

其中，更新初始深度学习模型的模型参数后，执行S101，以对更新后的初始深度学习模型进行迭代训练，直至损失值符合模型收敛要求。模型收敛要求可以基于损失阈值设定，例如：若是嘴部动作画面与嘴部动作特征的损失值小于损失阈值，则认为当前损失值符合模型收敛要求。当然，模型收敛要求也可以基于损失值的变化值设定，例如：若是嘴部动作画面与嘴部动作特征的损失值与上次损失值相比，变化程度小于预期，则认为当前损失值符合模型收敛要求。

可见，本实施例中的嘴部动作驱动模型能够将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面，也就是让嘴部动作驱动模型既学习了语音合成、编码能力，又学习了语音和画面的匹配能力。在学习语音合成、编码能力的过程中，以视频里语音对应的文本为训练数据，能够使模型学习画面对应的语音中的语调、语气的停顿，因此合成语音能够和视频里的语音保持一致。故以此训练得到的嘴部动作驱动模型能够合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高语音与画面的匹配准确度。

基于上述实施例，需要说明的是，从图像中提取与文本数据对应的嘴部动作特征，包括：利用人脸检测算法从图像中提取嘴部关键点信息(landmarks)作为嘴部动作特征；或利用三维模型从图像中提取嘴部轮廓信息作为嘴部动作特征；或利用人脸检测算法从图像中提取嘴部关键点信息(blendshape)；利用三维模型从图像中提取嘴部轮廓信息；融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作特征。

其中，人脸检测算法可以是任意能够识别嘴部关键点的算法，其一般以二维坐标提取特征数据，故所提取的特征数据缺少三维信息。而利用三维模型提取的特征数据虽然包括三维信息，但准确度相对较低。故为了提高嘴部动作特征的有效性，可以融合嘴部关键点信息和嘴部轮廓信息，融合过程中重复信息仅保留一份，未重复信息均保留并相互补充。

基于上述实施例，需要说明的是，利用初始深度学习模型将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面之前，还包括：将文本数据分段，获得多个文本段；将各个文本段分别转换为相应的发音。

可见，在处理文本数据之前，可以先将文本数据切分为各个文本段，并将各个文本段分别转换为相应的发音，然后用相应发音代替各个文本段输入到初始深度学习模型中。其中，发音可以包括：拼音、韵律、音标等。

基于上述实施例，需要说明的是，确定音频文件对应的嘴部动作画面，包括：将音频文件分片段输出，同时输出各个片段对应的画面帧；按照预设时间长度对各个片段对应的画面帧进行下采样，以获得嘴部动作画面；或将音频文件分片段输出，同时以预设时间长度为周期输出嘴部动作画面。

在一种具体实施方式中，预设时间长度为图像的帧率的倒数。例如：若图像的帧率为50fps，指：一秒传输50帧画面，那么每帧画面需要20ms的时间，因此一个20ms的音频可以对应一帧画面。据此，将预设时间长度设置为帧率的倒数，可使分片段输出的音频与画面对应，即实现二者在时间上的对齐。

需要说明的是，一个自回归的声码器匹配语音与画面可以参考下述内容。声码器每一步输出一个数字，每次都需要将上一步输出的数字作为声码器当前的输入，即yt＝f(state，yt-1)，其中，state是网络自身的一个状态，在运算过程中自动完成输入与输出，所以表面上看就是yt＝f(yt-1)。如果这个时候需要同时输出动作参数，那么动作参数是一个向量，如果记为z，那么一种方式就是每一步都输出动作参数，即yt&zt＝f(yt-1)，动作参数不需要自回归模式(即前一步的动作参数zt-1不需要输入到声码器中)，然后最后使用的时候，对z进行降采样。比如1s出来16000个动作参数，我们只需要25个，那么就按照相同的间隔，取其中25个。

显然上述方式对算力的浪费非常大，所以另一种方式是将声码器最后的自回归层分开，音频数字的生成部分不变，但是额外多一个分支来进行动作参数的生成，即多出来一个额外的小网络：zt＝g(state)，这个小网络只有在我们输入state时才会计算，那么我们就可以控制音频数字每生成多少个，就把state输入到g中，得到与之匹配的动作参数，这种方式不会有算力的浪费。

基于上述实施例，需要说明的是，训练获得嘴部动作驱动模型后，可以应用该模型给任一段语音匹配对应的嘴部动作图像数据，具体请参见图2，图2示意了一种模型应用流程。

S201、获取待处理文本；

S202、将待处理文本输入嘴部动作驱动模型，得到相应的嘴部动作图像数据；

S203、展示待处理文本和嘴部动作图像数据。

本实施例中的嘴部动作驱动模型以及相关执行步骤可参照上述实施例的相关介绍，本说明书在此不再赘述。

可见，本实施例中的嘴部动作驱动模型以文本作为输入，能够基于文本合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高了语音与画面的匹配准确度。

下面基于深度学习方法，提供一种嘴部动作驱动模型的训练方案与应用方案。训练方案包括：录制视频数据、处理视频数据得到声学特征、嘴部动作参数和文本、训练嘴部动作驱动模型几个步骤。应用方案包括：用嘴部动作驱动模型处理文本后得到动作参数，得到时间轴上同步的语音与动作。其中，训练方案中“处理视频数据得到声学特征与嘴部动作参数”的具体细节包括：

将录制的视频数据分为音频文件与图像帧两个部分，将音频文件通过信号处理的方式获得声学特征，这些特征可以是振幅谱、梅尔频谱、梅尔倒谱系数等；将图像帧通过关键点检测得到landmarks或者通过三维建模的方式得到嘴部动作参数。同时根据音频文件标注得到文本，中文文本可转换为拼音与韵律，英文文本可转换为音标。

训练过程：用文本训练TTS模型(采用Tacotron-2结构)，并用TTS模型在训练过程中的输出，同步训练一个声码器，实现TTS模型和声码器的联合训练，因此TTS模型和声码器可对外看作一个模型的两个组成部分。声码器也可以是不需要模型训练的griffin-lim算法，声码器也可采用较为成熟的WavRNN或者MelGAN，其输入为声学特征，输出为PCM编码(可生成音频文件)。为了使得动作参数与语音可以在时间上匹配，需要对声码器进行改造，使得声码器在不断输出PCM编码的同时，每隔一个固定的时间输出一帧的动作参数(与所需帧率相关，例如：帧率为50fps时，每生成20ms的音频需要输出一个动作参数。

相应的应用过程为：将文本输入TTS模型、声码器，得到动作参数。

需要说明的是，训练嘴部动作驱动模型的软件环境可以为支持tensorflow或者pytorch的python环境，应用模型时，其软件环境可以与训练阶段保持一致，也可以改写其他软件框架获得适用于该模型的软件环境，以降低落地成本。如果模型应用阶段有流式的需求，那么模型结构的设计应满足：包含循环神经网络的情况下必须采用单向循环神经网络；包含卷积神经网络的情况下其感受野(滑动窗口)不能过大。

如果需要支持多音色，需要采集多个音色的声音的同时，还需要对Tacotron-2结构进行修改，使得其能够根据输入的标签控制生成音色的种类。例如：若加入条件控制输入和输出的音色种类，就需要把输入位置的网络加宽。如：输入维度原本是80维，输入网络的维度也得是80，而支持10音色的话，就是10维的条件，那么维度就加宽到了90。

若采用i-vector、x-vector这种与说话人相关的向量，可以把这种向量当成条件，每个人的i-vector都是独特的。最简单的条件就是one-hot向量，[1,0,0,0,0,0]表示6类中的第一类，原本是y＝f(x)，x是音素序列，y是频谱；现在变成了y＝f(x,c)，c为条件；不是直接控制各个维度输入的有效，而是通过多层网络间接控制。

可见，本实施例不需要引入规则，整个流程均可自动化。训练过程端到端，简单易理解，便于优化。线上使用VC模型灵活性高，能够缩短整体***更新流程，实现了语音与对应的动作序列的共同生成，解决了二者在时间轴上不同步的问题。

下面对本申请实施例提供的一种嘴部动作驱动模型训练装置进行介绍，下文描述的一种嘴部动作驱动模型训练装置与上文描述的一种嘴部动作驱动模型训练方法可以相互参照。

参见图3所示，本申请实施例公开了一种嘴部动作驱动模型训练装置，包括：

第一获取模块301，用于获取目标视频；

第一提取模块302，用于提取目标视频中的声音和图像；

第二获取模块303，用于获取声音对应的文本数据；

第二提取模块304，用于从图像中提取与文本数据对应的嘴部动作特征；

处理模块305，用于利用初始深度学习模型将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面；

计算模块306，用于计算嘴部动作画面与嘴部动作特征的损失值；

训练模块307，用于若损失值达到模型收敛要求，则将初始深度学习模型确定为嘴部动作驱动模型；否则，更新初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至损失值符合模型收敛要求。

在一种具体实施方式中，第二提取模块，包括：

第一提取单元，用于利用人脸检测算法从图像中提取嘴部关键点信息作为嘴部动作特征；

或

第二提取单元，用于利用三维模型从图像中提取嘴部轮廓信息作为嘴部动作特征；

或

第一提取单元，用于利用人脸检测算法从图像中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从图像中提取嘴部轮廓信息；

融合单元，用于融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作特征。

在一种具体实施方式中，还包括：

分段模块，用于将文本数据分段，获得多个文本段；

转换模块，用于将各个文本段分别转换为相应的发音。

在一种具体实施方式中，处理模块包括：

输出单元，用于将音频文件分片段输出，同时输出各个片段对应的画面帧；

采样单元，用于按照预设时间长度对各个片段对应的画面帧进行下采样，以获得嘴部动作画面；

或

周期输出单元，用于将音频文件分片段输出，同时以预设时间长度为周期输出嘴部动作画面。

在一种具体实施方式中，预设时间长度为图像的帧率的倒数。

在一种具体实施方式中，嘴部动作驱动模型包括声码器和TTS模型。

在一种具体实施方式中，TTS模型为Tacotron-2，声码器为基于griffin-lim算法的编码器、WavRNN或MelGAN。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种嘴部动作驱动模型训练装置，该装置训练得到的嘴部动作驱动模型能够合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高语音与画面的匹配准确度。

下面对本申请实施例提供的一种计算机设备进行介绍，下文描述的一种计算机设备与上文描述的一种嘴部动作驱动模型训练方法及装置可以相互参照。

参见图4所示，本申请实施例公开了一种计算机设备，包括：

存储器401，用于保存计算机程序；

处理器402，用于执行所述计算机程序，以实现前述任意实施例公开的嘴部动作驱动模型训练方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种嘴部动作驱动模型训练方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的嘴部动作驱动模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

下面结合具体应用场景详细介绍本申请提供的嘴部动作驱动模型训练方法，需要说明的是，训练得到的嘴部动作驱动模型可以用于制作动画，具体为：利用该模型控制动画中角色的嘴部动作。

请参阅图5，图5示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的嘴部动作驱动模型训练方法可以应该用于如图5所示的交互***。交互***包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备101可以是具有显示屏、具有嘴部动作驱动模型训练模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)触发训练方法。用户可以基于客户端应用程序在服务器102注册一个用户账号，并基于该用户账号与服务器102进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，实现训练方法的装置也可以设置于终端设备101上，使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互，此时交互***可以只包括终端设备101。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种嘴部动作驱动模型训练方法，其特征在于，包括：

获取目标视频；

提取所述目标视频中的声音和图像；

获取所述声音对应的文本数据；

从所述图像中提取与所述文本数据对应的嘴部动作特征；

计算所述嘴部动作画面与所述嘴部动作特征的损失值；

2.根据权利要求1所述的方法，其特征在于，所述从所述图像中提取与所述文本数据对应的嘴部动作特征，包括：

或

利用人脸检测算法从所述图像中提取嘴部关键点信息；

利用三维模型从所述图像中提取嘴部轮廓信息；

3.根据权利要求1所述的方法，其特征在于，所述利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面之前，还包括：

将所述文本数据分段，获得多个文本段；

将各个文本段分别转换为相应的发音。

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频文件对应的嘴部动作画面，包括：

或

5.根据权利要求4所述的方法，其特征在于，所述预设时间长度为所述图像的帧率的倒数。

6.根据权利要求1所述的方法，其特征在于，所述嘴部动作驱动模型包括声码器和TTS模型。

7.根据权利要求6所述的方法，其特征在于，所述TTS模型为Tacotron-2，所述声码器为基于griffin-lim算法的编码器、WavRNN或MelGAN。

8.一种嘴部动作驱动模型训练装置，其特征在于，包括：

第一获取模块，用于获取目标视频；

第一提取模块，用于提取所述目标视频中的声音和图像；

第二获取模块，用于获取所述声音对应的文本数据；

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。