CN114187547A

CN114187547A - 目标视频的输出方法及装置、存储介质及电子装置

Info

Publication number: CN114187547A
Application number: CN202111474972.0A
Authority: CN
Inventors: 司马华鹏; 王建; 汪圆; 孙雨泽
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-15

Abstract

本申请实施例提供了一种目标视频的输出方法及装置、存储介质及电子装置，所述方法包括：获取第一音频和包含目标人物的第一视频；提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型；通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。

Description

目标视频的输出方法及装置、存储介质及电子装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种目标视频的输出方法及装置、存储介质及电子装置。

背景技术

二维(two-dimensional，简称为2D)虚拟人物的生成通常是指通过一个人或几个人的视频数据生成对应的2D虚拟人物，2D虚拟人物在形象上逼近真人，并且针对不同的从文本到语音(Text To Speech，简称为TTS)输入，能够达到与真人接近的口型。可以广泛应用在2D虚拟人物相关的任务上。

目前，相关技术中2D虚拟人物生成方案一般清晰度有限，并且在训练时收敛比较慢，针对不同的人种或者人物特征差别比较大的情况，例如，有无胡子等，模型的训练方式并不通用，需要根据人物特征不断修正训练方式，这也直接影响到最终生成的2D虚拟人物的口型效果。

针对相关技术中，2D虚拟人物生成方案的模型训练效率较低且清晰度较差的问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种目标视频的输出方法及装置、存储介质及电子装置，以至少解决相关技术中2D虚拟人物生成方案的模型训练效率较低且清晰度较差的问题。

在本申请的一个实施例中，提出了一种目标视频的输出方法，包括：获取第一音频和包含目标人物的第一视频，其中，所述第一音频为根据文本转换成的语音数据；提取所述第一音频的音频特征和所述第一视频中所述目标人物的人脸特征，其中，所述目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，所述神经网络模型为使用样本数据训练的生成对抗网络模型，所述样本数据包括样本视频数据，所述样本视频数据中包含多个人物对象，所述神经网络模型包括多个门卷积层和多个膨胀门卷积层；通过所述神经网络模型输出包含目标虚拟人物的目标视频，其中，所述目标虚拟人物与所述目标人物对应，所述目标虚拟人物的口型与所述第一音频对应。

在本申请的一个实施例中，还提出了一种目标视频的输出装置，包括：获取模块，配置为获取第一音频和包含目标人物的第一视频，其中，所述第一音频为根据文本转换成的语音数据；提取模块，配置为提取所述第一音频的音频特征和所述第一视频中所述目标人物的人脸特征，其中，所述目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；输入模块，配置为将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，所述神经网络模型为使用样本数据训练的生成对抗网络模型，所述样本数据包括样本视频数据，所述样本视频数据中包含多个人物对象，所述神经网络模型包括多个门卷积层和多个膨胀门卷积层；输出模块，配置为通过所述神经网络模型输出包含目标虚拟人物的目标视频，其中，所述目标虚拟人物与所述目标人物对应，所述目标虚拟人物的口型与所述第一音频对应。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，获取第一音频和包含目标人物的第一视频；提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型；通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。解决了相关技术中2D虚拟人物生成方案的模型训练效率较低且清晰度较差的问题，神经网络模型为使用样本数据训练的生成对抗网络模型，神经网络模型包括多个门卷积层和多个膨胀门卷积层，从训练过程来看，使用门卷积的生成器，收敛速度很快，学习特征的能力非常强；鲁棒性强，针对不同人脸特征，比如带胡子、眼镜都能很好的支持；对不同地域人种也能很好的学习；生成的数字人画面有接近训练数据的清晰度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的目标视频的输出方法流程图；

图2是根据本申请实施例的一种可选的数据预处理过程示意图；

图3是根据本申请实施例的一种可选的样本音频特征获取过程示意图；

图4是根据本申请实施例的一种可选的样本人脸特征获取过程示意图；

图5是根据本申请实施例的一种可选的神经网络模型训练过程示意图；

图6是根据本申请实施例的一种可选的门卷积层训练过程示意图；

图7是根据本申请实施例的一种可选的生成器结构示意图；

图8是根据本申请实施例的一种可选的目标视频的输出装置结构示意图；

图9是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种目标视频的输出方法，包括：

步骤S102，获取第一音频和包含目标人物的第一视频，其中，第一音频为根据文本转换成的语音数据；

步骤S104，提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；

步骤S106，将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，神经网络模型为使用样本数据训练的生成对抗网络模型，样本数据包括样本视频数据，样本视频数据中包含多个人物对象，神经网络模型包括多个门卷积层和多个膨胀门卷积层；

步骤S108，通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。

需要说明的是，本申请实施例中涉及的生成式对抗网络(GenerativeAdversarial Networks，简称为GAN)是一种深度学习模型，通过轮流训练判别器(Discriminator)和生成器(Generator)，令其相互对抗，来从复杂概率分布中采样。本申请实施例的神经网络模型包括多个门卷积层和多个膨胀门卷积层，上述门卷积层和膨胀门卷积层可以设置在生成器部分，使用门卷积的生成器，收敛速度很快，膨胀门卷积有更大的感受野，学习特征的能力非常强；鲁棒性强，针对不同人脸特征，比如带胡子、眼镜都能很好的支持；对不同地域人种也能很好的学习；生成的数字人画面有接近训练数据的清晰度。

本申请实施例中生成的目标视频可以是2D数字人(相当于前述虚拟人物)的生成，通常而言指通过一个人或几个人的视频数据生成对应的2D数字人，2D数字人在形象上逼近真人，并且针对不同的TTS输入，能够达到与真人接近的口型。因此在应用过程中，第一音频为TTS语音数据，第一视频中包含训练过的目标人物，第一视频可以是包含音频的视频数据，也可以是不包含音频的视频画面，本申请实施例对此不做限定。

在一实施例中，提取第一视频中目标人物的人脸特征可以通过以下步骤实现：

步骤S1，检测第一视频中目标人物的人脸图像，并将人脸图像进行剪裁；

步骤S2，在剪裁后的人脸图像的嘴部周边区域设置遮盖面罩，其中，嘴部周边区域包括眼睛以下以及下巴以上的区域；

步骤S3，提取设置遮盖面罩后的人脸图像的局部特征，得到目标人物的人脸特征。

需要说明的是，上述嘴部周边区域一般是指嘴部区域，也可以是嘴部和鼻子一起的区域，也可以嘴部、鼻子和下巴一起的区域，一般不包括眼睛和脸颊，可以包括下巴，当然为了训练需要也可以包括嘴部周边的脸颊，本申请实施例对此不做限定。

在一实施例中，在将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型之前，上述方法还包括对神经网络模型的训练，其训练过程如下：

对样本视频数据进行预处理，得到样本音频特征和样本人脸特征；

使用样本音频特征和样本人脸特征训练神经网络模型。

图2是根据本申请实施例的一种可选的数据预处理过程示意图，如图2所示，数据预处理模块用于对视频素材进行相应的处理，以生成训练数据。数据预处理主要包括音频特征的提取和人脸特征的提取，其中，人脸特征的提取包括人脸剪裁和设置mask(遮盖面罩)，然后将音频特征和人脸特征进行拼接(concat)。针对样本视频数据的预处理，对应为样本音频特征的提取和样本人脸特征的提取。

在一实施例中，对样本数据进行预处理包括：

提取样本视频数据中的样本音频数据；

提取样本音频数据的梅尔声学特征；

过滤掉梅尔声学特征中的静音数据，得到过滤后的样本音频特征；

根据设置好的滑动窗口提取样本视频数据的每一帧图像对应的样本音频特征。

图3是根据本申请实施例的一种可选的样本音频特征获取过程示意图，如图3所示，由于需要根据TTS来驱动数字人，并且要求口型能和TTS音频同步，所以样本音频特征是神经网络模型一个很重要的输入，样本音频特征提取首先从样本视频中提取音频数据，然后使用常用的音频库如librosa或soundfile提取mfcc特征。mfcc特征是声学特征Mel-Frequency Cepstral Coefficients的缩写，mfcc特征提取包含两个关键步骤：转化到梅尔频率，然后进行倒谱分析。为了避免语料中静音部分的干扰，需要将大部分的静音数据过滤掉。然后再根据设置好的滑动窗口提取每一帧图片对应的样本音频特征，保证样本音频特征和特定的视频帧是同步的。最后，将样本音频特征归一化。

在一实施例中，对样本数据进行预处理包括：

对样本视频数据的每一帧图像进行人脸检测；

对检测到的人脸图像进行裁剪后，在人脸图像的嘴部周边区域设置遮盖面罩，其中，嘴部周边区域包括眼睛以下以及下巴以上的区域；

对设置遮盖面罩后的人脸图像进行归一化处理，得到样本人脸特征。

图4是根据本申请实施例的一种可选的样本人脸特征获取过程示意图，如图4所示，音频驱动数字人效果主要是在脸部细节，因此，训练时输入除了音频还需要同步人脸特征，首先使用ffmpeg将语料视频抽帧，然后使用dlib进行人脸检测，对检测到的人脸图像进行裁剪后，在人脸图像的嘴部周边区域设置遮盖面罩，对设置遮盖面罩后的人脸图像进行归一化处理，例如可以是256*256大小，得到样本人脸特征。因为神经网络模型需要学习的是音频特征对应的脸部细节特征，比如口型是否正确，因此输入的时候除了一些不变的特征，比如眼睛、额头、脖子等，其他部分尤其是嘴部及其周围的部分都需要设置mask遮盖掉，表示这部分是需要网络生成的。

在一实施例中，使用样本音频特征和样本人脸特征训练神经网络模型，包括：

将样本音频特征和样本人脸特征拼接后输入神经网络模型的生成器，其中，生成器包括n层门卷积层和m层膨胀门卷积层，n和m为大于1的整数，每一层门卷积层包括第一子卷积层和第二子卷积层，每一层膨胀门卷积层的特征图不变；

通过生成器输出预估视频帧图像，其中，预估视频帧包括虚拟人物的人脸图像；

通过判别器确定预估视频帧图像的嘴部损失和全局损失，根据嘴部损失和全局损失调整神经网络模型的训练参数，其中，嘴部损失用于表征预估视频帧图像中口型图像与真实值之间的差值，全局损失用于表征预估视频帧图像的整体图像与真实值之间的差值。

在一实施例中，通过生成器输出预估视频帧，包括：

每一层门卷积层的输入分别与第一子卷积层和第二子卷积层进行卷积，得到第一子卷积值和第二子卷积值；

将第一子卷积值通过激活函数激活后，与第二子卷积值相乘，得到当前门卷积层的输出。

图5是根据本申请实施例的一种可选的神经网络模型训练过程示意图，如图5所示，训练的时候将处理好的样本音频特征和设置mask之后的人脸图片(样本人脸特征)一起送到GAN网络，图5中encoder+decoder部分为生成器，discriminator为判别器，生成器的作用是生成尽量和原始语料中视频帧接近的画面，判别器的作用是判断生成器的真伪，通过生成器和鉴别器不断地对抗学习，使生成器越来越逼近原始视频帧。

需要说明的是，上述生成器使用门卷积，由于输入包含mask，因此mask内部和外部像素起到的作用是不同的，mask区域内的像素可以看做是无效或者权重比较低的，但传统卷积把每个像素都当做有效值，无法有效区分，而门卷积可以通过学习来区分空间位置每个像素的语义区别。

图6是根据本申请实施例的一种可选的门卷积层训练过程示意图，如图6所示，门卷积包含2个普通卷积层(相当于上述第一子卷积层和第二子卷积层)，卷积核、窗口大小都一样，但权值不共享，其中第一子卷积层用sigmoid函数激活，然后与第二子卷积层的卷积结果相乘。由于第二子卷积层不加激活函数，因此这部分的导数为0或接近0的概率比较小，当网络层数较多的时候，一定程度上能降低梯度消失的概率。每一层门卷积层的输出(Y)和输入(X)的关系可以通过以下公式表示：

Y＝activation(Conv2d₁(X)×σ(Conv2d₂(X)))

图7是根据本申请实施例的一种可选的生成器结构示意图，如图7所示，在一可选示例中，输入为音频特征和人脸特征拼接而成，shape为256*256*4，输出为512*512*3。其中膨胀门卷积的卷积率分别为2、4、8、16。在其他示例中，门卷积层的数量和膨胀门卷积层的数量，以及卷积率可以根据实际需求进行设置，本申请实施例对此不做限定。使用膨胀门卷积层，可以扩大模型的感受野，高层使用了膨胀门卷积层，在不增加参数的情况下可以捕获更大的区域和更多的特征。

图7所示的生成器工作流程如下：

1)第一层为输入层，输入数据为音频特征、剪切人脸、mask拼接而成，大小为256*256*4。

2)第二层为门卷积层，具体的参数格式为：[输入通道，输出通道，卷积核大小，stride大小，padding数目，膨胀卷积率]，以下层参数格式类似。本层参数为[3，64，4，2，1，1]，输出的特征图featuremap大小为128*128，本层主要是快速缩小图片，增大通道数量，加快学习速度。

3)第三层为门卷积层，参数为[64，256，3，1，1，1]，输出feature map为128*128，增大了通道数量，进一步学习图片特征。

4)第四层为门卷积层，参数为[256，256，4，2，1，1]，输出feature map为64*64，通道数保持不变，卷积核增大，促进通道间信息融合。

5)第五层为门卷积层，参数为[256，256，3，1，1，1]，网络进一步加深。

6)第六层为膨胀门卷积层，参数为[256,256,3,1,2,2]，膨胀率为2，保持输出featuremap不变的情况下，增大了感受野。

7)第七层为膨胀门卷积层，参数为[256,256,3,1,4,4]，膨胀率为4，保持输出featuremap不变的情况下，增大了感受野。

8)第八层为膨胀门卷积层，参数为[256,256,3,1,8,8]，膨胀率为8，保持输出featuremap不变的情况下，增大了感受野。

9)第九层为膨胀门卷积层，参数为[256,256,3,1,16,16]，膨胀率为16，保持输出featuremap不变的情况下，增大了感受野。

10)第十层为门卷积层，参数为[256,256,3,1,1,1]，输出大小不变，将之前不同感受野信息进一步融合。

11)第十一层为门卷积层，参数为[256,256,3,1,1,1]，输出大小不变，进一步信息融合。

12)第十二层为转置门卷积层，从该层开始为解码器，参数为[256,128,3,1,1,1]，输出大小为128*128，压缩输出通道数量，将更多的信息融合到featuremap上。

13)第十三层为转置门卷积，参数为[128,64,3,1,1,1]，输出大小为256*256，进一步减小输出通道。

14)第十四层为转置门卷积，参数为[64,3,7,1,3,1]，输出大小为512*512*3，输出通道为3，即输出生成的图像。

需要说明的是，在神经网络模型训练过程中新增了嘴部L1 loss(相当于前述“嘴部损失”)和全局判别loss(相当于前述“全局损失”)。

具体而言，增加嘴部L1 loss主要是为了使口型能很好的表达不同的音频，经过对比加入L1 loss的生成模型在不同的TTS上都取得了不错的效果。

原始判别器使用了patchgan discriminator，该判别器的思想是将输入映射为N*N的矩阵，矩阵每个位置对应了原图的一块小的区域，代表了这块patch为真样本的概率，最终求均值。经过计算，矩阵每个位置对应的感受野为70*70，因此，该判别器缺少从总体上评价真伪的指标，因此，引入了全局loss，全局loss将输入映射为一个实数，即输入样本为真样本的概率。

加入嘴部L1 loss后可以使训练更加稳定，尤其当数据比较多的时候，需要训练更多轮次才能在清晰度和口型上达到比较好的效果，此种方法有比较大的优势。而没有加的，训练到13轮左右，其中的G_GAN loss会逐渐升高，最终导致训练跑偏。

效果对比(音唇同步性F1-score)：

	10帧	100帧
			优化前	85％	91％
优化后	90％	94％

备注：滑动窗口每10帧和每100帧情况下的平均F1-score，值越大代表越好。

在神经网络模型训练完成后，实际使用时，输入的是各种TTS以及和训练人物的人脸特征一致的静默模板，目的是使生成的视频口型能保持跟TTS一致且口型张合正确，即符合此人的说话习惯。这部分主要利用生成器，预处理方式保持跟训练时一致，包括TTS音频特征提取和静默模板人脸裁剪及设置mask，最后将生成的每一帧以及对应的音频合并成视频。静默模板可以是包含音频的视频数据，也可以是不包含音频的视频画面，只是输入生成器后不会使用该视频中自带的音频数据，会直接过滤为静默模式。

本申请实施例提供的目标视频的输出方法以及神经网络模型的训练过程，可以使2d数字人通过真实人物的历史语料，提取此人的音频特征和人脸数据，训练一个模型，这个模型不仅形象上逼近真实人物，并且说话方式、口型都接近原始口型，相当于这个人物的克隆。结合大屏多媒体终端或者移动端设备，可以应用在各种视频场景中，比如视频播报、场馆导游讲解等。

本申请实施例提供的神经网络模型的训练方法，从训练过程来看，使用门卷积层的生成器，收敛速度很快，说明，学习特征的能力非常强；鲁棒性强，针对不同人脸特征，比如带胡子、眼镜都能很好的支持；对不同地域人种也能很好的学习；效果好，生成的数字人画面有接近训练数据的清晰度。加入L1 loss后，训练更加稳定，针对不同测试音频，口型基本正确。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，根据本申请的另一实施例，还提供了一种目标视频的输出装置，用于实现上述任一项方法实施例中所述的方法，已经描述的内容此处不再赘述，所述装置包括：

获取模块802，配置为获取第一音频和包含目标人物的第一视频，其中，第一音频为根据文本转换成的语音数据；

提取模块804，配置为提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；

输入模块806，配置为将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，神经网络模型为使用样本数据训练的生成对抗网络模型，样本数据包括样本视频数据，样本视频数据中包含多个人物对象，神经网络模型包括多个门卷积层和多个膨胀门卷积层；

输出模块808，配置为通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。

关于目标视频的输出装置的具体限定可以参见上文中对于目标视频的输出方法的限定，在此不再赘述。上述目标视频的输出装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本申请实施例的又一个方面，还提供了一种用于实施上述目标视频的输出方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图9所示，该电子装置包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，获取第一音频和包含目标人物的第一视频，其中，第一音频为根据文本转换成的语音数据；

步骤S2，提取第一音频的音频特征和第一视频中目标人物的人脸特征，其中，目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；

步骤S3，将第一音频的音频特征与目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，神经网络模型为使用样本数据训练的生成对抗网络模型，样本数据包括样本视频数据，样本视频数据中包含多个人物对象，神经网络模型包括多个门卷积层和多个膨胀门卷积层；

步骤S4，通过神经网络模型输出包含目标虚拟人物的目标视频，其中，目标虚拟人物与目标人物对应，目标虚拟人物的口型与第一音频对应。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本申请实施例中的目标视频的输出方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标视频的输出方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于储存语音分离方法的程序步骤。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器908，用于显示目标视频的输出过程；和连接总线910，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种目标视频的输出方法，其特征在于，包括：

获取第一音频和包含目标人物的第一视频，其中，所述第一音频为根据文本转换成的语音数据；

提取所述第一音频的音频特征和所述第一视频中所述目标人物的人脸特征，其中，所述目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；

将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，所述神经网络模型为使用样本数据训练的生成对抗网络模型，所述样本数据包括样本视频数据，所述样本视频数据中包含多个人物对象，所述神经网络模型包括多个门卷积层和多个膨胀门卷积层；

通过所述神经网络模型输出包含目标虚拟人物的目标视频，其中，所述目标虚拟人物与所述目标人物对应，所述目标虚拟人物的口型与所述第一音频对应。

2.根据权利要求1所述的方法，其特征在于，所述提取所述第一视频中所述目标人物的人脸特征包括：

检测所述第一视频中所述目标人物的人脸图像，并将所述人脸图像进行剪裁；

在剪裁后的所述人脸图像的嘴部周边区域设置遮盖面罩，其中，所述嘴部周边区域包括眼睛以下以及下巴以上的区域；

提取设置遮盖面罩后的所述人脸图像的局部特征，得到所述目标人物的人脸特征。

3.根据权利要求1所述的方法，其特征在于，在将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型之前，所述方法还包括：

对所述样本视频数据进行预处理，得到样本音频特征和样本人脸特征；

使用所述样本音频特征和所述样本人脸特征训练所述神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述样本数据进行预处理包括：

提取所述样本视频数据中的样本音频数据；

提取所述样本音频数据的梅尔声学特征；

过滤掉所述梅尔声学特征中的静音数据，得到过滤后的所述样本音频特征；

根据设置好的滑动窗口提取所述样本视频数据的每一帧图像对应的所述样本音频特征。

5.根据权利要求3所述的方法，其特征在于，所述对所述样本数据进行预处理包括：

对所述样本视频数据的每一帧图像进行人脸检测；

对检测到的人脸图像进行裁剪后，在所述人脸图像的嘴部周边区域设置遮盖面罩，其中，所述嘴部周边区域包括眼睛以下以及下巴以上的区域；

对设置遮盖面罩后的所述人脸图像进行归一化处理，得到所述样本人脸特征。

6.根据权利要求3所述的方法，其特征在于，所述使用所述样本音频特征和所述样本人脸特征训练所述神经网络模型，包括：

将所述样本音频特征和所述样本人脸特征拼接后输入所述神经网络模型的生成器，其中，所述生成器包括n层门卷积层和m层膨胀门卷积层，n和m为大于1的整数，每一层所述门卷积层包括第一子卷积层和第二子卷积层，每一层所述膨胀门卷积层的特征图不变；

通过所述生成器输出预估视频帧图像，其中，所述预估视频帧包括虚拟人物的人脸图像；

通过判别器确定所述预估视频帧图像的嘴部损失和全局损失，根据所述嘴部损失和所述全局损失调整所述神经网络模型的训练参数，其中，所述嘴部损失用于表征所述预估视频帧图像中口型图像与真实值之间的差值，所述全局损失用于表征所述预估视频帧图像的整体图像与真实值之间的差值。

7.根据权利要求6所述的方法，其特征在于，所述通过所述生成器输出预估视频帧，包括：

每一层所述门卷积层的输入分别与所述第一子卷积层和所述第二子卷积层进行卷积，得到第一子卷积值和第二子卷积值；

将所述第一子卷积值通过激活函数激活后，与所述第二子卷积值相乘，得到当前门卷积层的输出。

8.一种目标视频的输出装置，其特征在于，包括：

获取模块，配置为获取第一音频和包含目标人物的第一视频，其中，所述第一音频为根据文本转换成的语音数据；

提取模块，配置为提取所述第一音频的音频特征和所述第一视频中所述目标人物的人脸特征，其中，所述目标人物的人脸特征为遮盖住嘴部周边区域的局部特征；

输入模块，配置为将所述第一音频的音频特征与所述目标人物的人脸特征拼接后输入训练好的神经网络模型，其中，所述神经网络模型为使用样本数据训练的生成对抗网络模型，所述样本数据包括样本视频数据，所述样本视频数据中包含多个人物对象，所述神经网络模型包括多个门卷积层和多个膨胀门卷积层；

输出模块，配置为通过所述神经网络模型输出包含目标虚拟人物的目标视频，其中，所述目标虚拟人物与所述目标人物对应，所述目标虚拟人物的口型与所述第一音频对应。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。