CN116385629A

CN116385629A - 数字人视频的生成方法、装置、电子设备和存储介质

Info

Publication number: CN116385629A
Application number: CN202310132741.4A
Authority: CN
Inventors: 程平; 吴松城
Original assignee: Xiamen Black Mirror Technology Co ltd
Current assignee: Xiamen Black Mirror Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-07-04

Abstract

本发明公开了一种数字人视频的生成方法、装置、电子设备和存储介质，该方法包括：根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；对各源视频帧进行3D人脸建模，并将得到的多个第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；按各音素的时序对各第二3D人脸模型和基于各音素生成的各第三3D人脸模型进行融合，并渲染出人脸图像序列；按时序将人脸图像序列和各源视频帧进行融合，并将融合图像中的预设区域置为黑色，得到多个渲染帧；将各渲染帧输入图像转换模型，并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理，得到数字人视频，从而提高了数字人视频和真实说话视频之间人脸的一致性。

Description

数字人视频的生成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种数字人视频的生成方法、装置、电子设备和存储介质。

背景技术

根据一段音频和目标人的真实说话视频，生成与该音频同步的目标人说话的数字人视频。这种音频驱动的数字人视频有着广泛的应用，例如，可以应用在数字虚拟人，游戏/动漫角色配音嘴形同步化，音唇同步的语音翻译等场景。

现有技术中，在进行上述数字人视频生成时，需要训练音频到表情参数和姿态参数的映射模型，将音频输入该映射模型得到表情参数和姿态参数，然后将该表情参数和姿态参数替换与源视频帧对应的3D人脸模型的相应参数，再经渲染得到人脸图像，将该人脸图像和与源视频帧融合，得到粗糙的视频帧，继续将粗糙的视频帧按源视频帧优化，得到最终的数字人视频。

然而，由于现有技术直接将人脸图像和与源视频帧融合，在人脸图像中面部形状与源视频帧中面部形状差距很大时，会导致下巴等部位与颈部区域不协调，难以渲染出高保真的人脸效果。

因此，如何提高数字人视频和真实说话视频之间人脸的一致性，是目前有待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例公开了一种数字人视频的生成方法、装置、电子设备和存储介质，用以提高数字人视频和真实说话视频之间人脸的一致性。

第一方面，提供一种数字人视频的生成方法，所述方法包括：根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***；将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

第二方面，提供一种数字人视频的生成装置，所述装置包括：获取模块，用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；建模模块，用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；第一融合模块，用于根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；第二融合模块，用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***；合成模块，用于将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。

通过应用以上技术方案，根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；基于预设3D人脸重建算法对各源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；根据目标音频中各音素生成多个第三3D人脸模型，按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；按时序将人脸图像序列和各源视频帧进行融合，得到多个融合图像，并将融合图像中的预设区域置为黑色，得到多个渲染帧，其中，预设区域沿人脸图像的轮廓线设置在人脸图像的***；将各渲染帧输入图像转换模型，并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理，得到与目标人对应的数字人视频，其中，图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。通过对人脸图像***预设区域的纹理特征进行学习，提高了图像转换模型的泛化能力，进而提高了数字人视频和真实说话视频之间人脸的一致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种数字人视频的生成方法的流程示意图；

图2示出了本发明实施例中将各第二3D人脸模型和各第三3D人脸模型融合及渲染的流程示意图；

图3示出了本发明另一实施例提出的一种数字人视频的生成方法的原理示意图；

图4示出了本发明实施例提出的一种数字人视频的生成装置的结构示意图；

图5示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

下面结合图1-图2来描述根据本申请示例性实施方式的数字人视频的生成方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请实施例提供一种数字人视频的生成方法，如图1所示，该方法包括以下步骤：

步骤S101，根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧。

本实施例中，目标音频可以是预先录制的语音音频，也可以是自然人说话的自然语音音频，还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。相应的，可通过接收用户输入的一段预先录制的语音音频，并将其作为目标音频；或者对自然人说话的自然语音音频进行接收和存储并作为目标音频；或者接收用户输入的文本信息，基于预设语音合成算法将该文本信息进行语音合成后得到目标音频。

目标人的真实说话视频可以是用户输入的一段视频，也可以是实时录制一段的目标人说话时的视频。为了获得较好的效果，在本申请具体的应用场景中，目标人的真实说话视频的时长应当不小于预设时长，如2分钟。

根据目标音频的时长可以确定待生成的数字人视频的帧数，根据该帧数从目标人的真实说话视频中获取多个源视频帧。为了获得较好的效果，在本申请具体的应用场景中，各源视频帧中均包括完整的人脸图像。

可选的，目标音频的格式可以为包括mp3、wma、aac、ogg、mpc、flac、ape等格式中的任一种，目标人的真实说话视频的格式可以为包括wmv、asf、asx、rm、rmvb、mpg、mpeg、mpe、3gp、mov、mp4、m4v、avi、dat、mkv、flv、vob等格式中的任一种，本领域技术人员可根据实际需要灵活选用。

步骤S102，基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型。

本实施例中，可以先基于人脸检测技术从源视频帧中获取人脸区域，然后基于预设3D人脸重建算法对各人脸区域进行3D人脸建模，得到多个第一3D人脸模型。再将第一3D人脸模型的表情参数置零，以去除第一3D人脸模型的表情及口型，生成多个第二3D人脸模型。

可选的，预设3D人脸重建算法可以为3DMM(3D Morphable Face Model，人脸3D形变统计模型)，3DMM是一种比较基础的三维人脸统计模型，可基于一组人脸形状和纹理的统计模型来表示任意一张人脸。每个第一3D人脸模型表征了一组3DMM参数，该3DMM参数可包括形状参数、纹理参数、亮度参数、表情参数和姿态参数等。预设3D人脸重建算法还可以是DECA(Detailed Expression Capture and Animation，详细表情捕捉和动画)，DECA能够从由特定人的细节参数和通用表情参数组成的低维潜在表示中稳健地生成UV位移map，而回归器经过训练，能够从单张图片中预测细节、形状、反照率、表情、姿势和照明参数。本领域技术人员还可根据实际需要采用其他类型的预设3D人脸重建算法进行人脸重建，这并不影响本申请的保护范围。

步骤S103，根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列。

本实施例中，音素是构成音节的最小语音单位，任意一段音频都是有限种音素组合而成。多个第三3D人脸模型由目标音频中各音素生成，因此，第三3D人脸模型表征了各音素的发音特征。按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合，再经渲染后，得到由多个人脸图像组成的人脸图像序列。

在本申请一些实施例中，所述按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列，如图2所示，包括以下步骤：

步骤S1031，按所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合，得到多个第四3D人脸模型。

本实施例中，按时序将各第二3D人脸模型和各第三3D人脸模型依次进行融合，得到多个按时序排列的第四3D人脸模型。可以理解的是，将各第二3D人脸模型和各第三3D人脸模型融合是指将对应的模型参数进行融合，具体的融合过程对于本领域技术人员是显而易见的，在此不再赘述。

步骤S1032，按预设帧数对各所述音素的发音起始点和发音结束点进行扩展，以在每两个相邻音素之间形成重叠区间。

本实施例中，为了实现更加符合正常人说话的口型动作效果，需要对各音素的发音进行扩展，具体的，按预设帧数对各音素的发音起始点和发音结束点进行扩展，从而在每两个相邻音素之间形成重叠区间，其中，预设帧数可以是一帧或多帧。

举例来说，音素“b”在一段语音中持续的范围为第n到第n+5帧，音素“o”在语音中的持续范围为第n+6至n+12帧，则可以将音素“b”的范围设为第n-1到第n+6帧，将音素“o”的范围设为第n+5到第n+13帧，这样保证了两个音素在n+5和n+6这两帧实现重合，形成重叠区间。

步骤S1033，按照预设权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合，并得到多个第五3D人脸模型。

本实施例中，该预设权重参数由各音素的发音时长确定。每个重叠区间对应相邻的两个音素，每个音素对应一种第四3D人脸模型，因此每个重叠区间对应两种第四3D人脸模型，按预设权重参数对两种第四3D人脸模型的参数进行均值加权融合后得到一个第五3D人脸模型，该第五3D人脸模型可作为两个相邻音素的过渡，多个重叠区间可对应得到多个第五3D人脸模型。

步骤S1034，按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间，并对各所述第五3D人脸模型和各所述第四3D人脸模型渲染，得到所述人脸图像序列。

本实施例中，通过在各相邻音素对应的第四3D人脸模型之间***作为过渡的第五3D人脸模型，确保了音素之间良好的衔接，提高了口型变化的流畅度。

在本申请一些实施例中，在按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间之后，所述方法还包括：

基于预设滤波算法对由所述第五3D人脸模型和所述第四3D人脸模型组成的模型序列进行滤波处理。

本实施例中，通过预设滤波算法对上述模型序列进行滤波处理，可以使该模型序列更加符合正常说话的口型连贯性和整体性。本领域技术人员可根据实际需要采用不同的预设滤波算法，这并不影响本申请的保护范围。

在本申请一些实施例中，所述基于预设滤波算法对由各所述第五3D人脸模型和各所述第四3D人脸模型组成的模型序列进行滤波处理，包括：

对所述模型序列中各3D人脸模型进行多项式曲线拟合，以使所述模型序列中每个3D人脸模型与相邻3D人脸模型之间表情参数的变化量满足预设条件。

本实施例中，对模型序列中的各第五3D人脸模型和各第四3D人脸模型进行多项式曲线拟合，重构每一帧的表情参数，使每个3D人脸模型与相邻3D人脸模型之间的表情参数的变化量满足预设条件，预设条件可以为变化量小于预设变化量，从而可滤除口型变化幅度较大的抖动帧，避免所生成的数字人视频中出现口型突然变化的情况。

可选的，除了进行多项式曲线拟合外，还可对各第五3D人脸模型的参数和各第四3D人脸模型的参数在时间窗口上进行中值滤波或高斯滤波等，从而过滤掉一些异常数据。

步骤S104，按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***。

本实施例中，由于人脸图像序列中各人脸图像中不包含头发和背景信息，需要将各人脸图像与各源视频帧进行融合，得到多个融合图像。由于渲染出的各人脸图像中面部形状可能与源视频帧中真实人脸的面部形状差别很大，直接融合会导致下巴等部位与颈部区域不协调，因此，本实施例中还将融合图像中的预设区域置为黑色，该预设区域沿融合图像中人脸图像的轮廓线设置在人脸图像的***。通过将融合图像中人脸图像***的预设区域置为黑色，可以在后续对预设生成对抗模型进行训练的过程中，在对该人脸图像的纹理到真实人脸纹理的转化进行学习的同时，还对该人脸图像边界以外的小区域的纹理特征进行学习，从而提高了图像转换模型的泛化能力，进而使图像转换模型输出的目标视频帧序列更加符合真实人脸。

在本申请一些实施例中，在将所述融合图像中的预设区域置为黑色，得到多个渲染帧之前，所述方法还包括：

根据所述融合图像中所述人脸图像的坐标数据确定所述轮廓线；

在所述融合图像中所述人脸图像的***确定***轮廓线，所述***轮廓线与所述轮廓线之间的距离为预设距离；

根据所述轮廓线和所述***轮廓线确定所述预设区域。

本实施例中，通过轮廓线和***轮廓线确定预设区域，其中，轮廓线由融合图像中人脸图像的坐标数据确定，在轮廓线的基础上向人脸图像的***延伸预设距离，可确定***轮廓线，从而可准确的在融合图像中确定预设区域。

可选的，轮廓线和***轮廓线之间的距离也可以不是固定的预设距离，可在不同位置产生一定的变化，只要轮廓线和***轮廓线之间的最小距离不小于该预设距离即可。

步骤S105，将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

本实施例中，为了使各所述渲染帧与源视频帧中的图像更加接近，需要进一步进行优化，预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练，得到图像转换模型。在得到各渲染帧后，将各渲染帧输入图像转换模型，图像转换模型输出优化后的目标视频帧序列，再将目标音频和目标视频帧序列进行合成处理，最后可生成口型精准，无抖动的目标人的数字人视频。

可选的，预设生成对抗模型可以为Memory Gan模型，该Memory Gan模型包括生成器、判别器和记忆网络。

可选的，将目标音频和目标视频帧序列进行合成处理可通过FFmpeg(FastForward Mpeg)编码实现。

在本申请一些实施例中，在根据所述目标音频中各音素生成多个第三3D人脸模型之前，所述方法还包括：

根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库；

根据各所述第一3D人脸模型的口型从预设音素库中筛选出3D人脸模型集合；

其中，各所述第三3D人脸模型是根据各所述音素从所述3D人脸模型集合中获取的。

本实施例中，不同音素对应不同的口型，可根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库，因此，预设音素库包括了不同口型的3D人脸模型，预设音素库中每种3D人脸模型可对应一种音素。根据各第一3D人脸模型的口型从预设音素库中筛选出一组3D人脸模型作为3D人脸模型集合，由于目标人的真实说话视频满足一定长度，该3D人脸模型集合可涵盖多种不同音素对应的3D人脸模型。再根据各音素从3D人脸模型集合中筛选与各音素对应的3D人脸模型，获取各第三3D人脸模型。由于可基于第一3D人脸模型的口型直接从预设音素库中获取各第三3D人脸模型，避免了因采用映射模型造成的大规模数据训练，可在提高效率的同时，提高音频和口型的一致性。

基于预设语音识别算法对所述目标音频进行语音识别，并根据语音识别结果获取文本数据和与所述文本数据对应的时间戳信息；

根据所述文本数据的拼音信息和所述时间戳信息得到各所述音素。

本实施例中，基于预设语音识别算法对目标音频进行语音识别，可以获取对应的文本数据和与文本数据对齐的时间戳信息，然后将文本数据转换为对应的拼音信息，基于该拼音信息和时间戳信息可得到各音素，从而更加准确的获取各音素。

可选的，预设语音识别算法可以为包括基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等算法的任一种。

可以理解的是，若目标音频为除汉语以外的其他语言的音频时，由于不存在拼音信息，可根据与所述文本数据对应的单词发音信息和所述时间戳信息获取各音素。

通过应用以上技术方案，根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；基于预设3D人脸重建算法对各源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；根据目标音频中各音素生成多个第三3D人脸模型，按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；按时序将人脸图像序列和各源视频帧进行融合，得到多个融合图像，并将融合图像中的预设区域置为黑色，得到多个渲染帧，其中，预设区域沿人脸图像的轮廓线设置在人脸图像的***；将各渲染帧输入图像转换模型，并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理，得到与目标人对应的数字人视频，其中，图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的，通过对人脸图像***预设区域的纹理特征进行学习，提高了图像转换模型的泛化能力，进而提高了数字人视频和真实说话视频之间人脸的一致性。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种数字人视频的生成方法，如图3所示，包括以下过程：

步骤1，获取目标音频和目标人的真实说话视频，根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列，同时根据目标音频中各音素的时序生成音素序列；

步骤2，基于3DMM算法对各源视频帧中的人脸区域进行3D人脸建模，根据建立的3D人脸模型(即第一3D人脸模型)从预设音素库中筛选出3D人脸模型集合；

步骤3、根据各音素的发音时长确定各音素的预设权重参数；

步骤4、根据音素序列从预设3D人脸模型集合中获取基于音素的3D人脸模型(即第三3D人脸模型)；

步骤5、将源视频帧的3D人脸模型参数中的表情参数置零，得到无表情的3D人脸模型(即第二3D人脸模型)；

步骤6、将步骤4中的基于音素的3D人脸模型和步骤5中的源视频帧的无表情3D人脸模型按照时序和各权重参数进行加权融合，得到新的3D人脸模型(即第四3D人脸模型)；

步骤7、将新的3D人脸模型经过渲染并与源视频帧融合，得到融合图像，并将融合图像中的预设区域置为黑色，得到多个渲染帧；

步骤8、将步骤7的渲染帧输入训练好的Memory Gan模型，就可以得到优化后视频帧；

步骤9、将优化后视频帧与目标音频通过FFmpeg编码合成处理得到与目标人对应的数字人视频。

通过应用以上技术方案，通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型，可以在不考虑大规模数据训练的前提下，生成比较精准的口型效果，并通过对人脸图像***预设区域的纹理特征进行学习，提高了图像转换模型的泛化能力，进而提高了数字人视频和真实说话视频之间人脸的一致性。

本申请实施例还提出了一种数字人视频的生成装置，如图4所示，所述装置包括：

获取模块401，用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；

建模模块402，用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；

第一融合模块403，用于根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；

第二融合模块404，用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***；

合成模块405，用于将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

在具体的应用场景中，所述装置还包括确定模块，用于：

根据所述轮廓线和所述***轮廓线确定所述预设区域。

在具体的应用场景中，所述装置还包括筛选模块，用于：

在具体的应用场景中，第一融合模块403，具体用于：

按所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合，得到多个第四3D人脸模型；

按预设帧数对各所述音素的发音起始点和发音结束点进行扩展，以在每两个相邻音素之间形成重叠区间；

按照预设权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合，并得到多个第五3D人脸模型；

按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间，并对各所述第五3D人脸模型和各所述第四3D人脸模型渲染，得到所述人脸图像序列；

其中，所述预设权重参数是根据各所述音素的发音时长确定的。

在具体的应用场景中，所述装置还包括滤波模块，用于：

在具体的应用场景中，所述滤波模块，具体用于：

在具体的应用场景中，识别模块，用于：

通过应用以上技术方案，数字人视频的生成装置包括：获取模块，用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；建模模块，用于基于预设3D人脸重建算法对各源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；第一融合模块，用于根据目标音频中各音素生成多个第三3D人脸模型，按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；第二融合模块，用于按时序将人脸图像序列和各源视频帧进行融合，得到多个融合图像，并将融合图像中的预设区域置为黑色，得到多个渲染帧，其中，预设区域沿人脸图像的轮廓线设置在人脸图像的***；合成模块，用于将各渲染帧输入图像转换模型，并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理，得到与目标人对应的数字人视频，其中，图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的，通过对人脸图像***预设区域的纹理特征进行学习，提高了图像转换模型的泛化能力，进而提高了数字人视频和真实说话视频之间人脸的一致性。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存储处理器的可执行指令；

处理器501，被配置为经由执行所述可执行指令来执行：

根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；

基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；

根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；

按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***；

将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数字人视频的生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的数字人视频的生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数字人视频的生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在将所述融合图像中的预设区域置为黑色，得到多个渲染帧之前，所述方法还包括：

根据所述轮廓线和所述***轮廓线确定所述预设区域。

3.如权利要求1所述的方法，其特征在于，在根据所述目标音频中各音素生成多个第三3D人脸模型之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列，包括：

5.如权利要求4所述的方法，其特征在于，在按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间之后，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述基于预设滤波算法对由各所述第五3D人脸模型和各所述第四3D人脸模型组成的模型序列进行滤波处理，包括：

7.如权利要求1所述的方法，其特征在于，在根据所述目标音频中各音素生成多个第三3D人脸模型之前，所述方法还包括：

8.一种数字人视频的生成装置，其特征在于，所述装置包括：

获取模块，用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧；

建模模块，用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模，得到多个第一3D人脸模型，并将所述第一3D人脸模型的表情参数置零，得到多个第二3D人脸模型；

第一融合模块，用于根据所述目标音频中各音素生成多个第三3D人脸模型，按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合，并渲染出由多个人脸图像组成的人脸图像序列；

第二融合模块，用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合，得到多个融合图像，并将所述融合图像中的预设区域置为黑色，得到多个渲染帧，其中，所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***；

合成模块，用于将各所述渲染帧输入图像转换模型，并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理，得到与所述目标人对应的数字人视频，其中，所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的数字人视频的生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的数字人视频的生成方法。