CN117440114A

CN117440114A - 一种虚拟形象视频生成方法、装置、设备及介质

Info

Publication number: CN117440114A
Application number: CN202311379855.5A
Authority: CN
Inventors: 徐佳宏; 黄亚康; 朱吕亮
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-23

Abstract

本申请公开了一种虚拟形象视频生成方法、装置、设备及介质，涉及视频处理技术领域，该方法包括：获取音频数据和虚拟形象模板；从音频数据中提取音频特征，根据音频特征搜索与音频特征匹配的多帧面部图像，多帧面部图像的唇形变化与音频特征匹配；将虚拟形象模板和多帧面部图像融合，获得虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

Description

一种虚拟形象视频生成方法、装置、设备及介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种虚拟形象视频生成方法、装置、设备及介质。

背景技术

虚拟形象指的是通过计算机技术，例如是人工智能(artificial intelligence，AI)技术构建的面部图像化表示。其中，图像化表示可以是图像，或者是包括多帧图像的视频。当图像化表示为视频时，虚拟形象也可以称作虚拟形象视频。面部可以是人脸、卡通形象面部或动物面部。

在许多场景中，例如是虚拟主播、电影动画或电话会议场景中，可以根据说话者的语音，为说话者生成虚拟形象视频，从而提供更好的交互体验。以虚拟主播场景为例，根据主播的语音，通过说话人脸视频生成(Talking Face Generation)技术可以为主播生成虚拟形象视频，该虚拟形象视频可以是卡通形象的面部视频，或者是公众人物的面部视频，由此可以实现类似于换脸的效果，一方面可以丰富交互体验，另一方面可以保障隐私安全。

相关技术中，每次生成说话人脸视频时，都需要大量的计算资源进行实时推理，难以满足业务需求。

发明内容

本申请提供了一种虚拟形象视频生成方法、装置、设备及介质，能够提高虚拟形象视频生成的生成效率。

本申请公开了如下技术方案：

第一方面，本申请提供了一种虚拟形象视频生成方法，该方法包括：

获取音频数据和虚拟形象模板；

从所述音频数据中提取音频特征，根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配；

将所述虚拟形象模板和所述多帧面部图像融合，获得虚拟形象视频。

可选的，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配，包括：

对所述音频特征进行聚类，得到聚类中心信息；

根据所述聚类中心信息，搜索与所述聚类中心信息匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述聚类中心信息匹配。

可选的，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，包括：

将所述音频特征输入至面部生成网络中，通过所述面部生成网络，在所述面部生成网络的音频特征集中选取与所述音频特征对应的目标音频特征后，输出与所述目标音频特征对应的多帧面部图像，所述多帧面部图像是在所述面部生成网络的视频特征集中选取出的。

可选的，所述面部生成网络通过如下方式构建得到：

获取训练数据，所述训练数据为音视频数据；

通过将所述训练数据输入至唇读同步鉴别器中，更新所述唇读同步鉴别器的参数；

根据更新后的唇读同步鉴别器，构建面部生成网络。

可选的，在所述构建面部生成网络之后，所述方法还包括：

将所述训练数据代入所述面部生成网络的总损失函数中，得到总损失函数值，所述总损失函数与生成对抗网络损失函数、面部身份损失函数、面部高清损失函数和感知损失函数相关；

根据所述总损失函数值，更新所述面部生成网络的参数。

可选的，所述方法还包括：

若所述虚拟形象视频中存在静音视频片段，则将所述静音视频片段中的虚拟形象替换为目标形象，得到处理后的虚拟形象视频，所述目标形象为将所述虚拟形象模板和目标面部图像融合的形象，所述目标面部图像为嘴巴闭合、眼睛睁开的面部图像。

可选的，所述将所述静音视频片段中的虚拟形象替换为目标形象，包括：

获取所述静音视频片段中的虚拟形象的第一关键点和目标形象的第二关键点；

通过将所述第一关键点和所述第二关键点重合，将所述虚拟形象替换为目标形象。

第二方面，本申请提供了一种虚拟形象视频生成装置，该装置包括：获取模块、搜索模块和融合模块；

所述获取模块，用于获取音频数据和虚拟形象模板；

所述搜索模块，用于从所述音频数据中提取音频特征，根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配；

所述融合模块，用于将所述虚拟形象模板和所述多帧面部图像融合，获得虚拟形象视频。

第三方面，本申请提供了一种虚拟形象视频生成设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述计算机程序时实现上述虚拟形象视频生成方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述虚拟形象视频生成方法的步骤。

相较于现有技术，本申请具有以下有益效果：

本申请提供了一种虚拟形象视频生成方法、装置、设备及介质，该方法根据音频数据的音频特征，搜索与音频特征相匹配的面部图像，并进一步将虚拟形象模板和面部图像相融合，从而生成虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚拟形象视频生成方法的流程图；

图2为本申请实施例提供的一种面部生成网络的构建方法的流程图；

图3为本申请实施例提供的一种唇读同步鉴别器的示意图；

图4为本申请实施例提供的一种虚拟形象视频生成装置的示意图。

具体实施方式

正如前文描述，相关技术中，为构建说话人脸视频等虚拟形象视频，需要首先构建结构复杂的人脸生成网络，随后将需要进行说话人脸生成的语音数据和人脸图像数据共同输入至说话人脸生成网络中，使得人脸生成网络分别提取出语音数据中的语音特征和人脸图像数据中的图像特征，从而根据语音特征和图像特征，生成一段说话人脸视频。

然而，由于上述语音数据和人脸图像数据的文件大小通常较大，并且说话人脸生成网络会使用很深层的网络提取语音数据中的语音特征和人脸图像数据中的图像特征，从而导致上述生成说话人脸视频的方法占用了大量计算资源，在实际应用中难以在获取语音数据和人脸图像数据后迅速生成说话人脸视频，导致说话人脸生成的生成效率较低。

有鉴于此，本申请提供了一种虚拟形象视频生成方法、装置、设备及介质，该方法根据音频数据的音频特征，搜索与音频特征相匹配的面部图像，并进一步将虚拟形象模板和面部图像相融合，从而生成虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，该图为本申请实施例提供的一种虚拟形象视频生成方法的流程图。该方法包括：

S101：获取音频数据和虚拟形象模板。

虚拟形象模板可以是人物形象、动物形象或卡通形象等的视频片段，具有连贯的动作和表情。示例性的，若用户希望在虚拟主播的场景下生成虚拟形象视频，那么对应的虚拟形象模板可以是包括衣着整洁、发型得体的半身人像的视频片段。

为便于理解，后续将虚拟形象视频生成以说话人脸视频生成为例进行说明，需要说明的是，对于具体的音频数据和虚拟形象模板，本申请不做限定。

S102：从音频数据中提取音频特征。

在获取到音频数据后，可以从音频数据中提取音频特征。示例性的，该音频特征可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉***。因此，将梅尔频率倒谱系数作为音频特征，可以提升后续音频特征搜索的准确性。

S103：根据音频特征，搜索与音频特征匹配的多帧面部图像。

在获取到音频特征后，即可搜索与音频特征匹配的面部图像。在说话人脸视频生成中，若面部图像的唇形变化与音频特征匹配即为匹配成功。

在一些具体的实现方式中，可以先利用Kmeans聚类算法对音频特征进行聚类，得到聚类中心信息。随后，搜索与聚类中心信息匹配的面部图像，若面部图像的唇形变化与聚类中心信息匹配即为匹配成功。

示例性的，可以对音频特征进行聚类，将表征为开口音的音频特征聚类为第一类，得到第一聚类信息，将表征为闭口音的音频特征聚类为第二类，得到第二聚类信息。随后，搜索与第一聚类信息对应的第一面部图像，第一面部图像为嘴巴张开的图像，搜索与第二聚类信息对应的第二面部图像，第二面部图像为嘴巴闭合的图像。需要说明的是，对于具体的音频特征类别，本申请不做限定。

在一些具体的实现方式中，若音频特征表征音频数据为静音数据，那么可以直接获取目标面部图像，而无需再搜索音频特征对应的面部图像。该目标面部图像为嘴巴闭合、眼睛睁开的面部图像。随后，即可直接执行S104步骤，即将虚拟形象模板和目标面部图像相融合，得到虚拟形象视频。

在一些具体的实现方式中，上述搜索与音频特征匹配的面部图像的步骤可以是在面部生成网络中执行的。也就是说，可以将音频特征输入至面部生成网络，通过该面部生成网络输出与音频特征匹配的多帧面部图像。

参见图2，该图为本申请实施例提供的一种面部生成网络的构建方法的流程图。该方法包括：

A21：获取训练数据。

训练数据包括视频数据和音频数据，指的是用于训练面部生成网络中的唇读同步鉴别器的数据。在一些具体的实现方式中，获取训练数据的步骤可以具体如下：

第一步，首先通过目标视频网站任意下载音视频数据。

第二步，通过面部识别技术(Face Recognition Technology，FRT)将获取到的音视频数据进行切割和筛选，只保留含有说话人脸的音视频数据。

第三步，将含有说话人脸的音视频数据再进行切割，得到多个音视频子数据。需要说明的是，每个音视频子数据的时长可以为4s(秒)、5s等，对于具体的每个音视频子数据的时长，本申请不做限定。

第四步，将多个音视频子数据的视频帧率统一为目标帧率，以防止通过该音视频子数据最终生成的说话人脸视频出现频闪现象。需要说明的是，该目标帧率可以是25FPS(每秒帧数)，对于具体的目标帧率的大小，本申请不做限定。

第五步，将处理后的多个音视频子数据进行解码后，将解码后的视频数据和音频数据作为训练数据，保存至指定目录。

可以理解的是，当指定目录中包含预设数量个训练数据，或，指定目录中所有训练数据的时长大于预设时长时，即可停止训练数据的获取。需要说明的是，上述预设数量可以是2000、3000个，上述预设时长可以是40小时等，对于具体的预设数量和预设时长，本申请不做限定。

A22：根据训练数据，训练唇读同步鉴别器。

唇读同步鉴别器指的是使音频数据的特征分布更趋向于嘴巴形状的分布的鉴别器。参见图3，该图为本申请实施例提供的一种唇读同步鉴别器的示意图。如图所示，唇读同步鉴别器包括语音卷积模块(图3右侧)和图像卷积模块(图3左侧)。

在获取到训练数据后，即可根据训练数据训练唇读同步鉴别器。示例性的，上述训练唇读同步鉴别器的方法可以具体如下：

第一步，通过训练数据提取语音特征向量和面部特征向量。其中，语音特征向量指的是训练数据的音频的梅尔频率倒谱系数对应的向量，面部特征向量指的是训练数据的视频中的下半部分面部对应的面部特征向量。

第二步，向唇读同步鉴别器的语音卷积模块输入语音特征向量，向唇读同步鉴别器的图像卷积模块输入面部特征向量，使得唇读同步鉴别器对语音特征向量和面部特征向量执行修正余弦相似度操作，也就是进行余弦相似度计算，并对计算出的余弦相似度值和目标值计算二分类交叉熵。

第三步，判断进行余弦相似度计算的计算次数是否达到预设迭代次数，或，二分类交叉熵的值是否收敛。若进行余弦相似度计算的计算次数达到预设迭代次数，或，二分类交叉熵的值收敛的时候，即可停止训练，得到训练后的唇读同步鉴别器。

A23：根据训练后的唇读同步鉴别器，构建面部生成网络。

在训练唇读同步鉴别器后，即可根据训练后的唇读同步鉴别器，构建面部生成网络。

在一些具体的实现方式中，该面部生成网络可以包括音频编码模块、面部编码模块、面部解码模块、面部高清鉴别器、面部身份鉴别器和训练后的唇读同步鉴别器。

其中，上述音频编码模块、面部编码模块、面部解码模块均为包括多个级联的卷积层的网络架构，卷积核大小可以根据实际需要设计，采用基于U-net的思想的现有技术编码解码架构即可。示例性的，音频编码模块、面部编码模块、面部解码模块的基本组成可以是由Conv2d(二维卷积)、Conv2dTranspose(反卷积)，ReLU(激活函数)、Linear(全连接)、BatchNorm2d(二维标准化)。

可以理解的是，可以利用面部恢复预训练模型(GAN Prior Embedded Network，GPEN)构建面部高清鉴别器。面部高清鉴别器是使生成的面部分布更趋向于高清的面部分布的鉴别器。可以利用面部识别模型(ArcFace)构建面部身份鉴别器。面部身份判别器可以很好的对说话人的身份及风格加以约束，说生成的面部分布更近于真实面部的分布。

A24：根据训练数据，训练面部生成网络。

在构建面部生成网络完毕后，需要基于A21步骤获取的训练数据，继续训练面部生成网络。

在一些具体的实现方式中，可以将训练数据输入至面部生成网络的面部身份判别器中，以获取第一输出数据。该训练数据中包括了真实面部，第一输出数据中包括了生成面部。具体的，可以通过面部身份损失函数最小化生成面部的分布和真实面部的分布之间的距离，从而训练出更精确的面部生成网络。示例性的，上述面部身份损失函数的公式可以具体如下公式(1)所示：

其中，为面部身份损失函数，N为输入到面部生成网络的图片的总帧数，i表示第i帧图片，arcface为面部识别模型，L_G为真实面部的信息，L_g为生成面部的信息，||||₁为一范数。

在一些具体的实现方式中，还可以将训练数据输入至面部生成网络的面部高清判别器中，以获取第二输出数据。该训练数据中包括了真实面部，第二输出数据中包括了生成面部。具体的，可以通过面部高清损失函数最小化生成面部的分布和真实面部的分布之间的距离，从而训练出更精确的面部生成网络。示例性的，上述面部高清损失函数的公式可以具体如下公式(2)所示：

其中，为面部高清损失函数，N为输入到面部生成网络的图片的总帧数，i表示第i帧图片，GPEN为面部恢复预训练模型，L_G为真实面部的信息，L_g为生成面部的信息，||||₁为一范数。

在一些具体的实现方式中，还可以通过生成对抗网络损失函数、面部身份损失函数、面部高清损失函数、重建损失函数、感知损失函数和唇读同步损失函数，构建总损失函数，基于该总损失函数对面部生成网络进行训练优化，得到更新后的面部生成网络。具体的，上述总损失函数可以可以具体如下公式(3)所示：

其中，l_total为总损失函数，l_GAN为生成对抗网络损失函数，为面部身份损失函数、λ_a为第一平衡因子、l_vgg为感知损失函数、λ_v为第二平衡因子、/>为面部高清损失函数、λ_g为第三平衡因子，l_r为重建损失函数、λ_r为第四平衡因子、l_sync为唇读同步损失函数、λ_s为第五平衡因子。

具体的，第一平衡因子λ_a、第二平衡因子λ_v、第三平衡因子λ_g、第四平衡因子λ_r和第五平衡因子λ_s的预设值均为1，均可以根据实际情况调整预设值。对于具体的五个平衡因子的取值，本申请不做限定。

示例性的，上述生成对抗网络损失函数可以具体如下公式(4)所示：

其中，l_GAN为生成对抗网络损失函数，N_D为多尺度判别器的层数，E_x为数学期望，D_n(x)为判别器网络函数，G(x)为生成器网络函数，L_G为真实面部的信息，L_g为生成面部的信息。

示例性的，上述重建损失函数的公式可以具体如下公式(5)所示：

其中，l_r为重建损失函数，N为输入到面部生成网络的图片的总帧数，i表示第i帧图片，LG为真实面部的信息，Lg为生成面部的信息，||||1为一范数。

示例性的，上述感知损失函数(Perception Loss)的公式可以如下公式(6)所示：

其中，l_vgg为感知损失函数，N_p为感知系数，VGG_n为卷积神经网络，L_G为真实面部的信息，L_g为生成面部的信息，||||₁为一范数。

示例性的，上述唇读同步损失函数的公式可以如下公式(7)所示：

其中，l_sync为唇读同步损失函数，N为输入到面部生成网络的图片的总帧数，F_i为第i帧图片的嘴部与语音同步概率。具体的，上述F_i可以通过如下公式(8)获取：

其中，F_i为第i帧图片的嘴部与语音同步概率，k为生成面部的图像的嘴部区域对应的特征向量，a为梅尔频率倒谱系数对应的向量，γ为预设常数，||||₂为二范数。示例性的，上述预设常数的值可以是1e-12，对于具体的预设常数的值本申请不做限定。

根据上述的总损失函数训练面部生成网络后，即可得到更新后的面部生成网络。并且，可以将该更新后的面部生成网络上传至云端，以留存备用。

S104：将虚拟形象模板和多帧面部图像融合，获得虚拟形象视频。

在通过S103步骤得到多帧面部图像后，即可将多帧面部图像和通过S101步骤获取的虚拟形象模板进行融合，从而得到虚拟形象视频。

在一些具体的实现方式中，在将虚拟形象模板和多帧面部图像融合的过程中，会出现多张口型面部图像或视频帧(后续简称为口型面部数据)。可以将所有口型面部数据上传至云端或磁盘空间，以便下次使用。

需要说明的是，为了减小口型面部数据所占用的磁盘空间，还可以对所有口型面部数据进行压缩，并将压缩后的口型面部数据上传至磁盘空间。具体的，若100帧口型面部数据中包含大量的重复信息，则只需要保存1帧口型面部数据，其余99帧只保存其差异部分，这大大减小了磁盘空间或云端空间的占用。

在一些具体的实现方式中，由于训练出的面部生成网络会使得静音时生成的虚拟形象的嘴巴也会轻微抖动，因此为了更好的视觉效果，可以采用换脸技术，替换其静音时间段生成的虚拟形象的面部。具体的，用来替换的面部要求嘴巴是闭合的，眼睛是睁开且表情自然。也即是说，若说话人脸视频中存在静音时段，则基于替换面部算法将静音视频片段中的虚拟形象替换为目标形象，得到处理后的虚拟形象视频，该目标形象为将虚拟模板和目标面部图像融合的形象，该目标面部图像为嘴巴闭合、眼睛睁开的面部图像。

需要说明的是，替换面部算法是通过检测虚拟形象和目标形象的关键点，可以经过旋转变换将虚拟形象转化为与目标形象相同的形状及大小，并通过边界平滑和模糊处理，融合虚拟形象和目标形象的背景，从而将虚拟形象更清晰地替换为目标形象。

综上所述，本申请提供了一种虚拟形象视频生成方法，该方法根据音频数据的音频特征，搜索与音频特征相匹配的面部图像，并进一步将虚拟形象模板和面部图像相融合，从而生成虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

参见图4，该图为本申请实施例提供的一种虚拟形象视频生成装置的示意图。该虚拟形象生成装置400包括：获取模块401、搜索模块402和融合模块403。

获取模块401，用于获取音频数据和虚拟形象模板；

搜索模块402，用于从音频数据中提取音频特征，根据音频特征搜索与音频特征匹配的多帧面部图像，多帧面部图像的唇形变化与音频特征匹配；

融合模块403，用于将虚拟形象模板和多帧面部图像融合，获得虚拟形象视频。

综上所述，本申请提供了一种虚拟形象视频生成装置，该装置包括：获取模块、搜索模块和融合模块。可以根据音频数据的音频特征，搜索与音频特征相匹配的面部图像，并进一步将虚拟形象模板和面部图像相融合，从而生成虚拟形象视频。由此，在实际应用中无需耗费大量计算资源，实现仅依赖音频数据即可实时生成虚拟形象视频，使得虚拟形象视频生成更加简单、便捷，提高虚拟形象视频生成的生成效率。

本申请实施例还提供了对应的生成设备以及计算机存储介质，用于实现本申请实施例提供的方案。

其中，设备包括存储器和处理器，存储器用于存储指令或代码，处理器用于执行指令或代码，以使设备执行本申请任一实施例的一种灯光控制方法。

计算机存储介质中存储有代码，当代码被运行时，运行代码的设备实现本申请任一实施例所述的方法。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种虚拟形象视频生成方法，其特征在于，所述方法包括：

获取音频数据和虚拟形象模板；

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，所述多帧面部图像的唇形变化与所述音频特征匹配，包括：

对所述音频特征进行聚类，得到聚类中心信息；

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征搜索与所述音频特征匹配的多帧面部图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述面部生成网络通过如下方式构建得到：

获取训练数据，所述训练数据为音视频数据；

根据更新后的唇读同步鉴别器，构建面部生成网络。

5.根据权利要求4所述的方法，其特征在于，在所述构建面部生成网络之后，所述方法还包括：

根据所述总损失函数值，更新所述面部生成网络的参数。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述静音视频片段中的虚拟形象替换为目标形象，包括：

8.一种虚拟形象视频生成装置，其特征在于，所述装置包括：获取模块、搜索模块和融合模块；

所述获取模块，用于获取音频数据和虚拟形象模板；

9.一种虚拟形象视频生成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至7中任一项所述的方法的各个步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的方法的各个步骤。