CN117036555A

CN117036555A - 数字人的生成方法、装置和数字人的生成***

Info

Publication number: CN117036555A
Application number: CN202310564742.6A
Authority: CN
Inventors: 周科霖; 李健; 陈明; 武卫东
Original assignee: Wuxi Jietong Digital Intelligence Technology Co ltd
Current assignee: Wuxi Jietong Digital Intelligence Technology Co ltd
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-11-10
Anticipated expiration: 2043-05-18
Also published as: CN117036555B

Abstract

本申请提供了一种数字人的生成方法、装置和数字人的生成***。该方法包括：获取音频数据；将音频数据输入至第一人工智能模型，得到音频数据对应的人脸图像；根据人脸图像创建多个目标图像，并基于多个目标图像生成数字人。本方案中，无需录制说话的目标对象的视频，只需要获取目标对象的音频即可，根据预先训练得到的第一人工智能模型的音频生成人脸技术，再通过图生图技术，得到数据量充足的与目标对象的真实人脸相近的多个目标图像，进而可以根据这些图像生成数字人，降低了成本的同时，还可以避免侵犯肖像权。

Description

数字人的生成方法、装置和数字人的生成***

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***。

背景技术

目前市面上2D数字人技术均需要基于真人录制一段时间的视频，才能生成对应的数字人形象，且该数字人形象需获得录制人本人肖像使用权才能持续使用，成本高昂且有侵犯肖像权的隐患。

发明内容

本申请的主要目的在于提供一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***，以至少解决现有技术中生成数字人形象成本高昂并且侵犯肖像权的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种数字人的生成方法，包括：获取音频数据，其中，所述音频数据是目标对象说话过程中的语音的数据；构建第一人工智能模型，其中，所述第一人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和所述历史音频数据对应的历史人脸图像；将所述音频数据输入至所述第一人工智能模型，得到所述音频数据对应的人脸图像；根据所述人脸图像创建多个目标图像，并基于多个所述目标图像生成数字人，其中，多个所述目标图像之间的相似度小于相似度阈值，任意一个所述目标图像与所述人脸图像之间的相似度小于所述相似度阈值。

可选地，在构建第一人工智能模型的过程中，所述方法还包括：构建人脸编码器网络，其中，所述人脸编码器网络用于提取参考人脸图像中的面部特征；构建语音编码器网络，其中，所述语音编码器网络用于提取所述音频数据的音频特征，并将所述音频特征与所述面部特征进行对比，以机器学习的方式进行训练，根据所述音频特征确定与面部对应的所述面部特征；构建面部解码器网络，其中，所述面部解码器网络用于根据所述语音编码器网络得到的所述面部特征进行重构，得到所述人脸图像。

可选地，根据所述人脸图像创建多个目标图像，包括：获取多个目标参数，其中，所述目标参数为预先输入的人物面部形象的参数以及表情的参数；构建图像生成模型，其中，所述图像生成模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史目标参数、所述历史人脸图像以及多个历史目标图像，其中，各所述历史目标图像是通过所述历史目标参数对所述历史人脸图像进行调整得到的；将所述目标参数和所述人脸图像输入至所述图像生成模型，得到多个所述目标图像。

可选地，基于多个所述目标图像生成数字人，包括：根据多个所述目标图像生成无声视频，其中，所述无声视频每一帧包括一个所述目标图像，所述无声视频为没有声音的视频；将所述无声视频与所述音频数据进行融合，得到融合视频，其中，所述融合视频为包括图像和声音的视频；将所述融合视频与背景视频进行融合，得到所述数字人的视频，其中，所述背景视频为包括场景类型、人物服装、人物发型的视频。

可选地，在根据所述人脸图像创建多个目标图像之后，所述方法还包括：获取待替换视频，其中，所述待替换视频中包括多帧待替换图像，各所述待替换图像中包括待替换人脸；获取各帧所述待替换图像中的所述待替换人脸的待替换面部特征；根据所述待替换面部特征确定对应的所述目标图像，将各帧所述待替换图像中的所述待替换人脸替换为对应的所述目标图像的人脸，得到目标视频，其中，所述目标视频中的人脸为所述目标图像的人脸，所述目标视频中的场景类型为所述待替换视频中的场景类型，所述目标视频中的人物服装为所述待替换视频中的人物服装，所述目标视频中的人物发型为所述待替换视频中的人物发型。

可选地，根据所述待替换面部特征确定对应的所述目标图像，包括：计算所述待替换面部特征与各所述目标图像的面部特征的相似度；确定相似度最高的所述目标图像为所述待替换面部特征对应的所述目标图像，在相似度最高的所述目标图像有多个的情况下，随机选取一个所述目标图像作为所述待替换面部特征对应的所述目标图像。

可选地，在获取音频数据之后，所述方法还包括：构建情感检测模型，其中，所述情感检测模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：所述历史音频数据和所述历史音频数据对应的历史人物情感类型；将所述音频数据输入至所述情感检测模型，得到所述音频数据对应的人物情感类型；将所述音频数据和所述人物情感类型输入至第二人工智能模型，得到所述音频数据和所述人物情感类型对应的所述人脸图像，所述第二人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：所述历史音频数据、所述历史音频数据对应的历史人物情感类型和所述历史音频数据对应的历史人脸图像。

根据本申请的另一方面，提供了一种数字人的生成装置，包括：第一获取单元，用于获取音频数据，其中，所述音频数据是目标对象说话过程中的语音的数据；第一构建单元，用于构建第一人工智能模型，其中，所述第一人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和所述历史音频数据对应的历史人脸图像；第一处理单元，用于将所述音频数据输入至所述第一人工智能模型，得到所述音频数据对应的人脸图像；第二处理单元，用于根据所述人脸图像创建多个目标图像，并基于多个所述目标图像生成数字人，其中，多个所述目标图像之间的相似度小于相似度阈值，任意一个所述目标图像与所述人脸图像之间的相似度小于所述相似度阈值。

根据本申请的再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述数字人的生成方法。

根据本申请的又一方面，提供了一种数字人的生成***，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述数字人的生成方法。

应用本申请的技术方案，无需录制说话的目标对象的视频，只需要获取目标对象的音频即可，根据预先训练得到的第一人工智能模型的音频生成人脸技术，再通过图生图技术，得到数据量充足的与目标对象的真实人脸相近的多个目标图像，进而可以根据这些图像生成数字人，降低了成本的同时，还可以避免侵犯肖像权。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例中提供的一种执行数字人的生成方法的移动终端的硬件结构框图；

图2示出了根据本申请的实施例提供的一种数字人的生成方法的流程示意图；

图3示出了根据本申请的实施例提供的另一种数字人的生成方法的流程示意图；

图4示出了根据本申请的实施例提供的一种数字人的生成装置的结构框图。

其中，上述附图包括以下附图标记：

102、处理器；104、存储器；106、传输设备；108、输入输出设备。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

数字人：虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

正如背景技术中所介绍的，现有技术中生成数字人形象成本高昂并且侵犯肖像权，为解决如上的问题，本申请的实施例提供了一种数字人的生成方法、装置、计算机可读存储介质和数字人的生成***。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种数字人的生成方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的设备信息的显示方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的数字人的生成方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本申请实施例的一种数字人的生成方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤S201，获取音频数据，其中，上述音频数据是目标对象说话过程中的语音的数据；

具体地，在目标对象说话过程中，可以采集目标对象的语音，可以是通过音频采集设备采集得到的，音频采集设备可以是麦克风或者其他的设备。

步骤S202，构建第一人工智能模型，其中，上述第一人工智能模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和上述历史音频数据对应的历史人脸图像；

具体地，第一人工智能模型是预先训练好的可以从声音到人脸图像的模型，从声音到人脸图像指的是从讲话的目标对象的简短的录音中重建该目标对象的面部图像。

具体地，第一人工智能模型可以是Speech2Face模型，Speech2Face模型是一种机器学***台可能带亿点偏见问题给出有效方法指导社会更好工作运转价值意义壮大方案计划建议渐入佳境拓荒范畴前景广阔具备巨大应用潜力。

Speech2Face模型能较好地识别出性别，对白种人和亚洲人或者其他人种也能较好地分辨出来，另外对30-40岁和70岁的年龄段声音命中率稍微高一些。Speech2Face模型倾向将30岁以下的说话者年龄猜大，将40-70岁的说话者年龄猜小。除了比较基础的性别、年龄和种族，该模型甚至能猜中一些面部特征，比如说鼻子的结构、嘴唇的厚度和形状、咬合情况，以及大概的面部骨架。基本上输入的语音时间越长，预测的准确度会越高。但是该项研究的目的不是为了准确地还原说话者的模样，主要是为了研究语音跟相貌之间的相关性。

步骤S203，将上述音频数据输入至上述第一人工智能模型，得到上述音频数据对应的人脸图像；

具体地，通过目标对象的音频就可直接生成与该目标对象形象相近的数字人模型(人脸图像)，后续可通过该目标对象的语音复刻进行合成发音，最终生成可受控制的数字人的发音视频。

步骤S204，根据上述人脸图像创建多个目标图像，并基于多个上述目标图像生成数字人，其中，多个上述目标图像之间的相似度小于相似度阈值，任意一个上述目标图像与上述人脸图像之间的相似度小于上述相似度阈值。

具体地，在一些方案中，并没有直接只通过音频就能生成数字人的技术，而且通常数字人模型训练需要真实的人物视频作为训练数据，这对于用于数字人模型训练的训练数据来源有较高要求，对于其伦理、个人肖像权及隐私权也均有要求。目前市面上2D数字人技术均需要基于真人录制一段时间的视频，才能生成对应的数字人形象，且该数字人形象需获得录制人本人肖像使用权才能持续使用，成本高昂且有侵犯肖像权的隐患。本方案提出仅仅只通过音频就可生成数字人形象的技术，通过本方案，一站式的实现从录音人音频生成具有该录音人相似形象的数字人视频的过程，同时所形成的数字人形象由于是由人工智能推理所生成，与录音人之间不具有客观联系，从而避免了肖像权被侵犯的问题。

通过本实施例，无需录制说话的目标对象的视频，只需要获取目标对象的音频即可，根据预先训练得到的第一人工智能模型的音频生成人脸技术，再通过图生图技术，得到数据量充足的与目标对象的真实人脸相近的多个目标图像，进而可以根据这些图像生成数字人，降低了成本的同时，还可以避免侵犯肖像权。

Speech2Face模型的输入是一个复杂的声谱图，由说话人的短音频段计算而成，输出的是4096-D人脸特征，通过预先训练的人脸解码器网络将其解码成人脸的规范图像，训练的模型用橘黄色做了标记，将一个人的图像输入到人脸识别网络中，并从其倒数第二层提取4096-D人脸特征，这些面部特征包含足够的信息以重构相应的面部图像，同时对许多变化具有鲁棒性。

为了进一步得到较为精确地第一人工智能模型，以使得后续根据第一人工智能模型得到与目标对象较为接近的人脸图像，本申请在构建第一人工智能模型的过程中，上述方法还包括以下步骤：构建人脸编码器网络，其中，上述人脸编码器网络用于提取参考人脸图像中的面部特征；构建语音编码器网络，其中，上述语音编码器网络用于提取上述音频数据的音频特征，并将上述音频特征与上述面部特征进行对比，以机器学习的方式进行训练，根据上述音频特征确定与面部对应的上述面部特征；构建面部解码器网络，其中，上述面部解码器网络用于根据上述语音编码器网络得到的上述面部特征进行重构，得到上述人脸图像。

该方案中，通过预先训练的人脸解码器网络将人脸图像解码成人脸的规范图像，训练的模型用橘黄色做了标记，将一个人的图像输入到人脸识别网络中，并从其倒数第二层提取4096-D人脸特征，这些面部特征包含足够的信息以重构相应的面部图像，同时对许多变化具有鲁棒性。语音编码器网络是一个卷积神经网络，将复杂的语音频谱图作为输入，并预测与相关面部对应的低维面部特征，随后将其输入至面部解码器网络以重构面部图像，语音编码器网络使用视频中说话者的语音特征和面部图像特征进行对比，以自我监督的方式进行训练，使用AVSpeech数据集，从每个视频片段中提取包含说话者面部的单个帧，并将其反馈到VGG-Face模型以提取4086-特征向量。面部解码器网络的目的是从低维人脸特征重建人脸图像，将面部特征作为输入，在排除姿势、光照等不相关因素的同时保留面部属性，并以规范形式(比如正面或者中性表情，中性表情是没有大笑或者表情)生成人脸图像。通过本实施例，可以对构建第一人工智能模型的过程进行精确细化，以保证第一人工智能模型的精度较高，后续根据第一人工智能模型得到的人脸图像和真实的目标对象的相似度也较高。

从音频到人脸的技术仅能生成单一的人脸图像，并不能生成同一人表情丰富的多张人脸图像，一些方案中需要获取说话的目标对象的多个图像，这样也会存在侵犯肖像权的情况，具体实现过程中，根据上述人脸图像创建多个目标图像，可以通过以下步骤实现：获取多个目标参数，其中，上述目标参数为预先输入的人物面部形象的参数以及表情的参数；构建图像生成模型，其中，上述图像生成模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史目标参数、上述历史人脸图像以及多个历史目标图像，其中，各上述历史目标图像是通过上述历史目标参数对上述历史人脸图像进行调整得到的；将上述目标参数和上述人脸图像输入至上述图像生成模型，得到多个上述目标图像。

该方案中，构建的图像生成模型可以实现图生图的技术，图生图指的是用图像生成多个图像的技术，通过输入参考的图像(人脸图像)，并指定一定的参数(目标参数)，通过图像生成模型调整生成的图像，可以生成出多个与人脸图像相似的图像，从而可以得到多个目标图像，无需获取说话的目标对象的图像，直接根据音频得到的人脸图像进行扩展，就可以得到目标图像了，这样进一步保证了本方案可以不侵犯肖像权。

具体地，图像生成模型可以是Stable Diffusion模型，Stable Diffusion模型可以生成出与参考图相似的图像，同时针对人脸图像，模型可以根据参数微调生成出的人脸图像的表情、嘴型等形态，从而生成出表情各异但人脸形象相似的图像。Stable Diffusion模型是一个基于Latent Diffusion Models(潜在扩散模型，LDMS)的文图生成模型，原理是通过控制神经网络参数的变化范围，使得网络能够有更好的稳定性和收敛性，从而提高训练效果的一种方式，主要是通过限制参数变化的范围，使得网络在训练过程中不会产生过度的波动，从而避免了过拟合的问题，并且可以更快地收敛到较优的模型。具体地，StableDiffusion模型训练原理是通过限制神经网络参数的范围，使得参数的更新量在一定范围内波动。这样可以避免网络出现梯度***或者低度消失的情况，从而提高了网络的稳定性，同时，Stable Diffusion模型训练原理还可以降低参数之间的相关性，使得网络更加鲁邦和泛化能力更强。

例如，人脸图像的嘴角是平的，输入的目标参数是嘴角向上笑10°，那么根据这个输入的参数，来调整人脸图像，得到了嘴角向上笑10°的人脸图像作为目标图像，通过输入的多个目标参数，可以得到多个目标参数。

通过采用“声音生成人脸”、“图生图”的方式获得足够数据量的与原始发音人形象相近的人脸图像，后续与现成的人物视频进行换脸操作。具体地，通过图生图的方式解决了基于声音生成人脸获得的人脸图像单一，无法满足后续人脸替换过程所需要的众多人脸数据的问题。基于声音生成的人脸仅与原始发音人形象相近，且通过图生图之后，其形象与原始发音人的区别会更大，这样可以有效避免侵犯原始发音人肖像权的问题。

目前并没有直接仅凭音频即可生成数字人的技术，市场上通用的数字人模型需要真实的人物录制视频作为训练数据，才能生成可受控制的数字人，但是采用该真实人物原始视频，存在侵犯人脸提供者肖像权的风险，具体实现过程中，基于多个上述目标图像生成数字人，可以通过以下步骤实现：根据多个上述目标图像生成无声视频，其中，上述无声视频每一帧包括一个上述目标图像，上述无声视频为没有声音的视频；将上述无声视频与上述音频数据进行融合，得到融合视频，其中，上述融合视频为包括图像和声音的视频；将上述融合视频与背景视频进行融合，得到上述数字人的视频，其中，上述背景视频为包括场景类型、人物服装、人物发型的视频。

该方案中，通过本方案的“声音生成人脸”、“图生图”的方式可以得到数据量较多的目标图像，多个目标图像可以组合成无声视频，将无声视频与音频数据进行融合，得到了具有图像和声音的融合视频，这样将融合视频作为数字人训练的输入数据进行训练，与背景视频进行融合，可以得到数字人的视频了，无需采用该真实人物原始视频，进一步解决了现有技术存在侵犯人脸提供者肖像权的风险的问题。

具体地，本方案涉及的数字人生成技术为利用深度学习，学习模特语音、唇形、表情参数间的潜在映射关系，形成驱动模型与驱动方式，基于TTS技术获得语音，并利用生成对抗模型GAN选出最符合现实的图片，推理得到每帧数字人的图片。通过时间戳，将语音和每帧的数字人图片进行结合。

从音频到人脸的技术仅能生成单一的人脸图像，并不能生成同一人表情丰富的多张人脸图像，进而应用到人脸替换过程，目前的人脸替换采用的Deepfake技术需要较多的被模仿人的人脸图像才能保障比较好的效果，且同时存在侵犯被模仿人肖像权的问题，为了进一步避免侵犯肖像权的问题，本申请在根据上述人脸图像创建多个目标图像之后，上述方法还包括以下步骤：获取待替换视频，其中，上述待替换视频中包括多帧待替换图像，各上述待替换图像中包括待替换人脸；获取各帧上述待替换图像中的上述待替换人脸的待替换面部特征；根据上述待替换面部特征确定对应的上述目标图像，将各帧上述待替换图像中的上述待替换人脸替换为对应的上述目标图像的人脸，得到目标视频，其中，上述目标视频中的人脸为上述目标图像的人脸，上述目标视频中的场景类型为上述待替换视频中的场景类型，上述目标视频中的人物服装为上述待替换视频中的人物服装，上述目标视频中的人物发型为上述待替换视频中的人物发型。

该方案中，由于之前通过“声音生成人脸”和“图生图”技术的方式，得到了足够数据量的与原始发音人(目标对象)形象接近的多个目标图像，可以将多个目标图像与现成的待替换视频进行换脸操作，本方案进一步保证了不需要采集目标对象的视频即可以进行换脸，进一步解决了现有技术中侵犯肖像权的问题。

具体地，将多个目标图像与现成的待替换视频进行换脸操作，从而生成了可供数字人模型进行训练的输入视频数据。通过以上操作，数字人模型的训练数据既与原始发音人之间无肖像权隐患，也与被替换人脸的人物视频之间无肖像权隐患。

具体地，上述实施例中的技术为深度伪造，深度伪造一词译自英文“Deepfake”，“deep fake”为“以某种方式使合理的观察者错误地将其视为个人真实言语或行为的真实记录的方式创建或更改的视听记录”，其中“视听记录”即指图像、视频和语音等数字内容，本方案中特指基于视频的人脸替换技术。

视频伪造是Deepfake技术最为主要的代表，制作假视频的技术也被业界称为人工智能换脸技术(AI face swap)。其核心原理是利用生成对抗网络或者卷积神经网络等算法将目标对象的面部“嫁接”到被模仿对象上。由于视频是连续的图片组成，因此只需要把每一张图片中的脸替换，就能得到变脸的新视频。具体而言，首先将模仿对象的视频逐帧转化成大量图片，然后将目标模仿对象面部替换成目标对象面部。最后，将替换完成的图片重新合成为假视频，而深度学习技术可以使这一过程实现自动化。

在做人脸替换时可以根据生成目标图像与待替换视频中的待替换图像的相似度进行替换，在一些实施例上，根据上述待替换面部特征确定对应的上述目标图像，具体可以通过以下步骤实现：计算上述待替换面部特征与各上述目标图像的面部特征的相似度；确定相似度最高的上述目标图像为上述待替换面部特征对应的上述目标图像，在相似度最高的上述目标图像有多个的情况下，随机选取一个上述目标图像作为上述待替换面部特征对应的上述目标图像。

该方案中，可以计算待替换面部特征与各目标图像的面部特征的相似度，根据相似度来进行人脸替换，其中，用相似度最高的目标图像替换掉待替换视频中的待替换图像，例如，目标图像中的笑容图像替换掉待替换笑容图像，目标图像中的哭泣图像替换掉待替换哭泣图像，这样可以保证人脸替换的精度较高，也可以避免出现人来替换的准确率较低的问题。

综上，本方案是基于声音到人脸技术，结合图像生图像技术生成更多相似度极高的人脸图像，此后将生成的人脸图像作为训练数据，结合已有的人物视频通过Deepfake的方式进行模型训练，生成具有新人脸的视频，此后将此视频送入数字人模型进行训练，从而生成可控的数字人模型用于新的数字人视频生成。

在一些实施例上，在获取音频数据之后，上述方法还包括以下步骤：构建情感检测模型，其中，上述情感检测模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：上述历史音频数据和上述历史音频数据对应的历史人物情感类型；将上述音频数据输入至上述情感检测模型，得到上述音频数据对应的人物情感类型；将上述音频数据和上述人物情感类型输入至第二人工智能模型，得到上述音频数据和上述人物情感类型对应的上述人脸图像，上述第二人工智能模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：上述历史音频数据、上述历史音频数据对应的历史人物情感类型和上述历史音频数据对应的历史人脸图像。

该方案中，可以不单单使用音频数据来生成人脸图像，在实际应用中，可能目标对象会隐藏自己的情感，因此，可以对目标对象的情感类型进行检测，具体可以通过情感检测模型来对标对象的情感类型进行检测，进而通过音频数据、情感类型来共同生产人脸图像，这样可以进一步保证得到的人脸图像和目标对象较为相似，且情感也是较为相似的，进一步保证了生产的目标对象的人脸图像的准确率和精度较高。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案，以下将结合具体的实施例对本申请的数字人的生成方法的实现过程进行详细说明。

本实施例涉及一种具体的数字人的生成方法，主要包含四个模块：声音生成人脸模块、图像生成图像模块、人脸替换模块、数字人模块，如图3所示，包括如下步骤：

第一步：首先，输入录音人录音音频，通过“声音生成人脸”技术(将人脸图像和语音音频片段分别输入人脸编码器网络和语音编码器网络，根据身份的平均损失为提取的特征值分配不同的权重，并过滤掉个性化样本，然后使用两级模态匹配更新神经网络参数，从而找到声音和人脸的关联性)，提取录音人声纹特征，并基于声纹特征进行编码，再关联的人脸图像和语音的信息要点，然后通过一个经过单独训练的面部解码器模型将预测的面部特征解码成人脸的标准图像，从而获得与该发音人形象相近的人脸数据；

第二步：将第一步生成的人脸图像作为参考图输入到Stable Diffusion模型，同步输入用于人像描述的Prompt参数，从而通过“图生图”技术，生成与参考图人物面部形象极其相似，但表情与口型各异的多张新人脸图像(目标图像)，最终达到扩展该录音人的“推理出的”人脸数据量的目的；

第三步：将第二步所生成的足够丰富的人脸数据送入“Deepfake人脸替换”模型，同步输入预备进行人脸替换的“原始人物视频”进行模型运算，从而用“推理出的”人脸数据替换原始人物视频中的人脸，最终生成具有录音人“推理出的”人脸形象的新人物视频；

第四步：使用新生成的人物视频进行数字人模型训练，配合基于录音人录音音频进行声音复刻后语音合成模型所生成的音频，最终生成具有“推理出的”录音人人脸形象且可控语音合成发音的数字人视频。

本申请实施例还提供了一种数字人的生成装置，需要说明的是，本申请实施例的数字人的生成装置可以用于执行本申请实施例所提供的用于数字人的生成方法。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

以下对本申请实施例提供的数字人的生成装置进行介绍。

图4是根据本申请实施例的一种数字人的生成装置的结构框图。如图4所示，该装置包括：

第一获取单元10，用于取音频数据，其中，上述音频数据是目标对象说话过程中的语音的数据；

第一构建单元20，用于构建第一人工智能模型，其中，上述第一人工智能模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和上述历史音频数据对应的历史人脸图像；

第一处理单元30，用于将上述音频数据输入至上述第一人工智能模型，得到上述音频数据对应的人脸图像；

第二处理单元40，用于根据上述人脸图像创建多个目标图像，并基于多个上述目标图像生成数字人，其中，多个上述目标图像之间的相似度小于相似度阈值，任意一个上述目标图像与上述人脸图像之间的相似度小于上述相似度阈值。

为了进一步得到较为精确地第一人工智能模型，以使得后续根据第一人工智能模型得到与目标对象较为接近的人脸图像，本申请的上述装置还包括第二构建单元、第三构建单元和第四构建单元，第二构建单元用于在构建第一人工智能模型的过程中，构建人脸编码器网络，其中，上述人脸编码器网络用于提取参考人脸图像中的面部特征；第三构建单元用于构建语音编码器网络，其中，上述语音编码器网络用于提取上述音频数据的音频特征，并将上述音频特征与上述面部特征进行对比，以机器学习的方式进行训练，根据上述音频特征确定与面部对应的上述面部特征；第四构建单元用于构建面部解码器网络，其中，上述面部解码器网络用于根据上述语音编码器网络得到的上述面部特征进行重构，得到上述人脸图像。

从音频到人脸的技术仅能生成单一的人脸图像，并不能生成同一人表情丰富的多张人脸图像，一些方案中需要获取说话的目标对象的多个图像，这样也会存在侵犯肖像权的情况，具体实现过程中，第二处理单元包括获取模块、构建模块和第一生成模块，获取模块用于获取多个目标参数，其中，上述目标参数为预先输入的人物面部形象的参数以及表情的参数；构建模块用于构建图像生成模型，其中，上述图像生成模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史目标参数、上述历史人脸图像以及多个历史目标图像，其中，各上述历史目标图像是通过上述历史目标参数对上述历史人脸图像进行调整得到的；第一生成模块用于将上述目标参数和上述人脸图像输入至上述图像生成模型，得到多个上述目标图像。

目前并没有直接仅凭音频即可生成数字人的技术，市场上通用的数字人模型需要真实的人物录制视频作为训练数据，才能生成可受控制的数字人，但是采用该真实人物原始视频，存在侵犯人脸提供者肖像权的风险，具体实现过程中，第二处理单元包括第二生成模块、第一融合模块和第二融合模块，第二生成模块用于根据多个上述目标图像生成无声视频，其中，上述无声视频每一帧包括一个上述目标图像，上述无声视频为没有声音的视频；第一融合模块用于将上述无声视频与上述音频数据进行融合，得到融合视频，其中，上述融合视频为包括图像和声音的视频；第二融合模块用于将上述融合视频与背景视频进行融合，得到上述数字人的视频，其中，上述背景视频为包括场景类型、人物服装、人物发型的视频。

从音频到人脸的技术仅能生成单一的人脸图像，并不能生成同一人表情丰富的多张人脸图像，进而应用到人脸替换过程，目前的人脸替换采用的Deepfake技术需要较多的被模仿人的人脸图像才能保障比较好的效果，且同时存在侵犯被模仿人肖像权的问题，为了进一步避免侵犯肖像权的问题，本申请的上述装置还包括第二获取单元、第三获取单元和第三处理单元，第二获取单元用于在根据上述人脸图像创建多个目标图像之后，获取待替换视频，其中，上述待替换视频中包括多帧待替换图像，各上述待替换图像中包括待替换人脸；第三获取单元用于获取各帧上述待替换图像中的上述待替换人脸的待替换面部特征；第三处理单元用于根据上述待替换面部特征确定对应的上述目标图像，将各帧上述待替换图像中的上述待替换人脸替换为对应的上述目标图像的人脸，得到目标视频，其中，上述目标视频中的人脸为上述目标图像的人脸，上述目标视频中的场景类型为上述待替换视频中的场景类型，上述目标视频中的人物服装为上述待替换视频中的人物服装，上述目标视频中的人物发型为上述待替换视频中的人物发型。

在做人脸替换时可以根据生成目标图像与待替换视频中的待替换图像的相似度进行替换，在一些实施例上，第三处理单元包括计算模块和确定模块，计算模块用于计算上述待替换面部特征与各上述目标图像的面部特征的相似度；确定模块用于确定相似度最高的上述目标图像为上述待替换面部特征对应的上述目标图像，在相似度最高的上述目标图像有多个的情况下，随机选取一个上述目标图像作为上述待替换面部特征对应的上述目标图像。

在一些实施例上，上述装置还包括第五构建单元、第四处理单元和第五处理单元，第五构建单元用于在获取音频数据之后，构建情感检测模型，其中，上述情感检测模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：上述历史音频数据和上述历史音频数据对应的历史人物情感类型；第四处理单元用于将上述音频数据输入至上述情感检测模型，得到上述音频数据对应的人物情感类型；第五处理单元用于将上述音频数据和上述人物情感类型输入至第二人工智能模型，得到上述音频数据和上述人物情感类型对应的上述人脸图像，上述第二人工智能模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：上述历史音频数据、上述历史音频数据对应的历史人物情感类型和上述历史音频数据对应的历史人脸图像。

上述数字人的生成装置包括处理器和存储器，上述第一获取单元、第一构建单元、第一处理单元和第二处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中生成数字人形象成本高昂并且侵犯肖像权的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行上述数字人的生成方法。

具体地，数字人的生成方法包括：

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述数字人的生成方法。

具体地，数字人的生成方法包括：

本申请还提供一种数字人的生成***，包括一个或多个处理器，存储器，以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述数字人的生成方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的数字人的生成方法，无需录制说话的目标对象的视频，只需要获取目标对象的音频即可，根据预先训练得到的第一人工智能模型的音频生成人脸技术，再通过图生图技术，得到数据量充足的与目标对象的真实人脸相近的多个目标图像，进而可以根据这些图像生成数字人，降低了成本的同时，还可以避免侵犯肖像权。

2)、本申请的数字人的生成装置，无需录制说话的目标对象的视频，只需要获取目标对象的音频即可，根据预先训练得到的第一人工智能模型的音频生成人脸技术，再通过图生图技术，得到数据量充足的与目标对象的真实人脸相近的多个目标图像，进而可以根据这些图像生成数字人，降低了成本的同时，还可以避免侵犯肖像权。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数字人的生成方法，其特征在于，包括：

获取音频数据，其中，所述音频数据是目标对象说话过程中的语音的数据；

构建第一人工智能模型，其中，所述第一人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和所述历史音频数据对应的历史人脸图像；

将所述音频数据输入至所述第一人工智能模型，得到所述音频数据对应的人脸图像；

根据所述人脸图像创建多个目标图像，并基于多个所述目标图像生成数字人，其中，多个所述目标图像之间的相似度小于相似度阈值，任意一个所述目标图像与所述人脸图像之间的相似度小于所述相似度阈值。

2.根据权利要求1所述的方法，其特征在于，在构建第一人工智能模型的过程中，所述方法还包括：

构建人脸编码器网络，其中，所述人脸编码器网络用于提取参考人脸图像中的面部特征；

构建语音编码器网络，其中，所述语音编码器网络用于提取所述音频数据的音频特征，并将所述音频特征与所述面部特征进行对比，以机器学习的方式进行训练，根据所述音频特征确定与面部对应的所述面部特征；

构建面部解码器网络，其中，所述面部解码器网络用于根据所述语音编码器网络得到的所述面部特征进行重构，得到所述人脸图像。

3.根据权利要求1所述的方法，其特征在于，根据所述人脸图像创建多个目标图像，包括：

获取多个目标参数，其中，所述目标参数为预先输入的人物面部形象的参数以及表情的参数；

构建图像生成模型，其中，所述图像生成模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史目标参数、所述历史人脸图像以及多个历史目标图像，其中，各所述历史目标图像是通过所述历史目标参数对所述历史人脸图像进行调整得到的；

将所述目标参数和所述人脸图像输入至所述图像生成模型，得到多个所述目标图像。

4.根据权利要求1所述的方法，其特征在于，基于多个所述目标图像生成数字人，包括：

根据多个所述目标图像生成无声视频，其中，所述无声视频每一帧包括一个所述目标图像，所述无声视频为没有声音的视频；

将所述无声视频与所述音频数据进行融合，得到融合视频，其中，所述融合视频为包括图像和声音的视频；

将所述融合视频与背景视频进行融合，得到所述数字人的视频，其中，所述背景视频为包括场景类型、人物服装、人物发型的视频。

5.根据权利要求1所述的方法，其特征在于，在根据所述人脸图像创建多个目标图像之后，所述方法还包括：

获取待替换视频，其中，所述待替换视频中包括多帧待替换图像，各所述待替换图像中包括待替换人脸；

获取各帧所述待替换图像中的所述待替换人脸的待替换面部特征；

根据所述待替换面部特征确定对应的所述目标图像，将各帧所述待替换图像中的所述待替换人脸替换为对应的所述目标图像的人脸，得到目标视频，其中，所述目标视频中的人脸为所述目标图像的人脸，所述目标视频中的场景类型为所述待替换视频中的场景类型，所述目标视频中的人物服装为所述待替换视频中的人物服装，所述目标视频中的人物发型为所述待替换视频中的人物发型。

6.根据权利要求5所述的方法，其特征在于，根据所述待替换面部特征确定对应的所述目标图像，包括：

计算所述待替换面部特征与各所述目标图像的面部特征的相似度；

确定相似度最高的所述目标图像为所述待替换面部特征对应的所述目标图像，在相似度最高的所述目标图像有多个的情况下，随机选取一个所述目标图像作为所述待替换面部特征对应的所述目标图像。

7.根据权利要求1所述的方法，其特征在于，在获取音频数据之后，所述方法还包括：

构建情感检测模型，其中，所述情感检测模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：所述历史音频数据和所述历史音频数据对应的历史人物情感类型；

将所述音频数据输入至所述情感检测模型，得到所述音频数据对应的人物情感类型；

将所述音频数据和所述人物情感类型输入至第二人工智能模型，得到所述音频数据和所述人物情感类型对应的所述人脸图像，所述第二人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：所述历史音频数据、所述历史音频数据对应的历史人物情感类型和所述历史音频数据对应的历史人脸图像。

8.一种数字人的生成装置，其特征在于，包括：

第一获取单元，用于获取音频数据，其中，所述音频数据是目标对象说话过程中的语音的数据；

第一构建单元，用于构建第一人工智能模型，其中，所述第一人工智能模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频数据和所述历史音频数据对应的历史人脸图像；

第一处理单元，用于将所述音频数据输入至所述第一人工智能模型，得到所述音频数据对应的人脸图像；

第二处理单元，用于根据所述人脸图像创建多个目标图像，并基于多个所述目标图像生成数字人，其中，多个所述目标图像之间的相似度小于相似度阈值，任意一个所述目标图像与所述人脸图像之间的相似度小于所述相似度阈值。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述数字人的生成方法。

10.一种数字人的生成***，其特征在于，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至7中任意一项所述数字人的生成方法。