CN116071467A

CN116071467A - 唇形驱动模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN116071467A
Application number: CN202310023600.9A
Authority: CN
Inventors: 张展望; 胡天舒; 颜剑锋; 梁伯荣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-05

Abstract

本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。包括：将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像；根据唇形图像与样本脸部图像之间的差异，确定第一损失；将音频数据及唇形图像分别输入多个基于不同类型的语音训练生成的同步网络中，以获取每个同步网络输出的第二损失，根据第一损失及多个第二损失中的最小值，对初始唇形驱动模型进行修正，以获取唇形驱动模型。由此，生成的唇形驱动模型可以在不同类型的语音场景下，拥有较高的准确性。

Description

唇形驱动模型的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景，具体涉及一种唇形驱动模型的生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)和大数据技术的蓬勃发展，AI已经渗透到生活的方方面面，而虚拟对象技术是AI技术中一个比较重要的子领域，其可以通过AI技术如深度学习技术构建一个虚拟对象，同时驱动这个虚拟对象的脸部表情，以模拟人的说话。

脸部表情驱动的主要应用在于通过语音来实现虚拟对象的唇形驱动，以达到语音与唇形同步的目的。因此，如何实现不同类型的语音对虚拟对象进行准确的唇形驱动，成为重点的研究方向。

发明内容

本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种唇形驱动模型的生成方法，包括：

获取训练数据集，其中，所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像；

将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中，以获取唇形图像；

根据所述唇形图像与所述样本脸部图像之间的差异，确定第一损失；

将所述音频数据及所述唇形图像分别输入多个同步网络中，以获取每个所述同步网络输出的第二损失，其中，各个所述同步网络分别为基于不同类型的语音训练生成的；

根据所述第一损失及所述多个第二损失中的最小值，对所述初始唇形驱动模型进行修正，以获取唇形驱动模型。

根据本公开的第二方面，提供了一种唇形驱动方法，包括：

获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据；

将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据，输入唇形驱动模型，以获取在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型为基于本公开第一方面提供的唇形驱动模型的生成方法得到的。

根据本公开的第三方面，提供了一种唇形驱动模型的生成装置，包括：

第一获取模块，用于获取训练数据集，其中，所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像；

第二获取模块，用于将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中，以获取唇形图像；

确定模块，用于根据所述唇形图像与所述样本脸部图像之间的差异，确定第一损失；

第三获取模块，用于将所述音频数据及所述唇形图像分别输入多个同步网络中，以获取每个所述同步网络输出的第二损失，其中，各个所述同步网络分别为基于不同类型的语音训练生成的；

第四获取模块，用于根据所述第一损失及所述多个第二损失中的最小值，对所述初始唇形驱动模型进行修正，以获取唇形驱动模型。

根据本公开的第四方面，提供了一种唇形驱动装置，包括：

第一获取模块，用于获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据；

第二获取模块，用于将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据，输入唇形驱动模型，以获取在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型为本公开第一方面提供的唇形驱动模型的生成装置得到的。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的唇形驱动模型的生成方法，或者执行如第二方面所述的唇形驱动方法。

根据本公开第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的唇形驱动模型的生成方法，或者执行如第二方面所述的唇形驱动方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令在被处理器执行时实现如第一方面的唇形驱动模型的生成方法的步骤，或者执行如第二方面的唇形驱动方法的步骤。

本公开提供的唇形驱动模型的生成方法、装置、电子设备及存储介质，存在如下

有益效果：

本公开实施例中，首先将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像，之后根据唇形图像与样本脸部图像之间的差异，确定第一损失，并将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的；最后根据第一损失及多个第二损失中的最小值，对初始唇形驱动模型进行修正，以获取唇形驱动模型。由此，从多个不同类型的语音训练生成的同步网络中，选择最佳的同步网络生成的第二损失对唇形驱动网络进行监督训练，从而可以使生成的唇形驱动模型在不同类型的语音场景下，拥有较高的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种唇形驱动模型的生成方法的流程示意图；

图2是根据本公开又一实施例提供的一种唇形驱动模型的生成方法的流程示意图；

图3是根据本公开又一实施例提供的一种唇形驱动模型的生成方法的流程示意图；

图4是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图；

图5是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图；

图6是根据本公开一实施例提供的一种唇形驱动模型的生成装置的结构示意图；

图7是根据本公开又一实施例提供的一种唇形驱动装置的结构示意图；

图8是用来实现本公开实施例的唇形驱动模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

增强现实(Augmented Reality，AR)，是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

虚拟现实(Virtual Reality，VR)技术，是一种可以创建和体验虚拟世界的计算机仿真***，它利用计算机生成一种模拟环境，使用户沉浸到该环境中。虚拟现实技术就是利用现实生活中的数据，通过计算机技术产生的电子信号，将其与各种输出设备结合使其转化为能够让人们感受到的现象，这些现象可以是现实中真真切切的物体，也可以是我们肉眼所看不到的物质，通过三维模型表现出来。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

下面参考附图描述本公开实施例的唇形驱动模型的生成方法、装置、电子设备及存储介质。

其中，需要说明的是，本实施例的唇形驱动模型的生成方法的执行主体为唇形驱动模型的生成装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

图1是根据本公开一实施例提供的一种唇形驱动模型的生成方法的流程示意图。

如图1所示，该唇形驱动模型的生成方法包括：

S101：获取训练数据集，其中，训练数据集中包含音频数据、与音频数据对齐的样本脸部图像、样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像。

其中，音频数据、与音频数据对齐的样本脸部图像可以从一段包含声音的视频中获取，在从视频中获取每一帧音频的同时，获取与每一帧音频对应的样本脸部图像。

可选的，视频的获取方式可以包括多种，可以采用一种或多种方式获取视频。比如，可以实时录制视频，也可以获取预先存储的视频，还可以接收其他电子设备发送的视频，亦或是从网络上下载视频等。本公开对此不做限定。

本公开实施例中，为了提高唇形驱动模型的泛化能力，即可以对多种类型的语音进行处理，视频中音频的类型可以包括英语、汉语、少数民族语言等等。训练数据集中的每一组训练数据可以为对视频按词进行切分后得到的一组数据，如，每一组训练数据可以包含29帧视频等。或者，也可以对视频按句进行切分后得到的一组数据。或者，视频的的分辨率也可以不同等。本公开对此不做限定。

可选的，在从视频中获取每一帧音频之后，可以进一步获取每一帧音频对应的梅尔频谱特征，进而将每一帧音频对应的梅尔频谱特征作为音频数据。

需要说明的是，语音驱动人脸的目的是篡改唇形和下巴为主的脸部区域，因此，样本脸部图像对应的不包含唇部区域的遮罩图像可以为对样本脸部图像中人脸的唇部、脸部及下巴区域进行遮罩后得到的图像。从而可以保证没有遮罩的区域可以保持一致性。

另外，由于遮罩图像中遮罩区域是比较大的，对生成任务来说训练难度也增大，由于参考信息过少导致生成的结果不稳定，且干扰性大，因此，可以从同一视频中随机采样人脸作为参考脸部图像，且参考脸部图像是随机采样的，只有唇形信息，没有唇动信息，因此，模型可以从参考脸部图像学习到唇形特征(比如牙齿、唇部颜色和脸部颜色等应该是怎么样的)，而不会将唇动引入到结果当中。

S102：将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像。

本公开实施例中，可以基于连续帧视频作为驱动模板，比如，采用通用的0.2秒共5帧音频为输入单元，即每次输入唇形驱动模型中的数据为5帧连续音频数据、5帧连续遮罩图像、5帧参考脸部图像、5帧连续样本脸部图像。则生成的唇形图像也为5帧连续的视频。

其中，初始唇形驱动模型可以为还未经训练的唇形驱动模型，可选的，初始唇形驱动模型中可以包括音频编码器、图像编码器、生成网络等。其中，音频编码器用于对音频数据进行特征编码，图像编码器用于对遮罩图像及参考脸部图像进行特征编码，生成网络用于根据音频编码器、图像编码器的输出生成唇形图像。

可选的，可以先将音频数据输入初始唇形驱动模型中的音频编码器，以获取音频特征；将遮罩图像及参考脸部图像输入初始唇形驱动模型中的图像编码器，以获取遮罩图像对应的第一图像特征，及参考样本图像对应的第二图像特征，之后将音频特征、第一图像特征及第二图像特征输入初始唇形驱动模型中的生成网络，以获取唇形图像。

其中，音频编码器输出的音频特征可以为音频数据对应的高阶语义特征，且音频特征中包含的唇动特征。比如，音频特征的维度可以为512维。

其中，第一图像特征中包含的人脸的眼睛、眉毛、轮廓等高阶特征。第二图像特征中包含了人脸的牙齿、唇部颜色和脸部颜色等高阶特征。

可选的，也可以在音频特征、第一图像特征及第二图像特征之后，也可以将音频特征、第一图像特征及第二图像特征进行拼接之后，将拼接的特征输入初始唇形驱动模型中的生成网络。

由此，将音频数据输入初始唇形驱动模型中的音频编码器，以获取音频特征，之后将遮罩图像及参考脸部图像输入初始唇形驱动模型中的图像编码器，以获取遮罩图像对应的第一图像特征，及参考样本图像对应的第二图像特征，之后将音频特征、第一图像特征及第二图像特征输入初始唇形驱动模型中的生成网络，以获取唇形图像。从而可以使初始唇形驱动模型中的不同网络结构对不同的数据进行处理，从而可以准确地获取唇形图像。

S103：根据唇形图像与样本脸部图像之间的差异，确定第一损失。

可选的，可以采用均绝对误差公式(即L1损失函数)，对唇形图像与样本脸部图像之间的差异进行计算，以获取第一损失。

或者，采用其他适用的损失函数，对唇形图像与样本脸部图像之间的差异进行计算，以获取第一损失。本公开对此不做限定。

S104：将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的。

本公开实施例中，在训练的时候可以为多个同步网络(SyncNet)进行集成学习，通过这种方式，训练生成的唇形驱动模型就能够在不同的场景下都保持一个高精度的唇动状态。

具体为，针对不同的场景数据(即不同类型的语音，比如英语、汉语、法语等)，分别训练K个SyncNet，每个SyncNet通过自监督方式训练，即计算得到的特征计算余弦相似度，通过一个二分类交叉熵损失函数(BCEloss)来判别此段语音和唇形是否同步，同步为1不同步为0。且SyncNet的训练数据中包括正样本和负样本，每个正样本为同一视频中的同步段的语音和唇形，负样本为同一段视频中的不同步段的语音和唇形。

本公开实施例中，在获取生成网络输出的唇形图像之后，可以将音频数据及唇形图像输入K个训练完成的同步网络中，以获取K个第二损失。

S105：根据第一损失及多个第二损失中的最小值，对初始唇形驱动模型进行修正，以获取唇形驱动模型。

具体的，可以基于一定的规则，根据第一损失和多个第二损失中的最小值，确定训练损失。例如，可以将第一损失和多个第二损失中的最小值进行加和，将加和后的结果作为训练损失。又如，可以对第一损失和多个第二损失中的最小值求均值，将所得到均值作为训练损失。

在第一损失及多个第二损失中的最小值之后，即可对初始唇形驱动模型中的音频编码器、图像编码器、生成网络进行修正，以获取唇形驱动模型。

可选的，修正停止条件可以为迭代修正次数达到预设次数，或者第一损失及多个第二损失中的最小值的和小于阈值。其中，预设次数和阈值可以由本领域技术人员根据实际需求设定。

需要说明的是，第二损失越小，表示这段训练数据在这个同步网络中的表现最好；第二损失越大，表示同步网络本身对这段训练数据判别能力不太好。如果值较大的第二损失监督唇形驱动模型的训练，可能会导致过度训练，导致唇动变差。本公开实施例中，通过选择最佳的同步网络唇形驱动模型进行监督训练，保证生成的唇形驱动模型在不同类型的语音场景下，拥有较高的准确性,而不用担心由于场景差异性导致驱动出”阴阳怪气”的面对面交谈(face-talking)。

且本公开中的唇形驱动模型的生成方法具有良好的扩展性，针对其他特殊场景，只需要再训练一个场景对应的同步网络集成进去，再微调一下唇形驱动模型即可，训练代价极低。

图2是根据本公开又一实施例提供的一种唇形驱动模型的生成方法的流程示意图；如图2所示，该唇形驱动模型的生成方法包括：

S201：获取训练数据集，其中，训练数据集中包含音频数据、与音频数据对齐的样本脸部图像、样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像。

S202：将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像。

图3为本公开一实施例提供的一种唇形驱动模型的生成方法的流程示意图，如图3所示，初始唇形驱动模型的音频编码器中可以包含多个音频编码层，每个音频编码层输出的音频特征的维度不一致，越靠近音频编码器的输入层的音频编码层输出的音频特征维度越低，最后一个音频编码层输出的音频特征维度最高，即高阶语义特征。

初始唇形驱动模型的图像编码器中可以包含多个图像编码层，每个图像编码层输出的图像特征的维度不一致，越靠近图像编码器的输入层的图像编码层输出的图像特征维度越低，最后一个图像编码层输出的图像特征维度最高，即高阶图像特征。

初始唇形驱动模型的生成网络中也可以包含多个网络层。另外，为了生成高质量的人脸，在生成网络生成唇形图像的过程中，还可以通过跳跃连接(skip-connnection)的方式引入低阶特征，这样唇形驱动模型训练更快，同时生成的人脸更清晰生动。

如图3所示，本公开实施例中，音频数据为5帧，遮罩图像为5帧、样本脸部图像为5帧、参考图像为5帧，将5帧音频数据输入初始唇形驱动模型中的音频编码器，使音频编码器中包含的多个音频编码层依次对音频数据进行编码，以获取音频特征；将5帧遮罩图像、5帧参考图像输入初始唇形驱动模型中的图像编码器，使图像编码器中的多个图像编码层依次对遮罩图像及参考脸部图像进行编码，以获取遮罩图像对应的第一图像特征，及参考样本图像对应的第二图像特征，之后将音频特征、第一图像特征及第二图像特征输入初始唇形驱动模型中的生成网络，使生成网络中的多个网络层对音频特征、第一图像特征及第二图像特征融合后的特征进行解析，以获取唇形图像。

S203：基于均绝对误差公式，确定唇形图像与样本脸部图像之间的人脸重建损失。

如图3所示，基于均绝对误差公式，对5帧样本脸部图像及5帧唇形图像分别计算L1损失，之后将5帧唇形图像的损失的平均值确定为人脸重建损失(reconstruction loss)。

S204：将唇形图像及样本脸部图像输入卷积神经网络VGG，以获取唇形图像与样本脸部图像之间的内容感知损失。

其中，卷积神经网络VGG可以为预先训练好的，用于确定唇形图像与样本脸部图像之间的内容感知损失的网络。

如图3所示，将5帧唇形图像及5帧样本脸部图像输入卷积神经网络VGG，使卷积神经网络VGG分别计算每帧唇形图像及对应的样本脸部图像之间的内容感知损失，之后将5帧唇形图像分别对应的内容感知损失的平均值，确定为5帧唇形图像对应的内容感知损失。

S205：将唇形图像及样本脸部图像输入对抗网络，以获取唇形图像与样本脸部图像之间的对抗损失。

其中，对抗网络(Generative Adversarial Networks，GAN)可以为预先训练好的，用于确定唇形图像与样本脸部图像之间的对抗损失的网络。

如图3所示，将5帧唇形图像及5帧样本脸部图像输入对抗网络GAN，使对抗网络GAN分别计算每帧唇形图像及对应的样本脸部图像之间的对抗损失，之后将5帧唇形图像分别对应的对抗损失的平均值，确定为5帧唇形图像对应的对抗损失。

S206：将人脸重建损失、内容感知损失及对抗损失进行融合，以确定第一损失。

本公开实施例中，将人脸重建损失、内容感知损失及对抗损失进行融合，以确定第一损失，从而可以从多个维度确定第一损失，是确定的第一损失更加全面，准确。

可选的，可以获取人脸重建损失对应的第一权重，内容感知损失对应的第二权重，及对抗损失对应的第三权重，之后基于第一权重、第二权重及第三权重，对人脸重建损失、内容感知损失及对抗损失进行融合，以获取第一损失。由此，可以更加准确地确定第一损失，进而增加了唇形驱动模型训练的准确度。

其中，第一权重、第二权重、及第三权重的权重和可以不为1，且对唇形驱动模型的影响越大的损失，则对应的权重值就越大。

比如，第一权重可以为10，第二权重可以为0.3，第三权重为1。本公开对此不做限定。

或者，也可以将人脸重建损失、内容感知损失及对抗损失相加，以获取第一损失。

S207：将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的。

如图3所示，在获取5帧唇形图像之后，将5帧音频数据及5帧唇形图像同时输入多个同步网络(如图3中的SyncNet-1、……、SyncNet-k等)，之后获取多个同步网络输出的同步损失(Sync loss),即第二损失。

S208：获取多个第二损失中的最小值对应的第四权重。

其中，第四权重可以为预先设置的，多个第二损失中的最小值与第一损失进行融合的比例。比如，第四损失可以为0.3，本公开对此不做限定。

S209：基于第四权重，将第二损失中的最小值与第一损失进行融合，以获取目标损失。

本公开实施例中，根据人脸重建损失、内容感知损失、对抗损失及多个第二损失中的最小值，来确定目标损失，进一步增加了唇形驱动模型训练的准确度及效率。

S210：基于目标损失，对初始唇形驱动模型中的音频编码器、图像编码器及生成网络进行修正，以获取唇形驱动模型。

本公开实施例中，将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像，之后基于均绝对误差公式，确定唇形图像与样本脸部图像之间的人脸重建损失，并将唇形图像及样本脸部图像输入卷积神经网络VGG，以获取唇形图像与样本脸部图像之间的内容感知损失，将唇形图像及样本脸部图像输入对抗网络，以获取唇形图像与样本脸部图像之间的对抗损失，之后将人脸重建损失、内容感知损失及对抗损失进行融合，以确定第一损失，再将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的，最后基于多个第二损失中的最小值对应的第四权重，将第一损失与第二损失中的最小值进行融合，以获取目标损失，最后基于目标损失，对初始唇形驱动模型中的音频编码器、图像编码器及生成网络进行修正，以获取唇形驱动模型。由此，可以从人脸重建损失、内容感知损失及对抗损失多个维度确定第一损失，从而使确定的第一损失更加准确，进而使确定的第一损失与多个第二损失中的最小值融合后的目标损失更加准确，提高了唇形驱动模型训练的效率及准确性，进一步提高了生成的唇形驱动模型的准确性。

图4是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图；如图4所示，该唇形驱动方法包括：

S401：获取待驱动脸部图像数据、待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据。

其中，目标语音数据可以指的是一段语音，其用于驱动虚拟对象的唇部，使虚拟对象的唇部可以按照该目标语音数据进行相应的开合，即使得虚拟对象的唇形与真实人在说该目标语音数据时的唇形相似，通过唇形驱动来模拟虚拟对象说话的过程。

该目标语音数据的获取方式可以包括多种，比如，可以实时录制一段语音，也可以获取预先存储的一段语音，还可以接收其他电子设备发送的一段语音，亦或是从网络上下载一段语音。

待驱动脸部图像数据可以指的是包括虚拟对象脸部内容的图像数据，在虚拟对象为虚拟人物的情况下，该待驱动脸部图像数据可以为人脸数据。该待驱动脸部图像数据可以仅包括一张人脸图像，也可以包括多张人脸图像，这里不进行具体限定。该多张人脸图像可以称之为人脸系列，指的是同一虚拟人物的多张人脸图像，该多张人脸图像中人脸的姿态、表情、唇形等可以存在不同。

待驱动脸部图像数据中的唇部可以全部或部分处于张开状态(即虚拟对象处于说话状态)，也可以全部或部分处于闭合状态，这里不进行具体限定。当待驱动脸部图像数据全部处于闭合状态时，待驱动脸部图像数据可以为消除唇形的脸部图像数据，即虚拟对象一直未在说话，处于静默状态。

待驱动脸部图像数据的表现形式可以为视频，也可以图像，这里不进行具体限定。

待驱动脸部图像数据的获取方式可以包括多种，比如，可以实时录制一段视频或者实时拍摄一些图像作为待驱动脸部图像数据，也可以获取预先存储的一段视频或图像作为目标脸部图像数据，还可以接收其他电子设备发送的一段视频或图像作为目标脸部图像数据，亦或是从网络上下载一段视频或图像作为待驱动脸部图像数据。其中，获取的视频可以包括脸部图像，获取的图像可以包括脸部图像内容。

待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据，可以为对待驱动脸部图像数据中人脸的唇部、脸部及下巴区域进行遮罩后得到的图像数据。

S402：将待驱动脸部图像数据、遮罩图像数据和目标语音数据，输入唇形驱动模型，以获取在目标语音数据驱动下的目标唇形图像数据。

本实施例中，唇形驱动模型基于本公开任一实施例所提供的唇形驱动模型的训练方法训练得到。

可选的，可以将目标语音数据输入唇形驱动模型中的音频编码器，以获取目标语音数据中每帧语音数据对应的语音特征，将待驱动脸部图像数据及遮罩图像数据输入唇形驱动模型中的图像编码器，以获取待驱动脸部图像数据对应的第一目标图像特征，及遮罩图像数据对应的第二目标图像特征，之后将第一目标图像特征、第二目标图像特征及目标语音特征输入唇形驱动模型中的生成网络，以获取在目标语音数据驱动下的目标唇形图像数据。

本公开实施例中，首先获取待驱动脸部图像数据、待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据，之后将待驱动脸部图像数据、遮罩图像数据和目标语音数据，输入唇形驱动模型，以获取在目标语音数据驱动下的目标唇形图像数据。由此，通过唇形驱动模型来确定在目标语音数据驱动下的目标唇形图像数据，可以保证不同类型的语音场景下，语音与待驱动人脸的唇形同步。

图5是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图；如图5所示，该唇形驱动方法包括：

S501：获取待驱动脸部图像数据、待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据。

S502：将目标语音数据输入唇形驱动模型中的音频编码器，以获取目标语音数据中每帧语音数据对应的语音特征。

S503：将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合，以获取每帧语音数据对应的目标语音特征。

本公开实施例中，为了避免生成连续目标唇形图像数据时出现抖动问题，进而导致唇动偶发性不稳定问题，设计了一套唇动平滑策略，即将当前帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合，以获取每帧语音数据对应的目标语音特征。

可选的，可以以加权的方式将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合。

其中，每帧语音数据对应的语音特征对应的权重与前一帧语音数据对应的目标语音特征的权重和为1。比如，每帧语音数据对应的语音特征的权重为0.7，前一帧语音数据对应的目标语音特征的权重为0.3。

S504：将待驱动脸部图像数据及遮罩图像数据输入唇形驱动模型中的图像编码器，以获取待驱动脸部图像数据对应的第一目标图像特征，及遮罩图像数据对应的第二目标图像特征。

S505：将第一目标图像特征、第二目标图像特征及目标语音特征输入唇形驱动模型中的生成网络，以获取在目标语音数据驱动下的目标唇形图像数据。

本公开实施例中，首先获取待驱动脸部图像数据、待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据，之后将目标语音数据输入唇形驱动模型中的音频编码器，以获取目标语音数据中每帧语音数据对应的语音特征，将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合，以获取每帧语音数据对应的目标语音特征，将待驱动脸部图像数据及遮罩图像数据输入唇形驱动模型中的图像编码器，以获取待驱动脸部图像数据对应的第一目标图像特征，及遮罩图像数据对应的第二目标图像特征，最后将第一目标图像特征、第二目标图像特征及目标语音特征输入唇形驱动模型中的生成网络，以获取在目标语音数据驱动下的目标唇形图像数据。由此，通过将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合，以获取每帧语音数据对应的目标语音特征，从而可以避免生成的连续目标唇形图像数据出现抖动，进而导致唇动偶发性不稳定的问题，提高了生成的目标唇形图像数据的唇动平滑性。

图6是根据本公开一实施例提供的一种唇形驱动模型的生成装置的结构示意图，如图6所示，该唇形驱动模型的生成装置600，包括：

第一获取模块610，用于获取训练数据集，其中，训练数据集中包含音频数据、与音频数据对齐的样本脸部图像、样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像；

第二获取模块620，用于将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像；

确定模块630，用于根据唇形图像与样本脸部图像之间的差异，确定第一损失；

第三获取模块640，用于将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的；

第四获取模块650，用于根据第一损失及多个第二损失中的最小值，对初始唇形驱动模型进行修正，以获取唇形驱动模型。

可选的，第二获取模块620，具体用于：

将音频数据输入初始唇形驱动模型中的音频编码器，以获取音频特征；

将遮罩图像及参考脸部图像输入初始唇形驱动模型中的图像编码器，以获取遮罩图像对应的第一图像特征，及参考样本图像对应的第二图像特征；

将音频特征、第一图像特征及第二图像特征输入初始唇形驱动模型中的生成网络，以获取唇形图像。

可选的，确定模块630，具体用于：

基于均绝对误差公式，确定唇形图像与样本脸部图像之间的人脸重建损失；

将唇形图像及样本脸部图像输入卷积神经网络VGG，以获取唇形图像与样本脸部图像之间的内容感知损失；

将唇形图像及样本脸部图像输入对抗网络，以获取唇形图像与样本脸部图像之间的对抗损失；

将人脸重建损失、内容感知损失及对抗损失进行融合，以确定第一损失。

可选的，确定模块630，具体用于：

获取人脸重建损失对应的第一权重，内容感知损失对应的第二权重，及对抗损失对应的第三权重；

基于第一权重、第二权重及第三权重，对人脸重建损失、内容感知损失及对抗损失进行融合，以获取第一损失。

可选的，第四获取模块650，具体用于：

获取多个第二损失中的最小值对应的第四权重；

基于第四权重，将第二损失中的最小值与第一损失进行融合，以获取目标损失；

基于目标损失，对初始唇形驱动模型中的音频编码器、图像编码器及生成网络进行修正，以获取唇形驱动模型。

需要说明的是，前述对唇形驱动模型的生成方法的解释说明也适用于本实施例的唇形驱动模型的生成装置，此处不再赘述。

图7是根据本公开一实施例提供的一种唇形驱动模型的生成装置的结构示意图，如图7所示，该唇形驱动装置700，包括：

第一获取模块710，用于获取待驱动脸部图像数据、待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据；

第二获取模块720，用于将待驱动脸部图像数据、遮罩图像数据和目标语音数据，输入唇形驱动模型，以获取在目标语音数据驱动下的目标唇形图像数据；其中，唇形驱动模型为基于权利要求8-12中任一项的唇形驱动模型的生成装置得到的。

可选的，第二获取模块720，具体用于：

将目标语音数据输入唇形驱动模型中的音频编码器，以获取目标语音数据中每帧语音数据对应的语音特征；

将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合，以获取每帧语音数据对应的目标语音特征；

将待驱动脸部图像数据及遮罩图像数据输入唇形驱动模型中的图像编码器，以获取待驱动脸部图像数据对应的第一目标图像特征，及遮罩图像数据对应的第二目标图像特征；

将第一目标图像特征、第二目标图像特征及目标语音特征输入唇形驱动模型中的生成网络，以获取在目标语音数据驱动下的目标唇形图像数据。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如唇形驱动模型的生成方法，或者唇形驱动方法。例如，在一些实施例中，唇形驱动模型的生成方法，或者唇形驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的唇形驱动模型的生成方法，或者唇形驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行唇形驱动模型的生成方法，或者唇形驱动方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

本实施例中，首先将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中，以获取唇形图像，之后根据唇形图像与样本脸部图像之间的差异，确定第一损失，并将音频数据及唇形图像分别输入多个同步网络中，以获取每个同步网络输出的第二损失，其中，各个同步网络分别为基于不同类型的语音训练生成的；最后根据第一损失及多个第二损失中的最小值，对初始唇形驱动模型进行修正，以获取唇形驱动模型。由此，从多个不同类型的语音训练生成的同步网络中，选择最佳的同步网络生成的第二损失对唇形驱动网络进行监督训练，从而可以使生成的唇形驱动模型在不同类型的语音场景下，拥有较高的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本公开的描述中，所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“在……情况下”。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种唇形驱动模型的生成方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中，以获取唇形图像，包括：

将所述音频数据输入所述初始唇形驱动模型中的音频编码器，以获取音频特征；

将所述遮罩图像及所述参考脸部图像输入所述初始唇形驱动模型中的图像编码器，以获取所述遮罩图像对应的第一图像特征，及所述参考样本图像对应的第二图像特征；

将所述音频特征、所述第一图像特征及所述第二图像特征输入所述初始唇形驱动模型中的生成网络，以获取所述唇形图像。

3.根据权利要求2所述的方法，其中，所述根据所述唇形图像与所述样本脸部图像之间的差异，确定第一损失，包括：

基于均绝对误差公式，确定所述唇形图像与所述样本脸部图像之间的人脸重建损失；

将所述唇形图像及所述样本脸部图像输入卷积神经网络VGG，以获取所述唇形图像与所述样本脸部图像之间的内容感知损失；

将所述唇形图像及所述样本脸部图像输入对抗网络，以获取所述唇形图像与所述样本脸部图像之间的对抗损失；

将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合，以确定所述第一损失。

4.根据权利要求3所述的方法，其中，所述将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合，以确定所述第一损失，包括：

获取所述人脸重建损失对应的第一权重，所述内容感知损失对应的第二权重，及所述对抗损失对应的第三权重；

基于所述第一权重、所述第二权重及所述第三权重，对所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合，以获取所述第一损失。

5.根据权利要求4所述的方法，其中，所述根据所述第一损失及所述多个第二损失中的最小值，对所述初始唇形驱动模型进行修正，以获取唇形驱动模型，包括：

获取所述多个第二损失中的最小值对应的第四权重；

基于所述第四权重，将所述第二损失中的最小值与所述第一损失进行融合，以获取目标损失；

基于所述目标损失，对所述初始唇形驱动模型中的所述音频编码器、所述图像编码器及所述生成网络进行修正，以获取所述唇形驱动模型。

6.一种唇形驱动方法，包括：

将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据，输入唇形驱动模型，以获取在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型为基于权利要求1-5中任一项所述的唇形驱动模型的生成方法得到的。

7.根据权利要求6所述的方法，其中，所述将所述待驱动脸部图像数据，输入唇形驱动模型，以获取在所述目标语音数据驱动下的目标唇形图像数据，包括：

将所述目标语音数据输入所述唇形驱动模型中的音频编码器，以获取所述目标语音数据中每帧语音数据对应的语音特征；

将所述待驱动脸部图像数据及所述遮罩图像数据输入所述唇形驱动模型中的图像编码器，以获取所述待驱动脸部图像数据对应的第一目标图像特征，及所述遮罩图像数据对应的第二目标图像特征；

将所述第一目标图像特征、所述第二目标图像特征及所述目标语音特征输入所述唇形驱动模型中的生成网络，以获取在所述目标语音数据驱动下的所述目标唇形图像数据。

8.一种唇形驱动模型的生成装置，包括：

9.根据权利要求8所述的装置，其中，所述第二获取模块，具体用于：

10.根据权利要求9所述的装置，其中，所述确定模块，具体用于：

11.根据权利要求10所述的装置，其中，所述确定模块，具体用于：

12.根据权利要求11所述的装置，其中，所述第四获取模块，具体用于：

获取所述多个第二损失中的最小值对应的第四权重；

13.一种唇形驱动装置，包括：

第二获取模块，用于将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据，输入唇形驱动模型，以获取在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型为基于权利要求8-12中任一项所述的唇形驱动模型的生成装置得到的。

14.根据权利要求13所述的装置，其中，所述第二获取模块，具体用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法，或者执行权利要求6-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法，或者执行权利要求6-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤，或者执行权利要求6-7中任一项所述的方法的步骤。