CN117152283A

CN117152283A - 一种利用扩散模型的语音驱动人脸图像生成方法及***

Info

Publication number: CN117152283A
Application number: CN202310944172.3A
Authority: CN
Inventors: 虞钉钉; 徐清; 王晓梅; 沈伟林; 沈旭立; 曹培
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-12-01

Abstract

本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及***，涉及AIGC技术领域，包括：输入驱动音频和部分人脸图像；对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；将音频特征和图像特征输入到扩散模型，生成完整图像特征；将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。本发明充分利用扩散模型以及特征融合，实现准确清晰地生成和音频相对应的人脸图像。

Description

一种利用扩散模型的语音驱动人脸图像生成方法及***

技术领域

本发明涉及AIGC技术领域，尤其是涉及一种利用扩散模型的语音驱动人脸图像生成方法及***。

背景技术

AI生成内容，即AIGC，是当前最为热门的话题之一。AIGC本质是利用AI来自动生成内容。而内容的形式可以表现为文字、图像、音频、视频等等。

对于语音驱动人脸图像生成任务，深度学习是当前最为流行的方法。语音驱动人脸图像生成技术主要是采用深度模型来处理音频和图像特征以及一些附加的特征，比如2D的关键点特征或者3D的人脸重建相关特征，并生成相应的人脸图像。而根据使用的模型架构，语音驱动人脸图像生成技术主要可以分为两类：一类是采用对抗生成网络GANs；另一类是采用神经辐射场Nerf。但上述两类模型，在人脸图像生成的质量上都有所欠缺。

语音驱动人脸生成技术，涉及到多模态数据，与AIGC中的图像生成领域十分相关，如何利用AIGC技术实现语音驱动人脸图像生成是一个非常重要的问题。

发明内容

针对上述问题，本发明提供了一种利用扩散模型的语音驱动人脸图像生成方法及***，采用扩散模型，通过充分利用扩散模型的生成能力，准确生成和音频相对应的高质量人脸图像。

为实现上述目的，本发明提供了一种利用扩散模型的语音驱动人脸图像生成方法，包括：

输入驱动音频和部分人脸图像；

对所述驱动音频和所述部分人脸图像分别进行特征提取，得到音频特征和图像特征；

将所述音频特征和所述图像特征输入到扩散模型，生成完整图像特征；

将所述扩散模型生成的所述完整图像特征输入解码器，得到完整人脸图像。

作为本发明的进一步改进，所述部分人脸图像为掩码掉下半脸的人脸图像，包含人脸的姿态信息。

作为本发明的进一步改进，采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取。

作为本发明的进一步改进，采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取，得到所述图像特征。

作为本发明的进一步改进，采用预训练好的第一网络对所述驱动音频进行特征提取，得到所述音频特征；并采用包括卷积、跳层连接结构的第二网络对所述音频特征进一步映射，得到映射后的所述音频特征。

作为本发明的进一步改进，所述扩散模型采用UNet结构的深度网络模型；

所述图像特征输入所述扩散模型的第一层，映射后的所述音频特征融合到所述扩散模型的每一层中。

作为本发明的进一步改进，所述驱动音频的长度大于一帧图像的音频长度。

作为本发明的进一步改进，所述解码器为预训练好的自编码器的解码部分。

作为本发明的进一步改进，所述编码器和所述解码器构成完整的自编码器模型，其损失函数为：

L_AE＝L_rec(x,S(x))+L_dis(S(x))+L_dis(S(x))

其中，

L_rec(x,S(x))表示回归损失，衡量输入的部分人脸图像和输出的所述完整人脸图像的区别；

L_dis(S(x))表示对自编码以后的所述完整人脸图像的判别损失；

L_dis(S(x))表示对自编码器模型S的正则化损失。

本发明还提供了一种用扩散模型的语音驱动人脸图像生成***，包括：输入模块、特征提取模块、特征融合模块和解码输出模块；

所述输入模块，用于：

输入驱动音频和部分人脸图像；

所述特征提取模块，用于：

所述特征融合模块，用于：

所述解码输出模块，用于：

与现有技术相比，本发明的有益效果为：

本发明通过对部分图像的图像特征提取、驱动音频特征提取、图像特征和音频特征融合及扩散，得到与音频口型相一致的完整人脸图像输出，实现了人脸图像与音频的结合，能够准确生成和音频相对应的高质量人脸图像。

本发明通过通过掩码掉下半张脸的人脸图像作为基础，使用其人脸姿态信息，对于完整人脸图像的生成具有意义及作用。

本发明输入超过一帧图像音频长度几倍甚至几十倍的驱动音频，在当前人脸图像的生成过程中，可以更好的结合前后信息，使最终生成的人脸图像与前后剧情更加贴合，与前后人脸图像结合后更加平滑。

附图说明

图1为本发明一种实施例公开的利用扩散模型的语音驱动人脸图像生成方法流程图；

图2为本发明一种实施例公开的利用扩散模型的语音驱动人脸图像生成***示意图；

图3为本发明一种实施例公开的完整模型示意图；

图4为本发明一种实施例公开的图像特征和音频特征融合到扩散模型的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1、3所示，本发明提供的一种利用扩散模型的语音驱动人脸图像生成方法，包括步骤：

S1、输入驱动音频和部分人脸图像；

其中，

部分人脸图像为一张掩码掉下半脸的人脸图像，如：RGB图像，其包含人脸的姿态信息。

进一步的，

部分人脸图像相关的人脸姿态信息，帮助模型最终生成一张和驱动音频相对应口型的图像。

具体的，

输入的驱动音频的长度将大于一张图像所对应的音频长度。以25FPS的视频为例，一帧图像会对应40ms的音频长度，而输入的驱动音频的长度大于一帧图像的音频长度，将会是40ms的几倍，甚至十几倍；以此来提供当前音频的前后信息，让模型生成的图像结果更加平滑。

S2、对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；

其中，

采用不同的神经网络对输入的部分人脸图像和驱动音频进行特征提取。

进一步的，

采用预训练好的自编码器的编码部分对部分人脸图像进行特征提取，得到图像特征。

对驱动音频进行特征提取的网络分为两个模块，采用预训练好的第一网络(实质为语音特征提取模块)对驱动音频进行特征提取，得到音频特征；采用包括卷积、跳层连接等结构的第二网络对音频特征进一步映射，得到映射后的音频特征。

具体的，

第一网络已经在大量语音数据上进行预训练，以用于初步提取语音特征；

第二网络是一个可以训练的模块，该模块用于对语音特征进行进一步映射，以用于下一步的扩散模型。

S3、将音频特征和图像特征输入到扩散模型，生成完整图像特征；

其中，

扩散模型采用UNet结构的深度网络模型；

如图4所示，图像特征输入扩散模型的第一层，而映射后的音频特征融合到扩散模型的每一层中。

S4、将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。

其中，

解码器对应步骤S2中自编码器的编码部分，为预训练好解码部分；

编码器和解码器构成完整的自编码器模型，自编码器模型损失函数为：

L_AE＝L_rec(x,S(x))+L_dis(S(x))+L_dis(S(x))

式中，

L_rec(x,S(x))表示回归损失，衡量输入的部分人脸图像和输出的完整人脸图像的区别；

L_dis(S(x))表示对自编码以后的完整人脸图像的判别损失；

L_dis(S(x))表示对自编码器模型S的正则化损失。

本发明中，除自编码器的编码部分和解码部分需要预训练外，扩散模型和驱动音频的提取网络(第二网络)也需要进行训练，且扩散模型和第二网络可以一起训练，训练框架为扩散模型的训练框架，具体的损失函数为：

其中，

∈为高斯噪声，z_a是音频特征，z_i是图像特征，z_t则通过扩散模型的扩散过程得到。

通过采用上述模型以后，可以生成高质量的和语音相匹配的人脸图像。

如图2所示，本发明还提供了一种利用扩散模型的语音驱动人脸图像生成***，包括：输入模块、特征提取模块、特征融合模块和解码输出模块；

输入模块，用于：

输入驱动音频和部分人脸图像；

特征提取模块，用于：

对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；

特征融合模块，用于：

将音频特征和图像特征输入到扩散模型，生成完整图像特征；

解码输出模块，用于：

将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。

本发明的优点：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用扩散模型的语音驱动人脸图像生成方法，其特征在于，包括：

输入驱动音频和部分人脸图像；

2.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述部分人脸图像为掩码掉下半脸的人脸图像，包含人脸的姿态信息。

3.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取。

4.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取，得到所述图像特征。

5.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用预训练好的第一网络对所述驱动音频进行特征提取，得到所述音频特征；并采用包括卷积、跳层连接结构的第二网络对所述音频特征进一步映射，得到映射后的所述音频特征。

6.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述扩散模型采用UNet结构的深度网络模型；

7.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述驱动音频的长度大于一帧图像的音频长度。

8.根据权利要求4所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述解码器为预训练好的自编码器的解码部分。

9.根据权利要求8所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述编码器和所述解码器构成完整的自编码器模型，其损失函数为：

L_AE＝L_rec(x，S(x))+L_dis(S(x))+L_dis(S(x))

其中，

L_rec(x，S(x))表示回归损失，衡量输入的部分人脸图像和输出的所述完整人脸图像的区别；

L_dis(S(x))表示对自编码器模型S的正则化损失。

10.一种实现如权利要求1～9任一项所述方法的利用扩散模型的语音驱动人脸图像生成***，其特征在于，包括：输入模块、特征提取模块、特征融合模块和解码输出模块；

所述输入模块，用于：

输入驱动音频和部分人脸图像；

所述特征提取模块，用于：

所述特征融合模块，用于：

所述解码输出模块，用于：