CN116071472B

CN116071472B - 图像生成方法及装置、计算机可读存储介质、终端

Info

Publication number: CN116071472B
Application number: CN202310099764.XA
Authority: CN
Inventors: 虞钉钉; 徐清; 王晓梅; 沈伟林; 沈旭立; 曹培
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2024-04-30
Anticipated expiration: 2043-02-08
Also published as: CN116071472A

Abstract

一种图像生成方法及装置、计算机可读存储介质、终端，所述方法包括：根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；对所述音频信息进行特征提取，得到第一特征信息；对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。

Description

图像生成方法及装置、计算机可读存储介质、终端

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像生成方法及装置、计算机可读存储介质、终端。

背景技术

近年来，元宇宙相关技术的发展受到广泛关注，随着元宇宙概念的兴起，数字化人物的生成技术成为技术热点。其中，数字化人物的脸部图像生成是数字化人物生成的关键子任务之一。

发明内容

本申请实施例的技术目的在于提供一种图像生成方法及装置、计算机可读存储介质、终端，以生成高质量的脸部图像。

有鉴于此，本申请实施例提供一种图像生成方法，所述方法包括：根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；对所述音频信息进行特征提取，得到第一特征信息；对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

可选的，根据输入的音频信息，得到模板图像之前，所述方法还包括：采用训练数据对第一预设模型进行训练，当模型收敛时得到生成模型，其中，所述生成模型包括：用于对所述音频信息进行特征提取的第一特征提取模块、用于对所述图像信息进行特征提取的第二特征提取模块、用于对所述第三特征信息进行解码处理的解码模块；其中，所述训练数据包括：样本音频信息、所述样本音频信息对应的样本脸部图像，所述采用训练数据对第一预设模型进行训练包括：将所述训练数据输入至所述第一预设模型，得到所述第一预设模型输出的结果图像；至少根据第一损失和第二损失，计算目标损失，其中，所述第一损失用于表征所述结果图像和所述样本脸部图像之间的差异，所述第二损失用于表征所述样本音频信息和所述结果图像之间的匹配度，匹配度越高，所述第二损失越小；根据所述目标损失更新所述第一预设模型。

可选的，所述至少根据第一损失和第二损失，计算目标损失包括：根据所述第一损失、第二损失和第三损失，计算所述目标损失，其中，所述第三损失用于表征所述结果图像被识别为所述样本脸部图像的概率，所述概率越大，所述第三损失越小。

可选的，根据输入的音频信息，得到模板图像包括：根据所述音频信息，确定关键点信息，所述关键点信息至少包括：第一关键点的坐标，所述第一关键点为位于嘴部区域的关键点；根据所述关键点信息在空白图像中绘制关键点，得到所述模板图像。

可选的，所述关键点信息还包括以下至少一项：第二关键点的坐标、第三关键点的坐标和第四关键点的坐标；其中，所述第二关键点为位于脸部轮廓的关键点、所述第三关键点为位于鼻子区域的关键点、所述第四关键点为位于眼部轮廓的关键点。

可选的，根据所述音频信息，确定关键点信息包括：将所述音频信息输入至预先训练得到的转化模型，得到所述转化模型输出的关键点信息。

可选的，所述转化模型的训练数据包括：样本音频信息和对应的样本关键点信息，所述样本音频信息提取自样本视频，在训练所述转化模型之前，所述方法还包括：从所述样本视频中提取多帧样本脸部图像，并在各帧样本脸部图像中标注多个关键点；针对每个关键点，根据该关键点在各帧样本脸部图像中的坐标，计算该关键点的归一化参数；针对每帧样本脸部图像，根据各个关键点的归一化参数和各个关键点在该帧样本脸部图像中的坐标，得到该帧样本脸部图像的样本关键点信息。

可选的，在根据所述关键点信息在空白图像中绘制关键点之前，所述方法还包括：根据所述归一化参数和所述转化模型输出的关键点信息，得到用于绘制关键点的关键点信息。

本申请实施例还提供一种图像生成装置，包括：模板图像生成模块，用于根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；第一特征提取模块，用于对所述音频信息进行特征提取，得到第一特征信息；第二特征提取模块，用于对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；解码模块，用于对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的图像生成方法的步骤。

本申请实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的图像生成方法的步骤。

与现有技术相比，本申请实施例的技术方案具有以下有益效果：

在本申请实施例的方案中，先根据输入的音频信息得到模板图像，其中，模板图像用于表征和音频信息相适配的脸部姿态。进一步地，一方面提取音频信息中的特征，得到第一特征信息，另一方面提取模板图像和预设脸部图像融合得到的图像信息中的特征，得到第二特征信息，然后对第一特征信息和第二特征信息进行融合，得到第三特征信息，最后对第三特征信息进行解码处理，生成目标脸部图像。

采用上述方案，音频信息不仅用于生成适配的模板图像，还与生成的模板图像一并用于生成目标脸部图像。具体而言，模板图像是基于音频信息生成的，基于模板图像提取的第二特征信息中携带有音频特征，在此基础上，还将第二特征信息与第一特征信息进行融合，对音频特征进行了多重的融合，最后根据融合得到的第三特征信息生成目标脸部图像。相较于仅根据模板图像生成目标脸部图像的方案，上述方案中充分利用音频信息，能够有效提高目标脸部图像和音频信息的适配性，从而提高脸部图像的质量。

进一步地，在本申请实施例的方案中，根据第一损失和第二损失计算用于模型更新的目标损失。其中，第一损失用于表征结果图像和样本脸部图像之间的差异，第二损失用于表征样本音频信息和结果图像之间的匹配度，匹配度越高，第二损失越小。相较于仅采用第一损失更新模型的方案，上述方案中，还将样本音频信息作为生成模型的监督信息，不仅能够加快模型的训练，还能够提高生成模型的性能，使得生成模型处理得到的脸部图像和音频更加适配。

进一步地，本申请实施例的方案中，根据第一损失、第二损失和第三损失计算用于模型更新的目标损失。其中，第三损失用于表征结果图像被识别为样本脸部图像的概率，概率越大，第三损失越小。相较于仅采用第一损失更新模型的方案，上述方案中将结果图像的真实性作为生成模型的监督信息，有利于提高生成模型的性能，使得生成模型处理得到的脸部图像更加真实自然。

附图说明

图1是本申请实施例中一种图像生成方法的流程示意图；

图2是图1中步骤S11的一种具体实施方式的流程示意图；

图3是本申请实施例中一种模板图像的示意图；

图4是本申请实施例中一种图像生成方法的模型架构示意图；

图5是本申请实施例中一种生成模型的训练方法的流程示意图；

图6是本申请实施例中一种图像生成装置的结构示意图。

具体实施方式

如背景技术所述，数字化人物的脸部图像生成是数字化人物生成的关键子任务之一。

由音频驱动数字化人物的脸部图像生成是目前的研究热点之一，如何使生成的脸部图像与音频相适配是业内目前关注的技术问题。由音频驱动脸部图像生成主要有以下两个技术方向：

其一：将样本音频和对应的样本脸部图像作为训练数据对一个模型进行训练，以是该模型学习音频和脸部图像之间直接的关联关系，然后在训练完成后将音频和预设的形象信息输入至训练得到的模型中，直接生成目标脸部图像。然而，这种方法依赖的训练数据较多，并且在实际的实施中，由于输入误差和噪声的影响，这种方案也容易出现模型不稳定的问题，导致在一些情况下无法生成的脸部图像和音频的适配较差。

其二：将样本音频和对应的样本脸部图像作为训练数据对两个模型进行训练，其中，第一个模型用于学习音频和中间变量之间的关联关系，第二个模型用于学习中间变量和脸部图像之间的关联关系。在训练完成后，先将音频通过第一个模型生成一个中间变量，再将该中间变量和预设的形象信息输入第二个模型，生成目标脸部图像。这种方法由于引入了中间变量，中间变量的误差会影响模型的训练和使用。

具体而言，第二个模型的训练数据为样本音频对应的样本中间变量以及样本音频对应的样本脸部图像，由于样本音频对应的样本中间变量是通过第一个模型生成的，样本中间变量和样本音频之间通常存在一定的误差，因此，采用样本中间变量作为第二个模型的训练数据，会导致第二个模型生成的脸部图像和音频之间存在较大的误差。

有鉴于此，本申请实施例提供一种图像生成方法，在本申请实施例的方案中，先根据输入的音频信息得到模板图像，其中，模板图像用于表征和音频信息相适配的脸部姿态。进一步地，一方面提取音频信息中的特征，得到第一特征信息，另一方面提取模板图像和预设脸部图像融合得到的图像信息中的特征，得到第二特征信息，然后对第一特征信息和第二特征信息进行融合，得到第三特征信息，最后对第三特征信息进行解码处理，生成目标脸部图像。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本申请实施例中一种图像生成方法的流程示意图。所述方法可以由终端执行，所述终端可以是各种恰当的终端，例如，可以是手机、计算机、物联网设备等，但并不限于此。本申请实施例中生成的目标脸部图像可以是人脸图像，例如，也可以是真实人脸的图像，也可以是虚拟人物的脸部图像。或者，脸部图像还可以是虚拟动物等虚拟形象的脸部图像，本实施例对此并不限制。

图1示出的图像生成方法可以包括：

步骤S11：根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；

步骤S12：对所述音频信息进行特征提取，得到第一特征信息；

步骤S13：对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；

步骤S14：对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

可以理解的是，在具体实施中，上述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现，例如用专用的芯片或芯片模组来实现，或者，用专用的芯片或芯片模组结合软件程序来实现。

在步骤S11的具体实施中，可以获取音频信息，所述音频信息可以是用于驱动脸部图像的发音单元(如音节、字、词等)。例如，音频信息可以是基于语音提取的发音单元，或者，可以是基于文本生成的发音单元，本实施例对此并不限制。需要说明的是，文本和语音的内容是相同的，但表现形式不同。任意长度的语音都可以拆分成一个或多个发音单元的组合，也即，发音单元是构建语音的基本元素。

进一步地，可以根据音频信息生成模板图像，其中，模板图像可以用于表征和音频信息相适配的脸部姿态。其中，脸部姿态至少包括唇形。进一步地，脸部姿态还可以包括：脸部轮廓、眼部的姿态和鼻子的姿态等。

在具体实施中，音频信息具有时间码，基于音频信息依次执行步骤S11至步骤S14之后得到的目标脸部图像也具有与音频信息相同的时间码。对按照时序排列的多个音频信息依次执行步骤S11至步骤S14，可以得到按照时序排列的多帧目标脸部图像，从而可以得到脸部视频，且脸部视频中脸部姿态与音频保持同步。

参照图2和图3，图2是图1中步骤S11的一种具体实施方式的流程示意图，图3是本申请实施例中一种模板图像的示意图，下面结合图2和图3对步骤S11的一种具体实施方式进行详细说明。图2示出的步骤S11可以包括：

步骤S111：根据所述音频信息，确定关键点信息；

步骤S112：根据所述关键点信息在空白图像中绘制关键点，得到所述模板图像。

在步骤S111中，可以将音频信息输入至预先训练得到的转化模型中，得到转化模型输出的关键点信息，关键点信息可以包括关键点的坐标。然后在步骤S112中，在空白图像中绘制关键点，得到模板图像。

需要说明的是，本申请实施例的方案中，空白图像的尺寸和下文中的预设脸部图像的尺寸是一致的，由此，绘制得到的模板图像的尺寸和预设脸部图像的尺寸是一致的。

在本申请的一实施例中，关键点信息可以包括第一关键点的坐标，第一关键点的数量为多个，第一关键点是指位于嘴部区域的关键点。在具体实施中，嘴部区域可以是指嘴唇。

在步骤S112中，在空白图像中绘制第一关键点，由于第一关键点为嘴部区域的关键点，因此，绘制得到的模板图像中第一关键点可以用于刻画或表征唇形。由于第一关键点的坐标是根据音频信息得到的，因此第一关键点表征的唇形和音频信息相适配。

在本申请的另一实施例中，除第一关键点的坐标以外，关键点信息还可以包括辅助关键点的坐标，其中，所述辅助关键点包括以下至少一项：第二关键点、第三关键点和第四关键点。其中，第二关键点是位于脸部轮廓的关键点、第三关键点是位于鼻子区域的关键点，第四关键点是位于眼部轮廓的关键点。

本申请实施例考虑到，提高脸部图像的真实性也是提高脸部图像质量的重要方面。为此，本申请实施例的方案中，还可以根据音频信息得到上述辅助关键点的坐标。具体地，可以将音频信息输入至预先训练得到的转化模型，得到转化模型输出的第一关键点的坐标和辅助关键点的坐标。

进一步地，在步骤S112中，可以在空白图像中绘制第一关键点和辅助关键点。由于辅助关键点可以包括位于脸部轮廓的第二关键点、位于鼻子区域的第三关键点和位于眼部轮廓的第四关键点中的一项或多项，因此绘制得到的模板图像的辅助关键点可以用于刻画或表征脸部轮廓、鼻子的姿态、眼部的姿态中的一项或多项。由于辅助关键点的坐标是根据音频信息得到的，因此辅助关键点所表征的脸部轮廓、鼻子的姿态、眼部的姿态均能够和音频信息相适配。

在数字化人物为真实人物的情况下，采用上述方案可以不仅可以使唇形和音频相适配，还能够使脸部轮廓、鼻子的姿态、眼部的姿态和音频相适配，从而使得模板图像表征或呈现的整体脸部姿态更加真实、自然，贴近真实人物发音时脸部的姿态，避免除唇形以外的其他姿态和唇形不适配的问题。

需要说明的是，步骤S112中绘制得到的模板图像中包含步骤S111中得到的所有的关键点。作为一个示例，对于得到的每个关键点，可以以小黑点的形式被画到空白图像中，且各个小黑点的尺寸保持一致。

在一个非限制性的例子中，在执行步骤S112之前，可以先对S111得到的关键点信息进行平滑处理，使得最终生成的目标脸部图像与相邻帧的脸部图像更加连贯自然。

在执行步骤S111之前，可以先通过模型训练得到转化模型。其中，转化模型的训练数据可以包括样本音频信息和对应的样本关键点信息。

具体地，在获取样本视频之后，可以从样本视频中提取样本音频信息，以及按照一定的帧率提取多帧样本脸部图像，其中，具有相同时间码的样本音频信息和样本脸部图像之间具有对应关系。在具体实施中，所述样本视频可以是由真人演员预先录制的。

进一步地，可以在各帧样本脸部图像中标注出多个关键点，所述多个关键点可以包括第一关键点，或者，多个关键点可以包括第一关键点和辅助关键点。

进一步地，在标注多个关键点之后，可以确定各帧样本脸部图像中多个关键点的坐标。由此，可以得到样本音频信息和对应的样本脸部图像中多个关键点的坐标。在一个例子中，可以直接将样本脸部图像中多个关键点的坐标作为样本关键点信息。

在一个非限制性的例子中，在训练转化模型之前，可以先对样本脸部图像中多个关键点的坐标进行归一化处理，并将归一化处理后得到的坐标作为样本关键点信息。

具体而言，如上文所述，在标注多个关键点信息之后，可以确定各帧样本脸部图像中多个关键点的坐标。其中，不同样本脸部图像中关键点是相同的，但关键点的位置可以是不同的，同一关键点在不同样本脸部图像中的坐标取决于样本脸部图像所对应的样本音频信息。

进一步地，可以计算每个关键点的归一化参数。

具体地，针对每个关键点，可以根据该关键点在各帧样本脸部图像中的坐标，计算该关键点的归一化参数。在具体实施中，所述归一化参数可以包括平均值和/或方差，但并不限于此。示例性的，针对每个关键点，可以根据该关键点在各帧样本脸部图像中的坐标，计算该关键点坐标的平均值和方差。

进一步地，针对每帧样本脸部图像中的每个关键点，可以根据该关键点的归一化参数和该关键点在该帧样本脸部图像中的坐标，得到该帧样本脸部图像的样本关键点信息中该关键点的坐标。对于样本脸部图像中的各个关键点均进行上述处理，即可得到样本音频信息对应的样本关键点信息。

进一步地，可以将样本音频信息及其对应的样本关键点信息作为训练数据进行模型训练，直至模型收敛，当模型收敛时可以得到转化模型。

在具体实施中，可以基于梯度下降法进行模型训练，用于训练转化模型的损失可以是模型根据样本音频信息得到的关键点的坐标和样本音频信息对应的样本关键点信息之间的差异。关于训练模型的具体过程可以参照现有的模型训练方法，本实施例对此并不进行限制。

需要说明的是，如果在模型训练过程中，对样本脸部图像中的关键点进行了归一化处理，则在步骤S111之后以及在步骤S112之前，可以先根据归一化参数对转化模型输出的关键点信息进行归一化的逆处理，得到用于绘制关键点的关键点信息。

还需要说明的是，本申请实施例对于转化模型的结构并不进行限制，转化模型的结构可以是现有的各种适当的深度神经网络的结构。示例性的，转化模型的结构可以包括：双向长短期记忆(Long Short-Term Memory，简称LSTM)层、卷积层、实例正则化操作单元、全连接层和跳层连接等。

继续参照图1，获得模板图像之后，进一步根据模板图像、音频信息和预设脸部图像生成目标脸部图像。其中，预设脸部图像中的脸部姿态可以是标准化的脸部姿态。其中，标准化的脸部姿态可以是指各个关键点的位置均位于设定的位置。

作为一个非限制性的例子，本申请实施例的方案可以用于真实人脸图像生成，预设脸部图像可以是录制上述样本视频的真人演员的脸部图像。

在步骤S12中，对音频信息进行特征提取，得到第一特征信息。其中，所述第一特征信息为音频特征信息。例如，所述第一特征信息可以是梅尔频谱或者经过快速傅里叶变换的音频特征等，但并不限于此。

在步骤S13中，对图像信息进行特征提取，得到第二特征信息。其中，图像信息是通过对上述的模板图像和预设脸部图像进行图像融合得到的，第二特征信息为图像特征信息。如上文所述，模板图像是根据音频信息得到的，因此，提取得到的第二特征信息中也间接地包含有音频特征信息。

具体地，在步骤S13之前，可以先对步骤S11中得到的模板图像和预设脸部图像进行图像融合，得到图像信息。在具体实施中，可以将模板图像和预设脸部图像在通道方向上进行拼接，得到图像信息。以模板图像和预设脸部图像均为三通道图像，则图像信息为六通道图像。

需要说明的是，本申请实施例对于提取音频特征信息和提取图像特征信息的具体方法并不进行限制，可以是现有的适当的特征提取方法。

进一步地，将步骤S12得到的第二特征信息和步骤S13得到的第三特征信息进行特征融合处理，得到第三特征信息。

作为一个示例，对第一特征信息和第二特征信息进行特征融合处理可以包括：对第一特征信息和第二特征信息进行拼接，得到第三特征信息。其中，第一特征信息和第二特征信息均可以是二维的特征信息。

作为另一个示例，对第一特征信息和第二特征信息进行特征融合处理可以包括：对第一特征信息和第二特征信息分别进行形状重塑，得到第一中间特征信息和第二中间特征信息；然后将第一中间特征信息和第二中间特征信息进行拼接，得到第三中间特征信息；然后对第三中间特征信息进行卷积处理和正则化处理，得到第四中间特征信息；最后对第四中间特征信息进行形状重塑，得到第三特征信息。其中，形状重塑可以是指维度变换。

其中，第一中间特征信息、第二中间特征信息、第三中间特征信息和第四特征信息的维度是相同的，例如，均为一维特征。第三特征信息和第一特征信息、第二特征信息的维度可以是相同的。

相较于上一个示例中，直接将第一特征信息和第二特征信息进行拼接以进行特征融合的方案，采用本示例提供的特征融合方法，能够使特征融合更加具有泛化性，整体的唇形对齐度会更好。

在又一个示例中，对第一特征信息和第二特征信息进行特征融合处理之前，可以先分别赋予第一特征信息和第二特征信息权重值，具体地，可以采用第一权重值对第一特征信息进行加权，以及采用第二权重值对第二特征信息进行加权，然后对加权后的第一特征信息和加权后的第二特征信息进行融合。其中，第一权重值可以大于第二权重值。

在一个非限制性的例子中，可以预先确定特征相似度分布，所述特征相似度分布可以是根据样本音频特征信息和对应的样本图像特征信息计算得到的。其中，样本音频特征信息是对样本音频信息进行特征提取得到的，样本图像特征信息是对样本图像信息进行特征提取得到的，其中，样本图像信息是根据样本关键点信息绘制得到的样本模板图像和预设脸部图像进行图像融合得到的。

进一步地，在第一特征信息和第二特征信息进行特征融合处理之前，可以第一特征信息和第二特征信息之间的相似度，然后将所述相似度与上述的相似度分布进行比较。如果所述相似度落入相似度分布的范围内，则可以对第一特征信息和第二特征信息进行特征融合。如果相似度小于相似度分布的最小值，则可以确定模板图像和音频信息的适配性较差，在这种情况下，可以增大特征融合过程中第一特征信息的权重，例如，增大第一权重值；如果相似度大于相似度分布的最大值，则可以确定模板图像和音频信息的适配性非常好，此时存在一定的音频特征的冗余，为了保证图像特征信息在第三特征信息中的占比，可以在特征融合过程中减小第一特征信息的权重，例如，减小第一权重值。

进一步地，在步骤S14中对第三特征信息进行解码处理，生成目标脸部图像。需要说明的是，步骤S14中的解码处理可以是现有的各种适当的特征解码方法，本申请实施例对此并不进行限制。

在本申请的一实施例中，步骤S12至步骤S14可以是通过预先训练得到的生成模型执行的。

参照图4，图4是本申请实施例中一种图像生成方法的模型架构示意图。如图4所示，本申请实施例提供的图像生成方法可以是通过转化模型30和生成模型40执行的，其中，生成模型40可以包括：第一特征提取模块41、第二特征提取模块42、特征融合模块43和解码模块44。

关于转化模型30的具体内容可以参照上文关于图1至图3的相关描述，在此不再赘述。下文主要对生成模型40的结构和训练方法进行详细描述。

具体而言，第一特征提取模块41可以用于对输入的音频信息进行特征提取，得到第一特征信息。也即，第一特征提取模块41的输入为音频信息，输出为第一特征信息。示例性的，第一特征提取模块41的结构可以包括LSTM层和卷积层。

第二特征提取模块42可以用于输入的图像信息进行特征提取，得到第二特征信息。也即，第二特征提取模块42的输入为图像信息，输出为第二特征信息。示例性的，第二特征提取模块42的结构可以卷积层和跳层连接。

特征融合模块43可以用于对第一特征信息和第二特征信息进行特征融合处理，以得到第三特征信息。也即，特征融合模块43的输入为第一特征信息和第二特征信息，输出为第三特征信息。示例性的，特征融合模块43可以包括卷积层、正则化层。

解码模块43可以用于对第三特征信息进行解码处理，生成目标脸部图像，也即，解码模块43的输入为第三特征信息，输出为目标脸部图像。示例性的，解码模块43可以包括卷积层、反卷积层和正则化层。

参照图5，图5是本申请实施例中一种生成模型的训练方法的流程示意图，本申请实施例的方案中，可以通过端到端的方式进行训练，下面结合图5对上述的生成模型的训练方法进行详细说明。图5示出的训练方法可以包括步骤S51至步骤S53：

步骤S51：将训练数据输入至第一预设模型，得到第一预设模型输出的结果图像；

步骤S52：计算目标损失，并根据目标损失更新第一预设模型。

在步骤S51中，生成模型的训练数据可以包括：样本音频信息、样本音频信息对应的样本脸部图像。关于样本音频信息及其对应的样本脸部图像的获取方法可以参照上文关于转化模型的相关描述，在此不再赘述。

进一步地，可以将样本音频信息输入至第一预设模型，所述第一预设模型基于样本音频信息计算得到结果图像。关于第一预设模型的结构可以参照上文关于图4的相关描述，在此不再赘述。

在步骤S52中，计算目标损失，并根据目标损失更新第一预设模型。

在本申请的一实施例中，目标损失可以为第一损失。其中，第一损失可以用于表征结果图像和样本音频信息对应的样本脸部图像之间的差异。

在本申请的另一实施例中，目标损失可以根据第一损失和第二损失计算得到。其中，所述第二损失可以用于表征样本音频信息和结果图像之间的匹配度，其中，匹配度越高，第二损失越小。

示例性的，可以获取预先训练好的匹配模型，所述匹配模型用于计算音频和图像之间的匹配度，然后可以将样本音频信息和结果图像输入至匹配模型，从而得到匹配模型输出的匹配度。

进一步地，可以根据匹配度确定第二损失。作为一个示例，假设匹配度为x，则第二损失可以为-x，或者，1-x，但并不限于此。

进一步地，可以根据第一损失和第二损失计算目标损失。例如，可以采用下式计算目标损失：

L_target＝α₁×L₁+α₂×L₂

其中，L_target为目标损失，L₁为第一损失，α₁为第一损失的权重，L₂为第二损失，α₂为第二损失的权重。

由此，采用上述方案可以在训练过程中，将样本音频信息和样本脸部图像同时作为模型训练的监督信息。相较于仅采用第一损失更新模型的方案，上述方案中，还将样本音频信息作为生成模型的监督信息，不仅能够加快模型的训练，还能够提高生成模型的性能，使得生成模型处理得到的脸部图像和音频更加适配。

在本申请的又一实施例中，目标损失可以根据第一损失和第三损失计算得到。其中，第三损失可以用于表征结果图像被识别为样本脸部图像的概率，所述概率越大，第三损失越小。

在具体实施中，可以将结果图像输入至识别模型中，得到识别模型输出的概率值。其中，所述识别模型可以并不是已经训练好的模型，而是处于训练过程中的模型。例如，识别模型可以和生成模型进行联合训练或同时训练。在具体实施中，所述识别模型可以是判别器。所述识别模型和生成模型构成对抗网络。

进一步地，可以根据上述的概率确定第三损失。作为一个示例，假设概率为y，则第三损失L3可以为-y，或者，1-y，但并不限于此。

进一步地，可以根据第一损失和第三损失计算目标损失。例如，可以采用下式计算目标损失：

L_target＝α₁×L₁+α₃×L₃

其中，L_target为目标损失，L₁为第一损失，α₁为第一损失的权重，L₃为第三损失，α₃为第三损失的权重。

如果采用上述方案计算目标损失，则在根据目标损失更新生成模型的同时，还可以根据第三损失更新识别模型。

在本申请的再一实施例中，目标损失可以根据第一损失、第二损失和第三损失计算得到。例如，可以采用下述计算目标损失：

L_target＝α₁×L₁+α₂×L₂+α₃×L₃

在步骤S52之后，可以判断模型是否收敛，如果判断结果为是，则结束训练并得到生成模型，如果判断结果为否，则可以返回至步骤S51，继续执行步骤S51至步骤S52，直至模型收敛。

由上，可以得到训练得到上述的生成模型。

需要说明的是，上述转化模型和生成模型可以是先后训练的，例如，可以先训练得到转化模型，然后再训练生成模型，或者，转化模型和生成模型也可以是联合训练得到的，本申请实施例对此并不限制。

参照图6，图6是本申请实施例中一种图像生成装置的结构示意图。如图6所示，图6示出的图像生成装置可以包括：

模板图像生成模块61，用于根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；

第一特征提取模块62，用于对所述音频信息进行特征提取，得到第一特征信息；

第二特征提取模块63，用于对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；

解码模块64，用于对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

关于本申请实施例中的图像生成装置的工作原理、工作方法和有益效果等更多内容，可以参照上文关于图像生成方法的相关描述，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的图像生成方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本申请实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的图像生成方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和***，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种图像生成方法，其特征在于，包括：

根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；

对所述音频信息进行特征提取，得到第一特征信息；

对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到，所述第二特征信息包含音频特征信息；

对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

2.根据权利要求1所述的图像生成方法，其特征在于，根据输入的音频信息，得到模板图像之前，所述方法还包括：

采用训练数据对第一预设模型进行训练，当模型收敛时得到生成模型，其中，所述生成模型包括：用于对所述音频信息进行特征提取的第一特征提取模块、用于对所述图像信息进行特征提取的第二特征提取模块、用于对所述第三特征信息进行解码处理的解码模块；

其中，所述训练数据包括：样本音频信息、所述样本音频信息对应的样本脸部图像，所述采用训练数据对第一预设模型进行训练包括：

将所述训练数据输入至所述第一预设模型，得到所述第一预设模型输出的结果图像；

至少根据第一损失和第二损失，计算目标损失，其中，所述第一损失用于表征所述结果图像和所述样本脸部图像之间的差异，所述第二损失用于表征所述样本音频信息和所述结果图像之间的匹配度，匹配度越高，所述第二损失越小；

根据所述目标损失更新所述第一预设模型。

3.根据权利要求2所述的图像生成方法，其特征在于，所述至少根据第一损失和第二损失，计算目标损失包括：

根据所述第一损失、第二损失和第三损失，计算所述目标损失，其中，所述第三损失用于表征所述结果图像被识别为所述样本脸部图像的概率，所述概率越大，所述第三损失越小。

4.根据权利要求1所述的图像生成方法，其特征在于，根据输入的音频信息，得到模板图像包括：

根据所述音频信息，确定关键点信息，所述关键点信息至少包括：第一关键点的坐标，所述第一关键点为位于嘴部区域的关键点；

根据所述关键点信息在空白图像中绘制关键点，得到所述模板图像。

5.根据权利要求4所述的图像生成方法，其特征在于，所述关键点信息还包括以下至少一项：第二关键点的坐标、第三关键点的坐标和第四关键点的坐标；

其中，所述第二关键点为位于脸部轮廓的关键点、所述第三关键点为位于鼻子区域的关键点、所述第四关键点为位于眼部轮廓的关键点。

6.根据权利要求4所述的图像生成方法，其特征在于，根据所述音频信息，确定关键点信息包括：

将所述音频信息输入至预先训练得到的转化模型，得到所述转化模型输出的关键点信息。

7.根据权利要求6所述的图像生成方法，其特征在于，所述转化模型的训练数据包括：样本音频信息和对应的样本关键点信息，所述样本音频信息提取自样本视频，在训练所述转化模型之前，所述方法还包括：

从所述样本视频中提取多帧样本脸部图像，并在各帧样本脸部图像中标注多个关键点；

针对每个关键点，根据该关键点在各帧样本脸部图像中的坐标，计算该关键点的归一化参数；

针对每帧样本脸部图像，根据各个关键点的归一化参数和各个关键点在该帧样本脸部图像中的坐标，得到该帧样本脸部图像的样本关键点信息。

8.根据权利要求7所述的图像生成方法，其特征在于，在根据所述关键点信息在空白图像中绘制关键点之前，所述方法还包括：

根据所述归一化参数和所述转化模型输出的关键点信息，得到用于绘制关键点的关键点信息。

9.一种图像生成装置，其特征在于，包括：

模板图像生成模块，用于根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；

第一特征提取模块，用于对所述音频信息进行特征提取，得到第一特征信息；

第二特征提取模块，用于对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到，所述第二特征信息包含音频特征信息；

解码模块，用于对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至8中任一项所述的图像生成方法的步骤。

11.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述的图像生成方法的步骤。