CN115035219A

CN115035219A - 表情生成方法、装置和表情生成模型的训练方法、装置

Info

Publication number: CN115035219A
Application number: CN202210540239.2A
Authority: CN
Inventors: 石凡; 刘颖璐; 左佳伟; 王林芳; 张炜; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-09

Abstract

本公开涉及一种表情生成方法、装置和表情生成模型的训练方法、装置，涉及计算机技术领域。本公开的方法包括：获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息；根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

Description

表情生成方法、装置和表情生成模型的训练方法、装置

技术领域

本公开涉及计算机技术领域，特别涉及一种表情生成方法、装置和表情生成模型的训练方法、装置。

背景技术

在人工智能、虚拟现实等新技术浪潮的带动下，数字人制作过程得到有效简化、各方面性能获得飞跃式提升，开始从外观的数字化逐渐深入到行为的交互化、情绪的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领城大放异彩。

交互数字人形象定制力求真实性与个性化，在照相级超写实的要求下，人物形象的每一个细节都会为用户所关注。照相级超写实交互数字人的制作时，可以由模特首先录制一段视频，再基于该视频对模特的表情、动作进行编辑，生成与交互场景匹配的表情、动作等。

发明内容

本公开所要解决的一个技术问题是：在数字人制作过程中，如何对视频中人物的表情进行编辑，以生成与场景相对应的带有目标表情的数字人的视频，并且使生成的视频稳定、清晰。

根据本公开的一些实施例，提供的一种表情生成方法，包括：获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息；根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

在一些实施例中，获取原视频中每帧图像的特征信息、人脸关键点的特征信息包括：将原视频中每帧图像输入人脸特征提取模型，得到输出的每帧图像的特征信息；将每帧图像的特征信息输入人脸关键点检测模型，得到每帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为人脸关键点的特征信息。

在一些实施例中，获取原视频中每帧图像的原表情的分类信息包括：将每帧图像的特征信息输入表情分类模型，得到每帧图像的原表情的分类信息。

在一些实施例中，将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：将每帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的每帧图像的特征信息，以及每帧图像对应的融合表情的分类信息进行拼接。

在一些实施例中，根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像包括：将每帧图像对应的融合图像的特征信息输入解码器，输出生成的每帧图像对应的融合图像，其中，人脸特征提取模型包括卷积层，解码器包括反卷积层。

根据本公开的另一些实施例，提供的一种表情生成模型的训练方法，包括：获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对；将原训练视频的各帧图像输入第一生成器，获取原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到原训练视频对应的各帧融合图像的特征信息，根据原训练视频对应的各帧融合图像的特征信息，得到第一生成器输出的原训练视频对应的各帧融合图像；将目标训练视频各帧图像输入第二生成器，获取目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到目标训练视频对应的各帧融合图像的特征信息，根据目标训练视频对应的各帧融合图像的特征信息，得到第二生成器输出的目标训练视频对应的各帧融合图像；根据原训练视频对应的各帧融合图像、目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练。

在一些实施例中，该方法还包括：根据原训练视频对应的每相邻两帧融合图像之间的像素差异，以及目标训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；其中，根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练包括：根据对抗损失、循环一致损失和像素对像素损失，对第一生成器和第二生成器进行训练。

在一些实施例中，根据原训练视频对应的各帧融合图像、目标训练视频对应的各帧融合图像，确定对抗损失包括：将原训练视频对应的各帧融合图像输入第一判别器，得到原训练视频对应的各帧融合图像的第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器，得到目标训练视频对应的各帧融合图像的第二判别结果；根据原训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

在一些实施例中，将原训练视频对应的各帧融合图像输入第一判别器，得到原训练视频对应的各帧融合图像的第一判别结果包括：将原训练视频对应的各帧融合图像输入第一判别器中第一人脸特征提取模型，得到输出的原训练视频对应的各帧融合图像的特征信息；将原训练视频对应的各帧融合图像的特征信息输入第一判别器中的第一表情分类模型，得到原训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器，得到目标训练视频对应的各帧融合图像的第二判别结果包括：将目标训练视频对应的各帧融合图像输入第二判别器中第二人脸特征提取模型，得到输出的目标训练视频对应的各帧融合图像的特征信息；将目标训练视频对应的各帧融合图像的特征信息输入第二判别器中的第二表情分类模型，得到目标训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

在一些实施例中，循环一致损失采用以下方法确定：将原训练视频对应的各帧融合图像输入第二生成器，生成原训练视频的各帧重构图像，将目标训练视频对应的各帧融合图像输入第一生成器，生成目标训练视频的各帧重构图像；根据原训练视频的各帧重构图像和原训练视频的各帧图像的差异，以及目标训练视频的各帧重构图像和目标训练视频的各帧图像的差异，确定循环一致损失。

在一些实施例中，像素对像素损失采用以下方法确定：针对原训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；针对目标训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；将第一损失和第二损失加和，得到像素对像素损失。

在一些实施例中，获取原训练视频的各帧图像的特征信息、人脸关键点的特征信息包括：将原训练视频中各帧图像输入第一生成器中的第三人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第一生成器中第一人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为原训练视频的各帧图像的人脸关键点的特征信息；获取目标训练视频的各帧图像的特征信息、人脸关键点的特征信息包括：将目标训练视频中各帧图像输入第二生成器中的第四人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第二生成器中第二人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为目标训练视频的各帧图像的人脸关键点的特征信息。

在一些实施例中，获取原训练视频中各帧图像的原表情的分类信息包括：将原训练视频中各帧图像的特征信息输入第一生成器中的第三表情分类模型，得到原训练视频中各帧图像的原表情的分类信息；获取目标训练视频中各帧图像的目标表情的分类信息包括：将目标训练视频中各帧图像的特征信息输入第二生成器中的第四表情分类模型，得到目标训练视频中各帧图像的目标表情的分类信息。

在一些实施例中，将原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合包括：将原训练视频的各帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到原训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的原训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的原训练视频的各帧图像的特征信息，以及原训练视频的各帧图像对应的融合表情的分类信息进行拼接；将目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合包括：将目标训练视频的各帧图像的目标表情的分类信息与原表情对应的预设分类信息进行加和取平均，得到目标训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的目标训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的目标训练视频的各帧图像的特征信息，以及目标训练视频的各帧图像对应的融合表情的分类信息进行拼接。

在一些实施例中，根据对抗损失、循环一致损失和像素对像素损失，对第一生成器和第二生成器进行训练包括：将对抗损失、循环一致损失和像素对像素损失进行加权求和，得到总损失；根据总损失对第一生成器和第二生成器进行训练。

根据本公开的又一些实施例，提供的一种表情生成装置，包括：获取模块，用于获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；融合模块，用于将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息；生成模块，用于根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

根据本公开的再一些实施例，提供的一种表情生成模型的训练装置，包括：获取模块，用于获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对；第一生成模块，用于将原训练视频的各帧图像输入第一生成器，获取原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到原训练视频对应的各帧融合图像的特征信息，根据原训练视频对应的各帧融合图像的特征信息，得到第一生成器输出的原训练视频对应的各帧融合图像；第二生成模块，用于将目标训练视频各帧图像输入第二生成器，获取目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到目标训练视频对应的各帧融合图像的特征信息，根据目标训练视频对应的各帧融合图像的特征信息，得到第二生成器输出的目标训练视频对应的各帧融合图像；确定模块，用于根据原训练视频对应的各帧融合图像、目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；训练模块，用于根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练。

根据本公开的又一些实施例，提供的一种电子设备，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的表情生成方法，或者前述任意实施例的表情生成模型的训练方法。

根据本公开的再一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的表情生成方法，或者前述任意实施例的表情生成模型的训练方法。

根据本公开的又一些实施例，提供的一种表情生成***，包括：前述任意实施例的表情生成装置以及前述任意实施例的表情生成模型的训练装置。

本公开的方案对原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息进行提取，将提取的信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息，进而根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，所有融合图像即可形成人脸表情是目标表情的目标视频。本公开中通过提取人脸关键点的特征信息，并用于特征融合，使得融合图像中的表情更加真实，流畅，通过目标表情对应的预设分类信息的融合，直接实现目标表情的生成，并且与原图像中人物面部动作、口型兼容，不影响人物的口型、头部动作等，不影响原图像的清晰度，使得生成的视频稳定、清晰、流畅。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的表情生成方法的流程示意图。

图2示出本公开的一些实施例的表情生成方法的示意图。

图3示出本公开的一些实施例的表情生成模型的训练方法的流程示意图。

图4示出本公开的一些实施例的表情生成模型的训练方法的示意图。

图5示出本公开的一些实施例的表情生成装置的结构示意图。

图6示出本公开的一些实施例的表情生成模型的训练装置的结构示意图。

图7示出本公开的一些实施例的电子设备的结构示意图。

图8示出本公开的另一些实施例的电子设备的结构示意图。

图9示出本公开的一些实施例的表情生成***的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提供一种表情生成方法，下面结合图1～2进行描述。

图1为本公开表情生成方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S106。

在步骤S102中，获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息。

原视频可以是预先录制的视频，视频中人脸表情为原表情。各帧图像中人脸表情可以基本保持一致，例如，各帧图像中人脸表情主要为平静表情，即各帧图像中原表情为平静表情(预设表情)的比例超过预设比例。

在一些实施例中，将原视频中每帧图像输入人脸特征提取模型，得到输出的每帧图像的特征信息；将每帧图像的特征信息输入人脸关键点检测模型，得到每帧图像的人脸关键点的坐标信息；采用主成分分析法(PCA)对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为人脸关键点的特征信息。将每帧图像的特征信息输入表情分类模型，得到每帧图像的原表情的分类信息。

整体的表情生成模型包括编码器和解码器，编码器可以包括人脸特征提取模型、人脸关键点检测模型和表情分类模型，人脸特征提取模型连接人脸关键点检测模型和表情分类模型。人脸特征提取模型可以采用现有的模型，例如，VGG-19、ResNet、Transformer等具有特征提取功能的深度学习模型。可以将VGG-19block 5之前的部分作为人脸特征提取模型。人脸关键点检测模型和表情分类模型也可以采用现有的模型，例如MLP(多层感知机)等，具体可以是3层MLP。表情生成模型训练完成后用于生成表情，后续将对训练过程进行详细描述。

原视频中每帧图像的特征信息例如为人脸特征提取模型输出的特征图(FeatureMap)，关键点例如包括下巴、眉心、嘴角等68个关键点，每个关键点表示为所在位置的横纵坐标。通过人脸关键点检测模型得到各个关键点的坐标信息后，为了减少冗余信息提高效率，通过PCA对所有人脸关键点的坐标信息进行降维，得到预设维度(例如，6维，可以达到最佳效果)的信息，作为人脸关键点的特征信息。表情分类模型可以输出中性，高兴，悲伤等若干种表情的分类，可以采用one-hot编码的向量表示。原表情的分类信息可以是通过表情分类模型得到的原视频中每帧图像中原表情的分类的one-hot编码。

在步骤S104中，将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息。

在一些实施例中，将每帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的每帧图像的特征信息，以及每帧图像对应的融合表情的分类信息进行拼接。

目标表情与原表情不同，例如为微笑表情，目标表情对应的预设分类信息例如为目标表情的预设one-hot编码。预设分类信息不需要通过模型得到，直接采用预设编码规则(one-hot)进行编码即可。例如，平静表情编码为1000，微笑表情编码为0100。前述原表情的分类信息是通过表情分类模型得到的，该分类信息可以与原表情对应的预设分类信息有区别，例如，原表情为平静表情，预设one-hot编码为1000，但是表情分类模型得到的one-hot编码可以为0.8 0.2 0 0。

编码器还可以包括特征融合模型，将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息输入特征融合模型进行融合。特征融合模型中需要训练的参数包括第一权重和第二权重。针对每帧图像，训练得到的第一权重与该图像的人脸关键点的特征信息相乘，得到第一特征向量，训练得到的第二权重与该图像的特征信息相乘，得到第二特征向量，将第一特征向量、第二特征向量与该图像对应的融合表情的分类信息进行拼接，得到该图像对应的融合图像的特征信息。第一权重和第二权重可以使三种信息的值域统一。

在步骤S106中，根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

在一些实施例中，将每帧图像对应的融合图像的特征信息输入解码器，输出生成的每帧图像对应的融合图像。人脸特征提取模型包括卷积层，解码器包括反卷积层，可以基于特征生成图像。解码器例如为VGG-19的block 5，将最后一层卷积层替换为反卷积层。融合图像即为人脸表情是目标表情的图像，各帧融合图像形成目标视频。

下面结合图2描述本公开的一些应用例。

如图2所示，原视频中的一帧图像，进行特征提取后得到特征图，根据特征图分别进行人脸关键点检测和表情分类，人脸关键点检测得到的各个关键点的特征信息进行PCA，降维为预设维度的信息作为关键点特征，原表情的分类信息进行one-hot编码与目标表情对应的预设分类信息进行融合，得到表情分类向量(融合表情的分类信息)，进而将人脸的特征图，表情分类向量和关键点特征进行融合，得到融合图像的特征信息，将融合图像的特征信息进行特征解码，得到目标表情的人脸图像。

上述实施例的方案对原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息进行提取，将提取的信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息，进而根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，所有融合图像即可形成人脸表情是目标表情的目标视频。上述实施例中通过提取人脸关键点的特征信息，并用于特征融合，使得融合图像中的表情更加真实，流畅，通过目标表情对应的预设分类信息的融合，直接实现目标表情的生成，并且与原图像中人物面部动作、口型兼容，不影响人物的口型、头部动作等，不影响原图像的清晰度，使得生成的视频稳定、清晰、流畅。

下面结合图3描述表情生成模型的训练方法。

图3为本公开表情生成模型的训练方法一些实施例的流程图。如图3所示，该实施例的方法包括：步骤S302～S310。

在步骤S302中，获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对。

原训练视频为人脸表情为原表情的视频，目标训练视频为人脸表情为目标表情的视频，原训练视频的各帧图像与目标训练视频的各帧图像并不需要一一对应。对原表情的分类信息和目标表情的分类信息进行标注。

在步骤S304中，将原训练视频的各帧图像输入第一生成器，获取原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到原训练视频对应的各帧融合图像的特征信息，根据原训练视频对应的各帧融合图像的特征信息，得到第一生成器输出的原训练视频对应的各帧融合图像。

第一生成器训练完成后作为表情生成模型使用。在一些实施例中，将原训练视频中各帧图像输入第一生成器中的第三人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第一生成器中第一人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为原训练视频的各帧图像的人脸关键点的特征信息；将原训练视频中各帧图像的特征信息输入第一生成器中的第三表情分类模型，得到原训练视频中各帧图像的原表情的分类信息。

将人脸关键点的坐标信息进行主成分分析(PCA)，关键点坐标信息降至6维(6维是通过大量实验得到的最好效果)。PCA不涉及训练参数(PCA的特征提取以及前后特征维度对应关系不随训练改变，梯度反向传递时，仅通过初始PCA得到的特征对应关系，向前面的参数传递梯度即可)。

在一些实施例中，将原训练视频的各帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到原训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的原训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的原训练视频的各帧图像的特征信息，以及原训练视频的各帧图像对应的融合表情的分类信息进行拼接，得到原训练视频对应的各帧融合图像的特征信息。

第一生成器中包括第一特征融合模型，第一权重和第二权重为第一特征融合模型中待训练的参数。上述特征提取和特征融合的过程可以参考前述实施例。

第一生成器包括第一编码器和第一解码器，第一编码器包括：第三人脸特征提取模型，第一人脸关键点检测模型，第三表情分类模型，第一特征融合模型，将原训练视频对应的各帧融合图像的特征信息输入第一解码器得到生成的原训练视频对应的各帧融合图像。

在步骤S306中，将目标训练视频各帧图像输入第二生成器，获取目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到目标训练视频对应的各帧融合图像的特征信息，根据目标训练视频对应的各帧融合图像的特征信息，得到第二生成器输出的目标训练视频对应的各帧融合图像。

第二生成器与第一生成器在结构上是相同或相似的，第二生成器的训练目标是基于目标训练视频，生成与原训练视频表情相同的视频。

在一些实施例中，将目标训练视频中各帧图像输入第二生成器中的第四人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第二生成器中第二人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为目标训练视频的各帧图像的人脸关键点的特征信息。将目标训练视频中各帧图像的特征信息输入第二生成器中的第四表情分类模型，得到目标训练视频中各帧图像的目标表情的分类信息。

目标训练视频的各帧图像的人脸关键点的特征信息与原训练视频的各帧图像的人脸关键点的特征信息的维度是相同的，例如，6维。

在一些实施例中，将目标训练视频的各帧图像的目标表情的分类信息与原表情对应的预设分类信息进行加和取平均，得到目标训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的目标训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的目标训练视频的各帧图像的特征信息，以及目标训练视频的各帧图像对应的融合表情的分类信息进行拼接，得到目标训练视频对应的各帧融合图像的特征信息。

原表情对应的预设分类信息不需要通过模型得到，直接采用预设编码规则进行编码即可。第二生成器包括第二特征融合模型，第三权重和第三权重为第二特征融合模型中待训练的参数。上述特征提取和特征融合的过程可以参考前述实施例，不再赘述。

第二生成器包括第二编码器和第二解码器，第二编码器包括：第四人脸特征提取模型，第二人脸关键点检测模型，第四表情分类模型，第二特征融合模型，将目标训练视频对应的各帧融合图像的特征信息输入第二解码器得到生成的目标训练视频对应的各帧融合图像。

在步骤S308中，根据原训练视频对应的各帧融合图像、目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失。

基于生成对抗学习和跨域迁移学习进行端到端的训练，能够提高模型的准确度，并且提高训练效率。

在一些实施例中，对抗损失采用以下方法确定：将原训练视频对应的各帧融合图像输入第一判别器，得到原训练视频对应的各帧融合图像的第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器，得到目标训练视频对应的各帧融合图像的第二判别结果；根据原训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

进一步，在一些实施例中，将原训练视频对应的各帧融合图像输入第一判别器中第一人脸特征提取模型，得到输出的原训练视频对应的各帧融合图像的特征信息；将原训练视频对应的各帧融合图像的特征信息输入第一判别器中的第一表情分类模型，得到原训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器中第二人脸特征提取模型，得到输出的目标训练视频对应的各帧融合图像的特征信息；将目标训练视频对应的各帧融合图像的特征信息输入第二判别器中的第二表情分类模型，得到目标训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

在训练过程中整体模型包括两套生成器加判别器。第一判别器和第二判别器的结构是相同或相似的，都包括人脸特征提取模型和表情分类模型。第一人脸特征提取模型、第二人脸特征提取模型与第三人脸特征提取模型、第四人脸特征提取模型的结构相同或相似，第一表情分类模型、第二表情分类模型与第三表情分类模型、第四表情分类模型的结构相同或相似。

例如，原视频的数据采用X＝{x_i}表示，目标视频的数据采用Y＝{y_i}表示。第一生成器G用于实现X→Y，训练使G(X)尽量接近Y，第一判别器D_Y用于判别原训练视频对应的各帧融合图像的真假。第一对抗损失可以采用以下公式表示：

第二生成器F用于实现Y→X，训练使F(Y)尽量接近X，第二判别器D_X用于判别目标训练视频对应的各帧融合图像的真假。第二对抗损失可以采用以下公式表示：

在一些实施例中，循环一致损失(Cycle Consistency Losses)采用以下方法确定：将原训练视频对应的各帧融合图像输入第二生成器，生成原训练视频的各帧重构图像，将目标训练视频对应的各帧融合图像输入第一生成器，生成目标训练视频的各帧重构图像；根据原训练视频的各帧重构图像和原训练视频的各帧图像的差异，以及目标训练视频的各帧重构图像和目标训练视频的各帧图像的差异，确定循环一致损失。

为了进一步提高模型的准确率，将第一生成器生成的图像输入第二生成器，得到原训练视频的各帧重构图像，期望第二生成器生成的原训练视频的各帧重构图像与原训练视频的各帧图像尽量一致，即F(G(x))≈x。将第二生成器生成的图像输入第一生成器，得到目标训练视频的各帧重构图像，期望第一生成器生成的目标训练视频的各帧重构图像与目标训练视频的各帧图像尽量一致，即G(F(y))≈y。

原训练视频的各帧重构图像和原训练视频的各帧图像的差异可以采用以下方法确定：针对原训练视频的每帧重构图像和与该重构图像相对应的原训练视频的图像，确定重构图像和对应的图像每个相同位置的像素的表示向量之间的距离(例如欧氏距离)，并对所有的距离求和。

目标训练视频的各帧重构图像和目标训练视频的各帧图像的差异可以采用以下方法确定：针对目标训练视频的每帧重构图像和与该重构图像相对应的目标训练视频的图像，确定重构图像和对应的图像每个相同位置的像素的表示向量之间的距离(例如欧氏距离)，并对所有的距离求和。

在步骤S310中，根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练。

可以将第一对抗损失、第二对抗损失和循环一致损失进行加权求和得到总损失，根据总损失对第一生成器和第二生成器进行训练。例如，总损失可以采用以下公式确定：

L＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λL_cyc(G,F) (3)

其中，L_cyc(G,F)表示循环一致损失，λ为权重，可以通过实验得到。

为了进一步提高模型的准确性，保证输出视频结果的稳定连续，在训练过程中增加视频两帧间的像素差带来的损失。在一些实施例中，根据原训练视频对应的每相邻两帧融合图像之间的像素差异，以及目标训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失，根据对抗损失、循环一致损失和像素对像素损失，对第一生成器和第二生成器进行训练。

进一步，在一些实施例中，针对原训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；针对目标训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；将第一损失和第二损失加和，得到像素对像素损失。像素对像素损失可以使生成的视频相邻两帧的变化不会太大。

在一些实施例中，将对抗损失、循环一致损失和像素对像素损失进行加权求和，得到总损失；根据总损失对第一生成器和第二生成器进行训练。例如，总损失可以采用以下公式确定：

L＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λ₁L_cyc(G,F)+λ₂L_P2P(G(x_i),G(x_i+1))+λ₃L_P2P(F(y_j),F(y_j+1)) (4)

其中，λ₁，λ₂，λ₃为权重，可以通过实验得到，L_P2P(G(x_i),G(x_i+1))表示第一损失，L_P2P(F(y_j),F(y_j,1))表示第二损失。

如图4所示，在进行端到端的训练之前，可以针对各部分的模型进行预训练，例如，首先选取大量开源人脸识别数据对人脸识别模型进行预训练，选取其输出特征图之前的部分作为人脸特征提取模型(该部分方法不唯一，以vgg-19为例，选取block5之前部分，可输出8×8×512维的特征图)。之后固定人脸特征提取模型以及参数，在后边分为两条支路，两分支为人脸关键点检测模型和表情分类模型，分别以人脸关键点检测数据集与表情分类数据对各自分支进行微调(fine-tune)只训练这两部分模型结构当中的参数。人脸关键点检测模型不唯一，只要是基于卷积网络模型的能够得到准确的关键点的模型即可接入改方案；表情分类模型即为基于卷积网络模型的单标签分类任务。在预训练之后，可以再基于前述实施例执行端到端的训练过程。这样可以提高训练效率。

上述实施例的方法采用对抗损失、循环一致损失以及视频相邻两帧之间的像素损失对整体模型进行训练，可以提高模型的准确性，并且端到端的训练过程可以提高效率，节省计算资源。

本公开的方案适用于单张图像中人脸表情的编辑。本公开通过采用独特的深度学习模型，融合表情识别、关键点检测等技术，通过数据的训练，学习不同表情下人面部关键点移动的规律，最终通过向模型输入目标表情的分类信息来控制模型所输出的面部表情状态，且表情仅作为一种风格状态存在，当人物说话或做出歪头、眨眼等动作时能够很好的效果叠加，使得最终输出的人物面部动作视频自然、不违和。输出结果可与输入的图像具有相同的分辨率以及细节程度，在1080p甚至2k分辨率下依旧保持输出结果稳定、清晰、无瑕疵。

本公开还提供一种表情生成装置，下面结合图5进行描述。

图5为本公开表情生成装置的一些实施例的结构图。如图5所示，该实施例的装置50包括：获取模块510，融合模块520，生成模块530。

获取模块510用于获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息。

在一些实施例中，获取模块510用于将原视频中每帧图像输入人脸特征提取模型，得到输出的每帧图像的特征信息；将每帧图像的特征信息输入人脸关键点检测模型，得到每帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为人脸关键点的特征信息。

在一些实施例中，获取模块510用于将每帧图像的特征信息输入表情分类模型，得到每帧图像的原表情的分类信息。

融合模块520用于将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息。

在一些实施例中，融合模块520用于将每帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的每帧图像的特征信息，以及每帧图像对应的融合表情的分类信息进行拼接。

生成模块530用于根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

在一些实施例中，生成模块530用于将每帧图像对应的融合图像的特征信息输入解码器，输出生成的每帧图像对应的融合图像，其中，人脸特征提取模型包括卷积层，解码器包括反卷积层。

本公开还提供一种表情生成模型的训练装置，下面结合图6进行描述。

图6为本公开表情生成模型的训练装置的一些实施例的结构图。如图6所示，该实施例的装置60包括：获取模块610，第一生成模块620，第二生成模块630，确定模块640，训练模块650。

获取模块610用于获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对。

第一生成模块620用于将原训练视频的各帧图像输入第一生成器，获取原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到原训练视频对应的各帧融合图像的特征信息，根据原训练视频对应的各帧融合图像的特征信息，得到第一生成器输出的原训练视频对应的各帧融合图像。

在一些实施例中，第一生成模块620用于将原训练视频中各帧图像输入第一生成器中的第三人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第一生成器中第一人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为原训练视频的各帧图像的人脸关键点的特征信息；将原训练视频中各帧图像的特征信息输入第一生成器中的第三表情分类模型，得到原训练视频中各帧图像的原表情的分类信息。

在一些实施例中，第一生成模块620用于将原训练视频的各帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到原训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的原训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的原训练视频的各帧图像的特征信息，以及原训练视频的各帧图像对应的融合表情的分类信息进行拼接。

第二生成模块630用于将目标训练视频各帧图像输入第二生成器，获取目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到目标训练视频对应的各帧融合图像的特征信息，根据目标训练视频对应的各帧融合图像的特征信息，得到第二生成器输出的目标训练视频对应的各帧融合图像。

在一些实施例中，第二生成模块630用于将目标训练视频中各帧图像输入第二生成器中的第四人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第二生成器中第二人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为目标训练视频的各帧图像的人脸关键点的特征信息；将目标训练视频中各帧图像的特征信息输入第二生成器中的第四表情分类模型，得到目标训练视频中各帧图像的目标表情的分类信息。

在一些实施例中，第二生成模块630用于将目标训练视频的各帧图像的目标表情的分类信息与原表情对应的预设分类信息进行加和取平均，得到目标训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的目标训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的目标训练视频的各帧图像的特征信息，以及目标训练视频的各帧图像对应的融合表情的分类信息进行拼接。

确定模块640用于根据原训练视频对应的各帧融合图像、目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失。

训练模块650用于根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练。

在一些实施例中，确定模块640用于根据原训练视频对应的每相邻两帧融合图像之间的像素差异，以及目标训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；训练模块650用于根据对抗损失、循环一致损失和像素对像素损失，对第一生成器和第二生成器进行训练。

在一些实施例中，确定模块640用于将原训练视频对应的各帧融合图像输入第一判别器，得到原训练视频对应的各帧融合图像的第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器，得到目标训练视频对应的各帧融合图像的第二判别结果；根据原训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

在一些实施例中，确定模块640用于将原训练视频对应的各帧融合图像输入第一判别器中第一人脸特征提取模型，得到输出的原训练视频对应的各帧融合图像的特征信息；将原训练视频对应的各帧融合图像的特征信息输入第一判别器中的第一表情分类模型，得到原训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；将目标训练视频对应的各帧融合图像输入第二判别器中第二人脸特征提取模型，得到输出的目标训练视频对应的各帧融合图像的特征信息；将目标训练视频对应的各帧融合图像的特征信息输入第二判别器中的第二表情分类模型，得到目标训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

在一些实施例中，确定模块640用于将原训练视频对应的各帧融合图像输入第二生成器，生成原训练视频的各帧重构图像，将目标训练视频对应的各帧融合图像输入第一生成器，生成目标训练视频的各帧重构图像；根据原训练视频的各帧重构图像和原训练视频的各帧图像的差异，以及目标训练视频的各帧重构图像和目标训练视频的各帧图像的差异，确定循环一致损失。

在一些实施例中，确定模块640用于针对原训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；针对目标训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；将第一损失和第二损失加和，得到像素对像素损失。

在一些实施例中，训练模块650用于将对抗损失、循环一致损失和像素对像素损失进行加权求和，得到总损失；根据总损失对第一生成器和第二生成器进行训练。

本公开的实施例中的表情生成装置、表情生成模型的训练装置可各由各种计算设备或计算机***来实现，下面结合图7以及图8进行描述。

图7为本公开电子设备的一些实施例的结构图。如图7所示，该实施例的电子设备70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行本公开中任意一些实施例中的表情生成方法或表情生成模型的训练方法。

其中，存储器710例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图8为本公开电子设备的另一些实施例的结构图。如图8所示，该实施例的电子设备80包括：存储器810以及处理器820，分别与存储器710以及处理器720类似。还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器810和处理器820之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

本公开还提供一种表情生成***，如图9所示，表情生成***9包括前述任意实施例的表情生成装置50，以及前述任意实施例的表情生成模型的训练装置60。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种表情生成方法，包括：

获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；

将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到所述每帧图像对应的融合图像的特征信息；

根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

2.根据权利要求1所述的表情生成方法，其中，所述获取原视频中每帧图像的特征信息、人脸关键点的特征信息包括：

将所述原视频中每帧图像输入人脸特征提取模型，得到输出的所述每帧图像的特征信息；

将所述每帧图像的特征信息输入人脸关键点检测模型，得到所述每帧图像的人脸关键点的坐标信息；

采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为所述人脸关键点的特征信息。

3.根据权利要求2所述的表情生成方法，其中，获取原视频中每帧图像的原表情的分类信息包括：

将所述每帧图像的特征信息输入表情分类模型，得到所述每帧图像的原表情的分类信息。

4.根据权利要求1所述的表情生成方法，其中，所述将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：

将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述每帧图像对应的融合表情的分类信息；

将与训练得到的第一权重相乘后的所述每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的所述每帧图像的特征信息，以及所述每帧图像对应的融合表情的分类信息进行拼接。

5.根据权利要求2所述的表情生成方法，其中，所述根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像包括：

将所述每帧图像对应的融合图像的特征信息输入解码器，输出生成的所述每帧图像对应的融合图像；

其中，所述人脸特征提取模型包括卷积层，所述解码器包括反卷积层。

6.一种表情生成模型的训练方法，包括：

获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对；

将所述原训练视频的各帧图像输入第一生成器，获取所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到所述原训练视频对应的各帧融合图像的特征信息，根据所述原训练视频对应的各帧融合图像的特征信息，得到所述第一生成器输出的所述原训练视频对应的各帧融合图像；

将所述目标训练视频各帧图像输入第二生成器，获取所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到所述目标训练视频对应的各帧融合图像的特征信息，根据所述目标训练视频对应的各帧融合图像的特征信息，得到所述第二生成器输出的所述目标训练视频对应的各帧融合图像；

根据所述原训练视频对应的各帧融合图像、所述目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；

根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练。

7.根据权利要求6所述的训练方法，还包括：

根据所述原训练视频对应的每相邻两帧融合图像之间的像素差异，以及所述目标训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；

其中，所述根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练包括：

根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练。

8.根据权利要求6或7所述的训练方法，其中，所述根据所述原训练视频对应的各帧融合图像、所述目标训练视频对应的各帧融合图像，确定对抗损失包括：

将所述原训练视频对应的各帧融合图像输入第一判别器，得到所述原训练视频对应的各帧融合图像的第一判别结果；

将所述目标训练视频对应的各帧融合图像输入第二判别器，得到所述目标训练视频对应的各帧融合图像的第二判别结果；

根据所述原训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据所述目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

9.根据权利要求8所述的训练方法，其中，将所述原训练视频对应的各帧融合图像输入第一判别器，得到所述原训练视频对应的各帧融合图像的第一判别结果包括：

将所述原训练视频对应的各帧融合图像输入所述第一判别器中第一人脸特征提取模型，得到输出的所述原训练视频对应的各帧融合图像的特征信息；

将所述原训练视频对应的各帧融合图像的特征信息输入所述第一判别器中的第一表情分类模型，得到所述原训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；

所述将所述目标训练视频对应的各帧融合图像输入第二判别器，得到所述目标训练视频对应的各帧融合图像的第二判别结果包括：

将所述目标训练视频对应的各帧融合图像输入所述第二判别器中第二人脸特征提取模型，得到输出的所述目标训练视频对应的各帧融合图像的特征信息；

将所述目标训练视频对应的各帧融合图像的特征信息输入所述第二判别器中的第二表情分类模型，得到所述目标训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

10.根据权利要求6或7所述的训练方法，其中，所述循环一致损失采用以下方法确定：

将所述原训练视频对应的各帧融合图像输入所述第二生成器，生成所述原训练视频的各帧重构图像，将所述目标训练视频对应的各帧融合图像输入所述第一生成器，生成所述目标训练视频的各帧重构图像；

根据所述原训练视频的各帧重构图像和所述原训练视频的各帧图像的差异，以及所述目标训练视频的各帧重构图像和所述目标训练视频的各帧图像的差异，确定循环一致损失。

11.根据权利要求7所述的训练方法，其中，所述像素对像素损失采用以下方法确定：

针对所述原训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；

针对所述目标训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；

将所述第一损失和所述第二损失加和，得到所述像素对像素损失。

12.根据权利要求6所述的训练方法，其中，所述获取所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息包括：

将所述原训练视频中各帧图像输入所述第一生成器中的第三人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第一生成器中第一人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为所述原训练视频的各帧图像的人脸关键点的特征信息；

所述获取所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息包括：

将所述目标训练视频中各帧图像输入所述第二生成器中的第四人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第二生成器中第二人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为所述目标训练视频的各帧图像的人脸关键点的特征信息。

13.根据权利要求12所述的训练方法，其中，获取所述原训练视频中各帧图像的原表情的分类信息包括：

将所述原训练视频中各帧图像的特征信息输入所述第一生成器中的第三表情分类模型，得到所述原训练视频中各帧图像的原表情的分类信息；

获取所述目标训练视频中各帧图像的目标表情的分类信息包括：

将所述目标训练视频中各帧图像的特征信息输入所述第二生成器中的第四表情分类模型，得到所述目标训练视频中各帧图像的目标表情的分类信息。

14.根据权利要求6所述的训练方法，其中，所述将所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合包括：

将所述原训练视频的各帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述原训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的所述原训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的所述原训练视频的各帧图像的特征信息，以及所述原训练视频的各帧图像对应的融合表情的分类信息进行拼接；

所述将所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合包括：

将所述目标训练视频的各帧图像的目标表情的分类信息与所述原表情对应的预设分类信息进行加和取平均，得到所述目标训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的所述目标训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的所述目标训练视频的各帧图像的特征信息，以及所述目标训练视频的各帧图像对应的融合表情的分类信息进行拼接。

15.根据权利要求7所述的训练方法，其中，所述根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练包括：

将所述对抗损失、所述循环一致损失和所述像素对像素损失进行加权求和，得到总损失；

根据所述总损失对所述第一生成器和所述第二生成器进行训练。

16.一种表情生成装置，包括：

获取模块，用于获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；

融合模块，用于将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到所述每帧图像对应的融合图像的特征信息；

生成模块，用于根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。

17.一种表情生成模型的训练装置，包括：

获取模块，用于获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对；

第一生成模块，用于将所述原训练视频的各帧图像输入第一生成器，获取所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到所述原训练视频对应的各帧融合图像的特征信息，根据所述原训练视频对应的各帧融合图像的特征信息，得到所述第一生成器输出的所述原训练视频对应的各帧融合图像；

第二生成模块，用于将所述目标训练视频各帧图像输入第二生成器，获取所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到所述目标训练视频对应的各帧融合图像的特征信息，根据所述目标训练视频对应的各帧融合图像的特征信息，得到所述第二生成器输出的所述目标训练视频对应的各帧融合图像；

确定模块，用于根据所述原训练视频对应的各帧融合图像、所述目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；

训练模块，用于根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练。

18.一种电子设备，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-5任一项所述的表情生成方法，或者权利要求6-15任一项所述的表情生成模型的训练方法。

19.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-5任一项所述的表情生成方法，或者权利要求6-15任一项所述的表情生成模型的训练方法。

20.一种表情生成***，包括：权利要求16所述的表情生成装置以及权利要求17所述的表情生成模型的训练装置。