CN114863533A

CN114863533A - 数字人生成方法和装置及存储介质

Info

Publication number: CN114863533A
Application number: CN202210541984.9A
Authority: CN
Inventors: 王林芳; 张炜; 石凡; 张琪; 申童; 左佳伟; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-05
Also published as: WO2023221684A1

Abstract

本公开提出一种数字人生成方法和装置及存储介质，涉及计算机技术领域。该方法包括：获取第一视频；根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理；根据处理后的第一视频中的各帧图像，输出第二视频。根据交互场景相应的人物定制信息对视频中的人物进行编辑处理，通过人物编辑生成与交互场景匹配的数字人视频。

Description

数字人生成方法和装置及存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种数字人生成方法和装置及存储介质。

背景技术

在人工智能、虚拟现实等新技术浪潮的带动下，数字人各方面的性能获得提升，以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领城大放异彩。

数字人形象的定制力求真实性与个性化。在照相级超写实的要求下，数字人形象的每一个细节都会为用户所关注。这对模特在录制形象素材时提出了较高的要求。但是，模特毕竟不是机器人，无法在时间以及动作定位上达到与形象所使用的交互场景完全匹配。

发明内容

本公开实施例根据交互场景相应的人物定制信息对视频中的人物进行编辑处理，通过人物编辑生成与交互场景匹配的数字人视频。

本公开一些实施例提出一种数字人生成方法，包括：

获取第一视频；

根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理；

根据处理后的第一视频中的各帧图像，输出第二视频。

在一些实施例中，所述第一视频是由原视频经过预处理得到的，所述预处理包括分辨率调整、帧间平滑处理、帧率调整中的一项或多项。

在一些实施例中，所述分辨率调整包括：

如果原视频的分辨率高于要求的预设分辨率，按照预设分辨率对原视频进行降采样，得到预设分辨率的第一视频；

如果原视频的分辨率低于要求的预设分辨率，利用超分辨率模型对原视频进行处理，得到预设分辨率的第一视频，所述超分辨率模型用于将输入视频的分辨率提升至预设分辨率。

在一些实施例中，所述超分辨率模型是由神经网络经过训练得到的，在训练过程中，将来自高清视频的第一视频帧按照预设分辨率进行降采样得到第二视频帧，将第二视频帧作为神经网络的输入，将第一视频帧作为神经网络的输出的监督信息，对神经网络进行训练得到超分辨率模型。

在一些实施例中，所述帧率调整包括：

如果原视频的帧率高于要求的预设帧率，根据原视频的帧率与预设帧率的比例信息对原视频进行抽帧，得到预设帧率的第一视频；

如果原视频的帧率低于要求的预设帧率，利用视频插帧模型将原视频插帧至第一帧率，所述第一帧率为原视频插帧之前的帧率与预设帧率的最小公倍数，根据第一帧率与预设帧率的比例信息对插帧后的原视频进行抽帧，得到预设帧率的第一视频，所述视频插帧模型用于生成任意两帧图像之间的过渡帧。

在一些实施例中，所述视频插帧模型是由神经网络经过训练得到的，在训练过程中，将训练视频帧序列中的连续三帧作为三元组，将三元组中的第一帧和第三帧作为神经网络的输入，将三元组中的第二帧作为神经网络的输出的监督信息，对神经网络进行训练得到视频插帧模型。

在一些实施例中，神经网络的输入包括：第一帧和第三帧的视觉特征信息和深度信息，以及第一帧和第三帧之间的光流信息和形变信息。

在一些实施例中，所述根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理包括以下中的一项或多项：

根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理；

根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理；

根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理。

在一些实施例中，所述根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理包括：根据用户在第一视频中的部分视频帧所做的人物形象调整，确定人物形象调整参数，按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理。

在一些实施例中，所述按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理包括：

根据所述人物形象调整参数中的人物形象调整的目标部位，通过关键点检测定位第一视频中的其余视频帧中的人物的目标部位；

根据所述人物形象调整参数中的人物形象调整的幅度信息或位置信息，通过图形学变换对定位的目标部位的幅度或位置进行调整。

在一些实施例中，所述人物表情定制信息包括目标表情对应的预设分类信息，所述根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理，包括：

获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；

将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到所述每帧图像对应的融合图像的特征信息；

根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像，所有融合图像形成人脸表情是目标表情的第二视频。

在一些实施例中，所述获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息包括：

将所述第一视频中每帧图像输入人脸特征提取模型，得到输出的所述每帧图像的特征信息；

将所述每帧图像的特征信息输入人脸关键点检测模型，得到所述每帧图像的人脸关键点的坐标信息，采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为所述人脸关键点的特征信息；

将所述每帧图像的特征信息输入表情分类模型，得到所述每帧图像的原表情的分类信息。

在一些实施例中，所述将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：

将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述每帧图像对应的融合表情的分类信息；

将与训练得到的第一权重相乘后的所述每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的所述每帧图像的特征信息，以及所述每帧图像对应的融合表情的分类信息进行拼接。

在一些实施例中，所述根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像包括：

将所述每帧图像对应的融合图像的特征信息输入解码器，输出生成的所述每帧图像对应的融合图像；

其中，所述人脸特征提取模型包括卷积层，所述解码器包括反卷积层。

在一些实施例中，将人脸表情是原表情的第一视频和目标表情对应的预设分类信息输入表情生成模型，输出得到人脸表情是目标表情的第二视频；所述表情生成模型的训练方法，包括：

获取由第一训练视频的各帧图像与第二训练视频的各帧图像组成的训练对；

将所述第一训练视频的各帧图像输入第一生成器，获取所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到所述第一训练视频对应的各帧融合图像的特征信息，根据所述第一训练视频对应的各帧融合图像的特征信息，得到所述第一生成器输出的所述第一训练视频对应的各帧融合图像；

将所述第二训练视频各帧图像输入第二生成器，获取所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到所述第二训练视频对应的各帧融合图像的特征信息，根据所述第二训练视频对应的各帧融合图像的特征信息，得到所述第二生成器输出的所述第二训练视频对应的各帧融合图像；

根据所述第一训练视频对应的各帧融合图像、所述第二训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；

根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练，第一生成器训练完成后作为表情生成模型使用。

在一些实施例中，还包括：根据所述第一训练视频对应的每相邻两帧融合图像之间的像素差异，以及所述第二训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；

其中，所述根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练包括：

根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练。

在一些实施例中，所述根据所述第一训练视频对应的各帧融合图像、所述第二训练视频对应的各帧融合图像，确定对抗损失包括：将所述第一训练视频对应的各帧融合图像输入第一判别器，得到所述第一训练视频对应的各帧融合图像的第一判别结果；

将所述第二训练视频对应的各帧融合图像输入第二判别器，得到所述第二训练视频对应的各帧融合图像的第二判别结果；

根据所述第一训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据所述第二训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

在一些实施例中，将所述第一训练视频对应的各帧融合图像输入第一判别器，得到所述第一训练视频对应的各帧融合图像的第一判别结果包括：

将所述第一训练视频对应的各帧融合图像输入所述第一判别器中第一人脸特征提取模型，得到输出的所述第一训练视频对应的各帧融合图像的特征信息；

将所述第一训练视频对应的各帧融合图像的特征信息输入所述第一判别器中的第一表情分类模型，得到所述第一训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；

所述将所述第二训练视频对应的各帧融合图像输入第二判别器，得到所述第二训练视频对应的各帧融合图像的第二判别结果包括：

将所述第二训练视频对应的各帧融合图像输入所述第二判别器中第二人脸特征提取模型，得到输出的所述第二训练视频对应的各帧融合图像的特征信息；

将所述第二训练视频对应的各帧融合图像的特征信息输入所述第二判别器中的第二表情分类模型，得到所述第二训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

在一些实施例中，所述循环一致损失采用以下方法确定：

将所述第一训练视频对应的各帧融合图像输入所述第二生成器，生成所述第一训练视频的各帧重构图像，将所述第二训练视频对应的各帧融合图像输入所述第一生成器，生成所述第二训练视频的各帧重构图像；

根据所述第一训练视频的各帧重构图像和所述第一训练视频的各帧图像的差异，以及所述第二训练视频的各帧重构图像和所述第二训练视频的各帧图像的差异，确定循环一致损失。

在一些实施例中，所述像素对像素损失采用以下方法确定：

针对所述第一训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；

针对所述第二训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；

将所述第一损失和所述第二损失加和，得到所述像素对像素损失。

在一些实施例中，所述获取所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息包括：将所述第一训练视频中各帧图像输入所述第一生成器中的第三人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第一生成器中第一人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为所述第一训练视频的各帧图像的人脸关键点的特征信息；将所述第一训练视频中各帧图像的特征信息输入所述第一生成器中的第三表情分类模型，得到所述第一训练视频中各帧图像的原表情的分类信息；

所述获取所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息包括：将所述第二训练视频中各帧图像输入所述第二生成器中的第四人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第二生成器中第二人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为所述第二训练视频的各帧图像的人脸关键点的特征信息；将所述第二训练视频中各帧图像的特征信息输入所述第二生成器中的第四表情分类模型，得到所述第二训练视频中各帧图像的目标表情的分类信息。

在一些实施例中，所述将所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合包括：将所述第一训练视频的各帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述第一训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的所述第一训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的所述第一训练视频的各帧图像的特征信息，以及所述第一训练视频的各帧图像对应的融合表情的分类信息进行拼接；

所述将所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合包括：将所述第二训练视频的各帧图像的目标表情的分类信息与所述原表情对应的预设分类信息进行加和取平均，得到所述第二训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的所述第二训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的所述第二训练视频的各帧图像的特征信息，以及所述第二训练视频的各帧图像对应的融合表情的分类信息进行拼接。

在一些实施例中，所述根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练包括：将所述对抗损失、所述循环一致损失和所述像素对像素损失进行加权求和，得到总损失；根据所述总损失对所述第一生成器和所述第二生成器进行训练。

在一些实施例中，所述根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理，包括：

对第一视频中原第一关键帧中的人物在第一动作时的第一人体关键点进行调整，得到人物在第二动作时的第二人体关键点，作为人物动作定制信息；

从原第一关键帧中提取各个第二人体关键点邻域的特征信息；

将各个第二人体关键点及其邻域的特征信息输入图像生成模型，输出人物在第二动作时的目标第一关键帧。

在一些实施例中，所述图像生成模型的获得方法包括：将训练视频帧以及训练视频帧中的人物的人体关键点作为一对训练数据，将训练数据中人体关键点及其在训练视频帧中邻域的特征信息作为图像生成网络的输入，将训练数据中的训练视频帧作为图像生成网络的输出的监督信息，对图像生成网络进行训练得到所述图像生成模型。

在一些实施例中，第一人体关键点包括人物在第一动作时的人体轮廓特征点，第二人体关键点包括人物在第二动作时的人体轮廓特征点。

本公开一些实施例提出一种数字人生成装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行各个实施例所述的数字人生成方法。

本公开一些实施例提出一种数字人生成装置，包括：

获取单元，被配置为获取第一视频；

定制单元，被配置为根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理；

输出单元，被配置为根据处理后的第一视频中的各帧图像，输出第二视频。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现各个实施例所述的数字人生成方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出本公开一些实施例的数字人生成方法的流程示意图。

图1B示出本公开另一些实施例的数字人生成方法的流程示意图。

图2示出本公开一些实施例的视频预处理的示意图。

图3A示出本公开一些实施例的表情生成方法的流程示意图。

图3B示出本公开另一些实施例的表情生成方法的示意图。

图3C示出本公开一些实施例的表情生成模型的训练方法的流程示意图。

图3D示出本公开一些实施例的表情生成模型的训练方法的示意图。

图4A示出本公开一些实施例的人物在第一动作时的人体轮廓特征点的示意图。

图4B示出本公开一些实施例的人物在第二动作时的人体轮廓特征点的示意图。

图4C示出本公开一些实施例的人物上的多个关键点和多条关键连线的示意图。

图5示出本公开一些实施例的数字人生成装置的结构示意图。

图6示出本公开另一些实施例的数字人生成装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

如图1A所示，该实施例的数字人生成方法包括以下步骤。

在步骤S110，获取第一视频。

第一视频例如可以是录制的原视频，也可以是由原视频经过预处理得到的，所述预处理包括分辨率调整、帧间平滑处理、帧率调整中的一项或多项。

在步骤S120，根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理。

所述根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理包括以下中的一项或多项：根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理，生成与交互场景匹配的数字人形象；根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理，生成与交互场景匹配的数字人表情；根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理，生成与交互场景匹配的数字人动作。

在步骤S130，根据处理后的第一视频中的各帧图像，输出第二视频。

即，处理后的第一视频中的各帧图像组合形成第二视频，第二视频是与交互场景匹配的数字人视频。

上述实施例，根据交互场景相应的人物定制信息对视频中的人物进行编辑处理，通过人物编辑生成与交互场景匹配的数字人视频，例如，生成与交互场景匹配的数字人形象、数字人表情、数字人动作等。

如图1B所示，该实施例的数字人生成方法包括以下步骤。

在步骤S210，定制逻辑控制。

定制逻辑控制用来对视频预处理、形象定制、表情定制、动作定制等定制逻辑是否执行、执行顺序等进行控制。

视频预处理、形象定制、表情定制、动作定制等各部分所编辑的内容是独立的，相互之间不存在强依赖关系，因此，各部分的执行顺序可以调换，均可达到生成与交互场景匹配的数字人视频的基本效果。但是，各部分之间还是存在一定的相互影响，按照本实施例的S220～S250的执行顺序，可以使得各部分之间的相互影响降至最低，最终人物形象的呈现效果更好。

在步骤S220，视频预处理。

视频预处理是对录制的原视频进行预处理得到第一视频，所述预处理包括分辨率调整、帧间平滑处理、帧率调整中的一项或多项。

在一些实施例中，如图2所示，所述预处理按照分辨率调整、帧间平滑处理、帧率调整的顺序依次执行，视频预处理的效果更好，可以最大程度保留原视频的视觉信息，保证预处理后的视频不发生模糊、失真等质量问题，并使帧率调整、分辨率调整对后续数字人定制流程影响最小。

所述分辨率调整包括：如果原视频的分辨率高于要求的预设分辨率，按照预设分辨率对原视频进行降采样，得到预设分辨率的第一视频；如果原视频的分辨率低于要求的预设分辨率，利用超分辨率模型对原视频进行处理，得到预设分辨率的第一视频，所述超分辨率模型用于将输入视频的分辨率提升至预设分辨率；如果原视频的分辨率等于要求的预设分辨率，则可以跳过分辨率调整的步骤。

通过分辨率调整，可以使得预处理后的第一视频在分辨率方面保持一致性，降低原视频差异化分辨率对数字人定制效果的影响。

所述超分辨率模型例如是由神经网络经过训练得到的，在训练过程中，将来自高清视频的第一视频帧按照预设分辨率进行降采样得到第二视频帧，将第二视频帧作为神经网络的输入，将第一视频帧作为神经网络的输出的监督信息，对神经网络进行训练得到超分辨率模型。其中，将神经网络的输出的视频帧与第一视频帧的差距信息作为损失函数，迭代地根据损失函数确定的损失更新神经网络的参数，直至损失满足一定条件，训练完成，此时神经网络的输出的视频帧非常接近第一视频帧，将训练后的神经网络作为超分辨率模型。其中，神经网络是一大类模型，例如包括但不限于卷积神经网络、基于光流法的循环网络、生成对抗网络等。

例如，将高清视频(1080p)的关键帧进行降采样得到较低分辨率(如360p/480p/720p等)的第二视频帧，按照上述训练方法得到超分辨率模型，利用该超分辨率模型，可由任意分辨率的原视频得到480p/720p/1080p等分辨率的第一视频。其中，360p/480p/720p/1080p是一种视频显示格式，P表示逐行扫描，例如1080p的画面分辨率为1920乘以1080。

分辨率调整后，由超分辨模型生成或降采样得到的帧序列中，两帧之间的纹理信息可能存在一定的差距，故而在此采用通过帧间平滑处理，以保证视频播放时纹理、人物边缘等处不会有锯齿或摩尔纹的产生，避免造成视觉上的影响。

帧间平滑处理例如可以采用平均值的平滑处理方式。例如，连续三帧的图像信息取平均值，将该平均值作为该连续三帧中的中间帧的图像信息。

所述帧率调整包括：如果原视频的帧率高于要求的预设帧率，根据原视频的帧率与预设帧率的比例信息对原视频进行抽帧，得到预设帧率的第一视频；如果原视频的帧率低于要求的预设帧率，利用视频插帧模型将原视频插帧至第一帧率，所述第一帧率为原视频插帧之前的帧率与预设帧率的最小公倍数，根据第一帧率与预设帧率的比例信息对插帧后的原视频进行抽帧，得到预设帧率的第一视频，所述视频插帧模型用于生成任意两帧图像之间的过渡帧；如果原视频的帧率等于要求的预设帧率，可以跳过帧率调整的步骤。

通过帧率调整，可以使得预处理后的第一视频在帧率方面保持一致性，降低原视频差异化帧率对数字人定制效果的影响。并且，插帧操作还可以有效解决两动作间的跳变问题。例如，数字人做完动作A做动作B，未经过插帧处理的视频播放时会使用户感觉到人物动作跳变，不够真实，本实施例通过插帧会在两动作的关键帧之间***若干过渡帧，使得插帧处理后的视频播放时使用户感觉人物动作过渡自然，比较真实。

所述视频插帧模型例如是由神经网络经过训练得到的，在训练过程中，将训练视频帧序列中的连续三帧作为三元组，将三元组中的第一帧和第三帧作为神经网络的输入，将三元组中的第二帧作为神经网络的输出的监督信息，对神经网络进行训练得到视频插帧模型。其中，将神经网络基于输入的三元组中的第一帧和第三帧输出的视频帧与三元组中的第二帧的差距信息作为损失函数，迭代地根据损失函数确定的损失更新神经网络的参数，直至损失满足一定条件，训练完成，此时神经网络的输出的视频帧非常接近三元组中的第二帧，将训练后的神经网络作为视频插帧模型，能够生成任意两帧图像之间的过渡帧。其中，神经网络是一大类模型，例如包括但不限于卷积神经网络、基于光流法的循环网络、生成对抗网络等。

其中，神经网络的输入例如包括：第一帧和第三帧的视觉特征信息和深度信息，以及第一帧和第三帧之间的光流信息和形变信息。通过这四部分信息的融合，所推理出的两帧之间应***的过渡帧能够使视频过渡更加顺畅。

在步骤S230，形象定制。

根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理，满足用户对数字人美颜美体的需要。其中，形象定制例如包括磨皮、瘦脸、大眼、五官位置调整、身体比例调整，如瘦身，腿部拉长等美颜美体操作。

在一些实施例中，根据用户在第一视频中的部分视频帧所做的人物形象调整，确定人物形象调整参数，按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理。其中，“部分视频帧”例如可以是第一视频中的一个或几个关键帧。第一通过少量编辑工作即可完成全部视频数字人的形象定制，提高数字人定制效率和定制成本。

所述按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理包括：根据所述人物形象调整参数中的人物形象调整的目标部位，通过关键点检测定位第一视频中的其余视频帧中的人物的目标部位，目标部位例如是五官或人体等；根据所述人物形象调整参数中的人物形象调整的幅度信息或位置信息，通过图形学变换对定位的目标部位的幅度或位置进行调整。

例如，用户在一些关键帧中调大了人物的眼睛，则先通过人脸检测技术检测到人脸，然后，通过关键点检测技术定位到其余视频帧中人物的眼睛，然后，根据用户调大眼睛的幅度信息，例如，上下眼睑间距的调大幅度，通过图形学变换对其余视频帧中人物的眼睛的幅度进行调整，对视频的所有帧中的人物达到大眼的美颜效果。

在步骤S240，表情定制。

表情定制是指根据交互场景相应的人物表情定制信息，例如目标表情对应的预设分类信息，对第一视频中的各帧图像中的人物表情进行编辑处理的表情生成方法，实现交互场景下数字人面部表情的控制，可以将数字人的一种表情状态迁移至另一种目标表情状态下，同时保证数字人仅面部表情发生变化、说话口型、头部动作等均不受影响。从而当数字人表达相应的语言内容时，表情可以随语言内容做出相应的变化。

图3A为本公开表情生成方法一些实施例的流程图。如图3A所示，该实施例的方法包括：步骤S310～S330。

在步骤S310中，获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息。

第一视频中的人脸表情为原表情。即，第一视频中各帧图像中人脸表情主要为原表情，原表情例如是平静表情。

在一些实施例中，将第一视频中每帧图像输入人脸特征提取模型，得到输出的每帧图像的特征信息；将每帧图像的特征信息输入人脸关键点检测模型，得到每帧图像的人脸关键点的坐标信息；采用主成分分析法(Principal Components Analysis，PCA)对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为人脸关键点的特征信息；将每帧图像的特征信息输入表情分类模型，得到每帧图像的原表情的分类信息。

整体的表情生成模型包括编码器和解码器，编码器可以包括人脸特征提取模型、人脸关键点检测模型和表情分类模型，人脸特征提取模型连接人脸关键点检测模型和表情分类模型。人脸特征提取模型可以采用现有的模型，例如，VGG-19、ResNet、Transformer等具有特征提取功能的深度学习模型。可以将VGG-19block 5之前的部分作为人脸特征提取模型。人脸关键点检测模型和表情分类模型也可以采用现有的模型，例如MLP(多层感知机)等，具体可以是3层MLP。表情生成模型训练完成后用于生成表情，后续将对训练过程进行详细描述。

第一视频中每帧图像的特征信息例如为人脸特征提取模型输出的特征图(Feature Map)，关键点例如包括下巴、眉心、嘴角等68个关键点，每个关键点表示为所在位置的横纵坐标。通过人脸关键点检测模型得到各个关键点的坐标信息后，为了减少冗余信息提高效率，通过PCA对所有人脸关键点的坐标信息进行降维，得到预设维度(例如，6维，可以达到最佳效果)的信息，作为人脸关键点的特征信息。表情分类模型可以输出中性，高兴，悲伤等若干种表情的分类，可以采用one-hot编码的向量表示。原表情的分类信息可以是通过表情分类模型得到的第一视频中每帧图像中原表情的分类的one-hot编码。

在步骤S320中，将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息。

在一些实施例中，将每帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的每帧图像的特征信息，以及每帧图像对应的融合表情的分类信息进行拼接。

目标表情与原表情不同，例如为微笑表情，目标表情对应的预设分类信息例如为目标表情的预设one-hot编码。预设分类信息不需要通过模型得到，直接采用预设编码规则(one-hot)进行编码即可。例如，平静表情编码为1000，微笑表情编码为0100。前述原表情的分类信息是通过表情分类模型得到的，该分类信息可以与原表情对应的预设分类信息有区别，例如，原表情为平静表情，预设one-hot编码为1000，但是表情分类模型得到的one-hot编码可以为0.8 0.2 0 0。

编码器还可以包括特征融合模型，将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息输入特征融合模型进行融合。特征融合模型中需要训练的参数包括第一权重和第二权重。针对每帧图像，训练得到的第一权重与该图像的人脸关键点的特征信息相乘，得到第一特征向量，训练得到的第二权重与该图像的特征信息相乘，得到第二特征向量，将第一特征向量、第二特征向量与该图像对应的融合表情的分类信息进行拼接，得到该图像对应的融合图像的特征信息。第一权重和第二权重可以使三种信息的值域统一。

在步骤S330中，根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，所有融合图像组合形成人脸表情是目标表情的第二视频。

在一些实施例中，将每帧图像对应的融合图像的特征信息输入解码器，输出生成的每帧图像对应的融合图像。人脸特征提取模型包括卷积层，解码器包括反卷积层，可以基于特征生成图像。解码器例如为VGG-19的block 5，将最后一层卷积层替换为反卷积层。融合图像即为人脸表情是目标表情的图像，各帧融合图像形成第二视频。

下面结合图3B描述本公开的一些应用例。

如图3B所示，第一视频中的一帧图像，进行特征提取后得到特征图，根据特征图分别进行人脸关键点检测和表情分类，人脸关键点检测得到的各个关键点的特征信息进行PCA，降维为预设维度的信息作为关键点特征，原表情的分类信息进行one-hot编码与目标表情对应的预设分类信息进行融合，得到表情分类向量(融合表情的分类信息)，进而将人脸的特征图，表情分类向量和关键点特征进行融合，得到融合图像的特征信息，将融合图像的特征信息进行特征解码，得到目标表情的人脸图像。

上述实施例的方案对第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息进行提取，将提取的信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息，进而根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，所有融合图像即可形成人脸表情是目标表情的第二视频。上述实施例中通过提取人脸关键点的特征信息，并用于特征融合，使得融合图像中的表情更加真实，流畅，通过目标表情对应的预设分类信息的融合，直接实现目标表情的生成，并且与原图像中人物面部动作、口型兼容，不影响人物的口型、头部动作等，不影响原图像的清晰度，使得生成的视频稳定、清晰、流畅。

图3C为本公开表情生成模型的训练方法一些实施例的流程图。表情生成模型能够根据输入的人脸表情是原表情的第一视频和目标表情对应的预设分类信息，输出得到人脸表情是目标表情的第二视频。

如图3C所示，该实施例的方法包括：步骤S410～S450。

在步骤S410中，获取由第一训练视频的各帧图像与第二训练视频的各帧图像组成的训练对。

第一训练视频为人脸表情为原表情的视频，第二训练视频为人脸表情为目标表情的视频，第一训练视频的各帧图像与第二训练视频的各帧图像并不需要一一对应。对原表情的分类信息和目标表情的分类信息进行标注。

以大量人物不同表情说话的视频作为训练数据，以深度学习进行跨域迁移学习(Domain Transfer Learning)，学习出由一种表情状态转化至另外一种表情状态的第一生成器，再将表情生成结果与整个数字人相融合。

在步骤S420中，将第一训练视频的各帧图像输入第一生成器，获取第一训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将第一训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到第一训练视频对应的各帧融合图像的特征信息，根据第一训练视频对应的各帧融合图像的特征信息，得到第一生成器输出的第一训练视频对应的各帧融合图像。

第一生成器训练完成后作为表情生成模型使用。在一些实施例中，将第一训练视频中各帧图像输入第一生成器中的第三人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第一生成器中第一人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为第一训练视频的各帧图像的人脸关键点的特征信息；将第一训练视频中各帧图像的特征信息输入第一生成器中的第三表情分类模型，得到第一训练视频中各帧图像的原表情的分类信息。

将人脸关键点的坐标信息进行主成分分析(PCA)，关键点坐标信息降至6维(6维是通过大量实验得到的最好效果)。PCA不涉及训练参数(PCA的特征提取以及前后特征维度对应关系不随训练改变，梯度反向传递时，仅通过初始PCA得到的特征对应关系，向前面的参数传递梯度即可)。

在一些实施例中，将第一训练视频的各帧图像的原表情的分类信息与目标表情对应的预设分类信息进行加和取平均，得到第一训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的第一训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的第一训练视频的各帧图像的特征信息，以及第一训练视频的各帧图像对应的融合表情的分类信息进行拼接，得到第一训练视频对应的各帧融合图像的特征信息。

第一生成器中包括第一特征融合模型，第一权重和第二权重为第一特征融合模型中待训练的参数。上述特征提取和特征融合的过程可以参考前述实施例。

第一生成器包括第一编码器和第一解码器，第一编码器包括：第三人脸特征提取模型，第一人脸关键点检测模型，第三表情分类模型，第一特征融合模型，将第一训练视频对应的各帧融合图像的特征信息输入第一解码器得到生成的第一训练视频对应的各帧融合图像。

在步骤S430中，将第二训练视频各帧图像输入第二生成器，获取第二训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息，将第二训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到第二训练视频对应的各帧融合图像的特征信息，根据第二训练视频对应的各帧融合图像的特征信息，得到第二生成器输出的第二训练视频对应的各帧融合图像。

第二生成器与第一生成器在结构上是相同或相似的，第二生成器的训练目标是基于第二训练视频，生成与第一训练视频表情相同的视频。

在一些实施例中，将第二训练视频中各帧图像输入第二生成器中的第四人脸特征提取模型，得到输出的各帧图像的特征信息；将各帧图像的特征信息输入第二生成器中第二人脸关键点检测模型，得到各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为第二训练视频的各帧图像的人脸关键点的特征信息。将第二训练视频中各帧图像的特征信息输入第二生成器中的第四表情分类模型，得到第二训练视频中各帧图像的目标表情的分类信息。

第二训练视频的各帧图像的人脸关键点的特征信息与第一训练视频的各帧图像的人脸关键点的特征信息的维度是相同的，例如，6维。

在一些实施例中，将第二训练视频的各帧图像的目标表情的分类信息与原表情对应的预设分类信息进行加和取平均，得到第二训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的第二训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的第二训练视频的各帧图像的特征信息，以及第二训练视频的各帧图像对应的融合表情的分类信息进行拼接，得到第二训练视频对应的各帧融合图像的特征信息。

原表情对应的预设分类信息不需要通过模型得到，直接采用预设编码规则进行编码即可。第二生成器包括第二特征融合模型，第三权重和第三权重为第二特征融合模型中待训练的参数。上述特征提取和特征融合的过程可以参考前述实施例，不再赘述。

第二生成器包括第二编码器和第二解码器，第二编码器包括：第四人脸特征提取模型，第二人脸关键点检测模型，第四表情分类模型，第二特征融合模型，将第二训练视频对应的各帧融合图像的特征信息输入第二解码器得到生成的第二训练视频对应的各帧融合图像。

在步骤S440中，根据第一训练视频对应的各帧融合图像、第二训练视频对应的各帧融合图像，确定对抗损失和循环一致损失。

基于生成对抗学习和跨域迁移学习进行端到端的训练，能够提高模型的准确度，并且提高训练效率。

在一些实施例中，对抗损失采用以下方法确定：将第一训练视频对应的各帧融合图像输入第一判别器，得到第一训练视频对应的各帧融合图像的第一判别结果；将第二训练视频对应的各帧融合图像输入第二判别器，得到第二训练视频对应的各帧融合图像的第二判别结果；根据第一训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据第二训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。

进一步，在一些实施例中，将第一训练视频对应的各帧融合图像输入第一判别器中第一人脸特征提取模型，得到输出的第一训练视频对应的各帧融合图像的特征信息；将第一训练视频对应的各帧融合图像的特征信息输入第一判别器中的第一表情分类模型，得到第一训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；将第二训练视频对应的各帧融合图像输入第二判别器中第二人脸特征提取模型，得到输出的第二训练视频对应的各帧融合图像的特征信息；将第二训练视频对应的各帧融合图像的特征信息输入第二判别器中的第二表情分类模型，得到第二训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。

在训练过程中整体模型包括两套生成器加判别器。第一判别器和第二判别器的结构是相同或相似的，都包括人脸特征提取模型和表情分类模型。第一人脸特征提取模型、第二人脸特征提取模型与第三人脸特征提取模型、第四人脸特征提取模型的结构相同或相似，第一表情分类模型、第二表情分类模型与第三表情分类模型、第四表情分类模型的结构相同或相似。

例如，第一视频的数据采用X＝{x_i}表示，第二视频的数据采用Y＝{y_i}表示。第一生成器G用于实现X→Y，训练使G(x)尽量接近Y，第一判别器D_Y用于判别第一训练视频对应的各帧融合图像的真假。第一对抗损失可以采用以下公式表示：

第二生成器F用于实现Y→X，训练使F(Y)尽量接近X，第二判别器D_X用于判别第二训练视频对应的各帧融合图像的真假。第二对抗损失可以采用以下公式表示：

在一些实施例中，循环一致损失(Cycle Consistency Losses)采用以下方法确定：将第一训练视频对应的各帧融合图像输入第二生成器，生成第一训练视频的各帧重构图像，将第二训练视频对应的各帧融合图像输入第一生成器，生成第二训练视频的各帧重构图像；根据第一训练视频的各帧重构图像和第一训练视频的各帧图像的差异，以及第二训练视频的各帧重构图像和第二训练视频的各帧图像的差异，确定循环一致损失。

为了进一步提高模型的准确率，将第一生成器生成的图像输入第二生成器，得到第一训练视频的各帧重构图像，期望第二生成器生成的第一训练视频的各帧重构图像与第一训练视频的各帧图像尽量一致，即F(G(x))≈x。将第二生成器生成的图像输入第一生成器，得到第二训练视频的各帧重构图像，期望第一生成器生成的第二训练视频的各帧重构图像与第二训练视频的各帧图像尽量一致，即G(F(y))≈y。

第一训练视频的各帧重构图像和第一训练视频的各帧图像的差异可以采用以下方法确定：针对第一训练视频的每帧重构图像和与该重构图像相对应的第一训练视频的图像，确定重构图像和对应的图像每个相同位置的像素的表示向量之间的距离(例如欧氏距离)，并对所有的距离求和。

第二训练视频的各帧重构图像和第二训练视频的各帧图像的差异可以采用以下方法确定：针对第二训练视频的每帧重构图像和与该重构图像相对应的第二训练视频的图像，确定重构图像和对应的图像每个相同位置的像素的表示向量之间的距离(例如欧氏距离)，并对所有的距离求和。

在步骤S450中，根据对抗损失和循环一致损失，对第一生成器和第二生成器进行训练。

可以将第一对抗损失、第二对抗损失和循环一致损失进行加权求和得到总损失，根据总损失对第一生成器和第二生成器进行训练。例如，总损失可以采用以下公式确定：

L＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λL_cyc(G,F) (3)

其中，L_cyc(G,F)表示循环一致损失，λ为权重，可以通过训练得到。

为了进一步提高模型的准确性，保证输出视频结果的稳定连续，在训练过程中增加视频两帧间的像素差带来的损失。在一些实施例中，根据第一训练视频对应的每相邻两帧融合图像之间的像素差异，以及第二训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失，根据对抗损失、循环一致损失和像素对像素损失，对第一生成器和第二生成器进行训练。

进一步，在一些实施例中，针对第一训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在该位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第一损失；针对第二训练视频对应的每相邻两帧融合图像中的每个位置，确定该相邻两帧融合图像中在位置上的两个像素的表示向量之间的距离，将所有位置对应的距离进行加和，得到第二损失；将第一损失和第二损失加和，得到像素对像素损失。像素对像素损失可以使生成的视频相邻两帧的变化不会太大。

在一些实施例中，将对抗损失、循环一致损失和像素对像素损失进行加权求和，得到总损失；根据总损失对第一生成器和第二生成器进行训练。例如，总损失可以采用以下公式确定：

L＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λ₁L_cyc(G,F)+λ₂L_P2P(G(x_i),G(x_i+1))+λ₃L_P2P(F(y_j),F(y_j+1)) (4)

其中，λ₁，λ₂，λ₃为权重，可以通过训练得到，L_P2P(G(x_i),G(x_i+1))表示第一损失，L_P2P(F(y_j),F(y_j+1))表示第二损失。

如图3D所示，在进行端到端的训练之前，可以针对各部分的模型进行预训练，例如，首先选取大量开源人脸识别数据对人脸识别模型进行预训练，选取其输出特征图之前的部分作为人脸特征提取模型(该部分方法不唯一，以vgg-19为例，选取block5之前部分，可输出8×8×512维的特征图)。之后固定人脸特征提取模型以及参数，在后边分为两条支路，两分支为人脸关键点检测模型和表情分类模型，分别以人脸关键点检测数据集与表情分类数据对各自分支进行微调(fine-tune)只训练这两部分模型结构当中的参数。人脸关键点检测模型不唯一，只要是基于卷积网络模型的能够得到准确的关键点的模型即可接入改方案；表情分类模型即为基于卷积网络模型的单标签分类任务。在预训练之后，可以再基于前述实施例执行端到端的训练过程。这样可以提高训练效率。

上述实施例的方法采用对抗损失、循环一致损失以及视频相邻两帧之间的像素损失对整体模型进行训练，可以提高模型的准确性，并且端到端的训练过程可以提高效率，节省计算资源。

本公开的方案适用于视频中人脸表情的编辑。本公开通过采用独特的深度学习模型，融合表情识别、关键点检测等技术，通过数据的训练，学习不同表情下人面部关键点移动的规律，最终通过向模型输入目标表情的分类信息来控制模型所输出的面部表情状态，且表情作为一种风格状态存在，当人物说话或做出歪头、眨眼等动作时能够很好的效果叠加，使得最终输出的人物面部动作视频自然、不违和。输出结果可与输入的图像具有相同的分辨率以及细节程度，在1080p甚至2k分辨率下依旧保持输出结果稳定、清晰、无瑕疵。

在步骤S250，动作定制。

动作定制是指根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理，实现交互场景下数字人动作的编辑和控制。

在一些实施例中，根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理包括：对第一视频中原第一关键帧中的人物在第一动作时的第一人体关键点进行调整，得到人物在第二动作时的第二人体关键点，作为人物动作定制信息；可利用特征提取模型，如卷积核模型，从原第一关键帧中提取各个第二人体关键点邻域的特征信息；将各个第二人体关键点及其邻域的特征信息输入图像生成模型，输出人物在第二动作时的目标第一关键帧。

第一人体关键点包括人物在第一动作时的人体轮廓特征点，如图4A所示的14对白色圆点，第二人体关键点包括人物在第二动作时的人体轮廓特征点，如图4B所示的14对白色圆点。

利用人体轮廓特征点进行人物动作编辑，相对于利用人体骨架特征点进行人物动作编辑，所生成的人物动作更准确，不易出现形变、扭曲等现象，提升生成的图像质量。

在调整人物在第一动作时的人体轮廓特征点之前，先提取人物在第一动作时的人体轮廓特征点。提取人物在第一动作时的人体轮廓特征点例如包括：利用语义分割网络模型，提取人物的轮廓线；利用目标检测网络模型，提取人物上的多个关键点，如图4C所示的黑色圆点；根据人物的结构信息，连接所述多个关键点，确定多条关键连线，如图4C所示的白色直线；根据所述多条关键连线的垂线与所述轮廓线的交点，确定出人物在第一动作时成对的多个人体轮廓特征点。

所述图像生成模型的获得方法包括：将训练视频帧以及训练视频帧中的人物的人体关键点作为一对训练数据，将训练数据中人体关键点及其在训练视频帧中邻域的特征信息作为图像生成网络的输入，将训练数据中的训练视频帧作为图像生成网络的输出的监督信息，对图像生成网络进行训练得到所述图像生成模型。其中，将图像生成网络基于输入数据输出的视频帧与训练视频帧的差距信息作为损失函数，迭代地根据损失函数确定的损失更新图像生成网络的参数，直至损失满足一定条件，训练完成，此时图像生成网络输出的视频帧非常接近训练视频帧，将训练后的图像生成网络作为图像生成模型。其中，图像生成网络是一大类模型，例如包括但不限于卷积神经网络、基于光流法的循环网络、生成对抗网络等。如果图像生成网络是生成对抗网络，则总的损失函数还包括图像判别网络的判别损失函数。

在步骤S260，渲染输出。

利用各步骤S220～250处理后的素材结果对人物形象进行建模，可根据应用场景选取不同的渲染技术，结合智能对话、语音识别、语音合成、动作交互等人工智能技术，组合成一套完整的可与场景互动的数字人视频(即第二视频)并输出。

上述实施例，根据交互场景相应的人物定制信息对视频中的人物进行编辑处理，通过人物编辑生成与交互场景匹配的数字人视频，例如，生成与交互场景匹配的数字人形象、数字人表情、数字人动作等。按照本公开实施例的方法，录制一套人物形象视频，能够快速生产出不同场景的不同人物形象风格的多套视频。并且，并不需要专业工程师接入，用户根据场景需要可以自行调整人物的形象、表情、动作等。

图5示出本公开一些实施例的数字人生成装置的结构示意图。如图5所示，该实施例的数字人生成装置500包括单元510～530。

获取单元510，被配置为获取第一视频，具体可参见步骤S220。

定制单元520，被配置为根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理，具体可参见步骤S230～250。

定制单元520例如包括形象定制单元521，表情定制单元522，动作定制单元523等。形象定制单元521，被配置为根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理，具体可参见步骤S230。表情定制单元522，被配置为根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理，具体可参见步骤S240。动作定制单元523，被配置为根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理，具体可参见步骤S250。

输出单元530，被配置为根据处理后的第一视频中的各帧图像，输出第二视频，具体可参见步骤S260。

图6示出本公开另一些实施例的数字人生成装置的结构示意图。如图6所示，该实施例的数字人生成装置600包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一些实施例中的数字人生成方法。

其中，存储器610例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。

其中，处理器620可以用通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。

装置600还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。总线660可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro ChannelArchitecture，MCA)总线、***组件互连(Peripheral Component Interconnect，PCI)总线。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任意一些实施例中的数字人生成方法的步骤。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数字人生成方法，其特征在于，包括：

获取第一视频；

根据处理后的第一视频中的各帧图像，输出第二视频。

2.根据权利要求1所述的方法，其特征在于，所述第一视频是由原视频经过预处理得到的，所述预处理包括分辨率调整、帧间平滑处理、帧率调整中的一项或多项。

3.根据权利要求2所述的方法，其特征在于，所述分辨率调整包括：

4.根据权利要求3所述的方法，其特征在于，所述超分辨率模型是由神经网络经过训练得到的，在训练过程中，将来自高清视频的第一视频帧按照预设分辨率进行降采样得到第二视频帧，将第二视频帧作为神经网络的输入，将第一视频帧作为神经网络的输出的监督信息，对神经网络进行训练得到超分辨率模型。

5.根据权利要求2所述的方法，其特征在于，所述帧率调整包括：

6.根据权利要求5所述的方法，其特征在于，所述视频插帧模型是由神经网络经过训练得到的，在训练过程中，将训练视频帧序列中的连续三帧作为三元组，将三元组中的第一帧和第三帧作为神经网络的输入，将三元组中的第二帧作为神经网络的输出的监督信息，对神经网络进行训练得到视频插帧模型。

7.根据权利要求6所述的方法，其特征在于，神经网络的输入包括：第一帧和第三帧的视觉特征信息和深度信息，以及第一帧和第三帧之间的光流信息和形变信息。

8.根据权利要求1所述的方法，其特征在于，所述根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理包括以下中的一项或多项：

9.根据权利要求8所述的方法，其特征在于，所述根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理包括：

根据用户在第一视频中的部分视频帧所做的人物形象调整，确定人物形象调整参数，按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理。

10.根据权利要求9所述的方法，其特征在于，所述按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理包括：

11.根据权利要求8所述的方法，其特征在于，

所述人物表情定制信息包括目标表情对应的预设分类信息，

所述根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理，包括：

12.根据权利要求11所述的方法，其特征在于，所述获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息包括：

13.根据权利要求11所述的方法，其特征在于，所述将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：

14.根据权利要求12所述的方法，其特征在于，所述根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像包括：

15.根据权利要求11所述的方法，其特征在于，

将人脸表情是原表情的第一视频和目标表情对应的预设分类信息输入表情生成模型，输出得到人脸表情是目标表情的第二视频；

所述表情生成模型的训练方法，包括：

16.根据权利要求15所述的方法，其特征在于，还包括：

根据所述第一训练视频对应的每相邻两帧融合图像之间的像素差异，以及所述第二训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；

17.根据权利要求15或16所述的方法，其特征在于，所述根据所述第一训练视频对应的各帧融合图像、所述第二训练视频对应的各帧融合图像，确定对抗损失包括：

将所述第一训练视频对应的各帧融合图像输入第一判别器，得到所述第一训练视频对应的各帧融合图像的第一判别结果；

18.根据权利要求17所述的方法，其特征在于，将所述第一训练视频对应的各帧融合图像输入第一判别器，得到所述第一训练视频对应的各帧融合图像的第一判别结果包括：

19.根据权利要求15或16所述的方法，其特征在于，所述循环一致损失采用以下方法确定：

20.根据权利要求16所述的方法，其特征在于，所述像素对像素损失采用以下方法确定：

21.根据权利要求15所述的方法，其特征在于，所述获取所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息包括：

将所述第一训练视频中各帧图像输入所述第一生成器中的第三人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第一生成器中第一人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第一信息，作为所述第一训练视频的各帧图像的人脸关键点的特征信息；将所述第一训练视频中各帧图像的特征信息输入所述第一生成器中的第三表情分类模型，得到所述第一训练视频中各帧图像的原表情的分类信息；

所述获取所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息和目标表情的分类信息包括：

将所述第二训练视频中各帧图像输入所述第二生成器中的第四人脸特征提取模型，得到输出的所述各帧图像的特征信息；将所述各帧图像的特征信息输入所述第二生成器中第二人脸关键点检测模型，得到所述各帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的第二信息，作为所述第二训练视频的各帧图像的人脸关键点的特征信息；将所述第二训练视频中各帧图像的特征信息输入所述第二生成器中的第四表情分类模型，得到所述第二训练视频中各帧图像的目标表情的分类信息。

22.根据权利要求15所述的方法，其特征在于，所述将所述第一训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合包括：

将所述第一训练视频的各帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述第一训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第一权重相乘后的所述第一训练视频的各帧图像的人脸关键点的特征信息，与待训练的第二权重相乘后的所述第一训练视频的各帧图像的特征信息，以及所述第一训练视频的各帧图像对应的融合表情的分类信息进行拼接；

所述将所述第二训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合包括：

将所述第二训练视频的各帧图像的目标表情的分类信息与所述原表情对应的预设分类信息进行加和取平均，得到所述第二训练视频的各帧图像对应的融合表情的分类信息；将与待训练的第三权重相乘后的所述第二训练视频的各帧图像的人脸关键点的特征信息，与待训练的第四权重相乘后的所述第二训练视频的各帧图像的特征信息，以及所述第二训练视频的各帧图像对应的融合表情的分类信息进行拼接。

23.根据权利要求16所述的方法，其特征在于，所述根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练包括：

将所述对抗损失、所述循环一致损失和所述像素对像素损失进行加权求和，得到总损失；

根据所述总损失对所述第一生成器和所述第二生成器进行训练。

24.根据权利要求8所述的方法，其特征在于，

所述根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理，包括：

25.根据权利要求24所述的方法，其特征在于，所述图像生成模型的获得方法包括：

将训练视频帧以及训练视频帧中的人物的人体关键点作为一对训练数据，将训练数据中人体关键点及其在训练视频帧中邻域的特征信息作为图像生成网络的输入，将训练数据中的训练视频帧作为图像生成网络的输出的监督信息，对图像生成网络进行训练得到所述图像生成模型。

26.根据权利要求24所述的方法，其特征在于，第一人体关键点包括人物在第一动作时的人体轮廓特征点，第二人体关键点包括人物在第二动作时的人体轮廓特征点。

27.一种数字人生成装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-26任一项所述的数字人生成方法。

28.一种数字人生成装置，其特征在于，包括：

获取单元，被配置为获取第一视频；

29.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-26任一项所述的数字人生成方法的步骤。