CN117078817A

CN117078817A - 视频生成方法、装置、设备和介质

Info

Publication number: CN117078817A
Application number: CN202311070010.8A
Authority: CN
Inventors: 冯志强; 李丰果; 刘豪杰; 陈睿智
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-17

Abstract

本公开提供了一种视频生成方法、装置、设备和介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。具体实现方案为：对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据所述图像特征序列提取所述目标人物角色的动作数据和表情数据；将所述动作数据和表情数据应用于目标动画角色，生成目标动画序列；基于所述待处理视频中的所述目标人物角色，将所述目标动画序列与所述待处理视频合并，生成目标视频。

Description

视频生成方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。具体涉及一种视频生成方法、装置、设备和介质。

背景技术

近年来，随着计算机图形学和视频处理技术的不断发展，CG(Computer Graphics)动画在电影、游戏和广告等领域的应用越来越广泛。

然而，制作高质量的CG动画需要大量的人力、时间和金钱投入，同时制作出的CG角色往往难以与真实环境相融合，导致合成效果不佳。

发明内容

本公开提供了一种视频生成方法、装置、设备和介质。

根据本公开的一方面，提供了一种视频生成方法，包括：

对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据所述图像特征序列提取所述目标人物角色的动作数据和表情数据；

将所述动作数据和表情数据应用于目标动画角色，生成目标动画序列；

基于所述待处理视频中的所述目标人物角色，将所述目标动画序列与所述待处理视频合并，生成目标视频。

根据本公开的另一方面，提供了一种视频生成装置，包括：

提取模块，用于对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据所述图像特征序列提取所述目标人物角色的动作数据和表情数据；

应用模块，用于将所述动作数据和表情数据应用于目标动画角色，生成目标动画序列；

生成模块，用于基于所述待处理视频中的所述目标人物角色，将所述目标动画序列与所述待处理视频合并，生成目标视频。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所述的视频生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开任意实施例所述的视频生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种视频生成方法的流程示意图；

图2是根据本公开实施例的一种视频生成方法的流程示意图；

图3是根据本公开实施例的视频生成方法中获取目标人体高维特征的流程示意图；

图4是根据本公开实施例的视频生成方法中单层时空双流序列网络的示意图；

图5是根据本公开实施例的视频生成方法中用于提取动作数据和表情数据的数据流示意图；

图6是根据本公开实施例的视频生成方法中生成目标动画序列的流程示意图；

图7是根据本公开实施例的视频生成方法中擦除目标人物角色的流程示意图；

图8是根据本公开实施例的视频生成方法中合并目标动画序列与待处理视频的流程示意图；

图9是根据本公开实施例的一种视频生成方法的流程示意图；

图10是根据本公开实施例的一种视频生成装置的结构示意图；

图11是用来实现本公开实施例的视频生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的一种视频生成方法的流程示意图，本实施例可适用于自动制作CG动画角色并将其合成到真人视频的情况，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该方法可由一种视频生成装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如服务器、计算机设备或智能终端等。如图1所示，该方法具体包括如下：

S101、对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据图像特征序列提取目标人物角色的动作数据和表情数据。

S102、将动作数据和表情数据应用于目标动画角色，生成目标动画序列。

S103、基于待处理视频中的目标人物角色，将目标动画序列与待处理视频合并，生成目标视频。

其中，在用户预将视频中的真人角色用动画角色替代的情况下，该视频即为待处理视频。预替代的真人角色可以是该视频中出现的任意人物，用户可以从中选择并作为目标人物角色。动画角色可以是CG动画角色，其可以是预先绘制好的动画角色，且本公开实施例对该动画角色的绘制过程不做任何限定。用户可以从已有的动画角色列表中选择其想要的动画角色。

绘制好的动画角色仅为静态对象，若要把该动画角色替换视频中的目标人物角色，让该动画角色按照原有的目标人物角色的动作和表情呈现在视频中，则需要先提取目标人物角色的动作数据和表情数据，将动作数据和表情数据应用于目标动画角色，生成目标动画序列，然后基于待处理视频中的目标人物角色，将目标动画序列与待处理视频合并，从而生成目标视频，在该目标视频中，可以看到由动画角色替代原有目标人物角色进行演绎，呈现出原有目标人物角色的动作和表情。其中，动作数据包括目标人物角色的手部数据和身体数据，表情数据包括目标人物角色的脸部数据。

具体的，先从待处理视频中提取出出现目标人物角色的目标视频帧集合，对于集合中的每一个目标视频帧，可以利用神经网络分别进行图像特征提取，之后将每一个目标视频帧的图像特征组成图像特征序列，然后根据该图像特征序列提取目标人物角色的动作数据和表情数据。可以利用重定向技术动作数据和表情数据应用于目标动画角色，生成目标动画序列。可以采用视频图像渲染技术将目标动画序列与待处理视频合并，生成目标视频。例如，根据实际需求，可以擦除待处理视频中的目标任务角色，然后再将目标动画序列与待处理视频合并，由目标动画角色替代待处理视频中的目标人物角色；也可以直接将目标动画角色覆盖目标人物角色，从而实现由目标动画角色替代待处理视频中的目标人物角色；此外，还可以通过合并，在待处理视频中按照目标人物角色的动作和表情，复制一个动画角色。需要说明的是，关于如何将提取到的动作数据和表情数据应用于动画角色，也可以使用现有技术中提供的其他方法，本公开实施例对此不作任何限定。

本公开实施例的技术方案，可以自动从待处理视频中提取图像特征序列，并根据图像特征序列提取要替换的目标人物角色的动作数据和表情数据，将动画角色替换视频中的人物角色，并将该人物角色的动作和表情应用在动画角色上，无需技术人员参与，高效、低成本地生成视频。

需要说明的是，可以将用于提取图像特征序列的网络作为第一网络，将用于提取动作数据和表情数据的网络作为第二网络，第一网络和第二网络连接，并整体采用端到端的训练方式训练而成。其中，第一网络可以是神经网络，利用神经网络提取的图像特征序列中包含了视频帧图像中的深度信息，属于3D数据信息，而根据该图像特征序列提取出的目标人物角色的动作数据和表情数据也属于3D数据信息。因此，一方面，从包含了深度信息的3D数据信息中提取动作数据和表情数据，其结果更加精准，另一方面，在提取动作数据和表情数据方面，第二网路例如可以是利用具有多层网络的网络模型根据图像特征序列提取动作数据和表情数据，那么本公开实施例实现的是一种从3D数据信息到3D数据信息的提取任务，更容易对完成该任务的提取图像特征的神经网络和提取动作数据和表情数据的网络模型整体实现端到端的训练。由于端到端的网络模型中，各网络可以共享参数，属于整体调优的模型，其推理的精度可以得到保证，而且推理速度更快，模型压缩也相对更容易，使得本公开实施例的技术方案更易于应用到实时版本中实现视频生成，从而提高视频生成的效率。

此外，在对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列之前，本公开实施例的方法还包括：

对待处理视频进行人体目标检测，获取候选人物集合；

响应于对人物角色的选择操作，从候选人物集合中确定目标人物角色；

利用重识别技术，将待处理视频的每个视频帧上的候选人物与目标人物角色进行匹配，获取目标视频帧集合。

具体的，可以利用现有的人体目标检测算法对待处理视频进行人体目标检测，本公开实施例对此不作任何限定。将检测出的候选人物集合提供给用户进行选择，从而确定当前要替换的目标人物角色。通过重识别技术，可以在待处理视频中的多个人物角色中追踪所选的目标人物角色，将目标人物角色与每一个视频帧进行匹配，确定目标人物角色出现的目标视频帧集合，从而保证在替换真人角色时，目标动画角色的位置与目标人物角色保持一致。

图2是根据本公开实施例的一种视频生成方法的流程示意图，本实施例在上述实施例的基础上，对如何提取动作数据和表情数据做出进一步的优化。如图2所示，该方法具体包括如下：

S201、对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据图像特征序列获取目标人物角色的目标人体高维特征，其中，目标人体高维特征用于表示目标人物角色的人体关节点在空间和时间上的相对位置关系特征。

S202、根据目标人体高维特征提取目标人物角色的动作数据和表情数据。

S203、将动作数据和表情数据应用于目标动画角色，生成目标动画序列。

S204、基于待处理视频中的目标人物角色，将目标动画序列与待处理视频合并，生成目标视频。

其中，根据图像特征序列可以获取目标人物角色的目标人体高维特征，该目标人体高维特征用于表示目标人物角色的人体关节点在空间和时间上的相对位置关系特征。例如，每一视频帧中人体各关节点在空间上的位置关系，以及同一关节点在不同视频帧之间的位置变化关系，包括是否产生位移、移动的方向、速度与加速度等。这样，通过目标人体高维特征所能够表示的人体关节点在空间和时间上的相对位置关系特征，就可以还原目标人物角色在各个目标视频帧中组成的视频帧序列中的姿态和移动信息，从而可以根据目标人体高维特征提取目标人物角色的动作数据和表情数据。

因此，本公开实施例的技术方案，根据图像特征序列获取能够表示目标人物角色的人体关节点在空间和时间上的相对位置关系特征的目标人体高维特征，继而根据目标人体高维特征提取目标人物角色的动作数据和表情数据，可以提高对人体动作数据和表情数据获取的精度。

在一种实施方式中，根据图像特征序列获取目标人物角色的目标人体高维特征，包括：

利用空间多头自注意力模块和时间多头自注意力模块，根据图像特征序列获取目标人物角色的目标人体高维特征；其中，空间多头自注意力模块用于获取人体关节点在同一视频帧内的相对位置关系特征，时间多头自注意力模块用于获取人体关节点在不同视频帧之间的相对位置关系特征。

其中，空间多头自注意力模块和时间多头自注意力模块即多头自注意力(multi-head self-attention，MHSA)的空间块(Spatial Block)和时间块(Temporal Block)，空间块用于获取人体关节点在同一视频帧内的相对位置关系特征，时间块用于获取人体关节点在不同视频帧之间的相对位置关系特征。空间块和时间块可以以不同的顺序堆叠，例如，图像特征序列先通过空间块再通过时间块，或者图像特征序列先通过时间块再通过空间块。通过空间多头自注意力模块和时间多头自注意力模块可以更精确地获取到目标人物角色的目标人体高维特征。

图3是根据本公开实施例的视频生成方法中获取目标人体高维特征的流程示意图，本实施例在上述实施例的基础上，对如何获取目标人物角色的目标人体高维特征做出进一步的优化。如图3所示，该方法具体包括如下：

S301、根据预设维度对图像特征序列进行投影，得到高维图像特征序列，其中，预设维度与人体关节点的个数相关。

S302、对高维图像特征序列进行空间位置编码和时间位置编码，其中，空间位置编码用于标注人体关节点在同一视频帧内的空间位置信息，时间位置编码用于标注人体关节点在不同视频帧之间的空间位置信息。

S303、利用空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取目标人物角色的目标人体高维特征。

其中，人体关节点可以预先设定，那么在已知人体关节点数目的情况下，为了便于进行位置编码，需要先根据人体关节点确定预设维度，再将图像特征序列投影到更高的维度的特征上，得到高维图像特征序列。例如，可以通过全连接层(Full Connection，FC)实现投影。

接着，通过空间位置编码(PS)可以标注人体关节点在同一视频帧内的空间位置信息，通过时间位置编码(PT)可以标注人体关节点在不同视频帧之间的空间位置信息，从而进一步利用空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取目标人物角色的目标人体高维特征。可见，空间位置编码和时间位置编码可以提供人体关节点在空间位置和时间位置上的额外信息，以便于理解人体关节点之间在空间和时间上的相对位置关系，从而获取目标人物角色的目标人体高维特征。

在一种实施方式中，利用空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取目标人物角色的目标人体高维特征，包括：

利用时空双流序列网络，根据编码后的高维图像特征序列获取目标人物角色的目标人体高维特征；

其中，时空双流序列网络的层数为N，每层时空双流序列网络均包括并列的两个多头自注意力模块组，每个多头自注意力模块组由空间多头自注意力模块和时间多头自注意力模块组成；

并且，在同一层时空双流序列网络的每个多头自注意力模块组中，空间多头自注意力模块和时间多头自注意力模块的前后连接顺序不同。

图4是根据本公开实施例的视频生成方法中单层时空双流序列网络的示意图，接下来结合图4进行说明。如图4所示，单层时空双流序列网络40包括并列的两个多头自注意力模块组，即模块组41、42，模块组41包括前后连接的空间多头自注意力模块410和时间多头自注意力模块411，模块组42包括前后连接的时间多头自注意力模块412和空间多头自注意力模块413。也就是说，每个多头自注意力模块组由空间多头自注意力模块和时间多头自注意力模块组成，但空间多头自注意力模块和时间多头自注意力模块的前后连接顺序不同。由N个如图4组成的单层时空双流序列网络即可构成N层时空双流序列网络。

空间多头自注意力模块提取了帧内关节之间的交互作用，而时间多头自注意力模块捕捉了帧间关节之间的交互作用，由此组合了基本的构建模块来融合流中的空间和时间信息。因此，本公开实施例中采用的这种双流架构，以不同的顺序堆叠空间多头自注意力模块和时间多头自注意力模块，形成两个并行的计算分支，不仅可以高度准确地估计出目标人物角色的动作和表情数据，特别是涉及快速动作或复杂动作的情况下，也可以更准确地捕捉运动轨迹，避免运动模糊和不一致性，同时还可以在CG角色替换真人角色的情景中创造出更加流畅、自然的动作，使得替换后的角色动作更加真实可信。此外，多层的时空双流序列网络能够更好地理解角色之间的互动和关联，从而在复杂的场景中产生更合理的交互效果。在CG角色与真人互动的情景中，有助于捕捉角色之间微妙的动作和情感细节，提升交互的真实感。

此外，在N层的时空双流序列网络中，第一层时空双流序列网络的输入为编码后的高维图像特征序列，第i层时空双流序列网络的输出作为第i+1层时空双流序列网络的输入，第N层时空双流序列网络的输出为目标人体高维特征，i为小于N的自然数。

其中，每层时空双流序列网络的输出是对该层中的两个多头自注意力模块组各自的处理结果进行融合而得到，其中，各自的处理结果是指该层中的两个多头自注意力模块组分别对该层的输入进行处理而得到的处理结果。

在一种实施方式中，所述处理结果的融合过程包括：利用该层中的两个多头自注意力模块组各自的注意力回归器预测自适应权重；根据自适应权重对该层中的两个多头自注意力模块组各自的处理结果进行融合。其中，关于注意力回归器的内容可以参考现有技术，此处不再赘述。

进一步的，在获取到目标人体高维特征之后，在一种实施方式中，根据目标人体高维特征提取目标人物角色的动作数据和表情数据，包括：对目标人体高维特征经带有激活函数的线性层进行处理，得到目标人体高维特征的高维表示；对高维表示进行线性变换，得到目标人物角色的动作数据和表情数据。其中，带有激活函数的线性层可以是带有tanh激活函数的线性层，即全连接层FC，线性变换也可以由全连接层FC实现。

图5是根据本公开实施例的视频生成方法中用于提取动作数据和表情数据的数据流示意图。如图5所示，由神经网络分别对目标视频帧集合中的RGB图像进行图像特征提取，得到图像特征序列。图像特征序列经过全连接层投影到更高维，得到高维图像特征序列。对高维图像特征序列进行空间位置编码(PS)和时间位置编码(PT)，编码后的高维图像特征序列中包含了目标人物角色的人体关节点在空间上和时间上位置的额外信息，然后经N层的时空双流序列网络提取目标人物角色的目标人体高维特征。其中，每层时空双流序列网络包括并列的两个多头自注意力模块组，每个多头自注意力模块组由空间多头自注意力模块和时间多头自注意力模块组成，且空间多头自注意力模块和时间多头自注意力模块的前后连接顺序不同，每层时空双流序列网络的输出即为时空双流序列网络中并列的两个分支的处理结果经融合得到的结果。提取出的目标人体高维特征分别经两个全连接层人体的头部数据、身体数据和脸部数据。其中，第一个全连接层可以是带有tanh激活函数的线性层，E即为目标人体高维特征的高维表示，然后经第二个全连接层进行线性变换即可得到结果。图中示出的神经网络、时空双流序列网络、PT、PS和三个全连接层都是可学习的，可以作为一个网络整体通过端到端的训练而得到。不仅其推理的精度可以得到保证，而且推理速度更快，模型压缩也相对更容易，使得本公开实施例的技术方案更易于应用到实时版本中实现视频生成，从而提高视频生成的效率。

图6是根据本公开实施例的视频生成方法中生成目标动画序列的流程示意图，本实施例在上述实施例的基础上，对如何生成目标动画序列做出进一步的优化。如图6所示，该方法具体包括如下：

S601、利用基于运动学的重定向技术，将动作数据和表情数据应用于目标动画角色，生成初始动画序列。

S602、利用基于动力学的重定向技术，采用强化学习策略控制初始动画序列中的目标动画角色，生成目标动画序列。

其中，先进行运动学重定向将动作数据和表情数据应用于目标动画角色，然后再采用强化学习策略，利用强化学习模型来控制物理模拟器中的目标动画角色，获得最终的基于动力学的重定向结果。由此，先基于基本的运动学重定向得到初始动画序列，再采用强化学习技术进行微调和优化，得到基于动力学的重定向结果，使得生成的目标动画序列中，即使目标动画角色与目标人物角色存在体型差异，目标动画角色也可以更加精准无误地做出与目标人物角色一样的动作和表情，使得目标动画角色更加适合特定的场景需求，同时还能保持目标动画角色具有真实的目标人物角色的表现风格和动作特点，确保生成的目标视频中目标动画角色的呈现效果。

在一种实施方式中，利用基于运动学的重定向技术，将动作数据和表情数据应用于目标动画角色，生成初始动画序列，包括：

利用相机追踪技术，获取目标视频帧集合中各个目标视频帧的相机位姿；

根据相机位姿和相机透视关系，推理目标人物角色在各个目标视频帧的空间移动数据；

结合空间移动数据，利用基于运动学的重定向技术，将动作数据和表情数据应用于目标动画角色，生成初始动画序列。

通常，视频中相机的拍摄角度会发生变化，也即存在视角变化的情况。通过视频追踪技术可以从待处理视频中估计相机的位置和姿态数据，从而根据相机位姿和相机透视关系，推理出目标人物角色在各个目标视频帧的空间移动数据，该空间移动数据可以表示在不同的相机位姿下目标人物角色的相对位置关系和视角变化。因此，结合空间移动数据进行运动学重定向，将其应用到CG场景中，可以提升生成的动画序列的准确性，使得该动画序列所呈现的内容与目标人物角色在待处理视频中所呈现的内容一致。其中，相机透视关系可以基于现有技术确定，此处不再赘述。

图7是根据本公开实施例的视频生成方法中擦除目标人物角色的流程示意图，本实施例在上述实施例的基础上，对如何擦除待处理视频中的目标人物角色做出进一步的优化。如图7所示，该方法具体包括如下：

S701、通过对目标人物角色进行人体实例分割，在待处理视频中的目标视频帧集合中，擦除各个目标视频帧的目标人物角色。

S702、确定目标人物角色在各个目标视频帧中的目标位置，并利用目标位置周围区域的像素特征填补目标位置所在的区域，得到填补后的待处理视频。

其中，可以采用现有的人体实例分割算法对目标人物角色进行人体实例分割，本公开实施例对此不做任何限定。擦除目标人物角色后，确定目标人物角色在各个目标视频帧中的目标位置，并利用目标位置周围区域的像素特征填补目标位置所在的区域，可以避免用目标动画角色替换目标人物角色时，因目标动画角色与目标人物角色之间的大小和外部形状差异而产生空洞。在擦除待处理视频中的目标人物角色之后，则将目标动画序列与填补后的待处理视频合并，从而生成目标视频。

图8是根据本公开实施例的视频生成方法中合并目标动画序列与填补后的待处理视频的流程示意图，本实施例在上述实施例的基础上，对如何将目标动画序列与填补后的待处理视频进行合并做出进一步的优化。如图8所示，该方法具体包括如下：

S801、预测各个目标视频帧的渲染信息。

S802、根据渲染信息，利用可微渲染技术计算目标动画序列的各个目标动画帧中目标动画角色的表面梯度，以及填补后的待处理视频中各个目标视频帧的场景的场景梯度。

S803、按照目标位置，以及各个目标动画帧与填补后的待处理视频中各个目标视频帧之间的时序对应关系，在填补后的待处理视频的目标视频帧集合中渲染目标动画序列，生成目标视频，并在渲染过程中，将表面梯度与场景梯度进行融合。

将目标动画序列与填补后的待处理视频进行合并，是按照目标动画序列中的各个目标动画帧与填补后的待处理视频中目标视频帧集合中的各个目标视频帧之间的时序对应关系来进行。时序对应关系可以通过帧号实现，例如，在提取目标人物角色的动作数据和表情数据时，记录每一目标视频帧的帧号与提取的数据之间的对应关系，然后在生成目标动画序列时根据该对应关系获取到帧号，从而根据帧号建立目标动画帧与目标视频帧之间的对应关系。

用目标动画角色替换填补后的待处理视频中的目标人物角色，该过程可以通过渲染技术实现。在填补后的待处理视频的目标视频帧集合中渲染目标动画序列，一方面，要按照目标位置将目标动画角色替换原来的目标人物角色，保证替换后的目标动画角色在视频帧中的相对位置与目标人物角色一致，另一方面，还要将目标动画角色和视频场景的光照和阴影进行精细的融合，从而使目标动画角色看起来更加真实。

具体的，先预测各个目标视频帧的渲染信息，其中，渲染信息包括光照信息、阴影信息、材质信息和反射信息中的至少一种，具体的预测方法可以参考现有技术，本公开实施例对此不做任何限定。然后根据渲染信息，利用可微渲染技术计算目标动画序列的各个目标动画帧中目标动画角色的表面梯度，以及填补后的待处理视频中各个目标视频帧的场景的场景梯度，在渲染时将表面梯度与场景梯度进行融合即可，从而实现目标动画角色和视频场景的光照和阴影的精细融合，生成目标视频。

本公开实施例的技术方案，通过在待处理视频的目标视频帧集合中渲染目标动画序列时，将目标动画角色的表面梯度与目标视频帧中场景的场景梯度进行融合，实现目标动画角色和视频场景的光照和阴影的精细融合，提高生成的目标视频中目标动画角色的真实度，从而提高视频生成的效果。

图9是根据本公开实施例的一种视频生成方法的流程示意图。如图所示，对于存在目标人物角色的待处理视频，在选定要替换的目标动画角色之后，先对待处理视频进行人体目标检测，获取其中所出现的人物，以便用户从中选择要替换的目标人物角色。然后，基于重识别技术在每个视频帧中追踪目标人物角色，获取出现目标人物角色的目标视频帧集合。接着，一方面，针对目标视频帧集合进行图像特征提取，获取图像特征序列，并从中捕捉目标人物角色的动作数据和表情数据，一方面在目标视频帧集合中进行人体实例分割，擦除其中的目标人物角色，为后续的合并做准备。利用相机追踪技术获取目标视频帧的相机位姿，以便基于相机位姿和相机透视关系推理目标人物角色在目标视频帧的空间移动数据，以结合空间移动数据进行运动学重定向，生成初始动画序列。然后再对初始动画序列进行微调，得到动力学的重定向结果，生成最终的目标动画序列。最后利用光照渲染技术将目标动画序列与待处理视频合并，成功将目标动画角色替换待处理视频中的目标人物角色，自动实现CG角色与真人角色的替换，同时还能确保替换后的CG角色按照与真人角色相同的工作和表情在视频中演绎，呈现准确、真实的效果。

图10是根据本公开实施例的一种视频生成装置的结构示意图，本实施例可适用于自动制作CG动画角色并将其合成到真人视频的情况，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该装置可实现本公开任意实施例所述的视频生成方法。如图10所示，该装置1000具体包括：

提取模块1001，用于对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列，并根据所述图像特征序列提取所述目标人物角色的动作数据和表情数据；

应用模块1002，用于将所述动作数据和表情数据应用于目标动画角色，生成目标动画序列；

生成模块1003，用于基于所述待处理视频中的所述目标人物角色，将所述目标动画序列与所述待处理视频合并，生成目标视频。

可选的，所述提取模块1001包括：

目标人体高维特征提取子模块，用于根据所述图像特征序列获取所述目标人物角色的目标人体高维特征，其中，所述目标人体高维特征用于表示所述目标人物角色的人体关节点在空间和时间上的相对位置关系特征；

动作表情数据提取子模块，用于根据所述目标人体高维特征提取所述目标人物角色的动作数据和表情数据。

可选的，所述目标人体高维特征提取子模块包括：

目标人体高维特征提取单元，用于利用空间多头自注意力模块和时间多头自注意力模块，根据所述图像特征序列获取所述目标人物角色的目标人体高维特征；

其中，所述空间多头自注意力模块用于获取所述人体关节点在同一视频帧内的相对位置关系特征，所述时间多头自注意力模块用于获取所述人体关节点在不同视频帧之间的相对位置关系特征。

可选的，所述目标人体高维特征提取单元包括：

投影子单元，用于根据预设维度对所述图像特征序列进行投影，得到高维图像特征序列，其中，所述预设维度与所述人体关节点的个数相关；

位置编码子单元，用于对所述高维图像特征序列进行空间位置编码和时间位置编码，其中，所述空间位置编码用于标注所述人体关节点在同一视频帧内的空间位置信息，所述时间位置编码用于标注所述人体关节点在不同视频帧之间的空间位置信息；

目标人体高维特征获取子单元，用于利用所述空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取所述目标人物角色的目标人体高维特征。

可选的，所述目标人体高维特征获取子单元具体用于：

利用时空双流序列网络，根据编码后的高维图像特征序列获取所述目标人物角色的目标人体高维特征；

其中，所述时空双流序列网络的层数为N，每层时空双流序列网络均包括并列的两个多头自注意力模块组，每个多头自注意力模块组由所述空间多头自注意力模块和时间多头自注意力模块组成；

并且，在同一层时空双流序列网络的每个多头自注意力模块组中，所述空间多头自注意力模块和时间多头自注意力模块的前后连接顺序不同。

可选的，第一层时空双流序列网络的输入为所述编码后的高维图像特征序列，第i层时空双流序列网络的输出作为第i+1层时空双流序列网络的输入，第N层时空双流序列网络的输出为所述目标人体高维特征，i为小于N的自然数。

可选的，所述每层时空双流序列网络的输出是对该层中的两个多头自注意力模块组各自的处理结果进行融合而得到，其中，所述各自的处理结果是指所述该层中的两个多头自注意力模块组分别对该层的输入进行处理而得到的处理结果。

可选的，所述目标人体高维特征获取子单元具体还用于：

利用所述该层中的两个多头自注意力模块组各自的注意力回归器预测自适应权重；

根据所述自适应权重对所述该层中的两个多头自注意力模块组各自的处理结果进行融合。

可选的，将用于提取所述图像特征序列的网络作为第一网络，将用于提取所述动作数据和表情数据的网络作为第二网络，所述第一网络和第二网络连接，并整体采用端到端的训练方式训练而成。

可选的，所述应用模块1002包括：

第一重定向子模块，用于利用基于运动学的重定向技术，将所述动作数据和表情数据应用于所述目标动画角色，生成初始动画序列；

第二重定向子模块，用于利用基于动力学的重定向技术，采用强化学习策略控制所述初始动画序列中的目标动画角色，生成所述目标动画序列。

可选的，所述第一重定向子模块包括：

相机位姿获取单元，用于利用相机追踪技术，获取所述目标视频帧集合中各个目标视频帧的相机位姿；

推理单元，用于根据所述相机位姿和相机透视关系，推理所述目标人物角色在所述各个目标视频帧的空间移动数据；

重定向单元，用于结合所述空间移动数据，利用基于运动学的重定向技术，将所述动作数据和表情数据应用于所述目标动画角色，生成初始动画序列。

可选的，所述装置还包括：

人体目标检测模块，用于对所述待处理视频进行人体目标检测，获取候选人物集合；

目标人物角色确定模块，用于响应于对人物角色的选择操作，从所述候选人物集合中确定所述目标人物角色；

重识别模块，用于利用重识别技术，将所述待处理视频的每个视频帧上的候选人物与所述目标人物角色进行匹配，获取所述目标视频帧集合。

可选的，所述生成模块1003包括：

人体实例分割子模块，用于通过对所述目标人物角色进行人体实例分割，在所述待处理视频中的所述目标视频帧集合中，擦除各个目标视频帧的目标人物角色；

填补子模块，用于确定所述目标人物角色在所述各个目标视频帧中的目标位置，并利用所述目标位置周围区域的像素特征填补所述目标位置所在的区域，得到填补后的待处理视频；

生成子模块，用于将所述目标动画序列与所述填补后的待处理视频合并，生成目标视频。

可选的，所述生成子模块包括：

预测单元，用于预测所述各个目标视频帧的渲染信息；

可微渲染单元，用于根据所述渲染信息，利用可微渲染技术计算所述目标动画序列的各个目标动画帧中目标动画角色的表面梯度，以及所述填补后的待处理视频中各个目标视频帧的场景的场景梯度；

渲染单元，用于按照所述目标位置，以及所述各个目标动画帧与所述填补后的待处理视频中各个目标视频帧之间的时序对应关系，在所述填补后的待处理视频的目标视频帧集合中渲染所述目标动画序列，生成目标视频，并在渲染过程中，将所述表面梯度与所述场景梯度进行融合。

上述产品可执行本公开任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如视频生成方法。例如，在一些实施例中，视频生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的视频生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作***、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频生成方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述图像特征序列提取所述目标人物角色的动作数据和表情数据，包括：

根据所述图像特征序列获取所述目标人物角色的目标人体高维特征，其中，所述目标人体高维特征用于表示所述目标人物角色的人体关节点在空间和时间上的相对位置关系特征；

根据所述目标人体高维特征提取所述目标人物角色的动作数据和表情数据。

3.根据权利要求2所述的方法，其中，所述根据所述图像特征序列获取所述目标人物角色的目标人体高维特征，包括：

利用空间多头自注意力模块和时间多头自注意力模块，根据所述图像特征序列获取所述目标人物角色的目标人体高维特征；

4.根据权利要求3所述的方法，其中，所述利用空间多头自注意力模块和时间多头自注意力模块，根据所述图像特征序列获取所述目标人物角色的目标人体高维特征，包括：

根据预设维度对所述图像特征序列进行投影，得到高维图像特征序列，其中，所述预设维度与所述人体关节点的个数相关；

对所述高维图像特征序列进行空间位置编码和时间位置编码，其中，所述空间位置编码用于标注所述人体关节点在同一视频帧内的空间位置信息，所述时间位置编码用于标注所述人体关节点在不同视频帧之间的空间位置信息；

利用所述空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取所述目标人物角色的目标人体高维特征。

5.根据权利要求4所述的方法，其中，所述利用空间多头自注意力模块和时间多头自注意力模块，根据编码后的高维图像特征序列获取所述目标人物角色的目标人体高维特征，包括：

6.根据权利要求5所述的方法，其中，

第一层时空双流序列网络的输入为所述编码后的高维图像特征序列，第i层时空双流序列网络的输出作为第i+1层时空双流序列网络的输入，第N层时空双流序列网络的输出为所述目标人体高维特征，i为小于N的自然数。

7.根据权利要求6所述的方法，其中，

所述每层时空双流序列网络的输出是对该层中的两个多头自注意力模块组各自的处理结果进行融合而得到，其中，所述各自的处理结果是指所述该层中的两个多头自注意力模块组分别对该层的输入进行处理而得到的处理结果。

8.根据权利要求7所述的方法，其中，所述处理结果是通过如下过程进行融合：

9.根据权利要求1所述的方法，其中，将用于提取所述图像特征序列的网络作为第一网络，将用于提取所述动作数据和表情数据的网络作为第二网络，所述第一网络和第二网络连接，并整体采用端到端的训练方式训练而成。

10.根据权利要求1所述的方法，其中，所述将所述动作数据和表情数据应用于目标动画角色，生成目标动画序列，包括：

利用基于运动学的重定向技术，将所述动作数据和表情数据应用于所述目标动画角色，生成初始动画序列；

利用基于动力学的重定向技术，采用强化学习策略控制所述初始动画序列中的目标动画角色，生成所述目标动画序列。

11.根据权利要求10所述的方法，其中，所述利用基于运动学的重定向技术，将所述动作数据和表情数据应用于所述目标动画角色，生成初始动画序列，包括：

利用相机追踪技术，获取所述目标视频帧集合中各个目标视频帧的相机位姿；

根据所述相机位姿和相机透视关系，推理所述目标人物角色在所述各个目标视频帧的空间移动数据；

结合所述空间移动数据，利用基于运动学的重定向技术，将所述动作数据和表情数据应用于所述目标动画角色，生成初始动画序列。

12.根据权利要求1所述的方法，在所述对目标人物角色在待处理视频中的目标视频帧集合进行图像特征提取得到图像特征序列之前，所述方法还包括：

对所述待处理视频进行人体目标检测，获取候选人物集合；

响应于对人物角色的选择操作，从所述候选人物集合中确定所述目标人物角色；

利用重识别技术，将所述待处理视频的每个视频帧上的候选人物与所述目标人物角色进行匹配，获取所述目标视频帧集合。

13.根据权利要求1所述的方法，其中，所述基于所述待处理视频帧中的所述目标人物角色，将所述目标动画序列与所述待处理视频合并，生成目标视频，包括：

通过对所述目标人物角色进行人体实例分割，在所述待处理视频中的所述目标视频帧集合中，擦除各个目标视频帧的目标人物角色；

确定所述目标人物角色在所述各个目标视频帧中的目标位置，并利用所述目标位置周围区域的像素特征填补所述目标位置所在的区域，得到填补后的待处理视频；

将所述目标动画序列与所述填补后的待处理视频合并，生成目标视频。

14.根据权利要求13所述的方法，其中，所述将所述目标动画序列与所述填补后的待处理视频合并，生成目标视频，包括：

预测所述填补后的待处理视频中各个目标视频帧的渲染信息；

根据所述渲染信息，利用可微渲染技术计算所述目标动画序列的各个目标动画帧中目标动画角色的表面梯度，以及所述填补后的待处理视频中各个目标视频帧的场景的场景梯度；

按照所述目标位置，以及所述各个目标动画帧与所述填补后的待处理视频中各个目标视频帧之间的时序对应关系，在所述填补后的待处理视频的目标视频帧集合中渲染所述目标动画序列，生成目标视频，并在渲染过程中，将所述表面梯度与所述场景梯度进行融合。

15.一种视频生成装置，包括：

16.根据权利要求15所述的装置，其中，所述提取模块包括：

17.根据权利要求16所述的装置，其中，所述目标人体高维特征提取子模块包括：

18.根据权利要求17所述的装置，其中，所述目标人体高维特征提取单元包括：

19.根据权利要求18所述的装置，其中，所述目标人体高维特征获取子单元具体用于：

20.根据权利要求19所述的装置，其中，

21.根据权利要求20所述的装置，其中，

22.根据权利要求21所述的装置，其中，所述目标人体高维特征获取子单元具体还用于：

23.根据权利要求15所述的装置，其中，将用于提取所述图像特征序列的网络作为第一网络，将用于提取所述动作数据和表情数据的网络作为第二网络，所述第一网络和第二网络连接，并整体采用端到端的训练方式训练而成。

24.根据权利要求15所述的装置，其中，所述应用模块包括：

25.根据权利要求24所述的装置，其中，所述第一重定向子模块包括：

26.根据权利要求15所述的装置，还包括：

27.根据权利要求15所述的装置，其中，所述生成模块包括：

28.根据权利要求27所述的装置，其中，所述生成子模块包括：

预测单元，用于预测所述各个目标视频帧的渲染信息；

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的视频生成方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的视频生成方法。

31.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的视频生成方法。