CN112995433B

CN112995433B - 一种时序视频生成方法、装置、计算设备及存储介质

Info

Publication number: CN112995433B
Application number: CN202110169891.3A
Authority: CN
Inventors: 孙腾
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2023-04-28
Anticipated expiration: 2041-02-08
Also published as: CN112995433A

Abstract

本申请公开了一种时序视频生成方法、装置、计算设备及存储介质。所述方法包括：提取训练数据集中每个视频片段的每帧图像的语义分割图，计算前后帧之间的光流估计图；利用训练数据集中每个视频片段每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络；将时序视频的每帧语义图像输入到训练好的多层级生成器网络中，得到时序视频。所述装置包括语义分割图提取模块、训练模块和时序视频生成模块。所述计算设备包括存储器、处理器和存储在存储器内并能由处理器运行的计算机程序，处理器执行计算机程序时实现上述方法。所述存储介质内存储有计算机程序，计算机程序在由处理器执行时实现上述方法。

Description

一种时序视频生成方法、装置、计算设备及存储介质

技术领域

本申请涉及时序视频生成领域，特别是涉及视频特征提取、时序分析、图像生成等技术。

背景技术

神经网络在人工智能(AI)领域快速发展，推动了图像、文本、语音等多领域的信息交叉融合，用户对图像以及视频处理技术的期望越来越高。虚拟现实的应用场景越来越复杂，需要通过计算机对指定条件的数据进行可视化操作和仿真模拟，对抗生成网络技术的出现推动了真实图像级别的虚拟场景渲染生成领域的发展。在此背景下，对抗生成网络技术实现按照条件输入生成指定内容的图像，已经达到肉眼很难辨别真伪的水平，但是对于连续多帧图像的视频序列的生成方案还较少。常用的pix2pix、pix2pixHD图像翻译生成算法只是针对静态图片的翻译进行设计，没有对时间序列维度建模，如果直接用于视频的翻译会导致帧间不连续的问题，所以不能用于视频生成。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种时序视频生成方法，包括：

提取训练数据集中每个视频片段的每帧图像的语义分割图，并计算前后帧之间的光流估计图；

利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络，所述多层级生成器网络G'_N+1的结构为：

G'_N+1＝G_N+1下+G'_N+G_N+1上

其中，G_N+1为生成器子网络，所述G_N+1下为所述G_N+1中的下采样部分，所述G_N+1上为所述G_N+1中的上采样部分，G₁'为生成器网络，N≥1；

与所述多层级生成器网络相配合的多层级判别器网络D'_N+1的结构为：

D’_N+1＝D_N+1下+D’_N+D_N+1上

其中，D_N+1为判别器子网络，所述D_N+1下为所述D_N+1中的下采样部分，所述D_N+1上为所述D_N+1中的上采样部分，D₁'为判别器网络；

所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构；

将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中，得到时序视频。

可选地，所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。

可选地，所述的内容一致性损失的获得方法为：

利用所述多层级判别器网络分别从所述多层级生成器网络输出的图像和GrundTruth中提取特征，得到两个特征图，所述Grund Truth为所述训练数据集中每个视频片段的每帧图像；

计算所述两个特征图之间的误差，将所述误差作为内容一致性损失。

可选地，所述的特征匹配损失的获得方法为：

利用VGG16分别从所述多层级生成器网络输出的图像和Grund Truth中提取特征，得到两个特征图，所述Grund Truth为所述训练数据集中每个视频片段的每帧图像；

计算所述两个特征图之间的误差，将所述误差作为特征匹配损失。

可选地，训练多层级生成器网络的具体方法为：空间上对不同尺寸的生成器网络分别进行训练，在时间维度上逐渐增加参与训练的帧的维度。

根据本申请的另一个方面，提供了一种时序视频生成装置，包括：

语义分割图提取模块，其配置成提取训练数据集中每个视频片段的每帧图像的语义分割图，并计算前后帧之间的光流估计图；

训练模块，其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络，所述多层级生成器网络G'_N+1的结构为：

G'_N+1＝G_N+1下+G'_N+G_N+1上

D’_N+1＝D_N+1下+D’_N+D_N+1上

所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构；和

时序视频生成模块，其配置成将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中，得到时序视频。

可选地：空间上对不同尺寸的生成器网络分别进行训练，在时间维度上逐渐增加参与训练的帧的维度。

根据本申请的第三个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本申请所述的方法。

根据本申请的第四个方面，提供了一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现本申请所述的方法。

本申请的时序视频生成方法、装置、计算设备及存储介质，根据指定的条件输入生成对应真实内容的视频序列，是一种通用的视频图像翻译生成框架，可以实现多种类型的视频生成，不仅保证每帧图像生成的真实感，而且能够满足连续帧间画面变化的连续性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种时序视频生成方法的示意性流程图；

图2是根据本申请一个实施例的多层级生成器网络中第一级生成器子网络的结构示意图；

图3是根据本申请一个实施例的多层级生成器网络的训练方法示意图；

图4是根据本申请一个实施例的一种时序视频生成装置的结构示意图；

图5是根据本申请一个实施例的一种计算设备的结构示意图；

图6是根据本申请一个实施例的一种存储介质的结构示意图。

具体实施方式

常用的图像翻译生成算法为pix2pix和pix2pixHD，本实施例在此基础上进行改进，通过输入连续的语义图序列，建模图中的语义信息和时间动态变化信息，渲染生成视频内容。

图1是根据本申请一个实施例的一种时序视频生成方法的示意性流程图。所述时序视频生成方法一般性地可以包括如下步骤S1至S3。

步骤S1、提取训练数据集中每个视频片段的每帧图像的语义分割图，并计算前后帧的光流估计图：

对于训练数据集中的每个视频片段，需要分别提取其每帧图像的语义分割图，计算前后帧的光流估计图，以此作为模型训练输入，原视频每帧图像作为GroundTruth。

步骤S2、利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧的光流估计图训练多层级生成器网络G'_N+1，得到训练好的多层级生成器网络G'_N+1，所述多层级生成器网络G'_N+1的结构为：

G'_N+1＝G_N+1下+G'_N+G_N+1上

其中，G_N+1为生成器子网络，所述G_N+1下为所述G_N+1中的下采样部分，所述G_N+1上为所述G_N+1中的上采样部分，G₁'为生成器网络，N为整数，且N≥1。

所述的多层级生成器网络包含依次相互嵌套的多级生成器子网络G₁至G_N，G₁'也即G₁。例如，所述多层级生成器网络共包含N级生成器子网络，那么，如图2所示，一级生成器网络G₁'也就是第一级生成器子网络G₁，第一级生成器子网络G₁嵌在第二级生成器子网络G₂的中间，形成二级生成器网络G'₂，二级生成器网络G'₂嵌在第三级生成器子网络G₃的中间，形成三级生成器网络G₃'，……，以此类推，N级生成器网络G'_N嵌在第N+1级生成器子网络G_N+1的中间，形成N+1级生成器网络G'_N+1。

N＝2时，所述多层级生成器网络G'_N+1为二级生成器网络G'₂，其结构为：G'₂＝G_2下+G₁'+G_2上，G₁'(也即G₁)为生成器网络，原理是将生成器子网络G₂从中间分开，分成下采样G_2下和上采样G_2上两部分，G_2下和G_2上分别位于生成器网络G₁'前和后，G_2下的输出作为G₁'的输入，G_2下的输出与G₁'的输出相叠加，叠加结果作为G_2上的输入，G_2上的输出作为二级生成器网络G'₂的输出；

N＝3时，所述多层级生成器网络G'_N+1为三级生成器网络G₃'，其结构为：G₃'＝G_3下+G'₂+G_3上，原理与二级生成器网络G'₂相同；

……

以此类推，N+1级生成器网络G'_N+1的结构为：G'_N+1＝G_N+1下+G'_N+G_N+1上，原理同上。

本实施例中，生成器网络G₁'也称全局感知网络，生成器网络G'₂也称局部增强网络，将全局感知网络作为局部增强网络的中间层结构融入，全局感知网路G₁'的分辨率为256px，局部增强网络G'₂的分辨率是全局感知网络G₁'的两倍，所述的多层级生成器网络中，每一级生成器子网络的输入图像的分辨率是上一级生成器子网络的两倍。

训练过程中，与所述多层级生成器网络G'_N+1相配合使用的多层级判别器网络D'_N+1的结构为：

D’_N+1＝D_N+1下+D’_N+D_N+1上

多层级判别器网络与多层级生成器网络结构相似，D_N+1为生成器子网络，所述D_N+1下为所述D_N+1中的下采样部分，所述D_N+1上为所述D_N+1中的上采样部分，D₁'为判别器网络。

多层级生成器网络和多层级判别器网络的残差卷积层均为3D卷积结构。

多层级生成器网络的损失函数由多部分组成，目的是保证所述多层级生成器网络的约束能力。其中，第一部分为图像分布损失，用于保障生成图像的真实度；第二部分是时序损失，用于保障生成视频的连贯性；第三部分是光流损失，用于保障估算光流的正确性；第四部分是特征匹配损失，第五部分是内容一致性损失。

其中，所述的内容一致性损失是将多层级生成器网络输出的图像(即生成样本)和Grund Truth(即训练数据集中每个视频片段的每帧图像，也即真实数据样本)分别输入到多层级判别器网络中提取特征，得到生成样本的特征图和真实数据样本的特征图，然后计算两个特征图的Element-wise loss，得到内容一致性损失，从而保证图像内容一致，提升训练的稳固性；

所述的特征匹配损失是将多层级生成器网络输出的图像(即生成样本)和GrundTruth(即训练数据集中每个视频片段的每帧图像，也即真实数据样本)分别输入到VGG16中提取特征，得到生成样本的特征图和真实数据样本的特征图，然后计算两个特征图的Element-wise loss，得到特征匹配损失。

由于所述多层级生成器网络结构较为复杂，考虑到硬件能力和训练收敛速度，训练过程采用如图3所示的时域(如图中T和T’所示)和空域(如图中S和S’所示)交叉训练，即，空间上对不同尺寸的生成器子网络分别进行训练，在时间维度上不断增加参与训练的帧的维度。

步骤S3、将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中(用训练好的多层级生成器网络做预测时，只需根据需要提供对应的语义分割图，在逐帧生成的过程中，多层级生成器网络会计算先前帧的光流图作为当前帧预测的输入)，得到时序视频。

下面详细说明采用训练好的多层级生成器网络根据输入条件生成时序视频的过程：

步骤S31、向所述训练好的多层级生成器网络输入第一帧语义图像；

步骤S32、向所述训练好的多层级生成器网络输入第二帧语义图像；

步骤S33、所述训练好的多层级生成器网络计算第一帧到第二帧的光流图，以此作为第二帧的预测，根据第二帧的预测和用户输入的第二帧语义图像计算得到第二帧图像；

步骤S34、向所述训练好的多层级生成器网络输入第三帧语义图像；

步骤S35、所述训练好的多层级生成器网络计算第二帧到第三帧的光流图，以此作为第三帧的预测，根据第三帧的预测和用户输入的第三帧语义图像计算得到第三帧图像；

以此类推，对于所述时序视频的第n帧图像，需要由用户输入该图像的语义图像，然后所述训练好的多层级生成器网络计算第n-1帧到第n帧的光流图，以此作为第n帧的预测，根据第n帧的预测和用户输入的第n帧语义图像计算得到第n帧图像。

综上，本实施例的时序视频生成方法在现有技术的基础上主要做出了如下改进：

1、多层级生成器网络的条件输入不只是当前帧的输入语义图片，还同时包括前几帧的输入语义图片和前几帧的生成输出图片，即回看前几帧的输入图像和生成图像；

2、帧间的连续变化信息估计，通过计算前几帧间的光流变化来预测前一帧到当前帧的光流，以此来估计图像每个像素的变化量，多层级生成器网络的输出会包含对下一帧光流变化的预估，这是通过训练学习到的。

3、所述时序视频生成方法是基于对抗生成网络的时序视频生成方法，对抗生成网络的基础结构是由生成器和判别器两个成对的子网络组成的，在生成器上加入光流约束，在判别器上加入光流信息，这样的生成器可以得到当前帧的预测图，前一帧的生成图经由当前帧的光流估计得到演变图，两者加权合成当前帧的最终生成图，这样的设计保留了前后连续帧间非常多的相似信息。

4、将连续几帧的输入图像看作是三维的数据结构(第三维即时间序列顺序排列)，生成器和判别器网络的残差卷积层改进成3D卷积结构，同时对图像空间坐标方向和时间方向做卷积提取特征，同时学习局部空间特征和连续时序特征。

5、高清视频的生成采用多层级的生成器子网络结构，先构建低分辩生成的全局感知网络，以此为基础结构逐级叠加前后两端的卷积层数，构建局部增强子网络，提升图像分辨率。

图4是根据本申请一个实施例的一种时序视频生成装置的结构示意图。所述时序视频生成装置一般性地可以包括：

语义分割图提取模块1，其配置成提取训练数据集中每个视频片段的每帧图像的语义分割图，并计算前后帧之间的光流估计图；

训练模块2，其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络，所述多层级生成器网络G'_N+1的结构为：

G'_N+1＝G_N+1下+G'_N+G_N+1上

D’_N+1＝D_N+1下+D’_N+D_N+1上

时序视频生成模块3，其配置成将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中，得到时序视频。

所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。

训练多层级生成器网络的具体方法为：空间上对不同尺寸的生成器网络分别进行训练，在时间维度上逐渐增加参与训练的帧的维度。

本申请实施例还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读的存储介质。参照图6，该存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种时序视频生成方法，包括：

利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络，所述多层级生成器网络G′_N+1的结构为：

G′_N+1＝G_N+1下+G′_N+G_N+1上

其中，G_N+1为生成器子网络，所述G_N+1下为所述G_N+1中的下采样部分，所述G_N+1上为所述G_N+1中的上采样部分，G′_N为生成器网络，N≥1；

与所述多层级生成器网络相配合的多层级判别器网络D′_N+1的结构为：

D′_N+1＝D_N+1下+D′_N+D_N+1上

其中，D_N+1为判别器子网络，所述D_N+1下为所述D_N+1中的下采样部分，所述D_N+1上为所述D_N+1中的上采样部分，D′_N为判别器网络；

2.根据权利要求1所述的方法，其特征在于，所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。

3.根据权利要求2所述的方法，其特征在于，所述的内容一致性损失的获得方法为：

利用所述多层级判别器网络分别从所述多层级生成器网络输出的图像和Grund Truth中提取特征，得到两个特征图，所述Grund Truth为所述训练数据集中每个视频片段的每帧图像；

4.根据权利要求2所述的方法，其特征在于，所述的特征匹配损失的获得方法为：

5.根据权利要求2所述的方法，其特征在于，训练多层级生成器网络的具体方法为：空间上对不同尺寸的生成器网络分别进行训练，在时间维度上逐渐增加参与训练的帧的维度。

6.一种时序视频生成装置，包括：

训练模块，其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络，得到训练好的多层级生成器网络，所述多层级生成器网络G′_N+1的结构为：

G′_N+1＝G_N+1下+G′_N+G_N+1上

D′_N+1＝D_N1下+D′_N+D_N+1上

7.根据权利要求6所述的装置，其特征在于，所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。

8.根据权利要求7所述的装置，其特征在于，训练多层级生成器网络的具体方法为：空间上对不同尺寸的生成器网络分别进行训练，在时间维度上逐渐增加参与训练的帧的维度。

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

10.一种非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-5中任一项所述的方法。