CN114885144B

CN114885144B - 基于数据融合的高帧率3d视频生成方法及装置

Info

Publication number: CN114885144B
Application number: CN202210293645.3A
Authority: CN
Inventors: 高跃; 李思奇; 李一鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-02-07
Anticipated expiration: 2042-03-23
Also published as: CN114885144A

Abstract

本申请公开了一种基于数据融合的高帧率3D视频生成方法及装置，其中，方法包括：从事件相机获取低于预设帧率的视频和事件数据，两两组合后，生成多组相邻图像帧，计算得到所有中间帧的时间戳集合，从中截取从两个边界帧到期望中间帧的事件流，并输入至预设的脉冲神经网络进行前向传播，得到事件流数据特征向量，并与相邻图像帧拼接，输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，从而构成高帧率3D视频。由此，解决了相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

Description

基于数据融合的高帧率3D视频生成方法及装置

技术领域

本申请涉及计算机视觉及神经形态计算技术领域，特别涉及一种基于数据融合的高帧率3D视频生成方法及装置。

背景技术

一方面，传统相机受帧率限制，拍摄高帧率视频所需的专业高速摄像机成本极高；另一方面，从低帧率视频生成高帧率的3D视频，即高帧率深度图视频，实现高速3D观测存在一定缺陷。

相关技术使用纯事件流生成视频，将事件流使用堆叠的方式转换成为网格状张量表示，从而使用深度学习方法生成图像，实现高速3D观测的目的。

然而，相关技术仅使用事件流作为输入，缺乏每个像素点的初始亮度值，仅依靠亮度变化记录去估计亮度是一种欠定问题，进而导致生成的图像质量较低，有待改善。

发明内容

本申请提供一种基于数据融合的高帧率3D视频生成方法及装置，以解决相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

本申请第一方面实施例提供一种基于数据融合的高帧率3D视频生成方法，包括以下步骤：从事件相机获取低于预设帧率的视频和事件数据；将所述视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合；根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量；拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频；基于所述高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所述所有高帧率深度图，构成高帧率3D视频。

可选地，在本申请的一个实施例中，在将所述第一事件流和第二事件流输入至所述预设的脉冲神经网络进行前向传播之前，还包括：基于Spike Response模型作为神经元动力学模型，构建所述脉冲神经网络。

可选地，在本申请的一个实施例中，所述多模态融合网络包含粗合成子网络和微调子网络，其中，所述粗合成子网络使用第一U-Net结构，输入层的输入通道数为64+2×k，输出层的输出通道数为k，且所述微调子网络使用第二U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为k，k为所述低于预设帧率的视频的图像帧的通道数。

可选地，在本申请的一个实施例中，所述3D深度估计网络使用第三U-Net结构，且输入层的输入通道数为3×k，输出层的输出通道数为1。

可选地，在本申请的一个实施例中，所述所有中间帧的时间戳集合的计算公式为：

其中，N为输入低帧率视频的总帧数，n为期望帧率提升的倍数，t_j为输入低帧率视频第j帧的时间戳。

本申请第二方面实施例提供一种基于数据融合的高帧率3D视频生成装置，包括：第一获取模块，用于从事件相机获取低于预设帧率的视频和事件数据；计算模块，用于将所述视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合；第二获取模块，用于根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量；融合模块，用于拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频；生成模块，用于基于所述高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所述所有高帧率深度图，构成高帧率3D视频。

可选地，在本申请的一个实施例中，还包括：构建模块，用于基于Spike Response模型作为神经元动力学模型，构建所述脉冲神经网络。

可选地，在本申请的一个实施例中，所述第一事件流和所述第二事件流的计算公式为：

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于数据融合的高帧率3D视频生成方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的基于数据融合的高帧率3D视频生成方法。

本申请实施例可以使用事件数据提供帧间运动信息，利用脉冲神经网络对事件流进行编码，并通过多模态融合网络得到所有中间帧，生成高帧率视频，进而利用3D深度估计网络构成高帧率3D视频，实现对于高速场景的有效的立体观测，通过使用事件流和低帧率视频图像帧作为输入，可以更好地使用多模态数据信息，进而提升高帧率3D视频的质量。由此，解决了相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于数据融合的高帧率3D视频生成方法的流程图；

图2为根据本申请一个实施例的基于数据融合的高帧率3D视频生成方法的流程图；

图3为根据本申请一个实施例的基于数据融合的高帧率3D视频生成方法的低帧率视频数据及事件流数据示意图；

图4为根据本申请一个实施例的基于数据融合的高帧率3D视频生成方法的中间帧视频数据示意图；

图5为根据本申请一个实施例的基于数据融合的高帧率3D视频生成方法的输入事件流、低帧率视频和生成的高帧率视频数据示意图；

图6为根据本申请一个实施例的基于数据融合的高帧率3D视频生成方法的10倍帧率提升下的高帧率深度图；

图7为根据本申请实施例提供的一种基于数据融合的高帧率3D视频生成装置的结构示意图；

图8为根据本申请实施例提供的电子设备的结构示意图

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于数据融合的高帧率3D视频生成方法及装置。针对上述背景技术中心提到的相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题，本申请提供了一种基于数据融合的高帧率3D视频生成方法，在该方法中，可以使用事件数据提供帧间运动信息，利用脉冲神经网络对事件流进行编码，并通过多模态融合网络得到所有中间帧，生成高帧率视频，进而利用3D深度估计网络构成高帧率3D视频，实现对于高速场景的有效的立体观测，通过使用事件流和低帧率视频图像帧作为输入，可以更好地使用多模态数据信息，进而提升高帧率3D视频的质量。由此，解决了相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

具体而言，图1为本申请实施例所提供的一种基于数据融合的高帧率3D视频生成方法的流程示意图。

如图1所示，该基于数据融合的高帧率3D视频生成方法包括以下步骤：

在步骤S101中，从事件相机获取低于预设帧率的视频和事件数据。

在实际执行过程中，本申请实施例可以从事件相机获取低于预设帧率的视频和事件数据，实现原始数据的获取，为后续生成高帧率视频奠定数据基础。

可以理解的是，事件相机是一种受生物启发的传感器，工作原理与传统的相机有很大的差别，与传统相机以固定帧率采集场景绝对光强不同，事件相机仅在场景光强变化时输出事件流，与传统相机相比，事件相机有着高动态范围、高时间分辨率、无动态模糊等优点，有利于保证高帧率视频的生成。

事件相机作为一种新型视觉传感器，无法直接应用传统相机及图像的各种算法，事件相机没有帧率的概念，其每个像素点异步工作，当检测到光强变化时输出一条事件，每条事件为一个四元组(x，y，t，p)，包含像素横纵坐标(x，y)、时间戳t和事件极性p(其中，p＝-1表示该像素点光强减小，p＝1表示该像素点光强增大)，将所有像素点输出的事件数据进行汇总，可以形成由一条条事件组成的事件列表，作为相机输出的事件流数据。事件相机则没有帧率的概念，其每个像素点异步工作，当检测到光强变化时输出一条事件。所有像素点输出的事件数据汇总起来，形成由若干条事件组成的事件列表，作为相机输出的事件流数据。

其中，预设帧率可以由本领域技术人员进行相应设置，在此不做具体限制。

在步骤S102中，将视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合。

作为一种可能实现的方式，本申请实施例可以将低帧率视频中，相邻图像帧两两组合，生成多组相邻图像帧，且对于每一组相邻的图像帧，计算期望得到所有中间帧的时间戳集合T，记为：

T＝{τ¹ _1,2,τ² _1,2,...,τⁿ _1,2,τ¹ _2,3,τ² _2,3,...,τⁿ _2,3,...,τ¹ _N-1,N,τ² _N-1,N,...,τⁿ _N-1,N}。

可选地，在本申请的一个实施例中，所有中间帧的时间戳集合的计算公式为：

具体地，期望得到所有中间帧的时间戳的计算公式可以如下：

其中，N是输入低帧率视频的总帧数，n是期望帧率提升的倍数，t_j是输入低帧率视频第j帧的时间戳。

本申请实施例可以通过计算期望得到所有中间帧的时间戳集合，实现对数据的预处理，为后续进行数据融合提供基础。

在步骤S103中，根据时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量。

进一步地，本申请实施例可以根据步骤S102中计算获得的中间帧时间戳集合，截取从两个边界帧到期望中间帧的第一事件流ε₁和第二事件流ε₂，并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量F₁和第二事件流数据特征向量F₂。本申请实施例通过使用脉冲神经网络对于事件流进行编码，可以更好地起到事件流数据去噪的效果，进而提高生成视频的质量。

其中，第一事件流ε₁和第二事件流ε₂的计算公式可以分别如下：

其中，τⁱ _j,j+1为期望中间帧的时间戳，t_j和t_j+1为期望中间帧相邻输入低帧率视频帧的时间戳。

需要注意的是，预设的脉冲神经网络会在下文进行详细阐述。

可选地，在本申请的一个实施例中，在将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播之前，还包括：基于Spike Response模型作为神经元动力学模型，构建脉冲神经网络。

在此对脉冲神经网络进行详细阐述。

可以理解的是，脉冲神经网络是第三代人工神经网络，脉冲神经网络中的神经元不是在每一次迭代传播中都被激活，而是在它的膜电位达到某一个特定值才被激活，当一个神经元被激活，脉冲神经网络会产生一个信号传递给其他神经元，提高或降低其膜电位，因此脉冲神经网络模拟神经元更加接近实际，更加适用于处理时序脉冲信号。

在实际执行过程中，本申请实施例可以使用Spike Response模型作为神经元动力学模型，构建脉冲卷积神经网络。

具体地，脉冲神经网络可以包括输入卷积层、隐藏卷积层和输出卷积层。其中，输入卷积层的输入通道数为2，对应事件流的正极性事件和负极性事件，卷积核的尺寸为3×3，步长为1，输出通道数为16；隐藏卷积层的输入通道数为16，卷积核的尺寸为3×3，步长为1，输出通道数为16；输出卷积层的输入通道数为16，卷积核的尺寸为3×3，步长为1，输出通道数为32。

在步骤S104，拼接相邻图像帧、第一事件流数据特征向量和第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频。

作为一种可能实现的方式，本申请实施例可以将从步骤S102获得的低帧率视频的相邻图像帧和从步骤S103获得的第一事件流数据特征向量F₁和第二事件流数据特征向量F₂进行拼接，并输入至预设的多模态融合网络进行前向传播，生成一帧中间帧，以完成单一高帧率图像帧计算。

具体地，本申请实施例可以首先将低帧率视频相邻图像帧和事件流数据特征向量F₁和F₂拼接起来，输入到粗合成子网络中得到粗输出结果；随后将粗输出结果与输入相邻图像帧拼接起来，输入到微调子网络中得到最终输出结果。

进一步地，本申请实施例可以对于步骤S102中计算的期望每一个中间帧的时间戳，重复上述步骤，完成所有中间帧的计算，进而生成高于第二预设帧率的高帧率视频。

需要注意的是，预设的多模态融合网络会在下文进行详细阐述。

可选地，在本申请的一个实施例中，多模态融合网络包含粗合成子网络和微调子网络，其中，粗合成子网络使用第一U-Net结构，输入层的输入通道数为64+2×k，输出层的输出通道数为k，且微调子网络使用第二U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为k，k为低于预设帧率的视频的图像帧的通道数。

在此对多模态融合网络进行详细阐述。

可以理解的是，数据融合网络包含一个粗合成子网络和一个微调子网络。其中，粗合成子网络使用第一U-Net结构，输入层的输入通道数为64+2×k，输出层的输出通道数为k；微调子网络使用第二U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为k。

其中，k为步骤S101中输入的低帧率视频的图像帧的通道数，即当步骤S101中输入的低帧率视频的图像帧为灰度图时，k＝1，当步骤S101中输入的低帧率视频的图像帧为RGB图像时，k＝3。

在步骤S105中，基于高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所有高帧率深度图，构成高帧率3D视频。

在实际执行过程中，本申请实施例可以将上述步骤中获得的高帧率图像帧，与其前后相邻高帧率图像帧进行拼接，使用预设的3D深度估计网络进行前向传播，生成一系列高帧率深度图，并将生成的一系列高帧率深度图进行组合，构成高帧率3D视频，实现高帧率3D视频生成。本申请实施例可以使用事件数据提供帧间运动信息，利用脉冲神经网络对事件流进行编码，并通过多模态融合网络得到所有中间帧，生成高帧率视频，进而利用3D深度估计网络构成高帧率3D视频，实现对于高速场景的有效的立体观测，通过使用事件流和低帧率视频图像帧作为输入，可以更好地使用多模态数据信息，进而提升高帧率3D视频的质量。

可选地，在本申请的一个实施例中，3D深度估计网络使用第三U-Net结构，且输入层的输入通道数为3×k，输出层的输出通道数为1。

在此对3D深度估计网络的构建进行详细阐述。

具体地，本申请实施例构建的3D深度估计网络可以使用第三U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为1，其中，k为步骤S101中输入的低帧率视频的图像帧的通道数，即当步骤S101中输入的低帧率视频的图像帧为灰度图时，k＝1，当步骤S101中输入的低帧率视频的图像帧为RGB图像时，k＝3。

下面结合图2至7所示，以一个实施例对本申请实施例进行详细阐述。如图2所示，本申请实施例包括以下步骤：

步骤S201：低帧率视频数据及事件流数据获取。在实际执行过程中，本申请实施例可以从事件相机获取帧率的视频和事件数据，实现原始数据的获取，为后续生成高帧率视频奠定数据基础。

可以理解的是，事件相机没有帧率的概念，其每个像素点异步工作，当检测到光强变化时输出一条事件，每条事件为一个四元组(x，y，t，p)，包含像素横纵坐标(x，y)、时间戳t和事件极性p(其中，p＝-1表示该像素点光强减小，p＝1表示该像素点光强增大)，将所有像素点输出的事件数据进行汇总，可以形成由一条条事件组成的事件列表，作为相机输出的事件流数据。

举例而言，如图3所示，本申请实施例从事件相机获取的低帧率视频的帧率可以为20FPS(Frames Per Second，每秒传输帧数)，共计31帧，对应的事件流持续时间为1500ms。

步骤S202：数据预处理。本申请实施例可以将低帧率视频中相邻图像帧两两组合，对于每一组相邻图像帧，计算期望得到所有中间帧的时间戳集合T，记为：

T＝{τ¹ _1,2,τ² _1,2,...,τⁿ _1,2,τ¹ _2,3,τ² _2,3,...,τⁿ _2,3,...,τ¹ _N-1,N,τ² _N-1,N,...,τⁿ _N-1,N}，

其中，每个期望得到的中间帧时间戳的计算公式如下：

举例而言，本申请实施例输入低帧率视频可以包含N＝31帧图像，帧率为20FPS，则输入低帧率视频第j帧的时间戳为t_j＝(j-1)×50ms。若得到帧率提升n＝10倍的高帧率视频，则计算得到的所有中间帧的时间戳集合可以为T＝{0,5,10,15,20,...,1495}，包含300个元素。

步骤S203：脉冲神经网络构建。在实际执行过程中，本申请实施例可以使用SpikeResponse模型作为神经元动力学模型，构建脉冲卷积神经网络。

步骤S204：事件流编码计算。本申请实施例可以根据步骤S202计算得到的中间帧的时间戳τⁱ _j,j+1，截取从两个边界帧到期望中间帧的事件流ε₁,ε₂，并将ε₁,ε₂分别输入通过步骤S203得到的脉冲神经网络进行前向传播，得到事件流数据特征向量F₁和F₂。

其中，两个边界帧到期望中间帧的事件流ε₁和ε₂的计算公式如下：

其中，τⁱ _j,j+1是期望中间帧的时间戳，t_j和t_j+1是期望中间帧相邻输入低帧率视频帧的时间戳。

举例而言，以第15个期望得到的中间帧的时间戳，即本申请实施例在输入低帧率视频第2帧和第3帧中***的第5帧，τ⁵ _2,3＝75ms为例，两个边界帧到期望中间帧的事件流ε₁和ε₂可以如表1所示。其中，表1和表2分别为事件流ε₁和ε₂的数据表。

表一

步骤S205：多模态融合网络构建。可以理解的是，数据融合网络包含一个粗合成子网络和一个微调子网络。其中，粗合成子网络使用U-Net结构，输入层的输入通道数为64+2×k，输出层的输出通道数为k；微调子网络使用U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为k。

其中，k为步骤S201中输入的低帧率视频的图像帧的通道数，即当步骤S201中输入的低帧率视频的图像帧为灰度图时，k＝1，当步骤S201中输入的低帧率视频的图像帧为RGB图像时，k＝3。

举例而言，本申请实施例可以输入步骤S201中输入的低帧率视频的图像帧为灰度图，即k＝1，此时，粗合成子网络输入层的输入通道数为66，输出层的输出通道数为1；微调子网络输入层的输入通道数为3；输出层的输出通道数为1。

步骤S206：单一高帧率图像帧计算。作为一种可能实现的方式，本申请实施例可以将从步骤S202获得的低帧率视频的相邻图像帧和从步骤S203获得的第一事件流数据特征向量F₁和第二事件流数据特征向量F₂进行拼接，并输入至预设的多模态融合网络进行前向传播，生成一帧中间帧，以完成单一高帧率图像帧计算。

举例而言，以第15个期望得到的中间帧为例，生成的中间帧如图4所示。

步骤S207：全部高帧率图像帧计算。进一步地，本申请实施例可以对于步骤S302中计算的期望每一个中间帧的时间戳，重复上述步骤S302至步骤S306，完成所有中间帧的计算。

举例而言，本申请实施例可以输入低帧率视频包含N＝31帧图像，若得到帧率提升n＝10倍的高帧率视频，则需要重复步骤S202至步骤S206共计300次。

本申请实施例将步骤S207中得到的所有中间帧进行组合，构成高帧率视频，实现高帧率视频生成。

其中，以得到帧率提升n＝10倍的高帧率视频为例，输入事件流、低帧率视频和生成的高帧率视频可以如图5所示。

步骤S208：3D深度估计网络构建。具体地，本申请实施例构建的3D深度估计网络可以使用第三U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为1，其中，k为步骤S201中输入的低帧率视频的图像帧的通道数，即当步骤S201中输入的低帧率视频的图像帧为灰度图时，k＝1，当步骤S201中输入的低帧率视频的图像帧为RGB图像时，k＝3。

步骤S209：高帧率3D深度估计计算。

步骤S210：数据后处理。在实际执行过程中，本申请实施例可以将上述步骤中获得的高帧率图像帧，与其前后相邻高帧率图像帧进行拼接，使用预设的3D深度估计网络进行前向传播，生成一系列高帧率深度图，并将生成的一系列高帧率深度图进行组合，构成高帧率3D视频，实现高帧率3D视频生成。

举例而言，如图6所示，本申请实施例可以实现10倍帧率提升下的高帧率深度图视频生成，实现高速环境下有效立体场景观测。

根据本申请实施例提出的基于数据融合的高帧率3D视频生成方法，可以使用事件数据提供帧间运动信息，利用脉冲神经网络对事件流进行编码，并通过多模态融合网络得到所有中间帧，生成高帧率视频，进而利用3D深度估计网络构成高帧率3D视频，实现对于高速场景的有效的立体观测，通过使用事件流和低帧率视频图像帧作为输入，可以更好地使用多模态数据信息，进而提升高帧率3D视频的质量。由此，解决了相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

其次参照附图描述根据本申请实施例提出的基于数据融合的高帧率3D视频生成装置。

图7是本申请实施例的基于数据融合的高帧率3D视频生成装置的方框示意图。

如图7所示，该基于数据融合的高帧率3D视频生成装置10包括：第一获取模块100、计算模块200、第二获取模块300、融合模块400和生成模块500。

具体地，第一获取模块100，用于从事件相机获取低于预设帧率的视频和事件数据。

计算模块200，用于将视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合。

第二获取模块300，用于根据时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量。

融合模块400，用于拼接相邻图像帧、第一事件流数据特征向量和第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频。

生成模块500，用于基于高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所有高帧率深度图，构成高帧率3D视频。

可选地，在本申请的一个实施例中，基于数据融合的高帧率3D视频生成装置10还包括：构建模块。

其中，构建模块，用于基于Spike Response模型作为神经元动力学模型，构建脉冲神经网络。

需要说明的是，前述对基于数据融合的高帧率3D视频生成方法实施例的解释说明也适用于该实施例的基于数据融合的高帧率3D视频生成装置，此处不再赘述。

根据本申请实施例提出的基于数据融合的高帧率3D视频生成装置，可以使用事件数据提供帧间运动信息，利用脉冲神经网络对事件流进行编码，并通过多模态融合网络得到所有中间帧，生成高帧率视频，进而利用3D深度估计网络构成高帧率3D视频，实现对于高速场景的有效的立体观测，通过使用事件流和低帧率视频图像帧作为输入，可以更好地使用多模态数据信息，进而提升高帧率3D视频的质量。由此，解决了相关技术中仅使用事件流作为输入，缺乏每个像素点的初始亮度值，从而导致生成的图像质量较低的技术问题。

图8为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。

处理器802执行程序时实现上述实施例中提供的基于数据融合的高帧率3D视频生成方法。

进一步地，电子设备还包括：

通信接口803，用于存储器801和处理器802之间的通信。

存储器801，用于存放可在处理器802上运行的计算机程序。

存储器801可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器801、处理器802和通信接口803独立实现，则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器801、处理器802及通信接口803，集成在一块芯片上实现，则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。

处理器802可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的基于数据融合的高帧率3D视频生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于数据融合的高帧率3D视频生成方法，其特征在于，包括以下步骤：

从事件相机获取低于预设帧率的视频和事件数据；

将所述视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合；

根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量；

拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频；

基于所述高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所述所有高帧率深度图，构成高帧率3D视频。

2.根据权利要求1所述的方法，其特征在于，在将所述第一事件流和第二事件流输入至所述预设的脉冲神经网络进行前向传播之前，还包括：

基于Spike Response模型作为神经元动力学模型，构建所述脉冲神经网络。

3.根据权利要求1所述的方法，其特征在于，所述多模态融合网络包含粗合成子网络和微调子网络，其中，所述粗合成子网络使用第一U-Net结构，输入层的输入通道数为64+2×k，输出层的输出通道数为k，且所述微调子网络使用第二U-Net结构，输入层的输入通道数为3×k，输出层的输出通道数为k，k为所述低于预设帧率的视频的图像帧的通道数。

4.根据权利要求3 所述的方法，其特征在于，所述3D深度估计网络使用第三U-Net结构，且输入层的输入通道数为3×k，输出层的输出通道数为1。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述所有中间帧的时间戳集合的计算公式为：

6.一种基于数据融合的高帧率3D视频生成装置，其特征在于，包括：

第一获取模块，用于从事件相机获取低于预设帧率的视频和事件数据；

计算模块，用于将所述视频中相邻图像帧进行两两组合，生成多组相邻图像帧，并计算期望得到所有中间帧的时间戳集合；

第二获取模块，用于根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流，并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播，得到第一事件流数据特征向量和第二事件流数据特征向量；

融合模块，用于拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量，并输入至预设的多模态融合网络进行前向传播，得到所有中间帧，生成高于第二预设帧率的高帧率视频；

生成模块，用于基于所述高帧率视频，利用预设的3D深度估计网络进行前向传播，得到所有高帧率深度图，并组合所述所有高帧率深度图，构成高帧率3D视频。

7.根据权利要求6所述的装置，其特征在于，还包括：构建模块，用于基于SpikeResponse模型作为神经元动力学模型，构建所述脉冲神经网络。

8.根据权利要求6-7任一项所述的装置，其特征在于，所述所有中间帧的时间戳集合的计算公式为：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的基于数据融合的高帧率3D视频生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的基于数据融合的高帧率3D视频生成方法。