CN117152227A

CN117152227A - 深度图像视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN117152227A
Application number: CN202310898297.7A
Authority: CN
Inventors: 高跃; 周致宽
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-12-01

Abstract

本申请涉及一种深度图像视频生成方法、装置、电子设备及存储介质，其中，方法包括：获取预设帧率的视频和事件流数据；以视频的曝光间隔对事件流数据进行划分，得到事件数据包；在训练分支，将事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播；在推理分支，将事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播。由此，解决了相关技术中，难以从现实场景中采集与事件流对应的深度图像标注数据以训练卷积神经网络，难以从事件流数据中获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果等问题。

Description

深度图像视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉及神经形态计算技术领域，特别涉及一种深度图像视频生成方法、装置、电子设备及存储介质。

背景技术

事件相机是一种受生物启发的传感器，工作原理与传统的相机有很大的差别，与传统相机以固定帧率采集分支绝对光强不同，事件相机当且仅当分支光强变化时输出数据，对应输出的数据称为事件流。与传统相机相比，事件相机有着高动态范围、高时间分辨率、无动态模糊等优点。

相关技术中，在基于事件相机的深度估计领域，现有的基于手工模型的方法通过建立事件信号和像素点深度的匹配关系，并利用超参数和优化求解工具求解问题。而基于神经网络的方法受传统rgb视觉算法中的启发，一定程度上能够以类似的方式解决事件相机领域的部分视觉问题。但由于两种相机的特点以及主要的应用分支都有较大区别，事件相机领域中基于神经网络的方法还面临种种困难。

然而，相关技术中，由于传统训练方式下的神经网络需要大量带深度标注的数据集，而事件相机所适配的高速运动分支中，深度数据的采集较为困难，进而导致事件相机的深度估计领域中，基于神经网络的方法往往无法得到充分的真实数据训练，而基于仿真数据训练的模型又较难适应真实分支，亟待解决。

发明内容

本申请提供一种深度图像视频生成方法、装置、电子设备及存储介质，以解决相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果等问题。

本申请第一方面实施例提供一种深度图像视频生成方法，包括以下步骤：获取预设帧率的视频和事件流数据；以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予所述每一视频帧对应的帧组合进行编号，其中，所述每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号；在训练分支，将所述事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将所述第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据所述第一深度图和所述相对位姿计算重投影损失，以损失反向传播优化神经网络参数；以及在推理分支，将所述事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将所述第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

可选地，在本申请的一个实施例中，所述以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，包括：基于图像帧组的每一组视频帧包含深度估计的目标帧与所述前后相邻的视频帧，对于所述每一组视频帧的中间帧对应的时间戳，将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包。

可选地，在本申请的一个实施例中，所述以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，还包括：基于所述数据包进行事件流张量化计算及预处理，对所述数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

可选地，在本申请的一个实施例中，所述事件张量的获取公式为：

k_b(a)＝max(0，1-|a|)，

其中，N为输入视频的总帧数，x_i、y_i、t_i、p_i分别为事件包E_k中事件e_i帧的二维空间坐标，时间戳以及极性，B为离散化超参数，k_b(a)用于对时空邻域进行双线性采样。

可选地，在本申请的一个实施例中，所述重投影损失的计算公式为：

L_p＝∑_k′pe(I_k，I_k′→t)，

I_k′→k＝I_t′<proj(D_k，P_k→k′，K)>，

其中，k代表目标帧序号，k′代表参考帧序号，目标帧对应I_k＝{I_k-1，I_k，I_k+1}中的I_k，参考帧对应I_k+1与I_k-1，D_t表示用事件张量T_k编码得到的特征经解码后产生的深度图，proj()运算表示将当前序号的深度图D_k根据相机内参矩阵K以及相对位姿P_t→t′投影到参考帧的图像平面上，SSIM()表示结构相似性损失。

本申请第二方面实施例提供一种深度图像视频生成装置，包括：获取模块，用于获取预设帧率的视频和事件流数据；组合模块，用于以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予所述每一视频帧对应的帧组合进行编号，其中，所述每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号；第一生成模块，用于在训练分支，将所述事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将所述第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据所述第一深度图和所述相对位姿计算重投影损失，以损失反向传播优化神经网络参数；以及第二生成模块，用于在推理分支，将所述事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将所述第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

可选地，在本申请的一个实施例中，所述组合模块包括：划分单元，用于基于图像帧组的每一组视频帧包含深度估计的目标帧与所述前后相邻的视频帧，对于所述每一组视频帧的中间帧对应的时间戳，将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包。

可选地，在本申请的一个实施例中，所述组合模块还包括：生成单元，用于基于所述数据包进行事件流张量化计算及预处理，对所述数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

k_b(a)＝max(0，1-|a|)，

L_p＝∑_k′pe(I_k，I_k′→t)，

I_k′→k＝I_t′<proj(D_k，P_k→k′，K)>，

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的深度图像视频生成方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的深度图像视频生成方法。

本申请实施例可以从视频数据和事件流数据获得与视频帧同步的深度图，实现深度图视频生成的效果，稳定性较强，可以更好地起到事件流数据去噪的效果。由此，解决了相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种深度图像视频生成方法的流程图；

图2为根据本申请一个实施例的深度图像视频生成方法的流数据可视化示意图；

图3为根据本申请一个实施例的深度图像视频生成方法的深度图可视化示意图；

图4为根据本申请一个实施例的深度图像视频生成方法的流程图；

图5为根据本申请实施例提供的一种深度图像视频生成装置的结构示意图；

图6为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的深度图像视频生成方法、装置、电子设备及存储介质。针对上述背景技术中提到的相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果的问题，本申请提供了一种深度图像视频生成方法，在该方法中，可以从视频数据和事件流数据获得与视频帧同步的深度图，实现深度图视频生成的效果，稳定性较强，可以更好地起到事件流数据去噪的效果。由此，解决了相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果等问题。

具体而言，图1为本申请实施例所提供的一种深度图像视频生成方法的流程示意图。

如图1所示，该深度图像视频生成方法包括以下步骤：

在步骤S101中，获取预设帧率的视频和事件流数据。

在实际执行过程中，本申请实施例可以从事件相机获取预设帧率的视频和事件流数据，为后续从事件流数据中获得与视频帧同步的深度图提供支撑，有助于实现深度图视频的生成的效果，更好地起到事件流数据去噪的效果。

需要说明的是，预设帧率可以由本领域技术人员根据实际情况进行设置，在此不作具体限制。

在步骤S102中，以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予每一视频帧对应的帧组合进行编号，其中，每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号。

在实际执行过程中，本申请实施例可以进行数据预处理，以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予每一视频帧对应的帧组合进行编号，其中，本申请实施例中的每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号，从而保证从现实场景中采集与事件流对应的深度图像标注数据，为训练卷积神经网络提供依据，不依赖于超参数和优化求解工具，稳定性较强。

可选地，在本申请的一个实施例中，以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，包括：基于图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的视频帧，对于每一组视频帧的中间帧对应的时间戳，将事件流数据根据时间戳划分为具有相同时间间隔的数据包。

一些实施例中，可以将视频中相邻帧进行组合，每一组视频帧包含深度估计的目标帧与前后相邻的视频帧，用I_k表示序列号为k的原始视频帧，I_k表示序列号为k的原始视频帧对应的一组视频帧：

I_k＝{I_k-1，I_k，I_k+1}，

对于每一组视频帧的中间帧对应的时间戳，将事件流数据根据时间戳划分为具有相同时间间隔的数据包，其中，事件流数据的事件流中的每个事件e均具有对应的x，y，p，t属性，其中，记视频帧I_k的时间戳为t_k，用e_i表示事件流中序列号为i，时间戳为t_i的单个事件，E_k表示视频帧组I_k所对应的事件包，记：

E_k＝{e_i|wheret_k-1≤t_i≤t_k}，

本申请实施例可以将事件流数据根据时间戳划分为具有相同时间间隔的数据包，保证更好地起到事件流数据去噪的效果。

可选地，在本申请的一个实施例中，以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，还包括：基于数据包进行事件流张量化计算及预处理，对数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

作为一种可能实现的方式，本申请实施例可以基于数据包进行事件流张量化计算及预处理，对数据包的每个事件包E_k将其在空间域上累积，生成对应的事件张量T_k，使其适配神经网络输入，从而不依赖标注数据的无监督方法或自监督方法，提高稳定性。

可选地，在本申请的一个实施例中，事件张量的获取公式为：

k_b(a)＝max(0，1-|a|)，

在实际执行过程中，本申请实施例可以通过事件张量的的获取公式：

k_b(a)＝max(0，1-|a|)，

提高计算的精准度，其中，某时刻的视频帧、事件流包，生成的深度图如图2和图3所示，可以进一步起到事件流数据去噪的效果。

在步骤S103中，在训练分支，将事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据第一深度图和相对位姿计算重投影损失，以损失反向传播优化神经网络参数。

在实际执行过程中，本申请实施例可以首先构建卷积神经网络，卷积神经网络的编码器部分包含输入卷积层、隐藏卷积层和输出卷积层，其中，输入卷积层的输入通道数为B，对应事件张量Tk的通道数输入卷积层的卷积核的尺寸为3*3、步长为1、输出通道数为16，且隐藏卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为16，以及输出卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为64。网络解码器部分，深度解码器包含输入层，隐藏卷积层，上采样层和输出卷积层，输入层的输入通道数为64，输出层的输出通道数为1。位姿解码器相较深度解码器，在输出层之前添加额外的全局平均池化层，输出通道数为6。

进一步地，本申请实施例可以在训练分支，将事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据第一深度图和相对位姿计算重投影损失，对计算得到的损失，通过反向传播算法优化神经网络参数，进而从视频数据和事件流数据获得与视频帧同步的深度图，有效实现深度图视频生成的效果。

可选地，在本申请的一个实施例中，重投影损失的计算公式为：

L_p＝∑_k′pe(I_k，I_k′→t)，

I_k′→k＝I_t′<proj(D_k，P_k→k′，K)>，

在实际执行过程中，本申请实施例可以通过重投影损失的计算公式：

L_p＝∑_k′pe(I_k，I_k′→t)，

I_k′→k＝I_t′<proj(D_k，P_k→k′，K)>，

提高计算的精准度，从而进一步实现深度图视频生成的效果。

在步骤S104中，在推理分支，将事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

具体而言，本申请实施例可以在推理分支，将事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频，从而保证从视频数据和事件流数据获得与视频帧同步的深度图，实现深度图视频生成的效果，更好地起到事件流数据去噪的效果。

具体地，可以结合图4所示，以一个具体实施例对本申请实施例的深度图像视频生成方法的工作原理进行详细阐述。

如图4所示，本申请实施例可以包括以下步骤：

步骤S401：视频数据及事件流数据获取。

其中，本申请实施例可以从事件相机获取预设帧率的视频和事件流数据。

步骤S402：数据结构化与预处理。

其中，本申请实施例可以进行数据结构化与预处理，以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予每一视频帧对应的帧组合进行编号，其中，每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号。

步骤S403：卷积神经网络构建。

其中，本申请实施例可以首先构建卷积神经网络，卷积神经网络的编码器部分包含输入卷积层、隐藏卷积层和输出卷积层。

步骤S404：事件数据训练编码计算。

其中，本申请实施例可以在训练分支，进行事件数据训练编码计算。

步骤S405：数据解码计算深度图与相对位姿。

其中，本申请实施例可以第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计。

步骤S406：融合视频帧计算损失并反向传播。

其中，本申请实施例可以用与事件数据包序号相同的视频帧组，根据第一深度图和相对位姿计算重投影损失，对计算得到的损失，通过反向传播算法优化神经网络参数。

步骤S407：事件数据推理编码计算。

其中，本申请实施例可以在推理分支，进行事件数据推理编码计算。

步骤S408：数据解码计算深度图。

其中，本申请实施例可以通过数据解码计算深度图，将第二特征向量送入深度解码器进行解码，生成第二深度图。

步骤S409：组合全部深度图得到深度视频。

其中，本申请实施例可以组合全部深度图得到深度视频，通过计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

根据本申请实施例提出的深度图像视频生成方法，可以从视频数据和事件流数据获得与视频帧同步的深度图，实现深度图视频生成的效果，稳定性较强，可以更好地起到事件流数据去噪的效果。由此，解决了相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果的问题。

其次参照附图描述根据本申请实施例提出的深度图像视频生成装置。

图5是本申请实施例的深度图像视频生成装置的结构示意图。

如图5所示，该深度图像视频生成装置10包括：获取模块100、组合模块200、第一生成模块300和第二生成模块400。

具体地，获取模块100，用于获取预设帧率的视频和事件流数据。

组合模块200，用于以视频的曝光间隔对事件流数据进行划分，得到事件数据包，并将视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予每一视频帧对应的帧组合进行编号，其中，每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号。

第一生成模块300，用于在训练分支，将事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据第一深度图和相对位姿计算重投影损失，以损失反向传播优化神经网络参数。

第二生成模块400，用于在推理分支，将事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

可选地，在本申请的一个实施例中，组合模块200包括：划分单元。

其中，划分单元，用于基于图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的视频帧，对于每一组视频帧的中间帧对应的时间戳，将事件流数据根据时间戳划分为具有相同时间间隔的数据包。

可选地，在本申请的一个实施例中，组合模块200还包括：生成单元。

其中，生成单元，用于基于数据包进行事件流张量化计算及预处理，对数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

k_b(a)＝max(0，1-|a|)，

L_p＝∑_k′pe(I_k，I_k′→t)，

I_k′→k＝I_t′<proj(D_k，P_k→k′，K)>，

需要说明的是，前述对深度图像视频生成方法实施例的解释说明也适用于该实施例的深度图像视频生成装置，此处不再赘述。

根据本申请实施例提出的深度图像视频生成装置，可以从视频数据和事件流数据获得与视频帧同步的深度图，实现深度图视频生成的效果，稳定性较强，可以更好地起到事件流数据去噪的效果。由此，解决了相关技术中，无法从视频数据和事件流数据获得与视频帧同步的深度图，难以实现深度图视频生成的效果，在问题求解上高度依赖超参数和优化求解工具，稳定性较差，难以更好地起到事件流数据去噪的效果的问题。

图6为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。

处理器602执行程序时实现上述实施例中提供的深度图像视频生成方法。

进一步地，电子设备还包括：

通信接口603，用于存储器601和处理器602之间的通信。

存储器601，用于存放可在处理器602上运行的计算机程序。

存储器601可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器601、处理器602和通信接口603独立实现，则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器601、处理器602及通信接口603，集成在一块芯片上实现，则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。

处理器602可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的深度图像视频生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种深度图像视频生成方法，其特征在于，包括以下步骤：

获取预设帧率的视频和事件流数据；

以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予所述每一视频帧对应的帧组合进行编号，其中，所述每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号；

在训练分支，将所述事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将所述第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据所述第一深度图和所述相对位姿计算重投影损失，以损失反向传播优化神经网络参数；以及

在推理分支，将所述事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将所述第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

2.根据权利要求1所述的方法，其特征在于，所述以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，包括：

基于图像帧组的每一组视频帧包含深度估计的目标帧与所述前后相邻的视频帧，对于所述每一组视频帧的中间帧对应的时间戳，将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包。

3.根据权利要求2所述的方法，其特征在于，所述以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，还包括：

基于所述数据包进行事件流张量化计算及预处理，对所述数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

4.根据权利要求3所述的方法，其特征在于，所述事件张量的获取公式为：

k_b(a)＝max(0,1-|a|)，

5.根据权利要求1所述的方法，其特征在于，所述重投影损失的计算公式为：

L_p＝∑_k′pe(I_k,I_k′→t)，

I_k′→k＝I_t′<proj(D_k,P_k→k′,K)>，

其中，k代表目标帧序号，k′代表参考帧序号，目标帧对应I_k＝{I_k-1,I_k,I_k+1}中的I_k，参考帧对应I_k+1与I_k-1，D_t表示用事件张量T_k编码得到的特征经解码后产生的深度图，proj()运算表示将当前序号的深度图D_k根据相机内参矩阵K以及相对位姿P_t→t′投影到参考帧的图像平面上，SSIM()表示结构相似性损失。

6.一种深度图像视频生成装置，其特征在于，包括：

获取模块，用于获取预设帧率的视频和事件流数据；

组合模块，用于以所述视频的曝光间隔对所述事件流数据进行划分，得到事件数据包，并将所述视频中的每一视频帧与其前后相邻的视频帧进行组合，以视频帧的时序赋予所述每一视频帧对应的帧组合进行编号，其中，所述每一视频帧的视频图像与前一视频帧的视频图像对应间隔内的事件数据包记同样的序号；

第一生成模块，用于在训练分支，将所述事件数据包输入至预先构建的卷积神经网络的模型编码器部分进行前向传播，得到第一特征向量，并将所述第一特征向量送入两个解码器进行解码，生成第一深度图与相对位姿估计，以及用与事件数据包序号相同的视频帧组，根据所述第一深度图和所述相对位姿计算重投影损失，以损失反向传播优化神经网络参数；以及

第二生成模块，用于在推理分支，将所述事件数据包输入至优化后的卷积神经网络的模型编码器部分进行前向传播，得到第二特征向量，并将所述第二特征向量送入深度解码器进行解码，生成第二深度图，并计算每一个序列号对应的深度图的图像帧，构成深度图序列，以生成深度图像视频。

7.根据权利要求6所述的装置，其特征在于，所述组合模块包括：

划分单元，用于基于图像帧组的每一组视频帧包含深度估计的目标帧与所述前后相邻的视频帧，对于所述每一组视频帧的中间帧对应的时间戳，将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包。

8.根据权利要求7所述的装置，其特征在于，所述组合模块还包括：

生成单元，用于基于所述数据包进行事件流张量化计算及预处理，对所述数据包的每个事件包将其在空间域上累积，生成对应的事件张量，使其适配神经网络输入。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的深度图像视频生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的深度图像视频生成方法。