CN111127522B

CN111127522B - 基于单目相机的深度光流预测方法、装置、设备及介质

Info

Publication number: CN111127522B
Application number: CN201911394005.6A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Hiscene Information Technology Co Ltd
Current assignee: Hiscene Information Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2024-02-06
Anticipated expiration: 2039-12-30
Also published as: CN111127522A

Abstract

本发明实施例公开了一种基于单目相机的深度光流预测方法、装置、设备及存储介质。该方法包括：获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中；根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息；其中，深度光流预测模型包括深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块。本发明实施例的技术方案，通过联合优化深度预测和光流预测的方式，可显著提高二者的预测精度和预测实时性，达到了高效率高精度的深度预测和光流预测的效果。

Description

基于单目相机的深度光流预测方法、装置、设备及介质

技术领域

本发明实施例涉及图像技术领域，尤其涉及一种基于单目相机的深度光流预测方法、装置、设备及介质。

背景技术

在计算机视觉和机器人技术中，深度预测和光流预测是理解空间三维几何结构和相机运动的两项重要任务。其中，光流预测一直是计算机视觉中的经典问题，也是解决很多其它问题的基础，其通常是从相互关联的一对图像中预测出参考图像中各个像素点在其相邻图像中的位置，因此，光流信息具有丰富的运动信息；相应的，深度信息是将二维图像转化到三维空间的必要条件，深度预测侧重对物体结构信息的学习。

近年来，由于单目相机轻量级和低成本的特性，利用单目相机进行定位和构建地图的应用越来越广泛，由此出现了许多成熟的单目相机SLAM***。SLAM是同时定位与地图构建(simultaneous localization and mapping)的简称，其通常是搭载预设传感器的主体，在没有环境先验信息的情况下，可于运动过程中建立环境的模型，同时估计自己的运动。如果这里的预设传感器主要是相机，其还可称为“视觉SLAM”。

目前的单目相机SLAM***可以分为特征点法和直接法两类。其中，特征点法首先检测当前图像的稀疏特征点，并寻找图像与局部地图之间的特征对应关系，然后根据对应关系运用PnP算法估计相机位姿，再通过三角测量求解特征点深度。但是，特征点法只能产生一个稀疏的深度图，这样的深度图只适用于位姿跟踪，而不适用于其它某些任务，如规避障碍、增强现实等等。在此基础上，为了获得更加稠密的深度图，直接法通过极线搜索在当前图像的每个像素与其对应的关键图像之间寻找匹配，再通过三角测量求解匹配点深度。但是，传统直接法是对图像直接处理，其受光照等环境影响较大，且只能在高纹理区域找到可靠的匹配，在弱纹理区域找到匹配的可靠性较低，降低了***的精度。也就是说，基于传统的单目相机SLAM***的深度预测方案，要么只能得到稀疏或者半稠密的深度图，深度预测不够完整；又或者，能够得到稠密的深度图，但是在弱纹理区域的深度预测精度较低。

除上述方案外，目前利用单目相机进行深度预测的方案还有很多种，如单视角深度预测，其是从单一视角观察空间，容易从训练数据中过度地学习结构先验信息，因此可能会在之前未见过的场景中表现不佳；再如基于多视角立体视觉的深度预测，其能够在多个视角观察和获取景物的图像，以此完成匹配和深度预测，从不同视角下的二维图像恢复三维场景结构；再如，将传统方法和深度学习相结合的深度预测方案如CNN-SLAM***，其将神经网络预测的深度图作为SLAM***的初始化深度，然后再在SLAM***运行时通过BA优化深度值，但是这种方法并没有很好的利用多视角信息，最终深度预测的精度不高。

发明内容

本发明实施例提供了一种基于单目相机的深度光流预测方法、装置、设备及介质，以实现联合优化深度预测和光流预测的效果。

第一方面，本发明实施例提供了一种基于单目相机的深度光流预测方法，可以包括：

获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中；

根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息；

其中，深度光流预测模型包括深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块。

可选的，在此基础上，该方法还可以包括：

获取历史参考图像和历史参考图像的历史深度信息，以及，历史参考图像的历史相邻图像和历史参考图像到历史相邻图像的历史光流信息，并将历史参考图像、历史相邻图像、历史深度信息和历史光流信息作为一组训练样本；

构建初始深度光流预测模型，并基于多个训练样本对初始深度光流预测模型进行训练，生成深度光流预测模型。

可选的，深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块；

在将参考图像和相邻图像输入至已训练完成的深度光流预测模型中之后，该方法还可以包括：

经由光流信息交互子模块提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息；

经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，并根据原始深度信息和位姿，生成中间光流信息；

再经由深度信息交互子模块接收光流信息交互子模块发送的中间深度信息，并将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图；

再经由光流信息交互子模块接收深度信息交互子模块发送的中间光流信息，并将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图。

可选的，将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图，可以包括：

分别得到原始光流信息的原始光流特征图以及中间光流信息的中间光流特征图，并将原始光流特征图和中间光流特征图进行融合，得到待与第二特征图进行拼接的第四特征图。

可选的，得到原始光流信息的原始光流特征图，可以包括：

根据深度光流信息交互模块的尺度信息对参考图像和相邻图像进行缩放，分别得到参考缩放图像和相邻缩放图像；

根据原始光流信息将相邻缩放图像投影到参考缩放图像上，并将投影结果和参考缩放图像进行融合以得到残差光流特征图；

对残差光流特征图和原始光流信息进行融合以得到原始光流信息的原始光流特征图。

可选的，经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，可以包括：

对中间深度信息进行卷积得到第五特征图，并将第五特征图和深度预测网络中的第六特征图进行融合以得到第一特征图；

经由深度信息交互子模块提取第一特征图的原始深度信息。

可选的，光流预测网络包括关联层，在将参考图像和相邻图像输入至已训练完成的深度光流预测模型中之后，该方法还可以包括：

针对从参考图像中提取出的第七特征图和从相邻图像中提取出的第八特征图，经由关联层基于预设点积运算确定第七特征图和第八特征图中对应像素点的匹配关系，得到关联特征图。

可选的，光流预测网络还包括极线层，极线层输出的极线特征图与关联特征图相融合。

可选的，极线层可以通过如下步骤输出极线特征图：

获取第七特征图中参考像素点在第八特征图上的极线，以及，参考像素点在第八特征图上对应的相邻区域中各个相邻像素点；

计算各个相邻像素点到极线的距离，以得到极线特征图。

可选的，计算各个相邻像素点到极线的距离，以得到极线特征图，可包括：

计算各个相邻像素点到极线的距离，并基于预设高斯分布对距离进行变换，以得到极线特征图。

可选的，相邻图像的数量可以是至少两个；

提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息，可以包括：

分别提取光流预测网络中各第二特征图的原始光流信息，并根据各个原始光流信息以及参考图像到各个相邻图像的位姿，建立线性方程组以生成中间深度信息。

可选的，参考图像和相邻图像的重叠率在预设重叠范围内，和/或，参考图像和相邻图像的基线距离在预设距离范围内。

可选的，深度预测网络和/或光流预测网络包括：卷积层和反卷积层。

可选的，深度光流信息交互模块的数量是一个或多个，且当深度光流信息交互模块的数量是多个时，各深度光流信息交互模块的尺度信息互不相同。

第二方面，本发明实施例还提供了一种基于单目相机的深度光流预测装置，该装置可以包括：

输入模块，用于获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中；

预测模块，用于根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息；

第三方面，本发明实施例还提供了一种设备，该设备可以包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的基于单目相机的深度光流预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的基于单目相机的深度光流预测方法。

本发明实施例的技术方案，通过获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中，深度光流预测模型因具有深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块，可分别预测出参考图像的稠密的目标深度信息以及参考图像到相邻图像的目标光流信息。上述技术方案，通过联合优化深度预测和光流预测的方式，可显著提高二者的预测精度和预测实时性，达到了高效率高精度的深度预测和光流预测的效果。

附图说明

图1是本发明实施例一中一种基于单目相机的深度光流预测方法的流程图；

图2是本发明实施例一中一种基于单目相机的深度光流预测方法中深度光流预测模型的网络结构的示意图；

图3是本发明实施例一中一种基于单目相机的深度光流预测方法中第七特征图和第八特征图的示意图；

图4是本发明实施例一中一种基于单目相机的深度光流预测方法中对极几何约束的示意图；

图5是本发明实施例二中一种基于单目相机的深度光流预测方法的流程图；

图6是本发明实施例二中一种基于单目相机的深度光流预测方法中深度光流信息交互模块的示意图；

图7是本发明实施例三中一种基于单目相机的深度光流预测方法的流程图；

图8是本发明实施例三中一种基于单目相机的深度光流预测方法中多视角深度预测的示意图；

图9是本发明实施例四中一种基于单目相机的深度光流预测装置的结构图；

图10是本发明实施例五中一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中提供的一种基于单目相机的深度光流预测方法的流程图。本实施例可适用于基于单目相机联合预测深度信息和光流信息的情况，尤其适用于通过将多视角立体视觉和单视角结构信息相结合以联合预测光流信息和深度信息的情况。该方法可以由本发明实施例提供的基于单目相机的深度光流预测装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在各种设备上。参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中，深度光流预测模型包括深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块。

其中，单目相机可以认为是具有一个普通RGB摄像头的相机，其可以拍摄连续的RGB图像，由此，可从连续的RGB图像中获取参考图像(reference image，I_ref)和相邻图像(neighbor image，I_nei)，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中。与此同时，还可以获取参考图像到相邻图像的位姿，并将位姿一起输入至深度光流预测模型中，其中，位姿的获取方法包括但不限于：下载训练/测试数据集，数据集中包括参考图像、相邻图像和参考图像到相邻图像的位姿；获取训练/测试数据集，通过SLAM***计算参考图像到每一个相邻图像的位姿；通过特征点匹配的方法计算参考图像到每一相邻图像的位姿。或者，深度光流预测模型可以包括位姿计算模块，此时，当将参考图像和相邻图像输入至深度光流预测模型后，可经由位姿计算模块计算出参考图像到相邻图像的位姿，位姿可表示出单目相机在不同时刻的位置信息和朝向信息，其在深度光流信息交互模块中可将深度信息和光流信息联系在一起。

上述深度光流预测模型可以包括深度预测网络(Depth Net)、光流预测网络(Optical Flow Net)以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块(exchange block)。其中，深度预测网络将参考图像作为输入图像，可得到参考图像的目标深度信息(output depth)，该目标深度信息是指参考图像对应的稠密深度图，光流预测网络将参考图像和相邻图像作为输入图像，可得到参考图像到相邻图像的目标光流信息(output optical flow)，该目标光流信息是指参考图像到相邻图像的光流。在此基础上，经由深度光流信息交互模块可实现目标深度信息和目标光流信息的联合预测。

可选的，深度预测网络和/或光流预测网络可以采用编码模块—解码模块的结构，两者中间可跨层连接融合前后的特征图。以深度预测网络为例，其可以包括卷积层(convolution layer)和反卷积层(deconvolution layer)，经由卷积层可以得到卷积特征图(convolution feature)，而经由反卷积层可以得到反卷积特征图(deconvolutionfeature)。编码模块在逐层卷积时可通过使用不同的步长来得到大小不同的特征图，且通常是分辨率越低特征图的通道越大；进一步，这些特征图可跨层连接至后面的解码模块，且在解码模块中，可采用由粗到精的策略，先经由反卷积层卷积特征图，再跨层连接至编码模块中大小相同的特征图，两个特征图进行拼接后，再卷积得到与当前尺度信息对应的原始深度信息。这一过程可重复多次，得到多个大小不同的原始深度信息，每个原始深度信息都可经由深度光流信息交互模块与光流预测网络中学习得到的对应尺度信息的原始光流信息完成信息交互，在经过多次信息交互后，可对最后一个特征图进行反卷积和卷积以得到参考图像大小的目标深度信息，该目标深度信息是一个稠密的深度图。光流预测网络可执行类似操作。需要说明的是，深度光流信息交互模块的数量可以是一个或多个，且当深度光流信息交互模块的数量是多个时，各深度光流信息交互模块的尺度信息可以互不相同，这是因为反卷积层的分辨率可以是由低到高的。

相应的，图2是深度光流预测模型的一个可选的网络结构的示意图，为了更加形象地理解深度光流预测模型的网络结构，以图2为例描述光流预测网络的具体结构。图2中每个矩形框都是一个特征图，跨层连接、卷积层和反卷积层分别采用不同颜色的箭头表示。光流预测网络将参考图像和相邻图像作为输入图像，可选的，参考图像的数量可以是一个，相邻图像的数量可以是一个或多个。光流预测网络也可使用了类似与深度预测网络的编码模块—解码模块结构，其可先基于三个权重共享的卷积层分别提取出两张图像的特征图(即，图2中的第七特征图7和第八特征图8)，可选的，然后可对这两个特征图进行匹配关联(correlation layer)得到关联特征图，这可提升光流预测网络的性能；可选的，还可将第七特征图进行卷积得到第九特征图，这可在光流预测中增加参考图像的信息；可选的，还可根据第七特征图和第八特征图确定极线特征图(epipolar feature)，极限层的约束可提高光流预测的准确性；再可选的，还可将关联特征图、第九特征图和极线特征图拼接在一起。进一步，后续的网络结构可与深度预测网络类似，中间三个不同尺度信息的原始光流信息也可经由深度光流信息交互模块与深度预测网络中对应的原始深度信息做信息交互，然后对最后的特征图进行反卷积得到参考图像大小的特征图，然后再卷积两次得到参考图像大小的目标光流信息。

S120、根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息。

其中，根据深度光流预测模型的输出结果，可以分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息，目标深度信息可将二维图像恢复为三维结构，目标光流信息可表示参考图像到相邻图像上各个像素点的运动速度和运动方向。具体的，根据深度预测网络可以实时预测出参考图像的目标深度信息，其中，深度预测网络因结合深度学习技术可获得稠密的深度图，与此同时，其因利用特征学习可在一定程度上缓解在弱纹理区域容易出现的深度预测精度较低的情况；以及，根据光流预测网络可以实时预测出参考图像到每个相邻图像的目标光流信息。

也就是说，上述技术方案将多视角立体视觉和单视角结构信息相结合以联合预测光流信息和深度信息，这种联合预测方案可显著提高光流预测和深度预测的精度。光流预测和单视角深度预测分别侧重于多视角立体视觉和单视角结构信息的学习，二者可以通过位姿联系在一起，相辅相成。即，上述技术方案实现了高效率高精度的光流预测与深度预测，对新场景具有较好的泛化能力，为许多对实时性要求较高的应用场景如自主避障等，提供了有效的解决方案。

在此基础上，可选的，第一方面，参考图像和相邻图像的重叠率可在预设重叠范围内，和/或，参考图像和相邻图像的基线距离可在预设距离范围内，其中，预设重叠范围和预设距离范围可根据实际情况具体设定，在此未做具体限定。也就是说，参考图像和相邻图像可有一定的重叠率，即二者可有一定的共同视野区域；和/或，参考图像和相邻图像可有一定的基线距离，即这两个时刻的单目相机光心的连线可有一定的距离。在实际应用中，单目相机可有一定的运动且这个运动不能过大或过小，示例性的，两帧图像的单目相机光心的连线距离可大于5cm，且参考图像和相邻图像的重叠率大于65％。

第二方面，针对从连续的RGB图像中获取的多帧图像，可以认为先获取的图像是参考图像，也可以认为后获取的图像是参考图像。一般情况下，如果相邻图像的数量是一个，可将先获取的图像作为参考图像；如果相邻图像的数量是多个，可将中间获取的图像作为参考图像，这样可以兼顾前后的图像信息。需要说明的是，无论参考图像和相邻图像的先后顺序是什么，直接获取的或是计算得到的位姿通常是参考图像到相邻图像的位姿，得到的目标光流信息通常是参考图像到相邻图像的目标光流信息。

可选的，第三方面，已训练完成的深度光流预测模型可通过如下步骤预先训练得到：获取历史参考图像和历史参考图像的历史深度信息，以及，历史参考图像的历史相邻图像和历史参考图像到历史相邻图像的历史光流信息，并将历史参考图像、历史相邻图像、历史深度信息和历史光流信息作为一组训练样本；构建初始深度光流预测模型，并基于多个训练样本对初始深度光流预测模型进行训练，生成深度光流预测模型。与此同时，还可以获取历史参考图像到历史相邻图像的历史位姿，并将历史位姿一起输入至初始深度光流预测模型中。其中，可选的，历史参考图像和历史相邻图像的重叠率在预设重叠范围内，和/或，历史参考图像和历史相邻图像的基线距离在预设距离范围内。在模型训练过程中，可利用误差反向传递来训练初始深度光流预测模型的模型参数，且可认为当损失函数曲线收敛和/或迭代次数达到设定阈值时，训练完成。另外，需要说明的是，历史参考图像到历史相邻图像的历史位姿可通过多种方式获取，比如，已下载的训练样本中已包括历史位姿；再比如，通过SLAM***计算每个历史参考图像到每一个历史相邻图像的历史位姿；再比如，通过特征点匹配的方式计算每个历史参考图像到每一个历史相邻图像的历史位姿；等等，在此未做具体限定。

一种可选的技术方案，光流预测网络可包括关联层，关联层可提升光流预测网络的匹配性能；相应的，在将参考图像和相邻图像输入至已训练完成的深度光流预测模型中之后，上述基于单目相机的深度光流预测方法具体还可以包括：针对从参考图像中提取出的第七特征图和从相邻图像中提取出的第八特征图，经由关联层基于预设点积运算确定第七特征图和第八特征图中对应像素点的匹配关系，得到关联特征图。

其中，第七特征图可以是参考图像经过一个或多个卷积层后得到的特征图(如，图2中的第七特征图7)，同样地，第八特征图可以是相邻图像经过一个或多个卷积层后得到的特征图(如，图2中的第八特征图8)。由此，经由关联层可基于预设点积运算确定第七特征图和第八特征图中对应像素点的匹配关系，得到关联特征图。可选的，基于预设点积运算确定第七特征图和第八特征图中对应像素点的匹配关系，具体可以包括：获取第七特征图中当前像素点和第八特征图中与当前像素点位置相应的目标像素点，以目标像素点为中心且以第一预设数值为半径确定搜索区域；基于预设点积运算分别计算搜索区域中每个当前搜索点和当前像素点的关联值，得到当前像素点与每个当前搜索点的匹配关系。需要说明的是，在确定与当前像素点对应的目标像素点时，可直接根据位置确定，而无需根据特征点匹配等方式来计算得到，这是因为，一般情况下，参考图像和相邻图像中某一物体的变化程度较小，可直接在与当前像素点位置相应的目标像素点的搜索区域中，搜寻到与当前像素点关联度最大的当前搜索点。

示例性的，如图3所示，图3左侧是第七特征图7的示意图，图3右侧是第八特征图8的示意图，与当前像素点r1位置相应的是目标像素点r2，此时，根据第一预设数值d(以d＝1为例)确定目标像素点r2的搜索区域81，搜索区域的边长是D＝2d+1，且其包括当前搜索点r2和q1-q8，这样一来，针对第七特征图7中的每个当前像素点r1，均可计算得到D²个关联值；而且，若第七特征图7和第八特征图8的维度均是H*W*C，则关联特征图的维度可以是H*W*D²，其中，D²可分别表示当前像素点和每个当前搜索点的匹配概率。

在此基础上，可选的，基于预设点积运算分别计算搜索区域中每个当前搜索点和当前像素点的关联值，具体可以包括：针对搜索区域中当前搜索点，根据如下式子计算当前搜索点和当前像素点的关联值：

其中，c(x₁,x₂)是关联值，x₁是从参考图像中提取出的第七特征图F_ref中的当前像素点，x₂是从相邻图像中提取出的第八特征图F_nei中的当前搜索点，k是第二预设数值。若第七特征图7和第八特征图8的维度均是H*W*C，则F_ref(x₁+o)表示F_ref在x₁+o处的C维向量，<a,b>表示向量a和b的点积运算。c(x₁,x₂)的数值越大则说明两个patch的相似度越大，即x₁和x₂匹配的概率越大。示例性的，如图3所示，针对以当前搜索点q1为中心且k为半径的一个区域82(patch)和以当前像素点r1为中心且k为半径的一个区域72(patch)，区域72和区域82的c(r1,q1)可基于上述式子计算得到，k是每个patch的半径，每个patch的大小为(2k+1)*(2k+1)，在图3中，k＝1。

在上述各技术方案的基础上，由于关联层寻找匹配的操作是在一个patch上进行的，当两帧图像的视角变化较大时，通常需要设置较大的patch方能得到最佳的匹配点，这样不仅会增加计算的复杂度，且容易出现匹配错误的情况。为解决上述问题，可设置一个极线层，极线约束的增加可显著提高匹配精度，即使得光流预测网络学习得到更加准确的光流。由此，可选的，光流预测网络还可以包括极线层，极线层输出的极线特征图与关联特征图相融合，比如，极限特征图(epipolar feature)和关联特征图可直接拼接，或者，若对第七特征图进行卷积得到第九特征图，则这可将关联特征图、第九特征图和极线特征图拼接起来，这可增加光流预测中参考图像的图像信息。需要说明的是，极线特征图和关联特征图的宽高和第七特征图和第八特征图是一致的。

在此基础上，可选的，极线层可以通过如下步骤输出极线特征图：获取第七特征图中参考像素点在第八特征图上的极线，以及，参考像素点在第八特征图上对应的相邻区域中各个相邻像素点；计算各个相邻像素点到极线的距离，以得到极线特征图。其中，对极几何(Epipolar Geometry)可描述同一场景中两帧图像之间的视觉几何关系，由此，根据对极几何的思想可知，多视角匹配的像素点应该落在对应的极线上。示例性的，图4是对极几何约束的示意图，O₁,O₂是单目相机在两个时刻的光心，P是三维空间中的某个三维点，p₁,p₂分别是P投影到两帧图像(参考图像和相邻图像)上的点，O₁,O₂,P三个点可构成极平面，极平面与两个像平面的交线是极线，当P的深度不确定时，p₁点对应相邻图像上的匹配点将会在极线移动。

基于此，当获知单目相机的内参K和参考图像到相邻图像的位姿T_ref,nei后，可以计算出第七特征图中参考像素点在第八特征图上的极线l_epip，这是因为，以图4为例，O1、O2、P1已知，P未知，但是P只可能在O1-P1对应的延长直线上，那么O1、O2、P三点对应的极平面是确定的，而像平面也是确定的，由此，两个平面的交线(即，极线)就是确定的。需要说明的是，第七特征图上不同的参考像素点在第八特征图上对应的极线不同。如果参考像素点是当前像素点，则参考像素点在第八特征图上对应的相邻区域中的各个相邻像素点就是D²个当前搜索点，由此，根据各个相邻像素点到极线的垂直距离可得到极线特征图，该极线特征图与第七特征图的宽高大小相同，该极线特征图可与关联特征图拼接在一起，然后再进行后续卷积操作。

在此基础上，由于相邻像素点到极线的垂直距离可表示出相邻像素点与参考像素点的匹配概率，垂直距离越小则说明相邻像素点落在极线上的概率越大，当垂直距离为0时，说明该相邻像素点是极线上的像素点，其就是参考像素点的匹配点。但是，距离是像素距离，各个像素距离的数值差异可能比较大，为了起到更好的约束效果，可以利用常见的高斯分布将各个距离归纳到某一范围内。比如，计算各个相邻像素点到极线的距离，以得到极线特征图，具体可以包括：计算各个相邻像素点到极线的距离，并基于预设高斯分布对距离进行变换，以得到极线特征图。示例性的，将各个相邻像素点记作u_nei，且假定u_nei是匹配像素的概率符合高斯分布则可将/>变换为1维向量，且因为每个参考像素点可对应D²个相邻像素点，则每个1维向量可具有D²个数值。可选的，/>可通过如下式子表示，其中，d是垂直距离。

实施例二

图5是本发明实施例二中提供的一种基于单目相机的深度光流预测方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块；相应的，在将参考图像和相邻图像输入至已训练完成的深度光流预测模型中之后，该方法还包括：经由光流信息交互子模块提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息；经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，并根据原始深度信息和所述位姿，生成中间光流信息；再经由深度信息交互子模块接收光流信息交互子模块发送的中间深度信息，并将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图；再经由光流信息交互子模块接收深度信息交互子模块发送的中间光流信息，并将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图5，本实施例的方法具体可以包括如下步骤：

S210、获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中，其中，深度光流预测模型包括深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块，深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块。

其中，基于式子(1)，深度信息和光流信息可通过位姿T_ref,nei联系在一起，位姿T_ref,nei是参考图像到相邻图像的位姿，

I_flow＝π(T_ref,nei·π^-1(u_ref,I_dep))-u_ref (1)

式子(2)和式子(3)分别是单目相机的投影模型和反投影模型， f_x、f_y、c_x、c_y是相机内参，u_ref是参考图像上某个像素点(此处称为第一像素点)的坐标，I_dep是第一像素点的深度，I_flow是第一像素点到相邻图像上对应匹配的第二像素点的光流信息。具体的，相机投影模型是将3D点投影为像素上的2D点，反投影模型是根据像素上的2D点获得对应的3D点。根据式子(2)和式子(3)，可以得到：X、Y、Z是相机坐标系下的坐标，u_ref是参考图像上第一像素点的像素坐标(相当于[u v 1])，I_dep是第一像素点的深度(相当于Z)，由此，根据式子(3)可知，π^-1(u_ref,I_dep)是第一像素点在第一相机坐标系下的坐标，T_ref,nei·π^-1(u_ref,I_dep)是第二像素点在第二相机坐标系下的坐标。其中，第一相机坐标系是指拍摄参考图像时对应的相机坐标系，第二相机坐标系是指拍摄相邻图像时对应的相机坐标系。根据式子(2)可知，π(T_ref,nei·π^-1(u_ref,I_dep))是第二像素点的像素坐标，在此基础上，减去第一像素点的像素坐标u_ref，即可得到光流信息I_flow。

为了利用上述关联将光流信息和深度信息进行联合优化，深度光流预测模型中的深度光流信息交互模块可包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块，由此充分利用单视角结构先验和多视角立体视觉以提升光流预测网络和深度预测网络的预测精度。

S220、经由光流信息交互子模块提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息，并经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，并根据原始深度信息和位姿，生成中间光流信息。

其中，可经由与光流预测网络连接的光流信息交互子模块提取光流预测网络中第二特征图的原始光流信息，并根据三角测量方法通过SVD分解生成中间深度信息。类似的，可经由与深度预测网络连接的深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，并根据式子(1)生成中间光流信息。需要说明的是，深度光流信息交互模块的数量可以是一个或多个，当深度光流信息交互模块的数量是多个时，各个深度光流信息交互模块的尺度信息可互不相同。每个尺度的信息交互模块只处理对应尺度的第一特征图和第二特征图，由此，各个尺度信息的深度光流信息交互模块可用于处理不同大小的第一特征图和第二特征图，或是说可用于处理不同大小的原始深度信息和原始光流信息。

示例性的，如图6所示，图6是一个尺度信息为n的深度光流信息交互模块的示意图，第一特征图和第二特征图/>可分别经过一个或多个卷积层生成原始深度信息和原始光流信息/>进一步，可根据原始深度信息/>和位姿T_ref,nei利用3D-2D投影计算出中间光流信息/>根据原始光流信息/>和位姿T_ref,nei利用三角测量方法通过SVD分解求出中间深度信息/>

S230、再经由深度信息交互子模块接收光流信息交互子模块发送的中间深度信息，并将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图。

其中，经由深度信息交互子模块可接收到光流信息交互子模块发送的中间深度信息，然后，可将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图，第三特征图可作为深度信息交互子模块的输出。针对将原始深度信息和中间深度信息进行融合，可有多种实现方式，比如，可将原始深度信息和中间深度直接进行拼接，并对拼接结果进行卷积后得到待与第一特征图进行拼接的第三特征图；比如，可将原始深度信息和中间深度分别进行卷积，然后对卷积结果进行拼接，得到待与第一特征图进行拼接的第三特征图；再比如，可将原始深度信息和中间深度分别进行卷积，然后对卷积结果进行拼接，然后对拼接结果再次进行卷积得到待与第一特征图进行拼接的第三特征图；等等。由此，第三特征图融合了深度预测网络的原始深度信息和光流预测网络中经由深度光流信息交互模块转换而来的中间深度信息，而且，可选的，进一步，第一特征图和第三特征图进行拼接后，可执行深度预测网络后续的操作，例如，反卷积操作。

S240、再经由光流信息交互子模块接收深度信息交互子模块发送的中间光流信息，并将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图。

其中，第四特征图的生成过程与第三特征图的生成过程类似，还可包括如下融合方式：可先从原始光流信息和/或中间光流信息中学习得到残差光流特征，然后根据残差光流特征分别生成原始光流特征和中间光流特征，再根据原始光流特征和中间光流特征进行拼接或拼接后卷积得到待与第二特征图进行拼接的第四特征图，除此之外，也可采用各种方案实现原始光流信息和中间光流信息的融合，在此不再赘述。而且，可选的，进一步，第二特征图和第四特征图进行拼接后，可执行光流预测网络后续的操作，例如反卷积操作。

S250、根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息。

本发明实施例的技术方案，深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块，由此，经由各个子模块和各个网络相互配合，可将从深度预测网络中提取出的原始深度信息和从光流预测网络中经由深度光流信息交互模块转换而来的中间深度信息进行融合以生成第三特征图，这融合了原始光流信息的第三特征图和深度预测网络中的第一特征图进行拼接后，可实现深度预测和光流预测的联合优化；第四特征图的生成过程类似，将融合了原始深度信息的第四特征图和光流预测网络中的第二特征图进行拼接后，亦可实现深度预测和光流预测的联合优化。

一种可选的技术方案，将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图，具体可以包括：分别得到原始光流信息的原始光流特征图以及中间光流信息的中间光流特征图，并将原始光流特征图和中间光流特征图进行融合，得到待与第二特征图进行拼接的第四特征图。其中，原始光流特征图可补偿学习原始光流信息时的误差，中间光流特征图可补偿学习中间光流信息时的误差；然后，可将原始光流特征图和中间光流特征图进行融合，比如，可将二者拼接在一起后再经过一层卷积，得到光流信息交互后的精度更高的第四特征图；又如，直接将两者拼接后得到第四特征图，可采用各种方案实现原始光流特征图和中间光流特征图的融合，在此不进行限定。第四特征图可作为光流信息交互子模块的输出。

示例性的，得到原始光流信息的原始光流特征图，具体可以包括：根据深度光流信息交互模块的尺度信息对参考图像和相邻图像进行缩放，分别得到参考缩放图像和相邻缩放图像；根据原始光流信息将相邻缩放图像投影到参考缩放图像上，并将投影结果和参考缩放图像进行融合以得到残差光流特征图；对残差光流特征图和原始光流信息进行融合以得到原始光流信息的原始光流特征图。其中，若尺度信息是n，则可将参考图像和相邻图像除n以实现成倍缩放，n可以是8、4、2等等。为了更加清楚地理解上述步骤，下面以图6为例，对上述步骤的具体实现过程进行说明。示例性的，先得到参考缩放图像和相邻缩放图像/>根据原始光流信息/>将相邻缩放图像/>投影(warp)到参考缩放图像/>得到第一投影图像/>此时，如果原始光流信息/>足够准确，那么第一投影图像和参考缩放图像/>中相应像素点的数值基本一致；进一步，可将第一投影图像和参考缩放图像/>进行融合以得到残差光流特征图，例如将第一投影图像和参考缩放图像/>拼接在一起后，可经过三个卷积层以得到残差光流特征图，这样可以补偿学习原始光流信息时的误差。相应的，对于原始光流信息/>也可经由三个卷积层来学习原始光流信息，并将卷积结果和残差光流特征图进行融合以得到原始光流信息的原始光流特征图，例如将原始光流信息/>的卷积结果和残差光流特征图拼接在一起，再经过一层卷积后可得到原始光流信息/>的原始光流特征图。上述原始光流特征图获取过程中的卷积层个数不进行限定，可以是一层也可以是多层。

类似的，针对根据原始深度信息计算得到的中间光流信息/>亦可采用类似的步骤得到中间光流信息的/>的中间光流特征图。以图6为例，示例性的，根据中间光流信息/>将相邻缩放图像/>投影(warp)到参考缩放图像/>得到第二投影图像进一步，可将第二投影图像/>和参考缩放图像/>进行融合以得到残差光流特征图，例如将第二投影图像/>和参考缩放图像/>拼接在一起后，可经过三个卷积层以得到残差光流特征图，这样可以补偿学习中间光流信息时的误差。相应的，对于中间光流信息/>也可经由三个卷积层来学习中间光流信息，并将卷积结果和残差光流特征图进行融合以得到中间光流信息的中间光流特征图，例如将中间光流信息/>的卷积结果和和残差光流特征图拼接在一起，再经过一层卷积后可得到中间光流信息/>的中间光流特征图。上述中间光流特征图获取过程中的卷积层个数不进行限定，可以是一层也可以是多层。

在上述技术方案的基础上，可选的，经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，具体可以包括：对中间深度信息进行卷积得到第五特征图，并将第五特征图和深度预测网络中的第六特征图进行融合以得到第一特征图；经由深度信息交互子模块提取第一特征图的原始深度信息。其中，在实际应用中，可先执行光流预测网络中的各个步骤，再根据原始光流信息得到中间深度信息后，可对中间深度信息进行卷积得到第五特征图，并将第五特征图和深度预测网络中的第六特征图进行融合，比如，可将第五特征图和第六特征图进行拼接，并对拼接结果进行卷积和/或反卷积操作等等以得到第一特征图，这样一来，第一特征图中的原始深度信息是融合了原始光流信息的深度信息，这再次增强了深度预测和光流预测的联合优化的效果。

实施例三

图7是本发明实施例三中提供的一种基于单目相机的深度光流预测方法的流程图。本实施例以实施例二为基础进行优化。在本实施例中，可选的，相邻图像的数量是至少两个，提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息，具体可以包括：分别提取光流预测网络中各个第二特征图的原始光流信息，并根据各个原始光流信息以及参考图像到各个相邻图像的位姿，建立线性方程组以生成中间深度信息。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图7，本实施例的方法具体可以包括如下步骤：

S310、获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中，其中，深度光流预测模型包括深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块，深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块，相邻图像的数量是至少两个。

其中，为实现多视角图像{I_ref,I_nei,1,I_nei,2…,I_nei,N}的处理，即一帧参考图像和至少两帧相邻图像的处理，在一些实施例中，深度光流预测网络包括一个深度预测网络和多个光流预测网络，此时，一个光流预测网络输入一组参考图像和对应的相邻图像，那么，多个光流预测网络分别输入多组参考图像和对应的相邻图像，其中，多个光流预测网络的参数可以相同或不同。在另一些实施例中，深度光流预测网络包括一个深度预测网络和一个光流预测网络，该一个光流预测网络输入多组参考图像和对应的相邻图像，此时，该光流预测网络可重复利用多次，该光流预测网络参数不变。

S320、经由光流信息交互子模块分别提取光流预测网络中各个第二特征图的原始光流信息，并根据各个原始光流信息以及参考图像到各个相邻图像的位姿，建立线性方程组以生成中间深度信息，并经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，并根据原始深度信息和参考图像到各个相邻图像的位姿，生成各个中间光流信息。

其中，在深度光流信息交互模块中，可经由光流信息交互子模块分别提取出光流预测网络中各个第二特征图的原始光流信息，这各个第二特征图可以来源于同一光流预测网络，也可以来源于不同的光流预测网络，在此未做具体限定。在从第二特征图中提取出原始光流信息后，针对每个原始光流信息，可根据与其对应的参考图像到相邻图像的位姿建立线性方程组，即合并各个原始光流信息中全部的匹配像素点，并利用最小二乘回归得到一个最佳拟合全部匹配点的中间深度信息。示例性的，以各个第二特征图来源于不同的光流预测网络为例，如图8所示，光流预测网络的数量是3个，则经由光流信息交互子模块可分别提取出原始光流信息A、原始光流信息B和原始光流信息C，根据这三个原始光流信息以及与原始光流信息A对应的参考图像到对应相邻图像的位姿A、与原始光流信息B对应的位姿B和与原始光流信息C对应的位姿C，可建立线性方程组以生成中间深度信息，也就是说，根据3个原始光流信息和3个位姿生成1个中间深度信息，即从多视角预测深度。

进一步，一个原始深度信息和多个参考图像到相邻图像的位姿T_ref,nei，利用3D-2D投影可分别计算出与各个相邻图像对应的中间光流信息，也就是说，根据1个原始深度信息和1个参考图像到对应相邻图像的位姿可生成1个中间光流信息，则根据1个原始深度信息和多个参考图像到对应相邻图像的位姿可生成多个中间光流信息。

S330、再经由深度信息交互子模块接收光流信息交互子模块发送的中间深度信息，并将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图。

S340、再经由光流信息交互子模块接收深度信息交互子模块发送的各个中间光流信息，并将各个原始光流信息和对应的中间光流信息进行融合以得到各个待与对应的第二特征图进行拼接的第四特征图。

其中，中间光流信息的数量可能与光流预测网络的数量相一致，也可能与一个光流预测网络的重复利用次数相一致，在将原始光流信息与对应的中间光流信息进行融合后，可得到对应的第四特征图。示例性的，以中间光流信息的数量与光流预测网络的数量相一致为例，如图8所示，根据原始深度信息和位姿A可得到中间光流信息A，根据原始深度信息和位姿B可得到中间光流信息B，且根据原始深度信息和位姿C可得到中间光流信息C；进一步，将原始光流信息A和中间光流信息A进行融合可得到待与第二特征图2A进行拼接的第四特征图4A，其中，原始光流信息A就是从第二特征图2A中提取出来的；将原始光流信息B和中间光流信息B进行融合可得到待与第二特征图2B进行拼接的第四特征图4B，其中，原始光流信息B就是从第二特征图2B中提取出来的……以此类推。

S350、根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到各个相邻图像的目标光流信息。

本发明实施例的技术方案，相邻图像的数量是至少两个，在经由光流信息交互子模块从光流预测网络的多个第二特征图中提取出多个原始光流信息后，可根据各个原始光流信息以及对应的参考图像到各个相邻图像的位姿，建立线性方程组以生成一个中间深度信息，实现了由一个相邻图像到多个相邻图像的扩展，这可以节省运算时间并避免重新训练网络参数。

在此基础上，可选的，根据各个原始光流信息以及参考图像到各个相邻图像的位姿，建立线性方程组以生成中间深度信息的实现过程可以是：由于原始光流信息可呈现出像素坐标的移动信息，则根据参考图像和多个原始光流信息，可以计算出参考图像中某一像素点在多个相邻图像中分别匹配的像素点，由此可获得多个匹配对，比如，针对参考图像中的某一像素点X，根据参考图像以及分别与多个相邻图像对应的多个原始光流信息，可计算出多个相邻图像上匹配的像素点如X₁、X₂…X_N，由此可建立线性方称组，求解出像素点X对应的中间深度信息。也就是说，在根据多个原始光流信息估计出一个中间深度信息时，无需原始深度信息的参与，仅是根据多个原始光流信息和多个相应位姿建立线性方程组，即可生成一个中间深度信息。下面以3个光流预测网络或是1个光流预测网络重复利用3次为例，详细说明多视角深度估计的工作流程：

dx＝TP (4)

d是参考图像中某一像素点的原始深度信息，x表示该像素点的像素归一化平面齐次坐标[u，v，1]，T表示单目相机位姿(用[R|t]表示)，R对应于旋转矩阵，t对应于平移向量，P表示世界坐标系下3D点的齐次坐标[X，Y，Z，1]。

对公式(4)进行转换dx^x＝x^TP,

其中根据矩阵运算有x^x＝0。得到x^TP＝0(5)，将该式根据矩阵乘法展开并化简得/>其中[u，v，1]为该像素点的像素归一化平面齐次坐标，T₁,T₂,T₃分别是上述单目相机位姿的三个行向量。式子(5)和式子(6)表示了一帧图像上像素归一化平面齐次坐标、相机位姿和3D坐标(深度信息)三者的约束。

当有两帧图像(即参考图像和相邻图像)时，式子(6)可扩展为：其中[u，v，1]为参考图像上某一像素点的像素归一化平面齐次坐标，[u’，v’，1]为相邻图像上根据原始光流信息计算得到的匹配点的像素归一化平面齐次坐标，T₁,T₂,T₃和T′₁,T′₂,T′₃分别是参考图像和相邻图像的单目相机位姿的三个行向量。据式子(7)可以根据两帧图像的光流和位姿求解出参考图像的中间深度信息。/>

当有多帧图像(即参考图像和多帧相邻图像)时，式子(7)可扩展为：

这里以两帧相邻图像为例，[u，v，1]为参考图像上像素归一化平面齐次坐标，[u’，v’，1]，[u”，v”，1]分别为两个相邻图像上对应匹配点的像素归一化平面齐次坐标，T₁,T₂,T₃和T＇₁,T′₂,T′₃以及T″₁,T″₂,T″₃分别是参考图像和两个相邻图像的单目相机位姿的三个行向量。据式子(8)可以根据参考图像到两个相邻图像的原始光流信息以及每一帧的单目相机位姿，求解出中间深度信息。类似的，当相邻图像的数量增加时，式子(8)可以继续扩展，扩展方式类似。

实施例四

图9是本发明实施例四提供的基于单目相机的深度光流预测装置的结构框图，该装置用于执行上述任意实施例所提供的基于单目相机的深度光流预测方法。该装置与上述各实施例的基于单目相机的深度光流预测方法属于同一个发明构思，在基于单目相机的深度光流预测装置的实施例中未详尽描述的细节内容，可以参考上述基于单目相机的深度光流预测方法的实施例。参见图9，该装置具体可包括：输入模块410和预测模块420。

其中，输入模块410，用于获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中；

预测模块420，用于根据深度光流预测模型的输出结果，分别预测出参考图像的目标深度信息和参考图像到相邻图像的目标光流信息；

可选的，在此基础上，该装置还可包括：

训练样本获取模块，用于获取历史参考图像和历史参考图像的历史深度信息，以及，历史参考图像的历史相邻图像和历史参考图像到历史相邻图像的历史光流信息，并将历史参考图像、历史相邻图像、历史深度信息和历史光流信息作为一组训练样本；

深度光流预测模型生成模块，用于构建初始深度光流预测模型，并基于多个训练样本对初始深度光流预测模型进行训练，生成深度光流预测模型。

在此基础上，该装置还可包括：

中间深度信息生成模块，用于经由光流信息交互子模块提取光流预测网络中第二特征图的原始光流信息，并根据原始光流信息和参考图像到相邻图像的位姿，生成中间深度信息；

中间光流信息生成模块，用于经由深度信息交互子模块提取深度预测网络中第一特征图的原始深度信息，根据原始深度信息和位姿，生成中间光流信息；

第三特征图确定模块，用于再经由深度信息交互子模块接收光流信息交互子模块发送的中间深度信息，并将原始深度信息和中间深度信息进行融合以得到待与第一特征图进行拼接的第三特征图；

第四特征图确定模块，用于再经由光流信息交互子模块接收深度信息交互子模块发送的中间光流信息，并将原始光流信息和中间光流信息进行融合以得到待与第二特征图进行拼接的第四特征图。

可选的，第四特征图确定模块，具体可以包括：

第四特征图确定单元，用于分别得到原始光流信息的原始光流特征图以及中间光流信息的中间光流特征图，并将原始光流特征图和中间光流特征图进行融合，得到待与第二特征图进行拼接的第四特征图。

可选的，第四特征图确定单元，具体可以用于：

可选的，中间光流信息生成模块，具体可以用于：

经由深度信息交互子模块提取第一特征图的原始深度信息。

可选的，光流预测网络包括关联层，在此基础上，该装置还可包括：

关联特征图确定模块，用于针对从参考图像中提取出的第七特征图和从相邻图像中提取出的第八特征图，经由关联层基于预设点积运算确定第七特征图和第八特征图中对应像素点的匹配关系，得到关联特征图。

可选的，极线层可通过如下模块输出极线特征图：

极线特征图输出模块，用于获取第七特征图中参考像素点在第八特征图上的极线，以及，参考像素点在第八特征图上对应的相邻区域中各个相邻像素点，并计算各个相邻像素点到极线的距离，以得到极线特征图。

可选的，极线特征图输出模块，具体可以包括：

距离计算单元，用于计算各个相邻像素点到极线的距离，并基于预设高斯分布对距离进行变换，以得到极线特征图。

可选的，相邻图像的数量是至少两个；

在此基础上，中间深度信息生成模块，具体可用于：

本发明实施例四提供的基于单目相机的深度光流预测装置，通过输入模块和预测模块相互配合，可获取参考图像和相邻图像，并将参考图像和相邻图像输入至已训练完成的深度光流预测模型中，深度光流预测模型因具有深度预测网络、光流预测网络以及分别与深度预测网络和光流预测网络连接的深度光流信息交互模块，可分别预测出参考图像的稠密的目标深度信息以及参考图像到相邻图像的目标光流信息。上述装置，通过联合优化深度预测和光流预测的方式，可显著提高二者的预测精度和预测实时性，达到了高效率高精度的深度预测和光流预测的效果。

本发明实施例所提供的基于单目相机的深度光流预测装置可执行本发明任意实施例所提供的基于单目相机的深度光流预测方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述基于单目相机的深度光流预测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

图10为本发明实施例五提供的一种设备的结构示意图，如图10所示，该设备包括存储器510、处理器520、输入装置530和输出装置540。设备中的处理器520的数量可以是一个或多个，图10中以一个处理器520为例；设备中的存储器510、处理器520、输入装置530和输出装置540可以通过总线或其它方式连接，图10中以通过总线550连接为例。

存储器510作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于单目相机的深度光流预测方法对应的程序指令/模块(例如，基于单目相机的深度光流预测装置中的输入模块410和预测模块420)。处理器520通过运行存储在存储器510中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于单目相机的深度光流预测方法。

存储器510可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器510可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器510可进一步包括相对于处理器520远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

本发明实施例六提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于单目相机的深度光流预测方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于单目相机的深度光流预测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于单目相机的深度光流预测方法，其特征在于，包括：

获取参考图像和相邻图像，并将所述参考图像和所述相邻图像输入至已训练完成的深度光流预测模型中；

根据所述深度光流预测模型的输出结果，分别预测出所述参考图像的目标深度信息和所述参考图像到所述相邻图像的目标光流信息；

其中，所述深度光流预测模型包括深度预测网络、光流预测网络以及分别与所述深度预测网络和所述光流预测网络连接的深度光流信息交互模块；

其中，所述深度光流预测模型通过如下步骤获得：

获取历史参考图像和所述历史参考图像的历史深度信息，以及，所述历史参考图像的历史相邻图像和所述历史参考图像到所述历史相邻图像的历史光流信息，并将所述历史参考图像、所述历史相邻图像、所述历史深度信息和所述历史光流信息作为一组训练样本；

构建初始深度光流预测模型，并基于多个所述训练样本对所述初始深度光流预测模型进行训练，生成所述深度光流预测模型；

所述深度光流信息交互模块包括与所述深度预测网络连接的深度信息交互子模块和与所述光流预测网络连接的光流信息交互子模块；

在所述将所述参考图像和所述相邻图像输入至已训练完成的深度光流预测模型中之后，还包括：

经由所述光流信息交互子模块提取所述光流预测网络中第二特征图的原始光流信息，并根据所述原始光流信息和所述参考图像到所述相邻图像的位姿，生成中间深度信息；

经由所述深度信息交互子模块提取所述深度预测网络中第一特征图的原始深度信息，并根据所述原始深度信息和所述位姿，生成中间光流信息；

再经由所述深度信息交互子模块接收所述光流信息交互子模块发送的所述中间深度信息，并将所述原始深度信息和所述中间深度信息进行融合以得到待与所述第一特征图进行拼接的第三特征图；

再经由所述光流信息交互子模块接收所述深度信息交互子模块发送的所述中间光流信息，并将所述原始光流信息和所述中间光流信息进行融合以得到待与所述第二特征图进行拼接的第四特征图。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始光流信息和所述中间光流信息进行融合以得到待与所述第二特征图进行拼接的第四特征图，包括：

分别得到所述原始光流信息的原始光流特征图以及所述中间光流信息的中间光流特征图，并将所述原始光流特征图和所述中间光流特征图进行融合，得到待与所述第二特征图进行拼接的第四特征图。

3.根据权利要求2所述的方法，其特征在于，所述得到所述原始光流信息的原始光流特征图，包括：

根据所述深度光流信息交互模块的尺度信息对所述参考图像和所述相邻图像进行缩放，分别得到参考缩放图像和相邻缩放图像；

根据所述原始光流信息将所述相邻缩放图像投影到所述参考缩放图像上，并将投影结果和所述参考缩放图像进行融合以得到残差光流特征图；

对所述残差光流特征图和所述原始光流信息进行融合以得到所述原始光流信息的原始光流特征图。

4.根据权利要求1所述的方法，其特征在于，经由所述深度信息交互子模块提取所述深度预测网络中第一特征图的原始深度信息，包括：

对所述中间深度信息进行卷积得到第五特征图，并将所述第五特征图和所述深度预测网络中的第六特征图进行融合以得到第一特征图；

经由所述深度信息交互子模块提取所述第一特征图的原始深度信息。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述光流预测网络包括关联层，在所述将所述参考图像和所述相邻图像输入至已训练完成的深度光流预测模型中之后，还包括：

针对从所述参考图像中提取出的第七特征图和从所述相邻图像中提取出的第八特征图，经由所述关联层基于预设点积运算确定所述第七特征图和所述第八特征图中对应像素点的匹配关系，得到关联特征图。

6.根据权利要求5所述的方法，其特征在于，所述光流预测网络还包括极线层，所述极线层输出的极线特征图与所述关联特征图相融合。

7.根据权利要求6所述的方法，其特征在于，所述极线层通过如下步骤输出所述极线特征图：

获取所述第七特征图中参考像素点在所述第八特征图上的极线，以及，所述参考像素点在所述第八特征图上对应的相邻区域中各个相邻像素点；

计算所述各个相邻像素点到所述极线的距离，以得到所述极线特征图。

8.根据权利要求7所述的方法，其特征在于，所述计算所述各个相邻像素点到所述极线的距离，以得到所述极线特征图，包括：

计算所述各个相邻像素点到所述极线的距离，并基于预设高斯分布对所述距离进行变换，以得到所述极线特征图。

9.根据权利要求1至4中任一项所述的方法，其特征在于，所述相邻图像的数量是至少两个；

所述提取所述光流预测网络中第二特征图的原始光流信息，并根据所述原始光流信息和所述参考图像到所述相邻图像的位姿，生成中间深度信息，包括：

分别提取所述光流预测网络中各个第二特征图的原始光流信息，并根据各个所述原始光流信息以及所述参考图像到各个所述相邻图像的位姿，建立线性方程组以生成中间深度信息。

10.根据权利要求1所述的方法，其特征在于，所述参考图像和所述相邻图像的重叠率在预设重叠范围内，和/或，所述参考图像和所述相邻图像的基线距离在预设距离范围内。

11.根据权利要求1至4中任一项所述的方法，其特征在于，所述深度预测网络和/或所述光流预测网络包括：卷积层和反卷积层。

12.根据权利要求1至4中任一项所述的方法，其特征在于，所述深度光流信息交互模块的数量是一个或多个，且当所述深度光流信息交互模块的数量是多个时，各所述深度光流信息交互模块的尺度信息互不相同。

13.一种基于单目相机的深度光流预测装置，其特征在于，包括：

输入模块，用于获取参考图像和相邻图像，并将所述参考图像和所述相邻图像输入至已训练完成的深度光流预测模型中；

预测模块，用于根据所述深度光流预测模型的输出结果，分别预测出所述参考图像的目标深度信息和所述参考图像到所述相邻图像的目标光流信息；

深度光流预测模型生成模块，用于构建初始深度光流预测模型，并基于多个训练样本对初始深度光流预测模型进行训练，生成深度光流预测模型；

所述深度光流信息交互模块包括与深度预测网络连接的深度信息交互子模块和与光流预测网络连接的光流信息交互子模块；

14.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的基于单目相机的深度光流预测方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的基于单目相机的深度光流预测方法。