CN111626308A

CN111626308A - 一种基于轻量卷积神经网络的实时光流估计方法

Info

Publication number: CN111626308A
Application number: CN202010322368.5A
Authority: CN
Inventors: 孔令通; 杨杰; 黄晓霖
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-09-04
Anticipated expiration: 2040-04-22
Also published as: CN111626308B

Abstract

本发明公开了一种基于轻量卷积神经网络的实时光流估计方法，包括：给定相邻两帧图像，构建参数共享的多尺度特征金字塔；在构建的特征金字塔的基础上，采用反卷积操作构建第一帧图像U型网络结构进行多尺度信息融合；初始化最低分辨率光流场为零，第二低分辨率估计的光流被上采样后，对第二帧匹配特征进行基于双线性采样的变形操作；对第一帧的特征及第二帧变形后的特征进行基于内积的局部相似性计算，构建匹配代价，并进行代价聚合；将多尺度特征、上采样的光流场及代价聚合后的匹配代价特征作为光流回归网络的输入，估计该分辨率下的光流场；重复，直至估计出最高分辨率下的光流场。通过本发明，对光流估计更准确，模型轻量高效，实时快速。

Description

一种基于轻量卷积神经网络的实时光流估计方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于轻量卷积神经网络的实时光流估计方法。

背景技术

光流估计是计算机视觉中一个基础性的研究任务，它是连接图像与视频的桥梁与纽带。其核心思想是给定前后两帧图像，估计出逐像素的对应关系。这也可以近似理解为3D物体在2D图像平面上的投影运动场。光流法在行为理解、视频处理、运动预测、多视角3D重建、自动驾驶、即时定位与地图构建(SLAM)中均发挥着重要作用。因此，在计算机视觉领域如何准确快速地估计光流(尤其是稠密光流)则尤为重要。

传统光流估计方法基于亮度一致性假设，引入局部平滑等先验知识，通过构建能量函数与正则化约束条件，使用变分优化策略进行求解。其缺点是运行速度缓慢，针对大位移情况估计效果不佳。

基于块匹配的方法可以先得到图像中非遮挡区域的稀疏光流，再通过插值算法填充缺失部分并构建稠密光流。其缺点是非参块匹配算法中涉及随机初始化与随机搜索算法，其结果依赖于随机初始值，稳定性不高。而且大量搜索匹配操作增加了时间开销。

现有基于深度学习的方法均构建图像金字塔或单一特征金字塔，本方法通过构建U型网络结构，融合多尺度特征，使得匹配特征具有全局意识，提高了算法的鲁棒性。现有深度学习方法中将匹配代价直接作为光流回归网络输入，但它与同时输入的前级上采样光流场特征的动态范围不一致，这导致了性能下降。

申请号为：201710731234.7，题目为：一种稠密光流估计方法及装置的中国发明专利公开了一种稠密光流估计方法及装置，该方法通过Lucas-Kanade算法提取稀疏光流后使用卷积神经网络回归稠密光流场。然而其仍然依赖于传统方法，不能够实时快速进行推断。

因此，急需提供一种轻量高效、实时快速的卷积神经网络进行全场景稠密光流估计。

发明内容

本发明针对上述现有技术中存在的问题，提出一种基于轻量卷积神经网络的实时光流估计方法，在匹配代价后进行代价聚合，净化匹配代价的同时调整了输出的动态范围，提升了网络性能，在参数量、推断速度以及模型精度上都超过了现有的深度学习方法。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种基于轻量卷积神经网络的实时光流估计方法，其包括以下步骤：

S11：给定相邻两帧图像，使用参数共享的卷积神经网络提取层级图像特征构建第一帧特征金字塔以及第二帧特征金字塔；

S12：在所述S11构建的特征金字塔的基础上，采用反卷积操作构建第一帧图像U型网络结构进行多尺度信息融合，得到多尺度特征；

S13：初始化最低分辨率光流场为零，第二低分辨率估计的光流场被上采样后，对第二帧匹配特征进行基于双线性采样的变形操作；

S14：对所述第一帧特征金字塔的特征以及所述S13得到的第二帧变形后的特征进行基于内积的局部相似性计算，构建匹配代价，并进行代价聚合；

S15：将所述S12构建的多尺度特征、S13中上采样的光流场以及S14中代价聚合后的匹配代价特征作为光流回归网络的输入，估计该分辨率下的光流场；

S16：重复所述S13～S15，直至估计出最高分辨率下的光流场。

较佳地，所述S11具体包括：

给定相邻两帧输入图像I₁,I₂，由金字塔网络提取多尺度图像特征，构建第一帧特征金字塔以及第二帧特征金字塔：

其中：

为第k层级下的第一帧图像特征，

为第k层级下的第二帧图像特征，k表示尺度层级，k＝1,2,…,6。其中1表示1/2原始分辨率，6表示1/64原始分辨率。

较佳地，所述S12具体包括：

针对所述第一帧特征金字塔，将第k+1层级的金字塔特征

通过反卷积操作，上采样到第k层级的空间分辨率，并与第k层级的原始金字塔特征

进行级联卷积，以获取融合多尺度信息的第k层级语义特征

较佳地，所述S13具体包括：

将第k+1层级估计的光流场flow^k+1进行2倍空间上采样，得到第k层级的初始光流Up₂(flow^k+1)，使用Up₂(flow^k+1)对第二帧图像的第k层级的金字塔特征

进行基于双线性采样的变形操作，得到变形后的目标特征

较佳地，所述S14具体包括：

S141：计算匹配代价：

其中，·表示内积，x表示第一帧特征的二维空间位置坐标，d表示x处的搜索偏移量二维坐标，搜索半径为R，则d∈{-(2R+1)，…，2R+1}×{-(2R+1)，…，2R+1}的正方形区域；

S142：对匹配代价c^k(x,d)进行一个3×3的卷积操作，得到代价聚合后的匹配代价特征

相较于现有技术，本发明具有以下优点：

(1)本发明提供的基于轻量卷积神经网络的实时光流估计方法，通过S12中进行多尺度信息融合，得到多尺度特征，相比于传统的只构建图像或单一特征金字塔，融合特征金字塔更具有表达能力；既考虑了低纹理信息又考虑了多尺度语义信息，能够准确地估计全场景稠密光流场；

(2)本发明的提供的基于轻量卷积神经网络的实时光流估计方法，通过S13中由粗到精，对第二帧匹配特征进行基于双线性采样的变形操作，可以缩短大幅运动的空间距离，缓解大幅度运动带来的挑战，便于残差估计；；

(3)本发明的提供的基于轻量卷积神经网络的实时光流估计方法，通过S14中的代价聚合，相比于以往策略，代价聚合聚成使得原始基于内积的匹配代价具有一定的适应性，这使得网络性能得到提升；

(4)本发明的提供的基于轻量卷积神经网络的实时光流估计方法，通过S15中级联多种信息作为光流回归网络的输入，与以往不同，语义信息并非由原始金字塔特征提供而是由融合后的多尺度特征提供，这有利于提升网络的全局感受视野，减少误匹配。此外，使用代价聚合后的特征取代原始匹配代价作为输入，有利于加速网络收敛并提高模型精度；

(5)本发明的提供的基于轻量卷积神经网络的实时光流估计方法，通过S16中光流估计采用由粗到精的金字塔估计方法，具体表现为，大幅度运动在低分辨率金字塔中相对位移较小，这有利于减少匹配时的搜索半径R，因此，相对以往方法，本方法具有估计动态范围大，推断速度快的优点。；

(6)本发明的提供的基于轻量卷积神经网络的实时光流估计方法，所提出的模型轻量高效、实时快速，能够部署在移动计算设备中，实用性强。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明的一实施例的基于轻量卷积神经网络的实时光流估计方法的流程图；

图2为本发明的一实施例的基于轻量卷积神经网络的实时光流估计方法的网络结构图；

图3a为本发明一实施例的第一帧图像图；

图3b为本发明一实施例的第二帧图像图

图3c为采用本发明一实施例的方法对图3a、3b进行实时光流估计得到的稠密光流估计结果；

图4a为本发明另一实施例的第一帧图像图；

图4b为本发明另一实施例的第二帧图像图

图4c为采用本发明一实施例的方法对图4a、4b进行实时光流估计得到的稠密光流估计结果；

图5a为本发明另一实施例的第一帧图像图；

图5b为本发明另一实施例的第二帧图像图

图5c为采用本发明一实施例的方法对图5a、5b进行实时光流估计得到的稠密光流估计结果；

图6a为本发明另一实施例的第一帧图像图；

图6b为本发明另一实施例的第二帧图像图

图6c为采用本发明一实施例的方法对图6a、6b进行实时光流估计得到的稠密光流估计结果；

图7a为本发明另一实施例的第一帧图像图；

图7b为本发明另一实施例的第二帧图像图

图7c为采用本发明一实施例的方法对图7a、7b进行实时光流估计得到的稠密光流估计结果；

图8为本发明的方法与现有深度模型在参数量以及推断速度上的比较结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示为本发明一实施例的基于轻量卷积神经网络的实时光流估计方法的流程图。

请参考图1，本实施例的基于轻量卷积神经网络的实时光流估计方法包括以下步骤：

S12：在S11构建的特征金字塔的基础上，采用反卷积操作构建第一帧图像U型网络结构进行多尺度信息融合，得到多尺度特征；

S14：对第一帧特征金字塔的特征以及S13得到的第二帧变形后的特征进行基于内积的局部相似性计算，构建匹配代价，并进行代价聚合；

S15：将S12构建的多尺度特征、S13中上采样的光流场以及S14中代价聚合后的匹配代价特征作为光流回归网络的输入，估计该分辨率下的光流场；

S16：重复S13～S15，直至估计出最高分辨率下的光流场。

一实施例中，S11具体包括：

给定相邻两帧输入图像I₁，I₂，由金字塔网络提取多尺度图像特征，构建第一帧特征金字塔以及第二帧特征金字塔：

其中：

为第k层级下的第一帧图像特征，

为第k层级下的第二帧图像特征，k表示尺度层级，k＝1，2，…，6。其中1表示1/2原始分辨率，6表示1/64原始分辨率。

S12具体包括：

针对第一帧特征金字塔，将第k+1层级的金字塔特征

进行级联卷积，以获取融合多尺度信息的第k层级语义特征

S13具体包括：

进行基于双线性采样的变形操作，得到变形后的目标特征

S14具体包括：

S141：计算匹配代价：

其中，·表示内积，x表示第一帧特征的二维空间位置坐标，d表示x处的搜索偏移量二维坐标，搜索半径为R，则d∈{-(2R+1),…,2R+1}×{-(2R+1),…,2R+1}的正方形区域；

一具体实例中，首先使用任意一种深度学习框架构建如图2所示的光流网络结构。如：可以采用PyTorch框架实现所提出的网络结构。

然后，构建如图1所示的前向传播算法，训练阶段网络输出1/4，1/8，1/16，1/32，1/64共5个层级分辨率的光流场，采用如下多尺度损失函数进行端到端的训练：

其中α₆＝0.32,α₅＝0.08,α₄＝0.02,α₃＝0.01,α₂＝0.005为各个层级之间损失函数的加权系数。flow^l(x)表示第l层级网络估计的光流场，

表示真实光流下采样到相应层级分辨率的有监督信号，||₂表示2范数。

接着，使用FlyingChairs，FlyingThings3D合成数据集对所提出模型使用第二步多尺度损失函数进行有监督训练。在FlyingChairs训练阶段，初始学习率设置为lr＝1e-4，共进行600k次迭代，之后在第300k，400k，500k迭代次数处衰减为先前学习率的一半。接下来将模型在FlyingThings3D数据集上进行fine-tune，初始学习率设置为lr＝1e-5，共进行500k次迭代，在第200k，300k，400k迭代次数处衰减为先前学习率的一半。经过这两个阶段的训练，所提出模型可以在其他合成或真实场景数据集中进行fine-tune，并最终部署使用。训练过程中使用随机镜像、随机旋转、随机缩放、随机颜色抖动、随机切片等多种数据扩增方式。

最后，在模型训练好进行实际使用时，采用5个层级中分辨率最高一级(1/4分辨率)的光流场进行上采样，得到原始输入图像分辨率的光流场，作为网络最终估计结果。

下面通过实验对本发明实施例的效果进行进一步说明。

1、实验条件

本实验采用MPI Sintel，KITTI标准测试视频图像序列作为实验数据。实验设备具有一块Intel Core i7-6700 CPU以及单张NVIDIA GTX1080Ti GPU，实验环境为PyTorch-0.4.0。

2、实验内容

本发明从定性和定量两个角度对所提出的稠密光流估计方法进行验证。

2.1定性实验结果

本发明从计算机合成数据集MPI Sintel以及真实自动驾驶数据集KITTI中选取了5个有代表性的相邻帧测试图片序列3a-3b、4a-4b、5a-5b、6a-6b、7a-7b，包括柔性物体运动，以及大幅度刚体运动等测试场景，本方法的光流估计结果见图3c、4c、5c、6c、7c所示。

2.2定量实验结果

本发明采用MPI Sintel与KITTI测试数据集对估计稠密光流精度进行定量分析。所估计结果提交相关测试服务器进行评估。所比较的方法包括目前较优的FlowNetC，FlowNet2，LiteFlowNet与PWC-Net。评价指标包括平均终止点误差(Mean Average EndPoint Error，AEPE)和错误估计像素百分比(Fl)。其中正确估计像素定义为估计值与真实标记相差小于3个像素或差异距离小于真实标记幅度的5％。相关方法在测试数据集中的性能如表1所示，其中Fl-Noc表示未遮挡区域的Fl指标。

表1不同深度学习方法在Sintel、KITTI测试数据集中的比较

最好结果在表1中加粗表示，由此可知，本发明在多个数据集的不同测试基准中，光流估计平均精度超过目前大多数先进的方法。这说明了所提出的发明创新在多个不同的测试环境中均能够提升光流估计的精度，具有较好的场景泛化能力。如图8所示，本发明在相同测试环境下具有最快的推断速度，其在448x1024分辨率视频序列中可达63fps，这充分体现了本发明的高效实时性以及广阔的应用前景。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。