CN112465872A

CN112465872A - 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法

Info

Publication number: CN112465872A
Application number: CN202011454593.0A
Authority: CN
Inventors: 陈震; 何庭建; 张聪炫; 胡卫明; 黎明; 陈昊; 李凌
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09
Anticipated expiration: 2040-12-10
Also published as: CN112465872B

Abstract

本发明公开了一种基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法，首先输入图像序列中任意连续两帧图像，对其进行特征金字塔下采样分层，获得多分辨率两帧特征；在每层金字塔中计算第一帧特征和第二帧特征的相关度，利用相关度构建基于遮挡掩模模块；然后利用得到的遮挡掩模去除变形特征边缘伪影来优化图像运动边缘模糊的光流；并且使用遮挡约束后的光流构建二次变形优化模块，二次变形在亚像素级进一步优化图像运动边缘光流估计；在金字塔各层中对变形特征进行相同的遮挡掩模以及二次变形求取残差流来细化光流，在到达金字塔底层时，输出最终优化的光流估计。对于运动遮挡和大位移运动等图像序列具有更高的计算精度和更好的适用性。

Description

一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法

技术领域

本发明涉及图像序列处理技术，具体涉及一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法。

背景技术

光流是运动物体或场景表面像素点在投影平面的二维瞬时速度，利用图像序列中像素点在时间域上的变化，以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。通过图像序列光流估计可以很好地识别场景中物体的几何结构和运动信息。近年来，随着深度学习理论与技术的快速发展，卷积神经网络模型被广泛应用于光流估计技术研究，由于该类方法具有计算速度快、稳定性高等显著优点，因此光流估计逐渐成为图像处理和计算机视觉研究领域的热点。研究成果被广泛应用于目标检测、目标跟踪、动作识别、自动驾驶、三维重建等更高级视觉任务。

目前，基于深度学习的光流估计是图像序列光流计算技术研究中最常采用的一种方法，相比于传统基于数学推理提取特征匹配迭代最小化能量泛函的光流估计技术研究，该类方法能够更加高效、快速、准确地估计光流。但由于图像序列场景中物体存在运动遮挡或者大位移运动，使得光流估计技术依然存在运动边缘模糊和大位移运动造成运动信息缺失的问题，并且对于包含非刚性运动和大位移的图像序列鲁棒性较差，限制了基于深度学习的光流估计方法在各个领域的应用。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法，利用金字塔各层的可学习遮挡掩模和二次变形求取的残差流来精细化光流估计，以提高图像序列金字塔分层模型对于场景中运动物体边缘光流估计的准确性和鲁棒性。

为实现上述目的，本发明采用的技术方案是这样的。一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法，其步骤如下：

1)输入图像序列中的任意连续两帧图像；

2)对选择的两帧图像进行特征金字塔下采样分层，获取五层分辨率不同的两帧特征图；

3)先对金字塔最高层中的两帧图像特征计算相关度，然后输入到光流估计器中计算初始光流；

4)利用相关度构建可学习遮挡掩模优化模块，该模块中包含五个连续堆叠的卷积模块，每个卷积模块Conv包括一个3×3卷积、一个批量归一化处理和一个激活函数LeakyRelu，通过输入当前金字塔层中的相关度、光流、上下文特征和第一帧特征到可学习遮挡掩模模块中去，在经过连续的卷积层时，其特征通道数逐层递减，分别为128、96、64、32、1，其中最后一层没有激活函数，输出单通道遮挡掩模特征，计算公式如下：

式中：F_ⅰ ¹、F_ⅰ ²分别代表了第i＝{2,3,4,5,6}层第一帧和第二帧特征；其中x1、x2分别表示对应第一帧和第二帧特征像素点坐标；|d|≤4表示设置像素点最大位移为4个像素，计算匹配相关度时在第二帧特征中的目标搜索窗口大小为9×9；||·||表示在特征通道上求L2范数，对相关度进行归一化处理；·表示求两个特征的内积；corr表示计算两帧特征图之间的相关度；upflow_i+1表示金字塔上层光流以两倍系数上采样后的光流，并且光流大小随着特征尺度增大一倍其大小也要增大一倍；warp_i表示利用第i+1层光流上采样后对当前层第二帧特征变形，得到变形特征warpF_i ²，变形有助于减小特征空间的匹配距离，减弱像素点在帧间的形变和位移；corr_i表示第i层金字塔两帧特征图之间的相关度；cat表示多个特征在通道维度上级联，得到多尺度上下文级联特征x_i；estimationflow表示光流估计器；x表示连续堆叠卷积的上个卷积模块卷积后的特征；mask_i表示第i层遮挡掩模；

将上述得到的遮挡掩模特征mask_i上采样后经过激活函数，然后将其与下层金字塔变形特征在特征通道维度上作內积，由于去除变形特征边缘伪影的同时也掩模掉了一些有用的光流信息，需要加上包含这些缺失信息的反卷积后的上层金字塔级联特征来弥补掩模后特征缺失的光流信息，即可得到优化后的变形特征；多尺度上下文的遮挡掩模对第二帧变形特征的正则约束可以表示为：

式中：

表示利用遮挡掩模约束变形伪影后的特征；upmask_i+1表示以两倍系数上采样后的遮挡掩模；deconv表示反卷积上层金字塔上下文级联特征x_i+1；sigmoid表示激活函数，将遮挡掩模mask_i阈值到(0,1)之间，得到遮挡概率掩模；

5)为遮挡掩模模块输入当前金字塔层光流、相关度、上下文特征和第一帧特征的叠加，即得到遮挡掩模特征图；在遮挡掩模特征图中像素点的灰度值越低，该像素点趋向于第一帧存在而第二帧遮挡的状态；相反，在遮挡掩模特征图中，像素点的灰度值越高，该像素点趋向于第一帧中遮挡而在第二帧中出现的状态；通过可学习遮挡掩模对变形特征施加约束，抑制图像运动边缘模糊问题；

6)利用光流估计来构建二次变形优化模块；根据未变形特征或遮挡掩模后的变形特征与第一帧特征的相关度计算光流，利用上述光流对第二帧特征进行二次变形，将光流、变形特征和第一帧特征在特征维度上叠加，经过连续五层卷积模块，且连续卷积层的通道数逐层递减，分别为128、96、64、32、2，最后一层没有激活函数，输出两通道残差流；残差流和当前层光流之和是最终优化图像运动边缘和大位移运动的光流估计；其计算公式如下：

式中:flow_j表示利用遮挡掩模约束变形误差后的特征计算相关度，再经过光流计算层得到第j＝{2,3,4,5,6}层的光流估计；

表示使用第一次变形优化光流flow_j再次对第二帧特征进行二次变形后的特征；residualflow_j为第j层残差光流；feat_j为第j层上下文级联特征；finalflow_j为第j层预测光流；

7)为二次变形残差流优化模块输入第一帧特征、二次变形后特征和当前金字塔层光流的叠加，得到残差流；第一次变形是像素级光流估计，而二次变形是亚像素级光流估计，二次残差流包含丰富的运动目标的轮廓信息，有助于进一步补偿光流场，引导光流学习，优化图像运动边缘，减少特征空间的匹配距离，弥补因大位移运动所造成缺失的光流信息；

8)在金字塔各层中进行相同的遮挡掩模约束和二次变形计算残差流，将遮挡掩模正则后的光流与二次变形残差流之和，作为优化图像运动边缘后的光流估计finalflow_j；在到达金字塔底层时，输出最终图像序列运动边缘优化的稠密光流估计，从光流估计中得到物体丰富的运动信息和几何结构。

本发明基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法，采用可学习遮挡掩模去除运动遮挡造成变形图像的边缘伪影以及二次变形产生的残差流来修正图像运动边缘模糊和因大位移运动造成运动目标缺失的光流信息，该光流估计方法对于非刚性运动和大位移等图像序列具有更高的计算精度和更好的适用性，可以有效地应用到更多高级视觉任务中。

附图说明

图1是本发明实施例KITTI2015training图像序列第一帧图像；

图2是本发明实施例KITTI2015training图像序列第二帧图像；

图3是本发明实施例图像序列金字塔分层光流估计模型总体框架图；

图4是本发明实施例计算所得的KITTI2015training图像序列遮挡掩模特征图；

图5是本发明实施例计算所得的KITTI2015training图像序列二次变形估计的残差流图；

图6是本发明实施例计算所得的KITTI2015training图像序列最终优化图像运动边缘的光流图。

具体实施方式

下面结合附图，对本发明作进一步的说明。参看图1至图6所示，以下列举本发明的一个的实施例，基于可学习遮挡掩模和二次变形优化的图像序列光流计算方法，使用KITTI2015training图像序列光流计算实验进行说明：

它包含如下步骤：

一、输入KITTI2015training图像序列第一帧图像和KITTI2015training图像序列第二帧图像(如图1和图2所示)；

二、对输入的KITTI2015training图像序列进行特征金字塔下采样分层(如图3所示)，I_t指的是KITTI2015training图像序列第一帧图像，I_t+1指的是KITTI2015training图像序列第二帧图像；建立卷积神经网络特征金字塔，其中特征金字塔包括五个连续卷积模块，连续卷积层的通道数分别为128、128、128、64、64；将第一帧图像I_t和第二帧图像I_t+1级联后输入到特征金字塔中，对两帧图像进行金字塔特征提取，得到五层分辨率不同的两帧特征图，且金字塔下层特征图分辨率是上层特征图分辨率的两倍；

三、先对特征金字塔中最高层中的连续帧图像特征计算相关度，然后输入到光流估计器中计算初始光流(如图3所示)；

四、然后利用相关度构建可学习遮挡掩模估计模块(如图3虚线框所示)，该模块中遮挡掩模估计器包含五个连续堆叠的卷积模块，每个卷积模块包括一个3×3卷积、一个批量归一化处理和一个激活函数LeakyRelu；将当前金字塔层中的相关度、光流、上下文级联特征和第一帧特征在特征通道维度上叠加，然后输入到遮挡掩模估计器中的连续卷积层，且连续卷积层的特征通道数逐层递减，分别为128、96、64、32，1，最后一层没有激活函数，输出单通道遮挡掩模特征；计算公式如下：

式中：F_ⅰ ¹、F_ⅰ ²分别代表了第i＝{2,3,4,5,6}层第一帧和第二帧特征；其中x1、x2分别表示对应第一帧和第二帧特征像素点坐标；|d|≤4表示设置像素点最大位移为4个像素，计算匹配相关度时在第二帧的目标搜索窗口大小为9×9；||·||表示在特征通道上求L2范数，对相关度进行归一化处理；corr表示计算两帧特征图之间的相关度；upflow_i+1表示金字塔上层光流以两倍系数上采样后的光流，并且随着光流尺度的增大其矢量大小也要随之增大一倍；warp_i表示利用第i+1层光流上采样后对当前层第二帧特征变形，得到变形特征warpF_i ²，变形有助于减小特征空间的匹配距离，减弱像素点在帧间的形变和位移；corr_i表示第i层金字塔两帧特征图之间的相关度；cat表示多个特征在通道维度上级联，得到多尺度上下文级联特征x_i；estimationflow表示光流估计器；x表示连续堆叠卷积的上个卷积模块卷积后的特征；mask_i表示第i层遮挡掩模；

将上述得到的遮挡掩模特征mask_i上采样后经过激活函数，然后将其与下层金字塔变形特征在特征通道维度上作內积，由于去除变形特征边缘伪影的同时也掩模掉了一些有用的光流信息，需要加上包含这些缺失信息的反卷积后的上层金字塔级联特征来弥补掩模后特征缺失的光流信息，即可得到优化后的变形特征(如图3虚线框中遮挡掩模估计模块所示)；多尺度上下文的遮挡掩模对第二帧变形特征的正则约束可以表示为：

式中：

五、在每层金字塔都为可学习遮挡掩模估计模块输入当前金字塔层光流、特征图相关度、上下文级联特征和第一帧特征的叠加，每层金字塔都输出一个可学习遮挡掩模特征用来正则约束下层金字塔变形特征，不断优化光流误差；到达金字塔底层时，即得到KITTI2015training图像序列遮挡掩模特征图(如图4所示)；在遮挡掩模特征图中，像素点的灰度值越低，该像素点趋向于在第一帧存在而第二帧遮挡的状态；相反，在遮挡掩模特征图中，像素点的灰度值越高，该像素点趋向于在第一帧中遮挡而在第二帧中出现的状态；通过可学习遮挡掩模对变形特征施加约束，抑制光流估计图像运动边缘模糊的问题；

六、利用光流估计来构建二次变形残差流估计模块；该模块中的二次变形残差流估计器包含连续五层卷积模块，且连续卷积层的通道数逐层递减，分别为128、96、64、32、2，最后一层没有激活函数；第一个二次变形残差流估计模块(如图3左下方虚线框所示)，利用最顶层金字塔计算的初始光流直接经过特征变形器变形第二帧特征，然后将光流、变形特征和第一帧特征在特征通道维度上叠加后输入到二次变形残差流估计器中，得到一个残差流；残差流和初始光流之和，作为最顶层金字塔优化后的光流估计；再利用最顶层优化光流变形第二帧特征，输入到可学习遮挡掩模估计模块中去，得到正则约束后的变形特征；根据遮挡掩模后的变形特征与第一帧特征计算的相关度，输入到光流估计器中计算遮挡掩模约束优化后的光流，并且利用遮挡掩模约束优化后的光流再次对第二帧特征二次变形；将光流、变形特征和第一帧特征在特征通道维度上叠加，然后输入到第二个二次变形残差流估计模块(如图3右下方虚线框所示)中去，得到一个二次残差流；二次残差流与当前层光流之和，作为最终优化图像运动边缘和大位移运动的光流估计；其计算公式如下：

式中:flow_j表示利用遮挡掩模约束变形误差后的特征计算相关度，再将相关度输入到光流估计器中，得到第j＝{2,3,4,5,6}层的光流估计；

表示使用第一次变形优化光流flow_j再次对第二帧特征进行二次变形后的特征；residualflow_j为第j层残差流；feat_j为第j层上下文级联特征；finalflow_j为第j层预测光流；

七、在每层金字塔都为二次变形残差流估计模块输入第一帧特征、二次变形后特征和当前金字塔层光流的叠加，每层金字塔都输出一个残差流用来进一步优化遮挡掩模约束后的光流；在到达金字塔底层时，得到最后一层残差流估计(如图5所示)；第一次变形是像素级光流估计，而二次变形是亚像素级光流估计，二次残差流包含丰富的运动目标的轮廓信息，有助于进一步补偿光流场，引导光流学习，优化图像运动边缘，并减少特征空间的匹配距离，弥补因大位移运动造成缺失的光流信息；

八、最后在金字塔各层中进行相同的遮挡掩模约束和二次变形计算残差流，将遮挡掩模正则后的光流与二次变形残差流之和，作为优化图像运动边缘后的光流估计finalflow_j；在到达金字塔底层时，输出最终KITTI2015training图像序列运动边缘优化的稠密光流估计(如图6所示)；稠密光流估计中像素点灰度值越大，该像素点光流值越大，其相对运动速度就越快；相反，稠密光流估计中像素点灰度值越大，该像素点光流值越小，其相对运动速度就越小；从光流估计中得到物体丰富的运动信息和几何结构信息，可以有效地应用到更多高级视觉任务中。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法，其步骤如下：

1)输入图像序列中的任意连续两帧图像；

4)利用相关度构建可学习遮挡掩模优化模块，该模块中包含五个连续堆叠的卷积模块，每个卷积模块Conv包括一个3×3卷积、一个批量归一化处理和一个激活函数LeakyRelu，通过输入当前金字塔层中的相关度、光流、上下文级联特征和第一帧特征到可学习遮挡掩模模块中去，在经过连续的卷积层时，其特征通道数逐层递减，分别为128、96、64、32、1，其中最后一层没有激活函数，输出单通道遮挡掩模特征，计算公式如下：

式中：F_ⅰ ¹、F_ⅰ ²分别代表了第i＝{2,3,4,5,6}层第一帧和第二帧特征；其中x1、x2分别表示对应第一帧和第二帧特征像素点坐标；|d|≤4表示设置像素点最大位移为4个像素，计算匹配相关度时在第二帧特征中的目标搜索窗口大小为9×9；||·||表示在特征通道上求L2范数，对相关度进行归一化处理；·表示求两个特征的内积；corr表示计算两帧特征图之间的相关度；upflow_i+1表示金字塔上层光流以两倍系数上采样后的光流，并且光流大小随着特征尺度增大一倍其大小也要增大一倍；warp_i表示利用第i+1层光流上采样后对当前层第二帧特征变形，得到变形特征warpF_i ²，变形有助于减小特征空间的匹配距离，减弱像素点在帧间的形变和位移；corr_i表示第i层金字塔两帧特征图之间的相关度；cat表示多个特征在通道维度上级联，得到多尺度上下文级联特征x_i；estimationflow表示光流估计器；x表示连续堆叠卷积的上个卷积模块卷积后的特征；mask_i表示第i层遮挡掩模特征；

式中：

5)为遮挡掩模模块输入当前金字塔层光流、相关度、上下文级联特征和第一帧特征的叠加，即得到遮挡掩模特征图；在遮挡掩模特征图中像素点的灰度值越低，该像素点趋向于第一帧存在而第二帧遮挡的状态；相反，在遮挡掩模特征图中，像素点的灰度值越高，该像素点趋向于第一帧中遮挡而在第二帧中出现的状态；通过可学习遮挡掩模对变形特征施加约束，抑制图像运动边缘模糊问题；

6)利用光流估计来构建二次变形优化模块；根据未变形特征或遮挡掩模后的变形特征与第一帧特征的相关度计算光流，利用上述光流对第二帧特征进行二次变形，将光流、变形特征和第一帧特征在特征维度上叠加，经过连续五层卷积模块，且连续卷积层的通道数递减，分别为128、96、64、32、2，最后一层没有激活函数，输出两通道残差流；残差流和当前层光流之和是最终优化图像运动边缘和大位移运动的光流估计；其计算公式如下：