CN111369595A

CN111369595A - 基于自适应相关卷积神经网络的光流计算方法

Info

Publication number: CN111369595A
Application number: CN201910980474.XA
Authority: CN
Inventors: 袁媛; 李昊鹏; 王�琦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-07-03

Abstract

本发明提供了一种基于自适应相关卷积神经网络的光流计算方法，针对任意尺寸的图像对，采用改进的自适应相关卷积神经网络进行像素匹配，计算得到光流图。通过在FlowNetC模型的普通相关操作前加入1×1卷积，挖掘了特征不同维度间的相关性，将度量学习融入了深度神经网络，能够在不增加计算时间与空间消耗的同时提高光流计算的准确性与鲁棒性。

Description

基于自适应相关卷积神经网络的光流计算方法

技术领域

本发明属计算机视觉、视频特征提取技术领域，具体涉及一种基于自适应相关卷积神经网络的光流计算方法。本发明可以应用到视频运动信息提取、行为识别等方面。

背景技术

光流计算需要获取两个图像之间的像素对应关系，在传输图像中包含所有运动信息的同时，光流应用于各个领域，如动作识别、视频帧插值、对象跟踪、视频分段等。然而，由于运动模糊、遮挡、光线变化和大尺度位移，精确的光流估计仍然是一个挑战。

已有的基于学习的光流计算方法包括利用传统机器学习技术的方法，如马尔科夫随机场模型、统计模型、随机优化和主成分分析，和利用深度学习技术进行光流计算的方法。近年来，卷积神经网络因其强大的拟合和表示能力以及端到端学习方式成为计算光流的先进方法。与传统方法相比，卷积神经网络在很大程度上提高了光流估计的准确性和效率。卷积神经网络计算光流的核心是找到两个图像之间的像素匹配。为此，文献“AlexeyDosovitskiy,Philipp Fischer,Eddy Ilg,Philip

Caner Hazirbas,VladimirGolkov,Patrick van der Smagt,Daniel Cremers,and Thomas Brox,Learning opticalflow with convolutional networks,CVPR,2015”提出FlowNetC，其中的相关层用于对两幅图像进行图像块比较。与卷积层、规范化层和池化层一样，它是一种完全可微的操作，可以装备到任何神经网络中。对于计算光流的神经网络而言，相关层具有重要意义。然而，相关层有两个主要的限制：1)它只考虑维度和自身之间的对应关系，而彼此之间的依赖性被忽略；2)这些对应关系的权重相等，不同维度的差异性被忽略。

发明内容

为了克服现有技术的不足，本发明提供一种基于自适应相关卷积神经网络的光流计算方法。针对任意尺寸的图像对，本发明通过利用自适应相关层进行像素匹配，最终得到光流图。相较于包含普通相关层的FlowNetC，本发明在不增加计算时间与空间消耗的同时可以提高光流计算的准确性与鲁棒性。

一种基于自适应相关卷积神经网络的光流计算方法，其特征在于步骤如下：

步骤1：在原FlowNetC模型中的普通相关操作前加入256个1×1卷积核，得到改进后的自适应相关卷积网络；

步骤2：输入数据集，对改进后的自适应相关卷积神经网络进行训练，得到训练好的自适应相关卷积神经网络。

步骤3：给定任意尺寸的两幅图像，输入训练好的自适应相关卷积神经网络，得到两幅图像之间的光流图。

步骤2中所述的网络训练中，网络损失函数L为：

其中，s为尺度指标，S为尺度总数，(x,y)表示图像中的像素坐标，w_s为尺度s的权重，W_s为尺度s下光流图像的宽度，H_s为尺度s下光流图像的高度，

为像素(x,y)处的估计光流向量，

为像素(x,y)处的真实光流向量；

训练过程中的初始学习率为0.0001，每30个训练轮回学习率降低10倍，共训练100个训练轮回。利用批自适应梯度下降算法优化网络参数，批大小设置为8。

本发明的有益效果是：由于对现有的FlowNetC模型进行了改进，通过在普通相关操作前加入1×1卷积，挖掘特征不同维度间的相关性，将度量学习融入深度神经网络，解决了FlowNetC算法存在的问题，再利用改进后的自适应相关卷积神经网络进行光流计算，能够在不增加计算时间与空间消耗的同时提高光流计算的准确性与鲁棒性。

附图说明

图1是本发明的自适应相关卷积神经网络示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于自适应相关卷积神经网络的光流计算方法。其实现过程如下：

1、改进FlowNetC模型

记录在文献“Alexey Dosovitskiy,Philipp Fischer,Eddy Ilg,Philip

Caner Hazirbas,Vladimir Golkov,Patrick van der Smagt,Daniel Cremers,andThomas Brox,Learning optical flow with convolutional networks,CVPR,2015”中的FlowNetC模型，具有用于比较两幅光流图每一位置相似性的相关操作层，可以较为准确地进行光流图的端对端估计。但其存在忽略特征图各维度之间耦合关系的问题，导致光流鲁棒性差。

为了克服上述问题，可以利用可学习的线性映射挖掘特征不同维度间的相关性，将普通欧氏距离一般化为马氏距离，从而将度量学习融入深度神经网络，因此，本发明在其模型中的普通相关操作前加入1×1卷积，卷积核的数量为256。

2、网络训练

利用公开的数据集对步骤1改进的FlowNetC模型进行训练。本实施例分别利用Butler等人在文献“Daniel J.Butler1,Jonas Wulff2,Garrett B.Stanley3,and MichaelJ.Black2,A naturalistic open source movie for optical flow evaluation,ECCV2012”中提出的Sintel数据集和Dosovitskiy等人在文献“Alexey Dosovitskiy,PhilippFischer,Eddy Ilg,Philip Hausser,Caner Haz1rbas,and Vladimir Golkov,Flownet:Learning optical flow with convolutional networks,CVPR,2015”中提出的FlyingChairs数据集，根据文献方法分别划分为训练集与测试集，为验证本发明方法有效性，在原始数据集的图像中随机加入噪声并进行亮度调整。

训练过程采用以下多尺度端点误差损失函数L：

为像素(x,y)处的估计光流向量，

为像素(x,y)处的真实光流向量。训练过程中的学习率为0.0001，每30个训练轮回降低10倍，共训练100个训练轮回。利用批自适应梯度下降算法优化网络参数，批大小设置为8。

3、计算光流图

将给定任意尺寸的两幅图像，输入到训练好的自适应相关卷积神经网络，得到两幅图像之间的光流图。采用PyTorch软件实现此步骤，具体如下：

步骤1：给定视频中的任意两帧图像I¹,I²∈R^3×H×W，其中，H，W分别为图像的高与宽，如下做三次“卷积-激活”操作，分别得到特征图out_conv3a和out_conv3b：

out_conv1a＝conv1(I¹)

out_conv2a＝conv2(out_conv1a)

out_conv3a＝conv3(out_conv2a)

out_conv1b＝conv1(I²)

out_conv2b＝conv2(out_conv1b)

out_conv3b＝conv3(out_conv2b)

其中，conv1(·)、conv2(·)、conv3(·)分别为“卷积-激活”操作函数。

步骤2：对特征图out_conv3a和out_conv3b进行自适应相关操作，得到特征图out_correlation：

out_conv3a_＝conv(out_conv3a)

out_conv3b_＝conv(out_conv3b)

out_correlation＝corr(out_conv3a_,out_conv3b_)

其中，conv(·)为1×1卷积函数，corr(·)为相关操作函数。

步骤3：对特征图out_conv3a进行“卷积-激活”操作，然后与特征图out_correlation进行串联，得到串联后特征图in_conv3_1：

out_conv_redir＝conv_redir(out_conv3a)

in_conv3_1＝cat(out_conv_redir,out_correlation)

其中，conv_redir(·)为“卷积-激活”操作函数，cat(·,·)为通道串联操作函数。

步骤4：对特征图in_conv3_1进行一系列“卷积-激活”操作，分别得到特征图out_conv3、out_conv4、out_conv5、out_conv6，即：

out_conv3＝conv3_1(in_conv3_1)

out_conv4＝conv4_1(conv4(out_conv3))

out_conv5＝conv5_1(conv5(out_conv4))

out_conv6＝conv6_1(conv6(out_conv5))

其中，conv4(·)、conv5(·)、conv6(·)、conv4_1(·)、conv5_1(·)、conv6_1(·)分别为“卷积-激活”操作函数。

步骤5：对特征图out_conv6进行“卷积-激活”操作和串联操作，得到特征图flow6、flow6_up、out_deconv5，即：

flow6＝predict_flow6(out_conv6)

flow6_up＝cat(upsampled_flow6_to_5(flow6),out_conv5)

out_deconv5＝cat(deconv5(out_conv6),out_conv5)

其中，predict_flow6(·)、upsampled_flow6_to_5(·)、deconv5(·)分别为“卷积-激活”操作函数。

步骤6：对上述特征图进行如下操作，分别得到特征图concat5、flow5、flow5_up、out_deconv4：

concat5＝cat(out_conv5,out_deconv5,flow6_up)

flow5＝predict_flow5(concat5)

flow5_up＝cat(upsampled_flow5_to_4(flow5),out_conv4)

out_deconv4＝cat(deconv4(concat5),out_conv4)

其中，predict_flow5(·)、upsampled_flow5_to_4(·)、deconv4(·)分别为“卷积-激活”操作函数。

步骤7：对上述特征图进行如下操作，分别得到特征图concat4、flow4、flow4_up、out_deconv3：

concat4＝cat(out_conv4,out_deconv4,flow5_up)

flow4＝predict_flow4(concat4)

flow4_up＝cat(upsampled_flow4_to_3(flow4),out_conv3)

out_deconv3＝cat(deconv3(concat4),out_conv3)

其中，predict_flow4(·)、upsampled_flow4_to_3(·)、deconv3(·)分别为“卷积-激活”操作函数。

步骤8：对上述特征图进行如下操作，分别得到特征图concat3、flow3、flow3_up、out_deconv2：

concat3＝cat(out_conv3,out_deconv3,flow4_up)

flow3＝predict_flow3(concat3)

flow3_up＝cat(upsampled_flow3_to_2(flow3),out_conv2a)

out_deconv2＝cat(deconv2(concat3),out_conv2a)

其中，predict_flow3(·)、upsampled_flow3_to_2(·)、deconv2(·)分别为“卷积-激活”操作函数。

步骤9：对上述特征图进行如下操作，得到最终的光流图flow2：

concat2＝cat(out_conv2a,out_deconv2,flow3_up)

flow2＝predict_flow2(concat2)

其中，predict_flow2(·)为“卷积-激活”操作函数。

为验证本发明方法效果，在中央处理器为

i7-6800K 3.40GHz CPU、NVIDIAGeForce GTX 1080GPU、Ubuntu操作***上，运用Python软件、PyTorch深度学***均端点误差、运行时间和模型大小，计算结果如表1所示。表中，Sintel Clean、Sintel Final、Flying Chairs分别表示三个原始数据集，后缀“_L”为增加亮度变化的数据集，后缀“_N”为增加噪声的数据集。由计算结果数据可以看出，本发明方法在测试时间和模型大小几乎不增加的情况下，计算精确性更高；对于增加亮度变化与噪声的数据集，本发明的方法表现更好，鲁棒性较高。综合来说，本发明方法具有较高的计算准确性和鲁棒性，实用性强。

表1

Claims

1.一种基于自适应相关卷积神经网络的光流计算方法，其特征在于步骤如下：

2.如权利要求1所述的一种基于自适应相关卷积神经网络的光流计算方法，其特征在于：步骤2中所述的网络训练中，网络损失函数L为：

为像素(x,y)处的估计光流向量，

为像素(x,y)处的真实光流向量；

训练过程中的初始学习率为0.0001，每30个训练轮回学习率降低10倍，共训练100个训练轮回；利用批自适应梯度下降算法优化网络参数，批大小设置为8。