CN111369595A - 基于自适应相关卷积神经网络的光流计算方法 - Google Patents
基于自适应相关卷积神经网络的光流计算方法 Download PDFInfo
- Publication number
- CN111369595A CN111369595A CN201910980474.XA CN201910980474A CN111369595A CN 111369595 A CN111369595 A CN 111369595A CN 201910980474 A CN201910980474 A CN 201910980474A CN 111369595 A CN111369595 A CN 111369595A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- neural network
- adaptive
- adaptive correlation
- convolution neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于自适应相关卷积神经网络的光流计算方法,针对任意尺寸的图像对,采用改进的自适应相关卷积神经网络进行像素匹配,计算得到光流图。通过在FlowNetC模型的普通相关操作前加入1×1卷积,挖掘了特征不同维度间的相关性,将度量学习融入了深度神经网络,能够在不增加计算时间与空间消耗的同时提高光流计算的准确性与鲁棒性。
Description
技术领域
本发明属计算机视觉、视频特征提取技术领域,具体涉及一种基于自适应相关卷积神经网络的光流计算方法。本发明可以应用到视频运动信息提取、行为识别等方面。
背景技术
光流计算需要获取两个图像之间的像素对应关系,在传输图像中包含所有运动信息的同时,光流应用于各个领域,如动作识别、视频帧插值、对象跟踪、视频分段等。然而,由于运动模糊、遮挡、光线变化和大尺度位移,精确的光流估计仍然是一个挑战。
已有的基于学习的光流计算方法包括利用传统机器学习技术的方法,如马尔科夫随机场模型、统计模型、随机优化和主成分分析,和利用深度学习技术进行光流计算的方法。近年来,卷积神经网络因其强大的拟合和表示能力以及端到端学习方式成为计算光流的先进方法。与传统方法相比,卷积神经网络在很大程度上提高了光流估计的准确性和效率。卷积神经网络计算光流的核心是找到两个图像之间的像素匹配。为此,文献“AlexeyDosovitskiy,Philipp Fischer,Eddy Ilg,PhilipCaner Hazirbas,VladimirGolkov,Patrick van der Smagt,Daniel Cremers,and Thomas Brox,Learning opticalflow with convolutional networks,CVPR,2015”提出FlowNetC,其中的相关层用于对两幅图像进行图像块比较。与卷积层、规范化层和池化层一样,它是一种完全可微的操作,可以装备到任何神经网络中。对于计算光流的神经网络而言,相关层具有重要意义。然而,相关层有两个主要的限制:1)它只考虑维度和自身之间的对应关系,而彼此之间的依赖性被忽略;2)这些对应关系的权重相等,不同维度的差异性被忽略。
发明内容
为了克服现有技术的不足,本发明提供一种基于自适应相关卷积神经网络的光流计算方法。针对任意尺寸的图像对,本发明通过利用自适应相关层进行像素匹配,最终得到光流图。相较于包含普通相关层的FlowNetC,本发明在不增加计算时间与空间消耗的同时可以提高光流计算的准确性与鲁棒性。
一种基于自适应相关卷积神经网络的光流计算方法,其特征在于步骤如下:
步骤1:在原FlowNetC模型中的普通相关操作前加入256个1×1卷积核,得到改进后的自适应相关卷积网络;
步骤2:输入数据集,对改进后的自适应相关卷积神经网络进行训练,得到训练好的自适应相关卷积神经网络。
步骤3:给定任意尺寸的两幅图像,输入训练好的自适应相关卷积神经网络,得到两幅图像之间的光流图。
步骤2中所述的网络训练中,网络损失函数L为:
其中,s为尺度指标,S为尺度总数,(x,y)表示图像中的像素坐标,ws为尺度s的权重,Ws为尺度s下光流图像的宽度,Hs为尺度s下光流图像的高度,为像素(x,y)处的估计光流向量,为像素(x,y)处的真实光流向量;
训练过程中的初始学习率为0.0001,每30个训练轮回学习率降低10倍,共训练100个训练轮回。利用批自适应梯度下降算法优化网络参数,批大小设置为8。
本发明的有益效果是:由于对现有的FlowNetC模型进行了改进,通过在普通相关操作前加入1×1卷积,挖掘特征不同维度间的相关性,将度量学习融入深度神经网络,解决了FlowNetC算法存在的问题,再利用改进后的自适应相关卷积神经网络进行光流计算,能够在不增加计算时间与空间消耗的同时提高光流计算的准确性与鲁棒性。
附图说明
图1是本发明的自适应相关卷积神经网络示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供了一种基于自适应相关卷积神经网络的光流计算方法。其实现过程如下:
1、改进FlowNetC模型
记录在文献“Alexey Dosovitskiy,Philipp Fischer,Eddy Ilg,PhilipCaner Hazirbas,Vladimir Golkov,Patrick van der Smagt,Daniel Cremers,andThomas Brox,Learning optical flow with convolutional networks,CVPR,2015”中的FlowNetC模型,具有用于比较两幅光流图每一位置相似性的相关操作层,可以较为准确地进行光流图的端对端估计。但其存在忽略特征图各维度之间耦合关系的问题,导致光流鲁棒性差。
为了克服上述问题,可以利用可学习的线性映射挖掘特征不同维度间的相关性,将普通欧氏距离一般化为马氏距离,从而将度量学习融入深度神经网络,因此,本发明在其模型中的普通相关操作前加入1×1卷积,卷积核的数量为256。
2、网络训练
利用公开的数据集对步骤1改进的FlowNetC模型进行训练。本实施例分别利用Butler等人在文献“Daniel J.Butler1,Jonas Wulff2,Garrett B.Stanley3,and MichaelJ.Black2,A naturalistic open source movie for optical flow evaluation,ECCV2012”中提出的Sintel数据集和Dosovitskiy等人在文献“Alexey Dosovitskiy,PhilippFischer,Eddy Ilg,Philip Hausser,Caner Haz1rbas,and Vladimir Golkov,Flownet:Learning optical flow with convolutional networks,CVPR,2015”中提出的FlyingChairs数据集,根据文献方法分别划分为训练集与测试集,为验证本发明方法有效性,在原始数据集的图像中随机加入噪声并进行亮度调整。
训练过程采用以下多尺度端点误差损失函数L:
其中,s为尺度指标,S为尺度总数,(x,y)表示图像中的像素坐标,ws为尺度s的权重,Ws为尺度s下光流图像的宽度,Hs为尺度s下光流图像的高度,为像素(x,y)处的估计光流向量,为像素(x,y)处的真实光流向量。训练过程中的学习率为0.0001,每30个训练轮回降低10倍,共训练100个训练轮回。利用批自适应梯度下降算法优化网络参数,批大小设置为8。
3、计算光流图
将给定任意尺寸的两幅图像,输入到训练好的自适应相关卷积神经网络,得到两幅图像之间的光流图。采用PyTorch软件实现此步骤,具体如下:
步骤1:给定视频中的任意两帧图像I1,I2∈R3×H×W,其中,H,W分别为图像的高与宽,如下做三次“卷积-激活”操作,分别得到特征图out_conv3a和out_conv3b:
out_conv1a=conv1(I1)
out_conv2a=conv2(out_conv1a)
out_conv3a=conv3(out_conv2a)
out_conv1b=conv1(I2)
out_conv2b=conv2(out_conv1b)
out_conv3b=conv3(out_conv2b)
其中,conv1(·)、conv2(·)、conv3(·)分别为“卷积-激活”操作函数。
步骤2:对特征图out_conv3a和out_conv3b进行自适应相关操作,得到特征图out_correlation:
out_conv3a_=conv(out_conv3a)
out_conv3b_=conv(out_conv3b)
out_correlation=corr(out_conv3a_,out_conv3b_)
其中,conv(·)为1×1卷积函数,corr(·)为相关操作函数。
步骤3:对特征图out_conv3a进行“卷积-激活”操作,然后与特征图out_correlation进行串联,得到串联后特征图in_conv3_1:
out_conv_redir=conv_redir(out_conv3a)
in_conv3_1=cat(out_conv_redir,out_correlation)
其中,conv_redir(·)为“卷积-激活”操作函数,cat(·,·)为通道串联操作函数。
步骤4:对特征图in_conv3_1进行一系列“卷积-激活”操作,分别得到特征图out_conv3、out_conv4、out_conv5、out_conv6,即:
out_conv3=conv3_1(in_conv3_1)
out_conv4=conv4_1(conv4(out_conv3))
out_conv5=conv5_1(conv5(out_conv4))
out_conv6=conv6_1(conv6(out_conv5))
其中,conv4(·)、conv5(·)、conv6(·)、conv4_1(·)、conv5_1(·)、conv6_1(·)分别为“卷积-激活”操作函数。
步骤5:对特征图out_conv6进行“卷积-激活”操作和串联操作,得到特征图flow6、flow6_up、out_deconv5,即:
flow6=predict_flow6(out_conv6)
flow6_up=cat(upsampled_flow6_to_5(flow6),out_conv5)
out_deconv5=cat(deconv5(out_conv6),out_conv5)
其中,predict_flow6(·)、upsampled_flow6_to_5(·)、deconv5(·)分别为“卷积-激活”操作函数。
步骤6:对上述特征图进行如下操作,分别得到特征图concat5、flow5、flow5_up、out_deconv4:
concat5=cat(out_conv5,out_deconv5,flow6_up)
flow5=predict_flow5(concat5)
flow5_up=cat(upsampled_flow5_to_4(flow5),out_conv4)
out_deconv4=cat(deconv4(concat5),out_conv4)
其中,predict_flow5(·)、upsampled_flow5_to_4(·)、deconv4(·)分别为“卷积-激活”操作函数。
步骤7:对上述特征图进行如下操作,分别得到特征图concat4、flow4、flow4_up、out_deconv3:
concat4=cat(out_conv4,out_deconv4,flow5_up)
flow4=predict_flow4(concat4)
flow4_up=cat(upsampled_flow4_to_3(flow4),out_conv3)
out_deconv3=cat(deconv3(concat4),out_conv3)
其中,predict_flow4(·)、upsampled_flow4_to_3(·)、deconv3(·)分别为“卷积-激活”操作函数。
步骤8:对上述特征图进行如下操作,分别得到特征图concat3、flow3、flow3_up、out_deconv2:
concat3=cat(out_conv3,out_deconv3,flow4_up)
flow3=predict_flow3(concat3)
flow3_up=cat(upsampled_flow3_to_2(flow3),out_conv2a)
out_deconv2=cat(deconv2(concat3),out_conv2a)
其中,predict_flow3(·)、upsampled_flow3_to_2(·)、deconv2(·)分别为“卷积-激活”操作函数。
步骤9:对上述特征图进行如下操作,得到最终的光流图flow2:
concat2=cat(out_conv2a,out_deconv2,flow3_up)
flow2=predict_flow2(concat2)
其中,predict_flow2(·)为“卷积-激活”操作函数。
为验证本发明方法效果,在中央处理器为i7-6800K 3.40GHz CPU、NVIDIAGeForce GTX 1080GPU、Ubuntu操作***上,运用Python软件、PyTorch深度学***均端点误差、运行时间和模型大小,计算结果如表1所示。表中,Sintel Clean、Sintel Final、Flying Chairs分别表示三个原始数据集,后缀“_L”为增加亮度变化的数据集,后缀“_N”为增加噪声的数据集。由计算结果数据可以看出,本发明方法在测试时间和模型大小几乎不增加的情况下,计算精确性更高;对于增加亮度变化与噪声的数据集,本发明的方法表现更好,鲁棒性较高。综合来说,本发明方法具有较高的计算准确性和鲁棒性,实用性强。
表1
Claims (2)
1.一种基于自适应相关卷积神经网络的光流计算方法,其特征在于步骤如下:
步骤1:在原FlowNetC模型中的普通相关操作前加入256个1×1卷积核,得到改进后的自适应相关卷积网络;
步骤2:输入数据集,对改进后的自适应相关卷积神经网络进行训练,得到训练好的自适应相关卷积神经网络。
步骤3:给定任意尺寸的两幅图像,输入训练好的自适应相关卷积神经网络,得到两幅图像之间的光流图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980474.XA CN111369595A (zh) | 2019-10-15 | 2019-10-15 | 基于自适应相关卷积神经网络的光流计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980474.XA CN111369595A (zh) | 2019-10-15 | 2019-10-15 | 基于自适应相关卷积神经网络的光流计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111369595A true CN111369595A (zh) | 2020-07-03 |
Family
ID=71210044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910980474.XA Pending CN111369595A (zh) | 2019-10-15 | 2019-10-15 | 基于自适应相关卷积神经网络的光流计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369595A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634324A (zh) * | 2020-12-07 | 2021-04-09 | 中国地质大学(武汉) | 一种基于深度卷积神经网络的光流场估计方法 |
CN114005075A (zh) * | 2021-12-30 | 2022-02-01 | 深圳佑驾创新科技有限公司 | 一种光流估算模型的构建方法、装置及光流估算方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967695A (zh) * | 2017-12-25 | 2018-04-27 | 北京航空航天大学 | 一种基于深度光流和形态学方法的运动目标检测方法 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
CN110111366A (zh) * | 2019-05-06 | 2019-08-09 | 北京理工大学 | 一种基于多级损失量的端到端光流估计方法 |
-
2019
- 2019-10-15 CN CN201910980474.XA patent/CN111369595A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967695A (zh) * | 2017-12-25 | 2018-04-27 | 北京航空航天大学 | 一种基于深度光流和形态学方法的运动目标检测方法 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
CN110111366A (zh) * | 2019-05-06 | 2019-08-09 | 北京理工大学 | 一种基于多级损失量的端到端光流估计方法 |
Non-Patent Citations (4)
Title |
---|
ALEXEY DOSOVITSKIY等: "《FlowNet: Learning Optical Flow with Convolutional Networks》", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
ANURAG RANJAN等: "《Optical Flow Estimation Using a Spatial Pyramid Network》", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
周文俊等: "《基于光流的快速人体姿态估计》", 《计算机***应用》 * |
王松: "《抗遮档的光流场估计算法研究》", 《中国博士论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634324A (zh) * | 2020-12-07 | 2021-04-09 | 中国地质大学(武汉) | 一种基于深度卷积神经网络的光流场估计方法 |
CN114005075A (zh) * | 2021-12-30 | 2022-02-01 | 深圳佑驾创新科技有限公司 | 一种光流估算模型的构建方法、装置及光流估算方法 |
CN114005075B (zh) * | 2021-12-30 | 2022-04-05 | 深圳佑驾创新科技有限公司 | 一种光流估算模型的构建方法、装置及光流估算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800692B (zh) | 一种基于预训练卷积神经网络的视觉slam回环检测方法 | |
Liu et al. | Local similarity pattern and cost self-reassembling for deep stereo matching networks | |
CN110796026A (zh) | 一种基于全局特征拼接的行人重识别方法 | |
CN109974743B (zh) | 一种基于gms特征匹配及滑动窗口位姿图优化的视觉里程计 | |
CN112784728B (zh) | 基于衣物脱敏网络的多粒度换衣行人重识别方法 | |
CN111144376B (zh) | 视频目标检测特征提取方法 | |
CN111723798B (zh) | 一种基于关联性层级残差的多实例自然场景文本检测方法 | |
US9025863B2 (en) | Depth camera system with machine learning for recognition of patches within a structured light pattern | |
KR102094506B1 (ko) | 피사체 추적 기법을 이용한 카메라와 피사체 사이의 거리 변화 측정방법 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 거리 변화 측정 장치. | |
CN114677565B (zh) | 特征提取网络的训练方法和图像处理方法、装置 | |
CN110442618B (zh) | 融合专家信息关联关系的卷积神经网络评审专家推荐方法 | |
CN111369595A (zh) | 基于自适应相关卷积神经网络的光流计算方法 | |
CN110751027A (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN112651406A (zh) | 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 | |
CN110751076A (zh) | 车辆检测方法 | |
CN110598711B (zh) | 一种结合分类任务的目标分割方法 | |
CN116310098A (zh) | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN110796182A (zh) | 一种少量样本的票据分类方法及*** | |
CN114926742A (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN109145738B (zh) | 基于加权非凸正则化和迭代重约束低秩表示的动态视频分割方法 | |
CN112836629B (zh) | 一种图像分类方法 | |
CN110942468B (zh) | 一种基于超像素对概率传递的交互式图像分割方法 | |
CN112270760A (zh) | 一种定位方法、装置、电子设备及存储介质 | |
CN116796248A (zh) | 森林康养环境评估***及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200703 |