CN114821105A - 一种联合图像金字塔引导和循环交叉注意力的光流计算方法 - Google Patents

一种联合图像金字塔引导和循环交叉注意力的光流计算方法 Download PDF

Info

Publication number
CN114821105A
CN114821105A CN202210480358.3A CN202210480358A CN114821105A CN 114821105 A CN114821105 A CN 114821105A CN 202210480358 A CN202210480358 A CN 202210480358A CN 114821105 A CN114821105 A CN 114821105A
Authority
CN
China
Prior art keywords
pyramid
optical flow
feature
image pyramid
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210480358.3A
Other languages
English (en)
Inventor
陈震
王梓歌
张聪炫
葛利跃
王子旭
陈昊
黎明
胡卫明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Hangkong University
Original Assignee
Nanchang Hangkong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Hangkong University filed Critical Nanchang Hangkong University
Priority to CN202210480358.3A priority Critical patent/CN114821105A/zh
Publication of CN114821105A publication Critical patent/CN114821105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种联合图像金字塔子网引导和循环交叉注意力的光流计算方法。所述方法包括以下步骤:1)将图像序列连续两帧图像分别输入到图像金字塔子网和特征金字塔子网;2)使用图像金字塔子网对图片进行处理:3)将图像金字塔子网提取到的特征与同层特征金字塔提取到的特征进行相加融合作为下一层特征金字塔的输入;4)在特征金字塔最后三层将融合后的特征输入到循环交叉注意力模块中进行上下文的信息提取。本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过浅层信息的补充和对上下文信息的准确提取能力,对图像序列的运动边缘和大位移区域的特征信息进行提取,显著提高光流估计的准确性和鲁棒性。

Description

一种联合图像金字塔引导和循环交叉注意力的光流计算方法
技术领域
本发明涉及一种联合图像金字塔引导和循环交叉注意力的光流计算方法。
背景技术
光流是空间移动物体在像素观察平面中移动的瞬时速度,是一种计算物体在相邻帧间运动信息的方法,由物体和相机的相对速度产生的,反映了物体在极小时间内对应的图像像素的运动方向和速度。从光流中恢复物体三维结构和运动则是现有计算机视觉研究面临的最富有意义和挑战性的任务之一,在计算机视觉中,光流扮演着重要角色,在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。
目前,光流计算模型的特征提取方法大多采用特征金字塔,但仅单纯的采用卷积进行特征提取会使得浅层中空间信息不能被有效利用,造成复杂运动场景中上下文提取能力不足,从而导致运动边缘和大位移光流估计的准确性降低。而引入图像金字塔作引导,并加入循环交叉注意力作为辅助上下文提取,能够有效实现深浅层信息平衡,有望提高在运动边缘和大位移区域光流计算的准确性和鲁棒性。
发明内容
本发明的目的在于提供一种联合图像金字塔子网引导和循环交叉注意力的光流计算方法,以解决上述背景技术中涉及的问题。
为实现上述目的,本发明提供如下技术方案:
本发明提供一种联合图像金字塔子网引导和循环交叉注意力的光流计算方法,所述方法包括以下步骤:
1)将图像序列连续两帧图像分别输入到图像金字塔子网和特征金字塔子网;
2)使用图像金字塔子网对图片进行处理:
3)将图像金字塔子网提取到的特征与同层特征金字塔提取到的特征进行相加融合作为下一层特征金字塔的输入;
4)分别在第四层和第五层将相加融合后的特征图和第六层特征金字塔提取到的特征图作为循环交叉注意力模块的输入以获得图像的上下文信息:
5)将特征图进行变形和相关性计算后输入到共享光流解码器中进行初始光流估计,并在所有金字塔级别上进行迭代细化输出;
6)将步骤(5)中所输出的初始光流经过上下文网络细化后再通过双边滤波器进行优化,从而得到最后精细化的光流计算结果。
进一步的,所述步骤(2)中的图像金字塔子网的输入是一组经过下采样的图像金字塔图片;经过图像金字塔进行下采样后,通过一个浅层网络即图像金字塔子网提取图像金字塔的特征。
进一步的,所述步骤(4)分别通过两个1×1的卷积降维获得Q、K两个特征图,得到Q、K后再通过关联操作得到注意力图A,再进行softmax操作得到注意力图A'。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,首先将连续的两帧图像输入到联合图像金字塔子网引导和循环交叉注意力的特征提取网络中进行特征提取;其次通过对特征图进行变形和相关性计算;然后将进行相关性计算后的特征图送入共享光流解码器中进行初始光流估计;最后将初始光流经过上下文网络细化后再进行双边细化,从而得到最终的光流计算结果。本发明联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过浅层信息的补充和对上下文信息的准确提取能力,对图像序列的运动边缘和大位移区域的特征信息进行提取,显著提高光流估计的准确性和鲁棒性。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过对浅层信息的补充和对上下文信息的准确提取,使得对运动边缘和大位移区域光流估计的准确性和鲁棒性提高。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过在深层卷积引入浅层空间信息,对全局上下文信息进行轻量化提取,显著提高了光流计算的精度,克服了深浅层信息不平衡、计算量大等问题,对于复杂边缘图像序列和大位移图像序列具有更高的计算精度和更好的实用性,在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。
附图说明
图1为本发明实例cave_3图像序列中的第16帧图像;
图2为本发明实例cave_3图像序列中的第17帧图像;
图3为本发明实例联合图像金字塔子网引导和循环交叉注意力的特征提取网络结构图;
图4为本发明实例特征图的相关性计算图;
图5为本发明实例光流和遮挡的共享解码器图;
图6为本发明实例光流和遮挡的双边细化图;
图7为本发明计算所获得的cave_3图像序列光流图;
图8为本发明的计算方法流程图。
具体实施方式
下面将结合本发明实例中的附图,对本发明实例中的技术方案进行清楚,完整的描述,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-图8,本发明提供了一种联合图像金字塔子网引导和循环交叉注意力的光流计算方法,使用cave_3序列图像进行实验说明:
1)输入图1和图2是cave_3图像序列连续两帧图像;其中:图1是第一帧图像,图2是第二帧图像;
2)将图1和图2分别输入到图像金字塔子网和特征金字塔子网;
3)如图3所示,首先使用图像金字塔子网对图片进行处理:
图像金字塔子网的输入是一组简单的经过下采样的图像金字塔图片,表示为:
Figure BDA0003627364700000041
式中,H和W是图片的分辨率,i表示图像金字塔层数,
Figure BDA0003627364700000042
代表第i层图像金字塔图片的分辨率,例如,在一个实施方式中,i=5;经过图像金字塔进行下采样后,通过一个浅层网络即图像金字塔子网提取图像金字塔的特征:
Figure BDA0003627364700000043
式(2)中f(·)指的是图像金字塔子网在第i层提取到的特征;
4)在特征金字塔的第一层至第五层,将图像金字塔子网提取到的特征与同层特征金字塔提取到的特征进行相加融合直接作为下一层特征金字塔的输入;
5)分别在第四层和第五层将相加融合后的特征图和第六层特征金字塔提取到的特征图作为循环交叉注意力模块的输入以便获得图像更丰富的全局上下文信息:
分别通过两个1×1的卷积降维获得Q、K两个特征图,得到Q、K后再通过关联操作得到注意力图A,再进行softmax操作得到注意力图A',关联操作如下:
di,u=QuΩi,u T (3)
式中di,u衡量了Qu和Ωi,u之间的相似度,对于特征图Q的每一个位置u,都可以得到一个维度数和Q通道数相同的向量Qu,然后在特征图K上得到一个Ωi,u对应位置u的同行或同列的向量集合,其中i指的是Ωu中第i个元素;
再通过一个1×1卷积得到V,将V每个位置u的横纵方向上的特征与A每个位置u横纵方向上的特征进行点乘,相加得到该位置的残差聚合特征,再加上原特征Hu得到更强表征能力的特征H'u,用来收集上下文信息的聚合操作如下:
Figure BDA0003627364700000051
式(4)中,Φi,u是V中第i层与位置u同行或同列的特征向量,Ai,u是A中在通道i和位置u的标量值,H'u是输出特征图Hu在位置u上的特征向量;
6)如图4和图5所示,为获得初始光流,将特征图进行变形和相关性计算后输入到共享光流解码器中计算光流,具体操作如下:
xl 1_warp=warpl(x2,up2(flowl+1)) (5)
式(5)代表图像的变形操作,其中l表示金字塔的层数,x2代表第二张图像,warpl表示图像在金字塔第l层的变形操作,xl 1_warp是第二帧图像像素点通过前一层上采样光流进行变形操作后的特征图,up2是使用双线性插值进行的光流上采样,flowl+1表示第l+1层金字塔输出的上采样光流;随后,将变形后的特征图和原特征图进行相关性计算:
Figure BDA0003627364700000061
式(6)是光流的计算过程,式中
Figure BDA0003627364700000062
分别表示在金字塔第i层的第一张特征图和第二张特征图,x1_warp代表式(5)中的变形操作,
Figure BDA0003627364700000063
表示上一层光流进行二倍双线性上采样,corr表示第二张特征图和变形后的特征图进行相关性计算,cat代表堆叠操作,最后将三者堆叠输入到共享光流解码器D中进行光流估计;
7)如图6所示,将步骤(6)中所输出的初始光流经过上下文网络细化后再通过双边滤波器进行优化,从而得到最后精细化的光流计算结果:
Figure BDA0003627364700000064
式(7)为光流的双边优化过程。
Figure BDA0003627364700000065
分别表示经过双边滤波后的水平和垂直方向光流,g(x,y)表示光流在像素点(x,y)处可学***和垂直光流图像块;
如图7所示,本发明方法对于运动边缘和大位移运动图像序列具有更高的计算精度和更好的适用性,在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,首先将连续的两帧图像输入到联合图像金字塔子网引导和循环交叉注意力的特征提取网络中进行特征提取;其次通过更换特征图的输入顺序与变形后的特征图进行相关性计算;然后将原特征图、变形后的特征图和上采样光流进行堆叠并送入共享遮挡和光流解码器中进行初始光流估计;最后将初始光流经过上下文网络细化后再进行双边细化,从而得到最终的光流计算结果。本发明联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过浅层信息的补充和对上下文信息的准确提取能力,对图像序列的运动边缘和大位移区域的特征信息进行提取,显著提高光流估计的准确性和鲁棒性。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过对浅层信息的补充和对上下文信息的准确提取,使得对运动边缘和大位移区域光流估计的准确性和鲁棒性提高。
本发明的联合图像金字塔子网引导和循环交叉注意力的光流计算方法,通过在深层卷积引入浅层空间信息,对全局上下文信息进行轻量化提取,显著提高了光流计算的精度,克服了深浅层信息不平衡、计算量大等问题,对于复杂边缘图像序列和大位移图像序列具有更高的计算精度和更好的实用性,在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不限于本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种联合图像金字塔子网引导和循环交叉注意力的光流计算方法,其特征在于,所述方法包括以下步骤:
1)将图像序列连续两帧图像分别输入到图像金字塔子网和特征金字塔子网;
2)使用图像金字塔子网对图片进行处理:
3)将图像金字塔提取到的特征与同层特征金字塔提取到的特征进行相加融合作为下一层特征金字塔的输入;
4)分别在第四层和第五层将相加融合后的特征图和第六层特征金字塔子网提取到的特征图作为循环交叉注意力模块的输入以获得图像的上下文信息:
5)将特征图进行变形和相关性计算后输入到共享光流解码器中进行初始光流估计,并在所有金字塔级别上进行迭代细化输出;
6)将步骤(5)中所输出的初始光流经过上下文网络细化后再通过双边滤波器进行优化,从而得到最后精细化的光流计算结果。
2.如权利要求1所述的一种联合图像金字塔引导和循环交叉注意力的光流计算方法,其特征在于,所述步骤(2)中的图像金字塔子网的输入是一组经过下采样的图像金字塔图片,经过图像金字塔进行下采样后,通过一个浅层网络即图像金字塔子网提取图像金字塔的特征。
3.如权利要求2所述的一种联合图像金字塔引导和循环交叉注意力的光流计算方法,其特征在于,所述步骤(4)分别通过两个1×1的卷积降维获得Q、K两个特征图,得到Q、K后再通过关联操作得到注意力图
Figure 134468DEST_PATH_IMAGE001
,再进行softmax操作得到注意力图
Figure 851888DEST_PATH_IMAGE002
CN202210480358.3A 2022-05-05 2022-05-05 一种联合图像金字塔引导和循环交叉注意力的光流计算方法 Pending CN114821105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210480358.3A CN114821105A (zh) 2022-05-05 2022-05-05 一种联合图像金字塔引导和循环交叉注意力的光流计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210480358.3A CN114821105A (zh) 2022-05-05 2022-05-05 一种联合图像金字塔引导和循环交叉注意力的光流计算方法

Publications (1)

Publication Number Publication Date
CN114821105A true CN114821105A (zh) 2022-07-29

Family

ID=82510543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210480358.3A Pending CN114821105A (zh) 2022-05-05 2022-05-05 一种联合图像金字塔引导和循环交叉注意力的光流计算方法

Country Status (1)

Country Link
CN (1) CN114821105A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631196A (zh) * 2022-12-20 2023-01-20 杭州太美星程医药科技有限公司 图像分割方法、模型的训练方法、装置、设备和存储介质
CN115761594A (zh) * 2022-11-28 2023-03-07 南昌航空大学 一种基于全局与局部耦合的光流计算方法
CN116309698A (zh) * 2023-01-11 2023-06-23 中国科学院上海微***与信息技术研究所 一种基于运动特征弥补引导的多帧光流估计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761594A (zh) * 2022-11-28 2023-03-07 南昌航空大学 一种基于全局与局部耦合的光流计算方法
CN115761594B (zh) * 2022-11-28 2023-07-21 南昌航空大学 一种基于全局与局部耦合的光流计算方法
CN115631196A (zh) * 2022-12-20 2023-01-20 杭州太美星程医药科技有限公司 图像分割方法、模型的训练方法、装置、设备和存储介质
CN115631196B (zh) * 2022-12-20 2023-03-10 杭州太美星程医药科技有限公司 图像分割方法、模型的训练方法、装置、设备和存储介质
CN116309698A (zh) * 2023-01-11 2023-06-23 中国科学院上海微***与信息技术研究所 一种基于运动特征弥补引导的多帧光流估计方法

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN114821105A (zh) 一种联合图像金字塔引导和循环交叉注意力的光流计算方法
CN110108258B (zh) 一种单目视觉里程计定位方法
CN111340844B (zh) 基于自注意力机制的多尺度特征光流学习计算方法
CN113159151B (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN109726627B (zh) 一种神经网络模型训练及通用接地线的检测方法
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN112750133A (zh) 计算机视觉训练***和用于训练计算机视觉***的方法
CN111915660A (zh) 基于共享特征和注意力上采样的双目视差匹配方法及***
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
US20140363053A1 (en) Method and device for generating a motion field for a video sequence
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
CN113538243A (zh) 基于多视差注意力模块组合的超分辨图像重建方法
Mehl et al. M-fuse: Multi-frame fusion for scene flow estimation
CN112509014B (zh) 金字塔遮挡检测块匹配的鲁棒插值光流计算方法
CN115330935A (zh) 一种基于深度学习的三维重建方法及***
CN115205641A (zh) 一种多先验驱动的显著性目标检测算法
CN115330851A (zh) 单目深度估计方法、装置、电子设备、存储介质及车辆
CN111931793B (zh) 一种显著性目标提取方法及***
CN114219900B (zh) 基于混合现实眼镜的三维场景重建方法、重建***和应用
EP4191526A1 (en) Apparatus and method with object posture estimating
CN118154430B (zh) 时空角融合动态光场智能成像方法
CN115841510B (zh) 基于几何知识和深度学习的桌面冰壶场景下单幅图像的深度及法矢估算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination