CN107292912B - 一种基于多尺度对应结构化学习的光流估计方法 - Google Patents

一种基于多尺度对应结构化学习的光流估计方法 Download PDF

Info

Publication number
CN107292912B
CN107292912B CN201710387001.XA CN201710387001A CN107292912B CN 107292912 B CN107292912 B CN 107292912B CN 201710387001 A CN201710387001 A CN 201710387001A CN 107292912 B CN107292912 B CN 107292912B
Authority
CN
China
Prior art keywords
optical flow
convolution
scale
flow estimation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710387001.XA
Other languages
English (en)
Other versions
CN107292912A (zh
Inventor
李玺
赵杉杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710387001.XA priority Critical patent/CN107292912B/zh
Publication of CN107292912A publication Critical patent/CN107292912A/zh
Application granted granted Critical
Publication of CN107292912B publication Critical patent/CN107292912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度对应结构化学习的光流估计方法,用于在给定连续视频帧的情况下,分析第一帧相对于第二帧的运动情况。具体包括如下步骤:获取用于训练光流估计的连续帧图像数据集,并定义算法目标;在不同尺度上对连续两帧图像之间的对应进行结构化建模;对不同尺度上的对应关系进行联合编码;建立光流估计的预测模型;使用所述预测模型估计连续视频帧的光流值。本发明适用于真实视频中的光流运动分析,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于多尺度对应结构化学习的光流估计方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于多尺度对应结构化学习的光流估计方法。
背景技术
光流估计作为一种底层视觉技术,常作为一些高层视觉任务的辅助信息,如视频异常事件检测、视频动作识别等,光流通过提供视频帧之间的运动信息将帧之间的关联关系考虑在内。光流估计的目标是给定连续两帧视频帧,预测第一帧中每个像素的运动位移。光流估计的关键因素包括像素或图像区域的鲁棒表示、像素之间对应关系的建模以及计算有效性。传统方法一般将光流估计任务看成一个稀疏或稠密像素匹配问题,尽管一些方法在预测精度上取得了突破,但是其在计算上比较耗时,同时往往因需要结合多种方法而缺乏灵活性。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到光流估计任务中。现有的基于学习方法主要是采用端到端的深度学习框架,输入一对连续视频帧,输出预测的光流图。深度学习能够有效地解决特征表示的问题,而在对应关系建模上主要有两种策略:1、在单一尺度上固定搜索范围,计算像素之间的相似度;2、采用从粗到细的方法,动态更新搜索范围。然而,对于前者,往往很难确定一个合适的搜索范围,特别是对于大位移运动情况;对于后者,一旦在粗的尺度上预测错误,很有可能会使这种错误向后传播而使得预测结果错误。
发明内容
为解决上述问题,本发明的目的在于提供一种基于多尺度对应结构化学习的光流估计方法。该方法基于深度神经网络,利用深度视觉特征在不同尺度上建模像素之间的对应关系,并采用递归神经网络对不同尺度上的对应关系进行编码,能够更好地适应不同运动位移情况下的光流估计。
为实现上述目的,本发明的技术方案为:
基于多尺度对应结构化学习的光流估计方法,包括以下步骤:
S1、获取用于训练光流估计的连续帧图像数据集,并定义算法目标;
S2、在不同尺度上对连续两帧图像之间的对应进行结构化建模;
S3、对不同尺度上的对应关系进行联合编码;
S4、建立光流估计的预测模型;
S5、使用所述预测模型估计连续视频帧的光流图。
作为优选,步骤S1中,所述的用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O。
进一步的,步骤S2中,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
S21、对连续视频图像(XA,XB)train进行归一化后,随机进行包括放缩、旋转、平移、添加高斯噪声、对比度变换在内的操作,再从变换后的图像中裁剪出预设大小的图像块(IA,IB)train作为算法输入,根据图像的变换和运动规律对Otrain作相应的几何变换得到
Figure BDA0001306623820000021
S22、使用三层卷积操作对(IA,IB)train分别提取特征得到YA和YB,三层卷积操作中每一层加入ReLU激活函数,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
S23、对S22中得到的特征(YA,YB)进行多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},其中:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l、YB,l的尺寸分别小于YA,l+1、YB,l+1的尺寸;YA,l、YB,l分别由YA、YB经过卷积操作或max-pooling加卷积操作而得;
S24、在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量
Figure BDA0001306623820000031
其与YB,l中以(i,j)为中心且大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度
Figure BDA0001306623820000032
通过下式计算:
Figure BDA0001306623820000033
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标;
对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度,即得到该尺度上的对应关系Ml
S25、使用两层卷积操作进一步处理Ml,得到Ql,两层卷积操作中每一层加入ReLU激活函数,即:
Ql=f(Ml;θ3,l)
其中θ3,l是卷积参数。
作为优选步骤S3中,对不同尺度上的对应关系进行联合编码具体包括:
S31、使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Figure BDA0001306623820000034
Figure BDA0001306623820000035
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作;Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
S32、将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样的大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为参数。
S33、将Pl和IA的第二层卷积输出
Figure BDA0001306623820000041
拼接得到最终编码结果E:
Figure BDA0001306623820000042
作为优选步骤S4中,建立光流估计的预测模型具体包括:
S41、建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移
Figure BDA0001306623820000043
神经网络的结构表示为映射
Figure BDA0001306623820000044
以公式表示为:
Figure BDA0001306623820000045
其中θ5为由E预测
Figure BDA0001306623820000046
时所用的卷积参数;
S42、神经网络的损失函数为:
Figure BDA0001306623820000047
其中
Figure BDA0001306623820000048
表示(x,y)位置处像素在垂直方向上的预测位移,
Figure BDA0001306623820000049
表示(x,y)位置处像素在垂直方向上的真实位移,
Figure BDA00013066238200000410
表示(x,y)位置处像素在水平方向上的预测位移,
Figure BDA00013066238200000411
表示(x,y)位置处像素在水平方向上的真实位移。
使用Adam优化方法和反向传播算法在损失函数
Figure BDA00013066238200000412
下训练整个神经网络。
作为优选步骤S4中,估计连续视频帧的光流图包括,将一对连续视频帧(XA,XB)直接输入到神经网络,输出
Figure BDA00013066238200000413
即为预测的光流图。
本发明的基于多尺度对应结构化学习的光流估计方法,相比于现有的光流估计方法,具有以下有益效果:
首先,本发明的光流估计方法定义了光流估计中三个重要的问题,即像素或图像区域的鲁棒表示、像素之间对应关系的建模以及计算有效性。通过寻求这三个方向的解决方法,可以有效地解决复杂情况下的光流估计。
其次,本发明的光流估计方法基于深度卷积神经网络建立结构化对应模型以建模前两个关键问题,并具有计算有效性的优点。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征的提取和对应结构化模型的学习被统一在同一个框架里,提高了方法的最终效果。
最后,本发明的光流估计方法中提出将不同尺度上的对应关系看成一个序列,并通过利用递归神经网络建模不同尺度上对应之间的依赖关系而将其进行编码以预测光流。这种方法能够有效地将不同尺度上的对应关系融合,并保持原图中像素的空间拓扑结构。
本发明的基于多尺度对应结构化学习的光流估计方法,在视频分析和无人驾驶中,能够有效提高场景运动分析的准确度和效率,具有良好的应用价值。例如,在公共安全的应用场景里,本发明的光流估计方法能够快速和准确地预测场景中的运动规律,从而能够快速判断场景中有无异常事件发生,为公共场所的安防提供依据。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于多尺度对应结构化学习的光流估计方法,包括以下步骤:
首先,获取用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O。
其次,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
第一步,对连续视频图像(XA,XB)train进行归一化(除以255)后,随机进行放缩、旋转、平移、添加高斯噪声、对比度变换等操作,再从变换后的图像中裁剪出高320、宽448大小的图像块(IA,IB)train作为算法输入,根据对图像的变换和运动规律对Otrain作相应的几何变换(如放缩、旋转、平移、尺度变换等)得到
Figure BDA0001306623820000061
第二步,使用三层卷积操作(每一层加入ReLU激活函数)对(IA,IB)train分别提取特征得到YA和YB,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
第三步,对上一步中得到的特征(YA,YB)进行如下多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},即:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l(YB,l)的尺寸小于YA,l+1(YB,l+1)的尺寸。YA,l(YB,l)由YA(YB)经过卷积操作或max-pooling加卷积操作而得。
第四步,在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量
Figure BDA0001306623820000062
其与YB,l中以(i,j)为中心、大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度
Figure BDA0001306623820000063
可通过下式计算:
Figure BDA0001306623820000064
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标。对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度即可得到该尺度上的对应关系Ml
第五步,使用两层卷积操作(每一层加入ReLU激活函数)进一步处理Ml,得到Ql,即:
Ql=f(Ml;θ3,l)
其中θ3,l是卷积参数。
接下来,对不同尺度上的对应关系进行联合编码具体包括:
第一步,使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Figure BDA0001306623820000071
Figure BDA0001306623820000072
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作。Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
第二步,将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样的大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为S31中的参数。
第三步,将Pl和IA的第二层卷积输出
Figure BDA0001306623820000073
拼接得到最终编码结果E:
Figure BDA0001306623820000074
之后,建立光流估计的预测模型具体包括:
第一步,建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移
Figure BDA0001306623820000075
从而神经网络的结构可以表示为映射
Figure BDA0001306623820000076
用公式可以表示为:
Figure BDA0001306623820000077
其中θ5为由E预测
Figure BDA0001306623820000078
时所用的卷积参数。
第二步,神经网络的损失函数为:
Figure BDA0001306623820000081
其中
Figure BDA0001306623820000082
表示(x,y)位置处像素在垂直方向上的预测位移,
Figure BDA0001306623820000083
表示(x,y)位置处像素在垂直方向上的真实位移,
Figure BDA0001306623820000084
表示(x,y)位置处像素在水平方向上的预测位移,
Figure BDA0001306623820000085
表示(x,y)位置处像素在水平方向上的真实位移。
使用Adam优化方法和反向传播算法在损失函数
Figure BDA0001306623820000086
下训练整个神经网络。
最后,使用建立的模型对输入的一对连续视频帧预测光流。具体包括,将一对连续视频帧(XA,XB)输入到神经网络(省去放缩、旋转、平移、添加高斯噪声、对比度变换、裁剪等操作),输出
Figure BDA0001306623820000087
即为预测的光流图。
上述实施例中,本发明的光流估计方法首先分别在不同尺度上对像素之间的对应关系进行结构化建模并使用递归神经网络编码不同尺度上的对应关系。在此基础上,将原问题转化为端到端的结构化学习问题,并基于深度神经网络建立光流估计模型。最后,利用训练好的光流估计模型来预测新的一对连续视频帧的光流信息。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于多尺度对应结构化学习的光流估计方法。本发明可以在不同尺度上建模像素之间的对应关系并建模不同尺度上对应之间的依赖关系,从而估计准确的光流信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多尺度对应结构化学习的光流估计方法,其特征在于,包括以下步骤:
S1、获取用于训练光流估计的连续帧图像数据集,并定义算法目标;
S2、在不同尺度上对连续两帧图像之间的对应进行结构化建模;
S3、对不同尺度上的对应关系进行联合编码;
S4、建立光流估计的预测模型;
S5、使用所述预测模型估计连续视频帧的光流图;
所述步骤S1中,所述的用于训练光流模型的连续视频帧数据集,包括连续的视频帧对(XA,XB)train,人工标注的光流图Otrain
定义算法目标为:预测连续两帧视频图像中第一帧的光流图O;
所述步骤S2中,在不同尺度上对连续两帧图像之间的对应进行结构化建模具体包括:
S21、对连续视频图像(XA,XB)train进行归一化后,随机进行包括放缩、旋转、平移、添加高斯噪声、对比度变换在内的操作,再从变换后的图像中裁剪出预设大小的图像块(IA,IB)train作为算法输入,根据图像的变换和运动规律对Otrain作几何变换得到
Figure FDA0002458408930000011
S22、使用三层卷积操作对(IA,IB)train分别提取特征得到YA和YB,三层卷积操作中每一层加入ReLU激活函数,即:
YA=f(IA;θ1)
YB=f(IB;θ1)
其中θ1为卷积参数;f(;)表示卷积操作;
S23、对S22中得到的特征(YA,YB)进行多尺度表示:
{(YA,l,YB,l),l=1,2,3,4},其中:
YA,l=f(YA;θ2,l)
YB,l=f(YB;θ2,l)
其中{θ2,l}为卷积参数,且YA,l、YB,l的尺寸分别小于YA,l+1、YB,l+1的尺寸;YA,l、YB,l分别由YA、YB经过卷积操作或max-pooling加卷积操作而得;
S24、在每个尺度上分别计算两个特征图之间的对应关系,对于YA,l中(i,j)位置处的特征向量
Figure FDA0002458408930000021
其与YB,l中以(i,j)为中心且大小为(2d+1)×(2d+1)的区域块S(i,j;d)内所有位置的相似度
Figure FDA0002458408930000022
通过下式计算:
Figure FDA0002458408930000023
其中C{·}表示将集合内元素串接成一个向量,<·>表示内积运算;d为假定的最大位移的绝对值,k表示计算相似度时所用区域块的大小为(2k+1)×(2k+1),p和q分别为S(i,j;d)内每个位置的水平方向和垂直方向的坐标;
对YA,l每个空间位置上的特征向量均按照上式计算其与YB,l对应位置集合上的特征向量之间的相似度,即得到该尺度上的对应关系Ml
S25、使用两层卷积操作进一步处理Ml,得到Ql,两层卷积操作中每一层加入ReLU激活函数,即:
Ql=f(Ml;θ3,l)
其中θ3,l 是卷积参数。
2.如权利要求1所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S3中,对不同尺度上的对应关系进行联合编码具体包括:
S31、使用卷积GRU从Q1到Q4建模它们之间的依赖关系,即按照以下公式得到每一个尺度隐藏层的输出Hl
Zl=σ(Wz*Ql+Uz*Hl-1,↑)
Rl=σ(Wr*Ql+Ur*Hl-1,↑)
Figure FDA0002458408930000024
Figure FDA0002458408930000025
Hl,↑=W*Hl
其中*和⊙分别表示卷积和矩阵对应元素相乘操作,σ表示sigmoid函数,*表示反卷积操作;Wz、Uz、Rl、Wr、Ur、W、U以及Zl均为卷积核;tanh表示双曲正切函数;
S32、将每个尺度的隐藏层输出Hl上采样到和网络第二层卷积输出特征图同样大小,得到Pl
Pl=f(Ql;θ4)
其中θ4:={Wz,Uz,Wr,Ur,W,U,W}为参数;
S33、将Pl和IA的第二层卷积输出
Figure FDA0002458408930000031
拼接得到最终编码结果E:
Figure FDA0002458408930000032
3.如权利要求2所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S4中,建立光流估计的预测模型具体包括:
S41、建立深度卷积神经网络,神经网络的输入为一对连续视频帧(XA,XB),输出为相对于XB,XA中每个像素的运动位移
Figure FDA0002458408930000033
神经网络的结构表示为映射
Figure FDA0002458408930000034
以公式表示为:
Figure FDA0002458408930000035
其中θ5为由E预测
Figure FDA0002458408930000036
时所用的卷积参数;
S42、神经网络的损失函数为:
Figure FDA0002458408930000037
其中
Figure FDA0002458408930000038
表示(x,y)位置处像素在垂直方向上的预测位移,
Figure FDA0002458408930000039
表示(x,y)位置处像素在垂直方向上的真实位移,
Figure FDA00024584089300000310
表示(x,y)位置处像素在水平方向上的预测位移,
Figure FDA00024584089300000311
表示(x,y)位置处像素在水平方向上的真实位移;
使用Adam优化方法和反向传播算法在损失函数
Figure FDA00024584089300000312
下训练整个神经网络。
4.如权利要求3所述的基于多尺度对应结构化学习的光流估计方法,其特征在于,步骤S4中,估计连续视频帧的光流图包括,将一对连续视频帧(XA,XB)直接输入到神经网络,输出
Figure FDA00024584089300000313
即为预测的光流图。
CN201710387001.XA 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法 Active CN107292912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710387001.XA CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710387001.XA CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Publications (2)

Publication Number Publication Date
CN107292912A CN107292912A (zh) 2017-10-24
CN107292912B true CN107292912B (zh) 2020-08-18

Family

ID=60095394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710387001.XA Active CN107292912B (zh) 2017-05-26 2017-05-26 一种基于多尺度对应结构化学习的光流估计方法

Country Status (1)

Country Link
CN (1) CN107292912B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010538B (zh) * 2017-12-22 2021-08-24 北京奇虎科技有限公司 音频数据处理方法及装置、计算设备
CN108241854B (zh) * 2018-01-02 2021-11-09 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN108235001B (zh) * 2018-01-29 2020-07-10 上海海洋大学 一种基于时空特征的深海视频质量客观评价方法
CN108900446B (zh) * 2018-05-28 2021-03-30 南京信息工程大学 基于门控循环单元神经网络的坐标变换常模盲均衡方法
CN108769674B (zh) * 2018-06-27 2019-11-12 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN108881952B (zh) * 2018-07-02 2021-09-14 上海商汤智能科技有限公司 视频生成方法及装置、电子设备和存储介质
CN110751672B (zh) * 2018-07-24 2022-06-21 深圳地平线机器人科技有限公司 利用稀释卷积实现多尺度光流像素变换的方法和装置
CN109151474B (zh) * 2018-08-23 2020-10-30 复旦大学 一种生成新视频帧的方法
CN109389035A (zh) * 2018-08-30 2019-02-26 南京理工大学 基于多特征和帧置信分数的低延迟视频动作检测方法
CN109068174B (zh) * 2018-09-12 2019-12-27 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及***
CN109344761B (zh) * 2018-09-26 2021-03-19 国信优易数据股份有限公司 一种视频状态确定方法和装置
CN111113404B (zh) * 2018-11-01 2023-07-04 阿里巴巴集团控股有限公司 一种机器人获得位置服务的方法及机器人
CN109410253B (zh) * 2018-11-06 2019-11-26 北京字节跳动网络技术有限公司 用于生成信息的方法、装置、电子设备和计算机可读介质
CN109816611B (zh) 2019-01-31 2021-02-12 北京市商汤科技开发有限公司 视频修复方法及装置、电子设备和存储介质
CN110111366B (zh) * 2019-05-06 2021-04-30 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN110378936B (zh) * 2019-07-30 2021-11-05 北京字节跳动网络技术有限公司 光流计算方法、装置及电子设备
CN115104125A (zh) * 2020-02-19 2022-09-23 华为技术有限公司 光流获取方法和装置
CN114677412B (zh) * 2022-03-18 2023-05-12 苏州大学 一种光流估计的方法、装置以及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
WO2010006001A2 (en) * 2008-07-08 2010-01-14 Harris Corporation Optical flow registration of panchromatic/multi-spectral image pairs
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014133597A1 (en) * 2013-02-26 2014-09-04 Spinella Ip Holdings, Inc. Determination of object occlusion in an image sequence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
WO2010006001A2 (en) * 2008-07-08 2010-01-14 Harris Corporation Optical flow registration of panchromatic/multi-spectral image pairs
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FlowNet: Learning Optical Flow with Convolutional Networks;Alexey Dosovitskiy等;《IEEE》;20160218;第2758-2765页 *
改进的基于光流的鲁棒多尺度运动估计算法;黄赞等;《华南理工大学学报(自然科学版)》;20091130;第37卷(第11期);第118-122页 *

Also Published As

Publication number Publication date
CN107292912A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107292912B (zh) 一种基于多尺度对应结构化学习的光流估计方法
Chen et al. Spatial information guided convolution for real-time RGBD semantic segmentation
EP3510561B1 (en) Predicting depth from image data using a statistical model
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
US10803546B2 (en) Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN110443883B (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN111178142A (zh) 一种基于时空上下文学习的手部姿态估计方法
CN115588038A (zh) 一种多视角深度估计方法
Lu et al. An improved graph cut algorithm in stereo matching
CN109903315A (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN114677412A (zh) 一种光流估计的方法、装置以及设备
CN115035172A (zh) 基于置信度分级及级间融合增强的深度估计方法及***
Rara et al. Model-based 3D shape recovery from single images of unknown pose and illumination using a small number of feature points
CN116385660A (zh) 室内单视图场景语义重建方法及***
Komatsu et al. Octave deep plane-sweeping network: reducing spatial redundancy for learning-based plane-sweeping stereo
CN116664649A (zh) 一种矿井增强现实无人开采工作面深度估计方法
CN115861647A (zh) 一种基于多尺度全局交叉匹配的光流估计方法
Chowdhury et al. Fast stereo matching with fuzzy correlation
CN115131414A (zh) 基于深度学习的无人机图像对齐方法、电子设备和存储介质
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
CN108701206B (zh) 用于面部对准的***和方法
CN116385455B (zh) 基于梯度场标签的浮选泡沫图像实例分割方法和装置
Zhou et al. Attentive Multimodal Fusion for Optical and Scene Flow
US20220383573A1 (en) Frame interpolation for rendered content
Wang et al. E-HANet: Event-based hybrid attention network for optical flow estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant