CN106780543B - 一种基于卷积神经网络的双框架估计深度和运动方法 - Google Patents

一种基于卷积神经网络的双框架估计深度和运动方法 Download PDF

Info

Publication number
CN106780543B
CN106780543B CN201710025984.2A CN201710025984A CN106780543B CN 106780543 B CN106780543 B CN 106780543B CN 201710025984 A CN201710025984 A CN 201710025984A CN 106780543 B CN106780543 B CN 106780543B
Authority
CN
China
Prior art keywords
network
depth
image
decoder
camera motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710025984.2A
Other languages
English (en)
Other versions
CN106780543A (zh
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710025984.2A priority Critical patent/CN106780543B/zh
Publication of CN106780543A publication Critical patent/CN106780543A/zh
Application granted granted Critical
Publication of CN106780543B publication Critical patent/CN106780543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明中提出的一种基于卷积神经网络的图像像素分类方法,其主要内容包括:图像输入、自助网络处理、迭代处理、图像细化、获得估计结果,其过程为,采用卷积网络估计深度和相机运动,它包含三个阶段:从场景数据集采样图像对并丢弃具有高光一致性误差的图像对;接下来,预处理后的图像对输入自助网络中分别计算光流、深度和相机运动;然后,经由迭代网络多次迭代反复改进现有的估计结果;最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显优于传统的运动结构,结果更准确和更鲁棒;与从单个图像估计深度的网络不同,本网络学习匹配的概念,可以利用运动视差,从而处理新类型的场景,并且允许估计运动。

Description

一种基于卷积神经网络的双框架估计深度和运动方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于卷积神经网络的双框架估计深度和运动方法。
背景技术
随着科技技术迅速发展,在深度学习研究领域,运动结构是计算机视觉中的长期任务。代表现有技术的***是由几个连续处理步骤组成的精心设计的管线,这些***具有某些固有的局限性。在开始估计相机运动之前,通常先通过稠密一致搜索来推断场景的结构,相机运动的不正确估计导致错误的深度预测。此外,根据关键点检测和描述符匹配计算的稀疏一致来估计相机运动的过程易于出现异常,并且在非纹理区域中不起作用,而且所有的运动结构方法不适应于小型相机的情况。而如果采用基于卷积神经网络的双框架估计深度和运动方法,则可以从一个无约束图像对联合估计深度和相机运动,还可以应用于机器人视觉导航、地图生成、航空勘测、目标识别以及计算机图像学中的虚拟现实等领域。
本发明提出了一种基于卷积神经网络的双框架估计深度和运动方法,它采用端到端的卷积网络估计深度和相机运动,它包含三个阶段:从场景数据集采样图像对并丢弃具有高光一致性误差的图像对;接下来,预处理后的图像对输入自助网络中第一编码器-解码器网络和第二编码器-解码器网络中分别计算光流、深度和相机运动;然后,经由迭代网络多次迭代反复改进现有的估计结果;最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显由于传统的双框架运动结构,结果更准确和更鲁棒,因为它是端对端训练的,并且学习从X个线索集成其他形状;与从单个图像估计深度的网络不同,本网络学习匹配的概念,可以利用运动视差,从而处理新类型的场景,并且允许估计运动。
发明内容
针对深度和相机运动估计不准确和适用范围不广泛的问题,本发明的目的在于提供一种基于卷积神经网络的双框架估计深度和运动方法。
为解决上述问题,本发明提供一种基于卷积神经网络的双框架估计深度和运动方法,其主要内容包括:
(一)图像输入;
(二)自助网络处理;
(三)迭代处理;
(四)图像细化;
(五)获得估计结果。
其中,一种基于卷积神经网络的双框架估计深度和运动方法,包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动;该架构由多个堆叠的编码器-解码器网络组成,包括自助网络、迭代网络和细化网络,核心部分是能够改进自身预测的迭代网络;网络不仅估计深度和运动,而且还估计表面法线、图像之间的光流以及匹配的置信度。
其中,所述的图像输入,选取有深度和相机姿势的室内场景图像作为场景数据集,包括从卡通到写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
其中,所述的自助网络处理,自助网络获取图像对作为输入,并输出初始深度和运动估计;由编码器-解码器网络对组成,其中第一个计算光流,而第二个计算深度和相机运动。
进一步地,所述的第一编码器-解码器网络,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器允许使用空间大的滤波器,同时保持参数的数量和运行时间可管理,在增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
进一步地,所述的第二编码器-解码器网络,将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入;基于这些输入,它估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,该架构与第一编码器-解码器网络相同。
其中,所述的迭代处理,该编码器-解码器对的架构与自助网络相同,但它需要额外的输入;训练迭代网络以改进现有的深度、法线和运动估计;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到第二编码器-解码器中。
进一步地,所述的训练优化,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动;与通过时间反向传播相比,这节省了大量的内存,并允许训练一个更大的网络和更多的迭代。
其中,所述的图像细化,通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出高分辨率图像对(256×192)。
其中,所述的图像细化,采用由θ3参数化的深度残差卷积神经网络作为细化子网;在训练期间,细化子网的输入图像没有重新调整为1024×1024,仍是512×512的分辨率;细化子网删除图像的局部像素化伪影,并进一步细化结果,最后获得最具视觉吸引力的高分辨率图像
进一步地,所述的获取估计结果,该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果;获取结果之前必须参数化深度和运动:用表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得‖t‖=1;这样,该网络学***移向量;
网络估计逆深度ξ=1/Z,而不是深度Z;逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
附图说明
图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的***流程图。
图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。
图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。
图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的***流程图。主要包括图像输入;自助网络处理;迭代处理;图像细化;获得估计结果。
其中,所述的图像输入,选取有深度和相机姿势的室内场景图像作为场景数据集,包括从卡通到写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
其中,所述的自助网络处理,自助网络获取图像对作为输入,并输出初始深度和运动估计;由编码器-解码器网络对组成,其中第一个计算光流,而第二个计算深度和相机运动。
进一步地,所述的第一编码器-解码器网络,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器允许使用空间大的滤波器,同时保持参数的数量和运行时间可管理,在增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
进一步地,所述的第二编码器-解码器网络,将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入;基于这些输入,它估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,该架构与第一编码器-解码器网络相同。
其中,所述的迭代处理,该编码器-解码器对的架构与自助网络相同,但它需要额外的输入;训练迭代网络以改进现有的深度、法线和运动估计;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到第二编码器-解码器中。
进一步地,所述的训练优化,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动;与通过时间反向传播相比,这节省了大量的内存,并允许训练一个更大的网络和更多的迭代。
其中,所述的图像细化,通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出高分辨率图像对(256×192)。
其中,所述的图像细化,采用由θ3参数化的深度残差卷积神经网络作为细化子网;在训练期间,细化子网的输入图像没有重新调整为1024×1024,仍是512×512的分辨率;细化子网删除图像的局部像素化伪影,并进一步细化结果,最后获得最具视觉吸引力的高分辨率图像
进一步地,所述的获取估计结果,该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果;获取结果之前必须参数化深度和运动:用表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得‖t‖=1;这样,该网络学***移向量;
网络估计逆深度ξ=1/Z,而不是深度Z;逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。该架构是解决不同任务的编码器-解码器网络链,采用图像对作为输入,预测第一图像的深度图和第二图像相机的相对姿态。其包括三个主要部分:自助网络,迭代网络和细化网络。前两个部分是编码器解码器网络对,其中第一个计算光流,而第二个计算深度和相机运动;递归地应用迭代网络以连续地改进先前迭代的估计。最后一个部分是单个编码器-解码器网络,它生成最终上采样和细化的深度图。
图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。具有灰色字体的输入仅可用于迭代网络。第一编码器-解码器从图像对和先前的估计预测光流和其置信度。第二编码器-解码器预测深度图和表面法线。附加到编码器的完全连接层的网络估计相机运动r,t和深度比例因子s。比例因子s关联深度值与相机运动。
图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。选取有深度和相机姿势的室内场景图像作为场景数据集,包括图中第一行的现实室内场景和图中第二行的卡通形象的室内场景这两类不同的场景图像;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (6)

1.一种基于卷积神经网络的双框架估计深度和运动方法,其特征在于,主要包括:
(一)图像输入,具体包括:输入有深度和相机姿势的室内场景图像作为场景数据集,包括卡通、写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中;
(二)通过自助网络输出初始深度和运动估计,具体包括:自助网络获取图像对作为输入,并输出初始深度和运动估计;自助网络由第一编码器-解码器网络及第二编码器-解码器网络组成,第一编码器-解码器网络用于计算光流,第二编码器-解码器网络用于计算深度和相机运动;
(三)利用迭代网络改进深度法线和运动估计,具体包括:使用两个编码器-解码器网络组成迭代网络进行迭代处理,训练迭代网络以改进现有的深度、法线和运动估计;迭代网络的架构与自助网络相同,但需要额外的输入;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到所述迭代网络的第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到所述迭代网络的第二编码器-解码器中;
(四)使用细化网络调整输入图像分辨率,具体包括:通过自助网络和迭代网络得到低分辨率图像对,即64×48作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出256×192的高分辨率图像对;
(五)通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果。
2.基于权利要求1所述的基于卷积神经网络的双框架 估计深度和运动方法,其特征在于,包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动,双框架架构由多个堆叠的编码器-解码器网络组成,包括自助网络、迭代网络和细化网络,核心部分是能够改进自身预测的迭代网络;网络不仅估计深度和运动,而且还估计表面法线、图像之间的光流以及匹配的置信度。
3.基于权利要求1所述的基于卷积神经网络的双框架估计深度和运动方法,其特征在于,所述第一编码器-解码器网络,具体包括,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器保持参数的数量和运行时间可管理,增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
4.基于权利要求1所述的基于卷积神经网络的双框架估计深度和运动方法,其特征在于,所述第二编码器-解码器网络,具体包括:将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入,基于这些输入,第二编码器-解码器网络估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,第二编码器-解码器网络与第一编码器-解码器网络相同。
5.基于权利要求1所述的基于卷积神经网络的双框架估计深度和运动方法,其特征在于,所述训练迭代网络,具体包括,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动。
6.基于权利要求1所述的基于卷积神经网络的双框架估计深度和运动方法,其特征在于,所述(五)通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果,具体包括:获取结果之前必须参数化深度和运动:用r,表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得||t||=1,学***移向量;
网络估计逆深度ξ=1/Z,而不是深度逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
CN201710025984.2A 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法 Active CN106780543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710025984.2A CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710025984.2A CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Publications (2)

Publication Number Publication Date
CN106780543A CN106780543A (zh) 2017-05-31
CN106780543B true CN106780543B (zh) 2019-06-28

Family

ID=58946601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025984.2A Active CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Country Status (1)

Country Link
CN (1) CN106780543B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527358B (zh) * 2017-08-23 2020-05-12 北京图森智途科技有限公司 一种稠密光流估计方法及装置
US11113832B2 (en) * 2017-11-03 2021-09-07 Google Llc Aperture supervision for single-view depth prediction
US10803546B2 (en) * 2017-11-03 2020-10-13 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN108491763B (zh) * 2018-03-01 2021-02-02 北京市商汤科技开发有限公司 三维场景识别网络的无监督训练方法、装置及存储介质
CN108615244B (zh) * 2018-03-27 2019-11-15 中国地质大学(武汉) 一种基于cnn和深度滤波器的图像深度估计方法及***
CN110335228B (zh) * 2018-03-30 2021-06-25 杭州海康威视数字技术股份有限公司 一种图像视差的确定方法、装置及***
CN108648216B (zh) * 2018-04-19 2020-10-09 长沙学院 一种基于光流与深度学习的视觉里程计实现方法和***
CN108764347B (zh) * 2018-05-30 2021-09-24 大连理工大学 基于卷积神经网络的地球仪国家图像识别方法
US10803606B2 (en) * 2018-07-19 2020-10-13 National Taiwan University Temporally consistent belief propagation system and method
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法
US11016495B2 (en) * 2018-11-05 2021-05-25 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
CN109919874B (zh) * 2019-03-07 2023-06-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111414975B (zh) * 2020-04-05 2024-03-12 北京工业大学 一种基于移动摄像机和神经网络的运动矢量预测方法
CN113822918B (zh) * 2020-04-28 2024-07-12 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN113822201B (zh) * 2021-09-24 2023-01-06 大连海事大学 基于流场速度分量时程的水下物体外形识别的深度学习方法
CN114485417B (zh) * 2022-01-07 2022-12-13 哈尔滨工业大学 一种结构振动位移识别方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036425B2 (en) * 2008-06-26 2011-10-11 Billy Hou Neural network-controlled automatic tracking and recognizing system and method
CN105868797B (zh) * 2015-01-22 2019-09-13 清华大学 识别景物类型的网络参数训练方法、景物类型识别方法及装置
CN104899561A (zh) * 2015-05-27 2015-09-09 华南理工大学 一种并行化的人体行为识别方法
CN105139401A (zh) * 2015-08-31 2015-12-09 山东中金融仕文化科技股份有限公司 一种深度图中深度的可信度的评估方法
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN105740909B (zh) * 2016-02-02 2017-06-13 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106203354B (zh) * 2016-07-14 2019-04-12 南京信息工程大学 基于混合深度结构的场景识别方法

Also Published As

Publication number Publication date
CN106780543A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN107204010B (zh) 一种单目图像深度估计方法与***
CN113706714B (zh) 基于深度图像和神经辐射场的新视角合成方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
US20200265597A1 (en) Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Magoulianitis et al. Does deep super-resolution enhance uav detection?
CN110473284B (zh) 一种基于深度学习的运动物体三维模型重建方法
CN111275518A (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN110246181A (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和***
JP2021518622A (ja) 自己位置推定、マッピング、およびネットワークトレーニング
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN112308918B (zh) 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN110942512B (zh) 基于元学习的室内场景重建方法
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN114049434A (zh) 一种基于全卷积神经网络的3d建模方法及***
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及***
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant