CN111882661A - 一种视频的立体场景重建方法 - Google Patents

一种视频的立体场景重建方法 Download PDF

Info

Publication number
CN111882661A
CN111882661A CN202010727956.7A CN202010727956A CN111882661A CN 111882661 A CN111882661 A CN 111882661A CN 202010727956 A CN202010727956 A CN 202010727956A CN 111882661 A CN111882661 A CN 111882661A
Authority
CN
China
Prior art keywords
frame
sequence
video
frames
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010727956.7A
Other languages
English (en)
Other versions
CN111882661B (zh
Inventor
高跃
李仁杰
赵曦滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010727956.7A priority Critical patent/CN111882661B/zh
Publication of CN111882661A publication Critical patent/CN111882661A/zh
Application granted granted Critical
Publication of CN111882661B publication Critical patent/CN111882661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视频的立体场景重建方法,其中,该方法包括:步骤1.训练样本处理,把视频帧和激光雷达扫描到的稀疏深度图帧组合为一定长度的帧序列,用于训练;步骤2.模型训练,将预处理后的样本中的视频帧和稀疏深度图帧按顺序输入模型,与样本真实值计算损失后,使用反向传播更新模型参数;步骤3.将测试数据逐帧输入模型,得到每一帧对应的深度重建结果。本发明通过提取视频中的连续特征,可以得到更准确的重建结果。

Description

一种视频的立体场景重建方法
技术领域
本申请涉及立体场景重建的技术领域,具体而言,涉及一种基于视频的立体场景重建方法。
背景技术
近年来,自动驾驶、虚拟现实等技术被越来越多地应用在生活中,从传感器采集到的数据中重建出立体场景是实现这些技术的重要一步。现有的技术使用一些传统图形学方法、使用RGB图片导引或利用场景的结构信息来对立体场景进行重建。这些方法均把不同时刻的场景当作孤立的对象处理,没有考虑时间上的连续性这一现实场景的重要特性。通过利用视频这一数据模态中的连续性信息,可以提高场景的重建效果。
传统的利用视频的连续性的手段包括利用相邻帧梯度、特征点匹配、位姿估计等。神经网络则使用循环结构将历史特征编码在隐藏态中。对于图像序列,循环结构将带来较大的空间开销和较高的训练难度。
发明内容
本发明的目的是通过循环网络结构,提取视频中的时间连续特征,利用场景的连续性,得到更好的场景重建结果。
本发明的技术方案是提供了一种基于视频的立体场景重建方法,其特征在于包括如下步骤:
步骤1、训练样本处理,将视频帧和激光雷达帧扫描到的稀疏深度帧调整到合适的大小,将用作监督数据的稠密深度帧调整到合适的大小后取一个合适大小的子图;将预处理后的视频帧、稀疏深度帧和稠密深度帧划分为一定长度的帧序列,作为训练数据;
步骤2、进行模型训练,对于每一个预处理后的帧序列,将帧序列中的每一帧按照顺序输入模型,得到每一帧的预测结果;将每一帧的预测结果和每一帧的监督数据输入损失函数中,使用反向传播的方法对模型的权重参数进行更新;
步骤3、使用步骤2中训练好的模型进行预测。
进一步地,步骤1中,使用KITTI数据集中的480个帧序列,21000帧作为训练数据集,把这些帧序列切分为若干个长度为4的帧序列,然后将视频帧和激光雷达帧扫描到的稀疏深度帧调整到375*1242像素大小,将用作监督数据的稠密深度帧调整到375*1242像素大小后取上方370*1242像素的子图。
进一步地,步骤2中包括:
步骤2.1、随机选择一个未被选择过的训练序列输入模型;
步骤2.2、对于一个训练序列((I1,d1,g1),(I2,d2,g2),...,(I4,d4,g4)),其中:Ik、dk,和gk分别是输入视频帧、输入稀疏深度帧和用于监督的半稠密深度帧,按顺序将每一帧输入模型,得到预测帧序列(p1,p2,...,p4)。然后按照如下方式计算损失:
Figure BDA0002598593280000021
其中,L1和L2是范数损失函数,其中,L1为平均绝对值误差,L2为平均平方误差。
步骤2.3、使用步骤2.2中描述的损失函数计算梯度,并使用lr=0.001,β1=0.9,β2=0.999的ADAM优化器更新网络参数,其中lr是优化器的学习率,β1和β2是权重衰减超参数;
步骤2.4、重复步骤2.1到步骤2.3直到所有序列都被选择过,然后将所有序列都标记为未被选择过;
步骤2.5、重复步骤2.1到步骤2.4直到模型收敛。
进一步地,步骤3中包括:
步骤3.1、将输入视图视频帧和稀疏深度帧处理成步骤1中的大小并按照时间顺序形成一个帧序列;
步骤3.2、对于帧序列中的每一帧,将其输入编码器中得到时间连续性的特征:
步骤3.3、将步骤3.2中得到的时间连续性特征输入稠密深度解码器,得到当前帧的重建结果。
本申请的有益效果是:使用循环神经网络结构,提取和维持视频的历史信息,通过场景的连续特征,得到更为准确的立体场景重建结果。
附图说明
图1是根据本申请的一个实施例的基于视频的立体场景重建方法的示意流程图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
如图1所示,该实施例提供了一种基于视频的立体场景重建方法,包括如下步骤:
步骤1、训练样本处理,将视频帧和激光雷达帧扫描到的稀疏深度帧调整到合适的大小,将用作监督数据的稠密深度帧调整到合适的大小后取一个合适大小的子图;将预处理后的视频帧、稀疏深度帧和稠密深度帧划分为一定长度的帧序列,作为训练数据;
该步骤中,使用KTTTI数据集中的480个帧序列,约21000帧作为训练数据集,把这些帧序列切分为若干个长度为4的帧序列,然后将视频帧和激光雷达帧扫描到的稀疏深度帧调整到375*1242大小,将用作监督数据的稠密深度帧调整到375*1242大小后取上方370*1242像素的子图。
步骤2、进行模型训练,对于每一个预处理后的帧序列,将帧序列中的每一帧按照顺序输入模型,得到每一帧的预测结果。将每一帧的预测结果和每一帧的监督数据输入损失函数中,使用反向传播的方法对模型的权重参数进行更新。
该步骤中,选择L1和L2损失权
重超参数λ1=0.2、λ2=0.8,以及一组序列损失权重(w1,w2,w3,w4)=(0.8,0.9,1.0,1.0)。然后进行如下步骤
步骤2.1、随机选择一个未被选择过的训练序列输入模型。
步骤2.2、对于一个训练序列((I1,d1,g1),(I2,d2,g2),...,(I4,d4,g4)),其中Ik、dk,和gk分别是输入视频帧、输入稀疏深度帧和用于监督的半稠密深度帧,按顺序将每一帧输入模型,得到预测帧序列(p1,p2,...,p4)。然后按照如下方式计算损失:
Figure BDA0002598593280000041
其中,其中,L1和L2是范数损失函数,其中,L1为平均绝对值误差,L2为平均平方误差。
步骤2.3、使用步骤2.2中描述的损失函数计算梯度,并使用lr=0.001,β1=0.9,β2=0.999的ADAM优化器更新网络参数,其中lr是优化器的学习率,β1和β2是权重衰减超参数。
步骤2.4、重复步骤2.1到步骤2.3直到所有序列都被选择过,然后将所有序列都标记为未被选择过。
步骤2.5、重复步骤2.1到步骤2.4直到模型收敛。
步骤3、使用步骤2中训练好的模型进行预测
步骤3.1、将输入视图视频帧和稀疏深度帧处理成步骤1中的大小并按照时间顺序形成一个帧序列。
步骤3.2、对于帧序列中的每一帧,将其输入编码器中得到时间连续性的特征:
步骤3.2.1、对于视图视频帧,将其输入到视图特征编码器中,得到编码后的视图特征。具体地,视图特征编码器依次包括::7*7卷积;2*2的平均池化;1*1卷积;两个Resblock;2*2的平均池化;一个Resblock;2*2的平均池化。
步骤3.2.2、对于稀疏深度帧,将其输入到稀疏深度特征编码器,得到连续稀疏深度特征,具体地,稀疏深度特征编码器依次包括:7*7卷积;2*2平均池化;1*1卷积;一个Resblock;一个CLSTM;一个Resblock;一个CLSTM;2*2的平均池化;一个Resblock;一个CLSTM;2*2的平均池化。其中,Resblock主要提取当前帧的特征,CLSTM主要融合当前帧和历史帧的特征,得到连续性特征,并对此特征进行维持。
步骤3.2.3、将步骤3.2.1得到的视图特征和步骤3.2.2.得到的连续稀疏深度特征连接,得到完整的编码后的时间连续性特征。
步骤3.3、将步骤3.2中得到的时间连续性特征输入稠密深度解码器,得到当前帧的重建结果,具体地,稠密深度解码器依次包括:1*1卷积;双线性上采样;残差连接;Resblock;上采样;残差连接;Resblock;残差连接;上采样;Resblock;批归一化;ReLU激活函数;1*1卷积;
步骤3中所提到的Resblock,依次包含:其中Resblock依次包括:批归一化;ReLU激活函数;3*3卷积;批归一化;ReLU激活函数;3*3卷积;与输入特征的残差连接;3*3卷积;
步骤3中所提到的CLSTM,采用如下方式计算:
rt=[xt,ht-1]
Figure BDA0002598593280000061
Figure BDA0002598593280000062
Figure BDA0002598593280000063
Figure BDA0002598593280000064
Figure BDA0002598593280000065
ht=ot*tanh(Ct)
其中,x,o,h,C分别是输入特征、输出特征、网络隐藏状态和网络细胞状态;Wfr,Wfc,Wir,Wic,Wc,Wor,Woc分别是卷积的可训练权重参数;bf,bi,bc,bo分别是卷积的可训练偏置参数;*和
Figure BDA0002598593280000066
分别代表哈达玛积和卷积。σ代表sigmoid函数,[]代表张量连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (4)

1.一种基于视频的立体场景重建方法,其特征在于包括如下步骤:
步骤1、训练样本处理,将视频帧和激光雷达帧扫描到的稀疏深度帧调整到合适的大小,将用作监督数据的稠密深度帧调整到合适的大小后取一个合适大小的子图;将预处理后的视频帧、稀疏深度帧和稠密深度帧划分为一定长度的帧序列,作为训练数据;
步骤2、进行模型训练,对于每一个预处理后的帧序列,将帧序列中的每一帧按照顺序输入模型,得到每一帧的预测结果;将每一帧的预测结果和每一帧的监督数据输入损失函数中,使用反向传播的方法对模型的权重参数进行更新;
步骤3、使用步骤2中训练好的模型进行预测。
2.根据权利要求1所述的基于视频的立体场景重建方法,其特征在于,步骤1中,使用KITTI数据集中的480个帧序列,21000帧作为训练数据集,把这些帧序列切分为若干个长度为4的帧序列,然后将视频帧和激光雷达帧扫描到的稀疏深度帧调整到375*1242像素大小,将用作监督数据的稠密深度帧调整到375*1242像素大小后取上方370*1242像素的子图。
3.根据权利要求1所述的基于视频的立体场景重建方法,其特征在于,步骤2中包括:
步骤2.1、随机选择一个未被选择过的训练序列输入模型;
步骤2.2、对于一个训练序列((I1,d1,g1),(I2,d2,g2),…,(I4,d4,g4)),其中:Ik、dk,和gk分别是第k帧输入视频帧、输入稀疏深度帧和用于监督的半稠密深度帧,按顺序将每一帧输入模型,得到预测帧序列(p1,p2,…,p4)。然后按照如下方式计算损失:
Figure FDA0002598593270000011
Figure FDA0002598593270000021
其中,L1和L2是范数损失函数,其中,L1为平均绝对值误差,L2为平均平方误差。
步骤2.3、使用步骤2.2中描述的损失函数计算梯度,并使用lr=0.001,β1=0.9,β2=0.999的ADAM优化器更新网络参数,其中lr是优化器的学习率,β1和β2是权重衰减超参数;
步骤2.4、重复步骤2.1到步骤2.3直到所有序列都被选择过,然后将所有序列都标记为未被选择过;
步骤2.5、重复步骤2.1到步骤2.4直到模型收敛。
4.根据权利要求1所述的基于视频的立体场景重建方法,其特征在于,步骤3中包括:
步骤3.1、将输入视图视频帧和稀疏深度帧处理成步骤1中的大小并按照时间顺序形成一个帧序列;
步骤3.2、对于帧序列中的每一帧,将其输入编码器中得到时间连续性的特征:
步骤3.3、将步骤3.2中得到的时间连续性特征输入稠密深度解码器,得到当前帧的重建结果。
CN202010727956.7A 2020-07-23 2020-07-23 一种视频的立体场景重建方法 Active CN111882661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727956.7A CN111882661B (zh) 2020-07-23 2020-07-23 一种视频的立体场景重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727956.7A CN111882661B (zh) 2020-07-23 2020-07-23 一种视频的立体场景重建方法

Publications (2)

Publication Number Publication Date
CN111882661A true CN111882661A (zh) 2020-11-03
CN111882661B CN111882661B (zh) 2022-07-26

Family

ID=73201398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727956.7A Active CN111882661B (zh) 2020-07-23 2020-07-23 一种视频的立体场景重建方法

Country Status (1)

Country Link
CN (1) CN111882661B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546747A (zh) * 2013-09-29 2014-01-29 北京航空航天大学 一种基于彩***编码模式的深度图序列分形编码方法
CN105225269A (zh) * 2015-09-22 2016-01-06 浙江大学 基于运动机构的三维物体建模***
CN107845134A (zh) * 2017-11-10 2018-03-27 浙江大学 一种基于彩色深度相机的单个物体的三维重建方法
EP3349176A1 (en) * 2017-01-17 2018-07-18 Facebook, Inc. Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality
WO2019174377A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于单目相机的三维场景稠密重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546747A (zh) * 2013-09-29 2014-01-29 北京航空航天大学 一种基于彩***编码模式的深度图序列分形编码方法
CN105225269A (zh) * 2015-09-22 2016-01-06 浙江大学 基于运动机构的三维物体建模***
EP3349176A1 (en) * 2017-01-17 2018-07-18 Facebook, Inc. Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality
CN107845134A (zh) * 2017-11-10 2018-03-27 浙江大学 一种基于彩色深度相机的单个物体的三维重建方法
WO2019174377A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于单目相机的三维场景稠密重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾创: "基于三维视觉的SLAM技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Also Published As

Publication number Publication date
CN111882661B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN108596958B (zh) 一种基于困难正样本生成的目标跟踪方法
CN102156875B (zh) 基于多任务ksvd字典学习的图像超分辨率重构方法
CN111445476B (zh) 基于多模态无监督图像内容解耦的单目深度估计方法
CN108960059A (zh) 一种视频动作识别方法及装置
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN109214989A (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN110706303A (zh) 基于GANs的人脸图像生成方法
CN113205449A (zh) 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN111462208A (zh) 一种基于双目视差和外极线约束的无监督深度预测方法
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN112686817A (zh) 一种基于不确定性估计的图像补全方法
CN110335299A (zh) 一种基于对抗网络的单目深度估计***实现方法
CN104952051B (zh) 基于高斯混合模型的低秩图像修复方法
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN112184555B (zh) 一种基于深度交互学习的立体图像超分辨率重建方法
CN116912727A (zh) 一种基于时空特征增强网络的视频人体行为识别方法
CN111882661B (zh) 一种视频的立体场景重建方法
CN114581304B (zh) 一种基于循环网络的图像超分辨率和去雾融合方法及***
CN114612305B (zh) 一种基于立体图建模的事件驱动视频超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant