CN113592913A - 一种消除自监督三维重建不确定性的方法 - Google Patents
一种消除自监督三维重建不确定性的方法 Download PDFInfo
- Publication number
- CN113592913A CN113592913A CN202110907900.4A CN202110907900A CN113592913A CN 113592913 A CN113592913 A CN 113592913A CN 202110907900 A CN202110907900 A CN 202110907900A CN 113592913 A CN113592913 A CN 113592913A
- Authority
- CN
- China
- Prior art keywords
- image
- uncertainty
- view
- optical flow
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 75
- 230000003287 optical effect Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000013531 bayesian neural network Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种消除自监督三维重建不确定性的方法。该方法包括:以设定的第一损失函数为目标预训练深度学习三维重建模型,所述深度学习三维重建模型以参考视角和源视角组成的视角对图像为输入,第一损失函数基于光度立体一致性损失和深度光流一致性损失构建,该深度光流一致性损失表征源视角的像素及其在参考视角下的匹配点所形成的伪光流信息;以设定的第二损失函数为优化目标训练预训练的深度学习三维重建模型,所述第二损失函数通过估计预训练阶段的不确定性掩码构建,该不确定性掩码用于表征输入图像中的有效区域。本发明不需要标注数据并且克服了图像重建中的不确定性问题,提高了模型的精确度和泛化能力。
Description
技术领域
本发明涉及图像三维重建技术领域,更具体地,涉及一种消除自监督三维重建不确定性的方法。
背景技术
多视图立体视觉(Multi-view Stereo,MVS)旨在从多视角图像及相机位姿中恢复出场景的三维结构信息。在过去几十年,传统的多视图立体视觉方法取得了巨大进展,但是人为设计的特征描述子在估计图像对的匹配关系时缺乏鲁棒性,很容易受到噪声或光照等因素的干扰。
近年来,研究者开始将深度学习方法引入MVS的流程中并实现了明显的性能提升,如MVSNet、R-MVSNet等。这些方法将图像匹配过程集成到一个端到端的网络,输入一系列多视角图像和相机参数,直接输出稠密的深度图。随后通过融合各个视角下的深度图还原整个场景的三维信息。但在实际应用中这些基于深度学习的MVS方法存在一个巨大的缺陷,即训练时需要大规模数据集。由于采集三维标注的数据成本高昂,限制了MVS方法的广泛应用。为了摆脱三维数据标注的限制,研究者开始更多地关注无监督或自监督的MVS方法。现有的自监督MVS方法主要是通过构建一个基于图像重建任务的代理任务实现网络的自监督训练,在这种方式中,为保证光度立体一致性假设,使用预测的深度图和其他视角图像所重建的某个视角图像应该保证与原图一致。
然而,在现有技术中,自监督MVS方法针对如颜色变化和物体遮挡等不确定因素产生的影响还缺乏有效的应对措施,从而影响了重建图像的质量。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种消除自监督三维重建不确定性的方法,该方法包括以下步骤:
步骤S1:以设定的第一损失函数为目标预训练深度学习三维重建模型,其中,所述深度学习三维重建模型以参考视角和源视角组成的视角对图像为输入,提取对应的深度图用于三维图像重建,所述第一损失函数基于光度立体一致性损失和深度光流一致性损失构建,该光度立体一致性损失表征重建图像与参考图像之间的差异,该深度光流一致性损失表征源视角的像素及其在参考视角下的匹配点所形成的伪光流信息;
步骤S2:以设定的第二损失函数为优化目标训练经预训练的深度学习三维重建模型,获得优化的三维重建模型,其中,所述第二损失函数通过估计预训练阶段的不确定性掩码构建,该不确定性掩码用于表征输入图像中的有效区域。
与现有技术相比,本发明的优点在于,为解决前景监督歧义的不确定性问题,采用跨视角光流与深度一致性约束来引入额外的匹配信息,以加强自监督信号的约束作用;为解决背景无效干扰的不确定性问题,利用自监督过程中估计的不确定性掩码与伪标签结合,有效滤除了可能引入错误监督信号的区域,从而改善了重建图像的质量。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是现有MVS技术中全监督训练与自监督训练的差异及不确定性示意图;
图2是根据本发明一个实施例的对MVS中全监督和自监督信号的不确定性进行可视化比较的示意图;
图3是根据本发明一个实施例的消除自监督三维重建不确定性的方法的流程图;
图4是根据本发明一个实施例的消除自监督三维重建不确定性方法的过程示意图;
图5是根据本发明一个实施例的深度信息与跨视角光流的相对转换关系示意图;
图6是根据本发明一个实施例的光流信号引导的自监督预训练作用的可视化分析示意图;
图7是根据本发明一个实施例的不确定性掩码引导的自监督后训练作用的可视化分析示意图;
图8是根据本发明一个实施例的三维重建模型的应用过程示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为清楚的理解本发明,首先分析现有自监督三维重建过程中存在的不确定性问题。参见图1所示,其中图1(a)是全监督训练过程示意,图1(b)是自监督训练过程示意,图1(c)是全监督训练和自监督训练的监督信号中的不确定性程度示意图。简言之,自监督MVS方法借助使用图像重建的代理任务构建自监督信号,替代监督方法中的深度标签。这种方法的直觉解释是,如果网络估计的深度值是正确的,那么依照该深度值的三维信息决定的单应性投影关系,以及利用一个视角的图像所重建的另一个视角图像与原图应该一致。尽管目前已证明了自监督信号的有效性,但是现有技术仅是基于直觉解释了自监督信号的效用,还缺乏直接具体的解释。例如,自监督信号在图像的哪些地方起了作用,在哪些地方没有起到作用等。为解释这些问题,使用Monte-Carlo Dropout(蒙特卡罗丢弃法、或称为MCDropout)方法可视化了自监督训练中的认知不确定性,以提供直观的解释,如图1(c)所示,可以看出,相对全监督训练,目前自监督训练在图像的背景区域和边界区域存在更多的不确定性。
为进一步分析导致自监督训练中不确定问题的原因,图2对MVS中全监督和自监督信号(或称无监督信号)的不确定性进行了可视化比较。经分析,现有自监督方法中的不确定性可总结为以下两种类型。
1)有关前景监督歧义的不确定性。如图2(a)所示,在一些额外因素的影响,如颜色变化和物体遮挡(即圈定部分),基于图像重建的代理监督信号无法满足MVS中的光度立体一致性,从而导致自监督信号无法包含正确的深度信息。
2)有关背景无效干扰的不确定性。如图2(b)所示,图像中的无纹理区域(即圈定的部分)不包含任何有效地匹配线索,在全监督训练中通常是直接舍弃。然而,对于自监督训练,由于整个图像都被纳入图像重建的代理损失计算中,也包括了无纹理区域等无效区域,这会引入额外的噪声干扰和无效监督信号,并进一步导致训练结果的深度过平滑问题。
针对自监督方法中的不确定性问题,本发明提供了消除自监督三维重建不确定性的方法,结合图3和图4所示,该方法具体包括以下步骤。
步骤S310,构建深度学习三维重建模型。
利用深度学习进行自监督三维重建的基本过程是:将多视角图像输入到深度估计网络进行深度估计,所提取的特征图通过单应性映射投影到同一个参考视角上,并构建在多种深度下这些视角之间的匹配误差体(或称代价体),代价体预测出在参考视角的深度图;将每个视角下的深度图融合在一起重建出整个场景的三维信息;随后利用自监督损失估计重建图像与原图像的差异,训练网络直至收敛。
深度学习三维重建模型可采用多种类型的网络,例如MVSNet和R-MVSNet等。结合图4所示,在一个实施例中,骨干网络采用MVSNet,骨干网络的输入是N个源视角的图像,根据相机外参将源视角图像投影到参考视角图像,整个过程是可微的。统计各个视角的特征图的方差以构建代价体,并进一步采用一个3D卷积网络提取特征。在该3D卷积网络的瓶颈层部分,嵌入了多个Monte-Carlo Dropout层。默认情况下冻结Monte-Carlo Dropout层,仅在需要估计不确定性掩码时激活,激活时的处理过程将在下文描述。
应理解的是,任意在MVSNet基础上改进的网络都可以替换骨干网络,并且可采用其他类型的三维重建模型,本发明对三维重建模型的类型和具体结构不作限制。此外,源视角图像的数量可根据需要设置,如设置为2-8等,本发明对此不进行限制。
步骤S320,以设定的损失函数为目标,自监督预训练深度学习三维重建模型,该损失函数包含光度立体一致性损失和深度光流一致性损失。
仍结合图4所示,在自监督预训练阶段,逻辑上包含两个分支,上层分支以参考视角和源视角对为输入,用于获得对应的深度图。对于下层分支,一方面基于参考视角与源视角构成的两两一对视角对图像获取前向光流(即参考视角图像至源视角图像的光流)和反向光流(即源视角图像至参考视角图像的光流),另一方面,针对上层分支所预测的深度图获取虚拟光流信息或称伪光流信息,通过融合这两方面的光流匹配信息评估预训练模型。
具体地,在自监督预训练阶段中,为解决前景监督歧义的不确定性问题,除了基本的光度立体一致性损失之外,还额外添加了深度-光流一致性损失,通过引入额外的跨视角光流的稠密匹配关系先验信息,以加强自监督信号的鲁棒性。
1)、关于光度立体一致性损失
给定i=1表示参考视角,而j(2≤j≤V)则表示源视角,V是总视角数。对于一对多视角图像(I1,Ij)以及其对应的相机内外参数([K1,T1],[Kj,Tj])。输出为参考视角上的深度图D1。由此,可以计算源视角j中的像素pi在参考视角中的对应像素
其中i(1≤i≤HW)表示的是像素在图像中的位置索引,H和W为图像的高和宽,Dj表示对应于源视角j的深度图。由上述单应性公式(1),对结果进行归一化即可得到对应图像中的坐标。
其中Norm([x,y,z]T)=[x/z,y/z,1]T。
通过可微双线性插值操作可以利用源视角j的图像重建出图像此外,由于重建图像过程仅有一部分像素是存在映射关系的,同时还可以获取到一个二值化掩码Mj,用于表示重建图像中的有效区域。在一个实施例中,计算光度立体一致性损失时按照如下公式比较重建图像与参考图像之间的差异:
利用光度立体一致性损失进行自监督预训练可以保证重建图像和参考图像之间的光度变化(如灰度值)尽量小。
2)、关于跨视角光流-深度一致性损失
为解决自监督MVS中的前景监督歧义问题,进一步提出了一个新的跨视角光流-深度一致性损失(即深度光流一致性损失)。仍结合图4所示,在一个实施例中,该损失的计算包含两个子模块,分别是图像转光流模块和深度转光流模块。其中深度转光流模块是完全可微的,可以将深度图中所包含的匹配信息转化为参考视角与任意视角之间的光流图。该模块可以嵌入任意网络当中。图像转光流模块可使用无监督方法直接从原始图像中估计出光流信息,例如包括前向光流(如I1->I2,I1->I3)和反向光流(如I2->I1,I3->I1)。在计算光流-深度一致性损失时,将两个子模块输出的光流图进行比对,要求其结果尽可能地相似。
具体地,深度转光流模块的示意图如图5所示。在MVS***中,默认通过移动相机的位置来获取不同视角的图像,并根据多视图之间像素的匹配关系还原深度信息。相对地,可以近似地通过相对运动,假设存在一个没有移动位置的虚拟相机,而看作物体发生了相对运动。从直觉上说,深度图中所包含的匹配信息可以转化为这种相对运动场景下的伪光流图的匹配信息。详细推导如下:
依据上述公式(4),可以将深度图中的匹配信息表示为光流图的形式,并且整个过程是完全可微分的。
对于图像转光流模块,根据当前的多视角数据集划分参考视角与剩余的源视角构成两两一对的视角对。利用这些多视图对构成的数据集,通过一种自监督方法无监督地对光流学习网络(如PWC-Net)进行预训练。在图像转光流模块中,输入为任意的参考视角与源视角组成的两两一对的视角对,输出为两个视角之间的前向光流图F1j(参考视角->源视角)以及反向光流图Fj1(源视角->参考视角)。
3)、关于跨视角光流-深度一致性损失函数的计算。
首先,对于不存在遮挡的像素点,前向光流F1j引导与反向光流Fj1的值相反。为了避免计算损失时引入遮挡区域的干扰,先通过前向光流F1j与反向光流Fj1计算出遮挡掩码O1j,表示为:
O1j={|F1j+Fj1|>∈} (5)
其中,∈是阈值,可根据计算精确度要求进行设置,例如∈为0.5。
接着,可以计算光流-深度一致性损失,表示为:
考虑到光流图本身的噪声,在该实施例中,采用最小化误差来从参考视角和源视角构成的所有视角对中选取误差最小的那一对计算损失,这种方式可以减少光流本身噪声的影响。
4)、关于自监督预训练阶段中总体损失的计算
在自监督预训练阶段,为平衡光度立体一致性损失和光流-深度一致性损失,以提高模型训练精度和泛化能力,融合这两种类型的损失构建总体损失,例如表示为:
Lssp=Lpc+λLfc (7)
其中,Lpc表示光度立体一致性损失,Lfc表示光流-深度一致性损失,λ是设定常数,可根据需要设置,目的是平衡两种损失的尺度,如λ为0.1。
图6是光流信号引导的自监督预训练作用的可视化分析示意图,其中左侧是无光流信号引导的示意,右侧是有光流引导的示意。可以看出,利用前向光流与反向光流计算遮挡掩码,进而将遮挡掩码用于深度光流一致性损失的计算,可以感知遮挡区域的干扰。使用光流引入额外的匹配关系可以加强自监督信号的约束作用,增强了自监督信号的有效区域。
步骤S330,对预训练模型进一步训练,该阶段估计自监督过程中的不确定性掩码并与伪标签结合,以滤除引入错误监督信号的区域。
在获得预训练模型后,为提高模型的精度和泛化能力,可进一步进行后续训练,在本文中称为伪标签后训练阶段。在伪标签后训练阶段,首先估计自监督过程中的不确定性,然后将所估计的不确定性引入自训练一致性损失来引导最终模型的训练。此外,可采用随机数据增强的多视角图像对进行训练。
具体地,为了处理背景噪声干扰问题,在伪标签后训练阶段通过不确定性掩码,滤除无效区域,如非纹理区域等。因为这些无效区域不包含任何对自监督信号有用的信息。例如,通过激活Monte-Carlo Dropout来估计自监督过程中的不确定性掩码,并进一步加在损失中,以实现过滤无效区域的效果。
1)、关于不确定性估计
在实际应用中,不确定性描述的是对模型输出的怀疑程度。Monte-Carlo Dropout被加在了模型的3D卷积网络的瓶颈层上,为避免模型过拟合,优选地,对自监督预训练阶段的损失作相应修改,以引入不确定性的正则项,表示为:
其中σ2是偶然不确定性,表示数据本身所包含的噪声。
在一个实施例中,采用6层的CNN(卷积神经网络)用于预测一个逐像素的偶然不确定性图。接着按照上式(8)修改前述的自监督预训练阶段的损失函数,以使其支持不确定性估计的训练过程。
随机的Monte-Carlo Dropout实际上相当于对不同的模型权重进行采样:Wt~qθ(W,t),其中qθ(W,t)表示的Dropout所服从的分布。定义第t次采样的模型权重为Wt,预测的深度图为D1,t。接着可以通过如下公式估计模型的(认知)不确定性:
相对于贝叶斯神经网络,在本发明实施例中通过嵌入Monte-Carlo Dropout层来近似模拟贝叶斯网络,可以很大程度上降低计算开销。在一个实际应用中,dropout rate可设置为0.5,采样次数越多越接近理想情况,例如,默认采样20次。
2)、关于不确定性感知的自训练一致性损失
为了缓解不确定性较大区域的干扰,利用上述生成的伪标签和不确定性掩码构建不确定性感知的自训练一致性损失(或称不确定性可知自训练一致性损失)。
其中,ξ是设定阈值,可根据对不确定性估计的精度要求进行设置,例如ξ=0.3。
接着,计算自训练一致性损失,表示为:
其中D1,τ表示的是经过随机数据增强后,网络预测的深度图。在本发明实施例中,采用的数据增强不包含位置上的变换,仅包含有随机光照变化、颜色扰动、遮挡掩码等数据增强策略。
经验证,利用Monte-Carlo Dropout估计自监督过程中的不确定性掩码并与伪标签结合,可以有效抑制伪标签中可能存在的噪声监督信号。图7是不确定性掩码引导的自监督后训练作用的可视化分析示意,其中左侧是没有不确定性引导的效果,右侧是有不确定性引导的效果。可以看出,相对直接使用含有不确定结果的伪标签进行训练,本发明的这种不确定性掩码引导的自监督后训练,能够有效滤除可能引入错误监督信号的区域。
综上,本发明所提出的自监督MVS框架,整体上分为自监督预训练阶段和伪标签后训练阶段。在自监督预训练阶段,采用Lssp进行计算。由于后续阶段需要引入Monte-CarloDropout与不确定性估计,也可将Lssp修改为L′ssp。在伪标签后训练阶段,首先用Monte-Carlo和预训练得到的模型估计出伪标签和不确定性掩码,接着计算自训练损失Luc,并得到最终模型。
相对于现有技术,本发明可以更好地适用于自然场景。从直觉的角度来说,本发明所估计出的不确定性,天然地包含了自然场景下的各种噪声、遮挡变化或是背景中的无纹理区域。在自监督训练过程中,可以有效地抑制这些不确定性因素对监督过程造成的影响,保证具有更好的训练效果。从实验的角度来说,通过本发明训练出的深度学习三维重建模型,不需要任何微调即可在公开的自然场景三维重建数据集(Tanks and Temples)上取得领先的效果。如下表1中结果所示,其中最后一行是本发明在多种类型数据集上的效果,其他行是现有技术中的效果。第二列表示是否采用真实三维标注用于模型训练,第三列表示在真实场景下的三维重建效果的评分,由数据集的线上评测网站提供,其值越大越好。第四到十一列表示八个不同的真实场景下的重建结果评分。
表1:数据集效果对比
此外,相对于有监督方法需要标注数据集,本发明采用的是完全无监督训练,整个训练流程仅使用原始的多视角图像及相机参数,不需要任何三维信息的标注。并且,通过结合光流匹配信息和不确定性估计引导训练过程,所获得的优化模型,实现了不弱于,甚至某些场景下强于有监督方式的重建性能。本发明获得的最终模型可用于多种场景的三维图像重建,例如嵌入到电子设备,电子设备包括但不限于手机、终端、可穿戴设备、计算机设备等。参见图8所示,用于终端的基本过程是:用户打开终端设备上的应用程序;录制一段视频并上传;终端设备将视频截取为若干帧,构建多视角图像对;根据相机内参及多视角图像对求解相机位姿(Bundle Adjustment);通过训练的深度学习三维重建模型对多视角图像进行深度估计;融合多视角下的深度信息得到场景的三维信息;终端设备向用户显示三维模型。
综上所述,本发明所关注的是自监督MVS中的不确定性问题,其直接对标的评测标准包含自然场景下的一些干扰信号的情况,即前景和背景中的不确定性,如遮挡、光照变化、无纹理背景等。而传统的常规训练无法有效处理这两种不确定性的情况,因为其直接将那些包含错误监督信号的区域也纳入训练过程中,不可避免会影响最终效果。并且由于本发明增强了泛化能力,能够应用于跨数据集场景。
应理解的是,在不违背本发明精神和范围的前提下,本领域技术人员可对上述实施例进行适当的变型或改变。例如,除采用Monte-Carlo Dropout方法估计出自监督过程中的不确定性外,还可以应用贝叶斯网络,但由于实际训练过程中,贝叶斯网络的训练成本高昂,难以嵌入到本发明框架的网络中,且贝叶斯网络模型较大,无法置于普通的GPU(1080/2080Ti)中进行训练。为此,本发明优选采用Monte-Carlo Dropout的方法通过嵌入Dropout近似地模拟贝叶斯网络采样的过程,以减少模型规模以及不确定性估计的计算消耗。又如,自训练阶段的总体损失也可采用其他的加权方式,如指数形式的加权等。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种消除自监督三维重建不确定性的方法,包括以下步骤:
步骤S1:以设定的第一损失函数为目标预训练深度学习三维重建模型,其中,所述深度学习三维重建模型以参考视角和源视角组成的视角对图像为输入,提取对应的深度图用于三维图像重建,所述第一损失函数基于光度立体一致性损失和深度光流一致性损失构建,该光度立体一致性损失表征重建图像与参考图像之间的差异,该深度光流一致性损失表征源视角的像素及其在参考视角下的匹配点所形成的伪光流信息;
步骤S2:以设定的第二损失函数为优化目标训练经预训练的深度学习三维重建模型,获得优化的三维重建模型,其中,所述第二损失函数通过估计预训练阶段的不确定性掩码构建,该不确定性掩码用于表征输入图像中的有效区域。
2.根据权利要求1所述的方法,其特征在于,将所述第一损失函数设置为:
Lssp=Lpc+λLfc
其中,Lpc表示光度立体一致性损失,Lfc表示深度光流一致性损失,λ是设定的常数。
3.根据权利要求2所述的方法,其特征在于,根据以下步骤计算所述光度立体一致性损失:
对结果进行归一化,得到对应图像中的坐标:
根据获得的二值化掩码Mj计算光度立体一致性损失,表示为:
4.根据权利要求2所述的方法,其特征在于,根据以下步骤计算所述深度光流一致性损失:
利用数据集预训练光流学习网络,其中输入为参考视角与源视角组成的两两一对的视角对,输出为参考视角和源视角间的前向光流图F1j和反向光流图Fj1;
通过前向光流F1j与反向光流Fj1计算出遮挡掩码O1j,表示为:
O1j={|F1j+Fj1|>∈}
计算深度光流一致性损失,表示如下:
5.根据权利要求1所述的方法,其特征在于,在所述深度学习三维重建模型的瓶颈层上设置蒙特卡丢弃层,用于通过多次采样估计预训练过程中的不确定性。
8.一种重建三维图像的方法,包括以下步骤:
利用拍摄的图像构建多视角图像对;
根据相机内参及多视角图像对求解相机位姿;
将多视角图像对输入根据权利要求1至7中任一项所述方法获得的优化的三维重建模型,以对多视角图像进行深度估计;
融合多视角下的深度信息得到场景的三维信息,进而获得图像三维模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至7或8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7或8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110907900.4A CN113592913B (zh) | 2021-08-09 | 2021-08-09 | 一种消除自监督三维重建不确定性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110907900.4A CN113592913B (zh) | 2021-08-09 | 2021-08-09 | 一种消除自监督三维重建不确定性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592913A true CN113592913A (zh) | 2021-11-02 |
CN113592913B CN113592913B (zh) | 2023-12-26 |
Family
ID=78256351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110907900.4A Active CN113592913B (zh) | 2021-08-09 | 2021-08-09 | 一种消除自监督三维重建不确定性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592913B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782911A (zh) * | 2022-06-20 | 2022-07-22 | 小米汽车科技有限公司 | 图像处理的方法、装置、设备、介质、芯片及车辆 |
CN114820755A (zh) * | 2022-06-24 | 2022-07-29 | 武汉图科智能科技有限公司 | 一种深度图估计方法及*** |
CN116912148A (zh) * | 2023-09-12 | 2023-10-20 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
CN117218715A (zh) * | 2023-08-04 | 2023-12-12 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种少样本的关键节点识别方法、***、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110246212A (zh) * | 2019-05-05 | 2019-09-17 | 上海工程技术大学 | 一种基于自监督学习的目标三维重建方法 |
US20200265590A1 (en) * | 2019-02-19 | 2020-08-20 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
US20210090279A1 (en) * | 2019-09-20 | 2021-03-25 | Google Llc | Depth Determination for Images Captured with a Moving Camera and Representing Moving Features |
CN112767468A (zh) * | 2021-02-05 | 2021-05-07 | 中国科学院深圳先进技术研究院 | 基于协同分割与数据增强的自监督三维重建方法及*** |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及*** |
-
2021
- 2021-08-09 CN CN202110907900.4A patent/CN113592913B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200265590A1 (en) * | 2019-02-19 | 2020-08-20 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110246212A (zh) * | 2019-05-05 | 2019-09-17 | 上海工程技术大学 | 一种基于自监督学习的目标三维重建方法 |
US20210090279A1 (en) * | 2019-09-20 | 2021-03-25 | Google Llc | Depth Determination for Images Captured with a Moving Camera and Representing Moving Features |
CN112767468A (zh) * | 2021-02-05 | 2021-05-07 | 中国科学院深圳先进技术研究院 | 基于协同分割与数据增强的自监督三维重建方法及*** |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782911A (zh) * | 2022-06-20 | 2022-07-22 | 小米汽车科技有限公司 | 图像处理的方法、装置、设备、介质、芯片及车辆 |
CN114820755A (zh) * | 2022-06-24 | 2022-07-29 | 武汉图科智能科技有限公司 | 一种深度图估计方法及*** |
CN117218715A (zh) * | 2023-08-04 | 2023-12-12 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种少样本的关键节点识别方法、***、设备及存储介质 |
CN116912148A (zh) * | 2023-09-12 | 2023-10-20 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
CN116912148B (zh) * | 2023-09-12 | 2024-01-05 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113592913B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bloesch et al. | Codeslam—learning a compact, optimisable representation for dense visual slam | |
Tang et al. | Learning guided convolutional network for depth completion | |
Bozic et al. | Transformerfusion: Monocular rgb scene reconstruction using transformers | |
Lv et al. | Learning rigidity in dynamic scenes with a moving camera for 3d motion field estimation | |
CN113592913B (zh) | 一种消除自监督三维重建不确定性的方法 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN105654492B (zh) | 基于消费级摄像头的鲁棒实时三维重建方法 | |
Hu et al. | Deep depth completion from extremely sparse data: A survey | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
CN114429555A (zh) | 由粗到细的图像稠密匹配方法、***、设备及存储介质 | |
Gomes et al. | Spatio-temporal graph-RNN for point cloud prediction | |
Leite et al. | Exploiting motion perception in depth estimation through a lightweight convolutional neural network | |
JP2023522041A (ja) | 画像間の空間的関係をラベリングする強化学習モデル | |
Jung et al. | Multi-task learning framework for motion estimation and dynamic scene deblurring | |
Tsuji et al. | Non-guided depth completion with adversarial networks | |
WO2023015414A1 (zh) | 一种消除自监督三维重建不确定性的方法 | |
JP2024521816A (ja) | 無制約画像手ぶれ補正 | |
KR20230083212A (ko) | 객체 자세 추정 장치 및 방법 | |
Xie et al. | Effective convolutional neural network layers in flow estimation for omni-directional images | |
CN114841870A (zh) | 图像处理方法、相关装置和*** | |
Gomes | Graph-based network for dynamic point cloud prediction | |
Zhuang et al. | Dimensional transformation mixer for ultra-high-definition industrial camera dehazing | |
Sun et al. | Unsupervised learning of optical flow in a multi-frame dynamic environment using temporal dynamic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |