CN109791697A - 使用统计模型从图像数据预测深度 - Google Patents
使用统计模型从图像数据预测深度 Download PDFInfo
- Publication number
- CN109791697A CN109791697A CN201780055710.6A CN201780055710A CN109791697A CN 109791697 A CN109791697 A CN 109791697A CN 201780055710 A CN201780055710 A CN 201780055710A CN 109791697 A CN109791697 A CN 109791697A
- Authority
- CN
- China
- Prior art keywords
- image
- parallax value
- predicted
- data
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013179 statistical model Methods 0.000 title claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000007787 solid Substances 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000000162 simple eye Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
描述了使用诸如卷积神经网络(CNN)的用以从彩色图像数据预测深度的统计模型的***和方法。该模型在双目立体图像对上被训练,使得深度数据能够从单个源彩色图像被预测。该模型被训练成:针对输入双目立体对的每个图像,预测对应的视差值,该视差值在被应用于图像时实现另一图像的重建。基于代价函数更新模型,该代价函数强制针对立体对中的每个图像的经预测的视差值之间的一致性。
Description
技术领域
本发明总体涉及图像数据处理***,并且更具体地涉及使用经训练的统计模型从图像数据预测深度数据。
背景技术
来自图像的深度估计在计算机视觉中具有悠久的历史。富有成效的方法依赖于来自运动的结构、来自X的形状、双目和多视图立体。然而,这些技术中的大多数依赖于以下假设:对感兴趣场景的多个观察是可用的。这些观察可以以多个视点或者以不同光照条件下的场景观察的形式出现。为了克服这种限制,最近出现了将仅存在单个输入图像的单眼深度估计的任务作为监督学习问题的工作的数目的激增,例如,如在L.Ladicky,J.Shi,和M.Pollefeys,“Pulling Things Out Of Perspective”,CVPR 2014年,D.Eigen,C.Puhrsch和R.Fergus,“Depth Map Prediction From A Single Image Using A Multi-Scale DeepNetwork”,NIPS 2014年,以及F.Liu,C.Shen,G.Lin和I.Reid,“Learning Depth FromSingle Monocular Images Using Deep Convolutional Neural Fields”,PAMI 2015年中所讨论的。然而,这样的工作中描述的方法试图使用已经在大集合基准深度数据上被离线训练的模型来直接预测图像中的每个像素的深度。因此,这样的方法限于大图像集合及其对应的像素深度可用的场景。
已经被开发的备选方法是在训练期间将自动深度估计视为图像重建问题。通过利用诸如透视、相对于熟悉对象的已知大小的缩放、照明和阴影的形式的外观、遮挡等线索,人类在单眼深度估计方面表现优秀。这种从上到下和从下到上的线索的组合似乎将完整的场景理解与我们准确估计深度的能力联系起来。最近,少数已发表的工作提出了用于新视图合成和深度估计的基于深度网络的方法,这些方法在训练时间时不需要基准深度。
J.Flynn,I.Neulander,J.Philbin和N.Snavely,“DeepStereo:Learning ToPredict New Views From The World’s Imagery”,CVPR 2016年中讨论了一种名为深度立体(DeepStereo)的新图像合成网络,该网络通过从附近的相邻图像选择像素来生成新视图。在训练期间,他们选择图像集合,计算其各自的相机姿势(使用测距法和来自运动的标准结构的组合),并且然后训练卷积神经网络(CNN)以预测附近图像的外观:基于平面扫描体积,选择最合适的深度以从相邻图像中采样颜色。在测试时间时,在小重叠补丁上执行图像合成。然而,深度立体不适合于单眼深度估计,因为其在测试时间时需要几个附近的姿势图像。
在J.Xie,R.Girshick和A.Farhadi,“Deep3d:Fully Automatic 2D-To-3D VideoConversion With Deep Convolutional Neural Networks”,ECCV 2016年中讨论的深度3D(Deep3D)CNN也解决了训练阶段中的新视图合成的问题,其中,他们的目标是:在双目立体图像对的上下文中,从输入的左图像(即,源图像)生成对应的右视图。如在计算机视觉中众所周知的,双目视差是指两个立体图像内的相似特征的坐标的差异,即由左相机和右相机看到的对象的图像位置中的差异,其由相机之间水平分离(视觉差)引起。深度3D使用双目视差从立体视觉中的二维图像中提取深度信息。再次使用图像重建损失,他们的方法产生在针对输入的左图像中的每个像素的所有可能的视差上的分布。得到的合成右图像的像素值是来自左图像的相同扫描线上的、由每个视差的概率加权的像素的组合。他们的图像形成模型的缺点是:增加候选视差值的数目极大地增加了算法的存储器消耗,使得难以将他们的方法缩放到大输出分辨率。
类似于深度3D,R.Garg,V.Kumar BG和I.Reid,“Unsupervised CNN For SingleView Depth Estimation:Geometry To The Rescue”,ECCV 2016年中讨论了使用基于训练阶段中的双目立体图像对的图像重建损失来训练用于单眼深度估计的CNN。然而,Garg等人描述的图像形成模型不是完全可区分的,使得训练是次优的。为了补偿,他们执行泰勒近似以使其损失线性化,从而产生更有挑战性的优化目标。
所期望的是增强的网络架构,其解决上述用于深度估计的基于深度CNN的***的所有限制,并且显著提高最终结果的质量。
发明内容
本发明的各个方面在所附的权利要求中列出。
根据一个方面,本发明提供了一种计算机实现的方法,包括存储定义用以从彩色图像数据预测深度数据的统计模型的数据;以及通过以下步骤在至少一个输入双目立体图像对上训练模型:针对输入双目立体对的每个图像,预测对应的视差值,该视差值在被应用于该图像时支持另一图像的重建;以及基于代价函数更新模型,该代价函数强制针对立体对中的每个图像的经预测的视差值之间的一致性。
训练模型还可以包括:针对立体对的每个图像,基于对应的视差值计算投影(projected)的视差值。通过对第一图像的经预测的视差值采样并且将另一图像的经预测的视差值应用于经采样的数据,可以计算立体对的一个图像的投影的视差值。代价函数可以包括视差一致性分量,以强制针对立体对的每个图像计算的经预测的视差值与投影的视差值之间的一致性。
模型的重建模块可以通过应用对应的经预测的视差值以移位立体对中的第一图像的经采样的图像像素来重建立体对中的第二图像。代价函数还可以包括经重建的外观匹配分量,以最小化经重建的图像和对应的输入图像之间的图像重建误差。采样可以包括双线性插值。
代价函数还可以包括平滑分量,以促使对应的经预测的视差值中的局部平滑。代价函数可以实现视差一致性分量、平滑分量和经重建的外观匹配分量的加权和。
统计模型可以包括卷积神经网络CNN,其包括处理节点的结构化布置,每个处理节点具有至少一个参数值。卷积神经网络可以由代价函数的反向传播分量来训练。
训练模型还可以包括:在多个空间分辨率处上采样和上卷积输入图像数据,预测在每个空间分辨率处的对应的视差值,其中基于代价函数更新模型,该代价函数强制针对立体对中每个图像的在每个空间分辨率处的经预测的视差值之间的一致性。代价函数可以包括根据空间分辨率的经预测的视差值之间的一致性的加权强制。
训练图像的双目立体对可以由具有已知的相机焦距并且在已知的基线距离处隔开的相应相机同时捕获。训练图像的双目立体对可以是经校正和时间对准的立体对。数字图像可以利用元数据来注释,该元数据定义捕获图像的相应的相机的属性。
根据又一方面,可以通过以下步骤从单个输入彩色图像生成深度图像:使用经训练的模型的视差预测模块从输入彩色图像生成预测视差图;以及从经预测的视差图计算对应的估计深度数据。彩色图像数据可以由相机捕获。该模型可以被配置为接收大分辨率图像。
有利地,本发明提供了一种完全卷积模型,其不需要任何深度数据,而是被训练以合成深度作为中间体。该模型学习预测具有已知的相机基线的校正立体图像对之间的像素级对应。
此外,实施例提供:
网络架构,其执行具有新训练损失的端到端无监督的单眼深度估计,该新训练损失包含网络内部的左-右视差一致性约束;
若干不同的训练损失和图像形成模型的评估,该图像形成模型突出所描述的方法的有效性;以及
推广到其他不同数据集的模型。
根据另一方面,本发明提供了一种用于单眼深度估计的无监督深度神经网络,其中仅存在单个输入图像,并且其中没有做出关于场景几何形状或存在对象的类型的假设。本发明没有使用基准深度数据,该基准深度数据在特定的实现上下文中可能是不可用的或者可能是高代价来获得的,而是利用了可以容易被捕获的双目立体数据。根据又一方面,学习模块实现损失函数,该损失函数在训练期间强制来自每个相机视图的经预测的深度图之间的一致性,得到改进的预测。尽管在训练阶段省略了基准深度信息,但是得到的输出深度数据优于完全监督的基线。此外,经训练的模型可以推广到训练期间未被看到的数据集,并且仍然产生视觉上合理的深度图。
在其它方面,提供了被配置以执行如上所述的方法的装置和***。在另一方面,提供了一种计算机程序,其包括机器可读指令,该指令被布置成使得可编程设备执行如上所述的方法。
附图说明
现在,接下来参考下面标识的附图,仅通过示例的方式详细描述本发明的实施例。
图1是示出根据本发明的实施例的图像处理***的主要组件的框图。
图2是示例性CNN的部分的示意图。
图3包括图3A和图3B,是图示根据实施例的、由训练模块执行以训练单个图像深度预测CNN的主要处理步骤的流程图。
图4是示意性地图示根据实施例的、训练迭代中的示例CNN的处理和数据分量的框流程图。
图5是根据实施例的、用于使用经训练的CNN从单个源图像生成和处理深度数据的示例性过程的流程图。
图6是在其上可以实现实施例的一个或多个功能的计算机***的示例图。
具体实施方式
图1是用于从彩色图像数据预测和处理深度数据的示例***1的框图。如图所示,***1包括具有深度数据生成器模块5的图像处理***3,深度数据生成器模块5可以接收从相机7捕获的彩色图像数据,诸如描述针对形成捕获视图中的对象的像素的RGB值的RGB图像。数字图像可以用定义捕获图像的相应相机的属性的元数据来注释。深度数据生成器模块5使用经训练的卷积神经网络(CNN)模块11的视差预测器9,直接从接收的单个源图像的彩色图像数据生成预测的双目视差图。如果源图像是由校准的双目立体相机对捕获的立体图像对的一个图像,则生成的双目视差值表示捕获的源图像中的检测到的对象或特征的图像位置与对应的概念双目立体视图中的对象或特征的预测图像位置的差异。深度数据生成器模块5从由视差预测器9输出的双目视差图计算深度信息。
CNN 11包括处理节点的动态结构化布置,每个节点具有对应的权重参数。CNN 11的结构和权重由训练模块13在训练阶段更新。在本实施例中,CNN 11的处理节点被布置为三个主要组件:
-编码器12,其包括节点和层以用于:处理输入图像数据并且输出指示输入图像中的对象或特征的编码数据;
-解码器14,其包括节点和层以用于:处理来自编码器12的编码数据,执行上卷积和上采样以输出增加的空间分辨率处的缩放数据,由视差预测器9输出经预测的视差图,诸如来自输入的编码数据的经预测的视差图,并且通过将经预测的视差图应用于输入图像数据来输出投影视图;以及
-损失模块19,其包括节点和层以用于:计算用于更新CNN 11的训练损失,该训练损失包括从解码器14输出的视差图计算的视差平滑和左-右视差一致性代价项,以及从投影视图与对应的输入视图的比较计算的外观匹配代价项。
如下面将更详细描述的,训练模块13基于双目立体图像对15训练卷积神经网络(CNN)模块11,该双目立体图像对15例如从训练图像的数据库17中取回。双目立体图像对15包括左视图15a和右视图15b,左视图15a和右视图15b由具有已知的相机焦距并且在已知的基线距离处隔开的相应的双目立体相机同时捕获,由此可以从由视差预测器9输出的经预测的双目视差值计算深度数据。训练模块13优化由CNN模块11的损失模块19实现的损失函数,并且因此训练视差预测器9以直接从单个源图像的彩色像素值准确且高效地生成预测的双目视差图。
应当理解,CNN模块11、训练模块13和深度数据生成器模块5可以被组合成单一的模块或被划分成附加的模块,并且图像处理模块3可以包括附加的组件,诸如存储器21以存储经训练的CNN模块11的模型数据。***1还可以包括通常在计算***/设备中找到的其他组件、子组件、模块和设备,为了描述的清楚,图1中未图示这些组件、子组件、模块和设备。
由图像处理***3输出的深度信息可以被提供给一个或多个深度数据处理模块23以用于进一步的数据处理。深度数据处理模块23可以被配置为:基于处理的深度数据,将数据和/或控制信号输出到输出设备25。深度数据处理模块的性质和布置将特定于***1的实现上下文。仅通过示例性的具体实现:深度图可以从与计算机图形中的合成对象***有关的捕获的图像数据预测;确定计算摄影中的合成视场深度;生成用于机器人抓取的控制指令;输出深度作为人体姿势估计的线索;确定用于人机交互中的手部姿势估计的强线索;用于电影视频数据的自动2D到3D转换;用于自动驾驶车辆的低代价障碍避免传感器;用于手术的小尺寸外形、单个相机、深度感测、内窥镜;单个相机3D重建;用于VR耳机的改进的姿势估计;针对盲人的障碍避免和路径规划;用于物体计量的大小和体积估计。应当理解,训练数据17可以包括特定于具体实现上下文的视图的立体图像对15。
图2是根据本实施例的示例性CNN的解码器14和训练损失模块19部分的示意图。CNN 11的示例性层在下面的表1中列出,其基于N.Mayer,E.Ilg,P.P.Fischer,D.Cremers,A.Dosovitskiy和T.Brox,“A Large Dataset To Train ConvolutionalNetworks For Disparity,Optical Flow,And Scene Flow Estimation”,CVPR 2016年的完全卷积架构,但是被调整以包括若干修改,这些修改使得网络能够在不需要基准深度数据的情况下被训练。在图示的示例中,CNN由***在训练阶段中学习的3100万个参数组成,其中'k'是内核大小,'s'是步幅,'通道'是每层的输入和输出通道的数目,'输入'和'输出'分别是针对每层的相对于输入图像的输入和输出缩减因子,并且'输入'对应于每层的输入,其中'+'表示级联,以及'*'对应于对应层的2x上采样。
表1
如所示,CNN 11包括编码器12(包括层conv1至conv7b)和解码器14(包括从upconv7至disp1的层)。如本领域中已知的,解码器14可以从编码器的激活块实现跳过连接,以便分辨出更高分辨率的细节。在图2中,C是指卷积连接,U是指上卷积连接,S是指双线性采样连接,以及US是指上采样连接。在本示例性实施例中,以四个不同尺度(被标记为disp4至disp1)输出视差预测,其空间分辨率在每个后续尺度处增加。在训练网络时,在每个输出尺度处针对每个输入图像视图(例如,左视图和右视图)预测两个视差图,输出尺度由下标s指示。一个视差图与层的输入对齐(例如,从左到右的视差图dr对齐到左视图的编码数据),并且另一视差图对齐到其对应的立体对等物(partner)(例如,投影的从右到左的视差图dl(dr)对齐到对应的投影的右视图)。由解码器14和损失模块19进行的处理在四个不同的输出尺度中的每一个处重复。
关键的优点是:经训练的***3通过预测来自两个双目相机的视差并且强制其彼此一致来产生优秀的深度图。用来自左视图的像素生成右视图得到与右视图对齐的视差图(反之亦然)。训练模块13旨在优化经预测的视差图与源输入图像(在该实施例中是左视图15a)的对齐。在训练期间,训练模块13可以访问左立体图像15a和右立体图像15b,并且训练模块13训练CNN 11以估计从左到右和从右到左的视差图,以及从各个估计的视差图确定对应的投影的从右到左和从左到右的视差图,并且强制它们之间的一致性。训练模块13的附加优化目标是训练CNN 11通过学习视差图来重建对应的左视图和右视图,该视差图可以移位像素以最小化图像重建误差。以这种方式,给定来自校准的双目相机对的训练图像,图像处理***3学习能够在给定另一视图的情况下重建图像的功能,并且通过这样做而生成经训练的模型(即,CNN 11),该经训练的模型实现正被成像的场景的形状的预测或估计。给定单个训练图像I(例如,训练立体图像对15的左视图15a),图像处理***3还学习可以预测每个像素场景深度的函数这在训练期间将深度估计视为图像重建问题。
上面已经给出了对形成实施例的图像处理***3的部分的组件的概况描述。现在将参考图3的流程图给出对这些组件的操作的更详细描述,该操作用于根据实施例的、训练单个图像深度预测CNN 11的过程,这使CNN 11能够仅在立体图像对上被训练,而不需要例如以对应的基准深度信息的形式的监督。虽然该流程图中的各种步骤被顺序地呈现和描述,但是应当理解,一些或所有步骤可以以不同的次序被执行,可以被组合或省略,并且一些或所有步骤可以并行地被执行。此外,在一个或多个示例实施例中,可以省略、重复和/或以不同次序执行下面描述的一个或多个步骤。
还参考图4,图4是示意性地图示根据本发明的实施例的CNN 11的处理节点和层的示例结构化布置的框流程图。如图2所示,为了简洁,从图4中省略了上卷积(UC)层和上采样(US)层,但是应当理解,来自UC层和US层的缩放输出由下标s表示到经预测的视差和相应的计算的代价元素中的每一个。
如图3所示,针对单个训练图像对15的训练过程的迭代开始于步骤S3-1(L),其中CNN 11接收输入立体对中的一个视图的彩色图像数据,在该实施例中是左视图。在该实施例中,CNN 11还在步骤S3-1(R)处接收右视图的彩色图像数据。训练模块13可以从被存储在存储器17中的训练数据取回两个图像Il和Ir,这两个图像对应于在相同时刻捕获的校准的立体对的左彩色图像和右彩色图像,并且将图像数据传递到CNN 11的一个或多个输入节点(未示出)。应当理解,CNN 11可以被配置为有利地并行地接收和处理多个训练图像对。尽管不是必须地,但是优选地,立体图像对15是经校正的,如本领域中已知的,由此使用所定义的变换过程将图像投影到共同的图像平面上。
在步骤S3-3处,左视图的输入图像数据被传递通过编码器12的卷积层以生成编码的输入数据,例如该编码的输入数据表示输入图像中的被标识的对象或特征的复特征向量。CNN 11不是试图直接从左视图图像15a预测深度,而是被训练成找到对应场,在该实施例中,该对应场是经预测的从左到右的视差图(dr),在该经预测的从左到右的视差图被应用于左视图图像15a时,使CNN 11的右视图投影器415a能够重建投影的右视图图像(反之亦然)。因此,在步骤S3-5处,在步骤S3-3处输出的编码数据被传递通过左视图视差预测器307a的处理节点,其基于当前的结构和权重输出经预测的从左到右视差图的数据值(dr s)。如下面将描述的,CNN 11被训练为:通过针对输入的双目立体对的每个图像预测对应的视差值并且基于强制立体对中的每个图像的经预测的视差值之间的一致性的代价函数更新CNN 11,预测来自输入数据的视差图。因此,在步骤S3-5处,编码数据还被传递通过右视图视差预测器307b的处理节点,其基于当前的结构和权重输出经预测的从右到左的视差图(dl s)的数据值。
可选地,在步骤S3-7处,可以由损失模块13的L->R视差平滑节点413a从经预测的从左到右的视差图(dr)计算从左到右的视差平滑代价(Cr ds)s。同样地,在步骤S3-7处,可以由损失模块13的R->L视差平滑节点413B从经预测的从右到左的视差图(dl)计算从右到左的视差平滑代价(Cl ds)s。训练损失函数的计算的平滑代价元素促使各个经预测的视差图通过视差梯度上的L1惩罚而被局部平滑。例如,从经预测的左视差图dl计算的平滑代价可以被公式化为:
其中η可以被设定为1.0。由于深度不连续性经常发生在图像梯度处,因此可以使用对应的图像梯度用边缘感知项加权该平滑代价。
在步骤S3-9(L)处,R->L视差投影器409a采样经预测的从左到右的视差图(dr s)的数据值,并且将经预测的从右到左的视差图(dl s)应用于经采样的数据以生成投影的从右到左的视差图(dl(dr)s)。为了清楚,将参考用(L)表示的步骤来描述对经预测的从左到右的视差值的处理,并且应当理解,对应编号的处理步骤针对用(R)表示的从右到左的视差值而被镜像。在该实施例中,如本领域中已知的,例如从M.Jaderberg,K.Simonyan,A.Zisserman和K.Kavukcuoglu,“Spatial Transformer Networks”,NIPS 2015年中已知的,视差投影器409基于来自空间变换器网络(STN)的图像采样器实现图像采样功能,以使用视差图采样输入数据。STN使用双线性采样,其中输出像素是四个输入像素的加权和。与上面提及的Xie等人和Garg等人的方法相反,本实施例中使用的双线性采样器是局部完全可微分的,并且无缝地集成到CNN 11的完全卷积架构中。这意味着CNN 11不需要优化代价函数的任何简化或近似。
为了产生更稳健的结果,CNN 11被训练成仅基于作为网络的卷积损失模块13部分的输入的左视图图像数据15a来预测左图像视差和右图像视差两者。因此,在步骤S3-9(L)处,CNN 11的投影的右视差预测器节点409a基于在步骤S3-5(L)处由左视图视差预测器节点407a输出的经预测的左视差图(dl),输出投影的右视差图(dl(dr))。为了确保连贯性,损失模块13包括L1左-右视差一致性惩罚作为模型11的部分。该代价被提供以驱使经预测的左视图视差图(dl)等同于投影的右视图视差图(dr(dl))。因此,在步骤S3-11(L)处,L-R视差一致性损失节点411a将左一致性代价计算为:
在步骤S3-13(L)处,CNN 11的从粗到细缩放器405a生成且输出在尺度s1至sn下的左视图的缩放的图像数据,其中,在本示例性实施例中,n=4。针对每个尺度,左视图(Il s)的对应的缩放的图像数据被传递到解码器14的右视图投影器415a以用于处理。在步骤S3-15(L)处,右视图投影器415a通过采样来自缩放的左视图图像(Il s)的像素来生成投影的相邻立体图像。在该实施例中,视图投影器415还实现如上所述的来自空间变换器网络(STN)的图像采样器,以使用输入视差图采样输入数据。
可选地,在步骤S3-15(L)处,CNN 11的右视图投影器415a可以通过将经预测的从左到右的视差(dr)应用于输入的缩放的左视图图像数据(Il s)来重建投影的右视图图像。该过程可以被公式化为:
其中d对应于图像视差,其是模型11被训练以预测的每个像素的标量值。为了简洁,经重建的图像(Il(dr))将被称为在步骤S3-13(R)和S3-15(R)处,投影的左视图图像可以通过将经预测的从右到左的视差图(dl)应用于输入的缩放的右视图图像数据(Ir s)而被类似地生成。
在步骤S3-17(L)处,外观匹配代价可以由R外观匹配损失节点417a计算为L1和单个尺度结构相似度的组合(SSIM,作为光度的项),其是输入图像与其重建之间的图像重建代价:
其中N是图像中的像素的数目。在示例性实施例中,使用具有3×3块滤波器而不是高斯的简化SSIM,并且α被设定为0.85。SSIM项的计算本身是本领域中已知的,例如从Z.Wang,A.C.Bovik,H.R.Sheikh,和E.P.Simoncelli,“Image Quality Assessment:FromError Visibility To Structural Similarity”,Transactions on Image Processing2004年中已知,并且不需要被进一步描述。在步骤S3-17(R)处,可以从由左视图投影器415b输出的投影的左视图和由缩放器405输出的对应的缩放的左视图图像类似地计算左外观匹配代价(Cl ap)。
在步骤S3-19处,已经通过CNN 11传递了左视图彩色图像15a和右视图彩色图像15b,损失模块13的训练损失节点419在当前尺度下针对训练图像的立体对计算训练损失。在本实施例中,缩放的训练损失被计算为在步骤S3-7(L)和S3-7(R)处输出的视差平滑代价、在步骤S3-11(L)和S3-11(R)处输出的视差一致性代价以及在步骤S3-17(L)和S3-17(R)处输出的外观匹配代价的加权组合。这三个计算的代价项的加权组合可以被公式化为:
其中Cap促使经重建的图像类似于对应的训练输入,Cds强制平滑视差,并且Clr尝试使来自左图像和右图像的经预测的视差一致。主要项中的每个都包含左图像变量和右图像变量两者。在涉及所有三个训练代价元素的该示例性实施例中,左视图图像15a总是被传递通过CNN 11。由于训练模块13在训练期间可以访问对应的右视图图像15b,因此CNN 11还可以在其参考框架中预测视差图。应当理解,在未实现外观匹配代价元素时,右视图图像数据不需要被传递通过CNN 11。
在步骤S3-21处,如从上面步骤S3-3所讨论的,CNN 11的解码器执行由编码器12在当前的尺度下输出的数据的上卷积,以及对由视差预测器407输出的经预测的视差图上采样,作为处理节点的后续的结构化集合的输入以计算下一尺度的缩放的训练损失。在针对每个预定义的尺度计算缩放的训练损失之后,在步骤S3-23处,由损失模块13的和节点421将最终的总损失计算为各个缩放的损失Cs的加权和:
其中λs允许训练模块13被配置为在训练期间加权不同输出尺度的相对重要性。
在示例性实施例中,不同的损失分量的加权被设定为αap=1且αlr=1。使用缩放的S形非线性将可能的输出视差限制在0和dmax之间,其中dmax=在给定的输出尺度下的图像宽度的0.3倍。作为多尺度输出的结果,相邻像素的典型视差将在每个尺度之间相差两倍(因为CNN11将输出上采样两倍)。为了校正这点,训练模块13可以针对每个尺度用r来缩放视差平滑项αds,以得到每个水平下的等效平滑。因此αds=0.1/r,其中r是对应层的相对于被传递到CNN 11(在表1中)中的输入图像的分辨率的缩减因子。
在步骤S3-25处,训练模块13通过反向传播在步骤S3-21处由和节点421计算的最终总训练损失的加权分量来更新CNN 11。针对CNN 11中的非线性,可以使用指数线性单元而不是通常使用的校正线性单元(ReLU),这两个单元在本领域中都是已知的。在示例性实施例中,基于D.Kingma和J.Ba,“Adam:A method for stochastic optimization”,arXiv预印刷,arXiv:1412.6980,2014年中描述的技术,从头开始训练CNN 11 50个时期(epoch),其中β1=0:9,β2=0:999,ε=10-8。使用λ=10-4的初始学习速率,其在前30个时期保持不变,然后每10个时期将其减半直到结束。应当理解,训练模块13可以被配置为使用渐进更新调度来更新CNN 11,其中较低分辨率图像尺度被首先优化。然而,发明人已经认识到,一次优化所有四个尺度进一步有利地得到更稳定的收敛。类似地,在不同的加权导致不稳定的收敛的情况下,可以使用每个尺度损失的相同加权。
图6是根据实施例的、使用经训练的CNN 11生成和处理来自单个源图像的深度数据的示例性过程的流程图。在步骤S6-1处,由例如来自相机7的深度数据生成器5接收单个源图像的彩色图像数据。在步骤S6-3处,使用单个前向传递通过经训练的CNN 11,由经训练的L-R视图视差预测器407a将针对左图像的最精细尺度水平下的视差dr输出,作为经预测的视差图(对应于来自表1的disp1)。作为通过CNN 11中的从粗到细的缩放器405的上采样的结果,输出的经预测的视差图与输入图像具有相同的分辨率。应当理解,从右到左的视差dl在深度数据生成阶段中不被使用。
在步骤S6-5处,深度数据生成器5创建深度图像,该深度图像包含从在步骤S6-3处输出的经预测的视差图计算的、针对源图像中的每个像素的经预测的深度值。给定用于捕获训练数据15的立体相机之间的基线距离b以及相关联的相机焦距f,深度数据生成器5可以从经预测的视差将估计的深度值恢复为:
在步骤S6-7处,深度图像被传递到深度数据处理模块23,以根据***1的特定实现上下文而被处理。
计算机***
本文所描述的实体,诸如图像处理***3和/或图像处理***3的单独模块,可以由诸如图6所示的计算机***1000的计算机***来实现。本发明的实施例可以被实现为由这样的计算机***1000执行的可编程代码。在阅读本说明书之后,对于本领域技术人员来说,如何使用其他计算机***和/或计算机架构来实现本发明将变得明显。
计算机***1000包括一个或多个诸如处理器1004的处理器,该计算机***1000可以是个人计算机、膝上型计算机、计算终端、智能电话、平板计算机等。处理器1004可以是任何类型的处理器,包括但不限于专用或通用的数字信号处理器。处理器1004连接到通信基础设施1006(例如,总线或网络)。根据该示例性计算机***描述了各种软件实现。在阅读本说明书之后,对于本领域技术人员来说,如何使用其他计算机***和/或计算机架构来实现本发明将变得明显。
计算机***1000还包括:连接到一个或多个输入设备1005的用户输入接口1003以及连接到一个或多个显示器1009的显示接口1007。例如,输入设备1005可以包括诸如鼠标或触摸板的指向设备、键盘、诸如电阻式或电容式触摸屏的触摸屏等。在阅读本说明书之后,对于本领域技术人员来说,如何使用其他计算机***和/或计算机架构来实现本发明将变得明显,例如使用具有集成输入和显示器组件的移动电子设备。
计算机***1000还包括主存储器1008,优选随机存取存储器(RAM),并且还可以包括次级存储器610。次级存储器1010可以包括例如硬盘驱动1012和/或表示软盘驱动、磁带驱动、光盘驱动等的可移动存储驱动1014。可移动存储驱动1014以众所周知的方式从可移动存储单元1018读取和/或写入可移动存储单元1018。可移动存储单元1018表示由可移动存储驱动1014读取和写入的软盘、磁带、光盘等。将理解,可移动存储单元1018包括其中存储有计算机软件和/或数据的计算机可用存储介质。
在备选实现中,次级存储器1010可以包括用于允许计算机程序或其他指令被加载到计算机***1000中的其它类似装置。这样的装置可以包括例如可移动存储单元1022和接口1020。这样的装置的示例可以包括(诸如先前在视频游戏设备中找到的)程序盒和盒接口、可移动存储器芯片(例如EPROM、或PROM、或闪式存储器)和相关联的插座、以及允许软件和数据从可移动存储单元1022被传输到计算机***1000的其他可移动存储单元1022和接口1020。备选地,可以使用计算机***1000的处理器1004执行程序和/或从可移动存储单元1022访问数据。
计算机***1000还可以包括通信接口1024。通信接口1024允许软件和数据在计算机***1000和外部设备之间传输。通信接口1024的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、个人计算机存储卡国际协会(PCMCIA)插槽和卡等。经由通信接口1024传送的软件和数据是以信号1028的形式,该信号可以是电的、电磁的、光的,或能够由通信接口1024接收的其他信号。这些信号1028经由通信路径1026被提供给通信接口1024。通信路径1026承载信号1028并且可以使用电线或电缆、光纤、电话线、无线链路、蜂窝电话链路、无线电频率链路或任何其他合适的通信信道来实现。例如,可以使用信道的组合来实现通信路径1026。
术语“计算机程序介质”和“计算机可用介质”通常用来指诸如可移动存储驱动1014、硬盘驱动1012中安装的硬盘、以及信号1028的介质。这些计算机程序产品是用于将软件提供给计算机***1000的装置。然而,这些术语还可以包括体现本文中公开的计算机程序的信号(诸如电信号、光信号或电磁信号)。
计算机程序(也被称为计算机控制逻辑)被存储在主存储器1008和/或次级存储器1010中。计算机程序也可以经由通信接口1024被接收。这样的计算机程序在被执行时,使计算机***1000能够实现如本文所讨论的本发明的实施例。因此,这样的计算机程序表示计算机***1000的控制器。在使用软件实现实施例的情况下,软件可以被存储在计算机程序产品1030中并且使用可移动存储驱动1014、硬盘驱动1012或通信接口1024被加载到计算机***1000中,以提供一些示例。
备选实施例可以被实现为硬件中的控制逻辑、固件、或软件、或其任何组合。例如,经训练的CNN模块11可以以硬件和/或软件被实现为单机实体以安装为图像处理***中的组件,并且还可以包括训练模块功能和/或深度数据生成器功能。
应当理解,本文仅通过示例的方式描述了本发明的实施例,并且各种改变和修改可以在不脱离本发明的范围的情况下做出。例如,上述实施例将经训练的统计模型实现为深度卷积神经网络。如本领域技术人员将理解的,训练过程的基本方面可以适用于适合处理图像数据以生成经预测的深度图的其他形式的统计模型,诸如随机森林和衍生模型。
在本说明书中提及的“一个实施例”不一定都是指相同的实施例,也不是指与其他实施例相互排斥的单独的或备选的实施例。特别地,应当理解,上述实施例的各方面可以被组合以形成其他实施例。类似地,各种特征被描述,这些特征可以由一些实施例且不由其他实施例来展示。可以设想仍然落入所附权利要求的范围内的其他备选实施例。
Claims (20)
1.一种计算机实现的方法,包括:
存储定义用以从彩色图像数据预测深度数据的统计模型的数据;以及
通过以下步骤,在至少一个输入双目立体图像对上训练所述模型:
针对所述输入双目立体对的每个图像,预测对应的视差值,所述视差值在被应用于所述图像时支持另一图像的重建;以及
基于代价函数更新所述模型,所述代价函数强制针对所述立体对中的每个图像的经预测的所述视差值之间的一致性。
2.根据权利要求1所述的方法,其中训练所述模型还包括:
针对所述立体对的每个图像,基于所述对应的视差值计算投影的视差值。
3.根据权利要求2所述的方法,其中通过对第一图像的经预测的所述视差值采样并且将另一图像的经预测的所述视差值应用于经采样的数据,针对所述立体对的一个图像计算投影的所述视差值。
4.根据权利要求2或3所述的方法,其中所述代价函数包括视差一致性分量以强制针对所述立体对的每个图像计算的经预测的所述视差值与投影的所述视差值之间的一致性。
5.根据前述权利要求中任一项所述的方法,还包括:通过应用对应的经预测的所述视差值以移位所述立体对中的所述第一图像的经采样的图像像素,重建所述立体对中的第二图像。
6.根据权利要求3或5所述的方法,其中所述采样包括双线性插值。
7.根据权利要求5或6所述的方法,其中所述代价函数还包括经重建的外观匹配分量以最小化经重建的所述图像和对应的输入图像之间的图像重建误差。
8.根据权利要求7所述的方法,其中所述代价函数还包括平滑分量以促使对应的经预测的所述视差值中的局部平滑。
9.根据权利要求8所述的方法,其中所述代价函数实现所述视差一致性分量、所述平滑分量和所述经重建的外观匹配分量的加权和。
10.根据前述权利要求中任一项所述的方法,其中所述统计模型包括卷积神经网络CNN,所述卷积神经网络包括处理节点的结构化布置,每个处理节点具有至少一个权重值。
11.根据权利要求10所述的方法,其中所述卷积神经网络由所述代价函数的反向传播分量来训练。
12.根据前述权利要求中任一项所述的方法,还包括:
在多个空间分辨率处上采样和上卷积所述输入图像数据;以及
预测在每个空间分辨率处的对应的视差值;
其中基于代价函数更新所述模型,所述代价函数强制针对所述立体对中的每个图像的在每个空间分辨率处的经预测的所述视差值之间的一致性。
13.根据权利要求12所述的方法,其中所述代价函数包括根据所述空间分辨率的经预测的所述视差值之间的一致性的加权强制。
14.根据前述权利要求中任一项所述的方法,其中所述双目立体图像对由具有已知的相机焦距并且在已知的基线距离处隔开的相应相机同时捕获,由此从经预测的所述视差值计算对应的深度数据。
15.根据权利要求14所述的方法,其中所述双目立体图像对是经校正和时间对准的立体对。
16.根据权利要求15所述的方法,其中利用元数据来注释所述数字图像,所述元数据定义捕获所述图像的相应的所述相机的属性。
17.根据前述权利要求中任一项所述的方法,还包括通过以下步骤从单个输入彩色图像生成深度图像:
使用经训练的所述模型从所述输入彩色图像生成预测的视差图;以及
从经预测的所述视差图计算对应的估计深度数据。
18.根据权利要求17所述的方法,其中所述彩色图像数据由相机捕获。
19.一种装置或***,包括用于执行根据权利要求1至18中任一项所述的方法的装置。
20.一种存储介质,包括存储在所述存储介质上的机器可读指令,所述指令用于使计算机***执行根据权利要求1至18中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1615470.0A GB2553782B (en) | 2016-09-12 | 2016-09-12 | Predicting depth from image data using a statistical model |
GB1615470.0 | 2016-09-12 | ||
PCT/GB2017/052671 WO2018046964A1 (en) | 2016-09-12 | 2017-09-12 | Predicting depth from image data using a statistical model |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109791697A true CN109791697A (zh) | 2019-05-21 |
CN109791697B CN109791697B (zh) | 2023-10-13 |
Family
ID=57234660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780055710.6A Active CN109791697B (zh) | 2016-09-12 | 2017-09-12 | 使用统计模型从图像数据预测深度 |
Country Status (10)
Country | Link |
---|---|
US (1) | US11100401B2 (zh) |
EP (1) | EP3510561B1 (zh) |
JP (1) | JP7177062B2 (zh) |
KR (1) | KR102487270B1 (zh) |
CN (1) | CN109791697B (zh) |
AU (1) | AU2017324923B2 (zh) |
BR (1) | BR112019004798A8 (zh) |
CA (1) | CA3035298C (zh) |
GB (1) | GB2553782B (zh) |
WO (1) | WO2018046964A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN111027508A (zh) * | 2019-12-23 | 2020-04-17 | 电子科技大学 | 一种基于深层神经网络的遥感图像覆被变化检测方法 |
CN113538575A (zh) * | 2020-04-20 | 2021-10-22 | 辉达公司 | 使用一个或更多个神经网络进行距离确定 |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017017963A1 (ja) * | 2015-07-29 | 2017-02-02 | 京セラ株式会社 | 視差算出装置、ステレオカメラ装置、車両及び視差算出方法 |
US10798387B2 (en) * | 2016-12-12 | 2020-10-06 | Netflix, Inc. | Source-consistent techniques for predicting absolute perceptual video quality |
US10803546B2 (en) * | 2017-11-03 | 2020-10-13 | Baidu Usa Llc | Systems and methods for unsupervised learning of geometry from images using depth-normal consistency |
CN109785376B (zh) * | 2017-11-15 | 2023-02-28 | 富士通株式会社 | 深度估计装置的训练方法、深度估计设备及存储介质 |
US10643383B2 (en) * | 2017-11-27 | 2020-05-05 | Fotonation Limited | Systems and methods for 3D facial modeling |
DE112019000070T5 (de) | 2018-01-07 | 2020-03-12 | Nvidia Corporation | Führen von fahrzeugen durch fahrzeugmanöver unter verwendung von modellen für maschinelles lernen |
US11094075B1 (en) * | 2018-01-23 | 2021-08-17 | Facebook Technologies, Llc | Systems and methods utilizing a machine learning model for generating defocus blur effects |
CN108335322B (zh) * | 2018-02-01 | 2021-02-12 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN110352153A (zh) | 2018-02-02 | 2019-10-18 | 辉达公司 | 自主车辆中用于障碍物躲避的安全程序分析 |
WO2019168869A1 (en) | 2018-02-27 | 2019-09-06 | Nvidia Corporation | Real-time detection of lanes and boundaries by autonomous vehicles |
CN110494863B (zh) | 2018-03-15 | 2024-02-09 | 辉达公司 | 确定自主车辆的可驾驶自由空间 |
US11080590B2 (en) * | 2018-03-21 | 2021-08-03 | Nvidia Corporation | Stereo depth estimation using deep neural networks |
US11436484B2 (en) | 2018-03-27 | 2022-09-06 | Nvidia Corporation | Training, testing, and verifying autonomous machines using simulated environments |
CN108734693B (zh) * | 2018-03-30 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108537837B (zh) * | 2018-04-04 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 一种深度信息确定的方法及相关装置 |
US20210362342A1 (en) * | 2018-04-17 | 2021-11-25 | Eth Zurich | Robotic camera software and controller |
KR102506959B1 (ko) * | 2018-05-17 | 2023-03-07 | 나이앤틱, 인크. | 깊이 추정 시스템의 자가 감독 훈련 |
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
SG11201811261SA (en) * | 2018-06-14 | 2020-01-30 | Beijing Didi Infinity Technology & Development Co Ltd | Systems and methods for updating a high-resolution map based on binocular images |
US11966838B2 (en) | 2018-06-19 | 2024-04-23 | Nvidia Corporation | Behavior-guided path planning in autonomous machine applications |
TW202006738A (zh) * | 2018-07-12 | 2020-02-01 | 國立臺灣科技大學 | 應用機器學習的醫學影像分析方法及其系統 |
CN109166144B (zh) * | 2018-07-20 | 2021-08-24 | 中国海洋大学 | 一种基于生成对抗网络的图像深度估计方法 |
CN109213147A (zh) * | 2018-08-01 | 2019-01-15 | 上海交通大学 | 一种基于深度学习的机器人避障轨迹规划方法及*** |
RU2698402C1 (ru) * | 2018-08-30 | 2019-08-26 | Самсунг Электроникс Ко., Лтд. | Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты) |
US10986325B2 (en) * | 2018-09-12 | 2021-04-20 | Nvidia Corporation | Scene flow estimation using shared features |
CN113168541A (zh) * | 2018-10-15 | 2021-07-23 | 菲力尔商业***公司 | 用于成像***的深度学习推理***和方法 |
US11507822B2 (en) * | 2018-10-31 | 2022-11-22 | General Electric Company | Scalable artificial intelligence model generation systems and methods for healthcare |
JP6946255B2 (ja) * | 2018-11-13 | 2021-10-06 | 株式会社東芝 | 学習装置、推定装置、学習方法およびプログラム |
DE112019005750T5 (de) | 2018-11-16 | 2021-08-05 | Nvidia Corporation | Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze |
CN109712228B (zh) * | 2018-11-19 | 2023-02-24 | 中国科学院深圳先进技术研究院 | 建立三维重建模型的方法、装置、电子设备及存储介质 |
DE112019006484T5 (de) | 2018-12-28 | 2021-10-21 | Nvidia Corporation | Detektion von abständen zu hindernissen in autonomen maschinenanwendungen |
WO2020140049A1 (en) | 2018-12-28 | 2020-07-02 | Nvidia Corporation | Distance to obstacle detection in autonomous machine applications |
US11170299B2 (en) | 2018-12-28 | 2021-11-09 | Nvidia Corporation | Distance estimation to objects and free-space boundaries in autonomous machine applications |
CN111383256B (zh) * | 2018-12-29 | 2024-05-17 | 北京市商汤科技开发有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
DE102019100303A1 (de) | 2019-01-08 | 2020-07-09 | HELLA GmbH & Co. KGaA | Verfahren und Vorrichtung zum Ermitteln einer Krümmung einer Fahrbahn |
WO2020163390A1 (en) | 2019-02-05 | 2020-08-13 | Nvidia Corporation | Driving lane perception diversity and redundancy in autonomous driving applications |
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
CN113811886B (zh) | 2019-03-11 | 2024-03-19 | 辉达公司 | 自主机器应用中的路口检测和分类 |
CN109919993B (zh) * | 2019-03-12 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 视差图获取方法、装置和设备及控制*** |
US11044462B2 (en) * | 2019-05-02 | 2021-06-22 | Niantic, Inc. | Self-supervised training of a depth estimation model using depth hints |
CN110113595B (zh) * | 2019-05-08 | 2021-04-30 | 北京奇艺世纪科技有限公司 | 一种2d视频转3d视频的方法、装置及电子设备 |
CN109996056B (zh) * | 2019-05-08 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 一种2d视频转3d视频的方法、装置及电子设备 |
CN110111244B (zh) * | 2019-05-08 | 2024-01-26 | 北京奇艺世纪科技有限公司 | 图像转换、深度图预测和模型训练方法、装置及电子设备 |
US11138751B2 (en) * | 2019-07-06 | 2021-10-05 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised training using reprojected distance loss |
CN110443843A (zh) * | 2019-07-29 | 2019-11-12 | 东北大学 | 一种基于生成对抗网络的无监督单目深度估计方法 |
CN110415284B (zh) * | 2019-07-31 | 2022-04-19 | 中国科学技术大学 | 一种单视彩色图像深度图获得方法及装置 |
US11468585B2 (en) * | 2019-08-27 | 2022-10-11 | Nec Corporation | Pseudo RGB-D for self-improving monocular slam and depth prediction |
CN110610486B (zh) * | 2019-08-28 | 2022-07-19 | 清华大学 | 单目图像深度估计方法及装置 |
US11713978B2 (en) | 2019-08-31 | 2023-08-01 | Nvidia Corporation | Map creation and localization for autonomous driving applications |
WO2021046529A1 (en) | 2019-09-07 | 2021-03-11 | Embodied Intelligence, Inc. | Systems and methods for robotic picking and perturbation |
EP4025395A1 (en) | 2019-09-07 | 2022-07-13 | Embodied Intelligence, Inc. | Training artificial networks for robotic picking |
US20210069908A1 (en) * | 2019-09-07 | 2021-03-11 | Embodied Intelligence, Inc. | Three-dimensional computer vision system for robotic devices |
CN110738697B (zh) * | 2019-10-10 | 2023-04-07 | 福州大学 | 基于深度学习的单目深度估计方法 |
CN111047634B (zh) * | 2019-11-13 | 2023-08-08 | 杭州飞步科技有限公司 | 场景深度的确定方法、装置、设备及存储介质 |
CN111047630B (zh) * | 2019-11-13 | 2023-06-13 | 芯启源(上海)半导体科技有限公司 | 神经网络和基于神经网络的目标检测及深度预测方法 |
CN114981834A (zh) * | 2019-11-14 | 2022-08-30 | 祖克斯有限公司 | 使用上采样、损失与损失平衡进行深度数据模型训练 |
US11157774B2 (en) * | 2019-11-14 | 2021-10-26 | Zoox, Inc. | Depth data model training with upsampling, losses, and loss balancing |
WO2021111482A1 (en) * | 2019-12-02 | 2021-06-10 | Alma Mater Studiorum – Università Di Bologna | Method to determine the depth from images by self-adaptive learning of a neural network and system thereof |
CN111192238B (zh) * | 2019-12-17 | 2022-09-20 | 南京理工大学 | 基于自监督深度网络的无损血管三维测量方法 |
US11037328B1 (en) | 2019-12-31 | 2021-06-15 | Lyft, Inc. | Overhead view image generation |
US11288522B2 (en) | 2019-12-31 | 2022-03-29 | Woven Planet North America, Inc. | Generating training data from overhead view images |
US11244500B2 (en) | 2019-12-31 | 2022-02-08 | Woven Planet North America, Inc. | Map feature extraction using overhead view images |
CN111242999B (zh) * | 2020-01-10 | 2022-09-20 | 大连理工大学 | 基于上采样及精确重匹配的视差估计优化方法 |
CN111310916B (zh) * | 2020-01-22 | 2022-10-25 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度***训练方法及*** |
CN111523409B (zh) * | 2020-04-09 | 2023-08-29 | 北京百度网讯科技有限公司 | 用于生成位置信息的方法和装置 |
CN113724311B (zh) * | 2020-05-25 | 2024-04-02 | 北京四维图新科技股份有限公司 | 深度图获取方法、设备及存储介质 |
US20220005217A1 (en) * | 2020-07-06 | 2022-01-06 | Toyota Research Institute, Inc. | Multi-view depth estimation leveraging offline structure-from-motion |
US12008740B2 (en) * | 2020-08-12 | 2024-06-11 | Niantic, Inc. | Feature matching using features extracted from perspective corrected image |
JP7389729B2 (ja) * | 2020-09-10 | 2023-11-30 | 株式会社日立製作所 | 障害物検知装置、障害物検知システム及び障害物検知方法 |
US11747468B2 (en) | 2020-09-24 | 2023-09-05 | Eagle Technology, Llc | System using a priori terrain height data for interferometric synthetic aperture radar (IFSAR) phase disambiguation and related methods |
US11587249B2 (en) | 2020-09-24 | 2023-02-21 | Eagle Technology, Llc | Artificial intelligence (AI) system and methods for generating estimated height maps from electro-optic imagery |
US11238307B1 (en) | 2020-09-24 | 2022-02-01 | Eagle Technology, Llc | System for performing change detection within a 3D geospatial model based upon semantic change detection using deep learning and related methods |
US11302071B1 (en) | 2020-09-24 | 2022-04-12 | Eagle Technology, Llc | Artificial intelligence (AI) system using height seed initialization for extraction of digital elevation models (DEMs) and related methods |
CN112330795B (zh) * | 2020-10-10 | 2022-10-28 | 清华大学 | 基于单张rgbd图像的人体三维重建方法及*** |
US11978266B2 (en) | 2020-10-21 | 2024-05-07 | Nvidia Corporation | Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications |
DE102020006971A1 (de) * | 2020-11-13 | 2022-05-19 | Alexander Bayer | Kamerabasiertes Assistenzsystem mit Künstlicher Intelligenz für blinde Personen |
TWI784349B (zh) * | 2020-11-16 | 2022-11-21 | 國立政治大學 | 顯著圖產生方法及使用該方法的影像處理系統 |
CN112465888A (zh) * | 2020-11-16 | 2021-03-09 | 电子科技大学 | 一种基于单目视觉的无监督深度估计方法 |
US20220189049A1 (en) * | 2020-12-12 | 2022-06-16 | Niantic, Inc. | Self-Supervised Multi-Frame Monocular Depth Estimation Model |
CN112330675B (zh) * | 2020-12-15 | 2022-08-23 | 南昌工程学院 | 基于AOD-Net的交通道路图像大气能见度检测方法 |
CN112802079A (zh) * | 2021-01-19 | 2021-05-14 | 奥比中光科技集团股份有限公司 | 一种视差图获取方法、装置、终端和存储介质 |
KR102319237B1 (ko) * | 2021-03-02 | 2021-10-29 | 인하대학교 산학협력단 | 핸드크래프트 비용 기반의 다중 뷰 스테레오 정합 방법 |
TWI790560B (zh) * | 2021-03-03 | 2023-01-21 | 宏碁股份有限公司 | 並排影像偵測方法與使用該方法的電子裝置 |
JP7447042B2 (ja) | 2021-03-17 | 2024-03-11 | 株式会社東芝 | 画像処理装置、方法及びプログラム |
KR102489890B1 (ko) * | 2021-05-28 | 2023-01-17 | 한국항공대학교산학협력단 | 깊이 추정 시스템 및 깊이 추정 방법 |
CN113762278B (zh) * | 2021-09-13 | 2023-11-17 | 中冶路桥建设有限公司 | 一种基于目标检测的沥青路面损坏识别方法 |
CN114401391B (zh) * | 2021-12-09 | 2023-01-06 | 北京邮电大学 | 虚拟视点生成方法及装置 |
KR102559936B1 (ko) * | 2022-01-28 | 2023-07-27 | 포티투닷 주식회사 | 단안 카메라를 이용하여 깊이 정보를 추정하는 방법 및 장치 |
KR102531286B1 (ko) | 2022-03-29 | 2023-05-12 | 포티투닷 주식회사 | 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치 |
CN114782911B (zh) * | 2022-06-20 | 2022-09-16 | 小米汽车科技有限公司 | 图像处理的方法、装置、设备、介质、芯片及车辆 |
CN116258756B (zh) * | 2023-02-23 | 2024-03-08 | 齐鲁工业大学(山东省科学院) | 一种自监督单目深度估计方法及*** |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0526948A2 (en) * | 1991-08-05 | 1993-02-10 | Koninklijke Philips Electronics N.V. | Method and apparatus for determining the distance between an image and an object |
JP2005165614A (ja) * | 2003-12-02 | 2005-06-23 | Canon Inc | 画像合成装置および画像合成方法 |
CN101605270A (zh) * | 2009-07-16 | 2009-12-16 | 清华大学 | 生成深度图的方法和装置 |
US20100220932A1 (en) * | 2007-06-20 | 2010-09-02 | Dong-Qing Zhang | System and method for stereo matching of images |
CN101840574A (zh) * | 2010-04-16 | 2010-09-22 | 西安电子科技大学 | 基于边缘象素特征的深度估计方法 |
JP2011525657A (ja) * | 2008-06-24 | 2011-09-22 | トムソン ライセンシング | 動き補償を用いた画像の奥行き抽出のためのシステムおよび方法 |
EP2466902A2 (en) * | 2010-12-14 | 2012-06-20 | Vestel Elektronik Sanayi ve Ticaret A.S. | Information permeability based disparity estimation in stereo video |
CN102523464A (zh) * | 2011-12-12 | 2012-06-27 | 上海大学 | 一种双目立体视频的深度图像估计方法 |
US20120249750A1 (en) * | 2009-12-15 | 2012-10-04 | Thomson Licensing | Stereo-image quality and disparity/depth indications |
CN102831601A (zh) * | 2012-07-26 | 2012-12-19 | 中北大学 | 基于联合相似性测度和自适应支持权重的立体匹配方法 |
CN103106651A (zh) * | 2012-07-16 | 2013-05-15 | 清华大学深圳研究生院 | 一种基于三维hough变换的获取视差平面的方法 |
US20130155050A1 (en) * | 2011-12-20 | 2013-06-20 | Anubha Rastogi | Refinement of Depth Maps by Fusion of Multiple Estimates |
EP2608554A2 (en) * | 2011-12-23 | 2013-06-26 | MediaTek Inc. | Method and apparatus of determining perspective model for depth map generation by utilizing region-based analysis and/or temporal smoothing |
CN103295229A (zh) * | 2013-05-13 | 2013-09-11 | 清华大学深圳研究生院 | 视频深度信息恢复的全局立体匹配方法 |
CN103955954A (zh) * | 2014-04-21 | 2014-07-30 | 杭州电子科技大学 | 一种结合同场景立体图对的高分辨率深度图像重建方法 |
CN104065947A (zh) * | 2014-06-18 | 2014-09-24 | 长春理工大学 | 一种集成成像***的深度图获取方法 |
US20150023587A1 (en) * | 2013-07-22 | 2015-01-22 | Stmicroelectronics S.R.I. | Method for generating a depth map, related system and computer program product |
CN104408710A (zh) * | 2014-10-30 | 2015-03-11 | 北京大学深圳研究生院 | 一种全局视差估计方法和*** |
KR20150043546A (ko) * | 2010-06-14 | 2015-04-22 | 퀄컴 인코포레이티드 | 3 차원 이미지들에 대한 디스패리티 계산 |
CN104662589A (zh) * | 2012-08-21 | 2015-05-27 | 派力肯影像公司 | 用于使用阵列照相机捕捉的图像中的视差检测和校正的***和方法 |
US20150170371A1 (en) * | 2013-12-18 | 2015-06-18 | Nokia Corporation | Method, apparatus and computer program product for depth estimation of stereo images |
CN104737535A (zh) * | 2012-10-11 | 2015-06-24 | 奥崔迪合作公司 | 对3d图像中的图像叠加的深度调整 |
US20150178936A1 (en) * | 2013-12-20 | 2015-06-25 | Thomson Licensing | Method and apparatus for performing depth estimation |
EP2953093A1 (en) * | 2014-05-27 | 2015-12-09 | Thomson Licensing | Method and apparatus for improving estimation of disparity in a stereo image pair using a hybrid recursive matching processing |
KR20160056132A (ko) * | 2014-11-11 | 2016-05-19 | 삼성전자주식회사 | 영상 변환 장치 및 그 영상 변환 방법 |
EP3065107A1 (en) * | 2015-03-04 | 2016-09-07 | Dolby Laboratories Licensing Corporation | Coherent motion estimation for stereoscopic video |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2473282B (en) * | 2009-09-08 | 2011-10-12 | Nds Ltd | Recommended depth value |
-
2016
- 2016-09-12 GB GB1615470.0A patent/GB2553782B/en active Active
-
2017
- 2017-09-12 CA CA3035298A patent/CA3035298C/en active Active
- 2017-09-12 CN CN201780055710.6A patent/CN109791697B/zh active Active
- 2017-09-12 JP JP2019535986A patent/JP7177062B2/ja active Active
- 2017-09-12 WO PCT/GB2017/052671 patent/WO2018046964A1/en unknown
- 2017-09-12 KR KR1020197010331A patent/KR102487270B1/ko active IP Right Grant
- 2017-09-12 EP EP17794764.5A patent/EP3510561B1/en active Active
- 2017-09-12 BR BR112019004798A patent/BR112019004798A8/pt unknown
- 2017-09-12 US US16/332,343 patent/US11100401B2/en active Active
- 2017-09-12 AU AU2017324923A patent/AU2017324923B2/en active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0526948A2 (en) * | 1991-08-05 | 1993-02-10 | Koninklijke Philips Electronics N.V. | Method and apparatus for determining the distance between an image and an object |
JP2005165614A (ja) * | 2003-12-02 | 2005-06-23 | Canon Inc | 画像合成装置および画像合成方法 |
US20100220932A1 (en) * | 2007-06-20 | 2010-09-02 | Dong-Qing Zhang | System and method for stereo matching of images |
JP2011525657A (ja) * | 2008-06-24 | 2011-09-22 | トムソン ライセンシング | 動き補償を用いた画像の奥行き抽出のためのシステムおよび方法 |
CN101605270A (zh) * | 2009-07-16 | 2009-12-16 | 清华大学 | 生成深度图的方法和装置 |
US20120249750A1 (en) * | 2009-12-15 | 2012-10-04 | Thomson Licensing | Stereo-image quality and disparity/depth indications |
CN101840574A (zh) * | 2010-04-16 | 2010-09-22 | 西安电子科技大学 | 基于边缘象素特征的深度估计方法 |
KR20150043546A (ko) * | 2010-06-14 | 2015-04-22 | 퀄컴 인코포레이티드 | 3 차원 이미지들에 대한 디스패리티 계산 |
EP2466902A2 (en) * | 2010-12-14 | 2012-06-20 | Vestel Elektronik Sanayi ve Ticaret A.S. | Information permeability based disparity estimation in stereo video |
CN102523464A (zh) * | 2011-12-12 | 2012-06-27 | 上海大学 | 一种双目立体视频的深度图像估计方法 |
US20130155050A1 (en) * | 2011-12-20 | 2013-06-20 | Anubha Rastogi | Refinement of Depth Maps by Fusion of Multiple Estimates |
EP2608554A2 (en) * | 2011-12-23 | 2013-06-26 | MediaTek Inc. | Method and apparatus of determining perspective model for depth map generation by utilizing region-based analysis and/or temporal smoothing |
CN103106651A (zh) * | 2012-07-16 | 2013-05-15 | 清华大学深圳研究生院 | 一种基于三维hough变换的获取视差平面的方法 |
CN102831601A (zh) * | 2012-07-26 | 2012-12-19 | 中北大学 | 基于联合相似性测度和自适应支持权重的立体匹配方法 |
CN104662589A (zh) * | 2012-08-21 | 2015-05-27 | 派力肯影像公司 | 用于使用阵列照相机捕捉的图像中的视差检测和校正的***和方法 |
CN104737535A (zh) * | 2012-10-11 | 2015-06-24 | 奥崔迪合作公司 | 对3d图像中的图像叠加的深度调整 |
CN103295229A (zh) * | 2013-05-13 | 2013-09-11 | 清华大学深圳研究生院 | 视频深度信息恢复的全局立体匹配方法 |
US20150023587A1 (en) * | 2013-07-22 | 2015-01-22 | Stmicroelectronics S.R.I. | Method for generating a depth map, related system and computer program product |
US20150170371A1 (en) * | 2013-12-18 | 2015-06-18 | Nokia Corporation | Method, apparatus and computer program product for depth estimation of stereo images |
US20150178936A1 (en) * | 2013-12-20 | 2015-06-25 | Thomson Licensing | Method and apparatus for performing depth estimation |
CN103955954A (zh) * | 2014-04-21 | 2014-07-30 | 杭州电子科技大学 | 一种结合同场景立体图对的高分辨率深度图像重建方法 |
EP2953093A1 (en) * | 2014-05-27 | 2015-12-09 | Thomson Licensing | Method and apparatus for improving estimation of disparity in a stereo image pair using a hybrid recursive matching processing |
CN104065947A (zh) * | 2014-06-18 | 2014-09-24 | 长春理工大学 | 一种集成成像***的深度图获取方法 |
CN104408710A (zh) * | 2014-10-30 | 2015-03-11 | 北京大学深圳研究生院 | 一种全局视差估计方法和*** |
KR20160056132A (ko) * | 2014-11-11 | 2016-05-19 | 삼성전자주식회사 | 영상 변환 장치 및 그 영상 변환 방법 |
EP3065107A1 (en) * | 2015-03-04 | 2016-09-07 | Dolby Laboratories Licensing Corporation | Coherent motion estimation for stereoscopic video |
Non-Patent Citations (11)
Title |
---|
CL´EMENT GODARD 等: "Unsupervised Monocular Depth Estimation with Left-Right Consistency", 《ARXIV》, pages 1 - 9 * |
R. GHERARDI 等: "Optimal Parameter Estimation for MRF Stereo Matching", 《IMAGE ANALYSIS AND PROCESSING》 * |
R. GHERARDI 等: "Optimal Parameter Estimation for MRF Stereo Matching", 《IMAGE ANALYSIS AND PROCESSING》, 31 December 2005 (2005-12-31), pages 1 - 9 * |
RAVI GARG 等: "Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue", 《ARXIV.ORG》 * |
RAVI GARG 等: "Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue", 《ARXIV.ORG》, 16 May 2016 (2016-05-16), pages 1 - 15 * |
WENQIAO ZHU 等: "Variational Stereo Matching with Left Right Consistency Constraint", 《2011 INTERNATIONAL CONFERENCE OF SOFT COMPUTING AND PATTERN RECOGNITION (SOCPAR》 * |
WENQIAO ZHU 等: "Variational Stereo Matching with Left Right Consistency Constraint", 《2011 INTERNATIONAL CONFERENCE OF SOFT COMPUTING AND PATTERN RECOGNITION (SOCPAR》, 31 December 2011 (2011-12-31), pages 1 - 5 * |
朱刚 等: "基于摄像机几何模型的视间预测方法", 《清华大学学报(自然科学版)》 * |
朱刚 等: "基于摄像机几何模型的视间预测方法", 《清华大学学报(自然科学版)》, 15 August 2009 (2009-08-15), pages 1156 - 1159 * |
王宇;朴燕;: "基于多视差函数拟合的集成成像深度提取方法", 光学学报, no. 04 * |
程浩;王龙海;: "三维视频中深度信息估计算法", 武汉工程大学学报, no. 09 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN110490919B (zh) * | 2019-07-05 | 2023-04-18 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN111027508A (zh) * | 2019-12-23 | 2020-04-17 | 电子科技大学 | 一种基于深层神经网络的遥感图像覆被变化检测方法 |
CN111027508B (zh) * | 2019-12-23 | 2022-09-06 | 电子科技大学 | 一种基于深层神经网络的遥感图像覆被变化检测方法 |
CN113538575A (zh) * | 2020-04-20 | 2021-10-22 | 辉达公司 | 使用一个或更多个神经网络进行距离确定 |
Also Published As
Publication number | Publication date |
---|---|
GB2553782B (en) | 2021-10-20 |
KR20190065287A (ko) | 2019-06-11 |
GB2553782A (en) | 2018-03-21 |
CA3035298A1 (en) | 2018-03-15 |
US11100401B2 (en) | 2021-08-24 |
BR112019004798A2 (pt) | 2019-06-04 |
JP2019526878A (ja) | 2019-09-19 |
KR102487270B1 (ko) | 2023-01-11 |
CA3035298C (en) | 2023-03-21 |
AU2017324923A1 (en) | 2019-04-11 |
JP7177062B2 (ja) | 2022-11-22 |
GB201615470D0 (en) | 2016-10-26 |
CN109791697B (zh) | 2023-10-13 |
EP3510561B1 (en) | 2022-03-02 |
EP3510561A1 (en) | 2019-07-17 |
WO2018046964A1 (en) | 2018-03-15 |
US20190213481A1 (en) | 2019-07-11 |
AU2017324923B2 (en) | 2022-01-27 |
BR112019004798A8 (pt) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109791697A (zh) | 使用统计模型从图像数据预测深度 | |
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
Bhoi | Monocular depth estimation: A survey | |
Dai et al. | Mvs2: Deep unsupervised multi-view stereo with multi-view symmetry | |
CN111291885B (zh) | 近红外图像的生成方法、生成网络的训练方法和装置 | |
CN110378838B (zh) | 变视角图像生成方法,装置,存储介质及电子设备 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
WO2019180414A1 (en) | Localisation, mapping and network training | |
CN106856012B (zh) | 一种实时大规模场景三维扫描建模方法及*** | |
EP3819869B1 (en) | Method and apparatus with depth image generation | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN114868384B (zh) | 用于图像处理的设备及方法 | |
CN113711276A (zh) | 尺度感知单目定位和地图构建 | |
CN109903315A (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
KR20210076853A (ko) | 시차 추정 시스템, 방법, 전자 장치 및 컴퓨터 판독 가능한 저장 매체 | |
CN115565039A (zh) | 基于自注意力机制的单目输入动态场景新视图合成方法 | |
Dao et al. | FastMDE: A fast CNN architecture for monocular depth estimation at high resolution | |
Lahiri et al. | Deep learning-based stereopsis and monocular depth estimation techniques: a review | |
CN116486038A (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
CN105100768B (zh) | 用于立体匹配的方法和用于上采样的方法 | |
Liang et al. | Selective progressive learning for sparse depth completion | |
Xu et al. | Depth prediction from a single image based on non-parametric learning in the gradient domain | |
Yusiong et al. | Unsupervised monocular depth estimation of driving scenes using siamese convolutional LSTM networks | |
Howells et al. | Depth maps comparisons from monocular images by midas convolutional neural networks and dense prediction transformers | |
Yao et al. | Revised depth map estimation for multi-view stereo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |