CN116194956A

CN116194956A - 场景的3d点云的生成

Info

Publication number: CN116194956A
Application number: CN202080105393.6A
Authority: CN
Inventors: Q·德克尔; V·格兰恰洛夫
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2023-05-30
Also published as: EP4217964C0; EP4217964A1; WO2022063386A1; US20230326126A1; EP4217964B1

Abstract

提供了一种用于生成场景的3D点云的机制。一种由图像处理装置执行的方法。所述方法包括获得描绘所述场景的数字图像。每个数字图像由像素组成。所述方法包括将所述数字图像中的每个分段成数字图像段。所述方法包括通过将MVS处理应用于每个数字图像段的所述像素的子集来确定所述数字图像段中的每个的深度向量和法向向量。所述方法包括通过基于所述数字图像段中的每个的所确定的深度和法向向量估计每数字图像段的3D平面，来形成所述数字图像中的每个像素的深度向量和法向向量的图。所述方法包括生成所述场景的所述3D点云作为所述数字图像中的每个像素的深度向量和法向向量的所有所述图的组合。

Description

场景的3D点云的生成

技术领域

本文呈现的实施例涉及用于生成场景的三维(3D)点云的方法、图像处理装置、计算机程序和计算机程序产品。

背景技术

一般而言，3D点云生成(3D PCG)是将视觉二维(2D)信息(即，数字图像集合)变换成3D信息的过程。3D PCG被认为是扩展现实(XR)领域中的关键使能技术，因为3D PCG可以用于创建空间理解并且令用户仅基于视觉信息而与用户的环境进行交互。

生成3D点云的过程通常包括稀疏建模阶段和密集建模阶段，其中密集化步骤通过被称为多视图立体(MVS)处理的过程来创建最终3D点云。

一般而言，MVS处理的目标是针对数字图像的输入集合中的每个数字图像来获得一致深度图像(由深度和法向向量表示)的集合。大多数现有技术水平的MVS算法将对深度图像的估计与法向图像组合。这些法向图像包含在像素级别对所捕获表面的定向的估计，并且增加性能。

在针对每个输入图像来估计深度和法向图像之后，可以借助于将对每个图像的估计融合在一致的3D点云中来获得3D点云。

随着高质量视觉传感器的快速发展，诸如数字摄像机之类的图像捕获装置的分辨率近年来已显著增加。由于在像素级别上应用MVS，因此它随着增加的图像分辨率而很差地缩放，并且在计算上是有需求的。基于这种趋势，产生在不牺牲质量的情况下改进MVS和类似算法的可缩放性的需要。例如，在许多实际设置(诸如XR)中，目标是创建接近实时的3D点云以用于直接空间理解。

降低计算负担的一种方法是向下缩放输入数字图像(例如使用双线性滤波器)并对因而减少大小的数字图像运行MVS处理。这加速了MVS处理，但是丢失了细节，并且最终3D点云可能未能捕获原始输入数字图像中的更精细细节，诸如锐利的边界边缘。当需要保留视觉场景的精细细节时，这限制了改进MVS处理的可缩放性的可能性。

加速MVS处理的另一种方法涉及对来自特定域的数据的神经网络的训练。然而，这只能减少对于与经训练域类似的输入数字图像的MVS处理，并且因此限制了这种方法的实际使用。

因此，仍然存在对计算上高效的3D点云生成的需要。

发明内容

本文实施例的目的是在不牺牲所得到的3D点云的最后质量的情况下提供计算上高效的3D点云生成。

根据第一方面，呈现了一种用于生成场景的3D点云的方法。所述方法由图像处理装置执行。所述方法包括获得描绘所述场景的数字图像。每个数字图像由像素组成。所述方法包括将所述数字图像中的每个分段成数字图像段。所述方法包括通过将MVS处理应用于每个数字图像段的所述像素的子集来确定所述数字图像段中的每个的深度向量和法向向量。所述方法包括通过基于所述数字图像段中的每个的所确定的深度和法向向量估计每数字图像段的3D平面，来形成所述数字图像中的每个像素的深度向量和法向向量的图。所述方法包括生成所述场景的所述3D点云作为所述数字图像中的每个像素的深度向量和法向向量的所有所述图的组合。

根据第二方面，呈现了一种用于生成场景的3D点云的图像处理装置。所述图像处理装置包括处理电路。所述处理电路配置成使所述图像处理装置获得描绘所述场景的数字图像。每个数字图像由像素组成。所述处理电路配置成使所述图像处理装置将所述数字图像中的每个分段成数字图像段。所述处理电路配置成使所述图像处理装置通过将MVS处理应用于每个数字图像段的所述像素的子集来确定所述数字图像段中的每个的深度向量和法向向量。所述处理电路配置成使所述图像处理装置通过基于所述数字图像段中的每个的所确定的深度和法向向量估计每数字图像段的3D平面，来形成所述数字图像中的每个像素的深度向量和法向向量的图。所述处理电路配置成使所述图像处理装置生成所述场景的所述3D点云作为所述数字图像中的每个像素的深度向量和法向向量的所有所述图的组合。

根据第三方面，呈现了一种用于生成场景的3D点云的图像处理装置。所述图像处理装置包括配置成获得描绘所述场景的数字图像的获得模块。每个数字图像由像素组成。所述图像处理装置包括配置成将所述数字图像中的每个分段成数字图像段的分段模块。所述图像处理装置包括配置成通过将MVS处理应用于每个数字图像段的所述像素的子集来确定所述数字图像段中的每个的深度向量和法向向量的确定模块。所述图像处理装置包括配置成通过基于所述数字图像段中的每个的所确定的深度和法向向量估计每数字图像段的3D平面，来形成所述数字图像中的每个像素的深度向量和法向向量的图的形成模块。所述图像处理装置包括配置成生成所述场景的所述3D点云作为所述数字图像中的每个像素的深度向量和法向向量的所有所述图的组合的生成模块。

根据第四方面，呈现了一种用于生成场景的3D点云的计算机程序，所述计算机程序包括计算机程序代码，所述计算机程序代码当在图像处理装置上运行时使所述图像处理装置执行根据第一方面所述的方法。

根据第五方面，呈现了一种计算机程序产品，所述计算机程序产品包括根据第四方面所述的计算机程序以及计算机可读存储介质，所述计算机程序存储在所述计算机可读存储介质上。所述计算机可读存储介质可以是非暂时性计算机可读存储介质。

有利地，这些方面在不牺牲性能的情况下提供计算上高效的场景的3D点云生成。

有利地，这些方面与现有技术水平相比在不牺牲3D点云质量的情况下实现了在MVS处理期间的计算时间的大量减少。

从以下详细公开、从所附从属权利要求以及从附图中，随附实施例的其它目的、特征和优点将是明白的。

一般地，除非本文以其它方式明确定义，否则权利要求中使用的所有术语要根据它们在技术领域中的普通含义来解释。除非以其它方式明确陈述，否则对一/一个/所述元件、设备、组件、部件、模块、步骤等的所有参考要被开放地解释为指所述元件、设备、组件、部件、模块、步骤等的至少一个实例。除非明确陈述，否则本文所公开的任何方法的步骤不必须以所公开的确切顺序来执行。

附图说明

现在通过示例的方式参考附图来描述本发明概念，在附图中：

图1是示出根据实施例的图像处理***的示意图；

图2是示出根据实施例的图像处理装置的示意图；

图3是根据实施例的方法的流程图；

图4示意性地示出了根据实施例的对数字图像的分段；

图5和图6示意性地示出了根据实施例的数字图像中的样本位置；

图7示意性地示出了根据实施例的内插；

图8是示出根据实施例的图像处理装置的功能单元的示意图；

图9是示出根据实施例的图像处理装置的功能模块的示意图；以及

图10示出了根据实施例的包括计算机可读存储介质的计算机程序产品的一个示例。

具体实施方式

现在将在下文中参考附图更充分地描述本发明概念，在附图中示出了本发明概念的某些实施例。然而，本发明概念可以以许多不同的形式来体现，并且不应该被解释为限于本文所阐述的实施例；相反，这些实施例通过示例的方式来提供，使得本公开将是透彻且完整的，并且将向本领域技术人员充分传达本发明概念的范围。贯穿描述，相同的数字指相同的元件。由虚线示出的任何步骤或特征应该被认为是可选的。

如上面注意到的，仍然存在对计算上高效的3D点云生成的需要。

因此，本文公开的实施例涉及用于生成场景的3D点云的机制。为了获得此类机制，提供了图像处理装置、由图像处理装置执行的方法、包括代码(例如采用计算机程序的形式)的计算机程序产品，所述代码当在图像处理装置上运行时，使图像处理装置执行所述方法。

图1是示出根据实施例的图像处理***100的示意图。图像处理***100配置成生成如由数字图像110所描绘的场景的3D点云。图像处理***100包括采用稀疏点云生成模块150的形式的第一图像处理装置和采用密集点云生成模块的形式的第二图像处理装置200。

稀疏点云生成模块配置成从场景的2D数字图像110的所接收集合中使数字图像110关于数字图像110如何相对于彼此来定向而彼此相关。从而可以确定位置(在定位和方向方面)，已在所述位置处捕获数字图像110中的每个。稀疏点云生成模块配置成从那些数字图像110中提取关键点并且建立所提取的关键点之间的对应关系。基于三角测量来估计所匹配的关键点的深度值，因此创建稀疏点云。

密集点云生成模块配置成估计数字图像110中的所有图像像素(即，关键点之外的图像像素)的深度和法向向量。当这被实现时，这些像素也有助于场景的密集3D模型或点云。下面将公开密集点云生成模块的进一步方面。为了易于表示，下文中密集点云生成模块将被称为图像处理装置200。

图2是示出根据实施例的实现密集点云生成模块的功能性的图像处理装置200的示意图。将并行参考图3来解释图2。

图3是示出用于生成场景的3D点云的方法的实施例的流程图。所述方法由图像处理装置200执行。所述方法有利地被提供为计算机程序1020。

从描绘场景的数字图像110生成3D点云。因此，图像处理装置200配置成执行步骤S102：

S102：图像处理装置200获得描绘场景的数字图像110。每个数字图像110由像素112组成。

为了使能MVS处理仅被应用于每个图像中的所有像素112的子集，每个数字图像110首先被分段成数字图像段116。因此，图像处理装置200配置成执行步骤S104：

S104：图像处理装置200将数字图像110中的每个分段成数字图像段116。步骤S104可以由图2中的分段模块250来实现。

然后MVS处理被应用于数字图像段级别上而不是应用于每像素级别上。因此，图像处理装置200配置成执行步骤S108：

S108：图像处理装置200通过将MVS处理应用于每个数字图像段116的像素112的子集来确定数字图像段116中的每个的深度向量和法向向量。步骤S108可以由图2中的基于分段的MVS模块265来实现。

然后，按每个数字图像段116中的每个像素112来确定深度向量和法向向量。因此，图像处理装置200配置成执行步骤S110：

S110：图像处理装置200通过基于数字图像段116中的每个的所确定深度和法向向量估计每数字图像段116的3D平面，来形成数字图像110中的每个像素112的深度向量和法向向量的图。步骤S110可以由图2中的3D平面生成模块270来实现。

然后，基于每个像素112的深度向量和法向向量来生成场景的3D点云。因此，图像处理装置200配置成执行步骤S112：

S112：图像处理装置200生成场景的3D点云作为数字图像110中的每个像素112的深度向量和法向向量的所有图的组合。步骤S112可以由图2中的3D点云生成模块275来实现。

由于MVS处理被应用于数字图像段级别上而不是像素级别，因此可以显著减少所要求的计算的数量。进而，这使能在不牺牲所得到的3D点云的精度的情况下实现加速。

现在将公开涉及如由图像处理装置200所执行的生成场景的3D点云的进一步细节的实施例。

现在将公开涉及图像处理装置200可以如何将数字图像110中的每个分段成数字图像段116的进一步方面。

在步骤S104中可以存在执行分段的不同方式。在一些方面中，应用分段掩模(segmentation mask)来执行分段。也就是说，在一些实施例中，将数字图像110分段成数字图像段116包括将分段掩模应用于数字图像110中的每个。分段掩模可以是图像无关的(即，与场景无关)或图像相关的(即，取决于场景)。在一些非限制性示例中，使用(如在Radhakrishna Achanta、Appu Shaji、Kevin Smith、Aurelien Lucchi、Pascal Fua和Sabine Süsstrunk，“SLIC Superpixels Compared to State-of-the-art SuperpixelMethods”，关于模式分析和机器智能的IEEE事务(IEEE Transactions on PatternAnalysis and Machine Intelligent)，卷34，第11期，第2274-2282页，2012年5月中所公开的)简单线性迭代聚类(SLIC)算法来确定分段掩模。在一些实施例中，每个数字图像段116因此等于一个超像素。然后，分段掩模可以定义超像素之间的边界。

数字图像段116的数量由K表示。此数量与需要在场景的3D点云中保留的最小对象的大小px_min相关。因此，最小对象表示场景中需要在提取时保留的最精细细节。需要保留哪些对象一般取决于场景的3D点云的使用或应用。例如，假设场景描绘了单元塔(celltower)，并且单元塔由单独的组件组成。如果场景的3D点云的使用或应用涉及标识组件中的一个，则每个组件可能因此由对象表示，并且因此执行分段使得保留表示所有这些单独组件的对象是足够的。另一方面，如果场景的3D点云的使用或应用涉及标识组件中的一个或多个的特定细节(诸如锁、螺母、螺栓等)，则执行分段使得保留表示所有这些特定细节的对象是必需的。因此，数字图像段116的数量可能不仅取决于场景本身有多详细，而且还取决于出于什么目的(在细节级别方面)要使用场景的3D点云。在一些方面，数字图像段116的数量因此基于对象大小。在这方面，假设场景包括至少一个对象118。至少一个对象118中的每个在数字图像110中具有大小。在一些实施例中，每个数字图像110被分段成多少个数字图像段116取决于至少一个对象118的大小。这一点的进一步方面将在下面公开。

数字图像段116的数量一方面可以由最小对象118的大小来界定，并且另一方面由采样位置114的数量来界定。

在这方面，场景中的最小对象118的大小可以定义数字图像段116的最小数量。特别地，在一些实施例中，最小对象118的大小定义了关于每个数字图像110需要被分段成多少个数字图像段116的下限。在一些示例中，数字图像段116的数量基于样本位置114的数量。特别地，在一些实施例中，每个数字图像110被分段成多少个数字图像段116取决于在每个数字图像110中的多少个采样位置114处应用MVS处理。

进一步地，在这方面，采样位置114的数量可以定义数字图像段116的最大数量。特别地，在一些实施例中，每个数字图像110中的样本位置114的总量定义了关于每个数字图像110需要被分段成多少个数字图像段116的上限。

图4分别在(a)、(b)、(c)和(d)示出了相同数字图像110针对K＝100、K＝1000、K＝2500和K＝5000的所得到的分段。

在一些方面，验证了分段产生在每个数字图像段116中存在至少一个样本位置114。如果不是这种情况，则分段被认为是不适定的(ill-posed)。假设被包括在像素112的子集中的像素112由数字图像110中的样本位置114定义，在一些实施例中，图像处理装置200配置成执行(可选的)步骤S106：

S106：图像处理装置200验证每个数字图像段116包括至少一个样本位置114。步骤S106可以由图2中的验证良好适定模块255来实现。

在执行步骤S106的实施例中，在步骤S108之前执行步骤S106。

为了检查每个数字图像段116是否包括至少一个样本位置114，可以检查每个数字图像段116以确定在每个数字图像段116内是否存在样本位置114。

如果分段被认为是不适定的，即，每个数字图像段116未能包括至少一个样本位置114，则数字图像段116的大小可能被增加，因此引起步骤S104中的分段再次被执行但是通过数字图像段116的因而增加的大小来执行。此特征可以由图2中的调整模块260来实现。也就是说，在一些实施例中，当至少一个数字图像段116未能包括至少一个样本位置114时，至少数字图像110的分段(针对所述分段，数字图像段116未能包括至少一个样本位置114)通过数字图像段116的增加的大小而被重复。

现在将公开涉及图像处理装置200可以如何确定数字图像段116中的每个的深度向量和法向向量的进一步方面。

如上面指定的，MVS处理被应用于每个数字图像段116的像素112的子集。因此，MVS处理被应用于等于采样位置114处的像素的M个像素的稀疏集合。因此确定M个像素的稀疏集合中的每一个点的深度和法向向量。

可以存在确定M个像素的此稀疏集合的不同方式。

在一些方面，像素的子集对应于数字图像段116的质心。也就是说，在一些实施例中，每个数字图像段116具有质心，并且像素的子集是数字图像段116的质心。这在图5中示出，图5示出了数字图像110的像素112，并且其中如位于采样位置114处的像素的子集因此与在步骤S104中获得的数字图像段116的K个质心重合。

在其它方面，像素的子集的像素均匀地在每个数字图像110中散布。也就是说，在一些实施例中，像素的子集是每数字图像110的均匀采样像素。这在图6中示出，图6示出了数字图像110的像素112，并且其中如位于采样位置114处的像素的子集因此被形成为均匀网格，所述均匀网格取数字图像110中的每第m个点。此均匀网格不必需与数字图像段116的质心重合，但是像素的子集中的每个像素属于数字图像段116。图5中的实现在大的数字图像段116的情况下可以给出稍微更好的重构，但是图6中的实现可以是在计算上和存储器更高效的。

如上面注意到的，每个数字图像段116应该包括至少一个样本位置114，而不管如何选择像素的子集。

现在将公开图像处理装置200可以如何形成数字图像110中的每个像素112的深度向量和法向向量的图的进一步方面。

在一些方面，数字图像110中的每个像素112的深度向量和法向向量的图通过融合数字图像段掩模以及在步骤S108中确定的数字图像段116中的每个的深度向量和法向向量而形成。在一些示例中，融合涉及估计每个数字图像段116的3D平面。特别地，在一些实施例中，如步骤S110中的形成数字图像110中的每个像素112的深度向量和法向向量的图进一步包括：每数字图像110，相对于彼此内插3D平面。

数字图像段掩模以及来自M个像素的子集的深度和法向向量因此被用于恢复丢失的信息，产生数字图像110中的每个像素112的深度向量和法向向量的图，并且因此引起N个像素的原始图像分辨率。在一些方面，内插因此涉及估计3D平面并将每个3D平面投影到数字图像110中的每个像素112的深度向量和法向向量的图。也就是说，在一些实施例中，内插3D平面包括：每数字图像段116，将3D平面投影到深度向量和法向向量的图。

现在将公开涉及可以如何确定数字图像段116的数量的进一步方面。

一方面，具有尽可能少的数字图像段116可以是有利的，因为这将最小化采样位置114的数量。然而，取决于场景，存在不可能使用较少数字图像段116的点。这取决于需要在提取(其中因此大量的数字图像段116能够更好地掌握精细细节)时保留的最精细细节或对象118。为了确定然后数字图像段的正确数量K是多少，将数字图像段116的平均面积S定义为：

其中w是图像宽度，h是图像高度。接下来，要求的是在提取时保留至少大小为px_min个像素的对象。将其代入等式(1)中产生：

在一些非限制性示例中，10％的安全余量被添加到等式(2)，因此产生所要求的数字图像段的数量K为：

接下来将公开涉及可以如何确定每个数字图像段116中的每像素的深度和法向向量的进一步方面。

令每个数字图像段116被定义为图像域上的像素点的集合：

(u，v)∈Ω_i.

目标等于标识3D平面，所述3D平面被定义为:

π_i＝ax+by+cz+d. (3)

在估计了此类3D平面之后，Ω_i内的深度和法向向量被获得为：

其中(a，b，c，d)是等式(3)的平面参数，并且e和f被定义为：

其中参数从固有摄像机校准矩阵(f_u，f_v，c_u，c_v)中获得。图7示出了可以如何通过使用稀疏信息(在采样位置114处)估计每个超像素的平面(右)并将平面投影回到深度-法向图(左)来执行对给定像素112的内插，并且其中700表示位置，在所述位置处数字图像110包括所示出的数字图像段116。

然后，将平面估计问题构造为鲁棒回归问题，其中收集由MVS所处理的像素的子集。对于每个测量，这产生：

A_ix_i＝b_i

其中

其中状态

由质心c和在球面坐标中定义为/>

的法向向量/>

所定义。叠加所有测量，误差ε_i可以针对一个数字图像段116而被定义为

然后通过最小化Huber损失函数来获得平面参数：

针对每个数字图像段0≤i≤J重复此过程产生每个数字图像段116中的每像素的深度和法向向量的图。

图8在多个功能单元方面示意性地示出了根据实施例的图像处理装置200的组件。使用能够执行存储在例如采用存储介质230的形式的(如图10中的)计算机程序产品1010中的软件指令的合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)等中的一个或多个的任何组合来提供处理电路210。处理电路210进一步可以被提供为至少一个专用集成电路(ASIC)或现场可编程门阵列(FPGA)。

特别地，处理电路210配置成使图像处理装置200执行如上面所公开的操作或步骤集合。例如，存储介质230可以存储操作集合，并且处理电路210可以配置成从存储介质230检索操作集合以使图像处理装置200执行所述操作集合。所述操作集合可以被提供为可执行指令集合。

因此，处理电路210从而被布置成执行如本文所公开的方法。存储介质230还可以包括持久性存储装置，其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装的存储器中的任何单个一个或组合。图像处理装置200进一步可以包括至少被配置用于与其它实体、功能、节点、模块和***进行通信的通信接口220。这样，通信接口220可以包括一个或多个传送器和接收器，所述一个或多个传送器和接收器包括模拟和数字组件。处理电路210例如通过向通信接口220和存储介质230发送数据和控制信号、通过从通信接口220接收数据和报告、以及通过从存储介质230检索数据和指令，来控制图像处理装置200的一般操作。省略了图像处理装置200的其它组件以及相关功能性，以便不使本文所呈现的概念模糊。

图9在多个功能模块方面示意性地示出了根据实施例的图像处理装置200的组件。图9的图像处理装置200包括多个功能模块；配置成执行步骤S102的获得模块210a、配置成执行步骤S104的分段模块210b、配置成执行步骤S108的确定模块210d、配置成执行步骤S110的形成模块210e、以及配置成执行步骤S112的生成模块210f。图9的图像处理装置200进一步可以包括多个可选功能模块，诸如配置成执行步骤S106的验证模块210c。一般而言，每个功能模块210a-210f在一个实施例中可以仅以硬件来实现，并且在另一实施例中通过软件的帮助来实现，即，后一实施例具有存储在存储介质230上的计算机程序指令，所述计算机程序指令当在处理电路上运行时，使图像处理装置200执行上面结合图9所提到的对应步骤。还应该提到，即使模块对应于计算机程序的部分，它们也不需要是在其中的单独模块，但是它们以软件来实现的方式取决于所使用的编程语言。

优选地，一个或多个或所有功能模块210a-210f可以由处理电路210可能地与通信接口220和/或存储介质230协作而实现。处理电路210因此可以配置成从存储介质230获取如由功能模块210a-210f所提供的指令，并且执行这些指令，从而执行如本文所公开的任何步骤。

图像处理装置200可以被提供为独立装置或被提供为至少一个其它装置的一部分。由图像处理装置200执行的指令的第一部分可以在第一装置中执行，并且由图像处理装置200执行的指令的第二部分可以在第二装置中执行；本文所公开的实施例不限于任何特定数量的装置(在其上可以执行由图像处理装置200所执行的指令)。因此，根据本文所公开的实施例的方法适合于由驻留在云计算环境中的图像处理装置200执行。因此，尽管图8中示出了单个处理电路210，但是处理电路210可以在多个装置或节点之间分布。相同情况适用于图9的功能模块210a-210f和图10的计算机程序1020。

图10示出了包括计算机可读存储介质1030的计算机程序产品1010的一个示例。在此计算机可读存储介质1030上，可以存储计算机程序1020，所述计算机程序1020可以使处理电路210以及操作地耦合到其的实体和装置(诸如通信接口220和存储介质230)执行根据本文所描述的实施例的方法。计算机程序1020和/或计算机程序产品1010因此可以提供用于执行如本文所公开的任何步骤的部件。

在图10的示例中，计算机程序产品1010被示出为光盘，诸如CD(紧致盘)或DVD(数字多功能盘)或蓝光盘。计算机程序产品1010还可以体现为存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)或电可擦除可编程只读存储器(EEPROM)，以及更特别地，体现为诸如USB(通用串行总线)存储器或闪速存储器(诸如紧致闪速存储器)之类的外部存储器中的装置的非易失性存储介质。因此，虽然计算机程序1020在这里被示意性地示出为所描绘的光盘上的轨迹，但是计算机程序1020可以以适合于计算机程序产品1010的任何方式来存储。

上面已经参考几个实施例主要描述了本发明概念。然而，如本领域技术人员容易意识到的，在如由所附专利权利要求所定义的本发明概念的范围内，除了以上所公开的实施例之外的其它实施例同样是可能的。

Claims

1.一种用于生成场景的三维3D点云的方法，所述方法由图像处理装置(200)执行，所述方法包括：

获得(S102)描绘所述场景的数字图像(110)，其中每个数字图像(110)由像素(112)组成；

将所述数字图像(110)中的每个分段(S104)成数字图像段(116)；

通过将多视图立体MVS处理应用于每个数字图像段(116)的所述像素(112)的子集来确定(S108)所述数字图像段(116)中的每个的深度向量和法向向量；

通过基于所述数字图像段(116)中的每个的所确定的深度和法向向量估计每数字图像段(116)的3D平面，来形成(S110)所述数字图像(110)中的每个像素(112)的深度向量和法向向量的图；以及

生成(S112)所述场景的所述3D点云作为所述数字图像(110)中的每个像素(112)的深度向量和法向向量的所有所述图的组合。

2.根据权利要求1所述的方法，其中，每个数字图像段(116)具有质心，并且其中，所述像素(112)的所述子集是所述数字图像段(116)的所述质心。

3.根据权利要求1所述的方法，其中，所述像素(112)的所述子集是每数字图像(110)的均匀采样像素(112)。

4.根据前述权利要求中任一项所述的方法，其中，所述场景包括至少一个对象(118)，其中，所述至少一个对象(118)中的每个具有大小，并且其中，每个数字图像(110)被分段成多少个数字图像段(116)取决于所述至少一个对象(118)的所述大小。

5.根据权利要求4所述的方法，其中，最小对象(118)的所述大小定义了关于每个数字图像(110)需要被分段成多少个数字图像段(116)的下限。

6.根据前述权利要求中任一项所述的方法，其中，每个数字图像(110)被分段成多少个数字图像段(116)取决于在每个数字图像(110)中的多少个样本位置(114)处应用所述MVS处理。

7.根据权利要求6所述的方法，其中，每个数字图像(110)中的样本位置(114)的总量定义了关于每个数字图像(110)需要被分段成多少个数字图像段(116)的上限。

8.根据前述权利要求中任一项所述的方法，其中，被包括在像素(112)的所述子集中的所述像素(112)由所述数字图像(110)中的样本位置(114)定义，并且其中，所述方法进一步包括：

验证(S106)每个数字图像段(116)包括至少一个样本位置(114)。

9.根据权利要求8所述的方法，其中，当至少一个数字图像段(116)未能包括至少一个样本位置(114)时，通过所述数字图像段(116)的增加的大小来重复至少所述数字图像(110)的所述分段，对于所述数字图像(110)，所述数字图像段(116)未能包括至少一个样本位置(114)。

10.根据前述权利要求中任一项所述的方法，其中，将所述数字图像(110)分段成所述数字图像段(116)包括将分段掩模应用于所述数字图像(110)中的每个。

11.根据权利要求10所述的方法，其中，所述分段掩模取决于所述场景。

12.根据前述权利要求中任一项所述的方法，其中，形成(S110)所述数字图像(110)中的每个像素(112)的深度向量和法向向量的所述图进一步包括：每数字图像(110)，相对于彼此内插所述3D平面。

13.根据权利要求12所述的方法，其中，内插所述3D平面包括：每数字图像段(116)，将所述3D平面投影到深度向量和法向向量的所述图。

14.根据前述权利要求中任一项所述的方法，其中，每个数字图像段(116)等于一个超像素。

15.根据权利要求10和14的组合所述的方法，其中，所述分段掩模定义超像素之间的边界。

16.一种用于生成场景的三维3D点云的图像处理装置(200)，所述图像处理装置(200)包括处理电路(210)，所述处理电路配置成使所述图像处理装置(200)：

获得描绘所述场景的数字图像(110)，其中每个数字图像(110)由像素(112)组成；

将所述数字图像(110)中的每个分段成数字图像段(116)；

通过将多视图立体MVS处理应用于每个数字图像段(116)的所述像素(112)的子集来确定所述数字图像段(116)中的每个的深度向量和法向向量；

通过基于所述数字图像段(116)中的每个的所确定的深度和法向向量估计每数字图像段(116)的3D平面，来形成所述数字图像(110)中的每个像素(112)的深度向量和法向向量的图；以及

生成所述场景的所述3D点云作为所述数字图像(110)中的每个像素(112)的深度向量和法向向量的所有所述图的组合。

17.一种用于生成场景的三维3D点云的图像处理装置(200)，所述图像处理装置(200)包括：

获得模块(210a)，配置成获得描绘所述场景的数字图像(110)，其中每个数字图像(110)由像素(112)组成；

分段模块(210b)，配置成将所述数字图像(110)中的每个分段成数字图像段(116)；

确定模块(210d)，配置成通过将多视图立体MVS处理应用于每个数字图像段(116)的所述像素(112)的子集来确定所述数字图像段(116)中的每个的深度向量和法向向量；

形成模块(210e)，配置成通过基于所述数字图像段(116)中的每个的所确定的深度和法向向量估计每数字图像段(116)的3D平面，来形成所述数字图像(110)中的每个像素(112)的深度向量和法向向量的图；以及

生成模块(210f)，配置成生成所述场景的所述3D点云作为所述数字图像(110)中的每个像素(112)的深度向量和法向向量的所有所述图的组合。

18.根据权利要求16或17所述的图像处理装置(200)，进一步配置成执行根据权利要求2至15中任一项所述的方法。

19.一种用于生成场景的三维3D点云的计算机程序(1020)，所述计算机程序包括计算机代码，所述计算机代码当在图像处理装置(200)的处理电路(210)上运行时使所述图像处理装置(200)：

将所述数字图像(110)中的每个分段(S104)成数字图像段(116)；

20.一种计算机程序产品(1010)，包括根据权利要求19所述的计算机程序(1020)以及计算机可读存储介质(1030)，所述计算机程序存储在所述计算机可读存储介质(1030)上。