CN104025153B

CN104025153B - 粗到细多个视差候选立体匹配

Info

Publication number: CN104025153B
Application number: CN201180076169.XA
Authority: CN
Inventors: T·Y·古瑟瓦
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2017-09-15
Anticipated expiration: 2031-12-30
Also published as: US9342916B2; WO2013100790A1; US20130314409A1; CN104025153A

Abstract

用于基于多个视差分配和每一视差分配的匹配成本来生成立体图像对的视差图的估计；以及通过细化所估计的视差图来生成最终视差图的图像处理装置、***以及方法。

Description

粗到细多个视差候选立体匹配

背景

根据立体图像生成三维(3-D)信息是3-D和其他多视图图像处理中的重要任务。注意，真实世界点(例如，所观看的对象)投影到立体图像中的唯一一对对应像素。基于立体图像，从与同一真实世界点相对应的立体图像提取或以其他方式生成3-D信息是可能的。确定所投影的立体图像中的点距主题点的位置通常造成对应性问题。解决该对应性问题可包括生成视差图(disparity map)的估计。

与同一真实世界图像相关联的立体图像的两个对应点的位置的差异通常被称为视差。在左和右(即，立体)图像中多个真实世界点的投影的视差的图可被称为视差图。用于生成视差图的一些以前的技术包括局部、全局、以及迭代技术。然而，这些技术中的每一个都不乏其缺点。例如，对于局部方法，视差图的估计取决于有限窗口内的强度值因而计算成本很低。相反，全局方法可以使用非局部约束来降低对局部区域(如遮挡或无纹理区域)的敏感性，但与局部方法相比，全局方法的计算成本因而很高。另外，先前的迭代方法可采用通常操作图像金字塔的粗到细技术，其中来自较粗糙水平的结果被用于定义较精细水平的更加局部的搜索。改进这样的迭代方法的效率因而是重要的。

附图说明

本文中所公开的各方面通过示例而非限制地在附图中示出。为说明的简单和清楚而非限制起见，在附图中示出的各方面不一定按比例绘制。此外，在认为合适的地方，在附图中重复附图标记以指示相应或相似的元件。

图1是根据本文的一些实施例的对应立体对图像的说明性描绘。

图2是根据一个实施例的过程的流程图。

图3是根据一个实施例的与视差图的估计相关的过程300的流程图。

图4示出根据一实施例的“无疑”片段的分类的匹配成本和交集大小域的图。

图5示出根据一实施例的“稳定”片段的分类的匹配成本和交集大小域的图。

图6示出根据一实施例的“不稳定”片段的分类的匹配成本和交集大小域的图。

图7示出根据一实施例的“未被遮挡”片段的分类的匹配成本和交集大小域的图。

图8示出根据本文的一实施例的视差图的说明性描绘。

图9示出根据本文的一些实施例的可生成视差图的图像处理***的框图。

具体实施方式

以下描述了可支持用于提高生成视差图的效率和准确性的过程和操作的图像处理设备或***。本公开内容提供了与用于实现这些过程和操作的***有关的多个具体细节。然而，本领域技术人员将领会，没有这些具体细节也可实践本公开内容的诸实施例。因而，在一些实例中，诸如控制机制和全软件指令序列等各方面未被详细示出以便不模糊本公开内容的其他方面。本领域技术人员利用本文所包括的描述将能在无需过度实验的情况下实现适当的功能。

在说明书中对“一个实施例”、“一些实施例”、“一实施例”、“示例实施例”、“一实例”、“一些实例”等的引用表明所描述的实施例可包括特定特征、结构或特性，但不一定每个实施例均包括该特定特征、结构或特性。此外，这样的短语不一定是指同一个实施例。此外，当结合一个实施例描述特定特征、结构或特性时，我们认为，可在本领域技术人员的学识范围内，与其他实施例相结合地影响这样的特征、结构或特性，无论是否对此明确描述。

本文的一些实施例可以用硬件、固件、软件或它们的任意组合来实现。各实施例还可实现为储存在机器可读介质上的可执行指令，这些指令可由一个或多个处理器读取和执行。一种机器可读存储介质可包括用于以机器(例如，计算设备)可读的形式存储信息的任意有形的非暂时性机构。在一些方面，机器可读存储介质可包括只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪存设备；以及电子或光学形式的信号。尽管在本文中将固件、软件、例程、以及指令描述为执行某些动作，但应当明白，这些描述仅仅是出于方便起见且这些动作实际上得自执行该固件、软件、例程以及指令的计算设备、处理器、控制器以及其他设备。

与共同对象相对应的立体对图像投影可被处理以生成多视图或三维(3-D)图像，例如通过从立体图像中提取场景的3-D结构。这基于以下事实：真实世界点投影到相关联的立体图像中的唯一一对对应的像素。因而，在确定对应的像素时还原该对象点的三维信息是可能的。

图1是从来自真实世界图像的投影获得的立体对图像105和110的说明性描绘。在一些方面，图像105可被称为立体对的左图像而图像110可被称为立体对的右图像。

在一个实施例中，本文的方法和***基于多峰值候选集合结合匹配成本模糊性确定来估计经调整的立体对的视差图。在一些方面，粗到细方法被用来降低与视差图的确定相关联的计算要求。作为一些实施例的总体概览，图2是用于生成视差图估计的过程200的说明性流程图。

过程200可包括用于对一对立体图像分段的操作205。立体图像因而是过程200的输入并且可被称为输入立体对在操作210，确定将与输入立体对和相对应的片段分类成“可疑”还是值得信任(即，“不可疑”)以用于视差图估计过程。具体而言，一些实施例确定片段是否是“可疑”的，而这样的确定可以用于稍后的处理操作。在操作215，输入立体对可按预定因子来按比例缩小。缩小可以在过程200的这一时刻执行，以减少生成视差图估计所需的计算。在一些方面，缩放因子在本文中被称为t_sc。继续至操作220，使用立体对的经缩放的图像I_l和I_r来执行视差图D的估计与在确定视差图估计时使用的因子和考虑有关的附加细节在下文中提供。

过程200还包括用于放大在操作220生成的所估计的视差图D的操作225。提供该放大以补偿操作215的缩小。注意，缩小和放大发生在所估计的视差图的计算之前和之后。以此方式，计算所估计的视差图所需的计算资源可被降低。操作230包括所估计的视差图的细化D_l。在一些方面，左和右图像分别被用作右和左图像的附加图像。

如上所述，过程200是本文的方法的一实施例的总体概览的流程图。下文是过程200的操作的更详细呈现，示出了本公开的各方面。各详细方面中的一些在图3的过程300中反映。

图3包括305处的分段操作。关于分段操作305，在一些实施例中，分段可通过将图像表示为X并且将图像片段的集合表示为S_X来实现。图像X可被迭代地过滤N_ms次并且经过滤的图像F的像素F_(i,j)((i,j)是像素位置)可如下定义：

其中

W_(i,j)是其中心在像素(i,j)处的(2h_sp+1)×(2h_sp+1)窗口。

片段s∈S_X可如下定义：当且仅当经过滤的像素和的颜色距离小于阈值，两个邻居像素和才属于同一片段。即，

注意，和

因而，图像可被分段成各片段，其中各片段包括其间的颜色距离小于阈值的像素。在一些实施例中，阈值可以是预定的。

关于检测可疑片段操作210，可疑片段可通过将图像表示为X并将图像片段的集合表示为S_X来确定或检测。如果片段s∈S_X不包含n_d×n_d像素块，则它可被定义为“可疑的”。即，

其中w和h是图像X的宽度和高度。在此，表示“不可疑”片段的集合，并且表示可疑片段的集合。因此，

被分类成可疑的片段可能不包括用于确定视差图的足够信息。

过程200的操作215包括缩小输入立体对图像。在一些实施例中，图像可按因子t_sc来缩小。在此，X表示图像且S_X表示图像片段的集合。对于每一其中w和h是图像X宽度和高度，将和W_(i,j)定义为：

其中表示其左上角处于当前像素的方形块，表示该方形块与某一‘不可疑片段’的最大交集。对于所有‘不可疑’片段，选择给出最大交集的那一片段；W_(i,j)类似于唯一区别是关于所有片段(不仅是‘不可疑’的，如以上情况所示)。

经缩放图像Y的像素Y_(i,j)(其中(i,j)是像素位置)被定义为：

与片段s∈S_X相对应的经缩放的片段s_sc被定义为：

操作310包括过程200的详细方面，过程220用于计算片段的匹配成本，其中匹配成本由C_s(d)来表示。匹配成本的计算考虑要为其计算匹配成本的片段是“不可疑”还是“可疑”的。

在片段被确定或检测为“不可疑”(即，并非“可疑”)的情况下，一些实施例分别将主图像和附加图像表示为I和I^a。注意，因为“不可疑”片段s的一部分可被遮挡，所以通过到附加图像I^a的视差d来弯曲的片段s_d可与若干片段重叠(其中，这样的片段的集合被表示为S⁰)，以及

s_d＝{(x,y):0≤x<w,0≤y<h,(x-d,y)∈s}，

其中w和h是附加图像I^a的宽度和高度。在此，将对应的片段定义为与弯曲片段s_d交集最大的片段。这一方面可被表示为：

“不可疑”片段s的匹配误差的能量C_s(d)被定义为：

在片段被确定或检测为“可疑”的情况下，根据以下来确定匹配成本，其中I和I^a分别指的是主图像和附加图像。对于“可疑”片段s，窗口W_s可被定义为像素(i,j)，使得像素(i,j)与片段s之间的距离小于n_d。即，

其中s_(i,j)是像素(i,j)所属的片段。

“可疑”片段s的匹配误差的能量C_s(d)被定义为：

本领域普通技术人员应当明白，术语“可疑”和“不可疑”是为命名惯例方便起见来使用的，并且这些术语由本文公开的方程和其他指定关系来定义。

确定了“可疑”和“不可疑”片段的匹配成本后，操作315(例如，图2中引入的操作220)的视差图的估计包括基于片段的匹配成本最小值来确定视差候选并基于片段的匹配成本最小值将视差候选分配给多个片段分类之一以生成立体图像的所估计的视差图。在一些实施例中，本公开的这一方面可包括(i)检测或确定片段中的每一个适合多个片段分类中的哪一个，(ii)将视差候选片段分配给检测到的分类，(iii)细化视差候选集合，以及(iv)细化视差图。一般而言，这四个操作可被应用于多个片段分类中的每一分类的片段。

在以下公开中，本领域普通技术人员应当明白，用于命名多个片段分类的术语是为命名惯例方便起见来使用的，并且这些术语由本文公开的方程和其他指定关系来定义。

在一个实施例中，视差候选的检测包括检测匹配成本最小值M_s。即，检测使得

C_s(d)<C_s(d-d_l)-δ，

C_s(d)<C_s(d+d_r)-δ，

其中且

此外，在一些实施例中，当且仅当存在匹配成本最小值d′，使得

其中将视差d定义为片段s视差候选。

在一个实施例中，视差候选的细化包括将图像表示为I且将片段s视差候选的集合表示为D_s。对于每一图像I，“不可疑”片段和N_s是类似片段的集合，向其分配视差。即，

其中是向其分配视差的片段的集合。

在一个实施例中，如果弯曲的片段s_d与一些弯曲的类似片段s′∈N_s有交集，则值d从视差候选集合D_s中移除。即，

其中是分配给片段s′的视差。

如上所述，本文的过程包括对多个片段分类中的每一分类的视差分配。在一个实例中，对“无疑”片段进行视差分配。在一个实施例中，将主图像和附加图像分别表示为I和I^a。首先，选择“不可疑”片段使得视差候选集合D_s包括一个元素。即，匹配成本域C_s(d)具有一个局部最小值，

在一个实施例中，将片段s∈S′_I的集合表示为使得

·对应片段是“不可疑”的，即

·匹配成本小于

·弯曲片段与对应片段的交集大于其中是片段s视差候选。

如本文使用的，片段被称为“无疑”片段，其中“无疑”片段是在匹配成本域具有一个很好定义的局部最小值的片段。

最后，视差候选被分配给尚未被分配视差的每一“无疑”片段。

图4是“无疑”片段的匹配成本和交集大小域的示例。在图4中，匹配成本由线405表示，线410表示弯曲和对应的片段的交集的大小，415表示视差候选的匹配成本，以及420表示视差候选的交集大小。

在一个实例中，对“稳定”片段进行视差分配。在一个实施例中，将主图像和附加图像分别表示为I和I^a。选择“不可疑”片段使得存在使对应片段“不可疑”的视差候选d∈D_s。即，

其中对于每一片段s∈S′_I，检测匹配成本最小的视差候选因此，

令

其中和分别是弯曲和对应的片段。

在此，如果以下条件之一满足，则称片段s∈S″_I是“稳定的”：

1.集合包括一个元素

2.匹配成本是良好定义的局部最小值，即，

3.令且

视差候选交集是良好定义的，即，

其中

如果前两个条件(即，1或2)之一满足，则视差被分配给尚未被分配视差的“稳定”片段s。否则，分配视差(条件3)。

图5是“稳定”片段的匹配成本和交集大小域的说明性示例。在图5中，匹配成本由线505表示，线510表示弯曲和对应的片段的交集的大小，515表示视差候选的匹配成本，以及520表示视差候选的交集大小。

在一个实例中，对“不稳定”片段进行视差分配。在一个实施例中，I表示输入图像。还将“不可疑”片段的集合表示为S′_I，使得视差候选集合D_s非空并且视差被分配给某一“不可疑”的相邻片段。

对于每一片段s∈S′_I，选择视差候选，使得对应的匹配成本充分小并且类似视差被分配给某一“不可疑”的相邻片段。即，

其中N_s是向其分配视差的“不可疑”相邻片段的集合且d_s′是分配给片段s′∈N_s的视差。

如果集合D′_s非空且

其中且则片段s∈S′_I被称为“不稳定”的。

视差被分配给尚未被分配视差的“不稳定”片段。

图6是“不稳定”片段的匹配成本和交集大小域的说明性示例。在图6中，匹配成本由线605表示，线610表示弯曲和对应的片段的交集的大小，615表示视差候选的匹配成本，以及620表示视差候选的交集大小。

在一个实例中，对“未被遮挡”片段进行视差分配。在一个实施例中，将I表示为输入图像且将S′_I表示为片段s∈S_I的集合，使得视差候选集合D_s非空且视差被分配给某一相邻片段。

对于每一片段s∈S′_I，选择视差候选，使得类似视差被分配给某一相邻片段s′_d∈N_s。即，

其中d_s′是分配给片段s′的视差。

令如果：

1.集合D′_s是非空集合；

2.

3.如果|D′_s|>1，其中

N_s是向其分配视差的相邻片段的集合，

且d_s′是分配给片段s′的视差，

则片段s∈S′_I被称为“未被遮挡”。

这一实施例向尚未被分配视差的每一“未被遮挡”的片段s分配视差。

图7是“未被遮挡”片段的匹配成本和交集大小域的说明性示例。在图7中，匹配成本由线705表示，线710表示弯曲和对应的片段的交集的大小，715表示视差候选的匹配成本，以及720表示视差候选的交集大小。

在一些实施例中，对“未被遮挡”片段进行视差分配。在一个实施例中，I表示输入图像。尚未被分配视差的每一片段被检测为“被遮挡”的。

对于每一“被遮挡”片段s，将片段的集合表示为N′_s，使得

s₁∈N_s，

s_n∈N_s′，

其中N_s是片段s相邻片段的集合。

对于每一“被遮挡”片段s，分配视差其中d_s′是分配给片段s′的视差。

在一些实施例中，将每一片段分配给多个视差分配分类中的每一分类后，可执行视差图一致性检查。在一些方面，I表示主图像且I^a表示附加图像，并且和指的是向其分配视差的主图像和附加图像片段的集合。

对于每一片段s∈S_I，检测与片段s相对应的各附加图像片段。即，

其中d_s′是分配给s′片段的视差，且是与片段s′相对应的片段。

如果集合N_s非空并且对于任何片段s₀,s₁∈N_s，分配给它们的视差是相等的则每一片段与视差相关联，其中s′∈N_s。

在一些方面，如果不存在s′∈N_s使得|d_s+d_s′|<thr_cc，则片段从集合中移除。

回头参考图1，操作125，基于片段的匹配成本的分类来生成的所估计的视差图被放大。放大操作被执行以补偿在视差图的估计之前对立体图像片段执行的缩小操作(例如，115)。在一个实施例中，对于输入图像片段的集合视差图的放大可通过将Iⁱⁿ和I分别表示为输入图像和经缩小的图像来执行。对于每一片段

其中是与片段s相对应的经缩放的片段。

如果集合N_s非空，则分配视差其中d_s′是分配给片段s′的视差。

在本文的一些实施例中，视差图估计被进一步细化。细化可包括将I和I^a分别表示为主图像和附加图像。

对于每一像素(i,j)，表示：

其中W_(i,j)是其中心处于像素(i,j)的(2n_d+1)×(2n_d+1)窗口，以及

其中s_(i,j)是像素(i,j)所属的片段，且是分配给片段s_(i,j)的视差。最后，视差被分配给每一片段s∈S_I。

应当明白，用于实现过程200和300的各实施例的上述描述提供了用于执行这些方法的说明性示例。另外，作为所公开的实现的补充、替换以及修改的其他操作可被包括在本公开的范围内。

图8是根据本文公开的过程所生成的视差图估计的说明性描绘。在图8的示例中，在区域805和810处的视差图估计分别对应于图1的在105和110处的输入立体对。

基于上述内容，可以看到，本文的方法和***与先前其他方法的区别在于视差关联方面。本文的方法包括其中按匹配成本域模糊性增加的次序来分配视差的方案。所公开的方法不使用几何约束。以此方式，没有对匹配唯一性的假定。

在一些方面，所公开的方法包括较粗糙水平结果传播的方案。例如，在一些实施例中，代替标准图像金字塔，更精细水平的片段信息被使用。这些方法高效地允许降低计算复杂度，而没有伴随的性能降低。

注意，本文的方法和***甚至在难以处理区域(如大型遮挡和无纹理区域)中也正确地估计视差。此外，一些实施例规定所估计的视差是平滑的并有效地保留了对象边界。

图9是根据一些实施例的***或装置900的框图概览。***可以例如与用于实现本文描述的方法和过程的任何设备相关联，包括例如供应软件产品的业务服务提供者的客户机设备和服务器。***900包括处理器905，诸如，形式为单芯片微处理器或多核处理器的一个或多个商业可用的中央处理单元，耦合至被配置为经由通信网络(图9中未示出)与另一个设备或***进行通信的通信设备915。在该实现中，***900包括应用服务器，通信设备915可提供***900来与客户机设备交互。***900还可包括本地存储器910，诸如RAM存储器模块。***600还包括输入设备920(如，用于输入内容的触摸屏、鼠标、和/或键盘)和输出设备925(如，用于显示用户界面元素的计算机监视器)。

处理器905与存储设备930通信。存储设备930可包括任何合适的信息存储设备，包括磁存储设备(如，硬盘驱动器)、光存储设备、和/或半导体存储器设备的组合。在一些实施例中，存储设备可包括数据库***。

存储设备930存储程序代码935，可提供计算机可执行指令用于，根据此处的过程而处理来自例如客户机设备的处理请求。处理器905可执行程序935的指令来藉此根据此处描述的任何实施例地进行操作。程序代码935可被存储为压缩的、未编译的、和/或加密的格式。程序代码935可进一步包括其他程序元件，诸如操作***、数据库管理***、和/或由处理器905使用来与例如***设备交互的设备驱动器。存储设备930还可包括数据945。在一些方面，数据945与视差图估计引擎940结合，可由***900用于执行此处的过程，诸如过程200和300。

本文讨论的所有***和过程可被实现在储存于一个或多个计算机可读介质上的程序代码中。这样的介质可包括例如软盘、CD-ROM、DVD-ROM、一种或多种类型的“盘”、磁带、存储卡、闪存驱动器、固态驱动器、以及固态随机存取存储器(RAM)或只读存储器(ROM)存储单元。各实施例因而不限于硬件和软件的任何具体组合。

本文中仅仅出于说明目的描述了各实施例。本领域技术人员将从这一描述中认识到，各实施例不限于所描述的实施例，而是可以在只受权利要求书的精神和范围所限定的各种修改和更改的情况下来实施。

Claims

1.一种计算机实现的方法，所述方法包括：

基于多个视差分配以及每一视差分配的匹配成本来生成立体图像对的视差图的估计；以及

通过细化所估计的视差图来生成最终视差图，

其中生成所述视差图估计包括：

对所述立体图像分段，各片段各自包括具有颜色距离的多个像素，所述多个像素的所述颜色距离处于彼此的阈值内；

确定所述片段是可疑的还是不可疑的；

计算所述片段的匹配成本；

基于所述片段的匹配成本最小值来确定诸个视差候选；以及

基于所述片段的匹配成本最小值来将所述诸个视差候选分配给多个片段分类之一，以生成所述立体图像的所估计的视差图。

2.如权利要求1所述的方法，其特征在于，所述多个片段分类中的每一片段分类包括不同水平的分段信息。

3.如权利要求1所述的方法，其特征在于，还包括：

在生成所估计的视差图之前，按预定因子来缩小所述立体图像；以及

在生成所估计的视差图之后，按所述预定因子对它进行放大。

4.如权利要求1所述的方法，其特征在于，所述视差图估计适用于所述立体图像的被遮挡区域。

5.一种生成视差图的***，所述***包括：

其上存储有处理器可执行指令的机器可读介质；以及

视差图估计器，包括用于执行所述指令以进行以下操作的处理器：

通过细化所估计的视差图来生成最终视差图，

其中生成所述视差图估计包括：

确定所述片段是可疑的还是不可疑的；

计算所述片段的匹配成本；

基于所述片段的匹配成本最小值来确定诸个视差候选；以及

6.如权利要求5所述的***，其特征在于，所述多个片段分类中的每一片段分类包括不同水平的分段信息。

7.如权利要求5所述的***，其特征在于，还包括：

8.如权利要求5所述的***，其特征在于，所述视差图估计适用于所述立体图像的被遮挡区域。

9.一种生成视差图的***，所述***包括：

存储器；

其上存储有处理器可执行指令的机器可读介质；以及

执行所述指令以进行以下操作的处理器：

通过细化所估计的视差图来生成最终视差图,

其中生成所述视差图估计包括：

确定所述片段是可疑的还是不可疑的；

计算所述片段的匹配成本；

基于所述片段的匹配成本最小值来确定诸个视差候选；以及

10.如权利要求9所述的***，其特征在于，所述多个片段分类中的每一片段分类包括不同水平的分段信息。

11.如权利要求9所述的***，其特征在于，还包括：

12.如权利要求9所述的***，其特征在于，所述视差图估计适用于所述立体图像的被遮挡区域。