CN103493093B

CN103493093B - 图像处理装置、摄像装置及图像处理方法

Info

Publication number: CN103493093B
Application number: CN201280019440.0A
Authority: CN
Inventors: 石井育规
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-11-17
Filing date: 2012-11-13
Publication date: 2017-07-18
Anticipated expiration: 2032-11-13
Also published as: JPWO2013073167A1; WO2013073167A1; US20140072205A1; JP5923713B2; CN103493093A; US9153066B2

Abstract

一种图像处理装置（10），利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据，具备：视差值计算部（11），针对作为第1图像内的一部分像素的多个代表像素中的各个像素，基于代表像素与对应于代表像素的第2图像内的像素的位置关系，计算代表像素的视差值；分段部（12），基于像素值的类似性，将第1图像分割为多个段；以及深度数据生成部（13），按每个段，基于段中包含的代表像素的视差值确定段的视差值，从而生成表示与各段对应的进深的深度数据。

Description

图像处理装置、摄像装置及图像处理方法

技术领域

本发明涉及使用从相互不同的视点拍摄的第1图像和第2图像生成深度数据的图像处理装置、摄像装置及图像处理方法。

背景技术

近年来，显示3D图像的3D显示器开始广泛普及。并且，拍摄向这样的3D显示器显示的3D图像的3D照相机的需求也增加。在通常的3D照相机中，使用两组透镜及传感器拍摄立体图像。

已知有使用通过这样的3D照相机拍摄的立体图像生成表示立体图像的进深的深度数据的方法。例如，通过在立体图像中按每个像素检测对应点，并计算对应点间的视差值，能够生成深度数据。并且，能够使用这样生成的深度数据对立体图像实施各种处理。

现有技术文献

专利文献

专利文献1：特表2007-520822号公报

发明概要

发明要解决的问题

但是，在上述以往的方法中，为了生成深度数据而需要按每个像素检测对应点，处理负荷变高。

对此，公开了按照通过将图像分割而得到的每个段、基于该段的大小分配进深值的方法（例如，参照专利文献1）。在专利文献1的方法中，越小的段分配越小的进深值。但是，并不一定段越小则与该段对应的被摄体越存在于近前。即，在专利文献1的方法中，在生成深度数据时，虽然能够减轻处理负荷，但深度数据的正确度大幅下降。

发明内容

所以，本发明提供一种在使用从相互不同的视点拍摄的第1图像和第2图像生成深度数据时，能够抑制深度数据的正确度的下降，并且减轻处理负荷的图像处理装置、摄像装置及图像处理方法。

用于解决问题的手段

有关本发明的一形态的图像处理装置，是利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据的图像处理装置，具备：视差值计算部，针对作为上述第1图像内的一部分像素的多个代表像素中的各个代表像素，基于上述代表像素与对应于上述代表像素的上述第2图像内的像素的位置关系，计算上述代表像素的视差值；分段部，基于像素值的类似性，将上述第1图像分割为多个段；以及深度数据生成部，按每个段，基于上述段中包含的代表像素的视差值确定上述段的视差值，从而生成表示与各段对应的进深的深度数据。

另外，这些总括性的或具体的形态也可以通过***、方法、集成电路、计算机程序或计算机可读取的CD-ROM（Compact Disc Read Only Memory）等的记录介质实现，也可以通过***、方法、集成电路、计算机程序及记录介质的任意的组合来实现。

发明效果

根据有关本发明的一形态的图像处理装置，当使用从相互不同的视点拍摄的第1图像和第2图像生成深度数据时，能够抑制深度数据的正确度的下降，并且减轻处理负荷。

附图说明

图1是表示有关实施方式1的图像处理装置的功能结构的框图。

图2是表示有关实施方式1的图像处理装置的处理动作的流程图。

图3是用于说明有关实施方式1的图像处理装置的处理动作的图。

图4是表示有关实施方式2的图像处理装置的功能结构的框图。

图5是表示有关实施方式2的图像处理装置的处理动作的流程图。

图6是表示有关实施方式2的校准处理的概要的图。

图7是用于说明有关实施方式2的校准处理的一例的图。

图8是表示有关实施方式2的分段的详细情况的流程图。

图9是用于说明有关实施方式2的分段的图。

图10是用于说明有关实施方式2的分段的图。

图11是表示有关实施方式2的分段结果的一例的图。

图12是表示有关实施方式2的段结合处理的详细情况的流程图。

图13是用于说明有关实施方式2的段结合处理的图。

图14是表示有关实施方式2的变形例的深度数据生成处理的详细情况的流程图。

图15是表示有关一实施方式的摄像装置的结构的框图。

具体实施方式

有关本发明的一形态的图像处理装置，是利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据的图像处理装置，具备：视差值计算部，对作为上述第1图像内的一部分像素的多个代表像素中的各个代表像素，基于上述代表像素与对应于上述代表像素的上述第2图像内的像素的位置关系，计算上述代表像素的视差值；分段部，基于像素值的类似性，将上述第1图像分割为多个段；以及深度数据生成部，按每个段，基于上述段中包含的代表像素的视差值确定上述段的视差值，从而生成表示与各段对应的进深的深度数据。

根据该结构，能够基于各段中包含的代表像素的视差值生成表示与各段对应的进深的深度数据。即，为了生成深度数据，只要检测与各代表像素对应的第2图像内的像素就可以，不需要检测与全部的像素分别对应的第2图像内的像素。因而，能够减轻用于生成深度数据的处理负荷。

进而，根据该结构，由于基于像素值的类似性将第1图像分割为多个段，所以在1个段中包含相互不同的多个被摄体的可能性变低。即，进深类似的区域被分割为1个段的可能性变高。通过按这样分割后的每个段确定视差值，能够抑制表示与各段对应的进深的深度数据的正确度下降。

此外，优选的是，上述图像处理装置还具备段结合部，所述段结合部在上述多个段中包括不包含代表像素的空段的情况下，将上述空段与相邻于上述空段的段结合为1个；上述深度数据生成部基于由上述段结合部结合后的段生成上述深度数据。

根据该结构，在多个段中包括空段的情况下，能够将该空段和相邻段结合为1个。因而，当通过分段部将第1图像分割为多个段时，不需要必须分割为包含代表像素。即，能够不考虑与代表像素的对应关系而进行分段。结果，能够将分段和代表像素的视差值计算并行处理，能够实现深度数据生成处理的高速化。

此外，优选的是，上述段结合部在上述空段与多个段相邻的情况下，基于颜色的类似性从上述多个段中选择至少1个段，将所选择的上述至少1个段与上述空段结合为1个。

根据该结构，能够将颜色类似的段彼此结合为1个。即，由于将颜色类似的区域作为1个段，所以进深类似的区域成为1个段的可能性变高。通过按这样得到的每个段确定视差值，能够更正确地生成表示与各段对应的进深的深度数据。

此外，优选的是，上述深度数据生成部在上述段中包含两个以上的代表像素的情况下，将上述两个以上的代表像素的视差值的中央值或平均值确定为上述段的视差值。

根据该结构，在段中包含有两个以上的代表像素的情况下，能够将两个以上的代表像素的视差值的中央值或平均值确定为段的视差值。因而，能够简单地确定段的视差值，能够减轻用于生成深度数据的处理负荷。此外，能够使段的视差值与段中包含的各像素的视差值的误差比较小，能够更正确地生成深度数据。

此外，优选的是，上述深度数据生成部按每个段，使用上述段中包含的至少1个代表像素的视差值对上述段中包含的其他像素的视差值进行插补，从而计算上述段中包含的各像素的视差值；基于计算出的各像素的视差值，生成表示各像素的进深的深度图作为上述深度数据。

根据该结构，能够按每个段，使用该段中包含的至少1个代表像素的视差值对该段中包含的其他像素的视差值进行插补。因而，能够通过插补得到各像素的视差值，能够更正确地生成深度数据。

此外，优选的是，上述分段部通过基于类似性的聚类，将上述第1图像分割为多个段，该类似性是使用像素值及像素位置定义的类似性。

根据该结构，能够通过基于使用像素值及像素位置定义的类似性的聚类，来将第1图像分割为多个段。因而，能够以1个段中不包含相互不同的多个被摄体的方式将第1图像高精度地分割为多个段。结果，能够更正确地生成深度数据。

此外，优选的是，上述聚类是k平均法（k-means clustering）。

根据该结构，能够通过k平均法将第1图像分割为多个段。因而，能够以1个段中不包含相互不同的多个被摄体的方式将第1图像更高精度地分割为多个段。进而，能够通过比较简单的处理进行分段，所以还能够减轻用于生成深度数据的处理负荷。

此外，优选的是，上述图像处理装置还具备计算上述第1图像的特征点作为上述代表像素的特征点计算部。

根据该结构，能够计算特征点作为代表像素。因而，容易地检测与代表像素对应的第2图像内的像素，能够减轻处理负荷。

此外，优选的是，上述图像处理装置还具备使用上述特征点进行用于使上述第1图像和上述第2图像平行化的校准处理的校准处理部；上述视差值计算部使用进行上述校准处理后的上述第1图像及上述第2图像，计算上述代表像素的视差值。

根据该结构，能够进行用于使第1图像和第2图像平行化的校准处理。一般而言，在拍摄了立体图像等的多视点图像的情况下，进行多视点图像的校准处理。此外，在校准处理中，进行特征点的计算及对应点的检测。即，能够挪用在校准处理中进行的特征点的计算及对应点的检测结果来计算代表像素的视差值，所以能够减轻用于生成深度数据的处理负荷。

此外，优选的是，上述图像处理装置还具备基于上述深度数据将上述第1图像分离为前景区域和背景区域、并对上述背景区域实施模糊处理的图像处理部。

根据该结构，能够基于深度数据将第1图像分离为前景区域和背景区域，并对背景区域实施模糊处理。用于分离为前景区域和背景区域的深度数据不需要一定是像素单位的高精细的深度数据。因而，能够有效地利用基于各段的视差值的深度数据。

此外，优选的是，上述图像处理装置还具备基于上述深度数据将上述第1图像分离为前景区域和背景区域、并将上述前景区域与不同于上述第1图像及上述第2图像的第3图像进行合成的图像处理部。

根据该结构，能够基于深度数据将第1图像分离为前景区域和背景区域，并将前景区域与相当于背景区域的其他图像进行合成。用于分离为前景区域和背景区域的深度数据不需要一定是像素单位的高精细的深度数据。因而，能够有效地利用基于各段的视差值的深度数据。

此外，上述图像处理装置也可以构成为集成电路。

此外，有关本发明的一形态的摄像装置具备上述图像处理装置、以及拍摄上述第1图像及上述第2图像的摄像部。

根据该结构，能够起到与上述图像处理装置同样的效果。

以下，利用附图对实施方式进行详细的说明。另外，以下说明的实施方式都表示本发明的一具体例。即，在以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接形态、步骤、步骤的顺序等是一例，并不是要限定本发明。此外，关于以下的实施方式的构成要素中的、在表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素进行说明。

（实施方式1）

图1是表示有关实施方式1的图像处理装置10的功能结构的框图。图像处理装置10利用从相互不同的视点拍摄的第1图像及第2图像（例如立体图像）生成第1图像的深度数据。第1图像及第2图像例如是立体图像（左眼用图像及右眼用图像）。

如图1所示，有关本实施方式的图像处理装置10具备视差值计算部11、分段部12和深度数据生成部13。

视差值计算部11按第1图像内的每个代表像素检测第2图像内的对应像素，由此计算代表像素与对应像素之间的视差值。即，视差值计算部11对于第1图像内的一部分像素计算视差值。

这里，所谓代表像素，是第1图像所包含的像素中的一部分像素。在本实施方式中，代表像素是存在于图像内的预先设定的位置的像素。

此外，所谓对应像素，是与代表像素对应的像素。即，对应像素是与第1图像内的代表像素类似的第2图像内的像素。代表像素和对应像素这两个像素也被称为对应点。该对应像素例如可以通过块匹配法来检测。

此外，所谓代表像素与对应像素之间的视差值，是表示代表像素的位置与对应像素的位置的偏差的值。如果使用该视差值，则基于三角测量的原理，能够计算从摄像装置到被摄体的距离（进深）。另外，将该代表像素与对应像素之间的视差值简称为代表像素的视差值。

分段部12基于像素值的类似性，将第1图像分割为多个段。即，分段部12以像素值相互类似的像素包含在1个段中的方式将第1图像分割为多个段。在本实施方式中，分段部12以在各段中包含至少1个代表像素的方式将第1图像分割为多个段。

这里，所谓段，相当于第1图像内的一部分区域。此外，以下将分割为多个段的处理也称作分段。

此外，所谓像素值，是构成图像的像素具有的值。像素值例如是表示像素的亮度、颜色、明亮度、色调或色度、或者它们的组合的值。

深度数据生成部13按每个段，基于该段中包含的代表像素的视差值确定该段的视差值，从而生成深度数据。即，深度数据生成部13基于按每个段确定的视差值而生成深度数据。

这里生成的深度数据表示与各段对应的进深。例如，深度数据也可以是将段的进深值与表示段的位置及大小的段信息建立了对应的数据。此外，深度数据例如也可以是作为像素值而具有进深值的深度图（深度图像）。

另外，深度数据并不需要一定包含进深值，只要包含表示进深的数据就可以。例如，深度数据也可以包含视差值作为表示进深的数据。

接着，说明如以上那样构成的图像处理装置10的处理动作。

图2是表示有关实施方式1的图像处理装置10的处理动作的流程图。图3是用于说明有关实施方式1的图像处理装置10的处理动作的一例的图。

首先，视差值计算部11计算各代表像素的视差值（S101）。例如如图3（a）所示，视差值计算部11按第1图像101内的位于预先决定的位置的每个代表像素检测第2图像102内的对应像素。并且，视差值计算部11基于代表像素与对应像素的位置关系，分别计算代表像素的视差值。

接着，分段部12将第1图像101分割为多个段（S102）。例如如图3（b）所示，分段部12将第1图像101分割为分别具有预先设定的尺寸的矩形状的多个段。这里，在图3（b）中，以在各段中包含1个代表像素的方式将第1图像101分割。

最后，深度数据生成部13基于各段的视差值生成深度数据（S103）。此时，深度数据生成部13如图3（c）所示，基于该段中包含的代表像素的视差值来确定各段的视差值。

如以上这样，根据有关本实施方式的图像处理装置10，能够基于各段中包含的代表像素的视差值生成表示与各段对应的进深的深度数据。即，为了生成深度数据，只要检测与各代表像素对应的第2图像内的像素就可以，不需要检测与全部像素分别对应的第2图像内的像素。因而，能够减轻用于生成深度数据的处理负荷。

进而，根据有关本实施方式的图像处理装置10，由于基于像素值的类似性将第1图像分割为多个段，所以在1个段中包含相互不同的多个被摄体的可能性变低。即，进深类似的区域被分割为1个段的可能性变高。通过按这样分割后的每个段确定视差值，能够抑制表示与各段对应的进深的深度数据的正确度下降。

另外，在图2中，在视差值计算（S101）后进行分段（S102），但并不一定需要以该顺序进行。即，也可以在分段（S102）后进行视差值计算（S101）。在此情况下，视差值计算部11例如只要将由分段部12分割出的各段的重心位置的像素作为代表像素就可以。

此外，视差值计算（S101）和分段（S102）也可以并行地进行。由此，能够实现处理的高速化。

（实施方式2）

接着，参照附图对实施方式2进行说明。

图4是表示有关实施方式2的图像处理装置20的功能结构的框图。有关本实施方式的图像处理装置20具备特征点计算部21、校准（alignment）处理部22、视差值计算部23、分段部24、段结合部25、深度数据生成部26和图像处理部27。

特征点计算部21计算第1图像的特征点作为代表像素。具体而言，特征点计算部21使用通过特征量提取方法提取的特征量计算特征点。作为特征量提取方法，例如可以使用在参考文献1（David G.Lowe,“Distinctive image features from scale-invariant keypoints”,International Journal of Computer Vision,60,2（2004）,pp.91-110.）中公开的SIFT（Scale Invariant Feature Transform）。此外，作为特征量提取方法，也可以使用在参考文献2（Herbert Bay,Andreas Ess,Tinne Tuytelaars,Luc Van Gool,“SURF：Speeded Up Robust Features”,Computer Vision and Image Understanding（CVIU）,Vol.110,否.3,pp.346-359,2008）中公开的SURF（Speeded Up Robust Features）。

校准处理部22使用计算出的特征点，进行用于进行第1图像和第2图像的平行化（rectification）的校准处理。具体而言，校准处理部22基于特征量，检测与特征点对应的第2图像内的点。进而，校准处理部22利用检测出的第2图像内的点和特征点的两点（对应点）间的位置关系进行校准处理。

视差值计算部23使用进行校准处理后的第1图像及第2图像计算代表像素的视差值。即，视差值计算部23按每个特征点，利用对应点间的位置关系计算视差值。

分段部24通过基于类似性的聚类，将第1图像分割为多个段，该类似性是使用像素值及像素位置定义的类似性。另外，关于该聚类的详细情况在后面叙述。

段结合部25在多个段中包括空段的情况下，将该空段与相邻于该空段的段结合为1个。这里，所谓空段，是不包含代表像素的段。

另外，段结合部25在结合后的段中不包含代表像素的情况下，还重复与相邻的段的结合。即，段结合部25将段结合，以使得在各段中包含至少1个代表像素。

深度数据生成部26基于由段结合部25结合后的段生成深度数据。具体而言，深度数据生成部26例如将段中包含的代表像素的视差值确定为段的视差值。此外，在段中包含有两个以上的代表像素的情况下，深度数据生成部26例如将两个以上的代表像素的视差值的中央值或平均值确定为段的视差值。

图像处理部27基于生成的深度数据，对第1图像及第2图像的至少一方实施图像处理。例如，图像处理部27基于深度数据，将第1图像分离为前景区域和背景区域。并且，图像处理部27对背景区域实施模糊处理。此外，例如图像处理部27也可以将前景区域与不同于第1图像及第2图像的第3图像合成。

这样的用于将第1图像分离为前景区域和背景区域的深度数据并不需要一定是像素单位的高精细的深度数据。即，可以有效利用基于各段的视差值的深度数据。

接着，说明如以上那样构成的图像处理装置20的处理动作。

图5是表示有关实施方式2的图像处理装置20的处理动作的流程图。

首先，特征点计算部21计算第1图像的特征点作为代表像素（S201）。校准处理部22使用计算出的特征点，进行用于将第1图像和第2图像平行化的校准处理（S202）。

视差值计算部23使用进行校准处理后的第1图像及第2图像计算代表像素的视差值（S203）。分段部24通过基于类似性的聚类，将第1图像分割为多个段，该类似性是使用像素值及像素位置定义的类似性（S204）。

段结合部25将多个段结合，以使得在各段中包含至少1个代表像素（S205）。深度数据生成部26基于由段结合部25结合后的段生成深度数据（S206）。最后，图像处理部27基于生成的深度数据，对第1图像及第2图像的至少一方实施图像处理（S207）。

以下，参照附图对这样的图像处理装置20的处理动作的详细情况进行说明。首先，使用图6及图7说明校准处理（S202）的详细情况。

图6是表示有关实施方式2的校准处理的概要的图。

如图6（a）所示，由立体照相机拍摄的立体图像相互不平行的情况较多。即，在第1图像101及第2图像102的各自中，极线（epipolar line）不为水平的情况较多。

所以，校准处理部22如图6（b）所示，进行第1图像101及第2图像102的平行化，以使得在第1图像101及第2图像102的各自中极线成为水平。

图7是用于说明有关实施方式2的校准处理的一例的图。具体而言，图7是用于说明基于在参考文献3（“新编图像解析手册”（高木干夫·下田阳久监修，东京大学出版会刊，2004年9月，1333-1337页））中公开的方法的校准处理的图。

图像L及图像R是拍摄对象物P而得到的立体图像。与图像L上的点P’L对应的图像R上的点P’R存在于包括两张图像的投影中心OL及OR和图像L上的点P’L在内的平面与图像R交叉的直线上。

将该直线称作极线。此外，将包括对象物P和两张图像的投影中心OL及OR子在内的平面称作极平面（epipolar plane）。

即，极平面与两张图像L、R各自的图像投影面的交线为极线。在这样没有平行化的图像中，极线不与图像的扫描方向（这里是水平方向）平行。因此，在对应点的匹配中，需要2维的探索，计算量增加。所以，为了使探索简单化，用以下所示的方法将两张立体图像平行化。

考虑以图像L的投影中心OL为原点，x’轴、y’轴分别与UL轴、VL轴平行的坐标系（x’，y’，z’）。将该坐标系称作模型坐标系。在模型坐标系中，图像L的传感器的投影中心的位置为（0，0，0），姿势为（0，0，0），此外图像R的传感器的投影中心的位置为（Bx’，By’，Bz’），姿势为（ω’，φ’，χ’）。如果设Bx’为单位长度，by’=By’/Bx’，bz’=Bz’/Bx’，则该模型坐标系与各自的假想投影面坐标系之间的坐标变换如以下的式1及式2那样表示。

［数式1］

（式1）

［数式2］

（式2）

这些坐标变换式中的未知数是关于图像R的（by’，bz’）、（ω’，χ’）这5个。这些5个未知数被决定为满足以下的共面条件式（式3）。

［数式3］

(式3）

首先，在两张图像上，分别选择5点以上的3维坐标上的相同点。并且，确定它们的假想投影面坐标。接着，使用所确定的假想投影面坐标，对式3采用最小二乘法，由此决定（by’，bz’）、（ω’，χ’）。

接着，考虑由以下的式4及式5给出的坐标变换。

［数式4］

(式4)

［数式5］

(式5)

进行该坐标变换后的图像L’（u’L，v’L）及图像R’（u’L，v’L）是沿着极线再排列后的图像。在这两张图像（图像L’及图像R’）上，对应点的v’坐标相互相等。即，在变换后的图像中，对应点只要在横向上探索就可以，对应点的探索变得简单。由此，图像L变换为新的图像L’。

即，视差值计算部23使用这样平行化的第1图像101及第2图像102探索与第1图像101内的代表像素对应的第2图像102内的像素，由此能够简单地计算各代表像素的视差值。

另外，在图6中，对假定了中心投影的解法进行了叙述，但在透视投影、弱透视投影等的情况下，也能够使用与摄像***对应的几何模型进行同样的处理。

接着，使用图8～图11对分段（S204）的详细情况进行说明。另外，这里，作为分段的一例，对基于k平均法（k-means clustering）的分段进行说明。

图8是表示有关实施方式2的分段的详细情况的流程图。图9是用于说明有关实施方式2的分段的图。图10是用于说明有关实施方式2的分段的图。图11是表示有关实施方式2的分段结果的一例的图。

如图8所示，分段部24首先将第1图像及第2图像的颜色空间进行变换（S301）。具体而言，分段部24将第1图像及第2图像从RGB颜色空间变换为Lab颜色空间。

该Lab颜色空间是在感知上均等的颜色空间。即，在Lab颜色空间中，当颜色的值同样变化时，人在观看它时感到的变化也相等。因而，分段部24通过在Lab颜色空间中进行第1图像的分段，能够沿着人感知的被摄体的边界将第1图像分割。

接着，分段部24设定k个（k：2以上的整数）初始群集的重心（S302）。这些k个初始群集的重心例如设定为均等地配置在第1图像上。这里，以相邻的重心间的间隔成为S（像素）的方式设定k个初始群集的重心。

接着，对第1图像内的各像素进行步骤S303、S304的处理。具体而言，分段部24计算相对于各群集的重心的距离Ds（S303）。该距离Ds相当于表示使用像素值及像素位置定义的类似性的值。这里，距离Ds越小，表示像素相对于群集的重心的类似性越高。

另外，如图9所示，分段部24仅对位于距离计算对象范围内的重心Ck计算对象像素i的距离Ds。这里，将在水平方向及垂直方向上，距对象像素i的位置为初始群集的重心间隔S以下的位置设定为距离计算对象范围。即，分段部24对于对象像素i计算相对于重心C2、C3、C6、C7各自的距离。这样，通过设定距离计算对象范围，与对全部的重心计算距离的情况相比，能够减轻计算负荷。

对象像素i（像素位置（xi，yi），像素值（li，ai，bi））相对于重心Ck（像素位置（xk，yk），像素值（lk，ak，bk））的距离Ds通过以下的式6计算。

［数式6］

d_lab＝(l_k-l_i)²+(a_k-a_i)²+(b_k-b_i)² (式6)

d_xy＝(x_k-x_i)²+(y_k-y_i)²

这里，m是用于实现基于像素值的距离dlab与基于像素位置的距离dxy对距离Ds带来的影响的平衡的系数。该系数m只要实验性或经验性地预先决定就可以。

接着，分段部24这样使用对象像素i相对于各重心的距离Ds，决定对象像素i所属的群集（S304）。具体而言，分段部24将具有距离Ds最小的重心的群集决定为对象像素i的所属群集。

通过将这样的步骤S303、S304的处理按第1图像中包含的每个像素重复进行，决定各像素的所属群集。

接着，分段部24更新各群集的重心（S305）。例如，在步骤S304中决定各像素的所属群集的结果是，如图10所示，在矩形状的群集变化为六边形状的群集的情况下，更新重心C6的像素值及像素位置。

具体而言，分段部24按照以下的式7，计算新的重心的像素值（lk_new，ak_new，bk_new）及像素位置（xk_new，yk_new）。

［数式7］

(式7)

这里，在各群集的重心收敛的情况下（S306的是），分段部24结束处理。即，在步骤S305的更新前后在各群集的重心没有变化的情况下，分段部24结束分段。另一方面，在各群集的重心不收敛的情况下（S306的否），分段部24重复步骤S303～S305的处理。

这样，分段部24通过基于使用像素值及像素位置定义的类似度的聚类（这里是k平均法），能够将第1图像分割为多个段。因而，如图11所示，分段部24能够根据第1图像中包含的被摄体区域的特征将第1图像分割为多个段。

即，分段部24能够将第1图像分割为多个段，以使得在1个段中包含相同的被摄体。结果，各段内的像素的视差值类似，所以能够使按每个段确定的视差值的正确度提高。即，深度数据能够更正确地生成。进而，k平均法由于是比较简单的聚类，所以还能够减轻用于生成深度数据的处理负荷。

接着，使用图12及图13对段结合（S205）的详细情况进行说明。另外，这里，作为段结合的一例，对基于颜色的类似性的段结合进行说明。

图12是表示有关实施方式2的段结合处理的详细情况的流程图。图13是用于说明有关实施方式2的段结合处理的图。

如图12所示，段结合部25首先从通过分段部24的分割得到的多个分段中选择空段（S401）。所谓空段，是1个代表像素也不包含的段。

段结合部25选择与所选择的空段相邻的段（以下，也称作相邻段）（S402）。这里，在空段与多个段相邻的情况下，段结合部25基于颜色的类似性，从多个相邻段中选择至少1个段。即，段结合部25选择颜色与空段最类似的相邻段作为结合对象的段。

另外，该颜色的类似性的评价优选的是在YUV颜色空间或RGB颜色空间中进行。此外，段结合部25并不需要一定仅选择1个相邻段。例如，段结合部25也可以选择表示颜色的类似性的值是阈值以上的多个相邻段。

段结合部25将在步骤S401中选择的空段与在步骤S402中选择的相邻段结合为1个（S403）。即，段结合部25将所选择的空段与所选择的相邻段结合而设定1个新的段。

例如，如图13（a）所示，在存在空段S2、和相邻于该空段S2的相邻段S1、S3、S4的情况下，段结合部25从多个相邻段S1、S3、S4中，选择颜色与空段S2的颜色（例如平均色）最类似的相邻段S1。并且，如图13（b）所示，段结合部25将空段S2与所选择的相邻段S1结合而设定新的段SN。

接着，段结合部25判断是否存在空段（S404）。这里，如果不存在空段（S404的否），则段结合部25结束处理。另一方面，如果存在空段（S404的是），则段结合部25回到步骤S401，执行处理。

这样，反复进行空段与相邻段的结合，直到不再存在空段。并且，深度数据生成部26基于这样结合后的段生成深度数据。

如以上这样，根据有关本实施方式的图像处理装置20，在多个段中包含空段的情况下，能够进行空段与相邻段的结合直到不再有空段。因而，当通过分段部将第1图像分割为多个段时，不需要分割为一定包含代表像素。即，可以不考虑与代表像素的对应关系而进行分段。结果，能够将分段和代表像素的视差值计算并行处理，能够实现深度数据生成处理的高速化。

此外，根据有关本实施方式的图像处理装置20，能够将颜色类似的段彼此结合为1个。即，由于将颜色类似的区域作为1个段，所以进深类似的区域成为1个段的可能性变高。通过按这样得到的每个段确定视差值，能够更正确地生成表示与各段对应的进深的深度数据。

此外，根据有关本实施方式的图像处理装置20，在段中包含有两个以上的代表像素的情况下，能够将两个以上的代表像素的视差值的中央值或平均值确定为段的视差值。因而，能够简单地确定段的视差值，能够减轻用于生成深度数据的处理负荷。此外，能够使段的视差值与段中包含的各像素的视差值的误差比较小，能够更正确地生成深度数据。

此外，根据有关本实施方式的图像处理装置20，能够计算特征点作为代表像素。因而，检测与代表像素对应的第2图像内的像素一事变得容易，能够减轻处理负荷。

此外，根据有关本实施方式的图像处理装置20，能够进行用于使第1图像和第2图像平行化的校准处理。一般而言，在拍摄了立体图像等的多视点图像的情况下，进行多视点图像的校准处理。此外，在校准处理中，进行特征点的计算及对应点的检测。即，可以挪用在校准处理中进行的特征点的计算及对应点的检测结果来计算代表像素的视差值，所以能够减轻用于生成深度数据的处理负荷。

（实施方式2的变形例）

接着，对实施方式2的变形例进行说明。在本变形例中，深度数据生成部26的处理动作与实施方式2不同。

具体而言，有关本变形例的深度数据生成部26按每个段使用在该段中包含的至少1个代表像素的视差值对在该段中包含的其他像素的视差值进行插补，由此计算该段中包含的各像素的视差值。并且，深度数据生成部26基于计算出的各像素的视差值，生成表示各像素的进深的深度图作为深度数据。

使用图14说明这样的有关本变形例的深度数据生成部26的处理动作。图14是表示有关实施方式2的变形例的深度数据生成处理的详细情况的流程图。

首先，深度数据生成部26从第1图像内的多个段中选择1个段（S501）。深度数据生成部26判断所选择的段是否包含多个代表像素（S502）。

这里，在所选择的段包含多个代表像素的情况下（S502的是），深度数据生成部26使用该多个代表像素的视差值对该段中包含的其他像素的视差值进行插补，由此计算该段中包含的各像素的视差值（S503）。例如，深度数据生成部26通过样条插补来计算其他像素的视差值。

另一方面，在所选择的段仅包含1个代表像素的情况下（S502的否），深度数据生成部26使用代表像素的视差值决定该段中包含的其他像素的视差值（S504）。例如，深度数据生成部26将段中包含的全部的像素的视差值决定为代表像素的视差值。

并且，深度数据生成部26判断是否选择了全部的段（S505）。这里，在某个段没有被选择的情况下（S505的否），回到步骤S501的处理。

另一方面，在选择了全部的段的情况下（S505的是），深度数据生成部26通过将各像素的视差值变换为进深值，生成深度图（深度数据）（S506）。另外，从视差值向进深值的变换例如基于三角测量的原理进行。

如以上那样，根据有关本变形例的图像处理装置，能够按每个段、使用该段中包含的至少1个代表像素的视差值对该段中包含的其他像素的视差值进行插补。因而，能够通过插补得到各像素的视差值，能够更正确地生成深度数据。

以上，基于实施方式对有关本发明的一个或多个形态的图像处理装置进行了说明，但本发明并不限定于该实施方式。只要不脱离本发明的主旨，对本实施方式实施了本领域的技术人员想到的各种变形后的形态、或将不同的实施方式的构成要素组合而构建的形态也可以包含在本发明的一个或多个形态的范围内。

例如，在上述实施方式2中，特征点计算部21也能够以不超出预先设定的数量的方式计算特征点作为代表像素。例如，特征点计算部21也能够以在段内不包含多个特征点的方式计算特征点。此外，例如特征点计算部21也能够以特征点间的距离不小于预先决定的距离的方式计算特征点。通过这样计算特征点，能够防止与代表像素对应的像素的检测处理的负荷变高。

此外，在上述实施方式2中，分段部24基于k平均法进行分段，但也可以基于其他聚类方法进行分段。例如，分段部24也可以基于平均变位法（mean-shift clustering）进行分段。

此外，在上述实施方式2中，段结合部25基于颜色的类似性将段结合，但也可以基于颜色以外的值的类似性将段结合。例如，段结合部25也可以基于亮度的类似性将段结合。

此外，上述实施方式1或2的图像处理装置10、20具备的构成要素的一部分或全部也可以由1个***LSI（Large Scale Integration：大规模集成电路）构成。例如，图像处理装置10也可以由具有视差值计算部11、分段部12和深度数据生成部13的***LSI构成。

***LSI是将多个构成部分集成在1个芯片上而制造的超多功能LSI，具体而言是包括微处理器、ROM（Read Only Memory）、RAM（Random Access Memory）等而构成的计算机***。在上述ROM中存储有计算机程序。通过由上述微处理器按照上述计算机程序动作，***LSI实现其功能。

另外，这里设为LSI，但根据集成度的差异，也有称作IC、***LSI、超级LSI、超大规模LSI的情况。此外，集成电路化的方法并不限定于LSI，也可以由专用电路或通用处理器实现。也可以利用在LSI制造后能够编程的FPGA（Field Programmable Gate Array）、或能够再构成LSI内部的电路单元的连接及设定的可重构处理器。

进而，如果因半导体技术的进步或派生的其他技术而出现代替LSI的集成电路化的技术，则当然也可以使用该技术进行功能模块的集成化。有可能是生物技术的应用等。

此外，这样的图像处理装置也可以装备在摄像装置中。图15是表示有关一实施方式的摄像装置30的功能结构的框图。摄像装置30例如是数字静像照相机或数字摄像机。如图15所示，摄像装置30具备从相互不同的视点拍摄第1图像及第2图像的摄像部31、和有关上述实施方式1或2的图像处理装置10或20。

另外，在上述各实施方式中，各构成要素也可以由专用的硬件构成、或者通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过由CPU或处理器等的程序执行部将记录在硬盘或半导体存储器等的记录介质中的软件程序并执行来实现。这里，实现上述各实施方式的图像解码装置等的软件是以下这样的程序。

即，该程序使计算机执行图像处理方法，所述图像处理方法利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据，包括：视差值计算步骤，针对作为上述第1图像内的一部分像素的多个代表像素，分别基于上述代表像素与对应于上述代表像素的上述第2图像内的像素的位置关系，计算上述代表像素的视差值；分段步骤，基于像素值的类似性，将上述第1图像分割为多个段；以及深度数据生成步骤，按每个段，基于上述段中包含的代表像素的视差值确定上述段的视差值，由此生成表示与各段对应的进深的深度数据。

工业实用性

本发明能够作为能够使用从相互不同的视点拍摄的第1图像和第2图像生成深度数据的图像处理装置、以及具备该图像处理装置的数字静像照相机或数字摄像机等的摄像装置利用。

附图标记说明

10、20 图像处理装置

11、23 视差值计算部

12、24 分段部

13、26 深度数据生成部

21 特征点计算部

22 校准处理部

25 段结合部

27 图像处理部

30 摄像装置

31 摄像部

101 第1图像

102 第2图像

Claims

1.一种图像处理装置，利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据，具备：

视差值计算部，针对作为上述第1图像内的一部分像素的多个代表像素中的各个代表像素，基于上述代表像素与对应于上述代表像素的上述第2图像内的像素的位置关系，计算上述代表像素的视差值；

分段部，基于像素值的类似性，将上述第1图像分割为多个段；

段结合部，从上述多个段中选择不包含代表像素的空段，将上述空段与相邻于上述空段的段结合为1个；以及

深度数据生成部，按每个段，基于上述段中包含的代表像素的视差值确定上述段的视差值，从而生成表示与各段对应的进深的深度数据；

上述深度数据生成部基于由上述段结合部结合后的段生成上述深度数据。

2.如权利要求1所述的图像处理装置，

上述段结合部在上述空段与多个段相邻的情况下，基于颜色的类似性从上述多个段中选择至少1个段，将所选择的上述至少1个段与上述空段结合为1个。

3.如权利要求1所述的图像处理装置，

上述深度数据生成部在上述段中包含两个以上的代表像素的情况下，将上述两个以上的代表像素的视差值的中央值或平均值确定为上述段的视差值。

4.如权利要求1所述的图像处理装置，

上述深度数据生成部按每个段，使用上述段中包含的至少1个代表像素的视差值对上述段中包含的其他像素的视差值进行插补，从而计算上述段中包含的各像素的视差值；

上述深度数据生成部基于计算出的各像素的视差值，生成表示各像素的进深的深度图作为上述深度数据。

5.如权利要求1所述的图像处理装置，

上述分段部通过基于类似性的聚类，将上述第1图像分割为多个段，上述类似性是使用像素值及像素位置定义的类似性。

6.如权利要求5所述的图像处理装置，

上述聚类是k平均法即k-means clustering。

7.如权利要求1所述的图像处理装置，

上述图像处理装置还具备特征点计算部，该特征点计算部计算上述第1图像的特征点作为上述代表像素。

8.如权利要求7所述的图像处理装置，

上述图像处理装置还具备校准处理部，该校准处理部使用上述特征点进行用于使上述第1图像和上述第2图像平行化的校准处理；

上述视差值计算部使用进行上述校准处理后的上述第1图像及上述第2图像，计算上述代表像素的视差值。

9.如权利要求1所述的图像处理装置，

上述图像处理装置还具备图像处理部，该图像处理部基于上述深度数据将上述第1图像分离为前景区域和背景区域，并对上述背景区域实施模糊处理。

10.如权利要求1所述的图像处理装置，

上述图像处理装置还具备图像处理部，该图像处理部基于上述深度数据将上述第1图像分离为前景区域和背景区域，并将上述前景区域与不同于上述第1图像及上述第2图像的第3图像进行合成。

11.如权利要求1～10中任一项所述的图像处理装置，

上述图像处理装置构成为集成电路。

12.一种摄像装置，具备：

权利要求1～11中任一项所述的图像处理装置；以及

摄像部，拍摄上述第1图像及上述第2图像。

13.一种图像处理方法，利用从相互不同的视点拍摄的第1图像及第2图像生成深度数据，包括：

视差值计算步骤，针对作为上述第1图像内的一部分像素的多个代表像素中的各个代表像素，基于上述代表像素与对应于上述代表像素的上述第2图像内的像素的位置关系，计算上述代表像素的视差值；

分段步骤，基于像素值的类似性，将上述第1图像分割为多个段；

段结合步骤，从上述多个段中选择不包含代表像素的空段，将上述空段与相邻于上述空段的段结合为1个；以及

深度数据生成步骤，按每个段，基于上述段中包含的代表像素的视差值确定上述段的视差值，从而生成表示与各段对应的进深的深度数据；

上述深度数据生成步骤基于由上述段结合步骤结合后的段生成上述深度数据。