CN115700611A

CN115700611A - 学习方法、存储介质以及图像处理装置

Info

Publication number: CN115700611A
Application number: CN202210185761.3A
Authority: CN
Inventors: 三岛直; 关晃仁
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-07-29
Filing date: 2022-02-28
Publication date: 2023-02-07
Also published as: JP7451465B2; JP2023019521A; US20230032387A1

Abstract

本发明的实施方式涉及一种学习方法、存储介质以及图像处理装置。实施方式的学习方法具备如下步骤：取得通过摄像装置从多视点摄像第一被摄体而得到的多视点图像；以及基于将多视点图像中的第一图像作为输入而从统计模型输出的第一模糊值以及将多视点图像中的第二图像作为输入而从统计模型输出的第二模糊值来使统计模型学习。学习的步骤包括如下步骤：从多视点图像取得到第一图像所包括的第一被摄体的第一距离和到第二图像所包括的第一被摄体的第二距离；以及以第一模糊值和第二模糊值的大小关系变得与第一距离和第二距离的大小关系相等的方式使统计模型学习。

Description

学习方法、存储介质以及图像处理装置

相关申请

本申请以日本专利申请2021-124296(申请日：2021年7月29日)为基础上，从该申请享有优先的利益。本申请通过参照该申请，全部包括该申请的内容。

技术领域

本发明的实施方式涉及学习方法、存储介质以及图像处理装置。

背景技术

为了取得到被摄体的距离，已知有使用由2个摄像装置(相机)、立体相机(复眼相机)摄像到的图像的技术，但近年来，开发了使用由1个摄像装置(单眼相机)摄像到的图像来取得到被摄体的距离的技术。

在此，为了如上述那样使用图像来取得到被摄体的距离，考虑对应用神经网络等机器学习算法而生成的统计模型加以使用。

然而，为了生成高精度的统计模型，需要使统计模型学习庞大的学习用的数据集(学习用图像与和到该学习用图像中的被摄体的距离有关的正确值的集合)，但准备该数据集并不容易。

发明内容

本发明要解决的技术问题在于，提供一种能够提高用于取得到被摄体的距离的统计模型中的学习的容易性的学习方法、存储介质以及图像处理装置。

根据实施方式，提供一种学习方法，该学习方法用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对根据到该被摄体的距离而在该图像中产生的模糊进行表示的模糊值。所述学习方法包括如下步骤：取得由摄像装置从多视点摄像第一被摄体而得到的第一多视点图像；以及基于第一模糊值及第二模糊值来使统计模型学习，所述第一模糊值是将所述第一多视点图像中的第一图像作为输入而从所述统计模型输出的模糊值，所述第二模糊值是将所述第一多视点图像中的第二图像作为输入而从所述统计模型输出的模糊值。所述学习包括如下步骤：从所述第一多视点图像取得第一距离及第二距离，所述第一距离是摄像到所述第一图像时的从所述摄像装置到该第一图像所包括的第一被摄体的距离，所述第二距离是从摄像到所述第二图像时的所述摄像装置到该第二图像所包括的第一被摄体的距离；判别所述第一距离与所述第二距离的大小关系；以及以所述第一模糊值与所述第二模糊值的大小关系变得与判别出的所述大小关系相等的方式方式使所述统计模型学习。

附图说明

图1是表示第一实施方式中的测距***的结构的一例的图。

图2是表示图像处理装置的***结构的一例的图。

图3是用于说明测距***的动作的概要的图。

图4是用于说明取得到被摄体的距离的原理的图。

图5是用于具体说明在统计模型中预测的模糊值的图。

图6是用于说明根据摄像图像来预测模糊的方式的一例的图。

图7是表示与图像补片有关的信息的一例的图。

图8是用于说明一般的统计模型的学习方法的概要的图。

图9是用于说明学习用的数据集的图。

图10是用于说明本实施方式的统计模型的学习方法的概要的图。

图11是表示学习处理部的功能结构的一例的框图。

图12是用于说明多视点图像的图。

图13是表示使统计模型学习时的图像处理装置的处理顺序的一例的流程图。

图14是表示SfM的概要的图。

图15是用于说明标尺参数与模糊值的关系性的图。

图16是表示从摄像图像取得距离信息时的图像处理装置的处理顺序的一例的流程图。

图17是用于说明使用在多个场景中摄像到的多视点图像来使统计模型学习的情况的图。

图18是表示在第二实施方式中使统计模型学习时的图像处理装置的处理顺序的一例的流程图。

(附图标记说明)

1…测距***，2…摄像装置，3…图像处理装置，21…透镜，22…图像传感器，31…统计模型存储部，32…图像取得部，33…距离取得部，34…输出部，35…学习处理部，35a…距离取得部，35b…判别部，35c…计算部，35d…学习部，221…第一传感器，222…第二传感器，223…第三传感器，301…CPU，302…非易失性存储器，303…RAM，303A…图像处理程序，304…通信器件，305…总线。

具体实施方式

以下，参照附图对各实施方式进行说明。

(第一实施方式)

图1表示第一实施方式中的测距***的结构的一例。图1所示的测距***1用于摄像图像，并使用该摄像到的图像来取得(测定)从摄像地点到被摄体的距离。

如图1所示，测距***1具备摄像装置2以及图像处理装置3。在本实施方式中，设为测距***1具备作为独立的装置的摄像装置2以及图像处理装置3的情况进行说明，但该测距***1也可以作为摄像装置2作为摄像部发挥功能、且图像处理装置3作为图像处理部发挥功能的1个装置(测距装置)来实现。另外，图像处理装置3例如也可以作为执行各种云计算服务的服务器而动作。

摄像装置2用于摄像各种图像。摄像装置2具备透镜21以及图像传感器22。透镜21以及图像传感器22相当于摄像装置2的光学***(单眼相机)。

被摄体反射后的光入射到透镜21。入射到透镜21的光透射透镜21。透射透镜21后的光到达图像传感器22，由该图像传感器22接收(检测)。图像传感器22通过将接收到的光变换为电信号(光电变换)来生成由多个像素构成的图像。

另外，图像传感器22例如通过CCD(Charge Coupled Device：电荷耦合器件)图像传感器以及CMOS(Complementary Metal Oxide Semiconductor：互补金属氧化物半导体)图像传感器等来实现。图像传感器22例如包括检测红色(R)的波段的光的第一传感器(R传感器)221、检测绿色(G)的波段的光的第二传感器(G传感器)222以及检测蓝色(B)的波段的光的第三传感器(B传感器)223。

图像传感器22能够通过第一～第三传感器221～223接收对应的波段的光，生成与各波段(颜色成分)对应的传感器图像(R图像、G图像以及B图像)。即，由摄像装置2摄像的图像是彩色图像(RGB图像)，在该图像中包括R图像、G图像以及B图像。

另外，在本实施方式中，以图像传感器22包括第一～第三传感器221～223的方式进行说明，但图像传感器22只要构成为包括第一～第三传感器221～223中的至少1个即可。另外，图像传感器22也可以构成为包括用于生成例如单色图像的传感器来代替第一～第三传感器221～223。

在本实施方式中，基于透射了透镜21的光而生成的图像是受到光学***(透镜21)的像差的影响的图像，包括由该像差产生的模糊。

图1所示的图像处理装置3包括统计模型存储部31、图像取得部32、距离取得部33、输出部34以及学习处理部35作为功能结构。

在统计模型存储部31中存储有用于从由摄像装置2摄像到的图像中取得到被摄体的距离的统计模型。存储在统计模型存储部31中的统计模型通过学习在上述的受到光学***的像差的影响的图像中产生的、根据到该图像中的被摄体的距离而非线性地变化的模糊而生成。根据这样的统计模型，能够通过将图像输入到该统计模型，来预测(输出)对该图像中包括的根据到被摄体的距离而在该图像中产生的模糊进行表示的模糊值，作为与该图像对应的预测值。

此外，统计模型例如能够应用神经网络或者随机森林等已知的各种机器学习算法来生成。另外，在本实施方式中能够应用的神经网络例如也可以包括卷积神经网络(CNN：Convolutional Neural Network)、全耦合神经网络以及递归型神经网络等。

图像取得部32从上述的摄像装置2(图像传感器22)取得由该摄像装置2摄像到的图像。

距离取得部33使用由图像取得部32取得的图像，取得表示到该图像中的被摄体的距离的距离信息。在该情况下，距离取得部33基于通过将图像输入到存储于统计模型存储部31的统计模型而从该统计模型输出的模糊值(对根据到该图像所包括的被摄像体的距离而在该图像中产生的模糊进行表示的模糊值)来取得距离信息。

输出部34将由距离取得部33取得的距离信息例如以与图像在位置上建立对应地配置的映射形式输出。在该情况下，输出部34能够输出由将由距离信息表示的距离设为像素值的像素构成的图像数据(即，将距离信息作为图像数据输出)。在像这样将距离信息作为图像数据输出的情况下，该图像数据例如能够被显示为以颜色表示距离的距离图像。由输出部34输出的距离信息例如还能够用于计算由摄像装置2摄像到的图像中的被摄体的尺寸。

学习处理部35例如执行使用由图像取得部32取得的图像而使存储在统计模型存储部31中的统计模型学习的处理。由学习处理单元35执行的处理的详细情况在后面叙述。

另外，在图1所示的例子中，说明了图像处理装置3包括各部31～35的情况，但该图像处理装置3例如也可以包括：由包括图像取得部32、距离取得部33以及输出部34的测距装置、以及包括统计模型存储部31、图像取得部32以及学习处理部35的学习装置。

图2表示图1所示的图像处理装置2的***结构的一例。图像处理装置3具备CPU301、非易失性存储器302、RAM303以及通信器件304。另外，图像处理装置3具有CPU301、非易失性存储器302、RAM303以及将通信器件304相互连接的总线305。

CPU301是用于控制图像处理装置3内的各种组件的动作的处理器。CPU301既可以是单一的处理器，也可以由多个处理器构成。CPU301执行从非易失性存储器302加载到RAM303中的各种程序。这些程序包括操作***(OS)、各种应用程序。应用程序包括图像处理程序303A。

非易失性存储器302是用作辅助存储装置的存储介质。RAM303是用作主存储装置的存储介质。在图2中，仅示出了非易失性存储器302以及RAM303，但图像处理装置3也可以具备例如HDD(Hard DiskDrive：硬盘驱动器)以及SSD(Solid State Drive：固态驱动器)等其他存储装置。

此外，在本实施方式中，图1所示的统计模型存储部31例如通过非易失性存储器302或者其他存储装置等来实现。

另外，在本实施方式中，图1所示的图像取得部32、距离取得部33、输出部34以及学习处理部35的一部分或者全部通过使CPU301(即，图像处理装置3的计算机)执行图像处理程序303A、即通过软件来实现。该图像处理程序303A既可以存储在计算机可读取的存储介质中并发布，也可以通过网络被下载到图像处理装置3。

在此，说明了使CPU301执行图像处理程序303A的情况，但各部32～35的一部分或全部也可以使用例如GPU(未图示)来代替CPU301而实现。另外，各部32～35的一部分或者全部既可以通过IC(Integrated Circuit：集成电路)等硬件来实现，也可以通过软件以及硬件的组合来实现。

通信器件304是构成为执行有线通信或无线通信的器件。通信器件304包括发送信号的发送部及接收信号的接收部。通信器件304执行与经由网络与外部设备的通信、与存在于周边的外部设备的通信等。该外部设备包括摄像装置2。在该情况下，图像处理装置3能够经由通信器件304从摄像装置2接收图像。

虽然在图2中被省略，但图像处理装置3也可以进一步具备例如鼠标或者键盘那样的输入器件以及显示器那样的显示器件。

接着，参照图3，对本实施方式中的测距***1的动作的概要进行说明。

在测距***1中，如上述那样，摄像装置2(图像传感器22)生成受到光学***(透镜21)的像差的影响的图像。

图像处理装置3(图像取得部32)取得由摄像装置2生成的图像，并将该图像输入到存储在统计模型存储部31中的统计模型。

在此，根据本实施方式中的统计模型，输出根据到上述那样输入的图像中的被摄体的距离，表示在该图像中产生的模糊的模糊值(模糊信息)。如后所述，到图像中的被摄体的距离与根据该距离而在图像中产生的模糊的颜色、尺寸以及形状具有相关，图像处理装置3(距离取得部33)能够通过将从统计模型输出的模糊值变换为距离来取得表示到该被摄体的距离的距离信息。另外，在本实施方式中从统计模型输出的模糊值是对包括了在图像中产生的模糊的颜色、尺寸以及形状在内的模糊量进行表示的标量。

这样，在本实施方式中，能够使用统计模型从由摄像装置2摄像到的图像取得距离信息。

在此，参照图4，简单说明在本实施方式中取得到被摄体的距离(表示距离的距离信息)的原理。

在由摄像装置2摄像到的图像(以下，表述为摄像图像)中，如上所述由于该摄像装置2的光学***的像差(透镜像差)而产生模糊。具体而言，由于透射具有像差的透镜21时的光的折射率按每个波段不同，所以例如在被摄体的位置从焦点位置(在摄像装置2中对焦的位置)偏离的情况下，各波段的光不集中在1点而到达不同的点。这在图像上表现为模糊(色像差)。

另外，在摄像图像中，观察到根据到该摄像图像中的被摄体的距离(即，被摄体相对于摄像装置2的位置)而非线性地变化的模糊(颜色、尺寸以及形状)。

因此，在本实施方式中，如图4所示，将在摄像图像401中产生的模糊(模糊值)402作为与到被摄体403的距离有关的物理的线索，通过统计模型进行分析，由此取得到该被摄体403为止的距离。

具体而言，本实施方式中的统计模型通过被输入摄像图像401来预测(估计)在该摄像图像401中产生的模糊402，但在本实施方式中，通过将该模糊402变换为到被摄像体403的距离，能够取得到该摄像图像401中的被摄像体403的距离。

在此，参照图5，具体说明在统计模型中预测的模糊值。

在被摄体的位置比焦点位置近的情况下以及被摄体的位置比焦点位置远的情况下的任意情况下，被摄体越远离焦点位置，则在摄像图像中产生的模糊的尺寸(像素)的绝对值越大。另一方面，模糊的颜色及形状在被摄体的位置比焦点位置近的情况下和被摄体的位置比焦点位置远的情况下不同。

因此，在本实施方式中，用负值表示对在被摄体比焦点位置近(位于近前)的情况下产生的模糊(的颜色、尺寸以及形状)进行表示的模糊值，用正值表示对在被摄体比焦点位置远(位于里侧)的情况下产生的模糊(的颜色、尺寸以及形状)进行表示的模糊值。

即，在本实施方式的统计模型中，在到被摄体的距离近的情况下，作为模糊值而预测较小的值，在到被摄体的距离较远的情况下，作为模糊值而预测较大的值。

以下，参照图6，说明在统计模型中根据从摄像图像到被摄体的距离来预测在该摄像图像中产生的模糊(表示模糊的模糊值)的方式的一例。在此，对补片方式进行说明。

如图6所示，在补片方式中，从摄像图像401切出(提取)局部区域(以下，标记为图像补片)401a。

在该情况下，例如可以将摄像图像401的整体区域分割成矩阵状，将该分割后的部分区域作为图像补片401a依次切出，也可以识别摄像图像401，以包罗检测到被摄体(像)的区域的方式切出图像补片401a。另外，图像补片401a也可以与其他的图像补片401a之间一部分重叠。

在补片方式中，输出模糊值作为与如上述那样切出的图像补片401a对应的预测值。即，在补片方式中，将与从摄像图像401切出的图像补片401a各自有关的信息作为输入，预测在该图像补片401a的各自中包括的被摄体中产生的模糊402。

图7表示与在上述的补片方式中输入到统计模型的图像补片401a有关的信息的一例。

在补片方式中，针对摄像图像401所包括的R图像、G图像以及B图像，分别生成从该摄像图像401切出的图像补片401a的梯度数据(R图像的梯度数据、G图像的梯度数据以及B图像的梯度数据)。统计模型中被输入这样生成的梯度数据。

此外，梯度数据相当于各像素和与该像素相邻的像素之间的像素值的差分(差分值)。例如在图像补片401a被提取为n像素(X轴方向)×m像素(Y轴方向)的矩形区域的情况下，生成将针对该图像补片401a内的各像素计算出的例如与右侧相邻的像素的差分值配置为n行×m列的矩阵状的梯度数据(即，各像素的梯度数据)。

统计模型使用R图像的梯度数据、G图像的梯度数据、B图像的梯度数据，预测在该像素中产生的模糊。在图7中，示出了R图像、G图像以及B图像各自的梯度数据被输入到统计模型的情况，但也可以是RGB图像的梯度数据被输入到统计模型的结构。

此外，如上所述，在各像素的梯度数据被输入到统计模型的情况下，该统计模型按每个像素输出模糊值。

在此，在本实施方式中，如上所述，通过使用统计模型，能够预测根据从图像到该图像所包括的被摄体的距离而在该图像中产生的模糊(表示模糊的模糊值)，但为了提高该模糊值的精度，需要使该统计模型学习。

以下，参照图8，对一般的统计模型的学习方法的概要进行说明。统计模型的学习是通过将与为了该学习而准备的图像(以下，表述为学习用图像)501有关的信息输入至统计模型，并将由该统计模型预测出的模糊值502与正确值503的误差反馈至该统计模型来进行的。另外，正确值503是指，对根据从学习用图像501的摄像地点到该学习用图像501中包括的被摄体为止的实际的距离(实测值)而在该学习用图像501中产生的模糊进行表示的模糊值(即，通过变换该实际的距离而得到的模糊值)，例如也被称为正确标签等。另外，反馈是指以使误差减少的方式更新统计模型的参数(例如权重系数)。

具体而言，在统计模型中应用上述的补片方式作为从摄像装置预测模糊值的方式的情况下，针对从学习用图像501切出的每个图像补片(局部区域)，将与该图像补片有关的信息(梯度数据)输入至统计模型，通过该统计模型输出模糊值502作为与各图像补片对应的预测值。通过将这样输出的模糊值502与正确值503进行比较而得到的误差被反馈到统计模型。

然而，在上述的一般的统计模型的学习方法中，需要准备例如图9所示那样的被赋予了正确标签的学习用图像(即，包括学习用图像和正确值的学习用的数据集，该正确值是通过对应该从该学习用图像预测的实际的距离进行变换而得到的)，为了得到该正确标签，必须在每次摄像学习用图像时计测到该学习用图像所包括的被摄体的实际的距离。为了提高统计模型的精度，需要使统计模型学习多个学习用的数据集，因此不容易准备这样的多个学习用数据集。

在此，需要对基于通过在统计模型的学习中输入学习用图像(图像补片)而从该统计模型输出的模糊值计算出的损失(误差)进行评价(反馈)，但在本实施方式中，进行基于使用到学习用图像所包括的到被摄体的距离的大小关系而计算出的位次损失(等级损失)的弱监督学习。

此外，基于位次损失的弱监督学习是基于数据间的相对的顺序关系(位次)进行学习的方法。在本实施方式中，根据基于从摄像装置2到被摄体的距离(相对距离)的2个图像各自的位次来使统计模型学习。

如果是这样的学习方法，则只要判明了到学习用图像所包括的被摄体的距离的大小关系，则该距离的实测值(实际的距离)也可以不明。

在此，如图10所示，来自摄像装置2的实际的距离不明，但存在判明了该距离的大小关系(位次)的5个被摄体S₁～S₅。此外，被摄体S₁～S₅中的被摄体S₁位于离摄像装置2最近的位置，被摄体S₅位于离摄像装置2最远的位置。在用摄像装置2摄像这样的被摄体S₁～S₅的每一个并将包括该被摄体S₁～S₅的每一个的图像设为图像x₁～x₅时，与到该图像x₁～x₅各自所包括的被摄体S₁～S₅的距离对应的各图像的位次(等级)为，图像x₁为“1”，图像x₂为“2”，图像x₃为“3”，图像x₄为“4”，图像x₅为“5”。

在这样的图像x₁～x₅中，例如假定使用统计模型来预测对根据到图像x₂所包括的被摄体S₂的距离而在该图像x₂中产生的模糊进行表示的模糊值和对根据图像x₅所包括的被摄体S₅的距离而在该图像x₅中产生的模糊进行表示的模糊值的情况。

在该情况下，根据上述图5中说明的那样的距离与模糊值的关系性，若是使用充分地进行学习且具有高精度的统计模型，则通过输入图像x₂而从该统计模型输出的模糊值应该小于通过输入图像x₅而从该统计模型输出的模糊值。

因此，在本实施方式中，例如判别到图像x_i所包括的被摄体的距离(摄像图像x_i时的从摄像装置2到该被摄体的距离)与到图像x_j所包括的被摄体的距离(摄像图像x_j时的从摄像装置2到该被摄体的距离)的大小关系，基于“如果rank(x_i)＞rank(x_j)，则f_θ(x_i)＞f_θ(x_j)”这样的关系成立的前提，使用维持这样的关系的损失(位次损失)来使统计模型学习。

此外，rank(x_i)＞rank(x_j)表示到图像x_i所包括的被摄体的距离大于到图像x_j所包括的被摄体的距离。另外，f_θ(x_i)表示通过输入图像x_i而从统计模型f_θ输出的模糊值f_θ(x_i)(即，与图像x_i对应的预测值)，f_θ(x_j)表示通过输入图像x_j而从统计模型f_θ输出的模糊值f_θ(x_j)(即，与图像x_j对应的预测值)。另外，f_θ中的θ是统计模型的参数。

在图9及图10中，为了方便，示出了具有平面形状的被摄体，但被摄体也可以是具有其他形状的其他物体等。

以下，对图1所示的图像处理装置3所包括的学习处理部35具体地进行说明。图11是表示学习处理部35的功能结构的一例的框图。

如图11所示，学习处理部35包括距离取得部35a、判别部35b、计算部35c以及学习部35d。

在此，在本实施方式中，进行基于使用多个学习用图像计算出的位次损失的弱监督学习，但为了进行这样的学习，需要如上述那样判别到该多个学习用图像各自所包括的到被摄体的距离的大小关系。

在该情况下，图像取得部32取得由摄像装置2摄像到的多视点图像。距离取得部35a从该图像取得部32取得该多视点图像，取得从该取得的多视点图像到该多视点图像各自所包括的被摄体的距离(进深)。如图12所示，本实施方式中的多视点图像是将同一被摄体从不同的视点(即，多视点)摄像到的多个图像(2个以上的图像)。另外，关于由距离取得部35a取得的距离的详细情况在后面叙述。

判别部35b基于由距离取得部35a取得的距离，判别到多视点图像中的例如到2个图像各自所包括的被摄体的距离的大小关系(以下，简单记载为图像间的距离的大小关系)。

计算部35c基于通过将由判别部35b判别了大小关系的2个图像的每一个输入到统计模型而输出的模糊值、和由判别部35b判别出的该图像间的距离的大小关系，计算位次损失。

学习部35d基于由计算部35c计算出的位次损失，使存储于统计模型存储部31的统计模型学习。基于学习部35d的学习已完成的统计模型被存储在统计模型存储部31中(即，被存储在统计模型存储部31中的统计模型被覆盖)。

接着，参照图13的流程图，对使统计模型学习时的图像处理装置3的处理顺序的一例进行说明。

在此，对在统计模型存储部31中存储有预先学习完毕的统计模型(预先学习完毕模型)的情况进行说明，但该统计模型例如可以通过对由摄像装置2摄像到的图像进行学习而生成，也可以通过对由与该摄像装置2不同的摄像装置(或镜头)摄像到的图像进行学习而生成。即，在本实施方式中，至少预先准备用于将图像作为作为输入而输出(预测)对根据到该图像所包括的被摄体的距离而在该图像中产生的模糊进行表示的模糊值(即，与该距离对应的模糊值)的统计模型即可。

首先，距离取得部35a取得由图像取得部32取得的多视点图像(通过摄像装置2从多视点摄像被摄体而得到的图像)作为学习用图像集合(步骤S1)。在步骤S1中取得的多视点图像优选为从相互不同的位置摄像尽可能静止的同一被摄体而得到的图像。另外，在本实施方式中，多视点图像(多个图像)优选在摄像装置2的聚焦(即，基于透镜21与图像传感器22的距离的焦点位置)被固定的状态下被摄像，且以被摄像体产生各种模糊的方式进行摄像。

此外，对多视点图像进行摄像的摄像装置2只要是安装有任意的透镜的任意的相机***即可，不需要是摄像到事先使上述的统计模型学习了模糊而得到的图像的摄像装置。

执行步骤S1的处理后，距离取得部35a从在该步骤S1中取得的多视点图像取得到该多视点图像各自所包括的被摄体的距离(摄像该图像时的从摄像装置2到该被摄体的距离)(步骤S2)。

此外，在步骤S2中的距多视点图像的距离的取得(进深估计)中，能够使用被称为SfM(Structure from Motion)以及多视点立体的技术。

图14示出了SfM的概要。在SfM中，从多视点图像(从多视点摄像到的多个图像)的每一个中提取被摄体的特征点(表示被摄体的形状的特征点)。在图14中，示出了从3个图像中提取P1～P7作为被摄体的特征点。这样提取出的特征点在多视点图像间建立对应。根据SfM，能够基于这样建立对应的特征点的3维点组(的坐标)和该建立对应的特征点间的位移，来计算摄像到各图像时的摄像装置2的位置以及姿势(即，各视点下的摄像装置2的位置以及姿势)。在SfM中，使用多视点图像，由此能够使3维点组的坐标的偏差最小化。

另外，在SfM中计算粗略的3维点组的坐标，因此在本实施方式中，通过使用了上述的各视点的摄像装置2的位置以及姿势的多视点立体技术，由此计算更详细的3维点组(的坐标)。

在该情况下，若将上述的SfM以及多视点立体技术中的1个视点(摄像装置2)的位置(平移分量)以及姿势(旋转分量)分别设为t以及R，将根据多视点图像计算出的3维点的坐标设为(X，Y，Z)，则多视点图像(各视点的图像)中的坐标位置(x，y)与到存在于该坐标位置的被摄体的距离(进深)z₀具有以下的式(1)以及式(2)的关系。

[数学式1]

此外，式(1)中的K是摄像装置2的内部参数，例如包括摄像装置2中设置的透镜21与图像传感器22的距离。

在步骤S2中，使用上述的式(1)以及式(2)，由此针对上述的每个特征点来计算到多视点图像各自所包括的被摄体的距离。

但是，在上述的步骤S2中取得(计算)的距离是标尺不确定的距离。该标尺不确定的距离z₀和基于实际标尺的距离z具有以下的式(3)的关系。

[数学式2]

z＝βz₀ 式(3)

上述式(3)的β是用于将标尺不确定的距离z₀变换为基于实际标尺的距离z的标尺参数。一般而言，在不存在与图像所包括的被摄体的尺寸有关的信息(先验信息)、从其他传感器得到的信息(值)等的情况下，仅仅通过摄像装置2(单眼相机)的信息，无法求出标尺参数β。

在一般的统计模型的学习时，将使用相机参数而从基于实际标尺的距离(实测值)变换出的模糊值作为正确值使用，但在这样标尺参数β不确定的情况下，即使如图15所示那样例如在对存在于同一距离的被摄体进行摄像的情况下，有时距离也被变换为不同的模糊值，无法使统计模型适当地学习(即，无法将从标尺不确定的距离z₀变换出的模糊值作为正确值使用)。

但是，到多视点图像各自所包括的被摄体(特征点)的标尺不确定的距离z₀能够用于到该被摄体的距离的大小关系的判别中。

接着，学习处理部35从在步骤S1中取得的多视点图像(多个学习用图像)之中随机选择(取得)例如任意的2个图像(步骤S3)。在以下的说明中，将在步骤S3中选择出的2个图像设为图像x_i以及图像x_j。

另外，在步骤S3中选择的图像x_i以及图像x_j例如是从多视点图像(中的任意的图像)切出的至少一部分的区域(例如n像素×m像素的图像补片)。另外，图像x_i以及图像x_j既可以是从多视点图像中的同一图像切出的图像补片，也可以是从不同的图像切出的图像补片。

接着，判别部35b基于在步骤S2中取得的到多视点图像各自所包括的被摄体的标尺不确定的距离，判别在步骤S3中选择出的图像x_i以及图像x_j间的距离的大小关系(到图像x_i以及图像x_j各自所包括的被摄体的距离的大小关系)(步骤S4)。

此外，在步骤S2中，针对多视点图像各自所包括的每个特征点而计算距离，因此在步骤S3中，包括特征点的图像补片被选择为图像x_i以及图像x_j。由此，图像x_i以及图像x_j间的距离的大小关系基于针对该图像x_i以及图像x_j各自所包括的特征点计算出的距离来判别。

具体而言，例如在图14的下部中央所示的图像中的包括特征点P2的图像补片是图像x_i、且该图像中的包括特征点P4的图像补片是图像x_j的情况下，判别到图像x_j所包括的被摄体(特征点P4)的距离大于到图像x_i所包括的被摄体(特征点P2)的距离这样的图像x_i以及图像x_j间的距离的大小关系。

在此，为了方便，对从同一图像切出的图像补片为图像x_i以及图像x_j的情况进行了说明，但如上所述，在步骤S2中，针对多视点图像各自所包括的每个特征点计算距离，因此即使是图像x_i以及图像x_j是从多视点图像中的不同的图像切出的图像补片，也能够判别图像x_i以及图像x_j间的距离的大小关系。

当执行步骤S4的处理时，计算部35c使用存储于统计模型存储部31的统计模型，取得对根据到图像x_i所包括的被摄体的距离而在该图像x_i中产生的模糊进行表示的模糊值(预测值)以及对根据到图像x_j所包括的被摄体的距离而产生的模糊值(预测值)(步骤S5)。

在该情况下，取得通过输入图像x_i(即，n像素×m像素的图像补片)而从统计模型输出的模糊值f_θ(x_i)以及通过输入图像x_j(即，n像素×m像素的图像补片)而从统计模型输出的模糊值f_θ(x_j)。

接下来，计算部35c基于在步骤S5中取得的模糊值(以下，标记为图像x_i的模糊值以及图像x_j的模糊值)，计算位次损失(考虑了图像x_i以及图像x_j间的距离的大小关系的损失)(步骤S6)。

在步骤S6中，计算反映了图像x_i的模糊值f_θ(x_i)以及图像x_j的模糊值f_θ(x_j)的大小关系是否与在步骤S4中判别出的图像x_i以及图像x_j间的距离的大小关系相等的损失(位次损失)。

在此，例如，根据“Chris Burges,Tal Shaked,Erin Renshaw，Ari Lazier,MattDeeds,Nicole Hamilton,and Greg Hullender.Learning to rank using gradientdescent.In Proceedings ofthe 22^nd international conference on Machinelearning,pages 89-96，2005.(使用梯度下降来学习分级。第22届机器学习国际会议会刊，第89－96页，2005年)”，表示位次损失的函数(位次损失函数)由下式(4)定义。

[数学式3]

L_rank(x_i，x_j)＝-Y_ij(f_θ(x_j)-f_θ(x_i))+softplus(fθ(x_j)-fθ(x_i))

式(4)

softplus(x)＝log(1+e^x) 式(6)

在该式(4)中，L_rank(x_i，x_j)表示位次损失，y_ij相当于表示上述的图像x_i的模糊值f_θ(x_i)与图像x_j的模糊值f_θ(x_j)的大小关系是否与图像x_i和图像x_j间的距离的大小关系相等(即，统计模型的预测值即模糊值满足在步骤S4中判别出的大小关系)的标签。此外，如式(5)所示，在rank(x_i)＞rank(x_j)(到图像x_i所包括的被摄体的距离大于到图像x_j所包括的被摄体的距离)的情况下，y_ij为1，在rank(x_i)＜rank(x_j)(到图像x_i所包括的被摄体的距离小于到图像x_j所包括的被摄体的距离)的情况下，y_ij为0。另外，式(5)的otherwise假定为rank(x_i)＝rank(x_j)(即，到图像x_i所包括的被摄体的距离与到图像x_j所包括的被摄体的距离相等)的情况，此时的y_ij为0.5。其中，rank(x_i)>和rank(x_j)、rank(x_i)<rank(x_j)及otherwise相当于上述步骤S5中的图像x_i及图像x_j之间的距离的大小关系的判定结果。

另外，式(4)的softplus是用作激活函数的被称为强制非负(softplus)的函数，如式(6)那样被定义。

根据这样的位次损失函数，在图像x_i以及图像x_j各自的模糊值的大小关系(即，图像x_i以及图像x_j间的模糊值的大小关系)与图像x_i以及图像x_j间的距离的大小关系相等的情况下，计算出的位次损失(的值)变小，在图像x_i以及图像x_j间的模糊值的大小关系不与图像x_i以及图像x_j间的距离的大小关系相等的情况下，计算出的位次损失(的值)变大。

接着，学习部35d使用在步骤S6中计算出的位次损失，使统计模型学习，更新该统计模型(步骤S7)。统计模型的学习通过更新该统计模型的参数θ来进行，但该参数θ的更新按照以下的式(7)那样的最优化问题进行。

[数学式4]

在此，式(7)中的N表示上述多视点图像(学习用图像集合)。虽然在图13中省略，但步骤S3～S7的处理按照从多视点图像N中选择的2个图像x_i以及图像x_j(从多视点图像N切出的2个图像补片)的每个组来执行。

在该情况下，通过式(7)，能够求出针对图像x_i以及图像x_j的每个组计算出的位次损失L_rank(x_i，x_j)的合计变得最小的参数θ'(即，更新后的参数)。

另外，在本实施方式中的统计模型中应用神经网络或者卷积神经网络等(即，统计模型由神经网络或者卷积神经网络等构成)的情况下，在该统计模型的学习(参数θ的更新)中使用在反方向上计算上述的式(7)的误差反向传播法。根据该误差逆传播法，计算位次损失的梯度，根据该梯度来更新参数θ。

在步骤S7中，通过将统计模型的参数θ更新为使用上述的式(7)求出的参数θ'，由此能够使统计模型学习在步骤S1中取得的多视点图像。这样更新了参数后的统计模型被存储在统计模型存储单元31中(即，更新统计模型)。

此外，在本实施方式中，例如将预先确定的数量的图像x_i以及图像x_j的组作为对象来执行图13所示的处理，但也可以通过重复该图13所示的处理来使统计模型进一步学习。

另外，使用了上述式(4)那样的位次损失函数的学习方法被称为RankNet，但在本实施方式中，也可以通过其他学习方法来使统计模型学习。具体而言，作为本实施方式的统计模型的学习方法，例如也可以利用FRank、RankBoost、Ranking SVM或者IR SVM等。即，在本实施方式中，若如上述那样以图像x_i以及图像x_j间的模糊值的大小关系与图像x_i以及图像x_j间的距离的大小关系相等的方式使统计模型学习(即，在与学习用图像各自的位次有关的制约下进行学习)，则能够利用各种损失函数。

另外，在图13所示的步骤S3中，说明了从多视点图像切出的图像补片(图像的一部分的区域)被选择为图像x_i以及图像x_j的情况，但也可以选择占据该图像整体的区域(即，图像整体)作为图像x_i以及图像x_j。在该情况下，例如在步骤S4中，基于针对图像x_i所包括的1个特征点以及图像x_j所包括的1个特征点计算出的距离来判别大小关系，在步骤S5中，取得针对构成图像x_i以及图像x_j的每个像素从统计模型输出的模糊值中的关于与该特征点对应的像素而输出的模糊值即可。

接着，参照图16的流程图，对使用通过执行上述图13所示的处理来学习了多视点图像(学习用图像集合)后的统计模型从摄像图像取得距离信息时的图像处理装置3的处理顺序的一例进行说明。

首先，摄像装置2(图像传感器22)通过对测定来自摄像装置2的距离的被摄体进行摄像，来生成包括该被摄体的摄像图像。该摄像图像是如上所述那样受到摄像装置2的光学***(透镜21)的像差的影响的图像。

图像处理装置3所包括的图像取得部32从摄像装置2取得摄像图像(步骤S11)。

接着，距离取得部33将与在步骤S11中取得的摄像图像(图像补片的每一个)有关的信息输入到存储在统计模型存储部31中的统计模型(步骤S12)。此外，在步骤S12中输入到统计模型的与摄像图像有关的信息包括构成该摄像图像的各像素的梯度数据。

当执行步骤S12的处理时，在统计模型中预测表示根据到被摄体的距离而产生的模糊的模糊值，该统计模型输出该预测出的模糊值。由此，距离取得部33取得从统计模型输出的模糊值(步骤S13)。此外，在步骤S13中，取得构成在步骤S11中取得的摄像图像的每个像素的模糊值。

执行步骤S13的处理后，距离取得部33将在步骤S13中取得的模糊值变换为与该模糊值对应的距离(步骤S14)。

在此，在将模糊值设为b(＝f_θ(x))、将到被摄体的距离(基于实际标尺的距离)设为z的情况下，由于该模糊值b与距离z具有以下的式(8)的关系，因此距离取得部33能够使用该式(8)根据在步骤S13中取得的模糊值来计算距离。

[数学式5]

其中，式(8)中的f为焦距，v为摄像装置2所具备的透镜21与图像传感器22的距离，p为像素间距，F为光圈(值)。

如上所述，在步骤S13中，取得构成摄像图像的每个像素的模糊值，因此，对每个该像素的模糊值执行步骤S14的处理。即，在步骤S14中，针对构成摄像图像的每个像素将模糊值变换为距离。此外，在执行步骤S14的处理的情况下，预先求出将模糊值变换为距离所需的参数(摄像装置2的焦距f、透镜21与图像传感器22的距离v、像素间距p以及光圈F)。

执行步骤S14的处理后，输出部34将表示在该步骤S14中从模糊值变换出的距离的距离信息例如以与摄像图像在位置上建立对应地配置的映射形式输出(步骤S15)。另外，在本实施方式中，说明了以映射形式输出距离信息的情况，但该距离信息也可以以其他形式输出。

如在此说明的那样根据将从统计模型输出的模糊值变换为距离的结构，通过在该变换时校准距离，由此能够适当地应对在各种环境中摄像到的摄像图像，通用性提高。

如上所述，在本实施方式中，取得通过摄像装置从多视点摄像被摄体而得到的多视点图像(多个图像)，基于将该多视点图像中的图像x_i(第一图像)作为输入而从统计模型输出的模糊值(第一模糊值)以及将该多视点图像中的图像x_j(第二图像)作为输入而从统计模型输出的模糊值(第二模糊值)来使统计模型学习。另外，在本实施方式中，从多视点图像取得摄像图像x_i时的从摄像装置2到该图像x_i所包括的被摄像体的距离(第一距离)以及摄像图像x_j时的从摄像装置2到该x_j所包括的被摄像体的距离(第二距离)，判别图像x_i以及图像x_j间的距离的大小关系(第一距离与第二距离的大小关系)，以图像x_i以及图像x_j间的模糊值的大小关系(图像x_i的模糊值与图像x_j的模糊值的大小关系)变得与图像x_i以及图像x_j间的距离的大小关系相等的方式使统计模型学习。

在本实施方式中，通过这样的结构，即使是未被赋予正确标签(示教标签)的学习用图像，也能够使统计模型学习，因此能够提高该统计模型中的学习的容易性。

另外，在本实施方式中，在使统计模型学习图像x_i以及图像x_j时，需要事先掌握到该图像x_i所包括的被摄体的距离与到该图像x_j所包括的被摄体的距离的大小关系(图像x_i以及图像x_j间的距离的大小关系)，但关于该大小关系，基于从通过从不同的视点摄像同一被摄体而得到的多视点图像计算出的到各图像所包括的被摄体的距离来自动地判别。根据这样的结构，不需要通过人工确认到上述的图像x_i以及图像x_j各自所包括的被摄体的距离的大小关系那样的作业，用户仅通过准备多视点图像就能够在线使统计模型学习。

进而，本实施方式中的多视点图像只要是从多视点摄像同一被摄体而得到的多个图像即可，因此在本实施方式中，不需要为了摄像该多视点图像而准备特别的环境。在该情况下，多视点图像例如也可以是由搭载于无人机等的摄像装置2(相机)自动摄像而得到的多个图像。由此，能够进一步降低准备学习用图像的困难性。

此外，多视点图像可以是例如根据规定格式压缩(编码)后的图像(即，缺少规定信息的图像)。在本实施方式中，通过使统计模型学习这样的多视点图像，能够得到能够应对更实用的数据形式的统计模型。

此外，在本实施方式中，设为在摄像装置2的焦点(透镜21与图像传感器22的距离)被固定的状态下摄像多视点图像。根据这样的结构，能够通过维持从多视点图像取得的距离与在该多视点图像中产生的模糊的关系性而适当地使统计模型学习，并且能够比较容易地摄像产生了各种模糊的多视点图像。该摄像装置2的焦点例如也可以在用户通过摄像装置2来摄像多视点图像时自动地设定为学习用图像模式。

进而，在本实施方式中，优选学习在多视点图像中产生的各种模糊，因此例如也可以在基于将图像x_i以及图像x_j作为输入而从统计模型输出的模糊值来使统计模型学习之后，选择从与该图像x_i以及图像x_j不同的视点摄像到的图像的图像补片(第四以及第五图像)，基于将该图像补片作为输入而从统计模型输出的模糊值(第四以及第五模糊值)来使统计模型学习。即，在本实施方式中，例如即使是相同的被摄体，也能够高效地学习根据视点而不同的模糊(的颜色、尺寸以及形状)。

另外，在本实施方式中，由于是如上述那样学习在多视点图像中产生的各种模糊的结构，所以例如在用户使用摄像装置2摄像多视点图像的情况下，也可以进行通知，以向从近前到里侧为止的各种位置(多个位置)聚焦(即，根据被摄像体的边缘的聚焦情况来引导摄像)。在该情况下，例如通过对用户通知对焦的位置，该用户能够在对焦于各种位置的同时摄像到多视点图像。

另外，多视点图像是从多视点摄像同一被摄体而得到的多个图像，因此也可以在由用户摄像该多视点图像(多个图像)的期间，通知以摄像包括该被摄体的图像(即，进行引导以摄像同一被摄体)。在该情况下，例如能够对用户警告用户摄像的图像中不包括被摄体的状态。

另外，上述的通知例如能够经由摄像装置2对用户进行，但也可以通过其他方法进行。

并且，由于光学***的像差而在图像中产生的模糊具有位置依赖性(模糊的颜色、尺寸以及形状等根据图像上的位置而不同)，但在本实施方式中，为了利用针对在SfM中提取出的特征点计算出的距离的大小关系，基于针对与该特征点对应的像素而从统计模型输出的模糊值来使该统计模型学习。因此，对于在不包括特征点的区域中产生的模糊，存在无法高效地使统计模型学习的情况。在该情况下，也可以构成为，预先蓄积统计模型的学习中使用的多视点图像，基于从该多视点图像提取出的特征点的分布来通知该特征点少的区域(例如，该特征点的数量小于规定的值的区域等)。根据这样的结构，用户能够摄像在被通知的区域中包括被摄体(特征点)那样的多视点图像，能够高效地使统计模型学习。另外，也可以在如上述那样自动选择在被通知的区域中包括特征点的图像，使用该选择出的图像进行学习。

另外，在本实施方式中，说明了使用在单一的场景(域)中摄像到的多视点图像(即，1组多视点图像)来使统计模型学习的情况，但本实施方式的图像处理装置3(学习处理部35)也可以构成为使用在多个场景中摄像到的多视点图像(即，多个组的多视点图像)来使统计模型学习。

此外，本实施方式中的场景是指为了取得到特定的被摄体的距离(标尺不确定的距离)而由摄像装置2摄像的多视点图像的单位。即，在本实施方式中，“在多个场景中摄像多视点图像”例如包括对多个被摄体的每一个摄像多视点图像这样的情况。

在此，图17示出了在第一场景中摄像第一被摄体而得到的第一多视点图像601以及在第二场景中摄像第二被摄体而得到的第二多视点图像602。

在该情况下，例如在从第一多视点图像601选择了图像x_i以及图像x_j(第一以及第二图像)的情况下，能够判别到该图像x_i所包括的第一被摄体(例如，特征点P2)的距离与到该图像x_j所包括的第一被摄体(例如，特征点P4)的距离之间的大小关系。同样地，在从第二多视点图像602选择了图像x_i以及图像x_j(第六以及第七图像)的情况下，能够判别到该图像x_i所包括的到第二被摄体(例如，特征点P2')的距离与到该图像x_j所包括的第二被摄体(例如，P4')的距离之间的大小关系。

但是，如上所述，根据多视点图像计算出的距离是标尺不确定的距离(即，不是基于实际标尺的距离)，因此例如在从第一多视点图像601选择图像x_i、从第二多视点图像602选择了图像x_j的情况下，无法对到该图像x_i中包括的第一被摄体(例如，特征点P2)的距离和到该图像x_j中包括的第二被摄体(例如，特征点P4’)的距离进行比较，无法判别该距离的大小关系(图像x_i和图像x_j间的距离的大小关系)。

即，在本实施方式中，如上所述，能够使用多组多视点图像(第一以及第二多视点图像)来使统计模型学习，但判别大小关系的图像x_i以及图像x_j需要从在同一场景中摄像到的多视点图像中选择。换言之，假设本实施方式中的统计模型不基于将第一多视点图像中的图像作为输入而从该统计模型输出的模糊值(第一模糊值或者第二模糊值)以及将第二多视点图像中的图像作为输入而从该统计模型输出的模糊值(第六或者第七模糊值)而进行学习(即，在第一以及第二多视点图像间不进行学习)。

另外，在使用在多个场景中摄像到的多个组的多视点图像来使统计模型学习的情况下，在图13所示的步骤S1中取得该多个组的多视点图像，针对该多视点图像的每个组执行步骤S2的处理。另外，在该情况下的步骤S3中，例如随机选择1个场景，从在该选择出的场景中摄像到的多视点图像中选择图像x_i以及图像x_j。

在此，说明了从在同一场景中摄像到的多视点图像中选择图像x_i以及图像x_j的情况，但例如当在第一场景中摄像到的第一多视点图像(中的至少一部分)以及在第二场景中摄像到的第二多视点图像(中的至少一部分)中包括有共通的已知的被摄体(第三被摄体)的情况下，能够进行从第一多视点图像计算出的距离和从第二多视点图像计算出的距离的比较，因此也能够构成为从第一多视点图像中选择图像x_i，从第二多视点图像中选择图像xj(即，基于从第一多视点图像中选择出的图像x_i的模糊值以及从第二多视点图像中选择出的图像x_j的模糊值来使统计模型学习)。

进而，在本实施方式中，说明了在统计模型的学习时从多视点图像(学习用图像集合)中选择任意的2个图像(即，随机地选择图像)的图像，但作为该2个图像，例如也可以优先选择到被摄体的距离(标尺不确定的距离)的差分为预先确定的值以上的图像。由此，能够避免错误地判别图像间的距离的大小关系。另外，上述的2个图像(图像补片)例如也可以基于与多视点图像中的位置、像素值等相应的规定的规则性来选择。

另外，在本实施方式中，作为在统计模型中根据图像来预测模糊值的方式的一例，对补片方式进行了说明，但作为根据图像来预测距离的方式，例如也可以采用将图像的整体区域输入到统计模型，并输出与该整体区域对应的预测值(模糊值)的画面统一方式等。

另外，在本实施方式中，说明了统计模型通过学习受到光学***的像差的影响的多视点图像(根据到该图像所包括的被摄体的距离而非线性地变化的模糊)而生成的，但该统计模型例如也可以通过学习基于透射在摄像装置2的开口部设置的滤波器(滤色器等)的光而生成的多视点图像(即，根据由该滤波器有意地在图像中产生的、根据到被摄体的距离而非线性地变化的模糊)而生成。

此外，在本实施方式中，说明了被输入了包括被摄体的图像的统计模型输出对根据到该被摄体的距离而在该图像中产生的模糊进行表示的模糊值的情况，但该统计模型也可以以将图像作为输入而输出到该图像所包括的被摄体的距离的方式生成。这样的统计模型的学习是代替上述的模糊值而基于从该统计模型输出的距离而进行的。

(第二实施方式)

接着，对第二实施方式进行说明。由于本实施方式中的测距***(摄像装置以及图像处理装置)的结构等与上述的第一实施方式相同，因此在本实施方式中对测距***的结构进行说明的情况下，适当使用图1等。在此，主要对与前述的第一实施方式不同的点进行叙述。

在上述的第一实施方式中，说明了统计模型输出对根据到图像所包括的被摄体的距离而在该图像中产生的模糊进行表示的模糊值的情况，但本实施方式中的统计模型将针对该模糊值(预测值)的不可靠度的程度(以下，表述为不可靠度)与该模糊值一起输出。本实施方式与前述的第一实施方式不同点在于，使用这样反映了从统计模型输出的不可靠度的位次损失(位次损失函数)来使统计模型学习。另外，不可靠度例如由0以上的实数表示，值越大则表示可靠性越高。不可靠度的计算方法并不限定于特定的方法，能够应用已知的各种方法。

以下，参照图18的流程图，对本实施方式中使统计模型学习时的图像处理装置3的处理顺序的一例进行说明。

首先，执行与上述图13所示的步骤S1～S4的处理相当的步骤S21～S24的处理。

执行步骤S24的处理后，计算部35c使用存储于统计模型存储部31的统计模型，取得对根据到图像xi所包括的被摄体的距离而在该图像x_i中产生的模糊进行表示的模糊值以及针对该模糊值的不可靠度、和对根据到图像x_j所包括的被摄体的距离而在该图像x_j中产生的模糊进行表示的模糊值以及针对该模糊值的不可靠度(步骤S25)。

在此，若将上述的不可靠度由σ表示，则在步骤S25中，取得通过输入图像x_i而从统计模型f_θ输出的模糊值f_θ(x_i)以及不可靠度σ_i、以及通过输入图像x_j而从统计模型f_θ输出的模糊值f_θ(x_j)以及不可靠度σ_j。

接着，计算部35c基于在步骤S25中取得的模糊值以及不可靠度，计算位次损失(步骤S26)。

在上述的第一实施方式中，说明了使用式(4)来计算位次损失的情况，但表示本实施方式中的位次损失的函数(位次损失函数)如以下的式(9)那样定义。

[数学式6]

σ＝max(σ_i，σ_j) 式(10)

在该式(9)中，L_uncrt(x_i，x_j)表示在本实施方式中计算出的位次损失，L_rank(x_i，x_j)与上述的第一实施方式中的式(4)的L_rank(x_i，x_j)相同。

在此，例如在没有纹理的区域、光饱和(即，泛白)的区域(图像补片)被选择为图像x_i或者图像x_j的情况下，难以使用统计模型输出高精度的模糊值(即，预测正确的模糊值，取得精度高的距离)，但在上述的第一实施方式中，即使是用于预测这样的模糊值的线索不存在或者少的区域(以下，标记为预测困难区域)，也要以满足图像x_i以及图像x_j间的距离的大小关系的方式进行学习，因此有可能发生过度学习。在该情况下，统计模型被最优化为预测困难区域，该统计模型的通用性降低。

因此，在本实施方式中，如上述的式(9)所示，通过将不可靠度σ加入损失函数，计算考虑了上述的预测困难区域中的预测困难性(不可预测性)的位次损失。另外，如式(10)所定义，式(9)的σ是不可靠度σ_i以及不可靠度σ_j中的值较大的不可靠度。

根据式(9)那样的位次损失函数(不可靠性位次损失函数)，在预测困难区域中无法降低(减小)L_rank(x_i，x_j)的情况下，通过提高不可靠度σ_i以及不可靠度σ_j中的至少一方(即，不可靠度σ)，能够调整为降低本实施方式中的作为位次损失的L_uncrt(x_i，x_j)。但是，为了防止由于过度提高不可靠度σ而L_uncrt(x_i，x_j)过度下降，在式(9)的右边加上第二项作为惩罚。

另外，式(9)所示的位次损失函数例如可以通过扩展异方差性的定义式而得到。

执行步骤S26的处理后，执行与上述图13所示的步骤S7的处理相当的步骤S27的处理。此外，在该步骤S27中，将前述的第一实施方式中说明的式(7)的L_rank(x_i，x_j)设为L_uncrt(x_i，x_j)来使统计模型学习即可。

如上所述，在本实施方式中，在以使基于图像x_i以及图像x_j的模糊值(第一以及第二模糊值)计算出的位次损失最小化的方式使统计模型学习时，基于从被输入了图像x_i以及图像x_j的统计模型输出的不可靠度(第一以及第二不可靠度)中的至少一个不可靠度来调整该位次损失。

在本实施方式中，通过这样的结构，能够缓和上述的预测困难区域对统计模型的学习造成的影响，因此能够实现精度高的统计模型的学习。

(第三实施方式)

接着，对第三实施方式进行说明。由于本实施方式中的测距***(摄像装置以及图像处理装置)的结构等与上述的第一实施方式相同，因此在本实施方式中对测距***的结构进行说明的情况下，适当使用图1等。在此，主要对与前述的第一实施方式不同的点进行叙述。

本实施方式与该第一实施方式的不同点在于，以如上述的第一实施方式中说明的那样满足包括位于不同的距离的被摄体在内的2个图像(学习用图像)间的距离的大小关系且包括位于相同程度的距离的被摄体在内的2个图像(学习用图像)的模糊值的偏差成为最小的方式使统计模型学习。

以下，对本实施方式中使统计模型学习时的图像处理装置3的处理顺序的一例进行说明。在此，为了方便，使用图13的流程图进行说明。

首先，执行在上述第一实施方式中说明的步骤S1及S2的处理。

这里，在上述的第一实施方式中说明了选择图像x_i以及图像x_j这2个图像的情况，但在本实施方式中，学习处理部35从在步骤S1中取得的多视点图像中选择3个图像(步骤S3)。

在将在步骤S3中选择的3个图像设为图像x_i、图像x_j以及图像x_k时，图像x_i、图像x_j以及图像x_k例如具有到图像x_i所包括的被摄体的距离与到图像x_j所包括的被摄体的距离不同，到图像x_i所包括的被摄体的距离与到图像x_k所包括的被摄体的距离大致相同的关系。即，在步骤S3中，学习处理部35例如基于在步骤S2中取得的标尺不确定的距离，选择具有上述关系的图像x_i、图像x_j以及图像x_k。

此外，在本实施方式中，“到图像x_i所包括的被摄体的距离与到图像x_k所包括的被摄体的距离大致相同”例如包括该2个距离的差分在规定的值以下。

另外，本实施方式中的图像x_i、图像x_j以及图像x_k与上述的第一实施方式中说明的图像x_i以及图像x_j同样地、是从多视点图像中的至少1个图像切出的图像补片，但也可以是该图像整体。

当执行步骤S3的处理时，执行在上述的第一实施方式中说明的步骤S4以及S5的处理。

此外，在步骤S5中，取得通过输入图像x_i而从统计模型f_θ输出的模糊值f_θ(x_i)、通过输入图像x_j而从统计模型f_θ输出的模糊值f_θ(x_j)以及通过输入图像x_k而从统计模型f_θ输出的模糊值f_θ(x_k)。

接下来，计算部35c基于在步骤S5中取得的模糊值(即，图像x_i的模糊值f_θ(x_i)、图像x_j的模糊值f_θ(x_j)以及图像x_k的模糊值f_θ(x_k))来计算位次损失(步骤S6)。

在此，在图像x_i、图像x_j及图像x_k中，如上所述，到图像x_i所包括的被摄体的距离和到图像x_j所包括的被摄体的距离不同，到图像x_i所包括的被摄体的距离和到图像x_k所包括的被摄体的距离大致相同。在本实施方式中，着眼于这一点，以满足图像x_i以及图像x_j间的距离的大小关系且图像x_i以及图像x_k的模糊值的偏差最小化的方式使统计模型学习。

在该情况下，本实施方式中的表示位次损失的函数(位次损失函数)如以下的式(11)那样定义。

[数学式7]

L_intra(x_i，x_j，x_k)＝L_rank(x_i，x_j)+λ|f_θ(x_i)-f_θ(x_k)| 式(11)

rank(x_i)≠rank(x_j)，rank(x_i)＝rank(x_k) 式(12)

在该式(11)中，L_intra(x_i，x_j，x_k)表示在本实施方式中计算出的位次损失，L_rank(x_i，x_j)相当于上述的第一实施方式中的式(4)的L_rank(x_i，x_j)。

另外，式(11)的右边的第二项表示图像x_i的模糊值与图像x_k的模糊值的偏差(差分)，该第二项中的λ是用于取得与该右边的第一项的平衡的任意的系数(λ＞0)。

另外，式(12)在本实施方式中表示图像x_i、图像x_j以及图像x_k满足的关系(即，到图像x_i、图像x_j以及图像x_k各自所包括的被摄体的距离的大小关系)。

执行步骤S6的处理后，执行在上述的第一实施方式中说明的步骤S7的处理。在该步骤S7中，将前述的第一实施方式中说明的式(7)的L_rank(x_i，x_j)作为L_intra(x_i，x_j，x_k)来使统计模型学习即可。

如上所述，在本实施方式中，通过以将包括位于大致相同的距离(差分为规定的值以下的距离)的被摄体在内的2个图像x_i以及图像x_k(第一以及第三图像)的每一个作为输入而从统计模型输出的模糊值(第一以及第三模糊值)的差分最小化的方式使统计模型学习的结构，与上述的第一实施方式相比，能够实现考虑了该图像x_i以及图像x_k的模糊值的偏差的更高精度的统计模型的学习。

在本实施方式中，说明了考虑了到图像x_i以及图像x_k所包括的被摄体的距离的偏差来计算位次损失的情况，但例如也可以如以下的式(13)那样，进一步选择包括位于与图像x_j所包括的被摄体相同程度的距离的被摄体在内的图像x_l、并使用了计算进一步考虑了该图像x_j以及图像x_l的模糊值的偏差的位次损失的位次损失函数。

[数学式8]

L_intra(x_i,x_j，x_k，x_l)

＝L_rank(x_i，x_j)+λ|f_θ(x_i)-f_θ(x_k)|+λ|f_θ(x_j)-f_θ(x₁)|

式(13)

此外，在使用式(13)的位次损失函数的情况下，在上述的步骤S3中，选择4个图像(图像x_i、图像x_j、图像x_k以及图像x_l)。另外，该图像x_i、图像x_j、图像x_k和图像x_l具有如下关系：到图像x_i所包括的被摄体的距离和到图像x_j所包括的到摄体的距离不同，到图像x_i所包括的被摄体的距离与到图像x_k所包括的被摄体的距离大致相同，到图像x_j所包括的被摄体的距离与到图像x_l所包括的被摄体的距离大致相同。

式(13)的右边的第三项表示图像x_j的模糊值与图像x_l的模糊值的偏差(差分)，该第三项中的λ是用于取得与该右边的第一项的平衡的任意的系数(λ＞0)。

另外，本实施方式也可以是与前述的第二实施方式组合的结构。在该情况下，能够使用以下的式(14)那样的位次损失函数。

[数学式9]

根据以上所述的至少1个实施方式，能够提供一种能够提高用于取得到被摄体的距离的统计模型中的学习的容易性的学习方法、程序以及图像处理装置。

对本发明的几个实施方式进行了说明，但这些实施方式是作为例子而提示的，并不意图限定发明的范围。这些实施方式能够以其他各种方式实施，在不脱离发明的主旨的范围内，能够进行各种省略、置换、变更。这些实施方式及其变形包括在发明的范围或主旨中，同样包括在权利要求书所记载的发明及其等通的范围内。

另外，能够将上述的实施方式汇总为以下的技术方案。

[技术方案1]

一种学习方法，用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对根据到该被摄体的距离而在该图像中产生的模糊进行表示的模糊值，所述学习方法具备如下步骤：

取得通过摄像装置从多视点对第一被摄体进行摄像而得到的第一多视点图像；以及

基于第一模糊值及第二模糊值来使所述统计模型学习，所述第一模糊值是将所述第一多视点图像中的第一图像作为输入而从所述统计模型输出的模糊值，所述第二模糊值是将所述第一多视点图像中的第二图像作为输入而从所述统计模型输出的模糊值，

所述学习的步骤包括如下步骤：

从所述第一多视点图像取得第一距离及第二距离，所述第一距离是摄像所述第一图像时的从所述摄像装置到该第一图像所包括的第一被摄体的距离，所述第二距离是摄像所述第二图像时的从所述摄像装置到该第二图像所包括的第一被摄体的距离；

判别所述第一距离与所述第二距离的大小关系；以及

以所述第一模糊值与所述第二模糊值的大小关系变得与判别出的所述大小关系相等的方式使所述统计模型学习。

[技术方案2]

根据所述技术方案1，

所述统计模型将所述第一图像作为输入而输出所述第一模糊值以及该第一模糊值的第一不可靠度，将所述第二图像作为输入而输出所述第二模糊值以及该第二模糊值的第二不可靠度，

所述学习的步骤包括如下步骤：以使基于从所述统计模型输出的第一模糊值及第二模糊值计算的位次损失最小化的方式使所述统计模型学习，

所述位次损失基于所述第一不可靠度及所述第二不可靠度中的至少一个不可靠度而被调整。

[技术方案3]

根据所述技术方案1或2，

所述统计模型将所述第一多视点图像中的第三图像作为输入而输出从所述统计模型输出的第三模糊值，

所述学习的步骤包括如下步骤：以所述第一模糊值与所述第三模糊值之间的差分被最小化的方式使所述统计模型学习，

摄像所述第一图像时的从所述摄像装置到该第一图像所包括的第一被摄体的第一距离与摄像所述第三图像时的从所述摄像装置到该第三图像所包括的第一被摄体的第三距离之间的差分在预先决定的值以下。

[技术方案4]

根据所述技术方案1～3，

所述第一多视点图像在所述摄像装置的焦点被固定的状态下被摄像。

[技术方案5]

根据所述技术方案1～4，

所述学习的步骤包括如下步骤：在基于所述第一模糊值及所述第二模糊值使所述统计模型学习之后，基于将第四图像作为输入而从所述统计模型输出的第四模糊值、以及将第五图像作为输入而从所述统计模型输出的第五模糊值，来使统计模型学习，所述第四图像是所述第一多视点图像中的从与所述第一图像不同的视点摄像到的图像，所述第五图像是所述第一多视点图像中的从与所述第二图像不同的视点摄像到的图像。

[技术方案6]

根据所述技术方案1～5，

还具备取得通过所述摄像装置从多视点对第二被摄体进行摄像而得到的第二多视点图像的步骤，

所述学习的步骤还包括如下步骤：基于将所述第二多视点图像中的第六图像作为输入而从所述统计模型输出的第六模糊值以及将所述第二多视点图像所包括的第七图像作为输入而从所述统计模型输出的第七模糊值，来使统计模型学习。

[技术方案7]

根据所述技术方案6，

所述统计模型不基于所述第一模糊值或所述第二模糊值以及所述第六模糊值或所述第七模糊值进行学习。

[技术方案8]

根据所述技术方案6或7，

所述学习的步骤包括如下步骤：在所述第一多视点图像中的至少一部分和所述第二多视点图像中的至少一部分中包括与所述第一被摄体及所述第二被摄体不同的第三被摄体的情况下，基于所述第一模糊值及所述第六模糊值来使统计模型学习。

[技术方案9]

根据所述技术方案1～8，

还具备如下步骤：在由所述摄像装置摄像所述第一多视点图像的情况下，进行通知，以使焦点对准从近前到里侧的多个位置。

[技术方案10]

根据所述技术方案1～9，

还具备如下步骤：在由所述摄像装置摄像所述第一多视点图像的情况下，进行通知，以摄像包括所述第一被摄体的图像。

[技术方案11]

一种程序，由图像处理装置的计算机执行，该程序使所述计算机执行如下学习方法，

该学习方法用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对根据到该被摄体的距离而在该图像中产生的模糊进行表示的模糊值，所述学习方法具备如下步骤：

取得通过摄像装置从多视点对被摄体进行摄像而得到的多视点图像；以及

基于第一模糊值及第二模糊值来使所述统计模型学习，所述第一模糊值是将所述多视点图像中的第一图像作为输入而从所述统计模型输出的模糊值，所述第二模糊值是将所述多视点图像中的第二图像作为输入而从所述统计模型输出的模糊值，

所述学习的步骤包括如下步骤：

从所述多视点图像取得第一距离及第二距离，所述第一距离是摄像所述第一图像时的从所述摄像装置到该第一图像所包括的被摄体的距离，所述第二距离是摄像所述第二图像时的从所述摄像装置到该第二图像所包括的被摄体的距离；

判别所述第一距离与所述第二距离的大小关系；以及

[技术方案12]

一种图像处理装置，用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对根据到该被摄体的距离而在该图像中产生的模糊进行表示的模糊值，所述图像处理装置具备：

第一取得构件，取得通过摄像装置从多视点对被摄体进行摄像而得到的多视点图像；以及

学习构件，基于第一模糊值及第二模糊值来使所述统计模型学习，所述第一模糊值是将所述多视点图像中的第一图像作为输入而从所述统计模型输出的模糊值，所述第二模糊值是将所述多视点图像中的第二图像作为输入而从所述统计模型输出的模糊值，

所述学习构件包括：

第二取得构件，从所述多视点图像取得第一距离及第二距离，所述第一距离是摄像所述第一图像时的从所述摄像装置到该第一图像所包括的被摄体的距离，所述第二距离是摄像所述第二图像时的从所述摄像装置到该第二图像所包括的被摄体的距离；以及

判别构件，判别所述第一距离与所述第二距离的大小关系；以及

所述学习构件以所述第一模糊值与所述第二模糊值的大小关系变得与判别出的所述大小关系相等的方式使所述统计模型学习。

Claims

1.一种学习方法，用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对模糊进行表示的模糊值，该模糊是根据到该被摄体的距离而在该图像中产生的，

所述学习方法具备如下步骤：

所述学习的步骤包括如下步骤：

判别所述第一距离与所述第二距离的大小关系；以及

2.根据权利要求1所述的学习方法，

3.根据权利要求1或2所述的学习方法，

4.根据权利要求1～3中任一项所述的学习方法，

5.根据权利要求1～4中任一项所述的学习方法，

6.根据权利要求1～5中任一项所述的学习方法，

7.根据所述技术方案6所述的学习方法，

8.根据所述技术方案6或7所述的学习方法，

所述学习的步骤包括如下步骤：在所述第一多视点图像中的至少一部分和所述第二多视点图像中的至少一部分中包括与所述第一被摄体及所述第二被摄体不同的第三被摄体的情况下，基于所述第一模糊值及所述第六模糊值来使所述统计模型学习。

9.根据权利要求1～8中任一项所述的学习方法，

10.根据权利要求1～9中任一项所述的学习方法，

还具备如下步骤：在由所述摄像装置摄像所述第一多视点图像的情况下，进行通知，以便摄像包括所述第一被摄体的图像。

11.一种存储介质，存储有程序，该程序用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对模糊进行表示的模糊值，该模糊是根据到该被摄体的距离而在该图像中产生的，

所述程序使图像处理装置的计算机执行如下步骤：

所述学习的步骤包括如下步骤：

判别所述第一距离与所述第二距离的大小关系；以及

12.一种图像处理装置，用于使统计模型学习，该统计模型用于将包括被摄体的图像作为输入而输出对模糊进行表示的模糊值，所述模糊是根据到该被摄体的距离而在该图像中产生的，所述图像处理装置具备：

所述学习构件包括：