JP7482070B2

JP7482070B2 - 学習方法、プログラム及び画像処理装置

Info

Publication number: JP7482070B2
Application number: JP2021042736A
Authority: JP
Inventors: 直三島; 直樹西澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2024-05-13
Anticipated expiration: 2041-03-16
Also published as: JP2022142532A; US11651504B2; CN115086628A; US20220301210A1

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。

被写体までの距離を取得するために、２つの撮像装置（カメラ）やステレオカメラ（複眼のカメラ）で撮像された画像を用いることが知られていたが、近年では、１つの撮像装置（単眼のカメラ）で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。

ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。

しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット（学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット）を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。

M.Kashiwagi et al., "Deep Depth From Aberration Map", Proceedings of the IEEEE International Conference on Computer Vision, 2019 Mishima et al. "Physical Cue based Depth-Sensing by Color Coding with Deaberration Network", BMVC2019

そこで、本発明が解決しようとする課題は、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。

実施形態によれば、第１ドメインで撮像された第１画像に含まれる第１被写体までの距離に応じて当該第１画像に生じるぼけを学習することによって生成された統計モデルを学習させるために画像処理装置が実行する学習方法が提供される。前記学習方法は、前記第１ドメインとは異なる第２ドメインで同一の第２被写体を多視点から撮像した複数の第２画像を取得することと、前記複数の第２画像の各々から前記第２被写体までのスケールが不定な距離を取得することと、前記複数の第２画像の各々から取得された距離と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを整合させることによって、当該距離を実スケールに基づく距離に変換するための第１パラメータ及び前記複数の第２画像を撮像した撮像装置において不定な第２パラメータを計算することと、前記第１及び第２パラメータを用いて前記複数の第２画像の各々から取得された距離を当該距離に応じて生じるぼけを示すぼけ値に変換することと、前記複数の第２画像及び前記変換されたぼけ値を前記統計モデルに学習させることとを具備する。

第１実施形態における測距システムの構成の一例を示す図。画像処理装置のシステム構成の一例を示す図。測距システムの動作の概要について説明するための図。被写体までの距離を取得する原理について説明するための図。撮像画像からぼけを予測するパッチ方式について説明するための図。画像パッチに関する情報の一例を示す図。撮像画像からぼけを予測する画面一括方式について説明するための図。一般的な統計モデルの学習方法の概要について説明するための図。学習用のデータセットについて説明するための図。学習用のデータセットについて説明するための図。多視点画像について説明するための図。学習処理部の機能構成の一例を示すブロック図。真のスケールパラメータを使用して計算された距離とぼけとの対応関係の一例を示す図。誤差があるスケールパラメータを使用して計算された距離とぼけとの対応関係の一例を示す図。統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。ＳｆＭの概要を示す図。スケールパラメータとぼけ値との関係性について説明するための図。被写体までの距離と当該距離に応じて生じるぼけとの対応関係をピント位置毎に示す図。透視投影とレンズの公式とを表す図。スケールパラメータ及びカメラパラメータを計算するための線形回帰問題の概要を表す図。撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、各実施形態について説明する。
（第１実施形態）
図１は、第１実施形態における測距システムの構成の一例を示す。図１に示す測距システム１は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得（測定）するために使用される。

図１に示すように、測距システム１は、撮像装置２及び画像処理装置３を備える。本実施形態においては、測距システム１が別個の装置である撮像装置２及び画像処理装置３を備えるものとして説明するが、当該測距システム１は、撮像装置２が撮像部として機能し、画像処理装置３が画像処理部として機能する１つの装置（測距装置）として実現されていてもよい。また、画像処理装置３は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。

撮像装置２は、各種画像を撮像するために用いられる。撮像装置２は、レンズ２１及びイメージセンサ２２を備える。レンズ２１及びイメージセンサ２２は、撮像装置２の光学系（単眼カメラ）に相当する。

レンズ２１には、被写体で反射した光が入射する。レンズ２１に入射した光は、レンズ２１を透過する。レンズ２１を透過した光は、イメージセンサ２２に到達し、当該イメージセンサ２２によって受光（検出）される。イメージセンサ２２は、受光した光を電気信号に変換（光電変換）することによって、複数の画素から構成される画像を生成する。

なお、イメージセンサ２２は、例えばＣＣＤ（Charge Coupled Device）イメージセンサ及びＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等により実現される。イメージセンサ２２は、例えば赤色（Ｒ）の波長帯域の光を検出する第１センサ（Ｒセンサ）２２１、緑色（Ｇ）の波長帯域の光を検出する第２センサ（Ｇセンサ）２２２及び青色（Ｂ）の波長帯域の光を検出する第３センサ（Ｂセンサ）２２３を含む。イメージセンサ２２は、第１～第３センサ２２１～２２３により対応する波長帯域の光を受光して、各波長帯域（色成分）に対応するセンサ画像（Ｒ画像、Ｇ画像及びＢ画像）を生成することができる。すなわち、撮像装置２によって撮像される画像はカラー画像（ＲＧＢ画像）であり、当該画像にはＲ画像、Ｇ画像及びＢ画像が含まれる。

なお、本実施形態においてはイメージセンサ２２が第１～第３センサ２２１～２２３を含むものとして説明するが、イメージセンサ２２は、第１～第３センサ２２１～２２３のうちの少なくとも１つを含むように構成されていればよい。また、イメージセンサ２２は、第１～第３センサ２２１～２２３に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。

本実施形態においてレンズ２１を透過した光に基づいて生成された画像は、光学系（レンズ２１）の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。

図１に示す画像処理装置３は、機能構成として、統計モデル格納部３１、画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５を含む。

統計モデル格納部３１には、被写体までの距離を撮像装置２によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部３１に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として、当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を予測（出力）することができる。

なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。

画像取得部３２は、上記した撮像装置２によって撮像された画像を、当該撮像装置２（イメージセンサ２２）から取得する。

距離取得部３３は、画像取得部３２によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部３３は、画像を統計モデル格納部３１に格納されている統計モデルに入力することによって当該統計モデルから出力されるぼけ値（当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値）に基づいて当該被写体までの距離を取得する。

出力部３４は、距離取得部３３によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部３４は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する（つまり、距離情報を画像データとして出力する）ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示することができる。出力部３４によって出力される距離情報は、例えば撮像装置２によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。

学習処理部３５は、例えば画像取得部３２によって取得される画像を用いて統計モデル格納部３１に格納されている統計モデルを学習させる処理を実行する。学習処理部３５によって実行される処理の詳細については後述する。

なお、図１に示す例では、画像処理装置３が各部３１～３５を含むものとして説明したが、当該画像処理装置３は、例えば画像取得部３２、距離取得部３３及び出力部３４を含む測距装置と、統計モデル格納部３１、画像取得部３２及び学習処理部３５を含む学習装置とから構成されていてもよい。

図２は、図１に示す画像処理装置３のシステム構成の一例を示す。画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を備える。また、画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を相互に接続するバス３０５を有する。

ＣＰＵ３０１は、画像処理装置３内の様々なコンポーネントの動作を制御するためのプロセッサである。ＣＰＵ３０１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ３０１は、不揮発性メモリ３０２からＲＡＭ３０３にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム３０３Ａを含む。

不揮発性メモリ３０２は、補助記憶装置として用いられる記憶媒体である。ＲＡＭ３０３は、主記憶装置として用いられる記憶媒体である。図２においては不揮発性メモリ３０２及びＲＡＭ３０３のみが示されているが、画像処理装置３は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の他の記憶装置を備えていてもよい。

なお、本実施形態において、図１に示す統計モデル格納部３１は、例えば不揮発性メモリ３０２または他の記憶装置等によって実現される。

また、本実施形態において、図１に示す画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５の一部または全ては、ＣＰＵ３０１（つまり、画像処理装置３のコンピュータ）に画像処理プログラム３０３Ａを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム３０３Ａは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置３にダウンロードされてもよい。

ここでは、ＣＰＵ３０１に画像処理プログラム３０３Ａを実行させるものとして説明したが、各部３２～３５の一部または全ては、ＣＰＵ３０１の代わりに例えばＧＰＵ（図示せず）を用いて実現されてもよい。また、各部３２～３５の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

通信デバイス３０４は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス３０４は、信号を送信する送信部と信号を受信する受信部とを含む。通信デバイス３０４は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置２が含まれる。この場合、画像処理装置３は、通信デバイス３０４を介して、撮像装置２から画像を受信することができる。

図２においては省略されているが、画像処理装置３は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。

次に、図３を参照して、本実施形態における測距システム１の動作の概要について説明する。

測距システム１において、撮像装置２（イメージセンサ２２）は、上記したように光学系（レンズ２１）の収差の影響を受けた画像を生成する。

画像処理装置３（画像取得部３２）は、撮像装置２によって生成された画像を取得し、当該画像を統計モデル格納部３１に格納されている統計モデルに入力する。

ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値（ぼけ情報）が出力される。後述するように画像中の被写体までの距離と当該距離に応じて画像に生じるぼけの色、サイズ及び形状とは相関があり、画像処理装置３（距離取得部３３）は、統計モデルから出力されたぼけ値を距離に変換することによって当該被写体までの距離を示す距離情報を取得することができる。なお、本実施形態において統計モデルから出力されるぼけ値とは、画像に生じるぼけの色、サイズ及び形状を含むぼけ量を表すスカラー量である。

このように本実施形態においては、統計モデルを用いて、撮像装置２によって撮像された画像から距離情報を取得することができる。

ここで、図４を参照して、本実施形態において被写体までの距離（を示す距離情報）を取得する原理について簡単に説明する。

撮像装置２によって撮像された画像（以下、撮像画像と表記）には、上記したように当該撮像装置２の光学系の収差（レンズ収差）に起因するぼけが生じている。具体的には、収差のあるレンズ２１を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置（撮像装置２においてピントが合う位置）からずれているような場合には、各波長帯域の光が１点に集まらず異なった点に到達する。これが、画像上でぼけ（色収差）として現れる。

また、撮像画像においては、当該撮像画像中の被写体までの距離（つまり、撮像装置２に対する被写体の位置）に応じて非線形に変化するぼけ（色、サイズ及び形状）が観察される。

このため、本実施形態においては、図４に示すように撮像画像４０１に生じるぼけ（ぼけ値）４０２を被写体４０３までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体４０３までの距離を取得する。

具体的には、本実施形態における統計モデルは撮像画像４０１が入力されることによって当該撮像画像４０１に生じるぼけ４０２を推定（予測）するが、本実施形態においては、当該ぼけ４０２を被写体４０３までの距離に変換することによって、当該撮像画像４０１中の被写体４０３までの距離を取得することができる。

以下、統計モデルにおいて撮像画像から被写体までの距離に応じて当該撮像画像に生じるぼけ（を示すぼけ値）を予測する方式の一例について説明する。ここでは、パッチ方式及び画面一括方式について説明する。

まず、図５を参照して、パッチ方式について説明する。パッチ方式においては、撮像画像４０１から局所領域（以下、画像パッチと表記）４０１ａが切り出される（抽出される）。

この場合、例えば撮像画像４０１の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ４０１ａとして順次切り出すようにしてもよいし、撮像画像４０１を認識して、被写体（像）が検出された領域を網羅するように画像パッチ４０１ａを切り出すようにしてもよい。なお、画像パッチ４０１ａは、他の画像パッチ４０１ａとの間で一部がオーバーラップしていてもよい。

パッチ方式においては、上記したように切り出された画像パッチ４０１ａに対応する予測値としてぼけ値が出力される。すなわち、パッチ方式においては、撮像画像４０１から切り出された画像パッチ４０１ａの各々を入力として、当該画像パッチ４０１ａの各々に含まれる被写体に生じているぼけ４０２が予測される。

図６は、上記したパッチ方式において統計モデルに入力される画像パッチ４０１ａに関する情報の一例を示す。

パッチ方式においては、撮像画像４０１に含まれるＲ画像、Ｇ画像及びＢ画像のそれぞれについて、当該撮像画像４０１から切り出された画像パッチ４０１ａの勾配データ（Ｒ画像の勾配データ、Ｇ画像の勾配データ及びＢ画像の勾配データ）が生成される。統計モデルには、このように生成された勾配データが入力される。

なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分（差分値）に相当する。例えば画像パッチ４０１ａがｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、当該画像パッチ４０１ａ内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリクス状に配置した勾配データ（つまり、各画素の勾配データ）が生成される。

統計モデルは、Ｒ画像の勾配データと、Ｇ画像の勾配データと、Ｂ画像の勾配データとを用いて、当該画素に生じているぼけを予測する。図６においてはＲ画像、Ｇ画像及びＢ画像の各々の勾配データが統計モデルに入力される場合について示しているが、ＲＧＢ画像の勾配データが統計モデルに入力される構成であってもよい。

なお、パッチ方式において上記したように各画素の勾配データが統計モデルに入力される場合、当該統計モデルは、画素毎にぼけ値を出力する。

次に、図７を参照して、画面一括方式について説明する。画面一括方式においては、上記した画像パッチ４０１ａの切り出しは行われない。

画面一括方式においては、撮像画像４０１の全体領域（に関する情報）が統計モデルに入力され、当該統計モデルから当該全体領域に対応する予測値としてぼけを示すぼけ値が出力される。すなわち、画面一括方式においては、撮像画像４０１の全体領域を入力として、当該撮像画像４０１の全体領域に含まれる被写体までの距離に応じたぼけ４０２が予測される。

なお、画面一括方式において統計モデルに入力される全体領域に関する情報は、例えば上記したＲ画像、Ｇ画像及びＢ画像（を構成する各画素）の勾配データである。

また、画面一括方式においては、撮像画像４０１の全体領域が統計モデルに入力されるため、上記した距離の予測に当該撮像画像４０１（全体領域）から抽出されるコンテクストを利用することが可能である。なお、コンテクストとは、撮像画像４０１中の線分や色の分布等に関する特徴量に相当する。また、コンテクストには、被写体についての特徴（人物の形状及び建物の形状等）も含まれる。

なお、画面一括方式において上記したように各画素の勾配データが統計モデルに入力される場合、当該統計モデルは、画素毎にぼけ値を出力する。

ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけ（を示すぼけ値）を予測することが可能であるが、当該ぼけ値の精度を向上させるためには、当該統計モデルを学習させる必要がある。

以下、図８を参照して、一般的な統計モデルの学習方法の概要について説明する。上記したパッチ方式及び画面一括方式のいずれの方式を用いる場合においても、統計モデルの学習は、基本的に、図８に示すような流れで行われる。具体的には、統計モデルの学習は、当該学習のために用意された画像（以下、学習用画像と表記）５０１に関する情報を統計モデルに入力し、当該統計モデルから出力（予測）されたぼけ値５０２と正解値５０３との誤差を当該統計モデルにフィードバックすることによって行われる。なお、正解値５０３とは、学習用画像５０１の撮像地点から当該学習用画像５０１に含まれる被写体までの実際の距離（実測値）に応じて当該学習用画像５０１に生じるぼけを示すぼけ値（つまり、当該実際の距離を変換することによって得られるぼけ値）をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ（例えば、重み係数）を更新することをいう。

具体的には、パッチ方式が適用される場合には、学習用画像５０１から切り出された画像パッチ（局所領域）毎に、当該画像パッチに関する情報（勾配データ）が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する画素のぼけを示すぼけ値５０２が出力される。このように出力されたぼけ値５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

また、画面一括方式が適用される場合には、学習用画像５０１の全体領域に関する情報（勾配データ）が一括して統計モデルに入力され、当該統計モデルによって当該学習用画像５０１を構成する各画素のぼけを示すぼけ値５０２が出力される。このように出力されたぼけ値５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

ところで、統計モデルを学習させるためには、図８において説明した正解値が付与された学習用画像（つまり、学習用画像と当該学習用画像から取得されるべき実際の距離を変換することによって得られる正解値とを含む学習用のデータセット）を用意する必要があるが、当該正解値を得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測する必要があり、煩雑である。また、統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用のデータセットを用意することは容易ではない。

なお、上記した学習用のデータセットを比較的容易に用意するために、例えば実験室のような室内環境（第１ドメイン）においては、図９に示すような撮像装置２を水平方向に移動（スライド）させる移動機構を有するステージを用いることができる。これによれば、例えば平面形状を有するテレビモニタ等を被写体とし、当該被写体と撮像装置２との距離が所定の値となるように撮像装置２を移動させながら当該被写体を撮像することによって、図１０に示すように当該被写体を含む学習用画像と当該被写体までの距離とを含む学習用のデータセットを得ることができる。

しかしながら、上記したように室内環境で撮像された画像に生じるぼけを学習することによって生成された統計モデルを用いて屋外環境（第２ドメイン）で撮像された画像からぼけ（を示すぼけ値）を予測する場合、画像が撮影された環境（ドメイン）の違いによる物理的な手掛かりの変容により、当該予測に誤差が生じる。

この場合には、屋外環境で撮像された画像に生じるぼけを更に学習することが好ましいが、当該屋外環境で被写体までの実際の距離を計測しながら学習用のデータセットを得ることは困難である。

そこで、本実施形態においては、統計モデルの適用先となるドメイン（例えば、屋外環境等）において撮像装置２によって撮像された多視点画像を用いることによって、正解値を必要としない当該統計モデルの学習（再学習）を実現するものとする。なお、本実施形態における多視点画像とは、図１１に示すように同一の被写体を異なる視点（つまり、多視点）から撮像した複数の画像をいう。なお、多視点画像は、２つ以上の画像であればよい。

以下、図１に示す画像処理装置３に含まれる学習処理部３５について具体的に説明する。図１２は、学習処理部３５の機能構成の一例を示すブロック図である。

図１２に示すように、学習処理部３５は、距離取得部３５ａ、パラメータ計算部３５ｂ、変換部３５ｃ及び学習部３５ｄを含む。

まず、本実施形態において統計モデル格納部３１に格納されている統計モデル（事前学習統計モデル）を学習させる場合、画像取得部３２は上記した多視点画像（同一の被写体を多視点から撮像した複数の画像）を取得し、距離取得部３５ａは、当該多視点画像を当該画像取得部３２から取得する。距離取得部３５ａは、取得された多視点画像から当該多視点画像の各々に含まれる第２被写体までの距離（奥行き）を取得する。なお、距離取得部３５ａによって取得される距離の詳細については、後述する。

ここで、多視点画像から取得される第２被写体までの距離を正解値として利用することを考える。しかしながら、多視点画像から取得される第２被写体までの距離はスケールが不定な距離であり、例えばスケールパラメータを使用して当該スケールが不定な距離から実スケールに基づく距離を計算しなければ、当該距離から適切なぼけ値（つまり、正解値）を得ることはできない。

具体的には、図１３は真のスケールパラメータを使用して計算された距離とぼけ（のサイズ）との対応関係を示しているが、スケールパラメータに誤差がある場合（つまり、スケールパラメータが不明であり、誤差があるスケールパラメータを使用して実スケールの距離が計算された場合）、図１４に示すように、距離とぼけとの対応関係にずれが生じる。なお、図１４は、真のスケールパラメータに対して誤差があるスケールパラメータを使用して計算された距離とぼけとの対応関係を示している。

すなわち、図１４に示すような誤差があるスケールパラメータを使用して計算された距離から変換されたぼけ値を正解値として用いた場合には、質の高い統計モデルの学習を行うことができない（つまり、統計モデルの精度が低下する可能性がある）。

更に、後述するように距離をぼけ値に変換する場合には撮像装置２におけるカメラパラメータを用いる必要があるが、このカメラパラメータも不定であり、適切な正解値（ぼけ値）を得ることができない。

したがって、統計モデルの適用先となるドメインで撮像された多視点画像から取得される距離を学習に利用するためには、上記した不定なパラメータを計算する必要がある。

そこで、パラメータ計算部３５ｂは、多視点画像の各々を統計モデル格納部３１に格納されている統計モデル（つまり、統計モデル格納部３１に格納されている例えば屋内環境で撮像された画像に生じるぼけを事前に学習した事前学習統計モデル）に入力することによって当該統計モデルから出力されるぼけ値を取得する。

パラメータ計算部３５ｂは、上記したように距離取得部３５ａによって取得された被写体までの距離と当該パラメータ計算部３５ｂによって取得されたぼけ値とを整合させる（キャリブレーションする）ことによって、上記した不定なパラメータ（スケールパラメータ及びカメラパラメータ）を計算する。

変換部３５ｃは、パラメータ計算部３５ｂによって計算された不定なパラメータを用いて、距離取得部３５ａによって取得された距離をぼけ値に変換する。

学習部３５ｄは、多視点画像及び変換部３５ｃによって距離から変換されたぼけ値を統計モデルに学習させる。学習部３５ｄによる学習が完了した統計モデルは、統計モデル格納部３１に格納される（つまり、統計モデル格納部３１に格納されている統計モデルに上書きされる）。

本実施形態においては、上記したように多視点画像とぼけ値との間に存在する２つの不定性（スケールパラメータの不定性及びカメラパラメータの不定性）を解消して、多視点画像を用いたオンライン学習を実現する。

図１５のフローチャートを参照して、統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

ここでは、統計モデル格納部３１に事前に学習済みである統計モデル（事前学習統計モデル）が格納されており、当該統計モデルは、上記した室内環境で撮像された画像に生じるぼけを学習することによって生成されているものとする。なお、統計モデル格納部３１に格納されている統計モデルは、例えば撮像装置２で撮像された画像に生じるぼけを学習することによって生成されていてもよいし、当該撮像装置２とは異なる撮像装置（またはレンズ）で撮像された画像に生じるぼけを学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力（予測）するための統計モデルが事前に用意されていればよい。

まず、距離取得部３５ａは、画像取得部３２によって取得された多視点画像（撮像装置２で撮像された画像）を学習用画像として取得する（ステップＳ１）。ステップＳ１において取得される多視点画像は、例えば屋外環境等（つまり、事前にぼけを学習した屋内環境とは異なるドメイン）で同一の被写体が異なる視点（多視点）から撮像された複数の画像を含む。多視点画像は、可能な限り静止している同一の被写体を互いに相異なる位置から撮像した画像であることが好ましい。また、本実施形態において、多視点画像に含まれる複数の画像の各々は、ピント位置（ピントが合う位置）が固定された状態で撮像装置２によって撮像されているものとする。

なお、多視点画像を撮像する撮像装置２は、任意のレンズが取り付けられた任意のカメラシステムであればよく、上記した統計モデルに事前にぼけを学習させた画像を撮像した撮像装置である必要はない。

ステップＳ１の処理が実行されると、距離取得部３５ａは、当該ステップＳ１において取得された多視点画像から、当該多視点画像の各々に含まれる被写体までの距離（スケールが不定な距離）を取得する（ステップＳ２）。

なお、ステップＳ２における多視点画像からの距離の取得（奥行き推定）には、ＳｆＭ（Structure from Motion）及び多視点ステレオと称される技術を用いることができる。

図１６は、ＳｆＭの概要を示している。ＳｆＭにおいては、多視点画像（に含まれる複数の画像）の各々から被写体の特徴点（被写体の形状を表す特徴点）が抽出される。図１６においては、３つの画像から被写体の特徴点として、Ｐ１～Ｐ７が抽出されていることが示されている。このように抽出された特徴点は、多視点画像間で対応づけられる。ＳｆＭによれば、このように対応づけられた特徴点に基づく３次元点群（の座標）と、当該対応づけられた特徴点間の変位に基づいて各学習用画像が撮像された際の撮像装置２の位置及び姿勢（つまり、各視点における撮像装置２の位置及び姿勢）を計算することができる。ＳｆＭにおいては、多視点画像を用いることにより、３次元点群の座標のずれを最小化することができる。

なお、ＳｆＭでは粗い３次元点群の座標が計算されるため、本実施形態においては、上記した各視点における撮像装置２の位置及び姿勢を用いた多視点ステレオ技術により、より詳細な３次元原点群（の座標）を計算するものとする。

この場合、上記したＳｆＭ及び多視点ステレオ技術における１つの視点（撮像装置２）の位置（並進成分）及び姿勢（回転成分）をそれぞれｔ及びＲとし、多視点画像から計算された３次元点の座標を（Ｘ，Ｙ，Ｚ）とすると、多視点画像（各視点における画像）中の座標位置（ｘ，ｙ）と当該座標位置に存在する被写体までの距離（奥行き）ｚ_０は以下の式（１）及び式（２）の関係にある。

なお、式（１）におけるＫは、撮像装置２の内部パラメータであり、例えば撮像装置２１に備えられるレンズ２１とイメージセンサ２２との距離を含む。

ステップＳ２においては、上記した式（１）及び式（２）を用いることによって、多視点画像に含まれる画像中の被写体までの距離が上記した特徴点毎に計算される。

ここで、ステップＳ２において取得（計算）された距離は、スケールが不定の距離である。このスケールが不定の距離ｚ_０と実スケールに基づく距離ｚとは以下の式（３）の関係にある。

上記した式（３）のβは、スケールが不定の距離ｚ_０を実スケールに基づく距離ｚに変換するためのスケールパラメータである。一般的には、画像に含まれている被写体のサイズに関する情報（事前情報）や他のセンサから得られる情報（値）等がない場合、撮像装置２（単眼カメラ）の情報だけではスケールパラメータβを求めることはできない。

統計モデルの学習時にはカメラパラメータを用いて距離から変換されたぼけ値を正解値として用いるが、このようにスケールパラメータβが不定である場合には、図１７に示すように例えば同一の距離に存在する被写体を撮像した場合であっても異なるぼけ値に変換される場合があり、統計モデルを適切に学習させることができない。

再び図１５に戻ると、パラメータ計算部３５ｂは、統計モデル格納部３１に格納されている統計モデルを用いてステップＳ１において取得された多視点画像からぼけ値（ぼけ量の予測値）を取得する（ステップＳ３）。ステップＳ３においては、多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値が取得される。なお、統計モデルには、多視点画像の各々の一部の領域（例えば、被写体を含む領域）が入力されてもよい。

ここで、多視点画像の各々をｘ、パラメータ（例えば、重み係数）がθである統計モデルをｆ_θとすると、当該画像ｘを統計モデルｆ_θに入力することによって当該統計モデルｆ_θから出力されるぼけ値（予測値）ｂは、以下の式（４）のように記述される。

なお、上記したように画像ｘが統計モデルｆ_θに入力された場合、当該統計モデルｆ_θは、上記したように当該画像ｘを構成する画素毎にぼけ値を出力する。このため、上記したステップＳ３の処理が実行された場合には、多視点画像の各々から抽出された特徴点毎に取得された距離ｚ_０に対応するぼけ値ｂ（つまり、当該特徴点に対応する画素について出力されたぼけ値）を取得することができる。

次に、パラメータ計算部３５ｂは、上記した不定なパラメータ（スケールパラメータ及びカメラパラメータ）を計算する（ステップＳ４）。なお、ステップＳ４においては、ステップＳ２において取得された距離（スケール不定な距離）とステップＳ３において取得されたぼけ値とに基づいて不定なパラメータが計算される。

以下、ステップＳ４の処理について具体的に説明する。まず、実スケールに基づく距離ｚとぼけ値ｂとの間には以下の式（５）の関係がある。

式（５）におけるｆは焦点距離、ｖは撮像装置２に備えられるレンズ２１とイメージセンサ２２との距離、ｐは画素ピッチ、Ｆは絞り（値）である。

ここで、図１８は、被写体までの距離と当該距離に応じて生じるぼけ（のサイズ）との対応関係をピント位置（撮像装置２においてピントが合う位置）毎に示している。図１８に示すように、例えばぼけ値（ぼけ量）が同一であってもピント位置に応じて当該ぼけ値に対応する距離は異なる。

これは、ピント位置（ピントが合っている位置）が不明であると、距離をぼけ値に適切に変換することができず、ピントの不定性が存在することを意味している。

なお、図１９は、ＳｆＭ等で用いられている透視投影とレンズの公式とを１つの図で表している。図１９に示す第１領域６０１のうちの三角形の部分の相似性からは以下の式（６）（透視投影式）を求めることができる。

また、図１９に示す第１領域６０１と第２領域６０２との各々の三角形の部分の相似性からは以下の式（７）（レンズの公式）を導出することができる。

ここで、上記したように本実施形態における多視点画像の各々はピント位置が固定された状態で撮像装置２によって撮像されており、上記した式（６）におけるレンズ２１とイメージセンサ２２との距離（ピント距離）ｖは、ＳｆＭにおける撮像装置２の内部パラメータとして予め求められているものとする。この式（６）におけるｖは、上記した式（５）及び式（７）のｖと同一のものである。

すなわち、本実施形態におけるピントの不定性とは、カメラパラメータである焦点距離ｆが不定であることを意味している。

なお、式（５）における他のパラメータ（画素ピッチｐ及び絞りＦ）は、上記したレンズ２１とイメージセンサ２２との距離ｖと同様に予め求められているものとする。

ここで、上記した式（３）を式（５）に代入すると、以下の式（８）を得ることができる。

この式（８）は、スケールが不定の距離ｚ_０がパラメータβ及びｆ（つまり、スケールパラメータ及びカメラパラメータ）によってぼけ値に変換されることを表しており、更に、以下の式（９）のように表現することができる。

ところで、多視点画像の各々に含まれる特徴点毎に取得（計算）されたスケールが不定な距離ｚ_０から変換されるぼけ値ｂ（ｚ_０；β，ｆ）と、統計モデルから出力されたぼけ値ｂ（つまり、距離ｚ_０に対応するぼけ値ｂ）とは等しくなるはずである。このため、不定なパラメータであるスケールパラメータβ及びカメラパラメータｆを求める問題は、以下の式（１０）のような非線形回帰問題に帰着する。

式（１０）におけるＮはスケールが不定な距離（多視点画像の各々に含まれる特徴点毎に取得された距離）ｚ_０と当該距離に対応するぼけ値ｂの組み合わせの集合（サンプル全体）を表し、ｌは任意の距離関数を表している。

しかしながら、上記した式（１０）を用いてスケールパラメータβ及びカメラパラメータｆを計算しようとすると、大域解の保証されない非線形回帰問題を解かなければならない。そこで、本実施形態においては、式（１０）に対して変数変換を施し、線形回帰問題によりスケールパラメータβ及びカメラパラメータｆを計算する。

まず、上記した式（１０）における距離関数をＬ２ノルムとすることによって、以下の式（１１）のような最小二乗問題を考える。

次に、スケールが不定な距離ｚ_０の逆数ｄを新たな変数として用い、上記した式（１１）における係数を整理すると、上記した非線形回帰問題は、以下の式（１２）のような新たな変数を未知パラメータとした線形回帰問題に帰着する（図２０）。

なお、式（１２）における係数ａ_０´は以下の式（１３）のように定義され、ａ_１´は以下の式（１４）のように定義される。

また、上記した式（１３）及び式（１４）をカメラパラメータｆについて解くと、当該カメラパラメータｆは、式（１２）における係数ａ_０´を用いて以下の式（１５）によって表される。

更に、上記した式（１３）及び式（１４）をスケールパラメータβについて解くと、当該スケールパラメータβは、式（１２）における係数ａ_１´及び式（１５）におけるカメラパラメータｆを用いて以下の式（１６）によって表される。

すなわち、本実施形態においては、多視点画像の各々に含まれる被写体までの距離ｚ_０の逆数と当該画像を統計モデルに入力することによって統計モデルから出力されるぼけ値ｂとを線形回帰させ、上記した式（１２）により回帰パラメータ（係数ａ_０´及びａ_１´）を求めることにより、不定なパラメータであるスケールパラメータβ及びカメラパラメータｆを計算することができる。

再び図１５に戻ると、変換部３５ｃは、上記したステップＳ２において取得されたスケールが不定の距離をぼけ値に変換する（ステップＳ５）。

なお、ステップＳ５においては、上記した式（９）に対してステップＳ２において取得されたスケールが不定の距離ｚ_０、予め求められているパラメータ（レンズ２１とイメージセンサ２２との距離ｖ、画素ピッチｐ及び絞りＦ）、ステップＳ４において計算されたスケールパラメータβ及びカメラパラメータｆを適用することによって、当該スケールが不定な距離ｚ_０がぼけ値ｂに変換される。

ステップＳ５においては、多視点画像に含まれる特徴点毎に取得された距離の各々がぼけ値に変換される。以下の説明においては、多視点画像の各々に含まれる特徴点毎に取得された距離から変換されたぼけ値をぼけ値ｂ_ＧＴと称する。

ステップＳ５の処理が実行されると、学習部３５ｄは、ステップＳ１において取得された多視点画像及び当該ステップＳ５において距離から変換されたぼけ値ｂ_ＧＴを用いて、統計モデル格納部３１に格納されている統計モデルを学習（更新）させる（ステップＳ６）。統計モデルの学習においては、以下の式（１７）に示す損失関数Ｌ_θが用いられる。

式（１７）におけるＮはスケールが不定な距離が取得された多視点画像の各々に含まれる特徴点（に対応する画素）の集合を表し、ｉは当該集合に含まれる１つの特徴点（に対応する１つの画素）を表している。また、式（１７）におけるｂ_ＧＴ（ｉ）は、特徴点ｉについて取得されたスケール不定の距離から変換されたぼけ値ｂ_ＧＴを表している。更に、式（１７）におけるｆ_θ（ｘ（ｉ））は当該特徴点（に対応する画素）ｉを含む画像ｘが統計モデルに入力されることによって当該統計モデルから当該画素について出力されたぼけ値を表している。

このような式（１７）によれば、上記したｂ_ＧＴ（ｉ）とｆ_θ（ｘ（ｉ））との誤差（差分）を特徴点（に対応する画素）ｉ毎に計算し、当該計算された誤差の合計が得られる。本実施形態においては、以下の式（１８）により、式（１７）によって得られる誤差の合計が最も小さくなる統計モデルのパラメータθ´（つまり、更新後のパラメータ）を求める。

なお、本実施形態における統計モデルにニューラルネットワークまたは畳み込みニューラルネットワーク等が適用されている（つまり、統計モデルがニューラルネットワークまたは畳み込みニューラルネットワーク等で構成されている）場合、当該統計モデルの学習（パラメータθの更新）には、上記した式（１７）及び式（１８）を逆方向に計算する誤差逆伝播法が用いられる。この誤差逆伝播法によれば、損失の勾配が計算され、当該勾配に従ってパラメータθが更新される。

ステップＳ６においては、統計モデルのパラメータθを上記した式（１８）を用いて求められたパラメータθ´に更新することにより、多視点画像及びぼけ値ｂ_ＧＴを当該統計モデルに学習させることができる。

すなわち、本実施形態においては、スケールパラメータβ及びカメラパラメータｆを用いてスケールが不定な距離から変換されたぼけ値ｂ_ＧＴを正解値（教師データ）として、当該正解値と統計モデルから出力されるぼけ値との差分が小さくなるように統計モデルを修正していくことにより、適用先ドメイン（例えば、屋外環境等）に対する当該統計モデルの精度を向上させることができる。

なお、上記した式（１７）においてはＬ２ノルムを用いた損失関数（Ｌ２損失）が示されているが、例えば以下の式（１９）に示すようなＬ１ノルムを用いた損失関数（Ｌ１損失）を用いることも可能である。

更に、本実施形態においては、例えばフーバー損失と称される損失関数のような回帰に用いられる損失関数であれば、様々な損失関数を用いることができる。また、例えばフォトメトリック損失（Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017）のように、一方の画像から別の画像に対する誤差を測ることによって得られる損失を利用してもよい。

また、例えば統計モデルは当該統計モデルから出力されたぼけ値（当該統計モデルにおいて予測されたぼけ値）に対する不確実性の度合い（以下、不確実度と表記）を当該ぼけ値とともに出力するように構築されている場合があるが、このような場合には、当該不確実度を考慮した損失関数を用いてもよい。

次に、図２１のフローチャートを参照して、上記した図１５に示す処理が実行されることによって学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置３の処理手順の一例について説明する。

まず、撮像装置２（イメージセンサ２２）は、撮像装置２からの距離を測定する被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置２の光学系（レンズ２１）の収差の影響を受けた画像である。

画像処理装置３に含まれる画像取得部３２は、撮像画像を撮像装置から取得する（ステップＳ１１）。

次に、距離取得部３３は、ステップＳ１１において取得された撮像画像に関する情報を、統計モデル格納部３１に格納されている統計モデルに入力する（ステップＳ１２）。なお、ステップＳ１２において統計モデルに入力される撮像画像に関する情報は、当該撮像画像を構成する各画素の勾配データを含む。

ステップＳ１２の処理が実行されると、統計モデルにおいて被写体までの距離に応じて生じるぼけを示すぼけ値が予測され、当該統計モデルは、当該予測されたぼけ値を出力する。これにより、距離取得部３３は、統計モデルから出力されたぼけ値を取得する（ステップＳ１３）。なお、ステップＳ１３においては、ステップＳ１１において取得された撮像画像を構成する画素毎のぼけ値が取得される。

ステップＳ１３の処理が実行されると、距離取得部３３は、ステップＳ１３において取得されたぼけ値を距離に変換する（ステップＳ１４）。なお、ステップＳ１４においては、ステップＳ１３において取得されたぼけ値をｂ、被写体までの距離をｚとし、上記した式（５）を用いて当該ぼけ値から距離を計算することができる。上記したようにステップＳ１３においては撮像画像を構成する画素毎のぼけ値が取得されているため、ステップＳ１４の処理は当該画素毎のぼけ値に対して実行される。すなわち、ステップＳ１４においては、撮像画像を構成する画素毎にぼけ値が距離に変換される。なお、ステップＳ１４の処理が実行される場合において、ぼけ値を距離に変換するために必要なパラメータ（撮像装置２の焦点距離ｆ、レンズ２１イメージセンサとの距離ｖ、画素ピッチｐ及び絞りＦ）は予め求められているものとする。

ステップＳ１４の処理が実行されると、出力部３４は、当該ステップＳ１４においてぼけ値から変換された距離を示す距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する（ステップＳ１５）。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。

ここで説明したように統計モデルから出力されるぼけ値を距離に変換する構成によれば、当該変換時に距離をキャリブレーションすることによって、様々な環境において撮像された撮像画像に対して適切に対応することができ、汎用性が向上する。

上記したように本実施形態においては、事前学習統計モデル（統計モデル格納部３１に格納されている統計モデル）が事前にぼけを学習した第１ドメイン（例えば、室内環境等）とは異なる第２ドメイン（例えば、屋外環境等）で同一の被写体を多視点から撮像した多視点画像（複数の第２画像）を取得し、当該多視点画像を用いて統計モデルに学習させる。

具体的には、多視点画像から当該多視点画像の各々に含まれる被写体までの距離を取得し、当該多視点画像の各々に含まれる被写体までの距離を当該距離に応じて生じるぼけを示すぼけ値に変換し、当該多視点画像及び当該距離から変換されたぼけ値を統計モデルに学習させる。

本実施形態においては、上記した構成により、適用先ドメインで撮像された多視点画像を取得（収集）してオンラインで統計モデルを学習させることができるため、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能となる。

なお、上記した多視点画像から取得される被写体までの距離はスケールが不定な距離であるため、当該距離をそのまま統計モデルの学習に利用することはできないが、本実施形態においては、多視点画像の各々に含まれる被写体までの距離と当該多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを整合させることによって、当該距離を実スケールに基づく距離に変換するためのスケールパラメータ（第１パラメータ）及び多視点画像を撮像した撮像装置において不定なカメラパラメータ（第２パラメータ）が計算される。多視点画像の各々に含まれる被写体までの距離（スケールが不定な距離）は、このように計算されたスケールパラメータ及びカメラパラメータを用いてぼけ値に変換される。

なお、本実施形態において、スケールパラメータ及びカメラパラメータは、多視点画像の各々に含まれる被写体までの距離の逆数と当該多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させることで計算される。

本実施形態においては、上記したように多視点画像から取得される距離がスケールが不定な距離であっても、当該距離を適切なぼけ値に変換し、当該ぼけ値を正解値として用いることで質の高い統計モデルの学習を行うことができる。

なお、本実施形態においては正解ラベル（正解値）が付されていない学習用画像（多視点画像）のみを用いて統計モデルを学習させる構成について説明したが、このような学習は一般的に教師なし学習と称される。しかしながら、本実施形態においては、学習用画像の一部（を構成する画素）に正解ラベルが付されている半教師あり学習（つまり、被写体までの距離が既知である第３画像を更に用いて統計モデルを学習させる構成）を採用してもよい。

具体的には、図１５に示すステップＳ５においてはスケールが不定な距離がぼけ値に変換されるが、ステップＳ１において取得（収集）された多視点画像によっては、当該ぼけ値に偏り（つまり、学習の偏り）が生じてしまうことがある。この場合、スケールが不定な距離から変換されたぼけ値が例えばピント位置より手前の被写体に生じるぼけのみを示すまたは当該ピント位置より奥の被写体に生じるぼけのみを示すような場合が考えられるが、このようなぼけ値（データ）のみで学習すると、当該ぼけ値（によって示されるぼけ）とは異なるぼけが生じている画像が撮像画像として取得された場合に対応することができない。このため、上記したピント位置より手前の被写体に生じるぼけを示すぼけ値及び当該ピント位置より奥の被写体に生じるぼけを示すぼけ値をバランスよく収集した正解値（正解ラベル）を上記した多視点画像と同時に用いることで、上記した学習の偏り（アンバランス）を解消することができる。

なお、本実施形態においては上記したように多視点画像を用いて統計モデルを学習させる構成であればよく、本実施形態において説明した損失関数等は適宜変更されても構わない。

また、光学系の収差により画像に生じるぼけは位置依存性を有する（画像上の位置によってぼけのサイズ及び形状等が異なる）が、本実施形態においては、ＳｆＭにおいて抽出された特徴点（に対応する画素）について取得された距離から変換されたぼけを統計モデルが学習する。このため、特徴点（つまり、被写体）が含まれない領域に生じるぼけについては効率よく統計モデルを学習させることができない場合がある。この場合、統計モデルの学習に用いられた多視点画像を蓄積しておき、当該多視点画像から抽出された特徴点の分布に基づいて当該特徴点が少ない領域（例えば、当該特徴点の数が予め定められた値未満である領域等）を出力するような構成としてもよい。このような構成によれば、出力された領域に被写体が含まれるような多視点画像を撮像するように例えば撮像装置２を使用するユーザに指示する（通知する）ことができ、効率的に統計モデルを学習させることが可能となる。また、上記したように出力された領域に特徴点を含む多視点画像を自動的に選択し、当該選択された多視点画像を用いて学習を行うようにしてもよい。

なお、本実施形態においては、被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するように統計モデルを学習させ、当該統計モデルから出力されたぼけ値を距離に変換することによって距離情報を取得するものとして説明したが、当該統計モデルは、画像を入力として当該画像に含まれる被写体までの距離を出力するように学習させていてもよい。本実施形態においてこのような距離を出力する統計モデルを学習させる場合には、多視点画像から取得された被写体までの距離（スケールが不定の距離）を上記した図１５に示すステップＳ４において計算されたスケールパラメータβを用いて実スケールの距離に変換し、当該実スケールの距離を多視点画像とともに統計モデルに学習させる構成とすることができる。

また、本実施形態においては、統計モデルが光学系の収差の影響を受けた画像（当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置２の開口部に設けられたフィルタ（カラーフィルタ等）を透過した光に基づいて生成される画像（つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものであってもよい。

（第２実施形態）
次に、第２実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

前述した第１実施形態においては単一のシーンにおいて撮像された多視点画像（つまり、１組の多視点画像）を用いて統計モデルを学習させる場合について説明したが、本実施形態は、例えばＭ個のシーンにおいて撮像された多視点画像（つまり、Ｍ組の多視点画像）を用いて統計モデルを学習させる点で、当該第１実施形態とは異なる。

なお、本実施形態におけるシーンとは、特定の被写体までの距離（スケールが不定の距離）を取得するために撮像装置２によって撮像される多視点画像の単位である。すなわち、本実施形態においてＭ個のシーンにおいて多視点画像が撮像されるとは、例えばＭ個の被写体の各々に対して多視点画像（複数の画像）が撮像されるような場合が含まれる。

また、本実施形態におけるＭ組の多視点画像は、ピントが固定された状態で撮像されているものとする。つまり、本実施形態においては、多視点画像の組毎にスケールパラメータβは異なるが、カメラパラメータｆは同一である場合を想定している。

以下、本実施形態において統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。ここでは、便宜的に、前述した図１５を用いて説明する。

まず、距離取得部３５ａは、画像取得部３２によって取得されたＭ組の多視点画像（撮像装置２で撮像された画像）を学習用画像として取得する（ステップＳ１）。

ステップＳ１の処理が実行されると、距離取得部３５ａは、当該ステップＳ１において取得された多視点画像から、当該Ｍ組の多視点画像の各々に含まれる被写体までの距離（スケールが不定な距離）を取得する（ステップＳ２）。

この場合、多視点画像の組毎に前述した第１実施形態において説明したステップＳ２の処理が実行されればよい。なお、ステップＳ２の処理は前述した第１実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

ここで、本実施形態においては、Ｍ組の多視点画像の各々に含まれる特徴点毎に距離が取得（計算）されるが、当該距離を実スケールに基づく距離に変換するためのスケールパラメータは、多視点画像の組（つまり、多視点画像が撮像されたシーン）毎に異なる。この場合、ステップＳ２において取得された距離ｚ_０と実スケールに基づく距離ｚとは以下の式（２０）の関係にある。

上記した式（２０）のβ_ｊ（ｊ＝０，１，…，Ｍ－１）は、シーン毎に独立したスケールパラメータである。

ステップＳ２の処理が実行されると、ステップＳ３の処理が実行される。このステップＳ３の処理は前述した第１実施形態において説明した通りであるが、本実施形態においては、Ｍ組の多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値が取得される。

次に、パラメータ計算部３５ｂは、不定なパラメータ（スケールパラメータβ_ｊ及びカメラパラメータｆ）を計算する（ステップＳ４）。

ここで、前述した第１実施形態では、単一のシーン（つまり、スケールパラメータβが１つ）であり、かつ、ピントが固定されている（つまり、カメラパラメータｆが１つ）という条件の下で線形回帰からクローズドフォームで不定パラメータを計算することができるが、本実施形態のように複数（Ｍ個）のシーンの各々で多視点画像が撮像されている場合、スケールパラメータが複数存在するため、当該第１実施形態のようなクローズドフォーム解は存在しない。

そこで、本実施形態においては、スケールパラメータβ_ｊ及びカメラパラメータｆを計算するために、以下に説明するように非線形回帰問題を定式化する。

まず、前述した式（９）により、本実施形態においてスケールが不定な距離ｚ_０からぼけ値ｂを求める以下の式（２１）を得ることができる。

ここで、Ｍ組の多視点画像の各々に含まれる特徴点毎に取得（計算）されたスケールが不定な距離ｚ_０から変換されるぼけ値ｂ（ｚ_０；β_ｊ，ｆ）と、統計モデルから出力されたぼけ値ｂ（つまり、距離ｚ_０に対応するぼけ値ｂ）とは等しくなるはずである。このため、不定なパラメータであるスケールパラメータβ_ｊ及びカメラパラメータｆを求める問題は、以下の式（２２）のような非線形回帰問題に帰着する。

式（２２）におけるＮ_ｊはＭ個のシーンのうちのシーンｊにおいて撮像された多視点画像の各々に含まれる特徴点毎に取得されたスケールが不定な距離ｚ_０と当該距離ｚ_０に対応するぼけ値ｂとの組み合わせの集合（サンプル全体）を表し、ｌは任意の距離関数を表している。

上記した式（２２）は不定なパラメータ（スケールパラメータβ_ｊ及びカメラパラメータｆ）に関する非線形最適化問題であり、当該式（２２）における距離関数ｌをＬ２ノルムとすると、以下の式（２３）のような非線形最小二乗問題となる。

このような式（２３）は、例えばＬｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ法（J. J. More, “The Levenberg-Marquardt Algorithm: Implementation and Theory,” Numerical Analysis, ed. G. A. Watson, Lecture Notes in Mathematics 630, Springer Verlag, pp. 105-116, 1977）で解を求めることができる。このＬｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ法以外にも、例えばＴｒｕｓｔＲｅｇｉｏｎＲｅｆｌｅｃｔｉｖｅアルゴリズム（M. A. Branch, T. F. Coleman, and Y. Li, “A Subspace, Interior, and Conjugate Gradient Method for Large-Scale Bound-Constrained Minimization Problems,” SIAM Journal on Scientific Computing, Vol. 21, Number 1, pp 1-23, 1999）等が用いられてもよい。更に、上記した距離関数として「B. Triggs et. al., “Bundle Adjustment - A Modern Synthesis”, Proceedings of the International Workshop on Vision Algorithms: Theory and Practice, pp. 298-372, 1999」に開示されているようなロバスト関数を用いることも可能である。

このように本実施形態においては、Ｍ組の多視点画像の各々に含まれる被写体までのスケールが不定な距離（特徴点毎に取得された距離）とＭ組の多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とに基づく非線形最適化によってスケールパラメータβ_ｊ及びカメラパラメータｆを計算することができる。

なお、上記した非線形最適化問題は局所解を与えるものであり、大域解を与えるものではない。このため、スケールパラメータβ_ｊ及びカメラパラメータｆの初期値によっては誤差が大きくなる場合がある。

このため、本実施形態においては、前述した第１実施形態において説明した線形回帰問題を利用することによって決定（計算）される初期値を用いるものとする。

具体的には、前述した第１実施形態においては、単一のシーンにおいて撮像された１組の多視点画像に関して、前述した式（１２）、式（１５）及び式（１６）を用いてスケールパラメータβ及びカメラパラメータｆを計算することができるが、このような計算を多視点画像の組（つまり、シーンｊ＝０，１，…，Ｍ－１）毎に実施する。これによれば、前述したように多視点画像の各々に含まれる被写体までの距離の逆数と当該多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させることで、シーンｊ毎にスケールパラメータβ及びカメラパラメータｆが計算される。

この場合、シーンｊ毎に計算されたカメラパラメータｆ（つまり、Ｍ個のカメラパラメータｆ）の平均値を、上記した式（２３）におけるカメラパラメータｆの初期値として決定する。なお、上記したシーンｊ毎に計算されたスケールパラメータβは、それぞれスケールパラメータβ_ｊの初期値として用いる。

本実施形態においては、このように決定（計算）されたスケールパラメータβ_ｊ及びカメラパラメータｆの初期値を用いて上記した非線形最適化問題（つまり、式（２３））を解くことによって、スケールパラメータβ_ｊ及びカメラパラメータｆを計算する。

このようなスケールパラメータβ_ｊ及びカメラパラメータｆの初期値を用いた場合には、非線形最適化問題を解くことによって計算されるスケールパラメータβ_ｊ及びカメラパラメータｆに大きな誤差が生じることを抑制することができる。

ステップＳ４の処理が実行されると、ステップＳ５及びＳ６の処理が実行される。なお、ステップＳ５及びＳ６の処理は前述した第１実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

なお、ステップＳ５においては、上記した式（２１）に対してステップＳ２において取得されたスケールが不定の距離ｚ_０、予め定められているパラメータ（レンズ２１とイメージセンサ２２との距離ｖ、画素ピッチｐ及び絞りＦ）、ステップＳ４において計算されたスケールパラメータβ_ｊ及びカメラパラメータｆを適用することによって、当該スケールが不定な距離ｚ_０がぼけ値ｂに変換されればよい。

なお、本実施形態において説明したようにＭ個の多視点画像が撮像された場合であっても、シーン毎に第１実施形態と同様の処理を実行することによって計算されたスケールパラメータβ及びカメラパラメータｆ（つまり、シーン毎に独立して計算されたスケールパラメータβ及びカメラパラメータｆ）を用いて統計モデルを学習させることが考えられる。しかしながら、このような構成とした場合には、シーン毎に異なるカメラパラメータｆが計算されることになり、カメラパラメータｆが固定されている（共通している）という拘束が反映されず、学習の精度が低下する。よって、本実施形態においては、上記した非線形最適化問題を解くことによって計算されるスケールパラメータβ_ｊ及びカメラパラメータｆを用いて、精度の高い学習を実現する。

撮像画像から距離情報を取得する際の画像処理装置３の処理については前述した第１実施形態と同様であるため、ここではその詳しい説明を省略する。

上記したように本実施形態においては、Ｍ組の多視点画像（複数の第２画像）の各々に含まれる被写体までの距離と当該多視点画像の各々を統計モデル（事前学習統計モデル）に入力することによって当該統計モデルから出力されるぼけ値とに基づく非線形最適化によってスケールパラメータβ_ｊ及びカメラパラメータｆ（第１及び第２パラメータ）を計算する。

本実施形態においては、このような構成により、適用先ドメインで複数（例えば、Ｍ個）のシーンにおいて多視点画像が撮像された場合であっても、当該撮像された多視点画像を取得（収集）してオンラインで統計モデルを学習させることができるため、例えば単一のシーンにおいて撮像された多視点画像毎に学習を行う場合と比較して、より学習の容易性及び効率性を向上させることができる。

更に、本実施形態においては、第１実施形態において説明した処理を実行する（つまり、スケールが不定の距離の逆数と多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させる）ことによりスケールパラメータβ_ｊ及びカメラパラメータｆの初期値を計算し、当該計算された初期値を用いてスケールパラメータβ_ｊ及びカメラパラメータｆを計算する。このような構成によれば、誤差の小さいスケールパラメータβ_ｊ及びカメラパラメータｆを得ることができるため、結果として学習の精度を向上させることができる。

（第３実施形態）
次に、第３実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

前述した第１実施形態においては、ピントが固定された状態で撮像された多視点画像を用いて統計モデルを学習させる場合について説明したが、本実施形態は、例えばオートフォーカス機能等によってピントを変化させながら撮像された多視点画像（Ｋ個の画像）を用いて統計モデルを学習させる点で、当該第１実施形態とは異なる。

なお、本実施形態における多視点画像は、単一のシーンにおいて撮像されているものとする。つまり、本実施形態においては、多視点画像の各々におけるスケールパラメータβは同一であるが、カメラパラメータｆが異なる場合を想定している。

まず、距離取得部３５ａは、画像取得部３２によって取得された多視点画像（撮像装置２で撮像された画像）学習用画像として取得する（ステップＳ１）。なお、ステップＳ１において取得される多視点画像は、Ｋ個の画像であるものとする。

なお、ステップＳ２の処理は前述した第１実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

ステップＳ２の処理が実行されると、ステップＳ３の処理が実行される。このステップＳ３の処理は前述した第１実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

次に、パラメータ計算部３５ｂは、不定なパラメータ（スケールパラメータβ及びカメラパラメータｆ_ｋ）を計算する（ステップＳ４）。なお、カメラパラメータｆ_ｋ（ｋ＝０，１，…，Ｋ－１）は、ピントを変化させながら撮像された多視点画像（Ｋ個の画像）のうちの画像ｋが撮像された際の撮像装置２の焦点距離である。

ここで、前述した第１実施形態では、単一のシーン（つまり、スケールパラメータβが１つ）であり、かつ、ピントが固定されている（つまり、カメラパラメータｆが１つ）という条件の下で線形回帰からクローズドフォームで不定パラメータを計算することができるが、本実施形態のようにピントを変換させながら多視点画像が撮像されている場合、カメラパラメータｆが多視点画像の各々によって異なる（つまり、カメラパラメータが複数存在する）ため、当該第１実施形態のようなクローズドフォーム解は存在しない。

なお、上記したようにオートフォーカス機能によってピントを変化させる場合、画像毎にレンズ２１とイメージセンサ２２との距離ｖ及びカメラパラメータｆが変化するが、当該距離ｖは撮像装置２（カメラ）の内部パラメータとして画像毎に求めることができるものとする。

そこで、本実施形態においては、スケールパラメータβ及びカメラパラメータｆ_ｋを計算するために以下に説明するように非線形回帰問題を定式化する。

まず、前述した式（９）により、本実施形態においてスケールが不定な距離からぼけ値ｂを求める以下の式（２４）を得ることができる。

ここで、多視点画像の各々に含まれる特徴点毎に取得（計算）されたスケールが不定な距離ｚ_０から変換されるぼけ値ｂ（ｚ_０；β，ｆ_ｋ）と、統計モデルから出力されたぼけ値ｂ（つまり、距離ｚ_０に対応するぼけ値ｂ）とは等しくなるはずである。このため、不定なパラメータであるスケールパラメータβ及びカメラパラメータｆ_ｋを求める問題は、以下の式（２５）のような非線形回帰問題に帰着する。

式（２５）におけるＮ_ｋはＫ個の画像（多視点画像）のうちの１つの画像ｋに含まれる特徴点毎に取得されたスケールが不定な距離ｚ_０と当該距離ｚ_０に対応するぼけ値ｂとの組み合わせの集合（サンプル全体）を表し、ｌは任意の距離関数を表している。

上記した式（２５）は不定なパラメータ（スケールパラメータβ及びカメラパラメータｆ_ｋ）に関する非線形最適化問題であり、当該式（２５）における距離関数ｌをＬ２ノルムとすると、以下の式（２６）のような非線形最小二乗問題となる。

このような式（２６）は、例えば上記したＬｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ法で解を求めることができる。このＬｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ法以外にも、例えばＴｒｕｓｔＲｅｇｉｏｎＲｅｆｌｅｃｔｉｖｅアルゴリズム等が用いられてもよい。更に、上記した距離関数としてロバスト関数を用いることも可能である。

このように本実施形態においては、多視点画像（Ｋ個の画像）の各々に含まれる被写体までのスケールが不定な距離（特徴点毎に取得された距離）と当該多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とに基づく非線形最適化によってスケールパラメータβ及びカメラパラメータｆ_ｋを計算することができる。

なお、上記した非線形最適化問題は局所解を与えるものであり、大域解を与えるものではない。このため、スケールパラメータβ及びカメラパラメータｆ_ｋの初期値によっては誤差が大きくなる場合がある。

具体的には、前述した第１実施形態においては、単一のシーンにおいて撮像された１組の多視点画像に関して、前述した式（１２）、式（１５）及び式（１６）を用いてスケールパラメータβ及びカメラパラメータｆを計算することができるが、このような計算を多視点画像（Ｋ個の画像）の各々について実施する。これによれば、前述したように多視点画像の各々に含まれる被写体までの距離の逆数と当該画像を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させることで、画像ｋ毎にスケールパラメータβ及びカメラパラメータｆが計算される。

この場合、画像ｋ毎に計算されたスケールパラメータβ（つまり、Ｋ個のスケールパラメータβ）の平均値を、上記した式（２４）におけるスケールパラメータβの初期値として決定する。なお、上記した画像ｋ毎に計算されたカメラパラメータｆは、それぞれカメラパラメータｆ_ｋの初期値として用いる。

本実施形態においては、このように決定（計算）されたスケールパラメータβ及びカメラパラメータｆ_ｋの初期値を用いて上記した非線形最適化問題（つまり、式（２６））を解くことによって、スケールパラメータβ及びカメラパラメータｆ_ｋを計算する。

このようなスケールパラメータβ及びカメラパラメータｆ_ｋの初期値を用いた場合には、非線形最適化問題を解くことによって計算されるスケールパラメータβ及びカメラパラメータｆ_ｋに大きな誤差が生じることを抑制することができる。

なお、ステップＳ５においては、上記した式（２４）に対してステップＳ２において取得されたスケールが不定の距離ｚ_０、予め定められているパラメータ（レンズ２１とイメージセンサ２２との距離ｖ、画素ピッチｐ及び絞りＦ）、ステップＳ４において計算されたスケールパラメータβ及びカメラパラメータｆ_ｋを適用することによって、当該スケールが不定な距離ｚ_０がぼけ値ｂに変換されればよい。

なお、本実施形態において説明したようにオートフォーカス機能を用いて多視点画像（Ｋ個の画像）が撮像された場合であっても、当該画像毎に第１実施形態と同様の処理を実行することによって計算されたスケールパラメータβ及びカメラパラメータｆ（つまり、画像毎に独立して計算されたスケールパラメータβ及びカメラパラメータｆ）を用いて統計モデルを学習させることが考えられる。しかしながら、このような構成とした場合には、画像毎に異なるスケールパラメータβが計算されることになり、スケールパラメータβが固定されている（共通している）という拘束が反映されず、学習の精度が低下する。よって、本実施形態においては、上記した非線形最適化問題を解くことによって計算されるスケールパラメータβ及びカメラパラメータｆ_ｋを用いて、精度の高い学習を実現する。

上記したように本実施形態においては、多視点画像（Ｋ個の画像）の各々に含まれる被写体までの距離と当該多視点画像の各々を統計モデル（事前学習統計モデル）に入力することによって当該統計モデルから出力されるぼけ値とに基づく非線形最適化によってスケールパラメータβ及びカメラパラメータｆ_ｋ（第１及び第２パラメータ）を計算する。

本実施形態においては、このような構成により、適用先ドメインでオートフォーカス機能等によってピントを変化させながら多視点画像が撮像された場合であっても、当該撮像された多視点画像を取得（収集）してオンラインで統計モデルを学習させることができるため、例えばピントを固定した状態で撮像された多視点画像を学習する場合と比較して、より学習用の容易性及び効率性向上させることができる。

更に、本実施形態においては、第１実施形態において説明した処理を実行する（つまり、スケールが不定の距離の逆数と多視点画像の各々を統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させる）ことによりスケールパラメータβ及びカメラパラメータｆ_ｋの初期値を計算し、当該計算された初期値を用いてスケールパラメータβ及びカメラパラメータｆ_ｋを計算する。このような構成によれば、誤差の小さいスケールパラメータβ及びカメラパラメータｆ_ｋを得ることができるため、結果として学習の精度を向上させることができる。

以上述べた少なくとも１つの実施形態によれば、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…測距システム、２…撮像装置、３…画像処理装置、２１…レンズ、２２…イメージセンサ、３１…統計モデル格納部、３２…画像取得部、３３…距離取得部、３４…出力部、３５…学習処理部、３５ａ…距離取得部、３５ｂ…パラメータ計算部、３５ｃ…変換部、３５ｄ…学習部、２２１…第１センサ、２２２…第２センサ、２２３…第３センサ、３０１…ＣＰＵ、３０２…不揮発性メモリ、３０３…ＲＡＭ、３０３Ａ…画像処理プログラム、３０４…通信デバイス、３０５…バス。

Claims

第１ドメインで撮像された第１画像に含まれる第１被写体までの距離に応じて当該第１画像に生じるぼけを学習することによって生成された統計モデルを学習させるために画像処理装置が実行する学習方法であって、
前記第１ドメインとは異なる第２ドメインで同一の第２被写体を多視点から撮像した複数の第２画像を取得することと、
前記複数の第２画像の各々から前記第２被写体までのスケールが不定な距離を取得することと、
前記複数の第２画像の各々から取得された距離と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを整合させることによって、当該距離を実スケールに基づく距離に変換するための第１パラメータ及び前記複数の第２画像を撮像した撮像装置において不定な第２パラメータを計算することと、
前記第１及び第２パラメータを用いて前記複数の第２画像の各々から取得された距離を当該距離に応じて生じるぼけを示すぼけ値に変換することと、
前記複数の第２画像及び前記変換されたぼけ値を前記統計モデルに学習させることと
を具備する学習方法。
前記計算することは、前記複数の第２画像の各々から取得された距離の逆数と当該複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させることで前記第１及び第２パラメータを計算することを含む請求項１記載の学習方法。
前記計算することは、前記複数の第２画像の各々から取得された距離と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とに基づく非線形最適化によって前記第１及び第２パラメータを計算することを含む請求項１記載の学習方法。
前記計算することは、前記複数の第２画像の各々から取得された距離の逆数と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを線形回帰させることにより前記第１及び第２パラメータの初期値を計算し、当該計算された初期値を用いて前記第１及び第２パラメータを計算することを含む請求項３記載の学習方法。
前記複数の第２画像の各々に含まれている第２被写体の特徴点を抽出することと、
前記第２画像の各々において前記第２被写体の特徴点の数が予め定められた値未満である領域を出力することと
を更に具備し、
前記距離を取得することは、前記抽出された第２被写体の特徴点毎に当該第２被写体までの距離を取得することを含む
請求項１～４のいずれか一項に記載の学習方法。
第３被写体までの距離が既知である第３画像を取得することを更に具備し、
前記学習させることは、前記複数の第２画像及び前記第３画像を用いて前記統計モデルを学習させることを含む
請求項１～５のいずれか一項に記載の学習方法。
第１ドメインで撮像された第１画像に含まれる第１被写体までの距離に応じて当該第１画像に生じるぼけを学習することによって生成された統計モデルを学習させるプログラムであって、
コンピュータに、
前記第１ドメインとは異なる第２ドメインで同一の第２被写体を多視点から撮像した複数の第２画像を取得することと、
前記複数の第２画像の各々から前記第２被写体までのスケールが不定な距離を取得することと、
前記複数の第２画像の各々から取得された距離と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを整合させることによって、当該距離を実スケールに基づく距離に変換するための第１パラメータ及び前記複数の第２画像を撮像した撮像装置において不定な第２パラメータを計算することと、
前記第１及び第２パラメータを用いて前記複数の第２画像の各々から取得された距離を当該距離に応じて生じるぼけを示すぼけ値に変換することと、
前記複数の第２画像及び前記変換されたぼけ値を前記統計モデルに学習させることと
を実行させるためのプログラム。
第１ドメインで撮像された第１画像に含まれる第１被写体までの距離に応じて当該第１画像に生じるぼけを学習することによって生成された統計モデルを学習させる画像処理装置において、
前記第１ドメインとは異なる第２ドメインで同一の第２被写体を多視点から撮像した複数の第２画像を取得する第１取得手段と、
前記複数の第２画像の各々から前記第２被写体までのスケールが不定の距離を取得する第２取得手段と、
前記複数の第２画像の各々から取得された距離と前記複数の第２画像の各々を前記統計モデルに入力することによって当該統計モデルから出力されるぼけ値とを整合させることによって、当該距離を実スケールに基づく距離に変換するための第１パラメータ及び前記複数の第２画像を撮像した撮像装置において不定な第２パラメータを計算する計算手段と、
前記第１及び第２パラメータを用いて前記複数の第２画像の各々から取得された距離を当該距離に応じて生じるぼけを示すぼけ値に変換する変換手段と、
前記複数の第２画像及び前記変換されたぼけを前記統計モデルに学習させる学習手段と
を具備する画像処理装置。