JP2023035903A

JP2023035903A - 深度推定方法、深度推定装置

Info

Publication number: JP2023035903A
Application number: JP2022129542A
Authority: JP
Inventors: 良太朗角田; Ryotaro Tsunoda
Original assignee: Morpho Inc
Current assignee: Morpho Inc
Priority date: 2021-08-30
Filing date: 2022-08-16
Publication date: 2023-03-13

Abstract

【課題】高品質な深度マップを取得するための技術を提供することである。【解決手段】複数の深度マップを取得することと、該複数の深度マップに含まれる距離値をそのまま用いる場合と比べて、隣接する画素の距離値の差の平均を減少させつつ該複数の深度マップを合成して、１つの出力深度マップを出力することと、を備える。【選択図】図１

Description

本開示は、深度推定方法と深度推定装置に関する。

カメラ等の撮像デバイスによって撮像された画像は、被写体の輝度情報を表す一方、ＴｏＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）センサ、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）等の測距センサによって検知された深度マップ（深度画像とも呼ばれる）は、測距センサと被写体との間の距離又は奥行き情報を表す。このような深度マップは、例えば、撮像した画像に対する写真加工、車両やロボット等の自律動作のための物体検出などに利用されうる。

ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）技術の進化によって、撮像デバイスから取得された画像から、被写体と撮像デバイスとの間の距離、すなわち、奥行きを表す深度マップを推定する深度推定モデルが開発されている。例えば、ＭｉＤａＳ（https://github.com/intel-isl/MiDaS）、ＤＰＴ（https://github.com/intel-isl/DPT）などが、単眼画像に対する深度推定モデルとして知られている。

一方、近年のスマートフォン、タブレット等のモバイル端末の高機能化に伴って、ＴｏＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）センサ、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）センサ等の測距センサが、モバイル端末に備えられるようになってきている。例えば、特許文献１には、ＴｏＦセンサとステレオカメラとによって取得された深度マップに対して位置合わせを行って、最適化された深度マップを出力する処理システムが開示されている。

特開２０２０－０４２７７２号公報

しかしながら、ＴｏＦセンサで取得された深度マップは、典型的には、正確な距離値を有する一方、多くの欠損画素を含みうる。一方、ディープニューラルネットワークに基づく深度推定モデルは、全体的に一貫性のある深度マップを出力する一方、正確な距離値を取得できず、また、細かいテクスチャを読み取ることができないケースがある。

このため、特許文献１の手法のように、カメラから取得された深度マップによって欠損画素を単に補完するだけでは、ＴｏＦセンサで取得された距離値を有する画素領域と、それ以外の画素領域との境界が不自然に目立ってしまう。つまり、高品質な深度マップを取得することができない。

上記問題点に鑑み、本開示の１つの課題は、高品質な深度マップを取得するための技術を提供することである。

本開示の一態様は、複数の深度マップを取得することと、前記複数の深度マップに含まれる距離値をそのまま用いる場合と比べて、隣接する画素の距離値の差の平均を減少させつつ前記複数の深度マップを合成して、１つの出力深度マップを出力することと、を備える。

本開示によれば、高品質な深度マップを取得するための技術を提供することができる。

本開示の一実施例による深度推定処理を示す概略図である。本開示の一実施例による深度推定システムを示すブロック図である。本開示の一実施例による深度マップを示す図である。本開示の一実施例による深度推定装置のハードウェア構成を示すブロック図である。本開示の一実施例による深度推定装置の機能構成を示すブロック図である。本開示の一実施例による深度推定処理を示すフローチャートである。本開示の他の実施例による深度推定処理を示す概略図である。

以下、図面を参照して本開示の実施の形態を説明する。

以下の実施例では、測定対象領域の画像（例えば、ＲＧＢ画像）から深度推定モデルによって推論された深度マップ又は深度画像（以降、深度マップと総称する）と、測距センサから取得された深度マップとを、後述される制約を含むコスト関数に従って合成する深度推定装置が開示される。例えば、本開示の深度推定装置は、測距センサによって取得された深度マップをＲＧＢ画像と同等な画像レベルまで補完するＤｅｐｔｈＣｏｍｐｌｅｔｉｏｎを実現するのに利用されうる。なお、本明細書を通じて、深度マップとは、画素毎に距離値を有する２次元データである。

［概略］
後述される本開示の一実施例を概略すると、図１に示されるように、深度推定装置１００は、測定対象領域に対してＴｏＦセンサによって取得された深度マップＴと、訓練済み深度推定モデルによって当該測定対象領域のＲＧＢ画像から推論された深度マップＰとを合成し、合成された深度マップＯを生成する。このとき、深度推定装置１００は、コスト関数を利用して、深度マップＯの各画素について、対応する画素の距離値が深度マップＴに存在する場合には当該深度マップＴの距離値を深度マップＯの距離値に一致させ、対応する画素の距離値が深度マップＴに存在しない場合には当該深度マップＯの距離値を深度マップＰの距離値に一致させるように、また、深度マップＯの当該画素の距離値を隣接画素の距離値に近づけるように、深度マップＯを構成する。

このような合成を実現するため、深度推定装置１００は、
（制約１）注目画素に対応する距離値が深度マップＴに存在する場合、深度マップＯにおける注目画素の距離値を深度マップＴの距離値に近づける。
（制約２）注目画素に対応する距離値が深度マップＴに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＰの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の近傍画素の距離値に近づける。
という３つの制約を含むコスト関数に従って深度マップＴと深度マップＰとを合成する。

後述される実施例の深度推定装置１００によると、深度マップＴにおいて距離値が欠損していない画素については、深度マップＴの距離値を利用し、深度マップＴにおいて距離値が欠損している画素については、深度マップＰの距離値を利用して深度マップＯを構成する。この結果、大域的に高精度な深度マップＯを取得できる。また、深度マップＯの各画素の距離値を隣接画素の距離値に近づけるように深度マップＯを構成するため、隣接画素間で平滑化された深度マップＯを取得することができる。

[深度推定システム]
まず、図２～４を参照して、本開示の一実施例による深度推定システムを説明する。図２は、本開示の一実施例による深度推定システムを示すブロック図である。

図２に示されるように、深度推定システム１０は、カメラ２０、ＴｏＦセンサ３０、前処理装置４０及び深度推定装置１００を有する。

カメラ２０は、測定対象領域を撮像し、当該測定対象領域のＲＧＢ画像を生成する。例えば、カメラ２０は、単眼カメラであってもよく、被写体を含む測定対象領域の単眼のＲＧＢ画像を生成する。生成されたＲＧＢ画像は、前処理装置４０にわたされる。しかしながら、本開示による深度推定システムは、カメラ２０に限定されず、測定対象領域を撮像する他の何れかのタイプの撮像デバイスを備えてもよい。また、本開示による深度推定システムは、ＲＧＢ画像に限定されず、前処理装置４０及び推論エンジン４１によって深度マップに変換可能な他の形式の画像データを取得又は処理してもよい。

ＴｏＦセンサ３０は、測定対象領域における各被写体とＴｏＦセンサ３０との間の距離（奥行き）を検知し、ＴｏＦデータ又はＴｏＦ画像（以降、ＴｏＦデータと総称する）を生成する。生成されたＴｏＦデータは、前処理装置４０にわたされる。しかしながら、本開示による深度推定システムは、ＴｏＦセンサ３０に限定されず、ＬｉＤＡＲセンサなど、深度マップを生成可能な他の何れか適切なタイプの測距センサを備えてもよく、備えられた測距センサのタイプに対応する測距データを取得してもよい。

前処理装置４０は、カメラ２０から取得したＲＧＢ画像を前処理し、推論エンジン４１による推論結果としての深度マップＰを取得する。ここで、推論エンジン４１は、入力としてＲＧＢ画像を受け付け、測定対象領域の各被写体とカメラ２０との間の距離（奥行き）を示す深度マップＰを出力する。例えば、推論エンジン４１は、ＭｉＤａＳ、ＤＰＴなどの既存の深度推定モデルであってもよいし、あるいは、何れか１つ以上の既存の深度推定モデルから訓練（例えば、蒸留）されたモデルであってもよい。また、推論エンジン４１は、前処理装置４０に搭載されてもよいし、あるいは、外部のサーバ（図示せず）に搭載され、推論結果がネットワークを介し前処理装置４０にわたされてもよい。

具体的には、取得したＲＧＢ画像に対して、前処理装置４０は、当該ＲＧＢ画像を推論エンジン４１に入力し、推論結果として深度マップＰを取得する。典型的には、深度マップＰは、全体的に一貫性があるが、正確な距離値を表しているとは限らず、また、細かいテクスチャも表していない可能性がある。そして、前処理装置４０は、深度マップＰをＴｏＦデータＴのサイズと整合するようにリスケーリングしてもよい。

他方、取得したＴｏＦデータに対して、前処理装置４０は、ノイズ除去等の前処理を実行してもよい。例えば、前処理装置４０は、ＴｏＦデータに対してオープニング処理を実行し、孤立した画素を除去する。これは、孤立した距離値を有する画素はノイズである可能性が高いためである。また、前処理装置４０は、ＴｏＦデータの遠景画素を深度マップＰに近づけるよう前処理してもよい。一般に、ＴｏＦセンサ３０によって好適に測距可能
な範囲は数メートルの範囲であり、ＴｏＦデータの遠景部分は、推論エンジン４１によって取得された深度マップＰの対応する部分の距離値に近くなるよう補正されてもよい。

また、前処理装置４０は、ＴｏＦデータを参照して推論結果の中央付近を適応的に近景に寄せるようにしてもよい。ＴｏＦデータは、典型的に超近景又は特定色の物体をキャプチャできないという特徴を有する。このため、前処理することなくＴｏＦデータＴと深度マップＰとを合成すると、深度マップＯは遠景部分にスケール合わせされ、中央部分の被写体が遠景になってしまうためである。前処理装置４０は、このようにして前処理されたＴｏＦデータＴ及び深度マップＰを深度推定装置１００にわたす。

深度推定装置１００は、前処理装置４０から取得したＴｏＦデータＴ及び深度マップＰをコスト関数に従って合成し、合成された深度マップＯを生成する。本開示の一実施例によるコスト関数は、
（制約１）注目画素に対応する距離値がＴｏＦデータＴに存在する場合、深度マップＯにおける注目画素の距離値をＴｏＦデータＴの距離値に近づける。
（制約２）注目画素に対応する距離値がＴｏＦデータＴに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＰの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の近傍画素の距離値に近づける。
という３つの制約を含むものであってもよい。すなわち、深度推定装置１００は、ＴｏＦデータＴにおいて距離値が欠損していない画素については、深度マップＴの距離値を利用し、深度マップＴにおいて距離値が欠損している画素については、深度マップＰの距離値を利用して深度マップＯを構成する。さらに、深度推定装置１００は、深度マップＯの各画素の距離値を隣接画素の距離値に近づけるように深度マップＯを構成する。これにより、大域的に高い精度を有し、平滑化された深度マップＯを取得することができる。

例えば、図３に示されるように、測定対象領域に対して、推論された深度マップＰと測距されたＴｏＦデータＴとが取得された場合、深度推定装置１００は、上述したコスト関数に従って、図示されるような合成された深度マップＯを取得することができる。図３から観察できるように、深度マップＯは、ＴｏＦデータＴと深度マップＰとのどちらよりも測定対象領域の各オブジェクトの深度又は奥行きをより良好に再現していると考えられる。

ここで、深度推定装置１００は、スマートフォン、タブレット、パーソナルコンピュータ等の計算装置によって実現され、例えば、図４に示されるようなハードウェア構成を有してもよい。すなわち、深度推定装置１００は、バスＢを介し相互接続される記憶装置１０１、プロセッサ１０２、ユーザインタフェース（ＵＩ）装置１０３及び通信装置１０４を有する。

深度推定装置１００における後述される各種機能及び処理を実現するプログラム又は指示は、ネットワークなどを介し何れかの外部装置からダウンロードされてもよいし、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の着脱可能な記憶媒体から提供されてもよい。

記憶装置１０１は、ランダムアクセスメモリ、フラッシュメモリ、ハードディスクドライブなどの１つ以上の非一時的な記憶媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｓｔｏｒａｇｅｍｅｄｉｕｍ）によって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。

プロセッサ１０２は、１つ以上のプロセッサコアから構成されうる１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒ
ｏｃｅｓｓｉｎｇＵｎｉｔ）、処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）等によって実現されてもよい。プロセッサ１０２は、記憶装置１０１に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、後述される深度推定装置１００の各種機能及び処理を実行する。

ユーザインタフェース（ＵＩ）装置１０３は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと深度推定装置１００との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）をキーボード、マウス等を操作し、深度推定装置１００を操作する。

通信装置１０４は、外部装置、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等の通信ネットワークとの通信処理を実行する各種通信回路により実現される。

しかしながら、上述したハードウェア構成は単なる一例であり、本開示による深度推定装置１００は、他の何れか適切なハードウェア構成により実現されてもよい。例えば、カメラ２０、ＴｏＦセンサ３０及び前処理装置４０の一部又は全てが、深度測定装置１００に組み込まれてもよい。

［深度推定装置］
次に、図５を参照して、本開示の一実施例による深度推定装置１００を説明する。図５は、本開示の一実施例による深度推定装置１００の機能構成を示すブロック図である。

図５に示されるように、深度推定装置１００は、取得部１１０及び導出部１２０を有する。

取得部１１０は、測定対象領域に対して測距センサによって取得された第１の深度マップと、訓練済み推論エンジンによって測定対象領域の画像から推論された第２の深度マップとを取得する。すなわち、取得部１１０は、前処理装置４０からＴｏＦデータＴと深度マップＰとを取得し、導出部１２０にわたす。

ここで、ＴｏＦデータＴは、ＴｏＦセンサ３０の検知結果に対して前処理装置４０によって前処理されたデータであってもよい。例えば、前処理としては、ノイズを除去するためのオープニング処理、遠景部分に対する補正処理などであってもよい。

また、深度マップＰは、カメラ２０によって撮像されたＲＧＢ画像に対する推論エンジン４１の推論結果を、ＴｏＦデータＴのサイズに一致するようリサイジングしたデータであってもよい。例えば、ＴｏＦデータＴ及び深度マップＰは、幅２２４ピクセルと高さ１６８ピクセルとの２次元データにリサイジングされてもよい。

導出部１２０は、コスト関数に従って第１の深度マップと第２の深度マップとから第３の深度マップを導出する。ここで、コスト関数は、
注目画素に対応する距離値が第１の深度マップに存在する場合、第３の深度マップにおける注目画素の距離値を第１の深度マップの距離値に近づけるための第１の制約と、
注目画素に対応する距離値が第１の深度マップに存在しない場合、第３の深度マップにおける注目画素の距離値を第２の深度マップの距離値に近づけるための第２の制約と、
注目画素の距離値を注目画素の近傍画素の距離値に近づけるための第３の制約と、
を含む。

具体的には、導出部１２０は、第１～３の制約を含むコスト関数に従ってＴｏＦデータＴと深度マップＰとを合成し、合成された深度マップＯを生成する。一実施例では、コスト関数は、

として定式化されうる。ここで、ｘは深度マップＯであり、ＴはＴｏＦデータＴであり、Ｐは深度マップＰであり、ＩはＲＧＢ画像である。また、ｗ_０，ｗ_１，ε，Ｍはパラメータであり、∇は勾配を求める演算子である。導出部１２０は、式（１）を最小化する深度マップｘを求め、これを深度マップＯとする。

ここで、式（１）の右辺の第１項

は、第１の制約に関するものであり、ＴｏＦデータＴに距離値が存在する画素については、最終出力ｘの当該画素がＴｏＦデータＴの距離値に一致することを要請するものである。

また、式（１）の右辺の第２項

は、第２の制約に関するものであり、ＴｏＦデータＴに距離値が欠損している画素については、最終出力ｘの当該画素が深度マップＰの距離値に一致することを要請するものである。

そして、式（１）の右辺の第３項

は、第３の制約に関するものであり、分子は、最終出力ｘの注目画素と当該注目画素の隣接画素との距離値が近くなること、すなわち、平滑化を要請するものである。なお、分母は、撮像された被写体と背景部分との間のエッジ領域における分子の平滑化の効果を弱めるためのものである。

パラメータｗ_０，ｗ_１は、３つの項の影響度をバランスさせるための正の重みである（特に、ｗ_０は推論された深度マップＰよりもＴｏＦデータＴを重視するよう１未満に設定されてもよい）。また、パラメータＭは、エッジ領域でどの程度平滑化効果を弱めるかを規定する正の重みである。さらに、パラメータεは、ゼロ除算を回避するための微小な正定数である。なお、（∇Ｉ）^２は、ＲＧＢの各チャネルで微分画像を求め、それらをチャネル方向に平均化することとして定義されうる。

導出部１２０は、式（１）を最小にするｘを以下のように求めることができる。説明の簡単化のため、

とすると、Ｇはｘに依存しないため、予め計算可能である。このとき、式（１）のコスト関数は、以下のように書き換えることができる。

式（２）は１次式の２乗和の形式を有するため、Ｅ（ｘ）を最小にするｘを線形方程式の最小二乗解として以下のように厳密に求めることができる。

ここで、Ｅ（ｘ）＝０を満たすｘの条件を考える。これは、Ｅ（ｘ）の各項の１次式がゼロである場合に成り立つ。従って、任意の画素（ｉ，ｊ）に対して、

が成り立てばよい。ただし、

であり、画素（ｉ，ｊ）が２次元データの右端又は下端にあって、ｘ_{ｉ，ｊ＋１}又はｘ_{ｉ＋１，ｊ}が定義されない状況では、その未定義変数が出現する１次の項はゼロとされる。

式（３）は、

の行列表現として表すことができる。ここで、ｘの画素は、ラスタスキャン順に１次元配列される。この線形方程式は、変数の数よりも条件式の数が多く、ｏｖｅｒ－ｄｅｔｅｒｍｉｎｅｄな系となっており、厳密解は存在せず、最小二乗解を求めることが妥当である
。この最小二乗解は、Ｅ（ｘ）を最小（ゼロ）にする厳密解に一致する。従って、導出部１２０は、式（４）の最小二乗解を求めることによって、コスト関数Ｅ（ｘ）を最小にするｘを求めることができる。

具体例として、以下のＴｏＦデータＴ、深度マップＰ、係数Ｇ及び最終出力ｘが与えられているケースを考える。

ここで、最終出力ｘの距離値は未定である。また、Ｔ_１，２及びＴ_２，１がブランクになっているが、これは、当該画素の距離値が欠損していることを意味する。

これらの入力に対して、式（２）のコスト関数の右辺第１項は、

となる。また、ｗ_０＝０．０１と設定されている場合、第２項は、

となる。さらに、第３項は、

となる。

これらをまとめると、コスト関数Ｅ（ｘ）は、以下のようになる。

すなわち、コスト関数Ｅ（ｘ）は、ｘに関する１次式の２乗和になっていることがわかる。このため、以下の線形方程式の最小二乗解によってコストを最小化する厳密解ｘを導出することができる。

式（５）の最小二乗解は特異値分解などによって容易に求められる。このようにして、導出部１２０は、式（５）の最小二乗解を求めることによって、妥当な計算時間によってコスト関数Ｅ（ｘ）を最小にするｘを導出することができ、ＴｏＦデータＴと深度マップＰとから合成された深度マップＯを取得することができる。

［深度推定処理］
次に、図６を参照して、本開示の一実施例による深度推定処理を説明する。当該深度推定処理は、上述した深度推定装置１００によって実行され、より詳細には、深度推定装置１００の１つ以上のプロセッサ１０２が１つ以上の記憶装置１０１に格納された１つ以上のプログラム又は指示を実行することによって実現されてもよい。例えば、当該深度推定処理は、深度推定装置１００のユーザが当該処理に係るアプリケーション等を起動することによって開始されうる。

図６は、本開示の一実施例による深度推定処理を示すフローチャートである。

図６に示されるように、ステップＳ１０１において、深度推定装置１００は、測定対象領域のＲＧＢ画像Ｉから推論された深度マップＰ及びＴｏＦデータＴを取得する。具体的には、カメラ２０が測定対象領域を撮像し、ＲＧＢ画像Ｉを取得し、また、ＴｏＦセンサ３０が当該測定対象領域を測定し、ＴｏＦセンサ３０と測定対象領域の各物体との間の距離を示すＴｏＦデータを取得する。

次に、前処理装置４０は、取得したＴｏＦデータを前処理し、ＴｏＦデータＴを取得する。また、前処理装置４０は、推論エンジン４１を利用して、ＲＧＢ画像Ｉから深度マップＰを生成する。例えば、ＴｏＦデータＴは、ＴｏＦセンサ３０から取得されたＴｏＦデータに対してオープニング処理、補正処理などを実行することによって取得されてもよい。また、深度マップＰは、推論エンジン４１の推論結果に対してＴｏＦデータＴのサイズと一致するようにリサイジング処理を実行することによって取得されてもよい。

このようにして取得されたＴｏＦデータＴ及び深度マップＰが、深度推定装置１００に提供される。

ステップＳ１０２において、深度推定装置１００は、コスト関数に従ってＴｏＦデータＴ及び深度マップＰを合成し、合成された深度マップＯを導出する。例えば、コスト関数は、
（制約１）注目画素に対応する距離値がＴｏＦデータＴに存在する場合、深度マップＯにおける注目画素の距離値をＴｏＦデータＴの距離値に近づける。
（制約２）注目画素に対応する距離値がＴｏＦデータＴに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＰの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の近傍画素の距離値に近づける。
という３つの制約を含むものであってもよい。

具体的には、コスト関数は、

として定式化されてもよい。ここで、ｘは深度マップＯであり、ＴはＴｏＦデータＴであり、Ｐは深度マップＰであり、ＩはＲＧＢ画像である。また、ｗ_０，ｗ_１，ε，Ｍはパラメータであり、∇は勾配を求める演算子である。深度推定装置１００は、コスト関数Ｅ（ｘ）を最小化する深度マップｘを深度マップＯとする。ここで、コスト関数Ｅ（ｘ）を最小化する深度マップｘは、Ｅ（ｘ）＝０とした場合に得られる線形方程式の最小二乗解として求めることができる。

上述した実施例によると、深度推定装置１００は、
（制約１）注目画素に対応する距離値が深度マップＴに存在する場合、深度マップＯにおける注目画素の距離値を深度マップＴの距離値に近づける。
（制約２）注目画素に対応する距離値が深度マップＴに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＰの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の近傍画素の距離値に近づける。
という３つの制約を含むコスト関数を利用して、測距センサから取得した深度マップＴと、撮像デバイスからの画像から推論された深度マップＰとを合成し、合成された深度マップＯを構成する。これにより、大域的に高い精度を有し、隣接画素間で平滑化された深度マップＯを取得することができる。

［その他の実施例］
上述の実施形態では、３つの制約を含むコスト関数を利用して、測距センサから取得した深度マップＴと、撮像デバイスからの画像から推論された深度マップＰを合成し、合成された深度マップＯを構成する態様について説明した。しかしながら、合成対象となる深度マップは、上述の組み合わせでなくてもよい。一例として、深度推定装置１００は、撮像デバイスからの画像を訓練されたモデルを用いて深度マップＰを推論する手法ではなく、ステレオカメラが撮像した画像に基づき深度マップＰを生成してもよい。ステレオカメラによって撮像された２枚以上の画像は、視点（撮像地点）間の視差に基づき、三角測量の原理を用いて、カメラから被写体までの距離（奥行）情報を取得できることが知られている。本実施例では、図７に示されるように、深度推定装置１００は、ステレオカメラで撮像された画像に基づき、画素ごとに距離値を有する深度マップＰを生成する。生成された深度マップＰは、上述の３つの制約を含むコスト関数を利用して、測距センサから取得された深度マップＴと合成され、最終的に合成された深度マップＯが出力される。

前述のとおり、式（１）の右辺の第３項は、簡単に言えばある画素における距離値と、その画素に隣接する画素における距離値とを近づけることを要請するものである。すなわち、画素間の距離値の平滑化が要請されている。一例によれば、式（１）のコスト関数を最小化する距離値を求めることで、入力深度マップの距離値から大きく離れることを抑制しつつ隣接する複数画素の距離値を平滑化する。ここで平滑化というのは例えば１つの被写体に含まれる複数の距離値を平滑化することである。ある隣接する２つの画素における距離値の差を小さくし、別の隣接する２つの画素における距離値の差を大きくすることで、全体の距離値を平滑化する場合がある。したがって、平滑化によって全ての隣接画素における距離値の差が縮小するとは限らない。一例によれば、平滑化処理は、隣接距離値（隣接する２つの画素における距離値）の差の平均を減少させる処理である。一例によれば、ある被写体に着目したとき、その被写体に含まれる隣接距離値の差の平均を減少させる。別の例によれば、深度マップ全体に着目したとき、その深度マップ全体に含まれる隣接距離値の差の平均を減少させる。いくつかの例によれば、出力深度マップの画素における距離値は、複数の複数の深度マップの対応する画素におけるどの距離値とも異なる。

ここで、ある画素（以後、第１画素と称する）と、その画素に隣接する画素（以後、第２画素と称する）とが、両方とも１つの被写体に関連する場合について考える。この場合、以下（Ａ）（Ｂ）（Ｃ）が成り立つ。
（Ａ）第１画素の距離値と第２画素の距離値がともに深度マップＰから得られたのであればこれらの距離値の差は小さく、式（１）の右辺の第３項によってこれらを平滑化する効果は小さい。
（Ｂ）第１画素の距離値と第２画素の距離値がともに深度マップＴから得られたのであればこれらの距離値の差は小さく、式（１）の右辺の第３項によってこれらを平滑化する効果は小さい。
（Ｃ）しかしながら、第１画素の距離値と第２画素の距離値のうち一方が深度マップＰから得られ他方が深度マップＴから得られた場合には、これらの距離値の差は比較的大きくなり得るので、その場合には式（１）の右辺の第３項による平滑化の効果は大きくなり得る。

上記１つの被写体について、単に深度マップＴをベースとしつつ深度マップＴの欠損部分を深度マップＰで補うと、隣接距離値の差の平均は大きい値になる。深度マップ全体についても同様である。隣接距離値の差の平均が大きいと画素間の境界が不自然に目立ってしまう。

これに対し、本実施形態では上述のとおり距離値の平滑化処理を施すので、１つの被写体又は深度マップ全体について、隣接距離値の差の平均が小さくなる。一例によれば、合成された深度マップにおける複数の被写体のそれぞれについて、上述の距離値を平滑化する処理が施されている。なお、式（１）以外の演算方法によって、隣接距離値の差の平均を小さくすることができる。

ところで、第１画素がある被写体に関し、第２画素が背景部分に関する場合、第１画素と第２画素はエッジ領域を構成する。この場合、第１画素の距離値と第２画素の距離値との間に相当の差がある。そして、被写体の距離値と背景部分の距離値の差は維持されるべきである。そこで、エッジ領域においては、式（１）の第３項の分母によって距離値の平滑化の効果を弱めることとした。これにより、エッジ領域における距離値の差を過度に小さくすることなく、適切に維持することができる。

一例によれば、演算処理の簡単化のために、被写体における距離値の平滑化の程度と、エッジ領域における距離値の平滑化の程度を一致させることができる。この場合、式（１）の右辺の第３項における分母を省略できる。この場合、例えば式（１）の右辺第３項のｗ１を比較的小さい値にしておくことで、エッジ領域において距離値が過度に平滑化されることを防止できる。別の例によれば、式（１）で示されるとおり、被写体の中では距離値を平滑化する効果を高め、エッジ領域では距離値を平滑化する効果を弱めることができる。

深度推定装置１００という名称は、２つの深度マップを単に合成するのではなく、上述のとおり平滑化して距離値を推定するので「推定」との言葉を含む。深度推定装置１００は、深度マップ合成装置と言い換えたり、深度マップ生成装置と言い換えたりすることができる。

深度推定装置１００に入力される深度マップとして、ＲＧＢ画像から推論して得られた深度マップＰと、測距センサで得られた深度マップＴを例示した。別の例によれば、別の深度マップを深度測定装置１００に入力することができる。入力用深度マップの限定されない変形例を以下に示す。

［例１］
例えば、ステレオマッチングで得られた深度マップＳと、広角カメラの画像から推論された深度マップＷと、を深度推定装置１００に入力することができる。ステレオマッチングでは、オクルージョン領域を除き、比較的正確な距離値を算出することができる。しかし、ステレオマッチングでは、望遠カメラ相当の距離値（depth）しか算出できず、広角カメラにおける画像端付近の距離値は算出できない。他方、広角カメラのsingle camera depth estimationによれば、画像全面において距離値を推定することができる。つまり、深度マップＳの有効画素数は、深度マップＷの有効画素数より小さい。そこで、深度推定装置１００は、以下の３つの制約を含むコスト関数に従って深度マップＳと深度マップＷとを合成し、深度マップＯを作成することができる。
（制約１）注目画素に対応する距離値が深度マップＳに存在する場合、深度マップＯにおける注目画素の距離値を深度マップＳの距離値に近づける。
（制約２）注目画素に対応する距離値が深度マップＳに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＷの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の隣接画素の距離値に近づける。
こうして、全面、つまり全画素に距離値を有する深度マップＯを生成することができる。一例によれば、広角カメラと望遠カメラを併用することで、この深度マップＯの生成に必要な撮像データを提供できる。別の例によれば、別の方法で深度マップを合成できる。例えば、深度マップＳに距離値が存在する場合はその距離値を用い、深度マップＳに距離値が存在しない部分については深度マップＷの距離値を用いることで、出力深度マップを合成してもよい。一例によれば、出力深度マップの中央部分の距離値は深度マップＳの距離値から取り込み、出力深度マップの上記中央部分を囲む周辺部分の距離値は深度マップＷから取り込むことができる。

［例２］
例２では、例１の深度マップＳと深度マップＷに加えて、ＴｏＦセンサなどの測距センサによって得られた深度マップＴを入力深度マップとする。つまり、３つの深度マップを深度推定装置１００に入力する。そして、深度推定装置１００では、入力深度マップの信頼度に基づいて、３つの入力深度マップを合成する。一例によれば、深度推定装置１００は、以下の４つの制約を含むコスト関数に基づいて深度マップＯを合成することができる。
（制約１）注目画素に対応する距離値が深度マップＴに存在する場合、深度マップＯにおける注目画素の距離値を深度マップＴの距離値に近づける。
（制約２）注目画素に対応する距離値が深度マップＴに存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＳの距離値に近づける。
（制約３）注目画素に対応する距離値が深度マップＴにも深度マップＳにも存在しない場合、深度マップＯにおける注目画素の距離値を深度マップＷの距離値に近づける。
（制約４）注目画素の距離値を当該注目画素の隣接画素の距離値に近づける。
この例では、深度マップＴの距離値の信頼度が高く、深度マップＳの距離値が次に信頼度が高く、深度マップＷの距離値は信頼度が低い、との前提をおいている。このように深度マップの信頼度に基づいて、複数の深度マップを合成して深度マップＯを生成することができる。別の例によれば、別の入力深度マップを採用することができる。別の例によれば、別の方法で深度マップを合成できる。例えば、深度マップＴに距離値が存在する場合はその距離値を用い、深度マップＴに距離値が存在しない部分については深度マップＳの距離値を用い、深度マップＴにも深度マップＳにも距離値が存在しない部分については深度マップＷの距離値を用いることで、出力深度マップを合成してもよい。

［例３］
入力深度マップとして、デュアルカメラ視差推定によって得られた深度マップＤと、ＴｏＦセンサなどの測距センサによって得られた深度マップＴを、深度推定装置１００に入力することができる。デュアルカメラ視差推定では、オクルージョン領域のマッチングが出来ないため、そこは一般に無効領域になる。この無効領域の周囲の距離値に基づいて無効領域の距離値を埋めると、無効領域は距離値の信頼度が低い領域となる。また、繰り返しパターンの領域、又はテクスチャがない領域が存在すると一点から複数箇所にマッチしてしまい、得られる距離値の精度が落ちる場合もある。
つまり、深度マップＤは、
・領域Ｄ１：（信頼度が低い）オクルージョン領域、
・領域Ｄ２：（信頼度が低い）繰り返しパターンの領域、又は、テクスチャがない領域（平坦領域）、
・領域Ｄ３：（信頼度が高い）領域Ｄ１、Ｄ２以外の領域、
に分類することができる。
他方、ＴｏＦセンサなどの測距センサによって得られた深度マップＴは、
・領域Ｔ１：（信頼度が低い）画像の位置合わせにより発生したオクルージョン領域、
・領域Ｔ２：（信頼度が低い）赤外線が届かない箇所（例えば遠景）、
・領域Ｔ３：（信頼度が低い）繰り返しパターンの領域、又は、テクスチャがない領域、
・領域Ｔ４：（信頼度が高い）領域Ｔ１、Ｔ２、Ｔ３以外の領域
を含む。なお、基準画像とＴｏＦまたは参照画像の方向が異なると、オクルージョンの位置が別方向になるので、相補関係にあるということができる。
このように、深度マップＤ、Ｔには、それぞれ信頼度が高い領域と信頼度が低い領域がある。そこで、深度推定装置１００は、以下の３つの制約を含むコスト関数に基づいて深度マップＯを合成することができる。
（制約１）注目画素に対応する距離値が領域Ｄ３又は領域Ｔ４に存在する場合、深度マップＯにおける注目画素の距離値をこれらのいずれかの距離値に近づける。
（制約２）注目画素に対応する距離値が領域Ｄ３又は領域Ｔ４に存在しない場合、深度マップＯにおける注目画素の距離値を領域Ｄ１、Ｄ２、Ｔ１、Ｔ２、Ｔ３のいずれかの距離値に近づける。
（制約３）注目画素の距離値を当該注目画素の隣接画素の距離値に近づける。
これにより、複数の入力深度マップの信頼度が高い領域を優先的に深度マップＯに反映させて、精度の高い深度マップを合成できる。

上記の例３では１つの入力深度マップについて、距離値の信頼度が高い領域と、距離値の信頼度が低い領域の２つに分類した。別の例によれば、１つの入力深度マップについて、信頼度の異なる３つ以上の領域に分割することができる。例えば、深度マップＤは、信頼度の高い領域Ｄ３、領域Ｄ３より信頼度が低い領域Ｄ２、領域Ｄ２より信頼度が低い領域Ｄ１に分割される。例えば深度マップＴは、信頼度の高い領域Ｔ４、領域Ｔ４より信頼度が低い領域Ｔ３、領域Ｔ３より信頼度が低い領域Ｔ２、領域Ｔ２より信頼度が低い領域Ｔ１、に分割される。一例によれば、ＴｏＦセンサなどの測距センサにより取得された深度マップＴについては、距離値とともに信頼度のマップが入手される。他方、深度マップＤについては、例えば前処理装置で、各領域について信頼度スコアを割り当てる。例えば、深度推定装置１００には、各画素について、距離値と、その距離値の信頼度スコアと、が割り当てられたデータが、入力深度マップとして入力される。深度マップＤ、Ｔを入力深度マップとする場合、一例によれば、信頼度が高い順に、領域Ｔ４、Ｄ３、Ｔ３、Ｔ２、Ｔ１、Ｄ２、Ｄ１であり、深度推定装置１００は、前述のコスト関数を用いた方法と同等の方法によって、信頼度が高いものから順に深度マップＯに反映させていく。
入力深度マップの領域毎に信頼度を割り当て、信頼度の高いものを優先して出力深度マップに反映させるようにすることで、さらに高品質な深度マップを提供することができる。

１０深度推定システム
２０カメラ
３０ＴｏＦセンサ
４０前処理装置
１００深度推定装置
１１０取得部
１２０導出部

Claims

複数の深度マップを取得することと、
前記複数の深度マップに含まれる距離値をそのまま用いる場合と比べて、隣接する画素の距離値の差の平均を減少させつつ前記複数の深度マップを合成して、１つの出力深度マップを出力することと、を備えた深度推定方法。
前記出力深度マップの画素における距離値は、前記複数の深度マップの対応する画素における距離値と異なる、請求項１に記載の深度推定方法。
前記複数の深度マップは第１深度マップと第２深度マップを含み、
測距センサを用いて前記第１深度マップを取得することと、
撮像デバイスを用いて前記第２深度マップを取得することと、を備えた請求項１に記載の深度推定方法。
前記複数の深度マップは第１深度マップと第２深度マップを含み、
前記第１深度マップは一部の画素において距離値が欠損した深度マップであり、
前記第２深度マップは距離値の欠損がない深度マップである、請求項１に記載の深度推定方法。
ステレオマッチングで第１深度マップを取得することと、
画像から推論することで得られた第２深度マップを取得することと、
前記第１深度マップと前記第２深度マップを含む複数の深度マップを合成して出力深度マップを出力することと、を備えた深度推定方法。
前記第１深度マップの有効画素数は、前記第２深度マップの有効画素数より小さい、請求項５に記載の深度推定方法。
前記画像は広角カメラで撮影する請求項５に記載の深度推定方法。
前記出力深度マップの中央部分の距離値は前記第１深度マップから取り込まれ、前記出力深度マップの前記中央部分を囲む周辺部分は前記第２深度マップから取り込まれた、請求項６に記載の深度推定方法。
ＴｏＦセンサによって得られた第３深度マップを取得することを備え、
前記出力深度マップは前記第１深度マップと前記第２深度マップと前記第３深度マップを合成して得られる、請求項５に記載の深度推定方法。
測定対象領域に対して測距センサによって取得された第１の深度マップと、前記測定対象領域の画像から生成された第２の深度マップとを取得する取得部と、
コスト関数に従って前記第１の深度マップと前記第２の深度マップとから第３の深度マップを導出する導出部と、を有し、
前記コスト関数は、
注目画素に対応する距離値が前記第１の深度マップに存在する場合、前記第３の深度マップにおける前記注目画素の距離値を前記第１の深度マップの距離値に近づけるための第１の制約と、
前記注目画素に対応する距離値が前記第１の深度マップに存在しない場合、前記第３の深度マップにおける前記注目画素の距離値を前記第２の深度マップの距離値に近づけるための第２の制約と、
前記注目画素の距離値を前記注目画素の近傍画素の距離値に近づけるための第３の制約と、
を含む、深度推定装置。
前記導出部は、前記コスト関数の値が最小になるように前記第３の深度マップを導出する請求項１０に記載の深度推定装置。
前記コスト関数は、前記第１の深度マップ又は前記第２の深度マップにおける距離値が不連続である部分では、前記第３の制約を弱めるよう規定される、請求項１０に記載の深度推定装置。