JP7106665B2

JP7106665B2 - 単眼深度推定方法およびその装置、機器ならびに記憶媒体

Info

Publication number: JP7106665B2
Application number: JP2020546428A
Authority: JP
Inventors: 郭▲曉▼▲陽▼; 李▲鴻▼升; 伊▲帥▼; 任思捷; 王▲曉▼▲剛▼
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-05-22
Filing date: 2019-02-27
Publication date: 2022-07-26
Anticipated expiration: 2039-02-27
Also published as: JP2021515939A; CN108961327B; WO2019223382A1; SG11202008787UA; CN108961327A

Description

（関連出願の相互参照）
本願は２０１８年０５月２２日に出願された、出願番号２０１８１０４９６５４１．６の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願の実施例は人工知能分野に関し、特に単眼深度推定方法およびその装置、機器ならびに記憶媒体に関する。

単眼深度推定はコンピュータビジョンにおける重要な課題であり、単眼深度推定の具体的なタスクは画像における画素点それぞれの深度を予測することである。そのうち、各画素点の深度値からなる画像は深度マップとも呼ばれる。単眼深度推定は自動運転における障害物検出、三次元シーン再構成、立体シーン解析に対して重要な意味を持っている。また、単眼深度推定は他のコンピュータビジョンタスク、例えば物体検出、ターゲット追跡およびターゲット識別の性能を間接的に向上させることができる。

現時点での問題は単眼深度推定用のニューラルネットワークを訓練するために大量のラベル付きデータが必要であるが、ラベル付きデータを取得するコストが高い。室外環境ではレーザレーダによってラベル付きデータを取得できるが、取得したラベル付きデータは非常に疎であり、このようなラベル付きデータを用いて訓練した単眼深度推定ネットワークは明瞭なエッジを有さず小さな物体の正確な深度情報をキャプチャできない。

本願の実施例は単眼深度推定方法およびその装置、機器ならびに記憶媒体を提供する。

本願の実施例の技術的解決手段は以下のように実現する。

本願の実施例は、処理対象の画像を取得するステップと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法を提供する。

本願の実施例は、処理対象の画像を取得するように構成された取得モジュールと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置を提供する。

本願の実施例は、プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に本願の実施例が提供する単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。

本願の実施例は、コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に本願の実施例が提供する単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。

本願の実施例では、処理対象の画像を取得し、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得て、そして前記処理対象の画像の解析結果を出力することで、深度マップラベル付きのデータをより少なく使用するか、または使用しないで、単眼深度推定ネットワークを訓練することができ、またより効率的な、教師なしの、微調整可能な、両眼視差を利用したネットワークによる方法を提供し、それにより単眼深度推定の効果を間接的に向上させる。
例えば、本願は以下の項目を提供する。
（項目１）
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法。
（項目２）
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと、を含む項目１に記載の方法。
（項目３）
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップを含む項目２に記載の方法。
（項目４）
前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する前記ステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目３に記載の方法。
（項目５）
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目２に記載の方法。
（項目６）
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップはさらに、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目２に記載の方法。
（項目７）
前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目６に記載の方法。
（項目８）
さらに、式
（化８７）

を利用して前記損失関数を決定するステップを含み、
ここで、前記
（化８８）

は損失関数を表し、前記
（化８９）

は再構成誤差を表し、前記
（化９０）

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
（化９１）

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
（化９２）

は強度係数を表す項目７に記載の方法。
（項目９）
さらに、式
（化９３）

、または、
（化９４）

を利用して前記再構成誤差を決定するステップを含み、
ここで、前記
（化９５）

は画像における画素の数を表し、前記
（化９６）

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
（化９７）

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
（化９８）

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
（化９９）

は右画像をサンプリングしてから合成した画像の画素値を表し、前記
（化１００）

は左画像をサンプリングしてから合成した画像の画素値を表し、前記
（化１０１）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１０２）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１０３）

は画素点の画素座標を表す項目８に記載の方法。
（項目１０）
さらに、式
（化１０４）

、または、
（化１０５）

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップを含み、
ここで、前記
（化１０６）

は画像における画素の数を表し、前記
（化１０７）

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
（化１０８）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１０９）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１１０）

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１１１）

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１１２）

は画素点の画素座標を表し、前記
（化１１３）

は強度係数を表す項目８に記載の方法。
（項目１１）
さらに、式
（化１１４）

、または、
（化１１５）

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップを含み、
ここで、前記
（化１１６）

は画像における画素の数を表し、前記
（化１１７）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１１８）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１１９）

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１２０）

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１２１）

は画素点の画素座標を表す項目８に記載の方法。
（項目１２）
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと、を含む項目５に記載の方法。
（項目１３）
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと、を含む項目６から１１のいずれか一項に記載の方法。
（項目１４）
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと、を含む項目１２または１３に記載の方法。
（項目１５）
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置。
（項目１６）
さらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む項目１５に記載の装置。
（項目１７）
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む項目１６に記載の装置。
（項目１８）
前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目１７に記載の装置。
（項目１９）
前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む項目１６に記載の装置。
（項目２０）
前記第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される項目１６に記載の装置。
（項目２１）
前記第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む項目２０に記載の装置。
（項目２２）
さらに、式
（化１２２）

を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記
（化１２３）

は損失関数を表し、前記
（化１２４）

は再構成誤差を表し、前記
（化１２５）

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
（化１２６）

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
（化１２７）

は強度係数を表す項目２１に記載の装置。
（項目２３）
さらに、式
（化１２８）

、または、
（化１２９）

を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記
（化１３０）

は画像における画素の数を表し、前記
（化１３１）

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
（化１３２）

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
（化１３３）

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
（化１３４）

は右画像をサンプリングしてから合成した画像の画素値を表し、前記
（化１３５）

は左画像をサンプリングしてから合成した画像の画素値を表し、前記
（化１３６）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１３７）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１３８）

は画素点の画素座標を表す項目２２に記載の装置。
（項目２４）
さらに、式
（化１３９）

、または、
（化１４０）

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記
（化１４１）

は画像における画素の数を表し、前記
（化１４２）

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
（化１４３）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１４４）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１４５）

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１４６）

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
（化１４７）

は画素点の画素座標を表し、前記
（化１４８）

は強度係数を表す項目２２に記載の装置。
（項目２５）
さらに、式
（化１４９）

、または、
（化１５０）

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記
（化１５１）

は画像における画素の数を表し、前記
（化１５２）

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１５３）

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１５４）

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１５５）

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
（化１５６）

は画素点の画素座標を表す項目２２に記載の装置。
（項目２６）
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得し、そして前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目１９に記載の装置。
（項目２７）
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得て、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定し、そして前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目２０から２５のいずれか一項に記載の装置。
（項目２８）
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む項目２６または２７に記載の装置。
（項目２９）
プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に項目１から１４のいずれか一項に記載の単眼深度推定方法におけるステップを実現する単眼深度推定機器。
（項目３０）
コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に項目１から１４のいずれか一項に記載の単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体。

本願の実施例に係る単眼深度推定方法の実現フローチャート１である。本願の実施例の単一画像の深度推定模式図である。本願の実施例の第二両眼マッチングニューラルネットワークモデルの訓練模式図である。本願の実施例の単眼深度推定ネットワークモデルの訓練模式図である。本願の実施例の損失関数関連画像の模式図である。本願の実施例に係る単眼深度推定方法の実現フローチャート２である。本願の実施例の損失関数の効果模式図である。本願の実施例の可視化深度推定の結果模式図である。本願の実施例の単眼深度推定装置の構成模式図である。本願の実施例の単眼深度推定機器のハードウェア実体模式図である。

本願の実施例の目的、技術的解決手段および利点をより明確にするために、以下に本願の実施例における図面と関連付けて、出願の具体的な技術的解決手段をさらに詳細に説明する。以下の実施例は本願を説明するためのものであり、本願の範囲を限定するものではない。

後続の記載では、「モジュール」、「コンポーネント」または「ユニット」など要素を表すための接尾辞は本願の説明に役立つためにのみ使用され、それら自体は特定の意味を持っていない。従って、「モジュール」、「コンポーネント」または「ユニット」は混合して使用可能である。

一般的には、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。本願の実施例が提供する単眼深度推定方法はニューラルネットワークによって訓練して得られ、訓練データは両眼マッチングによって出力された視差マップデータに由来し、レーザレーダなどの高価な深度取得機器を必要としない。訓練データを提供する両眼マッチングアルゴリズムもニューラルネットワークによって実現され、該ネットワークはレンダリングエンジンによりレンダリングされる大量の仮想両眼画像対によって予備訓練するだけで良好な効果を達成でき、また、実データに基づいてさらに微調整による訓練を行ってより良好な効果を達成できる。

以下に図面と実施例を関連付けて本願の技術的解決手段をさらに説明する。

本願の実施例は計算機器において用いられる単眼深度推定方法を提供し、該方法が実現する機能はサーバ内のプロセッサによってプログラムコードを呼び出して実現されてもよく、当然ながら、プログラムコードはコンピュータ記憶媒体内に記憶可能であり、よって、該サーバは少なくともプロセッサおよび記憶媒体を含む。図１Ａは本願の実施例に係る単眼深度推定方法の実現フローチャート１であり、図１Ａに示すように、該方法は以下を含む。

ステップＳ１０１において、処理対象の画像を取得する。

ここで、移動端末によって処理対象の画像を取得してもよく、前記処理対象の画像は、任意のシーンの画像を含んでもよい。一般的には、移動端末は実施プロセスにおいて、例えば携帯電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ナビゲーター、デジタル電話機、テレビ電話機、スマートウォッチ、スマートブレスレット、ウエアラブル機器、タブレットなどを含むような、情報処理能力を有する様々なタイプの機器としてもよい。サーバは実現プロセスにおいて、例えば携帯電話、タブレット、ノートパソコンなどの移動端末、パーソナルコンピュータおよびサーバクラスタなどの固定端末のような情報処理能力を有する計算機器としてもよい。

ステップＳ１０２において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。

本願の実施例では、前記単眼深度推定ネットワークモデルは主に以下の三つのステップによって取得される。第一のステップではレンダリングエンジンによりレンダリングされる合成両眼データを使用して両眼マッチングニューラルネットワークを予備訓練する。第二のステップでは実シーンのデータを使用して第一のステップで得られた両眼マッチングニューラルネットワークの微調整による訓練を行う。第三のステップでは第二のステップで得られた両眼マッチングニューラルネットワークを使用して単眼深度推定ネットワークを教示し、それにより単眼深度推定ネットワークを訓練して得る。従来技術では、単眼深度推定は一般的に大量のラベル付きの実データを使用して訓練するか、または教師なしの方法を使用して単眼深度推定ネットワークを訓練する。しかし、大量のラベル付きの実データは取得コストが高く、またそのまま教師なしの方法によって単眼深度推定ネットワークを訓練すれば遮蔽領域の深度推定が処理できなくなり、得られた効果が悪い。それに対して、本願では前記単眼深度推定ネットワークモデルのサンプルデータが第一両眼マッチングニューラルネットワークモデルにより出力される視差マップに由来し、つまり、本願は両眼視差を利用した単眼深度予測を行う。従って、本願における方法は大量のラベル付きデータを必要とせず、かつ良好な訓練効果を得ることができる。

ステップＳ１０３において、前記処理対象の画像の解析結果を出力する。ここで、前記処理対象の画像の解析結果とは、前記処理対象の画像の対応する深度マップをいう。処理対象の画像を取得してから、前記処理対象の画像を訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記単眼深度推定ネットワークモデルは一般的に、深度マップではなく、前記処理対象の画像の対応する視差マップを出力するため、さらに前記単眼深度推定ネットワークモデルにより出力される視差マップ、処理対象の画像を撮影するカメラのレンズ基線長および処理対象の画像を撮影するカメラのレンズ焦点距離に基づき、前記処理対象の画像の対応する深度マップを決定する必要がある。

図１Ｂは本願の実施例の単一画像の深度推定模式図であり、図１Ｂに示すように、番号が１１の画像１１は処理対象の画像であり、番号が１２の画像１２は番号が１１の画像１１の対応する深度マップである。

実際の適用では、前記レンズ基線長および前記レンズ焦点距離の積と、前記出力される処理対象の画像の対応する視差マップとの比を、前記処理対象の画像の対応する深度マップとして決定してもよい。

上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、該方法は以下を含む。

ステップＳ１１１において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。

いくつかの実施例では、前記方法はさらに、レンダリングエンジンによって仮想３Ｄシーンを構築するステップＳ１１と、二つの仮想カメラによって前記３Ｄシーンを両眼画像としてマッピングするステップＳ１２と、前記仮想３Ｄシーンを構築する時の位置、前記仮想３Ｄシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するステップＳ１３と、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るステップＳ１４と、を含む。

ステップＳ１１２において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。

ここで、実際の適用において、前記ステップＳ１１２は以下のステップによって実現してもよい。ステップＳ１１２１、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得る。ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。

図１Ｃは本願の実施例の第二両眼マッチングニューラルネットワークモデルの訓練模式図であり、図１Ｃに示すように、番号が１１の画像１１は合成された両眼画像の左画像であり、番号が１２の画像１２は合成された両眼画像の右画像であり、

は番号が１１の左画像１１に含まれる全ての画素点の画素値であり、

は番号が１２の右画像１２に含まれる全ての画素点の画素値であり、番号が１３の画像１３は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した遮蔽マップであり、番号が１４の画像１４は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した視差マップであり、番号が１５の画像１５は第二両眼マッチングニューラルネットワークモデルである。

ステップＳ１１３において、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る。

ここで、前記ステップＳ１１３は二つの形態で実現できる。そのうち、第一の実現形態は以下のステップで実現する。ステップＳ１１３１ａ、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。ここで、取得したのは深度ラベル付きの実両眼データであり、このように、そのまま深度ラベル付きの実両眼データを用いて、ステップＳ１１２での訓練後の第二両眼マッチングニューラルネットワークの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、訓練後の第二両眼マッチングニューラルネットワークモデルの効果をさらに向上させ、第一両眼マッチングニューラルネットワークモデルを得ることができる。この部分では、両眼視差ネットワークは実データを適合させる必要がある。深度ラベル付きの実両眼データを使用し、教師ありの訓練によって両眼視差ネットワークを直接微調整して訓練してネットワークの重みを調整するようにしてもよい。第二の実現形態は以下のステップで実現する。ステップＳ１１３１ｂ、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。本願の実施例では、また深度ラベルなしの実両眼データを使用して訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るようにしてもよい。ここの教師なし訓練とは深度データラベルなしで、両眼データのみで訓練することをいい、教師なしの微調整方法によって該プロセスを実現してもよい。

ステップＳ１１４において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。

ここで、前記ステップＳ１１４は二つの形態で実現してもよい。そのうち、第一の実現形態は以下のステップで実現する。ステップＳ１１４１ａ、左画像および右画像を含む前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得する。ステップＳ１１４２ａ、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練してもよく、そのうち、前記深度ラベル付きの実両眼データはステップＳ１１３１ａで使用された深度ラベル付きの実両眼データである。第二の実現形態は以下のステップで実現する。ステップＳ１１４１ｂ、左画像および右画像を含む前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得る。ステップＳ１１４２ｂ、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。ステップＳ１１４３ｂ、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、ステップＳ１１３１ｂで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、またステップＳ１１４１ｂで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をもサンプルデータとし、ステップＳ１１４１ｂで出力された視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練し、訓練後の単眼深度推定ネットワークモデルを得るようにしてもよい。

図１Ｄは本願の実施例の単眼深度推定ネットワークモデルの訓練模式図であり、図１Ｄに示すように、図（ａ）は深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する番号が１３の視差マップ１３を得ることを示し、そのうち、前記深度ラベルなしの実両眼データは番号が１１の左画像１１および番号が１２の右画像１２を含み、番号が１５の画像１５は第一両眼マッチングニューラルネットワークモデルである。図１Ｄにおける図（ｂ）は前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記番号が１３の視差マップ１３の対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練することを示し、そのうち、前記サンプルデータの前記単眼深度推定ネットワークモデルによる出力は番号が１４の視差マップ１４であり、番号が１６の画像１６は単眼深度推定ネットワークモデルである。

ステップＳ１１５において、処理対象の画像を取得する。

ここで、訓練後の単眼深度推定ネットワークモデルを得ると、この単眼深度推定ネットワークモデルを使用することが可能である。即ち、この単眼深度推定ネットワークモデルを用いて、処理対象の画像の対応する深度マップを取得することができる。

ステップＳ１１６において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。

ステップＳ１１７において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。

ステップＳ１１８において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。

ステップＳ１１９において、前記視差マップの対応する深度マップを出力する。

ステップＳ１２１において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。

ステップＳ１２２において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。

ここで、合成データを使用して第二両眼マッチングニューラルネットワークモデルを訓練すると、より高い汎化能力を発揮することができる。

ステップＳ１２３において、式（１）

を利用して前記損失関数を決定する。ここで、前記

は本願の実施例が提供する損失関数を表し、前記

は再構成誤差を表し、前記

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記

は強度係数を表す。ここで、

は正則項である。

いくつかの実施例では、ステップＳ１２３での式（１）はさらに以下のステップでの式によって細分化されてもよい。即ち、前記方法はさらに以下を含む。ステップＳ１２３１において、式（２）

または式（３）

を利用して前記再構成誤差を決定する。ここで、前記

は画像における画素の数を表し、前記

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記

は右画像をサンプリングしてから合成した画像、即ち再構成された左画像の画素値を表し、前記

は左画像をサンプリングしてから合成した画像、即ち再構成された右画像の画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は画素点の画素座標を表し、前記

は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記

は右画像または右画像の関連データを表し、前記

は左画像または左画像の関連データを表し、前記

は画像画素点のＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ、赤、緑および青）値を表す。ステップＳ１２３２において、式（４）

または式（５）

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定する。ここで、前記

は画像における画素の数を表し、前記

はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記

はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記

は画素点の画素座標を表し、前記

は右画像または右画像の関連データを表し、前記

は左画像または左画像の関連データを表し、前記

は強度係数を表す。ステップＳ１２３３において、式（６）

または式（７）

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定する。ここで、前記

は画像における画素の数を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記

はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記

はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記

は右画像または右画像の関連データを表し、前記

は左画像または左画像の関連データを表す。

ステップＳ１２４において、損失関数（Ｌｏｓｓ）を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。

ここで、前記損失関数（Ｌｏｓｓ）はステップＳ１２２での訓練後の第二両眼マッチングニューラルネットワークの出力により微調整による訓練を正則化し、従来技術での教師なしの微調整に幅広く存在する予測が不明になるという問題を回避し、微調整によって得られた第一両眼マッチングネットワークの効果を向上させ、それにより第一両眼マッチングネットワークを教示して得られた単眼深度ネットワークの効果を間接的に向上させる。図１Ｅは本願の実施例の損失関数関連画像の模式図であり、図１Ｅに示すように、図（ａ）は深度ラベルなしの実両眼データの左画像であり、図１Ｅにおける図（ｂ）は深度ラベルなしの実両眼データの右画像であり、図１Ｅにおける図（ｃ）は図（ａ）と図（ｂ）とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された視差マップであり、図１Ｅにおける図（ｄ）は図（ｂ）で表される右画像をサンプリングしてから、図（ｃ）で表される視差マップと結合し、左画像を再構成した画像であり、図１Ｅにおける図（ｅ）は図（ａ）で表される左画像における画素と図（ｄ）で表される再構成後の左画像における対応する画素との差を求めて得られた画像、即ち左画像の再構成誤差マップであり、図１Ｅにおける図（ｆ）は図（ａ）と図（ｂ）とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された遮蔽マップである。ここで、図（ｄ）における全ての赤枠１１は前記再構成後の左画像の図（ａ）で表される実左画像との差異がある部分を表し、図（ｅ）における全ての赤枠１２は前記再構成誤差マップにおいて誤差がある部分、即ち遮蔽された部分を表す。ここで、ステップＳ１２４に記載の教師なしの微調整による両眼視差ネットワーク訓練を実現する時、右画像を使用して左画像を再構成する必要があるが、遮蔽が存在する領域が正確に再構成できないため、遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。

ステップＳ１２５において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。

ここで、前記単眼深度推定ネットワークモデルのサンプル画像は、深度ラベルなしの実両眼データのうちの左画像であってもよいし、深度ラベルなしの実両眼データのうちの右画像であってもよい。そのうち、左画像をサンプル画像とする場合、式（１）、式（２）、式（４）および式（６）を利用して損失関数を決定し、右画像をサンプル画像とする場合、式（１）、式（３）、式（５）および式（７）を利用して損失関数を決定する。

本願の実施例では、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する前記ステップとは、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップの対応する深度マップによって前記単眼深度推定ネットワークモデルを教示し、つまり教示情報を提供し、それにより前記単眼深度推定ネットワークモデルを訓練することをいう。

ステップＳ１２６において、処理対象の画像を取得する。

ステップＳ１２７において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。

ステップＳ１２８において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。

ステップＳ１２９において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。

ステップＳ１３０において、前記視差マップの対応する深度マップを出力する。

本願の実施例では、前記処理対象の画像が街並みの画像である場合、前記訓練後の単眼深度推定ネットワークモデルを使用して前記街並みの画像の深度を予測することができる。

上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、図２Ａは本願の実施例に係る単眼深度推定方法の実現フローチャート２であり、図２Ａに示すように、該方法は以下を含む。

ステップＳ２０１において、レンダリングエンジンによりレンダリングされる合成データを使用して両眼マッチングネットワークを訓練し、両眼画像の視差マップを得る。

ここで、前記両眼マッチングネットワークの入力は、一対の両眼画像（左画像および右画像を含む）であり、前記両眼マッチングネットワークの出力は、視差マップ、遮蔽マップであり、即ち、両眼マッチングネットワークは両眼画像を入力として使用し、視差マップおよび遮蔽マップを出力する。そのうち、視差マップは左画像における各画素点と右画像における対応する画素点との、画素を単位とする視差距離を表現するために用いられ、遮蔽マップは左画像の各画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを表現するために用いられる。視野角の変化により、左画像における何らかの領域が右画像において他の物体に遮蔽され、そこで遮蔽マップは左画像における画素が右画像において遮蔽されているかどうかをレベル付けするために用いられる。この部分では、両眼マッチングネットワークはコンピュータレンダリングエンジンにより生成される合成データを使用して訓練し、まずレンダリングエンジンによっていくつかの仮想３Ｄシーンを構築し、続いて二つの仮想カメラによって３Ｄシーンを両眼画像としてマッピングし、それにより合成データを得て、同時に正確な深度データおよびカメラ焦点距離などのデータもレンダリングエンジンから得られるため、両眼マッチングネットワークは直接これらのラベル付きデータによって教師あり訓練を行うことができる。

ステップＳ２０２において、損失関数を使用し、教師なしの微調整方法によって実両眼画像データに基づいてステップＳ２０１で得られた両眼マッチングネットワークを微調整する。

この部分では、たとえ深度ラベルなしの実両眼データを用いて両眼視差ネットワークの教師なし訓練を行っても、両眼視差ネットワークは実データを適合させる必要がある。ここの教師なし訓練とは深度データラベルがない状況で、両眼データのみで訓練することをいう。本願の実施例は新たな教師なしの微調整方法、即ち上記実施例における損失関数を使用した教師なしの微調整を提供する。本願の実施例が提供する損失関数の主な目的は予備訓練効果を低下させることなく実両眼データに基づいて両眼視差ネットワークを微調整するのを図ることであり、微調整プロセスではステップＳ２０１で得られた、予備訓練された両眼視差ネットワークの予備的な出力により指導および正則化を行う。図２Ｂは本願の実施例の損失関数の効果模式図であり、図２Ｂに示すように、番号が２１の画像２１は従来技術での損失関数を使用した場合に得られた視差マップであり、番号が２２の画像２２は本願の実施例が提供する損失関数を使用した場合に得られた視差マップである。従来技術の損失関数は遮蔽領域を単独で考慮せず、遮蔽領域の画像再構成誤差をもゼロに最適化し、それにより遮蔽領域の予測視差誤りが発生し、視差マップのエッジもぼやけるのに対して、本願における損失関数は遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。

ステップＳ２０３において、ステップＳ２０２で得られた両眼マッチングネットワークを使用して実データに基づいて単眼深度推定を教示し、最終的に単眼深度推定ネットワークを得る。ここで、前記単眼深度推定ネットワークの入力は、単一単眼画像であり、前記単眼深度推定ネットワークの出力は、深度マップである。ステップＳ２０２で実データに基づいて微調整した両眼視差ネットワークが得られ、一対の両眼画像毎に、両眼視差ネットワークが視差マップを予測して得て、視差マップＤ、両眼レンズ基線長ｂおよびレンズ焦点距離ｆによって、視差マップの対応する深度マップを計算して得ることができる、即ち式（８）

によって視差マップの対応する深度マップｄを計算して得ることができる。単眼深度ネットワークを訓練して深度マップを予測して得るために、両眼画像対のうちの左画像を単眼深度ネットワークの入力とし、続いて計算して得られた深度マップを両眼視差ネットワークによって出力して教示し、それにより単眼深度ネットワークを訓練し、最終的な結果を得るようにしてもよい。実際の適用では、本願の実施例における単眼深度推定方法によって訓練して無人運転のための深度推定モジュールを得て、それによりシーンの三次元再構成または障害物検出を行うことができる。かつ本願の実施例が提供する教師なしの微調整方法は両眼視差ネットワークの性能を向上させる。

従来技術では、教師ありの単眼深度推定方法では、正確なラベル付きデータはかなり限られた数しか取得できず、かつその取得も非常に困難である。再構成誤差に基づく教師なしの方法は性能が通常画素マッチングの曖昧さにより制限される。これらの問題を解決するために、本願の実施例は新たな単眼深度推定方法を提供し、従来技術での教師ありおよび教師なしの深度推定方法の限界を打破する。本願の実施例における方法は両眼マッチングネットワークを使用してクロスモーダルな合成データに基づいて訓練し、かつそれで単眼深度推定ネットワークを教示する。前記両眼マッチングネットワークは、意味特徴から抽出するのではなく、左右画像の画素マッチング関係に基づいて視差を得るため、両眼マッチングネットワークは合成データから実データに効果的に汎化することができる。本願の実施例の方法は主に三つのステップを含む。第一に、合成データを用いて両眼マッチングネットワークを訓練し、両眼画像から遮蔽マップおよび視差マップを予測する。第二に、利用可能な実データを用いて、教師ありまたは教師なしで、訓練後の両眼マッチングネットワークを選択的に調整する。第三に、第二のステップで得られた、実データを用いて微調整して訓練した両眼マッチングネットワークによる教示下で、単眼深度推定ネットワークを訓練する。このように、両眼マッチングネットワークを間接的に利用することで単眼深度推定において合成データをより効果的に利用して性能を向上させることができる。

第一のステップでは、合成データを利用して両眼マッチングネットワークを訓練し、それは以下を含む。現時点では、グラフィックスレンダリングエンジンによって深度情報を含む多数の合成画像を生成できる。しかし、単眼深度推定はシーンに入力される意味情報に非常に敏感であるため、これらの合成画像データを実データと直接併合して単眼深度推定ネットワークを訓練すると、通常悪い性能が得られる。合成データと実データとの巨大なモダリティの差により、合成データを使用した補助訓練は全く役に立たなくなる。しかしながら、両眼マッチングネットワークはより強い汎化能力を有し、合成データを使用して訓練した両眼マッチングネットワークは実データに基づいても良好な視差マップを出力できる。そのため、本願の実施例は両眼マッチングネットワーク訓練を介して合成データと実データとを繋いで単眼深度訓練の性能を向上させる。まず大量の合成両眼データを利用して両眼マッチングネットワークを予備訓練する。従来の構造とは異なり、実施例における両眼マッチングネットワークは視差マップのもとに、さらにマルチスケールの遮蔽マップを推定する。ここで、遮蔽マップは正確な画像において、左側画像の画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを示す。次のステップでは、教師なしの微調整方法に前記遮蔽マップが使用され、それによって誤推定を回避する。そのうち、左右視差の整合性チェック方法を使用し、式（９）

を利用して正確にラベル付けされた視差マップから正確なラベルを有する遮蔽マップを得るようにしてもよい。ここで、下付き文字

は画像における

行目の値を表し、下付き文字

は画像における

列目の値を表す。

は左右画像の視差マップを表し、

は右画像で再構成した左画像の視差マップであり、非遮蔽領域について、左視差マップと右画像で再構成した左画像の視差マップとは一致するものである。整合性チェックの閾値は１とする。遮蔽マップは遮蔽領域において０とし、非遮蔽領域において１とする。従って、本実施例は式（１０）

を使用して合成データによる両眼マッチングネットワーク訓練の損失（Ｌｏｓｓ）を計算し、この段階で、損失関数

は二つの部分、即ち視差マップ推定誤差

および遮蔽マップ推定誤差

からなる。両眼視差ネットワークのマルチスケール中間層にも視差および遮蔽予測が発生し、かつそのままマルチスケール予測の損失重み

に用いられ、

は各層の対応する視差マップ推定誤差を表し、

は各層の対応する遮蔽マップ推定誤差を表し、

層目を表す。視差マップを訓練するために、Ｌ１損失関数を採用して異常値の影響を回避し、訓練プロセスのロバスト性を向上させる。遮蔽マップを訓練するために、式（１１）

で遮蔽マップ推定誤差

を表し、二値交差エントロピー損失を分類タスクとして遮蔽マップを訓練する。ここで、

は画像における画素の総数であり、

は正確なラベルを有する遮蔽マップを表し、

は訓練後の両眼マッチングネットワークによって出力された遮蔽マップを表す。

第二のステップでは、教師ありまたは教師なしの微調整方法を使用して実データに基づいて第一のステップで得られた訓練後の両眼マッチングネットワークを訓練し、それは以下を含む。本願の実施例は二つの方式で訓練後の両眼マッチングネットワークを微調整する。そのうち、教師ありの微調整方法では、マルチスケールのＬ１回帰損失関数

、即ち視差マップ推定誤差

のみを採用して先の画素マッチング予測の誤差を改善し、それについては式（１２）

を参照されたい。結果によると、数少ない監視データ、例えば１００枚の画像を使用しても、両眼マッチングネットワークは合成モーダルデータから実モーダルデータに適合させることができる。教師なしの微調整方法では、教師なしのネットワークチューニングについて、図２Ｂにおける画像２１に示すように、従来技術での教師なしの微調整方法によってはぼやけた視差マップが得られ、性能が悪い。その原因は教師なし損失の限界、およびＲＧＢ値のみが入った画素マッチングの曖昧性にある。そこで、本願の実施例は付加的な正則項を導入してその制約により性能を向上させる。実データにより、微調整されていない訓練後の両眼マッチングネットワークから対応する遮蔽マップおよび視差マップを得て、かつ、それをそれぞれ

でラベル付けする。この二つのデータは訓練プロセスの規範化に用いられる。さらに、本願の実施例が提供する教師なしの微調整損失関数、即ち損失関数

の取得については前の実施例における記載を参照すればよい。

第三のステップでは、単眼深度推定ネットワークを訓練し、それは以下を含む。ここまで、発明者らは大量の合成データによって両眼マッチングネットワークのクロスモーダルな訓練を行い、実データを使用して微調整していた。最終的な単眼深度推定ネットワークを訓練するために、本願の実施例は訓練後の両眼マッチングネットワークにより予測される視差マップを採用して訓練データを提供する。単眼深度推定の損失

は式（１３）

に示す複数の部分から求められる。ここで、

は画素点の総和であり、

は単眼深度推定ネットワークにより出力される視差マップを表し、

は訓練後の両眼マッチングネットワークにより出力される視差マップ、または、訓練後の両眼マッチングネットワークを微調整したネットワークにより出力される視差マップを表す。なお、式（９）から式（１３）はいずれも単眼深度推定ネットワークによって実データのうちの左画像を訓練サンプルとして使用することを例にし、説明していることに注意すべきである。実験については、単眼深度推定ネットワークが視野角の変化に敏感であるため、訓練データには切り抜きおよびスケーリングを施さない。前記単眼深度推定ネットワークの入力、および単眼深度推定ネットワーク教示用の視差マップはいずれも訓練後の両眼マッチングネットワークから得られる。図２Ｃは本願の実施例の可視化深度推定の結果模式図であり、従来技術および本願の実施例における単眼深度推定方法を使用して取得した三つの異なる街並み画像の対応する深度マップを示し、そのうち、１行目は単眼深度推定ネットワークの入力、即ち三つの異なる街並み画像であり、２行目は最近傍法によって疎なレーザレーダ深度マップに補間して得られた深度データであり、３行目から５行目は従来技術における三つの異なる単眼深度推定方法によってそれぞれ得られた三つの入力画像の対応する深度マップである。本願の結果は最後の三行に示し、それは本願の実施例における第一のステップで得られた、合成データを使用して訓練した両眼マッチングネットワークをそのまま利用し、単眼深度推定ネットワークを教示することによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が２１の画像２１、番号が２２の画像２２、番号が２３の画像２３、本願の実施例が提供する教師なし損失関数により、訓練後の両眼マッチングネットワークを微調整し、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が２４の画像２４、番号が２５の画像２５、番号が２６の画像２６、および訓練後の両眼マッチングネットワークの教師あり微調整を行い、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が２７の画像２７、番号が２８の画像２８、番号が２９の画像２９である。番号が２１の画像２１から番号が２９の画像２９から見えるように、本願の実施例における単眼深度推定方法によって得られたモデルはより細かいシーン構造をキャプチャ可能である。

本願の実施例は単眼深度推定装置を提供し、図３は本願の実施例の単眼深度推定装置の構成模式図であり、図３に示すように、前記装置３００は、処理対象の画像を取得するように構成された取得モジュール３０１と、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュール３０２と、前記処理対象の画像の解析結果を出力するように構成された出力モジュール３０３と、を含む。

いくつかの実施例では、前記装置はさらに、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む。

いくつかの実施例では、前記装置はさらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む。

いくつかの実施例では、前記装置はさらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む。

いくつかの実施例では、前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。

いくつかの実施例では、前記装置はさらに、レンダリングエンジンによって仮想３Ｄシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記３Ｄシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想３Ｄシーンを構築する時の位置、前記仮想３Ｄシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールと、を含む。

いくつかの実施例では、前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む。

いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される。

いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む。

いくつかの実施例では、前記装置はさらに、式（１４）

を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記

は損失関数を表し、前記

は再構成誤差を表し、前記

は強度係数を表す。

いくつかの実施例では、前記装置はさらに、式（１５）

または式（１６）

を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記

は画像における画素の数を表し、前記

は右画像をサンプリングしてから合成した画像の画素値を表し、前記

は左画像をサンプリングしてから合成した画像の画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、

は画素点の画素座標を表す。

いくつかの実施例では、前記装置はさらに、式（１７）

または式（１８）

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップと比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記

はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は強度係数を表す。

いくつかの実施例では、前記装置はさらに、式（１９）

または式（２０）

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表す。

いくつかの実施例では、前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールは、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するように構成された第一取得ユニットと、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第一訓練ユニットと、を含む。

いくつかの実施例では、前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールはさらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るように構成された第二取得ユニットと、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第一決定ユニットと、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第二訓練ユニットと、を含む。

いくつかの実施例では、前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、前記装置はさらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む。

ここで説明すべきは、以上の装置の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の装置の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。本願の実施例において、ソフトウェア機能モジュールの形で上記単眼深度推定方法を実現し、かつ独立した製品として販売または使用する場合、コンピュータ読み取り可能記憶媒体に記憶してもよい。このような見解をもとに、本願の実施例の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器に本願の各実施例に記載の方法の全てまたは一部を実行させる複数の命令を含む。前記記憶媒体は、ＵＳＢフラッシュドライブ、モバイルハードディスク、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読み取り専用メモリ）、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含む。従って、本願の実施例はハードウェアとソフトウェアのいかなる特定の組み合わせにも限定されない。それに対して、本願の実施例はプロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。それに対して、本願の実施例はコンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。ここで指摘しておきたいのは、以上の記憶媒体および機器の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の記憶媒体および機器の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。

説明すべきは、図４は本願の実施例の単眼深度推定機器のハードウェア実体模式図であり、図４に示すように、該単眼深度推定機器４００のハードウェア実体は、メモリ４０１、通信バス４０２およびプロセッサ４０３を含み、そのうち、メモリ４０１はプロセッサ４０３により実行可能な命令およびアプリケーションを記憶するように構成され、またプロセッサ４０３および単眼深度推定機器４００内の各モジュールの処理対象のまたは処理したデータをキャッシュすることができ、それはＦＬＡＳＨ（登録商標）（フラッシュメモリ）またはＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）によって実現可能である。通信バス４０２は単眼深度推定機器４００をネットワークによって他の端末またはサーバと通信するようにすることができ、またプロセッサ４０３とメモリ４０１の間の接続や通信をも実現できる。プロセッサ４０３は通常、単眼深度推定機器４００の全体的な動作を制御する。

説明すべきは、本明細書において、用語「含む」、「からなる」またはその他のあらゆる変形は非排他的包含を含むように意図され、それにより一連の要素を含むプロセス、方法、物品または装置は、それらの要素のみならず、明示されていない他の要素、またはこのようなプロセス、方法、物品または装置に固有の要素をも含むようになるということである。特に断らない限り、後句「一つの……を含む」により限定される要素は、該要素を含むプロセス、方法、物品または装置に別の同じ要素がさらに存在することを排除するものではない。

以上の実施形態に対する説明によって、当業者であれば上記実施例の方法はソフトウェアと必要な共通ハードウェアプラットフォームとの組み合わせという形態で実現できることを明らかに理解可能であり、当然ながら、ハードウェアによって実現してもよいが、多くの場合において前者はより好ましい実施形態である。このような見解をもとに、本願の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェアの形で実施することができ、該コンピュータソフトウェア製品は記憶媒体（例えばＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶され、端末機器（携帯電話、コンピュータ、サーバ、エアコン、またはネットワーク機器などであってもよい）に本願の各実施例に記載の方法を実行させる複数の命令を含む。

本願は本願の実施例に係る方法、機器（装置）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して説明している。なお、フローチャートおよび／またはブロック図におけるそれぞれのフローおよび／またはブロック、ならびにフローチャートおよび／またはブロック図におけるフローおよび／またはブロックの組み合わせはコンピュータプログラム命令によって実現できることを理解すべきである。これらのコンピュータプログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータ、組み込みプロセッサまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令は、フローチャートの一つ以上のフローおよび／またはブロック図の一つ以上のブロックにおいて指定された機能を実現する手段を創出する。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置を特定の方式で動作させるように指導可能なコンピュータ読み取り可能メモリに記憶されてもよく、それによって該コンピュータ読み取り可能メモリに記憶された命令は、フローチャートの一つ以上のフローおよび／またはブロック図の一つ以上のブロックにおいて指定された機能を実現する命令手段を含む製品を創出する。

これらのコンピュータプログラム命令はコンピュータまたは他のプログラマブルデータ処理装置にロードすることにより、コンピュータ実行処理を生成するように、コンピュータまたは他のプログラマブルデータ処理装置において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置において実行される命令はフローチャートの一つ以上のフローおよび／またはブロック図の一つ以上のブロックにおいて指定された機能を実現するためのステップを提供する。

以上は本願の好適な実施例に過ぎず、本願の特許範囲を限定するものではなく、本願の明細書および図面の内容を利用してなした等価構成または等価フロー変換、あるいは他の関連技術分野へのその直接または間接の転用は、同様に、いずれも本願の特許保護範囲に含まれるものとする。

Claims

計算機器によって実行される単眼深度推定方法であって、前記単眼深度推定方法は、
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと
を含み、
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと
を含み、
前記単眼深度推定方法は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップをさらに含み、
前記深度ラベル付きの合成された両眼画像を取得することは、レンダリングエンジンによって仮想３Ｄシーンを構築することと、二つの仮想カメラによって前記３Ｄシーンを両眼画像としてマッピングすることと、前記仮想３Ｄシーンを構築する時の位置および前記仮想３Ｄシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得することと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得ることとを含む、単眼深度推定方法。
前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、
前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する、請求項１に記載の単眼深度推定方法。
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項１に記載の単眼深度推定方法。
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップをさらに含む、請求項１に記載の単眼深度推定方法。
前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項４に記載の単眼深度推定方法。
前記単眼深度推定方法は、式

を利用して前記損失関数を決定するステップをさらに含み、
ここで、前記

は損失関数を表し、前記

は再構成誤差を表し、前記

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記

は強度係数を表す、請求項５に記載の単眼深度推定方法。
前記単眼深度推定方法は、式

、または、

を利用して前記再構成誤差を決定するステップをさらに含み、
ここで、前記

は画像における画素の数を表し、前記

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記

は右画像をサンプリングしてから合成した画像の画素値を表し、前記

は左画像をサンプリングしてから合成した画像の画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は画素点の画素座標を表す、請求項６に記載の単眼深度推定方法。
前記単眼深度推定方法は、式

、または、

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップをさらに含み、
ここで、前記

は画像における画素の数を表し、前記

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記

は画素点の画素座標を表し、前記

は強度係数を表す、請求項６に記載の単眼深度推定方法。
前記単眼深度推定方法は、式

、または、

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップをさらに含み、
ここで、前記

は画像における画素の数を表し、前記

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記

は画素点の画素座標を表す、請求項６に記載の単眼深度推定方法。
前記深度ラベル付きの実両眼データは、左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項３に記載の単眼深度推定方法。
前記深度ラベルなしの実両眼データは、左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップおよび前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項４～９のいずれか一項に記載の単眼深度推定方法。
前記処理対象の画像の解析結果は、前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップおよび前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと
を含む、請求項１０または請求項１１に記載の単眼深度推定方法。
単眼深度推定装置であって、前記単眼深度推定装置は、
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと
を含み、
前記単眼深度推定装置は、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールとをさらに含み、
前記単眼深度推定装置は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールをさらに含み、
前記単眼深度推定装置は、レンダリングエンジンによって仮想３Ｄシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記３Ｄシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想３Ｄシーンを構築する時の位置および前記仮想３Ｄシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールとをさらに含む、単眼深度推定装置。
プロセッサで実行可能なコンピュータプログラムを記憶したメモリと、
前記コンピュータプログラムを実行することにより、請求項１～１２のいずれか一項に記載の単眼深度推定方法を実行するプロセッサと
を含む単眼深度推定機器。
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～１２のいずれか一項に記載の単眼深度推定方法を実現する、コンピュータ読み取り可能な記憶媒体。
請求項１～１２のいずれか一項に記載の単眼深度推定方法を実行することをコンピュータに行わせるように構成されるコンピュータプログラム。