JP7106665B2 - 単眼深度推定方法およびその装置、機器ならびに記憶媒体 - Google Patents

単眼深度推定方法およびその装置、機器ならびに記憶媒体 Download PDF

Info

Publication number
JP7106665B2
JP7106665B2 JP2020546428A JP2020546428A JP7106665B2 JP 7106665 B2 JP7106665 B2 JP 7106665B2 JP 2020546428 A JP2020546428 A JP 2020546428A JP 2020546428 A JP2020546428 A JP 2020546428A JP 7106665 B2 JP7106665 B2 JP 7106665B2
Authority
JP
Japan
Prior art keywords
network model
binocular
image
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020546428A
Other languages
English (en)
Other versions
JP2021515939A (ja
Inventor
郭▲曉▼▲陽▼
李▲鴻▼升
伊▲帥▼
任思捷
王▲曉▼▲剛▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021515939A publication Critical patent/JP2021515939A/ja
Application granted granted Critical
Publication of JP7106665B2 publication Critical patent/JP7106665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願の相互参照)
本願は2018年05月22日に出願された、出願番号201810496541.6の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願の実施例は人工知能分野に関し、特に単眼深度推定方法およびその装置、機器ならびに記憶媒体に関する。
単眼深度推定はコンピュータビジョンにおける重要な課題であり、単眼深度推定の具体的なタスクは画像における画素点それぞれの深度を予測することである。そのうち、各画素点の深度値からなる画像は深度マップとも呼ばれる。単眼深度推定は自動運転における障害物検出、三次元シーン再構成、立体シーン解析に対して重要な意味を持っている。また、単眼深度推定は他のコンピュータビジョンタスク、例えば物体検出、ターゲット追跡およびターゲット識別の性能を間接的に向上させることができる。
現時点での問題は単眼深度推定用のニューラルネットワークを訓練するために大量のラベル付きデータが必要であるが、ラベル付きデータを取得するコストが高い。室外環境ではレーザレーダによってラベル付きデータを取得できるが、取得したラベル付きデータは非常に疎であり、このようなラベル付きデータを用いて訓練した単眼深度推定ネットワークは明瞭なエッジを有さず小さな物体の正確な深度情報をキャプチャできない。
本願の実施例は単眼深度推定方法およびその装置、機器ならびに記憶媒体を提供する。
本願の実施例の技術的解決手段は以下のように実現する。
本願の実施例は、処理対象の画像を取得するステップと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法を提供する。
本願の実施例は、処理対象の画像を取得するように構成された取得モジュールと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置を提供する。
本願の実施例は、プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に本願の実施例が提供する単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。
本願の実施例は、コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に本願の実施例が提供する単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。
本願の実施例では、処理対象の画像を取得し、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得て、そして前記処理対象の画像の解析結果を出力することで、深度マップラベル付きのデータをより少なく使用するか、または使用しないで、単眼深度推定ネットワークを訓練することができ、またより効率的な、教師なしの、微調整可能な、両眼視差を利用したネットワークによる方法を提供し、それにより単眼深度推定の効果を間接的に向上させる。
例えば、本願は以下の項目を提供する。
(項目1)
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法。
(項目2)
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと、を含む項目1に記載の方法。
(項目3)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップを含む項目2に記載の方法。
(項目4)
前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する前記ステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目3に記載の方法。
(項目5)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目6)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップはさらに、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目7)
前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目6に記載の方法。
(項目8)
さらに、式
(化87)
Figure 0007106665000001

を利用して前記損失関数を決定するステップを含み、
ここで、前記
(化88)
Figure 0007106665000002

は損失関数を表し、前記
(化89)
Figure 0007106665000003

は再構成誤差を表し、前記
(化90)
Figure 0007106665000004

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化91)
Figure 0007106665000005

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化92)
Figure 0007106665000006

は強度係数を表す項目7に記載の方法。
(項目9)
さらに、式
(化93)
Figure 0007106665000007

、または、
(化94)
Figure 0007106665000008

を利用して前記再構成誤差を決定するステップを含み、
ここで、前記
(化95)
Figure 0007106665000009

は画像における画素の数を表し、前記
(化96)
Figure 0007106665000010

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化97)
Figure 0007106665000011

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化98)
Figure 0007106665000012

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化99)
Figure 0007106665000013

は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化100)
Figure 0007106665000014

は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化101)
Figure 0007106665000015

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化102)
Figure 0007106665000016

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化103)
Figure 0007106665000017

は画素点の画素座標を表す項目8に記載の方法。
(項目10)
さらに、式
(化104)
Figure 0007106665000018

、または、
(化105)
Figure 0007106665000019

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップを含み、
ここで、前記
(化106)
Figure 0007106665000020

は画像における画素の数を表し、前記
(化107)
Figure 0007106665000021

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化108)
Figure 0007106665000022

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化109)
Figure 0007106665000023

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化110)
Figure 0007106665000024

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化111)
Figure 0007106665000025

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化112)
Figure 0007106665000026

は画素点の画素座標を表し、前記
(化113)
Figure 0007106665000027

は強度係数を表す項目8に記載の方法。
(項目11)
さらに、式
(化114)
Figure 0007106665000028

、または、
(化115)
Figure 0007106665000029

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップを含み、
ここで、前記
(化116)
Figure 0007106665000030

は画像における画素の数を表し、前記
(化117)
Figure 0007106665000031

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化118)
Figure 0007106665000032

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化119)
Figure 0007106665000033

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化120)
Figure 0007106665000034

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化121)
Figure 0007106665000035

は画素点の画素座標を表す項目8に記載の方法。
(項目12)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと、を含む項目5に記載の方法。
(項目13)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと、を含む項目6から11のいずれか一項に記載の方法。
(項目14)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと、を含む項目12または13に記載の方法。
(項目15)
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置。
(項目16)
さらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む項目15に記載の装置。
(項目17)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む項目16に記載の装置。
(項目18)
前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目17に記載の装置。
(項目19)
前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む項目16に記載の装置。
(項目20)
前記第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される項目16に記載の装置。
(項目21)
前記第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む項目20に記載の装置。
(項目22)
さらに、式
(化122)
Figure 0007106665000036

を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記
(化123)
Figure 0007106665000037

は損失関数を表し、前記
(化124)
Figure 0007106665000038

は再構成誤差を表し、前記
(化125)
Figure 0007106665000039

は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化126)
Figure 0007106665000040

は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化127)
Figure 0007106665000041

は強度係数を表す項目21に記載の装置。
(項目23)
さらに、式
(化128)
Figure 0007106665000042

、または、
(化129)
Figure 0007106665000043

を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記
(化130)
Figure 0007106665000044

は画像における画素の数を表し、前記
(化131)
Figure 0007106665000045

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化132)
Figure 0007106665000046

は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化133)
Figure 0007106665000047

は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化134)
Figure 0007106665000048

は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化135)
Figure 0007106665000049

は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化136)
Figure 0007106665000050

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化137)
Figure 0007106665000051

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化138)
Figure 0007106665000052

は画素点の画素座標を表す項目22に記載の装置。
(項目24)
さらに、式
(化139)
Figure 0007106665000053

、または、
(化140)
Figure 0007106665000054

を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記
(化141)
Figure 0007106665000055

は画像における画素の数を表し、前記
(化142)
Figure 0007106665000056

は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化143)
Figure 0007106665000057

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化144)
Figure 0007106665000058

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化145)
Figure 0007106665000059

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化146)
Figure 0007106665000060

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化147)
Figure 0007106665000061

は画素点の画素座標を表し、前記
(化148)
Figure 0007106665000062

は強度係数を表す項目22に記載の装置。
(項目25)
さらに、式
(化149)
Figure 0007106665000063

、または、
(化150)
Figure 0007106665000064

を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記
(化151)
Figure 0007106665000065

は画像における画素の数を表し、前記
(化152)
Figure 0007106665000066

は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化153)
Figure 0007106665000067

は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化154)
Figure 0007106665000068

は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化155)
Figure 0007106665000069

は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化156)
Figure 0007106665000070

は画素点の画素座標を表す項目22に記載の装置。
(項目26)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得し、そして前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目19に記載の装置。
(項目27)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得て、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定し、そして前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目20から25のいずれか一項に記載の装置。
(項目28)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む項目26または27に記載の装置。
(項目29)
プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現する単眼深度推定機器。
(項目30)
コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体。
本願の実施例に係る単眼深度推定方法の実現フローチャート1である。 本願の実施例の単一画像の深度推定模式図である。 本願の実施例の第二両眼マッチングニューラルネットワークモデルの訓練模式図である。 本願の実施例の単眼深度推定ネットワークモデルの訓練模式図である。 本願の実施例の損失関数関連画像の模式図である。 本願の実施例に係る単眼深度推定方法の実現フローチャート2である。 本願の実施例の損失関数の効果模式図である。 本願の実施例の可視化深度推定の結果模式図である。 本願の実施例の単眼深度推定装置の構成模式図である。 本願の実施例の単眼深度推定機器のハードウェア実体模式図である。
本願の実施例の目的、技術的解決手段および利点をより明確にするために、以下に本願の実施例における図面と関連付けて、出願の具体的な技術的解決手段をさらに詳細に説明する。以下の実施例は本願を説明するためのものであり、本願の範囲を限定するものではない。
後続の記載では、「モジュール」、「コンポーネント」または「ユニット」など要素を表すための接尾辞は本願の説明に役立つためにのみ使用され、それら自体は特定の意味を持っていない。従って、「モジュール」、「コンポーネント」または「ユニット」は混合して使用可能である。
一般的には、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。本願の実施例が提供する単眼深度推定方法はニューラルネットワークによって訓練して得られ、訓練データは両眼マッチングによって出力された視差マップデータに由来し、レーザレーダなどの高価な深度取得機器を必要としない。訓練データを提供する両眼マッチングアルゴリズムもニューラルネットワークによって実現され、該ネットワークはレンダリングエンジンによりレンダリングされる大量の仮想両眼画像対によって予備訓練するだけで良好な効果を達成でき、また、実データに基づいてさらに微調整による訓練を行ってより良好な効果を達成できる。
以下に図面と実施例を関連付けて本願の技術的解決手段をさらに説明する。
本願の実施例は計算機器において用いられる単眼深度推定方法を提供し、該方法が実現する機能はサーバ内のプロセッサによってプログラムコードを呼び出して実現されてもよく、当然ながら、プログラムコードはコンピュータ記憶媒体内に記憶可能であり、よって、該サーバは少なくともプロセッサおよび記憶媒体を含む。図1Aは本願の実施例に係る単眼深度推定方法の実現フローチャート1であり、図1Aに示すように、該方法は以下を含む。
ステップS101において、処理対象の画像を取得する。
ここで、移動端末によって処理対象の画像を取得してもよく、前記処理対象の画像は、任意のシーンの画像を含んでもよい。一般的には、移動端末は実施プロセスにおいて、例えば携帯電話、携帯情報端末(Personal Digital Assistant:PDA)、ナビゲーター、デジタル電話機、テレビ電話機、スマートウォッチ、スマートブレスレット、ウエアラブル機器、タブレットなどを含むような、情報処理能力を有する様々なタイプの機器としてもよい。サーバは実現プロセスにおいて、例えば携帯電話、タブレット、ノートパソコンなどの移動端末、パーソナルコンピュータおよびサーバクラスタなどの固定端末のような情報処理能力を有する計算機器としてもよい。
ステップS102において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。
本願の実施例では、前記単眼深度推定ネットワークモデルは主に以下の三つのステップによって取得される。第一のステップではレンダリングエンジンによりレンダリングされる合成両眼データを使用して両眼マッチングニューラルネットワークを予備訓練する。第二のステップでは実シーンのデータを使用して第一のステップで得られた両眼マッチングニューラルネットワークの微調整による訓練を行う。第三のステップでは第二のステップで得られた両眼マッチングニューラルネットワークを使用して単眼深度推定ネットワークを教示し、それにより単眼深度推定ネットワークを訓練して得る。従来技術では、単眼深度推定は一般的に大量のラベル付きの実データを使用して訓練するか、または教師なしの方法を使用して単眼深度推定ネットワークを訓練する。しかし、大量のラベル付きの実データは取得コストが高く、またそのまま教師なしの方法によって単眼深度推定ネットワークを訓練すれば遮蔽領域の深度推定が処理できなくなり、得られた効果が悪い。それに対して、本願では前記単眼深度推定ネットワークモデルのサンプルデータが第一両眼マッチングニューラルネットワークモデルにより出力される視差マップに由来し、つまり、本願は両眼視差を利用した単眼深度予測を行う。従って、本願における方法は大量のラベル付きデータを必要とせず、かつ良好な訓練効果を得ることができる。
ステップS103において、前記処理対象の画像の解析結果を出力する。ここで、前記処理対象の画像の解析結果とは、前記処理対象の画像の対応する深度マップをいう。処理対象の画像を取得してから、前記処理対象の画像を訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記単眼深度推定ネットワークモデルは一般的に、深度マップではなく、前記処理対象の画像の対応する視差マップを出力するため、さらに前記単眼深度推定ネットワークモデルにより出力される視差マップ、処理対象の画像を撮影するカメラのレンズ基線長および処理対象の画像を撮影するカメラのレンズ焦点距離に基づき、前記処理対象の画像の対応する深度マップを決定する必要がある。
図1Bは本願の実施例の単一画像の深度推定模式図であり、図1Bに示すように、番号が11の画像11は処理対象の画像であり、番号が12の画像12は番号が11の画像11の対応する深度マップである。
実際の適用では、前記レンズ基線長および前記レンズ焦点距離の積と、前記出力される処理対象の画像の対応する視差マップとの比を、前記処理対象の画像の対応する深度マップとして決定してもよい。
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、該方法は以下を含む。
ステップS111において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。
いくつかの実施例では、前記方法はさらに、レンダリングエンジンによって仮想3Dシーンを構築するステップS11と、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするステップS12と、前記仮想3Dシーンを構築する時の位置、前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するステップS13と、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るステップS14と、を含む。
ステップS112において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。
ここで、実際の適用において、前記ステップS112は以下のステップによって実現してもよい。ステップS1121、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得る。ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。
図1Cは本願の実施例の第二両眼マッチングニューラルネットワークモデルの訓練模式図であり、図1Cに示すように、番号が11の画像11は合成された両眼画像の左画像であり、番号が12の画像12は合成された両眼画像の右画像であり、
Figure 0007106665000071
は番号が11の左画像11に含まれる全ての画素点の画素値であり、
Figure 0007106665000072
は番号が12の右画像12に含まれる全ての画素点の画素値であり、番号が13の画像13は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した遮蔽マップであり、番号が14の画像14は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した視差マップであり、番号が15の画像15は第二両眼マッチングニューラルネットワークモデルである。
ステップS113において、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る。
ここで、前記ステップS113は二つの形態で実現できる。そのうち、第一の実現形態は以下のステップで実現する。ステップS1131a、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。ここで、取得したのは深度ラベル付きの実両眼データであり、このように、そのまま深度ラベル付きの実両眼データを用いて、ステップS112での訓練後の第二両眼マッチングニューラルネットワークの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、訓練後の第二両眼マッチングニューラルネットワークモデルの効果をさらに向上させ、第一両眼マッチングニューラルネットワークモデルを得ることができる。この部分では、両眼視差ネットワークは実データを適合させる必要がある。深度ラベル付きの実両眼データを使用し、教師ありの訓練によって両眼視差ネットワークを直接微調整して訓練してネットワークの重みを調整するようにしてもよい。第二の実現形態は以下のステップで実現する。ステップS1131b、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。本願の実施例では、また深度ラベルなしの実両眼データを使用して訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るようにしてもよい。ここの教師なし訓練とは深度データラベルなしで、両眼データのみで訓練することをいい、教師なしの微調整方法によって該プロセスを実現してもよい。
ステップS114において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。
ここで、前記ステップS114は二つの形態で実現してもよい。そのうち、第一の実現形態は以下のステップで実現する。ステップS1141a、左画像および右画像を含む前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得する。ステップS1142a、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練してもよく、そのうち、前記深度ラベル付きの実両眼データはステップS1131aで使用された深度ラベル付きの実両眼データである。第二の実現形態は以下のステップで実現する。ステップS1141b、左画像および右画像を含む前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得る。ステップS1142b、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。ステップS1143b、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、ステップS1131bで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、またステップS1141bで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をもサンプルデータとし、ステップS1141bで出力された視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練し、訓練後の単眼深度推定ネットワークモデルを得るようにしてもよい。
図1Dは本願の実施例の単眼深度推定ネットワークモデルの訓練模式図であり、図1Dに示すように、図(a)は深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する番号が13の視差マップ13を得ることを示し、そのうち、前記深度ラベルなしの実両眼データは番号が11の左画像11および番号が12の右画像12を含み、番号が15の画像15は第一両眼マッチングニューラルネットワークモデルである。図1Dにおける図(b)は前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記番号が13の視差マップ13の対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練することを示し、そのうち、前記サンプルデータの前記単眼深度推定ネットワークモデルによる出力は番号が14の視差マップ14であり、番号が16の画像16は単眼深度推定ネットワークモデルである。
ステップS115において、処理対象の画像を取得する。
ここで、訓練後の単眼深度推定ネットワークモデルを得ると、この単眼深度推定ネットワークモデルを使用することが可能である。即ち、この単眼深度推定ネットワークモデルを用いて、処理対象の画像の対応する深度マップを取得することができる。
ステップS116において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。
ステップS117において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。
ステップS118において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。
ステップS119において、前記視差マップの対応する深度マップを出力する。
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、該方法は以下を含む。
ステップS121において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。
ステップS122において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。
ここで、合成データを使用して第二両眼マッチングニューラルネットワークモデルを訓練すると、より高い汎化能力を発揮することができる。
ステップS123において、式(1)
Figure 0007106665000073
を利用して前記損失関数を決定する。ここで、前記
Figure 0007106665000074
は本願の実施例が提供する損失関数を表し、前記
Figure 0007106665000075
は再構成誤差を表し、前記
Figure 0007106665000076
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
Figure 0007106665000077
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
Figure 0007106665000078
は強度係数を表す。ここで、
Figure 0007106665000079
は正則項である。
いくつかの実施例では、ステップS123での式(1)はさらに以下のステップでの式によって細分化されてもよい。即ち、前記方法はさらに以下を含む。ステップS1231において、式(2)
Figure 0007106665000080
または式(3)
Figure 0007106665000081
を利用して前記再構成誤差を決定する。ここで、前記
Figure 0007106665000082
は画像における画素の数を表し、前記
Figure 0007106665000083
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
Figure 0007106665000084
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
Figure 0007106665000085
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
Figure 0007106665000086
は右画像をサンプリングしてから合成した画像、即ち再構成された左画像の画素値を表し、前記
Figure 0007106665000087
は左画像をサンプリングしてから合成した画像、即ち再構成された右画像の画素値を表し、前記
Figure 0007106665000088
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
Figure 0007106665000089
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
Figure 0007106665000090
は画素点の画素座標を表し、前記
Figure 0007106665000091
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記
Figure 0007106665000092
は右画像または右画像の関連データを表し、前記
Figure 0007106665000093
は左画像または左画像の関連データを表し、前記
Figure 0007106665000094
は画像画素点のRGB(Red Green Blue、赤、緑および青)値を表す。ステップS1232において、式(4)
Figure 0007106665000095
または式(5)
Figure 0007106665000096
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定する。ここで、前記
Figure 0007106665000097
は画像における画素の数を表し、前記
Figure 0007106665000098
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
Figure 0007106665000099
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記
Figure 0007106665000100
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記
Figure 0007106665000101
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記
Figure 0007106665000102
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記
Figure 0007106665000103
は画素点の画素座標を表し、前記
Figure 0007106665000104
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記
Figure 0007106665000105
は右画像または右画像の関連データを表し、前記
Figure 0007106665000106
は左画像または左画像の関連データを表し、前記
Figure 0007106665000107
は強度係数を表す。ステップS1233において、式(6)
Figure 0007106665000108
または式(7)
Figure 0007106665000109
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定する。ここで、前記
Figure 0007106665000110
は画像における画素の数を表し、前記
Figure 0007106665000111
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記
Figure 0007106665000112
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記
Figure 0007106665000113
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記
Figure 0007106665000114
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記
Figure 0007106665000115
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記
Figure 0007106665000116
は右画像または右画像の関連データを表し、前記
Figure 0007106665000117
は左画像または左画像の関連データを表す。
ステップS124において、損失関数(Loss)を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。
ここで、前記損失関数(Loss)はステップS122での訓練後の第二両眼マッチングニューラルネットワークの出力により微調整による訓練を正則化し、従来技術での教師なしの微調整に幅広く存在する予測が不明になるという問題を回避し、微調整によって得られた第一両眼マッチングネットワークの効果を向上させ、それにより第一両眼マッチングネットワークを教示して得られた単眼深度ネットワークの効果を間接的に向上させる。図1Eは本願の実施例の損失関数関連画像の模式図であり、図1Eに示すように、図(a)は深度ラベルなしの実両眼データの左画像であり、図1Eにおける図(b)は深度ラベルなしの実両眼データの右画像であり、図1Eにおける図(c)は図(a)と図(b)とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された視差マップであり、図1Eにおける図(d)は図(b)で表される右画像をサンプリングしてから、図(c)で表される視差マップと結合し、左画像を再構成した画像であり、図1Eにおける図(e)は図(a)で表される左画像における画素と図(d)で表される再構成後の左画像における対応する画素との差を求めて得られた画像、即ち左画像の再構成誤差マップであり、図1Eにおける図(f)は図(a)と図(b)とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された遮蔽マップである。ここで、図(d)における全ての赤枠11は前記再構成後の左画像の図(a)で表される実左画像との差異がある部分を表し、図(e)における全ての赤枠12は前記再構成誤差マップにおいて誤差がある部分、即ち遮蔽された部分を表す。ここで、ステップS124に記載の教師なしの微調整による両眼視差ネットワーク訓練を実現する時、右画像を使用して左画像を再構成する必要があるが、遮蔽が存在する領域が正確に再構成できないため、遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。
ステップS125において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。
ここで、前記単眼深度推定ネットワークモデルのサンプル画像は、深度ラベルなしの実両眼データのうちの左画像であってもよいし、深度ラベルなしの実両眼データのうちの右画像であってもよい。そのうち、左画像をサンプル画像とする場合、式(1)、式(2)、式(4)および式(6)を利用して損失関数を決定し、右画像をサンプル画像とする場合、式(1)、式(3)、式(5)および式(7)を利用して損失関数を決定する。
本願の実施例では、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する前記ステップとは、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップの対応する深度マップによって前記単眼深度推定ネットワークモデルを教示し、つまり教示情報を提供し、それにより前記単眼深度推定ネットワークモデルを訓練することをいう。
ステップS126において、処理対象の画像を取得する。
ステップS127において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。
ステップS128において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。
ステップS129において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。
ステップS130において、前記視差マップの対応する深度マップを出力する。
本願の実施例では、前記処理対象の画像が街並みの画像である場合、前記訓練後の単眼深度推定ネットワークモデルを使用して前記街並みの画像の深度を予測することができる。
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、図2Aは本願の実施例に係る単眼深度推定方法の実現フローチャート2であり、図2Aに示すように、該方法は以下を含む。
ステップS201において、レンダリングエンジンによりレンダリングされる合成データを使用して両眼マッチングネットワークを訓練し、両眼画像の視差マップを得る。
ここで、前記両眼マッチングネットワークの入力は、一対の両眼画像(左画像および右画像を含む)であり、前記両眼マッチングネットワークの出力は、視差マップ、遮蔽マップであり、即ち、両眼マッチングネットワークは両眼画像を入力として使用し、視差マップおよび遮蔽マップを出力する。そのうち、視差マップは左画像における各画素点と右画像における対応する画素点との、画素を単位とする視差距離を表現するために用いられ、遮蔽マップは左画像の各画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを表現するために用いられる。視野角の変化により、左画像における何らかの領域が右画像において他の物体に遮蔽され、そこで遮蔽マップは左画像における画素が右画像において遮蔽されているかどうかをレベル付けするために用いられる。この部分では、両眼マッチングネットワークはコンピュータレンダリングエンジンにより生成される合成データを使用して訓練し、まずレンダリングエンジンによっていくつかの仮想3Dシーンを構築し、続いて二つの仮想カメラによって3Dシーンを両眼画像としてマッピングし、それにより合成データを得て、同時に正確な深度データおよびカメラ焦点距離などのデータもレンダリングエンジンから得られるため、両眼マッチングネットワークは直接これらのラベル付きデータによって教師あり訓練を行うことができる。
ステップS202において、損失関数を使用し、教師なしの微調整方法によって実両眼画像データに基づいてステップS201で得られた両眼マッチングネットワークを微調整する。
この部分では、たとえ深度ラベルなしの実両眼データを用いて両眼視差ネットワークの教師なし訓練を行っても、両眼視差ネットワークは実データを適合させる必要がある。ここの教師なし訓練とは深度データラベルがない状況で、両眼データのみで訓練することをいう。本願の実施例は新たな教師なしの微調整方法、即ち上記実施例における損失関数を使用した教師なしの微調整を提供する。本願の実施例が提供する損失関数の主な目的は予備訓練効果を低下させることなく実両眼データに基づいて両眼視差ネットワークを微調整するのを図ることであり、微調整プロセスではステップS201で得られた、予備訓練された両眼視差ネットワークの予備的な出力により指導および正則化を行う。図2Bは本願の実施例の損失関数の効果模式図であり、図2Bに示すように、番号が21の画像21は従来技術での損失関数を使用した場合に得られた視差マップであり、番号が22の画像22は本願の実施例が提供する損失関数を使用した場合に得られた視差マップである。従来技術の損失関数は遮蔽領域を単独で考慮せず、遮蔽領域の画像再構成誤差をもゼロに最適化し、それにより遮蔽領域の予測視差誤りが発生し、視差マップのエッジもぼやけるのに対して、本願における損失関数は遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。
ステップS203において、ステップS202で得られた両眼マッチングネットワークを使用して実データに基づいて単眼深度推定を教示し、最終的に単眼深度推定ネットワークを得る。ここで、前記単眼深度推定ネットワークの入力は、単一単眼画像であり、前記単眼深度推定ネットワークの出力は、深度マップである。ステップS202で実データに基づいて微調整した両眼視差ネットワークが得られ、一対の両眼画像毎に、両眼視差ネットワークが視差マップを予測して得て、視差マップD、両眼レンズ基線長bおよびレンズ焦点距離fによって、視差マップの対応する深度マップを計算して得ることができる、即ち式(8)
Figure 0007106665000118
によって視差マップの対応する深度マップdを計算して得ることができる。単眼深度ネットワークを訓練して深度マップを予測して得るために、両眼画像対のうちの左画像を単眼深度ネットワークの入力とし、続いて計算して得られた深度マップを両眼視差ネットワークによって出力して教示し、それにより単眼深度ネットワークを訓練し、最終的な結果を得るようにしてもよい。実際の適用では、本願の実施例における単眼深度推定方法によって訓練して無人運転のための深度推定モジュールを得て、それによりシーンの三次元再構成または障害物検出を行うことができる。かつ本願の実施例が提供する教師なしの微調整方法は両眼視差ネットワークの性能を向上させる。
従来技術では、教師ありの単眼深度推定方法では、正確なラベル付きデータはかなり限られた数しか取得できず、かつその取得も非常に困難である。再構成誤差に基づく教師なしの方法は性能が通常画素マッチングの曖昧さにより制限される。これらの問題を解決するために、本願の実施例は新たな単眼深度推定方法を提供し、従来技術での教師ありおよび教師なしの深度推定方法の限界を打破する。本願の実施例における方法は両眼マッチングネットワークを使用してクロスモーダルな合成データに基づいて訓練し、かつそれで単眼深度推定ネットワークを教示する。前記両眼マッチングネットワークは、意味特徴から抽出するのではなく、左右画像の画素マッチング関係に基づいて視差を得るため、両眼マッチングネットワークは合成データから実データに効果的に汎化することができる。本願の実施例の方法は主に三つのステップを含む。第一に、合成データを用いて両眼マッチングネットワークを訓練し、両眼画像から遮蔽マップおよび視差マップを予測する。第二に、利用可能な実データを用いて、教師ありまたは教師なしで、訓練後の両眼マッチングネットワークを選択的に調整する。第三に、第二のステップで得られた、実データを用いて微調整して訓練した両眼マッチングネットワークによる教示下で、単眼深度推定ネットワークを訓練する。このように、両眼マッチングネットワークを間接的に利用することで単眼深度推定において合成データをより効果的に利用して性能を向上させることができる。
第一のステップでは、合成データを利用して両眼マッチングネットワークを訓練し、それは以下を含む。現時点では、グラフィックスレンダリングエンジンによって深度情報を含む多数の合成画像を生成できる。しかし、単眼深度推定はシーンに入力される意味情報に非常に敏感であるため、これらの合成画像データを実データと直接併合して単眼深度推定ネットワークを訓練すると、通常悪い性能が得られる。合成データと実データとの巨大なモダリティの差により、合成データを使用した補助訓練は全く役に立たなくなる。しかしながら、両眼マッチングネットワークはより強い汎化能力を有し、合成データを使用して訓練した両眼マッチングネットワークは実データに基づいても良好な視差マップを出力できる。そのため、本願の実施例は両眼マッチングネットワーク訓練を介して合成データと実データとを繋いで単眼深度訓練の性能を向上させる。まず大量の合成両眼データを利用して両眼マッチングネットワークを予備訓練する。従来の構造とは異なり、実施例における両眼マッチングネットワークは視差マップのもとに、さらにマルチスケールの遮蔽マップを推定する。ここで、遮蔽マップは正確な画像において、左側画像の画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを示す。次のステップでは、教師なしの微調整方法に前記遮蔽マップが使用され、それによって誤推定を回避する。そのうち、左右視差の整合性チェック方法を使用し、式(9)
Figure 0007106665000119
を利用して正確にラベル付けされた視差マップから正確なラベルを有する遮蔽マップを得るようにしてもよい。ここで、下付き文字
Figure 0007106665000120
は画像における
Figure 0007106665000121
行目の値を表し、下付き文字
Figure 0007106665000122
は画像における
Figure 0007106665000123
列目の値を表す。
Figure 0007106665000124
は左右画像の視差マップを表し、
Figure 0007106665000125
は右画像で再構成した左画像の視差マップであり、非遮蔽領域について、左視差マップと右画像で再構成した左画像の視差マップとは一致するものである。整合性チェックの閾値は1とする。遮蔽マップは遮蔽領域において0とし、非遮蔽領域において1とする。従って、本実施例は式(10)
Figure 0007106665000126
を使用して合成データによる両眼マッチングネットワーク訓練の損失(Loss)を計算し、この段階で、損失関数
Figure 0007106665000127
は二つの部分、即ち視差マップ推定誤差
Figure 0007106665000128
および遮蔽マップ推定誤差
Figure 0007106665000129
からなる。両眼視差ネットワークのマルチスケール中間層にも視差および遮蔽予測が発生し、かつそのままマルチスケール予測の損失重み
Figure 0007106665000130
に用いられ、
Figure 0007106665000131
は各層の対応する視差マップ推定誤差を表し、
Figure 0007106665000132
は各層の対応する遮蔽マップ推定誤差を表し、
Figure 0007106665000133
層目を表す。視差マップを訓練するために、L1損失関数を採用して異常値の影響を回避し、訓練プロセスのロバスト性を向上させる。遮蔽マップを訓練するために、式(11)
Figure 0007106665000134
で遮蔽マップ推定誤差
Figure 0007106665000135
を表し、二値交差エントロピー損失を分類タスクとして遮蔽マップを訓練する。ここで、
Figure 0007106665000136
は画像における画素の総数であり、
Figure 0007106665000137
は正確なラベルを有する遮蔽マップを表し、
Figure 0007106665000138
は訓練後の両眼マッチングネットワークによって出力された遮蔽マップを表す。
第二のステップでは、教師ありまたは教師なしの微調整方法を使用して実データに基づいて第一のステップで得られた訓練後の両眼マッチングネットワークを訓練し、それは以下を含む。本願の実施例は二つの方式で訓練後の両眼マッチングネットワークを微調整する。そのうち、教師ありの微調整方法では、マルチスケールのL1回帰損失関数
Figure 0007106665000139
、即ち視差マップ推定誤差
Figure 0007106665000140
のみを採用して先の画素マッチング予測の誤差を改善し、それについては式(12)
Figure 0007106665000141
を参照されたい。結果によると、数少ない監視データ、例えば100枚の画像を使用しても、両眼マッチングネットワークは合成モーダルデータから実モーダルデータに適合させることができる。教師なしの微調整方法では、教師なしのネットワークチューニングについて、図2Bにおける画像21に示すように、従来技術での教師なしの微調整方法によってはぼやけた視差マップが得られ、性能が悪い。その原因は教師なし損失の限界、およびRGB値のみが入った画素マッチングの曖昧性にある。そこで、本願の実施例は付加的な正則項を導入してその制約により性能を向上させる。実データにより、微調整されていない訓練後の両眼マッチングネットワークから対応する遮蔽マップおよび視差マップを得て、かつ、それをそれぞれ
Figure 0007106665000142
でラベル付けする。この二つのデータは訓練プロセスの規範化に用いられる。さらに、本願の実施例が提供する教師なしの微調整損失関数、即ち損失関数
Figure 0007106665000143
の取得については前の実施例における記載を参照すればよい。
第三のステップでは、単眼深度推定ネットワークを訓練し、それは以下を含む。ここまで、発明者らは大量の合成データによって両眼マッチングネットワークのクロスモーダルな訓練を行い、実データを使用して微調整していた。最終的な単眼深度推定ネットワークを訓練するために、本願の実施例は訓練後の両眼マッチングネットワークにより予測される視差マップを採用して訓練データを提供する。単眼深度推定の損失
Figure 0007106665000144
は式(13)
Figure 0007106665000145
に示す複数の部分から求められる。ここで、
Figure 0007106665000146
は画素点の総和であり、
Figure 0007106665000147
は単眼深度推定ネットワークにより出力される視差マップを表し、
Figure 0007106665000148
は訓練後の両眼マッチングネットワークにより出力される視差マップ、または、訓練後の両眼マッチングネットワークを微調整したネットワークにより出力される視差マップを表す。なお、式(9)から式(13)はいずれも単眼深度推定ネットワークによって実データのうちの左画像を訓練サンプルとして使用することを例にし、説明していることに注意すべきである。実験については、単眼深度推定ネットワークが視野角の変化に敏感であるため、訓練データには切り抜きおよびスケーリングを施さない。前記単眼深度推定ネットワークの入力、および単眼深度推定ネットワーク教示用の視差マップはいずれも訓練後の両眼マッチングネットワークから得られる。図2Cは本願の実施例の可視化深度推定の結果模式図であり、従来技術および本願の実施例における単眼深度推定方法を使用して取得した三つの異なる街並み画像の対応する深度マップを示し、そのうち、1行目は単眼深度推定ネットワークの入力、即ち三つの異なる街並み画像であり、2行目は最近傍法によって疎なレーザレーダ深度マップに補間して得られた深度データであり、3行目から5行目は従来技術における三つの異なる単眼深度推定方法によってそれぞれ得られた三つの入力画像の対応する深度マップである。本願の結果は最後の三行に示し、それは本願の実施例における第一のステップで得られた、合成データを使用して訓練した両眼マッチングネットワークをそのまま利用し、単眼深度推定ネットワークを教示することによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が21の画像21、番号が22の画像22、番号が23の画像23、本願の実施例が提供する教師なし損失関数により、訓練後の両眼マッチングネットワークを微調整し、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が24の画像24、番号が25の画像25、番号が26の画像26、および訓練後の両眼マッチングネットワークの教師あり微調整を行い、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が27の画像27、番号が28の画像28、番号が29の画像29である。番号が21の画像21から番号が29の画像29から見えるように、本願の実施例における単眼深度推定方法によって得られたモデルはより細かいシーン構造をキャプチャ可能である。
本願の実施例は単眼深度推定装置を提供し、図3は本願の実施例の単眼深度推定装置の構成模式図であり、図3に示すように、前記装置300は、処理対象の画像を取得するように構成された取得モジュール301と、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュール302と、前記処理対象の画像の解析結果を出力するように構成された出力モジュール303と、を含む。
いくつかの実施例では、前記装置はさらに、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む。
いくつかの実施例では、前記装置はさらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む。
いくつかの実施例では、前記装置はさらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む。
いくつかの実施例では、前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。
いくつかの実施例では、前記装置はさらに、レンダリングエンジンによって仮想3Dシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想3Dシーンを構築する時の位置、前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールと、を含む。
いくつかの実施例では、前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む。
いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される。
いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む。
いくつかの実施例では、前記装置はさらに、式(14)
Figure 0007106665000149
を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記
Figure 0007106665000150
は損失関数を表し、前記
Figure 0007106665000151
は再構成誤差を表し、前記
Figure 0007106665000152
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
Figure 0007106665000153
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
Figure 0007106665000154
は強度係数を表す。
いくつかの実施例では、前記装置はさらに、式(15)
Figure 0007106665000155
または式(16)
Figure 0007106665000156
を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記
Figure 0007106665000157
は画像における画素の数を表し、前記
Figure 0007106665000158
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
Figure 0007106665000159
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
Figure 0007106665000160
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
Figure 0007106665000161
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
Figure 0007106665000162
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
Figure 0007106665000163
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
Figure 0007106665000164
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、
Figure 0007106665000165
は画素点の画素座標を表す。
いくつかの実施例では、前記装置はさらに、式(17)
Figure 0007106665000166
または式(18)
Figure 0007106665000167
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップと比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記
Figure 0007106665000168
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
Figure 0007106665000169
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
Figure 0007106665000170
は強度係数を表す。
いくつかの実施例では、前記装置はさらに、式(19)
Figure 0007106665000171
または式(20)
Figure 0007106665000172
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記
Figure 0007106665000173
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
Figure 0007106665000174
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
Figure 0007106665000175
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
Figure 0007106665000176
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表す。
いくつかの実施例では、前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールは、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するように構成された第一取得ユニットと、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第一訓練ユニットと、を含む。
いくつかの実施例では、前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールはさらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るように構成された第二取得ユニットと、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第一決定ユニットと、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第二訓練ユニットと、を含む。
いくつかの実施例では、前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、前記装置はさらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む。
ここで説明すべきは、以上の装置の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の装置の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。本願の実施例において、ソフトウェア機能モジュールの形で上記単眼深度推定方法を実現し、かつ独立した製品として販売または使用する場合、コンピュータ読み取り可能記憶媒体に記憶してもよい。このような見解をもとに、本願の実施例の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器に本願の各実施例に記載の方法の全てまたは一部を実行させる複数の命令を含む。前記記憶媒体は、USBフラッシュドライブ、モバイルハードディスク、ROM(Read Only Memory:読み取り専用メモリ)、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含む。従って、本願の実施例はハードウェアとソフトウェアのいかなる特定の組み合わせにも限定されない。それに対して、本願の実施例はプロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。それに対して、本願の実施例はコンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。ここで指摘しておきたいのは、以上の記憶媒体および機器の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の記憶媒体および機器の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。
説明すべきは、図4は本願の実施例の単眼深度推定機器のハードウェア実体模式図であり、図4に示すように、該単眼深度推定機器400のハードウェア実体は、メモリ401、通信バス402およびプロセッサ403を含み、そのうち、メモリ401はプロセッサ403により実行可能な命令およびアプリケーションを記憶するように構成され、またプロセッサ403および単眼深度推定機器400内の各モジュールの処理対象のまたは処理したデータをキャッシュすることができ、それはFLASH(登録商標)(フラッシュメモリ)またはRAM(Random Access Memory:ランダムアクセスメモリ)によって実現可能である。通信バス402は単眼深度推定機器400をネットワークによって他の端末またはサーバと通信するようにすることができ、またプロセッサ403とメモリ401の間の接続や通信をも実現できる。プロセッサ403は通常、単眼深度推定機器400の全体的な動作を制御する。
説明すべきは、本明細書において、用語「含む」、「からなる」またはその他のあらゆる変形は非排他的包含を含むように意図され、それにより一連の要素を含むプロセス、方法、物品または装置は、それらの要素のみならず、明示されていない他の要素、またはこのようなプロセス、方法、物品または装置に固有の要素をも含むようになるということである。特に断らない限り、後句「一つの……を含む」により限定される要素は、該要素を含むプロセス、方法、物品または装置に別の同じ要素がさらに存在することを排除するものではない。
以上の実施形態に対する説明によって、当業者であれば上記実施例の方法はソフトウェアと必要な共通ハードウェアプラットフォームとの組み合わせという形態で実現できることを明らかに理解可能であり、当然ながら、ハードウェアによって実現してもよいが、多くの場合において前者はより好ましい実施形態である。このような見解をもとに、本願の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェアの形で実施することができ、該コンピュータソフトウェア製品は記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、端末機器(携帯電話、コンピュータ、サーバ、エアコン、またはネットワーク機器などであってもよい)に本願の各実施例に記載の方法を実行させる複数の命令を含む。
本願は本願の実施例に係る方法、機器(装置)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明している。なお、フローチャートおよび/またはブロック図におけるそれぞれのフローおよび/またはブロック、ならびにフローチャートおよび/またはブロック図におけるフローおよび/またはブロックの組み合わせはコンピュータプログラム命令によって実現できることを理解すべきである。これらのコンピュータプログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータ、組み込みプロセッサまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令は、フローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現する手段を創出する。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置を特定の方式で動作させるように指導可能なコンピュータ読み取り可能メモリに記憶されてもよく、それによって該コンピュータ読み取り可能メモリに記憶された命令は、フローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現する命令手段を含む製品を創出する。
これらのコンピュータプログラム命令はコンピュータまたは他のプログラマブルデータ処理装置にロードすることにより、コンピュータ実行処理を生成するように、コンピュータまたは他のプログラマブルデータ処理装置において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置において実行される命令はフローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現するためのステップを提供する。
以上は本願の好適な実施例に過ぎず、本願の特許範囲を限定するものではなく、本願の明細書および図面の内容を利用してなした等価構成または等価フロー変換、あるいは他の関連技術分野へのその直接または間接の転用は、同様に、いずれも本願の特許保護範囲に含まれるものとする。

Claims (16)

  1. 計算機器によって実行される単眼深度推定方法であって、前記単眼深度推定方法は、
    処理対象の画像を取得するステップと、
    前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
    前記処理対象の画像の解析結果を出力するステップ
    を含み、
    前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
    取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
    取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと
    を含み、
    前記単眼深度推定方法は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップをさらに含み、
    前記深度ラベル付きの合成された両眼画像を取得することは、レンダリングエンジンによって仮想3Dシーンを構築することと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングすることと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得することと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得ることとを含む、単眼深度推定方法。
  2. 前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するステップは、
    前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み
    前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する請求項に記載の単眼深度推定方法。
  3. 前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
    取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む請求項に記載の単眼深度推定方法。
  4. 前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップ
    取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップをさらに含む請求項に記載の単眼深度推定方法。
  5. 前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
    損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む請求項に記載の単眼深度推定方法。
  6. 前記単眼深度推定方法は、
    Figure 0007106665000177

    を利用して前記損失関数を決定するステップをさらに含み、
    ここで、前記
    Figure 0007106665000178

    は損失関数を表し、前記
    Figure 0007106665000179

    は再構成誤差を表し、前記
    Figure 0007106665000180

    は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
    Figure 0007106665000181

    は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
    Figure 0007106665000182

    は強度係数を表す請求項に記載の単眼深度推定方法。
  7. 前記単眼深度推定方法は、
    Figure 0007106665000183

    、または、
    Figure 0007106665000184

    を利用して前記再構成誤差を決定するステップをさらに含み、
    ここで、前記
    Figure 0007106665000185

    は画像における画素の数を表し、前記
    Figure 0007106665000186

    は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
    Figure 0007106665000187

    は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
    Figure 0007106665000188

    は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
    Figure 0007106665000189

    は右画像をサンプリングしてから合成した画像の画素値を表し、前記
    Figure 0007106665000190

    は左画像をサンプリングしてから合成した画像の画素値を表し、前記
    Figure 0007106665000191

    は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000192

    は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000193

    は画素点の画素座標を表す請求項に記載の単眼深度推定方法。
  8. 前記単眼深度推定方法は、
    Figure 0007106665000194

    、または、
    Figure 0007106665000195

    を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップをさらに含み、
    ここで、前記
    Figure 0007106665000196

    は画像における画素の数を表し、前記
    Figure 0007106665000197

    は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
    Figure 0007106665000198

    は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000199

    は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000200

    は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000201

    は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
    Figure 0007106665000202

    は画素点の画素座標を表し、前記
    Figure 0007106665000203

    は強度係数を表す請求項に記載の単眼深度推定方法。
  9. 前記単眼深度推定方法は、
    Figure 0007106665000204

    、または、
    Figure 0007106665000205

    を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップをさらに含み、
    ここで、前記
    Figure 0007106665000206

    は画像における画素の数を表し、前記
    Figure 0007106665000207

    は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
    Figure 0007106665000208

    は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
    Figure 0007106665000209

    は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
    Figure 0007106665000210

    は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
    Figure 0007106665000211

    は画素点の画素座標を表す請求項に記載の単眼深度推定方法。
  10. 前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
    前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
    前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップ
    を含む請求項に記載の単眼深度推定方法。
  11. 前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
    前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
    前記対応する視差マップおよび前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
    前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップ
    を含む請求項4~9のいずれか一項に記載の単眼深度推定方法。
  12. 前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
    前記単眼深度推定ネットワークモデルにより出力される視差マップおよび前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
    前記視差マップの対応する深度マップを出力するステップ
    を含む請求項10または請求項11に記載の単眼深度推定方法。
  13. 単眼深度推定装置であって、前記単眼深度推定装置は、
    処理対象の画像を取得するように構成された取得モジュールと、
    前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
    前記処理対象の画像の解析結果を出力するように構成された出力モジュール
    を含み、
    前記単眼深度推定装置は、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールとをさらに含み、
    前記単眼深度推定装置は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールをさらに含み、
    前記単眼深度推定装置は、レンダリングエンジンによって仮想3Dシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールとをさらに含む、単眼深度推定装置。
  14. プロセッサで実行可能なコンピュータプログラム記憶したメモリと、
    前記コンピュータプログラムを実行することにより、請求項1~12のいずれか一項に記載の単眼深度推定方法を実行するプロセッサと
    を含単眼深度推定機器。
  15. コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラムはプロセッサによって実行されると、請求項1~12のいずれか一項に記載の単眼深度推定方法実現する、コンピュータ読み取り可能記憶媒体。
  16. 求項1~12のいずれか一項に記載の単眼深度推定方法を実行することをコンピュータに行わせるように構成されコンピュータプログラム。
JP2020546428A 2018-05-22 2019-02-27 単眼深度推定方法およびその装置、機器ならびに記憶媒体 Active JP7106665B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810496541.6A CN108961327B (zh) 2018-05-22 2018-05-22 一种单目深度估计方法及其装置、设备和存储介质
CN201810496541.6 2018-05-22
PCT/CN2019/076247 WO2019223382A1 (zh) 2018-05-22 2019-02-27 单目深度估计方法及其装置、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021515939A JP2021515939A (ja) 2021-06-24
JP7106665B2 true JP7106665B2 (ja) 2022-07-26

Family

ID=64499439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020546428A Active JP7106665B2 (ja) 2018-05-22 2019-02-27 単眼深度推定方法およびその装置、機器ならびに記憶媒体

Country Status (4)

Country Link
JP (1) JP7106665B2 (ja)
CN (1) CN108961327B (ja)
SG (1) SG11202008787UA (ja)
WO (1) WO2019223382A1 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN111354032B (zh) * 2018-12-24 2023-10-20 杭州海康威视数字技术股份有限公司 一种生成视差图的方法及装置
CN111444744A (zh) * 2018-12-29 2020-07-24 北京市商汤科技开发有限公司 活体检测方法、装置以及存储介质
CN109741388B (zh) * 2019-01-29 2020-02-28 北京字节跳动网络技术有限公司 用于生成双目深度估计模型的方法和装置
CN111508010B (zh) * 2019-01-31 2023-08-08 北京地平线机器人技术研发有限公司 对二维图像进行深度估计的方法、装置及电子设备
CN109887019B (zh) * 2019-02-19 2022-05-24 北京市商汤科技开发有限公司 一种双目匹配方法及装置、设备和存储介质
CN111723926B (zh) * 2019-03-22 2023-09-12 北京地平线机器人技术研发有限公司 用于确定图像视差的神经网络模型的训练方法和训练装置
CN110009674B (zh) * 2019-04-01 2021-04-13 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110163246B (zh) * 2019-04-08 2021-03-30 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110148179A (zh) * 2019-04-19 2019-08-20 北京地平线机器人技术研发有限公司 一种训练用于估计图像视差图的神经网络模型方法、装置及介质
CN113808061A (zh) * 2019-04-28 2021-12-17 深圳市商汤科技有限公司 一种图像处理方法及装置
CN110335245A (zh) * 2019-05-21 2019-10-15 青岛科技大学 基于单目时空连续图像的网箱网衣破损监测方法及***
CN112149458A (zh) * 2019-06-27 2020-12-29 商汤集团有限公司 障碍物检测方法、智能驾驶控制方法、装置、介质及设备
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110782412B (zh) * 2019-10-28 2022-01-28 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备及存储介质
CN111105451B (zh) * 2019-10-31 2022-08-05 武汉大学 一种克服遮挡效应的驾驶场景双目深度估计方法
CN111126478B (zh) * 2019-12-19 2023-07-07 北京迈格威科技有限公司 卷积神经网络训练方法、装置和电子***
CN113014899B (zh) * 2019-12-20 2023-02-03 杭州海康威视数字技术股份有限公司 一种双目图像的视差确定方法、装置及***
CN111105432B (zh) * 2019-12-24 2023-04-07 中国科学技术大学 基于深度学习的无监督端到端的驾驶环境感知方法
CN111325786B (zh) * 2020-02-18 2022-06-28 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111340864B (zh) * 2020-02-26 2023-12-12 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
CN111445476B (zh) * 2020-02-27 2023-05-26 上海交通大学 基于多模态无监督图像内容解耦的单目深度估计方法
CN111354030B (zh) * 2020-02-29 2023-08-04 同济大学 嵌入SENet单元的无监督单目图像深度图生成方法
CN111428859A (zh) * 2020-03-05 2020-07-17 北京三快在线科技有限公司 自动驾驶场景的深度估计网络训练方法、装置和自主车辆
CN111310859A (zh) * 2020-03-26 2020-06-19 上海景和国际展览有限公司 一种用于多媒体展示中的快速人工智能数据训练***
CN111833390B (zh) * 2020-06-23 2023-06-20 杭州电子科技大学 一种基于无监督深度学习的光场深度估计方法
CN111784757B (zh) * 2020-06-30 2024-01-23 北京百度网讯科技有限公司 深度估计模型的训练方法、深度估计方法、装置及设备
CN111932584B (zh) * 2020-07-13 2023-11-07 浙江大华技术股份有限公司 图像中运动对象的确定方法及装置
KR102664835B1 (ko) * 2020-09-03 2024-05-08 세메스 주식회사 물품 저장 장치 및 물품 저장 장치의 제어 방법
CN112150531B (zh) * 2020-09-29 2022-12-09 西北工业大学 一种鲁棒的自监督学习单帧图像深度估计方法
CN112465888A (zh) * 2020-11-16 2021-03-09 电子科技大学 一种基于单目视觉的无监督深度估计方法
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计***、方法、设备及计算机可读存储介质
CN112561947A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种图像自适应运动估计方法及应用
CN112712017A (zh) * 2020-12-29 2021-04-27 上海智蕙林医疗科技有限公司 一种机器人和一种单目深度估计方法、***及存储介质
CN112819875B (zh) * 2021-02-03 2023-12-19 苏州挚途科技有限公司 单目深度估计的方法、装置及电子设备
CN113160298B (zh) * 2021-03-31 2024-03-08 奥比中光科技集团股份有限公司 一种深度真值获取方法、装置、***及深度相机
CN112862877B (zh) * 2021-04-09 2024-05-17 北京百度网讯科技有限公司 用于训练图像处理网络和图像处理的方法和装置
CN112991416A (zh) * 2021-04-13 2021-06-18 Oppo广东移动通信有限公司 深度估计方法、模型训练方法、装置、设备及存储介质
CN113140011B (zh) * 2021-05-18 2022-09-06 烟台艾睿光电科技有限公司 一种红外热成像单目视觉测距方法及相关组件
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN114119698B (zh) * 2021-06-18 2022-07-19 湖南大学 基于注意力机制的无监督单目深度估计方法
CN113705432A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 一种模型训练、三维目标检测方法、装置、设备及介质
CN114051128B (zh) * 2021-11-11 2023-09-05 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置、设备及介质
CN115294375B (zh) * 2022-10-10 2022-12-13 南昌虚拟现实研究院股份有限公司 一种散斑深度估算方法、***、电子设备及存储介质
CN115909446B (zh) * 2022-11-14 2023-07-18 华南理工大学 一种双目人脸活体判别方法、装置及存储介质
CN116703813B (zh) * 2022-12-27 2024-04-26 荣耀终端有限公司 图像处理方法和设备
CN116165646B (zh) * 2023-02-22 2023-08-11 哈尔滨工业大学 基于分割网络的虚警可控雷达目标检测方法
CN117156113B (zh) * 2023-10-30 2024-02-23 南昌虚拟现实研究院股份有限公司 一种基于深度学习散斑相机图像矫正方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204010A (zh) 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与***
WO2018046964A1 (en) 2016-09-12 2018-03-15 Ucl Business Plc Predicting depth from image data using a statistical model
CN107909150A (zh) 2017-11-29 2018-04-13 华中科技大学 基于逐块随机梯度下降法在线训练cnn的方法与***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903096B (zh) * 2012-07-04 2015-06-17 北京航空航天大学 一种基于单目视频的对象深度提取方法
US10298911B2 (en) * 2014-03-31 2019-05-21 Empire Technology Development Llc Visualization of spatial and other relationships
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
EP4131172A1 (en) * 2016-09-12 2023-02-08 Dassault Systèmes Deep convolutional neural network for 3d reconstruction of a real object
CN106600650A (zh) * 2016-12-12 2017-04-26 杭州蓝芯科技有限公司 一种基于深度学习的双目视觉深度信息获取方法
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018046964A1 (en) 2016-09-12 2018-03-15 Ucl Business Plc Predicting depth from image data using a statistical model
CN107204010A (zh) 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与***
CN107909150A (zh) 2017-11-29 2018-04-13 华中科技大学 基于逐块随机梯度下降法在线训练cnn的方法与***

Also Published As

Publication number Publication date
JP2021515939A (ja) 2021-06-24
CN108961327B (zh) 2021-03-30
WO2019223382A1 (zh) 2019-11-28
SG11202008787UA (en) 2020-10-29
CN108961327A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
JP7106665B2 (ja) 単眼深度推定方法およびその装置、機器ならびに記憶媒体
Ming et al. Deep learning for monocular depth estimation: A review
Hambarde et al. UW-GAN: Single-image depth estimation and image enhancement for underwater images
Zhan et al. Visual odometry revisited: What should be learnt?
Guo et al. Learning monocular depth by distilling cross-domain stereo networks
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
Valentin et al. Depth from motion for smartphone AR
Lu et al. Multi-scale adversarial network for underwater image restoration
AU2017324923B2 (en) Predicting depth from image data using a statistical model
US20210004979A1 (en) Depth from motion for augmented reality for handheld user devices
Yin et al. Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields
Hu et al. Deep depth completion from extremely sparse data: A survey
US11049270B2 (en) Method and apparatus for calculating depth map based on reliability
Wang et al. Monocular 3d object detection with depth from motion
Chen et al. 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation
Gurram et al. Monocular depth estimation through virtual-world supervision and real-world sfm self-supervision
US11948310B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
WO2021220688A1 (en) Reinforcement learning model for labeling spatial relationships between images
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
EP3608874B1 (en) Ego motion estimation method and apparatus
Mehl et al. M-fuse: Multi-frame fusion for scene flow estimation
Lu et al. Stereo disparity optimization with depth change constraint based on a continuous video
Leite et al. Dense disparity maps from RGB and sparse depth information using deep regression models
CN116012609A (zh) 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质
Zhai et al. Geometry understanding from autonomous driving scenarios based on feature refinement

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220713

R150 Certificate of patent or registration of utility model

Ref document number: 7106665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150