JP7106665B2 - 単眼深度推定方法およびその装置、機器ならびに記憶媒体 - Google Patents
単眼深度推定方法およびその装置、機器ならびに記憶媒体 Download PDFInfo
- Publication number
- JP7106665B2 JP7106665B2 JP2020546428A JP2020546428A JP7106665B2 JP 7106665 B2 JP7106665 B2 JP 7106665B2 JP 2020546428 A JP2020546428 A JP 2020546428A JP 2020546428 A JP2020546428 A JP 2020546428A JP 7106665 B2 JP7106665 B2 JP 7106665B2
- Authority
- JP
- Japan
- Prior art keywords
- network model
- binocular
- image
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本願は2018年05月22日に出願された、出願番号201810496541.6の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
例えば、本願は以下の項目を提供する。
(項目1)
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法。
(項目2)
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと、を含む項目1に記載の方法。
(項目3)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップを含む項目2に記載の方法。
(項目4)
前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する前記ステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目3に記載の方法。
(項目5)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目6)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップはさらに、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目7)
前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目6に記載の方法。
(項目8)
さらに、式
(化87)
を利用して前記損失関数を決定するステップを含み、
ここで、前記
(化88)
は損失関数を表し、前記
(化89)
は再構成誤差を表し、前記
(化90)
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化91)
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化92)
は強度係数を表す項目7に記載の方法。
(項目9)
さらに、式
(化93)
、または、
(化94)
を利用して前記再構成誤差を決定するステップを含み、
ここで、前記
(化95)
は画像における画素の数を表し、前記
(化96)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化97)
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化98)
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化99)
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化100)
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化101)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化102)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化103)
は画素点の画素座標を表す項目8に記載の方法。
(項目10)
さらに、式
(化104)
、または、
(化105)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップを含み、
ここで、前記
(化106)
は画像における画素の数を表し、前記
(化107)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化108)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化109)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化110)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化111)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化112)
は画素点の画素座標を表し、前記
(化113)
は強度係数を表す項目8に記載の方法。
(項目11)
さらに、式
(化114)
、または、
(化115)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップを含み、
ここで、前記
(化116)
は画像における画素の数を表し、前記
(化117)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化118)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化119)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化120)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化121)
は画素点の画素座標を表す項目8に記載の方法。
(項目12)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと、を含む項目5に記載の方法。
(項目13)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと、を含む項目6から11のいずれか一項に記載の方法。
(項目14)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと、を含む項目12または13に記載の方法。
(項目15)
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置。
(項目16)
さらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む項目15に記載の装置。
(項目17)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む項目16に記載の装置。
(項目18)
前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目17に記載の装置。
(項目19)
前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む項目16に記載の装置。
(項目20)
前記第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される項目16に記載の装置。
(項目21)
前記第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む項目20に記載の装置。
(項目22)
さらに、式
(化122)
を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記
(化123)
は損失関数を表し、前記
(化124)
は再構成誤差を表し、前記
(化125)
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化126)
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化127)
は強度係数を表す項目21に記載の装置。
(項目23)
さらに、式
(化128)
、または、
(化129)
を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記
(化130)
は画像における画素の数を表し、前記
(化131)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化132)
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化133)
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化134)
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化135)
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化136)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化137)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化138)
は画素点の画素座標を表す項目22に記載の装置。
(項目24)
さらに、式
(化139)
、または、
(化140)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記
(化141)
は画像における画素の数を表し、前記
(化142)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化143)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化144)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化145)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化146)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化147)
は画素点の画素座標を表し、前記
(化148)
は強度係数を表す項目22に記載の装置。
(項目25)
さらに、式
(化149)
、または、
(化150)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記
(化151)
は画像における画素の数を表し、前記
(化152)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化153)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化154)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化155)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化156)
は画素点の画素座標を表す項目22に記載の装置。
(項目26)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得し、そして前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目19に記載の装置。
(項目27)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得て、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定し、そして前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目20から25のいずれか一項に記載の装置。
(項目28)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む項目26または27に記載の装置。
(項目29)
プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現する単眼深度推定機器。
(項目30)
コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体。
Claims (16)
- 計算機器によって実行される単眼深度推定方法であって、前記単眼深度推定方法は、
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと
を含み、
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと
を含み、
前記単眼深度推定方法は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップをさらに含み、
前記深度ラベル付きの合成された両眼画像を取得することは、レンダリングエンジンによって仮想3Dシーンを構築することと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングすることと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得することと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得ることとを含む、単眼深度推定方法。 - 前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、
前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する、請求項1に記載の単眼深度推定方法。 - 前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項1に記載の単眼深度推定方法。 - 前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップをさらに含む、請求項1に記載の単眼深度推定方法。 - 前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項4に記載の単眼深度推定方法。 - 前記単眼深度推定方法は、式
、または、
を利用して前記再構成誤差を決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は画素点の画素座標を表す、請求項6に記載の単眼深度推定方法。 - 前記単眼深度推定方法は、式
、または、
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は画素点の画素座標を表し、前記
は強度係数を表す、請求項6に記載の単眼深度推定方法。 - 前記単眼深度推定方法は、式
、または、
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は画素点の画素座標を表す、請求項6に記載の単眼深度推定方法。 - 前記深度ラベル付きの実両眼データは、左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項3に記載の単眼深度推定方法。 - 前記深度ラベルなしの実両眼データは、左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップおよび前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項4~9のいずれか一項に記載の単眼深度推定方法。 - 前記処理対象の画像の解析結果は、前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップおよび前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと
を含む、請求項10または請求項11に記載の単眼深度推定方法。 - 単眼深度推定装置であって、前記単眼深度推定装置は、
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと
を含み、
前記単眼深度推定装置は、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールとをさらに含み、
前記単眼深度推定装置は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールをさらに含み、
前記単眼深度推定装置は、レンダリングエンジンによって仮想3Dシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールとをさらに含む、単眼深度推定装置。 - プロセッサで実行可能なコンピュータプログラムを記憶したメモリと、
前記コンピュータプログラムを実行することにより、請求項1~12のいずれか一項に記載の単眼深度推定方法を実行するプロセッサと
を含む単眼深度推定機器。 - コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~12のいずれか一項に記載の単眼深度推定方法を実現する、コンピュータ読み取り可能な記憶媒体。
- 請求項1~12のいずれか一項に記載の単眼深度推定方法を実行することをコンピュータに行わせるように構成されるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810496541.6A CN108961327B (zh) | 2018-05-22 | 2018-05-22 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN201810496541.6 | 2018-05-22 | ||
PCT/CN2019/076247 WO2019223382A1 (zh) | 2018-05-22 | 2019-02-27 | 单目深度估计方法及其装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021515939A JP2021515939A (ja) | 2021-06-24 |
JP7106665B2 true JP7106665B2 (ja) | 2022-07-26 |
Family
ID=64499439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546428A Active JP7106665B2 (ja) | 2018-05-22 | 2019-02-27 | 単眼深度推定方法およびその装置、機器ならびに記憶媒体 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7106665B2 (ja) |
CN (1) | CN108961327B (ja) |
SG (1) | SG11202008787UA (ja) |
WO (1) | WO2019223382A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN111354032B (zh) * | 2018-12-24 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 一种生成视差图的方法及装置 |
CN111444744A (zh) * | 2018-12-29 | 2020-07-24 | 北京市商汤科技开发有限公司 | 活体检测方法、装置以及存储介质 |
CN109741388B (zh) * | 2019-01-29 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 用于生成双目深度估计模型的方法和装置 |
CN111508010B (zh) * | 2019-01-31 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 对二维图像进行深度估计的方法、装置及电子设备 |
CN109887019B (zh) * | 2019-02-19 | 2022-05-24 | 北京市商汤科技开发有限公司 | 一种双目匹配方法及装置、设备和存储介质 |
CN111723926B (zh) * | 2019-03-22 | 2023-09-12 | 北京地平线机器人技术研发有限公司 | 用于确定图像视差的神经网络模型的训练方法和训练装置 |
CN110009674B (zh) * | 2019-04-01 | 2021-04-13 | 厦门大学 | 基于无监督深度学习的单目图像景深实时计算方法 |
CN110163246B (zh) * | 2019-04-08 | 2021-03-30 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110148179A (zh) * | 2019-04-19 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
CN113808061A (zh) * | 2019-04-28 | 2021-12-17 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置 |
CN110335245A (zh) * | 2019-05-21 | 2019-10-15 | 青岛科技大学 | 基于单目时空连续图像的网箱网衣破损监测方法及*** |
CN112149458A (zh) * | 2019-06-27 | 2020-12-29 | 商汤集团有限公司 | 障碍物检测方法、智能驾驶控制方法、装置、介质及设备 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110782412B (zh) * | 2019-10-28 | 2022-01-28 | 深圳市商汤科技有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN111105451B (zh) * | 2019-10-31 | 2022-08-05 | 武汉大学 | 一种克服遮挡效应的驾驶场景双目深度估计方法 |
CN111126478B (zh) * | 2019-12-19 | 2023-07-07 | 北京迈格威科技有限公司 | 卷积神经网络训练方法、装置和电子*** |
CN113014899B (zh) * | 2019-12-20 | 2023-02-03 | 杭州海康威视数字技术股份有限公司 | 一种双目图像的视差确定方法、装置及*** |
CN111105432B (zh) * | 2019-12-24 | 2023-04-07 | 中国科学技术大学 | 基于深度学习的无监督端到端的驾驶环境感知方法 |
CN111325786B (zh) * | 2020-02-18 | 2022-06-28 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111340864B (zh) * | 2020-02-26 | 2023-12-12 | 浙江大华技术股份有限公司 | 基于单目估计的三维场景融合方法及装置 |
CN111445476B (zh) * | 2020-02-27 | 2023-05-26 | 上海交通大学 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
CN111354030B (zh) * | 2020-02-29 | 2023-08-04 | 同济大学 | 嵌入SENet单元的无监督单目图像深度图生成方法 |
CN111428859A (zh) * | 2020-03-05 | 2020-07-17 | 北京三快在线科技有限公司 | 自动驾驶场景的深度估计网络训练方法、装置和自主车辆 |
CN111310859A (zh) * | 2020-03-26 | 2020-06-19 | 上海景和国际展览有限公司 | 一种用于多媒体展示中的快速人工智能数据训练*** |
CN111833390B (zh) * | 2020-06-23 | 2023-06-20 | 杭州电子科技大学 | 一种基于无监督深度学习的光场深度估计方法 |
CN111784757B (zh) * | 2020-06-30 | 2024-01-23 | 北京百度网讯科技有限公司 | 深度估计模型的训练方法、深度估计方法、装置及设备 |
CN111932584B (zh) * | 2020-07-13 | 2023-11-07 | 浙江大华技术股份有限公司 | 图像中运动对象的确定方法及装置 |
KR102664835B1 (ko) * | 2020-09-03 | 2024-05-08 | 세메스 주식회사 | 물품 저장 장치 및 물품 저장 장치의 제어 방법 |
CN112150531B (zh) * | 2020-09-29 | 2022-12-09 | 西北工业大学 | 一种鲁棒的自监督学习单帧图像深度估计方法 |
CN112465888A (zh) * | 2020-11-16 | 2021-03-09 | 电子科技大学 | 一种基于单目视觉的无监督深度估计方法 |
CN112446328B (zh) * | 2020-11-27 | 2023-11-17 | 汇纳科技股份有限公司 | 单目深度的估计***、方法、设备及计算机可读存储介质 |
CN112561947A (zh) * | 2020-12-10 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 一种图像自适应运动估计方法及应用 |
CN112712017A (zh) * | 2020-12-29 | 2021-04-27 | 上海智蕙林医疗科技有限公司 | 一种机器人和一种单目深度估计方法、***及存储介质 |
CN112819875B (zh) * | 2021-02-03 | 2023-12-19 | 苏州挚途科技有限公司 | 单目深度估计的方法、装置及电子设备 |
CN113160298B (zh) * | 2021-03-31 | 2024-03-08 | 奥比中光科技集团股份有限公司 | 一种深度真值获取方法、装置、***及深度相机 |
CN112862877B (zh) * | 2021-04-09 | 2024-05-17 | 北京百度网讯科技有限公司 | 用于训练图像处理网络和图像处理的方法和装置 |
CN112991416A (zh) * | 2021-04-13 | 2021-06-18 | Oppo广东移动通信有限公司 | 深度估计方法、模型训练方法、装置、设备及存储介质 |
CN113140011B (zh) * | 2021-05-18 | 2022-09-06 | 烟台艾睿光电科技有限公司 | 一种红外热成像单目视觉测距方法及相关组件 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
CN114119698B (zh) * | 2021-06-18 | 2022-07-19 | 湖南大学 | 基于注意力机制的无监督单目深度估计方法 |
CN113705432A (zh) * | 2021-08-26 | 2021-11-26 | 京东鲲鹏(江苏)科技有限公司 | 一种模型训练、三维目标检测方法、装置、设备及介质 |
CN114051128B (zh) * | 2021-11-11 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种2d视频转3d视频的方法、装置、设备及介质 |
CN115294375B (zh) * | 2022-10-10 | 2022-12-13 | 南昌虚拟现实研究院股份有限公司 | 一种散斑深度估算方法、***、电子设备及存储介质 |
CN115909446B (zh) * | 2022-11-14 | 2023-07-18 | 华南理工大学 | 一种双目人脸活体判别方法、装置及存储介质 |
CN116703813B (zh) * | 2022-12-27 | 2024-04-26 | 荣耀终端有限公司 | 图像处理方法和设备 |
CN116165646B (zh) * | 2023-02-22 | 2023-08-11 | 哈尔滨工业大学 | 基于分割网络的虚警可控雷达目标检测方法 |
CN117156113B (zh) * | 2023-10-30 | 2024-02-23 | 南昌虚拟现实研究院股份有限公司 | 一种基于深度学习散斑相机图像矫正方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204010A (zh) | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与*** |
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN107909150A (zh) | 2017-11-29 | 2018-04-13 | 华中科技大学 | 基于逐块随机梯度下降法在线训练cnn的方法与*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903096B (zh) * | 2012-07-04 | 2015-06-17 | 北京航空航天大学 | 一种基于单目视频的对象深度提取方法 |
US10298911B2 (en) * | 2014-03-31 | 2019-05-21 | Empire Technology Development Llc | Visualization of spatial and other relationships |
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
EP4131172A1 (en) * | 2016-09-12 | 2023-02-08 | Dassault Systèmes | Deep convolutional neural network for 3d reconstruction of a real object |
CN106600650A (zh) * | 2016-12-12 | 2017-04-26 | 杭州蓝芯科技有限公司 | 一种基于深度学习的双目视觉深度信息获取方法 |
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
-
2018
- 2018-05-22 CN CN201810496541.6A patent/CN108961327B/zh active Active
-
2019
- 2019-02-27 WO PCT/CN2019/076247 patent/WO2019223382A1/zh active Application Filing
- 2019-02-27 SG SG11202008787UA patent/SG11202008787UA/en unknown
- 2019-02-27 JP JP2020546428A patent/JP7106665B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN107204010A (zh) | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与*** |
CN107909150A (zh) | 2017-11-29 | 2018-04-13 | 华中科技大学 | 基于逐块随机梯度下降法在线训练cnn的方法与*** |
Also Published As
Publication number | Publication date |
---|---|
JP2021515939A (ja) | 2021-06-24 |
CN108961327B (zh) | 2021-03-30 |
WO2019223382A1 (zh) | 2019-11-28 |
SG11202008787UA (en) | 2020-10-29 |
CN108961327A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106665B2 (ja) | 単眼深度推定方法およびその装置、機器ならびに記憶媒体 | |
Ming et al. | Deep learning for monocular depth estimation: A review | |
Hambarde et al. | UW-GAN: Single-image depth estimation and image enhancement for underwater images | |
Zhan et al. | Visual odometry revisited: What should be learnt? | |
Guo et al. | Learning monocular depth by distilling cross-domain stereo networks | |
Shivakumar et al. | Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion | |
Valentin et al. | Depth from motion for smartphone AR | |
Lu et al. | Multi-scale adversarial network for underwater image restoration | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
US20210004979A1 (en) | Depth from motion for augmented reality for handheld user devices | |
Yin et al. | Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields | |
Hu et al. | Deep depth completion from extremely sparse data: A survey | |
US11049270B2 (en) | Method and apparatus for calculating depth map based on reliability | |
Wang et al. | Monocular 3d object detection with depth from motion | |
Chen et al. | 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation | |
Gurram et al. | Monocular depth estimation through virtual-world supervision and real-world sfm self-supervision | |
US11948310B2 (en) | Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator | |
WO2021220688A1 (en) | Reinforcement learning model for labeling spatial relationships between images | |
CN114677422A (zh) | 深度信息生成方法、图像虚化方法和视频虚化方法 | |
EP3608874B1 (en) | Ego motion estimation method and apparatus | |
Mehl et al. | M-fuse: Multi-frame fusion for scene flow estimation | |
Lu et al. | Stereo disparity optimization with depth change constraint based on a continuous video | |
Leite et al. | Dense disparity maps from RGB and sparse depth information using deep regression models | |
CN116012609A (zh) | 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质 | |
Zhai et al. | Geometry understanding from autonomous driving scenarios based on feature refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7106665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |