JP7153091B2

JP7153091B2 - 両眼マッチング方法及び装置、機器並びに記憶媒体

Info

Publication number: JP7153091B2
Application number: JP2020565808A
Authority: JP
Inventors: シアオヤングオ; カイヤン; ウークイヤン; ホンションリー; シャオガンワン
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2019-02-19
Filing date: 2019-09-26
Publication date: 2022-10-13
Anticipated expiration: 2039-09-26
Also published as: WO2020168716A1; US20210042954A1; CN109887019B; SG11202011008XA; CN109887019A; JP2021526683A; KR20200136996A

Description

（関連出願の相互参照）
本願は、２０１９年０２月１９に中国特許局に提出された、出願番号が２０１９１０１２７８６０．４であり、発明名称が「両眼マッチング方法及び装置、機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に援用される。

本願の実施例は、コンピュータビジョン分野に関し、両眼マッチング方法及び装置、機器並びに記憶媒体に関するが、これらに限定されない。

両眼マッチングは、異なる角度で撮られた一対のピクチャから深度を復元する技術である。各対のピクチャは一般的には、左右又は上下に配置された一対のカメラにより得られる。問題を簡単にするために、異なるカメラにより撮られたピクチャを補正し、これにより、カメラが左右に配置される場合に、対応する画素を同一の水平線に位置させ、又は、カメラが上下に配置される場合に、対応する画素を同一の垂直線に位置させる。この場合、問題は、対応するマッチング画素の距離（視差とも呼ばれる）の推定に変わる。視差、カメラの焦点と２つのカメラの中心との距離によって、深度を算出することができる。現在、両眼マッチング方法は、おおむね、従来のマッチングコストに基づいたアルゴリズム及び深層学習に基づいたアルゴリズムという２つの方法に分けられる。

本願の実施例は、両眼マッチング方法及び装置、機器並びに記憶媒体を提供する。

本願の実施例の技術的解決手段は、以下のように実現される。

第１態様によれば、本願の実施例は、両眼マッチング方法を提供する。前記方法は、処理しようとする画像を取得することであって、前記画像は、左図及び右図を含む２Ｄ（２Ｄｉｍｅｎｓｉｏｎｓ：二次元）画像である、ことと、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄ（３Ｄｉｍｅｎｓｉｏｎｓ：三次元）マッチングコスト特徴を生成することであって、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、ことと、前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定することと、を含む。

第２態様によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を提供する。前記方法は、両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定することであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、ことと、前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することと、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得ることと、前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うことと、を含む。

第３態様によれば、本願の実施例は、両眼マッチング装置を提供する。前記装置は、処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む２Ｄ画像である、取得ユニットと、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成するように構成される生成ユニットであって、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、生成ユニットと、前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニットと、を備える。

第４態様によれば、本願の実施例は、両眼マッチングネットワーク訓練装置を提供する。前記装置は、両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定するように構成される特徴抽出ユニットであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、特徴抽出ユニットと、前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定するように構成される視差予測ユニットと、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得るように構成される比較ユニットと、前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うように構成される訓練ユニットと、を備える。

第５態様によれば、本願の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、前記両眼マッチング方法におけるステップを実現させるか又は前記両眼マッチングネットワークの訓練方法におけるステップを実現させる。

第６態様によれば、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、前記両眼マッチング方法におけるステップを実現させるか又は前記両眼マッチングネットワークの訓練方法におけるステップを実現させる。

本願の実施例は、両眼マッチング方法及び装置、機器並びに記憶媒体を提供する。処理しようとする画像を取得する。前記画像は、左図及び右図を含む２Ｄ画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成する。前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。

本願の実施例による両眼マッチング方法の実現フローを示す第１概略図である。本願の実施例による処理しようとする画像の深度推定を示す概略図である。本願の実施例による両眼マッチング方法の実現フローを示す第２概略図である。本願の実施例による両眼マッチング方法の実現フローを示す第３概略図である。本願の実施例による両眼マッチングネットワークの訓練方法の実現フローを示す概略図である。本願の実施例によるグループ化相互相関を示す概略図である。本願の実施例による連結特徴を示す概略図である。本願の実施例による両眼マッチング方法の実現フローを示す第４概略図である。本願の実施例による両眼マッチングネットワークモデルを示す概略図である。本願の実施例による両眼マッチング方法と従来技術の両眼マッチング方法の実験結果の比較図である。本願の実施例による両眼マッチング装置の構造を示す概略図である。本願の実施例による両眼マッチングネットワーク訓練装置の構造を示す概略図である。本願の実施例によるコンピュータ機器のハードウェアエンティティを示す概略図である。

本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の具体的な技術的解決手段を更に詳しく説明する。下記実施例は、本願を説明するためのものに過ぎず、本願の範囲を限定するものではない。

以下の記述では、素子を表すための「モジュール」、「部材」又は「ユニット」のような接尾語は、本願を説明しやすくするために用いられる。その自体は、特定の意味を持たない。従って、「モジュール」、「部材」又は「ユニット」は混用されてもよい。

本願の実施例は、グループ化相互相関マッチングコスト特徴を利用して両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させる。以下、図面及び実施例を参照しながら、本願の技術的解決手段を更に詳しく説明する。

本願の実施例は、両眼マッチング方法を提供する。該方法は、コンピュータ機器に適用される。該方法により実現される機能は、サーバにおけるプロセッサによりプログラムコードを呼び出すことで実現されてもよい。勿論、プログラムコードは、コンピュータ記憶媒体に記憶されてもよい。該サーバは、少なくとも、プロセッサと、記憶媒体と、を備えることが明らかである。図１Ａは、本願の実施例による両眼マッチング方法の実現フローを示す第１概略図である。図１Ａに示すように、前記方法は、以下を含む。

ステップＳ１０１において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む２Ｄ画像である。

ここで、前記コンピュータ機器は、端末であってもよい。前記処理しようとする画像は、如何なるシーンを含むピクチャであってもよい。また、前記処理しようとする画像は、一般的には、左図及び右図を含む両眼ピクチャであり、異なる角度で撮られた一対のピクチャである。一般的には、各対のピクチャは、左右又は上下に配置された一対のカメラにより得られる。

一般的には、前記端末は、実行過程において、情報処理能力を持つ様々なタイプの装置っであってもよい。例えば、前記携帯端末は、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：パーソナルデジタルアシスタント）、ナビゲータ、デジタル電話機、テレビ電話機、スマートウォッチ、スマートブレスレット、ウェアラブル機器、タブレット等を含んでもよい。サーバは、実現過程において、携帯電話、タブレット及びノートパソコンのような携帯端末、パーソナルコンピュータ及びサーバクラスタのような固定端末のような、情報処理能力を持つコンピュータ機器であってもよい。

ステップＳ１０２において、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成し、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。

ここで、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含んでもよく、グループ化相互相関特徴と連結特徴を結合した特徴を含でもよい。また、上記２つの特徴のうちのどちらを利用して３Ｄマッチングコスト特徴を生成しても、極めて正確な視差予測結果を得ることもできる。

ステップＳ１０３において、前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。

ここで、前記３Ｄマッチングコスト特徴により、各左図における画素の、可能な視差の確率を決定することができる。つまり、前記３Ｄマッチングコスト特徴により、左図における画素点の特徴と右図における対応する画素点の特徴とのマッチング程度を決定する。つまり、左特徴マップにおける１つの点の特徴を利用して、右特徴マップにおけるその全ての可能な位置を探し、続いて、右特徴マップにおける各可能な位置の特徴と、右図における前記点の特徴とを結合し、分類して、右特徴マップにおける各可能な位置が、前記点の右図における対応点である確率を得る。

ここで、画像の深度を決定することは、左図の点が右図に対応する点を決定し、それらの横方向の画素距離（カメラが左右に配置される場合）を決定することである。勿論、右図の点が左図に対応する点を決定することであってもよく、本出願は、これを限定するものではない。

本願の実施例において、前記ステップＳ１０２からステップＳ１０３は、訓練により得られた両眼マッチングネットワークで実現してもよい。ここで、前記両眼マッチングネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：畳み込みニューラルネットワーク）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ：深層ニューラルネットワーク）及びＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：再帰型ニューラルネットワーク）等を含むが、これらに限定されない。勿論、前記両眼マッチングネットワークは、前記ＣＮＮ、ＤＮＮ及びＲＮＮなどのネットワークのうちの１つのネットワークを含んでもよく、前記ＣＮＮ、ＤＮＮ及びＲＮＮ等のネットワークのうちの少なくとも２つのネットワークを含んでもよい。

図１Ｂは、本願の実施例による処理しようとする画像の深度推定を示す概略図である。図１Ｂに示すように、ピクチャ１１は、処理しようとする画像における左図であり、ピクチャ１２は、処理しようとする画像における右図であり、ピクチャ１３は、前記ピクチャ１２に基づいて決定されたピクチャ１１の視差マップであり、即ち、ピクチャ１１の対応する視差マップである。前記視差マップに基づいて、ピクチャ１１の対応する深度マップを取得することができる。

本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む２Ｄ画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成する。前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。

上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図２Ａは、本願の実施例による両眼マッチング方法の実現フローを示す第２概略図である。図２Ａに示すように、前記方法は以下を含む。

ステップＳ２０１において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む２Ｄ画像である。

ステップＳ２０２において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する。

本願の実施例において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する前記ステップＳ２０２は、下記ステップにより実現することができる。

ステップＳ２０２１において、抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定する。

ステップＳ２０２２において、前記相互相関結果を結合し、グループ化相互相関特徴を得る。

ここで、抽出された前記左図の特徴及び前記右図の特徴をグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定する前記ステップＳ２０２１は、下記ステップにより実現することができる。

ステップＳ２０２１ａにおいて、抽出された前記左図の特徴をグループ化し、第１所定数量の第１特徴グループを形成する。

ステップＳ２０２１ｂにおいて、抽出された前記右図の特徴をグループ化し、第２所定数量の第２特徴グループを形成し、前記第１所定数量は、前記第２所定数量と同じである。

ステップＳ２０２１ｃにおいて、異なる視差における、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定し、ｇは、１以上であり、第１の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか１つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である。

ここで、左図の特徴を複数の特徴グループに分け、右図の特徴を複数の特徴グループに分け、異なる視差における、左図の複数の特徴グループのうちのいずれか１つの特徴グループと右図の対応する特徴グループの相互相関結果を決定することができる。前記グループ化相互相関とは、左右図の特徴をそれぞれ得た後、左図の特徴をグループ化し（右図に対して同様にする）、続いて、対応するグループに対して相互相関計算を行う（それらの相関性を計算する）ことを指す。

幾つかの実施例において、異なる視差における、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定することは、式

により、異なる視差

での、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定することであって、前記

は、前記左図の特徴又は前記右図の特徴のチャネル数を表し、前記

は、第１所定数量又は第２所定数量を表し、前記

は、前記第１特徴グループにおける特徴を表し、前記

は、前記第２特徴グループにおける特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、横座標が

であって、縦座標が

である画素点の画素座標である、ことを含む。

ステップＳ２０３において、前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定する。

ここで、ある画素点について、０～

視差における、前記画素点の３Ｄマッチング特徴を抽出することで、各可能な視差の確率を決定する。前記確率を加重平均化して、画像の視差を得ることができる。ここで、前記

は、処理しようとする画像に対応する使用シーンでの最大視差を表す。可能な視差のうちの確率が最も高い視差を画像の視差として決定することもできる。

ステップＳ２０４において、前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。

本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む２Ｄ画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する。前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定する。前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。

上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図２Ｂは、本願の実施例による両眼マッチング方法の実現フローを示す第３概略図である。図２Ｂに示すように、前記方法は以下を含む。

ステップＳ２１１において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む２Ｄ画像である。

ステップＳ２１２において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する。

本願の実施例において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する前記ステップＳ２１２の実現方法は、前記ステップＳ２０２の実現方法と同じであり、ここで、詳細な説明を省略する。

ステップＳ２１３において、前記グループ化相互相関特徴と前記連結特徴を結合した特徴を３Ｄマッチングコスト特徴として決定する。

ここで、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである。

ここで、グループ化相互相関特徴と連結特徴を特徴次元で結合し、３Ｄマッチングコスト特徴を得ることができる。３Ｄマッチングコスト特徴は、あり得るすべての視差に対してそれぞれ得られた特徴に相当する。例えば、最大視差が

である場合、あり得る視差０，１，……，

－１に対して、それぞれ対応する２Ｄ特徴が得られ、そしてそれらを結合して、３Ｄ特徴を得る。

幾つかの実施例において、式

を利用して、可能なそれぞれ視差

に対して、左図の特徴と右図の特徴の結合結果を決定し、

個の結合マップを得ることでができる。ここで、前記

は、前記左図の特徴を表し、前記

は、前記右図の特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、２つの特徴に対して結合を行うことを表す。続いて、前記

個の結合マップを結合し、連結特徴を得る。

ステップＳ２１４において、前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。

本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む２Ｄ画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する。前記グループ化相互相関特徴と前記連結特徴を結合した特徴を３Ｄマッチングコスト特徴として決定する。前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。

上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。前記方法は、以下を含む。

ステップＳ２２１において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む２Ｄ画像である。

ステップＳ２２２において、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出する。

本願の実施例において、前記完全畳み込みニューラルネットワークは、両眼マッチングネットワークの１つの構成部分である。前記両眼マッチングネットワークにおいて、１つの完全畳み込みニューラルネットワークを利用して、処理しようとする画像の２Ｄ特徴を抽出することができる。

ステップＳ２２３において、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成し、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。

ステップＳ２２４において、３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定する。

本願の実施例において、前記ステップＳ２２４は、分類のニューラルネットワークにより実現することができる。前記分類のニューラルネットワークも、両眼マッチングネットワークの１つの構成部分であり、各画素点が対応する異なる視差の確率を決定するために用いられる。

ステップＳ２２５において、前記各画素点が対応する異なる視差の確率の加重平均値を決定する。

幾つかの実施例において、式

により、取得された各画素点が対応する異なる視差

の確率の加重平均値を決定することができる。ここで、前記視差

は、０以上であり、

未満の自然数であり、前記

は、処理しようとする画像に対応する使用シーンでの最大視差を表し、前記

は、前記視差

に対応する確率を表す。

ステップＳ２２６において、前記加重平均値を前記画素点の視差として決定する。

ステップＳ２２７において、前記画素点の視差に基づいて、前記画素点の深度を決定する。

幾つかの実施例において、前記方法は、式

により、取得された画素点の視差

に対応する深度情報

を決定することであって、前記

は、サンプルを撮影するカメラのレンズ焦点距離を表し、前記

は、サンプルを撮影するカメラのレンズベースライン距離を表す、ことを更に含む。

上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を提供する。図３Ａは、本願の実施例による両眼マッチングネットワークの訓練方法の実現フローを示す概略図である。図３Ａに示すように、前記方法は、以下を含む。

ステップＳ３０１において、両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定し、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。

ステップＳ３０２において、前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定する。

ステップＳ３０３において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。

ここで、得られた損失関数により、前記両眼マッチングネットワークにおけるパラメータを更新することができる。パラメータが更新された両眼マッチングネットワークの予測効果は、より高い。

ステップＳ３０４において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。

上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を更に提供する。前記方法は、以下を含む。

ステップＳ３１１において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定する。

本願の実施例において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定する前記ステップＳ３１１は、下記ステップにより実現することができる。

ステップＳ３１１１において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出する。

ここで、前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークである。なお、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することは、両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することであって、前記２Ｄ特徴のサイズは、前記左図又は右図のサイズの四分の一である、ことを含む。

例えば、サンプルのサイズが１２００＊４００画素である場合、前記２Ｄ特徴のサイズは、前記サンプルのサイズの四分の一であり、即ち、３００＊１００画素である。勿論、前記２Ｄ特徴は、他のサイズであってもよく、本願の実施例は、これを限定するものではない。

本願の実施例において、前記完全畳み込みニューラルネットワークは、両眼マッチングネットワークの１つの構成部分である。前記両眼マッチングネットワークにおいて、１つの完全畳み込みニューラルネットワークを利用して、サンプル画像の２Ｄ特徴を抽出することができる。

ステップＳ３１１２において、２Ｄ特徴の結合を行うための畳み込み層の識別子を決定する。

ここで、２Ｄ特徴の結合を行うための畳み込み層の識別子を決定することは、第ｉ畳み込み層の間隔率が変動した場合、前記第ｉ畳み込み層を、２Ｄ特徴の結合を行うための畳み込み層として決定することであって、ｉは、１以上の自然数である、ことを含む。

ステップＳ３１１３において、前記識別子に基づいて、前記左図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第１の２Ｄ結合特徴を得る。

例えば、複数階層の特徴はそれぞれ６４次元、１２８次元及び１２８次元（ここの次元は、チャネル数を指す）である場合、これらを連結すれば、３２０次元の特徴マップを得る。

ステップＳ３１１４において、前記識別子に基づいて、前記右図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第２の２Ｄ結合特徴を得る。

ステップＳ３１２において、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成する。

ステップＳ３１３において、前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に基づいて、サンプル画像の予測視差を決定する。

ステップＳ３１４において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。

ステップＳ３１５において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。

ステップＳ３２１において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定する。

ステップＳ３２２において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定する。

本願の実施例において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定する前記ステップＳ３２２は、下記ステップにより実現することができる。

ステップＳ３２２１において、取得された第１の２Ｄ結合特徴を

組に分け、

個の第１特徴グループを得る。

ステップＳ３２２２において、取得された第２の２Ｄ結合特徴を

組に分け、

個の第２特徴グループを得て、

は、１以上の自然数である。

ステップＳ３２２３において、前記視差

に対する、

個の第１特徴グループと

個の第２特徴グループの相互相関結果を決定し、

＊

個の相互相関マップを得て、前記視差

は、０以上であり、

未満の自然数であり、前記

は、サンプル画像に対応する使用シーンでの最大視差である。

本願の実施例において、前記視差

に対する、

個の第１特徴グループと

個の第２特徴グループの相互相関結果を決定し、

＊

個の相互相関マップを得ることは、前記視差

に対する、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定し、

個の相互相関マップを得ることであって、ｇは、１以上

以下の自然数である、ことと、前記視差

に対する、

個の第１特徴グループと

個の第２特徴グループの相互相関結果を決定し、

＊

個の相互相関マップを得ることと、を含む。

ここで、前記視差

個の相互相関マップを得ることは、式

により、前記視差

個の相互相関マップを得ることであって、前記

は、前記第１の２Ｄ結合特徴又は前記第２の２Ｄ結合特徴のチャネル数を表し、前記

は、第１特徴グループにおける特徴を表し、前記

は、前記第２特徴グループにおける特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表す、ことを含む。

ステップＳ３２２４において、前記

＊

個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得る。

ここで、前記使用シーンは、多い。例えば、運転シーン、室内ロボットシーン及び携帯電話のデュアルカメラシーン等である。

ステップＳ３２３において、前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定する。

図３Ｂは、本願の実施例によるグループ化相互相関特徴を示す概略図である。図３Ｂに示すように、左図の第１の２Ｄ結合特徴をグループ化し、クループ化された左図の複数の特徴グループ３１を得る。右図の第２の２Ｄ結合特徴をグループ化し、クループ化された右図の複数の特徴グループ３２を得る。前記第１の２Ｄ結合特徴又は前記第２の２Ｄ結合特徴の形状はいずれも［Ｃ，Ｈ，Ｗ］である。ここで、Ｃは、結合特徴のチャネル数であり、Ｈは、結合特徴の高さであり、Ｗは、結合特徴の幅である。従って、左図又は右図に対応する各特徴グループのチャネル数は、Ｃ／

であり、前記

は、グループの数である。左図及び右図に対応する特徴グループに対して相互相関計算を行い、視差０，１，……，

－１での、各対応する特徴グループの相互相関性を計算し、

＊

個の相互相関マップ３３を得ることができる。前記単一の相互相関マップ３３の形状は、［

，Ｈ，Ｗ］である。前記

＊

個の相互相関マップ３３を特徴次元で結合し、グループ化相互相関特徴を得ることができる。続いて、前記グループ化相互相関特徴を３Ｄマッチングコスト特徴とする。前記３Ｄマッチングコスト特徴の形状は、［

，

，Ｈ，Ｗ］であり、つまり、前記グループ化相互相関特徴の形状は、［

，

，Ｈ，Ｗ］である。

ステップＳ３２４において、前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定する。

ステップＳ３２５において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。

ステップＳ３２６において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。

ステップＳ３３１において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定する。

ステップＳ３３２において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定する。

本願の実施例において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定する前記ステップＳ３３２の実現方法は、前記ステップＳ３２２の実現方法と同じであり、ここで、詳細な説明を省略する。

ステップＳ３３３において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、連結特徴を決定する。

本願の実施例において、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、連結特徴を決定する前記ステップＳ３３３は、下記ステッにより実現することができる。

ステップＳ３３３１において、取得された第１の２Ｄ結合特徴と第２の２Ｄ結合特徴の前記視差

に対する結合結果を決定し、

個の結合マップを得て、前記視差

は、０以上であり、

未満の自然数であり、前記

ステップＳ３３３２において、前記

個の結合マップを結合し、連結特徴を得る。

幾つかの実施例において、式

により、取得された第１の２Ｄ結合特徴と第２の２Ｄ結合特徴の前記視差

に対する結合結果を決定し、

個の結合マップを得ることができる。ここで、前記

は、前記第１の２Ｄ結合特徴における特徴を表し、前記

は、前記第２の２Ｄ結合特徴における特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、２つの特徴を結合することを表す。

図３Ｃは、本願の実施例による連結特徴を示す概略図である。図３Ｃに示すように、左図に対応する第１の２Ｄ結合特徴３５と右図に対応する第２の２Ｄ結合特徴３６を異なる視差０，１，……，

－１で連結し、

個の結合マップ３７を得る。前記

個の結合マップ３７を結合し、連結特徴を得る。ここで、前記２Ｄ結合特徴の形状は、［Ｃ，Ｈ，Ｗ］であり、前記単一の結合マップ３７の形状は、［２Ｃ，Ｈ，Ｗ］であり、前記連結特徴の形状は、［２Ｃ，

，Ｈ，Ｗ］であり、前記Ｃは、２Ｄ結合特徴のチャネル数であり、前記

は、左図又は右図に対応する使用シーンでの最大視差を表し、前記Ｈは、左図又は右図の高さであり、前記Ｗは、左図又は右図の幅である。

ステップＳ３３４において、前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、３Ｄマッチングコスト特徴を得る。

例えば、前記グループ化相互相関特徴の形状は、［

，

，Ｈ，Ｗ］であり、前記連結特徴の形状は、［２Ｃ，

，Ｈ，Ｗ］である。従って、前記３Ｄマッチングコスト特徴の形状は、［

，

，Ｈ，Ｗ］である。

ステップＳ３３５において、前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に対して、マッチングコスト集約を行う。

ここで、前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に対して、マッチングコスト集約を行うことは、前記両眼マッチングネットワークにおける３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差

の確率を決定することであって、前記視差

は、０以上であり、

未満の自然数であり、前記

は、サンプル画像に対応する使用シーンでの最大視差である、ことを含む。

本願の実施例中，前記ステップＳ３３５は、分類のニューラルネットワークにより実現することができ、前記分類のニューラルネットワークも両眼マッチングネットワークの１つの構成部分であり、各画素点が対応する異なる視差

の確率を決定するために用いられる。

ステップＳ３３６において、集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得る。

ここで、集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることは、前記各画素点が対応する異なる視差

の確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得ることであって、前記視差

は、０以上であり、

未満の自然数であり、前記

幾つかの実施例において、式

により、取得された各画素点が対応する異なる視差

の確率の加重平均値を決定することができる。ここで、前記

は、０以上であり、

未満の自然数であり、前記

は、サンプル画像に対応する使用シーンでの最大視差であり、前記

は、前記視差

に対応する確率を表す。

ステップＳ３３７において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。

ステップＳ３３８において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。

上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図４Ａは、本願の実施例による両眼マッチング方法の実現フローを示す第４概略図である。図４Ａに示すように、前記方法は、以下を含む。

ステップＳ４０１において、２Ｄ結合特徴を抽出する。

ステップＳ４０２において、前記２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成する。

ステップＳ４０３において、集約ネットワークを利用して前記３Ｄマッチングコスト特徴を処理する。

ステップＳ４０４において、処理された結果に対して、視差回帰を行う。

図４Ｂは、本願の実施例による両眼マッチングネットワークモデルを示す概略図である。図４Ｂに示すように、前記両眼マッチングネットワークモデルは、おおむね、２Ｄ結合特徴抽出モジュール４１、３Ｄマッチングコスト特徴生成モジュール４２、集約ネットワークモジュール４３及び視差回帰モジュール４４という４つの部分に分けられる。前記ピクチャ４６及びピクチャ４７は、それぞれサンプルデータにおける左図及び右図である。前記２Ｄ結合特徴抽出モジュール４１は、パラメータを共有する（重みの共有を含む）完全畳み込みニューラルネットワークを利用して、左右ピクチャに対して、サイズが元ピクチャの１／４である２Ｄ特徴を抽出し、異なる層の特徴マップを連結して大きな特徴マップを得るように構成される。前記３Ｄマッチングコスト特徴生成モジュール４２は、連結特徴及びグループ化相互相関特徴を取得し、前記連結特徴及びグループ化相互相関特徴を利用して、全ての可能な視差ｄに対して特徴マップを生成し、３Ｄマッチングコスト特徴を形成するように構成され、前記全ての可能な視差ｄは、ゼロ視差から最大視差までの全ての視差を含み、最大視差は、左図又は右図に対応する使用シーンでの最大視差を指す。前記集約ネットワークモジュール４３は、３Ｄニューラルネットワークを利用して、全ての可能な視差ｄの確率を推定するように構成される。前記視差回帰モジュール４４は、全ての視差の確率を利用して、最終的な視差マップ４５を得るように構成される。

本願の実施例において、古い３Ｄマッチングコスト特徴の代わりに、グループ化相互相関操作に基づいた３Ｄマッチングコスト特徴を提出する。まず、得られた２Ｄ結合特徴を

組に分け、左右図に対応する第ｇ組の特徴グループを選択し（例えば、ｇ＝１である場合、第１組の左図特徴及び第１組の右図特徴を選択する）、視差ｄに対する、それらの相互相関結果を計算する。各特徴グループｇ（０＜＝ｇ＜

）について、各可能な視差ｄ（０＜＝ｄ＜

）によれば、

＊

個の相互相関マップを得ることができる。これらの結果を連結して併合すると、形状が［

，

，Ｈ，Ｗ］であるグループ化相互相関特徴を得ることができる。ここで、

、

、Ｈ及びＷはそれぞれ、特徴グループの数、特徴マップに対する最大視差、特徴の高さ及び特徴の幅である。

続いて、前記グループ化相互相関特徴と連結特徴を結合して３Ｄマッチングコスト特徴することで、より高い効果を実現させる。

本願は、新たな両眼マッチングネットワークを提出する。該マッチングネットワークは、グループ化相互相関マッチングコスト特徴及び改良した３Ｄ積層砂時計型ネットワークに基づいて、３Ｄ集約ネットワークの演算コストを制限すると共に、マッチング精度を向上させることができる。ここで、高次元特徴を利用してグループ化相互相関マッチングコスト特徴を直接的に生成することで、より優れた表現特徴を得ることができる。

本願で提出されたグループ化相互相関に基づいたネットワーク構造は、２Ｄ特徴抽出、３Ｄマッチングコスト特徴生成、３Ｄ集約及び視差回帰という４つの部分で構成される。

まず、２Ｄ特徴抽出を行う。ここで、ピラミッドステレオマッチングネットワークと類似したネットワークを利用する。続いて、抽出された第２、３、４畳み込み層の最終的な特徴を結合し、３２０チャネルの２Ｄ特徴マップを形成する。

３Ｄマッチングコスト特徴は、連結特徴及びグループ化に基づいた相互相関特徴という２つの部分で構成される。前記連結特徴は、ピラミッドステレオマッチングネットワークにおける連結特徴と同じであるが、ピラミッドステレオマッチングネットワークに比べてチャネル数がより少ない。抽出された２Ｄ特徴は、まず、畳み込みにより、１２個のチャネルに圧縮され、続いて各可能な視差に対して、左右特徴の視差連結を行う。前記連結特徴とグループ化に基づいた相互相関特徴を結合した後、３Ｄ集約ネットワークの入力とする。

３Ｄ集約ネットワークは、隣接視差及び画素予測マッチングコストから得られた特徴を集約するためのものである。これは、予備砂時計モジュール及び３つの集積された３Ｄ砂時計ネットワークで形成され、畳み込み特徴を正規化する。

予備砂時計モジュール及び３つの集積された３Ｄ砂時計ネットワークは、出力モジュールに接続される。各出力モジュールについて、２つの３Ｄ畳み込みを利用して１つのチャネルの３Ｄ畳み込み特徴を出力する。続いて、該３Ｄ畳み込み特徴に対してアップサンプリングを行い、ｓｏｆｔｍａｘ関数により、視差次元に沿って、確率に変換する。

左図の２Ｄ特徴及び右図の２Ｄ特徴を

及び

で表し、

でチャネルを表し、２Ｄ特徴のサイズは、元画像の１／４である。従来技術において、左右特徴を様々な差分層で連結して様々なマッチングコストを形成する。しかしながら、マッチングメトリックは、３Ｄ集約ネットワークを利用して学習を行う必要がある。また、連結前に、メモリを節約するために、特徴を極めて少ないチャネルに圧縮する必要がある。しかしながら、このような圧縮特徴を表すための情報が損失することがある。上記問題を解決するために、本願の実施例は、グループ化相互相関に基づいて、従来のマッチングメトリックを利用して、マッチングコスト特徴を確立することを提出する。

グループ化相互相関に基づいた基本思想は、２Ｄ特徴を複数の組に分け、左図及び右図に対応するグループの相互相関性を計算することである。本願の実施例において、式

を利用してグループ化相互相関性を計算する。ここで、前記

は、２Ｄ特徴のチャネル数を表し、前記

は、グループの数を表し、前記

は、グループ化された左図に対応する特徴グループにおける特徴を表し、前記

は、グループ化された右図に対応する特徴グループにおける特徴を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、前記

は、横座標が

であって縦座標が

である画素点の画素座標を表し、ここで、

は、２つの特徴の積を表す。ここで、相関性計算とは、全ての特徴グループｇと全ての視差ｄの相関性の計算を指す。

特性を更に向上させるために、グループ化相互相関マッチングコストは、元の連結特徴と結合されてもよい。実験結果から分かるように、グループ化相互相関特徴と連結特徴は、互いに補完し合うものである。

本願は、ピラミッドステレオマッチングネットワークにおける集約ネットワークに対して改良を行った。まず、付加的な補助出力モジュールを追加する。従って、付加的な補助損失によれば、ネットワークに、低位層のより優れた集約特徴を学習させ、最終的な予測に寄与する。次に、異なる出力間の余剰接続モジュールが除去されるため、計算コストを節約する。

本願の実施例において、損失関数

を利用して、グループ化相互相関に基づいたネットワークを訓練する。ここで、

は、実施例で用いられるグループ化相互相関に基づいたネットワークに３つの仮結果及び１つの最終的結果があることを表し、

は、異なる結果について付加した異なる重みを表し、

は、前記グループ化相互相関に基づいたネットワークを利用することで得られた視差を表し、前記

は、実視差を表し、前記

は、従来の損失関数計算方法を表す。

ここで、ｉ番目の画素の予測誤差は、式

により決定されてもよい。ここで、

は、本願の実施例で提供された両眼マッチング方法で決定された処理しようとする画像の左図又は右図におけるｉ番目の画素点の予測視差を表し、

は、前記ｉ番目の画素点の実視差を表す。

図４Ｃは、本願の実施例による両眼マッチング方法と従来技術の両眼マッチング方法の実験結果の比較図である。図４Ｃに示すように、従来技術において、ＰＳＭＮｅｔ（即ち、ピラミッドステレオマッチングネットワーク）及びＣａｔ６４（即ち、連結特徴を用いた方法）が含まれる。本願の実施例の両眼マッチング方法は、Ｇｗｃ４０（ＧｗｃＮｅｔ－ｇ）（即ち、グループ化相互相関特徴に基づいた方法）及びＧｗｃ４０－Ｃａｔ２４（ＧｗｃＮｅｔ－ｇｃ）（即ち、グループ化相互相関特徴と連結特徴を結合した特徴に基づいた方法）という２つの方法を含む。ここで、従来技術における２つの方法及び本願の実施例の第２方法は、いずれも連結特徴を用いたが、本願の実施例のみにおいて、グループ化相互相関特徴を用いた。更に、本願の実施例における方法のみは、特徴グループ化に係わる。つまり、得られた２Ｄ結合特徴を４０組に分け、各組のチャネル数は、８個である。最後に、処理しようとする画像を利用して従来技術及び本願の実施例における方法をテストし、ステレオ視差異常値の百分率を得る。つまり、それぞれ、１画素より大きい異常値の百分率、２画素より大きい異常値の百分率及び３画素より大きい異常値の百分率を得る。図面から分かるように、本願で提出された２つの方法の実験結果は、いずれも従来技術よりも優れる。つまり、本願の実施例の方法を利用して処理しようとする画像を処理することで得られたステレオ視差異常値の百分率はいずれも、従来技術により処理しようとする画像を処理することで得られたステレオ視差異常値の百分率よりも小さい。

上述した実施例によれば、本願の実施例は、両眼マッチング装置を提供する。該装置に含まれる各ユニット、及び各ユニットに含まれる各モジュールは、コンピュータ機器におけるプロセッサにより実現することができる。勿論、具体的な論理回路により実現することもできる。実行過程において、プロセッサは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算処理装置）、ＭＰＵ（ＭｉｃｒｏｐｒｏｃｅｓｓｏｒＵｎｉｔ：マイクロプロセッサ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：デジタル信号プロセッサ）又はＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：フィールドプログラマブルゲートアレイ）等であってもよい。

図５は、本願の実施例による両眼マッチング装置の構造を示す概略図である。図５に示すように、前記装置５００は、
処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む２Ｄ画像である、取得ユニット５０１と、
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成するように構成される生成ユニットであって、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、生成ユニット５０２と、
前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニット５０３と、を備える。

幾つかの実施例において、前記生成ユニット５０２は、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定するように構成される第１生成サブモジュールと、
前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定するように構成される第２生成サブユニットと、を備える。

幾つかの実施例において、前記生成ユニット５０２は、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定するように構成される第１生成サブユニットと、
前記グループ化相互相関特徴と前記連結特徴を結合した特徴を３Ｄマッチングコスト特徴として決定するように構成される第２生成サブユニットと、を備え、
前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである。

幾つかの実施例において、前記第１生成サブユニットは、
抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定するように構成される第１生成モジュールと、
前記相互相関結果を結合し、グループ化相互相関特徴を得るように構成される第２生成モジュールと、を備える。

幾つかの実施例において、前記第１生成モジュールは、
抽出された前記左図の特徴をグループ化し、第１所定数量の第１特徴グループを形成するように構成される第１生成サブモジュールと、
抽出された前記右図の特徴をグループ化し、第２所定数量の第２特徴グループを形成するように構成される第２生成サブモジュールであって、前記第１所定数量は、前記第２所定数量と同じである、第２生成サブモジュールと、
異なる視差における、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定するように構成される第３生成サブモジュールであって、ｇは、１以上であり、第１の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか１つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である、第３生成サブモジュールと、を備える。

幾つかの実施例において、前記装置は、
パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出するように構成される抽出ユニットを更に備える。

幾つかの実施例において、前記決定ユニット５０３は、
３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定するように構成される第１決定サブユニットと、
前記各画素点が対応する異なる視差の確率の加重平均値を決定するように構成される第２決定サブユニットと、
前記加重平均値を前記画素点の視差として決定するように構成される第３決定サブユニットと、
前記画素点の視差に基づいて、前記画素点の深度を決定するように構成される第４決定サブモジュールと、を備える。

前記実施例によれば、本願の実施例は、両眼マッチングネットワーク訓練装置を提供する。該装置に含まれる各ユニット、及び各ユニットに含まれる各モジュールは、コンピュータ機器におけるプロセッサにより実現することができる。勿論、具体的な論理回路により実現することもできる。実行過程において、プロセッサは、ＣＰＵ、ＭＰＵ、ＤＳＰ又はＦＰＧＡ等であってもよい。

図６は、本願の実施例による両眼マッチングネットワーク訓練装置の構造を示す概略図である。図６に示すように、前記装置６００は、
両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定するように構成される特徴抽出ユニット６０１であって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、特徴抽出ユニット６０１と、
前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定するように構成される視差予測ユニット６０２と、
前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得るように構成される比較ユニット６０３と、
前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うように構成される訓練ユニット６０４と、を備える。

幾つかの実施例において、前記特徴抽出ユニット６０１は、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定するように構成される第１特徴抽出サブユニットと、
前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成するように構成される第２特徴抽出サブユニットと、を備える。

幾つかの実施例において、前記第１特徴抽出サブユニットは、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出するように構成される第１特徴抽出モジュールと、
２Ｄ特徴の結合を行うための畳み込み層の識別子を決定するように構成される第２特徴抽出モジュールと、
前記識別子に基づいて、前記左図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第１の２Ｄ結合特徴を得るように構成される第３特徴抽出モジュールと、
前記識別子に基づいて、前記右図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第２の２Ｄ結合特徴を得るように構成される第４特徴抽出モジュールと、を備える。

幾つかの実施例において、前記第２特徴抽出モジュールは、第ｉ畳み込み層の間隔率が変動した場合、前記第ｉ畳み込み層を、２Ｄ特徴の結合を行うための畳み込み層として決定するように構成され、ｉは、１以上の自然数である。

幾つかの実施例において、前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークであり、なお、前記第１特徴抽出モジュールは、両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出するように構成され、前記２Ｄ特徴のサイズは、前記左図又は右図のサイズの四分の一である。

幾つかの実施例において、前記第２特徴抽出サブユニットは、
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定するように構成される第１特徴決定モジュールと、
前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定するように構成される第２特徴決定モジュールと、を備える。

幾つかの実施例において、第２特徴抽出サブユニットは、
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定するように構成される第１特徴決定モジュールであって、取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、連結特徴を決定するように更に構成される第１特徴決定モジュールと、
前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、３Ｄマッチングコスト特徴を得るように構成される第２特徴決定ユニットと、を備える。

幾つかの実施例において、前記第１特徴決定モジュールは、
取得された第１の２Ｄ結合特徴を

組に分け、

個の第１特徴グループを得るように構成される第１特徴決定サブモジュールと、
取得された第２の２Ｄ結合特徴を

組に分け、

個の第２特徴グループを得るように構成される第２特徴決定サブモジュールであって、

は、１以上の自然数である、第２特徴決定サブモジュールと、
前記視差

に対する、

個の第１特徴グループと

個の第２特徴グループの相互相関結果を決定し、

＊

個の相互相関マップを得るように構成される第３特徴決定サブモジュールであって、前記視差

は、０以上であり、

未満の自然数であり、前記

は、サンプル画像に対応する使用シーンでの最大視差である、第３特徴決定サブモジュールと、
前記

＊

個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得るように構成される第４特徴決定サブモジュールと、を備える。

幾つかの実施例において、前記第３特徴決定サブモジュールは、前記視差

個の相互相関マップを得るように構成され、ｇは、１以上

以下の自然数であり、前記第３特徴決定サブモジュールは、前記視差

に対する、

個の第１特徴グループと

個の第２特徴グループの相互相関結果を決定し、

＊

個の相互相関マップを得るように構成される。

幾つかの実施例において、前記第１特徴決定モジュールは、
前記視差

に対する、取得された第１の２Ｄ結合特徴と第２の２Ｄ結合特徴の結合結果を決定し、

個の結合マップを得るように構成される第５特徴決定サブモジュールであって、前記視差

は、０以上であり、

未満の自然数であり、前記

は、サンプル画像に対応する使用シーンでの最大視差である、第５特徴決定サブモジュールと、
前記

個の結合マップを結合し、連結特徴を得るように構成される第６特徴決定サブモジュールと、を更に備える。

幾つかの実施例において、前記視差予測ユニット６０２は、
前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に対して、マッチングコスト集約を行うように構成される第１視差予測サブユニットと、
集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得るように構成される第２視差予測サブユニットと、を備える。

幾つかの実施例において、前記第１視差予測サブユニットは、前記両眼マッチングネットワークにおける３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差

の確率を決定するように構成され、前記視差

は、０以上であり、

未満の自然数であり、前記

幾つかの実施例において、前記第２視差予測サブユニットは、前記各画素点が対応する異なる視差

の確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得るように構成され、
前記視差

は、０以上であり、

未満の自然数であり、前記

上記装置の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本願の装置の実施例で説明されない技術的な詳細については、本願の方法の実施例の説明を参照されたい。

本願の実施例において、上記両眼マッチング方法又は両眼マッチングネットワークの訓練方法がソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、一台のコンピュータ機器（パーソナルコンピュータ、サーバ等）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Ｕディスク、リムーバブルハードディスク、ＲＯＭ（Ｒｅａｄ-ｏｎｌｙＭｅｍｏｒｙ：読み出し専用メモリ）、磁気ディスク又は光ディスなど、プログラムコードを記憶可能な各種の媒体を含む。従って、本出願の実施例は、如何なる特定のハードウェアとソフトウェアの組み合わせにも限定されない。

なお、本願の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、上記実施例で提供される両眼マッチング方法におけるステップを実現させるか又は上記実施例で提供される両眼マッチングネットワークの訓練方法におけるステップを実現させる。

なお、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記実施例で提供される両眼マッチング方法におけるステップを実現させるか又は上記実施例で提供される両眼マッチングネットワークの訓練方法におけるステップを実現させる。

上記記憶媒体及び機器の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本願の記憶媒体及び機器の実施例で説明されない技術的な詳細については、本願の方法の実施例の説明を参照されたい。

図７は、本願の実施例によるコンピュータ機器のハードウェアエンティティを示す概略図であり、図７に示すように、該コンピュータ機器７００のハードウェアエンティティは、プロセッサ７０１と、通信インターフェイス７０２と、メモリ７０３と、を備えることに留意されたい。ここで、
プロセッサ７０１は、一般的には、コンピュータ機器７００の全体操作を制御する。

通信インターフェイス７０２は、コンピュータ機器がネットワークを経由して他の端末あんたはサーバと通信するようにすることができる。

メモリ７０３は、プロセッサ７０１による実行可能な命令及びアプリケーションを記憶するように構成され、また、プロセッサ７０１及びコンピュータ機器７００における各モジュールにより処理されるか又は処理されたデータ（例えば、画像データ、オーディオデータ、音声通信データ及びビデオ通信データ）をキャッシュすることもでき、これは、ＦＬＡＳＨ（フラッシュ）又はＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）により実現する。

明細書全文を通じて述べられる「１つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本願の少なくとも１つの実施例の中に含まれることを意味すると理解されたい。従って、本明細書全体を通して出現する「１つの実施例において」又は「一実施例において」は、同じ実施例を指すとは限らない。また、これらの特定の特徴、構造または特性は、任意かつ適切な方式で１つまたは複数の実施例に組み入れられることができる。本願の各実施例において、上記各プロセスの番号の大きさは、実行順の前後を意味するのではなく、各プロセスの実行順は、その機能および内在的な論理によって確定されるものであり、本発明の実施例の実施プロセスに対しいっさい限定を構成しないと理解すべきである。上記の本発明に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。

本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。

本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。

上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、ＲＯＭ（Ｒｅａｄ-ｏｎｌｙＭｅｍｏｒｙ：読み出し専用メモリ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者でれば、理解すべきである。

又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器（パーソナルコンピュータ、サーバなど）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ＲＯＭ、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

以上は本願の実施形態に過ぎず、本願の保護の範囲はそれらに制限されるものではなく、当業者が本願に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims

コンピュータが実行する両眼マッチング方法であって、前記方法は、
処理しようとする画像を取得することであって、前記画像は、左図及び右図を含む２Ｄ画像である、ことと、
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成することであって、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、ことと、
前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定することと、を含む、両眼マッチング方法。
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成することは、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定することと、
前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定することと、を含み、又は、
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成することは、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定することと、
前記グループ化相互相関特徴と前記連結特徴を結合した特徴を３Ｄマッチングコスト特徴として決定することと、を含むことを特徴とする
請求項１に記載の方法。
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定することは、
抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定することと、
前記相互相関結果を結合し、グループ化相互相関特徴を得ることと、を含むことを特徴とする
請求項２に記載の方法。
抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定することは、
抽出された前記左図の特徴をグループ化し、第１所定数量の第１特徴グループを形成することと、
抽出された前記右図の特徴をグループ化し、第２所定数量の第２特徴グループを形成することであって、前記第１所定数量は、前記第２所定数量と同じである、ことと、
異なる視差における、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定することであって、ｇは、１以上であり、第１の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか１つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である、ことと、を含むことを特徴とする
請求項３に記載の方法。
抽出された前記左図の特徴及び前記右図の特徴を利用する前に、前記方法は、
パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することを更に含むことを特徴とする
請求項１から４のいずれか一項に記載の方法。
前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定することは、
３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定することと、
前記各画素点が対応する異なる視差の確率の加重平均値を決定することと、
前記加重平均値を前記画素点の視差として決定することと、
前記画素点の視差に基づいて、前記画素点の深度を決定することと、を含むことを特徴とする
請求項５に記載の方法。
両眼マッチングネットワークの訓練方法であって、前記方法は、
両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定することであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、ことと、
前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することと、
前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得ることと、
前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うことと、を含む、両眼マッチングネットワークの訓練方法。
両眼マッチングネットワークを利用して、取得されたサンプル画像の３Ｄマッチングコスト特徴を決定することは、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定することと、
前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成することと、を含むことを特徴とする
請求項７に記載の方法。
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴をそれぞれ決定することは、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することと、
２Ｄ特徴の結合を行うための畳み込み層の識別子を決定することと、
前記識別子に基づいて、前記左図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第１の２Ｄ結合特徴を得ることと、
前記識別子に基づいて、前記右図における異なる畳み込み層の２Ｄ特徴を特徴次元で結合し、第２の２Ｄ結合特徴を得ることと、を含むことを特徴とする
請求項８に記載の方法。
２Ｄ特徴の結合を行うための畳み込み層の識別子を決定することは、
第ｉ畳み込み層の間隔率が変動した場合、前記第ｉ畳み込み層を、２Ｄ特徴の結合を行うための畳み込み層として決定することであって、ｉは、１以上の自然数である、ことを含むことを特徴とする
請求項９に記載の方法。
前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークであり、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することは、
両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の２Ｄ特徴及び前記右図の２Ｄ特徴をそれぞれ抽出することであって、前記２Ｄ特徴のサイズは、前記左図又は右図のサイズの四分の一である、ことを含むことを特徴とする
請求項９又は１０に記載の方法。
前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成することは、
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定することと、
前記グループ化相互相関特徴を３Ｄマッチングコスト特徴として決定することと、を含み、又は、
前記左図の２Ｄ結合特徴及び前記右図の２Ｄ結合特徴を利用して、３Ｄマッチングコスト特徴を生成することは、
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定することと、
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、連結特徴を決定することと、
前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、３Ｄマッチングコスト特徴を得ることと、を含むことを特徴とする
請求項８から１１のいずれか一項に記載の方法。
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、グループ化相互相関特徴を決定することは、
取得された第１の２Ｄ結合特徴をＮ_ｇ組に分け、Ｎ_ｇ個の第１特徴グループを得ることと、
取得された第２の２Ｄ結合特徴をＮ_ｇ組に分け、Ｎ_ｇ個の第２特徴グループを得ることであって、Ｎ_ｇは、１以上の自然数である、ことと、
前記視差ｄに対する、Ｎ_ｇ個の第１特徴グループとＮ_ｇ個の第２特徴グループの相互相関結果を決定し、Ｎ_ｇ＊Ｄ_ｍａｘ個の相互相関マップを得ることであって、前記視差ｄは、０以上であり、Ｄ _ｍａｘ未満である自然数であり、前記Ｄ_ｍａｘは、サンプル画像に対応する使用シーンでの最大視差である、ことと、
前記Ｎ_ｇ＊Ｄ_ｍａｘ個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得ることと、を含むことを特徴とする
請求項１２に記載の方法。
前記視差ｄに対する、Ｎ_ｇ個の第１特徴グループとＮ_ｇ個の第２特徴グループの相互相関結果を決定し、Ｎ_ｇ＊Ｄ_ｍａｘ個の相互相関マップを得ることは、
前記視差ｄに対する、第ｇ組の第１特徴グループと第ｇ組の第２特徴グループの相互相関結果を決定し、Ｄ_ｍａｘ個の相互相関マップを得ることであって、ｇは、１以上Ｎ_ｇ以下の自然数である、ことと、
前記視差ｄに対する、Ｎ_ｇ個の第１特徴グループとＮ_ｇ個の第２特徴グループの相互相関結果を決定し、Ｎ_ｇ＊Ｄ_ｍａｘ個の相互相関マップを得ることと、を含むことを特徴とする
請求項１３に記載の方法。
取得された第１の２Ｄ結合特徴及び取得された第２の２Ｄ結合特徴を利用して、連結特徴を決定することは、
取得された第１の２Ｄ結合特徴と第２の２Ｄ結合特徴の前記視差ｄに対する結合結果を決定し、Ｄ_ｍａｘ個の結合マップを得ることであって、前記視差ｄは、０以上であり、Ｄ _ｍａｘ未満である自然数であり、前記Ｄ_ｍａｘは、サンプル画像に対応する使用シーンでの最大視差である、ことと、
前記Ｄ_ｍａｘ個の結合マップを結合し、連結特徴を得ることと、を含むことを特徴とする
請求項１２に記載の方法。
前記３Ｄマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することは、
前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に対して、マッチングコスト集約を行うことと、
集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることと、を含むことを特徴とする
請求項７に記載の方法。
前記両眼マッチングネットワークを利用して、前記３Ｄマッチングコスト特徴に対して、マッチングコスト集約を行うことは、
前記両眼マッチングネットワークにおける３Ｄニューラルネットワークを利用して、前記３Ｄマッチングコスト特徴における各画素点が対応する異なる視差ｄの確率を決定することであって、前記視差ｄは、０以上であり、Ｄ _ｍａｘ未満である自然数であり、前記Ｄ_ｍａｘは、サンプル画像に対応する使用シーンでの最大視差である、ことを含むことを特徴とする
請求項１６に記載の方法。
集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることは、
前記各画素点が対応する異なる視差ｄの確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得ることであって、前記視差ｄは、０以上であり、Ｄ _ｍａｘ未満である自然数であり、前記Ｄ_ｍａｘは、サンプル画像に対応する使用シーンでの最大視差である、ことを含むことを特徴とする
請求項１６に記載の方法。
両眼マッチング装置であって、前記装置は、
処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む２Ｄ画像である、取得ユニットと、
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の３Ｄマッチングコスト特徴を生成するように構成される生成ユニットであって、前記３Ｄマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、生成ユニットと、
前記３Ｄマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニットと、を備える、両眼マッチング装置。
コンピュータ機器であって、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、請求項１から６のいずれか一項に記載の両眼マッチング方法におけるステップを実現させるか又は請求項７から１８のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータ機器。
コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項１から６のいずれか一項に記載の両眼マッチング方法におけるステップを実現させるか又は請求項７から１８のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータ可読記憶媒体。
コンピュータプログラムであって、コンピュータに、請求項１から６のいずれか一項に記載の両眼マッチング方法におけるステップ、又は請求項７から１８のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータプログラム。