JP7153091B2 - 両眼マッチング方法及び装置、機器並びに記憶媒体 - Google Patents

両眼マッチング方法及び装置、機器並びに記憶媒体 Download PDF

Info

Publication number
JP7153091B2
JP7153091B2 JP2020565808A JP2020565808A JP7153091B2 JP 7153091 B2 JP7153091 B2 JP 7153091B2 JP 2020565808 A JP2020565808 A JP 2020565808A JP 2020565808 A JP2020565808 A JP 2020565808A JP 7153091 B2 JP7153091 B2 JP 7153091B2
Authority
JP
Japan
Prior art keywords
features
feature
correlation
cross
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020565808A
Other languages
English (en)
Other versions
JP2021526683A (ja
Inventor
シアオヤン グオ
カイ ヤン
ウークイ ヤン
ホンション リー
シャオガン ワン
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021526683A publication Critical patent/JP2021526683A/ja
Application granted granted Critical
Publication of JP7153091B2 publication Critical patent/JP7153091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願の相互参照)
本願は、2019年02月19に中国特許局に提出された、出願番号が201910127860.4であり、発明名称が「両眼マッチング方法及び装置、機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に援用される。
本願の実施例は、コンピュータビジョン分野に関し、両眼マッチング方法及び装置、機器並びに記憶媒体に関するが、これらに限定されない。
両眼マッチングは、異なる角度で撮られた一対のピクチャから深度を復元する技術である。各対のピクチャは一般的には、左右又は上下に配置された一対のカメラにより得られる。問題を簡単にするために、異なるカメラにより撮られたピクチャを補正し、これにより、カメラが左右に配置される場合に、対応する画素を同一の水平線に位置させ、又は、カメラが上下に配置される場合に、対応する画素を同一の垂直線に位置させる。この場合、問題は、対応するマッチング画素の距離(視差とも呼ばれる)の推定に変わる。視差、カメラの焦点と2つのカメラの中心との距離によって、深度を算出することができる。現在、両眼マッチング方法は、おおむね、従来のマッチングコストに基づいたアルゴリズム及び深層学習に基づいたアルゴリズムという2つの方法に分けられる。
本願の実施例は、両眼マッチング方法及び装置、機器並びに記憶媒体を提供する。
本願の実施例の技術的解決手段は、以下のように実現される。
第1態様によれば、本願の実施例は、両眼マッチング方法を提供する。前記方法は、処理しようとする画像を取得することであって、前記画像は、左図及び右図を含む2D(2 Dimensions:二次元)画像である、ことと、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3D(3 Dimensions:三次元)マッチングコスト特徴を生成することであって、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、ことと、前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定することと、を含む。
第2態様によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を提供する。前記方法は、両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定することであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、ことと、前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することと、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得ることと、前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うことと、を含む。
第3態様によれば、本願の実施例は、両眼マッチング装置を提供する。前記装置は、処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む2D画像である、取得ユニットと、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成するように構成される生成ユニットであって、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、生成ユニットと、前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニットと、を備える。
第4態様によれば、本願の実施例は、両眼マッチングネットワーク訓練装置を提供する。前記装置は、両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定するように構成される特徴抽出ユニットであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、特徴抽出ユニットと、前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定するように構成される視差予測ユニットと、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得るように構成される比較ユニットと、前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うように構成される訓練ユニットと、を備える。
第5態様によれば、本願の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、前記両眼マッチング方法におけるステップを実現させるか又は前記両眼マッチングネットワークの訓練方法におけるステップを実現させる。
第6態様によれば、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、前記両眼マッチング方法におけるステップを実現させるか又は前記両眼マッチングネットワークの訓練方法におけるステップを実現させる。
本願の実施例は、両眼マッチング方法及び装置、機器並びに記憶媒体を提供する。処理しようとする画像を取得する。前記画像は、左図及び右図を含む2D画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成する。前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。
本願の実施例による両眼マッチング方法の実現フローを示す第1概略図である。 本願の実施例による処理しようとする画像の深度推定を示す概略図である。 本願の実施例による両眼マッチング方法の実現フローを示す第2概略図である。 本願の実施例による両眼マッチング方法の実現フローを示す第3概略図である。 本願の実施例による両眼マッチングネットワークの訓練方法の実現フローを示す概略図である。 本願の実施例によるグループ化相互相関を示す概略図である。 本願の実施例による連結特徴を示す概略図である。 本願の実施例による両眼マッチング方法の実現フローを示す第4概略図である。 本願の実施例による両眼マッチングネットワークモデルを示す概略図である。 本願の実施例による両眼マッチング方法と従来技術の両眼マッチング方法の実験結果の比較図である。 本願の実施例による両眼マッチング装置の構造を示す概略図である。 本願の実施例による両眼マッチングネットワーク訓練装置の構造を示す概略図である。 本願の実施例によるコンピュータ機器のハードウェアエンティティを示す概略図である。
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の具体的な技術的解決手段を更に詳しく説明する。下記実施例は、本願を説明するためのものに過ぎず、本願の範囲を限定するものではない。
以下の記述では、素子を表すための「モジュール」、「部材」又は「ユニット」のような接尾語は、本願を説明しやすくするために用いられる。その自体は、特定の意味を持たない。従って、「モジュール」、「部材」又は「ユニット」は混用されてもよい。
本願の実施例は、グループ化相互相関マッチングコスト特徴を利用して両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させる。以下、図面及び実施例を参照しながら、本願の技術的解決手段を更に詳しく説明する。
本願の実施例は、両眼マッチング方法を提供する。該方法は、コンピュータ機器に適用される。該方法により実現される機能は、サーバにおけるプロセッサによりプログラムコードを呼び出すことで実現されてもよい。勿論、プログラムコードは、コンピュータ記憶媒体に記憶されてもよい。該サーバは、少なくとも、プロセッサと、記憶媒体と、を備えることが明らかである。図1Aは、本願の実施例による両眼マッチング方法の実現フローを示す第1概略図である。図1Aに示すように、前記方法は、以下を含む。
ステップS101において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む2D画像である。
ここで、前記コンピュータ機器は、端末であってもよい。前記処理しようとする画像は、如何なるシーンを含むピクチャであってもよい。また、前記処理しようとする画像は、一般的には、左図及び右図を含む両眼ピクチャであり、異なる角度で撮られた一対のピクチャである。一般的には、各対のピクチャは、左右又は上下に配置された一対のカメラにより得られる。
一般的には、前記端末は、実行過程において、情報処理能力を持つ様々なタイプの装置っであってもよい。例えば、前記携帯端末は、携帯電話、PDA(Personal Digital Assistant:パーソナルデジタルアシスタント)、ナビゲータ、デジタル電話機、テレビ電話機、スマートウォッチ、スマートブレスレット、ウェアラブル機器、タブレット等を含んでもよい。サーバは、実現過程において、携帯電話、タブレット及びノートパソコンのような携帯端末、パーソナルコンピュータ及びサーバクラスタのような固定端末のような、情報処理能力を持つコンピュータ機器であってもよい。
ステップS102において、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成し、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。
ここで、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含んでもよく、グループ化相互相関特徴と連結特徴を結合した特徴を含でもよい。また、上記2つの特徴のうちのどちらを利用して3Dマッチングコスト特徴を生成しても、極めて正確な視差予測結果を得ることもできる。
ステップS103において、前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。
ここで、前記3Dマッチングコスト特徴により、各左図における画素の、可能な視差の確率を決定することができる。つまり、前記3Dマッチングコスト特徴により、左図における画素点の特徴と右図における対応する画素点の特徴とのマッチング程度を決定する。つまり、左特徴マップにおける1つの点の特徴を利用して、右特徴マップにおけるその全ての可能な位置を探し、続いて、右特徴マップにおける各可能な位置の特徴と、右図における前記点の特徴とを結合し、分類して、右特徴マップにおける各可能な位置が、前記点の右図における対応点である確率を得る。
ここで、画像の深度を決定することは、左図の点が右図に対応する点を決定し、それらの横方向の画素距離(カメラが左右に配置される場合)を決定することである。勿論、右図の点が左図に対応する点を決定することであってもよく、本出願は、これを限定するものではない。
本願の実施例において、前記ステップS102からステップS103は、訓練により得られた両眼マッチングネットワークで実現してもよい。ここで、前記両眼マッチングネットワークは、CNN(Convolutional Neural Networks:畳み込みニューラルネットワーク)、DNN(Deep Neural Network:深層ニューラルネットワーク)及びRNN(Recurrent Neural Network:再帰型ニューラルネットワーク)等を含むが、これらに限定されない。勿論、前記両眼マッチングネットワークは、前記CNN、DNN及びRNNなどのネットワークのうちの1つのネットワークを含んでもよく、前記CNN、DNN及びRNN等のネットワークのうちの少なくとも2つのネットワークを含んでもよい。
図1Bは、本願の実施例による処理しようとする画像の深度推定を示す概略図である。図1Bに示すように、ピクチャ11は、処理しようとする画像における左図であり、ピクチャ12は、処理しようとする画像における右図であり、ピクチャ13は、前記ピクチャ12に基づいて決定されたピクチャ11の視差マップであり、即ち、ピクチャ11の対応する視差マップである。前記視差マップに基づいて、ピクチャ11の対応する深度マップを取得することができる。
本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む2D画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成する。前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。
上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図2Aは、本願の実施例による両眼マッチング方法の実現フローを示す第2概略図である。図2Aに示すように、前記方法は以下を含む。
ステップS201において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む2D画像である。
ステップS202において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する。
本願の実施例において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する前記ステップS202は、下記ステップにより実現することができる。
ステップS2021において、抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定する。
ステップS2022において、前記相互相関結果を結合し、グループ化相互相関特徴を得る。
ここで、抽出された前記左図の特徴及び前記右図の特徴をグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定する前記ステップS2021は、下記ステップにより実現することができる。
ステップS2021aにおいて、抽出された前記左図の特徴をグループ化し、第1所定数量の第1特徴グループを形成する。
ステップS2021bにおいて、抽出された前記右図の特徴をグループ化し、第2所定数量の第2特徴グループを形成し、前記第1所定数量は、前記第2所定数量と同じである。
ステップS2021cにおいて、異なる視差における、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、gは、1以上であり、第1の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか1つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である。
ここで、左図の特徴を複数の特徴グループに分け、右図の特徴を複数の特徴グループに分け、異なる視差における、左図の複数の特徴グループのうちのいずれか1つの特徴グループと右図の対応する特徴グループの相互相関結果を決定することができる。前記グループ化相互相関とは、左右図の特徴をそれぞれ得た後、左図の特徴をグループ化し(右図に対して同様にする)、続いて、対応するグループに対して相互相関計算を行う(それらの相関性を計算する)ことを指す。
幾つかの実施例において、異なる視差における、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定することは、式
Figure 0007153091000001
により、異なる視差
Figure 0007153091000002
での、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定することであって、前記
Figure 0007153091000003
は、前記左図の特徴又は前記右図の特徴のチャネル数を表し、前記
Figure 0007153091000004
は、第1所定数量又は第2所定数量を表し、前記
Figure 0007153091000005
は、前記第1特徴グループにおける特徴を表し、前記
Figure 0007153091000006
は、前記第2特徴グループにおける特徴を表し、前記
Figure 0007153091000007
は、横座標が
Figure 0007153091000008
であって縦座標が
Figure 0007153091000009
である画素点の画素座標を表し、前記
Figure 0007153091000010
は、横座標が
Figure 0007153091000011
であって、縦座標が
Figure 0007153091000012
である画素点の画素座標である、ことを含む。
ステップS203において、前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定する。
ここで、ある画素点について、0~
Figure 0007153091000013
視差における、前記画素点の3Dマッチング特徴を抽出することで、各可能な視差の確率を決定する。前記確率を加重平均化して、画像の視差を得ることができる。ここで、前記
Figure 0007153091000014
は、処理しようとする画像に対応する使用シーンでの最大視差を表す。可能な視差のうちの確率が最も高い視差を画像の視差として決定することもできる。
ステップS204において、前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。
本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む2D画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定する。前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定する。前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。
上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図2Bは、本願の実施例による両眼マッチング方法の実現フローを示す第3概略図である。図2Bに示すように、前記方法は以下を含む。
ステップS211において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む2D画像である。
ステップS212において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する。
本願の実施例において、抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する前記ステップS212の実現方法は、前記ステップS202の実現方法と同じであり、ここで、詳細な説明を省略する。
ステップS213において、前記グループ化相互相関特徴と前記連結特徴を結合した特徴を3Dマッチングコスト特徴として決定する。
ここで、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである。
ここで、グループ化相互相関特徴と連結特徴を特徴次元で結合し、3Dマッチングコスト特徴を得ることができる。3Dマッチングコスト特徴は、あり得るすべての視差に対してそれぞれ得られた特徴に相当する。例えば、最大視差が
Figure 0007153091000015
である場合、あり得る視差0,1,……,
Figure 0007153091000016
-1に対して、それぞれ対応する2D特徴が得られ、そしてそれらを結合して、3D特徴を得る。
幾つかの実施例において、式
Figure 0007153091000017
を利用して、可能なそれぞれ視差
Figure 0007153091000018
に対して、左図の特徴と右図の特徴の結合結果を決定し、
Figure 0007153091000019
個の結合マップを得ることでができる。ここで、前記
Figure 0007153091000020
は、前記左図の特徴を表し、前記
Figure 0007153091000021
は、前記右図の特徴を表し、前記
Figure 0007153091000022
は、横座標が
Figure 0007153091000023
であって縦座標が
Figure 0007153091000024
である画素点の画素特徴を表し、前記
Figure 0007153091000025
は、横座標が
Figure 0007153091000026
であって縦座標が
Figure 0007153091000027
である画素点の画素座標を表し、前記
Figure 0007153091000028
は、2つの特徴に対して結合を行うことを表す。続いて、前記
Figure 0007153091000029
個の結合マップを結合し、連結特徴を得る。
ステップS214において、前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。
本願の実施例において、処理しようとする画像を取得する。前記画像は、左図及び右図を含む2D画像である。抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定する。前記グループ化相互相関特徴と前記連結特徴を結合した特徴を3Dマッチングコスト特徴として決定する。前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定する。これにより、両眼マッチングの正確度を向上させ、ネットワークの演算需要を低減させることができる。
上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。前記方法は、以下を含む。
ステップS221において、処理しようとする画像を取得し、前記画像は、左図及び右図を含む2D画像である。
ステップS222において、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出する。
本願の実施例において、前記完全畳み込みニューラルネットワークは、両眼マッチングネットワークの1つの構成部分である。前記両眼マッチングネットワークにおいて、1つの完全畳み込みニューラルネットワークを利用して、処理しようとする画像の2D特徴を抽出することができる。
ステップS223において、抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成し、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。
ステップS224において、3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定する。
本願の実施例において、前記ステップS224は、分類のニューラルネットワークにより実現することができる。前記分類のニューラルネットワークも、両眼マッチングネットワークの1つの構成部分であり、各画素点が対応する異なる視差の確率を決定するために用いられる。
ステップS225において、前記各画素点が対応する異なる視差の確率の加重平均値を決定する。
幾つかの実施例において、式
Figure 0007153091000030
により、取得された各画素点が対応する異なる視差
Figure 0007153091000031
の確率の加重平均値を決定することができる。ここで、前記視差
Figure 0007153091000032
は、0以上であり、
Figure 0007153091000033
未満の自然数であり、前記
Figure 0007153091000034
は、処理しようとする画像に対応する使用シーンでの最大視差を表し、前記
Figure 0007153091000035
は、前記視差
Figure 0007153091000036
に対応する確率を表す。
ステップS226において、前記加重平均値を前記画素点の視差として決定する。
ステップS227において、前記画素点の視差に基づいて、前記画素点の深度を決定する。
幾つかの実施例において、前記方法は、式
Figure 0007153091000037
により、取得された画素点の視差
Figure 0007153091000038
に対応する深度情報
Figure 0007153091000039
を決定することであって、前記
Figure 0007153091000040
は、サンプルを撮影するカメラのレンズ焦点距離を表し、前記
Figure 0007153091000041
は、サンプルを撮影するカメラのレンズベースライン距離を表す、ことを更に含む。
上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を提供する。図3Aは、本願の実施例による両眼マッチングネットワークの訓練方法の実現フローを示す概略図である。図3Aに示すように、前記方法は、以下を含む。
ステップS301において、両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定し、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む。
ステップS302において、前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定する。
ステップS303において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。
ここで、得られた損失関数により、前記両眼マッチングネットワークにおけるパラメータを更新することができる。パラメータが更新された両眼マッチングネットワークの予測効果は、より高い。
ステップS304において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。
上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を更に提供する。前記方法は、以下を含む。
ステップS311において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定する。
本願の実施例において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定する前記ステップS311は、下記ステップにより実現することができる。
ステップS3111において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出する。
ここで、前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークである。なお、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することは、両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することであって、前記2D特徴のサイズは、前記左図又は右図のサイズの四分の一である、ことを含む。
例えば、サンプルのサイズが1200*400画素である場合、前記2D特徴のサイズは、前記サンプルのサイズの四分の一であり、即ち、300*100画素である。勿論、前記2D特徴は、他のサイズであってもよく、本願の実施例は、これを限定するものではない。
本願の実施例において、前記完全畳み込みニューラルネットワークは、両眼マッチングネットワークの1つの構成部分である。前記両眼マッチングネットワークにおいて、1つの完全畳み込みニューラルネットワークを利用して、サンプル画像の2D特徴を抽出することができる。
ステップS3112において、2D特徴の結合を行うための畳み込み層の識別子を決定する。
ここで、2D特徴の結合を行うための畳み込み層の識別子を決定することは、第i畳み込み層の間隔率が変動した場合、前記第i畳み込み層を、2D特徴の結合を行うための畳み込み層として決定することであって、iは、1以上の自然数である、ことを含む。
ステップS3113において、前記識別子に基づいて、前記左図における異なる畳み込み層の2D特徴を特徴次元で結合し、第1の2D結合特徴を得る。
例えば、複数階層の特徴はそれぞれ64次元、128次元及び128次元(ここの次元は、チャネル数を指す)である場合、これらを連結すれば、320次元の特徴マップを得る。
ステップS3114において、前記識別子に基づいて、前記右図における異なる畳み込み層の2D特徴を特徴次元で結合し、第2の2D結合特徴を得る。
ステップS312において、前記左図の2D結合特徴及び前記右図の2D結合特徴を利用して、3Dマッチングコスト特徴を生成する。
ステップS313において、前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に基づいて、サンプル画像の予測視差を決定する。
ステップS314において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。
ステップS315において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。
上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を更に提供する。前記方法は、以下を含む。
ステップS321において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定する。
ステップS322において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定する。
本願の実施例において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定する前記ステップS322は、下記ステップにより実現することができる。
ステップS3221において、取得された第1の2D結合特徴を
Figure 0007153091000042
組に分け、
Figure 0007153091000043
個の第1特徴グループを得る。
ステップS3222において、取得された第2の2D結合特徴を
Figure 0007153091000044
組に分け、
Figure 0007153091000045
個の第2特徴グループを得て、
Figure 0007153091000046
は、1以上の自然数である。
ステップS3223において、前記視差
Figure 0007153091000047
に対する、
Figure 0007153091000048
個の第1特徴グループと
Figure 0007153091000049
個の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000050

Figure 0007153091000051
個の相互相関マップを得て、前記視差
Figure 0007153091000052
は、0以上であり、
Figure 0007153091000053
未満の自然数であり、前記
Figure 0007153091000054
は、サンプル画像に対応する使用シーンでの最大視差である。
本願の実施例において、前記視差
Figure 0007153091000055
に対する、
Figure 0007153091000056
個の第1特徴グループと
Figure 0007153091000057
個の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000058

Figure 0007153091000059
個の相互相関マップを得ることは、前記視差
Figure 0007153091000060
に対する、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000061
個の相互相関マップを得ることであって、gは、1以上
Figure 0007153091000062
以下の自然数である、ことと、前記視差
Figure 0007153091000063
に対する、
Figure 0007153091000064
個の第1特徴グループと
Figure 0007153091000065
個の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000066

Figure 0007153091000067
個の相互相関マップを得ることと、を含む。
ここで、前記視差
Figure 0007153091000068
に対する、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000069
個の相互相関マップを得ることは、式
Figure 0007153091000070
により、前記視差
Figure 0007153091000071
に対する、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000072
個の相互相関マップを得ることであって、前記
Figure 0007153091000073
は、前記第1の2D結合特徴又は前記第2の2D結合特徴のチャネル数を表し、前記
Figure 0007153091000074
は、第1特徴グループにおける特徴を表し、前記
Figure 0007153091000075
は、前記第2特徴グループにおける特徴を表し、前記
Figure 0007153091000076
は、横座標が
Figure 0007153091000077
であって縦座標が
Figure 0007153091000078
である画素点の画素座標を表し、前記
Figure 0007153091000079
は、横座標が
Figure 0007153091000080
であって縦座標が
Figure 0007153091000081
である画素点の画素座標を表す、ことを含む。
ステップS3224において、前記
Figure 0007153091000082

Figure 0007153091000083
個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得る。
ここで、前記使用シーンは、多い。例えば、運転シーン、室内ロボットシーン及び携帯電話のデュアルカメラシーン等である。
ステップS323において、前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定する。
図3Bは、本願の実施例によるグループ化相互相関特徴を示す概略図である。図3Bに示すように、左図の第1の2D結合特徴をグループ化し、クループ化された左図の複数の特徴グループ31を得る。右図の第2の2D結合特徴をグループ化し、クループ化された右図の複数の特徴グループ32を得る。前記第1の2D結合特徴又は前記第2の2D結合特徴の形状はいずれも[C,H,W]である。ここで、Cは、結合特徴のチャネル数であり、Hは、結合特徴の高さであり、Wは、結合特徴の幅である。従って、左図又は右図に対応する各特徴グループのチャネル数は、C/
Figure 0007153091000084
であり、前記
Figure 0007153091000085
は、グループの数である。左図及び右図に対応する特徴グループに対して相互相関計算を行い、視差0,1,……,
Figure 0007153091000086
-1での、各対応する特徴グループの相互相関性を計算し、
Figure 0007153091000087

Figure 0007153091000088
個の相互相関マップ33を得ることができる。前記単一の相互相関マップ33の形状は、[
Figure 0007153091000089
,H,W]である。前記
Figure 0007153091000090

Figure 0007153091000091
個の相互相関マップ33を特徴次元で結合し、グループ化相互相関特徴を得ることができる。続いて、前記グループ化相互相関特徴を3Dマッチングコスト特徴とする。前記3Dマッチングコスト特徴の形状は、[
Figure 0007153091000092

Figure 0007153091000093
,H,W]であり、つまり、前記グループ化相互相関特徴の形状は、[
Figure 0007153091000094

Figure 0007153091000095
,H,W]である。
ステップS324において、前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定する。
ステップS325において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。
ステップS326において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。
上記方法の実施例によれば、本願の実施例は、両眼マッチングネットワークの訓練方法を更に提供する。前記方法は、以下を含む。
ステップS331において、両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定する。
ステップS332において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定する。
本願の実施例において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定する前記ステップS332の実現方法は、前記ステップS322の実現方法と同じであり、ここで、詳細な説明を省略する。
ステップS333において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、連結特徴を決定する。
本願の実施例において、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、連結特徴を決定する前記ステップS333は、下記ステッにより実現することができる。
ステップS3331において、取得された第1の2D結合特徴と第2の2D結合特徴の前記視差
Figure 0007153091000096
に対する結合結果を決定し、
Figure 0007153091000097
個の結合マップを得て、前記視差
Figure 0007153091000098
は、0以上であり、
Figure 0007153091000099
未満の自然数であり、前記
Figure 0007153091000100
は、サンプル画像に対応する使用シーンでの最大視差である。
ステップS3332において、前記
Figure 0007153091000101
個の結合マップを結合し、連結特徴を得る。
幾つかの実施例において、式
Figure 0007153091000102
により、取得された第1の2D結合特徴と第2の2D結合特徴の前記視差
Figure 0007153091000103
に対する結合結果を決定し、
Figure 0007153091000104
個の結合マップを得ることができる。ここで、前記
Figure 0007153091000105
は、前記第1の2D結合特徴における特徴を表し、前記
Figure 0007153091000106
は、前記第2の2D結合特徴における特徴を表し、前記
Figure 0007153091000107
は、横座標が
Figure 0007153091000108
であって縦座標が
Figure 0007153091000109
である画素点の画素座標を表し、前記
Figure 0007153091000110
は、横座標が
Figure 0007153091000111
であって縦座標が
Figure 0007153091000112
である画素点の画素座標を表し、前記
Figure 0007153091000113
は、2つの特徴を結合することを表す。
図3Cは、本願の実施例による連結特徴を示す概略図である。図3Cに示すように、左図に対応する第1の2D結合特徴35と右図に対応する第2の2D結合特徴36を異なる視差0,1,……,
Figure 0007153091000114
-1で連結し、
Figure 0007153091000115
個の結合マップ37を得る。前記
Figure 0007153091000116
個の結合マップ37を結合し、連結特徴を得る。ここで、前記2D結合特徴の形状は、[C,H,W]であり、前記単一の結合マップ37の形状は、[2C,H,W]であり、前記連結特徴の形状は、[2C,
Figure 0007153091000117
,H,W]であり、前記Cは、2D結合特徴のチャネル数であり、前記
Figure 0007153091000118
は、左図又は右図に対応する使用シーンでの最大視差を表し、前記Hは、左図又は右図の高さであり、前記Wは、左図又は右図の幅である。
ステップS334において、前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、3Dマッチングコスト特徴を得る。
例えば、前記グループ化相互相関特徴の形状は、[
Figure 0007153091000119

Figure 0007153091000120
,H,W]であり、前記連結特徴の形状は、[2C,
Figure 0007153091000121
,H,W]である。従って、前記3Dマッチングコスト特徴の形状は、[
Figure 0007153091000122

Figure 0007153091000123
,H,W]である。
ステップS335において、前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に対して、マッチングコスト集約を行う。
ここで、前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に対して、マッチングコスト集約を行うことは、前記両眼マッチングネットワークにおける3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差
Figure 0007153091000124
の確率を決定することであって、前記視差
Figure 0007153091000125
は、0以上であり、
Figure 0007153091000126
未満の自然数であり、前記
Figure 0007153091000127
は、サンプル画像に対応する使用シーンでの最大視差である、ことを含む。
本願の実施例中,前記ステップS335は、分類のニューラルネットワークにより実現することができ、前記分類のニューラルネットワークも両眼マッチングネットワークの1つの構成部分であり、各画素点が対応する異なる視差
Figure 0007153091000128
の確率を決定するために用いられる。
ステップS336において、集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得る。
ここで、集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることは、前記各画素点が対応する異なる視差
Figure 0007153091000129
の確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得ることであって、前記視差
Figure 0007153091000130
は、0以上であり、
Figure 0007153091000131
未満の自然数であり、前記
Figure 0007153091000132
は、サンプル画像に対応する使用シーンでの最大視差である、ことを含む。
幾つかの実施例において、式
Figure 0007153091000133
により、取得された各画素点が対応する異なる視差
Figure 0007153091000134
の確率の加重平均値を決定することができる。ここで、前記
Figure 0007153091000135
は、0以上であり、
Figure 0007153091000136
未満の自然数であり、前記
Figure 0007153091000137
は、サンプル画像に対応する使用シーンでの最大視差であり、前記
Figure 0007153091000138
は、前記視差
Figure 0007153091000139
に対応する確率を表す。
ステップS337において、前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得る。
ステップS338において、前記損失関数を利用して、前記両眼マッチングネットワークを訓練する。
上記方法の実施例によれば、本願の実施例は、両眼マッチング方法を更に提供する。図4Aは、本願の実施例による両眼マッチング方法の実現フローを示す第4概略図である。図4Aに示すように、前記方法は、以下を含む。
ステップS401において、2D結合特徴を抽出する。
ステップS402において、前記2D結合特徴を利用して、3Dマッチングコスト特徴を生成する。
ステップS403において、集約ネットワークを利用して前記3Dマッチングコスト特徴を処理する。
ステップS404において、処理された結果に対して、視差回帰を行う。
図4Bは、本願の実施例による両眼マッチングネットワークモデルを示す概略図である。図4Bに示すように、前記両眼マッチングネットワークモデルは、おおむね、2D結合特徴抽出モジュール41、3Dマッチングコスト特徴生成モジュール42、集約ネットワークモジュール43及び視差回帰モジュール44という4つの部分に分けられる。前記ピクチャ46及びピクチャ47は、それぞれサンプルデータにおける左図及び右図である。前記2D結合特徴抽出モジュール41は、パラメータを共有する(重みの共有を含む)完全畳み込みニューラルネットワークを利用して、左右ピクチャに対して、サイズが元ピクチャの1/4である2D特徴を抽出し、異なる層の特徴マップを連結して大きな特徴マップを得るように構成される。前記3Dマッチングコスト特徴生成モジュール42は、連結特徴及びグループ化相互相関特徴を取得し、前記連結特徴及びグループ化相互相関特徴を利用して、全ての可能な視差dに対して特徴マップを生成し、3Dマッチングコスト特徴を形成するように構成され、前記全ての可能な視差dは、ゼロ視差から最大視差までの全ての視差を含み、最大視差は、左図又は右図に対応する使用シーンでの最大視差を指す。前記集約ネットワークモジュール43は、3Dニューラルネットワークを利用して、全ての可能な視差dの確率を推定するように構成される。前記視差回帰モジュール44は、全ての視差の確率を利用して、最終的な視差マップ45を得るように構成される。
本願の実施例において、古い3Dマッチングコスト特徴の代わりに、グループ化相互相関操作に基づいた3Dマッチングコスト特徴を提出する。まず、得られた2D結合特徴を
Figure 0007153091000140
組に分け、左右図に対応する第g組の特徴グループを選択し(例えば、g=1である場合、第1組の左図特徴及び第1組の右図特徴を選択する)、視差dに対する、それらの相互相関結果を計算する。各特徴グループg(0<=g<
Figure 0007153091000141
)について、各可能な視差d(0<=d<
Figure 0007153091000142
)によれば、
Figure 0007153091000143

Figure 0007153091000144
個の相互相関マップを得ることができる。これらの結果を連結して併合すると、形状が[
Figure 0007153091000145

Figure 0007153091000146
,H,W]であるグループ化相互相関特徴を得ることができる。ここで、
Figure 0007153091000147

Figure 0007153091000148
、H及びWはそれぞれ、特徴グループの数、特徴マップに対する最大視差、特徴の高さ及び特徴の幅である。
続いて、前記グループ化相互相関特徴と連結特徴を結合して3Dマッチングコスト特徴することで、より高い効果を実現させる。
本願は、新たな両眼マッチングネットワークを提出する。該マッチングネットワークは、グループ化相互相関マッチングコスト特徴及び改良した3D積層砂時計型ネットワークに基づいて、3D集約ネットワークの演算コストを制限すると共に、マッチング精度を向上させることができる。ここで、高次元特徴を利用してグループ化相互相関マッチングコスト特徴を直接的に生成することで、より優れた表現特徴を得ることができる。
本願で提出されたグループ化相互相関に基づいたネットワーク構造は、2D特徴抽出、3Dマッチングコスト特徴生成、3D集約及び視差回帰という4つの部分で構成される。
まず、2D特徴抽出を行う。ここで、ピラミッドステレオマッチングネットワークと類似したネットワークを利用する。続いて、抽出された第2、3、4畳み込み層の最終的な特徴を結合し、320チャネルの2D特徴マップを形成する。
3Dマッチングコスト特徴は、連結特徴及びグループ化に基づいた相互相関特徴という2つの部分で構成される。前記連結特徴は、ピラミッドステレオマッチングネットワークにおける連結特徴と同じであるが、ピラミッドステレオマッチングネットワークに比べてチャネル数がより少ない。抽出された2D特徴は、まず、畳み込みにより、12個のチャネルに圧縮され、続いて各可能な視差に対して、左右特徴の視差連結を行う。前記連結特徴とグループ化に基づいた相互相関特徴を結合した後、3D集約ネットワークの入力とする。
3D集約ネットワークは、隣接視差及び画素予測マッチングコストから得られた特徴を集約するためのものである。これは、予備砂時計モジュール及び3つの集積された3D砂時計ネットワークで形成され、畳み込み特徴を正規化する。
予備砂時計モジュール及び3つの集積された3D砂時計ネットワークは、出力モジュールに接続される。各出力モジュールについて、2つの3D畳み込みを利用して1つのチャネルの3D畳み込み特徴を出力する。続いて、該3D畳み込み特徴に対してアップサンプリングを行い、softmax関数により、視差次元に沿って、確率に変換する。
左図の2D特徴及び右図の2D特徴を
Figure 0007153091000149
及び
Figure 0007153091000150
で表し、
Figure 0007153091000151
でチャネルを表し、2D特徴のサイズは、元画像の1/4である。従来技術において、左右特徴を様々な差分層で連結して様々なマッチングコストを形成する。しかしながら、マッチングメトリックは、3D集約ネットワークを利用して学習を行う必要がある。また、連結前に、メモリを節約するために、特徴を極めて少ないチャネルに圧縮する必要がある。しかしながら、このような圧縮特徴を表すための情報が損失することがある。上記問題を解決するために、本願の実施例は、グループ化相互相関に基づいて、従来のマッチングメトリックを利用して、マッチングコスト特徴を確立することを提出する。
グループ化相互相関に基づいた基本思想は、2D特徴を複数の組に分け、左図及び右図に対応するグループの相互相関性を計算することである。本願の実施例において、式
Figure 0007153091000152
を利用してグループ化相互相関性を計算する。ここで、前記
Figure 0007153091000153
は、2D特徴のチャネル数を表し、前記
Figure 0007153091000154
は、グループの数を表し、前記
Figure 0007153091000155
は、グループ化された左図に対応する特徴グループにおける特徴を表し、前記
Figure 0007153091000156
は、グループ化された右図に対応する特徴グループにおける特徴を表し、前記
Figure 0007153091000157
は、横座標が
Figure 0007153091000158
であって縦座標が
Figure 0007153091000159
である画素点の画素座標を表し、前記
Figure 0007153091000160
は、横座標が
Figure 0007153091000161
であって縦座標が
Figure 0007153091000162
である画素点の画素座標を表し、ここで、
Figure 0007153091000163
は、2つの特徴の積を表す。ここで、相関性計算とは、全ての特徴グループgと全ての視差dの相関性の計算を指す。
特性を更に向上させるために、グループ化相互相関マッチングコストは、元の連結特徴と結合されてもよい。実験結果から分かるように、グループ化相互相関特徴と連結特徴は、互いに補完し合うものである。
本願は、ピラミッドステレオマッチングネットワークにおける集約ネットワークに対して改良を行った。まず、付加的な補助出力モジュールを追加する。従って、付加的な補助損失によれば、ネットワークに、低位層のより優れた集約特徴を学習させ、最終的な予測に寄与する。次に、異なる出力間の余剰接続モジュールが除去されるため、計算コストを節約する。
本願の実施例において、損失関数
Figure 0007153091000164
を利用して、グループ化相互相関に基づいたネットワークを訓練する。ここで、
Figure 0007153091000165
は、実施例で用いられるグループ化相互相関に基づいたネットワークに3つの仮結果及び1つの最終的結果があることを表し、
Figure 0007153091000166
は、異なる結果について付加した異なる重みを表し、
Figure 0007153091000167
は、前記グループ化相互相関に基づいたネットワークを利用することで得られた視差を表し、前記
Figure 0007153091000168
は、実視差を表し、前記
Figure 0007153091000169
は、従来の損失関数計算方法を表す。
ここで、i番目の画素の予測誤差は、式
Figure 0007153091000170
により決定されてもよい。ここで、
Figure 0007153091000171
は、本願の実施例で提供された両眼マッチング方法で決定された処理しようとする画像の左図又は右図におけるi番目の画素点の予測視差を表し、
Figure 0007153091000172
は、前記i番目の画素点の実視差を表す。
図4Cは、本願の実施例による両眼マッチング方法と従来技術の両眼マッチング方法の実験結果の比較図である。図4Cに示すように、従来技術において、PSMNet(即ち、ピラミッドステレオマッチングネットワーク)及びCat64(即ち、連結特徴を用いた方法)が含まれる。本願の実施例の両眼マッチング方法は、Gwc40(GwcNet-g)(即ち、グループ化相互相関特徴に基づいた方法)及びGwc40-Cat24(GwcNet-gc)(即ち、グループ化相互相関特徴と連結特徴を結合した特徴に基づいた方法)という2つの方法を含む。ここで、従来技術における2つの方法及び本願の実施例の第2方法は、いずれも連結特徴を用いたが、本願の実施例のみにおいて、グループ化相互相関特徴を用いた。更に、本願の実施例における方法のみは、特徴グループ化に係わる。つまり、得られた2D結合特徴を40組に分け、各組のチャネル数は、8個である。最後に、処理しようとする画像を利用して従来技術及び本願の実施例における方法をテストし、ステレオ視差異常値の百分率を得る。つまり、それぞれ、1画素より大きい異常値の百分率、2画素より大きい異常値の百分率及び3画素より大きい異常値の百分率を得る。図面から分かるように、本願で提出された2つの方法の実験結果は、いずれも従来技術よりも優れる。つまり、本願の実施例の方法を利用して処理しようとする画像を処理することで得られたステレオ視差異常値の百分率はいずれも、従来技術により処理しようとする画像を処理することで得られたステレオ視差異常値の百分率よりも小さい。
上述した実施例によれば、本願の実施例は、両眼マッチング装置を提供する。該装置に含まれる各ユニット、及び各ユニットに含まれる各モジュールは、コンピュータ機器におけるプロセッサにより実現することができる。勿論、具体的な論理回路により実現することもできる。実行過程において、プロセッサは、CPU(Central Processing Unit:中央演算処理装置)、MPU(Microprocessor Unit:マイクロプロセッサ)、DSP(Digital Signal Processing:デジタル信号プロセッサ)又はFPGA(Field Programmable Gate Array:フィールドプログラマブルゲートアレイ)等であってもよい。
図5は、本願の実施例による両眼マッチング装置の構造を示す概略図である。図5に示すように、前記装置500は、
処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む2D画像である、取得ユニット501と、
抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成するように構成される生成ユニットであって、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、生成ユニット502と、
前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニット503と、を備える。
幾つかの実施例において、前記生成ユニット502は、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定するように構成される第1生成サブモジュールと、
前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定するように構成される第2生成サブユニットと、を備える。
幾つかの実施例において、前記生成ユニット502は、
抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定するように構成される第1生成サブユニットと、
前記グループ化相互相関特徴と前記連結特徴を結合した特徴を3Dマッチングコスト特徴として決定するように構成される第2生成サブユニットと、を備え、
前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである。
幾つかの実施例において、前記第1生成サブユニットは、
抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定するように構成される第1生成モジュールと、
前記相互相関結果を結合し、グループ化相互相関特徴を得るように構成される第2生成モジュールと、を備える。
幾つかの実施例において、前記第1生成モジュールは、
抽出された前記左図の特徴をグループ化し、第1所定数量の第1特徴グループを形成するように構成される第1生成サブモジュールと、
抽出された前記右図の特徴をグループ化し、第2所定数量の第2特徴グループを形成するように構成される第2生成サブモジュールであって、前記第1所定数量は、前記第2所定数量と同じである、第2生成サブモジュールと、
異なる視差における、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定するように構成される第3生成サブモジュールであって、gは、1以上であり、第1の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか1つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である、第3生成サブモジュールと、を備える。
幾つかの実施例において、前記装置は、
パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出するように構成される抽出ユニットを更に備える。
幾つかの実施例において、前記決定ユニット503は、
3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定するように構成される第1決定サブユニットと、
前記各画素点が対応する異なる視差の確率の加重平均値を決定するように構成される第2決定サブユニットと、
前記加重平均値を前記画素点の視差として決定するように構成される第3決定サブユニットと、
前記画素点の視差に基づいて、前記画素点の深度を決定するように構成される第4決定サブモジュールと、を備える。
前記実施例によれば、本願の実施例は、両眼マッチングネットワーク訓練装置を提供する。該装置に含まれる各ユニット、及び各ユニットに含まれる各モジュールは、コンピュータ機器におけるプロセッサにより実現することができる。勿論、具体的な論理回路により実現することもできる。実行過程において、プロセッサは、CPU、MPU、DSP又はFPGA等であってもよい。
図6は、本願の実施例による両眼マッチングネットワーク訓練装置の構造を示す概略図である。図6に示すように、前記装置600は、
両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定するように構成される特徴抽出ユニット601であって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含む、特徴抽出ユニット601と、
前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定するように構成される視差予測ユニット602と、
前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得るように構成される比較ユニット603と、
前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うように構成される訓練ユニット604と、を備える。
幾つかの実施例において、前記特徴抽出ユニット601は、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定するように構成される第1特徴抽出サブユニットと、
前記左図の2D結合特徴及び前記右図の2D結合特徴を利用して、3Dマッチングコスト特徴を生成するように構成される第2特徴抽出サブユニットと、を備える。
幾つかの実施例において、前記第1特徴抽出サブユニットは、
両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出するように構成される第1特徴抽出モジュールと、
2D特徴の結合を行うための畳み込み層の識別子を決定するように構成される第2特徴抽出モジュールと、
前記識別子に基づいて、前記左図における異なる畳み込み層の2D特徴を特徴次元で結合し、第1の2D結合特徴を得るように構成される第3特徴抽出モジュールと、
前記識別子に基づいて、前記右図における異なる畳み込み層の2D特徴を特徴次元で結合し、第2の2D結合特徴を得るように構成される第4特徴抽出モジュールと、を備える。
幾つかの実施例において、前記第2特徴抽出モジュールは、第i畳み込み層の間隔率が変動した場合、前記第i畳み込み層を、2D特徴の結合を行うための畳み込み層として決定するように構成され、iは、1以上の自然数である。
幾つかの実施例において、前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークであり、なお、前記第1特徴抽出モジュールは、両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出するように構成され、前記2D特徴のサイズは、前記左図又は右図のサイズの四分の一である。
幾つかの実施例において、前記第2特徴抽出サブユニットは、
取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定するように構成される第1特徴決定モジュールと、
前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定するように構成される第2特徴決定モジュールと、を備える。
幾つかの実施例において、第2特徴抽出サブユニットは、
取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定するように構成される第1特徴決定モジュールであって、取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、連結特徴を決定するように更に構成される第1特徴決定モジュールと、
前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、3Dマッチングコスト特徴を得るように構成される第2特徴決定ユニットと、を備える。
幾つかの実施例において、前記第1特徴決定モジュールは、
取得された第1の2D結合特徴を
Figure 0007153091000173
組に分け、
Figure 0007153091000174
個の第1特徴グループを得るように構成される第1特徴決定サブモジュールと、
取得された第2の2D結合特徴を
Figure 0007153091000175
組に分け、
Figure 0007153091000176
個の第2特徴グループを得るように構成される第2特徴決定サブモジュールであって、
Figure 0007153091000177
は、1以上の自然数である、第2特徴決定サブモジュールと、
前記視差
Figure 0007153091000178
に対する、
Figure 0007153091000179
個の第1特徴グループと
Figure 0007153091000180
個の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000181

Figure 0007153091000182
個の相互相関マップを得るように構成される第3特徴決定サブモジュールであって、前記視差
Figure 0007153091000183
は、0以上であり、
Figure 0007153091000184
未満の自然数であり、前記
Figure 0007153091000185
は、サンプル画像に対応する使用シーンでの最大視差である、第3特徴決定サブモジュールと、
前記
Figure 0007153091000186

Figure 0007153091000187
個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得るように構成される第4特徴決定サブモジュールと、を備える。
幾つかの実施例において、前記第3特徴決定サブモジュールは、前記視差
Figure 0007153091000188
に対する、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000189
個の相互相関マップを得るように構成され、gは、1以上
Figure 0007153091000190
以下の自然数であり、前記第3特徴決定サブモジュールは、前記視差
Figure 0007153091000191
に対する、
Figure 0007153091000192
個の第1特徴グループと
Figure 0007153091000193
個の第2特徴グループの相互相関結果を決定し、
Figure 0007153091000194

Figure 0007153091000195
個の相互相関マップを得るように構成される。
幾つかの実施例において、前記第1特徴決定モジュールは、
前記視差
Figure 0007153091000196
に対する、取得された第1の2D結合特徴と第2の2D結合特徴の結合結果を決定し、
Figure 0007153091000197
個の結合マップを得るように構成される第5特徴決定サブモジュールであって、前記視差
Figure 0007153091000198
は、0以上であり、
Figure 0007153091000199
未満の自然数であり、前記
Figure 0007153091000200
は、サンプル画像に対応する使用シーンでの最大視差である、第5特徴決定サブモジュールと、
前記
Figure 0007153091000201
個の結合マップを結合し、連結特徴を得るように構成される第6特徴決定サブモジュールと、を更に備える。
幾つかの実施例において、前記視差予測ユニット602は、
前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に対して、マッチングコスト集約を行うように構成される第1視差予測サブユニットと、
集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得るように構成される第2視差予測サブユニットと、を備える。
幾つかの実施例において、前記第1視差予測サブユニットは、前記両眼マッチングネットワークにおける3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差
Figure 0007153091000202
の確率を決定するように構成され、前記視差
Figure 0007153091000203
は、0以上であり、
Figure 0007153091000204
未満の自然数であり、前記
Figure 0007153091000205
は、サンプル画像に対応する使用シーンでの最大視差である。
幾つかの実施例において、前記第2視差予測サブユニットは、前記各画素点が対応する異なる視差
Figure 0007153091000206
の確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得るように構成され、
前記視差
Figure 0007153091000207
は、0以上であり、
Figure 0007153091000208
未満の自然数であり、前記
Figure 0007153091000209
は、サンプル画像に対応する使用シーンでの最大視差である。
上記装置の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本願の装置の実施例で説明されない技術的な詳細については、本願の方法の実施例の説明を参照されたい。
本願の実施例において、上記両眼マッチング方法又は両眼マッチングネットワークの訓練方法がソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、一台のコンピュータ機器(パーソナルコンピュータ、サーバ等)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Uディスク、リムーバブルハードディスク、ROM(Read-only Memory:読み出し専用メモリ)、磁気ディスク又は光ディスなど、プログラムコードを記憶可能な各種の媒体を含む。従って、本出願の実施例は、如何なる特定のハードウェアとソフトウェアの組み合わせにも限定されない。
なお、本願の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、上記実施例で提供される両眼マッチング方法におけるステップを実現させるか又は上記実施例で提供される両眼マッチングネットワークの訓練方法におけるステップを実現させる。
なお、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記実施例で提供される両眼マッチング方法におけるステップを実現させるか又は上記実施例で提供される両眼マッチングネットワークの訓練方法におけるステップを実現させる。
上記記憶媒体及び機器の実施例に関する説明は、上記方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有することに留意されたい。本願の記憶媒体及び機器の実施例で説明されない技術的な詳細については、本願の方法の実施例の説明を参照されたい。
図7は、本願の実施例によるコンピュータ機器のハードウェアエンティティを示す概略図であり、図7に示すように、該コンピュータ機器700のハードウェアエンティティは、プロセッサ701と、通信インターフェイス702と、メモリ703と、を備えることに留意されたい。ここで、
プロセッサ701は、一般的には、コンピュータ機器700の全体操作を制御する。
通信インターフェイス702は、コンピュータ機器がネットワークを経由して他の端末あんたはサーバと通信するようにすることができる。
メモリ703は、プロセッサ701による実行可能な命令及びアプリケーションを記憶するように構成され、また、プロセッサ701及びコンピュータ機器700における各モジュールにより処理されるか又は処理されたデータ(例えば、画像データ、オーディオデータ、音声通信データ及びビデオ通信データ)をキャッシュすることもでき、これは、FLASH(フラッシュ)又はRAM(Random Access Memory:ランダムアクセスメモリ)により実現する。
明細書全文を通じて述べられる「1つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本願の少なくとも1つの実施例の中に含まれることを意味すると理解されたい。従って、本明細書全体を通して出現する「1つの実施例において」又は「一実施例において」は、同じ実施例を指すとは限らない。また、これらの特定の特徴、構造または特性は、任意かつ適切な方式で1つまたは複数の実施例に組み入れられることができる。本願の各実施例において、上記各プロセスの番号の大きさは、実行順の前後を意味するのではなく、各プロセスの実行順は、その機能および内在的な論理によって確定されるものであり、本発明の実施例の実施プロセスに対しいっさい限定を構成しないと理解すべきである。上記の本発明に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。
本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。
本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、ROM(Read-only Memory:読み出し専用メモリ)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者でれば、理解すべきである。
又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバなど)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ROM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
以上は本願の実施形態に過ぎず、本願の保護の範囲はそれらに制限されるものではなく、当業者が本願に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims (22)

  1. コンピュータが実行する両眼マッチング方法であって、前記方法は、
    処理しようとする画像を取得することであって、前記画像は、左図及び右図を含む2D画像である、ことと、
    抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成することであって、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、ことと、
    前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定することと、を含む、両眼マッチング方法。
  2. 抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成することは、
    抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定することと、
    前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定することと、を含み、又は、
    抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成することは、
    抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴及び連結特徴を決定することと、
    前記グループ化相互相関特徴と前記連結特徴を結合した特徴を3Dマッチングコスト特徴として決定することと、を含ことを特徴とする
    請求項1に記載の方法。
  3. 抽出された前記左図の特徴及び前記右図の特徴を利用して、グループ化相互相関特徴を決定することは、
    抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定することと、
    前記相互相関結果を結合し、グループ化相互相関特徴を得ることと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 抽出された前記左図の特徴及び前記右図の特徴をそれぞれグループ化し、異なる視差における、グループ化された左図の特徴とグループ化された右図の特徴の相互相関結果を決定することは、
    抽出された前記左図の特徴をグループ化し、第1所定数量の第1特徴グループを形成することと、
    抽出された前記右図の特徴をグループ化し、第2所定数量の第2特徴グループを形成することであって、前記第1所定数量は、前記第2所定数量と同じである、ことと、
    異なる視差における、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定することであって、gは、1以上であり、第1の所定数量以下の自然数であり、前記異なる視差は、ゼロ視差、最大視差、及び最大視差とゼロ視差との間のいずれか1つの視差を含み、前記最大視差は、処理しようとする画像に対応する使用シーンでの最大視差である、ことと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 抽出された前記左図の特徴及び前記右図の特徴を利用する前に、前記方法は、
    パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することを更に含むことを特徴とする
    請求項1から4のいずれか一項に記載の方法。
  6. 前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定することは、
    3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差の確率を決定することと、
    前記各画素点が対応する異なる視差の確率の加重平均値を決定することと、
    前記加重平均値を前記画素点の視差として決定することと、
    前記画素点の視差に基づいて、前記画素点の深度を決定することと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 両眼マッチングネットワークの訓練方法であって、前記方法は、
    両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定することであって、前記サンプル画像は、深度アノテーション情報を有する左図及び右図を含み、前記左図のサイズは、右図のサイズと同じであり、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、ことと、
    前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することと、
    前記深度アノテーション情報と前記予測視差を比較し、両眼マッチングの損失関数を得ることと、
    前記損失関数を利用して、前記両眼マッチングネットワークに対して訓練を行うことと、を含む、両眼マッチングネットワークの訓練方法。
  8. 両眼マッチングネットワークを利用して、取得されたサンプル画像の3Dマッチングコスト特徴を決定することは、
    両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定することと、
    前記左図の2D結合特徴及び前記右図の2D結合特徴を利用して、3Dマッチングコスト特徴を生成することと、を含むことを特徴とする
    請求項7に記載の方法。
  9. 両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D結合特徴及び前記右図の2D結合特徴をそれぞれ決定することは、
    両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することと、
    2D特徴の結合を行うための畳み込み層の識別子を決定することと、
    前記識別子に基づいて、前記左図における異なる畳み込み層の2D特徴を特徴次元で結合し、第1の2D結合特徴を得ることと、
    前記識別子に基づいて、前記右図における異なる畳み込み層の2D特徴を特徴次元で結合し、第2の2D結合特徴を得ることと、を含むことを特徴とする
    請求項8に記載の方法。
  10. 2D特徴の結合を行うための畳み込み層の識別子を決定することは、
    第i畳み込み層の間隔率が変動した場合、前記第i畳み込み層を、2D特徴の結合を行うための畳み込み層として決定することであって、iは、1以上の自然数である、ことを含むことを特徴とする
    請求項9に記載の方法。
  11. 前記完全畳み込みニューラルネットワークは、パラメータを共有する完全畳み込みニューラルネットワークであり、
    両眼マッチングネットワークにおける完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することは、
    両眼マッチングネットワークにおける、パラメータを共有する完全畳み込みニューラルネットワークを利用して、前記左図の2D特徴及び前記右図の2D特徴をそれぞれ抽出することであって、前記2D特徴のサイズは、前記左図又は右図のサイズの四分の一である、ことを含むことを特徴とする
    請求項9又は10に記載の方法。
  12. 前記左図の2D結合特徴及び前記右図の2D結合特徴を利用して、3Dマッチングコスト特徴を生成することは、
    取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定することと、
    前記グループ化相互相関特徴を3Dマッチングコスト特徴として決定することと、を含み、又は、
    前記左図の2D結合特徴及び前記右図の2D結合特徴を利用して、3Dマッチングコスト特徴を生成することは、
    取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定することと、
    取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、連結特徴を決定することと、
    前記グループ化相互相関特徴と前記連結特徴を特徴次元で結合し、3Dマッチングコスト特徴を得ることと、を含むことを特徴とする
    請求項8から11のいずれか一項に記載の方法。
  13. 取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、グループ化相互相関特徴を決定することは、
    取得された第1の2D結合特徴をN組に分け、N個の第1特徴グループを得ることと、
    取得された第2の2D結合特徴をN組に分け、N個の第2特徴グループを得ることであって、Nは、1以上の自然数である、ことと、
    前記視差dに対する、N個の第1特徴グループとN個の第2特徴グループの相互相関結果を決定し、N*Dmax個の相互相関マップを得ることであって、前記視差dは、0以上であり、 max 未満である自然数であり、前記Dmaxは、サンプル画像に対応する使用シーンでの最大視差である、ことと、
    前記N*Dmax個の相互相関マップを特徴次元で結合し、グループ化相互相関特徴を得ることと、を含むことを特徴とする
    請求項12に記載の方法。
  14. 前記視差dに対する、N個の第1特徴グループとN個の第2特徴グループの相互相関結果を決定し、N*Dmax個の相互相関マップを得ることは、
    前記視差dに対する、第g組の第1特徴グループと第g組の第2特徴グループの相互相関結果を決定し、Dmax個の相互相関マップを得ることであって、gは、1以上N以下の自然数である、ことと、
    前記視差dに対する、N個の第1特徴グループとN個の第2特徴グループの相互相関結果を決定し、N*Dmax個の相互相関マップを得ることと、を含むことを特徴とする
    請求項13に記載の方法。
  15. 取得された第1の2D結合特徴及び取得された第2の2D結合特徴を利用して、連結特徴を決定することは、
    取得された第1の2D結合特徴と第2の2D結合特徴の前記視差dに対する結合結果を決定し、Dmax個の結合マップを得ることであって、前記視差dは、0以上であり、 max 未満である自然数であり、前記Dmaxは、サンプル画像に対応する使用シーンでの最大視差である、ことと、
    前記Dmax個の結合マップを結合し、連結特徴を得ることと、を含むことを特徴とする
    請求項12に記載の方法。
  16. 前記3Dマッチングコスト特徴に基づいて、前記両眼マッチングネットワークを利用して、サンプル画像の予測視差を決定することは、
    前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に対して、マッチングコスト集約を行うことと、
    集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることと、を含むことを特徴とする
    請求項7に記載の方法。
  17. 前記両眼マッチングネットワークを利用して、前記3Dマッチングコスト特徴に対して、マッチングコスト集約を行うことは、
    前記両眼マッチングネットワークにおける3Dニューラルネットワークを利用して、前記3Dマッチングコスト特徴における各画素点が対応する異なる視差dの確率を決定することであって、前記視差dは、0以上であり、 max 未満である自然数であり、前記Dmaxは、サンプル画像に対応する使用シーンでの最大視差である、ことを含むことを特徴とする
    請求項16に記載の方法。
  18. 集約された結果に対して視差回帰を行い、サンプル画像の予測視差を得ることは、
    前記各画素点が対応する異なる視差dの確率の加重平均値を前記画素点の予測視差として決定し、サンプル画像の予測視差を得ることであって、前記視差dは、0以上であり、 max 未満である自然数であり、前記Dmaxは、サンプル画像に対応する使用シーンでの最大視差である、ことを含むことを特徴とする
    請求項16に記載の方法。
  19. 両眼マッチング装置であって、前記装置は、
    処理しようとする画像を取得するように構成される取得ユニットであって、前記画像は、左図及び右図を含む2D画像である、取得ユニットと、
    抽出された前記左図の特徴及び前記右図の特徴を利用して、前記画像の3Dマッチングコスト特徴を生成するように構成される生成ユニットであって、前記3Dマッチングコスト特徴は、グループ化相互相関特徴を含むか、又はグループ化相互相関特徴と連結特徴を結合した特徴を含み、前記グループ化相互相関特徴は、前記左図及び前記右図の特徴をグループ化することによって得られた特徴グループに対して相互相関計算を行って得られた、異なる視差における相互相関性を表すための相互相関マップを特徴次元で結合して得られたものであり、前記連結特徴は、前記左図の特徴と前記右図の特徴を特徴次元で結合して得られたものである、生成ユニットと、
    前記3Dマッチングコスト特徴を利用して、前記画像の深度を決定するように構成される決定ユニットと、を備える、両眼マッチング装置。
  20. コンピュータ機器であって、メモリと、プロセッサと、を備え、前記メモリに、プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行する時、請求項1から6のいずれか一項に記載の両眼マッチング方法におけるステップを実現させるか又は請求項7から18のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータ機器。
  21. コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項1から6のいずれか一項に記載の両眼マッチング方法におけるステップを実現させるか又は請求項7から18のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータ可読記憶媒体。
  22. コンピュータプログラムであって、コンピュータに、請求項1から6のいずれか一項に記載の両眼マッチング方法におけるステップ、又は請求項7から18のいずれか一項に記載の両眼マッチングネットワークの訓練方法におけるステップを実現させる、コンピュータプログラム。
JP2020565808A 2019-02-19 2019-09-26 両眼マッチング方法及び装置、機器並びに記憶媒体 Active JP7153091B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910127860.4A CN109887019B (zh) 2019-02-19 2019-02-19 一种双目匹配方法及装置、设备和存储介质
CN201910127860.4 2019-02-19
PCT/CN2019/108314 WO2020168716A1 (zh) 2019-02-19 2019-09-26 双目匹配方法及装置、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021526683A JP2021526683A (ja) 2021-10-07
JP7153091B2 true JP7153091B2 (ja) 2022-10-13

Family

ID=66928674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020565808A Active JP7153091B2 (ja) 2019-02-19 2019-09-26 両眼マッチング方法及び装置、機器並びに記憶媒体

Country Status (6)

Country Link
US (1) US20210042954A1 (ja)
JP (1) JP7153091B2 (ja)
KR (1) KR20200136996A (ja)
CN (1) CN109887019B (ja)
SG (1) SG11202011008XA (ja)
WO (1) WO2020168716A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260538B (zh) * 2018-12-03 2023-10-03 北京魔门塔科技有限公司 基于长基线双目鱼眼相机的定位及车载终端
CN111383256B (zh) * 2018-12-29 2024-05-17 北京市商汤科技开发有限公司 图像处理方法、电子设备及计算机可读存储介质
CN109887019B (zh) * 2019-02-19 2022-05-24 北京市商汤科技开发有限公司 一种双目匹配方法及装置、设备和存储介质
CN110689060B (zh) * 2019-09-16 2022-01-28 西安电子科技大学 一种基于聚合特征差异学习网络的异源图像匹配方法
US11763433B2 (en) * 2019-11-14 2023-09-19 Samsung Electronics Co., Ltd. Depth image generation method and device
CN111260711B (zh) * 2020-01-10 2021-08-10 大连理工大学 一种弱监督可信代价传播的视差估计方法
CN111709977A (zh) * 2020-03-17 2020-09-25 北京航空航天大学青岛研究院 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法
CN112819777B (zh) * 2021-01-28 2022-12-27 重庆西山科技股份有限公司 一种双目内窥镜辅助显示方法、***、装置和存储介质
KR20220127642A (ko) * 2021-03-11 2022-09-20 삼성전자주식회사 전자 장치 및 그 제어 방법
CN113393366B (zh) * 2021-06-30 2024-07-02 上饶市纯白数字科技有限公司 双目匹配方法、装置、设备以及存储介质
CN113283848B (zh) * 2021-07-21 2021-09-28 湖北浩蓝智造科技有限公司 一种货物入库检测方法、仓储入库***及存储介质
CN114627535B (zh) * 2022-03-15 2024-05-10 平安科技(深圳)有限公司 基于双目摄像头的坐标匹配方法、装置、设备及介质
CN114419349B (zh) * 2022-03-30 2022-07-15 中国科学技术大学 一种图像匹配方法和装置
CN115063467B (zh) * 2022-08-08 2022-11-15 煤炭科学研究总院有限公司 煤矿井下高分辨率图像视差估计方法及装置
CN115908992B (zh) * 2022-10-22 2023-12-05 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN116229123B (zh) * 2023-02-21 2024-04-30 深圳市爱培科技术股份有限公司 基于多通道分组互相关代价卷的双目立体匹配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099760A (ja) 2001-08-10 2003-04-04 Stmicroelectronics Inc マルチプレーンステレオ及び空間伝播を使用して奥行を復元する方法及び装置
CN101908230A (zh) 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680510B (zh) * 2013-12-18 2017-06-16 北京大学深圳研究生院 Radar视差图优化方法、立体匹配视差图优化方法及***
US9430834B2 (en) * 2014-01-20 2016-08-30 Nokia Corporation Visual perception matching cost on binocular stereo images
KR102016551B1 (ko) * 2014-01-24 2019-09-02 한화디펜스 주식회사 위치 추정 장치 및 방법
TWI549477B (zh) * 2014-04-17 2016-09-11 聚晶半導體股份有限公司 產生深度資訊的方法與裝置
US10582179B2 (en) * 2016-02-01 2020-03-03 Samsung Electronics Co., Ltd. Method and apparatus for processing binocular disparity image
CN105956597A (zh) * 2016-05-04 2016-09-21 浙江大学 一种基于卷积神经网络的双目立体匹配方法
CN106447661A (zh) * 2016-09-28 2017-02-22 深圳市优象计算技术有限公司 一种深度图快速生成方法
CN106679567A (zh) * 2017-02-14 2017-05-17 成都国铁电气设备有限公司 基于双目立体视觉的接触网及支柱几何参数检测测量***
CN107316326B (zh) * 2017-06-29 2020-10-30 海信集团有限公司 应用于双目立体视觉的基于边的视差图计算方法和装置
CN108230235B (zh) * 2017-07-28 2021-07-02 北京市商汤科技开发有限公司 一种视差图生成***、方法及存储介质
CN107506711B (zh) * 2017-08-15 2020-06-30 江苏科技大学 基于卷积神经网络的双目视觉障碍物检测***及方法
CN107767413B (zh) * 2017-09-20 2020-02-18 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108257165B (zh) * 2018-01-03 2020-03-24 上海兴芯微电子科技有限公司 图像立体匹配方法、双目视觉设备
CN108381549B (zh) * 2018-01-26 2021-12-14 广东三三智能科技有限公司 一种双目视觉引导机器人快速抓取方法、装置及存储介质
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109191512B (zh) * 2018-07-27 2020-10-30 深圳市商汤科技有限公司 双目图像的深度估计方法及装置、设备、程序及介质
CN109887019B (zh) * 2019-02-19 2022-05-24 北京市商汤科技开发有限公司 一种双目匹配方法及装置、设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099760A (ja) 2001-08-10 2003-04-04 Stmicroelectronics Inc マルチプレーンステレオ及び空間伝播を使用して奥行を復元する方法及び装置
CN101908230A (zh) 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法

Also Published As

Publication number Publication date
WO2020168716A1 (zh) 2020-08-27
US20210042954A1 (en) 2021-02-11
CN109887019B (zh) 2022-05-24
SG11202011008XA (en) 2020-12-30
CN109887019A (zh) 2019-06-14
JP2021526683A (ja) 2021-10-07
KR20200136996A (ko) 2020-12-08

Similar Documents

Publication Publication Date Title
JP7153091B2 (ja) 両眼マッチング方法及び装置、機器並びに記憶媒体
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
US11983850B2 (en) Image processing method and apparatus, device, and storage medium
CN103339651B (zh) 图像处理装置、摄像装置以及图像处理方法
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
JP6551743B2 (ja) 画像処理装置および画像処理方法
US20220230338A1 (en) Depth image generation method, apparatus, and storage medium and electronic device
CN115205489A (zh) 一种大场景下的三维重建方法、***及装置
CN106952247B (zh) 一种双摄像头终端及其图像处理方法和***
TW201520973A (zh) 三維立體模型之建立方法和裝置
WO2022151661A1 (zh) 一种三维重建方法、装置、设备及存储介质
CN112449152A (zh) 多路视频同步的方法、***及设备
JP2019121349A (ja) 視差マップを生成するための方法、画像処理デバイス、およびシステム
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
Chai et al. Monocular and binocular interactions oriented deformable convolutional networks for blind quality assessment of stereoscopic omnidirectional images
CN106909904B (zh) 一种基于可学习形变场的人脸正面化方法
CN112423191A (zh) 一种视频通话设备和音频增益方法
CN112509021A (zh) 一种基于注意力机制的视差优化方法
CN114742703A (zh) 双目立体全景图像的生成方法、装置、设备和存储介质
JP2017229067A (ja) 少なくとも1つのライトフィールドカメラにより一対の立体画像を生成する方法及び装置
CN113793420A (zh) 深度信息处理方法、装置、电子设备及存储介质
CN116630388A (zh) 基于深度学习的热成像图像双目视差估计方法及***
WO2023240764A1 (zh) 混合代价体的双目立体匹配方法、设备及存储介质
CN109961092A (zh) 一种基于视差锚点的双目视觉立体匹配方法及***

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220930

R150 Certificate of patent or registration of utility model

Ref document number: 7153091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150