JP2018010359A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2018010359A JP2018010359A JP2016136928A JP2016136928A JP2018010359A JP 2018010359 A JP2018010359 A JP 2018010359A JP 2016136928 A JP2016136928 A JP 2016136928A JP 2016136928 A JP2016136928 A JP 2016136928A JP 2018010359 A JP2018010359 A JP 2018010359A
- Authority
- JP
- Japan
- Prior art keywords
- viewpoint image
- image
- filter
- viewpoint
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが可能な情報処理装置を提供すること。【解決手段】本発明は、同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得する取得手段と、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成する作成手段と、前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索する探索手段とを有し、前記作成手段が各段階で適用するフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理装置である。【選択図】図3
Description
本発明は、異視点画像間で対応点を探索するための技術に関する。
同一の被写体を異なる視点から見た場合の複数の画像(多視点画像)を用いて、被写体の距離や形状に関する情報を取得する技術がある。また、多視点画像を用いて、カメラの位置および姿勢を推定する技術がある。さらに、パノラマ画像の作成やノイズ低減、超解像などの目的で複数の画像を合成する技術がある。これらの技術において、複数の画像間で対応する点(対応点)を探索することが必須である。
特許文献1は、ニューラルネットワークを用いて2つの入力画像間の対応点を探索する方法を開示している。特許文献1では、2つの入力画像の各々を複数の矩形領域に分割し、該分割した矩形領域の夫々について特徴量ベクトルを算出し、該算出した特徴量ベクトルに基づき、第1の入力画像の矩形領域に対応する第2の入力画像の矩形領域を探索する処理を反復する。
特許文献1では、2つの入力画像の各々について、分割された矩形領域ごとの特徴量ベクトルを算出する際、入力画像毎にニューラルネットワークを用いた学習を行うため、計算コストが大きい。また、分割された矩形領域単位で対応点を探索するため、対応点の密度が低い。対応点の密度が低ければ、対応点のマッチング精度も必然的に低下する。対応点の密度を高くするためには、入力画像をより細かく分割した上で、ニューラルネットワークを用いた学習による特徴量生成を反復する必要があり、ただでさえ大きい計算コストがさらに増大する。このように特許文献1には、入力画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが難しいという課題がある。
そこで本発明は、画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが可能な情報処理装置を提供することを目的とする。
本発明は、同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得する取得手段と、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成する作成手段と、前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索する探索手段とを有し、前記作成手段が各段階で適用するフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理装置である。
本発明によれば、画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが可能である。
以下、図面を参照して本発明の好適な実施形態を例示的に説明する。但し、以下に記載されている構成要素の相対配置、装置形状等は、あくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。その趣旨を逸脱しない範囲で、当業者の通常の知識に基づいて、以下に記載する実施形態に対して適宜変更、改良が加えられたものについても本発明の範囲に入ることが理解されるべきである。
[実施例1]
本実施例では、多視点画像(複数枚の画像)から視差マップを作成する場合について述べる。多視点画像を取得するためのカメラとして、1台のカメラで被写体を同時に撮像することで多視点画像を取得可能なカメラ(プレノプティックカメラや多眼カメラなど)や、適切に設置された複数台のカメラを用いてよい。また、1台のカメラを移動させながら被写体を撮像することで多視点画像を取得してもよい。なお、以降では、多視点画像に含まれる各視点の画像を単視点画像と呼ぶ。
本実施例では、多視点画像(複数枚の画像)から視差マップを作成する場合について述べる。多視点画像を取得するためのカメラとして、1台のカメラで被写体を同時に撮像することで多視点画像を取得可能なカメラ(プレノプティックカメラや多眼カメラなど)や、適切に設置された複数台のカメラを用いてよい。また、1台のカメラを移動させながら被写体を撮像することで多視点画像を取得してもよい。なお、以降では、多視点画像に含まれる各視点の画像を単視点画像と呼ぶ。
<情報処理装置の構成について>
以下、実施例1における情報処理装置の構成について説明する。図1は、実施例1における情報処理装置のハードウェア構成の一例を示すブロック図である。実施例1における情報処理装置100(以下、処理装置100と略記する)は、CPU101、RAM102、ROM103、二次記憶装置104、入力インターフェース(以下、インターフェースをIFと略記する)105、及び出力IF106から構成される。これらの構成要素はシステムバス107によって相互に接続されている。また、処理装置100は、入力IF105を介して外部記憶装置108および操作部110に接続されており、出力IF106を介して外部記憶装置108および表示装置109に接続されている。
以下、実施例1における情報処理装置の構成について説明する。図1は、実施例1における情報処理装置のハードウェア構成の一例を示すブロック図である。実施例1における情報処理装置100(以下、処理装置100と略記する)は、CPU101、RAM102、ROM103、二次記憶装置104、入力インターフェース(以下、インターフェースをIFと略記する)105、及び出力IF106から構成される。これらの構成要素はシステムバス107によって相互に接続されている。また、処理装置100は、入力IF105を介して外部記憶装置108および操作部110に接続されており、出力IF106を介して外部記憶装置108および表示装置109に接続されている。
CPU101は、RAM102をワークメモリとして、ROM103に格納されたプログラムを実行し、システムバス107を介して処理装置100の各構成要素を統括的に制御する。これにより、後述する様々な処理が実行される。二次記憶装置104は、処理装置100で取り扱われる種々のデータを記憶するための装置であり、本実施例ではHDDが用いられる。CPU101は、システムバス107を介して二次記憶装置104へのデータの書き込みおよび二次記憶装置104に記憶されたデータの読出しを行う。なお、二次記憶装置104としてHDDの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶装置を用いることが可能である。
入力IF105は、例えばUSBやIEEE1394等のシリアルバスIFを含み、外部装置から処理装置100へのデータや命令等の入力は、入力IF105を介して行われる。具体的に処理装置100は、入力IF105を介して、外部記憶装置108からデータを取得する。なお、外部記憶装置108として例えば、ハードディスク、メモリーカード、CFカード、SDカード、USBメモリなどを用いることが可能である。また、処理装置100は、入力IF105を介して、ユーザが操作部110を用いて入力した命令を取得する。操作部110はユーザの指示を処理装置100に入力するための装置であり、例えばマウスやキーボードなどを含む。
出力IF106には、入力IF105と同様のUSBやIEEE1394等のシリアルバスインターフェースの他に、例えばDVIやHDMI(登録商標)等の映像出力端子も含まれる。処理装置100から外部装置へのデータ等の出力は、出力IF106を介して行われる。処理装置100は、出力IF106を介して表示装置109(液晶ディスプレイなど)に、処理された画像などを出力することで、画像の表示を行う。なお、処理装置100の構成要素は上述した物の他にも存在するが、本発明の主眼ではないため、説明を省略する。
<情報処理装置によって実行される処理の概要について>
以下、本実施例における処理装置100によって実行される、多視点画像に基づき視差マップを作成する処理(以下、本処理)の概要について説明する。
以下、本実施例における処理装置100によって実行される、多視点画像に基づき視差マップを作成する処理(以下、本処理)の概要について説明する。
まず、CPU101は、外部記憶装置108からフィルタ(データ)を読み出す。このフィルタは本処理に先立ち取得されたものであり、処理対象となる多視点画像とは別の訓練画像を用いて予め学習されたものであってもよい。用いる訓練画像は、処理対象となる多視点画像の被写体と同一または類似の被写体や該多視点画像のシーンと同一または類似のシーンを撮像した画像であることが望ましい。フィルタの学習方法の第1の具体例としては、次の方法が存在する。即ち、訓練画像から多数の部分画像を抽出し、該抽出した部分画像の各々に対する共分散行列を生成した上で、これらの共分散行列の平均(平均共分散行列)を算出する。そして、この平均共分散行列に対し、特異値分解による主成分分析、または、固有値解析を行うことによりフィルタを得る方法である。第2の具体例としては、公知の畳み込みニューラルネットワークの学習アルゴリズムを用いて訓練画像からフィルタを学習する方法が存在する。ただし、フィルタの学習方法は、これらの具体例に限定されない。また、フィルタとして、訓練画像を用いて学習されるものの他に、処理対象の画像や解析的に与えられる関数(例えば、離散コサイン変換基底)を用いてもよい。
次に、式(1)に示すように、多視点画像に含まれる単視点画像の各々に複数の第1のフィルタを畳み込み(適用し)、第1の特徴量マップを得る。なお本明細書では、単視点画像に1次的に畳み込まれるフィルタを第1のフィルタと呼び、第1のフィルタは複数存在する。
式(1)において、F1i(x,y)は、i番目の第1のフィルタの座標(x,y)における係数を表す。また、Ik(x,y)は、k番目の単視点画像の座標(x,y)における画素値を表す。また、Tik(x,y)は、k番目の単視点画像にi番目の第1のフィルタを畳み込んで得られる第1の特徴量マップの座標(x,y)における画素値を表す。なお、単視点画像の画素値とは、輝度、色差(即ちYUV、Labなどの色空間における輝度以外の成分)、カラーチャンネル(例えばRGB)などの値である。
フィルタを入力画像に畳み込むことで、単視点画像内の特定の構造を検出できる。例えば、水平方向に勾配を有し垂直方向に一様な値の分布を有するソーベルフィルタを入力画像に畳み込むと、入力画像に含まれる垂直なエッジの位置において、出力画像(特徴量マップ)の画素値は大きい値をとる。このように、特徴量マップは、畳み込まれたフィルタに対応する構造の空間的分布を表す。
次に、式(2)に示すように、第1の特徴量マップに第2のフィルタを畳み込み、第2の特徴量マップを得る。なお本明細書では、単視点画像に2次的に(即ち、第1のフィルタに次いで)畳み込まれるフィルタを第2のフィルタと呼び、第2のフィルタは複数存在する。
式(2)において、F2j(x,y)は、j番目の第2のフィルタの座標(x,y)における係数を表す。また、Oijk(x,y)は、第2の特徴量マップの座標(x,y)における画素値を表す。
なお、得られた特徴量マップに対し、非線形変換を施してもよい。非線形変換は、画像に含まれるエッジを強調し画素間の差を増幅することにより、対応点の探索精度を向上する目的で施される。非線形変換としては、統計フィルタ処理、および、閾値処理や非線形関数による画素ごとの値の変換などが挙げられる。以降では、特に断らない限り非線形変換を施さない場合について説明する。
また上述の例では、各単視点画像に第1のフィルタおよび第2のフィルタを畳み込むことで、最終的に第2の特徴量マップを取得しているが、最終的に取得する特徴量マップは第2の特徴量マップに限定されない。つまり、第n(nは自然数)の特徴量マップに対し第n+1のフィルタを畳み込み第n+1の特徴量マップを得るという上述と同様の処理を任意の回数実行し、得られた第n+1の特徴量マップを最終的に取得する特徴量マップとしてもよい。フィルタを畳む込む回数は1回でも良いが、該回数を増やすことで、画像が有するより複雑な構造を抽出できるようになる。
本技術分野で使用される一般的な特徴量としては、SIFT(Scale―Invariant Feature Transform)をはじめとする様々な局所特徴量が知られている。これらの局所特徴量が算出される位置は、画像内の特定の条件を満たす位置に限定されるため、局所特徴量を用いて対応点を探索する場合、対応点の密度は画像の解像度(画素密度)に比べると非常に低い。一方で本発明では、原理的に全ての画素に対し特徴量を算出できるため、対応点の密度を画像の解像度と同一にすることができる。また、本発明はフィルタ処理だけで特徴量を算出できるため、1点あたりの特徴量の計算コストを非常に低くすることもできる。
本実施例では、処理装置100は、第2の特徴量マップを取得した後、該取得した第2の特徴量マップに基づき単視点画像間の対応点を探索する。なお、以降では、ステレオカメラにより取得した2枚の単視点画像、即ち第1単視点画像I1と第2単視点画像I2とに基づき、視差マップを作成する場合を例にとり説明する。ここで、本実施例における視差マップとは、各画素位置に対応する視差値を画素値として有するビットマップ形式の画像データである。ステレオカメラは、被写体を複数の異なる方向から同時に撮像することにより、その奥行き方向の情報も取得できるカメラであり、ステレオカメラで取得した2枚の単視点画像について、各画像の水平方向は同一である。
単視点画像I1の座標(x,y)における視差を推定するために、まず単視点画像I1に対する第2の特徴量マップOij1の座標(x,y)における値をiおよびjの順序に従い並べて特徴量ベクトルV1(x,y)を得る。例えば、特徴量ベクトルV1(x,y)を、V1(x,y)=(O111(x,y),O121(x,y),O131(x,y),・・・)としてもよい。第1のフィルタがM個、第2のフィルタがN個である場合には、特徴量ベクトルV1(x,y)の次元はM×Nとなる。
次に、単視点画像I2に対する第2の特徴量マップOij2の座標(x’,y’)における値をiおよびjの順序に従い並べて特徴量ベクトルV2(x’,y’)を得る。ここで、第2の特徴量マップOij2の座標(x’,y’)における値を並べる順序は、特徴量ベクトルV1(x,y)を取得する際に、第2の特徴量マップOij1の座標(x,y)における値を並べたiおよびjの順序と同一である。また、特徴量ベクトルV2(x’,y’)の取得は、座標(x’,y’)を変えて繰り返し行われる。ただし本実施例では、多視点画像をステレオカメラで取得しているので、このときの座標(x’,y’)の移動範囲を、単視点画像I2上の座標(x,y)を通る水平線上に限定できる。
次に、特徴量ベクトルV1(x,y)と特徴量ベクトルV2(x’,y’)との類似度を定量化して導出する。この類似度としては、一般に用いられる様々な距離(ユークリッド距離、マンハッタン距離、ハミング距離など)や、相互相関係数などが挙げられる。
次に、類似度が最大になる座標(x’,y’)を導出し、該導出した座標(x’,y’)と座標(x,y)との間の距離を推定視差値として出力する。前述の処理を単視点画像I1の全座標において実行することで、視差マップが得られる。
なお、上述の例では多視点画像をステレオカメラで取得する場合について説明したが、多視点画像の取得手段はステレオカメラに限定されない。多視点画像の取得手段がステレオカメラではない場合、座標(x’,y’)を移動しながら特徴量ベクトルV2(x’,y’)を取得するときに座標(x’,y’)の移動範囲を拡大して上述と同様の処理を行う。或いは、各単視点画像を取得した際に被写体を撮像したカメラの位置と姿勢とに関する情報が得られている場合、特徴量ベクトルV2(x’,y’)を取得する際に座標(x’,y’)の移動範囲を、この情報から一意に決定されるエピポーラ線上に限定できる。
<情報処理装置によって実行される処理について>
以下、本実施例における処理装置100によって実行される具体的な処理について、図2および図3を用いて説明する。図2は、本実施例における処理装置100の機能構成を示すブロック図である。図示するように、処理装置100は、取得部201と、特徴量生成部202と、対応点探索部203と、出力部204とを有する。これらの構成要素は、処理装置100のCPU101がROM103内に格納された制御プログラムをRAM102に展開し、該展開したプログラムを実行することで、実現される。或いは、各構成要素に相当する専用の処理回路を備えるように処理装置100を構成してもよい。
以下、本実施例における処理装置100によって実行される具体的な処理について、図2および図3を用いて説明する。図2は、本実施例における処理装置100の機能構成を示すブロック図である。図示するように、処理装置100は、取得部201と、特徴量生成部202と、対応点探索部203と、出力部204とを有する。これらの構成要素は、処理装置100のCPU101がROM103内に格納された制御プログラムをRAM102に展開し、該展開したプログラムを実行することで、実現される。或いは、各構成要素に相当する専用の処理回路を備えるように処理装置100を構成してもよい。
取得部201は、多視点画像を取得し、該取得した多視点画像を特徴量生成部202に出力する。本実施例では、取得部201は、被写体を第1の視点から見た場合の画像である第1単視点画像と、該被写体を第1の視点とは異なる第2の視点から見た場合の画像である第2単視点画像とを取得するものとする。第1単視点画像は、第1の視点から被写体を撮像することで取得され、第2単視点画像は、第2の視点から該被写体を撮像することで取得される。なお、第1単視点画像および第2単視点画像は、外部装置から入力されるデータであってもよいし、二次記憶装置104に記憶されているデータであってもよい。
特徴量生成部202は、予め取得されたフィルタを用いることで、第1単視点画像に基づき、第1単視点画像に対応する複数の特徴量マップを作成し、対応点探索部203に出力する。また、特徴量生成部202は、当該予め取得されたフィルタを用いることで、第2単視点画像に基づき、第2単視点画像に対応する複数の特徴量マップを作成し、対応点探索部203に出力する。
対応点探索部203は、第1単視点画像に対応する複数の特徴量マップおよび第2単視点画像に対応する複数の特徴量マップに基づき、第1単視点画像と第2単視点画像との間の対応点を探索する。
出力部204は、対応点探索部203による探索結果に基づき、第1単視点画像および第2単視点画像に対応する視差マップを出力する。
図3は、本実施例における処理装置100によって実行される処理のフローチャートである。ステップS301において、取得部201は、入力インターフェース105を介して、または、二次記憶装置104から、処理対象の多視点画像を取得する。そして、取得部201は、該取得した多視点画像を特徴量生成部202に出力する。本実施例では、取得部201によって取得される多視点画像が2枚の単視点画像である場合を例にとり説明している。しかし、多視点画像に含まれる単視点画像の枚数は2枚に限定されず3枚以上であってもよい。多視点画像に含まれる単視点画像が3枚以上の場合には、単視点画像2枚の組を1つまたは複数作り、それぞれの組に対して以降の処理を行うことにより視差マップを作成する。なお、視差マップの形態はビットマップ形式の画像データに限定されず、画素位置と視差値との関係を規定するテーブル形式で出力してもよい。なお、1つの単視点画像に対して複数の視差マップが作成される場合は、それらを合成し、最終的に1つの視差マップを出力する。複数の視差マップを合成する手法として、座標毎に各視差マップの画素値の平均をとる手法や、座標毎に各視差マップの画素値を重み付け加算する手法を用いてよい。
ステップS302において、特徴量生成部202は、取得部201から入力された単視点画像の各々に対し、複数のフィルタを逐次的に畳み込むことで、単視点画像毎の複数の特徴量マップを作成する。以下では、このような処理を逐次的または段階的なフィルタ処理と呼ぶ。本ステップで用いるフィルタは、外部記憶装置108から読み出される。図4に、単視点画像に第1のフィルタと第2のフィルタとを逐次的に畳み込む場合における特徴量生成部202の機能ブロック図を示す。図4に示すように、特徴量生成部202は、各単視点画像に第1のフィルタを畳み込むフィルタ処理部211と、フィルタ処理部211の出力に第2のフィルタを畳み込むフィルタ処理部213とを有する。また図5に、図4に示す特徴量生成部202によって実行される処理のフローチャートを示す。図5に示すように、ステップS311において、フィルタ処理部211は、単視点画像に第1のフィルタを畳み込む(即ち、第1のフィルタ処理を実行する)。次いで、ステップS313において、フィルタ処理部213は、フィルタ処理部211の出力に第2のフィルタを畳み込む(即ち、第2のフィルタ処理を実行する)。なおここでは、第1のフィルタと第2のフィルタとを畳み込む場合について説明しているが、逐次的に畳み込むフィルタの数は2に限定されず3以上であってよい。例えば第3のフィルタをさらに畳み込む場合には、第2のフィルタ処理後に第3のフィルタ処理が追加的に実行される。
なお、フィルタ処理後に上述の非線形変換処理を実行してもよい。図6に、2段階のフィルタ処理に加えて非線形変換処理を実行する場合における特徴量生成部202の機能ブロック図を示す。また図7に、図6に示す特徴量生成部202によって実行される処理のフローチャートを示す。図7中のステップS312またはS314における非線形変換処理として、具体的には、ニューラルネットワークにおいて用いられるtanh,sigmoid、ReLUなどの公知の変換処理を用いてもよい。
以下、図3の説明に戻る。ステップS303において、特徴量生成部202は、単視点画像の各々に対する複数の特徴量マップの作成が完了したか、即ち、第1のフィルタと第2のフィルタとの全ての組み合わせに対応する特徴量マップを、単視点画像の各々に対し作成したかを判定する。ステップS303の判定結果が真の場合、ステップS304に進む一方、該判定結果が偽の場合、ステップS302に戻る。
ステップS304において、対応点探索部203は、ステップS302で作成された特徴量マップに基づき、第1単視点画像と第2単視点画像との間で対応点を探索する。ここで、対応点探索部203は近傍位置の対応点探索結果に基づき、注目位置(注目画素位置)の対応点探索範囲を適応的に変化させてもよい。例えば、予め粗いサンプリング(低解像度)で視差マップを取得し、次にこのサンプリング位置の間の位置において視差値を算出(対応点を探索)する場合に、近傍位置の既に算出された視差値から候補値を決定し、その候補値の範囲内で視差値を算出する。別の例としては、サンプリング位置を走査し逐次的に視差値を算出する場合に、新しいサンプリング位置と近傍のサンプリング位置との視差値の中から、類似度が最も高いサンプリング位置における視差値を、注目位置の視差値として採用する方法が挙げられる。さらに別の例としては、マルコフ確率場に基づきコスト関数が最小になる視差値を算出する方法が挙げられる。
ステップS305において、出力部204は、対応点探索の結果を視差マップなどの形式に変換して出力する。
以上が、本実施例における単視点画像間の対応点を求める処理である。本実施例によれば、単視点画像間の視差推定において、各単視点画像が有する複雑な構造を効果的に抽出できるために、視差推定の精度が向上し、視差推定結果が安定化する。
<本実施例の効果について>
本実施例の効果を説明するため、以下に上述の処理を実際に行った例を示す。本例では、入力画像として、水平方向にのみ5画素の視差を有しかつ光軸が平行な2枚の画像を用いる。図8(a)および図8(b)は、本例で用いる入力画像を示す。図8に示す2枚の入力画像は、人工的に作成された1対の視差画像であり、これらの画像は、同一の原画像に一様に視差を与え、さらに異なるぼけと輝度変調とを与えることで得られる。
本実施例の効果を説明するため、以下に上述の処理を実際に行った例を示す。本例では、入力画像として、水平方向にのみ5画素の視差を有しかつ光軸が平行な2枚の画像を用いる。図8(a)および図8(b)は、本例で用いる入力画像を示す。図8に示す2枚の入力画像は、人工的に作成された1対の視差画像であり、これらの画像は、同一の原画像に一様に視差を与え、さらに異なるぼけと輝度変調とを与えることで得られる。
図9(a)は、訓練画像として用意した多数の自然画像から5×5サイズの部分画像を8万枚抽出し、平均共分散行列を算出し、該算出した平均共分散行列に対する主成分分析により得られた8個の第1のフィルタを示す図である。また図9(b)は、前記抽出した8万枚の部分画像に第1のフィルタ(8個)の各々を畳み込むことで部分画像を64万枚取得し、平均共分散行列を算出し、該算出した平均共分散行列に対する主成分分析により得られた8個の第2のフィルタを示す図である。図示するように、いずれのフィルタもサイズは5×5サイズである。
本例では、視差推定の誤差として、畳み込みの誤差が発生する画像端部(上下左右における5画素幅の領域)を除く領域における真値との差の2乗平均を評価する。また、特徴量ベクトルの類似度にはユークリッド距離(差分2乗和)を用い、ブロックサイズは5×5サイズとする。
図10の各図は、対応点探索結果の視差マップである。図10に示す視差マップでは、各画素位置における推定視差値を階調表現により表している。図10(a)は、画素値の差分2乗和に基づく従来のブロックマッチングにより導出される視差マップである。この視差マップを導出するために要する処理時間は0.4秒であり、視差推定値の誤差は8.23画素である。図10(b)は、第1のフィルタのみを使用した場合に導出される視差マップである。この視差マップを導出するために要する処理時間は0.2秒であり、視差推定値の誤差は1.56画素である。図10(c)は、第1のフィルタおよび第2のフィルタを使用した場合に導出される視差マップである。この視差マップを導出するために要する処理時間は1.8秒であり、視差推定値の誤差は0.10画素である。このように、本実施例の方法に従って畳み込み回数を増やすことで、視差推定の精度が向上する。
入力画像によってはフィルタとブロックとのサイズをより大きくした方が視差推定の精度が向上する。上述の例では、フィルタとブロックとのサイズはともに5×5サイズだが、例えば15×15サイズのフィルタおよびブロックを用いて上述の処理を行ってもよい。この場合の視差マップを導出するために要する処理時間は、ブロックマッチングの場合は3.2秒、第1のフィルタのみを使用した場合は0.2秒、第1のフィルタおよび第2のフィルタを使用した場合は1.9秒である。このように、本実施例により、視差推定の精度向上のみならず処理の高速化も実現できる。この理由は以下のとおりである。つまり、ブロックマッチングの場合はブロックに含まれる画素数の次元(上の例では225(=15×15)次元)のベクトルの比較によって対応点探索を行う。これに対し、本実施例ではフィルタ数の次元(上の例では8または64次元)のベクトルの比較によって対応点探索を行っており、比較対象のベクトルの次元数が小さくて済むためである。このように本実施例では、計算コストはフィルタサイズではなくフィルタの個数に主に依存するため、画像によってフィルタサイズを変えても処理時間は略一定である。
さらに本実施例は、ロバスト性においても従来技術より優れており、画像の明るさが変更された場合であっても、入力画像間の対応点を精度良く求めることができる。
[実施例2]
実施例2では、処理対象の多視点画像に基づきフィルタを作成する場合について、図11および図12を用いて説明する。なお、実施例1と同一の内容については説明を省略する。
実施例2では、処理対象の多視点画像に基づきフィルタを作成する場合について、図11および図12を用いて説明する。なお、実施例1と同一の内容については説明を省略する。
図11は、本実施例における処理装置100の機能構成を示すブロック図である。図示するように、処理装置100は、取得部201と、特徴量生成部202と、対応点探索部203と、出力部204と、フィルタ作成部205とを有する。フィルタ作成部205は、多視点画像に基づきフィルタを作成する。
図12は、本実施例における処理装置100によって実行される処理のフローチャートである。ステップS1201において、取得部201は、入力インターフェース105を介して、または、二次記憶装置104から、処理対象の多視点画像を取得する。そして、取得部201は、該取得した多視点画像をフィルタ作成部205に出力する。
ステップS1202において、フィルタ作成部205は、取得部201から入力された多視点画像に基づき複数のフィルタを作成する。フィルタの作成方法は、実施例1で述べた方法と同様である。なお、入力された多視点画像以外の画像を併用してフィルタを作成してもよく、その場合にはフィルタ作成に用いる画像、算出済みの平均共分散行列、作成済みのフィルタなどを外部記憶装置108から読み出す。
ステップS1203において、特徴量生成部202は、取得部201によって取得された単視点画像の各々に対し、フィルタ作成部205が作成したフィルタを用いて逐次的(段階的)なフィルタ処理を行う。この処理によって、単視点画像の各々に対する特徴量マップが作成される。
ステップS1204において、特徴量生成部202は、単視点画像の各々に対する複数の特徴量マップの作成が完了したか、即ち、逐次的に畳み込むフィルタの全ての組み合わせに対応する特徴量マップを、単視点画像の各々に対し作成したかを判定する。ステップS1204の判定結果が真の場合、ステップS1205に進む一方、該判定結果が偽の場合、ステップS1203に戻る。
ステップS1205において、対応点探索部203は、ステップS1203で作成した特徴量マップに基づき、単視点画像間の対応点を探索する。
ステップS1206において、出力部204は、対応点探索の結果を視差マップなどの形式に変換して出力する。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 情報処理装置
201 取得部
202 特徴量生成部
203 対応点探索部
201 取得部
202 特徴量生成部
203 対応点探索部
Claims (9)
- 同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得する取得手段と、
前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成する作成手段と、
前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索する探索手段と
を有し、
前記作成手段が各段階で適用するフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理装置。 - 前記探索手段による探索結果に基づく視差マップを出力する出力手段をさらに有することを特徴とする請求項1に記載の情報処理装置。
- 前記探索手段は、
前記第1の単視点画像に対する複数の特徴量マップに基づき、前記第1の単視点画像の注目画素位置における第1の特徴量ベクトルを導出し、
前記第2の単視点画像に対する複数の特徴量マップに基づき、前記第2の単視点画像の探索範囲における画素位置ごとに第2の特徴量ベクトルを導出し、
前記第1の特徴量ベクトルと第2の特徴量ベクトルとの類似度を、前記探索範囲における画素位置ごとに導出し、
前記導出した類似度の中で最も高い類似度となる画素位置を、前記注目画素位置に対応する前記第2の単視点画像の画素位置とする
ことを特徴とする請求項1または2に記載の情報処理装置。 - 前記探索手段は、前記注目画素位置の近傍における対応点探索の結果に基づき、前記探索範囲を変化させることを特徴とする請求項3に記載の情報処理装置。
- 前記第1の単視点画像および前記第2の単視点画像は、同一のサイズの画像データであり、
前記特徴量マップは、特徴量を画素値として有するビットマップ形式のデータであり、前記第1の単視点画像と同一のサイズを有する
ことを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。 - 前記作成手段が前記フィルタを適用する処理を段階的に行う際、フィルタを適用するたびに非線形変換を実行する実行手段をさらに有することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
- 前記第1の単視点画像および前記第2の単視点画像に基づき、前記複数のフィルタを作成する作成手段をさらに有することを特徴とする請求項1乃至6の何れか1項に記載の情報処理装置。
- 同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得するステップと、
前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成するステップと、
前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索するステップと
を有し、
前記作成するステップにおいて各段階で適用されるフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理方法。 - コンピュータに、請求項8に記載の方法を実行させるための、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016136928A JP2018010359A (ja) | 2016-07-11 | 2016-07-11 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016136928A JP2018010359A (ja) | 2016-07-11 | 2016-07-11 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018010359A true JP2018010359A (ja) | 2018-01-18 |
Family
ID=60994335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016136928A Pending JP2018010359A (ja) | 2016-07-11 | 2016-07-11 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018010359A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021072002A (ja) * | 2019-10-31 | 2021-05-06 | ミネベアミツミ株式会社 | 画像処理装置及び画像処理方法 |
JP2021531582A (ja) * | 2018-07-25 | 2021-11-18 | 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co., Ltd. | 画像視差推定 |
-
2016
- 2016-07-11 JP JP2016136928A patent/JP2018010359A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021531582A (ja) * | 2018-07-25 | 2021-11-18 | 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co., Ltd. | 画像視差推定 |
JP7108125B2 (ja) | 2018-07-25 | 2022-07-27 | 北京市商▲湯▼科技▲開▼▲發▼有限公司 | 画像視差推定 |
JP2021072002A (ja) * | 2019-10-31 | 2021-05-06 | ミネベアミツミ株式会社 | 画像処理装置及び画像処理方法 |
WO2021085560A1 (ja) * | 2019-10-31 | 2021-05-06 | ミネベアミツミ株式会社 | 画像処理装置及び画像処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200226777A1 (en) | Depth estimation method and apparatus, electronic device, program, and medium | |
US10354129B2 (en) | Hand gesture recognition for virtual reality and augmented reality devices | |
US10254845B2 (en) | Hand gesture recognition for cursor control | |
US11189020B2 (en) | Systems and methods for keypoint detection | |
US9305240B2 (en) | Motion aligned distance calculations for image comparisons | |
US6671399B1 (en) | Fast epipolar line adjustment of stereo pairs | |
US10311595B2 (en) | Image processing device and its control method, imaging apparatus, and storage medium | |
JP4209938B2 (ja) | 画像処理装置および方法、画像処理プログラムおよび画像処理プロセッサ | |
US20150097827A1 (en) | Target Region Fill Utilizing Transformations | |
US10554957B2 (en) | Learning-based matching for active stereo systems | |
US20140035909A1 (en) | Systems and methods for generating a three-dimensional shape from stereo color images | |
KR20120130788A (ko) | 멀티-카메라 교정을 위한 방법 및 장치 | |
US10839529B2 (en) | Image processing apparatus and image processing method, and storage medium | |
JP7159384B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
KR102551713B1 (ko) | 전자 장치 및 그 이미지 처리 방법 | |
WO2018082308A1 (zh) | 一种图像处理方法及终端 | |
CN111383252B (zh) | 多相机目标追踪方法、***、装置及存储介质 | |
CN103440664A (zh) | 一种生成高分辨率深度图的方法、***及计算设备 | |
CN103700082B (zh) | 基于对偶四元数相对定向的图像拼接方法 | |
US9171227B2 (en) | Apparatus and method extracting feature information of a source image | |
JP2018010359A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR101592087B1 (ko) | 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체 | |
US11232323B2 (en) | Method of merging images and data processing device | |
Yang et al. | Design flow of motion based single camera 3D mapping | |
US10430971B2 (en) | Parallax calculating apparatus |