JP2015045919A

JP2015045919A - 画像認識方法及びロボット

Info

Publication number: JP2015045919A
Application number: JP2013175497A
Authority: JP
Inventors: 絢子安間; Ayako Yasuma
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2015-03-12
Also published as: US20150063637A1

Abstract

【課題】マッチング処理の精度を維持しつつ、マッチング処理の処理時間を短縮することができる画像認識方法及びロボットを提供すること。
【解決手段】本発明にかかる画像認識方法は、カメラ１０（三次元センサ２０）を用いて被写体を撮像することにより生成されたカメラ画像（三次元画像）を取得する。カメラ画像内の注目画素における被写体距離情報を取得する。そして、１つの検出物体を検出するために予め作成された複数のテンプレート画像であって、それぞれ異なる距離情報に関連付けられているテンプレート画像から、取得した被写体距離情報に対応するテンプレート画像を抽出する。カメラ画像に対して、抽出したテンプレート画像を用いてパターンマッチングを行う。
【選択図】図７

Description

本発明は画像認識方法及びロボットに関する。

画像認識分野において、テンプレートマッチング（パターンマッチング）が知られている。テンプレートマッチングは、特定のパターンの画像（テンプレート画像）を予め記憶しておき、カメラ等により取得された画像とテンプレート画像との特徴量を比較し、取得された画像から特定のパターンを検出する（例えば、特許文献１）。

特開２０１３−１０１４２３号公報

しかしながら、テンプレートマッチングにおいては、取得した画像の全領域に対して、あらゆるサイズのテンプレート画像を照らし合わせる必要がある。このため、計算量が増加し、処理に時間がかかるという問題がある。

一方、計算量を削減するために、画像の特徴量を削減してテンプレートマッチングを行うことも考えられる。しかし、特徴量を削減するため、マッチング処理の精度が低下し、誤認識してしまう恐れがある。

本発明は、このような問題を解決するためになされたものであり、マッチング処理の精度を維持しつつ、マッチング処理の処理時間を短縮することができる画像認識方法及びロボットを提供することを目的としている。

本発明の一態様にかかる画像認識方法は、画像生成装置を用いて被写体を撮像することにより生成された撮像画像を取得し、前記撮像画像内の注目画素における前記被写体から前記画像生成装置までの距離を示す被写体距離情報を取得し、１つの検出物体を検出するために予め作成された複数の画像パターンであって、それぞれ異なる距離情報に関連付けられている画像パターンから、取得した前記被写体距離情報に対応する前記画像パターンを抽出し、前記撮像画像に対して、抽出した前記画像パターンを用いてパターンマッチングを行うものである。これにより、被写体距離情報を用いて、パターンマッチングに使用する画像パターンを絞ることができる。そのため、あらゆる大きさの画像パターンを用いてパターンマッチングを行う必要がない。また、画像パターン自体の特徴量の削減も行っていない。その結果、マッチング処理の精度を維持しつつ、マッチング処理の処理時間を短縮することができる。

また、前記撮像画像は、各画素が前記被写体距離情報を有する三次元画像を含み、前記画像パターンは、前記検出物体の前記三次元画像を含み、前記注目画素における前記被写体距離情報を前記撮像画像としての前記三次元画像から取得し、取得した前記被写体距離情報に対応する前記検出物体の前記三次元画像を抽出し、前記撮像画像としての前記三次元画像に対して、抽出した前記検出物体の前記三次元画像を用いてパターンマッチングを行ってもよい。

また、前記撮像画像は、各画素が色彩情報を有する色画像をさらに含み、前記画像パターンは、前記検出物体の前記色画像をさらに含み、前記撮像画像としての前記三次元画像及び前記色画像に対して、前記検出物体の前記三次元画像及び前記色画像を用いてパターンマッチングを行ってもよい。

また、前記画像パターンは、前記検出物体を示すテンプレート画像を含み、前記テンプレート画像のサイズは、当該テンプレート画像に関連付けられた前記距離情報に応じて異なり、前記撮像画像内において前記テンプレート画像と比較される比較領域のサイズは、前記パターンマッチングに用いる前記テンプレート画像のサイズに応じて変化してもよい。

また、前記注目画素が有する前記被写体距離情報と、前記注目画素の周囲の画素が有する前記被写体距離情報と、を取得し、取得した複数の前記被写体距離情報の平均値を算出し、予め作成された複数の前記画像パターンから、算出した前記平均値に対応する前記画像パターンを抽出してもよい。

また、予め作成された複数の前記画像パターンのうち、取得した前記被写体距離情報との差分が最も小さい前記距離情報に関連付けられた前記画像パターンを抽出してもよい。

本発明の一態様にかかるロボットは、前記画像生成装置と、複数の前記画像パターンを、それぞれ異なる前記距離情報に関連付けて予め記憶するメモリと、上記の画像認識方法を実行する画像認識装置と、を備えるものである。

本発明により、マッチング処理の精度を維持しつつ、マッチング処理の処理時間を短縮することができる画像認識方法及びロボットを提供することができる。

実施の形態にかかるテンプレートマッチングの処理を説明するための図である。実施の形態にかかる画像処理システムのブロック図である。実施の形態にかかるカメラ画像の一例である。実施の形態にかかる三次元画像の一例である。実施の形態にかかるテンプレート画像の作成方法を説明するための図である。実施の形態にかかるテンプレート画像のデータ構造を説明するための図である。実施の形態にかかる画像処理システムの動作を示すフローチャートである。実施の形態にかかるテンプレート画像群の抽出方法を説明するための図である。実施の形態にかかる誤検出の防止効果を説明するための図である。変形例にかかる注目画素の被写体距離の算出方法を説明するための図である。変形例にかかるテンプレート画像群の抽出方法を説明するための図である。

実施の形態
以下、図面を参照して本発明の実施の形態について説明する。本実施の形態にかかる画像認識装置は、カメラを用いて撮像されたカメラ画像から、予め設定された所定の画像パターンを検索するパターンマッチングを行う。なお、以下の説明においては、パターンマッチングのうち、いわゆるテンプレートマッチングを使用した場合について説明する。テンプレートマッチングとは、検出の対象となる物体（以下、検出物体）のテンプレート画像を画像パターンとして使用し、カメラ画像とテンプレート画像とを照合し、カメラ画像における検出物体の位置や姿勢を推定する方法である。

ここで、テンプレートマッチングの動作について図１を参照して簡単に説明する。まず、カメラ画像Ｓ１において注目画素Ｐ１を決定する。なお、カメラ画像Ｓ１とは、カメラにより生成された撮像画像である。そして、注目画素Ｐ１を含むマッチング領域Ｍ１（破線領域）を設定する。マッチング領域Ｍ１は、カメラ画像の一部の領域であり、テンプレート画像と比較される比較領域である。つまり、注目画素Ｐ１は、カメラ画像におけるマッチング領域Ｍ１の位置を決定するための画素である。なお、図１に示した例においては、注目画素Ｐ１がマッチング領域Ｍ１の中心となるようにマッチング領域Ｍ１が設定されている。このとき、マッチング領域Ｍ１のサイズ（画素数）は、テンプレート画像と同様のサイズである。注目画素Ｐ１を所定の距離で所定の方向に移動させる度にマッチング領域Ｍ１とテンプレート画像とを比較し、スコア（画像の一致度）を算出する。そして、カメラ画像Ｓ１全体に注目画素Ｐ１を移動させることにより、マッチング領域Ｍ１を用いてカメラ画像Ｓ１全体に対して、テンプレートマッチングが行われる。

なお、マッチング領域Ｍ１とテンプレート画像との比較、及びスコアの算出については、既存の手法を用いることができ、特に限定されるものではない。例えば、ＳＡＤ（Sum of Absolute Differences）、ＳＳＤ（Sum of Squared Differences）、ＮＣＣ（Normalized Cross Correlation）、及びＰＯＣ（Phase-Only Correlation）等のいわゆる領域（相関）ベースマッチングを用いることができる。そのため、比較処理及びスコア算出処理の詳細な説明は省略する。

＜画像処理システムの構成＞
図１に本実施の形態にかかる画像処理システムのブロック図を示す。画像処理システムは、カメラ１０と、三次元センサ２０と、画像認識装置３０と、を備える。

カメラ１０（画像生成装置）は、図示しないレンズ群やイメージセンサ等を有する。カメラ１０は、撮像処理を行い、撮像画像としてカメラ画像を生成する。カメラ画像（色画像）とは、例えば、図２に示すような画像であり、各画素がＲＧＢの値（色彩情報）を有する。

三次元センサ２０（画像生成装置）は、撮像処理を行い、撮像画像として三次元画像を生成する。具体的には、三次元センサ２０は、カメラ１０の画角に対応する画角において、カメラ１０（または三次元センサ２０）から被写体までの距離を示す情報（被写体距離情報）を取得する。より詳細には、三次元センサ２０は、カメラ１０の近傍に配置されており、三次元センサ２０から被写体までの距離を被写体距離情報として取得する。そして、三次元センサ２０は、被写体距離情報を用いて、三次元画像を生成する。三次元画像においては、各画素が写体距離情報を有する。つまり、三次元画像は、被写体の奥行きに関する情報を含む画像である。例えば、図３に示すように、三次元画像は、グレースケールの画像であり、被写体距離情報に応じて画素の色の濃淡が変化する。なお、三次元センサとして、例えば、ＴＯＦ（Time Of Flight）方式のカメラやステレオカメラ等を用いることができる。

画像認識装置３０は、制御部３１と、画像抽出部３２と、画像処理部３３と、物体ＤＢ（Database）３４と、を備える。制御部３１は、ＣＰＵ（Central Processing Unit）、各種プログラムが格納されたＲＯＭ（Read Only Memory）、及びワークエリアとしてのＲＡＭ（Random Access Memory）等を含む半導体集積回路により構成される。制御部３１は、画像認識装置３０の各ブロックに対して指示し、画像認識装置３０全体の処理を統括的に制御する。

画像抽出部３２は、カメラ画像内の注目画素の被写体距離情報を三次元画像から取得する。そして、画像抽出部３２は、取得した被写体距離情報に基づいて、物体ＤＢ３４に予め格納された複数のテンプレート画像（画像パターン）から、テンプレートマッチングに用いるテンプレート画像を抽出する。なお、注目画素は、カメラ画像内ではなく、三次元画像内に設定されていてもよい。

画像処理部３３は、カメラ画像及び三次元画像に対して、画像抽出部３２が抽出したテンプレート画像を用いてテンプレートマッチングを行う。そして、画像処理部３３は、スコア（画像の一致度）が所定の閾値以上となったテンプレート画像を認識結果とする。つまり、画像処理部３３は、スコアが所定の閾値以上のテンプレート画像に含まれる検出物体がカメラ画像中に存在すると判定する。

物体ＤＢ３４は、例えばＨＤＤ（Hard Disk Drive）等のメモリである。物体ＤＢ３４は、複数の被写体距離情報に関連付けて複数のテンプレート画像を予め記憶している。具体的には、物体ＤＢ３４は、１つの検出物体を検出するために予め作成された複数のテンプレート画像を、それぞれ異なる距離情報に関連付けて記憶している。図５及び図６を用いて物体ＤＢ３４のデータ作成及びデータ構造の詳細について説明する。

まず、図５を参照して、物体ＤＢ３４のデータ作成について説明する。ユーザは、事前に、カメラ１０及び三次元センサ２０を用いて、複数の異なる被写体距離において、検出物体９０を撮像する。これにより、ユーザは、カメラ１０を用いて撮像されたカメラ画像５１ａと、三次元センサ２０を用いて撮像された三次元画像５１ｂと、を取得する。なお、以下の説明では、検出物体のカメラ画像５１ａと検出物体の三次元画像５１ｂとを単にテンプレート画像５１と称す場合もある。そして、ユーザは、撮像したときの被写体距離を距離情報として、カメラ画像５１ａ及び三次元画像５１ｂに対応付けて物体ＤＢ３４に格納する。図５の例に示すように、被写体距離５００ｍｍにおいて撮像されたカメラ画像５１ａ及び三次元画像５１ｂは、５００ｍｍという距離情報と紐づけられて、テンプレート画像として物体ＤＢ３４に格納される。なお、カメラ画像５１ａ及び三次元画像５１ｂに関連付けられる距離情報は、三次元画像から取得してもよいし、ユーザが手動で入力してもよい。

次に、物体ＤＢ３４のデータ構造について図６を参照して説明する。１つの検出物体（例えば物体Ａ）のテンプレート画像としては、検出物体のカメラ画像５１ａと検出物体の三次元画像５１ｂとが存在する。また、カメラ画像５１ａと三次元画像５１ｂとを合わせてテンプレート画像ペア５２と称す。このとき、１つのテンプレート画像ペア５２には、検出物体を１つの角度から見たテンプレート画像５１（カメラ画像５１ａ及び三次元画像５１ｂ）が含まれる。物体ＤＢ３４は、異なる角度から検出物体を撮像したテンプレート画像ペア５２を複数記憶する。つまり、物体ＤＢ３４は、角度毎にテンプレート画像ペア５２を記憶する。例えば、図６に示すように、検出物体の周囲を６０°毎に撮像した場合、物体ＤＢ３４は、０°、６０°、１２０°、１８０°、２４０°、３００°のそれぞれの角度において撮像されたテンプレート画像ペア５２を記憶する。以下の説明では、異なる角度から検出物体を撮像した複数のテンプレート画像ペアを、合わせてテンプレート画像群５３と称す。

つまり、１つのテンプレート画像群５３には、（テンプレート画像ペア５２の数）×（各テンプレート画像ペア５２に含まれるカメラ画像と三次元画像（＝２））枚のテンプレート画像が含まれる。例えば、検出物体を６つの異なる角度から見たテンプレート画像ペア５２が存在する場合、１つのテンプレート画像群５３には、６×２＝１２枚のテンプレート画像が含まれる。

また、物体ＤＢ３４は、１つの検出物体に対して、複数のテンプレート画像群５３をそれぞれ異なる距離情報に関連付けて予め記憶する。例えば、複数の距離情報が４００ｍｍ、５００ｍｍ、６００ｍｍの３種類の場合、４００ｍｍの距離情報に対して１つのテンプレート画像群が関連付けられる。同様に、５００ｍｍの距離情報に対して１つのテンプレート画像群が関連付けられ、６００ｍｍの距離情報に対して１つのテンプレート画像群が関連付けられる。

つまり、物体ＤＢ３４には、１つの検出物体に対して、（距離情報の種類の数）×（１つのテンプレート画像群に含まれるテンプレート画像の枚数）のテンプレート画像が含まれる。例えば、上記の例の通り、検出物体を６つの異なる角度から見たテンプレート画像ペアが存在する場合、１つのテンプレート画像群には、１２枚のテンプレート画像が含まれる。このとき、距離情報の種類が３種類であるとすると、１つの検出物体に対して、３×１２＝３６枚のテンプレート画像が物体ＤＢ３４に記憶されている。

さらに、複数種類の検出物体が存在する場合、物体ＤＢ３４は、１つの距離情報に対して、各検出物体に対応した複数の異なるテンプレート画像群を関連付けて記憶する。例えば、検出物体が３種類（物体Ａ、物体Ｂ、物体Ｃ）の場合、１つの距離情報に、物体Ａに対応するテンプレート画像群が１つ、物体Ｂに対応するテンプレート画像群が１つ、及び物体Ｃに対応するテンプレート画像群が１つの計３つのテンプレート画像群が関連付けられる。上述の例を用いて説明すると、物体ＤＢ３４は、３（検出物体の種類の数）×３６（１つの検出物体あたりのテンプレート画像枚数）＝１０８枚のテンプレート画像を記憶する。このように、物体ＤＢ３４には、図６の破線で囲まれた構造のデータが格納されている。

加えて、テンプレート画像５１のサイズ（画素数）は、関連付けられた距離情報に応じて異なる。つまり、サイズの異なる複数のテンプレート画像群５３が、それぞれ異なる距離情報に関連付けられる。具体的には、距離情報が短い（作成時の被写体距離が近い）場合の方が、距離情報が長い（作成時の被写体距離が遠い）場合よりもテンプレート画像のサイズが大きい。これは、被写体距離が近い場合の方が、被写体距離が遠い場合よりも、カメラ画像（または三次元画像）における検出物体のサイズ（画素数）が大きいからである。このように、距離情報に応じて、テンプレート画像の大きさを予め変えておくことにより、被写体距離情報が遠くなるほど、小さいサイズのテンプレート画像を使用する。このため、全ての被写体距離において同じサイズのテンプレート画像を用いてマッチングする場合に比べて、比較すべき画素の数を減らすことができる。その結果、マッチング処理の時間を短縮することができる。

なお、画像パターンとしては、テンプレート画像のような検出物体の画像そのものに限られず、画像を特定するための様々な特徴量を用いることができる。

＜画像処理システムの動作＞
続いて、本実施の形態にかかる画像認識方法について、図７に示すフローチャートを参照して説明する。なお、図７に示す動作の前に、物体ＤＢ３４は、距離情報が関連付けられた複数のテンプレート画像群を予め記憶しているものとする(図６参照)。

まず、カメラ１０及び三次元センサ２０は、被写体を撮像する。これにより、カメラ１０は、カメラ画像（色画像）を生成する。また、三次元センサ２０は、三次元画像を生成する。

画像処理部３３は、カメラ１０及び三次元センサ２０から、生成されたカメラ画像及び三次元画像を取得する（ステップＳ１０１）。

次に、画像処理部３３は、カメラ画像及び三次元画像において、注目画素の位置を決定する（ステップＳ１０２）。つまり、画像処理部３３は、カメラ画像及び三次元画像のそれぞれにおいて、テンプレート画像とマッチングを行うマッチング領域の位置を決定する。注目画素は、図３及び図４の星印で示す点である。なお、注目画素の位置は、例えば、画像中のｘｙ座標を用いて指定される。

また、注目画素は、カメラ画像及び三次元画像において、同じ被写体の同じ点に位置する。このとき、カメラ１０と三次元センサ２０とは、互いに近接して配置されているものの、同一の位置ではない。そのため、カメラ画像の画角と三次元画像の画角との間には、若干のずれが生じている。つまり、それぞれの画像における同じ被写体の同じ点の座標は、異なっている。しかしながら、カメラ１０と三次元センサ２０との間の間隔は予め測定可能である。そのため、その間隔の分だけ、いずれか一方の画像における注目画素の座標をずらすことにより、カメラ画像及び三次元画像において、同じ被写体の同じ点に注目画素を配置することができる。

画像処理部３３が注目画素の位置を決定すると、画像抽出部３２は、三次元画像における当該注目画素が有する被写体距離情報を三次元画像から取得する（ステップＳ１０３）。そして、画像抽出部３２は、取得した被写体距離情報に対応するテンプレート画像群を物体ＤＢ３４から抽出する（ステップＳ１０４）。

画像抽出部３２によるテンプレート画像群の抽出処理について図８を用いて説明する。図８に示した例においては、注目画素における被写体距離情報が５３０ｍｍである場合を示している。また、物体ＤＢ３４には、距離情報４００ｍｍ、５００ｍｍ、６００ｍｍ、７００ｍｍ、及び８００ｍｍに関連付けられたテンプレート画像群が記憶されているものとする。

画像抽出部３２は、三次元画像における注目画素の被写体距離情報として５３０ｍｍを取得すると、物体ＤＢ３４に予め記憶された距離情報のうち、５３０ｍｍ付近の距離情報を検索する。例えば、画像抽出部３２は、物体ＤＢ３４において、取得した被写体距離情報の前後の距離情報を検索する。つまり、画像抽出部３２は、５３０ｍｍよりも前の（手前の）距離であり、かつ、最も近い距離である５００ｍｍを検出する。また、画像抽出部３２は、５３０ｍｍよりも後ろの（奥の）距離であり、かつ、最も近い距離である６００ｍｍを検出する。そして、画像抽出部３２は、５００ｍｍの距離情報に関連付けられたテンプレート画像群及び６００ｍｍの距離情報に関連付けられたテンプレート画像群を、物体ＤＢ３４から抽出する。このとき、画像抽出部３２は、複数の検出物体（物体Ａ、物体Ｂ、及び物体Ｃ）のそれぞれについて、５００ｍｍ、６００ｍｍの距離情報に関連付けられたテンプレート画像群を抽出する。

その後、画像抽出部３２は、抽出したテンプレート画像群を、画像処理部３３に出力する。そして、画像処理部３３は、抽出されたテンプレート画像群に含まれるテンプレート画像を用いて、ステップＳ１０２において決定された注目画素を中心とした領域（マッチング領域。図３及び図４の破線領域）に対してテンプレートマッチングを行う（ステップＳ１０５）。つまり、画像処理部３３は、各テンプレート画像とマッチング領域とを比較して、スコアを算出する。なお、画像処理部３３は、ステップＳ１０１において取得したカメラ画像に対して、検出物体のカメラ画像５１ａ（図５及び図６参照）をテンプレート画像として用いてマッチング処理を行う。同様に、画像処理部３３は、ステップＳ１０１において取得した三次元画像に対して、検出物体の三次元画像５１ｂ（図５及び図６参照）をテンプレート画像として用いてマッチング処理を行う。

なお、カメラ画像におけるマッチング領域のサイズは、マッチングを行うテンプレート画像のサイズと同じである。つまり、マッチング領域のサイズは、使用するテンプレート画像のサイズに対応しており、テンプレート画像のサイズに応じて変化する。具体的には、マッチング領域のサイズは、注目画素における被写体距離情報が短い場合の方が、被写体距離情報が長い場合よりも、小さいサイズになる。このように、マッチング領域のサイズとしてテンプレート画像のサイズを用いることができる。

このとき、被写体距離や検出物体の大きさに基づいて、最適なマッチング領域のサイズを算出する方法も考えられるが、マッチング領域が移動する度に最適なマッチング領域のサイズを算出する必要があるため、処理に時間がかかってしまう。これに対して、本発明においては、マッチング領域のサイズとしてテンプレート画像のサイズを用いることができるため、マッチング領域のサイズを決定するための演算が不要となる。したがって、マッチング処理の高速化を実現することができる。

そして、画像処理部３３は、算出したマッチングスコアが所定の閾値より高いか否かを判定する（ステップＳ１０６）。マッチングスコアが所定の閾値より高い場合（ステップＳ１０６：Ｙｅｓ）、画像処理部３３は、画像全体を検索したか否かを判定する（ステップＳ１０８）。つまり、画像処理部３３は、画像の全て領域についてマッチング処理を行ったか否かを判定する。

画像全体を検索した場合（ステップＳ１０８：Ｙｅｓ）、画像認識装置３０は、動作を終了する。一方、画像全体を検索していない場合（ステップＳ１０８：Ｎｏ）、画像処理部３３は、新たな注目画素を決定する（ステップＳ１０２）。つまり、画像処理部３３は、画像全体を検索するまで、ステップＳ１０２〜Ｓ１０７の処理をループ処理する。

一方、マッチングスコアが所定の閾値以下の場合（ステップＳ１０６：Ｎｏ）、画像処理部３３は、当該マッチング領域に対して、抽出された全てのテンプレート画像を用いてマッチングを行ったか否かを判定する（ステップＳ１０７）。

全てのテンプレート画像についてマッチングを行った場合（ステップＳ１０７：Ｙｅｓ）、画像処理部３３は、画像全体を検索したか否かを判定する（ステップＳ１０８）。画像認識装置３０は、画像全体を検索した場合（ステップＳ１０８：Ｙｅｓ）、動作を終了し、画像全体を検索していない場合（ステップＳ１０８：Ｎｏ）、新たな注目画素を決定する（ステップＳ１０２）。

一方、全てのテンプレート画像についてマッチングを行っていない場合（ステップＳ１０７：Ｎｏ）、画像処理部３３は、抽出されたテンプレート画像のうち、未だマッチングを行っていないテンプレート画像を用いてマッチングを行う（ステップＳ１０５）。つまり、画像処理部３３は、マッチングスコアが所定の閾値より高い場合（ステップＳ１０６：Ｙｅｓ）、または、抽出されたテンプレート画像の全てについてマッチングが完了した場合（ステップＳ１０８：Ｙｅｓ）になるまで、ステップＳ１０５、Ｓ１０６の処理をループ処理する。

以上のように、本実施の形態にかかる画像認識装置３０の構成によれば、画像処理部３３が、カメラ１０を用いて撮像されたカメラ画像及び三次元センサ２０を用いて撮像された三次元画像を取得する。また、画像抽出部３２が、注目画素における被写体距離情報を三次元画像から取得する。そして、画像抽出部３２は、物体ＤＢ３４に予め記憶された複数のテンプレート画像群から、取得した被写体距離情報に対応するテンプレート画像群を抽出する。画像処理部３３は、抽出されたテンプレート画像群を用いて、カメラ画像及び三次元画像に対してテンプレートマッチングを行う。つまり、画像処理部３３は、物体ＤＢ３４に記憶されたテンプレート画像のうち、被写体距離情報に基づいて抽出されたテンプレート画像のみを用いてテンプレートマッチングを行う。このため、物体ＤＢ３４に格納されたテンプレート画像の全てについてマッチング処理を行う必要がない。その結果、マッチング処理の計算量が低減するため、処理時間を低減させることができる。

また、マッチング処理において、画像の特徴量の削減を行っていないため、マッチング処理の精度の低下も防止できる。

さらに、本発明の構成によれば、マッチング処理における誤検出も防止できる。図９を用いて誤検出の防止効果について説明する。図９は、物体ＤＢ３４に格納されているテンプレート画像及び距離情報の一例である。テンプレート画像Ｔ１１、Ｔ１２は、壁掛け時計を検出物体とするテンプレート画像である。テンプレート画像Ｔ１１は、１００ｍｍの距離情報に関連付けられており、テンプレート画像Ｔ１２は、５００ｍｍの距離情報に関連付けられている。一方、テンプレート画像Ｔ２１、Ｔ２２は、置時計を検出物体とするテンプレート画像である。テンプレート画像Ｔ２１は、１００ｍｍの距離情報に関連付けられており、テンプレート画像Ｔ２２は、５００ｍｍの距離情報に関連付けられている。なお、説明の便宜のため、全てのテンプレート画像のサイズは同じサイズであるものとする。また、例えば、壁掛け時計の直径は４０ｃｍ、置時計の直径は５ｃｍであり、検出物体の実物の大きさが異なるものとする。

このとき、注目画素の被写体距離情報に関係なく、１か所のマッチング領域に対して、テンプレート画像Ｔ１１、Ｔ１２、Ｔ２１、Ｔ２２の全てを使用する場合を考える。この場合、テンプレート画像Ｔ１２とＴ２１は、検出物体の種類は異なるものの、テンプレート画像内における検出物体のサイズ（画素数）や形状が似ている。そのため、例えば、カメラ画像内に存在する壁掛け時計を置時計と誤検出してしまったり、置時計を壁掛け時計と誤検出してしまったりする。

これに対して、本発明の構成によれば、三次元画像から取得された被写体距離情報が例えば１２０ｍｍであるとすると、画像抽出部３２は、距離情報１００ｍｍに関連付けられたテンプレート画像Ｔ１１、Ｔ２１を抽出する。そして、画像処理部３３が、テンプレート画像Ｔ１１、Ｔ２１を用いてマッチング処理を行う。テンプレート画像Ｔ１１とＴ２１の画像内において、壁掛け時計が占める画素数と置時計が占める画素数とは大きく異なる。そのため、カメラ画像内に存在する壁掛け時計を置時計と誤検出したり、置時計を壁掛け時計と誤検出したりすることを防止できる。また、三次元画像から取得された被写体距離情報が例えば４８０ｍｍの場合、画像抽出部３２は、テンプレート画像内における時計のサイズ（画素数）が異なるテンプレート画像Ｔ１２、Ｔ２２を抽出する。このため、上記と同様に誤検出を防止することができる。

なお、上述の実施の形態においては、テンプレートマッチングにおいて、カメラ画像と三次元画像との双方を用いていたが、いずれか一方の画像のみを用いてマッチング処理を行ってもよい。ただし、それぞれの画像を用いたテンプレートマッチングは、異なる特徴を有する。カメラ画像を用いたマッチング処理においては、特徴的な模様（色彩情報）を有する物体の検出に適している。これに対して、三次元画像を用いたマッチング処理においては、色彩情報は考慮されないため、特徴的な形状を有する物体の検出に適している。したがって、カメラ画像及び三次元画像の双方を用いてテンプレートマッチングを行うことにより、それぞれの特徴を活かすことができるため、検出精度を向上させることができる。

また、物体ＤＢ３４においては、１つの検出物体について、１つの距離情報に複数のテンプレート画像（つまり、テンプレート画像群）が関連付けられていたが、これに限られるものではない。つまり、１つの距離情報に１枚のテンプレート画像が関連付けられていてもよい。

（変形例１）
本実施の形態にかかる変形例１について説明する。上記の実施の形態においては、テンプレートマッチングに用いられるテンプレート画像が輝度や色彩に関する情報を含む画像データであった。これに対して、変形例１においては、画像の特徴量（例えばエッジ特徴量）を比較することにより、テンプレートマッチングを行う。

例えば、画像処理部３３が、マッチング領域のエッジ特徴量を算出し、エッジ特徴量画像を生成する。エッジ特徴量画像の各画素には、輝度や色彩等ではなく、画素に含まれる線分の方向と強さに関する情報が含まれている。また、画像処理部３３は、物体ＤＢ３４から抽出されたテンプレート画像からエッジ特徴量画像を生成する。そして、画像処理部３３は、マッチング領域とテンプレート画像とのエッジ特徴量を比較することにより、スコア（一致度）を算出する。

（変形例２）
本実施の形態にかかる変形例２について説明する。上記の実施の形態においては、パターンマッチング手法として領域ベースマッチングを用いていた。これに対して、変形例２においては、パターンマッチングの手法として、特徴ベースマッチングを用いる。特徴ベースマッチングとは、画像からコーナーなどの特徴点を検出し、その周囲の局所領域に対して局所記述子や、輝度情報や色彩情報のヒストグラム等（特徴量）を定義し、特徴量の距離に基づいて画像間のマッチングを行う手法である。つまり、特徴ベースマッチングとは、画像（画素や領域）同士の比較ではなく、画像に含まれる特徴同士の比較である。

例えば、物体ＤＢ３４が、テンプレート画像の代わりに、当該テンプレート画像に関する情報を特徴量として記憶する。当該特徴量は、テンプレート画像と同様に、予め距離情報と対応付けて物体ＤＢ３４に格納されている。つまり、物体ＤＢ３４は、画像パターンとして、テンプレート画像の代わりに画像の特徴量を記憶する。

そして、画像処理部３３が、カメラ画像におけるマッチング領域の特徴量を算出する。画像処理部３３は、物体ＤＢ３４に記憶された特徴量の中から、注目画素の被写体距離情報に関連付けられた特徴量を抽出する。画像処理部３３は、算出した特徴量と抽出した特徴量とを比較することにより、マッチング処理を行う。

（変形例３）
本実施の形態にかかる変形例３について説明する。上記の実施の形態においては、画像処理部３３は、三次元画像から注目画素の被写体距離情報を取得する際に、注目画素（１画素）が有する被写体距離情報を取得していた。これに対して、変形例３においては、画像処理部３３は、注目画素となる画素と、注目画素の周囲の画素と、が有する複数の被写体距離情報の平均値を算出する。そして、画像抽出部３２は、物体ＤＢ３４に記憶された複数の距離情報から、算出した平均値付近の距離情報を検出し、検出した距離情報に関連付けられたテンプレート画像群を抽出する。

例えば、画像抽出部３２は、図１０に示すように、注目画素Ｐ１に対応する画素と当該画素に隣接する８つの画素が有する被写体距離情報の平均値を、注目画素Ｐ１の被写体距離情報とする。具体的には、注目画素Ｐ１に対応する画素が有する被写体距離情報は、５３０ｍｍであるが、９画素全ての被写体距離情報の平均値は、５４０ｍｍとなる。このため、画像抽出部３２は、物体ＤＢ３４に記憶された距離情報から、算出した平均値５４０ｍｍ付近の距離情報を検出し、当該距離情報に関連付けられたテンプレート画像群を抽出する。

このように、注目画素の周囲の画素の被写体距離情報の平均値を用いることにより、注目画素のノイズの影響を低減できる。なお、平均に用いる画素は注目画素に対応する画素に隣接する画素に限られず、さらに広い範囲の画素を用いてもよい。また、９画素の単純な平均値ではなく、注目画素の被写体距離情報を周囲の画素の被写体距離情報よりも重みづけした重みづけ平均値を用いてもよい。

（変形例４）
本実施の形態にかかる変形例４について説明する。上記の実施の形態においては、図８に示したように、画像抽出部３２は、物体ＤＢ３４に記憶された複数の距離情報のうち、注目画素の被写体距離情報の前後の距離情報を検出していた。これに対して、変形例４においては、画像抽出部３２は、注目画素の被写体距離情報に最も近い１つの距離情報を検出する。つまり、画像抽出部３２は、取得した被写体距離情報と最も差分の小さい距離情報を物体ＤＢ３４から検出する。

例えば、図１１に示した例においては、画像抽出部３２が取得した注目画素の被写体距離情報は５３０ｍｍである。このため、画像抽出部３２は、５３０ｍｍに最も近い（最も距離差が短い）距離情報である５００ｍｍを検出する。そして、画像抽出部３２は、検出した５００ｍｍの距離情報に関連付けられたテンプレート画像群のみを抽出する。したがって、上記の実施の形態に比べて、マッチング処理を行うテンプレート画像の枚数が少なくなる。その結果、さらにマッチング処理の計算量が低減するため、処理時間を低減させることができる。

（変形例５）
本実施の形態にかかる変形例５について説明する。上記の実施の形態においては、画像認識装置を含む画像処理システムとして説明を行ったが、これらのシステム全体をロボットに適用してもよい。

例えば、周囲環境から所定の検出物体を検出する必要があるロボットに対して、上記の画像処理システムを適用することができる。具体的には、ロボットは、カメラと、三次元センサと、画像認識装置と、を備える。なお、周囲環境に応じて移動するロボットは、通常、周囲環境の状況を把握するために、カメラと三次元センサとを備えているため、これらの装置を流用してもよい。

ロボットは、カメラを用いてカメラ画像を生成する。また、三次元センサを用いて三次元画像を生成する。そして、上述したように、画像認識装置は、三次元画像における注目画素の被写体距離情報を取得し、物体ＤＢからテンプレート画像を抽出し、抽出した画像を用いて、カメラ画像及び三次元画像に対してテンプレートマッチングを行う。

このとき、ロボットは、必ずしも三次元画像を生成しなくてもよい。例えば、ロボットは、単純な距離センサ等を用いて、注目画素に対応する被写体までの被写体距離を、注目画素が移動する度に個別に検出してもよい。これにより、三次元画像を生成することなく、注目画素における被写体距離を取得することができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。例えば、テンプレート画像は、予め被写体（検出物体）を撮影した画像だけでなく、仮想物体画像（ＣＡＤモデルや三次元構築された物体）を用いてもよい。テンプレート画像として仮想物体画像を用いる場合には、仮想物体画像を所定距離から撮影したと仮定し、仮想物体画像を距離情報に関連付けてテンプレート画像群を生成する。

１０カメラ
２０三次元センサ
３０画像認識装置
３１制御部
３２画像抽出部
３３画像処理部
３４物体ＤＢ
５１テンプレート画像
５１ａカメラ画像
５１ｂ三次元画像
５２テンプレート画像ペア
５３テンプレート画像群
９０検出物体

Claims

画像生成装置を用いて被写体を撮像することにより生成された撮像画像を取得し、
前記撮像画像内の注目画素における前記被写体から前記画像生成装置までの距離を示す被写体距離情報を取得し、
１つの検出物体を検出するために予め作成された複数の画像パターンであって、それぞれ異なる距離情報に関連付けられている画像パターンから、取得した前記被写体距離情報に対応する前記画像パターンを抽出し、
前記撮像画像に対して、抽出した前記画像パターンを用いてパターンマッチングを行う画像認識方法。
前記撮像画像は、各画素が前記被写体距離情報を有する三次元画像を含み、
前記画像パターンは、前記検出物体の前記三次元画像を含み、
前記注目画素における前記被写体距離情報を前記撮像画像としての前記三次元画像から取得し、
取得した前記被写体距離情報に対応する前記検出物体の前記三次元画像を抽出し、
前記撮像画像としての前記三次元画像に対して、抽出した前記検出物体の前記三次元画像を用いてパターンマッチングを行う請求項１に記載の画像認識方法。
前記撮像画像は、各画素が色彩情報を有する色画像をさらに含み、
前記画像パターンは、前記検出物体の前記色画像をさらに含み、
前記撮像画像としての前記三次元画像及び前記色画像に対して、前記検出物体の前記三次元画像及び前記色画像を用いてパターンマッチングを行う請求項２に記載の画像認識方法。
前記画像パターンは、前記検出物体を示すテンプレート画像を含み、
前記テンプレート画像のサイズは、当該テンプレート画像に関連付けられた前記距離情報に応じて異なり、
前記撮像画像内において前記テンプレート画像と比較される比較領域のサイズは、前記パターンマッチングに用いる前記テンプレート画像のサイズに応じて変化する請求項１〜３のいずれか一項に記載の画像認識方法。
前記注目画素が有する前記被写体距離情報と、前記注目画素の周囲の画素が有する前記被写体距離情報と、を取得し、
取得した複数の前記被写体距離情報の平均値を算出し、
予め作成された複数の前記画像パターンから、算出した前記平均値に対応する前記画像パターンを抽出する請求項１〜４のいずれか一項に記載の画像認識方法。
予め作成された複数の前記画像パターンのうち、取得した前記被写体距離情報との差分が最も小さい前記距離情報に関連付けられた前記画像パターンを抽出する請求項１〜５のいずれか一項に記載の画像認識方法。
前記画像生成装置と、
複数の前記画像パターンを、それぞれ異なる前記距離情報に関連付けて予め記憶するメモリと、
請求項１〜６のいずれか一項に記載の画像認識方法を実行する画像認識装置と、
を備えるロボット。