WO2022137509A1

WO2022137509A1 - 物体認識装置、物体認識方法、非一時的なコンピュータ可読媒体及び物体認識システム

Info

Publication number: WO2022137509A1
Application number: PCT/JP2020/048760
Authority: WO
Inventors: 卓宏大和田; 峰斗佐藤; 雅嗣小川
Original assignee: 日本電気株式会社
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-06-30
Also published as: JPWO2022137509A1; JP7456521B2

Abstract

対象物の位置姿勢を精度よく特定することが可能な物体認識装置（１）を提供する。物体認識装置（１）は、対象物までの距離情報を含む距離画像を変換して生成された３次元点群に基づいて、対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、対象物と類似する基準形状を特定する特定部（２）と、物体領域に含まれる３次元点群と、特定された基準形状とに基づいて、対象物の基準位置及び姿勢を推定する推定部（３）と、を備える。

Description

物体認識装置、物体認識方法、非一時的なコンピュータ可読媒体及び物体認識システム

　本開示は、物体認識装置、物体認識方法、非一時的なコンピュータ可読媒体及び物体認識システムに関する。

　近年、物流業界において、労働力不足を背景に、人が行っていた作業をロボットに自動化させる自動化システムが導入され始めている。自動化システムでは、画像処理技術を含む、様々な自動化技術が利用されている。自動化システムに含まれる装置として、例えば、ＲＧＢ(Red-Green-Blue)－Ｄ(Depth)カメラやレーザーレーダによって取得された測距点群を用いて対象物を特定する装置が知られている（例えば、特許文献１及び２）。

　特許文献１は、ピッキング装置が、複数のピッキング対象物全体の３次元点群情報を生成し、生成した３次元点群情報に基づいて、ピッキング対象物の位置姿勢を出力することを開示する。特許文献２は、３次元位置・姿勢認識装置が、深層学習された物体認識部を含み、物体認識部がイメージセンサにより得られた画像に対して物体認識を行い、物体種別と画像内における領域を特定することを開示する。

特開２０１９－１８１５７３号公報特開２０２０－１０１４３７号公報

　特許文献１に開示された技術は、１種類のピッキング対象物の位置姿勢を出力している。そのため、複数種類の対象物に対して位置姿勢を特定したい場合、特許文献１に開示された技術を用いても対象物の位置を特定できない可能性がある。特許文献２に開示された技術は、深層学習された物体識別部を用いて、対象物の物体種別と画像内における領域を特定する。しかしながら、対象物の種類が多数存在し、物体認識部が十分に学習されていない場合、対象物の領域を特定できない場合があり得る。

　本開示の目的の１つは、上記課題を解決するためになされたものであり、対象物の位置姿勢を精度よく特定することが可能な物体認識装置、物体認識方法、非一時的なコンピュータ可読媒体及び物体認識システムを提供することにある。

　本開示にかかる物体認識装置は、
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定する特定手段と、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する推定手段と、を備える。

　本開示にかかる物体認識方法は、
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、物体認識装置により実行される物体認識方法である。

　本開示にかかる非一時的なコンピュータ可読媒体は、
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、処理をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体である。

　本開示にかかる物体認識システムは、
　上記の物体認識装置と、
　移動対象の物体情報と、前記移動対象の物体情報が示す物体の移動先位置とを入力する入力装置と、
　前記物体を前記移動先位置に移動させるロボット装置と、を含み、
　前記物体認識装置は、
　前記物体情報に基づいて、前記対象物のうち、前記物体を選択する制御手段をさらに備える、物体認識システムである。

　本開示によれば、対象物の位置姿勢を精度よく特定することが可能な物体認識装置、物体認識方法、非一時的なコンピュータ可読媒体及び物体認識システムを提供できる。

第１の実施形態にかかる物体認識装置の構成例を示す図である。第２の実施形態にかかる３次元物体認識装置の構成例を示すブロック図である。第２の実施形態にかかる物体識別部の詳細構成例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。第３の実施形態にかかる３次元物体認識装置の構成例を示すブロック図である。第３の実施形態にかかる物体識別部の詳細構成例を示す図である。第３の実施形態にかかる３次元物体認識装置の動作例を示す図である。第４の実施形態にかかる３次元物体認識システムの構成例を示す図である。第４の実施形態にかかる３次元物体認識装置の動作例を示す図である。第５の実施形態にかかる３次元物体認識システムの構成例を示す図である。第５の実施形態にかかる３次元物体認識システムの動作例を示す図である。各実施形態にかかる物体認識等のハードウェア構成例を示す図である。

　以下、図面を参照して本開示の実施の形態について説明する。なお、以下の記載及び図面は、説明の明確化のため、適宜、省略及び簡略化がなされている。また、以下の各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

（第１の実施形態）
　図１を用いて、第１の実施形態にかかる物体認識装置１の構成例について説明する。図１は、第１の実施形態にかかる物体認識装置の構成例を示す図である。物体認識装置１は、特定部２と、推定部３とを備える。

　特定部２は、対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、対象物の表面の位置を示す３次元点群が含まれる物体領域を特定する。対象物は、撮像対象の物体であり、１つの物体でもよく、２つ以上の物体でもよい。距離画像は、撮像装置（不図示）から撮像対象である対象物までの距離情報を含み、撮像装置から対象物までの距離と、撮像装置の位置を基準とした対象物の位置とを示す画像である。距離画像は、複数の点を含み、複数の点の各々が、撮像装置の位置を基準とする対象物の位置と、撮像装置から対象物までの距離とを示す。距離画像に含まれる点を画素とすると、距離画像は、各画素が、撮像装置から撮像された撮像領域内の位置に対応し、撮像装置から当該位置までの距離を画素値とする画像である。３次元点群は、距離画像をカメラ座標系から世界座標系に変換して生成された位置を示す３次元座標の集合データである。カメラ座標系は、撮像装置の位置を原点とし、撮像装置が撮像する画像平面に２軸が設けられ、かつ当該画像平面に直交した方向を３軸目の軸とする３次元直交座標系である。世界座標系は、３次元空間における任意の位置を原点とする３次元直交座標系である。

　なお、３次元点群は、３次元点群データと称されてもよく、３Ｄ点群データと称されてもよく、点群データと称されてもよい。そのため、以降の説明において、３次元点群を、３次元点群データ、３Ｄ点群データ、点群データ、又は３次元点群情報として記載することがある。また、３次元点群に含まれる各点を、点データ又は点として記載する。

　特定部２は、特定された物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、対象物と類似する基準形状を特定する。基準形状は、例えば、直方体、円柱及び球等を含んでもよい。特徴情報は、基準形状を構成する表面の法線ベクトルに関連する法線ベクトル関連情報を含んでもよい。

　推定部３は、物体領域に含まれる３次元点群と、特定部２が特定した基準形状とに基づいて、対象物の基準位置及び姿勢を推定する。基準位置は、対象物の位置を特定可能な位置である。基準位置は、対象物の中心位置でもよく、対象物の位置のうち、撮像装置（不図示）に最も近い点の位置でもよく、撮像装置から最も遠い位置でもよく、撮像装置との距離の平均値又は中央値の位置でもよい。姿勢は、各対象物の基準状態からの変位を表す情報であり、ロール角、ピッチ角及びヨー角を用いて表されてもよい。基準状態は、例えば、対象物の表面上の所定位置が、水平面と平行な面に載置された状態でもよく、任意に設定可能な状態である。なお、以降の説明では、ロール角、ピッチ角及びヨー角を、それぞれ、単に、ロール、ピッチ及びヨーとして記載することがある。

　以上説明したように、物体認識装置１は、距離画像を取得し、距離画像が変換された３次元点群に基づいて、対象物の表面の位置を示す３次元点群が含まれる物体領域を特定できる。物体認識装置１は、特定した物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、対象物が類似する基準形状を特定し、特定された基準形状を用いて、対象物の基準位置及び姿勢を推定できる。

　ここで、上述した特許文献１では、１種類の対象物の位置姿勢を特定する。これに対して、物体認識装置１は、複数の基準形状の特徴情報を用いることで、対象物が複数種類であったとしても、対象物の基準位置及び姿勢を特定できる。つまり、物体認識装置１は、複数の基準形状の特徴情報を用いることで、複数種類の対象物が含まれていたとしても、対象物の位置姿勢を特定できる。また、物体認識装置１は、基準形状の特徴情報を用いるため、対象物に関する情報を必要とせずに、対象物が含まれる物体領域を特定でき、対象物の位置姿勢も推定できる。したがって、第１の実施形態にかかる物体認識装置１によれば、複数種類の対象物が含まれていたとしても、対象物の基準位置及び姿勢を特定でき、関連技術と比較して対象物の位置姿勢を精度よく特定することができる。

（第２の実施形態）
　続いて、第２の実施形態について説明する。第２の実施形態は、第１の実施形態を具体的にした実施形態である。
＜３次元物体認識装置の構成例＞
　図２を用いて、第２の実施形態にかかる３次元物体認識装置１００の構成例を説明する。図２は、第２の実施形態にかかる３次元物体認識装置の構成例を示すブロック図である。３次元物体認識装置１００は、例えば、作業台に載置された対象物を撮像し、撮像された画像に基づいて、対象物の基準位置及び姿勢を推定する装置である。３次元物体認識装置１００は、第１の実施形態にかかる物体認識装置１に対応する。

　３次元物体認識装置１００は、例えば、ロボットタスクに適用されてもよく、Ｐｉｃｋ＆Ｐｌａｃｅ装置に適用されてもよい。また、３次元物体認識装置１００は、例えば、自動運転を行う自動車、ドローン等の移動体であり、障害物を検知する移動体に搭載されてもよい。

　３次元物体認識装置１００は、センサ部１１０と、処理部２１０とを備える。
　センサ部１１０は、例えば、ステレオカメラ、ＴｏＦ（Time of Flight）カメラ、ミリ波レーダー、ＬｉＤＡＲ(Light Detection and Ranging Laser Imaging Detection and Ranging)等の撮像装置を含むように構成される。センサ部１１０は、例えば、作業台等の所定領域に対してレーザ光を照射する。作業台には、撮像対象の物体である、少なくとも１つの対象物が載置されている。センサ部１１０は、作業台に照射したレーザ光のうち、当該対象物にて反射されたレーザ光を受光し、各点が、センサ部１１０から対象物までの距離情報を含む距離画像を生成する。センサ部１１０は、生成した距離画像を処理部２１０に出力する。

　処理部２１０は、センサ部１１０が生成した距離画像に基づいて、撮像された対象物の表面の位置を示す３次元点群を含む物体領域を特定し、撮像された対象物の基準位置及び姿勢を推定する。基準位置は、対象物の位置を特定可能な位置である。基準位置は、対象物の中心位置でもよく、対象物の位置のうち、センサ部１１０に最も近い点の位置でもよく、センサ部１１０から最も遠い位置でもよく、センサ部１１０との距離の平均値又は中央値の位置でもよい。処理部２１０は、生成された３次元点群に基づいて、対象物の基準位置を、世界座標系の座標を用いて推定する。なお、以降の説明では、基準位置は、対象物の中心位置であることとして説明する。

　処理部２１０は、各対象物の基準状態からの変位を、ロール角、ピッチ角及びヨー角を用いて、各対象物の姿勢として導出する。基準状態は、例えば、対象物の表面上の所定位置が、水平面と平行な面に載置された状態でもよく、任意に設定可能な状態でもよい。
　処理部２１０は、点群取得部２０１と、セパレーション部２０２と、物体識別部２０３と、位置姿勢導出部２０４とを備える。

　点群取得部２０１は、センサ部１１０から出力された距離画像を入力する。点群取得部２０１は、距離画像をカメラ座標系から世界座標系に変換し、各点が３次元空間上の位置を示す３次元点群を生成する。３次元点群は、世界座標系である３次元直交座標を用いて示される点の集合を表すデータである。つまり、３次元点群は、距離画像に含まれる各点の３次元空間上の位置を示す３次元座標の集合を表すデータである。

　上述したように、３次元物体認識装置１００は、ロボットタスク等に適用され得る。そのため、対象物、及びセンサ部１１０等の位置関係が俯瞰的に明確になるように、点群取得部２０１は、距離画像を入力し、カメラ座標系から世界座標系に変換して、世界座標系での３次元点群を生成する。点群取得部２０１は、生成した３次元点群をセパレーション部２０２に出力する。なお、点群取得部２０１は、３次元点群を生成するため、３Ｄ（three-dimensional）点群取得部と称されてもよい。また、以降の説明において、世界座標系である３次元直交座標系の各軸は、Ｘ軸、Ｙ軸、及びＺ軸であることとして説明する。換言すると、世界座標系は、ＸＹＺ座標系であることとして説明する。

　セパレーション部２０２は、点群取得部２０１から出力された３次元点群を入力する。セパレーション部２０２は、ＸＹＺ座標系の３次元空間において、対象物を構成する点が独立するように、不要な３次元点群を除去する。セパレーション部２０２は、例えば、平面除去法、及び輪郭を抽出して特定領域以外の点群を除去する方法により、不要な３次元点群を除去する。セパレーション部２０２が平面除去法を用いる場合、セパレーション部２０２は、例えば、ＲＡＮＳＡＣ(Random Sample Consensus)等を用いて、３次元点群の座標（ｘ，ｙ，ｚ）が「aｘ＋ｂｙ＋ｃｚ＋ｄ≒０」の条件を満たす係数a、ｂ、ｃ及びｄを導出する。

　セパレーション部２０２は、上記の条件を満たすことを判定するための閾値θを設定し、｜aｘ＋ｂｙ＋ｃｚ＋ｄ｜＜θを満たす係数a、ｂ、ｃ及びｄを導出してもよい。なお、閾値θは、センサ部１１０に使用されるカメラの性能及び３次元物体認識装置１００が配置される環境に応じて設定することができる。そして、セパレーション部２０２は、導出した係数を用いてaｘ＋ｂｙ＋ｃｚ＋ｄ≒０の条件を満たす３次元点群を除去してもよい。もしくは、セパレーション部２０２は、上記条件を満たすことを判定するための２つの閾値である閾値ρ及び閾値εを設定し、ρ＜aｘ＋ｂｙ＋ｃｚ＋ｄ＜εを満たす３次元点群（ｘ，ｙ，ｚ）を除去してもよい。なお、閾値ρ及び閾値εは、センサ部１１０に使用されるカメラの性能及び３次元物体認識装置１００が配置される環境、並びに対象物を構成する３次元点群の数が最大となるように決定されてもよい。セパレーション部２０２は、不要な３次元点群が除去された後の３次元点群を物体識別部２０３に出力する。

　なお、３次元物体認識装置１００は、センサ部１１０と、点群取得部２０１と、セパレーション部２０２とを備える構成としているが、センサ部１１０、点群取得部２０１、及びセパレーション部２０２が外部に設けられてもよい。この場合、後述する物体識別部２０３が外部インタフェースを備え、物体識別部２０３が、不要な３次元点群が除去された後の３次元点群を、外部インタフェースを介して入力する構成としてもよい。

　物体識別部２０３は、第１の実施形態における特定部２に対応する。物体識別部２０３は、セパレーション部２０２から出力された３次元点群を入力する。物体識別部２０３は、入力した３次元点群に基づいて、センサ部１１０が撮像した対象物の表面の位置を示す３次元点群が含まれる物体領域を特定する。物体識別部２０３は、撮像された対象物が複数存在する場合、対象物の各々の表面の位置を示す３次元点群が含まれる物体領域の各々を特定する。

　また、物体識別部２０３は、物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、撮像された対象物の各々と類似する基準形状を特定する。物体識別部２０３は、撮像された対象物を、同様の形状を有する対象物が同一種類に属するように、形状の種類ごとに対象物を分類する。物体識別部２０３は、形状の種類毎に、分類された対象物の個数を特定する。

　基準形状は、例えば、直方体、円柱、球等のいわゆるプリミティブ形状を含む。特徴情報は、例えば、基準形状を構成する表面の法線ベクトルに関連する情報を示す法線ベクトル関連情報を含む。法線ベクトル関連情報は、基準形状を構成する表面の法線ベクトルの基準方向、及び当該法線ベクトルの基準ヒストグラム分布の少なくとも１つを含む情報である。基準方向は、基準形状を構成する表面の法線ベクトルの方向である。基準ヒストグラム分布は、基準形状を構成する表面の法線ベクトルのヒストグラム分布である。なお、特徴情報は、基準形状が有する表面を構成する各辺の長さ情報を含んでもよい。また、基準形状は、直方体、円柱、球以外の幾何学形状を含んでもよい。以降の説明において、基準形状を、プリミティブ形状として記載することがある。

　ここで、図３を用いて、物体識別部２０３の詳細な構成について説明する。図３は、第２の実施形態にかかる物体識別部の詳細構成例を示す図である。物体識別部２０３は、識別処理実施部２０５と、識別記録部２０６と、識別結果出力部２０７とを備える。

　識別処理実施部２０５は、セパレーション部２０２から、不要な３次元点群が除去された後の３次元点群を入力する。識別処理実施部２０５は、３次元点群間の距離に基づいて、入力された３次元点群から物体領域を特定する。具体的には、識別処理実施部２０５は、入力された３次元点群のうち、隣接する点との距離が所定値以内にある３次元点群を抽出し、抽出された３次元点群を物体領域として特定する。所定値は、１つの物体領域であると判定するための値であり、３次元物体認識装置１００を利用するユーザが設定した値でもよい。もしくは、所定値は、センサ部１１０の分解能（点群密度）から、点と点との距離を計算し、計算された距離でもよい。

　より具体的には、識別処理実施部２０５は、入力された３次元点群から起点となるアンカーポイントを選択し、当該アンカーポイントからの距離が所定値以内にある近傍点を探索する近傍探索を行う。識別処理実施部２０５は、見つかった近傍点を新たなアンカーポイントに設定して次の近傍探索を行う。識別処理実施部２０５は、近傍点が見つからなくなるまで近傍探索を繰り返し行い、物体領域を特定する。識別処理実施部２０５は、入力された３次元点群の全ての点に対して、隣接する点との距離が所定値以内にある点を抽出し、抽出された点の集合を物体領域として特定する。このように、識別処理実施部２０５は、入力した３次元点群の全ての点に対して、隣接する点との距離が所定値以内にある点を抽出することで、撮像された対象物が複数存在する場合でも、対象物の各々が存在する物体領域を特定でき、対象物の個数を特定できる。

　識別処理実施部２０５は、特定された物体領域に対して、物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、物体領域に含まれる対象物と類似する基準形状を特定する。特定された物体領域が複数存在する場合、識別処理実施部２０５は、特定された物体領域の各々に対して、物体領域に含まれる対象物と類似する基準形状を特定する。

　識別処理実施部２０５は、特定された物体領域の各々に対して、物体領域に含まれる３次元点群により構成される複数の平面を生成し、当該複数の平面の各々の法線ベクトルを生成する。具体的には、識別処理実施部２０５は、特定された物体領域の各々に対して、物体領域に含まれる点同士をつなげ、四角形又は三角形の平面を複数生成するメッシュ化処理を行う。識別処理実施部２０５は、メッシュ化処理により生成された複数の平面の各辺のベクトルを生成する。識別処理実施部２０５は、例えば、複数の平面の各辺に対するベクトルの外積を求めることで、物体領域の各々に含まれる３次元点群により構成される複数の平面の法線ベクトルを生成してもよい。

　識別処理実施部２０５は、生成された法線ベクトルと、基準形状の特徴情報に含まれる、法線ベクトル関連情報とに基づいて、各対象物と類似する基準形状を特定する。具体的には、識別処理実施部２０５は、各平面に対して生成した法線ベクトルの方向及びヒストグラム分布のうち少なくとも１つと、基準形状を構成する表面の法線ベクトルの方向及びヒストグラム分布のうち少なくとも１つとの類似度を算出する。識別処理実施部２０５は、算出した類似度に基づいて、物体領域に含まれる対象物と類似する基準形状を特定する。

　例えば、直方体であれば、直方体の表面から計算される法線ベクトルは、表面に対して垂直な成分を有するベクトルが多い。センサ部１１０の性能により距離画像にノイズや歪みが生じ、メッシュ化処理及び法線ベクトルを生成する際に誤差が生じる。そのため、理想的には直方体の表面から計算される法線ベクトルは全て表面に対して垂直となる。しかし、上記誤差により、計算された法線ベクトルは表面に対して垂直成分を有するベクトルが多くなる。また、例えば、円柱であれば、円柱の側面から計算される法線ベクトルは、全体的にあらゆる角度の成分を持ったベクトルが多い。そのため、識別処理実施部２０５は、生成した法線ベクトルの方向及びヒストグラム分布のうち少なくとも１つと、基準形状を構成する表面の法線ベクトルの基準方向及び基準ヒストグラム分布のうち少なくとも１つとの類似度を算出する。そして、識別処理実施部２０５は、算出した類似度を用いて、物体領域に含まれる対象物と類似する基準形状を特定する。

　識別処理実施部２０５は、物体領域に含まれる対象物と類似する基準形状を特定すると、特定した基準形状に基づいて、種類ＩＤ（Identifier）及び形状ＩＤを割り当てる。例えば、基準形状毎に、一意の形状ＩＤが割り当てられており、識別処理実施部２０５は、物体領域の各々に対して、特定した基準形状に対応する形状ＩＤを物体領域に含まれる対象物に割り当てる。本実施形態では、対象物の種類は、類似する基準形状に応じて決定される。そのため、識別処理実施部２０５は、形状ＩＤに対応する種類ＩＤを、各対象物に割り当てる。

　また、識別処理実施部２０５は、同一種類ＩＤが割り振られた対象物の各々に対して、各種類ＩＤ内で一意に識別可能な個別ＩＤをさらに割り当てる。３次元物体認識装置１００は、例えば、ロボットタスク及びＰｉｃｋ＆Ｐｌａｃｅ装置に適用され得る。ロボットタスク、及びＰｉｃｋ＆Ｐｌａｃｅ装置では、どの種類の物体を何個移動させるかを指定する可能性が高い。そのため、識別処理実施部２０５は、各対象物がどの種類に属するかを特定可能とするために種類ＩＤを付与するとともに、各種類の対象物の各々に対して個別ＩＤを付与する。

　識別処理実施部２０５は、種類ＩＤ及び個別ＩＤが割り当てられた各対象物に対して、形状ＩＤと、当該対象物が含まれる物体領域の３次元点群の座標とを対応付けて識別記録部２０６に記録する。なお、識別処理実施部２０５は、各対象物に対して、対象物と類似する基準形状の名称を、種類ＩＤ及び個別ＩＤにさらに対応付けて識別記録部２０６に記録してもよい。

　識別記録部２０６は、識別処理実施部２０５の制御に応じて、各対象物に関する情報を記憶する。識別記録部２０６は、種類ＩＤと、個別ＩＤと、形状ＩＤと、物体領域に含まれる３次元点群の座標とを対応付けて記憶する。なお、識別記録部２０６は、識別処理実施部２０５が、特定した基準形状の名称を識別記録部２０６に記録する場合、基準形状の名称を、種類ＩＤ及び個別ＩＤにさらに対応付けて記憶してもよい。

　識別結果出力部２０７は、識別記録部２０６に記録された、各対象物に関する情報である、種類ＩＤと、個別ＩＤと、形状ＩＤと、当該３つのＩＤに対応付けられた３次元点群の座標とを位置姿勢導出部２０４に出力する。

　図２に戻り、位置姿勢導出部２０４について説明する。
　位置姿勢導出部２０４は、第１の実施形態にかかる推定部３に対応する。位置姿勢導出部２０４は、物体領域に含まれる３次元点群と、当該物体領域に含まれる対象物と類似する基準形状とに基づいて、物体領域に含まれる対象物の中心位置及び姿勢を推定する。

　位置姿勢導出部２０４は、各物体領域に含まれる対象物に関する情報を入力する。位置姿勢導出部２０４は、種類ＩＤと、個別ＩＤと、形状ＩＤと、物体領域に含まれる３次元点群の座標とを入力する。

　位置姿勢導出部２０４は、種類ＩＤ及び個別ＩＤの組み合わせで特定される対象物の各々に対して、入力された物体領域の３次元点群の中心点を算出する。位置姿勢導出部２０４は、算出した中心点を、対象物の中心位置として推定する。位置姿勢導出部２０４は、中心位置を推定した対象物に対して、種類ＩＤ及び個別ＩＤに中心位置の座標を対応付けて識別記録部２０６に記録する。

　位置姿勢導出部２０４は、物体領域に含まれる対象物を、物体識別部２０３が特定した基準形状に近似し、近似された基準形状の軸を推定し、推定された軸と、物体識別部２０３が特定した基準形状の基準軸とに基づいて、対象物の姿勢を推定する。基準軸は、物体識別部２０３が特定した基準形状の仮想物体が、水平面に載置された場合の基準形状を構成する軸である。基準軸は、基準形状毎に予め定められている。基準形状が円柱の場合、基準軸は、中心軸(旋回軸)方向である。基準形状が直方体の場合、基準軸は、面積が最も大きい表面の法線方向である。位置姿勢導出部２０４は、推定された軸と、基準軸との角度差を算出し、算出された角度差に基づいて、ロール角、ピッチ角及びヨー角を求めることで対象物の姿勢を推定する。位置姿勢導出部２０４は、姿勢を推定した対象物に対して、種類ＩＤ及び個別ＩＤに姿勢を対応付けて識別記録部２０６に記録する。

　位置姿勢導出部２０４は、形状ＩＤに基づいて、対象物と類似するプリミティブ形状を特定する。位置姿勢導出部２０４は、特定したプリミティブ形状を表す式を用いて、入力された物体領域の３次元点群により構成される対象物をプリミティブ形状に近似する。位置姿勢導出部２０４は、近似したプリミティブ形状の軸と、プリミティブ形状の基準軸との角度の差から姿勢を算出する。

　例えば、特定された基準形状が直方体である場合、位置姿勢導出部２０４は、平面を表す式ａｘ＋ｂｙ＋ｃｚ＋ｄ＝０の係数を外れ値の影響をなるべく受けないように、入力した３次元点群からサンプリングする。特定された基準形状が直方体である場合、プリミティブ形状である直方体を表す式は上記式となる。位置姿勢導出部２０４は、特異値分解及び最小二乗法等により、上記式を満たし、対象物の平面に含まれる３次元点群を含む係数ａ、ｂ、ｃ及びｄの値を算出し、直方体のうち、最も面積が大きい平面を検出する。最も面積が大きい平面とは、センサ部１１０が撮像（観測）できる表面の面積が最も大きい平面である。

　位置姿勢導出部２０４は、検出した平面の法線ベクトルの方向から、検出した平面の縦及び横の長さを計算する。位置姿勢導出部２０４は、検出した平面に対して、入力された３次元点群の分布の広がりを表す分布度から、検出した平面の縦及び横の長さを計算する。位置姿勢導出部２０４は、検出した平面の縦及び横の長さと、入力された３次元点群の分布の広がりを表す分布度とに基づいて、検出した平面と隣り合い、かつ撮像された平面の各辺の長さを計算し、対象物を直方体に近似する。

　また、位置姿勢導出部２０４は、検出した平面に含まれる３次元点群の位置関係から、検出した平面が、直方体の上面であるのか、又は直方体の側面であるのかを決定する。直方体の上面は、直方体の平面のうち、例えば、対象物が載置された作業台の平面に最も近い面を底面としたときに、底面と平行な面である。直方体の側面は、上面と隣り合う面である。

　位置姿勢導出部２０４は、検出した平面が直方体の上面である場合、例えば、作業台の平面と、直方体の上面との距離から、直方体の奥行きの長さ（距離）を算出してもよい。奥行きは、検出した平面が直方体の上面である場合、直方体の側面の辺であり、かつ直方体の上面と直交する辺の長さである。作業台の平面は、セパレーション部２０２が除去した３次元点群から推定可能である。そのため、位置姿勢導出部２０４は、直方体の上面に含まれる３次元点群と、セパレーション部２０２が除去した３次元点群との距離に基づいて、直方体の奥行きを算出してもよい。

　位置姿勢導出部２０４は、検出した平面が直方体の側面である場合、検出した平面に含まれる点のうち、センサ部１１０から最も遠い位置の点と、検出した平面に含まれる点のうち、センサ部１１０から最も近い位置の点と、の距離を奥行きとしてもよい。位置姿勢導出部２０４は、検出した平面に含まれる点のうち、センサ部１１０から最も近い位置の点と、セパレーション部２０２が除去した３次元点群との距離に基づいて、直方体の上面の辺であり、かつ直方体の側面と直交する辺の長さを推定してもよい。

　位置姿勢導出部２０４は、近似した直方体の各平面に対して垂直な方向を、直方体の各軸として推定する。位置姿勢導出部２０４は、推定した直方体の各軸と、直方体の仮想物体が水平面に載置された場合の直方体の各軸との角度差を算出することで、対象物の姿勢を推定する。なお、位置姿勢導出部２０４は、入力された３次元点群に対して主成分分析を行うことで、直方体の各軸を推定し、各軸に対して、入力された、全ての３次元点群が含まれる直方体を生成することで対象物を直方体に近似してもよい。

　なお、上記説明は、説明を便宜的に行うために、プリミティブ形状は直方体であるとしたが、プリミティブ形状は、直方体を一般化した多面体でもよい。この場合、位置姿勢導出部２０４は、検出した平面の各辺の長さを基準に、隣接する平面の各辺の長さを推定することで対象物を多面体に近似可能である。位置姿勢導出部２０４は、近似した多面体の軸と、多面体の基準軸との角度の差から姿勢を算出可能である。

　例えば、特定された基準形状が円柱である場合、位置姿勢導出部２０４は、円柱の底面の中心を原点Ｏ’とする半径をｒの円を底面とし、中心軸をｚ’軸とし、円柱の底面における点を（ｘ’，ｙ’）とすると、円柱の側面は、

と表すことができる。円柱の底面の中心の座標を（ｘ０，ｙ０，ｚ０）とし、円柱の底面の円弧に存在する点（ｘｉ，ｙｉ，ｚｉ）（ｉ＝１～ｍ、ｍ：２以上の整数）としたとき、位置姿勢導出部２０４は、

を最も満たす中心及び半径をニュートン法等から推定する。特定された基準形状が円柱である場合、プリミティブ形状である円柱を表す式は上記式となる。位置姿勢導出部２０４は、底面の中心とは異なる、中心軸上の点と、当該点を基準に底面と平行な面の円弧に存在する点に対して、上記内容と同様のことを行い、底面の中心とは異なる、中心軸上の点の座標を推定する。そして、推定した底面の中心の座標及び中心軸上の点の座標から中心軸のベクトルを推定することにより、円柱の中心軸及び半径を推定してもよい。位置姿勢導出部２０４は、推定した中心軸のベクトル及び半径に基づいて、入力された３次元点群のうち、最も多く点が含まれる円柱を生成し、対象物を生成した円柱に近似する。位置姿勢導出部２０４は、中心軸のベクトルと、生成した円柱が水平面に載置された場合の中心軸との角度差を算出することで、対象物の姿勢を推定する。

　例えば、特定された基準形状が球である場合、位置姿勢導出部２０４は、球の中心の座標を（ｅ，ｆ，ｇ）とし、半径をｒとし、球に存在する点（ｘｉ，ｙｉ，ｚｉ）（ｉ＝１～ｍ、ｍ：２以上の整数）としたときに、

を最も満たす中心及び半径を推定する。位置姿勢導出部２０４は、ＲＡＮＳＡＣ等を用いて、上記の球の式を最も満たす中心と半径を推定する。特定された基準形状が球である場合、プリミティブ形状である球を表す式は上記式となる。位置姿勢導出部２０４は、例えば、予め球に対して基準となる姿勢情報を設定し、設定した基準となる姿勢情報をもとに、対象物の姿勢を推定してもよい。もしくは、位置姿勢導出部２０４は、法線ベクトルの平均値又は中央値に基づいて、法線ベクトルの方向を特定する。位置姿勢導出部２０４は、法線ベクトルの方向に基づいて、基準形状が球として特定された対象物の姿勢として推定してもよい。もしくは、物体識別部２０３が特定した基準形状に球以外の直方体、及び円柱のうち、少なくとも１つを含む場合、位置姿勢導出部２０４は、球以外の基準形状として特定された対象物の姿勢を、基準形状が球として特定された対象物の姿勢として推定してもよい。

　なお、位置姿勢導出部２０４は、物体領域に含まれる対象物を、プリミティブ形状に近似せずに、物体領域に含まれる３次元点群に対して主成分分析を行い、対象物を構成する軸を推定してもよい。物体領域に含まれる３次元点群は、多くの場合、対象物の形状に応じた軸方向に広がる傾向がある。そのため、位置姿勢導出部２０４は、入力された３次元点群に対して主成分分析を行うことで、対象物を構成する軸を推定してもよい。そして、位置姿勢導出部２０４は、推定した軸と、各対象物に対して特定された基準形状の基準軸との角度差に基づいて、対象物の姿勢を推定してもよい。また、位置姿勢導出部２０４は、入力された３次元点群に対して主成分分析を行う際に、各対象物に対して特定された基準形状の形状情報をさらに用いてもよい。位置姿勢導出部２０４は、主成分分析を行う際に、基準形状の形状情報を用いることで、推定する軸を特定し易くできる。

＜３次元物体認識装置の動作例＞
　次に、３次元物体認識装置１００の動作例について説明する。まず、図４を用いて、３次元物体認識装置１００の全体動作について説明する。図４は、第２の実施形態にかかる３次元物体認識装置の動作例を示す図である。

　センサ部１１０は、作業台等の所定領域を撮像し、各点が、センサ部１１０から対象物までの距離情報を含む距離画像を生成する（ステップＳ３０１）。
　点群取得部２０１は、距離画像をカメラ座標系から世界座標系に変換し、各点が３次元空間上の位置を示す３次元点群を生成する（ステップＳ３０２）。

　セパレーション部２０２は、例えば、平面除去法、及び輪郭を抽出して特定領域以外の点群を除去する方法により、３次元空間において、対象物を構成する点が独立するように、不要な３次元点群を除去する（ステップＳ３０３）。

　物体識別部２０３は、セパレーション部２０２から出力された３次元点群を入力し、入力した３次元点群に基づいて、対象物の各々が含まれる物体領域を特定する（ステップＳ３０４）。

　具体的には、識別処理実施部２０５は、セパレーション部２０２から３次元点群を入力する。識別処理実施部２０５は、入力された３次元点群の全ての点に対して、隣接する点との距離が所定値以内にある点を抽出し、抽出された点の集合を物体領域として特定する。なお、ステップＳ３０４の詳細動作については後述する。

　物体識別部２０３は、物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、物体領域に含まれる対象物と類似する基準形状を特定する（ステップＳ３０５）。なお、ステップＳ３０４において特定された物体領域が複数存在する場合、ステップＳ３０５～Ｓ３０７は、特定された各物体領域に対して繰り返し実施される。

　具体的には、識別処理実施部２０５は、特定された物体領域の各々に対して、物体領域に含まれる３次元点群により構成される複数の平面を生成し、当該複数の平面の各々の法線ベクトルを生成する。識別処理実施部２０５は、生成された法線ベクトルと、法線ベクトル関連情報とに基づいて、各対象物と類似する基準形状を特定する。識別処理実施部２０５は、各平面に対して生成した法線ベクトルの方向及び基準形状を構成する表面の法線ベクトルの基準方向に基づいて、物体領域に含まれる対象物と、各基準形状との類似度を算出する。さらに、識別処理実施部２０５は、各平面に対して生成した法線ベクトルのヒストグラム分布及び基準形状を構成する表面の基準ヒストグラム分布に基づいて、物体領域に含まれる対象物と、各基準形状との類似度を算出してもよい。識別処理実施部２０５は、算出した類似度に基づいて、物体領域に含まれる対象物と類似する基準形状を特定する。

　位置姿勢導出部２０４は、物体領域に含まれる３次元点群に基づいて、物体領域に含まれる対象物の中心位置を推定する（ステップＳ３０６）。
　具体的には、位置姿勢導出部２０４は、種類ＩＤと、個別ＩＤと、特定した基準形状を構成する３次元点群の座標とを入力する。位置姿勢導出部２０４は、種類ＩＤ及び個別ＩＤの組み合わせで特定される対象物の各々に対して、入力された物体領域の３次元点群の中心点を算出する。位置姿勢導出部２０４は、算出した中心点を、対象物の中心位置として推定する。

　位置姿勢導出部２０４は、物体領域に含まれる３次元点群と、当該物体領域に含まれる対象物と類似する基準形状とに基づいて、物体領域に含まれる対象物の姿勢を推定する（ステップＳ３０７）。
　具体的には、位置姿勢導出部２０４は、物体領域に含まれる対象物を、物体識別部２０３が特定した基準形状に近似し、近似された基準形状の軸を推定し、推定された軸と、物体識別部２０３が特定した基準形状の基準軸とに基づいて、対象物の姿勢を推定する。

　３次元物体認識装置１００は、ユーザが処理を終了するかを判定する（ステップＳ３０８）。
　ユーザから終了の命令がない場合（ステップＳ３０８のＮＯ）、３次元物体認識装置１００は、ステップＳ３０１以降の処理を再度実行する。
　一方、ユーザからの終了の命令を受け付けた場合（ステップＳ３０８のＹＥＳ）、３次元物体認識装置１００は、処理を終了する。

　次に、図５～図９を用いて、ステップＳ３０４で実施される詳細動作について説明する。図５～図９は、第２の実施形態にかかる３次元物体認識装置の動作例を示す図であり、ステップＳ３０４の詳細動作を説明するための図である。

　まず、図５に示すフローチャートを用いて、ステップＳ３０４で実施される詳細動作を説明する。図５に示すフローチャートは、物体識別部２０３に含まれる識別処理実施部２０５が実行する。
　識別処理実施部２０５は、セパレーション部２０２から３次元点群を入力する（ステップＳ４０１）。

　識別処理実施部２０５は、入力された３次元点群から近傍探索の起点となるアンカーポイントを決定する（ステップＳ４０２）。
　識別処理実施部２０５は、入力された３次元点群からランダムに選択された点をアンカーポイントに決定してもよい。もしくは、識別処理実施部２０５は、入力された３次元点群の中心点を最初のアンカーポイントに決定してもよい。もしくは、識別処理実施部２０５は、入力された３次元点群の分布から、３次元点群の密度が高い領域を抽出し、抽出された領域のうちから選択された１つの領域に含まれる３次元点群の中心をアンカーポイントに設定してもよい。抽出された領域に含まれる３次元点群は、対象物の表面のうち、撮像可能な（観測できる）対象物の表面であるため、抽出された３次元点群の中心点は、観測できる物体表面の中心と推測できる。そのため、識別処理実施部２０５は、抽出された３次元点群の中心点を、観測できる物体表面の中心と見なして、アンカーポイントとして決定してもよい。もしくは、識別処理実施部２０５は、入力された３次元点群の分布から、３次元点群の密度が高い領域を抽出し、抽出された領域のうちから選択された１つの領域の３次元点群の輪郭を推定してもよい。そして、識別処理実施部２０５は、推定された輪郭の中心点をアンカーポイントとしてもよい。

　識別処理実施部２０５は、入力された３次元点群のうち、抽出済みの点を除く３次元点群から、アンカーポイントとの距離が所定値以内である点を近傍点として抽出する（ステップＳ４０３）。
　識別処理実施部２０５は、ステップＳ４０３において、近傍点が抽出されたか否かを判定する（ステップＳ４０４）。

　近傍点が抽出された場合（ステップＳ４０４のＹＥＳ）、識別処理実施部２０５は、現在のアンカーポイントを抽出済みの点とし、抽出された近傍点を次のアンカーポイントとして決定する（ステップＳ４０５）。
　識別処理実施部２０５は、次のアンカーポイントを決定し、ステップＳ４０３を実行する。つまり、識別処理実施部２０５は、決定したアンカーポイントを基準として、当該アンカーポイントの近傍点を抽出する。

　一方、近傍点が抽出されなかった場合（ステップＳ４０４のＮＯ）、識別処理実施部２０５は、ステップＳ４０２及びＳ４０５において決定されたアンカーポイントの近傍点として抽出された点を物体領域として特定する（ステップＳ４０６）。
　識別処理実施部２０５は、ステップＳ４０２で決定されたアンカーポイントを起点として、近傍点が抽出されなくなるまでに近傍点として抽出された点、及びステップＳ４０２でアンカーポイントとして決定された点を１つの物体領域として特定する。識別処理実施部２０５は、ステップＳ４０６においてアンカーポイントになっている点を抽出済みの点に変更する。

　なお、ステップＳ４０２で決定したアンカーポイントは１つであるが、ステップＳ４０５で決定されたアンカーポイントが複数となることが想定される。アンカーポイントが複数ある場合、識別処理実施部２０５は、各アンカーポイントに対して、ステップＳ４０３～Ｓ４０５を実施する。識別処理実施部２０５は、各アンカーポイントに対してステップＳ４０４の判定がＮＯとなった場合、当該アンカーポイントについてはステップＳ４０５を実行しない。そして、識別処理実施部２０５は、全てのアンカーポイントに対して、近傍点が抽出されなくなった場合、ステップＳ４０６を実行する。

　識別処理実施部２０５は、入力された３次元点群に、抽出済みの点、アンカーポイントとしての点、及び近傍点のいずれにも分類されず、抽出処理が行われていない点である未抽出点があるかを判定する（ステップＳ４０７）。

　未抽出点がある場合（ステップＳ４０７のＹＥＳ）、識別処理実施部２０５は、ステップＳ４０２の動作を実施し、次の物体領域を特定するためのアンカーポイントを決定する。
　一方、未抽出点がない場合（ステップＳ４０７のＮＯ）、識別処理実施部２０５は、入力された３次元点群に対して処理を行ったため、処理を終了し、図４のステップＳ３０５を実行する。

　次に、図６～図８を用いて、図５で説明した各ステップにおける３次元点群の状態について説明する。前提として、図６～図８に示す丸印は、図５のステップＳ４０１において入力された３次元点群の各点を表したものである。

　図６は、ステップＳ４０２及びＳ４０３の動作を説明するための図である。ステップＳ４０２において、識別処理実施部２０５は、入力された３次元点群からアンカーポイントを決定する。識別処理実施部２０５が、図６の斜線でハッチングされた丸印をアンカーポイントとして決定したとする。

　ステップＳ４０３において、識別処理実施部２０５は、入力された３次元点群のうち、抽出済みの点を除く３次元点群から、アンカーポイントとの距離が所定値以内である点を近傍点として抽出する。図６の点線は、アンカーポイントを中心として、アンカーポイントからの距離が所定値の位置を表す円である。図６の縦線でハッチングした丸印は、識別処理実施部２０５が抽出した近傍点を表している。識別処理実施部２０５は、点線で示す円内にある点を近傍点として抽出する。

　次に、図７について説明する。図７は、図５のステップＳ４０４、Ｓ４０５及びＳ４０３を説明するための図である。ステップＳ４０４において、識別処理実施部２０５は、近傍点が抽出されたか否かを判定する。図６に示したように、識別処理実施部２０５は、近傍点を抽出している。そのため、ステップＳ４０５において、識別処理実施部２０５は、現在のアンカーポイントである図６のアンカーポイントを抽出済みの点とする。図７の細い点線の丸印（点線の小さな円）は、抽出済みの点を示しており、識別処理実施部２０５は、図６のアンカーポイントを抽出済みの点とする。そして、識別処理実施部２０５は、図６の近傍点を次の近傍点を探索するためのアンカーポイントに決定する。識別処理実施部２０５は、ステップＳ４０３の動作を実行し、ステップＳ４０５で決定したアンカーポイントの近傍点を抽出する。

　次に、図８について説明する。図８は、ステップＳ４０６及びＳ４０７を説明するための図である。識別処理実施部２０５は、ステップＳ４０３及びＳ４０５を近傍点が抽出されなくなるまで繰り返し実施する。図８に示すように、アンカーポイントからの距離が所定値以内に抽出済みの点しか存在せず、近傍点が抽出されない場合、識別処理実施部２０５は、図８の抽出済みの点、及び現在のアンカーポイントを含む領域に対象物が存在すると判断する。識別処理実施部２０５は、図８の抽出済みの点、及び現在のアンカーポイントを含む領域を物体領域として特定する。なお、図８では、未抽出点が存在していないが、仮に、未抽出点が太い点線の円の外にある場合、識別処理実施部２０５は、ステップＳ４０２に戻り、次の物体領域を探すためのアンカーポイントを決定する。

　次に、図９を用いて、ツリー表示を用いて、近傍探索によりアンカーポイントの近傍点を抽出する様子を説明する。なお、近傍探索は、図５の動作のうち、ステップＳ４０２～Ｓ４０５の動作を言う。図９のうち、数字が書かれた小さな円は、ノードを表しており、アンカーポイントを示している。各ノードに記載された数字は、近傍探索を行う回数を示しており、何回目の近傍探索におけるアンカーポイントであるかを表す数字である。各ノードから下に延びている枝（線）は、アンカーポイントから抽出された近傍点を示している。つまり、あるアンカーポイントから抽出された近傍点は、次の近傍探索においてアンカーポイントになることを表している。近傍点が抽出されなかったアンカーポイントには、当該アンカーポイントを示す円の下に×印を記載しており、アンカーポイントからの距離が所定値以内の位置に未抽出点が存在せず、このアンカーポイントに対する処理が終了したことを示している。

　図９に示すように、識別処理実施部２０５は、第ｋ（ｋは１以上の整数）回目の近傍探索を行うためのアンカーポイントの各々に対して、アンカーポイントから所定距離以内にある点を探索することで近傍点を抽出する。そして、識別処理実施部２０５は、抽出した近傍点を第（ｋ＋１）回目の近傍探索を行うためのアンカーポイントとし、第（ｋ＋１）回目の近傍探索を行い、近傍点を抽出する。識別処理実施部２０５は、アンカーポイントの各々に対して近傍探索を繰り返し行い、近傍点が探索されなくなるまで近傍点を抽出する。識別処理実施部２０５は、全てのアンカーポイントに対して近傍点が抽出されなくなった場合、第１回目から近傍点が抽出されなくなったときの全てのノードに対応する点を物体領域として特定する。

　なお、近傍探索の回数が多くなればなるほど、３次元物体認識装置１００の処理負荷が高くなる可能性がある。また、入力された３次元点群にノイズとして扱われる不要な点が含まれている場合、識別処理実施部２０５が特定する物体領域が想定外に大きな領域となってしまう可能性がある。そのため、識別処理実施部２０５は、近傍探索を行う回数、及び最初のアンカーポイントから、抽出された近傍点までの距離のうち、少なくとも１つに閾値を設けて閾値を超過した場合に近傍探索処理を終了させてもよい。

　以上説明したように、物体識別部２０３は、距離画像に基づく３次元点群の点と点との距離を用いて、空間上で独立した３次元点群を抽出でき、撮影された対象物の３次元点群のみを用いて、対象物の表面の位置を示す３次元点群が含まれる物体領域を特定できる。つまり、第２の実施形態にかかる３次元物体認識装置１００によれば、距離画像に基づく３次元点群を用いて、対象物の数を特定できる。

　また、物体識別部２０３は、プリミティブ形状である基準形状を用いて、物体領域に含まれる対象物と類似する基準形状を特定し、位置姿勢導出部２０４は、特定された基準形状を用いて、中心位置及び姿勢を特定する。物体識別部２０３及び位置姿勢導出部２０４は、プリミティブ形状である基準形状を用いているため、複数種類の対象物が含まれていたとしても、対象物と類似する基準形状に基づく種類に分類でき、全ての対象物の位置姿勢を推定できる。すなわち、第２の実施形態にかかる３次元物体認識装置１００によれば、複数種類の対象物が含まれていたとしても、対象物の位置姿勢を精度よく特定できる。

　さらに、３次元物体認識装置１００は、距離画像のみで、対象物の位置姿勢を特定できる。一般的に、ＲＧＢ画像等の色画像を用いる場合、照度の影響が強い環境では、画像に白飛びといったノイズが多く含まれてしまい、対象物の位置姿勢を推定する精度が、照度の影響が大きくなってしまう。これに対して、第２の実施形態にかかる３次元物体認識装置１００によれば、距離画像のみで対象物の中心位置及び姿勢を特定できるため、照明の変化にロバストであり、照度の影響を受けずに対象物の中心位置及び姿勢を推定できる。

（第３の実施形態）
　続いて、第３の実施形態について説明する。第２の実施形態では、３次元物体認識装置は、距離画像を用いて、撮像された対象物の中心位置及び姿勢を推定したが、第３の実施形態では、３次元物体認識装置は、距離画像に加えて、色画像であるＲＧＢ画像を用いて、対象物の中心位置及び姿勢を推定する。

＜３次元物体認識装置の構成例＞
　図１０を用いて、第３の実施形態にかかる３次元物体認識装置５００の構成例について説明する。図１０は、第３の実施形態にかかる３次元物体認識装置の構成例を示すブロック図である。３次元物体認識装置５００は、例えば、作業台に載置された対象物を撮像し、撮像された色画像及び距離画像に基づいて、撮像された対象物の中心位置及び姿勢を推定する装置である。なお、以降の説明では、色画像は、ＲＧＢ画像であることとして説明するが、ＨＳＶ（Hue、Saturation、Value of Brightness）画像等の他の色画像でもよい。

　３次元物体認識装置５００は、センサ部５１０と、処理部６１０とを備える。
　センサ部５１０は、距離画像及びＲＧＢ画像を撮像可能な撮像装置を含むように構成される。センサ部５１０は、例えば、作業台に載置された対象物を含む所定領域を撮像し、カメラ座標系の画像であるＲＧＢ画像及び距離画像を生成する。センサ部５１０は、生成したＲＧＢ画像及び距離画像を処理部６１０に出力する。なお、本実施形態においても、センサ部５１０が３次元物体認識装置５００の外部に設けられてもよい。

　処理部６１０は、センサ部５１０が生成したＲＧＢ画像及び距離画像を入力し、ＲＧＢ画像及び距離画像に基づいて、撮像された対象物の中心位置及び姿勢を推定する。処理部６１０は、点群取得部６０１と、セグメンテーション部６０２と、３次元統合部６０３と、セパレーション部６０４と、物体識別部６０５と、位置姿勢導出部６０６とを備える。

　なお、点群取得部６０１、セパレーション部６０４、及び位置姿勢導出部６０６は、それぞれ、第２の実施形態における点群取得部２０１、セパレーション部２０２、及び位置姿勢導出部２０４と基本的に同様である。また、物体識別部６０５は、第２の実施形態における物体識別部２０３に対応する。点群取得部６０１、セパレーション部６０４、物体識別部６０５、及び位置姿勢導出部６０６の構成について、第２の実施形態と同様である記載は適宜割愛しながら説明する。

　点群取得部６０１は、センサ部５１０から出力された距離画像を入力する。点群取得部６０１は、距離画像をカメラ座標系から世界座標系に変換し、各点が３次元空間上の位置を示す３次元点群を生成する。点群取得部６０１は、生成した３次元点群を３次元統合部６０３に出力する。つまり、点群取得部６０１は、距離画像に含まれる各点の３次元空間上の位置を示す３次元座標の集合を表すデータを３次元統合部６０３に出力する。

　セグメンテーション部６０２は、色画像であるＲＧＢ画像を入力し、ＲＧＢ画像に含まれる各画素の色情報に基づいて、ＲＧＢ画像をセグメンテーションする。セグメンテーション部６０２は、センサ部５１０から出力された、２次元画像であるＲＧＢ画像を入力する。セグメンテーション部６０２は、ＲＧＢ画像からＲＧＢ値（Ｒ値、Ｇ値及びＢ値）の分布及び画素の位置関係から、特徴的な色合いを有する領域をセグメンテーションする。セグメンテーション部６０２は、機械学習、輪郭抽出、スーパーピクセル、ｋ－ｍｅａｎｓ、ｘ－ｍｅａｎｓ等の方法を用いることでセグメンテ－ションを行う。

　具体的には、セグメンテーション部６０２は、ＲＧＢ画像の各画素のＲＧＢ値（Ｒ値、Ｇ値及びＢ値）に基づいて、Ｒ値を示す軸、Ｇ値を示す軸、及びＢ値を示す軸から構成される３次元座標系を用いて、ＲＧＢ値の分布を示すヒストグラムを生成する。セグメンテーション部６０２は、ＲＧＢ値のヒストグラムから、少なくとも１つの特徴的なＲＧＢ値の分布を特定する。例えば、ＲＧＢ画像中に赤色、黄色及び青色が特徴的な色である場合、セグメンテーション部６０２は、ＲＧＢの分布から特徴的なＲＧＢの色合いの集合を見つける。セグメンテーション部６０２は、少なくとも１つの特徴的なＲＧＢ値の各々のＲＧＢ値を特定する。

　セグメンテーション部６０２は、特徴的なＲＧＢ値（ＲＧＢの色合い）を特定すると、ＲＧＢ画像の各画素のＲＧＢ値と、特定したＲＧＢ値とを比較し、特定したＲＧＢ値と類似する画素を連結し、特定したＲＧＢ値を有する連結画素領域を算出する。セグメンテーション部６０２は、連結画素領域に含まれる各画素に、特定したＲＧＢ値を対応付ける。

　セグメンテーション部６０２は、連結画素領域に含まれる第１の画素に隣接する隣接画素のＲＧＢ値が、特定したＲＧＢ値と類似しない場合、連結画素領域に含まれる第１画素と異なる第２画素と、隣接画素との距離が所定値以内であるかを判断する。セグメンテーション部６０２は、上記距離が所定値以内である場合、隣接画素のＲＧＢ値を、第１画素及び第２画素に対応付けたＲＧＢ値に置換する。セグメンテーション部６０２は、隣接画素を第１画素及び第２画素に対応付けたＲＧＢ値に置換することで、例えば、ある対象物に複数の色が含まれていたとしても、複数の色のうち、特徴的な色を用いて対象物の物体領域が特定できるようにする。例えば、赤色の領域の中に、白色の点が含まれているとする。白色の画素が、赤色の連結画素領域と近接する画素である場合、セグメンテーション部６０２は、当該白色の画素を赤色に置換するために、隣接画素と、連結画素領域内の画素との距離を判断する。そして、距離が所定値以内である場合、セグメンテーション部６０２は、隣接画素のＲＧＢ値を、連結画素領域のＲＧＢ値と置換する。

　セグメンテーション部６０２は、入力されたＲＧＢ画像に対して、セグメンテーションされたＲＧＢ画像を３次元統合部６０３に出力する。換言すると、セグメンテーション部６０２は、セグメンテーションされた領域の各画素に、特徴的なＲＧＢ値が対応付けられたＲＧＢ画像を３次元統合部６０３に出力する。なお、センサ部５１０がＲＧＢ画像を取得できない場合等、ＲＧＢ画像を取得しなかった場合、セグメンテーション部６０２は、処理を行わない。

　３次元統合部６０３は、距離画像と、セグメンテーションされた領域の色情報とに基づいて、色情報が付加された３次元点群を生成する。具体的には、３次元統合部６０３は、３次元点群を点群取得部６０１から入力し、セグメンテーションされたＲＧＢ画像をセグメンテーション部６０２から入力する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標と、セグメンテーションされたＲＧＢ画像とを統合する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標に対応するＲＧＢ画像中の画素を特定し、３次元点群に含まれる各点の３次元座標に、特定した画素のＲＧＢ値をラベル付けし、ＲＧＢ－Ｄ（Depth）点群を生成する。ＲＧＢ－Ｄ点群は、３次元座標に、ＲＧＢ値がラベル付けされた情報である。このように、３次元統合部６０３は、生成された３次元点群の各々に、セグメンテーションされた領域の色情報が付加された３次元点群であるＲＧＢ－Ｄ点群を生成する。３次元統合部６０３は、生成したＲＧＢ－Ｄ点群をセパレーション部６０４に出力する。

　なお、センサ部５１０がＲＧＢ画像を取得しなかった場合、３次元統合部６０３は、点群取得部６０１から取得した３次元点群に対して、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値をラベル付けした、ＲＧＢ－Ｄ点群を生成してもよい。ＲＧＢ画像を取得しなかったことを表すＲＧＢ値は、例えば、３次元物体認識装置５００が既知である作業台の背景色に対応するＲＧＢ値であってもよく、Ｒ値、Ｇ値及びＢ値が全て２５５のＲＧＢ値でもよく、Ｒ値、Ｇ値及びＢ値が全て０のＲＧＢ値でもよい。

　セパレーション部６０４は、３次元統合部６０３からＲＧＢ－Ｄ点群を入力する。セパレーション部６０４は、第２の実施形態と異なり、ＲＧＢ値がラベル付けされた３次元点群であるが、第２の実施形態と同様にして、不要なＲＧＢ－Ｄ点群を除去する。セパレーション部６０４は、不要なＲＧＢ－Ｄ点群が除去された後のＲＧＢ－Ｄ点群を物体識別部６０５に出力する。

　物体識別部６０５は、ＲＧＢ－Ｄ点群をセパレーション部６０４から入力する。物体識別部６０５は、３次元統合部６０３が生成したＲＧＢ－Ｄ点群に付加された色情報であるＲＧＢ値と、ＲＧＢ－Ｄ点群間の距離とに基づいて、撮像された対象物が含まれる物体領域を特定する。また、物体識別部６０５は、第２の実施形態と同様にして、物体領域に含まれるＲＧＢ－Ｄ点群と、プリミティブ形状である基準形状の特徴情報とに基づいて、撮像された対象物の各々と類似する基準形状を特定する。

　ここで、図１１を用いて物体識別部６０５の詳細を説明する。図１１は、第３の実施形態にかかる物体識別部の詳細構成例を示す図である。図１１に示すように、物体識別部６０５は、色情報識別部６０７と、形状識別部６０８とを備える。

　色情報識別部６０７は、ＲＧＢ－Ｄ点群をセパレーション部６０４から入力し、入力されたＲＧＢ－Ｄ点群に含まれる各点の３次元座標にラベル付けされたＲＧＢ値に基づいて、ＲＧＢ値が同一の色領域を特定する。色情報識別部６０７は、識別処理実施部６１１と、識別記録部６１２と、識別結果出力部６１３とを備える。

　識別処理実施部６１１は、色情報を識別する実施部であるため、色情報識別処理実施部と称されてもよい。識別処理実施部６１１は、ＲＧＢ－Ｄ点群をセパレーション部６０４から入力する。識別処理実施部６１１は、ＲＧＢ－Ｄ点群に含まれる各点にラベル付けされたＲＧＢ値のうち、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値を除外する。識別処理実施部６１１は、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値が除外されたＲＧＢ－Ｄ点群のＲＧＢ値に基づいて色領域を特定する。

　例えば、ＲＧＢ－Ｄ点群にラベル付けされたＲＧＢ値に対応する色が赤色、緑色、及び青色であったとする。この場合、識別処理実施部６１１は、赤色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群、緑色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群、及び青色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群をそれぞれ色領域として特定する。

　識別処理実施部６１１は、同一のＲＧＢ値の色領域に対して、色ＩＤを割り当てる。識別処理実施部６１１は、色ＩＤと、ＲＧＢ値と、色ＩＤが割り当てられた色領域に含まれるＲＧＢ－Ｄ点群と、を対応付けて識別記録部６１２に記録する。

　識別記録部６１２は、識別処理実施部６１１の制御に応じて、色ＩＤと、ＲＧＢ値と、色ＩＤが割り当てられた色領域のＲＧＢ－Ｄ点群とを対応付けて記憶する。
　識別結果出力部６１３は、色ＩＤと、ＲＧＢ値と、色ＩＤが割り当てられた色領域のＲＧＢ－Ｄ点群とを形状識別部６０８に出力する。

　形状識別部６０８は、色情報識別部６０７が特定した色領域の各々に対して、当該色領域に含まれるＲＧＢ－Ｄ点群のＲＧＢ－Ｄ点群間の距離に基づいて、対象物の表面の位置を示すＲＧＢ－Ｄ点群を含む物体領域を特定する。なお、形状識別部６０８は、全てのＲＧＢ－Ｄ点群に対して色ＩＤが割り当てられていない場合、ＲＧＢ画像が取得されなかったと判断して、色情報を考慮せず、第２の実施形態における物体識別部２０３と同様の処理を行う。

　例えば、識別処理実施部６１１が、赤色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群、緑色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群、及び青色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群をそれぞれ色領域として特定したとする。この場合、形状識別部６０８は、赤色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群に含まれる対象物のそれぞれが含まれる物体領域を特定する。形状識別部６０８は、同様に、緑色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群に含まれる対象物のそれぞれが含まれる物体領域を特定し、青色のＲＧＢ値がラベル付けされたＲＧＢ－Ｄ点群に含まれる対象物のそれぞれが含まれる物体領域を特定する。

　形状識別部６０８は、特定した物体領域に含まれる対象物の各々に対して、基準形状の特徴情報を用いて、対象物と類似する基準形状を特定する。
　形状識別部６０８は、識別処理実施部６１４と、識別記録部６１５と、識別結果出力部６１６とを備える。識別処理実施部６１４、識別記録部６１５、及び識別結果出力部６１６は、それぞれ、第２の実施形態における、識別処理実施部２０５、識別記録部２０６及び識別結果出力部２０７に対応する。

　識別処理実施部６１４は、ＲＧＢ－Ｄ点群を用いて、物体領域を特定し、物体領域に含まれる対象物と類似する基準形状を特定する。識別処理実施部６１４は、基準形状を特定する実施部であるため、基準形状識別処理実施部と称されてもよい。識別処理実施部６１４は、識別結果出力部６１３から、色ＩＤ毎に、色ＩＤと、ＲＧＢ値と、色ＩＤが割り当てられた色領域のＲＧＢ－Ｄ点群とを入力する。識別処理実施部６１４は、色ＩＤ毎に、当該色ＩＤが割り当てられたＲＧＢ－Ｄ点群に含まれる３次元座標を用いて、ＲＧＢ－Ｄ点群間の距離に基づいて、物体領域を特定する。識別処理実施部６１４は、第２の実施形態と同様に、入力されたＲＧＢ－Ｄ点群のうち、隣接する点との距離が所定値以内にある点を抽出することで物体領域を特定する。なお、識別処理実施部６１４は、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値が除外されたＲＧＢ－Ｄ点群を識別結果出力部６１３から入力してもよい。そして、識別処理実施部６１４は、アンカーポイントを決定し、アンカーポイントと同一色ＩＤ又は同一ＲＧＢ値を有する近傍点を探索することで物体領域を特定してもよい。

　識別処理実施部６１４は、色ＩＤ毎に、物体領域を特定すると、各物体領域に含まれる対象物と類似する基準形状を特定する。識別処理実施部６１４は、第２の実施形態と同様に、生成された法線ベクトルと、基準形状の特徴情報に含まれる、法線ベクトル関連情報とに基づいて、各対象物と類似する基準形状を特定する。

　識別処理実施部６１４は、物体領域の各々に含まれる対象物に対して、基準形状を特定すると、特定された基準形状に対応する形状ＩＤを割り当てる。識別処理実施部６１４は、色ＩＤと、形状ＩＤとの組み合わせが一意になるように、色ＩＤと、形状ＩＤとの組み合わせ毎に、異なる種類ＩＤを割り当てる。識別処理実施部６１４は、種類ＩＤが同一の対象物の各々が一意になるように、個別ＩＤを割り当てる。識別処理実施部６１４は、物体領域に含まれる各対象物に対して、種類ＩＤと、個別ＩＤと、色ＩＤと、形状ＩＤと、ＲＧＢ値と、当該物体領域に含まれるＲＧＢ－Ｄ点群とを対応付けて識別記録部６１５に記録する。

　識別記録部６１５は、識別処理実施部６１４の制御に応じて、物体領域の各々に含まれる各対象物に対して、種類ＩＤと、個別ＩＤと、色ＩＤと、形状ＩＤと、ＲＧＢ値と、当該物体領域に含まれるＲＧＢ－Ｄ点群とを対応付けて記憶する。
　識別結果出力部６１６は、種類ＩＤと、個別ＩＤと、色ＩＤと、形状ＩＤと、ＲＧＢ値と、当該物体領域に含まれるＲＧＢ－Ｄ点群とを位置姿勢導出部６０６に出力する。

　図１０に戻り、位置姿勢導出部６０６について説明する。
　位置姿勢導出部６０６は、各物体領域に含まれる対象物に関する情報を入力する。位置姿勢導出部２０４は、種類ＩＤと、個別ＩＤと、色ＩＤと、形状ＩＤと、ＲＧＢ値と、当該物体領域に含まれるＲＧＢ－Ｄ点群とを入力する。

　位置姿勢導出部６０６は、種類ＩＤ及び個別ＩＤの組み合わせで特定される対象物の各々に対して、入力された物体領域の３次元点群の中心点を算出する。位置姿勢導出部６０６は、算出した中心点を、対象物の中心位置として推定する。位置姿勢導出部６０６は、中心位置を推定した対象物に対して、種類ＩＤ及び個別ＩＤに中心位置の座標を対応付けて識別記録部６１５に記録する。

　位置姿勢導出部６０６は、第２の実施形態と同様に、物体領域に含まれる対象物を、物体識別部６０５が特定した基準形状に近似し、近似された基準形状の軸を推定する。位置姿勢導出部６０６は、推定された軸と、物体識別部６０５が特定した基準形状の基準軸とに基づいて、対象物の姿勢を推定する。位置姿勢導出部６０６は、推定された軸と、基準軸との角度差を算出し、算出された角度差に基づいて、ロール角、ピッチ角及びヨー角を求めることで対象物の姿勢を推定する。位置姿勢導出部６０６は、姿勢を推定した対象物に対して、種類ＩＤ及び個別ＩＤに姿勢を対応付けて識別記録部６１５に記録する。

＜３次元物体認識装置の動作例＞
　次に、図１２を用いて、第３の実施形態にかかる３次元物体認識装置５００の動作例について説明する。図１２は、第３の実施形態にかかる３次元物体認識装置の動作例を示す図である。

　図１２は、図４で示した第２の実施形態にかかる３次元物体認識装置１００の動作例に対応するフローチャートである。図１２のうち、図４と同様の動作に対して、同一の参照符号を付与しており、図４の同様の動作については適宜説明を割愛する。また、図１２のうち、ステップＳ５０４及びＳ５０６は、それぞれ図４のステップＳ３０３及びＳ３０４が置き換わった動作である。そのため、ステップＳ５０４～Ｓ５０６について、図４と同様の動作についても適宜説明を割愛する。なお、センサ部５１０がＲＧＢ画像を取得しない場合、３次元物体認識装置５００は、第２の実施形態と基本的に同様の動作となる。そのため、センサ部５１０がＲＧＢ画像を取得しない場合の動作については説明を割愛する。

　センサ部５１０は、作業台等の所定領域を撮像し、各点が、センサ部５１０から対象物までの距離情報を含む距離画像を生成する（ステップＳ３０１）。
　センサ部５１０は、作業台等の所定領域を撮像し、ＲＧＢ画像を生成する（ステップＳ５０１）。なお、ステップＳ５０１は、ステップＳ３０１の後に実行されてもよく、ステップＳ３０１と並列に実行されてもよい。

　点群取得部６０１は、距離画像をカメラ座標系から世界座標系に変換し、各点が３次元空間上の位置を示す３次元点群を生成する（ステップＳ３０２）。
　セグメンテーション部６０２は、色画像であるＲＧＢ画像を入力し、ＲＧＢ画像に含まれる各画素の色情報に基づいて、ＲＧＢ画像をセグメンテーションする（ステップＳ５０２）。なお、ステップＳ５０２は、ステップＳ３０２の後に実行されてもよく、ステップＳ３０２と並列に実行されてもよい。

　３次元統合部６０３は、３次元点群に含まれる各点の３次元座標と、セグメンテーションされたＲＧＢ画像とを統合し、３次元点群に含まれる各点の３次元座標に、特定した画素のＲＧＢ値をラベル付けし、ＲＧＢ－Ｄ点群を生成する（ステップＳ５０３）。
　３次元統合部６０３は、３次元点群を点群取得部６０１から入力し、セグメンテーションされたＲＧＢ画像をセグメンテーション部６０２から入力する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標と、セグメンテーションされたＲＧＢ画像とを統合する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標に対応するＲＧＢ画像中の画素を特定し、３次元点群に含まれる各点の３次元座標に、特定した画素のＲＧＢ値をラベル付けし、ＲＧＢ－Ｄ点群を生成する。

　セパレーション部６０４は、３次元統合部６０３からＲＧＢ－Ｄ点群を入力し、ＲＧＢ値がラベル付けされた３次元点群であるが、第２の実施形態と同様にして、不要なＲＧＢ－Ｄ点群を除去する（ステップＳ５０４）。

　色情報識別部６０７は、セパレーション部６０４からＲＧＢ－Ｄ点群を入力し、入力されたＲＧＢ－Ｄ点群に含まれる各点の３次元座標にラベル付けされたＲＧＢ値に基づいて、ＲＧＢ値が同一の色領域を特定する（ステップＳ５０５）。

　形状識別部６０８は、色情報識別部６０７が特定した色領域の各々に対して、当該色領域に含まれるＲＧＢ－Ｄ点群のＲＧＢ－Ｄ点群間の距離に基づいて、対象物の表面の位置を示すＲＧＢ－Ｄ点群を含む物体領域を特定する（ステップＳ５０６）。
　識別処理実施部６１４は、識別結果出力部６１３から、色ＩＤ毎に、色ＩＤと、ＲＧＢ値と、色ＩＤが割り当てられた色領域のＲＧＢ－Ｄ点群とを入力する。識別処理実施部６１４は、色ＩＤ毎に、当該色ＩＤが割り当てられたＲＧＢ－Ｄ点群に含まれる３次元座標を用いて、ＲＧＢ－Ｄ点群間の距離に基づいて、物体領域を特定する。なお、識別処理実施部６１４は、第２の実施形態と異なり、ＲＧＢ－Ｄ点群を用いるが、物体領域の特定方法は第２の実施形態と同様である。

　形状識別部６０８は、特定した物体領域に含まれる対象物の各々に対して、基準形状の特徴情報を用いて、対象物と類似する基準形状を特定する（ステップＳ３０５）。
　識別処理実施部６１４は、色ＩＤ毎に、物体領域を特定すると、各物体領域に含まれる対象物と類似する基準形状を特定する。

　位置姿勢導出部６０６は、物体領域に含まれるＲＧＢ－Ｄ点群に基づいて、物体領域に含まれる対象物の中心位置を推定する（ステップＳ３０６）。
　位置姿勢導出部６０６は、物体領域に含まれるＲＧＢ－Ｄ点群と、当該物体領域に含まれる対象物と類似する基準形状とに基づいて、物体領域に含まれる対象物の姿勢を推定する（ステップＳ５０７）。

　３次元物体認識装置５００は、ユーザが処理を終了するかを判定する（ステップＳ３０８）。
　ユーザから終了の命令がない場合（ステップＳ３０８のＮＯ）、３次元物体認識装置５００は、ステップＳ３０１以降の処理を再度実行する。
　一方、ユーザからの終了の命令を受け付けた場合（ステップＳ３０８のＹＥＳ）、３次元物体認識装置５００は、処理を終了する。

　以上のように、３次元物体認識装置５００は、ＲＧＢ画像の色情報も用いて、対象物の表面の位置を示すＲＧＢ－Ｄ点群が含まれる物体領域を特定する。そのため、３次元物体認識装置５００は、第２の実施形態にかかる３次元物体認識装置１００よりも、精度良く物体領域を特定できる。したがって、第３の実施形態にかかる３次元物体認識装置５００によれば、第２の実施形態にかかる３次元物体認識装置１００よりも、撮像された対象物の中心位置及び姿勢を精度良く推定できる。

（第４の実施形態）
　続いて、第４の実施形態について説明する。第４の実施形態は、第２の実施形態又は第３の実施形態にかかる３次元物体認識装置を含む３次元物体認識システムについて説明する実施形態である。なお、本実施形態は、第３の実施形態を用いて説明されるが、第２の実施形態が適用されてもよい。

＜３次元物体認識システムの構成例＞
　図１３を用いて、第４の実施形態にかかる３次元物体認識システム１０００の構成例について説明する。図１３は、第４の実施形態にかかる３次元物体認識システムの構成例を示す図である。３次元物体認識システム１０００は、入力装置７００と、記録装置７５０と、３次元物体認識装置８００とを備える。

　入力装置７００は、例えば、パーソナルコンピュータ装置、サーバ装置等である。入力装置７００は、例えば、マウス、キーボード、ディスプレイ、タッチパネル等を備える入力装置である。入力装置７００は、ユーザが認識して欲しい、検出対象の色情報を示す検出対象色情報を入力するインタフェースを備える。入力装置７００は、ユーザが、検出対象色情報を入力し、入力された検出対象色情報を、３次元物体認識装置８００の処理部８１０及び記録装置７５０に出力する。

　入力装置７００は、ユーザが、Ｒ値、Ｇ値、及びＢ値を入力し、入力されたＲＧＢ値を検出対象色情報として入力してもよい。もしくは、入力装置７００は、ユーザが、ディスプレイに表示された色のうち、選択した色を入力し、選択された色に対応するＲＧＢ値を検出対象色情報として入力してもよい。

　記録装置７５０は、ユーザが入力した検出対象色情報を記録する装置である。記録装置７５０は、入力装置７００から得られた情報を入力する。また、記録装置７５０は、過去に入力された検出対象色情報も記録する。記録装置７５０は、ユーザが過去に登録していた検出対象色情報を記憶することで、ユーザが認識して欲しい色情報の入力を短縮することができる。記録装置７５０は、入力装置７００から入力された検出対象色情報と異なる検出対象色情報が記録されている場合、当該検出対象色情報を処理部８１０に出力してもよい。つまり、記録装置７５０は、ユーザが、入力装置７００に入力した検出対象色情報だけでなく、ユーザが、過去に登録した検出対象色情報も処理部８１０に入力されるように構成されてもよい。

　３次元物体認識装置８００は、第３の実施形態にかかる３次元物体認識装置５００に対応する。３次元物体認識装置８００は、センサ部５１０が生成した距離画像及びＲＧＢ画像に基づいて、撮像した対象物の中心位置及び姿勢を推定する。３次元物体認識装置８００は、入力装置７００及び記録装置７５０から、検出対象色情報を入力し、撮像した対象物のうち、入力された検出対象色情報を有する対象物の中心位置及び姿勢を推定する。

＜３次元物体認識装置の構成例＞
　次に、３次元物体認識装置８００の構成例について説明する。３次元物体認識装置８００は、第３の実施形態にかかる３次元物体認識装置５００と基本的に同様の構成をしている。３次元物体認識装置８００は、センサ部５１０と、処理部８１０とを備える。センサ部５１０は、第３の実施形態と同様であるため、説明を割愛する。

　処理部８１０は、点群取得部６０１と、セグメンテーション部８１１と、３次元統合部６０３と、セパレーション部６０４と、物体識別部６０５と、位置姿勢導出部６０６とを備える。処理部８１０は、第３の実施形態における処理部６１０と比較すると、第３の実施形態におけるセグメンテーション部６０２が、セグメンテーション部８１１に置き換わった構成である。点群取得部６０１、３次元統合部６０３、セパレーション部６０４、物体識別部６０５、及び位置姿勢導出部６０６は、基本的に第３の実施形態と同様であるため、第３の実施形態と重複する記載は適宜割愛する。

　セグメンテーション部８１１は、ＲＧＢ画像をセンサ部５１０から入力し、検出対象色情報を入力装置７００及び記録装置７５０から入力する。セグメンテーション部８１１は、第３の実施形態と同様に、色画像であるＲＧＢ画像を入力し、ＲＧＢ画像に含まれる各画素の色情報に基づいて、ＲＧＢ画像をセグメンテーションする。セグメンテーション部８１１は、セグメンテーションされた領域の各画素に、特徴的なＲＧＢ値が対応付けられたＲＧＢ画像を生成する。

　セグメンテーション部８１１は、セグメンテーションされた領域の各画素のＲＧＢ値と、検出対象色情報に含まれるＲＧＢ値とを比較し、セグメンテーションされた領域のうち、検出対象色情報を有する領域を抽出する。セグメンテーション部８１１は、抽出された領域以外のＲＧＢ値を、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値に置換する。換言すると、セグメンテーション部８１１は、検出対象色情報を有する領域のみが含まれるＲＧＢ画像を生成する。セグメンテーション部８１１は、検出対象色情報を有する領域のみが含まれるＲＧＢ画像を３次元統合部６０３に出力する。

　３次元統合部６０３は、３次元点群を点群取得部６０１から入力し、セグメンテーションされたＲＧＢ画像をセグメンテーション部８１１から入力する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標と、セグメンテーションされたＲＧＢ画像とを統合する。３次元統合部６０３は、３次元点群に含まれる各点の３次元座標に対応するＲＧＢ画像中の画素を特定し、３次元点群に含まれる各点の３次元座標に、特定した画素のＲＧＢ値をラベル付けし、ＲＧＢ－Ｄ点群を生成する。セグメンテーションされたＲＧＢ画像は、検出対象色情報が付加された領域のみが含まれる。そのため、３次元統合部６０３は、検出対象色情報が付加された３次元点群であるＲＧＢ－Ｄ点群を生成する。なお、３次元統合部６０３は、セグメンテーションされたＲＧＢ画像において、検出対象色情報が付加されていない領域のＲＧＢ値を、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値とするＲＧＢ－Ｄ点群を生成してもよい。３次元統合部６０３は、生成したＲＧＢ－Ｄ点群をセパレーション部６０４に出力する。

　物体識別部６０５は、ＲＧＢ－Ｄ点群をセパレーション部６０４から入力する。物体識別部６０５は、ＲＧＢ－Ｄ点群に含まれる各点にラベル付けされたＲＧＢ値に基づいて、色領域を特定する。なお、検出対象色情報が付加されていない領域のＲＧＢ値が、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値である場合、物体識別部６０５は、ＲＧＢ－Ｄ点群のうち、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値のＲＧＢ－Ｄ点群を除外する。物体識別部６０５は、ＲＧＢ画像を取得しなかったことを表すＲＧＢ値が除外された後のＲＧＢ－Ｄ点群のＲＧＢ値に基づいて色領域を特定する。

　物体識別部６０５は、３次元統合部６０３が生成したＲＧＢ－Ｄ点群に付加された色情報であるＲＧＢ値と、ＲＧＢ－Ｄ点群間の距離とに基づいて、撮像された対象物が含まれる物体領域を特定する。つまり、物体識別部６０５は、検出対象色情報を有するＲＧＢ－Ｄ点群から、ユーザが検出したい色情報を有し、かつ対象物の表面の位置を示すＲＧＢ－Ｄ点群を含む物体領域を特定する。また、物体識別部６０５は、物体領域に含まれるＲＧＢ－Ｄ点群と、プリミティブ形状である基準形状の特徴情報とに基づいて、撮像された対象物の各々と類似する基準形状を特定する。

　位置姿勢導出部６０６は、第３の実施形態と同様に、物体領域に含まれる３次元点群と、当該物体領域に含まれる対象物と類似する基準形状とに基づいて、物体領域に含まれる対象物の中心位置及び姿勢を推定する。物体識別部６０５は、検出対象色情報を有するＲＧＢ－Ｄ点群から、ユーザが検出したい色情報を有し、かつ対象物の表面の位置を示すＲＧＢ－Ｄ点群を含む物体領域を特定している。そのため、位置姿勢導出部６０６は、撮像された対象物のうち、検出対象色情報を有する対象物の中心位置及び姿勢を推定できる。

＜３次元物体認識装置の動作例＞
　図１４を用いて、第４の実施形態にかかる３次元物体認識装置８００の動作例について説明する。図１４は、第４の実施形態にかかる３次元物体認識装置の動作例を示す図である。

　図１４は、図１２で示した第３の実施形態にかかる３次元物体認識装置５００の動作例に対応するフローチャートである。図１４は、図１２のフローチャートにステップＳ６０１及びＳ６０２が追加されたフローチャートである。そのため、図１４のフローチャートについて、図１２と同様である動作については適宜説明を割愛する。

　センサ部５１０は、作業台等の所定領域を撮像し、各点が、センサ部５１０から対象物までの距離情報を含む距離画像を生成する（ステップＳ３０１）。
　センサ部５１０は、作業台等の所定領域を撮像し、ＲＧＢ画像を生成する（ステップＳ５０１）。なお、ステップＳ５０１は、ステップＳ３０１の後に実行されてもよく、ステップＳ３０１と並列に実行されてもよい。
　点群取得部６０１は、距離画像をカメラ座標系から世界座標系に変換し、各点が３次元空間上の位置を示す３次元点群を生成する（ステップＳ３０２）。

　セグメンテーション部８１１は、入力装置７００及び記録装置７５０から、検出対象色情報を入力する（ステップＳ６０１）。
　セグメンテーション部８１１は、色画像であるＲＧＢ画像を入力し、ＲＧＢ画像に含まれる各画素の色情報に基づいて、ＲＧＢ画像をセグメンテーションする（ステップＳ５０２）。なお、ステップＳ５０２は、ステップＳ３０２の後に実行されてもよく、ステップＳ３０２と並列に実行されてもよい。

　セグメンテーション部８１１は、セグメンテーションされた領域の各画素のＲＧＢ値と、検出対象色情報に含まれるＲＧＢ値とを比較し、セグメンテーションされた領域のうち、検出対象色情報を有する領域を抽出する（ステップＳ６０２）。

　３次元統合部６０３は、３次元点群に含まれる各点の３次元座標と、セグメンテーションされたＲＧＢ画像とを統合し、３次元点群に含まれる各点の３次元座標に、特定した画素のＲＧＢ値をラベル付けし、ＲＧＢ－Ｄ点群を生成する（ステップＳ５０３）。

　形状識別部６０８は、色情報識別部６０７が特定した色領域の各々に対して、当該色領域に含まれるＲＧＢ－Ｄ点群のＲＧＢ－Ｄ点群間の距離に基づいて、対象物の表面の位置を示すＲＧＢ－Ｄ点群を含む物体領域を特定する（ステップＳ５０６）。

　形状識別部６０８は、特定した物体領域に含まれる対象物の各々に対して、基準形状の特徴情報を用いて、対象物と類似する基準形状を特定する（ステップＳ３０５）。

　３次元物体認識装置８００は、ユーザが処理を終了するかを判定する（ステップＳ３０８）。
　ユーザから終了の命令がない場合（ステップＳ３０８のＮＯ）、３次元物体認識装置８００は、ステップＳ３０１以降の処理を再度実行する。
　一方、ユーザからの終了の命令を受け付けた場合（ステップＳ３０８のＹＥＳ）、３次元物体認識装置８００は、処理を終了する。

　以上のように、３次元物体認識装置８００は、入力装置７００及び記録装置７５０から検出対象色情報を入力し、検出対象色情報を有するＲＧＢ－Ｄ点群を抽出することで、検出対象色情報を有する対象物の中心位置及び姿勢を推定できる。したがって、第４の実施形態にかかる３次元物体認識装置８００によれば、ユーザが任意で検出したい対象物を選択できるため、対象物の中心位置及び姿勢を容易にかつ即時に推定できる。

（変形例）
　上述した実施形態では、３次元物体認識装置８００が、ユーザが入力した検出対象色情報を入力することで説明をしたが、３次元物体認識装置８００は、検出対象の画像領域をユーザが指定し、当該画像領域を用いて検出色情報を特定してもよい。

　この場合、セグメンテーション部８１１は、センサ部５１０からＲＧＢ画像を入力し、入力されたＲＧＢ画像に対してセグメンテーションを行う。セグメンテーション部８１１は、セグメンテーションされたＲＧＢ画像を入力装置７００に表示させる。入力装置７００は、ユーザが、セグメンテーションされたＲＧＢ画像における検出対象領域を指定し、指定した検出対象領域を入力する。入力装置７００は、セグメンテーション部８１１に検出対象領域を入力する。

　セグメンテーション部８１１は、セグメンテーションされたＲＧＢ画像における検出対象領域を特定する。セグメンテーション部８１１は、検出対象領域に含まれるＲＧＢ値のうち、画素数が最も多いＲＧＢ値を選択することで、検出対象色情報を特定する。セグメンテーション部８１１は、セグメンテーションされた領域のうち、検出対象色情報を有する領域を抽出する。第４の実施形態に対して、このような変形を施しても、第４の実施形態と同様の効果を得ることができる。

（第５の実施形態）
　続いて、第５の実施形態について説明する。第５の実施形態は、第２の実施形態～第４の実施形態のいずれかにかかる３次元物体認識装置を用いて、ロボット装置に、移動対象の対象物を移動させる物体認識システムについて説明する実施形態である。なお、本実施形態は、第３の実施形態を用いて説明されるが、第２の実施形態又は第４の実施形態が適用されてもよい。

＜３次元物体認識システムの構成例＞
　図１５を用いて、第５の実施形態にかかる３次元物体認識システム１１００の構成例について説明する。図１５は、第５の実施形態にかかる３次元物体認識システムの構成例を示す図である。３次元物体認識システム１１００は、３次元物体認識装置９００と、入力装置１２００と、ロボット装置１３００とを備える。

　３次元物体認識装置９００は、第３の実施形態にかかる３次元物体認識装置５００に対応する。３次元物体認識装置９００は、撮像された対象物の中心位置及び姿勢を含む対象物に関する対象物情報を入力装置１２００に送信する。対象物情報は、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、中心位置、及び姿勢を含む。

　３次元物体認識装置９００は、撮像された対象物のうち、移動対象の物体に関する物体情報と、移動対象の物体情報が示す物体の移動先位置とを入力装置１２００から受信する。移動対象の物体情報は、対象物が載置された作業台から移動先位置まで、ロボット装置１３００が移動させる物体に関する情報である。物体情報は、移動対象の物体に類似する基準形状に関する情報、及び移動対象の物体の色情報に関する情報のうち、少なくとも１つを含む。また、物体情報は、移動対象の物体の個数を含んでもよい。移動先位置は、移動対象の物体をロボット装置１３００により搬送（移動）させた後のトレイ等の格納場所の位置である。移動先位置は、当該格納場所の位置を示す世界座標系の座標で指定されてもよい。

　３次元物体認識装置９００は、入力された物体情報に基づいて、撮像された対象物のうち、物体情報が示す移動対象の物体を選択する。３次元物体認識装置９００は、選択された物体の中心位置及び姿勢と、移動先位置とを特定する。３次元物体認識装置９００は、選択された物体を作業台から移動先位置まで移動させる移動要求であって、特定した中心位置及び姿勢と、移動先位置とを含む移動要求をロボット装置１３００に送信する。

　入力装置１２００は、例えば、パーソナルコンピュータ装置、サーバ装置等である。入力装置１２００は、例えば、マウス、キーボード、ディスプレイ、タッチパネル等を備える入力装置である。入力装置１２００は、撮像された対象物の中心位置及び姿勢を含む対象物に関する対象物情報を３次元物体認識装置９００から受信する。入力装置１２００は、入力した対象物情報を、例えば、ディスプレイに表示する。入力装置１２００は、例えば、形状ＩＤに対応する基準形状、及びＲＧＢ値に対応する色を選択可能に表示する。

　入力装置１２００は、ユーザが選択した、基準形状及び色のうち、少なくとも１つに基づいて物体情報を生成する。入力装置１２００は、入力した基準形状に対応する形状ＩＤ、及び入力した色に対応する色ＩＤのうち、少なくとも１つを含む、移動対象の物体情報を生成する。入力装置１２００は、ユーザに、基準形状、及び色の各々に対して、移動対象の物体の個数を入力させ、入力された移動対象の物体の個数を物体情報に含めてもよい。また、入力装置１２００は、物体情報に、色ＩＤに加えてＲＧＢ値を含めてもよく、色ＩＤの代わりにＲＧＢ値を含めてもよい。

　なお、入力装置１２００は、対象物情報に基づいて、ユーザが、対象物の色情報と、対象物と類似する基準形状と、対象物の中心位置及び姿勢とを把握可能な概略図をディスプレイに表示してもよい。そして、ユーザが、当該概略図において、移動対象の物体を含む領域を指定し、入力装置１２００が、指定された領域に含まれる基準形状及び色に基づいて、物体情報を生成してもよい。また、入力装置１２００は、ユーザが過去に選択した基準形状及び色を記憶し、ユーザが過去に選択した基準形状及び色に基づいて、物体情報を生成してもよい。

　入力装置１２００は、ユーザから、移動対象の物体の移動先位置をユーザが入力した情報に基づいて取得する。入力装置１２００は、ユーザが入力した座標を移動先位置として取得する。入力装置１２００は、物体情報と、移動先位置とを３次元物体認識装置９００に送信する。

　ロボット装置１３００は、移動対象の物体を把持可能な把持部であるロボットハンドと、ロボットハンドを移動させることで、移動対象の物体を作業台から移動先位置まで移動させるロボットアームとを備える。ロボット装置１３００は、ロボット装置１３００の設置位置が、世界座標系で設定されておりロボット装置１３００は、世界座標系における位置（座標）を特定できるように構成される。ロボット装置１３００は、移動要求を３次元物体認識装置９００から受信する。ロボット装置１３００は、受信した移動要求にしたがって、移動対象の物体を把持し、把持した物体を移動先位置に移動させ、移動先位置に把持した物体を載置する。

＜３次元物体認識装置の構成例＞
　次に、３次元物体認識装置９００の構成例について説明する。３次元物体認識装置９００は、センサ部５１０と、処理部９１０とを備える。３次元物体認識装置９００は、第３の実施形態にかかる処理部６１０が、処理部９１０に置き換わった構成である。センサ部５１０は、第３の実施形態と同様であるため、説明を割愛する。

　処理部９１０は、点群取得部６０１と、セグメンテーション部６０２と、３次元統合部６０３と、セパレーション部６０４と、物体識別部６０５と、位置姿勢導出部６０６と、制御部９１１とを備える。処理部９１０は、第３の実施形態にかかる３次元物体認識装置５００に、制御部９１１が追加された構成である。なお、点群取得部６０１、セグメンテーション部６０２、３次元統合部６０３、セパレーション部６０４、物体識別部６０５及び位置姿勢導出部６０６の構成については、第３の実施形態と同様であるため説明を割愛する。

　制御部９１１は、識別記録部６１５に記録された対象物情報を取得し、入力装置１２００に送信する。識別記録部６１５には、各対象物に対して、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、当該物体領域に含まれるＲＧＢ－Ｄ点群、中心位置、及び姿勢が対応付けて記録されている。制御部９１１は、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、中心位置、及び姿勢を識別記録部６１５から取得する。制御部９１１は、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、中心位置、及び姿勢を含む対象物情報を入力装置１２００に送信する。

　制御部９１１は、センサ部５１０が撮像した対象物のうち、移動対象の物体情報と、移動対象の物体の移動先位置とを入力装置１２００から受信する。物体情報は、入力装置１２００において、ユーザに選択された基準形状に対応する形状ＩＤ、及びユーザに選択された色に対応する色ＩＤのうち、少なくとも１つを含む。また、物体情報は、形状ＩＤ基準形状、及び色情報の各々に対して、移動対象の物体の個数を含んでもよい。移動先位置は、移動対象の物体を格納する格納場所の位置を示す座標で指定されてもよい。

　制御部９１１は、入力された物体情報に基づいて、移動対象の物体を選択する。物体情報に形状ＩＤが含まれている場合、制御部９１１は、識別記録部６１５から、物体情報に含まれる形状ＩＤと同一の形状ＩＤが割り当てられた対象物の中心位置及び姿勢を取得する。換言すると、物体情報に、移動対象の物体と類似する基準形状が含まれている場合、制御部９１１は、対象物のうち、各対象物に類似すると特定された基準形状が、移動対象の物体に類似する基準形状である対象物を、移動対象の物体として選択する。

　また、物体情報に形状ＩＤに加えて移動対象の物体の個数が含まれている場合、制御部９１１は、物体情報に含まれる形状ＩＤが割り当てられた対象物を取得する。制御部９１１は、取得した対象物に割り当てられた個別ＩＤが小さい方から順に、物体情報に含まれる個数の対象物を、移動対象の物体として選択する。なお、物体情報に形状ＩＤに加えて移動対象の物体の個数が含まれている場合、物体情報に含まれる形状ＩＤが割り当てられた対象物からランダムに、物体情報に含まれる個数の対象物を選択してもよい。

　物体情報に色ＩＤが含まれている場合、制御部９１１は、識別記録部６１５から、物体情報に含まれる色ＩＤと同一の色ＩＤが割り当てられた対象物の中心位置及び姿勢を取得する。換言すると、物体情報に、移動対象の物体の色情報が含まれている場合、制御部９１１は、対象物のうち、各対象物の表面の位置を示すＲＧＢ－Ｄ点群に付加された色情報が、移動対象の物体の色情報と同一である対象物を、移動対象の物体として選択する。

　また、物体情報に色ＩＤに加えて移動対象の物体の個数が含まれている場合、制御部９１１は、物体情報に含まれる色ＩＤが割り当てられた対象物を取得する。制御部９１１は、取得した対象物に割り当てられた個別ＩＤが小さい方から順に、物体情報に含まれる個数の対象物を、移動対象の物体として選択する。なお、物体情報に色ＩＤに加えて移動対象の物体の個数が含まれている場合、制御部９１１は、物体情報に含まれる色ＩＤが割り当てられた対象物からランダムに、物体情報に含まれる個数の対象物を選択してもよい。

　制御部９１１は、移動対象の物体の中心位置及び姿勢と、移動先位置とを含む移動要求をロボット装置１３００に送信する。なお、制御部９１１は、基準形状毎に、基準形状の重心及びロボット装置１３００が把持するための把持ポイントを予め記憶してもよい。そして、制御部９１１は、移動対象の物体と類似する基準形状の重心又は把持ポイントを特定し、移動要求に、特定した重心又は把持ポイントをさらに含めてもよい。

＜３次元物体認識システムの動作例＞
　次に、図１６を用いて、第５の実施形態にかかる３次元物体認識システム１１００の動作例について説明する。図１６は、第５の実施形態にかかる３次元物体認識システムの動作例を示す図である。

　３次元物体認識装置９００は、位置姿勢推定動作を実行し、センサ部５１０で撮像した対象物の中心位置及び姿勢を推定する（ステップＳ９０１）。位置姿勢推定動作は、図１２を用いて説明したフローチャートのステップＳ３０１～Ｓ３０８、及びＳ５０１～Ｓ５０７を含む動作である。

　制御部９１１は、対象物情報を取得し（ステップＳ９０２）、対象物情報を入力装置１２００に送信する（ステップＳ９０３）。
　制御部９１１は、識別記録部６１５に記録された対象物情報を取得し、入力装置１２００に送信する。具体的には、制御部９１１は、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、中心位置、及び姿勢を識別記録部６１５から取得する。制御部９１１は、種類ＩＤ、個別ＩＤ、色ＩＤ、形状ＩＤ、ＲＧＢ値、中心位置、及び姿勢を含む対象物情報を入力装置１２００に送信する。入力装置１２００は、対象物情報を３次元物体認識装置９００から受信する。

　入力装置１２００は、対象物情報をディスプレイ等に表示し（ステップＳ９０４）、移動対象の物体に関する物体情報を生成する（ステップＳ９０５）。
　入力装置１２００は、例えば、形状ＩＤに対応する基準形状、及びＲＧＢ値に対応する色を選択可能にして、入力した対象物情報を表示する。入力装置１２００は、ユーザが選択した、基準形状及び色のうち、少なくとも１つに基づいて物体情報を生成する。入力装置１２００は、入力した基準形状に対応する形状ＩＤ、及び入力した色に対応する色ＩＤのうち、少なくとも１つを含む、移動対象の物体情報を生成する。入力装置１２００は、ユーザに、基準形状、及び色の各々に対して、移動対象の物体の個数を入力させ、入力された移動対象の物体の個数を物体情報に含めてもよい。

　入力装置１２００は、物体情報及び移動先位置を３次元物体認識装置９００に送信する（ステップＳ９０６）。
　入力装置１２００は、ユーザから、移動対象の物体の移動先位置をユーザが入力した情報に基づいて取得する。入力装置１２００は、物体情報と、移動先位置とを３次元物体認識装置９００に送信する。３次元物体認識装置９００は、物体情報と、移動先位置とを受信する。

　制御部９１１は、物体情報に基づいて、移動対象の物体を選択する（ステップＳ９０７）。
　制御部９１１は、入力された物体情報に基づいて、移動対象の物体を選択する。物体情報に形状ＩＤが含まれている場合、制御部９１１は、識別記録部６１５から、物体情報に含まれる形状ＩＤと同一の形状ＩＤが割り当てられた対象物の中心位置及び姿勢を取得する。物体情報に色ＩＤが含まれている場合、制御部９１１は、識別記録部６１５から、物体情報に含まれる色ＩＤと同一の色ＩＤが割り当てられた対象物の中心位置及び姿勢を取得する。また、物体情報に移動対象の物体の個数が含まれている場合、制御部９１１は、物体情報に含まれる形状ＩＤ及び色ＩＤが割り当てられた対象物をそれぞれ取得する。制御部９１１は、形状ＩＤ及び色ＩＤの各々に対して、取得した対象物に割り当てられた個別ＩＤが小さい方から順に、物体情報に含まれる個数の対象物を、移動対象の物体として選択する。

　制御部９１１は、移動要求をロボット装置１３００に送信する（ステップＳ９０８）。
　制御部９１１は、移動対象の物体の中心位置及び姿勢と、移動先位置とを含む移動要求をロボット装置１３００に送信する。ロボット装置１３００は、移動要求を受信する。

　ロボット装置１３００は、受信した移動要求にしたがって、移動対象の物体を把持し、把持した物体を移動先位置に移動させる（ステップＳ９０９）。

　以上のように、本実施形態では、３次元物体認識装置９００を用いた３次元物体認識システム１１００について説明した。３次元物体認識システム１１００に、３次元物体認識装置９００を用いることで、距離画像及びＲＧＢ画像に基づいて、撮像された対象物の中心位置及び姿勢を精度良く推定できる。すなわち、第５の実施形態にかかる３次元物体認識システム１１００によれば、複数種類の対象物が撮像された対象物に含まれていたとしても、対象物の中心位置及び姿勢を精度よく推定できる。したがって、第５の実施形態にかかる３次元物体認識システム１１００によれば、対象物の中心位置及び姿勢を精度良く推定でき、移動対象の物体を精度良く移動先の位置に移動させることができる。

（他の実施の形態）
　図１７は、上述した実施形態において説明した物体認識装置１、３次元物体認識装置１００、５００、８００、及び９００（以下、物体認識装置１等と称する）のハードウェア構成例を示すブロック図である。図１７を参照すると、物体認識装置１等は、ネットワーク・インターフェース１４０１、プロセッサ１４０２、及びメモリ１４０３を含む。ネットワーク・インターフェース１４０１は、入力装置、ロボット装置等、３次元物体認識システムに含まれる他の装置と通信するために使用される。

　プロセッサ１４０２は、メモリ１４０３からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された物体認識装置１等の処理を行う。プロセッサ１４０２は、例えば、マイクロプロセッサ、MPU（Micro Processing Unit）、又はCPU（Central Processing Unit）であってもよい。プロセッサ１４０２は、複数のプロセッサを含んでもよい。

　メモリ１４０３は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１４０３は、プロセッサ１４０２から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１４０２は、図示されていないI/O (Input/Output)インタフェースを介してメモリ１４０３にアクセスしてもよい。

　図１７の例では、メモリ１４０３は、ソフトウェアモジュール群を格納するために使用される。プロセッサ１４０２は、これらのソフトウェアモジュール群をメモリ１４０３から読み出して実行することで、上述の実施形態において説明された物体認識装置１等の処理を行うことができる。

　図１７を用いて説明したように、物体認識装置１等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１または複数のプログラムを実行する。

　上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。さらに、非一時的なコンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定する特定手段と、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する推定手段と、を備える物体認識装置。
　（付記２）
　前記特定手段は、３次元点群間の距離に基づいて、前記生成された３次元点群から前記物体領域を特定する、付記１に記載の物体認識装置。
　（付記３）
　前記特定手段は、前記生成された３次元点群のうち、隣接する点との距離が所定値以内にある３次元点群を抽出し、前記抽出された３次元点群を前記物体領域として特定する、付記２に記載の物体認識装置。
　（付記４）
　前記特徴情報は、前記基準形状を構成する表面の法線ベクトルに関連する法線ベクトル関連情報を含み、
　前記特定手段は、前記物体領域に含まれる３次元点群により構成される複数の平面の法線ベクトルと、前記法線ベクトル関連情報とに基づいて、前記対象物と類似する基準形状を特定する、付記１～３のいずれか１項に記載の物体認識装置。
　（付記５）
　前記法線ベクトル関連情報は、前記基準形状を構成する表面の法線ベクトルの基準方向、及び前記基準形状を構成する表面の法線ベクトルの基準ヒストグラム分布のうち、少なくとも１つを含み、
　前記特定手段は、前記複数の平面の法線ベクトルの方向及び前記基準方向、並びに前記複数の平面の法線ベクトルのヒストグラム分布前記基準ヒストグラム分布のうち、少なくとも１つに基づいて、前記対象物と類似する基準形状を特定する、付記４に記載の物体認識装置。
　（付記６）
　前記基準位置は、前記対象物の中心位置であり、
　前記推定手段は、前記物体領域に含まれる３次元点群の中心位置を、前記対象物の中心位置として推定する、付記１～５のいずれか１項に記載の物体認識装置。
　（付記７）
　前記推定手段は、前記対象物を、前記特定された基準形状に近似し、前記近似された基準形状の軸を推定し、前記推定された軸と、前記特定された基準形状の基準軸とに基づいて、前記姿勢を推定する、付記１～６のいずれか１項に記載の物体認識装置。
　（付記８）
　前記推定手段は、前記物体領域に含まれる３次元点群に対して主成分分析を行い、前記対象物を構成する軸を推定し、前記推定された軸と、前記特定された基準形状の基準軸とに基づいて、前記姿勢を推定する、付記１～６のいずれか１項に記載の物体認識装置。
　（付記９）
　色画像を入力し、前記色画像に含まれる各画素の色情報に基づいて、前記色画像をセグメンテーションするセグメンテーション手段と、
　前記距離画像と、前記セグメンテーションされた領域の色情報とに基づいて、色情報が付加された３次元点群を生成する統合手段と、をさらに備え、
　前記特定手段は、前記生成された３次元点群に付加された色情報をさらに用いて、前記物体領域を特定する、付記１～８のいずれか１項に記載の物体認識装置。
　（付記１０）
　前記セグメンテーション手段は、検出対象の色情報を示す検出対象色情報を入力し、前記セグメンテーションされた領域のうち、前記検出対象色情報を有する領域を抽出し、
　前記統合手段は、前記検出対象色情報が付加された３次元点群を生成する、付記９に記載の物体認識装置。
　（付記１１）
　前記セグメンテーション手段は、前記色画像のうち、検出対象領域を入力し、前記検出対象領域に基づいて、検出対象色情報を特定し、前記セグメンテーションされた領域のうち、前記検出対象色情報を有する領域を抽出し、
　前記統合手段は、前記検出対象色情報が付加された３次元点群を生成する、付記９に記載の物体認識装置。
　（付記１２）
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、物体認識装置により実行される物体認識方法。
　（付記１３）
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、処理をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
　（付記１４）
　付記１～８のいずれか１項に記載の物体認識装置と、
　移動対象の物体情報と、前記移動対象の物体情報が示す物体の移動先位置とを入力する入力装置と、
　前記物体を前記移動先位置に移動させるロボット装置と、を含み、
　前記物体認識装置は、
　前記物体情報に基づいて、前記対象物のうち、前記物体を選択する制御手段をさらに備える、物体認識システム。
　（付記１５）
　前記物体情報は、前記物体に類似する基準形状を含み、
　前記制御手段は、前記対象物のうち、前記特定された基準形状が、前記物体に類似する基準形状である対象物を前記物体として選択する、付記１４に記載の物体認識システム。
　（付記１６）
　前記物体情報は、前記物体の色情報を含み、
　前記物体認識装置は、
　色画像を入力し、前記色画像に含まれる各画素の色情報に基づいて、前記色画像をセグメンテーションするセグメンテーション手段と、
　前記距離画像と、前記セグメンテーションされた領域の色情報とに基づいて、色情報が付加された３次元点群を生成する統合手段と、をさらに備え、
　前記特定手段は、前記生成された３次元点群に付加された色情報をさらに用いて、前記物体領域を特定し、
　前記制御手段は、前記対象物のうち、前記対象物の表面の位置を示す３次元点群に付加された色情報が、前記物体の色情報と同一である対象物を、前記物体として選択する、付記１４又は１５に記載の物体認識システム。

　１　物体認識装置
　２　特定部
　３　推定部
　１００、５００、８００、９００　３次元物体認識装置
　１１０、５１０　センサ部
　２０１、６０１　点群取得部
　２０２、６０４　セパレーション部
　２０３、６０５　物体識別部
　２０４、６０６　位置姿勢導出部
　２０５、６１１、６１４　識別処理実施部
　２０６、６１２、６１５　識別記録部
　２０７、６１３、６１６　識別結果出力部
　２１０、６１０、８１０、９１０　処理部
　６０２、８１１　セグメンテーション部
　６０３　３次元統合部
　６０７　色情報識別部
　６０８　形状識別部
　７００、１２００　入力装置
　７５０　記録装置
　９１１　制御部
　１０００、１１００　３次元物体認識システム
　１３００　ロボット装置

Claims

　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定する特定手段と、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する推定手段と、を備える物体認識装置。
　前記特定手段は、３次元点群間の距離に基づいて、前記生成された３次元点群から前記物体領域を特定する、請求項１に記載の物体認識装置。
　前記特定手段は、前記生成された３次元点群のうち、隣接する点との距離が所定値以内にある３次元点群を抽出し、前記抽出された３次元点群を前記物体領域として特定する、請求項２に記載の物体認識装置。
　前記特徴情報は、前記基準形状を構成する表面の法線ベクトルに関連する法線ベクトル関連情報を含み、
　前記特定手段は、前記物体領域に含まれる３次元点群により構成される複数の平面の法線ベクトルと、前記法線ベクトル関連情報とに基づいて、前記対象物と類似する基準形状を特定する、請求項１～３のいずれか１項に記載の物体認識装置。
　前記法線ベクトル関連情報は、前記基準形状を構成する表面の法線ベクトルの基準方向、及び前記基準形状を構成する表面の法線ベクトルの基準ヒストグラム分布のうち、少なくとも１つを含み、
　前記特定手段は、前記複数の平面の法線ベクトルの方向及び前記基準方向、並びに前記複数の平面の法線ベクトルのヒストグラム分布及び前記基準ヒストグラム分布のうち、少なくとも１つに基づいて、前記対象物と類似する基準形状を特定する、請求項４に記載の物体認識装置。
　前記基準位置は、前記対象物の中心位置であり、
　前記推定手段は、前記物体領域に含まれる３次元点群の中心位置を、前記対象物の中心位置として推定する、請求項１～５のいずれか１項に記載の物体認識装置。
　前記推定手段は、前記対象物を、前記特定された基準形状に近似し、前記近似された基準形状の軸を推定し、前記推定された軸と、前記特定された基準形状の基準軸とに基づいて、前記姿勢を推定する、請求項１～６のいずれか１項に記載の物体認識装置。
　前記推定手段は、前記物体領域に含まれる３次元点群に対して主成分分析を行い、前記対象物を構成する軸を推定し、前記推定された軸と、前記特定された基準形状の基準軸とに基づいて、前記姿勢を推定する、請求項１～６のいずれか１項に記載の物体認識装置。
　色画像を入力し、前記色画像に含まれる各画素の色情報に基づいて、前記色画像をセグメンテーションするセグメンテーション手段と、
　前記距離画像と、前記セグメンテーションされた領域の色情報とに基づいて、色情報が付加された３次元点群を生成する統合手段と、をさらに備え、
　前記特定手段は、前記生成された３次元点群に付加された色情報をさらに用いて、前記物体領域を特定する、請求項１～８のいずれか１項に記載の物体認識装置。
　前記セグメンテーション手段は、検出対象の色情報を示す検出対象色情報を入力し、前記セグメンテーションされた領域のうち、前記検出対象色情報を有する領域を抽出し、
　前記統合手段は、前記検出対象色情報が付加された３次元点群を生成する、請求項９に記載の物体認識装置。
　前記セグメンテーション手段は、前記色画像のうち、検出対象領域を入力し、前記検出対象領域に基づいて、検出対象色情報を特定し、前記セグメンテーションされた領域のうち、前記検出対象色情報を有する領域を抽出し、
　前記統合手段は、前記検出対象色情報が付加された３次元点群を生成する、請求項９に記載の物体認識装置。
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、物体認識装置により実行される物体認識方法。
　対象物までの距離情報含む距離画像を変換して生成された３次元点群に基づいて、前記対象物の表面の位置を示す３次元点群が含まれる物体領域を特定し、
　前記物体領域に含まれる３次元点群と、基準形状の特徴情報とに基づいて、前記対象物と類似する基準形状を特定し、
　前記物体領域に含まれる３次元点群と、前記特定された基準形状とに基づいて、前記対象物の基準位置及び姿勢を推定する、処理をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
　請求項１～８のいずれか１項に記載の物体認識装置と、
　移動対象の物体情報と、前記移動対象の物体情報が示す物体の移動先位置とを入力する入力装置と、
　前記物体を前記移動先位置に移動させるロボット装置と、を含み、
　前記物体認識装置は、
　前記物体情報に基づいて、前記対象物のうち、前記物体を選択する制御手段をさらに備える、物体認識システム。
　前記物体情報は、前記物体に類似する基準形状を含み、
　前記制御手段は、前記対象物のうち、前記特定された基準形状が、前記物体に類似する基準形状である対象物を前記物体として選択する、請求項１４に記載の物体認識システム。
　前記物体情報は、前記物体の色情報を含み、
　前記物体認識装置は、
　色画像を入力し、前記色画像に含まれる各画素の色情報に基づいて、前記色画像をセグメンテーションするセグメンテーション手段と、
　前記距離画像と、前記セグメンテーションされた領域の色情報とに基づいて、色情報が付加された３次元点群を生成する統合手段と、をさらに備え、
　前記特定手段は、前記生成された３次元点群に付加された色情報をさらに用いて、前記物体領域を特定し、
　前記制御手段は、前記対象物のうち、前記対象物の表面の位置を示す３次元点群に付加された色情報が、前記物体の色情報と同一である対象物を、前記物体として選択する、請求項１４又は１５に記載の物体認識システム。