JP2018045608A

JP2018045608A - 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム

Info

Publication number: JP2018045608A
Application number: JP2016181937A
Authority: JP
Inventors: 正樹稲葉; Masaki Inaba; 鈴木　雅博; Masahiro Suzuki; 雅博鈴木; 小林　一彦; Kazuhiko Kobayashi; 一彦小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2018-03-22
Anticipated expiration: 2036-09-16
Also published as: JP6826407B2; US20180082106A1; US10372969B2

Abstract

【課題】透過する物体に覆われた他の物体の画像（学習データ）を取得する手間を低減する。
【解決手段】情報処理装置であって、透過性を持つ透過性物体を撮像した第１の画像と、対象物体を撮像した第２の画像とに基づいて、透過性物体に覆われた対象物体の見えを再現した再現画像を生成する画像生成部と、再現画像に基づいて、透過性物体に覆われた対象物体を認識するためのモデルを作成する作成部とを備える。
【選択図】図１

Description

本発明は、情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラムに関する。

従来、対象物体を撮像した画像やデプス画像から、特徴やパターンを学習し、対象物体を認識する手法が知られている。しかし、従来の手法では、事前に用意した画像と実際に認識したい画像との間に大きな差異がある場合、認識率が下がるという問題がある。たとえば、「他の物体に対象物体が一部隠ぺいされる」、「対象物体表面が鏡面反射してサチュレーションが起こる」などのような場合に、画像同士が大きく異なってしまう。

これに対して、特許文献１では、事前に用意した画像に適切なマスクを複数設けることにより、対象物体が隠ぺいされた状態を再現する方法を提案している。対象物体の隠ぺいが再現された複数の画像から特徴やパターンを学習することで、対象物体の隠ぺいに対して頑健な認識手法を実現している。

特許第４２９１７５７号公報

しかしながら、透過する包装材（透明なビニールやエアキャップなど）に包まれた物体（包装物体）、あるいは包装材に覆われた物体を対象物体とする場合、包装物体の見えのバリエーションは膨大である。これは、包装材は非剛体のものが多く形状が変化する、包装材表面で鏡面反射が起こりやすい、包装材の色によって対象物体の見えが変化するといった理由による。そのため、特許文献１のように、対象物体の一部の領域をマスキングするだけでは、依然として画像認識が難しいという課題がある。

また、対象物体の姿勢や包装材の形状を変化させて、様々なパターンの包装物体の見え（画像）を大量に撮像するという方法も考えられるが、そのような画像を撮像するには手間がかかるという課題がある。

本発明は、上記の課題に鑑みてなされたものであり、透過する物体に覆われた他の物体の画像（学習データ）を取得する手間を低減する技術を提供することを目的とする。

上記の目的を達成する本発明に係る情報処理装置は、
透過性を持つ透過性物体を撮像した第１の画像と、対象物体を撮像した第２の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成手段と、
前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成手段と、
を備えることを特徴とする。

本発明によれば、透過する物体に覆われた他の物体の画像（学習データ）を取得する手間を低減することができる。

第１の実施形態の情報処理装置の構成例を示すブロック図。第１の実施形態の情報処理装置による処理を説明するフローチャート。第１の実施形態の画像生成部の処理を説明する図。第２の実施形態の情報処理装置の構成例を示すブロック図。第２の実施形態の情報処理装置による処理を説明するフローチャート。第３の実施形態の情報処理装置の構成例を示すブロック図。第３の実施形態の情報処理装置による処理を説明するフローチャート。第３の実施形態の情報処理装置が示すＧＵＩを説明する図。第４の実施形態の情報処理装置の構成例を示すブロック図。第４の実施形態の情報処理装置による処理を説明するフローチャート。第５の実施形態の情報処理装置の構成例を示すブロック図。第５の実施形態の情報処理装置による処理を説明するフローチャート。

以下、図面を参照しながら実施形態を説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

（第１の実施形態）
第１の実施形態において説明する情報処理装置は、対象物体の画像と包装材の画像から包装物体の見え（外観）を再現する画像（以下、再現画像）を生成し、生成した再現画像から特徴やパターンをディープラーニングの一種であるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）によって学習することで、物体を認識する物体認識装置である。再現画像は実際の包装物体の見え（外観）に似ているため、認識に有効な特徴やパターンを学習することができる。また、画像処理によって様々なパターンの見えが生成できるため、画像を撮像する手間も低減される。その結果、包装材に包まれた物体の認識を低コストで実現することができる。

［装置の構成］
図１のブロック図により第１の実施形態の情報処理装置１１００を備える物体認識装置１０００の装置例を示す。物体認識装置１０００は、撮像装置１、認識部２、及び情報処理装置１１００を備える。

撮像装置１は、撮像対象のカラー（ＲＧＢ）画像を取得する装置である。撮像対象は、認識時は包装材に包まれた対象物体（包装物体）であり、学習時は包装材に包まれていない対象物体、および、対象物体を包んでいない包装材である。撮像した画像は、画像中の対象物体を認識するために認識部２に送られるか、認識に用いるＣＮＮモデルを学習するために情報処理装置１１００に送られる。認識部２は、撮像装置１から送られた画像を、情報処理装置１１００に記憶されているＣＮＮモデルに入力することで、画像中に対象物体が含まれているかどうかを認識する。

情報処理装置１１００は、画像生成部１０１、画像記憶部１０２、学習部１０３、およびモデル記憶部１０４を備える。画像生成部１０１は、対象物体の画像と包装材の画像とを撮像装置１から取得し、それらの画像から包装物体の再現画像を生成する。そして、生成した再現画像を画像記憶部１０２に記憶する。

画像記憶部１０２は、画像生成部１０１で生成された再現画像を記憶する。学習部１０３は、画像記憶部１０２に記憶されている再現画像を用いて、ＣＮＮモデルを作成して学習する。そして、学習したＣＮＮモデルをモデル記憶部１０４に記憶する。モデル記憶部１０４は、学習部１０３により作成されたたＣＮＮモデルの情報を記憶する。

［認識処理］
次に、図２（ａ）のフローチャートを参照して、第１の実施形態に係る物体認識装置１０００による認識処理の手順を説明する。

（ステップＳ１１）
ステップＳ１１では、物体認識装置１０００は、情報処理装置１１００にＣＮＮモデルが記憶してあるかどうかをチェックし、ＣＮＮモデルが学習済みかどうかを判定する。ＣＮＮモデルが学習済みの場合は、情報処理装置１１００からＣＮＮモデルを読み込み、ステップＳ１３に遷移する。ＣＮＮモデルが学習済みでない場合は、ステップＳ１２に遷移する。

（ステップＳ１２）
ステップＳ１２では、情報処理装置１１００が、ＣＮＮモデルの学習を行う。詳細は後述する。

（ステップＳ１３）
ステップＳ１３では、撮像装置１が、対象物体などが写された画像を撮像し、認識部２に当該画像を送る。

（ステップＳ１４）
ステップＳ１４では、認識部２が、撮像装置１から送られた画像を入力として、学習済みＣＮＮモデルの演算をすることで、画像中に対象物体が写っているかどうかを意味する２値を求める。そして、求められた２値にしたがって、画像中に対象物体が写っているかどうかを決定する。そして、認識結果を出力し、処理を終了する。

［学習処理］
続いて、図２（ｂ）のフローチャートを参照して、第１の実施形態に係る情報処理装置１１００による学習処理の手順を説明する。

（ステップＳ１２１）
ステップＳ１２１では、情報処理装置１１００が、撮像装置１により撮像された対象物体の画像を取得する。それに先立ち、撮像装置１が、包装材に包まれていない対象物体の画像を撮像する。この際、様々な方向から認識可能にするため、撮像装置１と対象物体との間の相対位置姿勢を様々に変化させ、姿勢数分の画像を取得する。たとえば、対象物体を中心とした球面上を等間隔にサンプリングした位置に、撮像装置１をロボットで移動させて撮像すればよい。撮像装置１は、撮像した画像を画像生成部１０１に送る。

（ステップＳ１２２）
ステップＳ１２２では、情報処理装置１１００が、撮像装置１により撮像された包装材の画像を取得する。それに先立ち、撮像装置１が、包装材の画像を撮像する。この際、様々な見えの包装材画像を取得するため、包装に実際用いるものと同じ包装材を広げて撮像する。包装材は、包装物体の包装に近い状態で広げるのが望ましい。つまり、包装材をきれいに伸ばして包装する場合は、撮像する包装材も伸ばして広げればよいし、包装材にしわが残るように包装する場合は、撮像する包装材もある程度しわが残るように広げればよい。また、撮像の際は背景の色の影響を減らすため、白い背景にするのが望ましい。たとえば、透明のビニール袋を広げて撮像すると、図３の４２のような画像が得られる。この画像の中には、透明のビニール袋の形状変化や周囲の光源環境によって表れる様々なテクスチャ（見え）が含まれている。撮像装置１は、撮像した画像を画像生成部１０１に送る。

（ステップＳ１２３）
ステップＳ１２３では、画像生成部１０１が、撮像装置１から送られた対象物体の画像と包装材の画像とに基づいて、包装物体の再現画像を生成する。様々な姿勢で撮像した対象物体の画像の各々に対して、包装材の画像から一部分を切り出した画像を重畳して再現画像とする。以下、図３を用いて再現画像を生成する過程を説明する。図３において、４１はある姿勢の対象物体の画像、４２は包装材の画像、４３は切り出し領域、４４は生成された再現画像をそれぞれ現している。

まず、包装材の画像４２から切り出し領域４３の位置をランダムに決定し、包装材の画像４２から一部分を切り出した画像Cを得る。切り出し領域４３の大きさは、対象物体が収まる程度の大きさにすればよい。そして、得られた画像Cを対象物体の画像Iに重畳する。再現画像をRで表すと、次のような式に基づいて再現画像を生成する。

ここで、x、および、yは画像中の画素位置、αは包装材の画像Cと対象物体の画像Iとのアルファブレンディングを行う際の係数、tはサチュレーション（正反射）しているかどうかを決める閾値を表している。すなわち、輝度値が閾値以上の画素については、当該画素の輝度値を再現画像の輝度値として、再現画像を生成する。包装材表面で光が正反射した場合は、対象物体が見えなくなるため、光が正反射しているかどうかで合成処理を分けている。このような画像合成を行うことで、包装材表面の正反射による対象物体の隠ぺいや包装材の色による対象物体の色変化が表現され、４４のような再現画像が生成される。切り出し領域４３の位置をランダムに変えつつ合成することで、包装物体の再現画像を複数パターン生成することができる。

一連の合成処理を、各姿勢の対象物体画像に対して行うことで、包装物体の再現画像を大量に生成することができる。画像生成部１０１は、生成した再現画像を画像記憶部１０２に送る。

（ステップＳ１２４）
ステップＳ１２４では、画像記憶部１０２が、画像生成部１０１で生成した再現画像をメモリ内に記憶する。

（ステップＳ１２５）
ステップＳ１２５では、学習部１０３が、画像記憶部１０２に記憶されている再現画像を用いてＣＮＮモデルを作成して学習する（モデルの作成）。本実施形態においては、ＣＮＮモデルのパラメタを求めることをモデルの作成または学習という。ＣＮＮモデルの設計は、たとえば、再現画像のＲＧＢ三次元の画像を入力として、コンボリューション層を３層、全結合層を２層とし、出力は対象物体かどうかの２クラスの判別をするモデルとして設計すればよい。

ＣＮＮモデルの学習は、再現画像をＴｒｕｅ、対象物体ではない画像をＦａｌｓｅとしてラベル付けしたものを学習データとして入力し、ディープラーニングで一般に用いられている誤差逆伝播法で最適化する。対象物体ではない画像は、たとえば、Ｗｅｂにアップロードされている画像を用いればよい。学習部１０３は、このようにして学習したＣＮＮモデルを、モデル記憶部１０４に送る。

（ステップＳ１２６）
ステップＳ１２６では、モデル記憶部１０４が、学習部１０３において学習したＣＮＮモデルの情報をメモリ内に記憶し、処理を終了する。

以上説明したように、本実施形態によれば、対象物体の画像と包装材の画像とから包装物体の再現画像を生成し、再現画像からＣＮＮモデルを学習することで、包装物体の画像を大量に撮像する手間をかけることなく、包装物体を認識することができる。

［第１の実施形態の変形例］
ステップＳ１２２において、包装材を広げて撮像することで見えのバリエーション（多様性）を取得したが、これに限る必要はない。包装材の形状を変化させつつ複数枚撮像してもよいし、周囲の光源環境を変化させつつ複数枚撮像してもよい。

ステップＳ１２３において、式１に基づいて再現画像を生成したが、合成方法はこれに限らない。たとえば、式２のように、積であらわしてもよいし、別途、対象物体や包装材を置く背景の画像Aを撮像し、式３のように、背景色を除算して正規化してもよい。また、包装材は、全体が透過性を持つ必要は無く、一部に不透過性を持つ領域があってもよい。不透過性を持つ領域は包装材の画像の輝度値C(x,y)を、再現画像の輝度値R(x,y)とすればよい。

さらに、反射率が決められた対象物体のＣＡＤデータがある場合は、実際の包装材（透過性を持つ透過性物体）の透過度、色から、包装材を再現した仮想的な面を対象物体の周りに設定し、ＣＧレンダリングすることで、再現画像を生成してもよい。この際、天頂カメラなどで取得した実際の光源環境から、それを再現した仮想的な光源環境を設定し、ＣＧレンダリングしてもよい。

（第２の実施形態）
第２の実施形態において説明する情報処理装置は、第１の実施形態と同様に、生成した再現画像から特徴やパターンをＣＮＮモデルによって学習することで、物体を認識する物体認識装置である。ただし、第２の実施形態では、撮像した包装材の画像内に、認識するために十分なバリエーション（多様性）があるかどうかを判定する画像判定部をさらに備える点で異なる。包装材の画像をどれほど取得すればよいかが分かるため、撮像の手間をさらに低減することができる。その結果、包装材に包まれた物体の認識を低コストで実現することができる。

［装置の構成］
図４のブロック図により第２の実施形態の情報処理装置２１００を備える物体認識装置２０００の装置例を示す。

物体認識装置２０００は、撮像装置１、認識部２、表示装置３、情報処理装置２１００を備える。なお、撮像装置１、認識部２は、第１の実施形態と略同様であるため、説明を省略する。表示装置３は、情報処理装置２１００から送られてきた文章等の情報を表示する。

情報処理装置２１００は、画像生成部２０１、画像記憶部２０２、学習部２０３、モデル記憶部２０４、及び画像判定部２０５を備える。なお、画像生成部２０１、画像記憶部２０２、学習部２０３、モデル記憶部２０４は、第１の実施形態の画像生成部１０１、画像記憶部１０２、学習部１０３、モデル記憶部１０４と略同様であるため、説明を省略する。

画像判定部２０５は、撮像装置１で撮像した対象物体の画像と包装材の画像とを受け取り、包装材の画像内に認識するために十分なバリエーション（多様性）をあるかどうかを判定する。ある場合は画像を画像生成部２０１に送り、ない場合は追加の包装材を撮像する必要があることを示す情報を表示装置３に表示させる。

［認識処理］
第２の実施形態の物体認識装置２０００による認識処理は、第１の実施形態の認識処理（図２（ａ））と略同様であるため、説明を省略する。

続いて、図５のフローチャートを参照して、第２の実施形態の情報処理装置２１００による学習処理の手順を説明する。なお、ステップＳ２２１、ステップＳ２２５、ステップＳ２２６、ステップＳ２２７は、それぞれ第１の実施形態のステップＳ１２１、ステップＳ１２４、ステップＳ１２５、ステップＳ１２６と略同様であるため、説明を省略する。

（ステップＳ２２２）
ステップＳ２２２では、情報処理装置１１００が、撮像装置１により撮像された包装材の画像を取得する。それに先立ち、第１の実施形態のステップＳ１２２と同様に、撮像装置１が、包装材の画像を撮像し、撮像した画像を画像判定部２０５に送る。また、画像判定部２０５から追加撮像の要求が来るたびに、包装材の画像を再度撮像し、撮像した画像を画像判定部２０５に送る。この際、包装材の形状を変えずに追加撮像をしてもバリエーションは増えないため、包装材を広げなおした上で再度撮像する。

（ステップＳ２２３）
ステップＳ２２３では、画像判定部２０５が、撮像装置１から送られた包装材の画像から、包装材の画像内に十分なバリエーションがあるかどうかを判定する。

撮像装置１から新たに包装材の画像が送られた場合、過去に送られた包装材の画像も含め、ある位置の切り出し領域４３の画像と似たような画像が、他の位置の切り出し領域にもあるかどうかを確認する。たとえば、切り出し領域同士の輝度差の絶対値和（ＳＡＤ：ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ）を求めて、ある閾値以内であれば、その切り出し領域同士は似ているとすればよい。似ている切り出し領域の組み合わせがない場合、その切り出し領域は孤立した見えのパターンであるため、その切り出し領域に似たバリエーションがまだまだあると考えられる。したがって、表示装置３に包装材の追加撮像が必要であることを示す情報を表示する表示制御を行い、ユーザに伝えるとともに、撮像装置１に追加撮像を要求する。

逆に、孤立した見えのパターンがない場合は、あり得る見えのパターンを満遍なく取得できていると考えられる。したがって、表示装置３に認識するために十分なバリエーションの画像が得られていることを示す情報を表示して、ユーザに伝える。このようにすることで、ユーザは画像の過不足を容易に判定できる。また、これまで取得した対象物体の画像と包装材の画像を、画像生成部２０１に送る。

（ステップＳ２２４）
ステップＳ２２４では、画像生成部２０１が、画像判定部２０５から送られた対象物体の画像と包装材の画像とに基づいて、包装物体の再現画像を生成する。基本的には、第１の実施形態のステップＳ１２３と同様に再現画像を生成するが、包装材の画像は複数あるため、複数の包装材の画像の中から切り出し領域４３の位置をランダムに選択する点が異なる。生成した再現画像を、画像記憶部１０２に送る。

以上説明したように、本実施形態によれば、包装材の画像内に、認識するために十分なバリエーションがあるかどうかを判定し、ユーザにフィードバックすることで、包装材の画像を撮像する手間をさらに低減しつつ、包装物体を認識することができる。

［第２の実施形態の変形例］
ステップＳ２２３において、切り出し領域が似ているかどうかを判定するための指標としてＳＡＤを用いたが、これに限る必要はない。ＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｆｆｅｒｅｎｃｅ）、ＮＣＣ（ＮｏｒｍａｌｉｚｅｓＣｒｏｓs−Ｃｏｒｒｅｌａｔｉｏｎ）、ＺＮＣＣ（Ｚｅｒｏ−ｍｅａｎＮｏｒｍａｌｉｚｅｄＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ）など類似度を表せる指標であればどのようなものを用いてもよい。

また、第２の実施形態では、画像判定部２０５を設けて、認識するために十分なバリエーションの画像が得られたどうかを判定していたが、これに限る必要はない。別途、包装物体の画像を複数枚撮像してテストデータを用意し、テストデータの認識率によって追加撮像するかどうかを決定してもよい。まず、すでに撮像した対象物体の画像と包装材の画像から再現画像を生成し、ＣＮＮモデルを学習する。そして、学習したＣＮＮモデルを用いて、テストデータの認識を行い、認識の成功率を求める。認識率をユーザに示すことで追加撮像をするかどうかをユーザが決定してもよいし、所定の認識率に達するまで追加撮像をするようにしてもよい。

（第３の実施形態）
第３の実施形態において説明する情報処理装置は、第１の実施形態と同様に、生成した再現画像から特徴やパターンをＣＮＮモデルによって学習することで、物体を認識する物体認識装置である。ただし、第３の実施形態では、ユーザが「再現画像を生成するパラメータを調節する」、「生成した再現画像を学習に用いるかどうかを決定する」画像選択部をさらに備えている点で異なる。ユーザが適切な再現画像を生成、選択した上で学習することで、低コストで包装物体をより精度良く認識することができる。

［装置の構成］
図６のブロック図により第３の実施形態の情報処理装置３１００を備える物体認識装置３０００の装置例を示す。物体認識装置３０００は、撮像装置１、認識部２、表示装置３、及び情報処理装置３１００を備える。なお、撮像装置１、認識部２は、第１の実施形態と略同様であるため、説明を省略する。表示装置３は、情報処理装置３１００から送られてきた再現画像を表示するとともに、再現画像を生成するためのパラメータ（式１におけるαやt等）を調節するＵＩ（ユーザインタフェース）を表示する。

情報処理装置３１００は、画像生成部３０１、画像記憶部３０２、学習部３０３、モデル記憶部３０４、及び画像選択部３０６を備える。なお、画像生成部３０１、画像記憶部３０２、学習部３０３、モデル記憶部３０４は、第１の実施形態の画像生成部１０１、画像記憶部１０２、学習部１０３、モデル記憶部１０４と略同様であるため、説明を省略する。

画像選択部３０６は、画像生成部３０１が生成した再現画像を受け取り、当該再現画像を、表示装置３を介してユーザに提示する。また、ユーザのパラメータ調整に応じて、再現画像の生成、表示をやりなおす。そして、最終的にユーザに選択され、学習に用いることになった再現画像を画像記憶部３０２に送る。

［認識処理］
第３の実施形態の物体認識装置３０００による認識処理は、第１の実施形態の認識処理（図２（ａ））と略同様であるため、説明を省略する。

続いて、図７のフローチャートを参照して、第３の実施形態の情報処理装置３１００による学習処理の手順を説明する。なお、ステップＳ３２１、ステップＳ３２２、ステップＳ３２３、ステップＳ３２５、ステップＳ３２６、ステップＳ３２７は、それぞれ第１の実施形態のステップＳ１２１、ステップＳ１２２、ステップＳ１２３、ステップＳ１２４、ステップＳ１２５、ステップＳ１２６と略同様であるため、説明を省略する。

（ステップＳ３２３−２）
ステップＳ３２３−２では、画像選択部３０６が、画像生成部３０１から送られた再現画像をユーザに提示する。そして、ユーザのフィードバック（ユーザ指示）に応じて、再現画像を生成しなおすかどうかを判定する。以下、図８を用いて画像選択部３０６の処理を説明する。図８において、８１はユーザに提示する画面、８２は再現画像を並べて表示する表示領域、８３は学習に用いると選択された再現画像、８４や８５はパラメータを調節するＵＩ、８６は再現画像の調整、選択が終了した際に押す決定ボタンを表している。パラメータ調節のスライドバーの操作や、ボタン等を選択する操作は、図示しないＵＩ機器（たとえば、マウス）によって行う。

まず、ユーザは、表示領域８２に表示されている再現画像を見つつ、ＵＩ８４やＵＩ８５を変更することで、より実際の包装物体の見えに近い再現画像が得られるパラメータに調節する。具体的には、ここで調節するパラメータは式１におけるαやtである。パラメータの変更に応じて、Ｓ３２３に戻って画像生成部３０１に再現画像を生成させ、表示領域８２に再現画像を表示しなおす。

（ステップＳ３２４）
ステップＳ３２４では、画像選択部３０６が、ユーザ指示に応じて、表示領域８２から学習に用いる再現画像８３を選択する。似たような画像ばかりを学習したり、実際の見えと大きく異なる画像を用いて学習したりしてしまうと、過学習や学習が破たんする原因となるが、ユーザが適切な画像を選択することでこれらの発生を抑えることができる。ユーザが決定ボタン８６を押し、すべて選択し終えたら、選択された再現画像を画像記憶部３０２に送る。

以上説明したように、本実施形態によれば、ユーザが再現画像の見えの調節や、学習に用いる再現画像を選択することで、実際の包装物体の見えに近い再現画像を用いて学習が行われる。したがって、低コストで包装物体をより高精度に認識することができる。

（第４の実施形態）
第４の実施形態において説明する情報処理装置は、第１の実施形態と同様に、生成した再現画像から特徴やパターンをＣＮＮモデルによって学習することで、物体を認識する物体認識装置である。ただし、第４の実施形態では、対象物体の形状を考慮して再現画像を生成する点で異なる。対象物体の形状を考慮して、より実際の見えに近い再現画像を生成し、学習することで、低コストで包装物体をより精度良く認識することができる。

［装置の構成］
図９のブロック図により第４の実施形態の情報処理装置４１００を備える物体認識装置４０００の装置例を示す。物体認識装置４０００は、撮像装置１、認識部２、三次元計測装置４、及び情報処理装置４１００を備える。なお、撮像装置１、認識部２は、第１の実施形態と略同様であるため、説明を省略する。

三次元計測装置４は、デプス画像を取得する装置である。三次元計測装置４と撮像装置１との間のキャリブレーションは、予め行われており、撮像装置１で撮像するカラー画像と三次元計測装置４で取得するデプス画像とは位置合わせ済みである。つまり、カラー画像のある画素（ｘ、ｙ）とデプス画像の同画素（ｘ、ｙ）は同じ物体を指している。取得したデプス画像は、情報処理装置４１００に送られる。

情報処理装置４１００は、画像生成部４０１、画像記憶部４０２、学習部４０３、モデル記憶部４０４、及び法線取得部４０７を備える。なお、画像記憶部４０２、学習部４０３、モデル記憶部４０４は、第１の実施形態の画像記憶部１０２、学習部１０３、モデル記憶部１０４と略同様であるため、説明を省略する。

画像生成部４０１は、撮像装置１から送られた対象物体の画像と包装材の画像、および、法線取得部４０７から送られた法線情報を用いて、包装物体の再現画像を生成する。そして、生成した再現画像を画像記憶部４０２に送る。

法線取得部４０７は、三次元計測装置４から送られた対象物体のデプス画像から、各画素における法線情報を算出して取得し、画像生成部４０１に送る。

[認識処理］
第４の実施形態の物体認識装置４０００による認識処理は、第１の実施形態の認識処理（図２（ａ））と略同様であるため、説明を省略する。

続いて、図１０のフローチャートを参照して、第４の実施形態の情報処理装置４１００による学習処理の手順を説明する。なお、ステップＳ４２１、ステップＳ４２６、ステップＳ４２７、ステップＳ４２８は、それぞれ第１の実施形態のステップＳ１２１、ステップＳ１２４、ステップＳ１２５、ステップＳ１２６と略同様であるため、説明を省略する
（ステップＳ４２２）
ステップＳ４２２では、情報処理装置４１００が、三次元計測装置４により取得された対象物体のデプス画像を取得する。それに先立ち、三次元計測装置４が、ステップＳ４２１と同じ撮像位置から対象物体のデプス画像を取得する。そして、取得したデプス画像を、法線取得部４０７に送る。

（ステップＳ４２３）
ステップＳ４２３では、情報処理装置４１００が、撮像装置１により撮像された包装材の画像を取得する。それに先立ち、撮像装置１が、包装材の画像を撮像する。この際、各法線方向（以下、（ｎｘ、ｎｙ、ｎｚ）と表す）の包装材の見え（以下、（ｒ、ｇ、ｂ）と表す）を取得するため、包装材を球面状に広げたものが中央に写るように撮像する。このような画像を撮像することで、各法線に対応する包装材の見え（（ｎｘ、ｎｙ、ｎｚ）に対応する（ｒ、ｇ、ｂ）が並んだリスト）が得られる。そして、撮像した画像を画像生成部４０１に送る。

（ステップＳ４２４）
ステップＳ４２４では、法線取得部４０７が、三次元計測装置４から送られた対象物体のデプス画像から、各画素（以下、画素位置を（ｘ、ｙ）と表す）における法線（ｎｘ、ｎｙ、ｎｚ）を算出して取得する。法線取得は、たとえば、各画素近傍におけるデプス値を三次元点群に変換し、その三次元点群に対して主成分分析を行えばよい。このようにして取得した各画素における法線（（ｘ、ｙ）に対応する（ｎｘ、ｎｙ、ｎｚ）が並んだリスト）を、画像生成部４０１に送る。

（ステップＳ４２５）
ステップＳ４２５では、画像生成部４０１が、撮像装置１から送られた対象物体の画像と包装材の画像、および、法線取得部４０７から送られた法線情報を用いて、包装物体の再現画像を生成する。対象物体の画像の各画素（ｘ、ｙ）において、法線情報（（ｘ、ｙ）に対応する（ｎｘ、ｎｙ、ｎｚ））に従って、対応する包装材の見え（（ｎｘ、ｎｙ、ｎｚ）に対応する（ｒ、ｇ、ｂ））を取得し、式１に従って重畳合成する。この際、実際の包装物体は包装材の形状変化によって法線方向がばらついていると考えられるため、各画素の法線（（ｘ、ｙ）に対応する（ｎｘ、ｎｙ、ｎｚ））にガウシアンノイズを加えることで、複数パターンの再現画像を生成する。生成した再現画像を、画像記憶部４０２に送る。

以上説明したように、本実施形態によれば、対象物体の形状を考慮して再現画像を生成することで、実際の見えに近い再現画像を用いて学習が行われる。したがって、低コストで包装物体をより高精度に認識することができる。

（第５の実施形態）
第５の実施形態において説明する情報処理装置は、第１の実施形態と同様に、生成した再現画像から特徴やパターンをＣＮＮモデルによって学習することで、物体を認識する物体認識装置である。ただし、第５の実施形態では、包装物体の見えだけでなく、対象物体のデプス画像と包装材のデプス画像から、包装物体の形状を再現し、再現形状も含めて特徴やパターンを学習する点で異なる。物体の見えだけでなく形状の特徴やパターンも学習することで、低コストで包装物体をより精度良く認識することができる。

［装置の構成］
図１１のブロック図により第５の実施形態の情報処理装置５１００を備える物体認識装置５０００の装置例を示す。物体認識装置５０００は、第４の実施形態と略同様であるため、説明を省略する。

情報処理装置５１００は、画像生成部５０１、画像記憶部５０２、学習部５０３、モデル記憶部５０４、及び形状生成部５０８を備える。なお、画像生成部５０１、モデル記憶部５０４は、第１の実施形態の画像生成部１０１、モデル記憶部１０４と略同様であるため、説明を省略する。

画像記憶部５０２は、画像生成部５０１から送られた再現画像、および、形状生成部５０８から送られた再現形状を記憶する。学習部５０３は、画像記憶部５０２に記憶されている再現画像、および、再現形状を用いて、ＣＮＮモデルを作成して学習する。そして、学習したＣＮＮモデルをモデル記憶部５０４に送る。

形状生成部５０８は、三次元計測装置４から送られた対象物体のデプス画像と包装材のデプス画像を受け取り、それらの画像から包装物体の再現形状を生成する。生成した再現形状を画像記憶部５０２に送る。

［認識処理］
次に、図１２（ａ）のフローチャートにより第５の実施形態の物体認識装置５０００による認識処理を説明する。なお、ステップＳ５１、ステップＳ５２、ステップＳ５３は、それぞれ第１の実施形態のステップＳ１１、ステップＳ１２、ステップＳ１３と略同様であるため、説明を省略する。

（ステップＳ５４）
ステップＳ５４では、三次元計測装置４が、対象物体などが写されたデプス画像を取得し、認識部２に送る。

（ステップＳ５５）
ステップＳ５５では、認識部２が、撮像装置１から送られた画像、および、三次元計測装置４から送られたデプス画像を入力として、学習済みＣＮＮモデルの演算をすることで、画像中に対象物体が写っているかどうかを意味する２値を求める。そして、求められた２値に従って、画像中に対象物体が写っているかどうかを決定する。そして、認識結果を出力し、処理を終了する。

［学習処理］
続いて、図１２（ｂ）のフローチャートを参照して、第５の実施形態の情報処理装置５１００による学習処理の手順を説明する。なお、ステップＳ５２１、ステップＳ５２３、ステップＳ５２５、ステップＳ５２９は、それぞれ第１の実施形態のステップＳ１２１、ステップＳ１２２、ステップＳ１２３、ステップＳ１２６と略同様であるため。説明を省略する。

（ステップＳ５２２）
ステップＳ５２２では、情報処理装置１１００が、三次元計測装置４により撮像された対象物体のデプス画像を取得する。それに先立ち、三次元計測装置４が、ステップＳ５２１と同じ撮像位置から対象物体のデプス画像を取得する。そして、取得したデプス画像を、形状生成部５０８に送る。

（ステップＳ５２４）
ステップＳ５２４では、情報処理装置１１００が、三次元計測装置４により撮像された包装材のデプス画像を取得する。それに先立ち、三次元計測装置４が、ステップＳ５２３と同じ撮像位置から広げた包装材のデプス画像を取得する。そして、取得したデプス画像を、形状生成部５０８に送る。

（ステップＳ５２６）
ステップＳ５２６では、形状生成部５０８が、三次元計測装置４から送られた対象物体のデプス画像と包装材のデプス画像とに基づいて、包装材に包まれた対象物体の再現形状を生成する。ステップＳ５２５の再現画像の生成と同様に、様々な姿勢で撮像した対象物体のデプス画像の各々に対して、包装材のデプス画像から一部分を切り出したデプス画像を重畳して再現形状とする。

ここで、基本的な流れはステップＳ５２５と同様だが、合成式が異なる。一部分を切り出した包装材のデプス画像をD、対象物体のデプス画像をJ、再現形状をSで表すとして、次のような式で再現形状を生成する。

つまり、単純に包装材に包まれることによる形状変化分を足し合わせればよい。そして、生成した再現形状を、画像記憶部５０２に送る。

（ステップＳ５２７）
ステップＳ５２７では、画像記憶部５０２が、画像生成部５０１で生成した再現画像、および、形状生成部５０８で生成した再現形状をメモリ内に記憶する。

（ステップＳ５２７）
ステップＳ５２７では、学習部５０３が、画像記憶部５０２に記憶されている再現画像と再現形状とを用いてＣＮＮモデルを作成して学習する。ＣＮＮモデルの設計は、たとえば、再現画像のカラー（RGB）と再現形状のデプス（D）を合わせたRGBD四次元の画像を入力とする。そして、コンボリューション層を３層、全結合層を２層とし、出力は対象物体かどうかの２クラスの判別をするモデルとして設計すればよい。以降の処理は、第１の実施形態のステップＳ１２４の処理と同様であるため、説明を省略する。

以上説明したように、本実施形態によれば、包装物体の見えだけでなく形状も再現してＣＮＮモデルを学習することで、見えだけでは認識が難しい物体も形状の情報を用いて認識できる。したがって、低コストで包装物体をより高精度に認識することができる。

［第５の実施形態の変形例］
ステップＳ５２６において、式４に基づいて再現形状を生成したが、合成方法はこれに限らない。別途、対象物体や包装材を置く背景のデプス画像Bを撮像し、式５のように、再現形状をあらわしてもよいし、包装材の厚みを事前に計測しておき、厚み分だけデプス画像を膨張させてもよい。

また、第１の実施形態の変形例で示したようにＣＧレンダリングによって再現画像を生成した場合は、レンダリング結果から得られるデプス値を再現形状としてもよい。

第５の実施形態では、再現画像と再現形状の両方を用いてＣＮＮモデルを学習していたが、再現形状のみを用いてＣＮＮモデルを学習してもよい。

［変形例１］
すべての実施形態において、撮像装置１としてRGBのカラー画像を取得する装置を用いたが、これに限る必要はない。モノクロ画像を取得する装置でもよいし、赤外線画像を取得する装置でもよい。

［変形例２］
すべての実施形態において、対象物体や包装材の画像を自分で撮像したが、これに限る必要はない。公開されている研究用画像データベースを用いてもよいし、Ｗｅｂにアップロードされている画像を用いてもよい。

［変形例３］
すべての実施形態において、切り出し領域４３は正方形の形状を用いていたが、これに限る必要はない。円形でもよいし、対象物体の外形に合わせてもよい。

［変形例４］
すべての実施形態において、画像記憶部５０２に再現画像や再現形状をメモリに記憶してから、ＣＮＮモデルの学習を行っていたが、これに限る必要はない。再現画像や再現形状を生成しつつ、ＣＮＮモデルに入力することで、学習を行ってもよい。

［変形例５］
すべての実施形態において、ＣＮＮモデルの設計はコンボリューション層を３層、全結合層を２層としたが、これに限る必要はない。コンボリューション層や全結合層は何層重ねてもよいし、認識の目的に合わせて設計を変更してもよい。

［変形例６］
すべての実施形態において、画像中に対象物体が写っているかどうかを認識したが、これに限る必要ない。画像中をスライディングウィンドウしつつ、各ウィンドウ内に対象物体が写っているかどうかを認識することで、対象物体の位置を検出してもよい。また、ＣＮＮモデルの出力を対象物体が写っているかどうかを意味する２値ではなく、姿勢の分類も行うように出力を増やすことで、対象物体の姿勢を認識してもよい。たとえば、出力を「８姿勢の分類」＋「対象物体ではない」の９値にしてもよい。この際、学習データのラベル付けはＴｒｕｅ、Ｆａｌｓｅの２値ではなく、認識する姿勢数分のラベル付けをすればよい。

［変形例７］
すべての実施形態において、ディープラーニングの一種であるＣＮＮを学習して、認識器と構成したが、これに限る必要はない。特徴としては、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）を用いてもよいし、ＢｏＦ（ＢａｇｏｆＦｅａｔｕｒｅｓ）などを用いてもよい。また、識別器としては、決定木を用いてもよいし、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などを用いてもよい。

＜実施形態の効果＞
第１の実施形態によれば、対象物体の画像と包装材の画像から包装物体の再現画像を生成し、再現画像からＣＮＮモデルを学習することで、包装物体の画像を大量に撮影する手間をかかけることなく、包装物体を認識することができる。

第２の実施形態によれば、包装材の画像内に、認識するために十分なバリエーションがあるかどうかを判定し、ユーザにフィードバックすることで、包装材の画像の撮影する手間をさらに低減しつつ、包装物体を認識することができる。

第３の実施形態によれば、ユーザが再現画像の見えの調節や、学習に用いる再現画像を選択することで、実際の包装物体の見えに近い再現画像を用いて学習が行われる。したがって、低コストで包装物体をより高精度に認識することができる。

第４の実施形態によれば、対象物体の形状を考慮して再現画像を生成することで、実際の見えに近い再現画像を用いて学習が行われる。したがって、低コストで包装物体をより高精度に認識することができる。

第５の実施形態によれば、包装物体の見えだけでなく形状も再現してＣＮＮモデルを学習することで、見えだけでは認識が難しい物体も形状の情報を用いて認識できる。したがって、低コストで包装物体をより高精度に認識することができる。

＜定義＞
本発明における包装材は、全体が透過性を持つ必要は無く、一部分に透過性があればどのようなものでもよい。透過性を持つビニールにバーコードシール貼られていることで一部が不透明であってもよいし、窓付き封筒のように窓の部分だけ透過性を持つようなものでもよい。また、透過性を持つ部分の透過度（どの程度透けているか）は問わないし、色付きであってもよい。

本発明における画像生成部は、第１の実施形態で説明したように、包装物体の実際の見えに似た画像が生成できれば、どのような合成方法でもよい。アルファブレンディングによる加算でもよいし、乗算でもよい。また、ＣＧレンダリングによって、再現画像を生成してもよい。さらに、第４の実施形態で説明したように、法線方向ごとの包装材の見えから、再現画像を生成してもよい。

本発明における画像判定部は、第２の実施形態で説明したように、切り抜き画像同士の類似度が表すことができれば、どのような指標を用いてもよい。ＳＡＤでもよいし、ＳＳＤでもよい。また、事前にテストデータを用意し、テストデータの認識率によって追加画像の必要性を判定してもよい。

本発明における形状生成部は、第５の実施形態で説明したように、包装物体の実際の形状に似た形状が生成できれば、どのような合成方法でもよい。対象物体と包装材のデプス画像の加算でもよいし、包装材の厚み分だけ対象物体の形状を膨張させてもよい。また、ＣＧレンダリングによって、再現形状を生成してもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０００：物体認識装置、１：撮像装置、２：認識部、１１００：情報処理装置、１０１：画像生成部、１０２：画像記憶部、１０３：学習部、１０４：モデル記憶部

Claims

透過性を持つ透過性物体を撮像した第１の画像と、対象物体を撮像した第２の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成手段と、
前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成手段と、
を備えることを特徴とする情報処理装置。
前記画像生成手段は、前記第１の画像における輝度値が閾値以上の画素について、当該画素の輝度値を前記再現画像の輝度値として、前記再現画像を生成することを特徴とする請求項１に記載の情報処理装置。
前記対象物体の形状を取得したデプス画像から各画素の法線方向の情報を取得する法線取得手段をさらに備え、
前記画像生成手段は、前記第１の画像と、前記第２の画像と、前記法線方向の情報とに基づいて、前記再現画像を生成することを特徴とする請求項１又は２に記載の情報処理装置。
前記第１の画像に基づいて、当該第１の画像の多様性を判定する画像判定手段をさらに備え、
前記画像生成手段は、前記多様性が十分であると判定された場合に、前記第１の画像と、前記第２の画像とに基づいて、前記再現画像を生成することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記第１の画像および前記第２の画像を取得する取得手段をさらに備え、
前記取得手段は、前記画像判定手段により前記多様性が十分ではないと判定された場合に、前記透過性物体を撮像し直して得られた第３の画像を取得することを特徴とする請求項４に記載の情報処理装置。
前記画像判定手段により前記多様性が十分ではないと判定された場合に、前記透過性物体を追加で撮像する必要ことを示す情報を表示装置に表示させる表示制御手段をさらに備えることを特徴とする請求項４又は５に記載の情報処理装置。
ユーザの指示に応じて、前記画像生成手段により生成された複数の再現画像の中から、前記モデルの作成に用いる再現画像を選択する画像選択手段をさらに備えることを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
ユーザの指示に応じて、前記再現画像の生成に用いるパラメータを調整する調整手段をさらに備えることを特徴とする請求項１乃至７の何れか１項に記載の情報処理装置。
前記透過性物体の形状を取得したデプス画像と、前記対象物体の形状を取得したデプス画像とに基づいて、前記透過性物体に覆われた前記対象物体の再現形状を生成する形状生成手段をさらに備え、
前記作成手段は、前記再現画像と、前記再現形状とに基づいて、前記モデルを作成することを特徴とする請求項１乃至８の何れか１項に記載の情報処理装置。
請求項１乃至８いずれか１項に記載の情報処理装置と、
前記モデルに基づいて、前記対象物体を認識する認識手段と、
を備えることを特徴とする物体認識装置。
情報処理装置の制御方法であって、
画像生成手段が、透過性を持つ透過性物体を撮像した第１の画像と、対象物体を撮像した第２の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成工程と、
作成手段が、前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成工程と、
を有することを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１乃至９の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。