JP2018045608A - 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム - Google Patents
情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム Download PDFInfo
- Publication number
- JP2018045608A JP2018045608A JP2016181937A JP2016181937A JP2018045608A JP 2018045608 A JP2018045608 A JP 2018045608A JP 2016181937 A JP2016181937 A JP 2016181937A JP 2016181937 A JP2016181937 A JP 2016181937A JP 2018045608 A JP2018045608 A JP 2018045608A
- Authority
- JP
- Japan
- Prior art keywords
- image
- information processing
- processing apparatus
- target object
- reproduced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/653—Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/05—Recognition of patterns representing particular kinds of hidden objects, e.g. weapons, explosives, drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【解決手段】情報処理装置であって、透過性を持つ透過性物体を撮像した第1の画像と、対象物体を撮像した第2の画像とに基づいて、透過性物体に覆われた対象物体の見えを再現した再現画像を生成する画像生成部と、再現画像に基づいて、透過性物体に覆われた対象物体を認識するためのモデルを作成する作成部とを備える。
【選択図】 図1
Description
透過性を持つ透過性物体を撮像した第1の画像と、対象物体を撮像した第2の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成手段と、
前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成手段と、
を備えることを特徴とする。
第1の実施形態において説明する情報処理装置は、対象物体の画像と包装材の画像から包装物体の見え(外観)を再現する画像(以下、再現画像)を生成し、生成した再現画像から特徴やパターンをディープラーニングの一種であるCNN(Convolutional Neural Network)によって学習することで、物体を認識する物体認識装置である。再現画像は実際の包装物体の見え(外観)に似ているため、認識に有効な特徴やパターンを学習することができる。また、画像処理によって様々なパターンの見えが生成できるため、画像を撮像する手間も低減される。その結果、包装材に包まれた物体の認識を低コストで実現することができる。
図1のブロック図により第1の実施形態の情報処理装置1100を備える物体認識装置1000の装置例を示す。物体認識装置1000は、撮像装置1、認識部2、及び情報処理装置1100を備える。
次に、図2(a)のフローチャートを参照して、第1の実施形態に係る物体認識装置1000による認識処理の手順を説明する。
ステップS11では、物体認識装置1000は、情報処理装置1100にCNNモデルが記憶してあるかどうかをチェックし、CNNモデルが学習済みかどうかを判定する。CNNモデルが学習済みの場合は、情報処理装置1100からCNNモデルを読み込み、ステップS13に遷移する。CNNモデルが学習済みでない場合は、ステップS12に遷移する。
ステップS12では、情報処理装置1100が、CNNモデルの学習を行う。詳細は後述する。
ステップS13では、撮像装置1が、対象物体などが写された画像を撮像し、認識部2に当該画像を送る。
ステップS14では、認識部2が、撮像装置1から送られた画像を入力として、学習済みCNNモデルの演算をすることで、画像中に対象物体が写っているかどうかを意味する2値を求める。そして、求められた2値にしたがって、画像中に対象物体が写っているかどうかを決定する。そして、認識結果を出力し、処理を終了する。
続いて、図2(b)のフローチャートを参照して、第1の実施形態に係る情報処理装置1100による学習処理の手順を説明する。
ステップS121では、情報処理装置1100が、撮像装置1により撮像された対象物体の画像を取得する。それに先立ち、撮像装置1が、包装材に包まれていない対象物体の画像を撮像する。この際、様々な方向から認識可能にするため、撮像装置1と対象物体との間の相対位置姿勢を様々に変化させ、姿勢数分の画像を取得する。たとえば、対象物体を中心とした球面上を等間隔にサンプリングした位置に、撮像装置1をロボットで移動させて撮像すればよい。撮像装置1は、撮像した画像を画像生成部101に送る。
ステップS122では、情報処理装置1100が、撮像装置1により撮像された包装材の画像を取得する。それに先立ち、撮像装置1が、包装材の画像を撮像する。この際、様々な見えの包装材画像を取得するため、包装に実際用いるものと同じ包装材を広げて撮像する。包装材は、包装物体の包装に近い状態で広げるのが望ましい。つまり、包装材をきれいに伸ばして包装する場合は、撮像する包装材も伸ばして広げればよいし、包装材にしわが残るように包装する場合は、撮像する包装材もある程度しわが残るように広げればよい。また、撮像の際は背景の色の影響を減らすため、白い背景にするのが望ましい。たとえば、透明のビニール袋を広げて撮像すると、図3の42のような画像が得られる。この画像の中には、透明のビニール袋の形状変化や周囲の光源環境によって表れる様々なテクスチャ(見え)が含まれている。撮像装置1は、撮像した画像を画像生成部101に送る。
ステップS123では、画像生成部101が、撮像装置1から送られた対象物体の画像と包装材の画像とに基づいて、包装物体の再現画像を生成する。様々な姿勢で撮像した対象物体の画像の各々に対して、包装材の画像から一部分を切り出した画像を重畳して再現画像とする。以下、図3を用いて再現画像を生成する過程を説明する。図3において、41はある姿勢の対象物体の画像、42は包装材の画像、43は切り出し領域、44は生成された再現画像をそれぞれ現している。
ステップS124では、画像記憶部102が、画像生成部101で生成した再現画像をメモリ内に記憶する。
ステップS125では、学習部103が、画像記憶部102に記憶されている再現画像を用いてCNNモデルを作成して学習する(モデルの作成)。本実施形態においては、CNNモデルのパラメタを求めることをモデルの作成または学習という。CNNモデルの設計は、たとえば、再現画像のRGB三次元の画像を入力として、コンボリューション層を3層、全結合層を2層とし、出力は対象物体かどうかの2クラスの判別をするモデルとして設計すればよい。
ステップS126では、モデル記憶部104が、学習部103において学習したCNNモデルの情報をメモリ内に記憶し、処理を終了する。
ステップS122において、包装材を広げて撮像することで見えのバリエーション(多様性)を取得したが、これに限る必要はない。包装材の形状を変化させつつ複数枚撮像してもよいし、周囲の光源環境を変化させつつ複数枚撮像してもよい。
第2の実施形態において説明する情報処理装置は、第1の実施形態と同様に、生成した再現画像から特徴やパターンをCNNモデルによって学習することで、物体を認識する物体認識装置である。ただし、第2の実施形態では、撮像した包装材の画像内に、認識するために十分なバリエーション(多様性)があるかどうかを判定する画像判定部をさらに備える点で異なる。包装材の画像をどれほど取得すればよいかが分かるため、撮像の手間をさらに低減することができる。その結果、包装材に包まれた物体の認識を低コストで実現することができる。
図4のブロック図により第2の実施形態の情報処理装置2100を備える物体認識装置2000の装置例を示す。
第2の実施形態の物体認識装置2000による認識処理は、第1の実施形態の認識処理(図2(a))と略同様であるため、説明を省略する。
ステップS222では、情報処理装置1100が、撮像装置1により撮像された包装材の画像を取得する。それに先立ち、第1の実施形態のステップS122と同様に、撮像装置1が、包装材の画像を撮像し、撮像した画像を画像判定部205に送る。また、画像判定部205から追加撮像の要求が来るたびに、包装材の画像を再度撮像し、撮像した画像を画像判定部205に送る。この際、包装材の形状を変えずに追加撮像をしてもバリエーションは増えないため、包装材を広げなおした上で再度撮像する。
ステップS223では、画像判定部205が、撮像装置1から送られた包装材の画像から、包装材の画像内に十分なバリエーションがあるかどうかを判定する。
ステップS224では、画像生成部201が、画像判定部205から送られた対象物体の画像と包装材の画像とに基づいて、包装物体の再現画像を生成する。基本的には、第1の実施形態のステップS123と同様に再現画像を生成するが、包装材の画像は複数あるため、複数の包装材の画像の中から切り出し領域43の位置をランダムに選択する点が異なる。生成した再現画像を、画像記憶部102に送る。
ステップS223において、切り出し領域が似ているかどうかを判定するための指標としてSADを用いたが、これに限る必要はない。SSD(Sum of Squared Difference)、NCC(Normalizes Cross−Correlation)、ZNCC(Zero−mean Normalized Cross−Correlation)など類似度を表せる指標であればどのようなものを用いてもよい。
第3の実施形態において説明する情報処理装置は、第1の実施形態と同様に、生成した再現画像から特徴やパターンをCNNモデルによって学習することで、物体を認識する物体認識装置である。ただし、第3の実施形態では、ユーザが「再現画像を生成するパラメータを調節する」、「生成した再現画像を学習に用いるかどうかを決定する」画像選択部をさらに備えている点で異なる。ユーザが適切な再現画像を生成、選択した上で学習することで、低コストで包装物体をより精度良く認識することができる。
図6のブロック図により第3の実施形態の情報処理装置3100を備える物体認識装置3000の装置例を示す。物体認識装置3000は、撮像装置1、認識部2、表示装置3、及び情報処理装置3100を備える。なお、撮像装置1、認識部2は、第1の実施形態と略同様であるため、説明を省略する。表示装置3は、情報処理装置3100から送られてきた再現画像を表示するとともに、再現画像を生成するためのパラメータ(式1におけるαやt等)を調節するUI(ユーザインタフェース)を表示する。
第3の実施形態の物体認識装置3000による認識処理は、第1の実施形態の認識処理(図2(a))と略同様であるため、説明を省略する。
ステップS323−2では、画像選択部306が、画像生成部301から送られた再現画像をユーザに提示する。そして、ユーザのフィードバック(ユーザ指示)に応じて、再現画像を生成しなおすかどうかを判定する。以下、図8を用いて画像選択部306の処理を説明する。図8において、81はユーザに提示する画面、82は再現画像を並べて表示する表示領域、83は学習に用いると選択された再現画像、84や85はパラメータを調節するUI、86は再現画像の調整、選択が終了した際に押す決定ボタンを表している。パラメータ調節のスライドバーの操作や、ボタン等を選択する操作は、図示しないUI機器(たとえば、マウス)によって行う。
ステップS324では、画像選択部306が、ユーザ指示に応じて、表示領域82から学習に用いる再現画像83を選択する。似たような画像ばかりを学習したり、実際の見えと大きく異なる画像を用いて学習したりしてしまうと、過学習や学習が破たんする原因となるが、ユーザが適切な画像を選択することでこれらの発生を抑えることができる。ユーザが決定ボタン86を押し、すべて選択し終えたら、選択された再現画像を画像記憶部302に送る。
第4の実施形態において説明する情報処理装置は、第1の実施形態と同様に、生成した再現画像から特徴やパターンをCNNモデルによって学習することで、物体を認識する物体認識装置である。ただし、第4の実施形態では、対象物体の形状を考慮して再現画像を生成する点で異なる。対象物体の形状を考慮して、より実際の見えに近い再現画像を生成し、学習することで、低コストで包装物体をより精度良く認識することができる。
図9のブロック図により第4の実施形態の情報処理装置4100を備える物体認識装置4000の装置例を示す。物体認識装置4000は、撮像装置1、認識部2、三次元計測装置4、及び情報処理装置4100を備える。なお、撮像装置1、認識部2は、第1の実施形態と略同様であるため、説明を省略する。
第4の実施形態の物体認識装置4000による認識処理は、第1の実施形態の認識処理(図2(a))と略同様であるため、説明を省略する。
(ステップS422)
ステップS422では、情報処理装置4100が、三次元計測装置4により取得された対象物体のデプス画像を取得する。それに先立ち、三次元計測装置4が、ステップS421と同じ撮像位置から対象物体のデプス画像を取得する。そして、取得したデプス画像を、法線取得部407に送る。
ステップS423では、情報処理装置4100が、撮像装置1により撮像された包装材の画像を取得する。それに先立ち、撮像装置1が、包装材の画像を撮像する。この際、各法線方向(以下、(nx、ny、nz)と表す)の包装材の見え(以下、(r、g、b)と表す)を取得するため、包装材を球面状に広げたものが中央に写るように撮像する。このような画像を撮像することで、各法線に対応する包装材の見え((nx、ny、nz)に対応する(r、g、b)が並んだリスト)が得られる。そして、撮像した画像を画像生成部401に送る。
ステップS424では、法線取得部407が、三次元計測装置4から送られた対象物体のデプス画像から、各画素(以下、画素位置を(x、y)と表す)における法線(nx、ny、nz)を算出して取得する。法線取得は、たとえば、各画素近傍におけるデプス値を三次元点群に変換し、その三次元点群に対して主成分分析を行えばよい。このようにして取得した各画素における法線((x、y)に対応する(nx、ny、nz)が並んだリスト)を、画像生成部401に送る。
ステップS425では、画像生成部401が、撮像装置1から送られた対象物体の画像と包装材の画像、および、法線取得部407から送られた法線情報を用いて、包装物体の再現画像を生成する。対象物体の画像の各画素(x、y)において、法線情報((x、y)に対応する(nx、ny、nz))に従って、対応する包装材の見え((nx、ny、nz)に対応する(r、g、b))を取得し、式1に従って重畳合成する。この際、実際の包装物体は包装材の形状変化によって法線方向がばらついていると考えられるため、各画素の法線((x、y)に対応する(nx、ny、nz))にガウシアンノイズを加えることで、複数パターンの再現画像を生成する。生成した再現画像を、画像記憶部402に送る。
第5の実施形態において説明する情報処理装置は、第1の実施形態と同様に、生成した再現画像から特徴やパターンをCNNモデルによって学習することで、物体を認識する物体認識装置である。ただし、第5の実施形態では、包装物体の見えだけでなく、対象物体のデプス画像と包装材のデプス画像から、包装物体の形状を再現し、再現形状も含めて特徴やパターンを学習する点で異なる。物体の見えだけでなく形状の特徴やパターンも学習することで、低コストで包装物体をより精度良く認識することができる。
図11のブロック図により第5の実施形態の情報処理装置5100を備える物体認識装置5000の装置例を示す。物体認識装置5000は、第4の実施形態と略同様であるため、説明を省略する。
次に、図12(a)のフローチャートにより第5の実施形態の物体認識装置5000による認識処理を説明する。なお、ステップS51、ステップS52、ステップS53は、それぞれ第1の実施形態のステップS11、ステップS12、ステップS13と略同様であるため、説明を省略する。
ステップS54では、三次元計測装置4が、対象物体などが写されたデプス画像を取得し、認識部2に送る。
ステップS55では、認識部2が、撮像装置1から送られた画像、および、三次元計測装置4から送られたデプス画像を入力として、学習済みCNNモデルの演算をすることで、画像中に対象物体が写っているかどうかを意味する2値を求める。そして、求められた2値に従って、画像中に対象物体が写っているかどうかを決定する。そして、認識結果を出力し、処理を終了する。
続いて、図12(b)のフローチャートを参照して、第5の実施形態の情報処理装置5100による学習処理の手順を説明する。なお、ステップS521、ステップS523、ステップS525、ステップS529は、それぞれ第1の実施形態のステップS121、ステップS122、ステップS123、ステップS126と略同様であるため。説明を省略する。
ステップS522では、情報処理装置1100が、三次元計測装置4により撮像された対象物体のデプス画像を取得する。それに先立ち、三次元計測装置4が、ステップS521と同じ撮像位置から対象物体のデプス画像を取得する。そして、取得したデプス画像を、形状生成部508に送る。
ステップS524では、情報処理装置1100が、三次元計測装置4により撮像された包装材のデプス画像を取得する。それに先立ち、三次元計測装置4が、ステップS523と同じ撮像位置から広げた包装材のデプス画像を取得する。そして、取得したデプス画像を、形状生成部508に送る。
ステップS526では、形状生成部508が、三次元計測装置4から送られた対象物体のデプス画像と包装材のデプス画像とに基づいて、包装材に包まれた対象物体の再現形状を生成する。ステップS525の再現画像の生成と同様に、様々な姿勢で撮像した対象物体のデプス画像の各々に対して、包装材のデプス画像から一部分を切り出したデプス画像を重畳して再現形状とする。
ステップS527では、画像記憶部502が、画像生成部501で生成した再現画像、および、形状生成部508で生成した再現形状をメモリ内に記憶する。
ステップS527では、学習部503が、画像記憶部502に記憶されている再現画像と再現形状とを用いてCNNモデルを作成して学習する。CNNモデルの設計は、たとえば、再現画像のカラー(RGB)と再現形状のデプス(D)を合わせたRGBD四次元の画像を入力とする。そして、コンボリューション層を3層、全結合層を2層とし、出力は対象物体かどうかの2クラスの判別をするモデルとして設計すればよい。以降の処理は、第1の実施形態のステップS124の処理と同様であるため、説明を省略する。
ステップS526において、式4に基づいて再現形状を生成したが、合成方法はこれに限らない。別途、対象物体や包装材を置く背景のデプス画像Bを撮像し、式5のように、再現形状をあらわしてもよいし、包装材の厚みを事前に計測しておき、厚み分だけデプス画像を膨張させてもよい。
すべての実施形態において、撮像装置1としてRGBのカラー画像を取得する装置を用いたが、これに限る必要はない。モノクロ画像を取得する装置でもよいし、赤外線画像を取得する装置でもよい。
すべての実施形態において、対象物体や包装材の画像を自分で撮像したが、これに限る必要はない。公開されている研究用画像データベースを用いてもよいし、Webにアップロードされている画像を用いてもよい。
すべての実施形態において、切り出し領域43は正方形の形状を用いていたが、これに限る必要はない。円形でもよいし、対象物体の外形に合わせてもよい。
すべての実施形態において、画像記憶部502に再現画像や再現形状をメモリに記憶してから、CNNモデルの学習を行っていたが、これに限る必要はない。再現画像や再現形状を生成しつつ、CNNモデルに入力することで、学習を行ってもよい。
すべての実施形態において、CNNモデルの設計はコンボリューション層を3層、全結合層を2層としたが、これに限る必要はない。コンボリューション層や全結合層は何層重ねてもよいし、認識の目的に合わせて設計を変更してもよい。
すべての実施形態において、画像中に対象物体が写っているかどうかを認識したが、これに限る必要ない。画像中をスライディングウィンドウしつつ、各ウィンドウ内に対象物体が写っているかどうかを認識することで、対象物体の位置を検出してもよい。また、CNNモデルの出力を対象物体が写っているかどうかを意味する2値ではなく、姿勢の分類も行うように出力を増やすことで、対象物体の姿勢を認識してもよい。たとえば、出力を「8姿勢の分類」+「対象物体ではない」の9値にしてもよい。この際、学習データのラベル付けはTrue、Falseの2値ではなく、認識する姿勢数分のラベル付けをすればよい。
すべての実施形態において、ディープラーニングの一種であるCNNを学習して、認識器と構成したが、これに限る必要はない。特徴としては、LBP(Local Binary Pattern)を用いてもよいし、BoF(Bag of Features)などを用いてもよい。また、識別器としては、決定木を用いてもよいし、SVM(Support Vector Machine)などを用いてもよい。
第1の実施形態によれば、対象物体の画像と包装材の画像から包装物体の再現画像を生成し、再現画像からCNNモデルを学習することで、包装物体の画像を大量に撮影する手間をかかけることなく、包装物体を認識することができる。
本発明における包装材は、全体が透過性を持つ必要は無く、一部分に透過性があればどのようなものでもよい。透過性を持つビニールにバーコードシール貼られていることで一部が不透明であってもよいし、窓付き封筒のように窓の部分だけ透過性を持つようなものでもよい。また、透過性を持つ部分の透過度(どの程度透けているか)は問わないし、色付きであってもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (12)
- 透過性を持つ透過性物体を撮像した第1の画像と、対象物体を撮像した第2の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成手段と、
前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成手段と、
を備えることを特徴とする情報処理装置。 - 前記画像生成手段は、前記第1の画像における輝度値が閾値以上の画素について、当該画素の輝度値を前記再現画像の輝度値として、前記再現画像を生成することを特徴とする請求項1に記載の情報処理装置。
- 前記対象物体の形状を取得したデプス画像から各画素の法線方向の情報を取得する法線取得手段をさらに備え、
前記画像生成手段は、前記第1の画像と、前記第2の画像と、前記法線方向の情報とに基づいて、前記再現画像を生成することを特徴とする請求項1又は2に記載の情報処理装置。 - 前記第1の画像に基づいて、当該第1の画像の多様性を判定する画像判定手段をさらに備え、
前記画像生成手段は、前記多様性が十分であると判定された場合に、前記第1の画像と、前記第2の画像とに基づいて、前記再現画像を生成することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 - 前記第1の画像および前記第2の画像を取得する取得手段をさらに備え、
前記取得手段は、前記画像判定手段により前記多様性が十分ではないと判定された場合に、前記透過性物体を撮像し直して得られた第3の画像を取得することを特徴とする請求項4に記載の情報処理装置。 - 前記画像判定手段により前記多様性が十分ではないと判定された場合に、前記透過性物体を追加で撮像する必要ことを示す情報を表示装置に表示させる表示制御手段をさらに備えることを特徴とする請求項4又は5に記載の情報処理装置。
- ユーザの指示に応じて、前記画像生成手段により生成された複数の再現画像の中から、前記モデルの作成に用いる再現画像を選択する画像選択手段をさらに備えることを特徴とする請求項1乃至6の何れか1項に記載の情報処理装置。
- ユーザの指示に応じて、前記再現画像の生成に用いるパラメータを調整する調整手段をさらに備えることを特徴とする請求項1乃至7の何れか1項に記載の情報処理装置。
- 前記透過性物体の形状を取得したデプス画像と、前記対象物体の形状を取得したデプス画像とに基づいて、前記透過性物体に覆われた前記対象物体の再現形状を生成する形状生成手段をさらに備え、
前記作成手段は、前記再現画像と、前記再現形状とに基づいて、前記モデルを作成することを特徴とする請求項1乃至8の何れか1項に記載の情報処理装置。 - 請求項1乃至8いずれか1項に記載の情報処理装置と、
前記モデルに基づいて、前記対象物体を認識する認識手段と、
を備えることを特徴とする物体認識装置。 - 情報処理装置の制御方法であって、
画像生成手段が、透過性を持つ透過性物体を撮像した第1の画像と、対象物体を撮像した第2の画像とに基づいて、前記透過性物体に覆われた前記対象物体の見えを再現した再現画像を生成する画像生成工程と、
作成手段が、前記再現画像に基づいて、前記透過性物体に覆われた前記対象物体を認識するためのモデルを作成する作成工程と、
を有することを特徴とする情報処理装置の制御方法。 - コンピュータを、請求項1乃至9の何れか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181937A JP6826407B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム |
US15/678,659 US10372969B2 (en) | 2016-09-16 | 2017-08-16 | Information processing apparatus, object recognition apparatus, method of controlling information processing apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181937A JP6826407B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018045608A true JP2018045608A (ja) | 2018-03-22 |
JP2018045608A5 JP2018045608A5 (ja) | 2019-10-24 |
JP6826407B2 JP6826407B2 (ja) | 2021-02-03 |
Family
ID=61620505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016181937A Active JP6826407B2 (ja) | 2016-09-16 | 2016-09-16 | 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10372969B2 (ja) |
JP (1) | JP6826407B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019202812A1 (ja) * | 2018-04-18 | 2019-10-24 | ソニー株式会社 | 画像処理装置と画像処理方法とプログラムおよび学習装置 |
JP2019191086A (ja) * | 2018-04-27 | 2019-10-31 | 株式会社明治 | 捻り包装品の検査方法及び検査装置 |
JP6843342B1 (ja) * | 2019-12-24 | 2021-03-17 | Arithmer株式会社 | 写り込み除去エンジン生成方法、プログラム、写り込み除去エンジン生成装置、写り込み除去装置、異常検知方法及び部品検知方法 |
WO2021131364A1 (ja) * | 2019-12-24 | 2021-07-01 | Arithmer株式会社 | 写り込み除去エンジン生成方法、プログラム、写り込み除去エンジン生成装置、写り込み除去装置、異常検知方法及び部品検知方法 |
WO2022102522A1 (ja) * | 2020-11-10 | 2022-05-19 | パナソニックIpマネジメント株式会社 | データ作成システム、学習システム、推定システム、処理装置、評価システム、データ作成方法、及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
US10163043B2 (en) * | 2017-03-31 | 2018-12-25 | Clarifai, Inc. | System and method for facilitating logo-recognition training of a recognition model |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102462A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 画像合成方法、システム、端末、および画像合成プログラム |
JP2014178957A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
JP2014199584A (ja) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4291757B2 (ja) * | 2004-08-18 | 2009-07-08 | 日本電信電話株式会社 | 辞書構成装置、辞書構成方法、および、辞書構成プログラム |
-
2016
- 2016-09-16 JP JP2016181937A patent/JP6826407B2/ja active Active
-
2017
- 2017-08-16 US US15/678,659 patent/US10372969B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102462A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 画像合成方法、システム、端末、および画像合成プログラム |
JP2014178957A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
JP2014199584A (ja) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
Non-Patent Citations (1)
Title |
---|
吉田 英史: "生成型学習法を用いた傘をさした歩行者の高精度な検出に関する検討", 電子情報通信学会技術研究報告 VOL.112 NO.197, vol. PRMU2012-50, IBISML2012-33 (2012-09), JPN6020041780, 26 August 2012 (2012-08-26), JP, pages 191 - 196, ISSN: 0004409999 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019202812A1 (ja) * | 2018-04-18 | 2019-10-24 | ソニー株式会社 | 画像処理装置と画像処理方法とプログラムおよび学習装置 |
JP2019191086A (ja) * | 2018-04-27 | 2019-10-31 | 株式会社明治 | 捻り包装品の検査方法及び検査装置 |
JP7173753B2 (ja) | 2018-04-27 | 2022-11-16 | 株式会社明治 | 捻り包装品の検査方法及び検査装置 |
JP6843342B1 (ja) * | 2019-12-24 | 2021-03-17 | Arithmer株式会社 | 写り込み除去エンジン生成方法、プログラム、写り込み除去エンジン生成装置、写り込み除去装置、異常検知方法及び部品検知方法 |
WO2021131364A1 (ja) * | 2019-12-24 | 2021-07-01 | Arithmer株式会社 | 写り込み除去エンジン生成方法、プログラム、写り込み除去エンジン生成装置、写り込み除去装置、異常検知方法及び部品検知方法 |
WO2022102522A1 (ja) * | 2020-11-10 | 2022-05-19 | パナソニックIpマネジメント株式会社 | データ作成システム、学習システム、推定システム、処理装置、評価システム、データ作成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6826407B2 (ja) | 2021-02-03 |
US20180082106A1 (en) | 2018-03-22 |
US10372969B2 (en) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6826407B2 (ja) | 情報処理装置、物体認識装置、情報処理装置の制御方法及びプログラム | |
CN109583285B (zh) | 对象识别方法 | |
KR101303877B1 (ko) | 얼굴 검출과 피부 영역 검출을 적용하여 피부의 선호색변환을 수행하는 방법 및 장치 | |
JP5470262B2 (ja) | 両眼の検出および追跡する方法、及び装置 | |
US20180114363A1 (en) | Augmented scanning of 3d models | |
US11100719B2 (en) | Method and apparatus for overlaying a reproduction of a real scene with virtual image and audio data, and a mobile device | |
CN106062862A (zh) | 用于沉浸式和交互式多媒体生成的***和方法 | |
US12008686B2 (en) | Augmented reality map curation | |
US20210350566A1 (en) | Deep neural network pose estimation system | |
EP3161725B1 (en) | Color identification using infrared imaging | |
US11107241B2 (en) | Methods and systems for training an object detection algorithm using synthetic images | |
US10866635B2 (en) | Systems and methods for capturing training data for a gaze estimation model | |
GB2588441A (en) | Method and system for estimating the geometry of a scene | |
US11935209B1 (en) | Systems and methods for dynamic backfilling of a three-dimensional object | |
CN109565577A (zh) | 色彩校正装置、色彩校正***、色彩校正用全息图、色彩校正方法以及程序 | |
US20230245396A1 (en) | System and method for three-dimensional scene reconstruction and understanding in extended reality (xr) applications | |
WO2020130070A1 (ja) | 検出装置、情報処理装置、検出方法、及び情報処理プログラム | |
US20210224591A1 (en) | Methods and systems for training an object detection algorithm | |
CN112153300A (zh) | 多目摄像头曝光方法、装置、设备及介质 | |
KR102538685B1 (ko) | 다시점 정보를 이용하여 3d 정보를 복원하는 방법 및 이를 위한 장치 | |
US11750917B2 (en) | Systems and methods for generating consistent images of objects | |
JP7321772B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP6057407B2 (ja) | タッチ位置入力装置及びタッチ位置入力方法 | |
KR20180017897A (ko) | 스티커 영상을 위한 오브젝트 추출 방법 및 그 장치 | |
JP2021149691A (ja) | 画像処理システム及び制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190911 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190911 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210115 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6826407 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |