JP2017054438A - 画像認識装置、方法、及びプログラム - Google Patents

画像認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017054438A
JP2017054438A JP2015179873A JP2015179873A JP2017054438A JP 2017054438 A JP2017054438 A JP 2017054438A JP 2015179873 A JP2015179873 A JP 2015179873A JP 2015179873 A JP2015179873 A JP 2015179873A JP 2017054438 A JP2017054438 A JP 2017054438A
Authority
JP
Japan
Prior art keywords
importance
image
reference image
assigned
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015179873A
Other languages
English (en)
Other versions
JP6317715B2 (ja
Inventor
之人 渡邉
Yukito Watanabe
之人 渡邉
周平 田良島
Shuhei Tarashima
周平 田良島
豪 入江
Takeshi Irie
豪 入江
潤 島村
Jun Shimamura
潤 島村
隆行 黒住
Takayuki Kurozumi
隆行 黒住
哲也 杵渕
Tetsuya Kinebuchi
哲也 杵渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015179873A priority Critical patent/JP6317715B2/ja
Publication of JP2017054438A publication Critical patent/JP2017054438A/ja
Application granted granted Critical
Publication of JP6317715B2 publication Critical patent/JP6317715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】入力画像に類似する参照画像の情報を、精度よく、かつ、高速に得ることができる。
【解決手段】特徴量抽出部30が、参照画像の各々、及び検索キー画像から特徴量を抽出する。量子化器作成部32が、量子化器を作成し、量子化部36が、特徴量に対してVWを割り当てることにより量子化する。第一重要度算出部38が、VWの各々の出現頻度から、第一重要度を算出する。第二重要度算出部40が、参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、第二重要度を算出する。正規化係数算出部52が、正規化係数を算出し、検索ランキング部54が、検索キー画像に割り当てられたVWと、参照画像毎に割り当てられたVWと、第二重要度と、正規化係数とに基づいて、検索キー画像に類似する参照画像を検索する。
【選択図】図1

Description

本発明は、画像認識装置、方法、及びプログラムに係り、特に、入力画像に類似する参照画像を求める画像認識装置、方法、及びプログラムに関する。
デジタルカメラ、スマートホン等の携帯撮影デバイスの普及により、一個人が撮影するデジタル写真の枚数が急速に増大した。それに伴い、画像を利用したコミュニケーションが発達し、WWW(World Wide Web)上には大量の画像が蓄積されている。例えば、あるソーシャルメディアサイトでは、毎月25億の画像がアップロードされているとの報告がある。
ユーザはこのような豊富な画像を見て楽しむことができる一方で、画像中の未知の物体に興味を持っても、その情報を取得することが困難であるという問題が存在する。例えば、画像中のある商品に興味を持っても、ユーザがその商品名、外見等の知識を持っていない場合には、その商品に関する情報を取得することは困難である。これを解決するためには、画像がいったい何を写しているのかといった情報を画像から特定する画像認識技術が必要となる。
従来、種々の技術が発明・開示されている。例えば非特許文献1では、SIFT(Scale Invariant Feature Transform)特徴量のマッチングに基づく方法が開示されている。これは、名称が既知の物体を含む画像(以下参照画像と呼ぶ)によりあらかじめ参照画像データベースを構築し、これを用いて新たに入力された画像(以下入力画像と呼ぶ)に含まれる物体の名称を推定する。まず入力画像、参照画像それぞれの画像中から、特徴的であるような微小な領域として特徴点を検出し、特徴点毎にSIFT特徴量を算出する。次に、入力画像と参照画像の間で、得られたそれぞれのSIFT特徴量間の距離を計算し、その距離が一定値以下となる特徴点の個数(マッチング数)を算出する。このマッチング数が多いほど、入力画像に対応した参照画像である(類似度が大きい)ことになる。こうして得られた類似度が大きい参照画像に含まれる物体の名称を認識結果として出力する。
このような特徴量のマッチングに基づく方法は、入力画像と参照画像のSIFT特徴量の全ての組み合わせについて距離を計算するために、非効率的である。特に、大規模な参照画像データベース(例えば認識したい対象となる物体が多い場合など)を対象にした場合、現実的な時間で認識を行うことができないという問題がある。そこで、非特許文献2では、特徴量をVisual Words(以下VWと称する)と呼ばれる符号に量子化し、同一のVWに量子化された局所特徴量の数で類似度を算出する技術を開示している。VWに対応付く代表ベクトルは、参照画像群の特徴量、または、学習用の画像(以下学習画像と呼ぶ)群の特徴量をクラスタリングすることで作成されることが多い。通常、同一のVWに量子化される特徴量は少数であり、然るに同一のVWを持つような参照画像は、元の参照画像の内ごく限られている。この知見から、非特許文献2では、VWをキーとして、これを保持するような参照画像を逆引きできるように設計された転置インデクスと呼ばれるデータ構造を利用する。これにより、類似度の大きい参照画像の高速な特定が可能となる。
しかしながら、前述した従来技術によれば、図6に示す商品1と商品2のような、外見が非常に類似する商品に関する参照画像がある場合には、正しく参照画像を発見することができない。これは、全体が類似する参照画像を含む場合には、異なる物体であっても多数の局所特徴量間の距離が近くなるため、両者が持つVWの大多数が一致し、見分けが付きにくくなるためである。全体が類似するが、相互に別の物体であるようなものを見分けるためには、これら物体の差異となる特徴量が重要となる。
このような問題を解決するべく、重要な特徴量、または、VWを強調する技術に関する取り組みがなされてきた。従来いくつかの発明がなされ、開示されてきている。
特許文献1に開示されている技術では、Webページのキーワード検索でよく用いられるBM25(Best Match 25)と呼ばれるランキング手法を応用し、BM25におけるキーワードの重要度を示す指標であるIDF(Inverse Document Frequency)をVWの重要度とみなし、重要度が高いVWを多く含む画像を検索するための指標とする。参照画像に共通して多く現れるVWの影響を抑制し、出現頻度の低いVWを強調することで、よりレアなVWを重要視した精度の良い認識が実現されている。
非特許文献3に開示されている技術では、参照画像群から、その特徴量に基づき、全体が類似する参照画像の一部領域を発見する。これら一部領域において現れる特徴量を比較し、距離の遠い特徴量を、差異となる特徴量として選択する。選択した特徴量のみを用いることで、例え全体が類似した商品であっても、精度の良い認識が実現されている。
特開2014−99110号公報
D.G. Lowe: Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 2004. J. Sivic et al.: Video Google: A Text Retrieval Approach to Object Matching in Videos, in Proc. ICCV, 2003. 渡邉之人, 入江豪, 新井啓之, 谷口行信: 類似する物体画像群からの特定物体検索に関する一検討, 映像情報メディア学会技術報告, 38(43), 69-73, 2014.
非特許文献3の技術は、全体が類似する物体の差異となる部分の特徴量のみを用いることで、類似した異なる物体を高精度に見分けることが可能である。しかしながら、認識は特徴量同士のマッチングに基づく方法であったため、大規模なデータベースに対して効率的な認識を行うことはできなかった。
さらに、非特許文献3の技術は、差異となる特徴量を選択するためには、参照画像の特徴量の全ての組み合わせで距離計算を行う必要があり、大規模なデータベースにおいては膨大な計算量が必要となる。
また、特許文献1の技術は、出現頻度の低いVWを強調することが可能である。そのため、全ての参照画像が同様に類似するデータベースにおいては、差異となるVWの出現頻度は低くなり見分けることが可能である。しかしながら、データベース中に全体が類似する参照画像が一部でも存在する場合、それら類似する参照画像間の差異となるVWが、データベース全体において出現頻度が低くなるようなものであるとは限らない。データベース全体では出現頻度が高いVWが、一部参照画像間の差異となる場合には、当該VWの抑制により精度が劣化する可能性もあり、必ずしも類似する参照画像を見分けることはできない。
本発明は、上記問題点を解決するために成されたものであり、入力画像に類似する参照画像の情報を、精度よく、かつ、高速に得ることができる画像認識装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像認識装置は、画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置であって、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出する特徴抽出部と、学習画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成する量子化器作成部と、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化する量子化部と、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出する第一重要度算出部と、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する第二重要度算出部と、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出する正規化係数算出部と、前記検索キー画像に割り当てられたVWと、前記参照画像毎に割り当てられたVWと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索する検索ランキング部と、を含んで構成されている。
また、第1の発明に係る画像認識装置において、前記第二重要度算出部は、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出してもよい。
第2の発明に係る画像認識装置は、画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置であって、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出する特徴抽出部と、前記参照画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成する量子化器作成部と、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化する量子化部と、前記参照画像の各々、及び前記検索キー画像について、前記抽出された一つ以上の特徴量と、前記作成された量子化器と、前記割り当てられたVWとに基づいて、前記割り当てられたVW毎の残差ベクトルを作成するベクトル作成部と、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出する第一重要度算出部と、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する第二重要度算出部と、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出する正規化係数算出部と、前記検索キー画像について作成されたVW毎の残差ベクトルと、前記参照画像の各々について作成されたVW毎の残差ベクトルと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索する検索ランキング部と、を含んで構成されている。
また、第2の発明に係る画像認識装置において、記第二重要度算出部は、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出してもよい。
第3の発明に係る画像認識方法は、画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置における画像認識方法であって、特徴抽出部が、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出するステップと、量子化器作成部が、学習画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成するステップと、量子化部が、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化するステップと、第一重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出するステップと、第二重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出するステップと、正規化係数算出部が、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出するステップと、検索ランキング部が、前記検索キー画像に割り当てられたVWと、前記参照画像毎に割り当てられたVWと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索するステップと、を含んで実行することを特徴とする。
また、第3の発明に係る画像認識方法において、前記第二重要度算出部が算出するステップは、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出してもよい。
第4の発明に係る画像認識方法は、画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置における画像認識方法であって、特徴抽出部が、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出するステップと、量子化器作成部が、前記参照画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成するステップと、量子化部が、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化するステップと、ベクトル作成部が、前記参照画像の各々、及び前記検索キー画像について、前記抽出された一つ以上の特徴量と、前記作成された量子化器と、前記割り当てられたVWとに基づいて、前記割り当てられたVW毎の残差ベクトルを作成するステップと、第一重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出するステップと、第二重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出するステップと、正規化係数算出部が、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出するステップと、検索ランキング部が、前記検索キー画像について作成されたVW毎の残差ベクトルと、前記参照画像の各々について作成されたVW毎の残差ベクトルと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索するステップと、を含んで実行することを特徴とする。
また、第4の発明に係る画像認識方法において、前記第二重要度算出部が算出するステップは、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出してもよい。
第5の発明に係るプログラムは、コンピュータを、第1又は第2のいずれかの発明に係る画像認識装置の各部として機能させるためのプログラムである。
本発明の画像認識装置、方法、及びプログラムによれば、入力画像に類似する参照画像の情報を、精度よく、かつ、高速に得ることができる、という効果が得られる。
本発明の第1の実施の形態に係る画像認識装置の構成を示すブロック図である。 本発明の第1の実施の形態に係る画像認識装置における画像認識処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る画像認識装置の構成を示すブロック図である。 残差ベクトルの作成処理の一例を示す図である。 本発明の第2の実施の形態に係る画像認識装置における画像認識処理ルーチンを示すフローチャートである。 全体像が類似しているが細部が異なる物体の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。第1及び第2の実施の形態に係る画像認識装置においては、検索ランキングにおける類似度の算出方法が異なっている。
第1の実施形態では、画像の特徴量を量子化し、そのVWに基づいて、参照画像群を検索して上位X枚の参照画像をランキングする。ランキングする際には、入力された検索キー画像が持つVW毎に、同一のVWを持つ参照画像に投票を行い、その得票数を用いて入力画像(検索キー画像)と参照画像の類似度を算出する。
第2の実施形態では、画像の特徴量をVWに量子化し、さらに各VWを表す代表ベクトルと特徴量との残差ベクトルを用いて1画像を最大VW数分の残差ベクトルで表現し、その残差ベクトルに基づいて、参照画像群を検索して上位X枚の参照画像をランキングする。ランキングする際には入力画像の残差ベクトルと、参照画像の残差ベクトルの内積を用いて類似度を算出する。
要約すれば、第1の実施形態はVWの一致のみに基づいて検索を実施する場合について述べているのであり、第2の実施形態はさらに特徴量をVWに量子化した際の残差ベクトルによって検索を実施する場合について述べている。然るに第1の実施形態は第2の実施形態と比べ計算量が少なく、必要とするメモリも少ないという利点があるが、比較して検索精度の点で劣る。一方、第2の実施形態は、第1の実施形態に対して詳細な残差ベクトルに基づいて検索ランキングを行うため、時間・空間における計算量は増加するが、より精度の高い画像認識結果を得ることができる。実用上どちらの実施形態を取るべきかは利用する形態に依存するのであり、いずれの実施形態を用いた場合であっても本発明の要点を損なうものではない。
また、いずれの実施形態においても、第一重要度または第二重要度からなる、VWに対する重要度を用いる。第一重要度は参照画像全体でのVWの出現頻度から算出し、出現頻度が高いVWを抑制することで、特定の画像に出現するVWを強調し画像認識精度が向上する効果が得られる。第一重要度は、VW数と同数の値を持つ。第二重要度は、重要度A、重要度Bという最大2種類の重要度から算出される。重要度Aは、同一物体画像における出現頻度が高いVWを強調する。重要度Bは、参照画像中の類似する画像群における出現頻度が高いVWを抑制する。第二重要度を算出するための重要度の形態は、重要度A、重要度B、または、重要度A×重要度Bの3種類がある。重要度Aを用いて第二重要度を算出する場合、重要度算出の計算量は最も少なく、参照画像群に同一物体画像が複数存在する場合には画像認識精度の向上効果が得られるが、同一物体画像が複数存在しない場合には精度向上効果は得られない。重要度Bを用いて第二重要度を算出する場合、計算量は重要度Aよりも多いが、参照画像中に類似する画像が含まれている場合には画像認識精度の向上効果が得られる。重要度A×重要度Bを用いて第二重要度を算出する場合、計算量は最も多いが、照画像群に同一物体画像が複数存在する場合、照画像中に類似する画像が含まれている場合のどちらの場合でも精度向上効果が得られる。いずれの場合であっても、第二重要度は、VW数×参照画像枚数と同数の値を持つ。
ここで、本実施の形態の画像認識装置は画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は参照画像に付与された情報を検索する装置である。
<本発明の第1の実施の形態に係る画像認識装置の構成>
次に、本発明の第1の実施の形態に係る画像認識装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る画像認識装置100は、CPUと、RAMと、後述する画像認識処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像認識装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部60とを備えている。
入力部10は、画像の内容を表す参照ラベルが付与された参照画像からなる参照画像群の入力を受け付ける。本実施の形態では、量子化器の学習に用いる学習画像群は、参照画像群と同一としてもよいし、別の画像群を用いてもよい。以下では、参照画像の枚数はN枚(I、I、・・・I)として説明する。Nは自然数である。参照ラベルは、例えば、参照画像の枚数と同数の自然数配列とし、画像の内容が同一である参照画像群のラベルは同じ自然数とすればよい。画像の内容が不明である参照画像については、参照ラベルとして0や−1など、画像内容が分かっている他の参照画像と区別ができる整数を割り当てればよい。また、入力部10は、入力画像として検索キー画像を受け付ける。
演算部20は、特徴量抽出部30と、量子化器作成部32と、量子化器記憶部34と、量子化部36と、第一重要度算出部38と、第二重要度算出部40と、参照情報記憶部50と、正規化係数算出部52と、検索ランキング部54とを含んで構成されている。
特徴量抽出部30は、入力部10で受け付けた参照画像群に含まれる参照画像の各々から特徴量を抽出する。特徴量としては任意の公知のものを用いて構わないが、好ましくは局所特徴量を用いる。特徴量の抽出方法としては、例えばSIFT(上記非特許文献1)、SURF(非特許文献4:H. Bay, T. Tuytelaars and L.V. Gool: SURF: Speeded Up Robust Features. Lecture Notes in Computer Science, 2006)などの方法を用いればよい。SIFTを用いた場合、1枚の画像からは、128次元の特徴ベクトルの集合が抽出される。
また、特徴量抽出部30は、入力部10で受け付けた検索キー画像から特徴量を抽出する。
量子化器作成部32は、学習画像群に含まれる学習画像の各々から抽出された一つ以上の特徴量に基づいて、特徴量からVWへの量子化を行うための量子化器を作成する。ここで、量子化器とは、特徴量を量子化するために、Visual Wordsと呼ばれるID(=1〜K)と、代表ベクトルとを対応付けたものである。量子化器の作成には、公知の方法を用いればよい。例えば、取得した一つ以上の特徴量に対してk−meansクラスタリング等のクラスタリングを適用することで、K個のクラスタ(K個のVWのID)とそれらの代表ベクトルを算出できる。あるいは、全特徴量からランダムに選択したK個の特徴量をそのまま代表ベクトルとしてもよい。KはVW(及び代表ベクトル)の数であり、任意の自然数である。例えば、K=256, K=2048, K=65536など、任意の値に設定してよいが、以下では、一般の場合としてVWの数はKとして説明する。
量子化器記憶部34には、量子化器作成部32により作成された量子化器が記憶されている。
量子化部36は、参照画像の各々について、当該参照画像から抽出された一つ以上の特徴量と、作成された量子化器とに基づいて、当該参照画像から抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化し、参照情報記憶部50に格納する。量子化方法は、例えば、画像の各特徴量との距離が最も小さくなる一つ以上の代表ベクトルを算出し、当該特徴量にそのVWを割り当てるようにすればよい。また、距離が一定値以下のいくつかの代表ベクトルに対応付けられるVWを割り当ててもよい。
また、量子化部36は、検索キー画像について、抽出された一つ以上の特徴量と、作成された量子化器とに基づいて、抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化する。
第一重要度算出部38は、参照画像群に含まれる参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出し、参照情報記憶部50に格納する。
第一重要度算出部38は、具体的には、参照画像毎に割り当てられたVWを用いて、どのVWが重要なのかという第一重要度を算出し、出力する。第一重要度は、例えば、K個の数値で表現することができる。第一重要度としては、例えば、IDF(Inverse Document Frequency)や、上記特許文献1に記載されている、EBM25を用いればよい。IDFを用いる場合、VW毎に以下(1)式のように第一重要度を算出可能である。
第一重要度=log(N/df) ・・・(1)
dfは、参照画像群全体において、注目しているVWの出現回数である。これにより、VW毎に1個の数値を算出することができる。
検索ランキング部54は、以下に説明するように、量子化部36により、検索キー画像に割り当てられたVWと、参照画像毎に割り当てられたVWと、第一重要度又は後述する第二重要度と、後述する正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索する。本実施の形態では、第二重要度を用いる。
検索ランキング部54の検索において、VW毎の重要度(K個の数値で表現される)が入力される場合(第一重要度)と、参照画像毎のVW毎の重要度(N×Kの数値で表現される)が入力される場合(第二重要度)とがあるが、その参照方法以外に違いはない。正規化係数は、参照画像毎に重要度を正規化する係数であり、N個の数値で表現される。検索ランキング部54は、具体的には、まず検索キー画像が持つVW毎に、同一のVWを持つ参照画像への投票を繰り返す。つまり、検索キー画像が持つVW毎に、各参照画像の当該VWの個数をカウントする。例えば、検索キー画像がID1〜3のVWを持つとする。そのVW毎に、当該VWを持つ参照画像を算出する。
以下に、「検索キー画像が持つVW−>当該VWを持つ参照画像」として表す。
1−>I2、I3
2−>I2、I3、I4
3−>I3、I4
ここで、仮に投票時の1票の重さを1とすると、参照画像毎の得票値は以下のように「参照画像−>得票値」として表される。
I1−>0
I2−>1+1=2
I3−>1+1+1=3
I4−>1+1=2
投票時には、重要度として第一重要度が与えられている場合は、当該VWに応じた第一重要度の数値を1票の重さとして投票する。重要度として第二重要度が与えられている場合は、参照画像に対応するVWに第二重要度の数値を1票の重さとして投票する。例えば、重要度として、ID1、2、3のVWの重要度がそれぞれ0.5、0.3、0.7という第一重要度が与えられている場合は、参照画像毎の得票値は以下のように「参照画像−>重要度に基づく得票値」として表される。
I1−>0
I2−>0.5+0.3=0.8
I3−>0.5+0.3+0.7=1.5
I4−>0.3+0.7=1.0
検索ランキング部54では、全投票後、参照画像毎に、当該参照画像の得票値に、当該参照画像に対して算出された正規化係数を掛けた値を、検索キー画像と当該参照画像との類似度とする。例えば、I1、I2、I3、I4の正規化係数がそれぞれ1.1、1.2、1.3、1.4の場合、類似度は以下のように「参照画像−>類似度」として表される。
I1−>0×1.1=0
I2−>0.8×1.2=0.96
I3−>1.5×1.3=1.95
I4−>1.0×1.4=1.4
そして、検索ランキング部54は、類似度が高い順に参照画像をソートし、各上位X枚を検索ランキング結果とする。Xは1以上N以下の整数である。
参照情報記憶部50は、参照情報として、参照画像毎にVWを割り当てた結果(どのVWがどの参照画像中にいくつ存在するのかを示す)と、第一重要度と、後述する第二重要度と、参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数と、が格納されている。
正規化係数算出部52は、参照画像の各々について、参照情報記憶部50に格納された、参照画像に割り当てられたVWと、第一重要度又は第二重要度とに基づいて、参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出し、参照情報記憶部50に格納する。
正規化係数は参照画像毎に、以下の通りに算出する。
正規化係数=1/(Σ重要度)(1/2) ・・・(2)
参照画像毎に、当該参照画像が持つVWの重要度を足し合わせ、正の平方根と取った上で、逆数にしたものである。正規化係数は、参照画像毎に値を持つ。なお、入力される重要度は、本実施の形態では、第一重要度(K個の数値で表現される)と、後述する第二重要度(N×Kの数値で表現される)とがあるが、本実施の形態では、第一重要度を算出後に第一重要度を用いた第一正規化係数を算出し、第二重要度算出後に第二重要度を用いた第二正規化係数を算出する。本実施の形態では、検索ランキング部54の処理において第二重要度を用いて算出した第二正規化係数を適用して検索を行うが、第一重要度を用いて算出した正規化係数を適用してもよい。また、後述する検索部44では、第一重要度を用いて算出した第一正規化係数を適用して検索を行う。
第二重要度算出部40は、参照情報記憶部50に格納された参照画像群に含まれる参照画像毎にVWを割り当てた結果と、参照画像毎に付与された参照ラベルとに基づいて、参照画像の各々に対し、参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、参照画像に割り当てられたVWの各々の重要度を算出し、参照画像に対して算出したVWの各々の重要度と、算出されたVWの各々の第一重要度とを掛けて、参照画像に割り当てられたVWの各々の第二重要度を算出し、参照情報記憶部50に格納する。
具体的には、第二重要度算出部40は、重要度A算出部42と、検索部44と、重要度B算出部46とから構成される。
ここで、第二重要度は、参照画像の各々に対するVW毎に値を持ち、例えばN×Kの行列で表現できる。第二重要度には、以下に説明する「重要度A」、「重要度B」、「重要度A×重要度B」を用いる3種類の形態がある。本実施の形態では、第二重要度は「重要度A×重要度B」を用いる形態とするが、「重要度A」を用いる形態、又は「重要度B」を用いる形態としてもよい。ここで、重要度Aの算出には、参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度を用いる。重要度Bの算出には、参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度を用いる。
以下、「重要度A」、「重要度B」、「重要度A×重要度B」のそれぞれの重要度を用いる場合について説明する。
[重要度Aを用いて第二重要度を算出する形態]
まず、第二重要度を、重要度Aを用いて算出する場合について説明する。
重要度A算出部42は、参照画像毎に割り当てられたVW毎に以下の(3)式に従って重要度Aを算出する。
重要度A=1/log(((Ns+1)/(dfs+1)+1)) ・・・(3)
ここで、Nsは、同一の参照ラベルを持つ画像枚数、dfsは、当該参照ラベルを持つ参照画像群における、各VWの出現回数である。画像内容が不明な参照画像(参照ラベルが0や−1の画像など)に対しては、例えば、重要度Aは全て1とすれば良い。また、画像内容が分かっている参照画像の重要度Aの平均値としても良い。参照画像毎のVW毎に、重要度Aの値に対して、第一重要度の値を掛けた値を第二重要度とする。ただし、第一重要度は参照画像毎に値は持っていないため、VW毎に値を持つK個の数値であるため、参照画像毎に同一の値を用いて計算する。
そして、重要度A算出部42は、参照画像毎に割り当てられたVW毎に、重要度Aの値に対して、第一重要度の値を掛けた値を第二重要度とする。なお、重要度Aを用いて第二重要度を算出する形態においては、第二重要度算出部40は、検索部44、及び重要度B算出部46を含まなくてもよい。
[重要度Bを用いて第二重要度を算出する形態]
次に、第二重要度を、重要度Bを用いて算出する場合について説明する。
まず、検索部44によって、検索ランキング部54と同様の処理によって、入力された参照画像の各々について、当該参照画像を検索参照画像とし、検索参照画像に割り当てられたVWと、当該検索参照画像以外の参照画像毎に割り当てられたVWと、第一重要度と、第一正規化係数とに基づいて、検索参照画像に類似する上位L枚の参照画像を検索する。ここで、Lは1以上X以下の整数とする。
重要度B算出部46は、当該検索参照画像に割り当てられたVW、参照ラベル、及び検索部44で検索された当該検索参照画像の検索ランキング結果から、重要度Bを算出する。
重要度Bの算出においては、まず、当該検索参照画像の検索ランキング結果のうち、当該検索参照画像の参照ラベルと異なる参照ラベルを持つ参照画像上位L枚を、当該検索参照画像の類似画像とする。次に、当該検索参照画像に含まれるVW毎に以下の(4)式に従って重要度Bを算出する。
重要度B=log((L+1)/dfl) ・・・(4)
dflは、当該検索参照画像、及び、その類似画像L枚を合わせたL+1毎の参照画像群における、各VWの出現回数である。
そして、重要度B算出部46は、検索参照画像毎に割り当てられたVW毎に、重要度Bの値に対して、第一重要度の値を掛けた値を第二重要度とする。なお、重要度Bを用いて第二重要度を算出する形態においては、第二重要度算出部40は、重要度A算出部42を含まなくてもよい。
[重要度A×重要度Bを用いて第二重要度を算出する形態]
次に、第二重要度を、重要度A×重要度Bを用いて算出する場合について説明する。
重要度A算出部42及び重要度B算出部46は、重要度A、及び重要度Bの各々を、上記と同様の手法で算出する。
そして、重要度B算出部46は、参照画像毎に割り当てられたVW毎に、重要度A×重要度Bの値に対して、第一重要度の値を掛けた値を第二重要度とする。
<本発明の実施の形態に係る画像認識装置の作用>
次に、本発明の実施の形態に係る画像認識装置100の作用について説明する。入力部10において参照ラベルが付与された参照画像からなる参照画像群の入力を受け付けると、画像認識装置100は、図2に示す画像認識処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた参照画像群に含まれる参照画像の各々から特徴量を抽出する。なお、学習画像群が、参照画像群と異なる場合には、別途学習画像群に含まれる学習画像の各々から特徴量を抽出する。
次に、ステップS102では、参照画像群を、量子化器を作成するための学習画像群として、ステップS100で参照画像の各々から抽出された一つ以上の特徴量に基づいて、特徴量からVWへの量子化を行うための量子化器を作成し、量子化器記憶部34に記憶する。
ステップS104では、参照画像の各々について、ステップS100で抽出された一つ以上の特徴量と、ステップS102で作成された量子化器とに基づいて、抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化し、参照情報記憶部50に記憶する。
ステップS106では、ステップS104における参照画像群に含まれる参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出し、参照情報記憶部50に記憶する。
ステップS108では、参照画像の各々について、参照情報記憶部50に記憶された、参照画像に割り当てられたVWと、第一重要度とに基づいて、第一正規化係数を算出し、参照情報記憶部50に記憶する。
ステップS110では、処理対象とする参照画像を選択する。なお、第二重要度を算出しない場合には、本ステップからステップS122までを実行しなくてもよい。
ステップS112では、ステップS110で選択した当該参照画像のVW毎に上記(3)式に従って重要度Aを算出する。
ステップS114では、当該参照画像を検索参照画像とし、参照画像に割り当てられたVWと、当該参照画像以外の参照画像毎に割り当てられたVWと、第一重要度と、第一正規化係数とに基づいて、検索参照画像に類似する上位X枚の参照画像を検索する。
ステップS116では、当該参照画像に割り当てられたVW、参照ラベル、及びステップS114で検索された当該参照画像の検索ランキング結果から、当該参照画像に含まれるVW毎に、上記(4)式に従って重要度Bを算出し、参照画像毎に割り当てられたVW毎に、重要度A×重要度Bの値に対して、第一重要度の値を掛けた値を、当該参照画像の第二重要度として算出し、参照情報記憶部50に記憶する。
ステップS118では、ステップS112〜S116の処理により、全ての参照画像について第二重要度を算出したかを判定し、全ての参照画像について算出していれば、ステップS120へ移行し、全ての参照画像について算出していなければステップS110へ戻って次の参照画像を選択して処理を繰り返す。
ステップS120では、参照画像の各々について、参照情報記憶部50に記憶された、参照画像に割り当てられたVWと、第二重要度とに基づいて、第二正規化係数を算出し、参照情報記憶部50に記憶する。
ステップS122では、入力部10により、検索キー画像の入力を受け付け、検索キー画像から特徴量を抽出する。
ステップS124では、検索キー画像について、ステップS122で抽出された一つ以上の特徴量と、作成された量子化器とに基づいて、抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化し、参照情報記憶部50に記憶する。
ステップS126では、ステップS124で検索キー画像に割り当てられたVWと、ステップS104で参照画像毎に割り当てられたVWと、ステップS110〜118で算出された第二重要度と、ステップS120で算出された第二正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索する。
ステップS128では、ステップS126で検索された上位X枚の参照画像を出力部60に出力し処理を終了する。
以上説明したように、第1の実施の形態に係る画像認識装置によれば、参照画像の各々、及び検索キー画像から特徴量を抽出し、参照画像の各々から抽出された特徴量に基づいて、VWへの量子化を行うための量子化器を作成し、特徴量と、量子化器とに基づいて、特徴量に対してVWを割り当てることにより量子化し、参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出し、参照画像毎にVWを割り当てた結果と、参照ラベルとに基づいて、参照画像の各々に対し、参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、参照画像に割り当てられたVWの各々の重要度を算出し、参照画像に対して算出したVWの各々の重要度と、算出されたVWの各々の第一重要度とを掛けて、参照画像に割り当てられたVWの各々の第二重要度を算出し、参照画像の各々について正規化係数を算出し、検索キー画像に割り当てられたVWと、参照画像毎に割り当てられたVWと、第一重要度又は第二重要度と、正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索することにより、入力画像に類似する参照画像の情報を、精度よく、かつ、高速に得ることができる。
<本発明の第2の実施の形態に係る画像認識装置の構成>
次に、本発明の第2の実施の形態に係る画像認識装置の構成について説明する。なお、第1の実施の形態と同様の構成となる箇所については同一符号を付して説明を省略する。
図3に示すように、本発明の第2の実施の形態に係る画像認識装置100は、CPUと、RAMと、後述する画像認識処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像認識装置100は、機能的には図3に示すように入力部10と、演算部220と、出力部60とを備えている。
演算部220は、特徴量抽出部30と、量子化器作成部32と、ランダム行列算出部230と、量子化器記憶部34と、量子化部36と、ベクトル化部232と、第一重要度算出部38と、第二重要度算出部40と、参照情報記憶部50と、正規化係数算出部52と、検索ランキング部234とを含んで構成されている。
ランダム行列算出部230は、画像の各々から抽出された一つ以上の特徴量の次元から、特徴量をランダムに写像するためのランダム行列を算出し、量子化器記憶部34に記憶する。特徴量が128次元とすると、ランダム行列は128×Dの行列で表現できる。ここでDは、128以下の自然数である。ランダム行列は、128×D個の要素を乱数で作成すれば良い。乱数としては、例えば、−1以上1以下の一様乱数、平均0、分散1の正規乱数などを用いれば良い。また、作成した行列を、LU分解、QR分解など、公知の行列分解方法によって分解し、ランダム行列としても良い。なお、残差ベクトルをバイナリベクトルにしない場合には、ランダム行列を必要としないため、ランダム行列算出部230を設けなくてもよい。
ベクトル化部232は、参照画像の各々について、特徴量抽出部30から抽出された一つ以上の特徴量と、作成された量子化器と、当該参照画像に割り当てられたVWと、算出されたランダム行列とに基づいて、当該参照画像に割り当てられたVW毎の残差ベクトルを作成する。
図4に、ベクトル化部232における残差ベクトルの作成方法の例を示す。具体的には、まず、特徴量毎に、割り当てられたVWの代表ベクトルとの残差ベクトルを算出する。例えば、特徴量が128次元の場合、残差は128次元となる。ある参照画像の全ての特徴量に対して、VW毎に残差の平均値を取ることで、1枚の参照画像に対して、当該量子が持つユニークなVW数分の残差ベクトルを算出することができる。仮にある参照画像が持つユニークなVW数がP個であるとすると、特徴量が128次元の場合、残差ベクトルは128×P次元となる。また、算出した残差ベクトルを2値化し、バイナリベクトルとしてもよい。例えば、残差ベクトルを、先に生成したランダム行列で写像した後、同じく代表ベクトルをランダム行列で写像した値を閾値としてこれより大きな値を持つ要素を1、それ以外を−1とすることにより、2値化すればよい。このようにバイナリ化した場合、元の実数値の残差ベクトルを用いる場合に比べて情報の精度は劣化するものの、実数値に比べてメモリ効率を稼ぐことができるという利点がある。なお、バイナリ化しない場合、ベクトル作成部212はランダム行列を入力として必要としない。
また、ベクトル化部232は、検索キー画像について、上記の参照画像の場合と同様の手法を用いて、特徴量抽出部30から抽出された一つ以上の特徴量と、作成された量子化器と、当該検索キー画像に割り当てられたVWと、算出されたランダム行列とに基づいて、当該検索キー画像に割り当てられたVW毎の残差ベクトルを作成する。
なお、作成した残差ベクトルは、参照情報記憶部50に記憶される。
検索ランキング部234は、以下に説明するように、検索キー画像について作成されたVW毎の残差ベクトルと、参照画像の各々について作成されたVW毎の残差ベクトルと、第一重要度又は第二重要度と、正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索する。本実施の形態では、第一重要度を用いずに、第二重要度を用いて、検索キー画像に類似する上位X枚の参照画像を検索する場合を例に説明する。
検索ランキング部234は、具体的には、まず、第二重要度を重みとした重み付き内積を算出する。つまり、参照画像の各々について、検索キー画像の残差ベクトル(実数又はバイナリ)と、当該参照画像の残差ベクトルとの内積をVW毎に計算し、重要度を、計算した内積にVW毎に掛けたのち、総和を取る。第二重要度を用いる場合には、当該参照画像の各々に対応するVW毎に、計算した内積に第二重要度の値を掛けるようにすればよい。そして、当該参照画像について算出された数値に、当該参照画像に応じた正規化係数を掛けた数値を類似度とする。類似度が高い順に参照画像をソートし、上位X枚を検索ランキング結果とする。なお、重要度として第一重要度を用いる場合には、VW毎に計算した内積に、参照画像群に共通したVW毎の第一重要度の値を掛けるようにすればよい。
なお、第2の実施の形態における他の構成は、第1の実施の形態と同様であるため説明を省略する。
<本発明の第2の実施の形態に係る画像認識装置の作用>
次に、本発明の第2の実施の形態に係る画像認識装置100の作用について説明する。なお、第1の実施の形態と同様の作用となる箇所については同一符号を付して説明を省略する。
入力部10において参照ラベルが付与された参照画像からなる参照画像群の入力を受け付けると、画像認識装置100は、図5に示す画像認識処理ルーチンを実行する。
ステップS200では、ステップS100で参照画像の各々について抽出された一つ以上の特徴量の次元から、特徴量をランダムに写像するためのランダム行列を算出し、量子化器記憶部34に記憶する。なお、残差ベクトルをバイナリベクトルにしない場合には、ステップS200を省略してよい。
ステップS202では、参照画像の各々について、ステップS100で抽出された一つ以上の特徴量と、ステップS102で作成された量子化器と、ステップS104で当該参照画像に割り当てられたVWと、ステップS200で算出されたランダム行列とに基づいて、当該参照画像に割り当てられたVW毎の残差ベクトルを作成し、参照情報記憶部50に記憶する。
ステップS204では、検索キー画像について、ステップS100で抽出された一つ以上の特徴量と、ステップS102で作成された量子化器と、ステップS124で当該検索キー画像に割り当てられたVWと、ステップS200で算出されたランダム行列とに基づいて、当該検索キー画像に割り当てられたVW毎の残差ベクトルを作成し、参照情報記憶部50に記憶する。
ステップS206では、ステップS204で検索キー画像について作成されたVW毎の残差ベクトルと、ステップS202で参照画像の各々について作成されたVW毎の残差ベクトルと、ステップS110〜118で算出された第二重要度と、ステップS120で算出された正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索する。
なお、第2の実施の形態の他の作用は第1の実施の形態と同様であるため説明を省略する。
以上説明したように、第2の実施の形態に係る画像認識装置によれば、参照画像の各々、及び検索キー画像から特徴量を抽出し、参照画像の各々から抽出された特徴量に基づいて、VWへの量子化を行うための量子化器を作成し、特徴量と、量子化器とに基づいて、特徴量に対してVWを割り当てることにより量子化し、参照画像の各々、及び検索キー画像について、割り当てられたVW毎の残差ベクトルを作成し、参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出し、参照画像毎にVWを割り当てた結果と、参照ラベルとに基づいて、参照画像の各々に対し、参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、参照画像に割り当てられたVWの各々の重要度を算出し、参照画像に対して算出したVWの各々の重要度と、算出されたVWの各々の第一重要度とを掛けて、参照画像に割り当てられたVWの各々の第二重要度を算出し、参照画像の各々について正規化係数を算出し、検索キー画像について作成されたVW毎の残差ベクトルと、参照画像の各々について作成されたVW毎の残差ベクトルと、第一重要度又は第二重要度と、正規化係数とに基づいて、検索キー画像に類似する上位X枚の参照画像を検索することにより、入力画像に類似する参照画像の情報を、精度よく、かつ、高速に得ることができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施形態における画像認識装置をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
また、第1及び第2の実施の形態では、一つの検索キー画像から参照画像を検索する場合を例に説明したが、これに限定されるものではなく、複数の検索キー画像を入力とし、複数の検索キー画像の各々について、当該検索キー画像に類似する参照画像を検索するようにしてもよい。
10 入力部
20 演算部
30 特徴量抽出部
32 量子化器作成部
34 量子化器記憶部
36 量子化部
38 第一重要度算出部
40 第二重要度算出部
42 重要度A算出部
44 検索部
46 重要度B算出部
50 参照情報記憶部
52 正規化係数算出部
54、234 検索ランキング部
60 出力部
230 ランダム行列算出部
232 ベクトル化部

Claims (9)

  1. 画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置であって、
    前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出する特徴抽出部と、
    学習画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成する量子化器作成部と、
    前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化する量子化部と、
    前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出する第一重要度算出部と、
    前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する第二重要度算出部と、
    前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出する正規化係数算出部と、
    前記検索キー画像に割り当てられたVWと、前記参照画像毎に割り当てられたVWと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索する検索ランキング部と、
    を含む画像認識装置。
  2. 前記第二重要度算出部は、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する請求項1に記載の画像認識装置。
  3. 画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置であって、
    前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出する特徴抽出部と、
    前記参照画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成する量子化器作成部と、
    前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化する量子化部と、
    前記参照画像の各々、及び前記検索キー画像について、前記抽出された一つ以上の特徴量と、前記作成された量子化器と、前記割り当てられたVWとに基づいて、前記割り当てられたVW毎の残差ベクトルを作成するベクトル作成部と、
    前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出する第一重要度算出部と、
    前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する第二重要度算出部と、
    前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出する正規化係数算出部と、
    前記検索キー画像について作成されたVW毎の残差ベクトルと、前記参照画像の各々について作成されたVW毎の残差ベクトルと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索する検索ランキング部と、
    を含む画像認識装置。
  4. 前記第二重要度算出部は、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する請求項3に記載の画像認識装置。
  5. 画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置における画像認識方法であって、
    特徴抽出部が、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出するステップと、
    量子化器作成部が、学習画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成するステップと、
    量子化部が、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化するステップと、
    第一重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出するステップと、
    第二重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出するステップと、
    正規化係数算出部が、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出するステップと、
    検索ランキング部が、前記検索キー画像に割り当てられたVWと、前記参照画像毎に割り当てられたVWと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索するステップと、
    を含む画像認識方法。
  6. 前記第二重要度算出部が算出するステップは、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する請求項5に記載の画像認識方法。
  7. 画像の内容を表す参照ラベルが予め付与された参照画像群から、入力された検索キー画像と同一の物体を含む参照画像、又は前記参照画像に付与された情報を検索する画像認識装置における画像認識方法であって、
    特徴抽出部が、前記参照画像群に含まれる参照画像の各々、及び前記検索キー画像から特徴量を抽出するステップと、
    量子化器作成部が、前記参照画像の各々から抽出された一つ以上の特徴量に基づいて、前記特徴量からVisual Words(VW)への量子化を行うための量子化器を作成するステップと、
    量子化部が、前記参照画像の各々、及び前記検索キー画像について、抽出された一つ以上の特徴量と、前記作成された量子化器とに基づいて、前記抽出された一つ以上の特徴量に対してVWを割り当てることにより量子化するステップと、
    ベクトル作成部が、前記参照画像の各々、及び前記検索キー画像について、前記抽出された一つ以上の特徴量と、前記作成された量子化器と、前記割り当てられたVWとに基づいて、前記割り当てられたVW毎の残差ベクトルを作成するステップと、
    第一重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果に基づいて、VWの各々の出現頻度から、VWの各々の第一重要度を算出するステップと、
    第二重要度算出部が、前記参照画像群に含まれる前記参照画像毎にVWを割り当てた結果と、前記参照画像毎に付与された前記参照ラベルとに基づいて、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、又は前記参照画像とは異なる参照ラベルが付与され、かつ、類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出するステップと、
    正規化係数算出部が、前記参照画像の各々について、前記参照画像に割り当てられたVWと、前記第一重要度又は前記第二重要度とに基づいて、前記参照画像毎に割り当てられたVWの数の違いの影響を抑制するための正規化係数を算出するステップと、
    検索ランキング部が、前記検索キー画像について作成されたVW毎の残差ベクトルと、前記参照画像の各々について作成されたVW毎の残差ベクトルと、前記第一重要度又は前記第二重要度と、前記正規化係数とに基づいて、前記検索キー画像に類似する上位X枚の参照画像を検索するステップと、
    を含む画像認識方法。
  8. 前記第二重要度算出部が算出するステップは、前記参照画像の各々に対し、前記参照画像と同一の参照ラベルが付与された参照画像間におけるVWの各々の出現頻度、及び前記参照画像と異なる参照ラベルが付与され、かつ、前記参照画像と類似する参照画像間におけるVWの各々の出現頻度から、前記参照画像に割り当てられたVWの各々の重要度を算出し、前記参照画像に対して算出したVWの各々の重要度と、前記算出されたVWの各々の第一重要度とを掛けて、前記参照画像に割り当てられたVWの各々の第二重要度を算出する請求項7に記載の画像認識方法。
  9. コンピュータを、請求項1〜請求項4のいずれか1項に記載の画像認識装置の各部として機能させるためのプログラム。
JP2015179873A 2015-09-11 2015-09-11 画像認識装置、方法、及びプログラム Active JP6317715B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015179873A JP6317715B2 (ja) 2015-09-11 2015-09-11 画像認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015179873A JP6317715B2 (ja) 2015-09-11 2015-09-11 画像認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017054438A true JP2017054438A (ja) 2017-03-16
JP6317715B2 JP6317715B2 (ja) 2018-04-25

Family

ID=58316778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015179873A Active JP6317715B2 (ja) 2015-09-11 2015-09-11 画像認識装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6317715B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020100289A1 (ja) 2018-11-16 2020-05-22 富士通株式会社 類似度計算装置、類似度計算方法および類似度計算プログラム
CN111476141A (zh) * 2020-04-02 2020-07-31 吉林建筑大学 一种提高样本标签准确性的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133516A (ja) * 2010-12-21 2012-07-12 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム
JP2013206437A (ja) * 2012-03-29 2013-10-07 Rakuten Inc 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体
JP2014099110A (ja) * 2012-11-15 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133516A (ja) * 2010-12-21 2012-07-12 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム
JP2013206437A (ja) * 2012-03-29 2013-10-07 Rakuten Inc 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体
JP2014099110A (ja) * 2012-11-15 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置、方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020100289A1 (ja) 2018-11-16 2020-05-22 富士通株式会社 類似度計算装置、類似度計算方法および類似度計算プログラム
JPWO2020100289A1 (ja) * 2018-11-16 2021-11-04 富士通株式会社 類似度計算装置、類似度計算方法および類似度計算プログラム
CN111476141A (zh) * 2020-04-02 2020-07-31 吉林建筑大学 一种提高样本标签准确性的方法和装置

Also Published As

Publication number Publication date
JP6317715B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
US20180336405A1 (en) Method of digitizing and extracting meaning from graphic objects
US9053386B2 (en) Method and apparatus of identifying similar images
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN105095435A (zh) 一种图像高维特征的相似比较方法及装置
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
JP5598925B2 (ja) 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
CN103699691A (zh) 生成图像指纹及基于此进行相似图像检索的方法
Gupta et al. Visual semantic-based representation learning using deep CNNs for scene recognition
JP2015201042A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Khalaf et al. Robust partitioning and indexing for iris biometric database based on local features
JP6317715B2 (ja) 画像認識装置、方法、及びプログラム
US20200257934A1 (en) Processing content
JP2017162009A (ja) 特徴量生成装置、方法、及びプログラム
CN113536020A (zh) 数据查询的方法、存储介质和计算机程序产品
Van et al. Content‐based image retrieval based on binary signatures cluster graph
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
Wu et al. Codebook-free compact descriptor for scalable visual search
CN114943285B (zh) 互联网新闻内容数据智能审核***
US20150332173A1 (en) Learning method, information conversion device, and recording medium
Li et al. Near duplicate image detecting algorithm based on bag of visual word model
JP2017215784A (ja) 物体検出装置、方法、及びプログラム
CN111090743B (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180330

R150 Certificate of patent or registration of utility model

Ref document number: 6317715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150