JP6751684B2 - 類似画像検索装置 - Google Patents

類似画像検索装置 Download PDF

Info

Publication number
JP6751684B2
JP6751684B2 JP2017063286A JP2017063286A JP6751684B2 JP 6751684 B2 JP6751684 B2 JP 6751684B2 JP 2017063286 A JP2017063286 A JP 2017063286A JP 2017063286 A JP2017063286 A JP 2017063286A JP 6751684 B2 JP6751684 B2 JP 6751684B2
Authority
JP
Japan
Prior art keywords
image
feature amount
search
input
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017063286A
Other languages
English (en)
Other versions
JP2018165926A (ja
Inventor
心語 郭
心語 郭
俊樹 酒井
俊樹 酒井
杉村 利明
利明 杉村
隼 赤塚
隼 赤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2017063286A priority Critical patent/JP6751684B2/ja
Publication of JP2018165926A publication Critical patent/JP2018165926A/ja
Application granted granted Critical
Publication of JP6751684B2 publication Critical patent/JP6751684B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、入力画像に類似する画像を検索する類似画像検索装置に関する。
画像を指定すると似ている画像を探し出してくれる技術が知られている。具体的には、以下のような技術が知られている。予め、大量の画像と当該画像から抽出された画像の特徴を示す特徴量ベクトルとを記憶しておく。特徴量ベクトルは、画像のデータから画像の抽象的な特徴を数値群に変換したものである。新たな画像を入力して、当該新たな画像の特徴量ベクトルを抽出する。予め記憶された画像の特徴量ベクトルと、新たな画像の特徴量ベクトルとのなす角度(類似度)を計算し、類似度に基づいて、予め記憶した画像から、新たな画像に類似する画像を探し出す。
このような類似画像検索技術は、スマートフォン又はデジタルカメラで撮影した画像の類似画像の検索に利用されている。例えば、特許文献1では、ニューラルネットワークを用いて画像から特徴量ベクトルを算出する方法が示されている。
特開2016−18486号公報
ニューラルネットワークは、例えば、画像の属性を推定するためのものである。画像の属性としては、例えば、服の画像であれば、服の種類、色、パターン及び柄等である。通常、1つのニューラルネットワークは、1つの属性を推定するためのものである。従って、特許文献1に記載された方法では、1つの属性を考慮した類似画像を検索できると考えられるものの、複数の属性を考慮した類似画像を検索しようとすると必ずしもその精度が十分でないおそれがある。例えば、入力した画像に写っている服の種類、色、パターン及び柄等が類似している服の画像を検索しようとすると、必ずしもその精度が十分でないおそれがある。
本発明は、上記に鑑みてなされたものであり、精度の高い類似画像検索を行うことができる類似画像検索装置を提供することを目的とする。
上記の目的を達成するために、本発明に係る類似画像検索装置は、入力画像を入力する画像入力部と、予め記憶した、ニューラルネットワークを含んで構成される互いに異なる複数の分類器に対して、画像入力部によって入力された入力画像に基づく入力を行って、当該入力画像の特徴量ベクトルを算出する入力画像特徴量算出部と、検索対象画像の特徴量ベクトルを示す情報を取得する検索対象画像特徴量取得部と、入力画像特徴量算出部によって算出された特徴量ベクトル、及び検索対象画像特徴量取得部によって取得された情報によって示される特徴量ベクトルに基づいて、検索対象画像から入力画像に類似する画像を検索する検索部と、検索部による検索結果を示す情報を出力する出力部と、を備える。
本発明に係る類似画像検索装置では、複数の異なる分類器によって、入力画像の特徴量ベクトルが算出されて、当該特徴量ベクトルに基づいて、検索対象画像から入力画像に類似する画像が検索される。従って、本発明に係る類似画像検索装置によれば、複数の異なる分類器に対応する複数の属性を考慮して、画像の検索が行われる。即ち、本発明に係る類似画像検索装置によれば、精度の高い類似画像検索を行うことができる。
本発明によれば、複数の異なる分類器に対応する複数の属性を考慮して、画像の検索が行われる。即ち、本発明によれば、精度の高い類似画像検索を行うことができる。
本発明の実施形態に係る類似画像検索装置の構成を示す図である。 分類器を模式的に示す図である。 特徴量ベクトルの結合を模式的に示す図である。 特徴量ベクトルの数値例を示す図である。 類似画像検索装置から検索結果として出力される情報の例を示す図である。 本発明の実施形態に係る類似画像検索装置において、類似画像検索が行われる前に予め実行される処理を示すフローチャートである。 本発明の実施形態に係る類似画像検索装置において、類似画像検索が行われる際に実行される処理を示すフローチャートである。 本発明の実施形態に係る類似画像検索装置のハードウェア構成を示す図である。
以下、図面と共に本発明に係る類似画像検索装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る類似画像検索装置10を示す。類似画像検索装置10は、入力画像(入力画像の画像データ)を入力し、予め登録される登録画像である複数の検索対象画像(検索対象画像の画像データ)から、入力画像に類似する画像を検索する装置である。例えば、類似画像検索装置10は、サーバである。この場合、類似画像検索装置10は、移動体通信網等のネットワークを介して、ユーザ端末との間で互いに情報の送受信を行うことができる。類似画像検索装置10は、ユーザ端末から入力画像を受信して、検索を行って、入力画像に類似する画像を示す情報をユーザ端末に送信する。あるいは、類似画像検索装置10は、ユーザ端末であってもよい。この場合、類似画像検索装置10は、ユーザの操作によって入力画像を入力し(例えば、撮像を行って入力画像を入力し)、自端末に記憶している検索対象画像から、入力画像に類似する画像を検索する。
本実施形態に係る類似画像検索装置10は、画像の種別、即ち、画像に写ったオブジェクト毎に類似検索を行う。例えば、服が写った画像を入力画像とし、服が写った類似画像を検索する。
引き続いて、本実施形態に係る類似画像検索装置10の機能を説明する。図1に示すように類似画像検索装置10は、分類器生成部11と、画像入力部12と、入力画像特徴量算出部13と、検索対象画像特徴量取得部14と、検索部15と、出力部16とを備えて構成される。
分類器生成部11は、複数の分類器を生成する機能部である。分類器は、当該分類器に応じた属性についての画像の分類に用いられる情報である。属性は、例えば、服の画像であれば、当該画像に写っている服の種類、色、パターン及び柄等である。例えば、服の種類についての分類器は、当該画像に写っている服の種類が、Tシャツであるか、ポロシャツであるかといった分類を行う。あるいは、服の色についての分類器は、当該画像に写っている服の色が、ピンクであるかであるか、白であるかといった分類を行う。本実施形態では、属性についての分類先(上記の例では、Tシャツ、ポロシャツ、ピンク及び白等)をカテゴリと呼ぶ。
分類器は、画像に基づく情報を入力して、当該画像の当該分類器に対応する属性を示す情報、即ち、当該画像が分類されるカテゴリを示す情報を出力する。例えば、当該属性についてのカテゴリ毎のスコアを出力する。カテゴリのスコアの数値が高いほど、画像は当該カテゴリに分類される可能性が高いことを示している。
分類器は、ニューラルネットワークを含んで構成される。例えば、分類器は、ディープラーニングを用いた分類器である。図2に分類器を模式的に示す。図2に示すように、分類器は、それぞれ入力層(最初層)L1、中間層L2及び出力層L3の何れかに含まれる複数のニューロン(ノード)によって構成されている。中間層L2は、複数の階層のニューロンを含んでいる。
入力層L1に含まれる複数のニューロンそれぞれには、画像Pに基づく入力が行われる。入力層L1のニューロンへ入力される情報は、例えば、次のように生成される。まず、画像Pを一定数の複数の領域Aに分割する。例えば、画像Pの縦及び横を等間隔に予め設定した数に区切り、当該区切りによって生成される同一の大きさの矩形の領域Aに分割する。それぞれの当該矩形の領域Aの画素の画素値から、入力層L1のニューロンへ入力される情報(ベクトル)を生成する。例えば、当該領域Aにおける画素のRGBのそれぞれの数値の平均及び最大等を入力層L1のニューロンへ入力される情報とする。
入力層L1に入力された情報が、より深い階層に伝達されるうちに、各階層で属性の特徴が抽出される。即ち、各階層のニューロンは一定の大きさのフィルターを形成し、情報がスライドされてフィルター毎に複数の特徴が抽出される。出力層L3に含まれる複数のニューロンそれぞれから出力される情報(数値)は、各カテゴリのスコアを示している。
分類器生成部11は、複数の学習用画像、及び当該学習用画像の複数の属性を示す属性情報であるラベル情報を入力して、属性毎に、入力した学習用画像及びラベル情報を用いた学習(機械学習)を行って分類器を生成する。ラベル情報は、当該画像の各属性についてのカテゴリを示す情報である。即ち、学習用画像及び当該学習用画像の複数のラベル情報は、学習の教師データである。
学習用画像及びラベル情報は、類似画像検索装置10の管理者等によって用意されて、類似画像検索装置10に入力される。また、ラベル情報は、1つの学習用画像に対して、属性(生成される分類器)毎に用意される。例えば、学習用画像として、ピンクのTシャツが写っている画像を用意した場合、当該学習用画像の服の種類についてのラベル情報は、Tシャツを示す情報であり、当該学習用画像の服の色についてのラベル情報は、ピンクを示す情報である。
分類器生成部11は、学習用画像、及び当該学習用画像に対応する属性毎のラベル情報を用いて、ディープラーニングを行って、属性毎の分類器を生成する。分類器生成部11は、生成した複数の分類器を入力画像特徴量算出部13及び検索対象画像特徴量取得部14に出力する。なお、分類器生成部11によって生成される分類器は、類似画像検索に用いられるため、分類器生成部11による分類器の生成は、類似画像検索に先立って行われる。
画像入力部12は、入力画像を入力する機能部である。例えば、画像入力部12は、ユーザ端末から入力画像を受信して、入力画像を入力する。入力画像には、例えば、画像ID等の予め設定された、あるいは、類似画像検索装置10によって設定される識別子が付与されており、識別できるようになっていてもよい。画像入力部12は、入力した入力画像を入力画像特徴量算出部13に出力する。
入力画像特徴量算出部13は、画像入力部12から入力した入力画像の特徴量ベクトルを算出する機能部である。入力画像特徴量算出部13は、予め記憶した互いに異なる複数の分類器に対して、入力画像に基づく入力を行って、入力画像の特徴量ベクトルを算出する。入力画像特徴量算出部13は、ニューラルネットワークの出力層の予め設定された数の階層手前の中間層の数値を抽出し、当該中間層の数値に基づいて入力画像の特徴量ベクトルを算出してもよい。入力画像特徴量算出部13は、ニューラルネットワークの出力層の1階層手前の中間層の数値を抽出してもよい。入力画像特徴量算出部13は、入力画像の特徴量ベクトルの次元数を削減してもよい。入力画像特徴量算出部13は、分類器毎の入力画像の特徴量ベクトルの次元数に応じて、当該特徴量ベクトルの数値に重み付けを行うこととしてもよい。入力画像特徴量算出部13は、具体的には、以下のように入力画像の特徴量ベクトルを算出する。
入力画像特徴量算出部13は、分類器生成部11から属性毎の分類器を入力して記憶しておく。入力画像特徴量算出部13は、画像入力部12から入力画像を入力する。入力画像特徴量算出部13は、入力画像から、分類器(の入力層L1のニューロン)に入力する情報を生成する。入力画像特徴量算出部13は、上述したように当該情報を生成する。即ち、入力画像特徴量算出部13は、入力画像を、予め設定された数の矩形の領域に分割する。入力画像特徴量算出部13は、当該矩形の領域の画素の画素値から、入力層L1のニューロンへ入力される情報(ベクトル)を生成する。例えば、当該領域における画素のRGBのそれぞれの数値の平均及び最大等を入力層L1のニューロンへ入力される情報とする。
入力画像特徴量算出部13は、当該情報を各分類器に入力する。入力画像特徴量算出部13は、その際の、分類器の中間層L2のうち、出力層L3の1階層手前の階層L2aの各ニューロンの数値を、分類器毎の入力画像の特徴量ベクトルとする。通常、ニューラルネットワークでは、出力層L3よりも、中間層L2の方が、ニューロンの数が多く、より多くの情報を含んでいる。また、中間層L2の中でも出力層L3に近い階層の方が、属性に対してより特徴化された情報を含んでいる。従って、出力層L3の1階層手前の階層L2aの各ニューロンの数値を特徴量ベクトルとすることで、精度の高い類似画像検索を行うことができる。但し、分類器毎の入力画像の特徴量ベクトルとして、出力層L3の各ニューロンの数値、又は出力層L3の2階層以上手前の階層L2aの各ニューロンの数値を採用することとしてもよい。
入力画像特徴量算出部13は、得られた分類器毎の入力画像の特徴量ベクトルの次元数を削減する。次元数の削減は、一般的な特徴量の次元圧縮技術を用いることができる。例えば、PCA(主成分分析)、LDA(線形判別分析)、Auto Encoder、又はRestricted Boltzmann Machine等を用いることができる。また、上記以外にも、ニューラルネットワークを改造することで、次元数がより少ない特徴量ベクトルを取得することとしてもよい。
入力画像特徴量算出部13は、得られた分類器毎の入力画像の次元数削減後の特徴量ベクトルを結合する。例えば、入力画像特徴量算出部13は、分類器毎の入力画像の特徴量ベクトルの要素が、結合後の特徴量ベクトルの要素となるように結合する。これにより、結合後の特徴量ベクトルの次元数は、分類器毎の特徴量ベクトルの次元数の総和となる。例えば、属性A及び属性Bの特徴量ベクトル(属性A及び属性Bに対応する分類器によって得られる特徴量ベクトル)の次元数がNであり、属性Aの特徴量ベクトルが(a,a,…,a)であり、属性Bの特徴量ベクトルが(b,b,…,b)であった場合、2つの属性の特徴量ベクトルを結合した特徴量ベクトルは(a,a,…,a,b,b,…,b)である。
入力画像特徴量算出部13は、分類器毎の入力画像の特徴量ベクトルの次元数に応じて、当該特徴量ベクトルの数値に重み付けを行うこととしてもよい。複数の属性の特徴量ベクトルの次元数が異なる場合、それぞれの属性の特徴量ベクトルの数値の重みが違うため、複数の属性の特徴量ベクトルをそのまま結合すると類似画像検索結果に対する属性毎の影響が異なってしまう。例えば、属性Aの特徴量ベクトルの次元数が1000であり、属性Bの特徴量ベクトルの次元数が100であり、2つの属性の特徴量ベクトルをそのまま結合すると、属性Aは属性Bよりも類似画像検索結果に対して、より大きな影響を与える。
これに対して、入力画像特徴量算出部13は、各属性の特徴量ベクトルの類似画像検索結果に対する影響が均一化するように、特徴量ベクトルの数値に重み付けを行う。例えば、入力画像特徴量算出部13は、各属性の特徴量ベクトルの要素の数値を、√(特徴量ベクトルの次元数)で割ることで上記の均一化を行う。
例えば、属性Aの特徴量ベクトルの次元数がNであり、属性Aの特徴量ベクトルが(a,a,…,aNA)であった場合、重み付けした特徴量ベクトルは(a/√N,a/√N,…,aNA/√N)である。属性Bの特徴量ベクトルの次元数がNであり、属性Bの特徴量ベクトルが(b,b,…,bNB)であった場合、重み付けした特徴量ベクトルは(b/√N,b/√N,…,bNB/√N)である。これら2つの特徴量ベクトルを結合した特徴量ベクトルは、(a/√N,a/√N,…,aNA/√N,b/√N,b/√N,…,bNB/√N)である。
なお、上記の重み付けは、重み付けの趣旨から、各属性の特徴量ベクトルの次元数が互いに異なる場合のみに行うこととしてもよい。また、各属性の特徴量ベクトルの数値が適切に扱われるような、上記以外の重み付けを行うこととしてもよい。
図3に特徴量ベクトルの結合を模式的に示す。図3に示すように各分類器によって各属性の特徴量ベクトルV1(特徴量ベクトルV1,V1,…,V1の総称)が算出される。続いて、それらの特徴量ベクトルV1の重み付けがされた特徴量ベクトルV2(特徴量ベクトルV2,V2,…,V2の総称)が算出される。それらの特徴量ベクトルV2が結合されて、入力画像の特徴量ベクトルV3が生成される。図4に画像ID1である入力画像についての特徴量ベクトルの数値例を示す。図4(a)〜(c)に、属性1、属性2、属性Nの重み付けされた特徴量ベクトル(なお、これらの特徴量ベクトル以外にも、属性3〜属性N−1の特徴量ベクトルも存在している)を示し、図4(d)に、これらの重み付けされた各特徴量ベクトルから生成される結合された特徴量ベクトルを示す。
入力画像特徴量算出部13は、算出した入力画像の結合後の特徴量ベクトルを示す情報を検索部15に出力する。
検索対象画像特徴量取得部14は、検索対象画像の特徴量ベクトルを示す情報を取得する機能部である。検索対象画像特徴量取得部14は、検索対象画像を入力して、複数の分類器に対して、入力した検索対象画像に基づく入力を行って、当該検索対象画像の特徴量ベクトルを算出して、当該検索対象画像の特徴量ベクトルを示す情報を取得する。検索対象画像特徴量取得部14は、具体的には、以下のように検索対象画像の特徴量ベクトルを示す情報を取得する。
検索対象画像特徴量取得部14は、分類器生成部11から属性毎の分類器を入力して記憶しておく。検索対象画像特徴量取得部14は、検索対象画像を入力する。検索対象画像は、通常、複数の画像である。検索対象画像は、類似画像検索装置10の管理者等によって用意されて、類似画像検索装置10に入力される。上述した学習用画像が、検索対象画像として用いられてもよい。検索対象画像は、例えば、類似画像検索装置10及びユーザ端末等によってネットワークを介して参照可能な画像である。検索対象画像は、画像ファイル名(画像名)と、ネットワーク上の位置を示す情報であるURL(画像URL)とで識別できるようになっている。検索対象画像特徴量取得部14は、検索対象画像とあわせて、これらの当該検索対象画像を識別する情報を入力する。
検索対象画像特徴量取得部14は、入力画像特徴量算出部13が入力画像の特徴量ベクトルを算出するのと同様の方法で、各検索対象画像の特徴量ベクトルを算出する。なお、特徴量ベクトルの次元数を削減する場合には、後述する入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとの間の類似度の算出が適切に行えるように、入力画像特徴量算出部13及び検索対象画像特徴量取得部14は、入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとそれぞれに対して同一の方法を用いて次元数を削減する。
検索対象画像特徴量取得部14による検索対象画像の特徴量ベクトルの算出は、類似画像検索に先立って行われ得る。検索対象画像特徴量取得部14は、類似画像検索を行う(入力画像が入力される)前に予め、検索対象画像の特徴量ベクトルを算出しておく。検索対象画像特徴量取得部14は、算出して取得した検索対象画像の特徴量ベクトルを示す情報を検索部15に出力する。
検索部15は、入力画像の特徴量ベクトル、及び検索対象画像の特徴量ベクトルに基づいて、検索対象画像から入力画像に類似する画像を検索する機能部である。検索部15は、入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとの角度に応じた数値を算出して検索してもよい。検索部15は、具体的には、以下のように検索を行う。
検索部15は、検索対象画像特徴量取得部14から検索対象画像の特徴量ベクトルを示す情報を入力して記憶しておく。検索部15は、入力画像特徴量算出部13から入力画像の特徴量ベクトルを示す情報を入力する。検索部15は、入力画像の特徴量ベクトルと記憶した各検索対象画像の特徴量ベクトルとの類似度を算出する。類似度は、上記の属性を考慮した上で、入力画像が、どの程度、検索対象画像に類似(関連)しているかを示す指標値である。検索部15は、指標値として、入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとの角度に応じた数値を算出する。2つのベクトルの角度が小さいほど、入力画像が検索対象画像に類似していることを示す。
具体的には、検索部15は、上記の角度に応じた数値として、入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとのコサイン距離を算出する。ベクトルAとベクトルBとのコサイン距離cos(θ)は、以下の式によって算出される。
cos(θ)=A・B/|A||B|
コサイン距離の数値が大きいほど、入力画像が検索対象画像に類似していることを示し、コサイン距離の数値が小さいほど、入力画像が検索対象画像に類似していないことを示す。
類似度としては、コサイン距離以外のものも用いることができる。例えば、類似度として、ハミング距離、ユークリッド距離等の一般的な距離計算の手法を用いてもよい。
検索部15は、類似度に基づいて、検索対象画像から入力画像に類似する画像を抽出する。例えば、検索部15は、類似度が予め設定した閾値以上となっているか否かを判断し、類似度が閾値以上となっている検索対象画像を入力画像に類似する画像として抽出する。あるいは、検索部15は、類似度が高い順に予め設定した数の検索対象画像を入力画像に類似する画像として抽出する。検索部15は、入力画像に類似する画像として抽出した検索対象画像を示す情報を、検索結果として出力部16に出力する。
出力部16は、検索部15による検索結果を示す情報を出力する機能部である。出力部16は、例えば、入力画像に類似する画像として抽出された検索対象画像を示す情報を、検索結果としてユーザ端末に送信する。ユーザ端末に送信される情報の例を図5に示す。図5に示すように、当該情報には、入力画像に類似する検索対象画像の画像名及び画像URLが含まれる。また、検索対象画像毎の類似度を示す情報が含められて、当該類似度が高い順に検索対象画像の情報が並べられる。例えば、ユーザ端末は、当該情報を受信し、当該情報に含まれる画像URLに基づいて画像を取得して表示する。ユーザは、当該表示を参照することで入力画像に類似する画像を参照することができる。
また、類似画像検索装置10に検索対象画像を記憶しておき、検索結果として検索対象画像を送信することとしてもよい。なお、類似画像検索は、検索対象画像の特徴量ベクトルさえあれば行うことができるので、類似画像検索を行う時点では、必ずしも検索対象画像を類似画像検索装置10に記憶させておく必要はない。以上が、本実施形態に係る類似画像検索装置10の機能である。
引き続いて、図6及び図7のフローチャートを用いて、本実施形態に係る類似画像検索装置10で実行される処理(類似画像検索装置10が行う動作方法)を説明する。まず、図6のフローチャートを用いて、類似画像検索の準備段階において実行される処理、即ち、類似画像検索が行われる前に予め実行される処理を説明する。
本処理では、まず、分類器生成部11によって、学習用画像及び当該学習用画像に対応する複数のラベル情報が入力される(S01)。続いて、分類器生成部11によって、学習用画像及びラベル情報が用いられて分類器が生成される(S02)。分類器は、各ラベル情報に対応する属性毎に生成される。生成された分類器は、入力画像特徴量算出部13及び検索対象画像特徴量取得部14に記憶される。
続いて、検索対象画像特徴量取得部14によって、検索対象画像が入力される(S03)。続いて、検索対象画像特徴量取得部14によって、複数の分類器が用いられて、各検索対象画像について、属性(分類器)毎の特徴量ベクトルが算出される(S04)。続いて、検索対象画像特徴量取得部14によって、各検索対象画像について、属性毎の特徴量ベクトルが結合されて、検索対象画像の特徴量ベクトルが生成される(S05)。生成された各検索対象画像の特徴量ベクトルは、検索部15に記憶される。以上が、類似画像検索が行われる前に予め実行される処理である。
続いて、図7のフローチャートを用いて、類似画像検索が行われる際に実行される処理を説明する。本処理では、まず、画像入力部12によって、入力画像が入力される(S11)。続いて、入力画像特徴量算出部13によって、複数の分類器が用いられて、入力画像について、属性(分類器)毎の特徴量ベクトルが算出される(S12)。続いて、入力画像特徴量算出部13によって、入力画像について、属性毎の特徴量ベクトルが結合されて、入力画像の特徴量ベクトルが生成される(S13)。続いて、検索部15によって、入力画像の特徴量ベクトル、及び検索対象画像の特徴量ベクトルに基づいて、検索対象画像から入力画像に類似する画像が検索される(S14)。続いて、出力部16によって、検索結果を示す情報が出力される(S15)。以上が、類似画像検索が行われる際に実行される処理である。
本実施形態では、複数の異なる属性毎の分類器によって、入力画像の特徴量ベクトルが算出されて、当該特徴量ベクトルに基づいて、検索対象画像から入力画像に類似する画像が検索される。従って、本実施形態によれば、複数の属性を考慮して、画像の検索が行われる。通常、ユーザにとって画像が似ているかどうかは、一つの属性(観点)ではなく、複数の属性(観点)から判断される。例えば、ファッション雑誌に掲載されている服の画像であれば、服の色が類似していたとしても、服の種類、パターン及び柄が異なっていれば、ユーザはそれらが類似していると考えない。上述したように本実施形態では、服の画像であれば、種類、色、パターン及び柄等の類似を考慮して、類似画像検索が行われる。即ち、本実施形態では、ユーザの感覚に近い類似画像検索が行われる。従って、本実施形態によれば、精度の高い類似画像検索を行うことができる。具体的には例えば、ファッション雑誌に掲載されている服の画像に対して、精度の高い類似画像検索を行うことができる。
また、本実施形態のようにニューラルネットワークの中間層、特に出力層の1階層手前の中間層の数値を用いることとしてもよい。この構成によれば、更に精度の高い類似画像検索を行うことができる。
また、本実施形態のように特徴量ベクトルの次元数を削減することとしてもよい。この構成によれば、類似度の算出等の類似画像検索の処理負荷を軽減することができ、類似画像検索の処理速度が向上する。また、適切な次元数の削減を行うことで、更なる類似画像検索の精度向上も期待できる。
また、本実施形態のように学習を行って、分類器を構成する構成としてもよい。この構成によれば、確実に本発明を実施することができる。但し、分類器の生成は、必ずしも本発明に係る類似画像検索装置で行われる必要はなく、他の装置で生成された分類器を用いて、類似画像検索を行うこととしてもよい。
また、本実施形態のように、分類器毎の特徴量ベクトルの次元数に応じて、特徴量ベクトルの数値に重み付けを行うこととしてもよい。この構成によれば、適切な特徴量ベクトルを算出することができ、確実に精度の高い類似画像検索を行うことができる。
また、本実施形態のように検索対象画像を入力して、分類器を用いて、検索対象画像の特徴量ベクトルを算出することとしてもよい。この構成によれば、検索対象画像の特徴量ベクトルを示す情報を確実に取得することができ、確実に本発明を実施することができる。但し、検索対象画像の特徴量ベクトルの算出は、必ずしも本発明に係る類似画像検索装置で行われる必要はなく、他の装置で算出された検索対象画像の特徴量ベクトルを用いて、類似画像検索を行うこととしてもよい。
また、本実施形態のように、入力画像の特徴量ベクトルと検索対象画像の特徴量ベクトルとの角度に応じた数値を算出して検索することとしてもよい。この構成によれば、適切かつ確実に精度の高い類似画像検索を行うことができる。
なお、本実施形態では、服の画像を類似画像検索の対象としたが、服以外の種別の画像を類似画像検索の対象としてもよい。また、複数の種別の画像について、種別毎に類似画像検索を行えるようにしてもよい。
なお、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
例えば、本発明の一実施の形態における類似画像検索装置10は、本実施形態の類似画像検索装置10の処理を行うコンピュータとして機能してもよい。図8は、本実施形態に係る類似画像検索装置10のハードウェア構成の一例を示す図である。上述の類似画像検索装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。類似画像検索装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
類似画像検索装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、類似画像検索装置10の各機能部11〜16は、プロセッサ1001を含んで実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、類似画像検索装置10の各機能部11〜16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。例えば、上述の類似画像検索装置10の各機能部11〜16は、通信装置1004を含んで実現されてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、類似画像検索装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。
移動通信端末は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
10…類似画像検索装置、11…分類器生成部、12…画像入力部、13…入力画像特徴量算出部、14…検索対象画像特徴量取得部、15…検索部、16…出力部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。

Claims (7)

  1. 入力画像を入力する画像入力部と、
    予め記憶した、ニューラルネットワークを含んで構成される互いに異なる複数の分類器に対して、前記画像入力部によって入力された入力画像に基づく入力を行って、当該入力画像の特徴量ベクトルを算出する入力画像特徴量算出部と、
    検索対象画像の特徴量ベクトルを示す情報を取得する検索対象画像特徴量取得部と、
    前記入力画像特徴量算出部によって算出された特徴量ベクトル、及び前記検索対象画像特徴量取得部によって取得された情報によって示される特徴量ベクトルに基づいて、前記検索対象画像から前記入力画像に類似する画像を検索する検索部と、
    前記検索部による検索結果を示す情報を出力する出力部と、
    を備える類似画像検索装置。
  2. 前記入力画像特徴量算出部は、前記ニューラルネットワークの出力層の予め設定された数の階層手前の中間層の数値を抽出し、当該中間層の数値に基づいて前記入力画像の特徴量ベクトルを算出する請求項1に記載の類似画像検索装置。
  3. 前記入力画像特徴量算出部は、前記ニューラルネットワークの出力層の1階層手前の中間層の数値を抽出する請求項2に記載の類似画像検索装置。
  4. 学習用画像、及び当該学習用画像の複数の属性を示す属性情報を入力して、属性毎に、入力した学習用画像及び属性情報を用いた学習を行って、前記分類器を生成する分類器生成部を更に備える請求項1〜3の何れか一項に記載の類似画像検索装置。
  5. 前記入力画像特徴量算出部は、前記分類器毎の前記入力画像の特徴量ベクトルの次元数に応じて、当該特徴量ベクトルの数値に重み付けを行う請求項1〜4の何れか一項に記載の類似画像検索装置。
  6. 前記検索対象画像特徴量取得部は、前記検索対象画像を入力して、前記複数の分類器に対して、入力した検索対象画像に基づく入力を行って、当該検索対象画像の特徴量ベクトルを算出して、当該検索対象画像の特徴量ベクトルを示す情報を取得する請求項1〜5の何れか一項に記載の類似画像検索装置。
  7. 前記検索部は、前記入力画像の特徴量ベクトルと前記検索対象画像の特徴量ベクトルとの角度に応じた数値を算出して検索する請求項1〜6の何れか一項に記載の類似画像検索装置。
JP2017063286A 2017-03-28 2017-03-28 類似画像検索装置 Active JP6751684B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017063286A JP6751684B2 (ja) 2017-03-28 2017-03-28 類似画像検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017063286A JP6751684B2 (ja) 2017-03-28 2017-03-28 類似画像検索装置

Publications (2)

Publication Number Publication Date
JP2018165926A JP2018165926A (ja) 2018-10-25
JP6751684B2 true JP6751684B2 (ja) 2020-09-09

Family

ID=63922936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017063286A Active JP6751684B2 (ja) 2017-03-28 2017-03-28 類似画像検索装置

Country Status (1)

Country Link
JP (1) JP6751684B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6667785B1 (ja) * 2019-01-09 2020-03-18 裕樹 有光 3次元モデルとデプス画像とを対応付けて学習するプログラム
CN109871457A (zh) 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
KR102246408B1 (ko) * 2019-02-14 2021-05-18 엔에이치엔 주식회사 딥러닝 기반 유사상품 제공방법
US20200272895A1 (en) * 2019-02-25 2020-08-27 International Business Machines Corporation Answering cognitive queries from sensor input signals
JP7357454B2 (ja) 2019-03-25 2023-10-06 三菱電機株式会社 特徴特定装置、特徴特定方法及び特徴特定プログラム
DE102019204318A1 (de) * 2019-03-28 2020-10-01 Conti Temic Microelectronic Gmbh Automatische Erkennung und Klassifizierung von Adversarial Attacks
CN110781738A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 生成人脸图像的方法、装置、计算机设备及存储介质
JP7452055B2 (ja) * 2020-02-10 2024-03-19 株式会社タダノ ウインチドラム乱巻検出装置
CN112365465B (zh) * 2020-11-09 2024-02-06 浙江大华技术股份有限公司 合成图像类别确定方法、装置、存储介质及电子装置
CN114238744A (zh) * 2021-12-21 2022-03-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
JP7372697B1 (ja) * 2022-06-21 2023-11-01 キャディ株式会社 類似図面検索装置、類似図面検索方法、および類似図面検索プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250637A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 画像サーバー、画像検索システム、画像検索方法および画像管理方法
WO2013112591A1 (en) * 2012-01-23 2013-08-01 Perceptimed, Inc. Automated pharmaceutical pill identification

Also Published As

Publication number Publication date
JP2018165926A (ja) 2018-10-25

Similar Documents

Publication Publication Date Title
JP6751684B2 (ja) 類似画像検索装置
CN112949710B (zh) 一种图像的聚类方法和装置
US7995806B2 (en) Digital image processing apparatus, method of controlling the same, and recording medium for storing program for executing the method
US10748007B2 (en) Identifying objects in an image
JP2020522077A (ja) 画像特徴の取得
JP2021103555A (ja) 画像検出方法、装置、電子設備、記憶媒体、及びプログラム
CN109643318A (zh) 商标图像的基于内容的搜索和检索
US10528844B2 (en) Method and apparatus for distance measurement
CN111931859B (zh) 一种多标签图像识别方法和装置
US20140286527A1 (en) Systems and methods for accelerated face detection
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
CN113657087B (zh) 信息的匹配方法及装置
US20210089823A1 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium
Huo et al. Semisupervised learning based on a novel iterative optimization model for saliency detection
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
JP2021051589A5 (ja)
CN116824609B (zh) 文档版式检测方法、装置和电子设备
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
US10509986B2 (en) Image similarity determination apparatus and image similarity determination method
US11687782B2 (en) Systems and methods for recognition of user-provided images
CN111125391A (zh) 数据库更新方法和装置、电子设备、计算机存储介质
CN112069357B (zh) 视频资源处理方法、装置、电子设备及存储介质
US20210166063A1 (en) Pattern recognition device and learned model
JP2013120451A (ja) 情報処理装置、情報処理方法
Jia et al. An adaptive framework for saliency detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6751684

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250