JP7097329B2 - 情報処理装置及び類似画像検索プログラム - Google Patents

情報処理装置及び類似画像検索プログラム Download PDF

Info

Publication number
JP7097329B2
JP7097329B2 JP2019100718A JP2019100718A JP7097329B2 JP 7097329 B2 JP7097329 B2 JP 7097329B2 JP 2019100718 A JP2019100718 A JP 2019100718A JP 2019100718 A JP2019100718 A JP 2019100718A JP 7097329 B2 JP7097329 B2 JP 7097329B2
Authority
JP
Japan
Prior art keywords
image data
information
search
data
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019100718A
Other languages
English (en)
Other versions
JP2020091828A (ja
Inventor
豪洋 石崎
Original Assignee
豪洋 石崎
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 豪洋 石崎 filed Critical 豪洋 石崎
Publication of JP2020091828A publication Critical patent/JP2020091828A/ja
Application granted granted Critical
Publication of JP7097329B2 publication Critical patent/JP7097329B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、類似画像の検索等の処理を行う情報処理装置及び類似画像検索プログラムに関する。
近年ではディープラーニングを用いた情報処理が広く研究されている。例えば画像の分類を行うため、対象物が撮像されている位置が変化しても同じ画像と認識可能な、畳み込みニューラルネットワーク(CNN)を用いたディープラーニングがある。
特許文献1には、このCNNの中間層が抽出した複数種類の特徴量を用いて、決定木により画像を分類するという技術が開示されている。
特開2018-5639号公報
しかしながら、上記従来の技術では、第一に、ニューラルネットワークによって得られた機械学習の結果を利用するために、ニューラルネットワークの演算が必要となるため、演算負荷が軽減できないという問題点があった。
本発明は上記実情等に鑑みて為されたもので、その目的の一つは、演算負荷の軽減ができる情報処理装置及び類似画像検索プログラムを提供することである。
上記従来例の問題点を解決するための本発明は、情報処理装置であって、機械学習により獲得された複数のデータのパターンを保持する保持手段と、処理対象となるデータの入力を受けて、前記複数のデータのパターンごとに、前記処理対象データのうち、前記データのパターンのそれぞれと類似すると判定される部分の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成する特徴量生成手段と、前記特徴ベクトル情報を用いて、前記処理対象データに関わる所定の処理を実行する実行手段と、を含むこととしたものである。
本発明の実施の形態に係る情報処理装置の構成例を表すブロック図である。 本発明の実施の形態に係る情報処理装置の例を表す機能ブロック図である。 本発明の実施の形態に係る情報処理装置が保持する基底画像データの例を表す説明図である。 本発明の実施の形態に係る情報処理装置が保持する検索データベースの内容例を表す説明図である。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理装置1は、例えば図1に例示するように、制御部11、記憶部12、操作部13、表示部14、及び通信部15を含んで構成されている。またこの情報処理装置1は、インターネット等の通信手段を介して、種々のウェブサーバ等のサーバ装置2a,b…との間で通信可能に接続されている。
制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態の一例では、この制御部11は、複数の画像パターンを機械学習により獲得して、記憶部12に格納する機械学習処理を実行する。また制御部11は、処理対象となる画像データの入力を受けて、上記の複数の画像パターンごとに、当該処理対象となった画像データに含まれる領域のうち、画像パターンと類似すると判定される領域の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成する。そして制御部11は、当該特徴ベクトル情報を用いて、処理の対象となった画像データに関わる所定の処理を実行する。
本実施の形態のある例では、制御部11は、各ウェブサーバ2a,2b…が提供するウェブページをクローリングして、当該ウェブページで提供される画像データを処理の対象として上記の複数の画像パターンごとに、当該処理対象となった画像データに含まれる領域のうち、画像パターンと類似すると判定される領域の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成し、当該生成した特徴ベクトルと、処理対象となった画像データを提供するウェブページを特定する情報(当該ウェブページのURLでよい)とを関連付けて、検索用データベースとして記憶部12に格納しておく。
そして制御部11は、利用者から検索の対象となる画像データの入力を受けて、当該入力された画像データを処理の対象として上記の複数の画像パターンごとに、当該処理対象となった画像データに含まれる領域のうち、画像パターンと類似すると判定される領域の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報(検索用データベースに既に保持されているものと区別するため、検索対象特徴ベクトル情報と呼ぶ)を生成する。制御部11はここで生成した検索対象特徴ベクトル情報と、検索用データベースに保持された特徴ベクトル情報とを比較し、検索データベースに保持された特徴ベクトルを、検索対象特徴ベクトル情報に近い順(関連度順)に所定の数だけ抽出する。制御部11は、抽出した特徴ベクトルに関連付けて検索データベースに保持されている、ウェブページを特定する情報の一覧を、上記関連度順に表示出力する。
もっともこの例は、処理の一例であり、本実施の形態の制御部11は他の処理を行ってもよい。この制御部11の詳しい処理の内容は、後に説明する。
記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11によって実行されるプログラムを保持している。このプログラムは、コンピュータ可読かつ非一時的な記憶媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。また本実施の形態の一例では、この記憶部12は、検索用データベースを保持しているものとする。またこの記憶部12は、制御部11のワークメモリとしても動作する。
操作部13は、キーボードやマウス等であり、利用者の指示操作を受けて、当該指示操作の内容を表す情報を制御部11に対して出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って、指示された情報を表示出力する。
通信部15は、ネットワークインタフェース等であり、制御部11から入力される指示に従って、指示された情報を、指示されたあて先に宛てて送信出力する。またこの通信部15は、ウェブサーバ2等から情報を受信して、制御部11に対して出力する。
次に本実施の形態の一例に係る制御部11の動作について説明する。ここではまず、一例として、制御部11が、ウェブサーバ2が提供する画像データを検索する動作を行う例について説明する。
この例の制御部11は、記憶部12に格納された機械学習処理プログラムを実行することで、図2に例示するように、機械学習処理部20及び検索処理部30として機能する。図2は、本実施の形態の一例に係る制御部11の機能ブロック図である。
機械学習処理プログラムを実行する制御部11は、図2に例示するように、機械学習処理部20としての動作を行う。このとき制御部11は、機能的には受入部21と、機械学習部22と、中間層抽出部23とを含んで構成される。
また検索処理部30として動作する制御部11は、機能的に、パターン保持部31と、情報収集部32と、特徴量演算部33と、特徴量保持部34と、受入部35と、検索部36と、情報出力部37とを含んで構成される。
受入部21は、機械学習の対象となるデータの入力を受け入れる。本実施の形態の例では、画像データを検索する動作を行うので、ここで受入部21が受け入れるデータは画像データとなる。本実施の形態の一例では、画像データは、ウェブサイトをクローリングして得ることとすればよい。あるいは、この画像データは検索の目的となる画像を含むもの、例えば日本の風景の検索に用いるのであれば、日本国内を撮影した画像データを集積したものを用いてもよい。
機械学習部22は、例えばオートエンコーダであり、中間層を少なくとも一つ含むニューラルネットワークの機械学習処理を実行する。この機械学習部22は、受入部21が受け入れた画像データを、所定のサイズにリサイズしてニューラルネットワークの入力層に入力する。また機械学習部22は、当該画像データを入力したときのニューラルネットワークの出力が、元の(所定のサイズにリサイズした)画像データとなるように、ニューラルネットワークの出力と入力した画像データとの差に基づいて、ニューラルネットワーク内の入力層と中間層との間の重みの情報、及び中間層と出力層との間の重みの情報を設定する。この処理は、一般的なニューラルネットワークの機械学習処理と同じものであるので、ここでの詳しい説明は省略する。
中間層抽出部23は、機械学習部22によって機械学習されたニューラルネットワークの中間層の情報を抽出して出力する。具体的に中間層にN個のノードがあり、入力層にM個のノードがある(入力する画像データのサイズが横xピクセル、縦yピクセルであるとするとM=x×y)とき、中間層の一つのノードjに着目すると、M個の重みwij(i=1,2,…,M)が存在する。そこで中間層抽出部23は、中間層の各ノード(j=1,2,…,N)についてのこのM個の重みを、画像データのサイズ(横xピクセル、縦yピクセル)に配列した基底画像データ(N個の画像データ)を生成し、中間層の情報として出力する。
なお、ここでは中間層抽出部23は、入力層と中間層との間の重みの情報から中間層の情報を抽出することとしたが、これに代えてあるいはこれとともに、中間層と出力層との重みの情報から中間層の情報を抽出してもよい。すなわち情報を抽出する中間層は、例えば機械学習部22によって機械学習されるニューラルネットワークがオートエンコーダである場合、エンコーダ側の最後の層(デコーダ側の最初の層に接続される、最も深い中間層、いわゆる潜在変数を表す層)であってもよい。また中間層抽出部23は、任意の互いに隣接する中間層間の重みの情報から中間層の情報を抽出してもよい。さらに中間層抽出部23は、各中間層の各ノードのうちから、当該ノードに係る重み(隣接する層の各ノードとの間の重み)の情報が所定の基準に合致するノード(あるいは人為的に指定されたノード)を選択し、当該ノードに係る重みの情報に基づいて基底画像データを生成することとしてもよい。つまり、上記の最も深い中間層など、特定の中間層から中間層の情報を抽出してもよいし、複数の中間層から中間層の情報が抽出されてもよい。
この場合、出力層にL個のノードがあるとき、中間層の一つのノードjに着目すると、L個の重みwij(i=1,2,…,L)が存在することとなる。そこで中間層抽出部23は、中間層の各ノード(j=1,2,…,N)についてのこのL個の重みをx×yのマトリクスに最も近い比率のマトリクスに配列した仮基底画像データを生成し、さらに各ノードについての仮基底画像データを、所定の方法でx×y画素の画像データにリサイズして、基底画像データとする。そして中間層抽出部23は、この基底画像データ(N個の画像データ)を、中間層の情報として出力する。
この基底画像データ(N個の画像データ)には、例えば図3に例示するように、機械学習の過程で入力された画像データ内のパターン(線分的なパターンや色彩のパターン等)が含まれるようになることが知られている(例えば、Dumitru Erhan, et.al., “Understanding Representations Leaned in Deep Architectures”, inet: https://www.researchgate.net/publication/265745969_Understanding_Representations_Learned_in_Deep_Architectures(平成30年10月10日検索))。本実施の形態では、この基底画像データを画像パターンとして用いることとする。
検索処理部30のパターン保持部31は、機械学習処理部20の中間層抽出部23が出力した基底画像データを保持する。このパターン保持部31は、中間層抽出部23が出力した基底画像データのすべてを画像パターンとして保持してもよいし、中間層抽出部23が出力した基底画像データのうちから予め定めた条件を満足する基底画像データのみを画像パターンとして保持してもよい。ここでの条件としては例えば、線分の画像を画像パターンとする場合、ハフ変換やRANSAC等の広く知られた線分検出処理を行い、検出された線分の数が予め定めた数以上となっていることを条件としてもよい。この例によると、線分としての特徴を有する基底画像データのみを選択的に画像パターンとして保持することとなる。
また別の例では、パターン保持部31は、基底画像データのうち、所定の特徴量が予め定めた条件を満足するものを画像パターンとして選択して保持してもよい。ここで特徴量及び上記条件は例えば、ハール・ライク(Haar-Like)特徴量を用い、ハール・ライク特徴量の演算に用いる演算用パターン(エッジパターン、線分パターン、周辺パターンなど広く知られたものを用いればよい)との一致度が予め定めた閾値より高いとの条件であってもよい。
ここで一致度は、上記演算用パターンが有意画素(例えば黒色)となっている領域に対応する基底画像データ内の領域で、画素値の明度が予め定めた閾値より低くなっている画素の数PBNと、上記演算用パターンが有意画素でない(例えば白色)となっている領域に対応する基底画像データ内の領域で、画素値の明度が予め定めた閾値より高くなっている画素の数PWNとの和PBN+PWNなどとする。なお、領域の対応付けは、上記演算用パターンを、基底画像データのサイズに拡大または縮小(比率が一致しない場合は、演算用パターンの外接矩形を基底画像データのサイズに一致するよう拡大または縮小)して、画素を対応付けることにより行えばよい。
さらに、上記特徴量としてはHOG(Histograms of Oriented Gradients)特徴量を用いてもよい。この場合は、基底画像データからHOG特徴量を取り出し、取り出された輝度変化の境界線に対応する画素の数が予め定めたしきい値を超えるとの条件を満足する場合に、当該基底画像データを選択して画像パターンとして保持することとしてもよい。
この基底画像データのうちから画像パターンを選択する方法としては、このほかにも、ユーザの選択による方法など、種々の方法を採用し得る。
情報収集部32は、予め定めた規則に基づいてウェブページをクローリングし、取得したウェブページにて提供されている画像データを処理対象画像データとして特徴量演算部33に出力する。ここでクローリングの規則はリンクを辿る方法や、その他種々の方法が広く知られているので、ここでの詳しい説明は省略する。また、この情報収集部32は、特徴量演算部33により特徴量が演算された画像データの参照情報(当該画像データを取得したURL)を、特徴量保持部34に出力して、検索データベースへの記録を指示する。
特徴量演算部33は、処理の対象となる画像データの入力を受けて、当該画像データ(処理対象画像データ)と複数の基底画像データのそれぞれとの類似度を演算する。具体的にここでの類似度の演算は、処理対象画像データ内で、基底画像データと同じサイズのウィンドウを例えば所定ドット数ずつラスタスキャンしつつ、当該ウィンドウ内の部分画像を抽出し、基底画像データと当該部分画像との相互相関を演算する等の広く知られた方法で、パターンマッチング等の処理を行うことで実現できる。
ここで部分画像を抽出するためのウィンドウは、縦あるいは横方向の少なくとも一方に重複を許してスキャンすることとするのも好ましい。すなわち、基底画像データとの相互層間等を演算する部分画像は、処理対象画像データから重複を許して抽出されたものであってよい。このように重複を許して抽出すると、基底画像データとの対比の対象となるパターンが縦あるいは横方向にシフトしていても検出可能となる。
また類似度は、例えば次のようにしても求められる。すなわち特徴量演算部33は、部分画像ごとの方向線素特徴量を得る。具体的に特徴量演算部33は、部分画像をさらに所定サイズのブロックに分割し、ブロックごとに方向線素特徴量を得る。ここでの方向線素特徴量は、4方向のものに限られない。4を超える多方向とする場合の方向線素特徴量の例については、ストロークを構成する特徴点間の線分の単位方向ベクトルと予め定めた種々の方向の単位ベクトル(線素パターン)との内積を得て方向線素特徴量とする例など、広く知られた方法を採用できるので、ここでの詳細な説明は省略する。
特徴量演算部33は、ブロックごとに得た方向線素特徴量を参照し、予め定められた各線素パターンが表わす線分の角度ごとに、対応する角度の線素パターンに関連する方向線素特徴量となっているブロックを特定する情報のリストを関連づけたデータを生成する。このデータを、以下、比較対象位相順データと呼ぶ。
特徴量演算部33は、基底画像データの各々についても、予め、この例と同様に上記所定サイズのブロックに分割し、各ブロックの方向線素特徴量を得て、上記予め定められた各線素パターンが表わす線分の角度ごとに、対応する角度の線素パターンに関連する方向線素特徴量となっているブロックを特定する情報のリストを関連づけたデータを生成して記憶しておく。このデータを以下、検索用位相順データと呼ぶ。
特徴量演算部33は、比較対象位相順データの角度ごとのリスト(ブロックを特定する情報の各々)と、基底画像データごとの検索位相順用データに含まれるリストとの差を演算する。具体的な例として、角度θについての比較対象位相順データにおいて、ブロックを特定する情報(dxi,dyi)(ここでi=0,1,2…)が含まれ、ある基底画像データの検索用位相順データにおいてブロックを特定する情報(xj,yj)(ここでj=0,1,2…)が含まれているときには、
ΣiΣj|(xj,yj)-(dxi,dyi)|
を演算して、この演算結果を、さらに角度θについて総和したものを、部分画像と、当該基底画像データとの距離dであるとする。なお、Σiは、iについて和をとることを意味し、Σjはjについて和をとることを意味する。また(dxi,dyi)または(xj,yj)は、リストのi(またはj)番目が、x軸方向にdx番目、y軸方向にdy番目(またはx軸方向にx番目、y軸方向にy番目)の位置のブロックを特定する情報であることを意味する。
また、特徴量演算部33は、抽出した部分画像に含まれる各画素と、それに隣接する画素との色の情報を用いて、距離dに対して重みを与えてもよい。
例えば、特徴量演算部33は、部分画像(基底画像データと同じサイズ)内の画素と、基底画像データの対応する画素との差に基づく重みを与えてもよい。この場合、部分画像と、基底画像データとの対応する各画素について画素値の差の絶対値を総和したもの|e|を用い、この|e|を、先に演算した、部分画像と当該基底画像データとの距離dに加重して加算して補正距離D=α|e|+βdを求める(α、βは実験的に定められる正の重みの値)こととしてもよい。
また、画素値の差ではなく、画素値の差の差を用いてもよい。この例では、特徴量演算部33は、抽出した部分画像に含まれる画素を順次、注目画素として選択する。そして特徴量演算部33は、注目画素に隣接する画素と、注目画素との色の差の絶対値(色空間上の距離)を演算する。この色の差は、例えば注目画素をラスタスキャン順(映像データの左上の画素から順に、左から右へ1ライン走査し、次に一つ下のラインへ移行して左から右へ…と、順次走査する順)に走査して選択する場合、直前の注目画素の画素値と、現在の注目画素の画素値との差としてもよいし、4近傍の各画素との差の平均などとしてもよい。
なお、特徴量演算部33は、距離dに対して、先に求めた部分画像内の画素の値(色)の差(色差)と、基底画像データの画素の値(色)の差(色差;部分画像と同様の方法で予め求めておく)との差を求める。具体的に部分画像と、ある基底画像データとにおける各対応画素の、それぞれの周辺画素との色差の値をcpz、cpdzとしたとき、特徴量演算部33は、その差f=cpz-cpdzを算出する。
特徴量演算部33は、この値fの絶対値|f|を用いて、補正距離Dを、画素値の差の絶対値|e|とともに距離dに加重して加算し、
D=α|e|+βd+γ|f|
としてもよい(α、β,γは実験的に定められる正の重みの値)。
これによると、色差が著しい部分が一致する場合とそうでない場合とを補正距離Dに影響させることができるようになり、例えば背景など色差が一般に大きくない部分の影響を軽減できる。
これらの例では、特徴量演算部33は、ここで求められる距離d(あるいは補正距離D)の逆数(dまたはDに所定の正の定数を加えて逆数をとってもよい)を、部分画像と基底画像データとの類似度とする。
本実施の形態のこの例によると、ディープラーニングにおいて広く利用される畳み込みを採用した場合を超える効果を示す。
特徴量演算部33は、基底画像データごとに、処理対象画像データ中に、当該基底画像データとの間の類似度が予め定めたしきい値を超える(基底画像データのパターンに一致するパターンを有する)部分画像がいくつ見いだされたかをカウントする。
そして特徴量演算部33は、基底画像データごとの上記カウント値を得て、所定の基底画像データの順(基底画像データを追加した順でよい)に当該カウント値を配列したヒストグラムの情報(ベクトル情報)を、処理対象画像データの特徴量として出力する。
特徴量保持部34は、情報収集部32から特徴量の記録が指示されると、情報収集部32が出力する参照情報と、当該参照情報で特定されるアドレス等から情報収集部32が取得して出力した画像データについて特徴量演算部33が出力する特徴量とを関連付けて検索データベースに追加して記録する(図4)。なお、以下の説明で、検索データベースに格納された特徴量を検索コードと呼ぶ。
本実施の形態において特徴的なことの一つは、このとき、検索データベースには処理対象画像データ(ウェブサイトから取得された画像データ)自体を記録する必要がないことである。これにより、画像データを保持するための記憶容量を削減でき、また、画像データに関わる著作権等の問題が生じることがない。
受入部35は、ユーザから検索の対象となる画像データの入力を受け入れて、当該画像データを特徴量演算部33に対して、処理対象画像データとして出力する。
検索部36は、受入部35が出力した画像データについて特徴量演算部33が演算した特徴量(検索対象特徴量と呼ぶ)の情報を受けて、当該検索対象特徴量に類似する検索コードを、検索データベースから検索する。ここで特徴量間の類似度は例えば次のように演算できる。
本実施の形態のここでの例では、特徴量は、基底画像データごとのヒストグラムの情報であり、従って基底画像データの数だけの次元を有するベクトル量となっている。そこで、例えば正規化した(大きさを「1」とした)特徴量間(検索対象特徴量と検索コードとの間)の内積により特徴量の類似度を求めることができる(いわゆるコサイン類似度)。
検索部36は、検索データベースに格納された検索コードの各々と、検索対象特徴量との間の類似度を演算し、類似度の高い検索コードの順に所定の数だけ、当該検索コードに関連付けられている参照情報を取得して出力する。なお、検索部36は、類似度が予め定めたしきい値を超える場合にのみ、当該類似度に係る検索コードに関連付けられた参照情報を取得することとしてもよい。
情報出力部37は、検索部36が出力する参照情報のリスト(関連付けられた検索コードと検索対象特徴量との類似度が高い順に参照情報を配列したリスト)を、入力された画像データの検索結果として出力する。なお、類似度が予め定めたしきい値を超える場合に限ってこのリストに参照情報が含まれることとした場合、リストに参照情報が含まれない場合もある。この場合、情報出力部37は、入力された画像データに類似する画像データが見いだせなかった旨の情報を出力してもよい。
[動作]
本実施の形態は基本的に以上の構成を備えており、次のように動作する。本実施の形態の情報処理装置1では、まず画像パターンを得るために、機械学習の処理が行われる。
すなわち情報処理装置1の制御部11は、機械学習の対象となるデータの入力を受け入れる。ここでは機械学習の対象となるデータは画像データであるとする。制御部11は、オートエンコーダ等、中間層を少なくとも一つ含むニューラルネットワークの機械学習処理を実行する。このニューラルネットワークは必ずしもオートエンコーダのように教師なし学習でなくてもよく、CNN(畳み込みネットワーク)を用いた画像分類の機械学習処理が実行されてもよい。教師付きの機械学習を行う場合は、入力する画像データに対応する教師データが用意されているものとする。またこの機械学習の対象とするニューラルネットワークは、複数の中間層を有するものであってもよい。
情報処理装置1は、受け入れた画像データを、所定のサイズにリサイズしてニューラルネットワークの入力層に入力し、ニューラルネットワークの出力が目的のデータとなるように、当該目的のデータと出力との差に基づいて、ニューラルネットワーク内の入力層と中間層との間の重みの情報、及び中間層と出力層との間の重みの情報(複数の中間層が含まれる場合はさらに中間層の間の重みの情報)を設定する。この処理は、一般的なニューラルネットワークの機械学習処理と同じものであるので、ここでの詳しい説明は省略する。
なお、オートエンコーダを用いる場合は、ここでの目的のデータは入力する画像データそのものとなる。
情報処理装置1は、複数の画像データに基づく機械学習を行った後、機械学習されたニューラルネットワークの中間層の情報を抽出して出力する。既に述べたように、ここでの例では中間層の各ノードについて、当該ノードに入力される、あるいは当該ノードが出力する複数個の重みの情報を、所定のサイズ(横xピクセル、縦yピクセル)に配列して基底画像データを生成し、このノードごとに得られる基底画像データを中間層の情報として出力する。
また検索の処理を行う情報処理装置1は、次のように動作する。本実施の形態において特徴的なことの一つは、検索の処理を行う情報処理装置1では、ニューラルネットワークを用いる必要がなく、ニューラルネットワークを保持する必要も、その重みを更新したり、ニューラルネットワークに情報を入力してその出力を演算したりする必要もないことである。
本実施の形態の例に係る、検索の処理を行う情報処理装置1は、基底画像データを保持する。そして検索データベースの生成処理と、検索データベースからの検索処理とを実行する。
まず検索データベースの生成処理を行う情報処理装置1は、予め定めた規則に基づいてウェブページをクローリングし、取得したウェブページにて提供されている画像データを処理対象画像データとする。
そして情報処理装置1は、処理の対象となる画像データ(基底画像データより縦横のサイズが大きいものとする)の入力を受けて、当該画像データ(処理対象画像データ)と複数の基底画像データのそれぞれとの類似度を演算する。本実施の形態の一例では、類似度の演算は、処理対象画像データ内で、基底画像データと同じサイズのウィンドウをラスタスキャンしつつ、当該ウィンドウ内の部分画像を抽出し、基底画像データと当該部分画像との相互相関を演算する等の広く知られた方法で、パターンマッチング等の処理を行って実行する。
既に述べたように、ここで部分画像を抽出するためのウィンドウは、縦あるいは横方向の少なくとも一方に重複を許してスキャンすることとしてよい。
情報処理装置1は、基底画像データごとに、処理対象画像データ中に、当該基底画像データとの間の類似度が予め定めたしきい値を超える(基底画像データのパターンに一致するパターンを有する)部分画像がいくつ見いだされたかをカウントする。
情報処理装置1は、基底画像データごとの上記カウント値を得て、所定の基底画像データの順(基底画像データを追加した順でよい)に当該カウント値を配列したヒストグラムの情報(ベクトル情報)を、処理対象画像データの特徴量として、処理の対象として入力された画像データの取得元となったURL(参照情報)に関連付けて、検索データベースとして蓄積して格納する。
情報処理装置1のこの処理により、図4に例示したように、画像データの参照情報(URL)と、当該画像データに含まれる基底画像データである各画像パターンの数を列挙したベクトル情報(検索コード)とが関連付けて検索データベースとして、記憶部12に格納された状態となる。
情報処理装置1は、この検索データベースの生成の処理を所定のタイミングごとに繰り返して実行してもよい。
次に検索処理を実行する情報処理装置1は、検索の対象となる画像データの入力をユーザから受け入れて次のように動作する。
情報処理装置1は、検索の対象となる画像データについて当該画像データと複数の基底画像データのそれぞれとの類似度を演算する。そして情報処理装置1は、基底画像データごとに、処理対象画像データ中に、当該基底画像データとの間の類似度が予め定めたしきい値を超える(基底画像データのパターンに一致するパターンを有する)部分画像がいくつ見いだされたかをカウントする。
情報処理装置1は、基底画像データごとの上記カウント値を得て、所定の基底画像データの順(検索コードと同じ順)に当該カウント値を配列したヒストグラムの情報(ベクトル情報)を、検索の対象となった画像データの特徴量(検索対象特徴量)とする。
そして情報処理装置1は、この検索対象特徴量に類似する検索コードを、検索データベースから検索する。ここで特徴量間の類似度は正規化した(大きさを「1」とした)特徴量間(検索対象特徴量と検索コードとの間)の内積でよい。
情報処理装置1は、検索データベースに格納された検索コードの各々と、検索対象特徴量との間の類似度を演算し、類似度の高い検索コードの順に所定の数だけ、当該検索コードに関連付けられている参照情報を取得する。そして情報処理装置1は、当該取得した参照情報のリスト(関連付けられた検索コードと検索対象特徴量との類似度が高い順に参照情報を配列したリスト)を、入力された画像データの検索結果として出力する。
なお、ここまでの説明において一つの情報処理装置1が、機械学習の処理と、検索データベースの生成の処理と、検索の処理とを行う例について説明したが、本実施の形態はこれに限られず、例えば機械学習の処理を行う情報処理装置1と、その他の処理を行う情報処理装置1とは別のものであってもよい。この場合、検索データベースの生成処理や検索の処理を行う情報処理装置1は、基底画像データの情報を、機械学習の処理を行う情報処理装置1から取得する。既に述べたように、このとき検索データベースの生成処理や検索の処理を行う情報処理装置1は、基底画像データを生成するもととなったニューラルネットワークの情報(ニューラルネットワークを再現するための、全ての重みの情報等)は必ずしも必要でなく、基底画像データを保持するだけでよい。
また、検索データベースの生成処理を行う情報処理装置1と、検索の処理を行う情報処理装置1も別体のものであってもよい。この場合、検索の処理を行う情報処理装置1は、検索データベースの生成処理を行う情報処理装置1から検索データベースの入力を受けて保持する。
本実施の形態によると、検索データベースの生成や検索の処理において、画像パターンである基底画像データを用いるために、ニューラルネットワークの演算の必要がなく、パターンマッチング等の比較的軽量な処理によって各処理を実行できる。
[既知のデータとの照合]
また、本実施の形態の一例では、既知のデータ、例えばタイヤ、ヘッドライト、窓、などといった、何が撮影されているかが分かっている画像データとの照合が行われてもよい。
この例では予め、既知の物体(上記のタイヤ等)が撮像されている画像データを処理対象画像データとして入力し、特徴量演算部33の動作を行わせて検索コードとなる特徴量を得ておく。以下、この既知の物体の画像データに基づく検索コードを、既知コードと呼ぶ。本実施の形態では、この既知コードを撮像されている物体の名称(既知の物体を特定する情報)に関連付けて記憶部12に格納して保持しておく。
そしてこの例ではさらに、制御部11は、特徴量演算部33が処理の対象とする画像データ(処理対象画像データ)に対し、当該処理対象画像データのうち予め定めた方法で決定される部分領域を少なくとも一つ抽出する。この部分領域は例えば画像データを32×32のマトリクスに分割したそれぞれとしてもよいし、画像データの4つの隅をそれぞれ含む、所定サイズの領域(この場合、各部分領域は互いに重なり合う部分が含まれてもよい)であってもよい。
制御部11は、ここで抽出した部分領域ごとに当該部分領域内の特徴量(部分特徴量と呼ぶ)を特徴量演算部33に演算させる。そして記憶部12に格納した既知コードと当該部分特徴量とを比較し、当該部分特徴量との類似度が予め定めたしきい値を超える既知コードがあれば、当該既知コードに関連付けられた物体の名称の情報を取得する。
制御部11は、各部分領域について得られた物体の名称の一覧、処理対象画像データに係る物体リストとして、処理対象画像データについて情報収集部32から特徴量の記録が指示されているときには、情報収集部32が出力する参照情報と、当該参照情報で特定されるアドレス等から情報収集部32が取得して出力した画像データについて特徴量演算部33が出力する特徴量とともに、さらにここで得た物体リストを関連付けて検索データベースに追加して記録する。なお、どの部分領域からも物体の名称が得られなかったときには、物体リストとして空のリストを記録する。
また制御部11は、検索部36の処理として、受け入れた画像データについて特徴量演算部33が演算した検索対象特徴量を取得するとともに、当該受け入れた画像データに基づいて物体リストを生成する。この検索の対象となる物体リストを、以下検索対象リストと呼ぶ。
制御部11は、ここで取得した検索対象特徴量に類似する検索コードを、検索データベースから検索し、類似度の高い順に、検索コードとともに参照情報に関連付けられている物体リストを取得し、検索対象リストと比較する。
そして制御部11は、検索対象特徴量に類似する検索コード(検索対象特徴量との間で特徴量間の内積が予め定めたしきい値を超える検索コード)のそれぞれについて、当該検索コードに関連付けられている物体リストに含まれる物体の名称のうち、検索対象リストにも含まれる物体の名称の数をカウントした値nを検索コードに関連付けられている物体リストに含まれる物体の名称の数Nで除した値n/Nを、対象一致度として求める。
制御部11は、検索対象特徴量に類似する検索コードのうち、対象一致度が所定のしきい値を超える検索コードについて、検索対象特徴量に対する類似度の高い順に、所定の数以下の数だけ、当該検索コードに関連付けられた参照情報を取得して出力する。
本実施の形態のこの例によると、例えば自動車のタイヤが撮像されている画像データを検索の対象として入力したときに、タイヤと同様の円形である(分類パターンは一致する)が、タイヤとは異なる物体が含まれる画像データの参照情報が検索の結果として出力される機会を低減できる。
[変形例]
またここまでの説明では、処理の対象となるデータは画像データとしていたが本実施の形態はこれに限られず、文字列やその他のデータであってもよい。この場合も、機械学習により学習されたニューラルネットワークの中間層の重みの情報をデータパターンとして、処理の対象とするデータについて、当該データに含まれる各データパターンの数をカウントする。
そして、このデータパターンごとのカウント値を、所定の順(データパターンについて予め定められた順)に配列してヒストグラムを表すベクトル情報を生成し、このベクトル情報を特徴量(特徴ベクトル情報)として、所定の処理を実行することとしてもよい。
[色成分ごとの処理を行う変形例]
またここまでに説明した本実施の形態の情報処理装置1は、画像データを色成分ごとに分けて機械学習や検索の処理を行うこととしてもよい。
具体的に制御部11は、機械学習の対象となる画像データの入力を受け入れると、この画像データを所定のサイズにリサイズし、さらに例えばRGBの各成分の画像データ(以下、区別のため、成分画像データと呼ぶ)に分割する。ここで、画像データをR成分、G成分、B成分など、色成分ごとの成分画像データに分割する方法は、広く知られているので、詳しい説明を省略する。また、以下では、RGBに分解する例について説明するが、RGBの成分でなくても、HSV(色相、彩度、明度)に分解してもよいし、その他の色空間の各成分に分解してもよい。
制御部11は、色成分ごとのニューラルネットワークのモデルの情報を保持し、これらのニューラルネットワークを機械学習する。すなわち制御部11は、分解して得られた成分画像データを、当該成分画像データの色成分に対応するニューラルネットワークの入力層に入力し、このニューラルネットワークの出力が目的のデータとなるように、当該目的のデータと出力との差に基づいて、ニューラルネットワーク内の入力層と中間層との間の重みの情報、及び中間層と出力層との間の重みの情報(複数の中間層が含まれる場合はさらに中間層の間の重みの情報)を設定する。
情報処理装置1は、複数の画像データのそれぞれの成分画像データに基づいて、各成分に対応するニューラルネットワークの機械学習を行った後、機械学習された各ニューラルネットワークの中間層の情報を抽出して出力する。既に述べたように、ここでの例では中間層の各ノードについて、当該ノードに入力される、あるいは当該ノードが出力する複数個の重みの情報を、所定のサイズに配列して基底画像データを生成し、このノードごとに得られる基底画像データを中間層の情報として出力することとなる。
本実施の形態のここでの例では、上記中間層の情報が色成分ごとに得られることとなるので、基底画像データも色成分ごとに得られることとなる。
そして検索の処理を行う情報処理装置1では、上述のようにして得られる、色成分ごとの(各色成分に対応する)基底画像データを保持する。そして検索データベースの生成処理と、検索データベースからの検索処理とを実行する。
まず検索データベースの生成処理を行う情報処理装置1は、予め定めた規則に基づいてウェブページをクローリングし、取得したウェブページにて提供されている画像データを処理対象画像データとする。
そして情報処理装置1は、処理の対象となる画像データ(基底画像データより縦横のサイズが大きいものとする)の入力を受けて、当該画像データ(処理対象画像データ)を色成分(基底画像データの各色成分と同じ色成分)に分解して、処理対象成分画像データを得る。
情報処理装置1は、色成分のそれぞれに対応して得られた処理対象成分画像データと、対応する色成分に係る複数の基底画像データのそれぞれとの類似度を演算する。本実施の形態の一例では、類似度の演算は、色成分ごとの処理対象成分画像データ内で、基底画像データと同じサイズのウィンドウをラスタスキャンしつつ、当該ウィンドウ内の部分画像を抽出し、当該処理対象成分画像データの色成分に対応する基底画像データと当該部分画像との相互相関を演算する等の広く知られた方法で、パターンマッチング等の処理を行って実行する。
ここでも部分画像を抽出するためのウィンドウは、縦あるいは横方向の少なくとも一方に重複を許してスキャンすることとしてよい。つまり、基底画像データとの相互層間等を演算する部分画像は、処理対象画像データから重複を許して抽出されたものであってよい。このように重複を許して抽出すると、基底画像データとの対比の対象となるパターンが縦あるいは横方向にシフトしていても検出可能となる。
情報処理装置1は、対応する色成分に係る基底画像データごとに、処理対象成分画像データ中に、当該基底画像データとの間の類似度が予め定めたしきい値を超える(基底画像データのパターンに一致するパターンを有する)部分画像がいくつ見いだされたかをカウントする。
情報処理装置1は、色成分ごと、かつ、基底画像データごとの上記カウント値を得て、予め定めた各色成分の基底画像データの順に当該カウント値を配列したヒストグラムの情報(ベクトル情報)を、処理対象画像データの特徴量として、処理の対象として入力された画像データの取得元となったURL(参照情報)に関連付けて、検索データベースとして蓄積して格納する。
情報処理装置1のこの処理により、図4に例示したものと同様に、画像データの参照情報(URL)と、当該画像データに含まれる基底画像データである各画像パターンの数を列挙したベクトル情報(検索コード)とが関連付けて検索データベースとして、記憶部12に格納された状態となる。
この例でも情報処理装置1は、この検索データベースの生成の処理を所定のタイミングごとに繰り返して実行してもよい。
またこの例において検索処理を実行する情報処理装置1は、検索の対象となる画像データの入力をユーザから受け入れて次のように動作する。
情報処理装置1は、検索の対象となる画像データを、機械学習に用いた色空間の成分と同じ色成分の画像データ(例えばRGBの各成分の成分画像データ)に分割する。
そして情報処理装置1は、分割して得られた成分画像データと、対応する色成分に係る複数の基底画像データのそれぞれとの類似度を演算する。本実施の形態の一例では、類似度の演算は、成分画像データ内で、基底画像データと同じサイズのウィンドウをラスタスキャンしつつ、当該ウィンドウ内の部分画像を抽出し、当該成分画像データの色成分に対応する基底画像データと当該部分画像との相互相関を演算する等の広く知られた方法で、パターンマッチング等の処理を行って実行する。
情報処理装置1は、対応する色成分に係る基底画像データごとに、成分画像データ中に、当該基底画像データとの間の類似度が予め定めたしきい値を超える(基底画像データのパターンに一致するパターンを有する)部分画像がいくつ見いだされたかをカウントする。
情報処理装置1は、基底画像データごとの上記カウント値を得て、所定の基底画像データの順(検索コードと同じ順)に当該カウント値を配列したヒストグラムの情報(ベクトル情報)を、検索の対象となった画像データの特徴量(検索対象特徴量)とする。
そして情報処理装置1は、この検索対象特徴量に類似する検索コードを、検索データベースから検索する。ここで特徴量間の類似度は正規化した(大きさを「1」とした)特徴量間(検索対象特徴量と検索コードとの間)の内積でよい。
情報処理装置1は、検索データベースに格納された検索コードの各々と、検索対象特徴量との間の類似度を演算し、類似度の高い検索コードの順に所定の数だけ、当該検索コードに関連付けられている参照情報を取得する。そして情報処理装置1は、当該取得した参照情報のリスト(関連付けられた検索コードと検索対象特徴量との類似度が高い順に参照情報を配列したリスト)を、入力された画像データの検索結果として出力する。
1 情報処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、20 機械学習処理部、21 受入部、22 機械学習部、23 中間層抽出部、30 検索処理部、31 パターン保持部、32 情報収集部、33 特徴量演算部、34 特徴量保持部、35 受入部、36 検索部、37 情報出力部。

Claims (4)

  1. 機械学習により獲得された複数のデータのパターンを保持する保持手段と、
    処理対象となる処理対象データの入力を受けて、前記複数のデータのパターンごとに、前記処理対象データのうち、前記データのパターンのそれぞれと類似すると判定される部分の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成する特徴量生成手段と、
    前記特徴ベクトル情報を用いて、前記処理対象データに関わる所定の処理を実行する実行手段と、
    を含む情報処理装置。
  2. 請求項1記載の情報処理装置であって、前記データは、画像データであり、
    前記保持手段は、機械学習により獲得された複数の画像パターンを保持し、
    前記特徴量生成手段は、処理対象となる画像データの入力を受けて、前記複数の画像パターンごとに、前記画像データに含まれる領域のうち、画像パターンと類似すると判定される領域の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成し、
    前記実行手段は、前記特徴ベクトル情報を用いて、前記画像データに関わる所定の処理を実行する情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    ネットワークを介し、それぞれに固有なネットワークアドレスを用いてアクセス可能な複数の画像データについて、当該画像データのネットワークアドレスと、前記特徴量生成手段により生成した特徴ベクトル情報とを関連付けて保持するデータベースを保持し、
    前記実行手段は、検索の対象となる画像データの入力を受けて、当該検索の対象となった画像データについて前記特徴量生成手段により生成した特徴ベクトル情報と、前記データベースに含まれる特徴ベクトル情報とを比較して、当該比較の結果に基づき、検索の結果となる画像データのネットワークアドレスを抽出する情報処理装置。
  4. 機械学習により獲得された複数の画像パターンを保持するコンピュータを、
    処理対象となる画像データの入力を受けて、前記複数の画像パターンごとに、前記画像データに含まれる領域のうち、画像パターンと類似すると判定される領域の数をカウントして、当該カウントの結果に基づく特徴ベクトル情報を生成する特徴量生成手段と、
    前記特徴ベクトル情報を用いて、前記画像データに関わる所定の処理を実行する実行手段と、
    として機能させる類似画像検索プログラム。
JP2019100718A 2018-11-27 2019-05-29 情報処理装置及び類似画像検索プログラム Active JP7097329B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018221554 2018-11-27
JP2018221554 2018-11-27

Publications (2)

Publication Number Publication Date
JP2020091828A JP2020091828A (ja) 2020-06-11
JP7097329B2 true JP7097329B2 (ja) 2022-07-07

Family

ID=71013829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019100718A Active JP7097329B2 (ja) 2018-11-27 2019-05-29 情報処理装置及び類似画像検索プログラム

Country Status (1)

Country Link
JP (1) JP7097329B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101405A (ja) 1999-09-30 2001-04-13 Matsushita Electric Ind Co Ltd 画像認識方法及び画像認識装置
JP2006285570A (ja) 2005-03-31 2006-10-19 Univ Waseda 類似画像検索方法および類似画像検索装置
JP2008219825A (ja) 2007-03-08 2008-09-18 Fuji Xerox Co Ltd 情報処理装置、画像処理装置、画像符号化装置、情報処理プログラム、画像処理プログラム及び画像符号化プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2930653B2 (ja) * 1990-04-02 1999-08-03 シャープ株式会社 文字認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101405A (ja) 1999-09-30 2001-04-13 Matsushita Electric Ind Co Ltd 画像認識方法及び画像認識装置
JP2006285570A (ja) 2005-03-31 2006-10-19 Univ Waseda 類似画像検索方法および類似画像検索装置
JP2008219825A (ja) 2007-03-08 2008-09-18 Fuji Xerox Co Ltd 情報処理装置、画像処理装置、画像符号化装置、情報処理プログラム、画像処理プログラム及び画像符号化プログラム

Also Published As

Publication number Publication date
JP2020091828A (ja) 2020-06-11

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
TWI651662B (zh) 影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體
KR102220174B1 (ko) 머신러닝 학습 데이터 증강장치 및 증강방법
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
CN112529026B (zh) 提供ai模型的方法、ai平台、计算设备及存储介质
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2021517330A (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
US20070071323A1 (en) Apparatus and method for processing user-specified search image points
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
JP6393230B2 (ja) オブジェクト検出方法及び画像検索システム
JP2006338313A (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
US20170249367A1 (en) Dynamic thumbnail selection for search results
US20050223313A1 (en) Model of documents and method for automatically classifying a document
Leitner et al. Mars terrain image classification using cartesian genetic programming
CN103995864B (zh) 一种图像检索方法和装置
JP2008217803A (ja) 画像認識システム及びその認識方法並びにプログラム
CN107704509B (zh) 一种联合稳定区域与深度学习的重排序方法
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及***
CN107274425B (zh) 一种基于脉冲耦合神经网络的彩色图像分割方法及装置
JP2009211490A (ja) 画像認識方法および装置
Sikha et al. Dynamic Mode Decomposition based salient edge/region features for content based image retrieval.
Mesquita et al. Object recognition using saliency guided searching
JP7097329B2 (ja) 情報処理装置及び類似画像検索プログラム
US20140185959A1 (en) Method and Apparatus for Image Processing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R150 Certificate of patent or registration of utility model

Ref document number: 7097329

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150