JP4999886B2 - 画像検索装置 - Google Patents

画像検索装置 Download PDF

Info

Publication number
JP4999886B2
JP4999886B2 JP2009137775A JP2009137775A JP4999886B2 JP 4999886 B2 JP4999886 B2 JP 4999886B2 JP 2009137775 A JP2009137775 A JP 2009137775A JP 2009137775 A JP2009137775 A JP 2009137775A JP 4999886 B2 JP4999886 B2 JP 4999886B2
Authority
JP
Japan
Prior art keywords
image
cluster
search
images
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009137775A
Other languages
English (en)
Other versions
JP2010286861A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009137775A priority Critical patent/JP4999886B2/ja
Publication of JP2010286861A publication Critical patent/JP2010286861A/ja
Application granted granted Critical
Publication of JP4999886B2 publication Critical patent/JP4999886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、テキストクエリに基づいて検索された画像にランク付けを行って検索結果を生成する装置及び方法に関するものである。
テキストクエリを用いた画像検索では、画像に予め関連付けられたテキスト(タグ)が用いられる。即ち、タグが画像のインデックスとして記憶されたデータベース(DB)の中から、ユーザにより指定された検索語(いわゆるテキストクエリ)に基づいて検索し、テキストクエリに略一致するタグに関連付けられた画像を検索結果としてユーザに返す。
このようにして検索された画像は、テキストクエリに対して、意味的に関連する可能性が高い。しかし、DB上での画像とタグとの関係付けが不適切であった場合は、テキストクエリに対して関連性の低い画像(ノイズ)を検索する可能性がある。即ち、画像に関連付けられるタグは、ユーザが任意に設定・付加したテキストであったり、検索ロボットが機械的に収集したウェブページ上の画像近傍に存在するテキストであったりするため、画像に対するタグの設定精度が高いとはいえない。
一方、クエリとして画像(クエリ画像)を用いる技術も存在する。この場合、DB中の画像とクエリ画像とからそれぞれ抽出された特徴量を比較することで類似画像を検索できる。しかし、画像の特徴量を用いた画像検索において、画像的に類似する画像を検索することはできるが、画像の内容が意味的に関連する画像を検索することは不得意である。
下記特許文献1には、複数の基準特徴量と、画像特徴量との類似度に応じて複数の分類カテゴリを形成し、そのカテゴリに分類された画像を各カテゴリの基準特徴量との類似度順に表示する技術が記載されている。この技術によれば、基準特徴量に類似する画像が類似度に基づいて纏め上げられて表示するものであり、画像的に同種の画像がカテゴリとして表示される。
しかし、類似する特徴量を有する画像が纏め上げられて表示されるため、ユーザが様々な種類の画像を閲覧したいという場合に、特許文献1による画像表示は相応しくない。即ち、カテゴリ毎に表示するといっても同種の画像が複数表示されてしまい、表示領域に対する各カテゴリの表示領域の占める割合がカテゴリに属する画像数に応じて変動するため、画像数の大きいカテゴリが大部分を占めてしまう可能性もある。
特開2007−317034号公報
本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズを低減させると共に、様々な種類の画像を表示可能な画像検索を提供することである。
上記課題を解決するために、第1の発明は、
テキストクエリに基づいて検索された画像にランク付けを行って検索結果を生成する画像検索装置において、
前記テキストクエリに基づいて検索された複数の画像を取得する画像取得手段と、
前記取得された画像の特徴量に基づいて特徴量空間にクラスタを生成し、そのクラスタに前記画像を分類するクラスタリング手段と、
前記クラスタの中心点からそのクラスタに属する画像までの前記特徴量空間における距離を画像毎に算出する特徴距離算出手段と、
前記画像毎の距離に基づいて該画像にランク付けを行って検索結果を生成するランキング手段と、
を備えること特徴としている。
第1の発明によれば、クラスタの中心点からのそのクラスタに属する画像までの特徴量空間における距離、即ち、各クラスタの平均的な画像との近さに基づいて画像検索のランク付けを行う。このため、検索結果として生成される画像の上位には、各クラスタの中心点に近い画像が検索結果の上位とさせることができるため、類似した画像がまとまってしまうことがない。従って、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズを低減させると共に、様々な種類の画像を表示可能な画像検索を提供することができる。
また、第2の発明は、第1の発明の画像検索装置において、
前記ランキング手段は、
前記画像が属する前記クラスタ内の画像数が大きい程、前記ランク付けを高めるように前記重みを設定して前記検索結果のランクを算出することを特徴としている。
第2の発明によれば、画像が属するクラスタ内の画像数が大きい程、ランク付けが高められるため、特徴量が類似する他の画像が多い画像が検索結果の上位にランキングされる。そのため、様々な種類の画像をランク付けして表示する際に、テキストクエリによる画像検索の中でも一般的な画像が上位に表示されるようになる。
また、第3の発明は、第1の発明の画像検索装置において、
前記ランキング手段は、
前記画像が属する前記クラスタ内の画像数が小さい程、前記ランク付けを高めるように前記重みを設定して前記検索結果のランクを算出することを特徴としている。
第3の発明によれば、画像が属するクラスタ内の画像数が小さい程、ランク付けが高められるため、特徴量が類似する他の画像が少ない画像が検索結果の上位にランキングされる。そのため、様々な種類の画像をランク付けして表示する際に、テキストクエリによる画像検索の中でも希少な画像が上位に表示されるようになる。
また、第4の発明は、第1〜3の何れかの発明の画像検索装置において、
前記ランキング手段は、
前記画像毎の距離に基づいたランクと、前記テキストクエリに基づく画像検索の際に得られるランクとから前記検索結果のランクを算出することを特徴としている。
第4の発明によれば、画像毎の距離に基づいたランクと、テキストクエリに基づく画像検索の際に得られるランクとを合わせた検索結果のランクが得られる。このため、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズによるランキング精度の低減を抑制できる。
第5の発明は、テキストクエリに基づいて検索された画像にコンピュータがランク付けを行って検索結果を生成する画像検索方法において、
前記テキストクエリに基づいて検索された複数の画像を取得する画像取得ステップと、
前記取得された画像の特徴量に基づいて特徴量空間にクラスタを生成し、そのクラスタに前記画像を分類するクラスタリングステップと、
前記クラスタの中心点からそのクラスタに属する画像までの前記特徴量空間における距離を画像毎に算出する特徴距離算出ステップと、
前記画像毎の距離に基づいて該画像にランク付けを行って検索結果を生成するランキングステップと、
を前記コンピュータが行うことを特徴としている。
第5の発明によれば、第1の発明と同様の作用・効果を得ることができる。
また、第6の発明は、第5の発明における各ステップをコンピュータ上で実行させるためのコンピュータプログラムである。
第6の側面によれば、適宜な記録媒体(例えばCD−ROMやDVDディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはMOディスクのような光磁気記録媒体)に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。
本発明によれば、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズを低減させると共に、様々な種類の画像を表示可能な画像検索を提供することができる。
本発明の実施形態に係る検索装置を用いた検索システムの機能構成を示すブロック図である。 画像DBに格納される画像データ用のデータ構造の一例を示す説明図である。 実施形態の検索装置を用いた検索方法の概略を示すフローチャートである。 実施形態の検索装置を用いたクラスタリングを説明するための説明図である。 実施形態の検索装置を用いた画像検索の一例を示す図である。
〔第1実施形態〕
本発明の第1実施形態に係る画像検索装置を用いた検索システムを、図1に基づいて説明する。この検索システムは、クライアント端末100と、画像検索装置1と、画像DB13と、インターネットNとを備えて構成される。
〔クライアント端末〕
クライアント端末100は、端末本体と、出力装置と、入力装置とを備えている。端末本体は、CPU(図示せず)を備えており、クライアント端末100の動作に必要な計算処理を行うようになっている。出力装置は、ユーザに対して情報を提示するものである。出力装置としては、例えばLCDやCRTなどのディスプレイを用いることができる。本実施形態の出力装置は、画像検索装置1で生成した出力用データを表示する。入力装置は、ユーザからの指令を受け取るためのものである。入力装置としては、例えばキーボードやマウスやトラックボールのような装置を用いることができる。
〔画像検索装置〕
画像検索装置1は、クエリ受付部3と、タグ画像検索部5と、クラスタリング部7と、確信度算出部9と、検索結果生成部11とを備えて構成される。画像検索装置1は、いわゆる検索サーバとして実装されている。
クエリ受付部3は、クライアント端末100で入力されたテキストクエリ(文字列)をインターネットNを介して受信する。
タグ画像検索部5は、クエリ受付部3が受信したテキストクエリに基づいて、画像DB13に格納された画像を検索する。タグ画像検索部5は、例えばWeb検索エンジンを用いて実装することができる。
クラスタリング部7は、テキストクエリに基づいて検索された画像の特徴量に基づいて、画像のクラスタリングを行うことによって、画像のクラスタを生成する構成となっている(詳細は後述)。
確信度算出部9は、クラスタリング部7により生成されたクラスタの中心点と、そのクラスタに属する画像との特徴空間上における距離に基づいてクラスタ確信度を算出する(詳細は後述)。
検索結果生成部11は、タグ画像検索部5による検索結果となる画像の検索ランキングをクラスタ確信度に基づいて決定し、クライアント端末100で出力させるための検索結果データを生成する。
〔画像DB〕
画像DB13は、画像検索用の画像を蓄積するものである。画像DB13は、画像検索装置1からのアクセスを、ネットワーク経由で、又は直接に受け付けるように構成されている。画像DB13のデータ構造の一例を図2に示す。この図に示されるように、画像DB13は、画像IDと、画像データと、タグと、画像特徴量と、クリック頻度とを対応付けて記憶する。
画像IDは、画像を特定するための記号列である。タグは、画像を検索するためのテキスト情報である。画像データは、画像を表示するためにデジタル表現されたデータであり、様々な画像規格に応じたデータ形式で生成される。
タグとしては、例えば、「花」、「風景」、「建物」のように、画像の意味と関係するテキスト情報を用いることが通常である。このタグは、ユーザにより画像毎に設定入力されたり、ウェブページ内に含まれる画像の近隣に配置された文字列がロボット検索により収集されたりして画像DB13に登録される。
画像特徴量は、画像の特徴を表すベクトルデータである。画像特徴量としては、例えば、画像中の「色」、「形状」、「テクスチャ」などの特徴をスカラ値で表したものを用いることができる。つまり、これらのスカラ値の組み合わせによって、画像の特徴を表すベクトルを生成することができる。
画像データ中のクリック頻度は、画像が今までの検索においてクリック(閲覧)された回数を表す。画像検索においては、一般に、検索結果としての画像がユーザ端末上で表示される。ユーザは、表示された画像か、又は、それに関連付けられたテキストをクリックすることにより、画像に関連するURLにアクセスし、そこから詳しい情報を取得することができる。
画像検索装置1は、検索結果としてクライアント端末100に表示させた画像に対して行われたユーザのクリックの回数を記録し、画像毎に画像DB13に記録しておく。この画像に対するクリック操作が行われたか否かの判定は、リダイレクト処理等の公知技術を採用することで実現可能である。
〔インターネット〕
インターネットNは、クライアント端末100と画像検索装置1とを接続して、相互間でデータの送受信を行うためのネットワークである。ただし、ネットワークとしては、インターネットである必要はなく、イントラネットや他の種類のネットワークを用いることは可能である。
〔画像検索装置の動作〕
次ぎに、第1実施形態における画像検索方法を、図3〜図5を参照しながら説明する。図3は、画像検索方法の処理を示すフローチャートである。このフローチャートの処理は、画像検索装置1を制御するプログラムに基づいて行われる。
まず、ユーザは、クライアント端末100の入力装置を用いて、画像検索のためのテキストクエリを入力する。具体的には、例えば、ユーザは、ブラウザを用いて表示された、クエリ入力欄(空欄)に、クエリを入力した後、検索ボタンをクリックする。
但し、テキストクエリの入力方法は、特に制約されない。例えば、ユーザは、ブラウザ上に一覧表示されたクエリ群の中から、適宜なクエリを選択する(例えばクリックする)ことにより、クエリをクライアント端末100に入力することができる。
クライアント端末100で入力されたテキストクエリは、インターネットNを介して、画像検索装置1に送信される。画像検索装置1のクエリ受付部3は、クライアント端末100から送信されるテキストクエリを受信する(ステップSA−1)。
タグ画像検索部5は、テキストクエリを用いて、画像DB13に格納されている画像を検索して、テキストクエリに関連する複数の画像を取得する(ステップSA−2)。具体的には、テキストクエリと完全一致または一部一致するタグを画像DB13の中から検索し、そのタグに関連付けられた画像データを特定する。また、テキストクエリと意味的に類似するタグを検索することとしてもよく、類似性の判定は、例えば類義語を格納した辞書DB(図示せず)を用いることができる。
ついで、クラスタリング部7は、テキストクエリにより検索された画像群をクラスタリングする(ステップSA−3)。本実施形態では、画像から抽出した特徴量を用いて特徴量空間に画像をクラスタリングする。図4は、クラスタリング部7による画像のクラスタリングの概念を示す図である。
この図では、各クラスタが破線で表されている。また、各クラスタに属する画像が矩形で表されている。また、この図は、画像の持つ特徴量F1及びF2を縦軸及び横軸として二次元の特徴量空間として表したものである。なお、これらの図はあくまで説明を簡潔にするための例示であり、複数の特徴量により多次元の特徴量空間としてよい。
クラスタリング手法の一例は次のようになる。
1)タグ画像検索部5の検索結果の中から画像IMGを一つ選択する。
2)選択した画像IMGから特徴量fを抽出する。
3)既存クラスタがある場合は、すべての既存クラスタの中心特徴量と画像特徴量fとの距離dをそれぞれ算出する。
4)距離dが閾値Dより大きい場合には新たなクラスタを生成し、その画像IMGの特徴量fをクラスタに加え、クラスタの中心特徴量を算出する。既存クラスタがない場合も同様とする。
5)距離dが閾値D以下の場合には、距離dが最も小さいクラスタに特徴量fを加えて中心特徴量を再計算する。
6)検索結果に未選択の画像があれば上述の1)に処理を戻し、未選択の画像が存在しないなら処理を終了する。
また、クラスタの中心特徴量の算出方法の一例は次のようになる。
即ち、クラスタが線形であれば、クラスタを構成する全ての特徴量に対して特徴量の多次元ベクトルデータの各次元を単純に平均する。クラスタが線形ではない場合には、クラスタから任意の特徴量を選択し、その特徴量から他の全ての特徴量との距離を算出し、合計する。これをクラスタのすべての特徴量に対して行い、最も距離の合計が小さいものを中心特徴量とすることができる。
尚、画像特徴量のクラスタリングの手法は、適宜公知技術により実現することができ、例えば、最短距離法等の階層的手法(hierarchical)によるアルゴリズムや,k−means法等の分割最適化手法(partitioning-optimization)によるアルゴリズムが知られている。
図4においては、上記クラスタリングによりクラスタC1、C2及びC3が生成され、各クラスタに画像が分類されている。また、クラスタC2について、特徴量空間における中心点Pが中心特徴量として求められている。
確信度算出部9は、クラスタに属する画像毎に確信度(クラスタ確信度)を算出する(ステップSA−4)。クラスタ確信度は、画像が属するクラスタの中心点Pから当該画像に特徴量までの距離d(図4参照)に応じた値であり、式1により求められる。
(式1)
画像毎のクラスタ確信度=1.0−α・d/dmax
ここで、
d:クラスタの中心特徴量と当該画像の特徴量との特徴空間上における距離、
max:クラスタの中心点から最遠の特徴量までの距離、
0≦α≦1.0 :重み係数、
である。
ついで、検索結果生成部11は、タグ画像検索部5により検索された画像のランクをクラスタ確信度に基づいて算出する(ステップSA−5)。尚、本実施形態おいて、クラスタ確信度は距離dが小さい程、大きい値をとるようになり、そのクラスタ確信度をそのまま画像のランクとする。
そして、検索結果生成部11は、算出したランクの高い順で画像をソートする(ステップSA−6)。すなわち、クラスタ確信度が高い画像が高い順位となるようにソートを行う。ついで、検索結果生成部11は、クライアント端末100で検索結果を出力させるための出力用データを生成し(ステップSA−7)、クライアント端末100に該出力用データを送信する(ステップSA−8)。出力用データは、クラスタ確信度に基づいてソートされた画像が、該確信度の高い順序で一覧表示されているものであり、例えば、HTMLデータ等で構成される。
図5にクラスタ確信度の算出例と、検索結果の表示の一例を示す。
例えば、「花」というテキストクエリが入力されると、「花」という文字列がタグ内に含まれる画像が画像DB13から検索される。これにより、例えば、図5のように画像A〜Iが検索される。そして、画像A〜Iの有する特徴量に基づいてクラスタリングが行われ、特徴量空間に生成されたクラスタにそれぞれの画像が分類される。
そして、上述した式に基づいて各画像のクラスタ確信度が算出される。クラスタ確信度の算出に用いられる中心点Pは、略同一の特徴量を有する画像群である各クラスタの平均的な特徴量となる。この平均的な特徴量を有する画像は、各クラスタに属する複数の画像を視覚的に平均した画像(代表的な画像)であると換言できる。
また、各クラスタの中心点Pからの距離dに基づいて算出されたクラスタ確信度は、各クラスタの代表的な画像との近さといえる。このクラスタの代表的な画像との近さに基づいて画像がランク付けされるようになる。
検索結果として一覧表示される画像は、クラスタ確信度が高い順に並べられる。図5の表示画面Wにおける各画像の左側の数字(1〜12)は、画像の表示順位(ランキング)を示している。図5においては、検索結果の画像Gがクラスタの中心点Pからの距離dに基づいてクラスタ確信度が‘0.9’と算出されたことにより、最上位に表示されている。
以上のように、本実施形態によれば、タグ画像検索部5に基づいて検索された複数の画像を、画像の特徴量に基づいてクラスタリングし、各クラスタの中心点からの距離に基づいて算出したクラスタ確信度で画像のランク付けを行う。即ち、クラスタの中心に近い画像のランキングを高くし、クラスタの中心から離れた画像のランキングを下げるようにランク付けされる。
これにより、略同一の特徴量を有する画像群(クラスタ)の中で最も平均的(代表的)な画像に近い画像が上位に表示されるようになる。このため、テキストクエリにより検索された画像であっても、視覚的にもっともらしい画像が上位表示されるようになる。従って、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズを低減させると共に、様々な種類の画像を表示させることが出来る。
〔第2実施形態〕
次に、第2実施形態に係る検索システムについて説明する。尚、第2実施形態における検索システムの機能構成は、図1で説明した検索システムの機能構成で同様であるため、その詳細な説明は省略する。以下、第1実施形態の検索システムとの差異を中心に説明する。
第2実施形態における画像検索装置1の確信度算出部9は、画像のランク付けを行う際に、クラスタ確信度に更に各画像が属するクラスタ内の画像の数を重みとして設定して、そのクラスタ確信度(ランク)を算出する。確信度算出部9は、クラスタリング部7から各クラスタの画像数を取得して、下記の式2によりクラスタ確信度を再算出する。
(式2)
画像毎のクラスタ確信度=(1.0−α・d/dmax)×N
ここで、
Nは該画像が属するクラスタに分類された画像の数である。
この式2に基づくクラスタ確信度は、各画像の属するクラスタ内の画像数が多いほど高くなるように算出される。このクラスタ確信度の算出の重みとなる画像数は、特徴量が類似する画像数が多く、画像検索結果の中でもより同種の画像が多い一般的な画像である度合いを示す指標と捉えることができる。検索結果生成部11は、式2で求められたクラスタ確信度をランクとしてタグ画像検索部5により検索された画像をランク付けして出力用データを生成する。
これにより、テキストクエリにより検索された画像であっても、一般的な画像であり、更に画像検索結果の中でも各クラスタの中心点に近い画像が上位表示されるようになる。
また、式2は画像数Nを用いたクラスタ確信度の算出式の一例であり、次の式3により求めてもよい。
(式3)
画像毎のクラスタ確信度=(1.0−α・d/dmax)×1/R
ここで、
Rは画像数Nを降順(多い順)にソートして得られるランキング(1,2,3・・・)である。
この式3により求められるクラスタ確信度は、画像数という生のデータを正規化して、ばらつきを抑えた値といえる。具体的には、各クラスタの画像数の大きさに極端な差異が生じたとしても、画像数をランキングに置き換えることで、画像数によるクラスタ確信度の値の変動(インパクト)を抑制させる。
尚、第2実施形態でのクラスタ確信度を式4により求めてもよい。
(式4)
画像毎のクラスタ確信度=(1.0−α・d/dmax)×1.0/N
この式4に基づくクラスタ確信度は、各画像の属するクラスタ内の画像が少ないほど高くなるように算出される。このクラスタ確信度の算出の重みとなる画像数は、特徴量が類似する画像の数が少なく、画像検索結果の中でも同種の画像が少ない希少な画像である度合いを示す指標と捉えることができる。検索結果生成部11は、式4で求められたクラスタ確信度をランクとしてタグ画像検索部5により検索された画像をランク付けして出力用データを生成する。
これにより、テキストクエリにより検索された画像であっても、希少な画像であり、更に画像検索結果の中でも各クラスタの中心点に近い画像が上位表示されるようになる。
また、式4についても上述の式3のようにランキングRを用いて求めてもよい。即ち、次の式5によりクラスタ確信度を求めてもよい。
(式5)
画像毎のクラスタ確信度=(1.0−α・d/dmax)×R
この式5により求められるクラスタ確信度も上述と同様に、各クラスタの画像数の大きさに極端な差異が生じたとしても、画像数をランキングに置き換えることで、画像数によるクラスタ確信度の値の変動(インパクト)を抑制させることができる。
また、第2実施形態おいて、上述の式2〜式5を用いてクラスタ確信度を算出するが、例えば、図5の表示画面の一例のように「一般画像」ボタンB1と「希少画像」ボタンB3をクライアント端末100に表示させてユーザにボタンを選択させ、このボタンに応じてクラスタ確信度を求める式を選択してもよい。
この場合、画像検索装置1は、クライアント端末100でのボタンB1又はボタンB3の選択入力を受け付けて、ボタンの選択に応じた選択情報をクライアント端末100から受信する。そして、この選択情報に基づいてボタンB1が選択されたと判定した場合には、式2又は式3を用いてクラスタ確信度を算出する。また、ボタンB3が選択されと判定した場合には、式4又は式5を用いてクラスタ確信度を差出する。
これにより、ユーザは、テキストクエリによる画像検索の結果として表示させる画像を、一般的な画像か希少な画像かの何れかで切り替えることができる。
〔第3実施形態〕
次に、第3実施形態に係る検索システムについて説明する。尚、第3の実施形態における検索システムの機能構成は、図1で説明した検索システムの機能構成で同様であるため、その詳細な説明は省略する。以下、第1実施形態の検索システムとの差異を中心に説明する。
第3実施形態における画像検索装置1の確信度算出部9は、画像のランク付けを行う際に、タグ画像検索部5により検索された際に予め付与されたランクを重みとして設定して、そのクラスタ確信度(ランク)を算出する。
第3実施形態においてタグ画像検索部5は、画像DB13からテキストクエリに基づいて画像検索を行う際に、その検索におけるランクを算出する。例えば、テキストクエリとタグとの意味的な類似度をランクとする手法や、画像に対応付けて記憶されたクリック頻度をランクとする手法があり、画像検索におけるランクは適宜公知技術により得ることができる。
確信度算出部9は、タグ画像検索部5から各画像のランクを取得して、次のようにクラスタ確信度を再算出する。先ず、確信度算出部9は、画像毎のクリック頻度に基づいてクリック確信度を式6により求める。
(式6)
画像毎のクリック確信度=1/クリック頻度に基づくランキング
なお、クリック頻度のデータがない画像に関してはクリック数を0として扱う。従って、その画像については、ランキングは最大値となり、クリック確信度は最小値となる。但し、式6での計算はあくまで一例であり、例えば、式7でクリックログ確信度を算出することもできる。
(式7)
画像毎のクリック確信度=当該画像についてのクリック数/全画像についてのクリック数
また、テキストクエリに基づいた画像検索においては、テキストクエリとタグとの類似度順で画像がランキングされている。ランキング(1位から始まる整数値)を、式8により画像毎のテキスト確信度に変換することができる。この画像毎のテキスト確信度は、最大1となり、ランクが下の画像ほど0に近づくことになる。
(式8)
画像毎のテキスト確信度=1/テキストクエリに基づくランキング
第3実施形態における最終的な画像検索のランク、即ち、検索結果生成部11が出力用データを生成するために用いるランクは、上述した第1または第2実施形態によるクラスタ確信度と、クリック確信度と、テキスト確信度との平均として求める。或いは、各確信度に対して、0から1までの値k、p、q(ただしk+p+q=1)による重み付けを以下のように行っても良い。
(式9)
クラスタ確信度=(k×クリックログ確信度+p×テキスト確信度+q×クラスタ確信度)/3
以上、第3実施形態では、クラスタ確信度に対してテキスト確信度及びクリック確信度を加味して画像検索のランクを算出するため、画像検索の最終的な表示に、タグ画像検索部5による画像検索時のランキングを反映させることができる。従って、テキストクエリを用いた画像検索における不適切なタグの設定によるノイズを低減させると共に、様々な種類の画像を表示可能な画像検索を提供することができる。
上述した各実施形態の動作は、コンピュータに適宜のコンピュータソフトウエアを組み込むことにより実施することができる。
なお、本発明の内容は、上述の実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。
例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。
また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。
1 画像検索装置
3 クエリ受付部
5 タグ画像検索部
7 クラスタリング部
9 確信度算出部
11 検索結果生成部
13 画像DB
100 クライアント端末

Claims (6)

  1. テキストクエリに基づいて検索された画像にランク付けを行って検索結果を生成する画像検索装置において、
    前記テキストクエリに基づいて検索された複数の画像を取得する画像取得手段と、
    前記取得された画像の特徴量に基づいて特徴量空間にクラスタを生成し、そのクラスタに前記画像を分類するクラスタリング手段と、
    前記クラスタの中心点からそのクラスタに属する画像までの前記特徴量空間における距離を画像毎に算出する特徴距離算出手段と、
    前記画像毎の距離に基づいて該画像にランク付けを行って検索結果を生成するランキング手段と、
    を備えること特徴とする画像検索装置。
  2. 前記ランキング手段は、
    前記画像が属する前記クラスタ内の画像数が大きい程、前記ランク付けを高めるように前記重みを設定して前記検索結果のランクを算出することを特徴とする請求項1に記載の画像検索装置。
  3. 前記ランキング手段は、
    前記画像が属する前記クラスタ内の画像数が小さい程、前記ランク付けを高めるように前記重みを設定して前記検索結果のランクを算出することを特徴とする請求項1に記載の画像検索装置。
  4. 前記ランキング手段は、
    前記画像毎の距離に基づいたランクと、前記テキストクエリに基づく画像検索の際に得られるランクとから前記検索結果のランクを算出することを特徴とする請求項1〜3の何れか一項に記載の画像検索装置。
  5. テキストクエリに基づいて検索された画像にコンピュータがランク付けを行って検索結果を生成する画像検索方法において、
    前記テキストクエリに基づいて検索された複数の画像を取得する画像取得ステップと、
    前記取得された画像の特徴量に基づいて特徴量空間にクラスタを生成し、そのクラスタに前記画像を分類するクラスタリングステップと、
    前記クラスタの中心点からそのクラスタに属する画像までの前記特徴量空間における距離を画像毎に算出する特徴距離算出ステップと、
    前記画像毎の距離に基づいて該画像にランク付けを行って検索結果を生成するランキングステップと、
    を前記コンピュータが行うことを特徴とする画像検索方法。
  6. 請求項5に記載の各ステップをコンピュータ上で実行させるためのコンピュータプログラム。
JP2009137775A 2009-06-09 2009-06-09 画像検索装置 Active JP4999886B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009137775A JP4999886B2 (ja) 2009-06-09 2009-06-09 画像検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009137775A JP4999886B2 (ja) 2009-06-09 2009-06-09 画像検索装置

Publications (2)

Publication Number Publication Date
JP2010286861A JP2010286861A (ja) 2010-12-24
JP4999886B2 true JP4999886B2 (ja) 2012-08-15

Family

ID=43542549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009137775A Active JP4999886B2 (ja) 2009-06-09 2009-06-09 画像検索装置

Country Status (1)

Country Link
JP (1) JP4999886B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5265656B2 (ja) * 2010-12-27 2013-08-14 ヤフー株式会社 クラスタリング装置及びクラスタリング方法
JP6173754B2 (ja) * 2013-04-18 2017-08-02 株式会社日立製作所 画像検索システム、画像検索装置および画像検索方法
JP6334454B2 (ja) * 2015-04-23 2018-05-30 日本電信電話株式会社 クラスタリング装置、方法、及びプログラム
JP6334455B2 (ja) * 2015-04-23 2018-05-30 日本電信電話株式会社 クラスタリング装置、方法、及びプログラム
US10726086B2 (en) * 2016-11-15 2020-07-28 Houzz, Inc. Aesthetic search engine
CN110674328A (zh) * 2019-09-27 2020-01-10 长城计算机软件与***有限公司 一种商标图像检索方法、***、介质及设备
CN111859004A (zh) * 2020-07-29 2020-10-30 书行科技(北京)有限公司 检索图像的获取方法、装置、设备及可读存储介质
CN112256899B (zh) * 2020-09-23 2022-05-10 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3457617B2 (ja) * 2000-03-23 2003-10-20 株式会社東芝 画像検索システムおよび画像検索方法
JP2004280254A (ja) * 2003-03-13 2004-10-07 Sanyo Electric Co Ltd コンテンツ分類方法および装置
JP2005236646A (ja) * 2004-02-19 2005-09-02 Fuji Xerox Co Ltd 画像表示装置および方法およびプログラム
JP2007164633A (ja) * 2005-12-15 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索方法及び装置及びプログラム

Also Published As

Publication number Publication date
JP2010286861A (ja) 2010-12-24

Similar Documents

Publication Publication Date Title
JP4999886B2 (ja) 画像検索装置
JP5164901B2 (ja) 画像検索装置
US7636713B2 (en) Using activation paths to cluster proximity query results
US8429173B1 (en) Method, system, and computer readable medium for identifying result images based on an image query
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US8683389B1 (en) Method and apparatus for dynamic information visualization
US20090327279A1 (en) Apparatus and method for supporting document data search
KR20190037300A (ko) 키워드의 의미론적 관련성을 측정하기 위한 시스템 및 방법
US20040230570A1 (en) Search processing method and apparatus
JP5121917B2 (ja) 画像検索装置、画像検索方法及びプログラム
JP5137339B2 (ja) クラスタリングされたベクトルデータを検索するサーバ、システム及び方法
CN101551806A (zh) 一种个性化网址导航的方法和***
Rao Data mining and clustering techniques
CN102722503A (zh) 一种对检索结果进行排序的方法及装置
CA3128459A1 (en) Search and ranking of records across different databases
US20100082607A1 (en) System and method for aggregating a list of top ranked objects from ranked combination attribute lists using an early termination algorithm
JP5010624B2 (ja) 検索装置
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP5197680B2 (ja) 特徴情報作成装置、方法及びプログラム
JP2010218479A (ja) 画像検索装置
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
JP4891638B2 (ja) 目的データをカテゴリに分類する方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
WO2015017104A1 (en) Systems and methods for providing ordered results for search queries

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120515

R150 Certificate of patent or registration of utility model

Ref document number: 4999886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250