JP4819628B2

JP4819628B2 - ドキュメントデータを検索する方法、サーバ、およびプログラム

Info

Publication number: JP4819628B2
Application number: JP2006252223A
Authority: JP
Inventors: 澄男藤田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2006-09-19
Filing date: 2006-09-19
Publication date: 2011-11-24
Anticipated expiration: 2026-09-19
Also published as: JP2008077137A

Description

本発明は、キーワードに関連するドキュメントデータを検索する方法、サーバ、およびプログラムに関する。

従来、特にインターネットに存在する様々なドキュメントの中から必要な情報を得るため、キーワードに基づいて関連するドキュメントを検索する方法が広く用いられている。一般的な検索方法は、ドキュメントに含まれるテキストデータと、キーワードとのマッチングによる類似度の評価に基づいて行われている。しかし、インターネットの普及により情報量が膨大となったため、目的の情報に絞って抽出することが困難になってきている。更に、適切なキーワードを設定することができず、有用な情報を見逃してしまう可能性も高くなっている。

このような状況において、目的の情報を効率良く検索できるようにする技術が提案されてきている。例えば、特許文献１では、階層構造のカテゴリに分類した情報を順に辿っていくカテゴリ検索の手法において、検索対象となる文書をクラスタリングによって動的に分類し、クラスタごとにキーワードを抽出する方法が開示されている。
特開２００５−２５８９１０号公報

上記の方法によれば、動的に生成されるキーワードをユーザが選択していくことで、実際に存在するキーワードにより対象文書を絞り込めるので、ユーザが所望するドキュメントに効率良く辿り着ける可能性がある。しかしながら、あくまでもユーザが選択をしたキーワードによって検索されるため、例えば、同じテーマを別の観点から論じた文書や、多様な観点に基づいた関連語（ファセット）が抽出されることはない。

そこで本発明は、基となるキーワードから、別の観点による新たなキーワード（ファセット）を抽出し、効果的に関連するドキュメントの検索ができるようにすることを目的とする。

上記目的のため、具体的には、以下のようなものを提供する。

（１）通信回線を介して端末装置と接続されたサーバが、少なくとも１のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索する方法であって、
複数のドキュメントの内容を示す内容データを記憶するステップと、
前記端末装置から、前記基準キーワード集合を受信するステップと、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を新たなキーワード集合としてそれぞれ抽出するステップと、を含む方法。

このような構成によれば、通信回線を介して端末装置と接続された当該サーバは、複数のドキュメントの内容を示す内容データを記憶し、前記端末装置から、基準キーワード集合を受信し、前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出し、抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を新たなキーワード集合としてそれぞれ抽出する。

このことにより、当該サーバは、受信した基準キーワード集合によって検索した検索ドキュメント集合から、更に新たなキーワード集合を抽出するので、ユーザが指定する基準キーワード集合とは別の観点からドキュメント検索をすることができる。その結果、基準キーワード集合とのマッチングでは発見できなかった新たな関連ドキュメントを効果的に検索できる可能性がある。

（２）前記新たなキーワード集合は、前記クラスタの内、それぞれのサイズに基づいて選択したクラスタから抽出することを特徴とする（１）に記載の方法。

このような構成によれば、当該サーバは、新たなキーワード集合を、クラスタのサイズやコンパクト度に基づいて選択的に抽出するので、重要度が高いキーワードが優先的に抽出され、効果的に新たなドキュメントが検索されることが期待できる。

（３）前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出する第１のステップと、
抽出した前記新たな検索ドキュメント集合のそれぞれを前記クラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を別の新たなキーワード集合として抽出する第２のステップと、を更に含み、
前記第１のステップと前記第２のステップとを、所定の回数繰り返すことを特徴とする（１）または（２）に記載の方法。

このような構成によれば、当該サーバは、前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出する第１のステップと、抽出した前記新たな検索ドキュメント集合のそれぞれを前記クラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を別の新たなキーワード集合として抽出する第２のステップと、を所定の回数繰り返す。

このことにより、当該サーバは、新たなキーワード集合の抽出と分類を繰り返すことで、繰り返しの系列ごとにドキュメントの内容（テーマ）が純化されたグループを形成する。その結果、視点を変えたドキュメントが効率的に抽出される可能性がある。

（４）前記第１のステップと前記第２のステップとを繰り返すことにより系列として抽出される前記新たなキーワード集合の和から、少なくとも１の特徴的語彙を別の新たなキーワード集合として抽出するステップを更に含む（３）に記載の方法。

このような構成によれば、当該サーバは、系列として抽出された新たなキーワード集合を組み合わせて、更に新たなキーワード集合を生成する。このことにより、系列として純化されたテーマを示すキーワードが生成され、特定の内容のドキュメントを効率的に検索できる可能性がある。

（５）複数の前記系列を類似度により分類し、それぞれから少なくとも１の特徴的語彙を別の新たなキーワード集合としてそれぞれ抽出するステップを更に含む（４）に記載の方法。

このような構成によれば、当該サーバは、系列として分類された新たなキーワード集合を、更に類似度によって集約する。このことにより、類似したキーワード集合が生成されることがなくなるので、似た内容のドキュメントが分散されることなく検索できる可能性がある。

（６）前記基準キーワード集合のそれぞれと、当該基準キーワード集合に基づいて抽出した前記新たなキーワード集合とを、それぞれ関連付けて記憶するステップを更に含み、
後に、前記基準キーワード集合に含まれる少なくとも１の前記キーワードを受信したことに応じて、関連する前記新たなキーワード集合を読み出すことを特徴とする（１）から（５）のいずれかに記載の方法。

このような構成によれば、当該サーバは、前記基準キーワード集合のそれぞれと、当該基準キーワード集合に基づいて抽出した前記新たなキーワード集合とを、それぞれ関連付けて記憶し、後に、前記基準キーワード集合に含まれる少なくとも１の前記キーワードを受信したことに応じて、関連する前記新たなキーワード集合を読み出す。

このことにより、当該サーバは、予め関連する新たなキーワード（ファセット）を記憶しておくので、検索要求に応じて適宜読み出すことで処理時間を短縮し、効率的に検索を行うことができる。

（７）読み出した前記新たなキーワード集合に含まれるキーワードとの類似度に基づいて、別の新たなキーワード集合を読み出すことを特徴とする（６）に記載の方法。

このような構成によれば、当該サーバは、異なるキーワードに基づくファセット同士の類似度から、異なるキーワード間の関連性を見出すことができる。このことにより、当該サーバは、異なる視点による関連キーワードを提示することができ、ユーザにとって有益なドキュメントを検索、提供できる可能性がある。

（８）前記新たなキーワード集合を、前記キーワードの候補として、前記端末装置に送信するステップを更に含む（１）から（７）のいずれかに記載の方法。

このような構成によれば、当該サーバは、抽出した新たなキーワード集合をユーザに提示することで、別の視点に基づくドキュメント検索を促す。このことにより、ユーザにとって有益なドキュメントに辿り着くきっかけを作り出せる可能性がある。

（９）前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出するステップと、
抽出した前記新たな検索ドキュメント集合を、検索結果として前記端末装置に送信するステップと、を更に含む（１）から（８）のいずれかに記載の方法。

このような構成によれば、当該サーバは、前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出し、抽出した前記新たな検索ドキュメント集合を、検索結果として前記端末装置に送信する。

このことにより、当該サーバは、新たなキーワード集合（ファセット）に関連するドキュメントをユーザに検索結果として提示するので、ユーザが指定したキーワードとは異なる視点による関連ドキュメントを自動的に提供することができる。その結果、ユーザの検索操作に応じて、例えば、関連商品や広告等を効果的に表示することもできる。

（１０）前記検索結果は、前記クラスタのサイズに基づいて、前記新たな検索ドキュメント集合を順位付けして生成することを特徴とする（９）に記載の方法。

このような構成によれば、当該サーバは、クラスタのサイズやコンパクト度に基づいて、新たな検索ドキュメント集合を順位付けして抽出するので、重要度が高いドキュメントが優先的に抽出され、効果的な検索結果を提示できる可能性がある。

（１１）前記検索結果は、前記新たなキーワード集合の複数から共通して抽出される前記内容データを高く順位付けして生成することを特徴とする（９）または（１０）に記載の方法。

このような構成によれば、当該サーバは、複数の新たなキーワード集合から共通して検索されるドキュメントを上位に順位付けするので、多くの情報を含んだ効果的なドキュメントを優先的に提示することができる。

（１２）情報を分類し特徴付けるための複数の分類データを予め記憶するステップと、
前記クラスタに対して、前記分類データの中から関連度が最も高いものを選択するステップを更に含み、
前記検索結果は、選択した前記分類データを、前記新たな検索ドキュメント集合に付加して生成することを特徴とする（９）から（１１）のいずれかに記載の方法。

このような構成によれば、当該サーバは、情報を分類し特徴付けるための複数の分類データを予め記憶し、前記クラスタに対して、前記分類データの中から関連度が最も高いものを選択し、前記検索結果は、選択した前記分類データを、前記新たな検索ドキュメント集合に付加して生成する。

このことにより、当該サーバは、検索結果であるドキュメントを既存の分類体系に当てはめ、検索結果として提示することができる。その結果、どの分野についてのドキュメントであるかを明示した上で、関連ドキュメントを提示することができる。

（１３）前記検索結果は、前記新たな検索ドキュメント集合から前記検索ドキュメント集合に含まれる前記内容データを除いて生成することを特徴とする（９）から（１２）のいずれかに記載の方法。

このような構成によれば、当該サーバは、新たなキーワード集合（ファセット）を抽出するための検索ドキュメント集合を除いて検索結果を生成する。このことにより、当該サーバは、ユーザにより指定されたキーワードとは異なる視点により抽出した関連ドキュメントに、ユーザの注意を向けさせることができる。

（１４）前記新たな検索ドキュメント集合に対し、前記新たなキーワード集合を関連付けて記憶するステップを更に含む（３）から（１３）のいずれかに記載の方法。

このような構成によれば、当該サーバは、検索されたドキュメントに対して、キーワードを関連付けて記憶するので、検索履歴として後から利用することができ、同じ検索要求に対して効率的に結果を生成することができる。

（１５）通信回線を介して端末装置と接続され、少なくとも１のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索するサーバであって、
複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
前記端末装置から、前記基準キーワード集合を受信する手段と、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を新たなキーワード集合として抽出する手段と、を備えるサーバ。

このような構成によれば、当該サーバを運用することにより、（１）と同様の効果が期待できる。

（１６）通信回線を介して端末装置と接続されたサーバに、少なくとも１のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索させるプログラムであって、
複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
前記端末装置から、前記基準キーワード集合を受信するステップと、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を新たなキーワード集合として抽出するステップと、を実行させるプログラム。

このような構成によれば、当該プログラムを当該サーバ上で実行することにより、（１）と同様の効果が期待できる。

本発明によれば、基となるキーワードから、別の観点による新たなキーワード（ファセット）を抽出し、効果的に関連するドキュメントの検索ができる可能性がある。

本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。

［システムの全体構成］
図１は、本発明の好適な実施形態の一例に係る検索システムの全体構成を表すブロック図である。

サーバ１０、端末２０、およびドキュメントサーバ３０が、通信ネットワーク４０を介して接続されている。サーバ１０は、端末２０から受信するキーワードに基づいて、ドキュメントサーバ３０が記憶しているドキュメントから、関連するものを検索する。

ここで、ドキュメントサーバ３０は複数存在してよく、ドキュメントデータを所定のタイミングで受信してドキュメントＤＢ１３０に記憶する。なお、記憶するデータはドキュメントデータ全体である必要はなく、その内容を示すデータであればよい。サーバ１０は、例えば定期的に複数のドキュメントサーバ３０を巡回し、ドキュメントの内容やドキュメントへのリンクを含む内容データを収集して記憶する。

サーバ１０は、端末２０から検索に用いるキーワードを受信し、検索処理部１１０において、ドキュメントＤＢ１３０から関連するドキュメントを検索する。その際、受信したキーワードとは別の新たなキーワード（ファセット）を抽出する（詳しくは、図３〜図９にて後述する）。

検索の履歴は、ログ監視部がファセットＤＢ１４０に記憶する。検索処理部１１０は、ファセットＤＢ１４０から読み出したキーワード等を再利用でき、これにより新たなドキュメントの検索を行ってもよい。

サーバ１０は、抽出したファセットあるいはファセットを用いた検索結果を端末２０に送信する。端末２０は、受信したファセットあるいは検索結果を表示し、ユーザが入力したキーワードとは別の視点による情報を提示する。ユーザは、この情報に応じて、新たなＷｅｂページへ遷移したり、新たな視点による検索を実行したりできる。

なお、サーバ１０は単一の装置として説明したが、その数に制限はなく、必要に応じて１または複数で構成してよい。例えば、Ｗｅｂサーバ、ＤＢサーバ、アプリケーションサーバを含んで構成してよく、１台のサーバで構成しても、それぞれ別のサーバとして構成してもよい。

［サーバのハードウェア構成］
図２は、本発明の好適な実施形態の一例に係るサーバ１０のハードウェア構成を示す図である。サーバ１０は、検索処理部１１０およびログ監視部１２０を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０（マルチプロセッサ構成ではＣＰＵ１０１２等複数のＣＰＵが追加されてもよい）、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、ＵＳＢポート１０９０、Ｉ／Ｏコントローラ１０７０、ならびにキーボードおよびマウス１１００等の入力手段や表示装置１０２２を備える。

Ｉ／Ｏコントローラ１０７０には、テープドライブ１０７２、ハードディスク１０７４、光ディスクドライブ１０７６、半導体メモリ１０７８、等の記憶手段を接続することができる。

ＢＩＯＳ１０６０は、サーバ１０の起動時にＣＰＵ１０１０が実行するブートプログラムや、サーバ１０のハードウェアに依存するプログラム等を格納する。

ドキュメントＤＢ１３０およびファセットＤＢ１４０を含む記憶部を構成するハードディスク１０７４は、サーバ１０がサーバとして機能するための各種プログラムおよび本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。

光ディスクドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク１０７７を使用する。光ディスク１０７７から光ディスクドライブ１０７６によりプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０またはハードディスク１０７４に提供することもできる。また、同様にテープドライブ１０７２に対応したテープメディア１０７１を主としてバックアップのために使用することもできる。

サーバ１０に提供されるプログラムは、ハードディスク１０７４、光ディスク１０７７、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、または通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、サーバ１０にインストールされ実行されてもよい。

前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部を構成する記憶媒体としては、ハードディスク１０７４、光ディスク１０７７、またはメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープメディア１０７１を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク１０７４または光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバ１０に提供してもよい。

ここで、表示装置１０２２は、サーバ管理者にデータの入力を受け付ける画面を表示したり、サーバ１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

ここで、入力手段は、サーバ管理者による入力の受け付けを行うものであり、キーボードおよびマウス１１００等により構成してよい。

また、通信Ｉ／Ｆ１０４０は、サーバ１０を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１０４０は、モデム、ケーブル・モデムおよびイーサネット（登録商標）・アダプタを含んでよい。

以上の例は、サーバ１０について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

［端末のハードウェア構成］
端末２０も、上述のサーバ１０と同様な構成で実現できる。また、上述の例ではいわゆるコンピュータで実現した例について説明したが、更に、本発明の原理が適用可能である限り、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤａｔａＡｓｓｉｓｔａｎｔ）等の様々な端末で実現してもよい。

［処理フロー］
図３は、本発明の好適な実施形態の一例に係る処理の流れを示すフローチャートである。

ステップＳ１１では、サーバ１０は、端末２０からドキュメント検索を行うためのキーワードを受信する。なお、キーワードは複数の組み合わせ（キーワード集合）であってもよく、一般には、これらのＡＮＤ条件により、検索対象の絞り込みを行う。

ステップＳ１２では、サーバ１０は、ステップＳ１１にて受信したキーワード集合に基づいて、ドキュメントの検索を行う。具体的には、例えばドキュメントＤＢに記憶しているドキュメントの内容を示す内容データと、キーワードそれぞれとの類似度（マッチング度合）を評価することにより、順位付けして抽出することができる。その際、類似度が所定の基準以上であるものに限って抽出する、あるいは、類似度が高いものから順に所定数を抽出することとしてよい。

ステップＳ１３では、サーバ１０は、ステップＳ１２にて検索した複数のドキュメントを内容の類似度に応じてクラスタリングする。具体的には、例えば、ワン・パスクラスタリング、ｋ−ｍｅａｎｓ、階層クラスタリング等、公知の技術を用いることができる。

ステップＳ１４では、サーバ１０は、ステップＳ１３にて分類された個々のクラスタから、それらを特徴付ける語彙の抽出をする。特徴的語彙を抽出する方法としては、例えば、Ｒｏｃｃｈｉｏ方式、ｗｐｑ方式等、公知の技術を用いることができる。ここで抽出された特徴的語彙は、ステップＳ１１で受信したキーワードとは異なることが期待でき、異なる観点での新たなキーワード（ファセット）として、更なる検索に利用することができる。

ステップＳ１５では、サーバ１０は、ファセットの抽出を終了するか否かを判別し、続行する場合（ＮＯの場合）にはステップＳ１２〜Ｓ１４を繰り返す。具体的には、例えば、所定の回数繰り返すことにより終了と判別したり、検索されるドキュメントの数が所定数を下回った場合に終了と判別したりといった判別基準を、予め設定しておくこととしてよい。

［ファセット抽出の模式図］
図４は、本発明の好適な実施形態の一例に係るファセットの抽出手順を示す模式図である。

まず、端末２０のユーザから初期のキーワードＴが入力される。サーバ１０は、キーワードＴに基づいてドキュメントを検索し、検索ドキュメント集合Ｒを得る。検索ドキュメント集合Ｒは複数のドキュメントからなり、クラスタＣ１、Ｃ２、Ｃ３に分類される。

クラスタＣ１、Ｃ２、Ｃ３からは、それぞれを特徴付ける新たなキーワードＴ１、Ｔ２、Ｔ３を抽出する。抽出されたキーワードＴ１、Ｔ２、Ｔ３は、初期のキーワードＴとは異なり、例えば、同じテーマであっても視点の異なるキーワードが抽出されることが期待できる。

このように、抽出されたキーワードＴ１、Ｔ２、Ｔ３は、初期のキーワードＴのファセットであるので、これらに基づいて新たにドキュメントを検索することによって、別の観点に基づいた情報を得ることができる。ここで、キーワードＴ１、Ｔ２、Ｔ３からは、それぞれ検索ドキュメント集合Ｒ１、Ｒ２、Ｒ３が得られる。

以下、ドキュメントの検索とクラスタリング、新たなキーワード（ファセット）の抽出を繰り返し、木構造に枝分かれしたファセットの集合を得ることができる。

なお、抽出されるキーワードは、重要度にばらつきがあり、利用価値の低いものも含まれていると考えられる。そこで、例えば、クラスタのサイズやコンパクト度に応じて順位付けし、クラスタの重要度が低いと判別されるもの（例えば、クラスタＣ２２）は除外してもよい。

［ファセットの系列］
図５は、本発明の好適な実施形態の一例に係るファセットの系列を示す図である。

初期のキーワードＴから始まって、サーバ１０は、前述のように木構造で新たなキーワードを抽出する。ここで、Ｔ−Ｔ１−Ｔ１１の系列を１のキーワード集合Ａとすることができる。同様に、キーワード集合Ｂ、Ｃ、Ｄ、Ｅを生成し、これらをキーワードＴのファセットとしてユーザに提示、または、これに基づいてドキュメントを検索する。

ここで、キーワード集合Ａから、更に特徴を表すキーワードを抽出し、新たなキーワード集合Ｆを生成してもよい。また、系列間の類似度を評価することによって、例えばキーワード集合ＢおよびＣの類似度が高い場合に、両者を組み合わせた新たなキーワード集合Ｇを生成してもよい。

［検索結果提示例１］
図６〜図８は、本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。

図６では、受け付けたキーワードから、検索ドキュメント集合を介して、新たなキーワード（ファセット）を抽出している。サーバ１０は、このファセットを検索結果として端末２０に送信することができる。このことにより、端末２０のユーザは、入力したキーワードに関連する別の視点に気付くことができ、新たな検索を実行するきっかけとなる。

なお、検索結果となるファセットは、抽出元であるクラスタのサイズやコンパクト度に基づいて順位付けや絞り込みをしてもよい。これにより、ユーザにとって有益な情報を優先的に提示できる可能性がある。

続いてサーバ１０は、ファセットから更にドキュメントを検索し、元のキーワードから検索される検索ドキュメント集合とは異なるドキュメントを検索結果として端末２０に送信することができる。更には、前述のようにファセットの抽出とドキュメントの検索を繰り返すことにより、更に違った検索結果を端末２０に送信し、ユーザに提示することができる。

このとき、サーバ１０は、検索結果となる複数のドキュメントに順位付けをすることができる。例えば、複数のファセットと関連する（複数のファセットから共通して検索される）ドキュメントを優先的に提示してもよいし、前述のファセットの順位付けに応じて、対応するドキュメントを順位付けしてもよい。

［検索結果提示例２］
図７では、既存のカテゴリや類語辞書等、分類データに検索結果を関連付ける例を示している。

サーバ１０は、検索ドキュメント集合を分類したクラスタに対して、予め記憶している分類データ群から相応しい１の分類データを選択する。その際、例えば、クラスタに含まれるドキュメントが分類データと合致する率等から選択することとしてよい。

サーバ１０は、選択した分類データを、ファセットに基づいて検索したドキュメントに関連付けて、検索結果として提示する。このことにより、検索結果に辿り着く元となったテーマを、既存の分類に当てはめて提示し、ユーザの理解を助けることができる。更に、ユーザは、後に同様の情報を得るために効果的なテーマを知ることができる。

［検索結果提示例３］
図８では、ファセット間の類似により、関連情報を検索結果として提示する例を示している。

サーバ１０は、予め主要なキーワード集合（既存のカテゴリ分類等）に基づいてファセットを生成し、記憶しておく。図９にファセットを記憶するテーブルの例を示す。ここでは、カテゴリ、カテゴリ細分、品目という階層に対して、複数のキーワードが用意されている。例えば、「日用品、クリーム、日焼け止め」というカテゴリをもった商品には、「海、山、海水浴」といったキーワード（ファセット）を関連付けて記憶している。

端末２０のユーザから、カテゴリ選択やキーワード入力等の検索入力を受け付けると、サーバ１０は、対応するカテゴリＡに関連付くファセットＡを読み出す。サーバ１０は、このファセットＡに基づくドキュメントＡを検索結果としてもよいが、ここでは、更に別の関連情報を読み出す。

サーバ１０は、図９の例に示すように複数のカテゴリ情報を記憶しており、カテゴリＡに関連付くファセットＡと、カテゴリＢに関連付くファセットＢとが類似している場合、カテゴリＢに基づくドキュメントＢを検索結果として提示する。

例えば、図９において「海水浴、砂浜用、砂浜」は、マッチングや類語辞書等により、互いに類似していると判別することができる。ここで、ユーザから「レジャーカテゴリでビーチパラソルを購入した」という検索入力を受け付けた場合、ファセットが類似する品目である「日焼け止め」等を検索結果として端末２０に表示することができる。このような情報は、ユーザの関心が高いものであると考えられるので、サーバ１０は、検索入力に関連する有益な情報を効果的にユーザに提供できる可能性がある。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

本発明の好適な実施形態の一例に係る検索システムの全体構成を表すブロック図である。本発明の好適な実施形態の一例に係るサーバのハードウェア構成を示す図である。本発明の好適な実施形態の一例に係る処理の流れを示すフローチャートである。本発明の好適な実施形態の一例に係るファセットの抽出手順を示す模式図である。本発明の好適な実施形態の一例に係るファセットの系列を示す図である。本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。本発明の好適な実施形態の一例に係るファセットを記憶するテーブルの例を示す図である。

符号の説明

１０サーバ
２０端末
３０ドキュメントサーバ
４０通信ネットワーク
１１０検索処理部
１２０ログ監視部
１３０ドキュメントＤＢ
１４０ファセットＤＢ

Claims

通信回線を介して端末装置と接続されたサーバが、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索する方法であって、
複数のドキュメントの内容を示す内容データを記憶するステップと、
前記端末装置から、第１のキーワード集合を受信する受信ステップと、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するドキュメント抽出ステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出するキーワード抽出ステップと、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
前記キーワード記憶ステップにおいて記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出しステップと、
前記読み出しステップにおいて読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を、新たな検索の実行を促すための第３のキーワード集合として、前記端末装置に送信する送信ステップと、を含む方法。
前記内容データの中から、前記第３のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として、前記第３のキーワード集合のそれぞれについて抽出する検索結果抽出ステップを更に含み、
前記送信ステップにおいて、前記検索結果のドキュメント集合を、前記端末装置に送信する請求項１に記載の方法。
通信回線を介して端末装置と接続されたサーバが、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索する方法であって、
複数のドキュメントの内容を示す内容データを記憶するステップと、
前記端末装置から、第１のキーワード集合を受信する受信ステップと、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するドキュメント抽出ステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出するキーワード抽出ステップと、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
前記キーワード記憶ステップにおいて記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出しステップと、
前記読み出しステップにおいて読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を第３のキーワード集合とし、前記内容データの中から、当該第３のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出ステップと、
前記検索結果抽出ステップにおいて抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信ステップと、を含む方法。
前記検索結果抽出ステップにおいて、前記検索結果のドキュメント集合は、前記ドキュメント抽出ステップで抽出された前記検索ドキュメント集合に含まれる前記内容データを除いて生成される請求項２または請求項３に記載の方法。
前記検索結果のドキュメント集合に対し、前記第３のキーワード集合を関連付けて記憶するステップを更に含む請求項２から請求項４のいずれかに記載の方法。
前記ドキュメント抽出ステップにおいて、前記第２のキーワード集合は、前記クラスタの内、それぞれのサイズに基づいて選択したクラスタから抽出される請求項１から請求項５のいずれかに記載の方法。
前記ドキュメント抽出ステップと前記キーワード抽出ステップとを、所定の回数繰り返すことを特徴とする請求項１から請求項６のいずれかに記載の方法。
前記ドキュメント抽出ステップと前記キーワード抽出ステップとを繰り返すことにより系列として抽出される前記第２のキーワード集合の和から、少なくとも１の特徴的語彙を更に第２のキーワード集合として抽出する系列キーワード抽出ステップを更に含む請求項７に記載の方法。
前記系列キーワード抽出ステップにおいて、複数の前記系列を類似度により分類し、それぞれから少なくとも１の特徴的語彙を更に第２のキーワード集合としてそれぞれ抽出する請求項８に記載の方法。
通信回線を介して端末装置と接続され、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索するサーバであって、
複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
前記端末装置から、第１のキーワード集合を受信する受信手段と、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出する手段と、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶手段と、
前記キーワード記憶手段により記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信手段により受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出し手段と、
前記読み出し手段により読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を、新たな検索の実行を促すための第３のキーワード集合として、前記端末装置に送信する送信手段と、を備えるサーバ。
通信回線を介して端末装置と接続され、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索するサーバであって、
複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
前記端末装置から、第１のキーワード集合を受信する受信手段と、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出する手段と、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶手段と、
前記キーワード記憶手段により記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信手段により受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出し手段と、
前記読み出し手段において読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を第３のキーワード集合とし、前記内容データの中から、当該第３のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出手段と、
前記検索結果抽出手段により抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信手段と、を備えるサーバ。
通信回線を介して端末装置と接続されたサーバに、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索させるプログラムであって、
複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
前記端末装置から、第１のキーワード集合を受信する受信ステップと、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出するステップと、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
前記キーワード記憶ステップにおいて記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出しステップと、
前記読み出しステップにおいて読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を、新たな検索の実行を促すための第３のキーワード集合として、前記端末装置に送信する送信ステップと、を実行させるプログラム。
通信回線を介して端末装置と接続されたサーバに、少なくとも１のキーワードからなるキーワード集合に関連するドキュメントデータを検索させるプログラムであって、
複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
前記端末装置から、第１のキーワード集合を受信する受信ステップと、
前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも１の特徴的語彙を第２のキーワード集合としてそれぞれ抽出するステップと、
前記第１のキーワード集合のそれぞれと、当該第１のキーワード集合に基づいて抽出した前記第２のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
前記キーワード記憶ステップにおいて記憶された第１のキーワード集合に含まれる少なくとも１のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第１のキーワード集合と関連付けられている第２のキーワード集合を読み出し、当該読み出した前記第２のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第２のキーワード集合を読み出し、さらに、当該別の第２のキーワード集合と関連付けられている第１のキーワード集合を読み出す読み出しステップと、
前記読み出しステップにおいて読み出された前記別の第２のキーワード集合と関連付けられている第１のキーワード集合を第３のキーワード集合とし、前記内容データの中から、当該第３のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出ステップと、
前記検索結果抽出ステップにおいて抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信ステップと、を実行させるプログラム。