JP2004259083A - 情報検索方法、情報検索サーバ、及び情報検索プログラム - Google Patents
情報検索方法、情報検索サーバ、及び情報検索プログラム Download PDFInfo
- Publication number
- JP2004259083A JP2004259083A JP2003050314A JP2003050314A JP2004259083A JP 2004259083 A JP2004259083 A JP 2004259083A JP 2003050314 A JP2003050314 A JP 2003050314A JP 2003050314 A JP2003050314 A JP 2003050314A JP 2004259083 A JP2004259083 A JP 2004259083A
- Authority
- JP
- Japan
- Prior art keywords
- user
- page
- www
- www page
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】WWW上で効率のよい情報検索を行うことができる情報検索システム及び情報検索方法、特に情報検索を行う特定のユーザの嗜好を反映させた情報検索を行うことができる情報検索方法、情報検索サーバ、及び情報検索プログラムを提供する。
【解決手段】ページ検索部21は、キーワード・ページ対応表を用いて、キーワードを有するWWWページIDを検索して出力する。コミュニティ検索部22は、ユーザIDとWWWページIDを初期値として、ユーザ・ページ対応表からマトリクスクラスタリングを行って情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザのアクセスが多いWWWページIDと前記キーワードを含むWWWページIDとをページリスト生成部22へ出力する。ページリスト生成部23は、WWWページIDを順位付けしたWWWページリストを生成する。
【選択図】 図1
【解決手段】ページ検索部21は、キーワード・ページ対応表を用いて、キーワードを有するWWWページIDを検索して出力する。コミュニティ検索部22は、ユーザIDとWWWページIDを初期値として、ユーザ・ページ対応表からマトリクスクラスタリングを行って情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザのアクセスが多いWWWページIDと前記キーワードを含むWWWページIDとをページリスト生成部22へ出力する。ページリスト生成部23は、WWWページIDを順位付けしたWWWページリストを生成する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法、情報検索サーバ、及び情報検索プログラムに関するものである。
【0002】
【従来の技術】
WWWの普及により、膨大な量の情報が電子化されてWWWページとしてアクセス可能となっており、大量のWWWページによる情報が様々な分野で広く利用されている。このようなWWW上の膨大な量の情報の中から、ユーザが所望の目的の情報を効率よく得るためには、WWW上で効率よく情報検索を行い、所望のWWWページを素早く表示できることが非常に重要である。このような情報検索を行うために、従来より様々な検索エンジンが利用されている。
【0003】
従来の検索エンジンによる情報検索システムの概要を説明するに、まず、ユーザがクライアントにおいて、所望の情報を得るためのキーワードを入力し、該キーワードをサーバに送信する。キーワードを受信したサーバは、キーワード・ページ対応表から、該キーワードに該当するWWWページ情報を抽出してWWWページリストを生成し、該WWWページリストをクライアントに表示する。ユーザは、表示された各WWWページ情報のURLを用いて所望のWWWページを表示させることができる。また、表示されたWWWページリストのWWWページ情報数が多い場合には、更にキーワードを入力して絞込みを行う。なお、前記キーワード・ページ対応表は、サーバが予め検索対象となるWWWページを収集し、各WWWページに含まれるキーワードを抽出することにより作成されている。
【0004】
一般に、検索エンジンにより検索可能なWWWページ数は膨大であり、慣用されている用語や多用されている用語をキーワードとして情報検索を行うと、該キーワードを有するWWWページが膨大に存在するので、WWWページリストに表示されるWWWページ情報数も膨大となる。従って、更にキーワードを入力してWWWページの絞込みを行う必要がある。例えば、ユーザが、ある田中氏の情報を得るために従来の検索エンジンで「田中」をキーワードとして情報検索を行うと、百数十万件のWWWページがヒットする。これらWWWページリストの中には、様々な分野における「田中」を氏とする者の情報が混在するので、該WWWページリストの中から、ユーザが所望の田中氏の情報を有するWWWページを探し出すことは困難である。更に、音楽関係の田中氏の情報を得たいので、「田中」と「音楽」とをキーワードとして絞込みを行っても、二十数万件がヒットし、これらの中から所望の田中氏の情報を有するWWWページを探し出すことも困難である。従って、WWW上で情報検索を行う場合には、所望のWWWページに含まれ、且つ慣用語や多用語でないと推測されるキーワードを使うことが望まれるが、該キーワードを的確に想定して効率のよい情報検索を行うことは、WWWページにおける慣用語や多用語を把握した熟練者でないと難しい。
【0005】
他方、従来の検索エンジンでは、情報検索に不慣れなユーザや的確なキーワードを幾つも思いつかない場合等でも、ユーザが所望のWWWページを効率よく表示させることができるように、検索結果を順位付けしてWWWページリストに表示するようにしている。このような検索結果の順位付けには、WWWページのアクセス数や被リンク数を基準としている場合が多く、アクセス数の多いものは、多くのユーザに対して人気が高いので、情報検索を行ったユーザが望むWWWページに該当する可能性が高く、また、被リンク数が多いものは、多くのWWWページからリンクが貼られていることからWWWページの客観的な重用度が高いので、同様に、ユーザの望むWWWページに該当する可能性が高いと考えられる(特許文献1及び特許文献2参照)。
【0006】
図10は、従来の情報検索システムの処理の一例を示す図であるが、まず、クライアントに入力されたキーワードにより、サーバが予め作成されたキーワード・ページ対応表を用いて該当するキーワードを有するWWWページを検索する。
【0007】
図11は、前記キーワード・ページ対応表であり、縦軸をWWWページ、横軸をキーワードとして、「0」は対応するキーワードを有しないことを、「1」は対応するキーワードを有することを表示している。このようなキーワード・ページ対応表は、ロボット検索等により一定期間毎にWWWページを巡回してキーワードが抽出されて随時更新されている。このようなキーワード・ページ対応表により、クライアントが入力したキーワードを含むWWWページが抽出される。
【0008】
次に、検索された複数のWWWページに対して、ページ優先度表を用いて各WWWページの順位付けを行う。このページ優先度表には、WWWページのアクセス数や被リンク数を基準として各WWWページ毎に優先度を示す数値が記録されている。図12は、前記ページ優先度表であり、各WWWページ毎のアクセス数又は被リンク数に応じてランク付けがされており、数値が大きいもの程、アクセス数又は被リンク数が多く、優先度が高いことを示している。この順位付けに従って、検索されたWWWページ情報を優先度の高い順から降順としてWWWページリストを生成してクライアントに表示する。
【0009】
例えば、クライアントがキーワード「c」を入力して検索を行った場合、情報検索システムとして機能するサーバは、前記キーワード・ページ対応表よりWWWページC,D,Eが抽出する。さらに、前記ページ優先度表から、抽出されたWWWページC,E,Dの優先度を得て、優先度の高い順にC,E,Dの順序でWWWページリストが生成され、クライアントに表示される。
【0010】
ユーザはクライアントに表示されたWWWページリストの各WWWページ情報から任意のWWWページを選択して表示させるが、アクセス数又は被リンク数の多いWWWページは、多くのユーザにとって有用なものであるから、情報検索を行っている当該ユーザにとっても有用である可能性が高い。このように、アクセス数や被リンク数を指標として、広くユーザに有用であるWWWページから順位付けしたWWWページリストを生成することにより、ユーザが望んでいる情報を有するWWWページが上位に含まれる可能性が高くなり、効率のよい情報検索を提供することができる。
【0011】
【特許文献1】
特開2002−202992号公報
【特許文献2】
特開2002−215671号公報
【0012】
【発明が解決しようとする課題】
しかし、WWW上で提供される情報の種類が多様化するとともに、情報検索の目的もユーザ毎に多様となっており、更にWWWの利用層が広がることにより、情報検索を利用する各ユーザの嗜好も様々となっている。従って、情報検索を行った特定のユーザが望んでいる情報を有するWWWページが、必ずしも、全ユーザに人気の高いものや重要なものであるとは限らないので、アクセス数や被リンク数を基準とした順位付けは、多種多様なユーザすべての検索効率を高めるものではない。
【0013】
例えば、若年層のユーザに人気のあるWWWページが、高齢層のユーザにとっても人気があるとは限らないように、特定のユーザが自分の嗜好にあった情報を検索しようとしても、全ユーザのアクセス数や被リンク数を基準として順位付けされたWWWページリストでは、当該ユーザが望む情報を有するWWWページが上位に含まれるとは限らないので、当該ユーザはWWWページリストによる順位付けに関係なく各WWWページを順次表示させることにより、各々のWWWページに所望の情報が含まれているかを確認せねばならず、結局、情報検索に時間と手間を要することとなり非効率である。
【0014】
本発明は、これらに鑑みてなされたものであり、WWW上で効率のよい情報検索を行うことができる情報検索システム及び情報検索方法、特に情報検索を行う特定のユーザの嗜好を反映させた情報検索を行うことができる情報検索方法、情報検索サーバ、及び情報検索プログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
本発明の請求項1に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDとWWWページ検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択し、該コミュニティに属するユーザのアクセス頻度に基づいて、前記コミュニティに属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0016】
また、本発明の請求項2に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、前記WWWページ検索結果と前記コミュニティに属するユーザとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択し、前記領域に属するユーザのアクセス頻度に基づいて、前記領域に属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0017】
また、本発明(請求項3)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、ユーザが入力したものである。
【0018】
また、本発明(請求項4)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、クライアントに表示されたキーワード群からユーザが選択したものである。
【0019】
また、本発明(請求項5)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードは、クライアントに表示されているWWWページから抽出されたものである。
【0020】
また、本発明(請求項6)は、請求項1に記載の情報検索方法において、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0021】
また、本発明(請求項7)は、請求項6に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0022】
また、本発明(請求項8)は、請求項2に記載の情報検索方法において、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0023】
また、本発明(請求項9)は、請求項8に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0024】
また、本発明(請求項10)は、請求項1又は2に記載の情報検索方法において、前記WWWページリストは、前記コミュニティ又は領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したものである。
【0025】
また、本発明の請求項11に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段と、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0026】
また、本発明の請求項12に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段と、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段と、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0027】
また、本発明(請求項13)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものである。
【0028】
また、本発明(請求項14)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものである。
【0029】
また、本発明(請求項15)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものである。
【0030】
また、本発明(請求項16)は、請求項11に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0031】
また、本発明(請求項17)は、請求項16に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0032】
また、本発明(請求項18)は、請求項12に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0033】
また、本発明(請求項19)は、請求項18に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0034】
また、本発明(請求項20)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページリスト生成手段は、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものである。
【0035】
また、本発明の請求項21に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0036】
また、本発明の請求項22に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0037】
また、本発明(請求項23)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0038】
また、本発明(請求項24)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0039】
また、本発明(請求項25)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0040】
また、本発明(請求項26)は、請求項21に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0041】
また、本発明(請求項27)は、請求項26に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものとして機能させるものである。
【0042】
また、本発明(請求項28)は、請求項22に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0043】
また、本発明(請求項29)は、請求項28に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものとして機能させるものである。
【0044】
また、本発明(請求項30)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページリスト生成手段を、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものとして機能させるものである。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づき具体的に説明する。
〔第1の実施の形態〕
図1に示すように、本実施の形態に係る情報検索システム1は、情報検索サーバ2と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。情報検索サーバ2及びクライアント3は、計算機とソフトウェア等によって構成されている。該計算機は、例えばパーソナルコンピュータであり、CPU、RAM、ハードディスク、CRT等の表示装置、キーボードやマウス等の入力装置、LANボード等の通信装置等から構成される。ネットワーク4は、広域網や公衆網、LAN等であり、本実施の形態ではインターネットを例に説明する。
【0046】
本実施の形態にように、インターネットを介して情報検索サーバ2にクライアント3がアクセスされる場合では、一般に、情報検索サーバ2は検索エンジンを提供するWWWサーバであり、クライアント3はインターネットブラウザ等のインタフェースを具備し、該インタフェースにより検索エンジンやWWWページを閲覧することができるものである。ユーザがクライアント3からWWW上の情報検索を行う際には、クライアント3のインタフェースに表示された検索エンジンにおいてキーワードを入力することにより、該クライアント3からネットワーク4を介して情報検索サーバ2に前記キーワード及びユーザIDが送信され、これに対し、情報検索サーバ2が該キーワード及びユーザIDに基づいてWWWページの検索を行い、検索結果を順位付けしてWWWページリストを生成し、クライアント3へ送信する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧する。
【0047】
前記情報検索サーバ2は、管理部20、ページ検索部21、コミュニティ検索部22、ページリスト生成部23を備えてなるものである。
管理部20は、ページ検索部21、コミュニティ検索部22、ページリスト生成部23の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部20が受信して、ページ検索部21及びコミュニティ検索部22へ送信するようになっている。また、ページリスト生成部23により作成されたWWWページリストを所定のクライアント3に送信するようになっている。さらに、管理部20は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。このように機能する管理部20は、例えばCPU及び通信装置により実現することができる。
【0048】
ページ検索部21は、前記管理部20からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、コミュニティ検索部21へ出力するものである。WWWページIDは、URL等、WWWページを識別できるものであればよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部21は、例えばCPUにより実現することができる。
【0049】
コミュニティ検索部22は、前記管理部20からユーザIDを、前記ページ検索部21からWWWページの検索結果、即ち抽出されたWWWページIDを受け、該ユーザIDとWWWページIDを初期値として、ユーザ・ページ対応表からマトリクスクラスタリングを行って情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザのアクセスが多いWWWページIDと前記キーワードを含むWWWページIDとをページリスト生成部22へ出力するものである。マトリクスクラスタリングは、「1」と「0」との2値をもつ行列から密な部分行列を抽出する手法であるが、詳細については後述する。コミュニティとは、マトリクスクラスタリングにより抽出された密な部分行列に含まれるユーザ群であり、情報検索を行っているユーザがアクセスしたWWWページ又は前記キーワードを含むWWWページにアクセスしたことがあるユーザの集まりとしてマトリクスクラスタリングにより求められる。即ち、コミュニティとは、情報検索を行っているユーザの嗜好と同様の嗜好を持つユーザ群である。ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部22は、例えばCPUにより実現することができる。
【0050】
ページリスト生成部23は、前記コミュニティ検索部22からコミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。一般に、(1)に分類されるWWWページが情報検索を行っているユーザにとって有用度が高いと考えられるので、(1)を優先し、(2)又は(3)のいずれを優先させるかを設定しておけばよい。また、(1),(2),(3)内夫々におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0051】
次に、本情報検索システム1の処理手順を図2〜4を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ2にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。例えば、キーワードとして「c」と「d」とをand検索で入力したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ2に送信され、これを受けて該情報検索サーバ2は情報検索処理を実行する。
【0052】
図2は、前記情報検索サーバ2の検索処理手順を示すものであるが、図に示すように、前記キーワードc,dとユーザPのユーザIDとを受けた情報検索サーバ2は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S1)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部20から、キーワードc,dがページ検索部21に出力され、該ページ検索部21がキーワード・ページ対応表からキーワードc,dを含むWWWページIDを抽出する。図3は、キーワード・ページ対応表の一例を示すものであり、縦軸をWWWページID、横軸をキーワードとして、WWWページがキーワードを有する場合は「1」で、有しない場合は「0」で表現されている。いま、入力されているキーワードは「c」and「d」であるので、ページ検索部21は、WWWページC,DのWWWページIDを抽出して、コミュニティ検索部22へ出力することとなる。
【0053】
管理部20からユーザPのユーザIDを、ページ検索部21からWWWページC,DのWWWページIDを受けたコミュニティ検索部22は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S2)。図4は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。従って、例えばユーザPはWWWページA,Bを閲覧したことがある。マトリクスクラスタリングは、1と0との2値をもつ行列から初期値を含む密な部分行列を抽出する手法であり、指定された行又は列からマーカ伝播と枝刈りと繰り返すことにより密な部分行列を見つける。
【0054】
以下、初期値をユーザP、WWWページC,Dとして、ユーザPの列から行方向に向かってマトリクスクラスタリングを行っていく過程を、図5を用いて説明する。
まず、図5(a)に示すように、ユーザ・ページ対応表からユーザPの列から要素が1である行、即ちWWWページA,Bに向かってマーカが伝播される。この際、WWWページC,Dはキーワードc,dを含むので、強制的にマーカ伝播される。従って、WWWページA,B,C,Dが生き残る。次に、図5(b)に示すように、WWWページA,B,C,Dの行から要素が1である列、即ちユーザP,Q,R,S,T,U,Vに向かってマーカが伝播される。その後、図5(c)に示すように、列において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、ユーザS,T,U,Vが消去され、ユーザP,Q,Rが生き残る。同様に、行において受信したマーカ数により枝刈りが行われるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。このように、所定のマーカ数を閾値として枝刈りを行うことにより、最終的な部分行列を所望の大きさに絞り込むことが可能となり、また、マトリクスクラスタリングが効率化されて処理速度が速くなるので、ユーザ・ぺージ対応表が膨大な場合に効果的である。
【0055】
その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図5(c)に示すものとなる。当該部分行列は、キーワードc,dに関してユーザPと類似したアクセス履歴を有するコミュニティP,Q,Rを示している。このようなコミュニティは、同一ユーザPに対してもキーワードにより決定される初期値により異なる。即ち、一人のユーザは検索しようとする情報毎に複数のコミュニティに属しており、本コミュニティ検索部22が行うマトリクスクラスタリングによれば、このような予め想定できないようなユーザ間の関係であるコミュニティを容易且つ高速に抽出することができる。
【0056】
このようにして、前記コミュニティ検索部22は、コミュニティに属するユーザP,Q,Rのアクセス頻度が高いものとしてWWWページA,B,C,Dの各WWWページIDを、コミュニティの各WWWページへのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。なお、このWWWページC,DのWWWページIDは前記ページ検索部21からページリスト生成部23へ出力するようにしてもよい。
【0057】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部23は、これらに基づいてWWWページの順位付けを行う(S3)。前述したように、これらWWWページは、(1)キーワードc,dを含み且つコミュニティP,Q,Rのアクセス頻度が高いWWWページD、(2)キーワードc、dを含み且つコミュニティP,Q,Rのアクセス頻度が低いWWWページC、(3)キーワードc,dを含まないがコミュニティP,Q,Rのアクセス頻度が高いWWWページA,Bの3種類のWWWページに分類することができるので、予め設定された順位に基づいて順位付けを行う。例えば、(1),(3),(2)の順で順位付けを行うように設定されている場合には、WWWページの優先順位は、D,A,B,Cの順となる。
【0058】
さらに、ページリスト生成部23は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部20へ出力する(S4)。前記WWWページ情報にはWWWページのURL等が含まれており、WWWページリストには該URLにハイパーリングが付されて表示される。管理部20は、該WWWページリストをクライアント3へ送信し(S5)、一連の情報検索処理が終了する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧することができる。
【0059】
本実施の形態において、従来の情報検索のようにWWWページの全アクセス数により順位付けをした場合には、アクセス数が4であるWWWページCがアクセス数2であるWWWページDより優先順位が高くなるが、WWWページCは、ユーザPと同様の嗜好を持つユーザQ,Rのアクセス頻度が低い。一方、WWWページDはユーザQ,Rのアクセス頻度が高い。従って、ユーザPの嗜好を考慮すれば、ユーザPにとって有用な情報はWWWページDである可能性が高いと考えられ、従来の優先順位ではユーザPの嗜好を反映していないこととなる。
【0060】
本実施の形態に係る情報検索システム1によれば、コミュニティP,Q,Rに属するユーザのアクセス頻度の高いWWWページDをWWWページリストの上位に優先して表示することができ、ユーザPの嗜好に適合した情報検索が可能となり、特に、入力されたキーワードを含むWWWページ数が膨大な場合に有用である。また、キーワードc,dを有しないWWWページA,Bをも検索結果として表示させることができ、キーワードのゆらぎに対しても強い情報検索が可能となる。
【0061】
なお、本実施の形態では、ユーザはクライアント3にキーワードを入力するものとしたが、前記ページ検索部21により、情報検索サーバ2にアクセスしたクライアント3に一定のキーワード群を表示させて、ユーザが、キーワードの入力に代えて、表示されたキーワード群からキーワードを選択するような形態としてもよい。また、前記ページ検索部21により、ユーザが現在閲覧しているWWWページに含まれる情報をキーワードとして抽出させることも可能である。
【0062】
〔第2の実施の形態〕
図6に示すように、本実施の形態に係る情報検索システム5は、情報検索サーバ6と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。なお、クライアント3及びネットワーク4は前記第1の実施の形態と同様であるので説明を省略し、ここでは、情報検索サーバ6について詳述する。
【0063】
前記情報検索サーバ6は、管理部60、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64を備えてなるものである。
【0064】
管理部60は、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部60が受信して、ページ検索部61及びコミュニティ検索部62へ送信するようになっている。また、ページリスト生成部64により作成されたWWWページリストを所定のクライアント3に送信するようになっている。
【0065】
さらに、管理部60は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。また、情報検索サーバ6にアクセスしたユーザが新規ユーザか否かを判定し、新規ユーザである場合にはユーザプロファイルの登録画面をクライアント3に表示させ、入力されたユーザプロファイルをデータベースに記録する。また、既登録ユーザのプロファイルの変更等も同様に行う。このように機能する管理部60は、例えばCPU及び通信装置により実現することができる。
【0066】
ページ検索部61は、前記管理部60からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、マトリクスクラスタリング部63へ出力するものである。WWWページIDは、WWWページを識別できるものであれば、URL等であってもよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部61は、例えばCPUにより実現することができる。
【0067】
コミュニティ検索部62は、前記管理部60からユーザIDを受け、ユーザプロファイルから情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力するものである。該コミュニティは、例えば、ユーザプロファイル間の相関係数を求めることにより行うが、これについては後述する。前記ユーザプロファイルは、例えばハードディスクに格納されており、コミュニティ検索部62は、例えばCPUにより実現することができる。
【0068】
マトリクスクラスタリング部63は、前記ページ検索部61からWWWページIDを、前記コミュニティ検索部62からユーザIDを受け、これを初期値として、ユーザ・ページ対応表に対してマトリクスクラスタリングを行って密な部分行列を抽出し、該部分行列に含まれるWWWページIDをページリスト生成部64へ出力する。前記ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部63は、例えばCPUにより実現することができる。
【0069】
ページリスト生成部64は、前記コミュニティ検索部63からWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。また、(1),(2),(3)各種類内におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0070】
次に、本情報検索システム5の処理手順を図7〜9を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ6にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。ここでは、第1の実施の形態と同様に、キーワードとして「c」と「d」とをand検索したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ6に送信され、これを受けて該情報検索サーバ6は情報検索処理を実行する。
【0071】
図7は、前記情報検索サーバ6の検索処理手順を示すものであるが、図に示すように、前記キーワードaとユーザPのユーザIDとを受けた情報検索サーバ6は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S10)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部60から、キーワードc,dがページ検索部61に出力され、該ページ検索部61が、図3に示すキーワード・ページ対応表からキーワードc,dを含むWWWページC,Dを抽出して、WWWページIDをマトリクスクラスタリング部63へ出力する。
【0072】
一方、管理部60からユーザPのユーザIDを受けたコミュニティ検索部62は、ユーザプロファイルからユーザPの属するコミュニティを抽出する(S11)。該コミュニティは、例えば、プロファイル間の相関係数を求めることにより行われる。このような相関係数を算出する方法は多種あるが、ここでは平均自乗誤差による方法を例に説明する。図8は、ユーザプロファイルの一例を示すものであり、縦軸をユーザID、横軸を例えばスポーツや音楽、映画のような好みの分野として、ユーザが好む分野を好みの度合いに応じて5段階で表現し、好まない場合は「0」で表現されている。このようなユーザプロファイルは、ユーザが情報検索サーバ5にはじめてアクセスした場合にユーザIDに対応して登録され、必要に応じて更新することも可能となっている。
【0073】
前記ユーザプロファイルから、ユーザPの嗜好は分野イ,ロ,ヘであり、まず、該カテゴリを好みの分野とした他のユーザを判定すると、ユーザPと共通の分野イ,ロ,ヘを好むのは、ユーザQ,Rであると判定される。次に、ユーザPとユーザQとのプロファイルの相関係数が、両者が共通に評価している分野のロとヘの好みの度合いの自乗の差から以下のように求められる。
(3−5)2+(1−1)2=4
同様に、ユーザPとユーザRについては、共通する分野がイとロであるので、
(5−5)2+(3−1)2=4
となる。得られた相関係数を比較すると同じであるので、ユーザPの好みに対し、ユーザQ,Rは同様に類似していると判定できる。なお、ユーザPと好みの分野が共通するユーザが多数ある場合には、求められた相関係数が閾値以下であることを条件としたり、相関係数による順位付けでコミュニティに属するユーザを選定することとしてもよい。このようにして得られたコミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力する。
【0074】
ページ検索部61からWWWページC,DのWWWページIDを,コミュニティ検索部62からユーザPの属するコミュニティのユーザP,Q,RのユーザIDを受けたマトリクスクラスタリング部63は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S12)。図9(a)は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。初期値をユーザP,Q,R、WWWページC,Dとして、ユーザP,Q,Rの列から要素が1である行、即ちWWWページA,B,D,Fに向かってマーカが伝播される。この際、WWWページCはキーワードC,Dを含むので、強制的にマーカ伝播される。従って、図9(b)に示すように、WWWページA,B,C,D,Fが生き残る。その後、図9(c)に示すように、行において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、WWWページC,Fが消去され、WWWページA,B,Dが生き残ることとなるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。従って、図9(c)に示すように、WWWページA,B,C,Dが生き残る。一方、列において受信したマーカ数により枝刈りを行う場合には、コミュニティに属するユーザP,Q,Rはマーカ数に拘わらず強制的に生き残るようにする。
【0075】
この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図9(c)に示すものとなる。このようにして得られたWWWページA,B,C,Dを、ユーザP,Q,Rのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。
【0076】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部64は、これらに基づいてWWWページの順位付けを行う(S13)。該順位付けは、第1の実施の形態と同様に行うと、D,A,B,Cの順となる。さらに、ページリスト生成部64は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部60へ出力する(S14)。管理部60は、該WWWページリストをクライアント3へ送信し(S15)、一連の情報検索処理が終了する。
【0077】
本実施の形態のように、予め登録されたユーザプロファイルによりユーザのコミュニティを抽出することとすれば、各ユーザのWWWページアクセス履歴から検出する場合より精度が高くなり、ユーザの嗜好を的確に反映した情報検索が可能となる。
【0078】
なお、前記各実施の形態に係る情報検索サーバ2,6は、専用のシステムの他、前述した情報検索方法の各処理ステップを行わせるためのプログラムとして実現し、例えば、該プログラムを記録したCD−ROM等の記録媒体を用いて、汎用コンピュータに該プログラムをインストールすることにより実現することも可能である。
【0079】
【発明の効果】
以上説明したように、本発明によれば、情報検索を行ったユーザと同じ嗜好をもつ特定のコミュニティに属するユーザをアクセス履歴又はユーザプロファイルから求め、該コミュニティの嗜好を反映させてWWWページの検索及びその順位付けをすることができ、ユーザの好みの情報を有するWWWページを効率よく検索できることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索システムの構成を示す図である。
【図2】情報検索の処理手順を示すフローチャートである。
【図3】キーワード・ページ対応表の一例を示す図である。
【図4】ユーザ・ページ対応表の一例を示す図である。
【図5】マトリクスクラスタリングの処理過程を示す図である。
【図6】本発明の第2の実施の形態に係る情報検索システムの構成を示す図である。
【図7】情報検索の処理手順を示すフローチャートである。
【図8】ユーザプロファイルの一例を示す図である。
【図9】マトリクスクラスタリングの処理過程を示す図である。
【図10】従来の情報検索の処理手順の一例を示すフローチャートである。
【図11】従来のキーワード・ページ対応表の一例を示す図である。
【図12】従来のページ優先度表の一例を示す図である。
【符号の説明】
1,5 情報検索システム
2,6 情報検索サーバ
3 クライアント
4 ネットワーク
20,60 管理部
21,61 ページ検索部
22,62 コミュニティ検索部
23,64 ページリスト生成部
63 マトリクスクラスタリング部
【発明の属する技術分野】
本発明は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法、情報検索サーバ、及び情報検索プログラムに関するものである。
【0002】
【従来の技術】
WWWの普及により、膨大な量の情報が電子化されてWWWページとしてアクセス可能となっており、大量のWWWページによる情報が様々な分野で広く利用されている。このようなWWW上の膨大な量の情報の中から、ユーザが所望の目的の情報を効率よく得るためには、WWW上で効率よく情報検索を行い、所望のWWWページを素早く表示できることが非常に重要である。このような情報検索を行うために、従来より様々な検索エンジンが利用されている。
【0003】
従来の検索エンジンによる情報検索システムの概要を説明するに、まず、ユーザがクライアントにおいて、所望の情報を得るためのキーワードを入力し、該キーワードをサーバに送信する。キーワードを受信したサーバは、キーワード・ページ対応表から、該キーワードに該当するWWWページ情報を抽出してWWWページリストを生成し、該WWWページリストをクライアントに表示する。ユーザは、表示された各WWWページ情報のURLを用いて所望のWWWページを表示させることができる。また、表示されたWWWページリストのWWWページ情報数が多い場合には、更にキーワードを入力して絞込みを行う。なお、前記キーワード・ページ対応表は、サーバが予め検索対象となるWWWページを収集し、各WWWページに含まれるキーワードを抽出することにより作成されている。
【0004】
一般に、検索エンジンにより検索可能なWWWページ数は膨大であり、慣用されている用語や多用されている用語をキーワードとして情報検索を行うと、該キーワードを有するWWWページが膨大に存在するので、WWWページリストに表示されるWWWページ情報数も膨大となる。従って、更にキーワードを入力してWWWページの絞込みを行う必要がある。例えば、ユーザが、ある田中氏の情報を得るために従来の検索エンジンで「田中」をキーワードとして情報検索を行うと、百数十万件のWWWページがヒットする。これらWWWページリストの中には、様々な分野における「田中」を氏とする者の情報が混在するので、該WWWページリストの中から、ユーザが所望の田中氏の情報を有するWWWページを探し出すことは困難である。更に、音楽関係の田中氏の情報を得たいので、「田中」と「音楽」とをキーワードとして絞込みを行っても、二十数万件がヒットし、これらの中から所望の田中氏の情報を有するWWWページを探し出すことも困難である。従って、WWW上で情報検索を行う場合には、所望のWWWページに含まれ、且つ慣用語や多用語でないと推測されるキーワードを使うことが望まれるが、該キーワードを的確に想定して効率のよい情報検索を行うことは、WWWページにおける慣用語や多用語を把握した熟練者でないと難しい。
【0005】
他方、従来の検索エンジンでは、情報検索に不慣れなユーザや的確なキーワードを幾つも思いつかない場合等でも、ユーザが所望のWWWページを効率よく表示させることができるように、検索結果を順位付けしてWWWページリストに表示するようにしている。このような検索結果の順位付けには、WWWページのアクセス数や被リンク数を基準としている場合が多く、アクセス数の多いものは、多くのユーザに対して人気が高いので、情報検索を行ったユーザが望むWWWページに該当する可能性が高く、また、被リンク数が多いものは、多くのWWWページからリンクが貼られていることからWWWページの客観的な重用度が高いので、同様に、ユーザの望むWWWページに該当する可能性が高いと考えられる(特許文献1及び特許文献2参照)。
【0006】
図10は、従来の情報検索システムの処理の一例を示す図であるが、まず、クライアントに入力されたキーワードにより、サーバが予め作成されたキーワード・ページ対応表を用いて該当するキーワードを有するWWWページを検索する。
【0007】
図11は、前記キーワード・ページ対応表であり、縦軸をWWWページ、横軸をキーワードとして、「0」は対応するキーワードを有しないことを、「1」は対応するキーワードを有することを表示している。このようなキーワード・ページ対応表は、ロボット検索等により一定期間毎にWWWページを巡回してキーワードが抽出されて随時更新されている。このようなキーワード・ページ対応表により、クライアントが入力したキーワードを含むWWWページが抽出される。
【0008】
次に、検索された複数のWWWページに対して、ページ優先度表を用いて各WWWページの順位付けを行う。このページ優先度表には、WWWページのアクセス数や被リンク数を基準として各WWWページ毎に優先度を示す数値が記録されている。図12は、前記ページ優先度表であり、各WWWページ毎のアクセス数又は被リンク数に応じてランク付けがされており、数値が大きいもの程、アクセス数又は被リンク数が多く、優先度が高いことを示している。この順位付けに従って、検索されたWWWページ情報を優先度の高い順から降順としてWWWページリストを生成してクライアントに表示する。
【0009】
例えば、クライアントがキーワード「c」を入力して検索を行った場合、情報検索システムとして機能するサーバは、前記キーワード・ページ対応表よりWWWページC,D,Eが抽出する。さらに、前記ページ優先度表から、抽出されたWWWページC,E,Dの優先度を得て、優先度の高い順にC,E,Dの順序でWWWページリストが生成され、クライアントに表示される。
【0010】
ユーザはクライアントに表示されたWWWページリストの各WWWページ情報から任意のWWWページを選択して表示させるが、アクセス数又は被リンク数の多いWWWページは、多くのユーザにとって有用なものであるから、情報検索を行っている当該ユーザにとっても有用である可能性が高い。このように、アクセス数や被リンク数を指標として、広くユーザに有用であるWWWページから順位付けしたWWWページリストを生成することにより、ユーザが望んでいる情報を有するWWWページが上位に含まれる可能性が高くなり、効率のよい情報検索を提供することができる。
【0011】
【特許文献1】
特開2002−202992号公報
【特許文献2】
特開2002−215671号公報
【0012】
【発明が解決しようとする課題】
しかし、WWW上で提供される情報の種類が多様化するとともに、情報検索の目的もユーザ毎に多様となっており、更にWWWの利用層が広がることにより、情報検索を利用する各ユーザの嗜好も様々となっている。従って、情報検索を行った特定のユーザが望んでいる情報を有するWWWページが、必ずしも、全ユーザに人気の高いものや重要なものであるとは限らないので、アクセス数や被リンク数を基準とした順位付けは、多種多様なユーザすべての検索効率を高めるものではない。
【0013】
例えば、若年層のユーザに人気のあるWWWページが、高齢層のユーザにとっても人気があるとは限らないように、特定のユーザが自分の嗜好にあった情報を検索しようとしても、全ユーザのアクセス数や被リンク数を基準として順位付けされたWWWページリストでは、当該ユーザが望む情報を有するWWWページが上位に含まれるとは限らないので、当該ユーザはWWWページリストによる順位付けに関係なく各WWWページを順次表示させることにより、各々のWWWページに所望の情報が含まれているかを確認せねばならず、結局、情報検索に時間と手間を要することとなり非効率である。
【0014】
本発明は、これらに鑑みてなされたものであり、WWW上で効率のよい情報検索を行うことができる情報検索システム及び情報検索方法、特に情報検索を行う特定のユーザの嗜好を反映させた情報検索を行うことができる情報検索方法、情報検索サーバ、及び情報検索プログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
本発明の請求項1に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDとWWWページ検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択し、該コミュニティに属するユーザのアクセス頻度に基づいて、前記コミュニティに属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0016】
また、本発明の請求項2に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、前記WWWページ検索結果と前記コミュニティに属するユーザとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択し、前記領域に属するユーザのアクセス頻度に基づいて、前記領域に属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0017】
また、本発明(請求項3)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、ユーザが入力したものである。
【0018】
また、本発明(請求項4)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、クライアントに表示されたキーワード群からユーザが選択したものである。
【0019】
また、本発明(請求項5)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードは、クライアントに表示されているWWWページから抽出されたものである。
【0020】
また、本発明(請求項6)は、請求項1に記載の情報検索方法において、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0021】
また、本発明(請求項7)は、請求項6に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0022】
また、本発明(請求項8)は、請求項2に記載の情報検索方法において、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0023】
また、本発明(請求項9)は、請求項8に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0024】
また、本発明(請求項10)は、請求項1又は2に記載の情報検索方法において、前記WWWページリストは、前記コミュニティ又は領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したものである。
【0025】
また、本発明の請求項11に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段と、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0026】
また、本発明の請求項12に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段と、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段と、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0027】
また、本発明(請求項13)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものである。
【0028】
また、本発明(請求項14)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものである。
【0029】
また、本発明(請求項15)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものである。
【0030】
また、本発明(請求項16)は、請求項11に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0031】
また、本発明(請求項17)は、請求項16に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0032】
また、本発明(請求項18)は、請求項12に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0033】
また、本発明(請求項19)は、請求項18に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0034】
また、本発明(請求項20)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページリスト生成手段は、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものである。
【0035】
また、本発明の請求項21に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0036】
また、本発明の請求項22に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0037】
また、本発明(請求項23)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0038】
また、本発明(請求項24)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0039】
また、本発明(請求項25)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0040】
また、本発明(請求項26)は、請求項21に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0041】
また、本発明(請求項27)は、請求項26に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものとして機能させるものである。
【0042】
また、本発明(請求項28)は、請求項22に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0043】
また、本発明(請求項29)は、請求項28に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものとして機能させるものである。
【0044】
また、本発明(請求項30)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページリスト生成手段を、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものとして機能させるものである。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づき具体的に説明する。
〔第1の実施の形態〕
図1に示すように、本実施の形態に係る情報検索システム1は、情報検索サーバ2と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。情報検索サーバ2及びクライアント3は、計算機とソフトウェア等によって構成されている。該計算機は、例えばパーソナルコンピュータであり、CPU、RAM、ハードディスク、CRT等の表示装置、キーボードやマウス等の入力装置、LANボード等の通信装置等から構成される。ネットワーク4は、広域網や公衆網、LAN等であり、本実施の形態ではインターネットを例に説明する。
【0046】
本実施の形態にように、インターネットを介して情報検索サーバ2にクライアント3がアクセスされる場合では、一般に、情報検索サーバ2は検索エンジンを提供するWWWサーバであり、クライアント3はインターネットブラウザ等のインタフェースを具備し、該インタフェースにより検索エンジンやWWWページを閲覧することができるものである。ユーザがクライアント3からWWW上の情報検索を行う際には、クライアント3のインタフェースに表示された検索エンジンにおいてキーワードを入力することにより、該クライアント3からネットワーク4を介して情報検索サーバ2に前記キーワード及びユーザIDが送信され、これに対し、情報検索サーバ2が該キーワード及びユーザIDに基づいてWWWページの検索を行い、検索結果を順位付けしてWWWページリストを生成し、クライアント3へ送信する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧する。
【0047】
前記情報検索サーバ2は、管理部20、ページ検索部21、コミュニティ検索部22、ページリスト生成部23を備えてなるものである。
管理部20は、ページ検索部21、コミュニティ検索部22、ページリスト生成部23の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部20が受信して、ページ検索部21及びコミュニティ検索部22へ送信するようになっている。また、ページリスト生成部23により作成されたWWWページリストを所定のクライアント3に送信するようになっている。さらに、管理部20は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。このように機能する管理部20は、例えばCPU及び通信装置により実現することができる。
【0048】
ページ検索部21は、前記管理部20からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、コミュニティ検索部21へ出力するものである。WWWページIDは、URL等、WWWページを識別できるものであればよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部21は、例えばCPUにより実現することができる。
【0049】
コミュニティ検索部22は、前記管理部20からユーザIDを、前記ページ検索部21からWWWページの検索結果、即ち抽出されたWWWページIDを受け、該ユーザIDとWWWページIDを初期値として、ユーザ・ページ対応表からマトリクスクラスタリングを行って情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザのアクセスが多いWWWページIDと前記キーワードを含むWWWページIDとをページリスト生成部22へ出力するものである。マトリクスクラスタリングは、「1」と「0」との2値をもつ行列から密な部分行列を抽出する手法であるが、詳細については後述する。コミュニティとは、マトリクスクラスタリングにより抽出された密な部分行列に含まれるユーザ群であり、情報検索を行っているユーザがアクセスしたWWWページ又は前記キーワードを含むWWWページにアクセスしたことがあるユーザの集まりとしてマトリクスクラスタリングにより求められる。即ち、コミュニティとは、情報検索を行っているユーザの嗜好と同様の嗜好を持つユーザ群である。ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部22は、例えばCPUにより実現することができる。
【0050】
ページリスト生成部23は、前記コミュニティ検索部22からコミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。一般に、(1)に分類されるWWWページが情報検索を行っているユーザにとって有用度が高いと考えられるので、(1)を優先し、(2)又は(3)のいずれを優先させるかを設定しておけばよい。また、(1),(2),(3)内夫々におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0051】
次に、本情報検索システム1の処理手順を図2〜4を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ2にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。例えば、キーワードとして「c」と「d」とをand検索で入力したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ2に送信され、これを受けて該情報検索サーバ2は情報検索処理を実行する。
【0052】
図2は、前記情報検索サーバ2の検索処理手順を示すものであるが、図に示すように、前記キーワードc,dとユーザPのユーザIDとを受けた情報検索サーバ2は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S1)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部20から、キーワードc,dがページ検索部21に出力され、該ページ検索部21がキーワード・ページ対応表からキーワードc,dを含むWWWページIDを抽出する。図3は、キーワード・ページ対応表の一例を示すものであり、縦軸をWWWページID、横軸をキーワードとして、WWWページがキーワードを有する場合は「1」で、有しない場合は「0」で表現されている。いま、入力されているキーワードは「c」and「d」であるので、ページ検索部21は、WWWページC,DのWWWページIDを抽出して、コミュニティ検索部22へ出力することとなる。
【0053】
管理部20からユーザPのユーザIDを、ページ検索部21からWWWページC,DのWWWページIDを受けたコミュニティ検索部22は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S2)。図4は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。従って、例えばユーザPはWWWページA,Bを閲覧したことがある。マトリクスクラスタリングは、1と0との2値をもつ行列から初期値を含む密な部分行列を抽出する手法であり、指定された行又は列からマーカ伝播と枝刈りと繰り返すことにより密な部分行列を見つける。
【0054】
以下、初期値をユーザP、WWWページC,Dとして、ユーザPの列から行方向に向かってマトリクスクラスタリングを行っていく過程を、図5を用いて説明する。
まず、図5(a)に示すように、ユーザ・ページ対応表からユーザPの列から要素が1である行、即ちWWWページA,Bに向かってマーカが伝播される。この際、WWWページC,Dはキーワードc,dを含むので、強制的にマーカ伝播される。従って、WWWページA,B,C,Dが生き残る。次に、図5(b)に示すように、WWWページA,B,C,Dの行から要素が1である列、即ちユーザP,Q,R,S,T,U,Vに向かってマーカが伝播される。その後、図5(c)に示すように、列において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、ユーザS,T,U,Vが消去され、ユーザP,Q,Rが生き残る。同様に、行において受信したマーカ数により枝刈りが行われるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。このように、所定のマーカ数を閾値として枝刈りを行うことにより、最終的な部分行列を所望の大きさに絞り込むことが可能となり、また、マトリクスクラスタリングが効率化されて処理速度が速くなるので、ユーザ・ぺージ対応表が膨大な場合に効果的である。
【0055】
その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図5(c)に示すものとなる。当該部分行列は、キーワードc,dに関してユーザPと類似したアクセス履歴を有するコミュニティP,Q,Rを示している。このようなコミュニティは、同一ユーザPに対してもキーワードにより決定される初期値により異なる。即ち、一人のユーザは検索しようとする情報毎に複数のコミュニティに属しており、本コミュニティ検索部22が行うマトリクスクラスタリングによれば、このような予め想定できないようなユーザ間の関係であるコミュニティを容易且つ高速に抽出することができる。
【0056】
このようにして、前記コミュニティ検索部22は、コミュニティに属するユーザP,Q,Rのアクセス頻度が高いものとしてWWWページA,B,C,Dの各WWWページIDを、コミュニティの各WWWページへのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。なお、このWWWページC,DのWWWページIDは前記ページ検索部21からページリスト生成部23へ出力するようにしてもよい。
【0057】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部23は、これらに基づいてWWWページの順位付けを行う(S3)。前述したように、これらWWWページは、(1)キーワードc,dを含み且つコミュニティP,Q,Rのアクセス頻度が高いWWWページD、(2)キーワードc、dを含み且つコミュニティP,Q,Rのアクセス頻度が低いWWWページC、(3)キーワードc,dを含まないがコミュニティP,Q,Rのアクセス頻度が高いWWWページA,Bの3種類のWWWページに分類することができるので、予め設定された順位に基づいて順位付けを行う。例えば、(1),(3),(2)の順で順位付けを行うように設定されている場合には、WWWページの優先順位は、D,A,B,Cの順となる。
【0058】
さらに、ページリスト生成部23は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部20へ出力する(S4)。前記WWWページ情報にはWWWページのURL等が含まれており、WWWページリストには該URLにハイパーリングが付されて表示される。管理部20は、該WWWページリストをクライアント3へ送信し(S5)、一連の情報検索処理が終了する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧することができる。
【0059】
本実施の形態において、従来の情報検索のようにWWWページの全アクセス数により順位付けをした場合には、アクセス数が4であるWWWページCがアクセス数2であるWWWページDより優先順位が高くなるが、WWWページCは、ユーザPと同様の嗜好を持つユーザQ,Rのアクセス頻度が低い。一方、WWWページDはユーザQ,Rのアクセス頻度が高い。従って、ユーザPの嗜好を考慮すれば、ユーザPにとって有用な情報はWWWページDである可能性が高いと考えられ、従来の優先順位ではユーザPの嗜好を反映していないこととなる。
【0060】
本実施の形態に係る情報検索システム1によれば、コミュニティP,Q,Rに属するユーザのアクセス頻度の高いWWWページDをWWWページリストの上位に優先して表示することができ、ユーザPの嗜好に適合した情報検索が可能となり、特に、入力されたキーワードを含むWWWページ数が膨大な場合に有用である。また、キーワードc,dを有しないWWWページA,Bをも検索結果として表示させることができ、キーワードのゆらぎに対しても強い情報検索が可能となる。
【0061】
なお、本実施の形態では、ユーザはクライアント3にキーワードを入力するものとしたが、前記ページ検索部21により、情報検索サーバ2にアクセスしたクライアント3に一定のキーワード群を表示させて、ユーザが、キーワードの入力に代えて、表示されたキーワード群からキーワードを選択するような形態としてもよい。また、前記ページ検索部21により、ユーザが現在閲覧しているWWWページに含まれる情報をキーワードとして抽出させることも可能である。
【0062】
〔第2の実施の形態〕
図6に示すように、本実施の形態に係る情報検索システム5は、情報検索サーバ6と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。なお、クライアント3及びネットワーク4は前記第1の実施の形態と同様であるので説明を省略し、ここでは、情報検索サーバ6について詳述する。
【0063】
前記情報検索サーバ6は、管理部60、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64を備えてなるものである。
【0064】
管理部60は、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部60が受信して、ページ検索部61及びコミュニティ検索部62へ送信するようになっている。また、ページリスト生成部64により作成されたWWWページリストを所定のクライアント3に送信するようになっている。
【0065】
さらに、管理部60は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。また、情報検索サーバ6にアクセスしたユーザが新規ユーザか否かを判定し、新規ユーザである場合にはユーザプロファイルの登録画面をクライアント3に表示させ、入力されたユーザプロファイルをデータベースに記録する。また、既登録ユーザのプロファイルの変更等も同様に行う。このように機能する管理部60は、例えばCPU及び通信装置により実現することができる。
【0066】
ページ検索部61は、前記管理部60からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、マトリクスクラスタリング部63へ出力するものである。WWWページIDは、WWWページを識別できるものであれば、URL等であってもよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部61は、例えばCPUにより実現することができる。
【0067】
コミュニティ検索部62は、前記管理部60からユーザIDを受け、ユーザプロファイルから情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力するものである。該コミュニティは、例えば、ユーザプロファイル間の相関係数を求めることにより行うが、これについては後述する。前記ユーザプロファイルは、例えばハードディスクに格納されており、コミュニティ検索部62は、例えばCPUにより実現することができる。
【0068】
マトリクスクラスタリング部63は、前記ページ検索部61からWWWページIDを、前記コミュニティ検索部62からユーザIDを受け、これを初期値として、ユーザ・ページ対応表に対してマトリクスクラスタリングを行って密な部分行列を抽出し、該部分行列に含まれるWWWページIDをページリスト生成部64へ出力する。前記ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部63は、例えばCPUにより実現することができる。
【0069】
ページリスト生成部64は、前記コミュニティ検索部63からWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。また、(1),(2),(3)各種類内におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0070】
次に、本情報検索システム5の処理手順を図7〜9を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ6にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。ここでは、第1の実施の形態と同様に、キーワードとして「c」と「d」とをand検索したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ6に送信され、これを受けて該情報検索サーバ6は情報検索処理を実行する。
【0071】
図7は、前記情報検索サーバ6の検索処理手順を示すものであるが、図に示すように、前記キーワードaとユーザPのユーザIDとを受けた情報検索サーバ6は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S10)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部60から、キーワードc,dがページ検索部61に出力され、該ページ検索部61が、図3に示すキーワード・ページ対応表からキーワードc,dを含むWWWページC,Dを抽出して、WWWページIDをマトリクスクラスタリング部63へ出力する。
【0072】
一方、管理部60からユーザPのユーザIDを受けたコミュニティ検索部62は、ユーザプロファイルからユーザPの属するコミュニティを抽出する(S11)。該コミュニティは、例えば、プロファイル間の相関係数を求めることにより行われる。このような相関係数を算出する方法は多種あるが、ここでは平均自乗誤差による方法を例に説明する。図8は、ユーザプロファイルの一例を示すものであり、縦軸をユーザID、横軸を例えばスポーツや音楽、映画のような好みの分野として、ユーザが好む分野を好みの度合いに応じて5段階で表現し、好まない場合は「0」で表現されている。このようなユーザプロファイルは、ユーザが情報検索サーバ5にはじめてアクセスした場合にユーザIDに対応して登録され、必要に応じて更新することも可能となっている。
【0073】
前記ユーザプロファイルから、ユーザPの嗜好は分野イ,ロ,ヘであり、まず、該カテゴリを好みの分野とした他のユーザを判定すると、ユーザPと共通の分野イ,ロ,ヘを好むのは、ユーザQ,Rであると判定される。次に、ユーザPとユーザQとのプロファイルの相関係数が、両者が共通に評価している分野のロとヘの好みの度合いの自乗の差から以下のように求められる。
(3−5)2+(1−1)2=4
同様に、ユーザPとユーザRについては、共通する分野がイとロであるので、
(5−5)2+(3−1)2=4
となる。得られた相関係数を比較すると同じであるので、ユーザPの好みに対し、ユーザQ,Rは同様に類似していると判定できる。なお、ユーザPと好みの分野が共通するユーザが多数ある場合には、求められた相関係数が閾値以下であることを条件としたり、相関係数による順位付けでコミュニティに属するユーザを選定することとしてもよい。このようにして得られたコミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力する。
【0074】
ページ検索部61からWWWページC,DのWWWページIDを,コミュニティ検索部62からユーザPの属するコミュニティのユーザP,Q,RのユーザIDを受けたマトリクスクラスタリング部63は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S12)。図9(a)は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。初期値をユーザP,Q,R、WWWページC,Dとして、ユーザP,Q,Rの列から要素が1である行、即ちWWWページA,B,D,Fに向かってマーカが伝播される。この際、WWWページCはキーワードC,Dを含むので、強制的にマーカ伝播される。従って、図9(b)に示すように、WWWページA,B,C,D,Fが生き残る。その後、図9(c)に示すように、行において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、WWWページC,Fが消去され、WWWページA,B,Dが生き残ることとなるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。従って、図9(c)に示すように、WWWページA,B,C,Dが生き残る。一方、列において受信したマーカ数により枝刈りを行う場合には、コミュニティに属するユーザP,Q,Rはマーカ数に拘わらず強制的に生き残るようにする。
【0075】
この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図9(c)に示すものとなる。このようにして得られたWWWページA,B,C,Dを、ユーザP,Q,Rのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。
【0076】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部64は、これらに基づいてWWWページの順位付けを行う(S13)。該順位付けは、第1の実施の形態と同様に行うと、D,A,B,Cの順となる。さらに、ページリスト生成部64は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部60へ出力する(S14)。管理部60は、該WWWページリストをクライアント3へ送信し(S15)、一連の情報検索処理が終了する。
【0077】
本実施の形態のように、予め登録されたユーザプロファイルによりユーザのコミュニティを抽出することとすれば、各ユーザのWWWページアクセス履歴から検出する場合より精度が高くなり、ユーザの嗜好を的確に反映した情報検索が可能となる。
【0078】
なお、前記各実施の形態に係る情報検索サーバ2,6は、専用のシステムの他、前述した情報検索方法の各処理ステップを行わせるためのプログラムとして実現し、例えば、該プログラムを記録したCD−ROM等の記録媒体を用いて、汎用コンピュータに該プログラムをインストールすることにより実現することも可能である。
【0079】
【発明の効果】
以上説明したように、本発明によれば、情報検索を行ったユーザと同じ嗜好をもつ特定のコミュニティに属するユーザをアクセス履歴又はユーザプロファイルから求め、該コミュニティの嗜好を反映させてWWWページの検索及びその順位付けをすることができ、ユーザの好みの情報を有するWWWページを効率よく検索できることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索システムの構成を示す図である。
【図2】情報検索の処理手順を示すフローチャートである。
【図3】キーワード・ページ対応表の一例を示す図である。
【図4】ユーザ・ページ対応表の一例を示す図である。
【図5】マトリクスクラスタリングの処理過程を示す図である。
【図6】本発明の第2の実施の形態に係る情報検索システムの構成を示す図である。
【図7】情報検索の処理手順を示すフローチャートである。
【図8】ユーザプロファイルの一例を示す図である。
【図9】マトリクスクラスタリングの処理過程を示す図である。
【図10】従来の情報検索の処理手順の一例を示すフローチャートである。
【図11】従来のキーワード・ページ対応表の一例を示す図である。
【図12】従来のページ優先度表の一例を示す図である。
【符号の説明】
1,5 情報検索システム
2,6 情報検索サーバ
3 クライアント
4 ネットワーク
20,60 管理部
21,61 ページ検索部
22,62 コミュニティ検索部
23,64 ページリスト生成部
63 マトリクスクラスタリング部
Claims (30)
- 要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、
前記ユーザIDとWWWページ検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択し、
該コミュニティに属するユーザのアクセス頻度に基づいて、前記コミュニティに属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、
該WWWページリストを前記クライアントに送信することを特徴とする情報検索方法。 - 要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、
前記WWWページ検索結果と前記コミュニティに属するユーザとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択し、
前記領域に属するユーザのアクセス頻度に基づいて、前記領域に属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、
該WWWページリストを前記クライアントに送信することを特徴とする情報検索方法。 - 前記クライアントからのキーワードは、ユーザが入力したものである請求項1又は2に記載の情報検索方法。
- 前記クライアントからのキーワードは、クライアントに表示されたキーワード群からユーザが選択したものである請求項1又は2に記載の情報検索方法。
- 前記クライアントからのキーワードは、クライアントに表示されているWWWページから抽出されたものである請求項1又は2に記載の情報検索方法。
- 前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出することを特徴とする請求項1に記載の情報検索方法。
- 前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とすることを特徴とする請求項6に記載の情報検索方法。
- 前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出することを特徴とする請求項2に記載の情報検索方法。
- 前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とすることを特徴とする請求項8に記載の情報検索方法。
- 前記WWWページリストは、前記コミュニティ又は領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したものであることを特徴とする請求項1又は2に記載の情報検索方法。
- 要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、
前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段と、
前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものであることを特徴とする情報検索サーバ。 - 要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段と、
前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段と、
前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものであることを特徴とする情報検索サーバ。 - 前記ページ検索手段は、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものである請求項11又は12に記載の情報検索サーバ。
- 前記ページ検索手段は、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものである請求項11又は12に記載の情報検索サーバ。
- 前記ページ検索手段は、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものである請求項11又は12に記載の情報検索サーバ。
- 前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものであることを特徴とする請求項11に記載の情報検索サーバ。
- 前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものであることを特徴とする請求項16に記載の情報検索サーバ。
- 前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものであることを特徴とする請求項12に記載の情報検索サーバ。
- 前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものであることを特徴とする請求項18に記載の情報検索サーバ。
- 前記ページリスト生成手段は、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものであることを特徴とする請求項11又は12に記載の情報検索サーバ。
- コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、
コンピュータを、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、
前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段、
前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させることを特徴とする情報検索プログラム。 - コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、
コンピュータを、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段、
前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段、
前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させることを特徴とする情報検索プログラム。 - 前記ページ検索手段を、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものとして機能させる請求項21又は22に記載の情報検索プログラム。
- 前記ページ検索手段を、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものとして機能させる請求項21又は22に記載の情報検索プログラム。
- 前記ページ検索手段を、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものとして機能させる請求項21又は22に記載の情報検索プログラム。
- 前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させることを特徴とする請求項21に記載の情報検索プログラム。
- 前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものとして機能させることを特徴とする請求項26に記載の情報検索プログラム。
- 前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させることを特徴とする請求項22に記載の情報検索プログラム。
- 前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものとして機能させることを特徴とする請求項28に記載の情報検索プログラム。
- 前記ページリスト生成手段を、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものとして機能させることを特徴とする請求項21又は22に記載の情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050314A JP2004259083A (ja) | 2003-02-27 | 2003-02-27 | 情報検索方法、情報検索サーバ、及び情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050314A JP2004259083A (ja) | 2003-02-27 | 2003-02-27 | 情報検索方法、情報検索サーバ、及び情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004259083A true JP2004259083A (ja) | 2004-09-16 |
Family
ID=33115759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003050314A Pending JP2004259083A (ja) | 2003-02-27 | 2003-02-27 | 情報検索方法、情報検索サーバ、及び情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004259083A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009509254A (ja) * | 2005-09-20 | 2009-03-05 | フランス テレコム | 少なくとも1つのユーザに関するデータにアクセスし、続いて前記ユーザと接触できるようにする方法 |
JP2009265754A (ja) * | 2008-04-22 | 2009-11-12 | Ntt Docomo Inc | 情報提供装置、情報提供方法及び情報提供プログラム |
JP2010503081A (ja) * | 2006-08-31 | 2010-01-28 | クゥアルコム・インコーポレイテッド | 利用者ベースのバイアスを使用した検索結果の取得又は提供方法および装置 |
JP2012079311A (ja) * | 2010-09-30 | 2012-04-19 | Nhn Corp | 人脈に基づく検索結果提供システムおよび方法 |
CN103440297A (zh) * | 2013-08-20 | 2013-12-11 | 苏州迈科网络安全技术股份有限公司 | 一种用户操作日志信息的记录及读取方法 |
JP2014523049A (ja) * | 2011-07-13 | 2014-09-08 | アリババ・グループ・ホールディング・リミテッド | 個人間距離に基づくランク付けおよび検索方法および装置 |
CN111382364A (zh) * | 2020-03-19 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 处理信息的方法及装置 |
-
2003
- 2003-02-27 JP JP2003050314A patent/JP2004259083A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009509254A (ja) * | 2005-09-20 | 2009-03-05 | フランス テレコム | 少なくとも1つのユーザに関するデータにアクセスし、続いて前記ユーザと接触できるようにする方法 |
JP2010503081A (ja) * | 2006-08-31 | 2010-01-28 | クゥアルコム・インコーポレイテッド | 利用者ベースのバイアスを使用した検索結果の取得又は提供方法および装置 |
JP2013008371A (ja) * | 2006-08-31 | 2013-01-10 | Qualcomm Inc | 利用者ベースのバイアスを使用した検索結果の取得又は提供方法および装置 |
JP2009265754A (ja) * | 2008-04-22 | 2009-11-12 | Ntt Docomo Inc | 情報提供装置、情報提供方法及び情報提供プログラム |
JP2012079311A (ja) * | 2010-09-30 | 2012-04-19 | Nhn Corp | 人脈に基づく検索結果提供システムおよび方法 |
JP2014523049A (ja) * | 2011-07-13 | 2014-09-08 | アリババ・グループ・ホールディング・リミテッド | 個人間距離に基づくランク付けおよび検索方法および装置 |
CN103440297A (zh) * | 2013-08-20 | 2013-12-11 | 苏州迈科网络安全技术股份有限公司 | 一种用户操作日志信息的记录及读取方法 |
CN111382364A (zh) * | 2020-03-19 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 处理信息的方法及装置 |
CN111382364B (zh) * | 2020-03-19 | 2023-08-18 | 北京字节跳动网络技术有限公司 | 处理信息的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839029B2 (en) | Personalization of web search results using term, category, and link-based user profiles | |
JP5114380B2 (ja) | 検索結果の関連性の再ランク付けおよびその増強 | |
JP5623431B2 (ja) | クエリのアスペクトを識別すること | |
US8150846B2 (en) | Content searching and configuration of search results | |
US9846744B2 (en) | Media discovery and playlist generation | |
US7349896B2 (en) | Query routing | |
JP5638031B2 (ja) | 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム | |
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
JP5116593B2 (ja) | 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム | |
US20130173599A1 (en) | Query disambigution | |
KR20140128443A (ko) | 관련 엔티티들 | |
WO2002048921A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
JP2002215659A (ja) | 情報検索支援方法および情報検索支援システム | |
CN102063468B (zh) | 一种用于确定查询序列的查询类别的设备及其方法 | |
JP4874828B2 (ja) | コミュニティ抽出による検索用インデックス作成方法およびその装置 | |
JP5010624B2 (ja) | 検索装置 | |
JP2016509703A (ja) | ラベル付けされた主に非テキストのアイテムを検索するためのシステム及び方法 | |
JP2011108034A (ja) | 複数の属性を利用したWebページ推薦方法 | |
JP2004259083A (ja) | 情報検索方法、情報検索サーバ、及び情報検索プログラム | |
JP2002108912A (ja) | 検索システムおよび検索方法 | |
JP2011210120A (ja) | 複数サーバ検索装置及び方法 | |
CN113590736B (zh) | 索引管理方法、装置、电子设备和可读存储介质 | |
JP7309669B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2000123033A (ja) | 情報検索方法および情報検索装置および記録媒体 | |
JP2004086332A (ja) | 知識共有システム、知識管理支援システムおよび共有文書の条件検索方法 |