JP5315726B2

JP5315726B2 - 情報提供方法、情報提供装置、および情報提供プログラム

Info

Publication number: JP5315726B2
Application number: JP2008053995A
Authority: JP
Inventors: 哲朗高橋; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-03-04
Filing date: 2008-03-04
Publication date: 2013-10-16
Anticipated expiration: 2028-03-04
Also published as: JP2009211429A

Description

この発明は、ユーザから受け付けた検索クエリを与えることで得られるページ群を検索結果として提示する情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体に関する。

従来より、情報検索サービスの分野において、ユーザが検索活動を効率よくおこなうための技術が要求されている。この要求に対して、例えば、検索結果を提示する際に、ページ間のリンク関係に基づいて、各ページのスコアを算出し、そのスコアをもとに検索結果のランキングをおこなう技術が知られている。

具体的には、例えば、ページ上のリンク、リンクのアンカー、別のページにリンクするページの人気度などの要因を考慮して、検索クエリに関連するページのランキングがおこなわれる。この場合、「他のページから多くリンクされているページが重要」、「重要なページからリンクされているページが重要」という関係が成立する。

また、下記特許文献１には、リンク関係に基づくランキング手法として、ワールドワイドウェブの階層構造およびリンク関係を用いて、ウェブ検索のためのページ重要性ランキングをおこなう技術が記載されている。具体的には、リンクグラフ分析を集約されたリンク関係に関して実行し、各ノードの重要性を判定する。各ノードの重要性は、そのノードに関連づけられたページに伝搬する。そして、ページごとに、そのページの重要性と、そのページに関連づけられたノードの重要性とを用いて、ページ重要性ランキングを計算する。

また、下記特許文献２には、検索クエリに関するトピックを用いた検索技術として、ウェブ検索のためのインデックスの作成、または、ウェブ検索のために、トピック集合からトピックを抽出して、そのトピックにより検索結果を得る技術が記載されている。具体的には、情報網が有するトピックマップから、データ群の検索に用いるインデックスを生成し、検索条件に適合したデータの索引データを検索結果として表示する。

特開２００６−１２７５２９号公報特開２００６−２１５７５３号公報

しかしながら、上述した特許文献１および２に記載の従来技術によれば、他のページとのリンク関係が少ない、あるいは、リンク関係を有していないページに対しては、適切なランキングをおこなうことができないという問題がある。例えば、ネットワーク上に登録されて間もないページは、他のユーザからの認知度が低く、他のページからリンクされる可能性が低いため、リンク関係の多いページに比べて下位にランク付けされてしまう。

また、リンク関係に基づくランキングは、検索クエリや掲載内容を考慮した手法ではないため、ページの重要性とリンク関係との間に大きな乖離が生じてしまう場合がある。このため、リンク関係を有していないために、検索クエリと関係の強いページや検索者が求める情報が掲載されたページが下位にランク付けされ、結果的に検索活動にかかるユーザの作業時間および作業負担の増大化を招くという問題がある。

この発明は、上述した従来技術による問題点を解消するため、ページの掲載内容を考慮した適切なスコアリングをおこなうことにより、検索結果のランキングを最適化し、ユーザの検索活動の効率化を図ることができる情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体は、検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出し、抽出された掲載情報を掲載内容に応じて複数のクラスタに分類し、前記ページと分類されたクラスタとの相関関係に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出し、算出された算出結果に基づいて、前記ページ群に関するページ情報を提示することを要件とする。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、各ページ（例えば、ウェブサイト）の掲載内容に基づくページとクラスタ（トピック）との相関関係を用いて、各ページのスコアリングをおこなうことができる。これにより、他のページとのリンク関係が少ない（または、リンク関係を有していない）ページに対しても適切なスコアリングをおこなうことができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記ページと前記クラスタとをノードとして有向グラフ化されたネットワークモデルを作成し、作成されたネットワークモデル内の前記ページをあらわすノードと前記クラスタをあらわすノードとの間を遷移する遷移確率に基づいて、前記ページの適合度を算出することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ページとクラスタとをノードとして有向グラフ化することにより、クラスタを介したページ間のリンク関係を形成することができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、さらに、前記ネットワークモデル内の前記ページをあらわすノード間を遷移する遷移確率に基づいて、前記ページの適合度を算出することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ページの掲載内容に加えて、ページ間のリンク関係を考慮することで、より正確なスコアリングをおこなうことができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記ページをあらわすノード間を遷移する遷移確率は正規化されていることとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ページ間の遷移確率を正規化することで、ネットワークモデル内のノード間の遷移確率を平準化することができる。これにより、他のページと多くのリンク関係を有するページが、掲載内容にかかわらず上位にランク付けされてしまうなどの不具合を防ぐことができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記ノード間を遷移する遷移確率と前記ノード間の遷移を終了する終了確率とを用いて、前記ノード群の中から１個のノードを任意に選択してから前記ノード間の遷移が終了するまでの間に、前記各ノードに遷移した遷移回数を計数することにより、前記ページの適合度を算出することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ノード間の遷移確率と終了確率とを与えることで、ランダムウォーク手法を用いたスコアリングをおこなうことができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記掲載情報に出現する単語の出現頻度と前記単語間の類似度とに基づいて、前記掲載情報を複数のクラスタに分類することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、各単語の出現頻度と単語間の類似度とを用いて掲載情報を特徴付けることでクラスタリングをおこなうことができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記クラスタに分類された掲載情報に出現する単語の出現頻度に基づいて、前記クラスタを特徴付ける単語を前記クラスタごとに決定し、さらに、決定された決定結果を前記検索クエリに関するトピックとして提示することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、検索結果をあらわすページ情報に合わせて、検索クエリに関するトピックを提示することができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記掲載情報に出現する単語の出現回数を、前記ページ群に掲載されているすべての掲載情報に出現する前記単語の出現回数で除算した値に基づいて、前記クラスタを特徴付ける単語を決定することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、掲載内容にかかわらず出現頻度が高くなる傾向にある助詞や記号などの単語を除く他の単語の中から、クラスタを特徴付ける単語を決定することができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、前記掲載情報に出現する特定の品詞の単語の出現頻度に基づいて、前記クラスタを特徴付ける単語を決定することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、クラスタを特徴付ける単語を、名詞や動詞などの特定の品詞に限定することができる。

また、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体において、決定された決定結果を前記トピックとして提示し、提示された複数のトピックの中から任意のトピックの選択を受け付け、選択されたトピックによって特徴付けられるクラスタをあらわすノードを選択してから前記ノード間の遷移が終了するまでの間に、前記ノードに遷移した遷移回数を前記ノードごとに計数することにより、前記ページの適合度を算出することとしてもよい。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、選択されたトピックに関する掲載情報が掲載されているページのスコアを高くすることができる。

この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ページの掲載内容を考慮した適切なスコアリングをおこなうことにより、検索結果のランキングを最適化し、ユーザの検索活動の効率化を図ることができるという効果を奏する。

以下に添付図面を参照して、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体の好適な実施の形態を詳細に説明する。

（検索システムのシステム構成）
まず、本実施の形態にかかる検索システム１００のシステム構成について説明する。図１は、検索システムのシステム構成図である。図１において、検索システム１００は、インターネット、ＬＡＮ、ＷＡＮなどのネットワーク１１０を介して通信可能な情報提供装置１０１と、データベースサーバ１０２と、クライアント端末１０３−１〜１０３−ｎと、から構成される。

情報提供装置１０１は、ネットワーク１１０上に公開されているページ群の中から、クライアント端末１０３−１〜１０３−ｎから受け付けた検索クエリに適合するページを検索する機能を有するコンピュータ装置である。具体的には、クライアント端末１０３−１〜１０３−ｎから受け付けた検索クエリをデータベースサーバ１０２に送信することで、その検索クエリに適合するページを検索する。

ここで、ページとは、例えば、インターネット上に公開されているウェブサイトであってもよく、また、ＬＡＮなどの限定されたネットワーク１１０上にあるフォルダ内のファイル群であってもよい。ウェブサイトの具体例としては、作成者（著者）を特定可能なウェブログ（以下、「ブログ」という）がある。より詳細に説明すると、ページは、テキストデータやＨＴＭＬによるレイアウト情報、文書中に埋め込まれた画像、音声および動画などから構成される電子情報である。

また、ページには、少なくとも一つ以上の掲載情報が含まれている。ここで、掲載情報とは、例えば、ウェブサイトを構成する個々のウェブページであってもよく、また、上述したフォルダ内の個々のファイルであってもよい。具体的には、ページがブログであった場合、更新される都度、新たに登録される１回分の情報（エントリ）を掲載情報としてもよい。また、一画面に表示される内容から分割されたフレーム単位の情報を掲載情報としてもよい。

また、情報提供装置１０１は、検索されたページごとに検索クエリに対する適合度を算出する。さらに、各ページの適合度に基づいて検索結果をあらわすページ情報を生成し、そのページ情報をクライアント端末１０３−１〜１０３−ｎに提示する。この情報提供装置１０１は、例えば、情報検索サービスの検索エンジンに適用される。

データベースサーバ１０２は、不図示のページＤＢ（データベース）を備え、ネットワーク１１０上のページ群を管理する機能を有するコンピュータ装置である。データベースサーバ１０２は、情報提供装置１０１から受信した検索クエリに適合するページをページＤＢの中から検索し、その検索結果を情報提供装置１０１に送信する。

クライアント端末１０３−１〜１０３−ｎは、ユーザが操作することで入力された検索クエリを情報提供装置１０１に送信する機能を有するコンピュータ装置である。また、クライアント端末１０３−１〜１０３−ｎは、検索クエリを送信した結果、その検索クエリに適合する検索結果を情報提供装置１０１から受信し、その検索結果を表示画面に表示する。

（コンピュータ装置のハードウェア構成）
つぎに、図１に示した情報提供装置１０１、データベースサーバ１０２およびクライアント端末１０３−１〜１０３−ｎ（ここでは、単に「コンピュータ装置」という）のハードウェア構成について説明する。図２は、コンピュータ装置のハードウェア構成を示す説明図である。

図２において、コンピュータ装置は、コンピュータ本体２１０と、入力装置２２０と、出力装置２３０と、から構成されており、不図示のルータやモデムを介してＬＡＮ，ＷＡＮやインターネットなどのネットワーク１１０に接続可能である。

コンピュータ本体２１０は、ＣＰＵ，メモリ，インターフェースを有する。ＣＰＵは、コンピュータ装置の全体の制御を司る。メモリは、ＲＯＭ，ＲＡＭ，ＨＤ，光ディスク２１１，フラッシュメモリから構成される。メモリはＣＰＵのワークエリアとして使用される。

また、メモリには各種プログラムが格納されており、ＣＰＵからの命令に応じてロードされる。ＨＤおよび光ディスク２１１はディスクドライブによりデータのリード／ライトが制御される。また、光ディスク２１１およびフラッシュメモリはコンピュータ本体２１０に対し着脱自在である。インターフェースは、入力装置２２０からの入力、出力装置２３０への出力、ネットワーク１１０に対する送受信の制御をおこなう。

また、入力装置２２０としては、キーボード２２１、マウス２２２、スキャナ２２３などがある。キーボード２２１は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式であってもよい。マウス２２２は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。スキャナ２２３は、画像を光学的に読み取る。読み取られた画像は画像データとして取り込まれ、コンピュータ本体２１０内のメモリに格納される。なお、スキャナ２２３にＯＣＲ機能を持たせてもよい。

また、出力装置２３０としては、ディスプレイ２３１、スピーカ２３２、プリンタ２３３などがある。ディスプレイ２３１は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。また、スピーカ２３２は、効果音や読み上げ音などの音声を出力する。また、プリンタ２３３は、画像データや文書データを印刷する。

（本実施の形態の概要）
つぎに、本実施の形態の概要について説明する。図３は、本実施の形態の概要を示す説明図である。図３において、まず、クライアント端末１０３−１〜１０３−ｎ（以下、単に「クライアント端末１０３」と表記する）により、ユーザがキーボード２２１やマウス２２２などの入力装置２２０を操作することで入力された検索クエリを情報提供装置１０１に送信する。

このあと、情報提供装置１０１により、クライアント端末１０３から受け付けた検索クエリに適合するページを検索する。この結果、図４に示す検索結果テーブル４００、図５に示す記事リンクテーブル５００および図６に示すブログリンクテーブル６００が作成される。本実施の形態では、ページとして、少なくとも一つ以上の記事（掲載情報）が掲載されたブログを例に挙げて説明する。

つぎに、検索結果テーブル４００および記事リンクテーブル５００を用いて、各ブログに掲載されている記事の言語解析を記事ごとに実行する。具体的には、例えば、各記事に対して、形態素解析や係り受け解析などの言語解析を実行する。この結果、図７に示す解析結果テーブル７００が作成される。

そして、解析結果テーブル７００を用いて、各記事を掲載内容に応じた複数のクラスタにクラスタリングする。この結果、図１０に示す記事クラスタテーブル１０００および図１１に示すブログクラスタテーブル１１００が作成される。

このあと、ブログリンクテーブル６００、記事クラスタテーブル１０００およびブログクラスタテーブル１１００を用いて、ネットワークモデル１２００（図１２参照）を作成する。この結果、図１３に示すネットワークテーブル１３００が作成される。

つぎに、ネットワークテーブル１３００を用いて、ネットワークモデル１２００内の各ノードのスコアを算出する。この結果、図１４に示すスコアテーブル１４００が作成される。そして、スコアテーブル１４００を用いて検索結果のランキングをおこなう。

最後に、ランキングに従ってブログ群に関するＨＴＭＬ情報を生成し、そのＨＴＭＬ情報を検索結果としてクライアント端末１０３に提示する。この結果、クライアント端末１０３のディスプレイ２３１に検索結果が表示される。

本実施の形態では、他のページとのリンク関係の有無にかかわらず、検索クエリに適合するページ（ブログ）に掲載されている記事の掲載内容を考慮したスコアリングをおこなう。この結果、他のページとのリンク関係が少ない、あるいは、リンク関係を有していないページについても適合度を適切に評価することができ、ランキングの最適化を図ることができる。

（検索結果テーブルの記憶内容）
つぎに、情報提供装置１０１に用いられる検索結果テーブルについて説明する。この検索結果テーブルは、検索システム１００に検索クエリを与えることで得られる検索結果をテーブル化したものである。具体的には、ブログと、そのブログに掲載されている記事とを関連付けてあらわすテーブル表である。

図４は、検索結果テーブルの記憶内容を示す説明図である。図４において、検索結果テーブル４００には、検索クエリに適合するブログに掲載されている記事ごとに、ブログＩＤおよび記事ＩＤが記憶されている。ブログＩＤは、ブログを識別する識別子である。記事ＩＤは、記事を識別する識別子である。ここで、ブログＢ５５を例に挙げると、ブログＢ５５には記事Ｐ８５，Ｐ７１が掲載されている。

これらブログＩＤおよび記事ＩＤは、例えば、ブログおよび記事が存在するネットワーク１１０上の場所を示すＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）によって表現される。なお、検索結果テーブル４００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

（記事リンクテーブルの記憶内容）
つぎに、情報提供装置１０１に用いられる記事リンクテーブルについて説明する。この記事リンクテーブルは、記事内に埋め込まれているハイパーリンクを検出することで得られるリンク関係をテーブル化したものである。具体的には、リンク元（ｆｒｏｍ）の記事とリンク先（ｔｏ）の記事とを関連付けてあらわすテーブル表である。

図５は、記事リンクテーブルの記憶内容を示す説明図である。図５において、記事リンクテーブル５００には、記事内に埋め込まれているハイパーリンクの個数が記事ごとに記憶されている。具体的には、記事ごとに、その記事（ｆｒｏｍ）から他の記事（ｔｏ）にリンクするハイパーリンクの個数が記憶されている。

ここで、記事Ｐ５３を例に挙げると、記事Ｐ５３内には記事Ｐ８５へリンクするハイパーリンクが２個埋め込まれている。なお、記事リンクテーブル５００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

（ブログリンクテーブルの記憶内容）
つぎに、情報提供装置１０１に用いられるブログリンクテーブルについて説明する。このブログリンクテーブルは、図４に示した検索結果テーブル４００と、図５に示した記事リンクテーブル５００と、を用いて得られるブログ間の相関関係をあらわすテーブル表である。

図６は、ブログリンクテーブルの記憶内容を示す説明図である。図６において、ブログリンクテーブル６００には、ブログごとに、そのブログとリンク関係を有する他のブログとの相関関係をあらわす数値が記憶されている。この数値は、一方のブログから他方のブログに遷移する遷移確率（詳細は後述）に相当する。

ここで、ブログＢ２５を例に挙げると、ブログＢ２３およびブログＢ５５とリンク関係を有しており、相関関係をあらわす数値はそれぞれ「０．５」である。また、この数値は、ブログリンクテーブル６００の行の合計が「１」となるように正規化されている。なお、ブログリンクテーブル６００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

（解析結果テーブルの記憶内容）
つぎに、情報提供装置１０１に用いられる解析結果テーブルについて説明する。この解析結果テーブルは、各記事に対して言語解析（例えば、形態素解析、係り受け解析）を実行することで得られた解析結果をテーブル化したものである。

図７は、解析結果テーブルの記憶内容を示す説明図である。図７において、解析結果テーブル７００には、記事ごとに、記事ＩＤおよび解析結果が記憶されている。ここで、記事Ｐ５３を例に挙げると、解析結果Ｒ１は、記事Ｐ５３に対して実行された言語解析の解析結果である。解析結果の具体例については図９を用いて後述する。なお、解析結果テーブル７００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

（情報提供装置の機能的構成）
つぎに、情報提供装置１０１の機能的構成について説明する。図８は、情報提供装置の機能的構成を示すブロック図である。図８において、情報提供装置１０１は、受付部８０１と、検索部８０２と、抽出部８０３と、分類部８０４と、算出部８０５と、作成部８０６と、提示部８０７と、決定部８０８と、選択部８０９と、を備えている。

これら各機能８０１〜８０９は、情報提供装置１０１の記憶部に記憶された当該機能８０１〜８０９に関するプログラムをＣＰＵに実行させることにより、または、入出力Ｉ／Ｆにより、当該機能を実現することができる。また、各機能８０１〜８０９からの出力データは上記記憶部に保持される。また、図８中矢印で示した接続先の機能は、接続元の機能からの出力データを記憶部から読み込んで、当該機能に関するプログラムをＣＰＵに実行させるものとする。

まず、受付部８０１は、検索クエリの入力を受け付ける機能を有する。検索クエリとは、例えば、検索システム１００（図１参照）に対する問い合わせをあらわす文字列である。具体的には、例えば、受付部８０１は、クライアント端末１０３（図１参照）から送信される検索クエリの入力を受け付ける。

検索部８０２は、ネットワーク１１０上に公開されているページ群の中から、受付部８０１によって受け付けた検索クエリに適合するページを検索する機能を有する。ページとは、例えば、インターネット上に公開されているブログなどのウェブサイトである。具体的には、例えば、受付部８０１によって受け付けた検索クエリをデータベースサーバ１０２に送信することで、検索クエリに適合する検索結果を得ることができる。

抽出部８０３は、検索部８０２によって検索された少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する機能を有する。ここで、掲載情報とは、ページを構成する記事、画像、音声、動画などである。より具体的には、例えば、ウェブサイトを構成する個々のウェブページである。本実施の形態では、掲載情報として記事（例えば、ブログが更新される都度、新しく登録される一回分の情報）を例に挙げて説明する。

具体的には、例えば、抽出部８０３は、図４に示した検索結果テーブル４００の中から、各ブログに掲載されている記事を抽出する。なお、抽出部８０３は、検索されたすべてのページに掲載されている掲載情報を抽出することとしてもよく、また、検索されたページ（例えば、１００個のブログ）のうち、任意のページ（例えば、ランダムに選択された５０個のブログ）に掲載されている掲載情報を抽出することとしてもよい。

分類部８０４は、抽出部８０３によって抽出された掲載情報（記事）を掲載内容に応じた複数のクラスタに分類する機能を有する。具体的には、例えば、抽出部８０３によって抽出された記事に出現する各単語の出現頻度と単語間の類似度とに基づいて、記事を複数のクラスタに分類することとしてもよい。

より具体的には、例えば、抽出部８０３によって抽出された各記事に対して、形態素解析（形態素への分割と品詞の付与）および係り受け解析（形態素から文節のまとめ上げと、文節間の係り受け関係の同定）を実行することで得られる解析結果を用いてクラスタリングをおこなう。

ここで、言語解析の解析結果について説明する。図９は、解析結果の一例を示す説明図である。図９において、解析結果９００には、『すべての文書に対して、次のクラスタリングを行なうための言語解析を行なう・・・』という記事に対する言語解析の解析結果が示されている。具体的には、解析結果９００は、解析対象の記事から分割された文節（単語）ごとに、文節ＩＤ、修飾先の文節ＩＤおよび品詞に関する情報を有している。

例えば、符号９０１は、『すべて』を識別する文節ＩＤである。符号９０２は、文節『すべて』の修飾先の文節『の』の文節ＩＤである。このように、記事ごとの言語解析をおこなうことにより、記事を該記事内の各文を構成する最小の意味単位である形態素に分割し、さらに、文中の各文節がどの文節に係る（どの文節を修飾する）のかが定まる。

以下、図７に示した解析結果テーブル７００を例に挙げて、分類部８０４による分類処理（クラスタリング）の具体的処理手順について説明する。分類部８０４は、まず、解析結果テーブル７００を参照して、各記事Ｐ５３，Ｐ８５，Ｐ４０，Ｐ７１中に出現する単語の出現数をそれぞれ計数する。そして、単語ベクトルを用いてコサイン距離を求めることで、記事間の類似度を算出する。

つぎに、予め設定されているクラスタ数に応じてクラスタを作成し、各クラスタの単語ベクトルを作成する。具体的には、クラスタに入っている文書の単語ベクトルを足し合わせることで、各クラスタの単語ベクトルを作成する。上記クラスタ数は、例えば、図２に示したキーボード２２１やマウス２２２などの入力装置２２０をユーザが操作することで、任意に設定可能である。

このあと、クラスタの単語ベクトルと記事の単語ベクトルとのコサイン距離を求める。そして、求めたコサイン距離を各記事のクラスタに対する所属確率とする。なお、抽出部８０３によって抽出された掲載情報の言語解析は、情報提供装置１０１において実行することとしたがこれに限らない。例えば、外部のコンピュータ装置を利用して掲載情報の言語解析を実行し、その実行結果を言語解析の解析結果として取得することとしてもよい。

ここで、分類部８０４によって複数のクラスタに分類された分類結果をあらわす記事クラスタテーブルの具体例について説明する。図１０は、記事クラスタテーブルの記憶内容を示す説明図である。図１０において、記事クラスタテーブル１０００には、記事ごとに、記事ＩＤとクラスタＩＤとを関連づけて、各クラスタＣ１〜Ｃ４に所属する所属確率が記憶されている。クラスタＩＤは、クラスタを識別する識別子である。

所属確率とは、各記事のクラスタＣ１〜Ｃ４に対する相関の強さをあらわす数値である。ここで、記事Ｐ５３を例に挙げると、クラスタＣ１への所属確率は「０．１」、クラスタＣ２への所属確率は「０．５」、クラスタＣ３への所属確率は「０．２」、クラスタＣ４への所属確率は「０．０」である。なお、記事クラスタテーブル１０００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

図８の説明に戻り、算出部８０５は、検索部８０２によって検索されたページと分類部８０４によって分類されたクラスタとの相関関係に基づいて、検索クエリに対するページの適合度をページごとに算出する機能を有する。具体的には、後述する作成部８０６によって作成されるページ（例えば、ブログ）とクラスタとをノードとして有向グラフ化されたネットワークモデルを用いて、各ページの適合度を算出することができる。

作成部８０６は、ページとクラスタとをノードとして有向グラフ化されたネットワークモデルを作成する機能を有する。具体的には、例えば、作成部８０６は、まず、図１０に示した記事クラスタテーブル１０００を用いて、ブログ（ページ）のクラスタに対する所属確率をあらわすブログクラスタテーブルを作成する。

より具体的には、ブログごとに、ブログに掲載されているすべての記事のクラスタに対する所属確率を加算し、その加算結果をブログのクラスタに対する所属確率とする。ここで、ブログＢ５５のクラスタＣ２に対する所属確率を例に挙げると、記事クラスタテーブル１０００を参照して、記事Ｐ８５のクラスタＣ２に対する所属確率「０．８」と、記事Ｐ７１のクラスタＣ２に対する所属確率「０．４」とを加算した所属確率「１．２」となる。

ここで、作成部８０６によって作成されたブログクラスタテーブルの具体例について説明する。図１１は、ブログクラスタテーブルの記憶内容を示す説明図である。図１１において、ブログクラスタテーブル１１００には、ブログごとに、ブログＩＤとクラスタＩＤとを関連付けて、各クラスタＣ１〜Ｃ４に遷移する遷移確率が記憶されている。

ここで、ブログＢ２３を例に挙げると、クラスタＣ１への遷移確率は「０．１」、クラスタＣ２への遷移確率は「０．５」、クラスタＣ３への遷移確率は「０．２」、クラスタＣ４への遷移確率は「０．０」である。なお、ブログクラスタテーブル１１００は、図２で説明したＲＯＭ，ＲＡＭ，ＨＤなどの記憶部によりその機能を実現する。

このあと、作成部８０６は、このブログクラスタテーブル１１００と、図６に示したブログリンクテーブル６００とを用いて、ブログＢ２３，Ｂ５５，Ｂ２５とクラスタＣ１〜Ｃ４とをノードとして有向グラフ化されたネットワークモデルを作成する。

図１２は、ネットワークモデルの一例を示す有向グラフである。図１２において、ネットワークモデル１２００は、ブログＢ２３，Ｂ２５，Ｂ５５とクラスタＣ１〜Ｃ４とがノード化された有向グラフである。また、ノード間をつなぐエッジには、各ノード間の遷移確率が付与されている。なお、図面では、ノード間の遷移確率の一部を抜粋して表示している。

ネットワークモデル１２００において、実線で示す両向矢印は、ブログをあらわすノードとクラスタをあらわすノードとの間の遷移をあらわしている。この両向矢印には、ブログをあらわすノードからクラスタをあらわすノードへの遷移確率（図１２中、下線）と、クラスタをあらわすノードからブログをあらわすノードへの遷移確率（図１２中、二重下線）とが付与されている。

さらに、この両向矢印には、ブログクラスタテーブル１１００に管理されたブログがクラスタに所属する所属確率（図１２中、山括弧）が付与されている。また、ネットワークモデル１２００において、点線で示す矢印は、ブログをあらわすノード間の遷移をあらわしている。この矢印には、ブログリンクテーブル６００に管理されたブログをあらわすノード間の遷移確率が付与されている。

ブログをあらわすノードとクラスタをあらわすノードとの間の遷移確率は、ブログに掲載されている記事のクラスタに対する所属確率を用いて求めることができる。より具体的には、例えば、ブログＢｉからクラスタＣｊへ遷移する遷移確率Ｘ（Ｂｉ−Ｃｊ）は、下記式（１）を用いて求めることができる。ただし、ＢｉはブログＩＤ、ＣｊはクラスタＩＤ、ｋは自然数、ｎはクラスタ数（ここではｎ＝４）である。

ここで、ブログＢ２３をあらわすノードからクラスタＣ１をあらわすノードへ遷移する遷移確率Ｘ（Ｂ２３）を例に挙げると、『Ｘ（Ｂ２３−Ｃ１）＝（０．１／０．８）』となる。これは、ブログクラスタテーブル１１００に管理されたブログＢ２３のクラスタＣ１への所属確率「０．１」を、ブログＢ２３の各クラスタＣ１〜Ｃ４への所属確率を足し合わせた所属確率「０．１＋０．５＋０．２＋０．０＝０．８」で除算した値である。

また、クラスタＣｊをあらわすノードからウェブＢｉをあらわすノードへ遷移する遷移確率Ｘ（Ｃｊ−Ｂｉ）は、下記式（２）を用いて求めることができる。ただし、ｍはブログ数（ここではｍ＝３）である。

ここで、クラスタＣ１をあらわすノードからウェブＢ２３をあらわすノードへ遷移する遷移確率Ｘ（Ｃ１−Ｂ２３）を例に挙げると、『Ｘ（Ｃ１−Ｂ２３）＝（０．１／０．３）』となる。これは、ブログクラスタテーブル１１００に管理されたブログＢ２３のクラスタＣ１への所属確率「０．１」を、各ブログＢ２３，Ｂ５５，Ｂ２５のクラスタＣ１への所属確率を足し合わせた所属確率「０．１＋０．２＋０．０＝０．３」で除算した値である。

図１２に示したネットワークモデル１２００は、以下に説明するネットワークテーブルとして記憶部に保持される。図１３は、ネットワークテーブルの記憶内容を示す説明図である。図１３において、ネットワークテーブル１３００には、クラスタＩＤとブログＩＤとを関連付けて、ネットワークモデル１２００（図１２参照）内の各ノード間の遷移確率が記憶されている。

ここで、クラスタをあらわすノード間の遷移確率はすべて「０」となっている。つまり、クラスタをあらわすノード間では遷移しない。また、ブログをあらわすノードとクラスタをあらわすノードとの間の遷移確率は、上記式（１）または（２）を用いて求めた遷移確率である。また、ブログをあらわすノード間の遷移確率は、ブログリンクテーブル６００を参照したものであり、行の合計が「１」となるように正規化されている。

算出部８０５は、例えば、ネットワークテーブル１３００の記憶内容に基づいて、ブログの適合度をブログごとに算出する。具体的には、ネットワークモデル１２００内のノード間をつなぐエッジに付与されている遷移確率を用いて、ランダムウォーク手法による各ノードのスコアリングをおこなうことで、各ブログの適合度を算出することができる。

ランダムウォークとは、「つぎに現れるものの確率」が不規則に決定される運動のことである。ここでは、ランダムウォークの概念を各ノードのスコアリングに適用する。ここで、ランダム手法により各ノードのスコアリングをおこなう処理概要について説明する。

まず、ランダムウォークが終了する終了確率Ｐｔ（例えば、「０．２」）を予め設定する。そして、ノード間の遷移確率Ｘ（）と終了確率Ｐｔとを用いて、ネットワークモデル１２００内のノード群の中から１個のノードを任意に選択してからノード間の遷移が終了するまでの間に、各ノードに遷移した遷移回数をノードごとに計数する。

そして、１個のノードを任意に選択してからノード間の遷移が終了するまでの一連の処理を予め規定された規定回数Ｎ（例えば、「１００００」）繰り返す。最終的に、規定回数Ｎ繰り返した結果、各ノードに遷移した遷移回数を検索クエリに対する各ノードの適合度とする。なお、上述の終了確率Ｐｔおよび規定回数Ｎは、ユーザが入力装置２２０を操作することで任意に設定可能である。

ここでは、ブログとクラスタとをノードとして有向グラフ化することにより、ブログとクラスタとの相関関係をあらわす遷移確率が付与された仮想的なネットワーク（ネットワークモデル１２００）を形成することができる。この結果、各ノードのスコアリングにランダムウォーク手法を適用することができる。

ランダムウォーク手法によるスコアリングでは、ノードに遷移する遷移回数が多ければ多いほど高スコアとなる。これは、遷移回数が多ければ多いノードほど、ランダムウォーク中にそのノードに訪れる可能性（期待値）が高くなるという関係に基づいている。ここでは、この関係を利用して、遷移回数が多いノードがあらわすクラスタまたはブログほど、検索者によって閲覧される可能性が高いクラスタまたはブログとして扱うことで（実際に閲覧されるのはページのみ）、検索クエリに対する適合度を高くする。

ここで、算出部８０５によって算出された各ノードの適合度（スコア）をあらわすスコアテーブルの具体例について説明する。図１４は、スコアテーブルの記憶内容を示す説明図である。図１４において、スコアテーブル１４００には、ネットワークモデル１２００内のノードごとに、検索クエリに対する適合度をあらわすスコアが記憶されている。

ここで、クラスタＣ１をあらわすノードを例に挙げると、検索クエリに対する適合度は「２５２３」である。また、ブログＢ２３をあらわすノードを例に挙げると、検索クエリに対する適合度は「５２４」である。

提示部８０７は、算出部８０５によって算出された算出結果に基づいて、ページ群に関するページ情報を提示する機能を有する。具体的には、算出部８０５によって算出された算出結果に基づいてページ群に関するページ情報を生成し、そのページ情報をクライアント端末１０３（検索クエリの送信元）に送信する。

より具体的には、例えば、図１４に示したスコアテーブル１４００を参照して、検索クエリに対する適合度が高い順にブログＢ２３，Ｂ５５，Ｂ２５を並び替えたインデックス（索引情報）を検索結果として生成することとしてもよい。

このとき、クラスタＣ１〜Ｃ４に相当するウェブサイトは存在していないため、ブログＢ２３，Ｂ５５，Ｂ２５のみを考慮したインデックスを生成することとなる。つまり、スコアテーブル１４００のうち、クラスタＣ１〜Ｃ４の適合度を除くブログＢ２３，Ｂ５５，Ｂ２５の適合度から検索クエリに対する有効性を評価して、ブログＢ２３，Ｂ５５，Ｂ２５を並び替える。

決定部８０８は、分類部８０４によって複数のクラスタに分類された掲載情報に出現する単語の出現頻度に基づいて、クラスタを特徴付ける単語（トピック）をクラスタごとに決定する機能を有する。具体的には、クラスタごとに、分類された掲載情報（記事）に出現する出現頻度が高い単語をクラスタの特徴をあらわすトピックに決定する。

また、決定部８０８は、掲載情報に出現する単語の出現回数を、ページ群に掲載されているすべての掲載情報に出現する上記単語の出現回数で除算した値に基づいて、クラスタを特徴付ける単語を決定することとしてもよい。これによれば、掲載内容にかかわらず出現頻度が高くなる傾向にある助詞（例えば、「を」）や記号（例えば、「。」）などの単語を除く他の単語の中から、クラスタを特徴付ける単語を決定することができる。

また、決定部８０８は、掲載情報に出現する特定の品詞の単語の出現頻度に基づいて、クラスタを特徴付ける単語を決定することとしてもよい。これによれば、クラスタを特徴付ける単語を、名詞や動詞などの特定の品詞に限定することができる。

ここで、クラスタごとに、掲載情報に出現する単語の出現頻度をあらわす特徴語テーブルの具体例について説明する。図１５は、特徴語テーブルの記憶内容を示す説明図である。図１５において、特徴語テーブル１５００には、クラスタＣ１〜Ｃ４ごとに、各クラスタに分類された記事に出現する単語の出現頻度をあらわす数値が記憶されている。

具体的には、単語の出現回数を、ブログ群（Ｂ２３，Ｂ２５，Ｂ５５）に掲載されているすべての記事（Ｐ５３，Ｐ８５，Ｐ４０，Ｐ７１）に出現する上記単語の出現回数で除算した値が記憶されている。例えば、決定部８０８は、特徴語テーブル１５００を参照して、クラスタＣ１を特徴付ける単語を「音質」として決定する。

図８の説明に戻り、提示部８０７は、決定部８０８によって決定された決定結果を検索クエリに関するトピックとして提示する機能を有する。具体的には、例えば、検索クエリに適合するページに関するページ情報とともにトピックを提示することとしてもよい。

このとき、例えば、各ページと、そのページが所属する所属確率が最大のクラスタを特徴付けるトピックとを関連付けて提示することとしてもよい。具体的には、例えば、ブログＢ２３に関するページ情報を提示する場合、ブログクラスタテーブル１１００を参照して、所属確率が最大のクラスタＣ２を特徴付ける単語をトピックとして提示することとなる。また、スコアテーブル１４００を参照して、検索クエリに対する適合度が高い順にクラスタＣ１〜Ｃ４のトピックを並び替えて提示することとしてもよい。

ここで、提示部８０７によってページ情報が提示された結果、クライアント端末１０３のディスプレイ２３１に表示される画面例について説明する。図１６は、ディスプレイに表示される画面例を示す説明図（その１）である。図１６において、ディスプレイ２３１には、検索クエリ「ＦＪｐｏｄ」を与えることで得られた検索結果１６００が表示されている。

具体的には、検索クエリ「ＦＪｐｏｄ」に対する適合度が高い順にページタイトルが表示されている。また、各ページタイトルには、そのページタイトルに応じたクラスタを特徴付けるトピックが関連付けて表示されている。ここで、カーソルＣを移動させて任意のタイトルをクリックすると、そのタイトルのＷｅｂページがディスプレイ２３１に表示される。

また、他の画面例として、検索結果をトピックごとに分類して提示することとしてもよい。図１７は、ディスプレイに表示される画面例を示す説明図（その２）である。図１７において、ディスプレイ２３１には、検索クエリ「ＦＪｐｏｄ」を与えることで得られた検索結果１７００が表示されている。

具体的には、検索クエリ「ＦＪｐｏｄ」に関するトピックごとにページタイトルが表示されている。ここで、カーソルＣを移動させて『拡張』のトピックをクリックすると、『拡張』の出現頻度が高い記事を掲載しているウェブサイトのページタイトルが表示されることとなる。

選択部８０９は、提示部８０７によって提示された複数のトピックの中から任意のトピックの選択を受け付ける機能を有する。具体的には、クライアント端末１０３のディスプレイ２３１に複数のトピックが表示された結果、ユーザの操作入力によって選択されたトピックを受け付ける。

この場合、ランダムウォーク手法による適合度の算出処理において、ランダムウォークを開始する最初のノードを任意に選択するのではなく、選択部８０９によって選択されたトピックによって特徴付けられるクラスタをあらわすノードを選択することとしてもよい。この場合、算出部８０５は、選択部８０９によって選択されたトピックによって特徴付けられるクラスタをあらわすノードを選択してからノード間の遷移が終了するまでの間に、各ノードに遷移した遷移回数を計数することにより、ページの適合度を算出することとなる。これにより、選択されたトピックに関する掲載情報（記事）が掲載されているページ（ブログ）のスコアを高くすることができる。

ここで、クライアント端末１０３における検索手順について説明する。図１８は、クライアント端末における検索手順の一例を示す説明図である。図１８において、まず、ユーザが検索クエリ「ＦＪｐｏｄ」を与えると、ディスプレイ２３１に検索結果１８１０が表示される。具体的には、検索結果１８１０には、検索クエリ「ＦＪｐｏｄ」に関する複数のトピック（デザイン、音質、アクセサリ、販売店）が表示されている。

つぎに、検索結果１８１０において、カーソルＣを移動させて、任意のボタンＢ１〜Ｂ４をクリックすることで、任意のトピックを選択する。ここでは、ボタンＢ１，Ｂ２をクリックしたとする。このあと、キーボード２２１のエンターボタンを押下すると、検索結果１８２０がディスプレイ２３１に表示される。

具体的には、検索結果１８２０には、『デザイン』および『音質』に関する記事が掲載されているページ（ブログ）の適合度が高くなるようにして得られたページ情報が表示されている。このように、検索クエリに関する複数のトピックの中から任意のトピックを選択させることにより、検索者の意志がより反映された検索結果を提示することができる。

なお、上記受付部８０１および検索部８０２の機能は、外部のコンピュータ装置によりその機能を実現することとしてもよい。この場合、抽出部８０３は、外部のコンピュータ装置から取得したページ群の中から当該ページに掲載されている掲載情報を抽出することとなる。

（情報提供装置の各種処理手順）
つぎに、本実施の形態にかかる情報提供装置１０１において実行される各種処理手順について説明する。

（ブログリンクテーブルの作成処理手順）
まず、図６に示したブログリンクテーブル６００を作成する作成処理手順について説明する。ブログリンクテーブル６００は、ブログＢ２３，Ｂ５５，Ｂ４０間の相関関係をあらわすテーブル表である。ここでは、作成部８０６により、図４に示した検索結果テーブル４００と、図５に示した記事リンクテーブル５００とを用いて、ブログリンクテーブル６００を作成する。

図１９は、ブログリンクテーブルを作成する作成処理手順の一例を示すフローチャートである。図１９のフローチャートにおいて、まず、ブログＩＤを行と列とに持つブログリンクテーブルを作成して、各セルを「０」で初期化する（ステップＳ１９０１）。

このあと、ブログリンクテーブルの中から、遷移確率を格納すべき任意のセルを選択し（ステップＳ１９０２）、選択されたセル（以下、「選択セル」という）について遷移元（ｆｒｏｍ）のブログＩＤと遷移先（ｔｏ）のブログＩＤとが同じか否かを判断する（ステップＳ１９０３）。

ここで、遷移元（ｆｒｏｍ）と遷移先（ｔｏ）とが違うと判断された場合（ステップＳ１９０３：Ｎｏ）、記事間の相関関係をあらわす記事リンクテーブル５００の中から、該当する記事ＩＤの値を読み出して選択セルに加算する（ステップＳ１９０４）。具体的には、検索結果テーブル４００を参照して選択セルのブログに掲載されている記事を特定し、記事リンクテーブル５００の中から特定された記事の値を読み出して加算する。

また、ステップＳ１９０３において、遷移元（ｆｒｏｍ）と遷移先（ｔｏ）とが同じと判断された場合には（ステップＳ１９０３：Ｙｅｓ）、ステップＳ１９０５に移行する。

つぎに、ブログリンクテーブルの中から選択されていない未選択のセルがあるか否かを判断し（ステップＳ１９０５）、未選択のセルがある場合（ステップＳ１９０５：Ｙｅｓ）、ステップＳ１９０２に戻り、ブログリンクテーブルの中から未選択のセルを選択して一連の処理を繰り返す。

一方、未選択のセルがない場合には（ステップＳ１９０５：Ｎｏ）、ブログリンクテーブルの中から任意の行を選択して（ステップＳ１９０６）、各セルの値の合計が「１」となるように正規化する（ステップＳ１９０７）。これにより、ブログリンクテーブルの各セルの値を平準化することができる。

つぎに、ブログリンクテーブルの中から選択されていない未選択の行があるか否かを判断し（ステップＳ１９０８）、未選択の行がある場合（ステップＳ１９０８：Ｙｅｓ）、ステップＳ１９０６に戻り、ブログリンクテーブルの中から未選択の行を選択して一連の処理を繰り返す。

一方、未選択の行がない場合には（ステップＳ１９０８：Ｎｏ）、ブログリンクテーブル６００を記憶部に出力（保存）して（ステップＳ１９０９）、本フローチャートによる一連の処理を終了する。

これにより、ブログ間の相関関係をあらわすブログリンクテーブル６００を作成することができる。また、ブログリンクテーブル６００内の行ごとに各セルの値を正規化することにより、各セルの値をブログリンクテーブル６００全体で平準化することができる。

（ブログクラスタテーブルの作成処理手順）
つぎに、図１１に示したブログクラスタテーブル１１００を作成する作成処理手順について説明する。ブログクラスタテーブル１１００は、ブログＢ２３，Ｂ５５，Ｂ２５とクラスタＣ１〜Ｃ４との相関関係をあらわすテーブル表である。ここでは、作成部８０６により、図４に示した検索結果テーブル４００と、図１０に示した記事クラスタテーブル１０００とを用いてブログクラスタテーブル１１００を作成する。

図２０は、ブログクラスタテーブルを作成する作成処理手順の一例を示すフローチャートである。図２０のフローチャートにおいて、まず、ブログＩＤを列に、クラスタＩＤを行に持つブログクラスタテーブルを作成して、各セルを「０」で初期化する（ステップＳ２００１）。

このあと、検索結果テーブル４００の中から、ブログＩＤおよび記事ＩＤを格納する任意の行を選択して（ステップＳ２００２）、記事クラスタテーブル１０００の中から選択された行（以下、「選択行」という）の記事ＩＤの値を読み出す（ステップＳ２００３）。

そして、ブログクラスタテーブルの選択行のブログＩＤに該当する行に読み出した値を加算する（ステップＳ２００４）。具体的には、選択行の記事ＩＤから特定される記事の各クラスタへの所属確率を、選択行のブログＩＤから特定されるブログの各クラスタへの遷移確率として加算する。つまり、記事とクラスタとの相関関係を用いて、ブログとクラスタとの相関関係をあらわす。

つぎに、検索結果テーブル４００の中から選択されていない未選択の行があるか否かを判断し（ステップＳ２００５）、未選択の行がある場合（ステップＳ２００５：Ｙｅｓ）、ステップＳ２００２に戻り、検索結果テーブル４００の中から未選択の行を選択して一連の処理を繰り返す。

一方、未選択の行がない場合には（ステップＳ２００５：Ｎｏ）、ブログクラスタテーブルを記憶部に出力（保存）して（ステップＳ２００６）、本フローチャートによる一連の処理を終了する。これにより、ブログとクラスタとの相関関係をあらわすブログクラスタテーブル１１００を作成することができる。

（ネットワークテーブルの作成処理手順）
つぎに、図１３に示したネットワークテーブル１３００を作成する作成処理手順について説明する。ネットワークテーブル１３００は、ブログＢ２３，Ｂ５５，Ｂ２５とクラスタＣ１〜Ｃ４との相関関係を有向グラフ化（図１２に示したネットワークモデル１２００）してあらわすテーブル表である。ここでは、作成部８０６により、図６に示したブログリンクテーブル６００と、図１１に示したブログクラスタテーブル１１００とを用いて、ネットワークテーブル１３００を作成する。

図２１は、ネットワークテーブルを作成する作成処理手順の一例を示すフローチャートである。図２１のフローチャートにおいて、まず、クラスタＩＤおよびブログＩＤを行と列とに持つネットワークテーブルを作成して、遷移確率を格納すべき各セルを「０」で初期化する（ステップＳ２１０１）。

このあと、ネットワークテーブルの中から、遷移確率を格納すべき任意のセルを選択して（ステップＳ２１０２）、選択されたセル（以下、「選択セル」という）について遷移元（ｆｒｏｍ）のブログＩＤまたはクラスタＩＤと、遷移先（ｔｏ）のブログＩＤまたはクラスタＩＤとが同じか否かを判断する（ステップＳ２１０３）。ここで、遷移元（ｆｒｏｍ）と遷移先（ｔｏ）とが同じと判断された場合（ステップＳ２１０３：Ｙｅｓ）、ステップＳ２１１３に移行する。

一方、遷移元（ｆｒｏｍ）と遷移先（ｔｏ）とが違うと判断された場合（ステップＳ２１０３：Ｎｏ）、選択セルについて両方クラスタＩＤか否かを判断する（ステップＳ２１０４）。ここで、両方クラスタＩＤと判断された場合（ステップＳ２１０４：Ｙｅｓ）、ステップＳ２１１３に移行する。

一方、両方クラスタＩＤと判断されなかった場合には（ステップＳ２１０４：Ｎｏ）、選択セルについて両方ブログＩＤか否かを判断する（ステップＳ２１０５）。ここで、両方ブログＩＤと判断された場合（ステップＳ２１０５：Ｙｅｓ）、ブログリンクテーブル６００の中から該当するブログＩＤの値を読み出して（ステップＳ２１０６）、その値を選択セルに書き込んで（ステップＳ２１０７）、ステップＳ２１１３に移行する。

一方、両方ブログＩＤと判断されなかった場合には（ステップＳ２１０５：Ｎｏ）、選択セルについてクラスタＩＤからブログＩＤか否かを判断する（ステップＳ２１０８）。ここで、クラスタＩＤからブログＩＤと判断された場合（ステップＳ２１０８：Ｙｅｓ）、上記式（２）を用いて、クラスタＣｊからブログＢｉへ遷移する遷移確率Ｘ（Ｃｊ−Ｂｉ）を算出する（ステップＳ２１０９）。そして、その遷移確率Ｘ（Ｃｊ−Ｂｉ）を選択セルに書き込んで（ステップＳ２１１０）、ステップＳ２１１３に移行する。

一方、クラスタＩＤからブログＩＤと判断されなかった場合（ステップＳ２１０８：Ｎｏ）、上記式（１）を用いて、ブログＢｉからクラスタＣｊへ遷移する遷移確率Ｘ（Ｂｉ−Ｃｊ）を算出する（ステップＳ２１１１）。そして、その遷移確率Ｘ（Ｂｉ−Ｃｊ）を選択セルに書き込む（ステップＳ２１１２）。

このように、ブログとクラスタとの間の遷移確率を、ブログに掲載されている記事のクラスタに対する所属確率を用いて求めることで、ネットワークモデル１２００におけるブログをあらわすノードとクラスタをあらわすノードとの間のリンク関係を形成することができる。

つぎに、ネットワークテーブルの中から選択されていない未選択のセルがあるか否かを判断する（ステップＳ２１１３）。ここで、未選択のセルがある場合（ステップＳ２１１３：Ｙｅｓ）、ステップＳ２１０２に戻って、ネットワークテーブルの中から未選択のセルを選択して一連の処理を繰り返す。

一方、未選択のセルがない場合（ステップＳ２１１３：Ｎｏ）、ネットワークテーブルを記憶部に出力（保存）して（ステップＳ２１１５）、本フローチャートによる一連の処理を終了する。これにより、ネットワークモデル１２００内のノード間の相関関係をあらわすネットワークテーブル１３００を作成することができる。

（適合度の算出処理手順）
つぎに、検索クエリに対するブログの適合度を算出する算出処理手順について説明する。ここでは、算出部８０５により、図１２に示したネットワークモデル１２００（図１３に示したネットワークテーブル１３００）にランダムウォーク手法を適用することで、各ブログの適合度を算出する。ただし、ランダムウォークの規定回数をＮ、試行回数をｎ、終了確率をＰｔとする。

図２２は、ブログの適合度を算出する算出処理手順の一例を示すフローチャートである。図２２のフローチャートにおいて、まず、クラスタＣｊからをウェブＢｉへ遷移する遷移確率Ｘ（Ｃｊ−Ｂｉ）を「０」で初期化する（ステップＳ２２０１）。

ノードをあらわすクラスタＩＤとブログＩＤとを列に持つスコアテーブルを作成して、スコアを格納すべき各セルを「０」で初期化し（ステップＳ２２０１）、さらに、試行回数ｎを「０」で初期化する（ステップＳ２２０２）。

このあと、試行回数ｎに「１」をインクリメントして（ステップＳ２２０３）、ネットワークテーブル１３００のｆｒｏｍ列の中から１つのノードをランダムに選択して（ステップＳ２２０４）、スコアテーブルの選択されたノード（以下、「選択ノード」という）のセルに「１」をインクリメントする（ステップＳ２２０５）。

そして、選択ノード列の各要素に終了確率Ｐｔを加えた要素群から、１つの要素をランダムに選択する（ステップＳ２２０６）。このあと、ランダムウォークの終了が選択されたか否かを判断し（ステップＳ２２０７）、終了が選択されなかった場合（ステップＳ２２０７：Ｎｏ）、選択された要素に該当するノードを選択して（ステップＳ２２０８）、ステップＳ２２０５に戻る。

すなわち、遷移終了が選択されるまで、ネットワークモデル１２００内のランダムウォークを継続し、各ノードに辿り着く都度、そのノードのスコア（適合度）となる遷移回数を計数する。

一方、ランダムウォークの終了が選択された場合（ステップＳ２２０７：Ｙｅｓ）、試行回数ｎ≧規定回数Ｎか否かを判断する（ステップＳ２２０９）。ここで、試行回数ｎ＜規定回数Ｎの場合（ステップＳ２２０９：Ｎｏ）、ステップＳ２２０３に戻って一連の処理を繰り返す。

一方、試行回数ｎ≧規定回数Ｎの場合（ステップＳ２２０９：Ｙｅｓ）、スコアテーブルを記憶部に出力（保存）して（ステップＳ２２１０）、本フローチャートによる一連の処理を終了する。

これにより、検索クエリに対する各ブログの適合度を、当該ブログをあらわすノードに遷移した遷移回数によってあらわすスコアテーブル１４００を作成することができる。これによれば、スコア（適合度）の高いトピックに関する記事を掲載しているブログほど高いスコアとなり、また、スコアの高いブログに掲載されている記事内に含まれているトピックは高いスコアとなる。

（特徴語テーブルの作成処理手順）
つぎに、図１５に示した特徴語テーブル１５００を作成する作成処理手順について説明する。特徴語テーブル１５００は、各クラスタＣ１〜Ｃ４に分類された記事に出現する単語の出現頻度をリスト化したテーブル表である。ここでは、作成部８０６により、図７に示した解析結果テーブル７００と、図１０に示した記事クラスタテーブル１０００とを用いて、特徴語テーブル１５００を作成する。

図２３は、特徴語テーブルを作成する作成処理手順の一例を示すフローチャートである。図２３において、まず、クラスタＩＤを列に、単語（ブログ群に出現する全単語）を行に持つ特徴語テーブルを作成して数値を格納すべき各セルを「０」で初期化する（ステップＳ２３０１）。このあと、記事クラスタテーブル１０００の中から任意のクラスタを選択する（ステップＳ２３０２）。

つぎに、選択されたクラスタ（以下、「選択クラスタ」という）の列から任意の記事を選択する（ステップＳ２３０３）。そして、解析結果テーブル７００を参照して、選択された記事（以下、「選択記事」という）の解析結果の中から任意の単語を選択する（ステップＳ２３０４）。このあと、特徴語テーブルの該当するセル（列：選択クラスタ、行：選択された単語）に選択記事の所属確率を加算する（ステップＳ２３０５）。

つぎに、選択記事の解析結果の中から選択されていない未選択の単語があるか否かを判断し（ステップＳ２３０６）、未選択の単語がある場合（ステップＳ２３０６：Ｙｅｓ）、ステップＳ２３０４に戻り、解析結果の中から未選択の単語を選択して一連の処理を繰り返す。

一方、未選択の単語がない場合には（ステップＳ２３０６：Ｎｏ）、選択クラスタの列から選択されていない未選択の記事があるか否かを判断する（ステップＳ２３０７）。ここで、未選択の記事がある場合（ステップＳ２３０７：Ｙｅｓ）、ステップＳ２３０３に戻り、選択クラスタの列から未選択の記事を選択して一連の処理を繰り返す。

一方、未選択の記事がない場合には（ステップＳ２３０７：Ｎｏ）、記事クラスタテーブル１０００の中から選択されていない未選択のクラスタがあるか否かを判断する（ステップＳ２３０８）。ここで、未選択のクラスタがある場合（ステップＳ２３０８：Ｙｅｓ）、ステップＳ２３０２に戻り、記事クラスタテーブル１０００の中から未選択のクラスタを選択して一連の処理を繰り返す。

一方、未選択のクラスタがない場合には（ステップＳ２３０８：Ｎｏ）、特徴語テーブルの各セルの値を重み付けする重み付け処理を実行し（ステップＳ２３０９）、最後に、特徴語テーブルを記憶部に出力（保存）して（ステップＳ２３１０）、本フローチャートによる一連の処理を終了する。これにより、各クラスタＣ１〜Ｃ４に分類された記事に出現する単語の出現頻度をリスト化してあらわす特徴語テーブル１５００を作成することができる。

つぎに、図２３のステップＳ２３０９の重み付け処理の具体的処理手順について説明する。この重み付け処理は、すべての記事に共通して多く出現する単語の値を平準化することで、特定の記事に多く出現する単語の値に重み付けするものである。図２４は、重み付け処理の具体的処理手順の一例を示すフローチャートである。

図２４のフローチャートにおいて、まず、解析結果テーブル７００の記憶内容に基づいて、すべての単語の出現回数を単語ごとに計数する（ステップＳ２４０１）。このあと、特徴語テーブルの中から任意の単語を選択する（ステップＳ２４０２）。

そして、選択された単語列の各セルの値をステップＳ２４０１において計数された該単語の出現回数で除算する（ステップＳ２４０３）。つぎに、特徴語テーブルの中から選択されていない未選択の単語があるか否かを判断する（ステップＳ２４０４）。

ここで、未選択の単語がある場合（ステップＳ２４０４：Ｙｅｓ）、ステップＳ２４０２に戻り、特徴語テーブルの中から未選択の単語を選択して一連の処理を繰り返す。一方、未選択の単語がない場合には（ステップＳ２４０４：Ｎｏ）、図２３に示したステップＳ２３１０に移行する。

これにより、記事の掲載内容にかかわらず出現頻度が高くなる助詞や記号などの単語に該当するセルの値が小さくなるため、結果的に、特定の記事に多く出現する単語に該当するセルの値に重み付けすることができる。

（検索結果の提示処理手順）
図２５は、検索結果の提示処理手順の一例を示すフローチャートである。ただし、検索結果として提示するブログの規定件数をＫとする。図２５のフローチャートにおいて、まず、ブログ件数をあらわすｋを「０」で初期化する（ステップＳ２５０１）。このあと、スコアテーブル１４００を参照して最高スコアのブログＩＤを特定し（ステップＳ２５０２）、ブログ件数ｋに「１」をインクリメントする（ステップＳ２５０３）。

つぎに、検索結果テーブル４００の中から、特定されたブログＩＤと、該ブログＩＤと関連付けられている記事ＩＤとを抽出する（ステップＳ２５０４）。また、ブログクラスタテーブル１１００を参照して、特定されたブログＩＤ行の中から所属確率が最大のクラスタＩＤを特定する（ステップＳ２５０５）。このあと、特徴語テーブル１５００を参照して、特定されたクラスタＩＤ行の中から値が最大の単語を抽出する（ステップＳ２５０６）。

つぎに、ブログ件数ｋ≧規定件数Ｋ、または、スコアテーブル１４００内の全ブログＩＤを特定したか否かを判断する（ステップＳ２５０７）。ここで、ブログ件数ｋ＜規定件数Ｋと判断された場合（ステップＳ２５０７：Ｎｏ）、ステップＳ２５０２に戻り、未特定でかつ最高スコアのブログＩＤを特定して一連の処理を繰り返す。

一方、ブログ件数ｋ≧規定件数Ｋ、または、スコアテーブル１４００内の全ブログＩＤを特定したと判断された場合（ステップＳ２５０７：Ｙｅｓ）、ステップＳ２５０４およびステップＳ２５０６において抽出されたブログＩＤ、記事ＩＤおよび単語を用いてページ情報を生成する（ステップＳ２５０８）。

最後に、生成されたページ情報をクライアント端末１０３に提示して（ステップＳ２５０９）、本フローチャートによる一連の処理を終了する。これによれば、ブログの掲載内容を考慮した適切なスコアリングをおこなうことで最適化されたランキングに基づく検索結果を検索者に提示することができる。

以上説明したように、本実施の形態によれば、各ページ（ブログ）の掲載内容（ブログに掲載されている記事の掲載内容）に基づくページとクラスタ（トピック）との相関関係を用いて、各ページのスコアリングをおこなうことができる。これにより、例えば、他のブログとのリンク関係が少ない、または、リンク関係を有していないブログについても適切なスコアリングをおこなうことができる。この結果、『重要なトピックを扱ったブログは重要』、『重要なブログに扱われているトピックは重要』という関係が成り立ち、ブログの掲載内容を考慮したランキングがおこなわれることとなる。

また、ランダムウォーク手法による各ノードのスコアリングをおこなう際に、正規化されたページ間（ブログ間）の遷移確率を用いることで、リンク関係による影響を低減させることができる。これにより、例えば、他のブログと多くのリンク関係を有するブログが、掲載内容にかかわらず上位にランク付けされてしまう不具合を防ぐことができる。

また、検索者に検索クエリに関する複数のトピックの中から任意のトピックを選択させることにより、特定のトピックに関する掲載情報が掲載されているページのスコアを高くすることができる。この結果、例えば、検索者が興味のあるトピックに関する記事が掲載されているブログが上位にランク付けされやすくなり、検索者の意志がより反映された検索結果を提示することができる。

以上のことから、この情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体によれば、ページの掲載内容を考慮した適切なスコアリングをおこなうことにより、検索結果のランキングを最適化し、検索システム１００におけるユーザの検索活動の効率化を図ることができる。

なお、本実施の形態で説明した情報提供方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出工程と、
前記抽出工程によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類工程と、
前記ページと前記分類工程によって分類されたクラスタとの相関関係に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出工程と、
前記算出工程によって算出された算出結果に基づいて、前記ページ群に関するページ情報を提示する提示工程と、
を含んだことを特徴とする情報提供方法。

（付記２）前記ページと前記クラスタとをノードとして有向グラフ化されたネットワークモデルを作成する作成工程を含み、
前記算出工程は、
前記作成工程によって作成されたネットワークモデル内の前記ページをあらわすノードと前記クラスタをあらわすノードとの間を遷移する遷移確率に基づいて、前記ページの適合度を算出することを特徴とする付記１に記載の情報提供方法。

（付記３）前記算出工程は、
さらに、前記ネットワークモデル内の前記ページをあらわすノード間を遷移する遷移確率に基づいて、前記ページの適合度を算出することを特徴とする付記２に記載の情報提供方法。

（付記４）前記ページをあらわすノード間を遷移する遷移確率は正規化されていることを特徴とする付記３に記載の情報提供方法。

（付記５）前記算出工程は、
前記ノード間を遷移する遷移確率と前記ノード間の遷移を終了する終了確率とを用いて、前記ノード群の中から１個のノードを任意に選択してから前記ノード間の遷移が終了するまでの間に、前記ノードに遷移した遷移回数を前記ノードごとに計数することにより、前記ページの適合度を算出することを特徴とする付記２〜４のいずれか一つに記載の情報提供方法。

（付記６）前記分類工程は、
前記掲載情報に出現する単語の出現頻度と前記単語間の類似度とに基づいて、前記掲載情報を複数のクラスタに分類することを特徴とする付記１〜５のいずれか一つに記載の情報提供方法。

（付記７）前記クラスタに分類された掲載情報に出現する単語の出現頻度に基づいて、前記クラスタを特徴付ける単語を前記クラスタごとに決定する決定工程を含み、
前記提示工程は、
さらに、前記決定工程によって決定された決定結果を前記検索クエリに関するトピックとして提示することを特徴とする付記６に記載の情報提供方法。

（付記８）前記決定工程は、
前記掲載情報に出現する単語の出現回数を、前記ページ群に掲載されているすべての掲載情報に出現する前記単語の出現回数で除算した値に基づいて、前記クラスタを特徴付ける単語を決定することを特徴とする付記７に記載の情報提供方法。

（付記９）前記決定工程は、
前記掲載情報に出現する特定の品詞の単語の出現頻度に基づいて、前記クラスタを特徴付ける単語を決定することを特徴とする付記７または８に記載の情報提供方法。

（付記１０）前記決定工程によって決定された決定結果を前記トピックとして提示するトピック提示工程と、
前記トピック提示工程によって提示された複数のトピックの中から任意のトピックの選択を受け付ける選択工程と、を含み、
前記算出工程は、
前記選択工程によって選択されたトピックによって特徴付けられるクラスタをあらわすノードを選択してから前記ノード間の遷移が終了するまでの間に、前記各ノードに遷移した遷移回数を計数することにより、前記ページの適合度を算出することを特徴とする付記７〜９のいずれか一つに記載の情報提供方法。

（付記１１）前記ページ群には、当該ページ群に含まれる他のページとリンク関係を有していないページが少なくとも１つ以上含まれていることを特徴とする付記１〜１０のいずれか一つに記載の情報提供方法。

（付記１２）検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出手段と、
前記抽出手段によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類手段と、
前記ページと前記分類手段によって分類されたクラスタとの相関関係に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出手段と、
前記算出手段によって算出された算出結果に基づいて、前記ページ群に関するページ情報を提示する提示手段と、
を備えることを特徴とする情報提供装置。

（付記１３）コンピュータを、
検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出手段、
前記抽出手段によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類手段、
前記ページと前記分類手段によって分類されたクラスタとの相関関係に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出手段、
前記算出手段によって算出された算出結果に基づいて、前記ページ群に関するページ情報を提示する提示手段、
として機能させることを特徴とする情報提供プログラム。

（付記１４）付記１２に記載の情報提供プログラムを記録したコンピュータに読み取り可能な記録媒体。

検索システムのシステム構成図である。コンピュータ装置のハードウェア構成を示す説明図である。本実施の形態の概要を示す説明図である。検索結果テーブルの記憶内容を示す説明図である。記事リンクテーブルの記憶内容を示す説明図である。ブログリンクテーブルの記憶内容を示す説明図である。解析結果テーブルの記憶内容を示す説明図である。情報提供装置の機能的構成を示すブロック図である。解析結果の一例を示す説明図である。記事クラスタテーブルの記憶内容を示す説明図である。ブログクラスタテーブルの記憶内容を示す説明図である。ネットワークモデルの一例を示す有向グラフである。ネットワークテーブルの記憶内容を示す説明図である。スコアテーブルの記憶内容を示す説明図である。特徴語テーブルの記憶内容を示す説明図である。ディスプレイに表示される画面例を示す説明図（その１）である。ディスプレイに表示される画面例を示す説明図（その２）である。クライアント端末における検索手順の一例を示す説明図である。ブログリンクテーブルを作成する作成処理手順の一例を示すフローチャートである。ブログクラスタテーブルを作成する作成処理手順の一例を示すフローチャートである。ネットワークテーブルを作成する作成処理手順の一例を示すフローチャートである。ブログの適合度を算出する算出処理手順の一例を示すフローチャートである。特徴語テーブルを作成する作成処理手順の一例を示すフローチャートである。重み付け処理の具体的処理手順の一例を示すフローチャートである。検索結果の提示処理手順の一例を示すフローチャートである。

符号の説明

１００検索システム
１０１情報提供装置
１０２データベースサーバ
１０３，１０３−１〜１０３−ｎクライアント端末
４００検索結果テーブル
５００記事リンクテーブル
６００ブログリンクテーブル
７００解析結果テーブル
８０１受付部
８０２検索部
８０３抽出部
８０４分類部
８０５算出部
８０６作成部
８０７提示部
８０８決定部
８０９選択部
１０００記事クラスタテーブル
１１００ブログクラスタテーブル
１２００ネットワークモデル
１３００ネットワークテーブル
１４００スコアテーブル
１５００特徴語テーブル
１６００，１７００，１８１０，１８２０検索結果

Claims

検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出工程と、
前記抽出工程によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類工程と、
前記分類工程によって分類されたクラスタに対する掲載情報の相関の強さをあらわす値を基に得られる、前記ページの前記クラスタに対する相関の強さをあらわす値に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出工程と、
前記算出工程によって算出された算出結果に基づいて、前記ページの集合に関するページ情報を提示する提示工程と、
を含んだことを特徴とする情報提供方法。
前記ページと前記クラスタとをノードとして有向グラフ化されたネットワークモデルを作成する作成工程と、
前記ページの前記クラスタに対する相関の強さをあらわす値に基づいて、前記作成工程によって作成されたネットワークモデル内の前記ページをあらわすノードと前記クラスタをあらわすノードとの間を遷移する遷移確率を算出する遷移確率算出工程と、を含み、
前記算出工程は、
前記遷移確率算出工程によって算出された前記ネットワークモデル内の前記ページをあらわすノードと前記クラスタをあらわすノードとの間を遷移する遷移確率に基づいて、前記ページの適合度を算出することを特徴とする請求項１に記載の情報提供方法。
前記算出工程は、
さらに、前記ネットワークモデル内の前記ページをあらわすノード間を遷移する遷移確率に基づいて、前記ページの適合度を算出することを特徴とする請求項２に記載の情報提供方法。
前記ページをあらわすノード間を遷移する遷移確率は正規化されていることを特徴とする請求項３に記載の情報提供方法。
前記算出工程は、
前記ノード間を遷移する遷移確率と前記ノード間の遷移を終了する終了確率とを用いて、前記ネットワークモデル内のノード群の中から１個のノードを任意に選択してから前記ノード間の遷移が終了するまでの間に、前記ノードに遷移した遷移回数を前記ノードごとに計数することにより、前記ページの適合度を算出することを特徴とする請求項２〜４のいずれか一つに記載の情報提供方法。
前記クラスタに分類された掲載情報に出現する単語の出現頻度に基づいて、前記クラスタを特徴付ける単語を前記クラスタごとに決定する決定工程と、
前記決定工程によって決定された決定結果を前記検索クエリに関するトピックとして提示するトピック提示工程と、
前記トピック提示工程によって提示された複数のトピックの中から任意のトピックの選択を受け付ける選択工程と、を含み、
前記算出工程は、
前記選択工程によって選択されたトピックによって特徴付けられるクラスタをあらわすノードを選択してから前記ノード間の遷移が終了するまでの間に、前記各ノードに遷移した遷移回数を計数することにより、前記ページの適合度を算出することを特徴とする請求項５に記載の情報提供方法。
検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出手段と、
前記抽出手段によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類手段と、
前記分類手段によって分類されたクラスタに対する掲載情報の相関の強さをあらわす値を基に得られる、前記ページの前記クラスタに対する相関の強さをあらわす値に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出手段と、
前記算出手段によって算出された算出結果に基づいて、前記ページの集合に関するページ情報を提示する提示手段と、
を備えることを特徴とする情報提供装置。
コンピュータを、
検索クエリを与えることで得られた少なくとも一つ以上の掲載情報を含むページの集合の中から選ばれた当該ページに掲載されている掲載情報を抽出する抽出手段、
前記抽出手段によって抽出された掲載情報を掲載内容に応じて複数のクラスタに分類する分類手段、
前記分類手段によって分類されたクラスタに対する掲載情報の相関の強さをあらわす値を基に得られる、前記ページの前記クラスタに対する相関の強さをあらわす値に基づいて、前記検索クエリに対する前記ページの適合度を前記ページごとに算出する算出手段、
前記算出手段によって算出された算出結果に基づいて、前記ページの集合に関するページ情報を提示する提示手段、
として機能させることを特徴とする情報提供プログラム。