JP2009086903A

JP2009086903A - 検索サービス装置

Info

Publication number: JP2009086903A
Application number: JP2007254335A
Authority: JP
Inventors: Tomoyasu Okada; 智靖岡田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2009-04-23

Abstract

【課題】複数の検索語の全てと関連の深い連想語を検索する。
【解決手段】出現頻度表保持部は、複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持する。共起キーワード抽出部６２は、ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する。関連度算出部６４は、前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する。検索結果ページ作成部６６は、関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成する。
【選択図】図２

Description

本発明は、検索語の入力を受け付け検索語と関連の深い言葉を連想語として出力する検索技術に関する。

現在のインターネット環境では、検索技術の果たす役割が非常に大きくなっている。インターネットを介して検索可能となる文書の量が飛躍的に膨張するにつれて、検索語に対してヒットする件数も増加する一方である。このような状況は、ある言葉を検索することで新規な着眼点を得たり発想を広げたりしたいと望むユーザにとっては、必ずしも望ましくない。すなわち、検索結果として提示された個々の文書を詳細に検討すれば、新たな知見を得ることができるかもしれないが、そのために必要となる時間が増えてしまうからである。

そこで、検索語を含む文書を提示する代わりに、その検索語から連想される言葉を検索結果として提示する連想検索技術がいくつか提案されている。例えば、特許文献１では、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い（つまり、同一文書中に登場する確率が高い）企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対して共起性の高い企業名を抽出する連想検索システムが開示されている。
特開２００４−１１０３８６号

特許文献１のシステムでは、一つの検索語に対する検索結果が所定の順序で整列して表示される。例えば、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名がリストアップされる。しかしながら、複数の検索語に対する連想検索を一回の検索で知ることはできない。例えば、「自動車」と「環境技術」の両方から連想される言葉を知りたい場合には、「自動車」の連想検索結果と「環境技術」の連想検索結果を比較して、両方に含まれるものを探し出す必要がある。このような手順では、手間がかかる上に、検索語の数が増えるにつれて共通する連想語を探すことが困難になる。

本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザから入力された複数の検索語全てに関連の深い連想語を一度の操作で見つけ出すことができる技術を提供することにある。

本発明のある態様は、検索サービス装置である。この装置は、複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する共起キーワード抽出部と、キーワード出現頻度データを参照して、文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する関連度算出部と、関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として連想語を表示するページを作成するページ作成部と、を備える。

この態様によると、複数の検索語の全てと関連の深い連想語を容易に検索することが可能になる。

関連度算出部は、各共起キーワードについて、文書データ群内の出現頻度の二乗を全文書データ内の出現頻度で除することで関連度を算出してもよい。このように、検索語との共起が生じている文書データ内での共起頻度と、全文書データ内での共起頻度とを用いて関連度を算出することで、あらゆる文書データにおける出現頻度が高いキーワードについて、検索語に対する関連度が大きく算出されることを防止することができる。

ページ作成部は、各連想語を文字列として含む複数のタグを配置したタグクラウド形式でページを作成してもよい。また、ページ作成部は、連想語の関連度の大きさに応じて、タグまたは文字列のサイズまたは装飾を変えてもよい。これによって、検索語と連想語の間の関連性の強弱を直感的に把握することが可能になる。

なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。

本発明によれば、ユーザから入力された複数の検索語全てに関連の深い連想語を一度の操作で見つけ出すことができる。

図１は、本発明の一実施形態に係る連想検索システム１０の全体構成図である。ユーザ端末３２は、インターネット、ＬＡＮ（Local Area Network）等のネットワーク３４を介して検索サービス装置３０に接続される。ユーザ端末３２は、例えばパーソナルコンピュータであり、少なくとも表示装置であるディスプレイとキーボードおよびマウスなどの入力装置とを備える。ユーザ端末３２には、周知のブラウザが搭載され、ネットワーク上で提供されている様々なウェブページを閲覧可能となっている。検索サービス装置３０は、単一のウェブサーバとして構成されてもよいし、データベースサーバなどを含む複数のサーバで構成されてもよい。

ユーザは、ユーザ端末３２を利用して、検索サービス装置３０の提供するウェブサイトにアクセスし、所定のページにおいて検索語を入力する。検索サービス装置３０は、ユーザ端末３２から検索語を受け取ると、以下に述べる手順にしたがって検索語に関連の深い連想語を探し出し、その結果をウェブページ形式でユーザ端末３２に送信する。

図２は、検索サービス装置３０の構成を示す。ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵやメモリをはじめとする素子で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここではそれらの連携によって実現される機能ブロックとして描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。

検索語受付部４２は、各ユーザ端末３２から送られた検索語を受け付け、連想検索エンジン５０や他の機能ブロックに渡す。

図３は、ユーザが検索語を入力するための画面１４２の一例を示す。画面１４２には、検索語を入力する欄１４４が二つ設けられており、複数の検索語に対して関連の深い連想語を検索できるようになっている。「もっと追加する」ボタン１４８をクリックすると、欄１４４が一つずつ追加され、検索語を３語以上とすることも可能である。検索語を欄１４４に入力した後、「Search」ボタン１４６をクリックすると、検索語が検索語受付部４２に送られる。以下では、ユーザが二つの検索語ａ、ｂを入力したものとして説明を行う。

連想検索エンジン５０は、予め準備されている文書データに基づき、ユーザから入力された複数の検索語に対して関連の深い連想語を検索する。

複数検索語処理部６０は、ユーザ端末から入力された複数の検索語に対する連想検索の結果を返す。複数検索語処理部６０は、共起キーワード抽出部６２、関連度算出部６４、および検索結果ページ作成部６６を含む。

共起キーワード抽出部６２は、検索語受付部４２から複数の検索語を受け取り、検索語と同一文書データ内に共起するキーワード（以下、「共起キーワード」という）を抽出する。

関連度算出部６４は、文書データにおける複数の検索語と共起キーワードとの共起頻度に基づき、各共起キーワードについて検索語に対する関連度を算出する。

検索結果ページ作成部６６は、関連度に応じて共起キーワードのフォントサイズを変えて表したタグクラウド形式の検索結果ページを作成する。作成された検索結果ページは、表示出力部５２によってユーザ端末３２に送られ、ユーザ端末上で表示される。

図４は、連想検索エンジン５０の詳細な構成を示す。ここに示す機能ブロックも、ハードウェアおよびソフトウェアの組合せによっていろいろなかたちで実現できる。
文書データベース１２は、多数の文書をテキストデータとして蓄積する。蓄積される文書としては、新聞記事、雑誌記事、学術論文などが好ましいが、これらに限定されない。別の実施例として、連想検索エンジン５０が、所定の期間毎にネットワークを介して多数のウェブページにアクセスしてページ内の文書データを収集するウェブクローラを備えており、収集した文書データを適宜データベースに蓄積していくように構成してもよい。

文書データベース１２に蓄積された文書データは、後述するように、検索語と関連の深い連想語を導き出すための元データとしての役割を有する。

文書データベース１２は、形態素インデックス１２ａと、テキスト本文１２ｂとを記憶している。形態素インデックス１２ａは、文書データに対して周知の形態素解析を行った結果をインデックス形式で保存したものである。文書データベース１２内に蓄積された多量の文書データに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要する。そこで、本実施形態では、予め全文書データに登場する各形態素が個々の文書データ中に存在しているか否かを一覧表にまとめた形態素インデックス（いわゆる転置インデックス）１２ａを生成しておく。キーワード抽出部１４は、この形態素インデックス１２ａを参照することで、比較的短時間で各文字列の出現頻度を簡単に取得することができる。

キーワード抽出部１４は、係り受け表現抽出フィルタ１４ａ、区切り文字抽出フィルタ１４ｂ、文字列頻度統計フィルタ１４ｃ、ＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄ、および多数決フィルタ１４ｅからなる複数のフィルタを備えている。ここで、本明細書における「キーワード」とは、文書データから抽出された形態素のうち、上述の各種フィルタによってフィルタリングされた個々の文字列のことをいう。つまり、これらキーワードは、検索語と関連の深い連想語を導き出すために予め準備されているものである。したがって、通常の検索エンジンにおける「検索キーワード」とは異なるものであることに注意されたい。

キーワード保持部１６には、キーワード抽出部１４で抽出されたキーワードが格納される。キーワードは、５０音順、ＡＳＣＩＩコード順、または他の適当な規則にしたがって整理されて格納される。

出現頻度集計部１８は、キーワード保持部１６に格納されている全てのキーワードについて、文書データ毎にキーワードの出現回数を集計し、キーワード出現頻度表を作成する。作成したキーワード出現頻度表は、出現頻度表保持部２０に格納される。

図５は、キーワード出現頻度表１３０の具体例を示す。図中、行項目１３２はキーワード保持部１６に格納されている全てのキーワード（ＫＷ−１〜ＫＷ−ｎ）を表し、列項目列１３６は、文書データベース１２に格納されている全ての文書データＤ１〜Ｄｍを表す。各マス目１３４は、文書データＤ１〜Ｄｍの中に、各キーワードＫＷ−１〜ＫＷ−ｎがそれぞれ出現した回数を表す。例えば、文書データＤ１には、ＫＷ−１が３回、ＫＷ−２が５回、ＫＷ−３が０回、ＫＷ−４が０回、ＫＷ−５が２回出現していることが分かる。

図６は、キーワード抽出部１４において文書データからキーワードを抽出する処理を説明するフローチャートである。
まず、キーワード抽出部１４は、文書データベース１２内に蓄積された各文書データに対して係り受け表現抽出フィルタ１４ａを適用し、所定の係り受け表現を含む文字列を抽出する（Ｓ１０）。係り受け表現抽出フィルタ１４ａには、「ＸＸメーカー」、「ＸＸが主力」、「ＸＸを生産」といったような係り受け表現パターンが予め多数用意されている。係り受け表現抽出フィルタ１４ａを適用することで、文書データから上述のような表現パターンを含む文字列を検出した後、キーワード抽出部１４は、「ＸＸ」に相当する部分をキーワード候補として抽出する。

次に、キーワード抽出部１４は、各文書データに対して区切り文字抽出フィルタ１４ｂを適用する（Ｓ１２）。区切り文字抽出フィルタ１４ｂには、「ＸＸ」、”ＸＸ”、（ＸＸ）、［ＸＸ］、,ＸＸ,のような、カンマや括弧、スペース、タブ等の区切り文字が用意されている。キーワード抽出部１４は、これら区切り文字で囲まれた文字列を検出した後、ＸＸに相当する部分をキーワード候補として抽出する。

続いて、キーワード抽出部１４は、各文書データに文字列頻度統計フィルタ１４ｃを適用し、文書データに含まれる各文字列が全文書データにおいて何回出現するのかを集計する。そして、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する（Ｓ１４）。

ここで、文字列頻度統計フィルタ１４ｃについて説明する。文字列頻度統計フィルタ１４ｃは、文書データ中のある名詞（例えば、「ＤＶＤ」）に注目し、このＤＶＤという注目語が文書データベース１２内に蓄積された各文書データ中に出現する回数をカウントする。続いて、文字列頻度統計フィルタ１４ｃは、この注目語の前後の形態素に範囲を拡張して、いくつかの新たな注目語を作り出す。各注目語が全文書データ中に登場する頻度を再度集計し、この出現頻度が一定数以下（例えば、２０回以下）となった時点で注目語の範囲拡張を停止する。

一例として、「昨年販売したＤＶＤレコーダでは」という文字列があったとする。まず、文字列頻度統計フィルタ１４ｃは、注目語「ＤＶＤ」の一つ前の形態素に範囲を拡張して、「したＤＶＤ」という注目語を作り、この「したＤＶＤ」の出現頻度を集計する。出現頻度が例えば２回であった場合、これ以上前の形態素に範囲が拡張されることはない。続いて、文字列頻度統計フィルタ１４ｃは、注目語「ＤＶＤ」の一つ後の形態素に範囲を拡張して、「ＤＶＤレコーダ」という注目語を作り、出現頻度を集計する。出現頻度が例えば８６２回であった場合は、さらにその一つ後の形態素に範囲を拡張して、「ＤＶＤレコーダでは」という注目語を作る。この注目語の出現頻度が、今度は例えば５回であった場合、これ以降の形態素に範囲が拡張されることはない。

ここで、「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私（代名詞）」「の（助詞）」「名前（一般名詞）」「は（係助詞）」「鈴木（固有名詞）」「です（助動詞）」となる。形態素解析は当業者には周知であるので、これ以上の説明は省略する。

文字列頻度統計フィルタ１４ｃは、「ＤＶＤ」および「ＤＶＤレコーダ」が所定範囲（例えば、２０〜５０００）内の出現頻度を備えていることを理由に、これらをキーワード候補として抽出する。これに対し、「したＤＶＤ」および「ＤＶＤレコーダでは」は上記の範囲外であるため、キーワード候補から除外される。なお、キーワード候補を決定するための所定範囲の上限値と下限値は、文書データベース１２に蓄積されている文書データの分量や、検索サービス装置３０の主たる使用目的に応じて適宜調整される。この場合、下限値は、出現頻度があまりに少ないと連想検索の対象となりにくい、という観点から決定することが好ましい。逆に、上限値は、あまりに出現頻度が多い語は、汎用語や助詞、助動詞の可能性が高い、という観点から決定することが好ましい。現実には、検索を多数回繰り返すことによって実験的に上限値と下限値を設定する。

図４に戻り、キーワード抽出部１４は、文書データベース１２内に蓄積された文書データに対してＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄを適用し、各文書データから所定以上のスコアを備えた文字列をキーワード候補として抽出する（Ｓ１６）。
このＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄは、専門分野のコーパス、すなわち主として研究目的で収集され、電子化された自然言語の文章からなる巨大な文書データから専門用語を自動抽出するために案出された文字列抽出アルゴリズムである。ＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄは、文書データ中から単名詞および複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄ自体は公知技術であるため、これ以上の説明は省略する。

キーワード抽出部１４は、係り受け表現抽出フィルタ１４ａ、区切り文字抽出フィルタ１４ｂ、文字列頻度統計フィルタ１４ｃ、ＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄによってそれぞれ抽出された各キーワード候補を多数決フィルタ１４ｅに入力し、キーワードを絞り込む（Ｓ１８）。多数決フィルタ１４ｅは、各フィルタ１４ａ〜１４ｄによって抽出されたキーワード候補同士をマッチングし、二つ以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定する。なお、三つ以上のフィルタによって抽出されたことをキーワード認定の要件としてもよい。認定されたキーワードは、キーワード保持部１６に格納される。

このように、キーワード抽出部１４は、係り受け表現抽出フィルタ１４ａ、区切り文字抽出フィルタ１４ｂ、文字列頻度統計フィルタ１４ｃ、ＴｅｒｍＥｘｔｒａｃｔフィルタ１４ｄという、それぞれ異なる抽出基準を用いた４つのフィルタを用いて、文書データからキーワードを抽出する。こうすることで、文書データから重要なキーワードの抽出ミスが起こるのを防止することができる。さらに、各フィルタによる抽出キーワードをそのまま用いるのではなく、多数決フィルタ１４ｅによって絞り込みをかけることで、ノイズとなるキーワードの混入を防止することができる。

なお、キーワード抽出部１４で使用されるフィルタの数および種類は、上述したものに限定されるわけではなく、他の任意のキーワード候補抽出フィルタを用いることができる。

図７は、本実施形態に係る複数の検索語に対する連想検索結果を出力する処理のフローチャートである。

まず、共起キーワード抽出部６２は、検索語受付部４２から二つの検索語ａ、ｂを受け取る。そして、キーワード出現頻度表１３０を参照して、検索語ａ、ｂと同一または一定範囲内の類似性を有するキーワードを検索語として認定するとともに、両検索語を含む文書データ（以下、「共起文書群」という）を特定する（Ｓ３０）。

ここで、「一定範囲内の類似性を有する」とは、以下のような意味である。すなわち、キーワード関連度保持部２６の中に、所望の検索語と完全に同一のキーワードが含まれていないことも考えられる。したがって、ある程度近似する言葉であれば、それを代替的にキーワードとみなすのである。一例として、ユーザの入力した検索語が平仮名の「ひまん」であった場合、漢字の「肥満」や片仮名の「ヒマン」も対象とするなどが考えられる。

共起キーワード抽出部６２は、キーワード出現頻度表１３０を参照して、Ｓ３０で特定した共起文書群内に含まれる検索語ａ、ｂ以外のキーワード（共起キーワード）を特定する（Ｓ３２）。これら共起キーワードは、検索語ａ、ｂの両方と同一の文書データ内に共起しているキーワードである。関連度算出部６４は、共起文書群内での共起キーワードの出現頻度を取得し、共起キーワード毎に出現頻度を合計する（Ｓ３４）。図８は、Ｓ３４で求められた共起キーワードの共起文書群内の合計出現頻度の表Ｃを示す。列１５０に示すＫＷ−２、ＫＷ−５、ＫＷ−２３、ＫＷ−３５、．．．は、検索語ａ、ｂの両方と同一の文書データ内に共起した共起キーワード名の一覧を表している。また、列１５２は、列１５０に示した各共起キーワードについて、共起文書群内に出現した頻度の合計値を表している。

続いて、関連度算出部６４は、キーワード出現頻度表１３０を参照して、全文書データ内での共起キーワードの出現頻度を取得し、共起キーワード毎に出現頻度を合計する（Ｓ３６）。図９は、Ｓ３６で求められた共起キーワードの全文書内の合計出現頻度の表Ｄを示す。列１５４は共起キーワードを表し、列１５６は各共起キーワードの合計出現頻度を表す。

関連度算出部６４は、共起キーワード毎に両検索語ａ、ｂに対する関連度を算出する（Ｓ３８）。関連度は、各共起キーワードについて次式のように定義される。
（関連度）＝（共起文書群内合計出現頻度）^２／（全文書内合計出現頻度）

図１０は、Ｓ３８で求められる関連度の表Ｅを示す。列１５８は共起キーワードを表し、列１６０は関連度を示す。関連度の定義により、たとえ検索語ａ、ｂとの共起回数が比較的多いキーワードでも、それ以外の文書データでも多数回出現している共起キーワードは、関連度が比較的小さく算出される（例えば、ＫＷ−３５、ＫＷ−５０）。検索語ａ、ｂとの共起回数が比較的少ないキーワードでも、それ以外の文書データにおける出現回数が少なければ、関連度が比較的大きく算出される（例えば、ＫＷ−５、ＫＷ−４６）。

図９に戻り、検索結果ページ作成部６６は、共起キーワードのうち関連度の高い方から所定の数のキーワードを取り出し、これらを検索語ａ、ｂに対する連想語と認定する（Ｓ４０）。そして、検索結果ページ作成部６６は、連想語をタグクラウド形式で表示する検索結果ページを作成し（Ｓ４２）、表示出力部５２が検索結果ページをユーザ端末に配信する。

図１１は、検索語として「自動車」と「環境技術」が指定されたときの検索結果ページを示す。各連想語は「タグ」１６２として表示される。これにより、「自動車」と「環境技術」という二つの検索語に対する連想結果を知ることができる。

各タグ１６２は長方形状であり、連想語の文字列と、これを取り囲む余白部分とを備えている。タグ１６２の面積は、連想語のフォントサイズと文字数に応じて自動的に決定される。検索語との関連度が大きいほど大きなフォントサイズが割り当てられる。以下に、フォントサイズの設定方法の一例を示す。
ページ上で表示される最大フォントサイズ＝Ａポイント
ページ上で表示される最小フォントサイズ＝Ｂポイント
フォントサイズ変換比Ｒ＝（Ａ−Ｂ）／（関連度の最大値−関連度の最小値）
このとき、連想語ＸのフォントサイズＦは、Ｆ＝（連想語Ｘの関連度−関連度の最小値）＊Ｒで設定される。

なお、検索結果ページでは、タグクラウドを文字コード順にソートして表示してもよいし、５０音順にソートしてもよいし、関連度の大きい順にソートしてもよい。

以上説明したように、本実施形態の複数語連想検索によれば、複数の検索語を指定し、それら両方と関連の深い連想語を得ることができる。連想語は、複数の検索語と同一文書データ内に共起する共起キーワードの出現頻度に基づき算出される関連度に応じた大きさのタグで表示されるので、複数の検索語に対する連想語の結びつきの強さを容易に把握することができる。

このような複数語連想検索の活用例としては、以下のようなものが考えられる。
（１）図１１で示したように「自動車」と「環境技術」のような複数の検索語を指定して複数語連想検索を実施することで、これらとともに良く使用される用語を調べることができる。
（２）同業種である複数の企業名を検索語として複数語連想検索を実施する。これによって、業種内で共通する連想語を見ることができるため、投資に際して考慮すべき業種の特徴を発見することが容易になる。
（３）一見関係の薄そうな言葉について複数語連想検索をすることで、それらの言葉を繋ぐ意外な関係を発見することができる。

以上、本発明をいくつかの実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。

本発明の一本実施形態に係る連想検索システムの全体構成図である。検索サービス装置の構成を示す図である。ユーザが検索語を入力するための画面を示す図である。連想検索エンジンの詳細な構成を示す図である。キーワード出現頻度表の具体例を示す図である。文書データからキーワードを抽出する処理を説明するフローチャートである。複数検索語に対する関連度を算出する処理を説明するフローチャートである。共起文書群における共起キーワードの合計出現頻度を集計した表を示す図である。全文書データにおける共起キーワードの合計出現頻度を集計した表を示す図である。複数検索語に対する関連度の表を示す図である。複数検索語に対する連想検索結果を表すタグクラウド表示の一例を示す図である。

符号の説明

１連想検索システム、１２文書データベース、１４キーワード抽出部、１６キーワード保持部、１８出現頻度集計部、２０出現頻度表保持部、４２検索語受付部、５０連想検索エンジン、５２表示出力部、６０複数検索語処理部、６２共起キーワード抽出部、６４関連度算出部、６６検索結果ページ作成部。

Claims

複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、
ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する共起キーワード抽出部と、
前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する関連度算出部と、
関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成するページ作成部と、
を備えることを特徴とする検索サービス装置。
前記関連度算出部は、各共起キーワードについて、文書データ群内の出現頻度の二乗を全文書データ内の出現頻度で除することで前記関連度を算出することを特徴とする請求項１に記載の検索サービス装置。
前記ページ作成部は、各連想語を文字列として含む複数のタグを配置したタグクラウド形式で前記ページを作成することを特徴とする請求項１または２に記載の検索サービス装置。
前記ページ作成部は、前記連想語の関連度の大きさに応じて、前記タグまたは前記文字列のサイズまたは装飾を変えることを特徴とする請求項３に記載の検索サービス装置。
複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データをメモリに保持しておく機能と、
ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する機能と、
前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する機能と、
関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成する機能と、
をコンピュータに発揮させることを特徴とするプログラム。