JP4128212B1

JP4128212B1 - キーワード間の関連度算出システム及び関連度算出方法

Info

Publication number: JP4128212B1
Application number: JP2007269839A
Authority: JP
Inventors: 修大島
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2007-10-17
Filing date: 2007-10-17
Publication date: 2008-07-30
Anticipated expiration: 2027-10-17
Also published as: JP2009098931A

Abstract

【課題】キーワード間の共起性に基づき、あらゆる種類のキーワード間の関連度を効率的に算出可能なシステムの実現。
【解決手段】複数の文書ファイルからキーワードを抽出するキーワード抽出部14と、各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度をあらゆるキーワードの組合せについて算出し、キーワード関連度表ＤＢ26に格納する関連度算出部18を備えたキーワード間の関連度算出システム10。関連度算出部18は、文書ファイル単位で出現実績のあるキーワードの出現頻度を算出し、各キーワードの出現頻度の二乗値を算出し、この二乗値を全文書ファイルに亘って集計し、文書ファイル単位で一対のキーワード間の出現頻度の積値を算出し、この積値を全文書ファイルに亘って集計し、各キーワードの二乗値の総和の平方根を算出し、両平方根を加算し、その和で当該キーワード間の積値の総和を除することにより、関連度を算出する。
【選択図】図１

Description

この発明はキーワード間の関連度算出システム及び関連度算出方法に係り、特に、入力された検索語と関連の深い用語を連鎖的に抽出したり、抽出された用語と関連の深い企業や商品、人物等を提示する連想検索の実現に不可欠な、キーワード間の関連度算出技術に関する。

膨大な情報の中から必要とする情報を抽出するために検索システムが用いられるが、一般的な検索システムの場合、入力された検索語と同一または類似の概念を含む情報を抽出する仕組みを備えている。例えば、多数の企業の情報を格納したデータベースに対して「富士」という検索語を与えると、検索システムは「富士」という文字列を名称中に含む企業のリストを正確に出力することができる。また、インターネットの検索サイトにおいて「環境問題」と入力すれば、「環境問題」という文字列を含んだWebページのリストがディスプレイに表示される。
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。

この点に関し、特許文献１で開示された「連想検索システム」の場合には、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い（同一文書中に登場する確率が高い）企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対する共起性の高い企業名を抽出する仕組みを備えている。
特開２００４−１１０３８６号

この結果ユーザは、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名をダイレクトにリストアップすることが可能となり、環境問題に積極的に取り組む企業を認識し、投資行動につなげることができるようになる。

しかしながら、この連想検索システムの場合、連想検索の対象が企業名（関連企業名を含む）に限定されるため、投資対象企業の検索以外に実用的な用途がない点で問題があった。

すなわち、この従来の連想検索システムにあっては、有価証券報告書や新聞記事等のテキスト情報からキーワードを抽出した後、企業情報記憶部を参照して各キーワードが企業名に該当するか否かを判定し、企業名の場合には同一テキスト情報中に現れた他のキーワードと当該企業名を、関連性があるものとして共起企業名記憶手段に格納する仕組みを備えている。

このため、インターネットという検索語を入力すると、「インターネット」と共起性の強い企業名をピックアップすることはできるとしても、「インターネット」と共起性の強い人物や地域、技術等をピックアップすることはできない。
特許文献１には、「インターネット」の入力に対して「ブロードバンド」や「ネットワーク」、「電子メール」の検索結果が得られる例が示されているが、これらはあくまでも「インターネット」のシソーラスとして関連用語記憶手段に予め準備されていたものであり、「インターネット」との共起性に基づいて抽出されるものではない。

この発明は上記の問題を解決するために案出されたものであり、企業名を含めたあらゆるキーワード間の共起性に基づき、一対のキーワード間の関連度を効率的に算出可能なシステムを実現することを目的としている。

上記の目的を達成するため、請求項１に記載したキーワード間の関連度算出システムは、複数の文書ファイルが格納された文書記憶手段と、上記の各文書ファイルから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度を全てのキーワードの組合せについて算出し、キーワード関連度記憶手段に格納する関連度算出手段とを備えており、上記関連度算出手段が、(1)文書ファイル単位で、当該文書ファイル中に出現実績のあるキーワードを探知し、これらの出現頻度を算出する処理と、(2)各キーワードの出現頻度の二乗値を算出する処理と、(3)各キーワードの出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する処理と、(4)文書ファイル単位で、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する処理と、(5)各キーワード間の出現頻度の積値を集計し、全文書ファイルに亘る総和を算出する処理と、(6)上記(3)の総和の平方根を算出する処理と、(7)一対のキーワードの上記(6)の平方根同士を加算し、その和で上記(5)の総和を除することにより、両キーワード間の関連度を算出する処理とを実行することを特徴としている。
なお、上記(1)〜(7)の処理は、相互に論理的な矛盾が生じない限り、順番を適宜入れ替えてもよい。

請求項２に記載したキーワード間の関連度算出システムは、管理サーバと、複数の第１の分散処理サーバと、第２の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第１の分散処理サーバに分配する手段と、各第１の分散処理サーバから送信されたキーワードを、キーワード記憶手段に格納する手段と、キーワード記憶手段に格納された全キーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、各第１の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第２の分散処理サーバに送信する手段と、各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、その種類に応じて担当すべき第１の分散処理サーバに振り分け配信する手段と、第２の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、各第１の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段と、管理サーバから全キーワードが送信された場合に、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段と、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記第２の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備えたことを特徴としている。
この請求項２のシステムは、キーワード抽出処理、キーワードの出現頻度二乗値ファイル生成処理、キーワード間の出現頻度積値ファイル生成処理及び出現頻度積値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。

請求項３に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第２の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、各第３の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第４の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とをそれぞれ備え、上記の各第２の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とをそれぞれ備え、上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とをそれぞれ備え、上記の各第４の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とをそれぞれ備えたことを特徴としている。
この請求項３のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理、キーワードの出現頻度二乗値ファイル生成処理、出現頻度二乗値の全文書に亘る総和算出処理のそれぞれが、複数の分散処理サーバによって分散処理される点に特徴を備えている。
なお、上記第１〜第４の分散処理サーバは、それぞれの機能に着目した論理的な区分けであり、各分散処理サーバが物理的に独立している場合はもちろん、相互に重複している場合もあり得る。物理的に重複している場合、サーバ間におけるファイルの送受信は必要な限度で実行されれば足りる。例えば、第１の分散処理サーバと第３の分散処理サーバが共通のサーバマシンによって構成される場合、管理サーバは第１のサーバに対して担当文書ファイルを配信すれば足り、第３の分散処理サーバに対して同一の文書ファイルを重複配信することを省略することができる（請求項４〜６の発明についても同様）。

請求項４に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、各第１の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第２の分散処理サーバに送信する手段と、第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、各第３の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第４の分散処理サーバに送信する手段と、第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第２の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記第４の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備えたことを特徴としている。
この請求項４のシステムは、キーワード間の出現頻度積値ファイル生成処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理及び出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。

請求項５に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第２の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、各第３の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第４の分散処理サーバに送信する手段と、第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、上記の各第２の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記第４の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備えたことを特徴としている。
この請求項５のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。

請求項６に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、各第１の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第２の分散処理サーバに送信する手段と、第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、各第３の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第４の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、上記第２の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記の各第４の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備えたことを特徴としている。
この請求項６のシステムは、キーワード間の出現頻度積値ファイル生成処理、キーワードの出現頻度二乗値ファイル生成処理及び出現頻度二乗値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。

請求項７に記載したキーワード間の関連度算出システムは、請求項３〜６のシステムであって、さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備えたことを特徴としている。

請求項８に記載したキーワード間の関連度算出方法は、管理サーバと、複数の第１の分散処理サーバと、第２の分散処理サーバとの連携に基づくキーワード間の関連度算出方法であって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第１の分散処理サーバに分配するステップと、各第１の分散処理サーバが、管理サーバによって送信された担当文書ファイルからキーワードを抽出し、管理サーバに送信するステップと、管理サーバが、各第１の分散処理サーバから送信されたキーワードをキーワード記憶手段に格納した後、全キーワードを第１の分散処理サーバに対してそれぞれ送信するステップと、これを受けた第１の分散処理サーバが、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知するステップと、出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述するステップと、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成するステップと、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出するステップと、１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定するステップと、各組合せに係るキーワード間の出現頻度の積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述するステップと、上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信するステップと、管理サーバが、各第１の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第２の分散処理サーバに送信するステップと、各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、組合せ頻度積値ファイルの種類毎にそれぞれ担当が決められた第１の分散処理サーバに振り分け配信するステップと、管理サーバから複数の出現頻度二乗値ファイルを送信された第２の分散処理サーバが、各出現頻度二乗値ファイルを連結するステップと、この連結ファイルに記述された各キーワードを、それぞれの文字コードに応じてソートするステップと、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出するステップと、この総和を管理サーバに送信するステップと、管理サーバが、この第２の分散処理サーバから送信された出現頻度の二乗値の総和を、キーワード頻度総和表記憶手段に格納するステップと、管理サーバから複数の組合せ頻度積値ファイルを送信された第１の分散処理サーバが、各組合せ頻度積値ファイルを連結するステップと、この連結ファイルに記述された各キーワードの組合せを、各キーワードの文字コードに応じてソートするステップと、同一キーワードの組合せ単位で出現頻度の積値を集計し、全文書ファイルに亘る総和を算出するステップと、この総和を管理サーバに送信するステップと、管理サーバが、各第１の分散処理サーバから送信された積値の総和を、キーワード組合せ頻度総和表記憶手段に格納するステップと、上記キーワード記憶手段から一対のキーワードを取り出すステップと、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出すステップと、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出すステップと、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出するステップとを備えたことを特徴としている。
なお、上記の各ステップは、相互に論理的な矛盾が生じない限り、順番を適宜入れ替えてもよい。

請求項１に記載したキーワード間の関連度算出システムによれば、まず文書ファイル単位で、出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを排斥し、出現実績のあるキーワードに絞った上で、関連度算出の基礎となる出現頻度の二乗値や組合せ頻度の積値を算出した後、全文書ファイル単位に集計する手法を採用しているため、全文書ファイル中に登場する多数のキーワード間の関連度を極めて効率的に算出することができる。この結果、特許文献１の検索システムのように、関連度の算出に先立ってキーワードの組合せの一方を企業名に限定することなく、あらゆる種類のキーワード相互間における関連度を算出することが可能となる。

また、新規の文書ファイルが文書記憶手段に追加された場合でも、当該新規文書ファイル単位で(1)、(2)、(4)の処理を行い、この算出結果を(3)及び(5)の既存の集計値（総和）に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書ファイル追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書ファイルの影響を排除する必要がある場合にも、当該旧文書ファイルに係る(2)及び(4)の値を(3)及び(5)の集計値（総和）から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。

請求項２〜７に記載したキーワード間の関連度算出システム及び請求項８に記載したキーワード間の関連度算出方法によれば、複数の分散処理サーバにより、キーワードの抽出処理や、各キーワードの出現頻度の二乗値ファイルの生成処理、出現頻度二乗値の全文書に亘る総和算出処理、キーワード間の出現頻度の積値ファイルの生成処理、出現頻度積値の全文書に亘る総和算出処理の少なくとも一部が分散化される結果、キーワード間の関連度算出に係る全体の計算処理を大幅に高速化することが可能となる。

図１は、この発明に係る第１のキーワード間の関連度算出システム10及びこれを備えた第１の検索システム11の機能構成を示すブロック図であり、文書ＤＢ12と、キーワード抽出部14と、キーワードＤＢ16と、関連度算出部18と、キーワード共起頻度表ＤＢ20と、キーワード組合せ頻度総和表ＤＢ22と、キーワード頻度総和表ＤＢ24と、キーワード関連度表ＤＢ26と、固有名詞ＤＢ28と、検索処理部30とを備えている。

上記のキーワード抽出部14、関連度算出部18及び検索処理部30は、コンピュータのCPUが、ＯＳ及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。

上記の文書ＤＢ12、キーワードＤＢ16、キーワード共起頻度表ＤＢ20、キーワード組合せ頻度総和表ＤＢ22、キーワード頻度総和表ＤＢ24、キーワード関連度表ＤＢ26及び固有名詞ＤＢ28は、同コンピュータのハードディスクに格納されている。
文書ＤＢ12には、新聞記事や学術雑誌、論文等の文書ファイル（テキストデータ）が予め多数蓄積されている。また、固有名詞ＤＢ28には、企業名、商品名、サービス名、人物名等の固有名詞がカテゴリ別に多数登録されている。

上記のキーワード抽出部14は、図２に示すように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を備えている。

つぎに、図３のフローチャートに従い、キーワード抽出部14によるキーワード抽出工程について説明する。
まずキーワード抽出部14は、文書ＤＢ12内に蓄積された各文書ファイルに係り受け表現抽出フィルタ32を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する（Ｓ10）。
すなわち、係り受け表現抽出フィルタ32には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部14は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。

つぎにキーワード抽出部14は、各文書ファイルに区切り文字抽出フィルタ34を適用し、「○○」、"○○"、（○○）、［○○］、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する（Ｓ12）。

つぎにキーワード抽出部14は、各文書ファイルに文字列頻度統計フィルタ36を適用し、各文書ファイルに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する（Ｓ14）。
まず文字列頻度統計フィルタ36は、図４に示すように、文書中の名詞（ここでは「ＤＶＤ」）に注目し、このＤＶＤという注目語が文書ＤＢ12内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ36は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下（例えば20以下）となった時点で文字範囲拡張を停止する。

例えば、ＤＶＤの一つ前の形態素を含む「したＤＶＤ」の出現頻度は「２」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、ＤＶＤの一つ後の形態素を含む「ＤＶＤレコーダー」の出現頻度は「８６２」と多いため、その一つ後の形態素を含む「ＤＶＤレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「５」と低いため、これ以降の形態素に範囲を拡張することが停止される。

つぎに文字列頻度統計フィルタ36は、「ＤＶＤ」及び「ＤＶＤレコーダー」が所定範囲（例えば20〜5,000）内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したＤＶＤ」及び「ＤＶＤレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。

ところで、文書ＤＢ12内に蓄積された多量の文書ファイルに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図５に示すように、文書ＤＢ12内には予め全文書ファイルに登場する各形態素が、個々の文書ファイル中に存在しているか否かを一覧表にまとめたインデックス（所謂転置インデックス）が生成されている。このため、キーワード抽出部14はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。

つぎにキーワード抽出部14は、文書ＤＢ12内に蓄積された文書ファイルにTermExtractフィルタ38を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する（Ｓ16）。
このTermExtractは、専門分野のコーパス（主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ）から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。

つぎにキーワード抽出部14は、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38によって抽出された各キーワード候補を多数決フィルタ40に入力し、キーワードを絞り込む。
多数決フィルタ40は、各フィルタによってリストアップされたキーワード候補同士をマッチングし、２以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードＤＢ16に格納する（Ｓ18）。

このように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38の４つのフィルタを用いることにより、文書ファイルからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ40を用いて絞り込むことにより、不要なキーワード（ノイズ）が混入することを防止できる。

上記のように４つのフィルタ中の２以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、３以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部14に設けることもできる。

つぎに、図６のフローチャートに従い、関連度算出部18による各キーワード間の関連度算出工程について説明する。
まず関連度算出部18は、各キーワードの各文書ファイル中における共起頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表ＤＢ20に格納する（Ｓ20）。
図７は、キーワード共起頻度表ＤＢ20に格納されたキーワード共起頻度表の具体例を示すものであり、文書ＤＢ12に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。

ここで、あるキーワードＸとＹとの間の関連度は、数１のiにキーワード共起頻度表ＤＢ20に記載されたＸとＹの出現頻度を代入することにより、理論的には算出可能である。

この数１の分子は、キーワードＸ、Ｙの文書毎の出現頻度の積の全文書に亘る総和を意味するため、Ｘ、Ｙが同じ文書に出現する頻度が高いほど値は大きくなる。もっとも、特定の文書中におけるＸ及びＹの出現頻度の絶対数が多ければそれにつられて分子の値は高くなってしまい、必ずしもＸとＹの共起性の高さを表しているとはいえない。これに対し分母は、キーワードＸ、Ｙの文書毎の出現頻度の二乗の全文書に亘る総和の平方根同士を加算したものであり、Ｘ、Ｙの特定文書中の出現頻度が高いほど値が大きくなる。このため、分子の値を分母の値で除算することにより、特定文書中におけるＸ、Ｙの出現頻度の絶対数が多いことの影響を排除し、Ｘ、Ｙ間の共起性の高さに基づく関連度を導くことが可能となる。

ただし、単純に数１の計算を行うやり方では、文書ファイルの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。

図８は、その要領を例示するものである。この場合、キーワード共起頻度表にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は０であるため、実際に関連度を算出すべきキーワードの組合せは以下の３パターンで済むこととなる。
（KW-1, KW-2）、（KW-1, KW-5）、（KW-2, KW-5）
つぎに関連度算出部18は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表ＤＢ22及びキーワード頻度総和表ＤＢ24に格納する（Ｓ22、Ｓ24）。

図８のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、同様の処理を各文書毎に実行し、その結果に基づいて値を加算していくことにより、各キーワードの値が数１の分子に相当する結果となる。
同じく、図８のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を集計していき、各キーワードの最終的な値（総和）の平方根を求めることにより、数１の分母に相当する値が得られることになる。

最後に関連度算出部18は、図９に示すように、キーワード組合せ頻度総和表ＤＢ22からキーワードＸ，Ｙの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表ＤＢ24からキーワードＸの二乗値の総和とキーワードＹの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数１に代入することにより、キーワードＸ，Ｙ間の関連度を算出し、キーワード関連度表ＤＢ26に格納する（Ｓ26）。すべてのキーワードの組合せについて処理が終了するまで、関連度算出部18は処理を繰り返す。

上記のように、文書ファイル毎に各キーワード間の組合せパターンを抽出し、それぞれの積値及び各キーワードの二乗値を求めた上で、各文書ファイルの値を加算していくことにより、出現頻度が０のキーワードに係る計算処理を省くことが可能となる。
このため、特許文献１の検索システムのように企業名に限定することなく、全キーワード間における関連度を算出することが現実的となる。

また、文書ＤＢ12に新規の文書ファイルが追加された場合には、この新規文書ファイル中の各キーワードに係る値を、キーワード組合せ頻度総和表ＤＢ22及びキーワード頻度総和表ＤＢ24に格納された既存の集計値に加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表ＤＢ22及びキーワード頻度総和表ＤＢ24に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。

つぎに、図１０のフローチャートに従い、このシステム10における検索処理手順について説明する。
まずユーザが端末装置αから検索語を入力すると、これを受け付けた検索処理部30は（Ｓ40）、図１１に示すように、キーワード関連度表ＤＢ26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する（Ｓ42）。
つぎに検索処理部30は、固有名詞ＤＢ28の中の例えば企業名ＤＢを参照し、上記リスト中に含まれる企業名を抽出する（Ｓ44）。
この抽出された企業名のリストは、検索語に関連の深い企業リストとして端末装置αに送信される（Ｓ46）。

この結果ユーザは、入力した検索語（例えば時事用語）と関連の深い企業を認識することが可能となり、投資行動の判断材料に利用することができる。
また、固有名詞ＤＢ28として人物名ＤＢを指定すれば、入力した検索語と関連の深い人物をピックアップできる。

もっとも、企業名ＤＢや人物名ＤＢとのマッチングを行うことなく、検索語と関連の深いキーワードのリストを、そのまま端末装置αに返すようにしてもよい。
この後、ユーザがキーワードリスト中の特定のキーワードを検索語として指定すると、そのキーワードと所定以上の関連性を備えたキーワードのリストが検索処理部30によってさらに抽出され、端末装置αに送信される。
この結果、ユーザは関連語から関連語へと、連鎖的に検索範囲を広げていくことが可能となり、予想外のキーワードに辿り着くことが期待できる。

ユーザが検索結果リスト中の特定のキーワードを指定し、その根拠となる文書の提示をリクエストすると、これを受け付けた検索処理部は（Ｓ48）、図１２に示すように、検索語及び当該キーワードに基づいてキーワード共起頻度表ＤＢ20を検索し、両者間で共起の生じている文書番号のリストを生成する（Ｓ50）。
つぎに検索処理部30は、この文書番号リストに基づいて文書ＤＢ12を検索し、文書本文のリストを生成した後、端末装置αに送信する（Ｓ52、Ｓ54）。
この結果、端末装置αのディスプレイには、検索語と当該キーワードとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。

また、この中の一つをユーザが選択すると、検索処理部30は該当の文書ファイルを文書ＤＢ12から抽出し、端末装置αに送信する。
この結果ユーザは、当該文書ファイルの内容を閲覧し、検索語とキーワードとの関連性を個別に確認することが可能となる。

図１３は、この発明に係る第２のキーワード間の関連度算出システム50を備えた第２の検索システム52を示す概念図である。第２のキーワード間の関連度算出システム50は、管理サーバ54と、３台の第１の分散処理サーバ56a〜56cと、第２の分散処理サーバ57を備えており、管理サーバ54と第１の分散処理サーバ56a〜56c及び第２の分散処理サーバ57との協働によって、キーワード関連度表の作成を効率化・高速化することを企図している。

管理サーバ54は、文書ＤＢ12と、キーワードＤＢ16と、キーワード組合せ頻度総和表ＤＢ22と、キーワード頻度総和表ＤＢ24と、キーワード関連度表ＤＢ26と、固有名詞ＤＢ28とを備えている。
管理サーバ54にはネットワークを介してWebサーバ58が接続されており、このWebサーバ58にはインターネット60を介して複数の端末装置αが接続されている。

以下、図１４及び図１５のフローチャートに従い、この第２の関連度算出システム50におけるキーワード関連度表の生成手順について説明する。
まず管理サーバ54は、図１６に示すように、文書ＤＢ12内に蓄積された多数の文書ファイル62を、第１の分散処理サーバ56a〜56cに対して分割配信する（図１４のＳ60）。この際、管理サーバ54は、第１の分散処理サーバ56a〜56cにおける処理の負荷がほぼ均等となるように、それぞれに配信する文書ファイル62a〜62cのデータ量を調整する。

つぎに、第１の分散処理サーバ56a〜56cにおいては、キーワード抽出処理部64a〜64cによって、分配された担当文書ファイル62a〜62cに対するキーワード抽出処理が実行される（Ｓ61）。
このキーワード抽出処理に際しては、上記と同様、各キーワード抽出処理部64a〜64c内に設けられた係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を用いることにより、ノイズを排した適切な範囲のキーワードが抽出される。

なお、文字列頻度統計フィルタ36の適用に関しては、他の分散処理サーバが担当している文書中における注目語の出現頻度を参照する必要があるため、第１の分散処理サーバ56a〜56cは、管理サーバ54にこれを照会する。
これを受けた管理サーバ54は、文書ＤＢ12内に設けられた形態素インデックス（転置インデックス）を参照することにより、全文書中における当該注目語の出現頻度を取得し、その結果を照会元の第１の分散処理サーバ56に返す。

自己に割り当てられた担当文書ファイル62a〜62cに対するキーワードの抽出処理を完了した第１の分散処理サーバ56a〜56cは、抽出したキーワードを管理サーバ54に送信する（Ｓ62）。
管理サーバ54は、第１の分散処理サーバ56a〜56cから受信したキーワードをキーワードＤＢ16に登録する（Ｓ63）。この際、第１の分散処理サーバ56a〜56cから同一のキーワードが重複して送信された場合、その中の一つがキーワードＤＢ16に登録される。

つぎに管理サーバ54は、図１７に示すように、第１の分散処理サーバ56a〜56cに対してキーワードＤＢ16に登録された全キーワードのデータ66を送信する（Ｓ64）。

図１７においては、図示の便宜上、第１の分散処理サーバ56bに対してキーワードデータ66が送信された様子が描かれているが、他の第１の分散処理サーバ56a及び56cにも同じキーワードデータ66が送信される。
同様に、以下においては第１の分散処理サーバ56bを中心に各種処理について説明するが、他の第１の分散処理サーバ56a及び56cにおいても同様の処理が実行される。

管理サーバ54からキーワードデータ66を受信した第１の分散処理サーバ56bのファイル生成部68bは、まず自己に割り当てられた各文書ファイル62bについて、個々のキーワードの出現実績の有無を探知し、出現実績のあるキーワードについてはその出現頻度を文書ファイル単位で算出する（Ｓ65）。

つぎにファイル生成部68bは、各キーワードの出現頻度を二乗した値を算出し、出現頻度二乗値ファイル70bに記述していく（Ｓ66）。
例えば、ある文書ファイル中に「さくら」が３回、「春」が５回、「鶯」が６回出現した場合、ファイル生成部68bは「さくら，９」、「春，２５」、「鶯，３６」というように、キーワードと出現頻度の二乗値との組合せからなる出現頻度二乗値データを、出現頻度二乗値ファイル70bに一行単位で記述していく。

つぎにファイル生成部68bは、当該文書ファイルに出現実績のある全キーワードについて、２つのキーワードからなる組合せを生成する（Ｓ67）。この際、ファイル生成部68bは一対のキーワードの中、先頭文字の文字コードが若い方のキーワードを１番目（左側）に配置させる。

例えば、ある文書ファイル中に「さくら」「春」「鶯」の３つのキーワードが存在したと仮定した場合、ファイル生成部68bはそれぞれの先頭文字のシフトJISコードを勘案し、「さくら，春」「さくら，鶯」「春，鶯」の組合せを生成する。因みに、「さくら」の「さ」の文字コードは「82B3」、「春」の文字コードは「8F74」、「鶯」の文字コードは「E9F2」である。

つぎにファイル生成部68bは、各組合せのキーワード間で出現頻度を乗算し、キーワードの組合せとその積値とをセットにした組合せ頻度積値データを生成する（Ｓ68）。

つぎにファイル生成部68bは、この組合せ頻度積値データを、１番目のキーワードの先頭文字の文字コードに対応した組合せ頻度積値ファイルに記述していく（Ｓ69）。
すなわち、この組合せ頻度積値ファイルとして、予め第１の分散処理サーバ56a〜56cの数に対応する３種類のファイル（第１の組合せ頻度積値ファイル72b、第２の組合せ頻度積値ファイル74b、第３の組合せ頻度積値ファイル76b）が、ファイル生成部68bによってディスク上に生成されている。

また、各組合せ頻度積値ファイル72b、74b、76bには、文字コードの範囲が予め割り振られている。例えば、図１８(a)に示すシフトJISのコード体系を前提とした場合、同図(b)に示すように、第１の組合せ頻度積値ファイル72bには１バイト目が20〜DFの文字コード範囲が割り当てられている。また、第２の組合せ頻度積値ファイル74bには１バイト目が81〜8Eの文字コード範囲が、第３の組合せ頻度積値ファイル76bには１バイト目が8F〜9F及びE0〜EFの文字コード範囲がそれぞれ割り振られている。

したがって、「さくら，春，１５」及び「さくら，鶯，１８」の組合せ頻度積値データは、「さ」の文字コードが「82B3」であることから、第２の組合せ頻度積値ファイル74bに記述される。
これに対し、「春，鶯，３０」の組合せ頻度データは、「春」の文字コードが「8F74」であることから、第３の組合せ頻度積値ファイル76bに記述される。
また、「PCT，特許，２０」という組合せ頻度積値データが生成された場合、半角アルファベットを担当する第１の組合せ頻度積値ファイル72bに記述されることとなる。

ファイル生成部68bは、上記のＳ65〜Ｓ69の処理を自己に割り当てられた全担当文書ファイル62bに対して実行する（Ｓ70）。
この過程で、同じキーワードに係る出現頻度二乗値データや、同じキーワードの組合せに係る組合せ頻度積値データが、異なる文書ファイル間で多数発生することが予想されるが、ファイル生成部68bはこの時点で各データの値を集計することはせず、各データを生成順に出現頻度二乗値ファイル及び対応の組合せ頻度積値ファイルに追記していく。

上記の処理は、第１の分散処理サーバ56a〜56cにおいて独立して実行されており、それぞれが担当する文書ファイル62a〜62cについての処理が完了すると、第１の分散処理サーバ56a〜56cから管理サーバ54に対し、キーワード出現頻度二乗値ファイル70a〜70c、第１のキーワード組合せ頻度積値ファイル72a〜72c、第２のキーワード組合せ頻度積値ファイル74a〜74c、第３のキーワード組合せ頻度積値ファイル76a〜76cが送信される（図１５のＳ71）。

これに対し管理サーバ54は、第１の分散処理サーバ56a〜56cから送信された第１のキーワード組合せ頻度積値ファイル72a〜72c、第２のキーワード組合せ頻度積値ファイル74a〜74c、第３のキーワード組合せ頻度積値ファイル76a〜76cを、それぞれの担当に応じて第１の分散処理サーバ56a〜56cに振り分け配信する（Ｓ72）。

例えば、図１９に示すように、第１の分散処理サーバ56bには第２の組合せ頻度積値ファイルが予め割り当てられているため、第１の分散処理サーバ56a〜56cによって生成された第２の組合せ頻度積値ファイル74a〜74cが管理サーバ54から配信される。

同様に、第１の組合せ頻度積値ファイルが割り当てられた第１の分散処理サーバ56aには、第１の分散処理サーバ56a〜56cによって生成された第１のキーワード組合せ頻度積値ファイル72a〜72cが、また第３の組合せ頻度積値ファイルが割り当てられた分散処理サーバ56cには、第１の分散処理サーバ56a〜56cによって生成された第３の組合せ頻度積値ファイル76a〜76cが配信される。
以下、第１の分散処理サーバ56bにおける処理を中心に説明するが、他の分散処理サーバ56a、56cにおいても同様の処理が実行される。

まず第１の分散処理サーバ56bにおいては、ファイル結合部78bによって、３つの組合せ頻度積値ファイル74a〜74cが結合される（Ｓ73）。
つぎにソート処理部80bが起動し、結合ファイル82bに記述されたキーワードの組合せ（Ｘ、Ｙ）について、それぞれの文字コード順に整列させる（Ｓ74）。この結果、「さくら，春，２０」…「さくら，春，３２」…「さくら，春，２８」のように、同じキーワードの組合せを備えた組合せ頻度積値データが複数並ぶソート済みファイル86bが生成される。
つぎに加算処理部84bが起動し、ソート済みファイル86bに対し所謂コントロールブレイク処理を施し、同じキーワードの組合せ単位で積値を集計する（Ｓ75）。

以上の結果、個々の文書ファイル中におけるキーワードＸ，Ｙの出現頻度の積値の、全文書ファイルに亘る総和（数１の分子に相当）が求まる。
この算出結果ファイル88bは、第１の分散処理サーバ56bから管理サーバ54に送信される（Ｓ76）。
これに対し管理サーバ54は、算出結果ファイル88bのデータを抽出し、キーワード組合せ頻度総和表ＤＢ22に登録する（Ｓ77）。すなわち、同じキーワードＸ，Ｙの組合せの値が既にキーワード組合せ頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードＸ，Ｙとその値を新規に追加する。

上記と並行して、第２の分散処理サーバ57においても、所定の処理が実行される。すなわち、図２０に示すように、管理サーバ54から第２の分散処理サーバ57に対して、第１の分散処理サーバ56a〜56cから送信された出現頻度二乗値ファイル70a〜70cが送信される（Ｓ78）。

これを受信した第２の分散処理サーバ57においては、ファイル結合部90によって、３つの出現頻度二乗値ファイル70a〜70cが結合される（Ｓ79）。
つぎにソート処理部91が起動し、結合ファイル92に記述された各キーワード及び二乗値を、文字コード順に整列させる（Ｓ80）。この結果、「さくら，１６」…「さくら，９」…「さくら，４」のように、同じキーワードが複数並ぶソート済みファイル93が生成される。
つぎに加算処理部94が起動し、同じキーワード単位で二乗値を集計する（Ｓ81）。

以上の結果、個々の文書中におけるキーワードの頻度頻度の二乗値の、全文書に亘る総和が求まる。
この算出結果ファイル95は、第２の分散処理サーバ57から管理サーバ54に送信される（Ｓ82）。
これに対し管理サーバ54は、算出結果ファイル95中の結果データを抽出し、キーワード頻度総和表ＤＢ24に登録する（Ｓ83 ）。すなわち、同じキーワードの値が既にキーワード頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードとその値を新規に追加する。

最後に管理サーバ54は、図９に示したように、キーワード組合せ頻度総和表ＤＢ22からキーワードＸ，Ｙの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表ＤＢ24からキーワードＸの二乗値の総和とキーワードＹの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数１に代入することにより、キーワードＸ，Ｙ間の関連度を算出し、キーワード関連度表ＤＢ26に登録する（Ｓ84）。すべてのキーワードの組合せについて処理が終了するまで、管理サーバ54は処理を繰り返す。

この第２のキーワード間の関連度算出システム50の場合、上記のようにキーワードの抽出処理、関連度算出の前提となるキーワード組合せ頻度総和算出処理及びキーワード頻度総和算出処理が、第１の分散処理サーバ56a〜56c及び第２の分散処理サーバ57によって同時並行的に実行されるため、キーワード関連度表の生成速度を飛躍的に向上させることができる。

しかも、第１の分散処理サーバ56a〜56cにおいてはファイル形式で算出結果のデータが保存されていき、データ保存のたびにデータベースへの書き込みが発生することがないため、全体的な処理速度を速めることができる。

以下、図２１のフローチャートに従い、第２の検索システム52における検索処理手順について説明する。
まずユーザが端末装置αから検索語を入力すると、Webサーバ58経由でこれを受け付けた管理サーバ54は（Ｓ90）、図１１に示したように、キーワード関連度表ＤＢ26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する（Ｓ91）。

つぎに管理サーバ54は、固有名詞ＤＢ28の中の例えば企業名ＤＢを参照し、上記リスト中に含まれる企業名を抽出する（Ｓ92）。
この抽出された企業名のリスト（検索語に関連の深い企業リスト）は、Webサーバ58経由で端末装置αに送信される（Ｓ93）。

なお、各分散処理サーバに対する機能の割り振りは、上記した第２の関連度算出システム50の方式に限定されるものではない。
例えば、上記にあっては第１の分散処理サーバ56がキーワードの抽出処理、キーワードの出現頻度二乗値ファイルの生成処理、キーワード間の組合せ頻度積値ファイルの生成処理、組合せ頻度積値の全文書ファイルに亘る総和算出処理を担当しているが、各処理を他の複数の分散処理サーバからなるグループに分散させることもできる。

また、第２の分散処理サーバ57を複数設け、各キーワードの出現頻度二乗値の全文書ファイルに亘る総和算出処理を分散化させることもできる。この場合、その前提として、第２の分散処理サーバ57の数と同数の文字コード範囲に対応した複数種類のキーワード出現頻度二乗値ファイルを生成しておく必要があるが、この処理を各第２の分散処理サーバ57に割り当てることも当然に可能である。

この発明に係る第１のキーワード間の関連度算出システム及び第１の検索システムの機能構成を示すブロック図である。キーワード抽出部の機能構成を示すブロック図である。キーワード抽出工程を示すフローチャートである。文字列頻度統計フィルタの動作を示す説明図である。文書ＤＢ内に形態素インデックスが形成されている様子を示す説明図である。キーワード間の関連度算出工程を示すフローチャートである。キーワード共起頻度表の一例を示す説明図である。関連度算出処理を簡略化する方法を示す説明図である。キーワード組合せ頻度総和表及びキーワード頻度総和表に基づいてキーワード関連度表が生成される様子を示す説明図である。検索処理の手順を示すフローチャートである。検索語に基づき企業名リストを抽出する要領を示す説明図である。検索語及び特定キーワード間の関連度の根拠を提示する要領を示す説明図である。この発明に係る第２のキーワード間の関連度算出システム及び第２の検索システムの機能構成を示すブロック図である。キーワード間の関連度算出工程を示すフローチャートである。キーワード間の関連度算出工程を示すフローチャートである。管理サーバから第１の分散処理サーバに対し文書ファイルが分割配信される様子を示す模式図である。第１の分散処理サーバによって各キーワードの出現頻度二乗値ファイル及びキーワード間の組合せ頻度積値ファイルが生成される様子を示す模式図である。文字コード範囲を各組合せ頻度積値ファイルに割り当てた例を示す説明図である。第１の分散処理サーバによってキーワード間の出現頻度積値の総和が算出される様子を示す模式図である。第２の分散処理サーバによって各キーワードの出現頻度二乗値の総和が算出される様子を示す模式図である。検索処理の手順を示すフローチャートである。

符号の説明

10 第１のキーワード間の関連度算出システム
11 第１の検索システム
12 文書ＤＢ
14 キーワード抽出部
16 キーワードＤＢ
18 関連度算出部
20 キーワード共起頻度表ＤＢ
22 キーワード組合せ頻度総和表ＤＢ
24 キーワード頻度総和表ＤＢ
26 キーワード関連度表ＤＢ
28 固有名詞ＤＢ
30 検索処理部
32 係り受け表現抽出フィルタ
34 区切り文字抽出フィルタ
36 文字列頻度統計フィルタ
38 TermExtractフィルタ
40 多数決フィルタ
50 第２のキーワード間の関連度算出システム
52 第２の検索システム
54 管理サーバ
56a〜56c 第１の分散処理サーバ
57 第２の分散処理サーバ
58 Webサーバ
60 インターネット
62a〜62c 担当文書ファイル
64a〜64c キーワード抽出処理部
68b ファイル生成部
70a〜70c キーワード出現頻度二乗値ファイル
72a〜72c 組合せ頻度積値ファイル
74a〜74c 組合せ頻度積値ファイル
76a〜76c 組合せ頻度積値ファイル
66 全キーワードデータ
78b ファイル結合部
80b ソート処理部
82b 結合ファイル
84b 加算処理部
86b ソート済みファイル
88b 算出結果ファイル
90 ファイル結合部
91 ソート処理部
92 結合ファイル
93 ソート済みファイル
94 加算処理部
95 算出結果ファイル
α 端末装置

Claims

複数の文書ファイルが格納された文書記憶手段と、
上記の各文書ファイルから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、
各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度を全てのキーワードの組合せについて算出し、キーワード関連度記憶手段に格納する関連度算出手段とを備えたシステムであって、
上記関連度算出手段が、
(1) 文書ファイル単位で、当該文書ファイル中に出現実績のあるキーワードを探知し、これらの出現頻度を算出する処理と、
(2) 各キーワードの出現頻度の二乗値を算出する処理と、
(3) 各キーワードの出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する処理と、
(4) 文書ファイル単位で、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する処理と、
(5) 各キーワード間の出現頻度の積値を集計し、全文書ファイルに亘る総和を算出する処理と、
(6) 上記(3)の総和の平方根を算出する処理と、
(7) 一対のキーワードの上記(6)の平方根同士を加算し、その和で上記(5)の総和を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とするキーワード間の関連度算出システム。
管理サーバと、複数の第１の分散処理サーバと、第２の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第１の分散処理サーバに分配する手段と、
各第１の分散処理サーバから送信されたキーワードを、キーワード記憶手段に格納する手段と、
キーワード記憶手段に格納された全キーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、
各第１の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第２の分散処理サーバに送信する手段と、
各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、その種類に応じて担当すべき第１の分散処理サーバに振り分け配信する手段と、
第２の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
各第１の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、
各キーワードを管理サーバに送信する手段と、
管理サーバから全キーワードが送信された場合に、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段と、
管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記第２の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、
各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第２の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、
各第３の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第４の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第２の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備え、
上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第４の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備えたことを特徴とするキーワード間の関連度算出システム。
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、
各第１の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第２の分散処理サーバに送信する手段と、
第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、
各第３の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第４の分散処理サーバに送信する手段と、
第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第２の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第４の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、
各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第２の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、
各第３の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第４の分散処理サーバに送信する手段と、
第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記の各第２の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第４の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第１の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第１の分散処理サーバに対してそれぞれ送信する手段と、
各第１の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第２の分散処理サーバに送信する手段と、
第２の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第３の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第３の分散処理サーバに対してそれぞれ送信する手段と、
各第３の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第４の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第４の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第１の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第２の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第３の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記の各第４の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、
各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、
各キーワードを管理サーバに送信する手段とを備えたことを特徴とする請求項３〜６の何れかに記載のキーワード間の関連度算出システム。
管理サーバと、複数の第１の分散処理サーバと、第２の分散処理サーバとの連携に基づくキーワード間の関連度算出方法であって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第１の分散処理サーバに分配するステップと、
各第１の分散処理サーバが、管理サーバによって送信された担当文書ファイルからキーワードを抽出し、管理サーバに送信するステップと、
管理サーバが、各第１の分散処理サーバから送信されたキーワードをキーワード記憶手段に格納した後、全キーワードを第１の分散処理サーバに対してそれぞれ送信するステップと、
これを受けた各第１の分散処理サーバが、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知するステップと、
出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述するステップと、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を１番目に配置させたキーワードの組合せを生成するステップと、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出するステップと、
１番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定するステップと、
各組合せに係るキーワード間の出現頻度の積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述するステップと、
上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信するステップと、
管理サーバが、各第１の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第２の分散処理サーバに送信するステップと、
各第１の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、組合せ頻度積値ファイルの種類毎にそれぞれ担当が決められた第１の分散処理サーバに振り分け配信するステップと、
管理サーバから複数の出現頻度二乗値ファイルを送信された第２の分散処理サーバが、各出現頻度二乗値ファイルを連結するステップと、
この連結ファイルに記述された各キーワードを、それぞれの文字コードに応じてソートするステップと、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出するステップと、
この総和を管理サーバに送信するステップと、
管理サーバが、この第２の分散処理サーバから送信された出現頻度の二乗値の総和を、キーワード頻度総和表記憶手段に格納するステップと、
管理サーバから複数の組合せ頻度積値ファイルを送信された第１の分散処理サーバが、各組合せ頻度積値ファイルを連結するステップと、
この連結ファイルに記述された各キーワードの組合せを、各キーワードの文字コードに応じてソートするステップと、
同一キーワードの組合せ単位で出現頻度の積値を集計し、全文書ファイルに亘る総和を算出するステップと、
この総和を管理サーバに送信するステップと、
管理サーバが、各第１の分散処理サーバから送信された積値の総和を、キーワード組合せ頻度総和表記憶手段に格納するステップと、
上記キーワード記憶手段から一対のキーワードを取り出すステップと、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出すステップと、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出すステップと、
この総和の平方根をそれぞれ算出すると共に、両キーワードの平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出するステップと、
を備えたことを特徴とするキーワード間の関連度算出方法。