JP4128212B1 - キーワード間の関連度算出システム及び関連度算出方法 - Google Patents
キーワード間の関連度算出システム及び関連度算出方法 Download PDFInfo
- Publication number
- JP4128212B1 JP4128212B1 JP2007269839A JP2007269839A JP4128212B1 JP 4128212 B1 JP4128212 B1 JP 4128212B1 JP 2007269839 A JP2007269839 A JP 2007269839A JP 2007269839 A JP2007269839 A JP 2007269839A JP 4128212 B1 JP4128212 B1 JP 4128212B1
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- keywords
- distributed processing
- sum
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】複数の文書ファイルからキーワードを抽出するキーワード抽出部14と、各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度をあらゆるキーワードの組合せについて算出し、キーワード関連度表DB26に格納する関連度算出部18を備えたキーワード間の関連度算出システム10。関連度算出部18は、文書ファイル単位で出現実績のあるキーワードの出現頻度を算出し、各キーワードの出現頻度の二乗値を算出し、この二乗値を全文書ファイルに亘って集計し、文書ファイル単位で一対のキーワード間の出現頻度の積値を算出し、この積値を全文書ファイルに亘って集計し、各キーワードの二乗値の総和の平方根を算出し、両平方根を加算し、その和で当該キーワード間の積値の総和を除することにより、関連度を算出する。
【選択図】図1
Description
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
特許文献1には、「インターネット」の入力に対して「ブロードバンド」や「ネットワーク」、「電子メール」の検索結果が得られる例が示されているが、これらはあくまでも「インターネット」のシソーラスとして関連用語記憶手段に予め準備されていたものであり、「インターネット」との共起性に基づいて抽出されるものではない。
なお、上記(1)〜(7)の処理は、相互に論理的な矛盾が生じない限り、順番を適宜入れ替えてもよい。
この請求項2のシステムは、キーワード抽出処理、キーワードの出現頻度二乗値ファイル生成処理、キーワード間の出現頻度積値ファイル生成処理及び出現頻度積値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
この請求項3のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理、キーワードの出現頻度二乗値ファイル生成処理、出現頻度二乗値の全文書に亘る総和算出処理のそれぞれが、複数の分散処理サーバによって分散処理される点に特徴を備えている。
なお、上記第1〜第4の分散処理サーバは、それぞれの機能に着目した論理的な区分けであり、各分散処理サーバが物理的に独立している場合はもちろん、相互に重複している場合もあり得る。物理的に重複している場合、サーバ間におけるファイルの送受信は必要な限度で実行されれば足りる。例えば、第1の分散処理サーバと第3の分散処理サーバが共通のサーバマシンによって構成される場合、管理サーバは第1のサーバに対して担当文書ファイルを配信すれば足り、第3の分散処理サーバに対して同一の文書ファイルを重複配信することを省略することができる(請求項4〜6の発明についても同様)。
上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備えたことを特徴としている。
この請求項4のシステムは、キーワード間の出現頻度積値ファイル生成処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理及び出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
この請求項5のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
この請求項6のシステムは、キーワード間の出現頻度積値ファイル生成処理、キーワードの出現頻度二乗値ファイル生成処理及び出現頻度二乗値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
なお、上記の各ステップは、相互に論理的な矛盾が生じない限り、順番を適宜入れ替えてもよい。
さらに、古くなった文書ファイルの影響を排除する必要がある場合にも、当該旧文書ファイルに係る(2)及び(4)の値を(3)及び(5)の集計値(総和)から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。
文書DB12には、新聞記事や学術雑誌、論文等の文書ファイル(テキストデータ)が予め多数蓄積されている。また、固有名詞DB28には、企業名、商品名、サービス名、人物名等の固有名詞がカテゴリ別に多数登録されている。
まずキーワード抽出部14は、文書DB12内に蓄積された各文書ファイルに係り受け表現抽出フィルタ32を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ32には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部14は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
まず文字列頻度統計フィルタ36は、図4に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB12内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ36は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
多数決フィルタ40は、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードDB16に格納する(S18)。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部14に設けることもできる。
まず関連度算出部18は、各キーワードの各文書ファイル中における共起頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表DB20に格納する(S20)。
図7は、キーワード共起頻度表DB20に格納されたキーワード共起頻度表の具体例を示すものであり、文書DB12に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部18は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表DB22及びキーワード頻度総和表DB24に格納する(S22、S24)。
同じく、図8のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を集計していき、各キーワードの最終的な値(総和)の平方根を求めることにより、数1の分母に相当する値が得られることになる。
このため、特許文献1の検索システムのように企業名に限定することなく、全キーワード間における関連度を算出することが現実的となる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表DB22及びキーワード頻度総和表DB24に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
まずユーザが端末装置αから検索語を入力すると、これを受け付けた検索処理部30は(S40)、図11に示すように、キーワード関連度表DB26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する(S42)。
つぎに検索処理部30は、固有名詞DB28の中の例えば企業名DBを参照し、上記リスト中に含まれる企業名を抽出する(S44)。
この抽出された企業名のリストは、検索語に関連の深い企業リストとして端末装置αに送信される(S46)。
また、固有名詞DB28として人物名DBを指定すれば、入力した検索語と関連の深い人物をピックアップできる。
この後、ユーザがキーワードリスト中の特定のキーワードを検索語として指定すると、そのキーワードと所定以上の関連性を備えたキーワードのリストが検索処理部30によってさらに抽出され、端末装置αに送信される。
この結果、ユーザは関連語から関連語へと、連鎖的に検索範囲を広げていくことが可能となり、予想外のキーワードに辿り着くことが期待できる。
つぎに検索処理部30は、この文書番号リストに基づいて文書DB12を検索し、文書本文のリストを生成した後、端末装置αに送信する(S52、S54)。
この結果、端末装置αのディスプレイには、検索語と当該キーワードとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。
この結果ユーザは、当該文書ファイルの内容を閲覧し、検索語とキーワードとの関連性を個別に確認することが可能となる。
管理サーバ54にはネットワークを介してWebサーバ58が接続されており、このWebサーバ58にはインターネット60を介して複数の端末装置αが接続されている。
まず管理サーバ54は、図16に示すように、文書DB12内に蓄積された多数の文書ファイル62を、第1の分散処理サーバ56a〜56cに対して分割配信する(図14のS60)。この際、管理サーバ54は、第1の分散処理サーバ56a〜56cにおける処理の負荷がほぼ均等となるように、それぞれに配信する文書ファイル62a〜62cのデータ量を調整する。
このキーワード抽出処理に際しては、上記と同様、各キーワード抽出処理部64a〜64c内に設けられた係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を用いることにより、ノイズを排した適切な範囲のキーワードが抽出される。
これを受けた管理サーバ54は、文書DB12内に設けられた形態素インデックス(転置インデックス)を参照することにより、全文書中における当該注目語の出現頻度を取得し、その結果を照会元の第1の分散処理サーバ56に返す。
管理サーバ54は、第1の分散処理サーバ56a〜56cから受信したキーワードをキーワードDB16に登録する(S63)。この際、第1の分散処理サーバ56a〜56cから同一のキーワードが重複して送信された場合、その中の一つがキーワードDB16に登録される。
同様に、以下においては第1の分散処理サーバ56bを中心に各種処理について説明するが、他の第1の分散処理サーバ56a及び56cにおいても同様の処理が実行される。
例えば、ある文書ファイル中に「さくら」が3回、「春」が5回、「鶯」が6回出現した場合、ファイル生成部68bは「さくら,9」、「春,25」、「鶯,36」というように、キーワードと出現頻度の二乗値との組合せからなる出現頻度二乗値データを、出現頻度二乗値ファイル70bに一行単位で記述していく。
すなわち、この組合せ頻度積値ファイルとして、予め第1の分散処理サーバ56a〜56cの数に対応する3種類のファイル(第1の組合せ頻度積値ファイル72b、第2の組合せ頻度積値ファイル74b、第3の組合せ頻度積値ファイル76b)が、ファイル生成部68bによってディスク上に生成されている。
これに対し、「春,鶯,30」の組合せ頻度データは、「春」の文字コードが「8F74」であることから、第3の組合せ頻度積値ファイル76bに記述される。
また、「PCT,特許,20」という組合せ頻度積値データが生成された場合、半角アルファベットを担当する第1の組合せ頻度積値ファイル72bに記述されることとなる。
この過程で、同じキーワードに係る出現頻度二乗値データや、同じキーワードの組合せに係る組合せ頻度積値データが、異なる文書ファイル間で多数発生することが予想されるが、ファイル生成部68bはこの時点で各データの値を集計することはせず、各データを生成順に出現頻度二乗値ファイル及び対応の組合せ頻度積値ファイルに追記していく。
以下、第1の分散処理サーバ56bにおける処理を中心に説明するが、他の分散処理サーバ56a、56cにおいても同様の処理が実行される。
つぎにソート処理部80bが起動し、結合ファイル82bに記述されたキーワードの組合せ(X、Y)について、それぞれの文字コード順に整列させる(S74)。この結果、「さくら,春,20」…「さくら,春,32」…「さくら,春,28」のように、同じキーワードの組合せを備えた組合せ頻度積値データが複数並ぶソート済みファイル86bが生成される。
つぎに加算処理部84bが起動し、ソート済みファイル86bに対し所謂コントロールブレイク処理を施し、同じキーワードの組合せ単位で積値を集計する(S75)。
この算出結果ファイル88bは、第1の分散処理サーバ56bから管理サーバ54に送信される(S76)。
これに対し管理サーバ54は、算出結果ファイル88bのデータを抽出し、キーワード組合せ頻度総和表DB22に登録する(S77)。すなわち、同じキーワードX,Yの組合せの値が既にキーワード組合せ頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードX,Yとその値を新規に追加する。
つぎにソート処理部91が起動し、結合ファイル92に記述された各キーワード及び二乗値を、文字コード順に整列させる(S80)。この結果、「さくら,16」…「さくら,9」…「さくら,4」のように、同じキーワードが複数並ぶソート済みファイル93が生成される。
つぎに加算処理部94が起動し、同じキーワード単位で二乗値を集計する(S81)。
この算出結果ファイル95は、第2の分散処理サーバ57から管理サーバ54に送信される(S82)。
これに対し管理サーバ54は、算出結果ファイル95中の結果データを抽出し、キーワード頻度総和表DB24に登録する(S83 )。すなわち、同じキーワードの値が既にキーワード頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードとその値を新規に追加する。
まずユーザが端末装置αから検索語を入力すると、Webサーバ58経由でこれを受け付けた管理サーバ54は(S90)、図11に示したように、キーワード関連度表DB26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する(S91)。
この抽出された企業名のリスト(検索語に関連の深い企業リスト)は、Webサーバ58経由で端末装置αに送信される(S93)。
また、固有名詞DB28として人物名DBを指定すれば、入力した検索語と関連の深い人物をピックアップできる。
例えば、上記にあっては第1の分散処理サーバ56がキーワードの抽出処理、キーワードの出現頻度二乗値ファイルの生成処理、キーワード間の組合せ頻度積値ファイルの生成処理、組合せ頻度積値の全文書ファイルに亘る総和算出処理を担当しているが、各処理を他の複数の分散処理サーバからなるグループに分散させることもできる。
11 第1の検索システム
12 文書DB
14 キーワード抽出部
16 キーワードDB
18 関連度算出部
20 キーワード共起頻度表DB
22 キーワード組合せ頻度総和表DB
24 キーワード頻度総和表DB
26 キーワード関連度表DB
28 固有名詞DB
30 検索処理部
32 係り受け表現抽出フィルタ
34 区切り文字抽出フィルタ
36 文字列頻度統計フィルタ
38 TermExtractフィルタ
40 多数決フィルタ
50 第2のキーワード間の関連度算出システム
52 第2の検索システム
54 管理サーバ
56a〜56c 第1の分散処理サーバ
57 第2の分散処理サーバ
58 Webサーバ
60 インターネット
62a〜62c 担当文書ファイル
64a〜64c キーワード抽出処理部
68b ファイル生成部
70a〜70c キーワード出現頻度二乗値ファイル
72a〜72c 組合せ頻度積値ファイル
74a〜74c 組合せ頻度積値ファイル
76a〜76c 組合せ頻度積値ファイル
66 全キーワードデータ
78b ファイル結合部
80b ソート処理部
82b 結合ファイル
84b 加算処理部
86b ソート済みファイル
88b 算出結果ファイル
90 ファイル結合部
91 ソート処理部
92 結合ファイル
93 ソート済みファイル
94 加算処理部
95 算出結果ファイル
α 端末装置
Claims (8)
- 複数の文書ファイルが格納された文書記憶手段と、
上記の各文書ファイルから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、
各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度を全てのキーワードの組合せについて算出し、キーワード関連度記憶手段に格納する関連度算出手段とを備えたシステムであって、
上記関連度算出手段が、
(1) 文書ファイル単位で、当該文書ファイル中に出現実績のあるキーワードを探知し、これらの出現頻度を算出する処理と、
(2) 各キーワードの出現頻度の二乗値を算出する処理と、
(3) 各キーワードの出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する処理と、
(4) 文書ファイル単位で、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する処理と、
(5) 各キーワード間の出現頻度の積値を集計し、全文書ファイルに亘る総和を算出する処理と、
(6) 上記(3)の総和の平方根を算出する処理と、
(7) 一対のキーワードの上記(6)の平方根同士を加算し、その和で上記(5)の総和を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とするキーワード間の関連度算出システム。 - 管理サーバと、複数の第1の分散処理サーバと、第2の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第1の分散処理サーバに分配する手段と、
各第1の分散処理サーバから送信されたキーワードを、キーワード記憶手段に格納する手段と、
キーワード記憶手段に格納された全キーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第2の分散処理サーバに送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、その種類に応じて担当すべき第1の分散処理サーバに振り分け配信する手段と、
第2の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
各第1の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、
各キーワードを管理サーバに送信する手段と、
管理サーバから全キーワードが送信された場合に、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段と、
管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。 - 管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備えたことを特徴とするキーワード間の関連度算出システム。 - 管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、
第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。 - 管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、
第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。 - 管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備えたことを特徴とするキーワード間の関連度算出システム。 - 上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、
各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、
各キーワードを管理サーバに送信する手段とを備えたことを特徴とする請求項3〜6の何れかに記載のキーワード間の関連度算出システム。 - 管理サーバと、複数の第1の分散処理サーバと、第2の分散処理サーバとの連携に基づくキーワード間の関連度算出方法であって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第1の分散処理サーバに分配するステップと、
各第1の分散処理サーバが、管理サーバによって送信された担当文書ファイルからキーワードを抽出し、管理サーバに送信するステップと、
管理サーバが、各第1の分散処理サーバから送信されたキーワードをキーワード記憶手段に格納した後、全キーワードを第1の分散処理サーバに対してそれぞれ送信するステップと、
これを受けた各第1の分散処理サーバが、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知するステップと、
出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述するステップと、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成するステップと、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出するステップと、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定するステップと、
各組合せに係るキーワード間の出現頻度の積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述するステップと、
上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信するステップと、
管理サーバが、各第1の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第2の分散処理サーバに送信するステップと、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、組合せ頻度積値ファイルの種類毎にそれぞれ担当が決められた第1の分散処理サーバに振り分け配信するステップと、
管理サーバから複数の出現頻度二乗値ファイルを送信された第2の分散処理サーバが、各出現頻度二乗値ファイルを連結するステップと、
この連結ファイルに記述された各キーワードを、それぞれの文字コードに応じてソートするステップと、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出するステップと、
この総和を管理サーバに送信するステップと、
管理サーバが、この第2の分散処理サーバから送信された出現頻度の二乗値の総和を、キーワード頻度総和表記憶手段に格納するステップと、
管理サーバから複数の組合せ頻度積値ファイルを送信された第1の分散処理サーバが、各組合せ頻度積値ファイルを連結するステップと、
この連結ファイルに記述された各キーワードの組合せを、各キーワードの文字コードに応じてソートするステップと、
同一キーワードの組合せ単位で出現頻度の積値を集計し、全文書ファイルに亘る総和を算出するステップと、
この総和を管理サーバに送信するステップと、
管理サーバが、各第1の分散処理サーバから送信された積値の総和を、キーワード組合せ頻度総和表記憶手段に格納するステップと、
上記キーワード記憶手段から一対のキーワードを取り出すステップと、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出すステップと、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出すステップと、
この総和の平方根をそれぞれ算出すると共に、両キーワードの平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出するステップと、
を備えたことを特徴とするキーワード間の関連度算出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007269839A JP4128212B1 (ja) | 2007-10-17 | 2007-10-17 | キーワード間の関連度算出システム及び関連度算出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007269839A JP4128212B1 (ja) | 2007-10-17 | 2007-10-17 | キーワード間の関連度算出システム及び関連度算出方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008098688A Division JP2009099115A (ja) | 2008-04-04 | 2008-04-04 | キーワード間の関連度算出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4128212B1 true JP4128212B1 (ja) | 2008-07-30 |
JP2009098931A JP2009098931A (ja) | 2009-05-07 |
Family
ID=39704953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007269839A Expired - Fee Related JP4128212B1 (ja) | 2007-10-17 | 2007-10-17 | キーワード間の関連度算出システム及び関連度算出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4128212B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218216A (ja) * | 2009-03-17 | 2010-09-30 | Chugoku Electric Power Co Inc:The | 類似文書検索システム、方法及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5117590B2 (ja) * | 2011-03-23 | 2013-01-16 | 株式会社東芝 | 文書処理装置およびプログラム |
JP2013254339A (ja) | 2012-06-06 | 2013-12-19 | Toyota Motor Corp | 言語関係判別装置、言語関係判別プログラム、言語関係判別方法 |
-
2007
- 2007-10-17 JP JP2007269839A patent/JP4128212B1/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218216A (ja) * | 2009-03-17 | 2010-09-30 | Chugoku Electric Power Co Inc:The | 類似文書検索システム、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2009098931A (ja) | 2009-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100535898C (zh) | 问答式文献检索***和方法 | |
Oliveira et al. | Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization | |
JP3755134B2 (ja) | コンピュータベースの適合テキスト検索システムおよび方法 | |
US20040249808A1 (en) | Query expansion using query logs | |
US6438543B1 (en) | System and method for cross-document coreference | |
US7747642B2 (en) | Matching engine for querying relevant documents | |
US7860853B2 (en) | Document matching engine using asymmetric signature generation | |
US7783660B2 (en) | System and method for enhanced text matching | |
US20070100818A1 (en) | Multiparameter indexing and searching for documents | |
US20080077570A1 (en) | Full Text Query and Search Systems and Method of Use | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
JP2004501424A (ja) | 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法 | |
US8266150B1 (en) | Scalable document signature search engine | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
EP1386250A1 (en) | Very-large-scale automatic categorizer for web content | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
EP2013788A2 (en) | Full text query and search systems and method of use | |
JP2009271799A (ja) | 企業相関情報抽出システム | |
WO2008144457A2 (en) | Efficient retrieval algorithm by query term discrimination | |
Nandi et al. | HAMSTER: using search clicklogs for schema and taxonomy matching | |
JP4128212B1 (ja) | キーワード間の関連度算出システム及び関連度算出方法 | |
JP4969209B2 (ja) | 検索システム | |
JP2009122807A (ja) | 連想検索システム | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
Zhang et al. | Informing the curious negotiator: Automatic news extraction from the internet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080513 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4128212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120523 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120523 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130523 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130523 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140523 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |