JP3577972B2

JP3577972B2 - 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Info

Publication number: JP3577972B2
Application number: JP29732198A
Authority: JP
Inventors: 準二富田; 浩竹野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-10-19
Filing date: 1998-10-19
Publication date: 2004-10-20
Anticipated expiration: 2018-10-19
Also published as: JP2000123041A

Description

【０００１】
【発明の属する技術分野】
本発明は、類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体に係り、特に、単語列、または、単語列のブール演算子結合、または、文書、または、文書集合からなる文書要素間の類似度を適切に判定するための類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体に関する。
【０００２】
【従来の技術】
従来の技術による文書検索装置は、以下の方法で検索キーと検索対象文書との類似度を判定することによって、検索結果を決定するものである。ここで、検索キーは、単語列、または、単語列のブール演算子結合だけでなく、文書、または、文書集合などの場合もある。
【０００３】
まず、形態素解析と呼ばれる技術を用いて検索対象のそれぞれの文書に使用されている単語を抽出し、出現頻度情報などに基づき、それぞれの単語にその単語の主題（内容）との関連の強さを表す重要度を付与する。同様に、ユーザの入力した検索キー内の単語にも重要度を付与し、それぞれの単語がどの程度の重要度で、それぞれの文書に含まれているのか調べ、検索キー内のブール演算子を適切に処理して類似度を計算する。最後に検索対象の文書を、このようにして求められた類似度の降順にソートして、上位ｎ件を検索結果とするものである。なお、ここで、ｎは、正の定数である。
【０００４】
例えば、「情報または、文書（特に文書）の検索」に関する文書を検索したいとする。ユーザは、検索キーとして、
（（情報⁻０．５ｏｒ文書⁻０．８）ａｎｄ検索⁻１．０）
と指定する。文書検索装置は、まず、検索キー内での単語の重要度（それぞれ（情報，０．５）（文書，０．８）（検索，１．０）を求める（この例の場合、検索キー内に重要度が明示的に記述されているが、単語の出現頻度情報などからこれらの重要度を自動的に決定する場合もある）。
【０００５】
次に、検索キーに使用されている単語「情報」「文書」「検索」の検索対象のそれぞれの文書内での重要度を出現頻度などを基にして求める。これらが次の値であったとする。

検索キー内での単語の重要度と、検索対象文書内でのその単語の重要度の積を計算し、検索キー内で、ｏｒが使われた場合は、その両側の値を足すこととし、ａｎｄが使われた場合は、その両側の値の小さい方を取ることとする。
【０００６】
この方法で、検索キーとそれぞれの文書の類似度は以下のように求めることができる。
文書ａの類似度＝ｍｉｎ（（０．５＊０．４＋０．８＊０．６），１．０＊０．９）＝ｍｉｎ（０．６８，０．９）＝０．６８
文書ｂの類似度＝ｍｉｎ（（０．５＊０．４＋０．８＊０．１），１．０＊０．０）＝ｍｉｎ（０．２６，０．０）＝０．０
文書ｃの類似度＝ｍｉｎ（（０．５＊０．３＋０．８＊０．８），１．０＊１．０）＝ｍｉｎ（０．７９，１．０）＝０．７９
ここで、ｍｉｎ（ｘ，ｙ）は、ｘ，ｙの小さい方の値を返す。
【０００７】
このようにして、検索キーと検索対象文書との類似度を計算し、この値の降順に検索対象文書をソートして、上位ｎ（＝２）件を検索結果とする。従って、この場合の検索結果は、
文書ｃ（類似度０．７９）
文書ａ（類似度０．６８）
となる。
【０００８】
また、従来の文書分類装置は、分類対象となる文書集合内のすべての２つの文書の組み合わせについて、それら文書間の類似度を判定することによって、文書を分類するものである。
まず、分類対象となる文書集合のそれぞれの文書から単語を抽出し、それらの単語に適切な重要度を付与する。次に、この重要度を基に、文書検索装置で述べた方法と同様の方法で分類対象となる文書集合内の全ての２つの文書の組み合わせについてそれら文書間の類似度を判定する。次にこの文書間の類似度に基づき、類似度の大きい文書同士を順次結合していくことによって、文書を分類する。この手法は、クラスタリングと呼ばれている。
【０００９】
【発明が解決しようとする課題】
より精度の高い文書検索装置及び文書分類装置を構成するためには、文書要素間の類似度を適切に判定する必要がある。ここで、文書要素とは、単語列、または、単語のブール演算子結合、または、文書、または、文書集合である。しかしながら、従来の類似度判定方法には、以下のような問題がある。
【００１０】
１．複数の主題や副題を持つ文書要素間の類似度を精度良く判定できない：
文書要素が単語列や要約などの場合、その文書要素は１つの主題を持っていると考えられるが、一般に文書全文を対象とするとその文書は複数の主題や副題を持つものとなる。そのため、このような文書全文を対象とすると類似度が適切に計算されない。
【００１１】
例えば、文書検索作業において、ユーザが「情報検索を行うロボット」に関する文書を検索したい場合に、「情報検索ａｎｄロボット」と検索キーを指定したとする。しかし、この検索キーでは、「情報検索システム」と「産業用ロボット」という２つの主題を持つ文書にまで高い類似度を与えてしまう。このように、文書要素が複数の主題や副題を持つ場合に、類似度を精度良く判定できないという問題がある。
【００１２】
２．文書要素の持つ特徴を利用した類似度の判定ができない：
文内に使用されている単語間には、係り受け関係などの特徴がある。また、文書には、パラグラフなどの特徴がある。しかしながら、従来の類似度判定方法では、単語を抽出し、それらの単語に重要度を付与し、それらを基に類似度を判定するだけなので、これらの特徴を利用することができず、類似度を精度良く判定できないという問題がある。
【００１３】
３．形態素解析の不完全性：
単語を文書から抽出する際に用いられる形態素解析では、どの部分文字列が単語となるかを認識する必要があり、そのために、単語を予め辞書に登録しておく必要がある。しかしながら、情報の更新速度が速い場合には、全ての単語を予め辞書に登録しておくことは不可能であり、このような情報を対象とした場合、単語の抽出を行う際の解析の失敗は避けられない。例えば、辞書に、「インター」と「ネット」という単語だけしか登録されていない場合、「インターネット」という単語は抽出されず、この単語は、「インター」と「ネット」という２つの単語として抽出されてしまう。このように、単語の抽出の失敗が起こるために、類似度を精度良く判定できないという問題がある。
【００１４】
本発明は、上記の点に鑑みなされたもので、複数の主題や副題を持つ文書要素間の類似度を精度良く判定し、文書要素の持つ特徴を利用した類似度の判定を可能とし、形態素解析の不完全性を解決して文書要素間の類似度を精度良く判定することが可能な類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体を提供することを目的とする。
【００１５】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
本発明（請求項１）は、文書要素間の類似度を適切に判定するための類似度判定方法において、
主題グラフ作成手段において、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素が複数入力されると、各文書要素内で使用されている単語を抽出し（ステップ１）、
抽出されたそれぞれの単語に重要度を付与し（ステップ２）、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとし（ステップ３）、それぞれの文書要素の主題グラフを生成し（ステップ４）、
類似度判定手段において、主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める（ステップ５）。
【００１６】
本発明（請求項２）は、単語を抽出する際に、文書要素を形態素解析する。
本発明（請求項３）は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
両方の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるノードに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のノードに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値とし、
両方の主題グラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方の主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるリンクに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のリンクに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する。
【００１７】
本発明（請求項４）は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連しあっているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前の主題グラフに戻して主題グラフ間の一致の度合を計算する。
【００１８】
本発明（請求項５）は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する。
【００１９】
本発明（請求項６）は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する。
【００２０】
図２は、本発明の文書検索装置の原理構成図である。
本発明（請求項７）は、ユーザからの検索要求に基づいて文書を検索するための文書検索装置であって、
ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェース手段４１０と、
検索キーの単語の重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成手段４２０と、
指定された単語が出現する文書の文書ＩＤの集合を取得する単語情報管理手段４３０と、
文書ＩＤが指定されると、該文書ＩＤに対応した文書を検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成手段４４０と、
検索キーの主題グラフと文書の主題グラフを入力し、それらがどの程度似ているのかを判断する類似度判定手段４５０と、
検索インタフェース手段４１０、検索キー主題グラフ作成手段４２０、単語情報管理手段４３０、検索対象文書主題グラフ作成手段４４０、及び類似度判定手段４５０の制御を行う検索制御手段４６０と、を有する。
【００２１】
本発明（請求項８）は、検索キー主題グラフ作成手段４２０において、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれ任意の２単語間に関連度を付与する関連度付与手段とを含み、
検索対象文書主題グラフ作成手段４４０は、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを作成する主題表現手段を含み、
類似度判定手段４５０は、
検索キーの主題グラフと文書の主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める手段を含む。
【００２２】
本発明（請求項９）は、類似度判定手段４５０において、
検索キーの主題グラフと文書の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第１の計算手段を含む。
【００２３】
本発明（請求項１０）は、類似度判定手段４５０において、
それぞれの検索キーの主題グラフと文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第２の計算手段を含む。
【００２４】
本発明（請求項１１）は、類似度判定手段４５０において、
それぞれの検索キーの主題グラフと文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第３の計算手段を含む。
【００２５】
本発明（請求項１２）は、類似度判定手段４５０において、
それぞれの検索キーの主題グラフと文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第４の計算手段を含む。
【００２６】
図３は、本発明の文書分類装置の原理構成図である。
本発明（請求項１３）は、文書が格納されている文書記憶手段から、文書ＩＤに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成手段６１０と、
２つの文書の主題グラフが入力されると、これらの一致の度合を計算するグラフ類似度判定手段６２０と、
文書間の類似度を表す行列に基づいて、該文書を分類する分類手段６３０と、
分類作業全体の制御を行う分類制御手段６４０とを有する。
【００２７】
本発明（請求項１４）は、主題グラフ作成手段６１０において、
主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれの任意の２単語間に関連度を付与する関連度付与手段と、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとして主題グラフを生成する主題表現手段とを含み、
グラフ類似度判定手段６２０は、
主題グラフ間の一致の度合に基づき、文書要素間の類似度を計算する手段を含む。
【００２８】
本発明（請求項１５）は、グラフ類似度判定手段６２０において、
両方のグラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多いほど、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する第１の計算手段を含む。
【００２９】
本発明（請求項１６）は、グラフ類似度判定手段６２０において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して主題グラフ間の一致の度合を計算する第２の計算手段を含む。
【００３０】
本発明（請求項１７）は、グラフ類似度判定手段６２０において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第３の計算手段を含む。
【００３１】
本発明（請求項１８）は、グラフ分類度判定手段６２０において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する第４の計算手段を含む。
【００３２】
本発明（請求項１９）は、ユーザからの検索要求に基づいて文書を検索するための文書検索プログラムを格納した記憶媒体であって、
コンピュータに、
ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェースステップと、
検索キーの重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成ステップと、
指定された単語が出現する文書の文書ＩＤの集合を取得する単語情報管理ステップと、
文書ＩＤが指定されると、該文書ＩＤに対応した文書を検索対象文書が格納されている検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成ステップと、
検索キーの主題グラフと検索対象文書の文書の主題グラフを入力とし、それらがどの程度似ているかを判断する類似度判定ステップと、
を実行させるプログラムを格納した文書検索プログラムを格納した記憶媒体である。
【００３３】
本発明（請求項２０）は、検索キー主題グラフ作成ステップは、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれ任意の２単語間に関連度を付与する関連度付与ステップと、を実行させ、
検索対象文書主題グラフ作成ステップは、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップを実行させ、
類似度判定ステップは、
検索キーの主題グラフと文書の主題グラフ間の一致の度合に基づき、文書要素間の類似度を求めるステップを実行させる。
【００３４】
本発明（請求項２１）は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフの両方のグラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第１の計算ステップを実行させる。
【００３５】
本発明（請求項２２）は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第２の計算ステップを実行させる。
【００３６】
本発明（請求項２３）は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分リンクに小さい重みのリンクを生成し、
検索キーの主題グラフと文書の主題グラフそれぞれの部分グラフ毎に一致の度合を計算する第３の計算ステップを実行させる。
【００３７】
本発明（請求項２４）は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第４の計算ステップを実行させる。
【００３８】
本発明（請求項２５）は、文書を分類するための文書分類プログラムを格納した記憶媒体であって、
コンピュータに、
文書が格納されている文書記憶手段から、文書ＩＤに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成ステップと、
２つの文書の主題グラフが入力されると、これらの一致の度合を判定するグラフ分類判定ステップと、
文書間の類似度を表す行列に基づいて、該文書を分類する分類ステップと、を実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
【００３９】
本発明（請求項２６）は、主題グラフ作成ステップにおいて、
主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれの任意の２単語間に関連度を付与する関連度付与ステップと、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップと、
主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める文書要素間類似度判定ステップを実行させる。
【００４０】
本発明（請求項２７）は、グラフ類似度判定ステップにおいて、
両方の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する第１のステップを実行させる。
【００４１】
本発明（請求項２８）は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して主題グラフ間の一致の度合を計算する第２の計算ステップを実行させる。
【００４２】
本発明（請求項２９）は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第３の計算ステップを実行させる。
【００４３】
本発明（請求項３０）は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する第４の計算ステップを実行させる。
【００４４】
上記により、本発明によれば、複数の主題や副題を持つ文書要素間の類似度を精度良く判定できない問題を、単語間の関連度を用いることによって、複数の主題や副題を持つ文書要素間の類似度を精度良く判定することが可能となる。例えば、前述の発明が解決しようとする課題における例において、ユーザが「情報検索を行うロボット」に関する文書を検索したい場合に、本発明では、「情報検索」と「ロボット」が強く関連している文書の方がそうでない文書を比べて、高い類似度となる。前述した、「情報検索システム」と「産業用ロボット」という２つの主題を持つ文書内では、「情報検索」と「ロボット」が強く関連していないので、このような文書は、高い類似度とならない。このように、本発明では、類似度を精度よく判定することが可能となる。
【００４５】
また、本発明によれば、文書要素の持つ特徴を利用した類似度の判定ができないという問題を、文内で強い係り受けの関係にある単語間や、同一のパラグラフに含まれる単語間に高い関連度を与えることができるため、これらの特徴を利用した類似度の判定により解決できる。このように、本発明を利用すれば、類似度を精度良く判定できる。
【００４６】
更に、形態素解析を利用しているため単語の抽出の失敗により類似度の判定の精度を低下させるという問題に対して、本発明では、前述の「インターネット」という単語の抽出の失敗の例を用いて説明すると、形態素解析を利用しているため、前述した例と同様に、「インターネット」という単語は抽出されず、この単語は、「インター」と「ネット」という２つの単語として抽出されてしまう。しかしながら、ある文書要素に「インターネット」という文字列がある場合、その文書要素内では、抽出された単語「インター」と「ネット」の間には強い関連がある。従って、「インター」と「ネット」が別々に出現する文書要素に比べて、「インターネット」という文字列が出現する文書要素の方が高い類似度となる。従って、たとえ、形態素解析に失敗したとしても、本発明により類似度判定の精度の低下を阻止することが可能となる。
【００４７】
上記により、本発明では、文書要素間の類似度を精度良く判定できるので、精度の良い類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体を提供することができる。
【００４８】
【発明の実施の形態】
図４は、本発明の類似度判定方法を説明するためのフローチャートである。
ステップ１０）文書要素内で使用されている単語を抽出する。
ステップ２０）文書要素内で使用されているそれぞれの単語の重要度を計算する。
【００４９】
ステップ３０）文書要素内で使用されている任意の２単語間の関連度を計算する。
ステップ４０）単語の重要度をノードの重みとし、単語間の関連度をリンクの重みとした、グラフによってそれぞれの文書要素の主題を表現する。以下、このグラフを主題グラフと呼ぶ。
【００５０】
ステップ５０）このようにして生成した主題グラフ同士の一致度に基づき、文書要素間の類似度を判定する。
以下、上記の各ステップの動作を詳細に説明する。
ステップ１０）単語の抽出：
単語の抽出は、文書要素を形態素解析することによっておこなう。形態素解析手法には、既存技術を用いるものとする。
【００５１】
ステップ２０）重要度の計算：
それぞれの文書要素内で使用されている単語の重要度を、次のようにして計算する。本発明では、文書要素として、単語列、単語のブール演算子結合、文、文書、文書集合を想定しているので、それぞれについての単語の重要度の計算法を以下に示す。
【００５２】
・単語列：全ての単語の重要度を同じ値にするか、または、ユーザにそれぞれの単語の重要度を明示的に指定させることによって、重要度を決定する。
・単語のブール演算子結合：単語列の場合と同様の方法で重要度を決定する。
・文：全ての単語を同じ重要度とするか、または、単語の品詞（固有名詞には、副詞よりも高い重要度を付与するなど）に応じて重要度を決定する。
【００５３】
・文書：文の場合と同様の方法で重要度を決定するか、または、単語の出現位置情報（タイトル内で出現する単語には高い重要度を付与）、出現頻度情報（高い出現頻度の単語には高い重要度を付与）、文書要素集合全体の中での出現文書要素数（特定の文書要素にしか出現しない単語には高い重要度を付与）などに基づき計算する。
【００５４】
・文書集合：文書集合全体を一つの大きな文書（全ての文書を結合した文書）と考えて、文書の場合と同様の方法で重要度を計算する。
ステップ３０）関連度の計算：
それぞれの文書要素内で使用されている単語間の関連度を、次のようにして計算する。本発明では、文書要素として、単語列、単語のブール演算子結合、文、文書、文書集合を想定しているので、それぞれについての単語間の関連度の計算法を次に示す。
【００５５】
・単語列：文書要素に含まれる全ての２単語間の関連度を等しい値とするか、または、ユーザに明示的に関連度を指定させることによって、関連度を決定する。
・単語のブール演算子結合：単語列での方法に加えて、ブール演算子の種類に応じて関連度を決定する。例えば、ａｎｄで結合されている単語同士は、ｏｒで結合されているものに比べて関連度を大きな値とする。
【００５６】
・文：単語列での方法を用いるか、または、次に示す、係り受け関係の情報を用いて計算する。まず、文の係り受け関係の解析を行う。係り受け関係の解析の手法は、既存技術を用いるものとする。直接の係り受けの関係にあるもの同士は強い関連があるとし、間接的な係り受け関係にあるものは、弱い関連があるものとする。例えば、「情報の検索に単語の重要度を利用する」という文があった場合、「情報」と「検索」の関連度は、「情報」と「単語」の関連度に比べて大きな値とする。なぜなら、「情報」と「検索」は、直接の係り受け関係にあるのに対して、「情報」と「単語」は直接の係り受け関係にないからである。
【００５７】
・文書：文での方法を用いるか、または、以下の２つのどちらかの方法によって、単語間の関連度を計算する。
−共出現情報の利用：
ある２単語が同一の文内（または、指定文字数の範囲内）で共出現した場合、これらの共出現回数を数える。共出現の回数が多ければ多い程、それら２単語間の関連度を大きな値とする。
【００５８】
−構造情報を利用：
文書の構造（章、パラグラフなど）を解析する。あるパラグラフ内に現れる単語はそのパラグラフの見出し語と関連があり、また、パラグラフ内の単語同士は関連があると考えられるので、パラグラフ内での頻度情報に基づき、単語間の関連度を決定する。例えば、あるパラグラフだけに高い頻度で出現している単語はその節の見出し語と強い関連があり、また、それらの単語同士は強い関連があるとする。
【００５９】
・文書集合：文書集合を一つの大きな文書（全ての文書を結合した文書）と考えて、文書の場合と同様の方法で関連度を計算する。
ステップ４０）主題グラフの作成：
ステップ２０で求めた単語の重要度をノード重みとし、ステップ３０で求めた単語間の関連度をリンクの重みとしたグラフを作成する。このグラフ（主題グラフ）によって文書要素の主題を表現する。
【００６０】
ステップ５０）ステップ１４０で作成した文書要素の主題グラフ間の一致度を測定することによって、文書要素間の類似度を判定する。類似度判定処理の構成を図５に示す。
図５は、本発明の類似度判定処理の動作を説明するための図である。
１．グラフ間一致度測定処理（ステップ１１１、１２３、１３３、１４３）：文書要素の主題グラフｑとｕの一致度を、以下の式によって計算する。グラフｑとグラフｕに使用されている単語の重要度をそれぞれ以下のベクトルで表す。
【００６１】
ｖ_ｑ＝（ｖ_ｑ１，ｖ_ｑ２，…，ｖ_ｑｎ）（１）
ｖ_ｕ＝（ｖ_ｕ１，ｖ_ｕ２，…，ｖ_ｕｎ）（２）
ここで、ｖ_ｑｉとｖ_ｕｉはそれぞれ、文書要素ｑ内での単語ｉの重要度、文書ｕ内での単語ｉの重要度を表す。
これらのベクトルの内積ｆ_ｖ
【００６２】
【数１】

【００６３】
を計算する。
グラフｑとグラフｕに使用されている単語間の関連度をそれぞれ以下のように表す。
ｒ_ｑ＝（ｖ_ｑ１１，ｖ_ｑ１２，…，ｖ_ｑ２１，ｖ_ｑ２２，…，ｖ_ｑｎｎ）（３）
ｒ_ｕ＝（ｖ_ｕ１１，ｖ_ｕ１２，…，ｖ_ｕ２１，ｖ_ｕ２２，…，ｖ_ｕｎｎ）（４）
ここで、ｖ_ｑｉｊとｖ_ｕｉｊは、それぞれ、文書要素ｑ内での単語ｉと単語ｊの関連度、文書要素ｕ内での単語ｉと単語ｊの関連度を表す。
【００６４】
これらのベクトルの内積
【００６５】
【数２】

【００６６】
を計算する。
ｆ_ｖとｆ_ｒからグラフ間の一致度を以下のように求める。
一致度＝ｆ_ｖ ^ｐ＊ｆ_ｒ ^ｑ
ここで、ｐ及びｑは正の定数である。
２．グラフ分割処理（ステップ１２１、１３１、１４１）：
以下の処理によって、グラフを分割し、それぞれの部分グラフ内に小さい重みのリンクを生成する。
【００６７】
（ａ）グラフＧ_Ａをノード間の結合力の強さに応じて、ｐ個の部分グラフにＧ_Ａｉ（ｉ＝０，１，…，ｐ）に分割する。ここで、結合力の強さとは、例えば、「それぞれの部分グラフ内の任意のノード間には、必ず、距離１のリンクが存在するか、または、距離ｎ（ｎ≧２）以下のリンクがｍ（ｍ≧１）本以上存在する。」などである。ここで、ノードａとノードｂ間の距離とは、ａからｂへ到達するのに通過するリンクの本数である。
【００６８】
（ｂ）分割された部分グラフ内の任意のノード間にリンクが存在しない場合は、これらのノード間に弱い重みのリンクを生成する。
ｎ＝２，ｍ＝２の場合のグラフ分割処理を図６に示す。この例では、分割前のグラフＧ_Ａ（２１０）は、３個の部分グラフ（Ｇ_Ａ１（２２１），Ｇ_Ａ２（２２２），Ｇ_Ａ３（２３３））に分割されている。このように分割されるのは、
・Ｇ_Ａ１（２１１）について、ノードＡＢ，ＡＣ，ＢＤ，ＣＤ間に距離１のリンクが存在し、ＡＤ，ＢＣ間のそれぞれには、距離２のリンクが２本存在する。
・Ｇ_Ａ２（２２２）について、ノードＢＤ，ＢＥ，ＤＥ間に、距離１のリンクが存在する。
・Ｇ_Ａ３（２２３）について、ノードＤＦ間の距離１のリンクが存在する。
【００６９】
このため、「それぞれの部分グラフ内の任意の２ノード間には、必ず距離１のリンクが存在するか、または、距離２以下のリンクが２本以上存在する。」という条件を満たすからである。また、Ｇ_Ａ１（２２１）における破線は、グラフ分割処理の（ｂ）で追加された弱い重みのリンクである。
この処理から明らかなように、分割された部分グラフ内の単語同士は、強い結合力で結ばれている。従って、これらの部分グラフは、意味的に関連の強い単語の集合で構成されていることになるので、これらの部分グラフからなるサブ文書はそれぞれもとの文書の副題を表すことになる。
【００７０】
また、このように部分グラフ内にリンクを生成することによって、それぞれの副題に含まれる単語同士には、ある程度の関連があるということをグラフ上で表現している。
３．グラフ再結合処理（ステップ１２２）：
グラフ分割処理が作成した部分グラフＧ_Ａｉ（ｉ＝０，１，…，ｐ）を分割前のグラフＧ’_Ａに再結合する。このとき、Ｇ’_Ａは、グラフ分割処理（ステプ１２１）で生成されたリンクを追加したものである。
【００７１】
図７に、グラフ再結合処理の例を示す。この例では、図６のＧ_Ａ（２１０）から作成された、３個の部分グラフ（Ｇ_Ａ１（３１１），Ｇ_Ａ２（３１２），Ｇ_Ａ３（３１３））を、元のグラフへ再結合することによって、Ｇ’_Ａ（３２０）を作成している。グラフ分割処理、グラフ再結合処理が作成したＧ’_Ａには、ＡＤ間やＢＣ間にＧ_Ａには存在しなかった弱い重みのリンクが追加されている。
【００７２】
４．部分グラフ一致度測定処理（ステップ１３２、１４２）：
グラフ分割処理が作成したそれぞれの部分グラフ毎に、グラフ間一致度測定処理を用いて、一致度を測定する。
５．一致度合計処理（ステップ１４４）：
部分グラフごとに求めた一致度を合計した値を、分割前のグラフ全体の一致度とする。
【００７３】
次に、図５に示した類似度の計算方法（４種類）のそれぞれについて説明する。
１．グラフ分割を用いない方法（ステップ１１０）：
（ａ）文書要素の主題グラフＧ_ｑとＧ_ｕを、グラフ間一致度測定処理（ステップ１１１）に渡す。
【００７４】
（ｂ）グラフ間一致度測定処理（ステップ１１１）では、これら２のグラフＧ_ｑ，Ｇ_ｕ間の一致度を測定し、出力する。
この方法で求めた主題グラフ間の一致度を文書要素間の類似度とする。この方法は、グラフ分割を用いないので処理が高速である。
２．グラフ分割、再結合を用いる方法（ステップ１２０）：
（ａ）文書要素の主題グラフＧ_ｑとＧ_ｕを、グラフ分割処理（ステップ１２１）に渡す。
【００７５】
（ｂ）グラフ分割処理（ステップ１２１）は、Ｇ_ｑ、Ｇ_ｕをそれぞれ複数の部分グラフＧ_ｑｉ（ｉ＝０，１，…ｐ）、Ｇ_ｕｊ（ｊ＝０，１，…，ｒ）に分割し、Ｇ_ｑｉ，Ｇ_ｕｊ内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを生成する。
（ｃ）グラフ再結合処理（ステップ１２２）は、グラフ分割処理（ステップ１２１）で作成した部分グラフＧ_ｑｉ，Ｇ_ｕｊを、もう一度グラフ分割する前の状態に再結合することによって、Ｇ’_ｑ，Ｇ’_ｕを作成する。前述したように、再結合の際には、それぞれの部分グラフに生成したリンクを、Ｇ’_ｑ，Ｇ’_ｕに追加する。
【００７６】
（ｄ）グラフ間一致度測定処理（ステップ１２３）は、Ｇ’_ｑとＧ’_ｕ間の一致度を測定し出力する。
このようにして求めた主題グラフ間の一致度を文書要素間の類似度とする。この方法では、間接的な単語間の関連（同一の副題に含まれる単語には、直接のある程度の関連がある）を用いて類似度の判定を行うことができるので、より正確な類似度を計算できる。
【００７７】
３．部分グラフ毎の一致度の測定法（ステップ１３０）：
（ａ）文書要素の主題グラフＧ_ｑとＧ_ｕのそれぞれを、グラフ分割処理（ステップ１３１）に渡す。
（ｂ）グラフ分割処理（ステップ１３１）は、Ｇ’_ｑ，Ｇ’_ｕを複数の部分グラフＧ_ｑｉ（ｉ＝０，１，…，ｐ）、Ｇ_ｕｊ（ｊ＝０，１，…，ｒ）に分割し、Ｇ_ｑｉ，Ｇ_ｕｊ内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを追加する。
【００７８】
（ｃ）部分グラフ一致度測定処理（ステップ１３２）は、それぞれの部分グラフＧ_ｑｉとＧ_ｕｊの全ての組み合わせについて一致度を測定する。この際、グラフ間一致度測定処理（ステップ１３３）を利用する。部分グラフ毎に求めた一致度を出力する。
このようにして求めた、部分グラフごとの一致度を、それぞれ分割されたサブ文書（副題）毎の類似度とする。この方法では、文書全体を対象とするのではなく、文書内のサブ文書（副題）毎の類似度の計算を行うことができる。
【００７９】
４．部分グラフ毎の一致度の合計を用いる方法（ステップ１４０）：
（ａ）文書要素の主題グラフＧ_ｑ、Ｇ_ｕのそれぞれを、グラフ分割処理（ステップ１４１）に渡す。
（ｂ）グラフ分割処理（ステップ１４１）は、Ｇ_ｑ，Ｇ_ｕを複数の部分グラフＧ_ｑｉ（ｉ＝０，１，…，ｐ），Ｇ_ｕｊ（ｊ＝０，１，…，ｒ）に分割し、Ｇ_ｑｉ，Ｇ_ｕｊ内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを追加する。
【００８０】
（ｃ）部分グラフ一致度測定処理（ステップ１４２）は、それぞれの部分グラフＧ_ｑｉとＧ_ｕｊのすべての組み合わせについて一致度を測定する。この際、グラフ間一致度測定処理（ステップ１４３）を利用する。
（ｄ）一致度合計処理（ステップ１４４）は、部分グラフ一致度測定処理（ステップ１４２）で得られた全ての部分グラフ毎の一致度の合計を計算し、出力する。
【００８１】
このようにして求めた、合計された一致度を、文書要素間の類似度とする。この方法では、文書内の副題毎の類似度の総和によって、文書要素間の類似度を判定することができるので、より正確な類似度の計算を行うことができる。
以上をまとめると、処理を高速に行うことができるのが、「グラフ分割を用いない方法（ステップ１１０）」である。
【００８２】
「グラフ分割、再結合を用いる方法（ステップ１２０）」では、グラフ分割処理という複雑な処理を行う代わりに、間接的な単語間の関連も利用した、類似度の判定を行うことができる。
また、「部分グラフ毎の一致度の測定法（ステップ１３０）」では、文書要素をそれぞれ１つの文書として取り扱うのではなく、副題ごとに分割された独立したそれぞれのサブ文書毎の類似度の判定を行うことができる。
【００８３】
「部分グラフ毎の一致度の合計を用いる方法（ステップ１４０）」では、非常に処理が複雑であるが、文書内の副題毎の類似度の総和として、文書全体の類似度を求めることができるので、より正確な類似度を判定できる。
【００８４】
【実施例】
以下、図面と共に本発明の実施例を説明する。
最初に、前述の方法を用いた文書検索装置について説明する。
図８は、本発明の一実施例の文書検索装置の構成を示す。
同図に示す文書検索装置は、検索インタフェース部４１０、検索キー主題グラフ作成部４２０、単語情報管理部４３０、検索対象主題グラフ作成部４４０、類似度判定部４５０、検索制御部４６０、検索対象文書データベース４４１、及びインデックスファイル４３１から構成される。
【００８５】
検索インタフェース部４１０は、ユーザからの検索要求を解析し、検索キーを取り出し、検索制御部４６０に渡す。また、検索結果を検索制御部４６０から受け取り、ユーザに返す。
検索キー主題グラフ作成部４２０は、検索キーから主題グラフを作成する。
単語情報管理部４３０は、インデックスファイル４３１を参照することによって、指定された単語が出現する文書ＩＤの集合を取得する。ここで、インデックスファイル４３１は、単語をキー、その単語が出現する文書ＩＤの集合を値とするハッシュテーブルである。
【００８６】
検索対象文書主題グラフ作成部４４０は、文書ＩＤが指定されるとその文書ＩＤに対応した文書を検索対象文書データベース４４１から取得し、その文書の主題グラフを作成する。
類似度判定部４５０は、検索キーの主題グラフと検索対象文書の主題グラフを入力とし、それらの類似度を判定する。ここで、類似度の判定法は、前述の図５のフローチャートの方法を用いる。
【００８７】
検索制御部４６０は、以下の処理を行う。
（ａ）検索インタフェース部４１０から検索キーを取得する。
（ｂ）検索キー主題グラフ作成部４２０から、この検索キーから作成された主題グラフを取得する。
（ｃ）単語情報管理部４３０から、この主題グラフ内の単語のどれか一つでも出現する文書ＩＤの集合を取得する。
【００８８】
（ｄ）これらの文書ＩＤの集合のそれぞれの要素に対して、以下の処理を実行する。
▲１▼ 文書ＩＤに対応した検索対象文書の主題グラフを検索対象文書主題グラフ作成部４４０から取得する。
▲２▼ この検索対象文書の主題グラフと検索キーの主題グラフの類似度を類似度判定４５０から取得する。
【００８９】
（ｅ）文書ＩＤの集合を類似度の降順にソートし、上位ｎ件の文書ＩＤに対応した文書を検索結果とする。
以下、次の例を用いて処理の流れを説明する。
図９は、本発明の一実施例の主題グラフの作成の例を示す。
検索キーＱ：（情報ｏｒ文書）ａｎｄ検索
検索対象文書Ｕ：以下の５文からなる文書
「情報の主題について。
【００９０】
文書の主題について。
検索の効率を上げる。
情報を検索する。
文書を検索する。」
ステップ５０１）ユーザが検索要求を入力する。
【００９１】
ステップ５０２）検索インタフェース部４１０は、ユーザが入力した検索要求から検索キーを抽出し、検索制御部４６０に渡す。
ステップ５０３）検索制御部４６０は、検索キーを検索キー主題グラフ作成部４２０に渡す。
ステップ５０４）検索キー主題グラフ作成部４２０は、検索キーから主題グラフを作成し、検索制御部４６０に渡す。今回の例では、検索キーＱから図９の検索キーの主題グラフ５１０を作成した。但し、すべての単語の重要度を１．０とし、単語間の関連度は、“ｏｒ”の場合０．５、“ａｎｄ”の場合１．０とした。
【００９２】
ステップ５０５）検索制御部４６０は、検索キーの主題グラフに使用されているそれぞれの単語を単語情報管理部４３０に渡す。
ステップ５０６）単語情報管理部４３０は、その単語が一度でも出現する文書ＩＤの集合をインデックスファイル４３１から取得し、検索制御部４６０に渡す。
【００９３】
ステップ５０７）検索制御部４６０は、単語情報管理部４３０から取得した文書ＩＤの集合のそれぞれの要素を検索対象文書主題グラフ作成部４４０に渡す。
ステップ５０８）検索対象文書主題グラフ作成部４４０は、文書ＩＤに対応した文書を検索対象文書データベース４４１から取得し、その文書の主題グラフを作成し、これを検索制御部４６０に渡す。今回の例では、文書Ｕから図９の検索対象文書の主題グラフ５２０を作成した。但し、単語の重要度は出現回数に比例した値とし、単語間の関連度は、文内の共出現回数に比例した値とし、不要語は取り除いた。
【００９４】
ステップ５０９）検索制御部４６０は、検索対象文書主題グラフ作成部４４０から取得したそれぞれの主題グラフと検索キーの主題グラフを類似度判定部４５０に渡す。
ステップ５１０）類似度判定部４５０は、検索キーの主題グラフとそれぞれの検索対象文書の主題グラフとの類似度の判定を行う。
【００９５】
今回は、「グラフ分割を用いない方法」を使用した場合の例として、類似度の判定法を説明する。まず、図９の検索キーの主題グラフ５１０及び検索対象文書の主題グラフ５２０から、以下の単語の重要度を表すベクトルを生成する。但し、ベクトルｖ_Ｑ，ｖ_Ｕの要素は、それぞれ、検索キーＱ、検索対象文書Ｕ内での（情報，文書，検索，主題，効率）の重要度を示し、グラフに存在しない単語の重要度は、０．０とした。
【００９６】
ｖ_Ｑ＝（１．０，１．０，１．０，０．０，０．０）（５）
ｖ_ｕ＝（０．６，０．６，１．０，０．６，０．３）（６）
これらのベクトルの内積ｆ_ｖは、
ｆ_ｖ＝２．２
となる。
【００９７】
次に、同様に関連度を表すベクトルを生成する。但し、ベクトルｒ_Ｑ，ｒ_Ｕの要素は、それぞれ、検索キーＱ、検索対象文書Ｕ内での（情報と主題、情報と文書、情報と検索、情報と効率、主題と文書、主題と検索、主題と効率、文書と検索、文書と効率、検索と効率）の関連度を表し、グラフに存在しないリンクの重みは０とした。
【００９８】
ｒ_Ｑ＝（０．０，０．５，１．０，０．０，０．０，０．０，０．０，１．０，０．０，０．０）（７）
ｒ_Ｕ＝（１．０，０．０，１．０，０．０，１．０，０．０，０．０，１．０，０．０，１．０）（８）
これらのベクトルの内積ｆ_ｖは、
ｆ_ｖ＝２．０
となる。そこで、ｐ＝１，ｑ＝１とした場合、検索キーの主題グラフ５１０と検索対象文書の主題グラフ５２０の一致度は、
一致度＝ｆ_Ｕ＊ｆ_ｒ＝２．２＊２．０＝４．４
となり、今回の例での検索キーＱと検索対象文書Ｕの類似度は、４．４と計算される。
【００９９】
ステップ５１１）検索制御部４６０は、類似度判定部４５０から取得したそれぞれの文書の類似度に基づき、文書集合を降順に並べ替え、上位ｎ件を検索結果とし、これを検索インタフェース部４１０に渡す。ここで、類似度判定部４５０で、部分グラフごとの一致度の測定法を用いた場合は、上位ｎ件のサブ文書が検索結果となる。
【０１００】
ステップ５１２）検索インタフェース部４１０は、検索結果をユーザに返す。今回の例では、（文書Ｕ，４．４）が検索結果である。
次に、本発明を用いた文書分類装置について説明する。
図１０は、本発明の一実施例の文書分類装置の構成を示す。
同図に示す文書分類装置は、主題グラフ作成部６１０、類似度判定部６２０、分類部６３０、分類制御部６４０、文書データベース６１１から構成される。
【０１０１】
同図において、主題グラフ作成部６１０は、前述の文書検索装置の検索対象文書主題グラフ作成部４４０と全く同じものである。
主題グラフ作成部６１０は、文書データベース６１１から文書ＩＤに対応した文書を取得し、その文書の主題グラフを作成する。
類似度判定部６２０は、２つの文書の主題グラフが入力されると、これらの類似度を判定する。ここで、類似度の判定には、前述の文書検索装置の類似度判定部４５０と同様の類似度判定方法を用いるものとする。
【０１０２】
分類部６３０は、文書間類似度行列を基に文書を分類する。ここで、文書間類似度行列とは、以下の形式である。

但し、ｓ_ｉｊは、文書ｉと文書ｊの類似度を表し、ｓ_ｉｊ＝ｓ_ｊｉであり、ｓ_ｉｉは無限大である。
【０１０３】
文書間類似度行列が与えられた時の分類の方法は、例えば、類似度最大の文書同士を順次結合していくクラスタリングなどである。具体的な分類の方法は、既存記述による。
分類制御部６４０は、分類作業全体の制御を行う。
上記の構成の一連の動作を以下に説明する。
【０１０４】
ステップ６０１）ユーザは、文書データベース６１１内の文書を何個の文書集合に分類するのか（分類数）を指定する。
ステップ６０２）分類制御部６４０は、文書データベース６１１に含まれるすべての文書の文書ＩＤを主題グラフ作成部６１０に渡す。
ステップ６０３）主題グラフ作成部６１０は、それぞれの文書ＩＤに対応した文書を文書データベース６１１から取得し、主題グラフを作成し、これを分類制御部６４０に渡す。
【０１０５】
ステップ６０４）分類制御部６４０は、主題グラフ作成部６１０から取得した主題グラフのすべての２つの組み合わせを類似度判定部６２０に渡す。
ステップ６０５）類似度判定部６２０は、それぞれの主題グラフ間の類似度を判定し、分類制御部６４０に渡す。
ステップ６０６）分類制御部６４０は、類似度判定部６２０から取得したすべての２つの組み合わせの文書間の類似度から、文書間類似度行列を作成し、ユーザが入力した分類数と共に分類部６３０に渡す。
【０１０６】
ステップ６０７）分類部６３０は、文書間類似度行列と分類数を基に、文書集合の分類を行い、分類結果を分類制御部６４０に渡す。
ステップ６０８）分類制御部６４０は、分類結果をユーザに返す。
また、上記の実施例における文書検索装置と文書分類装置の構成要素をプログラムとして構築し、文書検索装置及び文書分類装置として利用されるコンピュータに接続されるディスク装置や、フロッピーディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより容易に本発明を実現できる。
【０１０７】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【０１０８】
【発明の効果】
上述のように、本発明によれば、文書要素間の類似度を単語の重要度だけであく、単語間の関連度を基に判定することができるので、より精度の高い類似度の判定を行うことができる。
また、検索キーと検索対象文書の類似度を、検索キー及び検索対象文書内での単語の重要度だけでなく、検索キー及び検索対象文書内での単語間の関連度も用いて計算することができるので、検索キーが文や文書になっても、また、検索対象が文書全文となった場合でも、より精度の高い情報検索を表現できる。
【０１０９】
また、同様に文書間の類似度を文書内の単語の重要度だけでなく、文書内の単語間の関連度も用いて計算することができるので、より精度の高い文書分類を実現できる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の文書検索装置の原理構成図である。
【図３】本発明の文書分類装置の原理構成図である。
【図４】本発明の類似度判定方法を説明するためのフローチャートである。
【図５】本発明の類似度判定処理の動作を説明するための図である。
【図６】本発明のグラフ分類処理を説明するための図である。
【図７】本発明のグラフ再結合処理を説明するための図である。
【図８】本発明の一実施例の文書検索装置の構成図である。
【図９】本発明の一実施例の主題グラフの作成の例を示す図である。
【図１０】本発明の一実施例の文書分類装置の構成図である。
【符号の説明】
２１０分割前のグラフ
２１１，２２２，２２３部分グラフ
３１１，３１２，３１３部分グラフ
３２０再結合したグラフ
４１０検索インタフェース手段、検索インタフェース部
４２０検索キー主題グラフ作成手段、検索キー主題グラフ作成部
４３０単語情報管理手段、単語情報管理部
４３１インデックスファイル
４４０検索対象文書主題グラフ作成手段、検索対象文書主題グラフ作成部
４４１検索対象文書記憶手段、検索対象文書データベース
４５０類似度判定手段、類似度判定部
４６０検索制御手段、検索制御部
５１０検索キーＱの主題グラフ
５２０検索対象文書Ｕの主題グラフ
６１０主題グラフ作成手段、主題グラフ作成部
６１１文書記憶手段、文書データベース
６２０グラフ類似度判定手段、類似度判定部
６３０分類手段、分類部
６４０分類制御手段、分類部制御部

Claims

文書要素間の類似度を適切に判定するための類似度判定方法において、
主題グラフ作成手段において、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素が複数入力されると、各文書要素内で使用されている単語を抽出し、抽出されたそれぞれの該単語に重要度を付与し、該単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした、それぞれの文書要素の主題グラフを生成し、
類似度判定手段において、前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求めることを特徴とする類似度判定方法。
前記単語を抽出する際に、
前記文書要素を形態素解析する請求項１記載の類似度判定方法。
前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
両方の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるノードに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のノードに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値とし、
前記両方の主題グラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方の主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるリンクに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方の主題グラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する請求項１記載の類似度判定方法。
前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連しあっているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
前記部分グラフを再結合し、
前記部分グラフに生成したリンクをそのまま追加して、分割前の主題グラフに戻して前記主題グラフ間の一致の度合を計算する請求項１記載の類似度判定方法。
前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの前記部分グラフ毎に一致の度合を計算する請求項１記載の類似度判定方法。
前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する請求項１記載の類似度判定方法。
ユーザからの検索要求に基づいて文書を検索するための文書検索装置であって、
前記ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェース手段と、
前記検索キーの単語の重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成手段と、
指定された単語が出現する文書の文書ＩＤの集合を取得する単語情報管理手段と、
前記文書ＩＤが指定されると、該文書ＩＤに対応した文書を検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成手段と、
前記検索キーの主題グラフと前記文書の主題グラフを入力し、それらがどの程度似ているのかを判断する類似度判定手段と、
前記検索インタフェース手段、前記検索キー主題グラフ作成手段、前記単語情報管理手段、前記検索対象文書主題グラフ作成手段、及び前記類似度判定手段の制御を行う検索制御手段と、を有することを特徴とする文書検索装置。
前記検索キー主題グラフ作成手段は、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれ任意の２単語間に関連度を付与する関連度付与手段とを含み、
前記検索対象文書主題グラフ作成手段は、
前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを作成する主題表現手段を含み、
前記類似度判定手段は、
前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求める手段を含む請求項７記載の文書検索装置。
前記類似度判定手段は、
前記検索キーの主題グラフと前記文書の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
前記両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第１の計算手段を含む請求項７記載の文書検索装置。
前記類似度判定手段は、
それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
前記部分グラフを再結合し、
前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第２の計算手段を含む請求項７記載の文書検索装置。
前記類似度判定手段は、
それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの前記部分グラフ毎に一致の度合を計算する第３の計算手段を含む請求項７記載の文書検索装置。
前記類似度判定手段は、
それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの前記部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第４の計算手段を含む請求項７記載の文書検索装置。
文書が格納されている文書記憶手段から、文書ＩＤに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成手段と、
２つの文書の主題グラフが入力されると、これらの一致の度合を計算するグラフ類似度判定手段と、
文書間の類似度を表す行列に基づいて、該文書を分類する分類手段と、
分類作業全体の制御を行う分類制御手段とを有することを特徴とする文書分類装置。
前記主題グラフ作成手段は、
前記主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれの任意の２単語間に関連度を付与する関連度付与手段と、
前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとして前記主題グラフを生成する主題表現手段とを含み、
前記グラフ類似度判定手段は、
前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を計算する手段を含む請求項１４記載の文書分類装置。
前記グラフ類似度判定手段は、
両方のグラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多いほど、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
前記両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する第１の計算手段を含む請求項１３記載の文書分類装置。
前記グラフ類似度判定手段は、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
前記部分グラフを再結合し、
前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記主題グラフ間の一致の度合を計算する第２の計算手段を含む請求項１３記載の文書分類装置。
前記グラフ類似度判定手段は、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの前記部分グラフ毎に一致の度合を計算する第３の計算手段を含む請求項１３記載の文書分類装置。
前記グラフ分類度判定手段は、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの前記部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する第４の計算手段を含む請求項１３記載の文書分類装置。
ユーザからの検索要求に基づいて文書を検索するための文書検索プログラムを格納した記憶媒体であって、
コンピュータに、
前記ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェースステップと、
前記検索キーの重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成ステップと、
指定された単語が出現する文書の文書ＩＤの集合を取得する単語情報管理ステップと、
前記文書ＩＤが指定されると、該文書ＩＤに対応した文書を検索対象文書が格納されている検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成ステップと、
前記検索キーの主題グラフと検索対象文書の前記文書の主題グラフを入力とし、それらがどの程度似ているかを判断する類似度判定ステップと、
を実行させるプログラムを格納したことを特徴とする文書検索プログラムを格納した記憶媒体。
前記検索キー主題グラフ作成ステップは、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれ任意の２単語間に関連度を付与する関連度付与ステップと、を実行させ、
前記検索対象文書主題グラフ作成ステップは、
前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップを実行させ、
前記類似度判定ステップは、
前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求めるステップを実行させる請求項１９記載の文書検索プログラムを格納した記憶媒体。
前記類似度判定ステップは、
前記検索キーの主題グラフと前記文書の主題グラフの両方のグラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
前記両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第１の計算ステップを実行させる請求項１９記載の文書検索プログラムを格納した記憶媒体。
前記類似度判定ステップは、
前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第２の計算ステップを実行させる請求項１９記載の文書検索プログラムを格納した記憶媒体。
前記類似度判定ステップは、
前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分リンクに小さい重みのリンクを生成し、
前記検索キーの主題グラフと前記文書の主題グラフそれぞれの前記部分グラフ毎に一致の度合を計算する第３の計算ステップを実行させる請求項１９記載の文書検索プログラムを格納した記憶媒体。
前記類似度判定ステップは、
前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第４の計算ステップを実行させる請求項１９記載の文書検索プログラムを格納した記憶媒体。
文書を分類するための文書分類プログラムを格納した記憶媒体であって、
コンピュータに、
文書が格納されている文書記憶手段から、文書ＩＤに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成ステップと、
２つの文書の主題グラフが入力されると、これらの一致の度合を判定するグラフ分類判定ステップと、
文書間の類似度を表す行列に基づいて、該文書を分類する分類ステップと、を実行させるプログラムを格納したことを特徴とする文書分類プログラムを格納した記憶媒体。
前記主題グラフ作成ステップは、
前記主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれの任意の２単語間に関連度を付与する関連度付与ステップと、
前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした前記主題グラフを生成する主題表現ステップと、
前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求める文書要素間類似度判定ステップを実行させる請求項２５記載の文書分類プログラムを格納した記憶媒体。
前記グラフ類似度判定ステップは、
両方の主題グラフの同様のノード（同じ単語を含んでいるノード）の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
前記両方のグラフの同様のリンク（リンクの両端のノードに含まれる単語が同じであるリンク）の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する第１のステップを実行させる請求項２５記載の文書分類プログラムを格納した記憶媒体。
前記グラフ類似度判定ステップは、
それぞれの前記主題グラフを、該グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
前記部分グラフを再結合し、
前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記主題グラフ間の一致の度合を計算する第２の計算ステップを実行させる請求項２５記載の文書分類プログラムを格納した記憶媒体。
前記グラフ類似度判定ステップは、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第３の計算ステップを実行させる請求項２５記載の文書分類プログラムを格納した記憶媒体。
前記グラフ類似度判定ステップは、
それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する第４の計算ステップを実行させる請求項２５記載の文書分類プログラムを格納した記憶媒体。