JP3577972B2 - 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 - Google Patents

類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP3577972B2
JP3577972B2 JP29732198A JP29732198A JP3577972B2 JP 3577972 B2 JP3577972 B2 JP 3577972B2 JP 29732198 A JP29732198 A JP 29732198A JP 29732198 A JP29732198 A JP 29732198A JP 3577972 B2 JP3577972 B2 JP 3577972B2
Authority
JP
Japan
Prior art keywords
document
graph
subject
degree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29732198A
Other languages
English (en)
Other versions
JP2000123041A (ja
Inventor
準二 富田
浩 竹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP29732198A priority Critical patent/JP3577972B2/ja
Publication of JP2000123041A publication Critical patent/JP2000123041A/ja
Application granted granted Critical
Publication of JP3577972B2 publication Critical patent/JP3577972B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体に係り、特に、単語列、または、単語列のブール演算子結合、または、文書、または、文書集合からなる文書要素間の類似度を適切に判定するための類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来の技術による文書検索装置は、以下の方法で検索キーと検索対象文書との類似度を判定することによって、検索結果を決定するものである。ここで、検索キーは、単語列、または、単語列のブール演算子結合だけでなく、文書、または、文書集合などの場合もある。
【0003】
まず、形態素解析と呼ばれる技術を用いて検索対象のそれぞれの文書に使用されている単語を抽出し、出現頻度情報などに基づき、それぞれの単語にその単語の主題(内容)との関連の強さを表す重要度を付与する。同様に、ユーザの入力した検索キー内の単語にも重要度を付与し、それぞれの単語がどの程度の重要度で、それぞれの文書に含まれているのか調べ、検索キー内のブール演算子を適切に処理して類似度を計算する。最後に検索対象の文書を、このようにして求められた類似度の降順にソートして、上位n件を検索結果とするものである。なお、ここで、nは、正の定数である。
【0004】
例えば、「情報または、文書(特に文書)の検索」に関する文書を検索したいとする。ユーザは、検索キーとして、
((情報0.5 or 文書0.8 ) and 検索1.0 )
と指定する。文書検索装置は、まず、検索キー内での単語の重要度(それぞれ(情報,0.5 )(文書,0.8 )(検索,1.0 )を求める(この例の場合、検索キー内に重要度が明示的に記述されているが、単語の出現頻度情報などからこれらの重要度を自動的に決定する場合もある)。
【0005】
次に、検索キーに使用されている単語「情報」「文書」「検索」の検索対象のそれぞれの文書内での重要度を出現頻度などを基にして求める。これらが次の値であったとする。
Figure 0003577972
検索キー内での単語の重要度と、検索対象文書内でのその単語の重要度の積を計算し、検索キー内で、orが使われた場合は、その両側の値を足すこととし、andが使われた場合は、その両側の値の小さい方を取ることとする。
【0006】
この方法で、検索キーとそれぞれの文書の類似度は以下のように求めることができる。
文書aの類似度=min((0.5*0.4 + 0.8*0.6), 1.0*0.9)=min(0.68,0.9)=0.68
文書bの類似度=min((0.5*0.4 + 0.8*0.1), 1.0*0.0)=min(0.26,0.0)=0.0
文書cの類似度=min((0.5*0.3 + 0.8*0.8), 1.0*1.0)=min(0.79,1.0)=0.79
ここで、min(x,y)は、x,yの小さい方の値を返す。
【0007】
このようにして、検索キーと検索対象文書との類似度を計算し、この値の降順に検索対象文書をソートして、上位n(=2)件を検索結果とする。従って、この場合の検索結果は、
文書c(類似度 0.79)
文書a(類似度 0.68)
となる。
【0008】
また、従来の文書分類装置は、分類対象となる文書集合内のすべての2つの文書の組み合わせについて、それら文書間の類似度を判定することによって、文書を分類するものである。
まず、分類対象となる文書集合のそれぞれの文書から単語を抽出し、それらの単語に適切な重要度を付与する。次に、この重要度を基に、文書検索装置で述べた方法と同様の方法で分類対象となる文書集合内の全ての2つの文書の組み合わせについてそれら文書間の類似度を判定する。次にこの文書間の類似度に基づき、類似度の大きい文書同士を順次結合していくことによって、文書を分類する。この手法は、クラスタリングと呼ばれている。
【0009】
【発明が解決しようとする課題】
より精度の高い文書検索装置及び文書分類装置を構成するためには、文書要素間の類似度を適切に判定する必要がある。ここで、文書要素とは、単語列、または、単語のブール演算子結合、または、文書、または、文書集合である。しかしながら、従来の類似度判定方法には、以下のような問題がある。
【0010】
1.複数の主題や副題を持つ文書要素間の類似度を精度良く判定できない:
文書要素が単語列や要約などの場合、その文書要素は1つの主題を持っていると考えられるが、一般に文書全文を対象とするとその文書は複数の主題や副題を持つものとなる。そのため、このような文書全文を対象とすると類似度が適切に計算されない。
【0011】
例えば、文書検索作業において、ユーザが「情報検索を行うロボット」に関する文書を検索したい場合に、「情報検索 and ロボット」と検索キーを指定したとする。しかし、この検索キーでは、「情報検索システム」と「産業用ロボット」という2つの主題を持つ文書にまで高い類似度を与えてしまう。このように、文書要素が複数の主題や副題を持つ場合に、類似度を精度良く判定できないという問題がある。
【0012】
2.文書要素の持つ特徴を利用した類似度の判定ができない:
文内に使用されている単語間には、係り受け関係などの特徴がある。また、文書には、パラグラフなどの特徴がある。しかしながら、従来の類似度判定方法では、単語を抽出し、それらの単語に重要度を付与し、それらを基に類似度を判定するだけなので、これらの特徴を利用することができず、類似度を精度良く判定できないという問題がある。
【0013】
3.形態素解析の不完全性:
単語を文書から抽出する際に用いられる形態素解析では、どの部分文字列が単語となるかを認識する必要があり、そのために、単語を予め辞書に登録しておく必要がある。しかしながら、情報の更新速度が速い場合には、全ての単語を予め辞書に登録しておくことは不可能であり、このような情報を対象とした場合、単語の抽出を行う際の解析の失敗は避けられない。例えば、辞書に、「インター」と「ネット」という単語だけしか登録されていない場合、「インターネット」という単語は抽出されず、この単語は、「インター」と「ネット」という2つの単語として抽出されてしまう。このように、単語の抽出の失敗が起こるために、類似度を精度良く判定できないという問題がある。
【0014】
本発明は、上記の点に鑑みなされたもので、複数の主題や副題を持つ文書要素間の類似度を精度良く判定し、文書要素の持つ特徴を利用した類似度の判定を可能とし、形態素解析の不完全性を解決して文書要素間の類似度を精度良く判定することが可能な類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体を提供することを目的とする。
【0015】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、文書要素間の類似度を適切に判定するための類似度判定方法において、
主題グラフ作成手段において、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素が複数入力されると、各文書要素内で使用されている単語を抽出し(ステップ1)、
抽出されたそれぞれの単語に重要度を付与し(ステップ2)、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとし(ステップ3)、それぞれの文書要素の主題グラフを生成し(ステップ4)、
類似度判定手段において主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める(ステップ5)。
【0016】
本発明(請求項2)は、単語を抽出する際に、文書要素を形態素解析する。
本発明(請求項)は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
両方の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるノードに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のノードに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値とし、
両方の主題グラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方の主題グラフ間の一致の度合を大きな値とし、
片方の主題グラフ内にあるリンクに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のリンクに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する。
【0017】
本発明(請求項)は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連しあっているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前の主題グラフに戻して主題グラフ間の一致の度合を計算する。
【0018】
本発明(請求項)は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する。
【0019】
本発明(請求項)は、類似度判定手段において、主題グラフ間の一致の度合を計算する際に、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する。
【0020】
図2は、本発明の文書検索装置の原理構成図である。
本発明(請求項)は、ユーザからの検索要求に基づいて文書を検索するための文書検索装置であって、
ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェース手段410と、
検索キーの単語の重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成手段420と、
指定された単語が出現する文書の文書IDの集合を取得する単語情報管理手段430と、
文書IDが指定されると、該文書IDに対応した文書を検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成手段440と、
検索キーの主題グラフと文書の主題グラフを入力し、それらがどの程度似ているのかを判断する類似度判定手段450と、
検索インタフェース手段410、検索キー主題グラフ作成手段420、単語情報管理手段430、検索対象文書主題グラフ作成手段440、及び類似度判定手段450の制御を行う検索制御手段460とを有する。
【0021】
本発明(請求項)は、検索キー主題グラフ作成手段420において、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれ任意の2単語間に関連度を付与する関連度付与手段とを含み、
検索対象文書主題グラフ作成手段440は、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを作成する主題表現手段を含み、
類似度判定手段450は、
検索キーの主題グラフと文書の主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める手段を含む。
【0022】
本発明(請求項)は、類似度判定手段450において、
検索キーの主題グラフと文書の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第1の計算手段を含む。
【0023】
本発明(請求項10)は、類似度判定手段450において、
それぞれの検索キーの主題グラフと文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第2の計算手段を含む。
【0024】
本発明(請求項11)は、類似度判定手段450において、
それぞれの検索キーの主題グラフと文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第3の計算手段を含む。
【0025】
本発明(請求項12)は、類似度判定手段450において、
それぞれの検索キーの主題グラフと文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第4の計算手段を含む。
【0026】
図3は、本発明の文書分類装置の原理構成図である。
本発明(請求項13)は、文書が格納されている文書記憶手段から、文書IDに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成手段610と、
2つの文書の主題グラフが入力されると、これらの一致の度合を計算するグラフ類似度判定手段620と、
文書間の類似度を表す行列に基づいて、該文書を分類する分類手段630と、
分類作業全体の制御を行う分類制御手段640とを有する。
【0027】
本発明(請求項14)は、主題グラフ作成手段610において、
主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
抽出されたそれぞれの任意の2単語間に関連度を付与する関連度付与手段と、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとして主題グラフを生成する主題表現手段とを含み、
グラフ類似度判定手段620は、
主題グラフ間の一致の度合に基づき、文書要素間の類似度を計算する手段を含む。
【0028】
本発明(請求項15)は、グラフ類似度判定手段620において、
両方のグラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多いほど、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する第1の計算手段を含む。
【0029】
本発明(請求項16)は、グラフ類似度判定手段620において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して主題グラフ間の一致の度合を計算する第2の計算手段を含む。
【0030】
本発明(請求項17)は、グラフ類似度判定手段620において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第3の計算手段を含む。
【0031】
本発明(請求項18)は、グラフ分類度判定手段620において、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する第4の計算手段を含む。
【0032】
本発明(請求項19)は、ユーザからの検索要求に基づいて文書を検索するための文書検索プログラムを格納した記憶媒体であって、
コンピュータに、
ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェースステップと、
検索キーの重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成ステップと、
指定された単語が出現する文書の文書IDの集合を取得する単語情報管理ステップと、
文書IDが指定されると、該文書IDに対応した文書を検索対象文書が格納されている検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成ステップと、
検索キーの主題グラフと検索対象文書の文書の主題グラフを入力とし、それらがどの程度似ているかを判断する類似度判定ステップと、
を実行させるプログラムを格納した文書検索プログラムを格納した記憶媒体である。
【0033】
本発明(請求項20)は、検索キー主題グラフ作成ステップは、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれ任意の2単語間に関連度を付与する関連度付与ステップと、を実行させ、
検索対象文書主題グラフ作成ステップは、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップを実行させ
類似度判定ステップは、
検索キーの主題グラフと文書の主題グラフ間の一致の度合に基づき、文書要素間の類似度を求めるステップを実行させる。
【0034】
本発明(請求項21)は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフの両方のグラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第1の計算ステップを実行させる。
【0035】
本発明(請求項22)は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第2の計算ステップを実行させる。
【0036】
本発明(請求項23)は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分リンクに小さい重みのリンクを生成し、
検索キーの主題グラフと文書の主題グラフそれぞれの部分グラフ毎に一致の度合を計算する第3の計算ステップを実行させる。
【0037】
本発明(請求項24)は、類似度判定ステップにおいて、
検索キーの主題グラフと文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、検索キーの主題グラフと文書の主題グラフ間の一致の度合を計算する第4の計算ステップを実行させる。
【0038】
本発明(請求項25)は、文書を分類するための文書分類プログラムを格納した記憶媒体であって、
コンピュータに、
文書が格納されている文書記憶手段から、文書IDに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成ステップと、
2つの文書の主題グラフが入力されると、これらの一致の度合を判定するグラフ分類判定ステップと、
文書間の類似度を表す行列に基づいて、該文書を分類する分類ステップと、を実行させるプログラムを格納した文書分類プログラムを格納した記憶媒体である。
【0039】
本発明(請求項26)は、主題グラフ作成ステップにおいて、
主題グラフ間の一致の度合を測定するために、
単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
抽出されたそれぞれの任意の2単語間に関連度を付与する関連度付与ステップと、
単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップと、
主題グラフ間の一致の度合に基づき、文書要素間の類似度を求める文書要素間類似度判定ステップを実行させる
【0040】
本発明(請求項27)は、グラフ類似度判定ステップにおいて、
両方の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値にするように、主題グラフ間の一致の度合を計算する第1のステップを実行させる。
【0041】
本発明(請求項28)は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
部分グラフを再結合し、
部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して主題グラフ間の一致の度合を計算する第2の計算ステップを実行させる。
【0042】
本発明(請求項29)は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算する第3の計算ステップを実行させる。
【0043】
本発明(請求項30)は、グラフ類似度判定ステップにおいて、
それぞれの主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
それぞれの部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
それぞれの部分グラフ毎に一致の度合を計算し、
部分グラフ毎に計算された一致の度合の総和を計算することにより、主題グラフ間の一致の度合を計算する第4の計算ステップを実行させる。
【0044】
上記により、本発明によれば、複数の主題や副題を持つ文書要素間の類似度を精度良く判定できない問題を、単語間の関連度を用いることによって、複数の主題や副題を持つ文書要素間の類似度を精度良く判定することが可能となる。例えば、前述の発明が解決しようとする課題における例において、ユーザが「情報検索を行うロボット」に関する文書を検索したい場合に、本発明では、「情報検索」と「ロボット」が強く関連している文書の方がそうでない文書を比べて、高い類似度となる。前述した、「情報検索システム」と「産業用ロボット」という2つの主題を持つ文書内では、「情報検索」と「ロボット」が強く関連していないので、このような文書は、高い類似度とならない。このように、本発明では、類似度を精度よく判定することが可能となる。
【0045】
また、本発明によれば、文書要素の持つ特徴を利用した類似度の判定ができないという問題を、文内で強い係り受けの関係にある単語間や、同一のパラグラフに含まれる単語間に高い関連度を与えることができるため、これらの特徴を利用した類似度の判定により解決できる。このように、本発明を利用すれば、類似度を精度良く判定できる。
【0046】
更に、形態素解析を利用しているため単語の抽出の失敗により類似度の判定の精度を低下させるという問題に対して、本発明では、前述の「インターネット」という単語の抽出の失敗の例を用いて説明すると、形態素解析を利用しているため、前述した例と同様に、「インターネット」という単語は抽出されず、この単語は、「インター」と「ネット」という2つの単語として抽出されてしまう。しかしながら、ある文書要素に「インターネット」という文字列がある場合、その文書要素内では、抽出された単語「インター」と「ネット」の間には強い関連がある。従って、「インター」と「ネット」が別々に出現する文書要素に比べて、「インターネット」という文字列が出現する文書要素の方が高い類似度となる。従って、たとえ、形態素解析に失敗したとしても、本発明により類似度判定の精度の低下を阻止することが可能となる。
【0047】
上記により、本発明では、文書要素間の類似度を精度良く判定できるので、精度の良い類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体を提供することができる。
【0048】
【発明の実施の形態】
図4は、本発明の類似度判定方法を説明するためのフローチャートである。
ステップ10) 文書要素内で使用されている単語を抽出する。
ステップ20) 文書要素内で使用されているそれぞれの単語の重要度を計算する。
【0049】
ステップ30) 文書要素内で使用されている任意の2単語間の関連度を計算する。
ステップ40) 単語の重要度をノードの重みとし、単語間の関連度をリンクの重みとした、グラフによってそれぞれの文書要素の主題を表現する。以下、このグラフを主題グラフと呼ぶ。
【0050】
ステップ50) このようにして生成した主題グラフ同士の一致度に基づき、文書要素間の類似度を判定する。
以下、上記の各ステップの動作を詳細に説明する。
ステップ10) 単語の抽出:
単語の抽出は、文書要素を形態素解析することによっておこなう。形態素解析手法には、既存技術を用いるものとする。
【0051】
ステップ20) 重要度の計算:
それぞれの文書要素内で使用されている単語の重要度を、次のようにして計算する。本発明では、文書要素として、単語列、単語のブール演算子結合、文、文書、文書集合を想定しているので、それぞれについての単語の重要度の計算法を以下に示す。
【0052】
・単語列: 全ての単語の重要度を同じ値にするか、または、ユーザにそれぞれの単語の重要度を明示的に指定させることによって、重要度を決定する。
・単語のブール演算子結合: 単語列の場合と同様の方法で重要度を決定する。
・文: 全ての単語を同じ重要度とするか、または、単語の品詞(固有名詞には、副詞よりも高い重要度を付与するなど)に応じて重要度を決定する。
【0053】
・文書: 文の場合と同様の方法で重要度を決定するか、または、単語の出現位置情報(タイトル内で出現する単語には高い重要度を付与)、出現頻度情報(高い出現頻度の単語には高い重要度を付与)、文書要素集合全体の中での出現文書要素数(特定の文書要素にしか出現しない単語には高い重要度を付与)などに基づき計算する。
【0054】
・文書集合: 文書集合全体を一つの大きな文書(全ての文書を結合した文書)と考えて、文書の場合と同様の方法で重要度を計算する。
ステップ30) 関連度の計算:
それぞれの文書要素内で使用されている単語間の関連度を、次のようにして計算する。本発明では、文書要素として、単語列、単語のブール演算子結合、文、文書、文書集合を想定しているので、それぞれについての単語間の関連度の計算法を次に示す。
【0055】
・単語列: 文書要素に含まれる全ての2単語間の関連度を等しい値とするか、または、ユーザに明示的に関連度を指定させることによって、関連度を決定する。
・単語のブール演算子結合: 単語列での方法に加えて、ブール演算子の種類に応じて関連度を決定する。例えば、andで結合されている単語同士は、orで結合されているものに比べて関連度を大きな値とする。
【0056】
・文: 単語列での方法を用いるか、または、次に示す、係り受け関係の情報を用いて計算する。まず、文の係り受け関係の解析を行う。係り受け関係の解析の手法は、既存技術を用いるものとする。直接の係り受けの関係にあるもの同士は強い関連があるとし、間接的な係り受け関係にあるものは、弱い関連があるものとする。例えば、「情報の検索に単語の重要度を利用する」という文があった場合、「情報」と「検索」の関連度は、「情報」と「単語」の関連度に比べて大きな値とする。なぜなら、「情報」と「検索」は、直接の係り受け関係にあるのに対して、「情報」と「単語」は直接の係り受け関係にないからである。
【0057】
・文書: 文での方法を用いるか、または、以下の2つのどちらかの方法によって、単語間の関連度を計算する。
−共出現情報の利用:
ある2単語が同一の文内(または、指定文字数の範囲内)で共出現した場合、これらの共出現回数を数える。共出現の回数が多ければ多い程、それら2単語間の関連度を大きな値とする。
【0058】
−構造情報を利用:
文書の構造(章、パラグラフなど)を解析する。あるパラグラフ内に現れる単語はそのパラグラフの見出し語と関連があり、また、パラグラフ内の単語同士は関連があると考えられるので、パラグラフ内での頻度情報に基づき、単語間の関連度を決定する。例えば、あるパラグラフだけに高い頻度で出現している単語はその節の見出し語と強い関連があり、また、それらの単語同士は強い関連があるとする。
【0059】
・文書集合: 文書集合を一つの大きな文書(全ての文書を結合した文書)と考えて、文書の場合と同様の方法で関連度を計算する。
ステップ40) 主題グラフの作成:
ステップ20で求めた単語の重要度をノード重みとし、ステップ30で求めた単語間の関連度をリンクの重みとしたグラフを作成する。このグラフ(主題グラフ)によって文書要素の主題を表現する。
【0060】
ステップ50) ステップ140で作成した文書要素の主題グラフ間の一致度を測定することによって、文書要素間の類似度を判定する。類似度判定処理の構成を図5に示す。
図5は、本発明の類似度判定処理の動作を説明するための図である。
1.グラフ間一致度測定処理(ステップ111、123、133、143):文書要素の主題グラフqとuの一致度を、以下の式によって計算する。グラフqとグラフuに使用されている単語の重要度をそれぞれ以下のベクトルで表す。
【0061】
=(vq1,vq2,…,vqn) (1)
=(vu1,vu2,…,vun) (2)
ここで、vqiとvuiはそれぞれ、文書要素q内での単語iの重要度、文書u内での単語iの重要度を表す。
これらのベクトルの内積f
【0062】
【数1】
Figure 0003577972
【0063】
を計算する。
グラフqとグラフuに使用されている単語間の関連度をそれぞれ以下のように表す。
=(vq11 ,vq12 ,…,vq21 ,vq22 ,…,vqnn ) (3)
=(vu11 ,vu12 ,…,vu21 ,vu22 ,…,vunn ) (4)
ここで、vqij とvuij は、それぞれ、文書要素q内での単語iと単語jの関連度、文書要素u内での単語iと単語jの関連度を表す。
【0064】
これらのベクトルの内積
【0065】
【数2】
Figure 0003577972
【0066】
を計算する。
とfからグラフ間の一致度を以下のように求める。
一致度=f *f
ここで、p及びqは正の定数である。
2.グラフ分割処理(ステップ121、131、141):
以下の処理によって、グラフを分割し、それぞれの部分グラフ内に小さい重みのリンクを生成する。
【0067】
(a) グラフGをノード間の結合力の強さに応じて、p個の部分グラフにGAi(i=0,1,…,p)に分割する。ここで、結合力の強さとは、例えば、「それぞれの部分グラフ内の任意のノード間には、必ず、距離1のリンクが存在するか、または、距離n(n≧2)以下のリンクがm(m≧1)本以上存在する。」などである。ここで、ノードaとノードb間の距離とは、aからbへ到達するのに通過するリンクの本数である。
【0068】
(b) 分割された部分グラフ内の任意のノード間にリンクが存在しない場合は、これらのノード間に弱い重みのリンクを生成する。
n=2,m=2の場合のグラフ分割処理を図6に示す。この例では、分割前のグラフG(210)は、3個の部分グラフ(GA1(221),GA2(222),GA3(233))に分割されている。このように分割されるのは、
・GA1(211)について、ノードAB,AC,BD,CD間に距離1のリンクが存在し、AD,BC間のそれぞれには、距離2のリンクが2本存在する。
・GA2(222)について、ノードBD,BE,DE間に、距離1のリンクが存在する。
・GA3(223)について、ノードDF間の距離1のリンクが存在する。
【0069】
このため、「それぞれの部分グラフ内の任意の2ノード間には、必ず距離1のリンクが存在するか、または、距離2以下のリンクが2本以上存在する。」という条件を満たすからである。また、GA1(221)における破線は、グラフ分割処理の(b)で追加された弱い重みのリンクである。
この処理から明らかなように、分割された部分グラフ内の単語同士は、強い結合力で結ばれている。従って、これらの部分グラフは、意味的に関連の強い単語の集合で構成されていることになるので、これらの部分グラフからなるサブ文書はそれぞれもとの文書の副題を表すことになる。
【0070】
また、このように部分グラフ内にリンクを生成することによって、それぞれの副題に含まれる単語同士には、ある程度の関連があるということをグラフ上で表現している。
3.グラフ再結合処理(ステップ122):
グラフ分割処理が作成した部分グラフGAi(i=0,1,…,p)を分割前のグラフG’に再結合する。このとき、G’は、グラフ分割処理(ステプ121)で生成されたリンクを追加したものである。
【0071】
図7に、グラフ再結合処理の例を示す。この例では、図6のG(210)から作成された、3個の部分グラフ(GA1(311),GA2(312),GA3(313))を、元のグラフへ再結合することによって、G’(320)を作成している。グラフ分割処理、グラフ再結合処理が作成したG’には、AD間やBC間にGには存在しなかった弱い重みのリンクが追加されている。
【0072】
4. 部分グラフ一致度測定処理(ステップ132、142):
グラフ分割処理が作成したそれぞれの部分グラフ毎に、グラフ間一致度測定処理を用いて、一致度を測定する。
5.一致度合計処理(ステップ144):
部分グラフごとに求めた一致度を合計した値を、分割前のグラフ全体の一致度とする。
【0073】
次に、図5に示した類似度の計算方法(4種類)のそれぞれについて説明する。
1. グラフ分割を用いない方法(ステップ110):
(a) 文書要素の主題グラフGとGを、グラフ間一致度測定処理(ステップ111)に渡す。
【0074】
(b) グラフ間一致度測定処理(ステップ111)では、これら2のグラフG,G間の一致度を測定し、出力する。
この方法で求めた主題グラフ間の一致度を文書要素間の類似度とする。この方法は、グラフ分割を用いないので処理が高速である。
2. グラフ分割、再結合を用いる方法(ステップ120):
(a) 文書要素の主題グラフGとGを、グラフ分割処理(ステップ121)に渡す。
【0075】
(b) グラフ分割処理(ステップ121)は、G、Gをそれぞれ複数の部分グラフGqi(i=0,1,…p)、Guj(j=0,1,…,r)に分割し、Gqi,Guj内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを生成する。
(c) グラフ再結合処理(ステップ122)は、グラフ分割処理(ステップ121)で作成した部分グラフGqi,Gujを、もう一度グラフ分割する前の状態に再結合することによって、G’,G’を作成する。前述したように、再結合の際には、それぞれの部分グラフに生成したリンクを、G’,G’に追加する。
【0076】
(d) グラフ間一致度測定処理(ステップ123)は、G’とG’間の一致度を測定し出力する。
このようにして求めた主題グラフ間の一致度を文書要素間の類似度とする。この方法では、間接的な単語間の関連(同一の副題に含まれる単語には、直接のある程度の関連がある)を用いて類似度の判定を行うことができるので、より正確な類似度を計算できる。
【0077】
3. 部分グラフ毎の一致度の測定法(ステップ130):
(a) 文書要素の主題グラフGとGのそれぞれを、グラフ分割処理(ステップ131)に渡す。
(b) グラフ分割処理(ステップ131)は、G’,G’を複数の部分グラフGqi(i=0,1,…,p)、Guj(j=0,1,…,r)に分割し、Gqi,Guj内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを追加する。
【0078】
(c) 部分グラフ一致度測定処理(ステップ132)は、それぞれの部分グラフGqiとGujの全ての組み合わせについて一致度を測定する。この際、グラフ間一致度測定処理(ステップ133)を利用する。部分グラフ毎に求めた一致度を出力する。
このようにして求めた、部分グラフごとの一致度を、それぞれ分割されたサブ文書(副題)毎の類似度とする。この方法では、文書全体を対象とするのではなく、文書内のサブ文書(副題)毎の類似度の計算を行うことができる。
【0079】
4. 部分グラフ毎の一致度の合計を用いる方法(ステップ140):
(a) 文書要素の主題グラフG、Gのそれぞれを、グラフ分割処理(ステップ141)に渡す。
(b) グラフ分割処理(ステップ141)は、G,Gを複数の部分グラフGqi(i=0,1,…,p),Guj(j=0,1,…,r)に分割し、Gqi,Guj内の任意のノード間にリンクが存在しない場合は、これらのノード間に小さい重みのリンクを追加する。
【0080】
(c) 部分グラフ一致度測定処理(ステップ142)は、それぞれの部分グラフGqiとGujのすべての組み合わせについて一致度を測定する。この際、グラフ間一致度測定処理(ステップ143)を利用する。
(d) 一致度合計処理(ステップ144)は、部分グラフ一致度測定処理(ステップ142)で得られた全ての部分グラフ毎の一致度の合計を計算し、出力する。
【0081】
このようにして求めた、合計された一致度を、文書要素間の類似度とする。この方法では、文書内の副題毎の類似度の総和によって、文書要素間の類似度を判定することができるので、より正確な類似度の計算を行うことができる。
以上をまとめると、処理を高速に行うことができるのが、「グラフ分割を用いない方法(ステップ110)」である。
【0082】
「グラフ分割、再結合を用いる方法(ステップ120)」では、グラフ分割処理という複雑な処理を行う代わりに、間接的な単語間の関連も利用した、類似度の判定を行うことができる。
また、「部分グラフ毎の一致度の測定法(ステップ130)」では、文書要素をそれぞれ1つの文書として取り扱うのではなく、副題ごとに分割された独立したそれぞれのサブ文書毎の類似度の判定を行うことができる。
【0083】
「部分グラフ毎の一致度の合計を用いる方法(ステップ140)」では、非常に処理が複雑であるが、文書内の副題毎の類似度の総和として、文書全体の類似度を求めることができるので、より正確な類似度を判定できる。
【0084】
【実施例】
以下、図面と共に本発明の実施例を説明する。
最初に、前述の方法を用いた文書検索装置について説明する。
図8は、本発明の一実施例の文書検索装置の構成を示す。
同図に示す文書検索装置は、検索インタフェース部410、検索キー主題グラフ作成部420、単語情報管理部430、検索対象主題グラフ作成部440、類似度判定部450、検索制御部460、検索対象文書データベース441、及びインデックスファイル431から構成される。
【0085】
検索インタフェース部410は、ユーザからの検索要求を解析し、検索キーを取り出し、検索制御部460に渡す。また、検索結果を検索制御部460から受け取り、ユーザに返す。
検索キー主題グラフ作成部420は、検索キーから主題グラフを作成する。
単語情報管理部430は、インデックスファイル431を参照することによって、指定された単語が出現する文書IDの集合を取得する。ここで、インデックスファイル431は、単語をキー、その単語が出現する文書IDの集合を値とするハッシュテーブルである。
【0086】
検索対象文書主題グラフ作成部440は、文書IDが指定されるとその文書IDに対応した文書を検索対象文書データベース441から取得し、その文書の主題グラフを作成する。
類似度判定部450は、検索キーの主題グラフと検索対象文書の主題グラフを入力とし、それらの類似度を判定する。ここで、類似度の判定法は、前述の図5のフローチャートの方法を用いる。
【0087】
検索制御部460は、以下の処理を行う。
(a) 検索インタフェース部410から検索キーを取得する。
(b) 検索キー主題グラフ作成部420から、この検索キーから作成された主題グラフを取得する。
(c) 単語情報管理部430から、この主題グラフ内の単語のどれか一つでも出現する文書IDの集合を取得する。
【0088】
(d) これらの文書IDの集合のそれぞれの要素に対して、以下の処理を実行する。
▲1▼ 文書IDに対応した検索対象文書の主題グラフを検索対象文書主題グラフ作成部440から取得する。
▲2▼ この検索対象文書の主題グラフと検索キーの主題グラフの類似度を類似度判定450から取得する。
【0089】
(e) 文書IDの集合を類似度の降順にソートし、上位n件の文書IDに対応した文書を検索結果とする。
以下、次の例を用いて処理の流れを説明する。
図9は、本発明の一実施例の主題グラフの作成の例を示す。
検索キーQ: (情報or文書)and 検索
検索対象文書U: 以下の5文からなる文書
「情報の主題について。
【0090】
文書の主題について。
検索の効率を上げる。
情報を検索する。
文書を検索する。」
ステップ501) ユーザが検索要求を入力する。
【0091】
ステップ502) 検索インタフェース部410は、ユーザが入力した検索要求から検索キーを抽出し、検索制御部460に渡す。
ステップ503) 検索制御部460は、検索キーを検索キー主題グラフ作成部420に渡す。
ステップ504) 検索キー主題グラフ作成部420は、検索キーから主題グラフを作成し、検索制御部460に渡す。今回の例では、検索キーQから図9の検索キーの主題グラフ510を作成した。但し、すべての単語の重要度を1.0とし、単語間の関連度は、“or”の場合0.5、“and”の場合1.0とした。
【0092】
ステップ505) 検索制御部460は、検索キーの主題グラフに使用されているそれぞれの単語を単語情報管理部430に渡す。
ステップ506) 単語情報管理部430は、その単語が一度でも出現する文書IDの集合をインデックスファイル431から取得し、検索制御部460に渡す。
【0093】
ステップ507) 検索制御部460は、単語情報管理部430から取得した文書IDの集合のそれぞれの要素を検索対象文書主題グラフ作成部440に渡す。
ステップ508) 検索対象文書主題グラフ作成部440は、文書IDに対応した文書を検索対象文書データベース441から取得し、その文書の主題グラフを作成し、これを検索制御部460に渡す。今回の例では、文書Uから図9の検索対象文書の主題グラフ520を作成した。但し、単語の重要度は出現回数に比例した値とし、単語間の関連度は、文内の共出現回数に比例した値とし、不要語は取り除いた。
【0094】
ステップ509) 検索制御部460は、検索対象文書主題グラフ作成部440から取得したそれぞれの主題グラフと検索キーの主題グラフを類似度判定部450に渡す。
ステップ510) 類似度判定部450は、検索キーの主題グラフとそれぞれの検索対象文書の主題グラフとの類似度の判定を行う。
【0095】
今回は、「グラフ分割を用いない方法」を使用した場合の例として、類似度の判定法を説明する。まず、図9の検索キーの主題グラフ510及び検索対象文書の主題グラフ520から、以下の単語の重要度を表すベクトルを生成する。但し、ベクトルv,vの要素は、それぞれ、検索キーQ、検索対象文書U内での(情報,文書,検索,主題,効率)の重要度を示し、グラフに存在しない単語の重要度は、0.0とした。
【0096】
=(1.0, 1.0, 1.0, 0.0, 0.0) (5)
=(0.6, 0.6, 1.0, 0.6, 0.3) (6)
これらのベクトルの内積fは、
=2.2
となる。
【0097】
次に、同様に関連度を表すベクトルを生成する。但し、ベクトルr,rの要素は、それぞれ、検索キーQ、検索対象文書U内での(情報と主題、情報と文書、情報と検索、情報と効率、主題と文書、主題と検索、主題と効率、文書と検索、文書と効率、検索と効率)の関連度を表し、グラフに存在しないリンクの重みは0とした。
【0098】
=(0.0, 0.5, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0) (7)
=(1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0) (8)
これらのベクトルの内積fは、
=2.0
となる。そこで、p=1,q=1とした場合、検索キーの主題グラフ510と検索対象文書の主題グラフ520の一致度は、
一致度=f*f=2.2*2.0=4.4
となり、今回の例での検索キーQと検索対象文書Uの類似度は、4.4と計算される。
【0099】
ステップ511) 検索制御部460は、類似度判定部450から取得したそれぞれの文書の類似度に基づき、文書集合を降順に並べ替え、上位n件を検索結果とし、これを検索インタフェース部410に渡す。ここで、類似度判定部450で、部分グラフごとの一致度の測定法を用いた場合は、上位n件のサブ文書が検索結果となる。
【0100】
ステップ512) 検索インタフェース部410は、検索結果をユーザに返す。今回の例では、(文書U,4.4)が検索結果である。
次に、本発明を用いた文書分類装置について説明する。
図10は、本発明の一実施例の文書分類装置の構成を示す。
同図に示す文書分類装置は、主題グラフ作成部610、類似度判定部620、分類部630、分類制御部640、文書データベース611から構成される。
【0101】
同図において、主題グラフ作成部610は、前述の文書検索装置の検索対象文書主題グラフ作成部440と全く同じものである。
主題グラフ作成部610は、文書データベース611から文書IDに対応した文書を取得し、その文書の主題グラフを作成する。
類似度判定部620は、2つの文書の主題グラフが入力されると、これらの類似度を判定する。ここで、類似度の判定には、前述の文書検索装置の類似度判定部450と同様の類似度判定方法を用いるものとする。
【0102】
分類部630は、文書間類似度行列を基に文書を分類する。ここで、文書間類似度行列とは、以下の形式である。
Figure 0003577972
但し、sijは、文書iと文書jの類似度を表し、sij=sjiであり、siiは無限大である。
【0103】
文書間類似度行列が与えられた時の分類の方法は、例えば、類似度最大の文書同士を順次結合していくクラスタリングなどである。具体的な分類の方法は、既存記述による。
分類制御部640は、分類作業全体の制御を行う。
上記の構成の一連の動作を以下に説明する。
【0104】
ステップ601) ユーザは、文書データベース611内の文書を何個の文書集合に分類するのか(分類数)を指定する。
ステップ602) 分類制御部640は、文書データベース611に含まれるすべての文書の文書IDを主題グラフ作成部610に渡す。
ステップ603) 主題グラフ作成部610は、それぞれの文書IDに対応した文書を文書データベース611から取得し、主題グラフを作成し、これを分類制御部640に渡す。
【0105】
ステップ604) 分類制御部640は、主題グラフ作成部610から取得した主題グラフのすべての2つの組み合わせを類似度判定部620に渡す。
ステップ605) 類似度判定部620は、それぞれの主題グラフ間の類似度を判定し、分類制御部640に渡す。
ステップ606) 分類制御部640は、類似度判定部620から取得したすべての2つの組み合わせの文書間の類似度から、文書間類似度行列を作成し、ユーザが入力した分類数と共に分類部630に渡す。
【0106】
ステップ607) 分類部630は、文書間類似度行列と分類数を基に、文書集合の分類を行い、分類結果を分類制御部640に渡す。
ステップ608) 分類制御部640は、分類結果をユーザに返す。
また、上記の実施例における文書検索装置と文書分類装置の構成要素をプログラムとして構築し、文書検索装置及び文書分類装置として利用されるコンピュータに接続されるディスク装置や、フロッピーディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより容易に本発明を実現できる。
【0107】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0108】
【発明の効果】
上述のように、本発明によれば、文書要素間の類似度を単語の重要度だけであく、単語間の関連度を基に判定することができるので、より精度の高い類似度の判定を行うことができる。
また、検索キーと検索対象文書の類似度を、検索キー及び検索対象文書内での単語の重要度だけでなく、検索キー及び検索対象文書内での単語間の関連度も用いて計算することができるので、検索キーが文や文書になっても、また、検索対象が文書全文となった場合でも、より精度の高い情報検索を表現できる。
【0109】
また、同様に文書間の類似度を文書内の単語の重要度だけでなく、文書内の単語間の関連度も用いて計算することができるので、より精度の高い文書分類を実現できる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の文書検索装置の原理構成図である。
【図3】本発明の文書分類装置の原理構成図である。
【図4】本発明の類似度判定方法を説明するためのフローチャートである。
【図5】本発明の類似度判定処理の動作を説明するための図である。
【図6】本発明のグラフ分類処理を説明するための図である。
【図7】本発明のグラフ再結合処理を説明するための図である。
【図8】本発明の一実施例の文書検索装置の構成図である。
【図9】本発明の一実施例の主題グラフの作成の例を示す図である。
【図10】本発明の一実施例の文書分類装置の構成図である。
【符号の説明】
210 分割前のグラフ
211,222,223 部分グラフ
311,312,313 部分グラフ
320 再結合したグラフ
410 検索インタフェース手段、検索インタフェース部
420 検索キー主題グラフ作成手段、検索キー主題グラフ作成部
430 単語情報管理手段、単語情報管理部
431 インデックスファイル
440 検索対象文書主題グラフ作成手段、検索対象文書主題グラフ作成部
441 検索対象文書記憶手段、検索対象文書データベース
450 類似度判定手段、類似度判定部
460 検索制御手段、検索制御部
510 検索キーQの主題グラフ
520 検索対象文書Uの主題グラフ
610 主題グラフ作成手段、主題グラフ作成部
611 文書記憶手段、文書データベース
620 グラフ類似度判定手段、類似度判定部
630 分類手段、分類部
640 分類制御手段、分類部制御部

Claims (30)

  1. 文書要素間の類似度を適切に判定するための類似度判定方法において、
    主題グラフ作成手段において、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素が複数入力されると、各文書要素内で使用されている単語を抽出し、抽出されたそれぞれの該単語に重要度を付与し、該単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした、それぞれの文書要素の主題グラフを生成し、
    類似度判定手段において、前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求めることを特徴とする類似度判定方法。
  2. 前記単語を抽出する際に、
    前記文書要素を形態素解析する請求項1記載の類似度判定方法。
  3. 前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
    両方の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該主題グラフ間の一致の度合を大きな値とし、
    片方の主題グラフ内にあるノードに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のノードに大きな重みが付いていればいる程、両方の主題グラフ間の一致の度合を大きな値とし、
    前記両方の主題グラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方の主題グラフ間の一致の度合を大きな値とし、
    片方の主題グラフ内にあるリンクに大きな重みが付いていた場合は、もう片方の主題グラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方の主題グラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する請求項1記載の類似度判定方法。
  4. 前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連しあっているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    前記部分グラフを再結合し、
    前記部分グラフに生成したリンクをそのまま追加して、分割前の主題グラフに戻して前記主題グラフ間の一致の度合を計算する請求項1記載の類似度判定方法。
  5. 前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの前記部分グラフ毎に一致の度合を計算する請求項1記載の類似度判定方法。
  6. 前記類似度判定手段において、前記主題グラフ間の一致の度合を計算する際に、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する請求項1記載の類似度判定方法。
  7. ユーザからの検索要求に基づいて文書を検索するための文書検索装置であって、
    前記ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェース手段と、
    前記検索キーの単語の重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成手段と、
    指定された単語が出現する文書の文書IDの集合を取得する単語情報管理手段と、
    前記文書IDが指定されると、該文書IDに対応した文書を検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成手段と、
    前記検索キーの主題グラフ前記文書の主題グラフを入力し、それらがどの程度似ているのかを判断する類似度判定手段と、
    前記検索インタフェース手段、前記検索キー主題グラフ作成手段、前記単語情報管理手段、前記検索対象文書主題グラフ作成手段、及び前記類似度判定手段の制御を行う検索制御手段とを有することを特徴とする文書検索装置。
  8. 前記検索キー主題グラフ作成手段は、
    単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
    抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
    抽出されたそれぞれ任意の2単語間に関連度を付与する関連度付与手段とを含み、
    前記検索対象文書主題グラフ作成手段は、
    前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを作成する主題表現手段を含み、
    前記類似度判定手段は、
    前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求める手段を含む請求項記載の文書検索装置。
  9. 前記類似度判定手段は、
    前記検索キーの主題グラフと前記文書の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
    前記両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第1の計算手段を含む請求項記載の文書検索装置。
  10. 前記類似度判定手段は、
    それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    前記部分グラフを再結合し、
    前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第2の計算手段を含む請求項記載の文書検索装置。
  11. 前記類似度判定手段は、
    それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの前記部分グラフ毎に一致の度合を計算する第3の計算手段を含む請求項記載の文書検索装置。
  12. 前記類似度判定手段は、
    それぞれの前記検索キーの主題グラフと前記文書の主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの前記部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第4の計算手段を含む請求項記載の文書検索装置。
  13. 文書が格納されている文書記憶手段から、文書IDに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成手段と、
    2つの文書の主題グラフが入力されると、これらの一致の度合を計算するグラフ類似度判定手段と、
    文書間の類似度を表す行列に基づいて、該文書を分類する分類手段と、
    分類作業全体の制御を行う分類制御手段とを有することを特徴とする文書分類装置。
  14. 前記主題グラフ作成手段は、
    前記主題グラフ間の一致の度合を測定するために、
    単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出手段と、
    抽出されたそれぞれの単語に重要度を付与する重要度付与手段と、
    抽出されたそれぞれの任意の2単語間に関連度を付与する関連度付与手段と、
    前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとして前記主題グラフを生成する主題表現手段とを含み、
    前記グラフ類似度判定手段は、
    前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を計算する手段を含む請求項14記載の文書分類装置。
  15. 前記グラフ類似度判定手段は、
    両方のグラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多いほど、該グラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
    前記両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する第1の計算手段を含む請求項13記載の文書分類装置。
  16. 前記グラフ類似度判定手段は、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    前記部分グラフを再結合し、
    前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記主題グラフ間の一致の度合を計算する第2の計算手段を含む請求項13記載の文書分類装置。
  17. 前記グラフ類似度判定手段は、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの前記部分グラフ毎に一致の度合を計算する第3の計算手段を含む請求項13記載の文書分類装置。
  18. 前記グラフ分類度判定手段は、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの前記部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する第4の計算手段を含む請求項13記載の文書分類装置。
  19. ユーザからの検索要求に基づいて文書を検索するための文書検索プログラムを格納した記憶媒体であって、
    コンピュータに、
    前記ユーザからの検索要求を解析し、検索キーを取り出す検索インタフェースステップと、
    前記検索キーの重要度及び単語間の関連度を用いて検索キーの主題グラフを生成する検索キー主題グラフ作成ステップと、
    指定された単語が出現する文書の文書IDの集合を取得する単語情報管理ステップと、
    前記文書IDが指定されると、該文書IDに対応した文書を検索対象文書が格納されている検索対象文書記憶手段から取得し、該文書内の単語の重要度と単語間の関連度を用いて文書の主題グラフを作成する検索対象文書主題グラフ作成ステップと、
    前記検索キーの主題グラフと検索対象文書の前記文書の主題グラフを入力とし、それらがどの程度似ているかを判断する類似度判定ステップと、
    を実行させるプログラムを格納したことを特徴とする文書検索プログラムを格納した記憶媒体。
  20. 前記検索キー主題グラフ作成ステップは、
    単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
    抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
    抽出されたそれぞれ任意の2単語間に関連度を付与する関連度付与ステップと、を実行させ、
    前記検索対象文書主題グラフ作成ステップは、
    前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした主題グラフを生成する主題表現ステップを実行させ
    前記類似度判定ステップは、
    前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求めるステップを実行させる請求項19記載の文書検索プログラムを格納した記憶媒体。
  21. 前記類似度判定ステップは、
    前記検索キーの主題グラフと前記文書の主題グラフの両方のグラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
    前記両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第1の計算ステップを実行させる請求項19記載の文書検索プログラムを格納した記憶媒体。
  22. 前記類似度判定ステップは、
    前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第2の計算ステップを実行させる請求項19記載の文書検索プログラムを格納した記憶媒体。
  23. 前記類似度判定ステップは、
    前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ間の任意のノード間にリンクがない場合には、該部分リンクに小さい重みのリンクを生成し、
    前記検索キーの主題グラフと前記文書の主題グラフそれぞれの前記部分グラフ毎に一致の度合を計算する第3の計算ステップを実行させる請求項19記載の文書検索プログラムを格納した記憶媒体。
  24. 前記類似度判定ステップは、
    前記検索キーの主題グラフと前記文書の主題グラフのそれぞれのグラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているのかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記検索キーの主題グラフと前記文書の主題グラフ間の一致の度合を計算する第4の計算ステップを実行させる請求項19記載の文書検索プログラムを格納した記憶媒体。
  25. 文書を分類するための文書分類プログラムを格納した記憶媒体であって、
    コンピュータに、
    文書が格納されている文書記憶手段から、文書IDに対応した文書を取得し、該文書の単語の重要度と単語間の関連度を用いて主題グラフを作成する主題グラフ作成ステップと、
    2つの文書の主題グラフが入力されると、これらの一致の度合を判定するグラフ分類判定ステップと、
    文書間の類似度を表す行列に基づいて、該文書を分類する分類ステップと、を実行させるプログラムを格納したことを特徴とする文書分類プログラムを格納した記憶媒体。
  26. 前記主題グラフ作成ステップは、
    前記主題グラフ間の一致の度合を測定するために、
    単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出する単語抽出ステップと、
    抽出されたそれぞれの単語に重要度を付与する重要度付与ステップと、
    抽出されたそれぞれの任意の2単語間に関連度を付与する関連度付与ステップと、
    前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとした前記主題グラフを生成する主題表現ステップと、
    前記主題グラフ間の一致の度合に基づき、前記文書要素間の類似度を求める文書要素間類似度判定ステップを実行させる請求項25記載の文書分類プログラムを格納した記憶媒体。
  27. 前記グラフ類似度判定ステップは、
    両方の主題グラフの同様のノード(同じ単語を含んでいるノード)の個数が多ければ多い程、該グラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるノードに大きな重みが付いていた場合は、もう片方のグラフ内の同様のノードに大きな重みが付いていればいる程、両方のグラフ間の一致の度合を大きな値とし、
    前記両方のグラフの同様のリンク(リンクの両端のノードに含まれる単語が同じであるリンク)の本数が多ければ多い程、該両方のグラフ間の一致の度合を大きな値とし、
    片方のグラフ内にあるリンクに大きな重みが付いていた場合は、もう片方のグラフ内の同様のリンクに大きな重みが付いていればいる程、前記両方のグラフ間の一致の度合を大きな値にするように、前記主題グラフ間の一致の度合を計算する第1のステップを実行させる請求項25記載の文書分類プログラムを格納した記憶媒体。
  28. 前記グラフ類似度判定ステップは、
    それぞれの前記主題グラフを、グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    前記部分グラフを再結合し、
    前記部分グラフに生成したリンクをそのまま追加して、分割前のグラフに戻して前記主題グラフ間の一致の度合を計算する第2の計算ステップを実行させる請求項25記載の文書分類プログラムを格納した記憶媒体。
  29. 前記グラフ類似度判定ステップは、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの部分グラフ毎に一致の度合を計算する第3の計算ステップを実行させる請求項25記載の文書分類プログラムを格納した記憶媒体。
  30. 前記グラフ類似度判定ステップは、
    それぞれの前記主題グラフを、該主題グラフ内で使用されている単語集合がどの程度の強さで関連し合っているかに基づいて、部分グラフに分割し、
    それぞれの前記部分グラフに、該部分グラフ内の任意のノード間にリンクがない場合には、該部分グラフに小さい重みのリンクを生成し、
    それぞれの部分グラフ毎に一致の度合を計算し、
    前記部分グラフ毎に計算された一致の度合の総和を計算することにより、前記主題グラフ間の一致の度合を計算する第4の計算ステップを実行させる請求項25記載の文書分類プログラムを格納した記憶媒体。
JP29732198A 1998-10-19 1998-10-19 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 Expired - Fee Related JP3577972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29732198A JP3577972B2 (ja) 1998-10-19 1998-10-19 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29732198A JP3577972B2 (ja) 1998-10-19 1998-10-19 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000123041A JP2000123041A (ja) 2000-04-28
JP3577972B2 true JP3577972B2 (ja) 2004-10-20

Family

ID=17845002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29732198A Expired - Fee Related JP3577972B2 (ja) 1998-10-19 1998-10-19 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3577972B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11495335B2 (en) * 2015-05-26 2022-11-08 Nomura Research Institute, Ltd. Health care system

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063185A (ja) * 2000-08-22 2002-02-28 Hitachi Software Eng Co Ltd 類似知識抽出システム
JP2002189754A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 文書検索装置及び文書検索方法
JP2002288212A (ja) * 2001-03-23 2002-10-04 Nippon Telegr & Teleph Corp <Ntt> 全文検索方法及び装置及び全文検索プログラム及び全文検索プログラムを格納した記憶媒体
US7346614B2 (en) * 2001-10-17 2008-03-18 Japan Science And Technology Corporation Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
JP2003330966A (ja) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP4423385B2 (ja) * 2002-10-24 2010-03-03 独立行政法人情報通信研究機構 文書分類支援装置およびコンピュータプログラム
EP1579378B1 (en) * 2002-11-07 2009-02-25 HONDA MOTOR CO., Ltd. Clustering appearances of objects under varying illumination conditions
JP4025180B2 (ja) * 2002-11-19 2007-12-19 株式会社山武 文書管理装置
WO2004086258A1 (ja) * 2003-03-24 2004-10-07 Japan Science And Technology Agency 生活情報支援システム
JP4348145B2 (ja) * 2003-08-27 2009-10-21 富士通株式会社 文章分類プログラム、文章分類方法および文章分類装置
JP2008257444A (ja) 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
JP5407169B2 (ja) 2008-04-11 2014-02-05 富士通株式会社 クラスタリングプログラム、検索プログラム、クラスタリング方法、検索方法、クラスタリング装置および検索装置
JP5605571B2 (ja) * 2008-10-07 2014-10-15 国立大学法人お茶の水女子大学 部分グラフ検出装置、部分グラフ検出方法、プログラム、データのデータ構造、及び情報記憶媒体
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
CN102915304B (zh) * 2011-08-01 2016-02-24 日电(中国)有限公司 文档检索设备和方法
JP6375592B2 (ja) * 2013-03-12 2018-08-22 株式会社リコー 情報処理装置及び情報処理方法並びにプログラム
JP2015038702A (ja) * 2013-08-19 2015-02-26 株式会社リコー 情報処理装置、システム及びプログラム
JP6773972B2 (ja) * 2016-09-30 2020-10-21 富士通株式会社 データ変換プログラム、データ変換方法、およびデータ変換装置
JP6822448B2 (ja) * 2018-07-26 2021-01-27 株式会社リコー 情報処理装置及び情報処理方法並びにプログラム
CN113449754B (zh) * 2020-03-26 2023-09-22 百度在线网络技术(北京)有限公司 标签的匹配模型训练和展示方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137888A (ja) * 1994-11-08 1996-05-31 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11495335B2 (en) * 2015-05-26 2022-11-08 Nomura Research Institute, Ltd. Health care system

Also Published As

Publication number Publication date
JP2000123041A (ja) 2000-04-28

Similar Documents

Publication Publication Date Title
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
Tuarob et al. AlgorithmSeer: A system for extracting and searching for algorithms in scholarly big data
US10452907B2 (en) System and method for global identification in a collection of documents
US8812504B2 (en) Keyword presentation apparatus and method
CN106202206B (zh) 一种基于软件聚类的源码功能搜索方法
KR20170134191A (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JP3198932B2 (ja) 文書検索装置
Thaiprayoon et al. Graph and centroid-based word clustering
CN113901783A (zh) 面向领域的文档查重方法及***
Rumagit et al. Comparison of graph-based and term weighting method for automatic summarization of online news
JPH11110409A (ja) 情報分類方法及び装置
Calvo et al. On redundancy in multi-document summarization
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP2773682B2 (ja) 適合フィードバック装置
Gokhan et al. GUSUM: graph-based unsupervised summarization using sentence features scoring and sentence-BERT
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP3486406B2 (ja) 特許情報検索装置
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
KR102449572B1 (ko) 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법
Ďuračík et al. Using concepts of text based plagiarism detection in source code plagiarism analysis
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040705

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees