JP2005326970A

JP2005326970A - 構造化文書曖昧検索装置及びそのプログラム

Info

Publication number: JP2005326970A
Application number: JP2004142695A
Authority: JP
Inventors: Yamahiko Ito; 山彦伊藤; Makoto Imamura; 誠今村; Takeyuki Aikawa; 勇之相川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-05-12
Filing date: 2004-05-12
Publication date: 2005-11-24

Abstract

【課題】従来は、文書間で、余分なノードや不足ノードがある場合やノードの並び方が異なる場合を検出して文書構造間の相違距離を計算し、類似度計算はタグ名や属性名を基に行い、タグの値の内容解析までは行わないため、タグ付けの細かさのレベルが著しく異なる文書同士の類似性比較はできなかった。
【解決手段】入力構造化文書から、構造化文書の部分を照合対象抽出手段で抽出し、抽出された構造化文書からキーワード抽出手段でキーワードを抽出し、そのキーワードにより、キーワード検索手段でデータベースを検索し、検索された構造化文書を、キーワードと照合し、類似した文書断片を類似断片候補抽出手段で抽出し、その文書断片を、形態素解析手段が形態素解析し、解析結果と、照合対象抽出手段が出力した構造化文書の断片の類似度を計算し、類似度の高い文書を検索結果として断片類似度計算手段が出力する。
【選択図】図１

Description

本発明は文書データベース（ＤＢ）から所望の文書を検索する構造化文書曖昧検索技術に関するものである。

電子商取引（ＥＣ：ＥｌｅｃｔｒｏｎｉｃＣｏｍｍｅｒｃｅ）、ＣＡＬＳ（ＣｏｍｍｅｒｃｅＡｔＬｉｇｈｔＳｐｅｅｄ）、知識経営（ＫＭ：ＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ）、設備情報管理等の進展に伴って、これらの分野の情報システムが管理する構造化文書を、企業間や企業内組織間で交換／共有したいという要求が高まっている。

この要求に応える構造化文書の標準フォーマットとして、ＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＯｒｇａｎｉｚａｔｉｏｎ）規格８８７９のＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）やＷ３Ｃ（ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ）が制定するＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）がある。

文書の構造化は、文書データにタグを付与することにより実現する。その際、文書構造は、木構造となる。従来、検索等において、文書構造が異なるときに文書間の類似度を測定する場合、タグの名称や木構造を比較することにより、類似度を判定する方法が提案されている。（例えば、特許文献１参照）。

特開２００３−１６２５１８号公報（図１、第１頁−第６頁）

特許文献１に開示された方法では、構造化文書間で、余分なノードや、足りないノードがある場合、及びノードの並び方が異なる場合を検出し、文書構造間の相違の距離を計算する。類似度の計算は、タグ名や属性名を基に行い、タグの値の内容の解析までは行わないため、タグ付けの細かさのレベルが著しく異なる文書同士の類似性を比較することはできなかった。

この発明は、上述のような課題を解決するためになされたもので、荒くタグ付けされた構造化文書のテキストや表から、細かくタグ付けされた構造化文書と類似した部分を抽出することにより、タグ付けの細かさのレベルが異なる構造化文書間の曖昧検索を可能とする構造化文書曖昧検索装置を得るものである。

本発明の構造化文書曖昧検索装置は、
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手段と、
上記照合対象抽出手段によって抽出された構造化文書からキーワードを抽出するキーワード抽出手段と、
上記キーワード抽出手段で抽出したキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手段と、
上記キーワード検索手段によって検索された一次検索結果の構造化文書を、上記キーワード抽出手段で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手段と、
上記類似断片候補抽出手段によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手段と、
上記形態素解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手段から構成される。

また、本発明の構造化文書曖昧検索プログラムは、
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手順と、
上記照合対象抽出手順によって抽出された構造化文書からキーワードを抽出するキーワード抽出手順と、
上記キーワード抽出手順で抽出されたキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手順と、
上記キーワード検索手順によって検索された一次検索結果の構造化文書を、上記キーワード抽出手順で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手順と、
上記類似断片候補抽出手順によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手順と、
上記形態素解析手順が出力した解析結果と、上記照合対象抽出手順が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手順を
コンピュータに実行させる。

本発明は、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して、形態素解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても類似度の計算を可能にし、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

実施の形態１．
図１は、本発明の実施の形態1による構造化文書曖昧検索装置の構成を示すブロック図である。本実施の形態では、構造化文書としてＸＭＬを例にして説明を行う。図１において、照合対象抽出手段１０１は、入力ＸＭＬ文書１１５から、検索の入力となる照合対象ＸＭＬ断片１１６を抽出する。キーワード抽出手段１０２は、照合対象ＸＭＬ断片１１６から、キーワード検索を行うためのキーワード１１７を抽出する。キーワード検索手段１０３は、キーワード１１７を検索キーとして、ＸＭＬ文書ＤＢ１１２を検索し、一次検索結果ＸＭＬ文書１１８を出力する。類似断片候補抽出手段１０４は、一次検索結果ＸＭＬ文書１１８からキーワード１１７に関連の大きいＸＭＬの部分構造を抽出し、一次検索結果ＸＭＬ断片１１９を出力する。キーワード検索手段１０３と類似断片候補抽出手段１０４では、キーワード１１７を類義語展開するための類義語辞書１１３も参照する。

ＸＭＬ断片解析部１０５は、一次検索結果ＸＭＬ断片１１９を形態素解析する形態素解析手段１０６、形態素解析結果から構文解析を行う構文解析手段１０７、構文解析結果から照応処理を行う照応処理手段１０８、一次検索結果ＸＭＬ文書１１８のタグ階層の関係を解析するタグ階層関係解析手段１０９、一次検索結果ＸＭＬ断片１１９中に含まれる表を解析するテーブル解析手段１１０から構成され、解析結果１２０を出力する。

断片類似度計算手段１１１は、照合対象ＸＭＬ断片１１６と解析結果１２０の類似度を計算し、一次検索結果ＸＭＬ文書１１８の中で類似度の高い文書を、検索結果１２１として出力する。断片類似度計算手段１１１では、必要に応じて、キーワード１１７、類義語辞書１１３、及び外部ＤＢ１１４を参照する。

次に、動作について説明する。図２は、構造化文書曖昧検索装置の動作を示すフロー図である。図２のステップＳＴ２０１において、照合対象抽出手段１０１が、入力ＸＭＬ文書１１５より照合対象部分を抽出する。図３は、入力ＸＭＬ文書の例である。照合対象部分は、利用者が指定する。本例では、利用者が<条件>タグ以下を照合対象部分として指定したものとする。この結果抽出された照合対象ＸＭＬ断片１１６を図４に示す。なお、照合対象部分の抽出方法は、タグを指定する以外にも、特定の単語を含む文書の部分を抽出するなど、他の方法であってもよい。また、入力ＸＭＬ文書１１５の全体を照合対象ＸＭＬ断片１１６としてもよい。

次に、ステップＳＴ２０２において、キーワード抽出手段１０２が、照合対象ＸＭＬ断片１１６よりキーワードを抽出する。キーワードの抽出方法は、照合対象ＸＭＬ断片の要素名、及び要素の内容を形態素解析した結果の自立語部分を抽出するものとする。形態素解析は、例えば、長尾真編「自然言語処理」(岩波書店)の、ｐ１１７〜ｐ１３７に記されるような、公知の手法を用いる。図４の照合対象ＸＭＬ断片１１６から抽出したキーワード１１７を図５に示す。要素名から抽出されるキーワードとして「条件」、「対象」、「部品名」、「タイプ」、「動作温度」があり、要素の内容から抽出されるキーワードとして、「半導体」、「タイプＡ」、「６０」、「℃」、「以上」がある。なお、キーワードの抽出方法として、形態素解析を行わず、字種の区切りを単語の区切りとみなすような、他の公知の方法を用いてもよい。

次に、ステップＳＴ２０３において、キーワード検索手段１０３が、キーワード１１７によって、ＸＭＬ文書ＤＢ１１２を検索する。キーワード１１７に含まれる全てまたは一部のキーワードを含む文書が検索される。なお、ステップＳＴ２０３では、図６に示すような類義語辞書１１３を用いてもよい。図６の類義語辞書を用いることにより、キーワードに「℃」が含まれる場合、「度」を含む文書も検索され、キーワードに「動作温度」を含む場合、「稼動温度」や「温度条件」を含む文書も検索される。図５のキーワードを用いて検索した結果である一次検索結果ＸＭＬ文書１１８を図７に示す。
本例の場合、検索結果１と検索結果２の２つの文書がＸＭＬ文書ＤＢ１１２から検索されたものとする。

次に、ステップＳＴ２０４において、類似断片候補抽出手段１０４が、一次検索結果ＸＭＬ文書１１８から、入力の照合対象ＸＭＬ断片１１６と照合するＸＭＬ断片を抽出する。本例では、要素の内容であるテキストにキーワード１１７を最も多く含む要素を抽出するものとする。図７に示す一次検索結果ＸＭＬ文書１１８夫々から抽出された一次検索結果ＸＭＬ断片１１９を図８に示す。なお、ステップＳＴ２０４の処理は、キーワード１１７と類似したＸＭＬ文書の部分を抽出する処理であれば、方法は問わない。例えば、一次検索結果ＸＭＬ文書１１８中で、キーワード１１７を含む割合が最も高い部分を抽出しても良い。

次に、ステップＳＴ２０５において、ＸＭＬ断片解析部１０５が、一次検索結果ＸＭＬ断片１１９を解析する。図９は、ＸＭＬ断片解析部１０５の処理に、形態素解析手段１０６を用いた場合の動作を示すフロー図である。

図９において、ステップＳＴ９０１で、一次検索結果ＸＭＬ断片１１９を読み込む。次に、ＳＴ９０２で一次検索結果ＸＭＬ断片１１９のテキスト部分の形態素解析を行う。次に、ステップＳＴ９０３で解析結果を出力する。図１０、１１に、図８に示した一次検索結果ＸＭＬ断片１１９のテキスト部分に対して形態素解析を行った解析結果１２０を示す。

次に、図２のステップＳＴ２０６において、断片類似度計算手段１１１が、入力の照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。図１２は、断片類似度計算手段１１１の動作を示すフロー図である。図１２において、ステップＳＴ１１０１で、解析結果１２０を読み込む。次に、ステップＳＴ１１０２でテキストの照合範囲を抽出する。照合範囲は、一次検索結果ＸＭＬ断片１１９中のテキスト全文でもよいし、１文ずつ、または連続する数文を抽出してもよい。本例では、<動作環境>の要素の内容であるテキスト全てを照合範囲とする。

次に、ステップＳＴ１１０３で、数値範囲解析処理を行う。これは、図４に示した照合対象ＸＭＬ断片１１６の<動作温度>の要素の内容「60℃以上」に対し、「70℃」や「80℃」のような、60℃以上の数値の範囲は、条件に合致するとみなす処理である。図４の照合対象ＸＭＬ断片１１６の要素<動作温度>に対し、図１０、１１の解析結果には、検索結果１、検索結果２とも、「70℃」という文字列が含まれているので、数値範囲の条件に合致したと判断され、類似度計算に１ポイント加算される。

次に、ステップＳＴ１１０４で、照合対象ＸＭＬ断片１１６中のキーワードと、ステップＳＴ１１０２で抽出した照合範囲の形態素解析結果の類似度を計算する。類似度の計算方法は、本例では、一致した形態素の数で表すものとする。図５に示したキーワード１１７と、図１０に示した検索結果１の解析結果１２０とは、「半導体」、「タイプＡ」、「動作温度」、及び「℃」の４つの語が一致するので４ポイント、さらに、ステップＳＴ１１０３で行った数値範囲の条件の１ポイントを加え、合計５ポイントとなる。また、図１１の検索結果２の解析結果に対しても、同様の計算によって、類似度は５ポイントとなる。

なお、ステップＳＴ１１０４で類似度を計算する計算式は、他の方法であってもかまわない。例えば、キーワード１１７と、解析結果１２０との間で一致する単語の割合を類似度と定義してもかまわない。また、類義語辞書１１３を利用して、類義語展開を行ってもよい。この場合、「℃」と「度」が同じ意味を持つ語である、あるいは、「動作温度」と「稼動温度」が同じ意味を持つ語である、といった情報を用いることにより、より正確な類似度計算を行うことが出来る。また、ステップＳＴ１１０２で、テキストの一部を照合範囲として抽出した場合には、それぞれの照合範囲に対して類似度を計算し、その中で最大の類似度を、照合対象ＸＭＬ断片１１６と解析結果１２０との類似度とする。

次に、図２のステップＳＴ２０７で、類似度の高い順に検索結果を出力する。本例では、検索結果１と検索結果２は、同じ類似度として出力される。

以上のように、実施の形態１では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して、形態素解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

また、類義語辞書を利用することにより、より正確な類似度の判定を行うことができる構造化文書曖昧検索装置を得ることができる。

実施の形態２．
実施の形態２では、ＸＭＬ断片解析部１０５に構文解析手段１０７を含む場合について説明する。実施の形態１と同様に、図２のステップＳＴ２０１、ステップＳＴ２０２、ステップＳＴ２０３の処理を行い、ステップＳＴ２０４によって、類似断片候補抽出手段１０４が、図８に示す一次検索結果ＸＭＬ断片１１９を出力したものとする。次に、ステップＳＴ２０５で、ＸＭＬ断片解析部１０５が、検索結果の一次検索結果ＸＭＬ断片１１９を解析する。

図１３は、実施の形態２におけるＸＭＬ断片解析部１０５の動作を示すフロー図である。ステップＳＴ１２０１の検索結果の一次検索結果ＸＭＬ断片１１９を読み込む処理、及び、ステップＳＴ１２０２の一次検索結果ＸＭＬ断片１１９のテキスト部分の形態素解析を行う処理は、それぞれ、図９におけるステップＳＴ９０１、及びステップＳＴ９０２の処理と同様である。

次に、ステップＳＴ１２０３で、構文解析手段１０７が、形態素解析結果を基に構文解析を行う。構文解析は、例えば、長尾真編「自然言語処理」(岩波書店)の、ｐ１３９〜ｐ１９８に記されるような、公知の手法を用いる。図１０、１１に示した形態素解析結果から、構文解析による文節の判定と係り受けの判定を行った結果を図１４に示す。次にステップＳＴ１２０４で解析結果を出力する。

次に、ステップＳＴ２０６で、断片類似度計算手段１１１が、入力の照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。図１５は、実施の形態２における断片類似度計算手段１１１の動作を示すフロー図である。ステップＳＴ１４０１の解析結果１２０を読み込む処理、ステップＳＴ１４０２のテキストの照合範囲を抽出する処理、ステップＳＴ１４０３の数値範囲解析処理、及びステップＳＴ１４０４の照合対象ＸＭＬ断片１１６中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理は、それぞれ、図１２におけるＳＴ１１０１、ＳＴ１１０２、ＳＴ１１０３、及びＳＴ１１０４の処理と同様である。

次に、ＳＴ１４０５により、照合対象ＸＭＬ断片１１６中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する。図４の照合対象ＸＭＬ断片１１６と、図１４の構文解析結果を対象とした場合、検索結果１の「半導体A001(タイプA)の動作温度は70℃であり、」の部分の構文解析結果では、「半導体」、「タイプA」、「動作温度」「70℃」の４語が、「あり」に係っている。なお、「70℃」は、ステップＳＴ１４０３の数値範囲解析処理によって、「60℃以上」と一致すると判定される。また、「半導体A002(タイプB)の動作温度は40℃である。」の部分の構文解析結果では、「半導体」、「動作温度」の２語が、「ある」に係っている。従って、検索結果１のステップＳＴ１４０５によるポイントは４になる。ステップＳＴ１４０４までの処理のポイントと合計すると、図４の照合対象ＸＭＬ断片１１６に対する検索結果１の類似度は９ポイントとなる。

また、検索結果２の「半導体A001(タイプA)の動作温度は40℃であり、」の部分の構文解析結果では、「半導体」、「タイプA」、「動作温度」の３語が、「あり」に係っている。また、「半導体A002(タイプB)の動作温度は70℃である。」の部分の構文解析結果では、「半導体」、「動作温度」、「70℃」の３語が、「ある」に係っている。従って検索結果２のステップＳＴ１４０５によるポイントは３になる。ステップＳＴ１４０４までの処理のポイントと合計すると、図４の照合対象ＸＭＬ断片１１６に対する検索結果２の類似度は８ポイントとなる。

次に、図２のステップＳＴ２０７で、類似度の高い順に検索結果を出力する。本例では、検索結果１の方が検索結果２より高い類似度として出力される。

以上のように、実施の形態２では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して構文解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても、形態素解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

実施の形態３．
実施の形態３では、ＸＭＬ断片解析部１０５に照応処理手段１０８を含む場合について説明する。実施の形態１と同様に、図２のステップＳＴ２０１、ステップＳＴ２０２、ステップＳＴ２０３の処理を行い、ステップＳＴ２０４によって、類似断片候補抽出手段１０４が、図１６に示す一次検索結果ＸＭＬ断片１１９を出力したものとする。次に、ステップＳＴ２０５で、ＸＭＬ断片解析部１０５が、一次検索結果のＸＭＬ断片１１９を解析する。

図１７は、実施の形態３におけるＸＭＬ断片解析部１０５の動作を示すフロー図である。ステップＳＴ１６０１の一次検索結果ＸＭＬ断片１１９を読み込む処理、ステップＳＴ１６０２の一次検索結果ＸＭＬ断片１１９のテキスト部分の形態素解析を行う処理、及びステップＳＴ１６０３の形態素解析結果を基に構文解析を行う処理は、それぞれ、図１３におけるステップＳＴ１２０１、ステップＳＴ１２０２、及びステップＳＴ１２０３の処理と同様である。図１６に示した一次検索結果ＸＭＬ断片１１９に対して、形態素解析処理、及び構文解析処理を行った結果を図１８に示す。

次に、ステップＳＴ１６０４で、照応処理手段１０８が、構文解析結果を基に照応処理を行う。照応処理は、例えば、長尾真編「自然言語処理」(岩波書店)の、ｐ２７３〜ｐ２８４に記されるような、公知の手法を用いる。本例では、図１８の検索結果１、及び検索結果２における第２文「この半導体の動作温度は70℃である。」の「この」に対応する照応先は、それぞれ先行する最も近い名詞「タイプA」、及び「タイプB」と判定されるとする。検索結果１、及び検索結果２の第２文に対する照応処理を行った構文解析結果を図１９に示す。次に、ステップＳＴ１６０５で、解析結果を出力する。

次に、図２のステップＳＴ２０６で、断片類似度計算手段１１１が、入力照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。実施の形態３における断片類似度計算手段１１１の動作は、実施の形態２と同様であり、図１５のフロー図に従う。検索結果１の第２文の、図４の照合対象ＸＭＬ断片１１６に対する類似度のスコアは、数値範囲解析処理によって「７０℃」が一致するためポイント１となり、形態素解析結果の類似度では、「タイプA」、「半導体」、「動作温度」、「℃」が一致するためポイント４となり、構文解析結果の類似度では、「タイプA」、「半導体」、「動作温度」、「70℃」の４語が「ある」に係っているためポイント４となり、合計でポイント９となる。

また、検索結果２の第２文の、図４の照合対象ＸＭＬ断片１１６に対する類似度のスコアは、数値範囲解析処理によって「７０℃」が一致するためポイント１となり、形態素解析結果の類似度では、「半導体」、「動作温度」、「℃」が一致するためポイント３となり、構文解析結果の類似度では、「半導体」、「動作温度」、「70℃」の３語が「ある」に係っているためポイント３となり、合計でポイント７となる。

以上のように、実施の形態３では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して照応処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても、形態素解析、及び構文解析を用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

実施の形態４．
実施の形態４では、ＸＭＬ断片解析部１０５にタグ階層関係解析手段１０９を含む場合について説明する。図２のステップＳＴ２０１、ステップＳＴ２０２、ステップＳＴ２０３、及びステップＳＴ２０４の処理は、実施の形態１と同様である。本例では、図２０に示す照合対象ＸＭＬ断片１１６のキーワードによってＸＭＬ文書ＤＢ１１２の検索を行い、図２１に示す２つの一次検索結果ＸＭＬ文書１１８が検索され、図２２に示す一次検索結果ＸＭＬ断片１１９が夫々抽出されたものとする。次に、ステップＳＴ２０５で、ＸＭＬ断片解析部１０５が、検索結果のＸＭＬ断片１１９を解析する。

図２３は、実施の形態４におけるＸＭＬ断片解析部１０５の動作を示すフロー図である。ステップＳＴ２２０１の検索結果のＸＭＬ断片１１９を読み込む処理、ステップＳＴ２２０２のＸＭＬ断片１１９のテキスト部分の形態素解析を行う処理、及びステップＳＴ２２０３の形態素解析結果を基に構文解析を行う処理は、それぞれ、図１３におけるステップＳＴ１２０１、ステップＳＴ１２０２、及びステップＳＴ１２０３の処理と同様である。

次に、ステップＳＴ２２０４で、タグ階層関係解析手段１０９が、構文解析結果にタグ階層関係情報を付与する。タグ階層関係情報としては、一次検索結果ＸＭＬ断片１１９のノードの兄弟、または先祖の兄弟に含まれるテキストから抽出したキーワードを付与するものとする。タグ階層関係解析手段１０９が抽出したキーワードを文脈キーワードと呼ぶ。図２２に示した検索結果１および２の一次検索結果ＸＭＬ断片１１９に対して、本例におけるＸＭＬ断片解析部１０５が解析した構文解析結果と文脈キーワードを図２４に示す。次に、ステップＳＴ２２０５で、解析結果を出力する。

次に、図２のステップＳＴ２０６で、断片類似度計算手段１１１が、照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。図２５は、実施の形態４における断片類似度計算手段１１１の動作を示すフロー図である。ステップＳＴ２４０１の解析結果１２０を読み込む処理、ステップＳＴ２４０２のテキストの照合範囲を抽出する処理、ステップＳＴ２４０３の数値範囲解析処理、ステップＳＴ２４０４の照合対象ＸＭＬ断片１１６中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップＳＴ２４０５の照合対象ＸＭＬ断片１１６中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図１５におけるＳＴ１４０１、ＳＴ１４０２、ＳＴ１４０３、ＳＴ１１０４、及びＳＴ１４０５の処理と同様である。

次に、ステップＳＴ２４０６により、照合対象ＸＭＬ断片１１６中のキーワードにある文脈キーワードをカウントし、その値を類似度に加算する。図２０の照合対象ＸＭＬ断片１１６に対するステップＳＴ２４０３、ステップＳＴ２４０４、及びステップ２４０５の類似度のスコアは、検索結果１と検索結果２で同じである。文脈キーワードの類似度のスコアは、検索結果１では、「動作温度」と「パワーミニモールド」の２つが図２０の照合対象ＸＭＬ断片１１６中のキーワードと一致するのに対し、検索結果２では、「動作温度」のみである。そのため、検索結果１に対しては、類似度に２ポイント加算され、検索結果２に対しては、類似度に１ポイント加算される。

以上のように、実施の形態４では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらにタグの階層関係を解析することにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

実施の形態５．
実施の形態５では、ＸＭＬ断片解析部１０５にテーブル解析手段１１０を含む場合について説明する。図２のステップＳＴ２０１、ステップＳＴ２０２、ステップＳＴ２０３、及びステップＳＴ２０４の処理は、実施の形態１と同様である。本例では、図２０に示す照合対象ＸＭＬ断片１１６のキーワードによってＸＭＬ文書ＤＢ１１２の検索を行い、図２６に示す一次検索結果ＸＭＬ断片１１９が抽出されたものとする。次に、ステップＳＴ２０５で、ＸＭＬ断片解析部１０５が、一次検索結果ＸＭＬ断片１１９を解析する。

図２７は、実施の形態５におけるＸＭＬ断片解析部１０５の動作を示すフロー図である。まず、ステップＳＴ２６０１で、一次検索結果ＸＭＬ断片１１９を読み込む。次に、ステップＳＴ２６０２で、一次検索結果ＸＭＬ断片１１９のテーブル部分をタグの階層構造に変換する。この処理は、表の行・列の見出しをタグ名とし、行の並びそれぞれの子要素に列の並びを記述し、値を代入することによって行う。図２６の一次検索結果ＸＭＬ断片１１９に対し、ステップＳＴ２６０２のテーブル部分のタグ階層構造変換処理によって生成されるＸＭＬ断片を図２８に示す。ステップＳＴ２６０３のＸＭＬ断片のテキスト部分の形態素解析を行う処理、ステップＳＴ２６０４の形態素解析結果を基に構文解析を行う処理、及びステップＳＴ２６０５の解析結果を出力する処理は、それぞれ図１３におけるステップＳＴ１２０２、ステップＳＴ１２０３、及びステップＳＴ１２０４の処理と同様である。

次に、図２のステップＳＴ２０６で、断片類似度計算手段１１１が、入力の照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。図２９は、実施の形態５における断片類似度計算手段１１１の動作を示すフロー図である。ステップＳＴ２８０１の解析結果１２０を読み込む処理、ステップＳＴ２８０２のテキストの照合範囲を抽出する処理、ステップＳＴ２８０３の数値範囲解析処理、ステップＳＴ２８０４の照合対象ＸＭＬ断片１１６中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップＳＴ２８０５の照合対象ＸＭＬ断片１１６中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図１５におけるＳＴ１４０１、ＳＴ１４０２、ＳＴ１４０３、ＳＴ１１０４、及びステップＳＴ１４０５の処理と同様である。

次に、ステップＳＴ２８０６により、テーブルのタグを解釈し、数値の範囲の照合を行う。図２８のＸＭＬ断片においては、要素<動作温度>の子要素<最高>の値が80℃であり、図２０の照合対象ＸＭＬ断片１１６の「<動作温度>60℃以上</動作温度>」と一致すると判定する。一致すると判定した場合は、類似度のスコアを上げる。なお、<最低>や<最高>のタグの意味は、テーブル解析手段１１０の知識として予め備わっているものとする。
次に、図２のステップＳＴ２０７で、類似度の高い順に検索結果を出力する。

以上のように、実施の形態５では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらにテーブルの解析を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

実施の形態６．
実施の形態６では、断片類似度計算手段１１１が外部ＤＢ１１４を参照する場合について説明する。図２のステップＳＴ２０１、ステップＳＴ２０２、ステップＳＴ２０３、ステップＳＴ２０４、及びステップＳＴ２０５の処理は、実施の形態２と同様である。本例では、図２０に示す照合対象ＸＭＬ断片１１６のキーワードによってＸＭＬ文書ＤＢ１１２の検索を行い、図３０に示す一次検索結果ＸＭＬ断片１１９が抽出され、図３１に示す解析結果が得られたものとする。

次に、ステップＳＴ２０６で、断片類似度計算手段１１１が、照合対象ＸＭＬ断片１１６と解析結果１２０との類似度を計算する。図３２は、実施の形態６における断片類似度計算手段１１１の動作を示すフロー図である。ステップＳＴ３１０１の解析結果１２０を読み込む処理、ステップＳＴ３１０２のテキストの照合範囲を抽出する処理、ステップＳＴ３１０３の数値範囲解析処理、ステップＳＴ３１０４の照合対象ＸＭＬ断片１１６中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップＳＴ３１０５の照合対象ＸＭＬ断片１１６中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図１５におけるＳＴ１４０１、ＳＴ１４０２、ＳＴ１４０３、ＳＴ１１０４、及びＳＴ１４０５の処理と同様である。

次に、ステップＳＴ３１０６で、形態素解析結果１２０の単語をキーにして外部ＤＢ１１４を検索し、関連情報を抽出する。図３３は、外部ＤＢ１１４の例である。「PCA3021-20」に対し、「部品名」が「チップ」であり、「タイプ」が「パワーミニモールド」であるという関連情報が抽出される。次に、ステップＳＴ３１０７で、関連情報の類似度を加算する。図２０の照合対象ＸＭＬ断片１１６と照合し、「部品名」が「チップ」であるという関連情報が、「<部品名>チップ</部品名>」の部分と一致すると判定され、「タイプ」が「パワーミニモールド」であるという関連情報が、「<タイプ>パワーミニモールド</タイプ>」の部分と一致するとみなされる。２箇所が一致したため、類似度に２ポイントが加算される。次に、図２のステップＳＴ２０７で、類似度の高い順に検索結果を出力する。

以上のように、実施の形態６では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらに外部ＤＢから関連情報を抽出することにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。

文書ＤＢ（データベース）から構造化文書を検索する際、検索するための入力文書と、文書ＤＢに蓄積された文書間においてタグ付けの細かさのレベルが異なる場合にも類似度の計算を可能にし、曖昧検索を行うことを可能とする

本発明の実施の形態1による構造化文書曖昧検索装置の構成を示すブロック図である。構造化文書曖昧検索装置の動作を示すフロー図である。入力ＸＭＬ文書の例を示す図である。照合対象ＸＭＬ断片を示す図である。照合対象ＸＭＬ断片から抽出したキーワードを示す図である。類義語辞書の説明図である。ＸＭＬ文書ＤＢを検索するキーワードによる一次検索結果ＸＭＬ文書を示す図である。一次検索結果ＸＭＬ文書から抽出された一次検索結果ＸＭＬ断片を示す図である。実施の形態１におけるＸＭＬ断片解析部の動作を示すフロー図である。一次検索結果１のＸＭＬ断片に対しての形態素解析結果を示す図である。一次検索結果２のＸＭＬ断片に対しての形態素解析結果を示す図である。実施の形態１における断片類似度計算手段の動作を示すフロー図である。実施の形態２におけるＸＭＬ断片解析部の動作を示すフロー図である。形態素解析結果に対し構文解析処理を行った結果を示す図である。実施の形態２における断片類似度計算手段の動作を示すフロー図である。類似断片候補抽出手段が出力する一次検索結果ＸＭＬ断片を示す図である。実施の形態３におけるＸＭＬ断片解析部の動作を示すフロー図である。一次検索結果ＸＭＬ断片に対し形態素解析処理、及び構文解析処理の結果を示す図である。図１８に示されたそれぞれの第２文に対する照応処理を行った構文解析結果を示す図である。実施の形態４における照合対象ＸＭＬ断片を示す図である。実施の形態４における一次検索結果ＸＭＬ文書を示す図である。実施の形態４における一次検索結果ＸＭＬ断片を示す図である。実施の形態４におけるＸＭＬ断片解析部の動作を示すフロー図である。一次検索結果ＸＭＬ断片に対しＸＭＬ断片解析部が解析した構文解析結果と文脈キーワードを示す図である。実施の形態４における断片類似度計算手段の動作を示すフロー図である。実施の形態５における一次検索結果ＸＭＬ断片を示す図である。実施の形態５におけるＸＭＬ断片解析部の動作を示すフロー図である。テーブル解析手段によって生成されるＸＭＬ断片を示す図である。実施の形態５における断片類似度計算手段の動作を示すフロー図である。実施の形態６における一次検索結果ＸＭＬ断片を示す図である。実施の形態６におけるＸＭＬ断片解析部の解析結果を示す図である。実施の形態６における断片類似度計算手段の動作を示すフロー図である。外部ＤＢの例を示す図である。

符号の説明

１０１：照合対象抽出手段、１０２：キーワード抽出手段、１０３：はキーワード検索手段、１０４：類似断片候補抽出手段、１０５：ＸＭＬ断片解析部、１０６：形態素解析手段、１０７：構文解析手段、１０８：照応処理手段、１０９：タグ階層関係解析手段、１１０：テーブル解析手段、１１１：断片類似度計算手段、１１２：ＸＭＬ文書ＤＢ、１１３：類義語辞書、１１４：外部ＤＢ、１１５：入力ＸＭＬ文書、１１６：照合対象ＸＭＬ断片、１１７：キーワード、１１２：ＸＭＬ文書ＤＢ、１１８：一次検索結果ＸＭＬ文書、１１９：一次検索結果ＸＭＬ断片、１２０：解析結果、１２１：検索結果。

Claims

データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手段と、
上記照合対象抽出手段によって抽出された構造化文書からキーワードを抽出するキーワード抽出手段と、
上記キーワード抽出手段で抽出したキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手段と、
上記キーワード検索手段によって検索された一次検索結果の構造化文書を、上記キーワード抽出手段で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手段と、
上記類似断片候補抽出手段によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手段と、
上記形態素解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手段
から構成されることを特徴とする構造化文書曖昧検索装置。
類義語辞書を備え、
上記断片類似度計算手段は、上記類義語辞書を参照し、上記形態素解析手段が出力した解析結果のキーワードと、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似性を反映して、類似度を計算することを特徴とした請求項１の構造化文書曖昧検索装置。
上記形態素解析手段が出力した解析結果に対して、係り受け関係を判定する構文解析手段を備え、
上記断片類似度計算手段は、上記構文解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似度を計算する構成にされたことを特徴とした請求項１または２に記載の構造化文書曖昧検索装置。
上記形態素解析手段、または構文解析手段が出力した解析結果に対して、照応関係を判定する照応処理手段を備え、
上記断片類似度計算手段は、上記照応処理手段が出力した解析結果のキーワードと、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似度を計算する構成にされたことを特徴とする請求項１乃至３の何れかに記載の構造化文書曖昧検索装置。
上記一次検索結果の構造化文書のタグの階層関係を解析し、タグ階層関係情報を形態素解析結果または構文解析結果に付与するするタグ階層関係解析手段を備え、
上記断片類似度計算手段は、上記タグ階層関係情報を考慮して上記照合対象抽出手段が出力した構造化文書の断片のキーワードと形態素解析結果または構文解析結果のキーワードとの間の類似度を計算する構成にされたことを特徴とする請求項１乃至３の何れかに記載の構造化文書曖昧検索装置。
上記類似断片候補抽出手段によって抽出された構造化文書にテーブルが含まれている場合、テーブルをタグ構造に変換するテーブル解析手段を備え、
上記形態素解析手段は上記テーブル解析手段によって出力された構造化文書断片のテキストを形態素解析し、
上記断片類似度計算手段は、上記テーブルのタグを解釈し、上記照合対象抽出手段が出力した構造化文書の断片のキーワードと形態素解析結果または構文解析結果のキーワードとの間の類似度の計算に反映する構成にされたことを特徴とする請求項１乃至５の何れかに記載の構造化文書曖昧検索装置。
外部データベースに接続され、上記断片類似度計算手段は形態素解析結果の単語をキーにして外部データベースを検索し、検索結果の情報を補充して類似度を計算する構成にされたことを特徴とする請求項１乃至６の何れかに記載の構造化文書曖昧検索装置。
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手順と、
上記照合対象抽出手順によって抽出された構造化文書からキーワードを抽出するキーワード抽出手順と、
上記キーワード抽出手順で抽出されたキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手順と、
上記キーワード検索手順によって検索された一次検索結果の構造化文書を、上記キーワード抽出手順で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手順と、
上記類似断片候補抽出手順によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手順と、
上記形態素解析手順が出力した解析結果と、上記照合対象抽出手順が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手順を
コンピュータに実行させることを特徴とする構造化文書曖昧検索プログラム。