JP2005326970A - 構造化文書曖昧検索装置及びそのプログラム - Google Patents

構造化文書曖昧検索装置及びそのプログラム Download PDF

Info

Publication number
JP2005326970A
JP2005326970A JP2004142695A JP2004142695A JP2005326970A JP 2005326970 A JP2005326970 A JP 2005326970A JP 2004142695 A JP2004142695 A JP 2004142695A JP 2004142695 A JP2004142695 A JP 2004142695A JP 2005326970 A JP2005326970 A JP 2005326970A
Authority
JP
Japan
Prior art keywords
fragment
structured document
keyword
similarity
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004142695A
Other languages
English (en)
Inventor
Yamahiko Ito
山彦 伊藤
Makoto Imamura
誠 今村
Takeyuki Aikawa
勇之 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004142695A priority Critical patent/JP2005326970A/ja
Publication of JP2005326970A publication Critical patent/JP2005326970A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来は、文書間で、余分なノードや不足ノードがある場合やノードの並び方が異なる場合を検出して文書構造間の相違距離を計算し、類似度計算はタグ名や属性名を基に行い、タグの値の内容解析までは行わないため、タグ付けの細かさのレベルが著しく異なる文書同士の類似性比較はできなかった。
【解決手段】入力構造化文書から、構造化文書の部分を照合対象抽出手段で抽出し、抽出された構造化文書からキーワード抽出手段でキーワードを抽出し、そのキーワードにより、キーワード検索手段でデータベースを検索し、検索された構造化文書を、キーワードと照合し、類似した文書断片を類似断片候補抽出手段で抽出し、その文書断片を、形態素解析手段が形態素解析し、解析結果と、照合対象抽出手段が出力した構造化文書の断片の類似度を計算し、類似度の高い文書を検索結果として断片類似度計算手段が出力する。
【選択図】図1

Description

本発明は文書データベース(DB)から所望の文書を検索する構造化文書曖昧検索技術に関するものである。
電子商取引(EC:Electronic Commerce)、CALS(Commerce At Light Speed)、知識経営(KM:Knowledge Management)、設備情報管理等の進展に伴って、これらの分野の情報システムが管理する構造化文書を、企業間や企業内組織間で交換/共有したいという要求が高まっている。
この要求に応える構造化文書の標準フォーマットとして、ISO(International Standard Organization)規格8879のSGML(Standard Generalized Markup Language)やW3C(World Wide Web Consortium)が制定するXML(eXtensible Markup Language)がある。
文書の構造化は、文書データにタグを付与することにより実現する。その際、文書構造は、木構造となる。従来、検索等において、文書構造が異なるときに文書間の類似度を測定する場合、タグの名称や木構造を比較することにより、類似度を判定する方法が提案されている。(例えば、特許文献1参照)。
特開2003−162518号公報(図1、第1頁−第6頁)
特許文献1に開示された方法では、構造化文書間で、余分なノードや、足りないノードがある場合、及びノードの並び方が異なる場合を検出し、文書構造間の相違の距離を計算する。類似度の計算は、タグ名や属性名を基に行い、タグの値の内容の解析までは行わないため、タグ付けの細かさのレベルが著しく異なる文書同士の類似性を比較することはできなかった。
この発明は、上述のような課題を解決するためになされたもので、荒くタグ付けされた構造化文書のテキストや表から、細かくタグ付けされた構造化文書と類似した部分を抽出することにより、タグ付けの細かさのレベルが異なる構造化文書間の曖昧検索を可能とする構造化文書曖昧検索装置を得るものである。
本発明の構造化文書曖昧検索装置は、
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手段と、
上記照合対象抽出手段によって抽出された構造化文書からキーワードを抽出するキーワード抽出手段と、
上記キーワード抽出手段で抽出したキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手段と、
上記キーワード検索手段によって検索された一次検索結果の構造化文書を、上記キーワード抽出手段で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手段と、
上記類似断片候補抽出手段によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手段と、
上記形態素解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手段から構成される。
また、本発明の構造化文書曖昧検索プログラムは、
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手順と、
上記照合対象抽出手順によって抽出された構造化文書からキーワードを抽出するキーワード抽出手順と、
上記キーワード抽出手順で抽出されたキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手順と、
上記キーワード検索手順によって検索された一次検索結果の構造化文書を、上記キーワード抽出手順で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手順と、
上記類似断片候補抽出手順によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手順と、
上記形態素解析手順が出力した解析結果と、上記照合対象抽出手順が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手順を
コンピュータに実行させる。
本発明は、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して、形態素解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても類似度の計算を可能にし、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
実施の形態1.
図1は、本発明の実施の形態1による構造化文書曖昧検索装置の構成を示すブロック図である。本実施の形態では、構造化文書としてXMLを例にして説明を行う。図1において、照合対象抽出手段101は、入力XML文書115から、検索の入力となる照合対象XML断片116を抽出する。キーワード抽出手段102は、照合対象XML断片116から、キーワード検索を行うためのキーワード117を抽出する。キーワード検索手段103は、キーワード117を検索キーとして、XML文書DB112を検索し、一次検索結果XML文書118を出力する。類似断片候補抽出手段104は、一次検索結果XML文書118からキーワード117に関連の大きいXMLの部分構造を抽出し、一次検索結果XML断片119を出力する。キーワード検索手段103と類似断片候補抽出手段104では、キーワード117を類義語展開するための類義語辞書113も参照する。
XML断片解析部105は、一次検索結果XML断片119を形態素解析する形態素解析手段106、形態素解析結果から構文解析を行う構文解析手段107、構文解析結果から照応処理を行う照応処理手段108、一次検索結果XML文書118のタグ階層の関係を解析するタグ階層関係解析手段109、一次検索結果XML断片119中に含まれる表を解析するテーブル解析手段110から構成され、解析結果120を出力する。
断片類似度計算手段111は、照合対象XML断片116と解析結果120の類似度を計算し、一次検索結果XML文書118の中で類似度の高い文書を、検索結果121として出力する。断片類似度計算手段111では、必要に応じて、キーワード117、類義語辞書113、及び外部DB114を参照する。
次に、動作について説明する。図2は、構造化文書曖昧検索装置の動作を示すフロー図である。図2のステップST201において、照合対象抽出手段101が、入力XML文書115より照合対象部分を抽出する。図3は、入力XML文書の例である。照合対象部分は、利用者が指定する。本例では、利用者が<条件>タグ以下を照合対象部分として指定したものとする。この結果抽出された照合対象XML断片116を図4に示す。なお、照合対象部分の抽出方法は、タグを指定する以外にも、特定の単語を含む文書の部分を抽出するなど、他の方法であってもよい。また、入力XML文書115の全体を照合対象XML断片116としてもよい。
次に、ステップST202において、キーワード抽出手段102が、照合対象XML断片116よりキーワードを抽出する。キーワードの抽出方法は、照合対象XML断片の要素名、及び要素の内容を形態素解析した結果の自立語部分を抽出するものとする。形態素解析は、例えば、長尾真編「自然言語処理」(岩波書店)の、p117〜p137に記されるような、公知の手法を用いる。図4の照合対象XML断片116から抽出したキーワード117を図5に示す。要素名から抽出されるキーワードとして「条件」、「対象」、「部品名」、「タイプ」、「動作温度」があり、要素の内容から抽出されるキーワードとして、「半導体」、「タイプA」、「60」、「℃」、「以上」がある。なお、キーワードの抽出方法として、形態素解析を行わず、字種の区切りを単語の区切りとみなすような、他の公知の方法を用いてもよい。
次に、ステップST203において、キーワード検索手段103が、キーワード117によって、XML文書DB112を検索する。キーワード117に含まれる全てまたは一部のキーワードを含む文書が検索される。なお、ステップST203では、図6に示すような類義語辞書113を用いてもよい。図6の類義語辞書を用いることにより、キーワードに「℃」が含まれる場合、「度」を含む文書も検索され、キーワードに「動作温度」を含む場合、「稼動温度」や「温度条件」を含む文書も検索される。図5のキーワードを用いて検索した結果である一次検索結果XML文書118を図7に示す。
本例の場合、検索結果1と検索結果2の2つの文書がXML文書DB112から検索されたものとする。
次に、ステップST204において、類似断片候補抽出手段104が、一次検索結果XML文書118から、入力の照合対象XML断片116と照合するXML断片を抽出する。本例では、要素の内容であるテキストにキーワード117を最も多く含む要素を抽出するものとする。図7に示す一次検索結果XML文書118夫々から抽出された一次検索結果XML断片119を図8に示す。なお、ステップST204の処理は、キーワード117と類似したXML文書の部分を抽出する処理であれば、方法は問わない。例えば、一次検索結果XML文書118中で、キーワード117を含む割合が最も高い部分を抽出しても良い。
次に、ステップST205において、XML断片解析部105が、一次検索結果XML断片119を解析する。図9は、XML断片解析部105の処理に、形態素解析手段106を用いた場合の動作を示すフロー図である。
図9において、ステップST901で、一次検索結果XML断片119を読み込む。次に、ST902で一次検索結果XML断片119のテキスト部分の形態素解析を行う。次に、ステップST903で解析結果を出力する。図10、11に、図8に示した一次検索結果XML断片119のテキスト部分に対して形態素解析を行った解析結果120を示す。
次に、図2のステップST206において、断片類似度計算手段111が、入力の照合対象XML断片116と解析結果120との類似度を計算する。図12は、断片類似度計算手段111の動作を示すフロー図である。図12において、ステップST1101で、解析結果120を読み込む。次に、ステップST1102でテキストの照合範囲を抽出する。照合範囲は、一次検索結果XML断片119中のテキスト全文でもよいし、1文ずつ、または連続する数文を抽出してもよい。本例では、<動作環境>の要素の内容であるテキスト全てを照合範囲とする。
次に、ステップST1103で、数値範囲解析処理を行う。これは、図4に示した照合対象XML断片116の<動作温度>の要素の内容「60℃以上」に対し、「70℃」や「80℃」のような、60℃以上の数値の範囲は、条件に合致するとみなす処理である。図4の照合対象XML断片116の要素<動作温度>に対し、図10、11の解析結果には、検索結果1、検索結果2とも、「70℃」という文字列が含まれているので、数値範囲の条件に合致したと判断され、類似度計算に1ポイント加算される。
次に、ステップST1104で、照合対象XML断片116中のキーワードと、ステップST1102で抽出した照合範囲の形態素解析結果の類似度を計算する。類似度の計算方法は、本例では、一致した形態素の数で表すものとする。図5に示したキーワード117と、図10に示した検索結果1の解析結果120とは、「半導体」、「タイプA」、「動作温度」、及び「℃」の4つの語が一致するので4ポイント、さらに、ステップST1103で行った数値範囲の条件の1ポイントを加え、合計5ポイントとなる。また、図11の検索結果2の解析結果に対しても、同様の計算によって、類似度は5ポイントとなる。
なお、ステップST1104で類似度を計算する計算式は、他の方法であってもかまわない。例えば、キーワード117と、解析結果120との間で一致する単語の割合を類似度と定義してもかまわない。また、類義語辞書113を利用して、類義語展開を行ってもよい。この場合、「℃」と「度」が同じ意味を持つ語である、あるいは、「動作温度」と「稼動温度」が同じ意味を持つ語である、といった情報を用いることにより、より正確な類似度計算を行うことが出来る。また、ステップST1102で、テキストの一部を照合範囲として抽出した場合には、それぞれの照合範囲に対して類似度を計算し、その中で最大の類似度を、照合対象XML断片116と解析結果120との類似度とする。
次に、図2のステップST207で、類似度の高い順に検索結果を出力する。本例では、検索結果1と検索結果2は、同じ類似度として出力される。
以上のように、実施の形態1では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して、形態素解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
また、類義語辞書を利用することにより、より正確な類似度の判定を行うことができる構造化文書曖昧検索装置を得ることができる。
実施の形態2.
実施の形態2では、XML断片解析部105に構文解析手段107を含む場合について説明する。実施の形態1と同様に、図2のステップST201、ステップST202、ステップST203の処理を行い、ステップST204によって、類似断片候補抽出手段104が、図8に示す一次検索結果XML断片119を出力したものとする。次に、ステップST205で、XML断片解析部105が、検索結果の一次検索結果XML断片119を解析する。
図13は、実施の形態2におけるXML断片解析部105の動作を示すフロー図である。ステップST1201の検索結果の一次検索結果XML断片119を読み込む処理、及び、ステップST1202の一次検索結果XML断片119のテキスト部分の形態素解析を行う処理は、それぞれ、図9におけるステップST901、及びステップST902の処理と同様である。
次に、ステップST1203で、構文解析手段107が、形態素解析結果を基に構文解析を行う。構文解析は、例えば、長尾真編「自然言語処理」(岩波書店)の、p139〜p198に記されるような、公知の手法を用いる。図10、11に示した形態素解析結果から、構文解析による文節の判定と係り受けの判定を行った結果を図14に示す。次にステップST1204で解析結果を出力する。
次に、ステップST206で、断片類似度計算手段111が、入力の照合対象XML断片116と解析結果120との類似度を計算する。図15は、実施の形態2における断片類似度計算手段111の動作を示すフロー図である。ステップST1401の解析結果120を読み込む処理、ステップST1402のテキストの照合範囲を抽出する処理、ステップST1403の数値範囲解析処理、及びステップST1404の照合対象XML断片116中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理は、それぞれ、図12におけるST1101、ST1102、ST1103、及びST1104の処理と同様である。
次に、ST1405により、照合対象XML断片116中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する。図4の照合対象XML断片116と、図14の構文解析結果を対象とした場合、検索結果1の「半導体A001(タイプA)の動作温度は70℃であり、」の部分の構文解析結果では、「半導体」、「タイプA」、「動作温度」「70℃」の4語が、「あり」に係っている。なお、「70℃」は、ステップST1403の数値範囲解析処理によって、「60℃以上」と一致すると判定される。また、「半導体A002(タイプB)の動作温度は40℃である。」の部分の構文解析結果では、「半導体」、「動作温度」の2語が、「ある」に係っている。従って、検索結果1のステップST1405によるポイントは4になる。ステップST1404までの処理のポイントと合計すると、図4の照合対象XML断片116に対する検索結果1の類似度は9ポイントとなる。
また、検索結果2の「半導体A001(タイプA)の動作温度は40℃であり、」の部分の構文解析結果では、「半導体」、「タイプA」、「動作温度」の3語が、「あり」に係っている。また、「半導体A002(タイプB)の動作温度は70℃である。」の部分の構文解析結果では、「半導体」、「動作温度」、「70℃」の3語が、「ある」に係っている。従って検索結果2のステップST1405によるポイントは3になる。ステップST1404までの処理のポイントと合計すると、図4の照合対象XML断片116に対する検索結果2の類似度は8ポイントとなる。
次に、図2のステップST207で、類似度の高い順に検索結果を出力する。本例では、検索結果1の方が検索結果2より高い類似度として出力される。
以上のように、実施の形態2では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して構文解析処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても、形態素解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
実施の形態3.
実施の形態3では、XML断片解析部105に照応処理手段108を含む場合について説明する。実施の形態1と同様に、図2のステップST201、ステップST202、ステップST203の処理を行い、ステップST204によって、類似断片候補抽出手段104が、図16に示す一次検索結果XML断片119を出力したものとする。次に、ステップST205で、XML断片解析部105が、一次検索結果のXML断片119を解析する。
図17は、実施の形態3におけるXML断片解析部105の動作を示すフロー図である。ステップST1601の一次検索結果XML断片119を読み込む処理、ステップST1602の一次検索結果XML断片119のテキスト部分の形態素解析を行う処理、及びステップST1603の形態素解析結果を基に構文解析を行う処理は、それぞれ、図13におけるステップST1201、ステップST1202、及びステップST1203の処理と同様である。図16に示した一次検索結果XML断片119に対して、形態素解析処理、及び構文解析処理を行った結果を図18に示す。
次に、ステップST1604で、照応処理手段108が、構文解析結果を基に照応処理を行う。照応処理は、例えば、長尾真編「自然言語処理」(岩波書店)の、p273〜p284に記されるような、公知の手法を用いる。本例では、図18の検索結果1、及び検索結果2における第2文「この半導体の動作温度は70℃である。」の「この」に対応する照応先は、それぞれ先行する最も近い名詞「タイプA」、及び「タイプB」と判定されるとする。検索結果1、及び検索結果2の第2文に対する照応処理を行った構文解析結果を図19に示す。次に、ステップST1605で、解析結果を出力する。
次に、図2のステップST206で、断片類似度計算手段111が、入力照合対象XML断片116と解析結果120との類似度を計算する。実施の形態3における断片類似度計算手段111の動作は、実施の形態2と同様であり、図15のフロー図に従う。検索結果1の第2文の、図4の照合対象XML断片116に対する類似度のスコアは、数値範囲解析処理によって「70℃」が一致するためポイント1となり、形態素解析結果の類似度では、「タイプA」、「半導体」、「動作温度」、「℃」が一致するためポイント4となり、構文解析結果の類似度では、「タイプA」、「半導体」、「動作温度」、「70℃」の4語が「ある」に係っているためポイント4となり、合計でポイント9となる。
また、検索結果2の第2文の、図4の照合対象XML断片116に対する類似度のスコアは、数値範囲解析処理によって「70℃」が一致するためポイント1となり、形態素解析結果の類似度では、「半導体」、「動作温度」、「℃」が一致するためポイント3となり、構文解析結果の類似度では、「半導体」、「動作温度」、「70℃」の3語が「ある」に係っているためポイント3となり、合計でポイント7となる。
次に、図2のステップST207で、類似度の高い順に検索結果を出力する。本例では、検索結果1の方が検索結果2より高い類似度として出力される。
以上のように、実施の形態3では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して照応処理を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間においても、形態素解析、及び構文解析を用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
実施の形態4.
実施の形態4では、XML断片解析部105にタグ階層関係解析手段109を含む場合について説明する。図2のステップST201、ステップST202、ステップST203、及びステップST204の処理は、実施の形態1と同様である。本例では、図20に示す照合対象XML断片116のキーワードによってXML文書DB112の検索を行い、図21に示す2つの一次検索結果XML文書118が検索され、図22に示す一次検索結果XML断片119が夫々抽出されたものとする。次に、ステップST205で、XML断片解析部105が、検索結果のXML断片119を解析する。
図23は、実施の形態4におけるXML断片解析部105の動作を示すフロー図である。ステップST2201の検索結果のXML断片119を読み込む処理、ステップST2202のXML断片119のテキスト部分の形態素解析を行う処理、及びステップST2203の形態素解析結果を基に構文解析を行う処理は、それぞれ、図13におけるステップST1201、ステップST1202、及びステップST1203の処理と同様である。
次に、ステップST2204で、タグ階層関係解析手段109が、構文解析結果にタグ階層関係情報を付与する。タグ階層関係情報としては、一次検索結果XML断片119のノードの兄弟、または先祖の兄弟に含まれるテキストから抽出したキーワードを付与するものとする。タグ階層関係解析手段109が抽出したキーワードを文脈キーワードと呼ぶ。図22に示した検索結果1および2の一次検索結果XML断片119に対して、本例におけるXML断片解析部105が解析した構文解析結果と文脈キーワードを図24に示す。次に、ステップST2205で、解析結果を出力する。
次に、図2のステップST206で、断片類似度計算手段111が、照合対象XML断片116と解析結果120との類似度を計算する。図25は、実施の形態4における断片類似度計算手段111の動作を示すフロー図である。ステップST2401の解析結果120を読み込む処理、ステップST2402のテキストの照合範囲を抽出する処理、ステップST2403の数値範囲解析処理、ステップST2404の照合対象XML断片116中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップST2405の照合対象XML断片116中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図15におけるST1401、ST1402、ST1403、ST1104、及びST1405の処理と同様である。
次に、ステップST2406により、照合対象XML断片116中のキーワードにある文脈キーワードをカウントし、その値を類似度に加算する。図20の照合対象XML断片116に対するステップST2403、ステップST2404、及びステップ2405の類似度のスコアは、検索結果1と検索結果2で同じである。文脈キーワードの類似度のスコアは、検索結果1では、「動作温度」と「パワーミニモールド」の2つが図20の照合対象XML断片116中のキーワードと一致するのに対し、検索結果2では、「動作温度」のみである。そのため、検索結果1に対しては、類似度に2ポイント加算され、検索結果2に対しては、類似度に1ポイント加算される。
次に、図2のステップST207で、類似度の高い順に検索結果を出力する。本例では、検索結果1の方が検索結果2より高い類似度として出力される。
以上のように、実施の形態4では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらにタグの階層関係を解析することにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
実施の形態5.
実施の形態5では、XML断片解析部105にテーブル解析手段110を含む場合について説明する。図2のステップST201、ステップST202、ステップST203、及びステップST204の処理は、実施の形態1と同様である。本例では、図20に示す照合対象XML断片116のキーワードによってXML文書DB112の検索を行い、図26に示す一次検索結果XML断片119が抽出されたものとする。次に、ステップST205で、XML断片解析部105が、一次検索結果XML断片119を解析する。
図27は、実施の形態5におけるXML断片解析部105の動作を示すフロー図である。まず、ステップST2601で、一次検索結果XML断片119を読み込む。次に、ステップST2602で、一次検索結果XML断片119のテーブル部分をタグの階層構造に変換する。この処理は、表の行・列の見出しをタグ名とし、行の並びそれぞれの子要素に列の並びを記述し、値を代入することによって行う。図26の一次検索結果XML断片119に対し、ステップST2602のテーブル部分のタグ階層構造変換処理によって生成されるXML断片を図28に示す。ステップST2603のXML断片のテキスト部分の形態素解析を行う処理、ステップST2604の形態素解析結果を基に構文解析を行う処理、及びステップST2605の解析結果を出力する処理は、それぞれ図13におけるステップST1202、ステップST1203、及びステップST1204の処理と同様である。
次に、図2のステップST206で、断片類似度計算手段111が、入力の照合対象XML断片116と解析結果120との類似度を計算する。図29は、実施の形態5における断片類似度計算手段111の動作を示すフロー図である。ステップST2801の解析結果120を読み込む処理、ステップST2802のテキストの照合範囲を抽出する処理、ステップST2803の数値範囲解析処理、ステップST2804の照合対象XML断片116中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップST2805の照合対象XML断片116中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図15におけるST1401、ST1402、ST1403、ST1104、及びステップST1405の処理と同様である。
次に、ステップST2806により、テーブルのタグを解釈し、数値の範囲の照合を行う。図28のXML断片においては、要素<動作温度>の子要素<最高>の値が80℃であり、図20の照合対象XML断片116の「<動作温度>60℃以上</動作温度>」と一致すると判定する。一致すると判定した場合は、類似度のスコアを上げる。なお、<最低>や<最高>のタグの意味は、テーブル解析手段110の知識として予め備わっているものとする。
次に、図2のステップST207で、類似度の高い順に検索結果を出力する。
以上のように、実施の形態5では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらにテーブルの解析を行うことにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
実施の形態6.
実施の形態6では、断片類似度計算手段111が外部DB114を参照する場合について説明する。図2のステップST201、ステップST202、ステップST203、ステップST204、及びステップST205の処理は、実施の形態2と同様である。本例では、図20に示す照合対象XML断片116のキーワードによってXML文書DB112の検索を行い、図30に示す一次検索結果XML断片119が抽出され、図31に示す解析結果が得られたものとする。
次に、ステップST206で、断片類似度計算手段111が、照合対象XML断片116と解析結果120との類似度を計算する。図32は、実施の形態6における断片類似度計算手段111の動作を示すフロー図である。ステップST3101の解析結果120を読み込む処理、ステップST3102のテキストの照合範囲を抽出する処理、ステップST3103の数値範囲解析処理、ステップST3104の照合対象XML断片116中のキーワードと照合範囲の形態素解析結果の類似度を計算する処理、及び、ステップST3105の照合対象XML断片116中の語で、構文解析結果の同じ係り先を持つ語をカウントし、その最大値を類似度に加算する処理は、それぞれ図15におけるST1401、ST1402、ST1403、ST1104、及びST1405の処理と同様である。
次に、ステップST3106で、形態素解析結果120の単語をキーにして外部DB114を検索し、関連情報を抽出する。図33は、外部DB114の例である。「PCA3021-20」に対し、「部品名」が「チップ」であり、「タイプ」が「パワーミニモールド」であるという関連情報が抽出される。次に、ステップST3107で、関連情報の類似度を加算する。図20の照合対象XML断片116と照合し、「部品名」が「チップ」であるという関連情報が、「<部品名>チップ</部品名>」の部分と一致すると判定され、「タイプ」が「パワーミニモールド」であるという関連情報が、「<タイプ>パワーミニモールド</タイプ>」の部分と一致するとみなされる。2箇所が一致したため、類似度に2ポイントが加算される。次に、図2のステップST207で、類似度の高い順に検索結果を出力する。
以上のように、実施の形態6では、荒くタグ付けされた構造化文書のテキストから、細かくタグ付けされた構造化文書と類似した部分を抽出して文解析を行い、さらに外部DBから関連情報を抽出することにより、タグ付けの細かさのレベルが異なる構造化文書間において、文解析のみを用いる場合よりも正確に類似度を計算し、曖昧検索を行うことを可能とする構造化文書曖昧検索装置を得ることができる。
文書DB(データベース)から構造化文書を検索する際、検索するための入力文書と、文書DBに蓄積された文書間においてタグ付けの細かさのレベルが異なる場合にも類似度の計算を可能にし、曖昧検索を行うことを可能とする
本発明の実施の形態1による構造化文書曖昧検索装置の構成を示すブロック図である。 構造化文書曖昧検索装置の動作を示すフロー図である。 入力XML文書の例を示す図である。 照合対象XML断片を示す図である。 照合対象XML断片から抽出したキーワードを示す図である。 類義語辞書の説明図である。 XML文書DBを検索するキーワードによる一次検索結果XML文書を示す図である。 一次検索結果XML文書から抽出された一次検索結果XML断片を示す図である。 実施の形態1におけるXML断片解析部の動作を示すフロー図である。 一次検索結果1のXML断片に対しての形態素解析結果を示す図である。 一次検索結果2のXML断片に対しての形態素解析結果を示す図である。 実施の形態1における断片類似度計算手段の動作を示すフロー図である。 実施の形態2におけるXML断片解析部の動作を示すフロー図である。 形態素解析結果に対し構文解析処理を行った結果を示す図である。 実施の形態2における断片類似度計算手段の動作を示すフロー図である。 類似断片候補抽出手段が出力する一次検索結果XML断片を示す図である。 実施の形態3におけるXML断片解析部の動作を示すフロー図である。 一次検索結果XML断片に対し形態素解析処理、及び構文解析処理の結果を示す図である。 図18に示されたそれぞれの第2文に対する照応処理を行った構文解析結果を示す図である。 実施の形態4における照合対象XML断片を示す図である。 実施の形態4における一次検索結果XML文書を示す図である。 実施の形態4における一次検索結果XML断片を示す図である。 実施の形態4におけるXML断片解析部の動作を示すフロー図である。 一次検索結果XML断片に対しXML断片解析部が解析した構文解析結果と文脈キーワードを示す図である。 実施の形態4における断片類似度計算手段の動作を示すフロー図である。 実施の形態5における一次検索結果XML断片を示す図である。 実施の形態5におけるXML断片解析部の動作を示すフロー図である。 テーブル解析手段によって生成されるXML断片を示す図である。 実施の形態5における断片類似度計算手段の動作を示すフロー図である。 実施の形態6における一次検索結果XML断片を示す図である。 実施の形態6におけるXML断片解析部の解析結果を示す図である。 実施の形態6における断片類似度計算手段の動作を示すフロー図である。 外部DBの例を示す図である。
符号の説明
101:照合対象抽出手段、102:キーワード抽出手段、103:はキーワード検索手段、104:類似断片候補抽出手段、105:XML断片解析部、106:形態素解析手段、107:構文解析手段、108:照応処理手段、109:タグ階層関係解析手段、110:テーブル解析手段、111:断片類似度計算手段、112:XML文書DB、113:類義語辞書、114:外部DB、115:入力XML文書、116:照合対象XML断片、117:キーワード、112:XML文書DB、118:一次検索結果XML文書、119:一次検索結果XML断片、120:解析結果、121:検索結果。

Claims (8)

  1. データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手段と、
    上記照合対象抽出手段によって抽出された構造化文書からキーワードを抽出するキーワード抽出手段と、
    上記キーワード抽出手段で抽出したキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手段と、
    上記キーワード検索手段によって検索された一次検索結果の構造化文書を、上記キーワード抽出手段で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手段と、
    上記類似断片候補抽出手段によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手段と、
    上記形態素解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手段
    から構成されることを特徴とする構造化文書曖昧検索装置。
  2. 類義語辞書を備え、
    上記断片類似度計算手段は、上記類義語辞書を参照し、上記形態素解析手段が出力した解析結果のキーワードと、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似性を反映して、類似度を計算することを特徴とした請求項1の構造化文書曖昧検索装置。
  3. 上記形態素解析手段が出力した解析結果に対して、係り受け関係を判定する構文解析手段を備え、
    上記断片類似度計算手段は、上記構文解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似度を計算する構成にされたことを特徴とした請求項1または2に記載の構造化文書曖昧検索装置。
  4. 上記形態素解析手段、または構文解析手段が出力した解析結果に対して、照応関係を判定する照応処理手段を備え、
    上記断片類似度計算手段は、上記照応処理手段が出力した解析結果のキーワードと、上記照合対象抽出手段が出力した構造化文書の断片のキーワードとの間の類似度を計算する構成にされたことを特徴とする請求項1乃至3の何れかに記載の構造化文書曖昧検索装置。
  5. 上記一次検索結果の構造化文書のタグの階層関係を解析し、タグ階層関係情報を形態素解析結果または構文解析結果に付与するするタグ階層関係解析手段を備え、
    上記断片類似度計算手段は、上記タグ階層関係情報を考慮して上記照合対象抽出手段が出力した構造化文書の断片のキーワードと形態素解析結果または構文解析結果のキーワードとの間の類似度を計算する構成にされたことを特徴とする請求項1乃至3の何れかに記載の構造化文書曖昧検索装置。
  6. 上記類似断片候補抽出手段によって抽出された構造化文書にテーブルが含まれている場合、テーブルをタグ構造に変換するテーブル解析手段を備え、
    上記形態素解析手段は上記テーブル解析手段によって出力された構造化文書断片のテキストを形態素解析し、
    上記断片類似度計算手段は、上記テーブルのタグを解釈し、上記照合対象抽出手段が出力した構造化文書の断片のキーワードと形態素解析結果または構文解析結果のキーワードとの間の類似度の計算に反映する構成にされたことを特徴とする請求項1乃至5の何れかに記載の構造化文書曖昧検索装置。
  7. 外部データベースに接続され、上記断片類似度計算手段は形態素解析結果の単語をキーにして外部データベースを検索し、検索結果の情報を補充して類似度を計算する構成にされたことを特徴とする請求項1乃至6の何れかに記載の構造化文書曖昧検索装置。
  8. データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手順と、
    上記照合対象抽出手順によって抽出された構造化文書からキーワードを抽出するキーワード抽出手順と、
    上記キーワード抽出手順で抽出されたキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手順と、
    上記キーワード検索手順によって検索された一次検索結果の構造化文書を、上記キーワード抽出手順で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手順と、
    上記類似断片候補抽出手順によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手順と、
    上記形態素解析手順が出力した解析結果と、上記照合対象抽出手順が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手順を
    コンピュータに実行させることを特徴とする構造化文書曖昧検索プログラム。
JP2004142695A 2004-05-12 2004-05-12 構造化文書曖昧検索装置及びそのプログラム Withdrawn JP2005326970A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004142695A JP2005326970A (ja) 2004-05-12 2004-05-12 構造化文書曖昧検索装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004142695A JP2005326970A (ja) 2004-05-12 2004-05-12 構造化文書曖昧検索装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2005326970A true JP2005326970A (ja) 2005-11-24

Family

ID=35473299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004142695A Withdrawn JP2005326970A (ja) 2004-05-12 2004-05-12 構造化文書曖昧検索装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2005326970A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2010015203A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp Web検索支援方法、装置及びプログラム
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2013105207A (ja) * 2011-11-10 2013-05-30 Fujitsu Ltd 秘匿化データの検索のための情報処理方法及び装置
US8832109B2 (en) 2007-09-03 2014-09-09 British Telecommunications Public Limited Company Distributed system
JP2015053041A (ja) * 2013-09-05 2015-03-19 ザ・ボーイング・カンパニーTheBoeing Company 最大構成データセットの相関
WO2016075833A1 (ja) * 2014-11-14 2016-05-19 富士通株式会社 データ取得プログラム、データ取得方法及びデータ取得装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP4878624B2 (ja) * 2006-03-31 2012-02-15 株式会社ジャストシステム 文書処理装置および文書処理方法
US8832109B2 (en) 2007-09-03 2014-09-09 British Telecommunications Public Limited Company Distributed system
JP2010015203A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp Web検索支援方法、装置及びプログラム
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2013105207A (ja) * 2011-11-10 2013-05-30 Fujitsu Ltd 秘匿化データの検索のための情報処理方法及び装置
JP2015053041A (ja) * 2013-09-05 2015-03-19 ザ・ボーイング・カンパニーTheBoeing Company 最大構成データセットの相関
WO2016075833A1 (ja) * 2014-11-14 2016-05-19 富士通株式会社 データ取得プログラム、データ取得方法及びデータ取得装置
JPWO2016075833A1 (ja) * 2014-11-14 2017-09-28 富士通株式会社 データ取得プログラム、データ取得方法及びデータ取得装置

Similar Documents

Publication Publication Date Title
JP4694111B2 (ja) 用例ベースの機械翻訳システム
US7882119B2 (en) Document alignment systems for legacy document conversions
US8185377B2 (en) Diagnostic evaluation of machine translators
US20030217066A1 (en) System and methods for character string vector generation
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
Bronikowska et al. The use of electronic historical dictionary data in corpus design
JP2005326970A (ja) 構造化文書曖昧検索装置及びそのプログラム
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
Besagni et al. Citation recognition for scientific publications in digital libraries
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Nguyen et al. An ontology-based approach for key phrase extraction
JP2003167898A (ja) 情報検索システム
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
Dhingra et al. Rule based approach for compound segmentation and paraphrase generation in Sanskrit
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JPH06124305A (ja) 文書検索方法
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
Hathout et al. Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary
Qamet et al. Development Kazakh-Turkish machine translation on the base of complete set of endings model
Klyueva et al. Querying multi-word expressions annotation with CQL
JP2001034630A (ja) 文書ベース検索システム、およびその方法
Litkowski The Preposition Corpus in Sketch Engine
Phyue Unknown word detection via syntax analyzer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070416

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090205