JP2004252892A - Similar document retrieval method and system - Google Patents

Similar document retrieval method and system Download PDF

Info

Publication number
JP2004252892A
JP2004252892A JP2003044952A JP2003044952A JP2004252892A JP 2004252892 A JP2004252892 A JP 2004252892A JP 2003044952 A JP2003044952 A JP 2003044952A JP 2003044952 A JP2003044952 A JP 2003044952A JP 2004252892 A JP2004252892 A JP 2004252892A
Authority
JP
Japan
Prior art keywords
word
similar document
document
words
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003044952A
Other languages
Japanese (ja)
Inventor
Yoichi Nakatani
洋一 中谷
Kotaro Takada
広太郎 高田
Michihiro Isoda
道弘 磯田
Satoru Sudo
了 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Technology Corp
Original Assignee
NTT Data Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Technology Corp filed Critical NTT Data Technology Corp
Priority to JP2003044952A priority Critical patent/JP2004252892A/en
Publication of JP2004252892A publication Critical patent/JP2004252892A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a similar document retrieval system which is made to correspond to a paraphrase and by which highly accurate similar document retrieval can be performed, while making the best use of an advantage generated by unification arrangement for a synonym in the similar document retrieval. <P>SOLUTION: A similar document retrieval method using a single word being the minimum unit having meaning in itself as an index word comprises: transforming the synonym (for example, electromagnetic induction heating, an induction heater, IH (Induction Heating)) on a compound word (for example, the electromagnetic induction heating) formed by combining the single words into the index word (for example, electromagnetic, induction, heating) consisting of the single word formed by splitting the headword of the synonym; and conducting the similar document retrieval by using the index word. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は情報検索、特に類似文書検索に関するものである。
【0002】
【従来の技術】
情報検索は、一般的には索引語のマッチングにより行われる。そのためには、文書中より用語を切り出し、索引語を抽出することが必要となる。文書からの索引語の抽出は形態素解析といわれる手法により行われている。形態素解析は、形態素辞書と形態素に関する文法の知識を用いて、文を用語単位に「分かち書き」し、検索のためには不要な用語、例えば「の」、「は」等の助詞、「また」、「しかし」等の接続詞等、を除去して、検索において意義のある索引語を抽出する。このような技術は非特許文献1に詳しく説明されている。
【0003】
検索システムにおいて索引語としてどのような単位を考えるかについては、検索システムの設計思想に依存する問題であり、検索システムの目的に応じて決定されている。索引語を、それ自体意味を持つ最小の要素である単一語をとするか、単一語を組み合わせた複合語とするかにより検索システムの検索精度、即ち適合率、再現率が大きく異なってくると言われている。
【0004】
一般に、単一語を中心とする検索システム(以下、単一語方式と言う。)は、漏れは少ないが、ノイズが多くなり(再現率が高い)、他方、複合語を多く採用する検索システム(以下複合語方式と言う)では漏れは多いが、ノイズが少ない(適合率が高い)という傾向があると言われている。
【0005】
今仮に、文書A中の「電磁誘導加熱」なる表現と全く意味概念が同じである文書B中の「電磁誘導作用により加熱する」なる表現を例に取って単一語方式と複合語方式を比較する。
【0006】
単一語方式では、例えば文書A中の「電磁誘導加熱」は、単一語である「電磁」、「誘導」、「加熱」に分かち書きされ、索引語として夫々インデックスされる。同様に、文書B中の「電磁誘導作用により加熱する」とした記述のある文書では「電磁」、「誘導」、「作用」、「に」、「より」、「加熱」、「する」に分かち書きされ、不用語である「に」、「より」、「する」が除去され、「電磁」、「誘導」、「作用」、「加熱」が索引語としてインデックスされる。
【0007】
複合語方式では、文書A中の「電磁誘導加熱」は特定の意味を有した纏まりのある用語であるので「電磁誘導加熱」が複合語としてインデックスされることになる。また、文書B中の「電磁誘導作用により加熱する」は同様に「電磁誘導作用」、「加熱」がインデックスされる。
【0008】
質問語として「電磁誘導加熱」を検索システムに入力すると、単一語方式では、質問語はインデックス作成時と同じ形態素解析を行い「電磁」、「誘導」、「加熱」に分割され検索が行われる。上述の文書A及びB中には「電磁」、「誘導」、「加熱」が存在するので、両文書はともにヒットすることになる。ところが、これに対し、複合語方式では、質問語「電磁誘導加熱」に対し文書Aはヒットするが、文書Bは「電磁誘導加熱」という索引語がないためヒットしないことになる。
【0009】
上述のような意味概念が同一であるが異なった表現、つまり、言換え表現はパラフレーズと言われており、上述のようなパラフレーズには、上記例に見られるように単一語方式が良い結果が得られるとされている。しかし、単一語方式では、異なったトピックで関係なく述べられている「電磁」、「誘導」、「加熱」であっても、それらが一の文書内に存在すればヒットすることとなる。つまりノイズを拾うことになる。
【0010】
以上のように、単一語方式による検索システムでは漏れは少ないが、ノイズが多くなり(再現率が高い)、複合語方式による検索システムでは漏れは多いが、ノイズが少なくなる(適合率が高い)といえる。
【0011】
ところで、情報検索方式についてみると、上述の例のように用語の組み合わせよりなる検索質問式を入力することにより、検索質問式と一致する用語の組み合わせをもつ文書を検索するブーリアン検索方式が多く用いられている。ブーリアン検索方式では、検索質問式に厳密に一致する用語の組み合わせを有する文書を検索する点で優れているが、検索質問式や文書中の用語はすべて同じ重みを有しており、用語の重要度を扱えないと言う欠点を有している。
【0012】
そのため、検索質問式、文書中に出現する用語の重要度を反映し、検索結果に順序付けを行うことができず、利用者は全検索結果を精査して所望の文献を探し出す作業をしなければならなかった。特に漏れの少ない検索方式、即ち、単一語方式では漏れは少ないがノイズが多くなり、精査しなければならない文献が多くなり、その作業負担は大きかった。この問題点を解決する手法として、非特許文献2あるいは3に見られるような類似文書検索の手法が提案されている。
【0013】
類似文書検索は、検索質問として種文書を用い、この種文書とデータベース中の文献の類似度を算出して、類似度順に順序付けして、検索結果を提示する手法である。類似度算出は、予め、データベース中において、各用語が出現する文書数、各文書中に出現する各用語の出現頻度を算出しておき、これらを指標として文書中における各用語の重要度を定めておき、各用語にそれぞれのベクトルを対応させることにより、用語の集合体である各文書を、重みを加味した用語ベクトルを合成した文書ベクトルとして表現し、種文書もまた同様に種文書ベクトルと表現して、これら文書ベクトルと種文書ベクトルの類似度を算出することにより行われている。
【0014】
以上のように、類似文書検索は、各用語にそれぞれのベクトルを対応させることになるので、同一の意味概念を持つ用語であっても、表現が異なれば異なったベクトルが対応付けられ、類似度、即ち精度を下げる要因となる。そこで、同じ意味概念を有する用語、即ち、異表記同義語を統一化整理することにより、同義関係にある用語には同一のベクトルを対応付けて精度を向上する提案が特願2002−023650号においてなされている。
【0015】
ところで、例えば表.1にあるように、電磁誘導加熱の異表記同義語にはインダクションヒータ、あるいは略してIH、誘導加熱がある。そこで、複合語である「電磁誘導加熱」を代表語とし、{電磁誘導加熱、インダクションヒータ、IH、誘導加熱}を同義語として取り扱うことが考えられるが、複合語レベルでは前述のパラフレーズ{電磁誘導作用により加熱する}による問題点に対応できない。一方パラフレーズに対応するために単一語レベルの同義語整理も考えられるが「電磁誘導」と「I」を同義語とするには無理がある。以上のように、用語の中には複合語レベルでないと同義語として取り扱えないものもあるので、徒にパラフレーズに対応するために、索引語を単一語とすることは、同義複合語の統一化整理の利点を生かせないことになる。
【0016】
【非特許文献1】
「全文検索システムとは何か?」1999年10月全文検索協議会発行、p.21〜25
【非特許文献2】
長尾 真 外4名著、「言語情報処理」、岩波講座 言語の科学9、p.65〜67
【非特許文献3】
徳永健伸 著、「情報検索と言語処理」、財団法人東京大学出版会、言語と計算5、p.11〜43
【0017】
【発明が解決しようとする課題】
この出願の発明は、上記問題に鑑みなされたもので、単一語を索引語とする類似文書検索において、単一語のみならず複合語の同義語の統一化整理による利点を生かした精度の高い類似文書検索方法及びシステムを提供することを課題とするものである。
【0018】
【課題を解決するための手段】
上記課題は、以下の手段により解決される。すなわち、第1番目の発明は、それ自体意味を有する最小単位である単一語を索引語とする類似文書検索方法において、単一語を組み合わせた複合語についての同義語はその同義語の見出し語を分割した単一語よりなる索引語に変換して用いるようにしたことを特徴とする類似文書検索方法である。
【0019】
第2番目の発明は、第1番目の発明の類似文書検索方法において、上記同義関係にある全ての単一語が索引語として統一化整理されていることを特徴とする類似文書検索方法である。
【0020】
第3番目の発明は、第2番目の発明の類似文書検索方法において、上記同義語は分野別に作成されていることを特徴とする検索類似文書検索方法である。
【0021】
第4番目の発明は、それ自体意味を有する最小単位である単一語を索引語とする類似文書検索システムにおいて、単一語を組み合わせた複合語についての同義語はその同義語の見出し語を分割した単一語よりなる索引語に変換して用いるようにしたことを特徴とする類似文書検索システムである。
【0022】
第5番目の発明は、第4番目の発明の類似文書検索システムにおいて、上記同義関係にある全ての単一語が索引語として統一化整理されていることを特徴とする類似文書検索システムである。
【0023】
第6番目の発明は、第5番目の発明の類似文書検索システムにおいて、上記同義語は分野別に作成されていることを特徴とする検索類似文書検索システムである。
【0024】
【発明の実施の形態】
表.1は、本発明の考え方の実例を示したもので、表中、見出し語は、同義語を代表する用語である。「電磁誘導加熱」を例に取れば、「電磁誘導加熱」は「インダクションヒータ」、「IH」及び「誘導加熱」と同義語であることを表しており、「電磁誘導加熱」は見出し語であることを示している。パラフレーズは前述のしたように、同義語もしくは見出し語と同一の意味概念を表した言換え表現であり、多くの表現が可能であるがここでは極一部を示しているに過ぎない。分割語は、見出し語であり複合語である「電磁誘導加熱」を単一語である「電磁」、「誘導」、「加熱」に分割したもので、「インダクションヒータ」、「IH」、「誘導加熱」からも「電磁誘導加熱」と同様の単一語「電磁」、「誘導」、「加熱」を創出することを意味している。
【0025】
以上のように、複合語の同義語を見出し語に統一して、統一後、見出し語を単一語に分割しているので、複合語の同義語に関しては、ベクトル空間モデルにおいて、当然同一のベクトルを対応付けることができる。さらにこれと共にパラフレーズについても、単一語の多くが一致するので、同一の対応付けをすることができるベクトルが多くなり、精度の向上が期待できる。
【0026】
見出し語「破壊解析」は上述の「電磁誘導加熱」と同様に「破壊」と「分析」に分割することにより、パラフレーズに対応できる。この場合、パラフレーズの表現の可能性を考慮すると「破壊」、「破損」及び「損傷」が同義語であり、「解析」と「分析」が同義語であるとして統一化することがより精度を向上する上で効果的である。
【0027】
見出し語「ふっ化ビニリデン共重合体」及び「ポリビニルブチラール」は夫々数多くの同義語が記述されているが、これらは何れも命名法に従って記述されているもので、その一部を示したものに過ぎない。これら高分子化合物についても命名法の要素であり、それ自体意味のある最小の単位、即ち、単一語「ふっ化」、「ビニリデン」、「共重合体」及び「ポリ」、「ビニル」、「ブチラール」に分割することにより同義語辞書中にない異表記同義語に対しても対応できるようにして精度を向上するようにしている。なお、この例では「ふっ化」、「フッ化」、「弗化」などの単一語の表記の揺れについても、統一化しておくことが精度向上の上では当然好ましい。
【0028】
見出し語「温湿度」、「吸放湿」、「給排紙」及び「通断電」などは、概念を表す複合語として、正式には「温度湿度」、「吸湿放湿」、「給紙排紙」及び「通電断電」と記述すべきところ「度」、「湿」等の繰り返しの記述を省略したもので、同義語として示したような表記がある。また、パラフレーズとしては「温度並びに湿度」等の表現がある。以上のような表記、表現を考慮した場合、「温湿度」、「吸放湿」、「給排紙」及び「通断電」などは正式の表現であるところの「温度湿度」、「吸湿放湿」、「給紙排紙」及び「通電断電」を分割して「温度」、「湿度」等の単一語を創出して索引語とすることにより精度の向上をするようにしている。
【0029】
図2は類似文書検索システムの概要を示したもので、文書データ蓄積部1には文書データが、文書毎に番号を付して蓄積されている。各文書データは検索データ作成部2に送られ、形態素解析手段21に送られ、形態素辞書及び形態素に関する文法の下に用語単位に「分かち書き」され、検索にとって意味の無い不用語が削除され、索引語が抽出される。この索引語の中には辞書に存在する複合語、単一語及び文法の知識により切り出された新語が含まれている。なお、新語は確認のうえ辞書に追加されることになるが、本発明の要旨と直接関係が無いので、ここでは、新語の処理についての説明はしない。
【0030】
抽出された単一語について、同義語が存在しない場合はその単一語は検索ファイル26に送られる。抽出された複合語及び単一語について同義語が存在する場合、各複合語及び単一語は、第一同義語統一手段22により、同義語辞書中の見出し語に変換され同義語の統一化が行われる。
【0031】
次に同義語が統一された複合語及び単一語は、統一化複合語識別手段23により、複合語または単一語の何れであるかが識別され、単一語は第二同義語統一手段25に送られる。他方、複合語は見出し語分割テーブル24において、例えば「電磁」、「誘導」、「加熱」等の単一語に分割され、第二同義語統一手段25に送られる。
【0032】
第二同義語統一手段25において、見出し語分割テーブル24において分割された単一語が見出し語(単一語)に統一されて検索ファイル26に蓄積される。なお、第二同義語統一手段25は、見出し語分割テーブル24において創出される単一語が、見出し語、詰まり、単一語の同義語グループの代表語にするとのルールの下に分割されるのであれば不用であるが、パラフレーズの多様性を考慮して複合語の見出し語を選択することになるので、精度向上のためには必要である。
【0033】
検索データ作成部2については形態素解析、同義語の統一化整理、複合語の分割等を中心に説明したが、類似文書検索システムの検索ファイルにおいては文書毎に用語の出現頻度、データベース中における用語の出現の文書数等、類似度計算に必要な統計情報が取得され、これらの統計情報を基に用語の重要度が割り出され類似度の算出に供される。統計情報算出においては、当然、同義語は置き換えられた見出し語でカウントされる。例えば、文書A中に「インダクションヒータ」10回出現すれば、文書A中には「電磁誘導加熱」が10回出現したものとして取り扱われる。また、文書B中に「電磁誘導加熱」が3回「インダクションヒータ」が5回入り混じって出現すれば、文書B中に「電磁誘導加熱」が8回出現したものとしてカウントされる。複合語の見出し語を分割した場合には、見出し語の数が分割された単一語の数に反映されることになる。即ち、前述のように「電磁誘導加熱」が文書B中に8回出現したものとしてカウントたれた場合には、文書B中に夫々「電磁」、「誘導」及び「加熱」が8回づつ出現したものとしてカウントされることを意味している。
【0034】
質問文入力部3は、検索データ作成部2と同一の各手段及びテーブルにより同一処理手順に従って質問文より質問データを作成するように構成されており、質問データは類似度比較演算部4に送られるようになっている。
【0035】
類似文書検索システムに質問文が入力されると、質問文入力部3においては、検索データ作成部2と同じ処理手順で質問データが作成され、類似度比較演算部4において、検索ファイル26中の検索データと比較演算される。表示部5においては、比較演算結果に基づいて文書番号が類似度順に表示され、利用者の求めに応じて文書データ蓄積部1より必要とする文書を呼び出せるようになっている。
【0036】
なお、本発明の実施例を図2において説明したが、本発明は上述の実施例に限られるものではなく、例えば、単一語及び複合語にかかわらず、同義語が存在する全ての用語について、単一語の見出し語または見出し語を分割した単一語に変換するテーブルを予め用意しておき、形態素解析後、各用語を用語変換テーブルにより変換して検索ファイルに蓄積するようにすることも可能である。また、同義語を統一化するための同義語辞書は一般には分野別に設けることが好ましいとされており、本発明においても、同義語辞書及び見出し語変換テーブルまたは用語変換テーブルを分野ごとに設けるようにすることが好ましい。
【0037】
【発明の効果】
以上のように、本発明においては、形態素解析後、同義語の統一化整理を行い、統一化された複合語を単一語レベルに分割するようにして索引語を生成しているので、単一語による表現の多いパラフレーズに対しても合成ベクトルが近似するようにできると共に複合語レベルでないと同義語とすることが難しいPVB樹脂(ビニールブチラール樹脂)等の略語について同義語統一化の利点を利用することができる。また、上述の用語置き換えの考えの下に、温湿度等の略式表現も正式の表現に変換することにより、精度の高い検索に結び付けることができる。
【図面の簡単な説明】
【図1】本発明の考え方を表.1として示したものである。
【図2】本発明の類似文書検索システムの実施形態の概要を示したものである。
【符号の説明】
1 文書データ蓄積部
2 検索データ作成部
21 形態素解析手段
22 第一同義語統一手段
23 統一化複合語識別手段
24 見出し語分割テーブル
25 第二同義語統一手段
26 検索ファイル
3 質問文入力部
4 類似度比較演算部
5 表示部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to information retrieval, particularly to similar document retrieval.
[0002]
[Prior art]
Information search is generally performed by matching index words. For that purpose, it is necessary to extract terms from the document and extract index words. Extraction of index terms from a document is performed by a technique called morphological analysis. Morphological analysis uses morphological dictionaries and grammatical knowledge about morphemes to "segment" sentences into term units, and terms unnecessary for retrieval, such as "no" and "ha", , "But" and the like are removed, and a meaningful index term is extracted in the search. Such a technique is described in detail in Non-Patent Document 1.
[0003]
The type of unit to be considered as an index word in the search system is a problem depending on the design concept of the search system, and is determined according to the purpose of the search system. Depending on whether the index word is a single word, which is the smallest element that has its own meaning, or a compound word combining single words, the search accuracy of the search system, that is, the relevance and recall differ greatly. It is said to come.
[0004]
In general, a search system centered on a single word (hereinafter, referred to as a single word system) has a small number of leaks but a large amount of noise (high recall), and a search system employing a large number of compound words. It is said that there is a tendency for leaks to be large in a compound word system (hereinafter referred to as a compound word system), but for small noise (high matching rate).
[0005]
Suppose now that the expression "heat by electromagnetic induction" in document B, which has exactly the same semantic concept as the expression "electromagnetic induction heating" in document A, is used to describe the single-word and compound-word systems. Compare.
[0006]
In the single word system, for example, “electromagnetic induction heating” in document A is divided into single words “electromagnetic”, “induction”, and “heating”, and each is indexed as an index word. Similarly, in the document B in which there is a description of “heating by an electromagnetic induction action” in the document B, “electromagnetic”, “induction”, “action”, “ni”, “more”, “heating”, “do” Separated, the non-words “ni”, “more”, “do” are removed, and “electromagnetic”, “induction”, “action”, and “heating” are indexed as index words.
[0007]
In the compound word system, “electromagnetic induction heating” in the document A is a grouped term having a specific meaning, so “electromagnetic induction heating” is indexed as a compound word. In the document B, “heating by electromagnetic induction” is similarly indexed to “electromagnetic induction” and “heating”.
[0008]
When "Electromagnetic induction heating" is input to the search system as a query word, in the single word method, the query word is subjected to the same morphological analysis as when the index was created, and divided into "electromagnetic", "induction", and "heating", and the search is performed Be done. Since “electromagnetic”, “induction”, and “heating” exist in the above documents A and B, both documents will be hit. On the other hand, in the compound word system, the document A hits the query word “electromagnetic induction heating”, but does not hit the document B because there is no index word “electromagnetic induction heating”.
[0009]
The above semantic concepts are the same but different expressions, that is, paraphrasing expressions are called paraphrases. The paraphrases described above have a single word system as seen in the above example. It is said that good results can be obtained. However, in the single-word system, even if “electromagnetic”, “induction”, and “heating” described independently in different topics are hit if they exist in one document. In other words, noise is picked up.
[0010]
As described above, in the retrieval system using the single word system, the leakage is small but the noise increases (the recall is high). In the retrieval system using the compound word system, the leakage is large but the noise is reduced (the matching ratio is high). ).
[0011]
By the way, regarding the information search method, a Boolean search method that searches for a document having a combination of terms matching the search query expression by inputting a search query expression including a combination of terms as in the above example is often used. Has been. The Boolean search method is superior in searching for documents that have a combination of terms that exactly match the search query.However, all terms in the search query and the document have the same weight, and the important It has the disadvantage that it cannot handle degrees.
[0012]
Therefore, it is not possible to order the search results by reflecting the importance of terms appearing in the search query formula and the document, and the user must carefully examine all search results and search for the desired document did not become. In particular, a search method with a small leak, that is, a single word method, has a small number of leaks but a large amount of noise, and a large number of documents need to be scrutinized. As a method for solving this problem, a similar document search method as disclosed in Non-Patent Document 2 or 3 has been proposed.
[0013]
The similar document search is a technique of using a seed document as a search query, calculating the similarity between the seed document and the documents in the database, ordering the similar documents in order of similarity, and presenting a search result. In the similarity calculation, the number of documents in which each term appears in the database and the frequency of appearance of each term in each document are calculated in advance, and the importance of each term in the document is determined using these as indices. In advance, by associating each vector with each term, each document that is a collection of terms is expressed as a document vector that combines term vectors with weight added, and the seed document is also referred to as the seed document vector. This is done by calculating the similarity between these document vectors and the seed document vector.
[0014]
As described above, in the similar document search, each vector is associated with each term. Therefore, even if terms have the same semantic concept, different vectors are associated with different expressions, and the similarity That is, it is a factor that lowers the accuracy. Therefore, Japanese Patent Application No. 2002-023650 proposes to improve the accuracy by unifying and synthesizing terms having the same semantic concept, that is, synonyms with different notations, and associating the same vector with the synonymous term. Has been done.
[0015]
By the way, for example, Table. As described in No. 1, synonyms of electromagnetic induction heating include an induction heater, or IH or induction heating for short. Therefore, it is conceivable that the compound word "electromagnetic induction heating" is used as a representative word, and {electromagnetic induction heating, induction heater, IH, induction heating} is treated as a synonym. Inability to cope with the problem caused by heating due to induction. On the other hand, synonym arrangement at a single word level can be considered to cope with the paraphrase, but it is impossible to make "electromagnetic induction" and "I" synonyms. As described above, some terms cannot be treated as synonyms unless they are at the compound word level. The advantage of unified arrangement will be lost.
[0016]
[Non-patent document 1]
"What is a full-text search system?" Published by the Full-Text Search Council in October 1999, p. 21-25
[Non-patent document 2]
Mao Nagao Four authors, "Language Information Processing", Iwanami Lectures, Linguistic Science 9, p. 65-67
[Non-Patent Document 3]
Takenobu Tokunaga, Information Retrieval and Language Processing, University of Tokyo Press, Language and Computation 5, p. 11-43
[0017]
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION The invention of this application has been made in view of the above-mentioned problems, and has a high accuracy in a similar document search using a single word as an index word, taking advantage of unification and arrangement of not only a single word but also a synonym of a compound word. It is an object to provide a high similar document search method and system.
[0018]
[Means for Solving the Problems]
The above problem is solved by the following means. That is, in the first invention, in a similar document search method in which a single word, which is a minimum unit having its own meaning, is used as an index word, a synonym for a compound word obtained by combining the single words is a heading of the synonym. A similar document search method is characterized in that a word is converted into an index word consisting of a single word and used.
[0019]
A second invention is a similar document search method according to the first invention, wherein all the single words having the same synonymous relation are unified and arranged as index words. .
[0020]
A third invention is a search similar document search method according to the second invention, wherein the synonyms are created for each field.
[0021]
The fourth invention is a similar document search system in which a single word, which is a minimum unit having its own meaning, is used as an index word. In a similar document search system, a synonym for a compound word combining single words is replaced with a headword of the synonym. A similar document search system is characterized in that it is used after being converted into an index word consisting of a divided single word.
[0022]
A fifth invention is a similar document search system according to the fourth invention, wherein all the single words having the same synonymous relation are unified and arranged as index words. .
[0023]
A sixth invention is the similar document search system according to the fifth invention, wherein the synonyms are created for each field.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
table. 1 shows an example of the concept of the present invention. In the table, headwords are terms representing synonyms. Taking "electromagnetic induction heating" as an example, "electromagnetic induction heating" is a synonym for "induction heater", "IH" and "induction heating", and "electromagnetic induction heating" is a headword It indicates that there is. As described above, a paraphrase is a paraphrase expression expressing the same semantic concept as a synonym or a headword, and many expressions are possible, but only a small part is shown here. The division word is a headword and a compound word “electromagnetic induction heating” divided into single words “electromagnetic”, “induction”, and “heating”, and is “induction heater”, “IH”, “ “Induction heating” also means creating the same single words “electromagnetic”, “induction”, and “heating” as “electromagnetic induction heating”.
[0025]
As described above, the synonyms of compound words are unified into headwords, and after unification, the headwords are divided into single words. Vectors can be associated. Further, with regard to the paraphrase, since many of the single words match, the number of vectors that can be associated with each other increases, and an improvement in accuracy can be expected.
[0026]
The headword "destruction analysis" can be divided into "destruction" and "analysis" in the same manner as the above-mentioned "electromagnetic induction heating", so that it can correspond to a paraphrase. In this case, considering the possibility of expressing the paraphrase, it is more accurate to unify assuming that “destruction”, “breakage” and “damage” are synonyms, and “analysis” and “analysis” are synonyms. Is effective in improving the
[0027]
Although the headwords "vinylidene fluoride copolymer" and "polyvinyl butyral" each describe a number of synonyms, they are all described according to the nomenclature, and some of them are described. Not just. These polymeric compounds are also elements of the nomenclature, and are the smallest units that are meaningful per se, namely the single words "fluoridation", "vinylidene", "copolymer" and "poly", "vinyl", By dividing into "butyral", it is possible to cope with a synonym that is not in the synonym dictionary and improve accuracy. In this example, it is naturally preferable to unify the fluctuation of the single-word notation such as "fluoridation", "fluorination", and "fluorination" in order to improve the accuracy.
[0028]
The headwords "temperature and humidity", "moisture absorption and desorption", "paper supply and discharge", and "power interruption" are formally used as compound words that express the concept. Although it should be described as "paper discharge" and "power interruption", repeated descriptions such as "degree" and "wet" are omitted, and there are notations as shown as synonyms. The paraphrase includes expressions such as "temperature and humidity". In consideration of the above notations and expressions, "temperature and humidity", "moisture absorption / release", "paper supply / discharge", "power cutoff", etc. are formal expressions such as "temperature and humidity", "moisture absorption" By dividing the "moisture release", "paper feed / discharge" and "energized power cut" into single words such as "temperature" and "humidity" and using them as index words to improve accuracy I have.
[0029]
FIG. 2 shows an outline of a similar document search system. Document data is stored in a document data storage unit 1 with a number assigned to each document. Each document data is sent to the search data creation unit 2, sent to the morphological analysis unit 21, and "separated" in terms of terms under the morphological dictionary and grammar relating to the morpheme, and non-words meaningless to the search are deleted. Words are extracted. The index words include compound words, single words existing in the dictionary, and new words cut out based on knowledge of grammar. It should be noted that the new word is added to the dictionary after confirmation, but since it is not directly related to the gist of the present invention, the processing of the new word will not be described here.
[0030]
If there is no synonym for the extracted single word, the single word is sent to the search file 26. If synonyms exist for the extracted compound words and single words, each compound word and single word are converted into headwords in the synonym dictionary by the first synonym unifying means 22 to unify the synonyms. Is performed.
[0031]
Next, the compound word and the single word whose synonyms are unified are identified by the unified compound word identifying means 23 as a compound word or a single word, and the single word is converted into the second synonym unifying means. 25. On the other hand, the compound word is divided into single words such as “electromagnetic”, “induction”, and “heating” in the headword division table 24 and sent to the second synonym unifying means 25.
[0032]
In the second synonym unifying means 25, the single words divided in the headword division table 24 are unified into headwords (single words) and stored in the search file 26. The second synonym unifying means 25 divides a single word created in the headword division table 24 under the rule that the single word is a headword, a blockage, and a representative word of a single word synonym group. Is unnecessary, but it is necessary to improve the accuracy because a compound word headword is selected in consideration of the diversity of paraphrases.
[0033]
The search data creation unit 2 has been described with a focus on morphological analysis, unification and organization of synonyms, division of compound words, etc. However, in a search file of a similar document search system, the appearance frequency of terms for each document, the terms in the database, The statistical information necessary for calculating the similarity, such as the number of documents of occurrence of, is obtained, and the importance of the term is calculated based on the statistical information, and is used for calculating the similarity. In calculating the statistical information, the synonyms are naturally counted as the replaced headwords. For example, if "induction heater" appears 10 times in document A, "electromagnetic induction heating" appears in document A as 10 occurrences. Further, if “electromagnetic induction heating” appears three times in the document B and “induction heater” appears five times in the document B, it is counted that “electromagnetic induction heating” appears eight times in the document B. When a compound word entry is divided, the number of entry words is reflected in the number of divided single words. In other words, as described above, when “electromagnetic induction heating” is counted as having appeared eight times in document B, “electromagnetic”, “induction”, and “heating” appear eight times in document B, respectively. It means that it is counted as having been done.
[0034]
The question sentence input unit 3 is configured to create question data from the question sentence according to the same processing procedure using the same means and table as the search data creation unit 2, and sends the question data to the similarity comparison operation unit 4. It is supposed to be.
[0035]
When a question sentence is input to the similar document search system, question data is created in the question sentence input unit 3 in the same processing procedure as the search data creation unit 2, and the similarity comparison operation unit 4 outputs the query data in the search file 26. It is compared with the search data. On the display unit 5, the document numbers are displayed in the order of similarity based on the result of the comparison operation, and a required document can be called from the document data storage unit 1 according to the request of the user.
[0036]
Although the embodiment of the present invention has been described with reference to FIG. 2, the present invention is not limited to the above-described embodiment. For example, irrespective of a single word and a compound word, all terms having synonyms exist. In advance, a table for converting a single-word headword or a headword into a divided single word is prepared in advance, and after morphological analysis, each term is converted by a term conversion table and stored in a search file. Is also possible. Further, it is generally considered preferable to provide a synonym dictionary for unifying synonyms for each field, and in the present invention, a synonym dictionary and a headword conversion table or a term conversion table are provided for each field. Is preferable.
[0037]
【The invention's effect】
As described above, in the present invention, after the morphological analysis, the synonyms are unified and rearranged, and the unified compound words are divided into single word levels to generate the index words. Benefits of unifying synonyms for abbreviations such as PVB resin (vinyl butyral resin) that make it possible to approximate composite vectors even for paraphrases with many expressions in one word and are difficult to make synonyms unless at the compound word level Can be used. In addition, by converting a simplified expression such as temperature and humidity into a formal expression based on the concept of term replacement described above, a highly accurate search can be linked.
[Brief description of the drawings]
FIG. 1 shows the concept of the present invention. This is shown as 1.
FIG. 2 shows an outline of an embodiment of a similar document search system according to the present invention.
[Explanation of symbols]
REFERENCE SIGNS LIST 1 document data storage unit 2 search data creation unit 21 morphological analysis unit 22 first synonym unification unit 23 unified compound word identification unit 24 headword division table 25 second synonym unification unit 26 search file 3 question sentence input unit 4 similar Degree comparison operation unit 5 Display unit

Claims (6)

それ自体意味を有する最小単位である単一語を索引語とする類似文書検索方法において、単一語を組み合わせた複合語についての同義語はその同義語の見出し語を分割した単一語よりなる索引語に変換して用いるようにしたことを特徴とする類似文書検索方法。In a similar document search method using a single word, which is the minimum unit having its own meaning, as an index word, a synonym for a compound word combining single words consists of a single word obtained by dividing the headword of the synonym A similar document search method characterized by being converted into an index word and used. 請求項1に記載された類似文書検索方法において、
上記同義関係にある全ての単一語が索引語として統一化整理されていることを特徴とする類似文書検索方法。
2. The similar document search method according to claim 1, wherein
A similar document search method, wherein all single words having the same synonymous relation are unified and arranged as index words.
請求項2に記載された類似文書検索方法において、
上記同義語は分野別に作成されていることを特徴とする検索類似文書検索方法。
The similar document search method according to claim 2,
A search similar document search method, wherein the synonyms are created for each field.
それ自体意味を有する最小単位である単一語を索引語とする類似文書検索システムにおいて、単一語を組み合わせた複合語についての同義語はその同義語の見出し語を分割した単一語よりなる索引語に変換して用いるようにしたことを特徴とする類似文書検索システム。In a similar document search system that uses a single word, which is the minimum unit having its own meaning, as an index word, a synonym for a compound word combining single words consists of a single word obtained by dividing the headword of the synonym. A similar document search system characterized by being converted into an index word and used. 請求項4に記載された類似文書検索システムにおいて、
上記同義関係にある全ての単一語が索引語として統一化整理されていることを特徴とする類似文書検索システム。
The similar document search system according to claim 4,
A similar document search system, wherein all the single words having the same synonymous relation are unified and arranged as index words.
請求項5に記載された類似文書検索システムにおいて、
上記同義語は分野別に作成されていることを特徴とする類似文書検索システム。
The similar document search system according to claim 5,
A similar document search system, wherein the synonyms are created for respective fields.
JP2003044952A 2003-02-21 2003-02-21 Similar document retrieval method and system Pending JP2004252892A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003044952A JP2004252892A (en) 2003-02-21 2003-02-21 Similar document retrieval method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003044952A JP2004252892A (en) 2003-02-21 2003-02-21 Similar document retrieval method and system

Publications (1)

Publication Number Publication Date
JP2004252892A true JP2004252892A (en) 2004-09-09

Family

ID=33027506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003044952A Pending JP2004252892A (en) 2003-02-21 2003-02-21 Similar document retrieval method and system

Country Status (1)

Country Link
JP (1) JP2004252892A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011043908A (en) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> Program retrieval device and program retrieval program
JP2012008610A (en) * 2010-06-22 2012-01-12 Yahoo Japan Corp Search apparatus, method, and program
CN107992518A (en) * 2017-10-31 2018-05-04 厦门快商通信息技术有限公司 A kind of automatic question-answering method and system for lifting Intelligent dialogue speed
WO2024117618A1 (en) * 2022-11-30 2024-06-06 (주)아이브릭스 Synonym expansion device of search engine, and method therefor

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011043908A (en) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> Program retrieval device and program retrieval program
JP2012008610A (en) * 2010-06-22 2012-01-12 Yahoo Japan Corp Search apparatus, method, and program
CN107992518A (en) * 2017-10-31 2018-05-04 厦门快商通信息技术有限公司 A kind of automatic question-answering method and system for lifting Intelligent dialogue speed
WO2024117618A1 (en) * 2022-11-30 2024-06-06 (주)아이브릭스 Synonym expansion device of search engine, and method therefor

Similar Documents

Publication Publication Date Title
Baik et al. Bridging the semantic gap with SQL query logs in natural language interfaces to databases
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
Boudin et al. Keyphrase extraction for n-best reranking in multi-sentence compression
Hollink et al. Monolingual document retrieval for European languages
EP2269148B1 (en) Intra-language statistical machine translation
Arampatzis et al. Phase-based information retrieval
Andrenucci et al. Automated question answering: Review of the main approaches
CN103136352A (en) Full-text retrieval system based on two-level semantic analysis
JP2007087401A (en) System and method for indexing, and system and method and program for generating questionnaire template
JP2005251115A (en) System and method of associative retrieval
Bendersky et al. Joint annotation of search queries
KR20160066236A (en) Method for producing structured query based on knowledge database and apparatus for the same
Li et al. National University of Singapore at the TREC-13 question answering main task
Blloshmi et al. IR like a SIR: Sense-enhanced information retrieval for multiple languages
Meng et al. Lost in translations? building sentiment lexicons using context based machine translation
JP2004252892A (en) Similar document retrieval method and system
Asopa et al. Rule based chunker for Hindi
Nasharuddin et al. Cross-lingual information retrieval
KR101538971B1 (en) Apparatus for automatically translating ontology, apparatus and method for summarizing document based on ontology, apparatus and method for recommending document based on ontology
Cosijn et al. Information access in indigenous languages: a case study in Zulu
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
Walker et al. Answer type identification for question answering: Supervised learning of dependency graph patterns from natural language questions
Li et al. Phrase-based evaluation for machine translation
Bhaskar et al. Cross lingual query dependent snippet generation
JP5691558B2 (en) Example sentence search device, processing method, and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061003