JP3025724B2 - 類義語生成処理方法 - Google Patents

類義語生成処理方法

Info

Publication number
JP3025724B2
JP3025724B2 JP4312531A JP31253192A JP3025724B2 JP 3025724 B2 JP3025724 B2 JP 3025724B2 JP 4312531 A JP4312531 A JP 4312531A JP 31253192 A JP31253192 A JP 31253192A JP 3025724 B2 JP3025724 B2 JP 3025724B2
Authority
JP
Japan
Prior art keywords
synonym
character string
synonyms
search
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4312531A
Other languages
English (en)
Other versions
JPH06162098A (ja
Inventor
康一 都築
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4312531A priority Critical patent/JP3025724B2/ja
Priority to US08/115,327 priority patent/US5469355A/en
Publication of JPH06162098A publication Critical patent/JPH06162098A/ja
Application granted granted Critical
Publication of JP3025724B2 publication Critical patent/JP3025724B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、類義語生成処理方法に
関し、特に、検索対象文字列を単語に分割し、単語単位
で抽出した類義語を組合せて検索対象文字列の類義語を
生成する類義語生成処理方法に関する。
【0002】類義語(意味が同一又は類似である語)の
生成は、各種の電子文書を高精度で検索するために不可
欠である。特に、大規模なデータベース中で、あるテー
マに関連する事項を漏れなく検索したい場合に有効であ
る。
【0003】
【従来の技術】図19は従来の類義語を用いた文献検索
について示す。図19において、検索対象文字列として
「休暇/申請/社員/番号」が与えられており、これを
用いて所定の電子文書を検索することによって、当該電
子文書中から与えられた検索対象文字列の類義語を抽出
する。電子文書中には、図示の如く、検索対象文字列の
類義語が複数含まれている。
【0004】このような場合において、検索の結果とし
て抽出される類義語は、従来、検索対象文字列と同一の
文字列、及び、検索対象文字列と先頭が一致する文字列
「休暇申請従業員ナンバ」であった。
【0005】また、以下の如き検索方法も知られてい
る。即ち、検索対象文字列「休暇申請社員番号」をこれ
を構成する単語「休暇」,「申請」,「社員」,「番
号」に分割する。この単語単位で類義語を抽出する。例
えば、「申請」,「社員」及び「番号」の類義語とし
て、各々、「申告」,「従業員」及び「ナンバ」を抽出
する。この類義語は各単語毎に予め定義される。抽出し
た類義語を組合せた文字列「休暇申告従業員ナンバ」を
用いて電子文書が検索され、これと同一の文字列が検索
対象文字列の類義語として抽出される。
【0006】なお、検索対象文字列を構成する語を「単
語」、単語複数からなる文字列を「複合語」という。
【0007】
【発明が解決しようとする課題】前述した従来技術によ
れば、検索対象文字列と同一の文字列及び先頭が一致す
る文字列は類義語として抽出可能であった。
【0008】しかし、検索対象文字列と先頭(先頭の一
部)が一致しない文字列や、全く語句(音)は異なるが
意味は同一である文字列(異音同義語)等は抽出できな
いという問題があった。例えば、図19の例において
は、「年休届け社員番号」や「年休申告社員NO」を抽
出することができなかった。
【0009】一方、検索対象文字列を分割した各単語毎
に求めた類義語の組合せを用いる技術によれば、各単語
毎の類義語の定義の程度によっては、ある程度まで満足
できる範囲での抽出が可能であった。
【0010】しかし、検索対象文字列から単語及びその
類義語の一部が欠落した文字列や、逆に検索対象文字列
に無関係な他の単語が付加された文字列、更には単語又
はその類義語の順序が入替わっている文字列等は抽出で
きないという問題があった。例えば、図19の例におい
ては、「休暇」及び「申請」に相当する部分が欠落した
「従業員番号」や、「休暇」,「申請」及び「社員」の
部分の順序が入替わっている「社員休暇申請番号」を抽
出することができなかった。
【0011】また、この単語の類義語の組合せを用いる
技術では、検索対象文字列を各単語に分割するための区
切記号(文字)「/」を、オペレータが自分で検索対象
文字列に挿入しなければならないという問題があった。
即ち、オペレータは単語や類義語に関する知識を持って
いなければならなかった。また、検索対象文字列が多い
場合等には、これらの各々に区切記号を挿入する作業
は、オペレータにとって煩わしいものであった。
【0012】このように、従来はある程度までの検索は
可能であったものの、前述した例の如き類義語が抽出の
結果から漏れてしまうため、高精度の検索ができなかっ
た。即ち、従来の類義語の生成は、高精度の検索には不
向きな又は不十分なものであった。
【0013】本発明の目的は、高精度の文字列の検索に
適した検索対象文字列の類義語を生成することが可能な
類義語生成処理方法を提供することにある。
【0014】本発明の目的は、単語等の一部が欠落した
文字列又は無関係な他の単語が付加された文字列を、検
索対象文字列の類義語として生成することが可能な類義
語生成処理方法を提供することにある。
【0015】
【0016】
【課題を解決するための手段】図1は本発明の原理構成
図であり、本発明による類義語生成処理について示す。
【0017】この類義語生成処理は、1又は2以上の単
語の各々についてその類義語を定義してなる類義語ファ
イル8を、オペレータにより入力された検索対象文字列
1に基づいて検索してこの検索対象文字列1の類義語を
生成する処理である。
【0018】この処理において、検索加工部4は、検索
対象文字列1を構成する単語毎の類義語として当該単語
をキーとして類義語ファイル8を検索して当該キーとさ
れた単語の各々について定義された類義語を抽出し、検
索対象文字列1を構成する単語の各々とこれに対応する
抽出された類義語とを1つのグループ(類義語単語グル
ープ)として複数のグループを作成し、グループの各々
から単語又は類義語を選択する。
【0019】入替え類義語加工部5は、選択された単語
又は類義語を、検索対象文字列1を構成する単語の並び
順とは異なる順に組合せて、検索対象文字列1の類義語
を生成する。
【0020】欠落類義語加工部6は、選択された単語又
は類義語のうち2以上を用いて、検索対象文字列1の類
義語を生成する。付加類義語加工部7は、所定の規則に
従って、選択された単語又は類義語のうち2以上と検索
対象文字列1無関係な他の単語を用いて、同じ単語
数の検索対象文字列1の類義語を生成する。
【0021】また、以上の検索に用いられる類義語ファ
イル8は、前記単語の異音同義語についても当該単語の
類義語として定義すると共に、前記単語と類義語との間
の関係を階層的に定義してなる。
【0022】また、以上の検索に先立って、文字列分割
部3が、検索対象文字列1がこれを構成する単語毎に区
切られていない場合に、類義語ファイル8においてその
類義語が定義されている単語を用いて、検索対象文字列
1をこれを構成する単語毎に分割する。
【0023】
【作用】図2は本発明の作用説明図であり、図19に示
したと同様の例に本発明を適用した場合について示す。
【0024】類義語ファイル8は、1又は2以上の単語
の各々について、その類義語を定義する。例えば、単語
「休暇」について、その類義語「年休」,「休日」を定
義する。また、単語「番号」について、その異音同義語
「NO(エヌオー)」をその類義語として定義する。更
に、単語「番号」とその類義語「NO」との間の関係を
階層的に定義する。即ち、上位階層である「番号」から
はその類義語として下位階層である「NO」を検索でき
るが、逆に、下位階層である「NO」からはその類義語
として上位階層である「番号」を検索できないように定
義される。
【0025】検索対象文字列1として「休暇申請社員番
号」が入力されるが、これを構成する単語「休暇」等毎
に区切られて(分割されて)いない。そこで、まず、文
字列分割部3が、類義語ファイル8においてその類義語
「年休」等が定義されている単語「休暇」等を用いて、
検索対象文字列1をこれを構成する単語「休暇」,「申
請」,「社員」及び「番号」に分割する。
【0026】これにより、オペレータが自分で検索対象
文字列1に各単語毎の区切記号「/」を挿入する必要を
無くすことができる。従って、オペレータの作業負担を
軽減でき、また、オペレータが類義語生成についての知
識を持つ必要も無くすことができる。
【0027】文字列分割部3により又はオペレータ自身
により分割された検索対象文字列1の各単語「休暇」等
について、検索加工部4が類義語ファイル8を検索し
て、類義語「年休」,「休日」等を抽出し、これらを組
合せて検索対象文字列1の類義語を生成する。
【0028】ここで、類義語ファイル8は、単語「番
号」の異音同義語「NO」をもその類義語として定義し
ているので、これを用いた類義語「年休申告社員NO」
が生成できる。即ち、検索対象文字列1の異音同義語を
その類義語として生成できる。
【0029】検索加工部4は、単語「休暇」とその類義
語「年休」,「休日」とを1つのグループとし、同様に
して4つのグループを作る。そして、各グループから1
つの単語又は類義語を選択する。
【0030】例えば、「休暇」,「申請」,「社員」,
「番号」が選択されたと仮定する。入替え類義語加工部
5は、この順を入替えて、例えば「社員休暇申請番号」
を検索対象文字列1の類義語として生成する。
【0031】これにより、検索対象文字列1とは先頭が
一致しない文字列や単語(又はその類義語)の順が入替
わっている文字列を、その類義語として生成できる。ま
た、例えば、「休暇」,「申請」,「従業員」,「番
号」が選択されたと仮定する。欠落類義語加工部6は、
これらのうち2以上(3以下)を用いて、例えば「従業
員番号」を検索対象文字列1の類義語として生成する。
【0032】これにより、検索対象文字列1の単語等が
一部欠落した文字列をその類義語として生成することが
できる。また、例えば、「休暇」,「申告」,「従業
員」,「ナンバ」が選択されたと仮定する。付加類義語
加工部7は、これらのうち2以上と他の無関係な単語
「△△」を用いて、例えば「休暇申告△△ナンバ」を検
索対象文字列1の類義語として生成する。
【0033】これにより、検索対象文字列1に他の単語
が付加された文字列をその類義語として生成することが
できる。従って、本発明によれば、検索対象文字列1に
基づいて、これと一定の関係を有する範囲でその類義語
を豊富に生成できる。これを用いることにより、電子文
書等における文字列の検索を高精度に行うことが可能と
なる。
【0034】
【実施例】図3は実施例構成図であり、本発明を適用し
たデータ処理装置を示す。この実施例では、COBOL
コピーテキスト(データライブラリ10に当たる)の整
理のために、テキストの項目(名前)について類義語を
生成する。そして、生成した類義語を用いて項目の一覧
を検索して似たような項目名を検出する。
【0035】より具体的には、プログラム開発作業にお
いて、COBOL言語を使用して開発している部署(メ
ンバ)では、数多くのCOBOLコピーテキストの資産
を所持している。COBOLコピーテキストの項目は、
一つのメンバ内では意味が一意であるが、複数メンバを
対象とすると、名前が同じであるが意味が異なる(同音
異義)項目や名前が異なるが意味が同じ(異音同義)項
目が多数存在する。これらの項目を整理する場合に、本
発明の類義語生成方法を適用して、より高精度の異音同
義語を検索する。
【0036】そこで、本実施例では、データライブラリ
10は多数のCOBOLコピーテキストを含むコピーラ
イブラリからなる。COBOLコピーテキストはプログ
ラムにおけるデータ部に相当する。
【0037】COBOLコピーテキストの項目がデータ
ライブラリ10におけるデータに相当し、類義語を用い
た検索の対象である。COBOL言語においては、英字
の使用のみが許され、かな漢字の使用は許されないの
で、検索対象である項目は英字(英語)で記述されてい
る。例えば、「休暇申請社員番号」という語が英字で記
述されテキスト名として用いられている。
【0038】これに対して、この実施例では、検索対象
文字列1は、例えば「休暇申請社員番号」の如くかな漢
字により入力される。従って、このままでは類義語によ
る検索が不可能であるので、検索対象ファイル12が作
成される。
【0039】検索対象ファイル12を図4(A)に示
す。検索対象ファイル12は、COBOLコピーライブ
ラリからなるデータライブラリ10において用いられて
いる全ての項目(項目名)について、かな漢字で記述し
たものを格納する。例えば、かな漢字で「休暇申請社員
番号」という項目名が記述されている。検索対象ファイ
ル12が類義語を用いた直接の検索対象である。
【0040】検索対象ファイル12は検索対象作成処理
部11によって作成される。検索対象作成処理部11
は、本実施例では、COBOL言語システムが提供する
1つのツールからなり、項目名の英字とこれに対応する
かな漢字とを定義するものである。この定義は、予め、
システム管理者又は類義語検索のオペレータにより与え
られる。検索対象作成処理部11は、この定義に従っ
て、英字からなる項目名に基づいてかな漢字からなる項
目名を生成して検索対象ファイル12を作成する。
【0041】なお、検索対象ファイル12は、当該シス
テムのデータ項目管理ファイルとして多用途に用いられ
る。これは、かな漢字からなる項目名の方が管理等にお
いて便利であることによる。実際は、当該ツールにより
データ項目管理ファイルとして既に作成されたものが検
索対象ファイル12として用いられる。
【0042】また、検索対象文字列1が英字で入力され
る場合の如く、検索の対象であるデータライブラリ10
の用いるコードと検索対象文字列1のコードとが同一の
コード体系によっている場合は、検索対象ファイル12
を新たに作成する必要はない。例えば、データライブラ
リ10のデータ項目(又はその一覧)を検索対象文字列
1に基づいて検索すればよい。
【0043】検索対象文字列1は、処理装置15に接続
された入力装置(図示せず)からオペレータによって入
力される。検索対象文字列1は単語又は複合語からな
る。複合語からなる場合、本発明によれば、各単語が区
切記号「/」で分割されている必要はない。
【0044】オペレータは、自分の入力した検索対象文
字列1と同一の語が検索対象ファイル12(又はその元
となるデータライブラリ10)に存在するか否かを知る
必要はなく、整理したい項目名に似た文字列を入力すれ
ばよい。整理したい項目名は、類義語として生成され
る。
【0045】本実施例の類義語ファイル8は、図2に示
したものと同一の構成を有する。即ち、類義語ファイル
8は、かな漢字により記述され、ある単語についてその
異音同義語を含む類義語を定義する。異音同義語として
は、「申請」について「届け」、「番号」について「N
O」が挙げられる。この定義はオペレータによって類義
語の生成に先立って行なわれる。
【0046】類義語ファイル8は、図1に示した如く、
階層的に単語Aと類義語B,C,Dとの間の関係を定義
する。これを図5に具体的に示す。比較的類似した意味
を持つ4つの語「番号」,「NO」,「ナンバ」,「コ
−ド」について、図5に示す如き階層的定義がなされ
る。即ち、上位階層の語に対して下位階層の語は類義語
と認識されるが、逆に、下位階層の語に対して上位階層
の語は類義語とは認識されない。
【0047】具体的には、図5(A)の如く「NO」,
「ナンバ」は「番号」の類義語として定義され抽出でき
るが、逆に、図5(C)の如く「番号」は「NO」,
「ナンバ」の類義語としては定義されておらず抽出でき
ない。更に、図5(B)の如く「番号」は「コ−ド」の
類義語として抽出できるが、逆に、図5(D)の如く
「コ−ド」は「番号」の類義語として抽出できない。
【0048】上位階層の語としては、「番号」の如く日
常的な語や、「コ−ド」の如くデータ処理において一般
的な語が定義される。下位階層の語としては、「N
O」,「ナンバ」の如く比較的使用頻度の小さい語が定
義される。
【0049】このように、階層的な定義を用いて類義語
ファイル8を作成しておくことによって、より高精度な
検索に適した類義語生成ができる。処理装置15はCP
U(中央処理装置)とメモリとからなる。類義語生成処
理部2、検索対象作成処理部11及び検索処理部13
は、メモリ上に存在する各プログラムとCPUとで実現
される。また、データライブラリ10、検索対象ファイ
ル12、類義語ファイル8、類義語生成処理の生成結果
9、検索処理の検索結果14は、磁気ディスクの如き外
部記憶に格納される。生成結果9及び検索結果14は、
所定の出力装置により出力(表示,印刷)される。
【0050】類義語生成処理部2は文字列分割部3と検
索加工部4とを有する。文字列分割部3は、類義語ファ
イル8を参照して、類義語が定義されている(上位階層
の)単語「休暇」等を用いて、検索対象文字列1を分割
する。例えば、「休暇申請社員番号」を「休暇」,「申
請」,「社員」,「番号」の4つの単語に分割する。
【0051】検索対象文字列1が分割されているか否
か、即ち、区切記号「/」の有無は、類義語生成処理部
2又は文字列分割部3が判断し、分割されていない場合
には分割し、分割されている場合には区切記号に従って
分割する。
【0052】検索加工部4は入替え類義語加工部5、欠
落類義語加工部6、付加類義語加工部7を有する。検索
加工部4は、検索対象文字列1を構成する単語毎の類義
語として当該単語をキーとして類義語ファイル8を検索
して当該キーとされた単語の各々について定義された類
義語を抽出する。そして、検索対象文字列1を構成する
単語とこれに対応する抽出された類義語とを1つのグル
ープとして複数のグループを作成し、前記グループの各
々から1語づつ単語又は類義語を選択する。
【0053】この後、検索加工部4は、選択した単語又
は類義語を組合せて、検索対象文字列1の類義語を生成
する。この時、単語等を組合せる順は、検索対象文字列
1を構成する単語の並び順と同一の順とされる。即ち、
図2に示した「休暇」,「申請」,「社員」,「番号」
の各グループから選択された語が、この順で並べられ
る。従って、「休暇申告従業員ナンバ」等が生成され
る。
【0054】これに対して、入替え類義語加工部5は、
前記各グループから選択された単語等の並び順を入替え
る。即ち、検索対象文字列1の単語の並び順とは異なる
順に組合せる。これにより、入替え類義語「社員休暇申
請番号」等が生成される。この生成によって得られる類
義語を構成する単語等の数は、元の検索対象文字列1を
構成する単語の数に等しい。
【0055】これに対して、欠落類義語加工部6は、前
記各グループから選択された単語等のうち2以上を用い
て類義語を生成する。これにより、欠落類義語「従業員
番号」等が生成される。
【0056】類義語を生成するために用いられる単語等
の数kは、検索対象文字列1を構成する単語の数がnで
あるとすると、2以上(n−1)以下の整数とされる。
単語数kを2以上とするのは、k=1とすると極めて多
くの類義語が生成されてしまい、結果として検索の精度
が悪くなってしまうと考えられるからである。k=nの
場合については、検索加工部4が処理する。
【0057】なお、単語数kは3以上であってもよく、
生成したい類義語の数に応じて変更できる。また、単語
数kを2以上として一旦類義語を生成し、その数が多い
場合単語数k+1以上のものについてのみ生成結果9と
して出力するようにしてもよい。この生成によって得ら
れる類義語を構成する単語等の数は、元の検索対象文字
列1を構成する単語の数より少ない。
【0058】付加類義語加工部7は、前記各グループか
ら選択された単語等のうち2以上を用いて、これらに検
索対象文字列1とは無関係な他の単語(これを「△△」
と表す)を付加して類義語を生成する。これにより、付
加類義語「休暇申告△△ナンバ」等が生成される。「2
以上」とするのは、前述の欠落類義語加工の場合と同じ
理由による。従って、この値は3以上でもよい。
【0059】他の単語「△△」の代表的な例としては、
例えば「高橋」,「佐藤」,「日本」,「株式会社」,
「神奈川」,「厚木」の如き一般的な名称が挙げられ
る。これらは、会社名等を検索する場合に有効である。
【0060】付加類義語加工部7は、距離によって規定
される所定の規則に従う。説明のため、検索対象文字列
1の単語数をnとし、互いに隣接する単語の距離を1と
する。この場合に、検索対象文字列1を構成する単語数
と同一の値を最大距離とし、これ以下の距離で検索対象
文字列1の類義語を生成する。
【0061】従って、生成された付加類義語を構成する
単語数は、検索対象文字列1の単語数nよりも1つだけ
多くなる(n+1となる)。この時、類義語の両端の単
語の距離(即ちこの文字列での最大距離)が、検索対象
文字列1の単語数nと同一の値となっている。
【0062】最大距離をnとするのは、これをn+1等
と大きくすると極めて多くの類義語が生成されてしま
い、却って検索の精度が悪くなってしまうと考えられる
からである。
【0063】なお、最大距離が「n以下」であれば「n
−1」であってもよく、「n以下」の範囲で付加類義語
が生成される。この生成される類義語が少ない場合、最
大距離を「n+1」としてもよい。
【0064】一方、他の単語「△△」が2語連続してい
る場合には、これらを1語として処理する。これによ
り、類義語生成の自由度を向上しつつ一定の規則に従っ
ているので、漏れなく類義語を生成して検索の精度を向
上できる。
【0065】以上の各加工部4乃至7によって生成され
た類義語が、生成結果9として類義語生成処理部2によ
り出力される。この実施例の生成結果9は、図2に示し
たと同様のものとなる。
【0066】各加工部4乃至7による処理は、個別に実
行されるのではなく、一連の処理として実行される。例
えば、検索加工部4が前述した各類義語単語グループか
ら1つの語を選択し、これをその順に並べて1つの類義
語を生成する。次に、この類義語の語順を入替えて複数
の入替え類義語を生成する。次に、このようにして生成
した全ての類義語につき、その一部を省略して欠落類義
語を生成する。更に、これまで生成した全ての類義語に
つき、他の単語「△△」を付加して付加類義語を生成す
る。以上によれば、少ない処理で漏れなく類義語を生成
できる。
【0067】検索処理部13は、生成結果9に示される
類義語を用いて検索対象ファイル12を検索し当該類義
語を抽出して、検索結果14として出力する。検索結果
14を図4(B)に示す。この実施例の検索結果14
は、COBOLコピーテキストの項目名についての異音
同義語リストとして用いられる。この場合、オペレータ
は検索対象文字列1として「休暇申請社員番号」と「休
暇申告従業員ナンバ」とを入力し、各々についてその類
義語を得ている。
【0068】検索処理部13は、検索結果14の出力に
際して、オペレータが見易いように、予め定められた所
定の形式のリストとして作成して出力し、また、このリ
ストにおいて、各類義語を検索対象文字列1に近い順に
上から並べて表示する。近い順の判断には、元の検索対
象文字列1の単語の並び順からの距離の大小が用いられ
る。図示の如く、入替えを行っておらず欠落も付加もな
い語が上に並び、入替えの度合いが多い語が下に並ぶ。
【0069】図6及び図7は類義語生成処理フローを示
し、両図が一体となって本実施例における類義語生成処
理フローを示す。図6において、オペレータにより検索
対象文字列1が指定(入力)される(S1)。
【0070】指定された検索対象文字列1について、区
切記号が挿入されている(有る)か否かを、類義語生成
処理部2又は文字列分割部3が調べる(S2)。区切記
号が有る場合、文字列分割部3が区切記号に従って検索
対象文字列1をこれを構成する単語に分割する(S
3)。この単語は類義語の検索のキーとなるので、以下
キー単語と呼ぶ。
【0071】区切記号が無い場合、文字列分割部3が類
義語ファイル8を参照して、検索対象文字列1を構成す
るキー単語であって類義語ファイル8に定義されている
キー単語を検索する(S4)。ここで、類義語ファイル
8におけるキー単語は、「休暇」の如くその類義語が定
義されている単語である。
【0072】次に、文字列分割部3が、検索対象文字列
1を、類義語ファイル8から検索したキー単語を用いて
分割する(S5)。分割処理が終了した後、検索加工部
4が、分割した各キー単語毎に類義語ファイル8を検索
して、その類義語を抽出する(S6)。
【0073】次に、検索加工部4が、分割したキー単語
と、これに対応する抽出した類義語とを1つの類義単語
グループとし複数のグループを形成する(S7)。次
に、図7において、類義単語グループからそれに属する
単語が1つ選択され、各グループから選択した単語が組
合わされる(S8)。これにより類義語が生成される。
【0074】この組合せ処理において、例えば検索加工
部4が前述した各類義単語グループから1つの語を選択
し、これをその順に並べて1つの類義語を生成する。次
に、入替え類義語加工部5がこの類義語の語順を入替え
て複数の入替え類義語を生成する。次に、欠落類義語加
工部6がこのようにして生成した全ての類義語につき、
その一部を省略して欠落類義語を生成する。これらの処
理は、各類義単語グループから選択した1つの語を用い
て構成できる全ての組合せについて行なわれる。
【0075】次に、類義語生成処理部2又は検索加工部
4が、生成した各類義語においてその組合せに距離を持
たせるか否かを調べる(S9)。距離を持たせるか否か
の指示は、予め、オペレータによって入力される。オペ
レータの指示入力に応じ、付加類義語加工部7が起動さ
れ、付加類義語が生成される。従って、付加類義語の生
成機能については選択的に起動させ得る。
【0076】距離を持たせる場合、付加類義語加工部7
が、S8における組合せによって得た各文字列の途中又
はその前後に、他の単語を挿入する(S10)。これに
より、付加類義語が生成される。ここで、他の単語は特
定できないので、所定の記号によって表される。
【0077】距離を持たせない場合、S8における組合
せによって得た各文字列がそのまま類義語とされる(S
11)。以上によって得た類義語を検索加工部4が生成
結果9として所定の領域に格納する(S12)。即ち、
S10を実行した場合はS8とS10で得た類義語が生
成結果9とされ、これ以外の場合はS8で得た類義語が
生成結果9とされる。
【0078】次に、類義語生成処理部2又は検索加工部
4が、生成結果9について調べ、類義語が検索対象文字
列1に似ている順に並べ、これを出力(表示)する(S
13)。
【0079】次に、本発明の類義語生成処理及びこれに
より生成した類義語を用いた検索処理の具体例について
説明する。図8乃至図10は、データベース化された新
聞記事を検索してその内容を特定する例を示す。
【0080】この例では、図8(A)に示す検索対象文
字列1A(「米大統領候補」)を用いて類義語ファイル
8Aを検索して類義語を生成し、これを用いて新聞記事
(図示せず)を検索する。
【0081】ここで、従来の検索結果14A’を図9に
示す。これは、検索対象文字列1とは関連のない記事を
検索しており、精度の低い検索であることを示す。この
原因は、従来は、「アメリカ」の類義語として「米」,
「ササニシキ」,「コシヒカリ」,「U.S.A.」,
「合衆国」,「テキサス州」が抽出されていたことによ
る。即ち、類義語の定義に階層が用いられていないため
である。
【0082】これに対し、類義語ファイル8Aでは、本
発明に従い階層的に類義語を定義している。即ち、「ア
メリカ」から「米」は抽出できるが、「米」からは「ア
メリカ」は抽出できない。また、「アメリカ」→「米」
→「ササニシキ」という抽出もできず、階層は1階層の
み有効とされる。これにより、図10に示す如き高精度
な検索結果14Aが得られる。
【0083】なお、図10の如く、検索対象文字列1A
の区切り方を変化させることにより、微妙にニュアンス
の異なる異音同義語を検出できる。検索対象文字列1A
を複数通りに分割する処理は、文字列分割部3が類義語
ファイル8Aに基づいて行う。
【0084】図11及び図12は、食品管理データベー
スを検索対象ファイル12Bとして、デパート等の店頭
であいまいな顧客の要望に応じたデータを提供する例を
示す。
【0085】この例では、図11(A)に示す検索対象
文字列1B(「調味料セット」)を用いる。これは、
「3000円の予算内で調味料セットを買いたい」とい
う顧客の希望に沿ったものである。
【0086】この検索対象文字列1Bにより、図11
(B)に示す類義語ファイル8Bを検索することによっ
て、図11(C)に示す生成結果9Bを得る。更に、こ
の生成結果9Bを用いて、図12(A)に示す検索対象
ファイル12Bである食品管理データベースを検索する
ことによって、図12(B)に示す検索結果14Bを得
る。これにより、物としては類似しているが、それぞれ
に少しづつ名称の異なる商品をまとめて検索できる。
【0087】この例では、各商品に製造会社の社名が付
加されている。この社名は、前述の他の単語として処理
される。なお、生成結果9Bとしてはこの他の単語を含
む付加類義語を生成せずに、検索処理の段階で前処理と
して付加類義語を生成する。
【0088】このように商品を検索対象とする場合に
は、類義語ファイル8(8B)を、かな漢字のコ−ド体
系によってではなく、別のコ−ド体系、特に商品取引で
広く用いられているバーコ−ド体系によって定義するよ
うにしてもよい。検索対象ファイル12(12B)はバ
ーコ−ド体系によっていることが多いので、これを生成
した類義語(当然にバーコ−ド体系による)で容易に検
索できる。
【0089】図13及び図14は、駅頭に設置されてい
る行先案内サービスへの適用例を示す。例えば、出張な
どで、行き先は分かるが場所がよく分からない場合、駅
などに設置してある案内板へ、行き先の名称を入力する
ことにより、行き先の近隣にある建物の名称を検索し、
その位置を示す。
【0090】今、○○株式会社の第3事業所へ行きたい
が、会社の略称「○○社」と「Cビル」にあることだけ
を知っているとする。そこで、検索対象文字列1Cとし
て図13(A)の如く「○○社/Cビル」を入力する。
この検索対象文字列1Cによって、図13(B)に示す
類義語ファイル8Cである行先情報定義ファイルを検索
することにより、図13(C)に示す生成結果9Cを得
る。生成結果9Cでは、正式な会社名及び事業所名が得
られる。
【0091】次に、生成結果9Cを用いて、図13
(D)に示す検索対象ファイル12Cである建物管理デ
ータベースを検索することによって、図14に示す検索
結果14Cである行先案内地図を得る。これにより、地
理や行先の正式名称が不正解であっても、正確に目的地
に行くことができる。
【0092】この例では、検索対象ファイル12Cに住
所、電話番号、地理上の目安となる建物、交通手段と時
間等種々の有用な情報を持ち、これを検索結果14Cに
示すと共に、データベース化された地図情報(図示せ
ず)と検索対象ファイル12Cとを連結することによ
り、行先案内地図を示すようにしている。即ち、検索結
果を他の情報とリンクさせて表示している。
【0093】図15は図書館等における文献検索に適用
した例を示す。検索対象文字列1Dとして、図15
(A)に示す「データ通信」を入力する。この時、区切
記号「/」が挿入されていない。そこで、これを図15
(B)に示す類義語ファイル8Dである類似文献定義フ
ァイルを参照して、「データ」及び「通信」に分割す
る。その上で、類義語ファイル8Dを検索して種々の類
義語を生成する(図示せず)。さらに、この類義語を用
いてデータベース化された文献情報(図示せず)を検索
して、図15(C)に示す検索結果14Dである文献リ
ストを得る。
【0094】この例では、検索対象文字列1Dの自動的
な分割と、他の単語の付加が有効である。図16は漢字
の読みを漢字変換する際に、その類義語をも生成する例
である。
【0095】現在、言葉の読みを入力して漢字に変換す
る仕組みはあるので、読みさえ分かれば大抵の漢字は割
り出すことができる。しかし、言葉aの類義語を知りた
い場合には、漢字辞典など参考書を見ないと分からな
い。
【0096】この例では、検索対象文字列1Eとして、
図16(A)に示す「じゅうぎょういんばんごう」を入
力する。そして、これを用いて図16(B)に示す類義
語ファイル8Eである同義語定義テーブルを検索して、
図16(C)に示す生成結果9Eであるかな漢字変換及
び類義語生成リストを得る。これにより、単に漢字変換
を行うのみで、その類義語まで知ることができる。
【0097】図17及び図18は、電話番号検索に適用
した例である。現在でも電話番号検索が可能であるが、
相手先、場所が分かっていないと検索できない。また、
希望の店を探したい場合、職業別電話帳から探せるが、
あるインデックスで探すと、「違うインデックスを参照
して下さい」など、一度に分からないことがあったり、
一つの職業でもさらに複数に分類されていてすぐに検索
できない場合がある。そこで、インデックスを一度入れ
ることでそれに類似するお店を検索できるようにする。
【0098】今、厚木市内でガラス修理をしてくれる会
社を探すとする。そこで、図17(A)に示す検索対象
文字列1F(「厚木市ガラス修理」)を入力する。これ
を用いて、図17(B)に示す類義語ファイル8Fであ
る類義語定義ファイルを検索して類義語を生成する。な
お、検索対象文字列1Fは、自動的に分割される。
【0099】次に、この検索で得た類義語を用いて、デ
ータベース化された電話番号データを検索して、図17
(C)に示す検索結果14Fである店名一覧を得る。こ
の検索結果14Fは、図18に示す分野で厚木市の電話
番号簿を調べた結果とよく一致している。
【0100】
【0101】
【0102】
【発明の効果】 以上説明したように、本発明によれば、
検索対象文字列の単語とその類義語とから、2以上でか
つ当該文字列の単語数より小さい範囲で選択することに
よって、検索対象文字列からその単語の一部に相当する
部分の欠落した文字列を、類義語として生成することが
できる。
【0103】
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の作用説明図である。
【図3】実施例構成図である。
【図4】実施例の説明図である。
【図5】類義語ファイルの階層説明図である。
【図6】類義語生成処理フローである。
【図7】類義語生成処理フローである。
【図8】適用例の説明図である。
【図9】参考例の説明図である。
【図10】適用例の説明図である。
【図11】適用例の説明図である。
【図12】適用例の説明図である。
【図13】適用例の説明図である。
【図14】適用例の説明図である。
【図15】適用例の説明図である。
【図16】適用例の説明図である。
【図17】適用例の説明図である。
【図18】適用例の説明図である。
【図19】従来技術説明図である。
【符号の説明】
1 検索対象文字列 2 類義語生成処理部 3 文字列分割部 4 検索加工部 5 入替え類義語加工部 6 欠落類義語加工部 7 付加類義語加工部 8 類義語ファイル 9 生成結果 10 データライブラリ 11 検索対象作成処理部 12 検索対象ファイル 13 検索処理部 14 検索結果 15 処理装置(CPU/メモリ)
フロントページの続き (56)参考文献 特開 平2−129756(JP,A) 特開 平3−209564(JP,A) 特開 平3−286371(JP,A) 特開 平2−158873(JP,A) 特開 平3−152668(JP,A) 関根純、川下満、鈴木健司,「ネーミ ング手法と支援ツール」,電子情報通信 学会技術研究報告,Vol.89,No. 63(DE89−1〜5),1989年6月1 日,p.25−32(DE89−4) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 1又は2以上の単語の各々についてその
    類義語を定義してなる類義語ファイル(8)を、検索対
    象文字列(1)に基づいて検索してこの検索対象文字列
    (1)の類義語を生成する類義語生成処理方法におい
    て、 検索加工部(4)が、前記検索対象文字列(1)を構成
    する単語毎の類義語として当該単語をキーとして前記類
    義語ファイル(8)を検索して当該キーとされた単語の
    各々について定義された類義語を抽出し、前記検索対象
    文字列(1)を構成する単語の各々とこれに対応する前
    記抽出された類義語とを1つのグループとして複数のグ
    ループを作成し、前記グループの各々から前記単語又は
    類義語を選択し、 付加類義語加工部(7)が、所定の規則に従って、前記
    選択された単語又は類義語のうち2以上と選択されなか
    った単語又は類義語に代えて用意された前記検索対象文
    字列(1)無関係な他の単語を用いて、前記検索対
    象文字列(1)の類義語を生成することを特徴とする類
    義語生成処理方法。
  2. 【請求項2】 前記所定の規則は、距離によって規定さ
    れ、前記検索対象文字列(1)において互いに隣接する
    単語の距離を1とした場合に前記検索対象文字列(1)
    を構成する単語数に等しい値を最大距離とし、これ以下
    の距離で前記検索対象文字列(1)の類義語を生成する
    ことを特徴とする請求項記載の類義語生成処理方法。
JP4312531A 1992-11-24 1992-11-24 類義語生成処理方法 Expired - Fee Related JP3025724B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4312531A JP3025724B2 (ja) 1992-11-24 1992-11-24 類義語生成処理方法
US08/115,327 US5469355A (en) 1992-11-24 1993-09-02 Near-synonym generating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4312531A JP3025724B2 (ja) 1992-11-24 1992-11-24 類義語生成処理方法

Publications (2)

Publication Number Publication Date
JPH06162098A JPH06162098A (ja) 1994-06-10
JP3025724B2 true JP3025724B2 (ja) 2000-03-27

Family

ID=18030350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4312531A Expired - Fee Related JP3025724B2 (ja) 1992-11-24 1992-11-24 類義語生成処理方法

Country Status (2)

Country Link
US (1) US5469355A (ja)
JP (1) JP3025724B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11446730B2 (en) 2019-06-26 2022-09-20 Ball Corporation Method and apparatus for sealing a metallic container with a metallic end closure

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934903A (ja) * 1995-07-18 1997-02-07 Nri & Ncc Co Ltd ファイル検索装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
WO1998012616A2 (en) 1996-09-23 1998-03-26 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH10207896A (ja) * 1997-01-17 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 検索用語拡張方法及び装置及び情報検索方法及び装置
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US6738952B1 (en) * 1997-09-02 2004-05-18 Denso Corporation Navigational map data object selection and display system
US6708311B1 (en) 1999-06-17 2004-03-16 International Business Machines Corporation Method and apparatus for creating a glossary of terms
GB2355554A (en) * 1999-10-21 2001-04-25 Int Computers Ltd Searching for items in an electronic catalogue
JP3682958B2 (ja) * 2000-10-13 2005-08-17 日本電信電話株式会社 音声入力された複合名詞の検索装置、検索方法およびデータベース
US20060253784A1 (en) * 2001-05-03 2006-11-09 Bower James M Multi-tiered safety control system and methods for online communities
US6966030B2 (en) * 2001-07-18 2005-11-15 International Business Machines Corporation Method, system and computer program product for implementing acronym assistance
WO2003012679A1 (en) * 2001-07-26 2003-02-13 International Business Machines Corporation Data processing method, data processing system, and program
US7039579B2 (en) * 2001-09-14 2006-05-02 International Business Machines Corporation Monte Carlo method for natural language understanding and speech recognition language models
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
GB2391648A (en) * 2002-08-07 2004-02-11 Sharp Kk Method of and Apparatus for Retrieving an Illustration of Text
GB2391647A (en) * 2002-08-07 2004-02-11 Sharp Kk Generating a List of Terms and a Thesaurus from Input Terms
TWI290687B (en) * 2003-09-19 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for search information based on classifications of synonymous words
US7937396B1 (en) 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
JP2007004409A (ja) * 2005-06-22 2007-01-11 Alpine Electronics Inc 施設名検索方法及び装置
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
JP4787590B2 (ja) * 2005-10-04 2011-10-05 株式会社リコー 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
JP4915499B2 (ja) * 2005-12-22 2012-04-11 日本電気株式会社 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US7624117B2 (en) * 2006-06-12 2009-11-24 Sap Ag Complex data assembly identifier thesaurus
US8959433B2 (en) * 2007-08-19 2015-02-17 Multimodal Technologies, Llc Document editing using anchors
US20120191746A1 (en) * 2007-12-26 2012-07-26 Tomoko Tashiro Dictionary system
US8065283B2 (en) * 2008-01-24 2011-11-22 Globalspec, Inc. Term synonym generation
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
KR101542136B1 (ko) * 2009-03-31 2015-08-05 삼성전자 주식회사 문자 메시지 작성 방법 및 이를 이용한 휴대 단말기
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
JP5441760B2 (ja) * 2010-02-25 2014-03-12 三菱電機株式会社 文書間距離算出器および文章検索器
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9342502B2 (en) 2013-11-20 2016-05-17 International Business Machines Corporation Contextual validation of synonyms in otology driven natural language processing
JP6210865B2 (ja) * 2013-12-02 2017-10-11 株式会社日立製作所 データ検索システムおよびデータ検索方法
JP7275816B2 (ja) * 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR20210043894A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 문장 제공 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US4773039A (en) * 1985-11-19 1988-09-20 International Business Machines Corporation Information processing system for compaction and replacement of phrases
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JPH02129756A (ja) * 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
DE69032712T2 (de) * 1989-06-14 1999-07-01 Hitachi, Ltd., Tokio/Tokyo Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
JP2791106B2 (ja) * 1989-06-14 1998-08-27 株式会社日立製作所 文字列検索装置
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
関根純、川下満、鈴木健司,「ネーミング手法と支援ツール」,電子情報通信学会技術研究報告,Vol.89,No.63(DE89−1〜5),1989年6月1日,p.25−32(DE89−4)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11446730B2 (en) 2019-06-26 2022-09-20 Ball Corporation Method and apparatus for sealing a metallic container with a metallic end closure
US11813657B2 (en) 2019-06-26 2023-11-14 Ball Corporation Method and apparatus for sealing a metallic container with a metallic end closure

Also Published As

Publication number Publication date
US5469355A (en) 1995-11-21
JPH06162098A (ja) 1994-06-10

Similar Documents

Publication Publication Date Title
JP3025724B2 (ja) 類義語生成処理方法
US7788590B2 (en) Lightweight reference user interface
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
US6513032B1 (en) Search and navigation system and method using category intersection pre-computation
US6651052B1 (en) System and method for data storage and retrieval
JPH06309362A (ja) 情報検索方法
US7877386B2 (en) Business object search method process and presentation
WO2020080375A1 (ja) 報告書作成装置、方法、および記録媒体
JPH05128152A (ja) 文書検索支援方法
JPH10162008A (ja) 情報検索方法及び装置
JPH0581326A (ja) データベース検索装置
JPH08272818A (ja) 情報検索システム
JPH09198396A (ja) 文書検索装置
US20070233657A1 (en) Searching method for a patent database system and generating a brief from of search results
EP0679999B1 (en) A method and apparatus for storage and retrieval of data
KR101105947B1 (ko) 상품모델을 자동으로 매칭시키는 상품 정보 등록 방법 및시스템
JPH08335222A (ja) 類似文章及び文書検索機能付コンピュータ装置
JPH0916624A (ja) 階層型データ検索方法
US20050102278A1 (en) Expanded search keywords
JPH04237371A (ja) チェック項目データベース検索システム
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
EP2111589B1 (en) Extended index searching
JP4195780B2 (ja) プログラム、データ処理システム及び記憶媒体
JPH0756945A (ja) 全文データベースシステム
KR101057997B1 (ko) 최초 문자를 이용하는 검색 엔진 및 검색 방법

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000111

LAPS Cancellation because of no payment of annual fees