JP3025724B2

JP3025724B2 - 類義語生成処理方法

Info

Publication number: JP3025724B2
Application number: JP4312531A
Authority: JP
Inventors: 康一都築
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-11-24
Filing date: 1992-11-24
Publication date: 2000-03-27
Anticipated expiration: 2015-03-27
Also published as: US5469355A; JPH06162098A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、類義語生成処理方法に
関し、特に、検索対象文字列を単語に分割し、単語単位
で抽出した類義語を組合せて検索対象文字列の類義語を
生成する類義語生成処理方法に関する。

【０００２】類義語（意味が同一又は類似である語）の
生成は、各種の電子文書を高精度で検索するために不可
欠である。特に、大規模なデータベース中で、あるテー
マに関連する事項を漏れなく検索したい場合に有効であ
る。

【０００３】

【従来の技術】図１９は従来の類義語を用いた文献検索
について示す。図１９において、検索対象文字列として
「休暇／申請／社員／番号」が与えられており、これを
用いて所定の電子文書を検索することによって、当該電
子文書中から与えられた検索対象文字列の類義語を抽出
する。電子文書中には、図示の如く、検索対象文字列の
類義語が複数含まれている。

【０００４】このような場合において、検索の結果とし
て抽出される類義語は、従来、検索対象文字列と同一の
文字列、及び、検索対象文字列と先頭が一致する文字列
「休暇申請従業員ナンバ」であった。

【０００５】また、以下の如き検索方法も知られてい
る。即ち、検索対象文字列「休暇申請社員番号」をこれ
を構成する単語「休暇」，「申請」，「社員」，「番
号」に分割する。この単語単位で類義語を抽出する。例
えば、「申請」，「社員」及び「番号」の類義語とし
て、各々、「申告」，「従業員」及び「ナンバ」を抽出
する。この類義語は各単語毎に予め定義される。抽出し
た類義語を組合せた文字列「休暇申告従業員ナンバ」を
用いて電子文書が検索され、これと同一の文字列が検索
対象文字列の類義語として抽出される。

【０００６】なお、検索対象文字列を構成する語を「単
語」、単語複数からなる文字列を「複合語」という。

【０００７】

【発明が解決しようとする課題】前述した従来技術によ
れば、検索対象文字列と同一の文字列及び先頭が一致す
る文字列は類義語として抽出可能であった。

【０００８】しかし、検索対象文字列と先頭（先頭の一
部）が一致しない文字列や、全く語句（音）は異なるが
意味は同一である文字列（異音同義語）等は抽出できな
いという問題があった。例えば、図１９の例において
は、「年休届け社員番号」や「年休申告社員ＮＯ」を抽
出することができなかった。

【０００９】一方、検索対象文字列を分割した各単語毎
に求めた類義語の組合せを用いる技術によれば、各単語
毎の類義語の定義の程度によっては、ある程度まで満足
できる範囲での抽出が可能であった。

【００１０】しかし、検索対象文字列から単語及びその
類義語の一部が欠落した文字列や、逆に検索対象文字列
に無関係な他の単語が付加された文字列、更には単語又
はその類義語の順序が入替わっている文字列等は抽出で
きないという問題があった。例えば、図１９の例におい
ては、「休暇」及び「申請」に相当する部分が欠落した
「従業員番号」や、「休暇」，「申請」及び「社員」の
部分の順序が入替わっている「社員休暇申請番号」を抽
出することができなかった。

【００１１】また、この単語の類義語の組合せを用いる
技術では、検索対象文字列を各単語に分割するための区
切記号（文字）「／」を、オペレータが自分で検索対象
文字列に挿入しなければならないという問題があった。
即ち、オペレータは単語や類義語に関する知識を持って
いなければならなかった。また、検索対象文字列が多い
場合等には、これらの各々に区切記号を挿入する作業
は、オペレータにとって煩わしいものであった。

【００１２】このように、従来はある程度までの検索は
可能であったものの、前述した例の如き類義語が抽出の
結果から漏れてしまうため、高精度の検索ができなかっ
た。即ち、従来の類義語の生成は、高精度の検索には不
向きな又は不十分なものであった。

【００１３】本発明の目的は、高精度の文字列の検索に
適した検索対象文字列の類義語を生成することが可能な
類義語生成処理方法を提供することにある。

【００１４】本発明の目的は、単語等の一部が欠落した
文字列又は無関係な他の単語が付加された文字列を、検
索対象文字列の類義語として生成することが可能な類義
語生成処理方法を提供することにある。

【００１５】

【００１６】

【課題を解決するための手段】図１は本発明の原理構成
図であり、本発明による類義語生成処理について示す。

【００１７】この類義語生成処理は、１又は２以上の単
語の各々についてその類義語を定義してなる類義語ファ
イル８を、オペレータにより入力された検索対象文字列
１に基づいて検索してこの検索対象文字列１の類義語を
生成する処理である。

【００１８】この処理において、検索加工部４は、検索
対象文字列１を構成する単語毎の類義語として当該単語
をキーとして類義語ファイル８を検索して当該キーとさ
れた単語の各々について定義された類義語を抽出し、検
索対象文字列１を構成する単語の各々とこれに対応する
抽出された類義語とを１つのグループ（類義語単語グル
ープ）として複数のグループを作成し、グループの各々
から単語又は類義語を選択する。

【００１９】入替え類義語加工部５は、選択された単語
又は類義語を、検索対象文字列１を構成する単語の並び
順とは異なる順に組合せて、検索対象文字列１の類義語
を生成する。

【００２０】欠落類義語加工部６は、選択された単語又
は類義語のうち２以上を用いて、検索対象文字列１の類
義語を生成する。付加類義語加工部７は、所定の規則に
従って、選択された単語又は類義語のうち２以上と検索
対象文字列１に無関係な他の単語とを用いて、同じ単語
数の検索対象文字列１の類義語を生成する。

【００２１】また、以上の検索に用いられる類義語ファ
イル８は、前記単語の異音同義語についても当該単語の
類義語として定義すると共に、前記単語と類義語との間
の関係を階層的に定義してなる。

【００２２】また、以上の検索に先立って、文字列分割
部３が、検索対象文字列１がこれを構成する単語毎に区
切られていない場合に、類義語ファイル８においてその
類義語が定義されている単語を用いて、検索対象文字列
１をこれを構成する単語毎に分割する。

【００２３】

【作用】図２は本発明の作用説明図であり、図１９に示
したと同様の例に本発明を適用した場合について示す。

【００２４】類義語ファイル８は、１又は２以上の単語
の各々について、その類義語を定義する。例えば、単語
「休暇」について、その類義語「年休」，「休日」を定
義する。また、単語「番号」について、その異音同義語
「ＮＯ（エヌオー）」をその類義語として定義する。更
に、単語「番号」とその類義語「ＮＯ」との間の関係を
階層的に定義する。即ち、上位階層である「番号」から
はその類義語として下位階層である「ＮＯ」を検索でき
るが、逆に、下位階層である「ＮＯ」からはその類義語
として上位階層である「番号」を検索できないように定
義される。

【００２５】検索対象文字列１として「休暇申請社員番
号」が入力されるが、これを構成する単語「休暇」等毎
に区切られて（分割されて）いない。そこで、まず、文
字列分割部３が、類義語ファイル８においてその類義語
「年休」等が定義されている単語「休暇」等を用いて、
検索対象文字列１をこれを構成する単語「休暇」，「申
請」，「社員」及び「番号」に分割する。

【００２６】これにより、オペレータが自分で検索対象
文字列１に各単語毎の区切記号「／」を挿入する必要を
無くすことができる。従って、オペレータの作業負担を
軽減でき、また、オペレータが類義語生成についての知
識を持つ必要も無くすことができる。

【００２７】文字列分割部３により又はオペレータ自身
により分割された検索対象文字列１の各単語「休暇」等
について、検索加工部４が類義語ファイル８を検索し
て、類義語「年休」，「休日」等を抽出し、これらを組
合せて検索対象文字列１の類義語を生成する。

【００２８】ここで、類義語ファイル８は、単語「番
号」の異音同義語「ＮＯ」をもその類義語として定義し
ているので、これを用いた類義語「年休申告社員ＮＯ」
が生成できる。即ち、検索対象文字列１の異音同義語を
その類義語として生成できる。

【００２９】検索加工部４は、単語「休暇」とその類義
語「年休」，「休日」とを１つのグループとし、同様に
して４つのグループを作る。そして、各グループから１
つの単語又は類義語を選択する。

【００３０】例えば、「休暇」，「申請」，「社員」，
「番号」が選択されたと仮定する。入替え類義語加工部
５は、この順を入替えて、例えば「社員休暇申請番号」
を検索対象文字列１の類義語として生成する。

【００３１】これにより、検索対象文字列１とは先頭が
一致しない文字列や単語（又はその類義語）の順が入替
わっている文字列を、その類義語として生成できる。ま
た、例えば、「休暇」，「申請」，「従業員」，「番
号」が選択されたと仮定する。欠落類義語加工部６は、
これらのうち２以上（３以下）を用いて、例えば「従業
員番号」を検索対象文字列１の類義語として生成する。

【００３２】これにより、検索対象文字列１の単語等が
一部欠落した文字列をその類義語として生成することが
できる。また、例えば、「休暇」，「申告」，「従業
員」，「ナンバ」が選択されたと仮定する。付加類義語
加工部７は、これらのうち２以上と他の無関係な単語
「△△」を用いて、例えば「休暇申告△△ナンバ」を検
索対象文字列１の類義語として生成する。

【００３３】これにより、検索対象文字列１に他の単語
が付加された文字列をその類義語として生成することが
できる。従って、本発明によれば、検索対象文字列１に
基づいて、これと一定の関係を有する範囲でその類義語
を豊富に生成できる。これを用いることにより、電子文
書等における文字列の検索を高精度に行うことが可能と
なる。

【００３４】

【実施例】図３は実施例構成図であり、本発明を適用し
たデータ処理装置を示す。この実施例では、ＣＯＢＯＬ
コピーテキスト（データライブラリ１０に当たる）の整
理のために、テキストの項目（名前）について類義語を
生成する。そして、生成した類義語を用いて項目の一覧
を検索して似たような項目名を検出する。

【００３５】より具体的には、プログラム開発作業にお
いて、ＣＯＢＯＬ言語を使用して開発している部署（メ
ンバ）では、数多くのＣＯＢＯＬコピーテキストの資産
を所持している。ＣＯＢＯＬコピーテキストの項目は、
一つのメンバ内では意味が一意であるが、複数メンバを
対象とすると、名前が同じであるが意味が異なる（同音
異義）項目や名前が異なるが意味が同じ（異音同義）項
目が多数存在する。これらの項目を整理する場合に、本
発明の類義語生成方法を適用して、より高精度の異音同
義語を検索する。

【００３６】そこで、本実施例では、データライブラリ
１０は多数のＣＯＢＯＬコピーテキストを含むコピーラ
イブラリからなる。ＣＯＢＯＬコピーテキストはプログ
ラムにおけるデータ部に相当する。

【００３７】ＣＯＢＯＬコピーテキストの項目がデータ
ライブラリ１０におけるデータに相当し、類義語を用い
た検索の対象である。ＣＯＢＯＬ言語においては、英字
の使用のみが許され、かな漢字の使用は許されないの
で、検索対象である項目は英字（英語）で記述されてい
る。例えば、「休暇申請社員番号」という語が英字で記
述されテキスト名として用いられている。

【００３８】これに対して、この実施例では、検索対象
文字列１は、例えば「休暇申請社員番号」の如くかな漢
字により入力される。従って、このままでは類義語によ
る検索が不可能であるので、検索対象ファイル１２が作
成される。

【００３９】検索対象ファイル１２を図４（Ａ）に示
す。検索対象ファイル１２は、ＣＯＢＯＬコピーライブ
ラリからなるデータライブラリ１０において用いられて
いる全ての項目（項目名）について、かな漢字で記述し
たものを格納する。例えば、かな漢字で「休暇申請社員
番号」という項目名が記述されている。検索対象ファイ
ル１２が類義語を用いた直接の検索対象である。

【００４０】検索対象ファイル１２は検索対象作成処理
部１１によって作成される。検索対象作成処理部１１
は、本実施例では、ＣＯＢＯＬ言語システムが提供する
１つのツールからなり、項目名の英字とこれに対応する
かな漢字とを定義するものである。この定義は、予め、
システム管理者又は類義語検索のオペレータにより与え
られる。検索対象作成処理部１１は、この定義に従っ
て、英字からなる項目名に基づいてかな漢字からなる項
目名を生成して検索対象ファイル１２を作成する。

【００４１】なお、検索対象ファイル１２は、当該シス
テムのデータ項目管理ファイルとして多用途に用いられ
る。これは、かな漢字からなる項目名の方が管理等にお
いて便利であることによる。実際は、当該ツールにより
データ項目管理ファイルとして既に作成されたものが検
索対象ファイル１２として用いられる。

【００４２】また、検索対象文字列１が英字で入力され
る場合の如く、検索の対象であるデータライブラリ１０
の用いるコードと検索対象文字列１のコードとが同一の
コード体系によっている場合は、検索対象ファイル１２
を新たに作成する必要はない。例えば、データライブラ
リ１０のデータ項目（又はその一覧）を検索対象文字列
１に基づいて検索すればよい。

【００４３】検索対象文字列１は、処理装置１５に接続
された入力装置（図示せず）からオペレータによって入
力される。検索対象文字列１は単語又は複合語からな
る。複合語からなる場合、本発明によれば、各単語が区
切記号「／」で分割されている必要はない。

【００４４】オペレータは、自分の入力した検索対象文
字列１と同一の語が検索対象ファイル１２（又はその元
となるデータライブラリ１０）に存在するか否かを知る
必要はなく、整理したい項目名に似た文字列を入力すれ
ばよい。整理したい項目名は、類義語として生成され
る。

【００４５】本実施例の類義語ファイル８は、図２に示
したものと同一の構成を有する。即ち、類義語ファイル
８は、かな漢字により記述され、ある単語についてその
異音同義語を含む類義語を定義する。異音同義語として
は、「申請」について「届け」、「番号」について「Ｎ
Ｏ」が挙げられる。この定義はオペレータによって類義
語の生成に先立って行なわれる。

【００４６】類義語ファイル８は、図１に示した如く、
階層的に単語Ａと類義語Ｂ，Ｃ，Ｄとの間の関係を定義
する。これを図５に具体的に示す。比較的類似した意味
を持つ４つの語「番号」，「ＮＯ」，「ナンバ」，「コ
−ド」について、図５に示す如き階層的定義がなされ
る。即ち、上位階層の語に対して下位階層の語は類義語
と認識されるが、逆に、下位階層の語に対して上位階層
の語は類義語とは認識されない。

【００４７】具体的には、図５（Ａ）の如く「ＮＯ」，
「ナンバ」は「番号」の類義語として定義され抽出でき
るが、逆に、図５（Ｃ）の如く「番号」は「ＮＯ」，
「ナンバ」の類義語としては定義されておらず抽出でき
ない。更に、図５（Ｂ）の如く「番号」は「コ−ド」の
類義語として抽出できるが、逆に、図５（Ｄ）の如く
「コ−ド」は「番号」の類義語として抽出できない。

【００４８】上位階層の語としては、「番号」の如く日
常的な語や、「コ−ド」の如くデータ処理において一般
的な語が定義される。下位階層の語としては、「Ｎ
Ｏ」，「ナンバ」の如く比較的使用頻度の小さい語が定
義される。

【００４９】このように、階層的な定義を用いて類義語
ファイル８を作成しておくことによって、より高精度な
検索に適した類義語生成ができる。処理装置１５はＣＰ
Ｕ（中央処理装置）とメモリとからなる。類義語生成処
理部２、検索対象作成処理部１１及び検索処理部１３
は、メモリ上に存在する各プログラムとＣＰＵとで実現
される。また、データライブラリ１０、検索対象ファイ
ル１２、類義語ファイル８、類義語生成処理の生成結果
９、検索処理の検索結果１４は、磁気ディスクの如き外
部記憶に格納される。生成結果９及び検索結果１４は、
所定の出力装置により出力（表示，印刷）される。

【００５０】類義語生成処理部２は文字列分割部３と検
索加工部４とを有する。文字列分割部３は、類義語ファ
イル８を参照して、類義語が定義されている（上位階層
の）単語「休暇」等を用いて、検索対象文字列１を分割
する。例えば、「休暇申請社員番号」を「休暇」，「申
請」，「社員」，「番号」の４つの単語に分割する。

【００５１】検索対象文字列１が分割されているか否
か、即ち、区切記号「／」の有無は、類義語生成処理部
２又は文字列分割部３が判断し、分割されていない場合
には分割し、分割されている場合には区切記号に従って
分割する。

【００５２】検索加工部４は入替え類義語加工部５、欠
落類義語加工部６、付加類義語加工部７を有する。検索
加工部４は、検索対象文字列１を構成する単語毎の類義
語として当該単語をキーとして類義語ファイル８を検索
して当該キーとされた単語の各々について定義された類
義語を抽出する。そして、検索対象文字列１を構成する
単語とこれに対応する抽出された類義語とを１つのグル
ープとして複数のグループを作成し、前記グループの各
々から１語づつ単語又は類義語を選択する。

【００５３】この後、検索加工部４は、選択した単語又
は類義語を組合せて、検索対象文字列１の類義語を生成
する。この時、単語等を組合せる順は、検索対象文字列
１を構成する単語の並び順と同一の順とされる。即ち、
図２に示した「休暇」，「申請」，「社員」，「番号」
の各グループから選択された語が、この順で並べられ
る。従って、「休暇申告従業員ナンバ」等が生成され
る。

【００５４】これに対して、入替え類義語加工部５は、
前記各グループから選択された単語等の並び順を入替え
る。即ち、検索対象文字列１の単語の並び順とは異なる
順に組合せる。これにより、入替え類義語「社員休暇申
請番号」等が生成される。この生成によって得られる類
義語を構成する単語等の数は、元の検索対象文字列１を
構成する単語の数に等しい。

【００５５】これに対して、欠落類義語加工部６は、前
記各グループから選択された単語等のうち２以上を用い
て類義語を生成する。これにより、欠落類義語「従業員
番号」等が生成される。

【００５６】類義語を生成するために用いられる単語等
の数ｋは、検索対象文字列１を構成する単語の数がｎで
あるとすると、２以上（ｎ−１）以下の整数とされる。
単語数ｋを２以上とするのは、ｋ＝１とすると極めて多
くの類義語が生成されてしまい、結果として検索の精度
が悪くなってしまうと考えられるからである。ｋ＝ｎの
場合については、検索加工部４が処理する。

【００５７】なお、単語数ｋは３以上であってもよく、
生成したい類義語の数に応じて変更できる。また、単語
数ｋを２以上として一旦類義語を生成し、その数が多い
場合単語数ｋ＋１以上のものについてのみ生成結果９と
して出力するようにしてもよい。この生成によって得ら
れる類義語を構成する単語等の数は、元の検索対象文字
列１を構成する単語の数より少ない。

【００５８】付加類義語加工部７は、前記各グループか
ら選択された単語等のうち２以上を用いて、これらに検
索対象文字列１とは無関係な他の単語（これを「△△」
と表す）を付加して類義語を生成する。これにより、付
加類義語「休暇申告△△ナンバ」等が生成される。「２
以上」とするのは、前述の欠落類義語加工の場合と同じ
理由による。従って、この値は３以上でもよい。

【００５９】他の単語「△△」の代表的な例としては、
例えば「高橋」，「佐藤」，「日本」，「株式会社」，
「神奈川」，「厚木」の如き一般的な名称が挙げられ
る。これらは、会社名等を検索する場合に有効である。

【００６０】付加類義語加工部７は、距離によって規定
される所定の規則に従う。説明のため、検索対象文字列
１の単語数をｎとし、互いに隣接する単語の距離を１と
する。この場合に、検索対象文字列１を構成する単語数
と同一の値を最大距離とし、これ以下の距離で検索対象
文字列１の類義語を生成する。

【００６１】従って、生成された付加類義語を構成する
単語数は、検索対象文字列１の単語数ｎよりも１つだけ
多くなる（ｎ＋１となる）。この時、類義語の両端の単
語の距離（即ちこの文字列での最大距離）が、検索対象
文字列１の単語数ｎと同一の値となっている。

【００６２】最大距離をｎとするのは、これをｎ＋１等
と大きくすると極めて多くの類義語が生成されてしま
い、却って検索の精度が悪くなってしまうと考えられる
からである。

【００６３】なお、最大距離が「ｎ以下」であれば「ｎ
−１」であってもよく、「ｎ以下」の範囲で付加類義語
が生成される。この生成される類義語が少ない場合、最
大距離を「ｎ＋１」としてもよい。

【００６４】一方、他の単語「△△」が２語連続してい
る場合には、これらを１語として処理する。これによ
り、類義語生成の自由度を向上しつつ一定の規則に従っ
ているので、漏れなく類義語を生成して検索の精度を向
上できる。

【００６５】以上の各加工部４乃至７によって生成され
た類義語が、生成結果９として類義語生成処理部２によ
り出力される。この実施例の生成結果９は、図２に示し
たと同様のものとなる。

【００６６】各加工部４乃至７による処理は、個別に実
行されるのではなく、一連の処理として実行される。例
えば、検索加工部４が前述した各類義語単語グループか
ら１つの語を選択し、これをその順に並べて１つの類義
語を生成する。次に、この類義語の語順を入替えて複数
の入替え類義語を生成する。次に、このようにして生成
した全ての類義語につき、その一部を省略して欠落類義
語を生成する。更に、これまで生成した全ての類義語に
つき、他の単語「△△」を付加して付加類義語を生成す
る。以上によれば、少ない処理で漏れなく類義語を生成
できる。

【００６７】検索処理部１３は、生成結果９に示される
類義語を用いて検索対象ファイル１２を検索し当該類義
語を抽出して、検索結果１４として出力する。検索結果
１４を図４（Ｂ）に示す。この実施例の検索結果１４
は、ＣＯＢＯＬコピーテキストの項目名についての異音
同義語リストとして用いられる。この場合、オペレータ
は検索対象文字列１として「休暇申請社員番号」と「休
暇申告従業員ナンバ」とを入力し、各々についてその類
義語を得ている。

【００６８】検索処理部１３は、検索結果１４の出力に
際して、オペレータが見易いように、予め定められた所
定の形式のリストとして作成して出力し、また、このリ
ストにおいて、各類義語を検索対象文字列１に近い順に
上から並べて表示する。近い順の判断には、元の検索対
象文字列１の単語の並び順からの距離の大小が用いられ
る。図示の如く、入替えを行っておらず欠落も付加もな
い語が上に並び、入替えの度合いが多い語が下に並ぶ。

【００６９】図６及び図７は類義語生成処理フローを示
し、両図が一体となって本実施例における類義語生成処
理フローを示す。図６において、オペレータにより検索
対象文字列１が指定（入力）される（Ｓ１）。

【００７０】指定された検索対象文字列１について、区
切記号が挿入されている（有る）か否かを、類義語生成
処理部２又は文字列分割部３が調べる（Ｓ２）。区切記
号が有る場合、文字列分割部３が区切記号に従って検索
対象文字列１をこれを構成する単語に分割する（Ｓ
３）。この単語は類義語の検索のキーとなるので、以下
キー単語と呼ぶ。

【００７１】区切記号が無い場合、文字列分割部３が類
義語ファイル８を参照して、検索対象文字列１を構成す
るキー単語であって類義語ファイル８に定義されている
キー単語を検索する（Ｓ４）。ここで、類義語ファイル
８におけるキー単語は、「休暇」の如くその類義語が定
義されている単語である。

【００７２】次に、文字列分割部３が、検索対象文字列
１を、類義語ファイル８から検索したキー単語を用いて
分割する（Ｓ５）。分割処理が終了した後、検索加工部
４が、分割した各キー単語毎に類義語ファイル８を検索
して、その類義語を抽出する（Ｓ６）。

【００７３】次に、検索加工部４が、分割したキー単語
と、これに対応する抽出した類義語とを１つの類義単語
グループとし複数のグループを形成する（Ｓ７）。次
に、図７において、類義単語グループからそれに属する
単語が１つ選択され、各グループから選択した単語が組
合わされる（Ｓ８）。これにより類義語が生成される。

【００７４】この組合せ処理において、例えば検索加工
部４が前述した各類義単語グループから１つの語を選択
し、これをその順に並べて１つの類義語を生成する。次
に、入替え類義語加工部５がこの類義語の語順を入替え
て複数の入替え類義語を生成する。次に、欠落類義語加
工部６がこのようにして生成した全ての類義語につき、
その一部を省略して欠落類義語を生成する。これらの処
理は、各類義単語グループから選択した１つの語を用い
て構成できる全ての組合せについて行なわれる。

【００７５】次に、類義語生成処理部２又は検索加工部
４が、生成した各類義語においてその組合せに距離を持
たせるか否かを調べる（Ｓ９）。距離を持たせるか否か
の指示は、予め、オペレータによって入力される。オペ
レータの指示入力に応じ、付加類義語加工部７が起動さ
れ、付加類義語が生成される。従って、付加類義語の生
成機能については選択的に起動させ得る。

【００７６】距離を持たせる場合、付加類義語加工部７
が、Ｓ８における組合せによって得た各文字列の途中又
はその前後に、他の単語を挿入する（Ｓ１０）。これに
より、付加類義語が生成される。ここで、他の単語は特
定できないので、所定の記号によって表される。

【００７７】距離を持たせない場合、Ｓ８における組合
せによって得た各文字列がそのまま類義語とされる（Ｓ
１１）。以上によって得た類義語を検索加工部４が生成
結果９として所定の領域に格納する（Ｓ１２）。即ち、
Ｓ１０を実行した場合はＳ８とＳ１０で得た類義語が生
成結果９とされ、これ以外の場合はＳ８で得た類義語が
生成結果９とされる。

【００７８】次に、類義語生成処理部２又は検索加工部
４が、生成結果９について調べ、類義語が検索対象文字
列１に似ている順に並べ、これを出力（表示）する（Ｓ
１３）。

【００７９】次に、本発明の類義語生成処理及びこれに
より生成した類義語を用いた検索処理の具体例について
説明する。図８乃至図１０は、データベース化された新
聞記事を検索してその内容を特定する例を示す。

【００８０】この例では、図８（Ａ）に示す検索対象文
字列１Ａ（「米大統領候補」）を用いて類義語ファイル
８Ａを検索して類義語を生成し、これを用いて新聞記事
（図示せず）を検索する。

【００８１】ここで、従来の検索結果１４Ａ’を図９に
示す。これは、検索対象文字列１とは関連のない記事を
検索しており、精度の低い検索であることを示す。この
原因は、従来は、「アメリカ」の類義語として「米」，
「ササニシキ」，「コシヒカリ」，「Ｕ．Ｓ．Ａ．」，
「合衆国」，「テキサス州」が抽出されていたことによ
る。即ち、類義語の定義に階層が用いられていないため
である。

【００８２】これに対し、類義語ファイル８Ａでは、本
発明に従い階層的に類義語を定義している。即ち、「ア
メリカ」から「米」は抽出できるが、「米」からは「ア
メリカ」は抽出できない。また、「アメリカ」→「米」
→「ササニシキ」という抽出もできず、階層は１階層の
み有効とされる。これにより、図１０に示す如き高精度
な検索結果１４Ａが得られる。

【００８３】なお、図１０の如く、検索対象文字列１Ａ
の区切り方を変化させることにより、微妙にニュアンス
の異なる異音同義語を検出できる。検索対象文字列１Ａ
を複数通りに分割する処理は、文字列分割部３が類義語
ファイル８Ａに基づいて行う。

【００８４】図１１及び図１２は、食品管理データベー
スを検索対象ファイル１２Ｂとして、デパート等の店頭
であいまいな顧客の要望に応じたデータを提供する例を
示す。

【００８５】この例では、図１１（Ａ）に示す検索対象
文字列１Ｂ（「調味料セット」）を用いる。これは、
「３０００円の予算内で調味料セットを買いたい」とい
う顧客の希望に沿ったものである。

【００８６】この検索対象文字列１Ｂにより、図１１
（Ｂ）に示す類義語ファイル８Ｂを検索することによっ
て、図１１（Ｃ）に示す生成結果９Ｂを得る。更に、こ
の生成結果９Ｂを用いて、図１２（Ａ）に示す検索対象
ファイル１２Ｂである食品管理データベースを検索する
ことによって、図１２（Ｂ）に示す検索結果１４Ｂを得
る。これにより、物としては類似しているが、それぞれ
に少しづつ名称の異なる商品をまとめて検索できる。

【００８７】この例では、各商品に製造会社の社名が付
加されている。この社名は、前述の他の単語として処理
される。なお、生成結果９Ｂとしてはこの他の単語を含
む付加類義語を生成せずに、検索処理の段階で前処理と
して付加類義語を生成する。

【００８８】このように商品を検索対象とする場合に
は、類義語ファイル８（８Ｂ）を、かな漢字のコ−ド体
系によってではなく、別のコ−ド体系、特に商品取引で
広く用いられているバーコ−ド体系によって定義するよ
うにしてもよい。検索対象ファイル１２（１２Ｂ）はバ
ーコ−ド体系によっていることが多いので、これを生成
した類義語（当然にバーコ−ド体系による）で容易に検
索できる。

【００８９】図１３及び図１４は、駅頭に設置されてい
る行先案内サービスへの適用例を示す。例えば、出張な
どで、行き先は分かるが場所がよく分からない場合、駅
などに設置してある案内板へ、行き先の名称を入力する
ことにより、行き先の近隣にある建物の名称を検索し、
その位置を示す。

【００９０】今、○○株式会社の第３事業所へ行きたい
が、会社の略称「○○社」と「Ｃビル」にあることだけ
を知っているとする。そこで、検索対象文字列１Ｃとし
て図１３（Ａ）の如く「○○社／Ｃビル」を入力する。
この検索対象文字列１Ｃによって、図１３（Ｂ）に示す
類義語ファイル８Ｃである行先情報定義ファイルを検索
することにより、図１３（Ｃ）に示す生成結果９Ｃを得
る。生成結果９Ｃでは、正式な会社名及び事業所名が得
られる。

【００９１】次に、生成結果９Ｃを用いて、図１３
（Ｄ）に示す検索対象ファイル１２Ｃである建物管理デ
ータベースを検索することによって、図１４に示す検索
結果１４Ｃである行先案内地図を得る。これにより、地
理や行先の正式名称が不正解であっても、正確に目的地
に行くことができる。

【００９２】この例では、検索対象ファイル１２Ｃに住
所、電話番号、地理上の目安となる建物、交通手段と時
間等種々の有用な情報を持ち、これを検索結果１４Ｃに
示すと共に、データベース化された地図情報（図示せ
ず）と検索対象ファイル１２Ｃとを連結することによ
り、行先案内地図を示すようにしている。即ち、検索結
果を他の情報とリンクさせて表示している。

【００９３】図１５は図書館等における文献検索に適用
した例を示す。検索対象文字列１Ｄとして、図１５
（Ａ）に示す「データ通信」を入力する。この時、区切
記号「／」が挿入されていない。そこで、これを図１５
（Ｂ）に示す類義語ファイル８Ｄである類似文献定義フ
ァイルを参照して、「データ」及び「通信」に分割す
る。その上で、類義語ファイル８Ｄを検索して種々の類
義語を生成する（図示せず）。さらに、この類義語を用
いてデータベース化された文献情報（図示せず）を検索
して、図１５（Ｃ）に示す検索結果１４Ｄである文献リ
ストを得る。

【００９４】この例では、検索対象文字列１Ｄの自動的
な分割と、他の単語の付加が有効である。図１６は漢字
の読みを漢字変換する際に、その類義語をも生成する例
である。

【００９５】現在、言葉の読みを入力して漢字に変換す
る仕組みはあるので、読みさえ分かれば大抵の漢字は割
り出すことができる。しかし、言葉ａの類義語を知りた
い場合には、漢字辞典など参考書を見ないと分からな
い。

【００９６】この例では、検索対象文字列１Ｅとして、
図１６（Ａ）に示す「じゅうぎょういんばんごう」を入
力する。そして、これを用いて図１６（Ｂ）に示す類義
語ファイル８Ｅである同義語定義テーブルを検索して、
図１６（Ｃ）に示す生成結果９Ｅであるかな漢字変換及
び類義語生成リストを得る。これにより、単に漢字変換
を行うのみで、その類義語まで知ることができる。

【００９７】図１７及び図１８は、電話番号検索に適用
した例である。現在でも電話番号検索が可能であるが、
相手先、場所が分かっていないと検索できない。また、
希望の店を探したい場合、職業別電話帳から探せるが、
あるインデックスで探すと、「違うインデックスを参照
して下さい」など、一度に分からないことがあったり、
一つの職業でもさらに複数に分類されていてすぐに検索
できない場合がある。そこで、インデックスを一度入れ
ることでそれに類似するお店を検索できるようにする。

【００９８】今、厚木市内でガラス修理をしてくれる会
社を探すとする。そこで、図１７（Ａ）に示す検索対象
文字列１Ｆ（「厚木市ガラス修理」）を入力する。これ
を用いて、図１７（Ｂ）に示す類義語ファイル８Ｆであ
る類義語定義ファイルを検索して類義語を生成する。な
お、検索対象文字列１Ｆは、自動的に分割される。

【００９９】次に、この検索で得た類義語を用いて、デ
ータベース化された電話番号データを検索して、図１７
（Ｃ）に示す検索結果１４Ｆである店名一覧を得る。こ
の検索結果１４Ｆは、図１８に示す分野で厚木市の電話
番号簿を調べた結果とよく一致している。

【０１００】

【０１０１】

【０１０２】

【発明の効果】以上説明したように、本発明によれば、
検索対象文字列の単語とその類義語とから、２以上でか
つ当該文字列の単語数より小さい範囲で選択することに
よって、検索対象文字列からその単語の一部に相当する
部分の欠落した文字列を、類義語として生成することが
できる。

【０１０３】

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の作用説明図である。

【図３】実施例構成図である。

【図４】実施例の説明図である。

【図５】類義語ファイルの階層説明図である。

【図６】類義語生成処理フローである。

【図７】類義語生成処理フローである。

【図８】適用例の説明図である。

【図９】参考例の説明図である。

【図１０】適用例の説明図である。

【図１１】適用例の説明図である。

【図１２】適用例の説明図である。

【図１３】適用例の説明図である。

【図１４】適用例の説明図である。

【図１５】適用例の説明図である。

【図１６】適用例の説明図である。

【図１７】適用例の説明図である。

【図１８】適用例の説明図である。

【図１９】従来技術説明図である。

【符号の説明】

１検索対象文字列２類義語生成処理部３文字列分割部４検索加工部５入替え類義語加工部６欠落類義語加工部７付加類義語加工部８類義語ファイル９生成結果１０データライブラリ１１検索対象作成処理部１２検索対象ファイル１３検索処理部１４検索結果１５処理装置（ＣＰＵ／メモリ）

フロントページの続き (56)参考文献特開平２−129756（ＪＰ，Ａ) 特開平３−209564（ＪＰ，Ａ) 特開平３−286371（ＪＰ，Ａ) 特開平２−158873（ＪＰ，Ａ) 特開平３−152668（ＪＰ，Ａ) 関根純、川下満、鈴木健司，「ネーミング手法と支援ツール」，電子情報通信学会技術研究報告，Ｖｏｌ．89，Ｎｏ. 63（ＤＥ89−１〜５），1989年６月１日，ｐ．25−32（ＤＥ89−４) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】１又は２以上の単語の各々についてその
類義語を定義してなる類義語ファイル（８）を、検索対
象文字列（１）に基づいて検索してこの検索対象文字列
（１）の類義語を生成する類義語生成処理方法におい
て、検索加工部（４）が、前記検索対象文字列（１）を構成
する単語毎の類義語として当該単語をキーとして前記類
義語ファイル（８）を検索して当該キーとされた単語の
各々について定義された類義語を抽出し、前記検索対象
文字列（１）を構成する単語の各々とこれに対応する前
記抽出された類義語とを１つのグループとして複数のグ
ループを作成し、前記グループの各々から前記単語又は
類義語を選択し、付加類義語加工部（７）が、所定の規則に従って、前記
選択された単語又は類義語のうち２以上と選択されなか
った単語又は類義語に代えて用意された前記検索対象文
字列（１）に無関係な他の単語とを用いて、前記検索対
象文字列（１）の類義語を生成することを特徴とする類
義語生成処理方法。
【請求項２】前記所定の規則は、距離によって規定さ
れ、前記検索対象文字列（１）において互いに隣接する
単語の距離を１とした場合に前記検索対象文字列（１）
を構成する単語数に等しい値を最大距離とし、これ以下
の距離で前記検索対象文字列（１）の類義語を生成する
ことを特徴とする請求項１記載の類義語生成処理方法。