JP2791106B2

JP2791106B2 - 文字列検索装置

Info

Publication number: JP2791106B2
Application number: JP1149630A
Authority: JP
Inventors: 敦畠山; 浩道藤澤; 寛次加藤; 川口　　久光; 雅章藤縄; 秀文増崎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-06-14
Filing date: 1989-06-14
Publication date: 1998-08-27
Anticipated expiration: 2013-08-27
Also published as: JPH0315980A

Description

【発明の詳細な説明】【産業上の利用分野】

本発明は、テキストデータベースを指定した文字列で
検索する装置に係わり、特に統制されていないキーワー
ド（自由語と呼ぶ）を用いて検索する際に、同義語や表
記法の違いによる検索漏れをなくすのに好適な文字列検
索装置に関する。

【従来の技術】

近年、文献情報や特許情報などの２次情報（書誌情
報）のみならず、１次情報（本文）をも含む大規模デー
タベース・サービスの重要性が増している。このような
データベース（DBと略すこともある）の情報検索では、
従来からキーワードや分類コードによる方法が用いられ
てきている。キーワードは、データベースへの情報登録
時に、キーワードを付与する（インデキシングと言う）
専門家が統制語集（シソーラスと呼ぶ）から選んで付け
ている。そして、DB検索者もこのシソーラスからキーワ
ードを選び出して検索を行なう方式がとられている。し
かしながら、このキーワード付与作業は、非常に煩雑な
作業を伴う。すなわち、登録すべき文書の内容を読み、
この内容を表現する適切な語彙をシソーラスから選び出
す必要がある。もしインデキシングを適切に行なわなけ
れば、データベースから正しい情報が得られないことに
なる。従って、このインデキシングには文書の内容に関
する専門知識を持ち、かつシソーラスに登録されている
語彙にも精通した専門家が必要になるという問題があ
る。また、検索時にも同様に、シソーラスに則った適切
な語彙をキーワードとして指定しなければ、要求する文
書を呼び出せなかったり、あるいは呼び出した文書の中
に不要なものが混じり込むという問題がある。また、このシソーラスにおいては、分類体系自体が年
月と共に変化するため、常にキーワードや分類コードを
更新しなければならないという問題も生じてくる。更
に、インデキシングには時間がかかるため、新たな文書
はバッチ処理によりかなりの量をまとめて登録すること
になる。そのため、検索できる情報は常に一定期間のお
くれを持つという問題もある。このようなことから、DB
の普及に伴い、DBの専門家でなくとも、シソーラス等に
拘束されることなく、簡単に自由語（非統制語ともい
う）で、文書の登録、検索が行なえるシステムが望まれ
てきた。このような自由語による検索の過程では、しばしばユ
ーザの指定するキーワードすなわち検索文字列と、検索
対象であるDB中で用いられている言葉が同一の内容を示
すのにもかかわらず、表記あるいは表現が食い違ってい
るために検索漏れを生ずる場合がある。例えば、 “ピアノ”という言葉を“ピヤノ” と記述したり、また “インターフェイス”という言葉を “インタフェース”、“インタフェイス” あるいは“インターフェース” と記述したりすることがある。このような微妙な音節表
記法のバリエーションの違いにより、所望する情報を検
索できない場合がある。以下、表記法の異なる文字列に展開することを異表記
展開と呼び、辞書を用いて他の文字列へ展開することを
同義語展開と呼ぶ。また、表記法の異なる文字列のこと
を異表記と呼ぶ。このような異表記や同義語の問題を解決する方法とし
て、特開昭62−011932を提案した。なお、この引例の中
では、異表記展開のことを異表記発生と呼び、同義語展
開のことを類似語抽出と呼んでいる。第２図に、この引例の構成をブロック図で示す。この構成では、ローマ字やカタカナ表現で入力した検
索文字列を、一旦全てカタカナの標準化された表記の文
字列に変換する。すなわち、異表記発生の逆の操作によ
り、複数個の表記法を一つにまとめる表記標準化処理を
まず最初に行なう。また、アルファベット表現で入力さ
れた検索文字列も外来語カナ変換により、カタカナ表面
に統一される。こうして、一旦標準化したカタカナ文字列を、同義語
辞書を用いて類似語展開し、入力したカタカナ文字列と
同義の単語をカタカナ文字列として出力する。類似語抽
出した後のカタカナ文字列は、カナ漢字変換を行ない漢
字文字列へ、カナ外来語変換を行ないアルファベット表
現の外国語に、カナローマ字変換を施してローマ字文字
列へ変換する。このようにして、類似語抽出の結果であるカタカナ文
字列を、漢字、ローマ字、カタカナ、外国語の各表現に
変換して、それぞれ異表記展開する。

【発明が解決しようとする課題】

しかし上記引例では、表記を標準化する際に、元の文
字列が持つ情報を変えてしまうため、期待する展開結果
が得られないことがあった。このことを、カタカナの部
分文字列の変換ルール「“ホオ”→“ホウ”」を例にして説明する。この変換ルールは文字列 “ジョウホオ” を “ジョウホウ”（情報）と正しく標準化する。しかしこの同じ変換ルールを用い
ても “ジョウホオン”（定保温）が入力された場合には “ジョウホウン” と誤った文字列へ標準化してしまう。このことは、標準
化処理の後の同義語展開処理、更にその後に続く異表記
展開処理に影響をおよぼし、期待する展開結果が得られ
ないことになる。本発明の第１の課題は上記の標準化を避け、常に期待
する展開結果を得ることにある。また上記引例では、同義語辞書によって“計算機”か
ら“コンピュータ”に文字列を同義語展開するときに、
ユーザが入力する検索文字列を、一旦すべてカタカナ表
現に変換してから同義語展開し、そのあとでカナ漢字変
換、カナローマ字変換及びカナ外国語変換をする構成と
なっている。そのため、同義語辞書は必ずカタカナ文字
列からカタカナ文字列へ展開するようなものでなければ
ならなかった。すなわち、見出し語：“コンピュータ” 同義語1:“ケイサンキ” 同義語2:“ジョウホウショリソウチ” などと、単語間の同義関係を常にカタカナ文字列で記述
しなければならなかった。このことは、同義語展開後の
カナ漢字変換辞書及びカナ外来語変換辞書でも、必ずこ
れらに対応する表現の文字列を出力するよう登録してお
かなければならないために、辞書が大きくなるという問
題がある。また、日本語には同じ読みを持っていても、
意味の異なる同音異議語が多く存在し、これが同義語展
開時に弊害を生じる。例えば“ケンサク”という文字列
は“検索”とも解釈できるし“研削”とも解釈できるの
で、カタカナ表現のみによる同義語辞書では両者を区別
できないという問題がある。さらに、同義語展開後のカ
タカナ漢字変換において、同音異議語の選択をユーザが
対話的に行わなければならないという問題があった。また、検索文字列をカタカナ表現に変換するための外
国語カナ変換辞書や、同義語展開した後のカナ漢字変換
辞書及びカナ外国語変換辞書が必要であり、多種類の大
規模な辞書を使うためにその作成と保守が大変となる。本発明の第２の課題は上記のカナ漢字変換、カナ外国
語変換時における同音異議語の問題と、これらの変換に
用いる大規模な辞書の作成、保守の問題を解決すること
にある。

【課題を解決するための手段】

上記課題を解決するために、第１図のようにキーボー
ドから入力した文字列を一旦異表記展開し、異表記展開
された各々の文字列に対し、同義語辞書を参照して同義
語展開をし、更に同義語展開で得た各々の文字列に対し
て異表記展開する構成とする。この異表記及び同義語展開処理の概略を第３図に示
す。ユーザが指定した検索文字列301は一旦異表記展開
し、その展開した文字列群302に対して、次に同義語辞
書310を用いて同義語展開する。その後、この同義語展
開で得られた文字列303に対して、さらに異表記展開
し、最終の展開結果として文字列群304を得る。このように同義語展開の前に異表記展開することによ
り、表記の標準化によって情報を変更することなく展開
処理が可能となる。同義語辞書中の文字列の表現や表記
に配慮することなく辞書が構成できるため、辞書の作成
や編集が容易になる。また、同義語展開した文字列につ
いても異表記展開をすることにより、同義語展開で新し
く得られた文字列についても異表記を得ることができ
る。次に本発明における重要な手段の一つである異表記展
開について説明する。異表記展開では、まず最初に入力
文字列を文字種毎に分割し、漢字及びひらがな文字列、
カタカナ文字列、アルファベット文字列の３種類の部分
文字列へ分割する。次に分割した部分文字列毎に変換ル
ールテーブルを用いて文字列の置き換え処理を行い、漢
字、カタカナの各文字種の異表記展開をしていく。アル
ファベット文字種については変換ルールテーブルは用い
ずに、入力文字列中のアルファベット文字を大文字から
小文字、小文字から大文字へコード変換する。ここで変換ルールテーブルとは入力文字列中の該当文
字列を文字列のリストへ置き換えることを指示した変換
ルールを複数個蓄えたものである。変換ルールは、例えば文字列“イウ”を“イウ”と
“ユウ”とに展開する場合には、［“イウ”→（“イウ",“ユウ”）］と記述する。また部分文字列を文字列リストへ変換する
ことを、ここでは‘置き換え’と呼ぶことにする。漢字、カタカナの各文字種の異表記展開用の異表記展
開用の変換ルールには例えば次のようなものが考えられ
る。（１）漢字及びひらがな文字列の場合（ａ）漢字の新字体と旧字体の表記による展開に関す
る変換ルール例：［“斉”→（“斉",“斎",“齋",
“齊”）］（ｂ）漢字の送りがな表記の違う展開に関する変換ル
ール例：［“読み取り”→（“読み取り",“読
取”）］（２）カタカナの場合・類似音節の様々な表記に展開する変換ルール例：［“ピア”→（“ピア",“ピヤ”）］このように、漢字ひらがな文字種、カタカナ文字種に
ついては、変換ルールテーブルを用いて異表記展開す
る。次にローマ字の異表記展開について説明する。ローマ字の異表記としては、ヘボン式表記法と訓令式
表記法あるいはこれらの表記法の混在したものが考えら
れる。従って、ここでは変換ルールとしてヘボン式表記
法と訓令式表記法の音節表記を併記したルールを作るも
のとする。例えばヘボン式表記法の “SHI" を訓令式表記法及びヘボン式表記法の音節表記の “SI"と“SHI" という２つの部分文字列のリストに置き換える変換ルー
ル［“SHI"→（“SI",“SHI"）］を作ることによりローマ字の異表記展開を実現する。あ
るいは、別な方法としてローマ字の全文字列を一端カタ
カナ表記に変換し、カタカナ文字列中の各音節をヘボン
式表記法と訓令式表記法の両方で置き換える方法もあ
る。例えば、ローマ字文字列の “SISHAMO" を一端カタカナ文字列の “シシャモ” に変換し、次に［“シ”→（“SI",“SHI"）］などの変換ルールでローマ字化する方法もある。以上の文字種毎の展開の後、最初に文字種によって分
割した文字列の順序に従って展開した文字列を組み合せ
て、異表記展開の最終出力とする。以上異表記展開処理をまとめると、（１）漢字及びひらがな文字列に関する異表記展開（送
りがな、新旧字体）、（２）カタカナ文字列に関する異表記展開、（３）ローマ字文字列に関する異表記展開（ヘボン式、
訓令式表記）、（４）アルファベット文字に関する異表記展開（大小文
字）がある。しかし、常時これらの異表記展開をする必要が
ない場合もある。この場合、使用する変換ルールテーブ
ルの種類をユーザが選択できる手段を合わせ持つことに
よって、むだな展開処理を省き、かつユーザの望む検索
処理が可能となる。次に本発明におけるもう一つの重要な手段である同義
語展開について説明する。同義語展開では、入力文字列
を同義語辞書を用いて次の４種類の展開を行う。（１）同位語展開概念的に同位の語彙への展開例：“計算機”から“コンピュータ”、 “情報処理装置”に展開する。（２）上位語展開上位の意味を持つ語彙への展開例：“計算機”から“電子機器”に展開する。（３）下位語展開下位の意味を持つ語彙への展開例：“計算機”から“電子卓上計算機”に展開する。（４）関連語展開関連した意味を持つ語彙への展開例：“計算機”から “オフィスオートメイション”に展開する。また、同義語展開でも異表記展開と同様に上記４種類
の語彙への展開を選択する手段を持つことによって、よ
り柔軟なユーザの望み通りの検索が可能となる。

【作用】

以上の手段によってユーザの入力する検索文字列をま
ず最初に異表記展開し、異表記展開した文字列群の中の
各々の文字列を一つずつ同義語展開し、さらに同義語展
開して得られた新しい文字列に対して異表記展開を行
う。このように異表記展開を同義語展開の前で行なうこと
により、表記の標準化による情報の欠落を避け、常に期
待する展開結果を得ることができる。また、同義語辞書内での表記も統一化する必要がな
く、辞書の作成と保守を簡易化できる。また、同義語展
開の後でも異表記展開を行うために、同義語辞書に表記
のバリエーションを色々と記述しておく必要がなく辞書
を小さくすることができる。

【実施例】

図面を用いて本発明の構成、作用を説明する。第４図は本発明の実施例の構成を示すブロック図であ
る。本実施例は、コンソール400、対話制御部401、異表
記展開処理部402及び405、同義語展開処理部403、同義
語辞書ファイル404、文字列統合処理部406、文字列検索
処理部407、テキストデータベース408から構成されてい
る。コンソール400から入力された検索文字列40は、対
話制御部401を介して異表記展開処理部402へ送られる。
異表記展開処理部402で展開した文字列群41は、同義語
展開処理部403へ送られると共に、文字列統合処理部406
へも送られる。同義語展開処理部403では、同義語辞書4
04を参照し送られてきた文字列群41の各文字列と辞書の
見出しとのマッチングをとり、一致した文字列が存在す
れば、同義語展開モード制御信号410に従い、辞書に記
載してある見出しに対応する言葉を出力し、異表記展開
処理部405へ文字列群42を送る。異表記展開処理部405で
は、同義語展開された文字列42に対し、異表記展開処理
部403と全く同じ処理方法で異表記展開して、文字列群4
3を文字列統合処理部406へ出力する。文字列統合処理部
406は、異表記展開処理部402と405から受け取った文字
列群41と文字列群43を、一つの文字列群44にまとめて文
字列検索部407へ出力する。文字列検索部407は、受け取
った文字列群44のうちのいずれかの文字列が存在するも
のをテキストOBから検索して、ヒットした文書の識別子
情報などを、対話制御部401へ検索結果45として出力す
る。対話制御部401は、この検索結果45を受けて、検索
結果件数46や、テキスト情報46を適宜コンソール400へ
出力する。異表記展開処理部402と405は、全く同一のものであ
る。文字列検索部407は公知の技術で、例えば特開昭63
−311530を用いて実現できる。テキストDB408は、文字
コード情報であれば、新聞記事データでも、ワープロで
作成した文書のデータでも、電子ファイリングシステム
の書誌事項データでも構わない。以下、異表記展開処理部402、405と同義語展開処理部
403の構成作用について詳細に説明する。まず、異表記展開処理の概要を第５図を用いて説明す
る。ここでは、最初に入力文字列501を異なる字種の間
で切断し、部分文字列へ分割する。例えば、入力文字列
501 “卓上型インタフォーン” の場合には、漢字文字列502 “卓上型” と、カタカナ文字列503 “インタフォーン” へ文字種に従って分割する。次に、分割した文字列毎に
異表記展開を行ない、漢字異表記文字列リスト504、カ
タカナ異表記文字列リスト505を得る。その後、漢字異
表記文字列リスト504及びカタカナ異表記文字列リスト5
05をそれぞれ展開し、２つの文字種で別々に展開した文
字列群を１つに組み合せて最終結果506として出力す
る。次に、第６図を用いて異表記展開の処理内容を詳細に
説明する。第６図は本発明における異表記展開手段の実
施例を示すブロック図である。本実施例の構成は、文字
種分割・選別部601、ローマ字判別部602、ローマ字カナ
変換部603、漢字異表記展開部604、カタカナ異表記展開
部605、アルファベット異表記展開部606、カナローマ字
変換部607、分割文字列統合部610よりなる。異表記展開処理部402あるいは405への入力文字列620
は、まず文字種分割・選別部601へ送られる。文字種分
割・選別部601では入力文字列620を、上述したように漢
字及びひらがな文字列631、カタカナ文字列632、アルフ
ァベット文字列633、それ以外の文字列630の４種類の部
分文字列に分割する。分割した部分文字列をそれぞれの
文字種に従って分類し、別々の展開処理を施す。以下文
字種別に、その展開処理の概要を示す。（１）漢字・ひらがな・カタカナ・アルファベット以外
の文字列この文字種には数字、記号、特殊文字あるいは外字コ
ード等が当たる。本実施例ではこれらの文字種を、展開
せずに入力した文字列630をそのまま分割文字列統合部6
10へ出力している。しかし数字に関して英数字を漢数字
に変換したり、英記号に関して記号“・”を“−”や
“/"に展開することなども考えられる。（２）漢字・ひらがな文字列これらの文字種に関しては、文字列631を漢字異表記
展開部604にて、漢字の新旧字体及び送りがなについて
の異表記展開をする。漢字異表記展開部604の出力文字
列641は、分割文字列統合部610へ送られる。（３）カタカナ文字列この文字種に関しては、文字列632をカタカナ異表記
展開部605にて、類似音節の表記について異表記展開を
行う。展開した文字列642は、分割文字列統合部610へ送
られる。また、同時にカナローマ字変換部607へも送ら
れる。カナローマ字変換部607でローマ字へ変換された
文字列653は、アルファベット異表記展開部606にて、ア
ルファベットの大小文字に関する異表記展開が行なわ
れ、文字列643として分割文字列統合部610へ送られる。（４）アルファベット文字列この文字種に関しては、日本語のローマ字表現の場合
と、外国語の原語の場合の２つの場合がある。ここでは、まずローマ字判別部602で、文字列633がロ
ーマ字か外国語かの判定をする。この判定基準には、ロ
ーマ字の表記法を用いている。すなわち、アルファベッ
ト文字の並びがローマ字の表記法に合っていればローマ
字と判定し、ローマ字として解釈不能の場合は外国語と
判定する。この判定は、ローマ字カナ変換部603で兼ね
ることもできる。すなわち、ローマ字カナ変換ができれ
ば、ローマ字と判定し、そうでない場合に外国語と判定
する。また、この判定には本実施例の方法以外にも、外
国語辞書を使うといった方法も用いることが可能であ
る。ローマ字判別部602でローマ字と判定した文字列651
は、ローマ字カナ変換部603に送られ、ここでカタカナ
文字列652に変換され、これを更にカタカナ異表記展開
部605で、類似音節に関する異表記展開を行い文字列群6
42を得る。文字列群642に対するこの後の処理は、
（３）のカタカナ文字列の処理と同じである。すなわ
ち、カタカナ異表記展開された文字列群642は、分割文
字列統合部610へ送られると共に、カナローマ字変換部6
07へも送り出される。カタカナ文字列群642は、カナロ
ーマ字変換部607で各々ローマ字へ変換され、ローマ字
文字列群653としてアルファベット異表記展開部606に送
られる。該ローマ字文字列群653は、アルファベット異
表記展開部606でアルファベットの大小文字に関する異
表記展開を施された後、分割文字列統合部610へ送られ
る。一方、ローマ字判別部602で外国語と判定された文字
列634は、ローマ字カナ変換せずに、アルファベット異
表記展開部606へ送られ、その出力文字列643は分割文字
列統合部610へ送られる。以上、異表記展開処理の流れについて説明した。続い
て、この異表記展開処理における各処理ブロックの詳細
について説明する。まず始めにカタカナ異表記展開部605の処理について
説明する。第７図は異表記展開部における処理をカタカ
ナ文字列に例にして説明した図である。ここでは、 “インタフォーン” という入力文字列を例としている。異表記展開処理は、
変換ルールを参照して行う。また、その変換処理は、入
力文字列中の部分文字列として変換対象となり得るもの
があれば、該変換ルールを参照して他の表記に置き換え
るものである。この変換ルールのテーブル形式も本図に
示されている。この変換ルールテーブルは、見出し部と
展開文字列リスト部から構成されている。入力文字列中
に、変換ルールテーブルの見出し部分に相当するものが
存在すれば、該当部分を展開文字列リスト部に記述され
た異表記文字列群で順次置き換えていく。この見出し文字列の探索は、入力文字列の先頭から最
長一致法により行なう。すなわち本図に示したように、
入力文字列中の “フォー” という部分文字列と “フォ” という部分文字列の両方が見出しにある場合には、より
長い見出しの “フォー” のほうの変換ルールを適用する。第７図の例を用いて、この見出し文字列探索及び展開
文字列リストへの置き換え処理を説明する。見出し文字
列探索において、入力文字列中の部分文字列と見出し文
字列との照合のため、探索ポインタを設定する。入力文
字列と見出し文字列の照合時には、探索ポインタの位置
を動かしながら、入力文字列中の探索ポインタを先頭と
する文字列と、見出し文字列との照合を行なっていく。
まず探索ポインタを入力文字列の先頭文字にセットす
る。従って、この例では文字“イ”から見出し文字列の
探索を開始することになる。該当する見出しが存在しな
いので、探索ポインタを１文字移動して“ン”を先頭と
する文字列からもう一度見出し文字列を探索する。また
該当する見出しが存在しないので、もう１文字探索ポイ
ンタを移動して“タ”の文字から見出し文字列を探索す
る。今度は “タ” の見出し文字列が見つかるので、 “タ” の部分を展開文字列リスト部に記述された “タ”と“ター” に置き換える。そして探索ポインタを見出し “タ” の文字数分、すなわち１文字分移動する。次に“フ”の
文字から見出し文字列探索し、該当する見出し “フォー”と“フォ” を得る。今度は２つの見出し文字列が照合するが、この
ように複数個の照合した見出し文字列がある場合、最長
一致法に従い、最も長い見出し文字列のある変換ルール
を採用する。この例では、見出し “フォー” のほうが “フォ” より長いので、 “フォー” を展開用変換ルールとして採用し、入力文字列内の部分
文字列 “フォー” を展開文字列リスト部に記述された “フォー”、“フォ”、“ホー”及び“ホ” に置き換える。そして探索ポインタを見出し “フォー” の文字数分、すなわち３文字分移動する。最後に入力文
字列中の最終文字、“ン”から見出し探索を行なうこと
になるが、該当する見出しがないので文字“ン”は、展
開処理が施されずそのままとなる。こうして探索ポイン
タが入力文字列の最終位置に来たので処理を終了する。以上の処理の結果として生成された展開リストを含む
文字列 “イン（タ，ター）（フォー，フォ，ホー，ホ）ン” の展開リストを組み合せることによって最終的な異表記
展開文字列が得られる。この例では、 “タ”の部分で２通り、 “フォー”の部分で４通りに展開するので展開結果は２×４の８通りの文字列、す
なわち１）“インタフォーン” ２）“インタフォン” ３）“インタホーン” ４）“インタホン” ５）“インターフォーン” ６）“インターフォン” ７）“インターホーン” ８）“インターホン” となる。以上の見出し文字列探索と展開文字列リストへの置き
換え処理を第８図に示すPAD図で説明する。まず探索ポ
インタを入力文字列の先頭にセットする。次に現在の探
索ポインタを先頭とする文字列で、変換ルールの見出し
文字列があるかどうかを探索する。もしもマッチングす
る見出しがなければ、探索ポインタを１文字後方に移動
してから、再び探索ポインタを先頭とする文字列でマッ
チングする見出し文字列を探索する。マッチングする見
出しが存在する場合には、マッチングした見出しのうち
最も長い見出しを採用して、該当部分を展開文字列リス
トで置き換える。置き換えがすんだら探索ポインタをマ
ッチングした見出し文字列の文字数分後方に移動する。
そして、探索ポインタが入力文字列の最終位置に来るま
で、上記の見出し文字列探索と展開リストへの置き換え
処理を繰り返す。いままで説明してきた異表記展開における見出し文字
列の探索方法に関するもう一つの実施例について第９図
を用いて説明する。本実施例では、見出し文字列の探索
にオートマトンを用いている。以下、その手順について
述べる。まず変換ルールにより、図に示すようなオート
マトンを生成する。異表記展開処理は、このオートマト
ンに入力文字列を１文字ずつ入力して、そのオートマト
ンの動作出力から第７図で説明した展開文字列リストを
含む文字列を得る。以下、具体的にその動作内容について説明する。本図
において記号ａは入力文字を、丸はオートマトンを構成
する各状態を、丸の中の数字はその状態番号を示す。線
上の文字は、その文字が入力されたとき、矢印の方向へ
状態を遷移することを示す。記号 ‘’は、その後に続く文字以外の文字を表す。また、
記号‘→’は、以下に続く文字列を出力することを示
す。このオートマトンは、その動作を制御するための状
態遷移テーブルと、各状態の出力を記述する出力テーブ
ルからなる。状態遷移テーブルは、第10図に示すものと
なる。ここでは、各状態における入力文字とその文字が
入力されれたときに遷移する遷移先の状態番号が対とし
て記述されている。但し状態０へ遷移する場合は記述を
省略してある。すなわち、各状態において状態遷移テー
ブルに記述されていない文字が入力した場合には、状態
０へ遷移するものとしている。出力テーブルには第11図
に示すように、オートマトンの各状態において、出力す
る文字列リストが記述されている。オートマトンが動作
する場合、状態０以外の状態から状態０へ遷移する場合
のみ、この出力テーブルを参照して該当する展開文字列
を出力する。そして出力がすんだら、もう一度０への遷
移を引き起こした文字をオートマトンへ入力し、状態遷
移テーブルを参照してオートマトンを再遷移させる。状
態０から状態０へ戻る場合には、入力文字をそのまま出
力する。以上、オートマトン方式における状態遷移の制御及び
出力について説明した。次に、具体例をもとに、この動
作を詳細に説明する。以下、第９図の入力例“インタフ
ォーン”の文字列が１文字入力される毎の動作について
記述する。最初、オートマトンの状態は、状態０にあ
る。（１）文字“イ”が入力されると状態遷移テーブルに状態０からの遷移先が登録されて
いないので、そのまま “イ” が出力され状態は０のままとなる。（２）文字“ン”が入力されると状態遷移テーブルに状態０からの遷移先が登録されて
いないので、そのまま “ン” が出力され状態は０のままとなる。（３）文字“タ”が入力されると状態遷移テーブルを参照し、現在の状態０から遷移先
として状態番号６が読み出され、状態は６に移る。（４）文字“フ”が入力されると状態遷移テーブルからは状態６から“フ”で遷移する
遷移先が得られない。かつ現在の状態は０でないので、
出力テーブルが参照され状態６での出力文字列 “タ”と“ター” が出力される。その後、状態は０に移動する。さらに、
この新しい状態０でもう一度入力文字の“フ”をオート
マトンに入力する。その結果、状態遷移テーブルの内容
に従って状態０から状態１に状態が移動する。（５）文字“オ”が入力されると状態遷移テーブルの内容から、状態１より状態２へ状
態が移動する。（６）文字“ー”が入力されると状態遷移テーブルの内容から、状態２より状態３へ状
態が移動する。（７）文字“ン”が入力されると状態遷移テーブルからは状態３から“ン”で遷移する
遷移先状態番号が得られない。かつ現在の状態は状態０
でないので、出力テーブルが参照され、状態３での出力
文字列 “フォー”、“フォ”、“ホー”及び“ホ” が出力される。その後、状態が０に移り、もう一度入力
文字の“ン”がオートマトンに入力される。ここでは、
状態遷移テーブルから遷移先が得られないので入力文字
の “ン” がそのまま出力される。８）入力文字列の最終文字まで来たので、処理を終了す
る。こうして展開リストを含む文字列 “イン（タ，ター）（フォー，フォ，ホー，ホ）ン” が得られる。次に、この見出し文字列探索用オートマトンの生成方
式を第12図を用いて説明する。このオードマトン生成
は、実際に入力文字列が送られてくる前に一度作ってお
けば良い。本図は探索オートマトンの生成方式、すなわ
ち状態遷移テーブル及び出力テーブルの作成方式をPAD
図で表したもので、以下この内容について説明する。ま
ず状態遷移テーブル及び出力テーブルを初期化する。次
に、一つずつルールを取り出しながら変換ルールの終わ
りまで以下の処理を繰り返す。（１）状態番号を０にセット（２）見出し文字列の終わりまで１文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく。すなわち状
態遷移テーブルを参照し、取り出した文字による遷移先
が登録されていれば遷移先状態に移動する。遷移先が登
録されていなければ、新しい状態番号を生成し、状態遷
移テーブルに追加登録する。そして、今の状態を新しい
状態に移動する。さらに出力テーブルに状態０から今の
状態へ遷移させてきた文字列を登録する。（３）見出し文字列の全文字について（２）の処理が終
了した後、出力テーブルに現在の状態番号と、変換ルー
ルの展開文字列リストを登録する。具体的な処理の流れを２つの変換ルール［“フォー”→ （“フォー",“フォ",“ホー",“ホ”）］と［“フォ”→ （“フォー",“フォ",“ホー",“ホ”）］を使って説明する。まず１番目の変換ルールの見出し文字列 “フォー” について処理する。（１）文字“フ”の入力状態遷移テーブルは最初初期化されているため、遷移
先状態番号は一つも登録されていない。従って新しい状
態番号１を生成し、状態を１に移動する。そして、出力
テーブルに状態０から状態１への遷移を引き起こす文字
列 “フ” を状態番号１の出力として登録する。（２）文字“オ”の入力状態遷移テーブルに今の状態１からの遷移先は定義さ
れていない。従って新しい状態番号２を生成し、状態を
２に移動する。そして出力テーブルに状態０から状態２
に至るまでの文字列 “フォ” を状態番号２の出力として登録する。（３）文字“ー”の入力状態遷移テーブルに今の状態２からの遷移先は定義さ
れていない。従って新しい状態番号３を生成し、状態を
３に移動する。そして出力テーブルに状態０から状態３
に至るまでの文字列 “フォー” を状態番号３の出力として登録する。また、これで見出
し文字列の最終文字であるので、変換ルールの展開文字
列リスト（“フォー",“フォ",“ホー",“ホ”）を、先に登録した出力文字列 “フォー” を入れ替える形で、状態３の出力として出力テーブルに
登録する。次に２番目の変換ルールの見出し文字列 “フォ” についての処理を実行する。処理に先立ち、状態は０に
戻る。（４）文字“フ”の入力先に登録した状態遷移テーブルを参照して、遷移先の
状態番号１を得、状態を１に移動する。（５）文字“オ”の入力状態遷移テーブルを参照して、遷移先の状態番号２を
得、状態を２へ移動する。出力テーブルに状態２の出力
は既に登録されているが、見出し文字列の最終であるの
で、出力テーブルに状態２の出力として既に登録されて
いる。 “フォ” を、変換ルールの展開文字列リスト（“フォー",“フォ",“ホー",“ホ”）に書き替える。以上の処理により、上記二つの変換ルールを探索する
オートマトンを作成することができる。具体例で示した
２つの変換ルール以外についても、これと全く同様の手
順でオートマトンにすることができる。以上、例で説明してきたカタカナ異表記展開用の変換
ルールテーブルの詳細を第13図に示す。この他、変換ル
ールテーブルの作成には、カタカナ文字列の類似音節表
記に関してその表記の原則を定めた「昭和29年国語審議
会報告外来語の表記」を利用することができる。すな
わち上記報告書ではカタカナ文字列の異表記が示され、
その表記を統一化するための原則が述べられているが、
これを逆に利用して変換ルールを作成することができ
る。今までカタカナ文字列の異表記展開について例をあげ
て説明してきたが、漢字文字列の異表記展開について
も、漢字文字列用の変換ルールテーブルを用いるだけで
全く同じ処理で実現できる。漢字の新旧字体に関する異
表記展開用の変換ルールテーブルの例を第14図に示し、
送りがなに関する異表記展開ルールの例を第15図に示
す。また、第13図から第15図に示した異表記展開ルールテ
ーブルは、必要に応じて追加修正が可能であり、従って
ユーザの望む異表記展開が可能となる。以上が漢字異表記展開部604、カタカナ異表記展開部6
05の処理の詳細である。次にローマ字の異表記展開に関する説明をする。本実
施例では、ローマ字の異表記展開をするのに、ローマ字
で入力された文字列を一旦カタカナ文字列へ変換した
後、これをカタカナ異表記展開し、もう一度カナローマ
字変換によりローマ字に戻すという方法を採っている。
従って、ローマ字の異表記展開に関する部分は、第６図
のローマ字カナ変換部603とカナローマ字変換部607の２
つとなる。まずローマ字カナ変換部の処理内容について説明す
る。アルファベット文字列が入力されると、まずローマ
字カナ変換が行われる。ローマ字カナ変換部603では、
第16図に示すようなローマ字とカタカナの対応表を用い
て、ローマ字カナ変換が行われる。同図において、例え
ば１番目のレコードではローマ字の“A"がカタカナの“ア” に対応することを示している。ローマ字の項目中に複数
個の文字列が並んでいるレコードに関しては、複数個並
んでいる全ての文字列がカタカナの項目に対応している
ことを示している。例えば、ローマ字の “SYA"及び“SHA" が、カタカナの “シャ” に対応する。これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している。従って、このロ
ーマ字カナ変換部603では訓令式でもヘボン式でもある
いはこれらの混合したような表記法の文字列でもカタカ
ナへ変換されることになる。変換方法は、前述した漢字
異表記展開、カタカナ異表記展開と同様である。すなわ
ち、入力文字列と対応表のローマ字文字列を最長一致で
探索して、順次対応するカタカナ文字列に置き換えてい
く。もし、対応するローマ字文字列が対応表に見つから
ないときには、入力文字列はローマ字でないと判断し、
カタカナ文字列の出力を行わない。次にカナローマ字変換部607の説明をする。ここでも
第16図の対応表をそのまま用いる。こんどは逆に入力文
字列と対応表のカタカナ文字列とを最長一致でマッチン
グを取りながら順次ローマ字へ入力文字列を置き換えて
いく。前述の “シャ” の例のように対応するローマ字表記が複数個存在すると
きには、該当部分を部分文字列のリストとして置き換え
ていく。すなわち、カタカナの入力文字列に対し、異表
記展開の処理と同様に展開リストを含む文字列に展開
し、その展開リストの部分を組み合せることによってロ
ーマ字異表記展開の結果を得ることができる。これを “シシャモ” というカタカナ文字列が入力された場合を例にして説明
する。この時、入力文字列 “シシャモ” に対してカタカナローマ字対応表とのマッチング処理に
より、 “（SI,SHI）（SYA,SHA）MO" という展開リストを含む文字列が得られる。従って、展
開リストの組み合せにより、１）“SISYAMO" ２）“SISHAMO" ３）“SHISYAMO" ４）“SHISHAMO" という４種類のローマ字異表記文字列が得られることに
なる。以上が異表記展開方式の処理に関する説明である。これまで、説明してきた異表記展開の実施例において
は、漢字ひらがな文字列、カタカナ文字列、ローマ字文
字列、及びアルファベット文字列の全てについて展開処
理を行っているが、これらの処理を選択的に行うことも
可能である。すなわち、異表記展開後の出力文字列の種
類を、１）漢字ひらがな文字列２）カタカナ文字列３）ローマ字文字列４）アルファベット文字列のいずれかもしくは、これらの混合した文字列を異表記
展開結果として出力するように制御することができる。
こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き、かつユーザの要求に応
じた検索処理が可能となる。以下、この異表記展開結果の文字種制御方法について
説明する。この出力文字種の制御は第17図に示すように、第６図
の実施例の構成に更にアルファベット文字列634の出力
制御を行うスイッチa608、及びカタカナ文字列群642の
出力制御を行うスイッチb609を設けることで実現する。
また、漢字異表記展開部604、カタカナ異表記展開部60
5、カナローマ字変換部607、スイッチa608、及びスイッ
チb609の出力を制御する制御信号線661、662、663、66
4、665をそれぞれ設ける。そして、ユーザが設定する異
表記展開結果出力文字種の指定モードにより該制御信号
をON、OFFすることでモードに応じた異表記展開を実現
する。例えば、ローマ字異表記展開が不要な場合にはカ
ナローマ字変換部607の制御信号663をOFFして出力を止
める。このような展開モードによる各変換部、展開部、
スイッチの制御信号の組み合せを第18図に示す。図にお
いて、展開モードはそれぞれ c:漢字及びひらがな異表記展開 k:カタカナ異表記展開 r:ローマ字異表記展開 a:アルファベット異表記展開を実施し、出力することを示している。複数文字では複
数の異表記の出力指定を表す。例えば、展開モード ‘cka' は漢字ひらがな、カタカナ及びアルファベットの各異表
記を異表記展開結果として出力するモードであることを
表す。また、表中の○は該当モジュールが文字列を出力
することを示す。逆に○がついていないところは、文字
列を出力しない。例えば、 ‘cka' という文字列展開モードでは、ローマ字カナ変換部60
3、漢字異表記展開部604、カタカナ異表記展開部605が
展開文字列を出力し、スイッチa608、及びスイッチb609
が入力文字列を通すが、カナローマ字変換部607は文字
列を出力しないことを示す。最後に同義語展開処理について説明する。同義語展開処理部403は、第19図に示すような同義語
辞書を持つ。図において、レコード番号とは、辞書中の
各見出し文字列に付与されている一連番号である。各見
出し文字列には、それぞれ同位語、上位語、下位語、関
連語が定義されている。同図の同位語、上位語、下位
語、関連語の項目に記述されている番号は全て同辞書の
レコード番号を示す。例えば見出し “計算機” は、同位語としてレコード番号２および３、すなわち “コンピュータ”と“情報処理装置” を持っていることを表している。同義語展開では辞書中
のどの項目を用いて展開するか、同義語展開モード制御
信号410によりユーザがモードを設定できるようにして
いる。設定可能なモードは次の通りである。すなわち、 u:同位語を使った展開 b:上位語を使った展開 n:下位語を使った展開 r:関連語を使った展開およびu,b,n,rの各モードを組み合せた展開ができるよ
うにしている。同義語展開の処理は、同義語展開部への入力文字列中
に存在する辞書の見出し文字列を探索することによって
行う。すなわち、異表記展開処理における変換ルールの
見出し文字列の探索の場合と同様に、入力文字例の先頭
から最長一致により見出し文字列を探索する。そして、
同位語展開の場合には入力文字列において照合された部
分文字列を、順次同位語文字列のリストで置き換えてい
く。この際、照合した見出し文字列をも加えて書き替え
を行う。上位語展開、下位語展開、関連語展開の場合に
は、入力文字列と見出し文字列が完全に一致した時に限
って、上述の置き換え出力を行う。すなわち、入力文字
列中で部分的に一致しただけでは、展開を行わない。こ
れは、上位語展開、下位語展開、関連語展開において部
分的な文字列の置き換えは意味のない単語を作ってしま
うためである。同位語展開の処理を例を用いて説明する。入力文字列が “大型計算機” とすると、同義語辞書の見出し文字列探索を行うことに
より、入力文字列の３文字目から見出し文字列 “計算機” が照合する。同義語辞書のレコード番号１の “計算機” から、同位語としてレコード番号２の “コンピュータ” とレコード番号３の “情報処理装置” が同位語リスト（“計算機",“コンピュータ", “情報処理装置”）として得られる。入力文字列の該当部分をこのリストで
置き換えることにより、異表記展開処理の場合と同様
に、展開リストを含む文字列 “大型（計算機，コンピュータ，情報処理装置）” が得られる。この展開リストを組み合せて（この場合は
一つしかリストがないが）（１）“大型計算機” （２）“大型コンピュータ” （３）“大型情報処理装置” の３つの同位語文字列が得られることになる。次に上位語展開の処理について例をあげて説明する。入力文字列が “計算機” の場合、同義語辞書の見出し文字列探索で入力文字列と
見出し文字列 “計算機” が完全一致する。そこで、上位語としてレコード番号４
の “電子機器” が出力される。この場合には上位語が一つしかないが、
もちろん複数個あってもよい。複数個の上位語が存在す
る場合には、前述のようにリストとして出力する。下位語、関連語についても上位語展開を全く同じ処理
となる。なお、同義語展開において辞書中に該当する文
字列が存在しないときは同義語展開処理部403から、何
も文字列が出力されない。以上同義語展開の処理方式の実施例について説明し
た。ところで同義語展開では、辞書を使用するために辞
書のレコード数が多くなると見出し文字列探索に時間が
掛ることがある。この問題の解決として、辞書の見出し
文字列をインデクステーブルを用いて探索する方法があ
る。第20図にこの方式の概要を示す。同義語辞書は、予
めその見出し文字列にてアルファベット順に並べてお
く。そして、同義語辞書とは別に見出し文字列の第一番
目の文字だけを集め、その文字から始まる見出しが辞書
のどの部分から始まるかを登録したインデクステーブル
を持つ。例えば文字“A"で始まる見出しはレコード番号
１から存在していることを示している。見出し文字列探
索をするときには、まずこのインデクステーブルを参照
し、レコード番号を求め、次にこれに基づいて同義語辞
書にアクセスする。こうすることにより、同義語辞書の
全見出し文字列をスキャンする必要がなくなるため、処
理時間が短縮できる。例えば、文字“計”で始まる文字
列を探索しようとした場合、インデクステーブルによ
り、“計”で始まる文字列が辞書のレコード番号501か
ら存在することがわかる。従って、それ以前の無駄な文
字列探索を省くことができる。さらに、見出し文字列を
アルファベット順に並べることにより、見出し文字列の
探索中に先頭文字の異なる見出しまで探索したら後の探
索は省略できる。例えば“計”で始まる見出し文字列を
探索していれば、“計”以外の文字で始まる見出し “情報処理装置” まで探索すれば後の不要な探索を行わなくとも済む。また、インデクステーブル及び辞書中の同位語などの
記述にレコード番号を用いたが、これを辞書中での位置
を特定するアドレスで記述することにより、辞書へのア
クセスを更に高速化できる。アドレスとは、辞書の該当
する見出し文字列が存在する最初の位置を示すもので、
例えば辞書の先頭からのバイト数がある。こうすること
により、辞書へのアクセスが直に特定できるため、レコ
ード番号を指定するよりも更に高速化が可能となる。

【発明の効果】

本発明の効果を以下に個条書きに示す。１）異表記展開部に漢字ひらがな混じりの文字種で構成
される文字列の展開手段を設けたことにより、漢字の新
旧字体や送りがなに関する異表記を許容する文字列探索
が可能となった。２）表現を一旦カタカナに統一せずに、一度異表記展開
してから同義語展開するために、同義語辞書をカタカナ
文字列に統一する必要がなくなった。また、むりなカタ
カナ文字列の標準化処理がないために、同義語辞書の見
出し文字列に自然な言葉を使うことができるようになっ
た。さらに、同義語辞書の見出しには漢字やアルファベ
ットなどの各種の表現による文字列を使用できるように
なり、かつ表記に関しても異表記に配慮する必要がない
ので、辞書の作成、保守が容易になった。３）外国語カナ変換辞書や、同義語展開した後のカナ漢
字変換辞書およびカナ外国語変換辞書が不要になるため
に、多種類の大規模な辞書を保守する必要がなくなり、
辞書の作成、保守が容易になった。４）同義語辞書展開した後にも異表記展開することによ
り、同義語展開により新しく得られた文字列についても
異表記を得ることができるようになった。５）異表記展開における変換ルールは、置き換え部分文
字列の併記という形態をとるため、変換ルールの登録、
変更、削除が容易となった。同様に同義語辞書について
も、容易に編集が可能となった。６）展開モードを設定可能として、異表記展開処理部で
出力文字種を制御し、同義語展開処理部で展開語彙を制
御することにより、ユーザの求める柔軟な検索処理が可
能となった。７）同義語辞書に同位語、上位語、下位語、関連語を併
記する形態をとったために、辞書の編集が容易となっ
た。

【図面の簡単な説明】

第１図は本発明の構成を示すブロック図、第２図は公知
例の構成を示すブロック図、第３図は本発明の処理の概
略を説明した図、第４図は本発明の実施例の構成を示す
ブロック図、第５図は異表記展開処理の過程を例により
説明した図、第６図は本発明における異表記展開手段の
実施例を示すブロック図、第７図は異表記展開処理部に
おける変換ルールの適用の処理をカタカナ文字列の例で
説明した図、第８図は異表記展開処理を示すPAD図、第
９図は見出し文字列探索をオートマトンを用いて実行す
る実施例を説明する図、第10図はオートマトンの状態遷
移テーブルを表す図、第11図はオートマトンの出力テー
ブルを表す図、第12図は探索オートマトンの状態遷移テ
ーブル及び出力テーブルの作成方式を表したPAD図、第1
3図はカタカナの異表記変換ルールテーブルの例、第14
図は漢字の新旧字体に関する異表記変換ルールテーブル
の例、第15図は送りがなに関する異表記変換ルールテー
ブルの例、第16図はローマ字とカタカナの対応表の例、
第17図は本発明における異表記展開手段の展開モードを
設定可能とする実施例のブロック図、第18図は異表記展
開における各変換部、展開部、スイッチの出力を制御す
る様子を示す図、第19図は同義語辞書を表す図、第20図
は同義語辞書の見出し文字列のインデクステーブルを用
いて探索する方式の概要を示す図。

フロントページの続き (72)発明者川口久光東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者藤縄雅章東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者増崎秀文神奈川県小田原市国府津2880番地株式会社日立製作所小田原工場内 (56)参考文献特開昭62−11932（ＪＰ，Ａ) 伍井外３名「カタカナ異表記処理」、情報処理学会第38回（昭和64年前期）全国大会講演論文集（Ｉ）Ｐ351−352 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30 ＪＩＣＳＴ科学技術文献ファイル

Claims

(57)【特許請求の範囲】

【請求項１】情報を文字コードとして格納するデータベ
ースと、キーワードに対応する文字コードを入力し、前
記入力されたキーワードに対応する文字コードを有する
情報を前記データベースから検索する計算機を備えた文
字列検索装置において、予め単語を構成する部分文字列単位で異表記を発生させ
る規則を記憶しておき、前記規則に従って、前記入力さ
れたキーワードを構成する部分文字列の異表記を発生さ
せることにより、前記キーワード自体から１以上の第１
の異表記に展開させる第１の異表記展開手段と、前記第１の異表記を同義語辞書を用いて１以上の同義語
に展開する同義語展開手段とを有し、前記同義語展開手段で展開された同義語から１以上の第
２の異表記を展開する第２の異表記展開手段とを有し、前記計算機は、前記第２の異表記および入力されたキー
ワードに対応する文字コードのうちいずれかを有する情
報を検索することを特徴とする文字列検索装置。
【請求項２】特許請求の範囲第１項に記載の文字列検索
装置において、前記同義語展開手段は、前記第１の異表記を（１）前記
第１の異表記と概念的に同位の語彙への展開、（２）前
記第１の異表記と概念的に上位の語彙への展開、（３）
前記第１の異表記と概念的に下位の語彙への展開、
（４）前記第１の異表記と関連する語彙への展開のうち
少なくとも１つを行うことを特徴とする文字列検索装
置。