JPH1027183A

JPH1027183A - データ登録方法および装置

Info

Publication number: JPH1027183A
Application number: JP9093439A
Authority: JP
Inventors: Kanji Kato; 寛次加藤; Hiromichi Fujisawa; 浩道藤澤; Mitsuo Oyama; 光男大山; Hisamitsu Kawaguchi; 川口　　久光; Atsushi Hatakeyama; 敦畠山; Noriyuki Kaneoka; 則幸兼岡; Mitsuru Akisawa; 充秋沢
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-04-11
Filing date: 1997-04-11
Publication date: 1998-01-27

Abstract

(57)【要約】【課題】高速なフルテキストサーチ（全文検索）を行う
ためのデータ登録方法および装置を提供することを目的
とする。【解決手段】検索対象である本文（１６０４）を登録す
る（１６０１）と共に、本文中に繰り返し現れる単語の
重複を排除した凝縮本文（１６０５）および予め定めた
各文字が本文に含まれるか否かを示す文字成分表（１６
０３）のうち少なくとも一方を作成し（１６０２、１６
０３）、登録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、データ検索シス
テムにおいて、全文検索を可能とするデータ（文書）登
録方法および装置に関する。また、特に統制されていな
いキーワード（自由語と呼ぶ）を用いて検索する際に同
義語や表記法の違いによる検索もれをなくすことを可能
にする検索のためのデータ（文書）登録方法および装置
に関する。また、この発明においては、被検索文字列中
に複数の文字列集合が存在するか否かを一括して判定す
るのに適した情報検索システムのための情報登録方法及
び装置に関する。

【０００２】さらにこの発明は、上記の情報検索システ
ムを実施する装置に適した記憶容量が大きく、短時間の
書き込み、読み出しが可能な集合型磁気ディスク装置、
並びに、複数件のファイルの連続書き込み、読み出しに
適した集合型磁気ディスク装置に関する。

【０００３】

【従来の技術】近年、文献情報や特許情報などの２次情
報（書誌情報）のみならず、１次情報（本文）をも含む
大規模データベース・サービスの重要性が増している。
このようなデータベース（ＤＢと略すこともある）の情
報検索では、従来からキーワードや分類コードによる方
法が用いられてきている。

【０００４】キーワードは、データベースへの情報登録
時に、キーワードを付与する（インデキシングと言う）
専門家が統制語集（シソーラスと呼ぶ）から選んで付け
ている。そして、ＤＢ検索者もこのシソーラスからキー
ワードを選び出して検索を行なう方式がとられている。
しかしながら、このキーワード付与作業は、非常に煩雑
な作業を伴う。すなわち、登録すべきデータの内容を読
み、この内容を表現する適切な語彙をシソーラスから選
び出す必要がある。もしインデキシングを適切に行なわ
なければ、データベースから正しい情報が得られないこ
とになる。従って、このインデキシングにはデータの内
容に関する専門知識を持ち、かつシソーラスに登録され
ている語彙にも精通した専門家が必要になるという問題
がある。また、検索時にも同様に、シソーラスに則った
適切な語彙をキーワードとして指定しなければ、要求す
るデータを呼び出せなかったり、あるいは呼び出したデ
ータの中に不要なものが混じり込むという問題がある。

【０００５】また、このシソーラスにおいては、分類体
系自体が年月と共に変化するため、常にキーワードや分
類コードを更新しなければならないという問題も生じて
くる。

【０００６】更に、インデキシングには時間がかかるた
め、新たなデータはバッチ処理によりかなりの量をまと
めて登録することになる。そのため、検索できる情報は
常に一定期間のおくれを持つという問題もある。このよ
うなことから、ＤＢの普及に伴い、ＤＢの専門家でなく
とも、シソーラス等に拘束されることなく、簡単に自由
語（非統制語ともいう）で、データの登録、検索が行な
えるシステムが望まれてきた。

【０００７】また、データベースが大規模化するに従
い、シソーラスに記述された統制語だけではデータの内
容を十分詳細に記述できないため、キーワードで検索し
ても数十件から数百件までにしか絞り込めなくなってき
ている。この中から目的とするデータを見つけ出すため
には、それらの内容を直接読むしか方法がなく、これが
検索効率上の大きな問題となっている。

【０００８】このシソーラスの制限語を用いたインデキ
シングに基づく現状の検索方式の問題に対して、自動抄
録や自動インデキシングの試みがなされてきているが、
日本語の場合その言語的な困難性から、やはり種々の辞
書を必要とするため上記の本質的な問題の解決に至って
いない。

【０００９】このような自由語による検索の過程では、
しばしばユーザの指定するキーワードすなわち検索文字
列と、検索対象であるＤＢ中で用いられている言葉が同
一の内容を示すのにもかかわらず、表記あるいは表現が
食い違っているために検索漏れを生ずる場合がある。例
えば、“ピアノ”という言葉を“ピヤノ”と記述した
り、また“インターフェイス”という言葉を“インタフ
ェース”、“インタフェイス”あるいは“インターフェ
ース”と記述したりすることがある。このような微妙な
音節表記法のバリエーションの違いにより、所望する情
報を検索できない場合がある。

【００１０】以下、表記法の異なる文字列に展開するこ
とを異表記展開と呼び、辞書を用いて他の文字列へ展開
することを同義語展開と呼ぶ。また、表記法の異なる文
字列のことを異表記と呼ぶ。

【００１１】これらの問題に対する根本的解決方法とし
て、検索者が自由なキーワード（自由語あるいは非統制
語と呼ぶ）に基づいてデータの本文を直接参照して内容
を検索できる全文検索（フルテキストサーチと呼ぶ）シ
ステムが提案されている。

【００１２】その代表的な構成を図１に示し、以下その
内容について説明する。

【００１３】検索システム１０１はホストコンピュータ
に接続され、通信回線を介して検索要求の受信及び検索
結果の送信を行う。ホストコンピュータから検索要求１
０７が送られると、検索制御手段１０３がこれを受け付
け、解析して、文字列照合手段１０５と複合条件判定手
段１０４へこれに対応した検索制御情報１０８を送る。
また、検索制御手段１０２は記憶装置制御手段１０３を
制御して、文字列記憶手段１０６に格納されている文字
列データ（テキストデータ）１１１を文字列照合手段１
０５へ転送させる。

【００１４】文字列照合手段１０５は入力された文字列
データと、予め設定された検索文字列（キーワード）と
の照合を行い、該当する文字列を検出すると検出情報１
１０を複合条件判定手段１０４へ出力する。複合条件判
定手段１０４は検索要求中に記述された文字列間の位置
関係や共起関係などに関する複合条件に検出情報１１０
が合致するか否かを調べる。これに合致する場合には、
該当するデータデータの識別情報やデータ内容を検索結
果１０９として出力し、これをホストコンピュータへ送
り返す。

【００１５】こうした従来例の一つが、アール・エル・
ハンスキンアンドホラー：“オペレーショナルキ
ャラクタリステイックオブアハードウェアベイ
ストパターンマッチャー”，エーシーエムトラ
ンザルションオンデータベースシステムズ，第８
巻，第１号，１９８３年（R.L.Haskin and A. Hollaa
r：“Operational Characterstics of a Hardware-Base
d Pattern Matcher”，ACM Trans. on Database Syste
m, Vol.8, No.1, 1983）に記載されている。

【００１６】上述した文字列検索装置２００の要となる
文字列照合手段２１３における文字列の照合方式として
は、有限オートマトンを用いて複数の文字列を１回の走
査で検索する方法が知られている。その代表的な方式と
しては、エー．ブイ．エーホアンドエム．ジェイ．コ
ラッシック：“エフィシェントストリングマッチン
グ”，コミュニケーションズエーシーエム，第１
８巻，第６号，１９７５年，A.V. Aho and M. J. Coras
ick："Efficient String Matching" ，CACM，Vol 18，N
o.6，1975にその一例が開示されている。

【００１７】本文献には２種類のオートマトン作成方法
とオートマトンを用いた文字列照合方法が詳細に述べら
れている。以下、各々について説明する。

【００１８】まず、第１の方法（以後、従来方法１と呼
ぶ）について図２を用いて説明する。同図は、文字列デ
ータの中から、ユーザから与えられたキーワード“イン
タフェース”を検察するためのオートマトンの状態遷移
図である。ここで、円形はオートマトンの状態を、矢印
は状態遷移を表している。各矢印に付記された文字はこ
れに対応した状態遷移が起きる入力文字を示す。本図で
は“ン”以外および“イ”以外の文字といった否定を表
わす場合は否定記号“ ”を付け「｛“ン”，
“イ”｝」と表わしている。矢印４０３は状態遷移の始
まる始点状態を示している。各円形の内部に記された数
値は、同状態の状態番号を示す。二重円は“インタフェ
ース”を照合したことを示す終点の状態を表している。
本方法の特徴は入力される可能性のある全ての入力文字
に対する状態遷移をオートマシンで記述している点にあ
る。このため状態遷移の数が多くなるため、キーワード
の数が多くなるというオートマトンの作成時間が極めて
長くなるという問題がある。

【００１９】以下、同図を用いて従来方法１の文字列照
合動作について説明する。オートマトンに文字が入力さ
れた場合、どの状態において入力文字の照合を行なうべ
きかをトークンに置くことにより明らかにする。すなわ
ち、トークンとは、オートマトン内で遷移する状態の位
置を表わすマークである。まず、初期設定としてトーク
ンを始点状態である状態０に置く。この例の場合、入力
文字が“イ”であるとトークンは状態１へ移動する。も
し、ここで“イ”以外の文字が入ってきた場合はトーク
ンは状態０に移動する。一方、トークンが状態１にあっ
て入力文字が“ン”ならば、トークンは状態２に移動す
る。“イ”であれば状態１に移動する。“イ”および
“ン”以外の文字であれば状態０へ移動する。次にトー
クンが状態２にある場合、入力文字が“タ”ならば、ト
ークンは状態３に移動する。ここで、もし、“イ”が入
力されたときは、トークンは状態１へ移動する。更に、
状態３にトークンがある場合、“フェース”が入力され
ると、トークンは状態４→状態５→状態６→状態７と移
動する。状態７は２重円で記されており、ここでは“イ
ンタフェース”という文字列が照合されたことになる。

【００２０】この従来方法１では入力される可能性のあ
る全ての入力文字に対する状態遷移をオートマトンに記
述しているため、キーワードが多くなると状態遷移の数
が多くなりオートマトンの作成時間が極めて長くなると
いう問題がある。本方法を実現するハードウェアについ
ては、特開昭６０−１０５０３９号公報および特開昭６
０−１０５０４０号公報に開示されている。

【００２１】次に、第２の方法（以後、従来方法２と呼
ぶ）について説明する。この従来方法２は従来方法１と
比べオートマトン作成時間を短縮するための工夫がされ
ている。従来方法２では、従来方法１と比べオートマト
ンの作成時間３分の１と大幅に改善されており、詳細に
ついて特開昭６３−３１１５３０号公報に述べられてい
る。この従来方法２を図３と図４を用いて説明する。図
３は、図２と同様に“インタフェース”を照合する場合
のオートマトンの状態遷移図を示したものである。初期
設定として、トークンは始点状態である状態０に置かれ
る。ここで、入力文字“イ”が入力されたならばトーク
ンが置かれている状態０で照合を行ない状態１へ移動す
る。もし、状態０で“イ”以外の文字が入ってきた場合
はトークンは状態０に移動する。

【００２２】一方、トークンが状態１にあって入力文字
“ン”が入力されたならばトークンは状態２に移動す
る。トークンが状態２にあって“タ”が入力されたなら
ばトークンは状態３に移動する。ここでもしトークンが
状態３にあって同オートマトンに記述されていない
“フ”以外の文字、例えば“イ”が入力されたときは、
この従来方法２では「フェイル」したと言い、図４のフ
ェイルテーブルを参照することになる。フェイルテーブ
ルにはトークンが置かれている状態番号に対して再照合
すべきフェイル先の状態番号が格納されている。この場
合、現在の状態番号３に対応するフェイル先の値０を得
て状態０へトークンを移動する。そして、ここで該入力
文字“イ”について照合することによりトークンは状態
１へ移動させる。このような機能をフェイル機能と呼ん
でいる。更に、続けて“ンタフェース”という入力文字
列が１文字づつ入ってきた場合、トークンは状態２→状
態３→状態４→状態５→状態６→状態７と移動する。状
態７は２重円で記されており、ここでは“インタフェー
ス”という文字列が照合されたことになる。例えば、キ
ーワードとして“インタフェース”が与えられた場合、
本文中にはユーザが指定した検索タームと異なる表記
（異表記）で記述されることもある。

【００２３】本文には、“インタフェース”のように
“ー”（長音記号）の代わりに“−”（マイナス記号）
を使用したり（これを長音異表記と呼ぶ）、“インター
フェース”のように“ー”を付加したり（これを長音の
有無と呼ぶ）、“インタフェイス”のように発音の表記
の違いにより“フェー”を“フェイ”と記述したりする
（これを発音異表記と呼ぶ）。

【００２４】これらを全て検索するためには、これらの
異表記を組合せた“インタフェース”，“インターフェ
ース”，“インタフェイス”，“インターフェイス”，
“インタ−フェイス”，“インタフェ−ス”，“インタ
ーフェ−ス”，“インタ−フェ−ス”，“インタ−フェ
ース”の９語全てをキーワードとする必要がある。

【００２５】この場合の例について図５と図６を用いて
説明する。図５は、文字列データの中から、異表記を含
む上記９語を照合する場合のオートマトンの状態遷移図
である。

【００２６】キーワードの先頭から比較して遷移文字が
異なる場合は別状態に分岐する。

【００２７】例えば、“インタフェース”と“インター
フェース”のキーワードの例では、キーワードの前方か
ら比較すると“インタ”までは同じであるが、その次の
文字では“フ”と“ー”で遷移文字が異なる。このため
状態３から遷移文字“フ”で状態２２に遷移し、遷移文
字“ー”で状態４へ遷移するといった状態遷移の分岐が
起こる。

【００２８】すなわち、ある状態において遷移文字が異
なる場合別々の遷移先状態を割り付けているため木状の
オートマトンになる。図６はこのオートマトンに示され
てない文字が入力された場合の遷移先を示すフェイルテ
ーブルの説明図である。このように、異表記を含めて照
合を行なおうとすると、キーワードが多くなるため状態
数が非常に増加してしまうという問題が発生する。

【００２９】また、文字列検索ではキーワードにdon't
care文字を使用することがある。キーワードに固定長の
don't care文字を使用した例を図７と図８を用いて説明
する。図７は１文字の固定長のdon't care文字“？”を
含むキーワード“Ａ？Ｂ”を検索する場合のオートマト
ンの状態遷移図を表わしている。図８はこのオートマト
ンに示されてない文字が入力された場合の遷移先を示す
フェイルテーブルの説明図である。

【００３０】この例では１バイトの文字コード（ＪＩＳ
コードを用いている）の場合についてオートマトンを作
成している。“？”は任意の文字や記号との一致を許す
ことを意味する文字記号である。従って、don't care文
字“？”による遷移は本図の状態１を遷移元とする全て
の文字コード○○〜ＦＦによる遷移として表わされる。
すなわち“Ａ？Ｂ”は、先頭が“Ａ”で間に任意の１文
字が入り、末尾が“Ｂ”である文字列を検索するという
指定になる。

【００３１】このように簡単な検索条件でも固定長のdo
n't care文字が入るとオートマトンの状態数が非常に増
加してしまうという問題が発生する。

【００３２】また、異表記や同義語の問題を解決する方
法として、特開昭６２−０１１９３２号公報がある。な
お、この公報の中では、異表記展開のことを異表記発生
と呼び、同義語展開のことを類似語抽出と呼んでいる。

【００３３】図９に、この引例の構成をブロック図で示
す。この構成では、ローマ字やカタカナ表現で入力した
検索文字列を、一旦全てカタカナの標準化された表記の
文字列に変換する。すなわち、異表記発生の逆の操作に
より、複数個の表記法を一つにまとめる表記の標準化処
理をまず最初に行なう。また、アルファベット表現で入
力された検索文字列も外来語カナ変換により、カタカナ
表現に統一される。

【００３４】こうして、一旦標準化したカタカナ文字列
を、同義語辞書を用いて類似語展開し、入力したカタカ
ナ文字列と同義の単語をカタカナ文字列として出力す
る。類似語抽出した後のカタカナ文字列は、カナ漢字変
換を行ない漢字文字列へ、カナ外来語変換を行ないアル
ファベット表現の外国語に、カナローマ字変換を施して
ローマ字文字列へ変換する。

【００３５】このようにして、類似語抽出の結果である
カタカナ文字列を、漢字、ローマ字、カタカナ、外国語
の各表現に変換して、それぞれ異表記展開する。

【００３６】また、図１のこうした従来の文字列検索装
置１０１においては、文字列検索装置１０１の構成要素
である文字列記憶手段１０６として大規模なデータの記
憶ができる磁気ディスク装置が必要となる。一般の磁気
ディスク装置はデータの入出力が高速にできない問題が
あり、また、データの入出力が高速にできるマルチヘッ
ド型の磁気ディスク装置は非常に高価であるという問題
があった。

【００３７】そこで、安価な一般の小型磁気ディスク複
数台接続してデータの入出力の速度を高速化する集合型
の磁気ディスク装置が考えられてきた。そのひとつとし
て特開昭60−117326号公報記載の「画像データ分割記憶
装置」がある。

【００３８】この装置は複数台の磁気ディスク装置を有
し、磁気ディスク装置と同数の磁気ディスクコントロー
ラ、入出力バッファと外部装置との間のデータ輸送を制
御するマスタコントローラによって構成し、外部装置か
ら入力したデータをマスタコントローラにおいて、入出
力バッファの容量以下に分割し、その分割したデータを
各磁気ディスクコントローラに順次転送し、該磁気ディ
スクコントローラは対応する磁気ディスク装置に書き込
む。マスタコントローラは書き込みを行なっていない磁
気ディスク装置の磁気ディスクコントローラに対し、シ
ーク動作を行なわせることによって、データを格納する
複数の磁気ディスク装置の２台目以降の、シーク時間を
見掛け上なくし、データの書き込み、読み出し時間を短
縮しようとするものである。

【００３９】また、フルテキストサーチを行うためのデ
ータの登録について考慮してるものはなかった。

【００４０】

【発明が解決しようとする課題】図１に示した様な従来
例の検索システムにおいて大容量のテキストデータベー
ス検索しようとすると、下記のような幾つかの問題が発
生してくる。先ず第一に、検索時間の問題である。例え
ば、一文献当り２０ＫＢの容量を持つ文献２万件を対象
にしてフルテキストサーチを行おうとすると、４００Ｍ
Ｂのデータをスキャンしなければならないことになる。
この４００ＭＢのテキストデータを文字列記憶手段に格
納し、これを平均約１ＭＢ／ｓの実効速度で読み出し、
文字列照合手段においてこれと同等の速度で照合処理を
行ったとしても、検索を終了するには約７分を要してし
まう。すなわち、一般的な磁気ディスク装置を用いたの
ではテキストデータの読み出しに時間が掛ってしまい実
用に耐えないという問題がある。すなわち、テキストデ
ータを納める文字列記憶手段の読み出し速度を文字列照
合手段の処理速度と同程度にまで高めることが必要とな
る。本発明が解決しようとする第一の課題がここにあ
る。

【００４１】しかし、文字列記憶手段の読み出し速度を
文字列照合手段と同程度にまで高めたとしても、すなわ
ち例えば１０ＭＢ／ｓまで高速化したとしても４００Ｍ
Ｂのテキストデータをスキャンし終えるには、未だ４０
秒を要してしまう。これを実用上許容し得る数秒台に納
めることが、本発明の第二の課題である。

【００４２】このスキャン処理の高速化という技術に関
して特開昭62-241026号公報「文字列検索方式」が出願
されている。本「文字列検索方式」では、テキストデー
ターベース（ファイルと呼んでいる）の中に指定文字列
があるかどうかを検索する処理を高速化するために、あ
らかじめテキスト（データと呼んでいる）の内容を見て
どういった文字がどの程度の頻度で用いられているかを
調べ「使用文字頻度分布テーブル」を作成しておく。

【００４３】そして、検索時にはこの「使用文字頻度分
布テーブル」を参照して、ユーザが指定したキーワード
の中の最も使用頻度の低い文字を手掛かりにして最初テ
キストをサーチし、これに照合するものがあれば、次に
その前後の文字についても照合を行う方式を提案してい
る。

【００４４】また、上記特開昭62-241026号公報では、
キーワードの最も頻度の低い文字の「使用文字頻度分布
テーブル」中での頻度が零の場合には、テキストをサー
チすることなく検索を終えることができるとしている。

【００４５】したがって、特開昭62-241026号公報によ
れば、無駄な文字照合回数を削減することができるた
め、検索処理速度を上げる効果が得られることになる。

【００４６】しかし、本方式は、データベース（ファイ
ル）全体における「使用文字頻度分布テーブル」を作成
し、これに基づいてこの中のテキストファイル（デー
タ）を検索するものである。したがって、データベース
全体の中で、一度も現れない文字に関するキーワードを
検索する場合にはサーチ処理の効率化という点で効果が
得られるが一般的にデータベースの規模が大きくなる
と、データベース全体で一度も現れないという文字はほ
とんどなくなるため、本方式によるサーチ処理の効果は
ほとんどなくなるという問題がある。

【００４７】こうした問題を解決し、効率的なサーチ処
理を実現し、延いては等価的に高速なフルテキストサー
チを可能とすることが本発明の第二の課題となる。

【００４８】一方、自由語を用いたフルテキストサーチ
においては、しばしば検索者が指定したキーワードとテ
キスト本文中に記述されている言葉の間に、同じ意味を
表していても表現に食い違いがあることがある。このよ
うな場合には、異なる表現形態を持つ文献が検索漏れと
なり、目的の文書が検索されないことが生じてくる。こ
のような言葉の例として、同義語や異形語（異表記語あ
るいは単に異表記とも呼ぶ）などがある。同義語の例と
しては「計算機」に対して「電子計算機」や「電算機」
「Computer」などが挙げられる。また、異表記の例とし
ては、「コンピュータ」に対して「コンピューター」や
「コンピュータ」，「コンピューター」，「コンヒ°ュ
ーター」，「コンヒ°ユータ」，「コンヒ°ユータ
ー」，「コンピュータ」，「コンピュ−タ−」や「コン
ピュ−タ」，「コンピユ−タ−」，「コンヒ°ュ−
タ」，「コンヒ°ュ−タ−」，「コンヒ°ユ−タ」，
「コンヒ°ユ−タ−」が、「Computer」に対して「comp
uter」，「COMPUTER」などが挙げられる。検索者が指定
するキーワードと文書の内容に記述されている言葉との
表記上の食い違いの問題に対処するためには検索者がこ
れらの同義語や異表記をすべて指定して検索を行う必要
がある。しかし、異表記などは場合によって数百にも及
ぶ形態を取り得るため、検索者が一々指定するのは事実
上困難である。こうした問題を解決するのが、本発明の
第三の課題である。

【００４９】すなわち、上記従来例では、表記を標準化
する際に、元の文字列が持つ情報を変えてしまうため期
待する展開結果が得られないことがあった。

【００５０】このことを、カタカナ表記の標準化用の部
分文字列の変換ルール「“ホオ”→“ホウ”」を例にし
て説明する。この変換ルールを適用すると文字列“ジョ
ウホオ”を“ジョウホウ”（情報）と正しく標準化され
る。しかし、この同じ変換ルールを用いても“ジョウオ
ホン”（定保温）が入力された場合には“ジョウホウ
ン”と誤った文字列へ標準化してしまう。このことは標
準化処理の後の同義語展開処理、更にその後に続く異表
記展開処理に影響をおよぼし、期待する展開結果が得ら
れないことになる。本発明の課題の一つは上記の標準化
を行なわずに、常に期待する展開結果を得ることにあ
る。

【００５１】また上記従来技術では、同義語辞書によっ
て“計算機”から“コンピュータ”にキーワードを同義
語展開するときに、ユーザが入力する検索キーワード
を、一旦すべてカタカナ表現に変換してから同義語展開
し、そのあとでカナ漢字変換、カナローマ字変換及びカ
ナ外国語変換をする構成となっている。そのため、同義
語辞書は必ずカタカナ文字列からカタカナ文字列へ展開
するようなものでなければならなかった。すなわち、見出し語：“コンピュータ” 同義語１：“ケイサンキ” 同義語２：“ジョウホウショリソウチ” などと、単語間の同義関係を常にカタカナ文字列で記述
しなければならなかった。このことは、同義語展開後の
カナ漢字変換辞書及びカナ外来語変換辞書でも、必ずこ
れらに対応する表現の文字列を出力するよう登録してお
かなければならないために、辞書が大きくなるという問
題がある。また日本語には同じ読みを持っていても、意
味の異なる同音異義語が多く存在し、これが同義語展開
時に弊害を生じる。例えば“ケンサク”という文字列は
“検索”とも解釈できるし“研削”とも解釈できるの
で、カタカナ表現のみによる同義語辞書では両者を区別
できないという問題がある。さらに、同義語展開後のカ
タカナ漢字変換において、同音異義語を選択をユーザが
対話的に行わなければならないという問題があった。

【００５２】また、検索キーワードをカタカナ表現に変
換するための外国語カナ変換辞書や、同義語展開した後
のカナ漢字変換辞書及びカナ外国語変換辞書が必要であ
り、多種類の大規模な辞書を使うためにその作成と保守
が大変となるという問題もある。すなわち、本発明の第
三の課題は上記のカナ漢字変換、カナ外国語変換時にお
ける同音異義語の問題と、これらの変換に用いる大規模
な辞書の作成、保守の問題を解決することにある。

【００５３】また、こうした数百にも及ぶ同義語や異表
記を含めてキーワードとして検索を行おうとすると、ど
うしてもこれらを一括して照合する文字列照合手段が必
要となってくる。さもなければ、同義語や異表記を含め
て検索すると、検索時間が数百倍掛ってしまい、とても
実用に耐えられなくなってしまう。このように一千語に
近い語数のキーワードが指定されても、照合速度が低下
することなく検索処理を行い得る文字列照合手段を提供
することが、本発明の第四の課題である。

【００５４】また、従来のオートマトンを用いた検索方
式では、異表記の場合、異表記を含むキーワードを全て
列挙し、キーワードに展開する。さらに、これらに基づ
いたオートマトンを作成する。ここで作成されるオート
マトンは木状に記述されるため非常に多くのオートマト
ンの状態が必要となる。

【００５５】また、don't care文字指定検索を行なう場
合もdon't care文字の部分が許容する文字コードの全て
の組合せを列挙し、キーワードに展開する。これらに基
づきオートマトンを作成するため、異表記と同様に、非
常に多くのオートマトンの状態が必要となる。このよう
にオートマトンの状態数の増加は、オートマトン作成時
間の増加や、更にはオートマトンを格納するための状態
遷移テーブルの容量が増加、すなわちハードウェアの増
大という問題を発生する。

【００５６】本発明はオートマトンを用いた検索方式に
おいて、異表記やdon't care文字が指定された検索を行
なう場合もオートマトンの遷移を網状にまとめて記述す
ることにより、状態数を従来より低減しオートマトンの
作成時間の短縮をはかると共に、状態遷移テーブルの容
量が小さくて済むためコンパクトなハードウェアで実現
可能な検索方式を提供することを目的とする。

【００５７】さらに、テキストデータベースに文書デー
タが逐次登録されて行くと、ある時点で文字列記憶手段
を構成する磁気ディスク装置の容量が満杯に達してしま
う場合がでてくる。こうした時にも、それ迄蓄積したデ
ータを損なうことなくシステムの蓄積容量を拡大できる
ことが必要となる。また、被検索テキストデータベース
の容量が例えば１０万件、すなわち４ＧＢにも達する程
に大規模化してきた場合、唯単に磁気ディスク装置の格
納容量を拡張するだけでは処理時間が増加し、当初の目
的が達っせなくなってしまう。検索時間を低下させるこ
となく、蓄積容量の大規模化に応えられなければならな
い。こうした要求に応え得るアーキテクチャを持つ検索
装置を提供することが、本発明の第五の課題である。

【００５８】文字列検索装置の文字列記憶手段で重要と
なる要素は、記憶容量が大きいこと、ファイルのサイズ
にかかわらず、複数のファイルを連続的に高速で入出力
できること、安価であることの３点であり、これらの要
素を満足する集合型磁気ディスク装置が必要とされてい
る。

【００５９】従来技術では、ただシーク時間のアクセス
時間を見掛け上なくすことにより、データの書き込み読
み出し時間を短縮しようとするもので、外部機器の要求
するデータ転送速度に対して何台の磁気ディスク装置を
用いて構成すれば良いかについて配慮されておらずコス
トパフォーマンスの点で問題があった。

【００６０】また、従来技術は画像データのようにデー
タサイズの大きなファイルが複数の磁気ディスク装置に
またがるような場合にはアクセス時間を削減できる効果
があるが、複数の磁気ディスク装置にまたがらないデー
タサイズの小さなファイルの書き込み、読み出しを行な
う場合には、シーク時間を隠すことができず、１台の磁
気ディスク装置と同じアクセス時間となってしまう問題
があった。

【００６１】また、従来技術は複数のファイルの連続的
な書き込み、読み出しを行なう点に配慮がされておら
ず、上位機器からの書き込み、読み出し命令を１件のフ
ァイルについてのみ処理可能で、複数のファイルをアク
セスする場合には、１件の処理を繰返し行なう必要があ
り、それに要するオーバヘッド時間が長くなってしまう
問題があった。

【００６２】また、オーバヘッド時間のひとつとして、
上位機器からアクセス対象となるファイルを指定するた
めのファイル識別コードから磁気ディスク装置の格納位
置情報を検索する処理がある。従来の一般的な磁気ディ
スク装置では、ファイル識別コードとしてＡＳＣＩＩコ
ード等の文字コード列で構成されるファイル名称で表現
されており、このファイル名称により、磁気ディスク装
置のファイル管理情報エリアに格納されているファイル
管理情報を検索して物理的な格納位置を求めなければな
らず、それに要する処理時間が大きい問題があった。
本発明の目的は、記憶容量が大きい、ファイルのサイズ
にかかわらず複数のファイルを連続的に高速に入出力で
きる、安価な集合型磁気ディスク装置を提供するもので
ある。一方、文書情報はテキストデータだけで構成され
ている訳ではなく、図面や写真などもその構成要素とし
て含まれている。したがって、検索された文献の印刷イ
メージでの閲読の要求にも応えることが必要になる。こ
れに応え得るアーキテクチャを持つ検索装置を提供する
ことが本発明の第六の課題である。

【００６３】さらに、テキストデータベースは複数のユ
ーザによって共有されるべきものであり、例えばＬＡＮ
（ローカルエリアネットワーク）を介して検索対話
用のワークステーションからアクセスできなければなら
ない。したがって、検索装置はＬＡＮに接続され、他の
複数のワークステーションからの検索要求に応えられる
機能を持たなければならない。こうした機能を備えた全
文検索装置を提供することが、本発明の第七の課題であ
る。以上述べた各課題に応え得るフルテキストサーチシ
ステムを提供することが本発明の最終的な目的である。
特に、このフルテキストサーチシステムに好適なデータ
の登録を提供することを目的とする。

【００６４】

【課題を解決するための手段】本発明では、上記の目的
を達成するために以下の構成とした。検索対象となり得
るデータをデータ格納手段に格納すると共に、サーチの
際検索キーワード自身を含む可能性のないデータを除く
ことが可能な検索ファイルを登録する。検索ファイルと
しては、予め定めた各文字が前記登録されたデータに含
まれるか否かを示す「文字成分表」、登録されたデータ
中に繰り返し現れる単語の重複を排除した「凝縮本文デ
ータ」がある。

【００６５】

【発明の実施の形態】以下、本発明の第一の実施例を、
図１０を用いて説明する。本実施例は、キーボード１１
０１、サーチマシン制御用コンピュータ（ＣＰＵ０）１
１５０、ディスプレイ１１２０、オートマトン生成用コ
ンピュータ（ＣＰＵ１）１１０５ａ、ビットサーチ用コ
ンピュータ（ＣＰＵ３）１１０７ａ、ストリングサーチ
エンジン１１０６、複合条件判定用コンピュータ（ＣＰ
Ｕ２）１１４５ａ、検索結果格納メモリ１１４６、及び
テキストデータファイル１１１０から構成される。ま
た、サーチマシン制御用コンピュータ（ＣＰＵ０）１１
５０では、検索式解析プログラム１１０２、同義語異表
記展開プログラム１１０３ａ、複合条件解析プログラム
１１４１ａ、検索実行制御プログラム１１０８、及び検
索結果表示プログラム１１４７が実行され、オートマト
ン生成用コンピュータ（ＣＰＵ１）１１０５ａではオー
トマトン生成プログラム１１０５が、ビットサーチ用コ
ンピュータ（ＣＰＵ３）１１０７ａではビットサーチプ
ログラム１１０７が、複合条件判定用コンピュータ（Ｃ
ＰＵ２）１１４５ａでは複合条件判定プログラム１１４
５が実行される。

【００６６】先ず、キーボード１１０１から入力された
検索条件式はサーチマシン制御用コンピュータ（ＣＰＵ
０）１１５０上の検索式解析プログラム１１０２により
解析される。すなわち、検索式解析プログラム１１０２
では検索条件式を構成するキーワード部分とそれらの包
含条件及び配置条件を記述した複合条件記述部に分離さ
れる。包含条件は論理条件として記述され、配置条件は
近傍条件や文脈条件として記述されたものである。分離
抽出後、キーワード部分は同じくＣＰＵ０１１５０上の
同義語異表記展開プログラム１１０３ａに渡され、複合
条件記述部は複合条件解析プログラム１１４１ａに渡さ
れる。

【００６７】同義語異表記展開プログラム１１０３ａで
は、ここに内蔵された同義語辞書を参照して入力された
キーワードの同義語が、また変換ルールによって異表記
が求められる。例えば、“計算機”というキーワードが
入力されると、同義語としては“計算機”のほかに“電
算機”や“コンピュータ”などが生成され、異表記とし
ては“コンピュータ”から“コンピューター”などが生
成される。

【００６８】同義語としては、上記の例のような同位語
のほかに、上位語や下位語、関連語などがあり、これら
も含めて同義語として展開される。この場合の上位語の
例としては“電子機器”などがあり、下位語としては
“電卓”など、関連語としては“オフィスオートメーシ
ョン”などがある。

【００６９】また、異表記展開としては、カタカナ展開
のほか、漢字ひらがな展開、アルファベット展開があ
る。図示されているのはこの中のカタカナ展開の例であ
る。漢字ひらがな展開としては、新旧字体の変換と送り
がな展開がある。新旧字体変換の例としては、“斉”か
ら“齋”、“齊”への変換などがある。また、送りがな
展開としては、“読取”から読取り”、“読み取り”へ
の展開などがある。アルファベット展開としては、ロー
マ字のヘボン式展開、ローマ字の訓令式展開及びアルフ
ァベットの大文字小文字展開がある。ローマ字のヘボン
式展開の例としては“チシキ”から“ＴＩＳＩＫＩ”へ
の展開が、ローマ字の訓令式展開の例としては“CHISHI
KI”への展開があり、アルファベットの大文字小文字展
開例としては“ＴＩＳＩＫＩ”から“ｔｉｓｉｋｉ”へ
の展開などがある。

【００７０】以上説明した同義語展開並びに異表記展開
の展開種類については、ユーザの指定によって組み合わ
せ選択できるようにすることも可能である。

【００７１】英語の同義語の例としては looking glass → mirror pingpong → table tennis the Lord → God typhoon → cyclone → hurricane WS → work station 等があり、英語の異表記の例としては center → centre liter → litre brier → briar humor → humour modeler → modeller Chile → Chili orangutan → orangoutan → orangoutang MacDonald → McDonald 等の例がある。

【００７２】さらに、ドイツ語の同義語の例としては Brief → Schreiben Mostert → Mostrich Maschine → Motor 等があり、ドイツ語の異表記の例としては Foto → Photo Coda → Koda Code → Kode Buffet → Buffet Friburg → Fribourg 等が挙げられる。

【００７３】こうして同義語及び異表記展開されたキー
ワード群は、次にオートマトン生成用コンピュータ（Ｃ
ＰＵ１）１１０５ａ上のオートマトン生成プログラム１
１０５に送られる。

【００７４】オートマトン生成プログラム１１０５で
は、同義語異表記展開プログラム１１０３ａから送られ
てきたキーワード群に対して、これらを一括照合するオ
ートマトンを作成する。同義語及び異表記展開を施す
と、初期入力されたキーワードの数によっては、数百に
も及ぶ展開結果が得られることになる。

【００７５】これらのキーワードを一つずつ入力テキス
トデータから探索していたので、高速な検索を実現する
ことが不可能である。すなわち、これらのキーワードを
まとめて、テキストデータをただ一回走査するだけで探
索する必要がある。このように複数のキーワードを一括
して照合する（多量照合とも呼ぶ）方法としてオートマ
トンを用いた照合方法が知られている。その中で、この
オートマトンをハードウェアで実行する方式として「特
開昭６３−３１１５３０」を提案している。サーチエン
ジン１１０６はこの方式をさらに発展させて実現した高
速多重文字列照合回路である。したがって、本オートマ
トン生成プログラム１１０５では、このサーチエンジン
１１０６に設定する状態遷移テーブルと照合すべきキー
ワードの識別コード情報を生成し、これらをサーチエン
ジン１１０６へ転送することになる。

【００７６】また、同義語異表記展開プログラム１１０
３ａで同義語及び異表記展開されたキーワード群は、該
当キーワード識別コード（キーワード識別子とも呼ぶ）
と共に、ビットサーチ用コンピュータ（ＣＰＵ３）１１
０７ａ上のビットサーチプログラム１１０７へ渡され
る。

【００７７】一方、検索式解析プログラム１１０２から
入力検索条件式中の複合条件記述部を受け取ったサーチ
マシン制御用コンピュータ（ＣＰＵ０）１１５０上の複
合条件解析プログラム１１４１では、近傍条件や文脈条
件、並びに論理条件などを解析し、各条件を判定するた
めの制御情報として、指定されたキーワードの識別コー
ドとその間の指定距離情報や指定文脈コード情報及び指
定論理条件コード情報に変換され、複合条件判定用コン
ピュータ（ＣＰＵ２）１１４５ａ上の複合条件判定プロ
グラム１１４５に渡される。

【００７８】さて、上述した検索式解析処理、同義語異
表記展開処理、オートマトン生成処理、複合条件解析処
理が終わり、ビットサーチ用コンピュータ（ＣＰＵ３）
１１０７ａ上のビットサーチプログラム１１０７、サー
チエンジン１１０６、及び複合条件判定用コンピュータ
（ＣＰＵ２）１１４５ａ上の複合条件判定プログラム１
１４５にそれぞれ制御情報が渡し終わると、検索処理が
始められる。

【００７９】検索処理は、サーチマシン制御用コンピュ
ータ（ＣＰＵ０）１１５０上の検索実行制御プログラム
１１０８により制御される。すなわち、検索実行制御プ
ログラム１１０８では、ビットサーチプログラム１１０
７、サーチエンジン１１０６、及び複合条件判定プログ
ラム１１４５に対して起動を掛け、テキストデータファ
イル１１１０から被検索テキストデータを読み込み、階
層型プリサーチと本文サーチを実行する。まず、テキス
トデータファイル１１１０からビットサーチプログラム
１１０７へ文字成分表を読み出して文字成分表サーチを
行う。文字成分表サーチ結果は、該当文書識別子として
検索結果格納メモリ１１４６に書き出される。次に、該
文書識別子で指定される文書の凝縮本文をテキストデー
タファイル１１１０からストリングサーチエンジン１１
０６へ読み込み凝縮本文サーチを行う。ストリングサー
チエンジン１１０６では、あらかじめ設定された状態遷
移テーブル情報にしたがって指定されたキーワード群を
入力凝縮本文データの中から探し出す。そして、キーワ
ードのどれかでも見つかると、そのテキストファイルの
識別子と該当キーワードの識別コード並びに検出された
位置情報を、複合条件判定用コンピュータ（ＣＰＵ２）
１１４５ａ上の複合条件判定プログラム１１４５に送出
する。

【００８０】サーチエンジンの出力情報として付加され
る位置情報とは、そのキーワードが見つかった文書中の
位置を表す情報のことであり、具体的にはその文書の先
頭から数えて何文字目に当るのかを文字数でカウントし
た値である。図１１に具体例で照合位置情報を示した。
本図は、文書の内容が、「あいまい検索のための知的検
索技術を開発した。

【００８１】・・・・・・」という場合、これを“知的
検索”というキーワードで検索した場合を想定したもの
である。ここでは、“知的検索技術”の中の“知的検
索”の部分がキーワードと一致することになるので、こ
の部分が検出されることになる。照合位置情報として
は、“知的検索”の末尾文字“索”の文書先頭からの文
字位置が採られる。この例では、１３が照合位置情報と
なる。

【００８２】この照合位置情報を付加したサーチエンジ
ンの出力情報は、図１５に示した構成を取る。すなわ
ち、本実施例では３２ビット長のキーワード識別子と、
同じく３２ビット長のキーワード照合位置情報で構成さ
れる。また、各文書毎にキーワード識別子の出力に先立
って文書識別子が出力され、照合出力情報がどの文書に
対応するものかが分かるようにしてある。

【００８３】凝縮本文サーチ結果は、該当文書識別子と
照合キーワード識別子及びキーワード照合位置情報が組
み合わされた照合情報として、複合条件判定用コンピュ
ータ（ＣＰＵ２）１１４５ａ上の複合条件判定プログラ
ム１１４５に渡される。複合条件判定プログラム１１４
５では、先に設定された複合条件判定制御情報に基づい
て、指定条件に合致する文書を判定し、その文書識別子
を検索結果格納メモリ１１４６に書き出す。検索実行制
御プログラム１１０８は、複合条件中に近傍条件あるい
は文脈条件が設定されているかを判定し、もし設定され
ている場合には最後の本文サーチを行う。すなわち、凝
縮本文サーチの結果得られた該当文書識別子に対応する
本文データをテキストデータファイル１１１０からスト
リングサーチエンジン１１０６へ読み込み本文サーチを
行うことになる。ストリングサーチエンジン１１０６か
ら出力される照合情報は複合条件判定プログラム１１４
５に渡され、ここで指定された近傍条件及び文脈条件に
合致するか否かの判定処理が行われる。この判定処理結
果は、最終的な検索結果情報として、該当文書識別子と
いう形で検索結果格納メモリ１１４６に出力される。

【００８４】凝縮本文サーチあるいは本文サーチが済
み、最終的に検索処理が終わると、サーチマシン制御用
コンピュータ（ＣＰＵ０）１１５０上の検索結果表示プ
ログラム１１４７が検索結果格納メモリ１１４６上の該
当文書識別子に基づいて、検索結果件数、あるいはヒッ
トした文書の書誌情報である文書名や著者などの書誌事
項をテキストデータファイル１１１０から読み出してデ
ィスプレイ１１２０へ一覧表示したり、あるいはユーザ
の指定に応じてヒットした文書の本文データをテキスト
データファイル１１１０から読み出して表示したりす
る。

【００８５】以上が本発明により提供されるフルテキス
トサーチ装置の第一の実施例についての説明である。

【００８６】次に、本発明の第二の実施例について、図
２５を用いて説明する。本実施例は、キーボード２５０
１、サーチマシン制御用コンピュータ（ＣＰＵ０）２５
２０、ディスプレイ２５２０、オートマトン生成用コン
ピュータ（ＣＰＵ１）２５０５ａ、ビットサーチ用コン
ピュータ（ＣＰＵ３）２５０７ａ、ストリングサーチエ
ンジン２５０６、複合条件判定用コンピュータ（ＣＰＵ
２）２５４５ａ、検索結果格納メモリ２５４６、半導体
メモリ装道２５１０ａ、ＲＡＭディスク装置２５１０
ｂ、集合型磁気ディスク装置２５１０ｃ、及びイメージ
データファイル２５３０から構成される。また、サーチ
マシン制御用コンピュータ（ＣＰＵ０）２５５０では、
検索式解析プログラム２５０２、同義語展開プログラム
２５０３、異表記展開プログラム２５０４、複合条件解
析プログラム２５４１、近傍条件解析プログラム２５４
２、文脈条件解析プログラム２５４３、論理条件解析プ
ログラム２５４４、検索実行制御プログラム２５０８、
及び検索結果表示プログラム２５４７が実行され、オー
トマトン生成用コンピュータ（ＣＰＵ１）２５０５ａで
はオートマトン生成プログラム２５０５が、ビットサー
チ用コンピュータ（ＣＰＵ３）２５０７ａではビットサ
ーチプログラム２５０７が、複合条件判定用コンピュー
タ（ＣＰＵ２）２５４５ａでは複合条件判定プログラム
２５４５が実行される。また、集合型磁気ディスク装置
２５１０ｃは、集合型磁気ディスク制御装置２５１０ｄ
と磁気ディスク装置２５１０ｅ₁〜２５１０ｅ₁₂から構
成される。

【００８７】本図において、先ずキーボード２５０１か
ら入力された検索条件式はサーチマシン制御用コンピュ
ータ（ＣＰＵ０）２５５０上の検索式解析プログラム２
５０２により解析される。すなわち、検索式解析プログ
ラム２５０２では検索条件式を構成するキーワード部分
とそれらの包含条件及び配置条件を記述した複合条件記
述部に分離する。包含条件は論理条件として記述され、
配置条件は近傍条件や文脈条件として記述されたもので
ある。分離抽出後、キーワード部分は同じくＣＰＵ０、
２５５０上の同義語展開プログラム２５０３に渡され、
複合条件記述部は複合条件解析プログラム２５４１に渡
される。

【００８８】同義語展開プログラム２５０３では、ここ
に内蔵された同義語辞書を参照して、入力されたキーワ
ードの同義語が求められる。そして、ここで同義語展開
されたキーワード群は異表記展開プログラム２５０４へ
渡される。本図の例の場合、“計算機”から、“電算
機”、“コンピュータ”、“COMPUTER”などが生成され
る。

【００８９】異表記展開プログラム２５０４では、ここ
に入力されてきたキーワード群に対して異表記展開処理
が施される。本図の例の場合、“コンピュータ”から
“コンピューター”が、また“COMPUTER”から“Comput
er”などが生成される。

【００９０】こうして同義語及び異表記展開されたキー
ワード群は、次にオートマトン生成用コンピュータ（Ｃ
ＰＵ１）２５０５ａ上のオートマトン生成プログラム２
５０５に送られる。

【００９１】オートマトン生成プログラム２５０５で
は、異表記展開プログラム２５０４から送られてきたキ
ーワード群に対して、これらを一括照合するオートマト
ンを生成し、状態遷移テーブルと照合すべきキーワード
の識別コード情報として、サーチエンジン２５０６に設
定する。サーチエンジン２５０６は有限オートマトン方
式に基づく高速多重文字列照合回路である。

【００９２】また、異表記展開プログラム２５０４で異
表記展開されたキーワード群は、該当キーワード識別コ
ードと共に、ビットサーチ用コンピュータ（ＣＰＵ３）
２５０７ａ上のビットサーチプログラム２５０７へ渡さ
れる。

【００９３】一方、検索式解析プログラム２５０２から
入力検索条件式中の複合条件記述部を受け取ったサーチ
マシン制御用コンピュータ（ＣＰＵ０）２５５０上の複
合条件解析プログラム２５４１では、これを解析して近
傍条件記述部と文脈条件記述部並びに論理条件記述部に
分離する。そして、各条件記述部をそれぞれ近傍条件解
析プログラム２５４２、文脈条件解析プログラム２５４
３及び論理条件解析プログラム２５４４へ渡す。

【００９４】近傍条件解析プログラム２５４２では、字
間距離条件や語間距離条件が抽出される。ここで抽出さ
れた各条件は、指定されたキーワードの識別コードとそ
の間の距離情報に変換され、複合条件判定用コンピュー
タ（ＣＰＵ２）２５４５ａ上の複合条件判定プログラム
２５４５に渡される。

【００９５】文脈条件解析プログラム２５４３では、同
一文内共起条件や同一段落内共起条件、同一節内共起条
件、同一章内共起条件などの各種の共起条件が抽出され
る。ここで抽出された各条件は、指定されたキーワード
の識別コードと指定文脈コード情報に変換され、複合条
件判定用コンピュータ（ＣＰＵ２）２５４５ａ上の複合
条件判定プログラム２５４５に渡される。

【００９６】論理条件解析プログラム２５４４では、検
索条件式中に指定された論理条件が抽出され、論理条件
コード情報に変換され、複合条件判定用コンピュータ
（ＣＰＵ２）２５４５ａ上の複合条件判定プログラム２
５４５に渡される。

【００９７】さて、上述した検索式解析処理、同義語及
び異表記展開処理、オートマトン生成処理、複合条件解
析処理、近傍条件解析処理、文脈条件解析処理、及び論
理条件解析処理が終わり、ビットサーチ用コンピュータ
（ＣＰＵ３）２５０７ａ上のビットサーチプログラム２
５０７、サーチエンジン２５０６、及び複合条件判定用
コンピュータ（ＣＰＵ２）２５４５ａ上の複合条件判定
プログラム２５４５にそれぞれ制御情報が渡し終わる
と、検索処理が始められる。

【００９８】検索処理は、サーチマシン制御用コンピュ
ータ（ＣＰＵ０）２５５０上の検索実行制御プログラム
２５０８により制御される。すなわち、検索実行制御プ
ログラム２５０８では、まずビットサーチプログラム２
５０７に起動を掛け、半導体メモリ装置２５１０ａから
文字成分表を読み出して文字成分表サーチを行う。文字
成分表サーチ結果は、該当文書識別子として検索結果格
納メモリ２５４６に書き出される。

【００９９】次に、ストリングサーチエンジン２５０
６、複合条件判定プログラム２５４５及びＲＡＭディス
ク装置２５１０ｂに起動を掛けて、検索結果格納メモリ
２５４６に書き出された文書識別子で指定される文書の
凝縮本文をＲＡＭディスク装置２５１０ｂからストリン
グサーチエンジン２５０６へ読み込み凝縮本文サーチを
行う。凝縮本文サーチ結果は、該当文書識別子と照合キ
ーワード識別子及びキーワード照合位置情報が組み合わ
された照合情報として、複合条件判定用コンピュータ
（ＣＰＵ２）２５４５ａ上の複合条件判定プログラム２
５４５に渡される。複合条件判定プログラム２５４５で
は、先に設定された複合条件判定制御情報に基づいて、
指定条件に合致する文書を判定し、その文書識別子を検
索結果格納メモリ２５４６に書き出す。

【０１００】そして、検索実行制御プログラム２５０８
は、複合条件中に近傍条件あるいは文脈条件が設定され
ているかを判定し、もし設定されている場合には最後の
本文サーチを行う。すなわち、ストリングサーチエンジ
ン２５０６、複合条件判定プログラム２５４５及び集合
型磁気ディスク装置２５１０ｃに起動を掛けて、凝縮本
文サーチの結果得られた検索結果格納メモリ２５４６中
の該当文書識別子に対応する本文データを集合型磁気デ
ィスク装置２５１０ｃからストリングサーチエンジン２
５０６へ読み込み本文サーチを行うことになる。

【０１０１】集合型磁気ディスク装置２５１０ｃは複数
台の磁気ディスク装置２５１０ｅ₁〜２５１０ｅ₁₂から
構成され、文字成分表、凝縮本文、本文、及び書誌事項
などの各種テキストデータがこれらの磁気ディスク装置
２５１０ｅ₁〜２５１０ｅ₁₂に分散して格納される。そ
して、これらの磁気ディスク装置２５１０ｅ₁〜２５１
０ｅ₁₂は集合磁気ディスク制御装置２５１０ｄの制御の
もとに、平行して独立にテキストデータを読み出す。読
み出されたそれぞれのテキストデータは、集合磁気ディ
スク制御装置２５１０ｄで統合され、すなわちマルチプ
レクシングされて高速にストリングサーチエンジン２５
０６へ送り出される。１２台の磁気ディスク装置を同時
に動作させた場合、一台だけの場合に比較して約１０倍
の読み出し速度が得られることになる。

【０１０２】ストリングサーチエンジン２５０６から出
力される集合情報は、複合条件判定プログラム２５４５
に渡され、ここで指定された近傍条件及び文脈条件に合
致するか否かの判定処理が行われる。この判定処理結果
は、最終的な検索結果情報として、該当文書識別子とい
う形で検索結果格納メモリ２５４６に出力される。

【０１０３】凝縮本文サーチあるいは本文サーチが済
み、最終的に検索処理が終わると、サーチマシン制御用
コンピュータ（ＣＰＵ０）２５５０上の検索結果表示プ
ロクラム２５４７が、検索結果格納メモリ２５４６上の
該当文書識別子に基づいて、検索結果件数、あるいはヒ
ットした文書の書誌情報である文書名や著者などの書誌
事項を集合型磁気ディスク装置２５１０ｃから読み出し
てディスプレイ２５２０へ一覧表示したり、あるいはユ
ーザの指定に応じてヒットした文書の本文データを集合
磁気ディスク装置２５１０ｃから読み出して表示したり
する。更に、ユーザがヒットした文献の図面や画像情報
の閲覧を指定した場合には、イメージデータファイル２
５３０から該当するイメージデータを読み出しディスプ
レイ２５２０へ表示する。以上が本発明により提供され
るフルテキストサーチ装置の第二の実施例についての説
明である。

【０１０４】また、本実施例ではデキストデータを格納
するテキストデータフル１１０（図１）として集合磁気
ディスク制御装置１１０ｄ（図２０）を用いているが、
テキストデータファイル１１０の容量を拡大するために
集合型の光ディスク装置を用いることも可能である。す
なわち、磁気ディスク装置１１０ｅ₁〜１１０ｅ₁₂の代
わりに、光ディスク装置を用いることも可能である。た
だし、磁気ディスク装置を用いる場合に比較して、アク
セス速度が落ちるため、本文サーチ速度がその分低下す
ることになる。さらに、この場合、光ディスク装置とし
て、テキストデータの修正がない場合には追記型の光デ
ィスク装置が使え、テキストデータの修正が生じる場合
には書替え型の光ディスク装置を用いることになる。

【０１０５】次に、上述した第二の実施例におけるＲＡ
Ｍディスク装置２５１０ｂの具体的実施例について、図
７５を用いて説明する。本図において、ＲＡＭディスク
装置２５１０ｂは、凝縮本文を納める半導体メモリ７１
００（ＲＡＭ）と、この半導体メモリ７１００上の凝縮
本文の読み出しを制御するＲＡＭディスクコントローラ
７２００から構成される。

【０１０６】ＲＡＭディスクコントローラ７２００は、
ダイレクトメモリアクセスコントローラ７２１０（ＤＭ
ＡＣ）、アドレスコントローラ７２２０、アドレスメモ
リ７２３０から構成される。アドレスメモリ７２３０に
は、半導体メモリ７１００内のどこからどこまで読みだ
すのかを、それぞれ開始アドレスＳＴＡＲＴｎと終了ア
ドレスＥＮＤｎの対データとして、複数組設定できるよ
うにしている。この開始アドレス７３６０と終了アドレ
ス７３７０は、検索実行制御プログラム２５０８によ
り、検索結果格納メモリ２５４６内に書き込まれた読み
出し対象とすべき凝縮本文の識別子情報をもとに、検索
実行制御プログラム２５０８内で管理される凝縮本文格
納情報を参照して与えられる。

【０１０７】アドレスコントローラ７２２０は、検索実
行制御プログラム２５０８から与えられる起動信号に基
づいて、アドレスメモリ７２３０内の読み出し領域アド
レス情報、すなわち開始アドレスＳＴＡＲＴ１と終了ア
ドレスＥＮＤ１を読み出し、これから読み出すべき領域
の先頭アドレス７３１０と読み出すべきワード数７３２
０を求めて、これをダイレクトメモリアクセスコントロ
ーラ７２１０に設定され、これに起動を掛ける。ダイレ
クトメモリアクセスコントローラ７２１０は、指定され
たアドレス７３１０とワード数７３２０に基づき、該当
領域のデータを半導体メモリ７１００から読み出し出力
する。

【０１０８】ダイレクトメモリアクセスコントローラ７
２１０は、読み出しが終了したら終了信号７３７０をア
ドレスコントローラ７２２０へ送出する。アドレスコン
トローラ７２２０はこれを受けて、次の転送アドレス情
報、すなわち開始アドレスＳＴＡＲＴ２と終了アドレス
ＥＮＤ２を読み出し、同様にしてこれから読み出すべき
領域の先頭アドレス７３１０と読み出すべきワード数７
３２０を求めて、これをダイレクトメモリアクセスコン
トローラ７２１０に設定し、起動を掛ける。これを受け
てダイレクトメモリアクセスコントローラ７２１０は指
定されたアドレス７３１０とワード数７３２０に基づ
き、該当領域のデータを半導体メモリ７１００から読み
出し出力する。

【０１０９】以下同様の処理をくりかえして、アドレス
メモリ７２３０内に設定された転送情報に対応する半導
体メモリ７１００内のデータを読み出すことになる。

【０１１０】以上が、ＲＡＭディスク装置２５１０ｂの
実施例の説明である。

【０１１１】次に、上記第二の実施例における複合条件
解析プログラム２５４１（図２５）の更に詳細な実施例
について図１３を用いて説明する。本実施例では、複合
条件解析プログラム１１４１が、近傍条件判定プログラ
ム３３０、文脈条件判定プログラム３４０、及び論理条
件判定プログラム３５０によりパイプライン的に構成さ
れている。

【０１１２】また、検索実行制御段階としては、本文サ
ーチを行う場合を例にしている。すなわち、入力テキス
トデータとしては、集合型磁気ディスク装置１１１０ｃ
から本文データを入力し、このなかからサーチエンジン
１１０６でキーワードの探索照合を行う場合である。

【０１１３】探索条件式としては、論理条件、近傍条件
及び文脈条件を含む複合条件式３０１が入力されるもの
とする。

【０１１４】複合条件式３０１：Ｑ＝ａｎｄ（文書〔４
Ｃ〕理解、文書〔Ｓ〕検索）この複合条件式３０１は、「文書」と「理解」がこの順
序で現れ、かつ４文字以内の距離に近接し、さらに「文
書」と「検索」が同一文中に共起するものを検索するこ
とを意味している。すなわち、“文書〔４Ｃ〕理解”
が、「文書」と「理解」がこの順序で現れ、かつ４文字
以内の距離に近接するという近傍条件を示し、“文書
〔Ｓ〕検索”が、「文書」と「理解」が同一文中に共起
する文脈条件を、“ａｎｄ（……、……）”が、これら
両者が同時に起こるという論理条件を示している。

【０１１５】このような複合条件検索式３０１が指定さ
れると、第二の実施例（図２５）で説明したように、先
ずこの検索条件式が検索式解析プログラム１１０２で解
析され、これに含まれるキーワード、すなわち単語「文
書」、「理解」及び「検索」が抽出される。そして、こ
れらにそれぞれＴ１，Ｔ２及びＴ３という識別子が付与
され、同義語展開プログラム１１０３、さらには異表記
展開プログラム１１０４へ渡される。ここでは、説明を
簡単にするために、同義語及び異表記展開される言葉が
なかったものとして説明する。したがって、同義語及び
異表記展開された結果は、入力キーワードと変わらず、
「文書」、「理解」及び「検索」の３単語ということに
なる。これらは、オートマトン生成プログラム１１０７
に渡され、ここで各文字列を照合するオートマトンが作
成され、その状態遷移テーブルがサーチエンジン１１０
６に設定されることになる。

【０１１６】一方、検索条件式中の複合条件について
は、複合条件解析プログラム１１４１にて、それぞれ近
傍条件“文書〔４Ｃ〕理解”、文脈条件“文書〔Ｓ〕検
索”、及び論理条件“and（……，……）に分解され
る。この時、各条件式中のキーワードは、先にオートマ
トン生成に際して付与されたキーワード識別子（ターム
識別子とも呼ぶ）で置き換えられる。したがって、近傍
条件は“Ｔ１〔４Ｃ］Ｔ２”と、文脈条件は“Ｔ１
〔Ｓ〕Ｔ３”という形式で表される。また、これらの条
件式にもそれぞれ項識別子Ｉ１及びＩ２が付与される。
したがって、論理条件式は“ａｎｄ（Ｉ１，Ｉ２）”と
表されることになる。以上の処理は、それぞれ近傍条件
解析プログラム２５４２（図２５）、文脈条件解析プロ
グラム２５４３（図２５）及び論理条件解析プログラム
（図２５）２５４４にて行われる。このようにしてター
ム識別子及び項識別子で表現された各条件は、複合条件
判定プログラム２５４５（図２５）の各条件判定処理プ
ログラムに送られる。

【０１１７】こうしてサーチエンジン１１０６に各検索
ターム照合用のオートマトン状態遷移テーブル及び検索
ターム識別子情報が設定され、近傍条件判定プログラム
３３０、文脈条件判定プログラム３４０、及び論理条件
判定プログラム３５０にそれぞれ検索ターム識別子及び
項識別子で記述された各条件式が設定されると、検索実
行制御プログラム１１０８により集合型磁気ディスク装
置１１１０ｃ、サーチエンジン１１０６、複合条件解析
プログラム１１４５、近傍条件判定プログラム３３０、
文脈条件判定プログラム３４０、及び論理条件判定プロ
グラム３５０に起動が掛けられる。

【０１１８】そうすると、集合型磁気ディスク装置１１
１０ｃからはテキストデータが読み出されサーチエンジ
ン１１０６へ送られる。サーチエンジン１１０６では、
指定された検索ターム「文書」、「理解」及び「検索」
のどれかが見つかると、その検索ターム識別子Ｔ１，Ｔ
２及びＴ３が見つかったテキスト内の位置情報と一緒に
近傍条件判定プログラム３３０へ送られる。また、文間
の区切り記号となる「。」についても、とくにユーザか
らの指定がなくともサーチエンジン１１０６で検出しこ
れに対応する句点識別子Ｔ０並びに位置情報を近傍条件
判定プログラム３３０に送り出す。

【０１１９】近傍条件判定プログラム３３０では、サー
チエンジン１１０６から送られてくる検索ターム識別子
をその位置情報も加味して指定された近傍条件と照らし
合わせる。もし指定近傍条件“Ｔ１〔４Ｃ〕Ｔ２”、す
なわち“文書〔４Ｃ〕理解”に合致するものがあれば、
その照合結果として該当条件に対応した項識別子Ｉ１
を、サーチエンジン１１０６から入力した句点識別子Ｔ
０、検索ターム識別子Ｔ１，Ｔ２及びＴ３に加えて文脈
条件判定プログラム３４０へ送り出す。

【０１２０】文脈条件判定プログラム３４０では、上記
近傍条件判定プログラム３３０から入力した句点識別子
Ｔ０及び検索ターム識別子Ｔ１，Ｔ３並びにその位置情
報を基に、指定文脈条件をチェックする。文脈条件“Ｔ
１［Ｓ〕Ｔ３”は、上記句点識別子Ｔ０と、Ｔ１及びＴ
３の並びから判定する。すなわち、Ｔ１とＴ３がこの順
序でその前後を二つのＴ０で挟まれていれば文脈条件
“Ｔ１〔Ｓ〕Ｔ３”が成立したものと判断する。もしこ
の文脈条件“文書〔Ｓ〕検索”に合致するものが見つか
れば、その照合結果として該当条件に対応した項識別子
Ｉ２を、近傍条件判定プログラム３３０から入力した句
点識別子Ｔ０、及び検索ターム識別子Ｔ１，Ｔ３並びに
項識別子Ｉ１に加えて論理条件判定プログラム３５０に
送り出す。

【０１２１】論理条件判定プログラム３５０では、文脈
条件判定プログラム３４０から送られてくる句点識別子
Ｔ０及び検索ターム識別子Ｔ１，Ｔ３並びに項識別子Ｉ
１，Ｉ２の中から指定論理条件“ａｎｄ（Ｉ１，Ｉ
２）”に合致する識別子Ｉ１，Ｉ２があるかどうか調べ
る。すなわち、項識別子Ｉ１とＩ２の両者が見つかれば
大元の複合条件検索式Ｑが成り立ったことになり、その
テキスト（文書）は検索式Ｑで検索されたことになる。
該当テキストの例としては、同図に示したテキスト３０
２のようなものが検索されることになる。

【０１２２】一方、上記集合型磁気ディスク装置１１１
０ｃから、サーチエンジン１１０６、近傍条件判定プロ
グラム３３０、文脈条件判定プログラム３４０及び論理
条件判定プログラム３５０へ流れる照合情報の中にはこ
れまで説明しなかったテキストデータの識別子も含まれ
ている。すなわち、論理条件判定プログラム３５０では
検索式Ｑが成立したテキストデータについては、その文
書識別子を次段の検索結果表示プログラムへ送られ、こ
こでヒット件数が表示されたり、あるいはこの文書識別
子をもとに集合型磁気ディスク装置１１１０ｃから該当
文書の書誌事項が読み出され、これがディスプレイ１１
２０へ表示されることになる。

【０１２３】次に、本発明が提供するフルテキストサー
チ方式について具体的に説明する。本発明においては、
スキャン型のフルテキストサーチを加速する方法とし
て、２段階のプリサーチ、すなわち図１５に示す文字成
分表サーチ４０２と凝縮本文サーチ４０３を行スクに格
納されたテキスト本文を参照しに行く件数を予め絞り込
んでおく。こうすることによって、検索処理時間に占め
る割合が高い本文検索処理量を減らすことができ、全体
の検索処理時間を短縮することが可能となる。

【０１２４】これらは全て検索実行制御プログラムによ
って制御される。先ず、第１段階目のプリサーチである
文字成分表サーチの実施例について説明する。

【０１２５】本文字成分表サーチでは、図１６の登録処
理全体の流れ及び図１８に詳細に示したハッシュコード
化手順に示すように、後述する凝縮本文中のすべての文
字コードに対してその文字コードをテキスト中に含む文
書のリストを作成しておく。

【０１２６】すなわち、各文字コードの文書毎の有無を
１ビットの情報（ビットリストと呼ぶ）で表し、更にこ
れをハッシュ化したものを文字成分表５００として持
つ。

【０１２７】例えば、「検索」というキーワードが指定
された場合には、図１８に示すように「検」と「索」の
それぞれの文字毎にハッシュ関数５１０を介して文字成
分表５００のエントリアドレスを求める。そして、それ
ぞれの文字コードのハッシュ値から求められたビットリ
スト５０３および５０６のビット間の論理積を取ること
によって、「検」と「索」の両文字を含む文献のビット
リスト５２０が求められる。

【０１２８】以上の文字成分表サーチの処理手順は図２
３に示したとおりである。すなわち、指定された検索条
件式中に含まれるキーワード数分だけ文字成分表サーチ
を繰返し、各キーワードの文字成分表サーチでは、この
キーワードを構成する文字数分、それぞれの文字の存在
を示したビットリストの論理積ＡＮＤをとることにな
る。この結果、各キーワード毎に、これを含む可能性を
持った文書候補がビットリストの形で求まることにな
る。最後に、こうして求まったビットリストを文書識別
子へ変換する。この文書識別子はシステム内部でユニー
クに定められた文書番号であり、ビットリストの先頭か
らビット位置に対応して付与されている。

【０１２９】また、文字成分表サーチにおいて、指定さ
れた検索条件式中に論理積条件（ＡＮＤ）が設定されて
いる場合には、文字成分表サーチ処理の中で論理積条件
の処理も行い、これ以降の検索処理対象文書件数を絞り
込んでおくことによって、全体の検索処理時間を短縮す
ることが可能となる。

【０１３０】例えば、 “Ｑ＝ａｎｄ（文書、検索）” という検索条件式が入力された場合について説明する。
この検索条件式は、“文書”と“検索”が両方共表われ
る文書を検索する意味を表す。この場合、まずキーワー
ド“文書”にいて文字成分表サーチを行い、次に“検
索”というキーワードについて文字成分表サーチを行
う。その後、この両者の検索結果のビットリスト間の相
互のビット毎の論理積ＡＮＤをとり、文字成分表サーチ
の最終的な検索結果とする。この処理手順を図２４に示
す。本図では、検索条件式中に含まれるキーワード、す
なわちキーワード数分文字成分表サーチを繰り返すこと
になる。

【０１３１】そして、この各キーワード毎の文字成分表
サーチにおいては、このキーワードを構成する文字数
分、それぞれの文字の存在を示したビットリストの論理
積ＡＮＤをとる。この処理を、全キーワード数分行った
後、各キーワードの文字成分表サーチ結果のビットリス
ト間の論理積ＡＮＤをとる。こうして得られた最終ビッ
トリストは、検索条件式中の論理積条件で指定されたキ
ーワードを同時に含みうる文書候補を表すことになる。

【０１３２】以上の処理のように、指定された検索条件
式中に論理積条件（ＡＮＤ）が設定されている場合に
は、文字成分表サーチ処理の中で論理積条件の処理も行
い、これ以降の検索処理対象文書件数を絞り込むことに
よって、全体の検索処理時間を短縮することが可能とな
る。

【０１３３】この文字成分表５００は、各文字コードの
文献毎の有無を１ビットの情報で表すと共に、更にこれ
をハッシュ化しているため、テーブル容量は原デキスト
データの数十分の十になり、サーチすべきデータ容量も
極めて小さくなり、検索の高速化に大きく寄与すること
になる。ただし、この文字成分表サーチだけではノイズ
が生じてしまう。すなわち、検索処理手順を示す図１７
の文書３の様に「検」と「索」がばらばらに表れるテキ
ストも検索されてしまうことになる。このノイズを消去
するのが第二のプレサーチ、すなわち、凝縮本文サーチ
である。

【０１３４】第二のプリサーチである凝縮本文サーチで
は、凝縮本文を対象に検索を行う。凝縮本文は、予めテ
キスト本文の中から助詞や接続詞などの付属語を削除す
ると共に繰り返し現れる単語の重複を排除したものであ
る。図１９にこの凝縮本文の作成方法を示す。

【０１３５】ここでは、「あいまい検索のための知的検
索技術」６０１というテキスト文字列を例にとる。先ず
最初に文字種分割処理６１０において、入力文字列を異
なる文字種の間で分割する。この例では、「あいま
い」、「検索」、「のための」および「知的検索技術」
の４つの文字列６０２に分解される。

【０１３６】次に付属語解析処理６２０において、文字
種分割された文字列６０２のうち、ひらがな文字列「あ
いまい」と「のための」に対して付属語解析を加え、付
属語と解釈できるものは検索には用いられない言葉とし
て取り除く。すなわち、助詞や接続詞とみなせるものに
ついては捨ててしまう。このような言葉は、もし検索の
キーワードとして用いたとしても、ほとんど全ての文書
に現れるため、ほぼ全件がヒットしてしまうことにな
り、検索という意味をなさないことになる。この例で
は、ひらがな文字列「のための」６０３が助詞「の」
と、接続詞「ため」及び助詞「の」と、すべての部分文
字列が不要語と解釈できるので、検索には使われ得ない
文字列とみなして除去する。一方、「あいまい」は付属
語と解釈することができないので、そのまま凝縮本文と
して残す。この場合、「あいまい」を名詞として認識し
て残しているのではない。したがって、どのような新語
が文書に現れようとも、必ず凝縮本文に登録されること
になる。

【０１３７】最後に、重複登録排除処理６３０におい
て、不要語として除去された残りの文字列群６０２の中
に、同じ言葉がないかどうかを調べる。もし、同じもの
があれば二重登録しないように次のものを捨ててしま
う。まったく同じでなくとも、どちらかの文字列がもう
一方の文字列に含まれていれば、その含まれる文字列は
不要であるので捨ててしまう。本図の例では、「検索」
が「知的検索技術」に含まれるため、重複登録排除とい
うことで切り落とされる。その結果、凝縮本文として最
終的に、「あいまい」、「検索」及び「技術」が残るこ
とになる。このように、凝縮本文は単語単位で原文書を
情報圧縮したことになるため、この凝縮本文をサーチす
ることによって、例えば「検索」と連続した文字列、す
なわち単語としてキーワードが現れる文書のみを拾い出
すことが可能になる。

【０１３８】このようにして作成された凝縮本文は、原
テキストと比較しその約２０〜２５％に容量が減じられ
る。したがって、フルテキストサーチを等価的に約５倍
高速化できることになる。さらに、この凝縮本文を半導
体メモリなどの高速アクセスが可能なメモリ上に置くこ
とによって、さらに等価スキャン速度を高めることが可
能となる。

【０１３９】また、本凝縮本文の作成方式は、キーワー
ド辞書などを用いて検索に必要とする単語を切り出して
くる方法と異なり、辞書を用いず文法的に解析し得る不
要語だけを除去する方法を用いているために、必要な単
語を切り落してしまう危険性がなく、検索漏れが生じに
くい特徴がある。従来の検索方式ではキーワード辞書に
登録されていない新語などが採取できないことにより検
索漏れが生じたりするが、本方式では新語であっても凝
縮本文から落ちることがないため、新語ということによ
る検索漏れが生じることはない。

【０１４０】また、この凝縮本文検索は、サーチエンジ
ン１１０６（図１０）を用いて行われ、この後この凝縮
本文検索の結果絞り込まれた文書について、該当する本
文データをサーチし最後の複合条件による検索を行うこ
とになる。すなわち、本文サーチではテキスト本体をス
キャンしなければ判定ができない近傍条件と文脈条件の
判定処理を行いながら検索をすることになる。

【０１４１】通常、文字成分表と凝縮本文は、本文デー
タと共に集合型磁気ディスク装置１１１０ｃ（図３）に
格納されていて、検索システムの立ち上げ時にそれぞれ
半導体メモリ装置１１１０ａ及びＲＡＭディスク装置１
１１０ｂヘローディンされる。検索時には、それぞれ半
導体メモリ装置１１１０ａ及びＲＡＭディスク装置１１
１０ｂから読み出されることになる。また、本文データ
は格納元の集合型磁気ディスク装置１１１０ｃ（図１
３）から直接読み出されて、検索されることになる。

【０１４２】以上説明したように、事前に「文字成分表
サーチ」と「凝縮本文サーチ」という２段階のプリサー
チを行い、最も時間を要する「本文サーチ」の対象とな
る文書数を予め最小に絞り込んでおくことによって、等
価的に高速なフルテキストサーチが実現できるようにな
る。

【０１４３】本文検索では、テキストデータをスキャン
しなければ判別ができない近傍条件と文脈条件の判別処
理を加えて検索を行うことになる。通常、文字成分表及
び凝縮本文は集合磁気ディスクに格納されているが、シ
ステムの立上時にＲＡＭディスクにロードされ、検索時
にはＲＡＭディスクから読み出される。テキスト本文は
集合磁気ディスク装置２５１０（図２５）から読み出さ
れることになる。

【０１４４】このように、事前に２段階のプリサーチを
行い、最も時間を要する本文検索の対象となる文献数を
予め最小に絞り込んでおくことによって、等価的に高速
なフルテキストサーチが実現できることになる。

【０１４５】この３段階検索では、近傍条件検索と文脈
条件検索が指定されなかった場合には、本文をサーチす
る必要がないので、文字成分表サーチと凝縮本文サーチ
だけで検索を終了することができる。すなわち、図２１
に示すように、指定検索条件式中に近傍条件あるいは文
脈条件が含まれない場合には、キーワードが単語として
存在するか杏かだけを探索すればよいことになるため、
文字成分表サーチで指定キーワードを構成する文字を含
む文書を抽出し、その結果求められた文書の凝縮本文を
サーチしてキーワードが単語として含まれるもののみを
抽出し、検索を終えることができる。この結果、サーチ
時間が掛かる不要な本文サーチを省略できるため、検索
時間を全体として短縮することが可能となる。

【０１４６】また、この３段階の階層検索において、最
初の文字成分表サーチ結果がゼロ件で該当文書がなかっ
た場合には、ここで検索を打ち切ることが可能である。
すなわち、図２２に示すように、近傍条件あるいは文脈
条件が設定されていたとしても、次段の凝縮本文サーチ
とその後の本文サーチを省略することができる。同様
に、凝縮本文サーチ結果件数がゼロ件の場合には、たと
え近傍条件あるいは文脈条件が設定されていたとして
も、次段の本文サーチを省略することが可能である。こ
の結果、入力された検索条件式に応じて最小の時間で検
索処理を済ませることが可能となる。

【０１４７】以上説明した階層型のプリサーチでは、半
導体メモリ上に置いた文字成分表と凝縮本文で絞り込み
を行い、最後に本文を集合磁気ディスク装置から読み出
して検索を行う方式としている。このように凝縮本文を
半導体メモリに置く方式では、半導体メモリを用いる分
検索装置のコストが高くなる。したがって、凝縮本文を
磁気ディスク装置上に置いて検索を行うことにより、半
導体メモリを不要とすることができ、装置のコストを低
く抑えることが可能となる。

【０１４８】ただし、文字成分表サーチで絞り込んだ結
果で凝縮本文サーチを行う場合、凝縮本文を集合磁気デ
ィスク装置上から選択的に読み出すことになる。この場
合、比較的小容量の多数のデータをアクセスすることに
なるため、集合磁気ディスク装置からの実効的な読み出
し速度、すなわちスループットは、データの読み出し時
間よりも、むしろシーク時間に大きく影響されることに
なる。したがって、文字成分表サーチの結果件数が多い
場合には、アクセス時間が極めて短い半導体メモリ上に
凝縮本文を置いた場合に比較して、凝縮本文サーチ時間
が極めて大きくなることになる。このような場合には、
凝縮本文を選択的に拾い読みするより、全件を１ファイ
ルとしてまとめ読みする方がシーク回数を減少させるこ
とができるため、はるかに短時間で読み出しを行うこと
が可能となる。

【０１４９】したがって、検索装置のコストを低減する
ために、凝縮本文を半導体メモリではなく磁気ディスク
装置上に置いたまま検索する場合、図２０Ａに示すよう
な手順で検索を行うことによって、検索速度を大きく落
とすとこなく検索を行うことが可能となる。すなわち、
文字成分表サーチの結果件数が所定件数よりも多い場合
には、この文字成分表サーチの検索結果を無視して、新
たに凝縮本文を全件集合磁気ディスク装置から読み出し
て指定キーワードの存在を検索する。もし、文字成分表
サーチの結果件数が所定件数よりも少ない場合には、集
合磁気ディスク装置上の該当凝縮本文を選択的に読み出
して凝縮本文サーチを行う。

【０１５０】この場合の所定件数とは、凝縮本文をこの
所定件数分選択的に読み出す時間と、凝縮本文を全件一
つのファイルとして連続的に読み出す時間が等しくなる
ような読み出し件数のことである。また、この場合も当
然凝縮本文サーチ結果件数がゼロ件の場合には、近傍条
件及び文脈条件の設定の有無にかかわらず、ここで検索
処理を打ち切ることが可能である。

【０１５１】また、本文データの容量が小さい場合に
は、一般的に冗長な文章が少ないため、凝縮本文の大き
な圧縮率は望めない。したがって、ファイルの読み出し
時間においてディスクのシーク時間と回転待ち時間が支
配的なことを考慮すれば、凝縮本文の読み出し時間と本
文の読み出し時間に大きな差が生じなくなることにな
る。すなわち、文字成分表サーチの結果件数が所定件数
よりも少ない場合には、図２２Ｂに示すように集合型磁
気ディスク装置上の該当本文データを選択的に読み出し
て本文サーチを行う方が効率的になる。つまり、最初の
文字成分表サーチの結果件数が所定件数よりも多い場合
には、この文字成分表サーチの検索結果を無視して、新
たに凝縮本文を全件集合型磁気ディスク装置から読み出
して指定キーワードの存在を検索する。この場合、当該
凝縮本文サーチ結果件数がゼロ件の場合には、近傍条件
及び文脈条件の設定の有無にかかわらず、ここで検索処
理を打ち切る。ゼロ件でない場合には、条件式中に近傍
条件あるいは文脈条件が設定されているかを見て、もし
設定されているときには本文サーチを行うことになる。
一方、文字成分表サーチの結果件数が所定件数よりも少
ない場合には、集合型磁気ディスク装置上の該当本文を
選択的に読み出して近傍条件及び文脈条件を含めて本文
サーチを行うことになる。このような検索手順を踏むこ
とによって、文書データの平均容量が小さい場合には、
さらに効率的な検索が行えるようになる。

【０１５２】このように、文字成分表サーチの結果件数
に応じて凝縮本文の読み出し方法を変えることによっ
て、凝縮本文を集合磁気ディスク装置上に置いても、検
索時間を大幅に増やすことなく検索処理ができるように
なるため、低価格で高性能な全文検索装置の提供が可能
となる。

【０１５３】次に本発明による同義語展開及び異表記展
開の変形例について説明する。

【０１５４】図２８は本発明の実施例の構成を示すブロ
ック図である。本実施例は、コンソール２８００、対話
制御部２８０１、異表記展開処理部２８０２及び２８０
５、同義語展開処理部２８０３、同義語辞書ファイル２
８０４、文字列統合列部２８０６、文字列検索処理部２
８０７、テキストデータベース２８０８から構成されて
いる。コンソール２８００から入力された検索文字列４
０は、対話制御部２８０１を介して異表記展開処理部２
８０２へ送られる。異表記展開処理部２８０２で展開し
た文字列群４１は、同義語展開処理部２８０３へ送られ
ると共に、文字列統合処理部２８０６へも送られる。同
義語展開処理部２８０３では、同義語辞書２８０４を参
照し送られてきた文字列群４１の各文字列と辞書の見出
しとのマッチングをとり、一致した文字列が存在すれ
ば、同義語展開モード制御信号２８１０に従い、辞書に
記載してある見出しに対応する言葉を出力し、異表記展
開処理部２８０５へ文字列群４２を送る。異表記展開処
理部２８０５では、同義語展開された文字列４２に対
し、異表記展開処理部２８０３と全く同じ処理方法で異
表記展開して、文字列群４３を文字列統合処理部２８０
６へ出力する。文字列統合処理部２８０６は、異表記展
開処理部２８０２と２８０５から受け取った文字列群４
１と文字列群４３を、一つの文字列群４４にまとめて文
字列検索部２８０７へ出力する。文字列検索部２８０７
は、受け取った文字列群４４のうちのいずれかの文字列
が存在するものをテキストＤＢから検索して、ヒットし
た文書の識別子情報などを、対話制御部２８０１へ検索
結果４５として出力する。対話制御部２８０１は、この
検索結果４５を受けて、検索結果件数４６や、テキスト
情報４６を適宜コンソール２８００へ出力する。

【０１５５】異表記展開処理部２８０２と２８０５は全
く同一のものである。文字列検索部２８０７は公知の技
術で、例えば特開昭６３−３１１５３０を用いて実現で
きる。テキストＤＢ４０８は、文字コード情報であれ
ば、新聞記事データでも、ワープロで作成した文書のデ
ータでも、電子ファイリングシステムの書誌事項データ
でも構わない。

【０１５６】以下、異表記展開処理部２８０２、２８０
５と同義語展開処理部２８０３の構成作用について詳細
に説明する。

【０１５７】まず、異表記展開処理の概要を図２９を用
いて説明する。ここでは、最初に入力文字列２９０１を
異なる字種の間で切断し、部分文字列へ分割する。

【０１５８】例えば、入力文字列２９０１“卓上型イン
タフォーン”の場合には、漢字文字列２９０２“卓上
型”と、カタカナ文字列２９０３“インタフォーン”へ
文字種に従って分割する。次に、分割した文字列毎に異
表記展開を行ない、漢字異表記文字列リスト２９０４、
カタカナ異表記文字列リスト２９０５を得る。その後、
漢字異表記文字列リスト２９０４及びカタカナ異表記文
字列リスト２９０５をそれぞれ展開し、２つの文字種で
別々に展開した文字列群を１つに組み合せて最終結果２
９０６として出力する。

【０１５９】次に、図３０を用いて異表記展開の処理内
容を詳細に説明する。図３０は、本発明における異表記
展開手段の実施例を示すブロック図である。本実施例の
構成は、文字種分割・選別部３００１、ローマ字判別部
３００２、ローマ字カナ変換部３００３、漢字異表記展
開部３００４、カタカナ異表記展開部３００５、アルフ
ァベット異表記展開部３００６、カナローマ字変換部３
００７、分割文字列統合部３０１０よりなる。

【０１６０】異表記展開処理部２８０２あるいは２８０
５への入力文字列３０２０は、まず文字種分割・選別部
３００１へ送られる。文字種分割・選別部３００１では
入力文字列３０２０を、上述したように漢字及びひらが
な文字列３０３１、カタカナ文字列３０３２、アルファ
ベット文字列３０３３、それ以外の文字列３０３０の４
種類の部分文字列に分割する。分割した部分文字列をそ
れぞれの文字種に従って分類し、別々の展開処理を施
す。以下文字種別に、その展開処理の概要を示す。

【０１６１】（１）漢字・ひらがな・カタカナ・アルフ
ァベット以外の文字列この文字種には数字、記号、特殊文字あるいは外字コー
ド等が当たる。本実施例ではこれらの文字種を、展開せ
ずに入力した文字列３０３０をそのまま分割文字列統合
部３０１０へ出力している。しかし数字に関して英数字
を漢数字に変換したり、英記号に関して記号“・”を
“−”や“／”に展開することなども考えられる。

【０１６２】（２）漢字・ひらがな文字列これらの文字種に関しては、文字列３０３１を漢字異表
記展開部３００４にて、漢字の新旧字体及び送りがなに
ついての異表記展開をする。漢字異表記展開部３００４
の出力文字列３０４１は、分割文字列統合部３０１０へ
送られる。

【０１６３】（３）カタカナ文字列この文字種に関しては、文字列３０３２をカタカナ異表
記展開部３００５にて、類似音節の表記について異表記
展開を行う。展開した文字列３０４２は、分割文字列統
合部３０１０へ送られる。また、同時にカナローマ字変
換部３００７へも送られる。カナローマ字変換部３００
７でローマ字へ変換された文字列３０５３は、アルファ
ベット異表記展開部３００６にて、アルファベットの大
小文字に関する異表記展開が行なわれ、文字列３０４３
として分割文字列統合部３０１０へ送られる。

【０１６４】（４）アルファベット文字列この文字種に関しては、日本語のローマ字表現の場合
と、外国語の原語の場合の２つの場合がある。

【０１６５】ここでは、まずローマ字判別部３００２
で、文字列３０３３がローマ字か外国語かの判定をす
る。この判定基準には、ローマ字の表記法を用いてい
る。すなわち、アルファベット文字の並びがローマ字の
表記法に合っていればローマ字と判定し、ローマ字とし
て解釈不能の場合は外国語と判定する。この判定は、ロ
ーマ字カナ変換部３００３で兼ねることもできる。すな
わち、ローマ字カナ変換ができれば、ローマ字と判定
し、そうでない場合に外国語と判定する。また、この判
定には本実施例の方法以外にも、外国語辞書を使うとい
った方法も用いることが可能である。

【０１６６】ローマ字判別部３００２でローマ字と判定
した文字列３０５１は、ローマ字カナ変換部３００３に
送られ、ここでカタカナ文字列３０５２に変換され、こ
れを更にカタカナ異表記展開部３００５で、類似音節に
関する異表記展開を行い文字列群３０４２を得る。文字
列群３０４２に対するこの後の処理は、（３）のカタカ
ナ文字列の処理と同じである。すなわち、カタカナ異表
記展開された文字列群３０４２は、分割文字列統合部３
０１０へ送られると共に、カナローマ字変換部３００７
へも送り出される。カタカナ文字列群３０４２は、カナ
ローマ字変換部３００７で各々ローマ字へ変換され、ロ
ーマ字文字列群３０５３としてアルファベット異表記展
開部３００６に送られる。該ローマ字文字列群３０５３
は、アルファベット異表記展開部３００６でアルファベ
ットの大小文字に関する異表記展開を施された後、分割
文字列統合部３０１０へ送られる。

【０１６７】一方、ローマ字判別部３００２で外国語と
判定された文字列３０３４は、ローマ字カナ変換せず
に、アルファベット異表記展開部３００６へ送られ、そ
の出力文字列３０４３は分割文字列統合部３０１０へ送
られる。

【０１６８】以上、異表記展開処理の流れについて説明
した。続いて、この異表記展開処理における各処理ブロ
ックの詳細について説明する。

【０１６９】まず始めにカタカナ異表記展開部３００５
の処理について説明する。図３１は異表記展開部におけ
る処理をカタカナ文字列を例にして説明した図である。
ここでは、“インタフォーン”という入力文字列を例と
している。異表記展開処理は、変換ルールを参照して行
う。また、その変換処理は、入力文字列中の部分文字列
として変換対象となり得るものがあれば、該変換ルール
を参照して他の表記に置き換えるものである。この変換
ルールのテーブル形式も本図に示されている。この変換
ルールテーブルは、見出し部と展開部文字列リスト部か
ら構成されている。入力文字列中に、変換ルールテーブ
ルの見出し部分に相当するものが存在すれば、該当部分
を展開文字列リスト部に記述された異表記文字列群で順
次置き換えていく。

【０１７０】この見出し文字列の探索は、入力文字列の
先頭から最長一致法により行なう。すなわち本図に示し
たように、入力文字列中の“フォー”という部分文字列
と“フォ”という部分文字列の両方が見出しにある場合
には、より長い見出しの“フォー”のほうの変換ルール
を適用する。

【０１７１】図３１の例を用いて、この見出し文字列探
索及び展開文字列リストへの置き換え処理を説明する。
見出し文字列探索において、入力文字列中の部分文字列
と見出し文字列との照合のため、探索ポインタを設定す
る。入力文字列と見出し文字列の照合時には、探索ポイ
ンタの位置を動かしながら、入力文字列中の探索ポイン
タを先頭とする文字列と、見出し文字列との照合を行な
っていく。まず探索ポインタを入力文字列の先頭文字に
セットする。従って、この例では文字“イ”から見出し
文字列の探索を開始することになる。該当する見出しが
存在しないので、探索ポインタを１文字移動して“ン”
を先頭とする文字列からもう一度見出し文字列を探索す
る。また該当する見出しが存在しないので、もう１文字
探索ポインタを移動して“タ”の文字から見出し文字列
を探索する。今後は“タ”の見出し文字列が見つかるの
で、“タ”の部分を展開文字列リスト部に記述された
“タ”と“ター”に置き換える。そして探索ポインタを
見出し“タ”の文字数分、すなわち１文字分移動する。
次に“フ”の文字から見出し文字列探索し、該当する見
出し“フォー”と“フォ”を得る。今度は２つの見出し
文字列が照合するが、このように複数個の照合した見出
し文字列がある場合、最長一致法に従い、最も長い見出
し文字列のある変換ルールを採用する。この例では、見
出し“フォー”のほうが“フォ”より長いので、“フォ
ー”を展開用変換ルールとして採用し、入力文字列内の
部分文字列“フォー”を展開文字列リスト部に記述され
た“フォー”、“フォ”、“ホー”及び“ホ”に置き換
える。そして探索ポインタを見出し“フォー”の文字数
分、すなわち３文字分移動する。最後に入力文字列中の
最終文字、“ン”から見出し探索を行なうことになる
が、該当する見出しがないので文字“ン”は、展開処理
が施されずそのままとなる。こうして探索ポインタが入
力文字列の最終位置に来たので処理を終了する。

【０１７２】以上の処理の結果として生成された展開リ
ストを含む文字列“イン（タ，ター）（フォー，フォ，
ホー，ホ）ン”の展開リストを組み合せることによって
最終的な異表記展開文字列が得られる。この例では、
“タ”の部分で２通り、“フォー”の部分で４通りに展
開するので展開結果は２×４の８通りの文字列、すなわ
ち１）“インタフォーン” ２）“インタフォン” ３）“インタホーン” ４）“インタホン” ５）“インターフォーン” ６）“インターフォン” ７）“インターホーン” ８）“インターホン” となる。

【０１７３】以上の見出し文字列探索と展開文字列リス
トへの置き換え処理を図３２に示すＰＡＤ図で説明す
る。まず探索ポインタを入力文字列の先頭にセットす
る。次に現在の探索ポインタを先頭とする文字列で、変
換ルールの見出し文字列があるかどうかを探索する。も
しもマッチングする見出しがなければ、探索ポインタを
１文字後方に移動してから、再び探索ポインタを先頭と
する文字列でマッチングする見出し文字列を探索する。
マッチングする見出しが存在する場合には、マッチング
した見出しのうち最も長い見出しを採用して、該当部分
を展開文字列リストで置き換える。置き換えがすんだら
探索ポインタをマッチングした見出し文字列の文字数分
後方に移動する。そして、探索ポインタが入力文字列の
最終位置に来るまで、上記の見出し文字列探索と展開リ
ストへの置き換え処理を繰り返す。

【０１７４】いままで説明してきた異表記展開における
見出し文字列の探索方法に関するもう一つの実施例につ
いて図３３を用いて説明する。本実施例では、見出し文
字列の探索にオートマトンを用いている。以下、その手
順について述べる。まず変換ルールにより、図に示すよ
うなオートマトンを生成する。異表記展開処理は、この
オートマトンに入力文字列を１文字ずつ入力して、その
オートマトンの動作出力から図３１で説明した展開文字
列リストを含む文字列を得る。

【０１７５】以下、具体的にその動作内容について説明
する。本図において記号ａは入力文字を、丸はオートマ
トンを構成する各状態を、丸の中の数字はその状態番号
を示す。線上の文字は、その文字が入力されたとき、矢
印の方向へ状態を遷移することを示す。記号‘ ’
は、その後に続く文字以外の文字を表す。また、記号
‘→’は、以下に続く文字列を出力することを示す。こ
のオートマトンは、その動作を制御するための状態遷移
テーブルと、各状態の出力を記述する出力テーブルから
なる。状態遷移テーブルは、図３４に示すものとなる。

【０１７６】ここでは、各状態における入力文字とその
文字が入力されたときに遷移する遷移先の状態番号が対
として記述されている。但し状態０へ遷移する場合は記
述を省略してある。すなわち、各状態において状態遷移
テーブルに記述されていない文字が入力した場合には、
状態０へ遷移するものとしている。出力テーブルには図
３５に示すように、オートマトンの各状態において、出
力する文字列リストが記述されている。オートマトンが
動作する場合、状態０以外の状態から状態０へ遷移する
場合のみ、この出力テーブルを参照して該当する展開文
字列を出力する。そして出力がすんだら、もう一度状態
０への遷移を引き起こした文字をオートマトンへ入力
し、状態遷移テーブルを参照してオートマンを再遷移さ
せる。状態０から状態０へ戻る場合には、入力文字をそ
のまま出力する。

【０１７７】以上、オートマトン方式における状態遷移
の制御及び出力について説明した。次に、具体例をもと
に、この動作を詳細に説明する。以下、図３３の入力例
“インタフォーン”の文字列が１文字入力される毎の動
作について記述する。最初、オートマトンの状態は、状
態０にある。

【０１７８】（１）文字“イ”が入力されると状態遷移
テーブルに状態０からの遷移先が登録されていないの
で、そのまま“イ”が出力された状態は０のままとな
る。

【０１７９】（２）文字“ン”が入力されると状態遷移
テーブルに状態０からの遷移先が登録されていないの
で、そのまま“ン”が出力され状態は０のままとなる。

【０１８０】（３）文字“タ”が入力されると状態遷移
テーブルを参照し、現在の状態０から遷移先として状態
番号６が読み出され、状態は６に移る。

【０１８１】（４）文字“フ”が入力されると状態遷移
テーブルからは状態６から“フ”で遷移する遷移先が得
られない。かつ現在の状態は０でないので、出力テーブ
ルが参照され状態６での出力文字列“タ”と“ター”が
出力される。その後、状態は０に移動する。さらに、こ
の新しい状態０でもう一度入力文字の“フ”をオートマ
トンに入力する。その結果、状態遷移テーブルの内容に
従って状態０から状態１に状態が移動する。

【０１８２】（５）文字“オ”が入力されると状態遷移
テーブルの内容から、状態１より状態２へ状態が移動す
る。

【０１８３】（６）文字“ー“が入力されると状態遷移
テーブルの内容から、状態２より状態３へ状態が移動す
る。

【０１８４】（７）文字“ン”が入力されると状態遷移
テーブルからは状態３から“ン”で遷移する遷移先状態
番号が得られない。かつ現在の状態は状態０でないの
で、出力テーブルが参照され、状態３での出力文字列
“フォー”、“フォ”、
“ホー”及び“ホ”が出力される。その後、状態が０に
移り、もう一度入力文字の“ン”がオートマトンに入力
される。ここでは、状態遷移テーブルから遷移先が得ら
れないので入力文字の“ン”がそのまま出力される。

【０１８５】（８）入力文字列の最終文字まで来たの
で、処理を終了する。こうして展開リストを含む文字列
“イン（タ，ター）（フォー，フォ，ホー，ホ）ン”が
得られる。

【０１８６】次に、この見出し文字列探索用オートマト
ンの生成方式を図３６を用いて説明する。このオートマ
トン生成は、実際に入力文字列が送られてくる前に一度
作っておけば良い。本図は探索オートマトンの生成方
法、すなわち状態遷移テーブル及び出力テーブルの作成
方式をＰＡＤ図で表したもので、以下この内容について
説明する。まず状態遷移テーブル及び出力テーブルを初
期化する。次に、一つずつルールを取り出しながら変換
ルールの終わりまで以下の処理を繰り返す。

【０１８７】（１）状態番号を０にセット（２）見出し文字列の終わりまで１文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく。すなわち状
態遷移テーブルを参照し、取り出した文字による遷移先
が登録されていれば遷移先状態に移動する。遷移先が登
録されていなければ、新しい状態番号を生成し、状態遷
移テーブルに追加登録する。そして、今の状態を新しい
状態に移動する。さらに出力テーブルに状態０から今の
状態へ遷移させてきた文字列を登録する。（３）見出し
文字列の全文字について（２）の処理が終了した後、出
力テーブルの現在の状態番号と、変換ルールの展開文字
列リストを登録する。

【０１８８】具体的な処理の流れを２つの変換ルール
〔“フォー”→（“フォー”，“フォ”，“ホー”，
“ホ”）〕と〔“フォ”→（“フォー”，“フォ”，
“ホー”，“ホ”）〕を使って説明する。

【０１８９】まず１番目の変換ルールの見出し文字列
“フォー”について処理する。

【０１９０】（１）文字“フ”の入力状態遷移テーブルは最初初期化されているため、遷移先
状態番号は一つも登録されていない。従って新しい状態
番号１を生成し、状態を１に移動する。そして、出力テ
ーブルに状態０から状態１への遷移を引き起こす文字列
“フ”を状態番号１の出力として登録する。

【０１９１】（２）文字“オ”の入力状態遷移テーブルに今の状態１からの遷移先は定義され
ていない。従って新しい状態番号２を生成し、状態を２
に移動する。そして出力テーブルに状態０から状態２に
至るまでの文字列“フォ”を状態番号２の出力として登
録する。

【０１９２】（３）文字“ー”の入力状態遷移テーブルに今の状態２からの遷移先は定義され
ていない。従って新しい状態番号３を生成し、状態を３
に移動する。そして出力テーブルに状態０から状態３に
至るまでの文字列“フォー”を状態番号３の出力として
登録する。また、これで見出し文字列の最終文字である
ので、変換ルールの展開文字列リスト（“フォー”，
“フォ”，“ホー”，“ホ”）を、先に登録した出力文
字列“フォー”を入れ替える形で、状態３の出力として
出力テーブルに登録する。

【０１９３】次に２番目の変換ルールの見出し文字列
“フォ”について処理を実行する。処理に先立ち、状態
は０に戻る。

【０１９４】（４）文字“フ”の入力先に登録した状態遷移テーブルを参照して、遷移先の状
態番号１を得、状態を１に移動する。

【０１９５】（５）文字“オ”の入力状態遷移テーブルを参照して、遷移先の状態番号２を
得、状態を２へ移動する。出力テーブルに状態２の出力
は既に登録されているが、見出し文字列の最終であるの
で、出力テーブルに状態２の出力として既に登録されて
いる。

【０１９６】“フォ”を、変換ルールの展開文字列リス
ト（“フォー”，“フォ”，“ホー”，“ホ”）に書き
換える。

【０１９７】以上の処理により、上記二つの変換ルール
を探索するオートマトンを作成することができる。具体
例で示した２つの変換ルール以外についても、これと全
く同様の手順でオートマトンにすることができる。

【０１９８】以上、例で説明してきたカタカナ異表記展
開用の変換ルールテーブルの詳細を図３７に示す。この
他、変換ルールテーブルの作成には、カタカナ文字列の
類似音節表記に関してその表記の原則を定めた「昭和２
９年国語審議会報告外来語の表記」を利用することが
できる。。すなわち上記報告書ではカタカナ文字列の異
表記が示され、その表記を統一化するための原則が述べ
られているが、これを逆に利用して変換ルールを作成す
ることができる。

【０１９９】今までカタカナ文字列の異表記展開につい
て例をあげて説明してきたが、漢字文字列の異表記展開
についても、漢字文字列用の変換ルールテーブルを用い
るだけで全く同じ処理で実現できる。漢字の新旧字体に
関する異表記展開用の変換ルールテーブルの例を図３８
に示し、送りがなに関する異表記展開ルールの例を図３
９に示す。

【０２００】また、図３７から図３９に示した異表記展
開ルールテーブルは、必要に応じて追加修正が可能であ
り、従ってユーザの望む異表記展開が可能となる。

【０２０１】以上が漢字異表記展開部３００４、カタカ
ナ異表記展開部３００５の処理の詳細である。

【０２０２】次にローマ字の異表記展開に関する説明を
する。本実施例では、ローマ字の異表記展開をするの
に、ローマ字で入力された文字列を一旦カタカナ文字列
へ変換した後、これをカタカナ異表記展開し、もう一度
カナローマ字変換によりローマ字に戻すという方法を採
っている。従って、ローマ字の異表記展開に関する部分
は、図３０のローマ字カナ変換部３００３とカナローマ
字変換部３００７の２つとなる。

【０２０３】まずローマ字カナ変換部の処理内容につい
て説明する。アルファベット文字列が入力されると、ま
ずローマ字カナ変換が行われる。ローマ字カナ変換部３
００３では、図４０の示すようなローマ字とカタカナの
対応表を用いて、ローマ字カナ変換が行われる。同図に
おいて、例えば１番目のレコードではローマ字の“Ａ”
がカタカナの“ア”に対応することを示している。ロー
マ字の項目中に複数個の文字列を並んでいるレコードに
関しては、複数個並んでいる全ての文字列がカタカナの
項目に対応していることを示している。例えば、ローマ
字の“ＳＹＡ”及び“ＳＨＡ”が、カタカナの“シャ”
に対応する。これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している。従って、このロ
ーマ字カナ変換部３００３では訓令式でもヘボン式でも
あるいはこれらの混合したような表記法に文字列でもカ
タカナへ変換されることになる。変換方法は、前述した
漢字異表記展開、カタカナ異表記展開と同様である。す
なわち、入力文字列と対応表のローマ字文字列を最長一
致で探索して、順次対応するカタカナ文字列に置き換え
ていく。もし、対応するローマ字文字列が対応表に見つ
からないときは、入力文字列はローマ字でないと判断
し、カタカナ文字列の出力を行わない。

【０２０４】次にカナローマ字変換部３００７の説明を
する。ここでも図４０の対応表をそのまま用いる。こん
どは逆に入力文字列と対応表のカタカナ文字列とを最長
一致でマッチングを取りながら順次ローマ字へ入力文字
列を置き換えていく。前述の“シャ”の例のように対応
するローマ字表記が複数個存在するときには、該当部分
を部分文字列のリストとして置き換えていく。すなわ
ち、カタカナの入力文字列に対し、異表記展開の処理と
同様に展開リストを含む文字列に展開し、その展開リス
トの部分を組み合わせることによってローマ字異表記展
開の結果を得ることができる。これを“シシャモ”とい
うカタカナ文字列が入力された場合を例にして説明す
る。この時、入力文字列“シシャモ”に対してカタカナ
ローマ字対応表とのマッチング処理により、“（ＳＩ，
ＳＨＩ）（ＳＹＡ，ＳＨＡ）ＭＯ”という展開リストを
含む文字列が得られる。従って、展開リストの組み合せ
により、１）“ＳＩＳＹＡＭＯ” ２）“ＳＩＳＨＡＭＯ” ３）“ＳＨＩＳＹＡＭＯ” ４）“ＳＨＩＳＨＡＭＯ” という４種類のローマ字異表記文字列が得られることに
なる。以上が異表記展開の処理に関する説明である。

【０２０５】これまで、説明してきた異表記展開の実施
例においては、漢字ひらがな文字列、カタカナ文字列、
ローマ字文字列、及びアルファベット文字列の全てにつ
いて展開処理を行っているが、これらの処理を選択的に
行うことも可能である。すなわち、異表記展開後の出力
文字列の種類を、１）漢字ひらがな文字列２）カタカナ文字列３）ローマ字文字列４）アルファベット文字列のいずれかもしくは、これらの混合した文字列を異表記
展開結果として出力するように制御することができる。
こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き、かつユーザの要求に応
じた検索処理が可能となる。

【０２０６】以下、この異表記展開結果の文字種制御方
法について説明する。

【０２０７】この出力文字種の制御は図４１に示すよう
に、図３０の実施例の構成に更にアルファベット文字列
３０３４の出力制御を行うスイッチａ３００８、及びカ
タカナ文字列群３０４２の出力制御を行うスイッチｂ３
００９を設けることで実現する。また、漢字異表記展開
部３００４、カタカナ異表記展開部３００５、カナロー
マ字変換部３００７、スイッチａ３００８、及びスイッ
チｂ３００９の出力を制御する制御信号線３０６１、３
０６２、３０６３、３０６４、３０６５をそれぞれ設け
る。そして、ユーザが設定する異表記展開結果出力文字
種の指定モードにより該制御信号をＯＮ，ＯＦＦするこ
とでモードに応じた異表記展開を実現する。例えば、ロ
ーマ字異表記展開が不要な場合にはカナローマ字変換部
３００７の制御信号３０６３をＯＦＦして出力を止め
る。このような展開モードによる各変換部、展開部、ス
イッチの制御信号の組み合せを図４２に示す。図におい
て、展開モードはそれぞれｃ：漢字及びひらがな異表記展開ｋ：カタカナ異表記展開ｒ：ローマ字異表記展開ａ：アルファベット異表記展開を実施し、出力することを示している。複数文字では複
数の異表記の出力指定を表す。例えば展開モード‘ｃｋ
ａ’は漢字ひらがな、カタカナ及びアルファベットの各
異表記を異表記展開結果として出力するモードであるこ
とを表す。また、表中の○は該当モジュールが文字列を
出力することを示す。逆に○がついていないところは、
文字列を出力しない。例えば、‘ｃｋａ’という文字列
展開モードでは、ローマ字カナ変換部３００３、漢字異
表記展開部３００４、カタカナ異表記展開部３００５が
展開文字列を出力し、スイッチａ３００８、及びスイッ
チｂ３００９が入力文字列を通すが、カナローマ字変換
部３００７は文字列を出力しないことを示す。

【０２０８】最後に同義語展開処理について説明する。

【０２０９】同義語展開処理部２８０３は、図４３に示
すような同義語辞書を持つ。図において、レコード番号
とは、辞書中の各見出し文字列に付与されている一連番
号である。各見出し文字列には、それぞれ同位語、上位
語、下位語、関連語が定義されている。同図の同位語、
上位語、下位語、関連語の項目に記述されている番号は
全て同辞書のレコード番号を示す。例えば見出し“計算
機”は、同位語としてレコード番号２および３、すなわ
ち“コンピュータ”と“情報処理装置”を持っているこ
とを表している。同義語展開では辞書中のどの項目を用
いて展開するか、図２８の同義語展開モード制御信号２
８１０によりユーザがモードを設定できるようにしてい
る。設定可能なモードは次の通りである。すなわち、ｕ：同位語を使った展開ｂ：上位語を使った展開ｎ：下位語を使った展開ｒ：関連語を使った展開およびｕ，ｂ，ｎ，ｒの各モードを組み合せた展開がで
きるようにしている。

【０２１０】同義語展開の処理は、同義語展開部への入
力文字列中に存在する辞書の見出し文字列を探索するこ
とによって行う。すなわち、異表記展開処理における変
換ルールの見出し文字列の探索の場合と同様に、入力文
字列の先頭から最長一致により見出し文字列を探索す
る。そして、同位語展開の場合には入力文字列において
照合された部分文字列を、順次同位語文字列のリストで
置き換えていく。この際、照合した見出し文字列をも加
えて書き替えを行う。上位語展開、下位語展開、関連語
展開の場合には、入力文字列と見出し文字列が完全に一
致した時に限って、上述の置き換え出力を行う。すなわ
ち、入力文字列中で部分的に一致しただけでは、展開を
行わない。これは、上位語展開、下位語展開、関連語展
開において部分的な文字列の置き換えは意味のない単語
を作ってしまうためである。

【０２１１】同位語展開の処理を例を用いて説明する。

【０２１２】入力文字列が“大型計算機”とすると、同
義語辞書の見出し文字列探索を行うことにより、入力文
字列の３文字目から見出し文字列“計算機”が照合す
る。同義語辞書のレコード番号１の“計算機”から、同
位語としてレコード番号２の“コンピュータ”とレコー
ド番号３の“情報処理装置”が同位語リスト（“計算
機”，“コンピュータ”，“情報処理装置”）として得
られる。入力文字列の該当部分をこのリストで置き換え
ることにより、異表記展開処理の場合と同様に、展開リ
ストを含む文字列“大型（計算機，コンピュータ，情報
処理装置）”が得られる。この展開リストを組み合せて
（この場合は一つしかリストがないが（１）“大型計算機” （２）“大型コンピュータ” （３）“大型情報処理装置” の３つの同位語文字列が得られることになる。

【０２１３】次に上記語展開の処理について例をあげて
説明する。

【０２１４】入力文字列が“計算機”の場合、同義語辞
書の見出し文字列探索で入力文字列と見出し文字列“計
算機”が完全一致する。そこで、上位語としてレコード
番号４の“電子機器”が出力される。この場合には上位
語が一つしかないが、もちろん複数個あってもよい。複
数個の上位語が存在する場合には、前述のようにリスト
として出力する。

【０２１５】下位語、関連語についても上位語展開と全
く同じ処理とする。なお、同義語展開において辞書中に
該当する文字列が存在しないときは同義語展開処理部２
８０３から、何も文字列が出力されない。

【０２１６】以上同義語展開の処理の実施例について説
明した。ところで同義語展開では、辞書を使用するため
に辞書レコード数が多くなると見出し文字列探索に時間
が掛かることがある。この問題の解決として、辞書の見
出し文字列をインデクステーブルを用いて探索する方法
がある。図４４に、このやり方の概要を示す。同義語辞
書は、予めその見出し文字列にてアルファベット順に並
べておく。そして、同義語辞書とは別に見出し文字列の
第一番目の文字だけを集め、その文字から始まる見出し
が辞書のどの部分から始まるかを登録したインデクステ
ーブルを持つ。例えば文字“Ａ”で始まる見出しはレコ
ード番号１から存在していることを示している。見出し
文字列探索をするときには、まずこのインデクステーブ
ルを参照し、レコード番号を求め、次にこれに基づいて
同義語辞書にアクセスする。こうすることにより、同義
語辞書の全見出し文字列をスキャンする必要がなくなる
ため、処理時間が短縮できる。例えば、文字“計”で始
める文字列を探索しようとした場合、インデクステーブ
ルにより、“計”で始まる文字列が辞書のレコード番号
５０１から存在することがわかる。従って、それ以前の
無駄な文字列探索を省くことができる。さらに、見出し
文字列をアルファベット順に並べることにより、見出し
文字列の探索中に先頭文字の異なる見出しまで探索した
ら後の探索は省略できる。例えば“計”で始まる見出し
文字列を探索していれば、“計”以外の文字で始まる見
出し“情報処理装置”まで探索すれば後の不要な探索を
おこなわなくとも済む。

【０２１７】また、インデクステーブル及び辞書中の同
位語などの記述にレコード番号を用いたが、これを辞書
中の位置を特定するアドレスで記述することにより、辞
書へのアクセスを更に高速化できる。アドレスとは、辞
書の該当する見出し文字列が存在する最初の位置を示す
もので、例えば辞書の先頭からのバイト数がある。こう
することにより、辞書へのアクセスが直に特定できるた
め、レコード番号を指定するよりも更に高速化が可能と
なる。

【０２１８】ここで、図４５から図５５の開示にしたが
って、本発明のオートマトンの実施例について説明す
る。

【０２１９】異表記検索用のオートマトンについては図
４６の集合許容形オートマトンの状態遷移図を用いた場
合の作用について説明する。以後、集合許容形オートマ
トンをオートマトンと略して説明を行う。同図のオート
マトンは図５に示したオートマトンと同様に“インタフ
ェース”の異表記である“インターフェース”，“イン
タフェイス”，“インターフェイス”，“インターフェ
イス”，“インタフェース”，“インターフェース”，
“インターフェース”，“インターフェース”を含む９
語の検索タームを検索するためのものである。

【０２２０】これらを、図４６下の複合語表現文字列で
表すことができる。“フェー”の異表記である（“フェ
イ”，“フェ”（“ー”，“―”））について説明す
る。

【０２２１】まず、発音異表記により“フェー”が“フ
ェイ”に置き換えられるので、（“フェイ”，“フェ
ー”）と記述することができる。

【０２２２】次に“フェー”の長音が長音異表記で
“ー”が“―”に置き換えられるため（“ー”，
“―”）と記述できる。

【０２２３】（“フェイ”，“フェー”）に長音異表記
の（“ー”，“―”）を適用させることにより（“フェ
イ”（“ー”，“―”））が得られる。この複合語表現
文字列を用いれば、（）内の部分文字列は等価なので
部分文字列の末尾文字による遷移を同一遷移先状態にま
とめることが可能ある。

【０２２４】ただし、他の部分文字列の遷移の中に含ま
れてしまう場合、例えば（“タ”（“ー”，“―”），
“タ”）の場合は、次の遷移文字の“フ”の遷移の遷移
元状態が“タ”の遷移先状態である状態３と“ター”お
よび“ター”の遷移先状態である状態４であるので、こ
れらの２ヶ所を遷移元状態とする遷移を記述し、遷移先
状態を状態５とする。

【０２２５】このように遷移をまとめることにより、図
５のオートマトンと比べ状態数を約３分の１と大幅に減
らすことができている。

【０２２６】ここで用いたオートマトンの作成方法は引
用文献（エー．ブイ．エーホアンドエム．ジェイ．
コラッシック：“エフィシェントストリングマッチ
ング，コミュニケーションズエーシーエム，第１８
巻，第６号，１９７５年，A.V. Aho and M. J. Corasic
k : “Efficient String Matching”,CACM, VOL. 18, N
o.6, 1975）に開示されている。このオートマトンは上
記のコンカレントステートオートマトン方式により制御
される。以下、その内容を具体的に説明する。

【０２２７】次に、オートマトンの状態遷移制御方法に
ついて説明する。本方法は「フェイル処理」を用いずに
状態遷移を制御しようとするものである。すなわち、
「フェイル処理」を行なう代わりに、複数のトークンを
用いることによってオートマトンの状態遷移を表わそう
とするものである。

【０２２８】これまで述べてきたオートマトン方式で
は、オートマトンの状態遷移図は、初期状態を除いてア
クティブな状態、すなわち、照合途中を示す遷移状態
（トークンが置かれた状態）が唯１個だけという条件の
もとに作成されたものである。その結果、照合途中で入
力文字との不一致が生じた場合には、トークンの動きが
不連続になるため「フェイル処理」を行わなければなら
なくなる。

【０２２９】本方法においては、アクティブな状態が発
生する度にトークンを生成し、照合途中で不一致が生じ
た場合にはトークンを消滅させるという方法を採ること
により、フェイル処理を不要にしている。従って、入力
文字列によっては、状態遷移図上に複数のトークンが同
時に存在することにもなる。その意味で、本方法をコン
カンレントステートオートマトン方式と呼ぶことにす
る。

【０２３０】本方法によれば、「フェイル処理」を用い
ずに済むため、オートマトン作成時においてもフェイル
先状態の計算が不要な文字列検索装置を実現することが
できる。

【０２３１】まず、始点状態におけるトークン生成方法
について説明する。始点状態では入力文字が入る度に照
合を行なう。遷移文字と照合した場合、新たなトークン
を生成し、このトークンを始点状態から遷移先状態へ移
動させる。ただし、始点状態から始点状態への状態遷移
の場合には、トークンを生成しない。したがって、始点
状態から始点状態への遷移は無効となるため、この遷移
を省略することも可能である。

【０２３２】次に、例えば“インタフェイス”という文
字列が１文字づつ入力された場合についてオートマトン
の動作を説明する。

【０２３３】まず、“イ”が入力されると、始点状態で
の照合が一致しトークンＴ１が生成され、状態１へ移動
する。トークンＴ１が状態１にきたところで“ン”が入
力されると、トークンＴ１は状態２に移動する。また、
これと同時に始点状態でも“ン”による照合が行われる
が不一致なので新たなトークンは生成されない。更に状
態２では入力文字“タ”が入力されると、トークンＴ１
は状態３に移動する。また、同時に始点状態での照合が
不一致なので新たなトークンは生成されない。次に、続
けて“フェ”が入ってきた場合トークンＴ１は状態４→
状態５→状態６と移動する。またこの間、始点状態での
照合が不一致なので新たなトークンは生成されない。次
に、“イ”が入力されるとトークンＴ１は状態６から状
態７へ移動する。また、始点状態での照合は一致するの
で新たにトークンＴ２が生成され、状態１へ移動する。
次に、“ス”が入ってきた場合トークンＴ１は状態７か
ら状態８へ移動する。トークンＴ２は状態１での照合が
不一致なためにここで消滅する。また、始点状態での照
合が不一致なので新たなトークンは生成されない。この
時、トークンＴ１が状態８に達すると、“インタフェイ
ス”という文字列を検索したことになる。

【０２３４】このように複数のトークンを用いて状態遷
移を制御することにより、オートマトンの状態数が約３
分の１と少なくて済む異表記許容検索を実現することが
できる。

【０２３５】固定長ｄｏｎｔｃａｒｅ文字を検索ター
ムに指定した固定長ｄｏｎｔｃａｒｅ文字指定検索の
処理方法について説明する。

【０２３６】オートマトンは図４７のものを用いる。本
図は図７と同様に“Ａ？Ｂ”を検索する場合のオートマ
トンであり、集合遷移を採用した上記方法を用いること
により状態数を図７に比べて約１５０分の一と少なく実
現できている。

【０２３７】本オートマトン作成方法は前述の異表記の
オートマトン作成方法と同様である。

【０２３８】例えば、“ＡＸＢ”という文字列が入力さ
れた場合の本方法の動作について説明する。

【０２３９】まず、“Ａ”が入力されると始点状態で照
合が一致するためトークンＴ１が新たに生成され、状態
１へと移動する。次に“Ｘ”が入力されると、トークン
Ｔ１は状態１から状態２に移動する。また、始点状態で
の照合が不一致なので新たにトークンＴ１は状態２から
状態３に移動する。同時に、始点状態での照合が不一致
なので新たにトークンは生成されない。次に“Ｂ”が入
力されると、トークンは生成されない。状態３は２重円
で記されており、ここでは“Ａ？Ｂ”が検索されたこと
になる。

【０２４０】このように複数のトークンを用いて状態遷
移を制御することにより、異表記許容検索と同様に、オ
ートマトンの状態数が約１５０分の１と少なくて済む固
定長ｄｏｎｔｃａｒｅ文字指定検索を実現することが
できる。

【０２４１】上限距離、下限距離や上下限距離などの文
字距離を指定した距離指定検索のオートマトン方式によ
る処理方法について述べる。

【０２４２】まず、上限指定の距離指定の実現方法を以
下に説明する。ここでは“Ａ”と“Ｂ”の距離が４文字
以内の距離という上限距離指定がされている場合を例に
する。上限距離指定は固定長ｄｏｎｔｃａｒｅ文字で
表すことができ、この例は“Ａ”と“Ｂ”の距離が４文
字以内の距離という上限距離指定の場合は、“ＡＢ”，
“Ａ？Ｂ”，“Ａ？？Ｂ”，“Ａ？？？Ｂ”，“Ａ？？
？？Ｂ”の５つのキーワードで表すことができる。

【０２４３】これらのキーワードからのオートマトン作
成方法を以下に説明する。まず、“ＡＢ”のオートマト
ンを作成する。ここで、状態０，状態１および状態７が
作成される。次に、“Ａ？Ｂ”のオートマトンを作成す
る。第２文字目の“？”は１文字の全ての文字を表すた
め、遷移文字“Ｂ”による状態１から状態７への遷移以
外の遷移文字による遷移先を新たに作成する必要があ
る。すなわち、遷移文字｛“Ｂ”｝による状態１から状
態２への遷移が作成される。さらに第３文字目の遷移文
字“Ｂ”による遷移として第２文字目の“？”の遷移先
である状態２及び状態７から状態８への遷移が作成され
る。同様に“Ａ？？Ｂ”，“Ａ？？？Ｂ”，“Ａ？？？
？Ｂ”について作成することにより第４８図のオートマ
トンが得られる。本オートマトン作成方法は前述の固定
長ｄｏｎｔｃａｒｅ文字のオートマトン作成方法と同
様である。

【０２４４】次に、例えば“ＡＢＣＢＢＢＣ”という文
字列が１文字づつ入力された場合についてオートマトン
の動作を説明する。まず、“Ａ”が入力されると、始点
状態での照合が一致しトークンが生成され状態１へ移動
する。“Ｂ”が入力されるとトークンは状態７へ移動
し、“Ａ”と“Ｂ”が隣接している“ＡＢ”を照合す
る。さらに、“Ｃ”が入力されるとトークンは状態３へ
移動する。次に、“Ｂ”が入力されるとトークンは状態
９へ移動し、“Ａ”と“Ｂ”が２文字の距離にある“Ａ
ＢＣＢ”を照合する。

【０２４５】次に、“Ｂ”が入力されるとトークンは状
態１０へ移動し、“Ａ”と“Ｂ”が３文字以内の距離に
ある“ＡＢＣＢＢ”を照合する。次に、“Ｂ”が入力さ
れるとトークンは状態６へ移動し、“Ａ”と“Ｂ”が４
文字の距離にある“ＡＢＣＢＢＢ”を照合する。さら
に、“Ｃ”が入力されると状態６においてトークンの遷
移先がないためトークンは消滅する。

【０２４６】以上のことから、“ＡＢＣＢＢＣ”から
“Ａ”と“Ｂ”が４文字以内の距離にある検索タームで
ある“ＡＢ”，“ＡＢＣＢ”，“ＡＢＣＢＢ”および
“ＡＢＣＢＢ”が照合されていることが分かる。すなわ
ち、“ＡＢ”，“Ａ？？Ｂ”，“Ａ？？？Ｂ”および
“Ａ？？？？Ｂ”が探索できていることが示されてい
る。

【０２４７】このオートマトンの場合も固定長ｄｏｎｔ
ｃａｒｅ文字の場合と同様にトークンを制御すること
により、上限指定の距離指定探索を実現することができ
る。

【０２４８】次に、下限指定の距離指定の実現方法を以
下に説明する。ここでは“Ａ”と“Ｂ”の距離が２文字
以上の距離という下限距離指定がされた場合を例にす
る。下限距離指定では上限距離が無限大となるためｄｏ
ｎｔｃａｒｅ文字で表すことができない。つまり、
“Ａ”と“Ｂ”の距離が２文字以上の距離という下限距
離指定の場合は、固定長ｄｏｎｔｃａｒｅ文字で表わ
すと“Ａ？？Ｂ”，“Ａ？？？Ｂ”，“Ａ？？？？Ｂ”
…となりキーワード数が無限大になるためである。

【０２４９】この問題を解決する方法を図４９のオート
マトンで説明する。

【０２５０】まず、下限距離を固定長ｄｏｎｔｃａｒ
ｅ文字で表したキーワードでオートマトンを作成する。
このオートマトンの作成方法は固定長ｄｏｎｔｃａｒ
ｅ文字の場合と同様である。ここでは下限距離は２なの
で、“Ａ？？Ｂ”を検索タームとしてオートマトンを作
成する。次に下限距離だけ遷移した状態（この例では状
態３）を仮の始点とし、この始点状態以降につながる状
態についてオートマトンを作成する。このオートマトン
は、全ての入力文字に対して遷移を記述する従来方式１
を用いて作成できる。このようにして、上限距離が無限
大の場合でもオートマトンを作成することができること
になる。オートマトンの作成方法は前述した上限距離指
定のオートマトンの場合と同様である。

【０２５１】次に、例えば“ＡＣＤＥＦＢ”という文字
列が１文字づつ入力された場合のオートマトンの動作に
ついて説明する。まず、“Ａ”が入力されると、始点状
態での照合が一致しトークンが生成され状態１へ移動す
る。

【０２５２】“Ｃ”が入力されるとトークンは状態２へ
移動する。さらに、“Ｄ”が入力されると“Ｂ”以外の
文字ということでトークンは状態３へ移動する。次に、
“Ｅ”が入力されるとトークンは状態３でループする。

【０２５３】次に、“Ｆ”が入力されると同様にトーク
ンは再度状態３でループする。さらに“Ｂ”が入力され
るとトークンは状態４へ移動する。状態４は、２重丸の
状態なので、“Ａ”と“Ｂ”が２文字以上離れた距離に
ある文字列が照合されたことを示している。

【０２５４】すなわち、“ＡＣＤＥＦＢ”を“Ａ”と
“Ｂ”が２文字以上、すなわち４文字離れた距離にある
文字列として探索できていることが分かる。

【０２５５】次に、下限距離指定を用いたキーワードに
可変長ｄｏｎｔｃａｒｅ文字“＊”を指定した検索の
方法について説明する。

【０２５６】可変長ｄｏｎｔｃａｒｅ文字“＊”は、
下限距離に０を指定した場合の距離指定を用いて実現す
ることができる。すなわち“ＡＢ＊ＣＤ”は“ＡＢ”と
“ＣＤ”の距離が０文字以上の距離という下限距離指定
に置き換えることができる。この場合のオートマトンは
図５０のようになる。このように可変長ｄｏｎｔｃａ
ｒｅ文字を指定した検索も下限距離指定と同様に実現す
ることができる。

【０２５７】オートマトンの作成方法および動作は前述
した下限距離指定のオートマトンの場合と同様である。

【０２５８】最後に、上下限指定の距離指定の実現方法
を以下に説明する。ここでは“Ａ”と“Ｂ”の距離が２
文字以上で、かつ、４文字以下の距離という上下限距離
指定を例にする。上下限距離指定は固定長ｄｏｎｔｃ
ａｒｅ文字で表すことができ、この例の“Ａ”と“Ｂ”
の距離が2文字以上、4文字以内の距離という場合には、
“Ａ？Ｂ”，“Ａ？？Ｂ”，“Ａ？？？Ｂ”，“Ａ？？
？？Ｂ”の４つのキーワードで表すことができ、これら
から固定長ｄｏｎｔｃａｒｅ文字の場合と同様に図５
１に示すオートマトンを作成することができる。

【０２５９】オートマトンの作成方法および動作は前述
した下限距離指定のオートマトンの場合と同様である。

【０２６０】１文字誤りを許容した検索である１文字誤
り許容検索の処理方法について説明する。

【０２６１】キーワードに“ＡＢＣＤ”を指定した場合
の例について説明する。この例ではキーワードとしては
誤りなしの場合として“ＡＢＣＤ”について、１文字削
除として“ＡＢＣ”，“ＡＢＤ”，“ＡＣＤ”，“ＢＣ
Ｄ”について、１文字相違として“Ａ？ＣＤ”，“ＡＢ
？Ｄ”，“ＡＢＣ？”について、１文字挿入として“Ａ
？ＢＣＤ”，“ＡＢ？ＣＤ”，“ＡＢＣ？Ｄ”，“ＡＢ
ＣＤ？”についてオートマトンを作成する。これらを複
合語表現文字列にすると、図７６に示す通りになる。こ
れに基づいて固定長ｄｏｎｔｃａｒｅ文字の場合と同
様に図５２図に示すオートマトンを作成することができ
る。

【０２６２】オートマトンの作成方法および動作は前述
した上下限距離指定のオートマトンの場合と同様であ
る。

【０２６３】１文字入れ替わりを許容した検索である１
文字入れ替わり許容検索の処理方法について説明する。
キーワードに“ＡＢＣＤ”を指定した場合の例について
説明する。この例ではキーワードとしては誤りなしの場
合として“ＡＢＣＤ”について、１文字入れ替わりとし
て“ＢＡＣＤ”，“ＡＣＢＤ”，“ＡＢＣＤ”について
オートマトンを作成する。これらを複合語表現文字列に
すると、図７７に示す通りになる。これに基づいて固定
長ｄｏｎｔｃａｒｅ文字の場合と同様に図５３に示す
オートマトンを作成することができる。

【０２６４】オートマトンの作成方法および動作は前述
した１文字誤り許容のオートマトンの場合と同様であ
る。

【０２６５】以上のように本発明によれば、少ない状態
数で異表記検索、固定長ｄｏｎｔｃａｒｅ文字指定検
索、文字距離指定検索、可変長ｄｏｎｔｃａｒｅ文字
指定検索、１文字誤り許容検索、１文字入れ替わり許容
検索などの検索機能を実現するオートマトンを作成する
ことができる。したがって、オートマトンの作成時間も
短縮でき、状態遷移テーブルもコンパクトにできるため
ハードウェア量の少ない文字列検索装置を実現すること
が可能となる。

【０２６６】以下、上記文字列検索方法を用いた図１０
のサーチエンジン１１０６に相当する文字列検索装置の
実施例について述べる。本実施例の構成を図４５に示
す。本実施例の構成は、文字コードと状態番号を入力す
ることにより次状態番号を出力する状態遷移テーブル２
２０と、状態番号を入力することにより照合したか否か
の照合結果ＩＤを出力する照合結果テーブル２６０、ト
ークンの消滅を制御するセレクタ２６２、トークンの消
滅制御情報として移動先の状態がないトークンか否かを
判定を行うコンパレータ２５２、初期状態番号を格納す
るレジスタ２５１および、現状態番号や次状態番号を格
納するバッファ２８０とバッファ２８１などから成って
いる。

【０２６７】本実施例を用いたオートマトンの状態遷移
動作を下記に説明する。図４５において所定の文字列記
憶手段から読み出された文字列３０１は１文字づつレジ
スタ２１１に格納される。レジスタ２１１から出力され
る文字コード３０２は、本発明によるオートマトンの遷
移表が格納されている状態遷移テーブル２２０にアドレ
ス情報として入力される。状態遷移テーブル２２０では
現在の状態番号３０５と文字コード３０２から次に遷移
すべき遷移先状態番号３０３を出力する。次状態番号が
初期状態番号であるとき、オートマトンの遷移が記述さ
れていないことを表している。このため次状態番号が初
期状態番号であるとき、トークンを消滅させる必要があ
る。次状態番号３０３はレジスタ２５０に格納された
後、セレクタ２６２及びマルチプレクサ２６０を経由し
バッファ２８０またはバッファ２８１のいずれか選択さ
れている方に格納される。このとき、セレクタ２６２で
はトークンを消滅させるか否かを制御している。このト
ークンを消滅させるか否かの判定は次状態番号３０３が
レジスタ２５１に格納されている初期次状態番号（この
例では、状態番号０）と異なるか否かをコンパレータ２
５２で調べることにより実現している。

【０２６８】すなわち、次状態番号３０３が初期状態番
号である場合はトークンが移動すべき状態がないことを
示しているため、セレクタ２６２では次状態番号３０３
を選択しない。このため次状態番号３０３はマルチプレ
クサ２６０には送られず、トークンは消滅することにな
る。

【０２６９】逆に次状態番号３０３が初期状態番号でな
い場合、トークンが移動すべき状態があることを示して
いるため、セレクタ２６２では次状態番号３０３を選択
してマルチプレクサ２６０に送られ、トークンは消滅さ
れない。

【０２７０】このように、次状態番号３０３が初期状態
番号の場合はトークンを消滅させることによって、初期
状態番号のトークンがバッファ２８０およびバッファ２
８１に溜り、冗長なトークンがバッファ２８０およびバ
ッファ２８１に溜り、冗長なトークンがバッファ２８０
およびバッファ２８１内に存在し、オーバーフローする
という問題を解決できることになる。

【０２７１】バッファ２８０とバッファ２８１は、それ
ぞれデータの読取り用と書込み用の２面バッファとして
用い、高速処理を実現している。この２つのバッファは
１つにまとめ回路規模を小さくすることも可能である。
ただし、処理速度は低下することになる。バッファ２８
０及びバッファ２８１には初期値として始点次状態番号
を先頭アドレスに設定しておく。バッファ２８０及びバ
ッファ２８１に送られてきた次状態番号３０３は始点状
態の次のアドレスから格納する。現状態番号３０５はセ
レクタ２６１で選択されているバッファ２８０及びバッ
ファ２８１のいずれかから逐次読み出され、全て読み出
したときに読出し終了信号３０７を発生する。マルチプ
レクサ２６０とセレクタ２６１は同期しており、選択動
作についてはマルチプレクサ２６０がバッファ２８０を
選択しているときはセレクタ２６１はバッファ２８１を
選択している。また、マルチプレクサ２６０がバッファ
２８１を選択しているときはセレクタ２６１はバッファ
２８０を選択する。バッファ２８０及びバッファ２８１
の選択の切り替えは、セレクタ２６１が選択したバッフ
ァ２８０または２８１のいずれかの読出し終了信号３０
７の発生のタイミングで行われる。状態遷移テーブル２
２０には図５５に示した状態遷移表を格納する。これは
図４６のオートマトンに対応したものである。レジスタ
２１１は通常は、レジスタ２５０と同期して文字列デー
タを取り込むが、読出し終了信号が発生するまで文字列
データを保持し、現状態番号が全て読み出されるまで次
の入力を待つことになる。検索結果テーブル２６０には
文字列の終点となる終点状態に対応して各検索タームを
識別するための所定のコードが格納されている。図４６
のオートマトンに対応した検索結果テーブル２６０の内
容を図５５に示す。検索ターム番号が０以外の内容のと
き有効な検索ターム番号を表している。すなわち、状態
番号に対応した検索ターム番号が０以外のとき照合結果
として図１０の複合条件判定手段１１４５へ送られる。
以上の動作が図４６に示したオートマトンを実行する形
で、入力文字列を構成する各文字ごとに繰返し行われる
ことにより検索処理が実現される。

【０２７２】入力文字列が入力された場合、例えば、
“インタフェイス”という文字列が入力された場合の本
方式の照合動作について説明する。

【０２７３】まず初期設定として、以下の処理を行う。
状態遷移テーブル２２０には図５４に示した状態遷移表
を、また、検索結果テーブル２６０には図５５の検索結
果表を格納する。これらのテーブルは、図４６のオート
マトンに対応したものである。

【０２７４】バッファ２８０及びバッファ２８１には初
期値として始点状態番号である０を先頭アドレスに格納
する。レジスタ２５０、レジスタ２５１には初期状態番
号である０を格納する。マルチプレクサ２６０はバッフ
ァ２８１を選択し、セレクタ２６１はバッファ２８０を
選択する。したがって、次状態番号３０３は始点状態番
号である０となる。

【０２７５】次に、これらの初期設定に基づいた照合動
作について説明する。

【０２７６】まず、１文字目の“イ”がレジスタ２１１
に格納される。すると、文字コード３０２と現状態番号
３０５をアドレスとして状態遷移テーブル２２０より次
状態番号１が読み出され、レジスタ２５０に格納され
る。このとき現状態番号３０５は０となっている。

【０２７７】コンパレータ２５２はレジスタ２５１に格
納されている初期状態番号である０とレジスタ２５０に
格納されている次状態番号３０３である１を比較する。
等しくないのでセレクタ２６２は次状態番号３０３を選
択する。このことは、状態０から状態１に遷移文字
“イ”による遷移が記述されていることを示している。

【０２７８】状態１における検索結果テーブル２６０の
検索ターム番号は０であるので照合結果３０６は出力さ
れない。このことは、状態１に照合結果が格納されてい
ないことを示している。

【０２７９】マルチプレクサ２６０では、バッファ２８
１が選択されているので、バッファ２８１に次状態番号
である１が、始点状態番号に続く２つめの次状態番号と
して格納される。バッファ２８０から全ての現状態番号
が読み取られたので、終了信号３０７が発生する。

【０２８０】これによりマルチプレクサ２６０はバッフ
ァ２８０を選択し、セレクタ２６１はバッファ２８１を
選択することになる。すなわち、バッファ内の２つの次
状態番号が現状態番号として、次の文字に対する遷移に
用いられることになる。

【０２８１】これらの動作をオートマトンの状態遷移と
してみると、まずバッファ２８０に格納されている現状
態番号である状態０において遷移文字“イ”が記述され
ているかの照合が行われている。次に、遷移が記述され
ていなければ次の現状態番号の処理が行なわれ、遷移が
記述されている場合、バッファ２８１に次状態番号が格
納され、同時に照合結果が格納されているか、照合結果
テーブルの次状態番号が示されるアドレスに有効なター
ムＩＤが格納されているかチェックすることにより調べ
られている。この場合では遷移が記述されているので、
次状態番号である状態１がバッファ２８１に格納されて
おり、照合結果テーブルを調べたところ結果は格納され
ていないため照合結果は出力されない。

【０２８２】次に２文字目の“ン”がレジスタ２１１に
読み込まれる。すると、文字コード３０２と現状態番号
３０５をアドレスとする状態遷移テーブル２２０より次
状態番号である０が出力され、レジスタ２５０に格納さ
れる。

【０２８３】コンパレータ２５２はレジスタ２５１に格
納されている初期状態番号である０とレジスタ２５０に
格納されている次状態番号である０を比較する。等しい
のでセレクタ２６２では次状態番号３０３は選択されな
い。このため次状態番号３０３は、バッファ２８０に格
納されない。このことは、状態０には遷移文字“ン”に
よる繊維が記述されていないことを示している。ここで
はこのように制御することにより、始点状態から始点状
態への遷移におけるトークンの生成を防いでい次に、バ
ッファ２８１より第２の次状態番号１が読み出され、文
字コード３０２と次状態番号である１をアドレスとして
状態遷移テーブル２２０より次状態番号２が出力され、
レジスタ２５０に格納される。コンパレータ２５２はレ
ジスタ２５１に格納されている初期状態番号である０と
レジスタ２５０に格納されている次状態番号３０３であ
る２を比較する。等しくないのでセレクタ２６２は次状
態番号３０３を選択することになる。このことは、状態
１から状態２に遷移文字“ン”による遷移が記述されて
いることを示している。

【０２８４】状態２における検索結果テーブル２６０の
検索ターム番号は０であるので照合結果３０６は出力さ
れない。このことは、状態２に照合結果が格納されてい
ないことを示している。

【０２８５】また、マルチプレクサ２６０では、バッフ
ァ２８０を選択しているので、バッファ２８０に次状態
番号３０３である２が始点状態番号に続く２つめの次状
態番号として格納される。

【０２８６】バッファ２８１からは全ての現状態番号を
読み取られたので、終了番号３０７が発生する。

【０２８７】これによりマルチプレクサ２６０はバッフ
ァ２８１を選択し、セレクタ２６１はバッファ２８０を
選択することになる。すなわち、バッファ２８０内の２
つの次状態番号が２つの現状態番号として、次の文字に
対する遷移に用いられることになる。

【０２８８】これらの動作をオートマトンの状態遷移と
してみると、まずバッファ２８１に格納されている現状
態番号である状態０において遷移文字“ン”が記述され
ているかの照合を行なっている。この場合記述されてな
いので次の現状態番号である状態１について同様に照合
を行う。状態２への遷移が記述されているので、状態２
は次状態番号としてバッファ２８０に格納される。ま
た、状態２には照合結果が格納されてないので、照合結
果は出力されていない。

【０２８９】次に３文字目の“タ”も２文字目と同様の
照合処理となるので説明を簡略する。まず、バッファ２
８０に登録されている、現状態番号である状態０におけ
る照合動作を行なうこの場合記述されていないので次の
現状態番号である状態２について同様に照合を行なう。
状態３への遷移が記述されているので、状態３が次状態
番号としてバッファ２８０に格納される。また、状態３
には照合結果が格納されてないので、照合結果は出力さ
れない。

【０２９０】次に４文字目の“フ”も３文字目と同様の
照合処理となるので説明を簡略する。まず、バッファ２
８１に登録されている、現状態番号である状態０におけ
る照合動作を行なう。この場合記述されていないので次
の現状態番号である状態３について同様に照合を行な
う。状態４への遷移が記述されているので、状態４が次
状態番号としてバッファ２８０に格納される。また、状
態４には照合結果が格納されてないので、照合結果は出
力されない。

【０２９１】次に５文字目の“エ”も４文字目と同様の
照合処理となるので説明を簡略する。まず、バッファ２
８０に登録されている現状態番号である状態０における
照合動作を行なう。この場合記述されてないので次の現
状態番号である状態４について同様に照合を行なう。状
態５への遷移が記述されているので、状態５が次状態番
号としてバッファ２８１に格納される。また、状態５に
は照合結果が格納されてないので、照合結果は出力され
ない。

【０２９２】次に６文字目の“イ”がレジスタ２１１に
読み込まれる。このステップではトークンが２つから３
つに増加しているので詳細に説明する。

【０２９３】文字コード３０２と次状態番号である０を
アドレスとする状態遷移テーブル２２０より次状態番号
として１が出力され、レジスタ２５０に格納される。コ
ンパレータ２５２はレジスタ２５１に格納されている初
期状態番号である０とレジスタ２５０に格納されている
次状態番号である１を比較する。この場合、等しくない
のでセレクタ２６２は次状態番号３０３を選択する。状
態１における検索結果テーブルのキーワード番号は０で
あるので照合結果３０６は出力されない。マルチプレク
サ２６０では、バッファ２８０が選択されているので、
バッファ２８０に次状態番号である１が始点状態番号に
続く２つめの次状態番号として格納される。

【０２９４】次に、バッファ２８１より第２の次状態番
号６が読み出され、文字コード３０２と次状態番号であ
る６をアドレスとする状態遷移テーブル２２０より次状
態番号として７が出力され、レジスタ２５０に格納され
る。コンパレータ２５２はレジスタ２５１に格納されて
いる初期状態番号である０とレジスタ２５０に格納され
ている次状態番号である７を比較する。この場合、等し
くないのでセレクタ２６２は次状態番号を選択する。状
態７における検索結果テーブルのキーワード番号は０で
あるので照合結果３０６は出力されない。マルチプレク
サ２６０では、バッファ２８０が選択されているので、
バッファ２８０に次状態番号である７が３つめの次状態
番号として格納される。バッファ２８１からは全ての現
状態番号が読み取られたので、終了信号３０７が発生す
る。

【０２９５】これによりマルチプレクサ２６０はバッフ
ァ２８１を選択し、セレクタ２６１はバッファ２８０を
選択することになる。すなわち、バッファ２８０内の３
つの次状態番号が３つの現状態番号として、次の文字に
対する遷移に用いられることになる。

【０２９６】次に７文字目の“ス”の照合処理に入るが
レジスタ２１１に読み込まれる。すると、文字コード３
０２と次状態番号である０をアドレスとする状態遷移テ
ーブル２２０より次状態番号として０が出力され、レジ
スタ２５０に格納される。コンパレータ２５２はレジス
タ２５１に格納されている初期状態番号である０とレジ
スタ２５０に格納されている次状態番号である０を比較
する。この場合、等しいのでセレクタ２６２では次状態
番号３０３が選択されない。このため次状態番号は、バ
ッファ２８１に格納されないことになる。

【０２９７】次に、バッファ２８１より第２の次状態番
号である１が読み出され、文字コード３０２と次状態番
号である０をアドレスとする状態遷移テーブル２２０よ
り次状態番号として０が出力され、レジスタ２５０に格
納される。コンパレータ２５２はレジスタ２５１に格納
されている初期状態番号である０とレジスタ２５０に格
納されている次状態番号である０を比較する。この場
合、等しいのでセレクタ２６２では次状態番号が選択さ
れない。このため次状態番号は、バッファ２８１に格納
されないことになる。

【０２９８】本実施例では、このように制御することに
よりトークンの消滅を実現している。

【０２９９】さらにバッファ２８１より第３の次状態番
号である７が読み出され、文字コード３０２と次状態番
号である７をアドレスとする状態遷移テーブル２２０よ
り次状態番号として８が出力され、レジスタ２５０に格
納される。コンパレータ２５２はレジスタ２５１に格納
されている初期状態番号である０とレジスタ２５０に格
納されている次状態番号である８を比較する。この場
合、等しくないのでセレクタ２６２では次状態番号３０
３が選択される。

【０３００】状態８における検索結果テーブル２６０の
キーワード番号は１であるのでキーワード番号として１
が照合結果３０６とし出力される。マルチプレクサ２６
０では、バッファ２８１が選択されているので、バッフ
ァ２８１に次状態番号である８が始点状態番号に続く２
つめの次状態番号として格納される。

【０３０１】バッファ２８０からは全ての現状態番号が
読み取られたので、終了信号３０７が発生する。

【０３０２】これによりマルチプレクサ２６０はバッフ
ァ２８１を選択する。すなわち、２つの次状態番号が２
つの現状態番号として、次の文字に対する遷移に用いら
れることを示している。

【０３０３】以上のように、トークンを制御することに
より“インタフェイス”という文字列の検索を実現して
いる。

【０３０４】本実施例によれば、このように複数のトー
クンを制御することにより、「フェイル」という概念を
必要としない文字列検索を実現できる。このため、オー
トマトン作成時間を短くすることができ、状態数を少な
くできるため状態遷移テーブルをコンパクトにできると
いう利点がある。

【０３０５】次に、図５６から図７０の開示に基づい
て、本発明を実現するのに用いられる磁気ディスク装置
の実施例を説明する。

【０３０６】図５７は集合型磁気ディスク装置の構成を
示すもので、磁気ディスク装置１を有するｎ台のデータ
記憶装置１５と、データ記憶装置１５それぞれに接続す
る磁気ディスク装置１の１シリンダ分の容量を持つ入出
力バッファ３と、データ記憶装置１５と入出力バッファ
３の制御を行なうマルチディスクコントローラ４によっ
て構成している。

【０３０７】ここではデータ記憶装置１５は１台の磁気
ディスク装置１で構成し、入出力バッファ３は上記磁気
ディスク装置１の１シリンダの容量を持つメモリ１面で
構成している。

【０３０８】マルチディスクコントローラ４は、アクセ
スの対象となるファイルのファイルＩＤを上位機器７か
ら直接設定できる通信メモリ５と高速データバス１０の
制御を行なうマルチプレクサコントローラ８とファイル
ＩＤから磁気ディスク装置の格納先物理情報を求めるた
め変換テーブルである物理情報テーブル６および、それ
らを制御するマスタコントローラ９によって構成してい
る。

【０３０９】上位機器７は集合型磁気ディスク装置に命
令を与えるホストコントローラと入力されるデータの中
から指定した文字列を検出し、その検出情報を出力する
文字列検索装置により構成している。

【０３１０】本集合型磁気ディスク装置にデータファイ
ルを構成するデータベースの構築を行なう前には、デー
タベースの構造定義処理を行なう。

【０３１１】本集合型磁気ディスク装置では論理的に関
連するファイルを物理的格納位置が近接するように配置
する手段として、最初に物理シリンダを階層構造を持つ
論理分類ＩＤに従い割り振っている。複数件のファイル
を一度にアクセスする場合、理論的に関連するファイル
を対象にすることが多い。そこで、格納位置を近接させ
ることにより、磁気ディスク装置のシリンダ間を磁気ヘ
ッドが移動する距離を短くし、アクセス時間の一部であ
るシーク時間を短縮させる。

【０３１２】階層構造を持つ論理類ＩＤに従って物理シ
リンダの割り振りは、上位機器７が論理分類ＩＤと該フ
ァイル分類が必要とする記憶容量の組が集まって構成さ
れるデータベース構造定義情報を通信メモリ５に格納し
た後、マルチディスクコントローラ４に対しデータベー
スの構造定義命令を発行する。構造定義命令を受けたマ
ルチディスクコントローラ４内のマスタコントローラ９
は、通信メモリ５にセットされたデータベースの構造定
義情報に基づいて、論理分類に物理位置がどう対応する
かをマスタコントローラ９内のメモリ上に図５８図で示
すような構造の構造定義テーブルを作成する。図５８は
２階層でそれぞれの階層で２つの分類を持つ例で、磁気
ディスク装置全体を一台の磁気ディスク装置としてまと
めて、各分類ごとの格納位置をシリンダの位置で、記憶
容量をシリンダ数で示したものである。

【０３１３】また、データベースの構造定義処理では、
マルチディスクコントローラ４内のマスタコントローラ
９は論理分類毎に、書き込みファイルの格納先の物理位
置を保持するために、マスタコントローラ９内のメモリ
上に図５８Ａに示すような、書き込みファイルの格納先
の物理位置を差し示す格納位置ポインタテーブルを作成
する。構造定義が終了した時点では、格納位置ポインタ
テーブルは構造定義で設定した各論理分類の先頭シリン
ダ、先頭トラック、先頭セクタ、セクタ内先頭位置を示
すことになる。図５９では、図５８Ａで示した例の分類
でファイルを格納した場合の格納位置ポインタ情報を格
納している。

【０３１４】次にデータベースの構築について説明す
る。本集合型磁気ディスク装置ではアクセスの対象とな
るファイルをファイルＩＤ（論理分類ＩＤと論理分類内
の個有の番号で構成）により指定する手段として、ファ
イルＩＤを用いた管理情報を作成している。

【０３１５】上位機器７は通信メモリ５に書込み対象と
なるファイルのファイルＩＤとファイルサイズの組が複
数件分集まって構成されるファイル情報を格納した後、
マルチディスクコントローラ４に対し書き込み命令を発
行する。書き込み命令を受けたマルチディスクコントロ
ーラ４は、図６１に示すフローで処理を実行する。マル
チディスクコントローラ４内のマスタコントローラ９
は、通信メモリ５からファイル情報の中のファイルＩＤ
を読み出し、該ファイルＩＤが示すファイルを格納する
格納位置を格納位置ポインタテーブルから読み出す。

【０３１６】格納位置が求まるとその物理シリンダに書
き込める残り容量が求まる。その残り容量よりもファイ
ル情報のファイルサイズで与えられるファイルのサイズ
が小さければ図６０Ａに示すようなファイルＩＤをエン
トリとする物理情報テーブル６にその格納位置（ディス
ク番号，シリンダ番号，トラック番号，セクタ番号，セ
クタ内位置）、ファイルサイズ、ディスクまたがり数を
書き込む。ディスクまたがり数は、ファイルが何台の磁
気ディスク装置１にまたがっているかを表わすもので、
処理対象となっているファイルが、１台の磁気ディスク
装置の１つのシリンダに書き切れなかった場合はファイ
ルを分割して書き残したファイルを次のディスクに書き
込むことになる。このファイル分割した書き残しファイ
ルであれば、この値をカウントアップする。物理情報テ
ーブル６のエントリはファイル情報で与えられるファイ
ルＩＤで示される。

【０３１７】物理情報テーブルへの書込みの後、格納位
置ポインタをファイルサイズ分進める。

【０３１８】ファイルサイズと残り容量が等しい場合
は、１台の磁気ディスク装置１のシリンダがいっぱいに
なった時で、その磁気ディスク装置１への書き込み処理
を行なう。

【０３１９】残り容量よりもファイルサイズが大きい場
合には、残り容量と分割基準サイズを比べる。分割基準
サイズは構造定義処理で設定する値で、シリンダの残り
容量が非常に小さいにもかかわらずファイルを磁気ディ
スク装置１の間にまたがるように格納すると、そのファ
イルを読み出すためには２台の磁気ディスク装置１を制
御しなければならず、その処理分オーバヘッドが大きく
なる。そこで、ある基準を設定してその基準値よりも残
り容量が小さい場合には次の磁気ディスク装置１のシリ
ンダの先頭から書き込むようにするものである。

【０３２０】残り容量が分割基準サイズ以上の場合に
は、物理情報テーブル６に格納位置、ファイルサイズを
格納した後、残り容量に書き込める分のファイルと書き
残した分の書き残しファイルとに分割する。物理情報テ
ーブル６には格納物理位置とファイルサイズを書込む。

【０３２１】１シリンダがいっぱいとなる物理情報を作
成した磁気ディスク装置１は書き込み処理を行なう。書
き残しファイルはループを戻り、次の処理対象ファイル
となる。

【０３２２】残り容量が分割基準サイズよりも小さい場
合には、格納位置ポインタテーブルを次のシリンダの先
頭に進めた後、処理対象ファイルをそのまま次の処理対
象ファイルとしてループを戻り処理を続ける。この時、
１シリンダがいっぱいとなる物理情報を作成した磁気デ
ィスク装置は書き込み処理を行なう。

【０３２３】書き込み処理は、マスタコントローラ９が
シーク命令を磁気ディスク装置１に発行し、シーク動作
を開始する。次に、上位機器７にファイルの転送要求を
発行し、マスタコントローラ９は上位機器７にファイル
の転送を要求するとともに、マルチプレクスコントロー
ラ８を制御してデータバスを切り換え、転送されてくる
ファイルを物理情報で指定する入出力バッファ３へのフ
ァイルの転送を行なう。シーク動作が終了し、ファイル
の転送が終了するとマスタコントローラ９は書込み命令
を磁気ディスク装置１に発行し、該磁気ディスク装置１
は書き込み動作を実行する。

【０３２４】上記の動作を繰返しデータベースの構築を
行なう。

【０３２５】図６２は書き込み処理の時間的な関係を示
すもので、上位機器７から図に示すように“１−１”，
“２−１”，…ｉ，“ｎ−１”，“１−２”，“２−
２”……と次々と転送されてくるデータは、マルチディ
スクコントローラ４内のマルチプレクスコントローラ８
により、入出力バッファ３−１，３−２……，３−ｎ、
３−１，３−２，……に格納される。このとき、例えば
磁気データベース装置１−１は、データ“１−１”の転
送を開始する直前にマスタコントローラ９の指令により
シークを開始している。データ“１−１”の転送が終了
した時点で、マスタコントローラ９は磁気ディスク装置
１−１に書き込み命令を発行する。磁気ディスク装置１
−１は指定の書き込み位置に達するまで回転待ちを行な
った後、入出力バッファ３−１のデータ“１−１”を所
定のシリンダ，トラック，セクタへ書き込み始める。

【０３２６】この間、他の磁気ディスク装置も図に示す
ように同様の処理を行なうことになる。

【０３２７】図６２とこれに関する以上の説明から明ら
かなように、各磁気ディスク装置はそれぞれ並行して、
連続でファイルの書き込みができ、短時間でデータベー
スの構築ができる。

【０３２８】次に、ファイルの読み出し処理について説
明する。また、同一磁気ディスク装置の同一シリンダ上
に読み出すファイルが複数件有る場合に、読み出すファ
イルの間にある読み出し不要のファイルも入出力バッフ
ァに一旦読み出し、上位機器に転送する際に読み出し不
要のファイルを削除する手段について説明する。

【０３２９】上位機器７は読み出すファイルのファイル
ＩＤが複数件分集まって構成するファイル情報を通信メ
モリ５に格納した後、マルチディスクコントローラ４に
対して読み出し命令を発行する。

【０３３０】読み出し命令を受けたマルチディスクコン
トローラ４は、図６３に示すフローで処理を実行する。

【０３３１】マルチディスクコントローラ４内のマスタ
コントローラ９は、通信メモリ５から最初に読み出すべ
きファイルのファイルＩＤを読み出し、該ファイルＩＤ
から該ファイルが格納されている物理情報を物理情報テ
ーブル６により検索する。このファイルを先ファイル、
物理情報を先ファイルの物理情報とする。次に、通信メ
モリ５から次に読み出すべきファイルのファイルＩＤを
読み出し、該ファイルＩＤから該ファイルが格納されて
いる物理情報を物理情報テーブル６により検索する。こ
のファイルを後ファイル、物理情報を後ファイルの物理
情報とする。

【０３３２】求めた物理情報から先ファイルと後ファイ
ルが同一シリンダに存在するかを調べ、同一シリンダに
存在すれば先ファイルと後ファイルの間に、指定してい
ない読み出し不要のファイル群があるか調べ、あれば、
そのファイル群の総サイズを求める。読み出し不要のフ
ァイルのサイズが小さい場合には、先ファイルと後ファ
イルを一度の読み出し命令で読出せるように、物理情報
を合成する。次に合成した物理情報を先ファイルの物理
情報としてループを戻り、通信メモリ５から次のファイ
ルＩＤを読み出し、そのファイルを後ファイルとして同
様な処理を行なう。

【０３３３】先ファイルと後ファイルが同一シリンダに
存在しない場合と読み出し不要ファイルのサイズが大き
い場合には、先ファイルの磁気ディスク装置から読み出
し処理を実行する。後フィルの物理情報は先ファイルの
物理情報としてループを戻り、通信メモリ５から次のフ
ァイルＩＤを読出し、それを後ファイルとし同様な処理
を行なう。

【０３３４】このような動作を指定したファイルすべて
を読み出すまで繰り返す。

【０３３５】先ファイルの磁気ディスク装置からの読み
出し処理は、まず、マスタコントローラ９は先ファイル
の物理情報が示す磁気ディスク装置１−ｉの磁気ディス
クコントローラ２−ｉに物理情報が示す物理位置へ磁気
ヘッドを移動させるシーク命令を発行し、磁気ディスク
装置１−ｉはシーク動作を開始する。シーク動作が終了
すると、入出力バッファ３−ｉがデータを書き込んでも
良い状態であれば、マスタコントローラ９は読み出し命
令を磁気ディスクコントローラ２−ｉに発行し、入出力
バッファ３−ｉに磁気ディスク装置１−ｉから読み出し
たファイルの格納を開始する。格納が終了すると、マス
タコントローラ９はマルチプレクスコントローラ８を制
御して入出力バッファ３−ｉから上位機器７へのデータ
の転送を開始する。

【０３３６】マルチプレクスコントローラ８は図６４に
示すように、上位機器７のデータバスに入出力バッファ
３−１から３−ｉのデータバスを選択して接続するマル
チプレクサ２０１と選択したｉ番目の入出力バッファ３
−ｉから上位機器７にマスタコントローラ９の介在なし
にデータを出力するＤＭＡコントローラ２０２と該ＤＭ
Ａコントローラ２０２に入出力バッファ３−ｉの転送範
囲を指定するための先頭アドレスと終了アドレスを格納
する先頭アドレス登録テーブル２０３と終了アドレス登
録テーブル２０４により構成している。

【０３３７】マスタコントローラ９は入出力バッファ３
−ｉの転送すべきファイルが存在する先頭アドレスを先
頭アドレス登録テーブル２０３に、終了アドレスを終了
アドレス登録テーブル２０４に設定した後他の入出力バ
ッファ３から上位機器７へのデータの転送が行なわれて
いなければＤＭＡコントローラ２０２に起動命令を発行
する。ＤＭＡコントローラ２０２は先頭アドレス登録テ
ーブル２０３と終了アドレス登録テーブル２０４を参照
しながら指定した範囲のデータのみ上位機器７の要求す
る転送速度でマスタコントローラ９の介在なしに転送を
行なう。

【０３３８】先ファイルと後ファイルを一度の読出し命
令で読み出せるように、物理情報を合成する処理を行な
い入出力バッファ３−ｉに読み出した場合には、先頭ア
ドレス登録テーブル２０３と終了アドレス登録テーブル
２０４に必要なファイルすべてが転送されるようにアド
レスを複数件分設定し、同様な処理を行なう。

【０３３９】先ファイルと後ファイルを一度の読出し命
令で読み出せるように、物理情報を合成する処理は次の
条件を満足する場合に行なう。

【０３４０】先ファイルのサイズをｆ１［Ｂｙｔｅ］、
後ファイルのサイズをｆ２［Ｂｙｔｅ］、読み出し不要
のファイル群の総サイズをｋ［Ｂｙｔｅ］、磁気ディス
ク装置１から入出力バッファ３へのシーク動作を含まな
い実効的な転送速度をｔ［Ｂｙｔｅ／ｓｅｃ］、回転速
度をＲ［ｒｐｓ］、平均シーク時間をｓ［ｓｅｃ］とす
るとき、平均回転待ち時間は（１／２Ｒ）であり、一度
に読み出す時間が一つずつ読み出す時間よりも短くなる
条件は、（数１）の通りになる。

【０３４１】

【数１】

【０３４２】この（数１）は、以下の（数２）のように
書き表すことができる。

【０３４３】

【数２】

【０３４４】ファイルの読み出し処理の時間的な関係
は、上位機器７が要求する転送速度をＴ［Ｂｙｔｅ／ｓ
ｅｃ］、各磁気ディスク装置１の１シリンダ分の容量が
Ｍ［Ｂｙｔｅ］、各磁気ディスク装置１から入出力バッ
ファ３への転送速度をｔ［Ｂｙｔｅ／ｓｅｃ］、各磁気
ディスク装置１の最少シーク時間をｓ［ｓｅｃ］、回転
速度をＲ［ｒｐｓ］とすると、最少シーク時間ｓ［ｓｅ
ｃ］がｉ番目の入出力バッファ３−ｉ上のファイルを上
位機器７に転送する時間（Ｍ／Ｔ）より大きい場合に
は、図６５に示すようになる。上位機器７の要求する転
送速度を満足するには、ｉ台目の磁気ディスク装置１−
ｉが入出力バッファ３−ｉにファイルを読み出す時間
（ｓ＋１／Ｒ＋Ｍ／ｔ）が、全ての入出力バッファ３上
のファイルを上位機器７に転送する時間（ｎＭ／Ｔ）以
内であれば良いことになる。ここでは、連続したシリン
ダを読み出すためシーク時間を最少シーク時間とした。
また、磁気ディスク装置１に読み出し命令を発行した時
点の磁気ヘッドの位置がいかなる場合でも、上位機器７
の要求する転送速度を満足するように、回転待ちの時間
を最大値である（１／Ｒ）とした。この関係を数式で表
わすと（数３）の通りとなる。

【０３４５】

【数３】

【０３４６】また、（数３）は（数４）で示すように書
き表わすことができる。

【０３４７】

【数４】

【０３４８】また、最少シーク時間ｓ［ｓｅｃ］がｉ番
目の入出力バッファ３−ｉ上のファイルを上位機器７に
転送する時間（Ｍ／Ｔ）以下の場合のファイルの読み出
し処理の時間的な関係は、図６６に示すようになる。こ
の場合は、シーク動作が終了しても入出力バッファ３−
ｉはファイルを上位機器７に転送中であるため、読み出
し命令をｉ台目の磁気ディスク装置１−ｉに発行するこ
とができない。そこで、入出力バッファ３−ｉのファイ
ルが上位機器７に転送が終了した時点に読み出し命令を
ｉ台目のディスク装置１−ｉに発行することになる。従
って、上位機器７の要求する転送速度を満足するには、
ｉ台目の磁気ディスク装置１−ｉが入出力バッファ３−
ｉにファイルを読み出す時間（Ｍ／Ｔ＋１／Ｒ＋Ｍ／
ｔ）が、全ての入出力バッファ３上のファイルを上位機
器７に転送する時間（ｎＭ／Ｔ）以内であれば良いこと
になる。この関係を数式で表わすと（数５）のようにな
る。

【０３４９】

【数５】

【０３５０】また、（数５）は（数６）示すように書き
表わすことができる。

【０３５１】

【数６】

【０３５２】これらの条件式より、上位機器７が要求す
る転送速度を満足するには磁気ディスク装置１を何台組
み合わせればよいかを求めることができ、（数１）を満
足する最少の台数の磁気ディスク装置１で集合型磁気デ
ィスク装置を構成すれば最もコストパフォーマンスの良
いものとなる。

【０３５３】例えば、１トラックの容量が２０k（キ
ロ）［Ｂｙｔｅ］の６トラックからなる、１シリンダ分
の容量が１２０ｋ［Ｂｙｔｅ］の磁気ディスク装置１に
より構成し、上位機器７が要求する転送速度２Ｍ（メ
ガ）［Ｂｙｔｅ／ｓｅｃ］、各磁気ディスク装置１から
入出力バッファ３へのシーク動作を含まない実効的な転
送速度を１Ｍ［Ｂｙｔｅ／ｓｅｃ］、各磁気ディスク装
置１の最少シーク時間１０ｍ（ミリ）［ｓｅｃ］、回転
速度５０［ｒｐｓ］とすると、（数４）は（数７）およ
び（数８）のようになる。これらの式を満足する最少の
ｎは４となる。

【０３５４】

【数７】

【０３５５】

【数８】

【０３５６】図６７に３台の磁気ディスク装置１で構成
した集合型磁気ディスク装置の読み出し中の時間関係
で、図６８に４台の磁気ディスク装置１で構成した集合
型磁気ディスク装置の読み出し中の時間関係、図１９に
５台の磁気ディスク装置１で構成した集合型磁気ディス
ク装置の読み出し中の時間関係を示す。

【０３５７】図６７の３台の磁気ディスク装置１で構成
した場合には、図からもわかるように磁気ディスク装置
１から入出力バッファ３にデータを読み出す時間が入出
力バッファ３から上位機器７への転送時間に間に合わ
ず、入出力バッファ３から上位機器７にデータの転送が
できない時間ａが発生し、入出力バッファ３から上位機
器７への転送速度が約１．６Ｍ［Ｂｙｔｅ／ｓｅｃ］と
なり上位機器が要求する転送速度を満足できない。

【０３５８】また、図６９の５台の磁気ディスク装置１
で構成した場合には、上位機器７が要求する転送速度を
満足するものの、図６８の４台の磁気ディスク装置１で
構成した場合に比べ、１台の磁気ディスク装置１が処理
しない時間ｂが長く磁気ディスク装置の使用効率が悪
い。

【０３５９】従って、数１を満足する最少のｎに一致す
る４台の磁気ディスク装置１で構成した場合が、最もコ
ストパフォーマンスの良い集合型磁気ディスク装置と言
える。

【０３６０】本発明を文字列検索装置に適用したもう１
つの実施例について図５６を用いて説明する。

【０３６１】図５７で説明した集合型磁気ディスク装置
は、指定したファイルのみを読み出す場合、指定したフ
ァイルが磁気ディスク装置１−１から１−ｎに平均して
存在すれば、実施例１で述べたような動作を実施して、
上位機器７へのデータ転送速度を高めることができる。
しかし、１台の磁気ディスク装置１−ｉにだけ指定した
ファイルが存在する場合、１台の磁気ディスク装置１−
ｉの読み出しが連続して行われることになる。この場
合、上位機器７へのデータ転送は、一旦磁気ディスク装
置１−ｉから入出力バッファ３−ｉに読み出した後、入
出力バッファ３−ｉから上位機器７へ転送する２段読み
出しを行なわねばならないため、データ転送が低下して
しまうという状況が発生する。このように、指定したフ
ァイルが偏って磁気ディスク装置１に存在すると上位機
器７へのデータ転送速度を効果的に高めることができな
い状況が発生し得る。そこで、実施例２は、ファイルが
偏って格納されないようにすることで、常に全磁気ディ
スク装置１を読み出し動作させ、上位機器７へのデータ
転送速度を高めるものである。

【０３６２】また、本実施例では記憶容量をさらに高め
るため、磁気ディスク装置の台数を増やしている。

【０３６３】図５６は本発明を用いた集合型磁気ディス
ク装置の構成を示すもので、図５７と相違点は磁気ディ
スク装置１の１シリンダ分と同じ容量の入出力バッファ
３を２面持ち、第１面の入出力バッファ３ａのデータを
上位機器７に転送している間に、第２面の入出力バッフ
ァ３ｂに磁気ディスク装置１からの読み出したフィルム
を格納することができることである。

【０３６４】また、一つのデータ記憶装置１５をｍ台の
磁気ディスク装置１−ｉ−１〜１−ｉ−ｍとマルチプレ
クサ１４によって構成し、集合型磁気ディスク装置の総
記憶容量を１台の磁気ディスク装置の記憶容量（ｎ×
ｍ）倍にしている。

【０３６５】動作を説明すると、まず、図５７の構成と
同様にデータベースの構造定義処理を行なうが、入出力
バッファ３にマルチプレクサ１４を介して接続するｍ台
の磁気ディスク装置１を識別する情報を構造定義情報に
追加する。

【０３６６】データベースの構築は図５７の構成と同様
に行なうが、いくつかの相違点がある。図５７の構成と
の相違点は、ファイル情報で与えられるファイルを構成
する磁気ディスク装置の台数分に分割して、全磁気ディ
スク装置に分散して格納することである。また、入出力
バッファ３のデータを格納物理情報で与えられるｍ台の
内の１台の磁気ディスク装置１−ｉ−ｊにマルチプレク
サ１４を制御して格納することである。

【０３６７】ファイルの分割方法としては、ファイルサ
イズを台数で割った分割サイズを求め、ファイルの先頭
から分割サイズごとに１台目の磁気ディスク装置１−１
−ｊから１−２−ｊ，１−３−ｊと順番に格納していく
ものと、ファイルの先頭から１バイトずつと言ったよう
に、決められたサイズごとに１台目の磁気ディスク装置
１−１−ｊから１−２−ｊ，１−３−ｊと順番に格納し
ていくものがある。

【０３６８】ファイルサイズが磁気ディスク装置の台数
で割り切れない場合は、ファイルサイズが磁気ディスク
の倍数となるように無効データを末尾に付加して、常に
１台目の磁気ディスク装置１−１−ｊにファイルの先頭
がくるように格納する。

【０３６９】次にファイルの読出しについて説明する。
これも図５７の例と同様に行なうが、本構成では入出力
バッファ３を２面（３ａ及び３ｂ）持っているため、そ
れぞれの磁気ディスク装置１から入出力バッファ３に読
出したファイルを格納した時点で、次のファイルの読出
し処理を開始することができる。

【０３７０】ファイルの読み出し処理の時間的な関係は
図７０のようになり、図５７の例に比べると入出力バッ
ファ３にデータを書き込んでも良い状態になるまでの待
ち時間がなくなり、より高速の転送が可能になる。図５
７の例と同じ条件で上位機器７の要求する転送速度を満
足する関係は、１台の磁気ディスク装置１−ｉ−ｊから
２面ある入出力バッファ３−ｉの一方の入出力バッファ
３ａ−ｉにファイルを読み出す時間（ｓ＋１／Ｒ＋Ｍ／
ｔ）が、もう一方の全ての入出力バッファ３ｂ−１から
３ｂ−ｎまでのファイルを上位機器７に転送する時間
（ｎＭ／Ｔ）以内であればよく、これを数式で表すと
（数９）のようになる。

【０３７１】

【数９】

【０３７２】また、（数９）は容易に（数１０）のよう
に書き表すことができる。

【０３７３】

【数１０】

【０３７４】この条件により、実施例１と同様に上位機
器が要求する転送速度を満足するためのデータ記憶装置
１５の台数を求めることができる。

【０３７５】また、大きな記憶容量が求められる場合に
は、データ記憶装置１５をｍ台の磁気ディスク装置１と
マルチプレクサ１４によって構成し、記憶容量をｍ倍化
することができる。

【０３７６】これらのことから決定される最少台数の磁
気ディスク装置１で集合型磁気ディスク装置を構成すれ
ば、最もコストパフォーマンスの良いものとなる。

【０３７７】図７０の実施例では各磁気ディスク装置の
シーク動作の起動を上位機器への入出力バッファ３−１
〜３−ｎのデータ転送が終了した時点で行なっても良い
ことは明らかである。

【０３７８】以上の２つの実施例では磁気ディスク装置
を用いた場合について説明したが、磁気ディスク装置以
外の光ディスク装置等の記憶媒体が回転する記憶装置に
ついても同様なことは明確である。

【０３７９】次に、図７１から図７４の開示に基づい
て、本発明の文書情報検索装置をＬＡＮ等を通じて外部
と接続可能にする実施例について説明する。

【０３８０】図７１における文書情報検索装置（サーチ
マシンと呼ぶ）３０００では、サーチマシン制御用コン
ピュータに１１５０ＬＡＮなどの通信回線１０００に接
続できるようなＬＡＮ接続制御機能を備えている。サー
チマシン３０００はサーチマシン制御用コンピュータ１
１５０とサーチユニット３１００から構成されている。
サーチマシン制御用コンピュータ１１５０では、サーチ
マシン制御プログラム１１００が実行される。このサー
チマシン制御プログラム１１００は、本発明の第一の実
施例（図１０）で説明した、検索式解析プログラム１１
０２、同義語異表記展開プログラム１１０３ａ、複合条
件解析プログラム１１４１ａ、及び検索実行制御プログ
ラム１１０８が実行される。

【０３８１】サーチユニット３１００は、オートマトン
生成用コンピュータ（ＣＰＵ１）１１０５ａ、ビットサ
ーチ用コンピュータ（ＣＰＵ３）１１０７ａ、ストリン
グサーチエンジン１１０６、複合条件判定用コンピュー
タ（ＣＰＵ２）１１４５ａ、半導体メモリ装置１１１０
ａ、ＲＡＭディスク装置１１１０ｂ、集合型磁気ディス
ク装置１１１０ｃから構成される。

【０３８２】オートマトン生成用コンピュータ（ＣＰＵ
１）１１０５ａではオートマトン生成プログラム１１０
５が、ビットサーチ用コンピュータ（ＣＰＵ３）１１０
７ａではビットサーチプログラム１１０７が、複合条件
判定用コンピュータ（ＣＰＵ２）１１４５ａでは複合条
件判定プログラム１１４５が実行される。

【０３８３】また、集合型磁気ディスク装置１１１０ｃ
は集合型磁気ディスク装置１１１０ｄと磁気ディスク装
置１１１０ｅ１〜１１１０ｅ１２から構成される。ま
た、集合型磁気ディスク装置１１１０ｄはマルチディス
クコントローラ１１１０ｆと、同期制御バッファ１１１
０ｇ１〜１１１０ｇ１２から構成される。同期制御バッ
ファ１１１０ｇ１〜１１１０ｇ１２は、それぞれ独立に
動作する磁気ディスク装置１１１０ｅ１〜１１１０ｅ１
２の出力を整合し、同期を取ってストリングサーチエン
ジン１１０６へ送出するためのものである。すなわち、
例えば、磁気ディスク装置１１１０ｅ１内の本文データ
を磁気ディスク装置１１１０ｅ２内の本文データより先
に送りださなければならないときに、もし磁気ディスク
装置１１１０ｅ２内の本文データが先に読み出されてし
まった場合でも、このデータを同期制御バッファ１１１
０ｇ２内に保持しておき、磁気ディスク装置１１１０ｅ
１内の本文データが同期制御バッファ１１１０ｇ１に読
み出され、ここからマルチディスクコントローラ１１１
０ｆを介してストリングサーチエンジン１１０６へ読み
出した後、同期制御バッファ１１１０ｇ２内のデータを
ストリングサーチエンジン１１０６へ読み出すことによ
って、当初の順番通りにデータをストリングサーチエン
ジン１１０６へ読み出すことが可能になる。このよう
に、同期制御バッファ１１１０ｇ１〜１１１０ｇ１２
は、磁気ディスク装置１１１０ｅ１〜１１１０ｅ１２の
読み出し順序が各磁気ディスク装置のシーク時間及び回
転待ち時間のバラツキによりどう変化したとしても、正
しい所定の順番で外部に送り出すことが可能となる。マ
ルチディスクコントローラ１１１０ｆは、サーチマシン
制御プログラム１１００内の検索実行制御プログラム１
１０８の制御のもとに、同期制御バッファ１１１０ｇ１
〜１１１０ｇ１２の出力を選択するマルチプレクサの機
能を果たす。

【０３８４】ＲＡＭディスク装置１１１０ｂは、ＲＡＭ
ディスクコントローラ４２００ｂ，４１００ｃ，４１０
０ｄから構成される。半導体メモリボード４１００ａ，
４１００ｂ，４１００ｃ，４１００ｄは、同一バスに接
続され、ＲＡＭディスクコントローラ４２００制御によ
り、ここに格納された擬縮本文がランダムにアクセスさ
れる。そして、読み出されたデータはストリングサーチ
エンジン１１０６へと送出される。

【０３８５】サーチマシン制御プログラム１１５０は、
ＬＡＮ１０００を介して送られてくる検索指令に応じ
て、先ず第一に検索条件の解析、同義語展開、異表記展
開、複合条件解析、近傍条件解析、文脈条件解析、論理
条件解析を行い、ここで作成された各制御情報をビット
サーチプログラム１１０７、オートマトン生成プログラ
ム１１０５、及び複合条件判定プログラム１１４５へ渡
す。オートマトン生成プログラム１１０５で作成された
キーワード照合用の状態遷移テーブルデータは、ストリ
ングサーチエンジン１１０６へ書き込まれる。

【０３８６】第二に、検索制御情報の設定が終了した
ら、検索の実行に入る。最初、半導体メモリ１１１０ａ
上の文字成分表が読み出され、ビットサーチプログラム
１１０７により文字成分表サーチが行われる。この文字
成分表サーチの結果は、サーチマシン制御用コンピュー
タ１１５０の主メモリ上に格納される。次に文字成分表
サーチにより絞り込まれた文書集合に対して、擬縮本文
サーチを実行する。すなわち、サーチマシン制御用コン
ピュータ１１５０の主メモリ上に格納された文字成分表
サーチの結果情報としての該当文書識別子を読み出し、
これに対応する擬縮本文をＲＡＭディスク装置１１１０
ｂから読みだし、ストリングサーチエンジン１１０６の
照合情報は、複合条件判定プログラム１１４５に渡さ
れ、ここで指定された複合条件に合致するか否かの判定
が行われる。この擬縮本文サーチ結果は、同様にしてサ
ーチマシン制御用コンピュータ１１５０の主メモリ上に
格納される。この後、もし複合条件に近傍条件あるいは
文脈条件が設定されていたなら、本文サーチへ入る。本
文サーチでは、サーチマシン制御用コンピュータ１１５
０の主メモリ上に格納された擬縮本文サーチの結果情報
としての該当文書識別子を読み出し、これに対応する本
文を集合型磁気ディスク装置１１１０ｃから読み出し、
ストリングサーチエンジン１１０６で指定キーワードの
照合処理を行う。このストリングサーチエンジン１１０
６の照合情報は複合条件判定プログラム１１４５に渡さ
れ、ここで指定された複合条件、すなわち近傍条件と文
脈条件に合致するか否かの判定が行われる。この本文サ
ーチ結果は、同様にしてサーチマシン制御用コンピュー
タ１１５０の主メモリ上に格納される。

【０３８７】これらの検索手段の制御は、すべてサーチ
マシン制御プログラム１１００内の検索実行制御プログ
ラム１１０８によって行われる。

【０３８８】第三に、上述した一連の検索処理が終了し
たら、サーチマシン制御用コンピュータ１１５０の主メ
モリ上に書き込まれた検索結果を、サーチマシン制御プ
ログラム１１００の制御によりＬＡＮ１０００を介して
要求元であるワークステーション等の検索対話端末に返
送する。

【０３８９】以上説明した本発明の変形例によれば、文
書情報検索装置をＬＡＮ内のサーバとして、同じＬＡＮ
に接続された複数の検索対話用端末から検索を行うこと
が可能となり、共有資源としての有効活用ができるよう
になる。

【０３９０】次に、本発明のもう一つ別の実施例につい
て図７２を用いて説明する。

【０３９１】本実施例における文書情報検索装置（サー
チマシンと呼ぶ）３０００はＬＡＮなどの通信回線１０
００に接続できるようＬＡＮ接続制御アダプタ２１００
を備えている。サーチマシン３０００は上記ＬＡＮ接続
制御アダプタ２１００のほか、サーチマシン制御用コン
ピュータ２２００と複数のサーチユニット３００１，３
００２，……から構成されている。

【０３９２】サーチマシン制御用コンピュータ１１５０
では、サーチマシン制御プログラム１１００が実行され
る。このサーチマシン制御プログラム１１００は、本発
明の第一実施例（図１０図）で説明した、検索式解析プ
ログラム１１０２、同義語異表記展開プログラム１１０
３ａ、複合条件解析プログラム１１４１ａ、及び検索実
行制御プログラム１１０８で構成される。

【０３９３】サーチユニット３００１は、オートマトン
生成用コンピュータ（ＣＰＵ１）１１０５ａ、ビットサ
ーチ用コンピュータ（ＣＰＵ３）１１０７ａ、、ストリ
ングサーチエンジン１１０６、複合条件判定用コンピュ
ータ（ＣＰＵ２）１１４５ａ、半導体メモリ装置１１１
０ａ、ＲＡＭディスク装置１１１０ｂ、集合型磁気ディ
スク装置１１１０ｃ、検索結果格納メモリ１１４６、及
びセレクタ３６１０、３６２０から構成される。

【０３９４】オートマトン生成用コンピュータ（ＣＰＵ
１）１１０５ａではオートマトン生成プログラム１１０
５が、ビットサーチ用コンピュータ（ＣＰＵ３）１１０
７ａではビットサーチプログラム１１０７が、複合条件
判定用コンピュータ（ＣＰＵ２）１１４５ａでは複合条
件判定プログラム１１４５が実行される。

【０３９５】また、集合型磁気ディスク装置１１１０ｃ
は集合型磁気ディスク装置１１１０ｄと磁気ディスク装
置１１１０ｅ１〜１１１０ｅ１ｎから構成される。これ
らの磁気ディスク装置１１１０ｅ１〜１１１０ｅ１ｎに
は、本文データ、擬縮本文データ、文字成分表及び書誌
事項などが分散して格納されている。本文サーチの際に
は、ここから本文データがストリングサーチエンジン１
１０６へ読み込まれる。

【０３９６】半導体メモリ装置１１１０ａには、システ
ムの立ち上げ時に磁気ディスク装置１１１０ｅ１〜１１
１０ｅ１ｎから文字成分表がロードされ、検索時に文字
成分表サーチの対象データとしてビットサーチプログラ
ム１１０５によりアクセスさせる。

【０３９７】同様にＲＡＭディスク装置１１１０ｂに
は、システムの立ち上げ時に磁気ディスク装置１１１０
ｅ１〜１１１０ｅ１ｎから擬縮本文がロードされ、検索
時に擬縮本文サーチの対象データとしてストリングサー
チエンジン１１０６によりアクセスされる。

【０３９８】ストリングサーチエンジン１１０６は、擬
縮本文サーチ及び本文サーチ時に、それぞれ擬縮本文を
ＲＡＭディスク装置１１１０ｂから、本文を集合型磁気
ディスク装置１１１０ｃから読み出し、指定キーワード
の探索照合処理を行う。セレクタ３６１０は、ストリン
グサーチエンジン１１０６への入力をＲＡＭディスク装
置１１１０ｂと集合型磁気ディスク装置１１１０ｃとで
切り替える働きをする。また、セレクタ３６２０は、検
索結果格納メモリ１１４６へ文字成分表サーチ結果を書
き込む際と、擬縮本文サーチ結果及び本文サーチ結果を
書き込む際の入力を切り替える働きをする。

【０３９９】サーチマシン制御プログラム１１５０は、
ＬＡＮ１０００を介して送られてくる検索指令に応じ
て、先ず第一に検索条件の解析、同義語展開、異表記展
開、複合条件解析、近傍条件解析、文脈条件解析、論理
条件解析を行う、ここで作成された各制御情報を各サー
チユニット３００１，３００２，……のビットサーチプ
ログラム１１０７、オートマトン生成プログラム１１０
５、及び複合条件判定プログラム１１４５へブロードキ
ャストする。各サーチユニット３００１，３００２，…
…では、それぞれオートマトン生成プログラム１１０５
で作成されたキーワード照合用の状態数にテーブルデー
タが、ストリングサーチエンジン１１０６へ書き込まれ
る。

【０４００】第二に、検索制御情報の設定が終了した
ら、検索の実行に入る。ここでは、サーチマシン制御用
コンピュータ１１５０上の検索実行制御プログラム１１
０８が各サーチユニット３００１，３００２，……へ検
索起動情報をブロードキャストすることになる。

【０４０１】各サーチユニット３００１，３００２，…
…では、最初、半導体メモリ１１１０ａ上の文字成分表
が読み出され、ビットサーチプログラム１１０７より文
字成分表サーチが行われる。この文字成分表サーチの結
果は、検索結果格納メモリ１１４６に書き込まれる。こ
の時、３６２０はビットサーチプログラム１１０７から
の書込みを選択すべく、検索実行制御プログラム１１０
８により切り替えられている。

【０４０２】次に、文字成分表サーチにより絞り込まれ
た文書集合に対して、擬縮本文サーチを実行する。すな
わち、検索結果格納メモリ１１４６上に格納された文字
成分表サーチの結果情報としての該当文書識別子を検索
実行制御プログラム１１０８が内蔵する擬縮本文格納情
報を参照して、該当擬縮本文のＲＡＭディスク装置１１
１０ｂ上の格納領域情報をＲＡＭディスクコントローラ
７２００（図２２）に設定する。その後、該当擬縮本文
をＲＡＭディスク装置１１１０ｂから読み出し、ストリ
ングサーチエンジン１１０６で指定キーワードの照合処
理を行う。このストリングサーチエンジン１１０６の照
合情報は、複合条件判定プログラム１１４５に渡され、
ここで指定された複合条件に合致するか否かの判定が行
われる。この擬縮本文サーチ結果は、同様にして検索結
果格納メモリ１１４６に書き込まれる。当然、セレクタ
３６２０は複合条件判定プログラム１１４５からの書込
みを選択すべく、検索実行制御プログラム１１０８によ
り切り替えられている。

【０４０３】この後、もし複合条件に近傍条件あるいは
文脈条件が設定されていたなら、本文サーチへ入る。本
文サーチでは、検索結果格納メモリ１１４６上に格納さ
れた擬縮本文サーチの結果情報としての該当文書識別子
を検索実行制御プログラム１１０８が内蔵する本文格納
情報を参照して、該当本文の集合型磁気ディスク制御装
置１１１０ｄ（図２０）に設定する。その後、これに対
応する本文を集合型磁気ディスク装置１１１０ｃから読
み出し、ストリングサーチエンジン１１０６で指定キー
ワードの照合処理を行う。このストリングサーチエンジ
ン１１０６の照合情報は、複合条件判定プログラム１１
４５に渡され、ここで指定された複合条件、すなわち近
傍条件と文脈条件に合致するか否かの判定が行われる。
この本文サーチ結果は、検索結果格納メモリ１１４６に
書き込まれる。このとき、セレクタ３６１０は集合型磁
気ディスク装置１１１０ｃから読み込みを選択すべく、
またセレクタ３６２０は複合条件判定プログラム１１４
５からの書込みを選択すべく、検索実行制御プログラム
１１０８により切り替えられている。

【０４０４】以上説明した検索手順の制御は、すべて検
索実行制御プログラム１１０８により、各サーチユニッ
ト３００１，３００２，……へブロードキャストするこ
とにより行われる。

【０４０５】第三に、上述した一連の検索処理が全サー
チユニット３００１，３００２，……で終了したら、各
検索結果格納メモリ１１４６上に書き込まれた検索結果
を、検索実行制御プログラム１１０８が全ユニット３０
０１，３００２，……から収集し、これを統合してサー
チマシン制御プログラム１１００の制御によりＬＡＮ１
０００を介して要求元へ返送する。

【０４０６】また、サーチマシン制御用コンピュータ１
１５０には磁気ディスク装置２４００が付設されてお
り、ここには本サーチマシン３０００の構成情報、すな
わちサーチユニット数などが格納されている。さらに、
この磁気ディスク装置２４００は、ＬＡＮを介して複数
のユーザから検索要求が来る場合、サーチユニットの動
作状況に応じこれらの要求を一時的に格納したり、ある
いは返送すべき検索結果情報を一時的に格納するのにも
用いられる。

【０４０７】さらに、サーチマシン制御用コンピュータ
１１５０に付随したコンソール２３００には、本サーチ
マシンの動作状況が適宜表示されたり、あるいはここか
ら保守動作の指示を行うことができるようになってい
る。

【０４０８】この実施例の公正に示されているように、
本発明によれば、集合型磁気ディスク装置内の磁気ディ
スク装置の台数及びサーチユニットのユニット数をユー
ザの要求仕様、すなわち要求テキストデータ蓄積容量、
検索時間などに応じて極めて容易に情報検索装置を構成
できることになる。

【０４０９】図７３は、本発明の更に別の実施例を示し
たものである。これまで説明してきた実施例では、集合
型磁気ディスク装置１１１０ｃ、ビットサーチ用コンピ
ュータ１１０７ａあるいはストリングサーチエンジン１
１０６、複合条件判定用コンピュータ１１４５ａ及び検
索結果格納メモリ１１４６をカスケードに接続し、パイ
プライン動作させることによって処理速度の向上を図っ
ている。これに対して、本実施例では、上記各部分をバ
ス８０００で結合することによって、ハードウェアの構
成を簡単化し、引いては装置規模を抑えた構成にしたも
のである。また、集合型磁気ディスク装置１１１０ｃ、
ＲＡＭディスク装置１１１０ｂ、及び半導体メモリ装置
１１１０ａの制御コンピュータ１１５０ａを、またビッ
トサーチ用コンピュータ１１０７ａ、ストリングサーチ
エンジン１１０６、及び複合条件判定用コンピュータ１
１４５ａの制御コンピュータ１１５０ｂをそれぞれ一台
ずつ配ることによって、サーチマシン制御用コンピュー
タ１１５０のロードを軽減し、全体として負荷分散を図
ることにより、検索処理にかかわるオーバヘッドの低減
を可能とするものである。

【０４１０】最後に、本発明の文書情報検索装置をネッ
トワークシステムにおいて使用する場合の実施例につい
て、図７４を用いて説明する。

【０４１１】同図において１０００がＬＡＮなどのネッ
トワークであり、これにサーチマシン３０００がサーチ
マシン制御用ワークステーション２２００を介して、通
信制御手段２１００により接続されている。

【０４１２】また、５２００は光ディスク装置５５１
０，５５２０，……５５３０を統括制御するイメージサ
ーバである。該イメージサーバ５２００も同じく、通信
制御手段５１００によりネットワーク１０００に接続さ
れている。５４００は光ディスク装置５５１０，５５２
０，……５５３０における文書に対応するイメージデー
タの所在を管理する管理情報を格納する磁気ディスク装
置である。

【０４１３】１２００はデータを表示できる検索対話用
のワークステーションであり、これもまた通信制御手段
１１００によってネットワーク１０００に接続されてい
る。本ワークステーションにはこのほかイメージプリン
タ１４００、イメージスキャナ１５００、磁気ディスク
装置１６００、光ディスク装置１７００が接続されてい
る。

【０４１４】６２００も検索対話用のワークステーショ
ンであり、これも通信制御手段６１００により同じネッ
トワークに接続されている。これは、検索ならびに閲読
専用のワークステーションである。ワークステーション
１２００からは、サーチマシン３０００からの検索結果
に応じて、イメージサーバ５２００へ該当文書に対応す
るイメージデータを要求し、これをネットワーク経由で
受け取りコンソール１３００に表示し、図面なども含め
て閲読することが可能である。このイメージデータはイ
メージプリンタ１４００にハードコピーをとることもで
きる。また、このイメージデータを本ワークステーショ
ン上で編集し、個人専用のプライベートファイルとして
光ディスク装置１７００に格納することも可能である。
この編集に際しては、イメージスキャナ１５００から入
力したイメージを用いることもできる。

【０４１５】したがって、サーチマシンあるいはイメー
ジサーバのデータベースに格納されているパブリックな
データには手を加えることなく編集部分のみを磁気ディ
スク装置１６００及び光ディスク装置１７００に格納
し、その対応情報を磁気ディスク装置１６００に持つこ
とも可能である。

【０４１６】

【発明の効果】スキャン型のフルテキストサーチを加速
する方法として、プリサーチを行うことが可能となるデ
ータの登録を実現することが可能となる。プリサーチを
行うことにより、磁気ディスク等データ格納手段に格納
されたテキスト本文を参照しに行く件数を減らすことが
できるようになるため、検索処理時間に占める割合が高
い本文検索処理量を減らすことが可能になり、その結果
全体の検索処理時間を短縮することが可能となる。

【０４１７】検索データファイルをサーチすることによ
り検索の高速化が図れる。具体的には、文字成分表によ
り指定された文字をすべて含む文献のみを抽出すること
ができ、以降の検索対象とする文書数を必要最小限に絞
り込むことが可能となるため、全体の検索処理時間を短
縮することが可能となる。さらに、擬縮本文データをス
キャンすることによって、指定されたキーワードが単語
単位で記述されている文書だけを抽出することができ、
以降の本文検索の対象となる文書数を必要最小限に絞り
込むことが可能となるため、全体の検索処理時間をさら
に短縮することが可能となる。

【０４１８】したがって、プリサーチの結果絞り込まれ
た文書について、データを読みだしてスキャンし、最後
の複合条件による本文検索を行うことになるため、等価
的に非常に高速なフルテキストサーチが実現できること
になる。

【図面の簡単な説明】

【図１】従来の検索システムを示すブロック構成図であ
る。

【図２】従来の有限オートマトンによる文字列検索原理
を表した説明図（その１）である。

【図３】従来の有限オートマトンによる文字列検索原理
を表した説明図（その２）である。

【図４】従来例に対応するフェイルテーブルの説明図
（その１）である。

【図５】従来の有限オートマトンによる文字列検索原理
を表した説明図（その３）である。

【図６】従来例に対応するフェイルテーブルの説明図
（その２）である。

【図７】従来の有限オートマトンによる文字列検索原理
を表した説明図（その４）である。

【図８】従来例に対応するフェイルテーブルの説明図
（その３）である。

【図９】異表記展開の従来構成を示したブロック図であ
る。

【図１０】この発明の第１の実施例の概要を示すブロッ
ク構成図である。

【図１１】照合位置情報の一例を示す図である。

【図１２】照合位置を付したサーチエンジンの出力情報
例を示す図である。

【図１３】複合条件判定部の詳細を示す図である。

【図１４】２つのキーワードを使った検索例を示す図で
ある。

【図１５】フルテキストサーチを加速する手段を示す構
成図である。

【図１６】テキストの登録処理の手順を示す図である。

【図１７】図１６に示す登録手順で登録、生成された文
字成分表から、検索処理を行う手段を示した図である。

【図１８】文字成分表の構成とこれを用いたサーチの具
体例を示した図である。

【図１９】擬縮本文の作成を示す図である。

【図２０】文字成分表サーチの手順を示したＰＡＤ図
（その１）である。

【図２１】文字成分表サーチの手順を示したＰＡＤ図
（その２）である。

【図２２】文字成分表サーチの手順を示したＰＡＤ図
（その３）である。

【図２３】文字成分表サーチの手順を示したＰＡＤ図
（その４）である。

【図２４】文字成分表サーチの手順を示したＰＡＤ図
（その５）である。

【図２５】図１０に示した実施例の変形例を示す構成図
である。

【図２６】同義語・異表記の展開の処理を行う実施例の
ブロック構成図である。

【図２７】図２６に示した実施例での処理概略を説明し
た図である。

【図２８】本発明の１実施例の構成ブロック図である。

【図２９】異表記展開処理の過程を例示する図である。

【図３０】異表記展開手段のブロック図である。

【図３１】異表記展開処理部における変換ルールの適用
処理をカタカナ文字の列で説明した図である。

【図３２】異表記展開処理を示すＰＡＤ図である。

【図３３】見だし文字列検索をオートマトンを用いて実
行する実施例を説明する図である。

【図３４】オートマトンの状態遷移テーブル図である。

【図３５】オートマトンの出力テーブル図である。

【図３６】検索オートマトンの状態遷移テーブル及び出
力テーブルの作成方法を表したＰＡＤ図である。

【図３７】カタカナ異表記変換ルールテーブルを示す図
である。

【図３８】漢字の新旧字体に関する異表記変換ルールテ
ーブルを示す図である。

【図３９】漢字の送り仮名に関する異表記変換ルールテ
ーブルを示す図である。

【図４０】ローマ字とカタカナの対応表の例を示す図で
ある。

【図４１】異表記展開手段の展開モードを設定可能とす
るブロック図である。

【図４２】異表記展開における各変換部、展開部及びス
イッチの出力の制御状態を示す図である。

【図４３】同義語辞書を示す図である。

【図４４】同義語辞書の見出し文字列をインデックステ
ーブルを用いた探索の概要を示す図である。

【図４５】本発明の実施例である有限オートマトンを用
いた文字検索か色の構成ブロック図である。

【図４６】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その１）である。

【図４７】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その２）である。

【図４８】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その３）である。

【図４９】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その４）である。

【図５０】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その５）である。

【図５１】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その６）である。

【図５２】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その７）である。

【図５３】本発明の実施例の有限オートマトンによる文
字列検索方法の原理を示した説明図（その８）である。

【図５４】本発明の実施例の状態遷移テーブルの説明図
である。

【図５５】検索結果テーブルの説明図である。

【図５６】本発明の実施例である集合型磁気ディスク装
置の構成例図である。

【図５７】本発明の１実施例を示す構成図である。

【図５８】構造定義テーブルの構造を示す図である。

【図５９】格納位置ポインタテーブルの構造を示す図で
ある。

【図６０】物理情報テーブルの構造を示す図である。

【図６１】図５７に示した実施例のファイルの書込みの
フローチャートである。

【図６２】図５７に示す集合型磁気ディスク装置におけ
るファイルの書き込み処理のタイムチャートである。

【図６３】図５７に示す実施例におけるファイルの読み
出し処理のフローチャート、でる。

【図６４】マルチプレクスコントローラの構成を示す図
である。

【図６５】図５７に示す実施例における集合型磁気ディ
スク装置におけるファイルの読み出し処理のタイムチャ
ートである。

【図６６】図５７に示す実施例における集合型磁気ディ
スク装置におけるファイルの読み出し処理のタイムチャ
ートである。

【図６７】図５７に示す実施例において、３台の磁気デ
ィスク装置で構成した集合型磁気ディスク装置における
ファイルの読み出し処理のタイムチャートである。

【図６８】図５７に示す実施例において、４台の磁気デ
ィスク装置で構成した集合型磁気ディスク装置における
ファイルの読み出し処理のタイムチャートである。

【図６９】図５７に示した実施例において、５台の磁気
ディスク装置で構成した集合型磁気ディスク装置におけ
るファイルの読み出しのタイムチャートである。

【図７０】図５６に示した実施例において、２台の集合
型磁気ディスク装置におけるファイルの読み出し処理の
タイムチャートである。

【図７１】ＬＡＮに接続した実施例を示す構成ブロック
図である。

【図７２】図７１に示した実施例の変形例を示すブロッ
ク図である。

【図７３】図７１に示した実施例の変形例を示す図であ
る。

【図７４】図７１の変形例の構成を示す構成ブロック図
である。

【図７５】ＲＡＭディスク装置の具体例を示す図であ
る。

【図７６】符号語表現文字列の１例を示す図（その１）
である。

【図７７】符号語表現文字列の１例を示す図（その２）
である。

【符号の説明】

１１０１…キーボード、１１０２…検索式解析プログラ
ム、１１０３ａ…同義語異表記展開プログラム、１１０
５…ビットサーチ用コンピュータ、１１０６…ストリン
グサーチエンジン、１１０７…ビットサーチプログラ
ム、１１１０…テキストデータファイル、１１４５ａ…
複合条件判定用コンピュータ、１１４６…検索結果格納
メモリ、１１５０…サーチマシン制御用コンピュータ

───────────────────────────────────────────────────── フロントページの続き (72)発明者川口久光東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者畠山敦東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者兼岡則幸東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者秋沢充東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】複数のデータを格納し得るデータ格納手段
へのデータ登録方法において、前記データ格納手段へデータを登録し、予め定めた各文字が前記登録されたデータに含まれるか
否かを示す文字成分表を前記登録されるデータに対応さ
せて登録することを特徴とするデータ登録方法。
【請求項２】請求項１に記載のデータ登録方法におい
て、前記データは、文字コードからなるテキストデータを含
むことを特徴とするデータ登録方法。
【請求項３】請求項１または２に記載のデータ登録方法
において、前記文字成分表は、前記データ格納手段に登録すること
を特徴とするデータ登録方法。
【請求項４】請求項１乃至３のいずれかにに記載のデー
タ登録方法において、前記予め定めた各文字は、前記登録させるデータおよび
前記登録させるデータ以前に前記データ格納手段に格納
されたデータのうち少なくとも一方に現れる文字である
ことを特徴とするデータ登録方法。
【請求項５】複数のデータを格納し得るデータ格納手段
へのデータ登録方法において、前記データ格納手段へデータを登録し、前記登録されたデータから、前記登録されたデータ中に
繰り返し現れる単語の重複を排除した凝縮本文データを
前記登録されるデータに対応させて記憶することを特徴
とするデータ登録方法。
【請求項６】請求項５に記載のデータ登録方法におい
て、前記凝縮本文データは、前記データ格納手段に登録する
ことを特徴とするデータ登録方法。
【請求項７】請求項５または６に記載のデータ登録方法
において、前記凝縮本文データは、前記データ格納手段に予め登録
されたデータおよび前記登録されたデータのうち、所定
数以上のデータに含まれる単語を排除して登録されるこ
とを特徴とするデータ登録方法。
【請求項８】請求項５乃至７のいずれかに記載のデータ
登録方法において、前記凝縮本文データは、前記登録されたデータから付属
語を排除して、登録されることを特徴とするデータ登録
方法。
【請求項９】複数のデータを格納し得るデータ格納手段
へのデータ登録方法において、前記データ格納手段へデータを登録し、予め定めた各文字が前記登録されたデータに含まれるか
否かを示す文字成分表および前記登録されたデータか
ら、前記登録されたデータ中に繰り返し現れる単語の重
複を排除した凝縮本文データをそれぞれ前記登録される
データに対応させて登録することを特徴とするデータ登
録方法。
【請求項１０】請求項９に記載のデータ登録方法におい
て、前記予め定めた文字は、前記凝縮本文データ中に現れる
文字であることを特徴とするデータ登録方法。
【請求項１１】コンピュータに複数のデータを格納し得
るデータ格納手段へデータを登録させるとともに、予め定めた各文字が前記登録されたデータに含まれるか
否かを示す文字成分表を前記登録されるデータに対応さ
せて登録させるプログラムを記憶したことを特徴とする
記憶媒体。
【請求項１２】請求項１１に記載の記憶媒体において、前記予め定めた各文字は、前記登録させるデータおよび
前記登録させるデータ以前に前記データ格納手段に格納
されたデータのうち少なくとも一方に現れる文字である
ことを特徴とする記憶媒体。
【請求項１３】コンピュータに複数のデータを格納し得
るデータ格納手段へデータを登録させるとともに、前記登録されるデータから、前記登録されるデータ中に
繰り返し現れる単語の重複を排除した凝縮本文データを
前記登録されるデータに対応させて登録させるプログラ
ムを記憶したことを特徴とする記憶媒体。
【請求項１４】コンピュータに複数のデータを格納し得
るデータ格納手段へデータを登録させるとともに、予め定めた各文字が前記登録されるデータに含まれるか
否かを示す文字成分表および前記登録されるデータか
ら、前記登録されるデータ中に繰り返し現れる単語の重
複を排除した凝縮本文データをそれぞれ前記登録される
データに対応させて登録させるプログラムを記憶したこ
とを特徴とする記憶媒体。
【請求項１５】請求項１４に記載の記憶媒体において、前記予め定めた文字は、前記凝縮本文データ中に現れる
文字であることを特徴とする記憶媒体。
【請求項１６】データ格納手段に格納された複数のデー
タの各々に対応し、予め定めた文字が前記データ中に含まれるか否かを示
し、前記データ格納手段に格納されたデータに対して検索が
された場合にサーチされ、入力された検索キーワードを含む可能性のないデータを
排除するための文字成分表を記憶することを特徴とする
記憶媒体。
【請求項１７】データ格納手段に格納された複数のデー
タの各々に対応し、登録されるデータから、前記登録されるデータ中に繰り
返し現れる単語の重複を排除し、前記データ格納手段に格納されたデータに対して検索が
された場合にサーチされ、入力された検索キーワードを含む可能性のないデータを
排除するための凝縮本文データを記憶することを特徴と
する記憶媒体。
【請求項１８】それぞれデータ格納手段に格納された複
数のデータの各々に対応し、前記データ格納手段に格納されたデータに対して検索が
された場合にサーチされ、入力された検索キーワードを含む可能性のないデータを
排除するためのものであって、予め定めた文字が前記データ中に含まれるか否かを示す
文字成分表および登録されるデータから、前記登録され
るデータ中に繰り返し現れる単語の重複を排除した凝縮
本文データを記憶することを特徴とする記憶媒体。
【請求項１９】請求項１８に記載の記憶媒体において、前記予め定めた文字は、前記凝縮本文データ中に現れる
文字であることを特徴とする記憶媒体。
【請求項２０】複数のデータを格納し得るデータ格納手
段へデータを登録させる手段と、予め定めた各文字が前記登録されたデータに含まれるか
否かを示す文字成分表を前記登録されるデータに対応さ
せて登録させる手段を有することを特徴とするデータ登
録装置。
【請求項２１】請求項２０に記載のデータ登録装置にお
いて、前記予め定めた各文字は、前記登録させるデータおよび
前記登録させるデータ以前に前記データ格納手段に格納
されたデータのうち少なくとも一方に現れる文字である
ことを特徴とするデータ登録装置。
【請求項２２】請求項２０または２１に記載のデータ登
録装置において、前記データは、文字コードを有する文書データを含むこ
とを特徴とするデータ登録装置。
【請求項２３】複数のデータを格納し得るデータ格納手
段へデータを登録させる手段と、前記登録されるデータから、前記登録されるデータ中に
繰り返し現れる単語の重複を排除した凝縮本文データを
前記登録されるデータに対応させて登録させる手段を有
することを特徴とするデータ登録装置。
【請求項２４】請求項２３に記載のデータ登録装置にお
いて、前記データは、文字コードを有する文書データを含むこ
とを特徴とするデータ登録装置。
【請求項２５】複数のデータを格納し得るデータ格納手
段へデータを登録させる手段と、予め定めた各文字が前記登録されるデータに含まれるか
否かを示す文字成分表および前記登録されるデータか
ら、前記登録されるデータ中に繰り返し現れる単語の重
複を排除した凝縮本文データをそれぞれ前記登録される
データに対応させて登録させる手段を有することを特徴
とするデータ登録装置。
【請求項２６】請求項２５に記載のデータ登録装置にお
いて、前記予め定めた文字は、前記凝縮本文データ中に現れる
文字であることを特徴とするデータ登録装置。
【請求項２７】請求項２５または２６に記載のデータ登
録装置において、前記データは、文字コードを有する文書データを含むこ
とを特徴とするデータ登録装置。