JP3427679B2

JP3427679B2 - 単語検索装置及び単語検索プログラムを記録したコンピュータ読取り可能な記録媒体

Info

Publication number: JP3427679B2
Application number: JP16145897A
Authority: JP
Inventors: 宏梅基; 昌一舘野
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1997-06-18
Filing date: 1997-06-18
Publication date: 2003-07-22
Anticipated expiration: 2017-06-18
Also published as: JPH117451A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は単語の集合の中から
単語につけられたキーをもとに効率的に単語を検索する
単語検索装置及び単語検索プログラムを記録した媒体に
関し、特に任意の位置にある文字を指定して、関連する
単語を高速に検索する単語検索装置及びそのような検索
をコンピュータに行わせるための単語検索プログラムを
記録した媒体に関する。

【０００２】

【従来の技術】何らかのキーから単語を検索するという
処理は、辞書の検索やかな漢字変換といったテキスト情
報処理システムにおける基本的な過程である。それだけ
に、キーから単語を検索するために必要な処理速度や記
憶容量は、そのような処理システム全体の性能を大きく
左右する。したがって、このような処理をより高速に、
かつより少ない記憶容量から実現することによって、非
常に大きな実用的効果を得ることができる。

【０００３】さて、単語をキーとして文書を検索するシ
ステムはすでに多く存在しているが、このような文書検
索システムにおいても、検索の結果として単語を出力す
る機能は、必須ではないが非常に有効な場合がある。

【０００４】文書検索システムにおいて多くの場合、キ
ーである単語は、文書中に含まれているか、もしくはシ
ステムの管理者や文書の作成者によってあらかじめ選定
される。この場合、検索システムを利用する立場のユー
ザからは、登録してあるキーの単語が何であるか分から
ないことがしばしばある。そのため、ユーザを支援する
ために、文書ではなくキーワードを何らかの方法で検索
できることが必要となる。

【０００５】キーワードを検索する具体的な方法とし
て、たとえば、よみから表記の単語を検索する方法、ま
たは、ある文字もしくは文字列を含む単語を検索する方
法、さらには、任意の正規表現を満たす単語を検索する
方法などが考えられる。

【０００６】また、キーワードによる文書検索システム
においては、単語から所望の文書もしくは文書へのポイ
ンタを高速に得るために、インデックスとしてトライと
呼ばれる木構造（トライ・インデックス）を用いること
が多い。このトライを用いれば、高速に単語の検索を行
うことができる。トライから単語を検索するときには、
ほぼ入力文字列の長さに比例する程度の処理ステップ数
しか必要としない。またデータ圧縮率も比較的良いた
め、トライは大量の索引単語を格納するという用途に向
いている。加えて、トライを用いる場合、単語の先頭部
分の文字列を指定すると、その文字列から始まるすべて
の単語を、簡単な処理によって求めることができるとい
う利点もある。

【０００７】ところが、トライから、単語の先頭以外の
任意の位置の部分文字を含む単語を、高速に探し出すこ
とはできない。ここで、これらの場合には、単語を表す
トライとは別個にインデックスを設けることによって、
任意の位置の部分文字から、その文字を含む単語を検索
することが行われている。

【０００８】いま、文字を検索キーとして、その文字か
ら綴りの中の任意の位置に含む単語を検索する場合を考
えることにしよう。単語は複数の文字によって構成され
ているので、ある１つの単語は、複数の検索キー（文
字）に対応付けられている。この場合のように、検索対
象が複数のキーにリンクされているときは、検索対象の
集合を１つのデータ構造の中に格納し、検索キーにはそ
のデータ構造中のポインタの値を対応させると、必要な
記憶容量は少なくて済む。

【０００９】そこで、単語集合のデータを少ない記憶容
量で表すことができ、かつ、ポインタによって単語を特
定できるデータ構造について以下に考察する。単語の集
合を格納するデータ構造として一般的なのは、固定長ま
たは可変長の文字列として格納するレコード構造であ
る。このレコード構造を用いた単語検索方式を「第１の
従来例」と呼ぶことにする。このレコード構造であれ
ば、任意の単語に対して、単語の総数によらずほぼ一定
の時間で高速にアクセスすることができる。したがっ
て、単語集合をこのようなレコード構造として格納する
ことによって、単語検索システムにおける高速なキーワ
ード検索を実現することができる。

【００１０】また、第１の従来例とは別に、トライ・イ
ンデックスを単語集合のデータとみなして、単語の末尾
に対応するトライ中のノードの識別番号を単語へのポイ
ンタとすることが考えられる。これを「第２の従来例」
と呼ぶことにする。トライのような木構造においては、
根を除くすべてのノードの親ノードは一意に存在する。
したがって、親ノードへのリンク情報をすべてのノード
に持たせることによって、１つのノードを指定したとき
に、そのノードから根に至るまでの経路は一意に決定す
ることができる。

【００１１】

【発明が解決しようとする課題】しかし、単語をキーと
するトライ・インデックスが存在し、なおかつそのイン
デックス中の単語を何らかのキーから検索する場合にお
いて、上記の従来の方式には以下のような問題点があっ
た。

【００１２】上記の第１の従来例、すなわち、単語の集
合を固定長または可変長の文字列として格納するレコー
ド構造のデータを、インデックスとは別個に用意する方
法では、キーから単語への高速な検索は実現できるが、
すでにトライ形式で格納されている単語の集合のデータ
とは別個にあらたなデータが必要となる。そのために必
要な記憶容量は無視し得ないほど大きくなってしまうと
いう問題点がある。

【００１３】上記の第２の従来例、すなわち、トライ・
インデックスを単語集合のデータとみなして、単語の末
尾に対応するトライ中のノードの識別番号を単語へのポ
インタとする方法では、第１の従来例と比べて単語集合
を表すためのデータが不要な分だけ、キーから単語への
検索自体に必要な記憶容量は第１の従来例に比べて少な
くて済むが、トライ・インデックスに対して本来ならば
不要な、親ノードへのリンク情報を追加することになっ
てしまう。したがって、検索システム全体としてみた場
合、第２の従来例は第１の従来例に比べて、記憶容量の
面で著しく改善されているとは言えない。

【００１４】本発明はこのような点に鑑みてなされたも
のであり、少ない記憶容量で高速に単語を検索できる単
語検索装置を提供することを目的とする。また、本発明
の他の目的は、コンピュータに対して、少ない記憶容量
で高速に単語を検索させるための単語検索プログラムを
記録した媒体を提供することである。

【００１５】

【課題を解決するための手段】本発明では上記課題を解
決するために、単語集合から単語を検索する単語検索装
置において、深さ優先順にノードが記録されるトライ形
式にしたがって、ノードに対応付けられた単語の集合が
格納された単語格納手段と、前記単語格納手段における
ノードの位置が入力されると、前記単語格納手段のトラ
イを根から順にたどっていき、入力された位置のノード
までの経路を求め、求められた経路以降の全ての経路を
たどって到達するノードに対応する全ての単語を取得
し、取得した単語の集合を出力する単語検索手段と、前
記単語格納手段に含まれる単語に対応するキーと、各単
語を構成しているノードの位置とを対応付けて格納する
キーインデックス格納手段と、前記キーインデックス格
納手段中の任意のキーが入力されると、前記キーインデ
ックス格納手段から、入力されたキーに対応するノード
の位置の集合を取得し、取得したノードの位置の集合を
前記単語検索手段に対して出力するノード位置検索手段
と、を有し、前記キーインデックス格納手段は、前記単
語格納手段に含まれる単語を構成する全ての文字と、各
文字を表しているノードの位置とを対応付け、かつ前記
単語格納手段に含まれる単語を構成する文字のうち、単
語の先頭文字および末尾文字を除いたすべての文字と、
各文字を表しているノードの位置とを対応付けているこ
とを特徴とする単語検索装置が提供される。

【００１６】この単語検索装置によれば、単語格納手段
における格納先の位置情報が入力されると、単語検索手
段が、単語格納手段のトライを根から順にたどってい
き、入力された位置のノードまでの経路を求め、求めら
れた経路以降の全ての経路をたどって到達するノードに
対応する全ての単語を取得し、取得した単語の集合が出
力される。キーインデックス格納手段は、単語格納手段
に含まれる単語に対応するキーと、各単語を構成してい
るノードの位置とを対応付けて格納する。ノード位置検
索手段は、キーインデックス格納手段中の任意のキーが
入力されると、キーインデックス格納手段から、入力さ
れたキーに対応するノードの位置の集合を取得し、取得
したノードの位置の集合を単語検索手段に対して出力す
る。さらに、キーインデックス格納手段は、単語格納手
段に含まれる単語を構成する全ての文字と、各文字を表
しているノードの位置とを対応付け、かつ単語格納手段
に含まれる単語を構成する文字のうち、単語の先頭文字
および末尾文字を除いたすべての文字と、各文字を表し
ているノードの位置とを対応付けている。その結果、入
力された位置に対応する単語を含む複数の単語を、高速
に検索することができるとともに、単語格納手段に必要
な記憶容量は少なくてすむ。

【００１７】

【００１８】

【００１９】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、本発明の原理構成図であ
る。本発明に係る単語検索装置は、単語格納手段１と単
語検索手段２とを有している。

【００２０】単語格納手段１には、単語の集合１ａが、
深さ優先順にノードが記録されるトライ形式（トライ・
インデックス）で格納されている。ここで、ノードの深
さとは、トライの根からそのノードまでの経路の長さで
ある。そして、ノードの深さ優先順とは、できる限り探
索を深さ方向に進めたときにたどるノードの順番であ
る。あるノードの子孫のノードと、弟のノードとを比較
した場合、常に、子孫のノードの方が優先順が高い（ア
ドレスの値が小さい）。また、兄弟同士で比べると、兄
となるノードの方が優先順が高い。

【００２１】単語検索手段２は、単語格納手段１におけ
る格納先の位置情報が入力されると、単語格納手段１の
トライを根から順にたどっていき、入力された位置のノ
ードまでの経路を求め、求められた経路以降の全ての経
路をたどって到達するノードに対応する全ての単語を取
得し、取得した単語集合を出力する。ノードの位置から
そのノードを含む単語または単語の集合を求めるアルゴ
リズムを以下に記述する。

【００２２】図２は、ノードの位置からそのノードを含
む単語または単語の集合を求めるアルゴリズムを示すフ
ローチャートである。これは、ノードの位置情報を受け
取った単語検索手段２が行う処理である。［Ｓ１］単語格納手段１のトライにおいて、開始ノード
から遷移することを考える。まず、トライにおけるラベ
ルの列を格納するために空のラベルスタックを用意し、
開始ノードを「ノードＡ」とおき、与えられたノード位
置に相当するノードを「ノードＸ」とおく。［Ｓ２］ノードＡの長子のノードを「Ｂ１」とする。ノ
ードＡの次の位置に存在するため、長子のノードである
ノードＢ１は直ちに求まる。［Ｓ３］ノードＢ１の隣接する弟ノードをノードＢ２と
する。トライを根からたどることによって、任意のノー
ドの隣接する弟のノードＢ２も直ちに求まる。［Ｓ４］ノードＸがノードＢ１と等しいか否かを判断す
る。等しければステップＳ８に進み、等しくなければス
テップＳ５に進む。［Ｓ５］ノードＸがノードＢ２よりも前か否かを判断す
る。前であるならステップＳ６に進み、前でないならス
テップＳ６に進む。［Ｓ６］ノードＸがノードＢ２よりも前にある場合、ノ
ードＸは、ノードＢ１までの経路をたどることが分か
る。そこで、ノードＡからノードＢ１に至るまでのアー
クに付加されたラベルをラベルスタックに格納し、ノー
ドＡにノードＢ１を代入して、ステップＳ２に戻る。［Ｓ７］ノードＸがノードＢ２以降にある場合、ノード
Ｘが、ノードＢ１の経路をたどらないことが分かる。そ
こで、ノードＢ１にノードＢ２を代入して、ステップＳ
３に戻る。［Ｓ８］ノードＸがノードＢ１と等しい場合、ノードＢ
１以降の全ての経路をたどり、それらの経路となるアー
クに付加されたラベル列を求める。［Ｓ９］ラベルスタックに格納されているラベル列とノ
ードＢ１以降の経路から得られたラベル列の連結し、処
理を終了する。これにより、求めるべき単語が表され
る。

【００２３】このような処理を単語検索手段２が行うこ
とにより、ノード位置から、そのノードを含む単語の集
合を得ることができる。しかも、トライ中のノードが深
さ優先順に記録され、かつトライを根からたどることに
よって任意のアークに関してその隣接する弟アークが特
定できるため、トライ中のノードを指定されたときに、
親のノードへのリンク情報を用いることなく、そのノー
ドを含む経路を特定することができる。その理由を以下
に説明する。

【００２４】まず、前提として、トライ中のあるノード
をノードＡとし、ノードＡの長子のノードをＢ１とし、
ノードＢ１の隣接する弟ノードをＢ２とし、ノードＢ１
の長子のノードをＣとする。いま、ノードＸの位置が指
定され、ノードＡからノードＸに至るまで経路を求めた
いとする。このとき、ノードＸはノードＡからたどれる
ことは分かっているものとする。

【００２５】本発明に係るトライでは、ノードは深さ優
先順に記録されているので、ノードＣは、ノードＢ１と
ノードＢ２との間にある。仮に、ノードＸがノードＣと
等しいとき、ノードＸは、ノードＢ１よりも後にあり、
かつ、ノードＢ２よりも前にあることになる。したがっ
て、ノードＸはノードＢ１からたどれることになる。以
上のことから、ノードＸがノードＢ１とノードＢ２との
間にある場合、ノードＸにはノードＡからノードＢ１に
遷移する経路をたどって到達できることがわかる。

【００２６】また、ノードＸがノードＢ２よりも後にあ
る場合、ノードＸは、ノードＡからノードＢ１に遷移す
る経路をたどらないことがわかる。この場合、ノードＸ
にはノードＡから、ノードＢ１の弟のノードのいずれか
を遷移する経路をたどって到達できることが分かる。以
上の考察を繰り返すことによって、ノードＡからノード
Ｘまで到達できる経路が分かる。

【００２７】以上の結果、ノードの位置を指定されたと
きに、トライの根から遷移することによって、そのノー
ドを含む単語を求めることができる。しかも、トライに
おける単語を、トライにおけるノードの位置をポインタ
として参照することによって、トライ・インデックス以
外に単語集合を表すデータを設けておく必要がなく、情
報の記憶容量が少なくてすむ。

【００２８】また、単語に対する検索キー（文字）の入
力に応じて、単語の集合が出力されるようにすることも
できる。そのような単語検索装置について、以下に説明
する。

【００２９】図３は、単語へのキーを入力とする単語検
索装置の原理構成図である。この単語検索装置は、単語
格納手段１１、キーインデックス格納手段１２、ノード
位置検索手段１３及び単語検索手段１４で構成されてい
る。なお、単語格納手段１１と単語検索手段１４とは、
図１中の単語格納手段１と単語検索手段２と同じ機能有
しているため、ここでは説明を省略する。

【００３０】キーインデックス格納手段１２は、単語へ
のキー（文字）と、そのキーと同じラベルが付加されて
いるノードの位置情報とを対応付けて格納している。こ
のように、キーとノード位置との対応関係のすべてをも
とにキーインデックス格納手段１２が構成されている。
なお、１つのキーに対して複数の単語が対応している場
合、キーインデックス格納手段１２において、そのキー
にはノードの位置の集合が対応している。

【００３１】ノード位置検索手段１３は、単語へのキー
が入力されると、キーインデックス格納手段１２の中か
ら、対応するノードの位置の集合を検索する。そして、
得られたノードの位置の集合を単語検索手段１４へ入力
する。

【００３２】以後、単語検索手段１４が、単語格納手段
１１から各ノード位置に対応する単語集号を検索し、単
語集合を出力する。これにより、単語を構成している文
字を検索キーとして入力し、その文字を含む単語の集合
を得ることができる。すなわち、単語の先頭以外の任意
の位置の部分文字を含む単語の集合を探し出すことがで
きる。

【００３３】なお、キーインデックス格納手段１２は、
単語格納手段１１に含まれる単語を構成する文字のう
ち、単語の先頭文字および末尾文字を除いたすべての文
字と、単語格納部中でのその文字を表しているノードの
位置とを対応付けているものであってもよい。それは、
単語の先頭文字あるいは末尾文字から始まる単語は、従
来の技術を用いて検索できるため、特にキーインデック
ス格納手段１２において管理する必要がないからであ
る。このように、単語の先頭文字および末尾文字に対応
するノードの位置の情報を省略すれば、キーインデック
ス格納手段１２に必要な記憶容量をさらに減らすことが
できる。

【００３４】また、単語格納手段１１には、単語に対応
する情報（例えば、その単語を含む文書）へのポインタ
とそれに対応する単語とを組にして格納しておき、単語
検索手段１４は、単語格納手段１１から各々のノードが
表す単語および単語に対応する情報へのポインタの集合
を出力するようにしてよい。これにより、任意のキー
（文字）を入力することにより、そのキーを含む単語を
取得し、さらに、取得した単語に対応する情報（文書な
ど）を得ることができる。

【００３５】以上が本発明の基本となる原理構成であ
る。以下に、上記の構成をより具体化した単語検索装置
の実施の形態を説明する。図４は、本発明の第１の実施
の形態を示すブロック図である。これは、単語を入力と
して、その単語に関連する単語の集合を検索する単語検
索装置である。

【００３６】この実施の形態に係る単語検索装置は、関
連単語インデックス部２１、ノード位置検索部２２及び
単語検索部２３で構成されている。関連単語インデック
ス部２１には、図３の原理構成で示した単語格納手段１
１とキーインデックス格納手段１２との情報を保持して
いるとともに、ある単語とその単語に対する関連語集合
との対応関係をも保持している。

【００３７】ノード位置検索部２２は、単語の入力を受
けると、その単語に関連する単語（その単語自身も含
む）のノードの位置の集合を受け取り、単語検索部２３
に入力する。単語検索部２３は、入力されたノードの位
置の集合に基づいて、関連単語インデックス部２１を検
索し、関連単語の集合を取得し、出力する。

【００３８】ここで、本発明の実施の形態の詳細を説明
する前に、木に関する用語をあらためて定義する。木
は、ノードとよばれる要素の集合に対して階層関係を与
えたものである。以下、木において与えられる階層関係
は、親子親戚関係を表すことばで表現することにする。
木においては、自らを含むすべてのノードを子孫とする
ノードが１つ存在する。これを開始ノードとよぶことに
する。開始ノード以外のすべてのノードに対して、その
親であるノードが必ず１つ存在する。ノードとノードと
の間の親子関係のつながりを示すものを、アークとよぶ
ことにする。そして、ノードは、特別な状態として、終
了状態を持つことができることにし、終了状態ではない
他のノードと区別することにする。また、自分自身以外
の子孫を持たないノードは、終了状態であるとする。

【００３９】トライは木構造の一種であり、開始ノード
から終了状態のノードまでを、任意個のノードを経由し
てアークによって結ばれている経路の１本１本に、集合
の中の１つの単語が対応している。本説明文中では、ト
ライにおいて、単語を構成する要素である文字を、アー
クに対して割りつけることにする。また、１つのノード
から派生している各々のアークに対応する文字は、すべ
て異なるようにノードを構成する。トライにおいては、
開始ノードを除いて１つのノードに遷移するアークは必
ず１つ存在するので、このようなノードとアークの組を
１つの辺節という単位と見なすことにする。以下にある
単語の集合を表したトライの例を示す。

【００４０】図５は、単語の集合の例を示す図である。
この単語集合には、６個の単語「解」「解析」「解像
度」「解像力」「現像」「像」がある。それぞれの単語
には、ポインタが対応付けられている。ポインタは、そ
の単語を含む文書の識別子集合の位置を指し示すもので
あるが、この実施の形態では、関連語のノード位置の集
合を指し示すのにも用いられる。「解」のポインタは
「Ｔ１」であり、「解析」のポインタは「Ｔ２」であ
り、「解像度」のポインタは「Ｔ３」であり、「解像
力」のポインタは「Ｔ４」であり、「現像」のポインタ
は「Ｔ５」であり、「像」のポインタは「Ｔ６」であ
る。この単語の集合を基に、深さ優先順のノードが記録
されたトライを生成する。

【００４１】図６は、深さ優先順にノードが記録された
トライの例を示す図である。これは、図５に示した６個
の単語「解」「解析」「解像度」「解像力」「現像」
「像」をトライによって表したものである。図中、丸印
若しくは２重丸で表しているのがノード３０〜３８であ
る。２重丸は終了状態のノード（対応する単語が存在す
るノード）を表している。根であるノード３０が単語検
索時の「開始ノード」となる。終了状態のノードの右下
にある記号はその終了状態のノードによって示されるこ
とばに関連する単語の集合を意味する識別子をそれぞれ
表している。なお、図中の開始ノード以外の各ノード３
１〜３８の近傍に表示しているのが、それぞれのノード
のアドレス（位置）である。また、各ノード３１〜３８
を接続している矢印がアーク４１〜４８である。各アー
ク４１〜４８の上にある文字( ここでは漢字１文字) は
ラベルである。

【００４２】図６におけるトライのノードを深さ優先順
に並べると、根のノード３０から派生する「解」のラベ
ルをもつアーク４１を遷移してきたノード３１、ノード
３１から派生する「析」のラベルをもつアーク４２を遷
移してきたノード３２、ノード３１から派生する「像」
のラベルをもつアーク４３を遷移してきたノード３３、
…の順となる。

【００４３】このように、辺節を深さ優先順に記録し、
かつ、ある辺節からそのすぐとなりの弟の位置が特定で
きるようにする。図７は、トライ・インデックスの例を
示す図である。この図には、辺節の情報が格納されたア
ドレス、その辺節の直下の弟ノードの位置（アドレ
ス）、その辺節に対応するラベル、ノードの状態及び対
応する文書集合へのリンク情報を示している。この例で
は、ラベルは漢字１文字である。ノードの状態は、「終
了」「継続」のいずれか一方、若しくは双方が設定され
ている。「終了」は、そのノードに対応する単語が存在
することを示し、「継続」は、そのノードが子供を有し
ていることを示す。

【００４４】このようにトライを構成することによっ
て、ある「辺節Ａ」が指定されたときに、「辺節Ａ」の
長男および「辺節Ａ」のすぐとなりの弟の辺節を直ちに
特定できる。

【００４５】具体的な事例データを想定して、本実施例
の動作を説明しよう。簡単のために、図５に示す単語の
集合が与えられ、そのうち「解像度」と「解像力」が互
いに関連しているとする。

【００４６】まず、すべての単語を表すトライを作成
し、単語の末尾に相当する最終ノードには、その単語に
関連する単語の集合へのリンクを張っておく。これをト
ライ１とよぶ。図５の単語集合が与えられた場合であれ
ば、図６のトライを構成する。

【００４７】次に、単語の集合へのリンク情報から単語
を対応付けるテーブルを用意する。これを関連語対応テ
ーブルとよぶことにする。図８は、関連語対応テーブル
を示す図である。このテーブルは、単語から関連語集合
へのリンク情報とノード位置の集合とが対応付けられて
いる。この例では、「解像度」と「解像力」が互いに関
連していることから、リンク情報「Ｔ３」「Ｔ４」には
ノードの位置「１４，１９」が対応している。

【００４８】次に、本実施の形態の検索を実行する動作
を、例を交えて説明する。検索キーとして単語が入力さ
れ、入力単語に関連する単語集合を求める場合を考える
ことにする。いま想定している事例データのもとで、
「解像度」が検索キーとして入力された場合を考える。

【００４９】まず、ノード位置検索部２２によって、検
索キーの単語「解像度」に対応するノード位置の集合、
すなわち、関連単語集合へのリンク情報を求められる。
具体的には次のように行う。トライから単語を検索する
通常の方法によって、トライ・インデックスから「Ｔ
３」というリンク情報を求める。そして、関連語対応テ
ーブルから、「Ｔ３」に対応するノード位置集合とし
て、「１４，１９」を得る。

【００５０】次に、単語検索部２３が、ノード位置検索
部２２によって得られたノード位置集合から、対応する
単語集合を求める。以下に、図６のトライに基づいて、
１つのノード位置をキーとして対応する単語を検索する
手順を説明する。

【００５１】図９は、第１の実施の形態における単語検
索手順を示すフローチャートである。［Ｓ１１］検索キーのノードアドレスは「Ａ」であたえ
られたとする。まず、単語の文字列を記録するためのラ
ベル記録部を用意しておく。はじめはトライの先頭にあ
る辺節に注目する。注目している辺節を「現在の辺節」
と、その辺節に含まれるアークとノードとを、それぞれ
「現在のアーク」、「現在のノード」とよぶことにす
る。［Ｓ１２］現在の辺節が「Ａ」と等しいか否かを判断す
る。等しければステップＳ１３に進み、等しくなければ
ステップＳ１４に進む。［Ｓ１３］現在の辺節のアドレスが、「Ａ」と等しいと
き、現在のアークのラベルをラベル記録部にプッシュ
（格納）し、ラベル記憶部の内容を出力し、正常に処理
を終了する。［Ｓ１４］現在の辺節が弟を有しているか否かを判断す
る。弟を有していればステップＳ１５に進み、有してい
なければステップＳ１７に進む。［Ｓ１５］現在の辺節が弟を有している場合には、隣接
する弟の辺節のアドレスが「Ａ」以下か否かを判断す
る。「Ａ」以下であればステップＳ１６に進み、「Ａ」
以下でなければステップＳ１７に進む。［Ｓ１６］隣接する弟の辺節のアドレスが「Ａ」以下の
場合、隣接する弟の辺節に注目し、ステップＳ１２に進
む。［Ｓ１７］現在の辺節が子を有しているか否かを判断す
る。子を有していればステップＳ１８に進み、子を有し
ていなければ不正終了として処理を終了する。［Ｓ１８］現在の辺節が子を有している場合には、長子
の辺節のアドレスが「Ａ」以下であるか否かを判断す
る。「Ａ」以下であればステップＳ１９に進み、「Ａ」
以下でなければ、不正終了として処理を終了する。［Ｓ１９］現在のアークのラベルをラベル記録部にプッ
シュして、長子の辺節に注目し、ステップＳ１２に進
む。

【００５２】以上の処理によって、ノード位置をキーと
して対応する関連単語が出力される。例として、単語へ
のリンク情報としてアドレス「１４」が得られたとき、
上記のアルゴリズムにしたがって図７のように記録され
たトライから対応する関連単語を求めることにする。

【００５３】まず、ステップＳ１１より、「Ａ」に「１
４」を代入し、アドレス「０」の辺節に注目する。ラベ
ル記録部は空にしておく。以下、辺節はそのアドレスに
よって識別することにする。すなわち、アドレス「０」
の辺節は、辺節「０」とよぶことにする。ノードとアー
クに関しても辺節と同様に識別することにする。

【００５４】ステップＳ１２において、現在の辺節
「０」は「Ａ（＝１４）」に等しくないので、ステップ
Ｓ１４に進む。ステップＳ１４において、現在の辺節
「０」には弟の辺節が存在するので、ステップＳ１５に
進む。ステップＳ１５において、隣接する弟＝２４、Ａ
＝１４であり、隣接する弟≦Ａは成り立たないので、ス
テップＳ１７に進む。

【００５５】ステップＳ１７において、現在の辺節
「０」には子の辺節が存在するので、ステップＳ１８に
進む。ステップＳ１８において、長子＝５、Ａ＝１４で
あり、長子≦Ａが成り立つので、ステップＳ１９に進
む。

【００５６】ステップＳ１９において、現在のアーク
「０」のラベル「解」をラベル記録部にプッシュし、長
子の辺節「５」に注目する。そして、ステップＳ１２に
進む。再びステップＳ１２において、現在の辺節「５」
は「Ａ（＝１４）」に等しくないので、ステップＳ１４
に進む。

【００５７】ステップＳ１４では、現在の辺節「５」に
対して弟の辺節が存在するので、ステップＳ１５に進
む。ステップＳ１５では、隣接する弟（＝１０）≦Ａ
（＝１４）が成り立つので、隣接する弟「１０」に注目
し、ステップＳ１２に進む。

【００５８】ステップＳ１２において、現在の辺節「１
０」は「Ａ（＝１４）」と等しくないので、ステップＳ
１４に進む。ステップＳ１４において、現在の辺節「１
０」に対して弟の辺節が存在しないので、ステップＳ１
７に進む。

【００５９】ステップＳ１７において、現在の辺節「１
０」には子の辺節が存在するので、ステップＳ１８に進
む。ステップＳ１８において、長子＝１４、Ａ＝１４で
あり、長子≦Ａが成り立つので、ステップＳ１９に進
む。

【００６０】ステップＳ１９において、現在のアーク
「１０」のラベル「像」をラベル記録部にプッシュし、
長子の辺節「１４」に注目する。そして、ステップＳ１
２に進む。

【００６１】ステップＳ１２において、現在の辺節「１
４」は「Ａ（＝１４）」と等しいのでステップＳ１３に
進む。ステップＳ１３において、現在のアーク「１４」
のラベル「度」をラベル記録部にプッシュし、ラベル記
録部の内容である「解、像、度」を出力し、正常に処理
を終える。

【００６２】以上の処理によって、ノードの位置「１
４」から、対応する単語である「解像度」を得ることが
できる。同様にして、ノードの位置「１９」からは、
「解像力」が得られる。すなわち、「解像度」の入力に
対して、「解像度、解像力」の出力が得られたことにな
る。

【００６３】このようにして、トライを用いて、関連語
の検索処理を少ない記憶容量で高速に行うことが可能と
なる。次に、第２の実施の形態について説明する。第２
の実施の形態は、文字からその文字を含むキーワードを
検索する単語検索装置である。

【００６４】図１０は、第２の実施の形態の概略構成を
示す図である。この実施の形態に係る単語検索装置は、
単語格納部５１、文字インデックス部５２、ノード位置
検索部５３、及び単語検索部５４とから構成されてい
る。この構成要素のうち、単語格納部５１、ノード位置
検索部５３及び単語検索部５４は、図３に示した、単語
格納手段１１、ノード位置検索手段１４及び単語検索手
段１２の機能を有している。また、文字インデックス部
５２は、図３のキーインデックス格納手段１３のキーイ
ンデックスを具体的な文字インデックスとしたものであ
る。

【００６５】はじめに、索引単語の集合をトライで表現
し、単語格納部５１を構成する。索引単語を表す最終ノ
ードには、その索引単語に関連する文書の集合をたどれ
るようにリンクを張っておく。第１の実施の形態と同様
に、図５のように与えられた索引単語に対応して図６の
トライによる単語インデックス（トライ・インデック
ス）を構成する。この単語インデックスは、単語格納部
５１に格納される。

【００６６】さらに、索引単語を構成する文字からその
索引単語を導くことができる文字インデックスを構成す
る。この文字インデックスは、文字インデックス部５２
に格納される。図５の索引単語集合の場合、索引単語を
構成する全ての文字の集合は、｛解, 現, 析, 像, 度,
力｝である。この文字集合の各文字について、図６のト
ライを先頭からたどることによって、各々の文字の位置
を求める。その結果から、文字インデックスを作成す
る。

【００６７】図１１は、文字インデックスの例を示す図
である。図のように、文字とその文字を含む索引単語を
対応させる。この例では、トライ５５を文字インデック
スのデータ構造として採用している。

【００６８】図５から、文字「解」を含む索引単語は
「解」「解析」「解像度」「解像力」と複数あることが
分かるが、これらへのリンク情報は「解」という文字を
表す１つのノードの位置「０」だけで済んでいる。この
ように、トライ・インデックス中での文字のノードの位
置を用いると、単語の末尾のノード位置を単語へのポイ
ンタとする場合に比べて、文字インデックスの容量を小
さくすることができる。

【００６９】さて、検索を実行する動作を例を交えて説
明する。検索キーとして１文字が入力され、この文字を
含む索引単語と文書集合へのリンクとを求める場合を考
えることにする。具体例として、図１１および図６のイ
ンデックスを用いて、検索キーとして「像」が入力され
た場合を想定する。

【００７０】まず、ノード位置検索部５３によって、文
字インデックス部５２から検索キーの文字( 例では
「像」) を含んでいる索引単語へのリンクを見つける。
図１１より、「１０」、「２８」、「３３」というリン
ク情報が得られることが分かる。

【００７１】次に、単語検索部５４によって、リンク情
報から、単語インデックスを用いて索引単語およびその
索引単語が指し示す文書集合を求める。以下に、その手
順を説明する。

【００７２】図１２〜図１４は、第２の実施の形態にお
いて文書集合を求めるための処理手順を示すフローチャ
ートである。図１２ではステップＳ２１〜Ｓ２７の処理
を示しており、図１３ではステップＳ３１〜Ｓ３６の処
理を示しており、図１４ではステップＳ４１〜Ｓ４８の
処理を示している。以下、各ステップの処理内容を説明
する。［Ｓ２１］求める索引単語へのリンク情報は、トライの
辺節アドレスが「Ａ」で与えられたとする。索引単語の
文字列を記録するためのラベル記録部、ラベル記録部に
記録した文字列を一時的に待避させておくためのラベル
スタック、及びラベルを待避させたときの辺節を保存し
ておくための辺節スタックをそれぞれ用意し、内容をク
リアしておく。開始ノードに移動し、トライの先頭にあ
る辺節に注目する。注目している辺節を現在の辺節とよ
ぶことにする。［Ｓ２２］現在の辺節が、与えられたリンク情報「Ａ」
と等しいか否かを判断する。等しければステップＳ２３
に進み、等しくなければステップＳ３１（図１３に示
す）へ進む。［Ｓ２３］現在の辺節が、与えられたリンク情報「Ａ」
と等しい場合、現在のアークのラベルをラベル記録部に
プッシュする。［Ｓ２４］現在のノードが終了状態か否かを判断する。
終了状態であればステップＳ２５に進み、終了状態でな
ければステップＳ２６に進む。［Ｓ２５］現在のノードが終了状態の場合、ラベル記録
部の内容と、現在の終了状態ノードに対応する文書集合
へのリンクとをそれぞれ出力する。［Ｓ２６］現在の辺節が子を持っている否かを判断す
る。子をもっていればステップＳ２７に進み、子をもっ
ていなければ、処理を正常終了する。［Ｓ２７］現在の辺節が子をもっている場合、長子の辺
節に注目し、ステップＳ４１（図１４に示す）に進む。［Ｓ３１］ステップＳ２２において、現在の辺節が弟を
もっていると判断された場合、ステップＳ３２に進み、
弟をもっていなければステップＳ３４に進む。［Ｓ３２］隣接する弟の辺節のアドレスが「Ａ」以下か
否かを判断する。「Ａ」以下であればステップＳ３３に
進み、「Ａ」以下でなければステップＳ３４に進む。［Ｓ３３］隣接する弟の辺節のアドレスが「Ａ」以下の
場合、隣接する弟の辺節に注目し、ステップＳ２２（図
１２に示す）に進む。［Ｓ３４］隣接する弟の辺節のアドレスが「Ａ」以下で
ない場合、現在の辺節が子をもっているか否かを判断す
る。子をもっていればステップＳ３５に進み、子をもっ
ていなければ不正終了として処理を終了する。［Ｓ３５］長子の辺節のアドレスが「Ａ」以下か否かを
判断し、「Ａ」以下であればステップＳ３６に進み、
「Ａ」以下でなければ不正終了として処理を終了する。［Ｓ３６］現在のアークのラベルをラベル記録部にプッ
シュして、長子の辺節に注目する。そして、ステップＳ
２２（図１２に示す）に進む。［Ｓ４１］現在の辺節が弟をもっているか否かを判断す
る。弟をもっていればステップＳ４２に進み、弟をもっ
ていなければステップＳ４３に進む。［Ｓ４２］現在の辺節が弟をもっている場合には、ラベ
ル記録部の内容をラベルスタックに、隣接する弟の辺節
を辺節スタックにそれぞれプッシュする。［Ｓ４３］現在のノードが終了状態か否かを判断する。
終了状態であればステップＳ４４に進み、終了状態でな
ければステップＳ４５に進む。［Ｓ４４］現在のノードが終了状態の場合、ラベル記録
部の内容と現在のアークのラベルをつなげたもの、現在
の終了状態ノードに対応する文書集合へのリンクとをそ
れぞれ出力する。［Ｓ４５］現在の辺節が子をもっているか否かを判断す
る。子をもっていればステップＳ４６に進み、子をもっ
ていなければステップＳ４７に進む。［Ｓ４６］現在の辺節が子をもっている場合、現在のア
ークのラベルをラベル記録部にプッシュして、長子の辺
節に注目する。そして、ステップＳ４１に進む。［Ｓ４７］ラベルスタックと辺節スタックが空か否かを
判断する。空でなければステップＳ４８に進み、空であ
れば正常終了する。［Ｓ４８］ラベルスタックと辺節スタックが空ではない
とき、ラベルスタックからラベル記録部にポップし、辺
節スタックからポップした辺節に注目する。そして、ス
テップＳ４１に進む。

【００７３】以上の処理によって、索引単語の文字列
と、その索引単語から対応する文書集合へのリンクが出
力される。例として、索引単語へのリンク情報として
「１０」が得られたとき、上記のアルゴリズムにしたが
って図７のトライをたどることにする。

【００７４】まず、ステップＳ２１より、「Ａ」に「１
０」を代入し、辺節「０」に注目する。ラベル記録部、
ラベルスタック、辺節スタックはいずれも空にしてお
く。ステップＳ２２において、現在のノード「０」は
「Ａ（＝１０）」に等しくないので、ステップＳ３１に
進む。

【００７５】ステップＳ３１において、現在のノード
「０」には弟が存在するので、ステップＳ３２に進む。
ステップＳ３２において、隣接する弟＝２４、Ａ＝１０
であり、隣接する弟≦Ａは成り立たないので、ステップ
３４に進む。

【００７６】ステップＳ３４において、現在のノード
「０」には子が存在するので、ステップＳ３５に進む。
ステップＳ３５において、長子＝５、Ａ＝１０であり、
長子≦Ａが成り立つので、現在のアーク「０」のラベル
「解」をラベル記録部にプッシュし、長子の辺節「５」
に注目する。そして、ステップＳ２２に進む。

【００７７】再びステップＳ２２において、現在の辺節
「５」は「Ａ（＝１０）」に等しくないので、ステップ
Ｓ３１に移る。ステップＳ３１では、現在の辺節「５」
に対して弟の辺節「１０」が存在するので、ステップＳ
３２に進む。ステップＳ３２では、隣接する弟（＝１
０）≦Ａ（＝１０）は成り立つので、隣接する弟「１
０」に注目し、ステップＳ２２に進む。

【００７８】ステップＳ２２において、現在の辺節「１
０」は「Ａ（＝１０）」と等しいので、現在のアーク
「１０」のラベル「像」をラベル記録部にプッシュす
る。現時点のラベル記録部の内容は「解像」である。ス
テップＳ２４に進む。ステップＳ２４において、現在の
ノード「１０」は終了状態ではないので、ステップＳ２
６に進む。ステップＳ２６において、現在の辺節「１
０」は子をもっているので、長子の辺節「１４」に注目
し、ステップＳ４１に進む。

【００７９】ステップＳ４１において、現在のノード
「１４」は弟をもっているので、ステップＳ４２に進
む。ステップＳ４２において、ラベル記録部の内容であ
る「解像」をラベルスタックにプッシュし、隣接する弟
の辺節「１９」を辺節スタックにプッシュする。そし
て、ステップ４３に進む。

【００８０】ステップＳ４３において、現在のノード
「１４」は終了状態なので、ステップＳ４４に進む。ス
テップＳ４４において、ラベル記憶部の内容である「解
像」とアーク「１４」のラベルである「度」をつなげた
「解像度」と、ノード「１４」に対応する文書集合への
リンク情報である「Ｔ３」を出力する。そして、ステッ
プＳ４５に進む。

【００８１】ステップＳ４５において、現在のノード
「１４」は子をもたないので、ステップＳ４７に進む。
ステップＳ４７において、ラベルスタックと辺節スタッ
クは空ではないので、ステップＳ４８に進む。ステップ
Ｓ４８において、ラベルスタックからポップして「解
像」を取り出し、これをラベル記録部に代入し、辺節ス
タックからポップして辺節「１９」を取り出し、この辺
節「１９」に注目する。現時点では、ラベルスタックと
辺節スタックは空である。そして、ステップＳ４１に進
む。

【００８２】再びステップＳ４１において、現在のノー
ド「１９」は弟をもたないので、ステップＳ４３に進
む。ステップＳ４３では、現在のノード「１９」は終了
状態なので、ステップＳ４４に進む。ステップＳ４４に
おいて、ラベル記憶部の内容である「解像」とアーク
「１９」のラベルである「力」をつなげた「解像力」
と、ノード「１９」に対応する文書集合へのリンク情報
である「Ｔ４」を出力する。そして、ステップＳ４５に
進む。

【００８３】ステップＳ４５において、現在のノード
「１９」は子をもたないので、ステップＳ４７に進む。
ステップＳ４７において、ラベルスタックと辺節スタッ
クは空なので、正常に処理を終わる。

【００８４】以上の処理によって、「像」という文字を
含む索引単語へのリンクである「１０」から、２つの索
引単語( 「解像度」と「解像力」) 、および対応する文
書集合へのリンク情報（「Ｔ３」と「Ｔ４」）を求めこ
とができる。

【００８５】次に第３の実施の形態について説明する。
図１５は、第３の実施の形態の概略構成を示すブロック
図である。これは、任意の正規表現からその正規表現を
満たすキーワードを検索する単語検索装置である。

【００８６】この実施の形態に係る単語検索装置は、単
語格納部６１、文字インデックス部６２、ノード位置検
索部６３、単語検索部６４、及び正規表現解析部６５で
構成されている。このうち、単語格納部６１、文字イン
デックス部６２、ノード位置検索部６３、及び単語検索
部６４は、図１０に示した単語格納部５１、文字インデ
ックス部５２、ノード位置検索部５３、及び単語検索部
５４とほぼ同じ機能を有している。

【００８７】正規表現解析部６５は、正規表現の検索キ
ーが入力されると、検索キーを解析し、その検索キーに
適合する単語集合を得る。その際、必要に応じて、ノー
ド位置検索部６３へ文字列を入力し、その戻り値として
各文字列のノード位置を得る。また、ノード位置を単語
検索部６４に入力して、単語集合を得る。

【００８８】以下に、正規表現解析部６５が検索を実行
する際の動作を説明する。なお、トライにおいて、２つ
のノード「Ｎ１」、「Ｎ２」を指定したときに、ノード
「Ｎ１」からたどることができ、ノード「Ｎ２」からは
たどることのできないような、「Ｎ１」を開始ノードと
するトライの部分木を、「Ｎ１」と「Ｎ２」から規定さ
れるサブトライとよぶことにする。

【００８９】ここで、以下の３つの手続き関数「Ｆ
１」、「Ｆ２」、「Ｆ３」を定義する。これらの関数の
処理は、正規表現解析部６５で行われる。まず、関数
「Ｆ１」について説明する。関数「Ｆ１」は、サブトラ
イ「Ｔ」と正規表現「Ｒ」を引数とし、文字列の集合
「Ｓ」を値として返す関数である。

【００９０】図１６、図１７は、関数「Ｆ１」の処理手
順を示すフローチャートである。図１６は、ステップＳ
５１〜Ｓ５８の処理を示し、図１７は、ステップＳ６１
〜Ｓ６８の処理を示している。［Ｓ５１］正規表現「Ｒ」の先頭が、確定している文字
列「Ｂ」または文字集合「Ｂ」で始まるか否かを判断す
る。確定文字列等で始まる場合にはステップＳ５２に進
み、確定文字列で始まらない場合にはステップＳ６１に
進む。［Ｓ５２］正規表現「Ｒ」の先頭が確定している文字列
「Ｂ」または文字集合「Ｂ」から始まる場合、「Ｒ」か
ら「Ｂ」の部分を除く正規表現を「Ｒ１」とし、以下の
処理を行う。［Ｓ５３］文字列または文字集合「Ｂ」を入力としてサ
ブトライ「Ｔ」をたどることができるか否かを判断す
る。たどることができた場合には、ステップＳ５５に進
み、たどることができない場合にはステップＳ５４に進
む。［Ｓ５４］エラーを関数「Ｆ１」の値「Ｓ」として返
し、処理を終了する。［Ｓ５５］「Ｂ」から「Ｔ」をたどることができた場
合、正規表現「Ｒ１」が空か否かを判断する。空であれ
ばステップＳ５６に進み、空でなければステップＳ５８
へ進む。［Ｓ５６］正規表現「Ｒ１」が空の場合、サブトライ
「Ｔ」を入力「Ｂ」でたどった先が終了状態のノードか
否かを判断する。終了状態であればステップＳ５７に進
み、終了状態でなければステップＳ５４に進む。［Ｓ５７］サブトライ「Ｔ」を入力「Ｂ」でたどった先
が終了状態のノードの場合、文字列「Ｂ」を関数「Ｆ
１」の値「Ｓ」として返し、処理を終了する。［Ｓ５８］正規表現「Ｒ１」が空でない場合、文字列
「Ｂ」を入力としてサブトライ「Ｔ」をたどったとき、
更にたどることのできる残りのサブトライを「Ｔ１」と
する。関数「Ｆ１」に、引数としてサブトライ「Ｔ１」
と正規表現「Ｒ１」を渡し、文字列「Ｂ」と関数「Ｆ
１」の評価した値である文字列集合の各々とを連結し、
得られた文字列集合を値「Ｓ」として返す。そして、処
理を終了する。［Ｓ６１］正規表現「Ｒ」の中に、確定している文字
「Ｃ１，Ｃ２，Ｃ３，・・・」が含まれているか否かを
判断する。確定している文字が含まれていればステップ
Ｓ６２に進み、含まれていなければステップＳ６８に進
む。［Ｓ６２］確定している文字Ｃｉ( ただし、ｉ＝１，
２，３，・・・）をトライにおいて表しているノードが
出現する数をＡｉとし、Ａ１，Ａ２，Ａ３，... の中で
最小値をとる文字「Ｃｊ」を、ノード位置検索部６３の
出力から決定する。［Ｓ６３］文字「Ｃｊ」を表しているノード位置の各々
「Ｐｉ( ただし、ｉ＝１，２，３，・・・）」につい
て、正規表現「Ｒ」において文字「Ｃｊ」を最後に含む
「Ｒ」の一部を正規表現「Ｒ１」とし、残りの正規表現
を「Ｒ２」とし、「Ｒ１」を受理する有限状態オートマ
トン「Ｍ」をつくり、ステップＳ６４に進む。すべての
ノード位置「Ｐｉ」について処理を終えたとき、ステッ
プＳ６７に進む。［Ｓ６４］関数「Ｆ２」に、引数として有限状態オート
マトン「Ｍ」、サブトライ「Ｔｉ」、ノード位置「Ｐ
ｉ」を渡し、関数「Ｆ２」を評価した値である文字列
「ｓ」を得る。［Ｓ６５］関数「Ｆ２」の値である文字列「ｓ」が正常
出力か否かを判断する。正常出力であればステップＳ６
６に進み、正常出力でなければ（文字列「ｓ」がエラー
の場合）ステップＳ６３に進む。［Ｓ６６］ノード位置「Ｐｉ」からたどることのできる
サブトライを「Ｔｉ」とする。関数「Ｆ１」に、引数と
してサブトライ「Ｔｉ」と正規表現「Ｒ２」を渡し、文
字列「ｓ」と、関数「Ｆ１」を評価した値である文字列
集合「Ｓ１」の各々の要素を連結した文字列の集合を求
め、文字列集合「Ｓ」としてプッシュする。そして、ス
テップＳ６３へ進む。［Ｓ６７］文字列集合「Ｓ」を出力し、処理を終える。［Ｓ６８］「Ｒ」を満たす文字数「Ｎ」を求め、関数
「Ｆ３」に、引数としてサブトライ「Ｔ」と文字数
「Ｎ」を渡し、関数「Ｆ３」を評価した値である文字列
集合を求め、文字列集合「Ｓ」として出力し、処理を終
える。

【００９１】次に、関数「Ｆ２」について説明する。関
数「Ｆ２」は、有限状態オートマトン「Ｍ」とサブトラ
イ「Ｔ」、ノード位置「Ｐ」を引数とし、文字列「ｓ」
を値として返す関数である。

【００９２】図１８は、関数Ｆ２の処理手順を示すフロ
ーチャートである。［Ｓ７１］サブトライ「Ｔ」において、ノード位置
「Ｐ」を指定すると、そのノードに至るまでの経路は一
意に定まる。そこで、サブトライ「Ｔ」をノード位置
「Ｐ」に至るまでたどることによって得られるラベル列
「Ｌ」を、有限状態オートマトン「Ｍ」の入力とする。［Ｓ７２］ラベル列「Ｌ」が有限状態オートマトン
「Ｍ」に受理されるか否かを判断する。受理される場合
はステップＳ７３に進み、受理されない場合はステップ
Ｓ７４に進む。［Ｓ７３］ラベル列「Ｌ」が有限状態オートマトン
「Ｍ」に受理される場合、ラベル列「Ｌ」を出力し、処
理を終了する。［Ｓ７４］ラベル列「Ｌ」が有限状態オートマトン
「Ｍ」に受理されない場合、エラーを出力し、処理を終
了する。

【００９３】次に、関数「Ｆ３」について説明する。関
数「Ｆ３」は、サブトライ「Ｔ」と文字数「Ｎ」を引数
とし、文字列の集合「Ｓ」を値として返す。図１９は、
関数Ｆ３の処理手順を示すフローチャートである。［Ｓ８１］開始ノードが終了状態であり、かつ文字数
「Ｎ」として「０」をとることができる場合、空の文字
列を文字列の集合「Ｓ」にプッシュする。［Ｓ８２］サブトライ「Ｔ」を文字数「Ｎ」分だけすべ
てたどり、たどった先が終了状態のノードとなるラベル
列の集合「Ｌ」を求め、「Ｌ」を文字列の集合「Ｓ」に
プッシュする。［Ｓ８３］「Ｓ」が空か否かを判断する。「Ｓ」が空で
あればステップＳ８５に進み、「Ｓ」が空でないならス
テップＳ８４に進む。［Ｓ８４］「Ｓ」が空でない場合、「Ｓ」を出力し、処
理を終了する。［Ｓ８５］「Ｓ」が空の場合、エラーを出力し、処理を
終了する。

【００９４】以上のように関数を定義すると、関数「Ｆ
１」に、引数として単語インデックスのトライと任意の
正規表現を渡し、関数「Ｆ１」を評価することによっ
て、与えた正規表現に適合する単語の集合を得ることが
できる。

【００９５】具体例として、正規表現「？アイデ？ア
？」に合致する単語を探す場合を考えることにする。正
規表現において、「？」は０個以上の任意の文字に該当
するワイルドカードを意味する。検索の意図は、「アイ
デア」に対して「アイディア」などといった表記の揺れ
を考慮し、かつ「アイデ？ア」という文字列を含む単語
を検索することである。このように、正規表現に合致す
る単語を検索できることによって、検索洩れを少なくす
ることが期待できる。

【００９６】例えば、以下のような単語インデックスが
単語格納部６１に格納されている場合を考える。図２０
は、第３の実施の形態におけるトライ６６の例を示す図
である。この例では、各辺節のラベルとして、カタカナ
１文字が与えられている。

【００９７】図２１は、第３の実施の形態における文字
インデックスの例を示す図である。この文字インデック
スでは、各文字に対して、「出現数」と「対応するノー
ド位置」とが対応付けられている。

【００９８】ここで、関数「Ｆ１」に、引数として単語
インデックスのトライ「Ｔ」と正規表現「？アイデ？ア
？」（Ｒ）を渡した場合の、関数「Ｆ１」の値の評価手
順を説明する。

【００９９】ステップＳ５１において、正規表現「Ｒ」
は確定文字列から始まっていなので、ステップＳ６１へ
進む。ステップＳ６１において、正規表現「Ｒ」の中
に、確定している文字( 「ア」「イ」「デ」) が含まれ
ているので、ステップＳ６２へ進む。

【０１００】ステップＳ６２において、「Ｒ」の確定し
ている３つの文字｛Ｃ１，Ｃ２，Ｃ３｝＝｛ア, イ,
デ｝を表すノードの出現数をそれぞれ求める。図２１の
文字インデックスからそれぞれ、「５」「２」「２」で
あると分かる。

【０１０１】ステップＳ６３において、これらの中で最
小値をとる文字として「イ」をとりあげる。そして、文
字「イ」を表しているすべてのノード位置｛Ｐ１，Ｐ
２｝＝｛１０，１２０｝について、以下の処理を行う。

【０１０２】ステップＳ６３で、正規表現「？アイデ？
ア？」から、「Ｒ１」を「？アイ」、「Ｒ２」を「デ？
ア？」とし、「Ｒ１」を受理する有限オートマトンを
「Ｍ」を作る。

【０１０３】図２２は、「イ」をとりあげた場合の有限
オートマトン６７の遷移図である。図に示すように、文
字列の途中（最初でもよい）で「ア」、「イ」が連続し
て出現した場合に、終了状態のノードへ遷移する。

【０１０４】ステップＳ６４で、関数「Ｆ２」に、引数
として有限状態オートマトン「Ｍ」、サブトライ
「Ｔ」、ノード位置「Ｐ１」を渡し、関数「Ｆ２」を評
価する。さて、関数「Ｆ２」の処理（図１８に示す）の
ステップＳ７１において、サブトライ「Ｔ１」をノード
位置「Ｐ１（＝１０）) に至るまでに得られるラベル列
「Ｌ」は「アイ」である。

【０１０５】ステップＳ７２の判断において、「Ｌ」は
有限状態オートマトン「Ｍ」に受理されることが分か
る。ステップＳ７３で、ラベル列「Ｌ」（＝「アイ」）
を出力し、関数「Ｆ２」の処理を完了する。

【０１０６】関数「Ｆ２」の値は、文字列「アイ」であ
る。したがって、ステップＳ６４では、これを「ｓ」と
する。ステップＳ６５で、文字列「ｓ」（＝「アイ」)
はエラーではないので、ステップＳ６６へ進む。

【０１０７】ステップＳ６６で、関数「Ｆ１」に、引数
としてサブトライ「Ｔ１」と正規表現「Ｒ２」（＝「デ
? ア? 」）を渡し、関数「Ｆ１」を評価する。以後、こ
の関数「Ｆ１」に関しては関数「Ｆ１’」などと表記す
る。

【０１０８】図２３は、ノード位置Ｐ１（＝１０）から
たどることのできるサブトライ「Ｔ１」を示す図であ
る。このサブトライ６８は、図２０のトライ６６におけ
るノード位置Ｐ１（＝１０）の子孫に該当する全ての経
路を抽出したものである。

【０１０９】さて、関数「Ｆ１’」のステップＳ５１に
おいて、正規表現「Ｒ’」の先頭は確定している文字
「Ｂ’」（＝「デ」）から始まっている。ステップＳ５
２において、「Ｒ１’」を「？ア？」とし、ステップＳ
５３へ進む。

【０１１０】関数「Ｆ１’」のステップＳ５３で、文字
「Ｂ’」（＝「デ」）を入力としてサブトライ「Ｔ’」
をたどることができるので、ステップＳ５５へ進む。関
数「Ｆ１’」のステップＳ５５の判断において、正規表
現「Ｒ１’」「？ア？」は空ではないので、ステップＳ
５８へ進む。

【０１１１】関数「Ｆ１’」のステップＳ５８で、文字
「Ｂ’」（＝「デ」）を入力としてサブトライ「Ｔ’」
をたどり、更にたどることのできる残りのサブトライを
「Ｔ１’」とする。関数「Ｆ１」に、引数としてサブト
ライ「Ｔ１’」と正規表現「Ｒ１’」（＝「？ア？」）
を渡し、関数「Ｆ１」を評価する。以後、このＦ１に関
してはＦ１’’などと表記する。

【０１１２】さて、関数「Ｆ１’’」のステップＳ５１
において、正規表現「Ｒ’’」（＝「？ア？」）の先頭
は確定文字列から始まっていないので、ステップＳ６１
へ進む。

【０１１３】関数「Ｆ１’’」のステップＳ５１におい
て、正規表現「Ｒ’’」（＝「？ア？」）の中に確定文
字「Ｃ１’’」（＝「ア」）が含まれているので、ステ
ップＳ６２へ進む。

【０１１４】関数「Ｆ１’’」のステップＳ６２で、
「Ｃｊ’’」として「Ｃ１’’」（＝「ア」）が相当
し、ノード位置の集合｛Ｐ１’’，Ｐ２’’｝＝｛３
０，８０｝が得られる。

【０１１５】「Ｃ１’’」（＝「ア」）について、関数
「Ｆ１’’」のステップＳ６３以下の処理を行う。関数
「Ｆ１’’」のステップＳ６３で、「Ｒ１’’」として
「？ア」、「Ｒ２’’」として「？」をとる。「Ｒ
１’’」を受理する有限状態オートマトン「Ｍ’’」を
つくる。

【０１１６】関数「Ｆ１’’」のステップＳ６４で、関
数「Ｆ２」に、引数として有限状態オートマトン
「Ｍ’’」、サブトライ「Ｔ’’」、ノード位置「Ｐ
１’’」（＝３０）を渡し、関数「Ｆ２」を評価する。
以後、この関数「Ｆ２］に関して関数「Ｆ２’’」など
と表記する。

【０１１７】さて、関数「Ｆ２’’」のステップＳ７１
において、サブトライ「Ｔ’’」をノード位置「Ｐ
１’’」（＝３０）に至るまでに得られるラベル列
「Ｌ’’」を「ア」として、有限状態オートマトン
「Ｍ’’」に入力する。

【０１１８】ステップＳ７２において、「Ｌ’’」（＝
「ア」）は有限状態オートマトン「Ｍ’’」に受理され
ることが分かる。関数「Ｆ２’’」のステップＳ７３
で、ラベル列「Ｌ’’］（＝「ア」）を出力し、関数
「Ｆ２’’」の処理を完了する。

【０１１９】関数「Ｆ２’’」の値「ア」は、文字列で
ある。関数「Ｆ１’’」のステップＳ６４では、これを
「Ｓ’’」とする。関数「Ｆ１’’」のステップＳ６５
で、文字列「Ｓ’’」（＝「ア」）はエラーではないの
で、ステップＳ６６へ進む。

【０１２０】関数「Ｆ１’’」のステップＳ６６で、ノ
ード位置「Ｐ１’’」（＝３０）からたどることのサブ
トライを「Ｔ１’’」とし、関数「Ｆ１」に、引数とし
てサブトライ「Ｔ１’’」と正規表現「Ｒ２’’」（＝
「？）を渡し、関数「Ｆ１」を評価する。以後、この関
数「Ｆ１」に関しては関数「Ｆ１’’’」などと表記す
る。

【０１２１】さて、関数「Ｆ１’’’」のステップＳ５
１において、正規表現「Ｒ’’’」（＝「？」）の先頭
は確定文字列から始まっていないので、ステップＳ６１
へ進む。

【０１２２】関数「Ｆ１’’’」のステップＳ６１で、
正規表現「Ｒ’’’」（＝「？」）の中に確定文字は含
まれていないので、ステップＳ６８へ進む。関数「Ｆ
１’’’」のステップＳ６８で、「Ｒ’’’」（＝
「？」）を満たす文字数「Ｎ’’’」は無制限である。
関数「Ｆ３」に、引数としてサブトライ「Ｔ’’’」と
文字数「Ｎ’’’］を渡し、関数「Ｆ３」を評価した値
である文字列集合は｛「」, 「リズム」｝であり、関数
「Ｆ１’’’」の値として返す。

【０１２３】文字列「ｓ’’」（＝「ア」）と、関数
「Ｆ１’’’」を評価した値である文字列集合｛「」,
「リズム」｝の各々の要素を連結した文字列の集合は
｛「ア」, 「アリズム」｝である。関数「Ｆ１’’」の
ステップＳ６６で、これを文字列集合「Ｓ’’」にプッ
シュする。現時点での「Ｓ’’」の内容は、｛「ア」,
「アリズム」｝である。そして、ステップＳ６３へ進
む。

【０１２４】関数「Ｆ１’’」のステップＳ６３以後の
処理で、ノード位置「Ｐ１」（＝３０）についての処理
を終えたことになる。次に同様に「Ｐ２’’」について
の処理を行い、再びステップＳ６３に戻ってきて、結果
として、「Ｓ’’」＝｛「ア」, 「アリズム」, 「ィ
ア」｝を出力する。

【０１２５】関数「Ｆ１’」のステップＳ５８に戻り、
文字「Ｂ’」（＝「デ」）と関数「Ｆ１’’」の値
｛「ア」, 「アリズム」, 「ィア」｝の各々の要素とを
連結し、関数「Ｆ１’」の値として｛「デア」, 「デア
リズム」, 「ディア」｝を返す。

【０１２６】関数「Ｆ１」のステップＳ６６に戻り、文
字列「ｓ」（＝「アイ」）と関数「Ｆ１’」の値｛「デ
ア」, 「デアリズム」, 「ディア」｝の各々の要素とを
連結し、文字列集合「Ｓ」に｛「アイデア」, 「アイデ
アリズム」, 「アイディア」｝をプッシュする。現時点
での「Ｓ」の内容は、｛「アイデア」, 「アイデアリズ
ム」, 「アイディア」｝である。ステップＳ６３へ進
む。

【０１２７】関数「Ｆ１」のステップＳ６３において、
文字「イ」を表しているノード位置「Ｐ２」（＝１２
０）について以下の処理を行う。関数「Ｆ１」のステッ
プＳ６４で、関数「Ｆ２」に、引数として有限状態オー
トマトン「Ｍ」、サブトライ「Ｔ」、ノード位置「Ｐ
２」を渡し、関数「Ｆ２」を評価した値である文字列
「ｓ」（＝「ネオアイ」）を得る。

【０１２８】関数「Ｆ１」のステップＳ６５で、文字列
「ｓ」（＝「ネオアイ」）はエラーはないので、ステッ
プＳ６６に進む。Ｆ１のステップＳ６６で、「Ｐ２」
（＝１２０）からたどることのできるサブトライを「Ｔ
２」とし、関数「Ｆ１」に、引数としてサブトライ「Ｔ
２」と正規表現「Ｒ２」（＝「デ？ア？」）を渡し、関
数「Ｆ１」を評価する。関数「Ｆ１」から文字列集合
｛「デア」, 「デアリズム」｝が得られ、「Ｓ」に
｛「ネオアイデア」, 「ネオアイデアリズム」｝をプッ
シュし、ステップＳ６３へ進む。現時点での「Ｓ」の内
容は、｛「アイデア」, 「アイデアリズム」, 「アイデ
ィア」, 「ネオアイデア」, 「ネオアイデアリズム」｝
である。

【０１２９】関数「Ｆ１」のステップＳ６３で、すべて
のノード位置「Ｐ１」, 「Ｐ２」について処理を終えた
ので、ステップＳ６７で、文字列集合「Ｓ」（＝｛「ア
イデア」, 「アイデアリズム」, 「アイディア」, 「ネ
オアイデア」, 「ネオアイデアリズム」｝）を関数「Ｆ
１」の値として返し、処理を終える。

【０１３０】以上のように、単語インデックスのトライ
と正規表現「？アイデ？ア？」から、単語集合｛「アイ
デア」, 「アイデアリズム」, 「アイディア」, 「ネオ
アイデア」, 「ネオアイデアリズム」｝が求まる。

【０１３１】なお、上記の原理構成若しくは実施の形態
は、以下のような変形例が考えられる。図２４は、第４
の実施の形態の概略構成を示すブロック図である。これ
は、第１の実施の形態（図４に示す）における関連単語
インデックス部２１を複数設けたものである。

【０１３２】この実施の形態では、２つの関連単語イン
デックス部７１，７２のそれぞれに、関連単語インデッ
クスが格納されている。ノード位置検索部７３は、単語
が入力されると、双方の関連単語インデックス部７１，
７２からノードの位置集合を取得する。そのノードの位
置の集合は、どちらの関連単語インデックス部７１，７
２から取得したのかを示す情報と共に、単語検索部７４
に渡される。

【０１３３】単語検索部７４は、ノード位置検索部７３
から受け取ったノード位置の集合に基づいて、関連単語
インデックス部７１，７２から関連単語の集合を取得
し、出力する。

【０１３４】図２５は、第５の実施の形態の概略構成を
示すブロック図である。これは、第４の実施の形態（図
２４に示す）を具体化したものである。この実施の形態
では、よみインデックス部７１ａと表記インデックス部
７２ａが設けられている。よみインデックス部７１ａ
は、表記によって表された表記単語の集合を、深さ優先
順にノードが記録されるトライ形式で格納していると共
に、表記単語と各表記単語に対応する文字列を構成して
いるよみ単語のノードの位置の集合とを対応付けて格納
している。表記インデックス部７２ａは、よみによって
表された単語の集合を、深さ優先順にノードが記録され
るトライ形式で格納していると共に、よみ単語と各よみ
単語に対応する表記単語の文字列を構成しているノード
の位置の集合とを対応付けて格納している。

【０１３５】ノード位置検索部７３ａと単語検索部７４
ａとは、第４の実施の形態のノード位置検索部７３と単
語検索部７４と同様の機能を有してる。図２６は、第６
の実施の形態の概略構成を示すブロック図である。これ
は、第４の実施の形態の関連語インデックス部７１，７
２をさらに増やしたものである。

【０１３６】この実施の形態では、多数の関連単語イン
デックス部８１ａ，８１ｂ，８１ｃ，・・・が設けられ
ている。ノード位置検索部８２は、単語の入力を受け取
ると、各関連単語インデックス部８１ａ，８１ｂ，８１
ｃ，・・・から、該当するノードの位置の集合を受け取
る。単語検索部８３は、ノード位置検索部８２から受け
取ったノード位置の集合に基づいて、関連単語インデッ
クス部８１ａ，８１ｂ，８１ｃ，・・・から関連単語の
集合を取得し、出力する。

【０１３７】以上のように、本発明においては、単語の
集合を、深さ優先順にノードが記録されるトライ形式に
したがって格納し、単語格納部を構成すると共に、トラ
イにおいて単語を構成しているノードの位置をトライ中
の単語を一意に識別できる値として用いることによっ
て、親のノードへのリンク情報を用いることなく、任意
のノードを含む経路を特定することができる。また、ト
ライにおける単語を、トライにおけるノードの位置をポ
インタとして参照することによって、トライ・インデッ
クス以外に別個に単語集合を表すデータは不要になる。
その結果、必要な記憶容量は、従来技術の場合に比べ
て、著しく少なくて済む。

【０１３８】なお、上記の処理機能は、コンピュータに
よって実現することができる。その場合、システム構築
支援装置が有するべき機能の処理内容は、コンピュータ
で読み取り可能な記録媒体に記録されたプログラムに記
述されており、このプログラムをコンピュータで実行す
ることにより、上記処理がコンピュータで実現される。
コンピュータで読み取り可能な記録媒体としては、磁気
記録装置や半導体メモリ等がある。市場を流通させる場
合には、ＣＤ−ＲＯＭ(Compact Disc Read Only Memor
y) やフロッピーディスケット等の可搬型記録媒体にプ
ログラムを格納して流通させたり、ネットワークを介し
て接続されたコンピュータの記憶装置に格納しておき、
ネットワークを通じて他のコンピュータに転送すること
もできる。コンピュータで実行する際には、コンピュー
タ内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。

【０１３９】

【実施例】本発明の実施例として、必要な記憶容量を、
第５の実施の形態による場合と、従来技術の場合とを定
量的に比較することにする。

【０１４０】図２７は、表記の単語とそれに対応するよ
みの単語の集合との対応関係を示す図である。図中左側
に「表記で表される単語」が示されており、右側に「対
応するよみ」が示されている。例えば、表記が「Ａ」の
場合、「あるふぁ」とよむ場合もあれば、「えー」とよ
む場合もある。

【０１４１】図２８は、よみの単語とそれに対応する表
記の単語の集合との対応関係を示す図である。図中左側
に「よみで表される単語」が示されており、右側に「対
応する表記」が示されている。例えば、よみが「あ」の
場合、その表記は、「あ」「ア」「亜」「阿」「在」
「有」など多数ある。

【０１４２】図２７、図２８には、先頭の８語について
示しているが、全体では、表記単語は９３，４５２語、
よみ単語は６８，８１９語から成る。図２９は、第５の
実施の形態におけるインデックス部の情報量を示す図で
ある。このように、本発明を用いて、表記単語とよみ単
語の対応データから、表記単語からよみ単語集合へのイ
ンデックスおよびよみ単語から表記単語へのインデック
スをそれぞれ作成した結果、トライは１，２５７，５７
９．０バイト、ポインタ・テーブルは４９４，０８５．
０バイト、インデックス全体は１，７５１，６６４．０
バイトの記憶容量となった。

【０１４３】そこで、従来技術の説明における第１の従
来例、すなわち、単語の集合を固定長または可変長の文
字列として格納するレコード構造のデータをインデック
スとは別個に用意する方法で、同様の機能を果すための
情報を格納した。

【０１４４】図３０は、第１の従来例における情報量を
示す図である。第１の従来例では、テキストとその参照
テーブルは２，０４２，５７０．５バイト、トライは
１，２５７，５７９．０バイト、ポインタ・テーブルは
４９４，０８５．０バイト、インデックス全体は３，７
９４，２３４．５バイトの記憶容量となった。

【０１４５】また、従来技術の説明における第２の従来
例、すなわち、トライ・インデックスを単語集合のデー
タとみなして、単語の末尾に対応するトライ中のノード
の識別番号を単語へのポインタとする方法で，同様の機
能を果すための情報を格納した。

【０１４６】図３１は、第２の従来例における情報量を
示す図である。第２の従来例では、トライ・インデック
スに、２，４６９，９９６．５バイト程度、ポインタ・
テーブルは４９４，０８５．０バイト、そしてインデッ
クス全体として２，９６４，０８１．５バイトの記憶容
量を必要とすると予想できる。予想において、おおよそ
のトライデータのサイズから親ノードへのリンクに必要
なデータ幅は２．５バイトと仮定し、トライのノードの
数Ｎとし、親ノードへのリンクに必要なデータ容量Ｌ
を、Ｌ＝Ｎ×２．５( バイト) と計算した。

【０１４７】以上の結果に基づいて、第５の実施の形態
と従来例とを比較した。図３２は、第５の実施の形態と
従来技術との情報量の比較結果を示す図である。

【０１４８】この比較結果から、本発明の第５の実施の
形態は、第１の従来例に比べてトライを除くインデック
スは１９．５％、全体のインデックスは４６．２％、第
２の従来例に比べてトライは５０．９％、全体のインデ
ックスは５９．１％の記憶容量しか必要としないことが
分かる。したがって、本発明によって、必要な記憶容量
の著しい削減効果が得られたと言える。

【０１４９】

【発明の効果】以上説明したように本発明では、単語の
集合を、深さ優先順にノードが記録されるトライ形式に
したがって格納し、トライにおいて単語を構成している
ノードの位置をトライ中の単語を一意に識別できる値と
して用いたため、親のノードへのリンク情報を用いるこ
となく、任意のノードを含む経路を特定することができ
る。また、トライにおけるノードの位置をポインタとし
て、トライにおける単語を参照するようにしたため、ト
ライ形式の単語集合とは別個に単語集合を表すデータを
用意する必要がない。その結果、必要な記憶容量は、従
来技術の場合に比べて、著しく少なくて済む。特に、キ
ーインデックス格納手段を単語格納手段に含まれる単語
を構成する文字のうち、単語の先頭文字および末尾文字
を除いたすべての文字と、各文字を表しているノードの
位置とを対応付けるようにしたので、キーインデックス
格納手段に必要な記憶容量を減らすことができる。

【０１５０】

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】ノードの位置からそのノードを含む単語または
単語の集合を求めるアルゴリズムを示すフローチャート
である。

【図３】単語へのキーを入力とする単語検索装置の原理
構成図である。

【図４】本発明の第１の実施の形態を示すブロック図で
ある。

【図５】単語の集合の例を示す図である。

【図６】深さ優先順にノードが記録されたトライの例を
示す図である。

【図７】トライ・インデックスの例を示す図である。

【図８】関連語対応テーブルを示す図である。

【図９】第１の実施の形態における単語検索手順を示す
フローチャートである。

【図１０】第２の実施の形態の概略構成を示す図であ
る。

【図１１】文字インデックスの例を示す図である。

【図１２】第２の実施の形態において文書集合を求める
ための処理手順を示すフローチャート（その１）であ
る。

【図１３】第２の実施の形態において文書集合を求める
ための処理手順を示すフローチャート（その２）であ
る。

【図１４】第２の実施の形態において文書集合を求める
ための処理手順を示すフローチャート（その３）であ
る。

【図１５】第３の実施の形態の概略構成を示すブロック
図である。

【図１６】関数Ｆ１の処理手順を示すフローチャート
（その１）である。

【図１７】関数Ｆ１の処理手順を示すフローチャート
（その２）である。

【図１８】関数Ｆ２の処理手順を示すフローチャートで
ある。

【図１９】関数Ｆ３の処理手順を示すフローチャートで
ある。

【図２０】第３の実施の形態におけるトライの例を示す
図である。

【図２１】第３の実施の形態における文字インデックス
の例を示す図である。

【図２２】「イ」をとりあげた場合の有限オートマトン
の遷移図である。

【図２３】ノード位置Ｐ１（＝１０）からたどることの
できるサブトライ「Ｔ１」を示す図である。

【図２４】第４の実施の形態の概略構成を示すブロック
図である。

【図２５】第５の実施の形態の概略構成を示すブロック
図である。

【図２６】第６の実施の形態の概略構成を示すブロック
図である。

【図２７】表記の単語とそれに対応するよみの単語の集
合との対応関係を示す図である。

【図２８】よみの単語とそれに対応する表記の単語の集
合との対応関係を示す図である。

【図２９】第５の実施の形態におけるインデックス部の
情報量を示す図である。

【図３０】第１の従来例における情報量を示す図であ
る。

【図３１】第２の従来例における情報量を示す図であ
る。

【図３２】第５の実施の形態と従来技術との情報量の比
較結果を示す図である。

【符号の説明】

１単語格納手段２単語検索手段１１単語格納手段１２キーインデックス格納手段１３ノード位置検索手段１４単語検索手段

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−12043（ＪＰ，Ａ) 特開平１−214970（ＪＰ，Ａ) 増市博、他３名，形態素解析を用いた全文検索システムとその応用，情報処理学会研究報告自然言語処理ＮＬ−102 −３，1994年７月21日，第94巻，第63 号，ｐ．17−24 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】単語集合から単語を検索する単語検索装
置において、深さ優先順にノードが記録されるトライ形式にしたがっ
て、ノードに対応付けられた単語の集合が格納された単
語格納手段と、前記単語格納手段におけるノードの位置が入力される
と、前記単語格納手段のトライを根から順にたどってい
き、入力された位置のノードまでの経路を求め、求めら
れた経路以降の全ての経路をたどって到達するノードに
対応する全ての単語を取得し、取得した単語の集合を出
力する単語検索手段と、前記単語格納手段に含まれる単語に対応するキーと、各
単語を構成しているノードの位置とを対応付けて格納す
るキーインデックス格納手段と、前記キーインデックス格納手段中の任意のキーが入力さ
れると、前記キーインデックス格納手段から、入力され
たキーに対応するノードの位置の集合を取得し、取得し
たノードの位置の集合を前記単語検索手段に対して出力
するノード位置検索手段と、を有し、前記キーインデックス格納手段は、前記単語格納手段に
含まれる単語を構成する全ての文字と、各文字を表して
いるノードの位置とを対応付け、かつ前記単語格納手段
に含まれる単語を構成する文字のうち、単語の先頭文字
および末尾文字を除いたすべての文字と、各文字を表し
ているノードの位置とを対応付けていることを特徴とす
る単語検索装置。
【請求項２】正規表現が入力されると、入力された正
規表現を解析し、前記ノード位置検索手段に対し、正規
表現中の文字を渡してノードの位置の集合を受け取ると
共に、前記単語検索手段に対し、ノードの位置の集合を
渡して単語の集合を受け取り、入力された正規表現に合
致する単語の集合を出力する正規表現解析手段を更に有
することを特徴とする請求項１記載の単語検索装置。
【請求項３】前記単語格納手段は、単語と各単語に対
応する情報へのポインタとを組にして格納しており、前
記単語検索手段は、前記単語格納手段から各々のノード
が表す単語および単語に対応する情報へのポインタの集
合を出力することを特徴とする請求項１記載の単語検索
装置。
【請求項４】前記単語格納手段は、深さ優先順にノー
ドが記録されるトライ形式にしたがって、ノードに対応
付けられた単語の集合を格納していると共に、単語と各
単語に関連する関連単語のノードの位置の集合とを対応
付けて格納しており、単語が入力されると、前記単語格納手段から、入力され
た単語に関連する単語のノードの位置の集合を取得し、
取得したノードの位置の集合を前記単語検索手段に対し
て出力するノード位置検索手段を更に有することを特徴
とする請求項１記載の単語検索装置。
【請求項５】前記単語格納手段は、表記によって表さ
れた表記単語の集合を、深さ優先順にノードが記録され
るトライ形式で格納していると共に、表記単語と各表記
単語に対応する文字列を構成しているよみ単語のノード
の位置の集合とを対応付けて格納するよみインデックス
格納手段と、よみによって表された単語の集合を、深さ
優先順にノードが記録されるトライ形式で格納している
と共に、よみ単語と各よみ単語に対応する表記単語の文
字列を構成しているノードの位置の集合とを対応付けて
格納している表記インデックス格納手段と、から構成さ
れていることを特徴とする請求項４記載の単語検索装
置。
【請求項６】コンピュータに単語集合から単語を検索
させるための単語検索プログラムを記録したコンピュー
タ読取り可能な記録媒体において、深さ優先順にノードが記録されるトライ形式にしたがっ
て、ノードに対応付けられた単語の集合が格納された単
語格納手段、前記単語格納手段におけるノードの位置が入力される
と、前記単語格納手段のトライを根から順にたどってい
き、入力された位置のノードまでの経路を求め、求めら
れた経路以降の全ての経路をたどって到達するノードに
対応する全ての単語を取得し、取得した単語の集合を出
力する単語検索手段、前記単語格納手段に含まれる単語に対応するキーと、各
単語を構成しているノードの位置とを対応付けて格納
し、前記単語格納手段に含まれる単語を構成する全ての
文字と、各文字を表しているノードの位置とを対応付
け、かつ前記単語格納手段に含まれる単語を構成する文
字のうち、単語の先頭文字および末尾文字を除いたすべ
ての文字と、各文字を表しているノードの位置とを対応
付けるキーインデックス格納手段、前記キーインデックス格納手段中の任意のキーが入力さ
れると、前記キーインデックス格納手段から、入力され
たキーに対応するノードの位置の集合を取得し、取得し
たノードの位置の集合を前記単語検索手段に対して出力
するノード位置検索手段、としてコンピュータを機能させるための単語検索プログ
ラムを記録したコンピュータ読取り可能な記録媒体。