JPH08221443A

JPH08221443A - 漢字を含むテキストの検索方法及び装置

Info

Publication number: JPH08221443A
Application number: JP7028993A
Authority: JP
Inventors: Sanae Uchida; 早苗内田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-02-17
Filing date: 1995-02-17
Publication date: 1996-08-30

Abstract

(57)【要約】【目的】辞書を用いることなくインバーテドファイルを
作成するようにし、辞書を用いることによる従来の欠点
を解消することを目的とする。【構成】漢字を含む複数のテキストの中から、指定され
たキーワードを含むテキストをインバーテドファイル１
３を参照して検索する方法であって、テキストに含まれ
る文字列が３文字以上の漢字列である場合に、最後尾の
漢字を除く各漢字とそれに続く漢字とからなる２文字の
各漢字列を索引語としてインバーテドファイル１３に登
録しておき、検索のために指定されたキーワードが３文
字以上の漢字列である場合に、最後尾の漢字を除く各漢
字とそれに続く漢字とからなる２文字の各漢字列の論理
積によって検索を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、日本語文章のような漢
字を含む複数のテキストの中から、指定されたキーワー
ドを含むテキストを検索する方法及び装置に関する。

【０００２】一般に、高速のテキスト検索システム（文
献検索システム、又は文章検索システムともいう）にお
いては、テキストデータベースに蓄えられた大量のテキ
ストの中から指定された検索条件を満足するテキストを
高速で探索するためのインバーテドファイルが設けられ
ている。インバーテドファイルの存在によって、ほとん
どの検索条件がそのインバーテドファイル上の操作だけ
で高速に処理されることとなる。

【０００３】しかし、従来の一般的なシステムでは、テ
キストデータベースを修正し又は新しい分野のテキスト
をデータベースに追加する場合に、それとほぼ同時に関
連する全てのインバーテドファイル上のデータの更新も
行わなければならないという弱点がある。インバーテド
ファイルの更新作業には多大の労力を要しているため、
インバーテドファイルの更新をできるだけ簡便に行え又
は更新を行う必要のないシステムの出現が望まれてい
る。

【０００４】

【従来の技術】従来のテキスト検索システムにおいて
は、インバーテドファイルに登録すべき索引語（又はキ
ーワード）が予め決められており、それらの索引語が辞
書に登録されている。

【０００５】すなわち、インバーテドファイルの作成に
当たっては、対象となるテキストの先頭から１文字ずつ
文字種が判定され、文字種に応じてテキストは文字列に
分解される。分解して得られた各文字列は辞書と照合さ
れ、辞書に登録されている文字列のみがインバーテドフ
ァイルに登録される。その際、熟語などの複合語につい
ては、辞書を参照して意味解析又は分解処理が行われ、
２文字程度の漢字列としてインバーテドファイルに登録
される。

【０００６】検索に当たって、利用者がキーワードを指
定すると、そのキーワードに基づいてインバーテドファ
イルが参照され、該当するテキストが検索される。

【０００７】

【発明が解決しようとする課題】したがって、従来のテ
キスト検索システムでは、索引語を登録した辞書を予め
作成しておく必要があるとともに、作成した辞書が常に
最新の状態となるようにメンテナンスを行う必要があ
る。しかし、辞書を作成する作業及びメンテナンスの作
業は極めて面倒であり、これに多大の時間と労力を要し
ている。特に、例えばそれまでとは異なった分野のテキ
ストをデータベースに加えた場合において、そのテキス
トには索引語とすべき新たな語句が多数含まれているた
め、それらを索引語として追加登録する作業にも多くの
時間を要する。

【０００８】しかも、新たな索引語を辞書に追加して更
新を行った場合に、追加した索引語が全てのテキストに
対して有効となるようにするには、既に作成したインバ
ーテドファイルを更新した辞書に基づいて再度作成し直
す必要がある。その作業にも多大の時間と労力を要する
ので、その間、長期にわたってシステムの利用が制限さ
れることとなる。

【０００９】このように、従来のテキスト検索システム
は、辞書を中心とした処理が行われているために、辞書
に登録されているキーワードのみでしか検索を行うこと
ができず、辞書に登録されていないマイナーな語句、極
く新しい語句では検索を行うことができない。

【００１０】また、通常、辞書に登録される漢字列は２
文字からなる熟語が大半を占める。しかし、テキスト中
には、漢字又は熟語が複雑に結合した複合語が多数現れ
る。そのため、複合語の意味解析又は分解処理が必要と
なるが、それを正確に行うためには高度な内容の辞書と
解析のしくみが必要であり、システムが複雑で高価なも
のとなる。

【００１１】本発明は、上述の問題に鑑みてなされたも
ので、辞書を用いることなくインバーテドファイルを作
成するようにし、辞書を用いることによる従来の欠点を
解消した漢字を含むテキストの検索方法及び装置を提供
することを目的とする。

【００１２】

【課題を解決するための手段】請求項１の発明に係る方
法は、漢字を含む複数のテキストの中から、指定された
キーワードを含むテキストをインバーテドファイルを参
照して検索する方法であって、前記テキストに含まれる
文字列が３文字以上の漢字列である場合に、最後尾の漢
字を除く各漢字とそれに続く漢字とからなる２文字の各
漢字列を索引語として前記インバーテドファイルに登録
しておき、検索のために指定されたキーワードが３文字
以上の漢字列である場合に、最後尾の漢字を除く各漢字
とそれに続く漢字とからなる２文字の各漢字列の論理積
によって検索を行う方法である。

【００１３】請求項２の発明に係る方法は、前記テキス
トに含まれる各文字の文字種を判定し、前記テキストを
文字種に応じた文字列に分解し、少なくとも、１文字又
は２文字からなる漢字列について、それぞれの漢字列を
索引語として前記インバーテドファイルに登録するとと
もに、３文字以上の漢字列について、最後尾の漢字を除
く各漢字とそれに続く漢字とからなる２文字の各漢字列
を索引語として前記インバーテドファイルに登録し、検
索のために指定されたキーワードについて、その文字種
を判定し、前記キーワードが漢字列である場合に、１文
字又は２文字からなる漢字列についてはその漢字列によ
って検索を行い、３文字以上の漢字列については最後尾
の漢字を除く各漢字とそれに続く漢字とからなる２文字
の各漢字列の論理積によって検索を行う方法である。

【００１４】請求項３の発明に係る方法は、前記テキス
トに含まれる各文字の文字種を判定し、前記テキスト
を、文字種に応じた文字列である、英字列、数字列、カ
タカナ文字列、ひらかな文字列、及び漢字列に分解し、
英字列、数字列、カタカナ文字列、及び１文字又は２文
字からなる漢字列について、各文字列を索引語として前
記インバーテドファイルに登録するとともに、３文字以
上の漢字列について、最後尾の漢字を除く各漢字とそれ
に続く漢字とからなる２文字の各漢字列を索引語として
前記インバーテドファイルに登録し、検索のために指定
されたキーワードについて、その文字種を判定し、前記
キーワードが、英字列、数字列、カタカナ文字列、及び
１文字又は２文字からなる漢字列である場合に、その文
字列によって検索を行い、前記キーワードが、３文字以
上の漢字列である場合に、最後尾の漢字を除く各漢字と
それに続く漢字とからなる２文字の各漢字列の論理積に
よって検索を行う方法である。

【００１５】請求項４の発明に係る装置は、漢字を含む
複数のテキストの中から、指定されたキーワードを含む
テキストをインバーテドファイルを参照して検索する装
置であって、文字種を判定する文字種判定手段と、文字
種に応じた文字列に分解する文字列分解手段と、３文字
以上の漢字列を、最後尾の漢字を除く各漢字とそれに続
く漢字とからなる２文字の漢字列に分解する漢字分解手
段と、テキストに含まれた、漢字列以外の文字列、１文
字又は２文字からなる漢字列、及び前記漢字分解手段に
よって分解された２文字の漢字列を、索引語として前記
インバーテドファイルに登録する文字列登録手段と、検
索のためのキーワードを入力する入力手段と、入力され
たキーワードが１文字又は２文字からなる漢字列である
場合には入力された漢字列によって前記インバーテドフ
ァイルの検索を行い、入力されたキーワードが３文字以
上の漢字列である場合には前記漢字分解手段によって分
解された２文字の漢字列の論理積によって検索を行う検
索手段と、検索結果を出力する出力手段と、を有して構
成される。

【００１６】

【作用】本発明による検索方法について、図を参照して
説明する。例えば、図３に示すテキストＴＸ１のよう
に、「自動抽出」の４文字の漢字列が含まれている場合
に、それが「自動」「動抽」「抽出」の２文字からなる
３つの漢字列に分解され、それぞれの漢字列がインバー
テドファイル１３に登録される。

【００１７】図４に示されているように、テキストＴＸ
１に含まれた漢字列である「自動抽出」に対しては、
「自動」「動抽」「抽出」の３つの漢字列が登録されて
いるが、テキストＴＸ３に含まれた文字列である「自動
で抽出」に対しては、「自動」「抽出」の２つの漢字列
のみが登録され、「動抽」は登録されない。

【００１８】利用者が「自動抽出」をキーワードＫＷと
して入力すると、それが「自動」「動抽」「抽出」の３
つの漢字列に分解され、それらの論理積によってインバ
ーテドファイル１３が検索される。その結果、３つの漢
字列に対してそれぞれヒットするテキストＴＸ１が検索
される。

【００１９】

【実施例】図１は本発明に係るテキスト検索装置１の構
成を機能的に示すブロック図、図２はテキスト検索装置
１のハード構成の例を示すブロック図、図３はテキスト
データベース１２の例を示す図、図４はインバーテドフ
ァイル１３の例を示す図である。

【００２０】図１において、テキスト検索装置１は、処
理部１１、テキストデータベース１２、インバーテドフ
ァイル１３、入力手段としての入力部１４、及び出力手
段としての出力部１５などから構成されている。

【００２１】図３に示すように、テキストデータベース
１２は、漢字を含む多数のテキストＴＸ（ＴＸ１，ＴＸ
２，ＴＸ３…）からなる。各テキストＴＸはデータ長が
不定である。テキストＴＸには、text１、text２…など
の識別名ＩＤが付されている。テキストデータベース１
２は、テキストＴＸの追加、変更、削除などの更新が可
能である。

【００２２】図４に示すように、インバーテドファイル
１３は、多数の索引語ＤＸと、各索引語ＤＸを含むテキ
ストＴＸの識別名ＩＤとを対応付けて格納したものであ
る。インバーテドファイル１３は、処理部１１によって
作成され又は更新される。

【００２３】入力部１４は、利用者が検索を行うに当た
ってキーワードＫＷを入力するためのものであり、ま
た、検索を行う際、又はインバーテドファイル１３の作
成又は更新の際に、コマンド、データなどを入力するた
めにも用いられる。

【００２４】出力部１５は、検索結果を画面や用紙上に
出力する他、種々のデータ、文字、イメージなどを出力
する。処理部１１は、テキストデータベース１２に格納
された又は新たに格納されようとしているテキストＴ
Ｘ、つまり対象となるテキストＴＸに基づいて、インバ
ーテドファイル１３を作成し又は更新するための処理を
行うとともに、テキストデータベース１２に格納された
多数のテキストＴＸの中から、指定されたキーワードＫ
Ｗを含むテキストＴＸをインバーテドファイル１３を参
照して検索し、検索結果を出力部１５によって出力す
る。

【００２５】処理部１１は、文字列登録手段としての文
字列登録部２１、検索手段としての検索部２２、文字種
判定手段としての文字種判定部２３、文字列分解手段と
しての文字列分解部２４、及び漢字分解手段としての漢
字分解部２５などを有している。

【００２６】文字列登録部２１は、テキストＴＸに含ま
れた英字列、数字列、カタカナ文字列、及び漢字列を、
索引語ＤＸとしてインバーテドファイル１３に登録する
ための処理を行う。その際に、テキストＴＸに含まれた
漢字列が１文字又は２文字からなる場合にはその漢字列
を、３文字以上の漢字列からなる場合には漢字分解部２
５によって分解された２文字の漢字列を、それぞれ登録
する。なお、本実施例においては、ひらかな文字列につ
いては、通常、意味のないことが多く索引語ＤＸとして
適切ではないことが多いので、登録しない。

【００２７】検索部２２は、指定されたキーワードＫＷ
に基づいて、インバーテドファイル１３を参照して該当
するテキストＴＸを検索する。検索に当たって、キーワ
ードＫＷが、英字列、数字列、カタカナ文字列、１文字
又は２文字からなる漢字列である場合には、指定された
文字列によって検索を行い、指定されたキーワードＫＷ
が３文字以上の漢字列である場合には、漢字分解部２５
によって分解された２文字の漢字列の論理積によって検
索を行う。

【００２８】文字種判定部２３は、対象となるテキスト
ＴＸの文字種を判定する。文字種には、英字、数字、カ
タカナ文字、ひらかな文字、漢字がある。英字以外の外
国文字も英字に含める。

【００２９】文字列分解部２４は、対象となるテキスト
ＴＸを、文字種に応じた文字列に分解する。つまり、テ
キストＴＸの先頭文字から順に、同一の文字種毎の文字
列に区切ることによって文字列に分解する。

【００３０】漢字分解部２５は、文字列が３文字以上の
漢字列であった場合に、その漢字列を、最後尾の漢字を
除く各漢字とそれに続く漢字とからなる２文字の各漢字
列に分解する。この処理のことを「ラップ分解処理」と
いうことがある。

【００３１】図２に示すように、テキスト検索装置１の
ハードウエアは、処理装置３１、記憶装置３２、大容量
記憶装置３３、キーボード３４、ディスプレイ装置３
５、及びプリンタ装置３６などによって構成される。

【００３２】記憶装置３２には、上述のテキストデータ
ベース１２及びインバーテドファイル１３が格納され
る。大容量記憶装置３３には、大容量のテキストデータ
ベース１２が格納される。処理装置３１にメモリを有し
ており、そこにテキストデータベース１２又はインバー
テドファイル１３の全部又は一部が転送され、またワー
クエリアとして使用される。キーボード３４からキーワ
ードＫＷなどを入力し、検索結果をディスプレイ装置３
５によって表示し又はプリンタ装置３６により用紙に印
刷する。また、通信回線によって他のコンピュータ又は
ホストコンピュータと接続し、テキストデータベース１
２を共用し、又は検索結果を送信してもよい。

【００３３】次に、テキスト検索装置１の処理内容又は
動作について、図５及び図６に示すフローチャートに基
づいて説明する。図５は登録処理を示すフローチャー
ト、図６は検索処理を示すフローチャートである。

【００３４】まず、インバーテドファイル１３への索引
語ＤＸの登録処理について説明する。図３に示すテキス
トＴＸ１を例にとると、テキストＴＸ１は「テキストか
らキーワードを自動抽出するには…」であるが、各文字
の文字種が文字種判定部２３によって判定される（＃１
１）。文字列分解部２４によって、文字列に分解される
（＃１２）。これによって、テキストＴＸ１は、「テキ
スト」「から」「キーワード」「を」「自動抽出」「す
るには」…というように、カタカナ文字列、ひらかな文
字列、カタカナ文字列、ひらかな文字列、漢字列、ひら
かな文字列…に分解される。

【００３５】次に、分解された各文字列がインバーテド
ファイル１３に登録される（＃１７）のであるが、ひら
かな文字列は登録されない（＃１３でイエス）。また、
３文字以上の漢字列である場合には（＃１４，１５でイ
エス）、漢字分解部２５によってラップ分解処理が行わ
れる（＃１６）。

【００３６】テキストＴＸ１の場合には、「から」
「を」「するには」はひらかな文字列でるのでインバー
テドファイル１３に登録されない。「テキスト」「キー
ワード」はそのまま登録されるが、「自動抽出」は４文
字の漢字列であるので、漢字分解部２５によるラップ分
解処理が行われ、「自動」「動抽」「抽出」の２文字か
らなる３つの漢字列に分解され、それぞれの漢字列がイ
ンバーテドファイル１３に登録される。

【００３７】テキストＴＸ２の場合では、３文字の漢字
列である「自動車」が「自動」「動車」にラップ分解さ
れ、４文字の漢字列である「生産台数」が「生産」「産
台」「台数」にラップ分解され、分解された２文字の各
漢字列がインバーテドファイル１３に登録される。

【００３８】テキストＴＸ３の場合では、２文字の漢字
列である「成分」「自動」「抽出」「装置」「台数」が
そのままインバーテドファイル１３に登録される。テキ
ストＴＸ１〜３のインバーテドファイル１３が図４に示
されている。なお、図４は索引語ＤＸのうちの漢字列の
部分のみを表している。

【００３９】図４において、「自動」は、テキストＴＸ
１〜３のいずれにも含まれているため、該当する識別名
ＩＤの欄には「text１」「text２」「text３」のいずれ
もが登録されている。「動抽」はテキストＴＸ１のみに
含まれているので、識別名ＩＤ欄には「text１」のみが
登録されている。「抽出」はテキストＴＸ１及びＴＸ３
に含まれているため、識別名ＩＤの欄には「text１」
「text３」が登録されている。他の漢字列についても同
様に登録されている。

【００４０】図４に示されているように、テキストＴＸ
１に含まれた漢字列である「自動抽出」に対しては、
「自動」「動抽」「抽出」の３つの漢字列が登録されて
いるが、テキストＴＸ３に含まれた文字列である「自動
で抽出」に対しては、「自動」「抽出」の２つの漢字列
のみが登録され、「動抽」は登録されていない。これ
は、後の検索の際に、テキストＴＸ１はヒットするがテ
キストＴＸ３はヒットしないという差となって現れる。

【００４１】次に、検索処理について説明する。利用者
がキーワードＫＷを入力すると（＃２１）、その文字種
が判定される（＃２２）。キーワードＫＷが「自動抽
出」であったとすると、それは漢字列であり（＃２３で
イエス）、３文字以上であるから（＃２４でイエス）、
ラップ分解処理が行われる（＃２６）。ラップ分解処理
により、「自動抽出」は、「自動」「動抽」「抽出」の
３つの漢字列に分解される。

【００４２】ラップ分解処理が行われると、分解された
各漢字列の論理積によってインバーテドファイル１３が
検索される（＃２７）。上の例では、「自動」「動抽」
「抽出」の全部の漢字列に対してヒットするテキストで
あるテキストＴＸ１が検索される。テキストＴＸ３は検
索されない。

【００４３】キーワードＫＷが「自動」であったとする
と、それは漢字列であり（＃２３でイエス）、３文字以
上でないから（＃２４でノー）、その漢字列によって検
索が行われ（＃２５）、テキストＴＸ１，ＴＸ２，ＴＸ
３のいずれも検索される。

【００４４】検索結果は画面に表示され又はプリンタで
印刷される（＃２８）。上述の実施例によると、辞書を
用いることなくインバーテドファイル１３を作成し又は
更新するので、辞書を用いることによる従来の欠点が解
消される。

【００４５】すなわち、辞書を作成する必要がないの
で、その作成やメンテナンスのための労力と時間が不要
である。したがって、それまでとは異なった分野のテキ
ストＴＸをテキストデータベース１２に加えた場合のよ
うに、新たな索引語が加わる場合であっても、従来のよ
うにインバーテドファイル１３を作成し直す必要がな
い。したがって、漢字による新用語又は造語などが頻繁
に発生する分野において極めて有用である。

【００４６】また、従来のような辞書を中心とした処理
ではないので、指定したキーワードＫＷを含んだテキス
トＴＸがある場合には確実に検索され、キーワードＫＷ
の指定に当たって登録されたキーワードＫＷであるか否
かを考える必要がなく、検索の信頼性が高い。

【００４７】上述の実施例によると、３文字以上の漢字
からなる熟語や造語であっても、複雑な意味解析の処理
を行うことなく、２文字からなる複数の漢字列の索引語
ＤＸとしてインバーテドファイル１３に確実に登録さ
れ、確実に検索が行われる。例えば、テキストＴＸに
「自動抽出時」の漢字列が含まれている場合に、従来で
あれば複雑な意味解析によって「自動」「抽出」「時」
の３つの漢字列に分解できなければ検索が不可能である
が、上述の実施例によると、簡単且つ確実に検索され
る。

【００４８】その場合に、キーワードＫＷとして、「自
動抽出時」「自動抽出」「自動」「抽出」「抽出時」の
いずれを指定した場合でもヒットすることとなり、検索
のもれがなくなる。

【００４９】上述の実施例においては、ひらかな文字列
をインバーテドファイル１３を登録しなかったが、ひら
かな文字列の全部又は一部を登録してもよい。その場合
に、ひらかな文字列の文字数、意味などに応じて登録の
可否を決定してもよい。また、例えば「インターフェー
ス」と「インタフェース」のような記述の違いによる検
索もれを防ぐために、「ー」を含む文字列については
「ー」を省略してインバーテドファイル１３に登録し、
且つそれによる検索を行うようにしてもよい。

【００５０】上述の実施例において、テキストデータベ
ース１２として、コンピュータソフトウエアに関する過
去のトラブル事例を登録しておき、現在のトラブル内容
から過去の事例についての対策又は処置などを記載した
テキストを検索することによって、ソフトウエアのサポ
ートを容易迅速に行うことができる。

【００５１】上述の実施例において、処理部１１、イン
バーテドファイル１３などの構成、処理内容、処理順
序、その他テキスト検索装置１の全体又は各部の構成な
どは、本発明の主旨に沿って適宜変更することができ
る。

【００５２】

【発明の効果】請求項１乃至請求項４の発明によると、
辞書を用いることなくインバーテドファイルが作成され
又は索引語が登録されるので、辞書を用いることによる
従来の欠点が解消される。

【図面の簡単な説明】

【図１】本発明に係るテキスト検索装置の構成を機能的
に示すブロック図である。

【図２】テキスト検索装置のハード構成の例を示すブロ
ック図である。

【図３】テキストデータベースの例を示す図である。

【図４】インバーテドファイルの例を示す図である。

【図５】登録処理を示すフローチャートである。

【図６】検索処理を示すフローチャートである。

【符号の説明】

１テキスト検索装置１２テキストデータベース１３インバーテドファイル１４入力部（入力手段）１５出力部（出力手段）２１文字列登録部（文字列登録手段）２２検索部（検索手段）２３文字種判定部（文字種判定手段）２４文字列分解部（文字列分解手段）２５漢字分解部（漢字分解手段）

Claims

【特許請求の範囲】

【請求項１】漢字を含む複数のテキストの中から、指定
されたキーワードを含むテキストをインバーテドファイ
ルを参照して検索する方法であって、前記テキストに含まれる文字列が３文字以上の漢字列で
ある場合に、最後尾の漢字を除く各漢字とそれに続く漢
字とからなる２文字の各漢字列を索引語として前記イン
バーテドファイルに登録しておき、検索のために指定されたキーワードが３文字以上の漢字
列である場合に、最後尾の漢字を除く各漢字とそれに続
く漢字とからなる２文字の各漢字列の論理積によって検
索を行う、ことを特徴とする漢字を含むテキストの検索方法。
【請求項２】漢字を含む複数のテキストの中から、指定
されたキーワードを含むテキストをインバーテドファイ
ルを参照して検索する方法であって、前記テキストに含まれる各文字の文字種を判定し、前記テキストを文字種に応じた文字列に分解し、少なくとも、１文字又は２文字からなる漢字列につい
て、それぞれの漢字列を索引語として前記インバーテド
ファイルに登録するとともに、３文字以上の漢字列について、最後尾の漢字を除く各漢
字とそれに続く漢字とからなる２文字の各漢字列を索引
語として前記インバーテドファイルに登録し、検索のために指定されたキーワードについて、その文字
種を判定し、前記キーワードが漢字列である場合に、１文字又は２文
字からなる漢字列についてはその漢字列によって検索を
行い、３文字以上の漢字列については最後尾の漢字を除
く各漢字とそれに続く漢字とからなる２文字の各漢字列
の論理積によって検索を行う、ことを特徴とする漢字を含むテキストの検索方法。
【請求項３】漢字を含む複数のテキストの中から、指定
されたキーワードを含むテキストをインバーテドファイ
ルを参照して検索する方法であって、前記テキストに含まれる各文字の文字種を判定し、前記テキストを、文字種に応じた文字列である、英字
列、数字列、カタカナ文字列、ひらかな文字列、及び漢
字列に分解し、英字列、数字列、カタカナ文字列、及び１文字又は２文
字からなる漢字列について、各文字列を索引語として前
記インバーテドファイルに登録するとともに、３文字以上の漢字列について、最後尾の漢字を除く各漢
字とそれに続く漢字とからなる２文字の各漢字列を索引
語として前記インバーテドファイルに登録し、検索のために指定されたキーワードについて、その文字
種を判定し、前記キーワードが、英字列、数字列、カタカナ文字列、
及び１文字又は２文字からなる漢字列である場合に、そ
の文字列によって検索を行い、前記キーワードが、３文字以上の漢字列である場合に、
最後尾の漢字を除く各漢字とそれに続く漢字とからなる
２文字の各漢字列の論理積によって検索を行う、ことを特徴とする漢字を含むテキストの検索方法。
【請求項４】漢字を含む複数のテキストの中から、指定
されたキーワードを含むテキストをインバーテドファイ
ルを参照して検索する装置であって、文字種を判定する文字種判定手段と、文字種に応じた文字列に分解する文字列分解手段と、３文字以上の漢字列を、最後尾の漢字を除く各漢字とそ
れに続く漢字とからなる２文字の漢字列に分解する漢字
分解手段と、テキストに含まれた、漢字列以外の文字列、１文字又は
２文字からなる漢字列、及び前記漢字分解手段によって
分解された２文字の漢字列を、索引語として前記インバ
ーテドファイルに登録する文字列登録手段と、検索のためのキーワードを入力する入力手段と、入力されたキーワードが１文字又は２文字からなる漢字
列である場合には入力された漢字列によって前記インバ
ーテドファイルの検索を行い、入力されたキーワードが
３文字以上の漢字列である場合には前記漢字分解手段に
よって分解された２文字の漢字列の論理積によって検索
を行う検索手段と、検索結果を出力する出力手段と、を有してなることを特徴とする漢字を含むテキストの検
索装置。