JPH064584A

JPH064584A - 文章検索装置

Info

Publication number: JPH064584A
Application number: JP4166259A
Authority: JP
Inventors: Ikuo Karashi; 育雄芥子; Hiroyuki Kanza; 浩幸勘座; Naotoshi Maruyama; 直利丸山; Takao Inui; 隆夫乾
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1992-06-24
Filing date: 1992-06-24
Publication date: 1994-01-14

Abstract

(57)【要約】【目的】この発明の目的は、検索者の装置利用時の負
担を軽減し、検索精度を向上させることのできる文章検
索装置を提供することである。【構成】この検索装置は検索要求入力部１、重要語抽
出部２、複数文字列検索部４、重み修正部６、レコード
評価表示部７を含む。検索者が入力部１を介して検索要
求テキストを入力すると、抽出部２および修正部６は該
テキストから検索重要語を抽出するとともに、各重要語
の重みを検索対象テキストにおいてまんべんに使用され
るものは低く、偏って使用されるものについては高くな
るように設定する。次に、検索部４および表示部７は検
索対象テキスト中の各レコードにおける各重要語の使用
頻度のベクトルと各重要語の重みのベクトルとの距離
（類似度）に基づいて検索対象テキストから高類似度の
レコードを抽出するので、検索要求に内容的に関連した
レコードが簡単かつ精度よく得られる。

Description

【発明の詳細な説明】

【０００１】この発明は文章検索装置に関し、特に、索
引付などの前処理をせずに、検索ごとに検索対象となる
文章すべてを検索する文章検索装置に関する。

【０００２】

【従来の技術】従来より、複数個の文章を含むテキスト
を検索対象とするような全文検索装置がある。この装置
は、検索対象であるテキストについて検索を容易ならし
めるような索引付を含む前処理を必要としないで、検索
のたびにテキスト中のすべての文字を読む（以下、フル
テキストスキャンと呼ぶ）方式を採用していた。

【０００３】上述の索引付をしないフルテキストスキャ
ン方式に基づく全文検索装置としては次のようなものが
ある。

【０００４】（１）検索者が入力する複数のキーワー
ド（単語）と、それらに関する論理演算式に基づいてフ
ルテキストスキャンし、該当（検索者が所望する）部分
の文章を該テキストから検索して出力する全文検索装
置。

【０００５】（２）検索者が入力したキーワード（単
語など）に基づいてフルテキストスキャンし、該キーワ
ードの使用頻度が高い文章を該テキストから検索して出
力する全文検索装置。

【０００６】（３）検索者が検索のために入力する文
字列（以下、検索要求と呼ぶ）から複数のキーワード
（単語）を抽出し、抽出されたキーワードについて上述
の（１）または（２）の方式でフルテキストスキャン
し、検索者が所望する文章を該テキストから特定して出
力する全文検索装置。

【０００７】また、予め検索対象となるテキストについ
て索引付を行なう全文検索装置もある。この装置では検
索に先立ってベクトル空間を利用したテキストについて
の索引付が行なわれる。詳細には、検索者は検索対象で
あるテキストから検索に際して重要と思われるＴ個の用
語を予め選択し、次にこのテキストを構成する各レコー
ド（少なくとも１つ以上の文字列からなる）を、このＴ
個の用語の該テキスト中の統計情報（使用頻度）をもと
に決定した重みを利用してＴ次元のベクトル空間に配置
しておく。その後、検索要求が入力されると、該要求に
ついてもＴ個の用語について同様にＴ次元のベクトル空
間に配置して、検索要求のベクトルと予め求めれた各レ
コードのベクトルとの間で距離（類似度）を算出する。
そして算出距離を用いて各レコードのランク付を行な
い、上位にランクされたレコードほど所望レコードであ
る可能性が高いという手法が検索精度に関して効果があ
ると知られている。

【０００８】

【発明が解決しようとする課題】従来のフルテキストス
キャン方式に基づく全文検索装置の、特に前述の
（１）、または（３）における（１）を採用した方式の
複数のキーワードと、それらに関する論理演算式に基づ
くフルテキストスキャン方式では、たとえば検索者が入
力した全キーワードのＡＮＤ演算が成立する文章をテキ
ストから特定し抽出するような検索方式では、かなり検
索漏が多くなり、所望の文章が該テキストから検索され
ないこともある。逆に、検索者が入力した全キーワード
のＯＲ演算が成立する文章のみを該テキストから抽出す
る検索方式では、かなり検索条件が緩やかなので、関連
のない文章も多く抽出されてしまい、検索の精度は低く
なる。そこで、検索漏を抑制し、かつ検索精度を上げる
ような論理演算式を入力すれば、上述の検索漏や関連の
ない文章が多く抽出されることは防止される。しかしな
がら、このような条件を満足するような論理演算式を立
てることは、検索者にとってかなりの負担となり実用的
でないという問題があった。

【０００９】また、前述の（２）、または（３）におけ
る（２）を採用した方式のフルテキストスキャン方式で
は、検索者は、複数キーワード間の論理演算式を立てる
必要はないので、上述した検索者の負担は軽減される。
そして、この方式では、入力したすべてのキーワードの
使用頻度に基づけば検索結果にランク付をすることもで
きるが、検索時における各キーワードの重要度を考慮し
たものではないので、精度の高い検索結果を得ることは
できないという問題もあった。

【００１０】また、前述した索引付を用いたフルテキス
トスキャン方式に基づく全文検索装置、すなわちベクト
ル空間モデルに基づく全文検索装置では、精度の高い検
索結果のランキングができるという利点がある。しかし
ながら、索引付のためのメモリオーバーヘッド（索引付
のためのメモリ領域が全メモリ領域に占める割合）が５
０〜３００％と極めて大きいことに加えて、索引付のた
めの用語（Ｔ個の用語）が固定されているため、検索対
象となるテキストの内容がダイナミックに変化する使用
環境においては精度の高い検索結果を維持することはで
きないという問題があった。また、索引付のためのＴ個
の用語の選定は、該テキストにおける用語の使用頻度に
よる統計情報に基づいて行なわれるために、検索にあた
って重要な用語でも該テキストにおける使用頻度が低け
れば索引付のための用語とは選定されないので、その場
合は検索精度を下げるという問題もあった。

【００１１】それゆえにこの発明の目的は、少なくとも
１つ以上の文字列からなる複数のレコードを含むテキス
トを対象にして検索処理する文章検索装置において、検
索者の該装置利用時の負担を軽減し、高い検索精度を維
持することのできる文章検索装置を提供することであ
る。

【００１２】

【課題を解決するための手段】この発明にかかる文章検
索装置は、少なくとも１つ以上の文字列を含み、かつ複
数個のレコードを含むテキストを対象にして検索処理す
る装置であり、入力手段と、重要語抽出手段と、頻度計
数手段と、重み修正手段と、レコード評価手段と、およ
び出力手段とを備えて構成される。

【００１３】前述の入力手段は、前述の複数レコードか
ら所望レコードの検索を要求するための文字列からなる
テキストを入力するように構成される。

【００１４】前述の重要語抽出手段は、前述の入力手段
から入力された検索要求テキストから検索処理において
重要となる少なくとも１つ以上の単語を抽出し、抽出さ
れた各重要語のこの検索要求テキストにおける使用頻度
に基づいてその重みを設定するように構成される。

【００１５】前述の頻度計数手段は、前述の対象テキス
ト中の各レコードにおける各重要語の使用頻度を説明す
るための図計数するように構成される。

【００１６】前述の重み修正手段は、前述の重要語抽出
手段により設定された各重要語の重みを検索対象テキス
ト中での各重要語の使用率の逆数に基づいて修正するよ
うに構成される。

【００１７】前述のレコード評価手段は、重み修正手段
により修正された各重要語の重みのベクトルと頻度計数
手段により計数された各レコードにおける各重要語の頻
度のベクトルとの距離に基づいて各レコードが所望レコ
ードである度合を評価するように構成される。

【００１８】前述の出力手段は、レコード評価手段によ
り評価された各レコードの度合に基づいて、各レコード
から所望されるレコードの候補を出力するように構成さ
れる。

【００１９】また、上述のように構成される文章検索装
置において、前述の入力手段から入力される検索要求テ
キストは、出力手段により前回出力された候補レコード
の内容を含んでもよい。

【００２０】

【作用】この発明にかかる文章検索装置は上述のように
構成されるので、検索者が、入力手段を介して検索要求
テキストを入力すると、重要語抽出手段および重み修正
手段を介して検索処理に必要とされる重要語が特定さ
れ、さらに特定された各重要語について検索処理におけ
る重みが適正な値に設定される。つまり、重み修正手段
において検索対象テキストにおける使用率の逆数に基づ
いて各重要語の重みが再設定されるので、ある重要語が
検索対象テキスト中でまんべんに使用されていれば、検
索に際してこの重要語の重みは小さいと設定され、逆に
該重要語が検索対象テキスト中で偏って使用されていれ
ば検索に際して有用でありその重みは大きくなるように
設定される。このように適正な重みを有した重要語を用
いてレコード評価手段および頻度計数手段は、検索対象
テキスト中の各レコードについて検索要求テキストによ
り検索者が所望するレコードである度合を求め、出力手
段は検索対象テキスト中の複数レコードから検索者が所
望するレコードの候補を出力するので、検索者が入力す
る検索要求に内容的に関連する度合の高いレコードを検
索者に負担をかけず、しかも精度よく検索して出力する
ことができる。

【００２１】

【実施例】以下、この発明の一実施例について図面を参
照して説明する。

【００２２】なお、本実施例では全文を検索対象として
おり、検索単位としてレコードを想定する。レコードは
少なくとも１つ以上の文字列からなる。さらに、少なく
とも１つ以上のレコードを含んでテキストが構成され、
テキストはファイルに格納されると想定する。したがっ
て、検索対象となる文章はファイルに格納される。

【００２３】本実施例の全文検索装置は、検索対象とな
るテキストを格納したファイルを少なくとも１つ以上備
えている。そして、検索対象ファイルの名称を利用者が
指定することにより、該ファイルに格納されるテキスト
が検索対象テキストとなる。検索者はこのファイル名入
力時に、検索要求も入力する。入力された検索要求中の
文字列から検索処理に際しての重要語を抽出し、各重要
語について検索要求における使用頻度および検索対象テ
キストにおける使用率の逆数に基づいてその重みを適正
に設定する。そして各重要語の検索対象テキストの各レ
コードにおける使用頻度のベクトルと各重要語の重みの
ベクトルとの距離（類似度）に基づいて各レコードにつ
いて検索者が検索要求テキストを介して所望したレコー
ドである度合をランク付し、出力することにより検索者
が所望のレコードを容易に特定しやすいよう処理したも
のである。

【００２４】図１は、本発明の一実施例による全文検索
装置の処理システムの構成図である。

【００２５】図２は、本発明の一実施例による全文検索
装置の電気的ブロック構成図である。図２を参照して、
全文検索装置は補助記憶装置３０１、ＣＰＵ（中央処理
装置）、主記憶装置および各種入出力デバイスとＣＰＵ
とを接続する入出力Ｃｈ（チャネル）を含む処理部３０
２、ＣＲＴ（陰極線管）などからなる表示装置３０３お
よびキーボード３０４を含んで構成される。

【００２６】図１を参照して、この全文検索装置の処理
システムは検索要求入力部１、重要語抽出部２、テキス
ト蓄積部３、複数文字列検索部４、インデックスバッフ
ァ５、重み修正部６、レコード評価表示部７およびレコ
ードバッファ８を含み、各部はバスを介して相互にデー
タ転送を図る。検索要求入力部１、重要語抽出部２、複
数文字列検索部４、重み修正部６およびレコード評価表
示部７における各処理は、予めプログラムにして図２の
主記憶装置に格納される。テキスト蓄積部３は、図２の
補助記憶装置３０１を利用して構成され、インデックス
バッファ５およびレコードバッファ８は主記憶装置を利
用して構成される。

【００２７】なお、テキスト蓄積部３には、該装置にお
いて検索対象となり得るテキストを格納したファイルが
予め複数記憶される。

【００２８】検索要求入力部１は検索対象となるテキス
トを格納したファイルの名称を入力するとともに、該テ
キストにおいて検索単位となるレコードを識別するため
に用いられるレコード識別符号（以降、レコードデリミ
タと呼ぶ）および検索要求を入力する。これらの入力
は、検索者が図２のキーボード３０４を介して行なう。
検索者は検索要求を次の３種類の方法で入力することが
できる。

【００２９】文字列（文章）で表現されたテキスト
をキーボード３０４を介してキー入力する。

【００３０】検索要求となるテキストを格納したフ
ァイルを予め補助記憶装置３０１に記憶させておき、検
索要求入力時キーボード３０４を介して該ファイルの名
称を入力する。

【００３１】前回の検索処理の結果得られたレコー
ドの候補に番号を付け、所望レコードの番号をキーボー
ド３０４を介して入力する。

【００３２】レコードデリミタの入力もまたキーボード
３０４から行なわれる。たとえば、テキスト中でレコー
ドとレコードとの間が連続する改行で区切られているな
らば、利用者はキーボード３０４から改行を指示するキ
ーを連続して２回押下すれば、検索要求入力部１に対し
てレコードデリミタを与えることができる。

【００３３】重要語抽出部２は、入力部１で入力された
検索要求を、たとえば補助記憶装置３０１に格納される
辞書データなどを用いて形態素解析する。これにより、
検索処理において重要となる品詞を有した語幹を該検索
要求から抽出する。検索において重要となる品詞を有し
た語幹とは、たとえば、名詞であるもの、動詞が名詞化
したもの、英字および数字を含む記号列であるもの、前
述の辞書データに未登録のもの（たとえば、人名、会社
名、地名などの固有名詞）である。

【００３４】この抽出されたすべての語幹を用いてフル
テキストスキャンすると、検索項目が多すぎて関係のな
いレコードが抽出される（雑音が多くなる）可能性が大
きいので、この抽出された語幹をさらに絞込む。そのた
めに、まず検索要求から抽出された各語幹について検索
要求中における使用頻度を算出し、この算出値に基づい
て検索処理において重要となる品詞を有した語幹（以
下、重要語と呼ぶ）を次式（１）を用いて絞込む。

【００３５】検索要求における重要語Ｑｊの使用頻度：
ＴＱｊ検索要求において使用頻度Ｎである重要語Ｑｊの数：Ｔ
Ｗ（Ｎ）ｍａｘ｛ＴＱｊ｝ ΣＴＷ（ｋ） ≧ ｎ＊Ｃ…（１）ｋ＝ｎ＋１仮に、式（１）が成立すれば、（使用頻度ＴＱｊ≦ｎ）
である重要語Ｑｊは検索処理に用いる重要語からは削除
する。詳細に説明するならば、たとえば、定数Ｃの値を
５とすると、検索要求から重要と考えられ抽出された単
語Ｑｊのうち頻度ＴＱｊ≧２の単語Ｑｊが該検索要求に
５個以上あるとき、ＴＱｊ＝１である単語Ｑｊは検索語
からは削除される。また、頻度ＴＱｊ≧３の単語Ｑｊが
該検索要求に１０個以上あるとき、頻度ＴＱｊ≦２の単
語Ｑｊは検索語からは削除される。このように検索要求
を形態素解析し抽出された単語Ｑｊが多いときは、式
（１）を用いればその頻度ＴＱｊが低い単語Ｑｊほど検
索語から削除される可能性が高くなる。

【００３６】次に、次式（２）を用いて、式（１）を用
いて抽出された検索重要語Ｑｊの頻度ＴＱｊを正規化
し、該単語Ｑｊの重みＩＱｊとする。

【００３７】ＩＱｊ＝（ＴＱｊ／ｍａｘ｛ＴＱｊ｝）＊１０…（２）複数文字列検索部４は、前述の検索要求入力部１を介し
て検索者がキーボード３０４を操作して指定したファイ
ル名に基づいてテキスト蓄積部３において該当ファイル
を特定する。そして特定されたファイルに格納されるテ
キストをその内部バッファ（図２の主記憶装置）に読込
む。その後、読み込まれたテキストから前述の入力部１
において入力されたレコードデリミタを検出し、該テキ
ストにおいて検索単位となるレコードを識別する。その
後、識別された各レコードについて、抽出部２で抽出さ
れた各検索重要語Ｑｊの使用頻度ＲＱｊをカウントし、
その結果をインデックスバッファ５に記録する。ただ
し、頻度ＲＱｊが予め設定された最大値ＭＡＸＶ１を超
えるときは、頻度ＲＱｊをＭＡＸＶ１と設定する。たと
えば、最大値ＭＡＸＶ１＝１５である。このように最大
値ＭＡＸＶ１を設けて、これを頻度ＲＱｊの上限値とす
ることは、ある重要語Ｑｊのあるレコードにおける使用
頻度ＲＱｊが極端に高いために、該重要語Ｑｊのみが全
文検索処理に極めて大きな影響を与えるのを未然に防止
するためである。

【００３８】複数文字列検索部４は、テキスト検索用の
ＬＳＩ（大規模集積回路）としても、またソフトウェア
としても既に提供されている。テキスト検索ＬＳＩで
は、たとえば約２０メガバイト／秒（補助記憶装置３０
１とのデータ入出力動作を除く）の処理速度で１０数語
以上からなる複数の文字列を同時に検索できる。また、
ソフトウェアでは、たとえば２８．５ＭＩＰＳのワーク
ステーション上で約１．５メガバイト／秒（補助記憶装
置３０１とのデータ入出力動作を含む）の処理速度で１
０数語以上からなる複数の文字列を同時に検索できる。

【００３９】重み修正部６は、重要語抽出部２で算出さ
れた各重要語Ｑｊの重みＩＱｊを、各重要語の検索対象
テキスト中での使用率の逆数をもとに、次式（３）を用
いて再設定する。使用率は該テキスト中の全単語数に対
する各重要語の使用数の比を表す。

【００４０】ｄＱｊ：検索対象テキスト中における重要
語Ｑｊを含むレコード数Ｍ：検索対象テキスト中の全レコード数（ＩＱｊ＝ＩＱｊ＊（ｌｏｇ（Ｍ／ｄＱｊ））²）ＩＱｊ＝（ＴＱｊ／ｍａｘ｛ＴＱｊ｝＊１０＊（ｌｏｇ
（Ｍ／ｄＱｊ）） ²）…（３）式（３）を用いた算出結果、重みＩＱｊが、予め設定さ
れた重みにおける最大値ＭＡＸＶ２を超えるときは、重
みＩＱｊに値ＭＡＸＶ２を設定する。たとえば、値ＭＡ
ＸＶ２＝３０である。また、重みＩＱｊは正の整数値を
とるものとし、式（３）により算出されて（重みＩＱｊ
≦１）となるときは、重みＩＱｊに値１を設定する。こ
の式（３）を適用することにより、重要語Ｑｊのうち検
索対象テキスト中で使用率が大きいものほどその重みＩ
Ｑｊは小さくなるように修正されるので、あるレコード
に偏って使用されている（使用率が小さい）ほどその重
みＩＱｊは大きくなるように修正されることを示してい
る。したがって、式（３）により検索対象テキスト中で
まんべんに使用されている重要語Ｑｊについては、所望
のレコードを検索するのに用いる検索語としては有効で
ないとみなされ、その重みＩＱｊが小さくなるよう修正
される。逆に、検索対象テキスト中のある特定レコード
に偏って使用されている重要語Ｑｊであるならば、偏っ
たレコードの中に所望されるレコードが存在する確率が
高くなるので、所望のレコードを特定するのに用いるの
に有効であると考えられ、その重みＩＱｊが大きくなる
よう設定されて、後述するレコード評価表示部７におけ
る各レコードの評価の精度を上げるようにしている。

【００４１】レコード評価表示部７は、重み修正部６に
おいて式（３）を用いて再設定された各重要語Ｑｊの重
みＩＱｊのベクトルと複数文字列検索部４で設定された
インデックスバッファ５中に記憶された各レコードにお
ける各重要語Ｑｊの使用頻度ＲＱｊのベクトルとの距離
を次式（４）を用いて算出し、この算出距離に基づいて
各レコードの得点を計算する。この場合、ベクトル間の
距離が小さいほど、すなわち各重要語Ｑｊが頻繁に使用
されるレコードほど検索者により所望されるレコードで
ある度合を示す得点が高くなる。そして、高得点順にイ
ンデックスバッファ５中のレコードをソートし、その結
果をレコードバッファ８に格納する。

【００４２】重要語Ｑｊの重み：ＩＱｊレコードｉにおける重要語Ｑｊの使用頻度：ＲＱｊレコードｉのサイズ：Ｌ（（ΣＩＱｊ＊ＲＱｊ）／Ｌ）＊１０００…（４）次に、レコード評価表示部７はレコードバッファ８に格
納された情報をもとに、検索者がキーボード３０４から
指定した個数のレコードだけ上位レコードから順に番号
を付して、読出し表示装置３０３に表示する。このとき
の表示内容としては、指定された個数のレコードのそれ
ぞれについて、前述の番号、得点（最高点をたとえば、
１００点にして正規化した場合の得点）、該レコードが
属するファイル名および該レコードの内容である。この
とき、レコードの内容が長い場合には、該レコードの先
頭から数行分の文字列を表示する。

【００４３】なお、前述した図１の検索要求入力部１〜
レコード評価表示部７のそれぞれを用いた検索処理の経
過は、その都度表示装置３０３を介して検索者に画面表
示される。

【００４４】図３は、本発明の一実施例による全文検索
装置の処理フロー図である。

【００４５】図４（ａ）および（ｂ）は、図１の検索要
求入力部１および重要語抽出部２の処理における画面表
示の一例を示す図である。

【００４６】図５（ａ）および（ｂ）は、図１の複数文
字列検索部４および重み修正部６の処理における画面表
示の一例を示す図である。

【００４７】図６は、図１のレコード評価表示部７の処
理における画面表示の一例を示す図である。

【００４８】図７は、図１の検索要求入力部１の処理に
おける画面表示のその他の例を示す図である。

【００４９】図８（ａ）および（ｂ）は、図１の重要語
抽出部２および複数文字列検索部４の処理における画面
表示のその他の例を示す図である。

【００５０】図９は、図１の重み修正部６の処理におけ
る画面表示のその他の例を示す図である。

【００５１】図１０は、図１のレコード評価表示部７の
処理における画面表示のその他の例を示す図である。

【００５２】図１１は、図１のインデックスバッファ５
の記憶内容の一例を示す図である。

【００５３】図１２は、図１のレコードバッファ８の記
憶内容の一例を示す図である。

【００５４】次に、図３の処理フローに従い図１ないし
図１２を参照しながら、本実施例の全文検索装置の新聞
記事を検索対象とした場合の検索動作について説明す
る。なお、この新聞記事は、テキスト蓄積部３（補助記
憶装置３０１）に予めストアされていると想定する。ま
た、図４〜図１０の表示画面中、下側に罫線が引かれた
文字列は、検索者がキーボード３０４を介して入力した
データを表示したものである。

【００５５】まず、検索者は新聞記事から所望の記事を
取出すために、図３のステップＳ１（図中Ｓ１と略す）
において、キーボード３０４を介してレコードデリミタ
を入力する。入力されたレコードデリミタは検索要求入
力部１に与えられる。ここでは、検索対象となる新聞記
事中の記事のそれぞれを１レコードとみなし、検索単位
をこの１レコードとする。各記事（レコード）の間には
予め「→」が挿入されており、検索者はこの記号の存在
を知って、キーボード３０４を介してレコードデリミタ
として「→」をキー入力する。また、レコードデリミタ
が２つある場合は、続いて２個目のレコードデリミタを
入力する。

【００５６】次のステップＳ２の処理において、検索要
求（テキスト）を入力させる。ここでは、利用者が検索
要求をキーボード３０４から直接文字列にして入力する
モードを指定するように「ｋｅｙ」とキー入力したの
で、検索要求入力部１は以降キーボード３０４から検索
要求を入力する。ここでは、検索者は検索要求として
「シャープのハイビジョンテレビ開発」とキー入力す
る。これら入力されたレコードデリミタおよび検索要求
は検索要求入力部１を介してその都度表示装置３０３の
画面に表示される（図４（ａ）参照）。

【００５７】次のステップＳ３の処理においては、重要
語抽出部２が入力された検索要求から検索にとって重要
となる９つの単語を抽出する。ここでは、抽出されたす
べての単語のそれぞれは、検索要求中における使用頻度
が“１”であるため、前述の式（１）および（２）を用
いて重みＩＱｊはすべて値１０と等しくなる。この重要
語抽出部２における処理結果もまた画面表示される（図
４（ｂ）参照）。

【００５８】次のステップＳ４の処理において、複数文
字列検索部４が抽出部２において抽出された各重要語Ｑ
ｊに基づいて検索対象テキストを検索する。新聞記事は
予めテキスト蓄積部３においてファイルにして格納され
ている。利用者は、予めこのファイルの名前を知ってい
るので、このファイル名（ｄａｔａｂａｓｅ）をキーボ
ード３０４からキー入力する。検索部４は入力されたフ
ァイル名に基づいて蓄積部３をアクセスし、指定された
ファイルを特定する。そして特定されたファイルに格納
されるテキストをバスを介して検索部４の内部バッファ
（主記憶装置）に読込む。そして、読込まれたテキスト
から前述のステップＳ１で入力されたレコードデリミタ
（→）を抽出して、該テキストを検索単位のレコードに
区分する。仮に、次のファイルを指定するのであれば、
検索者は次のファイル名を入力することも可能である。
ここでは、１つのファイル（ｄａｔａｂａｓｅ）を検索
対象としている。

【００５９】次に、検索部４はステップＳ３で抽出され
た各重要語Ｑｊ（図４（ｂ）参照）の検索対象テキスト
中の各レコードにおける使用頻度をカウントし、その結
果をインデックスバッファ５に書込んで記憶する。この
場合、得られたインデックスバッファ５の記憶内容が図
１１に示される。

【００６０】図１１において、該バッファ５には検索対
象テキストから抽出された検索単位となるレコードの情
報Ｒ１，Ｒ２，Ｒ３…が格納される。各レコード情報は
さらに項目３０１〜３０４の情報からなり、項目３０１
には該レコードの蓄積部３における先頭アドレスが、項
目３０２には該レコードの長さが、項目３０３にはステ
ップＳ３で抽出された９つの重要語Ｑｊのそれぞれに対
応して該レコードにおける使用頻度が、そして項目３０
４には該レコードが格納されるファイル名（この場合、
ｄａｔａｂａｓｅ）が格納される。

【００６１】検索者が指定したファイル（ｄａｔａｂａ
ｓｅ）は、たとえば新聞記事７００個（約１メガバイト
の容量）から構成されている。ここでは、９つの重要語
Ｑｊのいずれか少なくとも１つ以上を含むレコード（記
事）数は２７０個であり、処理部３０２のＣＰＵがこの
検索に要した時間は０．７６７秒（処理部３０２が２
８．５ＭＩＰＳの能力を有する場合）である。この検索
結果もまた画面表示される（図５（ａ）参照）。

【００６２】次のステップＳ５の処理では、重み修正部
６が各重要語Ｑｊの重みＩＱｊを式（３）をもとに再設
定する。ファイル（ｄａｔａｂａｓｅ）中の各レコード
について頻繁（まんべん）に使用される重要語Ｑｊ（テ
レビ、ＴＶ、シャープ、ＳＨＡＲＰ、開発）について
は、その重みＩＱｊは２，１と低くなるように修正され
る。逆に、使用率の低い重要語Ｑｊ（ビジョン、ＶＩＳ
ＩＯＮ、ハイ、ＨＩＧＨ）の重みＩＱｊは１６，６と高
くなるように修正される。

【００６３】次のステップＳ６の処理では、レコード評
価表示部７がステップＳ５で再設定された重要語Ｑｊの
重みＩＱｊのベクトル〔１６，６，２，１〕とインデッ
クスバッファ５中の各レコードの重要語Ｑｊの使用頻度
のベクトルとの距離（式（４）により算出）をもとに、
各レコードの得点を算出し、得点の高い順にレコードを
ソートしながらレコードバッファ８に書込んで記憶す
る。このときのレコードバッファ８の記憶内容の一例が
図１２に示される。

【００６４】図１２には高得点順にソートされたレコー
ドの情報ｒ１，ｒ２，ｒ３，…が格納される。さらに、
各レコードの情報は項目４０１〜４０４を含む。項目４
０１には該レコードの得点が、項目４０２には該レコー
ドのテキスト蓄積部３における先頭アドレスが、項目４
０３には該レコードの長さが、そして項目４０４には該
レコードが格納されるファイル名（ｄａｔａｂａｓｅ）
が格納される。

【００６５】検索者は、高得点順にソートされたレコー
ドのうち、先頭から所望個数のレコードを読出して表示
装置３０３に画面表示させることができる。詳細には、
検索者はキーボード３０４を介して、たとえばレコード
バッファ８に格納されたレコードのうち先頭から８レコ
ード分の出力を指定するので、８レコード分について
は、そのファイル名（ｄａｔａｂａｓｅ）、最高得点を
１００点にして正規化した得点、各レコードの先頭の１
行分の文字列が表示される（図６参照）。この表示画面
を見て、検索者はプリンタ（図示せず）出力または画面
出力用の出力ファイルを指定すると、レコードバッファ
８の情報をもとにして検索された任意個数のレコードの
情報をこの出力用ファイルに格納することができる。つ
まり、選択された８レコード分の表示内容を見ると、検
索要求“シャープのハイビジョンテレビ開発”を満たす
可能性の極めて高い記事が今回の検索処理により得られ
ていることがわかる。検索者は表示画面を見て第１番
目、第５番目および第８番目のレコードの内容（記事）
は所望する記事に最も近いものであろうと判別し、これ
ら３レコードの内容（記事）を出力用ファイルに呼出し
てプリンタ出力または画面出力すれば、これらの各レコ
ードの内容が検索者が所望する記事かどうかをその場で
判別することができる。

【００６６】次のステップＳ７の処理では、一連の検索
処理が終了したか否かがたとえば、キーボード３０４か
らの検索終了を指示する旨のキー入力に基づいて判別さ
れる。検索終了と判別されれば、一連の検索処理は終了
するが、終了でなければステップＳ１の処理に戻る。つ
まり、検索者がステップＳ６における検索結果表示画面
を見て検索精度をさらに高めようと望んだ場合、検索者
はステップＳ６で表示された高得点レコードの内容（文
字列）を検索要求として再検索を図り検索精度を上げよ
うとする場合、再度ステップＳ１の処理に戻る。

【００６７】再度ステップＳ１およびステップＳ２の処
理に戻る。ここでは、前述と同様にレコードデリミタ
「→」とともに前回の検索結果を利用して８番目のレコ
ード（図６参照）の番号（＝８）を検索要求としてキー
入力する（図７参照）。

【００６８】次のステップＳ３の処理では、８番目のレ
コード中のテキストを前述と同様に形態素解析し、式
（１）に基づいて重要語Ｑｊを抽出し、抽出された各重
要語Ｑｊについて式（２）を適用し重みＩＱｊを求める
（図８（ａ）参照）。

【００６９】次のステップＳ４の処理では、検索対象テ
キスト（ファイルｄａｔａｂａｓｅに格納されたテキス
ト）の検索を行なう。その結果もまた画面表示される
（図８（ｂ）参照）。次のステップＳ５の処理では、式
（３）を用いて重みＩＱｊの修正が行なわれそのベクト
ル量が求められる（図９参照）。

【００７０】次のステップ６では、再検索して得られた
レコードが表示される（図１０参照）。

【００７１】図１０において○印のついた番号のレコー
ド、すなわち６個のレコードはその内容が相互に関連し
ていることがわかる。このように、前回の検索結果をフ
ィードバックして再検索することによって検索精度が上
がったことがわかる（図６の３レコードから図１０の６
レコードに増加）。したがって、検索者は検索要求を検
索精度を上げるように細心の注意を払って入力する必要
はなくなり、その検索要求の指定は簡単にできる。しか
も検索要求とレコードデリミタを入力するだけで、以降
該装置において自動的に検索において重要となる単語が
抽出され、その重み（検索における重要性）が適切に設
定されるので、検索者の検索要求に内容的に深く関連し
たテキスト情報が簡単にしかも常に精度よく得られる。

【００７２】

【発明の効果】以上のようにこの発明によれば、検索者
は入力手段を介して検索要求テキストを入力するだけ
で、以降重要語抽出手段および重み修正手段が検索要求
テキストから検索する際に重要となる語を抽出するとと
もに、その重みを適正となるように設定するので、頻度
計数手段およびレコード評価手段による検索対象テキス
トにおける各レコードについて所望されるレコードであ
ることを示す度合の算出精度が向上する。したがって、
検索者の検索要求テキストに内容的に関連したレコード
が検索対象テキストから簡単に、しかも精度よく検索さ
れるという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例による全文検索装置の処理シ
ステムの構成図である。

【図２】本発明の一実施例による全文検索装置の電気的
ブロック構成図である。

【図３】本発明の一実施例による全文検索装置の処理フ
ロー図である。

【図４】（ａ）および（ｂ）は、図１の検索要求入力部
および重要語抽出部の処理における画面表示の一例を示
す図である。

【図５】（ａ）および（ｂ）は、図１の複数文字列検索
部および重み修正部の処理における画面表示の一例を示
す図である。

【図６】図１のレコード評価表示部の処理における画面
表示の一例を示す図である。

【図７】図１の検索要求入力部の処理における画面表示
のその他の例を示す図である。

【図８】（ａ）および（ｂ）は、図１の重要語抽出部お
よび複数文字列検索部の処理における画面表示のその他
の例を示す図である。

【図９】図１の重み修正部の処理における画面表示のそ
の他の例を示す図である。

【図１０】図１のレコード評価表示部の処理における画
面表示のその他の例を示す図である。

【図１１】図１のインデックスバッファの記憶内容の一
例を示す図である。

【図１２】図１のレコードバッファの記憶内容の一例を
示す図である。

【符号の説明】

１検索要求入力部２重要語抽出部３テキスト蓄積部４複数文字列検索部５インデックスバッファ６重み修正部７レコード評価表示部８レコードバッファなお、各図中、同一符号は同一または相当部分を示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者乾隆夫大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内

Claims

【特許請求の範囲】

【請求項１】少なくとも１つ以上の文字列を含み、か
つ複数のレコードからなるテキストを対象にして検索処
理する文章検索装置において、前記複数レコードから所望レコードの検索を要求するた
めの文字列からなるテキストを入力するための入力手段
と、前記入力手段から入力された検索要求テキストから前記
検索処理において重要となる少なくとも１つ以上の単語
を抽出し、抽出された各重要語の該検索要求テキストに
おける使用頻度に基づいてその重みを設定する重要語抽
出手段と、前記検索対象テキスト中の各レコードにおける前記各重
要語の使用頻度を計数する頻度計数手段と、前記重要語抽出手段により設定された各重要語の重み
を、各重要語の前記検索対象テキスト中での使用率の逆
数に基づいて修正する重み修正手段と、前記重み修正手段により修正された各重要語の重みのベ
クトルと前記頻度計数手段により計数された前記各レコ
ードにおける各重要語の使用頻度のベクトルとの距離に
基づいて前記各レコードが前記所望レコードである度合
を評価するレコード評価手段と、前記レコード評価手段により評価された前記各レコード
の前記度合に基づいて、前記各レコードから前記所望レ
コードの候補となるレコードを抽出して出力する出力手
段とを備えた、文章検索装置。
【請求項２】前記検索要求テキストは、前記出力手段
により前回に出力された前記候補レコードの内容を含
む、請求項１に記載の文章検索装置。