JPH064584A - 文章検索装置 - Google Patents

文章検索装置

Info

Publication number
JPH064584A
JPH064584A JP4166259A JP16625992A JPH064584A JP H064584 A JPH064584 A JP H064584A JP 4166259 A JP4166259 A JP 4166259A JP 16625992 A JP16625992 A JP 16625992A JP H064584 A JPH064584 A JP H064584A
Authority
JP
Japan
Prior art keywords
record
text
search
important word
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4166259A
Other languages
English (en)
Inventor
Ikuo Karashi
育雄 芥子
Hiroyuki Kanza
浩幸 勘座
Naotoshi Maruyama
直利 丸山
Takao Inui
隆夫 乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4166259A priority Critical patent/JPH064584A/ja
Publication of JPH064584A publication Critical patent/JPH064584A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 この発明の目的は、検索者の装置利用時の負
担を軽減し、検索精度を向上させることのできる文章検
索装置を提供することである。 【構成】 この検索装置は検索要求入力部1、重要語抽
出部2、複数文字列検索部4、重み修正部6、レコード
評価表示部7を含む。検索者が入力部1を介して検索要
求テキストを入力すると、抽出部2および修正部6は該
テキストから検索重要語を抽出するとともに、各重要語
の重みを検索対象テキストにおいてまんべんに使用され
るものは低く、偏って使用されるものについては高くな
るように設定する。次に、検索部4および表示部7は検
索対象テキスト中の各レコードにおける各重要語の使用
頻度のベクトルと各重要語の重みのベクトルとの距離
(類似度)に基づいて検索対象テキストから高類似度の
レコードを抽出するので、検索要求に内容的に関連した
レコードが簡単かつ精度よく得られる。

Description

【発明の詳細な説明】
【0001】この発明は文章検索装置に関し、特に、索
引付などの前処理をせずに、検索ごとに検索対象となる
文章すべてを検索する文章検索装置に関する。
【0002】
【従来の技術】従来より、複数個の文章を含むテキスト
を検索対象とするような全文検索装置がある。この装置
は、検索対象であるテキストについて検索を容易ならし
めるような索引付を含む前処理を必要としないで、検索
のたびにテキスト中のすべての文字を読む(以下、フル
テキストスキャンと呼ぶ)方式を採用していた。
【0003】上述の索引付をしないフルテキストスキャ
ン方式に基づく全文検索装置としては次のようなものが
ある。
【0004】(1) 検索者が入力する複数のキーワー
ド(単語)と、それらに関する論理演算式に基づいてフ
ルテキストスキャンし、該当(検索者が所望する)部分
の文章を該テキストから検索して出力する全文検索装
置。
【0005】(2) 検索者が入力したキーワード(単
語など)に基づいてフルテキストスキャンし、該キーワ
ードの使用頻度が高い文章を該テキストから検索して出
力する全文検索装置。
【0006】(3) 検索者が検索のために入力する文
字列(以下、検索要求と呼ぶ)から複数のキーワード
(単語)を抽出し、抽出されたキーワードについて上述
の(1)または(2)の方式でフルテキストスキャン
し、検索者が所望する文章を該テキストから特定して出
力する全文検索装置。
【0007】また、予め検索対象となるテキストについ
て索引付を行なう全文検索装置もある。この装置では検
索に先立ってベクトル空間を利用したテキストについて
の索引付が行なわれる。詳細には、検索者は検索対象で
あるテキストから検索に際して重要と思われるT個の用
語を予め選択し、次にこのテキストを構成する各レコー
ド(少なくとも1つ以上の文字列からなる)を、このT
個の用語の該テキスト中の統計情報(使用頻度)をもと
に決定した重みを利用してT次元のベクトル空間に配置
しておく。その後、検索要求が入力されると、該要求に
ついてもT個の用語について同様にT次元のベクトル空
間に配置して、検索要求のベクトルと予め求めれた各レ
コードのベクトルとの間で距離(類似度)を算出する。
そして算出距離を用いて各レコードのランク付を行な
い、上位にランクされたレコードほど所望レコードであ
る可能性が高いという手法が検索精度に関して効果があ
ると知られている。
【0008】
【発明が解決しようとする課題】従来のフルテキストス
キャン方式に基づく全文検索装置の、特に前述の
(1)、または(3)における(1)を採用した方式の
複数のキーワードと、それらに関する論理演算式に基づ
くフルテキストスキャン方式では、たとえば検索者が入
力した全キーワードのAND演算が成立する文章をテキ
ストから特定し抽出するような検索方式では、かなり検
索漏が多くなり、所望の文章が該テキストから検索され
ないこともある。逆に、検索者が入力した全キーワード
のOR演算が成立する文章のみを該テキストから抽出す
る検索方式では、かなり検索条件が緩やかなので、関連
のない文章も多く抽出されてしまい、検索の精度は低く
なる。そこで、検索漏を抑制し、かつ検索精度を上げる
ような論理演算式を入力すれば、上述の検索漏や関連の
ない文章が多く抽出されることは防止される。しかしな
がら、このような条件を満足するような論理演算式を立
てることは、検索者にとってかなりの負担となり実用的
でないという問題があった。
【0009】また、前述の(2)、または(3)におけ
る(2)を採用した方式のフルテキストスキャン方式で
は、検索者は、複数キーワード間の論理演算式を立てる
必要はないので、上述した検索者の負担は軽減される。
そして、この方式では、入力したすべてのキーワードの
使用頻度に基づけば検索結果にランク付をすることもで
きるが、検索時における各キーワードの重要度を考慮し
たものではないので、精度の高い検索結果を得ることは
できないという問題もあった。
【0010】また、前述した索引付を用いたフルテキス
トスキャン方式に基づく全文検索装置、すなわちベクト
ル空間モデルに基づく全文検索装置では、精度の高い検
索結果のランキングができるという利点がある。しかし
ながら、索引付のためのメモリオーバーヘッド(索引付
のためのメモリ領域が全メモリ領域に占める割合)が5
0〜300%と極めて大きいことに加えて、索引付のた
めの用語(T個の用語)が固定されているため、検索対
象となるテキストの内容がダイナミックに変化する使用
環境においては精度の高い検索結果を維持することはで
きないという問題があった。また、索引付のためのT個
の用語の選定は、該テキストにおける用語の使用頻度に
よる統計情報に基づいて行なわれるために、検索にあた
って重要な用語でも該テキストにおける使用頻度が低け
れば索引付のための用語とは選定されないので、その場
合は検索精度を下げるという問題もあった。
【0011】それゆえにこの発明の目的は、少なくとも
1つ以上の文字列からなる複数のレコードを含むテキス
トを対象にして検索処理する文章検索装置において、検
索者の該装置利用時の負担を軽減し、高い検索精度を維
持することのできる文章検索装置を提供することであ
る。
【0012】
【課題を解決するための手段】この発明にかかる文章検
索装置は、少なくとも1つ以上の文字列を含み、かつ複
数個のレコードを含むテキストを対象にして検索処理す
る装置であり、入力手段と、重要語抽出手段と、頻度計
数手段と、重み修正手段と、レコード評価手段と、およ
び出力手段とを備えて構成される。
【0013】前述の入力手段は、前述の複数レコードか
ら所望レコードの検索を要求するための文字列からなる
テキストを入力するように構成される。
【0014】前述の重要語抽出手段は、前述の入力手段
から入力された検索要求テキストから検索処理において
重要となる少なくとも1つ以上の単語を抽出し、抽出さ
れた各重要語のこの検索要求テキストにおける使用頻度
に基づいてその重みを設定するように構成される。
【0015】前述の頻度計数手段は、前述の対象テキス
ト中の各レコードにおける各重要語の使用頻度を説明す
るための図計数するように構成される。
【0016】前述の重み修正手段は、前述の重要語抽出
手段により設定された各重要語の重みを検索対象テキス
ト中での各重要語の使用率の逆数に基づいて修正するよ
うに構成される。
【0017】前述のレコード評価手段は、重み修正手段
により修正された各重要語の重みのベクトルと頻度計数
手段により計数された各レコードにおける各重要語の頻
度のベクトルとの距離に基づいて各レコードが所望レコ
ードである度合を評価するように構成される。
【0018】前述の出力手段は、レコード評価手段によ
り評価された各レコードの度合に基づいて、各レコード
から所望されるレコードの候補を出力するように構成さ
れる。
【0019】また、上述のように構成される文章検索装
置において、前述の入力手段から入力される検索要求テ
キストは、出力手段により前回出力された候補レコード
の内容を含んでもよい。
【0020】
【作用】この発明にかかる文章検索装置は上述のように
構成されるので、検索者が、入力手段を介して検索要求
テキストを入力すると、重要語抽出手段および重み修正
手段を介して検索処理に必要とされる重要語が特定さ
れ、さらに特定された各重要語について検索処理におけ
る重みが適正な値に設定される。つまり、重み修正手段
において検索対象テキストにおける使用率の逆数に基づ
いて各重要語の重みが再設定されるので、ある重要語が
検索対象テキスト中でまんべんに使用されていれば、検
索に際してこの重要語の重みは小さいと設定され、逆に
該重要語が検索対象テキスト中で偏って使用されていれ
ば検索に際して有用でありその重みは大きくなるように
設定される。このように適正な重みを有した重要語を用
いてレコード評価手段および頻度計数手段は、検索対象
テキスト中の各レコードについて検索要求テキストによ
り検索者が所望するレコードである度合を求め、出力手
段は検索対象テキスト中の複数レコードから検索者が所
望するレコードの候補を出力するので、検索者が入力す
る検索要求に内容的に関連する度合の高いレコードを検
索者に負担をかけず、しかも精度よく検索して出力する
ことができる。
【0021】
【実施例】以下、この発明の一実施例について図面を参
照して説明する。
【0022】なお、本実施例では全文を検索対象として
おり、検索単位としてレコードを想定する。レコードは
少なくとも1つ以上の文字列からなる。さらに、少なく
とも1つ以上のレコードを含んでテキストが構成され、
テキストはファイルに格納されると想定する。したがっ
て、検索対象となる文章はファイルに格納される。
【0023】本実施例の全文検索装置は、検索対象とな
るテキストを格納したファイルを少なくとも1つ以上備
えている。そして、検索対象ファイルの名称を利用者が
指定することにより、該ファイルに格納されるテキスト
が検索対象テキストとなる。検索者はこのファイル名入
力時に、検索要求も入力する。入力された検索要求中の
文字列から検索処理に際しての重要語を抽出し、各重要
語について検索要求における使用頻度および検索対象テ
キストにおける使用率の逆数に基づいてその重みを適正
に設定する。そして各重要語の検索対象テキストの各レ
コードにおける使用頻度のベクトルと各重要語の重みの
ベクトルとの距離(類似度)に基づいて各レコードにつ
いて検索者が検索要求テキストを介して所望したレコー
ドである度合をランク付し、出力することにより検索者
が所望のレコードを容易に特定しやすいよう処理したも
のである。
【0024】図1は、本発明の一実施例による全文検索
装置の処理システムの構成図である。
【0025】図2は、本発明の一実施例による全文検索
装置の電気的ブロック構成図である。図2を参照して、
全文検索装置は補助記憶装置301、CPU(中央処理
装置)、主記憶装置および各種入出力デバイスとCPU
とを接続する入出力Ch(チャネル)を含む処理部30
2、CRT(陰極線管)などからなる表示装置303お
よびキーボード304を含んで構成される。
【0026】図1を参照して、この全文検索装置の処理
システムは検索要求入力部1、重要語抽出部2、テキス
ト蓄積部3、複数文字列検索部4、インデックスバッフ
ァ5、重み修正部6、レコード評価表示部7およびレコ
ードバッファ8を含み、各部はバスを介して相互にデー
タ転送を図る。検索要求入力部1、重要語抽出部2、複
数文字列検索部4、重み修正部6およびレコード評価表
示部7における各処理は、予めプログラムにして図2の
主記憶装置に格納される。テキスト蓄積部3は、図2の
補助記憶装置301を利用して構成され、インデックス
バッファ5およびレコードバッファ8は主記憶装置を利
用して構成される。
【0027】なお、テキスト蓄積部3には、該装置にお
いて検索対象となり得るテキストを格納したファイルが
予め複数記憶される。
【0028】検索要求入力部1は検索対象となるテキス
トを格納したファイルの名称を入力するとともに、該テ
キストにおいて検索単位となるレコードを識別するため
に用いられるレコード識別符号(以降、レコードデリミ
タと呼ぶ)および検索要求を入力する。これらの入力
は、検索者が図2のキーボード304を介して行なう。
検索者は検索要求を次の3種類の方法で入力することが
できる。
【0029】 文字列(文章)で表現されたテキスト
をキーボード304を介してキー入力する。
【0030】 検索要求となるテキストを格納したフ
ァイルを予め補助記憶装置301に記憶させておき、検
索要求入力時キーボード304を介して該ファイルの名
称を入力する。
【0031】 前回の検索処理の結果得られたレコー
ドの候補に番号を付け、所望レコードの番号をキーボー
ド304を介して入力する。
【0032】レコードデリミタの入力もまたキーボード
304から行なわれる。たとえば、テキスト中でレコー
ドとレコードとの間が連続する改行で区切られているな
らば、利用者はキーボード304から改行を指示するキ
ーを連続して2回押下すれば、検索要求入力部1に対し
てレコードデリミタを与えることができる。
【0033】重要語抽出部2は、入力部1で入力された
検索要求を、たとえば補助記憶装置301に格納される
辞書データなどを用いて形態素解析する。これにより、
検索処理において重要となる品詞を有した語幹を該検索
要求から抽出する。検索において重要となる品詞を有し
た語幹とは、たとえば、名詞であるもの、動詞が名詞化
したもの、英字および数字を含む記号列であるもの、前
述の辞書データに未登録のもの(たとえば、人名、会社
名、地名などの固有名詞)である。
【0034】この抽出されたすべての語幹を用いてフル
テキストスキャンすると、検索項目が多すぎて関係のな
いレコードが抽出される(雑音が多くなる)可能性が大
きいので、この抽出された語幹をさらに絞込む。そのた
めに、まず検索要求から抽出された各語幹について検索
要求中における使用頻度を算出し、この算出値に基づい
て検索処理において重要となる品詞を有した語幹(以
下、重要語と呼ぶ)を次式(1)を用いて絞込む。
【0035】検索要求における重要語Qjの使用頻度:
TQj 検索要求において使用頻度Nである重要語Qjの数:T
W(N) max{TQj} ΣTW(k) ≧ n*C…(1) k=n+1 仮に、式(1)が成立すれば、(使用頻度TQj≦n)
である重要語Qjは検索処理に用いる重要語からは削除
する。詳細に説明するならば、たとえば、定数Cの値を
5とすると、検索要求から重要と考えられ抽出された単
語Qjのうち頻度TQj≧2の単語Qjが該検索要求に
5個以上あるとき、TQj=1である単語Qjは検索語
からは削除される。また、頻度TQj≧3の単語Qjが
該検索要求に10個以上あるとき、頻度TQj≦2の単
語Qjは検索語からは削除される。このように検索要求
を形態素解析し抽出された単語Qjが多いときは、式
(1)を用いればその頻度TQjが低い単語Qjほど検
索語から削除される可能性が高くなる。
【0036】次に、次式(2)を用いて、式(1)を用
いて抽出された検索重要語Qjの頻度TQjを正規化
し、該単語Qjの重みIQjとする。
【0037】 IQj=(TQj/max{TQj})*10…(2) 複数文字列検索部4は、前述の検索要求入力部1を介し
て検索者がキーボード304を操作して指定したファイ
ル名に基づいてテキスト蓄積部3において該当ファイル
を特定する。そして特定されたファイルに格納されるテ
キストをその内部バッファ(図2の主記憶装置)に読込
む。その後、読み込まれたテキストから前述の入力部1
において入力されたレコードデリミタを検出し、該テキ
ストにおいて検索単位となるレコードを識別する。その
後、識別された各レコードについて、抽出部2で抽出さ
れた各検索重要語Qjの使用頻度RQjをカウントし、
その結果をインデックスバッファ5に記録する。ただ
し、頻度RQjが予め設定された最大値MAXV1を超
えるときは、頻度RQjをMAXV1と設定する。たと
えば、最大値MAXV1=15である。このように最大
値MAXV1を設けて、これを頻度RQjの上限値とす
ることは、ある重要語Qjのあるレコードにおける使用
頻度RQjが極端に高いために、該重要語Qjのみが全
文検索処理に極めて大きな影響を与えるのを未然に防止
するためである。
【0038】複数文字列検索部4は、テキスト検索用の
LSI(大規模集積回路)としても、またソフトウェア
としても既に提供されている。テキスト検索LSIで
は、たとえば約20メガバイト/秒(補助記憶装置30
1とのデータ入出力動作を除く)の処理速度で10数語
以上からなる複数の文字列を同時に検索できる。また、
ソフトウェアでは、たとえば28.5MIPSのワーク
ステーション上で約1.5メガバイト/秒(補助記憶装
置301とのデータ入出力動作を含む)の処理速度で1
0数語以上からなる複数の文字列を同時に検索できる。
【0039】重み修正部6は、重要語抽出部2で算出さ
れた各重要語Qjの重みIQjを、各重要語の検索対象
テキスト中での使用率の逆数をもとに、次式(3)を用
いて再設定する。使用率は該テキスト中の全単語数に対
する各重要語の使用数の比を表す。
【0040】dQj:検索対象テキスト中における重要
語Qjを含むレコード数 M:検索対象テキスト中の全レコード数 (IQj=IQj*(log(M/dQj))2 ) IQj=(TQj/max{TQj}*10*(log
(M/dQj)) 2 )…(3) 式(3)を用いた算出結果、重みIQjが、予め設定さ
れた重みにおける最大値MAXV2を超えるときは、重
みIQjに値MAXV2を設定する。たとえば、値MA
XV2=30である。また、重みIQjは正の整数値を
とるものとし、式(3)により算出されて(重みIQj
≦1)となるときは、重みIQjに値1を設定する。こ
の式(3)を適用することにより、重要語Qjのうち検
索対象テキスト中で使用率が大きいものほどその重みI
Qjは小さくなるように修正されるので、あるレコード
に偏って使用されている(使用率が小さい)ほどその重
みIQjは大きくなるように修正されることを示してい
る。したがって、式(3)により検索対象テキスト中で
まんべんに使用されている重要語Qjについては、所望
のレコードを検索するのに用いる検索語としては有効で
ないとみなされ、その重みIQjが小さくなるよう修正
される。逆に、検索対象テキスト中のある特定レコード
に偏って使用されている重要語Qjであるならば、偏っ
たレコードの中に所望されるレコードが存在する確率が
高くなるので、所望のレコードを特定するのに用いるの
に有効であると考えられ、その重みIQjが大きくなる
よう設定されて、後述するレコード評価表示部7におけ
る各レコードの評価の精度を上げるようにしている。
【0041】レコード評価表示部7は、重み修正部6に
おいて式(3)を用いて再設定された各重要語Qjの重
みIQjのベクトルと複数文字列検索部4で設定された
インデックスバッファ5中に記憶された各レコードにお
ける各重要語Qjの使用頻度RQjのベクトルとの距離
を次式(4)を用いて算出し、この算出距離に基づいて
各レコードの得点を計算する。この場合、ベクトル間の
距離が小さいほど、すなわち各重要語Qjが頻繁に使用
されるレコードほど検索者により所望されるレコードで
ある度合を示す得点が高くなる。そして、高得点順にイ
ンデックスバッファ5中のレコードをソートし、その結
果をレコードバッファ8に格納する。
【0042】重要語Qjの重み:IQj レコードiにおける重要語Qjの使用頻度:RQj レコードiのサイズ:L ((ΣIQj*RQj)/L)*1000…(4) 次に、レコード評価表示部7はレコードバッファ8に格
納された情報をもとに、検索者がキーボード304から
指定した個数のレコードだけ上位レコードから順に番号
を付して、読出し表示装置303に表示する。このとき
の表示内容としては、指定された個数のレコードのそれ
ぞれについて、前述の番号、得点(最高点をたとえば、
100点にして正規化した場合の得点)、該レコードが
属するファイル名および該レコードの内容である。この
とき、レコードの内容が長い場合には、該レコードの先
頭から数行分の文字列を表示する。
【0043】なお、前述した図1の検索要求入力部1〜
レコード評価表示部7のそれぞれを用いた検索処理の経
過は、その都度表示装置303を介して検索者に画面表
示される。
【0044】図3は、本発明の一実施例による全文検索
装置の処理フロー図である。
【0045】図4(a)および(b)は、図1の検索要
求入力部1および重要語抽出部2の処理における画面表
示の一例を示す図である。
【0046】図5(a)および(b)は、図1の複数文
字列検索部4および重み修正部6の処理における画面表
示の一例を示す図である。
【0047】図6は、図1のレコード評価表示部7の処
理における画面表示の一例を示す図である。
【0048】図7は、図1の検索要求入力部1の処理に
おける画面表示のその他の例を示す図である。
【0049】図8(a)および(b)は、図1の重要語
抽出部2および複数文字列検索部4の処理における画面
表示のその他の例を示す図である。
【0050】図9は、図1の重み修正部6の処理におけ
る画面表示のその他の例を示す図である。
【0051】図10は、図1のレコード評価表示部7の
処理における画面表示のその他の例を示す図である。
【0052】図11は、図1のインデックスバッファ5
の記憶内容の一例を示す図である。
【0053】図12は、図1のレコードバッファ8の記
憶内容の一例を示す図である。
【0054】次に、図3の処理フローに従い図1ないし
図12を参照しながら、本実施例の全文検索装置の新聞
記事を検索対象とした場合の検索動作について説明す
る。なお、この新聞記事は、テキスト蓄積部3(補助記
憶装置301)に予めストアされていると想定する。ま
た、図4〜図10の表示画面中、下側に罫線が引かれた
文字列は、検索者がキーボード304を介して入力した
データを表示したものである。
【0055】まず、検索者は新聞記事から所望の記事を
取出すために、図3のステップS1(図中S1と略す)
において、キーボード304を介してレコードデリミタ
を入力する。入力されたレコードデリミタは検索要求入
力部1に与えられる。ここでは、検索対象となる新聞記
事中の記事のそれぞれを1レコードとみなし、検索単位
をこの1レコードとする。各記事(レコード)の間には
予め「→」が挿入されており、検索者はこの記号の存在
を知って、キーボード304を介してレコードデリミタ
として「→」をキー入力する。また、レコードデリミタ
が2つある場合は、続いて2個目のレコードデリミタを
入力する。
【0056】次のステップS2の処理において、検索要
求(テキスト)を入力させる。ここでは、利用者が検索
要求をキーボード304から直接文字列にして入力する
モードを指定するように「key」とキー入力したの
で、検索要求入力部1は以降キーボード304から検索
要求を入力する。ここでは、検索者は検索要求として
「シャープのハイビジョンテレビ開発」とキー入力す
る。これら入力されたレコードデリミタおよび検索要求
は検索要求入力部1を介してその都度表示装置303の
画面に表示される(図4(a)参照)。
【0057】次のステップS3の処理においては、重要
語抽出部2が入力された検索要求から検索にとって重要
となる9つの単語を抽出する。ここでは、抽出されたす
べての単語のそれぞれは、検索要求中における使用頻度
が“1”であるため、前述の式(1)および(2)を用
いて重みIQjはすべて値10と等しくなる。この重要
語抽出部2における処理結果もまた画面表示される(図
4(b)参照)。
【0058】次のステップS4の処理において、複数文
字列検索部4が抽出部2において抽出された各重要語Q
jに基づいて検索対象テキストを検索する。新聞記事は
予めテキスト蓄積部3においてファイルにして格納され
ている。利用者は、予めこのファイルの名前を知ってい
るので、このファイル名(database)をキーボ
ード304からキー入力する。検索部4は入力されたフ
ァイル名に基づいて蓄積部3をアクセスし、指定された
ファイルを特定する。そして特定されたファイルに格納
されるテキストをバスを介して検索部4の内部バッファ
(主記憶装置)に読込む。そして、読込まれたテキスト
から前述のステップS1で入力されたレコードデリミタ
(→)を抽出して、該テキストを検索単位のレコードに
区分する。仮に、次のファイルを指定するのであれば、
検索者は次のファイル名を入力することも可能である。
ここでは、1つのファイル(database)を検索
対象としている。
【0059】次に、検索部4はステップS3で抽出され
た各重要語Qj(図4(b)参照)の検索対象テキスト
中の各レコードにおける使用頻度をカウントし、その結
果をインデックスバッファ5に書込んで記憶する。この
場合、得られたインデックスバッファ5の記憶内容が図
11に示される。
【0060】図11において、該バッファ5には検索対
象テキストから抽出された検索単位となるレコードの情
報R1,R2,R3…が格納される。各レコード情報は
さらに項目301〜304の情報からなり、項目301
には該レコードの蓄積部3における先頭アドレスが、項
目302には該レコードの長さが、項目303にはステ
ップS3で抽出された9つの重要語Qjのそれぞれに対
応して該レコードにおける使用頻度が、そして項目30
4には該レコードが格納されるファイル名(この場合、
database)が格納される。
【0061】検索者が指定したファイル(databa
se)は、たとえば新聞記事700個(約1メガバイト
の容量)から構成されている。ここでは、9つの重要語
Qjのいずれか少なくとも1つ以上を含むレコード(記
事)数は270個であり、処理部302のCPUがこの
検索に要した時間は0.767秒(処理部302が2
8.5MIPSの能力を有する場合)である。この検索
結果もまた画面表示される(図5(a)参照)。
【0062】次のステップS5の処理では、重み修正部
6が各重要語Qjの重みIQjを式(3)をもとに再設
定する。ファイル(database)中の各レコード
について頻繁(まんべん)に使用される重要語Qj(テ
レビ、TV、シャープ、SHARP、開発)について
は、その重みIQjは2,1と低くなるように修正され
る。逆に、使用率の低い重要語Qj(ビジョン、VIS
ION、ハイ、HIGH)の重みIQjは16,6と高
くなるように修正される。
【0063】次のステップS6の処理では、レコード評
価表示部7がステップS5で再設定された重要語Qjの
重みIQjのベクトル〔16,6,2,1〕とインデッ
クスバッファ5中の各レコードの重要語Qjの使用頻度
のベクトルとの距離(式(4)により算出)をもとに、
各レコードの得点を算出し、得点の高い順にレコードを
ソートしながらレコードバッファ8に書込んで記憶す
る。このときのレコードバッファ8の記憶内容の一例が
図12に示される。
【0064】図12には高得点順にソートされたレコー
ドの情報r1,r2,r3,…が格納される。さらに、
各レコードの情報は項目401〜404を含む。項目4
01には該レコードの得点が、項目402には該レコー
ドのテキスト蓄積部3における先頭アドレスが、項目4
03には該レコードの長さが、そして項目404には該
レコードが格納されるファイル名(database)
が格納される。
【0065】検索者は、高得点順にソートされたレコー
ドのうち、先頭から所望個数のレコードを読出して表示
装置303に画面表示させることができる。詳細には、
検索者はキーボード304を介して、たとえばレコード
バッファ8に格納されたレコードのうち先頭から8レコ
ード分の出力を指定するので、8レコード分について
は、そのファイル名(database)、最高得点を
100点にして正規化した得点、各レコードの先頭の1
行分の文字列が表示される(図6参照)。この表示画面
を見て、検索者はプリンタ(図示せず)出力または画面
出力用の出力ファイルを指定すると、レコードバッファ
8の情報をもとにして検索された任意個数のレコードの
情報をこの出力用ファイルに格納することができる。つ
まり、選択された8レコード分の表示内容を見ると、検
索要求“シャープのハイビジョンテレビ開発”を満たす
可能性の極めて高い記事が今回の検索処理により得られ
ていることがわかる。検索者は表示画面を見て第1番
目、第5番目および第8番目のレコードの内容(記事)
は所望する記事に最も近いものであろうと判別し、これ
ら3レコードの内容(記事)を出力用ファイルに呼出し
てプリンタ出力または画面出力すれば、これらの各レコ
ードの内容が検索者が所望する記事かどうかをその場で
判別することができる。
【0066】次のステップS7の処理では、一連の検索
処理が終了したか否かがたとえば、キーボード304か
らの検索終了を指示する旨のキー入力に基づいて判別さ
れる。検索終了と判別されれば、一連の検索処理は終了
するが、終了でなければステップS1の処理に戻る。つ
まり、検索者がステップS6における検索結果表示画面
を見て検索精度をさらに高めようと望んだ場合、検索者
はステップS6で表示された高得点レコードの内容(文
字列)を検索要求として再検索を図り検索精度を上げよ
うとする場合、再度ステップS1の処理に戻る。
【0067】再度ステップS1およびステップS2の処
理に戻る。ここでは、前述と同様にレコードデリミタ
「→」とともに前回の検索結果を利用して8番目のレコ
ード(図6参照)の番号(=8)を検索要求としてキー
入力する(図7参照)。
【0068】次のステップS3の処理では、8番目のレ
コード中のテキストを前述と同様に形態素解析し、式
(1)に基づいて重要語Qjを抽出し、抽出された各重
要語Qjについて式(2)を適用し重みIQjを求める
(図8(a)参照)。
【0069】次のステップS4の処理では、検索対象テ
キスト(ファイルdatabaseに格納されたテキス
ト)の検索を行なう。その結果もまた画面表示される
(図8(b)参照)。次のステップS5の処理では、式
(3)を用いて重みIQjの修正が行なわれそのベクト
ル量が求められる(図9参照)。
【0070】次のステップ6では、再検索して得られた
レコードが表示される(図10参照)。
【0071】図10において○印のついた番号のレコー
ド、すなわち6個のレコードはその内容が相互に関連し
ていることがわかる。このように、前回の検索結果をフ
ィードバックして再検索することによって検索精度が上
がったことがわかる(図6の3レコードから図10の6
レコードに増加)。したがって、検索者は検索要求を検
索精度を上げるように細心の注意を払って入力する必要
はなくなり、その検索要求の指定は簡単にできる。しか
も検索要求とレコードデリミタを入力するだけで、以降
該装置において自動的に検索において重要となる単語が
抽出され、その重み(検索における重要性)が適切に設
定されるので、検索者の検索要求に内容的に深く関連し
たテキスト情報が簡単にしかも常に精度よく得られる。
【0072】
【発明の効果】以上のようにこの発明によれば、検索者
は入力手段を介して検索要求テキストを入力するだけ
で、以降重要語抽出手段および重み修正手段が検索要求
テキストから検索する際に重要となる語を抽出するとと
もに、その重みを適正となるように設定するので、頻度
計数手段およびレコード評価手段による検索対象テキス
トにおける各レコードについて所望されるレコードであ
ることを示す度合の算出精度が向上する。したがって、
検索者の検索要求テキストに内容的に関連したレコード
が検索対象テキストから簡単に、しかも精度よく検索さ
れるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による全文検索装置の処理シ
ステムの構成図である。
【図2】本発明の一実施例による全文検索装置の電気的
ブロック構成図である。
【図3】本発明の一実施例による全文検索装置の処理フ
ロー図である。
【図4】(a)および(b)は、図1の検索要求入力部
および重要語抽出部の処理における画面表示の一例を示
す図である。
【図5】(a)および(b)は、図1の複数文字列検索
部および重み修正部の処理における画面表示の一例を示
す図である。
【図6】図1のレコード評価表示部の処理における画面
表示の一例を示す図である。
【図7】図1の検索要求入力部の処理における画面表示
のその他の例を示す図である。
【図8】(a)および(b)は、図1の重要語抽出部お
よび複数文字列検索部の処理における画面表示のその他
の例を示す図である。
【図9】図1の重み修正部の処理における画面表示のそ
の他の例を示す図である。
【図10】図1のレコード評価表示部の処理における画
面表示のその他の例を示す図である。
【図11】図1のインデックスバッファの記憶内容の一
例を示す図である。
【図12】図1のレコードバッファの記憶内容の一例を
示す図である。
【符号の説明】
1 検索要求入力部 2 重要語抽出部 3 テキスト蓄積部 4 複数文字列検索部 5 インデックスバッファ 6 重み修正部 7 レコード評価表示部 8 レコードバッファ なお、各図中、同一符号は同一または相当部分を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 乾 隆夫 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1つ以上の文字列を含み、か
    つ複数のレコードからなるテキストを対象にして検索処
    理する文章検索装置において、 前記複数レコードから所望レコードの検索を要求するた
    めの文字列からなるテキストを入力するための入力手段
    と、 前記入力手段から入力された検索要求テキストから前記
    検索処理において重要となる少なくとも1つ以上の単語
    を抽出し、抽出された各重要語の該検索要求テキストに
    おける使用頻度に基づいてその重みを設定する重要語抽
    出手段と、 前記検索対象テキスト中の各レコードにおける前記各重
    要語の使用頻度を計数する頻度計数手段と、 前記重要語抽出手段により設定された各重要語の重み
    を、各重要語の前記検索対象テキスト中での使用率の逆
    数に基づいて修正する重み修正手段と、 前記重み修正手段により修正された各重要語の重みのベ
    クトルと前記頻度計数手段により計数された前記各レコ
    ードにおける各重要語の使用頻度のベクトルとの距離に
    基づいて前記各レコードが前記所望レコードである度合
    を評価するレコード評価手段と、 前記レコード評価手段により評価された前記各レコード
    の前記度合に基づいて、前記各レコードから前記所望レ
    コードの候補となるレコードを抽出して出力する出力手
    段とを備えた、文章検索装置。
  2. 【請求項2】 前記検索要求テキストは、前記出力手段
    により前回に出力された前記候補レコードの内容を含
    む、請求項1に記載の文章検索装置。
JP4166259A 1992-06-24 1992-06-24 文章検索装置 Withdrawn JPH064584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4166259A JPH064584A (ja) 1992-06-24 1992-06-24 文章検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4166259A JPH064584A (ja) 1992-06-24 1992-06-24 文章検索装置

Publications (1)

Publication Number Publication Date
JPH064584A true JPH064584A (ja) 1994-01-14

Family

ID=15828067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4166259A Withdrawn JPH064584A (ja) 1992-06-24 1992-06-24 文章検索装置

Country Status (1)

Country Link
JP (1) JPH064584A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH09288683A (ja) * 1995-09-04 1997-11-04 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JPH1031676A (ja) * 1996-07-16 1998-02-03 Sharp Corp 対訳例文検索装置
JPH10198690A (ja) * 1997-01-10 1998-07-31 Nec Corp 類似文書検索方法および類似文書検索装置
JPH10228475A (ja) * 1997-02-13 1998-08-25 Mitsubishi Electric Corp 類似検索装置
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2012133785A (ja) * 2010-12-23 2012-07-12 Nhn Corp 減少クエリを推薦する検索システムおよび検索方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288683A (ja) * 1995-09-04 1997-11-04 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1031676A (ja) * 1996-07-16 1998-02-03 Sharp Corp 対訳例文検索装置
JPH10198690A (ja) * 1997-01-10 1998-07-31 Nec Corp 類似文書検索方法および類似文書検索装置
JPH10228475A (ja) * 1997-02-13 1998-08-25 Mitsubishi Electric Corp 類似検索装置
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2012133785A (ja) * 2010-12-23 2012-07-12 Nhn Corp 減少クエリを推薦する検索システムおよび検索方法

Similar Documents

Publication Publication Date Title
US5544049A (en) Method for performing a search of a plurality of documents for similarity to a plurality of query words
US5297027A (en) Method of and apparatus for promoting the understanding of a text by using an abstract of that text
JP3636941B2 (ja) 情報検索方法と情報検索装置
US6523030B1 (en) Sort system for merging database entries
JP2001524717A (ja) 情報管理及び検索
JP2001117946A (ja) 連想型テキスト探索及び検索システム
JP2006523344A (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JPH064584A (ja) 文章検索装置
JPH05225238A (ja) データベース検索システム
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP3151730B2 (ja) データベース検索システム
JPH0773197A (ja) 異表記語辞書作成支援装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP3558267B2 (ja) 文書検索装置
CN112199461A (zh) 基于块索引结构的文档检索方法、装置、介质和设备
JP2732661B2 (ja) テキスト型データベース装置
JPH06325091A (ja) 類似度評価型データベース検索装置
JP3928351B2 (ja) 確率を用いた特徴単語の選択方法
JP3288063B2 (ja) 可変長データの格納および参照システム
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JPH08314969A (ja) 情報検索方法及び装置
JPH1069490A (ja) 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置
JPH03268064A (ja) データ検索装置及びデータ検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990831