JPH0675265B2

JPH0675265B2 - 情報検索方法及びシステム

Info

Publication number: JPH0675265B2
Application number: JP1242421A
Authority: JP
Inventors: 欽一三ツ井
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1989-09-20
Filing date: 1989-09-20
Publication date: 1994-09-21
Anticipated expiration: 2009-09-21
Also published as: DE69031772D1; DE69031772T2; EP0420424A2; EP0420424A3; JPH03108064A; US5263159A; EP0420424B1

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、情報検索の分野において、特に検索結果に得
点を与えて順位づけを行う定量的検索を、時間のかかる
外部メモリのアクセス回数を減らすことにより高速化す
る方法およびシステムに関する。なお、本発明の手法は
文献検索のようなキーワードに基づいた検索のみでなく
一般の数値量を扱うようなデータベースの問い合わせを
定量化する際の高速化にも有効である。

B.従来の技術定量的検索とは、情報検索において検索質問を与えたと
きに各検索対象に対して得点を計算し、高得点順に検索
対象を出力するものである。検索対象とは、例えば文献
や特許情報などをさす。また、順序づけを行うのは検索
条件の満たし具合いを定量的に扱うことにより、あいま
いであったり不完全であったりする問い合わせに柔軟に
対処するためである。定量的検索の例を第５図に示す。
ここでは検索対象として文献を例に説明する。各文献に
は検索に使われる索引用語（キーワード）とか発行年度
のような数値量による属性が与えられているとする。い
ま検索条件として、キーワードとしてK1かK2を持ち発行
年C1の値ができるだけ大きいものという条件があたえら
れたとする。文献がK1を含んでいる場合に得点v1をK2を
含んでいる場合に得点v2をまたC1の値に応じてv3を与え
総合点をその和とすれば各文献に得点を与えることがで
きる。

この得点計算を数式で表現すると、v1＊K1＋v2＊K2＋ｆ
（C1）となり、ある文献がキーワードK1、K2をめばそれ
ぞれ１を、含まなければ０をK1、K2に代入し、ｆは例え
ば発行年が最も最近の場合に１になり発行年が古くなる
ほど値が小さくなる関数とすれば得点が計算できる。全
ての文献についてこの得点を計算し順序づければ条件を
最も良く満たす文献から順に結果を出力することができ
る。

得点の計算式は、このような和を計算するものに限度し
なくても、例えばmax（v1＊K1、v2＊K2）のように二つ
の値の大きいほうを選ぶようなものであってもよい。こ
のように検索要求には様々な得点計算方法が考えられ
る。

一般に文献検索等における検索対象の数は非常に大きな
ものであり、検索対象の全てを質問ごとにアクセスする
のは大量の外部メモリのアクセスを必要とするので現実
的でない。Salton,G.ら文献『Extended Booli an Infor
mation Retrieval,Communications of the ACM,Vol.26
No.12,1983』で紹介されているように、この種の情報
検索では高速に検索を行うために転置ファイルを用い
る。この様子を第２図に示す。転置ファイル（21）はキ
ーワードや数値量を索引としてそれらの値を持つような
検索対象を逆にたどれるようにするものである。これに
対して元の文献が順序よく並べられたファイルを順ファ
イル（24）と呼ぶ。文献内容は順ファイルに含まれてい
てもよいし、順ファイルの外に記憶されていてもよい。
後者の場合には、順ファイル中に文献内容の記憶場所の
情報が含まれる。この転置ファイルを用い、まず得点を
計算するのに必要なキーワードヤ数値量を一つでも持つ
文献識別子を全て求める。これは、各キーワードや数値
量に対する文献識別子の集合の和をとることで得られる
（22）。得られた各文献識別子について順ファイルにア
クセスしキーワードの集合を得、得点を計算して順序づ
けて出力する（23）。このように転置ファイルを用いる
と、一般に全ての文献にアクセスし得点を計算する必要
がなくなるのでより高速に検索ができる。転置ファイル
も外部記憶のアクセスを必要とするが、同じ索引をもつ
情報が物理的に近くに記憶されており、索引を通して少
ないアクセス回数で必要な内容を取り出すことができ
る。

C.発明が解決しようとする問題点情報検索においては、順ファイルも転置ファイルも非常
に大きくなるので、外部記憶に保存され検索条件の判定
や得点の計算などのためにその一部が内部記憶に移され
る。外部記憶のアクセスには比較的長い時間を要するの
で検索の速度を高めるにはできるだけ外部記憶のアクセ
スをしないほうが良い。上述した従来の方法で、最初に
転置ファイルにより関連する検索対象を絞ることで外部
記憶のアクセスを減らした。しかし、定量的検索では一
般に高得点の対象を出力することが要求され得点の低い
ものは不要である。このことを考慮したとき、上述の方
法は順ファイル中の順位の低い対象へアクセスしている
がこれは不要である。また、数値量の場合多くの対象が
得点に関係する場合があり、関係するものをすべてアク
セスすると絞り込みの効果がすくなくなる。そのための
工夫が必要である。

本発明の目的は、より外部ファイルのアクセスを減らす
定量的検索のための方法およびシステムをあたえること
である。

D.問題点を解決する手段問題点を解決する手段は次の４点にまとめることができ
る。

（１）転置ファイルのみの情報により順位づけを行う。

（２）転置ファイルのなかでも、より順位づけに有効な
部分からアクセスを行い、不要な部分にはできるだけア
クセスしない。

（３）数値量に関しても転置ファイルと同様の構造を考
え順位付けに不要な部分にはできるだけアクセスしな
い。

（４）順位づけの条件を緩め、完全な順位づけをしない
かわりに、転置ファイルのアクセスを減らす。

E.実施例（１）基本アルゴリズムここでは本発明について第１図の例を用いて説明する。
順ファイルには文献識別子に対する付属するキーワード
の集合が記憶される。転置ファイルには、キーワードと
そのキーワードを含む文献識別子の集合が記憶される
（11）。まず問い合わせが与えられ得点の計算に関係あ
るキーワードが得られる。問い合わせの入力は適宜端末
装置を通じて行えばよい。問い合わせを1.0＊K1＋0.6＊
K2＋0.3＊K3とすると関係あるキーワードはK1、K2、K3
である。外部記憶にある転置ファイルにアクセスし主記
憶上に転置表を作成する（12）。この転置表は転置ファ
イルの一部になっていることがわかる。この転置表の行
と列を入れ換えると順表（13）ができる。これは外部記
憶の順ファイルのうち得点計算に必要な部分になってい
ることがわかる。順表のそれぞれの行について得点を計
算することができる。得点の高いものから順ファイル
（15）にアクセスしその文献内容を取り出し検索が完了
する。従来の方式では、主記憶上で転置表の行と列を入
れ換える操作は行わず、転置表の各行の和集合により関
連する文献識別子を求めてから順ファイルにアクセスし
それぞれの文献のキーワードを新たに取り出し得点をも
とめているので得点の低い文献についても順ファイルの
アクセスをともなう。上位ｎ位までのように高得点のも
ののみを検索すれば十分な場合、従来の方法は余分な外
部記憶のアクセスをしている。本発明法と従来法による
外部記憶装置へのアクセスを、第１図と第２図の場合に
ついて比較してみよう。

I.第１図の本発明法の場合（１）転置ファイルへのアクセス。

キーワードK1、K2、K3について転置ファイルへのアクセ
スが行われる。

（２）順ファイルへのアクセス。

文献識別子D1とD2について順ファイルへのアクセスが行
われる。

II.第２図の従来法の場合（１）転置ファイルへのアクセス。

（２）順ファイルへのアクセス。

文献識別子D1、D2、D3について順ファイルへのアクセス
が行われる。

ＩとIIを比較してわかるように、本発明によれば文献識
別子D3について順ファイルへアクセスしないですむの
で、その分アクセス時間が減少することが理解できよ
う。次に、本発明法と従来法のそれぞれについて、外部
記憶装置のアクセスに要する時間を一般的に評価してみ
る。まず、次のような定義をする。

Nqkey 問合わせ使われたキーワードの数 Nkeydoc 転置ファイル上での一つのキーワードに対す
る平均文献識別子数 Nrelated 問合せに関するキーワードを少なくともひと
つ含む関連文献数 Noutput 要求された出力文献の数 Tinv 転置ファイルの１レコードを取り出すのに必要な
平均時間 Ttrans 転置表の転置表をつくるのに要する時間 Tunion 各キーワードに対する文献識別子の集合の和集
合を求める時間 Tseq 順ファイルの１レコードを取り出すのに必要な平
均時間 Tquery 問合せ関数値の平均的計算時間 Tsort 問合せ関数値のソーティングに必要な時間本発明の手法で必要とする時間は、 Tinv×Nqkey＋Ttrans＋Tquery×Nrelated＋Tsort＋Tseq ×Noutput である。ここで、第一項は、転置ファイルのアクセスに
必要な時間、第二項は転置表の転置表を作るための時
間、第三項は問合せ関数値の計算に必要な時間、第四項
はソーティングに必要な時間、第五項は上位定数個につ
いて順ファイルのアクセスに要する時間である。

これに対して、従来の方式で必要とする時間は、 Tinv×Nqkey＋Tunion＋Tseq×Nrelated＋Tquery ×Nrelated＋Tsort である。ここで、本発明の方法のものと違うのは、第二
項が関連する文献を和集合により求める時間、第三項が
関連文献について順ファイルをアクセスするのに要する
時間である、という点である。後者の方式の所要時間か
ら前者の方式の所要時間を引くと、（Tunion−Ttrans）＋Tseq×（Nrelated−Noutput）となる。（Tunion−Ttrans）の部分は、後者の方式が単
純な和集合の計算であるのに対して、本発明の方法は、
転置表を転置する操作なのでTtransのほうが少し大きな
値をとる。しかし、これらの操作はハッシュ技法を用い
ることができるし、計算は主記憶上で行われるので、比
較的高速な処理ができる。従って、第一項はそれほど大
きな値は取らない。これに対して、Tseqは、ディスクア
クセスに要する平均時間であった。これは、システムに
依存する値であり、一般値は議論しにくいが、主記憶上
の計算に比べるとかなり遅いのが普通である。従って、
関連する文献より出力すべき文献の数が少なければすく
ないほど、本発明の方式が有効であることがわかる。

一回のディスクアクセスに要する時間は、例えば、中大
型機の場合で平均数msecから数十msec程度かかる。これ
に対して、主記憶での計算の部分をLispによりプログラ
ミングして実験した結果によると、一検索対象あたり1m
sec以下であった。Lispは、非常に関数呼出しが多い
等、通常のプログラミング言語に比べて処理速度は遅
い。従って、一般に、通常の手続き型言語を用いて同じ
計算を行なった場合、さらに一桁ほど高速になると期待
される。また、大型機では、ディスクアクセスの高速化
が非常に工夫されているが、ひり低レベルの機種では、
主記憶上での計算とディスクアクセスとのギャップは更
に高いと考えられる。

以上、結論としていえることは、本発明の方法は、順フ
ァイルについて本当に出力に必要な部分のみアクセスす
るような工夫をして高速化をはかっているので、演算速
度に対してディスクアクセスが非常に遅い状況で、関連
文献のうち出力すべきものが少数であるような場合に従
来方法よりも有効であるということである。

TtransとTunionの計算のオーダーについて、簡単にふれ
ておく。転置表の転置は、まず、文献識別子をキーとす
るハッシュ表を作成しておき、転置ファイルから集めら
れたそれぞれの文献識別子について、対応するキーワー
ドをハッシュ表の対応する場所に追加していなければよ
い。あるキーワードを含む文献の平均数が一定個である
ことを仮定すると、この計算は、キーワードの数に対し
て線型オーダーである。また、関連文献を和集合で求め
る部分も同じようにして線型オーダーで計算できる。文
献の数に対しては、文献の数が増えると、あるキーワー
ドを含む文献の数が線型オーダーで増える。上の議論よ
り、文献の数に対しても線型オーダーであることがわか
る。これらより、上で比較した両方式とも、問合せの長
さやデータベースの大きさに対して、TtransとTunionの
計算量が線型オーダーで押えられるという良い性質を持
っていることがわかる。

なお、従来方式では、順ファイルに文献識別子と当該文
献にまれるキーワードの対照表が含まれている必要があ
るけれども、この基本アルゴリズムではそのような表は
必須ではない。

（２）改良アルゴリズム上で述べた方法を基本とし、更に転置ファイルのアクセ
スの回数を減らすための改良について述べる。この様子
を第３図に示す。得点の計算に関係のあるキーワードを
もとに転置ファイルをアクセスする際に、最も順位に影
響を与えるキーワードから先にアクセスするようにす
る。第３図の例ではK1の重みが最も大きく、このキーワ
ードを含む文献と含まない文献では大きな差がでる。K1
について転置ファイル（31）をアクセスし主記憶上に転
置表を作る（32）。さらに行と列を入れ換える（33）。
ここで各文献ついて得点の最小確定値と最大期待値を求
めることができる。最小確定値は、ここまでで調べたキ
ーワードのみから計算される得点の下限であり、最大期
待値は残りのキーワードが問合せ条件を全て満たしてい
るとしたときの得点の上限である。第３図のDxは残りの
文献全てを代表するものである。この時点で最小確定値
の順に仮の順位をつける。もしも最終結果は第２位まで
で十分であるとすると、第３位以下の最大期待値が第２
位の最小確定値より小さいので第３位以下の文献は残り
のキーワードを調べなくても順位は２位より上がらない
ことがわかる。ここで２位までのアクセスを順ファイル
にアクセスしキーワードを調べて正確な得点を調べれば
よい。したがって、本発明の基本アルゴリズムによった
ならば、キーワードK1、K2、K3について転置ファイルへ
のアクセスを要したところ、この改良アルゴリズムによ
ればキーワードK1についてだけ転置ファイルへアクセス
ればよいので、アクセス時間が短縮される。

もしもこの例で上位第１位までという条件なら第２位の
最大期待値が第１位の最小確定値よりも大きいので別の
キーワードを調べなければ第１位は決定できない。次に
調べるキーワードを選ぶ場合、第ｎ位の最小確定値を最
も増やすか第（ｎ＋１）位以下の最大期待値を最も減ら
すものを選ぶ。例の場合K2が選ばれ（34）、再度得点が
計算される（35）。ここで第１位の最小確定値が第２位
の最大期待値を上回ったので、その文献識別子（36）に
ついて順ファイルをアクセスし検索を終了する。この方
式では問い合わせに含まれる全てのキーワードに関して
転置ファイルをアクセスする必要が必ずしもないので、
高速化に効果がある。

さて、第３図の例では、問い合わせがアクセス・キーの
線型結合として表現されており、したがって問い合わせ
得点値（確実値）が第（ｎ＋１）位の文献の得点期待値
のみを考慮すれば、第ｎ位までの文献を確定することが
できた。しかしながら、問い合わせがmaxやminといった
計算を含んでいたり、数量値属性を持つアクセス・キー
を含んでいたりするときには、確実値第（ｎ＋１）位の
文献の期待値よりも、確実値第（ｎ＋２）位以降の文献
の期待値の方が大きくなる可能性がある。そこで、この
ような場合を考慮した処理手順を形式的に記述してお
く。

1.最初に、最も順位に差をつけるようなキーワードを選
び、転置ファイルにアクセスし、そのキーワードを含む
文献識別子の集合を主記憶に取り込む。キーワードの選
び方は、そのキーワードを含む文献と含まない文献の得
点差が最も大きくなるようなものを選ぶ。

2.主記憶中に順表に新しく取り込まれた情報を加え、順
表中の文献の得点（最小確定値）を（再）計算し順位を
つける。このときの検索された文献の数がｎに満たない
場合は次のキーワードついてこの1.2.の手続きを繰り返
す。順位の並べ換えは、毎回全部の文献の並べ換えをし
なくても、変更のあった文献のみ得点を再計算して入れ
替えればよい。これはバランス木のようなデータ構造の
工夫により可能である。

3.初めて文献の数がｎを越えたとき、最下位としてこれ
までのキーワードを全て含まないような仮想的な文献を
表に加えておく。当然このような文献が最も確定値が低
い。

4.最下位を第（ｎ＋ｓ）位としよう。第（ｎ＋ｓ）位の
文献が今後理想的にキーワードを含んでいた場合の得点
の最大期待値が計算できる。もし第（ｎ＋ｓ）の位の最
大期待値が第ｎ位の最小確定値に満たない場合は第（ｎ
＋ｓ）位の文献は、もっというと第（ｎ＋ｓ）位以下の
文献は第ｎ位以上にはなりえないことがわかる。ここで
第（ｎ＋ｓ）位の情報を順表から削除し、第（ｎ＋ｓ−
１）位の文献を新しく最下位とする。

5.もし最下位が第ｎ位に一致していればここで第ｎ位ま
でが確定したことになるので手続きを止める。そうでな
ければ最下位の繰り上がりがなくなるまで4.5.の手続き
を繰り返す。

6.第ｎ位までが確定しなはった場合は、次のキーワード
を選んで転置ファイルを調べる。すなわち、1.の手続き
から繰り返す。このとき最下位の文献が2.で想定した仮
想的な文献でなければ、すなわち途中でこの仮想的な文
献が削除されたあとでは、既に順表中にないような文献
が新しく検索されてもそれは無視してよい。なぜなら、
これらは既に第ｎ位以上になりえなことが確定している
からである。次のキーワードの選び方は、それが含まれ
ているとき第ｎ位の最小確定値を最も上げるものか、ま
たはそれが含まれていないとき第（ｎ＋ｓ）位の最大期
待値を最も下げるものを選ぶようにする。

この方式の利点としては、第ｎ位の最小確定値と第（ｎ
＋１）位以下の最大期待値の比較を、将来第ｎ位以上に
なりうる限界としての最下位を考えることにより、効率
的に行っていることがあげられる。丁度、将来第ｎ位以
上になりうる限界点が次第にせり上がっていきその時点
の第ｎ位と重なった時に手続きをやめるようなものであ
る。順表中の第（ｎ＋１）位以下の全ての文献について
最大期待値を求める必要ない。また、最下位をせり上げ
る時に元の最下位の文献の情報を削除し、最下位がせり
上がり始めて以降新しく検索される文献を無視すること
により、不必要な情報を順表中に残さないことも効率上
有利である。

（３）数値属性の扱い次に発行年のような数値量属性を定量検索に利用すると
きの方法について述べる。この様子を第４図にしめす。
数値属性に関する得点を計算する場合には属性値に対し
て適な得点を与える関数を決めておけばよい（48）。前
述の例ではｆ（C1）のように記述した。ここでこの関数
は属性値の変化に対して単調に変化するものでなければ
ならない。例えば、属性値が大きいほど得点が高いも
の、属性値がある値に近いほど得点が高いものなどであ
る。

数値属性に関しても、キーワードの場合と同様に属性値
から逆にもとの検索対象を対応づける転置ファイルを作
成することができる。第４図ではK3が発行年を表す数値
属性である（41）。転置ファイル上で検索対象が、属性
値の昇順あるいは降順に並べられており、昇順あるいは
降順に高速にアクセスできるものとする。これはＢ−木
のような既存の技術を使って実現できる。

さて、一般に数値属性を検索条件に使う場合、得点に影
響する値の範囲は広範囲におよび、転置ファイル上の得
点に影響する値の範囲全てのアクセスするのはやはり多
くの外部記憶のアクセスを必要とする。高得点のものの
み出力が必要とされる場合には、数値属性のレコードに
関しては高得点を与える部分のみアクセスすれば十分で
ある可能性がある。数値属性のアクセス・キーに関して
は検索対象識別子が予め属性順にソートされている転置
ファイルを用いることにより高得点を得られる部分から
外部記憶にアクセスし（２）で説明した方式と同様に最
小確定値および最大期待値を計算しながら高順位が確定
した時点で検索を終了すればよい。

これまで説明してきたアルゴリズムでは、キーを一度使
うとそれは二度と使われなかったが、数値属性のキーを
扱う場合に、転置ファイルに関数値が０以上になる、ま
だアクセスしていない文献識別子が残っている限り、キ
ーを再使用する可能性がある。但し、キーを使用した後
で、当該キーから期待される最大の重みは、残された文
献の関数値の最大期待値に更新される。したがって、そ
の値によっては、つぎのキーとして、別のキーが使用さ
れる可能性がある。

例を用いて説明する。第４図の例では、問い合わせ式の
３つの項の中で最大値をとりうるのは0.5K3なので、発
行年（K3）が得点に最も影響を与えるものとして選ばれ
る。得点は最近の文献ほど高いとする。転置ファイルに
１回アクセスすると得点の高い文献識別子が幾つか得ら
れる（42）。（２）の方法と同様に主記憶に順表を作成
し、最小確定値と最大期待値を計算する（43）。第ｎ位
までが確定しなければ、発行年も含めて次に調べるキー
ワードや属性を選び同様の手続きを繰り返す（44、4
5）。なお最大期待値を計算する場合、数値量に関する
以降の得点はそれまでの得点よりも必ず低くなることを
利用する。例えば、（４））のDxの期待値は、発行年に
関して最大0.5×0.5＝0.25が期待でき、K2を含むとする
と0.2が加算され全体で最大0.45までの得点であること
になる。このようにして転置ファイルに関してより得点
に影響を与える部分からアクセスすることにより不要な
転置ファイルのアクセスを避けることができる。

また、この方式は数値属性のための工夫として説明した
が、キーワード属性でも個々の検索対象が含むキーワー
ドに得点の重みが付けられている場合、例えばキーワー
ドKxは文献D1では1.0の重みを持つが文献D2では0.5の重
みしか持たないといった場合に、転置ファイル上で各キ
ーワードに対する検索対象の識別子をあらかじめ重み順
に並べておけば、ここでの議論が全く同様に使えること
に注意されたい。

（４）緩い順位付けで更に外部記憶のアクセスを減らす
方法（２）および（３）の説明では、転置ファイルのアクセ
スを停止するか続行するかの判断において、第ｎ位の最
小確定値と第ｎ＋１位以降の最大期待値を比較した。こ
れに対して、第ｎ位の最小確定値と第ｎ＋ｍ位（ｍ≧
２）以下の最大期待値の比較によって上記判断を行うな
ら、第２位と第（ｎ＋ｍ）位以下との差は第ｎ位と第
（ｎ＋１）位以下との差より大きいことが期待できるの
で早く順位の決定が完了する可能性がある。具体的な処
理手順としては、最下位が第（ｎ＋ｍ）位と一致した時
点で手続きを止める点を除いて、“（２）改良アルゴリ
ズム”のセクションで述べた手順1.〜6.と同様のものを
採用すればよい。

ただし、このときの順位の意味は、第ｎ位までが手続終
了時点での第（ｎ＋ｍ）位以内に入っていることがいえ
るのみである。逆にその時点での第（ｎ＋ｍ）位以内、
もっと言えば第ｎ位以内には最終的に第（ｎ＋ｍ）位以
下になるものも含まれている可能性がある。このように
して確定した第（ｎ＋ｍ）位以内の文献の中から真に第
ｎ位以内の文献を見つけるためには、第（ｎ＋ｍ）位以
内の文献について順ファイルにアクセスし、従来方法の
ようにして厳密に得点を計算してもよいし、あるいは文
献内容を出力してしまって人間が選択してもよい。

極端な例としてはｍを検索対象の総数とすると検索条件
を調べなくても第ｎ位までが第ｍ位までに含まれている
ことが言える。このように大きなｍをとることは余計な
結果が多く含まれるので意味がないが、適当な大きさの
ｍを考えると一般には第ｎ位までがより早く見つかる。

本来、定量的検索は曖昧な問い合わせを処理するもので
あった。このことを考えると得点の高い検索対象がある
程度までしぼり込まれた段階で検索処理を終了し結果を
出力するのは検索の高速化が得られるならば妥当な方針
であると考えられる。

F.発明の効果以上説明したように本発明は、定量検索での得点計算において転置ファイルのみを用い
て得点計算を行ない、また得点の期待値により転置ファ
イルの必要な部分のみをアクセスするような機構により
順ファイルおよび転置ファイルのアクセスを必要最低限
におさえることにより検索処理速度が向上するという効
果がある。

【図面の簡単な説明】

第１図は本発明の基本的な動作を示す説明図、第２図は
従来の技術における方式の説明図、第３図は本発明の要
点の２番目の改良アルゴリズムの例を示す説明図、第４
図は本発明の要点の３番目の数値量属性を含む場合の例
を示す説明図、第５図は定量的検索を説明する概念図で
ある。

Claims

【特許請求の範囲】

【請求項１】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力数ｎを指定するための問い
合わせ入力装置とを用いる情報検索方法であって、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるアクセス・キーに
関連する転置ファイル中のデータを主記憶装置に複写す
るステップと、複写された転置ファイルのデータと入力された問い合わ
せの内容に基づいて、検索対象毎に問い合わせ得点値を
計算するステップと、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定するステップと、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスするステップを有する情報検索方法。
【請求項２】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力数ｎを指定するための問い
合わせ入力装置とを用いる情報検索方法であって、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるすべてのアクセス
・キーに関連する転置ファイル中のデータを主記憶装置
に複写して、転置ファイルの一部を成す転置表を作成す
るステップと、転置表の行と列を入れ替えて主記憶装置中に順表を作成
するステップと、順表のデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値を計算するステップ
と、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定するステップと、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスするステップを有する情報検索方法。
【請求項３】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力数ｎを指定するための問い
合わせ入力装置とを用いる情報検索方法であって、入力された問い合わせを分析し、与えられた重み付係数
の大きさに基づいて問い合わせ中のアクセス・キーを選
択するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
するステップと、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
るステップと、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスするステップを有する情報検索方法。
【請求項４】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力数ｎを指定するための問い
合わせ入力装置とを用いる情報検索方法において、アクセス・キーの中には、検索対象によって重みの異な
るアクセス・キーが含まれており、入力された問い合わせを分析し、アクセス・キーの重み
と当該アクセス・キーに与えられた重み付係数の積の大
きさに基づいて、問い合わせ中のアクセス・キーを選択
するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
するステップと、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
るステップと、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスするステップを有する情報検索方法。
【請求項５】検索対象によって重みの異なるアクセス・
キーに関しては、転置ファイル上で検索対象識別子が当
該アクセス・キーに与えられた重み順に予め並べられて
いることを特徴とする特許請求の範囲第４項記載の情報
検索方法。
【請求項６】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力希望数ｎを指定するための
問い合わせ入力装置とを用いる情報検索方法であって、入力された問い合わせを分析し、与えられた重み付係数
の大きさに基づいて、問い合わせ中のアクセス・キーを
選択するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
するステップと、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）以下の問い合
わせ得点値を持つ検索対象の得点期待値を比較し、前者
が後者を上回る時に、アクセス・キーの選択を中止する
ステップと（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスするステッ
プを有する情報検索方法。
【請求項７】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
間い合わせと検索対象の出力希望数ｎを指定するための
問い合わせ入力装置とを用いる情報検索方法において、アクセス・キーの中には、検索対象によって重みの異な
るアクセス・キーが含まれており、入力された問い合わせを分析し、アクセス・キーの重み
と当該アクセス・キーに与えられた重み付係数の積の大
きさに基づいて、問い合わせ中のアクセス・キーを選択
するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
するステップと、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
るステップと（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスするステッ
プを有する情報検索方法。
【請求項８】検索対象によって重みの異なるアクセス・
キーに関しては、転置ファイル上で検索対象識別子が当
該アクセス・キーに与えられた重み順に予め並べられて
いることを特徴とする特許請求の範囲第７項記載の情報
検索方法。
【請求項９】検索対象識別子を入力して当該検索対象に
関するデータを出力するための、外部記憶装置に保持さ
れる順ファイルと、アクセス・キーを入力して当該アク
セス・キーを含む検索対象識別子の集合を出力するため
の、外部記憶装置に保持される転置ファイルと、重み付
係数を与えたアクセス・キーの組合せとして表現される
問い合わせと検索対象の出力数ｎを指定するための問い
合わせ入力装置とを具備する情報検索システムであっ
て、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるアクセス・キーに
関連する転置ファイル中のデータを主記憶装置に複写す
る手段と、複写された転置ファイルのデータと入力された問い合わ
せの内容に基づいて、検索対象毎に問い合わせ得点値を
計算する手段と、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定する手段と、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスする手段を有する情報検索システム。
【請求項１０】検索対象識別子を入力して当該検索対象
に関するデータを出力するための、外部記憶装置に保持
される順ファイルと、アクセス・キーを入力して当該ア
クセス・キーを含む検索対象識別子の集合を出力するた
めの、外部記憶装置に保持される転置ファイルと、重み
付係数を与えたアクセス・キーの組合せとして表現され
る問い合わせと検索対象の出力数ｎを指定するための問
い合わせ入力装置とを具備する情報検索システムであっ
て、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるすべてのアクセス
・キーに関連する転置ファイル中のデータを主記憶装置
に複写して、転置ファイルの一部を成す転置表を作成す
る手段と、転置表の行と列を入れ替えて主記憶装置中に順表を作成
する手段と、順表のデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値を計算する手段と、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定する手段と、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスする手段を有する情報検索システム。
【請求項１１】検索対象識別子を入力して当該検索対象
に関するデータを出力するための、外部記憶装置に保持
される順ファイルと、アクセス・キーを入力して当該ア
クセス・キーを含む検索対象識別子の集合を出力するた
めの、外部記憶装置に保持される転置ファイルと、重み
付係数を与えたアクセス・キーの組合せとして表現され
る問い合わせと検索対象の出力数ｎを指定するための問
い合わせ入力装置とを具備する情報検索システムであっ
て、入力された問い合わせを分析し、与えられた重み付係数
の大きさに基づいて問い合わせ中のアクセス・キーを選
択する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
【請求項１２】検索対象識別子を入力して当該検索対象
に関するデータを出力するための、外部記憶装置に保持
される順ファイルと、アクセス・キーを入力して当該ア
クセス・キーを含む検索対象識別子の集合を出力するた
めの、外部記憶装置に保持される転置ファイルと、重み
付係数を与えたアクセス・キーの組合せとして表現され
る問い合わせと検索対象の出力数ｎを指定するための問
い合わせ入力装置とを具備する情報検索システムにおい
て、アクセス・キーの中には、検索対象によって重みの異な
るアクセス・キーが含まれており、入力された問い合わせを分析し、アクセス・キーの重み
と当該アクセス・キーに与えられた重み付係数の積の大
きさに基づいて、問い合わせ中のアクセス・キーを選択
する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
【請求項１３】検索対象によって重みの異なるアクセス
・キーに関しては、転置ファイル上で検索対象識別子が
当該アクセス・キーに与えられた重み順に予め並べられ
ていることを特徴とする特許請求の範囲第12項記載の情
報検索システム。
【請求項１４】検索対象識別子を入力して当該検索対象
に関するデータを出力するための、外部記憶装置に保持
される順ファイルと、アクセス・キーを入力して当該ア
クセス・キーを含む検索対象識別子の集合を出力するた
めの、外部記憶装置に保持される転置ファイルと、重み
付係数を与えたアクセス・キーの組合せとして表現され
る問い合わせと検索対象の出力希望数ｎを指定するため
の問い合わせ入力装置とを具備する情報検索システムで
あって、入力された問い合わせを分析し、与えられた重
み付係数の大きさに基づいて、問い合わせ中のアクセス
・キーを選択する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
【請求項１５】検索対象識別子を入力して当該検索対象
に関するデータを出力するための、外部記憶装置に保持
される順ファイルと、アクセス・キーを入力して当該ア
クセス・キーを含む検索対象識別子の集合を出力するた
めの、外部記憶装置に保持される転置ファイルと、重み
付係数を与えたアクセス・キーの組合せとして表現され
る問い合わせと検索対象の出力希望数ｎを指定するため
の問い合わせ入力装置とを具備する情報検索システムに
おいて、アクセス・キーの中には、検索対象によって重
みの異なるアクセス・キーが含まれており、入力された問い合わせを分析し、アクセス・キーの重み
と当該アクセス・キーに与えられた重み付係数の積の大
きさに基づいて、問い合わせ中のアクセス・キーを選択
する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複写に応答して、新しく複写さ
れたものも含めて主記憶装置に複写されている転置ファ
イルのデータと入力された問い合わせの内容に基づい
て、検索対象毎に問い合わせ得点値と得点期待値を計算
する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
【請求項１６】検索対象によって重みの異なるアクセス
・キーに関しては、転置ファイル上で検索対象識別子が
当該アクセス・キーに与えられた重み順に予め並べられ
ていることを特徴とする特許請求の範囲第15項記載の情
報検索システム。