JP3318834B2

JP3318834B2 - データファイルシステム及びデータ検索方法

Info

Publication number: JP3318834B2
Application number: JP21675699A
Authority: JP
Inventors: 茂伸高山; 光則郡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-07-30
Filing date: 1999-07-30
Publication date: 2002-08-26
Anticipated expiration: 2019-07-30
Also published as: JP2001043237A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、データベース管
理システムなど大量データを格納するシステムにおい
て、その大量のデータから必要なデータだけを効率よく
取り出す処理を目的としたデータファイル及びデータ検
索方法に関するものである。

【０００２】

【従来の技術】従来のデータベース管理システムにおい
て、必要なデータだけを効率よく取り出すデータファィ
ルとしては、例えば日本コンピュータ協会「データベー
ス・システムの原理」４９ページの図２．１に示されて
いるハッシュファイルや、B+Treeがあり、また、２次索
引としてハッシュ索引・B+Tree索引・ビットマップ索引
などを用いる検索方法などがある。

【０００３】図２４にハッシュファイルを示す。ハッシ
ュファイルは、ハッシュ関数・各ハッシュ値とそのハッ
シュ値をもつデータを格納するデータ領域情報を格納し
たパケットディレクトリからなるハッシュファイル索引
部32、おのおのハッシュ値に対応したレコードを格納す
るデータ領域33からなるハッシュファイルデータ部34か
ら構成される。レコード追加時には、投入レコード3の
キーフィールド31(FieldA)の値をハッシュ関数にかけて
ハッシュ値を取得し、パケットディレクトリを用いてハ
ッシュ値からそのレコードを格納するデータ領域33を求
めて格納する。作成されたハッシュファイルでは、各デ
ータ領域33には対応したハッシュ値をもつレコードのみ
が格納される。

【０００４】図２５では、売上表の商品番号をハッシュ
キーとして、ハッシュ関数はModulo5（５で割った余
り）とする。ハッシュ値は、0から4までの整数で、デー
タ部34のそれぞれのデータ領域33にはそれぞれのハッシ
ュ値に対応するデータが格納されている。

【０００５】図２６にB+Treeを示す。B+Treeの場合は、
ハッシュの代わりにキーフィールド31の値の範囲で格納
するデータ領域33を決める方法である。この場合も、索
引部32の領域とデータ部34の領域をあらかじめとってお
く。レコード追加時には、投入レコード3のキーフィー
ルド31(FieldA)の値をルートノードのキー値（この例で
は56）と比較する。ノードのキー値より大きいまたは同
じならば右のポインタが指す中間ノードへ、小さければ
左のポインタが指す中間ノードへ移る。その後も順次ノ
ードにあるキー値と比較を繰り返し、最終的にリーフノ
ード（リーフページ）の格納位置、すなわちデータ領域
33を決めるものである。データ領域内では、さらにレコ
ードをキーの昇順に格納する。何れの場合もクラスタ索
引であり、データの格納順と索引順序が同じになる。

【０００６】図２７にビットマップ索引の例を示す。こ
れは、上記二つのクラスタ索引と異なり、２次索引であ
り、別の方法であらかじめ作成されたデータ部に対し
て、後から索引を付加するものである。ビットマップ索
引は、索引キーフィールド(FieldA)31のとりうる値のビ
ットをデータ領域の数だけ確保し、データ領域内に対応
するキーのレコードが含まれているデータ領域のビット
をON（１）に、含まれていないデータ領域のビットをOF
F（０）にして作成する。この例では、索引キーフィー
ルドのとりうる値は'a','b','c','d','e'の５通りなの
で、５(ビット)×L(データ領域の数)の領域を確保し、
１番の領域にFieldA=‘a’となるレコードを含んでいた
ら、対応するビットを１に、含んでいなければ０とし、
FieldA=‘b’となるレコードを含んでいたら、対応する
ビットを１に、含んでいなければ０とする。ここでは、
１番の領域には、FieldAが'b','c'となるレコードは含
むが、FieldAが''a','d','eとなるレコードは含まない
事を示す。

【０００７】上記いずれの場合も、データはディスク装
置内のデータ部34内のデータ領域にレコード単位にまと
めてレコード順に格納し、レコード内でもそのフィール
ドの定義順に格納している。

【０００８】図２４に示す様にハッシュファイルを用い
ることで、索引キーフィールド31(FieldA)がある特定の
値をもつレコードを読み出す際には、ハッシュ関数を使
用してその特定の値から対応するハッシュ値を求め、ハ
ッシュ値とパケットディレクトリからそのレコードを格
納したデータ領域33を特定し、必要なデータ領域33のみ
読み出せばよい。そのため読込むデータ量が減るので、
読込みにかかる時間を短縮でき、処理を効率化できる。

【０００９】図２６に示す様にB＋Tree索引において
も、索引キーフィールド31(FieldA)がある特定の値をも
つレコードを読み出す際には、ルートノードのキー値と
その値を比較し、次にその比較結果から次の中間ノード
を特定し、さらにそれをリーフノードまで繰り返す事
で、そのレコードが含まれるデータ領域を特定できる。
そのため読込むデータ量が減るので、読込みにかかる時
間を短縮でき、処理を効率化できる。

【００１０】図２７に示す様にビットマップ索引におい
ては、索引キーフィールド３１(FieldA)がある特定の値
をもつレコードを読み出す際には、その値のビットマッ
プを調べ、ビットの立っているデータ領域33のみ読めば
よい。そのため、ビットの立っているデータ領域の割合
が少ない場合には、読込むデータ量が減り、読込みにか
かる時間を短縮でき処理を効率化できる。

【００１１】しかし、上記ハッシュファイルやB+Treeの
場合に、索引キーフィールド31の値が特定の値をもつレ
コードの、特定のフィールドのみ読み出したい場合で
も、キー値から特定したデータ領域33内のデータはレコ
ード単位にまとめてレコード順に格納されているため、
データ領域内の全フィールドを読みだす必要がある。図
２４のハッシュファイルの例では、索引キーフィールド
３１(FieldA)が特定の値（例えばハッシュ値が１）をと
るレコードのField2だけを読込みたい場合でも、ハッシ
ュ値１に対応するデータ領域３３に含まれる全フィール
ド（Field1〜FieldNまで）を読まなくてはならない。す
なわち、処理に不要なフィールドも読込まなくてはなら
ないという問題点があった。

【００１２】ビットマップ索引においても、索引キーフ
ィールド31の値が特定の値をもつレコードの、特定のフ
ィールドのみ読み出したい場合でも、索引キーフィール
ド３１の値からビットマップを調べビットの立っている
データ領域33を特定できるが、ビットの立っているデー
タ領域内の全フィールドを読まなくてはならない。この
場合も、処理に不要なフィールドも読込まなくてはなら
ないという問題点があった。他の２次索引でも同様の問
題点があった。

【００１３】また２次索引では、原理的には索引を生成
するフィールドのみ読込めば索引を生成できるが、ディ
スク装置内でデータがレコード順に格納され、レコード
内でもそのフィールド定義順に格納されているため、索
引を生成するフィールドのみ読込む事はできず、データ
領域内の全データを読み込む必要がある。そのため索引
生成に不要なデータまで読込まなくてはならないという
問題があった。

【００１４】一方、特願平９−３１９５２７に示されて
いるように、データの格納順序を変えて、転置ファイル
を作成するファイル管理方法もある。図２８を用いて、
転置ファイルを用いたファイル管理方法について説明す
る。1は複数のフィールド２から構成されるレコード３
を複数格納した元ファイルであり、各フィールドの予め
設定した一定件数、例えばLレコードを元ファイルから
分割してブロック４とする。転置ファイル６では、フィ
ールド１のブロックから順に格納して最後にフィールド
Nのブロックを格納する。フィールド１のブロックから
フィールドNのブロックまでを転置ファイル６上で再編
成したものをグループ５と呼ぶ。元ファイル１の全レコ
ード３について、上記グループ５に再編成して、それら
を連結することで転置ファイル６が生成される。

【００１５】図２９に示すとおり、転置ファイル６にお
いては処理に必要なフィールド２のみ読み出すことがで
きる。すなわち処理に必要なフィールド２から構成され
るブロック４のみをグループ５から読み出して入出力バ
ッファに格納することができる。この例では、Field1、
Field4 、Field99のブロックのみ入出力バッファに格
納している。このことで、入出力バッファのサイズの節
約およびI/O時間の短縮による処理の効率化をはかるこ
とができる。

【００１６】図３０に示すとおり、転置ファイル６を用
いたファイル管理方法では、さらに処理を高速化するた
めに、データ領域33ごとに全フィールドの最大値と最小
値を格納したり、レコードの投入順序を付加することが
述べられている。その場合に、特定のフィールド２(例
えばFieldA)が特定の値を持つレコードを読み出すため
には、各データ領域のそのフィールドの最大値と最小値
の間にその値が含まれるデータ領域のみ読込めばよい。
しかし、データが各データ領域33に均等に分散している
場合であれば、結果としてほとんどのデータ領域３３を
読込まなくてはならなくなるという問題点があった。

【００１７】

【発明が解決しようとする課題】従来のデータファイル
及び検索方法においては、例えば、キーの値がある特定
のレコードの特定のフィールドのみ読込むためにも、キ
ーの値からデータ領域33を特定後に、データ領域内の全
てのレコードの全てのフィールドを読まなくてはならな
いという問題点があった。また、２次索引生成において
も、索引生成に不要なフィールドまで読込まなくてはな
らないという問題点があった。一方、転置ファイルを用
いたファイル管理方法に示されているデータ管理方法に
おいて、キーの値がある特定のレコードの特定のフィー
ルドのみ読込む際に、キーの値が特定の値を持つレコー
ドまたは、そのレコードを含むデータ領域をうまく特定
できない場合があり、結果として処理に必要なフィール
ドに関して、全てのレコードから読込まなくてはならな
いという問題点があった。

【００１８】この発明は、上記のような問題点を解消す
るためになされたもので、あるキー値を含むデータ領域
を特定する方法と、データ領域特定後は処理に必要なフ
ィールドのみを読込む事でディスク装置からの読み出し
にかかる時間を減らし、処理を効率化することを目的と
している。また、2次索引生成においても索引生成に必
要なフィールドのみ読込む事で、ディスク装置からの読
み出しにかかる時間を減らし、高速に索引を生成するこ
とを目的としている。

【００１９】

【課題を解決するための手段】この発明に係るデータフ
ァイルは、元ファイルから入力されたレコードのフィー
ルドの値に基き分類しそれらの分類ごとに上記レコード
を格納する領域を示すポインタを設定する索引部、この
索引部により分類された上記レコードの予め設定した一
定件数を各フィールドごとに分割してブロックとして上
記ポインタの示す領域に格納し、それらの分割した各ブ
ロックを全て連結してグループに再編成し、上記レコー
ドの全件について上記グループに再編成後それらのグル
ープを連結した転置ファイルから構成されるものであ
る。

【００２０】また、複数のフィールドから構成されるレ
コードを複数格納した元ファイルから上記フィールドの
予め設定した一定件数を上記元ファイルから分割してブ
ロックとし、それらの分割した各ブロックを全て連結し
てグループに再編成し、上記レコードの全件について上
記グループに再編成後それらのグループを連結した転置
ファイル、上記フィールドの値に基き分類しそれらの分
類ごとに上記レコードの格納領域を示す配列のアドレス
が格納された第１の索引部、上記アドレスごとに分類さ
れたレコードの格納場所を示すレコードＩＤが格納され
た複数の配列からなる第２の索引部から構成されるもの
である。

【００２１】この発明に係るデータ検索方法は、複数の
フィールドから構成されるレコードを複数格納した元フ
ァイルから上記フィールドの予め設定した一定件数を上
記元ファイルから分割してブロックとし、それらの分割
した各ブロックを全て連結してグループに再編成し、上
記レコードの全件について上記グループに再編成後それ
らのグループを連結した転置ファイルにおいて、上記レ
コードの予め設定されたフィールドのキー値を含む上記
グループにフラグを設定したテーブルを生成し、予め設
定されたキー値に対応するレコードを検索するときはそ
のキー値に対応するフラグが設定されている上記グルー
プのレコードを検索するものである。

【００２２】また、上記キー値はキーのハッシュ値から
なるものである。

【００２３】さらに、上記テーブルは上記グループを分
割した後のグループに上記フラグを設定したものであ
る。

【００２４】また、上記テーブルごとに上記一定件数を
設定するものである。

【００２５】さらにまた、上記テーブルは予め設定され
たフィールドの第１のテーブルと予め設定されたフィー
ルドの第２のテーブルからなり、上記第１のテーブル及
び第２のテーブルそれぞれのテーブルに共通するグルー
プの対応するそれぞれのキー値のＡＮＤ条件で上記グル
ープのレコードを検索するものである。

【００２６】また、複数のフィールドから構成されるレ
コードを複数格納した元ファイルから上記フィールドの
予め設定した一定件数を上記元ファイルから分割してブ
ロックとし、それらの分割した各ブロックを全て連結し
てグループに再編成し、上記レコードの全件について上
記グループに再編成後それらのグループを連結した転置
ファイルにおいて、上記レコードの予め設定されたフィ
ールドのグループごとに取り得るフィールド値を列挙し
てテーブルを生成し、上記フィールド値に対応するグル
ープのレコードを検索するものである。

【００２７】さらに、元ファイルから入力されたレコー
ドの予め設定されたフィールドのキー値をハッシュ関数
にかけてハッシュ値を取得し、上記フィールドを含むレ
コードの予め設定した一定件数を各フィールドごとに分
割してブロックとして上記ハッシュ値に対応するデータ
領域に格納し、それらの分割した各ブロックを全て連結
してグループに再編成し、上記レコードの全件について
上記グループに再編成後それらのグループを連結した転
置ファイルにおいて、パケットディレクトリから上記ハ
ッシュ値に対応するデータ領域へのポインタを取得し、
そのポインタの示す上記グループのレコードを検索する
ものである。

【００２８】また、上記元ファイルから入力されたレコ
ードの予め設定されたフィールドのキー値を第１のハッ
シュ関数にかけて得られたハッシュ値に分類された上記
キー値を第２のハッシュ関数にかけてハッシュ値を取得
するものである。

【００２９】さらにまた、上記ポインタの示す上記グル
ープのレコードを予め設定されたフィールドのキー値を
含む上記グループの各レコードごとにフラグを設定した
テーブルに基き上記グループのレコードを検索するもの
である。

【００３０】また、元ファイルから入力されたレコード
の予め設定されたフィールドのキー値の分類を判定し、
上記フィールドを含むレコードの予め設定した一定件数
を各フィールドごとに分割してブロックとして上記分類
に対応するデータ領域に格納し、それらの分割した各ブ
ロックを全て連結してグループに再編成し、上記レコー
ドの全件について上記グループに再編成後それらのグル
ープを連結した転置ファイルにおいて、キー分類ディレ
クトリから上記分類に対応するデータ領域へのポインタ
を取得し、そのポインタの示す上記グループのレコード
を検索するものである。

【００３１】さらに、上記グループのデータ領域が全て
格納済みになったとき新たに１グループ分のデータ領域
を連続して設定するものである。

【００３２】また、元ファイルから入力されたレコード
の予め設定されたフィールドのキー値をルートノードの
キー値と比較しバランストリー構造の構成規則により中
間ノードに移り、その中間ノードにて順次予め設定され
たキー値との比較及びその結果に基く次ノードへの移行
を繰り返し、上記フィールドを含むレコードの予め設定
した一定件数を各フィールドごとに分割してブロックと
してリーフノードのデータ領域に格納し、それらの分割
した各ブロックを全て連結してグループに再編成し、上
記レコードの全件について上記グループに再編成後それ
らのグループを連結した転置ファイルにおいて、上記中
間ノードの最下位に位置する中間ノードのポインタの示
す上記グループのレコードを検索するものである。

【００３３】さらにまた、上記グループのデータ領域が
全て格納済みになったとき上記構成規則に従い上記中間
ノードまたは上記ルートノードを分割し新たなポインタ
を設定しそのポインタの示す１グループ分のデータ領域
を設定するものである。

【００３４】また、複数のフィールドから構成されるレ
コードを複数格納した元ファイルから上記フィールドの
予め設定した一定件数を上記元ファイルから分割してブ
ロックとし、それらの分割した各ブロックを全て連結し
てグループに再編成し、上記レコードの全件について上
記グループに再編成後それらのグループを連結した転置
ファイルにおいて、上記フィールドのキー値をハッシュ
関数にかけてハッシュ値を取得し、そのハッシュ値に対
応したレコードのレコードＩＤが格納されているレコー
ドポインタ配列から上記ハッシュ値に対応するデータ領
域へのポインタを取得し、そのポインタの示す上記グル
ープのレコードを検索するものである。

【００３５】さらに、複数のフィールドから構成される
レコードを複数格納した元ファイルから上記フィールド
の予め設定した一定件数を上記元ファイルから分割して
ブロックとし、それらの分割した各ブロックを全て連結
してグループに再編成し、上記レコードの全件について
上記グループに再編成後それらのグループを連結した転
置ファイルにおいて、バランストリー構造の索引のリー
フノードの各キー値に対応するポインタを取得し、その
ポインタの示すレコードポインタ配列の上記キー値に対
応するレコードＩＤによる上記レコードを検索するもの
である。

【００３６】また、複数のフィールドから構成されるレ
コードを複数格納した元ファイルから上記フィールドの
予め設定した一定件数を上記元ファイルから分割してブ
ロックとし、それらの分割した各ブロックを全て連結し
てグループに再編成し、上記レコードの全件について上
記グループに再編成後それらのグループを連結した転置
ファイルにおいて、上記レコードのフィールドのキー値
を含む上記レコードにフラグを設定したテーブルを上記
グループごとに生成し、予め設定されたキー値に対応す
るレコードを検索するときはそのキー値に対応するフラ
グが設定されている上記レコードを上記グループごとに
検索するものである。

【００３７】さらにまた、複数のフィールドから構成さ
れるレコードを複数格納した元ファイルから上記フィー
ルドの予め設定した一定件数を上記元ファイルから分割
してブロックとし、それらの分割した各ブロックを全て
連結してグループに再編成し、上記レコードの全件につ
いて上記グループに再編成後それらのグループを連結し
た転置ファイルにおいて、バランストリー構造のリーフ
ノードの各キー値に対応するポインタを取得し、そのポ
インタの示すキー値に対応するフラグが設定されている
上記グループの上記レコードを検索するものである。

【００３８】

【発明の実施の形態】実施の形態１．図１は、この発明
の実施の形態１を示すビットマップ索引付き転置ファイ
ルを示すものである。このビットマップ索引は２次索引
であり、あらかじめ生成された転置ファイルに対して、
後からビットマップ索引を付加するものである。転置フ
ァイルは、複数のフィールドから構成されるレコードを
複数格納した元ファイルの、各フィールドの予め設定し
た一定件数、例えばＭレコードを分割してブロック４を
構成し、各ブロックを連結してグループ5に再編成し、
元ファイルの全レコードについて上記グループに再編成
後それらのグループを連結して作成するものである。こ
の図は、フィールドおよびレコードが固定長の場合であ
る。

【００３９】ビットマップ索引は、索引キーフィールド
(FieldA)31のとりうる値のビットをデータ領域の数だけ
確保し、データ領域のビットマップを作成するフィール
ドのブロックを順次読込み、対応する索引キーフィール
ドの値が含まれているデータ領域のビットをON（１）
に、含まれていないデータ領域のビットをOFF（０）に
して作成する。ただし、ここでの索引キーフィールドの
キーは必ずしも主キーを意味するものではなく、索引を
生成するフィールドという広い意味で使用する。この図
では、索引キーフィールド(FieldA)31のとりうる値は'
a','b','c','d','e'の５通りで、データ領域とグループ
が１対１に対応する場合であり、５(ビット)×L(転置フ
ァイルのグループ数)の領域を確保する。次に、１番の
グループのFieldAのブロックに ‘a’を含んでいたら、
対応するビットをON（１）に、含んでいなければOFF
（０）とする。同様に‘b’を含んでいたら、対応する
ビットをON（１）に、含んでいなければOFF（０）とす
る。この図は、１番のグループには、FieldAが'b','c'
となるレコードは含むが、FieldAが'a','d','eとなるレ
コードは含まない場合である。同様にしてすべてのグル
ープに対してビットマップ索引を生成する。

【００４０】図２は、ビットマップ索引付き転置ファイ
ルを用いて、索引キーフィールド31が特定の値をもつレ
コードを処理する時の読込みの処理フローを示すもの
で、読込みたい索引キーフィールドの値のビットマップ
を読込み(ステップS10)、グループのビットがONか調べ
る(ステップS11)。ビットがＯＮ（１）であれば、その
グループから処理に必要なフィールドのブロックを読込
み(ステップS12)、そのグループがビットマップ上の最
後のグループか調べ(ステップＳ13)、最後であれば処理
を終了する。最後のグループでない場合には、次のグル
ープのビットマップを読込む処理（ステップS10）から
繰り返す。ステップＳ11がＮＯであった場合つまりビッ
トがOFF（０）の時には、ステップＳ12はとばし、ステ
ップＳ13から処理を続ける。この処理フローはビットマ
ップをグループ単位に作成する場合である。

【００４１】索引キーフィールド３１が特定の値をもつ
レコードの特定のフィールドを読込む場合は、上記特定
の値のビットマップを調べてビットがON（１）になって
いるグループのグループ番号を取得し、そのグループの
なかの処理に必要なフィールドのブロックのみ読込めば
よいので、読み込み量を削減でき、読み込み時間を短縮
でき処理を効率化できる。また、小さい入出力バッファ
で処理できる効果もある。

【００４２】更には、ビットマップ索引を生成する場合
に、転置ファイルになっているため索引生成に必要な索
引キーフィールドのブロックのみ読込めば生成できるの
で、レコード中の他のフィールドは読込む必要がなく、
通常の格納形式に比べて高速に生成できる効果を有す
る。

【００４３】図１では、グループ単位にビットマップを
作成したが、複数のグループをまとめてビットマップ索
引を作成したり、一つのグループを複数に分割した単位
でビットマップ索引を生成することも可能である。図３
では、グループを二つに分割した単位にビットマップを
作成している。図４は、その場合の読み取りの模式図で
ある。グループの半分の単位にビットマップを作成した
ため、読み込みの単位もグループの半分となる。この図
では、キー値'd'のビットがON（１）になっている、グ
ループ２−1/2（グループ２の前半部分）のフィールドF
ield1、FieldA、FieldNを読込むことを示している。

【００４４】ビットマップ索引ではOＦＦ（０）になっ
ているビットの割合が多いほど処理を効率化できるた
め、ビットマップ索引生成の単位を調節する必要があ
る。ビットマップ索引生成単位の目安は、ビットマップ
索引生成単位に含まれるレコード数がビットマップ生成
フィールドのとりうる値の種類（カーディナリティ）と
同じまたはそれより少なくすればよい。そうすること
で、最低でも１つはOFF（０）のビットができる。図４
では、ブロックの半分単位でビットマップを生成するこ
とで、FieldAが'd'となるレコードを読込む場合には、
グループ番号２のデータ領域に関して後半部分（２／
２）を読む必要がなくなり、読込むデータ量を減らす効
果がある。

【００４５】ビットマップ索引は、複数の任意の索引キ
ーフィールドに対して作成することができるので、特定
のフィールドの組み合わせが特定の値の組合わせとなる
レコードを検索する際にも使用できる。その場合は、組
となる複数のフィールドに対してビットマップ索引を生
成し、それぞれのフィールドのビットマップ索引のそれ
ぞれの値のビットマップを読み込み、それらの論理和
（AND）をとることで、求めるデータ領域を示すビット
マップを構成することができる。図５は、FieldAとFiel
dBに対してビットマップ索引を生成し、FieldA、FieldB
の組み合わせがキー値‘e’,‘x’のそれぞれの値の組
み合わせであるレコードを読込む場合を示しており、両
方のビットが立っているグループ番号３のみ読込めば良
い。例えば、‘e’が商品名で‘x’がその商品の色彩を
表している場合である。実施の形態２．図６は、この発明の実施の形態２を示
す、データ列挙型索引付き転置ファイルを示すものであ
る。このデータ列挙型索引も２次索引であり、あらかじ
め作成された転置ファイル6に対して、後からデータ列
挙型索引を付加するものである。データ列挙型索引は、
索引対象となるデータ領域ごとに索引キーフィールド(F
ieldA)31のとりうる値を列挙するものであり、索引対象
領域の数だけデータ列挙領域を確保し、索引対象領域の
ブロックを順次読込み、索引キーフィールド(FieldA)31
がとる値が新しいもの、つまり索引対象領域で初めて出
現する値であればその値をデータ列挙領域に追加して作
成する。ある索引対象領域用のデータ列挙領域が満杯に
なったら、新たな領域を確保してデータ列挙領域とす
る。この図は、索引対象領域をグループとした場合で、
まずグループ番号１のFieldAのブロックを読み込み、新
しいデータが出現したらデータ列挙領域に追加してい
く。グループ番号１には、FieldAが'ｂ'となるレコード
と'ｃ'となるレコードを含むことを示してあり、途中省
略してグループ番号Lには、FieldAが'a'となるレコード
と'e'となるレコードを含むことを示している。

【００４６】図７は、データ列挙型索引付き転置ファイ
ルを用いて、索引キーフィールド31が特定の値をもつレ
コードを処理する時の読込みの処理フローを示すもの
で、グループのデータ列挙型索引を読込み（ステップS2
0）、読込みたい索引キーフィールドの値が列挙されて
いるか調べ (ステップS21)、列挙されていればそのグル
ープから処理に必要なフィールドのブロックを読込み
(ステップS22)、そのグループがデータ列挙索引上の最
後のグループか調べ(ステップＳ23)、最後であれば処理
を終了する。最後のグループでない場合には、次のグル
ープのデータ列挙型索引を読込む処理（ステップS20）
から繰り返す。ステップＳ21がＮＯであった場合つまり
データが列挙されていない時には、ステップＳ22はとば
し、ステップＳ23から処理を続ける。この処理フローは
索引対象領域をグループとした場合である。

【００４７】索引キーフィールドが特定の値をもつレコ
ードの特定のフィールドを読込む場合は、上記特定の値
とデータ列挙索引に列挙されている値を比較し、その値
が含まれているグループから処理に必要な特定フィール
ドのブロックのみ読込めば良く、読み込み量を削減で
き、読み込み時間を短縮できるので処理を効率化でき
る。また、小さい入出力バッファで処理できる効果もあ
る。実施の形態１と実施の形態２は、いずれも転置ファ
イルのグループもしくはグループを結合または分割した
索引対象領域に、索引キーフィールドが特定の値をもつ
レコードが存在するかどうかを示した索引を利用して転
置ファイルを検索する方式である。これらの変形例とし
ては、より一般的に、索引キーフィールドのそれぞれの
値に対して、転置ファイルのグループもしくはグループ
を結合または分割したそれぞれの索引対象領域に存在す
る値と存在しない値もしくは、存在する可能性のある値
と存在する可能性のない値を判別する手段を提供する索
引を生成し、その索引を用いた転置ファイルの検索方式
として実施することが可能である。上記判別する手段と
しては例えば、索引キーフィールドの値そのものを保持
するのではなく、索引キーフィールドのそれぞれの値を
ある変換規則で変換した値を保持する方法が考えられ
る。図８では、索引キーフィールドのそれぞれの値をハ
ッシュ関数（Module5）にかけてハッシュ値を取得し、
索引対象領域ごとにハッシュ値を保持する方法を示して
いる。このような索引を用いることで、索引キーフィー
ルドが特定の値をもつレコードの特定のフィールドを読
込む際に、読込む必要のあるデータ領域を絞り込むこと
ができ、読み込み時間を短縮できるので処理を効率化で
きる。また、小さい入出力バッファで処理できる効果も
ある。実施の形態３．図９は、この発明の実施の形態３を示す
転置ハッシュファイル生成方法を示すものである。転置
ハッシュファイルは、ハッシュ関数・各ハッシュ値とそ
のハッシュ値をもつデータを格納するデータ領域情報を
格納したパケットディレクトリから構成される転置ハッ
シュファイル索引部32、それぞれのハッシュ値に対応し
たレコードを格納するデータ領域からなる転置ハッシュ
ファイルデータ部34から構成される。この図は、データ
領域とグループ5が１対１に対応する場合である。レコ
ード追加時には、投入レコード3の索引キーフィールド3
1(FieldA)の値をハッシュ関数にかけてハッシュ値を取
得し、パケットディレクトリからハッシュ値に対応する
データ領域33へのポインタを取得し、そのレコードを格
納するデータ領域、すなわちグループ５を求めてレコー
ドを転置して順次追加して格納する。作成された転置ハ
ッシュファイルでは、各グループ５に対応したハッシュ
値をもつレコードがブロック４単位に転置されて格納さ
れている。

【００４８】図１０は、データ領域とグループ5が１対N
（N>= 1）に対応する場合の模式図である。転置ハッシ
ュファイルに新たにレコードを追加する時に、あたらに
レコードを追加するデータ領域のグループが一杯でレコ
ードを追加できない場合には、新たにグループ用の領域
を確保しパケットディレクトリ内のデータ領域情報に新
たに確保したグループ情報を書き加え、あらたに確保し
たグループの先頭に転置して格納する。この例は、ハッ
シュ値=０の領域が一杯になったために、２つ目のグル
ープを格納する領域を確保した場合である。１つのハッ
シュ値に対応するグループが複数ある場合に、パケット
ディレクトリには先頭のグループの情報（ポインタ）の
み格納し、各グループにヘッダ領域を設けてヘッダ領域
に次グループの情報（ポインタ）を格納してもよい。

【００４９】転置ハッシュファイルを用いて、索引キー
フィールド31が特定の値をもつレコードを処理する時の
読込みの処理フローを図１１に示す。読込みたい索引キ
ーフィールドの値からハッシュ関数を用いてハッシュ値
を取得し(ステップS1)、そのハッシュ値からデータ領域
のポインタを得るパケットディレクトリ情報を取得し
(ステップS2)、パケットディレクトリからグループ情報
を取得し（ステップS3）、グループ５のなかから処理に
必要なフィールド２のブロック４を読込み(ステップS
4)、そのグループがS2で求めたパケットディレクトリの
最後のグループか調べ(ステップS５)、最後であれば処
理を終了する。最後のグループでない場合には、次のグ
ループ情報を取得し(ステップS3)、処理を繰り返す。こ
のフローは、複数のグループ情報をパケットディレクト
リに格納する場合である。

【００５０】図１２は、転置ハッシュファイルからデー
タを読込む模式図である。転置ハッシュファイルでは、
索引キーフィールドが特定の値をもつレコードの特定の
フィールドを読む際に、上記特定の値からハッシュ関数
を用いて取得したハッシュ値(例えばハッシュ値が１)か
ら、そのレコードが含まれるデータ領域を特定し、その
データ領域内のグループ毎に特定のフィールド（例えば
Field1とFieldN）のブロックのみ読み出すことができる
ため、入出力バッファの節約および読込み処理の効率化
をはかることができる。実施の形態４図１３は、本発明の実施の形態４を示す、転置レンジフ
ァイルを示すものである。転置レンジファイルは、キー
レンジ判定部と各キーレンジとそのキーレンジの値をも
つデータを格納するデータ領域情報を格納したキーレン
ジディレクトリから構成される転置レンジファイル索引
部32、それぞれのキーレンジに対応したレコードを格納
するデータ領域からなる転置レンジファイルデータ部34
から構成される。この図は、データ領域とグループ5が
１対１に対応する場合である。レコード追加時には、投
入レコード3の索引キーフィールド31(FieldA)の値が含
まれるキーレンジを特定し、キーレンジディレクトリか
ら対応するデータ領域33へのポインタを取得し、そのレ
コードを格納するデータ領域、すなわちグループ５を求
めてレコードを転置して順次追加して格納する。作成さ
れた転置レンジファイルでは、各グループ５には対応し
たキーレンジをもつレコードがブロック４単位に転置さ
れて格納されている。

【００５１】レコード追加時にキーレンジに対応するデ
ータ領域があふれた場合は、新たにグループ用の領域を
確保し、キーレンジディレクトリに新たに確保したグル
ープ情報を追加後、新たに確保したグループの先頭から
転置して追加する。この場合は、データ領域とグループ
が１対N（N>=1）に対応する。１つのキーレンジに対応
するグループが複数ある場合に、キーレンジディレクト
リには先頭のグループの情報（ポインタ）のみ格納し、
各グループにヘッダ領域を設けてヘッダ領域に次グルー
プの情報（ポインタ）を格納してもよい。

【００５２】キーレンジファイルを用いて、索引キーフ
ィールド31が特定の値をもつレコードを処理する時の読
込みの処理フローを図１４に示す。索引キーフィールド
が特定の値であるレコードの特定のフィールドを読込む
ためには、索引キーフィールドの上記特定の値からレン
ジ判定部を用いてキーレンジを取得し(ステップS41)、
そのキーレンジからキーレンジディレクトリ情報を取得
し(ステップS42)、キーレンジディレクトリからグルー
プ情報を取得し（ステップS43）、グループ５のなかか
ら処理に必要なフィールド２のブロック４を読込み(ス
テップS44)、そのグループがS42で求めたキーレンジデ
ィレクトリの最後のグループか調べ(ステップS4５)、最
後であれば処理を終了する。最後のグループでない場合
には、次のグループ情報を取得し(ステップS43)、処理
を繰り返す。

【００５３】レコード追加時に対応するキーレンジが存
在しない場合は、新たなキーレンジを追加する。キーレ
ンジの追加は、新たにデータ領域（グループ）を一つ確
保し、キーレンジディレクトリに新たなキーレンジ用の
領域を確保して、追加するキーレンジと新たに確保した
データ領域の情報を追加して行なう。

【００５４】転置レンジファイルでは、索引キーフィー
ルドが特定の値をもつレコードの特定のフィールドを読
む際に、上記特定の値からレンジ判定部を用いて取得し
たキーレンジ値から、そのレコードが含まれるデータ領
域を特定し、そのデータ領域内の特定のフィールドのブ
ロックのみ読み出すことができるため、入出力バッファ
の節約および読込み処理の効率化を図ることができる。

【００５５】実施の形態３と実施の形態４は、何れも索
引キーフィールドの値でレコードを分類し、分類ごとに
格納するデータ領域を別けて、それぞれのレコードを転
置して格納したものである。これらの変形例としては、
より一般的に、索引キーフィールドの値でレコードを分
類する手段を提供する索引部と、分類ごとにデータを転
置して格納したデータ領域からなるデータ部から構成さ
れるデータ格納方式である。例えばレコードを分類する
手段として、索引キーフィールドの値をあらかじめ分類
しておいて、その分類にしたがってレコードを分類して
格納する方法がある。図１５は、索引キーフィールドを
都道府県名とし、北海道・東北地方、関東地方、中部地
方などのように索引キーフィールドを分類しておき、そ
の分類ごとにデータ格納領域を用意して、レコードを都
道府県の属する地方別に格納する場合である。

【００５６】このようなデータ格納方法にすることで、
索引キーフィールドが特定の値をもつレコードの特定の
フィールドを読む際に、上記特定の値から索引部を用い
てレコードが含まれるデータ領域を特定し、そのデータ
領域内の特定のフィールドのブロックのみ読み出すこと
ができるため、入出力バッファの節約および読込み処理
の効率化を図ることができる。実施の形態５．図１６は、この発明の実施の形態５を示
す、転置B+Treeの生成方法を示すものである。転置B+Tr
eeは索引部32の領域とデータ部34の領域から構成され
る。索引部は１つのルートノードと0個以上の中間ノー
ドから構成される。データ部は１つ以上のリーフノード
から構成される。ルートノードおよび中間ノードにはキ
ー値と次ノードへのポインタのみ格納し、リーフノード
にはキー値を含む全フィールドを格納し、以下の規則で
構成する。正整数ｄに対して、ｄ次の転置B+Treeとは、（イ）ルートノードからリーフノードまでの高さは同じ
である。（ロ）ルートノードには、i個（1<= i <= 2d）のキー値
を順に格納する（ハ）中間ノードには、i個（d <= i <= 2d）のキー値
を順に格納する（ニ）リーフノードには、i個（d <= i <= 2d）のレコ
ードを転置して格納する。（ホ）i個のキー値Key(１)〜Key(i)をもつ非リーフノー
ドは、i +1個の子ノードへのポインタP(１)〜P(i+1)を
もち、ポインタP( j ) ( 1<= j <= i+1 )の指す子ノー
ドに含まれるキーの値PK( j ）は以下を満たす。（１） PK(１)<Key(１）（２） Key( i )<=PK( i+1 ) （３）上記以外は、Key( j )< PK( j ) <=Key( j+1 )
（1 < j < i+1）ただし、 Key( j ) =Key( j+1 )の場合は、PK( j )= Ke
y( j ) （ヘ）必要であれば、リーフノードにヘッダ領域を確保
し、値がとなりあうリーフノード間の片方向または両方
向のチェーンを格納する。図１６はINT[ L/2 ]次（Lは
ブロックを形成するレコード数）の転置B+Treeである。
ただし、INT[X]はXを超えない最大の整数を表す。レコ
ード追加時には、投入レコード3の索引キーフィールド3
1(FieldA)の値をルートノードのキー値（この例では5
6）と比較する。上記構成規則（ホ）より、ノードのキ
ー値より大きいまたは同じならば右のポインタが指す中
間ノードへ、小さければ左のポインタが指す中間ノード
へ移る。その後も順次ノードにあるキー値と比較を繰り
返し上記構成規則（ホ）より子ノードを求め、最終的に
リーフノード（リーフページ）の格納位置、すなわちデ
ータ領域33を決めるものである。この図は、データ領域
33とグループが１対１に対応する場合である。求めたデ
ータ領域中のグループ（ここではSとする）に空きがあ
れば、グループの最後にレコードを転置して追加して終
了する。転置ファイルでは、ブロック単位の読み込みを
行なうので、データ領域内でデータを昇順または降順に
ならべなくても良い。データ領域中のグループが一杯の
場合には、上記構成規則（ホ）に従って、ノードの分割
が発生する。すなわち、ます新たなグループTを用意す
る。求めたグループSのL個のレコード（ブロックを形成
する単位）と挿入レコードを合わせたL＋１個のレコー
ドのうち、キー値の小さい順に INT[(L+1)/2]個を転置
してグループSに、残りを転置してグループTに格納す
る。さらに、Tの中のレコードの索引キーフィールドの
最小値とTへのポインタをペアにして、Sを指す中間ノー
ドへ挿入する。

【００５７】図１７は、転置B+Treeを用いて、索引キー
フィールド31が特定の値をもつレコードを処理する時の
読込みの処理フローを示すもので、まず、読込みたい索
引キーフィールドの値をルートノードのキー値と比較し
（ステップS31）、上記構成規則（ホ）に従って次ノー
ドを取得する。取得した次ノードがリーフノードか調べ
（ステップS32）、リーフノードであれば、リーフノー
ドのグループから必要なブロックを読込み（ステップS3
4）、キー値に対応するグループが他にないか調べるた
めに、親ノードをもう一度調べて（ステップS35）、な
ければ終了する。あれば、次のリーフノードのグループ
から必要なブロックを読込みステップS35以降の処理を
繰り返す。ステップS32で次ノードがリーフノードでな
い場合は、中間ノードを読込み上記構成規則（ホ）に従
って次ノードを取得し（ステップS3３）、次のノードを
読込みステップS32以降の処理を繰り返す。

【００５８】転置ハッシュファイルと同様に、転置B+Tr
eeでも、索引キーフィールドが特定の値をもつレコード
の特定のフィールドを読む際に、索引キーフィールドの
値から索引部を利用してその値をもつレコードが含まれ
るデータ領域を特定し、そのデータ領域内の特定のフィ
ールドのブロックのみ読み出すことができるため、入出
力バッファの節約および読込み処理の効率化を図ること
ができる。

【００５９】本実施の形態の変形例としてはより一般的
に、階層構造（木構造）をもった、索引キーフィールド
の値でレコードを分類する手段を提供する索引部と、分
類ごとにデータを転置して格納したデータ領域から構成
されるデータ格納方法である。図１８は、階層構造（木
構造）をもった索引部として第１のハッシュ関数として
の「ハッシュ関数１」と第２のハッシュ関数としての
「ハッシュ関数２」との２階層の別々のハッシュ関数を
用いる場合を示している。また、住所を索引キーフィー
ルドとして索引を３階層にして、最上位レベルの分類と
して地方（関東地方、中部地方など）とし、中位レベル
の分類として都道府県とし、最下位レベルの分類として
市町村とし、レコードを市町村ごとに分類してそれぞれ
を転置して格納する方法もある。

【００６０】このようなデータ格納方式にすることで、
索引キーフィールドが特定の値をもつレコードの特定の
フィールドを読む際に、上記特定の値から索引部を階層
的に用いてレコードが含まれるデータ領域を特定し、そ
のデータ領域内の特定のフィールドのブロックのみ読み
出すことができるため、入出力バッファの節約および読込み処理の効率化をはかることができる。実施の形態
６．図１９は、この発明の実施の形態６を示す、ハッシ
ュ索引付き転置ファイルである。この実施の形態６も実
施の形態１と同様２次索引であり、何らかの方法で生成
された転置ファイルに対して、後からハッシュ索引を付
加するものである。索引部は、ハッシュ関数、ハッシュ
値とレコードポインタ配列へのポインタを格納したパケ
ットディレクトリ、各ハッシュ値のレコードポインタ配
列から構成される。レコードポインタ配列には、各ハッ
シュ値に対応したレコードのレコードIDが格納されてい
る。各レコードIDは、（グループ番号・グループ内オフ
セット）の組で構成される。ハッシュ索引は、索引を生
成するフィールドのブロックを各グループから順次読込
み、ブロック内のフィールドの値ごとに、その値とハッ
シュ関数を利用してハッシュ値を取得し、取得したハッ
シュ値用のパケットディレクトリから、そのハッシュ値
用のレコードポインタ配列のアドレスを取得して、そこ
にレコードID(グループ番号・グループ内オフセット)を
追加して作成していき、この操作を全グループの対応す
るブロックについて行なって作成する。

【００６１】転置ファイルにハッシュ索引を付加するこ
とで、索引キーフィールドが特定の値を持つレコードを
読み出す時には、その特定の値からハッシュ関数を用い
てハッシュ値を取得し、ハッシュ値から対応するパケッ
トディレクトリのレコードポインタ配列を取得し、そこ
に列挙されているレコード（または対応するグループ）
のみ読込めばよく、読込み時間を短縮して処理を効率化
できる。

【００６２】実施の形態６では、レコードIDとして、
(グループ番号・グループ内オフセット)の組としたが、
読込み単位がブロックであるので、グループ内オフセッ
トを記述せず、グループ番号のみとして処理を効率化す
ることが可能である。

【００６３】通常のファイルにハッシュ索引を付加する
場合は、全てのデータ領域の全てのフィールドを読込む
必要があるが、転置ファイルの場合には、索引を作成す
るフィールドのブロックのみ読込めばハッシュ索引をで
きるので、索引生成時間を短縮できる効果がある。実施の形態７．図２０は、この発明の実施の形態７を示
す、B+Tree索引付き転置ファイルである。この実施の形
態７も実施の形態１、６と同様２次索引であり、何らか
の方法で生成された転置ファイルに対して、後からB+Tr
ee索引を付加するものである。索引部は、１つのルート
ノード、0個以上の中間ノードと１つ以上のリーフノー
ドから構成され、ルートノードと中間ノードにはキー値
と次ノードへのポインタを格納し、リーフノードにはキ
ー値とそのキー値のレコードポインタIDを格納したレコ
ードポインタ配列へのポインタを格納する。レコードポ
インタ配列には、各キー値に対応したレコードのレコー
ドIDが格納されている。レコードIDは、（グループ番号
・グループ内オフセット）の組で構成される。

【００６４】正整数ｄに対して、ｄ次のB+Tree索引付き
転置ファイルの構成規則は、転置B+Treeのリーフノード
の規則（ニ）を除き実施の形態５と同様である。リーフ
ノードの構成規則は以下のとおりである。（ニ ’）リーフノードには、i個（d <= i <= 2d）の
レコードポインタを格納したレコードポインタ配列を格
納する。B+Tree索引は、索引を生成するフィールドのブ
ロックを各グループから順次読込み、ブロック内のフィ
ールドの値ごとに、その値とルートノードのキー値を比
較し、実施の形態５の構成規則（ホ）に従って次ノード
を取得する。次ノードがリーフノードでなければ、リー
フノードになるまで繰り返す。キー値に対応するリーフ
ノードを取得したら、リーフノードからレコードポイン
タ配列を取得し、そこにレコードID(グループ番号・領
域内オフセット)を追加する。レコードポインタ配列に
格納されているレコード数が一杯（2d個）になったら構
成規則に従ってノードの分割が発生する。

【００６５】転置ファイルに、B+Tree索引を付加するこ
とで、索引キーフィールドが特定の値を持つレコードを
読み出す時には、その特定の値をルートノードのキー値
と比較して次ノードを取得し、実施の形態５の構成規則
（ホ）に従って次ノードがリーフノードになるまで比較
を繰り返し、リーフノードから対応するレコードポイン
タ配列を取得し、そこに列挙されているグループのみ読
込めばよく、読込み時間を短縮して処理を効率化でき
る。

【００６６】実施の形態７では、レコードIDとして、
(グループ番号・グループ内オフセット)の組としたが、
読込み単位がブロックであるので、グループ内オフセッ
トを記述せず、グループ番号のみとしても読み込み時間
を短縮することが可能である。

【００６７】実施の形態６と形態７はいずれも、あらか
じめ存在する転置ファイルに対して、索引キーフィール
ドの値ごとに、レコードが格納されている場所を特定す
る手段を提供する索引を後から生成し、その索引を用い
てデータを検索する方法である。図２１は、これらの変
形例としてレコードが格納されている場所を特定する手
段として、レコードIDごとに索引キーフィールドの値の
ビットマップを作成する方法を示している。また、B+Tr
ee以外の木構造の索引を用いる方法もある。

【００６８】転置ファイルに、これらの索引を付加する
ことで、索引キーフィールドが特定の値を持つレコード
を読み出す時には、その特定の値から索引を用いてレコ
ードが格納されている場所を特定しそのレコードを含む
グループの特定のフィールドのブロックのみ読込めばよ
く、読込み時間を短縮して処理を効率化できる。

【００６９】これまで述べてきた全ての実施の形態の変
形例としては、それらの組み合わを考えることができ
る。図２２は、実施の形態３で示した転置ハッシュファ
イルとビットマップ索引の組み合わせを示すもので、ハ
ッシュファイルによって索引キーフィールドが特定の値
をもつレコードが存在するデータ領域を決定し、データ
領域内のそれぞれのレコードに対して、索引キーフィー
ルドの値をビットマップでもつことを示している。この
ことによって、索引キーフィールドが特定の値をもつレ
コードのランダムアクセスを効率的に行なうことができ
る。

【００７０】図２３は、実施の形態１で示したビットマ
ップ索引とB+Tree索引を組み合わせたもので、索引キー
フィールドが特定の値をもつレコードを検索する時の、
上記特定の値のビットマップを取得する部分にB+Tree索
引を用いることで、より効率的にビットマップを取得で
き処理を効率化できる。

【００７１】

【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に示すような効果を奏する。

【００７２】レコードを格納する領域を示すポインタを
設定する索引部により分類されたレコードの予め設定し
た一定件数を転置ファイルとして構成したので、検索時
の入出力効率が良く検索効率の高いデータファイルを得
ることができる。

【００７３】また、転置ファイルのフィールドの値に基
き分類しそれらの分類ごとに配列のアドレスが格納され
た第１の索引部と、上記アドレスごとに分類されたレコ
ードＩＤが格納された複数の配列からなる第２の索引部
とにより構成したので、検索方法が可変で検索効率の高
いデータファイルを得ることができる。

【００７４】さらに、転置ファィルのレコードの予め設
定されたフィールドのキー値を含むグループにフラグを
設定したテーブルを生成し、予め設定されたキー値に対
応するレコードを検索するときはそのキー値に対応する
フラグが設定されている上記グループのレコードを検索
するように構成したので、検索時に必要なフィールドの
み読込むことにより読み出しにかかる時間を減らすこと
ができる。

【００７５】また、キー値はキーのハッシュ値からなる
ように構成したので、検索効率の高い検索方法を得るこ
とができる。

【００７６】さらにまた、テーブルはグループを分割し
た後のグループにフラグを設定するように構成したの
で、検索効率の高い検索方法を得ることができる。

【００７７】また、テーブルごとに一定件数を設定する
ように構成したので、検索効率の高い検索方法を得るこ
とができる。

【００７８】さらに、テーブルは予め設定されたフィー
ルドの第１のテーブルと予め設定されたフィールドの第
２のテーブルからなり、対応するそれぞれのキー値のＡ
ＮＤ条件でグループのレコードを検索するように構成し
たので、検索効率の高い検索方法を得ることができる。

【００７９】また、レコードの予め設定されたフィール
ドのグループごとに取り得るフィールド値を列挙してテ
ーブルを生成し、上記フィールド値に対応するグループ
のレコードを検索する様に構成したので、検索効率の高
い検索方法を得ることができる。

【００８０】さらにまた、パケットディレクトリからハ
ッシュ値に対応するデータ領域へのポインタを取得し、
そのポインタの示すグループのレコードを検索するよう
に構成したので、検索効率の高い検索方法を得ることが
できる。

【００８１】また、フィールドのキー値を第１のハッシ
ュ関数にかけて得られたハッシュ値に分類された上記キ
ー値を第２のハッシュ関数にかけてハッシュ値を取得す
るように構成したので、検索効率の高い検索方法を得る
ことができる。

【００８２】さらに、ポインタの示すグループのレコー
ドを予め設定されたフィールドのキー値を含む上記グル
ープの各レコードごとにフラグを設定したテーブルに基
き上記グループのレコードを検索するように構成したの
で、検索効率の高い検索方法を得ることができる。

【００８３】また、転置ファイルのキー分類ディレクト
リから分類に対応するデータ領域へのポインタを取得
し、そのポインタの示すグループのレコードを検索する
ように構成したので、検索効率の高い検索方法を得るこ
とができる。

【００８４】さらにまた、グループのデータ領域が全て
格納済みになったとき新たに１グループ分のデータ領域
を連続して設定するように構成したので、検索効率の高
い検索方法を得ることができる。

【００８５】また、バランストリー構造における中間ノ
ードの最下位に位置する中間ノードのポインタの示すグ
ループのレコードを検索するように構成したので、検索
効率の高い検索方法を得ることができる。

【００８６】さらに、グループのデータ領域が全て格納
済みになったとき構成規則に従い中間ノードまたはルー
トノードを分割し新たなポインタを設定しそのポインタ
の示す１グループ分のデータ領域を設定するように構成
したので、検索効率の高い検索方法を得ることができ
る。

【００８７】また、転置ファイルのフィールドのキー値
をハッシュ関数にかけてハッシュ値を取得し、そのハッ
シュ値に対応したレコードのレコードＩＤが格納されて
いるレコードポインタ配列から上記ハッシュ値に対応す
るデータ領域へのポインタを取得し、そのポインタの示
す上記グループのレコードを検索するように構成したの
で、検索効率の高い検索方法を得ることができる。

【００８８】さらにまた、転置ファイルにおけるバラン
ストリー構造の索引のリーフノードの各キー値に対応す
るポインタを取得し、そのポインタの示すレコードポイ
ンタ配列の上記キー値に対応するレコードＩＤによるレ
コードを検索するように構成したので、検索効率の高い
検索方法を得ることができる。

【００８９】また、転置ファイルにおいて、レコードの
フィールドのキー値を含むレコードにフラグを設定した
テーブルを上記グループごとに生成し、予め設定された
キー値に対応するレコードを検索するときはそのキー値
に対応するフラグが設定されている上記レコードを上記
グループごとに検索するように構成したので、検索効率
の高い検索方法を得ることができる。

【００９０】さらに、転置ファイルにおいて、バランス
トリー構造のリーフノードの各キー値に対応するポイン
タを取得し、そのポインタの示すキー値に対応するフラ
グが設定されているグループのレコードを検索するよう
に構成したので、検索効率の高い検索方法を得ることが
できる。

【図面の簡単な説明】

【図１】本発明の実施の形態１を示すビットマップ索引
付き転置ファイルの構成図である。

【図２】本発明の実施の形態１を示すビットマップ索引
付き転置ファイルの読み込み処理フロー図である。

【図３】本発明の実施の形態１を示すグループを分割し
て作成したビットマップ索引を示す構成図である。

【図４】本発明の実施の形態１を示すグループを分割し
て作成したビットマップ索引の読み込み模式図である。

【図５】本発明の実施の形態１を示す複数のビットマッ
プ索引の組み合わせを示す模式図である。

【図６】この発明の実施の形態２を示すデータ列挙型索
引付き転置ファイルの構成図である。

【図７】この発明の実施の形態２を示すデータ列挙型索
引付き転置ファイルの読み込み処理フロー図である。

【図８】実施の形態１及び２の変形例を示すハッシュ値
ビットマップ索引付き転置ファイルの構成図である。

【図９】本発明の実施の形態３を示す転置ハッシュファ
イルの構成図である。

【図１０】本発明の実施の形態３を示すデータ領域に複
数のグループが含まれる転置ハッシュファイルの構成図
である。

【図１１】本発明の実施の形態３を示す転置ハッシュフ
ァイルの読み込み処理フローである。

【図１２】本発明の実施の形態３を示す転置ハッシュフ
ァイルの読み込み模式図である。

【図１３】本発明の実施の形態４を示す転置レンジファ
イルの構成図である。

【図１４】本発明の実施の形態４を示す転置レンジファ
イルの読み込み処理フロー図である。

【図１５】実施の形態３及び４の変形例である転置分類
ファイルの構成図である。

【図１６】この発明の実施の形態５を示す転置B+Treeの
構成図である。

【図１７】この発明の実施の形態５を示す転置B+Treeの
読み込み処理フロー図である。

【図１８】この発明の実施の形態５の変形例であるハッ
シュTreeの構成図である。

【図１９】本発明の実施の形態６を示すハッシュ索引付
き転置ファイルの構成図である。

【図２０】本発明の実施の形態７を示すB+Treer索引付
き転置ファイルの構成図である。

【図２１】本発明の実施の形態６及び７の変形例である
レコード単位のビットマップ索引を示す構成図である。

【図２２】ハッシュファイルとビットマップ索引の組み
合わせを示す模式図である。

【図２３】ビットマップ索引とB+Tree索引の組み合わせ
を示す模式図である。

【図２４】従来のハッシュファイルの構成図を示す。

【図２５】従来のハッシュファイルを示す。

【図２６】従来のB+Treeを示す。

【図２７】従来のビットマップ索引を示す。

【図２８】従来の転置ファイルを示す。

【図２９】従来の転置ファイル読み込みを示す模式図で
ある。

【図３０】従来の転置ファイルに最大値・最小値を用い
た構成図である。

【符号の説明】

１：元ファイル２：フィールド３：レコード４：ブロック５：グループ６：転置ファイル３１：キー値３３：データ領域

フロントページの続き (56)参考文献特開2001−22622（ＪＰ，Ａ) 特開2001−22617（ＪＰ，Ａ) 特開平11−154155（ＪＰ，Ａ) 特開平９−62696（ＪＰ，Ａ) 特開平７−191891（ＪＰ，Ａ) 特開平５−334165（ＪＰ，Ａ) 特開平３−230270（ＪＰ，Ａ) 特開平１−237723（ＪＰ，Ａ) 平岡清一、郡光則，三菱”ＤＩＡＰＲＩＳＭ”の高速化技術，三菱電機技報, 日本，三菱電機エンジニアリング株式会社，1998年11月25日，Ｖｏｌ．72，Ｎｏ．11，ｐｐ．62−65，（ＣＳＤＢ企業技報1999−00008−008) 大久保英嗣、津田孝夫，階層転置型ファイルに基づく関係操作アルゴリズム, 情報処理学会論文誌，日本，社団法人情報処理学会，1985年１月15日，Ｖｏｌ．26，Ｎｏ．１，130−147 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00

Claims

(57)【特許請求の範囲】

【請求項１】元ファイルから入力されたレコードのフ
ィールドの値に基き分類しそれらの分類ごとに上記レコ
ードを格納する領域を示すポインタを設定する索引部、
この索引部により分類された上記レコードの予め設定し
た一定件数を各フィールドごとに分割してブロックとし
て上記ポインタの示す領域に格納し、それらの分割した
各ブロックを全て連結してグループに再編成し、上記レ
コードの全件について上記グループに再編成後それらの
グループを連結した転置ファイル部から構成されること
を特徴とするデータファイルシステム。
【請求項２】複数のフィールドから構成されるレコー
ドを複数格納した元ファイルから上記フィールドの予め
設定した一定件数を上記元ファイルから分割してブロッ
クとし、それらの分割した各ブロックを全て連結してグ
ループに再編成し、上記レコードの全件について上記グ
ループに再編成後それらのグループを連結した転置ファ
イル部、上記フィールドの値に基き分類しそれらの分類
ごとに上記レコードの格納領域を示す配列のアドレスが
格納された第１の索引部、上記アドレスごとに分類され
たレコードの格納場所を示すレコードＩＤが格納された
複数の配列からなる第２の索引部から構成されることを
特徴とするデータファイルシステム。
【請求項３】複数のフィールドから構成されるレコー
ドを複数格納した元ファイルから上記フィールドの予め
設定した一定件数を上記元ファイルから分割してブロッ
クとし、それらの分割した各ブロックを全て連結してグ
ループに再編成し、上記レコードの全件について上記グ
ループに再編成後それらのグループを連結した転置ファ
イルにおいて、上記レコードの予め設定されたフィール
ドのキー値を含む上記グループにフラグを設定したテー
ブルを生成し、予め設定されたキー値に対応するレコー
ドを検索するときはそのキー値に対応するフラグが設定
されている上記グループのレコードを検索することを特
徴とするデータ検索方法。
【請求項４】上記キー値はキーのハッシュ値からなる
ことを特徴とする請求項３記載のデータ検索方法。
【請求項５】上記テーブルは上記グループを分割した
後のグループに上記フラグを設定したことを特徴とする
請求項３又は請求項４に記載のデータ検索方法。
【請求項６】上記テーブルごとに上記一定件数を設定
することを特徴とする請求項３又は請求項４に記載のデ
ータ検索方法。
【請求項７】上記テーブルは予め設定されたフィール
ドの第１のテーブルと予め設定されたフィールドの第２
のテーブルからなり、上記第１のテーブル及び第２のテ
ーブルそれぞれのテーブルに共通するグループの対応す
るそれぞれのキー値のＡＮＤ条件で上記グループのレコ
ードを検索することを特徴とする請求項３〜請求項６の
いずれかに記載のデータ検索方法。
【請求項８】複数のフィールドから構成されるレコー
ドを複数格納した元ファイルから上記フィールドの予め
設定した一定件数を上記元ファイルから分割してブロッ
クとし、それらの分割した各ブロックを全て連結してグ
ループに再編成し、上記レコードの全件について上記グ
ループに再編成後それらのグループを連結した転置ファ
イルにおいて、上記レコードの予め設定されたフィール
ドのグループごとに取り得るフィールド値を列挙してテ
ーブルを生成し、上記フィールド値に対応するグループ
のレコードを検索することを特徴とするデータ検索方
法。
【請求項９】元ファイルから入力されたレコードの予
め設定されたフィールドのキー値をハッシュ関数にかけ
てハッシュ値を取得し、上記フィールドを含むレコード
の予め設定した一定件数を各フィールドごとに分割して
ブロックとして上記ハッシュ値に対応するデータ領域に
格納し、それらの分割した各ブロックを全て連結してグ
ループに再編成し、上記レコードの全件について上記グ
ループに再編成後それらのグループを連結した転置ファ
イルにおいて、上記ハッシュ値と上記データ領域のポイ
ンタとを対応付けるパケットディレクトリから上記ハッ
シュ値に対応するデータ領域へのポインタを取得し、そ
のポインタの示す上記グループのレコードを検索するこ
とを特徴とするデータ検索方法。
【請求項１０】上記元ファイルから入力されたレコー
ドの予め設定されたフィールドのキー値を第１のハッシ
ュ関数にかけて得られたハッシュ値に分類された上記キ
ー値を第２のハッシュ関数にかけてハッシュ値を取得す
ることを特徴とする請求項９記載のデータ検索方法。
【請求項１１】上記ポインタの示す上記グループのレ
コードを予め設定されたフィールドのキー値を含む上記
グループの各レコードごとにフラグを設定したテーブル
に基き上記グループのレコードを検索することを特徴と
する請求項９記載のデータ検索方法。
【請求項１２】元ファイルから入力されたレコードの
予め設定されたフィールドのキー値の分類を判定し、上
記フィールドを含むレコードの予め設定した一定件数を
各フィールドごとに分割してブロックとして上記分類に
対応するデータ領域に格納し、それらの分割した各ブロ
ックを全て連結してグループに再編成し、上記レコード
の全件について上記グループに再編成後それらのグルー
プを連結した転置ファイルにおいて、上記分類に対応す
るデータ領域のポインタを格納したキーレンジディレク
トリから上記分類に対応するデータ領域へのポインタを
取得し、そのポインタの示す上記グループのレコードを
検索することを特徴とするデータ検索方法。
【請求項１３】上記グループのデータ領域が全て格納
済みになったとき新たに１グループ分のデータ領域を連
続して設定することを特徴とする請求項１１又は請求項
１２に記載のデータ検索方法。
【請求項１４】元ファイルから入力されたレコードの
予め設定されたフィールドのキー値をルートノードのキ
ー値と比較しバランストリー構造の構成規則により中間
ノードに移り、その中間ノードにて順次予め設定された
キー値との比較及びその結果に基く次ノードへの移行を
繰り返し、上記フィールドを含むレコードの予め設定し
た一定件数を各フィールドごとに分割してブロックとし
てリーフノードのデータ領域に格納し、それらの分割し
た各ブロックを全て連結してグループに再編成し、上記
レコードの全件について上記グループに再編成後それら
のグループを連結した転置ファイルにおいて、上記中間
ノードの最下位に位置する中間ノードのポインタの示す
上記グループのレコードを検索することを特徴とするデ
ータ検索方法。
【請求項１５】上記グループのデータ領域が全て格納
済みになったとき上記構成規則に従い上記中間ノードま
たは上記ルートノードを分割し新たなポインタを設定し
そのポインタの示す１グループ分のデータ領域を設定す
ることを特徴とする請求項１４記載のデータ検索方法。
【請求項１６】複数のフィールドから構成されるレコ
ードを複数格納した元ファイルから上記フィールドの予
め設定した一定件数を上記元ファイルから分割してブロ
ックとし、それらの分割した各ブロックを全て連結して
グループに再編成し、上記レコードの全件について上記
グループに再編成後それらのグループを連結した転置フ
ァイルにおいて、上記フィールドのキー値をハッシュ関
数にかけてハッシュ値を取得し、そのハッシュ値に対応
したレコードのレコードＩＤが格納されているレコード
ポインタ配列から上記ハッシュ値に対応するデータ領域
へのポインタを取得し、そのポインタの示す上記グルー
プのレコードを検索することを特徴とするデータ検索方
法。
【請求項１７】複数のフィールドから構成されるレコ
ードを複数格納した元ファイルから上記フィールドの予
め設定した一定件数を上記元ファイルから分割してブロ
ックとし、それらの分割した各ブロックを全て連結して
グループに再編成し、上記レコードの全件について上記
グループに再編成後それらのグループを連結した転置フ
ァイルにおいて、バランストリー構造の索引のリーフノ
ードの各キー値に対応するポインタを取得し、そのポイ
ンタの示すレコードポインタ配列の上記キー値に対応す
るレコードＩＤによる上記レコードを検索することを特
徴とするデータ検索方法。
【請求項１８】複数のフィールドから構成されるレコ
ードを複数格納した元ファイルから上記フィールドの予
め設定した一定件数を上記元ファイルから分割してブロ
ックとし、それらの分割した各ブロックを全て連結して
グループに再編成し、上記レコードの全件について上記
グループに再編成後それらのグループを連結した転置フ
ァイルにおいて、上記レコードのフィールドのキー値を
含む上記レコードにフラグを設定したテーブルを上記グ
ループごとに生成し、予め設定されたキー値に対応する
レコードを検索するときはそのキー値に対応するフラグ
が設定されている上記レコードを上記グループごとに検
索することを特徴とするデータ検索方法。
【請求項１９】複数のフィールドから構成されるレコ
ードを複数格納した元ファイルから上記フィールドの予
め設定した一定件数を上記元ファイルから分割してブロ
ックとし、それらの分割した各ブロックを全て連結して
グループに再編成し、上記レコードの全件について上記
グループに再編成後それらのグループを連結した転置フ
ァイルにおいて、バランストリー構造のリーフノードの
各キー値に対応するポインタを取得し、そのポインタの
示すキー値に対応するフラグが設定されている上記グル
ープの上記レコードを検索することを特徴とするデータ
検索方法。