JPH08180067A

JPH08180067A - データベースレコード圧縮システム

Info

Publication number: JPH08180067A
Application number: JP6322190A
Authority: JP
Inventors: Minoru Tamura; 稔田村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-12-26
Filing date: 1994-12-26
Publication date: 1996-07-12
Also published as: US5691717A

Abstract

(57)【要約】【目的】データベースが格納されるディスクの容量を効
率的に利用する。【構成】文字列走査手段１１１は、入力ファイル１０１
を走査し、出現文字列１１２を抽出し、該出現文字列１
１２が正式辞書１０３に登録されていれば、該出現文字
列１１２に対応するエントリ番号を圧縮結果出力手段１
１７により圧縮後データベースファイル１０２に出力す
る。該出現文字列１１２が正式辞書１０３に登録されて
いなければ、該出現文字列１１２を仮登録手段１１３に
より仮辞書１０４に登録する。同一の出現文字列１１２
がある回数仮辞書１０４に登録された場合には、該出現
文字列１１２は正式登録決定手段１１５により正式辞書
１０３に登録され、入力ファイル１０１中の全ての文字
列が処理された後で、辞書出力手段１１８により正式辞
書１０３が圧縮後データベースファイル１０２に出力さ
れる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベースのレコー
ド圧縮システムに関し、特に文字列辞書に格納されるデ
ータを圧縮して辞書の格納容量を効率的に利用するデー
タベースレコード圧縮システムに関する。

【０００２】

【従来の技術】特開平３−２４７１６８号公報には、辞
書の各参照番号毎にカウンタを設けて各参照番号の符号
化時に使われた回数を計数しておき、辞書への登録が一
杯になったとき、カウンタの計数値をみて出現頻度の高
い文字列のみを辞書に残し、出現頻度の低い文字列は捨
てて登録空きスペースをつくる辞書の初期化技術が開示
されている。この従来の技術は一般的に静的辞書法と呼
ばれ、学習した履歴の内、出現頻度の高いものが辞書に
残った状態で次の符号化が再開され、符号化の再開時に
既に出現頻度の高い文字列が登録済みとなっていること
から、学習結果を有効に生かした符号化を継続すること
ができる。

【０００３】

【発明が解決しようとする課題】しかしながら、この従
来の技術においては、データ量の多いデータベースを圧
縮する場合、すぐに辞書が一杯になってしまい、新たな
文字列を登録しようとするたびに空きスペースをつくる
ための初期化処理を必要とするようになってしまうとい
う問題点があり、さらに登録したい文字列が十分には登
録できない状況が生じてしまうという問題点がある。

【０００４】本発明の目的は、データベースが格納され
るディスクの容量を効率的に利用することにある。

【０００５】本発明の他の目的は、文字列データを圧縮
して辞書に格納する際に、該辞書の格納容量を効率的に
利用することにある。

【０００６】さらに本発明の他の目的は、入力ファイル
中の文字列データを圧縮する場合に、入力ファイル中で
出現頻度が高い文字列を優先的に圧縮することができる
データベースレコード圧縮システムを提供することにあ
る。

【０００７】さらに本発明の他の目的は、データ量の多
いデータベースを圧縮する場合でも圧縮効率の良いデー
タベースレコード圧縮システムを提供することにある。

【０００８】

【課題を解決するための手段】本発明の第１のデータベ
ースレコード圧縮システムは、データ圧縮の対象となる
レコードデータを格納する入力ファイルと、データ圧縮
されたレコードデータを格納する圧縮後データベースフ
ァイルと、前記入力ファイルから入力したレコードデー
タ中で出現頻度の高い文字列を優先的にデータ圧縮して
前記圧縮後データベースファイルへ格納する正式登録決
定手段とを備えている。

【０００９】本発明の第２のデータベースレコード圧縮
システムは、データ圧縮の対象となるレコードデータを
格納する入力ファイルと、データ圧縮されたレコードデ
ータを格納する圧縮後データベースファイルと、データ
圧縮された文字列の内、この圧縮後データベースファイ
ルに格納されていない文字列を格納する仮辞書と、前記
入力ファイルから入力したレコードデータをバイト文字
列として走査し、抽出した文字列がデータ圧縮されて前
記圧縮後データベースファイルに登録されていなけれ
ば、該文字列をデータ圧縮して前記仮辞書に登録する仮
登録手段と、この仮登録手段が前記仮辞書にデータ圧縮
して登録した文字列の内、前記入力ファイルにおける出
現回数が予め設定した登録回数に達した該文字列を前記
圧縮後データベースファイルに登録する正式登録決定手
段とを備えている。

【００１０】本発明の第３のデータベースレコード圧縮
システムは、データ圧縮の対象となるレコードデータを
格納する入力ファイルと、データ圧縮されたレコードデ
ータを格納する圧縮後データベースファイルと、データ
圧縮された文字列と、該文字列に対応するエントリ番号
とを格納する正式辞書と、データ圧縮された文字列の
内、この正式辞書に格納されていない文字列と、該文字
列に対応するエントリ番号と、該文字列の前記入力ファ
イル中での出現回数とを格納する仮辞書と、前記入力フ
ァイルから入力したレコードデータをバイト文字列とし
て走査し、抽出した文字列がデータ圧縮されて前記正式
辞書に登録されていれば、該文字列に対応するエントリ
番号を読み出す文字列走査手段と、この文字列走査手段
が抽出した文字列がデータ圧縮されて前記正式辞書に登
録されていなければ、該文字列をデータ圧縮して前記仮
辞書に登録する仮登録手段と、この仮登録手段が前記仮
辞書にデータ圧縮して登録した文字列の内、前記入力フ
ァイルにおける出現回数が予め設定した登録回数に達し
た該文字列を前記正式辞書に登録する正式登録決定手段
と、前記仮登録手段が前記仮辞書にデータ圧縮した文字
列を登録した回数が予め設定した初期化回数に達した場
合に、前記仮辞書内のすべてのエントリを初期化する仮
辞書初期化手段と、前記文字列走査手段が読み出した前
記正式辞書のエントリ番号を前記圧縮後データベースフ
ァイルに出力する圧縮結果出力手段と、前記入力ファイ
ル内のすべてのレコードデータをデータ圧縮し終えた時
点で、前記正式辞書を前記圧縮後データベースファイル
に出力する辞書出力手段とを備えている。

【００１１】本発明の第４のデータベースレコード圧縮
システムは、第３のデータベースレコード圧縮システム
において、前記仮登録手段が、前記文字列走査手段が抽
出した文字列をデータ圧縮して前記仮辞書に登録する際
に、前記仮辞書に該文字列を登録する空き領域が無い場
合には、前記入力ファイル中での出現回数が最も少ない
前記仮辞書のエントリを初期化して該文字列を登録す
る。

【００１２】本発明の第５のデータベースレコード圧縮
システムは、第３のデータベースレコード圧縮システム
において、前記仮登録手段が、前記文字列走査手段が抽
出した文字列をデータ圧縮して前記仮辞書に登録する際
に、前記仮辞書に該文字列を登録する空き領域が無い場
合には、前記入力ファイル中での出現回数が１回の前記
仮辞書のエントリを初期化して該文字列を登録する。

【００１３】本発明の第６のデータベースレコード圧縮
システムは、第３、第４、および第５のデータベースレ
コード圧縮システムにおいて、前記仮辞書初期化手段
は、前記仮辞書を初期化する度に、前記初期化回数に１
加算する。

【００１４】本発明の第７のデータベースレコード圧縮
システムは、第３、第４、および第５のデータベースレ
コード圧縮システムにおいて、前記仮辞書初期化手段
は、前記正式登録決定手段が前記正式辞書に登録した文
字列に対応する前記仮辞書内のエントリを初期化する。

【００１５】本発明の第８のデータベースレコード圧縮
システムは、第３、第４、第５、第６、および第７のデ
ータベースレコード圧縮システムにおいて、前記正式登
録決定手段は、前記正式辞書に前記文字列を登録する度
に、前記登録回数に１加算する。

【００１６】本発明の第９のデータベースレコード圧縮
システムは、第３、第４、第５、第６、および第７のデ
ータベースレコード圧縮システムにおいて、前記正式登
録決定手段は、前記正式辞書に登録した前記文字列の数
が、予め設定した複数の既定値を超える度に、前記登録
回数に１加算する。

【００１７】本発明の第１０のデータベースレコード圧
縮システムは、データ圧縮の対象となるレコードデータ
を格納する入力ファイルと、データ圧縮されたレコード
データを格納する圧縮後データベースファイルと、各エ
ントリが、エントリ番号と、登録される文字列の最後の
文字と、該最後の文字の１文字前の文字が登録されてい
る１レベル上位のエントリである親のエントリ番号と、
該最後の文字に接続される次の１文字が登録されている
１レベル下のエントリである子のエントリ番号と、該親
のエントリの１レベル下に位置し、自エントリと同一レ
ベルであるが、該最後の文字より文字コードが小さい文
字が登録されているエントリである左のエントリ番号
と、該親のエントリの１レベル下に位置し、自エントリ
と同一レベルであるが、該最後の文字より文字コードが
大きい文字が登録されているエントリである右のエント
リとを含む正式辞書と、各エントリが、この正式辞書に
対応するエントリ番号と、この正式辞書の対応するエン
トリの該最後の文字に接続されて文字列を表し登録され
る最後の文字と前記入力ファイル内での該文字列の出現
回数とからなる複数の組データとを含む仮辞書と、前記
入力ファイルから入力したレコードデータをバイト文字
列として走査し、抽出した文字列がデータ圧縮されて前
記正式辞書に登録されていれば、該文字列に対応するエ
ントリ番号を読み出す文字列走査手段と、この文字列走
査手段が抽出した文字列がデータ圧縮されて前記正式辞
書に登録されていなければ、該文字列を前記正式辞書を
参照し最後の文字だけにデータ圧縮して前記仮辞書に登
録し、前記出現回数に１加算する仮登録手段と、この仮
登録手段が前記仮辞書にデータ圧縮して登録した文字列
の内、前記入力ファイルにおける出現回数が予め設定し
た登録回数に達した該文字列を前記正式辞書を参照し最
後の文字だけにデータ圧縮して前記正式辞書に登録し、
該登録回数に１加算する正式登録決定手段と、前記仮登
録手段が前記仮辞書にデータ圧縮した文字列を登録した
回数が予め設定した初期化回数に達した場合に、前記仮
辞書内のすべてのエントリを初期化し、さらに該初期化
回数に１加算する仮辞書初期化手段と、前記文字列走査
手段が読み出した前記正式辞書のエントリ番号を前記圧
縮後データベースファイルに出力する圧縮結果出力手段
と、前記入力ファイル内のすべてのレコードデータをデ
ータ圧縮し終えた時点で、前記正式辞書を前記圧縮後デ
ータベースファイルに出力する辞書出力手段とを備えて
いる。

【００１８】

【実施例】以下、本発明の一実施例について、図を参照
しながら詳細に説明する。

【００１９】図１を参照すると、本発明の一実施例であ
るデータベースレコード圧縮システムは、データ圧縮の
対象となるデータレコードを格納する入力ファイル１０
１と、圧縮されたデータを格納する圧縮後データベース
ファイル１０２と、圧縮された文字列と該文字列に対応
するエントリ番号を格納する正式辞書１０３と、前記入
力ファイル１０１から入力した文字列の内、前記正式辞
書１０３に格納されていない文字列を圧縮して格納する
仮辞書１０４と、前記入力ファイル１０１からデータレ
コードを入力してバイト文字列として走査し、抽出した
文字列が前記正式辞書１０３に登録されていれば、該文
字列に対応するエントリ番号を読み出す文字列走査手段
１１１と、この文字列走査手段１１１が走査し、抽出し
た文字列である出現文字列１１２と、この出現文字列１
１２が前記正式辞書１０３に登録されていなければ、該
出現文字列１１２を前記仮辞書１０４に登録する仮登録
手段１１３と、この仮登録手段１１３に登録した文字列
の内、出現回数が予め設定した回数に達した文字列を前
記正式辞書１０３に登録する正式登録決定手段１１４
と、前記仮辞書１０４内に登録した回数が予め設定した
初期化回数１１６に達した場合に、前記仮辞書１０４の
すべてのエントリを初期化する仮辞書初期化手段１１５
と、前記文字列走査手段が読み出した前記正式辞書１０
３のエントリ番号を前記圧縮後データベースファイル１
０２に出力する圧縮結果出力手段１１７と、入力ファイ
ル１０１内の全ての文字列を処理し終わった時点で前記
正式辞書１０３を前記圧縮後データベースファイル１０
２に出力する辞書出力手段１１８とを備えている。

【００２０】図４を参照すると、正式辞書１０３は、２
次元の階層構造で、各行（エントリ）は、辞書に登録さ
れた文字列一つに対応している。各エントリは、エント
リ番号（ＥＮＴＲＹ）、登録文字列の最後の文字（Ｃ
Ｈ）、該最後の文字の１文字前の文字が登録されている
１レベル上位のエントリである親のエントリ番号（Ｕ
Ｐ）、該最後の文字に接続される次の１文字が登録され
ている１レベル下のエントリである子のエントリ番号
（ＤＯＷＮ）、該親のエントリの１レベル下に位置し、
自エントリと同一レベルであるが、該最後の文字より文
字コードが小さい文字が登録されているエントリである
左のエントリ番号（ＬＥＦＴ）、該親のエントリの１レ
ベル下に位置し、自エントリと同一レベルであるが、該
最後の文字より文字コードが大きい文字が登録されてい
るエントリである右のエントリ（ＲＩＧＨＴ）の６要素
から構成されている。ＵＰ、ＤＯＷＮ、ＬＥＦＴ、およ
びＲＩＧＨＴは文字列の参照を高速に行うために階層構
造を採っており、同じレベルの他のエントリは自分より
小さい文字コードの場合はＬＥＦＴ、自分より大きい文
字コードの場合にはＲＩＧＨＴを辿って行けば参照でき
る。

【００２１】例えば図４において、ＡＢの同一レベルで
あるＬＥＦＴにＡＡ、ＲＩＧＨＴにＡＣがある。１つ下
のレベルはＤＯＷＮを辿ることになる。例えばＡのＤＯ
ＷＮにはその下のレベルの代表としてＡＢがあり、ＡＢ
の下のレベルにはＡＢＣがある。逆にＡの１つ下のレベ
ルＡＢ、ＡＡ、ＡＣのＵＰにはＡがある。このような構
造のため、各エントリには文字列すべてを格納する必要
はなく、最後の文字だけがＣＨとして格納されている。

【００２２】図５を参照すると、仮辞書１０４は、２次
元配列構造をしていて、各エントリは正式辞書１０３の
エントリに対応している。各エントリは、正式辞書１０
３に対応するエントリ番号（ＥＮＴＲＹ）と、正式辞書
１０３の対応するエントリの該最後の文字に接続されて
文字列を表し登録される最後の文字（ＣＨ）と入力ファ
イル１０１内での該文字列の出現回数（ＣＮＴ）とから
なる複数の組データから構成されている。ＣＨは正式辞
書１０３の対応するエントリのＣＨにこの仮辞書１０４
のＣＨを付加して文字列とするということを表してい
て、ＣＮＴはこの文字列が出現回数だけ出現したことを
表している。

【００２３】各エントリに対して新たに文字列を仮登録
する場合に、すべての組が埋まっている場合には、出現
回数が最も少ないエントリを初期化して文字列を登録す
る。

【００２４】本実施例では、出現回数が１のものを初期
化して登録するものとする。したがって、出現回数がす
べて２以上であれば、新たな登録は行わない。

【００２５】次に本発明の一実施例であるデータベース
レコード圧縮システムについて、図１〜図５を参照して
説明する。

【００２６】文字列走査手段１１１は、まず出現文字列
１１２を格納する領域を初期化し（ステップ１１）、次
に入力ファイル１０１に未圧縮の文字列が存在している
か否かを判定する（ステップ１２）。

【００２７】文字列走査手段１１１は、ステップ１２に
おいて、入力ファイル１０１に未圧縮の文字列が存在し
ていると判定した場合には、入力ファイル１０１から該
文字列を読み出し、出現文字列１１２とする（ステップ
１４）。

【００２８】次に文字列走査手段１１１は、該出現文字
列１１２が正式辞書１０３に登録されているか否かを判
定する（ステップ１５）。

【００２９】文字列走査手段１１１は、ステップ１５の
判定処理においては、出現文字列１１２を１文字ずつ正
式辞書１０３に登録されている各ＣＨと比較する。例え
ば、出現文字列１１２が「ＡＢＤ」という文字列であっ
た場合、図４の正式辞書１０３を検索すると、「ＡＢ
Ｄ」の最初の１文字「Ａ」はＥＮＴＲＹ１に存在し、該
「Ａ」のＤＯＷＮがＥＮＴＲＹ２を指し、そのＥＮＴＲ
Ｙ２のＣＨが「Ｂ」であることにより、「ＡＢＤ」の２
文字目の「Ｂ」はＥＮＴＲＹ２に存在することになる
が、該「Ｂ」のＤＯＷＮはＥＮＴＲＹ５を指し、そのＥ
ＮＴＲＹ５のＣＨは「Ｃ」であり、かつＬＥＦＴとＲＩ
ＧＨＴは定義されていないことにより、「ＡＢＤ」の３
文字目の「Ｄ」を指すエントリは正式辞書１０３に存在
しないことになり、すなわち出現文字列１１２「ＡＢ
Ｄ」は、正式辞書１０３に登録されていないことにな
る。

【００３０】文字列走査手段１１１は、ステップ１５に
おいて、出現文字列１１２が正式辞書１０３に登録され
ていないと判定した場合には、該出現文字列１１２と、
該該出現文字列１１２が文字列の途中まで正式辞書１０
３に登録されている場合には、その正式辞書１０３に登
録されている最後の文字ＣＨに対応するＥＮＴＲＹとを
仮登録手段１１３に渡す（ステップ１７）。

【００３１】文字列走査手段１１１は、上述の例によれ
ば、出現文字列１１２が「ＡＢＤ」という文字列であっ
た場合、ステップ１７において、出現文字列１１２「Ａ
ＢＤ」と、出現文字列１１２「ＡＢＤ」の２文字目の
「Ｂ」までは正式辞書１０３に登録されているので、そ
の２文字目のＣＨ「Ｂ」に対応するエントリのＥＮＴＲ
Ｙ「２」とを仮登録手段１１３へ渡す。

【００３２】文字列走査手段１１１は、ステップ１５に
おいて、出現文字列１１２が正式辞書１０３に登録され
ていると判定した場合には、正式辞書１０３から該出現
文字列１１２に対応するエントリのＥＮＴＲＹを取り出
して、圧縮結果出力手段１１７に渡し（ステップ１
６）、ステップ１２に戻る。

【００３３】圧縮結果出力手段１１７は、文字列走査手
段１１１から渡されたエントリ番号を圧縮後データベー
スファイル１０２に登録する。

【００３４】仮登録手段１１３は、まず文字列走査手段
１１１から渡された出現文字列１１２が仮辞書１０４に
登録されているか否かを判定する（ステップ３１）。

【００３５】仮登録手段１１３は、ステップ３１におい
て、上述の例によれば、文字列走査手段１１１から渡さ
れた出現文字列１１２「ＡＢＤ」とＥＮＴＲＹ「２」よ
り、仮辞書１０４のＥＮＴＲＹ「２」に出現文字列１１
２「ＡＢＤ」の３文字目の「Ｄ」が登録されているか否
かを判定する。図５の仮辞書１０４においては、ＣＨ
「Ｄ」は登録されていない。

【００３６】仮登録手段１１３は、ステップ３１におい
て、出現文字列１１２が仮辞書１０４に登録されている
と判定した場合には、仮辞書１０４の出現文字列１１２
に対応するエントリの出現回数に１加算する（ステップ
３２）。

【００３７】仮登録手段１１３は、ステップ３１におい
て、出現文字列１１２が仮辞書１０４に登録されていな
いと判定した場合には、出現文字列１１２を仮辞書１０
４に登録し、該エントリの出現回数に１加算する（ステ
ップ３３）。

【００３８】仮登録手段１１３は、ステップ３３におい
て、上述の例によれば、仮辞書１０４のＥＮＴＲＹ
「２」のＣＨ「Ｂ」の次の領域に、ＣＨ「Ｄ」とＣＮＴ
「１」を登録する。

【００３９】仮登録手段１１３は、ステップ３２または
ステップ３３終了後、登録した出現文字列１１２と出現
回数を正式登録決定手段１１４に渡す（ステップ３
４）。

【００４０】次に仮登録手段１１３は、仮辞書１０４へ
の登録の回数が予め設定した初期化回数１１６に達した
か否かを判定する（ステップ３５）。初期化回数１１６
は、仮辞書１０４への登録回数の上限である。

【００４１】仮登録手段１１３は、ステップ３５におい
て、仮辞書１０４への登録の回数が初期化回数１１６に
達したと判定した場合には、仮辞書初期化手段１１５を
起動する（ステップ３６）。

【００４２】仮辞書初期化手段１１５は、仮辞書１０４
中のすべてのエントリの文字と出現回数の領域を０にす
る。

【００４３】仮辞書初期化手段１１５は、初期化を行う
たびに、初期化回数１１６の設定値に１加算するように
してもよい。このようにした場合、出現頻度の低い文字
列でも仮辞書１０４から初期化されずに保持されるよう
になり、正式辞書１０３への登録の機会が増大するとい
う効果が得られる。

【００４４】本実施例においては、仮辞書１０４への登
録回数の上限である初期化回数１１６に達しても依然と
して仮辞書１０４に存在している出現文字列１１２は、
出現頻度が低いと判断して、仮辞書初期化手段１１５に
より仮辞書１０４中のすべてのエントリの文字と出現回
数の領域を初期化してしまう例を説明したが、ステップ
３４において正式登録決定手段１１４に渡した出現文字
列１１２が正式辞書１０３に登録された場合に、仮辞書
初期化手段１１５により該出現文字列１１２に対応する
エントリを仮辞書１０４から削除するようにしてもよ
い。

【００４５】正式登録決定手段１１４は、仮登録手段１
１３から渡された出現回数を予め設定した、出現文字列
１１２を正式辞書１０３に登録するために必要な回数と
比較し、出現回数が登録回数に達した場合には、該出現
文字列１１２を正式辞書１０３に登録する。

【００４６】正式登録決定手段１１４は、上述の例によ
れば、図４の正式辞書１０３においては、出現文字列１
１２「ＡＢＤ」はＥＮＴＲＹ「１」のＣＨ「Ａ」のＤＯ
ＷＮ「２」が指す、ＥＮＴＲＹ「２」のＣＨ「Ｂ」のＤ
ＯＷＮ「５」が指す、ＥＮＴＲＹ「５」のＣＨ「Ｃ」に
ＬＥＦＴまたはＲＩＧＨＴが存在しないことにより、該
ＥＮＴＲＹ「５」のＲＩＧＨＴに「６」をセットし、さ
らにＥＮＴＲＹ「６」、ＣＨ「Ｄ」、ＵＰ「２」のエン
トリを正式辞書１０３に登録する。

【００４７】正式登録決定手段１１４は、正式辞書１０
３に出現文字列１１２を登録するたびに、正式辞書１０
３への登録回数の設定値に１加算するようにしてもよ
い。また、正式登録された文字列の数を管理し、その数
が予め設定した複数の既定数を超える度に正式辞書１０
３への登録回数の設定値を１加算するようにしてもよ
い。このように正式辞書１０３への登録回数の設定を増
大すると正式辞書１０３への出現文字列１１２の登録が
困難になり、最終的に圧縮された文字列が格納される圧
縮後データベースファイル１０２内のデータ量が抑えら
れるという効果が得られる。

【００４８】文字列走査手段１１１は、ステップ１２に
おいて、入力ファイル１０１にもはや未圧縮の文字列は
存在しないと判定した場合には、辞書出力手段１１８に
より正式辞書１０３の内容を圧縮後データベースファイ
ル１０２に出力する（ステップ１３）。

【００４９】以上により、本発明の一実施例であるデー
タベースレコード圧縮システムの処理が完了する。

【００５０】本発明の一実施例であるデータベースレコ
ード圧縮システムは、入力ファイル中の文字列データを
圧縮する場合に、入力ファイル中で出現頻度が高い文字
列を優先的に圧縮することができる効果を有している。

【００５１】

【発明の効果】以上説明したように、本発明のデータベ
ースレコード圧縮システムは、入力ファイル中の文字列
データを圧縮する場合に、入力ファイル中で出現頻度が
高い文字列を優先的に圧縮することができるので、辞書
に格納する際に、該辞書の格納容量を効率的に利用する
ことができる効果を有している。

【００５２】また、データ量の多いデータベースを圧縮
する場合でも圧縮効率が良く、データベースが格納され
るディスクの容量を効率的に利用することができる効果
を有している。

【図面の簡単な説明】

【図１】本発明の一実施例を示すブロック図である。

【図２】本発明の一実施例における文字列走査手段１１
１の処理を示す流れ図である。

【図３】本発明の一実施例における仮登録手段１１３の
処理を示す流れ図である。

【図４】本発明の一実施例における正式辞書１０３の内
容を示す図である。

【図５】本発明の一実施例における仮辞書１０４の内容
を示す図である。

【符号の説明】

１０１入力ファイル１０２圧縮後データベースファイル１０３正式辞書１０４仮辞書１０５登録文字列１０６エントリ番号１０７仮登録文字列１０８出現回数１１１文字列走査手段１１２出現文字列１１３仮登録手段１１４正式登録決定手段１１５仮辞書初期化手段１１６初期化回数１１７圧縮結果出力手段１１８辞書出力手段

Claims

【特許請求の範囲】

【請求項１】データ圧縮の対象となるレコードデータ
を格納する入力ファイルと、データ圧縮されたレコード
データを格納する圧縮後データベースファイルと、前記
入力ファイルから入力したレコードデータ中で出現頻度
の高い文字列を優先的にデータ圧縮して前記圧縮後デー
タベースファイルへ格納する正式登録決定手段とを備え
たことを特徴とするデータベースレコード圧縮システ
ム。
【請求項２】データ圧縮の対象となるレコードデータ
を格納する入力ファイルと、データ圧縮されたレコード
データを格納する圧縮後データベースファイルと、デー
タ圧縮された文字列の内、この圧縮後データベースファ
イルに格納されていない文字列を格納する仮辞書と、前
記入力ファイルから入力したレコードデータをバイト文
字列として走査し、抽出した文字列がデータ圧縮されて
前記圧縮後データベースファイルに登録されていなけれ
ば、該文字列をデータ圧縮して前記仮辞書に登録する仮
登録手段と、この仮登録手段が前記仮辞書にデータ圧縮
して登録した文字列の内、前記入力ファイルにおける出
現回数が予め設定した登録回数に達した該文字列を前記
圧縮後データベースファイルに登録する正式登録決定手
段とを備えたことを特徴とするデータベースレコード圧
縮システム。
【請求項３】データ圧縮の対象となるレコードデータ
を格納する入力ファイルと、データ圧縮されたレコード
データを格納する圧縮後データベースファイルと、デー
タ圧縮された文字列と、該文字列に対応するエントリ番
号とを格納する正式辞書と、データ圧縮された文字列の
内、この正式辞書に格納されていない文字列と、該文字
列に対応するエントリ番号と、該文字列の前記入力ファ
イル中での出現回数とを格納する仮辞書と、前記入力フ
ァイルから入力したレコードデータをバイト文字列とし
て走査し、抽出した文字列がデータ圧縮されて前記正式
辞書に登録されていれば、該文字列に対応するエントリ
番号を読み出す文字列走査手段と、この文字列走査手段
が抽出した文字列がデータ圧縮されて前記正式辞書に登
録されていなければ、該文字列をデータ圧縮して前記仮
辞書に登録する仮登録手段と、この仮登録手段が前記仮
辞書にデータ圧縮して登録した文字列の内、前記入力フ
ァイルにおける出現回数が予め設定した登録回数に達し
た該文字列を前記正式辞書に登録する正式登録決定手段
と、前記仮登録手段が前記仮辞書にデータ圧縮した文字
列を登録した回数が予め設定した初期化回数に達した場
合に、前記仮辞書内のすべてのエントリを初期化する仮
辞書初期化手段と、前記文字列走査手段が読み出した前
記正式辞書のエントリ番号を前記圧縮後データベースフ
ァイルに出力する圧縮結果出力手段と、前記入力ファイ
ル内のすべてのレコードデータをデータ圧縮し終えた時
点で、前記正式辞書を前記圧縮後データベースファイル
に出力する辞書出力手段とを備えたことを特徴とするデ
ータベースレコード圧縮システム。
【請求項４】前記仮登録手段は、前記文字列走査手段
が抽出した文字列をデータ圧縮して前記仮辞書に登録す
る際に、前記仮辞書に該文字列を登録する空き領域が無
い場合には、前記入力ファイル中での出現回数が最も少
ない前記仮辞書のエントリを初期化して該文字列を登録
することを特徴とする請求項３記載のデータベースレコ
ード圧縮システム。
【請求項５】前記仮登録手段は、前記文字列走査手段
が抽出した文字列をデータ圧縮して前記仮辞書に登録す
る際に、前記仮辞書に該文字列を登録する空き領域が無
い場合には、前記入力ファイル中での出現回数が１回の
前記仮辞書のエントリを初期化して該文字列を登録する
ことを特徴とする請求項３記載のデータベースレコード
圧縮システム。
【請求項６】前記仮辞書初期化手段は、前記仮辞書を
初期化する度に、前記初期化回数に１加算することを特
徴とする請求項３、請求項４、および請求項５記載のデ
ータベースレコード圧縮システム。
【請求項７】前記仮辞書初期化手段は、前記正式登録
決定手段が前記正式辞書に登録した文字列に対応する前
記仮辞書内のエントリを初期化することを特徴とする請
求項３、請求項４、および請求項５記載のデータベース
レコード圧縮システム。
【請求項８】前記正式登録決定手段は、前記正式辞書
に前記文字列を登録する度に、前記登録回数に１加算す
ることを特徴とする請求項３、請求項４、請求項５、請
求項６、および請求項７記載のデータベースレコード圧
縮システム。
【請求項９】前記正式登録決定手段は、前記正式辞書
に登録した前記文字列の数が、予め設定した複数の既定
値を超える度に、前記登録回数に１加算することを特徴
とする請求項３、請求項４、請求項５、請求項６、およ
び請求項７記載のデータベースレコード圧縮システム。