JPH08180067A - データベースレコード圧縮システム - Google Patents

データベースレコード圧縮システム

Info

Publication number
JPH08180067A
JPH08180067A JP6322190A JP32219094A JPH08180067A JP H08180067 A JPH08180067 A JP H08180067A JP 6322190 A JP6322190 A JP 6322190A JP 32219094 A JP32219094 A JP 32219094A JP H08180067 A JPH08180067 A JP H08180067A
Authority
JP
Japan
Prior art keywords
character string
dictionary
data
temporary
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6322190A
Other languages
English (en)
Inventor
Minoru Tamura
稔 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6322190A priority Critical patent/JPH08180067A/ja
Priority to US08/577,215 priority patent/US5691717A/en
Publication of JPH08180067A publication Critical patent/JPH08180067A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/005Statistical coding, e.g. Huffman, run length coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

(57)【要約】 【目的】データベースが格納されるディスクの容量を効
率的に利用する。 【構成】文字列走査手段111は、入力ファイル101
を走査し、出現文字列112を抽出し、該出現文字列1
12が正式辞書103に登録されていれば、該出現文字
列112に対応するエントリ番号を圧縮結果出力手段1
17により圧縮後データベースファイル102に出力す
る。該出現文字列112が正式辞書103に登録されて
いなければ、該出現文字列112を仮登録手段113に
より仮辞書104に登録する。同一の出現文字列112
がある回数仮辞書104に登録された場合には、該出現
文字列112は正式登録決定手段115により正式辞書
103に登録され、入力ファイル101中の全ての文字
列が処理された後で、辞書出力手段118により正式辞
書103が圧縮後データベースファイル102に出力さ
れる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースのレコー
ド圧縮システムに関し、特に文字列辞書に格納されるデ
ータを圧縮して辞書の格納容量を効率的に利用するデー
タベースレコード圧縮システムに関する。
【0002】
【従来の技術】特開平3−247168号公報には、辞
書の各参照番号毎にカウンタを設けて各参照番号の符号
化時に使われた回数を計数しておき、辞書への登録が一
杯になったとき、カウンタの計数値をみて出現頻度の高
い文字列のみを辞書に残し、出現頻度の低い文字列は捨
てて登録空きスペースをつくる辞書の初期化技術が開示
されている。この従来の技術は一般的に静的辞書法と呼
ばれ、学習した履歴の内、出現頻度の高いものが辞書に
残った状態で次の符号化が再開され、符号化の再開時に
既に出現頻度の高い文字列が登録済みとなっていること
から、学習結果を有効に生かした符号化を継続すること
ができる。
【0003】
【発明が解決しようとする課題】しかしながら、この従
来の技術においては、データ量の多いデータベースを圧
縮する場合、すぐに辞書が一杯になってしまい、新たな
文字列を登録しようとするたびに空きスペースをつくる
ための初期化処理を必要とするようになってしまうとい
う問題点があり、さらに登録したい文字列が十分には登
録できない状況が生じてしまうという問題点がある。
【0004】本発明の目的は、データベースが格納され
るディスクの容量を効率的に利用することにある。
【0005】本発明の他の目的は、文字列データを圧縮
して辞書に格納する際に、該辞書の格納容量を効率的に
利用することにある。
【0006】さらに本発明の他の目的は、入力ファイル
中の文字列データを圧縮する場合に、入力ファイル中で
出現頻度が高い文字列を優先的に圧縮することができる
データベースレコード圧縮システムを提供することにあ
る。
【0007】さらに本発明の他の目的は、データ量の多
いデータベースを圧縮する場合でも圧縮効率の良いデー
タベースレコード圧縮システムを提供することにある。
【0008】
【課題を解決するための手段】本発明の第1のデータベ
ースレコード圧縮システムは、データ圧縮の対象となる
レコードデータを格納する入力ファイルと、データ圧縮
されたレコードデータを格納する圧縮後データベースフ
ァイルと、前記入力ファイルから入力したレコードデー
タ中で出現頻度の高い文字列を優先的にデータ圧縮して
前記圧縮後データベースファイルへ格納する正式登録決
定手段とを備えている。
【0009】本発明の第2のデータベースレコード圧縮
システムは、データ圧縮の対象となるレコードデータを
格納する入力ファイルと、データ圧縮されたレコードデ
ータを格納する圧縮後データベースファイルと、データ
圧縮された文字列の内、この圧縮後データベースファイ
ルに格納されていない文字列を格納する仮辞書と、前記
入力ファイルから入力したレコードデータをバイト文字
列として走査し、抽出した文字列がデータ圧縮されて前
記圧縮後データベースファイルに登録されていなけれ
ば、該文字列をデータ圧縮して前記仮辞書に登録する仮
登録手段と、この仮登録手段が前記仮辞書にデータ圧縮
して登録した文字列の内、前記入力ファイルにおける出
現回数が予め設定した登録回数に達した該文字列を前記
圧縮後データベースファイルに登録する正式登録決定手
段とを備えている。
【0010】本発明の第3のデータベースレコード圧縮
システムは、データ圧縮の対象となるレコードデータを
格納する入力ファイルと、データ圧縮されたレコードデ
ータを格納する圧縮後データベースファイルと、データ
圧縮された文字列と、該文字列に対応するエントリ番号
とを格納する正式辞書と、データ圧縮された文字列の
内、この正式辞書に格納されていない文字列と、該文字
列に対応するエントリ番号と、該文字列の前記入力ファ
イル中での出現回数とを格納する仮辞書と、前記入力フ
ァイルから入力したレコードデータをバイト文字列とし
て走査し、抽出した文字列がデータ圧縮されて前記正式
辞書に登録されていれば、該文字列に対応するエントリ
番号を読み出す文字列走査手段と、この文字列走査手段
が抽出した文字列がデータ圧縮されて前記正式辞書に登
録されていなければ、該文字列をデータ圧縮して前記仮
辞書に登録する仮登録手段と、この仮登録手段が前記仮
辞書にデータ圧縮して登録した文字列の内、前記入力フ
ァイルにおける出現回数が予め設定した登録回数に達し
た該文字列を前記正式辞書に登録する正式登録決定手段
と、前記仮登録手段が前記仮辞書にデータ圧縮した文字
列を登録した回数が予め設定した初期化回数に達した場
合に、前記仮辞書内のすべてのエントリを初期化する仮
辞書初期化手段と、前記文字列走査手段が読み出した前
記正式辞書のエントリ番号を前記圧縮後データベースフ
ァイルに出力する圧縮結果出力手段と、前記入力ファイ
ル内のすべてのレコードデータをデータ圧縮し終えた時
点で、前記正式辞書を前記圧縮後データベースファイル
に出力する辞書出力手段とを備えている。
【0011】本発明の第4のデータベースレコード圧縮
システムは、第3のデータベースレコード圧縮システム
において、前記仮登録手段が、前記文字列走査手段が抽
出した文字列をデータ圧縮して前記仮辞書に登録する際
に、前記仮辞書に該文字列を登録する空き領域が無い場
合には、前記入力ファイル中での出現回数が最も少ない
前記仮辞書のエントリを初期化して該文字列を登録す
る。
【0012】本発明の第5のデータベースレコード圧縮
システムは、第3のデータベースレコード圧縮システム
において、前記仮登録手段が、前記文字列走査手段が抽
出した文字列をデータ圧縮して前記仮辞書に登録する際
に、前記仮辞書に該文字列を登録する空き領域が無い場
合には、前記入力ファイル中での出現回数が1回の前記
仮辞書のエントリを初期化して該文字列を登録する。
【0013】本発明の第6のデータベースレコード圧縮
システムは、第3、第4、および第5のデータベースレ
コード圧縮システムにおいて、前記仮辞書初期化手段
は、前記仮辞書を初期化する度に、前記初期化回数に1
加算する。
【0014】本発明の第7のデータベースレコード圧縮
システムは、第3、第4、および第5のデータベースレ
コード圧縮システムにおいて、前記仮辞書初期化手段
は、前記正式登録決定手段が前記正式辞書に登録した文
字列に対応する前記仮辞書内のエントリを初期化する。
【0015】本発明の第8のデータベースレコード圧縮
システムは、第3、第4、第5、第6、および第7のデ
ータベースレコード圧縮システムにおいて、前記正式登
録決定手段は、前記正式辞書に前記文字列を登録する度
に、前記登録回数に1加算する。
【0016】本発明の第9のデータベースレコード圧縮
システムは、第3、第4、第5、第6、および第7のデ
ータベースレコード圧縮システムにおいて、前記正式登
録決定手段は、前記正式辞書に登録した前記文字列の数
が、予め設定した複数の既定値を超える度に、前記登録
回数に1加算する。
【0017】本発明の第10のデータベースレコード圧
縮システムは、データ圧縮の対象となるレコードデータ
を格納する入力ファイルと、データ圧縮されたレコード
データを格納する圧縮後データベースファイルと、各エ
ントリが、エントリ番号と、登録される文字列の最後の
文字と、該最後の文字の1文字前の文字が登録されてい
る1レベル上位のエントリである親のエントリ番号と、
該最後の文字に接続される次の1文字が登録されている
1レベル下のエントリである子のエントリ番号と、該親
のエントリの1レベル下に位置し、自エントリと同一レ
ベルであるが、該最後の文字より文字コードが小さい文
字が登録されているエントリである左のエントリ番号
と、該親のエントリの1レベル下に位置し、自エントリ
と同一レベルであるが、該最後の文字より文字コードが
大きい文字が登録されているエントリである右のエント
リとを含む正式辞書と、各エントリが、この正式辞書に
対応するエントリ番号と、この正式辞書の対応するエン
トリの該最後の文字に接続されて文字列を表し登録され
る最後の文字と前記入力ファイル内での該文字列の出現
回数とからなる複数の組データとを含む仮辞書と、前記
入力ファイルから入力したレコードデータをバイト文字
列として走査し、抽出した文字列がデータ圧縮されて前
記正式辞書に登録されていれば、該文字列に対応するエ
ントリ番号を読み出す文字列走査手段と、この文字列走
査手段が抽出した文字列がデータ圧縮されて前記正式辞
書に登録されていなければ、該文字列を前記正式辞書を
参照し最後の文字だけにデータ圧縮して前記仮辞書に登
録し、前記出現回数に1加算する仮登録手段と、この仮
登録手段が前記仮辞書にデータ圧縮して登録した文字列
の内、前記入力ファイルにおける出現回数が予め設定し
た登録回数に達した該文字列を前記正式辞書を参照し最
後の文字だけにデータ圧縮して前記正式辞書に登録し、
該登録回数に1加算する正式登録決定手段と、前記仮登
録手段が前記仮辞書にデータ圧縮した文字列を登録した
回数が予め設定した初期化回数に達した場合に、前記仮
辞書内のすべてのエントリを初期化し、さらに該初期化
回数に1加算する仮辞書初期化手段と、前記文字列走査
手段が読み出した前記正式辞書のエントリ番号を前記圧
縮後データベースファイルに出力する圧縮結果出力手段
と、前記入力ファイル内のすべてのレコードデータをデ
ータ圧縮し終えた時点で、前記正式辞書を前記圧縮後デ
ータベースファイルに出力する辞書出力手段とを備えて
いる。
【0018】
【実施例】以下、本発明の一実施例について、図を参照
しながら詳細に説明する。
【0019】図1を参照すると、本発明の一実施例であ
るデータベースレコード圧縮システムは、データ圧縮の
対象となるデータレコードを格納する入力ファイル10
1と、圧縮されたデータを格納する圧縮後データベース
ファイル102と、圧縮された文字列と該文字列に対応
するエントリ番号を格納する正式辞書103と、前記入
力ファイル101から入力した文字列の内、前記正式辞
書103に格納されていない文字列を圧縮して格納する
仮辞書104と、前記入力ファイル101からデータレ
コードを入力してバイト文字列として走査し、抽出した
文字列が前記正式辞書103に登録されていれば、該文
字列に対応するエントリ番号を読み出す文字列走査手段
111と、この文字列走査手段111が走査し、抽出し
た文字列である出現文字列112と、この出現文字列1
12が前記正式辞書103に登録されていなければ、該
出現文字列112を前記仮辞書104に登録する仮登録
手段113と、この仮登録手段113に登録した文字列
の内、出現回数が予め設定した回数に達した文字列を前
記正式辞書103に登録する正式登録決定手段114
と、前記仮辞書104内に登録した回数が予め設定した
初期化回数116に達した場合に、前記仮辞書104の
すべてのエントリを初期化する仮辞書初期化手段115
と、前記文字列走査手段が読み出した前記正式辞書10
3のエントリ番号を前記圧縮後データベースファイル1
02に出力する圧縮結果出力手段117と、入力ファイ
ル101内の全ての文字列を処理し終わった時点で前記
正式辞書103を前記圧縮後データベースファイル10
2に出力する辞書出力手段118とを備えている。
【0020】図4を参照すると、正式辞書103は、2
次元の階層構造で、各行(エントリ)は、辞書に登録さ
れた文字列一つに対応している。各エントリは、エント
リ番号(ENTRY)、登録文字列の最後の文字(C
H)、該最後の文字の1文字前の文字が登録されている
1レベル上位のエントリである親のエントリ番号(U
P)、該最後の文字に接続される次の1文字が登録され
ている1レベル下のエントリである子のエントリ番号
(DOWN)、該親のエントリの1レベル下に位置し、
自エントリと同一レベルであるが、該最後の文字より文
字コードが小さい文字が登録されているエントリである
左のエントリ番号(LEFT)、該親のエントリの1レ
ベル下に位置し、自エントリと同一レベルであるが、該
最後の文字より文字コードが大きい文字が登録されてい
るエントリである右のエントリ(RIGHT)の6要素
から構成されている。UP、DOWN、LEFT、およ
びRIGHTは文字列の参照を高速に行うために階層構
造を採っており、同じレベルの他のエントリは自分より
小さい文字コードの場合はLEFT、自分より大きい文
字コードの場合にはRIGHTを辿って行けば参照でき
る。
【0021】例えば図4において、ABの同一レベルで
あるLEFTにAA、RIGHTにACがある。1つ下
のレベルはDOWNを辿ることになる。例えばAのDO
WNにはその下のレベルの代表としてABがあり、AB
の下のレベルにはABCがある。逆にAの1つ下のレベ
ルAB、AA、ACのUPにはAがある。このような構
造のため、各エントリには文字列すべてを格納する必要
はなく、最後の文字だけがCHとして格納されている。
【0022】図5を参照すると、仮辞書104は、2次
元配列構造をしていて、各エントリは正式辞書103の
エントリに対応している。各エントリは、正式辞書10
3に対応するエントリ番号(ENTRY)と、正式辞書
103の対応するエントリの該最後の文字に接続されて
文字列を表し登録される最後の文字(CH)と入力ファ
イル101内での該文字列の出現回数(CNT)とから
なる複数の組データから構成されている。CHは正式辞
書103の対応するエントリのCHにこの仮辞書104
のCHを付加して文字列とするということを表してい
て、CNTはこの文字列が出現回数だけ出現したことを
表している。
【0023】各エントリに対して新たに文字列を仮登録
する場合に、すべての組が埋まっている場合には、出現
回数が最も少ないエントリを初期化して文字列を登録す
る。
【0024】本実施例では、出現回数が1のものを初期
化して登録するものとする。したがって、出現回数がす
べて2以上であれば、新たな登録は行わない。
【0025】次に本発明の一実施例であるデータベース
レコード圧縮システムについて、図1〜図5を参照して
説明する。
【0026】文字列走査手段111は、まず出現文字列
112を格納する領域を初期化し(ステップ11)、次
に入力ファイル101に未圧縮の文字列が存在している
か否かを判定する(ステップ12)。
【0027】文字列走査手段111は、ステップ12に
おいて、入力ファイル101に未圧縮の文字列が存在し
ていると判定した場合には、入力ファイル101から該
文字列を読み出し、出現文字列112とする(ステップ
14)。
【0028】次に文字列走査手段111は、該出現文字
列112が正式辞書103に登録されているか否かを判
定する(ステップ15)。
【0029】文字列走査手段111は、ステップ15の
判定処理においては、出現文字列112を1文字ずつ正
式辞書103に登録されている各CHと比較する。例え
ば、出現文字列112が「ABD」という文字列であっ
た場合、図4の正式辞書103を検索すると、「AB
D」の最初の1文字「A」はENTRY1に存在し、該
「A」のDOWNがENTRY2を指し、そのENTR
Y2のCHが「B」であることにより、「ABD」の2
文字目の「B」はENTRY2に存在することになる
が、該「B」のDOWNはENTRY5を指し、そのE
NTRY5のCHは「C」であり、かつLEFTとRI
GHTは定義されていないことにより、「ABD」の3
文字目の「D」を指すエントリは正式辞書103に存在
しないことになり、すなわち出現文字列112「AB
D」は、正式辞書103に登録されていないことにな
る。
【0030】文字列走査手段111は、ステップ15に
おいて、出現文字列112が正式辞書103に登録され
ていないと判定した場合には、該出現文字列112と、
該該出現文字列112が文字列の途中まで正式辞書10
3に登録されている場合には、その正式辞書103に登
録されている最後の文字CHに対応するENTRYとを
仮登録手段113に渡す(ステップ17)。
【0031】文字列走査手段111は、上述の例によれ
ば、出現文字列112が「ABD」という文字列であっ
た場合、ステップ17において、出現文字列112「A
BD」と、出現文字列112「ABD」の2文字目の
「B」までは正式辞書103に登録されているので、そ
の2文字目のCH「B」に対応するエントリのENTR
Y「2」とを仮登録手段113へ渡す。
【0032】文字列走査手段111は、ステップ15に
おいて、出現文字列112が正式辞書103に登録され
ていると判定した場合には、正式辞書103から該出現
文字列112に対応するエントリのENTRYを取り出
して、圧縮結果出力手段117に渡し(ステップ1
6)、ステップ12に戻る。
【0033】圧縮結果出力手段117は、文字列走査手
段111から渡されたエントリ番号を圧縮後データベー
スファイル102に登録する。
【0034】仮登録手段113は、まず文字列走査手段
111から渡された出現文字列112が仮辞書104に
登録されているか否かを判定する(ステップ31)。
【0035】仮登録手段113は、ステップ31におい
て、上述の例によれば、文字列走査手段111から渡さ
れた出現文字列112「ABD」とENTRY「2」よ
り、仮辞書104のENTRY「2」に出現文字列11
2「ABD」の3文字目の「D」が登録されているか否
かを判定する。図5の仮辞書104においては、CH
「D」は登録されていない。
【0036】仮登録手段113は、ステップ31におい
て、出現文字列112が仮辞書104に登録されている
と判定した場合には、仮辞書104の出現文字列112
に対応するエントリの出現回数に1加算する(ステップ
32)。
【0037】仮登録手段113は、ステップ31におい
て、出現文字列112が仮辞書104に登録されていな
いと判定した場合には、出現文字列112を仮辞書10
4に登録し、該エントリの出現回数に1加算する(ステ
ップ33)。
【0038】仮登録手段113は、ステップ33におい
て、上述の例によれば、仮辞書104のENTRY
「2」のCH「B」の次の領域に、CH「D」とCNT
「1」を登録する。
【0039】仮登録手段113は、ステップ32または
ステップ33終了後、登録した出現文字列112と出現
回数を正式登録決定手段114に渡す(ステップ3
4)。
【0040】次に仮登録手段113は、仮辞書104へ
の登録の回数が予め設定した初期化回数116に達した
か否かを判定する(ステップ35)。初期化回数116
は、仮辞書104への登録回数の上限である。
【0041】仮登録手段113は、ステップ35におい
て、仮辞書104への登録の回数が初期化回数116に
達したと判定した場合には、仮辞書初期化手段115を
起動する(ステップ36)。
【0042】仮辞書初期化手段115は、仮辞書104
中のすべてのエントリの文字と出現回数の領域を0にす
る。
【0043】仮辞書初期化手段115は、初期化を行う
たびに、初期化回数116の設定値に1加算するように
してもよい。このようにした場合、出現頻度の低い文字
列でも仮辞書104から初期化されずに保持されるよう
になり、正式辞書103への登録の機会が増大するとい
う効果が得られる。
【0044】本実施例においては、仮辞書104への登
録回数の上限である初期化回数116に達しても依然と
して仮辞書104に存在している出現文字列112は、
出現頻度が低いと判断して、仮辞書初期化手段115に
より仮辞書104中のすべてのエントリの文字と出現回
数の領域を初期化してしまう例を説明したが、ステップ
34において正式登録決定手段114に渡した出現文字
列112が正式辞書103に登録された場合に、仮辞書
初期化手段115により該出現文字列112に対応する
エントリを仮辞書104から削除するようにしてもよ
い。
【0045】正式登録決定手段114は、仮登録手段1
13から渡された出現回数を予め設定した、出現文字列
112を正式辞書103に登録するために必要な回数と
比較し、出現回数が登録回数に達した場合には、該出現
文字列112を正式辞書103に登録する。
【0046】正式登録決定手段114は、上述の例によ
れば、図4の正式辞書103においては、出現文字列1
12「ABD」はENTRY「1」のCH「A」のDO
WN「2」が指す、ENTRY「2」のCH「B」のD
OWN「5」が指す、ENTRY「5」のCH「C」に
LEFTまたはRIGHTが存在しないことにより、該
ENTRY「5」のRIGHTに「6」をセットし、さ
らにENTRY「6」、CH「D」、UP「2」のエン
トリを正式辞書103に登録する。
【0047】正式登録決定手段114は、正式辞書10
3に出現文字列112を登録するたびに、正式辞書10
3への登録回数の設定値に1加算するようにしてもよ
い。また、正式登録された文字列の数を管理し、その数
が予め設定した複数の既定数を超える度に正式辞書10
3への登録回数の設定値を1加算するようにしてもよ
い。このように正式辞書103への登録回数の設定を増
大すると正式辞書103への出現文字列112の登録が
困難になり、最終的に圧縮された文字列が格納される圧
縮後データベースファイル102内のデータ量が抑えら
れるという効果が得られる。
【0048】文字列走査手段111は、ステップ12に
おいて、入力ファイル101にもはや未圧縮の文字列は
存在しないと判定した場合には、辞書出力手段118に
より正式辞書103の内容を圧縮後データベースファイ
ル102に出力する(ステップ13)。
【0049】以上により、本発明の一実施例であるデー
タベースレコード圧縮システムの処理が完了する。
【0050】本発明の一実施例であるデータベースレコ
ード圧縮システムは、入力ファイル中の文字列データを
圧縮する場合に、入力ファイル中で出現頻度が高い文字
列を優先的に圧縮することができる効果を有している。
【0051】
【発明の効果】以上説明したように、本発明のデータベ
ースレコード圧縮システムは、入力ファイル中の文字列
データを圧縮する場合に、入力ファイル中で出現頻度が
高い文字列を優先的に圧縮することができるので、辞書
に格納する際に、該辞書の格納容量を効率的に利用する
ことができる効果を有している。
【0052】また、データ量の多いデータベースを圧縮
する場合でも圧縮効率が良く、データベースが格納され
るディスクの容量を効率的に利用することができる効果
を有している。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】本発明の一実施例における文字列走査手段11
1の処理を示す流れ図である。
【図3】本発明の一実施例における仮登録手段113の
処理を示す流れ図である。
【図4】本発明の一実施例における正式辞書103の内
容を示す図である。
【図5】本発明の一実施例における仮辞書104の内容
を示す図である。
【符号の説明】
101 入力ファイル 102 圧縮後データベースファイル 103 正式辞書 104 仮辞書 105 登録文字列 106 エントリ番号 107 仮登録文字列 108 出現回数 111 文字列走査手段 112 出現文字列 113 仮登録手段 114 正式登録決定手段 115 仮辞書初期化手段 116 初期化回数 117 圧縮結果出力手段 118 辞書出力手段

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 データ圧縮の対象となるレコードデータ
    を格納する入力ファイルと、データ圧縮されたレコード
    データを格納する圧縮後データベースファイルと、前記
    入力ファイルから入力したレコードデータ中で出現頻度
    の高い文字列を優先的にデータ圧縮して前記圧縮後デー
    タベースファイルへ格納する正式登録決定手段とを備え
    たことを特徴とするデータベースレコード圧縮システ
    ム。
  2. 【請求項2】 データ圧縮の対象となるレコードデータ
    を格納する入力ファイルと、データ圧縮されたレコード
    データを格納する圧縮後データベースファイルと、デー
    タ圧縮された文字列の内、この圧縮後データベースファ
    イルに格納されていない文字列を格納する仮辞書と、前
    記入力ファイルから入力したレコードデータをバイト文
    字列として走査し、抽出した文字列がデータ圧縮されて
    前記圧縮後データベースファイルに登録されていなけれ
    ば、該文字列をデータ圧縮して前記仮辞書に登録する仮
    登録手段と、この仮登録手段が前記仮辞書にデータ圧縮
    して登録した文字列の内、前記入力ファイルにおける出
    現回数が予め設定した登録回数に達した該文字列を前記
    圧縮後データベースファイルに登録する正式登録決定手
    段とを備えたことを特徴とするデータベースレコード圧
    縮システム。
  3. 【請求項3】 データ圧縮の対象となるレコードデータ
    を格納する入力ファイルと、データ圧縮されたレコード
    データを格納する圧縮後データベースファイルと、デー
    タ圧縮された文字列と、該文字列に対応するエントリ番
    号とを格納する正式辞書と、データ圧縮された文字列の
    内、この正式辞書に格納されていない文字列と、該文字
    列に対応するエントリ番号と、該文字列の前記入力ファ
    イル中での出現回数とを格納する仮辞書と、前記入力フ
    ァイルから入力したレコードデータをバイト文字列とし
    て走査し、抽出した文字列がデータ圧縮されて前記正式
    辞書に登録されていれば、該文字列に対応するエントリ
    番号を読み出す文字列走査手段と、この文字列走査手段
    が抽出した文字列がデータ圧縮されて前記正式辞書に登
    録されていなければ、該文字列をデータ圧縮して前記仮
    辞書に登録する仮登録手段と、この仮登録手段が前記仮
    辞書にデータ圧縮して登録した文字列の内、前記入力フ
    ァイルにおける出現回数が予め設定した登録回数に達し
    た該文字列を前記正式辞書に登録する正式登録決定手段
    と、前記仮登録手段が前記仮辞書にデータ圧縮した文字
    列を登録した回数が予め設定した初期化回数に達した場
    合に、前記仮辞書内のすべてのエントリを初期化する仮
    辞書初期化手段と、前記文字列走査手段が読み出した前
    記正式辞書のエントリ番号を前記圧縮後データベースフ
    ァイルに出力する圧縮結果出力手段と、前記入力ファイ
    ル内のすべてのレコードデータをデータ圧縮し終えた時
    点で、前記正式辞書を前記圧縮後データベースファイル
    に出力する辞書出力手段とを備えたことを特徴とするデ
    ータベースレコード圧縮システム。
  4. 【請求項4】 前記仮登録手段は、前記文字列走査手段
    が抽出した文字列をデータ圧縮して前記仮辞書に登録す
    る際に、前記仮辞書に該文字列を登録する空き領域が無
    い場合には、前記入力ファイル中での出現回数が最も少
    ない前記仮辞書のエントリを初期化して該文字列を登録
    することを特徴とする請求項3記載のデータベースレコ
    ード圧縮システム。
  5. 【請求項5】 前記仮登録手段は、前記文字列走査手段
    が抽出した文字列をデータ圧縮して前記仮辞書に登録す
    る際に、前記仮辞書に該文字列を登録する空き領域が無
    い場合には、前記入力ファイル中での出現回数が1回の
    前記仮辞書のエントリを初期化して該文字列を登録する
    ことを特徴とする請求項3記載のデータベースレコード
    圧縮システム。
  6. 【請求項6】 前記仮辞書初期化手段は、前記仮辞書を
    初期化する度に、前記初期化回数に1加算することを特
    徴とする請求項3、請求項4、および請求項5記載のデ
    ータベースレコード圧縮システム。
  7. 【請求項7】 前記仮辞書初期化手段は、前記正式登録
    決定手段が前記正式辞書に登録した文字列に対応する前
    記仮辞書内のエントリを初期化することを特徴とする請
    求項3、請求項4、および請求項5記載のデータベース
    レコード圧縮システム。
  8. 【請求項8】 前記正式登録決定手段は、前記正式辞書
    に前記文字列を登録する度に、前記登録回数に1加算す
    ることを特徴とする請求項3、請求項4、請求項5、請
    求項6、および請求項7記載のデータベースレコード圧
    縮システム。
  9. 【請求項9】 前記正式登録決定手段は、前記正式辞書
    に登録した前記文字列の数が、予め設定した複数の既定
    値を超える度に、前記登録回数に1加算することを特徴
    とする請求項3、請求項4、請求項5、請求項6、およ
    び請求項7記載のデータベースレコード圧縮システム。
JP6322190A 1994-12-26 1994-12-26 データベースレコード圧縮システム Pending JPH08180067A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6322190A JPH08180067A (ja) 1994-12-26 1994-12-26 データベースレコード圧縮システム
US08/577,215 US5691717A (en) 1994-12-26 1995-12-22 Database record compression system and method therefor including first and second dictionaries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6322190A JPH08180067A (ja) 1994-12-26 1994-12-26 データベースレコード圧縮システム

Publications (1)

Publication Number Publication Date
JPH08180067A true JPH08180067A (ja) 1996-07-12

Family

ID=18140954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6322190A Pending JPH08180067A (ja) 1994-12-26 1994-12-26 データベースレコード圧縮システム

Country Status (2)

Country Link
US (1) US5691717A (ja)
JP (1) JPH08180067A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003523564A (ja) * 1999-12-23 2003-08-05 ゼントロニクス プロプライエタリー リミテッド 縮小化データを記憶及び検索する方法
JP2008287723A (ja) * 2007-05-21 2008-11-27 Sap Ag 繰り返し値を有するテーブルのブロック圧縮
JP2011145883A (ja) * 2010-01-14 2011-07-28 Fujitsu Ltd 圧縮装置、方法及びプログラム、並びに展開装置、方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893102A (en) * 1996-12-06 1999-04-06 Unisys Corporation Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression
US6070170A (en) * 1997-10-01 2000-05-30 International Business Machines Corporation Non-blocking drain method and apparatus used to reorganize data in a database
US6670897B1 (en) 2002-10-03 2003-12-30 Motorola, Inc. Compression/decompression techniques based on tokens and Huffman coding
US7904432B2 (en) * 2003-01-24 2011-03-08 Hewlett-Packard Development Company, L.P. Compressed data structure for extracted changes to a database and method of generating the data structure
GB2427803A (en) * 2005-06-29 2007-01-03 Symbian Software Ltd E-mail/text message compression using differences from earlier messages or standard codebooks with specific message supplements
JP5299921B2 (ja) * 2008-04-17 2013-09-25 独立行政法人産業技術総合研究所 ダイヤモンド半導体装置及びその製造方法
JP2016170750A (ja) * 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6459437A (en) * 1987-08-29 1989-03-07 Nec Corp File compressing system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5243341A (en) * 1992-06-01 1993-09-07 Hewlett Packard Company Lempel-Ziv compression scheme with enhanced adapation
US5442350A (en) * 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
US5455576A (en) * 1992-12-23 1995-10-03 Hewlett Packard Corporation Apparatus and methods for Lempel Ziv data compression with improved management of multiple dictionaries in content addressable memory

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6459437A (en) * 1987-08-29 1989-03-07 Nec Corp File compressing system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003523564A (ja) * 1999-12-23 2003-08-05 ゼントロニクス プロプライエタリー リミテッド 縮小化データを記憶及び検索する方法
JP2008287723A (ja) * 2007-05-21 2008-11-27 Sap Ag 繰り返し値を有するテーブルのブロック圧縮
JP2011145883A (ja) * 2010-01-14 2011-07-28 Fujitsu Ltd 圧縮装置、方法及びプログラム、並びに展開装置、方法及びプログラム

Also Published As

Publication number Publication date
US5691717A (en) 1997-11-25

Similar Documents

Publication Publication Date Title
US10140357B2 (en) Anomaly, association and clustering detection
US5659631A (en) Data compression for indexed color image data
US5659737A (en) Methods and apparatus for data compression that preserves order by using failure greater than and failure less than tokens
JP4261779B2 (ja) データ圧縮装置および方法
US6385617B1 (en) Method and apparatus for creating and manipulating a compressed binary decision diagram in a data processing system
JPS58204674A (ja) 2次元イメ−ジ圧縮方法
US20110109485A1 (en) Computer product, information processing apparatus, and information search apparatus
JPH08180067A (ja) データベースレコード圧縮システム
WO1995017783A9 (en) Data compression system
EP0737383A1 (en) Data compression system
KR100495593B1 (ko) 파일 처리 방법, 데이터 처리 장치, 및 기억 매체
JP6540340B2 (ja) 関数呼び出し情報収集方法及び関数呼び出し情報収集プログラム
US8463759B2 (en) Method and system for compressing data
WO2011020259A1 (zh) 供用户自定义字体的方法
JPH05257774A (ja) インデックス・レコード番号を圧縮・格納した情報検索装置
US7903741B2 (en) Context-adaptive variable length coder with simultaneous storage of incoming data and generation of syntax elements
JP3534471B2 (ja) マージソート方法及びマージソート装置
Bell et al. Compressing the digital library
JPH0628149A (ja) 複数種類データのデータ圧縮方法
CN114218895B (zh) 对uof文档进行转换的方法
JP3199291B2 (ja) ハフマン復号化テーブルの構成方法
Holtz et al. Autosophy Information Theory provides lossless data and video compression based on the data content
JP3053656B2 (ja) データ圧縮における辞書登録方式
CN107094022B (zh) 一种用于VLSI设计的Huffman编码***的实现方法
JP3103172B2 (ja) 辞書検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980210