JP2823917B2

JP2823917B2 - データ圧縮方式

Info

Publication number: JP2823917B2
Application number: JP507890A
Authority: JP
Inventors: 泰彦中野; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-01-12
Filing date: 1990-01-12
Publication date: 1998-11-11
Anticipated expiration: 2013-11-11
Also published as: JPH03209922A

Description

【発明の詳細な説明】［概要］文字等の入力データ系列を、参照テキストに登録され
た既に符号化済みの系列の複製として圧縮符号化するデ
ータ圧縮方式に関し、参照テキストの更新と検索を高速化することを目的と
し、参照テキストを複数領域に分割して順次符号化済みデ
ータ系列を登録し、参照テキストの検索は登録の新しい
分割領域から登録の古い分割領域に向かって行い、更に
参照テキストが一杯になった場合には、最も登録の古い
分割領域を更新するように構成する。

［産業上の利用分野］本発明は、文字等の入力データ系列を、参照テキスト
に登録された既に符号化済みの系列の複製として圧縮符
号化するデータ圧縮方式に関する。

文字等のコード列情報を伝達・蓄積する際には、デー
タ量を低減して伝送時間の短縮と記憶容量の低減を図る
ためコード情報を圧縮符号化しており、この圧縮符号化
としては、過去のデータ系列を登録した参照テキストの
任意の位置から入力コード情報に一致する最大長さの部
分列を取出し、過去の系列の複製として符号化するユニ
バーサル符号化が行われ、演算の高速化と同時に高圧縮
率が得を得る必要がある。

［従来の技術］一般に、蓄積、伝送すべきデータの容量が大きいと
き、通信回線や記憶装置の容量を有効に利用するため、
データ列を圧縮して伝送や蓄積を行い、再度、そのデー
タを使用するときに元のデータ列に復元する方法が良く
用いられる。

従来、文字コードを能率良く圧縮する方式としてZiv
−Lempel符号（以下「ZL符号」という）が知られている
（例えば宗像清治著，「Ziv−Lempelデータ圧縮法」，
情報処理,pp.2〜6,vol.26,NO.1,1985を参照のこと）。

ZL符号には、ユニバーサル型と、増分分解型（Incremental persing）の２つのアルゴリズムの提案されている。この２つのア
ルゴリズムの間では、圧縮率はユニバーサル型の方が優
れており、処理速度は増分分解型の方が早いという特徴
がある。

これら２つのアルゴリズムの内、圧縮率が高いユニバ
ーサル型ZL符号は、入力した文字列を以前に入力した符
号化済みの文字列から最大長一致する文字列を検索し、
その最大長一致する文字列を複製として符号化する。

ここでデータ圧縮は文字コードに限らず、一般のデー
タにも適用できるが、以下の説明では情報理論等で使わ
れている呼称を踏襲し、データの1wordを文字、その集
合を文字列と呼ぶことにする。

第５図にユニバーサル型ZL符号器の原理を示す。

第５図において、Ｐバッファ12には符号化済みの文字
列が格納されており、Ｑバッファ10にはこれら符号化す
る文字列が格納されている。Ｑバッファ10の入力文字列
とＰバッファ12の登録されている全ての文字列（部分
列）とを検索照合し、Ｐバッファ12中で一致する最大長
の部分列を求める。そして、Ｐバッファ12中の最大一致
長をもつ部分列を指定するため、次の情報の組を符号化
する。

次にＱバッファ10内の符号化した文字列をＰバッファ
12に移して、符号化した文字数分の新たな文字を登録す
る。以下、同様の操作を繰り返し、入力データを部分列
に分解して順次符号化する。

第６図は従来方式の一例を示し、部号語が２バイトで
表わされる場合、例えばＰバッファ12を12bit、Ｑバッ
ファ10を4bitで表わしている。Ｐバッファ12上での検索
は、Ｐバッファ12の左側から行われ、もし一致する文字
列がなければ、INPUTポインタのところに入力データ系
列が新たに登録される。

［発明が解決しようとする課題］このようなユニバーサル型ZL符号方式で圧縮率を向上
させるには、できるだけ多くの参照テキストとしてのＰ
バッファの登録が必要であり、またＱバッファのビット
幅で決まるマッチングによる一致長が大きさを制限なし
に表せることが理想である。

しかし、実際には、ソフトウェアで符号化・復合化す
るときは、単にＰバッファ12及びＱバッファ10を大きく
とると、バッファアドレスで決まる符号語データが大き
くなり、結果的に圧縮率が悪化する。また、参照テキス
トが増えるので、一致検索に時間がかかり処理スピード
も落ちる。

本発明は、このような従来の問題点に鑑みてなされた
もので、参照テキストを大きくした際の一致検索と更新
を高速化するデータ圧縮方式を提供することを目的とす
る。

［課題を解決するための手段］第１図は本発明の原理説明図である。

まず本発明は、データ系列を第１バッファ（Ｑバッ
フ）10に入力し、既に符号化済みのデータ系列が登録さ
れている参照テキストとしての第２バッファ（Ｐバッフ
ァ）12を検索して入力データ系列に一致する符号化済み
データ系列の最大長一致の部分列を求め、該最大長一致
部分の開始位置と一致長との組を符号語として出力して
圧縮符号化するデータ圧縮方式を対象とする。

このようなデータ圧縮方式につき本発明にあっては、
第２バッファ12を複数領域12−１〜12nに分割して符号
化済みデータを順次登録し、分割領域12−１〜12−ｎの
内の登録の新しい分割領域から登録の古い領域に向けて
入力データ系列との一致検索を行い、更に全ての分割領
域12−１〜12−ｎが登録データ系列で満たされた場合に
は、最も登録の古い分割領域を更新するように構成す
る。

更に本発明にあっては、参照テキストとしての第２バ
ッファ12を大きくしながら、符号語を小さくして圧縮率
を向上させるため、検索された最大長一致部分の開始位
置を第２バッファ12の分割領域12−１〜12−ｎの領域番
号と領域内位置とに分け、領域内位置は符号語の最大長
さ一致部分の開始位置として部号化し、一方、領域番号
は符号語とは別個に第２バッファ12に識別データとして
持つことにより、一致長検索に適したビット幅に第２バ
ッファ12の検索インデックをビット幅を縮小させ、この
縮小させたビット分を第１バッファ10に割り当てて一致
長検索の許容長さを拡大させるように構成する。

［作用］このような構成を備えた本発明のデータ圧縮方式によ
れば、符号化の途中で、第２バッファ12の全ての分割領
域12−１〜12−ｎが一杯になったときは、登録の一番古
い分割領域を消去して新たに登録していくことにより、
従来では全体として行っていた面倒な第２バッファ12の
更新作業が大幅に削減され、処理の高速化が可能とな
る。

また登録の新しい第２バッファ12の分割領域から検索
することにより、登録されたばかりの新しい情報から検
索できるので、検索が短い時間で済む。

［実施例］第２図は符号器を例にとって本発明の一実施例を示し
た実施例構成図であり、ユニバーサル型ZL符号化で実際
的な方法として知られたLZSS符号化方式（T.C.Bell:Bet
ter OPM/L Text Compression,IEEE Trans.on Commom.,V
ol.34,No.12,1986参照）により符号語データを２バイト
で表わす場合を例にとっている。

第２図において、14はデータ圧縮装置であり、第１バ
ッファとしてのＱバッファ10と、第２バッファとしての
Ｐバッファ12を備え、この実施例にあっては、Ｐバッフ
ァ12は３つの分割領域12−1,12−3,12−３に分割されて
いる。

尚、Ｐバッファ12の分割領域は、12−1,12−２が登録
済みで、現在残りの領域12−３への登録が行われている
状態を示している。

16はファイル／伝送装置であり、データ圧縮装置14か
ら出力される最大長一致部分の開始位置と一致長との組
のデータ構造をもつ符号語又は生データ（入力文字列そ
のもの）を記憶又は伝送する。

ここで本発明の処理を第６図の従来方式と対比して説
明すると次のようになる。

まず第６図の従来方式では、符号語を２バイトで表す
とき、例えばＰバッファ12のサイズを12ビット、Ｑバッ
ファ10のサイズを４ビットで表し、Ｐバッファ12上での
検索はＰバッファ12の左側から行われ、もし一致する文
字列がなければ、図中のINPUTポインタのところに新た
に登録される。この方法では、文字の比較が、現在のＱ
バッファ10の内容とは関係が薄いと考えられる古い登録
文字から始められ、検索時間がかかっている。また、Ｐ
バッファ12が一杯になったときの更新法として、Ｑバッファ10上の符号化が終わった分だけ、Ｐバッフ
ァ12を左にシフトする方法や、一続きのＰバッファ12を全てクリアし、最初から登録
をやり直す方法があった。

しかし、の一部シフト法はＰバッファ12が一度一杯
になると、毎回、更新可能が必要で処理が煩雑になる。
またのオールクリア法は、現在までの学習されたＰバ
ッファ12が一度に失われ、符号化されない生のデータが
出力される可能性が大きくなり効率が悪い。

これに対し本発明では、従来は一続きであったＰバッ
ファ12を複数領域、例えば３つの領域に12−１〜12−３
に分け、Ｐバッファ12の中のどのバッファ分割領域が使
われているかは、バッファ内の識別コードに組み込むこ
ととする。

Ｐバッファ12の検索は、検索を短い時間で終了させる
ために、一番登録の新しい分割領域12−３から検索を始
める。また、Ｐバッファ12の全ての分割領域12−１〜12
−３が一杯になったら、関係の薄いと思われる登録が一
番古いＰバッファ12の分割領域12−１のみをクリアし、
クリアした分割領域12−１に新しく登録していくことで
検索の効率が図れ、且つ他の２つの分割領域12−2,12−
３はそのまま利用できる。

また、第２図の実施例にあたっては、第６図の従来方
式でＰバッファ12が12ビット、Ｑバッファ、10が４ビッ
トであったものを、それぞれ11ビット、及び５ビットと
している。その結果、Ｐバッファ12が１ビット減った
分、参照テキストの量が半分になるが、３つの分割領域
12−１〜12−３に分けて持つことにより、参照テキスト
の量は等化的に3/2になる。またＱバッファが１ビット
増えているので、その分マッチング一致長が長くとれ圧
縮率も向上する。

更に詳細に説明すると、第６図の従来方式では、Ｐバ
ッファ12を12ビット、Ｑバッファ10を４ビットで表わ
し、更に８個のデータ毎に符号語データか生データかを
識別するための識別データが格納されている。即ち、識
別データの１ビットずつが続いて並ぶ８個のデータが符
号語データか生データかを識別する。

ここで圧縮率を上げようとしてＰバッファ121及びＱ
バッファ10のビット幅を仮に１ビットずつ増やしたとす
ると、開始位置と一致長の組でなる符号語データが８の
倍数でなくなり、データを転送する際にビット詰めとい
う面倒な処理が必要となる。また８の倍数となるように
Ｐバッファ12及びＱバッファ10のビット幅を、例えば18
ビット、６ビットに増やしたとすると、最大一致長の開
始位置と一致長との組でなる符号語が３バイトにもな
り、最大一致長が２バイト又は３バイトであった場合
は、共に複製で表わすことでは圧縮されず、符号化の効
率が悪くなる。

これに対し本発明では、一続きのＰバッファ12を第２
図のように例えば３つの分割領域12−１〜12−３に分け
て持ち、どの分割領域が使われているかは、Ｐバッファ
12の識別データを１データ当り２ビットとして持たせる
ことにより、１組の符号語データの長さを２バイトのま
ま変化させずに圧縮率を上げることができる。

次に第３図の動作フロー図を参照して本発明の処理動
作を説明する。

まずステップS1（以下「ステップ」は省略）入力文字
列をＱバッファに読み込む。次にS2で入力文字列の終端
でなければS3に進み、終端であれば処理を終了する。。

S3にあってはｉ＝Newとする。ここでNewは、一番新し
いＰバッファの分割領域を示すインデックスである。

次にS4でＰバッファ12の分割領域Ｐ［ｉ］をスキャン
し、一致する文字を探す。一致すれば、S5に進んで分割
領域Ｐ［ｉ］中の一致開始位置と一致長をレジスタ等に
登録、更新してS6に進み、もし一致する文字が分割領域
Ｐ［ｉ］になければ、そのままS6へ進む。

S6ではｉを関数ｆ（ｉ）に従って更新する。関数ｆ
（ｉ）によるｉの更新は、最初はｉ＝1,2,3と更新さ
れ、一杯になって登録の古いｉ＝１のクリア更新が行な
われると、次にｉ＝2,3,1と更新され、３回目の更新で
はｉ＝3,1,2と更新され、以下これを繰り返す。

次にS7に進んでNew＝ｉであるか、即ち全ての分割領
域の検索が終了したか否かを判断し、終了していればS8
へ、終了していなければS3に戻る。

全てのＰバッファ分割領域の検索が終り、S8で一致す
る文字がＰバッファ中になければ、S9で生データそのも
のを符号語データ列として出力してS11のＰバッファ登
録処理に進む。S8で一致する文字がＰバッファ中にある
ことが判別されると、S5で登録した一致開始位置（特定
のＰバッファ分割領域内の領域位置）と一致長の組でな
る符号語データを出力し、S11に進み、以下、S2で文字
列の終了が判別されるまで同じ処理を繰り返す。

第４図は、第３図のS11におけるＰバッファ登録処理
をサブルーチンとして示した動作フロー図である。

第４図において、まずS1が登録で最も新しい分割領域
Ｐ［New］が一杯かどうかを調べ、もし一杯であればS2
に進む。一方、まだ登録できる余裕があればS5へ進む。

S2では、一番古いＰバッファ分割領域のインデックス
Oldを計算し、S3で最も登録の古い分割領域Ｐ［old］を
クリアし、S4でクリア後にNew＝Oldに置き換えてS5にへ
進む。S5ではクリア状態にある分割領域Ｐ［New］に生
データを登録する。

尚、上記の実施例は、Ｐバッファ12を３つの領域に分
割した場合を例にとるものであったが、必要に応じて任
意の数に分割できる。

［発明の効果］以上説明したように本発明によれば、参照テキストと
マッチング一致長さの許容長さを大きくしても、参照テ
キストの検索及び更新を高速に行うことができる。

【図面の簡単な説明】

第１図は本発明の原理説明図；第２図は本発明の実施例構成図；第３図は本発明の動作フロー図；第４図は本発明のＰバッファ登録処理の動作フロー図；第５図はユニバーサル型ZL符号化の原理説明図；第６図は従来方式の説明図である。図中、 10:第１バッファ（Ｑバッファ） 12:第２バッファ（Ｐバッファ） 12−１〜12−n:分割領域 14:検索装置 16:符号器

フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】文字等のデータ系列を第１バッファ（10）
に入力し、既に符号化済みの過去のデータ系列が登録さ
れている第２バッファ（12）を検索して前記第１バッフ
ァ（10）のデータ列に一致する符号化済みのデータ列の
最大長一致部分を求め、該最大長一致部分の開始位置と
一致長との組の符号語として出力して圧縮符号化するデ
ータ圧縮方式に於いて、前記第２バッファ（12）を複数領域（12−１〜12−ｎ）
に分割しで符号化済みデータ列を順次登録し、該分割領
域（12−１〜12−ｎ）の内の符号化済みデータ系列の新
しい分割領域から古い分割領域に向けて前記一致検索を
行い、全ての分割領域が登録データ系列で満たされた場
合は、最も古い分割領域から更新していくことを特徴と
するデータ圧縮方式。
【請求項２】前記最大長一致部分の開始位置を、前記第
２バッファ（12）の分割領域（12−１〜12−ｎ）の領域
番号と領域内位置とに分け、該領域内位置は前記符号語
の最大一致長部分の開始位置として符号化し、前記領域
番号は符号語とは別個に前記第２バッファ（12）に識別
データとして持つことにより、一致長検索に適したビッ
ト幅に該第２バッファ（12）の検索インデックスのビッ
ト幅を縮小させ、該縮小させたビット分を前記第１バッ
ファ（10）に割り当てて一致長検索の許容長さを拡大さ
せたことを特徴とする請求項１記載のデータ圧縮方式。