JPH03209923A

JPH03209923A - データ圧縮方式

Info

Publication number: JPH03209923A
Application number: JP507990A
Authority: JP
Inventors: Yasuhiko Nakano; 泰彦中野; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-01-12
Filing date: 1990-01-12
Publication date: 1991-09-12
Anticipated expiration: 2013-11-11
Also published as: JP2823918B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要］文字等の入力コード系列に一致する辞書に登録された既
に符号化済みのコード列との最大一致長を求め、最大一
致長の開始位置と一致長を含む符号語に変換するデータ
圧縮方式に関し、辞書サイズの拡大に対し符号語を最小
ビット数で表現して圧縮率を向上することを目的とし、
新たな符号化済みコードを登録する際に辞書が一杯にな
っていたら、辞書サイズを１ビット堆やして登録するよ
うに構成する。また符号語を作成する際に、現時点の辞
書サイズで決まるインデクス最大値から開始位置を示す
インデクスを差し引いて最新登録位置を初期値とするコ
ードインデクスを作成して開始位置を示す符号語とし、
更にコードインデクスのビット数を示す識別子を符号語
に付加するように構成する。

［産業上の利用分野］本発明は、文字等の入力コード列を辞書に登録された符
号化済みのコード列の複製として圧縮符号化するデータ
圧縮方式に関する。

文字等のコード列情報を伝送・蓄積する際には、データ
量を低減して伝送時間の短縮と記憶容量の低減を図るた
め、コード列情報を圧縮符号化している。この圧縮符号
化としては、過去のコード系列を登録した辞書の任意の
位置から入力コード列に一致する最大長の部分列を取出
し、この部分列の開始位置（インデスク）と−成長を少
な（とも含む符号語に変換！、て出力するユニバーサル
符号化が行われており、圧縮率を向上するためには可能
な限り符号語のビット数を小さくすることが望まれる。

［従来技術］一般に蓄積、伝送すべきデータの容量が大きいとき、通
信回線や記憶装置の容量を有効に利用するため、データ
列を圧縮して伝送や蓄積し、再度、そのデータを使用す
るときに元のデータ列に復元する方法が良く用いられる
。

従来、文字コードを能率良く圧縮する方式としてｚｉｖ
−Ｌｅｍｐｅｌ符号（以下、ＺＬ符号と呼ぶ）が知られ
ている（例えば、宗像清治著、　　「ｚｉｖ−Ｌｅｍｐ
ｅデータ圧縮法」、情報処理＋　Ｉ’Ｌ　２〜６．　Ｖ
Ｏｌ、　２６１　Ｎ。

１．１９８５を参照のこと）。

ＺＬ符号には、 ■ユニバーサル型と、 ■増分分解型（Ｉｎｃｒｅｍｅｎｔａｌ　ｐｅｒｓｉｎ
ｇ　）の２つのアルゴリズムが提案されている。

尚、データ圧縮は文字コードに限らず、一般のデータに
も適用できるが、ここでは、情報理論等で使われている
呼称を踏襲し、データの１ｗｏｒｄごとを文字と呼ぶこ
とにする。

第１０図にユニバーサル型ＺＬ符号器の原理図を示す。

このユニバーサル型のアルゴリズムは、演算量は多いが
、高圧縮率が得られ、符号化データを過去のデータ系列
の任意の位置から一致する最大長の系列に区切り（部分
列）、過去の系列の複製として符号化する方式である。

第１０図において、辞書を構成するＰバッファ１０には
符号化済みの入力データが格納されており、Ｑバッファ
１２にはこれから符号化するデータが入力されている。

符号化は、まずＰバッファｌＯの系列をＱバッファ１２
の系列でサーチし、Ｐバッファ１０中で一致する最大長
の部分列を求める。そして、Ｐバッファ１０中の最大長
部分列を指定するため、次の情報の組を符号語として出
力する符号化を行う。

次にＱバッファ１２内の符号化した系列をＰバッファ１
０に登録して新たな辞書データを得る。

以下、同様の操作を繰り返し、データを部分列に分解し
て順次符号化する。

次に増分分解型アルゴリズムを説明する。

増分分解型アルゴリズムは、圧縮率はユニバーサル型よ
り劣るが、シンプルで、計算も容易であることが知られ
ている。増分分解型ＺＬ符号化では、入力シンボルの系
列をｘ＝ａａｂａｂａｂａａ・・・とすると、成分系列ｘ＝Ｘ、Ｘ、Ｘ２φ１１・への増分分解は次のようにする。

Ｘｊを既成分の右端のシンボルを取り除いた最長の列と
し、Ｘ−ａＩＩａｂＩＩａｂａＩＩｂ・ａａＩＩｌｌ・とな
る。

従って、Ｘｏ−λ（空列）　　Ｘ　１．　＝　Ｘｏ　ａ
Ｘ２＝Ｘ１　ｂ　　　Ｘ３＝Ｘ２ａＸ４−Ｘｏｂ　　　Ｘ、＝Ｘ１　ａ・・と分解できる。

増分分解した各成分系列は、既成分系列を用いて次のよ
うな組で符号化する。

増分分解型アルゴリズムは、符号化パターンについて、
過去に分解した部分列の内、最大長一致するものを求め
、過去に分解した部分列の複製として符号化するもので
ある。

即ち、ＺＬ符号では現在の文字コードの系列を、符号化
済の過去の系列からの複製として符号化するものである
。ＺＬ符号を用いた場合、文字コードの文書情報は、１
／２程度に圧縮できる。

［発明が解決しようとする課題］このようにＺＬ符号化方式は、符号化対象の性質が未知
でも、それを学習しながら符号化していく圧縮法であり
、アルゴリズムは既出のデータ列を辞書に登録していき
、同じデータ列が現れた時には、その辞書の登録位置も
しくは登録番号等のインデクスを符号語として出力する
というシンプルなものである。

しかし、参照辞書が符号化対象に比べて十分大きくない
と、学習が十分にできずに高い圧縮率が期待できないと
いう欠点がある。そのため従来方式では参照辞書をでき
るだけ大きくとるようにしている。しかし、参照辞書を
単に大きく取っても、符号語中の一致位置を示すインデ
クスのビット数が増加して符号語が長くなってしまい、
参照辞書を大きくした分だけの圧縮率の向上が期待でき
ない問題があった。

本発明は、このような従来の問題点に鑑みてなされたも
ので、辞書サイズの増加に対し符号語を最小ビット数で
表現して圧縮率を向上するようにしたデータ圧縮方式を
提供することを目的とする。

［課題を解決するための手段］第１図は本発明の原理説明図である。

まず本発明は、第１図（ａ）に示すように、辞書１０に
登録された既に符号化済みのコード列の中の入力コード
列に一致する最大一致長部分を求め、この最大一致長部
分の開始位置と一成長を少なくとも含む符号語を作成し
て出力することで圧縮符号化し、辞書１０に入力コード
列に一致する符号化済みコード列がない場合には、入力
コード列をそのまま符号語として出力すると共に、辞書
１０に新たな符号化済みコード列として登録するデータ
圧縮方式を対象とする。

このようなデータ圧縮方式につき本発明にあっては、第
１図（ａ）（ｂ）に示すように、新たな符号化済みコー
ド列の登録時に辞書１０が一杯になったことを判別した
際には、辞書１０のサイズを１ビット増やした後に登録
し、符号語中の開始位置を現時点の辞書サイズで決まる
最小ビット数で表現したものである。

また第１図（Ｃ）に示すように、符号語を作成する際に
、現時点の辞書サイズで決まるインデクス最大値（Ｍａ
ｘ）から開始位置を示すインデクスを差し引いて最新登
録位置を初期値とするコードインデクスを作成して開始
位置を示す符号語とし、更に、コードインデクスのビッ
ト数を示す識別子を符号語に付加し、符号語を可変長に
して最小ビット数で表現したものである。

［作用コこのような構成を備えた本発明のデータ圧縮方式によれ
ば、次の作用が得られる。

０従来のデータ圧縮方式では、辞書の大きさは予め決めら
れた固定サイズであったが、本発明は辞書サイズを可変
にする。具体的には、辞書サイズを、最初は小さいビッ
ト数で割り当てておき、辞書が一杯になったときに、随
時１ビットずつ伸ばしていくようにする。これで、登録
初期段階に於いても、辞書に割り当てられたビット数を
有効に使え、圧縮率向上を図ることができる。

このように１ビットずつ辞書を伸ばしていっても、符号
語中のインデクス長が、常に現在使用されている辞書サ
イズの最大ビット長で表されるため、インデクスの小さ
いものを表すときは、大部分のビットが無駄になり効率
的でない。

そこで本発明は更に、開始位置を示すインデクスを１、
登録の新ｌ、い方を初期位置として見たフードインデク
スで表現し、更にコードインデクスが何ビットであるの
かの識別子を符号語の先頭に付けてインデクスを最小ビ
ット数で表す。

この手法は、辞書中で新しいものほど参照されやすいと
いう性質に基づき、新しい文字列が登録１されている辞書中の位置のインデクスはど短いビット数
で表現することにより、圧縮率を向上させようとするも
のである。従って、辞書を頻度順に並べかえてやると、
さらに効果は大きい。

［実施例］第２図は本発明の実施例構成図であり、符号化対象とな
る入力コードはＱバッファとしての入力バッファ１２に
格納された後、処理装置１−４による辞書１０の参照で
辞書中にある登録済みのコード列の最大一致長となる部
分列が求められる。処理装置１４で入力コード列に一致
する登録済みコード列の最大一致長が求まると、その開
始位置を示すインデクスと一成長から符号語を作成して
ファイル／伝送装置１６等に出力する。

処理装置１４にあっては、後の説明で明らかにする辞書
サイズの増加処理と、符号語中のインデクス（開始位置
）に識別子を付けて最小ビット数で表わす処理を行う。

次に第３図の処理フロー図を参照して辞書サイ２ズをビット単位に随時増やす処理を説明する。

この第３図の処理により第４図（ａ）　（ｂ）　’ｃ）
に示すように、時系列に辞書１０のサイズが増えて行く
。

即ち、第４図（ａ）では辞書サイズが８ビットで、エン
トリーはインデクス＝２００までの状態を示す。

第４図（ｂ）は辞書サイズが８ビットの状態でエントリ
ーはインデクス＝２５５の最大位置まで登録された状態
である。この状態で次に文字を登録するには、第４図（
Ｃ）のように辞書サイズを１ビット増やして９ビットと
する。

このように、辞書のエントリーが一杯になる毎に、１ビ
ットずつ増やして辞書サイズを拡大していくようにする
。

次に第３図の処理動作を説明する。

まずステップＳｌ（以下「ステップ」は省略）でインデ
クスサイズ（辞書サイズ）に初期値を設定する。ここで
は、インデスクサイズ−８とする。

次に８２で符号化対象文字列を入力する。Ｓ３で符号化
対象が無くなったことを判別すると符号化３を終了する。文字列の入力が続いていればＳ４に進み、
入力文字列が辞書１０に有るかどうか検索する。

もし辞書１０に有れば、Ｓ５に進んでその位置を示すイ
ンデクス及び一致長を含む符号語を作成して出力した後
、Ｓ２に戻って次の入力文字列の符号化を行う。尚、Ｓ
３で作成されるインデクスのビット数は、現時点での辞
書サイズの最大ビット長となる。

Ｓ４で辞書１０に入力文字列がなかった場合には、Ｓ６
に進んで辞書１０にまだ登録スペースがあるかどうかを
調べる。登録スペースがあればＳ７に進んで登録し、登
録スペースが無ければＳ８に進み、現在のインデクスが
最大インデクスに達したか否か、即ち辞書１０が一杯に
なったか否か判別する。もし一杯であればＳ９に進んで
インデクスサイズ（辞書サイズ）を１ビット増加させて
９ビットとし、Ｓ１０で生データを登録しＳ２に戻る。

次に第５図の処理フローを参照して識別子の付４加により符号側を最小ビット数で表現するための処理を
説明する。

まず第５図の処理によるインデクス構造及び概念は、第
６図に示すように、従来は辞書１０のインデクスが古い
登録位置をインデクス初期値−０として新しい方に向け
て増加する値を取っていたが、本発明にあっては、逆に
最も新しい登録位置をインデクス初期値−〇として古い
方に向けて増加するコードインデクスを新たに定義する
。

即ち、コードインデクスは、（コードインデクス）＝（インデクス最大値）−（符号化インデクス値）と定義
される。

更に第７図に示すように、符号語の先頭にコードインデ
クスのビット数を示す識別子を付加する。

第８図は本発明におけるコードインデクスと識別子の対
応関係を示しており、コードインデクスはその時の辞書
サイズで決まる８〜１９ビットのいずれかのビット長で
あり、このコードインデクスに対し第８図の対応関係を
もつ１〜６ビットで５変化する識別子が付加される。

そこで第５図の処理を説明すると、まずＳｌで符号化対
象となる文字列を入力し、文字列の入力の終了を８２で
判別すると符号化を終了する。

文字列の入力が継続していると８３に進み、入力文字列
が辞書１０に有るかどうか検索し、辞書１０にあればＳ
４に進み、辞書１０になければＳ６に進む。

Ｓ４にあっては、最大一致長の開始位置を符号化インデ
クスとして、その時の辞書サイズで決まるインデクス最
大値から差し引いてコードインデクスを求め、更に第８
図のリストからコードインデクスのビット数を示す識別
子を取り出し、Ｓ５で第７図に示した構造の符号語を作
成して出力する。

一方、Ｓ３から８６に進んだ場合には、辞書１０にまだ
登録スペースがあるかどうかを調べ、登録スペースがあ
れば、Ｓ７に進んで登録した後に８８で入力文字列をそ
のまま生データとして出力する。もしＳ６で登録スペー
スがなかった場合に６は、直接Ｓ８に進んで生データを出力する。

尚、Ｓ６で登録スペースがないと判断された場合には、
辞書１０が一杯になった場合であることから、第３図に
示した処理により辞書サイズを１ビット増やした後に登
録するようにしても良い。

第９図は第５図の処理により得られた最大一致長の開始
位置が異なる２つの符号語を示す。

第９図において、コードインデクス＝２１５の符号語は
、識別子が１ビット、コードインデクスが４ビットの合
計５ビットである。これに対し古い方に位置したコード
インデスク＝２４１０の符号語は、識別側が６ビット、
コードインデクスが１２ビットの合計１８ビットとなり
、登録の新しい文字列程、一致する頻度が高い性質があ
るため、本発明により符号語のビット数が低減され、圧
縮率が向上できることが理解できる。

［効果］以上説明したように本発明によれば、辞書サイズを最小
サイズから最大サイズに至るまで辞書が７一杯になる毎に１ビットずつ辞書サイズを増やしていく
ため、その時の辞書サイズで符号語のインデクスのビッ
ト数が決まり、登録初期段階でインデクスのビット長さ
を小さくできるので符号語のビット数を低減して圧縮率
を向上できる。

また辞書の最大一致長開始位置を示す符号語のインデク
スとして、最新登録位置を初期値とした新しい方から古
い方に向けて増加するコードインデクスを作成し、且つ
コードインデクスのビット数を示す識別子を符号語の先
頭に付加し、符号化における登録の新しいもの程、使用
頻度が高いという性質を有効に利用して符号語のビット
数を低減して圧縮率を向上できる。

【図面の簡単な説明】

第１図は本発明の原理説明図；第２図は本発明の実施例構成図；第３図は本発明の第１実施例を示した処理フロー図；第４図は第３図処理による辞書サイズを順次拡大８する概念の説明図；第５図は本発明の第２実施例の処理フロー図：第６図は
第５図の処理におけるインデクス及びコードインデクス
の構造説明図；第７図は第５図の実施例による符号語構造図；第８図は
第５図の実施例におけるコードインデクスと識別子の対
応説明図；第９図は第５図の処理による登録位置が異なった時の符
号語のサイズを示した説明図；第１０図はユニバーサル型ＺＬ符号器の原理説明図であ
る。図中、１０：辞書（バッファ）１２：入力バッファ（Ｑバッファ）１４：処理装置１６：ファイル／伝送装置

Claims

【特許請求の範囲】

（１）辞書（１０）に登録された既に符号化済みのコー
ド列中の入力コード列に一致する最大長一致部分を求め
、該最大長一致部分の開始位置と一致長を少なくとも含
む符号語を作成して出力することで圧縮符号化し、前記
辞書（１０）に入力コード列に一致する符号化済みコー
ド列がない場合には、該入力コード列をそのまま符号語
として出力すると共に、前記辞書に新たな符号化済みコ
ード列として登録するデータ圧縮方式に於いて、新たな符号化済みコードの登録時に前記辞書（１０）が
一杯になったことを判別した際には、該辞書（１０）の
サイズを１ビット増やした後に登録し、前記符号語中の
開始位置を現時点の辞書サイズで決まるビット数で表現
したことを特徴とするデータ圧縮方式。
（２）辞書（１０）に登録された既に符号化済みのコー
ド列の中の入力コード列に一致する最大一致長部分を求
め、該最大一致長部分の開始位置及び一致長を少なくと
も含む符号語を作成して出力することで圧縮符号化する
データ圧縮方式に於いて、前記符号語を作成する際に、
現時点の辞書サイズで決まるインデクス最大値から前記
開始位置を示すインデスクを差し引いて最新登録位置を
初期値とするコードインデクスを作成して前記開始位置
を示す符号語とし、更に、前記コードインデクスのビッ
ト数を示す識別子を前記符号語に付加し、前記符号語を
最小ビット数で表現するようにしたことを特徴とするデ
ータ圧縮方式。