JPH0969784A

JPH0969784A - データ圧縮制御方法

Info

Publication number: JPH0969784A
Application number: JP22347995A
Authority: JP
Inventors: Toshihiko Okamura; 利彦岡村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-08-31
Filing date: 1995-08-31
Publication date: 1997-03-11
Anticipated expiration: 2015-08-31
Also published as: JP2827982B2

Abstract

(57)【要約】【目的】適応的データ圧縮方式において、一定の伝搬
制御能力を有しかつ優れた圧縮率を得られるデータ圧縮
制御方法を提供する。【構成】圧縮するブロックがクラスタの先頭であるか
どうかを判断する（Ｓ１）。クラスタの先頭ブロックで
あったら圧縮に使用するモデルの初期状態は予め決めら
れた状態に設定する（Ｓ２）。クラスタの先頭ブロック
でない場合には、そのブロックの属するクラスタの先頭
ブロックの圧縮を終了した状態にモデルを設定する（Ｓ
３）。モデルの初期状態が決まったら、各ブロックの圧
縮を行う（Ｓ４）。圧縮をする仮定でモデルは順次更新
されていく。次のブロックに移行する前に、圧縮するデ
ータがまだ存在するのかどうかを確認する（Ｓ５）。も
し存在する場合には次のブロックの圧縮に移行し（Ｓ
６）、存在しない場合は圧縮を終了する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータ圧縮処理の制
御方法に関する。

【０００２】

【従来の技術】データを効率良く保管、通信するために
はデータ圧縮処理が有効である。データ圧縮はデータの
統計的性質を利用することにより達成される。このデー
タの統計的性質を保持するデータ構造を“モデル”と呼
ぶ。適応的データ圧縮方式ではこのモデルを圧縮が進む
につれて動的に更新していく。圧縮処理の進行とともに
データの性質をよりよく捉えたモデルを用いて圧縮が行
えるようになるので、適応的データ圧縮方式は圧縮が進
むにつれて優れた圧縮率を得られるようになる。多くの
種類のデータに対して有効な圧縮方式であるユニバーサ
ル圧縮方式は、データの性質を動的に捉える必要がある
ために適応的データ圧縮方式であることがほとんどであ
る。元のデータを完全に復元できる、無歪みなユニバー
サル圧縮方式としてはレンペル・ジブ方式や文脈木と算
術符号を組み合わせた方式などが知られている。これら
の方式もモデルを動的に更新する適応的データ圧縮方式
である。

【０００３】レンペル・ジブ方式の場合には、モデルは
辞書もしくはバッファという形態である。辞書を使用す
る方式はＬＺ７８型、バッファを使用する方式はＬＺ７
７型と呼ばれている。

【０００４】ＬＺ７８型における辞書は入力データ中の
文字列を一定の規則に従って切り出し、インデックスを
割り振る構造になっている。辞書中の文字列が再び現れ
た場合には、その文字列を辞書中のインデックスで置き
換えることにより圧縮が達成される。

【０００５】ＬＺ７７型におけるバッファは既に圧縮を
終えた最新の入力文字列を蓄える構造となっている。バ
ッファ内の文字列が再び現れた場合には、その文字列が
始まる位置（符号化している位置より何文字前から始ま
るか？）と長さという二つの数の組から成るインデック
スで置き換えることにより圧縮が達成される。ＬＺ７７
型では基本的にこのようにバッファがあれば処理が可能
となる。しかし、圧縮処理の高速化のためにはバッファ
内の文字列検索を高速化するためのデータ構造が必要で
あり、そのデータ構造を辞書と呼ぶこともある。

【０００６】レンペル・ジブ方式の詳細については米国
で発行された単行本テキストコンプレッション（Ｔｅｘ
ｔＣｏｍｐｒｅｓｓｉｏｎ，１９９０年，Ｐｒｅｎｔ
ｉｃｅＨａｌｌ社，ｐｐ．２０６−２４３）に記述さ
れている。辞書やバッファの初期状態は基本的に空とし
て圧縮を開始し、圧縮が進むにつれて辞書には新しい文
字列が登録され、データの性質をよく捉えた辞書が生成
されていく。

【０００７】一方、文脈木を用いた方式は、モデルは文
脈木と各文脈の下での各文字の出現頻度という形態であ
る。実際の符号化は出現頻度を元に各文字を算術符号化
することにより行われる。文脈木は文脈の集合で、新し
い文脈が現れる度に必要に応じて文脈木に新しい文脈が
登録される。各文脈が入力データ中に現れたときには、
その文脈における文字の出現頻度をその次に現れた文字
に従って更新する。

【０００８】文脈木を用いた方式は、上述の単行本テキ
ストコンプレッション（ｐｐ．１４０−１６６）に詳述
されている。文脈木は基本的には空として圧縮を開始
し、圧縮が進むにつれて文脈木には新しい文脈木が追加
され、各文脈の下での文字の出現頻度も更新され、デー
タの性質をよく捉えた文脈木が生成されていく。

【０００９】以上に述べた適応的データ圧縮方式におい
ては、データの圧縮が進行するにつれて良いモデルが構
築されていくことになるため、データの圧縮を開始した
時点よりも、ある程度処理が進んでからの方が有効な圧
縮が可能となる。

【００１０】適応的データ圧縮方式で圧縮されたデータ
の復元時には、圧縮時と同じモデルを使用しなければ正
しく復元を行うことができない。そのために、モデルの
初期状態を圧縮時と等しく設定し、圧縮時と同様にモデ
ルを更新する必要がある。

【００１１】

【発明が解決しようとする課題】適応的データ圧縮方式
は優れた圧縮率を得られる圧縮方式であるが、圧縮デー
タ中にビット反転などのエラーが発生すると、それ以降
のデータが全く復元できなくなるという問題点がある。
圧縮符号語が可変長の場合には、ビット反転により圧縮
符号語の境界に誤りが生じる可能性があり、この場合に
はデータは壊滅的な被害を受け得る。また、ある一つの
圧縮符号語のみが誤ったまま復元された場合でも、それ
に対応する復元データが異なるものとなり、適応的デー
タ圧縮方式の場合にはその誤って復元されデータを元に
モデルを更新してしまうため、誤りは留まることなく伝
搬していく恐れがある。誤り訂正符号化を組み合わせる
ことにより、誤りの発生をある程度抑えることができる
が、それでも多量のエラーが発生した場合には訂正不可
能になる。

【００１２】このような問題に対して、従来、図２に示
したように、データを小さなブロックに分割し、ブロッ
ク毎に独立に圧縮するといった方法が採られてきた。一
つのブロックの復元に失敗しても、残りのブロックは正
しく復元することが可能となる。各ブロックの圧縮開始
時点でモデルを予め定められた初期状態に戻すことによ
り、各ブロックを独立に圧縮することができる。特開平
０５−２５２０４７号公報、特開平０５−２５２０４８
号公報に開示されている方法は、本質的にこれと同種の
方法である。通信システムへの応用に際しては復元側で
は誤りが検出されたブロックのみの再送を要求すれば済
み、データ全体を最初から復元しなくても済む。

【００１３】しかし、適応的データ圧縮方式の場合には
モデルを構築しながら圧縮を行うため、モデルを十分に
成長させることができる大きなデータに対して初めて優
れた圧縮率を達成する。小さなブロック単位で独立に圧
縮を行う場合には、ブロックの先頭で予め決められた初
期状態に設定されるため、そのデータに合ったモデルが
構築できず、十分な圧縮率が得られないという問題点が
あった。一方、ブロックを大きくすると、そのブロック
が復元できなくなったときの損失データが大きくなると
いう問題点がある。

【００１４】

【課題を解決するための手段】

（１）本発明は、データの統計的性質を表すデータ構造
であるモデルを利用し、前記モデルを動的に更新しなが
ら圧縮を行う適応的データ圧縮方式におけるデータ圧縮
制御方法において、入力データをいくつかのブロックに
分割し、該ブロック単位で圧縮を行い、隣接する該ブロ
ックを一定数まとめたクラスタを形成し、異なる該クラ
スタは独立に圧縮を行い、該クラスタ内の先頭の該ブロ
ックを圧縮する場合には、前記モデルの初期状態は予め
定められた設定とし、該クラスタの先頭以外の該ブロッ
クを圧縮する場合には、前記モデルの初期状態は該ブロ
ックが属する該クラスタの先頭の該ブロックを用いて決
定される設定とすることを特徴とする。

【００１５】（２）また、該ブロックの大きさを一定と
することを特徴とする。

【００１６】（３）また、該ブロックの大きさは可変で
あり、該ブロックを圧縮したときの大きさが等しくなる
ように該ブロックの大きさを制御することを特徴とす
る。

【００１７】（４）また、本発明は、前記モデルとして
既に圧縮を終えた入力データを蓄えるバッファを用い、
前記バッファ内の文字列が入力データ中に再び現れた場
合には、前記文字列の開始位置、長さを表すインデック
スの組を前記文字列に対する符号語とし、前記バッファ
を、常に圧縮を終えた最新のデータが格納するように更
新し、該クラスタの先頭の該ブロックを圧縮する場合に
は、前記バッファの初期状態は予め定められた設定と
し、該クラスタの先頭以外の該ブロックを圧縮する場合
には、前記バッファの初期状態は該ブロックが属する該
クラスタの先頭の該ブロックの圧縮が終了したときの前
記バッファの状態とすることを特徴とする。

【００１８】（５）また、本発明は、前記モデルとして
既に圧縮を終えた入力データ中の文字列にインデックス
を対応させる辞書を用い、前記辞書内の文字列が再び現
れた場合には、前記文字列の前記辞書におけるインデッ
クスを前記文字列に対する符号語とし、前記辞書を、入
力データ中に新たに現れた文字列にインデックスを割り
当て、登録することによって更新し、該クラスタの先頭
の該ブロックを圧縮する場合には、前記辞書の初期状態
は予め定められた設定とし、該クラスタの先頭以外の該
ブロックを圧縮する場合には、前記辞書の初期状態は該
ブロックが属する該クラスタの先頭の該ブロックの圧縮
が終了したときの前記辞書の状態とすることを特徴とす
る。

【００１９】（６）また、本発明は、前記モデルとして
入力データ中に現れた文字列である文脈の集合と前記文
脈の下での入力データ中の各文字の出現頻度を対応させ
る構造を用い、前記文脈の下での前記出現頻度を元に入
力データ中の各文字を符号化し、前記文脈の集合を、入
力データ中に新たに現れた文字列を前記文脈の集合に加
えることによって更新し、また、前記出現頻度を、入力
データ中で前記文脈の下で文字が現れる度に更新し、該
クラスタの先頭の該ブロックを圧縮する場合には、前記
文脈の集合および文脈の下での各文字の出現頻度の初期
状態は予め定められた設定とし、該クラスタの先頭以外
の該ブロックを圧縮する場合には、該ブロックが属する
該クラスタの先頭の該ブロックの圧縮を終了したときに
得られる前記文脈の集合および文脈の下での各文字の出
現頻度の初期状態とすることを特徴とする。

【００２０】

【作用】本発明を用いた場合、一定数のブロックの集合
であるクラスタ単位では独立に圧縮を行うため、一つの
クラスタの復元に失敗しても残りのクラスタを正しく復
元することが可能である。また、クラスタ内の先頭ブロ
ックの復元に失敗した場合には、そのクラスタの残りの
ブロックの復元も行うことができないが、クラスタ内の
先頭以外のブロックの復元に失敗しても、残りのブロッ
クは正しく復元できる。クラスタの先頭以外ブロックの
圧縮に際しては、先頭ブロックを利用してモデルをある
程度構築してから圧縮が行われるため、ブロックの大き
さに比して優れた圧縮率を得ることができる。

【００２１】

【発明の実施の形態】本発明は、データの統計的性質を
表すデータ構造であるモデルを利用し、モデルを動的に
更新しながら圧縮を行う適応的データ圧縮方式に適用さ
れる。モデルはある初期状態から圧縮の進行とともに更
新されていく。モデルは例えば辞書や出現頻度表といっ
た形態で実現される。

【００２２】本発明の大きな特徴は基本的にブロック単
位の圧縮を行うが、隣接する一定数のブロックをまとめ
たクラスタを形成する点にある。クラスタ内のブロック
数をＫとし、クラスタ内の各ブロックに順に０から（Ｋ
−１）までの番号を割り振り、これをブロック番号と呼
ぶことにする。

【００２３】本発明の実施例を図を参照しながら述べ
る。図１は本発明の処理の流れを示すフローチャートで
ある。

【００２４】まず、圧縮するブロックがクラスタの先頭
であるかどうかを判定する（ステップＳ１）。これは圧
縮するブロックのブロック番号が０かどうかで判断でき
る。圧縮開始時のブロック番号は０とする。

【００２５】クラスタの先頭のブロック（ブロック番号
＝０）であったらモデルの初期状態は予め決められた状
態に設定する（ステップＳ２）。モデルとして各文字の
出現頻度表を用いる場合、例えば各文字の出現頻度を１
に設定する。

【００２６】クラスタの先頭ブロックでない場合には、
そのブロックの属するクラスタの先頭ブロックの圧縮が
終了した状態にモデルを設定する（ステップＳ３）。モ
デルとして各文字の出現頻度表を用いる場合、先頭ブロ
ックの圧縮が進むにつれて出現頻度表も更新され、先頭
ブロック圧縮終了時点での出現頻度表を初期状態として
そのブロックの圧縮を開始する。この初期状態設定処理
の方法は二通り考えられる。一つの方法は、クラスタの
先頭ブロックの圧縮が終了した時点で、そのときのモデ
ルを別の領域に格納しておき、クラスタ内の残りのブロ
ックの圧縮に際しては、格納しておいたモデルを圧縮に
使用するモデルの領域にコピーする方法である。もう一
つの方法は、各ブロックを圧縮する前にクラスタの先頭
ブロックの圧縮処理を行いモデルを更新していき、先頭
ブロック圧縮終了の状態になったらそれぞれのブロック
の圧縮を開始する方法である。ただし、この先頭ブロッ
ク圧縮処理の過程ではモデルの更新を行うのみで実際に
符号語は出力しない。図２に示した従来の方法と比較し
て、前者の方法では余分なメモリーが必要となり、後者
の方法は圧縮時間が２倍になる。メモリーが大容量で安
価になってきている現在では前者の方法が有効であると
思われる。

【００２７】モデルの初期状態が決まったら、各ブロッ
クの圧縮を行う（ステップＳ４）。圧縮をする過程でモ
デルは順次更新されていく。

【００２８】次のブロックに移行する前に、圧縮するデ
ータがまだ存在するのかどうかを確認する（ステップＳ
５）。もし存在する場合にはブロック番号を１インクリ
メントし（Ｋになった場合は０とする）、次のブロック
の圧縮に移行する（ステップＳ６）。存在しない場合は
圧縮を終了する。

【００２９】ブロックの大きさの決め方は二通り考えら
れる。一つは、圧縮前の各ブロックを同じ大きさにする
方法であり、もう一つは圧縮後の各ブロックを同じ大き
さにする方法である。クラスタは一定数のブロックから
なるため、必然的に、前者は圧縮前のクラスタは同じ大
きさになり、後者は圧縮後のクラスタは同じ大きさにな
る。なお、実際に圧縮データを媒体に書き込むときには
リードソロモン符号などを用いた誤り訂正符号化や誤り
検出符号化などを行う。リードソロモン符号などの誤り
訂正符号に関しては単行本「符号理論」（１９９０年，
電子情報通信学会，ｐｐ．１５１−１８７）などに詳述
されている。リードソロモン符号などを用いた誤り訂正
符号化ではブロック単位で符号化を行うが、誤り訂正符
号化の単位となるブロックの大きさと圧縮におけるブロ
ックは無関係でよい。

【００３０】圧縮前のブロックの大きさを一定とする場
合、圧縮処理が容易であり、クラスタ単位での並列圧縮
処理にも適する。入力データの最後のブロックだけは他
のブロックと異なる大きさになることがある。

【００３１】圧縮後のブロックの大きさを一定とする場
合、圧縮データがその大きさに達したときに、原データ
におけるそのブロックの大きさが確定し、次のブロック
の圧縮に移行する。最後の圧縮ブロックだけ他の圧縮ブ
ロックと異なる大きさとなることがある。この方式は、
クラスタ単位の並列復元処理に適するとともに、圧縮ブ
ロックが固定長のため、ブロックにエラーが発生した場
合でも常に次のブロック、クラスタへ移行できるという
大きな利点を持つ。図３に圧縮ブロックの大きさが一定
の場合の原データと圧縮データのフォーマットの例を示
す。図３においてクラスタは４つのブロックから成る。
ブロック番号０である先頭ブロック（ｂｌｏｃｋ０）の
圧縮時にはモデルの初期状態を予め定められた設定と
し、圧縮を行う。圧縮データの大きさが所定の大きさに
達したら、そこでブロックを区切り、続くデータからは
次のブロックとなる。ブロック番号２，３，４のブロッ
ク（ｂｌｏｃｋ１，ｂｌｏｃｋ２，ｂｌｏｃｋ３）の圧
縮時には、各クラスタのブロック番号０のブロック（ｂ
ｌｏｃｋ０）の圧縮を終了したときのモデルの状態を初
期状態として、圧縮を開始する。

【００３２】次に、本発明で圧縮されたデータの復元処
理について説明する。図４はこの処理の流れを示す図で
ある。クラスタ内のブロック数はＫとする。

【００３３】各圧縮ブロックを復元する前に、その圧縮
ブロック中にエラーが混入しているかどうかを判別する
（ステップＴ１）。これは誤り訂正符号化方法、誤り検
出符号化方法を用いて行うことができる。これらの手法
は前述の単行本「符号理論」に詳述されている。

【００３４】圧縮ブロックに訂正不可能なエラーが混入
していることが判明した場合には、まず、そのブロック
がクラスタの先頭ブロックかどうかを判別する（ステッ
プＴ２）。これも圧縮時と同様にブロック番号が０であ
るかどうかで判別できる。復元開始時のブロック番号は
０とする。

【００３５】クラスタの先頭ブロックでエラーの混入が
判明した場合には、その情報を知らせ（ステップＴ
３）、そのクラスタの復元は中断し、次のクラスタの復
元に移行する（ステップＴ５）。ブロック番号は０とす
る。クラスタの先頭でないブロックでエラーの混入が判
明した場合には、その情報を知らせ（ステップＴ４）、
次のブロックの復元に移行する（ステップＴ６）。ブロ
ック番号は１インクリメントする（このときブロック番
号＝Ｋとなった場合には、ブロック番号は０とする）。
圧縮ブロックの大きさを一定とした場合には常に次のブ
ロック、クラスタの復元に移ることが可能となる。

【００３６】ブロックにエラーが混入していないことが
判明した場合にも、まず、そのブロックがクラスタの先
頭ブロックかどうか判別する（ステップＴ７）。ブロッ
クがクラスタの先頭ブロックであったら、モデルは予め
決められた初期状態に設定する（ステップＴ８）。モデ
ルとして各文字の出現頻度表を用いる場合、例えばすべ
て１に設定する。ブロックがクラスタの先頭ブロックで
ない場合には、クラスタの先頭ブロックが復元されたと
きのモデルの状態にモデルを設定する（ステップＴ
９）。モデルとして各文字の出現頻度表を用いる場合、
先頭ブロックの復元が進むにつれて出現頻度表も更新さ
れ、先頭ブロック復元終了時点での出現頻度表を初期状
態としてそのブロックの復元を開始する。この処理にお
いて、圧縮時と同様に二通りの手法が考えられる。先頭
ブロックの復元終了時点でのモデルの状態を別の領域に
保持しておく方法と、先頭ブロックを再び復元していく
方法である（復元データの出力は行わない）。モデルの
初期状態が決まったら、圧縮ブロックの復元を行い（ス
テップＴ１０）、次のブロックの復元に移る（ステップ
Ｔ１１）。ブロック番号は１インクリメントする（この
ときブロック番号＝Ｋとなった場合には、ブロック番号
は０とする）。

【００３７】残りの圧縮ブロックがもう存在しない場合
には、復元処理を終了する（ステップＴ１２）。

【００３８】次に、本発明のデータ圧縮制御方法と具体
的な圧縮方式との組み合わせの例を述べる。

【００３９】本発明にＬＺ７７型を圧縮方式として適用
した場合について述べる。ＬＺ７７型ではバッファをモ
デルとして用いる。

【００４０】まず、ＬＺ７７型の説明を行う。入力デー
タをｘ（０）ｘ（１）ｘ（ｔ）…ｘ（ｎ）とする。この
ときＬＺ７７型による圧縮は次のように行われる。（１）バッファを初期状態にする。ｊ＝０（２）次の処理を繰り返す：（ｉ）ｘ（ｊ）ｘ（ｊ＋１）…とバッファ内の文字列と
の間でマッチングをとり最長一致列を求める。

【００４１】（ｉｉ）・最長一致列の長さｍが閾値より
も小さかったら先頭の一文字ｘ（ｊ）をそのまま出力す
る。ｍ＝１とする。

【００４２】・最長一致列の長さｍが閾値よりも大きか
ったら、最長一致列の始まる位置（符号化地点より何文
字前か？）と長さｍを表すインデックスをｘ（ｊ）ｘ
（ｊ＋１）…ｘ（ｊ＋ｍ−１）に対する符号語として出
力する。

【００４３】（ｉｉｉ）バッファ内の文字列をｍ文字シ
フトし、符号化を終えた文字列ｘ（ｊ）…ｘ（ｊ＋ｍ−
１）をバッファ内に挿入する。

【００４４】（ｉｖ）ｊ←ｊ＋ｍ。

【００４５】（ｖ）ｊ＞ｎとなったら終了。（２）の（ｉｉｉ）の処理によって、バッファは圧縮を
終えた最新の入力データを格納するように更新される。
（２）の（ｉｉ）において、符号語が文字そのものなの
か、位置・長さを表すインデックスなのかを判別するた
めにフラグを用いる等の工夫が必要となる。

【００４６】本発明をこの圧縮方式に適用する場合を述
べる。

【００４７】まず、圧縮するブロックがクラスタの先頭
であるかどうかを判断する（ステップＳ１）。これは図
１の説明のときと同様にブロック番号から判別できる。

【００４８】クラスタの先頭ブロックの圧縮に際して
は、バッファの初期状態は予め定められた状態、例えば
図５（ａ）のようにバッファを空の状態に設定する（ス
テップＳ２）。クラスタの先頭でないブロックの圧縮に
際しては、クラスタの先頭ブロックが圧縮を終了した状
態にバッファを設定する（ステップＳ３）。このため
に、先頭ブロック圧縮終了時点のバッファの状態を別の
領域に格納しておく必要がある。先頭ブロックがｘ
（ｓ）ｘ（ｓ＋１）…ｘ（ｔ）とし、バッファが十分に
大きければ、バッファ内には図５（ｂ）のように先頭ブ
ロックがそのまま格納されている形態となる。なお、バ
ッファ内の文字列を検索する手段も先頭ブロックの圧縮
が終了したときの状態に設定する必要がある。

【００４９】バッファの設定が終わったら、圧縮を開始
する（ステップＳ４）。

【００５０】ブロックの圧縮が終了したら、残りのデー
タが存在するかどうか判別する（ステップＳ５）。残り
のデータが存在する場合には、ブロック番号を１インク
リメントし（ステップＳ６）、次のブロックの圧縮に移
行する。

【００５１】本発明にＬＺ７８型を圧縮方式として適用
した場合について述べる。ＬＺ７８型では辞書をモデル
として用いる。

【００５２】まず、ＬＺ７８型の説明を行う。入力デー
タをｘ（０）ｘ（１）ｘ（ｔ）…ｘ（ｎ）とする。この
ときＬＺ７８型による圧縮は次のように行われる。（１）辞書を初期状態にする。ｊ＝０（２）次の処理を繰り返す：（ｉ）ｘ（ｊ）ｘ（ｊ＋１）…と辞書内の文字列との間
でマッチングをとり最長一致列を求める。

【００５３】（ｉｉ）・最長一致列（ｘ（ｊ）ｘ（ｊ＋
１）…ｘ（ｍ）とする）の辞書におけるインデックスを
符号語として出力する。

【００５４】（ｉｉｉ）ｘ（ｊ）ｘ（ｊ＋１）…ｘ
（ｍ）ｘ（ｍ＋１）に新たなインデックスを割り振り、
辞書に登録する。

【００５５】（ｉｖ）ｊ←ｍ＋１。

【００５６】（ｖ）ｊ＞ｎとなったら終了。（２）の（ｉｉｉ）の処理は、辞書に登録されている文
字列を１文字拡張した文字列を辞書に新たに登録するこ
とによって辞書を更新していることを意味する。。

【００５７】本発明をこの圧縮方式に適用する場合を述
べる。文字の集合を｛ａ，ｂ，ｃ，ｄ｝とする。

【００５８】まず、圧縮するブロックがクラスタの先頭
であるかどうかを判断する（ステップＳ１）。これは図
１の説明のときと同様にブロック番号から判別できる。

【００５９】クラスタの先頭ブロックの圧縮に際して
は、辞書の初期状態は予め定められた状態、例えば図６
（ａ）のように辞書にはすべての文字が登録されている
状態とする（ステップＳ２）。クラスタの先頭でないブ
ロックの圧縮に際しては、クラスタの先頭ブロックが圧
縮を終了した時点に辞書を設定する（ステップＳ３）。
このために、先頭ブロック圧縮終了時点の辞書の状態を
別の領域に格納しておく必要がある。先頭ブロックがａ
ｂｂｃｂｂｃｂａｃという文字列であったら、図６
（ｂ）に示した状態が、このブロックを圧縮したときの
辞書の状態であり、先頭以外のブロックはこの辞書をこ
の状態に設定してから圧縮を開始するのである。

【００６０】辞書の設定が終わったら、圧縮を開始する
（ステップＳ４）。

【００６１】ブロックの圧縮が終了したら、残りのデー
タが存在するかどうか判別する（ステップＳ５）。残り
のデータが存在する場合には、ブロック番号を１インク
リメントし（ステップＳ６）、次のブロックの圧縮に移
行する。

【００６２】本発明に、文脈とその下での文字の出現頻
度を対応させたデータ構造をモデルとした適応的データ
圧縮方式を適用した場合について述べる。文脈の集合を
動的に更新することが可能であるが、ここでは文脈の集
合は１文字から成る集合に固定したモデル（１次マルコ
フモデル）について説明する。このモデルは各文字に対
して出現頻度表を対応させた構造で、出現頻度数はその
文字の下での各文字の出現回数をカウントするカウンタ
の集合である。

【００６３】まず、１次マルコフモデルを利用した適応
的データ圧縮方式の説明を行う。今、入力データの文字
の集合が｛ａ，ｂ，ｃ，ｄ｝の４文字から成るとする。
｛ａ，ｂ，ｃ，ｄ｝のそれぞれに対して、その文字の次
に現れた文字の出現回数をカウントするカウンタから成
る出現頻度表を用意する。ｃ（ｘ，ｙ）でｘという文字
の次にｙという文字が現れた回数で表すとする。例えば
ａに対しては、ｃ（ａ，ａ）、ｃ（ａ，ｂ）、ｃ（ａ，
ｃ）、ｃ（ａ，ｄ）の値を格納する４個のカウンタから
なる出現頻度表を対応させる。

【００６４】入力データｘ（０）ｘ（１）…ｘ（ｎ）の
符号化は次のような流れで行われる。（１）カウンタを初期状態に設定する。ｊ＝０（２）次の処理を繰り返す：（ｉ）ｃ（ｘ（ｊ−１），ａ），ｃ（ｘ（ｊ−１），
ｂ），ｃ（ｘ（ｊ−１），ｃ），ｃ（ｘ（ｊ−１），
ｄ）を用いてｘ（ｊ）を算術符号化する。（ｘ（ｊ）の
出願確率をｃ（ｘ（ｊ−１），ｘ（ｊ））／ｃ（ｘ（ｊ
−１））とする。ここで、ｃ（ｘ（ｊ−１））＝ｃ（ｘ
（ｊ−１），ａ）＋ｃ（ｘ（ｊ−１），ｂ）＋ｃ（ｘ
（ｊ−１），ｃ）＋ｃ（ｘ（ｊ−１），ｄ）である。）（ｉｉ）ｃ（ｘ（ｊ−１），ｘ（ｊ））←ｃ（ｘ（ｊ−
１）），ｘ（ｊ））＋１（ｉｉｉ）ｊ←ｊ＋１。

【００６５】（ｉｖ）ｊ＞ｎとなったら終了。ここで、ｘ（−１）は予め定められた文字（例えばａと
する）。（２）−（ｉｉ）の処理によって出現頻度表が
更新される。（２）−（ｉ）の算術符号化に関しては前
述の単行本「テキストコンプレッション」（ｐｐ．１０
２−１３９）に詳述されている。

【００６６】本発明の方式をこの圧縮方式に適用する場
合を述べる。

【００６７】まず、圧縮するブロックがクラスタの先頭
であるかどうかを判断する（ステップＳ１）。これは図
１の説明のときと同様にブロック番号から判別できる。

【００６８】クラスタの先頭ブロックの圧縮に際して
は、各文字の出現頻度の初期状態は予め定められた設定
とする。例えば図７（ａ）のようにカウンタをすべて１
にセットする（ステップＳ２）。文脈木自身も動的に更
新する場合は、例えば文脈木も空の状態に設定する。ク
ラスタの先頭以外のブロックの圧縮に際しては、各文字
の出現頻度の初期状態は図７（ｂ）のようにカウンタを
先頭ブロックが終了した状態に設定する（ステップＳ
３）。図７（ｂ）において、ｃ０（ｘ，ｙ）は先頭ブロ
ック圧縮終了時のカウンタの値（ｃ（ｘ，ｙ））であ
る。文脈木自身も動的に更新する場合は、文脈木も先頭
ブロックの圧縮が終了したときの文脈木を初期状態とす
る。

【００６９】カウンタの設定が終わったら、圧縮を開始
する（ステップＳ４）。圧縮の進行に連れてカウンタの
値も更新されていく。

【００７０】ブロックの圧縮が終了したら、残りのデー
タが存在するかどうかを判別する（ステップＳ５）。残
りのデータが存在する場合には、ブロック番号を１イン
クリメントし（ステップＳ６）、次のブロックの圧縮に
移行する。

【００７１】

【発明の効果】次の二つの仮定を置く。

【００７２】・圧縮ブロックに訂正不可能なビット（エ
ラー）が現れたときには、そのブロック全体の復元（圧
縮ブロックを元に戻す操作）が不可能。

【００７３】・訂正不可能なビットはランダムに発生、
その確率は十分小さい。

【００７４】・圧縮ブロックの大きさを一定とする。

【００７５】この仮定の下で、本発明を用いた場合の復
元不可能なビット数の平均値は、従来のブロック単位に
独立に圧縮を行うデータ圧縮制御方式で、圧縮ブロック
の大きさを本発明の圧縮ブロックの大きさを２倍にした
ときの値とほぼ一致する。つまり、本発明の圧縮制御に
よる誤り伝搬制御能力は、ブロック単位に独立に圧縮を
行う従来の圧縮制御で圧縮ブロックの大きさを２倍にし
たときの誤り伝搬制御能力と同程度である。

【００７６】圧縮方式としてＬＺ７７型（１文字＝１バ
イト、バッファサイズ＝８１９２、一致列の最大値＝３
２、ポインタ値は等長符号化）を使用して実験を行っ
た。本発明では圧縮ブロックの大きさを１０２４バイト
とし、クラスタ内のブロック数は１６とした。また、こ
のＬＺ７７型を組み込んだ、ブロック単位に独立に圧縮
を行う従来のデータ圧縮制御方法では圧縮ブロックの大
きさを２倍の２０４８バイトとした。両者の圧縮率を比
較したところ、本発明の方が２〜５ポイント程度優れて
いることが多かった。つまり、本発明を用いることによ
り、同程度の誤り伝搬制御能力で従来よりも２〜５ポイ
ント程度優れた圧縮率が得られるのである。

【００７７】また、圧縮方式としてＬＺ７８型（１文字
＝１バイト）を使用して実験を行った。ＬＺ７８型で使
用する辞書のサイズは十分大きくとった。圧縮ブロック
の大きさは、ＬＺ７７型の場合と同様に本発明では１０
２４バイトとし、従来のデータ圧縮制御方法では２倍の
２０４８バイトとした。本発明におけるクラスタ内のブ
ロック数もＬＺ７７型の場合と同様に１６とした。両者
の圧縮率を比較したところ、本発明の方が１〜４ポイン
ト程度優れていることが多かった。つまり、本発明を用
いることにより、同程度の伝搬制御能力で従来よりも１
〜４ポイント程度優れた圧縮率が得られるのである。

【図面の簡単な説明】

【図１】本発明の圧縮処理制御の流れを示す図である。

【図２】従来の圧縮処理制御の流れを示す図である。

【図３】本発明において圧縮ブロックを等長化した場合
の原データと圧縮データのフォーマットを示す図であ
る。

【図４】本発明の制御の下で圧縮したデータの復元処理
の流れを示す図である。

【図５】本発明において、圧縮方式としてＬＺ７７型を
使用した場合のバッファの初期状態を示す図である。

【図６】本発明において、圧縮方式としてＬＺ７８型を
使用した場合の辞書の初期状態を示す図である。

【図７】本発明において、圧縮方式として文脈モデル
（１次マルコフモデル）を使用した場合のカウンタの初
期状態を示す図である。

【符号の説明】

なし

Claims

【特許請求の範囲】

【請求項１】データの統計的性質を表すデータ構造であ
るモデルを利用し、前記モデルを動的に更新しながら圧
縮を行う適応的データ圧縮方式におけるデータ圧縮制御
方法において、入力データをいくつかのブロックに分割し、該ブロック
単位で圧縮を行い、隣接する該ブロックを一定数まとめ
たクラスタを形成し、異なる該クラスタは独立に圧縮を
行い、該クラスタ内の先頭の該ブロックを圧縮する場合には、
前記モデルの初期状態は予め定められた設定とし、該クラスタの先頭以外の該ブロックを圧縮する場合に
は、前記モデルの初期状態は該ブロックが属する該クラ
スタの先頭の該ブロックを用いて決定される設定とする
ことを特徴とするデータ圧縮制御方法。
【請求項２】該ブロックの大きさを一定とすることを特
徴とする、請求項１に記載のデータ圧縮制御方法。
【請求項３】該ブロックの大きさは可変であり、該ブロ
ックを圧縮したときの大きさが等しくなるように該ブロ
ックの大きさを制御することを特徴とする請求項１に記
載のデータ圧縮制御方法。
【請求項４】前記モデルとして既に圧縮を終えた入力デ
ータを蓄えるバッファを用い、前記バッファ内の文字列が入力データ中に再び現れた場
合には、前記文字列の開始位置、長さを表すインデック
スの組を前記文字列に対する符号語とし、前記バッファを、常に圧縮を終えた最新のデータが格納
するように更新し、該クラスタの先頭の該ブロックを圧縮する場合には、前
記バッファの初期状態は予め定められた設定とし、該クラスタの先頭以外の該ブロックを圧縮する場合に
は、前記バッファの初期状態は該ブロックが属する該ク
ラスタの先頭の該ブロックの圧縮が終了したときの前記
バッファの状態とすることを特徴とする請求項１に記載
のデータ圧縮制御方法。
【請求項５】前記モデルとして既に圧縮を終えた入力デ
ータ中の文字列にインデックスを対応させる辞書を用
い、前記辞書内の文字列が再び現れた場合には、前記文字列
の前記辞書におけるインデックスを前記文字列に対する
符号語とし、前記辞書を、入力データ中に新たに現れた文字列にイン
デックスを割り当て、登録することによって更新し、該クラスタの先頭の該ブロックを圧縮する場合には、前
記辞書の初期状態は予め定められた設定とし、該クラスタの先頭以外の該ブロックを圧縮する場合に
は、前記辞書の初期状態は該ブロックが属する該クラス
タの先頭の該ブロックの圧縮が終了したときの前記辞書
の状態とすることを特徴とする請求項１に記載のデータ
圧縮制御方法。
【請求項６】前記モデルとして入力データ中に現れた文
字列である文脈の集合と前記文脈の下での入力データ中
の各文字の出現頻度を対応させる構造を用い、前記文脈の下での前記出現頻度を元に入力データ中の各
文字を符号化し、前記文脈の集合を、入力データ中に新たに現れた文字列
を前記文脈の集合に加えることによって更新し、また、
前記出現頻度を、入力データ中で前記文脈の下で文字が
現れる度に更新し、該クラスタの先頭の該ブロックを圧縮する場合には、前
記文脈の集合および文脈の下での各文字の出現頻度の初
期状態は予め定められた設定とし、該クラスタの先頭以外の該ブロックを圧縮する場合に
は、該ブロックが属する該クラスタの先頭の該ブロック
の圧縮を終了したときに得られる前記文脈の集合および
文脈の下での各文字の出現頻度の初期状態とすることを
特徴とする請求項１に記載のデータ圧縮制御方法。