JPH10190476A

JPH10190476A - データ圧縮方法及びその装置

Info

Publication number: JPH10190476A
Application number: JP35121196A
Authority: JP
Inventors: Yoichi Sakamoto; 陽一坂本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-27
Filing date: 1996-12-27
Publication date: 1998-07-21

Abstract

(57)【要約】【課題】比較的ランダムに近い２値画像を高い圧縮率
で圧縮でき、辞書のくいちがいを蓄積させないことによ
り、許容範囲をこえた誤差が発生しないデータ圧縮方法
及びその装置を提供する。【解決手段】辞書ベースでデータを圧縮するデータ圧
縮方法であって、圧縮するデータと既に圧縮された生デ
ータとの違いが所定の許容範囲内である場合に、一致と
見なして符号化を行う（Ｓ１４）。更に、一致と判定さ
れた圧縮されたデータを既に圧縮された生データに置き
換える（Ｓ５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータ圧縮方法及び
その装置、特に辞書ベースのデータ圧縮方法及びその装
置に関するものである。辞書ベースの圧縮方法は、“Th
e Data Compression Book Featuring fast, efficient
data compression techniques in C”（Mark Nelson,M&
T Publishing,1992,邦題「データ圧縮ハンドブック，Ｃ
プログラマのための圧縮技法紹介」トッパン）の第７章
から第９章に示されるように、圧縮するデータに基づい
て辞書を作成し、圧縮するデータが辞書にあれば、辞書
のインデックスを符号化することにより圧縮を行う。復
元時は、圧縮時と同様に復元したデータに基づいて辞書
を作成し、その辞書を参照することにより復元を行う。

【０００２】

【発明が解決しようとする課題】しかしながら、上記従
来例では、例えば予め多値画像を誤差拡散法により２値
化した２値画像のように比較的ランダムに近いデータを
圧縮する場合、ほとんど圧縮できないという欠点があっ
た。この欠点を補うために、データの誤りを許容するい
わゆる損失のある圧縮を行うことが考えられるが、損失
のある圧縮を行った場合に、圧縮側と復元側とのデータ
が異なるため、辞書のくいちがいが蓄積してしまい、誤
差がより大きくなってしまうという問題がある。

【０００３】本発明の目的は、比較的ランダムに近い２
値画像を高い圧縮率で圧縮できるデータ圧縮方法及びそ
の装置を提供することにある。本発明の別の目的は、辞
書のくいちがいを蓄積させないことにより、許容範囲を
こえた誤差が発生しないデータ圧縮方法及びその装置を
提供することにある。

【０００４】

【課題を解決するための手段】上記目的を達成するため
に、本発明のデータ圧縮方法は、辞書ベースでデータを
圧縮するデータ圧縮方法であって、圧縮するデータと既
に圧縮された生データとの違いが所定の許容範囲内であ
る場合に、一致と見なして符号化を行うことを特徴とす
る。

【０００５】更に、一致と判定された圧縮されたデータ
を既に圧縮された生データに置き換えることを特徴とす
る。ここで、前記置き換えは、前記違いがある場合に実
行される。又、本発明のデータ圧縮装置は、辞書ベース
でデータを圧縮するデータ圧縮装置であって、圧縮する
データと既に圧縮された生データとの違いの許容範囲を
記憶する記憶手段と、違いが前記許容範囲内である場合
に、一致と見なして符号化を行う符号化手段とを備える
ことを特徴とする。

【０００６】更に、一致と判定された圧縮されたデータ
を既に圧縮された生データに置き換える置換手段を備え
ることを特徴とする。ここで、前記置換手段は、前記違
いがある場合に置き換えを行う。又、本発明のデータ圧
縮装置は、圧縮するデータの全部または一部を格納する
バッファと、圧縮のために参照されるデータを格納する
辞書と、前記バッファに格納された圧縮するデータによ
り前記辞書を検索する辞書検索手段であって、所定の誤
差を許容する前記辞書検索手段と、前記バッファに格納
された圧縮するデータに相当するデータが、前記辞書に
格納されていないときには、前記バッファに格納された
圧縮するデータを符号化し、前記バッファに格納された
圧縮するデータに相当するデータが、前記辞書に格納さ
れているときには、少なくとも、前記辞書検索手段によ
り検索された、前記バッファに格納されたデータに相当
するデータが格納されている前記辞書のインデックスを
符号化する符号化手段と、前記バッファに格納された圧
縮するデータの全部または一部を前記辞書に登録する辞
書登録手段とを備えることを特徴とする。

【０００７】ここで、前記辞書登録手段は、前記符号化
手段により符号化された前記辞書のインデックスに対応
する前記辞書に格納されたデータと前記バッファに格納
された圧縮するデータとの間に誤差があった場合に、前
記バッファに格納された圧縮するデータのかわりに、前
記符号化手段により符号化された前記辞書のインデック
スに対応する前記辞書に格納されたデータに基づいて前
記辞書に登録する。

【０００８】又、本発明のコンピュータ可読メモリは、
辞書ベースでデータを圧縮するコンピュータ可読のプロ
グラムを記憶するコンピュータ可読メモリであって、少
なくとも、圧縮するデータと既に圧縮された生データと
の違いが所定の許容範囲内であるか否かを判定する判定
モジュールと、所定の許容範囲内である場合に一致と見
なして、一致と判定された圧縮されたデータを既に圧縮
された生データに置き換えて符号化する符号化モジュー
ルとを含むことを特徴とする。

【０００９】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。＜ＬＺＳＳ圧縮法＞まず、本発明の基礎となっている辞
書ベース圧縮方法の１つであるＬＺＳＳ圧縮法の原理を
説明する。

【００１０】（原理の説明）図２はＬＺＳＳ圧縮法の原
理を示す説明図であり、圧縮処理途中の状態例を示して
いる。図中、１１は窓バッファであり、すでに圧縮符号
化された生データのうちの最後の１５バイトを格納して
いる。１２は先読みバッファであり、まだ圧縮符号化さ
れていない生データのうちの先頭の８バイトを格納して
いる。辞書は、窓バッファ１１と先読みバッファ１２と
により構成される。辞書には、窓バッファ１１の位置１
から位置１５まで１５個のデータが登録されている。圧
縮符号化される各データの長さは、先読みバッファ１２
の大きさである“８”である。先読みバッファ１２内の
データは、辞書の先頭データとなることはないが、それ
以降のデータとなることがある。例えば、位置１のデー
タは“ＦＡＢＣＤＥＦＧ”であり、後の７バイトは先読
みバッファ１２の中にある。

【００１１】図３は、図２のデータをＬＺＳＳ法で符号
化した場合の符号の例を示す図である。図中、１３は識
別フィールドであり、符号が生データであるか、最長一
致したデータの窓バッファ１１における位置および一致
長の組からなる符号化データであるかを識別する。本例
では、“１”の場合が符号化データ、“０”の場合は生
データとする。１４は位置フィールドであり、最長一致
したデータの窓バッファ１１における位置を示す。１５
は長さフィールドであり、最長一致したデータの一致長
を示す。１６は生データフィールドであり、生データを
示す。

【００１２】（符号化の具体例の説明）符号化は次のよ
うに行われる。図２の（ａ）において、窓バッファ１１
には“ＡＡＡＡＡＡＡＢＣＤＦＦＦＦＦ”が格納され、
先読みバッファ１２には“ＡＢＣＤＥＦＧＨ”が格納さ
れている。まず、先読みバッファ１２に格納されている
データと窓バッファ１１に格納されているデータとの最
長の一致を検索し、見つかった場合は、最長一致したデ
ータの窓バッファ１１における位置および一致長によっ
て符号化をする。図２の（ａ）においては、最長一致す
るデータは“ＡＢＣＤ”なので、窓バッファ１１におけ
る位置は“９”、一致長は“４”となる。

【００１３】図２の（ａ）の場合には、図３の（ａ）に
示す如く、識別フィールド１３には、符号が最長一致し
たデータの窓バッファ１１における位置および一致長の
組であることを示す“１”がセットされる。また、位置
フィールド１４には、最長一致したデータの窓バッファ
１１における位置である“９”（２進表記では１００
１）がセットされる。また、長さフィールド１５には、
最長一致したデータの一致長“４”から“１”を引いた
値である“３”（２進表記では０１１）がセットされ
る。ここで、“１”を引くのは、一致長の範囲が“１”
から“８”であるのに対し、長さフィールドで表現でき
る値が“０”（２進表記で０００）から“７”（２進表
記で１１１）までであり、この違いを調整するためであ
る。

【００１４】次に、窓バッファ１１および先読みバッフ
ァ１２に格納されたデータを、符号化したバイト数、即
ち一致長だけ左へシフトする。先読みバッファ１２から
あふれたデータ（図２の（ａ）においては、“ＡＢＣ
Ｄ”）は、窓バッファ１１に右側から格納される。さら
に、まだ先読みバッファ１２に格納されていない生デー
タを先頭から符号化したバイト数だけ、先読みバッファ
１２に右側から格納する（図２の（ｂ））。

【００１５】最長一致が見つからない場合は、生データ
をそのまま符号とする。図２の（ｂ）において、先読み
バッファ１２の先頭のデータ“Ｅ”は窓バッファ１１の
中に存在しないので、最長一致が見つからない。この場
合は、先読みバッファ１２の先頭のデータ“Ｅ”をその
まま符号とし、窓バッファ１１および先読みバッファ１
２に格納されたデータを、符号化されたバイト数、即ち
１だけ左へシフトする。

【００１６】図２の（ｂ）の場合には、図３の（ｂ）に
示す如く、識別フィールド１３には、符号が生データで
あることを示す“０”が、生データフィールドには生デ
ータ“Ｅ”（２進表記で０１０００１０１）がセット
される。以上の方法によれば、最長一致が見つかった場
合には、生データよりも少ないビット数に符号化される
ため、データが圧縮される。上述の例では、“ＡＢＣ
Ｄ”の４バイト（３２ビット）が、１つの符号（８ビッ
ト）に圧縮される。

【００１７】なお、シフトする際に、実際にはデータの
移動を行わず、窓バッファ１１および先読みバッファ１
２の位置を移動する（アドレス制御する）方法が普通で
ある。（復号の具体例の説明）次に復元方法について説明す
る。復元時には、圧縮時と同様に窓バッファ１１を使用
するが、先読みバッファ１２は使用しない。窓バッファ
１１には、すでに復元された生データのうち最後の１５
バイトを格納する。

【００１８】図２の（ａ）において、図３の（ａ）に示
す符号が入力されると、まず識別フィールド１３を調べ
る。識別フィールド１３には、符号が最長一致したデー
タの窓バッファ１１における位置および一致長の組であ
ることを示す、“１”がセットされているので、位置フ
ィールド１４から、最長一致したデータの窓バッファ１
１における位置を示す“９”を得、長さフィールド１５
から“３”を取り出し、これに圧縮時に引いた値“１”
を加えて一致長として“４”を得る。ここで得た、最長
一致したデータの窓バッファ１１における位置“９”と
一致長“４”とを用いて、窓バッファ１１を参照し、復
元された生データとして“ＡＢＣＤ”を得る。次に、窓
バッファ１１に格納されたデータを、復元したバイト
数、即ち一致長だけを左へシフトする。さらに復元した
データを窓バッファ１１に右側から格納する（図２の
（ｂ）のようになる）。

【００１９】図２の（ｂ）において、図３の（ｂ）に示
す符号が入力されると、まず識別フィールド１３を調べ
る。識別フィールド１３には、符号が生データであるこ
とを示す“０”がセットされているので、生データフィ
ールドから生データ“Ｅ”（２進表記で０１０００１０
１）を取り出す。次に、窓バッファ１１に格納されたデ
ータを、復元したバイト数即ち“１”だけ左へシフトす
る。さらに復元したデータを窓バッファ１１に右側から
格納する。

【００２０】＜データ圧縮装置の機能構成例＞図１は、
本実施の形態に係るデータ圧縮装置の機能構成を示すブ
ロック図である。図中、１は入力ファイルであり、圧縮
するデータが格納されている。２はデータバッファであ
り、圧縮するデータを格納する。１２は先読みバッファ
であり、まだ圧縮されていないデータのうちの先頭のデ
ータを格納する。１１は窓バッファであり、すでに圧縮
されたデータのうちの最後のデータを生データの形式で
格納する。窓バッファ１１は、先読みバッファ１２とと
もに辞書を構成する。

【００２１】５は検索部であり、先読みバッファ１２に
格納されているデータと最長一致する窓バッファ１１の
位置を検索する。検索部５は、１バイトのデータの中に
１ビットの違いがあった場合にも、一致したものと判定
する。このようにすることにより、比較的ランダムに近
いデータを圧縮することができる。尚、違いの許容範囲
は、圧縮されるデータに対応して変更可能である。検索
部５は、最長一致した窓バッファ１１の位置と一致長と
を出力する。

【００２２】６は符号化部であり、検索部５により最長
一致が検索されたときは、圧縮符号として、検索部５が
出力した窓バッファ１１の位置と一致長とを符号化デー
タとして出力する。尚、本実施の形態では、位置と一致
長とをそのまま符号化データとするが、位置と一致長と
が更に符号化されてもよい。符号化部６はまた、検索部
５により最長一致が検索されなかったときは、生データ
符号として、先読みバッファ１２の先頭データを出力す
る。この生データも更に符号化されてもよい。

【００２３】７は出力ファイルであり、符号化部６が出
力した符号を格納する。８は登録部であり、先読みバッ
ファ１２および窓バッファ１１のメモリ上の位置を変更
することにより、先読みバッファ１２に格納されている
データを窓バッファ１１に登録する。登録部８はまた、
符号化部６により圧縮符号が符号化されたときに、参照
された窓バッファ１１のデータを先読みバッファ１２に
コピーすることにより、辞書に格納されたデータに基づ
いて辞書登録を行う。このコピー処理により、検索部５
での一致の許容範囲の設定による誤りの蓄積を無くす。

【００２４】図４は、本実施の形態のデータ圧縮装置の
具体的構成を示すブロック図である。図中、２１はＣＰ
Ｕであり、ＲＯＭ２４に記憶されたプログラムに従い、
データ圧縮装置の制御を行う。２２は磁気ディスクであ
り、入力ファイル１や出力ファイル７を含む。２３はＲ
ＡＭであり、データバッファ２と先読みバッファ１２と
窓バッファ１１とを含む。２４はＲＯＭであり、検索部
５，符号化部６及び登録部８をＣＰＵ２１により制御す
るプログラムを記憶する。尚、ＣＰＵ２１の実行する制
御プログラムは、図示しないフロッピーディスク，Ｃ
Ｄ，ＤＶＤ等からＲＡＭ２３にロードされて実行されて
も、外部のホストコンピュータ等からダウンロードされ
てもよい。

【００２５】図５は、本実施の形態のデータバッファ
２，窓バッファ１１及び先読みバッファ１２の構成を示
す説明図である。窓バッファ１１はデータバッファ２の
中に形成され、窓サイズレジスタＷＳにより大きさが決
められる。窓バッファ１１の位置は、カレントポインタ
レジスタＣＰと窓サイズレジスタＷＳとにより決められ
る。即ち、窓バッファ１１の先頭位置のインデックスは
（ＣＰ−ＷＳ）であり、最終位置のインデックスは（Ｃ
Ｐ−１）で示される。

【００２６】先読みバッファ１２もデータバッファ２の
中に形成され、先読みバッファサイズレジスタＬＳによ
り大きさが決められる。先読みバッファ１２の位置は、
カレントポインタレジスタＣＰにより決められる。即
ち、先読みバッファ１２の先頭位置のインデックスはＣ
Ｐであり、最終位置のインデックスは（ＣＰ＋ＬＳ−
１）で示される。

【００２７】カレントポインタＣＰ，窓サイズＷＳ及び
先読みバッファサイズＬＳは、圧縮処理の過程で変化す
るため、窓バッファ１１及び先読みバッファ１２の位置
および大きさもまた圧縮処理の過程で変化する。＜データ圧縮方法の手順例＞次に、フローチャートを参
照し、ＲＯＭ２４に格納されているプログラムを詳細に
説明する。なお、本実施の形態では、圧縮符号の位置フ
ィールド１４は１２ビット、長さフィールドは４ビット
で構成されており、窓バッファ１１の大きさは１０２３
バイト、先読みバッファ１２の大きさは１７バイト、符
号化できる一致長の範囲は“２”から“１７”までの１
６通りで、位置長が“１”の場合は生データ符号として
符号化される。また、圧縮符号の位置フィールド１４が
“０”の場合は、データの終了を示す終了符号とする。

【００２８】また、以下の説明で、データバッファＢＵ
Ｆ、カレントポインタＣＰ、バッファサイズＢＳ、窓サ
イズＷＳ、先読みバッファサイズＬＳ、一致長レジスタ
ＬＥＮ、一致位置レジスタＩＮＤ、長さレジスタＬ、位
置レジスタＬ、データレジスタＤの各レジスタが、ＲＡ
Ｍ２３上に構成されている。また、データバッファＢＵ
Ｆは配列であり、先頭のインデックスは“０”である。
また、インデックスをＩＮＤＥＸとすると、格納されて
いるデータはＢＵＦ［ＩＮＤＥＸ］と表現される。

【００２９】（圧縮処理例）図６はＲＯＭ２４に格納さ
れた圧縮プログラムのフローチャートである。圧縮処理
が起動されると、ステップＳ１にて初期化処理を行う。
具体的には入力ファイルおよび出力ファイルをオープン
し、入力データを全てデータバッファＢＵＦに読み込
み、データサイズをバッファサイズＢＳにセットする。
また、先読みバッファサイズＬＳに、一致長の上限であ
る“１７”をセットする。カレントポインタＣＰ、窓サ
イズＷＳ、一致長レジスタＬＥＮは全て“０”にセット
される。

【００３０】次に、ステップＳ２にてバッファサイズＢ
Ｓを“０”と比較する。バッファサイズＢＳが“０”の
場合はデータが全くないので、ステップＳ１５の終了符
号出力処理に進む。バッファサイズＢＳが“０”でない
場合はステップＳ３に進み、一致長レジスタＬＥＮを一
致長の下限である“２”と比較する。一致長レジスタＬ
ＥＮが“２”より小さいのは生データ符号を出力する場
合なので、ステップＳ６に進む。最初のときは、ステッ
プＳ１の初期化処理にて一致長レジスタＬＥＮに“０”
がセットされているので、必ずステップＳ６に進む。

【００３１】ステップＳ６では、一致長レジスタＬＥＮ
に符号化される生データサイズである“１”をセットす
る。次にステップＳ７にて生データ符号を出力する。具
体的には、識別フラグ１３として１ビットの“０”を出
力する。次に、生データフィールド１５として、先読み
バッファ１２の先頭データであるＢＵＦ［ＣＰ］を出力
する。なお、出力は、バイト単位で出力ファイルに書き
込まれるので、１バイト（８ビット）に満たないデータ
は、一時的にＲＡＭ２３上の領域に格納しておく。

【００３２】次にステップＳ８にて、カレントポインタ
ＣＰに一致長レジスタＬＥＮを加える。次にステップＳ
９にて、カレントポインタＣＰと先読みバッファＬＳの
和、即ち先読みバッファ１２の最後が、バッファサイズ
ＢＳ、即ちデータバッファＢＵＦの最後を超えているか
どうか判定する。（ＣＰ＋ＬＳ）＞ＢＳであれば、先読
みバッファ１２の最後がデータバッファＢＵＦの最後を
超えているので、ステップＳ１０に進み、バッファサイ
ズＢＳとカレントポインタＣＰの差、即ち未処理のデー
タサイズを先読みバッファサイズＬＳにセットする。次
にステップＳ１１にて、先読みバッファサイズＬＳと
“０”を比較する。先読みバッファサイズＬＳが“０”
であれば、全てのデータの処理が終了しているので、ス
テップＳ１５に進む。先読みバッファサイズＬＳが
“０”でなければ、ステップＳ１２に進む。また、ステ
ップＳ９にて、（ＣＰ＋ＬＳ）≦ＢＳ、即ち先読みバッ
ファ１２の最後がデータバッファＢＵＦの最後を超えて
いない場合は、直接ステップＳ１２に進む。

【００３３】ステップＳ１２では、カレントポインタＣ
Ｐと窓バッファ１１のサイズの上限である“１０２３”
とを比較する。カレントポインタＣＰが“１０２３”よ
り大きくない場合は、窓サイズＷＳにカレントポインタ
ＣＰをセットし、ステップＳ１４に進む。カレントポイ
ンタＣＰが“１０２３”より大きい場合は、直接ステッ
プＳ１４に進む。

【００３４】次にステップＳ１４にて窓バッファ１１を
検索し、先読みバッファ１２のデータと最長一致するデ
ータの位置を一致位置レジスタＩＮＤに、一致長を一致
長レジスタＬＥＮにセットし、ステップＳ３に戻る。ス
テップＳ３にて、一致長レジスタＬＥＮが“２”より小
さくない場合は、圧縮符号を出力する場合なので、ステ
ップＳ４に進み圧縮符号を出力する。具体的には、識別
フラグ１３として１ビットの“１”を出力する。次に、
位置フィールド１４として、一致位置レジスタＩＮＤの
下位１２ビットを出力する。次に、長さフィールド１５
として、一致長レジスタＬＥＮから一致長の下限値であ
る“２”を引いた値の下位４ビットを出力する。

【００３５】次にステップＳ５に進み、窓バッファ１１
の最長一致したデータを、先読みバッファにコピーす
る。具体的には、ＢＵＦ［ＣＰ−ＩＮＤ］からＬＥＮバ
イトのデータをＢＵＦ［ＣＰ］からＬＥＮバイトの領域
にコピーする。コピー先の領域とコピー元の領域とが重
なる場合があるが、この場合でも先頭のデータからコピ
ーする。

【００３６】全てのデータの処理が終了すると、ステッ
プＳ２またはステップＳ１１からステップＳ１５に進
む、終了符号を出力する。具体的には、１ビットの
“１”を出力し、次に１６ビットの“０”を出力する。
次にステップＳ１６に進み、終了処理を行う。具体的に
は、まず、１バイトに満たないために出力ファイルに書
き込まれていないデータがあれば、１バイトに達するま
で“０”を出力することにより、残っているデータを出
力ファイルに書き込む。次に入力ファイルおよび出力フ
ァイルをクローズし、圧縮処理を終了する。

【００３７】（最長一致検索処理例）図７は、図６のス
テップＳ１４の最長一致検索処理の詳細を記述したフロ
ーチャートである。まず、ステップＳ２１にて、一致長
レジスタＬＥＮに“０”をセットする。次に、位置レジ
スタＩに、窓バッファ１１の最後の領域に相当する位置
であるカレントポインタＣＰから“１”を引いた値をセ
ットする。次にステップＳ２３にて、長さレジスタＬに
“０”をセットする。

【００３８】次にステップＳ２４にて、ＢＵＦ［Ｉ＋
Ｌ］、即ち窓バッファ１１の現在注目しているＬ番目の
データと、ＢＵＦ［ＣＰ＋Ｌ］、即ち先読みバッファ１
２のＬ番目のデータとの排他的論理和を、データレジス
タＤに格納する。次に、ステップＳ２５にて、データレ
ジスタＤの中の“１”の数と“１”とを比較する。デー
タレジスタＤの中の“１”の数は、ＢＵＦ［Ｉ＋Ｌ］と
ＢＵＦ［ＣＰ＋Ｌ］との違いがあるビット数を示し、予
め計算された表を引くことにより高速に求めることがで
きる。

【００３９】データレジスタＤの中の“１”の数が
“１”より大きい場合は、２ビット以上の相違があるの
で、ステップＳ２８に進む。データレジスタＤの中の
“１”の数が“１”より大きくない場合は、１ビット以
下の相違しかないので、ステップＳ２６に進み、長さレ
ジスタＬに“１”を加算する。次にステップＳ２７に進
み、位置レジスタＬと先読みバッファサイズＬＳとを比
較する。Ｌ＜ＬＳの場合は、先読みバッファ１２の終わ
りに達していないので、ステップＳ２４に戻る。Ｌ＝Ｌ
Ｓの場合は、先読みバッファ１２の終わりに達している
ので、ステップＳ２８に進む。

【００４０】ステップＳ２８では、長さレジスタＬと一
致長レジスタＬＥＮとを比較する。Ｌ≦ＬＥＮの場合
は、長い一致が見つかっているので、ステップＳ３１に
進む。Ｌ＞ＬＥＮの場合は、より長い一致が見つかった
ので、ステップＳ２９に進み、一致長レジスタＬＥＮに
長さレジスタＬをセットし、一致位置レジスタＩＮＤに
位置レジスタＩをセットし、ステップＳ３０に進む。ス
テップＳ３０では、一致長レジスタＬＥＮと一致長の最
大値である“１７”を比較する。ＬＥＮ＝１７であれ
ば、最長一致が得られているので処理を終了する。ＬＥ
Ｎ＜１７であれば、ステップＳ３１に進む。ステップＳ
３１では、位置レジスタＩから“１”を減算し、次にス
テップＳ３２にてカレントポインタＣＰと位置レジスタ
Ｉの差と、窓サイズＷＳとを比較する。（ＣＰ−Ｉ）≦
ＷＳの場合は、窓バッファ１１の先頭を超えているの
で、ステップＳ２３に戻る。（ＣＰ−Ｉ）＞ＷＳの場合
は、窓バッファ１１の先頭を超えたので処理を終了す
る。

【００４１】＜圧縮／伸長結果例＞図８は本実施の形態
の動作例を示す説明図である。図８の（ａ）は入力ファ
イル１に格納されているデータである。なお、本実施の
形態の目的は２値画像を圧縮することにあるが、説明の
都合上、同じコードをもつ文字データを用いて説明す
る。

【００４２】まず、“ＡＢＤ”の３バイトは互いに２ビ
ット以上異なっているので、生データ符号として出力さ
れる。次に、“ａｂｄ”の３バイトは、窓バッファ１１
にある“ＡＢＤ”の３バイトと、各バイトが１ビットず
つしか異なっていないので、“ＡＢＤ”を参照する圧縮
符号が出力される。ここで、図７のステップＳ５のコピ
ー処理を行わないと、窓バッファ１１及び先読みバッフ
ァ１２の状態は図８の（ｂ）のようになっている。次の
“ｉｊｌ”の３バイトは、“ａｂｄ”の３バイトと各バ
イトが１ビットずつしか異なっていないので、“ａｂ
ｄ”を参照する圧縮符号が出力される。

【００４３】ところが、復元側では、“ａｂｄ”に対応
する符号は“ＡＢＤ”を参照しているので、“ＡＢＤ”
として復元されている。このため、“ｉｊｌ”に対応す
る符号もまた、“ＡＢＤ”として復元され、結果として
図８の（ｅ）のデータが復元データとなる。元データ
“ＡＢＤａｂｄｉｊｌ”と、復元データ“ＡＢＤＡＢＤ
ＡＢＤ”を比較すると、最後の３バイトは許容されない
はずの２ビットの異なりを持ってしまう。

【００４４】図７のステップＳ５のコピー処理を行った
場合には、窓バッファ１１にあった“ＡＢＤ”が“ａｂ
ｄ”の上にコピーされ、図８の（ｃ）の状態になる。こ
の場合、“ＡＢＤ”と“ｉｊｌ”とは各バイトが２ビッ
トの異なるがあるので、一致と見なされず、結果的に生
データ符号が出力される。この結果、図８の（ｄ）に示
すように、“ＡＢＤＡＢＤｉｊｌ”のデータが復元され
る。この復元されたデータは元データの“ＡＢＤａｂｄ
ｉｊｌ”と、各バイトが１ビット以下の異なりを保存し
ている。

【００４５】一方、図８の（ａ）のデータ“ＡＢＤａｂ
ｄｉｊｌ”は、全てのデータが異なっているので、一致
の許容範囲を認めない従来の辞書ベース圧縮法では全く
圧縮できないが、本実施の形態では、“ａｂｄ”が圧縮
符号として出力されるため、圧縮が可能となる。なお、
本実施の形態では、圧縮符号化された場合に全てコピー
を行うようにしたが、違いがなく一致している場合はコ
ピーしないような手順としてもよい。

【００４６】また、上述の実施の形態では、圧縮方式と
してＬＺＳＳ圧縮方を使用したが、これに代えて他の辞
書ベース圧縮方式、例えばＬＺ７７，ＬＺ７８，ＬＺＷ
等を使用することができる。また、入力データを一度全
て読み込んでバッファに格納していたが、これに代え
て、固定サイズのバッファを用いて、そのバッファをリ
ングメモリとして使用し、データが必要になる度に必要
なだけよんでくるようにしてもよい。

【００４７】また、入力ファイルと出力ファイルとを使
用していたが、これに代えて任意のデバイス、例えばシ
リアルインタフェースまたはパラレルインタフェースに
接続されたプリンタ、モデム等のデバイスとしてもよ
い。あるいは、デバイスを全く使用せず、単にメモリ上
に格納するようにしてもよい。例えば、パラレルインタ
フェースを経て入力されたデータを圧縮してメモリに格
納しておき、必要になったときに復元して使用するよう
にしてもよい。

【００４８】なお、本発明は、複数の機器（例えばホス
トコンピュータ，インタフェイス機器，リーダ，プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置（例えば、複写機，ファクシミリ装置
など）に適用してもよい。また、本発明の目的は、前述
した実施形態の機能を実現するソフトウェアのプログラ
ムコードを記録した記憶媒体を、システムあるいは装置
に供給し、そのシステムあるいは装置のコンピュータ
（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプロ
グラムコードを読出し実行することによっても、達成さ
れることは言うまでもない。

【００４９】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。プログラムコードを供給
するための記憶媒体としては、例えば、フロッピディス
ク，ハードディスク，光ディスク，光磁気ディスク，Ｃ
Ｄ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリ
カード，ＲＯＭなどを用いることができる。

【００５０】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００５１】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００５２】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになり、例えば、少
なくとも圧縮するデータと既に圧縮された生データとの
違いが所定の許容範囲内であるか否かを判定する判定モ
ジュール、及び所定の許容範囲内である場合に一致と見
なして、一致と判定された圧縮されたデータを既に圧縮
された生データに置き換えて、符号化する符号化モジュ
ールの各モジュールのプログラムコードを記憶媒体に格
納すればよい。

【００５３】

【発明の効果】以上説明したように、本発明によれば、
比較的ランダムに近い２値画像を高い圧縮率で圧縮する
ことができる。また、許容範囲を超えた誤差が発生しな
いように圧縮することができる。

【図面の簡単な説明】

【図１】本実施の形態に係るデータ圧縮装置の機能構成
を示すブロック図である。

【図２】ＬＺＳＳ圧縮方法の原理を説明する説明図であ
る。

【図３】ＬＺＳＳ圧縮方法の原理を説明する説明図であ
る。

【図４】本実施の形態のデータ圧縮装置の具体的構成を
示すブロック図である。

【図５】本実施の形態のデータ圧縮装置のバッファ構成
を示す説明図である。

【図６】本実施の形態のデータ圧縮装置の処理手順を説
明するフローチャートである。

【図７】本実施の形態のデータ圧縮装置の処理手順を説
明するフローチャートである。

【図８】本実施の形態のデータ圧縮装置の動作結果例を
示す説明図である。

【符号の説明】

１入力ファイル２データバッファ５検索部６符号化部７出力ファイル８登録部１１先読みバッファ１２窓バッファ１３識別フィールド１４位置フィールド１５長さフィールド１６生データフィールド２１ＣＰＵ２２磁気ディスク２３ＲＡＭ２４ＲＯＭ

Claims

【特許請求の範囲】

【請求項１】辞書ベースでデータを圧縮するデータ圧
縮方法であって、圧縮するデータと既に圧縮された生データとの違いが所
定の許容範囲内である場合に、一致と見なして符号化を
行うことを特徴とするデータ圧縮方法。
【請求項２】更に、一致と判定された圧縮されたデー
タを既に圧縮された生データに置き換えることを特徴と
する請求項１記載のデータ圧縮方法。
【請求項３】前記置き換えは、前記違いがある場合に
実行されることを特徴とする請求項２記載のデータ圧縮
方法。
【請求項４】辞書ベースでデータを圧縮するデータ圧
縮装置であって、圧縮するデータと既に圧縮された生データとの違いの許
容範囲を記憶する記憶手段と、違いが前記許容範囲内である場合に、一致と見なして符
号化を行う符号化手段とを備えることを特徴とするデー
タ圧縮装置。
【請求項５】更に、一致と判定された圧縮されたデー
タを既に圧縮された生データに置き換える置換手段を備
えることを特徴とする請求項４記載のデータ圧縮装置。
【請求項６】前記置換手段は、前記違いがある場合に
置き換えを行うことを特徴とする請求項５記載のデータ
圧縮装置。
【請求項７】圧縮するデータの全部または一部を格納
するバッファと、圧縮のために参照されるデータを格納する辞書と、前記バッファに格納された圧縮するデータにより前記辞
書を検索する辞書検索手段であって、所定の誤差を許容
する前記辞書検索手段と、前記バッファに格納された圧縮するデータに相当するデ
ータが、前記辞書に格納されていないときには、前記バ
ッファに格納された圧縮するデータを符号化し、前記バ
ッファに格納された圧縮するデータに相当するデータ
が、前記辞書に格納されているときには、少なくとも、
前記辞書検索手段により検索された、前記バッファに格
納されたデータに相当するデータが格納されている前記
辞書のインデックスを符号化する符号化手段と、前記バッファに格納された圧縮するデータの全部または
一部を前記辞書に登録する辞書登録手段とを備えること
を特徴とするデータ圧縮装置。
【請求項８】前記辞書登録手段は、前記符号化手段に
より符号化された前記辞書のインデックスに対応する前
記辞書に格納されたデータと前記バッファに格納された
圧縮するデータとの間に誤差があった場合に、前記バッ
ファに格納された圧縮するデータのかわりに、前記符号
化手段により符号化された前記辞書のインデックスに対
応する前記辞書に格納されたデータに基づいて前記辞書
に登録することを特徴とする請求項７記載のデータ圧縮
装置。
【請求項９】辞書ベースでデータを圧縮するコンピュ
ータ可読のプログラムを記憶するコンピュータ可読メモ
リであって、少なくとも、圧縮するデータと既に圧縮された生データとの違いが所
定の許容範囲内であるか否かを判定する判定モジュール
と、所定の許容範囲内である場合に一致と見なして、一致と
判定された圧縮されたデータを既に圧縮された生データ
に置き換えて符号化する符号化モジュールとを含むこと
を特徴とするコンピュータ可読メモリ。