JP3442105B2

JP3442105B2 - データ圧縮および復元方式

Info

Publication number: JP3442105B2
Application number: JP15192293A
Authority: JP
Inventors: 茂吉田; 佳之岡田; 泰彦中野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-06-23
Filing date: 1993-06-23
Publication date: 2003-09-02
Anticipated expiration: 2018-09-02
Also published as: JPH0721010A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ処理方法に係り、
更に詳しくはデータ中の冗長な部分を省いてデータ量を
圧縮することにより、データの伝送時間を短縮したり、
メモリ上での記憶容量を削減するためのデータ圧縮およ
び復元方式に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、遠く伝送したりできるようになる。様々なデ
ータを１つの方式でデータ圧縮できる方法としてユニバ
ーサル符号化が提案されている。ここで、本発明の方式
は、文字コードの圧縮に限らず、様々なデータに適用で
きるが、以下では、情報理論で用いられている呼称を踏
襲し、データの１word単位を文字と呼び、データが任意
wordつながったものを文字列と呼ぶことにする。ユニ
バーサル符号化の代表的な方法としてジブーレンペル符
号化（以下、ＺＬ符号化と略）と算術符号化がある。ジ
ブーレンペル符号ではスライド辞書型（ユニバーサル
型ともいう）と、動的辞書型（増分分解型ともいう）
の２つのアルゴリズムが提案されている。さらに、スラ
イド辞書型アルゴリズムの改良として、ＬＺＳＳ符号
（T.C. Bell,"Better OPM/L Text Compression",IEEE T
rans. on Commun., Vol.COM-34, No.12, Dec. 1986参
照）やパソコンで用いられているＬＨＡがある。また、
動的辞書型アルゴリズムの改良としては、ＬＺＷ（Lemp
el-Ziv-Welch) 符号がある（T.A. Welch,"A Technique
for High-Performance Data Compression",Computer, J
une 1984参照）。これらの改良方法は補助記憶装置のフ
ァイル圧縮や、モデムでの伝送データの圧縮に利用され
るようになっている。

【０００３】本発明は、スライド辞書型および動的辞書
型アルゴリズムの改良に関するものであり、以下、スラ
イド辞書型と動的辞書型アルゴリズムとその改良版の方
式とについて説明する。(1) スライド辞書型アルゴリズムこのアルゴリズムは、演算量は多いが、高圧縮率が得ら
れる方法である。符号化データを、過去のデータ系列の
任意の位置から始まり、かつ現在の符号化すべきデータ
の最初からの部分と一致する最長の系列に区切り（部分
列）、過去の文字列の複製として符号化する方法であ
る。図８にスライド辞書型アルゴリズムを用いるユニバ
ーサル型Ziv-Lempel符号の符号器の説明図を示す。Ｐバ
ッファ１には符号化済みの入力データとして、例えば40
96個の文字が格納されており、Ｑバッファ２にはこれか
ら符号化するデータとして、例えば16個の文字が入力さ
れている。Ｑバッファ２の文字列をＰバッファ１の系列
と照合し、Ｐバッファ１中で一致する最長の部分文字を
求める。そして、Ｐバッファ１中でこの最長文字列を指
定するため図９に示す情報の組を符号化する。次にＱバ
ッファ２内の符号化した文字列をＰバッファ１に移し
て、新たなデータを得る。以下、同様の操作を繰り返
し、データを部分列に分解して符号化する。

【０００４】すなわち、ＺＬ符号では現在の文字コード
の系列を、符号化済みの過去の系列からの複製として符
号化するものである。ＺＬ符号を用いた場合、文字コー
ドの文書情報は１／２程度に圧縮できる。さらに、スラ
イド辞書型アルゴリズムの改良として、ＬＺＳＳ符号
（T.C. Bell,"Better OPM/L Text Compression",IEEE T
rans. on Commun., Vol. COM-34, No.12, Dec. 1986 参
照）や、１／４インチ・カートリッジ磁気テープの標準
圧縮方式であるQIC-122 符号がある。QIC-122 符号につ
いて次に説明する。（QIC-122 符号）３Ｍを中心とするメーカの団体であるＱＩＣ（Quarter
Inch Cartrrige Standard Inc.) が１／４インチ・カー
トリッジ磁気テープの標準圧縮方式QIC-122 として採用
した方法である。図１０にQIC-122 の符号化の処理手順
を示す。Ｐバッファとして2048バイトの符号化済みデー
タをもち、Ｑバッファの符号化すべき文字列をＰバッフ
ァ中の文字列の複製として表すモードと、生データを１
バイトづつ符号化するモードの２つのモードをもつ。そ
して、Ｐバッファ中の最長一致文字列が２文字以上の場
合、複製モードで符号化し、それ以外のときは生データ
・モードで符号化する。

【０００５】符号語のフォーマットを図１１にＢＮＦメ
タ言語で表す。フォーマットの表記には、図１２のメタ
記号を用いている。図１３に符号化の例を示す。ＬＺＳ
Ｓ符号は、図１２の＜Compressed String ＞の＜Compre
ssed Byte ＞を固定長符号で表わす方式である。(2) 動的辞書型（増分分解）ジブーレンペル符号化このアルゴリズムは、圧縮率はユニバーサル型より劣る
が、シンプルで、計算も容易であることが知られてい
る。増分分解型Ziv-Lempel符号では、入力シンボルの系
列をｘ＝ａａｂａｂａｂａａ・・・とすると、Ｘ₀，Ｘ
₁，Ｘ₂，・・・を成分とする成分系列ｘ＝Ｘ₀，
Ｘ₁，Ｘ₂，・・・への増分分解は次のようにする。

【０００６】Ｘ₀＝λ（空列）から始めて、Ｘ_jを既出
の成分に右端のシンボルを付加した最長の列とすると、
Ｘ＝ａ・ａｂ・ａｂａ・ｂ・ａａ・・・となり、Ｘ
₀＝λ（空列），Ｘ₁＝Ｘ₀ａ，Ｘ₂＝Ｘ₁ｂ，Ｘ₃
＝Ｘ₂ａ，Ｘ₄＝Ｘ₀ｂ，Ｘ₅＝Ｘ₁ａ，・・・と分
解できる。増分分解した各成分系列は既成分系列を用い
て図１４に示すデータの組で符号化する。すなわち、動
的辞書型アルゴリズムは、符号化パターンについて、過
去に分解した部分列の内、最長一致するものを求め、過
去に分解した部分列の複製として符号化するものであ
る。

【０００７】さらに、動的辞書型アルゴリズムの改良と
しては、ＬＺＷ（Lempel-Ziv-Welch) 符号(T.A. Welc
h," A Technique for High-Performance Data Compress
ion",Computer,June 1984 参照）、ＬＺＪ符号（M.Ja
kobsson, "Compression of Character Strings by An A
daptive Dictionary, BIT,25号,1985 年, 593-603 頁参
照のこと) などがある。次にＬＺＷ符号について説明す
る。〔ＬＺＷ符号〕ＬＺＷ符号の符号化の処理のフローを図１５に示す。Ｌ
ＺＷ符号化は、書き替え可能な辞書をもち、入力文字コ
ード・データ中を相異なる文字列に分け、この文字列を
出現した順に番号を付けて辞書に登録するとともに、現
在入力している文字列を辞書に登録してある最長一致文
字列の番号だけで表して、符号化するものである。な
お、動的辞書型符号およびＬＺＷ符号の技術は、特開昭
59-231683, 米国特許4,558,302 で開示されている。

【０００８】ＬＺＷ符号化の処理を図１５によって更に
詳しく説明する。まずステップ（Ｓ）１０において、文
字列を構成する全ての文字について１文字だけの文字列
が初期値として辞書Ｄに登録される。そして辞書の登録
文字列数ｎが文字の種類数Ａとされ、これから符号化し
ようとする文字の位置を示すカーソルがデータの先頭位
置（１の位置）に置かれる。ここで辞書Ｄに全ての１文
字だけの文字列が登録されたことによって、カーソルが
示す、これから符号化しようとする文字は必ず辞書Ｄに
登録されていることになる。

【０００９】次にＳ１１で、カーソルの位置から始まる
符号化すべき文字列と一致する最長の文字列Ｓが、辞書
に登録された文字列の中から見つけられる。ここではま
ずＳ１０で辞書Ｄに登録されている文字列は全て１文字
だけの文字列であるから、当然１文字だけの文字列Ｓが
見つけられる。

【００１０】続いてＳ１２で見つけられた文字列Ｓの辞
書登録番号が〔ｌｏｇ₂ｎ〕ビットのビット数を用いて
出力され、辞書登録文字列数ｎがインクリメントされ
る。ここで〔ｌｏｇ₂ｎ〕はｎの２を底とする対数の値
以上の最小整数を表わす。例えばｎが256 の時にはその
値は８であるが、257 になると９となる。

【００１１】更にＳ１３において、文字列データ中で見
つけられた文字列Ｓの次の文字をＣとする時、文字列Ｓ
Ｃが辞書に登録され、この文字列に辞書登録番号ｎ、す
なわちインクリメントされた値が与えられ、カーソルが
データ中で文字列Ｓの後の文字、すなわちＣに移動さ
れ、その後Ｓ１１以降の処理が全ての文字列の符号化が
終了するまで続けられる。なおこの処理の続行中に辞書
Ｄに登録される文字列の数は増加し、またその長さは当
然長くなって行く。

【００１２】図１６はＬＺＷ符号化された圧縮データの
復元処理のフローチャートである。同図において、まず
Ｓ１５で符号化処理に対するＳ１０におけると同様に、
辞書Ｄに全ての文字に対応して１文字だけの文字列が登
録され、文字の種類数Ａが辞書登録済みの文字列数ｎと
され、カーソルが復元すべき符号化データの先頭に置か
れる。

【００１３】次にＳ１６で、符号化処理のＳ１２で出力
された文字列Ｓを示す辞書登録番号が〔ｌｏｇ₂ｎ〕ビ
ットで表わされたデータとして入力され、この辞書登録
番号を用いて辞書Ｄが検索され、文字列Ｓが復元され、
辞書登録済み文字列数ｎがインクリメントされる。

【００１４】続いてＳ１７で復元された文字列Ｓがカー
ソルの位置から並べられ、Ｓ１８で現在カーソルが置か
れている位置、最初は復元すべき符号化データの最初の
位置に置かれた復元された文字Ｃが、現在行われている
復元処理の直前に行われた復元処理によって復元された
文字列Ｓ′の後に追加された文字列Ｓ′Ｃが新たに辞書
Ｄに登録され、その文字列に辞書登録番号ｎが与えられ
る。ここではデータの復元処理は第１回目であるので
Ｓ′としては空文字列が用いられる。そしてカーソルが
復元された文字列Ｓに対する辞書登録番号の後の符号化
データに移動され、その後Ｓ１６以降の処理が入力符号
化データの復元が全て終了するまで続けられる。なおこ
の処理の続行中に、図１５における符号化処理と同様
に、辞書に登録される文字列の数は増加し、また一般的
にその長さは長くなる。

【００１５】以上のようにＺＬ符号化を用いたデータ圧
縮では、通常、データをバイト単位で扱い、過去に出現
したバイト系列の内、再度出現した系列を短く表すこと
によって圧縮を行う。文字コード等バイト内の全ビット
が一様の重みをもち、系列の繰り返しが多いデータに対
しては、ＺＬ符号化は有効である。しかし、階調画像、
数値など各ビットの重みが異なり下位ビット程重みが小
さいデータでは、上位ビットは比較的規則性をもつが、
下位ビットがバラつくためバイト系列の繰り返しが起こ
り難く、動的辞書法そのままでは低い圧縮率しか得られ
ない。この問題に対して、従来、これを解決するため次
の方法が発表されている。 (1) 伊藤、朴、今井：ＬＺＷ符号による画像データ圧縮
に関する一考察、1990電子情報通信学会春季全国大会予
稿SA-6-2 (2) 陳、伊藤、深町：アルヘァベットサイズの大きい情
報源を圧縮するための修正ＺＬ算法、第13回情報理論と
その応用シンポジウム予稿，pp.221〜225, 1991 文献(1) では、例えば、上位ビットと下位ビットとに分
け、上位ビットのみにＬＺＷ符号を用いる方法を開示し
ている。分解したバイトの部分列は、（上位ビットの辞
書番号、符号化した上位ビットの系列の下位ビット・生
データ）の組で符号化する。

【００１６】文献(2) では、256 階調（１バイト／画
素）の画像データの場合、上位４ビットと下位４ビット
に分けて、それぞれにＬＺＷ符号化することで最も良い
圧縮率が得られることを述べている。

【００１７】

【発明が解決しようとする課題】以上のように階調画像
データ、数値データなど、例えば１バイトのデータ中で
各ビットの重みが異なるデータをＺＬ符号化する時、上
述の文献(1) の方法では上位ビットが動的辞書法で符号
化されるが、下位ビットは符号化されないという問題点
があった。

【００１８】これに対して上述の文献(2) の方法では上
位ビット、下位ビット共に動的辞書法を用いて符号され
るが、上位ビット全体が符号化された後に下位ビット全
体が符号化されるために、データ全体を一旦格納するた
めの大容量バッファを必要とし、実用的でないという問
題点があった。例えばデータの１ライン分を格納するバ
ッファを備え、上位ビットと下位ビットを交互に符号化
する方法を用いれば、データ全体をバッファに格納して
おかなければならないという問題点は改善されるが、そ
れでも符号化データの作成および出力に１ライン分の時
間遅れが生じ、時間的なオーバヘッドが避けられないと
いう問題点があった。

【００１９】本発明は、各ビットの重みが異なるデータ
を、例えば上位ビットと下位ビットに分けて圧縮し、上
位と下位とのデータを交互に伝送することにより容量の
大きなバッファを不要とし、かつ符号化および復元に要
する時間遅れ、すなわちオーバヘッドを改善することで
ある。

【００２０】

【課題を解決するための手段および作用】図１は本発明
の機能ブロック図である。同図は入力される文字列を符
号化してデータ圧縮を行うデータ圧縮時において、その
文字列内の各文字を構成する複数個のビットを複数個の
グループに分け、その複数のグループ間での符号化の順
序をあらかじめ定めた符号化方法を用いるデータ圧縮お
よび復元方式の機能ブロック図である。

【００２１】図１において、まず１で予め定められた符
号化の順序が第１番目のグループのデータが１文字分以
上符号化され、２で定められた符号化の順序に従って、
２番目以降のグループのデータがそれぞれ１番目のグル
ープ内ですでに符号化済みの文字と対応するデータ位置
以上まで符号化され、３で符号化の順序が最終のグルー
プのデータの符号化が行われた後に再び符号化の順序が
第１番目のグループのデータの１文字分以上の符号化が
行われ、それ以降の処理が繰り返される。

【００２２】すなわち、本発明においては、各ビットの
重みが異なるデータの符号化時において、例えば上位ビ
ットの系列と下位ビットの系列とにデータを分けて、相
方の系列を例えばＺＬ符号化する。すなわち上位ビット
のデータ系列を、例えば動的辞書を用いて符号するのに
続き、符号化された上位ビットデータを含む文字以上の
データ位置まで下位ビットのデータ系列を、例えば動的
辞書を用いて符号化し、上位ビットと下位ビットの系列
データを交互に、データ位置の対応を取りながら符号化
するものである。

【００２３】また本発明においては、例えば１番目のグ
ループの１回当たりの符号化において、入力文字列デー
タを所定の文字数分以上まで符号化する。また全てのグ
ループの第１回目の符号化の終了に続いて行われる第２
回目以降の符号化において、１番目のグループのデータ
を符号化する時、１番目のグループの文字列データを２
番目以降のグループのすでに符号化済みデータ位置以上
の所まで符号化するようにする。

【００２４】更に前述のように、ＬＺＷ符号化を用いる
と符号化処理、または復元処理を続行するにつれて辞書
に登録される文字列の数は増加し、その文字列の長さも
長くなるので、辞書に登録できる文字列の数、言い換え
れば文字列の長さを所定長以下に限定し、そのような辞
書を用いて動的辞書型アルゴリズムによって符号化を行
う。

【００２５】本発明においては符号化されたデータの復
元においても、符号化時と同様の処理が行われる。すな
わち符号化データに対して、符号化時に定められたグル
ープの順序に従って、各グループの文字列の復元が行わ
れる。すなわち第１番目のグループの所定の個数の部分
文字列が復元された後に、グループの順序に従って１番
目のグループの復元済みの文字位置以上のデータ位置ま
で符号化データが文字列に復元され、最終順位のグルー
プまで同様の処理が繰り返され、その後再び第１番目の
グループの符号化データの復元が行われ、以降その手順
に従ってデータ復元が行われる。

【００２６】以上のように本発明においては、各ビット
の重みが異なる文字列データが例えば上位ビットと下位
ビットとに分けてそれぞれ符号化され、符号化されたデ
ータが上位ビットと下位ビットとで交互に伝送される。

【００２７】

【実施例】図２は本発明における符号化処理の基本実施
例のフローチャートである。同図において処理が開始さ
れると、ステップ（Ｓ）２０において入力データ１文字
ずつのデータが複数ビット毎のＮ個のグループに分けら
れる。例えば１つの文字が１バイトで表わされる場合に
は、例えばその上位ビット４ビットと下位ビット４ビッ
トとの２つのグループに分けれらる。そしてそのＮ個の
グループに対して符号化の順序が決定され、各グループ
の符号化データに対する現在符号化中のデータ位置を示
すＮ個のカーソルがそれぞれ各グループの入力データの
先頭（１の位置）に置かれる。

【００２８】続いてＳ２１において、まず符号化順序が
第１位の第１グループの文字列データが入力され、その
文字列データをカーソルの位置から部分文字列に分解
し、その部分文字列を符号化した結果が出力され、第１
グループに対するカーソルＣ₁がここで符号化された部
分文字列の直後に置かれる。Ｓ２２でグループ１の入力
データが全て符号化されたか否かが判定され、まだ符号
化されていない時には、Ｓ２３でグループ１の入力デー
タに対して予め定められた所定長以上の文字数のデータ
の符号化が行われたか否かが判定され、まだ符号化され
ていない時にはＳ２１以降の処理が繰り返される。

【００２９】Ｓ２３で所定長以上の文字数の符号化が行
われたと判定された時には、Ｓ２４で符号化すべき入力
データのグループの番号ｉが２と置かれ、Ｓ２５で第２
グループのカーソルの位置Ｃ２が第１グループに対する
カーソルの位置Ｃ１以上であるか否かが判定され、以上
でない時には第２グループの入力データに対する符号化
を行うためにＳ２６において第２グループの文字列デー
タが入力され、第２グループのデータに対するカーソル
Ｃ₂の位置から文字列が部分文字列に分解され、符号化
されて出力される。そしてカーソルＣ₂が符号化された
部分文字列の直後に置かれ、Ｓ２５以降の処理が繰り返
される。

【００３０】Ｓ２５において、第２番目のグループのデ
ータに対するカーソルＣ₂が第１のグループに対するカ
ーソルＣ₁以上であると判定されると、Ｓ２８において
グループ番号ｉ、ここでは２がグループの総数Ｎ未満で
あるか否かが判定され、未満である時にはＳ２７におい
てグループ番号を示すｉの値がインクリメントされ、Ｓ
２５以降の処理が繰り返される。

【００３１】Ｓ２５において最後のグループＮに対する
カーソルＣ_Nが第１のグループに対するカーソルＣ₁以
上であると判定されると、その後のＳ２８においてグル
ープ番号ｉがＮに達したと判定され、Ｓ２９で第１のグ
ループの入力データが全て符号化されたことを示す終端
符号がすでに出力されているか否かが判定され、まだ出
力されていない時にはＳ２１以降の処理が繰り返され、
入力データの第１グループから最後の第Ｎグループまで
の符号化が一般的に何回も行われる。

【００３２】そしてＳ２２で第１グループに対する入力
データが全て符号されたと判定された時には、Ｓ３０で
終端符号が出力され、Ｓ２５〜Ｓ２８で必要に応じて第
２グループから第Ｎグループまでの入力データの全てが
符号化された後に、Ｓ２９ですでに終端符号が出力され
たと判定され、処理を終了する。

【００３３】図３は本発明における復号化処理の基本実
施例フローチャートである。同図において処理が開始さ
れると、まずＳ３５でＮ個のグループの符号化データに
対する復号の順序が、Ｓ２０における符号化順序と同じ
順序に定められ、また符号化入力データに対する復号化
中の文字位置を示すカーソルＣ_iが全てのグループに対
して符号化データの先頭に置かれる。

【００３４】そしてＳ３６で第１グループ符号化入力デ
ータの最終位置を示す終端符号が検出されたか否かが判
定され、まだ検出されていない時にはＳ３７でグループ
１の入力符号化データである圧縮符号の復元が行われ、
復元された部分文字列がカーソルＣ₁の位置から並べら
れ、カーソルＣ₁が復元された部分文字列に対応する符
号化入力データの直後に置かれ、Ｓ３８で第１グループ
のデータに対する所定長以上の文字数の復元が行われた
か否かが判定され、まだ復元されていない時にはＳ３６
以降の処理が繰り返される。

【００３５】Ｓ３８で第１グループに対して所定長以上
の文字数の復元が行われたと判定された時には、Ｓ３９
で復号化される符号化入力データのグループ番号ｉが２
とされ、Ｓ４０で符号化処理におけるＳ２５と同様に第
２グループに対するカーソルＣ₂が第１グループに対す
るカーソルＣ₁以上であるか否かが判定され、以上でな
い時にはＳ４１で入力された第２グループの圧縮符号の
復元が行われ、復元された部分文字列がカーソルＣ₂の
位置から並べられ、その後にカーソルＣ₂が復元された
部分文字列に対応する入力符号化データの直後に置か
れ、Ｓ４０以降の処理が繰り返される。

【００３６】Ｓ４０において第２グループに対するカー
ソルが第１グループに対するカーソル以上の位置に達し
たと判定された時には、Ｓ４３でグループ番号ｉがＮ未
満であるか否かが判定され、未満である時にはＳ４２で
ｉの値がインクリメントされ、Ｓ４０以降の処理が繰り
返される。

【００３７】Ｓ４３でグループ番号ｉがＮに達したと判
定された時には、全てのグループ入力データに対する第
１回の復号化が終了したことになるので、Ｓ４４で第１
グループに対するカーソルＣ₁の位置まで全グループの
復元文字列を合わせることによって元の文字列が復元さ
れ、Ｓ４５ですでに終端符号が検出されたか否かが判定
され、まだ検出されていない時にはＳ３６以降の処理が
繰り返され、第１グループから第Ｎグループまでの符号
化入力データに対する復元処理が一般に何回も続行され
る。

【００３８】Ｓ３６において第１グループの符号化入力
データの終わりを示す終端符号が検出された時には、Ｓ
３９〜Ｓ４３において残りの２番目からＮ番目までのグ
ループの入力符号データに対する復元処理が行われ、Ｓ
４４で全ての元の文字列が復元され、Ｓ４５ですでに終
端符号を検出したことが判定されて、処理を終了する。

【００３９】図４はＬＺＷ符号を用いた符号化処理実施
例のフローチャートである。同図においては、図２にお
ける基本処理実施例のグループの総数Ｎ個を２個とし、
入力データの１文字を示す複数ビットがその上位ビット
と下位ビットとにグループ分けされる場合を対象とし
て、符号化処理を説明する。

【００４０】図４において符号化処理が開始されると、
まずＳ５０において上位ビットデータに対する辞書Ｄ_U
と下位ビットデータ用辞書Ｄ_lに全ての単一文字のそれ
ぞれが登録され、上位辞書の文字列登録数ｎ_Uが上位ビ
ットの文字パターンの種類の数Ａ_Uとされ、また下位辞
書の文字列登録数ｎ_lが下位ビットの文字パターンの種
類の数としてのＡ_lとされ、上位カーソルＣ_Uと下位カ
ーソルＣ_lとが共に入力データの先頭に置かれる。

【００４１】そして、Ｓ５１で上位カーソルＣ_Uの位
置、ここでは上位ビット入力データの最初の位置からの
上位ビット文字列に一致する最長一致文字列Ｓ_Uが辞書
Ｄ_Uの中から検索される。ここではＳ５０において全て
の単一文字が１字だけの文字列として辞書に登録されて
いるので、１字だけの文字列が必ず見つけられる。そし
てＳ５２で〔ｌｏｇ₂ｎ_U〕ビットを用いて文字列Ｓ_U
に対する文字列登録番号が出力される。

【００４２】そして検索された文字列Ｓ_Uの次の上位ビ
ット入力データの文字をＣＨ_vとする時、Ｓ５３で文字
列Ｓ_Uの次に文字ＣＨ_Uを付け加えた文字列が上位ビッ
ト辞書Ｄ_Uに登録され、その文字列に辞書登録番号ｎ_U
が与えられた後に上位辞書文字列登録数ｎ_Uの値がイン
クリメントされ、カーソルＣ_Uが文字列Ｓ_Uの後の上位
ビット入力データの文字に移動され、Ｓ５４で上位ビッ
ト文字列の入力が全て終了したか否かが判定され、まだ
入力されていない時にはＳ５５で上位ビットデータに対
するカーソルＣ_Uが下位ビットデータに対するカーソル
Ｃ_lを越えたか否かが判定される。

【００４３】第１回目の符号化時においては当然ここで
Ｃ_UはＣ_lを越えたと判定され、続いてＳ５６で下位ビ
ットに対するカーソルＣ_lが上位ビットに対するカーソ
ルＣ _U以上であるか否かが判定される。ここではまだＣ
_lはＣ_U以上ではなく、Ｓ５７で下位ビットに対するカ
ーソルＣ_lの位置から下位ビット入力データの文字列に
一致する最長一致文字列Ｓ_lが下位ビット辞書Ｄ_lの中
から検索され、Ｓ５８で文字列Ｓ_lに対する辞書登録番
号が〔ｌｏｇ₂ｎ_l〕ビットを用いて出力される。

【００４４】そして下位ビット入力文字列の中でＳ_lの
次の文字をＣＨ_lとする時、文字列Ｓ_lの次に文字ＣＨ
_lが付加された文字列がＳ５９で辞書Ｄ_lに登録され、
その文字列に辞書登録番号ｎ_lが与えられた後に下位ビ
ット辞書の文字列登録数ｎ_lの値がインクリメントさ
れ、下位ビットに対するカーソルＣ_lが文字列Ｓ_lの次
の下位ビット文字に移動され、Ｓ５６以降の処理が繰り
返される。

【００４５】Ｓ５６で下位ビットに対するカーソルＣ_l
が上位ビットに対するカーソルＣ_U以上になったと判定
された時には、Ｓ６０で上位ビット文字列に対する符号
化が終了したことを示す終端符号がすでに出力されてい
るか否かが判定され、まだ出力されていない時にはＳ５
１以降の処理が繰り返され、上位ビットと下位ビットの
文字列の符号化が一般に何回も続行される。

【００４６】そしてＳ５４で上位ビット文字列のデータ
の入力が終了したと判定された時には、Ｓ６１で上位ビ
ット文字列に対する終端符号が〔ｌｏｇ₂ｎ_U〕ビット
を用いて出力され、Ｓ５６からＳ５９において残りの下
位ビット文字列がある場合には、その文字列の符号化が
行われた後に、Ｓ５６でカーソルＣ_lがＣ_U以上になっ
たと判定されると、Ｓ６０ですでに終端符号が出力され
たことが判定されて、処理を終了する。

【００４７】図５はＬＺＷ符号を用いた復号化処理実施
例のフローチャートである。同図において処理が開始さ
れると、まずＳ６５において符号化処理でのＳ５０にお
けると同様に全ての単一文字が１文字だけの文字列とし
て辞書に登録され、上位カーソルおよび下位カーソルが
それぞれ入力符号化データ（文字列の辞書登録番号）の
先頭に置かれた後に、Ｓ６６で上位ビット文字列に対す
る終端符号が検出されたか否かが判定される。第１回の
復号化処理においては当然この終端符号が検出されず、
Ｓ６７で〔ｌｏｇ₂ｎ_U〕ビットを用いて表わされた文
字列Ｓ_Uに対する辞書登録番号が入力され、上位ビット
辞書Ｄ_Uを用いて文字列Ｓ_Uが復元され、Ｓ６８で文字
列Ｓ_UがカーソルＣ_Uの位置、ここでは先頭位置から並
べられる。

【００４８】続いてＳ６９で、復元された文字列Ｓ_Uの
最初の文字、すなわちカーソルＣ_Uの示す上位ビット文
字をＣＨ_Uとする時、その文字が現在行われている復号
化処理の１回前の復号化処理において復元された上位ビ
ット文字列Ｓ_U′の後に付け加えられた文字列が上位ビ
ット辞書Ｄ_Uに登録され、その文字列に辞書登録番号ｎ
_Uが与えられた後に上位ビット辞書の文字列登録数ｎ_U
の値がインクリメントされ、カーソルＣ_Uは復元された
文字列Ｓ_Uの直後の上位ビット文字に移動され、Ｓ７０
で上位ビットに対するカーソルＣ_Uが下位ビットに対す
るカーソルＣ_lを越えているか否かが判定され、まだ越
えていない時には上位ビットの復号化を更に行う必要が
あるのでＳ６６以降の処理が繰り返される。

【００４９】Ｓ７０でカーソルＣ_UがＣ_lを越えている
と判定された時には、Ｓ７１でカーソルＣ_lがＣ_U以上
であるか否かが判定される。ここではその判定結果は当
然Ｎｏであり、下位ビット符号化データの復号を行うた
めにＳ７２で文字列Ｓ_lに対応して入力された符号化デ
ータが復元され、Ｓ７３でその文字列がカーソルＣ_lの
位置から並べられる。

【００５０】続いてＳ７４において、上位ビットに対す
るＳ６９における処理と同様に、直前に復元された下位
ビット文字列Ｓ_l′の直後に現在復元された文字列の最
初の文字ＣＨ_lが付け加えられて下位ビット辞書Ｄ_lに
登録され、その文字列に辞書登録番号ｎ_lが与えられた
後に下位ビット辞書文字列登録数ｎ_lの値がインクリメ
ントされ、カーソルＣ_lが文字列Ｓ_lの直後の下位ビッ
ト文字に移動された後、Ｓ７１以降の処理が繰り返され
る。

【００５１】Ｓ７１においてカーソルＣ_lがカーソルＣ
_U以上になったと判定されると、Ｓ７５で上位ビットと
下位ビットに対して復元された文字列が合成されて元の
文字列が上位ビットに対するカーソルＣ_Uの文字位置ま
で復元され、Ｓ７６で上位ビット文字列に対する終端符
号がすでに検出されたか否かが判定される。

【００５２】まだ終端符号が検出されていない時にはＳ
６６以降の処理が繰り返され、一般に上位ビット部分文
字列と下位ビット部分文字列との復元が何回も行われ
る。そしてＳ６６で上位ビット文字列に対する終端符号
が検出された時には、必要に応じてＳ７１〜７４の処理
において下位ビット文字列の残りの復元が行われ、Ｓ７
５で全ての文字列の復元が行われ、Ｓ７６で終端符号が
検出されたものとして、処理を終了する。

【００５３】前述のように、ＬＺＷ符号を用いた符号化
方式においては一般に符号化が続けられるにつれて、辞
書に登録される文字列の数が増加するため、必要に応じ
てこの辞書登録文字列の数が制限される。図６は辞書登
録文字列数が制限された時の、ＬＺＷ符号を用いた符号
化処理のフローチャートである。同図において、図４と
異なる部分のみを説明する。

【００５４】図６において図４と異なる部分は、図４の
Ｓ５３およびＳ５９の各ステップのみである。図６にお
いてはＳ５３の代わりにＳ８０〜８２，Ｓ５９の代わり
にＳ８５〜８７の処理が行われる。Ｓ８０においては上
位ビット辞書Ｄ_vにおける文字列登録数ｎ_vが最大登録
数以下であるか否かが判定され、以下である時にはＳ８
１で図４のＳ５３におけると同様に文字列Ｓ_UＣＨ_Uが
新たに登録され、上位ビット辞書Ｄ_Uの文字列登録数ｎ
_Uの値がインクリメントされた後に、Ｓ８２でカーソル
Ｃ_Uが復元された文字列Ｓ_Uの直後の上位ビット文字に
対応する入力データの位置に移動され、その後Ｓ５４以
降の処理が行われる。これに対してＳ８０で登録文字列
数ｎ_Uが最大登録数以下でない時にはＳ８１の処理は行
われず、Ｓ８２でのカーソルの移動のみが行われる。

【００５５】Ｓ５９の代わりに図６で行われるＳ８５〜
８７における処理は、Ｓ８０〜８２の上位ビットに対す
る処理を下位ビットに適用するものであり、その処理は
全く同様であるのでその説明を省略する。

【００５６】図７は辞書登録数が制限されている場合の
ＬＺＷ符号を用いた復号化処理のフローチャートであ
る。同図を図５と比較すると、Ｓ６９の代わりにＳ９０
〜９２、Ｓ７４の代わりにＳ９５〜９７の処理が行われ
る点のみが異なっている。例えばＳ９０〜９２において
は図６の符号化処理におけるＳ８０〜８２の処理に類似
した処理が行われ、Ｓ９１で上位ビット辞書Ｄ_Uに、直
前に復元された上位ビット文字列Ｓ_U′の直後に現在復
元された文字列Ｓ_Uの最初の文字ＣＨ_Uが付加された文
字列が新たに登録される点のみが異なっている。またＳ
７４の代わりに行われるＳ９５〜９７の処理は、上位ビ
ットに対する処理Ｓ９０〜９２が下位ビットに対して行
われる点のみが異なっており、その説明を省略する。

【００５７】

【発明の効果】以上詳細に説明したように、本発明によ
れば１つの文字を表わす複数ビットの各ビットの重みが
異なるような文字列を１文字毎に上位ビットと下位ビッ
トのデータに分けて圧縮し、かつ上位ビット符号化デー
タと下位ビット符号化データとを交互に出力するため
に、データを格納しておくバッファの容量を小さくする
ことができる。また符号化データの復元側では、入力さ
れる符号化データの上位側データと下位側データとが入
力されるたびに、それらを組み合わせて順次復元文字列
を得ることができ、文字列の復元に要する時間としての
オーバヘッドを最小にすることが可能となる。

【図面の簡単な説明】

【図１】本発明の機能ブロック図である。

【図２】本発明における符号化処理基本実施例のフロー
チャートである。

【図３】本発明における復号化処理基本実施例のフロー
チャートである。

【図４】ＬＺＷ符号を用いた符号化処理実施例のフロー
チャートである。

【図５】ＬＺＷ符号を用いた復号化処理実施例のフロー
チャートである。

【図６】ＬＺＷ符号を用いた符号化処理実施例のフロー
チャート（辞書登録文字列数に制限がある場合）であ
る。

【図７】ＬＺＷ符号を用いた復号化処理実施例のフロー
チャート（辞書登録文字列数に制限がある場合）であ
る。

【図８】スライド辞書型アルゴリズムを説明する図であ
る。

【図９】スライド辞書型アルゴリズムを用いて出力され
る符号化データの説明図である。

【図１０】ＬＺＳＳ／ＱＩＣ−１２２符号化処理のフロ
ーチャートである。

【図１１】ＱＩＣ−１２２符号の符号語フォーマットを
示す図である。

【図１２】図１１のフォーマットにおけるメタ記号を示
す図である。

【図１３】ＱＩＣ−１２２符号を用いた符号化例を示す
図である。

【図１４】動的辞書型アルゴリズムを用いた符号化によ
って出力されるデータの説明図である。

【図１５】ＬＺＷ符号による符号化処理従来例のフロー
チャートである。

【図１６】ＬＺＷ符号による復号化処理従来例のフロー
チャートである。

【符号の説明】

１Ｐバッファ２Ｑバッファ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−134847（ＪＰ，Ａ) 特開平４−49414（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】入力される文字列を符号化してデータ圧
縮するデータ圧縮時において、該文字列内の各文字を構
成する複数個のビットをそれぞれ複数のグループに分
け、該複数のグループ間での符号化の順序が定められた
符号化方式であって、該符号化の順序が第１番目のグループのデータを１文字
分以上符号化し、該符号化の順序に従って第２番目以降のグループのデー
タをそれぞれ該第１番目のグループ内で符号化済みの文
字と対応するデータ位置以上まで符号化し、該符号化の順序が最終のグループのデータの１回目の符
号化後に、前記符号化の順序が第１番目のグループのデ
ータの１文字分以上の符号化以降の処理を繰り返すこと
を特徴とするデータ圧縮および復元方式。
【請求項２】前記符号化の順序が第１番目から最終ま
でのグループの各グループ毎に、同一グループの符号化
済み文字列と一致する最長の部分文字列に対応するデー
タの符号化を行うことを特徴とする請求項１記載のデー
タ圧縮および復元方式。
【請求項３】前記符号化の順序が第１番目のグループ
のデータに対する各回の符号化において、それぞれ所定
長以上の部分文字列の符号化を行うことを特徴とする請
求項１、または２記載のデータ圧縮および復元方式。
【請求項４】前記符号化の順序が最終のグループのデ
ータの１回目の符号化後の、前記第１番目のグループの
データに対する２回目以降の符号化において、前記第２番目以降のグループ内で最も符号化済みの文字
の長さが長いグループにおける符号化済みの文字に対応
するデータ位置まで符号化を行うことを特徴とする請求
項１，２、または３記載のデータ圧縮および復元方式。
【請求項５】前記符号化の順序が定められた各グルー
プ毎に、同一グループの符号化済み文字列を格納する辞
書を備え、該辞書に格納可能な文字列数が制限された状態で各グル
ープ毎に部分文字列データの符号化を行うことを特徴と
する請求項１，２，３、または４記載のデータ圧縮およ
び復元方式。
【請求項６】前記符号化方式によって圧縮されたデー
タの復元時において、前記複数のグループ間で定められ
た符号化順序と同一の順序に従って行われるデータ復号
化方式であって、前記符号化の順序が第１番目のグループの符号化データ
を所定の個数の文字分だけ復号化し、該符号化の順序に従って、第２番目以降のグループの符
号化データをそれぞれ、該第１番目のグループ内で復号
化済みの文字と対応するデータ位置以上まで復号化し、該復号化の順序が最終のグループのデータの１回目の復
号化後に、前記符号化の順序が第１番目のグループのデ
ータの所定個数文字分の復号化以降の処理を繰り返すこ
とを特徴とする請求項１，２，３，４、または５記載の
データ圧縮および復元方式。