JPH06161705A

JPH06161705A - データ符号化方式及びデータ復元方式

Info

Publication number: JPH06161705A
Application number: JP4310295A
Authority: JP
Inventors: Yasuhiko Nakano; 泰彦中野; Yoshiyuki Okada; 佳之岡田; Shigeru Yoshida; 茂吉田; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-11-19
Filing date: 1992-11-19
Publication date: 1994-06-10

Abstract

(57)【要約】（修正有）【目的】複数種類のデータが混在するファイルを高い圧
縮率で符号化する。【構成】学習辞書３１並びに専用のオブジェクトコード
用辞書３２−１、ソースコード用辞書３２−２及び画像
データ用辞書３２−３の４種類の辞書を用意する。符号
器Ａ〜Ｄは、夫々辞書３１，３２−１〜３２−３を用い
て原データ３０をＬＺＷ符号化して圧縮データＡ〜Ｄを
作成する処理を並行して同時に行う。圧縮データＡ〜Ｄ
は夫々バッファＡ〜Ｄを介してＭＰＸ３５に出力され
る。演算回路により、圧縮データＡ〜Ｄの圧縮率Ａ〜Ｄ
が算出され、圧縮率比較器３４に出力され、これを基に
比較器は圧縮率が最も高い圧縮データをＭＰＸに通知す
る。ＭＰＸは、この通知に基づき、最も圧縮率の高い圧
縮データを選択し、いずれかの辞書を用いてＬＺＷ符号
化されたものであるかを示す辞書情報を付与して出力す
る。この辞書情報を基に復元側は同様の４種類の辞書を
用いて復元を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ジブ・レンペル(Ziv-L
empel)符号によるユニバーサル符号化方式によりデータ
を圧縮するデータ符号化方式、及びデータ復元方式に関
する。

【０００２】

【従来の技術】近年、ＯＡ（オフィシャル・オートメー
ション）の発達に伴い、一文書中に文字、図形、画像な
ど様々のメディアを混在して取り込めるようになってき
ている。そして、文字コードや白黒２値画像等の混在情
報が、それらのレイアウト情報とともに、文書データと
してＧ４（超高速）ファクシミリや光ディスクファイル
・システムなどで扱われるようになってきており、それ
らの情報のデータ量も急速に増加してきている。これら
のマルチメディアから成る文書情報をディジタルデータ
として利用するとき、一般に、画像情報のデータ量は文
字コードのデータ量に比較して１０倍〜数１０倍と多く
なる。このため、データ蓄積やデータ伝送等で、画像情
報を扱うときは、それらの処理を効率良く行うために、
データの中の冗長な部分を省いてデータ量を圧縮するこ
とにより、記憶容量の削減や伝送の効率化を図ってい
る。

【０００３】しかしながら、大容量のファイルシステム
や文書データベースでは、文書データ中の文字コード情
報も全体として大きなものとなるため、画像情報のみな
らず文字コード情報の圧縮も必要となってくる。

【０００４】文字コードや画像データなどの様々のデー
タを一つの方式でデータ圧縮できる方法として、ユニバ
ーサル符号化方式が知られており、その代表的な方法と
してジブ・レンペル符号（宗像清治、「Ziv-Lempelのデ
ータ圧縮法」、情報処理、Vol.26,No.1,Jan.1985年参
照）がある。

【０００５】このジブ・レンペル符号には、ユニバーサル型と増分分解型（Incremental Paring)の２つのアルゴリ
ズムがある。

【０００６】さらに、ユバーサル型アルゴリズムの改良
として、ＬＺＳＳ符号がある(T.C.Bell,"Better OPM/L
Text Compression",IEEE Trans. on Commun., Vol.COM-
34,No.12,Dec.1986参照）。

【０００７】また、増分分解型アルゴリズムにも、その
改良型として、ＬＺＷ(Lempel-Ziv-Welch ）符号がある
(T.A. Welch,"A Technique for High-Performance Data
Compression",Computer,June 1984 参照）。

【０００８】これらの符号化方式の内、高速処理ができ
ることと、アルゴリズムが簡単であることから、最近
は、ＬＺＷ符号が、記憶装置に格納するファイルの圧縮
などに使用されるようになってきている。

【０００９】ここで、上記ユニバーサル符号化の代表的
は方法であるジブ・レンペル符号のユニバーサル型及び
増分分解型の２つのアルゴリズムについて説明する。１．ユニバーサル型のアルゴリズムこのアルゴリズムは、演算量が多いが、高い圧縮率が得
られるものであり、符号化するデータを、過去のデータ
系列の任意の位置から一致する最大長の系列（部分列）
に区切り、過去の系列の複製として符号化する方法であ
る。

【００１０】このようなユニバーサル型ジブ・レンペル
符号の符号化の基本概念を図１１(a) に示す。同図(a)
に示すＰバッファには過去のデータ系列である既に符号
化済みの入力データ「・・・ａｂｃ・・・」が格納され
ている。一方、Ｑバッファにはこれから符号化するデー
タ（文字列）「ａｂｃｄｅｆ」が入力・格納されてい
る。

【００１１】このような状態において、Ｑバッファ内の
データを符号化する際には、Ｑバッファのデータ系列を
キーとしてＰバッファ内のデータ系列を走査し、Ｐバッ
ファ内でＱバッファ内のデータ系列に一致する最大長の
部分列（同図(a) の例では「ａｂｃ」）を求める。そし
て、Ｐバッファ中のこの最大長の部分列を指定するため
に、同図(b) に示す形式の情報の組を符号化する。この
情報の組は、「Ｐバッファ中における最大一致系列の開
始位置」（同図(a) の例では「ａ」のアドレス）、「一
致する長さ」（同図(a) の例では「３」）、及び「次の
シンボル」（同図(a) の例では「ｄ」）の３個の情報か
らなる。

【００１２】続いて、このＱバッファ内の符号化した系
列（この場合、「ａｂｃ」）をＰバッファ内に移動・格
納して新たな過去のデータ系列を得る。以下、Ｑバッフ
ァ内の残りのデータ系列「ｄｅｆ」についても、同様の
操作を繰り返し、Ｑバッファ内の残りのデータ系列をＰ
バッファ内に既に格納されている部分列に分解し、上述
のようにして符号化すると共に、Ｐバッファ内のデータ
系列を更新する。

【００１３】２．増分分解型のアルゴリズムこのアルゴリズムは、圧縮率はユニバーサル型より劣る
が、アルゴリズムが簡単であり、計算も容易であること
から高速処理ができる。

【００１４】このアルゴリズムの代表的な方法であるＬ
ＺＷ符号化の方法を、図１２に示すフローチャート、図
１３に示す辞書（学習辞書）、及び図１４に示すデータ
変換の模式図を用いて説明する。

【００１５】ＬＺＷ符号化は、書き替え可能な辞書（学
習用辞書）を１個持ち、入力文字列を相異なる文字列
（部分列）に分け、これらの文字列を出現した順に参照
番号を付けて上記辞書に登録すると共に、現在入力して
いる文字列を、上記辞書に既に登録されている最大長の
一致する文字列に割り当てられた参照番号で表すことに
より符号化するものである。尚、以後の説明では、情報
理論で用いられる呼称を踏襲し、データの１ワード単位
を文字と呼び、データが任意ワードつながったものを文
字列と呼ぶ。

【００１６】ＬＺＷ符号化処理では、まず、ステップＳ
１で、予め辞書Ｄ_Cに、全文字につき一文字から成る文
字列を登録する初期化を行う。即ち、例えば、一文字を
８ビットコードで符号化する場合には、最大２５６種類
の全文字につき一文字からなる文字列を、辞書Ｄ_Cのア
ドレス０〜２５５番地に初期登録する。これにより、例
えば図１３に示すように、辞書Ｄ_Cのアドレス０、１、
２、・・・、２５５に、アルファベット「ａ」、
「ｂ」、「ｃ」、・・・や、ひらがな、カタカナ、数字
等が登録される。尚、同図の左側に示す文字列テーブル
Ｂ１は説明を容易なものとするために、補助的に示した
ものである。

【００１７】以下の説明では、説明を分かり易くするた
めに、図１４に示すような入力文字列が入力された場合
の例を取り上げて説明する。まず、ステップＳ１で、辞
書Ｄ_Cの書込用先頭アドレスｎに、上記初期登録された
最後の文字列の格納アドレスの次のアドレスである「２
５６」を新たに登録する文字列の辞書Ｄ_Cへの格納アド
レスｎとして設定する。

【００１８】続いて、同じくステップＳ１で、入力され
た最初の文字Ｋをキーデータ（インデックス）として辞
書Ｄ_cを検索し、参照番号ω（辞書Ｄ_C内での文字Ｋの
格納アドレス）を求め、これを語頭文字列(prefix stri
ng) とする。これにより、入力文字列が、例えば、図１
４に示すような「ａｂａｂｃｂａｂａｂａａａａａａ
ａ」であれば、最初の文字Ｋである「ａ」をインデック
スとして辞書Ｄ_Cが検索され、「ａ」が登録されている
番地「０」が参照番号ωとして求められ、その「０」が
語頭文字列となる（図１４の出力コードの欄を参照）。

【００１９】次に、ステップＳ２で、入力文字列の次の
文字Ｋを読む。これにより、上記最初の入力文字の
「ａ」の次の文字「ｂ」が読み込まれる。続いて、ステ
ップＳ３で、文字Ｋがあるか否かを判別する。これは、
入力文字列がまだ終了していないか否かを判別する処理
であり、上記ステップＳ２で次の文字が読み出されたか
否かを判別する。

【００２０】図１４に示す入力文字列の場合は「ａ」の
次の文字「ｂ」が読み込まれているので文字列がまだ終
了しておらず、したがってＹｅｓと判断し、次にステッ
プＳ４で、文字列「ωＫ」が辞書Ｄ_Cに登録されてある
か否か検索する。これにより、ステップＳ１で求められ
た語頭文字列ω（ここでは「０」）に、ステップＳ２で
読み込んだ文字Ｋ（ここでは「ｂ」）を加えた文字列
が、辞書辞書Ｄ_C内に登録されているか否かが調べられ
る。

【００２１】そして、この検索で、Ｎｏであれば、ステ
ップＳ６に進み、ステップＳ１で得られている文字Ｋの
参照番号ωの符号「code（ω）」を出力し、また文字列
「ωＫ」に新たな参照番号ｎを付与して辞書Ｄ_Cのアド
レスｎに登録する。これにより、図１４に示す入力文字
列の場合、まず、「ａ」の参照番号ωである「０」の符
号が出力され、さらに、検出されなかった文字列「０
ｂ」が、辞書辞書Ｄ_Cのアドレス２５６に登録される。

【００２２】続いて、同じくステップＳ６で、上記ステ
ップＳ２で読み込んだ入力文字Ｋを参照番号ωに置き換
えると共に、辞書Ｄ_Cのアドレスｎを「１」インクリメ
ントして、ステップＳ２に戻る。これにより、図１４の
入力文字列の例であれば、参照番号ωが「ｂ」の参照番
号である「１」に置き換えられ、次回新たに書き込まれ
る辞書Ｄ_Cのアドレスがインクリメントされて「２５
７」に変わる。

【００２３】一方、ステップＳ４で文字列「ωＫ」が辞
書Ｄ_Cに登録されていれば、この場合は、ステップＳ５
に進んで、その文字列「ωＫ」を参照番号ωに置き換
え、ステップＳ４で文字列「ωＫ」が辞書Ｄ_Cから探せ
なくなるまでステップＳ２〜Ｓ５を繰り返し、最大一致
長の文字列の検索を続ける。

【００２４】このような方法で行われるＬＺＷ符号化の
処理を、図１４に示す入力文字列「ａｂａｂｃｂａｂａ
ｂａａａａａａａ」を取り上げて具体的に説明すると、
まず、最初の文字「ａ」を入力したとき、辞書Ｄ_Cには
「ａ」の他に一致する文字列がないので、出力コード
「０」（参照番号ω）を出力する。そして、拡張した文
字列ａｂに参照番号「２５６」を付与して辞書Ｄ_Cに登
録する。実際の辞書登録は図１３の右側に示すように
「０ｂ」の形で登録される。

【００２５】続いて、２番目の文字「ｂ」が文字列の先
頭になる。辞書Ｄ_Cには「ｂ」の他に一致する文字がな
いので「１」（参照番号ω）の符号（コード）を出力
し、同時に拡張した文字列「ｂａ」も辞書Ｄ_Cにないの
で、文字列「ｂａ」を「１ａ」で表し、参照番号「２５
７」を付与して辞書Ｄ_Cに登録する。次は、３番目の文
字「ａ」が次の文字列ωＫの先頭になる。以下同様に、
このような処理を続けていくことにより、図１４に示す
入力文字列「ａｂａｂｃｂａｂａｂａａａａａａａ」が
同図の出力コード欄に示す「０、１、２５６、２、２５
７、２６０、０、２６２、２６３」の出力コードに変換
され、この結果として、入力文字列が圧縮される。

【００２６】次に、上述の如くＬＺＷ符号化された符号
データを復元するアルゴリズムを、図１５のフローチャ
ートを用いて説明する。また、この復元の具体例とし
て、図１４に示すＬＺＷ符号化された出力コード列
「０、１、２５６、２、２５７、２６０、０、２６２、
２６３」を、入力符号列として図１６(a) に再掲して説
明の補助とする。

【００２７】先ず、ステップＳ１１では、この場合も上
記ＬＺＷ符号化のときと同様に、辞書Ｄd に全文字につ
き一文字から成る文字列を初期登録する。これから説明
する上記具体例では、一文字「ａ」，「ｂ」，「ｃ」、
・・・を、参照番号「０」、「１」、「２」、・・・の
符号（コード）として辞書Ｄd に登録し、また、辞書Ｄ
d の書込用先頭アドレスｎに、上記初期登録された最後
の文字列の格納アドレスの次のアドレスである「２５
６」を、新たに登録する文字列の辞書Ｄd への格納アド
レスｎとして設定する。

【００２８】次に、同じくステップＳ１１で、最初の入
力符号code（ω）を読み込み、これをＯＬＤωにセット
する。これにより、図１６(a) に示す入力符号の例では
最初の入力符号である「０」の符号が読み込まれて、参
照番号「０」に変換された後、ＯＬＤωにセットされ
る。

【００２９】続いて、同じくステップＳ１１で、入力符
号code（ω）を復元する。この処理では、最初の入力符
号code（ω）は上述のようにして初期登録された辞書Ｄ
d に既に登録されているから、その入力符号code（ω）
に一致する文字「Ｋ」を辞書Ｄd から探し出して出力す
る。尚、出力した文字「Ｋ」は後に必要に応じて行われ
る例外処理に備えてＦＩＮcharにセットする。

【００３０】これにより、図１６(a) に示す入力符号の
例では、「０」の参照番号に対応する文字「ａ」が復元
・出力されると共に、ＦＩＮcharにもセットされる。続
いて、ステップＳ１２で、次の入力符号code（ω）を読
み込む。すなわち、図１６(a) に示す入力符号の例で
は、入力符号「１」が読み込まれる。

【００３１】そして、ステップＳ１３で、新たに読み込
まれた入力符号code（ω）が辞書Ｄｄに登録されている
か否か、すなわち符号入力の終了の有無の判別をする。
図１６(a) に示す入力符号の例では、ステップＳ１２で
「１」が新たな入力符号code（ω）として読み込まれて
いる。

【００３２】このように、新たな入力符号code（ω）が
あれば、ステップＳ１４に進んで、この入力符号code
（ω）に対応する参照番号「ω」をＩＮωにセットす
る。これにより、図１６(a) に示す入力符号の例では、
「１」がＩＮωにセットされる。

【００３３】つぎに、ステップＳ１５で、上記参照番号
「ω」が辞書Ｄd に登録されているか否か（ω≧ｎ）を
判別する。この処理では、通常、読み込んだ符号code
（ω）は前回までの処理で、辞書Ｄd に登録されている
から、ω＜ｎであり、ステップＳ１６に進んで、辞書Ｄ
d を検索して、上記参照番号「ω」に対応する文字列を
辞書Ｄd から読み出し、文字Ｋを一時的にスタックし、
参照番号code（ω）を新たな符号code（ω）として再度
ステップＳ１６に戻り、このステップＳ１６、Ｓ１７の
手順を再帰的に参照番号ωが一文字Ｋに至るまで繰り返
し、最後ステップＳ１８に進んでＳ１７でスタックした
文字をＬＩＦＯ(Last In First Out) 形式でポップアッ
プして出力する。同時に、Ｓ１８において、前回使った
符号ωと今回復元した文字列の最初の一文字Ｋを組
（ω、Ｋ）と表した文字列に、新たな参照番号を付加し
て辞書Ｄd に登録する。そして、ｎを「１」インクリメ
ントして、その「ｎ＋１」を次に辞書Ｄd に新たに登録
するアドレスｎとして設定し、さらにＩＮωにセットさ
れていた参照番号「ω」をＯＬＤωに代入して、ステッ
プＳ１２に戻る。

【００３４】これにより、図１６(a) に示す入力符号の
場合には、同(b) に示すように、２番目に読み込まれた
参照番号「１」の符号から復元された文字「ｂ」が出力
され、その「ｂ」がＦＩＮcharにセットされると共に、
前回の復元された参照番号「０」と今回復元した最初の
一文字「ｂ」との連なりから成る文字列「０ｂ」が新た
な参照番号「２５６」に対応付けられて辞書Ｄd に登録
される。

【００３５】そして、辞書Ｄd の格納アドレスが「２５
７」に更新された後、ＯＬＤωには「１」がセットさ
れ、ステップＳ１２で３番目の符号「２５６」が読み込
まれる。

【００３６】そして、辞書Ｄd の検索により求められた
文字列「０ｂ」から文字列「ａｂ」への置き換えが行わ
れて、文字列「ａｂ」が出力される。同時に、前回処理
した参照番号「１」と今回復元した１番目の文字「ａ」
とを組み合わせた文字列「１ａ」（＝「ｂａ」）が新た
な参照番号「２５７」に対応付けられて辞書Ｄd に登録
される。

【００３７】上記のステップＳ１５の判別で、読み込ん
だ符号code（ω）が前回までの処理で辞書Ｄd に登録さ
れていない場合は、ステップＳ１９に進んで例外処理を
行う。すなわち、前回処理した参照番号「ＯＬＤω」に
前回復号した文字列の最初の一文字「ＦＩＮchar」を加
えた文字列「ＯＬＤω、ＦＩＮchar」を求め、この新た
な文字列に対応する参照番号をＩＮωにセットしてから
ステップＳ１６に進む。

【００３８】例えば、図１６(a) に示す入力符号の例で
は、６番目に入力する「２６０」の符号に対応する参照
番号「２６０」は、この時点では辞書Ｄd に定義されて
いない。この場合は、前回処理した参照番号「２５７」
に前回復元した文字列「ｂａ」の最初の一文字「ｂ」を
加えた文字列「２５７ｂ」を求め、この文字列に対し参
照番号「２６０」を付与し、この参照番号をＩＮωにセ
ットする。そして、ステップＳ１６→Ｓ１７の処理を繰
り返すことにより、「ｂ」、「ａ」、「ｂ」の順に１文
字づつスタックする。そしてステップＳ１８で、ポップ
アップ操作により「２８０」の符号を「ｂａｂ」の文字
列に復元・出力すると共に、上記文字列「２５７ｂ」を
参照番号「２６０」に対応付けて辞書Ｄd に登録する
（同図(b)〜(e) 参照）。

【００３９】以下、同様にこのような処理を順次繰り返
すことにより、図１６(a) に示す入力符号が同図(e) に
示す文字列に復元される。

【００４０】

【発明が解決しようとする課題】上述したジブ・レンペ
ル（Ziv-Lempel）符号は、他の方式に見られるような対
象データの統計的な性質や定常性を予め仮定して圧縮を
行う方法ではなく、復号すると元の情報に完全に復元さ
れるという情報保存型のデータ圧縮方法であることか
ら、例えば文字コードやプログラムのソースコードもし
くはオブジェクトコードのように、完全な復元が要求さ
れるデータの圧縮に適している。

【００４１】また、画像データを、一定量のデータに分
割して、そのデータを文字コード同様に扱えば、ジブ・
レンペル（Ziv-Lempel）符号によって圧縮することがで
きる。したがって、例えば文字コードと画像データのよ
うに性質が異なる複数種類のデータが混在する情報を１
つの符号化方式で圧縮することは可能であり、また、そ
れが実現できれば便利であるといえる。

【００４２】しかし、従来のジブ・レンペル（Ziv-Lemp
el）符号化は、１個の書き換え可能な辞書のみを用いて
行っており、この辞書を入力データにより更新してい
き、辞書の容量が一杯になると（空容量が無くなると）
直ちにクリアするか、または容量が一杯になった後、圧
縮率が悪化してきた場合クリアして、再び辞書の登録を
最初から始めるという方法、辞書が一杯になったら登録
を止めて、そのままその辞書を使い続ける方法などでデ
ータを符号化している。このため、初期又はクリア後の
辞書のデータ登録数が少ない時点では、入力データの性
質を十分に学習することができず高い圧縮率を得ること
が難しかった。

【００４３】また、辞書データの登録数が増加しても、
入力データの性質の変化が大きいときは、辞書には平均
的な性質を反映する内容のみが登録されてるため、辞書
の効率的な利用ができない、すなわちデータの圧縮率が
低いという欠点があった。

【００４４】本発明は、かかる実情に鑑みてなされたも
のであって、入力データの性質の変化が大きい場合で
も、高い圧縮率で入力データを符号化できるデータ符号
化方式及びこのデータ符号化方式によって符号化された
データを復元するデータ復元方式を実現することを目的
とする。

【００４５】

【課題を解決するための手段】請求項１記載の発明のデ
ータ符号化方式は、ジブ・レンペル符号によるユニバー
サル符号化方式によりデータ圧縮を行うデータ符号化方
式であって、書き換え可能な学習用辞書１と、それぞれ
異なる種類の入力データの性質を取り込んだ書き換え不
可能な参照専用の複数の専用辞書２−１、２−２、・・
・、２−ｎと、学習用辞書１及び複数の専用辞書２−
１、２−２、・・・、２−ｎを用いた入力データのＬＺ
Ｗ符号化を並行に行う圧縮手段３と、この圧縮手段３に
よるＬＺＷ符号化の並行処理の結果得られた複数の圧縮
データのうち、一番圧縮率の高い圧縮データをこの圧縮
データの作成に用いられた辞書を示す辞書情報と共に選
択出力する選択出力手段４とで構成される。

【００４６】上記圧縮手段３は、例えば請求項２記載の
ように、上記入力データを一定区間単位でＬＺＷ符号化
する。また、例えば請求項３記載のように、上記入力デ
ータを各辞書１、２−１、２−２、・・・、２−ｎ毎に
最大長の文字列で、順次ＬＺＷ符号化する。

【００４７】請求項４記載のデータ復元方式は、請求項
１記載のデータ符号化方式によりＬＺＷ符号化された圧
縮データ復元するデータ復元方式であって、書き換え可
能な学習用辞書２１と、それぞれ異なる種類の入力デー
タの性質を取り込んだ書き換え不可能な参照専用の複数
の専用辞書２２−１、２２−２、・・・、２２−ｎと、
上記辞書情報を参照して学習用辞書２１又は複数の専用
辞書２２−１、２２−２、・・・、２２−ｎの中から、
復元すべき圧縮データのＬＺＷ符号化に用いられた辞書
を選択し、この辞書を用いて上記圧縮データを復元出力
する復元手段２３とで構成される。

【００４８】請求項５記載のデータ復元方式は、請求項
２記載のデータ符号化方式によりＬＺＷ符号化された圧
縮データを復元するデータ復元方式であって、請求項４
記載のデータ復元方式の復元手段２３が、復元した圧縮
データ数を計数し、その計数値がある特定の値となるこ
とを検出することにより、上記一定区間を判別して、入
力データの復元を行うように構成される。

【００４９】請求項６記載のデータ復元方式は、請求項
３記載のデータ符号化方式によりＬＺＷ符号化された圧
縮データを復元するデータ復元方式であって、請求項４
記載のデータ復元方式の復元手段２３が、上記辞書情報
に続くＬＺＷ符号化を順次復元していくように構成され
る。

【００５０】

【作用】請求項１記載の発明のデータ符号化方式では、
圧縮手段３は、学習用辞書１と、参照専用の複数の専用
辞書２−１、２−２、・・・、２−ｎに並行して、例え
ば、上記入力データを一定区間単位でＬＺＷ符号化す
る。また、例えば、上記入力データを各辞書１、２−
１、２−２、・・・、２−ｎ毎に最大長の文字列で順次
ＬＺＷ符号化する。

【００５１】選択出力手段４は、圧縮手段３により並行
してＬＺＷ符号化を行った結果得られた複数の圧縮デー
タのうち、一番圧縮率の高い圧縮データをこの圧縮デー
タの作成に用いられた辞書を示す辞書情報と共に選択出
力する。

【００５２】請求項４記載のデータ復元方式では、復元
手段２３は、上記辞書情報を参照して学習用辞書２１又
は複数の専用辞書２２−１、２２−２、・・・、２２−
ｎの中から、復元すべき圧縮データのＬＺＷ符号化に用
いられた辞書を選択し、この辞書を用いて請求項１記載
のデータ符号化方式によりＬＺＷ符号化された圧縮デー
タ復元する。

【００５３】請求項５記載のデータ復元方式では、請求
項４記載のデータ復元方式の復元手段２３は、復元した
圧縮データ数を計数し、その係数値がある特定の値とな
ることを検出することにより、上記一定区間を判別し
て、請求項２記載のデータ符号化方式によりＬＺＷ符号
化された圧縮データを復元する。

【００５４】請求項６記載のデータ復元方式では、請求
項４記載のデータ復元方式の復元手段２３は、上記辞書
情報に続くＬＺＷ符号化を順次復元して、請求項３記載
のデータ符号化方式によりＬＺＷ符号化された圧縮デー
タを復元する。

【００５５】

【実施例】以下、図面を参照しながら本発明の実施例に
つき詳細に説明する。図３は、本実施例のデータ符号化
方式の基本概念を説明する図である。

【００５６】このデータ符号化方式では、ＬＺＷ符号化
で用いる原データ３０を基に作成される通常の書き換え
可能な学習用辞書３１の他に、オブジェクトコードの符
号化に用いるオブジェクトコード用辞書３２−１、ソー
スコードの符号化に用いるソースコード用辞書３２−
２、及び画像データの符号化に用いる画像用辞書３２−
３の３種類の参照専用辞書を用い、原データ３０をこれ
ら４種類の辞書を用いて並行にＬＺＷ符号化を行う。

【００５７】すなわち、符号器Ａが書き換え可能な学習
用辞書３１を用いて原データ３０をＬＺＷ符号化して圧
縮データＡを作成する処理、符号器Ｂが専用辞書である
オブジェクトコード用辞書３２−１を用いて原データ３
０をＬＺＷ符号化して圧縮データＢとを作成する処理、
符号器Ｃが同じく専用辞書であるソースコード用辞書３
２−２を用いて原データ３０をＬＺＷ符号化して圧縮デ
ータＣを作成する処理、及び符号器Ｄが、同じく専用辞
書である画像用辞書３２−３を用いて原データ３０をＬ
ＺＷ符号化して圧縮データＤを作成する処理が、平行し
て同時に行われる。そして、これらの圧縮データＡ，
Ｂ，Ｃ，Ｄは、それぞれ、バッファＡ，Ｂ，Ｃ，Ｄに格
納される。

【００５８】これらのバッファＡ，Ｂ，Ｃ，及びＤに格
納された圧縮データＡ，Ｂ，Ｃ，及びＤは、マルチプレ
クサ（ＭＰＸ）３５に出力される。また、特に図示して
いない演算回路により、圧縮データＡ，Ｂ，Ｃ、及びＤ
の原データ３０の圧縮率｛（圧縮データ量）／（原デー
タ量）×１００｝Ａ，Ｂ，Ｃ及びＤが算出され、これら
の圧縮率Ａ，Ｂ，Ｃ及びＤが圧縮率比較器３４に出力さ
れる。上記演算は、この圧縮率の算出を、所定の符号化
ブロック単位で行う。

【００５９】圧縮率比較器３４は、入力されるこれらの
圧縮率Ａ，Ｂ，Ｃ及びＤを基に、圧縮データＡ、Ｂ、Ｃ
及びＤの中で原データ３０に対する圧縮率が最も高い圧
縮データをマルチプレクサ３５に通知する。

【００６０】マルチプレクサ３５は、この通知に基づ
き、入力される圧縮データＡ，Ｂ，Ｃ及びＤの中から最
も圧縮率の高い圧縮データを選択して図４に示す構成の
圧縮データ系列を出力する。

【００６１】図４に示すように、この圧縮データ系列
は、ＬＺＷ符号化された圧縮データ４２と、この圧縮デ
ータ４２の先頭に付加される際、この圧縮データ４２が
いずれの辞書を用いてＬＺＷ符号化されたものであるか
を示す辞書フラグ４１からなる組情報の複数のデータ列
となっている。上記辞書フラグ４１は圧縮データ４２を
復元する際にどの辞書を用いればよいかをデータ復元側
に知らせるためのものである。

【００６２】圧縮データ系列は、（フラグ４１、圧縮デ
ータ４２）の組の複数の連なりから成る。図５は、上記
データ圧縮時、及び上記データ圧縮された符号を元のデ
ータに復元する際に用いる画像用辞書の作成方法の一例
を示したものである。

【００６３】同図に示すように、画像専用辞書３２−３
の作成は、まず、通常の学習辞書５２を用意し、所定の
画像データ５１を符号器５３によってＬＺＷ符号化して
圧縮データ５４を作成する過程において行われる。すな
わち、符号器５３は、画像データ５１をＬＺＷ符号化し
ながら、新規の符号を学習辞書５２に登録していく。そ
して全ての画像データ５１について、ＬＺＷ符号化が完
了した時点で、学習辞書５２は画像データ５１の性質を
反映した辞書となっている。従って、この学習辞書５２
を画像専用辞書として使用する。

【００６４】本実施例では、必要に応じて性質の異なる
他の入力データに対しても専用辞書を逐次作成する。図
６は、オブジェクトコードのＬＺＷ符号化に使用するオ
ブジェクト専用辞書３２−１の作成方法を示したもので
ある。オブジェクト専用辞書３２−１の作成も、上記画
像専用辞書３２−３の作成と同様にして、符号器６３が
所定のオブジェクトコード６１をＬＺＷ符号化する過程
で学習辞書６２を作成し、オブジェクトコード６１のＬ
ＺＷ符号化が終了した時点で作成されているオブジェク
トコード６１の性質を反映した学習辞書６２を、オブジ
ェクト専用辞書３２−１として使用する。

【００６５】同様にして、ソースコードの符号化用のソ
ースコード専用辞書３２−２を作成する。続いて、上述
した図３に示す符号化方式を、図７に示すフローチャー
トを用いて説明する。なお、この処理では、入力される
原データ３０の符号化単位を計数する入力カウンタＣＴ
を用いる。

【００６６】同図において、まず、入力データ（原デー
タ３０）の符号化単位である１ブロックサイズの値を入
力カウンタＣＴに設定する（ステップＳ７０１）。この
１ブロックのサイズは、例えば、１ｋ（キロ）バイト、
１０ｋバイト等の任意の大きさに予め設定される。

【００６７】続いて、該当ファイルから、原データ３０
の最初のデータを入力する（ステップＳ７０２）。そし
て、入力データが上記該当ファイルの終了を示す「ＥＯ
Ｆ」（End of File ）であるか否か判別し（ステップＳ
７０３）、「ＥＯＦ」であれば全ての原データ３０のＬ
ＺＷ符号化が終了したので、直ちに処理を終了するが、
入力データが「ＥＯＦ」でなければ、入力カウンタＣＴ
を「１」デクリメントして（ステップＳ７０４）、入力
カウンタＣＴの値が「０」（ＣＴ＝０）になったか否か
判別する（ステップＳ７０５）。この処理は、ある１ブ
ロックの入力データのＬＺＷ符号化が終了したか否かを
判別する処理である。

【００６８】この判別で、ＣＴ＝０でないときは、ある
１ブロックの入力データの処理がまだ終了していないの
で、上記入力データのＬＺＷ符号化の並行処理を開始す
る（ステップＳ７０６）。

【００６９】すなわち、符号器Ａによる学習用辞書３１
を用いたＬＺＷ符号化（ステップＳ７０７）、符号化Ｂ
によるオブジェクトコード用辞書３２−１を用いたＬＺ
Ｗ符号化（ステップＳ７０８）、符号化Ｃによるソース
コード用辞書３３−２を用いたＬＺＷ符号化（ステップ
Ｓ７０９）、及び符号器Ｄによる画像辞書３２−３を用
いるＬＺＷ符号化（ステップＳ７１０）を、同時に並行
して行う。

【００７０】これらの処理では、ステップＳ７０７の学
習用辞書３１を用いるＬＺＷ符号化の場合では、学習用
辞書３１を検索し、入力データ列に対応するＬＺＷ符号
Ａが学習用辞書３１に登録されていれば、さらに次の入
力データを加えた入力データ列をＬＺＷ符号化するため
に次のデータの入力に移行し（ステップＳ７１１→Ｓ７
０２）、一方、上記入力データ列に対応するＬＺＷ符号
Ａが学習用辞書３１に登録されていなければ、その入力
データ列に対し新たなＬＺＷ符号Ａを作成して学習用辞
書３１に登録すると共に（図１２〜図１４参照）、前回
のステップＳ７０７で見つけたＬＺＷ符号Ａをバッファ
Ａに格納する（ステップＳ７１１→Ｓ７１５）。

【００７１】また、ステップＳ７０８のオブジェクトコ
ード専用辞書３２−１を用いるＬＺＷ符号化では、オブ
ジェクトコード専用辞書３２−１を検索し、入力データ
列のＬＺＷ符号Ｂがこの辞書３２−１に登録されていれ
ば、さらに次の入力データを加えた入力データ列をＬＺ
Ｗ符号化するために次のデータの入力に移行するが（ス
テップＳ７１２→Ｓ７０２）、一方、上記入力データ列
がオブジェクトコード用専用辞書３２−１に登録されて
いなければ、前回のステップＳ７０８で見つけた圧縮デ
ータであるＬＺＷ符号ＢをバッファＢに格納する（ステ
ップＳ７１２→Ｓ７１６）。この場合、新たな上記入力
データ列のＬＺＷ符号化は行わない。換言すれば、オブ
ジェクトコード専用辞書３２−１への新たなＬＺＷ符号
Ｂの登録は行わない。

【００７２】ステップＳ７０９のソースコード専用辞書
３２−２を用いるＬＺＷ符号化も、上記のオブジェクト
コード専用辞書３２−１を用いる符号化の場合と同様で
あり、入力データ列に対応するＬＺＷ符号Ｃがソースコ
ード専用辞書３２−２にあれば、次のデータの入力に移
行し（ステップＳ７１３→Ｓ７０２）、上記入力データ
列がソースコード専用辞書３２−２に無ければ、前回の
ステップＳ７１３で検索した入力データ列の圧縮データ
であるＬＺＷ符号ＣをバッファＣに格納する（ステップ
Ｓ７１３→Ｓ７１７）。この場合もソースコード専用辞
書３２−２に登録されていなかった入力データ列のＬＺ
Ｗ符号化は行わない。

【００７３】さらに、ステップＳ７１０の画像専用辞書
３３−３を用いるＬＺＷ符号化も上記オブジェクトコー
ド専用辞書３２−１並びに上記ソースコード専用辞書３
２−２を用いたＬＺＷ符号化と同様にして行われ、入力
データ列のＬＺＷ符号Ｄが画像専用辞書３３−３に登録
されていれば次のデータ入力に移行し（ステップＳ７１
４→Ｓ７０２）、上記入力データ列に対応するＬＺＷ符
号Ｄが画像専用辞書３３−３に登録されていなければ、
前回のステップＳ７１４で検索した入力データ列の圧縮
データであるＬＺＷ符号ＤをバッファＤに格納する（ス
テップＳ７１４→Ｓ７１８）。この場合にも上記画像専
用辞書３３−３に登録されていなかった入力データ列の
ＬＺＷ符号化は行わない。

【００７４】上記ステップＳ７０２〜Ｓ７１８の処理を
繰り返しながら、１ブロックのデータを順次ＬＺＷ符号
化し、上記ステップＳ７０５で、入力カウンタＣＴが
「０」、すなわち１ブロックのデータのＬＺＷ符号化
（データ圧縮）が終了したならば、４つのバッファＡ，
Ｂ，Ｃ及びＤに格納されている符号量を比較し、最も符
号量の少ないバッファに割り当てられている番号Ｘを求
める（ステップＳ７１９）。この処理は、例えば、各バ
ッファの符号データの最終格納アドレスを比較すること
により行う。

【００７５】続いて、上記バッファ番号Ｘをフラグ４７
（図４参照）として出力した後（ステップＳ７２０）、
上記番号Ｘが割り当てられているバッファＸ（Ａ，Ｂ，
Ｃ又はＤ）に格納されているＬＺＷ符号データを出力し
（ステップＳ７２１）、再びステップＳ７０１に戻る。

【００７６】以上のようなＬＺＷ符号化処理を、ファイ
ルに格納されている全てのデータについて所定の長ブロ
ック単位で行い、ステップＳ７０３でＥＯＦ（End of F
ile)を見つけると（Ｓ７０３，Ｙｅｓ）、ファイル内の
全てのデータのＬＺＷ符号化を終了する。

【００７７】以上のような処理を行うことにより、ファ
イル内のデータがブロック単位で最も圧縮率が高い辞書
によりＬＺＷ符号化されて、前記図４に示す形式で出力
される。したがって、文字コード以外にオブジェクトコ
ード、ソースコード、更には画像データが混在している
文書ファイルが、予め作成されているオブジェクトコー
ド、ソースコード、及び画像データ用の専用辞書３２−
１，３２−２、及び３２−３を用いてＬＺＷ符号化の初
期の段階から効率よく高い圧縮率で符号化される。そし
て、学習用辞書３１が学習により登録データ数を増加す
るのに伴って、更に圧縮率が向上していく。

【００７８】次に、上記のような方法で所定のブロック
単位でＬＺＷ符号化された圧縮データの復元方法を、図
８のフローチャートを用いて説明する。この復元処理に
おいても、入力カウンタＣＴ、学習用辞書３１、オブジ
ェクトコード専用辞書３２−１、ソースコード専用辞書
３２−２、及び画像専用辞書３２−３が用いられる。

【００７９】同図において、まず入力カウンタＣＴに入
力されるＬＺＷ符号化された圧縮データの符号化単位の
１ブロックのサイズを入力カウンタに初期値として設定
する（ステップＳ８０１）。

【００８０】次に、ブロックの先頭データ（第１入力デ
ータ）を入力し、これを辞書フラグＸに設定する（ステ
ップＳ８０２）。この辞書フラグＸは、後述するステッ
プＳ８０５で、入力ブロックが、その符号化の際にいず
れの辞書を用いたかを判別するために使用される。

【００８１】続いて、圧縮データの最初の符号を入力す
る（ステップＳ８０３）。そして、この符号が「ＥＯ
Ｆ」（End of File)であるか否か判別し（ステップＳ８
０４）、「ＥＯＦ」であれば入力ファイル内の全ての圧
縮データの復元が終了したものと判別し、直ちに処理を
終了するが、「ＥＯＦ」でなければ、続いて上記ステッ
プＳ８０２で入力したフラグＸを参照して、これから復
元する圧縮データが、前記専用辞書３２−１、ソースコ
ード専用辞書３２−２、もしくは画像専用辞書３２−
３、または学習用辞書３１のいずれかの辞書を用いてＬ
ＺＷ符号化されたかを判別する（ステップＳ８０５）。

【００８２】この判別で、学習用辞書３１が使用されて
いれば、学習用辞書３１によりＬＺＷ符号を復元する。
この復元処理において、復元したデータが学習用辞書に
未登録であったならば、この復元データとそのＬＺＷ符
号をその学習用辞書３１に登録する（ステップＳ８０
６、図１５及び図１６参照）。

【００８３】続いて、復元したデータ長だけ入力カウン
タＣＴをデクリメントして（ステップＳ８０９）、次
に、そのデクリメントされた入力カウンタＣＴの値が
「０」に等しいか否か判別する（ステップＳ８１０）。

【００８４】この判別で、ＣＴ≠０なら、まだ１ブロッ
クの全ての圧縮データが復元されていないので、再び上
記ステップＳ８０３に戻って次のＬＺＷ符号を入力す
る。一方、上記ステップＳ８０５の判別で、データ圧縮
の際、オブジェクトコード専用辞書３２−１、ソースコ
ード専用辞書３２−２、又は画像専用辞書３２−３のい
ずれかの辞書を用いてＬＺＷ符号化されたと判別すれ
ば、その使用された専用辞書により上記ステップＳ８０
３で入力した圧縮データ（ＬＺＷ符号）を復元する（ス
テップＳ８０７）。続いて、この復元された内容、すな
わち（ＬＺＷ符号、復元データ）の組を学習用辞書３１
にも登録してから（ステップＳ８０８）、上記ステップ
Ｓ８０９の処理に進む。

【００８５】ここで、上記ステップＳ８０８の処理が何
故必要であるかを説明する。上記学習用辞書３１と、専
用辞書３２−１，３２−２，３２−３を用いた並行処理
によるデータ圧縮処理においては、符号器Ａは、圧縮率
が劣るため捨てられた（圧縮データとして選択されなか
った）データについても学習用辞書３１に登録しながら
ＬＺＷ符号化を行っており、このような学習を行いなが
ら、その後入力される原データのＬＺＷ符号化を行って
いる。したがって、以後の復元処理において専用辞書に
よらない、すなわち学習用辞書３１により符号化された
圧縮データのブロックが入力されたときに備えて、いず
れの辞書による復元の場合でも、その都度、その復元内
容を学習用辞書３１に登録しておく必要がある。このた
めに、ステップＳ８０８の処理が必要となる。

【００８６】このようなステップＳ８０３〜Ｓ８１０の
処理を１ブロックの全ての圧縮データに対して、ステッ
プＳ８１０で入力カウンタＣＴが「０」となるまで繰り
返し行い、１ブロックの圧縮データの復元を終了する。
そして、上記ステップＳ８０４で「ＥＯＦ」を入力する
まで以後の残りの全てのブロックの圧縮データの復元を
行う。

【００８７】上述した図７のフローチャートに示すＬＺ
Ｗ符号化によるデータ圧縮方法では、入力される原デー
タを、例えば 100ｋバイト等の一定サイズのブロックに
分割し、そのブロック単位で、複数の辞書によるＬＺＷ
符号化を並行処理して、最も圧縮率の高いＬＺＷ符号化
が行われた圧縮データを選択出力するようにしている。

【００８８】次に、述べるデータ圧縮方法は、予め設定
したブロック単位ではなく、原データの文字列を学習用
辞書３２−１及び上記３種の専用辞書３２−１，３２−
２，３２−３を用いて逐次ＬＺＷ符号化していき、最長
の文字列をＬＺＷ符号化できた符号器（Ａ，Ｂ，Ｃ，
Ｄ）のＬＺＷ符号を圧縮データとして出力することによ
りデータ圧縮率を高めるものである。

【００８９】このようなデータ圧縮方法のアルゴリズム
を図９のフローチャートに示し、このデータ圧縮方法に
より得られたＬＺＷ符号の復元のアルゴリズムを図１０
のフローチャートに示す。

【００９０】図９に示すフローチャートにおいて、通常
の学習用辞書３１、専用のオブジェクトコード専用辞書
３２−１、ソースコード専用辞書３２−２、及び画像専
用辞書３２−３によってＬＺＷ符号化された原データの
文字列のデータ長を、それぞれ符号器Ａ，Ｂ，Ｃ，Ｄ内
に内蔵されているカウンタＡ，Ｂ，Ｃ，及びＤを用いて
計数する。

【００９１】図９において、まず、原データの入力ファ
イルから一文字分のデータを入力する（ステップＳ９０
１）。そして、この入力データが「ＥＯＦ」（ End of
File )であるか否か判別し（ステップＳ９０２）、「Ｅ
ＯＦ」であれば入力ファイル内の全てのデータについて
ＬＺＷ符号化が終了したので、直ちにＬＺＷ符号化処理
を終了するが、入力データが「ＥＯＦ」でなければ、こ
の入力データのＬＺＷ符号化を前記符号器Ａ，Ｂ，Ｃ，
及びＤにより並行に行う（ステップＳ９０３）。

【００９２】すなわち、この第２の実施例の場合も学習
用辞書３１を用いるＬＺＷ符号化（ステップＳ９０
４）、オブジェクトコード専用辞書３２−１を用いるＬ
ＺＷ符号化（ステップＳ９０５）、ソースコード専用辞
書３２−２を用いるＬＺＷ符号化（ステップＳ９０
６）、及び画像専用辞書３２−３を用いるＬＺＷ符号化
（ステップＳ９０７）を、それぞれ符号器Ａ，Ｂ，Ｃ，
Ｄにより並行に行う。

【００９３】ステップＳ９０４の学習用辞書３１を用い
る符号化の場合では、学習用辞書３１を検索し、上記入
力データが学習用辞書３１に登録されていれば、この入
力データ文字数（以下、一致長と記述する）をＬＺＷ符
号化し、続いてステップＳ９０８で、上記ＬＺＷ符号化
された入力データ（文字列）の文字数（以後、一致長と
記述する）をカウンタＡによりカウントする。一方、入
力データが学習用辞書３１に登録されていなければ辞書
３１にこの入力データとこの入力データのＬＺＷ符号と
を学習用辞書３１に登録する。

【００９４】また、ステップＳ９０５のオブジェクトコ
ード専用辞書３２−１を用いるＬＺＷ符号化では、オブ
ジェクトコード専用辞書３２−１を検索し、上記入力デ
ータが辞書３２−１に登録されていればこの入力データ
（文字列）をＬＺＷ符号化し、ステップＳ９０８でこの
ＬＺＷ符号化された入力データの一致長をカウンタＢで
カウントする。一方、入力データが辞書３２−１に登録
されていなければ、ステップＳ９０８でのカウンタＢの
カウントは行わない。

【００９５】ステップＳ９０６のソースコード専用辞書
３２−２を用いるＬＺＷ符号化も、上記オブジェクトコ
ード専用辞書３２−２を用いるＬＺＷ符号化と同様にし
て行われ、この場合には、一致長がカウンタＣによりカ
ウントされる。

【００９６】さらに、ステップＳ９０７の画像専用辞書
３２−３を用いるＬＺＷ符号化を上記専用辞書３２−
１，３２−２を用いたＬＺＷ符号化も同様にして行わ
れ、この場合には、一致長がカウンタＤによりカウント
される。

【００９７】このように、同一の入力データを符号器
Ａ，Ｂ，Ｃ，Ｄにより、４種類の辞書３１，３２−１，
３２−２，３２−３で並行してＬＺＷ符号化し、それぞ
れ一致長をカウンタＡ，Ｂ，Ｃ，Ｄでカウントした後、
それら４つのカウンタＡ，Ｂ，Ｃ及びＤのカウント値
が、全て不一致であるか否か判別する（ステップＳ９０
９）。

【００９８】この判別で、カウント値の同じものがある
場合は、再びステップＳ９０１に戻って次のデータを入
力し、この入力データが最後尾となる文字列のＬＺＷ符
号化を行う（Ｓ９０２〜Ｓ９０７）。

【００９９】このように、上記ステップＳ９０１〜Ｓ９
０９の処理をステップＳ９０９で、４つのカウンタＡ，
Ｂ，Ｃ及びＤのカウント値が全て不一致となるまで繰り
返し上記４つのカウンタＡ，Ｂ，Ｃ，Ｄのカウント値が
全て不一致となれば、ステップＳ９１０において、一致
長が最大となっているカウンタを内蔵している符号器を
示すフラグを出力する。

【０１００】続いて、上記一致長が最大となっているＬ
ＺＷ符号化データを出力し（ステップＳ９１１）、再び
ステップＳ９０１に戻る。以上のステップＳ９０１〜Ｓ
９１１の処理は、ステップＳ９０２で「ＥＯＦ」が検出
されるまで繰り返される。

【０１０１】これにより、入力ファイル内の原データが
最も圧縮率が高くなる文字列毎に区切られてＬＺＷ符号
化され、各ＬＺＷ符号の前にはそのＬＺＷ符号化に用い
られた辞書を示すフラグを付加されて出力される。すな
わち、この場合の圧縮データは、図４に示す圧縮データ
が１個のＬＺＷ符号に置き換わった形式となる。

【０１０２】図１０のフローチャートは、上述のように
してＬＺＷ符号化された圧縮データの復元方法のアルゴ
リズムを示したものである。上記圧縮データは、ブロッ
ク単位ではなく、１つの文字列毎にＬＺＷ符号化された
ものなので、この復元処理では、入力カウンタＣＴは不
用であり、学習用辞書３１、オブジェクトコード専用辞
書３２−１、ソースコード専用辞書３２−２、及び画像
専用辞書３２−３のみを用いる。

【０１０３】同図に示すステップＳ１０１〜Ｓ１０７の
処理は、それぞれ前述した図８のフローチャートのステ
ップＳ８０２〜Ｓ８０８と同一の処理であり、ステップ
Ｓ１０３で「ＥＯＦ」を検出するまで、学習用辞書３１
または専用辞書３２−１，３２−２，３２−３を用いて
１つのＬＺＷ符号毎に元のデータに復元される。

【０１０４】

【発明の効果】本発明によれば、予めデータの種類が異
なるそれぞれのデータの性質を取り込んで作成したＬＺ
Ｗ符号化用の複数の読み出し専用辞書を用意し、これら
の辞書と通常の書き換え可能な学習用辞書とを用いてデ
ータ圧縮を並行に行い、一番圧縮率の高い圧縮データを
選択出力するので、データ圧縮開始初期のように学習用
辞書の登録個数が少ない時点でも高い圧縮率を得ること
ができ、また、学習用辞書だけでは対応しにくい入力デ
ータの性質の局所的変化にも対応して全体として高い圧
縮率を得ることができる。また、ＬＺＷ符号の出力の
際、どの辞書により符号化を行ったかを示すフラグを付
加して出力するので、データの完全な復元を容易に行う
ことができる。

【図面の簡単な説明】

【図１】本発明のデータ符号化方式の原理図である。

【図２】本発明のデータ復元方式の原理図である。

【図３】第１実施例の符号化の概念図である。

【図４】第１実施例の圧縮データ系列の構造を説明する
図である。

【図５】専用辞書の作成方法の例を示す図（その１）で
ある。

【図６】専用辞書の作成方法の例を示す図（その２）で
ある。

【図７】第１実施例のデータ圧縮（符号化）のアルゴリ
ズムを説明するフローチャートである。

【図８】第１実施例の圧縮データを復元（復号）するア
ルゴリズムを説明するフローチャートである。

【図９】第２実施例のデータ圧縮のアルゴリズムを説明
するフローチャートである。

【図１０】第２実施例の圧縮データを復元するアルゴリ
ズムを説明するフローチャートである。

【図１１】(a),(b) はユニバーサル型ジブ・レンペル符
号の符号化の基本概念を説明する図である。

【図１２】ＬＺＷ符号化のアルゴリズムを説明するフロ
ーチャートである。

【図１３】ＬＺＷ符号化に用いられる辞書の構成を説明
する図である。

【図１４】ＬＺＷ符号化方法を説明する模式図である。

【図１５】ＬＺＷ符号の復元のアルゴリズムを説明する
フローチャートである。

【図１６】(a),(b),(c),(d),(e) は増分分解型ジブ・レ
ンペル符号の復元を説明する模式図である。

【符号の説明】

１、２１学習用辞書２−１、２−２、・・・、２−ｎ専用辞書２２−１、２２−２、・・・、２２−ｎ専用辞書３圧縮手段２３復元手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】ジブ・レンペル符号によるユニバーサル
符号化方式によりデータ圧縮を行うデータ符号化方式に
おいて、書き換え可能な学習用辞書（１）と、それぞれ異なる種類の入力データの性質を取り込んだ書
き換え不可能な参照専用の複数の専用辞書（２−１）、
（２−２）、・・・、（２−ｎ）と、前記学習用辞書（１）及び前記複数の専用辞書（２−
１）、（２−２）、・・・、（２−ｎ）を用いた入力デ
ータのＬＺＷ符号化を並行に行う圧縮手段（３）と、該圧縮手段（３）によるＬＺＷ符号化の並行処理の結果
得られた複数の圧縮データのうち、一番圧縮率の高い圧
縮データをこの圧縮データの作成に用いられた辞書を示
す辞書情報と共に選択出力する選択出力手段（４）と、を有することを特徴とするデータ符号化方式。
【請求項２】前記圧縮手段（３）は、前記入力データ
を一定区間単位でＬＺＷ符号化することを特徴とする請
求項１記載のデータ符号化方式。
【請求項３】前記圧縮手段（３）は、前記入力データ
を各辞書（１）、（２−１）、（２−２）、・・・、
（２−ｎ）毎に最大長の文字列で、順次ＬＺＷ符号化す
ることを特徴とする請求項１記載のデータ符号化方式。
【請求項４】請求項１記載のデータ符号化方式により
ＬＺＷ符号化された圧縮データ復元するデータ復元方式
であって、書き換え可能な学習用辞書（２１）と、それぞれ異なる種類の入力データの性質を取り込んだ書
き換え不可能な参照専用の複数の専用辞書（２２−
１）、（２２−２）、・・・、（２２−ｎ）と、前記辞書情報を参照して前記学習用辞書（２１）又は前
記複数の専用辞書（２２−１）、（２２−２）、・・
・、（２２−ｎ）の中から、復元すべき圧縮データのＬ
ＺＷ符号化に用いられた辞書を選択し、この辞書を用い
て前記圧縮データを復元出力する復元手段（２３）と、を有することを特徴とするデータ復元方式。
【請求項５】請求項２記載のデータ符号化方式により
ＬＺＷ符号化された圧縮データを復元するデータ復元方
式であって、前記復元手段（２３）は、復元した圧縮データ数を計数
し、その計数値がある特定の値となることを検出するこ
とにより、前記一定区間を判別して、入力データの復元
を行うことを特徴とする請求項４記載のデータ復元方
式。
【請求項６】請求項３記載のデータ符号化方式により
ＬＺＷ符号化された圧縮データを復元するデータ復元方
式であって、前記復元手段（２３）は、前記辞書情報に続くＬＺＷ符
号化を順次復元していくことを特徴とする請求項４記載
のデータ復元方式。