JPH07104971A

JPH07104971A - ネットワークパケットに適用される小型辞書を用いた圧縮方法

Info

Publication number: JPH07104971A
Application number: JP6074739A
Authority: JP
Inventors: Gadiel Seroussi; ガディエル・シーリアッシー; Abraham Lempel; アブラハム・レンペル
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1993-04-13
Filing date: 1994-04-13
Publication date: 1995-04-21
Also published as: GB9406407D0; DE4340591A1; US5389922A; GB2277179A; DE4340591C2; GB2277179B

Abstract

(57)【要約】（修正有）【目的】テ゛ータ圧縮率を高め圧縮／圧縮解除に必要な記
憶容量を削減させる。【構成】入力テ゛ータを辞書ヘ゛ースの圧縮／圧縮解除装置に
よって符号化する場合、圧縮／圧縮解除辞書中に以前に
記憶されていない入力テ゛ータからの単一キャラクタストリンク゛を識
別し、各々の単一キャラクタストリンク゛を特殊コート゛と部分コート゛
とに符号化し、その各々の特殊コート゛と部分コート゛とがそ
の関連する単一キャラクタストリンク゛の選択可能な部分を表して
おり、符号化された単一キャラクタストリンク゛に対応するコート゛ワート
゛と、符号化された多数キャラクタストリンク゛に対応するコート゛ワート゛
を有する圧縮テ゛ータストリームを前記圧縮／圧縮解除装置から
出力し、各々の特殊コート゛およびその関連する部分コート゛
が単一キャラクタストリンク゛を一意に識別し、および入力テ゛ータ中
に存在し得る一意の単一キャラクタストリンク゛の総数のサフ゛セットを
表すようにする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般に、ディジタルデー
タの圧縮および圧縮解除に関し、特に、辞書を使用して
圧縮データを記憶する無損失圧縮および圧縮解除方法と
装置の実施、およびネットワークパケット通信への圧縮
／圧縮解除技術の適用に関する。

【０００２】

【従来の技術】多くの種類の圧縮機構は、２進シーケン
ス、即ち「コードワード」を使用して多数キャラクタの
ストリング（以下、多数キャラクタストリングと称す）
を符号化する。このコードワードは、それ以外の場合に
は、個々のキャラクタの符号化に使用されることはな
い。ストリングは、１つの「アルファベット」、即ち単
一キャラクタのストリング（以下、単一キャラクタスト
リングと称す）から構成されている。このアルファベッ
トは、圧縮装置が処理を行う最小の一意の情報片を表現
するものである。従って、キャラクタの表現に８ビット
を用いるアルゴリズムは、そのアルファベット中に256
の一意のキャラクタを有することになる。圧縮は、符号
化機構において表現された多数キャラクタストリングが
データストリームの所与のファイル中で発生する場合に
有効なものである。人の言語間の翻訳に使用される二カ
国語の辞書との類比により、未圧縮コードと既圧縮コー
ドとの間のマッピングを行う装置は、一般に「辞書」と
呼ばれている。

【０００３】一般に、辞書ベースの圧縮機構の有用性
は、多数キャラクタストリングに関する辞書項目が使用
される頻度によって決まる。或る一定の辞書が１つのフ
ァイル形式について最適化された場合にその辞書が別の
形式のファイルについても最適化されるという可能性は
まずない。例えば、新聞のテキストファイルに見られる
ような多数のキャラクタ組み合わせを含む辞書は、デー
タベースファイル、スプレッドシートファイル、ビット
マップグラフィックファイル、コンピュータ支援設計フ
ァイル等を効率よく圧縮する可能性のまずないものであ
る。

【０００４】所与の入力データを圧縮するために使用さ
れる辞書がその入力データの圧縮中に生成される適応型
圧縮機構は既知のものである。未圧縮の入力データ中に
含まれ得るあらゆる単一キャラクタを表すコードワード
が辞書に入力される。ファイル中で多数キャラクタスト
リングに遭遇した際に、別の項目が辞書に追加される。
その別の辞書項目は、それ以降に発生する多数キャラク
タストリングの符号化に利用される。例えば、現在の
（以下、カレントと称す）入力パターンの突き合わせ
は、辞書中に現在存在するフレーズに対してのみ試行さ
れる。突き合わせが失敗する毎に、新たなフレーズが辞
書に追加される。この新たなフレーズは、突き合わせが
行われたフレーズを１つの記号（例えば、その突き合わ
せを「中断させる」入力記号）で拡張することにより形
成される。辞書が発達するにつれて、ファイル中で最も
頻繁に発生する多数キャラクタストリングに遭遇する程
度まで、圧縮が行われる。

【０００５】圧縮解除時には、辞書が同様にして構成さ
れる。従って、既圧縮ファイル中で或るキャラクタスト
リングについてのコードワードに遭遇した場合、辞書
は、対応するキャラクタストリングを再構成するために
必要な情報を含んでいる。辞書を使用して圧縮および圧
縮解除情報を記憶する、広範に利用されている圧縮アル
ゴリズムとして、ＬＺ１と呼ばれているLempelの第１の
方法、および、ＬＺ２と呼ばれているZivの第２の方法
が挙げられる。Lempel-Ziv（ＬＺ）アルゴリズムは、
「On the Complexity of Finite Sequence」(IEEE Tran
sactions on Information Theory, IT-22:75-81, Jan.
1976)、および「A Universal Algorithm forSequential
Data Compression」(IEEE Transactions on Informati
on Theory,IT-23:337-343, May 1977)、および「Compre
ssion of Individual Sequences via Variable Rate Co
ding」(IEEE Transactions on Information Theory, IT
-24:530-536)において、Lempel、Ziv両氏により最初に
発表されたものである。辞書の使用については、Eastma
n等の米国特許第4,464,650号明細書にも開示されてお
り、更に、そのアルゴリズムの様々な改良策が、Welch
の米国特許第4,558,302号明細書、およびMiller等の米
国特許第4,814,746号明細書に開示されている。

【０００６】実際の装置での実施時には、圧縮／圧縮解
除に利用可能な記憶装置の量は有限のものである。従っ
て、辞書中の項目の数は有限であり、項目の符号化に用
いるコードワードの長さが制限される。一般に、コード
ワードの長さは12〜16ビットの範囲にある。入力データ
シーケンスが充分に長い場合、辞書は最終的に「一杯」
の状態になる。この時点では幾つかの動作が可能であ
る。例えば、その現状のまま辞書を凍結させて残りの入
力シーケンスに利用することができる。第２のアプロー
チでは、辞書をリセットして、スクラッチにより新たな
辞書が作成される。第３のアプローチでは、圧縮率が低
下するまで辞書が一定期間だけ凍結され、次いで辞書が
リセットされる。辞書をリセットする別の戦略について
は、1992年6月1日出願の米国特許出願第07/892,546号
「Lempel-Ziv Compression Scheme with Enhanced Adap
tion」（本引用をもってその開示内容を本明細書に包含
させたものとし、その詳細な説明は省略する）、および
Bunton,S.等の「Practical Dictionary Management for
Hardware Data Compression」(Communications of the
ACM, 35:95-104, Jan. 1992）に記載されている。

【０００７】ＬＺＷプロセスの場合、辞書は、圧縮辞書
の構成に使用される単一キャラクタストリングについて
初期設定されなければならない。それらのキャラクタに
は、圧縮／圧縮解除装置中の一意のコードが割当てられ
る。これは、エンコーダから送出される任意の別の出力
コード（例えば、多数キャラクタストリングを表すコー
ド）中のビット数が単一キャラクタストリングの数によ
り制御されることを示唆している。例えば、多数キャラ
クタストリングについての最短ビット長は、単一キャラ
クタストリングの数によって決定される。多数キャラク
タを表す後続コード中のビット数は、辞書中の項目の数
が２の次のべき乗に達する毎に１ビットだけ長さが増
す。より多くのビットを使用して単一キャラクタのコー
ドワードを表すと、それに比例して圧縮性能全体が低下
する。

【０００８】上述のような単一入力キャラクタの初期設
定は、入力データが大きなアルファベットサイズを有す
る場合、または、入力データ中に未知のアルファベット
のサブセットしか発生しないことが予期される場合に
は、不十分なものとなる。例えば、入力データのための
「未加工の」アルファベットが16ビットの記号から構成
されている場合は、初期の辞書サイズは、65,536の項目
を有することになる。従って、「未加工の」アルファベ
ットからのキャラクタに加えて生成されるあらゆる出力
コード（例えば多数キャラクタストリングを表すコー
ド）の最小長は、少なくとも17ビットとなる。また、入
力データのブロック（即ち、圧縮されるべきデータ）
が、アルファベットサイズに比較して小さい場合には、
入力データからの単一キャラクタストリングの初期設
定、記憶および符号化のそれぞれに起因して、時間、記
憶空間および圧縮率が不必要に増大することになる。

【０００９】このような問題を克服するために、ＬＺア
ルゴリズムの幾つかの変形例では、空の初期辞書を採用
している。新たな入力キャラクタに遭遇すると、圧縮装
置が特殊コードを出力し、次いで新キャラクタのコピー
を出力する。これにより、実際に使用されている入力ア
ルファベットのサブセットを圧縮解除装置が追跡するこ
とが可能となり、符号化を通常通りに進めることが可能
になる。この戦略の主な問題は、新キャラクタを符号化
するコストが高いことである。大きいアルファベットに
わたりファイルが短い場合には、この追加コストは許容
できない程高くなり得る。例えば、８ビットの記号およ
び12ビットの出力コードを使用する場合には、新キャラ
クタが発生したことをデコーダに知らせるために20ビッ
トが必要となる。更に、ＬＺアルゴリズムにより出力さ
れる符号化キャラクタストリングに冗長性が存在する場
合が多い。例えば、同一の入力キャラクタからなるスト
リング（即ち「ラン」）は、予測可能で冗長な構造を有
する一連の符号化ストリングを生成する。この冗長性
は、現時点では、標準的な圧縮アルゴリズムの圧縮率を
更に高める効力を発揮するものではない。

【００１０】従って、データ圧縮率を高め、辞書ベース
の圧縮／圧縮解除装置に必要な記憶装置の量を削減する
ために、異なる形式の入力データおよび異なるデータ構
造に適応可能な、データ圧縮の初期設定プロセスが依然
として必要とされている。

【００１１】

【発明が解決しようとする課題】従って、本発明の目的
は、辞書ベースの装置におけるディジタルデータの圧縮
および圧縮解除を改良することにある。

【００１２】本発明の別の目的は、符号化キャラクタス
トリングの表現に使用されるビット数を削減することに
より、圧縮／圧縮解除機構のデータ圧縮率を高めること
にある。

【００１３】本発明の別の目的は、辞書ベースの圧縮／
圧縮解除装置における辞書の初期設定での付加コストを
削減することにある。

【００１４】本発明の更に別の目的は、小さいファイル
中で発生したディジタルデータ、または、大きい単一キ
ャラクタのアルファベットのサブセットにより表される
ディジタルデータを、一層効率よく圧縮することにあ
る。

【００１５】本発明の更に別の目的は、入力データのキ
ャラクタのランを表す符号化キャラクタストリングを再
圧縮して、圧縮／圧縮解除装置の圧縮率を更に高めるこ
とにある。

【００１６】

【課題を解決するための手段】本発明は、入力データの
形式および構造の変化に適応可能な辞書ベースの初期設
定機構である。この初期設定機構は、辞書ベースの圧縮
／圧縮解除装置で使用されるデータ項目の数を最小限に
して単一キャラクタデータストリングを表現することに
より、圧縮率を高めるものである。データ項目数を削減
することにより、圧縮データストリング中のコードワー
ドのビット長が短縮される。圧縮データストリング中の
コードワードのビット長が短縮されることにより、圧縮
率全体が高まる。

【００１７】本発明は、可変数の特殊コードを使用す
る。特殊コードの総数は、一般的には入力データアレイ
中の単一キャラクタを表すのに使用されるキャラクタコ
ードの総数未満になるよう選択される。各特殊コード
は、新キャラクタに関する情報の一部を保持している。
次いで、新キャラクタを更に識別する付加的なビット
が、別個の部分キャラクタ中に伝送される。このプロセ
スにより、新たな記号を伝送する「コスト」（即ち、帯
域幅と記憶空間）が削減される。このプロセスは、非初
期設定プロセス（例えば、空の初期辞書）から、アルフ
ァベット中の各々の一意のキャラクタが辞書中の項目に
割り当てられる完全アルファベット初期設定まで、どの
ような場合にも適応可能である。

【００１８】特殊コードの数は、現在実行中の用途に適
応可能なものである。従って、この特殊コードの数は、
圧縮率を最大限にするように特定形式のデータに応じて
予め定められる。この方法により、辞書がアルファベッ
トサイズよりも少ない項目を有することが可能となる。
従って、極めて小さな記憶装置しか必要としない小さい
辞書で圧縮が可能となる。これは、入力データブロック
が短く、各ブロックを個々に圧縮する必要がある用途で
特に有用である。この初期設定機構はまた、辞書サイズ
を中庸に留めつつ、大きなアルファベットサイズ（例え
ば、16ビットの記号）を有するデータソースの圧縮を行
うことを可能にするものである。

【００１９】本発明の更に別の態様では、ＬＺ方式（Ｌ
ＺＥ）で一種のランレングス符号化が実施される。従来
のＬＺ２データ圧縮では、ラン（即ち、入力データ中に
同じキャラクタが繰り返し発生したものからなるストリ
ング）は、一連のコードとして符号化される。各々の連
続するコードは、先行するコード上に構成され、その後
に、そのランの残り即ち末尾についてのコードが続く。
次いで、圧縮解除装置が、それらの各コードを順次受信
して復号する。この装置は、単一コード（キャラクタの
ランの大部分を表すもの）と、先行コードおよび末尾コ
ードとを伝送することにより、短縮化シーケンスを送
る。

【００２０】前述のＬＺＥ方法が、単独で使用され、ま
たは、他の方法と組み合わせて使用されて、ネットワー
クパケットの伝送に特に有用な圧縮機構が形成される。
組み合わせ装置では、ＬＺＥ圧縮機構は、１つ以上の他
のデータ圧縮方法と並行して入力データストリームに適
用される。前記の「他のデータ圧縮方法」としては、ハ
フマン可変長符号化機構、または非圧縮伝送機構等が挙
げられる。次いで、最良の圧縮率をもたらす方法による
出力が使用されて、データ伝送および記憶が行われる。
広範囲に分布する長さを有するパケットを含む実際のネ
ットワークパケットデータについて高圧縮率が達成され
る。この高圧縮率は、短いパケットの割合が大きなデー
タであっても、パケット長の全範囲に亘って一貫して維
持される。

【００２１】本発明の上述その他の目的、特徴および利
点は、添付図面に関連して進める本発明の好適実施例に
ついての以下の詳細な説明により一層容易に明確となろ
う。

【００２２】

【実施例】Lempel-Ziv圧縮／圧縮解除装置の基本構成お
よび動作は公知のものであり、このため、図１および図
２を参照して一般的な用語で説明するに留める。図１の
装置22は、ディジタルデータ通信（または記憶）チャネ
ル28によって相互接続された圧縮副装置24と圧縮解除副
装置26とを備えている。実際には、この装置の双方の端
末機は、圧縮副装置および圧縮解除副装置を備えてお
り、そのハードウェアは一般には、データの圧縮／送
信、または、データの受信／圧縮解除を行うよう互換的
に動作することができるように設計される。

【００２３】それぞれの副装置は、従来の通信（または
記憶）回路（図示せず）に加えて、基本的なLempel-Ziv
圧縮アルゴリズムを実施する圧縮エンジン30と、キャラ
クタストリングデータを符号化するデータ項目が記憶さ
れている１つ以上の辞書を実施する記憶装置32と、後述
の強化を行う支援回路とを備えている。その支援回路
は、図７および図９で更に詳細に説明する中間初期設定
エンコーダ34および相手側部品となるデコーダ36と、図
１２および図１５に示すエンコーダラン強化エンジン38
および相手側部品となるデコーダラン強化エンジン40と
を備えている。

【００２４】図２は、ディジタルデータの無損失圧縮
（即ち、元のデータがその圧縮画像から完全に回復され
るもの）のためのLempel-Ziv（ＬＺ）アルゴリズムを示
すものである。ＬＺ法は、入力データストリーム中のカ
レントパターンを以前に発生したパターンと突き合わせ
る。例えば、入力ストリーム46中のカレントパターン42
（ＡＢＣ）は、以前に伝送されたパターン44（ＡＢＣ）
と同じである。圧縮副装置24（図１参照）は、その突き
合わせが行われた入力記号（ＡＢＣ）を最大に一致する
記述（即ち、コードワード）で置き換える。次いで、圧
縮解除副装置26（図１参照）が、一致するコードワード
から、および、以前に圧縮解除されたデータセグメント
から、元の記号を再構成する。冗長データソースでは、
多数のキャラクタの一致を記述する記述、即ちコードワ
ードは、突き合わせが行われたパターンより短くなる傾
向があり、これにより、データ圧縮が達成される。

【００２５】ＬＺ２の主な特徴は、インクリメンタル構
文解析にある。入力データシーケンスは、複数フレーズ
へと構文解析され、それらのフレーズが辞書に収集され
る。カレント入力パターンの最大突き合わせは、上述の
ように辞書中のフレーズに対してのみ試行される。各々
の突き合わせの後、突き合わせを「中断させる」入力記
号を有する突き合わせが行われたフレーズを拡張するこ
とにより、新フレーズが形成される。上記アルゴリズム
およびそのアルゴリズムの変形例は、漸近的に最適な
（即ち、理論上可能な最良の圧縮率を限界内で達成す
る）ものである。このアルゴリズムはまた、高度の適応
性を有するものであり、入力データの統計的特性を「オ
ンザフライ」で学習することができる。ＬＺ２では、そ
の「知識」が辞書中に記憶され、その辞書の各項目によ
り、入力データシーケンスの構文解析が行われる。

【００２６】ＬＺ２の圧縮装置の実施態様は概略的に以
下のように説明することができる。

【００２７】１．入力アルファベット中に存在する全て
の単一文字ワード（例えば256の１バイトストリング）
で辞書が初期設定され、次いで、各々の単一キャラクタ
ワードに別個の索引コードワードが割り当てられる。

【００２８】２．入力データストリームからの最初のキ
ャラクタでカレントフレーズが初期設定される。

【００２９】３．入力データストリームからのキャラク
タが継続的に読み出され、一致するフレーズが辞書中に
存在する限り、カレントフレーズが拡張される。４．カレントフレーズがＷａという形式のもの（「ａ」
は入力データストリームから読み出された最後のキャラ
クタ、Ｗは辞書中のフレーズ）であり、同時に、そのＷ
ａがフレーズ辞書中の項目と一致しない場合に、プロセ
スが停止される。

【００３０】５．Ｗについてのコードワードが出力され
る。

【００３１】６．Ｗａが辞書に追加され、次に利用可能
なコードワードが割り当てられる。

【００３２】７．カレントフレーズが「ａ」にセットさ
れて、プロセスがステップ３に戻る。

【００３３】この実施態様はＬＺＷとして公知のもので
ある。

【００３４】図１の圧縮解除副装置26では、同様のフレ
ーズ辞書が構成される。この圧縮解除装置は、上記のス
テップ１の場合と同様に最初に初期設定され、次いでデ
ータの圧縮解除中に新フレーズが辞書に追加される。こ
の圧縮解除装置は、キャラクタ「ａ」で始まるフレーズ
のコードが後に続いているフレーズＷのコードを受信し
た場合に、フレーズＷａを辞書に追加し、そのフレーズ
に次に利用可能なコードを割り当てる。このように、こ
の圧縮解除装置は、圧縮装置により構成された辞書を再
構成することができ、従って、圧縮装置が圧縮データと
共に辞書を送る必要はない。

【００３５】実際の実施例では、エンコーダ用に（およ
び同様にデコーダ用に）利用可能な記憶装置の量は限ら
れたものである。従って、辞書中のフレーズ数も限られ
たものとなり、出力コードも限られた長さのものとな
る。一般的には、コード長の上限は、12ビットおよび16
ビットの間となる。入力データシーケンスが充分に長い
場合には、辞書は最終的には「一杯」になる。その時点
で、ＬＺＷ辞書は、「凍結」されるか、または「再初期
設定」される。

【００３６】上記で概略を示したＬＺＷ圧縮手順のステ
ップ１は、全ての単一キャラクタストリングを用いた辞
書の初期設定を必要とする。ｍが入力データストリング
からの単一キャラクタのサイズをビットで表すものと仮
定する（例えば、最も一般的な場合には、ｍ＝８、即ち
１バイト）。辞書中の初期フレーズには、コードＣo,Ｃ
o＋１,Ｃo＋２,…,Ｃo＋（２^m−１）（Ｃoは負でない初
期数）が割り当てられる。これは、エンコーダにより送
出された最初のコード（即ち、多数キャラクタストリン
グを表す最初のコード）が少なくともｍ＋１ビット長を
有していなければならないことを示唆している。実践的
な実施態様では、圧縮プロセスの開始時に長さｍ＋１の
出力コードを使用し、その後に辞書中の項目数が次の２
のべき乗に達する毎に出力コードの長さを１ビットだけ
増大させるのが普通である。このため、出力コードの長
さはｍ＋１とｂとの間で変動する（ここで、２^bは辞書
の最大サイズ、ｂ≧ｍ＋１）。簡略化のため、辞書の最
大サイズが２のべき乗であるものと仮定する。これは不
可欠な要件ではないが、最も実践的な実施態様を示すも
のである。明らかに、出力コードの長さは圧縮率に直接
影響を及ぼす。即ち、出力コードが短いほど圧縮率は良
好となる。

【００３７】上記ステップ１の初期設定は、多くの用途
で良好に機能するものであるが、アルファベットサイズ
が大きい場合には不十分なものとなる。また、この初期
設定プロセスは、入力アルファベットの未知のサブセッ
トが、圧縮すべきデータ中に発生するものと予期される
場合にも、不十分なものとなる。例えば、入力データの
「未加工の」アルファベットが16ビット記号から構成さ
れる用途では、初期の辞書サイズは65,536項目を有し、
出力コードの最小長さは17ビットとなる。また、圧縮す
べきデータブロックがアルファベットサイズと比較して
小さい用途では、潜在する単一キャラクタストリングの
各々を符号化する必要がない場合が多い。

【００３８】これら問題点を解決するために、ＬＺアル
ゴリズムのいくつかの変形例では、空の初期辞書を採用
している。新しい入力キャラクタに遭遇すると、圧縮装
置は、その新キャラクタのコピーが後に続く特殊コード
を出力する。この方法の場合、圧縮解除装置が、実際に
使用される入力アルファベットのサブセットを追跡し、
復号が通常どおりに進行する。このプロセスの主な問題
は、新キャラクタの符号化のコストが高いことである。
大きいアルファベットにわたる短いファイルの場合、こ
の付加的なコストは許容できないほど高くなる。例え
ば、図３では、どの新キャラクタが発生したかを圧縮解
除エンジン30（図１参照）に示すのにキャラクタコード
46と特殊コード48との双方が必要である。キャラクタの
長さが８ビットであり、カレントコードの長さが12ビッ
トであるものと仮定した場合、各々の新キャラクタを識
別するために全部で20ビットを伝送しなければならない
ことになる。

【００３９】中間辞書初期設定上述のビット長および記憶装置に関する問題を解消する
ために、２^kの異なる特殊コードＣo,Ｃo＋１,Ｃo＋２,
…,Ｃo＋（２^k−１）が使用される（ここで、０≦ｋ≦
ｍ）。これは、別の制御コードのために数０,１,…,Ｃo
−１が使用されることを仮定したものである。このよう
にして、特殊コードは、新キャラクタについてｋビット
の情報を備え、新キャラクタを識別するためには正確に
ｍ−ｋの付加的なビットが必要である。これを図４にｋ
＝５で示す。特殊コード48についてのカレントコード長
は12ビットであり、部分キャラクタコード49の長さは３
ビットである（即ち、ｍ−ｋ＝８−５＝３）。従って、
新たな１つの単一キャラクタストリングを伝送するコス
トは、20ビットから15ビットに削減される。ｋ＝０の場
合、この方法は空の初期設定へと移行し、また、ｋ＝ｍ
の場合には、装置は完全アルファベット初期設定として
動作する（即ち、アルファベット中の各キャラクタがコ
ードワードにより表される）。

【００４０】ここで図５を参照する。本発明による動作
は、空の初期辞書で始まり、基本的に下記のように修正
されたＬＺアルゴリズムに従って進行する。この動作
は、次に使用可能なコード（ＮＡＣ）を値Ｃo＋２^kに設
定することにより、ブロック50で開始される。次ステッ
プのブロック52では、ヌルストリングがカレントフレー
ズＷとしてセットされる。次いでブロック54で、次の入
力キャラクタが「ａ」として入力される。ブロック56の
ステップは、ストリングＷａが既に辞書中に記憶されて
いるか否かを照会する。ストリングＷａが既に辞書中に
記憶されている場合には、ブロック58がＷをＷａに等し
く設定してブロック54に戻る。このプロセスは、辞書中
で一致が発見される限り繰り返される。これは、Lempel
-Ziv方式では一般的なことである。

【００４１】また、Ｗａが辞書中で発見されない場合に
は、ブロック60が、Ｗがヌルストリングであるか否かを
照会する。Ｗがヌルストリングでない場合には、圧縮が
従来のＬＺＷのようにブロック62,66,68を経て進行す
る。ブロック62は、Ｗについてのコードを出力し、ブロ
ック66は、符号化ストリングＷａをデータ項目としてア
ドレス位置ＮＡＣで辞書中に記憶させる。ブロック68
は、ＮＡＣを１だけインクリメントし、「ａ」が次のＷ
の値として働く。次いで、プロセスはブロック54に戻
る。

【００４２】判定ブロック60が、Ｗがヌルストリングで
あると判定した場合には、入力キャラクタ「ａ」が新キ
ャラクタであるとみなされる。次いで、圧縮装置は、プ
ロセス「新キャラクタ」というブロック64に進む。これ
はサブプロセスであり、図６を参照して後で詳述するこ
ととする。このプロセス「新キャラクタ」から戻ると、
ブロック65で入力キャラクタ「ａ」がアドレス位置ＮＡ
Ｃで辞書中に入力される。次いでブロック67でＮＡＣが
インクリメントされて、プロセスがブロック52に戻る。

【００４３】ここで図６を参照する。サブプロセス64
（図５参照）において、ブロック70で示す第１ステップ
は、ｍビットから成るキャラクタａを２つの部分、即
ち、ｋビットから成るａ₁と、ｍ−ｋビットから成るａ₂
とに分割するステップである。次いでブロック72がＣ₁
を値Ｃo＋ａ₁に設定する。次いでブロック74がｂビット
を用いてＣ₁を出力し、ブロック76がｍ−ｋビットを用
いてａ₂を出力する。ここで、ｂは、出力コードワード
に現在使用しているビット数である。次いでこのサブプ
ロセスは、図５のブロック65に戻る。

【００４４】図７は、図６のサブプロセスをハードウェ
アで実施するための回路34（図１参照）を示すものであ
る。キャラクタａがｍビットレジスタ80へと入力され、
このレジスタ中に前記キャラクタが２つの部分、即ち、
ｋビットから成るａ₁およびｍ−ｋビットから成るａ₂で
記憶される。値Ｃoは、ｂビットレジスタ82中に記憶さ
れ、ａ₁と共に加算器84に出力されて、ｂビット合計Ｃ₁
＝Ｃ₀＋ａ₁が形成される。この合計が、レジスタ86の最
初のｂビット中に配されて、そのレジスタ86の下位ｍ−
ｋビット中のａ₂と連結される。その結果として生じた
ｂ＋ｍ−ｋビットのシーケンスが出力バッファ88へとシ
フトされて、圧縮されたストリーム中に挿入される（圧
縮解除装置へ伝送される）。

【００４５】図８は、圧縮解除プロセス90を示すもので
ある。このプロセスは、ブロック91で開始して、ｂビッ
トの特殊コードＣ₁を読み出し、次いでブロック92でコ
ードＣ₁がＣo未満であるか否かを照会する。コードＣ₁
がＣo未満である場合には、ブロック93がコードＣ₁をプ
ロセス制御コードとして処理し、ブロック91に戻る。ま
た、コードＣ₁がＣo未満でない場合には、このプロセス
は先に進み、ブロック94でコードＣ₁がＣo＋２^k未満で
あるか否かを照会する。コードＣ₁がＣo＋２^k未満でな
い場合には、ルーチンはブロック96に移行して、コード
Ｃ₁を通常のＬＺコードとして処理し、次いでブッロク9
1に戻る。また、コードＣ₁がＣo＋２^k未満である場合
には、コードＣ₁は新キャラクタについてのコードであ
ると見なされて、ルーチンがブロック98に戻り、特殊コ
ードＣ₁とその関連する部分キャラクタコードａ₂とが新
キャラクタとして処理される（一対のＣ₁,ａ₂は、図７
の回路中の圧縮装置により出力されたものである）。

【００４６】図９は、図８のサブプロセス98をハードウ
ェアで実施した回路36（図１参照）を示すものである。
特殊コードＣ₁および部分キャラクタコードａ₂が入力バ
ッファ（図示せず）からレジスタ102,104へとそれぞれ
受信される。レジスタ100中の固定値Ｃoの中容が、減算
器106中で、レジスタ102の中容から減算される。そのｂ
ビットの結果がレジスタ108中に収容され、レジスタ108
の最上位ｂ−ｋビットが廃棄される。レジスタ108中の
最下位ｋビットが、レジスタ110のａ₁フィールド中に記
憶されて、レジスタ104からの部分キャラクタコードａ₂
と連結される。レジスタ110の中容は、ブロック112で単
一キャラクタストリングとして辞書中に入力され、また
出力バッファ114中にロードされる。

【００４７】特殊コードの数（または等価的にはパラメ
ータｋ）は、手近な用途に合わせて調整可能なものであ
る。実験結果によれば、広範囲の入力ファイルに対し、
ｍ／２に近いｋの値で最良の圧縮が達成されることが示
されている。特に、ｍ＝８の場合はｋ＝５、ｍ＝16の場
合はｋ＝７という値が最適であることが実験的に判明し
た。多数キャラクタストリングについての初期コード長
は、典型的なｍ＋１ビットではなく、ｋ＋１ビットだけ
である点に留意されたい。従って、この方法により、ア
ルファベットサイズよりも小さい辞書が可能となり、ま
た入力キャラクタよりも短いコードワードが可能とな
る。

【００４８】このため、極めて小さい辞書を用いて圧縮
を行うことが可能となり、この場合には、極めて少ない
記憶装置しか必要なくなる。この方法は、入力データブ
ロックが短く、各ブロックが別個に圧縮される必要があ
る用途では、特に魅力的なものとなる。別の側面によれ
ば、この方法により、辞書のサイズを中庸に保ちつつ、
大きなアルファベットサイズ（例えば、16ビット記号）
を有するデータソースの圧縮が可能となる。

【００４９】ここで、ｍ＝８、ｋ＝５、Ｃo＝３であ
り、伝送すべき新キャラクタが２進表現01101010を有す
るものと仮定する。このキャラクタの最初のｋビットは
01101であり、数13を表している。このため、伝送され
る特殊コードはＣo＋13＝16である。このコードは、カ
レントコード長を用いて伝送される。更に、特殊コード
が部分キャラクタコードａ₂として伝送された後、ｍ−
ｋ＝３の残りのビット010が「そのまま」伝送される。
カレントコード長が12ビットであると仮定すると、結果
として生じる２進出力は、特殊コードについては[00000
0010000]となり、キャラクタコードについては[010]と
なる。

【００５０】図１０は、種々のキャラクタコードおよび
特殊コードのビット長での圧縮結果を示すものである。
全ての圧縮実験のための入力ファイルは、ASCIIデータ
ファイル、２進法で実行できるＣプログラムソース、お
よびテキストファイルを含むコンピュータファイルを収
集したものを（ＵＮＩＸのコマンドtarを用いて）連結
することにより得たものである。入力ファイルの全サイ
ズは6,594,560バイトであった。番号を付した列１〜５
に示すように５つの圧縮方法を試験した。列１は、ｍ＝
８で完全アルファベット辞書初期設定法を用いた場合で
あり、従来のＬＺＷ実施例の結果である。列２は、ｍ＝
８、ｋ＝０で空辞書初期設定法を用いた場合の結果であ
る。列３は、ｍ＝８、ｋ＝５で中間辞書初期設定法を用
いた場合の結果である。列４は、ｍ＝16、ｋ＝０で空辞
書初期設定法を用いた場合の結果である。列５は、ｍ＝
16、ｋ＝７で中間辞書初期設定法を用いた場合の結果で
ある。

【００５１】各機構について、最も左の列に示すように
最大出力コード長を６〜16ビットに変動させて幾つかの
辞書サイズを試行した。各機構での圧縮率（ＣＲ）は、
次の関係式を用いて算定される。

【００５２】ＣＲ＝（圧縮ファイルサイズ）／（元のフ
ァイルサイズ）従って、ＣＲの値が小さいほど圧縮率が良好であること
が示される。図１０から分かるように、中間初期設定辞
書を用いた機構は、辞書が極めて小さく（例えばｂ＜
ｍ）、完全初期設定が不可能な場合であっても、大幅な
圧縮がなされる。これは、記憶装置が不十分となる用途
で極めて有用である。中間初期設定はまた、ｂがｍより
も僅かに大きい場合に完全初期設定よりも性能が優れて
おり、ｂの値が一層大きい場合には、それら２つの機構
は互いに競合するものとなる。ｋ＞０での中間初期設定
は、ほとんど常に空初期設定よりも性能が優れたものと
なる。

【００５３】16ビット入力記号を用いて、中庸サイズの
辞書で良好な圧縮率を達成することが可能である。16ビ
ット機構の主な利点は、（各圧縮ステップで８ビットで
はなく16ビットを処理することにより）記憶装置の量を
わずかに増やすだけで圧縮装置のスループットを２倍に
することができる点にある。一般に、ＬＺＷ辞書中の項
目は、以前の項目へのポインタ（またはそれに対応する
コード）とキャラクタとから成っている。従って、16ビ
ット機構は、一般に、それと同数の辞書項目を有する８
ビット機構に比較して、１辞書項目につき更に別の１バ
イトを必要とすることになる。更に、16ビットが未加工
のキャラクタのサイズである場合（例えば或る種の医療
用画像形成用途等）、そのキャラクタサイズが維持され
る際に最良の圧縮が達成される。

【００５４】上述の初期設定機構は、短いデータブロッ
クが個々に（即ち、或るブロックとその次のブロックと
で辞書情報を共用することなく）圧縮される用途で有利
である。このような用途の一例として、ローカルエリア
ネットワーク（ＬＡＮ）におけるデータパケットの圧縮
が挙げられる。典型的なＬＡＮで現在使用されているネ
ットワークプロトコルでは、パケット長は60バイトから
2028バイト未満の範囲を有し、より短いパケットがトラ
フィック中で高い割合を示している。上記値は近似的な
数値である。パケットの正確な長さは、パケットの「エ
ンベロープ」をどの程度まで考慮に入れるかによって決
まる。それはまた、パケットが処理されるプロトコル層
によって決まる。

【００５５】ラン符号化の強化無損失データ圧縮の最も簡単な方法の１つに、ランレン
グス符号化（ＲＬＥ）がある。ランは、入力中に同じキ
ャラクタが繰り返し発生するストリング（例えば、ａ₀,
ａ₁,ａ₃,…,a_n-1）である。ここで、ｎはストリング中
の同じキャラクタ「ａ」の反復発生回数である。ストリ
ングａ₀,ａ₁,ａ₃..a_n-1は、同じキャラクタ「ａ」のｎ
個のコピーを表すものである。ＲＬＥでは、そのような
ランは、ランレングスｎが後に続くキャラクタを送るこ
とにより符号化される。ｎの値が大きい場合には、ラン
の圧縮率は０（log(n)/n）となる。ＬＺ２機構もまた、
長いランを圧縮する優れた動作を行う。ｎの値が大きい
ものと仮定すると、上記のランは、ＬＺ２機構では、一
連のコードＡ₀,Ａ₁,Ａ₁＋１,Ａ₁＋２,Ａ₁＋３,…,Ａ₁＋
（ｋ−１）,Ａ₂として符号化される。ここで、Ａ₀は、
辞書中のａの最長のストリングについてのコードであ
る。Ａ₁は、カレントランが読み出される前に次に利用
可能なコードである。Ａ₂は、後述するコードであり、
ｋは、負でない整数である。

【００５６】Ａ₀で表されるａのストリングの長さがＬ₀
である場合、Ａ₁＋（ｉ−１）は、Ｌ₀＋ｉのａからなる
ストリングを表している（１≦ｉ≦ｋ）。Ａ₂は、Ｌ₁の
ａからなる残りの「尾部」を表しており（０≦Ｌ₁≦
（Ｌ₀＋ｋ））、その後に何らかの別のキャラクタが続
く可能性がある（Ｌ₁＝０の場合、符号化されたランの
一部としてコードＡ₂は必要ない）。ランの長さは、ｎ
＝Ｌ₀＋（Ｌ₀＋１）＋（Ｌ₀＋２）＋……＋（Ｌ₀＋ｋ）
＋Ｌ₁＝Ｌ₀(ｋ＋１）＋ｋ（ｋ＋１）／２＋Ｌ₁となる。
従って、ｎの値が大きく、辞書が充分に大きい場合に
は、基本的なＬＺ２機構は、Ｏ（√（ｎ）Ｌｏｇ（ｎ）
／ｎ）という圧縮率を達成する。従って、双方の機構と
も漸近的にゼロ圧縮率を達成するものの、入力が制限さ
れているため、長いランの圧縮にはＲＬＥの方が一層適
している。

【００５７】長いランを符号化する場合のＬＺ２の効率
は、以下の観察に基づいて改善することができる。ＬＺ
２圧縮解除装置がシーケンスＡ₁,Ａ₁＋１,Ａ₁＋２,Ａ₁
＋３,……,Ａ₁＋（ｋ−１）における各コードを読み出
す場合、その読み出されたコードは、その特定の時点
で、可能な最長のコードとなる（即ち、読み出されたコ
ードは作成されたばかりのコードである）。従って、エ
ンコーダは、ｎ個の「ａ」のランについてシーケンスＡ
₀,Ａ₁＋（ｋ−１）,Ａ₂さえ送ればよい。デコーダがコ
ードＡ₁＋（ｋ−１）を受信すると、そのデコーダは、
その値が現在の可能な最大コードＡ₁を超えていること
を検知し、１つのランが符号化されていることを「学
習」し、および、値ｋおよび「ミッシングシーケンス」
Ａ₁,Ａ₁＋１,Ａ₁＋２,…,Ａ₁＋（ｋ−２）を容易に再構
成することができる。この場合、伝送されたビット数は
Ｏ（log(k)）＝Ｏ（log(n)）であり、強化ＬＺ２の圧縮
率は、ＲＬＥ機構の場合と同様に、Ｏ（log(n)/n）とな
る。

【００５８】図１１はランを強化させていない従来のＬ
Ｚエンコーダを示すブロック図である。入力エンジン11
6は、入力データストリーム（図示せず）からキャラク
タを読み出し、その入力キャラクタを圧縮エンジン118
（図１のブロック30を参照）に送る。圧縮エンジン118
は、入力キャラクタを得て辞書を構成して保持する。例
えば、辞書は、一意の入力キャラクタストリングを表す
データ項目を備える。圧縮エンジン118は、入力データ
ストリームを圧縮し、その圧縮入力データをコードワー
ドとして出力エンジン120に出力する。次いで出力エン
ジン120は、後に行う圧縮解除のために圧縮データスト
リングを記憶するか、または、圧縮データストリングを
帯域幅を縮小して通信チャネル28（図１参照）を介して
伝送する。圧縮データは、図１５で更に説明するよう
に、通信チャネル28の反対側の端末でその圧縮解除が行
われる。圧縮エンジン118は、典型的には、次に利用可
能なコード（ＮＡＣ）を識別するアドレスポインタ122
を保持する。次の一意のキャラクタストリングがデータ
項目として圧縮／圧縮解除辞書中に記憶される。例え
ば、ＮＡＣは、次の一意の入力キャラクタストリングに
ついてのコードワードとして使用される次のアドレス位
置を表すものである。

【００５９】図１２は、図１に示す本発明によるエンコ
ーダラン強化エンジンを詳細に示すブロックである。入
力エンジン124は、入力データストリームからキャラク
タを読み出す。圧縮エンジン126は、その入力キャラク
タを読み出し、辞書を維持し、および、図１１を参照し
て前述したようにキャラクタコードを生成する。符号化
された入力データは、次いでエンコーダラン強化エンジ
ン128に送られ、これにより第２レベルのデータ圧縮が
提供される。ラン強化エンジン128からの圧縮コード
は、出力エンジン130に送られ、図１１の出力エンジン1
20と同様にして処理される。

【００６０】ラン強化エンジン128は、別個のアドレス
ポインタ134（ＲＵＮＣＯＤＥ）を収容しており、その
ポインタ134が、圧縮エンジン126により使用されるＮＡ
Ｃアドレスポインタ132と連携して使用される。キャラ
クタストリングが圧縮エンジン126により符号化された
後、ラン強化エンジン128は、出力コードを遮断し、そ
れがキャラクタのランの一部であるか否かを判定する。
その出力コードがランの一部であると判定された場合に
は、ラン強化エンジン128は、そのランからのキャラク
タを含む幾つかのコードを出力エンジン130が出力する
のを禁止する。次いでラン強化エンジン128は、そのラ
ンから送信されなかったコードを識別する情報を含むラ
ンコードワードを生成する。次いで、そのランコードワ
ードが、そのランの終わりの検出時に出力される。

【００６１】図１３は、図１２に示すラン強化エンジン
128により実行されるプロセスを示す詳細なフローチャ
ートである。ブロック136でコード「Ｃ」が照会され
て、そのコード値が辞書中で作成された最後のコード
（即ち、ＮＡＣ−１）と等しいか否かが判定される。コ
ードＣがＮＡＣ−１と等しい場合には、ランは既に発生
しており、判定ブロック136はブロック138へジャンプし
て、コード値「Ｃ」がアドレスポインタＲＵＮＣＯＤＥ
に書き込まれる。ラン強化エンジンは次いで、出力エン
ジン130（図１２参照）をディセーブルにして、コード
Ｃが出力されるのを防止する。次いでプロセスは、圧縮
エンジンにより生成される次のコードのために判定ブロ
ック136にジャンプする。後続のコードがラン中にある
キャラクタを表す（即ち、同じキャラクタを表す）限
り、このプロセスは繰り返される。例えば、ＲＵＮＣＯ
ＤＥは、最後のコードＣの値に絶えずリセットされ、出
力エンジンは、コードワードを出力することが抑止され
る。ブロック136に戻った際には、ＮＡＣの値が圧縮エ
ンジンによりインクリメントされることに留意された
い。

【００６２】新たに遮断したコードがＮＡＣ−１と等し
くない（即ち、圧縮／圧縮解除エンジンで作成された最
後のコードと等しくない）場合には、ランが発生しなか
ったか、またはランが完了しているかの何れかである。
次いで判定ブロック136は、判定ブロック142にジャンプ
して、アドレスポインタＲＵＮＣＯＤＥの値がチェック
される。ＲＵＮＣＯＤＥがヌル値である場合には、以前
にランは生じておらず、判定ブロック142はブロック148
にジャンプする。次いで、ブロック148は、コードＣを
出力する。このコードＣは、他のランでない符号化キャ
ラクタストリングと同一のものである。次いでプロセス
は、圧縮エンジンによって作成される次のコードのため
に判定ブロック136に戻る。また、ＲＵＮＣＯＤＥがヌ
ルでない場合には、以前にランが生じており、判定ブロ
ック142は、ブロック144で出力される次のコードとして
ＲＵＮＣＯＤＥを出力する。プロセスがブロック146に
ジャンプして、ＲＵＮＣＯＤＥがヌル値にリセットさ
れ、次いでブロック148がランを中断させたコードＣ
（コードワード）の値を出力する。次いで、ラン強化エ
ンジンが判定ブロック136に戻り、次のコードワードが
圧縮エンジンから遮断される。

【００６３】図１４は、従来の圧縮解除装置を示すブロ
ック図である。デコーダ入力エンジン150は、コードワ
ードにより表された圧縮キャラクタストリングのシーケ
ンスを受信し、そのコードワードを圧縮解除エンジン15
2に供給する。その圧縮解除エンジン152は、コードワー
ドを得て辞書を構成して保持し、符号化された出力キャ
ラクタを生成する。次に利用可能なアドレス（ＮＡＣ）
ポインタ156は、図５で説明したＮＡＣポインタと同様
の態様で保持される。デコーダ出力エンジン154は、圧
縮解除エンジン152からの圧縮解除キャラクタの出力を
制御する。

【００６４】図１５は、本発明によるランレングス強化
デコーダを示すブロック図である。デコーダ入力エンジ
ン158は、図１５のデコーダ入力エンジン150と同じもの
である。入力エンジン158からのコードワードは、圧縮
解除エンジン162で更に圧縮解除が行われる前に、デコ
ーダラン強化エンジン160で遮断される。このラン強化
エンジン160は、各コードワードをチェックして、その
コードワードがランコードワードを構成するものか否か
を判定し、それに従って、修正されたコードストリーム
を生成する。ランコードが存在しない場合には、コード
ワードが圧縮解除エンジン162に送られて、通常の圧縮
解除が行われる。デコーダ出力エンジン164は次いで、
圧縮解除エンジンからの符号化キャラクタの出力を制御
する。デコーダラン強化エンジン160は、図１２に示し
たものと同様にして圧縮解除エンジン162中のアドレス
ポインタ（ＮＡＣ）へのアクセスを有するアドレスポイ
ンタ（ＲＵＮＣＯＤＥ）168を含んでいる。

【００６５】図１６は、図１５のデコーダランレングス
強化エンジン160の動作を示す詳細なフローチャートで
ある。ブロック170でコード「Ｃ」が照会されて、その
コード値が、次に利用可能なコードアドレスとして圧縮
解除装置が予期している正規の値と異なるか否かが判定
される。例えば、圧縮解除エンジンは、典型的には、コ
ードＣが、次に利用可能なコードＮＡＣより小さいもの
と予測する。コードＣが正規の値である場合（即ち、コ
ードＣ＜ＮＡＣ）には、ブロック172が「Ｃ」の値を処
理のために圧縮解除エンジンに送る。Ｃが正規の値と異
なる場合（即ち、Ｃ≧ＮＡＣ）には、デコーダラン強化
エンジンは、予測される最大コード値とコードＣの値と
の間の「ギャップを充填する」。

【００６６】より詳細に説明すると、ブロック174は、
値ＮＡＣをアドレスポインタＲＵＮＣＯＤＥに書き込
み、ブロック176は、圧縮解除される次のコードワード
としてＲＵＮＣＯＤＥを圧縮解除エンジンに送る。ＲＵ
ＮＣＯＤＥの値はブロック178でインクリメントされ、
判定ブロック180が、デコーダラン強化エンジンが出力
コードと予測される次の利用可能なアドレスとの間の
「ギャップを充填している」（即ち、ＲＵＮＣＯＤＥ＞
Ｃ）か否かを判定する。デコーダラン強化エンジンがラ
ンの復号を完了している場合には、判定ブロック180
は、ランの圧縮解除が完了していることを示す。ランコ
ードワードとＮＡＣとの「ギャップを充填する」ために
別のコードワードが必要である場合（即ち、ＲＵＮＣＯ
ＤＥ≦Ｃ）には、判定ブロック180がブロック176に戻っ
て、アドレスポインタＲＵＮＣＯＤＥの値を圧縮解除エ
ンジンに送る。次いでＲＵＮＣＯＤＥがインクリメント
され、ランの中の全てのコードが圧縮解除エンジンに供
給されるまで、このプロセスが繰り返される。

【００６７】図１７および図１８は、中間初期設定プロ
セスとランレングス強化プロセスとが共に作用する態様
を示すものである。生データストリーム182が、データ
圧縮エンジン30（図１参照）へ送られて、図５に示した
中間初期設定方法を用いて圧縮される。入力データスト
リーム182中の各キャラクタ「ａ」には、データストリ
ーム中の位置を識別し易いように添字を付してある。従
って、ａ₀,ａ₁,……,ａ₁₁は同一のキャラクタ「ａ」の1
2回のコピーしたものを表している。１組の初期動作条
件190は、８ビットの単一キャラクタ長（ｍ＝８）と、3
2の特殊コード（ｋ＝５）と、12ビット固定長の出力コ
ード（ｂ＝12）と、初期開始アドレス１（Ｃ₀＝１）と
から構成されている。２進表記での「ａ」のＡＳＣＩＩ
表現は[01100001]である。次に利用可能なコード（ＮＡ
Ｃ）は、先ずＮＡＣ＝Ｃ₀＋２^k＝１＋32＝33と計算され
る。記憶装置184は、圧縮／圧縮解除辞書中の特定のア
ドレス位置におけるデータストリーム182からのデータ
項目を示している。

【００６８】中間初期設定圧縮プロセスは、最初の入力
キャラクタａ₀を読み出し、それと一致するキャラクタ
を記憶装置184中で探索する。そのａ₀がデータストリー
ム中の最初のキャラクタであると仮定した場合には、一
致は発生しない。次いでキャラクタａ₀がアドレス位置
ＮＡＣ（ADDR33）で「新キャラクタ」として記憶され
る。ａ₀の最初の５ビット（即ち、２進数[01100]＝12）
がＣ₀と合計されて、圧縮データストリーム186中の最初
のコードワード「13」として出力される。次いでａ₀の
最後の３ビットについての部分コード（即ち、２進数[0
01]＝１）が次のコードワード１として出力される。デ
ータストリーム186は、中間初期設定法を用いた圧縮プ
ロセスの後のコードワードを示すものであり、データス
トリーム188は、図１３に示すラン強化プロセスの後の
データストリーム186を示すものである。

【００６９】ラン強化プロセスは、特殊キャラクタコー
ド「13」および部分キャラクタコード「１」がＮＡＣ−
１と等しくなく、それ故、それらコードを圧縮データス
トリーム188に送ることを判定する。次いでアドレスポ
インタＮＡＣがインクリメントされる（ＮＡＣ＝34）。
次の入力キャラクタａ₁が読み出され、それと一致する
データ項目が記憶装置184中で探索される。アドレス位
置ADDR33に既にａ₀が記憶されているので、突き合わせ
が行われると、次の入力キャラクタａ₂がａ₁と連結され
る。ストリング「ａａ」（即ち、ａ₁,ａ₂）を求めて別
の探索が行われる。この探索は失敗する（即ち、一致は
発生しない）。Ｗはもはや「ヌル」ではない（即ち、Ｗ
＝コード(ａ₁)）ので、コードワード「33」が圧縮エン
ジン126によって出力される（図１２参照）。ラン強化
エンジン128（図１２参照）がコードワード「33」を遮
断して、そのコードワードがＮＡＣ−１と等しい（即
ち、ＮＡＣ−１＝34−１＝33）か否かを判定する。コー
ドワード「33」はＮＡＣ−１に等しく、従って、アドレ
スポインタＲＵＮＣＯＤＥが「33」に設定され、出力エ
ンジン130（図１２参照）がディセーブルになって、コ
ードワード33の出力が抑止される。次いでストリング
「ａ₁,ａ₂」がアドレス位置ＮＡＣ（ADDR34）に記憶さ
れ、アドレスポインタＮＡＣがインクリメントされる
（ＮＡＣ＝35）。

【００７０】記憶装置184中の既に記憶されたデータ項
目と一致しない次のキャラクタストリングは、ストリン
グ[ａ₃,ａ₄,ａ₅]である。次いで辞書項目「ａａ」（即
ち、ADDR34）が、典型的には圧縮エンジンにより出力さ
れる。ラン強化エンジンは、出力コードがＮＡＣ−１
（即ち35−１）に等しいか否かを判定する。従って、ア
ドレスポインタＲＵＮＣＯＤＥの値が現在の出力コード
値（即ちＲＵＮＣＯＤＥ＝34）と置き換えられる。次い
でラン強化エンジンが出力エンジンをディセーブルにし
て、コードワード「34」が圧縮エンジンから出力される
のが抑止される。次いで圧縮エンジンがアドレス位置Ｎ
ＡＣ（ADDR35）にキャラクタストリング[ａ₃,ａ₄,ａ₅]
を記憶し、ＮＡＣをインクリメントする（ＮＡＣ=3
6）。

【００７１】記憶装置184中のデータ項目と一致しない
生データストリーム182からの次のキャラクタストリン
グは、キャラクタストリング[ａ₆,ａ₇,ａ₈,ａ₉]であ
る。次いで出力コードワード「35」が圧縮エンジンによ
り出力される。出力コードワード「35」がＮＡＣ−１
（36−１）に等しいので、アドレスポインタＲＵＮＣＯ
ＤＥの値が値35に設定され、この出力コードワード「3
5」が圧縮データストリーム188中に出力されることが禁
止される。次いでキャラクタストリング[ａ₆,ａ₇,ａ₈,
ａ₉]がアドレス位置ＮＡＣ（ADDR36）に記憶され、アド
レスポインタＮＡＣがインクリメントされる（ＮＡＣ=3
7）。次いで圧縮エンジンが、シーケンス[ａ₁ ₀,ａ₁₁,
ｂ]が記憶装置184中のどの項目とも一致しなくなるま
で、生データストリーム182からの更なるキャラクタを
組み合わせる。次いで、最後の一致データ項目ストリン
グ（即ち、ADDR34における[ａ₁,ａ₂]）についてのコー
ドワード「34」が圧縮エンジンにより出力される。ラン
強化エンジンは、コードワード「34」がＮＡＣ−１（3
6）（即ちランの終わり）に等しくないことを判定す
る。ＲＵＮＣＯＤＥの値が「36」である（即ち、ヌルで
はない）ので、ＲＵＮＣＯＤＥ値およびコードワード
「34」（即ち36,34）が、圧縮データストリーム188に出
力される。次いでＲＵＮＣＯＤＥが「ヌル」値にリセッ
トされる。ＮＡＣがインクリメントされる前に、キャラ
クタストリング[ａ₁₀,ａ₁₁,ｂ]が記憶位置ＮＡＣ（ADDR
37）中にコピーされる。このプロセスは、生データスト
リーム182からの全てのキャラクタが圧縮されるまで続
行される。

【００７２】データストリーム188は、図８に示すよう
に、符号化キャラクタ「13」を先ず復号することにより
圧縮解除される。コードワード「13」は、Ｃo（即ち
「１」）より大きく、Ｃo＋２^k（即ち「33」）より小さ
いので、このコードワードは、図９に示すように、新キ
ャラクタとして処理される。例えば、データストリーム
188からの次の３ビット（即ち、コードワード「１」）
は、特殊キャラクタコード「13」の復号化５ビット２進
表現（即ち、13−Ｃo＝12＝[01100]）と連結される。こ
れにより、「ａ」のＡＳＣＩＩ表現（即ち[01100001]）
が生成される。最初に、復号化キャラクタは、圧縮解除
データストリーム190中でａ_oとして表される。次いで、
復号化キャラクタ「ａ」が、圧縮解除辞書（図示せず）
のアドレス位置ADDR33にロードされる。

【００７３】圧縮データストリーム188からの次の符号
化キャラクタ「36」は、Ｃo＋２^kよりも大きいものと
判定され、その符号化キャラクタは、多数キャラクタ符
号化キャラクタストリングと呼ばれている。その符号化
キャラクタは、デコーダラン強化エンジン160（図１６
参照）により遮断される。コードワード「36」がＮＡＣ
(33)の現在値と比較される。コード値「36」はコード値
「33」よりも大きいので、ＮＡＣの値がアドレスポイン
タＲＵＮＣＯＤＥに書き込まれ、そのＲＵＮＣＯＤＥ
が、圧縮解除エンジンにより圧縮解除される次の符号化
キャラクタとして使用される。圧縮解除エンジンは、ア
ドレス位置ADDR34に圧縮解除辞書を構成し、ＬＺ２圧縮
解除機構にとって典型的な態様で、圧縮解除データスト
リーム190上のランからキャラクタを出力する。

【００７４】次いで、図１６のデコーダラン強化プロセ
スがＲＵＮＣＯＤＥをインクリメント(34)して、ＲＵＮ
ＣＯＤＥの値が符号化キャラクタ値「36」以下であるか
否かをチェックする。ＲＵＮＣＯＤＥの値は「36」未満
なので、ＲＵＮＣＯＤＥの新たな値が次の符号化キャラ
クタとして圧縮解除エンジンに送られる。このプロセス
は、ＲＵＮＣＯＤＥがコードワード値「36」と等しくな
るまで繰り返される。次いで、次のコードワード「34」
が圧縮データストリーム188から読み出され、デコーダ
ラン強化エンジンにより同様の態様で処理される。この
ようにして、圧縮データストリーム中のコードワード
（即ちコードワード33,34,35）のギャップがラン強化エ
ンジンにより充填される。

【００７５】生データストリーム182は、図５に示すＬ
Ｚ２中間初期設定圧縮プロセスにより第１レベルまで圧
縮され、そのデータは更に、図１３に示すラン強化プロ
セスにより第２レベルまで圧縮される。データストリー
ム188から明らかなように、ラン強化エンジンから伝送
されるコードワードの数は、データストリーム186によ
り通常伝送されるコードワードの数よりも小さい。従っ
て、中間的初期設定プロセスにより提供される符号化キ
ャラクタの短縮されたビット長によって圧縮率が最初に
増大され、更にラン強化プロセスによって増大される。

【００７６】ラン符号化強化プロセスは、入力データ中
の他の種類の冗長性について圧縮上の不利を伴うもので
はないことに留意されたい。強化は、ＬＺ２機構により
生成されるコードストリームに残るいくつかの残留冗長
性を利用する。即ち、任意の所与の時点で、ストリーム
中で発生し得る「最大有効コード」が存在し、その最大
コードよりも大きな値は「イリーガル」なものである。
ラン符号化の強化は、それらの「イリーガル」なコード
を使用してランの符号化を行う。可変長コードと共にラ
ン符号化強化を実施する場合、シーケンスＡ₁,Ａ₁＋１,
Ａ₁＋２,Ａ₁＋３,……,Ａ₁＋（ｋ−１）は、コード長の
限界値にまで亘ることはできない。例えば、Ａ₁＋（ｋ
−１）の伝送に必要なビット数は、Ａ₁の伝送に必要な
ビット数と同じでなければならない。何故ならば、圧縮
解除装置が予期するビット長がそのビット数であるから
である。これは（必要であれば）ランをサブランに分割
することにより行われる。このラン符号化強化は、幾つ
かの変形例が可能なものである。そのような変形例に
は、「新コード」Ａ₁＋１,Ａ₁＋２,……,Ａ₁＋（ｋ−
１）を辞書に入力しないものがある。従って、ランの符
号化方法を維持したまま、辞書のスペースが節減され
る。どの変形例の性能が優れているかは、入力データ中
のランレングスの分布によって決まる。

【００７７】ハフマン符号化ネットワークプロトトコル（例えばＴＣＰ／ＩＰ）は、
転送中の実際のデータパケットを、ネットワークのトラ
フィック管理に必要な付加情報のエンベロープで包む。
実験結果の観察により、この付加情報は、ネットワーク
トラフィック中でヌルバイトが発生する相対的な頻度を
大幅に高める傾向を有するものであることが示された。
この現象は、パケットのエンベロープ中の種々のフィー
ルドの「ゼロ・パディング」に一部起因するものであ
る。非ゼロの値が発生する頻度はデータによって決ま
り、また長期間に亘って均一な分布から著しく離脱する
ことはない。このため、バイト値についての確率分布の
大まかな近似は以下の通りとなる。

【００７８】Ｐ(ｃ)＝ｐ（ｃ＝０）Ｐ(ｃ)＝（１−ｐ）／２５５（ｃ≠０）ここで、Ｐ(ｃ)は値ｃを有する１バイトが発生する確率
であり、０≦ｐ≦１である。ネットワークトラフィック
を監視することにより得られるｐの値は代表的には0.2
と0.3との間で変動する。極めて短いパケットの場合、
または実際のパケットデータが圧縮不可能な場合（例え
ば、データがソースで既に圧縮されている場合）には、
ゼロ値の高い確率が、データ中に残っている冗長性であ
ることが多い。このような場合には、簡単なハフマン符
号化機構の方がＬＺ機構よりも性能が優れていることが
ある。

【００７９】ハフマン符号化の基本原理は、可変長コー
ドで固定長キャラクタを符号化する、ということであ
り、即ち、最も頻度の高いキャラクタにはより短いコー
ドを使用し、最も頻度の低いキャラクタにはより長いコ
ードを使用する。ハフマン符号化機構は当業界で公知の
ものであるので、詳細には説明しないこととする。ハフ
マンアルゴリズムを用いることにより、所与の確率分布
について最適なコード割り当てを構成することが可能で
ある。その結果として生じるコード割り当ては、「接頭
語が必要ない」という特性をも有している（即ち、別の
コードの接頭語としてコードが生じることはない）。こ
れにより、符号化ストリームが一意の判読可能性および
即時性を有するものとなる。

【００８０】ｐ＞1／256で、０〜255の値を有する８ビ
ット入力バイトを仮定した、上記の簡単な確率分布の場
合の、最適なハフマンコード割り当てを図１９に示す。
同図の中央列において、「ｚ」は１≦ｚ≦８の範囲の整
数であり、そのｐの関数としての最適値は以下のように
して決定される。この符号化機構の圧縮率は、次の方程
式１で定義される。

【００８１】Ｒ(ｚ,ｐ) ＝ｐｚ／８＋ [(１−ｐ)／2040] × (２^9-z＋2038) (1) １≦ｚ≦８の範囲の一定のｚについて、Ｒ(ｚ,ｐ)はｐ
の一次関数となる。その傾きは非正数であり、ｚと共に
単調に増加する。また、値Ｒ(ｚ,０)は、ｚと共に単調
に減少する。図２０は、１≦ｚ≦４および０≦ｐ≦0.5
の場合のＲ(ｚ,ｐ)を示すグラフである。従って、所与
のｚについて値ｐ_zが存在し、ｚ'＞ｚおよびｐ＞ｐ_zの
全てについて、Ｒ(ｚ,ｐ)≦Ｒ(ｚ',ｐ)となる。ｐ_zが以
下の一次方程式(2)の根であることが容易に確認されよ
う。

【００８２】Ｒ(ｚ',ｐ) ＝Ｒ(ｚ＋１,ｐ_z) (2) 方程式(1)の式Ｒ(ｚ,ｐ)を方程式(2)に代入してｐ_zにつ
いて解くと、下記方程式が得られる。

【００８３】ｐ_z ＝２^8-Z／ [(255×２^Z)＋256] 図２１は、０≦ｚ≦８についてｐ_zの値を示す表であ
る。完全性を期すためにｚ＝０での値ｐ_z＝１も含めて
ある。所与のｚの値（１≦ｚ≦８）は、ｐがｐ_z≦ｐ≦
Ｐ_z-1の範囲にある場合に最適となる。これらの間隔の
幾つかを図２０に示す。従って、64／319≦ｐ≦128／38
3（約0.2006≦ｐ≦0.3342）の場合にはｚ＝２が最適と
なる。この範囲が典型的なＬＡＮトラフィックで経験上
認められるｐの値を含んでいることに留意されたい。

【００８４】ネットワークパケットのための圧縮機構前述の種々の圧縮方法が、図２２で組み合わされて、ネ
ットワークパケットのカスタマイズされた圧縮のための
効率的な機構が生成される。図２２は、パケットアドレ
スフィールド（通常は２つの６バイトフィールド）を処
理するためのブロック202を示している。或る特定用途
（例えばネットワークブリッジ）では、ほとんどのパケ
ットが、小さなサブセットからのアドレス（即ちブリッ
ジによりサービスされるステーションのアドレス）を備
えている。これらの頻繁に生じるアドレスは、テーブル
中に記憶させることができ、また連続番号によりテーブ
ル中に符号化することができる。例えば、アドレステー
ブルが255バイト長である場合には、連続番号を１バイ
トで符号化することが可能であり、従って、アドレスフ
ィールドについて６：１の圧縮率を達成することができ
る（テーブル中で発見されないアドレスをマークするた
めに１つのコードは予約しておく）。また別の用途で
は、アドレスフィールドは、パケットの残りと共に圧縮
され、または未圧縮のまま送られる。

【００８５】ここで図２２を参照する。入力パケット20
0は、アドレス処理ブロック202に送られる。また、ブロ
ック208は、強化ＬＺ２機構を表しており、中間初期辞
書およびラン符号化強化（ＬＺＥ）を備えている。ブロ
ック204は、ｚ＝２の場合の上述の簡単なハフマン機構
（ｚ−ＨＵＦ）を示している。ハードウェアによる実施
態様では、ＬＺＥおよびｚ−ＨＵＦが並行して実行され
る。ブロック210は、カレントパケットについて最高性
能を有する圧縮方法の出力を選択する。次いでブロック
210は、圧縮パケット長を含む短いヘッダおよび選択さ
れた圧縮方法についての標識と共に、圧縮パケットを出
力する。また、その圧縮された出力の長さが、パケット
の拡張を防止するために、ブロック200からの元のパケ
ットの長さと比較される。ＬＺＥおよびｚ−ＨＵＦのい
ずれもパケットの圧縮に成功しなかった場合は、元のコ
ピーが、ヘッダ中の適当な指示と共にブロック206から
出力される。

【００８６】一般に、パケットの大部分は、ブロック20
4のｚ−ＨＵＦまたはブロック206の「コピー」を用いた
場合より、ブロック208のＬＺＥを用いた場合の方が良
好な圧縮率を得ることになる。しかし、パケットによっ
ては（ほとんどの場合、短いパケット）、ｚ−ＨＵＦブ
ロックおよび「コピー」ブロックの方が優れている。代
表的な圧縮結果を、異なる２つのパケットファイルにつ
いて図２３に示す。同図の１行目は、最大16ビットの出
力コードを有するＬＺＷによる実施態様（ＵＮＩＸ圧
縮）を示している。全パケットが１つのファイルとして
圧縮される（即ち、パケットの境界が無視され、辞書が
各パケット間で共用される）。図２３の表の２行目は、
12ビットの出力コードを有するＵＮＩＸ圧縮の結果を示
し、３行目は、上述のＬＺＥ圧縮による結果を示し、４
行目は、図２２に示すようにＬＺＥ圧縮機構とｚ−ＨＵ
Ｆ圧縮機構との双方を並行して用いた場合の圧縮結果を
示している。３行目と４行目の結果は、各パケットを別
個に圧縮することに相当するものである。

【００８７】図２３から分かるように、個々のパケット
についての圧縮性能は、大きなパケットファイルを圧縮
する場合に近似しており、また場合によってはそれより
も優れていることがある。これは、パケット間の冗長性
を利用することによって大きいパケットファイル中のデ
ータソースの統計的特性に適応させる一層良好な機会が
存在する場合であっても、真となる。図２３の圧縮結果
は、何日間も継続してソフトウェアを実行可能とした長
期間の圧縮試験の結果と一致するものである。ネットワ
ークパケットが周期的にサンプリングされ、圧縮され、
圧縮解除されて、圧縮率の監視が行われた。

【００８８】図２４は、時間の関数として圧縮率を示す
グラフである。約200時間に亘って圧縮が測定された。
サンプリングされたデータセットは、1,420,998のパケ
ットから成り、総サイズが198,754,151バイト、平均パ
ケット長が140バイトであった。このデータセットにつ
いての平均圧縮率は0.572であった。図２５は、パケッ
ト長についてデータ分布（総バイト数の一部）を示すグ
ラフである。このデータセット中の50％を越えるバイト
が、200バイト以下の長さのパケット中に含まれてい
る。図２６は、異なる範囲のパケット長について平均圧
縮率を示すものである。各パケット長毎に一貫した良好
な圧縮率が維持されている。

【００８９】上述の装置は、「未加工の」アルファベッ
トが大きい場合（例えば16ビット記号）にデータソース
中の圧縮性能を改善するものである。更に、この装置
は、各ブロックが個々に圧縮されなければならない、短
いブロックに区分されたデータソースについても、圧縮
性能を改善するものである。これらの強化により、ネッ
トワークパケット用にカスタマイズされた圧縮機構が提
供される。従って、個々のネットワークパケットについ
ての圧縮性能は、平均パケット長が極めて短い場合であ
っても、大きいパケットファイルで達成される性能に匹
敵するものとなる。

【００９０】以上、本発明の原理を好適実施例に基づい
て図示し説明してきたが、本発明は、そのような原理か
ら逸脱することなく、その構成および細部を修正するこ
とが可能であることは明白である。特許請求の範囲に記
載の本発明の思想及び範囲に含まれる全ての修正例およ
び変形例を本発明として請求する。

【００９１】以下に本発明の実施態様を列挙する。

【００９２】１．辞書ベースの圧縮／圧縮解除装置にお
いて入力データを符号化する方法であって、この方法
が、入力データからの一意の多数キャラクタストリング
を辞書項目として前記圧縮／圧縮解除装置中に記憶さ
せ、前記入力データからの多数キャラクタストリング
を、そのキャラクタストリングと一致する辞書項目のア
ドレスに従ってコードワードへと符号化し、圧縮／圧縮
解除辞書中に以前に記憶されていない、前記入力データ
からの単一キャラクタストリングを識別し、各々の単一
キャラクタストリングを特殊コードと部分コードとに符
号化し、その各々の特殊コードと部分コードとがその関
連する単一キャラクタストリングの選択可能な部分を表
しており、符号化された単一キャラクタストリングに対
応するコードワードと、符号化された多数キャラクタス
トリングに対応するコードワードとの双方を有する圧縮
データストリームを前記圧縮／圧縮解除装置から出力
し、各々の特殊コードおよびその関連する部分コード
が、単一キャラクタストリングを一意に識別し、および
前記入力データ中に存在し得る一意の単一キャラクタス
トリングの総数のサブセットを表している、というステ
ップを含むことを特徴とする、前記符号化方法。

【００９３】２．特殊コード中に何ビットの単一キャラ
クタが含まれているかを決定する選択可能なパラメータ
ｋに従って、圧縮データストリーム中の各々の単一キャ
ラクタストリングについての特殊コードを符号化する、
というステップを含むことを特徴とする、前項１記載の
符号化方法。

【００９４】３．圧縮データストリームから単一キャラ
クタストリングを再構成するステップを含み、この再構
成ステップが、圧縮データストリーム中の特殊コードを
識別し、その特殊コードをその関連する単一キャラクタ
ストリングの元の部分へと復号し、その特殊コードをそ
の関連する部分コードと組み合わせる、というステップ
から成ることを特徴とする、前項２記載の符号化方法。

【００９５】４．圧縮／圧縮解除装置により生成される
コード値の所定範囲内に存在するように特殊コードが符
号化されることを特徴とする、前項１記載の符号化方
法。

【００９６】５．単一キャラクタストリングを符号化す
るステップが、単一キャラクタストリングからのビット
のサブセットを特殊コードに割り当て、単一キャラクタ
からの残りのビットを部分コードに割り当てる、という
ステップから成り、単一キャラクタストリングを表すた
めに特殊コード中のビットの数が圧縮／圧縮解除装置中
で割り当てられたコードワードの数によって決定され
る、ということを特徴とする、前項１記載の符号化方
法。

【００９７】６．単一キャラクタストリングの特殊コー
ドに割り当てられたビット数が、入力データの種類およ
び構造に従って変更されることを特徴とする、前項５記
載の符号化方法。

【００９８】７．圧縮データストリーム中の連続するコ
ードワードのランを検出するステップを含み、そのラン
中の各コードワードが、同じキャラクタから構成された
入力データストリングを表していることを特徴とする、
前項１記載の符号化方法。

【００９９】８．圧縮データストリームからのコードワ
ードのランを圧縮するステップを含むことを特徴とす
る、前項７記載の符号化方法。

【０１００】９．圧縮／圧縮解除装置が圧縮データスト
リーム中のコードワードのランの一部を出力することを
禁止するステップを含むことを特徴とする、前項７記載
の符号化方法。

【０１０１】１０．禁止されたコードワードに続いて送
られる最初のコードワードの値により、禁止されたコー
ドワードのシーケンスの再構成を可能にすることを特徴
とする、前項９記載の符号化方法。

【０１０２】１１．少なくとも１つの別の圧縮機構を用
いて入力データを圧縮すると同時に、最良の圧縮率を提
供する圧縮機構から圧縮データストリームを選択する、
というステップを含むことを特徴とする、前項７記載の
符号化方法。

【０１０３】１２．入力データのサイズが各々の圧縮デ
ータストリームよりも小さい場合に、未圧縮の入力デー
タキャラクタを選択するステップを含むことを特徴とす
る、前項１１記載の符号化方法。

【０１０４】１３．一意の単一キャラクタストリングの
総数が、圧縮／圧縮解除装置中の辞書項目の総数よりも
多いことを特徴とする、前項１記載の符号化方法。

【０１０５】１４．一意の単一キャラクタストリングの
数が２¹⁶であることを特徴とする、前項１記載の符号化
方法。

【０１０６】１５．辞書ベースの圧縮／圧縮解除装置に
おいて入力データを符号化する方法であって、この方法
が、入力データからのキャラクタストリングを符号化
し、一意の単一キャラクタストリングをデータ項目とし
て圧縮／圧縮解除辞書中に記憶させ、符号化キャラクタ
ストリングを表すコードワードから成る圧縮データスト
リームを圧縮／圧縮解除装置から出力し、入力データキ
ャラクタのランを表す圧縮データストリーム中のコード
ワードのシーケンスを検出し、前記入力データキャラク
タを表すランが、同じ値を有し、圧縮／圧縮解除装置に
より逐次に処理され、圧縮／圧縮解除装置が圧縮データ
ストリーム中のコードワードのランの一部を出力するの
を禁止することにより圧縮データストリームを圧縮し、
禁止されたコードワードに続いて送られる最初のコード
ワードの値により、禁止されたコードワードのシーケン
スの再構成を可能にする、というステップを含むことを
特徴とする、前記符号化方法。

【０１０７】１６．圧縮／圧縮解除装置から出力された
符号化値を、圧縮／圧縮解除辞書中に記憶されている最
後のデータ項目の記憶位置と比較することによりランが
検出されることを特徴とする、前項１５記載の符号化方
法。

【０１０８】１７．圧縮／圧縮解除装置から出力された
符号化値が、辞書中に記憶されている最後のキャラクタ
ストリングのアドレス値と等しくならなくなるまで、圧
縮／圧縮解除装置が符号化キャラクタストリングを出力
することを禁止するステップを含むことを特徴とする、
前項１６記載の符号化方法。

【０１０９】１８．禁止されたコードワードに続いて送
られる最初のコードワードを、圧縮／圧縮解除装置によ
り圧縮解除データへと更に圧縮解除されたコードワード
へと、圧縮解除するステップを含むことを特徴とする、
前項１５記載の符号化方法。

【０１１０】１９．辞書ベースの圧縮／圧縮解除装置に
おいて入力データを符号化する回路であって、この回路
が、前記入力データからの単一キャラクタストリングお
よび多数キャラクタストリングをコードワードへと符号
化し、そのコードワードを圧縮データストリームとして
出力する、圧縮／圧縮解除エンジンと、前記入力データ
からの単一キャラクタストリングを第１コードフィール
ドと第２コードフィールドとに分割する手段と、前記圧
縮データストリーム中の前記単一キャラクタストリング
を識別するために前記第１コードフィールドを符号化す
る手段であって、前記第１コードフィールドが、圧縮／
圧縮解除エンジンのコード値の所定範囲内にあるように
符号化される、前記符号化手段と、前記第１コードフィ
ールドを復号してそれを前記第２コードフィールドと組
み合わせることにより圧縮データストリームから単一キ
ャラクタストリングを生成する手段であって、前記第１
および第２コードフィールドが、入力データ中で発生す
る可能性のある全ての単一キャラクタストリングのサブ
セットを表すことにより、符号化キャラクタストリング
のビット長を短縮する、前記生成手段ととを備えること
を特徴とする、前記符号化回路。

【０１１１】２０．前記符号化手段が前記第１コードフ
ィールドからの選択可能なビット数を所定値と合計する
ことを特徴とする、前項１９記載の符号化回路。

【０１１２】２１．前記生成手段が、前記第１コードフ
ィールドから所定値を減算し、その減算結果からの選択
可能な数のビットを前記第２コードフィールドと組み合
わせることを特徴とする、前項１９記載の符号化回路。

【０１１３】２２．前記圧縮／圧縮解除エンジンに接続
され、その圧縮／圧縮解除エンジンが前記圧縮データス
トリーム中のコードワードの幾つかを出力することを禁
止する、エンコーダラン強化エンジンを備えていること
を特徴とする、前項１９記載の符号化回路。

【０１１４】２３．前記圧縮／圧縮解除エンジンに接続
され、禁止されたコードワードに続いて送られる最初の
コードワードの値から、禁止されたコードワードのシー
ケンスを再構成する、デコーダラン強化エンジンを備え
ていることを特徴とする、前項２２記載の符号化回路。

【０１１５】

【発明の効果】本発明は上述のように構成したので、デ
ータ圧縮率を高め、辞書ベースの圧縮／圧縮解除装置に
必要な記憶装置の量を削減するために、異なる形式の入
力データおよび異なるデータ構造に適応可能な、データ
圧縮の初期設定プロセスを提供することができる。

【図面の簡単な説明】

【図１】本発明による強化が実施された圧縮／圧縮解除
装置の概要を示すブロック図である。

【図２】ＬＺ圧縮の基本原理を示す説明図である。

【図３】空の初期辞書を有する従来のＬＺ圧縮方式での
新キャラクタの伝送を示す説明図である。

【図４】本発明による中間辞書初期設定を用いた強化Ｌ
Ｚ圧縮による新キャラクタの伝送を示すフローチャート
である。

【図５】基本的なＬＺＥの中間初期設定プロセスを示す
フローチャートである。

【図６】図５のサブプロセスである「新キャラクタ」の
符号化を示すフローチャートである。

【図７】図１の圧縮副装置で図６の符号化サブプロセス
を実行するための回路を示す機能ブロック図である。

【図８】図６のサブプロセスにより生成された符号化コ
ードについての「新キャラクタ」符号化サブプロセスを
示すフローチャートである。

【図９】図１の圧縮解除副装置で図８の符号化サブプロ
セスを実施するための回路を示す機能ブロック図であ
る。

【図１０】本発明による異なる初期設定方式についての
圧縮結果を示す表である。

【図１１】従来のデータ圧縮装置を示すブロック図であ
る。

【図１２】強化Lempel-Zivランレングス符号化機構を図
１に示す圧縮副装置で実施するための回路を示すブロッ
ク図である。

【図１３】本発明による強化Lempel-Zivランレングス符
号化方法を実施するためのプロセスを示すフローチャー
トである。

【図１４】従来のデータ圧縮解除装置を示すブロック図
である。

【図１５】本発明による図１の圧縮解除副装置で強化Le
mpel-Zivランレングス符号化を実施するための回路を示
すブロック図である。

【図１６】本発明による強化Lempel-Zivランレングス符
号化方法を示すフローチャートである。

【図１７】中間初期設定およびランレングス符号化を行
うための方法の図形化して示す説明図である（１／
２）。

【図１８】中間初期設定およびランレングス符号化を行
うための方法の図形化して示す説明図である（２／
２）。

【図１９】最適なハフマン符号化割り当てを示す表であ
る。

【図２０】ハフマン符号化データの圧縮率を示すグラフ
である。

【図２１】異なるビット長についての確率分布を示す表
である。

【図２２】本発明による並列「最良利益」圧縮装置を示
すブロック図である。

【図２３】種々のネットワークパケットファイルについ
ての圧縮結果を示す表である。

【図２４】実際のネットワークパケットデータに対して
図２２の装置を用いた場合の圧縮率を時間の関数で示す
グラフである。

【図２５】図２４のデータ分布をパケット長の関数とし
て示すグラフである。

【図２６】図２４のデータ圧縮率をパケット長の関数と
して示すグラフである。

【符号の説明】

24 圧縮副装置 26 圧縮解除副装置 30 圧縮エンジン 32 記憶装置 34 中間初期設定エンコーダ 36 デコーダ 38 エンコーダラン強化エンジン 40 デコーダラン強化エンジン

Claims

【特許請求の範囲】

【請求項１】辞書ベースの圧縮／圧縮解除装置において
入力データを符号化する方法であって、この方法が、入力データからの一意の多数キャラクタストリングを辞
書項目として前記圧縮／圧縮解除装置中に記憶させ、前記入力データからの多数キャラクタストリングを、そ
のキャラクタストリングと一致する辞書項目のアドレス
に従ってコードワードへと符号化し、圧縮／圧縮解除辞書中に以前に記憶されていない、前記
入力データからの単一キャラクタストリングを識別し、各々の単一キャラクタストリングを特殊コードと部分コ
ードとに符号化し、その各々の特殊コードと部分コード
とがその関連する単一キャラクタストリングの選択可能
な部分を表しており、符号化された単一キャラクタストリングに対応するコー
ドワードと、符号化された多数キャラクタストリングに
対応するコードワードとの双方を有する圧縮データスト
リームを前記圧縮／圧縮解除装置から出力し、各々の特
殊コードおよびその関連する部分コードが、単一キャラ
クタストリングを一意に識別し、および前記入力データ
中に存在し得る一意の単一キャラクタストリングの総数
のサブセットを表している、というステップを含むこと
を特徴とする、前記符号化方法。