JP3309031B2

JP3309031B2 - 短ブロックのデータを圧縮、伸長するための方法、及び装置

Info

Publication number: JP3309031B2
Application number: JP03980695A
Authority: JP
Inventors: ガディエル・セローシ; アブラハム・レンペル
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1994-03-01
Filing date: 1995-02-28
Publication date: 2002-07-29
Anticipated expiration: 2017-07-29
Also published as: EP0673122A2; DE69523652T2; US5488365A; EP0673122A3; JPH07283739A; DE69523652D1; EP0673122B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ圧縮に関する。よ
り詳細には、本発明は短ブロックのデータの多くの組を
圧縮することに関する。

【０００２】

【従来の技術】読み取り専用メモリ(ROM)は、製品の機
能を定義するファームウェア、及びデータを記憶するた
めに、今日の多くの電子製品で使用されている。ある例
では、利用可能なROMの物理量が、ハードウェア設計
面、又はコスト面の問題によって影響を受け、ROMに記
憶できるデータの量が、製品の機能レベルを決定する。
逆に、他の例では、最小限の機能が必要とされ、そのよ
うな機能に適応するために必要なROMの物理量が、ハー
ドウェア要件に影響を及ぼし、最終的に製品のコストに
影響を与える。どちらの場合も、データ圧縮を使用して
同じ物理量のROMにより多くのデータを記憶すれば、機
能面、コスト面、又はその両方で競争上の優位性を得る
ことができる。

【０００３】例えば、組み込みROMは、アジア市場向け
に製造されたプリンタに大きなデータセットを記憶する
ために使用される。これらのプリンタは、最小限の機能
要件を満たすために、ある業界標準フォーマット(例え
ば、True Type^(R)フォーマット)で、ある数の漢字フォ
ントを含まなければならない。典型的な漢字フォント
は、約１万個の絵文字の表現を含む。各絵文字はそれぞ
れ、数10バイトから数100バイトまで長さが変化する。
未圧縮フォントの総サイズは通常、２メガバイトないし
３メガバイトである。プリンタは、ページを印刷する
際、各個別の絵文字にランダムに、かつリアルタイムに
アクセスできなければならない。従って、圧縮が使用さ
れる場合、所与の絵文字がアクセスされた時、少量のデ
ータを伸長するだけで済むように、各絵文字は個別に、
又は小さなグループ単位に圧縮されなければならない。

【０００４】小さなブロックのデータを個別に圧縮し
て、圧縮された各ブロックに個別に、かつランダムにア
クセスできるようにする要求は、冗長性と、異なるブロ
ック間の相互関係を圧縮技法の一部として利用すること
を困難にする。他の重要なパラメータは、リアルタイム
・アクセス要求によって影響を受ける伸長速度である。
伸長速度とブロック・サイズに関係があることは明らか
である。伸長アルゴリズムが速ければ速いほど、大きな
絵文字のグループを一緒に圧縮することができ、それに
よって、依然リアルタイム伸長要件が満たされたまま、
より良い圧縮率が得られる。上述のプリンタの適用例
で、最小限の機能要件を満たすために、ある最小数のフ
ォントをROMに記憶しなければならない。データ圧縮
は、この最小フォント・セットを記憶するために必要な
物理ハードウェアのサイズ(例えば、ROM集積回路の数、
又はサイズ)を減少させる助けとなり、従って製品のコ
ストを低減させることができる。

【０００５】ROMベースのデータ圧縮を適用した他の例
は、スーパーポータブル・コンピュータでROMディスクを
使用することである。これらのコンピュータは、オペレ
ーティング・システムと、広く使用されている幾つかの
ソフトウェア・アプリケーションを、そのコンピュータ
に組み込まれたROMカードに含めることができる。製品
に組み込めるソフトウェアの量、従ってその製品の機能
は、ROMカードの物理サイズによって制限される。所与
の物理サイズに関して、データ圧縮の結果、ROMカード
の論理的な容量が増加すると、製品の機能が増大し、従
って製品の市場性が高まる。

【０００６】ROMカードは論理的に構成され、システム
によってファイル・システムを含む正規ディスクとみな
される。システムによってアクセスされるデータの最小
単位はディスク・クラスタ、即ち、サイズが約512バイト
から8192バイトまで変化しうるデータ・ブロックであ
る。一般に、ディスク・クラスタのサイズは所与のファ
イル・システムで固定である。典型的なROMディスクは、
約10メガバイトないし20メガバイトの総容量(即ち生の
未圧縮容量)を有する。上述のプリンタ・フォントの適用
例の場合と同様、ROMディスクの適用例は、数千の小さ
なブロックのデータ、即ちディスク・クラスタに、リア
ルタイムでランダムにアクセスできなければならないこ
とを必要とする。

【０００７】これらは、以下の共通要件の組を共有する
ある種のデータ圧縮を適用した２つの例に過ぎない。１．データセットが複数(例えば数千)の短ブロックのデ
ータ、例えば数十バイトから数千バイトを有するデータ
・ブロックから成る。２．個別のデータ・ブロックがランダムにアクセスでき
なければならない。従って、各ブロックを個別に伸長で
きなければならない。３．個別のブロックへのアクセス時間が重要である。従
って、伸長時間が重要である。しかし、圧縮は一度だけ
しか実行する必要がないので、圧縮時間は重要ではな
い。

【０００８】この技術に関する態様は、幾つかの対称デ
ータ圧縮／伸長技法を提供する。完全な圧縮、即ち最も
圧縮率の高い圧縮を達成できるものは、より多くの時間
を要する。従って、対称リアルタイム・システムでは、
完全な圧縮サイクルに十分な時間が得られない可能性が
ある。非対称システム、即ち圧縮フェーズでリアルタイ
ム制約を課さないものでは、より完全な圧縮を得ること
ができる。一方、圧縮サイクル中に、伸長サイクルを加
速するためにデータ構造が最適化されうる。

【０００９】幾つかの小さなブロックのデータから成る
大きなデータセットを圧縮する技法は、データ処理業界
のアプリケーションに容易に適応させることができ、こ
の技法によって、製造業者は製品の機能を増大させ、か
つ製品の形成因子を減少させることができる。

【００１０】

【発明が解決しようとする課題】本発明は、多くの組の
短ブロックのデータを、読み取り専用メモリのような記
憶媒体に記憶できるように圧縮する技法を提供する。こ
の技法の適用例には、プリンタのフォント、ポータブル
・コンピュータ内のROMディスク、及びその他の圧縮が含
まれる。そのような適用例では、個別のブロックへのラ
ンダム・アクセス、及び高速な(即ち、リアルタイム、又
はリアルタイムに近い)伸長が必要とされる。そのよう
な適用例では、圧縮はオフラインで実施することがで
き、その時間は重要ではない。本発明の技法は、非対称
データ圧縮／伸長を提供し、それによって最大データ密
度と最小データ・アクセス時間を達成する。本発明は、
様々な製品に対してハードウェア要件を低減して機能を
増大させる、良好な圧縮率を提供する。

【００１１】

【課題を解決するための手段】この技法は、３つの別個
の段階から成る。第１段階は、データ・ブロックを読み
取って処理し、統計を収集し、圧縮／伸長時に使用され
る中間データ、及び最適化されたテーブルを生成するこ
とを含む。

【００１２】第２段階は、個別のブロックを圧縮し、個
別のブロックにアクセスできるようにするインデックス
・テーブルと伸長処理で使用されるテーブルを含む、圧
縮されたファイルを生成することを含む。第１段階と第
２段階は共に、オフラインで実行され、必ずしも、最終
的に圧縮されたデータを使用するコンピュータ上で実行
される必要はない。従って、この両方の段階は、最大の
データ圧縮を保証するペースで実行することができる。

【００１３】この技法の第３の、つまり最終段階は伸長
を含む。この段階は、目標コンピュータ上でリアルタイ
ムに実行され、記憶され圧縮されたファイル内のインデ
ックス・テーブル、及び伸長テーブルを使用して、アプ
リケーションの必要に応じて個別のブロックをアクセス
し、伸長する。

【００１４】

【実施例】本発明は、図１の流れ図に示したように、多
くの組の短ブロックのデータに関してデータ圧縮／伸長
技法を提供する。この技法は３つの別個の段階から成
る。

【００１５】１．訓練、及び最適化(10) この段階は、データ・ブロックを読み取って処理し、統
計を収集し、圧縮／伸長時に使用される中間データ、及
び最適化されたテーブルを生成することを含む。この段
階は、最大のデータ圧縮を保証する必要がある限り行わ
れ、従って非常に数値計算が集中する可能性がある。

【００１６】２．圧縮（１４）この段階は、個別のブロックを圧縮し、個別のブロック
へのアクセスを可能にするインデックス・テーブル、及
び伸長処理の間に使用されるテーブルを有する圧縮され
たファイルを生成することを含む。この段階も数値計算
が集中するが、通常、第１段階ほどではない。この両方
の段階は、オフラインで実行され、必ずしも、最終的に
圧縮されたデータを使用するコンピュータ上で実行され
る必要はない。

【００１７】３．伸長(18) この段階は、目的のコンピュータ上でリアルタイムに実
行され、記憶され圧縮されたファイル内のインデックス
・テーブル、及び伸長テーブルを使用して、アプリケー
ションの必要に応じて個別のブロックがアクセスされ伸
長される。

【００１８】これら３つの段階を、ここでより詳細に説
明する。

【００１９】訓練、及び最適化(10) この段階では、各データ・ブロックが個別に処理され(1
1)、Lempel-Zivデータ圧縮アルゴリズムのLZ1変形型を
使用してパーズされる。例えば、J.Ziv、A.Lempel著「A
universal algorithm for sequential data compressio
n」(IEEE Transactions On Information Theory、1977
年5月)を参照されたい。原則的に、他の変形型、例えば
LZ2(J.Ziv、A.Lempel著「Compression of Individual Se
quences Via Variable-Rate Coding」(IEEE Transactio
ns on Information Theory、1978年9月)や、T.Bell著
「A Unifying Theory and Improvements for Existing
Approaches to Text Compression」(University of Can
terbury、1986年)を参照されたい)、又は非LZ技法さえ
も同様に使用することができる。しかし、LZ1の主要な
相対的欠点である圧縮速度の遅さは、この適用例では無
関係であるため、短ブロックのデータに関する本発明の
実施例ではLZ1変形型が好ましい。

【００２０】図２は、Lempel-Zivデータ圧縮アルゴリズ
ムを使用する列マッチングの一例である。LZアルゴリズ
ムの基本原理は、データ・ブロックの以前の部分で既に
発生しているバイトのストリングと現在の入力との可能
な最長の一致を見つけることである。より具体的には、
データ・ブロックは事象のシーケンスとしてパーズされ
る。２種類の事象がある。

【００２１】１．列の一致列の一致は、オフセットと長さの２つの整数で表され
る。オフセットは、入力の現在位置から戻ったバイト数
で測定され、一致した列が発生した過去の入力バッファ
内の場所を指す。一致したバイト数は、長さパラメータ
で与えられる。列の一致の参照は、現在のデータ・ブロ
ックに対するものであり、ブロック間の参照は許可され
ない。

【００２２】図２で、この処理は、数バイト、例えば文
字「A」を含むバイト36から成るデータ列30に関して示さ
れている。入力の現在位置は符号33で示されている。一
致のオフセットは、一致が見つかった位置36を指してい
る。この処理は、最長の一致が決定されるまで、即ち列
の一致がもはや発生しなくなる時点まで、一致を探し続
ける。図２の例で、現在の列「ABC」(32)は既存の列「ABC」
(31)と一致する(35)。その場合、次のマッチング(34)は
文字「D」から始められる。

【００２３】２．リテラル・バイトこれは、データの１バイトであり、例えば以前の入力と
一致しなかったバイト、即ち過去のデータと関係なくそ
のまま送られるバイトである。図２の例で、文字「D」(3
4)はリテラル・バイトである。

【００２４】データ・ブロックのLZ1パージング・アルゴ
リズムは以下のように要約することができる。入力：b[0] b[1] b[2]...b[N]のバイトからなるブロッ
ク。出力：事象のシーケンス。ステップ１：ｉに０をセットする。ステップ２：ｉ > Ｎの場合、停止する。ステップ３：b[i] b[i+1]...b[i+L_k-1] = b[k] b[k+
1]...b[k+L_k-1]であり、Ｌ_kが可能な限り大きい、即ち
最長の一致になるような、インデックスｋ < ｉ、及び
対応する整数Ｌ_k > ０を見つける。ステップ４：Ｌ_k< Ｌ_minの場合、事象「リテラルb
[i]」を出力し、ｉにi+1をセットし、ステップ２に進
む。そうでない場合はステップ５に進む。ステップ５：オフセット=i-k、長さ=Ｌ_kを有する列の一
致事象(オフセット、長さ)を出力する。ｉにi+Ｌ_kをセ
ットしてステップ２に進む。

【００２５】本発明の実施例において、この段階では時
間複雑性は重大ではないから、ステップ３での最長の一
致の探索は、余すところなく行われ、必要なだけ時間を
かけることができる。ステップ４のパラメータＬ_minは
１、又は最小の一致長さを指定する、小さな閾値に設定
することができる。実際には、Ｌ_min＝２、又は３の値
が使用される。

【００２６】以下の議論に関しては図１を参照すべきで
ある。

【００２７】LZ1パージング・アルゴリズムによって生成
される事象のシーケンスは、最終的に圧縮されたデータ
を形成するように符号化されるが、この処理のこの時点
では、符号化は実行されない。その代わり、事象の発生
頻度に関する統計が収集され、各個別のデータ・ブロッ
ク毎に、これらの頻度のヒストグラムが作成される。ブ
ロックが比較的短いので、このヒストグラムは極めてま
ばらである。

【００２８】前の段階で収集された統計は、統計ベース
の圧縮方法、例えばハフマン符号化を使用する事象の最
適符号化を設計するために使用される(13)。例えば、T.
Cover、J.Thomas著「Elements of Information Theory」
(第５章、John Wiley & Sons、ニューヨーク(1991年))
を参照されたい。この符号化は、より頻繁な事象に対し
てより短いコードを割り当て、あまり頻繁でない事象に
対してより長いコードを割り当てる。理想的には、可能
な、ブロックの最短の符号化は、そのブロックに関する
統計だけに基づいてコードを設計することによって得ら
れる。しかし、ある形式の符号化テーブル(又は、同様
にヒストグラム)もデコンプレッサに対して使用可能で
なければならない。各ブロック毎に別々のコード・テー
ブルを記憶するコストにより、符号化によって得られる
どんな圧縮も相殺される。

【００２９】他の極端な例では、１つの符号化テーブル
がデータ・ブロックの組全体に使用される。こうしたテ
ーブルは、全てのブロックに関するヒストグラムを１つ
の汎用ヒストグラムに結合し、その汎用ヒストグラムか
らテーブルを導くことによって得られる。これによっ
て、テーブルが占有する空間を最小限に抑えられるが、
得られる符号化は、多数のデータ・ブロックに対して最
適であるとは言い難い。

【００３０】本発明で適用される中間的な解決策は、ブ
ロックの組を同様の統計を有するクラスタとして区分化
し、各クラスタに属するブロックのヒストグラムを１つ
のヒストグラムに結合し、その結合ヒストグラムに基づ
いて各クラスタに関する最適符号化／復号化テーブルを
設計することである。これは、上記で従来の技術の議論
に関連した一例として述べたディスク・クラスタではな
く、むしろデータ・ブロックのクラスタである(ディスク
の例では、ディスク・クラスタのクラスタである)。「ク
ラスタ」の語は、本明細書の議論の残りの部分全てにわ
たって、この意味を表すものとする。

【００３１】図３は、本発明によるヒストグラム・クラ
スタ化の一例である。図で、各データ・ブロックは、棒
グラフとしてグラフィカルに示されたそのブロック自体
のヒストグラム(統計)によって表されている。様々なデ
ータ・ブロックが、ある共通の特性、例えば、図ではヒ
ストグラムの形状が類似しているとして示された統計的
な類似性に従って、グループ化(クラスタ化)されてい
る。グループ化、又はクラスタ100、101、102、103、104は
代表ヒストグラム110、111、112、113、114を作成するため
に使用される。代表ヒストグラムは、例えばクラスタか
ら成る全てのヒストグラムの合計を求めることによって
導くことができる。各代表ヒストグラムは、対応するク
ラスタに含まれる全てのデータ・ブロックに関する符号
化テーブルを作成するために使用される。このように、
圧縮されたデータ・ブロックの組と共に記憶されるべき
伸長テーブルの数は、大幅に減少する。クラスタの数
と、クラスタへのブロックの割り当ては、合計Ｓ = Ｓ
_T+ Ｓ_E(1)が最小になるように設計される。上式で、
Ｓ_Tは、符号化されたデータと共に記憶される復号化テ
ーブルのサイズを示し、Ｓ_Eは符号化されたデータ自体
のサイズを示し、Ｓは圧縮されたデータの合計サイズを
示す。

【００３２】数式(1)は、それぞれ関連するコストを有
する、モデル化とコード化の２つの部分にデータ圧縮処
理を分割する、周知の情報理論パラダイムを表す。Ｓ_T
はモデルのコスト、即ちデータ統計モデルの記述に関連
するコストを表し、Ｓ_Eはコード・コスト、即ちモデルに
基づくデータの最適符号化コストを表す。例えば、J.Ri
ssanen著「Universal coding,information,prediction,
and estimation」(IEEE Transaction on Information T
heory(1984年7月))、及びJ.Rissanen、G.G.Langdon著「U
niversal modeling and coding」(IEEE Transaction on
InformationTheory(1981年1月))を参照されたい。

【００３３】データ・ブロックをクラスタにグループ化
することは、データ・ブロックが有するいかなる本来の
順序、例えばフォント内の文字の順序、又はROMディス
ク内のディスク・ブロックの順序によって制限されない
ことに留意されたい。データ・ブロックは、任意の順序
で取り出すことができ、原則的に、全ての可能な並び替
えが考えられうる。従って、例えば第１のデータ・ブロ
ックが最後のデータ・ブロックと共にクラスタ化されう
る。これは、システムの非対称性のために可能になる。
クラスタ化処理中にデータをパスする回数は制限されな
い。このアプローチは、データ・ブロックを本来の順序
で順次処理しなければならない従来型の対称圧縮システ
ムとは対称的である。

【００３４】ヒストグラムの絶対的な最適クラスタ化は
計算不能であるが、たとえ最適なものではなくても、良
好な圧縮比をもたらす実際的なアプローチが実施可能で
ある。これらのアプローチは、データの事前の知識、又
は代替方法で見つけられた幾つかの解決策のうち最も適
当なものが、最適化の次のステップで使用できるよう
に、連続した段階において選択される発見的クラスタ化
基準に基づくものである。ある発見的手法の例は、各ブ
ロックの統計を使用してそのブロック自体を圧縮するこ
とによって得られた圧縮率インデックスによってデータ
・ブロックをソートし、次いで同様の圧縮率インデック
スを用いてブロックをクラスタ化する。以下の手順は、
この発見的手法の１つの実施態様である。

【００３５】１．クラスタの数Ｎを判定する(例えば、
最良の圧縮が得られるまで異なるＮの値を試す。実際の
適用例では、Ｎは大きな数ではない)。２．各入力データ・ブロック毎に、LZ1パージング操作を
実施し、結果的にパージングを形成する事象に関する統
計を生成し、この統計に基づいて最適符号化テーブルを
生成し、ブロックの圧縮率インデックスＲを計算する。
圧縮率インデックスは、最適化テーブルを使用してブロ
ックを符号化する際に得られる圧縮率に等しい。３．圧縮閾値Ｔ₁,Ｔ₂,....,Ｔ_n-1を判定する(以下参
照)。Ｔ₀＝０，Ｔ_n＝∞にセットする。４．クラスタＣ₁,Ｃ₂,...,Ｃ_nを以下のように定義す
る。Ｃ_i=｛全てのブロックが、Ｔ_i-1 < R < Ｔ_iを満たす圧
縮率インデックスを持つ｝。

【００３６】圧縮閾値Ｔ_iを定義する１つの方法は、そ
の結果得られるクラスタＣ_iがほぼ等しいサイズになる
ように前記閾値をセットすることである。この発見的手
法は、同様の統計特性を有するブロックは同様の圧縮率
インデックスを有する(但し、逆は必ずしも真ではない)
という原則に基づくものである。

【００３７】フォントの適用例の場合、発見的アプロー
チは、公知の形態的類似性を用いて絵文字、即ち、類似
の形状を含む絵文字をクラスタ化する。ROMディスクの
適用例の場合、発見的アプローチは、同じタイプのコン
ピュータ・ファイル(例えば、実行可能ファイル、テキス
ト・ファイル、グラフィック・ファイル等)から得られる
データ・ブロックをクラスタ化する。

【００３８】データ・ブロックのクラスタ化に関する、
より一般的なアプローチは、ベクトル量子化に基づくも
のである。例えば、A.Gersho、R.M.Gray著「Vector Quan
tization and Signal Compression」(Kluwer Academic
Publishers、ボストン(1992年))を参照されたい。ここ
では、クラスタの数が既知のものと仮定している(後
で、この数と異なる値について試すことができる)。こ
のアプローチでは、ベクトル量子化コードブック設計技
法を使用して、ヒストグラム・クラスタが定義される。
このアプローチは、量子化されているベクトル間の距離
の概念を必要とする。この場合、これらのベクトルはヒ
ストグラムである。この距離に関する値を提供するため
に使用される１つの因子は、ヒストグラムによって表さ
れる分布間の情報発散である。これは、統計分布間の類
似性を測定するために使用することができる。例えば、
T.Cover、J.Thomas著「Elements of Information Theor
y」(John Wiley & Sons,Inc.、ニューヨーク(1991年))
を参照されたい。

【００３９】ヒストグラムのクラスタ化に関する他のア
プローチの例は、異なる状態から得た統計を最小データ
・モデルに統合する、体系的な方法を提供する汎用モデ
ル化技法によって提供される。例えば、J.Rissanen著
「A universal state compression system」(IEEE Tran
saction on Information Theory(1983年9月)、J.Rissan
en著「Universal coding,information,prediction,and
estimation」(IEEE Transactions on Information Theo
ry(1984年7月))、M.Weinberger、J.Rissanen、M.Feder著
「A universal finite memory source」(IEEE Transact
ions on Information Theory(1993年提示))を参照され
たい。

【００４０】実際には、経験的データによって、極めて
単純なアプローチでも満足な圧縮結果が得られることが
分かっている。例えば、順序付けにそれほど注意を払わ
ずに、データ・ブロックを多くの同等の部分集合に分割
し、丁度その部分集合の数を最適化する(上述の発見的
手順のようなアプローチ。但し、圧縮率インデックスは
計算しない)ようなアプローチが挙げられる。以下の議
論に関しては、図１を参照されたい。

【００４１】従って、訓練・最適化段階(11)の終りで
は、クラスタに区分化されたデータ・ブロック(12)と、
各クラスタ毎に１つある１組の符号化テーブル(13)があ
る。これらの符号化テーブルは、バイナリ・コードへの
事象の変換を指定し、クラスタに関して、可能な最も短
い符号化を得るように最適化される。事象に関するバイ
ナリ・コードは、事象がどんなタイプのものであるか、
即ち、リテラル、又は列の一致であるかと、事象自身の
値、即ち、リテラル・バイト、又はオフセット、及び長
さの値の両方を符号化する。

【００４２】圧縮圧縮段階(14)で、データ・ブロックのLZ1パージングが繰
り返され(15)、その結果得られる事象が、訓練・最適化
段階で生成された符号化テーブルを使用して符号化され
る。これらのテーブルは、高速伸長に適した形態で、圧
縮されたデータと共に含められる。ハフマン・コード・テ
ーブルの場合、そのテーブルは、その符号化の形態か
ら、高速伸長用のルックアップ・テーブルから成る復号
化の形態に変換される。従って、結果的に圧縮されたフ
ァイルが作成される(17)。

【００４３】図４は、本発明によるコーダの概略ブロッ
ク図である。この図で、データ・ブロック(45)は順に検
索され(44)、例えば、インデックス番号iを有するブロ
ックが検索される(46)。各ブロックはクラスタに割り当
てられ(47)、各クラスタ毎に符号化テーブルが生成され
る(50)。例えば、ブロックi(46)はクラスタj(50)に属す
る。データ・ブロックのプレーン・バイト(45)が、LZタイ
プのエンコーダで符号化され(48)、プレーン・トークン
(事象)のパーズされたブロックが生成される(49)。ブロ
ック(49)は、テーブル(50)を使用してハフマン・エンコ
ーダ(51)によって符号化され、圧縮されたブロック(52)
が生成される。このブロックは圧縮されたファイル(53)
に追加される。

【００４４】図５は、本発明による、圧縮されたデータ
・ブロックのそれぞれに関して１つのインデックス・レコ
ードを含むインデックス・テーブル(41)を示す圧縮され
たファイル構造(40)の一例である。インデックス・レコ
ードは以下のものを含む。

【００４５】１．ブロックを含むクラスタに関連する伸
長テーブル(42)のアドレス。２．圧縮されたブロック(43)の開始アドレス。３．圧縮されたブロック(43)の長さ。このフィールド
は、圧縮されたブロックがインデックス順で記憶されて
いる場合は必要がない。４．ブロックに関する他のアプリケーション依存情報。

【００４６】伸長以下の議論に関しては図１を参照されたい。

【００４７】伸長処理(18)は、圧縮ステップを全く逆に
したものであり、以下で要約する。入力：ブロック・インデックスｋ(図１の符号19)。出力：バイトb[0] b[1] b[2]...b[N]から成るブロッ
ク。ステップ１：インデックス・テーブル内のｋ番目の項目
にアクセスして、伸長テーブルを指すポインタと圧縮さ
れたブロックを指すポインタを得る。圧縮されたブロッ
クは、c[1] c[2]...c[M]という形態を有する。ここで、
c[j]は符号化された事象である。ステップ２：Ｎ←０，ｊ←１にセットする。ステップ３：j > Mの場合、ステップ７に進む。ステップ４：伸長テーブルを使用して、c[j]を事象記述
e[j](図１の符号22)に復号化する。ステップ５：e[j]が「リテラルｂ」である場合、b[N]←
ｂ，Ｎ←N+1，ｊ←j+1にセットし、ステップ３に進む。
そうでない場合、ステップ６に進む。ステップ６：e[j]は対(一致、オフセット)である。ｋ←
N-オフセット、Ｌ←長さにセットする。列b[k] b[k+
1]...b[k+L-1]をb[N] b[N+1]...b[N+L-1]にコピーす
る。Ｎ←N+L，ｊ←j+1にセットし、ステップ３に進む。ステップ７：b[0] b[1] b[2]...b[N](図１の符号23)を
出力する。停止。

【００４８】図１で、訓練・最適化段階,及び圧縮段階
は、符号20によって定義された共通の境界内に含まれる
ものとして示されているが、伸長段階は、符号21で定義
された別の境界内に含まれるものとして示されている。
圧縮処理、及び伸長処理が非対称であることを理解され
たい。即ち、圧縮処理は、最大データ圧縮を保証する方
法で、かつそのような圧縮を行うために必要となる実際
の時間量に関わらず進行するが、データ伸長はできるだ
け迅速に進行しなければならない。従って、圧縮と伸長
は通常、異なる環境で行われる。このように、本明細書
で開示した技法は最大のデータ圧縮を提供し、同時に漢
字フォントにおけるような、大きなデータセットに含ま
れる短ブロックのデータへの高速で、リアルタイムのア
クセスを可能にする。

【００４９】図６は、本発明によるデコーダの概略ブロ
ック図である。この図で、要求が処理されてブロックi
(60)が復号化される。インデックス・テーブル(61)が、
このブロックがどのクラスタに属するかを判定するため
にアクセスされ、それによって、適当な復号化テーブル
(62)が選択される。次いで、圧縮されたブロック(63)、
及び復号化テーブル(62)がハフマン・デコーダ(64)によ
って復号化され、プレーン・トークン、又は事象から成
るパーズされたブロック(65)が生成される。パーズされ
たブロック(65)がLZタイプのデコーダ(66)によって復号
化され、復号化されたブロック(67)が出力される。

【００５０】本明細書では本発明を好適実施例に関して
説明してきたが、当業者には、本発明の意図、及び範囲
から逸脱することなく、本明細書に記載されたものを他
の適用例で代替できることが容易に理解されよう。例え
ば、本明細書で開示された技法は、ROM、ディスク、光
学ベースの記憶媒体等のあらゆるタイプの記憶媒体と共
に使用することができる。加えて、このような記憶媒体
は、伸長処理がなされる地点から離れて存在することも
可能である。従って、本発明の技法に従って圧縮された
材料は、ネットワークを介して、又は同報通信の結果と
して受信された後に伸長されうる。従って、本発明は特
許請求の範囲によってのみ制限される。

【００５１】以下に本発明の実施態様を列挙する。

【００５２】１．幾つかの短ブロックのデータから成
るデータセットを符号化するための装置であって、前記
装置が、前記データセットを受け取るための入力手段、
各データ・ブロックが特定のデータ・ブロックのクラスタ
に割り当てられるように前記データセットを区分化する
ための手段、前記データ・ブロックのバイナリ・コードへ
の変換を指定する各クラスタ毎に、１組の符号化テーブ
ルを生成するための手段、前記符号化テーブルに含まれ
る変換を前記データ・ブロックに適用することによっ
て、前記データ・ブロックを符号化するための手段、各
データ・ブロックを、対応する符号化テーブルに関連付
けるインデックス・テーブルを生成するための手段、前
記符号化テーブルから１組の復号化テーブルを生成する
ための手段、前記インデックス、前記復号化テーブル、
及び前記符号化されたデータ・ブロックを含む圧縮され
たファイルを作成するための手段、記憶媒体上に前記フ
ァイルを記憶するための手段を備えることを特徴とする
前記装置。

【００５３】２．データ・ブロック、及び対応する復
号化テーブルを前記インデックス内に位置付けるための
手段、前記復号化テーブルに含まれる変換を前記データ
・ブロックに適用することによって、前記データ・ブロッ
クをランダムかつ個別に復号化するための手段、前記復
号化されたデータ・ブロックを出力するための手段を更
に備えることを特徴とする請求項１に記載の装置。

【００５４】３．前記区分化手段が、各データ・ブロ
ック内の可能な最大の列の一致に基づいて、事象のシー
ケンスを生成するために、各データ・ブロックを個別に
パーズするための手段を更に備えることを特徴とする請
求項１、又は２に記載の装置。

【００５５】４．前記パージング手段が、Lempel-Ziv
方法論を適用することを特徴とする請求項１、２又は３
のいずれかに記載の装置。

【００５６】５．前記パージング手段が、より頻繁に
発生する事象をより短いコードに、あまり発生しない事
象をより長いコードに割り当てるように、前記事象を符
号化するためのハフマン・エンコーダを更に備えること
を特徴とする請求項１、２又は３のいずれかに記載の装
置。

【００５７】６．前記テーブル生成手段が、各データ
・ブロックを圧縮することによって得られた圧縮率イン
デックスによって、前記データ・ブロックをソートする
ための手段、同様の圧縮率インデックスを有するデータ
・ブロックをクラスタ化するための手段を更に備えるこ
とを特徴とする請求項１ないし５のいずれかに記載の装
置。

【００５８】７．前記データセットが更に、複数の絵
文字を備え、前記テーブル生成手段が更に、前記データ
セット内で、既知の形態的類似性を有する絵文字をクラ
スタ化するための手段を備えることを特徴とする請求項
１ないし６のいずれかに記載の装置。

【００５９】８．前記テーブル生成手段が、前記デー
タ・ブロックを部分集合に分割するための手段、このよ
うに得られた部分集合の数を最適化するための手段を更
に備えることを特徴とする請求項１ないし７のいずれか
に記載の装置。

【００６０】９．前記テーブル生成手段が、選択され
た共通特性に従って前記データ・ブロックをグループ化
し、多くのデータ・クラスタを作成するための手段、Ｓ_T
が符号化されたデータ・ブロックと共に記憶された符号
化テーブルのサイズを示し、Ｓ_Eが符号化されたデータ・
ブロックのサイズを示し、Ｓが圧縮されたデータセット
の合計サイズを示す場合において、合計Ｓ = Ｓ_T+ Ｓ_E
が、最小になるように前記データ・ブロックを前記デー
タ・クラスタに割り当てるための手段を更に備えること
を特徴とする請求項１ないし７のいずれかに記載の装
置。

【００６１】10．前記ファイル作成手段によって作成
されるファイルが、圧縮されたそれぞれのデータ・ブロ
ック毎に１つのインデックス・レコードを含むインデッ
クス・テーブルを有する圧縮されたファイル構造を備
え、前記インデックス・レコードが、データ・ブロックを
含むクラスタに関連する復号化テーブルのアドレス、圧
縮されたデータ・ブロックの開始アドレス、圧縮された
データ・ブロックの長さのうちのいずれかを含むことを
特徴とする請求項１ないし９のいずれかに記載の装置。

【００６２】

【発明の効果】本発明の技法が、非対称データ圧縮／伸
長を提供し、それによって最大データ密度と最小データ
・アクセス時間を達成する。本発明によって、様々な製
品に対してハードウェア要件を低減して機能を増大させ
る、良好な圧縮率が提供される。

【図面の簡単な説明】

【図１】本発明による、多くの組の小さなブロックのデ
ータを圧縮、及び伸長する技法を示す流れ図である。

【図２】Lempel-Zivデータ圧縮アルゴリズムを使用する
列マッチングの一例である。

【図３】本発明によるヒストグラムのクラスタ化の一例
である。

【図４】本発明によるコーダの概略ブロック図である。

【図５】本発明による、圧縮されたデータ・ブロックそ
れぞれに対して、１つのインデックス・レコードを含む
インデックス・テーブルを示す圧縮されたファイル構造
の一例である。

【図６】本発明によるデコーダの概略ブロック図であ
る。

【符号の説明】

48 LZエンコーダ 50 符号化テーブル 51 ハフマン・エンコーダ 61 インデックス・テーブル 62 復号化テーブル 64 ハフマン・デコーダ 66 LZデコーダ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭60−116228（ＪＰ，Ａ) 特開平３−78322（ＪＰ，Ａ) 特開平３−204232（ＪＰ，Ａ) 特開平４−232996（ＪＰ，Ａ) 特開平６−218986（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 7/30 H03M 7/42

Claims

(57)【特許請求の範囲】

【請求項１】幾つかの短ブロックのデータから成るデー
タセットを符号化するための方法であって、前記データセットを入力するステップと、各データブロックが、データ・ブロックの特定のクラス
タに割り当てられるように前記データセットを区分化す
るステップと、各クラスタ毎に、前記データ・ブロックのバイナリ・コー
ドへの変換を指定する１組の符号化テーブルを生成する
ステップと、前記符号化テーブルに含まれる変換を前記データ・ブロ
ックに適用することによって、前記データ・ブロックを
符号化するステップと、各データ・ブロックを、対応する符号化テーブルに関連
付けるインデックス・テーブルを生成するステップと、前記符号化テーブルを復号化テーブルに変換するステッ
プと、前記インデックス・テーブル、前記復号化テーブル、及
び前記符号化されたデータ・ブロックを含む圧縮された
ファイルを作成するステップと、記憶媒体に前記ファイルを記憶するステップを含んでお
り、符号化テーブルを生成する前記ステップが、さらに、選択された共通の特性に従って前記データ・ブロックを
グループ化して、複数のデータ・クラスタを生成するス
テップと、合計Ｓ = Ｓ_T + Ｓ_Eが、最小になるように前記データ・
ブロックを前記データ・クラスタに割り当てるステップ
であって、Ｓ_Tが符号化されたデータ・ブロックと共に記
憶された符号化テーブルのサイズを示し、Ｓ_Eが符号化
されたデータ・ブロックのサイズを示し、Ｓが圧縮され
たデータセットの合計サイズを示すことからなる、ステ
ップを含むことからなる、方法。
【請求項２】データ・ブロックと、対応する復号化テー
ブルを前記インデックス内に配置するステップと、前記復号化テーブルに含まれる変換を前記データ・ブロ
ックに適用することによって、前記データ・ブロックを
ランダムかつ個別に復号化するステップと、前記復号化されたデータ・ブロックを出力するステップ
を更に含む、請求項１の方法。
【請求項３】前記区分化するステップが、各データ・ブロック内の可能な最大の列の一致に基づい
て、事象のシーケンスを生成するために、各データ・ブ
ロックを個別にパーズするステップを更に含む、請求項
１又は２の方法。
【請求項４】前記パーズするステップが、Lempel-Ziv方
法論を適用することからなる、請求項３の方法。
【請求項５】前記パーズするステップが、より頻繁に発生する事象をより短いコードに、あまり頻
繁には発生しない事象をより長いコードに割り当てるよ
うに、前記事象を符号化するハフマン符号化を更に含
む、請求項３又は４の方法。
【請求項６】符号化テーブルを生成する前記ステップ
が、各データ・ブロックを圧縮することによって得られる圧
縮率インデックスによって、前記データ・ブロックをソ
ートするステップと、同様の圧縮率インデックスを有するデータ・ブロックを
クラスタ化するステップを更に含む、請求項１乃至５の
いずれかの方法。
【請求項７】前記データセットが更に、複数の絵文字を含み、符号化テーブルを生成する前記ステップが更に、前記データセット内で、既知の形態的類似性を有する絵
文字をクラスタ化するステップを含む、請求項１乃至６
のいずれかの方法。
【請求項８】符号化テーブルを生成する前記ステップ
が、前記データ・ブロックを部分集合に分割するステップ
と、このように得られた部分集合の数を最適化するステップ
を更に含む、請求項１乃至７のいずれかの方法。
【請求項９】ファイルを作成する前記ステップによって
作成されるファイルが、圧縮されたそれぞれのデータ・ブロック毎に１つのイン
デックス・レコードを含むインデックス・テーブルを有す
る圧縮されたファイル構造を有しており、前記インデックス・レコードが、データ・ブロックを含むクラスタに関連する復号化テー
ブルのアドレスと、圧縮されたデータ・ブロックの開始アドレスと、圧縮されたデータ・ブロックの長さのうちの任意のもの
を含むことからなる、請求項１乃至８のいずれかの方
法。
【請求項１０】いくつかの短データ・ブロックからなる
データセットを復号化するステップをさらに含む、請求
項１乃至９のいずれかの方法であって、前記データセットを復号化するステップが、符号化されたデータ・ブロックと、対応する復号化テー
ブルとをインデックス内に配置するステップと、復号化テーブルに含まれる変換を前記データ・ブロック
に適用することによって、前記データ・ブロックをラン
ダムかつ個別に復号化するステップと、前記復号化されたデータ・ブロックを出力するステップ
を含むことからなる、方法。
【請求項１１】幾つかの短ブロックのデータから成るデ
ータセットを符号化するための装置であって、前記データセットを受け取るための入力手段と、各データブロックが、データ・ブロックの特定のクラス
タに割り当てられるように前記データセットを区分化す
るための手段と、各クラスタ毎に、前記データ・ブロックのバイナリ・コー
ドへの変換を指定する１組の符号化テーブルを生成する
ための手段と、前記符号化テーブルに含まれる変換を前記データ・ブロ
ックに適用することによって、前記データ・ブロックを
符号化するための手段と、各データ・ブロックを、対応する符号化テーブルに関連
付けるインデックス・テーブルを生成するための手段
と、前記符号化テーブルから１組の復号化テーブルを生成す
るための手段と、前記インデックス・テーブル、前記復号化テーブル、及
び前記符号化されたデータ・ブロックを含む圧縮された
ファイルを作成するための手段と、記憶媒体に前記ファイルを記憶するための手段を備えて
おり、インデックス・テーブルを生成するための前記手段が、
さらに、選択された共通の特性に従って前記データ・ブロックを
グループ化して、複数のデータ・クラスタを生成するた
めの手段と、合計Ｓ = Ｓ_T + Ｓ_Eが、最小になるように前記データ・
ブロックを前記データ・クラスタに割り当てるための手
段であって、Ｓ_Tが符号化されたデータ・ブロックと共に
記憶された符号化テーブルのサイズを示し、Ｓ_Eが符号
化されたデータ・ブロックのサイズを示し、Ｓが圧縮さ
れたデータセットの合計サイズを示すことからなる、手
段を備えることからなる、装置。
【請求項１２】データ・ブロックと、対応する復号化テ
ーブルとを前記インデックス内に配置するための手段
と、前記復号化テーブルに含まれる変換を前記データ・ブロ
ックに適用することによって、前記データ・ブロックを
ランダムかつ個別に復号化するための手段と、前記復号化されたデータ・ブロックを出力するための手
段を更に備える、請求項１１の装置。
【請求項１３】前記区分化するための手段が、各データ・ブロック内の可能な最大の列の一致に基づい
て、事象のシーケンスを生成するために、各データ・ブ
ロックを個別にパーズするための手段を更に備える、請
求項１１又は１２の装置。
【請求項１４】前記パーズするための手段が、Lempel-Z
iv方法論を適用することからなる、請求項１３の装置。
【請求項１５】前記パーズするための手段が、より頻繁に発生する事象をより短いコードに、あまり頻
繁には発生しない事象をより長いコードに割り当てるよ
うに、前記事象を符号化するためのハフマン・コーダを
更に備える、請求項１３又は１４の装置。
【請求項１６】インデックス・テーブルを生成するため
の前記手段が、各データ・ブロックを圧縮することによって得られた圧
縮率インデックスによって、前記データ・ブロックをソ
ートするための手段と、同様の圧縮率インデックスを有するデータ・ブロックを
クラスタ化するための手段を更に備える、請求項１１乃
至１５のいずれかの装置。
【請求項１７】前記データセットが更に、複数の絵文字を含み、インデックス・テーブルを生成するための前記手段が更
に、前記データセット内で、既知の形態的類似性を有する絵
文字をクラスタ化するための手段を備える、請求項１１
乃至１６のいずれかの装置。
【請求項１８】インデックス・テーブルを生成するため
の前記手段が、前記データ・ブロックを部分集合に分割するための手段
と、このように得られた部分集合の数を最適化するための手
段を更に備える、請求項１１乃至１７のいずれかの装
置。
【請求項１９】ファイルを作成するための前記手段によ
って作成されるファイルが、圧縮されたそれぞれのデータ・ブロック毎に１つのイン
デックス・レコードを含むインデックス・テーブルを有す
る圧縮されたファイル構造を有しており、前記インデックス・レコードが、データ・ブロックを含むクラスタに関連する復号化テー
ブルのアドレスと、圧縮されたデータ・ブロックの開始アドレスと、圧縮されたデータ・ブロックの長さのうちの任意のもの
を含むことからなる、請求項１１乃至１８のいずれかの
装置。
【請求項２０】いくつかの短データ・ブロックからなる
データセットを復号化するための手段をさらに備える、
請求項１１乃至１９のいずれかの装置あって、データセットを復号化するための前記手段が、符号化されたデータ・ブロックと、対応する復号化テー
ブルとをインデックス内に配置するための手段と、復号化テーブルに含まれる変換を前記データ・ブロック
に適用することによって、前記データ・ブロックをラン
ダムかつ個別に復号化するための手段と、前記復号化されたデータ・ブロックを出力するための手
段を備えることからなる、装置。