JP2952067B2

JP2952067B2 - データ圧縮方式

Info

Publication number: JP2952067B2
Application number: JP3056704A
Authority: JP
Inventors: 広隆千葉; 佳之岡田; 茂吉田; 泰彦中野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-03-20
Filing date: 1991-03-20
Publication date: 1999-09-20
Anticipated expiration: 2014-09-20
Also published as: JPH0683573A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユバーサル符号化の一
種である増分分解型の改良としてのＬＺＷ符号化による
デ−タ圧縮方式に関する。近年、文字コ−ド、ベクトル
情報、画像など様々な種類のデ−タがコンピュ−タで扱
われるようになっており、扱われるデ−タ量も急速に増
加してきている。大量のデ−タを扱うときは、デ−タの
中の冗長な部分を省いてデ−タ量を圧縮することで、記
憶容量を減らしたり、速く伝送したりできるようにな
る。

【０００２】このような様々なデ−タを１つの方式でデ
−タ圧縮できる方法としてユニバ−サル符号化が提案さ
れている。ここで、本発明の分野は、文字コ−ドの圧縮
に限らず、様々なデ−タに適用できるが、以下では、情
報理論で用いられている呼称を踏襲し、デ−タの１ワー
ド単位を文字と呼び、デ−タが複数ワードツながったも
のを文字列と呼ぶことにする。

【０００３】ユニバ−サル符号の代表的な方法として、
ジブーレンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像「Ziv-Lempelのデ−タ圧縮法」、情報処
理、Vol.26,No.1,1985年を参照のこと）。ジフーレンペ
ル符号では、ユニバ−サル型増分分解型（Incremental parsing ）の２つのアルゴリズムが提案されている。

【０００４】更に、ユニバ−サル型アルゴリズムの改良
として、ＬＺＳＳ符号がある（T.C.Bell, “Better OPM
/L Text Compression ”,IEEE Trans. on Commun.,Vol.
COM-34,No.12,DEC.1986 参照）。また、増分分解型アル
ゴリズムの改良としては、ＬＺＷ（Lempel-Ziv-Welch）
符号がある（T.A.Welch,“A Technique for High-Perfo
rmance Data Compression ”,Computer,June 1984 参
照）。

【０００５】これらの符号の内、高速処理ができること
と、アルゴリズムの簡単さからＬＺＷ符号が記憶装置の
ファイル圧縮などで使われるようになっている。

【０００６】

【従来の技術】従来のＬＺＷ符号による符号化処理フロ
ーを図９に示し、復号化処理フローを図１０に示す。ま
ずＬＺＷ符号化処理は、書き替え可能な辞書を持ち、入
力文字列の中を相異なる文字列（部分列）に分け、この
文字列を出現した順に参照番号を付けて辞書に登録する
と共に、現在入力している文字列を、辞書に登録してあ
る最長一致文字列の参照番号で表して符号化するもので
ある。

【０００７】図１１にＬＺＷ符号化の説明図を示すと共
に図１３にＬＺＷ復号化の説明図を示し、更に図１２に
符号化及び復号化時に作成される辞書構成例を示す。
尚、図１１，１２，１３にあっては説明を簡単にするた
め、ａｂｃの３文字の組合せからなるデ―タを圧縮、復
元する場合の例を取り上げている。図９のＬＺＷ符号化
処理では、まずステップＳ１で予め辞書に全文字につき
一文字からなる文字列を初期値として登録してから符号
化を始める。

【０００８】ステップＳ１の符号化は入力した最初の文
字Ｋにより辞書を検索して参照番号ωを求め、これを語
頭文字列とする。次にステップＳ２で入力データの次の
文字Ｋを読込み、ステップＳ３で文字入力が終了したか
否かチェックした後、ステップＳ４に進んでステップＳ
１で求めた語頭文字列ωにステップＳ２で読込んだ文字
Ｋを加えた拡張文字列（ωＫ）が辞書にあるか否か探
す。

【０００９】ステップＳ４で文字列（ωＫ）が辞書にな
ければ、ステップＳ６に進んでステップＳ１で求めた文
字Ｋの参照番号ωを符号語code（ω）として出力し、ま
た文字列（ωＫ）に新たな参照番号を付加して辞書に登
録し、更にステップＳ２の入力文字Ｋを参照番号ωに置
き換えると共に辞書アドレスｎをインクリメントしてス
テップＳ２に戻って次の文字Ｋを読み込む。

【００１０】一方、ステップＳ４で文字列（ωＫ）が辞
書にあればステップＳ５で文字列（ωＫ）を参照番号ω
に置き換え、再びステップＳ２に戻ってステップＳ４で
文字列（ωＫ）が辞書から探せなくなるまで最大一致長
の検索を続ける。

【００１１】図１１，１２を参照してＬＺＷ符号化を具
体的に説明すると次のようになる。まず図１１の入力デ
ータinput は左から右へと読む。最初の文字ａを入力し
た時、辞書には文字ａの他に一致する文字列がないの
で、OUTPUT CODE １（参照番号ω）を符号語して出力す
る。そして文字ａを語頭文字列ωとする。

【００１２】次に２番目の文字ｂを入力したとすると、
この入力文字を語頭文字列ωに加えた拡張文字列ωＫ＝
ａｂは辞書にないことから、文字ｂのOUTPUT CODE ２を
符号語として出力する。そして、拡張文字列ωＫ＝ａｂ
に参照番号４を付けて辞書に登録する。実際の辞書登録
は図１２の右側に示すように文字列１ｂとして登録され
る。そして文字ｂが語頭文字列ωとなる。

【００１３】続いて３番目の文字ａを入力したとする
と、文字ｂに語頭文字列ωを加えた拡張文字列ωＫ＝ｂ
ａ＝２ａは辞書にないことから、文字ａのOUTPUT CODE
1 を符号語として出力した後、拡張文字列ωＫ＝ｂａを
２ａで表わし、参照番号５を付けて辞書に登録する。そ
して文字ａが新たな語頭文字列ωとなる。４番目の入力
文字ｂについては拡張文字列ωＫ＝ａｂは１ｂの符号語
４として既に辞書に登録されているので、文字列ωＫを
新たな語頭文字列ωとし、５番目の文字ｃを入力して拡
張文字列ωＫ＝４ｃ＝ａｂｃを作る。この拡張文字列ω
Ｋ＝ａｂｃは辞書に登録されていないことから、文字列
ａｂ＝１ｂのOUTPUT CODE4 を符号語として出力し、拡
張文字列ωＫ＝ａｂｃを辞書に４ｃの形で符号語６とし
て登録する。以下同様に、この処理を続ける。

【００１４】図１０の復号化処理は図９の符号化の逆の
操作を行う。図１０のＬＺＷ復号化では、符号化時と同
様に予め辞書に全文字につき一文字からなる文字列を初
期値として登録してから復号化を始める。まずステップ
Ｓ１で最初の符号（参照番号）を読込み、現在のCODEを
OLDcodeとし、最初の符号は既に辞書に登録された一文
字の参照番号いずれかに該当することから、入力符号CO
DEに一致する文字code(K) を探し出し、文字Ｋを出力す
る。

【００１５】尚、出力した文字Ｋは後の例外処理のため
FINchar にセットしておく。次にステップＳ２に進んで
次の符号を読込んでCODEにINcodeとしてセットする。ス
テップＳ３で新たな符号があるか否か、即ち符号入力の
終了の有無をチェックしてステップＳ４に進み、ステッ
プＳ３で入力された符号CODEが辞書に定義（登録）され
ているか否かチェックする。通常、入力した符号語は前
回までの処理で辞書に登録されているため、ステップＳ
５に進んで符号CODEに対応する文字列code（ωＫ）を辞
書から読出し、ステップＳ６で文字Ｋを一時的にスタッ
クし、参照番号CODE（ω）を新な符号CODEとして再度ス
テップＳ５に戻り、このステップＳ５，ステップＳ６の
手順を再帰的に参照番号ωが一文字Ｋに至るまで繰り返
し、最後にステップＳ７に進んでステップＳ６でスタッ
クした文字をＬＩＦＯ（Last In Fast Out) 形式でポッ
プアップして出力する。同時にステップＳ７において、
前回使った符号ωと今回復元した文字列の最初の１文字
Ｋを組（ωＫ）と表した文字列に、新たな参照番号を付
加して辞書に登録する。

【００１６】図１３を参照してＬＺＷ復号化処理を具体
的に説明すると次のようになる。まず図１３で最初の入
力符号語(INPUT CODE)は１であり、一文字ａ，ｂ，ｃに
ついては既に参照番号１，２，３として図１２に示すよ
うに辞書に登録されているため、辞書の参照により符号
語１に一致する参照番号の文字列ａに置き換えて出力す
る。

【００１７】次の符号語２についても同様にして文字ｂ
に置き換えて出力する。このとき前回処理した符号語１
と今回復号した文字列の１番目の文字ｂとを組合わせた
文字列ωＫ＝１ｂに新たな参照番号４を付加して辞書に
登録する。３番目の符号語４は辞書の検索により求めた
文字列１ｂから文字列ａｂと置き換えて文字列ａｂを出
力する。同時に前回処理した符号語２と今回復号した文
字列の１番目の文字ａとの組合せた文字列ωＫ＝２ａ
（＝ｂａ）に新たな参照番号５を付加して辞書に登録す
る。

【００１８】以下同様に、この処理を繰り返す。

【００１９】図１３のＬＺＷ復号化では次の例外処理が
ある。この例外処理は、第６番目の入力符号語８の復号
で生ずる。符号語８は復号時に辞書に定義されておら
ず、復号できない。この場合には、前回処理した符号語
５に前回復号した文字列ｂａの最初の一文字ｂを加えた
文字列５ｂを求め、更に５ｂ＝２ａｂ＝ｂａｂと置き換えて出力する例外処理を行う。そして、文字列
の出力後に前回の符号語５に今回復号した文字列の１番
目の文字ｂを加えた文字列５ｂに参照番号８を付加して
辞書に登録する。

【００２０】この例外処理は、図１０の復号化処理フロ
ーのステップＳ４，ステップＳ８の処理を通じて行わ
れ、最終的にステップＳ７で文字列の出力と新たな文字
列に参照番号を付加した辞書への登録がステップＳ７で
行われる。尚、図１０，１３のＬＺＷ復号化は、復号側
で符号を解読しながら辞書をリアルタイムで作り出す場
合を説明したが、符号化の際に作られた辞書をそのまま
復号化側にコピーとして使用することで符号化しても良
い。この場合に復号化側での例外処理は不要になる。

【００２１】しかし、図９のフローチャートに示す手順
でＬＺＷ符号化を行うと、１つの文字列を辞書検索する
たびに、最悪、辞書全体をサ−チしなければならなら
ず、辞書検索に時間がかかる問題があった。そこで従来
の辞書検索方式にあっては、外部ハッシュ法（open has
hing 又はchaining）を用いて処理速度を上げている。

【００２２】まず一般的なハッシュ法による辞書検索に
あっては、複数の文字列からなる集合Ｓを考えたとき、
集合Ｓの文字列ｘの格納位置を、文字列ｘそのものから
格納位置を示すアドレスを直接計算できる仕組みになっ
ており、高速の辞書検索ができる。文字列の記憶場所、
即ちハッシュ表に０からm-1 までのアドレスが付されて
いるとすると、ハッシュ法では、関数ｈ：Ｓ→〔０，１，・・・，m-1 〕を一つ定めて、集合Ｓの文字列ｘのアドレスをｈ（ｘ）
として求める。この関数ｈをハッシュ関数、値ｈ（ｘ）
を文字列ｘのハッシュアドレスという。

【００２３】ハッシュ法は、通常、集合Ｓの大きさがア
ドレス数ｍに比べてはるかに大きい場合に用いられる。
しかしながら、ハッシュ関数ｈをどのように選んだとし
ても、集合Ｓの相異なる文字列ｘ１，ｘ２に対してｈ（ｘ１）＝ｈ（ｘ２）ハッシュアドレスが一致してしまう場合が起こり得る。
これを衝突と呼び、衝突に対する対策の一つとして外部
ハッシュ法（open hashing, またはchaining）が用いら
れる。

【００２４】外部ハッシュ法は図１４に示すように、索
引（ディレクトリ）で示されるハッシュアドレスｉ毎に
連結リストを用意し、衝突を起こしたハッシュアドレス
ｈ（ｘ）＝ｉの文字列ｘは、連結リストの先頭から順番
に格納する。同じハッシュアドレスｈ（ｘ）をもつそれ
ぞれの連結リストはバケット（bucket) と呼ばれる。

【００２５】辞書検索に外部ハッシュ法のリスト構造を
利用したＬＺＷ符号化の処理フローを図１５に示す。ま
た図１６に従来の辞書の構成例を示し、この辞書構成に
対応して辞書メモリ上の配置を図１７に示す。まず図１
７において、辞書メモリは、ファーストメモリ（ｆｉｒ
ｓｔ）１００、ネクストメモリ（ｎｅｘｔ）２００及び
拡張メモリ（ｅｘｔｅｎｔｉｏｎ；ｅｘｔと省略）３０
０で構成される。ここでファーストメモリ１００が図１
４に示した外部ハッシュ法の索引（ディレクトリ）に対
応し、ネクストメモリ２００が図１４の連結リストの
「next」に対応し、更に拡張メモリ３００が図１４の
「name」に対応する。

【００２６】また図１６の辞書構成にあっては、右下に
取出して示すように、１つのノードに次の情報を示して
いる。（１）ノード内；拡張メモリの登録シンボル（２）ノード左上；アドレス（３）ノード左下；次のファーストメモリのアドレス（４）ノード右下；ネクストメモリのアドレス尚、数値Ｏはメモリ内容が空であることを示す。

【００２７】図１５のＬＺＷ符号化処理を、説明を簡単
にするため文字Ａ、Ｂ、Ｃの３文字を対象とした場合を
例にとって説明すると次のようになる。まずステップＳ
１で次の初期化処理を行う。（１）第１番目の文字を含むように辞書を初期化する。
ここでアルファベットＡ、Ｂ、Ｃの３文字を対象として
いることから、Ａ、Ｂ、Ｃの文字コードをそのままハッ
シュアドレスとして図１６の辞書メモリのアドレス１，
２，３に登録する。

【００２８】（２）辞書への現在文字登録数ｎを前記
（２）で登録した文字数にセットする。アルファベット
３文字の場合には、ｎ＝３となる。（３）入力した最初の文字Ｋを語頭文字列ｉとする。こ
の場合、最初の入力文字は「Ａ」であることから語頭文
字列ｉ＝１とする。（４）辞書検索用配列を０に初期化する。即ち、ファー
スト、ネクスト及び拡張のメモリの検索用配列はfirst
[1,Nmax],next［1,Nmax］、EXT ［1,Nmax］で表わされ
るので、これを０に初期化する。

【００２９】以上のステップＳ１の初期化処理が済んだ
ならば、ステップＳ２移行の処理に進み、その結果、現
在図１６及び図１７に示す辞書が作成された段階にある
ものとする。この状態でいま文字列「ＡＡＡＡ」を入力
して符号化する場合の処理を説明する。

【００３０】ステップＳ１の初期化は済んでいるので、
最初の入力文字「Ａ」を語頭文字列ω＝１とし、ステッ
プＳ１で最初の入力文字「Ａ」を語頭文字列ω＝１と
し、ステップＳ２で２番目の入力文字「Ａ」を読む。続
いてステップＳ３で未処理文字があることが判別されて
ステップＳ５〜ステップＳ９に示す辞書検索ステップに
進む。

【００３１】辞書検索ステップでは、まずステップＳ５
で語頭文字列ω＝１をカウンタｉにｉ＝１としてセット
し、且つｊカウンタをｊ＝０にセットする。ここでカウ
ンタｉはファーストメモリの格納値で指定される辞書メ
モリのアドレス値であり、またカンウタｊはネクストメ
モリの格納値で指定される辞書メモリのアドレス値であ
る。

【００３２】次にステップＳ６でｉカウンタで指定され
た図１７の辞書メモリのアドレス１の内容を読み、拡張
メモリ３００からシンボル（ｓｍｂｏｌ）として「Ａ」
を読出し、またファーストメモリ１００から次のファー
ストアドレス「４」を読出してｉカウンタをｉ＝４にセ
ットする。続いてステップＳ７に進み、辞書登録ステッ
プに移行するか否か判断するためにｉ＝０か否かチェッ
クし、このときｉ＝４であることからステップＳ８に進
み、ステップＳ６のアドレス１の拡張メモリ３００を参
照して得たシンボル「Ａ」と、１番目の入力文字「Ａ」
との一致を判別する。この場合、両者は一致しているこ
とからステップＳ２に戻り、３番目の入力文字「Ａ」を
読込む。

【００３３】続いてステップＳ３を介してステップＳ５
に進み、辞書メモリのアドレスωにそのときのカウンタ
ｉの値ｉ＝４をセットし、辞書メモリのアドレス４を参
照する。次にステップＳ６で辞書メモリのアドレス４の
内容を読み、拡張メモリ３００に格納したシンボル（ｓ
ｍｂｏｌ）として「Ｂ」を読出し、またファーストメモ
リ１００から次のファーストアドレス「６」を読出して
ｉカウンタをｉ＝６にセットする。

【００３４】続いてステップＳ７に進み、ｉ＝０か否か
チェックし、このときｉ＝６であることからステップＳ
８に進み、ステップＳ６のアドレス４の拡張メモリ３０
０から得たシンボル「Ｂ」と、ステップＳ２で得ている
入力文字「Ａ」との一致を判別する。この場合、両者は
不一致あることからステップＳ９に進む。ステップＳ９
では、まずｉカウンタに辞書メモリのアドレス４の参照
でネクストメモリ２００から得たｊ＝１０の値をセット
してｉ＝１０とする。このｉカウンタとｊカウンタの置
き換えは、ステップＳ７の判断をｉカウンタについての
み行っていることから、これをｊカウンタについてもで
きるようにするためである。

【００３５】続いて置き換えが済んだｉカウンタで指定
される辞書メモリのアドレス１０を参照し、アドレス１
０の拡張メモリ３００に格納したシンボル「Ａ」を読出
し、更に、アドレス１０のファーストメモリ１００に格
納している次のファーストメモリのアドレス値１１をｉ
カウンタにセットする。次にステップＳ７に戻り、この
ときｉ＝１１であることからステップＳ９で得られたア
ドレス１０のシンボル「Ａ」と入力文字「Ａ」とを比較
し、一致していることからステップＳ２に進み、３番目
の文字の処理に進む。

【００３６】３番目及び４番目の入力文字「Ａ」につい
ては１番目の入力文字と同様の処理が行われ、辞書メモ
リのアドレス１０から１１、更にアドレス１１から１２
に進み、アドレス１２の処理が済むとステップＳ３で処
理対象となる文字がなくなることからステップＳ１６に
進んで最終アドレスω＝１２を符号語ｃｏｄｅ（ω）と
して出力して一連の処理を終える。

【００３７】次にステップＳ１１〜ステップＳ１５の辞
書登録ステップの処理を説明する。辞書登録は辞書検索
ステップのファーストメモリ１００又はネクストメモリ
２００の検索でｉ＝０となった時に行われる。即ち、ス
テップＳ７でｉ＝０が判別されると、もはや辞書検索は
できないのでステップＳ１０でそのときの辞書アドレス
ωを符号語ｃｏｄｅ（ω）として出力して辞書登録ステ
ップに入る。

【００３８】辞書登録ステップでは、まずステップＳ１
１でその時点での辞書メモリの現在登録文字数ｎをｉカ
ウンタにセットし、更にｎを１つインクリメントする。
続いてステップＳ１２でｊ＝０か否かチェックし、ｊ＝
０でなければｉ＝０であるのでステップＳ１３に進んで
ファーストメモリ１００の登録処理を行う。ｊ＝０であ
ればステップＳ１４に進んでネクストメモリの登録処理
を行う。

【００３９】ステップＳ１３のファーストメモリ１００
の登録処理は、（１）ｉカウンタで指定されるメモリアドレスｎのファ
ーストメモリ１００に中に、次の登録先を示す（ｎ＋
１）の値を格納し、（２）次のメモリアドレス（ｎ＋１）の拡張メモリ１０
０に入力文字Ｋをシンボルとして登録する。具体的に図
１６、図１７でアドレス１１に続いて入力文字「Ａ」を
登録する場合を例にとると、ｉカウンタで指定されるメ
モリアドレス１１のファーストメモリ１００に中に、次
の登録先を示すアドレス値１２を格納し、次のメモリア
ドレス１２の拡張メモリ１００に入力文字「Ａ」をシン
ボルとして登録する。

【００４０】一方、ステップＳ１４のネクストメモリ２
００の登録処理は、（１）ｉカウンタで指定されるメモリアドレスのネクス
トメモリ２００に中に、次の登録先を示す（ｎ＋１）の
値を格納し、（２）次のメモリアドレス（ｎ＋１）の拡張メモリ１０
０に入力文字Ｋをシンボルとして登録する。

【００４１】具体的に図１６、図１７でアドレス１１に
続いて入力文字「Ａ」を登録する場合を例にとると、ｉ
カウンタで指定されるメモリアドレス１１のネクストメ
モリ２００の中に、次の登録先を示すアドレス値１０を
格納し、次のメモリアドレス１０の拡張メモリ１００に
入力文字「Ａ」をシンボルとして登録する。以上の登録
処理が済むと、登録が済んだ文字Ｋをｉカウンタにセッ
トしてステップＳ２からの辞書検索ステップに戻る。

【００４２】

【発明が解決しようとする課題】このような従来のＬＺ
Ｗ符号は、ソフトウェアで符号化すると辞書検索処理に
多くの時間を要することから、辞書検索に外部ハッシュ
法を用いて高速化している。しかし、外部ハッシュ法に
よる書検索では、入力文字と候補文字との照合をシーケ
ルシャルに行うため、辞書検索時間が全体時間の約８０
％を占め、高速化が難しいという欠点があった。

【００４３】一方、本願発明者等にあっては、辞書検索
をするとき既に符号化済みの入力文字の情報を用いて連
結リストを複数個に分割して探索することで高速化を可
能とした符号化方式を提案している。しかし、実際の符
号化にあっては、使用出来るメモリ容量は予め決まって
おり、入力データの大きさによっては辞書メモリを全て
使用しないで符号化が終わる場合がある。また、用途に
よっては圧縮率よりも処理時間を優先させて符号化を行
いたい場合もある。

【００４４】しかしながら、従来の符号化方式では高速
化の要求と高圧縮の要求をうまく融合させて符号化する
ことが難しいという問題があった。本発明は、このよう
な従来の問題点に鑑みてなされたもので、高速化と高圧
縮の要求に適切に対応した符号化ができるデータ圧縮方
式を提供することを目的とする。

【００４５】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、符号化済み文字列を相異なる
部分列に分けて各部分列毎に異なる参照番号を付加して
辞書１に登録しておき、入力文字列を辞書１の中の部分
列の内、最大長一致するものの参照番号で指定した符号
化によりデータ圧縮する符号化手段２と、部分列の検索
に外部ハッシュ法を使用し、辞書１に登録した部分列の
参照番号ｉに入力文字Ｋの要素から抽出した情報Ｋｍを
加えたハッシュ・アドレスを生成することにより、付加
情報Ｋｍのビット数に応じた分割数の連結リストを生成
して辞書１を検索する辞書検索手段３とを備えたデータ
圧縮方式を対象とする。

【００４６】このようなデータ圧縮方式につき本発明に
あっては、部分列の参照番号ｉに加える入力文字Ｋの要
素から抽出される情報Ｋｍのビット数を、適宜に変えて
連結リストの分割数を指定する分割数指定手段４を設け
たことを特徴とする。ここで分割数指定手段４は、部分
列の参照番号ｉに加える入力文字Ｋの要素から抽出され
る情報Ｋｍのビット数を、高速処理に適合したビット数
（図３（ｂ）参照）或いは高圧縮処理に適合したビット
数（図３（ａ）参照）に指定する。

【００４７】具体的には、検索分割数判定手段５により
入力文字列データの先頭に付加された情報から判定され
た分割数に基づいてビット数を指定する。更に分割数指
定手段４は、入力文字Ｋの要素から抽出される情報Ｋｍ
のビット数を、予め指定した分割滓に対応するビット数
を指定するようにしていもよい。

【００４８】

【作用】このような構成を備えた本発明のデータ圧縮方
式によれば、次の作用が得られる。データ圧縮の処理条
件としては、時間はかかっても高圧縮率が求められる場
合と、圧縮率よりも処理時間を優先させて高速に処理し
たい場合もある。

【００４９】このような高圧縮率と高速化は相反する処
理条件であるが、本発明にあっては外部ハッシャ法に使
用するハッシュ・アドレスとして、部分列の参照番号、
即ちアドレスｉに入力文字Ｋの要素の情報Ｋｍ、即ち入
力文字コードのあるビット数Ｋｍを加えたハッシュ・ア
ドレスとすることで、付加情報のビット数Ｋｍに応じて
分割し、この連結リストの分割数を決める付加情報とし
て使用する文字コードの有効ビット数Ｋｍを任意に指定
することで、高圧縮率或いは高速処理の各々に適合した
ダイナミックなデータ圧縮処理を適切に行うことができ
る。

【００５０】

【実施例】図２は本発明の辞書検索機能を備えたデータ
圧縮方式の一実施例を示した実施例構成図である。図２
において、処理対象となる原デ−タ（文字データ或いは
符号語データ）１０はＤＭＡ（Direct Memory Access）
制御回路１２を介して入力される。制御手段としてのＭ
ＰＵ１４は入力された原デ−タ１０を、１文字Ｋと、今
までの文字列の参照番号ｉに１文字Ｋの文字コードの要
素ビットＫｍを付加したハッシュ・アドレスを辞書検索
回路１６の複数文字読込み回路１８にセットした後、辞
書検索回路１６を起動する。この１文字Ｋの文字コード
の要素ビットは、外部ハッシュ法における連結リストの
検索分割数を決めるもので、文字コードを８ビットとす
ると、要素ビットＫｍの有効ビット数を例えば上位から
選ぶことで、次の９種類の連結リストの検索分割数が得
られる。このような連結リストの分割数において、処理対象とな
る２５６種の全文字種に一致する分割数２５６のときが
完全ハッシュとなり、辞書の検索は１回で済む。

【００５１】本発明にあっては、この９通りの中の分割
数の中から指定された処理条件に適合する分割数を指定
して符号化を行う。具体的な分割数の指定は、既に符号
化した直前の文字列の参照番号（辞書アドレス）ｉに加
える次の１文字Ｋの要素ビットＫｍのビット数をいくつ
にするかで指定できる。このための図１の原理説明図に
示した分割数指定手段４としての機能はＭＰＵ１４のプ
ログラム制御により実現される。図３は入力データのサ
イズ（大きさ）に対する連結リストの検索分割数を示し
たもので、図３（ａ）に高圧縮の処理条件に適合した特
性を示し、図３（ｂ）に高速の処理条件に適合した特性
を示す。

【００５２】即ち、時間はかかっても高圧縮率を得たい
場合には、図３（ａ）の入力データサイズに反比例する
分割数の指定を行う。この場合には、入力データサイズ
が大きい程、連結リストの分割数が少なくなり、辞書中
の一致する部分列の最大長を長くできるので、高圧縮率
が得られる。しかし、一致する部分列が長くなること
で、辞書の検索回数が増え、処理時間は長くなる。また
メモリ容量が一定の場合には、使用されないメモリを有
効に利用することができる。

【００５３】一方、圧縮率は得られなくとも処理時間を
短縮したい場合には、図３（ｂ）に示す入力データサイ
ズに比例した分割数を指定する。この場合には、入力デ
ータサイズに応じて分割数が増加し、最大分割数２５６
では完全ハッシュとなるため、１回の辞書検索で符号化
できる。またメモリ容量が一定の場合には、入力データ
サイズにかかわらず、圧縮率を犠牲にして全て一定時間
に処理できることを意味する。

【００５４】図３（ａ）（ｂ）に示すいずれかの条件に
適合した入力データサイズに基づく分割数の指定は、オ
ペレータが処理対象とするデータサイズを知ってＭＰＵ
１４に対し分割数を直接指定してもよい。また入力デー
タの先頭にあるデータの大きさを示す値を予め設定して
おき、このデータの大きさをＭＰＵ１４で読取って図３
（ａ）又は図３（ｂ）に示す分割特性に従って自動的に
入力データの大きさに対する分最適な分割数に変換する
こともできる。このＭＰＵ１４による入力データの大き
さを判別する機能が、図１の原理説明図に示した検索分
割数判定手段５としての機能である。

【００５５】このための入力データ形式は図４（ａ）に
示すように、先頭に入力データの大きさを示す値があ
り、そのあとに本来のデータ系列が続く。更に符号化済
みのデータは図４（ｂ）に示すように、先頭に符号化に
使用した辞書の大きさ、即ち使用辞書サイズ（分割数及
び各分割辞書の使用サイズ）があり、その後に符号化済
データが続く。

【００５６】従って復元時には、先頭の辞書使用の大き
さから、復元に使用する最大の大きさの辞書を決めて復
元を行うことができる。再び図２を参照するに、辞書検
索路１６は以後、辞書メモリ２０より１文字伸ばした文
字列の候補文字を読込み、一致検査回路２２で入力文字
と候補文字との一致検査（照合）を行ない、連結検出回
路２４で候補文字の有無の検出を行なう。

【００５７】パイプライン制御回路２６は、一致検査回
路２２による入力文字と候補文字の照合と連結検出回路
２４による候補文字の有無の検出とに並行して辞書メモ
リ２０に次の候補文字の読出しをかける。このようにパ
イプライン制御回路２６でパイプライン処理を行なうこ
とで、候補文字の複数個ごとの探索と照合処理が辞書メ
モリ２０のサイクル・タイムで実行することができる。

【００５８】更に辞書検索回路１６には連続アドレス回
路２８が設けられ、連続アドレス回路２８は連続アドレ
スを発生し、複数文字読込み回路１８に辞書メモリ２０
の連続アドレスに登録されているハッシュアドレス及び
候補文字を読出すようにする。ＬＺＷ符号の符号化で
は、辞書メモリ２０中の最大長一致する文字列を求め
る。従って、入力文字を付加して文字列を逐次一文字ず
つ伸ばしていき、候補文字がなくなったところで最大一
致長の文字列であることが分かる。このとき、最大一致
長文字列まではアドレスωを使用した参照番号で表わさ
れており、その参照番号ωを入出力ポ−ト３０から外部
に圧縮された符号語code（ω）として出力する。図５は
図２の辞書探索回路１６の詳細を示した実施例構成図で
ある。

【００５９】図５において、ＭＰＵ１は最初に文字列の
１番目の文字参照番号ｉ及び２番目の文字Ｋの８ビット
文字コードの例えば最上位ビットＫm の組（Ｋｍ，ｉ）
をアドレス・レジスタ１８−１にセットすると共に、入
力した２番目の文字Ｋをレジスタ２２−１にセットす
る。次にパイプライン制御回路２６に辞書検索回路１６
の起動を指令する。

【００６０】パイプライン制御回路２６は、まずＦＦ２
８−１をＫｍ＝０にリセットしてから辞書メモリ２０に
読出をかける。ＦＦ２４−２は辞書メモリ２０のアドレ
スの最上位ビット (MSB)であり、アドレス・レジスタ１
８−１の内容が下位アドレスとなって辞書メモリ２０の
配列 Firstに対応する領域を読み出す。ここで、辞書メ
モリ２０の構成の一例を図６に示し、また図６に対応し
た辞書メモリ２０の配列を図７に示す。尚、図６、図７
は説明を簡単にするためａ，ｂ，ｃの３文字の符号化を
例にとっている。

【００６１】このメモリ配列において、ｆｉｒｓｔ０，
１は本来のハッシュアドレスｉに加えた次の１文字の最
上位ビットＫｍで決まり、Ｋｍ＝０でｆｉｒｓｔ１Ｋｍ＝１でｆｉｒｓｔ１が指定される。

【００６２】従って、図５において第１番目の文字のア
ドレス（参照番号）ｉと２番目の文字の最上位ビットＫ
m をアドレスとして辞書メモリ２０をアクセスすると、
このときＦＦ２８−１のリセットによりＫｍ＝０である
ことから、図７の辞書メモリの中の配列ｆｉｒｓｔ０
（第１ファーストメモリ）及びｅｘｔｅｎｔｉｏｎ（拡
張メモリ）に対応する領域を読み出す。辞書メモリ２０
より読出した１ワードの内容の内、連結リスト・アドレ
スに対応する部分（ｆｉｒｓｔ０）はアドレスレジスタ
１８−１にセットし、候補文字Ｋ´に対応する部分（ｅ
ｘｔｅｎｔｉｏｎ）はレジスタ１８−２にセットする。

【００６３】これと同時に、アドレスレジスタ１８−１
に既に格納されていた内容のうち文字Ｋの最上位ビット
Ｋｍを除く部分ｉをレジスタ１８−３に移す。また、Ｆ
Ｆ２８−１の内容ＫｍをＦＦ２４−２に移す。この辞書
メモリ２０の読出と平行して、レジスタ２２−１中の入
力文字とレジスタ１８−２中の候補文字が一致比較回路
２２−２で比較照合される。

【００６４】比較照合により入力文字Ｋと候補文字Ｋ´
が一致すると、パイプライン制御回路２６は、次の入力
文字をレジスタ２２−１にセットし、このときＦＦ２８
−１はリセットによりのままであることから、Ｋｍ＝０
となってアドレスレジスタ１８−１で指定されるアドレ
スの辞書メモリ２０の配列ｆｉｒｓｔ０及びｅｘｔｅｎ
ｔｉｏｎに対応する領域を読出し、辞書メモリ２０より
読出した１ワードの内容の内、連結リスト・アドレスに
対応する部分（ｆｉｒｓｔ０）はアドレスレジスタ１８
−１にセットし、候補文字Ｋ´に対応する部分（ｅｘｔ
ｅｎｔｉｏｎ）はレジスタ１８−２にセットし、比較照
合を行い、以下同様に繰り返す。

【００６５】このような比較照合の際に、比較照合と同
時にＮＯＲ回路２４−１で辞書メモリ２０から読出して
格納したアドレスレジスタ１８−１の内容がオール０で
あるか否か判別されており、もし、オール０の場合、候
補文字がなくなったことが検出される。候補文字がなく
なったときのＮＯＲ回路２４−１の出力はがＭＰＵ１４
及びパイプライン制御回路２６に与えられ、ＭＰＵ１４
は最後に比較照合が一致したメモリアドレスの値を符号
語として出力し、次の入力文字の探索に移る。次の文字
の探索についても同様に、レジスタ１８−３の内容（既
に符号化済みの直前の参照番号）ｉ及び入力文字Ｋの最
上位ビットＫm の組をアドレス・レジスタ１８−１にセ
ットすると共に、入力文字をレジスタ２２−１にセット
して２文字目以降の探索処理を行う。

【００６６】一方、比較照合の結果が不一致であった場
合には、同じアドレスの配列ｎｅｘｔの領域を読出して
アドレスレジスタ１８−１にセットし、次の辞書メモリ
２０の読出しを行い、一致する候補文字が得られるまで
配列ｎｅｘｔの読出しを繰り返す。このような本発明の
辞書検索を図６、図７につき具体的に説明すると次のよ
うになる。

【００６７】いま図６、図７に辞書が構成された状態で
文字列「ａａａａ」を符号化するものとする。ここで文
字「ａ，ｃ」の最上位ビットをＫｍ＝０、文字「ｂ」の
最上位ビットをＫｍ＝１とする。まず１番目の文字
「ａ」の参照番号はｉ＝１であり、また２番目の文字
「ａ」の文字コードの最上位ビットＭＳＢがＫｍ＝０で
あるから、図７の辞書メモリ１のアドレス１の中のＫｍ
＝０で指定されるｆｉｒｓｔ０の内容１０と、ｅｘｔｅ
ｎｔｉｏｎの候補文字「ａ」が読出される。この場合、
入力文字「ａ」と候補文字「ａ」とは一致することか
ら、次にｆｉｒｓｔ０から得られたアドレス１０により
次辞書メモリをアクセスして候補文字「ａ」を読出し、
更に３番目の文字「ａ」の最上位ビットＫｍ＝０で指定
される配列ｆｉｒｓｔ０の内容１１を読出す。この３番
目の文字「ａ」についても候補文字「ａ」との一致が得
られ、同様に４番目及び５番目の文字を処理し、最後の
５番目の文字「ａ」の配列ｆｉｒｓｔ０の内容は０にな
っていることから、候補文字が無くなったことを判別
し、最終アドレス１２を入力文字列「ａａａａ」の符号
語として出力する。

【００６８】一方、文字列「ａｂｃ」については、２番
目の文字の最上位ビットはＫｍ＝１であることから、ア
ドレス１の配列ｆｉｒｓｔ１の内容４が読出され、候補
文字との一致を条件にアドレス５の候補文字を読出し、
最終的にアドレス６の候補文字との一致が得られ、入力
文字「ａｂｃ」の符号語６を出力する。尚、候補文字と
の一致が得られなかった時のｎｅｘｔの検索は従来と同
じである。

【００６９】図８は本発明による符号化アルゴリズムの
フローチャートを示したもので、基本的には図１５の従
来方式と同じである。相違点は、（１）ステップＳ５で
メモリアドレスとして直前に符号化された文字列の参照
番号ｉと次の１文字Ｋの要素ビット、例えば最上位ビッ
トＫｍとの組でメモリアドレスｌを作成している点、
（２）ステップＳ６でｌ＝（Ｋｍ，ｉ）の組で決まる辞
書メモリｆｉｓｔ［ｌ］の読出しで次のメモリアドレス
ｉの中の分割されたｆｉｒｓｔを求めている点、（３）
更にステップＳ１３のアドレスｉへの候補文字の登録時
に、１つ前のアドレスｉ−１のｆｉｒｓｔ０，１のどち
らにアドレスｉを登録するかを候補文字の最上位ビット
Ｋｍに応じて区別している点、である。

【００７０】尚、上記の実施例では候補文字をそのまま
辞書メモリに格納し、比較する方法を述べたが、メモリ
容量を減らすため、候補文字はハッシュ・アドレスに付
加したビットＫｍを除いたビットだけをもたせても良
い。また、本発明の他の実施例としてハッシュ・アドレ
スに入力文字の特定のビットＫｍを付加するのでなく、
入力文字を加工して作り出した情報のビットを付加して
も同様に実現できることは明らかである。

【００７１】

【発明の効果】以上説明したように本発明によれば、辞
書メモリの例えば入力データサイズに対する分割数の特
性を、高速化か高圧縮化かの処理条件に応じて選び、入
力データの大きさに応じて自動的に若しくは人為的に指
定することにより、符号化毎にダイナミックに決定して
符号化を行うようにすることで、高速化の要素と高圧縮
の要素をうまく融合させた符号化によるデータ圧縮を実
現できる。

【図面の簡単な説明】

【図１】本発明の圧縮方式の原理説明図

【図２】本発明の実施例構成図

【図３】本発明の入力データサイズに対する分割数を処
理条件に分けて示した特性図

【図４】本発明の入力データ形式及び符号化済みデータ
形式を示した説明図

【図５】図２の辞書検索回路の詳細を示した実施例構成
図

【図６】図２の符号化に使用する辞書メモリの構成を示
した説明図

【図７】図６に対応した辞書メモリの配置説明図

【図８】本発明の符号化アルゴリズムを示したフローチ
ャート

【図９】従来のＬＺＷ符号化アルゴリズムのフローチャ
ート

【図１０】従来のＬＺＷ復号化アルゴリズムのフローチ
ャート

【図１１】従来のＬＺＷ符号化の具体例説明図

【図１２】辞書構成例の説明図

【図１３】従来のＬＺＷ復号化の具体例説明図

【図１４】外部ハッシュ法のリスト構造説明図

【図１５】外部ハッシュ法を用いた従来のＬＺＷ符号の
符号化アルゴリズムを示したフローチャート

【図１６】図１５の符号化に使用する辞書メモリの構成
を示した説明図

【図１７】図１６に対応した辞書メモリの配置説明図

【符号の説明】

１：辞書２：辞書検索手段３：データ付加手段４：判定手段１０：原データ１２：ＤＭＡ制御回路１４：ＭＰＵ１６：辞書検索手段（辞書検索回路）１８：複数文字読込み回路１８−１：アドレスレジスタ１８−２，１８−３：レジスタ２０：辞書メモリ２２：一致検査回路２２−１：レジススタ２２−２：比較器２４：連結検出回路２４−１：ＮＯＲ回路２４−２：ＦＦ２６：パイプライン制御回路２８−１：ＦＦ

フロントページの続き (72)発明者中野泰彦神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平６−83575（ＪＰ，Ａ) 特開平４−219818（ＪＰ，Ａ) 特開平４−156110（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 5/00 G06F 17/30 G06T 9/00 H03M 7/40 H04N 1/41

Claims

(57)【特許請求の範囲】

【請求項１】符号化済み文字列を相異なる部分列に分け
て各部分列毎に異なる参照番号を付加して辞書（１）に
登録しておき、入力文字列を前記辞書（１）の中の部分
列の内、最大長一致するものの参照番号で指定して符号
化することによりデータ圧縮する符号化手段（２）と、前記部分列の検索に外部ハッシュ法を使用し、前記辞書
（１）に登録した部分列の参照番号（ｉ）に入力文字
（Ｋ）の要素から抽出した情報（Ｋｍ）を加えたハッシ
ュ・アドレスを生成することにより、前記付加情報（Ｋ
ｍ）のビット数に応じた分割数の連結リストを生成して
検索する辞書検索手段（３）とを備えたデータ圧縮方式
に於いて、前記部分列の参照番号（ｉ）に加える入力文字（Ｋ）の
要素から抽出される情報（Ｋｍ）のビット数を、適宜に
変えて連結リストの分割数を指定する分割数指定手段
（４）を設けたことを特徴とするデータ圧縮方式。
【請求項２】請求項１記載のデータ圧縮方式に於いて、前記分割数指定手段（４）は、前記部分列の参照番号
（ｉ）に加える入力文字（Ｋ）の要素から抽出される情
報（Ｋｍ）のビット数を、高速処理に適合したビット数
或いは高圧縮処理に適合したビット数に指定することを
特徴とするデータ圧縮方式。
【請求項３】請求項１記載のデータ圧縮方式に於いて、前記分割数指定手段（４）は、前記部分列の参照番号
（ｉ）に加える入力文字（Ｋ）の要素から抽出される情
報（Ｋｍ）のビット数を、符号化対象とする文字列デー
タの大きさを示す情報に基づいて指定することを特徴と
するデータ圧縮方式。
【請求項４】請求項１記載のデータ圧縮方式に於いて、文字列の先頭に付加された情報から分割数を判定する検
索分割数判定手段（５）を設けたことを特徴とするデー
タ圧縮方式。
【請求項５】請求項１記載のデータ圧縮方式に於いて、前記分割数指定手段（４）は、前記部分列の参照番号
（ｉ）に加える入力文字（Ｋ）の要素から抽出される情
報（Ｋｍ）のビット数を、予め指定した分割数に対応し
たビット数とすることを特徴とするデータ圧縮方式。