JP3058711B2

JP3058711B2 - データ圧縮及び復元方法

Info

Publication number: JP3058711B2
Application number: JP9633791A
Authority: JP
Inventors: 茂吉田; 佳之岡田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-04-02
Filing date: 1991-04-02
Publication date: 2000-07-04
Anticipated expiration: 2015-07-04
Also published as: JPH04306019A

Description

【発明の詳細な説明】

【０００１】（目次）産業上の利用分野従来の技術（図９、図１０）発明が解決しようとする課題課題を解決するための手段（図１）作用実施例（ａ）第１の実施例の説明（図２乃至図７）（ｂ）第２の実施例の説明（図８）（ｃ）他の実施例の説明発明の効果

【０００２】

【産業上の利用分野】本発明は、符号化済データを相異
なる部分列に分けて辞書に登録しておき、入力データを
辞書中の部分列の内、最長一致するものの参照番号で指
定して符号化するデータ圧縮及び復元方法に関する。

【０００３】近年、文字コード、ベクトル情報、画像な
ど様々な種類のデータが、コンピュータで扱われるよう
になり、扱われるデータ量も急速に増加してきている。

【０００４】大量のデータを扱う時は、データ中の冗長
な部分を省いて、データ量を圧縮することで、記憶容量
を減らしたり、速く伝送したりできるようになる。

【０００５】この様々なデータを１つの方式でデータ圧
縮できる方法として、ユニバーサル符号化が提案されて
いる。

【０００６】ここで、本発明の分野は、文字コードの圧
縮に限らず、様々なデータに適用できるが、以下では、
情報理論で用いられている呼称を踏襲し、データの１wo
rd単位を文字と呼び、データが任意wordつながったもの
を文字列と呼ぶことにする。

【０００７】ユニバーサル符号の代表的な方法として、
ジプーレンペル（Ziv −Lempel）符号がある（例えば、
宗像「Ziv −Lempelのデータ圧縮法」、情報処理、Vol.
２６、No.1、１９８５年参照の事）。

【０００８】ジプーレンペル符号では、ユニバーサル型
と、増分分解型（Incremental parsing)の２つのアルゴ
リズムが提案されている。

【０００９】更に、ユニバーサル型アルゴリズムの改良
として、ＬＺＳＳ符号がある（例えば、T.C.Bell、「Be
tter OPM/L Text Compression 」、IEEE Trans，on Com
mun., Vol.COM-34,No.12, Dec.１９８６参照の事）。

【００１０】又、増分分解型アルゴリズムの改良として
は、ＬＺＷ（Lempel−Ziv −Welch)符号がある（T.A.We
lch,「A Technique for High-Performance Data Compre
ssionn」，Computer, June １９８４参照の事）。

【００１１】これらの符号の内、高速処理ができること
と、アルゴリズムの簡単さからＬＺＷ符号が、記憶装置
のファイル圧縮などで使われるようになっている。

【００１２】

【従来の技術】図９、図１０は従来技術の説明図であ
り、図９（Ａ）はＬＺＷ符号化処理フロー、図９（Ｂ）
はＬＺＷ復号化処理フロー、図１０（Ａ）はＬＺＷ符号
化説明図、図１０（Ｂ）は辞書の説明図、図１０（Ｃ）
はＬＺＷ復号化説明図である。

【００１３】ＬＺＷ符号化は、書き換え可能な辞書を持
ち、入力文字コード・データ中を相異なる文字列に分
け、この文字列を出現した順に番号を付けて、辞書に登
録するとともに、現在入力している文字列を辞書に登録
してある最長一致文字列の番号だけで表して、符号化す
るものであり、例えば、特開昭５９−２３１６８３号公
報や米国特許第４５５８３０２号明細書に開示されてい
る。

【００１４】先ず、ＬＺＷ符号化について、図９
（Ａ）、図１０（Ａ）、図１０（Ｂ）により、説明す
る。

【００１５】Ｓ１）予め全文字につき、一文字からなる
文字列を初期値として、辞書Ｄに登録し、辞書の登録数
Ｎを文字種数Ａと置き、カーソルをデータの先頭の位置
に置く。

【００１６】Ｓ２）辞書Ｄを参照し、カーソルの位置か
らの文字列に一致する辞書登録の最長文字列Ｓを見つけ
る。

【００１７】Ｓ３）文字列Ｓの識別番号を「ＬＯＧ₂ｎ
ビット」（整数）で表して出力し、辞書登録数ｎを１つ
インクリメントする。ただし、「Ｘ」はＸ以上の最小の
整数を表す。

【００１８】Ｓ４）文字列Ｓに、カーソルの次の文字Ｃ
を付加した文字列ＳＣを辞書Ｄに登録し、識別番号ｎを
与え、カーソルを文字列Ｓの後ろの文字に移動させ、ス
テップＳ２に戻る。

【００１９】この符号化を図１０（Ａ）、（Ｂ）によ
り、具体的に説明する。ここで、説明の簡単のため、ａ
ｂｃの３文字の組み合わせからなるデータを圧縮する場
合について説明するものとし、図１０（Ａ）の入力デー
タinput は、左から右へ読み込む。

【００２０】最初の文字ａを入力したとき、辞書Ｄに
は、ａの他に一致する文字列がないので、辞書番号１を
符号語として出力する。そして、拡張した文字列ａｂに
辞書番号４を付けて辞書Ｄに登録する。実際の登録は、
文字列（１ｂ）の形となる。

【００２１】続いて、２番目のｂが文字列の先頭にな
る。辞書Ｄには、ｂの他に一致する文字列がないので、
辞書番号２を符号語として出力し、拡張した文字列ｂａ
を、実際には２ａの形で、辞書番号５を付けて辞書Ｄに
登録する。

【００２２】３番目のａが次の文字列の先頭になり、辞
書Ｄには、ａｂまで一致する文字列があるので、ａｂの
辞書番号４を符号語として出力し、拡張した文字列ａｂ
ｃを、実際には、４ｃの形で、辞書番号６を付けて辞書
Ｄに登録する。以下、同様にこの処理を続ける。

【００２３】このようにして、辞書内の最長一致の文字
列の辞書番号で符号化し、この文字列に次の一文字を追
加した文字列を、辞書に登録する。

【００２４】次に、ＬＺＷ復号化について、図９
（Ｂ）、図１０（Ｂ）、図１０（Ｃ）により、説明す
る。

【００２５】Ｓ１）予め全文字につき、一文字からなる
文字列を初期値として、辞書Ｄに登録し、辞書の登録数
ｎを文字種数Ａと置き、カーソルをデータの先頭の位置
に置く。

【００２６】Ｓ１）「ｌｏｇ₂ｎ」ビットで表された符
号を読み込んで、辞書番号を復号し、辞書登録数ｎを１
つインクリメントする。

【００２７】Ｓ２）辞書Ｄを参照し、カーソルの位置か
らの文字列に一致する辞書登録の最長文字列Ｓを見つけ
る。Ｓ３）復号した辞書番号に対応する文字列Ｓを、辞
書Ｄから読み出して、カーソルの位置から並べる。

【００２８】Ｓ４）直前に復号した文字列Ｓ′の後ろ
に、カーソルの最初の文字Ｃを追加した文字列Ｓ′Ｃ
を、辞書Ｄに付け加え、それに辞書番号ｎを与え、カー
ソルを復元した文字列Ｓの後ろに移動させ、ステップＳ
２に戻る。この複号化を、図１０（Ｂ）、（Ｃ）によ
り、具体的に説明する。

【００２９】先ず、最初の入力文字は１であり、一文字
ａ、ｂ、ｃについては、既に参照番号１、２、３とし
て、図１０（Ｂ）に示すように、辞書Ｄに登録されてい
るため、辞書Ｄの参照により、符号１に一致する参照番
号の文字列ａに置き代えて出力する。

【００３０】次の符号２についても、同様にして文字ｂ
に置き代えて出力する。この時、前回処理した符号と、
今回復号した最初の一文字ｂとを組み合わせた（１ｂ）
に、新たな参照番号４を付加して、辞書Ｄに登録する。

【００３１】３番目の符号４は、辞書Ｄの探索により、
１ｂからａｂと置き代えて、文字列ａｂを出力する。同
時に、前回処理した符号２と、今回復号した文字列の１
番目の文字ａとを組み合わせた文字列２ａ（＝ｂａ）
を、新たな参照番号５を付加して辞書Ｄに登録する。

【００３２】以下、同様にこの処理を繰り返す。このよ
うにして、入力符号を辞書内の登録文字列に置き代え
て、復号化し、前回処理した符号と今回復号した文字列
の１番目の文字とを組み合わせた文字列を、辞書に登録
する。

【００３３】

【発明が解決しようとする課題】従来のＬＺＷ符号で
は、入力文字コード・データ中を相異なる文字列に分け
て符号化するとき、現在符号化中の各文字列とは独立に
出現するとして符号化する形式を取っている。

【００３４】この方法は、無記憶情報源の符号化には、
問題がないが、実際の文章等の多くのデータは、記憶情
報源と見なされ、従来のＬＺＷ符号では、文字列が出現
する履歴を十分利用できておらず、データ圧縮後も、文
字列の出現の従属性については、冗長性が残り、文字列
間の相関を十分利用できず、圧縮率が向上しないという
問題があった。

【００３５】従って、本発明は、文字列間の相関を削減
して、圧縮率を向上することができるデータ圧縮及び復
元方法を提供することを目的とする。

【００３６】

【課題を解決するための手段】図１は本発明の原理図で
ある。本発明の請求項１は、符号化データを相違なる部
分列に分けて、辞書１０に番号を付して登録しておき、
入力データの符号化部分列を該辞書１０中の部分列の最
長一致するものの番号で指定して符号化するデータ圧縮
方法において、該部分列に対し順次、番号を割り付けた
第一の辞書１１と、該部分列に対し、所定数の先頭デー
タ単位で順次、番号を割り付けた第二の辞書１２、１３
とを設け、該第２の辞書１２、１３の該符号化部分列の
直前の所定数のデータを先頭とする部分列の登録個数に
応じて、該符号化部分列を該第一の辞書１１を使用し
て、又は該符号化部分列に所定数の直前のデータを付加
した部分列を該第二の辞書１２、１３を使用して、選択
的に符号化することを特徴とする。

【００３７】本発明の請求項２は、請求項１において、
前記第二の辞書１２、１３を、前記先頭データの個数単
位に複数設け、前記先頭データの個数毎に閾値を定めて
おき、前記符号化部分列の直前の所定数のデータを先頭
とする部分列の登録個数が、当該所定数の先頭データの
閾値より大きく、該所定数より１つ大きい数のデータを
先頭とする部分列の登録個数が、当該個数の先頭データ
の閾値より小さい場合には、前記先頭データが所定数の
前記第二の辞書１２、１３を使用して、符号化すること
を特徴とする。

【００３８】本発明の請求項３は、請求項２において、
前記使用する第二の辞書１２、１３に、対応する部分列
が登録されていない場合には、前記所定数より小さい数
の前記第二の辞書１２又は前記第一の辞書１１を用い
て、符号化することを特徴とする。

【００３９】本発明の請求項４は、請求項１により符号
化されたデータを復元するデータ復元方法において、前
記部分列に対し順次、番号を割り付けた第一の辞書１１
と、前記部分列に対し、所定数の先頭データ単位で順
次、番号を割り付けた第二の辞書１２、１３とを設け、
該第二の辞書１２、１３の該符号化部分列の直前の所定
数のデータを先頭とする部分列の登録個数に応じて、該
符号化データを該第一の辞書１１を使用して、又は該符
号化部分列に所定数の直前のデータを付加した部分列を
該第二の辞書１２、１３を使用して、選択的に復元する
ことを特徴とする。

【００４０】本発明の請求項５は、請求項４において、
前記第二の辞書１２、１３を、前記先頭データの個数単
位に複数設け、前記先頭データの個数毎に閾値を定めて
おき、前記符号化部分列の直前の所定数のデータを先頭
とする部分列の登録個数が、当該所定数の先頭データの
閾値より大きく、該所定数より１つ大きい数のデータを
先頭とする部分列の登録個数が、当該個数の先頭データ
の閾値より小さい場合には、前記先頭データが所定数の
前記第二の辞書１２、１３を使用して、復元することを
特徴とする。

【００４１】本発明の請求項６は、請求項５において、
前記使用する第二の辞書１２、１３に、対応する部分列
が登録されていない場合には、前記所定数より小さい数
の前記第二の辞書１２又は前記第一の辞書１１を用い
て、復元することを特徴とする。

【００４２】

【作用】本発明の請求項１では、第一の辞書１１が部分
列に対して、順次、番号を割り当てるため、番号のビッ
ト数が学習度合いに応じて、次第に大きくなる。これに
対し、部分列に対し、所定数の先頭データ単位で順次、
番号を割り付ければ、同一部分列の番号ビット数を減少
できる。そこで、かかる第二の辞書１２、１３を設け
て、第一の辞書１１に比べ、同一部分列の番号のビット
数を減少できるようにした。

【００４３】そして、第二の辞書１２、１３の符号化部
分列の直前の所定数のデータを先頭とする部分列の登録
個数に応じて、符号化部分列を第一の辞書１１を使用し
て、又は符号化部分列に所定数の直前のデータを付加し
た部分列を第二の辞書１２、１３を使用して、選択的に
符号化するようにして、各文字列の出現頻度、即ち各文
字列の辞書への学習度合いによって、辞書を切り換え
て、符号化するようにして、文字列間の相関を十分利用
した符号化ができ、圧縮率を向上できるようにした。

【００４４】本発明の請求項２では、第二の辞書１２、
１３を、先頭データの個数単位に複数設けても、先頭デ
ータの個数毎に閾値を定めているので、符号化部分列の
直前の所定数のデータを先頭とする部分列の登録個数に
応じた最適の辞書を用いた符号化ができる。

【００４５】本発明の請求項３では、使用する第二の辞
書１２、１３に、対応する部分列が登録されていない場
合には、所定数より小さい数の第二の辞書１２又は第一
の辞書１１を用いて、符号化するので、閾値で選択して
も、符号化されない事態を防ぐことができる。

【００４６】本発明の請求項４では、請求項１の圧縮デ
ータを効率良く復元できる。本発明の請求項５では、請
求項２の圧縮データを最適辞書を用いて、復元できる。

【００４７】本発明の請求項６では、請求項３の圧縮デ
ータが復元されない事態を防止することができる。

【００４８】

【実施例】（ａ）第１の実施例の説明図２は本発明の一実施例のためのブロック図、図３は図
２の履歴をもつ辞書の説明図、図４は図２の辞書の構成
図、図５は辞書による符号化説明図である。

【００４９】図中、１はＣＰＵであり、制御手段を構成
し、データメモリ２とプログラムメモリ３とが接続され
る。

【００５０】プログラムメモリ３には、全体の制御を行
うコントロールプログラム１５と、辞書１０に初期値を
設定する初期値設定プログラム１６と、データメモリ２
のデータバッファ１４から一定量の文字を取り込み、デ
ータバッファ１４から一文字ずつ取り出す符号化プログ
ラム１７と、０重辞書１１、１重辞書１２、２重辞書１
３の登録数を調べ、０重、１重、２重のどの履歴で符号
化すべきかを判定する検索選択判定プログラム１８と、
０重辞書１１を用いて入力した文字列と最長一致する文
字列を検出する０重最長一致検索プログラム１９と、１
重辞書１２を用いて入力した文字列と最長一致する文字
列を検出する１重最長一致検索プログラム２０と、２重
辞書１３を用いて入力した文字列と最長一致する文字列
を検出する２重最長一致検索プログラム２１と、各辞書
１１〜１３に符号化済文字列を登録する辞書登録プログ
ラム２２とを備える。

【００５１】データメモリ２は、０重辞書１１と、１重
辞書１２と、２重辞書１３とを有する辞書１０と、外部
から符号化すべきデータを格納するデータバッファ１４
とを備える。

【００５２】０重辞書１１は、図３（Ａ）の０重履歴の
辞書の木に示すように、履歴を考慮しない辞書であり。
root（木の根）を起点とし、一文字づつ階層的に葉を形
成した木構造を有し、各節点に番号を付けたものであ
る。

【００５３】この例では、ａ、ｂ、ｃの３文字の組合わ
せからなるアルファベットを示し、各節点の番号は、親
の番号がその子供の番号より小さい番号を持つと言う規
則性の他は、番号の並び方は順不同になるが、ここで
は、便宜上に各節点は階層毎に順に番号を付けた。

【００５４】辞書に木構造を用いることで、入力した文
字列と対応する辞書中の最長文字列の探索は、入力文字
列を一文字ずつ順に、辞書の木の根（root）から葉（le
af）へと照合を取ることで行うことができる。

【００５５】具体的には、図４に示すように、一文字か
ら始まる各部分列に対し、順次、番号を割りつけたもの
である。

【００５６】一方、１重辞書１２は、図３（Ｂ）の１重
履歴の辞書の木に示すように、０重履歴辞書１１の第１
階層から始まるサブセットとなっており、図４に示すよ
うに、先頭一文字毎の単位で、順次、番号を割りつけた
もので、例えば、２文字目が同じａでも、先頭文字が異
なれば、ａａ、ｂａのように、同一の番号「１」が割り
つけられる。

【００５７】更に、２重辞書１３は、図３（Ｃ）の２重
履歴の辞書の木に示すように、０重履歴辞書１１の第２
階層から始まるサブセットとなっており、図４に示すよ
うに、先頭二文字毎の単位で、順次、番号を割りつけた
もので、例えば、３文字目が同じａでも、先頭文字が異
なれば、ａａａ、ａｂａのように、同一の番号「１」が
割りつけれられる。

【００５８】図４に示すように、ａ、ｂ、ｃの３文字の
組合わせからなるアルファベットに対し、文字列ａ〜ｂ
ｂａｂの例では、０重辞書１１では、ａから順に番号を
割りつけ、０重節点数ｎ₀は、「３３」となり、１重辞
書１２では、ａ、ｂ、ｃをカットし、ａａから順に番号
を割りつけ、１重節点数は、先頭をａとするｎ₁（ａ）
が「１２」、先頭をｂとするｎ₁（ｂ）が「１３」、先
頭をｃとするｎ₁（Ｃ）が「５」となる。

【００５９】２重辞書１３では、ａ〜ｃａをカットし、
ａａａから順に番号を割りつけ、２重節点数は、先頭を
ａａとするｎ₂（ａａ）が「５」、先頭をａｂとするｎ
₂（ａｂ）が「４」、先頭をａｃとするｎ₂（ａｃ）が
「０」、先頭をｂａとするｎ₂（ｂａ）が「６」、先頭
をｂｂとするｎ₂（ｂｂ）が「４」、先頭をｂｃとする
ｎ₂（ｂｃ）が「０」、先頭をｃａとするｎ₂（ｃａ）
が「２」、先頭をｃｂとするｎ₂（ｃｂ）が「１」、先
頭をｃｃとするｎ₂（ｃｃ）が「０」となる。

【００６０】このような辞書を用いると、図５に示すよ
うに、注目文字列「ｂａａ」を符号化するのに、０重履
歴辞書１１では、５ビットの番号「１７」が割り当てら
れるが、１重履歴辞書１２では、前の文字「ａ」を加
え、「ａｂａａ」として符号化され、４ビットの番号
「１１」が割り当てられる。

【００６１】このため、同じ文字列を符号化するのに、
１ビット少なくて済み、文字間の相関が大きい場合に
は、高次の履歴をとることにより、文字列は少ないビッ
ト数の番号で表される。

【００６２】ここで、前の文字を加えた文字列とするの
は、例えば、１重辞書１２では、番号「１１」に相当す
る文字列が、図４に示すように、２つあり、これらを復
元時に区別するため、前の文字を加え、前の文字から２
つの文字列を区別するためである。

【００６３】図６は本発明の第１の実施例処理フロー図
である。Ｓ１）予め全文字につき、一文字からなる文字
列を初期値として、辞書１０に登録し、０重辞書１１の
登録数ｎ₀を文字種数Ａと、１重辞書１２の登録数ｎ₁
（ｉ）を０、２重辞書１３の登録数ｎ₂（ｉ，ｊ）を０
と置き、カーソルをデータの先頭の位置に置く。

【００６４】Ｓ２）注目文字列の１つ前の文字ｐの１重
辞書１２の登録数ｎ₁（ｐ）が所定の閾値Ｔ１未満かを
調べる。ｎ₁（ｐ）がＴ１未満なら、学習が進んでいな
い初期の状態であり、１重辞書１２を利用しても、対応
する文字列が登録されている可能性が少なく、ｎ
₁（ｐ）がＴ１以上なら、学習が進んでおり、１重辞書
１２に、対応する文字列が登録されている可能性が大き
い。

【００６５】Ｓ３）ｎ₁（ｐ）がＴ１未満なら、０重辞
書１１を参照し、カーソルの位置からの文字列に一致す
る辞書登録の最長文字列Ｓ０を見つけ、文字列Ｓ０の識
別番号を「ｌｏｇ₂ｎビット」（整数）で表して出力す
る。

【００６６】Ｓ４）文字列Ｓ０に、カーソルの次の文字
Ｃを付加した文字列Ｓ０Ｃを辞書１１〜１３に登録し、
各々識別番号ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）を与
え、登録数ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）をインク
リメントし、カーソルを文字列Ｓ０の後ろの文字に移動
させ、ステップＳ２に戻る。

【００６７】Ｓ５）一方、ｎ₁（ｐ）がＴ１以上なら、
注目文字列の２つ前の２文字ｐｑの２重辞書１３の登録
数ｎ₂（ｑ，ｐ）が所定の閾値Ｔ２未満かを調べる。ｎ
₂（ｑ，ｐ）がＴ２未満なら、学習が進んでいない初期
の状態であり、２重辞書１３を利用しても、対応する文
字列が登録されている可能性が少なく、ｎ₂（ｑ，ｐ）
がＴ２以上なら、学習が進んでおり、２重辞書１３に、
対応する文字列が登録されている可能性が大きい。

【００６８】Ｓ６）ｎ₂（ｑ，ｐ）がＴ２未満なら、１
重辞書１２を参照し、カーソルの１つ手前位置からの文
字列に一致する辞書登録の最長文字列Ｓ１を見つける。

【００６９】Ｓ７）最長文字列Ｓ１を検出したかを調
べ、検出しないと、１重辞書１２には、登録されていな
いため、「ｌｏｇ₂ｎ₁（ｐ）」ビットで番号０を出力
し、ステップＳ３の０重辞書１１の探索に進む。この番
号０は、辞書の切り換え符号の意味をもつ。

【００７０】Ｓ８）一方、最長文字列Ｓ１を検出する
と、１重辞書１２のＳ１に関する番号を「ｌｏｇ₂ｎ₁
（ｐ）」ビットで出力する。

【００７１】文字列Ｓ１に、カーソルの次の文字Ｃを付
加した文字列Ｓ１Ｃを辞書１１〜１３に登録し、各々識
別番号ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）を与え、登録
数ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）をインクリメント
し、カーソルを文字列Ｓ１の後ろの文字に移動させ、ス
テップＳ２に戻る。

【００７２】Ｓ９）ｎ₂（ｑ，ｐ）がＴ２以上なら、２
重辞書１３を参照し、カーソルの１つ手前位置からの文
字列に一致する辞書登録の最長文字列Ｓ２を見つける。

【００７３】Ｓ１０）最長文字列Ｓ２を検出したかを調
べ、検出しないと、２重辞書１３には、登録されていな
いため、「ｌｏｇ₂ｎ₂（ｑ，ｐ）」ビットで番号０を
出力し、ステップＳ３の０重辞書１１の探索に進む。こ
の番号０は、辞書の切り換え符号の意味を持つ。

【００７４】Ｓ１１）一方、最長文字列Ｓ２を検出する
と、２重辞書１３のＳ２に関する番号を「ｌｏｇ₂ｎ₂
（ｑ，ｐ）」ビットで出力する。

【００７５】文字列Ｓ２に、カーソルの次の文字Ｃを付
加した文字列Ｓ２Ｃを辞書１１〜１３に登録し、各々識
別番号ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）を与え、登録
数ｎ₀、ｎ₁（ｉ）、ｎ₂（ｉ，ｊ）をインクリメント
し、カーソルを文字列Ｓ２の後ろの文字に移動させ、ス
テップＳ２に戻る。

【００７６】図７は本発明の第１の実施例動作説明図で
ある。図では、「ａｂａｂａａｂｃａｂ」の１０個の文
字を入力し、図４の辞書１０にて、０重、１重、２重履
歴の辞書１１〜１３を用いて符号化した例を示す。

【００７７】０重履歴辞書１１を用いると、各辞書番号
の符号語は６ビットで表され、入力データは３個の文字
列に分解され、符号語は合計１８ビットとなる。

【００７８】これに対し、１重履歴辞書１２を用いる
と、辞書番号の符号語は４ビット又は３ビットで表さ
れ、入力データは４個の文字列に分解されるが、符号語
は合計１５ビットで済み、１重履歴を用いた時、０重履
歴より少ないビット数で符号化され、圧縮率が向上する
ことになる。

【００７９】更に、２重履歴辞書１３を用いると、符号
語は２ビット又は３ビットで表されるが、図の例では、
９文字目以降のｂｃで始まる文字列が２重履歴辞書１３
に登録されていないため、０重履歴辞書１１に戻って表
している。

【００８０】このように、履歴の次数が高い辞書では、
辞書登録数が十分大きくないと、表せない文字列が生じ
るため、本発明では、辞書登録数が増えるにつれて、高
次の履歴の辞書を用いるように、切り換えているのであ
る。

【００８１】１重履歴の場合は、８文字目までを符号語
１２ビットで表すが、２重履歴では、９ビットで表すこ
とができ、この例からも高次履歴になる程、短いビット
数で効率良く符号化することができることが判る。

【００８２】（ｂ）第２の実施例の説明図８は本発明の第２の実施例処理フロー図であり、０重
履歴と１重履歴の辞書で符号化する例を示している。

【００８３】図のステップＳ１〜Ｓ８は、図６のＳ１〜
Ｓ８と同様であり、説明を省略する。

【００８４】この例では、２重辞書まで使用したものに
比し、圧縮率は落ちるが、比較的短い文章等では、符号
化時間を短縮できる。

【００８５】（ｃ）他の実施例の説明上述の実施例では、圧縮方法について説明したが、辞書
の番号で文字列は一意に指定されているので、復元は圧
縮の逆の操作を行えば、元の文字を復元できる。

【００８６】即ち、部分例に対し順次、番号を割り付け
たしてンダクタンス、前記部分列に対し、所定数の先頭
データ単位で順次、番号を割り付けた第二の辞書１２、
１３とを設け、第二の辞書１２、１３の符号化部分列を
直前の所定数のデータを先頭とする部分列の登録個数に
応じて、該符号化データを第一の辞書１１を使用して、
又は符号化部分列に所定数の直前のデータを付加した部
分列を該第二の辞書１２、１３を使用して、選択的に復
元すればよい。

【００８７】又、この場合、第二の辞書１２、１３を、
先頭データの個数単位に複数設け、先頭データの個数毎
に閾値を定めておき、符号化部分列の直前の所定数のデ
ータを先頭とする部分列の登録個数が、当該所定数の先
頭データの閾値より大きく、所定数より１つ大きい数の
データを先頭とする部分列の登録個数が、当該個数の先
頭データの閾値より小さい場合には、先頭データが所定
数の第二の辞書１２、１３を使用して、復元すればよ
く、使用する第二の辞書１２、１３に、対応する部分列
が登録されていない場合には、所定数より小さい数の第
二の辞書１２又は第一の辞書１１を用いて、復元すれば
よい。

【００８８】上述の実施例の他に、本発明は、次のよう
な変形が可能である。２重履歴まで使用する例で説明
したが、同様に３重以上の履歴を用いるこも可能であ
る。

【００８９】２重履歴で符号化出来ない場合に、０重
履歴で符号化するようにしているが、１重履歴で符号化
するようにし、更に１重履歴で符号化出来ない場合に、
０重履歴で符号化するようにしてもよい。

【００９０】辞書に登録する新たな文字列として、従
来のＬＺＷ符号と同様に符号化文字列を１文字分伸ばし
た文字列を用いたが、符号化済データから作られる所定
の長さＬ以下の全ての文字列を用いても良い。また、新
たな文字列の登録は公知の他の方法を用いてもよい。辞
書登録法は、例えば文献“Data Compression methodand
theory" J.A.Storer著 Computer Science Press 1988
年出版で種々の方法が知られており、いずれの方法でも
よい。

【００９１】以上、本発明を実施例により説明したが、
本発明の主旨の範囲内で種々の変形が可能であり、これ
らを本発明の範囲から排除するものではない。

【００９２】

【発明の効果】以上説明したように、本発明によれば、
次の効果を奏する。部分列に対して、順次、番号を割
り当てるため、番号のビット数が学習度合いに応じて、
次第に大きくなる第一の辞書１１に対し、部分列に対
し、所定数の先頭データ単位で順次、番号を割り付け
て、同一部分列の番号のビット数を減少できる第二の辞
書１２、１３を設けて、第一の辞書１１に比べ、同一部
分例の番号のビット数を減少できる。

【００９３】そして、第二の辞書１２、１３の符号化
部分列の直前の所定数のデータを先頭とする部分列の登
録個数に応じて、符号化部分列を第一の辞書１１を使用
して、又は符号化部分列に所定数の直前のデータを付加
した部分例を第二の辞書１２、１３を使用して、選択的
に符号化するようにして、各文字列の出現頻度、即ち各
文字列の辞書への学習度合いによって、辞書を切り換え
て、符号化するようにして、文字列間の相関を十分利用
した符号化ができ、圧縮率を向上できる。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明の第１の実施例のためのブロック図であ
る。

【図３】本発明の第１の実施例履歴をもつ辞書の木説明
図である。

【図４】本発明の第１の実施例辞書の構成図である。

【図５】本発明の第１の実施例辞書を用いた符号化説明
図である。

【図６】本発明の第１の実施例処理フロー図である。

【図７】本発明の第１の実施例動作説明図である。

【図８】本発明の第２の実施例処理フロー図である。

【図９】従来技術の説明図である。

【図１０】従来技術の説明図である。

【符号の説明】

１０辞書１１０重辞書１２１重辞書１３２重辞書

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平３−270417（ＪＰ，Ａ) 特開平４−256192（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 7/40

Claims

(57)【特許請求の範囲】

【請求項１】符号化データを相異なる部分列に分け
て、辞書（１０）に番号を付して登録しておき、入力デ
ータの符号化部分列を該辞書（１０）中の部分列の最長
一致するものの番号で指定して符号化するデータ圧縮方
法において、該部分列に対し順次、番号を割りつけた第
一の辞書（１１）と、該部分列に対し、所定数の先頭デ
ータ単位で順次、番号を割り付けた第二の辞書（１２、
１３）とを設け、該第二の辞書（１２、１３）の該符号
化部分列の直前の所定数のデータを先頭とする部分列の
登録個数に応じて、該符号化部分列を該第一の辞書（１
１）を使用して、又は該符号化部分列に所定数の直前の
データを付加した部分列を該第二の辞書（１２、１３）
を使用して、選択的に符号化することを特徴とするデー
タ圧縮方法。
【請求項２】前記第二の辞書（１２、１３）を、前記
先頭データの個数単位に複数設け、前記先頭データの個
数毎に閾値を定めておき、前記符号化部分列の直前の所
定数のデータを先頭とする部分列の登録個数が、当該所
定数の先頭データの閾値より大きく、該所定数より１つ
大きい数のデータを先頭とする部分列の登録個数が、当
該個数の先頭データの閾値より小さい場合には、前記先
頭データが所定数の前記第二の辞書（１２）を使用し
て、符号化することを特徴とする請求項１のデータ圧縮
方法。
【請求項３】前記使用する第二の辞書（１２、１３）
に、対応する部分列が登録されていない場合には、前記
所定数より小さい数の前記第二の辞書（１２）又は前記
第一の辞書（１１）を用いて、符号化することを特徴と
する請求項２のデータ圧縮方法。
【請求項４】請求項１により符号化されたデータを復
元するデータ復元方法において、前記部分列に対し順
次、番号を割り付けた第一の辞書（１１）と、前記部分
列に対し、所定数の先頭データ単位で順次、番号を割り
付けた第二の辞書（１２、１３）とを設け、該第二の辞
書（１２、１３）の該符号化部分列の直前の所定数のデ
ータを先頭とする部分列の登録個数に応じて、該符号化
データを該第一の辞書（１１）を使用して、又は該符号
化部分列に所定数の直前のデータを付加した部分列を該
第二の辞書（１２、１３）を使用して、選択的に復元す
ることを特徴とするデータ復元方法。
【請求項５】前記第二の辞書（１２、１３）を、前記
先頭データの個数単位に複数設け、前記先頭データの個
数毎に閾値を定めておき、前記符号化部分列の直前の所
定数のデータを先頭とする部分列の登録個数が、当該所
定数の先頭データの閾値より大きく、該所定数より１つ
大きい数のデータを先頭とする部分列の登録個数が、当
該個数の先頭データの閾値より小さい場合には、前記先
頭データが所定数の前記第二の辞書（１２、１３）を使
用して、復元することを特徴とする請求項４のデータ復
元方法。
【請求項６】前記使用する第二の辞書（１２、１３）
に、対応する部分列が登録されていない場合には、前記
所定数より小さい数の前記第二の辞書（１２）又は前記
第一の辞書（１１）を用いて、復元することを特徴とす
る請求項５のデータ復元方法。