JP2732188B2

JP2732188B2 - 最適符号表現を用いた多段データ圧縮装置

Info

Publication number: JP2732188B2
Application number: JP7862193A
Authority: JP
Inventors: 孝志瀧塚; 圭子宮武
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1993-03-15
Filing date: 1993-03-15
Publication date: 1998-03-25
Anticipated expiration: 2013-03-25
Also published as: JPH06266531A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ圧縮に広く使用
されているLZW （Lempei-Zip-Welch）符号化の圧縮率を
高めて符号化することができるデータ圧縮装置に関する
ものである。

【０００２】

【従来の技術】LZW 符号（文献１：Terry A. Welch "A
Technique for High-Performance Data Compression"
, Computer, 17, 6, pp8-19, 1984 ）は、情報源によ
らないユニバーサル符号で実行速度も速いことから、デ
ータ圧縮に広く使用されている。UNIXオペレーティング
システムでは、可変長符号を採用したLZW 符号がファイ
ル圧縮コマンドcompressとして利用可能である。compre
ssでは出力する符号をＣ（０≦Ｃ≦Ｊ）、割り当てた最
大の符号をＪ＝２^m＋Ｌ（０＜Ｌ＜２^m）としたとき、
常にＣをｍ＋１ビットで符号化し、８個の符号をまとめ
てブロック化している。また、LZW 符号では、文字符号
の種類が少ないときには全文字符号に予め番号を付与し
ておくのではなく、初めて出てくる文字符号に符号を付
与した方がよいことが知られている（文献１参照）。

【０００３】LZW 符号化の符号割り当ての場合に、出力
符号Ｃの領域によって出力ビット長を変化させることに
より、LZW 符号の圧縮率を高めることができる。Ｃの出
現確率を一様とすると、符号長は式（１）で与えられる
ビット分、平均的に短縮される。従って、0 ≦Ｌ≦２^m
区間の平均は２ ^mが十分大きいときに、式（２）で示す
ように、 log_e4 −１＝0.386 で近似される。即ち、符
号長ｍ＋１が１２ビットであれば、0.386 ／12＝3.22％
の改善が行なわれる。この圧縮方式を対数圧縮と呼ぶ。

【０００４】

【数１】

【０００５】

【数２】

【０００６】このLZW 符号化の符号割り当ての場合に出
力する符号Ｃが０≦Ｃ＜２^m＋Ｌならｍビットで、２^m
≦Ｃ≦Ｊならｍ＋１ビットで符号化する方法が提案され
ている。（横尾英俊“ユニヴァーサル情報符号化のた
めの修正Zip-Lempei符号”，信学論（Ａ），Ｊ68−Ａ，
７，pp664-671, 昭60−07、参照）。

【０００７】

【発明が解決しようとする課題】UNIXの電子メイルシス
テムでは、バイナリファイルを送る場合に一旦ASCII の
印刷可能文字に変換する必要があり、UNIXではuuencode
を変換プログラムとして利用している。このuuencodeは
データを６ビット毎に切り、３２を足し込んでASCII コ
ードに変換している。テキストファイルでも、大きなフ
ァイルを送るときには、ファイル圧縮の結果得られたバ
イナリ形式のファイルをASCII 形式のファイルに変換す
ることが多い。しかし、和文テキストは、２バイトを基
本としたデータ構造になっているため、１バイト単位で
符号化するLZW 符号化の場合には圧縮効率が低い。ま
た、０等が多数連続するバイナリのデータに対しても圧
縮率が低い欠点がある。

【０００８】本発明は、このような従来技術の問題点に
鑑みてなされたもので、日本語を対象とする任意の出力
文字符号に対して従来の符号化圧縮よりも圧縮率を高め
ることのできる最適符号表現を用いた多段データ圧縮装
置を提供することを目的とする。

【０００９】

【課題を解決するための手段】この目的を達成するため
に、本発明による最適符号表現を用いた多段データ圧縮
装置は、データの圧縮のために、漢字データの同一区コ
ードの連続や、同一のバイトの連続や、数値表現の如き
特殊パターンを符号化して情報源依存の圧縮をする特殊
パターン符号化装置と、該情報源依存の圧縮を行なった
後出力を情報源によらないLZW 符号等のユニバーサル符
号のデータに最短符号表現を用いて符号化する汎用符号
化装置と、出力符号が限定されている場合に最短符号割
り当ての逆変換を用いて該出力符号の限定に適合する圧
縮データとして出力する符号変換装置とを備えた構成を
有している。

【００１０】

【作用】本発明による主要なる作用効果は次の通りであ
る。同一のバイトがＬ個連続したとき、LZW 符号では２
Ｌの平方根に相当する個数の符号が出力される。そこ
で、LZW 符号化において、日本語を対象とした圧縮と、
連続する同一バイトの圧縮を行う機能を付加すると有効
である。このために、LZW 符号化を行う前に、特殊パタ
ーン符号化装置によって、同一区コードの漢字の連続に
関して区コードを省略したり、同一バイトの連続に関し
て連続するバイトを省略する等の特殊パターン符号化を
行うことにより、日本語データやバイナリデータに対し
て圧縮率を高めることができる。出力文字符号がASCII の印刷可能文字等に制限され
ている場合に、使用可能な出力文字符号を全て用いるこ
とにより、より効率の良い符号変換を行うことが可能で
ある。出力コードとして、ｎ個（２ ^k ＜ｎ＜２ ^k+1 ）し
か使用できない場合、２ ^k+1 −ｎ個にｋビット長のデー
タを、２ｎ−２ ^k+1 個にｋ＋１ビット長のデータを割り
当てる最長符号表現を用いて出力することで、常にｋビ
ットで切り出す場合よりも効率的な変換が行われる。
（符号変換装置４）前記の横尾の手法を改良し、剰余系で座標移動する
ことにより、符号化したデータサイズもしくは出現する
文字符号によって動的に最短符号領域（ｍビットで符号
化する領域）を設定できるようにする。これにより圧縮
率はさらに改善される。また、LZW 符号化ではサイズの小さいデータ、又は
新しい文字コードが出現する毎に文字符号を割り当てる
ことにより、サイズの小さいデータに対しても圧縮率を
高めることが可能になる。

【００１１】

【実施例】以下、本発明の一実施例に於ける最適符号表
現を用いた多段データ圧縮装置を図１〜図１４を用いて
説明する。

【００１２】図１は符号割り当て装置のブロック構成図
である。ここで、１は符号化の対象となる原データであ
る。２は特殊パターン符号化装置である。３は装置２に
よって符号化されたファイルに対して、LZW 符号化を行
なう汎用符号化装置である。４は装置３によって符号化
圧縮されたバイナリ形式のデータを限定された任意の文
字セットのみを使用したデータに変換する符号変換装置
である。５は装置２，３，４によって圧縮，変換された
圧縮データである。

【００１３】特殊パターン符号化装置２は、汎用符号化
を行なう前に同一区コードの漢字の連続に関して区コー
ドを省略したり、同一バイトの連続に関して連続するバ
イトを省略する等の特殊パターン符号化を行なうことに
より、LZW 符号が不得意な系列に対する圧縮手段を備え
る。汎用符号化装置３は、新しく出現した文字符号に対
し、ASCII データに関しては７ビットで符号化し、最上
位ビットが１であるデータが現われたとき、モード切り
換え符号を出力し、その後に８ビットで符号化すること
により、サイズの小さいデータの圧縮率を高める。これ
を、出現符号割り当てと呼ぶ。LZW 符号化の出力する符
号をＣ、割り当てた最大の符号をＪ＝２^m＋Ｌ（０＜Ｌ
＜２^m）としたとき、ｍビットを見ただけで２^m−Ｌ個
の符号が一意的に決定できることを利用し、ｍビットと
ｍ＋１ビットを選択し、符号の値に応じて符号化する。
これを最短符号割り当てと呼ぶ。この際、符号の出現率
の高い範囲にｍビットで符号化する領域を設定すること
により、圧縮率を高める手段を備える。これを、動的符
号割り当てと呼ぶ。符号変換装置４は、汎用符号化装置
で符号化されたデータを、最短符号割り当ての逆変換を
用いて制限された出力符号にデータを変換する。これを
最長符号割り当てと呼ぶ。出力符号としてASCII の印刷
可能文字のみを使用する場合、３２〜１２６の９５個の
印刷可能文字が存在する。この符号変換装置４は、印刷
可能文字のうち１２８−９５＝３３個を６ビット長、２
×９５−１２８＝６２個を７ビット長の入力符号データ
の出力符号として割り当てることにより、平均ビット長
は、（33×６＋62×７）÷95＝6.65より、6.65となり、
常に６ビット長の出力符号で出力するuuencodeと比較し
て、１０％以上の改善を行なう手段を備える。

【００１４】以上のように構成された本実施例の制御手
順について説明する。（特殊パターン符号化装置２における符号化）まず、原データから特殊パターンを摘出して特殊パター
ンの文字列の符号化を行なう。図２にこの場合の符号割
り当て例を示す。ここでは漢字以外の文字符号の長さを
８ビット、漢字の文字符号の長さを１６ビットとする。
負の符号を文字型制御符号及び非文字型制御符号として
使用する。非文字型制御符号は、ASCII文字から漢字等
へのモード切り換え符号や、ファイル名の指定、ファイ
ルの終わりを表す符号等の、あまり使われない符号であ
り、符号化を行なわずに符号をそのまま出力する。文字
符号と文字型制御符号はLZW 符号化において符号化の対
象とする。符号化の時点で、句読点や括弧、中黒、長音
記号等の平仮名や片仮名の中によく現われる文字は、３
〜５区の空いている符号にも割り当て、これらの文字の
前後の文字が３〜５区の場合に、連続した文字列が同一
の区に属するようにする。また、割り当てた区点コード
を持つ外字や漢字と判断できない系列が現われた場合に
は処理を中断する。

【００１５】図３に特殊パターン符号化の例を示す。な
お、説明のために、この図３を含む以下の図および関連
する説明において、xxを数値としたとき１６進をxxH 、
２進をxxB で表すことにする。図３において、' 「'
、' −' 、' ¬' の漢字コードについて、区コードa8H
が連続している。漢字コードの場合は、同一の区コー
ドの漢字の繰り返しに関して、点コードの最上位ビット
を０とすることで、同一区コードが連続することを示
し、同一区コードの最後の点コードは、最上位ビットを
１とすることによって示す。ここでは、区コードa8H の
漢字が連続している。区コード'a8'の漢字の点コード
は、最上位ビットを０とすると、23H 、21H となる。最
後の点コードは、最上位ビットを１とすると、a4Ｈとな
る。

【００１６】文字符号の繰り返し回数が２回以下の場合
には、その文字符号は変換をしない。３回以上の文字符
号の繰り返しに対し、文字の種類を増やさないために、
文字型制御符号と、それまでに出現した文字符号を用い
て繰り返し回数を符号化する。３回と４回の繰り返しに
ついては、それぞれの繰り返し回数を表す文字型制御符
号（図６参照）を使用する。５回以上の繰り返しに対し
ては、回数を出現した文字符号のみを使用して表現する
ために出現文字符号表を作る。例えば、21H の繰り返し
が検出された時点で出現文字符号表は図４のようにな
り、出現文字符号数Ｒは６になる。ここで第１欄はその
文字符号に対応付けた数値とする。Ｘが繰り返し回数
（５≦Ｘ＜５＋Ｒ）であるとき、多回繰り返しを表す文
字型制御符号と出現文字符号表の数値Ｘ−５の符号の組
で繰り返し回数を符号化する。この場合、数値０の符号
が繰り返し回数５回に対応する。以下、同様に繰り返し
回数を対応付ける。Ｘ＝Ｒ＋５であるとき、多回繰り返
し制御符号３個で繰り返し回数を表す。Ｘ＞Ｒ＋５であ
るとき、Ｃ_iを出現文字符号表の符号として、「多回繰
り返し」「多回繰り返し」Ｃ₁Ｃ₂…Ｃ_n「多回繰り返
し」で表す。

【００１７】文字符号から出現文字の数値を得る関数を
ｌｏｃ（Ｃ _i ）とすると、Ｃ ₁ …Ｃ _n を用いてＸ−（Ｒ
＋５）を表す。Ｃ ₁ …Ｃ _n によって表すことのできる数
値は、数式（３）の通りである。数式（３）において

【外１】符号化にｉ桁必要となる数値のオフセット（プラスする
数）を表す。これは図５のように２桁の２値表現、即
ち、ｎ＝２，Ｒ＝２の場合、０桁で表されるのは数値０
のオフセット０、１桁で表されるのは数値０、１のオフ
セット１、すなわち、１，２となり、２桁で表されるの
は００Ｂ（０），０１Ｂ（１），１０Ｂ（２），１１Ｂ
（３）のオフセット３、すなわち、３，４，５，６とな
ることを意味する。

【００１８】

【数３】

【００１９】非文字型制御符号としては、非漢字デー
タ、バイナリモード、EOD(End of Data)、0000B 用非文
字型制御符号、0001用非文字型制御符号、…、1111B 用
非文字型制御符号をここでは用意する。図６に制御符号
を示す。

【００２０】（汎用符号化装置３における符号化）次に、LZW 符号化を用いた汎用符号化を行なう。特殊パ
ターン符号化装置２で符号化されたデータを汎用符号化
装置３で符号化して出力するときは、ASCII データに関
しては７ビットで符号化し、最上位ビットが"1" である
データが現れたとき、モード切り換え符号を出力し、そ
の後に８ビットで符号化する。さらに文字コード下位Ｅ
（＝０〜７）ビットを非文字型制御符号とし、残りの７
−Ｅまたは８−Ｅビットを制御符号の後続情報として符
号化し、各文字コードに符号を付与する。Ｅ＝４で ' '
を送る場合、図７に示すように、' ' を表す符号は0010
0000B で、下位４ビット0000B を対応する非文字型制御
符号とし、後続情報をASCII モードであれば010B、８ビ
ットモードであれば0010B を文字符号としてLZW 符号化
する。

【００２１】LZW 符号化において、制御符号のLZW 符号
を予め定める。制御符号のLZW 符号化は図６に示した通
りである。図３の出力符号に関する汎用符号化を図８に
示す。

【００２２】LZW 符号では、ＫωＫωＫとして知られる
特別な系列のために、復号側はＪ＋１が入力の最大符号
となる。従って、この割り当てをLZW 符号に適用する場
合、上限をＪ＋１にする必要がある。但し、初期状態の
直後は特別な系列にならないので、上限はＪでよい。こ
こで、剰余系で座標移動することにより、ｍビットで符
号化する領域を任意に設定できる。最適な領域は、デー
タの種別と符号化したサイズによって異なるため、デー
タの種別と符号化したサイズによってｍビットで符号化
する領域を設定する。具体的にどの領域が最適であるか
は、実際に符号化した結果により求める。２ ^m をＨとす
ると、０＜Ｌ＜Ｈ、Ｊ＝Ｈ＋Ｌが成り立つ。ｄ＝Ｌ＋１
だけ座標移動したい場合のアルゴリズムをＣ言語を用い
て次の（手順１）に示す。

【００２３】（手順１）Ｈ：２ ^m Ｃ：出力する符号（０≦Ｃ＜２ ^m+1 ）ｄ：座標移動ｄ＝Ｌ＋１Ｊ：割り当てた最大の符号Ｊ＝Ｈ＋Ｌ（０＜Ｌ＜Ｈ）Ｃ＝Ｃ＋ｄ；ｉｆ（Ｃ＞Ｊ）Ｃ＝Ｃ−（Ｊ＋１）；復号の場合は、ｄ＝Ｊ−（Ｌ＋１）を初めに実行する

【００２４】図８の出力符号を（手順１）によって座標
移動し、（手順２）のアルゴリズムによって出力した結
果を図９に示す。

【００２５】（手順２）Ｈ：２^m value をsizeビットで出力する関数を bit Put (value , size)とするｉｆ（（Ｌ＜Ｃ）＆＆（Ｃ＜Ｈ）） bit Put （Ｃ，ｍ） else bit Put （Ｃ，ｍ＋１）；

【００２６】復号の場合は、（手順３）のアルゴリズム
によって符号を切り出す。

【００２７】（手順３） sizeビットを切り出す関数を bit Get (size)とするＣ＝ bit Get （ｍ）；ｉｆ（Ｃ≦Ｌ）Ｃ＝（ bit Get (1)≪ｍ）｜Ｃ；

【００２８】（符号変換装置４における符号化）符号変換装置４は、汎用符号化装置３で出力されたバイ
ナリ形式のデータを変換テーブルを使用して制限された
文字符号セットにして出力する。

【００２９】符号変換装置４に於ける符号化、復号の結
果を図１０に示す。汎用符号化装置３から入力された符
号と使用ビット長を図１１の変換テーブルから検索す
る。このテーブルでは、使用ビット長６の場合は常に入
力符号の下位６ビット、使用ビット長７の場合は常に入
力符号の下位７ビットで出力符号が定まり、且つ使用ビ
ット長７に対応する入力符号の下位６ビットが使用ビッ
ト長６に対応する入力符号の下位６ビットとは異なり、
且つ出力符号を総て使用するように作られている。例え
ば入力符号xy101101B （ｘとｙは０または１）の出力符
号は’Ｍ’、使用ビット長は下位６ビットである。即
ち、下位６ビットが101101B である出力符号は’Ｍ’の
みであるため、入力符号の下位６ビットを右シフトで捨
て、残りxyが８ビット以上であれば、繰り返し検索を行
なう。次に入力符号Ｃを受け取ったときには、残りのビ
ット上位に挿入し（Ｃxy）、合計のビット長が８ビット
以上であれば検索を行なう。復号の場合は、入力された
符号を図１１の変換テーブルから検索し、その符号値と
符号ビット長を求める。入力文字符号’Ｍ’の符号値は
4dH 、符号ビット長は６ビットであるため、６ビットで
切り出す。ここでは、８ビットの入力コードを７ビット
もしくは６ビットで符号化する。例えば入力コード’１
４’に対し、７ビットで符号化した結果は’ａ’であ
る。残りの１ビットに次の入力コードを付け加えて、同
様に符号化を続ける。復号の場合は、入力符号’ａ’は
７ビットの符号値’１４’になる。

【００３０】

【発明の効果】compressに対する本発明による改善率の
例を図１２，図１３，図１４に示す。ここでは出力に全
ての文字コードセットを使用して、compressと比較評価
を行なった。英文テキストデータとしてSparc Station
2 上のSunOS Release 4.1.2 の/usr/man/man1/* 、和文
テキストデータとして/usr/man/japanese/man1/*、バイ
ナリデータとして/bin/*を採用し、compressにより圧縮
ができたファイルに対する改善率を示す。（イ）は短い
符号を割り当てる範囲が０≦Ｃ＜２^m−Ｌ、（ロ）はＬ
≦Ｃ＜２^m、（ハ）は２Ｌ≦Ｃ≦Ｊのときの値である。
テキストデータではＥを４、バイナリデータではＥを６
にしているが、通常Ｅ＝４〜６で最適な圧縮率が得ら
れ、入力に現われる文字種が多いほど大きい値が良い。
ここで、符号表の飽和時には、最近使用された符号を最
大の符号の半分だけ残す方式を採用した。

【００３１】動的符号割り当ての圧縮効果は、compress
の出力ファイルの大きさからLZW の符号数を計算し、式
（４）を厳密に計算することによって求めた結果を対数
圧縮効果とし、（イ）と（ロ）と（ハ）の平均から対数
圧縮効果を引いたものをその他の効果として示す。図中
の−は、該当する値がないことを表し、＊は符号表飽和
時の処理の違いのために比較ができないことを表す。

【００３２】

【数４】

【００３３】符号の出現確率が一様でないため、テキス
トデータでは３０Ｋバイト以下のサイズのとき（イ）の
範囲が、それ以上のサイズでは（ハ）の範囲が高い改善
率を上げている。バイナリデータでは１Ｋバイト以下の
サイズのとき（ハ）の範囲が、それ以上のサイズでは
（イ）の範囲が高い改善率を上げている。

【００３４】２バイト符号の多い和文テキストには、多
種類の文字が出現するため、大きなファイルでは出現割
り当て効果は殆どないため、和文テキストに於けるその
他の効果は、連続する同一区コードの漢字の圧縮による
ものであり、約４〜７％圧縮率が強化されていることが
分かる。本和文テキストには多くのroffコマンドがASCI
I 文字で挿入されているため、純然たる和文テキストの
場合には更に圧縮率が向上するものと思われる。長い文
字列の連続は殆どない英文テキストに於けるその他の効
果は出現割り当てによるものであり、0.2 〜35％圧縮率
を強化することができる。殆どの文字が出現するバイナ
リデータでは、出現符号割り当て方式を用いると圧縮率
が悪化する。ファイルサイズが、１Ｋバイト以下のバイ
ナリデータは、ほとんどASCII で書かれたシェルスクリ
プトである。１Ｋバイト以上のバイナリデータにおける
その他の効果は連続する同一バイトの圧縮によるもので
あり、ファイル数の多い範囲で0.2 〜15％圧縮率を強化
することができる。

【００３５】出力符号をASCII の印刷可能文字に制限す
る場合には、uuencodeより10％以上効率の良い符号割り
当てを行なうことができるため、本装置全体の圧縮効率
をcompressとuuencodeを組み合わせた圧縮率と比較する
と、１５〜５０％程度圧縮率が改善される。

【００３６】以上のように、本発明によれば、日本語を
対象とする任意の出力文字符号に対して従来の符号化圧
縮よりも圧縮率を高めることができ、飽和時の処理以外
は、処理が単純であるため、殆ど実行速度を低下させず
に実現可能である。よって、日本語データの広い処理分
野に適用して効果大である。

【図面の簡単な説明】

【図１】本発明の実施例を示すブロック構成図である。

【図２】本発明に用いられる制御コードの割り当てを示
す図である。

【図３】本発明における特殊パターン符号化の例を示す
図である。

【図４】本発明における出現文字符号表を示す図であ
る。

【図５】本発明における２桁の２値表現を示す図であ
る。

【図６】本発明における制御符号のLZW 符号を示す図で
ある。

【図７】本発明における符号割り当ての例を示す図であ
る。

【図８】本発明における汎用LZW 符号化の例を示す図で
ある。

【図９】本発明における座標移動の例を示す図である。

【図１０】本発明における符号変換装置における符号化
の例を示す図である。

【図１１】本発明における符号変換装置における変換テ
ーブルの例を示す図である。

【図１２】本発明によるcompressに対する改善率を示す
図である。

【図１３】本発明によるcompressに対する改善率を示す
図である。

【図１４】本発明によるcompressに対する改善率を示す
図である。

【符号の説明】

１原データ２特殊パターン符号割り当て装置３汎用符号割り当て装置４符号変換装置５圧縮データ

Claims

(57)【特許請求の範囲】

【請求項１】データの圧縮のために、漢字データの同
一区コードの連続や、同一のバイトの連続や、数値表現
の如き特殊パターンを符号化して情報源依存の圧縮をす
る特殊パターン符号化装置と、該情報源依存の圧縮を行なった後出力を情報源によらな
いLZW 符号等のユニバーサル符号のデータに最短符号表
現を用いて符号化する汎用符号化装置と、出力符号が限定されている場合において、出力コードと
してｎ個（２ ^k ＜ｎ＜２ ^k+1 ）しか使用できないとき、
２ ^k+1 −ｎ個にｋビット長のデータを割り当て２ｎ−２
^k+1 個にｋ＋１ビット長のデータを割り当てる最長符号
表現を用いて該出力符号の限定に適合する圧縮データと
して出力する符号変換装置とを備えた最適符号表現を用
いた多段データ圧縮装置。
【請求項２】前記特殊パターン符号化装置は、漢字デ
ータの同一区コードの連続のうち２番目以降の区コード
を省略し、点コードのみにすることにより圧縮する機能
を有することを特徴とする請求項１に記載の最適符号表
現を用いた多段データ圧縮装置。
【請求項３】前記汎用符号化装置は、符号化したデー
タサイズもしくは出現する文字符号によって動的に最短
符号領域を変化させるLZW 符号を用いることを特徴とす
る請求項１に記載の最適符号表現を用いた多段データ圧
縮装置。