JPH08116269A

JPH08116269A - データ処理装置及びデータ処理方法

Info

Publication number: JPH08116269A
Application number: JP6251016A
Authority: JP
Inventors: Hitoshi Ono; 均大野; Yuko Abe; 優子安部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-10-17
Filing date: 1994-10-17
Publication date: 1996-05-07
Anticipated expiration: 2016-12-25
Also published as: JP3242795B2

Abstract

(57)【要約】【目的】データ処理装置に関し、一致したデータ又は
データ列等を辞書バッファの先頭から単に追い出すこと
なく、辞書データのスライド方法を工夫し、参照辞書の
数を実質的に増やして、重複した辞書データをストック
することなく、追い出された辞書データを有効に利用す
ること、及び、データ圧縮率を高める。【構成】辞書データ又は辞書データ列と、入力された
被圧縮データ又は被圧縮データ列とを比較して辞書デー
タ又は辞書データ列と被圧縮データ又は被圧縮データ列
とが一致した場合に、一致した部分の辞書データ又は辞
書データ列を辞書バッファから追い出し、辞書データ又
は辞書データ列が追い出された辞書バッファ12Ｂのデー
タ書込み範囲を一方向に詰め、データ書込み範囲が詰め
られた辞書バッファ12Ｂに一致した被圧縮データ又は被
圧縮データ列を新たな辞書データとして書き込む辞書制
御手段１４が設けられる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ処理装置及びデ
ータ処理方法に関するものであり、更に詳しく言えば、
辞書データと入力データとを比較して一致するデータを
符号化し、逆に、符号化された圧縮データを復号化する
装置及び方法の改善に関するものである。

【０００２】近年、情報処理装置の高機能化及び多様化
に伴い、膨大な量のデータを格納する磁気ディスク装置
等の記憶装置を使用した装置及びそれらデータを通信回
線を使用して伝送する装置が利用される。このような分
野では、高効率化により利用者のコスト削減を図るべ
く、データ格納に際しては、記憶容量を実質的に増やす
ため、及び、データ転送に際しては、送信時間を短縮す
るために、データを圧縮する装置が使用される。

【０００３】現在の辞書ベースによりデータ圧縮をする
方法は、Ｌempel Ａbraham氏とＺivＪacob氏が1977年に
ＩＥＥＥＴransaction on Ｉnformation Ｔheory に
発表した論文‘ＡＵniversal Ａlgorithm for Ｓeq
uential Ｄata Ｃompression’に見られる。これは、通
称Ｌempel-Ｚiv符号化のスライド辞書法又はＬＺ７７法
と言われている。

【０００４】また、ＬＺ７７法に対して２つの大きな変
更を行ったＬＺＳＳ法がある。これは、Ｓtorer 氏とＳ
zymanski氏が1982年に発表した‘Ｄata Ｃompression
viaＴextual Ｓubstitution ’に見られ、通称ＬＺＳ
Ｓ（Ｌempel-Ｚiv- Ｓtorer-Ｓzymanski）法と呼ばれ、
データ検索時の性能改善を行ったものである。しかし、
ＬＺ７７法によれば、ひとつの連続したデータ列の符号
化が終わると、次のステップでは符号化したバイト数の
辞書データを辞書バッファの先頭から追い出す方法が採
られる。

【０００５】このため、辞書バッファ内に辞書データが
重複して存在したり、過去に一致した実績がある辞書デ
ータでも辞書バッファから必ず追い出される等を原因と
してデータ圧縮率が低下する。そこで、一致したデータ
又はデータ列等を辞書バッファの先頭から単に追い出す
ことなく、辞書データのスライド方法を工夫し、参照辞
書の数を実質的に増やして、重複した辞書データをスト
ックすることなく、追い出された辞書データを有効に利
用すること、及び、データ圧縮率を高めることができる
装置及び方法が望まれている。

【０００６】

【従来の技術】図12, 13は、従来例に係るデータ圧縮方
法の説明図である。図12（Ａ）は、データ圧縮装置の構
成図であり、図12（Ｂ）はデータ圧縮時の状態図であ
る。図13（Ａ）〜（Ｃ）は、その問題点を説明する符号
化処理の状態図をそれぞれ示している。

【０００７】例えば、ＬＺ７７（スライド辞書法）を応
用したデータ圧縮装置は、図12（Ａ）に示すように、原
データファイル１，データ変換装置２及び圧縮データフ
ァイル３から成る。データ変換装置２は入力バッファ２
Ａ，辞書バッファ２Ｂ及び中央処理装置（以下ＣＰＵと
いう）２Ｃを有する。ＬＺ７７のデータ構造は、図12
（Ｂ）に示すように、符号化済みの入力データ列をある
メモリ範囲により構成し、これを辞書バッファ２Ｂに格
納する。辞書バッファ２Ｂに格納された辞書データは、
圧縮データ後の辞書として残されることなく、そのまま
圧縮データファイル３に転送される。初期状態の辞書バ
ッファ２Ｂには、データ構造にあった値が詰められる場
合もある。

【０００８】当該装置の機能は、原データファイル１か
ら読み出された原データが入力データＤinとして、デー
タ変換装置２の入力バッファ２Ａに書き込まれる。次
に、データ検索をするべくＣＰＵ２Ｃにより、バッファ
２Ａに書き込まれたデータと、辞書バッファ２Ｂに格納
された辞書データとが比較される。この辞書データは、
入力データが利用される。一般にデータ検索は、先に格
納されたデータの先頭位置から行い、辞書バッファ２Ｂ
内で、最長一致データ列が探索される。

【０００９】また、ＣＰＵ２Ｃによりデータ比較された
結果、辞書データと入力データとに一致する部分が検索
されると、この最長一致データは符号化されて圧縮さ
れ、この圧縮データＤout が、圧縮データファイル３に
格納される。これにより、以前に符号化した入力データ
列を辞書データとして利用し、該辞書データ列と入力デ
ータ列の中の連続データ部分との最長一致を検索し、そ
の一致情報を符号化することができる（ＬＺ７７法）。

【００１０】つまり、ＬＺ７７法は、あるメモリ範囲に
よって画定される入力バッファ２Ａと辞書バッファ２Ｂ
内のデータ列で同じデータ部分を探し、この同じデータ
部分を圧縮する方法である。このときの最長一致データ
は、図12（Ｂ）に示すように、辞書バッファ２Ｂと入力
バッファ２Ａ内で、両データが一致し始める一致開始位
置（アドレス又はオフセット）から、連続して両データ
が一致しなくなるまでのデータの最大の長さ（通常はバ
イト数で表す）を以て定義される。辞書データは、入力
バッファ２Ａ内で一致した直後のデータが辞書バッファ
２Ｂに転送される。

【００１１】具体的には、図12（Ｂ）において、一致開
始位置が「２」であり、最長一致データ＝ｕ，ｉ，ｍ，
ａ，ｄが「５」バイトである。入力バッファ２Ａ内に
は、当該一致データ＝ｕ，ｉ，ｍ，ａ，ｄに連続する次
のデータ＝ｆが存在する。ひとつの連続したデータ列＝
ｕ，ｉ，ｍ，ａ，ｄの符号化が終わると、図12（Ｃ）に
示すように、次のステップとして、一致したデータ列＝
５バイトと、次のデータ＝１バイト分に相当する６バイ
トの辞書データ＝ａ，ｎ，ｕ，ｉ，ｍ，ａが辞書バッフ
ァ２Ｂの先頭から追い出され、その後、この追い出され
た６バイト分のデータを補充するべく、入力バッファ２
Ａから辞書バッファ２Ｂに辞書データとして、６バイト
のデータ＝ｕ，ｉ，ｍ，ａ，ｄ，ｆが補充される。この
ように見かけ上、辞書バッファ２Ｂの窓が移動したよう
に見えることから、スライド辞書法と呼ばれる。

【００１２】

【発明が解決しようとする課題】ところで、従来例によ
れば、図12（Ｂ）に示すように、ひとつの連続したデー
タ列＝ｕ，ｉ，ｍ，ａ，ｄの符号化が終わると、次のス
テップとして、一致したデータ列＝５バイトと、次のデ
ータ＝１バイト分に相当する６バイトの辞書データ＝
ａ，ｎ，ｕ，ｉ，ｍ，ａが辞書バッファ２Ｂの先頭から
追い出される（ＬＺ７７法のスライド辞書法）。このた
め、次のような問題がある。

【００１３】辞書バッファ２Ｂ内で同じ辞書データ
が重複して存在する可能性があり、データ圧縮率が低下
する。例えば、図13（Ａ）に示すような符号化前のデー
タ検索状態で、データ列「ａ，ｂ，ｃ」が一致したとす
ると、ＬＺ７７法の変形型では、図13（Ｂ）に示すよう
に、無条件に辞書バッファ２Ｂの先頭から一致したデー
タ列のバイト数，例えば、３バイトだけ、辞書データ＝
「ｘ，ｙ，ｚ」が追い出される。このため、図13（Ｃ）
に示すような符号化後の状態では、辞書バッファ２Ｂに
データ列「ａ，ｂ，ｃ」が重複して残ることになる。

【００１４】また、データ圧縮率を上げるために
は、辞書バッファ２Ｂのメモリ領域を拡張し、検索範囲
を拡張することが考えられる。しかし、一般に、辞書バ
ッファ２Ｂのサイズを大きくした場合には、多くの検索
時間を要する。また、サイズを広げると、符号化するデ
ータに関し、位置情報のデータ長を拡張する必要があ
る。更に、この方式では、過去に一致した実績がある辞
書データでも辞書バッファ２Ｂから必ず追い出される。

【００１５】本発明は、かかる従来例の問題点に鑑み創
作されたものであり、一致したデータ又はデータ列等を
辞書バッファの先頭から単に追い出すことなく、辞書デ
ータのスライド方法を工夫し、参照辞書の数を実質的に
増やして、重複した辞書データをストックすることな
く、追い出された辞書データを有効に利用すること、及
び、データ圧縮率を高めることが可能となるデータ処理
装置及びデータ処理方法の提供を目的とする。

【００１６】

【課題を解決するための手段】図１〜11は、本発明に係
るデータ処理装置及びデータ処理方法の一実施例を示し
ている。第１のデータ処理装置は、図１に示すように、
被圧縮データを利用した辞書データ又は辞書データ列を
格納する辞書バッファを備え、順次、入力される被圧縮
データとを比較して一致する辞書データ又は辞書データ
列を符号化し、逆に、符号化された圧縮データを復号化
するときに、前記辞書データ又は辞書データ列と、入力
された前記被圧縮データ又は被圧縮データ列とを比較し
て前記辞書データ又は辞書データ列と前記被圧縮データ
又は被圧縮データ列とが一致した場合に、前記一致した
部分の辞書データ又は辞書データ列を辞書バッファ12Ｂ
から追い出し、前記辞書データ又は辞書データ列が追い
出された辞書バッファ12Ｂのデータ書込み範囲を一方向
に詰め、前記データ書込み範囲が詰められた辞書バッフ
ァ12Ｂに前記一致した被圧縮データ又は被圧縮データ列
を新たな辞書データとして書き込む辞書制御手段１４が
設けられることを特徴とする。

【００１７】本発明の第２のデータ処理装置は、図１に
示すように、前記辞書バッファ12Ｂから追い出されたデ
ータ又は辞書データ列を記憶する補助辞書バッファ12Ｃ
が設けられることを特徴とする。本発明の第３のデータ
処理装置は、図１に示すように、前記被圧縮データの中
で予め調査された出現頻度の高い固定データ又は固定デ
ータ列を辞書データとして書き込んだ固定辞書バッファ
12Ｄが設けられることを特徴とする。

【００１８】本発明の第４のデータ処理装置は、図10
（Ａ）に示すように、前記辞書バッファ12Ｂが、被圧縮
データを辞書データとして書き込むメモリ領域を非終端
ループ状に接続した環状構造を有することを特徴とす
る。本発明の第１のデータ処理方法は、被圧縮データを
利用した辞書データ又は辞書データ列と、順次、入力さ
れる被圧縮データとを比較して一致するデータ又はデー
タ列を符号化し、逆に、符号化された圧縮データを復号
化するときに、図３の処理フローチャートのステップＰ
３で前記辞書データ又は辞書データ列と、入力された前
記被圧縮データ又は被圧縮データ列とを比較して、その
後、ステップＰ４で前記辞書データ又は辞書データ列と
前記被圧縮データ又は被圧縮データ列とが一致した場合
に、ステップＰ８で前記一致した部分の辞書データ又は
辞書データ列を辞書のデータ書込み範囲から追い出し、
前記データ又はデータ列が追い出された辞書のデータ書
込み範囲を一方向に詰め、前記データ書込み範囲が詰め
られた辞書に前記一致した被圧縮データ又は被圧縮デー
タ列を新たな辞書データとして書き込むことを特徴とす
る。

【００１９】本発明の第２のデータ処理方法は、前記辞
書データ又は辞書データ列と、入力された前記被圧縮デ
ータ又は被圧縮データ列とを比較する際に、図７の処理
フローチャートのステップＰ２で前記辞書バッファ12Ｂ
から追い出されたデータ又は辞書データ列を参照するこ
とを特徴とする。本発明の第３のデータ処理方法は、前
記辞書データ又は辞書データ列と、入力された前記被圧
縮データ又は被圧縮データ列とを比較する際に、図９
（Ｂ）の処理フローチャートのステップＰ３で前記被圧
縮データの中で予め調査された出現頻度の高い固定デー
タ又は固定データ列を参照することを特徴とする。

【００２０】本発明の第４のデータ処理方法は、前記辞
書データ又は辞書データ列と、入力された前記被圧縮デ
ータ又は被圧縮データ列とを比較する際に、図11（Ｂ）
に示すように、前記辞書データ又は辞書データ列が書き
込まれた辞書用のメモリ領域に連続する入力用のメモリ
領域に書き込まれた被圧縮データ又は被圧縮データ列を
辞書データ又は辞書データ列として見なすことを特徴と
し、上記目的を達成する。

【００２１】

【作用】次に、図１を参照しながら本発明の第１のデー
タ処理装置の動作を説明をする。図１において、あるメ
モリ範囲で被圧縮データが入力バッファ12Ａに入力さ
れ、辞書データが辞書バッファ12Ｂに書き込まれると、
この辞書データ又は辞書データ列と、入力された被圧縮
データ又は被圧縮データ列とが辞書制御手段１４により
比較され、その結果、辞書データ又は辞書データ列と被
圧縮データ又は被圧縮データ列とが一致した場合には、
一致した部分の辞書データ又は辞書データ列が辞書制御
手段１４により、辞書バッファ12Ｂから追い出される。

【００２２】この辞書データ又は辞書データ列が追い出
された辞書バッファ12Ｂのデータ書込み範囲は、一方向
（先頭方向）に詰められ、このデータ書込み範囲が詰め
られた辞書バッファ12Ｂに、入力バッファ12Ａからの一
致した被圧縮データ又は被圧縮データ列が新たな辞書デ
ータとして書き込まれる（第１のデータ処理方法）。こ
のため、一致したデータ又はデータ列に重複した辞書デ
ータ又は辞書データ列が、辞書バッファ12Ｂのデータ書
込み範囲から外部等に追い出されるため、従来例のよう
に、当該一致データに関係しないデータを単に辞書バッ
ファ12Ｂの先頭から追い出すことが無くなる。すなわ
ち、重複した辞書データを辞書バッファ12Ｂに格納する
ことが無くなる。

【００２３】これにより、常に、異なった種類の辞書デ
ータを辞書バッファ12Ｂに格納することができ、従来例
に比べて辞書バッファ12Ｂの冗長性が少なくなり、デー
タ圧縮率を高めることが可能となる。本発明の第２のデ
ータ処理装置によれば、図１に示すように補助辞書バッ
ファ12Ｃが設けられ、辞書バッファ12Ｂから追い出され
たデータ又は辞書データ列が当該バッファ12Ｃに記憶さ
れる。

【００２４】このため、辞書バッファ12Ｂのメモリ容量
を変えずに、過去に一致した実績がある辞書データ又は
辞書データ列を補助辞書バッファ12Ｃに記憶すること
で、参照できる辞書の数を実質的に増やすことができ
る。辞書バッファ12Ｂ内に辞書データが無い場合に補助
辞書バッファ12Ｃを参照できる。すなわち、図７の処理
フローチャートに示すように、ステップＰ２で辞書バッ
ファ12Ｂから追い出されたデータ又は辞書データ列を参
照しながら、辞書データ又は辞書データ列と、入力され
た被圧縮データ又は被圧縮データ列とを比較することが
でき、原データのまま不一致として符号化されていたデ
ータを圧縮する確率を向上させることが可能となる（第
２のデータ処理方法）。

【００２５】これにより、辞書バッファ12Ｂから追い出
された辞書データを有効に利用することができ、辞書バ
ッファ12Ｂ及び補助辞書バッファ12Ｃを併用した移動窓
によるデータ圧縮をすることが可能となる。本発明の第
３のデータ処理装置によれば、図１に示すように、固定
辞書バッファ12Ｄが設けられ、被圧縮データの中で予め
調査された出現頻度の高い固定データ又は固定データ列
が辞書データとして当該バッファ12Ｄに書き込まれる。

【００２６】このため、固定辞書バッファ12Ｄ内に出現
頻度の高いとして登録された辞書データと、被圧縮デー
タの中の固定データ又は固定データ列とが比較されるこ
とから、データ検索速度の高速化を図ることが可能とな
る。すなわち、図９（Ｂ）の処理フローチャートに示す
ように、ステップＰ３で被圧縮データの中で予め調査さ
れた出現頻度の高い固定データ又は固定データ列を参照
しながら、辞書データ又は辞書データ列と、入力された
被圧縮データ又は被圧縮データ列とを比較することがで
きる（本発明の第３のデータ処理方法）。

【００２７】これにより、データ検索が従来例に比べて
早くなることから、データ圧縮処理の高速化を図ること
が可能となる。本発明の第４のデータ処理装置によれ
ば、図10（Ａ）に示すような環状構造を有する辞書バッ
ファ12Ｂが設けられる。このため、非終端ループ状に接
続されたメモリ領域に、以前に符号化した入力データ列
を辞書データとして書込むことができ、参照できる辞書
の数を実質的に増やすことができる。

【００２８】これを利用して、入力データ列の中の連続
した部分との最長一致を検索し、その一致情報を符号化
することができ、第１の装置の辞書バッファ12Ｂを拡張
した移動窓によりデータを圧縮することが可能となる。
本発明の第４のデータ処理方法によれば、図11（Ｂ）に
示すように、辞書用のメモリ領域に連続する入力用のメ
モリ領域に書き込まれた被圧縮データ又は被圧縮データ
列が辞書データ又は辞書データ列として見なされる。

【００２９】このため、参照できる辞書データの数を実
質的に増やすことができ、辞書データ又は辞書データ列
を入力用のメモリ領域に拡張して、一致するデータ又は
データ列を検索することができる。これにより、入力用
のメモリ領域の被圧縮データ又は被圧縮データ列同士を
比較することが可能となり、データ検索が従来例に比べ
て早くなることから、データ圧縮処理の高速化を図るこ
とが可能となる。

【００３０】

【実施例】次に、図を参照しながら本発明の各実施例に
ついて説明をする。図１〜11は本発明の実施例に係るデ
ータ処理装置及びデータ処理方法を説明する図である。（１）第１の実施例の説明図１は、本発明の各実施例に係るデータ処理装置の構成
図であり、図２は第１の実施例に係るデータ圧縮時の辞
書バッファの説明図である。図３は、データの圧縮フロ
ーチャートであり、図４は、各実施例に係るデータ圧縮
時の符号化処理の説明図である。図５はデータの復元フ
ローチャートをそれぞれ示している。

【００３１】例えば、本発明の第１〜第３の装置を組み
合わせたデータ圧縮又は復元装置は、図１（Ａ）に示す
ように、原データファイル１１，メモリ１２，ＥＰＲＯ
Ｍ１３，辞書制御手段（以下ＣＰＵという）１４，キー
ボード１５，ディスプレイ１６及び圧縮データファイル
１７から成る。すなわち、原データファイル１１は圧縮
時又は復元時の原データを格納するメモリである。当該
ファイル１１には磁気ディスク装置や半導体メモリ装置
を用いる。メモリ１２は圧縮時に、辞書データ及び被圧
縮データを一時記憶するものである。例えば、メモリ１
２は入力バッファ12Ａ，辞書バッファ12Ｂ，補助辞書バ
ッファ12Ｃ及び固定辞書バッファ12Ｄから成る。メモリ
１２には随時書込み／読出し可能なメモリを用いる。

【００３２】入力バッファ12Ａは被圧縮データを一時記
憶する。辞書バッファ12Ｂは、被圧縮データを利用した
辞書データを記憶する。補助辞書バッファ（以下一致辞
書バッファともいう）12Ｃは辞書バッファ12Ｂから追い
出されたデータ又は辞書データ列を記憶するものであ
る。一致辞書バッファ12Ｃは、本発明の第２の実施例に
おいて使用する（第２の装置）。

【００３３】固定辞書バッファ12Ｄは、被圧縮データの
中で予め調査された出現頻度の高い固定データ又は固定
データ列を辞書データとして書き込むものである。固定
辞書バッファ12Ｄは本発明の第３の実施例で使用する
（第３の装置）。なお、メモリ１２はデータ復元時に
は、辞書データ，辞書データ列又は被復元データ，被復
元データ列を一時記憶する。

【００３４】ＥＰＲＯＭ１３は、各実施例で使用する制
御アルゴリズムを格納するプログラム可能な読出し専用
メモリである。例えば、第１の実施例では図３に示すよ
うなデータ圧縮アルゴリズムや図５に示すようなデータ
復元アルゴリズムが格納される。第２の実施例では、図
７に示すような一致辞書の作成アルゴリズムや図８に示
すようなデータ復元アルゴリズムが格納される。第３の
実施例では、図９（Ｂ）に示すようなデータ圧縮アルゴ
リズムや図９（Ｃ）に示すようなデータ復元アルゴリズ
ムが格納される。この制御アルゴリズムの具体的な内容
については各実施例において説明をする。

【００３５】ＣＰＵ１４は辞書制御手段の一例であり、
入力バッファ12Ａ，辞書バッファ12Ｂ，補助辞書バッフ
ァ12Ｃ及び固定辞書バッファ12Ｄの入出力を制御する。
例えば、ＣＰＵ１４は辞書バッファ12Ｂ内の辞書データ
又は辞書データ列と、入力バッファ12Ａに順次，入力さ
れた被圧縮データ又は被圧縮データ列とを比較する。こ
の結果、ＣＰＵ１４は、辞書データ又は辞書データ列と
被圧縮データ又は被圧縮データ列とが一致した場合に、
一致した部分の辞書データ又は辞書データ列を辞書バッ
ファ12Ｂから追い出す。

【００３６】その後、ＣＰＵ１４は、辞書データ又は辞
書データ列が追い出された辞書バッファ12Ｂのデータ書
込み範囲を一方向に詰め、データ書込み範囲が詰められ
た辞書バッファ12Ｂに一致した被圧縮データ又は被圧縮
データ列を新たな辞書データとして書き込む。キーボー
ド１５は出現頻度の高い固定データ等を制御文にして入
力するツールである。ディスプレイ１６はキーボード１
５やＣＰＵ１４の入出力を補助するツールである。圧縮
データファイル１７は、圧縮時又は復元時の圧縮データ
を格納するメモリである。当該ファイル１７にはファイ
ル１１と同様な磁気ディスク装置や半導体メモリ装置を
用いる。

【００３７】これにより、当該装置が構成され、被圧縮
データを利用した辞書データ又は辞書データ列と、順
次、入力される被圧縮データとを比較して一致するデー
タ又はデータ列を符号化し、逆に、符号化された圧縮デ
ータを復号化することができる。次に、本発明の第１の
実施例に係るデータ圧縮方法について、図３の処理フロ
ーチャートを参照しながら当該装置の動作を説明する。
図３は、本発明の第１の実施例に係るデータの圧縮フロ
ーチャートであり、図１に示したＥＰＲＯＭ１３に格納
された制御アルゴリズムを成す。

【００３８】例えば、被圧縮データを利用した辞書デー
タ又は辞書データ列と、順次、入力される被圧縮データ
とを比較して一致するデータ又はデータ列を符号化する
場合、図３のフローチャートにおいて、まず、ステップ
Ｐ１で辞書バッファ12Ｂを初期化する。この際に初期化
によって、辞書バッファ12Ｂ内部が、データ＝「零」の
状態となる。

【００３９】次に、ステップＰ２で原データ列をファイ
ル１１から入力バッファ12Ａに読み込む。この際に、符
号化されていないデータを入力バッファ12Ａの先頭位置
に移動する。例えば、図２（Ａ）に示すように、数バイ
トの被圧縮データＤin＝ａ，ｂ，ｃ，ｘ，ｙ，ｚ，ｒ，
ｅ，ｗ…が入力バッファ12Ａに入力される。入力バッフ
ァ12Ａからの被圧縮データＤinは辞書バッファ12Ｂにシ
フトされ、その結果、ｎバイトの辞書データ＝ｘ，ｙ，
ｚ，ｄ，ｇ，ｋ，ｇ…ａ，ｂ，ｃ，ｕが辞書バッファ12
Ｂに書き込まれる。

【００４０】次いで、ステップＰ３で辞書バッファ12Ｂ
内に一致するデータ列が有るか否かを検索する。例え
ば、ＣＰＵ１４により辞書バッファ12Ｂ内に格納された
辞書データ列＝ａ，ｂ，ｃと、入力バッファ12Ａの被圧
縮データ列＝ａ，ｂ，ｃとが比較される。その後、ステ
ップＰ４で辞書データ列と被圧縮データ列とが一致した
か否かを判断する。この際に、一致データ列が有る場合
（ＹES）には、ステップＰ５に移行する。また、一致デ
ータ列が無い場合（ＮＯ）には、ステップＰ６に移行し
て原データをそのまま符号化し、ステップＰ７に移行す
る。

【００４１】ステップＰ４では辞書データ列＝被圧縮デ
ータ列＝ａ，ｂ，ｃとなることから、一致データ列が有
ると判断され、ステップＰ５で一致情報を符号化する。
具体的には、一致データの位置情報，その長さ情報等を
符号化する。この際の符号化については、図４において
説明をする。その後、ステップＰ７では符号化した圧縮
データをファイル１７に格納する。

【００４２】次いで、ステップＰ８で符号化した入力デ
ータ列を辞書バッファ12Ｂに移動する。この際に、ＣＰ
Ｕ１４は、図２（Ｂ）に示すように、一致した部分（重
複する部分）の辞書データ列＝ａ，ｂ，ｃを辞書バッフ
ァ12Ｂのデータ書込み範囲から追い出し、このデータ列
が追い出された辞書バッファ12Ｂのデータ書込み範囲を
先頭方向に詰める。具体的には、図２（Ａ）において、
辞書バッファ12Ｂの格納位置０から右にあるデータ列が
左にシフトされる。

【００４３】また、ＣＰＵ１４は、図２（Ｂ）に示すよ
うに、入力バッファ12Ａからデータ書込み範囲が詰めら
れた辞書バッファ12Ｂに、一致した被圧縮データ列＝
ａ，ｂ，ｃを新たな辞書データとして書き込む。このと
き、従来例と異なり、辞書バッファ12Ｂの先頭位置に格
納されたｘ，ｙ，ｚは、図２（Ｃ）に示すように、その
まま辞書データとして残留し、入力バッファ12Ａからの
新たな辞書データとして被圧縮データ列＝ａ，ｂ，ｃが
辞書バッファ12Ｂの最後部に格納される。この結果、先
頭データ列＝ｘ，ｙ，ｚが追い出されずに済むことにな
り、次の段階の辞書データとして使用される。

【００４４】その後、ステップＰ９で原データを全て圧
縮したか否かを判断する。この際に、原データを全て圧
縮した場合（ＹES）には、第１の実施例に係る制御アル
ゴリズムを終了し、原データを全て圧縮していない場合
（ＮＯ）には、ステップＰ２に戻って、原データ列をフ
ァイル１１から入力バッファ12Ａに読み込み、以下のス
テップを継続する。

【００４５】これにより、被圧縮データを利用した辞書
データ列と、順次、入力される被圧縮データとを比較し
て一致するデータ列を符号化することができる。ここ
で、具体的な符号化の方法を説明する。本発明の実施例
では、圧縮率を上げるために、ＬＺＳＳ法を改良する。
なお、データ圧縮率は〔原データ／圧縮データ〕×100
％で表される。

【００４６】本発明の第１の実施例で検索された一致デ
ータを図４（Ａ）に示すように圧縮データに変換する際
に、検索したデータの位置情報及び一致したデータの長
さを導入する。一般に、辞書バッファ12Ｂの最後部と、
入力バッファ12Ａの先頭位置近傍でデータが一致する場
合（以下近傍一致という）が多いことを利用して、圧縮
データの先頭部に識別子を設け、データ検索した位置情
報を付加する。この際の位置情報には、短い位置情報値
として「０」が書き込まれ、長い位置情報値として
「１」が書き込まれる。

【００４７】例えば、図４（Ａ）は、辞書バッファ12Ｂ
の大きさが２ＫＢの場合の位置情報を圧縮データに付加
したデータフォーマットを示している。図４（Ａ）にお
いて、本発明の実施例では、データ長が７ビット（０〜
６３）の場合に、短い位置情報値として「０」が書き込
まれ、データ長が１２ビット（０〜２０４７）の場合
に、長い位置情報値として「１」が書き込まれる。な
お、実際には、近傍一致をどの範囲に設定するか、ある
いは、複数の位置情報の刻みを設けるなど、被圧縮デー
タの種類に最も適した調整を行う必要がある。

【００４８】また、一致したバイト数を符号化する場合
に、出現頻度の高い符号を短い長さのビットで表す。こ
れは、一般に短いビット長さでの一致データが多いこと
に着目して、短い一致データ数に対して短い符号を割当
てることにより、データの長さについての符号化を考慮
したものである。このためには、図４（Ｂ）に示すよう
な符号木を用いる。図４（Ｂ）の符号木において、短い
位置情報値に「０」が書き込まれる場合として、＝
「０，０」や＝「０，１」が対象となり、これは図４
（Ｃ）に示すように、２バイト一致や３バイト一致を意
味する。図４（Ｃ）は符号木から構成される圧縮データ
の長さと対応ビット列の関係を示したものである。

【００４９】また、図４（Ｂ）において、長い位置情報
値に「１」が書き込まれる場合として、＝「１，０，
０」，＝「１，０，１」，＝１，１，０，０」，
＝「１，１，０，１」，＝「１，１，１，０，０」及
び＝「１，１，１，０，１」が対象となり、これは図
４（Ｃ）に示すように、それぞれ４〜９バイト一致をそ
れぞれ意味する。

【００５０】この手法は、出現確率の高いデータに対し
て、少ないビット数を割当てることにより、出現確率の
低いデータに異なるビット数を割当てた場合でも、一意
に復号化できるＳhannon- Ｆano 符号化又はＨuffman符
号化として知られた方法である。なお、何バイト一致が
多いか否かは、被圧縮データの種類によって異なるので
調整を行う必要がある。

【００５１】次に、本発明の第１の実施例に係る圧縮デ
ータの復元処理について説明をする。例えば、圧縮デー
タを利用した辞書データ又は辞書データ列と、順次、入
力される被復号データとを比較して一致するデータ又は
データ列を復号化する場合、図５の復号フローチャート
において、まず、ステップＰ１で辞書バッファ12Ｂを初
期化する。次に、ステップＰ２で圧縮データをファイル
１７から入力バッファ12Ａに読み込む。この際に、復号
化されていないデータを入力バッファ12Ａの先頭位置に
移動する。

【００５２】次いで、ステップＰ３で復号化情報を解析
し、原データに戻す。例えば、ＣＰＵ１４により辞書バ
ッファ12Ｂ内に格納された辞書データ列と、入力バッフ
ァ12Ａの被復号データ列とが比較される。その後、ステ
ップＰ４では復号化した原データをファイル１１に格納
する。次に、ステップＰ５で復号化した入力データ列を
辞書バッファ12Ｂに移動する。この際に、ＣＰＵ１４
は、一致した部分（重複する部分）の辞書データ列を辞
書バッファ12Ｂのデータ書込み範囲から追い出し、この
データ列が追い出された辞書バッファ12Ｂのデータ書込
み範囲を先頭方向に詰める。

【００５３】また、ＣＰＵ１４は、入力バッファ12Ａか
らデータ書込み範囲が詰められた辞書バッファ12Ｂに、
一致した被復号データ列を新たな辞書データとして書き
込む。その後、ステップＰ６で圧縮データを全て復元し
たか否かを判断する。この際に、圧縮データを全て圧縮
した場合（ＹES）には、制御アルゴリズムを終了し、圧
縮データを全て圧縮していない場合（ＮＯ）には、ステ
ップＰ２に戻って、被復号データ列をファイル１７から
入力バッファ12Ａに読み込み、以下のステップを継続す
る。

【００５４】これにより、被復元データを利用した辞書
データ列と、順次、入力される被復元データとを比較し
て一致するデータ列を復号化することができる。このよ
うにして、本発明の第１の実施例に係るデータ処理装置
によれば、図１に示すように、辞書データ列と被圧縮デ
ータ列とを比較して両データ列が一致した場合に、その
一致した部分の辞書データ列を辞書バッファ12Ｂから追
い出し、データ書込み範囲を一方向に詰めた辞書バッフ
ァ12Ｂに一致した被圧縮データ列を新たな辞書データと
して書き込むＣＰＵ１４が設けられる。

【００５５】このため、入力データ列に重複した辞書バ
ッファ12Ｂ内の辞書データ列が、そのデータ書込み範囲
から外部等に追い出される。すなわち、図２（Ａ）に示
したような符号化前のデータ検索状態で、データ列
「ａ，ｂ，ｃ」が一致したとすると、本発明の実施例で
は、図２（Ｂ）に示すように、辞書バッファ12Ｂのデー
タ書込み範囲の辞書データ＝「ａ，ｂ，ｃ」＝３バイト
が追い出される。

【００５６】この結果、従来例のように、当該一致デー
タに関係しない辞書バッファ12Ｂの先頭位置に格納され
たデータ「ｘ，ｙ，ｚ」を単に辞書バッファ12Ｂから追
い出すことが無くなる。これにより、図２（Ｃ）に示す
ような符号化後の状態では、辞書バッファ12Ｂにデータ
列「ａ，ｂ，ｃ」が重複して残ることが無くなる。一般
に、辞書データを増加すると、辞書バッファ自体の大き
さが増加し、圧縮率は低下するが、本発明の実施例で
は、辞書データの数は実質増えても、辞書バッファ自体
のメモリ容量、及び、圧縮後の符号ビットを増加しない
ところに大きな特長がある。

【００５７】また、本発明の実施例では、常に、異なっ
た種類の辞書データを辞書バッファ12Ｂに格納すること
ができ、従来例に比べて辞書バッファ12Ｂの冗長性が少
なくなり、データ圧縮率を高めることが可能となる。（２）第２の実施例の説明図６は、本発明の第２の実施例に係るデータ処理装置の
説明図であり、図６（Ａ）は、その一致辞書バッファの
説明図である。図６（Ｂ）は、一致データの符号化の説
明図であり、図６（Ｃ）は、一致データの検索範囲の説
明図をそれぞれ示している。

【００５８】第２の実施例では第１の実施例と異なり、
辞書データ列と被圧縮データ列とを比較する際に、辞書
バッファ12Ｂから追い出された辞書データ列を参照する
ものである。すなわち、本発明の第２のデータ処理装置
では、図１に示したように、辞書バッファ12Ｂから追い
出されたデータ又は辞書データ列を記憶する一致辞書バ
ッファ12Ｃを使用する。一致辞書バッファ12Ｃは、例え
ば、図６（Ａ）に示すように、あるメモリ容量を有する
環状構造のバッファを用いる。環状構造のバッファにつ
いては、本発明の第４の実施例において詳述する。

【００５９】この一致辞書バッファ12Ｃは、先に辞書バ
ッファ12Ｂから追い出された古いデータ上に、新しく辞
書バッファ12Ｂから追い出されたデータを，順次、上書
きするものである。このような方式に対して、参照頻度
をカウントし、参照頻度の低いものを上書きしても良
い。これにより、処理速度を犠牲にしても圧縮率を上げ
たい場合等に効果的である。

【００６０】一致辞書バッファ12Ｃには参照ポインタ及
び格納ポインタが設定される。参照ポインタは、一致辞
書バッファ12Ｃを参照する位置を示す。格納ポインタは
辞書バッファ12Ｂから追い出された現在の辞書データを
格納する位置を示す。参照ポインタは格納ポインタの前
に設置する。これは、辞書バッファ12Ｂから追い出され
た最も新しい辞書データを検索するためである。

【００６１】一致辞書バッファ12Ｃは辞書バッファ12Ｂ
よりもメモリ容量を大きめに採り、一致辞書バッファ12
Ｃの辞書データと辞書バッファ12Ｂの辞書データとが、
重複しないようにする。これは、辞書バッファ12Ｂから
追い出された一致データ列が、入力バッファ12Ａから移
動してくるので、一致したデータ列が直ぐには辞書バッ
ファ12Ｂから無くならないからである。

【００６２】なお、図６（Ａ）において、網かけ部分
は、一致辞書バッファ12Ｃ内で辞書データを検索する範
囲を示している。この検索範囲は被圧縮データの符号化
によって制限されるが、本発明の実施例では、２バイト
一致が最も多い被圧縮データファイルを想定している。
従って、一致辞書バッファ12Ｃは２バイト一致のデータ
のみを格納する構造を採っている。

【００６３】図６（Ｂ）は、一致辞書バッファ12Ｃの大
きさが２ＫＢの場合の位置情報を圧縮データに付加した
データフォーマットを示している。図６（Ｂ）におい
て、本発明の第１の実施例と同様に、データ長が１２ビ
ット（０〜２０４７）の場合に、長い位置情報値として
「１」が書き込まれる。なお、実際には、近傍一致をど
の範囲に設定するか、あるいは、複数の位置情報の刻み
を設けるなど、被圧縮データの種類に最も適した調整を
行う必要がある。この条件の中で、符号ビットを増加さ
せずに、一致辞書バッファ12Ｃとの対応付けをしたの
が、本発明の特徴である。

【００６４】具体的には、図６（Ｂ）に示すように長い
位置情報の中で、短い位置情報の値、この場合、０〜１
２７と重複している部分を割当てている。つまり、０〜
１２７の値は、短い位置情報で符号化されるため、長い
位置情報では出現しない。このことに着目したものであ
る。例えば、一致辞書の１番目には、１ビットの識別子
＝「１」と、１１ビットの符号語「０００００００
００００」とが書き込まれ、一致辞書の２番目には、１
ビットの識別子＝「１」と、１１ビットの符号語「００
００００００００１」とが書き込まれ、同様に、一
致辞書の３番目には、１ビットの識別子＝「１」と、１
１ビットの符号語「０００００００００１０」とが書
き込まれる。

【００６５】具体例としては、先に説明した図12（Ｃ）
の符号化後の入力バッファ２Ａのデータ「ｒ，ｅ」と図
６（Ａ）の一致辞書バッファ12Ｃの２番目の「ｒ，ｅ」
とが一致した場合、符号語「１００００００００
００１」のビット列が生成されることになる。この場合
に、長さは固定としているため、長さの符号は生成しな
いものとする。つまり、全体の識別ビットも含めて、合
計１３ビットとなるため、原データのまま不一致となっ
た場合の２バイト（１６ビット）よりも３ビット圧縮さ
れる。

【００６６】このように図６（Ｂ）の例では、一致辞書
バッファ12Ｃは１２８個分の辞書データを持つことがで
きる。なお、可能な限り、辞書バッファ12Ｂからはみ出
した辞書データを検索可能とするために、一致辞書バッ
ファ12Ｃの大きさを，例えば、図６（Ｃ）に示すよう
に、２５６ビット分持つ。これを検索する場合、現在の
格納ポイントから常に、１２８ビットより前で検索す
る。

【００６７】これにより、実質的に辞書データ数が増加
し、一致辞書バッファ12Ｃを併用した移動窓によるデー
タ圧縮をすることができる。次に、本発明の第２の実施
例に係るデータ処理方法について、図７の処理フローチ
ャートを参照しながら当該装置の動作を説明する。図７
は、本発明の第２の実施例に係る一致辞書の生成フロー
チャートであり、図１に示したＥＰＲＯＭ１３に格納さ
れた制御アルゴリズムを成す。

【００６８】例えば、辞書バッファ12Ｂから追い出され
た辞書データを利用して、一致辞書を作成する場合、図
７のフローチャートにおいて、まず、ステップＰ１で辞
書バッファ12Ｂ内に一致するデータ部分が有ったか否か
を判断する。この際に、一致部分が有った場合（ＹES）
には、ステップＰ３に移行する。また、一致部分が無か
った場合（ＮＯ）には、ステップＰ２に移行して一致辞
書バッファ12Ｃ内を検索し、その後、一致辞書の生成を
行わずに終了する。

【００６９】ステップＰ１で一致部分が有った場合（Ｙ
ES）には、ステップＰ３で２バイト一致か否か判断す
る。この際に、２バイト一致の場合（ＹES）には、ステ
ップＰ４に移行する。また、２バイト一致ではない場合
（ＮＯ）には、一致辞書の生成を行わずに終了する。ス
テップＰ３で２バイト一致の場合（ＹES）には、ステッ
プＰ４で一致辞書バッファ12Ｃ内に同じ辞書データが有
るか否か判断する。この際に、同じ辞書データが有る場
合（ＹES）には、一致辞書の生成を行わずに終了する。

【００７０】ステップＰ４で一致辞書バッファ12Ｃ内に
同じ辞書データが無い場合（ＮＯ）には、ステップＰ５
に移行して、辞書バッファ12Ｂから追い出された辞書デ
ータを一致辞書バッファ12Ｃに格納する。その後、ステ
ップＰ６に移行して格納ポインタを次のビットに進め、
終了をする。これにより、辞書バッファ12Ｂから追い出
された辞書データを利用して、一致辞書を作成すること
ができ、辞書データ列と、入力された被圧縮データ列と
を比較する際に、辞書バッファ12Ｂから追い出された辞
書データ列を参照することができる。

【００７１】次に、本発明の第２の実施例に係る圧縮デ
ータの復元処理について説明をする。図８は、本発明の
第２の実施例に係る圧縮データの復元フローチャートで
あり、図１に示したＥＰＲＯＭ１３に格納された制御ア
ルゴリズムを成す。例えば、一致辞書バッファ12Ｃの辞
書データを参照しながら、被復号データを復号化する場
合、まず、ステップＰ１で一致辞書バッファ12Ｃ内に参
照符号が有るか否かを判断する。この際に、参照符号が
有った場合（ＹES）には、ステップＰ２に移行して一致
辞書バッファ12Ｃ内を参照し被復元データを復号化す
る。その後、一致辞書の生成を行わずに終了する。

【００７２】ステップＰ１で参照符号が無かった場合
（ＮＯ）には、ステップＰ３で２バイト一致か否か判断
する。この際に、２バイト一致の場合（ＹES）には、ス
テップＰ４に移行する。また、２バイト一致ではない場
合（ＮＯ）には、ステップＰ７に移行して一致辞書の生
成を行わずに通常の符号化処理を実行し、その後、終了
する。

【００７３】ステップＰ３で２バイト一致の場合（ＹE
S）には、ステップＰ４で一致辞書バッファ12Ｃ内に同
じ辞書データが有るか否か判断する。この際に、同じ辞
書データが有る場合（ＹES）には、ステップＰ７に移行
して一致辞書の生成を行わずに通常の符号化処理を実行
し、その後、終了する。ステップＰ４で一致辞書バッフ
ァ12Ｃ内に同じ辞書データが無い場合（ＮＯ）には、ス
テップＰ５に移行して、辞書バッファ12Ｂから追い出さ
れた辞書データを一致辞書バッファ12Ｃに格納する。そ
の後、ステップＰ６に移行して格納ポインタを次のビッ
トに進め、さらに、ステップＰ７に移行して一致辞書の
生成を行わずに通常の符号化処理を実行し、その後、終
了する。

【００７４】これにより、辞書バッファ12Ｂから追い出
された辞書データを利用して、一致辞書を作成すること
ができ、一致辞書バッファ12Ｃの辞書データを参照しな
がら、被復号データを復号化することができる。このよ
うにして、本発明の第２の実施例に係るデータ処理装置
によれば、図１に示したような一致辞書バッファ12Ｃが
設けられ、辞書バッファ12Ｂから追い出された辞書デー
タ列が当該バッファ12Ｃに記憶される。

【００７５】このため、辞書バッファ12Ｂのメモリ容量
を変えずに、過去に一致した実績がある辞書データ又は
辞書データ列を一致辞書バッファ12Ｃに記憶すること
で、参照できる辞書の数を実質的に増やすことができ
る。また、本発明の実施例では、辞書の数は実質増えて
も、符号化して残す辞書自体の大きさ及び、圧縮後の符
号ビットが増えない。

【００７６】辞書バッファ12Ｂからはみ出した一致デー
タ列は、補助辞書として一致辞書バッファ12Ｃを参照す
ることができる。すなわち、図７の処理フローチャート
に示すように、ステップＰ２で辞書バッファ12Ｂから追
い出された辞書データ列を参照しながら、辞書データ列
と、入力された被圧縮データ列とを比較することがで
き、原データのまま不一致として符号化されていたデー
タの圧縮率を向上させることが可能となる。

【００７７】これにより、辞書バッファ12Ｂから追い出
された辞書データを有効に利用することができ、辞書バ
ッファ12Ｂ及び補助辞書バッファ12Ｃを併用した移動窓
によるデータ圧縮をすることが可能となる。また、過去
に一致した実績がある辞書データを利用してデータ圧縮
をすることができ、従来例に比べてデータ圧縮率を高め
ることが可能となる。

【００７８】（３）第３の実施例の説明図９は、本発明の第３の実施例に係る固定辞書を利用し
たデータ処理方法の説明図であり、図９（Ａ）は、その
固定辞書バッファの内容図である。図９（Ｂ）は、デー
タ圧縮時のフローチャートであり、図９（Ｃ）は、デー
タ復元時のフローチャートをそれぞれ示している。

【００７９】第３の実施例では第１，第２の実施例と異
なり、辞書データ列と被圧縮データ列とを比較する際
に、被圧縮データの中で予め調査された出現頻度の高い
固定データ又は固定データ列を参照するものである。す
なわち、本発明の第３のデータ処理装置では、図１に示
したように、被圧縮データの中で予め調査された出現頻
度の高い固定データ又は固定データ列を記憶する固定辞
書バッファ12Ｄを使用する。固定辞書バッファ12Ｄは、
例えば、図９（Ａ）に示すように、出現頻度の高い文字
や記号，例えば、ローマ字の「ｉ，ｆ」、算術記号
「＋，＝」及び記述記号「），）」等の固定データを固
定辞書として格納するメモリである。

【００８０】固定辞書は、ＥＰＲＯＭ１３内の圧縮及び
伸長制御プログラム内に持つ方法と、符号化された圧縮
データに付加する方法と２通りを採る。なお、予め、固
定辞書を持つためには、データの種類及び出現頻度の高
いデータ列を調査する必要がある。この固定データの種
類を判断する場合には、ファイルの拡張子から判断する
方法や使用者がキーボード１５を介して指定する方法を
採る。

【００８１】出現頻度の高いデータ列は、例えば、２バ
イト一致ではどのパターンが多いか否か等を補助ツール
により、事前に、調べて置く。この場合に、出現頻度に
関係なく無条件に格納する方法に比べて、出現頻度が高
い一致バイト数のみを固定する方法が、使用メモリ及び
処理速度の面から現実的である。なお、この固定辞書作
成ツールをデータ圧縮ツールのプリプロセッサとして連
結しても良い。

【００８２】次に、本発明の第３の実施例に係るデータ
処理方法について、図９（Ｂ）の圧縮時の固定辞書参照
フローチャートを説明する。例えば、固定辞書バッファ
12Ｄの固定辞書データを利用して、データ圧縮する場
合、図９（Ｂ）のフローチャートにおいて、まず、ステ
ップＰ１で辞書バッファ12Ｂ内の辞書データを検索す
る。

【００８３】次に、ステップＰ２で、一致するデータ部
分が有るか否かを判断する。この際に、一致部分が有っ
た場合（ＹES）には、固定辞書バッファ12Ｄを参照せず
に、辞書バッファ12Ｂの辞書データを利用してデータ圧
縮をする。ステップＰ２で、一致するデータ部分が無い
場合（ＮＯ）には、ステップＰ３に移行して、固定辞書
バッファ12Ｄ内を検索する。これにより、固定辞書バッ
ファ12Ｄの固定辞書データを利用して、データ圧縮する
ことができる。

【００８４】次に、本発明の第２の実施例に係る圧縮デ
ータの復元処理について、復元時の固定辞書参照フロー
チャートを説明する。例えば、固定辞書バッファ12Ｄの
固定データを参照しながら、被復号データを復号化する
場合、図９（Ｃ）のフローチャートにおいて、まず、ス
テップＰ１で固定辞書バッファ12Ｄの固定符号が入力バ
ッファ12Ａ内に有るか否かを判断する。この際に、入力
バッファ12Ａ内に固定符号が有った場合（ＹES）には、
ステップＰ３に移行して固定辞書バッファ12Ｄ内を検索
し被復元データを復号化、その後、終了する。

【００８５】ステップＰ１で固定符号が無かった場合
（ＮＯ）には、ステップＰ２で辞書バッファ12Ｂ内で符
号化処理を実行し、その後、終了する。これにより、固
定辞書バッファ12Ｄの固定データを参照しながら、被復
号データを復号化することができる。このようにして、
本発明の第３の実施例に係るデータ処理装置によれば、
図９（Ａ）に示すような固定辞書バッファ12Ｄが設けら
れ、被圧縮データの中で予め調査された出現頻度の高い
固定データが辞書データとして当該バッファ12Ｄに書き
込まれる。

【００８６】このため、固定辞書バッファ12Ｄ内に出現
頻度の高いとして登録された辞書データと、被圧縮デー
タの中の固定データとが比較されることから、データ検
索速度の高速化を図ることが可能となる。この固定辞書
バッファ12Ｄを辞書バッファ12Ｂと併用することで、辞
書の数は実質増えるが、符号化して残す辞書自体の大き
さ、及び、圧縮後の符号ビットが増えない。

【００８７】すなわち、図９（Ｂ）の処理フローチャー
トに示すように、ステップＰ３で被圧縮データの中で予
め調査された出現頻度の高い固定データを参照しなが
ら、辞書データと被圧縮データとを比較することができ
る。これにより、データ検索が従来例に比べて早くなる
ことから、データ圧縮処理の高速化を図ることが可能と
なる。なお、第２の実施例に比べて、第３の実施例では
一致辞書バッファ12Ｃの生成過程が不要となるため、デ
ータ処理速度が早くなる。本発明の実施例は被圧縮デー
タの種類が特定される用途に適している。

【００８８】（４）第４の実施例の説明図10は、本発明の第４の実施例に係るデータ処理装置の
説明図であり、図10（Ａ）は、その環状辞書バッファの
構成図である。図10（Ｂ），（Ｃ）は、その環状辞書バ
ッファでの検索状態図をそれぞれ示している。第４の実
施例では第１，第３の実施例と異なり、辞書バッファ12
Ｂが環状構造を有する。

【００８９】本発明の第４のデータ処理装置では、図10
（Ａ）に示すような環状辞書バッファ12Ｅが設けられ
る。第１の実施例の辞書バッファ12Ｂと異なるのは、第
４の実施例の環状辞書バッファ12Ｅでは、被圧縮データ
を辞書データとして書き込むメモリ領域を非終端ループ
状に接続する点である。このようにすると、実質的な辞
書データの数を増やすことができ、環状辞書バッファ12
Ｅを利用して入力バッファ12Ａ内の連続したデータ列の
一致を検索することができる。これにより、第１の実施
例の辞書バッファ12Ｂを拡張した移動窓によりデータ圧
縮をすることが可能となる。

【００９０】すなわち、図10（Ｂ）に示すような環状辞
書バッファ12Ｅ内の辞書データを利用して入力バッファ
12Ａに入力される被圧縮データを符号化する場合、ま
ず、原データ列を図１に説明したようなファイル１１か
ら入力バッファ12Ａに読み込む。この際に、符号化され
ていないデータを入力バッファ12Ａの先頭位置に移動す
る。

【００９１】例えば、図10（Ｃ）に示すように、数バイ
トの被圧縮データＤin＝ｕ，ｉ，ｍ，ａ，ｄ，ｆ，ｒ，
ｅ，ｗ…が入力バッファ12Ａに入力される。入力バッフ
ァ12Ａからの被圧縮データＤinは環状辞書バッファ12Ｅ
にシフトされ、その結果、ｎバイトの辞書データ＝ｉ，
ｍ，ａ，ｄ，ｇ，ｋ，ｇ…ａ，ｂ，ｃ，ｕが環状辞書バ
ッファ12Ｅに書き込まれる。

【００９２】次いで、環状辞書バッファ12Ｅ内に一致す
るデータ列が有るか否かを検索する。例えば、環状辞書
バッファ12Ｅ内に格納された辞書データ列＝ｕ，ｉ，
ｍ，ａ，ｄと、入力バッファ12Ａの被圧縮データ列＝
ｕ，ｉ，ｍ，ａ，ｄとが比較される。それが一致するこ
とから、これを符号化する。具体的には、一致データの
位置情報，その長さ情報等を符号化する。例えば、図10
（Ｂ）の一致データ列では、長い位置情報を示すことか
ら識別子が「１」であり、検索位置が入力バッファ12Ａ
から見て環状辞書バッファ12Ｅの先頭位置にあることか
ら位置情報が「０」、最長一致データがｕ，ｉ，ｍ，
ａ，ｄとなることから「５」バイトとなる。

【００９３】また、図10（Ｃ）に示すように、数バイト
の被圧縮データＤin＝ｕ，ｉ，ｍ，ａ，ｄ，ｕ，ｉ，
ｍ，ａ，ｄ，ｕ，ｉ，ｍ，ａ，ｄ，ｘ…が入力バッファ
12Ａに入力され、入力バッファ12Ａからの被圧縮データ
Ｄinが環状辞書バッファ12Ｅにシフトされると、その結
果、５バイトの辞書データ＝ｉ，ｍ，ａ，ｄ，ｕが環状
辞書バッファ12Ｅに書き込まれる。

【００９４】次いで、環状辞書バッファ12Ｅ内に一致す
るデータ列が有るか否かを検索する。例えば、環状辞書
バッファ12Ｅ内に格納された辞書データ列＝ｉ，ｍ，
ａ，ｄ，ｕと、入力バッファ12Ａの被圧縮データ列＝
ｕ，ｉ，ｍ，ａ，ｄ，ｕ，ｉ，ｍ，ａ，ｄ，ｕ，ｉ，
ｍ，ａ，ｄとが比較される。それが３つのデータ列で一
致することから、これを符号化する。つまり、第４の実
施例では、入力バッファ12Ａの１５番目まで、一度に符
号化でき、符号化された圧縮データはファイル１７に格
納される。

【００９５】具体的には、一致データの位置情報，その
長さ情報等を符号化する。図10（Ｃ）の一致データ列で
は、長い位置情報を示すことから識別子が「１」であ
り、検索位置が入力バッファ12Ａから見て環状辞書バッ
ファ12Ｅの先頭位置にあることから位置情報が「０」、
最長一致データがｕ，ｉ，ｍ，ａ，ｄとなることから
「５」バイトとなる。この際の符号化については、図４
において説明しているので参照されたい。

【００９６】なお、圧縮データを復元する場合には、同
じ環状辞書バッファ12Ｅを用い、第１の実施例と同様な
復元フローチャートに沿って復号することができるた
め、その説明を省略する。このようにして本発明の第４
の実施例に係るデータ処理装置によれば、図10（Ａ）に
示すような環状辞書バッファ12Ｅが設けられる。

【００９７】このため、非終端ループ状に接続されたメ
モリ領域に、以前に符号化した入力データ列を辞書デー
タとして書込むことができ、参照できる辞書の数を実質
的に増やすことができる。これにより、第１の実施例で
は辞書バッファ12Ｂを直線上に辞書データを検索する方
法しか採れなかったが、第２の実施例では辞書バッファ
12Ｅを環状に辞書データを検索することができる。これ
を利用して、入力データ列の中の連続した部分との最長
一致を検索し、その一致情報を符号化することができ
る。

【００９８】このことから、第１の実施例では一致しな
かったデータ列が、第４の実施例では一致する可能性が
増加し、辞書バッファ12Ｅを拡張した移動窓によるデー
タ圧縮をすることが可能となる。（５）第５の実施例の説明図11は、本発明の第５の実施例に係るデータ圧縮方法の
説明図である。図11（Ａ）は、あるメモリ領域を辞書バ
ッファ12Ｂ及び入力バッファ12Ａとに分割した図であ
る。図11（Ｂ）は、その領域を分割する境界線を入力バ
ッファ12Ａ側に移動した図をそれぞれ示している。

【００９９】第５の実施例では第１〜第４の実施例と異
なり、辞書用のメモリ領域に連続する入力用のメモリ領
域に書き込まれた被圧縮データ列が辞書データ列として
見なされるものである。すなわち、本発明の第５のデー
タ処理装置では、図11（Ａ）に示すようにあるメモリ領
域を辞書バッファ12Ｂ及び入力バッファ12Ａに分割した
際の境界（カーソル）線12Ｆを入力バッファ12Ａ側に移
動する機能が付加される。この機能は、ＥＰＲＯＭ１３
に制御アルゴリズムとして制御データを格納し、このデ
ータを例えばＣＰＵ１４が読出して辞書制御をする。

【０１００】この際の辞書制御は、辞書データ列と被圧
縮データ列とを比較する際に、図11（Ａ）から同図
（Ｂ）に示すように、境界線12Ｆを入力用のメモリ領域
の方向に移動する。辞書バッファ12Ｂは入力バッファ12
Ａの領域に拡張されて辞書バッファ12Ｂ´となる。これ
により、辞書バッファ12Ｂ´と入力バッファ12Ａとの間
で一致検索をすることができ、辞書データ列が書き込ま
れた辞書用のメモリ領域に連続する入力用のメモリ領域
の被圧縮データ列を辞書データ列として見なし、一致デ
ータを検索することができる。

【０１０１】具体的には、図11（Ａ）の一致データ列で
は、長い位置情報を示すことから識別子が「１」であ
り、検索位置が入力バッファ12Ａから見て辞書バッファ
12Ａの３ビット目にあることから位置情報が「３」、最
長一致データがｕ，ａ，ｂ，ｃとなることから「８」バ
イトとなる。なお、具体的な符号化の段階で圧縮率を上
げるための工夫は、第１の実施例と同様であるため、そ
の説明を省略する。

【０１０２】また、圧縮データを復元する場合には、入
力バッファ12Ａと辞書バッファ12Ｂとが重なる部分を１
つ１つ復元する。このようにして、本発明の第５の実施
例に係るデータ圧縮方法によれば、図11（Ｂ）に示すよ
うに、辞書用のメモリ領域に連続する入力用のメモリ領
域に書き込まれた被圧縮データ列が辞書データ列として
見なされる。

【０１０３】このため、参照できる辞書データの数を実
質的に増やすことができ、辞書データ又は辞書データ列
を入力用のメモリ領域に拡張して、一致するデータ又は
データ列を検索することができる。これにより、入力用
のメモリ領域の被圧縮データ列同士を比較することが可
能となり、第１の実施例の検索方法に比べて、一致しな
かったデータが一致する可能性が増える。特に、辞書バ
ッファ12Ｂ内のデータ列の中で、境界線12Ｆの近傍のデ
ータ＝ｕ，ａ，ｂ，ｃの並びと、同じデータ＝ｕ，ａ，
ｂ，ｃの並びとが入力バッファ12Ａに繰り返し出現する
ような場合に、最も効率良くデータ圧縮をすることが可
能となる。

【０１０４】これにより、実質的に、辞書が増えたにも
かかわらず、辞書の大きさや符号化情報の大きさが増え
ず、第１の実施例に比べてデータ検索時間を短縮するこ
とができ、データ圧縮処理の高速化を図ることが可能と
なる。なお、表１は第１，第４及び第５の実施例に係る
データ圧縮方法を比較した結果を示している。表１はソ
フトウエア上で６３３９バイトのバイナリデータ及び３
１７７バイトのテキストデータを圧縮した場合の結果で
あり、原データ数に対する圧縮後のバイト数を示してい
る。

【０１０５】

【表１】

【０１０６】これによれば、第１の実施例では辞書バッ
ファ12Ｂを直線的に検索するために、バイナリデータで
は圧縮後のバイト数が４５２４バイトとなった。また、
テキストデータでは圧縮後のバイト数が１３７３バイト
となった。これに対して、第４の実施例では辞書バッフ
ァ12Ｄを環状に検索するために、バイナリデータでは圧
縮後のバイト数が４５２２バイトとなった。また、テキ
ストデータでは圧縮後のバイト数が１３７３バイトとな
った。

【０１０７】第５の実施例では辞書バッファ12Ｂから入
力バッファ12Ａを拡張して検索するために、バイナリデ
ータでは圧縮後のバイト数が４４９５バイトとなった。
また、テキストデータでは圧縮後のバイト数が１３６９
バイトとなった。このように第５の実施例では第１，第
４の実施例に比べてデータ圧縮率が向上していることは
明確であり、大容量のデータを取り扱う場合には、大き
な効果が期待できる。

【０１０８】

【発明の効果】以上説明したように、本発明のデータ処
理装置によれば、辞書データ又は辞書データ列と被圧縮
データ又は被圧縮データ列とを比較し、これらデータ又
はデータ列とが一致した場合に、一致した部分のデータ
又はデータ列を辞書バッファから追い出し、その後、デ
ータ書込み範囲を一方向に詰めて新たな辞書データとし
て一致した被圧縮データ又は被圧縮データ列を書き込む
辞書制御手段が設けられる。

【０１０９】このため、重複した辞書データ又は辞書デ
ータ列が、辞書バッファのデータ書込み範囲から外部等
に追い出されることにより、従来例のように、一致デー
タに関係しないデータを単に辞書バッファの先頭から追
い出すことが無くなり、常に、異なった種類の辞書デー
タを辞書バッファに格納することができ、辞書バッファ
の冗長性が少なくなる。

【０１１０】本発明の他のデータ処理装置によれば、辞
書バッファから追い出されたデータ又は辞書データ列を
記憶する補助辞書バッファが設けられる。このため、参
照できる辞書の数を実質的に増やすことができ、補助辞
書バッファ内の辞書データを参照しながら、データ圧縮
をすることができ、不一致として原データのまま符号化
されていたデータの圧縮率を向上させることが可能とな
る。

【０１１１】本発明の他のデータ処理装置によれば、被
圧縮データの中で予め調査された出現頻度の高い固定デ
ータ又は固定データ列を辞書データとして書き込む固定
辞書バッファが設けられる。このため、固定辞書バッフ
ァ内の辞書データを参照しながら、データ圧縮をするこ
とができ、データ検索速度の高速化を図ることが可能と
なる。

【０１１２】本発明の他のデータ処理装置によれば、環
状構造を有する辞書バッファが設けられる。このため、
非終端ループ状のメモリ領域に書込まれた辞書データを
参照しながら、拡張した移動窓を当該辞書バッファ上に
スライドさせながら、データ圧縮をすることが可能とな
る。本発明のデータ処理方法によれば、辞書用のメモリ
領域に連続する入力用のメモリ領域の被圧縮データ又は
被圧縮データ列が辞書データ又は辞書データ列として利
用される。

【０１１３】このため、参照できる辞書データの数を実
質的に増やすことができ、辞書データ又は辞書データ列
を入力用のメモリ領域に拡張して、一致するデータ又は
データ列を検索することができる。これにより、辞書デ
ータを有効かつ高速に検索可能なデータ圧縮又は復元装
置を構成することができ、磁気ディスク装置等の許容記
憶容量を実質的に増加させることと、及び、データ伝送
時の送信時間の短縮化に寄与するところが大きい。

【図面の簡単な説明】

【図１】本発明の各実施例に係るデータ処理装置の構成
図である。

【図２】本発明の第１の実施例に係るデータ圧縮時の辞
書バッファの説明図である。

【図３】本発明の第１の実施例に係るデータの圧縮フロ
ーチャートである。

【図４】本発明の各実施例に係るデータ圧縮時の符号化
処理の説明図である。

【図５】本発明の第１の実施例に係る圧縮データの復号
フローチャートである。

【図６】本発明の第２の実施例に係る一致辞書、データ
の符号化及びその検索範囲の説明図である。

【図７】本発明の第２の実施例に係る一致辞書の作成フ
ローチャートである。

【図８】本発明の第２の実施例に係る圧縮データの復号
フローチャートである。

【図９】本発明の第３の実施例に係る固定辞書を利用し
たデータ処理方法の説明図である。

【図10】本発明の第４の実施例に係る環状辞書バッファ
の説明図である。

【図11】本発明の第５の実施例に係る入力バッファ連続
構造の辞書バッファの説明図である。

【図12】従来例に係るデータ圧縮方法の説明図である。

【図13】従来例に係る問題点を説明する符号化処理の状
態図である。

【符号の説明】

１１…原データファイル、１２…メモリ、 12Ａ…入力バッファ、 12Ｂ…辞書バッファ、 12Ｃ…補助辞書（一致辞書）バッファ、 12Ｄ…固定辞書バッファ、１３…ＥＰＲＯＭ、１４…辞書制御手段（ＣＰＵ）、１５…キーボード、１６…ディスプレイ、１７…圧縮データファイル、１８…バス。

Claims

【特許請求の範囲】

【請求項１】被圧縮データを利用した辞書データ又は
辞書データ列を格納する辞書バッファを備え、順次、入
力される被圧縮データとを比較して一致する辞書データ
又は辞書データ列を符号化し、逆に、符号化された圧縮
データを復号化するときに、前記辞書データ又は辞書データ列と、入力された前記被
圧縮データ又は被圧縮データ列とを比較して前記辞書デ
ータ又は辞書データ列と前記被圧縮データ又は被圧縮デ
ータ列とが一致した場合に、前記一致した部分の辞書デ
ータ又は辞書データ列を辞書バッファから追い出し、前
記辞書データ又は辞書データ列が追い出された辞書バッ
ファのデータ書込み範囲を一方向に詰め、前記データ書
込み範囲が詰められた辞書バッファに前記一致した被圧
縮データ又は被圧縮データ列を新たな辞書データとして
書き込む辞書制御手段が設けられることを特徴とするデ
ータ処理装置。
【請求項２】前記辞書バッファから追い出されたデー
タ又は辞書データ列を記憶する補助辞書バッファが設け
られることを特徴とする請求項１記載のデータ処理装
置。
【請求項３】前記被圧縮データの中で予め調査された
出現頻度の高い固定データ又は固定データ列を辞書デー
タとして書き込んだ固定辞書バッファが設けられること
を特徴とする請求項１記載のデータ処理装置。
【請求項４】前記辞書バッファは、被圧縮データを辞
書データとして書き込むメモリ領域を非終端ループ状に
接続した環状構造を有することを特徴とする請求項１記
載のデータ処理装置。
【請求項５】被圧縮データを利用した辞書データ又は
辞書データ列と、順次、入力される被圧縮データとを比
較して一致するデータ又はデータ列を符号化し、逆に、
符号化された圧縮データを復号化するときに、前記辞書データ又は辞書データ列と、入力された前記被
圧縮データ又は被圧縮データ列とを比較して前記辞書デ
ータ又は辞書データ列と前記被圧縮データ又は被圧縮デ
ータ列とが一致した場合に、前記一致した部分の辞書デ
ータ又は辞書データ列を辞書のデータ書込み範囲から追
い出し、前記データ又はデータ列が追い出された辞書の
データ書込み範囲を一方向に詰め、前記データ書込み範
囲が詰められた辞書に前記一致した被圧縮データ又は被
圧縮データ列を新たな辞書データとして書き込むことを
特徴とするデータ処理方法。
【請求項６】前記辞書データ又は辞書データ列と、入
力された前記被圧縮データ又は被圧縮データ列とを比較
する際に、前記辞書バッファから追い出されたデータ又は辞書デー
タ列を参照することを特徴とする請求項５記載のデータ
処理方法。
【請求項７】前記辞書データ又は辞書データ列と、入
力された前記被圧縮データ又は被圧縮データ列とを比較
する際に、前記被圧縮データの中で予め調査された出現頻度の高い
固定データ又は固定データ列を参照することを特徴とす
る請求項５記載のデータ処理方法。
【請求項８】前記辞書データ又は辞書データ列と、入
力された前記被圧縮データ又は被圧縮データ列とを比較
する際に、前記辞書データ又は辞書データ列が書き込まれた辞書用
のメモリ領域に連続する入力用のメモリ領域に書き込ま
れた被圧縮データ又は被圧縮データ列を辞書データ又は
辞書データ列として見なすことを特徴とする請求項５記
載のデータ処理方法。