JPH05150940A

JPH05150940A - データ圧縮方法およびデータ伸張方法ならびに装置

Info

Publication number: JPH05150940A
Application number: JP3339307A
Authority: JP
Inventors: Mitsuo Mizuguchi; 満夫水口
Original assignee: DENSAN KK
Current assignee: DENSAN KK
Priority date: 1991-11-29
Filing date: 1991-11-29
Publication date: 1993-06-18
Anticipated expiration: 2010-08-02
Also published as: JPH0772859B2

Abstract

(57)【要約】【目的】プログラムのようにランダム性の強いデータ
・ファイルを高効率でデータ圧縮可能とする。【構成】バージョン・アップされたプログラムのよう
なデータ・ファイルＦＤを旧バージョンのプログラムの
ような参照ファイルＦＳを利用してデータ圧縮する。デ
ータ・ファイルＦＤと参照ファイルＦＳとを部分的に比
較して，参照ファイルの一部ＳＲ_iとデータ一致率の高
い任意データ長のレコードＤＲ_iをデータ・ファイルに
おいて捜し出す。これらのレコードＤＲ_iとＳＲ_iとの
排他的論理和を演算し中間データＸＲＤ_iを得る。この
中間データＸＲＤ_iは０を多く含み，冗長度が高いので
データ圧縮に適している。中間データＸＲＤ_iをデータ
圧縮し，圧縮データ・レコードｄｒ_iを得る。

Description

【発明の詳細な説明】

【０００１】

【技術分野】この発明は，データ圧縮方法および装置な
らびにデータ伸張方法および装置に関し，とくにコンピ
ュータとコンピュータとの間で通信回線を利用してデー
タを送受信（伝送）する場合に利用され，両コンピュー
タに古いデータ・ファイルが保存されており，一方のコ
ンピュータにおいて古いデータ・ファイルを更新して新
しいデータ・ファイルを作成した場合に，この新しく作
成されたデータ・ファイルを他方のコンピュータに伝送
するときに好適なデータ圧縮方法および装置ならびにデ
ータ伸張方法および装置に関する。

【０００２】

【従来技術とその問題点】コンピュータ間での通信で
は，通信効率を向上させるためにさまざまなデータ圧縮
の技術が用いられている。これらのデータ圧縮方法は基
本的には，冗長度の高いデータや規則性を有するデータ
でなければ効率的な圧縮はできない。

【０００３】従来の圧縮方法の一例を挙げると次の通り
である。

【０００４】同じ文字が２個以上連続した場合には，そ
の文字を２個並べ，それに続けて，上記２個の文字の後
に連続する同じ文字の個数を表わすデータを付加する。
たとえばＡＡのように２個の同じ文字が連続した場合に
はその圧縮データはＡＡ０となる。ＡＡＡの圧縮データ
はＡＡ１となり，ＡＡＡＡの圧縮データはＡＡ２とな
る。

【０００５】この方法では，ＡＡのような２文字の連続
が多く含まれている場合には，圧縮データが逆に長くな
るという問題がある。またＡＡＡのような３文字の連続
の場合には圧縮の効果がない。

【０００６】従来のデータ圧縮方法は冗長度の高いデー
タや規則性の強いデータであればその特徴を生かして高
い圧縮率を得ることができる。しかしながら，実行形式
のファイル（プログラム）のように，データとしてみる
とランダム性の強いものに対しては圧縮の効果が非常に
少ないか，または上述のようにデータ長がかえって長く
なるという問題がある。

【０００７】

【発明の目的，構成，作用および効果】この発明はラン
ダム性の強いデータ・ファイルに対しても，参照用のフ
ァイルさえ存在すれば高効率でデータ圧縮が可能なデー
タ圧縮方法および装置を提供することを目的とする。

【０００８】この発明はまた，上記のデータ圧縮方法お
よび装置によって圧縮されたデータを元のデータに復元
することのできるデータ伸張方法および装置を提供する
ことを目的とする。

【０００９】この発明によるデータ圧縮方法は，データ
圧縮の対象となるデータ・ファイルとそれに対応する参
照ファイルとを部分的に比較して，上記参照ファイルの
一部とデータ一致率の高い任意データ長のレコードを上
記データ・ファイルにおいて捜し出し，データ一致率の
高いレコードが見付った場合には，上記データ・ファイ
ルの見付ったレコードと上記参照ファイルのそれに対応
するレコードとの排他的論理和演算を行い，かつこの排
他的論理和演算により得られるデータをデータ圧縮し，
上記データ圧縮処理により得られた圧縮データに復元用
補助データを付加することにより圧縮データ・レコード
を作成し，上記参照ファイルのいかなる部分とも一致率
が低い上記データ・ファイルのレコードについてはその
レコードに復元用補助データを付加することにより圧縮
データ・レコードを作成し，これらの圧縮データ・レコ
ードを編集して圧縮ファイルを作成するものである。

【００１０】この発明によるデータ圧縮方法は，データ
圧縮の対象となるデータ・ファイルに対応する参照ファ
イルが存在することを前提としている。ファイルの一例
としてはプログラムの実行形式のファイルを挙げること
ができる。たとえば，データ圧縮の対象となるデータ・
ファイルは新バージョンのプログラム，それに対応する
参照ファイルは旧バージョンのプログラムである。プロ
グラムのバージョン・アップは通常，プログラムの一部
を変更することにより行われるので，新バージョンのプ
ログラムの中には旧バージョンのプログラムの部分が多
く残っている。したがって，新旧バージョンのプログラ
ムをそれらの先頭から順次比較していっても必ずしも一
致しないが，比較すべき部分を先頭からずらせば100 ％
に近い率で一致する部分が多く存在する。

【００１１】この発明は，新旧バージョンのプログラム
のように，データ圧縮の対象となるデータ・ファイルと
部分的に一致する参照ファイルの存在を利用している。

【００１２】この発明によるとまず，データ圧縮の対象
となるデータ・ファイルとそれに対応する参照ファイル
とを部分的に比較して，参照ファイルの一部とデータ一
致率の高い任意データ長のレコードをデータ・ファイル
において捜し出す。

【００１３】上述のように新旧バージョンのプログラム
には100 ％に近い率で一致する部分が含まれているが，
他の部分は殆ど一致しない。このように参照ファイルの
一部ときわめて類似する（または殆ど同一）の部分がデ
ータ・ファイルにおいて見付かる場合があり，そうでな
ければ殆ど一致していないという場合には，一致率はき
わめて高い領域（100 ％の付近）ときわめて低い領域
（０％の付近）に分かれて分布する。したがって，その
中間にしきい値を設けておけばデータ一致率が高いかど
うかを判別することはきわめて容易である。データ一致
率が０％から100％まで連続している場合には，適当に
しきい値（たとえば50％）を定めておき，このしきい値
を用いてデータ一致率が高いか低いかを判定することが
できる。データ一致率が高い，低いというのは相対的な
概念であるが，この発明を実施するアプリケーションご
とにしきい値を定め，このしきい値を用いて高，低を弁
別すればよい。

【００１４】また，この発明においてレコードとは任意
長の連続したデータの集まりを意味し，上述したデータ
一致率の高いファイル部分を捜し出す処理において見付
け出されたファイルの部分，一致率が低いと判定された
ファイル部分，およびそれらに圧縮処理を施して得られ
る（復元用補助データを含む）データの集まりをさす。

【００１５】続いて，この発明によるとデータ一致率の
高いレコードが見付った場合には，上記データ・ファイ
ルの見付ったレコードと上記参照ファイルのそれに対応
するレコードとの排他的論理和演算を行う。データ一致
率の高い２つのレコードの排他的論理和演算により得ら
れるデータ列はワード０の連続を多く含み，データ圧縮
に適したものとなる。

【００１６】この排他的論理和演算により得られるデー
タをデータ圧縮する。データ圧縮の手法としては上述し
た従来の手法を用いてもよいし，後に詳述するこの発明
によるデータ圧縮の手法を用いることもできる。このデ
ータ圧縮処理により得られた圧縮データに復元用補助デ
ータを付加することにより圧縮データ・レコードを作成
する。

【００１７】一方，参照ファイルのいかなる部分とも一
致率が低いと判定されたデータ・ファイルのレコードに
ついては圧縮処理を施すことなく，そのレコードに復元
用補助データを単に付加することにより圧縮データ・レ
コードを作成する。この場合には復元用補助データの付
加によりデータ長がかえって長くなるが，この明細書で
は用語の統一のために，この処理により得られるデータ
についても圧縮データ・レコードという用語を用いるこ
ととする。

【００１８】上述した圧縮処理を含む圧縮データ・レコ
ードの作成と圧縮処理を含まない圧縮データ・レコード
の作成とはデータ・ファイルを構成するすべてのレコー
ドについて行われる。このようにして得られた圧縮デー
タ・レコードを編集して圧縮ファイルを作成する。ここ
で編集とは，一般には圧縮データ・レコードを単に一定
の順番に（たとえば圧縮データ・レコード番号の順に）
並べることを意味するであろう。また編集処理は一般に
は圧縮データ・レコード作成処理と並行して実行される
であろう。

【００１９】以上のようにしてこの発明によると，参照
ファイルの一部とデータ一致率の高いレコードをデータ
・ファイルにおいて検索し，これらの一致率の高いレコ
ード間の排他的論理和演算を行っているので，ランダム
性の強いデータであっても冗長度の高いレコードに変換
することができる。このようにして圧縮処理に適したレ
コードが得られるので，高効率のデータ圧縮が可能とな
る。この発明によると，一般的には数分の一程度まで圧
縮が可能であり，条件がよければ１／10以下のサイズに
まで圧縮が可能である。発明者が実際に行った結果では
最高７％にまで圧縮することができた。

【００２０】データ・ファイルを伝送する場合には，こ
の発明による圧縮方法にしたがって圧縮されたファイル
を送信することにより，通信時間を大幅に短縮すること
ができる。

【００２１】この発明の一実施態様においては，データ
・ファイルまたはその一部が参照ファイルを用いること
なくそれ自体でデータ圧縮が可能かどうかをまず判断す
る。そして可能であればデータ・ファイルまたはその一
部をそれ自体でデータ圧縮する。可能でなければ上述し
た参照ファイルを利用したデータ圧縮方法を実行する。

【００２２】データ・ファイルまたはその一部がそれ自
体でデータ圧縮可能かどうかは，データ・ファイルに含
まれるデータの冗長度が高いかどうか，規則性があるか
どうかの観点から判断することができる。この場合にも
データ圧縮可能性についての一定の基準を設けておき，
その基準にしたがって判断することが好ましい。

【００２３】上述した復元用補助データには具体的に
は，レコード番号，データ・ファイルにおける一致率の
高いレコードの位置を示すデータ（オフセット），参照
ファイルにおける一致率の高いレコードの位置を示すデ
ータ（オフセット），参照ファイルを用いた圧縮処理を
行っているかどうかを示すデータ，データ圧縮されてい
るかどうかを示すデータ，データ・サイズを表わすデー
タ，およびデータ圧縮処理に関するデータ等が含まれよ
う。

【００２４】この発明はまた，上述のようにしてデータ
圧縮により作成された圧縮ファイルからデータ・ファイ
ルを復元するデータ伸張方法を提供している。このデー
タ伸張方法においては，データ圧縮方法において用いら
れたものと同じ参照ファイルが利用される。圧縮ファイ
ルの伸張は上述したデータ圧縮処理の逆の手順で行えば
よい。

【００２５】この発明によるデータ伸張方法は，圧縮フ
ァイルを圧縮データ・レコードごとにその復元用補助デ
ータを参照して伸張処理が必要かどうかを判定し，伸張
処理が必要であると判定した場合には，その圧縮データ
・レコードをデータ伸張し，データ伸張されたレコード
と，参照ファイルにおける対応するレコードとの間で排
他的論理和演算を行ってデータ・レコードを作成し，上
記処理により作成されたデータ・レコードと，伸張処理
不要な圧縮データ・レコードに含まれているデータ・レ
コードとを復元用補助データを参照して編集することに
よりデータ・ファイルを復元するものである。

【００２６】このようにして元のデータ・ファイルが復
元されるから復元されたデータ・ファイルを利用するこ
とが可能となる。

【００２７】この発明によるデータ伸張方法の一実施態
様においては，データ・ファイルまたはその一部がそれ
自体でデータ圧縮されている場合には，参照ファイルを
用いることなく，上記圧縮ファイルまたはその一部をデ
ータ伸張してデータ・ファイルを復元する。この伸張方
法は，上述した参照ファイルを用いることなくデータ・
ファイルまたはその一部それ自体でデータ圧縮する方法
に対応するものである。

【００２８】この発明はさらにデータ伝送方法を提供し
ている。

【００２９】このデータ伝送方法が適用されるシステム
においては，圧縮データを送信する送信装置と，この送
信装置から送信された圧縮データを受信する受信装置と
がともに参照ファイルを保持していることを前提とす
る。送信装置においては，上述したデータ圧縮方法にし
たがってデータ圧縮し，この処理により得られた圧縮デ
ータを受信装置に送信する。また受信装置においては，
受信したデータを上述した伸張方法にしたがってデータ
伸張して元のデータに復元する。

【００３０】この発明はさらにデータ圧縮装置およびデ
ータ伸張装置を提供している。これらのデータ圧縮およ
び伸張装置は上述したデータ圧縮および伸張方法にそれ
ぞれ対応するものである。

【００３１】この発明によるデータ圧縮装置は，データ
圧縮の対象となるデータ・ファイルとそれに対応する参
照ファイルとを部分的に比較して，上記参照ファイルの
一部とデータ一致率の高い任意データ長のレコードを上
記データ・ファイルにおいて検索する手段，上記検索手
段による検索によってデータ一致率の高いレコードが見
付った場合には，上記データ・ファイルの見付ったレコ
ードと上記参照ファイルのそれに対応するレコードとの
排他的論理和演算を行い，かつこの排他的論理和演算に
より得られるデータをデータ圧縮するデータ圧縮手段，
および上記データ圧縮手段により得られた圧縮データに
復元用補助データを付加することにより圧縮データ・レ
コードを作成し，上記参照ファイルのいかなる部分とも
一致率が低い上記データ・ファイルのレコードについて
はそのレコードに復元用補助データを付加することによ
り圧縮データ・レコードを作成し，これらの圧縮データ
・レコードを編集して圧縮ファイルを作成する編集手段
を備えている。

【００３２】この発明によるデータ伸張装置は，圧縮フ
ァイルを圧縮データ・レコードごとにその復元用補助デ
ータを参照して伸張処理が必要かどうかを判定する手
段，上記判定手段によって伸張処理が必要であると判定
された場合には，その圧縮データ・レコードをデータ伸
張し，データ伸張されたレコードと，参照ファイルにお
ける対応するレコードとの間で排他的論理和を演算して
データ・レコードを作成するデータ伸張手段，および上
記データ伸張手段により作成されたデータ・レコード
と，伸張処理不要な圧縮データ・レコードに含まれてい
るデータ・レコードとを復元用補助データを参照して編
集することによりデータ・ファイルを復元する編集手段
を備えている。

【００３３】この発明のデータ圧縮方法の最も特徴的な
部分を抽出すると次のように表現できる。すなわち，こ
の発明によるデータ圧縮方法は，データ一致率の高い対
象データと参照データとの排他的論理和演算を行い，こ
の排他的論理和演算結果についてデータ圧縮処理を施し
て圧縮データを得るものである。

【００３４】このデータ圧縮方法によってもランダム性
の強いデータを参照データを利用して冗長度の高い圧縮
処理に適したデータに変換することができるので，高効
率のデータ圧縮が可能となる。

【００３５】この発明のデータ伸張方法の要点は，与え
られた圧縮データをデータ伸張し，データ伸張により得
られたデータと参照データとの排他的論理和演算を行う
ことにより元データを復元するものであると表現でき
る。上記のデータ圧縮方法によりデータ圧縮された圧縮
データをこのデータ伸張方法により復元することができ
る。

【００３６】この発明は上記のデータ圧縮方法およびデ
ータ伸張方法にそれぞれ対応するデータ圧縮装置および
データ伸張装置を提供している。すなわち，この発明に
よるデータ圧縮装置は，対象データと参照データとの間
で排他的論理和を演算する手段，および上記排他的論理
和演算手段による演算結果にデータ圧縮処理を施す手段
を備えている。

【００３７】この発明によるデータ伸張装置は，与えら
れた圧縮データをデータ伸張する手段，および上記デー
タ伸張手段によりデータ伸張されたデータと参照データ
との排他的論理和を演算する手段を備えている。

【００３８】この発明はさらに，データ圧縮の対象とな
るデータ・ファイルとそれに対応する参照ファイルとを
部分的に比較して，参照ファイルの一部とデータ一致率
の高い任意データ長のレコードを上記データ・ファイル
において見付け出す方法を提供している。

【００３９】この発明による類似するレコードを見付け
出す方法は，データ・ファイルから第１の所定長の第１
の部分データを取出し，参照ファイルから上記第１の所
定長の第１の部分データを取出し，これらの第１の部分
データを取出す位置を少なくとも参照ファイルにおいて
所定バイトずつシフトしながら，データ・ファイルおよ
び参照ファイルからそれぞれ取出した上記第１の部分デ
ータを相互に比較して，一致率の高い第１の部分データ
があるかどうかを調査し，一致率の高い第１の部分デー
タが見付ったときに上記第１の部分データの取出しのた
めのシフト量を固定し，固定した取出し位置の近傍にお
いて上記第１の所定長よりも短い第２の所定長の第２の
部分データを上記データ・ファイルおよび上記参照ファ
イルからそれぞれ取出し，それらの取出し位置を上記参
照ファイルおよびデータ・ファイルにおいて所定バイト
ずつシフトしながら，上記データ・ファイルおよび参照
ファイルからそれぞれ取出した上記第２の部分データを
相互に比較することにより，一致率の高いレコードの範
囲を上記データ・ファイルおよび参照ファイルにおいて
決定するものである。

【００４０】この発明による類似するレコードを見付け
出す方法の一実施態様においては，上記データ・ファイ
ルから固定データ長の１ブロック・データを取出し，こ
の取出した１ブロック・データについて，上記参照ファ
イルにおける上記第１の部分データの取出し位置をシフ
トしながら上記調査処理を行い，一致率の高い第１の部
分データが見付からない場合に，上記データ・ファイル
から取出すべき１ブロック・データの位置を１ブロック
長分シフトして上記調査処理を繰返す。

【００４１】この発明によると，データ・ファイルと参
照ファイルとの部分的な比較を２段階にわたって行って
いる。第１段階では，データ・ファイルおよび参照ファ
イルから比較的長いデータ長をもつ第１の部分データを
抽出して大雑把に比較している。この第１段階の比較処
理において一致率が所定値以上の部分が見付かれば，次
に第２段階に進む。第２段階においては，第１段階で見
付かった一致率の高い第１の部分データの抽出位置を固
定し，その固定した位置の近傍において比較的短いデー
タ長をもつ第２の部分データをデータ・ファイルおよび
参照ファイルから抽出し，これらの第２の部分データを
所定バイトずつ別個にまたは一緒にシフトしながらより
詳細に比較処理を行うことにより，最終的に一致率の高
い任意長のレコードの範囲をデータ・ファイルおよび参
照ファイルにおいて決定している。

【００４２】このように，この発明によると，第１段階
においてデータ・ファイルの一部分と参照ファイルの一
部分とを大雑把に比較し，類似する部分が見付かったの
ちに第２段階の詳細な比較処理に進むようにしているの
で，最初から詳細な比較処理を行う場合に比べて，はる
かに短時間で類似するレコードをデータ・ファイルと参
照ファイルにおいて見付け出すことができる。これによ
り上述したデータ圧縮方法の実用化が可能となる。

【００４３】このようにして，参照ファイルの一部とデ
ータ一致率の高いレコードがデータ・ファイルにおいて
見付かると，上述のようにデータ・ファイルの見付かっ
たレコードと参照ファイルのそれに対応するレコードと
の排他的論理和が演算される。この排他的論理和演算結
果は連続するワード０を多く含むデータ列となる。

【００４４】この発明はさらに，このようなデータ列の
圧縮処理に適したデータ圧縮方法を提供している。

【００４５】この発明によるデータ圧縮方法は，圧縮す
べき一連のデータから一定長さのデータ・ブロックを取
出し，このデータ・ブロックを構成する複数の単位デー
タのうちで出現頻度の高い単位データを検出し，出現頻
度の高い１または複数種類の単位データに，上記データ
・ブロックにおいて出現しない単位データによって表わ
されるコードを割当てるものである。

【００４６】上記データ圧縮方法はより一般的には次の
ように表現することもできる。

【００４７】すなわちこの発明によるデータ圧縮方法
は，圧縮すべきデータを構成する複数の単位データのう
ちで出現頻度の高い単位データを検出し，出現頻度の高
い１または複数種類の単位データに，上記圧縮すべきデ
ータにおいて出現しない単位データによって表わされる
コードを割当てるものである。

【００４８】この発明の一実施態様においては，上記の
出現頻度の高い１または複数種類の単位データを除く単
位データに対しては圧縮処理を施さない。

【００４９】ここで単位データとはたとえば１ワード
（１文字）を構成する１バイト（＝８ビット）データで
ある。

【００５０】単位データにコードを割当てる方法にはい
くつかある。

【００５１】その１つは出現頻度の高い単位データが連
続する数に応じて異なるコードを割当てるものである。

【００５２】他の方法は，出現頻度の高い単位データが
複数個連続した場合に，この連続する単位データからな
るデータを，単位データに対応するコードと単位データ
が連続する数を表わすコードとの組合せによって表わす
ものである。

【００５３】さらにこの発明のデータ圧縮方法の他の実
施態様においては，特定の意味を表わすデータに特定の
コードを割当てる。

【００５４】相互に類似するデータ列間の排他的論理和
演算により得られるデータ列にはワード０が多く含ま
れ，かつこれらのワード０は複数個連続している場合が
多い。また，排他的論理和演算により得られるデータ列
に含まれるワードの種類数はそれほど多くない。

【００５５】この発明によるデータ圧縮方法はこのよう
な出現するワードの種類数が比較的少ないデータ列に好
適であり，非常に効率のよいデータ圧縮が行える。

【００５６】

【実施例の説明】

(1) 全体的な処理の概要図１に示すように送信装置10から受信装置20にデータを
送信する場合を想定する。これらの送，受信装置10，20
はたとえばコンピュータ・システムであり，送信される
データはプログラムである。

【００５７】送，受信装置10，20はともに同一の参照フ
ァイルＦＳを有している。参照ファイルＦＳはたとえば
これらの装置10，20が実行する旧バージョンのプログラ
ムである。

【００５８】送信装置10において旧バージョンのプログ
ラムをバージョン・アップすることにより新バージョン
のプログラムが作成される。この新バージョン・プログ
ラムが受信装置20に送信されるべきデータ・ファイルＦ
Ｄである。受信装置20は新バージョン・プログラムを受
信すると，この新バージョン・プログラムによって旧バ
ージョン・プログラムに置きかえることができる。

【００５９】新バージョン・プログラムであるデータ・
ファイルＦＤを受信装置20に伝送するために，送信装置
10において参照ファイルＦＳを利用してデータ・ファイ
ルＦＤのデータ圧縮処理が実行され，圧縮ファイルＦＣ
が作成される。圧縮ファイルＦＣは有線（たとえばディ
ジタル回線）または無線で受信装置20に伝送される。

【００６０】送信装置10から送られた圧縮ファイルＦＣ
を受信すると，受信装置20はそれが保存している参照フ
ァイルＦＳを利用して圧縮ファイルＦＣのデータ伸張処
理を実行し，データ・ファイルＦＤを復元する。

【００６１】図２は送信装置10において実行される参照
ファイルＦＳを利用したデータ・ファイルＦＤの圧縮処
理の様子を示している。

【００６２】データ・ファイルＦＤと参照ファイルＦＳ
とが部分的に比較され，データ一致率の高い任意データ
長のレコードが探し出される。図２に示す例では，デー
タ・ファイルＦＤ中のレコードＤＲ₂，ＤＲ₄，ＤＲ₅
がそれぞれ参照ファイルＦＳのレコードＳＲ₂，Ｓ
Ｒ₄，ＳＲ₅と類似しており，データ一致率が高い（以
下，単に類似するという）と判断されたものとする。レ
コードＤＲ₂とＳＲ₂は同じデータ長をもつ。同じよう
にレコードＤＲ₄とＳＲ₄，ＤＲ₅とＳＲ₅もそれぞれ
同じデータ長のものである。レコードＤＲ₂とＤＲ₄と
ＤＲ₅のデータ長は同じ場合もあるし，異なる場合もあ
る。一般にはレコードＤＲ₂とＤＲ₄とＤＲ₅のデータ
長は異なるであろう。

【００６３】参照ファイルＦＳは上述のように旧バージ
ョンのプログラムであり，データ・ファイルＦＤはこの
旧バージョン・プログラムの一部を改良して作成された
新バージョンのプログラムである。したがって，参照フ
ァイルＦＳのうち，修正が加えられなかった部分はその
ままの形でデータ・ファイルＦＤの一部を構成してい
る。このように，データ・ファイルＦＤと参照ファイル
ＦＳは，相互に殆ど一致する多くの部分（レコード）を
もっているので，相互に類似するレコードＤＲ₂とＳＲ
₂，ＤＲ₄とＳＲ₄，ＤＲ₅とＳＲ₅等を抽出すること
ができる。

【００６４】データ・ファイルＦＤにおいて，レコード
ＤＲ₁，ＤＲ₃，ＤＲ_n等はそれらとデータ一致率の高
い（類似する）部分を参照ファイルＦＳ中に見付けるこ
とができなかったものである。プログラムのバージョン
・アップにおいて新たに書き加えられたルーチンや完全
に書き直されたプログラム部分等がこれらのレコードＤ
Ｒ₁，ＤＲ₃，ＤＲ_n等に相当するであろう。

【００６５】続いて，相互に類似すると判定されたデー
タ・ファイルＦＤのレコードと参照ファイルＦＳの対応
するレコードとの間で排他的論理和（以下，ＸＯＲとい
う）が演算され，この演算結果がデータ圧縮され，さら
にこの圧縮データと後述する復元用補助コードを用いて
圧縮データ・レコードが作成され，圧縮ファイルＦＣに
書込まれる。

【００６６】データ・ファイルＦＤのレコードＤＲ₂と
これに類似する参照ファイルＦＳのレコードＳＲ₂との
ＸＯＲが演算されて中間データＸＲＤ₂が作成される。
レコードＤＲ₂とＳＲ₂とは相互に一致するデータを多
く含んでいるのでそれらのＸＯＲ演算結果である中間デ
ータＸＲＤ₂は０を多く含むデータとなる。この中間デ
ータＸＲＤ₂は冗長度が高いのでデータ圧縮に適してい
る。データ圧縮処理の手法としては公知のものを採用す
ることもできるが，後に示す手法を用いることが好まし
い。データ圧縮処理により生成された圧縮データは後述
するフォーマットにしたがって復元用補助コードととも
に編集されて圧縮データ・レコードｄｒ₂となる。

【００６７】同じように，レコードＤＲ₄とＳＲ₄との
ＸＯＲ演算により中間データＸＲＤ₄が作成され，レコ
ードＤＲ₅とＳＲ₅とのＸＯＲ演算により中間データＸ
ＲＤ₅が作成される。これらの中間データＸＲＤ₄，Ｘ
ＲＤ₅がそれぞれ圧縮処理され，圧縮データ・レコード
・フォーマットにしたがって圧縮データ・レコードｄｒ
₄，ｄｒ₅となる。

【００６８】参照ファイルＦＳ中に類似する部分を見付
けることができなかったデータ・レコードＤＲ₁，ＤＲ
₃，ＤＲ_n等については圧縮処理ができないので，その
ままの形で復元用補助コードとともに圧縮データ・レコ
ード・フォーマットにしたがって編集され，圧縮データ
・レコードｄｒ₁，ｄｒ₃，ｄｒ_n等となる。これらの
レコードｄｒ₁，ｄｒ₃，ｄｒ_nは元のレコードＤ
Ｒ₁，ＤＲ₃，ＤＲ_nよりも復元用補助コードの分だけ
データ・サイズが大きくなっているが，ここでは用語の
統一のために圧縮データ・レコードと呼ぶことにする。

【００６９】このようにして作成された圧縮データ・レ
コードｄｒ₁，ｄｒ₂，…，ｄｒ_nが一定の順序（たと
えば後述するレコードNO. の順）に並べられることによ
り圧縮ファイルＦＣが得られる。実際の処理においては
圧縮データ・レコードの作成ごとに作成された圧縮デー
タ・レコードが圧縮ファイルＦＣ内に配列されていくで
あろう。

【００７０】圧縮ファイルＦＣは元のデータ・ファイル
ＦＤに比べると，全体として数分の一から１／10程度，
またはそれ以上にデータ圧縮されている。圧縮ファイル
ＦＣには圧縮データ・レコードｄｒ₁，ｄｒ₃，ｄｒ_n
のようにデータ圧縮されていないレコードも含まれてい
るが，その数は比較的少なく，かつレコードｄｒ₂，ｄ
ｒ₄，ｄｒ₅のようにデータ圧縮されているものの圧縮
率が高いので，全体としてみた場合にもかなり高い圧縮
率を得ることができる。

【００７１】図３は受信装置20において実行される参照
ファイルＦＳを利用した圧縮ファイルＦＣの伸張処理の
様子を示している。

【００７２】伸張処理は上述した圧縮処理の逆の手順で
行われる。参照ファイル中のレコードを利用して圧縮さ
れた圧縮データ・レコードｄｒ₂，ｄｒ₄，ｄｒ₅等に
ついては，まず伸張処理により中間データＸＲＤ₂，Ｘ
ＲＤ₄，ＸＲＤ₅に変換される。これらの中間データＸ
ＲＤ₂，ＸＲＤ₄，ＸＲＤ₅と参照ファイルＦＳの対応
するレコードＳＲ₂，ＳＲ₄，ＳＲ₅とのＸＯＲ演算に
より，データ・レコードＤＲ₂，ＤＲ₄，ＤＲ₅がそれ
ぞれ復元される。

【００７３】圧縮処理の施されていない圧縮データ・レ
コードｄｒ₁，ｄｒ₃，ｄｒ_nについてはそれらから復
元用補助コードが除去されることにより，元のデータ・
レコードＤＲ₁，ＤＲ₃，ＤＲ_nが得られる。

【００７４】このようにして復元されたレコードＤ
Ｒ₂，ＤＲ₄，ＤＲ₅，ＤＲ₁，ＤＲ₃，ＤＲ_nが元の
順序に配列されれば，最終的にデータ・ファイルＦＤが
復元されたことになる。

【００７５】(2) 類似レコードの検索処理データ・ファイルＦＤと参照ファイルＦＳとを部分的に
比較して，参照ファイルＦＳの一部と類似するレコード
をデータ・ファイルＦＤにおいて捜し出す処理について
説明する。

【００７６】図４はデータ・ファイルＦＤおよび参照フ
ァイルＦＳの先頭からそれぞれ１ブロック（たとえば10
24バイト）を取出した様子を示すものである。

【００７７】上述したように，データ・ファイルＦＤの
レコードＤＲ₂と参照ファイルＦＳのレコードＳＲ₂と
が類似している。レコードＤＲ₂はデータ・ファイルＦ
Ｄの先頭位置Ａからデータ長でＯＦＦＤ₂後方に進んだ
位置Ｂから始まり，位置Ｃで終る。レコードＳＲ₂は参
照ファイルＦＳの先頭位置Ｄから長さＯＦＦＳ₂の位置
Ｅから始まり，位置Ｆまで続く。上述したようにレコー
ドＤＲ₂とＳＲ₂の長さは等しいが，レコードＤＲ₂が
始まる位置ＢとレコードＳＲ₂が始まる位置Ｅとは異な
る。ファイルの先頭から各レコードが始まる位置までの
データ長（ＯＦＦＤ₂やＯＦＦＳ₂）をそのレコードの
オフセットという。

【００７８】類似レコードを検索する処理は結局のとこ
ろ，類似するレコードＤＲ₂とＳＲ₂の開始位置ＢとＥ
（オフセットＯＦＦＤ₂とＯＦＦＳ₂）および終了位置
ＣとＦをそれぞれ見付け出すための処理である。

【００７９】図４に示す例では見付け出された類似レコ
ードＤＲ₂，ＳＲ₂は１ブロック長よりも短い。したが
って，これらのレコードＤＲ₂の全体とレコードＳＲ₂
の全体とがＸＯＲ演算される。見付け出された類似レコ
ードが１ブロック長よりも長い場合には，これらの類似
レコードは１ブロックずつ分割され，分割された１ブロ
ックごとにＸＯＲ演算が行われ，ＸＯＲ演算結果の圧縮
処理が行われ，圧縮データ・レコードの作成が行われ
る。すなわち，この実施例では，すべてのデータは１ブ
ロックを単位として（または１ブロックよりも短いデー
タ長の状態で）すべての処理が施される。

【００８０】類似レコードの検索処理は大雑把な第１段
階の処理とより詳細な第２段階の処理とからなる。

【００８１】まず，第１段階の処理について説明する。

【００８２】図５(A) に示すように，データ・ファイル
ＦＤの１ブロックと参照ファイルＦＳの１ブロックから
第１の所定長の第１の部分データｆｄ₁，ｆｄ₂，ｆｄ
₃とｆｓ₁₀，ｆｓ₂₀，ｆｓ₃₀とが抜き出される。この実
施例では各ブロックの先端部と後端部と中間部の３箇所
において第１の部分データが抜き出されている。第１の
部分データの取出しは１箇所でも，２箇所でも，４箇所
以上でもよい。また，この実施例では第１の部分データ
のデータ長は10バイトである。

【００８３】これらの第１の部分データの対応するもの
同志が相互に比較される。すなわち，データｆｄ₁とデ
ータｆｓ₁₀とが比較され，それらの一致率が所定値以上
かどうかが判断される。同じようにデータｆｄ₂とｆｓ
₂₀とが比較され，データｆｄ₃とｆｓ₃₀とが比較され，
それらの一致率が所定値以上かどうかがそれぞれ判定さ
れる。データが一致しているかどうかは一般にはワード
単位（１バイト）で行われるであろう。

【００８４】いずれの比較においても一致率が所定値以
下の場合には，データ・ファイルＦＤにおける第１の部
分データｆｄ₁，ｆｄ₂，ｆｄ₃をそのままにしておい
て，参照ファイルＦＳにおいて抜出すべき第１の部分デ
ータを図５(B) に示すように後方に１バイトシフトす
る。参照ファイルＦＳにおいて次に抜出される部分デー
タをｆｓ₁₁，ｆｓ₂₁，ｆｓ₃₁とする。これらの部分デー
タｆｄ₁，ｆｄ₂，ｆｄ₃とｆｓ₁₁，ｆｓ₂₁，ｆｓ₃₁と
をそれぞれ比較してそのデータ一致率の判定を行う。

【００８５】参照ファイルＦＳから取出すべき部分デー
タを１バイトずつシフトしながら上記の処理を繰返して
いく。

【００８６】図５(C) に示すように，参照ファイルＦＳ
から取出すべき部分データを参照ファイルＦＳの先頭か
らｍバイトシフトして，ｆｄ₁，ｆｄ₂，ｆｄ₃とｆｓ
_1m，ｆｓ_2m，ｆｓ_3mとをそれぞれ比較したときに，デー
タ・ファイルの部分データｆｄ₂と参照ファイルの部分
データｆｓ_2mとの一致率が所定値を超えたとすると，こ
れらの部分データｆｄ₂，ｆｓ_2mを含むある範囲におい
てデータ・ファイルＦＤと参照ファイルＦＳとが類似し
ていると考えられるので，類似している範囲を定めるた
めに第２段階の処理に進む。

【００８７】部分データｆｄ₂とｆｓ_2mとの一致率が所
定値を超えたときに，参照ファイルＦＳから取出す第１
の部分データをｆｓ_2mの位置から１バイトずつシフト
し，これらの第１の部分データとデータ・ファイルＦＤ
の部分データｆｄ₂とを比較して，部分データｆｄ₂と
最も一致率の高い参照ファイルＦＳの部分データを捜し
出すようにすると一層好ましい。

【００８８】もし，参照ファイルＦＳから取出すべき第
１の部分データを順次１バイトずつシフトしていって，
取出すべき第１の部分データが参照ファイルＦＳの終端
にきてしまったときには，データ・ファイルＦＤから先
に取出した１ブロック長のデータと類似する部分は参照
ファイルＦＳには存在しないと判断して，データ・ファ
イルＦＤから次の１ブロック長のデータを取出して，上
記と同じような処理を繰返していく。

【００８９】次に図６を参照して第２段階の処理につい
て説明する。

【００９０】第２段階の処理では，第１段階の処理にお
いて一致率が所定値以上である（または一致率が最も高
い）と判定された第１の部分データｆｄ₂とｆｓ_2mの位
置を固定する。すなわち，参照ファイルＦＳののシフト
量ｍを固定する。そして，データ・ファイルＦＤの第１
の部分データｆｄ₂の中から第１の部分データよりもデ
ータ長の短い第２の部分データｄ₁を取出す。この実施
例では第２の部分データｄ₁は１バイト長（１ワード）
であるので，以下第２の部分データをワードということ
にする。参照ファイルＦＳからもワードｄ₁に対応する
位置の近傍においてワードＳ₁₁，Ｓ₁₂またはＳ₁₃等を取
出し，これらとワードｄ₁とを順次比較する。

【００９１】ワードｄ₁とＳ₁₂とが一致したとすれば，
次にこれらの左または右に隣接するワードを両ファイル
ＦＤ，ＦＳから取出して一致するかどうかを調べる。両
ファイルＦＤ，ＦＳから取出すべきワードを１ワードず
つ一方向にシフトしながら，一致しないワードが所定組
出現するまでたとえばｄ₂とＳ₂₂，ｄ₃とＳ₃₂というよ
うに順次比較していく。

【００９２】ワードｄ₁とＳ₁₁も一致した場合には，参
照ファイルＦＳのシフト量を（ｍ−１）に固定して，同
じようにこれらの左または右に隣接するワードを取出し
て一致するかどうかを調べる。取出すべきワードを１ワ
ードずつ一方向にシフトしながら，一致しないワードが
所定組出現するまで，たとえばｄ₂とＳ₂₁，ｄ₃とＳ₃₁
というように順次比較していく。

【００９３】このようにして，一致するワードの組が数
多く（所定割合以上）出現する範囲のうちで最も広い範
囲を捜し出して，その範囲をデータ・ファイルＦＤにお
いてはＢ〜Ｃ，参照ファイルＦＳにおいてはＥ〜Ｆと同
定する。ＢとＥがこのようにして捜し出されたレコード
のオフセットである。

【００９４】もし，ワードｄ₁とワードＳ₁₁，Ｓ₁₂，Ｓ
₁₃等が一致しなかった場合には，データ・ファイルＦＤ
においてワードｄ₁に隣接するワードｄ₄と参照ファイ
ルＦＳにおける対応する位置の近傍のワードＳ₁₂，
Ｓ₁₃，Ｓ₁₄等とを比較し，一致するワードの組を捜すこ
とになる。

【００９５】再び図４を参照して，このようにしてデー
タ・ファイルＦＤのレコードＤＲ₂と参照ファイルＦＳ
のレコードＳＲ₂とが類似すると判定されると，次にデ
ータ・ファイルＦＤからは鎖線で示すようにレコードＤ
Ｒ₂に続く１ブロック長のデータが読出され，この１ブ
ロック長のデータについて上述した第１段階と第２段階
の処理が行われる。

【００９６】このような処理を繰返していくことによ
り，データ・ファイルＦＤの全域について，参照ファイ
ルＦＳの部分と類似するレコードが見付け出される。

【００９７】(3) 圧縮処理このようにして見付け出された参照ファイルＦＳのレコ
ードＳＲ_iと類似するデータ・ファイルＦＤのレコード
ＤＲ_iをレコードＳＲ_iを利用して圧縮する処理の一例
について説明する。

【００９８】レコードＤＲ_i，ＳＲ_iが１ブロック長よ
り長い場合には，上述したように，１ブロックごとにＸ
ＯＲ演算が行われ，１ブロックごとに圧縮処理が行われ
る。

【００９９】ＸＯＲ演算後の１ブロック長（またはこれ
よりも短い）の中間データは上述したようにワード００
（16進数表現，以下同じ）を多く含んでいる。こような
中間データを構成する全ワードについて，その出現頻度
の統計をとり，出現頻度の高い方から順に所定種類数の
ワードを選択する。この実施例では出現頻度が１番，２
番および３番の３種類のワードを選択するものとし，こ
れらをＨ１，Ｈ２，Ｈ３とする。Ｈ１，Ｈ２，Ｈ３を高
頻度ワードということにする。殆どの場合，Ｈ１はワー
ド００であろう。

【０１００】次に，その１ブロック長の中間データには
出現しないワードを圧縮のために必要とする種類数捜し
出す。この実施例では９種類のワードが必要であると
し，それらをＳ１，Ｓ２，Ｓ３，…，Ｓ９で表わす。こ
れらのワードを置換ワードということにする。

【０１０１】さらにこの実施例では頻繁に出現する連続
文字もデータ圧縮の対象とする。たとえば，この種の連
続文字としてはテキスト・データの場合よく現われる改
行，復帰を表わす０Ｄ０Ａがある。

【０１０２】データ圧縮のために次のような置換を行
う。

【０１０３】ワードＨ１が２個連続した場合，これらを
ワードＳ１で置換する。

【０１０４】ワードＨ１が３個連続した場合，これらを
ワードＳ２で置換する。

【０１０５】ワードＨ１が４個連続した場合，これらを
ワードＳ３で置換する。

【０１０６】ワードＨ１が５個以上連続した場合，これ
らをワードＳ４と連続する個数を表わす数字（８ビット
で255 個の連続まで表現可能）との組合せで表現する。

【０１０７】ワードＨ２が２個連続した場合，これらを
ワードＳ５で置換する。

【０１０８】ワードＨ２が３個以上連続した場合，これ
らをワードＳ６と連続する個数を表わす数字の組合せに
より表現する。

【０１０９】ワードＨ３が２個連続した場合，これらを
ワードＳ７で置換する。

【０１１０】ワードＨ３が３個以上連続した場合，これ
らをワードＳ８と連続する個数を表わす数字の組合せに
より表現する。

【０１１１】連続文字０Ｄ０ＡをワードＳ９で置換す
る。

【０１１２】これらをまとめると次のようになる。

【０１１３】Ｈ１Ｈ１ → Ｓ１Ｈ１Ｈ１Ｈ１ → Ｓ２Ｈ１Ｈ１Ｈ１Ｈ１ → Ｓ３Ｈ１が５個以上連続したとき → Ｓ４＋個数Ｈ２Ｈ２ → Ｓ５Ｈ２が３個以上連続したとき → Ｓ６＋個数Ｈ３Ｈ３ → Ｓ７Ｈ３が３個以上連続したとき → Ｓ８＋個数０Ｄ０Ａ → Ｓ９

【０１１４】類似するレコードのＸＯＲ演算結果は，何
回も繰返すように，ワード００を多く含み，かつ出現す
るワードの種類数も多くはない。このため，上述のよう
な圧縮方法により，非常に効率の高いデータ圧縮が可能
となる。

【０１１５】図７は上記の圧縮方法にしたがう圧縮処理
の様子を示すものである。この図において，高頻度ワー
ドおよび置換ワード以外の数字は16進数表現されてい
る。高頻度ワード以外のワード（たとえば図７の８８）
についてはそのまま配列される。

【０１１６】圧縮データにおいて，実圧縮データＤ１の
前に，置換ワードの列ＣＣおよび高頻度ワードの列ＣＰ
Ｃが一定の順序で配列されている。

【０１１７】圧縮データの伸張処理は上記の圧縮処理手
順を逆にたどっていくことにより行われる。

【０１１８】(4) 圧縮データ・レコード・フォーマット図８は圧縮データ・レコード・フォーマットを示してい
る。この圧縮データ・レコードも可変長である。

【０１１９】圧縮データ・レコードは，レコードNO. Ｒ
ＮＯ，データ・ファイルにおける先頭からのオフセット
ＯＦＦＤ，参照ファイルにおける先頭からのオフセット
ＯＦＦＳ，参照ファイルを利用して圧縮処理をしている
かどうかを表わす参照フラグＣＦ，圧縮処理をしている
かどうかを表わす圧縮フラグＣＰＦ，後に続くデータ
（置換ワード列ＣＣ，高頻度ワード列ＣＰＣおよび実圧
縮データＤ１）の長さを示すサイズ・データＳＺ（以上
を，復元用補助データという），置換ワード列ＣＣ，高
頻度ワード列ＣＰＣおよび実圧縮データＤ１から構成さ
れる。レコードＤＲ₁，ＤＲ₃，ＤＲ_nのように圧縮処
理が行われないレコードについては，復元用補助データ
ＲＮＯ，ＯＦＦＤ，ＯＦＦＳ，ＣＦ，ＣＰＦ，ＳＺに続
いて，圧縮されていないこれらのレコードのデータ（非
圧縮データ）Ｄ２が配列されることにより，圧縮データ
・レコードが作成される。

【０１２０】後に説明するが，この実施例では参照ファ
イルＦＳを全く参照しないで圧縮する処理も行われる。
データ・ファイルＦＤ（またはその１ブロック）がそれ
自体で冗長度が高いまたは規則性がある場合には，参照
ファイルを全く用いることなく圧縮処理が可能である。
この場合にも，１ブロックごとに圧縮されることにより
得られた圧縮データは図８に示すフォーマットにしたが
って編集される。

【０１２１】上述した参照フラグＣＦは，このように参
照ファイルを全く利用することなくデータ・ファイルが
それ自体で圧縮された場合，およびＤＲ₁，ＤＲ₃，Ｄ
Ｒ_nのように類似するレコードを参照ファイルで見付け
ることができなかった場合にリセットされ，参照ファイ
ルのレコードを利用して圧縮された場合にはセットされ
る。

【０１２２】圧縮フラグは，ＤＲ₁，ＤＲ₃，ＤＲ_nの
ように類似するレコードが参照ファイルで見付けること
ができずに圧縮処理が施されていない場合にリセットさ
れ，それ以外の参照ファイルを利用する，しないにかか
わらず圧縮処理が施されている場合にはセットされる。

【０１２３】(5) 処理の流れ図９は送信装置10におけるデータ・ファイルの圧縮処理
手順の流れを示している。

【０１２４】ファイル・オープン等の初期処理（ステッ
プ101 ）ののち，データ・ファイルＦＤから１ブロック
長のデータを読込み（ステップ103），その１ブロック
・データが参照ファイルＦＳを利用することなくそれ自
体で圧縮可能かどうかが判断される（ステップ104 ）。
これは上述したように，冗長度が高いかどうか，規則性
が強いかどうかなどを基準にして判定される。

【０１２５】それ自体で圧縮処理が可能であれば，参照
フラグＣＦがリセットされ，圧縮フラグＣＰＦがセット
され（ステップ105 ），圧縮処理に進み，上述した圧縮
処理または公知の手法によるデータ圧縮が行われる（ス
テップ110 ）。圧縮されたデータは上述した圧縮データ
・レコード・フォーマットにしたがって編集され，圧縮
ファイル（ＦＣ）の所定位置に（たとえばレコードNO.
順にしたがう位置に）格納される（ステップ112 ）。

【０１２６】それ自体で圧縮が可能でなければ，参照フ
ァイルＦＳがサーチされ，類似するレコードが参照ファ
イルＦＳに存在するかどうかがチェックされる（ステッ
プ106 ）。

【０１２７】類似するレコードがあれば，上述したよう
にデータ・ファイルＦＤと参照ファイルＦＳの類似する
レコード間でＸＯＲ演算が行われ，中間データが得られ
る（ステップ108 ）。参照フラグＣＦおよび圧縮フラグ
ＣＰＦがともにセットされ（ステップ109 ），上述した
または公知の手法によりデータ圧縮が施され（ステップ
110 ），圧縮データ・レコード・フォーマットにしたが
って圧縮ファイル（ＦＣ）の所定位置に書込まれる（ス
テップ112 ）。

【０１２８】類似するレコードが見付からない場合に
は，参照フラグＣＦおよび圧縮フラグＣＰＦがともにリ
セットされ（ステップ111 ），圧縮処理されることな
く，圧縮データ・レコード・フォーマットにしたがって
圧縮ファイルＦＣに書込まれる（ステップ112 ）。

【０１２９】以上の処理は１ブロック長ごとに繰返し実
行され，データ・ファイルＦＤ中のすべてのデータにつ
いて処理が終了すれば（ステップ102 ），ファイル・ク
ローズ等の終了処理（ステップ113 ）をもってすべての
処理が終る。

【０１３０】図10は受信装置20における受信した圧縮フ
ァイルの復元処理の手順を示している。

【０１３１】初期処理ののち（ステップ121 ），圧縮フ
ァイルＦＣから１圧縮データ・レコードのデータを読込
み（ステップ123 ），圧縮フラグＣＰＦを参照して圧縮
処理が施されているかどうかが判定される（ステップ12
4 ）。

【０１３２】圧縮処理が施されているものであればデー
タ伸張処理が実行され（ステップ125 ），そうでなけれ
ばこのステップ125 はスキップされる。

【０１３３】続いて，参照フラグＣＦの状態をみて，参
照ファイルＦＳを利用した圧縮かどうかがチェックされ
（ステップ126 ），そうであれば参照ファイル・オフセ
ットＯＦＦＳを用いて対応するレコードが参照ファイル
ＦＳから読出され（ステップ127 ），伸張されたデータ
と参照ファイルＦＳのレコードとのＸＯＲ演算が行われ
る（ステップ128 ）。これにより，元のデータが復元す
るので，データ・ファイル・オフセットＯＦＦＤを参照
してデータ・ファイルＦＤの該当場所に書込まれる（ス
テップ129 ）。

【０１３４】データ圧縮されていない場合には実データ
がそのまま，参照ファイルを利用しないでそれ自体で圧
縮されている場合にはステップ125 で伸張されたデータ
が，データ・ファイル・オフセットＯＦＦＤを手がかり
にデータ・ファイルＦＤの元の場所に書込まれる（ステ
ップ129 ）。

【０１３５】以上の処理は圧縮ファイルＦＣの圧縮デー
タ・レコードごとに実行され，すべての圧縮データにつ
いて処理が終了すれば（ステップ122 ），終了処理（ス
テップ130 ）を経てすべての処理を終る。

【図面の簡単な説明】

【図１】データ・ファイルの通信システムを示すブロッ
ク図である。

【図２】参照ファイルを利用したデータ圧縮処理を説明
するものである。

【図３】参照ファイルを利用したデータ伸張処理を説明
するものである。

【図４】データ・ファイルと参照ファイルの１ブロック
・データを示す。

【図５】類似レコード検索処理の第１段階を示す。

【図６】類似レコード検索処理の第２段階を示す。

【図７】原データとそれをデータ圧縮して得られる圧縮
データとの例を示す。

【図８】圧縮データ・レコード・フォーマットを示す。

【図９】送信装置におけるデータ・ファイルの圧縮処理
手順を示すフロー・チャートである。

【図１０】受信装置における圧縮ファイルの伸張処理手
順を示すフロー・チャートである。

【符号の説明】

10 送信装置 20 受信装置

Claims

【特許請求の範囲】

【請求項１】データ圧縮の対象となるデータ・ファイ
ルとそれに対応する参照ファイルとを部分的に比較し
て，上記参照ファイルの一部とデータ一致率の高い任意
データ長のレコードを上記データ・ファイルにおいて捜
し出し，データ一致率の高いレコードが見付った場合に
は，上記データ・ファイルの見付ったレコードと上記参
照ファイルのそれに対応するレコードとの排他的論理和
演算を行い，かつこの排他的論理和演算により得られる
データをデータ圧縮し，上記データ圧縮処理により得ら
れた圧縮データに復元用補助データを付加することによ
り圧縮データ・レコードを作成し，上記参照ファイルの
いかなる部分とも一致率が低い上記データ・ファイルの
レコードについてはそのレコードに復元用補助データを
付加することにより圧縮データ・レコードを作成し，こ
れらの圧縮データ・レコードを編集して圧縮ファイルを
作成する，データ圧縮方法。
【請求項２】上記データ・ファイルまたはその一部が
上記参照ファイルを用いることなくそれ自体でデータ圧
縮が可能かどうかを判断し，可能であれば上記データ・
ファイルまたはその一部をそれ自体でデータ圧縮し，可
能でなければ請求項１に記載のデータ圧縮方法を実行す
る，データ圧縮方法。
【請求項３】上記復元用補助データが，レコード番
号，データ・ファイルにおける一致率の高いレコードの
位置を示すデータ，参照ファイルにおける一致率の高い
レコードの位置を示すデータ，参照ファイルを用いた圧
縮処理を行っているかどうかを示すデータ，データ圧縮
されているかどうかを示すデータ，データ・サイズを表
わすデータ，およびデータ圧縮処理に関するデータを含
んでいる，請求項１または２に記載のデータ圧縮方法。
【請求項４】圧縮ファイルを圧縮データ・レコードご
とにその復元用補助データを参照して伸張処理が必要か
どうかを判定し，伸張処理が必要であると判定した場合
には，その圧縮データ・レコードをデータ伸張し，デー
タ伸張されたレコードと，参照ファイルにおける対応す
るレコードとの間で排他的論理和演算を行ってデータ・
レコードを作成し，上記処理により作成されたデータ・
レコードと，伸張処理不要な圧縮データ・レコードに含
まれているデータ・レコードとを復元用補助データを参
照して編集することによりデータ・ファイルを復元す
る，データ伸張方法。
【請求項５】データ・ファイルまたはその一部がそれ
自体でデータ圧縮されている場合には，上記参照ファイ
ルを用いることなく，上記圧縮データ・レコードをデー
タ伸張してデータ・ファイルを復元する請求項４に記載
のデータ伸張方法。
【請求項６】上記復元用補助データが，レコード番
号，データ・ファイルにおける一致率の高いレコードの
位置を示すデータ，参照ファイルにおける一致率の高い
レコードの位置を示すデータ，参照ファイルを用いた圧
縮処理を行っているかどうかを示すデータ，データ圧縮
されているかどうかを示すデータ，データ・サイズを表
わすデータ，およびデータ圧縮処理に関するデータを含
んでいる，請求項４または５に記載のデータ伸張方法。
【請求項７】圧縮データを送信する送信装置と，この
送信装置から送信された圧縮データを受信する受信装置
とがともに上記参照ファイルを保持しているシステムに
おいて，送信装置において請求項１または２に記載のデ
ータ圧縮方法にしたがってデータ圧縮し，この処理によ
り得られた圧縮データを送信装置から受信装置に送信す
る，データ送信方法。
【請求項８】圧縮データを送信する送信装置と，この
送信装置から送信された圧縮データを受信する受信装置
とがともに上記参照ファイルを保持しているシステムに
おいて，送信装置において請求項１または２に記載のデ
ータ圧縮方法にしたがってデータ圧縮し，この処理によ
り得られた圧縮データを送信装置から受信装置に送信
し，受信装置において，受信したデータを請求項４また
は５に記載のデータ伸張方法にしたがってデータ伸張す
る，データ伝送方法。
【請求項９】データ圧縮の対象となるデータ・ファイ
ルとそれに対応する参照ファイルとを部分的に比較し
て，上記参照ファイルの一部とデータ一致率の高い任意
データ長のレコードを上記データ・ファイルにおいて検
索する手段，上記検索手段による検索によってデータ一
致率の高いレコードが見付った場合には，上記データ・
ファイルの見付ったレコードと上記参照ファイルのそれ
に対応するレコードとの排他的論理和演算を行い，かつ
この排他的論理和演算により得られるデータをデータ圧
縮するデータ圧縮手段，および上記データ圧縮手段によ
り得られた圧縮データに復元用補助データを付加するこ
とにより圧縮データ・レコードを作成し，上記参照ファ
イルのいかなる部分とも一致率が低い上記データ・ファ
イルのレコードについてはそのレコードに復元用補助デ
ータを付加することにより圧縮データ・レコードを作成
し，これらの圧縮データ・レコードを編集して圧縮ファ
イルを作成する編集手段，を備えたデータ圧縮装置。
【請求項１０】上記復元用補助データが，レコード番
号，データ・ファイルにおける一致率の高いレコードの
位置を示すデータ，参照ファイルにおける一致率の高い
レコードの位置を示すデータ，参照ファイルを用いた圧
縮処理を行っているかどうかを示すデータ，データ圧縮
されているかどうかを示すデータ，データ・サイズを表
わすデータ，およびデータ圧縮処理に関するデータを含
んでいる，請求項９に記載のデータ圧縮装置。
【請求項１１】圧縮ファイルを圧縮データ・レコード
ごとにその復元用補助データを参照して伸張処理が必要
かどうかを判定する手段，上記判定手段によって伸張処
理が必要であると判定された場合には，その圧縮データ
・レコードをデータ伸張し，データ伸張されたレコード
と，参照ファイルにおける対応するレコードとの間で排
他的論理和を演算してデータ・レコードを作成するデー
タ伸張手段，および上記データ伸張手段により作成され
たデータ・レコードと，伸張処理不要な圧縮データ・レ
コードに含まれているデータ・レコードとを復元用補助
データを参照して編集することによりデータ・ファイル
を復元する編集手段，を備えたデータ伸張装置。
【請求項１２】データ一致率の高い対象データと参照
データとの排他的論理和演算を行い，この排他的論理和
演算結果についてデータ圧縮処理を施して圧縮データを
得る，データ圧縮方法。
【請求項１３】与えられた圧縮データをデータ伸張
し，データ伸張により得られたデータと参照データとの
排他的論理和演算を行うことにより元データを復元す
る，データ伸張方法。
【請求項１４】対象データと参照データとの間で排他
的論理和を演算する演算手段，および上記排他的論理和
演算手段による演算結果にデータ圧縮処理を施すデータ
圧縮手段，を備えたデータ圧縮装置。
【請求項１５】与えられた圧縮データをデータ伸張す
るデータ伸張手段，および上記データ伸張手段によりデ
ータ伸張されたデータと参照データとの排他的論理和を
演算する演算手段，を備えたデータ伸張装置。
【請求項１６】データ・ファイルから第１の所定長の
第１の部分データを取出し，参照ファイルから上記第１
の所定長の第１の部分データを取出し，これらの第１の
部分データを取出す位置を少なくとも参照ファイルにお
いて所定バイトずつシフトしながら，データ・ファイル
および参照ファイルからそれぞれ取出した上記第１の部
分データを相互に比較して，一致率の高い第１の部分デ
ータがあるかどうかを調査し，一致率の高い第１の部分
データが見付ったときに上記第１の部分データの取出し
のためのシフト量を固定し，固定した取出し位置の近傍
において上記第１の所定長よりも短い第２の所定長の第
２の部分データを上記データ・ファイルおよび上記参照
ファイルからそれぞれ取出し，それらの取出し位置を上
記参照ファイルおよびデータ・ファイルにおいて所定バ
イトずつシフトしながら，上記データ・ファイルおよび
参照ファイルからそれぞれ取出した上記第２の部分デー
タを相互に比較することにより，一致率の高いレコード
の範囲を上記データ・ファイルおよび参照ファイルにお
いて決定する，類似するレコードを見付け出す方法。
【請求項１７】上記データ・ファイルから固定データ
長の１ブロック・データを取出し，この取出した１ブロ
ック・データについて，上記参照ファイルにおける上記
第１の部分データの取出し位置をシフトしながら上記調
査処理を行い，一致率の高い第１の部分データが見付か
らない場合に，上記データ・ファイルから取出すべき１
ブロック・データの位置を１ブロック長分シフトして上
記調査処理を繰返す，請求項16に記載の類似するレコー
ドを見付け出す方法。
【請求項１８】圧縮すべき一連のデータから一定長さ
のデータ・ブロックを取出し，このデータ・ブロックを
構成する複数の単位データのうちで出現頻度の高い単位
データを検出し，出現頻度の高い１または複数種類の単
位データに，上記データ・ブロックにおいて出現しない
単位データによって表わされるコードを割当てるデータ
圧縮方法。
【請求項１９】圧縮すべきデータを構成する複数の単
位データのうちで出現頻度の高い単位データを検出し，
出現頻度の高い１または複数種類の単位データに，上記
圧縮すべきデータにおいて出現しない単位データによっ
て表わされるコードを割当てるデータ圧縮方法。
【請求項２０】上記の出現頻度の高い１または複数種
類の単位データを除く単位データに対しては圧縮処理を
施さない，請求項18または19に記載のデータ圧縮方法。
【請求項２１】出現頻度の高い単位データが連続する
数に応じて異なるコードを割当てる請求項18から20のい
ずれか一項に記載のデータ圧縮方法。
【請求項２２】出現頻度の高い単位データが複数個連
続した場合に，この連続する単位データからなるデータ
を，単位データに対応するコードと単位データが連続す
る数を表わすコードとの組合せによって表わす，請求項
18から21のいずれか一項に記載のデータ圧縮方法。
【請求項２３】特定の意味を表わすデータに特定のコ
ードを割当てる，請求項18または19に記載のデータ圧縮
方法。