JP3056268B2

JP3056268B2 - データ圧縮・復元における辞書登録方式

Info

Publication number: JP3056268B2
Application number: JP5294791A
Authority: JP
Inventors: 佳之岡田; 茂吉田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-03-19
Filing date: 1991-03-19
Publication date: 2000-06-26
Anticipated expiration: 2015-06-26
Also published as: JPH04289916A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ圧縮およびデータ
復元における辞書登録方式に関する。詳しくは、データ
圧縮率の良悪の判断に基づき、圧縮率が良好な場合に
は、短い文字列、古い登録内容、アクセス頻度の低い登
録内容を圧縮率に寄与していない登録内容として辞書か
ら抹消し、一方、圧縮率が悪化した場合には、古い登録
内容およびアクセス頻度の低い登録内容を圧縮率に寄与
している長い文字列も含めて辞書から抹消することによ
り、辞書を有効利用し、圧縮率を向上するデータ圧縮お
よびデータ復元における辞書登録方式に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
など、さまざまな種類のデータがコンピュータで扱われ
るようになってきている。また、扱うデータ量も急速に
増加している。大量のデータを扱うときには、データの
なかの冗長な部分を省いてデータ量を圧縮することで、
記憶容量を減らしたり、伝送速度を速める方法が採られ
ている。さまざまなデータを一つの方式で圧縮する方法
としてユニバーサル符号化が提案されている。ここで言
うデータ圧縮は、さまざまなデータに適用できるが、以
下では、情報理論で用いられる呼称を踏襲して、データ
の１ワード単位を文字と呼び、データが任意のワード数
つながったものを文字列と呼ぶことにする。

【０００３】ユニバーサル符号化の代表的な方法として
は、Ziv-Lempel（ジブ−レンペル）符号がある（詳しく
は、画像『Ziv-Lempelのデータ圧縮法』、情報処理、Vo
l.26, No.1, 1985年を参照されたい）。Ziv-Lempel符号
化には二つのアルゴリズム、すなわち、ユニバーサル型
と増分分解型（Incremental parsing)が提案されてい
る。さらに、ユニバーサル型アルゴリズムを改良したＬ
ＺＳＳ符号（詳しくは、T.C.Bell, "Better OPM/L Text
Compression", IEEE Trans.on Communication,Vol.COM
-34, No.12, Dec.1986 を参照）、増分分解型アルゴリ
ズムを改良したＬＺＷ（Lempel-Ziv-Welch）符号（詳し
くは、T.A.Welch, "A Technique for High-Performance
Data Compression", Computer, June 1984 を参照）が
ある。これらの符号のうち、高速処理ができることと、
アルゴリズムの簡単さからＬＺＷ符号が記憶装置のファ
イル圧縮などで使われるようになっている。

【０００４】図９は、従来のＬＺＷ符号の符号化・復号
化処理の動作フローチャートである。ＬＺＷ符号化は、
書き換え可能な辞書を使用し、入力文字コード・データ
を相異なる文字列に分け、この文字列を出現した順に番
号を付けて辞書に登録するとともに、現在入力している
文字列を辞書に登録してある文字列を照合し、最長一致
する文字列の番号を出力することによって符号化するも
のである。

【０００５】図９（ａ）のＬＺＷ符号化の動作フローチ
ャートを、図１０のＬＺＷ符号の説明図を使用して説明
する。図１０のＬＺＷ符号の説明図は、説明を簡単化す
るためにａｂｃの３文字の組合せからなるデータをＬＺ
Ｗ符号で圧縮／復元する場合の実際の手順を示してい
る。

【０００６】図１０（ａ）は、ＬＺＷ符号化の説明図、
同図（ｂ）は、ＬＺＷ符号化で作成する辞書の説明図で
ある。今、入力データ（同図（ａ）の入力データ) とし
てａｂｃの３つの文字の組合せからなる文字列（ａｂａ
ｂｃｂａｂａｂａａａａａａａ・・・）が入力されるも
のとする。符号化する場合には、まず、全文字、すなわ
ち、ここではａ、ｂ、ｃの３文字を初期値として辞書に
登録する（図９のＳ１１１、辞書の初期化）。すなわ
ち、入力データを構成する全文字であるａ、ｂ、ｃを辞
書の先頭に登録し、それぞれ、登録番号１、２、３を付
す（図１０（ｂ）の部分列）。この処理を終了したら、
入力データの第１番目の文字Ｋ（ここではＫ＝ａ）につ
いて辞書を検索し、登録番号（ここでは１）を求めωと
する（図９のＳ１１２）。

【０００７】次に、入力データの次の文字を読み込み、
これを文字Ｋとする（ここではＫ＝ｂ）（Ｓ１１３）。
そして、前の文字の登録番号ωを接続したωＫが辞書に
存在するか否かを判断する（Ｓ１１４）。ここでは、１
ｂが辞書に存在するか否かを判定する。存在する場合
（Ｙ）には、ωＫ、すなわち、１ｂを登録番号ωとし、
データが終了か否かを判定したうえ（Ｓ１１６）、終了
でなければ（Ｎ）次の文字を読み込む処理（Ｓ１１３）
に戻る。データ終了ならば（Ｙ）処理を終了する（ＥＮ
Ｄ）。そして、文字列ωＫが辞書から探せなくなるまで
最長一致の探索を続ける。一方、Ｓ１１４の判定でωＫ
が辞書に存在しない場合（Ｎ）には、まず、前の文字の
登録番号ωを符号ｃｏｄｅ（ω）として出力したうえ、
文字列ωＫに新たな登録番号を付加して辞書に登録し、
文字Ｋの登録番号をωとして置き換える（Ｓ１１７）。
そして、データ終了の判断をしたうえ（Ｓ１１６）、次
の文字を入力する処理（Ｓ１１３）に戻る。

【０００８】図１０の例では、この時点では１ｂ（＝ω
Ｋ）が辞書に存在しないのでＳ１１４でＮとなり、Ｓ１
１６の処理を実行する。すなわち、ω＝１として符号語
ｃｏｄｅ（１）を出力し（同図（ａ）の出力符号の最初
の１に対応）、文字列１ｂを新たな登録番号４を付して
辞書に登録する（同図（ｂ））。そして、Ｋ＝ｂの登録
番号２をωに代入して、次の文字の入力処理（Ｓ１１
３）に戻る。Ｓ１１３では、次の文字（３文字目）ａが
文字Ｋとして読み込まれ、Ｓ１１４でωＫ（＝２ａ）が
辞書に存在するか否かを辞書を検索して判定する。辞書
にはないので（Ｎ）、Ｓ１１７でｃｏｄｅ（２）を出力
し、文字列２ａに新たな登録番号５を付して辞書に登録
し、ａの登録番号１をωに代入して次の文字の入力処理
（Ｓ１１３）に戻る。次の入力文字（４文字目）はｂで
あり、これを文字Ｋとする。Ｓ１１４でωＫ（＝１ｂ）
が辞書に存在するか否かを判定する。１ｂは辞書に存在
するので（Ｙ）、Ｓ１１５でωＫ（＝１ｂ）の登録番号
４をωに代入し、次の文字の入力（Ｓ１１３）に戻る。
次の入力文字（５文字目）はｃであり、これを文字Ｋと
する（Ｓ１１３）。Ｓ１１４でωＫ（＝４ｃ）が辞書に
存在するか否かを判定する。４ｃは辞書に存在しないの
で（Ｎ）、Ｓ１１７でｃｏｄｅ（４）を出力し、文字列
４ｃに新たな登録番号６を付して辞書に登録し、ｃの登
録番号３をωに代入して次の文字の入力処理（Ｓ１１
３）に戻る。以下、入力文字が存在しなくなる（Ｓ１１
６のＮ）まで同様の処理を続ける。

【０００９】そして、入力文字が存在しないと判定され
たら（Ｓ１１６のＮ）、その前までに求まっている登録
番号ωを符号語ｃｏｄｅ（ω）として出力し（Ｓ１１
８）、処理を終了する（ＥＮＤ）。

【００１０】以上の処理により、符号化を実行しなが
ら、図１０（ｂ）のような辞書が作成される。上記の流
れによって符号化したデータを復号する場合には、上記
の逆の操作を実行する。図９（ｂ）の動作フローチャー
トおよび図１０（ｃ）の復号化の説明図に沿って復号化
の処理を説明する。

【００１１】復号化する場合にも符号化と同様の辞書を
使用し、予め出現する全文字（ａｂｃ）について１文字
の辞書を初期値として登録しておく（ａの登録番号ω
（ａ）＝１、ω（ｂ）＝２、ω（ｃ）＝３）（Ｓ１２１
の辞書の初期化）。そして、辞書の未登録の先頭アドレ
スＮに出現する全文字数を代入し、Ｎを初期化する（Ｓ
１２１）。次に、最初の符号ＣＯＤＥを読み込み、ＯＬ
Ｄｃｏｄｅに代入し、辞書を参照し、符号ＣＯＤＥと一
致する登録番号ｃｏｄｅ（Ｋ）を探索し、登録番号ｃｏ
ｄｅ（Ｋ）をもつ文字Ｋを出力し、さらに文字Ｋを後の
例外処理のためにｃｈａｒに代入しておく（Ｓ１２
２）。図１０の例の場合、まず、符号１を読み込み（同
図（ｃ）の入力符号の最初の符号）、ＯＬＤｃｏｄｅに
代入したうえ、辞書を参照するｃｏｄｅ（Ｋ）＝１とな
る文字Ｋはａであり、ここでａを出力し（同図（ｃ）の
出力データ）、さらにｃｈａｒにａを代入しておく。

【００１２】次に、次の符号入力ＣＯＤＥを読み込み、
ＮＥＷｃｏｄｅに代入する（Ｓ１２３）。そして、辞書
を探索し、ＣＯＤＥ＝ｃｏｄｅ（Ｋ）となる辞書項目を
探し、ＣＯＤＥが辞書中に定義されているか否かを判定
する（Ｓ１２４）。通常、入力した符号語は前回までの
処理で辞書に登録されている。ＣＯＤＥが定義されてい
る（Ｙ）場合には、ＣＯＤＥ＝ｃｏｄｅ（ωＫ）となる
文字列を辞書から読み出し、文字列が２字以上（ωＫ）
からなっているか、１字のみ（Ｋ）かを判定する（Ｓ１
２５）。２字以上の場合（Ｙ）、文字Ｋを一時的にＳｔ
ａｃｋをＰＵＳＨして格納し、登録番号ｃｏｄｅ（ω）
をＣＯＤＥとして判定Ｓ１２５に戻る。Ｓ１２５、Ｓ１
２６を文字列ωＫが１字になるまで繰り返すことによっ
て、Ｓｔａｃｋに最初に辞書から読み出したときのωＫ
を構成する文字列がスタックされる。文字列ωＫが１字
になったと判定される（Ｓ１２５のＮ）と、最後に残っ
たＣＯＤＥ＝ｃｏｄｅ（Ｋ）となる文字Ｋを出力し、そ
の文字Ｋをｃｈａｒにセットしたうえ、Ｓｔａｃｋに蓄
えた文字をＬＩＦＯ（Last InFast Out) 形式で一つ一
つポップして出力する。そして、辞書の新たな登録番号
を付して（ＯＬＤｃｏｄｅ，Ｋ）を辞書に登録し、ＮＥ
Ｗｃｏｄｅにセットされた登録番号をＯＬＤｃｏｄｅに
セットする（Ｓ１２７）。そして、新たなデータが存在
しないか存在するか、すなわち、データ終了か否かをチ
ェックし（Ｓ１２８）、データが存在する場合には
（Ｎ）、次の符号入力を読み込む処理Ｓ１２３に戻り、
データ終了の場合（Ｙ）には処理を終了する（ＥＮ
Ｄ）。

【００１３】一方、Ｓ１２４でＣＯＤＥが辞書中に定義
されていないと判定された場合（Ｎ）には、例外処理を
実行する（Ｓ１２９）。すなわち、前回処理した符号Ｏ
ＬＤｃｏｄｅに前回復号した文字列の最初の一文字を加
えた文字列（ＯＬＤｃｏｄｅ，ｃｈａｒ）を求める（Ｓ
１２９）。そして、この文字列を実際の文字として出力
したうえ、文字列（ＯＬＤｃｏｄｅ，ｃｈａｒ）を辞書
に新たな登録番号を付して登録する（Ｓ１２５〜Ｓ１２
７）。この例外処理はＳ１２９およびＳ１２５〜Ｓ１２
７の処理を通じて行なわれ、最終的にＳ１２７で文字列
の出力と辞書登録が行なわれる。

【００１４】図１０の例では、Ｓ１２２の時点で文字ａ
が出力されたうえ、ＯＬＤｃｏｄｅに１が、ｃｈａｒに
文字ａがセットされている。次に、Ｓ１２３で、次の符
号入力（入力符号）である２をＣＯＤＥとして読み込
み、ＮＥＷｃｏｄｅにセットする。Ｓ１２４で辞書にＣ
ＯＤＥが定義されているか否かを判定する。ＣＯＤＥ＝
２は定義されているので（Ｙ）Ｓ１２５へ進み、ＣＯＤ
Ｅ＝ｃｏｄｅ（ωＫ）か、すなわち、登録番号ＣＯＤＥ
の文字列が２字以上か１字かを判定する。この場合、登
録番号２の文字はｂの１字なのでＮとなり、Ｓ１２７に
進み、文字ｂを出力し（出力データ）、ｃｈａｒにｂを
セットする。今、Ｓｔａｃｋに文字は蓄えられていない
ので、（ＯＬＤｃｏｄｅ，Ｋ）＝１ｂを登録番号４を付
して辞書に登録する（同図（ｃ）の部分列（ｓｔｒｉｎ
ｇ））。そしてＮＥＷｃｏｄｅ＝２をＯＬＤｃｏｄｅに
セットして、データ終了の判定をし（Ｓ１２８でＮ）、
Ｓ１２３に戻る。

【００１５】Ｓ１２３では３番目の符号４（入力符号）
をＣＯＤＥとして入力し、ＮＥＷｃｏｄｅにセットす
る。Ｓ１２４で辞書にＣＯＤＥ＝４が定義されているか
否かを判定する。先に４は登録されているのでＹとな
り、Ｓ１２５でＣＯＤＥの文字列が２文字以上か否かを
判定する。ＣＯＤＥ＝４となる文字ωＫは１ｂなので２
文字以上なのでＳ１２５はＹとなり、Ｓ１２６へ進む。
Ｓ１２６では、文字Ｋ＝ｂをＳｔａｃｋにスタックし、
また、ｃｏｄｅ（ω）＝１をＣＯＤＥに代入し、Ｓ１２
５へ戻る。Ｓ１２５では、ＣＯＤＥ＝１が２文字以上が
１文字かを判定する。ＣＯＤＥ＝１とする文字Ｋはａで
１文字なのでＮとなり、Ｓ１２７に進む。Ｓ１２７で
は、文字Ｋ＝ａを出力し（出力データ）、ａをｃｈａｒ
にセットし、ＳｔａｃｋをポップしてＳｔａｃｋに蓄積
しておいたｂを出力する（出力データ）。そして、（Ｏ
ＬＤｃｏｄｅ，Ｋ）＝２ｂを新たな登録番号５を付して
辞書に登録する（部分列（ｓｔｒｉｎｇ））。さらにＮ
ＥＷｃｏｄｅ＝４をＯＬＤｃｏｄｅにセットする。そし
て、データ終了の判定をし（Ｓ１２８）、Ｎとなり、次
の符号の入力Ｓ１２３に戻る。以上の処理によって、符
号１２４が文字ａｂａｂに復号された。

【００１６】通常、以上のような処理を繰り返すことに
よって復号処理が実行されるが、例外処理Ｓ１２９が必
要な場合がある。図１０の例では同図（ｃ）の６番目の
入力である符号８の復号時にこの例外処理が必要にな
る。すなわち、符号８が辞書に登録されていないからで
ある。Ｓ１２４でＣＯＤＥ＝８が定義されいない（Ｎ）
と判断されＳ１２９の例外処理が実行される。この場合
には、前回処理した符号（ＯＬＤｃｏｄｅ＝５）に前回
復号した文字列ｂａの最初の一文字（ｃｈａｒ＝ｂ）を
加えた文字列５ｂを求め（Ｓ１２９）、これをＳ１２５
〜１２７の処理によって５ｂ＝２ａｂ＝ｂａｂに置き換
えて出力する。そして、最後にｂａｂに新たな登録番号
８を付して辞書に登録する。

【００１７】尚、図９（ａ）（ｂ）の符号化／復号化処
理は、同じ辞書を作り出しながら行なう。以上に示した
ＬＺＷ符号の辞書登録方法を簡単化して説明する。図１
１は、従来の符号・復号化の説明図である。

【００１８】まず、同図（ａ）が従来の方法の一つであ
る（方法１）。すなわち、辞書の容量が一杯になった場
合には新規登録を行わないようにする方法である。符号
化の場合には（同図（ａ−１））、データを入力し（Ｓ
１３０）、そのデータと同一のデータを辞書を検索して
検出し（Ｓ１３１）、辞書検索で見つかった場合には辞
書に登録してある符号によって符号化する（Ｓ１３
２）。そしてＳ１３３以下が辞書登録の処理である。ま
ず、辞書の容量が一杯になっているか否かを判定する
（Ｓ１３３）。一杯ではないときには（Ｎ）、辞書に新
規の項目を登録し（Ｓ１３４）、処理を終了する（ＥＮ
Ｄ）。一方、辞書が一杯の場合には（Ｙ）、登録を行な
わずに処理を終了する（ＥＮＤ）。これによって、辞書
が一旦一杯になると新規の登録処理は行なわれず、新た
な符号の辞書は作成されないことになる。

【００１９】復号化の場合も同様である（同図（ａ−
２））。まず、符号データを入力し（Ｓ１３５）、符号
データと一致するデータを辞書検索して見つける（Ｓ１
３６）。一致データが見つかった場合には辞書に登録し
てある復元データによって復号化する（Ｓ１３７）。そ
してＳ１３８以下が辞書登録の処理である。まず、辞書
の容量が一杯になっているか否かを判定する（Ｓ１３
８）。一杯でないときには（Ｎ）辞書に新規の項目を登
録し（Ｓ１３９）、処理を終了する（ＥＮＤ）。一方、
辞書容量が一杯の場合には（Ｙ）、登録を行なわずに処
理を終了する（ＥＮＤ）。

【００２０】同図（ｂ）は従来の辞書登録の第二の方法
である（方法２）。この方法は、辞書容量が一杯になっ
た時点で圧縮率が悪化しているか否かを判定し、悪化し
ていれば辞書を初期化するものである。

【００２１】同図（ｂ−１）は符号化の処理の流れであ
る。データ入力（Ｓ１４０）、辞書検索（Ｓ１４１）、
符号化（Ｓ１４２）は方法１の符号化と同様である。Ｓ
１４３以降が辞書登録の処理である。まず、辞書容量が
一杯か否かを判定する（Ｓ１４３）。そして、一杯でな
い場合（Ｎ）には、新規データを辞書に登録し（Ｓ１４
４）、処理を終了する（ＥＮＤ）。一方、辞書が一杯の
場合（Ｙ）には、圧縮率が悪化しているか否かを判定す
る（Ｓ１４５）。悪化していない場合（Ｎ）には、辞書
の新規登録は行なわずに処理を終了する（ＥＮＤ）。ま
た、悪化している場合（Ｙ）には、これまでに登録した
辞書をすべてクリアして辞書を初期化し（Ｓ１４６）、
処理を終了する（ＥＮＤ）。

【００２２】復号化（同図（ｂ−２））も同様である。
符号データ入力（Ｓ１５０）、辞書検索（Ｓ１５１）、
復号化（Ｓ１５２）の後で辞書登録処理を実行する（Ｓ
１５３〜）が、まず、辞書容量が一杯か否かを判定し
（Ｓ１５３）、一杯でない（Ｎ）場合には新規登録処理
を実行する（Ｓ１５４）。また、一杯の場合には、圧縮
率が悪化してか否かを判定し（Ｓ１５５）、悪化してい
ない場合は何も処理せずに終了し（ＥＮＤ）、悪化して
いる場合には辞書をクリアし、初期化する（Ｓ１５
６）。

【００２３】

【発明が解決しようとする課題】しかしながら、従来の
方式では圧縮率が悪化するという問題がある。すなわ
ち、従来の方法１（図１１（ａ））の場合は、辞書の容
量が一杯になるまで新規登録を行ない、一杯になるとそ
の時点の辞書の状態を最後まで保持する。そのため、圧
縮率が悪化した場合にはそれを改善する手立てがまった
くないのである。

【００２４】一方、従来の方法２（図１１（ｂ））は、
辞書容量が一杯になった後に圧縮率が悪化した場合に辞
書を初期化して新たな辞書を作りなおすことにより、圧
縮率を改善しようとするものである。しかし、辞書が一
杯になる前の段階で圧縮率が低下したとしても、辞書容
量が一杯になるまでは登録をし続け辞書の初期化という
圧縮率を改善するための処理は行なわれないので圧縮率
は改善されないという問題と、辞書を初期化して圧縮率
を改善しようとする方法であるために、初期化直後には
辞書に何も登録されていず圧縮率が極端に落ちるという
問題、圧縮率が０好な場合には圧縮率に寄与しない内容
をも登録し続けるために圧縮率の伸びを抑えるという問
題がある。

【００２５】本発明は、辞書容量には無関係に、圧縮率
が良好な場合には圧縮率に寄与しない短い文字列や古い
登録内容、アクセス頻度の低い登録内容を抹消し、圧縮
率が悪化したときには圧縮率に寄与する長い文字列をも
含めて古い登録内容、アクセス頻度の低い登録内容を抹
消し、圧縮率の向上することを目的とする。

【００２６】

【課題を解決するための手段】第１図は、本発明の機能
ブロック図である。本発明は、原データ２を辞書４を作
成しながら符号化し圧縮データ３に変換するデータ圧縮
装置１と、データ圧縮装置１で符号化した圧縮データ３
を辞書４と同じ辞書９を作成しながら復号化し復元デー
タ１０に変換するデータ復元装置８を前提とする。

【００２７】まず、データ圧縮装置１は圧縮率判定手段
５を、データ復元装置８は圧縮率判定手段１１を有す
る。両圧縮率検出手段（５、１１）は、原データ２を次
々に圧縮データ３に符号化していく段階で、ある一定期
間の圧縮率を常時監視し、前もって定めたしきい値と比
較することにより圧縮率が良好か否かを判定する。

【００２８】また、データ圧縮装置１は抹消対象決定手
段６を、データ復元装置７は抹消対象決定手段１２を有
する。両登録抹消手段（６、１２）は、それぞれ、前記
圧縮率判定手段（５、１１）の結果に基づいて、それぞ
れ辞書４および辞書９から登録を抹消する辞書内容を決
定する。まず、前記圧縮率判定手段（５、１１）の判定
結果が圧縮率良好の場合には、圧縮率に寄与していない
登録内容として、一定期間内の平均文字列長よりも短い
文字部分列を抽出する。そして、その中で時間的に古く
登録された文字部分列、アクセス頻度の低い文字部分列
を選択し、抹消対象とする。一方、前記圧縮率判定手段
（５、１１）によって圧縮率が悪化していると判定され
た場合には、抹消対象として古く登録された文字部分列
およびアクセス頻度の低い文字部分列を選択し、圧縮に
寄与する長い文字部分列をも含めて抹消対象とする。

【００２９】最後に、データ圧縮装置１は登録抹消手段
７を、データ復元装置８は登録抹消手段１３を有する。
両登録抹消手段（７、１３）は、それぞれ、前記抹消対
象決定手段（６、１２）によって決定された抹消対象の
文字部分列を、それぞれ、辞書４、辞書９から抹消す
る。

【００３０】

【作用】データ圧縮装置１で原データ２を符号化して圧
縮する場合、まず、辞書４の領域を用意しておく。ユー
ザは原データ２をこのデータ圧縮装置１に入力する。デ
ータ圧縮装置１は、入力されたデータの先頭から順に処
理していく。まず、辞書４を検索し、原データ（文字
列）と一致するデータがあるか否かを判定する。一致す
るデータがある場合には、その辞書データに付した番号
を出力することにより原データ（文字列）を符号化す
る。一方、一致するデータが辞書内にない場合には、該
原データ（文字列）を辞書４に登録することになる。こ
のような処理を順に繰り返すことにより、辞書４を作成
しながら原データ２を符号化し、圧縮データ３に変換し
ていく。

【００３１】このとき、圧縮率は、ある一定期間内の原
データ数とそのなかで符号化できたデータ数の比で表す
ことができる。符号化されるデータ数が大きいほど圧縮
率は高くなる。符号化ができない場合には辞書に登録す
るので、辞書容量は徐々に増していくことになる。

【００３２】圧縮率判定手段５は、データ圧縮装置１で
原データ２を圧縮データ３に符号化するときに常時稼働
している。そして、一定区間ごとに圧縮率を算出して該
圧縮率が悪化しているか否かを判定し、その判定結果を
抹消対象決定手段６に送る。

【００３３】抹消対象決定手段６は、圧縮率判定手段５
が出力する圧縮率の悪化の判定結果を入力とする。圧縮
率が悪化していない場合には、圧縮率に寄与していない
登録内容を抹消対象として決定する。圧縮率に寄与しな
い登録内容として短い文字列が抽出され、そのなかで登
録時期の古い文字列、アクセス頻度の少ない部分列を抹
消対象とする。長い文字列ほど、効率良く原データ２を
符号化することができ、逆に、短い文字列で符号化する
と、多くの符号が必要になり、圧縮率を落とす要因とな
る。短い文字列の判断は、一定期間内の平均の文字列長
を求め、該平均文字列長よりも短いものを短い文字列と
判定する。また、登録時期の古い文字列は、一般に、符
号化に使われることが少なくなるので、圧縮率に寄与し
ないと判断され、抹消対象とされる。一方、圧縮率判定
手段５の判定結果が圧縮率が悪化しているという判断の
場合には、圧縮率に寄与している登録内容も含めて抹消
対象とする。すなわち、長い文字列であっても、古い登
録内容であったり、アクセス頻度が低い場合には抹消対
象に決定する。

【００３４】登録抹消手段７は、前記抹消対象決定手段
６の決定結果を入力とする。そして、入力された抹消対
象文字列を辞書４から抹消する。データ圧縮装置１で符
号化した圧縮データ３は、データ復元装置８で復元デー
タ１０に復号化する。データ復元装置８の復号化では、
符号化で作成した辞書４と同一の辞書９を作成しながら
復号処理を進める。まず、データ圧縮装置１で符号化し
た圧縮データ３をデータ復元装置８に入力する。データ
復元装置８は、入力された圧縮データ３の先頭から順に
処理していく。まず、辞書９を検索し、圧縮データ（符
号コード）と一致するデータを見つけて復号する。そし
て、前符号と原符号を合わせた符号を辞書９に登録す
る。この処理を繰り返すことにより、辞書９を作成しな
がら圧縮データ３を復号化し、復元データ１０に変換し
ていく。

【００３５】データ復元装置８を起動すると、これとと
もに、圧縮率判定手段１１が起動される。圧縮率検出手
段１１は、データ復元装置８で圧縮データ３を復元デー
タ１０に復号化するときに常時稼働している。そして一
定区間ごとに圧縮率を算出して、該圧縮率が悪化してい
るか否かを判定し、その判定結果を抹消対象決定手段１
２に送る。

【００３６】抹消対象決定手段１２は、圧縮率判定手段
１１が出力する圧縮率の悪化の判定結果を入力とする。
抹消対象決定手段１２は、データ圧縮装置１の抹消対象
決定手段６と同様の処理を実行する。すなわち、圧縮率
が悪化していない場合には、圧縮率に寄与していない登
録内容、短い文字列で、登録時期の古い文字列、アクセ
ス頻度の少ない部分列を抹消対象として決定する。一
方、圧縮率が悪化しているという判定結果が入力された
場合には、圧縮率に寄与する長い文字列も含めて、登録
時期の古い文字列およびアクセス頻度の少ない文字列を
抹消対象とする。そして決定した抹消対象を登録抹消手
段１３に送る。

【００３７】登録抹消手段１３は、前記抹消対象決定手
段１２で決定された抹消対象文字部分列を辞書９から抹
消する。以上の処理において、圧縮率判定手段５、１１
および抹消対象決定手段６、１２は、辞書４および辞書
９の抹消内容は同一になるように同様の処理を実行す
る。

【００３８】

【実施例】図２は、本発明の一実施例のシステム構成図
である。例えば、一般的なコンピュータ・システム２０
で構成することができる。

【００３９】コンピュータ・システム２０は、ＣＰＵ２
１および主記憶２２、Ｉ／Ｏインタフェース２３などか
らなり、それぞれが相互に接続されている。Ｉ／Ｏイン
タフェース２３にはキーボードやマウス等の入力装置２
４と、ディスプレイ装置やプリンタ等の出力装置２５、
外部記憶装置２６、通信網３０が接続される。主記憶２
２は、コンピュータ・システム２０の基本動作を制御す
るシステム・ソフトウエア２７やデータ圧縮・復元ソフ
トウエア２８が格納され、ＣＰＵ２２やＩ／Ｏインタフ
ェース２３はこれらのソフトウエアに従って処理を実行
する。データ圧縮・復元ソフトウエア２８は圧縮・復元
に使用する辞書メモリ２９の領域をもつ。

【００４０】データ圧縮・復元ソフトウエア２８は、入
力装置２４から入力されるデータの圧縮や、外部記憶装
置２６に格納されているデータの圧縮、他のコンピュー
タ・システム等の装置へ伝送されるデータの圧縮、およ
び、その復元を実行することが可能である。例えば、入
力装置２４から入力されるデータを圧縮する場合を考え
る。入力装置２４から入力される入力データはＩ／Ｏイ
ンタフェース２３を介してデータ圧縮・復元ソフトウエ
ア２８に入力され処理される。圧縮する場合には、デー
タ圧縮・復元ソフトウエア２８は、辞書メモリ２９内の
辞書を検索し、原データと一致するデータが存在すれば
そのデータに付された番号によって符号化する。また一
致するデータがないときには、そのデータに新たな番号
を付けて辞書メモリ２９に登録する。一方、圧縮データ
を復元する場合には、入力装置２４や外部記憶装置２
６、通信網３０から圧縮データがＩ／Ｏインタフェース
２３を介してデータ圧縮・復元ソフトウエア２８に入力
される。データ圧縮・復元ソフトウエア２８は、辞書メ
モリ２９内の辞書を検索し、圧縮データ（符号）と一致
するデータを検索して、その符号に対応する原データを
求めて出力する。そして、前符号と現符号を合わせたも
のに新たな符号を付して辞書に登録する。

【００４１】図３は一実施例の原理説明図である。同図
（ａ）は符号化の動作説明図、同図（ｂ）は復号化の動
作説明図である。まず、符号化処理（同図（ａ））で
は、入力装置２４等から圧縮したいデータを入力する
（Ｓ３０）。次に、この入力データと一致するデータを
辞書メモリ２９を検索して見つける（Ｓ３１）。見つか
った場合には辞書メモリ２９の該データに付された符号
によって符号化する（Ｓ３２）。辞書検索で見つからな
い場合には、辞書登録等の以下の処理が必要になる（Ｓ
３３〜Ｓ３７）。

【００４２】まず、圧縮率が悪化しているか否かを判定
する（Ｓ３３）。悪化していない場合には（Ｎ）、圧縮
率に寄与しない文字部分列、すなわち、短い文字部分列
で登録時期の古い文字部分列、アクセス頻度の低い文字
部分列を抹消する（Ｓ３４）。一方、悪化している場合
（Ｓ３３のＹ）には、圧縮率に寄与している文字部分列
も含めて、登録時期の古い文字部分列、アクセス頻度の
低い文字部分列を抹消する（Ｓ３５）。

【００４３】以上の辞書登録抹消処理（Ｓ３４、Ｓ３
５）の実行後、辞書容量が一杯か否かを判定し（Ｓ３
６）、一杯でなければ（Ｎ）新規の内容を登録し（Ｓ３
７）、処理を終了し（ＥＮＤ）、辞書が一杯場合には
（Ｙ）何も登録せずに処理を終了する（ＥＮＤ）。

【００４４】同図（ｂ）は同図（ａ）で符号化した圧縮
データを復元するための復号化の動作説明図である。ま
ず、符号データを入力する（Ｓ３８）。次に、この符号
データと一致するデータを辞書メモリ２９を検索して見
つて（Ｓ３９）、復号化する（Ｓ４０）。その後、辞書
の登録処理を実行するとき、圧縮率の悪化状態によって
辞書の登録抹消処理を実行する（Ｓ４０〜Ｓ４５）。処
理は符号化（同図（ａ））の場合と同様である。まず、
圧縮率が悪化しているか否かを判定する（Ｓ４１）。悪
化している場合には（Ｙ）、圧縮に寄与している文字部
分列も含め、登録時期の古い文字部分列やアクセス頻度
の低い文字部分列を辞書メモリ２９から抹消する（Ｓ４
３）。一方、圧縮率が悪化していない場合（Ｓ４１の
Ｎ）には、圧縮率に寄与していない文字部分列、すなわ
ち、文字列長の短い文字部分列で、登録時期の古い文字
部分列、アクセス頻度の低い文字部分列を辞書メモリ２
９から抹消する（Ｓ４４）。以上の辞書登録抹消処理
（Ｓ４２、Ｓ４３）の実行後、辞書容量が一杯か否かを
判定し（Ｓ４４）、一杯でなければ（Ｎ）新規の内容を
登録し（Ｓ４５）、処理を終了し（ＥＮＤ）、辞書が一
杯場合には（Ｙ）何も登録せずに処理を終了する（ＥＮ
Ｄ）。

【００４５】

【表１】

【００４６】表１は辞書登録の抹消条件と抹消処理の方
法をまとめた表である。辞書登録の抹消条件は圧縮率で
ある。圧縮率の悪化時と良好時で抹消処理方法が異な
る。圧縮率悪化時の抹消処理方法は、圧縮に寄与した部
分列をも含めた抹消である。すなわち、圧縮に寄与する
部分列である長い文字列も抹消の対象とする。文字列長
の如何に係わらず、登録時期の古い文字部分列およびア
クセス頻度の少ない文字部分列を抹消対象として抹消す
る。一方、圧縮率良好時の抹消処理方法は、圧縮に寄与
しない部分列の抹消である。すなわち、圧縮に寄与しな
い短い文字列のみを抹消対象とする。そして、短い文字
列のなかで、登録時期の古い文字部分列、アクセス頻度
の低い文字部分列を対象として抹消する。

【００４７】図４は、圧縮率悪化の条件を図で説明した
ものである。辞書容量には関係なく圧縮率悪化を検知す
る条件を示している。縦軸が圧縮率、横軸は入力データ
量、すなわち、時間の経過を表す。

【００４８】符号化・復号化処理を開始すると、初めは
圧縮率は悪いが、徐々に良好な圧縮率で安定してくる。
圧縮率判定の条件の対象は圧縮率が安定したとき以降と
する必要がある。同図のように、処理開始から一定区間
Ｔ_iごとに圧縮率を求め、圧縮率が安定したＴ_n-1以降
を判定の対象とすることができる。

【００４９】圧縮率悪化の条件としては、例えば、４つ
考えることができる（同図の条件(1) 〜(4) ）。第１の
条件(1) は、処理開始（Ｔ₁）から現区間（Ｔ_n）まで
の各区間の圧縮率を累計した累計圧縮率をσ_nとし、こ
の値を前もって定めた圧縮許容率Ａと比較するものであ
る。σ_n＞Ａならば圧縮率が悪化したと判定する。Ａ＝
0.5 とすると、累計圧縮率が0.5 になるまでが圧縮率の
許容範囲ということになる。第２の条件(2) は、現区間
（Ｔ_n）の圧縮率をμ_nとし、この値を前もって定めた
圧縮許容率Ａと比較するものである。

【００５０】また、第３、第４の方法は圧縮率の悪化度
を判定の条件とするものである。第３の条件(3) は、処
理開始（Ｔ₁）から現区間（Ｔ_n）までの累計圧縮率σ
_nと、処理開始（Ｔ₁）から前区間（Ｔ_n-1）までの累
計圧縮率σ_n-1を求め、σ_n＞α×σ_n-1ならば圧縮率
の悪化度が高く登録抹消の必要があると判定する。例え
ば、α＝1.1 とすれば、現区間までの累計圧縮率が前区
間までの累計圧縮率の10％悪化まで許容することを示
す。第４の条件(4) は、現区間（Ｔ_n）の圧縮率μ_nと
前区間（Ｔ_n-1）の圧縮率μ_n-1を求め、μ_n＞α×μ
_n-1ならば圧縮率の悪化度が高く登録抹消の必要がある
と判定する。α＝1.1 とすれば、現区間の圧縮率が前区
間の圧縮率の10％悪化まで許容することを示す。

【００５１】図５は、一実施例の符号化処理の動作フロ
ーチャートである。同図のＳ１〜Ｓ６、Ｓ１６は、従来
の方式で説明した図９（ａ）のＬＺＷ符号化の動作フロ
ーチャートにおけるＳ１１１〜Ｓ１１６、１１８の内容
と同じである。まず、辞書を初期化する。すなわち、全
文字を初期値として辞書に登録し（Ｓ１の辞書の初期
化）、辞書の未登録領域の先頭アドレスＮに初期登録し
た文字数を設定する。Ｓ１のなかで、本実施例に特有の
部分は、辞書メモリの容量Ｎ₀および一定区間Ｔに入力
される目安データ量Ｍ₀を設定し、処理するために入力
される入力データ量の変数Ｍを設けることである（Ｓ
１）。

【００５２】初期設定（Ｓ１）が終了したら、最初の文
字Ｋを読み込みその登録番号をωとし、入力データ量Ｍ
を１にし、一定区間内での全文字列長Ｌ_T、および、一
定区間内で辞書に登録する文字列数Ｌ_C、文字列の長さ
Ｌを初期化する（Ｓ２）。すなわち、Ｌ_TおよびＬ_Cに
０を代入し、Ｌに１を代入する。さらに次の文字Ｋを入
力し、入力データ量Ｍおよび文字列長Ｌを１インクリメ
ントする（Ｓ３）。次に、文字列ωＫが辞書にあるか否
かを判定し（Ｓ４）、あれば（Ｙ）ωＫをωに置き換え
て（Ｓ５）、文字データ入力が終了か否かを判定したう
え（Ｓ６）、終了でなければ（Ｎ）次の文字の処理に戻
る（Ｓ３）。

【００５３】以上の処理は、入力データ量Ｍおよび文字
列長Ｌを計数する処理が加わっている以外は従来（図９
（ａ））と変わらない。ωＫが辞書に存在しなかった場
合（Ｓ４のＮ）に圧縮率を判定して辞書登録を抹消する
処理（図中で囲ってあるＳ７〜Ｓ１５の部分）を実行す
ることになる。

【００５４】まず、前の文字の登録番号ωを符号語ｃｏ
ｄｅ（ω）として出力し、文字Ｋの登録番号をωに入れ
る（Ｓ７）。従来の方式では、この時点で文字列ωＫの
辞書登録を行なっていたが、本実施例では行なわない。
そして、次に、入力データ量Ｍが一定区間内の目安デー
タ量Ｍ₀を越えたか否かを判定する（Ｓ８）。これは、
一定区間Ｔが経過したか否かを判定するもので、Ｍ＞Ｍ
₀ならば（Ｙ）一定区間Ｔを経過したと判断し、Ｍ≦Ｍ
₀ならば（Ｎ）まだ一定区間Ｔを経過していないと判断
する。一定区間Ｔを経過していない場合（Ｎ）には、次
に、登録済みの辞書容量が一杯になったか否か、すなわ
ち、現在の未使用辞書領域の先頭アドレスＮが辞書の最
終アドレスＮ₀を越えたか否かを判定する（Ｓ１３）。
Ｎ＞Ｎ₀で辞書が一杯になっている場合（Ｙ）には、辞
書登録を行なわずに、一定区間内の全文字列長Ｌ_Tに現
在の文字列長Ｌを加算し、一定区間内の文字列数Ｌ_cを
１インクリメントし、文字列長Ｌを１に初期化したうえ
（Ｓ１５）、データ終了の判定Ｓ６に戻る。一方、Ｎ≦
Ｎ₀で辞書が一杯ではない（Ｎ）場合には、この段階で
文字列ωＫおよび該文字列ωＫの文字列長Ｌを辞書の未
使用領域の先頭アドレスＮに登録し、未使用領域の先頭
アドレスＮを１インクリメントする（Ｓ１４）。

【００５５】Ｓ８で一定区間Ｔが経過した（Ｙ）と判定
された場合には、次に圧縮率の悪化の度合いを判定する
（Ｓ９）。ここでは、圧縮率悪化を判定する条件として
図４で説明した条件(4) を適用するものとする。すなわ
ち、現区間の圧縮率μ_nが前区間の圧縮率μ_n-1のα倍
より悪化しているか否かを判定する。α＝１．１とする
と、現区間の圧縮率μ_nが全区間の圧縮率μ_n-1より１
０％悪化しているか否かを判定することになる。α倍よ
りも悪化している場合（Ｙ）には圧縮に寄与している部
分も抹消する寄与部分列抹消処理Ｓ１０を、悪化の度合
いがα倍以下の場合には圧縮に寄与していない部分も抹
消する非寄与部分列抹消処理Ｓ１１を実行する。圧縮率
の条件としては、他の条件（条件(1) 〜条件(3) ）でも
同様に処理することができる。寄与部分列抹消処理Ｓ１
０は、辞書の既登録部分のなかで登録時期の古い文字部
分列やアクセス頻度の少ない文字部分列を辞書から検索
し、該文字部分列を抹消する。一方、非寄与部分列抹消
処理Ｓ１１は、辞書の既登録部分のなかで文字列長の短
い文字部分列を検索し、そのなかで、登録時期の古い文
字部分列やアクセス頻度の少ない文字列部分を抹消す
る。文字列長の短い文字列は、本実施例で求めている一
定区間内の全文字列長Ｌ_T、一定区間内の文字列数
Ｌ_C、辞書に登録してある各文字列の長さから求める。
この方法については後述する。抹消した部分は辞書内容
を繰り上げる。これによって、抹消した文字部分列数分
だけ辞書の未使用領域の先頭アドレスＮが減少する。

【００５６】Ｓ１０およびＳ１１で辞書の登録抹消処理
を実行したのち、入力データ量Ｍ、一定区間内の全文字
列長Ｌ_T、一定区間内の文字列数Ｌ_Cを０に初期化する
（Ｓ１２）。そして、辞書容量の判断を行ない（Ｓ１
３）、辞書が一杯でなければ（Ｎ）新規登録し（Ｓ１
４）、前述のＳ１５の処理に移る。一方、辞書が一杯な
らば（Ｓ１３のＹ）、即座に前述のＳ１５の処理に移
る。

【００５７】以上の処理をデータ入力が存在しなくなる
まで繰り返す。データ終了の場合（Ｓ６のＹ）には先に
求めた文字列ωを出力して（Ｓ１６）、処理を終了する
（ＥＮＤ）。

【００５８】図６は図５に示した動作フローチャートで
符号化した圧縮データを復元する復号化処理の動作フロ
ーチャートである。同図のＳ６１〜Ｓ６７、Ｓ６６は、
従来の方式で説明した図９（ｂ）のＬＺＷ符号化の動作
フローチャートにおけるＳ１２１〜Ｓ１２７、Ｓ１２９
の内容と同じである。まず、辞書を初期化し、辞書の未
登録領域の先頭アドレスＮに初期登録した文字数を設定
し、辞書メモリの容量Ｎ₀および一定区間Ｔに入力され
る目安データ量Ｍ₀を設定し、入力データ量の変数Ｍを
設ける（Ｓ６１）。

【００５９】次に、最初の符号ＣＯＤＥを読み込み、Ｏ
ＬＤｃｏｄｅに代入し、辞書を検索して対応する文字Ｋ
を出力し、さらに文字Ｋを後の例外処理のためにｃｈａ
ｒに代入しておく。また入力データ量Ｍを１とし、一定
区間内の全文字列長Ｌ_Tおよび一定区間内の文字列数Ｌ
_Cを０に、現文字列の長さＬを１に初期化する（Ｓ６
２）。次に、次の符号の処理に移り、次ＣＯＤＥをＮＥ
Ｗｃｏｄｅに代入する（Ｓ６３）。そして、辞書を探索
し符号ＣＯＤＥが辞書中に定義されているか否かを判定
する（Ｓ６４）。通常、入力した符号語は前回までの処
理で辞書に登録されている。ＣＯＤＥが定義されている
（Ｙ）場合には、ＣＯＤＥ＝ｃｏｄｅ（ωＫ）となる文
字列を辞書から読み出し、文字列が２字以上（ωＫ）か
らなっているか、１字のみ（Ｋ）かを判定する（Ｓ６
５）。２字以上の場合（Ｙ）、文字Ｋを一時的にＳｔａ
ｃｋをＰＵＳＨして格納し、登録番号ｃｏｄｅ（ω）を
ＣＯＤＥとし、符号ＣＯＤＥの文字数Ｌの値を１インク
リメントして（Ｓ６６）、判定Ｓ６５に戻る。Ｓ６５、
Ｓ６６を文字列ωＫが１字になるまで繰り返すことによ
って、Ｓｔａｃｋに文字列がスタックされる。文字列ω
Ｋが１字になったと判定される（Ｓ６５のＮ）と、最後
に残ったＣＯＤＥ＝ｃｏｄｅ（Ｋ）となる文字Ｋを出力
し、Ｓｔａｃｋにプッシュした文字をＬＩＦＯ（Last I
n Fast Out) 形式で一つ一つポップして出力し、ここで
最初に出力したＫをｃｈａｒにセットしたうえ、該符号
の文字数Ｌの値を入力データ量Ｍに加算する（Ｓ６
７）。

【００６０】一方、Ｓ６４でＣＯＤＥが辞書中に定義さ
れていないと判定された場合（Ｎ）には、例外処理を実
行する（Ｓ７７）。すなわち、前回処理した符号ＯＬＤ
ｃｏｄｅに前回復号した文字列の最初の一文字を加えた
文字列（ＯＬＤｃｏｄｅ，ｃｈａｒ）を求める（Ｓ７
７）。そして、この文字列を実際の文字として出力する
（Ｓ６５〜Ｓ６７）。

【００６１】符号を実際の文字列に復号する処理は以上
（Ｓ６１〜６７、Ｓ７７）で完了する。そして、Ｓ６８
以降で本実施例の圧縮率判定および辞書登録の抹消処理
および辞書の新規登録処理を実行する。圧縮率判定およ
び辞書登録の抹消処理は、図５の符号化における圧縮率
判定および辞書登録の抹消処理と同様である。

【００６２】まず、入力データ量Ｍが一定区間Ｔ内の目
安データ量Ｍ₀を越えたか否かを判定する（Ｓ６８）。
一定区間Ｔを経過していない場合（Ｎ）には、登録済み
の辞書容量が一杯になったか否か、すなわち、現在の未
使用辞書領域の先頭アドレスＮが辞書の最終アドレスＮ
₀を越えたか否かを判定する（Ｓ７３）。Ｎ＞Ｎ₀で辞
書が一杯になっている場合（Ｙ）には、辞書登録を行な
わずに、一定区間内の全文字列長Ｌ_Tに現文字列の長さ
Ｌを加算し、一定区間内の文字列数Ｌ_Cを１インクリメ
ントし、現文字列の長さＬを１に初期化したうえ（Ｓ７
５）、データ終了の判定Ｓ７６を行ない、次の符号の処
理（Ｓ６３）に戻る。一方、Ｎ≦Ｎ₀で辞書が一杯では
ない（Ｎ）場合には、この段階で（ＯＬＤｃｏｄｅ、
Ｋ）および登録する現文字列の長さＬを辞書の未使用領
域の先頭アドレスＮに登録し、未使用領域の先頭アドレ
スＮを１インクリメントし、ＯＬＤｃｏｄｅにＮＥＷｃ
ｏｄｅの値をセットする（Ｓ７４）。そして、Ｓ７５の
処理を実行し、データ終了の判定Ｓ７６を経て次の符号
の処理（Ｓ６３に戻る）。

【００６３】Ｓ６８で一定区間Ｔが経過した（Ｙ）と判
定された場合には、次に圧縮率の悪化の度合いを判定す
る（Ｓ６９）。ここでは圧縮率悪化条件として図５の符
号化で使用した条件(4) を適用する。すなわち、現区間
の圧縮率μ_nが前区間の圧縮率μ_n-1のα倍より悪化し
ているか否かを判定する。α倍よりも悪化している場合
（Ｙ）には圧縮に寄与している部分も抹消する寄与部分
列抹消処理Ｓ７０を、悪化の度合いがα倍以下の場合に
は圧縮に寄与していない部分も抹消する非寄与部分列抹
消処理Ｓ７１を実行する。Ｓ７０およびＳ７１は図５の
符号化における抹消処理Ｓ１０とＳ１１と同じである。
抹消した部分は辞書内容を繰り上げる。これによって、
抹消した文字部分列数分だけ辞書の未使用領域の先頭ア
ドレスＮが減少する。

【００６４】Ｓ７０およびＳ７１で辞書の登録抹消処理
を実行したのち、入力データ量Ｍ、一定区間内の全文字
列長Ｌ_T、一定区間内の文字列数Ｌ_Cを０に初期化する
（Ｓ７２）。そして、辞書容量の判断を行ない（Ｓ７
３）、辞書が一杯でなければ（Ｎ）新規登録し（Ｓ７
４）、前述のＳ７５の処理に移る。一方、辞書が一杯な
らば（Ｓ７３のＹ）、即座に前述のＳ７５の処理に移
る。

【００６５】以上の処理をデータ入力が存在しなくなる
まで繰り返す。データ終了になったら（Ｓ７６のＹ）処
理を終了する（ＥＮＤ）。図７は、辞書の登録抹消の説
明図である。辞書には、登録番号（符号コードとなる）
と、該登録番号に対応する文字部分列ωＫ、アクセス頻
度を計数するカウンタ、文字列長などが登録されてい
る。今、登録番号５の辞書内容を抹消すると、それ以降
のデータ（登録番号６〜ｎ）が一つずつ繰り上がる。

【００６６】図８は、この登録抹消処理の動作フローチ
ャートである。図５、図６の符号化・復号化の動作フロ
ーチャートに示してある圧縮率判定処理（Ｓ９、Ｓ６
９）、寄与部分列抹消処理（Ｓ１０、Ｓ７０）、非寄与
部分列抹消処理（Ｓ１１、Ｓ７１）の部分にこの動作フ
ローチャートを挿入することにより、辞書の抹消処理を
実行することができる。

【００６７】まず、辞書チェックのためのアドレスｉを
０にリセットし、ｎに現在の辞書登録アドレスＮを代入
する（Ｓ８１）。そして、アドレスｉを１インクリメン
トして（Ｓ８２）、アドレスｉが現在の登録アドレスｎ
以内であるか否かを判定し（Ｓ８３）、現在の登録アド
レスｎ以内ならば（Ｙ）、圧縮率が悪化しているか否か
を判定する（Ｓ８４）。すなわち、圧縮率悪化判定の条
件(4)を使用し、現区間の圧縮率μ_nが前区間の圧縮率
μ_n-1のα倍より悪化しているか否かを判定する。μ_n
＞α×μ_n-1ならば（Ｙ）圧縮率が悪化していると判断
され、非寄与部分列抹消処理が実行される。すなわち、
まず、アドレスｉの内容が古いものであるか否かを判定
する（Ｓ８８）。この判定のために、古い登録を検出す
るためのパラメータＢ_Tを前もって定めておき、ｉ≦Ｎ
−Ｂ_Tならば（Ｙ）古い登録と判定する。古くない場合
（Ｎ）には次のアドレスの処理に移る（Ｓ８２）。古い
場合（Ｙ）には、次に、アドレスｉのアクセス頻度の多
少を判定する（Ｓ８８）。すなわち、辞書を参照してア
ドレスｉのアクセス頻度を求め、その値を前もって定め
たアクセス頻度のしきい値Ｓ_Tと比較する。アクセス頻
度が高い（ｃｕｔ（ｉ）＞Ｓ_T）の場合（Ｎ）には次の
アクセスの処理に移る（Ｓ８２）。アクセス頻度がＳ_T
よりも小さい場合（Ｙ）にはアクセス頻度が低いと判断
する。以上の判定条件により、古い登録内容で（Ｓ８７
のＹ）、且つ、アクセス頻度が低い（Ｓ８８のＹ）場合
にアドレスｉの登録内容の抹消処理（Ｓ８９以降）を実
行する。

【００６８】まず、アドレスｉの次のアドレスをｊとす
る（Ｓ８９）。そして、それ以降のＳ９０〜Ｓ９３）の
処理で、アドレスｊ以降の辞書内容を一つずつ繰り上げ
る処理を行なう。すなわち、アドレスｊが現在の登録ア
ドレスｎ以内であるか否かを判定し（Ｓ９０）、Ｙであ
れば繰り上げ処理（Ｓ９１〜９３）を行なう。Ｓ９１で
は、アドレスｊの辞書内容（部分列ωＫ）のωがｉより
大きいか否かを判定する。ω≦ｉの場合（Ｎ）にはωの
値を１減らす（Ｓ９２）。すなわち、アドレスｉ以降の
辞書内容が一つずつ繰り上げられるので、ωＫのωの値
を変更しなければならないのである。Ｓ９２の処理後、
あるいは、Ｓ９１がＹ（ω＞ｉ）の場合には、アドレス
ｊの全ての辞書内容（部分列ωＫ、カウンタ、文字列
長）をアドレスｊ−１に登録し、ｊを１インクリメント
する（Ｓ９３）。そしてＳ９０の処理に戻る。Ｓ９０〜
Ｓ９３をｊ＞ｎになる（Ｓ９０のＮ）まで繰り返すこと
により、元のアドレスｉの内容が抹消され、それ以降の
内容が繰り上げられる。Ｓ９０がＮになったら、辞書の
現在の登録アドレスｎを１減らして、つぎのアドレスの
処理に進む（Ｓ８２）。

【００６９】一方、Ｓ８４で圧縮率が悪化していない場
合（Ｎ；μ_n≦α×μ_n-1）には、寄与部分列抹消処理
を実行する。すなわち、まず、文字列長の短い登録を探
す処理を実行する。文字列長の短い登録を探すために、
まず、一定区間内の平均文字列長Ｌ_Aを求める（Ｓ８
５）。一定区間内の全文字列長Ｌ_Tを該区間内の文字列
数Ｌ_Cで割ったものが平均文字列長Ｌ_Aである。次に、
アドレスｉの登録文字列の長さｌｅｎｇｔｈ（ｉ）が該
平均文字列長Ｌ_Aより小さいか否かを判断する（Ｓ８
６）。文字列長ｌｅｎｇｔｈ（ｉ）が平均文字列長Ｌ_A
よりも長い場合（Ｎ）には、次のアドレスｉの処理に戻
る（Ｓ８２）。一方、文字列長ｌｅｎｇｔｈ（ｉ）が平
均文字列長Ｌ_Aよりも短い場合（Ｙ）には、前述した登
録時期が古いか否かの判断（Ｓ８７）に進む。すなわ
ち、文字列長が平均文字列長よりも短く、かつ、登録時
期が古く（Ｓ８７のＹ）、アクセス回数が少ない（Ｓ８
８のＹ）場合には、該アドレスｉの文字列を抹消し、そ
れ以降のアドレスの内容を一つずつ繰り上げて登録し
（Ｓ９３）、またωＫのωがｉ以上の場合にはωの値を
１減らす処理を実行する（Ｓ９２）。

【００７０】Ｓ８２〜Ｓ９４の処理をｉ＝１〜ｎまで繰
り返し、辞書登録抹消処理を実行する。Ｓ８３でｉ＞ｎ
になったら（Ｎ）、辞書整理を行なったアドレスｉ＝０
〜ｎまでのアクセス数ｃｎｔをすべて０にリセットして
辞書旧登録抹消処理を完了する（ＲＥＴＵＲＮ）。

【００７１】以上の登録抹消処理を図５、図６の辞書旧
登録抹消の部分に挿入して処理することにより、圧縮率
が良好な場合には圧縮率に寄与しない文字列（短い文字
列で、しかも、登録時期が古く、アクセス回数の低い文
字列）を抹消し、圧縮率が悪化している場合には圧縮率
に寄与する文字列も含めた文字列（登録時期が古く、ア
クセス回数の低い文字列）を抹消することにより、圧縮
率の悪化を防ぐことが可能になる。

【００７２】

【発明の効果】本発明によって、辞書の容量に関係な
く、圧縮率が良好な場合には圧縮率に寄与しない、短く
て、登録時期が古く、アクセス頻度の低い文字列を辞書
から抹消し、一方、圧縮率が悪化した場合には圧縮率に
寄与する長い文字列であっても登録時期が古く、アクセ
ス頻度の低い文字列を辞書から抹消することにより、そ
の都度、状況に応じた圧縮率の改善が可能になる。ま
た、圧縮率の悪化に寄与する部分列のみを削除するの
で、登録抹消処理直後の圧縮率低下を防ぐことが可能に
んなる。この結果、辞書を有効に利用することが可能に
なる。

【図面の簡単な説明】

【図１】本発明の機能ブロック図である。

【図２】一実施例のシステム構成図である。

【図３】一実施例の主な処理の流れを示す原理説明図で
ある。

【図４】圧縮率悪化の条件説明図である。

【図５】一実施例の符号化の動作フローチャートであ
る。

【図６】一実施例の復号化の動作フローチャートであ
る。

【図７】辞書の登録抹消の説明図である。

【図８】辞書の登録抹消処理の動作フローチャートであ
る。

【図９】従来のＬＺＷ符号化・復号化の動作フローチャ
ートである。

【図１０】ＬＺＷ符号・復号化の説明図である。

【図１１】従来の符号・復号化の説明図である。

【符号の説明】

１データ圧縮装置２原データ３圧縮データ４辞書５圧縮率判定手段６抹消対象決定手段７登録抹消手段８データ復元装置９辞書１０復元データ１１圧縮率判定手段１２抹消対象決定手段１３登録抹消手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平４−219818（ＪＰ，Ａ) 特開平４−149767（ＪＰ，Ａ) 特開平３−247168（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/30 - 7/48

Claims

(57)【特許請求の範囲】

【請求項１】辞書（４）に符号を登録しながら原デー
タ（２）を圧縮データ（３）に符号化するデータ圧縮装
置（１）において、一定区間における圧縮率を検出し、
圧縮率が悪化しているか否かを判断する圧縮率判定手段
（５）と、前記圧縮率判定手段（５）の結果に基づい
て、辞書（４）内の登録内容のうちで抹消対象とする登
録を決定する抹消対象決定手段（６）と、前記抹消対象
決定手段（６）が決定した抹消対象を辞書（４）から抹
消する登録抹消手段（７）とを有することを特徴とする
データ圧縮における辞書登録方式。
【請求項２】辞書（９）にデータ圧縮装置（１）の辞
書（４）と同様の符号を登録しながら圧縮データ（３）
を復元データ（１０）に復号化するデータ復元装置
（８）において、一定区間における圧縮率を検出し、圧
縮率が悪化しているか否かを判断する圧縮率判定手段
（１１）と、前記圧縮率判定手段（１１）の結果に基づ
いて、辞書（９）内の登録内容のうちで抹消対象とする
登録を決定する抹消対象決定手段（１２）と、前記抹消
対象決定手段（１２）が決定した抹消対象を辞書（９）
から抹消する登録抹消手段（１３）とを有することを特
徴とするデータ復元における辞書登録方式。
【請求項３】請求項１の抹消対象決定手段（６）およ
び請求項２の抹消対象決定手段（１２）は、辞書（４）
および辞書（９）に登録されている文字列の長さを抹消
対象の決定基準とする請求項１および請求項２記載のデ
ータ圧縮・復元における辞書登録方式。
【請求項４】請求項１の抹消対象決定手段（６）およ
び請求項２の抹消対象決定手段（１２）は、それぞれ、
前記圧縮率判定手段（５）および前記圧縮率判定手段
（１１）が圧縮率悪化と判定した場合には、圧縮に寄与
していた部分列をも含めた辞書内容を抹消対象とし、圧
縮率が悪化していないと判定した場合には、圧縮に寄与
していなかった部分列のみ抹消対象とする請求項１およ
び請求項２記載のデータ圧縮・復元における辞書登録方
式。
【請求項５】請求項１の抹消対象決定手段（６）およ
び請求項２の抹消対象決定手段（１２）は、それぞれ、
前記圧縮率判定手段（５）および前記圧縮率判定手段
（１１）の判定結果が圧縮率悪化の場合には、圧縮に寄
与していた部分列をも含めた辞書内容として、時間的に
古く登録された文字部分列およびアクセス頻度の少ない
文字部分列を抹消対象とする請求項１および請求項２記
載のデータ圧縮・復元における辞書登録方式。
【請求項６】請求項１の抹消対象決定手段（６）およ
び請求項２の抹消対象決定手段（１２）は、それぞれ、
前記圧縮率判定手段（５）および前記圧縮率判定手段
（１１）の判定で圧縮率が悪化していないと判定された
場合には、圧縮率に寄与していない辞書内容として、一
定期間内の平均文字列長より短い文字部分列のなかで、
時間的に古く登録された文字部分列、アクセス頻度の少
ない文字部分列を抹消対象とする請求項１および請求項
２記載のデータ圧縮・復元における辞書登録方式。