JPH0480813A

JPH0480813A - 辞書初期化方式

Info

Publication number: JPH0480813A
Application number: JP19439690A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yasuhiko Nakano; 泰彦中野; Yoshiyuki Okada; 佳之岡田; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-07-23
Filing date: 1990-07-23
Publication date: 1992-03-13
Anticipated expiration: 2013-09-17
Also published as: JP2799228B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（閂　次〕概要産業上の利用分野従来の技術発明が解決しようとする課題課題を解決するための手段作用実施例発明の効果〔概　要］データを圧縮する際の辞書初期化方式に関し、所要時間
を長くすることなく、辞書の初期化によるデータ圧縮率
の低下を防ぐことを目的とし、相異なる文字列を当該文
字列よりも前に辞書に登録された文字列の参照番号と増
分とで表して辞書に順次に登録しながら、人力された文
字列を符号化してデータを圧縮する際の辞書初期化方式
において、導入される検索通知に基づいて、辞書に登録
された各要素が検索された回数を計数する計数手段と、
初期化指示に応じて、計数手段による計数結果に基づい
て使用頻度の低い要素を検出し、辞書の格納領域を少な
くとも１つの使用頻度の低い要素で区切られた複数のブ
ロックに分割するとともに、これらのブロックの分割に
関する分割情報を出力する分割手段と、この分割情報に
基づいて、複数のブロックごとに、辞書における格納場
所を移動する移動手段と、分割情報に基づいて、移動手
段によって移動された辞書の各要素に含まれる参照番号
を該当する要素の移動後の格納場所に対応して変更する
変更手段とを備え、使用頻度の低い要素を削除するとと
もに他の要素の辞書における格納場所を詰めて、新しい
要素の登録のための格納場所を確保するように構成する
。

〔産業上の利用分野］本発明は、増分分解型のＺｉｖ−Ｌｅｍｐｅｌ符号化お
よび復号化の際の辞書の初期化方式に関する。

近年、文字コード、ベクトル情報１画像情報など様々な
種類のデータがコンピュータによって扱われるようにな
っており、また、扱われるデータ量も急速に増大してい
る。

このような膨大なデータを蓄積したり伝送したりする際
には、データの中に含まれている冗長な部分を省いてデ
ータ量を圧縮することが望ましい。

このため、データの種類にかかわらず、効率よくデータ
を圧縮する方法が望まれている。

ユニバーサル符号化方式は、予め符号表を定めておく必
要がないため、上述した様々なデータの圧縮に適用する
ことができるという特徴を有している。

ここで、本明細書においては、データの１語単位をｒ文
字Ｊと称し、連続した複数語のデータをｒ文字列ｊと称
する。

ジブーレンペル（Ｚｉｖ−Ｌｅｍｐｅｌ　）符号は、上
述したユニバーサル符号の代表的な方法であり（宗像著
ｒ　Ｚｉｖ−Ｌｅｍｐｅｌのデータ圧縮法」、情報処理
、　Ｖｏｌ。

２６、　ＮＯ，１、１９８５参照）、ユニバーサル型の
アルゴリズムと増分分解型のアルゴリズムとが提案され
ている。更に、ユニバーサル型アルゴリズムの改良とし
て、ＬＺＳＳ符号（Ｔ、Ｃ，Ｂｅ１ｌ、“Ｂｅｔｔｅｒ
　ＯＰＭルＴｅｘｔ　Ｃｏｍｐｒｅｓｓｉｏｎ”、ＩＥ
ＥＥ　Ｔｒａｎｓ、ｏｎ　Ｃｏｍｍｕｎ、、Ｖｏｌ。

Ｃ０Ｍ−３４，Ｎｏ、　１２．　Ｄｅｃ、１９８６参照
）があり、増分分解型アルゴリズムの改良として、ＬＺ
Ｗ符号（Ｔ、Ａ。

Ｗｅｌｃｈ、’Ａ　　Ｔｅｃｈｎｉｑｕｅ　　ｆｏｒ　
　Ｈｉｇｈ−Ｐｅｒｆｏｒｍａｎｃｅ　　ＤａｔａＣｏ
ｍｐｒｅｓｓｉｏｎ″、Ｃｏｍｐｕｔｅｒ、Ｊｕｎｅ　
１９８４）がある。

これらの符号化方式のうち、高速処理が可能であること
とアルゴリズムが簡単であることから、ＬＺＷ符号が記
憶装置のファイル圧縮などで使われるようになっている
。

〔従来の技術〕

増分分解型アルゴリズムは、入力された文字列を、既に
辞書に登録された部分列に１文字を増分として付加して
形成される成分の系列に分解し、この成分の系列を登録
された部分列に対応する参照番号と増分とで表すことに
より、入力文字列を符号化するものである。また、上述
した成分は、新しい部分列として辞書に登録され、以降
の符号化処理に用いられるようになっている。

更に、ＬＺＷ符号においては、上述した増分を次の部分
列に組み込むようになっている。

以下、簡単のために、入力文字列として、　ａ“ｂ′”
、′Ｉ　Ｃ１１の３文字からなる文字列°“ａｂａｂｃ
ｂａｂａｂａａａａａ−−−”　（第６図（ａ）参照）
が入力された場合について、このＬＺＷ符号化方式につ
いて説明する。

この場合は、上述した３文字″“ａ　　“ｂＩＩｃ”を
辞書（７）７ＦレスＦＩＪ、ｒ２Ｊ、’３Ｊｌのそれぞ
れに登録して、符号化処理を開始する。

まず、上述した入力文字列の先頭の文字（例えば文字“
′ａ”）を読み込み、辞書からこの文字を検索し、この
文字が格納されている辞書のアドレス（例えば’ＩＪ　
）を参照番号ωとする。

その後、入力文字列の２番目以降の各文字を順次に読み
込んで、この文字を上述した増分に相当する拡張文字に
とし、上述した参照番号ωとこの拡張文字にとの組合せ
（ωＫ）で表される部分列（ωＫ）Ｃ以下、組合せ（ω
Ｋ）を部分列の表現と称する）を辞書から検索する。該
当する部分列（ωＫ）が検索された場合は、上述した部
分列（ωＫ）に対応する符号を新しい参照番号ωとして
、更に、入力文字列の次の文字を読み込んで、上述した
処理を繰り返す。

このようにして、符号化しようとする文字列を順次に１
文字ずつ延ばしていき、辞書からこの文字列を順次に検
索することにより、辞書に登録された部分列の中から、
入力文字列の注目している部分と最も長く一致する部分
列が検索され、この部分列に対応する参照番号ωが、該
当する符号として出力される。また、このとき、参照番
号ωに対応する部分列（ω）に拡張文字Ｋを継ぎ足した
部分列が、参照番号ωと拡張文字にとの組合せ（ωＫ）
で表され、参照番号が与えられ、新しい部分列として辞
書に登録される。

このようにして、第６図（ａ）に示した文字列は、図に
おいて下線を付して示した部分列に分解され、第６図ら
）に示すように、各部分列に対応する符号「ｌａ、　　
’２ｉ、ｒ４ｊ、・・・が出力される。また、第６図（
Ｃ）に入力文字列と辞書に登録された部分列との対応関
係を、第１表に作成された辞書の例を示す。

第１表また、上述したようにして作成された辞書は、第７図に示すよ
うに、樹状の構成を持っており、辞書の要素のそれぞれ
は、辞書の樹の各節点に対応している。第７図において
、各節点に括弧を付して示した数字は、対応する辞書の
要素の参照番号を示しており、第６図（ａ）に示した文
字列の符号化処理の際に、各節点がたどられた経路を太
い実線で示した。

ある符号が与えられたときに、この符号を参照番号とす
る辞書の樹の技あるいは葉に相当する節点から根の方向
に向かって、辞書の樹を逆にたどることにより、ＬＺＷ
符号の復号化処理が行われる。

まず、入力された符号ωを参照番号として辞書に登録さ
れている部分列の表現（ω’　Ｋ）を求める。このとき
、拡張文字Ｋをスタックに保持し、次に、この参照番号
ω”に対応して辞書に登録されている部分列の表現を検
索する。このようにして、順次に検索していき、得られ
た部分列の表現が、拡張文字にのみとなるまで上述した
処理を繰り返す。その後、スタックに保持された拡張文
字Ｋを最後に保持されたものから順にポツプアップして
出力することにより、入力された符号ωに対応する部分
列が復元される。

ここで、最後に得られた拡張文字には、符号ωに対応す
る文字列の先頭の文字であり、この拡張文字にと直前の
符号ω。ＬＤとの組合せ（ω。１．Ｋ）が、新しい部分
列の表現として辞書に登録されるようになっている。

上述したように、ＬＺＷ符号化方式においては、符号化
処理を行うとともに辞書に新しい符号を登録することに
より、入力されたデータの統計的性質を学習しながら、
データ量を効率よく圧縮するようになっている。

従って、入力されるデータの統計的な性質が変化した場
合には、それまでに蓄積された辞書では、新しい性質を
有する入力データを効率よく圧縮することができないた
め、再度学習を行う必要がある。

ここで、辞書に充分に大きな容量が割り当てられている
場合は、学習の履歴を全て保存しておき、新しいデータ
の性質についての再学習を行うことができるが、実際に
辞書に割り当てられるメモリなどの資源は有限である。

このため、通常は、辞書に割り当てられた容量まで登録
したときに、圧縮前のデータ量と圧縮後のデータ量との
比として得られる圧縮率をチエｙりして、圧縮率が低下
している場合は、再学習が必要であると判断し、上述し
た符号化処理の開始の際と同様にして、辞書を初期化し
ていた。

〔発明が解決しようとする課題〕

ところで、上述した従来方式にあっては、辞書を初期化
する際に、それまでの学習の履歴を全て捨ててしまう。

しかしながら、辞書に登録された部分列が少ないとき、
即ち、上述した学習の初期の段階においては、圧縮率は
一般に低くなるので初期化処理の回数が多い場合には、
充分な容量を有する辞書を備えた理想的な場合に比べて
、圧縮率が低下してしまうという問題点があった。

このような初期化処理による圧縮率の低下を抑える技法
として、本出願人は、既に、特願平２４５１６４　Ｉｎ
データ圧縮方方式を提案している。

本出願人の提案による辞書の初期化方式は、辞書に登録
された要素のそれぞれについて、使用頻度を計数する手
段を設け、使用頻度の高い要素は削除することなく辞書
に残し、低い要素を削除して新しい符号を登録する領域
を確保するようにするものであり、それまでの学習の履
歴の一部を残すようになっている。

しかしながら、本出願人の提案による辞書初期化方式に
おいては、削除する要素を検出するごとに、辞書の全て
の要素について格納領域の変更処理および部分列の表現
の変更処理を行っている。

このため、辞書の要素数をｎとすると、辞書に対してｎ
２回のアクセス処理が必要となり、初期化処理に要する
時間が長くなるという欠点を有している。

本発明は、このような点にかんがみて創作されたもので
あり、辞書の初期化処理に要する時間を長（することな
く、辞書の初期化による圧縮率の低下を防ぐようにした
辞書初期化方式を提供することを目的とする。

〔課題を解決するための手段〕

第１図は、本発明の原理ブロック図である。

ｆｆｉの　Ｈ図において、相異なる文字列を当該文字列よりも前に辞
書１１０に登録された文字列の格納場所に対応する参照
番号と１文字からなる増分とで表し、この文字列の表現
を新しい要素として辞書１１０に順次に登録しながら、
入力された文字列を辞書１１０に登録された文字列の参
照番号によって符号化してデータを圧縮する際の辞書初
期化方式における計数手段１１１は、導入される検索通
知に基づいて、辞書１１０に登録された各要素が検索さ
れた回数を計数する。

分割手段１２１は、初期化指示に応じて、計数手段１１
１による計数結果に基づいて使用頻度の低い要素を検出
し、辞書１１０の格納領域を少なくとも１つの使用頻度
の低い要素で区切られた複数のブロックに分割するとと
もに、これらのブロックの分割に関する分割情報を出力
する。

移動手段１３１は、分割手段１２１によって出力された
分割情報に基づいて、複数のブロックごとに、ブロック
間を区切っている使用頻度の低い要素の分だけ辞書１１
０における格納場所を移動する。

変更手段１４１は、分割情報に基づいて、移動手段１３
１によって移動された辞書１１０の各要素に含まれる参
照番号を該当する要素の移動後の格納場所に対応して変
更する。

全体として、使用頻度の低い要素を削除するとともに他
の要素の辞書１１０における格納場所を詰めて、新しい
要素の登録のための格納場所を確保するように構成され
ている。

ｉｉ−；２の　Ｈ請求項２の発明は、請求項１の発明による辞書初期化方
式において、変更手段１４１が、各要素に含まれる参照
番号に対応する要素が属しているブロックを２分探索に
よって検出し、該当するブロックの格納場所の移動量に
基づいて、参照番号の変更を行うように構成されている
。

〔作　用〕

ｉ　舌）゛　１の　日請求項１の発明においては、導入される検索通知に基づ
いて、計数手段１１１により、辞書１１０に登録された
各要素が検索された回数が計数され、初期化指示に応じ
て、この計数手段１１１による計数結果に基づいて、分
割手段１２１により、使用頻度の低い要素が検出される
。また、この分割手段１２１により、辞書１１０の格納
領域が、少なくとも１つの使用頻度の低い要素で区切ら
れた複数のブロックに分割され、これらのブロックの分
割に関する分割情報が出力される。

この分割手段１２１によって出力された分割情報に基づ
いて、移動手段１３１により、上述した複数のブロック
ごとに、ブロック間を区切っている使用頻度の低い要素
の分だけ辞書１１０における格納場所が移動させられる
。

また、上述した分割情報に基づいて、変更手段１４１に
より、移動手段１３１によって移動させられた辞書２１
０の各要素に含まれる参照番号が、該当する要素の移動
後の格納場所に対応する参照番号に変更される。

このようにして、使用頻度の低い要素が削除され、他の
要素の辞書１１０における格納場所が詰められ、新しい
要素の登録のための格納場所を確保される。

請求項１の発明にあっては、各要素の移動処理を行う前
に、辞書１１０の格納領域が、使用頻度の低い削除すべ
き要素によって区切られた複数のブロックに分割され、
これらのブロックごとに、辞書１１０の要素の格納場所
の移動が行われる。

従って、削除すべき要素を検出するごとに、以降の格納
場所に登録されている全ての要素の格納場所の移動を行
う場合に比べて、処理量が大幅に削減される。これによ
り、初期化処理に要する時間を長くすることなく、学習
履歴の一部を保存して、初期化による圧縮率の低下を防
ぐことが可能となる。

ｊ　　云）゛　２の　日請求項２の発明においては、変更手段１４１により、各
要素に含まれる参照番号に対応する要素が属しているブ
ロックが、２分探索によって検出され、該当するブロッ
クの格納場所の移動量に基づいて、参照番号の変更が行
われる。

請求項２の発明にあっては、２分探索手法を用いて該当
するブロックを検出することにより、参照番号の変更処
理に要する時間を短縮することができ、初期化処理に要
する時間を更に短縮することができる。

［実施例］以下、図面に基づいて本発明の実施例について詳細に説
明する。

第２図は、本発明の一実施例による辞書初期化方式を適
用したデータ圧縮装置の構成を示す。

第５図は、本発明の一実施例による辞書初期化方式を適
用したデータ復元装置の構成を示す。

ここで、第１図と実施例との対応関係について説明して
おく。

辞書１１０は、辞書２２１に相当する。

計数手段１１１は、カウンタ２２２に相当する。

分割手段１２１は、初期化処理部２３０の分割処理部２
３１に相当する。

移動手段１３１は、初期化処理部２３０の移動処理部２
３２に相当する。

変更手段１４１は、初期化処理部２３０の変更処理部２
３３に相当する。

以上のような対応関係があるものとして、以下実施例の
構成および動作を説明する。

第２図において、２１０は符号化部を、２２０はメモリ
を、２３０は初期化処理部をそれぞれ示しており、また
、メモリ２２０において、２２１は辞書を示している。

この辞書２２１は、Ｎ　ｍ　ａ　Ｘ個の領域に分割され
ており、各領域にはｌｒｌ」〜’Ｎ−ｍｘｕのアドレス
が付けられており、これらの領域のそれぞれには、符号
化部２１０により、相異なる部分列が登録されるように
なっている。

また、上述した辞書２２１のＮ　＊＊＊個の領域のそれ
ぞれに対応して、Ｎ□、個のカウンタ２２２゜・・・、
２２２．、、、が設けられており、これらのカウンタ２
２２．、・・・、２２２．１．、Ｘには、計数値の初期
値として「０」が格納されている。以下、これらのカウ
ンタ２２２．　　・・・　２２２工、Ｘを総称する際に
は、単にカウンタ２２２と称する。

第３図に、実施例によるデータ圧縮動作を表す流れ図を
示す。

入力文字列を構成する文字のそれぞれについて、１文字
からなる文字列を辞書２２１に登録して辞書２２１を初
期化しくステップ３０１）、その後、符号化処理を開始
する。

例えば、第７図（ａ）に示したような文字“ａ　。

“°ｂ゛、　　Ｃ”からなる文字列を符号化する場合は
、これらの文字“ａ″、“ｂ″　　ＩＩ　ＣＩ＋のそれ
ぞれ１文字からなる文字列を辞書２２１の要素として、
アドレスｒｌ、＋、　　ｌ’２Ｊ、　　ｒ３１に登録し
、次に登録する辞書２２１の領域を示す登録開始アドレ
スｎにＩｒ４．をセットすればよい。

まず、入力文字列の最初の文字を読み込んで、この文字
が登録されている辞書２２１のアドレスを参照番号ωと
しくステップ３０２）、以下、１文字ずつ順次に入力文
字列を読み込んで、拡張文字にとする（ステップ３ｏ３
）。

ステップ３０４において、まだ読み込むべき文字がある
とされた場合（肯定判定の場合）は、上述した参照文字
ωと拡張文字にとの組合せ（ωＫ）で表された部分列を
辞書２２１から検索する（ステップ３０５）。

該当する部分列が辞書２２１に登録されている場合は、
ステップ３０６における肯定判定となり、上述した組合
せ（ωＫ）で表される部分列が登録されているアドレス
を新しい参照番号ωとしくステップ３０７）、また、こ
の参照番号ωに対応するカウンタ２２２の計数をインク
リメントして（ステップ３０８）、ステップ３０３に戻
る。

このように、実施例によるデータ圧縮装置においては、
従来のＬＺＷ符号化アルゴリズム（ステップ３０１〜ス
テツプ３０７）に、ステップ３０８の該当するカウンタ
２２２の計数をインクリメントする処理が付加されてい
る。

例えば、第６図（ａ）に示した文字列の１番目の文字“
°ａ”の符号化の際に、組合せ（１ｂ）が辞書２２１の
アドレス１７４Ａに、また、２番目の文字“ｂ”の符号
化の際に、組合せ（２ａ）が辞書２２１のアドレス１′
５」に登録されている。従って、３番目の文字“′ａ°
“の符号化の際には、続いて読み出された文字“ｂ”を
拡張文字にと文字°“ａ”に対応する参照番号「１ｊと
の組合せ（１ｂ）が既に登録されているので、上述した
ステップ３０６における肯定判定となり、辞書２２１の
アドレスｆ４Ｊに対応するカウンタ２２２４の計数値が
インクリメントされる。

また、第６図（ａ）に示した８番目の文字゛″ｂ”を先
頭とする文字列に注目して符号化する際には、まず、文
字“ｂ”に次の文字“ａ”を拡張文字にとして付加した
部分列“ｂａ”を表す表現（２ａ）が辞書２２１から検
索される。また、更に次の文字“ｂ”を付加した“’ｂ
ａｂ’”を表す部分列の表現（５ｂ）が検索される。従
って、この場合は、アドレスｒ５Ｊとアドレス「８ｊと
のそれぞれに対応するカウンタ２２２６，２２２．がイ
ンクリメントされる。

このように、各部分列がステップ３０５において検索さ
れるごとに、該当するカウンタ２２２の計数値が１ずつ
インクリメントされる。従って、カウンタ２２２のそれ
ぞれの計数値は、上述した符号化処理によって作成され
る辞書の樹の対応する節点を経由して、辞書の樹の技が
伸びた回数、即ち、対応する参照番号が符号化処理で使
用された頻度を示している。

一方、ステップ３０６における否定判定の場合は、参照
番号ωを符号として出力しくステップ３０９）、上述し
た組合せ（ωＫ）を辞書２２１の要素として、登録開始
アドレスｎに登録する（ステップ３１０）。これにより
、組合せ（ωＫ）で表される部分列に対応して参照番号
「ｎｊが定義される。

また、このときの拡張文字Ｋが登録されているアドレス
を新しい参照番号ωとしくステップ３１１）、登録開始
アドレスｎをインクリメントする（ステ・ンブ３１２）
。

その後、ステップ３１３において、登録開始アドレスｎ
と辞書２２１の最大アドレスｔＮ　ｍａｘとを比較し、
登録開始アドレスｎの方が小さい（肯定判定）場合は、
上述したステップ３０３に戻り、ステップ３０４におい
て、読み込むべき文字がない（否定判定）とされた場合
には、そのときの参照番号ωを符号として出力して（ス
テ・ンプ３１４）、処理を終了する。

一方、上述したステップ３１３における否定判定の場合
は、辞書２２１に新しい符号を登録することができない
と判断し、符号化部２１０は、初期化処理部２３０に対
して、以下に述べる初期化処理を依願する（ステップ３
１５）。

この初期化依頬に応して、初期化処理部２３０は、辞書
２２１に登録された要素の一部を削除し、空いた領域に
削除されずに保存された要素を詰める処理を行うように
なっている。

この初期化処理部２３０おいて、２３１は分割処理部を
、２３２は移動処理部を、２３３は変更処理部をそれぞ
れ示している。

分割処理部２３１は、上述したＮ　ｍ　１１　Ｘ個のカ
ウンタ２２２による計数結果に基づいて、削除する要素
と保存する要素とを判別し、辞書２２１を複数のブロッ
クに分割して、各ブロックに含まれる要素の格納場所の
移動量を算出するようになっている。

この分割処理部２３１によって算出された移動量に基づ
いて、移動処理部２３２は、保存する要素の格納場所の
移動を行うようになっている。

また、変更処理部２３３は、新しいアドレスに基づいて
、辞書２２１に保存された部分列の表現を変更するよう
になっている。

第４図（ａ）に分割処理部２３１の動作を表す流れ図を
、第４図（ロ）に移動処理部２３２の動作を表す流れ図
を、第４図（Ｃ）に変更処理部２３３の動作を表す流れ
図を示す。

分割処理部２３１は、予め、辞書２２１の着目している
アドレスを示す変数ｉの初期値として、辞書２２１を圧
縮したのちの最小アドレスＮ　ｍ　ｉ　ｎを設定する。

例えば、上述したように、人力文字列が３文字から構成
されている場合は、最小アドレスＮ　ｍ　ｉ　ｎとして
ｆ４ｊを設定すればよい。また、変数Ｓと変数にとに初
期値ｊ′Ｏｊを設定する。

また、分割処理によって生成される複数のブロックのそ
れぞれに対応する格納場所の変化量からなる配列５ｌｉ
ｄｅと、各ブロックの最終アドレスからなる配列Ｐｏｓ
　とを定義し、上述した配列５ｌｉｄｅの「０」番目の
成分５Ｉｉｄｅ［Ｏ］　として数値１’ＱＪを設定して
おく。

分割処理部２３１は、まず、辞書２２１のアドレスｉの
領域に対応するカウンタ２２２ｉの計数値Ｃｏｕｎｔ　
［ｉ　］　　と所定の閾値Ｔｈと比較し、該当する辞書
２２１の要素が高い頻度で参照されたか否かに基づいて
、この要素を削除するべきか否かを判定する（ステップ
４０１）。

計数値Ｃｏｕｎｔ　［ｉ　］　が閾値Ｔｈよりも大きい
場合（ステップ４０１における否定判定）に、分割処理
部２３１は、該当する要素は、使用頻度の高い保存して
おくべき要素であると判断し、変数ｉをインクリメント
して（ステップ４０２）、ステップ４０１に戻る。

一方、ステップ４０１における肯定判定の場合は、変数
ｉの値を別の変数ｊに設定しくステップ４０３）、上述
したステップ４０１と同様にして、ｊ番目の要素を削除
するべきか否かを判定する（ステップ４０４）。

例えば、辞書２２１のアドレスｆ５Ｊに登録された要素
に対応するカウンタ２２２による計数値Ｃｏｕｎｔ［６
］　が闇値Ｔｈ以下である場合は、上述したステップ４
０１において肯定判定となり、更に、ステップ４０４に
おいて肯定判定となって、変数ｊおよび変数Ｓがそれぞ
れインクリメントされて（ステップ４０５）、ステップ
４０４に戻る。

更に、アドレスｒ７Ｊの要素に対応するカウンタ２２２
７の計数値Ｃｏｕｎｔ［７］　が闇値Ｔｈ以下であれば
、ステップ４０５において変数ｊと変数Ｓとが更にイン
クリメントされる。

このように、削除される要素が検出されるたびに変数Ｓ
をインクリメントすることにより、それまでに検出され
た削除すべき要素の数が計数される。従って、この変数
Ｓは、次の保存すべき要素のアドレスを移動させるべき
数、即ち、アドレスの変化量を示している。

その後、使用頻度の高い保存すべき要素が検出されると
、ステップ４０４における否定判定となる。この場合は
、分割処理部２３１は、変数ｉから数値ｆｌＪを差し引
いたものを配列Ｐｏ５Ｏｋ番目の成分Ｐｏｓ　［ｋ　］
　に代入し、変数ｋをインクリメントする（ステップ４
０６）。

ここで、変数ｉで示されるアドレスに対応する要素は削
除される要素である。従って、変数ｉから数値ｒＩＪを
差し引いたものをに番目のブロックの最終アドレスとす
ることにより、その前の保存すべき要素が連続している
部分が、ｋ番目のブロックとして区切られる。また、こ
のように、辞書２２１の要素をブロックに区切るごとに
、変数ｋをインクリメントすることにより、分割されて
生成されたブロックの数が計数される。

例えば、上述したアドレス「６」に登録された要素が初
めて検出された削除すべき要素であった場合は、配列Ｐ
ｏｓの０番目の成分Ｐｏｓ　［Ｏ］にアドレスＦ５Ｊが
設定され、変数ｋがインクリメントされてｆｌＪとなる
。

また、ｋ番目のブロックまでに検出された削除すべき要
素の数を示す変数Ｓの値が、ｋ番目のブロックに含まれ
る要素のアドレスの変化量として、配列５ｌｉｄｅＯｋ
番目の成分５Ｉｉｄｅ［ｋ］に代入される（ステップ４
０７）。

例えば、辞書２２１（７）７）”レスｒ６Ｂ、　　ｆ７
Ｊに登録された要素が削除すべき要素であるとされた場
合は、変数Ｓの値はｒ２Ｊとなっており、この値が、ス
テップ４０７において、配列５ｌｉｄｅの１番目の成分
５１ｉｄｅ［１］　に代入される。

次に、分割処理部２３１は、変数ｊの値を変数ｉに設定
しくステップ４０８Ｌ変数ｉの値と最大アドレスＮ。Ｘ
とを比較しくステップ４０９）、変数ｉが最大アドレス
Ｎ□８よりも小さい場合（ステップ４０９における肯定
判定）は、ステップ４０１に戻って上述した処理を繰り
返す。

このようにして、辞書２２１を削除すべき要素で区切ら
れて複数のブロックに分割され、各ブロックに順次にブ
ロック番号ｋが与えられていき、変数ｉが最大アドレス
Ｎ。ａｘとなったときに、ステップ４０９における否定
判定となる。

この場合は、分割処理部２３１は、最大アドレスＮ　ｍ
　ｍ　ｘを配列Ｐｏｓのに番目の成分Ｐｏｓ　［ｋ　］
に代入し、このときの変数ｋを分割数に６として保持し
て（ステップ４１０）、処理を終了する。

また、このとき、分割処理部２３１は、上述した配列５
ｌｉｄｅ　、配列Ｐｏｓおよび分割数に、を分割情報と
して移動処理部２３２に導入し、移動処理を依願するよ
うになっている。

ここで、第２表に辞書２２１とカウンタ２２２の計数値
とを対応して示し、分割処理部２３１により、上述した
閾値Ｔｈをｒ３Ｊとして分割処理を行った結果を示す。

第２表において、ブロック欄の数字は、各要素が属して
いるブロックの番目を示している。

上述した移動処理依願に応じて、移動処理部２３２は、
まず、変数ｋに初期値１ｒＱ、を、変数Ｐに配列Ｐｏｓ
の０番目の成分Ｐｏｓ［ＯＪの値を、初期化処理後の辞
書２２１の要素数ｎに上述した最大アドレスＮ□８から
５１ｉｄｅ［ｋｍ］を差し引いたものを変数ｊに最小ア
ドレスＮ、、、（例えば「４Ｊ）をそれぞれ初期値とし
て設定する（ステップ４２１）。

また、辞書２２１に部分列の表現（ωＫ）として登録さ
れた参照番号ωからなる配列Ｗと拡張文字Ｋからなる配
列にとを定義する。また、以下、これらの配列Ｗおよび
配列にのアドレスｉに対応する要素をそれぞれＷ（ｉ）
、Ｋ（ｉ）と称する。

次に、移動処理部２３２は、変数ｉと変数ｐとを比較し
、変数ｉに対応する辞書２２１の要素かに番目のブロッ
クに含まれているか否かを判定する（ステップ４２２）
。

変数ｉの値が変数ｐの値を超えていない場合（ステップ
４２２における肯定判定）は、該当する要素かに番目の
ブロックに属していると判断する。

この場合は、移動処理部２３２は、上述した配列Ｗの成
分Ｗ　（ｉ　＋５ｌｉｄｅ［ｋｌ　）をＷ　［ｉ　）に
、配列にの成分Ｋ　（ｉ＋５ｌｉｄｅ［ｋｌ　］をＫ　
（ｉｌｌに代入する（ステップ４２３）。このことは、
辞書２２１におイテ、アトＬ／スｒ　ｉ　＋５１ｉｄｅ
［ｋｌ　Ｊ　ニ登録された部分列の表現（ωＫ）をアド
レスＦｉ。

に移動させたことに相当する。

また、このとき、辞書２２１のアドレスｒｉ＋５ｌｉｄ
ｅｆｋ］　Ｊに対応するカウンタ２２２の計数値Ｃｏｕ
ｎｔ［ｉ　＋５ｌｉｄｅ［ｋ月をアドレスＦｉＡに対応
するカウンタ２２２□の計数値として設定する（ステッ
プ４２４）。

例えば、第２表に示した分割処理の結果に基づいて、移
動処理を行う場合は、ステップ４２１において、変数ｉ
には初期値ｒ４Ｊが、変数ｐに、はアドレス「５」が設
定されている。この場合は、ステップ４２２における肯
定判定となり、上述した移動処理が行われる。但し、こ
の場合は、０番目のブロックに対応する変化量５Ｉｉｄ
ｅ［０］　の値はｒ□、であるので、該当する要素の格
納場所は変化しない。

一方、変数ｉの値が変数ｐの値を超えた場合は、該当す
る要素は次のブロックに含まれていると判断して、ステ
ップ４２２における否定判定とする。

この場合は、ブロックを示す変数ｋをインクリメントし
、Ｐｏｓ　（ｋ　］　から５１ｉｄｅ［ｋｌ　を差し引
いたものを変数Ｐに設定する（ステップ４２５）。

従って、ステップ４２５において設定された変数Ｐの値
は、辞書２２１の要素の移動が終了した後におけるに番
目のブロックに属する最後の要素のアドレスを示してい
る。

例えば、変数ｉの値がｒ５．となると、ステップ４２２
における否定判定となり、ステップ４２５により、ブロ
ックの番号を示す変数にと変数ｐの更新が行われ、変数
Ｐに２番目のブロックの最後の要素のアドレスがセット
される。これにより、ステップ４２２における肯定判定
となり、上述したステップ４２３，４２４の移動処理が
行われる。

この場合は、１番目のブロックに対応する変化量５１ｉ
ｄｅ［１］　の値は「２Ｊであるので、該当する要素の
格納場所は、それぞれ「２」ずつ詰められる。

このようにして、分割処理部２３１によって分割された
ブロックごとに、格納場所の移動処理が行われる。

上述した移動処理を行った後に、移動処理部２３２は、
変更処理部２３３に対して、上述した配列ＷＯ１番目の
成分Ｗ　（ｉ　）の値の変更処理を依頼しくステップ４
２６）、表現変更部２３３がらの終了通知を待つ（ステ
ップ４２７）。

ところで、ＬＺＷ符号化方式においては、辞書２２１に
登録された部分列は、自身に対応する辞書の樹の節点よ
りも根に近い節点に対応する参照番号ωと拡張文字にと
で表されている。従って、上述した移動処理により、節
点に対応する参照番号が変化した場合は、この節点に対
応する新しい参照番号によって、部分列の表現を改める
必要がある。

上述した変更処理依頼に応じて、変更処理部２３３は、
まず、２分探索の範囲の下限を示す変数りに初期値ｒ□
、を、上限を示す変数Ｈに初期値として上述した分割数
に、を設定する（ステップ４４１）。

次に、変数りと変数Ｈとの平均値ｍを求め（ステップ４
４２）、上述したＷ　［ｉ　］の値と配列Ｐｏ５０ｍ番
目の成分Ｐｏｓ［ｍｌ　の値とを比較しくステップ４４
３）、ｉ番目の要素として登録された参照番号ωが区間
（Ｌ、ｍ）と区間（ｍ、Ｈ）とのいずれに属しているか
を判定する。

Ｗ　（ｉ　’Ｊの値がＰｏｓ［ｍｌ　の値以下であると
された場合（ステップ４４３における肯定判定）は、変
更処理部２３３は、参照番号ωは区間（Ｌ、　ｍ）に属
していると判断し、変数Ｈに平均値ｍから数値ｒ１．を
差し引いた値を設定する（ステップ４４４）。

一方、ＷＣｉ）の値がＰｏｓ（ｍ）の値よりも大きいと
された場合（ステップ４４３における否定判定）は、変
更処理部２３３は、参照番号ωは区間（ｍ、Ｈ）に属し
ていると判断し、変数りに平均値ｍにｒｌｊを加えた値
を設定する（ステップ４４５）。

その後、変更処理部２３３は、変数りと変数Ｈとを比較
し、変数りが変数Ｈ以下であるとされた場合（ステップ
４４６における肯定判定）は、該当するブロックが検出
されていないと判断して、ステップ４４２に戻って、上
述した処理を繰り返す。

一方、変数りが変数Ｈを超えたとき（ステップ４４６に
おける否定判定）に、変更処理部２３３は該当するブロ
ックを検出したと判断し、配列ＷＯ１番目の成分Ｗ　（
ｉ　）からＬ番目のブロックに対応する配列５ｌｉｄｅ
の成分５１ｉｄｅ［Ｌ］　の値を差し引いたものを要素
Ｗ　（ｉ　）に設定しくステップ４４７）、上述した移
動処理部２３２に対して、変更処理の終了を通知する。

このように、２分探索の手法を用いることにより、該当
するブロックを効率よく探すことができる。

上述した終了通知に応じて、移動処理部２３２は処理を
再開しくステップ４２７における肯定判定）、変数ｉを
インクリメントして（ステップ４２８）、この変数ｉと
要素数ｎとを比較する（ステップ４２９）。

変数ｉが要素数ｎよりも小さいとされた場合（ステップ
４２９の肯定判定）は、ステップ４２２に戻り、変数ｉ
が要素数ｎと等しくなり、このステップ４２２における
否定判定となるまで、上述した処理を繰り返す。

また、上述した処理の終了後に、配列Ｗおよび配列にの
各要素を順次に辞書２２１の各アドレスに格納し、要素
数ｎを登録開始アドレスとして初期化処理を終了し、こ
の終了通知に応じて、符号化部２１０は、符号化処理を
再開すればよい。

上述したように、各ブロックの移動量を予め算出してお
き、ブロックごとに格納場所を移動することにより、格
納場所の移動処理に要する時間を辞書２２１に登録され
た要素数に比例する時間とすることができる。このよう
に、辞書２２１の要素全体を２重ループで検索する場合
に比べて、処理量を大幅に削減することが可能となる。

また、変更処理部２３３において、２分探索を用いるこ
とにより、各要素に含まれる参照番号に対応する要素が
含まれているブロックを効率よく探すことが可能となり
、該当する参照番号に基づいて、部分列の表現を変更す
る処理を高速化することができる。

このように、初期化に要する時間を長くすることなく、
学習履歴を保存して、初期化処理に伴う圧縮率の低下を
防ぐことが可能となり、効率よくデータの圧縮を行うこ
とができる。

なお、上述した実施例にあっては、データ圧縮装置に適
用した場合について説明したが、データ復元装置に通用
してもよい。

この場合は、第５図に示すように、符号化部２１０の代
わりに復号化部５１０を備えて構成すればよい。

この復号化部５１０は、辞書２２１に基づいて、従来の
ＬＺＷ符号を復号する処理を行うとともに、辞書２２１
を検索するたびに、該当する要素に対応するカウンタ２
２２の計数値をインクリメントするように構成されてい
る。また、この復号化部５１０は、辞書２２１に最大ア
ドレスＮ１．８を超えて登録しようとしたときに、初期
化処理部２３０に対して、初期化処理部顛を行うように
なっている。

［発明の効果］上述したように、請求項１の発明によれば、各要素の移
動処理を行う前に、辞書の格納領域が複数のブロックに
分割され、これらのプロ・ンクごとに、辞書の要素の格
納場所の移動が行われるので、削除すべき要素を検出す
るごとに、以降の格納場所に登録されている全ての要素
の格納場所の移動を行う場合に比べて、処理量を大幅に
削減することができ、初期化処理に要する時間を長くす
ることなく、学習履歴の一部を保存して、初期化による
圧縮率の低下を防ぐことが可能となり、データの圧縮お
よび復元を効率よく行うことができる。

また、請求項２の発明によれば、２分探索手法を用いて
該当するブロックを検出することにより、参照番号の変
更処理に要する時間を短縮することができ、初期化処理
に要する時間を更に短縮することができる。

【図面の簡単な説明】

第１図は本発明の原理ブロック図、第２図は本発明の一実施例による辞書初期化方式を適用
したデータ圧縮装置の構成図、第３図は実施例による符
号化動作を表す流れ図、第４図は実施例による初期化動
作を表す流れ図、第５図は実施例による辞書初期化方式
を適用したデータ復元装置の構成図、第６図はＬＺＷ符号化方式の説明図、第７図は辞書の構成を示す図である。図において、１１０は辞書、１１１は計数手段、１２１は分割手段、１３１は移動手段、１４１は変更手段、２１０は符号化部、２２０はメモリ、２２１は辞書、２２２はカウンタ、２３０は初期化処理部、２３１は分割処理部、２３２は移動処理部、２３３は変更処理部、５１０は復号化部である。本発明の原理プロク図第図実施（クリによるデータ圧１．宿装置の構成図第図実方缶９１１４こよる符号イヒ動イ乍を表す流れ図第図実施＋１１１３によるデータ復元装置の構成図第図

Claims

【特許請求の範囲】

（１）相異なる文字列を当該文字列よりも前に辞書（１
１０）に登録された文字列の格納場所に対応する参照番
号と１文字からなる増分とで表し、この文字列の表現を
新しい要素として辞書（１１０）に順次に登録しながら
、入力された文字列を前記辞書（１１０）に登録された
文字列の参照番号によって符号化してデータを圧縮する
際の辞書初期化方式において、導入される検索通知に基づいて、前記辞書（１１０）に
登録された各要素が検索された回数を計数する計数手段
（１１１）と、初期化指示に応じて、前記計数手段（１１１）による計
数結果に基づいて使用頻度の低い要素を検出し、辞書（
１１０）の格納領域を少なくとも１つの使用頻度の低い
要素で区切られた複数のブロックに分割するとともに、
これらのブロックの分割に関する分割情報を出力する分
割手段（１２１）と、前記分割手段（１２１）によって出力された分割情報に
基づいて、前記複数のブロックごとに、ブロック間を区
切っている使用頻度の低い要素の分だけ前記辞書（１１
０）における格納場所を移動する移動手段（１３１）と
、前記分割情報に基づいて、前記移動手段（１３１）によ
って移動された前記辞書（１１０）の各要素に含まれる
参照番号を該当する要素の移動後の格納場所に対応して
変更する変更手段（１４１）と、を備え、使用頻度の低い要素を削除するとともに他の要
素の前記辞書（１１０）における格納場所を詰めて、新
しい要素の登録のための格納場所を確保するように構成
することを特徴とする辞書初期化方式。
（２）前記変更手段（１４１）が、各要素に含まれる参
照番号に対応する要素が属しているブロックを２分探索
によって検出し、該当するブロックの格納場所の移動量
に基づいて、参照番号の変更を行うようにしたことを特
徴とする請求項１記載の辞書初期化方式。