JP3384844B2

JP3384844B2 - データ圧縮方法および装置並びにデータ復元方法および装置

Info

Publication number: JP3384844B2
Application number: JP24482993A
Authority: JP
Inventors: 泰彦中野; 佳之岡田; 裕紀矢作
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-09-30
Filing date: 1993-09-30
Publication date: 2003-03-10
Anticipated expiration: 2018-03-10
Also published as: JPH07104969A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユニバーサル型アルゴ
リズムの一種である増分分解型のZiv-Lempel-Welch(LZ
W) 符号化方式を用いてデータを圧縮，復元する方法お
よび装置に関するものである。

【０００２】近年、情報処理技術の発達により、コンピ
ュータによって文字コード，ベクトル情報，画像など様
々な種類の膨大なデータが処理されるようになってい
る。このため、データの種類にかかわらず、データの中
の冗長な部分を省いてデータ量を圧縮する技術および圧
縮された情報を復元する技術が必要とされており、これ
に応じて、ユニバーサル符号化が提案されている。

【０００３】上述したLZW 符号は、ユニバーサル符号化
の代表例であるZiv-Lempel符号の増分分解型アルゴリズ
ムの改良技術として知られている（T.A.Welch,"A Techn
iquefor High-Performance Data Compression",Compute
r,June 1984参照）。

【０００４】このLZW 符号は、辞書に登録された文字列
の中から符号化対象の文字列と最も長く一致する文字列
を辞書から検索し、得られた文字列に対応する符号を出
力するとともに、検索された文字列に不一致となった最
後の文字をつなげて拡張した文字列に新しい符号を与え
て辞書に登録することにより、入力文字列を相異なる文
字部分列ごとに順次に符号化して得られる。

【０００５】ここで、上述した文字はデータの１ワード
単位を示しており、複数ワードのデータの連なりが文字
列と呼ばれている。本明細書においても、文字および文
字列を同様の意味で用いる。

【０００６】

【従来の技術】図９に従来のLZW 符号化方式による圧縮
動作を表す流れ図を示す。圧縮処理を開始する際には、
入力される文字列を構成する各文字を辞書に登録し、各
文字に対応する符号を与えておく。つまり、１ワードが
８ビットであれば２５６個の文字それぞれに対応する符
号（例えば「０」〜「２５５」）が、番号０〜番号２５
５に対応して辞書に登録される。また、上述した各文字
に対応する登録位置の次の登録位置が、辞書に新たな文
字列を登録する際の登録位置を示す番号ｎ（例えば２５
６）とされる。

【０００７】以下、図９を参照して圧縮動作を説明す
る。文字列が入力されると、まず、この文字列の先頭の
１文字に対応する符号をそのまま一致文字列ωとして保
持し（ステップ６０１）、次の文字を読み込んで入力文
字Ｋとして保持する（ステップ６０２）。

【０００８】次に、辞書を参照して、上述した一致文字
列ωと入力文字Ｋとを繋げた拡張文字列ωＫが登録され
ているか否かを判定する（ステップ６０３）。ステップ
６０３の肯定判定の場合は、上述した拡張文字列ωＫを
一致文字列ωとして保持し（ステップ６０４）、ステッ
プ６０５において次の文字があるか否かを判定し、この
ステップ６０５の肯定判定の場合は、ステップ６０２に
戻って次の文字を入力する。

【０００９】このようにして、１文字ずつ文字列を延ば
しながら一致する文字列を検索することにより、辞書か
ら符号化対象となる文字列に最も長く一致する文字列を
検索していき、ステップ６０３における否定判定となっ
たときに、そのときの一致文字列ωに対応する符号を出
力する（ステップ６０６）。

【００１０】また、このとき、上述した一致文字列ωに
不一致となった入力文字Ｋを繋げた拡張文字列ωＫを辞
書に登録する（ステップ６０７）。また、上述した入力
文字Ｋを一致文字列ωとして保持し、辞書における登録
位置ｎをインクリメントしてステップ６０５に進む。

【００１１】上述したようにして、文字列を圧縮してい
き、ステップ６０５における否定判定となったときに、
そのときの一致文字列ωに対応する符号を出力して（ス
テップ６０８）、圧縮処理を終了する。

【００１２】このように、辞書を更新しつつ、入力文字
列を相異なる文字部分列に分解しながら符号化すること
により、入力文字列の冗長性を除去して、高い圧縮率で
データを圧縮することができる。

【００１３】図１０に、従来のLZW 方式の文字列復元動
作を表す流れ図を示す。復元処理は、上述した圧縮処理
の逆の手順で辞書を復元しながらデータを復元する処理
である。

【００１４】復元処理を開始する際には、圧縮処理の場
合と同様に、各文字を初期値として辞書に登録し、新た
な文字列の登録位置ｎを設定しておく。以下、図１０を
参照して、復元処理を説明する。

【００１５】まず、ステップ７０１において最初の符号
の処理を行う。最初の符号は、そのまま直前コードＣ
_OLDとして保持される。また、この符号に基づいて辞書
を検索して該当する文字Ｋが得られ、この文字Ｋは復元
された文字列の先頭の文字として出力されるとともに、
復元文字列の先頭文字Ｋ_FINとして保持される。

【００１６】その後、ステップ７０２において符号Ｃを
読み込んで、この符号を入力コードＣ_INとして保持する
とともに、この符号Ｃが辞書に登録されているか否かを
判定する（ステップ７０３）。

【００１７】このステップ７０３の肯定判定の場合は、
辞書を参照して、符号Ｃに対応する文字列を一致文字列
ωと拡張文字Ｋとの組み合わせで表せるか否かを判定し
（ステップ７０４）、肯定判定の場合は、上述した拡張
文字Ｋをスタックに保持するとともに、一致文字列ωを
示す符号ωを符号Ｃとして（ステップ７０５）、ステッ
プ７０４に戻る。

【００１８】つまり、ステップ７０４，７０５の手順を
繰り返すことにより、ステップ７０２で入力された符号
Ｃに対応する文字列の末尾の文字から順次に拡張文字Ｋ
として分解され、スタックに保持されていく。したがっ
て、符号Ｃに対応する文字列をそれ以上分解できなくな
ったとき、すなわち、符号Ｃが１文字に対応する符号と
なったときに、ステップ７０４の否定判定となる。この
とき、スタックに保持された文字を入力と逆の順番で出
力すれば（ステップ７０６）、入力符号Ｃ_INに対応する
文字列を復元することができる。

【００１９】次に、復元された文字列の先頭の文字と直
前コードＣ_OLDとを組み合わせて、新たな符号として辞
書に登録して辞書を更新し、辞書の登録位置ｎをインク
リメントする（ステップ７０７）。

【００２０】また、上述した文字列の先頭の文字を先頭
文字Ｋ_FINとして保持し、ステップ７０８において、入
力符号Ｃ_INを直前コードＣ_OLDとして保持したのちに、
ステップ７０９で入力済でない符号があるか否かを判定
し、肯定判定の場合に、ステップ７０２に戻って新しい
符号を読み込めばよい。

【００２１】ところで、上述したステップ７０３におけ
る否定判定となった場合は、ステップ７１０に進んで、
復元処理の例外として処理する。この場合は、まず、前
の復元文字列の先頭文字Ｋ_FINを出力し、符号Ｃを直前
符号Ｃ_OLDで置き換えるとともに、入力符号Ｃ_INを直前
符号Ｃ_OLDと先頭文字Ｋ_FINとの組み合わせに対応する
符号で置き換え、ステップ７０４に進めばよい。

【００２２】このように、辞書を更新しながら符号を復
元することにより、図９に示した圧縮処理で得られた符
号列から元の情報を復元することができる。このように
して、全ての符号を復元したときに、ステップ７０９の
否定判定として復元処理を終了すればよい。

【００２３】

【発明が解決しようとする課題】このように、従来の圧
縮，復元方式においては、文字部分列に出現順序に相当
する符号を付け、この符号を用いて入力文字列を圧縮
し、この符号から元の文字列を復元している。したがっ
て、符号と文字部分列とは１対１に対応している。ま
た、登録番号の大きい文字部分列にも対応する必要性か
ら、１つの符号のビット長を長くとっておく必要があ
る。

【００２４】ところで、実際の文章などにおいては、各
文字部分列の出現順序には所定の相関関係があり、前に
出現した文字部分列と次に出現する文字部分列との間に
は従属関係があることが知られている。

【００２５】しかしながら、上述した従来の符号化方式
においては、各文字部分列をそれぞれ独立に出現したも
のとして扱っており、連続する文字部分列間の従属関係
を考慮していない。このため、冗長な情報であるにもか
かわらず、各文字部分列の履歴情報を含んだ符号が生成
されてしまっていた。

【００２６】このような課題を解決する技法として、本
出願人は、特開平３─２７０４１７（特願平２─７０３
７９）『データ圧縮および復元方式』を既に出願してい
る。この技法は、直前文字列の最終文字を先頭文字とす
る現文字部分列を先頭文字とその展開文字として捉え、
先頭文字ごとの個別の辞書の木における出現順番で各文
字部分列の番号を付すことにより、直前文字列の最終文
字との従属関係に基づいて、現文字部分列の符号を設定
するものである。

【００２７】この技法においては、各文字部分列は先頭
文字とこの先頭文字を根とする辞書の木における登録番
号とで特定されるが、直前文字列の最終文字と現文字部
分列の先頭文字とが一致しているから、先頭文字に関す
る情報は省略可能である。したがって、入力文字列を分
解して得られた各文字部分列について、それぞれがつな
がる辞書の木における登録番号のみを符号とすることが
でき、各文字部分列の履歴情報を符号から除去すること
ができる。

【００２８】この技法を適用した場合には、各文字を先
頭とする文字部分列の出現頻度が同等であると仮定すれ
ば、全体辞書に従来と同数の符号を登録したときに各個
別の辞書の木において与えられる番号の期待値は、全体
辞書の番号を個別の辞書の木の数で割った値となること
が予想される。したがって、従来方式よりも符号のビッ
ト長を短くすることができ、データの圧縮率を向上する
ことができる。

【００２９】しかしながら、上述した技法においては、
符号を復元する際に、直前文字列の最終文字と符号とを
全体辞書の番号に変換する必要がある。この変換方法と
しては、各辞書の木に対応する個別辞書を設け、個別の
辞書の木における符号と全体辞書における登録番号との
対応表を格納しておくことが考えられる。しかしなが
ら、各個別辞書が全体辞書と同数のエントリを備えてい
る必要があるため、膨大な記憶容量を必要とする。例え
ば、１文字を８ビットとした場合には、２５６個の個別
辞書を設ける必要があり、これらの個別辞書の全てが全
体辞書と同じ容量を必要とする。このため、小規模のシ
ステムで実現することは困難であった。

【００３０】また、ポインタでつないで表す方法も考え
られるが、登録の数だけポインタをたどらなければなら
ないので、登録数が多くなったときに処理時間が長くな
ってしまう。

【００３１】本発明は、直前文字列の最終文字で示され
る先頭文字とこの先頭文字に続く展開文字列に付された
符号との組み合わせで各文字部分列を表す符号化方式を
少ない記憶容量で実現する圧縮，復元方法および装置を
提供することを目的とする。

【００３２】

【課題を解決するための手段】図１に、請求項１〜請求
項３の発明の原理構成を示す。請求項１の発明は、辞書
に登録された文字部分列から入力文字列に最大長一致す
る一致文字列を検索し、この一致文字列の複製として入
力文字列の該当する部分を符号化するとともに、一致文
字列を１文字だけ拡張した新規の文字部分列を辞書に登
録する増分分解型の符号化方法を適用しており、直前に
符号化された直前文字列の最終文字を先頭文字とする現
文字列に対応する符号を辞書から検索して出力し、各文
字部分列を先頭文字とこの先頭文字からの展開文字列と
して捉え、先頭文字ごとに相異なる展開文字列にそれぞ
れ符号を与えて辞書に登録するデータ圧縮方法におい
て、辞書を検索する際に、一致文字列に対応する登録番
号と一致文字列に付加しようとする拡張文字および直前
文字列の最終文字の少なくとも一方とを所定のハッシュ
関数に入力し、得られたハッシュ値に基づいてハッシュ
表を参照することにより、一致文字列を拡張文字で拡張
した文字列を辞書から検索し、新規の文字部分列を辞書
に登録する際に、該当する一致文字列の辞書における登
録位置を示す登録番号と一致文字列に付加された拡張文
字および直前文字列の最終文字の少なくとも一方とをハ
ッシュ関数に入力し、得られたハッシュ値に応じて、辞
書において新規の文字部分列が登録されている位置を示
す登録番号をハッシュ表に登録することを特徴とする。

【００３３】請求項２の発明は、辞書１０１に登録され
た文字部分列から入力文字列に最大長一致する一致文字
列を検索し、この一致文字列の複製として入力文字列の
該当する部分を符号化するとともに、一致文字列を１文
字だけ拡張した新規の文字部分列を辞書１０１に登録す
る増分分解型の符号化方法を適用しており、直前に符号
化された直前文字列の最終文字を先頭文字とする現文字
列に対応して検索手段１０４が辞書１０１から検索した
符号を出力し、符号化手段１０２は、各文字部分列を先
頭文字とこの先頭文字からの展開文字列として捉えて先
頭文字ごとに相異なる展開文字列にそれぞれ符号を与
え、登録手段１０３を介して辞書１０１に登録する構成
のデータ圧縮装置において、変数の入力に応じて所定の
演算を行い、演算結果をハッシュ値として出力するハッ
シュ演算手段１１１と、ハッシュ値と辞書１０１におけ
る登録番号とが入力され、ハッシュ値に対応する格納場
所に登録番号を格納するハッシュ表１１２とを備え、検
索手段１０４は、辞書１０１から得られた一致文字列に
対応する登録番号と一致文字列につなげようとする拡張
文字および直前文字列の最終文字の少なくとも一方とを
変数としてハッシュ演算手段１１１に入力し、得られた
ハッシュ値に基づいてハッシュ表１１２を参照して、一
致文字列を拡張文字で拡張した文字列に対応する辞書１
０１における登録番号を得て符号化手段１０２に送出す
る構成であり、登録手段１０３は、新規の文字部分列を
該当する一致文字列の辞書１０１における登録番号と新
規の文字部分列の展開文字列に与えられた符号との組み
合わせとして辞書１０１に登録するとともに、登録番号
と一致文字列に付加された拡張文字および直前文字列の
最終文字の少なくとも一方とを変数としてハッシュ演算
手段１１１に送出し、得られたハッシュ値と登録番号と
をハッシュ表１１２に送出する構成であることを特徴と
する。

【００３４】請求項３の発明は、請求項２に記載のデー
タ圧縮装置において、ハッシュ演算手段１１１が、入力
される変数の排他的論理和演算を行ってハッシュ値を得
る構成であることを特徴とする。

【００３５】図２は、請求項４〜請求項６の発明の原理
構成を示す。請求項４の発明は、辞書に登録された文字
部分列から入力文字列に最大長一致る一致文字列を検索
し、この一致文字列の複製として入力文字列の該当する
部分を符号化するとともに、一致文字列を１文字だけ拡
張した新規の文字部分列を辞書に登録する増分分解型の
符号化方法を適用しており、直前に符号化された直前文
字列の最終文字を先頭文字とする現文字列に対応する符
号を辞書から検索して出力し、各文字部分列を先頭文字
とこの先頭文字からの展開文字列として捉え、先頭文字
ごとに相異なる展開文字列にそれぞれ符号を与えて辞書
に登録するデータ圧縮方法で得られた符号から元の文字
列を復元するデータ復元方法において、辞書を検索する
際に、展開文字列に対応する符号と直前文字列の最終文
字とを所定のハッシュ関数に入力し、得られたハッシュ
値に基づいてハッシュ表を参照することにより、該当す
る文字列を辞書から検索し、新規の文字部分列を辞書に
登録する際に、新規の文字部分列の展開文字列に与えら
れた符号と新規の文字列に対応する直前文字列の最終文
字とをハッシュ関数に入力し、得られたハッシュ値に応
じて、新規の文字部分列の辞書における登録番号をハッ
シュ表に登録することを特徴とする。

【００３６】請求項５の発明は、辞書１０１に登録され
た文字部分列から入力文字列に最大長一致する一致文字
列を検索し、この一致文字列の複製として入力文字列の
該当する部分を符号化するとともに、一致文字列を１文
字だけ拡張した新規の文字部分列を辞書１０１に登録す
る増分分解型の符号化方法を適用しており、直前に符号
化された直前文字列の最終文字を先頭文字とする現文字
列に対応する符号を辞書１０１から検索して出力し、各
文字部分列を先頭文字とこの先頭文字からの展開文字列
として捉え、先頭文字ごとに相異なる展開文字列にそれ
ぞれ符号を与えて辞書１０１に登録するデータ圧縮装置
で得られた符号から元の文字列を復元するデータ復元装
置において、変数の入力に応じて所定の演算を行い、演
算結果をハッシュ値として出力するハッシュ演算手段１
１１と、ハッシュ値と辞書１０１における登録番号とが
入力され、ハッシュ値に対応する格納場所に登録番号を
格納するハッシュ表１１２と、検索しようとする文字列
の展開文字列を示す符号と直前文字列の最終文字とを変
数としてハッシュ演算手段１１１に入力し、得られたハ
ッシュ値に基づいてハッシュ表１１２を参照することに
より、該当する文字列に対応する辞書１０１における登
録番号を得る検索手段１２２と、検索手段１２２で得ら
れた登録番号に基づいて辞書１０１を参照し、該当する
文字列を復元する復号手段１２３と、新規の文字部分列
に含まれる一致文字列の辞書１０１における登録位置を
示す登録番号と一致文字列に付加された拡張文字とを辞
書１０１に登録するとともに、新規の文字部分列の展開
文字列に与えられた符号と新規の文字列に対応する直前
文字列の最終文字とを変数としてハッシュ演算手段１１
１に送出し、得られたハッシュ値と新規の文字部分列の
辞書１０１における登録番号とをハッシュ表１１２に送
出する登録手段１２１とを備えたことを特徴とする。

【００３７】請求項６の発明は、請求項５に記載のデー
タ復元装置において、ハッシュ演算手段１１１が、入力
される変数の排他的論理和演算を行ってハッシュ値を得
る構成であることを特徴とする。

【００３８】

【作用】請求項１の発明では、各文字部分列に含まれる
一致文字列に対応する登録番号と拡張文字および直前文
字列の最終文字の少なくとも一方とに対応して、各文字
部分列の辞書における登録番号をハッシュ表に登録する
ので、このハッシュ表を参照することにより、新しく符
号化する文字列に最長一致する文字部分列を高速に検索
することが可能である。また、ハッシュ表と辞書とに、
先頭文字に対応する個別の辞書の木と辞書に対応する全
体辞書の木との関係を示す情報を登録しているので、先
頭文字ごとの膨大な数の個別辞書を１つのハッシュ表で
置き換えて、このハッシュ表により、先頭文字ごとの個
別辞書と同等の機能を実現することができる。したがっ
て、直前文字列の最終文字で示される先頭文字とこの先
頭文字に続く展開文字列に付された符号との組み合わせ
で各文字部分列を表す符号化方式を少ない記憶容量で実
現することができる。

【００３９】請求項２の発明は、登録手段１０３がハッ
シュ演算手段１１１を利用して得られるハッシュ値に応
じて、該当する文字部分列の辞書１０１における登録番
号をハッシュ表１１２に登録するので、検索手段１０４
が、ハッシュ演算手段１１１から得られるハッシュ値に
応じてこのハッシュ表１１２を参照することにより、符
号化しようとする文字列に最長一致する文字部分列を高
速に検索し、符号化手段１０２に送出することが可能で
ある。また、ハッシュ表と辞書とに、先頭文字に対応す
る個別の辞書の木と辞書に対応する全体辞書の木との関
係を示す情報を登録しているので、先頭文字ごとに多数
の個別辞書を設けた場合と同等の機能を１つのハッシュ
表１１２で実現し、直前文字列の最終文字で示される先
頭文字とこの先頭文字に続く展開文字列に付された符号
との組み合わせで各文字部分列を表す符号化方式を少な
い記憶容量で実現したデータ圧縮装置を提供することが
できる。

【００４０】請求項３の発明は、ハッシュ演算手段１１
１が排他的論理和演算を行うことにより、ハッシュ値の
衝突確率を低減することができるので、ハッシュ値の衝
突に伴う処理時間の遅れを低減し、データ圧縮処理を高
速化することができる。

【００４１】請求項４の発明は、各文字部分列に対応す
る直前文字列の最終文字で示される先頭文字とこの先頭
文字に連なる展開文字列に付された符号とに対応して、
各文字部分列の辞書における登録番号をハッシュ表に登
録するので、このハッシュ表を参照することにより、入
力符号に対応する文字部分列の全体辞書における登録番
号を容易に検索することができる。また、ハッシュ表１
１２と辞書１０１とに、先頭文字に対応する個別の辞書
の木と辞書に対応する全体辞書の木との関係を示す情報
を登録しているので、先頭文字ごとの個別辞書を１つの
ハッシュ表で置き換えて、このハッシュ表により、先頭
文字ごとの個別辞書と同等の機能を実現することができ
る。したがって、直前文字列の最終文字で示される先頭
文字とこの先頭文字に続く展開文字列に付された符号と
の組み合わせで各文字部分列を表す符号化方式で得られ
る符号列を少ない記憶容量を使って復元することができ
る。

【００４２】請求項５の発明は、登録手段１２１がハッ
シュ演算手段１１１を利用して得られるハッシュ値に応
じて、該当する文字部分列の辞書１０１における登録番
号をハッシュ表１１２に登録するので、検索手段１２２
が、ハッシュ演算手段１１１から得られるハッシュ値に
応じてこのハッシュ表１１２を参照することにより、入
力符号に対応する文字部分列を容易に検索することが可
能である。また、ハッシュ表１１２と辞書１０１とに、
先頭文字に対応する個別の辞書の木と辞書に対応する全
体辞書の木との関係を示す情報を登録しているので、先
頭文字ごとに多数の個別辞書を設けた場合と同等の機能
を１つのハッシュ表１１２で実現し、直前文字列の最終
文字で示される先頭文字とこの先頭文字に続く展開文字
列に付された符号との組み合わせで各文字部分列を表す
符号化方式で得られる符号を少ない記憶容量を利用して
復元するデータ復元装置を実現することができる。

【００４３】請求項６の発明は、ハッシュ演算手段１１
１が排他的論理和演算を行うことにより、ハッシュ値の
衝突確率を低減することができるので、ハッシュ値の衝
突に伴う処理時間の遅れを低減し、データ復元処理を高
速化することができる。

【００４４】

【実施例】以下、図面に基づいて本発明の実施例につい
て詳細に説明する。図３に、請求項２のデータ圧縮装置
の実施例構成図を示す。

【００４５】図３において、データ圧縮装置は、文字列
入力部２０１を介して文字列の入力を受けて、メモリ２
１０内に設けられた辞書（後述する）を参照しながら、
圧縮処理部２２０が入力文字列を符号化し、符号出力部
２０２を介して磁気テープ装置や磁気ディスク装置など
の外部記憶装置２０３に記録する構成となっている。

【００４６】上述したメモリ２１０には、辞書１０１に
相当する全体辞書２１１と、後述するハッシュ関数で得
られる値に対応する全体辞書２１１のエントリに関する
情報を登録するハッシュ表１１２とが設けられている。
このハッシュ表１１２に、全体辞書２１１のサイズより
少し大きい素数で表される大きさを割り当てておくと便
利である。上述した全体辞書２１１は、従来のLZW 方式
の辞書に対応するものであるが、本発明においては、文
字列を構成するｐ個の文字それぞれに対応する符号を初
期値として登録しておく必要はない。

【００４７】また、圧縮処理部２２０は、主制御部２２
１からの指示に応じて、ハッシュ演算部２２２がハッシ
ュ値を算出して検索処理部２２３と登録処理部２２４と
に送出し、このハッシュ値に基づいて、検索処理部２２
３および登録処理部２２４が最大一致文字部分列の検索
処理および新たな文字部分列の登録処理を行う構成とな
っている。また、検索処理部２２３による検索結果に応
じて、主制御部２２１が符号生成部２２５に符号の出力
と新たな符号の生成処理を指示し、生成された符号を登
録処理部２２４が全体辞書２１１とハッシュ表２１３と
にそれぞれ登録する構成となっている。すなわち、ハッ
シュ演算部２２２，登録処理部２２４，検索処理部２２
３，符号生成部２２５の各部は、それぞれハッシュ演算
手段１１１，登録手段１０３，検索手段１０４，符号化
手段１０２のそれぞれに相当している。

【００４８】ここで、上述したハッシュ演算部２２２
は、全体辞書２１１から得られた一致文字列の登録番号
ωとこの一致文字列を１文字拡張するための拡張文字Ｋ
と注目している文字列の先頭文字を示す直前文字列の最
終文字pKとを用いたハッシュ関数でハッシュ値を算出す
ればよい。例えば請求項３の発明を適用し、下記の式
に示すように、全体辞書２１１の最大ビット数Ｄから８
を引いた数だけ拡張文字Ｋを左にシフトし、得られた値
と登録番号ωとの排他的論理和を求め、更に、この演算
結果と最終文字pKとの排他的論理和演算を行って、この
結果をハッシュ値（index)として出力すればよい。

【００４９】

【数１】

【００５０】また、下記の式に示すように、ハッシュ
関数を登録番号ωと拡張文字Ｋとの関数としてもよい。

【００５１】

【数２】

【００５２】以下、請求項２のデータ圧縮装置による符
号化動作について説明する。図４に、請求項２のデータ
圧縮装置の文字列圧縮動作を表す流れ図を示す。また、
図５に、ハッシュ値を用いた検索処理および登録処理を
説明する図を示す。但し、図５においては、説明を簡単
とするために、入力文字列が３つの文字ａ，ｂ，ｃの組
み合わせで構成されている場合について示した。この場
合は、全体辞書２１１への登録開始位置は登録番号４で
示される。

【００５３】符号化処理を開始する前に、主制御部２２
１は、符号化処理に用いる各変数に初期値を与える。例
えば、直前文字列の最終文字pKに初期値０を設定し、直
前文字部分列のコードを示す変数ωに初期値０を設定す
る。また、辞書の木の深さを示す変数DPに初期値０を設
定するとともに、各文字に対応する辞書の木への登録個
数を示すｐ個の変数ｍ₁〜ｍ_pおよび文字がない状態を
示す空文字“０”につながる辞書の木への登録数を示す
変数ｍ₀に初期値０を設定する。また、全体辞書２１１
への登録位置を示す登録番号ｎに初期値ｐ＋１を設定す
る。

【００５４】このようにして初期設定が終了した後に、
主制御部２２１は文字列入力部２０１に文字の入力を指
示し、これに応じて、文字列入力部２０１は、入力され
た文字列の先頭から順次に１文字ずつ入力し（ステップ
３０１）、主制御部２２１は入力された１文字を拡張文
字Ｋとして保持する。

【００５５】主制御部２２１は、拡張文字Ｋと変数ωと
最終文字pKとをハッシュ演算部２２２に送出し、これに
応じて、ハッシュ演算部２２２は上述したハッシュ関数
を用いてハッシュ値を算出して、検索処理部２２３と登
録処理部２２４とに送出する（ステップ３０２）。

【００５６】検索処理部２２３は、入力されたハッシュ
値に基づいてハッシュ表１１２を参照し、対応するエン
トリが既に登録されているか否かを判定し（ステップ３
０３）、判定結果を主制御部２２１に返す。

【００５７】例えば、図５(a) において、入力文字列の
最初の文字ａがステップ３０１で入力された場合は、最
終文字pKの初期値０と一致文字列ωの初期値０と拡張文
字Ｋの初期値ａとからハッシュ値h1が得られ、このハッ
シュ値h1に基づいてハッシュ表１１２を参照することに
より、該当する文字列が未登録であることが分かる。

【００５８】したがって、この場合は、ステップ３０３
の否定判定となり、これに応じて、主制御部２２１はス
テップ３０６に進んで、変数DPの値に基づいて、拡張文
字Ｋが各個別の辞書の木の根に直接につながっている否
かを判定する。

【００５９】上述した入力文字列の最初の文字ａの場合
は、変数DPの値が初期値０から変化していないので、初
期値０に対応する辞書の木の根に直接つながる文字であ
ると判定され、ステップ３０６の肯定判定となる。

【００６０】この場合は、主制御部２２１は、最終文字
pKと拡張文字Ｋとを符号生成部２２５に送出し、最終文
字pKに対応する辞書の木の根に直接つながる文字に対応
する符号モード（以下モード１と称する）で拡張文字Ｋ
（文字ａ）を符号化する旨を符号生成部２２５に指示す
る。これに応じて、符号生成部２２５により、モード１
の符号である旨を示す符号と拡張文字Ｋとの組み合わせ
（図５(a) において、符号ａＬとして示した）が符号と
して生成され（ステップ３０７）、符号出力部２０２を
介して外部記憶装置２０３に記録される。

【００６１】また、このとき、符号生成部２２５は、該
当する辞書の木への登録数を示す変数ｍ_iの値に基づい
て、その辞書の木における新しい符号を生成し、この符
号および該当する辞書の木を示す情報を拡張文字Ｋとと
もに登録処理部２２４に送出する。また、主制御部２２
１は、そのときの一致文字列ωを登録処理部２２４に送
出し、これに応じて、登録処理部２２４は、全体辞書２
１１の登録位置ｎに一致文字列ωと該当する辞書の木に
おける符号との対を登録する。また、ハッシュ演算部２
２２から得られたハッシュ値に対応して、上述した全体
辞書２１１の登録位置ｎと拡張文字ｋとの対をハッシュ
表１１２に登録する（ステップ３０８）。

【００６２】例えば、入力文字列の最初の文字ａを符号
化した際には、符号生成部２２５により、最終文字Pkの
初期値０に対応する辞書の木の最初の葉として、この辞
書の木における個別番号０が与えられ、図５(b) に示す
ように、全体辞書２１１の登録位置４に文字０を根とす
る０番目の符号を示す符号（０）０が、一致文字列ωの
初期値０とともに登録される。ここで、図５(b) におい
て、全体辞書２１１に登録された符号の括弧内の数字は
辞書の木の根を示し、閉じ括弧に続く数字がその辞書の
木における個別番号を示している。また、一致文字列ω
の初期値０と拡張文字ａとから得られるハッシュ値h1に
対応して、全体辞書２１１の登録位置を示す番号０と拡
張文字Ｋとがハッシュ表１１２に登録される（図５(c)
参照）。

【００６３】その後、主制御部２２１は、該当する辞書
の木に対応する変数ｍ_iの値および全体辞書２１１の登
録位置ｎをインクリメントし、拡張文字Ｋを直前文字列
の最終文字pKとするとともに、この拡張文字Ｋを一致文
字列ωとする（ステップ３０９）。このようにして、変
数を更新した後に、主制御部２２１は、まだ読み込んで
いない文字があるか否かを判定し（ステップ３０５）、
肯定判定の場合は、ステップ３０１に戻って新しい文字
を入力する。

【００６４】図５(a) に示した例においては、上述した
文字ａに続く文字ｂおよび文字ａは、上述した先頭の文
字ａと同様にして符号化される。２番目の文字ｂの入力
に応じて、ステップ３０２において、拡張文字Ｋ（ｂ）
と変数ω（ａ）と最終文字pK（ａ）とから、ハッシュ演
算部２２２によりハッシュ値h2が得られ、ステップ３０
３からステップ３０６に進む。更に、ステップ３０６の
肯定判定となって、上述した最初の文字ａと同様にし
て、ステップ３０７〜ステップ３０９を実行する。これ
により、２番目の文字ｂに対応して符号ｂＬが出力さ
れ、全体辞書２１１に文字ａを根とする辞書の木の番号
０の葉を示す符号（ａ）０が登録番号５に登録される
（図５(b) 参照）。また、ハッシュ値h2に対応して、全
体辞書２１１における登録番号５と拡張文字ｂとの対が
ハッシュ表１１２に登録される（図５(c) 参照）。

【００６５】３番目の文字ａも同様にして、文字ｂに直
接つながる最初の文字としてモード１で符号化され、符
号ａＬが出力され、全体辞書２１１に文字ｂを根とする
辞書の木の番号０の葉を示す符号（ｂ）０が登録番号６
に登録される（図５(b) 参照）。また、拡張文字Ｋ
（ａ）と変数ω（ｂ）と最終文字pK（ｂ）とから得られ
るハッシュ値h3に対応して、全体辞書２１１における登
録番号６と拡張文字ａとがハッシュ表１１２に登録され
る（図５(c) 参照）。ところで、図５(a) においては、
４番目の文字ｂの入力に応じてハッシュ値h2が得られ、
このハッシュ値h2でハッシュ表１１２を参照することに
より、該当する文字部分列が全体辞書２１１に登録され
ていることが分かる。つまり、そのときの変数ωで示さ
れる一致文字列（ａ）に拡張文字Ｋ（ｂ）をつなげた文
字列（ａｂ）に対応する全体辞書２１１の登録番号
（５）を得ることができる。

【００６６】この場合は、ステップ３０３における肯定
判定となり、ハッシュ表１１２から得られた全体辞書２
１１の登録番号を変数ωに設定し、拡張文字Ｋを文字列
の最終文字K1として保持し、また、辞書の木の深さを示
す変数DPをインクリメントする（ステップ３０４）。次
に、ステップ３０５において次の文字の有無を判定し、
肯定判定の場合は、ステップ３０１に戻って新しい文字
を入力する。

【００６７】図５(a) の例においては、新しい文字とし
て５番目の文字ｃが入力され、これに応じて、ステップ
３０２において再びハッシュ値h4が算出される。この場
合は、ハッシュ表１１２の該当箇所は未登録であるの
で、ステップ３０３の否定判定となり、辞書の木の深さ
を示す変数DPがインクリメントされているので、ステッ
プ３０６の否定判定となって、ステップ３１０に進む。

【００６８】この場合に、主制御部２２１は、一致文字
列を示す変数ωを符号生成部２２５に送出して、個別の
辞書の木での符号化処理を指示する。これに応じて、符
号生成部２２５は、全体辞書２１１から変数ωに相当す
る登録番号に登録された個別番号を検索し、この個別番
号を符号として符号出力部２０２を介して出力する（ス
テップ３１０）。

【００６９】また、上述したステップ３０８と同様にし
て、変数ωと拡張文字Ｋとで示される文字列に、該当す
る辞書の木における個別番号を与え、全体辞書２１１お
よびハッシュ表１１２への登録処理を行う（ステップ３
１１）。

【００７０】このようにして、最後に入力された拡張文
字Ｋの前までの文字列が全体辞書２１１に登録済の文字
部分列の複製として符号化されて出力され、この拡張文
字Ｋを含んだ文字部分列が全体辞書２１１およびハッシ
ュ表１１２に登録される。

【００７１】図５に示した例においては、変数ω（５）
の入力に応じて、ステップ３１０において、符号生成部
２２５により、全体辞書２１１から文字ａを根とする辞
書の木の最初の葉を示す個別番号０が検索され、この個
別番号０が４番目の文字ｂの符号として出力される。ま
た、ステップ３１１において、登録番号１の文字列に文
字ｃをつなげた文字列が新しい文字部分列として分解さ
れ、この文字部分列の登録処理が行われる。この場合
は、２番目の文字ｂを符号化した際に、文字ａを根とす
る辞書の木に対応する変数ｍ_aが１度だけインクリメン
トされているので、符号生成部２２５は文字ａを根とす
る辞書の木の個別番号１の葉であることを示す符号
（ａ）１を登録処理部２２４に送出する。これに応じ
て、登録処理部２２４は、登録番号７に対応して、一致
文字列を示す登録番号５と符号（ａ）１を全体辞書２１
１に登録し、ハッシュ値h4に対応して、全体辞書２１１
への登録番号７と拡張文字ｃとをハッシュ表１１２に登
録する（図５(a),(b),(c) 参照）。

【００７２】上述した登録処理の終了後に、主制御部２
２１は、該当する辞書の木に対応する変数ｍ_iと全体辞
書の登録位置ｎとをインクリメントし、辞書の木の深さ
を示す変数DPに再び初期値０を設定する。また、ステッ
プ３０４で文字列の最終文字K1として保持された文字を
最終文字pKとし、この最終文字K1を一致文字列を示す変
数ωに設定し（ステップ３１２）、この変数更新処理の
後に、再びステップ３０２に戻って、最後に入力された
拡張文字Ｋの符号化処理を行えばよい。

【００７３】図５(a) の例においては、５番目の文字ｃ
は、上述した１〜３番目の文字ａ，ｂ，ａと同様にして
モード１で符号化され、符号ｃＬが出力される。また、
文字ｂに対応する辞書の木には既に１個の文字部分列が
登録されているので、符号生成部２２５により符号
（ｂ）１が与えられ、全体辞書２１１の登録番号８に登
録される（図５(b) 参照）。また、拡張文字Ｋ（ｃ）と
変数ω（ｂ）と最終文字pK（ｂ）とから得られるハッシ
ュ値h5に対応して、全体辞書２１１における登録番号８
と拡張文字ｃとがハッシュ表１１２に登録される（図５
(c) 参照）。

【００７４】このようにして符号化処理を進めていき、
ステップ３０５において、次に入力される文字が無いと
されたときに、ステップ３０５の否定判定としてステッ
プ３１３に進み、そのときの変数ωをステップ３１０と
同様にして符号化して出力し、圧縮処理を終了すればよ
い。

【００７５】このようにして、ハッシュ表１１２を設け
て、全体辞書２１１における登録番号を登録していくこ
とにより、各文字に対応する個別辞書を設けた場合と同
様に、入力文字列を直前の一致文字列の最終文字との従
属関係を考慮しながら符号化することができる。

【００７６】このハッシュ表１１２は、上述したよう
に、全体辞書２１１のサイズよりも少し大きめとする必
要があるが、各文字に対応する個別辞書の容量の総和に
比べれば、ハッシュ表１１２は遙に小さい記憶容量で実
現できる。したがって、小規模のシステムにおいても、
十分に実現可能である。

【００７７】また、本発明を適用した場合には、ハッシ
ュ値に基づいてハッシュ表１１２を参照することによ
り、該当する文字列が全体辞書２１１に既に登録されて
いるか否かを判定し、該当する登録番号を検索すること
ができる。したがって、辞書の検索処理を高速化するこ
とが可能であり、文字列の圧縮処理の高速化を図ること
ができる。

【００７８】なお、ハッシュ値が衝突した場合には、ハ
ッシュ値に１を加算した値を新しいハッシュ値とすれば
よい。また、最初に得られたハッシュ値から辞書サイズ
Ｄを差し引いた値を新たなハッシュ値として登録処理を
行ってもよい。

【００７９】次に、本発明を適用したデータ復元装置に
ついて説明する。図６に、請求項５のデータ復元装置の
実施例構成図を示す。なお、図６において、図３に示し
た各部に対応するものについては、同一の符号を付して
示す。

【００８０】図６において、データ復元装置は、符号入
力部４０１からの入力符号を受けて、復元処理部４１０
がメモリ２１０内に設けられた全体辞書２１１およびハ
ッシュ表１１２を参照しながら文字列を復号し、得られ
た文字列を文字列出力部４０２を介して外部記憶装置２
０３に記録する構成となっている。

【００８１】また、図６において、復元処理部４１０
は、図３に示した圧縮処理部２２０の符号生成部２２５
に代えて、復号手段１２３に相当する復号処理部４１１
を備えた構成となっており、主制御部２２１からの指示
に応じて、この復号処理部４１１が符号から文字列を復
号し、文字列出力部４０２を介して出力するとともに、
得られた文字列を拡張した新しい文字列を登録手段１２
１に相当する登録処理部２２４が登録する構成となって
いる。また、この場合は、検索処理部２２３は検索手段
１２２の機能を果たす構成となっている。

【００８２】また、この場合は、ハッシュ演算部２２２
は、下記の式に示すハッシュ関数を用いて、現在の一
致文字列ωと直前文字列の最終文字pKとに基づいたハッ
シュ値を求めればよい。

【００８３】

【数３】

【００８４】図７に、本発明のデータ復元装置による文
字列復元動作を表す流れ図を示す。また、図８に、文字
列復元動作を説明する図を示す。なお、図８は、説明を
簡単とするために、文字列が３つの文字ａ，ｂ，ｃとか
ら構成される場合について示した。

【００８５】文字列の復元処理を開始する前に、主制御
部２２１は、復元処理に用いる各変数に初期値を与え
る。例えば、直前文字列の最終文字pKおよびその前の文
字列の最終文字K1に初期値０を設定し、一致文字列の個
別の辞書の木における符号を示す変数ωに初期値０を設
定する。また、直前文字列を復号した際に得られた一致
文字列のコードを示す変数ω_OLDに初期値０を設定す
る。また、辞書の木の深さを示す変数DPに初期値０を設
定するとともに、各文字に対応する辞書の木への登録個
数を示すｐ個の変数ｍ₁〜ｍ_pおよび文字がない状態を
示す空文字“０”につながる辞書の木への登録数を示す
変数ｍ₀に初期値０を設定する。また、全体辞書２１１
への登録開始位置を示す登録番号ｎに初期値ｐ＋１を設
定する。

【００８６】以下、図７，図８を参照しながら、文字列
復元動作について説明する。まず、主制御部２２１は符
号入力部４０１に対して符号の入力を指示し、これに応
じて、１つの符号が入力され（ステップ５０１）、主制
御部２２１は、入力符号がモード１の符号であるか否か
を判定する（ステップ５０２）。

【００８７】ステップ５０２における否定判定の場合
は、主制御部２２１は入力符号を変数ωに設定し、この
変数ωとそのときの最終文字pKとをハッシュ演算部２２
２に送出して、ステップ５０３に進む。

【００８８】このステップ５０３において、ハッシュ演
算部２２２は、入力された変数ωおよび最終文字pKとに
基づいてハッシュ値を算出し、検索処理部２２３に送出
する。

【００８９】検索処理部２２３は、このハッシュ値に基
づいてハッシュ表１１２を参照し、ハッシュ値に対応す
る格納場所に該当する文字部分列に対する全体辞書２１
１における登録番号が格納されているか否かによって、
入力された符号が登録済であるか否かを判定する（ステ
ップ５０４）。

【００９０】このステップ５０４における否定判定の場
合は、図１０に示した従来のLZW 方式の復元処理の流れ
図のステップ７１０と同様にして例外処理を行い（ステ
ップ５０５）、その後、ステップ５０６に進めばよい。

【００９１】一方、ステップ５０４における肯定判定の
場合は、検索処理部２２３により、ハッシュ値に対応す
る全体辞書２２１における登録番号が得られ、主制御部
２２１は、この登録番号の値で変数ωを置き換えて復号
処理部４１１に送出し、この変数ωに相当する文字部分
列の復号処理を指示する。

【００９２】これに応じて、復号処理部４１１は、図１
０に示した流れ図のステップ７０４〜７０６と同様の復
号処理を行い、全体辞書２１１における登録番号ωに対
応する文字部分列を復元して（ステップ５０６）、文字
列出力部４０１を介して外部記憶装置２０３に出力す
る。

【００９３】次に、主制御部２２１は、直前文字列が既
に登録されている否かを判定し（ステップ５０７）、否
定判定の場合は、変数ω_OLDとステップ５０６で得られ
た復元文字列の先頭文字Ｋとを登録処理部２２４に送出
する。これに応じて、登録処理部２２４により、全体辞
書２１１の登録番号ｎに変数ω_OLDと先頭文字Ｋとの組
み合わせで示される文字部分列が新しく登録される（ス
テップ５０８）。すなわち、変数ω_OLDで示される文字
列に先頭文字Ｋを拡張文字としてつなげた文字部分列
が、直前文字列として登録される。

【００９４】また、このとき、主制御部２２１は、２つ
前の文字部分列の最終文字pK1 とこの最終文字pK1 に対
応する辞書の木への登録数を示す変数ｍ_pK1の値とをハ
ッシュ演算部２２２に送出し、これに応じて、ハッシュ
演算部２２２は該当するハッシュ値を算出し（ステップ
５０９）、最終文字pK1 と変数ｍ_pK1の値と全体辞書２
１１の登録番号ｎとともに登録処理部２２４に送出す
る。

【００９５】これに応じて、登録処理部２２４は、得ら
れたハッシュ値で示されるハッシュ表１１２の格納場所
に、登録番号ｎと最終文字pK1 と変数ｍ_pK1の値との組
み合わせを登録すればよい（ステップ５１０）。

【００９６】ここで、２つ前の文字部分列の最終文字pK
1 は、ステップ５０８で登録した文字部分列の先頭文字
であり、変数ｍ_pK1は、この最終文字pK1 を根とする辞
書の木における個別番号を示しているから、上述したよ
うにして、直前の文字部分列の最終文字との従属関係を
考慮した符号を辞書に登録して、全体辞書２１１ととも
に個別の辞書の木を復元していくことができる。

【００９７】その後、主制御部２２１は全体辞書２１１
への登録番号ｎをインクリメントし（ステップ５１
１）、ステップ５１２において各変数の更新処理を行
う。すなわち、主制御部２２１は、直前文字列の最終文
字pKを２つ前の文字部分列の最終文字pK1 に設定し、ス
テップ５０６で復号された文字列の最終文字を直前文字
列の最終文字pKに設定し、復号された文字列の先頭文字
を直前文字部分列の先頭文字K1に設定する。また、ステ
ップ５０４においてハッシュ表から得られた登録番号ω
を直前文字部分列の登録番号ω_OLDに設定し、これらの
更新処理の終了後に、ステップ５１３に進んで、次に入
力される符号の有無を判定し、肯定判定の場合は、ステ
ップ５０１に戻って新しい符号を入力する。

【００９８】一方、ステップ５０７における否定判定の
場合は、そのままステップ５１２に進んで変数の更新を
行い、ステップ５１３へ進めばよい。また、上述したス
テップ５０１において入力された符号がモード１である
場合は、ステップ５０２における肯定判定となり、ステ
ップ５１４に進み、入力符号に含まれている文字を示す
ビットパターンをそのまま文字Ｋとして出力する。

【００９９】次に、主制御部２２１は直前文字列が登録
済であるか否かを判定し（ステップ５１５）、否定判定
の場合は、上述したステップ５０８〜５１１と同様にし
て、直前文字列の登録処理を行い（ステップ５１６）、
更に、ステップ５１４で出力した文字を含む現文字部分
列の登録処理を行う（ステップ５１７）。

【０１００】すなわち、主制御部２２１は、直前文字列
の最終文字pKと上述した文字Ｋとを登録処理部２２４に
送出し、これに応じて、登録処理部２２４と、全体辞書
２１１の登録番号ｎに最終文字pKに文字Ｋをつなげた文
字部分列を新しく登録する。また、このとき、主制御部
２２１は、最終文字pKとこの最終文字pKに対応する辞書
の木への登録数を示す変数ｍ_pKの値とをハッシュ演算部
２２２に送出し、これに応じて、ハッシュ演算部２２２
が算出したハッシュ値に応じて、登録処理部２２４によ
り、登録番号ｎと最終文字pKと変数ｍ_pKの値との組み合
わせがハッシュ表１１２に登録される。

【０１０１】このようにして、モード１の符号が入力さ
れた場合には、この符号の復号処理を行った時点で、復
号した文字部分列の辞書への登録が行われる。したがっ
て、モード１の符号の次に入力された符号を復号した際
には、既に直前文字列が登録されていることになる。し
たがって、上述したステップ５０７およびステップ５１
５においては、直前の符号がモード１であったか否かを
判定すればよい。

【０１０２】また、ステップ５１５における肯定判定の
場合は、そのままステップ５１７に進んで、上述した現
文字列の登録処理を行えばよい。その後、主制御部２２
１は、全体辞書２１１の登録番号ｎをインクリメント
し、文字Ｋを最終文字pKとし、さらに、この最終文字pK
に対応する全体辞書２１１における登録番号を直前文字
列を示す変数ω_OLDとし（ステップ５１８）、これらの
変数の更新処理の終了後に、ステップ５１３に進めばよ
い。

【０１０３】例えば、図８(a) において、最初の３つの
符号ａＬ，ｂＬ，ａＬはモード１の符号であるから、上
述したステップ５０２の肯定判定となり、それぞれ文字
ａ，文字ｂ，文字ａが出力され、全体辞書２１１の登録
番号４〜６に対応して（０）ａ，（ａ）ｂ，（ｂ）ａが
それぞれ登録される（図８(b) 参照）。また、このと
き、新しく登録された文字列に対応して、ハッシュ値h
1，h2，h3が算出され、ハッシュ表１１２にそれぞれ該
当する値が登録される（図８(c) 参照）。

【０１０４】一方、４番目の符号０はモード１の符号で
はないから、ステップ５０２の否定判定となり、この符
号０とそのときの最終文字pK（この場合は文字ａ）に基
づいてハッシュ表１１２を参照することにより、該当す
る文字部分列を示す全体辞書２１１の登録番号５が得ら
れ、文字列ａｂが復元される（図８(a),(b),(c) 参
照）。

【０１０５】この場合は、３番目の符号ｃＬの入力に応
じて、直前文字列が既に登録されているから、そのまま
変数の更新処理を行い、次の符号の入力処理に進み、５
番目の符号ｃＬから文字ｃを復号した後に、登録番号５
の文字部分列をこの文字ｃで拡張した新しい文字列ａｂ
ｃを直前文字列として全体辞書２１１の登録番号７に登
録する（図８(b) 参照）。この文字列は、文字ａを根と
する辞書の木における個別番号１の葉であるから、該当
するハッシュ値h4に応じて、登録番号７と先頭文字ａと
個別番号１とをハッシュ表１１２に登録する。更に、こ
の場合は、現文字列として文字列ｂｃが全体辞書２１１
の登録番号８に登録され、ハッシュ値h5に対応してハッ
シュ表に文字ｂを根とする登録番号１の文字列を示す情
報が登録される（図８(c) 参照）。

【０１０６】このようにして、上述したステップ５０１
〜ステップ５１３を繰り返していき、次の入力符号がな
いとされたときに、ステップ５１３の否定判定として、
文字列の復元処理を終了すればよい。

【０１０７】上述したように、各文字に対応する個別辞
書を設ける代わりにハッシュ表１１２を設け、全体辞書
２１１の復元処理と並行してこのハッシュ表１１２を復
元することにより、直前文字列の最終文字との従属関係
を考慮しながら符号化して得られた符号列から元の文字
列を復元することができる。

【０１０８】この場合は、個別辞書を各文字に対応して
設ける場合に比べて、少量の記憶容量で実現することが
可能であるから、小規模のシステムでも十分に実現する
ことができる。また、注目している文字列の個別の辞書
の木における登録番号ωと直前文字列の最終文字pKとか
ら得られるハッシュ値に基づいて、ハッシュ表１１２を
検索することにより、該当する文字列が全体辞書２１１
に登録されているか否かおよびその登録番号を容易に知
ることができるから、個別辞書を用いた場合と同様に、
検索処理および登録処理を高速に実行することができ
る。

【０１０９】

【発明の効果】以上説明したように請求項１のデータ圧
縮方法は、新規の文字部分列を辞書に登録するとともに
ハッシュ表にも登録することにより、１つのハッシュ表
によって、各文字に対応する個別辞書と同等の機能を果
たすことができる。これにより、直前文字列の最終文字
で示される先頭文字とこの先頭文字に続く展開文字列に
付された符号との組み合わせで各文字部分列を表す符号
化方式を少ない記憶容量で実現することが可能となり、
小規模のシステムに適用することができる。

【０１１０】また、請求項２のデータ圧縮装置は、ハッ
シュ演算手段で得られたハッシュ値に基づいて検索手段
および登録手段がハッシュ表を参照しながら検索処理お
よび登録処理を行う構成とすることにより、請求項１の
データ圧縮方法を実現することができる。更に、排他的
論理和を利用したハッシュ関数を用いることにより、ハ
ッシュ値の衝突に伴う処理に要する時間を低減し、処理
の高速化を図ることができる。

【０１１１】また、請求項４のデータ復元方法は、辞書
を復元するとともにハッシュ表を復元することにより、
１つのハッシュ表によって、各文字に対応する個別辞書
と同等の機能を果たすことができる。これにより、直前
文字列の最終文字で示される先頭文字とこの先頭文字に
続く展開文字列に付された符号との組み合わせで各文字
部分列を表す符号化方式で得られる符号列を少ない記憶
容量を用いて復元することが可能となり、小規模のシス
テムに適用することができる。

【０１１２】また、請求項５のデータ圧縮装置は、ハッ
シュ演算手段で得られたハッシュ値に基づいて検索手段
および登録手段がハッシュ表を参照しながら検索処理お
よび登録処理を行う構成とすることにより、請求項４の
データ復元方法を実現することができる。更に、排他的
論理和を利用したハッシュ関数を用いることにより、ハ
ッシュ値の衝突に伴う処理に要する時間を低減し、処理
の高速化を図ることができる。

【図面の簡単な説明】

【図１】請求項１〜請求項３の発明の原理を示す図であ
る。

【図２】請求項４〜請求項６の発明の原理を示す図であ
る。

【図３】請求項２のデータ圧縮装置の実施例構成図であ
る。

【図４】文字列圧縮動作を表す流れ図である。

【図５】ハッシュ値を用いた検索処理および登録処理を
説明する図である。

【図６】請求項５のデータ復元装置の実施例構成図であ
る。

【図７】文字列復元動作を表す流れ図である。

【図８】文字列復元動作を説明する図である。

【図９】従来のLZW 方式による文字列圧縮動作を表す流
れ図である。

【図１０】従来のLZW 方式による文字列復元動作を表す
流れ図である。

【符号の説明】

１０１辞書１０２符号化手段１０３，１２１登録手段１０４，１２２検索手段１１１ハッシュ演算手段１１２ハッシュ表１２３復号手段２０１文字列入力部２０２符号出力部２０３外部記憶装置２１０メモリ２１１全体辞書２２０圧縮処理部２２１主制御部２２２ハッシュ演算部２２３検索処理部２２４登録処理部２２５符号生成部４０１符号入力部４０２文字列出力部４１０復元処理部４１１復号処理部

フロントページの続き (56)参考文献特開昭60−116228（ＪＰ，Ａ) 特開平４−95161（ＪＰ，Ａ) 特開平４−96174（ＪＰ，Ａ) 特開平４−96868（ＪＰ，Ａ) 特開平５−250137（ＪＰ，Ａ) 特開平５−252049（ＪＰ，Ａ) 特開昭63−136223（ＪＰ，Ａ) 特開平４−155578（ＪＰ，Ａ) 特開平５−128003（ＪＰ，Ａ) 特開平４−156110（ＪＰ，Ａ) 特開平４−156111（ＪＰ，Ａ) 特開平５−341953（ＪＰ，Ａ) 特開平６−83575（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 G06F 17/30 H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】辞書に登録された文字部分列から入力文
字列に最大長一致する一致文字列を検索し、この一致文
字列の複製として入力文字列の該当する部分を符号化す
るとともに、前記一致文字列を１文字だけ拡張した新規
の文字部分列を前記辞書に登録する増分分解型の符号化
方法を適用しており、直前に符号化された直前文字列の
最終文字を先頭文字とする現文字列に対応する符号を前
記辞書から検索して出力し、各文字部分列を先頭文字と
この先頭文字からの展開文字列として捉え、前記先頭文
字ごとに相異なる展開文字列にそれぞれ前記先頭文字に
対応する個別の辞書の木における符号を与えて前記辞書
に登録するデータ圧縮方法において、前記辞書を検索する際に、検索対象の文字列に最長一致
する一致文字列に対応する登録番号と前記一致文字列に
付加しようとする拡張文字および直前文字列の最終文字
の少なくとも一方とを所定のハッシュ関数に入力し、得
られたハッシュ値に基づいてハッシュ表を参照すること
により、前記一致文字列を前記拡張文字で拡張した文字
列を前記辞書から検索し、新規の文字部分列に与えられた符号を前記辞書に登録す
る際に、前記新規の文字部分列の先頭文字に対応する個別の辞書
の木と前記辞書に対応する全体辞書の木との関係を示す
情報を、前記符号とともに前記辞書に登録するととも
に、前記新規の文字部分列に最長一致する一致文字列の前記
辞書における登録位置を示す登録番号と前記一致文字列
に付加された拡張文字および直前文字列の最終文字の少
なくとも一方とを前記ハッシュ関数に入力し、得られた
ハッシュ値に応じて、前記辞書において前記新規の文字
部分列に与えられた符号が登録されている位置を示す登
録番号と次に新たな展開文字列を登録すべき個別の辞書
の木を示す情報とを前記ハッシュ表に登録することを特
徴とするデータ圧縮方法。
【請求項２】辞書（１０１）に登録された文字部分列
から入力文字列に最大長一致する一致文字列を検索し、
この一致文字列の複製として入力文字列の該当する部分
を符号化するとともに、前記一致文字列を１文字だけ拡
張した新規の文字部分列を前記辞書（１０１）に登録す
る増分分解型の符号化方法を適用しており、直前に符号
化された直前文字列の最終文字を先頭文字とする現文字
列に対応して検索手段（１０４）が辞書（１０１）から
検索した符号を出力し、符号化手段（１０２）は、各文
字部分列を先頭文字とこの先頭文字からの展開文字列と
して捉えて前記先頭文字ごとに相異なる展開文字列にそ
れぞれ前記先頭文字に対応する個別の辞書の木における
符号を与え、登録手段（１０３）を介して前記辞書（１
０１）に登録する構成のデータ圧縮装置において、変数の入力に応じて所定の演算を行い、演算結果をハッ
シュ値として出力するハッシュ演算手段（１１１）と、前記ハッシュ値とともに前記辞書（１０１）における登
録番号および前記辞書に対応する全体辞書の木と前記登
録番号に登録された符号が属する個別の辞書の木との関
係を示す情報が入力され、前記ハッシュ値に対応する格
納場所に前記登録番号とともに前記全体辞書の木と前記
個別の辞書の木との関係を示す情報を格納するハッシュ
表（１１２）とを備え、前記検索手段（１０４）は、前記辞書（１０１）から得
られた一致文字列に対応する登録番号と前記一致文字列
につなげようとする拡張文字および直前文字列の最終文
字の少なくとも一方とを変数として前記ハッシュ演算手
段（１１１）に入力し、得られたハッシュ値に基づいて
前記ハッシュ表（１１２）を参照して、前記一致文字列
を前記拡張文字で拡張した文字列に対応する前記辞書
（１０１）における登録番号を得て符号化手段（１０
２）に送出する構成であり、前記登録手段（１０３）は、新規の文字部分列を前記新
規の文字部分列に最長一致する一致文字列の前記辞書
（１０１）における登録番号と前記新規の文字部分列の
展開文字列に与えられた符号との組み合わせとして前記
辞書（１０１）に登録するとともに、前記登録番号と前
記一致文字列に付加された拡張文字および直前文字列の
最終文字の少なくとも一方とを変数として前記ハッシュ
演算手段（１１１）に送出し、得られたハッシュ値とと
もに前記登録番号および前記拡張文字を前記ハッシュ表
（１１２）に送出する構成であることを特徴とするデー
タ圧縮装置。
【請求項３】請求項２に記載のデータ圧縮装置におい
て、ハッシュ演算手段（１１１）が、入力される変数の排他
的論理和演算を行ってハッシュ値を得る構成であること
を特徴とするデータ圧縮装置。
【請求項４】辞書に登録された文字部分列から入力文
字列に最大長一致する一致文字列を検索し、この一致文
字列の複製として入力文字列の該当する部分を符号化す
るとともに、前記一致文字列を１文字だけ拡張した新規
の文字部分列を前記辞書に登録する増分分解型の符号化
方法を適用しており、直前に符号化された直前文字列の
最終文字を先頭文字とする現文字列に対応する符号を前
記辞書から検索して出力し、各文字部分列を先頭文字と
この先頭文字からの展開文字列として捉え、前記先頭文
字ごとに相異なる展開文字列にそれぞれ前記先頭文字に
対応する個別の辞書の木における符号を与えて前記辞書
に登録するデータ圧縮方法で得られた符号から元の文字
列を復元するデータ復元方法において、前記辞書を検索する際に、展開文字列に対応する符号と
直前文字列の最終文字とを前記ハッシュ関数に入力し、
得られたハッシュ値に基づいて前記ハッシュ表を参照す
ることにより、該当する文字列を前記辞書から検索し、新規の文字部分列に与えられた符号を前記辞書に登録す
る際に、前記新規の文字部分列の先頭文字に対応する個別の辞書
の木と前記辞書に対応する全体辞書の木との関係を示す
情報を、前記符号とともに前記辞書に登録するととも
に、前記新規の文字部分列の展開文字列に与えられた符号と
前記新規の文字列に対応する直前文字列の最終文字とを
前記ハッシュ関数に入力し、得られたハッシュ値に応じ
て、前記新規の文字部分列に与えられた符号の前記辞書
における登録番号と次に新たな展開文字列を登録すべき
個別の辞書の木を示す情報とをハッシュ表に登録するこ
とを特徴とするデータ復元方法。
【請求項５】辞書（１０１）に登録された文字部分列
から入力文字列に最大長一致する一致文字列を検索し、
この一致文字列の複製として入力文字列の該当する部分
を符号化するとともに、前記一致文字列を１文字だけ拡
張した新規の文字部分列を前記辞書（１０１）に登録す
る増分分解型の符号化方法を適用しており、直前に符号
化された直前文字列の最終文字を先頭文字とする現文字
列に対応する符号を前記辞書（１０１）から検索して出
力し、各文字部分列を先頭文字とこの先頭文字からの展
開文字列として捉え、前記先頭文字ごとに相異なる展開
文字列にそれぞれ前記先頭文字に対応する個別の辞書の
木における符号を与えて前記辞書（１０１）に登録する
データ圧縮装置で得られた符号から元の文字列を復元す
るデータ復元装置において、変数の入力に応じて所定の演算を行い、演算結果をハッ
シュ値として出力するハッシュ演算手段（１１１）と、前記ハッシュ値とともに前記辞書（１０１）における登
録番号および前記辞書に対応する全体辞書の木と前記登
録番号に登録された符号が属する個別の辞書の木との関
係を示す情報が入力され、前記ハッシュ値に対応する格
納場所に前記登録番号とともに前記全体辞書の木と前記
個別の辞書の木との関係を示す情報を格納するハッシュ
表（１１２）と、検索しようとする文字列の展開文字列を示す符号と直前
文字列の最終文字とを変数として前記ハッシュ演算手段
（１１１）に入力し、得られたハッシュ値に基づいて前
記ハッシュ表（１１２）を参照することにより、該当す
る文字列に対応する前記辞書（１０１）における登録番
号を得る検索手段（１２２）と、前記検索手段（１２２）で得られた登録番号に基づいて
前記辞書（１０１）を参照し、該当する文字列を復元す
る復号手段（１２３）と、新規の文字部分列に最長一致する一致文字列の前記辞書
（１０１）における登録位置を示す登録番号と前記一致
文字列に付加された拡張文字とを前記辞書（１０１）に
登録するとともに、前記新規の文字部分列の展開文字列
に与えられた符号と前記新規の文字列に対応する直前文
字列の最終文字とを変数として前記ハッシュ演算手段
（１１１）に送出し、得られたハッシュ値とともに前記
新規の文字部分列の前記辞書（１０１）における登録番
号と前記新規の文字列の先頭文字および前記展開文字列
に与えられた符号とを前記ハッシュ表（１１２）に送出
する登録手段（１２１）とを備えたことを特徴とするデ
ータ復元装置。
【請求項６】請求項５に記載のデータ復元装置におい
て、ハッシュ演算手段（１１１）が、入力される変数の排他
的論理和演算を行ってハッシュ値を得る構成であること
を特徴とするデータ復元装置。