JP2001357048A

JP2001357048A - ブロックソート圧縮データの検索方法、および検索に適したブロックソート圧縮法の符号化方法

Info

Publication number: JP2001357048A
Application number: JP2000182320A
Authority: JP
Inventors: Motonobu Tonomura; 元伸外村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-06-13
Filing date: 2000-06-13
Publication date: 2001-12-26
Also published as: US20010051941A1

Abstract

(57)【要約】【課題】ブロックソート圧縮法で圧縮されたデータに対
して、全ての符号化されたデータを復号しなくても、逐
次必要なデータだけ復号して検索することによって高速
検索をおこなう。【解決手段】ブロックソート圧縮法により圧縮されたデ
ータに対して、ＢＷ変換した列と辞書式に整列させた列
との整列位置番号と整列前位置番号の対を求める。そし
て、その対に基づきデータを復号しながら、検索データ
列との照合をおこなう。復号は、検索のために必要な部
分のみをおこなう。また、ブロックソート圧縮法で整列
位置番号と整列前位置番号の対を直接に符号化してお
く。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ブロックソート圧
縮データの検索方法に係り、ブロックソート圧縮法で圧
縮されたデータに対して、ブロックソート圧縮法の特質
を活かすことにより、全ての符号化されたデータを復号
しなくても、逐次必要なデータだけ復号して検索するこ
とによって高速検索を可能にするブロックソート圧縮デ
ータの検索方法に関する。

【０００２】

【従来の技術】コンピュータなどの情報機器が身近なも
のになり、我々がデジタルデータを取扱う機会が増すに
つれて、データを符号化して圧縮して記憶し、必要に応
じて、それを復号化して伸張して利用する技術が注目さ
れている。ここで、「符号化」とは、もとのコード体系
を別のコード体系に変換することであり、「復号化」と
は、その逆であり、符号化したコード体系をもとのコー
ド体系に変換し直すことと定義できる。また、「圧縮」
とは、もとのデータをより少ない容量の記憶領域で格納
することであり、「伸張」とは、圧縮したデータをもと
のデータの容量の記憶領域を占有するようなデータにす
ることである。

【０００３】このようなデータの圧縮／伸張技術は、パ
ーソナルコンピュータが普及して、日常的に使われるよ
うになってきている。中でも、１９７７年にZivとLempe
lによって提案されたＬＺ圧縮法は、知名度があり今日
よく使われている圧縮法である。このような状況の中
で、最近、ＬＺ圧縮法の圧縮率に匹敵するブロックソー
ト圧縮法と呼ばれる別の圧縮法がその圧縮率の高さから
理論的な面で関心が集まっている(Michelle Effros, Un
iversal Lossless Source Coding with the Burrows Wh
eeler Transform, IEEE Proc. of DCC'99, pp. 178-18
7, 1999)。

【０００４】このブロックソート圧縮法は、テキスト・
データ全体に対して巡回シフト(あるいは回転シフト)列
を作り、すべての巡回シフト列に辞書式順序付けをおこ
なって配列し、そのある列を取り出して符号化するもの
である。例えば、この方式を発案したBurrowsとWheeler
(A block-sorting lossless data compression algori
thm, SRC Research Report, 124 May 1994)は、符号の
列として配列の最後の列を選んでいる。

【０００５】ブロックソート圧縮法は、ＬＺ圧縮法に匹
敵するような圧縮率の評価データが得られているが、ま
だその圧縮率の達成に関して理論的な検討段階にあり、
応用面での検討があまりなされていない。

【０００６】

【発明が解決しようとする課題】ところで、情報を圧縮
するばかりでなく、情報を高速に検索したいという要求
がある。高速検索という目的を優先させると、どうして
も検索のために冗長な情報をもたせることになるため、
データ量を圧縮するというよりは、ともすれば、データ
量が増加することにもなる。

【０００７】しかし、処理する情報が極めて大量になっ
てくると格納スペースがなくなり、データを圧縮格納し
ておく必要に迫られるので、ほとんどのデータが圧縮さ
れたままの状態で眠っているという状況になる。このよ
うな圧縮データの海から検索して必要なごく一部のデー
タのみを取り出すという技術が要求されることになる。
すべての圧縮データを伸張復号しながら検索するという
ことは現実的な解答とは言い難い。そのために、できれ
ば圧縮コード列のまま伸張しないで検索する方法を見い
出したいところである。

【０００８】しかしながら実際には、既存のＬＺ圧縮法
によるデータに対して、圧縮コード列に対して検索パタ
ーンと比較照合する場合、圧縮コード内容の前後の一部
にまたがって照合したり、検索パターンの圧縮コード列
が一意に定まらず、何通りも存在することがあるため、
圧縮コード列のままでは直接検索することができないと
いう問題がある。ブロックソート圧縮法は、評価段階の
圧縮技術と言って良く、これまで、ブロックソート圧縮
データに対する検索法について十分考察されてこなかっ
た。

【０００９】本発明は、上記問題点を解決するためにな
されたもので、その目的は、ブロックソート圧縮法で圧
縮されたデータに対してブロックソート圧縮法の特質を
活かすことにより、全ての符号化されたデータを復号し
なくても、逐次必要なデータだけ復号して検索すること
によって高速検索を可能にするブロックソート圧縮デー
タ検索法を提供することにある。

【００１０】また、その検索に適したブロックソート圧
縮法の符号化方法を提供することにある。

【００１１】

【課題を解決するための手段】ブロックソート圧縮法
は、テキスト・データ全体に対して巡回シフト列を作
り、すべての巡回シフト列に辞書式順序付けをおこなっ
て配列化する。それで、検索したいパターンが複数箇所
にある場合、巡回シフト列の配列の中で、検索パターン
は配列のある行の先頭列から始まり、しかも複数箇所の
検索パターンが配列の連続した行において固まって出現
するという特徴がある。また、ブロックソート圧縮デー
タの復号原理において、伸張復号した最後の列の文字列
の位置を辞書式順序で並べ替えて整列させるが、そのと
き、整列位置番号と整列前の整列位置番号の対を作り、
元のテキストの整列位置番号を指定して、これらの対を
順次たどりながら、テキストの先頭から順番に復号でき
る。

【００１２】したがって、本発明では、ブロックソート
圧縮データがもつこのような性質を利用して効率良い検
索手段を提供する。すなわち、まず検索パターンの先頭
の文字と２番目の文字の対に対して、整列位置番号と整
列前位置番号の対を当てはめて対応させる。これらに当
てはめられる対は、辞書式順序で整列させているため
に、固まって出現するので候補を絞り込める。続いて検
索パターンの２番目の文字と３番目の文字の対に対し
て、前段で絞り込まれたものに対して整列位置番号と整
列前の整列位置番号の対を当てはめて対応させるという
手順を同様に繰り返していく。すると、検索パターンの
長さをｎとするとき、検索パターンのｎ−１番目の文字
とｎ番目の文字の対に対して整列位置番号と整列前位置
番号の対を当てはめて絞り込み対応させた段階で一連の
手順は終了する。

【００１３】結果として、複数箇所で検出された検索パ
ターンだけが残り、同時に元のデータ列に含まれている
検索パータンが検出されることになる。

【００１４】元のテキスト列の文字の出現個数がわかっ
ているときには、整列位置番号と整列前位置番号の対を
順次求めることができるため、照合にあたり全ての元の
テキスト列を復号する必要はなく、検索パターンと照合
する必要なところだけ復号して照合すれば良い。また、
いわゆるあいまい検索も、マッチングの可能性のあると
ころを上記手順で復号することによりおこなうことがで
きる。

【００１５】検索パターンを照合するときには、元のテ
キスト列で出てくる文字が一番少ない文字からおこなえ
ば絞込みが速くなり、効率的に検索できる。

【００１６】ブロックソート圧縮法では、符号化操作は
２段階でおこなわれる。第１段階の符号化では、通常の
発想では、連続して出てくる文字の長さに着目して符号
化するものである。しかしながら、上記検索方法では、
第１段階の復号化のステップと整列位置番号と整列前位
置番号の対を求める手順が無関係に存在しており、効率
的には改善すべきものがある。

【００１７】そこで、ブロックソート圧縮法において、
配列の最後の列の文字列を圧縮符号化するのではなく、
整列位置番号と整列前位置番号の対を直接に圧縮符号化
することで復号と検索の効率をさらに上げることにす
る。整列位置番号と整列前位置番号の対は、配列の最後
の列の文字列に１対１で対応しているので、ほぼ同程度
の圧縮率の達成が期待できる。ブロックソート圧縮法の
符号化方法によって、検索向きの圧縮法を提供すること
ができる。

【００１８】

【発明の実施の形態】以下、本発明に係る各実施形態
を、図１ないし図１１を用いて説明する。〔ブロックソート圧縮法〕先ず、本発明のブロックソー
ト圧縮データの検索法を説明する前に、図２および図３
を用いて前提となるブロックソート圧縮法について説明
する。図２は、ブロックソート圧縮法の圧縮符号化過程
を説明するための概略図である。図３は、ブロックソー
ト圧縮法を具体的なデータにより説明するための図であ
る。

【００１９】以下、本発明の実施形態では、一貫して、
元のテキストが'ｃａｂｃｃａｂｃｃｃａｂｂｃａｂｃ
ｃａｂｃａｃｃａｂｂｃａａａｂ'の３２個の文字から
なるテキスト２００を圧縮した場合を例に採り説明して
いくことにする。

【００２０】ブロックソート圧縮法により圧縮して、符
号化するときのアルゴリズムの概略は、以下のようにな
る。

【００２１】（圧縮−ステップ１）先ず、元のテキスト
２００の巡回シフトをおこなって、全ての巡回シフト列
２１０を求める。巡回シフトとは、元の列を一文字単位
で右または左に、回転させてシフトさせることであり、
図２の例では、テキスト２００を左側にシフトさせて、
先頭からはみ出た文字'ｃ'が、最後尾にきている。

【００２２】この元のテキスト２００の例では、３２個
の文字からなっているため、３２個の巡回シフト列２１
０ができることになる。

【００２３】（圧縮−ステップ２）（圧縮−ステップ
１）で生成された巡回シフト列を辞書式順序で整列させ
て、配列２２０を作る。

【００２４】（圧縮−ステップ３）配列２２０の最後の
列１３０を取り出して、これを圧縮符号化する。このよ
うに元のテキスト２００からこのような手順を経て、最
後の列１３０の列に変換することを、発案者の名前をと
り、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒ変換、略してＢＷ
変換と言っている。実際には、取ってくるのは配列２２
０のどの列でも良いが、前記論文には、最後の列をとっ
ている。

【００２５】また、この配列２２０の中で、元のテキス
トの位置番号２３０である'２５'についても圧縮してお
く。

【００２６】元のテキスト２００とＢＷ変換した列は、
長さは同じであるが同じ文字が続く傾向があることが知
られているので、例えば、文字列の連続長を符号化する
ことにより高い圧縮率が得られる。なお、ＢＷ変換した
列の符号化の仕方は、外にもいろいろな方法が考えら
れ、必ずしも上記の方法にこだわる必要はない。

【００２７】このように、ブロックソート圧縮法は、辞
書式順序で整列させた配列２２０に基づいて、符号化の
ためのデータを得るものなので、元のテキスト２００を
圧縮するよりも効率の良い圧縮がおこなえるのでないか
として注目されているものである。

【００２８】次に、上記手順により、圧縮して符号化さ
れたデータを復号して伸張する場合の手順を、図４およ
び図５を用いて説明する。図４は、ブロックソート圧縮
法の伸張復号化過程を説明するための概略図である。図
５は、ブロックソート圧縮法を伸張復号化過程を具体的
なデータにより説明するための図である。

【００２９】先ず、具体的な手順を説明する前に、図３
に示されている整列位置番号と整列前位置番号について
説明する。この整列位置番号と整列前位置番号は、ブロ
ックソート圧縮法のアルゴリズムを理解する上におい
て、非常に重要な概念である。

【００３０】整列位置番号は、巡回シフト列を辞書式順
序に整列させた配列２２０の位置そのものである。

【００３１】整列前位置番号とは、ＢＷ変換した最後の
列１３０を配列の最初の列に一致させるように、整列さ
せたときに、整列させた文字が、整列する前にはどの整
列位置番号の位置にあったかを示す位置番号である。

【００３２】具体的には、ＢＷ変換した最後の列１３０
は、'ｃａｃｃａｃｃｃｃｃａａｂｂａａａａａｂｃｃ
ｃｂｂｃｂａｃｂｂｂ'である。

【００３３】これを整列させるために、先ず'ａ'の文字
が来る。これは、整列前には、２番目にあったものだか
ら、整列前位置番号は、０２となる。次に来るのも、'
ａ'の文字である。次の'ａ'の文字が見出されるのは、
ＢＷ変換した最後の列１３０で５番目なので、整列前位
置番号は、０５となる。

【００３４】同様にして、'ａ'の文字が並び、'ｂ'の文
字が最初に来るときの整列前位置番号は、１３にな
り、'ｃ'の文字が最初に来るときの整列前位置番号は、
０１になる。このようにして、整列した列１３０が得ら
れる。この対応の原理は、図４によって示されている。

【００３５】ここで、記号の約束をする。整列位置番号
１４０と整列前位置番号１５０の対を、（整列位置番
号，整列前位置番号）と書くことにする。例えば、'ａ'
が最初に来るところは、（０１，０２）、'ｂ'が最初に
来るところは、（１１，１３）、'ｃ'が最初に来るとこ
ろは、（２０，０１）である。

【００３６】次に、上記手順により圧縮符号化したとき
のデータを、伸張復号化するときのアルゴリズムの概略
は、以下のようになる。

【００３７】（伸張−ステップ１）（圧縮−ステップ
３）で符号化した元のテキスト位置２３０と、ＢＷ変換
した最後の列１３０を伸張復号化する。これを仮に第１
段階の伸張復号化ということにする。この第１段階の伸
張復号化は、もちろん、（圧縮−ステップ３）で符号化
したアルゴリズムに基づくものである。

【００３８】これにより、元のテキスト位置２３０であ
る'２５'と、ＢＷ変換した最後の列１３０、'ｃａｃｃ
ａｃｃｃｃｃａａｂｂａａａａａｂｃｃｃｂｂｃｂａｃ
ｂｂｂ'が得られたものとする。

【００３９】（伸張−ステップ２）（伸張−ステップ
１）で得られたＢＷ変換した最後の列１３０を、辞書式
で整列させる。そのとき、上記手順で得られるような
（整列位置番号，整列前位置番号）の対も記憶してお
く。

【００４０】この例では、図３に示されるように（０
１，０２）、（０２，０５）、（０３，１１）、…、
（３２，２９）という対を得ることができる。

【００４１】（伸張−ステップ３）元のテキスト位置２
３０、ＢＷ変換した最後の列１３０、整列させた列１６
０および（整列位置番号，整列前位置番号）を基にして
元のテキスト２００を復号する。これが第２段階の伸張
復号化である。

【００４２】この例で示すと、以下のようになる。

【００４３】先ず、元のテキスト位置２３０が'２５'で
あるから、整列させた列１６０（図３の最初の列）の２
５番目を見て、最初の文字、'ｃ'が復号される。この'
ｃ'は、整列前には、８番目にあったことが、（２５，
０８）の対を見ることにより分る（図５）。次に、整
列させた列１６０の８番目は、'ａ'である。もともと、
この配列は巡回シフト列なのだから、この'ａ'は、最初
の文字'ｃ'の次に来るものである。したがって、２番目
の文字'ａ'が復号される（図５）。

【００４４】同様に、（０８，1８）の対を見て、整列
させた列１６０の１８番目に、'ｂ'が来ているので、３
番目の文字'ｂ'が復号される。

【００４５】このような元のテキスト位置２３０か
ら、'２５'から（２５，０８）、（０８，１８）、（１
８，３１）、（３１、２６）、…というように連鎖的に
たどっていくと、順々に、'ｃａｂｃ…'というように元
のテキスト２００が復号化されて得られることになる。

【００４６】このようにブロックソート圧縮法は、巡回
シフト列の性質を巧妙に利用して圧縮伸張をおこなうも
のである。

【００４７】〔ブロックソート圧縮データの検索方法の
基本原理〕次に、図６を用いてブロックソート圧縮法に
より圧縮されたデータ（以下単に、「ブロックソート圧
縮データ」という）に対して、特定のパータンを検索す
るための基本原理について説明する。図６は、本発明に
係るブロックソート圧縮データの検索方法の検索過程を
説明するための図である。

【００４８】本実施形態では、検索パターン１２０とし
て、'ｃａｂｂｃａ'を取り上げる。この検索パターン
は、元のテキスト２００には、２箇所に見出される。

【００４９】ここで、記号として検索パータンのｉ番目
の文字を、Ｐ［ｉ］で表すことにする。この例では、図
６にも示されているようにＰ［１］＝'ｃ'、Ｐ［２］
＝'ａ'などである。

【００５０】アルゴリズムとしては、先ず、検索パータ
ン１２０の最初の文字Ｐ［１］が、整列した列１６０
（最初の列）のどこに見い出されかをサーチする。この
整列した列１６０は、辞書式に整列しているため、その
文字が最初に出現した場所から連続して出てくる個数だ
け見れば良く、サーチは極めて容易である。元のテキス
ト２００から直接サーチする場合には、先頭の文字から
始めて、順番に照合しなければならず、サーチが元のテ
キスト２００の長さ分だけおこなわなければならない。
したがって、それと比較すると、最初から整列した列か
らサーチするためこの検索は極めて効率的であるという
ことができる。

【００５１】図６の表では、Ｐ［１］＝'ｃ'の下に、２
０〜３２までの数字が並んでいるが、これが、整列した
列１６０の整列位置番号である。実際に図３では、２０
〜３２に'ｃ'が来ていることが確認できる。

【００５２】次に、Ｐ［２］＝'ａ'を検索する。

【００５３】これは、各々Ｐ［１］で見つかった整列位
置番号から整列前位置番号の対を求め、それにより検索
する。すなわち、整列位置番号'２０'から整列前位置番
号'０１'を求め、ブロックソート圧縮法の復号の原理に
より、'ａ'が復元されて、２文字目も一致することが分
る。このように２文字目が'ａ'のパターンを調べると、
図６の表の２列目から分るように、（整列位置番号，整
列前位置番号）の組は、（２０，０１）、（２１，０
３）、（２２，０４）、（２３，０６）、（２４，０
７）、（２５，０８）、（２６，０９）、（２７，１
０）となる。次の整列位置番号'２８'では、整列前位置
番号'１８'であり、復号される文字は、'ｃ'となるため
検索パターンと一致しないことが分る。そして、これ以
降では、検索パターンと一致するパターンは原理上見出
されない。というのも、配列２２０は、もともと辞書式
に整列しているからである。

【００５４】同様に、次のＰ［３］＝'ｂ'を検索する。
Ｐ［２］の整列位置番号から見出される候補は、（０
３，１１）、（０４，１２）、（０６，１６）、（０
７，１７）、（０８，１８）、（０９，１９）である。

【００５５】このようにして、Ｐ［１］〜Ｐ［６］ま
で、一致するのは、図６に示されるように（２１，０
３）、（０３，１１）、（１１，１３）、（１３，２
０）、（２０，０１）の行６１０と（２２，０４）、
（０４，１２）、（１２，１４）、（１４，２４）、
（２４，０７）の行６２０の二箇所で一致することが分
る。すなわち、この場所で検索する６個の文字が見つか
ったことを意味する。

【００５６】この検索法によれば、ブロックソート圧縮
法の整列した列１６０と（整列位置番号，整列前位置番
号）を基にして、先頭位置Ｐ［１］から順番に調べて行
けば良く、しかも、各々の探索枝に対して、必ず検索パ
ターンの長さだけ探せば良いので、元のテキスト列２０
０をサーチする場合に比べて極めて能率的な検索をおこ
なうことができる。

【００５７】〔該当箇所の前後の表示〕ところで、元の
テキスト列２００から検索パターン１２０を検索すると
きに、その該当する箇所の前後の文字列を表示したいこ
とが実用上よくある。

【００５８】この場合においても、本発明のブロックソ
ート圧縮データの検索方法によれば、検索したときと、
同様の手順により、該当箇所の前後の文字列を復号して
表示することができる。

【００５９】例えば、上記の例で、図６の行６１０の箇
所の前の文字列を表示したいとする。この場合には、整
列前位置番号'２１'のときの整列位置番号を求めれば、
Ｐ［１］の前の文字を求めることができる。すなわち、
（整列位置番号，整列前位置番号）＝（ｘ，２１）にあ
たるｘを求めれば良い。ｘは２８となり、整列した列１
６０の２８番目の文字が'ｃ'であることにより、求める
文字は、'ｃ'であることが分る。その前の文字も同様に
して、（ｘ，２８）から、ｘは１０となり、求める文字
は、'ａ'であることが分る。

【００６０】逆に、図６の行６１０の箇所の後の文字列
を表示したい場合には、一番最後の対（２０，０１）に
注目して、整列位置番号'０１'のときの整列前位置番号
を求めれば良い。すなわち、（整列位置番号，整列前位
置番号）＝（０１，ｙ）にあたるｙを求める。ｙは０２
であり、整列した列１６０の２番目の文字が'ａ'である
ことから、このＰ［６］のすぐ後ろの文字は、'ａ'であ
ることが分る。同様に、（０２，ｙ）のｙを求めると、
ｙは０５となり同様に次の文字も'ａ'であることができ
る。

【００６１】このように元のテキスト２００で検索パー
タン１２０がある所の前後の文字列は（整列位置番号，
整列前位置番号）の連鎖をたどっていくことにより、自
然と復号でき、これをＣＲＴやプリンタなどの出力装置
に表示させることができる。

【００６２】〔あいまい検索への応用〕次に、図７を用
いて本発明に係るブロックソート圧縮データの検索方法
が、あいまい検索へも応用できることを説明する。図７
は、本発明に係るブロックソート圧縮データの検索方法
であいまい検索をおこなったときの検索過程を説明する
ための図である。

【００６３】テキスト検索において、いわゆる「あいま
い検索」をおこないたいことが良くある。あいまい検索
とは、例えば、単語の一部のみを指定し、その他の部分
はなにが来ても良いとして一致するパターンを検索する
ことである。例えば、'＊'の文字がドントケアの文字
（ワイルドカードとも言う）を表すとして、検索パター
ンに'＊'を指定したときには、全ての文字とマッチング
するものと約束する。

【００６４】この例で、例えば、あいまい検索として、
検索パータンとして'ｃａ＊＊ａｃ'が指定されたものと
する。すなわち、Ｐ［３］＝Ｐ［４］＝'＊'で他の部分
は、上の例と同様である。

【００６５】この場合には、先ず、既に述べた来た本発
明の検索方法により、Ｐ［１］Ｐ［２］＝'ｃａ'の部分
で一致する箇所を検索する。一致する部分は、（整列位
置番号，整列前位置番号）の表現で表すと、図７に示さ
れる通り、（２０，０１）、（２１，０３）、（２２，
０４）、（２３，０６）、（２４，０７）、（２５，０
８）、（２６，０９）、（２７，１０）の８個である。

【００６６】次のＰ［３］Ｐ［４］＝'＊＊'の部分は、
全ての文字とマッチングするので、そのまま、（整列位
置番号，整列前位置番号）の連鎖をたどることになる。
この過程では、候補は減らずに推移する。そして、この
候補の中から後半のパターンＰ［５］Ｐ［６］＝'ｃａ'
にマッチングするもののみを追跡し、最終的な絞り込み
をおこなう。すなわち、次のＰ［５］のところでマッチ
ングするのは、図のように５箇所であり、Ｐ［６］のと
ころでさらに絞り込まれ、このあいまい検索の解として
は図７に示されるように４箇所の場所が求まることにな
る。

【００６７】〔ブロックソート圧縮データの検索方法の
効率化−その一〕上で、本発明に係るブロックソート圧
縮データの検索方法の原理について述べたが、ここで
は、図８を用いてさらに本発明の検索方法を効率的にお
こなうための工夫について説明する。図８は、元のテキ
スト列の出てくる個数に着目して復号と検索をおこなう
ための過程を説明するための図である。

【００６８】上記ブロックソート圧縮データの検索方法
の原理では、ブロックソート圧縮法における第１段階の
伸張復号化をおこなって、復号化されたＢＷ変換された
列１３０（最後の列）に基づいて検索をおこなうものと
して説明した。

【００６９】次に説明する本発明の検索方法は、必ずし
も完全にＢＷ変換された列１３０を復号しなくても、検
索をおこなえるものである。したがって、一層効率的な
検索がおこなえることが期待される。

【００７０】この検索をおこなえるための条件は、元の
テキスト２００の文字の出現個数がわかるように符号化
されていることである。この例では、'ａ'が１０個、'
ｂ'が９個、'ｃ'が１３個である。これから説明する検
索方法の効率化のポイントは、文字の出現個数が分って
いるときには、ＢＷ変換した列１３０の先頭から順に処
理していく毎に、整列位置番号と整列前位置番号の対を
求めることができるため、先頭から順に復号して検索パ
ターンとマッチング処理をおこなうことができる点にあ
る。

【００７１】具体的に手順を追っていくと以下の通りで
ある。先ず、ＢＷ変換された列１３０の最初の文字
は、'ｃ'である。これは、'ｃ'の１番目であり、しか
も、予め文字の出現個数が分っているので、'ｃ'の整列
位置番号は、１０＋９＋１となる。すなわち、（整列位
置番号，整列前位置番号）＝（２０，０１）が求まる。

【００７２】図８では、文字毎に整列前位置番号を並べ
たものであり、'ａ'の順番１のセルが整列位置番号が
１、'ｂ'の順番１のセルが整列位置番号が１１、'ｃ'の
順番１のセルが整列位置番号が２０に該当することを示
している。

【００７３】そして、次の文字'ａ'は、'ａ'の１番目で
あり、整列位置番号は、１である。すなわち、（整列位
置番号，整列前位置番号）＝（０１，０２）である。同
様に、３番目の文字は、'ｃ'については、整列位置番号
は、１０＋９＋２＝２２であり、（整列位置番号，整列
前位置番号）＝（２２，０３）である。これは、'ｃ'の
順番２のセルの整列前位置番号が３であることに対応す
る。このように図８は、'ａ'、'ｂ'、'ｃ'の各文字が出
てくるたびに、整列前位置番号を対応する行のセルに入
れていけば、自動的に整列位置番号を求めることができ
ることを示している。

【００７４】さて、検索パターン１２０は、'ｃａｂｂ
ｃａ'であった。

【００７５】ここで、文字'ｂ'の最初のものが出てくる
ところまで、整列操作がおこなわれたとする。図８から
すぐ見て取れるように、文字'ｂ'は、最初から１３番目
に出てきて、すなわち、整列前位置番号は、１３であ
り、整列位置番号は、１０＋１＝１１である。

【００７６】ここまで、（整列位置番号，整列前位置番
号）の対で、検索パータン１２０とマッチグするもの
は、（２１，０３）（０３，１１）（１１，１３）と、
（２２，０４）（０４，１２）のシーケンスで、'ｃａ
ｂｂ'と'ｃａｂ'までが照合できる。

【００７７】このようにして、ＢＷ変換した列１３０の
２４番目の文字'ｂ'まで、整列操作がおこなわれた段階
では、（２１，０３）（０３，１１）（１１，１３）
（１３，２０）（２０，０１）と（２２，０４）（０
４，１２）（１２，１４）（１４，２４）（２４，０
７）で、検索パターン１２０の'ｃａｂｂｃａ'が照合で
きる。

【００７８】そして、これ以降では、もはや検索パター
ン１２０'ｃａｂｂｃａ'は、出現しないことが分る。こ
れは、（整列位置番号，整列前位置番号）＝（１６，ｘ
ｘ）にあたるｘｘには、文字'ｂ'にあたる整列前位置番
号１１〜１９が来ることはない。これは、２４番目まで
調べているので、他の場所に既に整列前位置番号１１〜
１９が使われていることが判明しているからである。し
たがって、これ以降には文字'ｂ'が来ることはなく、こ
れ以降の照合操作はおこなう必要のないことがわかる。

【００７９】通常のテキストとの照合処理により、検索
処理をおこなう場合には、最後の文字まで、照合しない
と検索パターンを検出できないのと比較して、本発明の
ブロックソート圧縮データの検索方法の有利な点であ
る。ただし、最悪の場合には最後まで整列操作をおこな
わなけばならない場合も生じうる。

【００８０】〔ブロックソート圧縮データの検索方法の
効率化−その二〕次に、図１を用いて本発明の検索方法
を効率的におこなうための他の工夫について説明する。
図１は、本発明のブロックソート圧縮データの検索方法
の概略手順を説明するための図である。

【００８１】これまで説明してきた本発明のブロックソ
ート圧縮データ検索では、検索パターン１２０の先頭か
ら照合処理をおこなってきた。しかしながら、検索パタ
ーン１２０の先頭文字Ｐ［１］のテキスト２００での出
現個数が多いと、最初の照合処理が多くなり絞り込むま
での操作も多くなる。したがって、これを避けるために
は、検索パターン１２０の文字列の中で、テキスト２０
０の中で出現個数の少ない文字を選び出し、その位置か
ら照合処理を開始して、絞り込んだ後で、開始位置の前
の文字を逆に遡って照合していくと効率的になる。

【００８２】また、検索パターン１２０の複数箇所の出
現位置を同時に検出するよりも、先ず１箇所目を見つけ
た方が、２箇所目以降の絞り込みがはやくなる。

【００８３】検索パターン１２０'ｃａｂｂｃａ'の例で
は、'ａ'、'ｂ'、'ｃ'の三種類の文字が出てくるわけで
あるが、元のテキスト２００の中で、文字'ｂ'が９個で
一番少ないので検索パータン１２０の３番目の文字'ｂ'
に着目して検索を始める。

【００８４】図１に示されるように、前向きの照合で
は、（１１，１３）（１３，２０）（２０，０１）と照
合されていき、後向きの照合では、（２１，０３）（０
３，１１）というシーケンスで照合されていくことにな
る。このように検索パータンの任意の文字を選び出し
て、照合処理をおこなっていけるというのも、整列位置
番号と整列前位置番号によって、前向きでも後向きでも
まったく対称的に、復号ができるというブロックソート
圧縮法の特徴によるものである。

【００８５】〔ブロックソート圧縮法の修正した圧縮符
号化〕これまで、ブロックソート圧縮法を前提とする検
索方法を述べてきた。この検索方法では、ブロックソー
ト圧縮法の第１段階の伸張復号化をおこない、しかる後
に（整列位置番号，整列前位置番号）により、第２段階
の伸張復号化をおこなって検索パータンとの照合をおこ
なうものであった。第１段階の符号化の例としては、例
えば、文字列の連続する長さで符号化する方法をあげ
た。

【００８６】ここでは、第１段階の符号化の段階で、
（整列位置番号，整列前位置番号）の対を直接符号化す
ることにより、２段階の符号化、復号化を１段階で済ま
せて、さらに効率的なブロックソート圧縮データに対す
る検索をおこなうアイデアについて説明する。

【００８７】以下、図９および図１０を用いてこれまで
の例により説明することにする。図９は、本発明のブロ
ックソート圧縮法の修正した圧縮符号化を説明するため
の図である。図１０は、圧縮符号化したデータを模式的
に示した図である。

【００８８】ブロックソート圧縮法は、（整列位置番
号，整列前位置番号）の対を利用して、第２段階の伸張
復号化をおこなうものであった。したがって、（整列位
置番号，整列前位置番号）を直接に符号化すれば、復号
時のこの対応付けを省略できるというが基本的な発想で
ある。

【００８９】図９は、'ａ'のテーブル４１０、'ｂ'のテ
ーブル４２０、'ｃ'のテーブル４３０毎に整列位置番号
３４０と整列前位置番号３５０を対応してあげたもので
ある。

【００９０】整列位置番号３４０も整列前位置番号３５
０も０から始めている。これは、できるだけ符号化時に
記憶容量を減らそうという技術的な工夫である。

【００９１】また、ＢＷ変換した列１６０は、おなじ文
字が続く傾向があるため、整列前位置番号が同一の連番
が続くことが期待される。したがって、整列前位置番号
３５０は、各テーブルの相対位置であらわせば、圧縮率
が高くなることが予想される。したがって、整列前位置
番号３５０は、テーブルインデックス４４０と一緒に、
各テーブルの相対番号として表現することにする。

【００９２】'ａ'のテーブル４１０の最初のエントリで
は、整列位置番号３４０が００であり、整列前位置番号
３５０が０１であり、テーブルインデックス４４０が'
ａ'になっている。これは、図３の（整列位置番号，整
列前位置番号）としては、（０１，０２）に該当する。
また、'ａ'のテーブル４１０の３番目のエントリは、整
列位置番号３４０が０２であり、整列前位置番号３５０
が００であり、テーブルインデックス４４０が'ｂ'にな
っている。図８で示したように、'ｂ'のテーブルの最初
の位置はは、１１番目を表しているので、図３の（整列
位置番号，整列前位置番号）としては、（０３，１１）
である。

【００９３】これを実際に符号化するときには、整列前
位置番号３５０と整列位置番号３４０の差を求めて相対
的に符号化することにする。そして、これをテーブルイ
ンデックスと共に復号可能なように符号化する。

【００９４】このようにして符号化されたデータを符号
化の仕方が良くわかるような書き方をすると、図１０の
ようになる。これは、テーブルインデックスと相対位置
を符号化し、さらに、連続する文字の現れる場合の表記
を工夫したものである。この表記でｉ＋ｊと書いてある
のは、ｉがｊ個連続していることを示している。

【００９５】この図１０で、ａ（１，３）は、テーブル
インデックスが'ａ'で、整列前位置番号３５０と整列位
置番号３４０の差３６０が、１と３、次のｂ（−２＋，
０＋４）は、テーブルインデックスが'ｂ'であり、差３
６０が−２，−２と続き、０が４つ続くことを意味して
いる。

【００９６】〔ブロックソート圧縮データの検索方法の
アルゴリズム〕最後に、図１を用いてこれまで説明して
きたことを基にしてブロックソート圧縮データの検索方
法のアルゴリズムを整理して述べることにする。図１
は、本発明のブロックソート圧縮データの検索方法の概
略手順を説明するための図である。

【００９７】元のテキスト２００がブロックソート圧縮
法によって圧縮符号化されたデータが記憶媒体に記憶さ
れているとする。

【００９８】そして、検索をおこなう検索パターン１２
０が指定されているとする。

【００９９】本発明の検索方法は、圧縮符号化データ１
００を伸張復号化しながら、検索パターン１２０との照
合処理を可能にするものであった。

【０１００】検索は、任意の文字からおこなえるのであ
るが、元のテキストの出現個数の一番少ない文字、この
例では'ｂ'からおこなうのが効率的である。復号化する
に際しては、（整列位置番号１４０，整列前位置番号１
５０）の対を順次連鎖的にたどって、検索パターンとマ
ッチングするテキストの部分列を絞り込みながら、テキ
ストの前後の双方向にわたって復号していく。第１段階
の符号化で、出現する文字の個数がわかるようにしてお
くか、（整列位置番号１４０，整列前位置番号１５０）
の対自体を符号化するようにすれば、圧縮符号化データ
１００の全てを元のテキスト２００として復号しなくて
も順次、検索がおこなえることはこれまで述べきた通り
である。

【０１０１】検索が成功して、該当箇所が見つかった
ら、必要に応じてマッチング箇所の前部と後部がどのよ
うに並びになっているかをユーザに提示してやる。

【０１０２】

【発明の効果】本発明のブロックソート圧縮データの検
索方法は、検索対象の文字列パターンがテキスト中の数
箇所に出現している場合でも、すべてを対象に先頭から
同時に照合することができる。しかも、検索パターンの
長さ分の照合を終了したところで、すべての照合可能な
位置が検出される。そのため、効率的な高速検索ができ
るデータの高能率圧縮法である。また、検索パターンの
前後の文字列の復号が直接おこなえるので、画面に検索
検出位置の前後の文字列を同時表示することができるの
で応用面でも便利である。また、ブロックソート圧縮法
の整列位置番号と整列前位置番号の対を直接符号化して
おけば、この検索方法に有効に利用できる。

【０１０３】このように本発明によれば、ブロックソー
ト圧縮法で圧縮されたデータに対してブロックソート圧
縮法の特質を活かすことにより、全ての符号化されたデ
ータを復号しなくても、逐次必要なデータだけ復号して
検索することによって高速検索を可能にするブロックソ
ート圧縮データ検索法を提供することができる。

【０１０４】また、その検索に適したブロックソート圧
縮法の符号化方法を提供することができる。

【図面の簡単な説明】

【図１】本発明のブロックソート圧縮データの検索方法
の概略手順を説明するための図である。

【図２】ブロックソート圧縮法の圧縮符号化過程を説明
するための概略図である。

【図３】ブロックソート圧縮法を具体的なデータにより
説明するための図である。

【図４】ブロックソート圧縮法の伸張復号化過程を説明
するための概略図である。

【図５】ブロックソート圧縮法を伸張復号化過程を具体
的なデータにより説明するための図である。

【図６】本発明に係るブロックソート圧縮データの検索
方法の検索過程を説明するための図である。

【図７】本発明に係るブロックソート圧縮データの検索
方法であいまい検索をおこなったときの検索過程を説明
するための図である。

【図８】元のテキスト列の出てくる個数に着目して復号
と検索をおこなうための過程を説明するための図であ
る。

【図９】本発明のブロックソート圧縮法の修正した圧縮
符号化を説明するための図である。

【図１０】圧縮符号化したデータを模式的に示した図で
ある。

【符号の説明】

１００…圧縮符号化データ、１１０…第１段階の伸張復
号化、１２０…検索パターン、１３０…ＢＷ変換された
（配列の最後列の）列、１４０…整列位置番号、１５０
…整列前位置番号、１６０…整列させた（配列の先頭列
の）列、１７０…検索された整列番号、１８０…検索パ
ターンの前部の復号化、１９０…検索パターンの後部の
復号化、２００…元のテキスト、２１０…巡回シフト
列、２２０…巡回シフト列の整列配列、２３０…元のテ
キストの位置番号、５００…第２段階の復号化、３４０
…整列位置番号（００から始まる）、３５０…整列前位
置番号（００から始まる）、３６０…整列前位置番号と
整列位置番号の差、４１０…'ａ'テーブル、４２０…'
ｂ'テーブル、４３０…'ｃ'テーブル、４４０…テーブ
ルインデックス。

Claims

【特許請求の範囲】

【請求項１】ブロックソート圧縮データの検索方法に
おいて、ブロックソート圧縮法により符号化されたデータの列を
第一の列、その第一の列を辞書式に整列させたデータの
列を第二の列としたときに（１）前記第一の列のデータを前記第二の列のデータに
整列させたときの整列位置番号と整列前位置番号の対を
求めるステップ、（２）前記（１）のステップにより求められた整列位置
番号と整列前位置番号の対に基づき、元のデータ列を復
号するステップ、（３）検索データ列を前記（２）のステップにより復号
されたデータ列を照合するステップとからなり、前記第一の列のデータと検索データ列を入力し、前記（１）のステップの後に、前記（２）のステップを
おこない、順次復号されたデータから前記（３）のステ
ップをおこなって元のデータ列に検索データ列が含まれ
るか否かを調べることを特徴とするブロックソート圧縮
データの検索方法。
【請求項２】ブロックソート圧縮法により符号化され
たデータは、データの構成要素の各出現個数がわかるよ
うに、符号化されており、前記（２）のステップにおいて、全ての元のデータ列を
復号しなくても、前記データの構成要素の各出現個数に基づいて、前記整
列位置番号と整列前位置番号の対を求めて、前記（３）
のステップで検索データ列との照合に必要なデータだけ
復号して検索をおこなうことを特徴とする請求項１記載
のブロックソート圧縮データの検索方法。
【請求項３】ブロックソート圧縮法の符号化方法にお
いて、巡回シフトの後に、取り出した列を符号化するときに、その取り出した列を、辞書式に整列した列に変換する場
合の整列位置番号と整列前位置番号の対を直接に符号化
することを特徴とするブロックソート圧縮法の符号化方
法。
【請求項４】前記（３）のステップと検索データ列と
元のデータ列を照合するときに、元のデータ列の構成要
素の出現個数のすくない構成要素から照合をおこなうこ
とを特徴とする請求項１記載のブロックソート圧縮デー
タの検索方法。
【請求項５】前記検索データ列が一意的でない構成要
素の表現がされ、前記（３）のステップと検索データ列と元の列を照合す
るときに、その表現により、複数の構成要素とマッチン
グをすることにして検索することを特徴とする請求項１
記載のブロックソート圧縮データの検索方法。
【請求項６】前記（３）のステップにおいて、元のデータ列の中で、前記検索したデータ列を含まれる
場所の前後のデータ列をも、復号して表示することを特
徴とする請求項１記載のブロックソート圧縮データの検
索方法。