JP5808361B2 - 文字列圧縮及び復元システム並びに方法 - Google Patents

文字列圧縮及び復元システム並びに方法 Download PDF

Info

Publication number
JP5808361B2
JP5808361B2 JP2013080293A JP2013080293A JP5808361B2 JP 5808361 B2 JP5808361 B2 JP 5808361B2 JP 2013080293 A JP2013080293 A JP 2013080293A JP 2013080293 A JP2013080293 A JP 2013080293A JP 5808361 B2 JP5808361 B2 JP 5808361B2
Authority
JP
Japan
Prior art keywords
character string
sample
replacement
partial
replacement pointer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013080293A
Other languages
English (en)
Other versions
JP2014204358A (ja
Inventor
健 山室
健 山室
史和 小西
史和 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013080293A priority Critical patent/JP5808361B2/ja
Publication of JP2014204358A publication Critical patent/JP2014204358A/ja
Application granted granted Critical
Publication of JP5808361B2 publication Critical patent/JP5808361B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、文字列圧縮における階層型サンプル文字列辞書作成方法及び装置に係り、特に、置換方式における文字列の圧縮方式において、参照局所性を向上させるためのサンプル文字列辞書を作成するための頻出パターンの頻度順序を利用してj段階置き換えを行う文字列圧縮における階層型サンプル文字列辞書作成方法及び装置に関する。
具体的には、圧縮処理を行う前に、圧縮対象の入力文字列Nから適当な方法で取得したサンプル文字列(部分文字列集合)を抽出してサンプル文字列辞書を作成し、圧縮時に当該サンプル文字列辞書を参照し、ポインタ置換処理を行い、復元処理の階層型メモリ構造における参照局性を改善する技術に関する。
入力された文字列を圧縮する方法としては、以下のような方法がある。
圧縮するべきデータ列を入力として、ハッシュを元にした探索データ構造を用いて適宜現在の圧縮対象文字列と、過去の出現文字列を比較し、出現しているものを過去の出現文字列へのポインタに置き換えることで圧縮を実現する方法がある(例えば、特許文献1参照)。例えば、図1の例では、1回目に出現した文字列「abcd」に対し、2回目以降に同一の文字列「abcd」が出現した場合に、置換ポインタを1回目に出現した文字列のポインタに置き換えることで文字列を圧縮していく。
また、圧縮するべきデータ列を入力として、現在の圧縮対象の文字列と過去の一致文字列を比較判定する処理を適用することで効率的なデータ圧縮を行う方法がある(例えば、特許文献2参照)。
また、辞書に基づく符号化を行う複数のLZ系圧縮を、それらの「圧縮率」を評価しながら適用するLZ圧縮法を切り替えることで圧縮率を効率化する方法がある(例えば、特許文献3参照)。
Dean K. Gibson, Mark D. Graybill, "Apparatus and method for very high data rate-compression incorporating lossless data compression and expansion utilizing a hashing technique". US Patent 5,049,881. 特開2003-179501号公報 特許第3065591号公報
しかしながら、上記従来の圧縮方法は、図1に示すように、過去に出現した任意位置の文字列と、現在の文字列が一致した場合に、その過去の該出現文字列へのポインタに置き換えることで圧縮を実現する方法であり、過去の任意の位置に出現した文字列に対するポインタに置き換えていく。そのため、復元時にそのポインタを参照して元の文字列に置き換える際に、特にルールを設けていないため、任意のポインタを参照することになり、メモリ上のどの位置を参照してよいかを特定することができず、ポインタの参照先の参照局所性が保障されない。特に、圧縮対象となる文字列のサイズが1G等の大きなサイズの場合は復元処理が遅延する可能性がある。
また、特許文献3の方法は、複数のLZ圧縮を組み合わせて使用する技術であるが、「圧縮率」のみを評価対象にそれらの方法を切り替えているため、単純にこれらの組み合わせだけでは復元時の参照局所性の向上、さらには復元速度の向上効果は得られない、という問題がある。
本発明は、上記の点に鑑みなされたもので、従来技術のポインタ置換の前に、入力文字列の部分文字列の出現頻度に基づいてサンプル文字列辞書を生成し、当該辞書を積極的に参照することで、復元時の参照局所性を改善し、復元速度を向上させることが可能な頻出パターンの頻度順序を利用したj段階置き換えによる改善手法及び装置を提供することを目的とする。
本発明は、置換方式による文字列圧縮及び復元システムであって、
入力文字列Nから部分文字列を抽出し、該入力文字列Nにおける該部分文字列の出現回数をカウントし、該部分文字列と出現回数を頻出パターン記憶手段に格納する頻出パターン分析手段と、
前記頻出パターン記憶手段に格納されている前記部分文字列の出現回数について降順に並べ替え、該頻出パターン記憶手段に格納し、該頻出パターン記憶手段の上位N件を、サンプル文字列としてサンプル文字列記憶手段に格納するサンプル文字列生成手段と、
前記入力文字列Nの開始位置iから始まる部分文字列と、前記サンプル文字列記憶手段から読み出した前記サンプル文字列Mの最大一致長LMと該部分文字列の出現位置PMを求め、前記入力文字列Nの開始位置i番目から始まる部分文字列と、該入力文字列Nの0番目からi−1番目までに出現した部分文字列との最大一致長LNと、該出現した部分文字列の出現位置P N を求め、該最大一致長LNが該最大一致長LMより大きい場合は、置換ポインタを該入力文字列Nの過去の位置を示すものとし、該最大一致長LMが該最大一致長LN以上である場合は、該置換ポインタをサンプル文字列M上の位置を示すものとし、該入力文字列Nの[i…i+L+1]の部分文字列を出現済みの部分文字列として動的辞書記憶手段に格納し、置換ポインタ列と該サンプル文字列を出力する置換ポインタ生成手段と、
を有する符号化手段と、
前記置換ポインタ生成手段から前記置換ポインタ列と前記サンプル文字列を取得し、置換ポインタがサンプル文字列M上の位置を示している場合には、該置換ポインタが参照するサンプル文字列M上の部分文字列を出力し、該置換ポインタが前記入力文字列Nの過去の位置を示す場合には、該置換ポインタが参照する既に復元済みの部分文字列を出力する置換ポインタ分析手段を有する復号手段と、を有する。
本発明は、入力文字列Nに対して、頻出パターン分析を適用することで、出現頻度の高い文字列を取得し、さらに、頻度の高い順にN段ある階層型メモリ構造により、参照速度が速くサイズが小さい上位のメモリ構造のサイズに合わせてサンプル文字列を分割してサンプル文字列辞書を生成することにより、出現頻度の低いパターンが含まれていないため、辞書のサイズを抑制することができる。さらに、j段の階層型メモリ構造において、N段に分割したサンプル文字列を用いて置き換えを行った場合の局所改善による圧縮文字列の復元速度を向上させることが可能となる。
置換方式による文字列の圧縮を説明するための図である。 本発明の一実施の形態における概要を示す図である。 本発明の一実施の形態における文字列圧縮装置の構成図である。 本発明の一実施の形態における文字列圧縮処理のフローチャートである。 本発明の一実施の形態におけるサンプル文字列生成処理のフローチャートである。 本発明の一実施の形態における頻出パターン分析処理のフローチャートである。 本発明の一実施の形態における頻出パターン記憶部の例である。 本発明の一実施の形態におけるソート後の頻出パターン記憶部の例である。 本発明の一実施の形態における置換ポインタ生成部の処理のフローチャートである。 本発明の一実施の形態における動的辞書記憶部の例である。 本発明の一実施の形態における置換ポインタ記憶部の例である。 本発明の一実施の形態における置換ポインタ分析部の処理のフローチャートである。 本発明の一実施の形態における階層型メモリ構造における辞書配置例である。
以下、図面と共に本発明の実施の形態を説明する。
最初に本発明の概要を説明する。
図2は、本発明の一実施の形態における概要を説明するための図である。
本発明では、サンプル文字列を用いた置換方式の圧縮の改善を目的としており、入力文字列Nの部分文字列の出現頻度に基づいて抽出された文字列(サンプル文字列)を格納した記憶部(サンプル文字列M記憶部)に格納されているサンプル文字列M(但し、M<<入力文字列Nとする)内の部分文字列と置換することにより、サンプル文字列Mは非常に小さい(全入力文字列Nの1%)という前提の下、参照局所性が改善される。なお、上記の1%は、実験により求められた数値である。図2において、サンプル文字列上にないパターンは従来技術による置換方式を適用するものとする。
図3は、本発明の一実施の形態における文字列圧縮装置の構成を示す。
同図に示す文字列圧縮装置は、符号化部100と復号部200を有する。
符号化部100は、頻出パターン分析部310、頻出パターン記憶部320、サンプル文字列生成部110、サンプル文字列取得部120、置換ポインタ生成部130、サンプル文字列探索部140、サンプル文字列M記憶部150、動的辞書探索・更新部160、動的辞書記憶部170、置換ポインタ記憶部180を有する。なお、サンプル文字列生成部110は、サンプル文字列を一時的に格納するためのメモリ(図示せず)を有する。
復号部200は、置換ポインタ分析部210、入力サンプル文字列記憶部220、出力文字列記憶部230を有する。
上記の構成における処理を以下に示す。
最初に、符号化部100の処理について説明する。
図4は、本発明の一実施の形態における文字列圧縮処理のフローチャートである。
ステップ100) 符号化部100は、入力から圧縮対象の入力文字列Nを受け取るまで待機する。
ステップ200) 頻出パターン分析部310において入力文字列Nの頻出パターンを分析し、サンプル文字列生成部110は、頻出パターンの出現頻度に基づいてサンプル文字列Mを生成する。
ステップ400) 置換ポインタ生成部130は、入力文字列Nを引数として置換ポインタを生成して置換ポインタ記憶部180に格納する。
上記のステップ200の処理について説明する。
図5は、本発明の一実施の形態におけるサンプル文字列生成処理のフローチャートである。
ステップ210) サンプル文字列生成部110は、入力引数から入力文字列Nを取得する。
ステップ220) 頻出パターン分析部310に対して、図6に示す処理を指示する。
ステップ230) サンプル文字列生成部110は、サンプル文字列取得部130を介して、頻度パターン記憶部320を参照し、頻出パターンを出現頻度順で降順に並び替え、再度頻出パターン記憶部320に格納する。なお、頻出パターン記憶部320の要素数をHとする。
ステップ240) 階層型メモリの段数をjとし、各メモリのサイズをMem0,Mem1,…,Memj-1とする。また、添え字の小さいものがより参照速度が速く容量が小さいメモリを表していると想定する。
ステップ250) 部分文字列のカウンタi=0,k=0とする。
ステップ260) サンプル文字列生成部110は、頻出パターン記憶部320の上位からk番目の頻出パターン(部分文字列)をMiの末尾に連結する。
ステップ270) kと頻出パターン記憶部320の要素数Hを比較し、k<Hであればステップ280に移行し、そうでない場合は、ステップ310に移行する。
ステップ280) サンプル文字列Mi<Memiであればステップ260に戻り、そうでない場合はステップ290に移行する。
ステップ290) iの値を1インクリメント(i=i+1)する。
ステップ300) iが段数jより小さい(i<j)であればステップ260に戻り、そうでなければステップ310に移行する。
ステップ310) 生成したメモリ上のMem0,Mem1,…,Memj-1のサンプル文字列をサンプル文字列M記憶部150に格納する。
次に、上記のステップ220の頻出パターン分析部310の処理を説明する。
図6は、本発明の一実施の形態における頻出パターン分析処理のフローチャートである。
ステップ221) サンプル文字列生成部110は、入力引数から入力文字列Nを受け取り、サンプル文字列取得部120を介して頻出パターン分析部310に出力する。
ステップ222) 頻出パターン分析部310は、頻出パターンの最大長をGとする。
ステップ223) 頻出パターン分析部310は、部分文字列のカウンタi=0、S=1とする。ここで、iは現在探索をしている開始位置を示し、Sはiから数えて合致している文字列の長さを示す。当該ステップでは、はじめの合致長iを1で初期化している。
ステップ224) 入力文字列Nの部分文字列[i…S]が、頻出パターン記憶部320に存在するかを調べ、存在する場合はステップ226に移行し、存在しない場合はステップ250に移行する。
ステップ225) 部分文字列[i…S]が入力文字列N中に何回出現しているかを調べて、当該部分文字列と回数を頻出パターン記憶部320に格納する。図7に頻出パターン記憶部320の例を示す。同図に示すように、頻出パターン記憶部320は、出現パターンの文字列とその出現回数を格納する。
ステップ226) カウントSを1インクリメントする(S = S +1)。
ステップ227) カウントSが頻出パターンの最大長Gより小さく(S <G)かつ、i+ Sが入力文字列数Nより小さい場合(i+ S <N)は、ステップ224に移行し、そうでなければステップ228に移行する。
ステップ228) 部分文字列のカウントiを1インクリメントし(i=i+1)、Sを1とする(S=1)。
ステップ229) iが入力文字数より小さければステップ224に移行し、そうでなければ処理を終了する。
サンプル文字列生成部110は、上記の図6に示す頻出パターン分析部310の処理が終了すると、図7に示すサンプル文字列取得部120を介して頻出パターン記憶部320の出現回数を、図8に示すように降順に並べ替える。このとき、出現頻度の高い順番にj段ある階層型メモリの各容量に合わせたj個のサンプル文字列M0〜Mj-1を作成して、サンプル文字列M記憶部150に追加格納する。サンプル文字列M記憶部150は、サンプル文字列M0〜Mj-1の添え字の小さいサンプル文字列Mxを、参照速度が速く容量が小さいメモリに配置することを前提として、出現頻度のより高い文字列で構成される。
次に、上記のステップ300の置換ポインタ生成部130の処理を説明する。
図9は、本発明の一実施の形態における置換ポインタ生成部の処理のフローチャートである。
ステップ301) 置換ポインタ生成部130は、入力引数から入力文字列Nを受け取る。
ステップ302) 入力文字列の位置カウントiを0とする。
ステップ303) サンプル文字列探索部140に対して、入力文字列Nの開始位置i番目から始まる部分文字列と、サンプル文字列M記憶部150のサンプル文字列M上の文字列との最大一致長LMと出現位置PMの計算を指示する。サンプル文字列探索部140は、入力文字列Nとサンプル文字列M記憶部150を参照して、サンプル文字列MのLMとその出現位置PMを計算し、置換ポインタ生成部130に返却する。
ステップ304) 置換ポインタ生成部130は、ステップ303と同様に、動的辞書探索・更新部160に対して、入力文字列Nの開始位置i番目から始まる部分文字列と入力文字列の[0…i−1]までに出現した部分文字列との最大一致長LNとその出現位置PNの計算を指示する。動的辞書探索・更新部160は、入力文字列Nの開始位置i番目から始まる部分文字列と入力文字列の[0…i−1]を比較して最大一致長LNを求め、さらに、最大一致した部分文字列に基づいて動的辞書記憶部170を参照して、出現位置PNを取得する。動的辞書記憶部170は、図10に示すように、出現文字列と出現位置を格納する辞書であり、出現位置は、例えば、入力文字列Nが「zxywe…」であった場合に、"zxy"の出現位置を"0"、"xyw"の出現位置を"1"、"ywe"の出現位置を"2"のように1文字ずつスライドさせて動的辞書記憶部170に登録する。
ステップ305) ステップ303で求められた最大一致長LMとステップ304で求められた最大一致長LNを比較し、LM<LNであればステップ306に移行し、LM≧LNであればステップ308に移行する。
ステップ306) 置換ポインタ生成部130は、LM<LNであるとき(過去の文字列N系列上に出現した場合)、置換ポインタフラグFを0に設定する。つまり、置換ポインタは入力文字列Nの過去の位置となる
ステップ307) 最大一致長LをLNとし、ポインタをP N とし、ステップ310に移行する。
ステップ308) 置換ポインタ生成部130は、LM≧LNであるとき(サンプル文字列M上に出現した場合)、置換ポインタフラグFに1に設定する。つまり、置換ポインタは、サンプリング文字列M上の位置となる。
ステップ309) 最大一致長LをLMとし、ポインタをサンプル文字列Mの出現位置PMとする。
ステップ310) 上記のステップ306、ステップ308の置換ポインタフラグFと置換ポインタ(L/P/文字列Nの(i+L+1)番目の文字)を置換ポインタ記憶部180に格納する。
置換ポインタ記憶部180の例を図11に示す。置換ポインタ記憶部180は、置換ポインタ種別フラグと置換ポインタを格納する。置換ポインタ種別フラグが"0"である場合は、置換ポインタは入力文字列Nの過去の位置を表し、"1"である場合は、置換ポインタはサンプル文字列M上の位置を表す。置換ポインタは、{先頭からの位置、長さ、置換文字列の終端文字}の組で構成される。図11の例において、置換ポインタ記憶部180の1番目のエントリの置換ポインタ種別フラグは、"1"であるので、置換ポインタがサンプル文字列M上の位置を示す。[サンプル文字列M:abcdefg…]、[入力文字列N:zxywefghic…abcdk…ef ghij…]であるとき、サンプル文字列Mの"abcd"と入力文字列Nの"abcd"の最大一致長Lは"4"であり、サンプル文字列の開始位置Pは0番目であり、L/P/入力文字列Nの(i+L+1)番目の文字が"k"であるので、置換ポインタは、「0,4,'k'」となる。
ステップ311) 入力文字列Nの[i…i+L+1]の部分文字列を動的辞書探索・更新部160を用いて出現済みの部分文字列として、動的辞書記憶部170に登録する。
ステップ312) iをi=i+L+1とする。
ステップ313) i<全入力文字列Nであればステップ303に移行し、そうでない場合は当該処理を終了する。
上記の処理の後、置換ポインタ生成部130は、置換ポインタ記憶部180から置換ポインタ列とサンプル文字列Mを復号部200の置換ポインタ分析部210に出力する。
以下、図4のステップ400の復号部200の置換ポインタ分析部210について説明する。
図12は、本発明の一実施の形態における置換ポインタ分析部の処理のフローチャートである。
ステップ401) 置換ポインタ分析部210は、入力引数から置換ポインタ列とポインタ文字列Mを符号化部100から受け取る。
ステップ402) 置換ポインタ分析部210は、受け取ったサンプル文字列Mを入力サンプル文字列記憶部220に格納する。
ステップ403) 置換ポインタ総数をZに設定する。
ステップ404) 置換ポインタのカウンタiを0とする。
ステップ405) ステップ401で取得した置換ポインタ列からi番目の置換ポインタに含まれる置換ポインタフラグFを取得する。
ステップ406) 置換ポインタフラグFが1であるかを判定し、1であればステップ408に移行し、そうでなければステップ407に移行する。
ステップ407) 置換ポインタFが参照する既に復元済みの部分文字列を出力文字列記憶部230に出力し、ステップ409に移行する。
ステップ408) iを1インクリメントする。
ステップ409) i<Zであれば、ステップ405に移行し、そうでなければ、当該処理を終了する。
図13は、本発明の一実施の形態における階層型メモリ構造における辞書配置例を示す。同図では階層j=3(j=0,1,2)の場合を示している。階層j[2]の主記憶装置には、出現頻度で並び替えて連結して作成した辞書を搭載しておくことで、CPU装置が、その周辺の辞書領域を参照速度の早いキャッシュ装置(階層j[0])に読み込む確率が高くなり、結果的に辞書の参照速度が向上する。
なお、上記の図3に示す文字列圧縮装置の構成要素の動作をプログラムとして構築し、文字列圧縮装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 符号化部
110 サンプル文字列生成部
120 サンプル文字列取得部
130 置換ポインタ生成部
140 サンプル文字列探索部
150 サンプル文字列M記憶部
160 動的辞書探索・更新部
170 動的辞書記憶部
180 置換ポインタ記憶部
200 復号部
210 置換ポインタ分析部
220 入力サンプル文字列記憶部
230 出力文字列記憶部
310 頻出パターン分析部
320 頻出パターン記憶部

Claims (4)

  1. 置換方式による文字列圧縮及び復元システムであって、
    入力文字列Nから部分文字列を抽出し、該入力文字列Nにおける該部分文字列の出現回数をカウントし、該部分文字列と出現回数を頻出パターン記憶手段に格納する頻出パターン分析手段と、
    前記頻出パターン記憶手段に格納されている前記部分文字列の出現回数について降順に並べ替え、該頻出パターン記憶手段に格納し、該頻出パターン記憶手段の上位N件を、サンプル文字列としてサンプル文字列記憶手段に格納するサンプル文字列生成手段と、
    前記入力文字列Nの開始位置iから始まる部分文字列と、前記サンプル文字列記憶手段から読み出した前記サンプル文字列Mの最大一致長LMと該部分文字列の出現位置PMを求め、前記入力文字列Nの開始位置i番目から始まる部分文字列と、該入力文字列Nの0番目からi−1番目までに出現した部分文字列との最大一致長LNと、該出現した部分文字列の出現位置P N を求め、該最大一致長LNが該最大一致長LMより大きい場合は、置換ポインタを該入力文字列Nの過去の位置を示すものとし、該最大一致長LMが該最大一致長LN以上である場合は、該置換ポインタをサンプル文字列M上の位置を示すものとし、該入力文字列Nの[i…i+L+1]の部分文字列を出現済みの部分文字列として動的辞書記憶手段に格納し、置換ポインタ列と該サンプル文字列を出力する置換ポインタ生成手段と、
    を有する符号化手段と、
    前記置換ポインタ生成手段から前記置換ポインタ列と前記サンプル文字列を取得し、置換ポインタがサンプル文字列M上の位置を示している場合には、該置換ポインタが参照するサンプル文字列M上の部分文字列を出力し、該置換ポインタが前記入力文字列Nの過去の位置を示す場合には、該置換ポインタが参照する既に復元済みの部分文字列を出力する置換ポインタ分析手段を有する復号手段と、
    を有することを特徴とするサンプル文字列(辞書)を用いた二段階置き換えによる圧縮及び復元システム。
  2. 前記サンプル文字列記憶手段は、前記入力文字列Nに対して1%以下程度の領域とする
    請求項1記載のサンプル文字列(辞書)を用いた二段階置き換えによる圧縮及び復元システム。
  3. 置換方式による文字列圧縮及び復元方法であって、
    頻出パターン分析手段と、頻出パターン記憶手段と、サンプル文字列生成手段と、サンプル文字列記憶手段と、動的辞書記憶手段と、置換ポインタ生成手段とを有する符号化手段、及び、置換ポインタ分析手段を有する復号手段とを有する装置において、
    前記符号化手段の前記頻出パターン分析手段が、入力文字列Nから部分文字列を抽出し、該入力文字列Nにおける該部分文字列の出現回数をカウントし、該部分文字列と該出現回数を前記頻出パターン記憶手段に格納する頻出パターン分析ステップと、
    前記符号化手段の前記サンプル文字列生成手段が、前記頻出パターン記憶手段に格納されている前記部分文字列の出現回数を降順に並べ替え、該頻出パターン記憶手段に格納し、該頻出パターン記憶手段の上位N件を、サンプル文字列としてサンプル文字列記憶手段に格納するサンプル文字列生成ステップと、
    前記符号化手段の前記置換ポインタ生成手段が、前記入力文字列Nの開始位置iから始まる部分文字列と、前記サンプル文字列記憶手段から読み出した前記サンプル文字列Mの最大一致長LMと該部分文字列の出現位置PMを求め、前記入力文字列Nの開始位置i番目から始まる部分文字列と、該入力文字列Nの0番目からi−1番目までに出現した部分文字列との最大一致長LNと、該出現した部分文字列の出現位置P N を求め、該最大一致長LNが該最大一致長LMより大きい場合は、置換ポインタを該入力文字列Nの過去の位置を示すものとし、該最大一致長LMが該最大一致長LN以上である場合は該置換ポインタをサンプル文字列M上の位置を示すものとし、該入力文字列Nの[i…i+L+1]の部分文字列を出現済みの部分文字列として動的辞書記憶手段に格納し、置換ポインタ列と該サンプル文字列を出力する置換ポインタ生成ステップと、
    前記復号手段の前記置換ポインタ分析手段が、前記符号化手段より前記置換ポインタ列と前記サンプル文字列を取得し、置換ポインタがサンプル文字列M上の位置を示している場合には、該置換ポインタが参照するサンプル文字列M上の部分文字列を出力し、該置換ポインタが前記入力文字列Nの過去の位置を示す場合には、該置換ポインタが参照する既に復元済みの部分文字列を出力する置換ポインタ分析ステップと、
    を行うことを特徴とするサンプル文字列(辞書)を用いた二段階置き換えによる圧縮及び復元方法。
  4. 前記サンプル文字列記憶手段を、前記入力文字列Nに対して1%以下程度の領域とする
    請求項3記載のサンプル文字列(辞書)を用いた二段階置き換えによる圧縮及び復元方法。
JP2013080293A 2013-04-08 2013-04-08 文字列圧縮及び復元システム並びに方法 Expired - Fee Related JP5808361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013080293A JP5808361B2 (ja) 2013-04-08 2013-04-08 文字列圧縮及び復元システム並びに方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013080293A JP5808361B2 (ja) 2013-04-08 2013-04-08 文字列圧縮及び復元システム並びに方法

Publications (2)

Publication Number Publication Date
JP2014204358A JP2014204358A (ja) 2014-10-27
JP5808361B2 true JP5808361B2 (ja) 2015-11-10

Family

ID=52354419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013080293A Expired - Fee Related JP5808361B2 (ja) 2013-04-08 2013-04-08 文字列圧縮及び復元システム並びに方法

Country Status (1)

Country Link
JP (1) JP5808361B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2954749B2 (ja) * 1991-07-19 1999-09-27 富士通株式会社 データ圧縮方式
JP3241788B2 (ja) * 1992-02-28 2001-12-25 富士通株式会社 データ圧縮方式
JP3231105B2 (ja) * 1992-11-30 2001-11-19 富士通株式会社 データ符号化方式及びデータ復元方式
JPH06202844A (ja) * 1993-01-05 1994-07-22 Fujitsu Ltd データ圧縮復元処理装置
JP3277792B2 (ja) * 1996-01-31 2002-04-22 株式会社日立製作所 データ圧縮方法および装置
JP3695045B2 (ja) * 1996-10-01 2005-09-14 ソニー株式会社 符号化装置
JP2000269822A (ja) * 1999-03-12 2000-09-29 Fujitsu Ltd データ圧縮装置、及びデータ復元装置
JP4479530B2 (ja) * 2004-12-28 2010-06-09 カシオ電子工業株式会社 データ圧縮装置、及びデータ復元装置

Also Published As

Publication number Publication date
JP2014204358A (ja) 2014-10-27

Similar Documents

Publication Publication Date Title
US20160112062A1 (en) Parallel dictionary-based compression encoder
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
US8692696B2 (en) Generating a code alphabet of symbols to generate codewords for words used with a program
KR20130062889A (ko) 데이터 압축 방법 및 시스템
CN103326732A (zh) 压缩数据的方法、解压数据的方法、编码器和解码器
TW201706998A (zh) 直接對lz77引擎輸出之標記進行霍夫曼編碼程序之硬體資料壓縮器
US11551785B2 (en) Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium
JP4077409B2 (ja) 高速最長一致探索方法及び装置
US9397696B2 (en) Compression method, compression device, and computer-readable recording medium
TW201707387A (zh) 基於節點字串匹配機率對散列鏈進行分類之硬體資料壓縮器
Kumar et al. Bitstream compression for high speed embedded systems using separated split look up tables (LUTs)
TW201640386A (zh) 具有基於不同散列尺寸建構之多個字串匹配搜尋散列表之硬體資料壓縮器
TW201643757A (zh) 在輸入區塊掃描時維持分類符號列之硬體資料壓縮器
JP5808359B2 (ja) 文字列圧縮及び復元システム並びに方法
JP5808361B2 (ja) 文字列圧縮及び復元システム並びに方法
JP5808360B2 (ja) 文字列圧縮及び復元システム並びに方法
Chakraborty et al. A Dictionary based Efficient Text Compression Technique using Replacement Strategy
Bharathi et al. A plain-text incremental compression (pic) technique with fast lookup ability
Rahman et al. Text compression based on an alternative approach of run-length coding using Burrows-Wheeler transform and arithmetic coding
Külekci Compressed context modeling for text compression
Sharma et al. Design and Data Compression Techniques to Reduced Time in Data Warehouse with Tested Algorithms
Jrai Efficiency lossless data techniques for Arabic text compression
JP6555259B2 (ja) 情報処理装置、データ格納方法、及び、プログラム
CN115033381A (zh) 压缩文件的处理方法、装置、计算机设备及存储介质
US9405508B2 (en) Sorting with key modification

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150817

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150908

R150 Certificate of patent or registration of utility model

Ref document number: 5808361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees