JP2022094108A

JP2022094108A - 圧縮装置および制御方法

Info

Publication number: JP2022094108A
Application number: JP2020206930A
Authority: JP
Inventors: 洋平深澤; Yohei Fukazawa; 恒平及川; Kohei Oikawa; 翔小玉; Sho Kodama; 圭里中西; Keiri Nakanishi; 貴三浦; Takashi Miura; 大亮八島; Daisuke Yashima; 正人住吉; Masato Sumiyoshi; 哲也王; Zheye Wang
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-24
Also published as: US11868615B2; US20220187994A1

Abstract

【課題】辞書内のデータの検索精度を向上できる圧縮装置を実現する。【解決手段】実施形態によれば、圧縮装置は、第１記憶部、第２記憶部、計算部、および比較部を具備する。第１記憶部は複数のハッシュ値にそれぞれ関連付けられた複数のアドレスを記憶する。第２記憶部は前記複数のアドレスでそれぞれ特定される複数の記憶領域であって、複数のデータをそれぞれ記憶する複数の記憶領域を含む。計算部は第１データの少なくとも一部に基づいて、前記第１データに対して用いるべき第１ハッシュ関数を決定し、前記第１ハッシュ関数と、前記第１データに含まれる第２データの少なくとも一部とを用いて、第１ハッシュ値を計算する。比較部は前記第１記憶部に記憶された、前記第１ハッシュ値に関連付けられた第１アドレスを用いて、前記第２記憶部内の前記第１アドレスで特定される記憶領域から第３データを取得し、前記第２データと前記第３データとを比較する。【選択図】図１２

Description

本発明の実施形態は、圧縮装置および制御方法に関する。

ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）のようなストレージに対して、大量の文書データをそのまま格納することは、ストレージの容量を圧迫する。これは、例えばデータセンターにおいて、データを格納するためのコストを増大させる。

一般に、データを可逆圧縮して、可逆圧縮したデータをストレージに格納する方法で、ストレージに格納されるデータ量が削減される。データを可逆圧縮する方法の１つに、辞書式符号化とエントロピー符号化を組み合わせた方法がある。代表的なｇｚｉｐの辞書式符号化では、過去に入力されたデータ（例えば文字列）を保持する辞書バッファを利用する。ｇｚｉｐの辞書式符号化では、辞書バッファを検索して圧縮対象のデータと少なくとも一部が一致する過去のデータを取得し、辞書バッファのアドレスと一致長とを得る。辞書バッファのアドレスは、辞書バッファにおいて、取得した過去のデータが記憶されているアドレスである。一致長は、取得した過去のデータと圧縮対象のデータとで一致した部分の長さである。圧縮対象のデータをアドレスと一致長とに変換することにより、データを圧縮できる。

米国特許第５４０６２７８号明細書

辞書バッファを検索して圧縮対象のデータと少なくとも一部が一致する過去のデータを取得する方法には、ハッシュ関数が利用されることがある。ハッシュ関数を用いる際に起きるハッシュの衝突は、辞書バッファからデータを検索する精度を低下させる可能性がある。

本発明が解決しようとする課題は、辞書内のデータの検索精度を向上できる圧縮装置および制御方法を提供することにある。

実施形態によれば、圧縮装置は、第１記憶部、第２記憶部、計算部、および比較部を具備する。第１記憶部は、複数のハッシュ値にそれぞれ関連付けられた複数のアドレスを記憶する。第２記憶部は、前記複数のアドレスでそれぞれ特定される複数の記憶領域であって、複数のデータをそれぞれ記憶する複数の記憶領域を含む。計算部は、第１データの少なくとも一部に基づいて、前記第１データに対して用いるべき第１ハッシュ関数を決定し、前記第１ハッシュ関数と、前記第１データに含まれる第２データの少なくとも一部とを用いて、第１ハッシュ値を計算する。比較部は、前記第１記憶部に記憶された、前記第１ハッシュ値に関連付けられた第１アドレスを用いて、前記第２記憶部内の前記第１アドレスで特定される記憶領域から第３データを取得し、前記第２データと前記第３データとを比較する。

第１実施形態に係る圧縮装置を含むメモリシステムの一構成例を示すブロック図。第１実施形態の圧縮装置の一構成例を示すブロック図。比較例に係る圧縮装置に設けられる検索部の一構成例を示すブロック図。ハッシュテーブルおよび辞書バッファを用いて入力データを登録する例を示す図。図４のハッシュテーブルを用いて、新たな入力データを辞書バッファ内のデータと比較する例を示す図。図４のハッシュテーブルおよび辞書バッファを用いて、新たな入力データを辞書バッファに登録する例を示す図。ハッシュテーブルおよび辞書バッファを用いて入力データを登録する別の例を示す図。ハッシュの衝突により、図７の入力データの記憶位置を示す辞書アドレスが、ハッシュテーブルから追い出される例を示す図。図８のハッシュの衝突により、辞書バッファ内のデータ検索の精度が低下する例を示す図。ハッシュの衝突を発生させるハッシュ関数の例を示す図。第１実施形態の圧縮装置において用いられる、ハッシュの衝突が発生する確率を低下させるハッシュ関数の例を示す図。第１実施形態の圧縮装置に設けられる検索部の一構成例を示すブロック図。図１２の検索部に設けられるデータ判断部およびハッシュ計算部の動作例を示す図。第１実施形態の圧縮装置において実行される検索処理の手順の例を示すフローチャート。第１実施形態の圧縮装置において実行されるハッシュ関数情報生成処理の手順の例を示すフローチャート。第２実施形態に係る圧縮装置に設けられる検索部の一構成例を示すブロック図。図１６の検索部に設けられるデータ判断部およびハッシュ計算部の動作例を示す図。第２実施形態の圧縮装置において実行されるハッシュ関数情報生成処理の手順の例を示すフローチャート。第３実施形態に係る圧縮装置に設けられる検索部の一構成例を示すブロック図。第３実施形態の圧縮装置において生成されるデータ変換表の一構成例を示す図。図１９の検索部に設けられるデータ変換部によるデータ変換によって、特定のビットを用いないハッシュ関数が決定される例を示す図。第３実施形態の圧縮装置において実行される検索処理の手順の例を示すフローチャート。

以下、実施の形態について図面を参照して説明する。

（第１実施形態）
図１は、第１実施形態に係るメモリシステム３を含む情報処理システム１の構成例を示す。情報処理システム１は、ホストデバイス２（以下、ホスト２と称する）と、メモリシステム３とを含む。

メモリシステム３は、ＮＡＮＤ型フラッシュメモリ５のような不揮発性メモリにデータを書き込み、不揮発性メモリからデータを読み出すように構成された半導体ストレージデバイスである。メモリシステム３は、例えばＮＡＮＤ型フラッシュメモリ５を備えるソリッドステートドライブ（ＳＳＤ）として実現される。以下では、メモリシステム３がＳＳＤとして実現される場合について例示するが、メモリシステム３はハードディスクドライブ（ＨＤＤ）として実現されてもよい。

ホスト２は、大量且つ多様なデータをメモリシステム３に保存するストレージサーバであってもよいし、パーソナルコンピュータであってもよい。

メモリシステム３は、ホスト２のストレージとして使用され得る。メモリシステム３はホスト２に内蔵されてもよいし、ホスト２にケーブルまたはネットワークを介して接続されてもよい。

ホスト２とメモリシステム３とを接続するためのインタフェースは、ＳＣＳＩ、ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ（ＳＡＳ）、ＡＴＡ（ＡＴＡｔｔａｃｈｍｅｎｔ）、ＳｅｒｉａｌＡＴＡ（ＳＡＴＡ）、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）、Ｆｉｂｒｅｃｈａｎｎｅｌ、ＮＶＭＥｘｐｒｅｓｓ（ＮＶＭｅ）（登録商標）等に準拠する。

メモリシステム３は、コントローラ４およびＮＡＮＤ型フラッシュメモリ５を備える。コントローラ４は、Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ（ＳｏＣ）のような回路によって実現され得る。

コントローラ４は、揮発性メモリであるランダムアクセスメモリ（ＲＡＭ）、例えばダイナミックランダムアクセスメモリ（ＤＲＡＭ）６を備えていてもよい。あるいは、スタティックランダムアクセスメモリ（ＳＲＡＭ）のようなＲＡＭがコントローラ４に内蔵されていてもよい。なお、ＤＲＡＭ６が、コントローラ４に内蔵されていてもよい。

ＤＲＡＭ６等のＲＡＭには、例えばＮＡＮＤ型フラッシュメモリ５からロードされるファームウェア（ＦＷ）の格納領域が設けられる。

ＮＡＮＤ型フラッシュメモリ５は複数のブロックを含む。各ブロックは複数のページを含む。１つのブロックは最小の消去単位として機能する。ブロックは、「消去ブロック」、または「物理ブロック」と称されることもある。各ページは、同一ワード線に接続された複数のメモリセルを含む。１つのページは、データ書き込み動作およびデータ読み出し動作の単位である。なお、ワード線をデータ書き込み動作およびデータ読み出し動作の単位としてもよい。

各ブロックに対して許容できるプログラム／イレーズサイクル数には上限（最大Ｐ／Ｅサイクル数）がある。あるブロックの１回のＰ／Ｅサイクルは、このブロック内のすべてのメモリセルを消去状態にするための消去動作と、このブロックのページそれぞれにデータを書き込む書き込み動作とを含む。

コントローラ４は、ホストインタフェース（ホストＩ／Ｆ）１１、ＣＰＵ１２、ＮＡＮＤインタフェース（ＮＡＮＤＩ／Ｆ）１３、ＤＲＡＭインタフェース（ＤＲＡＭＩ／Ｆ）１４、および圧縮装置１５を含んでもよい。これらホストＩ／Ｆ１１、ＣＰＵ１２、ＮＡＮＤＩ／Ｆ１３、ＤＲＡＭＩ／Ｆ１４、および圧縮装置１５は、バス１０を介して相互接続され得る。

コントローラ４は、ＴｏｇｇｌｅＤＤＲ、ＯｐｅｎＮＡＮＤＦｌａｓｈＩｎｔｅｒｆａｃｅ（ＯＮＦＩ）等のインタフェース規格に対応するＮＡＮＤＩ／Ｆ１３を介して、ＮＡＮＤ型フラッシュメモリ５に電気的に接続されている。ＮＡＮＤＩ／Ｆ１３は、ＮＡＮＤ型フラッシュメモリ５を制御するように構成されたＮＡＮＤ制御回路として機能する。

コントローラ４は、ＮＡＮＤ型フラッシュメモリ５を制御するように構成されたメモリコントローラとして機能する。

コントローラ４は、ＮＡＮＤ型フラッシュメモリ５のデータ管理およびブロック管理を実行するように構成されたフラッシュトランスレーション層（ＦＴＬ）として機能してもよい。このＦＴＬによって実行されるデータ管理には、（１）論理アドレスそれぞれとＮＡＮＤ型フラッシュメモリ５の物理アドレスそれぞれとの間の対応関係を示すマッピング情報の管理、（２）ページ単位のリード／ライト動作とブロック単位の消去（イレーズ）動作とを隠蔽するための処理、等が含まれる。論理アドレスは、メモリシステム３をアドレス指定するためにホスト２によって使用されるアドレスである。

論理アドレスそれぞれと物理アドレスそれぞれとの間のマッピングの管理は、論理物理アドレス変換テーブルを用いて実行される。コントローラ４は、論理物理アドレス変換テーブルを使用して、論理アドレスそれぞれと物理アドレスそれぞれとの間のマッピングを特定の管理サイズ単位で管理する。ある論理アドレスに対応する物理アドレスは、この論理アドレスのデータが書き込まれたＮＡＮＤ型フラッシュメモリ５内の物理記憶位置を示す。論理物理アドレス変換テーブルは、メモリシステム３の電源オン時にＮＡＮＤ型フラッシュメモリ５からＤＲＡＭ６にロードされてもよい。

１つのページへのデータ書き込みは、１回のＰ／Ｅサイクル当たり１回のみ可能である。このため、コントローラ４は、ある論理アドレスに対応する更新データを、この論理アドレスに対応する以前のデータが格納されている物理記憶位置ではなく、別の物理記憶位置に書き込む。そして、コントローラ４は、この論理アドレスをこの別の物理記憶位置に関連付けるように論理物理アドレス変換テーブルを更新することにより、以前のデータを無効化する。

ブロック管理には、不良ブロックの管理、ウェアレベリング、ガベージコレクション、等が含まれる。

ホストＩ／Ｆ１１は、メモリシステム３と、メモリシステム３の外部装置であるホスト２との通信を行うハードウェアインタフェースである。ホストＩ／Ｆ１１は、ホスト２から様々なコマンド、例えば、Ｉ／Ｏコマンド、各種制御コマンドを受信する回路として機能する。Ｉ／Ｏコマンドには、ライトコマンド、リードコマンド、が含まれ得る。制御コマンドには、アンマップコマンド（トリムコマンド）、フォーマットコマンドが含まれ得る。ホストＩ／Ｆ１１は、コマンドに応じた応答やデータをホスト２に送信する回路としても機能する。

ＤＲＡＭＩ／Ｆ１４は、ＤＲＡＭ６のアクセスを制御するように構成されたＤＲＡＭ制御回路として機能する。ＤＲＡＭ６の記憶領域は、ＦＷを格納するための領域や、リード／ライトバッファ等として利用されるバッファ領域に割り当てられる。

ＣＰＵ１２は、ホストＩ／Ｆ１１、ＮＡＮＤＩ／Ｆ１３、およびＤＲＡＭＩ／Ｆ１４を制御するように構成されたプロセッサである。ＣＰＵ１２は、ＤＲＡＭ６にロードされたＦＷを実行することによって様々な処理を行う。つまり、ＦＷはＣＰＵ１２の動作を制御するための制御プログラムである。ＣＰＵ１２は、前述のＦＴＬの処理に加え、ホスト２からの様々なコマンドを処理するためのコマンド処理等を実行することができる。なお、ＦＴＬ処理およびコマンド処理の一部または全部は、コントローラ４内の専用ハードウェアによって実行されてもよい。

圧縮装置１５は、ＮＡＮＤ型フラッシュメモリ５に書き込むべきデータを符号化することにより、そのデータを圧縮する。圧縮装置１５は、例えばホスト２からライトコマンドを受け付けたことに応じて受信した平文のデータを、符号化する。圧縮装置１５は、データを圧縮するために、例えば、辞書式符号化とエントロピー符号化とを組み合わせた方法を実現するための構成を有する。

図２は圧縮装置１５の一構成例を示す。圧縮装置１５は、例えば、検索部１５１、エントロピー符号化部１５２、およびパック処理部１５３を備える。

検索部１５１は入力データに対する辞書式符号化を行う。入力データは、圧縮対象のデータである。辞書式符号化では、過去に入力されたデータを記憶するバッファ（以下、辞書バッファと称する）が利用される。辞書式符号化では、辞書バッファを検索して入力データと少なくとも一部が一致する過去のデータを取得し、辞書バッファのアドレスとデータの一致長との組を得る。辞書バッファのアドレスは、辞書バッファにおいて、取得した過去のデータが記憶されているアドレスである。データの一致長は、取得した過去のデータと入力データとで一致した部分の長さである。検索部１５１は、入力データを、辞書バッファのアドレスとデータの一致長との組に変換することで、入力データを圧縮できる。

検索部１５１は、入力データと少なくとも一部が一致する過去のデータが辞書バッファにある場合、辞書バッファのアドレスとデータの一致長との組を、エントロピー符号化部１５２に出力する。検索部１５１は、入力データと少なくとも一部が一致する過去のデータが辞書バッファにない場合、入力データをエントロピー符号化部１５２に出力する。

エントロピー符号化部１５２は、検索部１５１から出力された辞書バッファのアドレスとデータの一致長との組に対して、エントロピー符号化を行う。また、エントロピー符号化部１５２は、検索部１５１から出力された入力データに対して、エントロピー符号化を行う。エントロピー符号化は、静的エントロピー符号化であってもよいし、動的（適応型）エントロピー符号化であってもよい。

静的エントロピー符号化では、符号化すべき全てのシンボルを入力して蓄積（バッファリング）し、シンボル毎の出現頻度を示す頻度テーブルを取得する。そして、出現頻度が高いシンボルほど、短い符号長の符号が割り当てられるように、符号化テーブルを生成する。この符号化テーブルを用いて、蓄積したシンボルを符号語に変換することにより、高効率の符号化を実現できる。

適応型エントロピー符号化では、符号化すべきシンボルを入力しながら頻度テーブルと符号化テーブルとを動的に更新する。適応型エントロピー符号化では、静的エントロピー符号化よりもレイテンシが短くなる。

エントロピー符号化部１５２は、エントロピー符号化により得られたデータ（以下、符号化データと称する）をパック処理部１５３に出力する。

パック処理部１５３は、エントロピー符号化部１５２から出力された１つ以上の符号化データをまとめて、特定のデータサイズ毎の圧縮データ（圧縮ストリーム）として出力し得る。

検索部１５１、エントロピー符号化部１５２、およびパック処理部１５３の一部または全ては、回路のようなハードウェアとして実現されてもよいし、少なくとも１つのプロセッサによって実行されるプログラム（すなわちソフトウェア）として実現されてもよい。

なお、コントローラ４は、伸張装置１６を備えていてもよい。伸張装置１６は、ＮＡＮＤ型フラッシュメモリ５から読み出された圧縮データを復号することにより、その圧縮データを伸張する。例えば、コントローラ４がホスト２からリードコマンドを受け付けたことに応じて、伸張装置１６は、ＮＡＮＤ型フラッシュメモリ５から読み出された圧縮データを、復号する。ＣＰＵ１２は、ホスト２からのリードコマンドに対する応答として、復号されたデータをホスト２へ送信する。伸張装置１６は、圧縮装置１５による圧縮のための構成に準じて、圧縮データを伸張（すなわち逆変換）するための構成を備える。

コントローラ４は、さらに、ＥＣＣエンコーダとＥＣＣデコーダを備えてもよい。この場合、ＥＣＣエンコーダが、パック処理部１５３から出力される圧縮データに対して誤り訂正用のパリティ（ＥＣＣパリティ）を生成し、生成したＥＣＣパリティと圧縮データとを有する符号語を生成する。そして、ＣＰＵ１２が、符号語をＮＡＮＤＩ／Ｆ１３経由でＮＡＮＤ型フラッシュメモリ５へ書き込むように構成される。また、この場合、コントローラ４が例えばホスト２から発行されるリードコマンドに基づいてＮＡＮＤ型フラッシュメモリ５からデータを読み出す際に、ＣＰＵ１２がＮＡＮＤＩ／Ｆ１３経由でＮＡＮＤ型フラッシュメモリ５から符号語を読み出し、ＥＣＣデコーダが当該読み出された符号語に対して、エラー検出処理、エラー訂正処理を実行し、圧縮データを生成する。そして、伸張装置１６が、生成された圧縮データを伸張するように構成される。すなわち、コントローラ４は、パック処理部１５３から出力される圧縮データに基づくデータをＮＡＮＤ型フラッシュメモリ５に書き込み、ＮＡＮＤ型フラッシュメモリ５から読み出したデータに基づいて圧縮データを生成し、生成された圧縮データを伸張するように構成されてもよい。

ここで、検索部１５１が辞書バッファを検索して、入力データと少なくとも一部が一致する過去のデータを取得する方法について、具体的に説明する。以下では、説明を分かりやすくするために、入力データが文字列である場合を主に例示する。文字列である入力データを、入力文字列とも称する。なお、入力データは、文字列に限定されない種々のデータであり得る。

辞書バッファを検索して入力文字列と少なくとも一部が一致する過去の文字列を取得する方法として最も単純な方法は、全探索である。全探索では、入力文字列を、辞書バッファに記憶されている全ての文字列それぞれと比較して、最も長く一致する文字列を辞書バッファから取得する。

しかし、全探索では、入力文字列を、辞書バッファに記憶されている全ての文字列それぞれと比較するので、比較のための演算コストが大きい。そのため、辞書バッファを検索して入力文字列と少なくとも一部が一致する過去の文字列を取得する方法として、全探索は、演算コストを度外視して探索精度を高めるような場合を除いて、一般的には採用されない。

辞書バッファを検索して入力文字列と少なくとも一部が一致する過去の文字列を取得する別の方法として、ハッシュによる検索がある。ハッシュによる検索では、ハッシュ関数が利用される。ハッシュ関数は、ある値を別の値に変換する関数である。辞書式符号化で用いられるハッシュ関数は、例えば、Ｎ文字（Ｎバイト）の文字列をＭバイトの値に変換する関数である。つまり、変換後のＭバイトの値は、Ｎ文字の文字列のハッシュ値である。なお、ＭはＮよりも小さい。したがって、ハッシュ関数を用いた変換により、２^Ｎ種類ある文字列が、より少ない２^Ｍ種類の値に変換される。そのため、ハッシュ関数を用いた変換では、２つの異なる文字列が同一のハッシュ値に変換されることがある。２つの異なる文字列が同一のハッシュ値に変換されることは、ハッシュの衝突と称される。

比較例に係る圧縮装置を用いて、ハッシュの衝突について説明する。

図３は、比較例に係る圧縮装置に設けられる検索部の一構成例を示す。比較例に係る圧縮装置の検索部１５１Ａは、ハッシュによる検索を実現する構成の一例である。検索部１５１Ａは、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、および一致比較器２４を備える。検索部１５１Ａに対する入力データは、例えば、辞書バッファ２１、ハッシュ計算部２２、および一致比較器２４に入力される。

辞書バッファ２１は複数の記憶領域を含む。複数の記憶領域の各々は、過去の入力データ（例えば文字列）を記憶する。複数の記憶領域の各々に記憶されているデータを、辞書データとも称する。複数の記憶領域は、複数のアドレスでそれぞれ特定される。つまり、複数のアドレスの各々は、辞書バッファ２１内の記憶位置を示す。なお、複数のアドレスの各々を、辞書アドレスとも称する。

ハッシュ計算部２２はハッシュ関数を用いて、現在の入力データの少なくとも一部のハッシュ値を計算する。ハッシュ計算部２２は、ハッシュ値の計算に、予め定められた１つのハッシュ関数を用いる。ハッシュ計算部２２は、計算したハッシュ値をハッシュテーブル２３に出力する。なお、以下では、入力データの少なくとも一部のハッシュ値を、単に、入力データのハッシュ値と称することがある。

ハッシュテーブル２３は、複数のハッシュ値にそれぞれ関連付けられた複数のデータを記憶し得る。より具体的には、ハッシュテーブル２３は複数の記憶領域を備える。複数のハッシュ値の各々は、ハッシュテーブル２３において、複数の記憶領域のいずれか１つを特定するアドレスとして機能する。あるハッシュ値を用いて特定した記憶領域は、そのハッシュ値に関連付けられたデータを記憶し得る。ハッシュ値に関連付けられたデータは、例えば、過去の入力データが記憶されている辞書バッファ２１内の記憶領域を示すアドレス（すなわち辞書アドレス）である。

ハッシュテーブル２３は、ハッシュ計算部２２によって出力された現在の入力データのハッシュ値をアドレスとして、ハッシュテーブル２３内の複数の記憶領域の１つを特定する。

特定した記憶領域に辞書アドレスが記憶されている場合、ハッシュテーブル２３は、その辞書アドレスを辞書バッファ２１に出力する。ハッシュテーブル２３が辞書バッファ２１に対して出力する辞書アドレスを、辞書リードアドレスとも称する。

辞書バッファ２１は、ハッシュテーブル２３によって出力された辞書リードアドレスを用いて、辞書バッファ２１内の複数の記憶領域の１つを特定する。そして、辞書バッファ２１は、特定した記憶領域に記憶されている辞書データを一致比較器２４に出力する。辞書データは、ハッシュテーブル２３に記憶された、入力データのハッシュ値に関連付けられた辞書リードアドレスを用いて、辞書バッファ２１内の辞書リードアドレスで特定される記憶領域から取得されたデータである。

一致比較器２４は、入力データと、辞書バッファ２１によって出力された辞書データとを取得する。そして、一致比較器２４は入力データと辞書データとを比較して、検索結果（比較結果）をエントロピー符号化部１５２に出力する。検索結果は、辞書データが取得された辞書アドレスと、一致長との組を含む。一致長は、入力データと辞書データの先頭から連続して一致した部分の長さを示す。なお、一致比較器２４は、入力データと辞書データとで一致する部分がない場合、入力データをそのままエントロピー符号化部１５２に出力する。

また、辞書バッファ２１によって辞書データが出力されない場合（例えば、入力データのハッシュ値に関連付けられた辞書アドレスがハッシュテーブル２３に記憶されていない場合）、一致比較器２４は入力データをそのまま検索結果として出力する。

一致比較器２４によって検索結果が出力された後、辞書バッファ２１は、検索部１５１Ａに対する現在の入力データを、辞書バッファ２１内の複数の記憶領域の１つに記憶する。そして、辞書バッファ２１は、入力データが記憶された記憶領域を特定する辞書アドレスを、ハッシュテーブル２３に出力する。辞書バッファ２１がハッシュテーブル２３に対して出力する辞書アドレスを、辞書ライトアドレスとも称する。

ハッシュテーブル２３は、入力データのハッシュ値を用いて特定した記憶領域に、辞書バッファ２１によって出力された辞書ライトアドレスを記憶する。入力データのハッシュ値を用いて特定した記憶領域に辞書ライトアドレスを記憶することにより、ハッシュテーブル２３では、入力データのハッシュ値に、その入力データが記憶されている辞書アドレスが関連付けられる。

ここで、検索部１５１Ａ内の各部の動作によって、ハッシュによる検索を説明する。ハッシュによる検索は、例えば、（１）辞書への文字列の登録、（２）辞書データの取得、および（３）文字列の一致評価の３つのステージで構成される。各ステージにおける検索部１５１Ａの動作は以下の通りである。

（１）辞書への文字列の登録
辞書バッファ２１は入力文字列を記憶する。ハッシュ計算部２２は、ハッシュ関数を用いて、入力文字列の先頭のＮ文字のハッシュ値を計算する。ハッシュテーブル２３は、計算したハッシュ値をアドレスとして特定される、ハッシュテーブル２３内の記憶領域に、入力文字列が記憶された辞書バッファ２１のアドレス（辞書ライトアドレス）を記憶する。

（２）辞書データの取得
ハッシュテーブル２３は、入力文字列の先頭のＮ文字のハッシュ値をアドレスとして、ハッシュテーブル２３内の記憶領域を特定する。ハッシュテーブル２３は、特定した記憶領域に記憶されている辞書アドレス（辞書リードアドレス）を、辞書バッファ２１に出力する。辞書バッファ２１は、ハッシュテーブル２３によって出力された辞書リードアドレスを用いて、辞書バッファ２１内の記憶領域を特定する。辞書バッファ２１は、特定した記憶領域に記憶されている文字列（辞書文字列）を、一致比較器２４に出力する。

（３）文字列の一致評価
一致比較器２４は入力文字列と辞書文字列とを比較する。入力文字列と辞書文字列とで一致する部分がある場合、一致比較器２４は辞書リードアドレスと一致長とを出力する。入力文字列と辞書文字列とで一致する部分がない場合、一致比較器２４は入力文字列を出力する。

図４から図６を参照して、ハッシュによる検索の具体例をさらに説明する。

図４は、ハッシュテーブル２３および辞書バッファ２１を用いて入力データを登録する例を示す。図４に示す例は、前述したハッシュによる検索方法の（１）辞書への文字列の登録のステージに相当する。ここでは、検索部１５１Ａに対する入力データとして、“Ｔｈｉｓｉｓａｐｅｎ．”が入力されている。

辞書バッファ２１は入力データ“Ｔｈｉｓｉｓａｐｅｎ．”を記憶する。辞書バッファ２１において、入力データが記憶される記憶領域は、例えば、直前に入力されたデータが記憶された記憶領域に後続する記憶領域である。辞書バッファ２１内の複数の記憶領域は、例えば、アドレスがより小さい記憶領域から順に、入力データの格納に用いられる。ここでは、入力データは、辞書バッファ２１内のアドレス１００の記憶領域に記憶されている。辞書バッファ２１はアドレス１００をハッシュテーブル２３に出力する。

ハッシュ計算部２２はハッシュ関数Ｈを用いて、入力データの先頭の４文字（すなわち４バイト）である“Ｔｈｉｓ”のハッシュ値Ｈ（Ｔｈｉｓ）を計算する。ハッシュ計算部２２はハッシュ値Ｈ（Ｔｈｉｓ）をハッシュテーブル２３に出力する。なお、ここでは、現在の入力データが入力されるよりも前には、ハッシュ値Ｈ（Ｔｈｉｓ）で特定されるハッシュテーブル２３内の記憶領域に、いずれのデータ（すなわち辞書アドレス）も記憶されていないことを想定する。

ハッシュテーブル２３は、ハッシュ値Ｈ（Ｔｈｉｓ）で特定されるハッシュテーブル２３内の記憶領域に、辞書バッファ２１から出力された辞書アドレス１００を記憶する。つまり、ハッシュテーブル２３内のアドレスＨ（Ｔｈｉｓ）の記憶領域に、辞書アドレス１００が記憶される。これにより、ハッシュテーブル２３において、入力データのハッシュ値Ｈ（Ｔｈｉｓ）に、入力データが記憶されている辞書アドレス１００が関連付けられる。

図５は、図４に示したハッシュテーブル２３を用いて、新たな入力データを辞書バッファ２１内のデータと比較する例を示す。図５に示す例は、前述したハッシュによる検索方法の（２）辞書データの取得および（３）文字列の一致評価のステージに相当する。ここでは、検索部１５１Ａに対する入力データとして、“Ｔｈｉｓｉｓａｃ＋＋．”が入力されている。

ハッシュ計算部２２はハッシュ関数Ｈを用いて、入力データの先頭の４文字である“Ｔｈｉｓ”のハッシュ値Ｈ（Ｔｈｉｓ）を計算する。ハッシュ計算部２２はハッシュ値Ｈ（Ｔｈｉｓ）をハッシュテーブル２３に出力する。

ハッシュテーブル２３は、ハッシュ値Ｈ（Ｔｈｉｓ）に関連付けられた辞書アドレス１００を辞書バッファ２１に出力する。つまり、ハッシュテーブル２３は、アドレスＨ（Ｔｈｉｓ）の記憶領域に記憶されている辞書アドレス１００を辞書バッファ２１に出力する。

辞書バッファ２１は、辞書アドレス１００に記憶されているデータ（辞書データ）“Ｔｈｉｓｉｓａｐｅｎ．”を一致比較器２４に出力する。

一致比較器２４は、入力データ“Ｔｈｉｓｉｓａｃ＋＋．”と、辞書データ“Ｔｈｉｓｉｓａｐｅｎ．”とを比較して、一致長を得る。一致長は、例えば、入力データと辞書データとで先頭から連続して一致した部分“Ｔｈｉｓｉｓａ ”の長さ（ここでは、１０）である。なお、一致長はスペースも含む。一致比較器２４は、例えば、辞書アドレスと一致長の組を示す（１００，１０）を、検索結果として出力する。

図６は、図４に示したハッシュテーブル２３および辞書バッファ２１を用いて、入力データ“Ｔｈｉｓｉｓａｃ＋＋．”を登録する例を示す。

具体的には、辞書バッファ２１は入力データ“Ｔｈｉｓｉｓａｃ＋＋．”を記憶する。ここでは、入力データは、辞書アドレス１０１の記憶領域に記憶されている。辞書バッファ２１は辞書アドレス１０１をハッシュテーブル２３に出力する。

ハッシュテーブル２３は、ハッシュ値Ｈ（Ｔｈｉｓ）で特定されるハッシュテーブル２３内の記憶領域に、辞書バッファ２１から出力された辞書アドレス１０１を記憶する。つまり、ハッシュテーブル２３内のアドレスＨ（Ｔｈｉｓ）の記憶領域に、辞書アドレス１０１が記憶（上書き）される。これにより、ハッシュテーブル２３において、入力データのハッシュ値Ｈ（Ｔｈｉｓ）に、入力データが記憶されている辞書アドレス１０１が関連付けられる。つまり、ハッシュ値Ｈ（Ｔｈｉｓ）を、過去の入力データ“Ｔｈｉｓｉｓａｐｅｎ．”が記憶されている辞書アドレス１００ではなく、現在の入力データ“Ｔｈｉｓｉｓａｃ＋＋．”が記憶されている辞書アドレス１０１に関連付けるように、ハッシュテーブル２３が更新される。

図５を参照して前述したように、ハッシュによる検索方法では、検索部１５１Ａは、ハッシュ値を利用して辞書バッファ２１から１つの辞書データを取得し、取得した１つの辞書データのみを入力データと比較すればよい。したがって、ハッシュによる検索方法の探索コストは、全探索による探索コストよりも小さい。

しかしながら、ハッシュ値を利用する場合、ハッシュの衝突により、辞書バッファ２１内に記憶されているはずのデータを検索できなくなることがある。ハッシュの衝突が発生する場合の例を、図７から図９を参照して説明する。

図７は、ハッシュテーブル２３および辞書バッファ２１を用いて入力データを登録する別の例を示す。図７に示す例では、検索部１５１Ａに対する入力データとして、“Ｔｈｉｓｉｓａｈａｔ．”が入力されている。

図７に示す例では、図４を参照して前述した例と同様にして、入力データ“Ｔｈｉｓｉｓａｈａｔ．”が辞書に登録される。すなわち、辞書バッファ２１は、辞書アドレス１００に入力データを記憶する。そして、ハッシュテーブル２３は、入力データの先頭の４文字のハッシュ値Ｈ（Ｔｈｉｓ）に関連付けて、辞書アドレス１００を記憶する。

ここで、ハッシュ値の計算に用いるハッシュ関数Ｈが、Ｈ（Ｔｈｉｓ）＝Ｈ（Ｔｈａｔ）となるハッシュ関数であることを想定する。つまり、ハッシュ関数Ｈは、“Ｔｈｉｓ”で始まる入力データと、“Ｔｈａｔ”で始まる入力データとで、ハッシュの衝突が発生する関数である。

図８は、図７に示した入力データ“Ｔｈｉｓｉｓａｈａｔ．”の辞書への登録の後に、新たな入力データを登録する例を示す。図８に示す例では、検索部１５１Ａに対する新たな入力データとして、“Ｔｈａｔｉｓａｈｕｔ．”が入力されている。

辞書バッファ２１は入力データ“Ｔｈａｔｉｓａｈｕｔ．”を記憶する。ここでは、入力データは、辞書アドレス２００の記憶領域に記憶されている。辞書バッファ２１は辞書アドレス２００をハッシュテーブル２３に出力する。

ハッシュ計算部２２はハッシュ関数Ｈを用いて、入力データのハッシュ値Ｈ（Ｔｈａｔ）を計算する。ハッシュ計算部２２は、ハッシュ値Ｈ（Ｔｈａｔ）をハッシュテーブル２３に出力する。

ハッシュテーブル２３は、ハッシュ値Ｈ（Ｔｈａｔ）で特定されるハッシュテーブル２３内の記憶領域に、辞書バッファ２１から出力された辞書アドレス２００を記憶（上書き）する。つまり、ハッシュテーブル２３内のアドレスＨ（Ｔｈａｔ）の記憶領域に、辞書アドレス２００が記憶される。これにより、ハッシュテーブル２３において、入力データのハッシュ値Ｈ（Ｔｈａｔ）に、入力データが記憶されている辞書アドレス２００が関連付けられる。

このように、Ｈ（Ｔｈｉｓ）＝Ｈ（Ｔｈａｔ）であるハッシュの衝突によって、過去の入力データ“Ｔｈｉｓｉｓａｈａｔ．”の辞書アドレス１００は、ハッシュテーブル２３から追い出される。これは、以降の入力データのハッシュ値としてＨ（Ｔｈｉｓ）が計算されたとしても、辞書バッファ２１のアドレス１００に記憶されているデータ“Ｔｈｉｓｉｓａｈａｔ．”にアクセスされないことを意味する。したがって、過去の入力データ“Ｔｈｉｓｉｓａｈａｔ．”は、辞書バッファ２１のアドレス１００に記憶されているにも関わらず、新たな入力データとの比較に利用されなくなる。

図９は、図８に示したハッシュテーブル２３および辞書バッファ２１を用いて、新たな入力データを辞書バッファ２１内のデータと比較する例を示す。図９に示す例では、検索部１５１Ａに対する入力データとして、“Ｔｈｉｓｉｓａｈａｔ．”が入力されている。

ハッシュテーブル２３は、ハッシュ値Ｈ（Ｔｈｉｓ）に関連付けられた辞書アドレス２００を辞書バッファ２１に出力する。つまり、ハッシュテーブル２３は、アドレスＨ（Ｔｈｉｓ）の記憶領域に記憶されている辞書アドレス２００を辞書バッファ２１に出力する。

辞書バッファ２１は、辞書アドレス２００に記憶されているデータ（辞書データ）“Ｔｈａｔｉｓａｈｕｔ．”を一致比較器２４に出力する。

一致比較器２４は、入力データ“Ｔｈｉｓｉｓａｈａｔ．”と、辞書データ“Ｔｈａｔｉｓａｈｕｔ．”とを比較して、先頭から連続して一致した部分“Ｔｈ”の長さ（ここでは、２）を得る。一致比較器２４は、例えば、辞書アドレスと一致長の組を示す（２００，２）を、検索結果として出力する。これは、検索部１５１Ａによる辞書式符号化によって、入力データの先頭の２文字“Ｔｈ”が、検索結果（２００，２）に変換されたものの、残りの文字列“ｉｓｉｓａｈａｔ．”は辞書アドレスと一致長の組に変換できなかったことを意味する。

辞書バッファ２１のアドレス１００には、辞書データ“Ｔｈｉｓｉｓａｈａｔ．”が記憶されている。そのため、Ｈ（Ｔｈｉｓ）＝Ｈ（Ｔｈａｔ）であるハッシュの衝突が発生していなければ、一致比較器２４は、辞書バッファ２１のアドレス１００に記憶されている、入力データと完全に一致する辞書データを取得して、入力データと辞書データの一致長として、データ全体の長さである１４を得る。この場合、一致比較器２４は、辞書アドレスと一致長の組を示す（１００，１４）を、検索結果として出力する。これは、検索部１５１Ａによる辞書式符号化によって、入力データ全体を検索結果（１００，１４）に変換できたことを意味する。

このように、Ｈ（Ｔｈｉｓ）＝Ｈ（Ｔｈａｔ）であるハッシュの衝突が発生した場合、入力データ“Ｔｈｉｓｉｓａｈａｔ．”と比較される対象として、辞書バッファ２１から、辞書データ“Ｔｈｉｓｉｓａｈａｔ．”ではなく、辞書データ“Ｔｈａｔｉｓａｈｕｔ．”が取得されるので、辞書バッファ２１の検索精度の低下が発生する。そして、入力データ“Ｔｈｉｓｉｓａｈａｔ．”が辞書データ“Ｔｈａｔｉｓａｈｕｔ．”と比較されることで、辞書データ“Ｔｈｉｓｉｓａｈａｔ．”と比較される場合よりも、辞書アドレスと一致長の組に変換される入力データ内の文字列が短くなる。そのため、例えば、辞書アドレスと一致長の組への変換を利用して、入力データを圧縮する場合、圧縮効率が低下する可能性がある。

そこで、本実施形態の圧縮装置１５の検索部１５１は、入力データに含まれる１つ以上の特定の単位（例えばバイト単位）のデータ部において、値が全く変化しないビット位置がある場合、入力データのハッシュ値の計算に用いるハッシュ関数として、そのビット位置の値を用いないハッシュ関数を決定する。なお、検索部１５１は、入力データに含まれる１つ以上の特定の単位のデータ部において、値が０である割合が第１閾値以上であるビット位置が存在する場合に、入力データのハッシュ値の計算に用いるハッシュ関数として、そのビット位置の値を用いないハッシュ関数を決定してもよい。あるいは、検索部１５１は、入力データに含まれる１つ以上の特定の単位のデータ部において、値が１である割合が第１閾値以上であるビット位置が存在する場合に、入力データのハッシュ値の計算に用いるハッシュ関数として、そのビット位置の値を用いないハッシュ関数を決定してもよい。このようなハッシュ関数の決定により、ハッシュの衝突が起きる確率を低減できる。

図１０および図１１を参照して、ハッシュ関数とハッシュの衝突の関係について、具体的に説明する。

図１０は、ハッシュの衝突を発生させるハッシュ関数Ｈ’の例を示す。ここでは、ハッシュ関数に対する入力が、２文字（２バイト）のデータ“ＡＢ”である場合を例示する。

２文字のデータ“ＡＢ”は、文字“Ａ”に対応する８ビットのビットデータ列｛ａ７，ａ６，ａ５，ａ４，ａ３，ａ２，ａ１，ａ０｝と、文字“Ｂ”に対応する８ビットのビットデータ列｛ｂ７，ｂ６，ｂ５，ｂ４，ｂ３，ｂ２，ｂ１，ｂ０｝とで構成される。ａｎは、文字“Ａ”を構成するビット値の１つを示す。ｂｎは、文字“Ｂ”を構成するビット値の１つを示す。添え字ｎは、１つの文字を構成するビットデータ列における順序（位置）を示し、上位ビットほど大きな値となる。添え字ｎは、０から７までのいずれかの値である。なお、添え字ｎを用いて、ビットデータ列を構成する１つのビットを、第ｎビットとも称する。

ハッシュ関数Ｈ’は、入力データを文字単位（バイト単位）に分割した複数のデータ部の排他的論理和（ＸＯＲ）を出力する。より詳しくは、ハッシュ関数Ｈ’は、文字単位の複数のデータ部を用いて、ビット位置毎の複数のビット値の排他的論理和を出力する。すなわち、ハッシュ関数Ｈ’にデータ“ＡＢ”を入力して得られるハッシュ値Ｈ’（ＡＢ）は、次式で表される。
Ｈ’（Ａ，Ｂ）＝Ａ＾Ｂ＝｛ａ７＾ｂ７，ａ６＾ｂ６，ａ５＾ｂ５，ａ４＾ｂ４，ａ３＾ｂ３，ａ２＾ｂ２，ａ１＾ｂ１，ａ０＾ｂ０｝
なお、記号“＾”は、排他的論理和の演算を表す。

ここで、入力データがテキストデータである場合を考える。テキストデータはＡＳＣＩＩコードで記述されたデータである。ＡＳＣＩＩコードは、０から１２７までのいずれかの値である。つまり、ＡＳＣＩＩコードは、最上位ビット（第７ビット）が常に０であるデータである。

ビットデータ列の具体的な値を用いて、ハッシュ値を計算する例を示す。例えば、Ａ＝８’ｂ０１１１＿１１０１、Ｂ＝８’ｂ００００＿００１０、Ｘ＝８’ｂ０１１１＿１１１１、Ｙ＝８’ｂ００００＿００００であることを想定する。なお、“８’ｂ”に後続する、各々が０または１である８つの値は、８ビットのビットデータ列を示している。

ハッシュ関数Ｈ’を用いて計算される、データ“ＡＢ”のハッシュ値Ｈ’（ＡＢ）と、データ“ＸＹ”のハッシュ値Ｈ’（ＸＹ）とは、以下の通りである。
Ｈ’（ＡＢ）＝８’ｂ０１１１＿１１０１＾８’ｂ００００＿００１０
＝８’ｂ０１１１＿１１１１
Ｈ’（ＸＹ）＝８’ｂ０１１１＿１１１１＾８’ｂ００００＿００００
＝８’ｂ０１１１＿１１１１
このように、ハッシュ関数Ｈ’を用いたハッシュ値の計算では、データ“ＡＢ”のハッシュ値Ｈ’（ＡＢ）とデータ“ＸＹ”のハッシュ値Ｈ’（ＸＹ）とが同一の値になり、ハッシュの衝突が起きる。

そのため、本実施形態の圧縮装置１５では、入力データがテキストデータであると判断した場合に、入力データに含まれる文字単位（すなわち１バイト単位）のデータ部の最上位ビットが常に０であることに着目する。具体的には、圧縮装置１５の検索部１５１は、文字単位の複数のデータ部の全ビット値を用いて、ビット位置毎の排他的論理和を計算するハッシュ関数Ｈ’ではなく、最上位ビットを用いないハッシュ関数Ｈを、入力データのハッシュ値を計算するハッシュ関数に決定する。ハッシュ関数Ｈは、例えば、最上位ビットの排他的論理和を計算する代わりに、最上位ビット以外のビットの排他的論理和を計算するように構成される。

図１１は、ハッシュの衝突が起きる確率を低下させるハッシュ関数Ｈの例を示す。ハッシュ関数Ｈに入力されるデータの一例であるデータ“ＡＢ”については、図１０を参照して前述した通りである。

図１１に示すように、文字“Ａ”に対応するビットデータ列の最上位ビットａ７の値は、常に０である。また、文字“Ｂ”に対応するビットデータ列の最上位ビットｂ７の値は、常に０である。

そのため、検索部１５１は、最上位ビットａ７およびｂ７を用いないハッシュ関数Ｈを、入力データのハッシュ値を計算するハッシュ関数に決定する。図１１に示す例では、ハッシュ関数Ｈは、最上位ビットａ７およびｂ７の排他的論理和を計算する代わりに、文字“Ａ”の第１ビットａ１と、文字“Ｂ”の第０ビットｂ０との排他的論理和を計算するように構成されている。したがって、ハッシュ関数Ｈにデータ“ＡＢ”を入力して得られるハッシュ値Ｈ（ＡＢ）は、次式で表される。
Ｈ（ＡＢ）＝｛ａ１＾ｂ０，ａ６＾ｂ６，ａ５＾ｂ５，ａ４＾ｂ４，ａ３＾ｂ３，ａ２＾ｂ２，ａ１＾ｂ１，ａ０＾ｂ０｝
検索部１５１は、入力データがテキストデータであると判断した場合、入力データのハッシュ値を計算するハッシュ関数を、例えばハッシュ関数Ｈ’からハッシュ関数Ｈに変更する。

ビットデータ列の具体的な値を用いて、ハッシュ値を計算する例を示す。図１０を参照して前述した例と同様に、Ａ＝８’ｂ０１１１＿１１０１、Ｂ＝８’ｂ００００＿００１０、Ｘ＝８’ｂ０１１１＿１１１１、Ｙ＝８’ｂ００００＿００００であることを想定する。

ハッシュ関数Ｈを用いて計算される、データ“ＡＢ”のハッシュ値Ｈ（ＡＢ）と、データ“ＸＹ”のハッシュ値Ｈ（ＸＹ）とは、以下の通りである。
Ｈ（ＡＢ）＝８’ｂ０１１１＿１１０１＾８’ｂ００００＿００１０
＝８’ｂ０１１１＿１１１１
Ｈ（ＸＹ）＝８’ｂ１１１１＿１１１１＾８’ｂ００００＿００００
＝８’ｂ１１１１＿１１１１
このように、ハッシュ関数Ｈを用いたハッシュ値の計算では、データ“ＡＢ”のハッシュ値Ｈ（ＡＢ）とデータ“ＸＹ”のハッシュ値Ｈ（ＸＹ）とは異なる値になり、ハッシュの衝突が回避できる。

ハッシュの衝突が起きる可能性を抑制できることにより、検索部１５１が、入力データと比較される対象として適切な辞書データを辞書バッファ２１から取得できる可能性が高まる。つまり、辞書バッファ２１の検索精度が向上する。したがって、例えば、辞書バッファ２１を用いて、入力データを辞書アドレスと一致長の組に変換することを利用して、入力データを圧縮する場合に、圧縮効率が向上する。

前述した例では、説明を分かりやすくするために、簡単なハッシュ関数の例を示したが、実際にはより複雑なハッシュ関数が用いられ得る。どのようなハッシュ関数を用いる場合でも、入力データに含まれる特定の単位のデータ部に、出現する値に偏りがあるビットがあるならば、検索部１５１は、そのビットを用いないハッシュ関数に変更する。これにより、ハッシュの衝突の可能性を低減できる。

図１２は検索部１５１の構成の一例を示す。検索部１５１は、データ判断部２０、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、および一致比較器２４を備える。

データ判断部２０およびハッシュ計算部２２は、入力データに基づいて、入力データに対して用いるべきハッシュ関数を決定する。ハッシュ計算部２２は、決定したハッシュ関数と、入力データの少なくとも一部とを用いて、ハッシュ値を計算する。

以下に、データ判断部２０およびハッシュ計算部２２の各々の動作について、具体的に説明する。

まず、データ判断部２０は入力データを受け付ける。データ判断部２０は、入力データがどのようなデータであるかを判断する。具体的には、データ判断部２０は、例えば、入力が開始されてからＮバイトのデータを保持する。Ｎは１以上の整数である。そして、データ判断部２０は、Ｎバイトのデータを解析（評価）して、入力データの種別、入力データを構成する１つ以上の特定の単位のデータ部において値の偏りがあるビット（ビット位置）の有無、等を判断する。入力データの種別は、例えばファイル形式である。特定の単位のデータ部は、例えば１バイト単位のデータ部（すなわち１文字単位のデータ部）である。

データ判断部２０は、入力データに関する判断結果に基づいて、ハッシュ計算部２２が用いるハッシュ関数を決定するための情報を生成する。ハッシュ関数を決定するための情報を、ハッシュ関数情報とも称する。ハッシュ関数情報は、例えばハッシュ関数そのものを示す情報を含む。あるいは、ハッシュ関数情報は、複数のハッシュ関数から１つのハッシュ関数を選択するための情報（例えばハッシュ関数の識別情報）であってもよい。

データ判断部２０は、生成したハッシュ関数情報をハッシュ計算部２２に出力する。また、データ判断部２０は入力データを、ハッシュ計算部２２、一致比較器２４、および辞書バッファ２１にそれぞれ出力する。

データ判断部２０が入力データを解析してハッシュ関数情報を生成する幾つかの例を説明する。

（１）常に０であるビットまたは常に１であるビットを含むデータ部で構成される入力データ
データ判断部２０は、入力データを構成するバイト単位のＮ個のデータ部において、第ｉビットが常に０であること、または第ｉビットが常に１であることを検知する。なお、ｉは、０以上であってｍ未満である整数である。Ｎ個のデータ部の各々が８ビット（＝１バイト）の長さを有する場合、ｍは８である。

バイト単位のＮ個のデータ部において、第ｉビットが常に０であることを検知した場合、データ判断部２０は、第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。また、バイト単位のＮ個のデータ部において、第ｉビットが常に１であることを検知した場合、データ判断部２０は、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。

（２）０である割合が高いビットまたは１である割合が高いビットを含むデータ部で構成される入力データ
データ判断部２０は、入力データを構成するバイト単位のＮ個のデータ部にそれぞれ含まれるＮ個の第ｉビットの内、値が０であるビットの割合（以下、第ｉビットが０である割合と称する）、またはＮ個の第ｉビットの内、値が１であるビットの割合（以下、第ｉビットが１である割合と称する）を計算する。そして、データ判断部２０は、第ｉビットが０である割合または第ｉビットが１である割合が第１閾値（例えば９５％）以上である場合、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。あるいは、データ判断部２０は、データ部の第ｉビットを用いる回数（あるいは頻度）が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

また、データ判断部２０は、第ｉビットが０である割合が、第ｉビット以外の各ビットが０である割合よりも高い場合に、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報、またはデータ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

さらに、データ判断部２０は、第ｉビットが１である割合が、第ｉビット以外の各ビットが１である割合よりも高い場合に、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報、またはデータ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

（３）０である割合が低いビットまたは１である割合が低いビットを含むデータ部で構成される入力データ
データ判断部２０は、入力データを構成するバイト単位のＮ個のデータ部にそれぞれ含まれるＮ個の第ｉビットの内、値が０であるビットの割合（以下、第ｉビットが０である割合と称する）、またはＮ個の第ｉビットの内、値が１であるビットの割合（以下、第ｉビットが１である割合と称する）を計算する。そして、データ判断部２０は、第ｉビットが０である割合または第ｉビットが１である割合が第２閾値（例えば５％）以下である場合、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。あるいは、データ判断部２０は、データ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

また、データ判断部２０は、第ｉビットが０である割合が、第ｉビット以外の各ビットが０である割合よりも低い場合に、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報、またはデータ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

さらに、データ判断部２０は、第ｉビットが１である割合が、第ｉビット以外の各ビットが１である割合よりも低い場合に、データ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報、またはデータ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

なお、各ビットの値は０と１のいずれかであるので、（２）で記載した第ｉビットが０である割合が第１閾値以上であることは、（３）で記載した第ｉビットが１である割合が第２閾値以下であることと同義である。また、（２）で記載した第ｉビットが１である割合が第１閾値以上であることは、（３）で記載した第ｉビットが０である割合が第２閾値以下であることと同義である。

次いで、ハッシュ計算部２２は、データ判断部２０によって生成されたハッシュ関数情報を用いて、入力データのハッシュ値の計算に用いるハッシュ関数を決定する。ハッシュ計算部２２は、決定したハッシュ関数を用いて、ファイルのような入力データ全体の内の、例えば特定単位の入力データ（すなわち現在の入力データ）の少なくとも一部のハッシュ値を計算する。ハッシュ計算部２２は、計算したハッシュ値をハッシュテーブル２３に出力する。

図１２に示す辞書バッファ２１、ハッシュテーブル２３、および一致比較器２４の動作は、図３を参照して前述した検索部１５１Ａの辞書バッファ２１、ハッシュテーブル２３、および一致比較器２４の動作とそれぞれ同様である。

図１３は、データ判断部２０およびハッシュ計算部２２の具体的な動作例を示す。図１３に示す例では、データ判断部２０に対して、入力データ“Ａｌｉｃｅｗａｓｂｅｇｉｎｎｉｎｇｔｏｇｅｔｖｅｒｙｔｉｒｅｄｏｆｓｉｔｔｉｎｇｂｙｈｅｒｓｉｓｔｅｒｏｎｔｈｅｂａｎｋ”が入力されている。

データ判断部２０は、入力データの先頭のＮバイトのデータを解析する。Ｎは、１から入力データ全体の長さ（ここでは７４）までのいずれかの値である。例えばＮ＝１９である場合、データ判断部２０は、先頭から１９バイトのデータ“Ａｌｉｃｅｗａｓｂｅｇｉｎｎｉｎｇ”を解析する。

より具体的には、データ判断部２０は、Ｎバイトのデータを分割して、文字単位（すなわちバイト単位）の複数のデータ部を得る。そして、データ判断部２０は、複数のデータ部が全てＡＳＣＩＩコードであるか否かを判定する。ＡＳＣＩＩコードは、０から１２７までのいずれかの値である。データ部がＡＳＣＩＩコードであるならば、そのデータ部の最上位ビットは０である。したがって、データ判断部２０は、複数のデータ部の各々の最上位ビットが全て０であるか否かを判定することで、複数のデータ部が全てＡＳＣＩＩコードであるか否かを判定する。

複数のデータ部の各々の最上位ビットが全て０である場合、すなわち複数のデータ部が全て０から１２７までのいずれかの値である場合、データ判断部２０は、入力データがＡＳＣＩＩコードで構成されるテキストデータであると判断する。入力データがテキストデータであると判断したことに応じて、データ判断部２０は、データ部の最上位ビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。生成されたハッシュ関数情報を用いることで、ハッシュ計算部２２は、データ部の最上位ビットを用いないハッシュ関数を、入力データのハッシュ値の計算に用いるハッシュ関数に決定できる。

複数のデータ部の少なくとも１つの最上位ビットが１である場合、すなわち複数のデータ部の少なくとも１つがＡＳＣＩＩコード以外の値である場合、データ判断部２０は、入力データがテキストデータではないと判断する。ＡＳＣＩＩコード以外の値は、１２８から２５５までのいずれかの値である。入力データがテキストデータではないと判断したことに応じて、データ判断部２０は、データ部の全ビットを用いるハッシュ関数を決定するためのハッシュ関数情報を生成する。生成されたハッシュ関数情報を用いることで、ハッシュ計算部２２は、データ部の全ビットを用いるハッシュ関数を、入力データのハッシュ値の計算に用いるハッシュ関数に決定できる。

図１２および図１３に示した構成により、検索部１５１は、ハッシュの衝突が起きる確率を低下させて、辞書バッファ２１の検索精度を向上できる。したがって、例えば、辞書バッファ２１を用いて、入力データを辞書アドレスと一致長の組に変換することを利用して、入力データを圧縮する場合に、圧縮効率が向上する。

図１４は、圧縮装置１５の検索部１５１において実行される検索処理の手順の例を示すフローチャートである。検索処理は、辞書バッファ２１を検索して、入力データＸに対する辞書式符号化を行うための処理である。

まず、検索部１５１は、入力データＸに対するハッシュ関数情報生成処理を実行する（ステップＳ１０１）。ハッシュ関数情報生成処理は、入力データＸを用いてハッシュ関数情報を生成するための処理である。ハッシュ関数情報は、入力データＸのハッシュ値の計算に用いるハッシュ関数を決定するための情報である。ハッシュ関数情報生成処理の具体的な手順については、図１５のフローチャートを参照して後述する。

検索部１５１は、生成したハッシュ関数情報を用いてハッシュ関数Ｈを決定する（ステップＳ１０２）。検索部１５１はハッシュ関数情報を用いて、例えばハッシュ関数Ｈを生成する。あるいは、検索部１５１はハッシュ関数情報を用いて、予め用意された複数のハッシュ関数から１つのハッシュ関数Ｈを選択してもよい。

検索部１５１は、決定したハッシュ関数Ｈを用いて、入力データＸのハッシュ値Ｈ（Ｘ）を計算する（ステップＳ１０３）。検索部１５１は、例えば、ハッシュ関数Ｈと、入力データＸの内の少なくとも一部とを用いて、ハッシュ値Ｈ（Ｘ）を計算する。入力データＸの内の少なくとも一部は、例えば、入力データＸの先頭からＮバイトのデータである。

次いで、検索部１５１は、ハッシュテーブル２３のアドレスＨ（Ｘ）に、辞書バッファ２１のアドレスが記憶されているか否かを判定する（ステップＳ１０４）。検索部１５１は、計算した入力データＸのハッシュ値Ｈ（Ｘ）を、ハッシュテーブル２３内の記憶位置を特定するアドレスとして用いている。

ハッシュテーブル２３のアドレスＨ（Ｘ）に、辞書バッファ２１のアドレスが記憶されている場合（ステップＳ１０４のＹＥＳ）、検索部１５１は、ハッシュテーブル２３のアドレスＨ（Ｘ）に記憶されているアドレス（以下、第１アドレスと称する）を取得する（ステップＳ１０５）。検索部１５１は、辞書バッファ２１の第１アドレスに記憶されている辞書データを取得する（ステップＳ１０６）。そして、検索部１５１は、入力データＸと、取得した辞書データとを比較して、比較結果をエントロピー符号化部１５２に出力する（ステップＳ１０７）。比較結果は、例えば、第１アドレスと、入力データＸと辞書データとの一致長を含む。

次いで、検索部１５１は、辞書バッファ２１の第２アドレスに入力データＸを格納する（ステップＳ１０８）。第２アドレスは、第１アドレスとは異なるアドレスである。第２アドレスは、例えば、１つ前の入力データが記憶されている記憶領域に後続する記憶領域を示すアドレスである。検索部１５１は、ハッシュテーブル２３のアドレスＨ（Ｘ）に第２アドレスを格納し（ステップＳ１０９）、ステップＳ１１３に進む。

また、ハッシュテーブル２３のアドレスＨ（Ｘ）に、辞書バッファ２１のアドレスが記憶されていない場合（ステップＳ１０４のＮＯ）、検索部１５１は入力データＸをエントロピー符号化部１５２に出力する（ステップＳ１１０）。検索部１５１は、辞書バッファ２１の第２アドレスに入力データＸを格納する（ステップＳ１１１）。そして、検索部１５１は、ハッシュテーブル２３のアドレスＨ（Ｘ）に第２アドレスを格納し（ステップＳ１１２）、ステップＳ１１３に進む。

次いで、検索部１５１は後続する入力データＸがあるか否かを判定する（ステップＳ１１３）。後続する入力データＸがある場合（ステップＳ１１３のＹＥＳ）、検索部１５１はステップＳ１０３に戻り、後続する入力データＸの辞書式符号化のための処理を行う。後続する入力データＸのハッシュ値の計算には、ステップＳ１０２で既に決定されたハッシュ関数Ｈが用いられる。

一方、後続する入力データＸがない場合（ステップＳ１１３のＮＯ）、検索部１５１は検索処理を終了する。

以上の図１４の検索処理により、検索部１５１は、辞書バッファ２１を検索して、入力データＸに対する辞書式符号化を行うことができる。具体的には、入力データＸと少なくとも一部が一致するデータが辞書バッファ２１に記憶されている場合、検索部１５１は入力データＸを辞書アドレスと一致長との組に変換できる。入力データＸと少なくとも一部が一致するデータが辞書バッファ２１に記憶されていない場合、検索部１５１は入力データＸをそのまま出力する。

また、検索部１５１は、入力データＸを辞書バッファ２１に新たに登録できる。すなわち、検索部１５１は、入力データＸを辞書バッファ２１に格納した後、ハッシュ値Ｈ（Ｘ）を利用して辞書バッファ２１に記憶された入力データＸにアクセスできるように、ハッシュテーブル２３に、入力データＸが記憶された辞書アドレス（第２アドレス）を格納する。これにより、検索部１５１は、以降の入力データの辞書式符号化に、辞書バッファ２１に登録された入力データＸを利用できる。

図１５は、圧縮装置１５の検索部１５１において実行されるハッシュ関数情報生成処理の手順の例を示すフローチャートである。ハッシュ関数情報生成処理は、入力データＸを用いてハッシュ関数情報を生成するための処理である。ハッシュ関数情報は、入力データＸのハッシュ値の計算に用いるハッシュ関数を決定するための情報である。ハッシュ関数情報生成処理は、図１４のフローチャートを参照して前述した検索処理のステップＳ１０１に相当する。ここでは、説明を分かりやすくするために、入力データＸがテキストデータであるかどうかに応じたハッシュ関数情報を生成する場合について例示する。

まず、検索部１５１は、入力データＸの先頭からＮバイトのデータを取得する（ステップＳ２１）。Ｎは、１から入力データＸのバイト単位の長さまでの整数である。そして、検索部１５１はＮバイトのデータから、Ｎ個のバイト単位のデータ部を取得する（ステップＳ２２）。

次いで、検索部１５１は、取得したＮ個のデータ部の内、最上位ビットが０であるデータ部の割合が閾値以上であるか否かを判定する（ステップＳ２３）。例えば、全てのデータ部が文字のデータであるか否かを判定するならば、すなわち全てのデータ部で最上位ビットが０であるか否かを判定するならば、閾値は１（＝１００％）である。

Ｎ個のデータ部の内、最上位ビットが０であるデータ部の割合が閾値以上である場合（ステップＳ２３のＹＥＳ）、検索部１５１は、データ部の最上位ビットを用いないことを示すハッシュ関数情報を生成し（ステップＳ２４）、ハッシュ関数情報生成処理を終了する。つまり、検索部１５１は、入力データＸがテキストデータであると判断して、データ部の最上位ビットを用いないことを示すハッシュ関数情報を生成する。

一方、Ｎ個のデータ部の内、最上位ビットが０であるデータ部の割合が閾値未満である場合（ステップＳ２３のＮＯ）、検索部１５１は、データ部の全ビットを用いることを示すハッシュ関数情報を生成し（ステップＳ２５）、ハッシュ関数情報生成処理を終了する。つまり、検索部１５１は、入力データＸがテキストデータではないと判断して、データ部の全ビットを用いることを示すハッシュ関数情報を生成する。

以上の図１５のハッシュ関数情報生成処理により、検索部１５１は、入力データＸの内容に応じたハッシュ関数情報を生成できる。検索部１５１（より詳しくはハッシュ計算部２２）は、生成したハッシュ関数情報を用いて、データ部の最上位ビットを用いないハッシュ関数と、データ部の全ビットを用いるハッシュ関数のいずれか一方を決定できる。

なお、検索部１５１は、ステップＳ２３において、取得したＮ個のデータ部の内、第ｉビットが０であるデータ部の割合が第１閾値以上であるか否かを判定してもよい。ｉは、０以上であってｍ未満である整数である。ここでは、Ｎ個のデータ部の各々が８ビット（＝１バイト）の長さを有するので、ｍは８である。検索部１５１は、例えばｉを０から（ｍ－１）まで１ずつ増加させることで、第０ビットから第（ｍ－１）ビットの各々について、Ｎ個のデータ部の内、第ｉビットが０であるデータ部の割合が第１閾値以上であるか否かを判定する。

検索部１５１は、Ｎ個のデータ部において、０である割合が第１閾値以上である第ｉビットが存在する場合、データ部の第ｉビットを用いないことを示すハッシュ関数情報を生成する。これにより、検索部１５１はハッシュ関数情報を用いて、データ部の第ｉビットを用いないハッシュ関数を決定できる。

検索部１５１は、Ｎ個のデータ部において、０である割合が閾値以上である第ｉビットが存在しない場合、データ部の全ビットを用いることを示すハッシュ関数情報を生成する。これにより、検索部１５１はハッシュ関数情報を用いて、データ部の全ビットを用いるハッシュ関数を決定できる。

さらに、検索部１５１は、ステップＳ２３において、取得したＮ個のデータ部の内、第ｉビットが１であるデータ部の割合が第１閾値以上であるか否かを判定してもよい。検索部１５１は、例えばｉを０から（ｍ－１）まで１ずつ増加させることで、第０ビットから第（ｍ－１）ビットの各々について、Ｎ個のデータ部の内、第ｉビットが１であるデータ部の割合が閾値以上であるか否かを判定する。

検索部１５１は、Ｎ個のデータ部において、１である割合が第１閾値以上である第ｉビットが存在する場合、データ部の第ｉビットを用いないことを示すハッシュ関数情報を生成する。これにより、検索部１５１はハッシュ関数情報を用いて、データ部の第ｉビットを用いないハッシュ関数を決定できる。

検索部１５１は、Ｎ個のデータ部において、１である割合が第１閾値以上である第ｉビットが存在しない場合、データ部の全ビットを用いることを示すハッシュ関数情報を生成する。これにより、検索部１５１はハッシュ関数情報を用いて、データ部の全ビットを用いるハッシュ関数を決定できる。

（第２実施形態）
第１実施形態では、検索部１５１は入力データの内容に応じたハッシュ関数情報を生成する。これに対して、第２実施形態では、検索部１５１は入力データ情報を用いてハッシュ関数情報を生成する。入力データ情報は、入力データの内容に関する情報である。

第２実施形態に係る圧縮装置１５の構成は第１実施形態の圧縮装置１５と同様であり、第２実施形態と第１実施形態とでは、検索部１５１のデータ判断部２０の動作のみが異なる。以下、第１実施形態と異なる点を主に説明する。

図１６は、第２実施形態の圧縮装置１５に設けられる検索部１５１の構成例を示す。第２実施形態の検索部１５１は、第１実施形態の検索部１５１と同様に、データ判断部２０、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、および一致比較器２４を備える。

データ判断部２０は、入力データに加えて、入力データ情報を受け付ける。入力データ情報は、入力データを構成する特定の単位の１つ以上のデータ部において、出現する値に偏りがある第ｉビットに関連する情報である。より具体的には、入力データ情報は、入力データを構成する特定の単位の１つ以上のデータ部にそれぞれ含まれる１つ以上の第ｉビットの内、０であるビットの割合、または１つ以上の第ｉビットの内、１であるビットの割合に関連する情報である。第ｉビットは、特定の単位のデータ部を構成するビットデータ列におけるｉ番目のビットである。データ判断部２０は入力データ情報を用いてハッシュ関数情報を生成する。データ判断部２０は、生成したハッシュ関数情報と、入力データとを、ハッシュ計算部２２に出力する。

ハッシュ計算部２２はハッシュ関数情報を用いて、入力データのハッシュ値の計算に用いるハッシュ関数を決定する。そして、ハッシュ計算部２２は、決定したハッシュ関数情報を用いて、入力データのハッシュ値（より詳しくは、入力データの少なくとも一部のハッシュ値）を計算する。

辞書バッファ２１、ハッシュテーブル２３、および一致比較器２４の動作については、第１実施形態で説明した通りである。

図１７は、データ判断部２０およびハッシュ計算部２２の具体的な動作例を示す。まず、入力データ情報の幾つかの具体例を挙げて、データ判断部２０の動作を説明する。

（１）入力データ情報が入力データの形式を示す場合
入力データ情報は入力データの形式を示す。より具体的には、入力データ情報は、例えば、入力データがテキストデータ（テキストファイル）であることを示す。テキストデータでは、バイト単位（文字単位）のデータ部の最上位ビットが常に０である。そのため、入力データ情報が、入力データがテキストデータであることを示す場合、データ判断部２０は、バイト単位のデータ部の最上位ビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。

また、入力データ情報は、例えば、入力データがテキストデータではないこと、または入力データがテキストデータとは別の形式のデータ（ファイル）であることを示し得る。入力データ情報が、入力データがテキストデータでないことを示す場合、データ判断部２０は、データ部の全ビットを用いるハッシュ関数を決定するためのハッシュ関数情報を生成する。

（２）入力データ情報が常に０であるビットまたは常に１であるビットを示す場合
入力データ情報は、例えば、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが常に０であることを示す。データ判断部２０は、第ｉビットが常に０であることを示す入力データ情報を用いて、特定の単位のデータ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。

例えば、入力データがテキストデータである場合に、入力データ情報は、入力データを構成するバイト単位（すなわち文字単位）のデータ部において、最上位ビット（第７ビット）が常に０であることを示してもよい。データ判断部２０は、最上位ビットが常に０であることを示す入力データ情報を用いて、バイト単位のデータ部の最上位ビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。

入力データ情報が、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが常に１であることを示す場合についても同様である。

（３）入力データ情報が０である割合が高いビットまたは１である割合が高いビットを示す場合
入力データ情報は、例えば、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが０である割合が高いことを示す。より詳しくは、入力データ情報は、第ｉビットが０である割合を示す情報を含んでいてもよいし、第ｉビットが０である割合が第１閾値（例えば９５％）以上であることを示す情報を含んでいてもよい。あるいは、入力データ情報は、第ｉビットが０である割合が、第ｉビット以外の各ビットが０である割合よりも高いことを示してもよい。

データ判断部２０は、第ｉビットが０である割合が高いことを示す入力データ情報を用いて、特定の単位のデータ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。あるいは、データ判断部２０は、第ｉビットが０である割合が高いことを示す入力データ情報を用いて、特定の単位のデータ部の第ｉビットを用いる回数（あるいは頻度）が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

入力データ情報が、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが１である割合が高いことを示す場合についても同様である。

（４）入力データ情報が０である割合が低いビットまたは１である割合が低いビットを示す場合
入力データ情報は、例えば、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが０である割合が低いことを示す。より詳しくは、入力データ情報は、第ｉビットが０である割合を示す情報を含んでいてもよいし、第ｉビットが０である割合が第２閾値（例えば５％）以下であることを示す情報を含んでいてもよい。あるいは、入力データ情報は、第ｉビットが０である割合が、第ｉビット以外の各ビットが０である割合よりも低いことを示してもよい。

データ判断部２０は、第ｉビットが０である割合が低いことを示す入力データ情報を用いて、特定の単位のデータ部の第ｉビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。あるいは、データ判断部２０は、第ｉビットが０である割合が低いことを示す入力データ情報を用いて、特定の単位のデータ部の第ｉビットを用いる回数が、第ｉビット以外の各ビットを用いる回数よりも少ないハッシュ関数を決定するためのハッシュ関数情報を生成してもよい。

入力データ情報が、入力データを構成する特定の単位の１つ以上のデータ部において、第ｉビットが１である割合が低いことを示す場合についても同様である。

なお、各ビットの値は０と１のいずれかであるので、（３）で記載した第ｉビットが０である割合が高いことは、（４）で記載した第ｉビットが１である割合が低いことと同義である。また、（３）で記載した第ｉビットが１である割合が高いことは、（４）で記載した第ｉビットが０である割合が低いことと同義である。

以上の（１）から（４）で説明した入力データ情報は例示であって、入力データ情報は、入力データを構成する特定の単位の１つ以上のデータ部において、出現する値に偏りがあるビットを、直接または間接に示す情報であれば、どのような形態の情報であってもよい。

ハッシュ計算部２２は、データ判断部２０によって生成されたハッシュ関数情報に従って、入力データのハッシュ値の計算に用いるハッシュ関数を決定する。そして、ハッシュ計算部２２は、決定したハッシュ関数を用いて、入力データのハッシュ値を計算する。

図１６および図１７に示した構成により、入力データを構成するデータ部において、出現する値に偏りがあるビットが存在する場合、検索部１５１は入力データ情報を用いて、ハッシュの衝突が起きる確率を低下させるハッシュ関数を決定できる。これにより、辞書バッファ２１の検索精度を向上できる。したがって、例えば、辞書バッファ２１を用いて、入力データを辞書アドレスと一致長の組に変換することを利用して、入力データを圧縮する場合に、圧縮効率が向上する。

なお、データ判断部２０は、入力データ情報だけでなく、入力データの内容に関する判断結果も用いて、ハッシュ関数情報を生成してもよい。データ判断部２０が入力データの内容を判断するための動作については、第１実施形態で前述した通りである。

第２実施形態に係る圧縮装置１５の検索部１５１において実行される検索処理の手順は、図１４のフローチャートを参照して前述した検索処理において、ステップＳ１０１のハッシュ関数情報生成処理として、図１８のフローチャートに示す手順が実行されればよい。

図１８は、圧縮装置１５の検索部１５１において実行されるハッシュ関数情報生成処理の手順の例を示すフローチャートである。

まず、検索部１５１は入力データ情報を取得する（ステップＳ３１）。入力データ情報は、入力データＸと共に検索部１５１に入力されてもよいし、ユーザによる操作で入力されてもよい。

検索部１５１は入力データ情報を用いて、ハッシュ関数情報を生成する（ステップＳ３２）。例えば、入力データ情報が、入力データＸがテキストデータであることを示す場合、検索部１５１は、バイト単位のデータ部の最上位ビットを用いないことを示すハッシュ関数情報を生成する。また例えば、入力データ情報が、入力データＸに含まれるバイト単位のデータ部の第ｉビットが常に０であることを示す場合、検索部１５１は、バイト単位のデータ部の第ｉビットを用いないことを示すハッシュ関数情報を生成する。

以上の図１８のハッシュ関数情報生成処理により、検索部１５１は入力データ情報に基づくハッシュ関数情報を生成できる。検索部１５１（より詳しくはハッシュ計算部２２）は、生成したハッシュ関数情報を用いて、例えば、データ部の特定のビットを用いないハッシュ関数を決定できる。

（第３実施形態）
第１実施形態では、検索部１５１は入力データの内容に応じたハッシュ関数情報を生成する。これに対して、第３実施形態では、検索部１５１は入力データを変換し、変換により得られたデータ（変換データ）の内容に応じたハッシュ関数情報を生成する。

第３実施形態に係る圧縮装置１５の構成は第１実施形態の圧縮装置１５と同様であり、第３実施形態と第１実施形態とでは、検索部１５１に入力データを変換するための構成を加え、入力データではなく変換データを処理する点のみが異なる。以下、第１実施形態と異なる点を主に説明する。

図１９は、第３実施形態の圧縮装置１５に設けられる検索部１５１の構成例を示す。検索部１５１は、データ判断部２０、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、一致比較器２４、およびデータ変換部２５を備える。

データ変換部２５は入力データを受け付ける。データ変換部２５は入力データを変換する。

具体的には、データ変換部２５は、入力データを構成するバイト単位のデータ部を、先頭から順にインデックス番号に変換する。変換すべきバイト単位のデータ部が、データ変換部２５に初めて入力された値である場合、データ変換部２５は、その値にインデックス番号を割り当てる。つまり、データ変換部２５は、変換すべきバイト単位のデータ部として、１つの値が最初に出現したことに応じて、その値にインデックス番号を割り当てる。インデックス番号は、０から順に割り当てられ、初めて入力される値が出現する毎に、１ずつ増加する。したがって、より早く出現した値には、より小さいインデックス番号が割り当てられる。

データ変換部２５による入力データの変換を、入力データの具体例を用いて説明する。ここでは、入力データが、先頭から順に、“１０，２０，４４，３８，８８，１０，８８，９０，２，５，１００，．．．”である場合について例示する。

まず、データ変換部２５は、値“１０”にインデックス番号“０”を割り当てる。データ変換部２５は、値“２０”にインデックス番号“１”を割り当てる。データ変換部２５は、値“４４”にインデックス番号“２”を割り当てる。データ変換部２５は、値“３８”にインデックス番号“３”を割り当てる。データ変換部２５は、後続する値についても、その値が最初に出現した際に、同様にしてインデックス番号を割り当てる。

データ変換部２５は、入力データの値に対するインデックス番号の割り当てに従って、入力データの値をインデックス番号に変換する。具体的には、データ変換部２５は、値“１０”をインデックス番号０”に変換する。データ変換部２５は、値“２０”をインデックス番号“１”に変換する。データ変換部２５は、値“４４”をインデックス番号“２”に変換する。データ変換部２５は、値“３８”をインデックス番号“３”に変換する。データ変換部２５は、同様にして、後続する値をインデックス番号に変換する。

したがって、データ変換部２５は、入力データ“１０，２０，４４，３８，８８，１０，８８，９０，２，５，１００，．．．”を、“０，１，２，３，４，０，４，５，６，７，８，．．．”に変換する。データ変換部２５は、変換により得られたデータをデータ判断部２０に出力する。変換により得られたデータを、変換データとも称する。

さらに、データ変換部２５は、入力データの値に対するインデックス番号の割り当てに従って、入力データの値とインデックス番号との対応関係を示すデータ変換表を生成する。

図２０はデータ変換表の一構成例を示す。図２０に示すデータ変換表は、データ変換部２５が、入力データ“１０，２０，４４，３８，８８，１０，８８，９０，２，５，１００，．．．”が入力された場合に生成したデータ変換表である。

データ変換表は、例えば、入力データを辞書式符号化した符号化データを復号する場合に用いられる。データ変換部２５は、生成したデータ変換表を、圧縮データと共に出力する。そして、コントローラ４（より詳しくはＣＰＵ１２）は、データ変換表と圧縮データとを、ＮＡＮＤＩ／Ｆ１３を介してＮＡＮＤ型フラッシュメモリ５に書き込む。データ変換表は、例えば、圧縮データの前方に配置される。つまり、コントローラ４は、データ変換表を圧縮データの前方に追加して、ＮＡＮＤ型フラッシュメモリ５に書き込む。なお、データ変換部２５は、符号化データを復号する外部の装置（例えば伸張装置１６）や処理回路に、データ変換表を送出してもよい。

データ判断部２０、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、および一致比較器２４の動作については、入力データが変換データに置き換えられることを除いて、第１実施形態のデータ判断部２０、辞書バッファ２１、ハッシュ計算部２２、ハッシュテーブル２３、および一致比較器２４の動作と同様である。

図２１は、データ変換によって特定のビットを用いないハッシュ関数が決定される例を示す。図２１に示す例では、データ変換部２５に入力データとして入力される値が、８’ｂ１０１０_１０１０と８’ｂ０１０１_０１０１の２つの値のみである場合を想定する。

これら２つの値を含む入力データを解析した場合、第０ビット（最下位ビット）から第７ビット（最上位ビット）までの８つのビットのいずれにも、０と１の両方の値が出現する。そのため、データ判断部２０は、入力データを構成するバイト単位のデータ部において、常に０であるビットを、あるいは常に１であるビットを、検知できない。

そこで、データ変換部２５は、例えば、８’ｂ１０１０_１０１０をインデックス番号“０”（＝８’ｂ００００_００００）に変換し、８’ｂ０１０１_０１０１をインデックス番号“１”（＝８’ｂ００００_０００１）に変換する。つまり、データ変換部２５は、入力データを、“０”と“１”で構成されるデータに変換する。

変換データに含まれるバイト単位のデータ部は、最下位ビット（第０ビット）以外の、第１ビットから第７ビットまでの７つのビットが全て０になる。これにより、データ判断部２０は、変換データを構成するバイト単位のデータ部において、常に０である第１ビットから第７ビットを検知できる。そして、データ判断部２０は、例えば、データ部の第１ビットから第７ビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成する。ハッシュ計算部２２は、ハッシュ関数情報に従って、データ部の第１ビットから第７ビットを用いないハッシュ関数で、変換データ（より詳しくは変換データの少なくとも一部）のハッシュ値を計算する。

ここで、より実用的な例として、入力データを構成するバイト単位の各データ部が、０から３ずつ増加させたいずれかの値である場合を想定する。つまり、バイト単位の各データ部は、例えば、０，３，６，９，．．．，２５２のいずれかの値である。この場合、入力される値の種類は、８６種類以下となる。

入力される値の種類が８６種類以下であるので、データ変換部２５は、入力データを構成するバイト単位の各データ部の値を、０から８５までのいずれかのインデックス番号に変換できる。つまり、データ変換部２５は、入力データを構成するバイト単位の各データ部の値を、最上位ビットが常に０になるインデックス番号に変換できる。したがって、データ判断部２０は、例えば、データ部の最上位ビットを用いないハッシュ関数を決定するためのハッシュ関数情報を生成できる。ハッシュ計算部２２は、ハッシュ関数情報に従って、データ部の最上位ビットを用いないハッシュ関数で、変換データのハッシュ値を計算する。これにより、ハッシュの衝突が起きる確率を低減できる。

また、入力される値の種類が１２９種類以上である場合、例えば、データ変換部２５は、特定の量の入力データを、あるいは全ての入力データをバッファする。そして、データ変換部２５は、出現頻度が低い値に、１２９以上のインデックス番号を割り当てる。これにより、変換データに含まれる値（データ部）の最上位ビットが１である確率を低くすることができる。したがって、データ変換部２５は、入力データを、最上位ビットが１である確率が低いインデックス番号で構成されるデータに変換できる。

そして、データ判断部２０およびハッシュ計算部２２は、最上位ビットを用いないハッシュ関数で、変換データのハッシュ値を計算する。あるいは、データ判断部２０およびハッシュ計算部２２は、最上位ビットを用いる回数が、最上位ビット以外の各ビットを用いる回数よりも少ないハッシュ関数で、変換データのハッシュ値を計算してもよい。これにより、ハッシュの衝突が起きる確率を低減できる。

図１９から図２１に示した構成により、検索部１５１は、入力される値の種類が少ない場合に、入力データを変換することで、ハッシュの衝突が起きる確率を低下させる。これにより、辞書バッファ２１の検索精度を向上できる。したがって、例えば、辞書バッファ２１を用いて、入力データを辞書アドレスと一致長の組に変換することを利用して、入力データを圧縮する場合に、圧縮効率が向上する。

図２２は、圧縮装置１５の検索部１５１において実行される検索処理の手順の例を示すフローチャートである。検索処理は、入力データＸを変換した変換データＹを取得し、辞書バッファ２１を検索して、変換データＹに対する辞書式符号化を行うための処理である。

まず、検索部１５１は、入力データＸを変換した変換データＹを取得する（ステップＳ４０１）。検索部１５１は、例えば、入力データＸをインデックスに変換することによって、変換データＹを取得する。

検索部１５１は、変換データＹに対するハッシュ関数情報生成処理を実行する（ステップＳ４０２）。ステップＳ４０２のハッシュ関数情報生成処理の具体的な手順は、図１５のフローチャートを参照して前述したハッシュ関数情報生成処理において、入力データＸを変換データＹに置き換えればよい。

また、以降のステップＳ４０３からステップＳ４１３までの手順は、図１４のフローチャートを参照して前述した検索処理のステップＳ１０２からステップＳ１１２までの手順において、入力データＸを変換データＹに置き換え、入力データＸのハッシュ値Ｈ（Ｘ）を変換データＹのハッシュ値Ｈ（Ｙ）に置き換えればよい。

ステップＳ４０３からステップＳ４１３までの手順で変換データＹの辞書式符号化が完了した後、検索部１５１は後続する入力データＸがあるか否かを判定する（ステップＳ４１４）。後続する入力データＸがある場合（ステップＳ４１４のＹＥＳ）、検索部１５１は入力データＸを変換した変換データＹを取得して（ステップＳ４１５）、ステップＳ４０４に戻る。つまり、検索部１５１は、後続する入力データＸを変換した変換データＹの辞書式符号化のための処理を行う。この変換データＹのハッシュ値の計算には、ステップＳ４０３で既に決定されたハッシュ関数Ｈが用いられる。なお、検索部１５１は、ステップＳ４０１およびステップＳ４１５において、特定の単位毎に入力データＸを変換データＹに変換する代わりに、ステップＳ４０１において、ファイルのような入力データ全体を変換した変換データを取得してもよい。

一方、後続する入力データＸがない場合（ステップＳ４１４のＮＯ）、検索部１５１は検索処理を終了する。

以上の図２２の検索処理により、検索部１５１は、入力データＸを変換した変換データＹを取得した後、辞書バッファ２１を検索して、変換データＹに対する辞書式符号化を行うことができる。具体的には、変換データＹと少なくとも一部が一致するデータが辞書バッファ２１に記憶されている場合、検索部１５１は変換データＹを辞書アドレス（第１アドレス）と一致長との組に変換できる。変換データＹと少なくとも一部が一致するデータが辞書バッファ２１に記憶されていない場合、検索部１５１は変換データＹをそのまま出力する。

また、検索部１５１は、変換データＹを辞書バッファ２１に新たに登録できる。すなわち、検索部１５１は、変換データＹを辞書バッファ２１に格納した後、ハッシュ値Ｈ（Ｙ）を利用して辞書バッファ２１に記憶された変換データＹにアクセスできるように、ハッシュテーブル２３に、変換データＹが記憶された辞書アドレス（第２アドレス）を格納する。これにより、検索部１５１は、以降の入力データを変換した変換データの辞書式符号化に、辞書バッファ２１に登録された変換データＹを利用できる。

以上説明したように、第１乃至第３実施形態によれば、辞書内のデータの検索精度を向上できる。ハッシュテーブル２３は、複数のハッシュ値にそれぞれ関連付けられた複数のアドレスを記憶する。辞書バッファ２１は、これら複数のアドレスでそれぞれ特定される複数の記憶領域であって、複数のデータをそれぞれ記憶する複数の記憶領域を含む。データ判断部２０およびハッシュ計算部２２は、第１データの少なくとも一部に基づいて、第１データに対して用いるべき第１ハッシュ関数を決定し、第１ハッシュ関数と、第１データに含まれる第２データの少なくとも一部とを用いて、第１ハッシュ値を計算する。一致比較器２４は、ハッシュテーブル２３に記憶された、第１ハッシュ値に関連付けられた第１アドレス（辞書リードアドレス）を用いて、辞書バッファ２１内の第１アドレスで特定される記憶領域から第３データを取得し、第２データと第３データとを比較する。

データ判断部２０およびハッシュ計算部２２は、第１データに基づいて第１ハッシュ関数を決定するので、ハッシュの衝突を発生させる確率が低いハッシュ関数を用いて、第２データのハッシュ値を計算できる。これにより、一致比較器２４が、第２データと比較される対象として適切な第３データを辞書バッファ２１から取得できる可能性が高まる。つまり、辞書バッファ２１内のデータの検索精度を向上できる。したがって、例えば、辞書バッファ２１を用いて、入力データを辞書アドレスと一致長の組に変換することを利用して、入力データを圧縮する場合に、圧縮効率が向上する。

また、第１乃至第３実施形態に記載された様々な機能の各々は、回路（処理回路）によって実現されてもよい。処理回路の例には、中央処理装置（ＣＰＵ）のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたコンピュータプログラム（命令群）を実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例には、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、マイクロコントローラ、コントローラ、他の電気回路部品も含まれる。これら実施形態に記載されたＣＰＵ以外の他のコンポーネントの各々もまた処理回路によって実現されてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…情報処理システム、２…ホスト、３…メモリシステム、４…コントローラ、５…ＮＡＮＤ型フラッシュメモリ、６…ＤＲＡＭ、１０…バス、１１…ホストＩ／Ｆ、１２…ＣＰＵ、１３…ＮＡＮＤＩ／Ｆ、１４…ＤＲＡＭＩ／Ｆ、１５…圧縮装置、１５１…検索部、１５２…エントロピー符号化部、１５３…パック処理部、２０…データ判断部、２１…辞書バッファ、２２…ハッシュ計算部、２３…ハッシュテーブル、２４…一致比較器。

Claims

複数のハッシュ値にそれぞれ関連付けられた複数のアドレスを記憶する第１記憶部と、
前記複数のアドレスでそれぞれ特定される複数の記憶領域であって、複数のデータをそれぞれ記憶する複数の記憶領域を含む第２記憶部と、
第１データの少なくとも一部に基づいて、前記第１データに対して用いるべき第１ハッシュ関数を決定し、前記第１ハッシュ関数と、前記第１データに含まれる第２データの少なくとも一部とを用いて、第１ハッシュ値を計算する計算部と、
前記第１記憶部に記憶された、前記第１ハッシュ値に関連付けられた第１アドレスを用いて、前記第２記憶部内の前記第１アドレスで特定される記憶領域から第３データを取得し、前記第２データと前記第３データとを比較する比較部と
を具備する圧縮装置。
前記第１データは、１つ以上のデータ部で構成されるｎバイトのデータを含み、
前記１つ以上のデータ部の各々は、ｍビットの長さを有し、
前記ｎは１以上の整数であり、
前記ｍは２以上の整数であり、
前記計算部は、
前記１つ以上のデータ部にそれぞれ含まれる１つ以上の第ｉビットの内、０であるビットの第１割合、または前記１つ以上の第ｉビットの内、１であるビットの第２割合を計算し、
前記第１割合または前記第２割合が第１閾値を超えている場合、前記第ｉビットを用いない前記第１ハッシュ関数を決定し、
前記ｉは、０以上であって前記ｍ未満の整数である、
請求項１記載の圧縮装置。
前記第１データは、１つ以上のデータ部で構成されるｎバイトのデータを含み、
前記１つ以上のデータ部の各々は、ｍビットの長さを有し、
前記ｎは１以上の整数であり、
前記ｍは２以上の整数であり、
前記計算部は、
前記１つ以上のデータ部にそれぞれ含まれる１つ以上の第ｉビットの内、０であるビットの第１割合、または前記１つ以上の第ｉビットの内、１であるビットの第２割合を計算し、
前記第１割合または前記第２割合が第２閾値未満である場合、前記第ｉビットを用いる回数が、前記第ｉビット以外の１以上のビットをそれぞれ用いる回数よりも少ない前記第１ハッシュ関数を決定し、
前記ｉは、０以上であって前記ｍ未満の整数である、請求項１記載の圧縮装置。
前記第１データは、１つ以上のデータ部で構成されるｎバイトのデータを含み、
前記１つ以上のデータ部の各々は、ｍビットの長さを有し、
前記ｎは１以上の整数であり、
前記ｍは２以上の整数であり、
前記計算部は、前記１つ以上のデータ部において、出現する値に偏りがある第ｉビットに関連する情報を取得し、前記情報を用いて前記第１ハッシュ関数を決定し、
前記ｉは、０以上であって前記ｍ未満の整数である、
請求項１記載の圧縮装置。
前記情報は、前記１つ以上のデータ部にそれぞれ含まれる１つ以上の第ｉビットの内、０であるビットの第１割合、または前記１つ以上の第ｉビットの内、１であるビットの第２割合に関連する情報である、
請求項４記載の圧縮装置。
前記計算部は、前記情報を用いて、前記第ｉビットを用いない前記第１ハッシュ関数を決定する、
請求項４または請求項５記載の圧縮装置。
前記計算部は、前記情報を用いて、前記第ｉビットを用いる回数が、前記第ｉビット以外の１以上のビットをそれぞれ用いる回数よりも少ない前記第１ハッシュ関数を決定する、
請求項４または請求項５記載の圧縮装置。
前記計算部は、
前記第１データの少なくとも一部に基づいて、前記第１データに対して用いるべき前記第１ハッシュ関数を決定し、
前記第１ハッシュ関数と、前記第１データに含まれる前記第３データの少なくとも一部とを用いて、前記第１ハッシュ値を計算し、
前記第２記憶部は、前記第１アドレスで特定される前記記憶領域に前記第３データを記憶し、
前記第１記憶部は、前記第１ハッシュ値に関連付けられた前記第１アドレスを記憶し、
前記計算部は、前記第１ハッシュ関数と、前記第２データの少なくとも一部とを用いて、前記第１ハッシュ値を計算し、
前記比較部は、前記第１記憶部に記憶された、前記第１ハッシュ値に関連付けられた前記第１アドレスを用いて、前記第２記憶部内の前記第１アドレスで特定される記憶領域から前記第３データを取得し、前記第２データと前記第３データとを比較する、
請求項１乃至請求項７のいずれか一項に記載の圧縮装置。
入力された第４データを前記第１データに変換する変換部をさらに具備する、
請求項１乃至請求項８のいずれか一項に記載の圧縮装置。
前記変換部は、前記第１データを前記第４データに変換するための変換情報を生成する、
請求項９記載の圧縮装置。
圧縮装置を制御する制御方法であって、
前記圧縮装置は、
複数のハッシュ値にそれぞれ関連付けられた複数のアドレスを記憶する第１記憶部と、
前記複数のアドレスでそれぞれ特定される複数の記憶領域であって、複数のデータをそれぞれ記憶する複数の記憶領域を含む第２記憶部とを具備し、
前記制御方法は、
第１データの少なくとも一部に基づいて、前記第１データに対して用いるべき第１ハッシュ関数を決定し、
前記第１ハッシュ関数と、前記第１データに含まれる第２データの少なくとも一部とを用いて、第１ハッシュ値を計算し、
前記第１記憶部内の、前記第１ハッシュ値に関連付けられた第１アドレスを用いて、前記第２記憶部内の前記第１アドレスで特定される記憶領域から第３データを取得し、前記第２データと前記第３データとを比較する、制御方法。