JP7476715B2

JP7476715B2 - 情報処理装置及び重複率見積もりプログラム

Info

Publication number: JP7476715B2
Application number: JP2020134377A
Authority: JP
Inventors: 頌太山下; 智徳古田; 知寛宇納
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2024-05-01
Anticipated expiration: 2040-08-07
Also published as: US20220043592A1; EP3951583A1; JP2022030385A

Description

本発明は、情報処理装置及び重複率見積もりプログラムに関する。

クラウドストレージなどの有料なストレージを利用する場合、利用コストは、データのサイズに基づいて決定される。このため、利用コストは、重複排除によるデータの重複排除率に依存する。重複排除率が大きければ、重複排除によりデータのサイズを小さくすることができ、利用コストを小さくすることができる。例えば、１ＰＢ（Peta Byte）のデータの場合、削減率が１０％違うと、１００ＴＢ（Tera Byte）のストレージが不要になる。このため、有料なストレージを利用する場合には、重複排除率の見積もりが重要となる。

なお、従来技術として、統合後に必要となる物理領域の大きさをユーザが予め見積もるために、複数のプールを統合した場合の重複除去率を算出する情報処理装置がある。この情報処理装置は重複数算出部と重複除去率算出部とを有する。重複数算出部は、２つのプールの単位データの重複数と２つのプールのリファレンスカウントの総数を算出する。重複除去率算出部は、重複数、リファレンスカウントの総数を用いて重複除去率を算出する。

また、従来技術として、データ削減効果の低下を軽減することと重複排除のパフォーマンスを向上することの両方を実現するストレージシステムがある。このストレージシステムは、重複排除処理において、データを複数のチャンクデータに分割し、平均してチャンクデータＮ個につき１個のチャンクデータの選択を意味するサンプリング周期にしたがい、複数のチャンクデータから１以上のチャンクデータを選択する。そして、このストレージシステムは、選択された１以上のチャンクデータである１以上の特徴チャンクデータの各々について、ハッシュ値のようなフィンガープリントを算出しその特徴チャンクデータを含むデータが重複か否かを判定する。また、ストレージシステムは、過去の重複排除処理の結果を基に、サンプリング周期を変更する。

特開２０１９－１６２９３号公報国際公開第２０１６／１８１４７９号

重複排除率を見積もるために、実際に重複排除を行うことが考えられる。しかしながら、実際に重複排除を行うと時間がかかるという問題がある。例えば、１ＰＢのデータを重複排除する場合、１００ＭＢ（Mega Byte）／秒でデータを読み込むと、データの読み込みだけでも概算で１０¹⁵／１０⁸秒＝１０⁷秒＝１０⁷／（６０×６０×２４）日＝１０⁵／（３６×２４）日すなわち１００日以上かかる。

本発明は、１つの側面では、重複排除率を短時間で精度よく推定することを目的とする。

１つの態様では、情報処理装置は、管理部と分類部と第１計算部と第２計算部と合成部とを有する。前記管理部は、見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理する。前記分類部は、前記管理部により管理される重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第１グループと重複数が所定数より多い第２グループに分類する。前記第１計算部は、前記第１グループに分類されたサンプルデータについて第１重複排除率を計算する。前記第２計算部は、前記第２グループに分類されたサンプルデータについて第２重複排除率を計算する。前記合成部は、前記第１重複排除率と前記第２重複排除率に基づいて前記見積もり対象データの重複排除率を計算する。

１つの側面では、本発明は、重複排除率を短時間で精度よく推定することができる。

図１は、ｍ多重モデルに基づく重複排除率の推定を説明するための第１の図である。図２は、ｍ多重モデルに基づく重複排除率の推定を説明するための第２の図である。図３は、Ｕ＆Ｚモデルを説明するための図である。図４は、複雑なモデルの一例を示す図である。図５は、ｎ＝１，２，・・・，Ｍについて期待値Ｅ（ｎ，ｘ）を示す図である。図６は、実施例に係る重複率見積もり装置による重複排除率の見積もり方法を説明するための図である。図７は、実施例に係る重複率見積もり装置の機能構成を示す図である。図８は、グローバルチャンクテーブル及び少数チャンクテーブルにそれぞれ含まれるレコードの一例を示す図である。図９Ａは、重複率見積もり装置による処理のフローを示す第１のフローチャートである。図９Ｂは、重複率見積もり装置による処理のフローを示す第２のフローチャートである。図９Ｃは、重複率見積もり装置による処理のフローを示す第３のフローチャートである。図１０は、実施例に係る重複率見積もりプログラムを実行するコンピュータのハードウェア構成を示す図である。

以下に、本願の開示する情報処理装置及び重複率見積もりプログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

まず、単純なモデルに基づいて重複排除率を推定した場合の精度について図１～図３を用いて説明する。図１及び図２は、ｍ多重モデルに基づく重複排除率の推定を説明するための図である。ここで、ｍ多重モデルとは、図１（ａ）に示すように、重複排除前の元データにｍ個の同じデータＡが含まれるモデルである。ｍ多重モデルでは、重複排除によりｍ個のデータは１個になる。重複排除率ｒ＝１／ｍである。

元データのうちスキャンされたデータの割合をｘとする。ここで、スキャンとは、重複排除率を推定するために元データからデータを読み出すことである。スキャンはチャンク単位で行われる。チャンクの大きさは可変である。ｘは、例えば０．０１である。各チャンクについてみると、スキャンされている確率はｘである。

各チャンクは、図１（ｂ）に示すように、スキャンされていないので重複検出されないか、スキャンされているが同一データがスキャンされていないので重複検出されないか、又は、同一データがスキャンされているので重複検出される、のいずれかである。

チャンクがスキャンされず重複検出されない確率は、スキャンされない確率が１－ｘであるので、(１－ｘ)＾ｍである。「＾」は、べき乗演算を表す。チャンクがスキャンされて同一データが重複検出されない確率は、ｍ・ｘ・(１－ｘ)＾(ｍ－１)である。「・」は乗算を表す。チャンクがスキャンされて同一データが重複検出される確率は、１から上記２つの確率を引いて、１－(１－ｘ)＾ｍ－ｍ・ｘ・(１－ｘ)＾(ｍ－１)である。

実際のスキャンにおいて重複検出された率をＤとすると、
１－(１－ｘ)＾ｍ－ｍ・ｘ・(１－ｘ)＾(ｍ－１)＝Ｄ・・・（１）
である。式（１）において、Ｄに実測値を代入し、ｘに０．０１などの固定値を代入すると、式（１）はｍに関する方程式であり、この方程式を解くことでｍを計算することができる。

式（１）の左辺はｍについての単調関数なので、式（１）の方程式を解くことなく、ｍをパラメータとして近似探索することで、ｍを計算することができる。また、ｒ＝１／ｍであるので、ｍからｒを計算することができる。図２は、ｘ＝０．０１の場合のＤとｒの関係を示すグラフである。図２から、Ｄ＝０．０００１のとき、重複排除率ｒは０．５である。

図３は、Ｕ＆Ｚモデルを説明するための図である。図３に示すように、Ｕ＆Ｚモデルは、元データのうちユニークな割合がｕ（０≦ｕ≦１）であり、残りの割合（１－ｕ）のデータが全く同一（例えば全て０）であるモデルである。図３では、Ｕはユニークデータの集合であり、Ｚは同一データの集合である。元データのモデルがＵ＆Ｚモデルであると、同一データは重複排除され、重複排除率ｒ＝ｕである。また、ピックアップされたデータがＺに含まれる確率＝重複検出される確率Ｄ＝１－ｕである。したがって、重複排除率ｒ＝１－Ｄであり、Ｄ＝０．０００１のとき、重複排除率ｒ＝０．９９９９である。

このように、元データのモデルが異なると、重複排除率の予測値は大きく異なる。すなわち、元データのモデルを単純なモデルとし、部分スキャンによって重複排除率を予測すると、予測値の精度が悪い。そこで、元データのモデルを複雑にして予測値の精度を向上することが考えられる。

図４は、複雑なモデルの一例を示す図である。図４に示すように、ユニークデータのデータ量をＤ（１）、２多重データのデータ量をＤ（２）、・・・、最多多重データのデータ量をＤ（Ｍ）とすると、元データのデータ量はΣＤ（ｍ）（ｍ＝１．．Ｍ）である。ここで、「１．．Ｍ」は「１からＭまで」を表す。元データから重複排除が行われた後のデータ量はΣ（１／ｍ）Ｄ（ｍ）（ｍ＝１．．Ｍ）である。したがって、部分スキャンを行いながら重複度ごとのデータ量Ｄ（ｍ）（ｍ＝１．．Ｍ）を予測することで、重複排除率ｒを予測することができる。ｒ＝｛Σ（１／ｍ）Ｄ（ｍ）｝／｛ΣＤ（ｍ）｝である。なお、このｒの式では、（ｍ＝１．．Ｍ）は省略されている。

データ量Ｄ（ｍ）（ｍ＝１．．Ｍ）は以下のように予測される。重複度ｍのデータが割合ｘの部分スキャンで、ｎ多重に重複検出される確率はＣ（ｍ，ｎ）・ｘ＾ｎ・（１－ｘ）＾（ｍ－ｎ）である。ここで、Ｃ（ｍ，ｎ）は、ｍ！／｛（ｍ－ｎ）！ｎ！｝である。

したがって、割合ｘの部分スキャンで、ｎ多重検出されるデータ量の期待値Ｅ（ｎ，ｘ）は、Ｅ（ｎ，ｘ）＝Σ_｛ｍ＝ｎ．．Ｍ｝Ｄ（ｍ）Ｃ（ｍ，ｎ）・ｘ＾ｎ・（１－ｘ）＾（ｍ－ｎ）である。ここで、Σ_｛ｍ＝ｎ．．Ｍ｝は、ｍをｎからＮまで変化させた和を表す。図５は、ｎ＝１，２，・・・，Ｍについて期待値Ｅ（ｎ，ｘ）を示す図である。図５に示すように、式（２－１）～（２－Ｍ）は、変数Ｄ（ｍ）（ｍ＝１．．Ｍ）についての連立一次方程式であり、この連立方程式を解くことにより重複排除率ｒを計算することができる。

式（２－１）～（２－Ｍ）において、Ｃ（ｍ，ｎ）については正規曲線近似を行い、ｘや（１－ｘ）のべき乗計算については対数を取ってから計算すれば、各項の計算は、ｍ、ｎによらず、３回のｅｘｐ計算、１０回程度の四則演算で可能である。また、この連立方程式は、係数行列が三角行列なので、比較的容易に解くことができる。

しかしながら、例えば１ＰＢの総データを平均３２ＫＢ（Kiro Byte）のチャンク長で分割する重複排除の場合、Ｍの最大値は、１ＰＢ／３２ＫＢ＝３２Ｇとなる。したがって、式（２－１）～（２－Ｍ）の連立方程式を解くためには、３２Ｇ×３２Ｇの超巨大なサイズの逆行列の計算が必要となり、一般的なサーバーで計算することはできない。

このように、元データのモデルを複雑にすると重複排除率ｒを高精度で計算することができるが、計算コストが大きくなる。そこで、実施例に係る重複率見積もり装置は、スキャンで検出されたチャンクを、「多数回重複するチャンク」と「少数回しか重複しないチャンク」に分類し、それぞれのグループで異なる見積もり手法を用いる。

式（２－１）～（２－Ｍ）の連立方程式を用いた重複排除率の見積もりを困難にしているのは、多数回重複する一部のデータである。数回しか重複しないものは、全体の期待値計算の誤差に寄与する割合は相対的に少ない。ｍが大きいほど係数が大きく、ｍは多数のｎに関与する。そこで、実施例に係る重複率見積もり装置は、全データのうち割合ｘでスキャンして各チャンクの重複回数をカウントし、スキャンしたチャンク全体を重複回数がＮ以下のグループとＮ＋１以上のグループに分ける。

図６は、実施例に係る重複率見積もり装置による重複排除率の見積もり方法を説明するための図である。図６では、一例としてＮ＝３である。図６に示すように、実施例に係る重複率見積もり装置は、スキャンしたチャンク全体を重複回数が４以上の多数チャンクのグループと重複回数が３以下の少数チャンクのグループに分ける。

そして、実施例に係る重複率見積もり装置は、少数チャンクのグループについては、式（２－１）～（２－Ｍ）の連立方程式を解いて重複排除率を見積もり、多数チャンクのグループについては、他の手法を用いて重複排除率を見積もる。実施例に係る重複率見積もり装置は、多数チャンクのグループについては、例えば、グループ内のチャンクの種類数とグループ内のチャンクの総数の比を重複排除率とする。そして、実施例に係る重複率見積もり装置は、２つのグループの見積もり結果を合算することで、全体の重複排除率を見積もる。

このように、実施例に係る重複率見積もり装置は、少数チャンクのグループについてだけ、式（２－１）～（２－Ｍ）の連立方程式を解いて重複排除率を見積もるので、Ｍを小さくすることができ、計算コストを小さくすることができる。

次に、実施例に係る重複率見積もり装置の機能構成について説明する。図７は、実施例に係る重複率見積もり装置の機能構成を示す図である。図７に示すように、実施例に係る重複率見積もり装置１は、ファイル入出力部１１と、見積もり部１２と、結果出力部１３とを有する。

ファイル入出力部１１は、見積もり対象データから割合ｘのデータを取得する。ファイル入出力部１１は、割合ｘのデータを複数のチャンクとして取得する。ファイル入出力部１１は、例えばローカルディスクに格納されたファイルからチャンクを読み込む。ファイル入出力部１１は、ＮＦＳ（Network File System）、ＳＭＢ（Server Message Block）などのＮＡＳ（Network Attached Storage）インタフェースを介してチャンクを読み込んでもよい。

見積もり部１２は、ファイル入出力部１１により読み込まれた複数のチャンクを用いて見積もり対象データの重複排除率を計算する。

結果出力部１３は、見積もり部１２により計算された重複排除率をディスプレイ２に表示する。結果出力部１３は、重複排除率をファイルに書き込んでもよい。

見積もり部１２は、記憶部２１と、重複判定部２２と、重複数管理部２３と、チャンク管理部２４と、計算部２５とを有する。

記憶部２１は、グローバルチャンクテーブル３１と少数チャンクテーブル３２を用いてチャンクに関する情報を記憶する。グローバルチャンクテーブル３１は、チャンクの重複数の管理に用いられるテーブルである。少数チャンクテーブル３２は、少数チャンクのグループに含まれるチャンクの種類の数の管理に用いられるテーブルである。

図８は、グローバルチャンクテーブル３１及び少数チャンクテーブル３２にそれぞれ含まれるレコードの一例を示す図である。図８（ａ）はグローバルチャンクテーブル３１に含まれるレコードを示し、図８（ｂ）は少数チャンクテーブル３２に含まれるレコードを示す。

図８（ａ）に示すように、グローバルチャンクテーブル３１に含まれるレコードには、ハッシュ値と重複数が含まれる。ハッシュ値は、チャンクからハッシュ関数を用いて計算される値である。重複数は、ハッシュ値に対応するチャンクの重複数である。グローバルチャンクテーブル３１では、ハッシュ値がキーである。

図８（ｂ）に示すように、少数チャンクテーブル３２に含まれるレコードには、重複数とハッシュ値の種類数が含まれる。重複数は、少数チャンクテーブル３２に含まれるチャンクの重複数である。ハッシュ値の種類数は、重複する数が重複数であるハッシュ値（チャンク）の種類の数である。

図７に戻って、重複判定部２２は、ファイル入出力部１１により読み込まれたチャンクのハッシュ値を計算し、計算したハッシュ値がグローバルチャンクテーブル３１に登録されているか否かを判定することで、チャンクが重複するか否かを判定する。

重複数管理部２３は、グローバルチャンクテーブル３１を用いてチャンクごとの重複数を管理する。重複数管理部２３は、計算したハッシュ値がグローバルチャンクテーブル３１に登録されていると重複判定部２２により判定された場合には、ハッシュ値に対応する重複数に１を加える。一方、計算したハッシュ値がグローバルチャンクテーブル３１に登録されていないと重複判定部２２により判定された場合には、ハッシュ値をグローバルチャンクテーブル３１に登録し、対応する重複数を１とする。

チャンク管理部２４は、重複数に基づいてチャンク全体を少数チャンクのグループと多数チャンクのグループに分け、チャンクの情報を管理する。チャンク管理部２４は、グローバルチャンクテーブル３１から１レコードずつ読み出して少数チャンクテーブル３２を作成して管理する。また、チャンク管理部２４は、多数グループに属するチャンクの総数、多数グループに属するチャンクの種類数を計算する。

計算部２５は、チャンク管理部２４が管理する情報に基づいて、見積もり対象データの重複排除率を計算する。計算部２５は、第１計算部４１と第２計算部４２と合成部４３とを有する。

第１計算部４１は、少数チャンクのグループについて、重複度ごとのデータ量Ｄ（ｍ）（ｍ＝１．．Ｎ）を推定することで、重複排除率ｒを推定する。第１計算部４１は、少数チャンクのグループについて、割合ｘの部分スキャンで、ｎ多重検出されるデータ量の期待値Ｅ（ｎ，ｘ）を用いて、データ量Ｄ（ｍ）（ｍ＝１．．Ｎ）を推定する。

すなわち、第１計算部４１は、少数チャンクのグループについて、式（２－１）～（２－Ｍ）の連立方程式を解いて重複排除率を計算する。第１計算部４１は、少数チャンクテーブル３２から１レコードずつ読み出して連立方程式を作成する。

第２計算部４２は、多数チャンクのグループについて、グループ内のチャンクの種類数とグループ内のチャンクの総数の比を重複排除率として計算する。

合成部４３は、第１計算部４１により計算された重複排除率と第２計算部４２により計算された重複排除率のチャンク数に基づく重み付き平均を計算することにより見積もり対象データの重複排除率を計算する。

次に、重複率見積もり装置１による処理のフローについて図９Ａ～図９Ｃを用いて説明する。図９Ａ～図９Ｃは、重複率見積もり装置１による処理のフローを示すフローチャートである。図９Ａに示すように、重複率見積もり装置１は、見積もり対象データの総量Ａを取得し（ステップＳ１）、スキャン量の割合ｘを定義する（ステップＳ２）。なお、重複率見積もり装置１は、ユーザがキーボードやマウスを用いて入力した値をｘとして受け付けてもよい。

そして、重複率見積もり装置１は、グローバルチャンクテーブル３１を初期化する（ステップＳ３）。すなわち、重複率見積もり装置１は、グローバルチャンクテーブル３１をレコードなしの状態にする。そして、重複率見積もり装置１は、見積もり対象データからチャンク（サンプルデータ）をランダムサンプリングする（ステップＳ４）。

そして、重複率見積もり装置１は、チャンクをハッシュ化し（ステップＳ５）、ハッシュ化した値がグローバルチャンクテーブル３１に登録済のハッシュ値か否かを判定する（ステップＳ６）。そして、ハッシュ化した値がグローバルチャンクテーブル３１に登録済のハッシュ値である場合には、重複率見積もり装置１は、登録済のハッシュ値に対応するレコードの重複数をインクリメント（１増加）する（ステップＳ７）。一方、ハッシュ化した値がグローバルチャンクテーブル３１に登録済のハッシュ値でない場合には、重複率見積もり装置１は、ハッシュ化した値を含むレコードをグローバルチャンクテーブル３１に新規作成する（ステップＳ８）。その際、重複率見積もり装置１は、作成したレコードの重複数を１とする。

そして、重複率見積もり装置１は、処理したチャンクの合計サイズがＡ・ｘ未満か否かを判定し（ステップＳ９）、Ａ・ｘ未満である場合には、ステップＳ４に戻る。一方、処理したチャンクの合計サイズがＡ・ｘ未満でない場合には、重複率見積もり装置１は、図９Ｂに示すように、少数チャンクテーブル３２を初期化する（ステップＳ１０）。具体的には、重複率見積もり装置１は、重複数１．．ＮのＮ個のレコードを作成し、各レコードのハッシュ値の種類数を０初期化する。

そして、重複率見積もり装置１は、多数チャンクの総数major_chunknumを０で初期化し（ステップＳ１１）、多数チャンクの種類数major_entnumを０で初期化する（ステップＳ１２）。そして、重複率見積もり装置１は、グローバルチャンクテーブル３１から１レコード読み出し（ステップＳ１３）、重複数がＮ以下か否かを判定する（ステップＳ１４）。

そして、重複数がＮ以下でない場合には、重複率見積もり装置１は、major_chunknumに重複数を加算し（ステップＳ１５）、major_entnumをインクリメントする（ステップＳ１６）。一方、重複数がＮ以下である場合には、重複率見積もり装置１は、少数チャンクテーブル３２のキーが重複数に一致するレコードのハッシュ値の種類数をインクリメントする（ステップＳ１７）。

そして、重複率見積もり装置１は、グローバルチャンクテーブル３１に読み出していないレコードが残っているか否かを判定し（ステップＳ１８）、残っている場合には、ステップＳ１３に戻る。一方、残っていない場合には、重複率見積もり装置１は、図９Ｃに示すように、見積もり対象データから生成される総チャンク数total_chunknumをＡ／平均チャンクサイズで計算する（ステップＳ１９）。

そして、重複率見積もり装置１は、多数チャンクが全体に占める割合major_ratioをmajor_chunknum／total_chunknumで計算し（ステップＳ２０）、少数チャンクが全体に占める割合minor_ratioを１－major_ratioで計算する（ステップＳ２１）。そして、重複率見積もり装置１は、多数チャンクの重複排除率major_rをmajor_entnum／major_chunknumで計算する（ステップＳ２２）。

そして、重複率見積もり装置１は、少数チャンクテーブル３２からレコードを１つ読み出し（ステップＳ２３）、読み出したレコードの重複数ｎをもとに、Ｅ（ｎ，ｘ）にｎ＊ハッシュの種類数を代入する（ステップＳ２４）。ここで、「＊」は乗算を表す。そして、重複率見積もり装置１は、少数チャンクテーブル３２に読み出していないレコードが残っているか否かを判定し（ステップＳ２５）、残っている場合には、ステップＳ２３に戻る。

一方、少数チャンクテーブル３２に読み出していないレコードが残っていない場合には、重複率見積もり装置１は、Ｅ（ｎ，ｘ）＝Σ_｛ｍ＝ｎ．．Ｍ｝Ｄ（ｍ）Ｃ（ｍ，ｎ）・ｘ＾ｎ・（１－ｘ）＾（ｍ－ｎ）をＤ（ｍ）について解く（ステップＳ２６）。そして、重複率見積もり装置１は、少数チャンクの重複排除率minor_rをminor_r＝｛Σ（１／ｍ）・Ｄ（ｍ）｝／｛ΣＤ（ｍ）｝で計算する（ステップＳ２７）。

そして、重複率見積もり装置１は、見積もり対象データ全体に対する重複排除率ｒをｒ＝major_ratio＊major_r＋minor_ratio＊minor_rで計算する（ステップＳ２８）。そして、重複率見積もり装置１は、ｒを出力する（ステップＳ２９）。

このように、重複率見積もり装置１は、多数チャンクのグループと少数チャンクのグループに分けて重複排除率を計算するので、計算コストを抑えることができる。

上述してきたように、実施例では、ファイル入出力部１１が、見積もり対象データから割合ｘのデータを複数のチャンクとして取得する。そして、重複判定部２２が、ファイル入出力部１１により読み込まれたチャンクのハッシュ値を計算し、計算したハッシュ値が重複するか否かを判定する。そして、重複数管理部２３が、重複判定部２２の判定結果に基づいて、チャンクごとの重複数を管理する。そして、チャンク管理部２４が、重複数に基づいてチャンク全体を少数チャンクのグループと多数チャンクのグループに分ける。そして、第１計算部４１が、少数チャンクのグループについて、重複排除率を計算し、第２計算部４２が、多数チャンクのグループについて重複排除率を計算する。そして、合成部４３が、第１計算部４１により計算された重複排除率と第２計算部４２により計算された重複排除率に基づいて見積もり対象データの重複排除率を計算する。したがって、重複率見積もり装置１は、重複排除率を短時間で精度よく推定することができる。

また、実施例では、第１計算部４１は、少数チャンクのグループについて、Ｄ（１）～Ｄ（Ｎ）を推定し、推定したＤ（１）～Ｄ（Ｎ）に基づいて重複排除率を計算するので、少数チャンクのグループの重複排除率を高精度で推定することができる。

また、実施例では、第１計算部４１は、割合ｘの部分スキャンでｎ多重検出されるデータ量の期待値Ｅ（ｎ，ｘ）を用いてＤ（１）～Ｄ（Ｎ）を推定するので、Ｄ（１）～Ｄ（Ｎ）を高精度で推定することができる。

すなわち、実施例では、第１計算部４１は、少数チャンクのグループについて、式（２－１）～（２－Ｍ）の連立方程式を解いて重複排除率を計算するので、少数チャンクのグループの重複排除率を高精度で推定することができる。

また、実施例では、第２計算部４２は、多数チャンクのグループについて、グループ内のチャンクの種類数とグループ内のチャンクの総数に基づいて重複排除率を計算するので、多数チャンクのグループの重複排除率を推定することができる。

なお、実施例では、重複率見積もり装置１について説明したが、重複率見積もり装置１が有する構成をソフトウェアによって実現することで、同様の機能を有する重複率見積もりプログラムを得ることができる。そこで、重複率見積もりプログラムを実行するコンピュータについて説明する。

図１０は、実施例に係る重複率見積もりプログラムを実行するコンピュータのハードウェア構成を示す図である。図１０に示すように、コンピュータ５０は、メインメモリ５１と、プロセッサの一例であるＣＰＵ（Central Processing Unit）５２と、ＬＡＮ（Local Area Network）インタフェース５３と、ＨＤＤ（Hard Disk Drive）５４とを有する。また、コンピュータ５０は、スーパーＩＯ（Input Output）５５と、ＤＶＩ（Digital Visual Interface）５６と、ＯＤＤ（Optical Disk Drive）５７とを有する。

メインメモリ５１は、プログラムやプログラムの実行途中結果等を記憶するメモリである。ＣＰＵ５２は、メインメモリ５１からプログラムを読み出して実行する中央処理装置である。ＣＰＵ５２は、メモリコントローラを有するチップセットを含む。

ＬＡＮインタフェース５３は、コンピュータ５０をＬＡＮ経由で他のコンピュータに接続するためのインタフェースである。ＨＤＤ５４は、プログラムやデータを格納するディスク装置であり、スーパーＩＯ５５は、マウスやキーボード等の入力装置を接続するためのインタフェースである。ＤＶＩ５６は、液晶表示装置を接続するインタフェースであり、ＯＤＤ５７は、ＤＶＤ、ＣＤ－Ｒの読み書きを行う装置である。

ＬＡＮインタフェース５３は、ＰＣＩエクスプレス（ＰＣＩｅ）によりＣＰＵ５２に接続され、ＨＤＤ５４及びＯＤＤ５７は、ＳＡＴＡ（Serial Advanced Technology Attachment）によりＣＰＵ５２に接続される。スーパーＩＯ５５は、ＬＰＣ（Low Pin Count）によりＣＰＵ５２に接続される。

そして、コンピュータ５０において実行される重複率見積もりプログラムは、コンピュータ５０により読み出し可能な記録媒体の一例であるＣＤ－Ｒに記憶され、ＯＤＤ５７によってＣＤ－Ｒから読み出されてコンピュータ５０にインストールされる。あるいは、重複率見積もりプログラムは、ＬＡＮインタフェース５３を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ５０にインストールされる。そして、インストールされた重複率見積もりプログラムは、ＨＤＤ５４に記憶され、メインメモリ５１に読み出されてＣＰＵ５２によって実行される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理する管理部と、
前記管理部により管理される重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第１グループと重複数が所定数より多い第２グループに分類する分類部と、
前記第１グループに分類されたサンプルデータについて第１重複排除率を計算する第１計算部と、
前記第２グループに分類されたサンプルデータについて第２重複排除率を計算する第２計算部と、
前記第１重複排除率と前記第２重複排除率に基づいて前記見積もり対象データの重複排除率を計算する合成部と
を有することを特徴とする情報処理装置。

（付記２）前記第１計算部は、前記第１グループに分類されたサンプルデータを用いて、１から前記所定数までの各重複度についてデータ量を推定し、各重複度について推定したデータ量に基づいて前記第１重複排除率を計算することを特徴とする付記１に記載の情報処理装置。

（付記３）前記第１計算部は、前記複数のサンプルデータの重複度ごとのデータ量の期待値に基づいて、１から前記所定数までの各重複度についてデータ量を推定することを特徴とする付記２に記載の情報処理装置。

（付記４）前記第１計算部は、前記期待値に関して各重複度についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで１から前記所定数までの各重複度についてデータ量を推定することを特徴とする付記３に記載の情報処理装置。

（付記５）前記第２計算部は、前記第２グループに分類されたサンプルデータの総数及び種類に基づいて前記第２重複排除率を計算することを特徴とする付記１～４のいずれか１つに記載の情報処理装置。

（付記６）コンピュータに、
見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理し、
管理する重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第１グループと重複数が所定数より多い第２グループに分類し、
前記第１グループに分類されたサンプルデータについて第１重複排除率を計算し、
前記第２グループに分類されたサンプルデータについて第２重複排除率を計算し、
前記第１重複排除率と前記第２重複排除率に基づいて前記見積もり対象データの重複排除率を計算する
処理を実行させることを特徴とする重複率見積もりプログラム。

（付記７）前記第１重複排除率を計算する処理は、前記第１グループに分類されたサンプルデータを用いて、１から前記所定数までの各重複度についてデータ量を推定し、各重複度について推定したデータ量に基づいて前記第１重複排除率を計算することを特徴とする付記６に記載の重複率見積もりプログラム。

（付記８）前記第１重複排除率を計算する処理は、前記複数のサンプルデータの重複度ごとのデータ量の期待値に基づいて、１から前記所定数までの各重複度についてデータ量を推定することを特徴とする付記７に記載の重複率見積もりプログラム。

（付記９）前記第１重複排除率を計算する処理は、前記期待値に関して各重複度についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで１から前記所定数までの各重複度についてデータ量を推定することを特徴とする付記８に記載の重複率見積もりプログラム。

１重複率見積もり装置
２ディスプレイ
１１ファイル入出力部
１２見積もり部
１３結果出力部
２１記憶部
２２重複判定部
２３重複数管理部
２４チャンク管理部
２５計算部
３１グローバルチャンクテーブル
３２少数チャンクテーブル
４１第１計算部
４２第２計算部
４３合成部
５０コンピュータ
５１メインメモリ
５２ＣＰＵ
５３ＬＡＮインタフェース
５４ＨＤＤ
５５スーパーＩＯ
５６ＤＶＩ
５７ＯＤＤ

Claims

見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理する管理部と、
前記管理部により管理される重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第１グループと重複数が所定数より多い第２グループに分類する分類部と、
前記第１グループに分類されたサンプルデータを用いて、前記複数のサンプルデータの重複数ごとのデータ量の期待値に関して各重複数についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで１から前記所定数までの各重複数についてデータ量を推定し、各重複数について推定したデータ量に基づいて、前記第１グループに分類されたサンプルデータについての第１重複排除率を計算する第１計算部と、
前記第２グループに分類されたサンプルデータの総数及び種類数に基づいて、前記第２グループに分類されたサンプルデータについての第２重複排除率を計算する第２計算部と、
前記第１重複排除率と前記第２重複排除率に基づいて前記見積もり対象データの重複排除率を計算する合成部と
を有することを特徴とする情報処理装置。
コンピュータに、
見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理し、
管理する重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第１グループと重複数が所定数より多い第２グループに分類し、
前記第１グループに分類されたサンプルデータを用いて、前記複数のサンプルデータの重複数ごとのデータ量の期待値に関して各重複数についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで１から前記所定数までの各重複数についてデータ量を推定し、各重複数について推定したデータ量に基づいて、前記第１グループに分類されたサンプルデータについての第１重複排除率を計算し、
前記第２グループに分類されたサンプルデータの総数及び種類数に基づいて、前記第２グループに分類されたサンプルデータについての第２重複排除率を計算し、
前記第１重複排除率と前記第２重複排除率に基づいて前記見積もり対象データの重複排除率を計算する
処理を実行させることを特徴とする重複率見積もりプログラム。