JP4859595B2

JP4859595B2 - 記憶システム、そのデータ再配置方法、データ再配置プログラム

Info

Publication number: JP4859595B2
Application number: JP2006237626A
Authority: JP
Inventors: 幸恵田島; 良一植田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-09-01
Filing date: 2006-09-01
Publication date: 2012-01-25
Anticipated expiration: 2026-09-01
Also published as: US8356154B2; US7853770B2; US20080059718A1; US20110202741A1; JP2008059438A

Description

本発明は、アクセス速度が異なる複数の記憶装置を備えている記憶システム、そのデータ再配置方法、データ再配置プログラムに関する。

近年、コンピュータが扱うデータ量が飛躍的に増加し、大容量の記憶システムの必要性が増大してきている。

大容量の記憶システムとしては、アクセス所要時間が短い反面、小容量の高速小容量の記憶装置と、アクセス所要時間が長い反面、大容量の低速大容量の記憶装置とを組み合わせた、階層型記憶システムがある。このような階層型記憶システムにおいては、アクセスを受けるデータを高速小容量の記憶装置に、アクセスを受けないデータを低速大容量の記憶装置に、適切に配置し、ユーザのアクセス所要時間を短縮することが重要である。

この点を考慮した技術として、例えば、以下の特許文献１に記載されているものがある。

この特許文献１では、性能、容量の異なる複数の記憶装置に格納されているデータのアクセス履歴からアクセス頻度を取得し、高頻度でアクセスを受けているデータをアクセス速度の速い記憶装置に配置し、低頻度でアクセスを受けているデータをアクセス速度の遅い記憶装置に配置する技術が開示されている。

しかしながら、この技術では、特定のデータにアクセスあると、この特定のデータに関連のある他のデータがアクセスされる可能性が高くても、この他のデータが低頻度でしかアクセスを受けていない場合、特定のデータにアクセスがあろうと、この他のデータが低速の記憶装置に配置されているため、アクセスに時間がかかってしまうという問題点がある。

そこで、以下の特許文献２では、上記問題点を解決するために、特定のデータがアクセスを受けた後、一定時間後に他のデータがアクセスを受けると、特定のデータと他のデータとを同一グループとして扱い、グループ内のいずれかのデータがアクセスを受けると、グループ内の他のデータを高速の記憶装置に配置するという技術が開示されている。

特開平５−１２０７７号公報特開平８−２６３３３５号公報

上記特許文献２に記載の技術では、確かに、上記特許文献１に記載の技術の問題点を解決できるものの、例えば、特定のデータがアクセスを受けた後、偶然、この特定のデータと関連性のない他のデータにアクセスがあった場合、この他のデータを同一グループとして扱ってしまうことや、特定のデータと関連性の高い他のデータがあっても、データの配置直前に、この特定のデータがアクセスを受けた後、この他のデータにアクセスが無ければ、この他のデータを同一グループとして扱われない等、適切なグループ化が行えず、結果として、データへのアクセス時間が長くなることがある、という問題点がある。

本発明は、このような従来技術の問題点に着目し、データのグループ化を適切化し、データへのアクセス時間を短くすることができる記憶システム、そのデータ再配置方法、データ再配置プログラムを提供することを目的とする。

前記問題点を解決するための本発明の一態様は、
複数種類の記憶装置を備える記憶システムにおけるデータ再配置方法であって、
前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するステップ、
前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出するステップ、
前記算出した値のうち、一定の値以上を有するファイルの組を１つのグループとしてグルーピングするステップ並びに
前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置するステップ
を含むことを特徴とする。

ここで、前記類似度を算出するステップは、
ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出するステップ、
ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出するステップ、
前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出するステップ及び
前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出するステップ、を含むことを特徴としてもよい。

また、前記のデータ再配置方法は、前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う、ことを特徴としてもよい。

また、データ再配置方法は、前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する、ことを特徴としてもよい。

また、前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、前記アクセス度を算出するステップにおけるアクセスは、ファイルへの書込みアクセスである、ことを特徴としてもよい。

本発明よれば、データのグループ化をより適切化し、データへのアクセス時間を短くすることができる。

以下、本発明に係る記憶システムの各種実施形態について、図面を用いて説明する。

「第１の実施形態」
本発明に係る記憶システムの第１の実施形態について、図１〜図１０を用いて説明する。

本実施形態の記憶システム１０は、図１に示すように、各種演算処理を実行するプロセッサ１１と、このプロセッサ１１による演算処理で得られるデータが格納されるデータメモリ２０と、このプロセッサ１１による演算処理で使用されるワークメモリ２７と、各種プログラムが記憶されているプログラムメモリ２８と、高速小容量記憶装置３０と、低速大容量記憶装置３１と、ネットワーク１との通信を行うためのインタフェース３９と、を備えている。この記憶システム１０は、ネットワーク１を介してクライアント端末２と接続されている。

計算機システム１０のプロセッサ１１は、機能的に、各記憶装置３０，３１に記憶されているファイルの情報を取得するファイル情報取得部１２と、各記憶装置３０，３１に記憶されているファイルへのアクセス日時を管理するアクセス日時管理部１３と、過去のアクセスデータ取得期間中におけるファイルへのアクセス頻度を求めるアクセス頻度算出部１４と、ファイルへの後述のアクセス度を求めるアクセス度算出部１５と、各ファイル毎に当該ファイルのアクセス度と他のファイルのアクセス度との類似度を求める類似度算出部１６と、相互に類似度の高い複数のファイルを一つのグループとするグループ化処理部１７と、同一グループ内の一ファイルがアクセスされると同一グループ内の他のファイルを高速小容量記憶装置３０に配置するファイル再配置部１８と、各記憶装置３０，３１に記憶されているファイルへのアクセス処理を行うアクセス処理部１９と、を有している。

プログラムメモリ２８には、プロセッサ１１が実行するデータ再配置プログラム２９を含む各種プログラムが記憶されている。データ再配置プログラム２９は、プロセッサ１１の機能としてのアクセス頻度算出部１４、アクセス度算出部１５、ファイル類似度算出部１６、グループ化処理部１７及びファイル再配置部１８を実現するためのプログラムである。

データメモリ２０には、ファイル情報取得部１２が取得したファイルの情報が格納されるファイル情報テーブル２１と、アクセス日時管理部１３が取得したファイルへのアクセス日時が格納されるアクセス日時テーブル２２と、アクセス頻度算出部１４が求めた各ファイル毎のアクセス頻度が格納されるアクセス頻度テーブル２３と、アクセス度算出部１５が求めた後述の較正アクセス度が格納される較正アクセス度テーブル２４と、類似度算出部１６が求めた各ファイル毎の類似度が格納されるファイル類似度テーブル２５と、各グループ毎のファイルＩＤが格納されるファイルグループテーブル２６と、が設けられている。

なお、本実施形態では、各記憶装置３０，３１とプロセッサ１１等とを同一の筐体に納めた記憶システム１０を想定しているが、これらは必ずしも同一筐体内に納められている必要はない。また、本実施形態では、記憶システム１０とクライアント端末２とは個別の装置であるが、クライアント端末２に記憶システム１０が含まれても、又は記憶システム１０にクライアント端末２が含まれても、一向に構わない。また、ここでは、高速記憶装置３０が小容量で、低速記憶装置３１が大容量であるが、容量の大小関係に関しては、本発明に直接関係無く、アクセス速度の異なる複数の記憶装置が存在すれば、本発明を適用できる。

ファイル情報テーブル２１は、前述したように、ファイル情報取得部１２により取得された各ファイルの情報が保存されるテーブルである。このファイル情報テーブル２１は、図２に示すように、ファイルＩＤが格納されるファイルＩＤフィールド２１ａと、各ファイルＩＤ毎のファイルの位置を特定するパスが格納されるファイルパスフィールド２１ｂとがある。例えば、ファイルＩＤフィールド２１ａには、ファイルＩＤ「１」が格納され、このファイルＩＤ「１」に対応するファイルパスとして、ファイルパスフィールド２１ｂに「／ｆｒｕｉｔ／ａｐｐｌｅ．ｊｐｇ」が格納される。このファイル情報テーブル２１に格納されているファイル情報は、ファイル情報取得部１２により、常に最新の状態に更新される。

アクセス日時テーブル２２は、アクセス日時管理部１３により取得された各ファイルへのアクセス日時が格納されるテーブルである。このアクセス日時テーブル２２は、図３に示すように、ファイルへのアクセス日時が格納されるアクセス日時フィールド２２ｂと、このアクセスがあったファイルのＩＤが格納されるファイルＩＤフィールド２２ａとがある。例えば、ファイルＩＤ「５」のファイルに、「２００５／１０／０１０９：１２：１０」にアクセスがあった場合には、ファイルＩＤフィールド２２ａにファイルＩＤ「５」が格納され、アクセス日時フィール２２ｂには、「２００５／１０／０１０９：１２：１０」が格納される。なお、ここでは、アクセスに関して、日時のみを記憶するようにしているが、そのアクセスが書き込みアクセスか読み取りアクセスかなどの属性を記憶するようにしてもよい。このアクセス日時テーブル２２は、アクセス処理部１９によりファイルにアクセスがある毎に、アクセス日時管理部１３により更新される。

アクセス頻度テーブル２３は、アクセス頻度算出部１４により求められたアクセスデータ取得期間中の各ファイル毎のアクセス回数、つまりアクセス頻度が格納されるテーブルである。アクセスデータ取得期間は、後述のデータ再配置のために必要とするデータ取得期間で、ユーザが予め定める期間である。ここでは、図４に示すように、２００５／１０／１から２００５／１０／７の一週間をアクセスデータ取得期間としている。このアクセスデータ取得期間は、ユーザが予め定めた複数の単位期間に分けられる。この単位期間は、この例では、一日である。アクセス頻度テーブル２３は、各記憶装置３０，３１に格納されている各ファイルのファイルＩＤが格納されるファイルＩＤフィールド２３ａと、各ファイルＩＤ毎で且つアクセスデータ取得期間中の各単位期間毎のアクセス頻度が格納されるアクセス頻度フィールド２３ｂと、各ファイルＩＤ毎のアクセスデータ取得期間中の合計アクセス頻度が格納される合計フィールド２３ｃとがある。この例では、ファイルＩＤフィールド２３ａに「１」が格納され、このファイルＩＤ「１」に対応するアクセス頻度フィールド２３ｂには、２００５／１０／１に０回、１０／２に０回、１０／３に３回、１０／４に５回、１０／５に２回、１０／６に１回、１０／７に０回の頻度が格納された例を示している。なお、ここでは、書き込みアクセスと読み取りアクセスを区別せずに、単なるアクセス頻度として記憶しているが、書き込みアクセスと読み込みアクセスをと区別して、それぞれのアクセス頻度を記憶するようにしてもよい。

較正アクセス度テーブル２４は、アクセス度算出部１５により、アクセス頻度を用いて求めた較正アクセス度が、各ファイルＩＤ毎に且つ各単位期間毎に格納されるテーブルである。なお、較正アクセス度及び較正アクセス度を求めるためのアクセス度の定義、及びその算出方法については、後で詳細に説明するが、アクセス度及び較正アクセス度は、いずれも、基本的に、アクセスデータ取得期間中の該当ファイルの全アクセス頻度に対する単位期間中の該当ファイルのアクセス頻度の程度を示す値である。したがって、ある単位期間で、あるファイルのアクセス度又較正アクセス度が高い場合には、この単位期間で当該ファイルへのアクセス回数が多かったこと意味する。この較正アクセス度テーブル２４は、アクセス頻度テーブル２３のファイルＩＤフィールド２３ａに格納された全てのファイルＩＤが格納されるファイルＩＤフィールド２４ａと、各ファイルＩＤ毎で且つアクセスデータ取得期間中の各単位期間毎の較正アクセス度が格納される較正アクセス度フィールド２４ｂとがある。この例では、ファイルＩＤフィールド２４ａに「１」が格納され、このファイルＩＤ「１」に対応する較正アクセス度フィールド２４ｂには、２００５／１０／１に０、１０／２に０、１０／３に０．６８、１０／４に０．９１、１０／５に０．３６、１０／６に０．１８、１０／７に０の較正アクセス度が格納された例を示している。

ファイル類似度テーブル２５は、ファイル類似度算出部１６により、各ファイルＩＤ毎に、当該ファイルの単位期間内のアクセス頻度と同単位期間内での他のファイルのアクセス頻度との類似の程度を示す類似度が格納されるテーブルである。なお、この類似度の定義、及びその算出方法については、後で詳細に説明するが、類似度は、その値が大きいほど、２つのファイルが同単位期間内にアクセスを受ける可能性が高いことを示す。このファイル類似度テーブル２５は、アクセステーブル２３のファイルＩＤフィールド２３ａに格納された全てのファイルＩＤが格納されるファイルＩＤフィールド２５ａと、各ファイルＩＤ毎で且つ各他のファイルＩＤ毎に、他のファイルのアクセスに対する類似度が格納される類似度フィールド２５ｂとがある。この例では、ファイルＩＤフィールド２５ａに「１」が格納され、このファイルＩＤ「１」に対応する類似度フィールド２５ｂには、ファイルＩＤ「２」のファイルに対して類似度「０．４３」、ファイルＩＤ「３」のファイルに対して類似度「１．１５」、ファイルＩＤ「４」のファイルに対して類似度「０．３６」、ファイルＩＤ「５」のファイルに対して類似度「０．６６」、ファイルＩＤ「６」のファイルに対して類似度「０」、ファイルＩＤ「７」のファイルに対して類似度「０」、ファイルＩＤ「８」のファイルに対して類似度「０．４２」、ファイルＩＤ「９」のファイルに対して類似度「０．３０」、ファイルＩＤ「１０」のファイルに対して類似度「０．５３」がそれぞれ格納された例を示している。

ファイルグループテーブル２６は、グループ化処理部１７により、各ファイルＩＤ毎に、当該ファイルＩＤのファイルと同一グループとしたファイルのＩＤが格納されるテーブルである。なお、グループ化処理方法については、後述する。このファイルグループテーブル２６は、図７に示すように、アクセステーブル２３のファイルＩＤフィールド２３ａに格納された全てのファイルＩＤが格納されるファイルＩＤフィールド２６ａと、各ファイルＩＤ毎に当該ファイルと同一グループとしたファイルのＩＤが格納される同グループ内ファイルＩＤフィールド２６ｂとがある。この例では、ファイルＩＤフィールド２６ａに「１」が格納され、このファイルＩＤ「１」に対応する同グループ内ファイルＩＤフィールド２６ｂには、「３」が格納された例を示している。つまり、この例では、ファイルＩＤ「１」のファイルとファイルＩＤ「３」のファイルとは、同一グループであることを示している。したがって、ファイルＩＤフィールド２６ａに「３」が格納され部分に対応する同グループ内ファイルＩＤフィールド２６ｂには、当然、「１」が格納されることになる。但し、後述するように、読取アクセスと書込みアクセスとを分けてグループ化する場合には、この限りではない。

次に、図８に示すフローチャートに従って、本実施形態の記憶システム１０の動作について説明する。

まず、アクセス頻度算出部１４は、最新の単位期間が終了したか否かを判断する（Ｓ１０）。最新の単位期間が終了していなければ、つまり、最新の単位期間中であれば、ステップ８０の処理が行われる。また、最新の単位期間が終了していれば、アクセス頻度算出部１４は、新たな単位期間及び新たなアクセスデータ取得期間を設定する（Ｓ２０）。

例えば、現在、2005年10月７日の場合、この日のアクセスデータ取得期間は同年9月30日〜同年10月６日の一週間である。アクセス頻度算出部１４は、この場合、最新の単位期間が10月７日であり、この日が終了したか否かを判断し（Ｓ１０）、この日が終了していれば、アクセスデータ取得期間の新たな単位期間として、この日、つまり10月７日を設定すると共に、アクセスデータ取得期間を同年10月1日〜同年10月7日の一週間に設定変更する。アクセス頻度算出部１４は、この設定変更で、アクセス頻度テーブル２３（図４）の各単位間の日付を変更する。なお、ここでは、アクセスデータ取得期間が一週間で、単位期間が一日の例を述べているが、本発明はこれに限定されるものではない。また、ここでは、新たなアクセスデータ取得期間を直近の一週間としているが、ユーザは新たなアクセスデータ取得期間の開始及び終了時期を適宜決めるようにしてもよい。このため、ユーザの設定によっては、ステップ１０の単位期間が終了したか否かの判断で、単位期間が最新である必要がなくなる場合もある。

アクセス頻度算出部１４は、続いて、アクセス日時テーブル２２を参照して、アクセスデータ取得期間中の各単位期間毎の各ファイルのアクセス頻度を求め、これをアクセス頻度テーブル２３に格納する（Ｓ３０）。なお、アクセス頻度算出部１４は、ここでは、ステップ２０で新たに設定した単位期間でのアクセス頻度のみを求め、その他のアクセスデータ取得期間中の単位期間に関しては、既に算出した該当単位期間のデータをそのまま用いる。この結果、アクセス頻度テーブル２３には、図４に示すように、2005年10月1日〜同年10月7日の一週間をアクセスデータ取得期間とした単位期間毎の各ファイル毎の頻度が格納される。

アクセス頻度算出部１４により、アクセス頻度テーブル２３が更新されると、アクセス度算出部１５が較正アクセス度を求めて、これを較正アクセス度テーブル２４に格納する（Ｓ４０）。

ここで、このアクセス度算出部１５による較正アクセス度算出工程（Ｓ４０）の詳細について、図９に示すフローチャートに従って説明する。

アクセス度算出部１５は、まず、アクセス頻度テーブル２３に設定されている全単位期間を選択したか否かを判断する（Ｓ４１）。全単位期間を選択していればステップ４５に進み、全単位期間を選択していなければ、未選択の単位期間ｔを選択し（Ｓ４２）、この単位期間ｔ内のアクセスを受けたファイルの数、言い換えると全ファイルのアクセス頻度Ｎ（ｔ）を取得する（Ｓ４３）。続いて、ファイル情報テーブルに保存されている全ファイル数Ｎと単位期間ｔ内の全ファイルへのアクセス頻度Ｎ（ｔ）との割合であるグループ化度Ｙ（ｔ）（＝Ｎ／Ｎ（ｔ））を算出する（Ｓ４４）。例えば、全ファイル数Ｎは、ファイルＩＤが「1」〜「10」までの１０個、単位期間10月1日の全ファイルへのアクセス頻度Ｎ（10/1）は５であるから、単位期間10月1日のグループ化度Ｙ（10/1）は、２（＝10/5）となる。また、単位期間10月3日のグループ化度Ｙ（10/3）は、2.5（＝10/4）となる。このグループ化度Ｙ（ｔ）は、後述のアクセス度の重みとしての役割をなす値で、単位期間ｔ内のアクセス頻度Ｎ（ｔ）が多くなればなるほど小さな値になり、その意義は後述する。

ある単位期間ｔのグループ化度Ｙ（ｔ）を算出すると、ステップ４１に戻り、再び、全単位期間を選択したか否かを判断し、全単位期間を選択していれば、アクセス頻度テーブル２３に格納されている全ファイルを選択したか否かを判断する（Ｓ４５）。全ファイルを選択していれば、較正アクセス度算出の工程（Ｓ４０）は終了し、全ファイルを選択していなければ、未選択のファイルａを選択する（Ｓ４６）。そして、アクセスデータ取得期間内のこのファイルａへの総アクセス頻度Ｃ（ａ）をアクセス頻度テーブル２３から取得する（Ｓ４７）。例えば、ファイルＩＤが「１」のファイルへの総アクセス頻度Ｃ（１）は、アクセス頻度テーブル２３（図４）より、１１となる。

アクセス頻度算出部１４は、続いて、アクセスデータ取得期間内の全単位期間を選択済みか否かを判断し（Ｓ４８）、選択済みであればステップ４５に戻り、選択済みでなければ未選択の単位期間ｔを選択する（Ｓ４９）。そして、この単位期間ｔ内のファイルａへのアクセス頻度Ｃ（ａ，ｔ）をアクセス頻度テーブル２３から取得し（Ｓ５０）、アクセスデータ取得期間内のファイルａへの総アクセス頻度Ｃ（ａ）に対する単位期間ｔ内のファイルａへのアクセス頻度Ｃ（ａ，ｔ）の割合であるアクセス度Ｘ（ａ，ｔ）（＝Ｃ（ａ，ｔ）／Ｃ（ａ））を求める（Ｓ５１）。例えば、単位期間10月3日のファイル「1」へのアクセス頻度Ｃ（1，10/3）は、アクセス頻度テーブル２３（図４）より、3であり、ファイル「1」への総アクセス頻度Ｃ（1）は、前述したように、11であるから、ファイル「1」の単位期間10月3日におけるアクセス度Ｘ（1，10/3）は、0.27（＝3/11）となる。

次に、この単位期間ｔ内のファイルａへのアクセス度Ｘ（ａ，ｔ）に、ステップ４４で求めた同単位期間のグループ化度Ｙ（ｔ）を掛けて、較正アクセス度Ｗ（ａ，ｔ）を求め、これを較正アクセス度テーブル２４（図５）の該当フィールドに格納する（Ｓ５２）。例えば、ファイル「1」の単位期間10月3日におけるアクセス度Ｘ（1，10/3）は、前述したように0.27であり、単位期間10月3日のグループ化度Ｙ（10/3）は、前述したように2.5であるから、ファイル「1」の単位期間10月3日における較正アクセス度Ｗ（1，10/3）は、0.68（＝0.27×2.5）となる。

単位期間ｔ内のファイルａへの較正アクセス度Ｗ（ａ，ｔ）を求めると、再び、ステップ４８に戻って、ファイルａに関して全単位期間を選択したか否かを判断する。ここで、ファイルａに関して全単位期間について選択済みで、ファイルａに関して全単位期間毎の較正アクセス度Ｗ（ａ，ｔ）を求めていたならば、ステップ４５に戻って、再び、全ファイルについて選択したか否かを判断する。このとき、全ファイルについて選択済みで、全ファイル毎に全単位期間毎の校正アクセス度を求めていたならば、構成アクセス度算出の工程（Ｓ４０）は終了する。

ここで、アクセス度Ｘ（ａ，ｔ）、較正アクセス度Ｗ（ａ，ｔ）及びグループ化度Ｙ（ｔ）について説明する。

ファイルａのアクセス度Ｘ（ａ，ｔ）は、基本的に、アクセスデータ取得期間中の全単位期間でのファイルａへのアクセス頻度に対する、特定の単位期間ｔでのファイルａへのアクセス頻度の相対値である。このため、特定の単位期間ｔでのファイルａのアクセス度Ｘ（ａ，ｔ）が高い場合には、当然、この特定の単位期間ｔでのファイルａへのアクセス頻度が、他の単位期間に比べて高いことを意味することになる。仮に、他のファイルｂも、この特定の単位期間ｔでのアクセス度Ｘ（ｂ，ｔ）が高い場合には、この単位期間ｔにおいて、ファイルａとファイルｂとの両方のアクセス頻度が、他の単位期間に比べて、高いことになる。このため、両ファイルａ，ｂのアクセス頻度の類似性が高いと言え、アクセス頻度の類似性の高いものをグループ化する場合に、両ファイルａ，ｂを同一のグループとして扱える。但し、この単位期間ｔにおいて、複数の他のファイルへのアクセス頻度も極めて高い場合には、この単位期間ｔにおいて、ファイルａとファイルｂとがアクセスされたのは、ファイルａとファイルｂとの間に所定の関係があったからでななく、偶然、両ファイルａ，ｂがアクセスされた可能性が高いからであるとも言える。

そこで、本実施形態では、特定の単位期間ｔにおける各ファイルへの全アクセス頻度Ｎ（ｔ）が高い場合には、両ファイルａ，ｂの類似性を低くし、逆に、特定の単位期間ｔにおける各ファイルへの全アクセス頻度が低い場合には、両ファイルａ，ｂの類似性を高めるために、グループ化度Ｙ（ｔ）（＝Ｎ／Ｎ（ｔ））という概念を導入し、両ファイルａ，ｂの類似性を補正している。すなわち、グループ化度Ｙ（ｔ）は、前述したように、特定の単位期間ｔの全ファイルへの総アクセス頻度Ｎ（ｔ）が高くなれば、逆に低くなる値であるため、本実施形態では、特定時間のアクセス度Ｘ（ａ，ｔ）に、このグループ化度Ｙ（ｔ）を重みとして掛け、これを較正アクセス度Ｗ（ａ，ｔ）とし、この較正アクセス度Ｗ（ａ，ｔ）を用いて、他のファイルとのアクセス頻度の類似性を考えることで、偶然による類似性の高まりをできる限り排除している。

較正アクセス度算出の工程（Ｓ４０）が終了すると、図８のフローチャートに示すように、較正アクセス度算出の工程（Ｓ４０）で求めた較正アクセス度を用いて、ファイル類似度算出部１６がファイル相互間のアクセス頻度の類似度を求める（Ｓ６０）。

このファイル類似度算出の工程（Ｓ６０）では、図１０のフローチャートに示すように、ファイル類似度算出部１６が、まず、較正アクセス度テーブル２４に格納されている全ファイルについて選択したか否かを判断する（Ｓ６１）。全ファイルについて選択済みであれば、ファイル類似度算出の工程（Ｓ６０）を終了し、全ファイルについて選択済みでなければ、未選択のファイルａを選択する（Ｓ６２）。

次に、ファイル類似度算出部１６は、較正アクセス度テーブル２４にこのファイルａのＩＤより大きい数字のＩＤを持つファイルが存在するか否かを判断する（Ｓ６３）。大きい数字のＩＤを持つファイルが存在しなければステップ６１に戻り、大きい数字のＩＤを持つファイルが存在すれば、大きい数字のＩＤを全て抽出し、これらのＩＤを持つファイルの集合Ｆを設定する（Ｓ６４）。そして、この集合Ｆ内の全ファイルについて選択済みか否かを判断し（Ｓ６５）、全ファイルについて選択済みであればステップ６１に戻り、全ファイルについて選択済みでなければ集合Ｆ内の未選択ファイルｂを選択する（Ｓ６６）。

ファイル類似度算出部１６は、集合Ｆ内の未選択ファイルｂを選択すると、アクセスデータ取得期間内の全単位期間について選択したか否かを判断する（Ｓ６７）。全単位期間について選択済みであればステップ６５に戻り、全単位期間について選択済みでなければ、アクセスデータ取得期間内の未選択の単位期間ｔを選択する（Ｓ６８）。次に、較正アクセス度テーブル２４から、この単位期間ｔでのファイルａの較正アクセス度Ｗ（ａ，ｔ）とファイルｂの較正アクセス度Ｗ（ｂ，ｔ）とを抽出し、両者を掛けて、これを仮の類似度Ｒ（ａ，ｂ）とする（Ｓ６９）。仮の類似度を求めると、再び、ステップ６７に戻り、ステップ６８で、未選択の単位期間を選択し、この単位期間でのファイルａの較正アクセス度とファイルｂの較正アクセス度とを掛けて、この値に先に求めた仮の類似度Ｒ（ａ，ｂ）を加え（Ｓ６９）、再び、ステップ６７に戻り、全単位期間について選択済みとなるまで、ステップ６７〜ステップ６９の処理を繰り返す。すなわち、アクセスデータ取得期間中の各単位期間毎の、ファイルａの較正アクセス度とファイルｂの較正アクセス度とを掛けた値の合計を求め、これをファイルａとファイルｂの類似度Ｒ（ａ，ｂ）とし、この類似度Ｒ（ａ，ｂ）をファイル類似度テーブル２５（図６）の該当フィールドに格納する。例えば、図５に示す較正アクセス度テーブル２４中のファイル「１」とファイル「２」との類似度Ｒ（１，２）は、以下のようになる。

類似度Ｒ（1，2）＝0×0.5（10月1日分）＋0×1.25（10月2日分）＋0.68×0.63（10
月3日分）＋0.98×0（10月4日分）＋0.36×0（10月5日分）
＋0.18×0（10月6日分）＋0×0（10月7日分）
＝0.43
この類似度Ｒ（1，2）＝0.43は、図6に示すファイル類似度テーブル２５のファイル「1」に対するファイル「2」の類似度のフィールドに格納される。

ファイルａとファイルｂの類似度Ｒ（ａ，ｂ）を求めると、ステップ６５に戻り、ステップ６６で、集合Ｆ内で未選択のファイルｃを選択し、以下、ステップ６７〜ステップ６９の処理で、ファイルａとファイルｃの類似度Ｒ（ａ，ｃ）を求める。集合Ｆ内で未選択のファイルがなくなると（Ｓ６５）、ステップ６１に戻る。最終的に、較正アクセス度テーブル２４に格納されている全てのファイルに関するファイルの全組み合わせについて、類似度を求めると、このファイル類似度算出の工程（Ｓ６０）は終了する。

ファイル類似度算出の工程（Ｓ６０）が終了すると、図８のフローチャートに示すように、ファイル類似度算出の工程（Ｓ６０）で求めた類似度を用いて、グループ化処理部１７が複数のファイルをいくつかのグループにまとめる（Ｓ７０）。ここでは、ファイル類似度テーブル２５（図６）で、２つのファイル相互間の類似度が１以上のものは、当該ファイル相互にアクセス関連度が高いとして、同一のグループとして扱う。例えば、ファイル「１」とファイル「３」の相互間の類似度は、ファイル類似度テーブル２５より、１．１５であるから、両ファイルは同一グループとなり、その結果がファイルグループテーブル２６（図７）に格納される。

以上のグループ化処理の工程（Ｓ７０）が終了すると、ファイル再配置部１８及びアクセス処理部１９が、いずれかのファイルにアクセスがあるか否かを判断する（Ｓ８０）。いずれかのファイルにアクセスがあれば、アクセス処理部１９は、このファイルに対してアクセス処理を行う。また、ファイル再配置部１８は、ファイルグループテーブル２６を参照して、このファイルに対して同一のグループのファイルがあるか否かを判断する（Ｓ９０）。このファイルに対して同一のグループのファイルがあり、そのグループ内ファイルが低速大容量記憶装置３１に配置されていれば、グループ内ファイルを高速小容量記憶装置３０に配置し、グループ内ファイルが既に高速小容量記憶装置３０に配置されていれば、その配置のままにしておく（Ｓ１００）。なお、この再配置処理の際、アクセスを受けたファイルが、低速大容量記憶装置３１に配置されていれば、このファイルも高速小容量記憶装置３０に配置するようにしてもよい。

このデータ再配置処理（Ｓ１００）が終了すると、さらに、先の判断（Ｓ８０，９０）で否の判断を下した場合には、ステップ１０に戻り、最新の単位期間が終了するまで、ステップ８０，９０，１００，１０の処理を繰り返す。

以上、本実施形態では、あるファイルにアクセスがあり、このファイルとアクセス関連性が高いファイルがある場合、このファイルのアクセス頻度が低くても、高速記憶装置３０に配置されるので、アクセス時間を短くすることができる。また、本実施形態では、アクセスデータ取得期間内の各単位期間毎の各ファイル毎のアクセス頻度を求め、あるファイルの単位期間毎のアクセス頻度と、他のファイルの単位期間毎のアクセス頻度との類似度を求めているので、偶然性に左右されにくいグループ化を行うことができる。このため、この観点からも、アクセス時間を短くすることができると言える。例えば、本実施形態では、特定のファイルがアクセスを受けた後、偶然、この特定のファイルと関連性のない他のファイルにアクセスがあっても、この他のファイルを同一グループとして扱ってしまうことを回避できる。さらに、特定のファイルと関連性の高い他のファイルがあり、ファイルの配置直前に、この特定のファイルがアクセスを受けた後、この他のファイルにアクセスが無くても、この他のファイルを同一グループとして扱うことができる。特に、本実施形態では、グループ化度Ｙ（ｔ）という概念を導入して、グループ化の指標となる類似度を求める過程で、偶然性をできる限り排除しているので、極めて適切なグループ化を行うことができる。

なお、以上では、ファイルを低速記憶装置３１から高速記憶装置３０へ配置することについて詳細に説明したが、ファイルを低速記憶装置３１から高速記憶装置３０へ配置するのみでは、高速記憶装置３０にファイルを配置できなくなるため、本実施形態でも、一定の条件が成立すると、ファイルを高速記憶装置３０から低速記憶装置３１へ配置する必要がある。この実現方法としては、例えば、アクセスデータ取得期間内に、アクセス頻度が所定値以下のファイルに関しては、図８のファイルグループ化処理（Ｓ７０）の終了後であって、ファイルへのアクセスを待っている過程で（Ｓ８０）、このファイルを低速記憶装置３１へ配置する方法が考えられる。

ここで、以上で説明した再配置処理にかかる記憶システムの負荷について検証する。

総ファイル数をＮ、アクセスデータ取得期間に含まれる単位期間の数をＳとすると、処理に必要な演算回数は以下のように概算される。

Ｃ（ａ）を算出するには、単位期間ごとにアクセス回数を加算するため、Ｓ回の演算が必要となる。Ｘ（ａ，ｔ）を算出するには、Ｃ（ａ，ｔ）をＣ（ａ）で除算するため、Ｓ＋１回の演算が必要となる。アクセスデータ取得期間内の全単位期間に対する全ファイルのＸ（ａ，ｔ）を算出するには、この計算を全単位期間分、全ファイルに対して行うため、（Ｓ＋１）×Ｓ×Ｎ回の演算が必要となる。

Ｎ（ｔ）を算出するには、ファイルごとにアクセスしたか否かを加算するため、Ｎ回の演算が必要となる。Ｙ（ｔ）を算出するには、Ｎ（ｔ）をＮで除算するため、Ｎ＋１回の演算が必要となる。アクセスデータ取得期間内の全単位期間に対するＹ（ｔ）を算出するには、この計算を全単位期間分行うため、（Ｎ＋１）×Ｓ回の演算が必要となる。

アクセスデータ取得期間内の全単位期間に対する全ファイルのＷ（ａ，ｔ）を算出するには、全単位期間分、全ファイルに対してＸ（ａ，ｔ）をＹ（ｔ）で除算する必要があるため、（Ｓ＋１）×Ｓ×Ｎ＋（Ｎ＋１）×Ｓ＋Ｓ×Ｎ回の演算が必要となる。

全ファイルの組み合わせのＲ（ａ，ｂ）を算出するには、全単位期間分の乗算と加算を、全ファイルの組み合わせ数であるＮ×（Ｎ−１）／２回行うため、（Ｓ＋Ｓ）×Ｎ×（Ｎ−１）／２回の演算が必要となる。

なお、計算回数を減らすために、予め全ファイルの組み合わせの類似度を算出せずに、後述の第２の実施形態のように、ファイルアクセス後にアクセスを受けたファイルに関する類似度のみを算出する場合、アクセスを受けたファイルに関する類似度を算出するには、全単位期間分の乗算と加算を、アクセスを受けたファイルを除いたファイル数であるＮ−１回行う必要があり、（Ｓ＋Ｓ）×（Ｎ−１）回の演算が必要となる。

ところで、一般に入手可能なCPUであるＰｅｎｔｉｕｍ（商標登録）／２．８ＧＨｚは、５．６GFLOPS程度の処理能力があるといわれている。

そこで、１０GFLOPSの計算機を用いて、総ファイル数「１００万」に対して、指定取得範囲期間「１年間」、取得単位期間「１日」の条件で、本処理を実施する場合、上記より、全ファイルのＷ（ａ，ｔ）を求めるのに必要な計算回数＝１３４×１０^９回、計算時間＝１３．４秒、予め全ファイルの組み合わせの類似度を算出する場合、必要な計算回数＝３６５０６７×１０^９回、計算時間＝３６５０６．７秒≒１０時間、ファイルアクセスを受けてから、そのファイルに関する類似度のみを求める場合、必要な計算回数＝０．７３×１０^９回、計算時間＝０．０７３秒と概算できる。

以上の結果から、本実施形態の再配置方法は十分に実施可能であると考える。

「第２の実施形態」
本発明に係る記憶システムの第２の実施形態について、図１１及び図１２を用いて説明する。

本実施形態の記憶システムは、その機能構成は、図１に示す第１の実施形態の機能構成と基本的に同じであるが、各機能構成１２〜１９における各処理の実施順序が第１の実施形態と異なる。

具体的に、本実施形態では、図１１のフローチャートに示すように、いずれかのファイルにアクセスがあった後に（Ｓ８０ａ）、このアクセスファイルａと他のファイルとの類似度を求め（Ｓ６０ａ）、この類似度に基づいて、このファイルａと同一グループにするファイルを定めるようにしている（Ｓ７０ａ）。すなわち、本実施形態では、単位期間終了の判断処理（Ｓ１０）、新たなアクセスデータ取得期間の設定処理（Ｓ２０）、アクセス頻度算出処理（Ｓ３０）、較正アクセス度算出処理（Ｓ４０）までの各処理は、第１の実施形態と同様であるが、この較正アクセス度算出処理（Ｓ４０）が終了した時点から、アクセスの有無の判断処理（Ｓ８０ａ）を行い、その後、前述したように、アクセスファイルａと他のファイルとの類似度の算出処理（Ｓ６０ａ）、ファイルａのグループ化処理（Ｓ７０ａ）を行い、そして、同一グループのファイルの有無の判断処理（Ｓ９０ａ）、データ再配置処理（Ｓ１００）を行うようにしている。

本実施形態の類似度算出処理（Ｓ６０ａ）では、全ファイルに関して他のファイルとの類似度を求める必要がないため、図１２のフローチャートに示すように、第１の実施形態の類似度算出処理（Ｓ６０）と異なり、直ちに、アクセスファイルａを除くファイルの集合Ｆを設定し（Ｓ６４ａ）、その後は、第１の実施形態の類似度算出処理（Ｓ６０）と同様に、ステップ６５〜ステップ６９の各処理を行う。

以上のように、本実施形態では、第１の実施形態のように、全ファイルに関して、類似度算出処理（Ｓ６０）及びグループ化処理（Ｓ７０）を行わず、アクセスのあったファイルに関してのみ、類似度算出処理（Ｓ６０ａ）及びグループ化処理（Ｓ７０ａ）を行うので、記憶システムにおける再配置処理での負荷を軽減することができる。

「各種変形例」
以上では、ファイル相互間の類似度を求めるにあたり、ファイルのアクセス頻度から、このファイルのアクセス度、及び較正アクセス度を求め、この較正アクセス度を用いて類似度を求めているが、アクセス度や較正アクセス度を求めなくても、アクセス頻度から直接的に類似度を求める方法もある。例えば、ファイル「１」とファイル「２」との類似度を求める場合、各単位期間毎に、ファイル「１」のアクセス頻度とファイル「２」のアクセス頻度を掛け、これらを合計した値をファイル「１」とファイル「２」との類似度としてもよい。すなわち、ファイル「１」とファイル「２」との類似度Ｒ（1,2）を、以下のように、求めてもよい。

類似度Ｒ（1,2）＝0×1（10月1日分）＋0×2（10月2日分）＋3×1（10月3日分）
＋5×0（10月4日分）＋2×0（10月5日分）＋1×0（10月6日分）
＋0×0（10月7日分）
＝3
この場合、ファイル類似度テーブルは、図１３に示すようになり、仮に、２つのファイル相互間の類似度が１５以上のもの（図中、アンダーラインを引いている）は、当該ファイル相互にアクセス関連度が高いとして、同一のグループとして扱うとすると、グループ化処理の結果は第１の実施形態と同様になる。

このように、類似度を求めると、その算出が極めて簡単になるため、記憶システムのデータ再配置処理にかかる負荷を軽減することができる。但し、この変形例では、偶然性をできる限り排除するためのグループ化度の概念を用いていないので、第１の実施形態よりも偶然性でグループ化してしまうものが多くなることは否めない。

ところで、ファイルａにアクセスがあったとき次にアクセスを受ける可能性が高いファイルの数が多く、高速記憶装置３０へのファイル再配置が難しい場合が考えられる。このような場合、グループ化閾値を変更する方法や、アクセス関連度の上位からファイル数または合計サイズで選択する方法、読み取りと書き込みの２つのアクセスのうち、アクセス時間が相対的に長い書き込みファイルのみを再配置する方法等で対処できる。

以上の対処方法のうち、書き込みファイルのみを再配置する方法では、図３に示すアクセス日時テーブル２２に、アクセス属性として、そのアクセスが読み取りであるか書き込みであるかの情報を付加し、図４に示すアクセス頻度テーブル２３のアクセス頻度のフィールドに、読み取りアクセスと書き込みアクセスの欄を設ける必要がある。そして、例えば、ファイルａがアクセス（読み取り又は書き込み）を受けたときに、書き込みアクセスが行われる可能性が高いファイルｂを再配置するために、ファイルａの較正アクセス度Ｗ（ａ，ｔ）と、ファイルｂの較正書込みアクセス度Ｗｗ（ｂ，ｔ）とを用いて、図１０に示すＳ６７，６８，６９の処理を実行して、ファイルａとファイルｂとの類似度を求めるようにすればよい。なお、較正書込みアクセス度Ｗｗ（ｂ，ｔ）は、ここでは、以下のように定義する。

Ｗｗ（ｂ，ｔ）＝Ｘｗ（ｂ，ｔ）・Ｙ（ｔ）
＝［Ｃｗ（ｂ，ｔ）／Ｃ（ｂ）］・Ｙ（ｔ）
Ｘｗ（ｂ，ｔ）：単位期間ｔにおけるファイルｂへの書込みアクセス度
Ｃｗ（ｂ，ｔ）：単位期間ｔ内のファイルｂへの書込みアクセス頻度
すなわち、ファイルｂの書込み較正アクセス度Ｗｗ（ｂ，ｔ）は、ファイルｂへの書込みアクセス度Ｘｗ（ｂ，ｔ）に、単位期間ｔにおけるグループ化度Ｙ（ｔ）を掛けたものである。

また、以上では、ファイル単位での再配置を例にして説明したが、ファイル以外にも、メール、フォルダ、ボリューム、データベースのテーブル、レコード、フィールドなど、アクセス頻度の取得と記憶装置間の移動が可能なデータ単位であれば、如何なるデータ単位で再配置処理を行ってもよいことは言うまでもない。

また、以上では、アクセス速度が高速と低速の二つの種類の記憶装置３０，３１を備えているものを例にしたが、本発明はこれに限定されるものではなく、アクセス速度が三種類以上である場合にも適用できる。この場合、ファイルａとファイルｂとの間に関連性があり、ファイルａにアクセスがあった場合、ファイルｂをアクセス速度が最速の記憶装置に配置する方法が考えられる。また、他の方法として、グループ分けのための類似度の閾値として、例えば、２つの閾値を設定し、第１の閾値（＞第２の閾値）以上の類似度のファイル組み合わせに関しては、関連性大のグループとし、第１の閾値未満で第２の閾値以上の類似度のファイル組み合わせに関しては、関連度中のグループとし、関連度大のグループ中の一のファイルにアクセスがあった場合には、最速の記憶装置に同グループ内のファイルを配置し、関連度中のグループ中の一のファイルにアクセスがあった場合には、次に最速の記憶装置に同グループ内のファイルを配置する方法も考えられる。

本発明に係る第１の実施形態としての記憶システムの構成図である。本発明に係る第１の実施形態としてのファイル情報テーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としてのアクセス日時テーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としてのアクセス頻度テーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としての較正アクセス度テーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としてのファイル類似度テーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としてのファイルグループテーブルのデータ構成を示す説明図である。本発明に係る第１の実施形態としての記憶システムの動作を示すフローチャートである。図８中の較正アクセス度算出工程の詳細を示すフローチャートである。図８中のファイル類似度算出工程の詳細を示すフローチャートである。本発明に係る第２の実施形態としての記憶システムの動作を示すフローチャートである。図１１中の類似度算出工程の詳細を示すフローチャートである。本発明に係る変形例としてのファイル類似度テーブルのデータ構成を示す説明図である。

符号の説明

１０：記憶システム、１１：プロセッサ、１２：ファイル情報取得部、１３：アクセス日時管理部、１４：アクセス頻度取得部、１５：アクセス度算出部、１６：ファイル類似度算出、１７：グループ化処理部、１８：ファイル再配置部、１９：アクセス処理部、２０：データメモリ、２１：ファイル情報テーブル、２２：アクセス日時テーブル、２３：アクセス頻度テーブル、２４：較正アクセス度テーブル、２５：ファイル類似度テーブル、２６：ファイルグループテーブル、２８：プログラムメモリ、２９：データ再配置プログラム、３０：高速小容量記憶装置、３１：低速大容量記憶装置

Claims

複数種類の記憶装置を備える記憶システムにおけるデータ再配置方法であって、
前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するステップ、
前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出するステップ、
前記算出した値のうち、一定の値以上を有するファイルの組を１つのグループとしてグルーピングするステップ並びに
前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置するステップ
を含むことを特徴とするデータ再配置方法。
請求項１記載のデータ再配置方法であって、
前記類似度を算出するステップは、
ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出するステップ、
ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出するステップ、
前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出するステップ及び
前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出するステップ
を含むことを特徴とするデータ再配置方法。
請求項２記載のデータ再配置方法であって、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
ことを特徴とするデータ再配置方法。
請求項３記載のデータ再配置方法であって、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
ことを特徴とするデータ再配置方法。
請求項４記載のデータ再配置方法であって、
前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
前記アクセス度を算出するステップにおけるアクセスは、ファイルへの書込みアクセスである
ことを特徴とするデータ再配置方法。
複数種類の記憶装置を備える記憶システムに対して、
前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録する手段、
前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出する手段、
前記算出した値のうち、一定の値以上を有するファイルの組を１つのグループとしてグルーピングする手段並びに
前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置する手段
として記憶システムを機能させることを特徴とするデータ再配置プログラム。
請求項６記載のデータ再配置プログラムであって、
前記類似度を算出する手段は、
ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出する手段、
ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出する手段、
前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出する手段及び
前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出する手段
を含むことを特徴とするデータ再配置プログラム。
請求項７記載のデータ再配置プログラムであって、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
ことを特徴とするデータ再配置プログラム。
請求項８記載のデータ再配置プログラムであって、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
ことを特徴とするデータ再配置プログラム。
請求項９記載のデータ再配置プログラムであって、
前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
前記アクセス度を算出する手段におけるアクセスは、ファイルへの書込みアクセスである
ことを特徴とするデータ再配置プログラム。
制御部、
複数種類の記憶装置及び
メモリ
を備え、
前記メモリは、
前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するアクセス頻度情報、
前記複数のファイルの全ての組み合わせについて、前記アクセス頻度情報から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて類似度を記録するファイル類似度情報及び
前記ファイル類似度情報における類似度のうち、一定の値以上を有するファイルの組を１つのグループとして記録するファイルグループ情報
を有し、
前記制御部は、
前記ファイルグループ情報を参照し、１つのグループに属するファイルを一括して前記複数種類の記憶装置で配置する
ことを特徴とするデータ再配置システム。
請求項１１記載のデータ再配置システムであって、
前記メモリは、さらに、
ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であり、対象の期間における全ての期間について算出されるグループ化度と、
ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であり、前記複数のファイル全てについて算出されるアクセス度を、
前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて掛け合わせた較正アクセス度を記録する較正アクセス度情報
を有し、
前記類似度は、
前記複数のファイル全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた値
であることを特徴とするデータ再配置システム。
請求項１２記載のデータ再配置システムであって、
前記制御部は、さらに、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
ことを特徴とするデータ再配置システム。
請求項１３記載のデータ再配置システムであって、
前記制御部は、さらに、
前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
ことを特徴とするデータ再配置システム。
請求項１４記載のデータ再配置システムであって、
前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
前記アクセス度に関するアクセスは、ファイルへの書込みアクセスである
ことを特徴とするデータ再配置システム。