JP4859595B2 - 記憶システム、そのデータ再配置方法、データ再配置プログラム - Google Patents

記憶システム、そのデータ再配置方法、データ再配置プログラム Download PDF

Info

Publication number
JP4859595B2
JP4859595B2 JP2006237626A JP2006237626A JP4859595B2 JP 4859595 B2 JP4859595 B2 JP 4859595B2 JP 2006237626 A JP2006237626 A JP 2006237626A JP 2006237626 A JP2006237626 A JP 2006237626A JP 4859595 B2 JP4859595 B2 JP 4859595B2
Authority
JP
Japan
Prior art keywords
access
file
files
degree
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006237626A
Other languages
English (en)
Other versions
JP2008059438A (ja
Inventor
幸恵 田島
良一 植田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006237626A priority Critical patent/JP4859595B2/ja
Priority to US11/744,907 priority patent/US7853770B2/en
Publication of JP2008059438A publication Critical patent/JP2008059438A/ja
Priority to US12/967,183 priority patent/US8356154B2/en
Application granted granted Critical
Publication of JP4859595B2 publication Critical patent/JP4859595B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、 アクセス速度が異なる複数の記憶装置を備えている記憶システム、そのデータ再配置方法、データ再配置プログラムに関する。
近年、コンピュータが扱うデータ量が飛躍的に増加し、大容量の記憶システムの必要性が増大してきている。
大容量の記憶システムとしては、アクセス所要時間が短い反面、小容量の高速小容量の記憶装置と、アクセス所要時間が長い反面、大容量の低速大容量の記憶装置とを組み合わせた、階層型記憶システムがある。このような階層型記憶システムにおいては、アクセスを受けるデータを高速小容量の記憶装置に、アクセスを受けないデータを低速大容量の記憶装置に、適切に配置し、ユーザのアクセス所要時間を短縮することが重要である。
この点を考慮した技術として、例えば、以下の特許文献1に記載されているものがある。
この特許文献1では、性能、容量の異なる複数の記憶装置に格納されているデータのアクセス履歴からアクセス頻度を取得し、高頻度でアクセスを受けているデータをアクセス速度の速い記憶装置に配置し、低頻度でアクセスを受けているデータをアクセス速度の遅い記憶装置に配置する技術が開示されている。
しかしながら、この技術では、特定のデータにアクセスあると、この特定のデータに関連のある他のデータがアクセスされる可能性が高くても、この他のデータが低頻度でしかアクセスを受けていない場合、特定のデータにアクセスがあろうと、この他のデータが低速の記憶装置に配置されているため、アクセスに時間がかかってしまうという問題点がある。
そこで、以下の特許文献2では、上記問題点を解決するために、特定のデータがアクセスを受けた後、一定時間後に他のデータがアクセスを受けると、特定のデータと他のデータとを同一グループとして扱い、グループ内のいずれかのデータがアクセスを受けると、グループ内の他のデータを高速の記憶装置に配置するという技術が開示されている。
特開平5−12077号公報 特開平8−263335号公報
上記特許文献2に記載の技術では、確かに、上記特許文献1に記載の技術の問題点を解決できるものの、例えば、特定のデータがアクセスを受けた後、偶然、この特定のデータと関連性のない他のデータにアクセスがあった場合、この他のデータを同一グループとして扱ってしまうことや、特定のデータと関連性の高い他のデータがあっても、データの配置直前に、この特定のデータがアクセスを受けた後、この他のデータにアクセスが無ければ、この他のデータを同一グループとして扱われない等、適切なグループ化が行えず、結果として、データへのアクセス時間が長くなることがある、という問題点がある。
本発明は、このような従来技術の問題点に着目し、データのグループ化を適切化し、データへのアクセス時間を短くすることができる記憶システム、そのデータ再配置方法、データ再配置プログラムを提供することを目的とする。
前記問題点を解決するための本発明の一態様は、
複数種類の記憶装置を備える記憶システムにおけるデータ再配置方法であって、
前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するステップ、
前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出するステップ、
前記算出した値のうち、一定の値以上を有するファイルの組を1つのグループとしてグルーピングするステップ並びに
前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置するステップ
を含むことを特徴とする。
ここで、前記類似度を算出するステップは、
ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出するステップ、
ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出するステップ、
前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出するステップ及び
前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出するステップ、を含むことを特徴としてもよい。
また、前記のデータ再配置方法は、前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う、ことを特徴としてもよい。
また、データ再配置方法は、前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する、ことを特徴としてもよい。
また、前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、前記アクセス度を算出するステップにおけるアクセスは、ファイルへの書込みアクセスである、ことを特徴としてもよい。
本発明よれば、データのグループ化をより適切化し、データへのアクセス時間を短くすることができる。
以下、本発明に係る記憶システムの各種実施形態について、図面を用いて説明する。
「第1の実施形態」
本発明に係る記憶システムの第1の実施形態について、図1〜図10を用いて説明する。
本実施形態の記憶システム10は、図1に示すように、各種演算処理を実行するプロセッサ11と、このプロセッサ11による演算処理で得られるデータが格納されるデータメモリ20と、このプロセッサ11による演算処理で使用されるワークメモリ27と、各種プログラムが記憶されているプログラムメモリ28と、高速小容量記憶装置30と、低速大容量記憶装置31と、ネットワーク1との通信を行うためのインタフェース39と、を備えている。この記憶システム10は、ネットワーク1を介してクライアント端末2と接続されている。
計算機システム10のプロセッサ11は、機能的に、各記憶装置30,31に記憶されているファイルの情報を取得するファイル情報取得部12と、各記憶装置30,31に記憶されているファイルへのアクセス日時を管理するアクセス日時管理部13と、過去のアクセスデータ取得期間中におけるファイルへのアクセス頻度を求めるアクセス頻度算出部14と、ファイルへの後述のアクセス度を求めるアクセス度算出部15と、各ファイル毎に当該ファイルのアクセス度と他のファイルのアクセス度との類似度を求める類似度算出部16と、相互に類似度の高い複数のファイルを一つのグループとするグループ化処理部17と、同一グループ内の一ファイルがアクセスされると同一グループ内の他のファイルを高速小容量記憶装置30に配置するファイル再配置部18と、各記憶装置30,31に記憶されているファイルへのアクセス処理を行うアクセス処理部19と、を有している。
プログラムメモリ28には、プロセッサ11が実行するデータ再配置プログラム29を含む各種プログラムが記憶されている。データ再配置プログラム29は、プロセッサ11の機能としてのアクセス頻度算出部14、アクセス度算出部15、ファイル類似度算出部16、グループ化処理部17及びファイル再配置部18を実現するためのプログラムである。
データメモリ20には、ファイル情報取得部12が取得したファイルの情報が格納されるファイル情報テーブル21と、アクセス日時管理部13が取得したファイルへのアクセス日時が格納されるアクセス日時テーブル22と、アクセス頻度算出部14が求めた各ファイル毎のアクセス頻度が格納されるアクセス頻度テーブル23と、アクセス度算出部15が求めた後述の較正アクセス度が格納される較正アクセス度テーブル24と、類似度算出部16が求めた各ファイル毎の類似度が格納されるファイル類似度テーブル25と、各グループ毎のファイルIDが格納されるファイルグループテーブル26と、が設けられている。
なお、本実施形態では、各記憶装置30,31とプロセッサ11等とを同一の筐体に納めた記憶システム10を想定しているが、これらは必ずしも同一筐体内に納められている必要はない。また、本実施形態では、記憶システム10とクライアント端末2とは個別の装置であるが、クライアント端末2に記憶システム10が含まれても、又は記憶システム10にクライアント端末2が含まれても、一向に構わない。また、ここでは、高速記憶装置30が小容量で、低速記憶装置31が大容量であるが、容量の大小関係に関しては、本発明に直接関係無く、アクセス速度の異なる複数の記憶装置が存在すれば、本発明を適用できる。
ファイル情報テーブル21は、前述したように、ファイル情報取得部12により取得された各ファイルの情報が保存されるテーブルである。このファイル情報テーブル21は、図2に示すように、ファイルIDが格納されるファイルIDフィールド21aと、各ファイルID毎のファイルの位置を特定するパスが格納されるファイルパスフィールド21bとがある。例えば、ファイルIDフィールド21aには、ファイルID「1」が格納され、このファイルID「1」に対応するファイルパスとして、ファイルパスフィールド21bに「/fruit/apple.jpg」が格納される。このファイル情報テーブル21に格納されているファイル情報は、ファイル情報取得部12により、常に最新の状態に更新される。
アクセス日時テーブル22は、アクセス日時管理部13により取得された各ファイルへのアクセス日時が格納されるテーブルである。このアクセス日時テーブル22は、図3に示すように、ファイルへのアクセス日時が格納されるアクセス日時フィールド22bと、このアクセスがあったファイルのIDが格納されるファイルIDフィールド22aとがある。例えば、ファイルID「5」のファイルに、「2005/10/01 09:12:10」にアクセスがあった場合には、ファイルIDフィールド22aにファイルID「5」が格納され、アクセス日時フィール22bには、「2005/10/01 09:12:10」が格納される。なお、ここでは、アクセスに関して、日時のみを記憶するようにしているが、そのアクセスが書き込みアクセスか読み取りアクセスかなどの属性を記憶するようにしてもよい。このアクセス日時テーブル22は、アクセス処理部19によりファイルにアクセスがある毎に、アクセス日時管理部13により更新される。
アクセス頻度テーブル23は、アクセス頻度算出部14により求められたアクセスデータ取得期間中の各ファイル毎のアクセス回数、つまりアクセス頻度が格納されるテーブルである。アクセスデータ取得期間は、後述のデータ再配置のために必要とするデータ取得期間で、ユーザが予め定める期間である。ここでは、図4に示すように、2005/10/1から2005/10/7の一週間をアクセスデータ取得期間としている。このアクセスデータ取得期間は、ユーザが予め定めた複数の単位期間に分けられる。この単位期間は、この例では、一日である。アクセス頻度テーブル23は、各記憶装置30,31に格納されている各ファイルのファイルIDが格納されるファイルIDフィールド23aと、各ファイルID毎で且つアクセスデータ取得期間中の各単位期間毎のアクセス頻度が格納されるアクセス頻度フィールド23bと、各ファイルID毎のアクセスデータ取得期間中の合計アクセス頻度が格納される合計フィールド23cとがある。この例では、ファイルIDフィールド23aに「1」が格納され、このファイルID「1」に対応するアクセス頻度フィールド23bには、2005/10/1に0回、10/2に0回、10/3に3回、10/4に5回、10/5に2回、10/6に1回、10/7に0回の頻度が格納された例を示している。なお、ここでは、書き込みアクセスと読み取りアクセスを区別せずに、単なるアクセス頻度として記憶しているが、書き込みアクセスと読み込みアクセスをと区別して、それぞれのアクセス頻度を記憶するようにしてもよい。
較正アクセス度テーブル24は、アクセス度算出部15により、アクセス頻度を用いて求めた較正アクセス度が、各ファイルID毎に且つ各単位期間毎に格納されるテーブルである。なお、較正アクセス度及び較正アクセス度を求めるためのアクセス度の定義、及びその算出方法については、後で詳細に説明するが、アクセス度及び較正アクセス度は、いずれも、基本的に、アクセスデータ取得期間中の該当ファイルの全アクセス頻度に対する単位期間中の該当ファイルのアクセス頻度の程度を示す値である。したがって、ある単位期間で、あるファイルのアクセス度又較正アクセス度が高い場合には、この単位期間で当該ファイルへのアクセス回数が多かったこと意味する。この較正アクセス度テーブル24は、アクセス頻度テーブル23のファイルIDフィールド23aに格納された全てのファイルIDが格納されるファイルIDフィールド24aと、各ファイルID毎で且つアクセスデータ取得期間中の各単位期間毎の較正アクセス度が格納される較正アクセス度フィールド24bとがある。この例では、ファイルIDフィールド24aに「1」が格納され、このファイルID「1」に対応する較正アクセス度フィールド24bには、2005/10/1に0、10/2に0、10/3に0.68、10/4に0.91、10/5に0.36、10/6に0.18、10/7に0の較正アクセス度が格納された例を示している。
ファイル類似度テーブル25は、ファイル類似度算出部16により、各ファイルID毎に、当該ファイルの単位期間内のアクセス頻度と同単位期間内での他のファイルのアクセス頻度との類似の程度を示す類似度が格納されるテーブルである。なお、この類似度の定義、及びその算出方法については、後で詳細に説明するが、類似度は、その値が大きいほど、2つのファイルが同単位期間内にアクセスを受ける可能性が高いことを示す。このファイル類似度テーブル25は、アクセステーブル23のファイルIDフィールド23aに格納された全てのファイルIDが格納されるファイルIDフィールド25aと、各ファイルID毎で且つ各他のファイルID毎に、他のファイルのアクセスに対する類似度が格納される類似度フィールド25bとがある。この例では、ファイルIDフィールド25aに「1」が格納され、このファイルID「1」に対応する類似度フィールド25bには、ファイルID「2」のファイルに対して類似度「0.43」、ファイルID「3」のファイルに対して類似度「1.15」、ファイルID「4」のファイルに対して類似度「0.36」、ファイルID「5」のファイルに対して類似度「0.66」、ファイルID「6」のファイルに対して類似度「0」、ファイルID「7」のファイルに対して類似度「0」、ファイルID「8」のファイルに対して類似度「0.42」、ファイルID「9」のファイルに対して類似度「0.30」、ファイルID「10」のファイルに対して類似度「0.53」がそれぞれ格納された例を示している。
ファイルグループテーブル26は、グループ化処理部17により、各ファイルID毎に、当該ファイルIDのファイルと同一グループとしたファイルのIDが格納されるテーブルである。なお、グループ化処理方法については、後述する。このファイルグループテーブル26は、図7に示すように、アクセステーブル23のファイルIDフィールド23aに格納された全てのファイルIDが格納されるファイルIDフィールド26aと、各ファイルID毎に当該ファイルと同一グループとしたファイルのIDが格納される同グループ内ファイルIDフィールド26bとがある。この例では、ファイルIDフィールド26aに「1」が格納され、このファイルID「1」に対応する同グループ内ファイルIDフィールド26bには、「3」が格納された例を示している。つまり、この例では、ファイルID「1」のファイルとファイルID「3」のファイルとは、同一グループであることを示している。したがって、ファイルIDフィールド26aに「3」が格納され部分に対応する同グループ内ファイルIDフィールド26bには、当然、「1」が格納されることになる。但し、後述するように、読取アクセスと書込みアクセスとを分けてグループ化する場合には、この限りではない。
次に、図8に示すフローチャートに従って、本実施形態の記憶システム10の動作について説明する。
まず、アクセス頻度算出部14は、最新の単位期間が終了したか否かを判断する(S10)。最新の単位期間が終了していなければ、つまり、最新の単位期間中であれば、ステップ80の処理が行われる。また、最新の単位期間が終了していれば、アクセス頻度算出部14は、新たな単位期間及び新たなアクセスデータ取得期間を設定する(S20)。
例えば、現在、2005年10月7日の場合、この日のアクセスデータ取得期間は同年9月30日〜同年10月6日の一週間である。アクセス頻度算出部14は、この場合、最新の単位期間が10月7日であり、この日が終了したか否かを判断し(S10)、この日が終了していれば、アクセスデータ取得期間の新たな単位期間として、この日、つまり10月7日を設定すると共に、アクセスデータ取得期間を同年10月1日〜同年10月7日の一週間に設定変更する。アクセス頻度算出部14は、この設定変更で、アクセス頻度テーブル23(図4)の各単位間の日付を変更する。なお、ここでは、アクセスデータ取得期間が一週間で、単位期間が一日の例を述べているが、本発明はこれに限定されるものではない。また、ここでは、新たなアクセスデータ取得期間を直近の一週間としているが、ユーザは新たなアクセスデータ取得期間の開始及び終了時期を適宜決めるようにしてもよい。このため、ユーザの設定によっては、ステップ10の単位期間が終了したか否かの判断で、単位期間が最新である必要がなくなる場合もある。
アクセス頻度算出部14は、続いて、アクセス日時テーブル22を参照して、アクセスデータ取得期間中の各単位期間毎の各ファイルのアクセス頻度を求め、これをアクセス頻度テーブル23に格納する(S30)。なお、アクセス頻度算出部14は、ここでは、ステップ20で新たに設定した単位期間でのアクセス頻度のみを求め、その他のアクセスデータ取得期間中の単位期間に関しては、既に算出した該当単位期間のデータをそのまま用いる。この結果、アクセス頻度テーブル23には、図4に示すように、2005年10月1日〜同年10月7日の一週間をアクセスデータ取得期間とした単位期間毎の各ファイル毎の頻度が格納される。
アクセス頻度算出部14により、アクセス頻度テーブル23が更新されると、アクセス度算出部15が較正アクセス度を求めて、これを較正アクセス度テーブル24に格納する(S40)。
ここで、このアクセス度算出部15による較正アクセス度算出工程(S40)の詳細について、図9に示すフローチャートに従って説明する。
アクセス度算出部15は、まず、アクセス頻度テーブル23に設定されている全単位期間を選択したか否かを判断する(S41)。全単位期間を選択していればステップ45に進み、全単位期間を選択していなければ、未選択の単位期間tを選択し(S42)、この単位期間t内のアクセスを受けたファイルの数、言い換えると全ファイルのアクセス頻度N(t)を取得する(S43)。続いて、ファイル情報テーブルに保存されている全ファイル数Nと単位期間t内の全ファイルへのアクセス頻度N(t)との割合であるグループ化度Y(t)(=N/N(t))を算出する(S44)。例えば、全ファイル数Nは、ファイルIDが「1」〜「10」までの10個、単位期間10月1日の全ファイルへのアクセス頻度N(10/1)は5であるから、単位期間10月1日のグループ化度Y(10/1)は、2(=10/5)となる。また、単位期間10月3日のグループ化度Y(10/3)は、2.5(=10/4)となる。このグループ化度Y(t)は、後述のアクセス度の重みとしての役割をなす値で、単位期間t内のアクセス頻度N(t)が多くなればなるほど小さな値になり、その意義は後述する。
ある単位期間tのグループ化度Y(t)を算出すると、ステップ41に戻り、再び、全単位期間を選択したか否かを判断し、全単位期間を選択していれば、アクセス頻度テーブル23に格納されている全ファイルを選択したか否かを判断する(S45)。全ファイルを選択していれば、較正アクセス度算出の工程(S40)は終了し、全ファイルを選択していなければ、未選択のファイルaを選択する(S46)。そして、アクセスデータ取得期間内のこのファイルaへの総アクセス頻度C(a)をアクセス頻度テーブル23から取得する(S47)。例えば、ファイルIDが「1」のファイルへの総アクセス頻度C(1)は、アクセス頻度テーブル23(図4)より、11となる。
アクセス頻度算出部14は、続いて、アクセスデータ取得期間内の全単位期間を選択済みか否かを判断し(S48)、選択済みであればステップ45に戻り、選択済みでなければ未選択の単位期間tを選択する(S49)。そして、この単位期間t内のファイルaへのアクセス頻度C(a,t)をアクセス頻度テーブル23から取得し(S50)、アクセスデータ取得期間内のファイルaへの総アクセス頻度C(a)に対する単位期間t内のファイルaへのアクセス頻度C(a,t)の割合であるアクセス度X(a,t)(=C(a,t)/C(a))を求める(S51)。例えば、単位期間10月3日のファイル「1」へのアクセス頻度C(1,10/3)は、アクセス頻度テーブル23(図4)より、3であり、ファイル「1」への総アクセス頻度C(1)は、前述したように、11であるから、ファイル「1」の単位期間10月3日におけるアクセス度X(1,10/3)は、0.27(=3/11)となる。
次に、この単位期間t内のファイルaへのアクセス度X(a,t)に、ステップ44で求めた同単位期間のグループ化度Y(t)を掛けて、較正アクセス度W(a,t)を求め、これを較正アクセス度テーブル24(図5)の該当フィールドに格納する(S52)。例えば、ファイル「1」の単位期間10月3日におけるアクセス度X(1,10/3)は、前述したように0.27であり、単位期間10月3日のグループ化度Y(10/3)は、前述したように2.5であるから、ファイル「1」の単位期間10月3日における較正アクセス度W(1,10/3)は、0.68(=0.27×2.5)となる。
単位期間t内のファイルaへの較正アクセス度W(a,t)を求めると、再び、ステップ48に戻って、ファイルaに関して全単位期間を選択したか否かを判断する。ここで、ファイルaに関して全単位期間について選択済みで、ファイルaに関して全単位期間毎の較正アクセス度W(a,t)を求めていたならば、ステップ45に戻って、再び、全ファイルについて選択したか否かを判断する。このとき、全ファイルについて選択済みで、全ファイル毎に全単位期間毎の校正アクセス度を求めていたならば、構成アクセス度算出の工程(S40)は終了する。
ここで、アクセス度X(a,t)、較正アクセス度W(a,t)及びグループ化度Y(t)について説明する。
ファイルaのアクセス度X(a,t)は、基本的に、アクセスデータ取得期間中の全単位期間でのファイルaへのアクセス頻度に対する、特定の単位期間tでのファイルaへのアクセス頻度の相対値である。このため、特定の単位期間tでのファイルaのアクセス度X(a,t)が高い場合には、当然、この特定の単位期間tでのファイルaへのアクセス頻度が、他の単位期間に比べて高いことを意味することになる。仮に、他のファイルbも、この特定の単位期間tでのアクセス度X(b,t)が高い場合には、この単位期間tにおいて、ファイルaとファイルbとの両方のアクセス頻度が、他の単位期間に比べて、高いことになる。このため、両ファイルa,bのアクセス頻度の類似性が高いと言え、アクセス頻度の類似性の高いものをグループ化する場合に、両ファイルa,bを同一のグループとして扱える。但し、この単位期間tにおいて、複数の他のファイルへのアクセス頻度も極めて高い場合には、この単位期間tにおいて、ファイルaとファイルbとがアクセスされたのは、ファイルaとファイルbとの間に所定の関係があったからでななく、偶然、両ファイルa,bがアクセスされた可能性が高いからであるとも言える。
そこで、本実施形態では、特定の単位期間tにおける各ファイルへの全アクセス頻度N(t)が高い場合には、両ファイルa,bの類似性を低くし、逆に、特定の単位期間tにおける各ファイルへの全アクセス頻度が低い場合には、両ファイルa,bの類似性を高めるために、グループ化度Y(t)(=N/N(t))という概念を導入し、両ファイルa,bの類似性を補正している。すなわち、グループ化度Y(t)は、前述したように、特定の単位期間tの全ファイルへの総アクセス頻度N(t)が高くなれば、逆に低くなる値であるため、本実施形態では、特定時間のアクセス度X(a,t)に、このグループ化度Y(t)を重みとして掛け、これを較正アクセス度W(a,t)とし、この較正アクセス度W(a,t)を用いて、他のファイルとのアクセス頻度の類似性を考えることで、偶然による類似性の高まりをできる限り排除している。
較正アクセス度算出の工程(S40)が終了すると、図8のフローチャートに示すように、較正アクセス度算出の工程(S40)で求めた較正アクセス度を用いて、ファイル類似度算出部16がファイル相互間のアクセス頻度の類似度を求める(S60)。
このファイル類似度算出の工程(S60)では、図10のフローチャートに示すように、ファイル類似度算出部16が、まず、較正アクセス度テーブル24に格納されている全ファイルについて選択したか否かを判断する(S61)。全ファイルについて選択済みであれば、ファイル類似度算出の工程(S60)を終了し、全ファイルについて選択済みでなければ、未選択のファイルaを選択する(S62)。
次に、ファイル類似度算出部16は、較正アクセス度テーブル24にこのファイルaのIDより大きい数字のIDを持つファイルが存在するか否かを判断する(S63)。大きい数字のIDを持つファイルが存在しなければステップ61に戻り、大きい数字のIDを持つファイルが存在すれば、大きい数字のIDを全て抽出し、これらのIDを持つファイルの集合Fを設定する(S64)。そして、この集合F内の全ファイルについて選択済みか否かを判断し(S65)、全ファイルについて選択済みであればステップ61に戻り、全ファイルについて選択済みでなければ集合F内の未選択ファイルbを選択する(S66)。
ファイル類似度算出部16は、集合F内の未選択ファイルbを選択すると、アクセスデータ取得期間内の全単位期間について選択したか否かを判断する(S67)。全単位期間について選択済みであればステップ65に戻り、全単位期間について選択済みでなければ、アクセスデータ取得期間内の未選択の単位期間tを選択する(S68)。次に、較正アクセス度テーブル24から、この単位期間tでのファイルaの較正アクセス度W(a,t)とファイルbの較正アクセス度W(b,t)とを抽出し、両者を掛けて、これを仮の類似度R(a,b)とする(S69)。仮の類似度を求めると、再び、ステップ67に戻り、ステップ68で、未選択の単位期間を選択し、この単位期間でのファイルaの較正アクセス度とファイルbの較正アクセス度とを掛けて、この値に先に求めた仮の類似度R(a,b)を加え(S69)、再び、ステップ67に戻り、全単位期間について選択済みとなるまで、ステップ67〜ステップ69の処理を繰り返す。すなわち、アクセスデータ取得期間中の各単位期間毎の、ファイルaの較正アクセス度とファイルbの較正アクセス度とを掛けた値の合計を求め、これをファイルaとファイルbの類似度R(a,b)とし、この類似度R(a,b)をファイル類似度テーブル25(図6)の該当フィールドに格納する。例えば、図5に示す較正アクセス度テーブル24中のファイル「1」とファイル「2」との類似度R(1,2)は、以下のようになる。
類似度R(1,2)=0×0.5(10月1日分)+0×1.25(10月2日分)+0.68×0.63(10
月3日分)+0.98×0(10月4日分)+0.36×0(10月5日分)
+0.18×0(10月6日分)+0×0(10月7日分)
=0.43
この類似度R(1,2)=0.43は、図6に示すファイル類似度テーブル25のファイル「1」に対するファイル「2」の類似度のフィールドに格納される。
ファイルaとファイルbの類似度R(a,b)を求めると、ステップ65に戻り、ステップ66で、集合F内で未選択のファイルcを選択し、以下、ステップ67〜ステップ69の処理で、ファイルaとファイルcの類似度R(a,c)を求める。集合F内で未選択のファイルがなくなると(S65)、ステップ61に戻る。最終的に、較正アクセス度テーブル24に格納されている全てのファイルに関するファイルの全組み合わせについて、類似度を求めると、このファイル類似度算出の工程(S60)は終了する。
ファイル類似度算出の工程(S60)が終了すると、図8のフローチャートに示すように、ファイル類似度算出の工程(S60)で求めた類似度を用いて、グループ化処理部17が複数のファイルをいくつかのグループにまとめる(S70)。ここでは、ファイル類似度テーブル25(図6)で、2つのファイル相互間の類似度が1以上のものは、当該ファイル相互にアクセス関連度が高いとして、同一のグループとして扱う。例えば、ファイル「1」とファイル「3」の相互間の類似度は、ファイル類似度テーブル25より、1.15であるから、両ファイルは同一グループとなり、その結果がファイルグループテーブル26(図7)に格納される。
以上のグループ化処理の工程(S70)が終了すると、ファイル再配置部18及びアクセス処理部19が、いずれかのファイルにアクセスがあるか否かを判断する(S80)。いずれかのファイルにアクセスがあれば、アクセス処理部19は、このファイルに対してアクセス処理を行う。また、ファイル再配置部18は、ファイルグループテーブル26を参照して、このファイルに対して同一のグループのファイルがあるか否かを判断する(S90)。このファイルに対して同一のグループのファイルがあり、そのグループ内ファイルが低速大容量記憶装置31に配置されていれば、グループ内ファイルを高速小容量記憶装置30に配置し、グループ内ファイルが既に高速小容量記憶装置30に配置されていれば、その配置のままにしておく(S100)。なお、この再配置処理の際、アクセスを受けたファイルが、低速大容量記憶装置31に配置されていれば、このファイルも高速小容量記憶装置30に配置するようにしてもよい。
このデータ再配置処理(S100)が終了すると、さらに、先の判断(S80,90)で否の判断を下した場合には、ステップ10に戻り、最新の単位期間が終了するまで、ステップ80,90,100,10の処理を繰り返す。
以上、本実施形態では、あるファイルにアクセスがあり、このファイルとアクセス関連性が高いファイルがある場合、このファイルのアクセス頻度が低くても、高速記憶装置30に配置されるので、アクセス時間を短くすることができる。また、本実施形態では、アクセスデータ取得期間内の各単位期間毎の各ファイル毎のアクセス頻度を求め、あるファイルの単位期間毎のアクセス頻度と、他のファイルの単位期間毎のアクセス頻度との類似度を求めているので、偶然性に左右されにくいグループ化を行うことができる。このため、この観点からも、アクセス時間を短くすることができると言える。例えば、本実施形態では、特定のファイルがアクセスを受けた後、偶然、この特定のファイルと関連性のない他のファイルにアクセスがあっても、この他のファイルを同一グループとして扱ってしまうことを回避できる。さらに、特定のファイルと関連性の高い他のファイルがあり、ファイルの配置直前に、この特定のファイルがアクセスを受けた後、この他のファイルにアクセスが無くても、この他のファイルを同一グループとして扱うことができる。特に、本実施形態では、グループ化度Y(t)という概念を導入して、グループ化の指標となる類似度を求める過程で、偶然性をできる限り排除しているので、極めて適切なグループ化を行うことができる。
なお、以上では、ファイルを低速記憶装置31から高速記憶装置30へ配置することについて詳細に説明したが、ファイルを低速記憶装置31から高速記憶装置30へ配置するのみでは、高速記憶装置30にファイルを配置できなくなるため、本実施形態でも、一定の条件が成立すると、ファイルを高速記憶装置30から低速記憶装置31へ配置する必要がある。この実現方法としては、例えば、アクセスデータ取得期間内に、アクセス頻度が所定値以下のファイルに関しては、図8のファイルグループ化処理(S70)の終了後であって、ファイルへのアクセスを待っている過程で(S80)、このファイルを低速記憶装置31へ配置する方法が考えられる。
ここで、以上で説明した再配置処理にかかる記憶システムの負荷について検証する。
総ファイル数をN、アクセスデータ取得期間に含まれる単位期間の数をSとすると、処理に必要な演算回数は以下のように概算される。
C(a)を算出するには、単位期間ごとにアクセス回数を加算するため、S回の演算が必要となる。X(a,t)を算出するには、C(a,t)をC(a)で除算するため、S+1回の演算が必要となる。アクセスデータ取得期間内の全単位期間に対する全ファイルのX(a,t)を算出するには、この計算を全単位期間分、全ファイルに対して行うため、(S+1)×S×N回の演算が必要となる。
N(t)を算出するには、ファイルごとにアクセスしたか否かを加算するため、N回の演算が必要となる。Y(t)を算出するには、N(t)をNで除算するため、N+1回の演算が必要となる。アクセスデータ取得期間内の全単位期間に対するY(t)を算出するには、この計算を全単位期間分行うため、(N+1)×S回の演算が必要となる。
アクセスデータ取得期間内の全単位期間に対する全ファイルのW(a,t)を算出するには、全単位期間分、全ファイルに対してX(a,t)をY(t)で除算する必要があるため、(S+1)×S×N+(N+1)×S+S×N回の演算が必要となる。
全ファイルの組み合わせのR(a,b)を算出するには、全単位期間分の乗算と加算を、全ファイルの組み合わせ数であるN×(N−1)/2回行うため、(S+S)×N×(N−1)/2回の演算が必要となる。
なお、計算回数を減らすために、予め全ファイルの組み合わせの類似度を算出せずに、後述の第2の実施形態のように、ファイルアクセス後にアクセスを受けたファイルに関する類似度のみを算出する場合、アクセスを受けたファイルに関する類似度を算出するには、全単位期間分の乗算と加算を、アクセスを受けたファイルを除いたファイル数であるN−1回行う必要があり、(S+S)×(N−1)回の演算が必要となる。
ところで、一般に入手可能なCPUであるPentium(商標登録)/2.8GHzは、5.6GFLOPS程度の処理能力があるといわれている。
そこで、10GFLOPSの計算機を用いて、総ファイル数「100万」に対して、指定取得範囲期間「1年間」、取得単位期間「1日」の条件で、本処理を実施する場合、上記より、全ファイルのW(a,t)を求めるのに必要な計算回数=134×10回、計算時間=13.4秒、予め全ファイルの組み合わせの類似度を算出する場合、必要な計算回数=365067×10回、計算時間=36506.7秒≒10時間、ファイルアクセスを受けてから、そのファイルに関する類似度のみを求める場合、必要な計算回数=0.73×10回、計算時間=0.073秒と概算できる。
以上の結果から、本実施形態の再配置方法は十分に実施可能であると考える。
「第2の実施形態」
本発明に係る記憶システムの第2の実施形態について、図11及び図12を用いて説明する。
本実施形態の記憶システムは、その機能構成は、図1に示す第1の実施形態の機能構成と基本的に同じであるが、各機能構成12〜19における各処理の実施順序が第1の実施形態と異なる。
具体的に、本実施形態では、図11のフローチャートに示すように、いずれかのファイルにアクセスがあった後に(S80a)、このアクセスファイルaと他のファイルとの類似度を求め(S60a)、この類似度に基づいて、このファイルaと同一グループにするファイルを定めるようにしている(S70a)。すなわち、本実施形態では、単位期間終了の判断処理(S10)、新たなアクセスデータ取得期間の設定処理(S20)、アクセス頻度算出処理(S30)、較正アクセス度算出処理(S40)までの各処理は、第1の実施形態と同様であるが、この較正アクセス度算出処理(S40)が終了した時点から、アクセスの有無の判断処理(S80a)を行い、その後、前述したように、アクセスファイルaと他のファイルとの類似度の算出処理(S60a)、ファイルaのグループ化処理(S70a)を行い、そして、同一グループのファイルの有無の判断処理(S90a)、データ再配置処理(S100)を行うようにしている。
本実施形態の類似度算出処理(S60a)では、全ファイルに関して他のファイルとの類似度を求める必要がないため、図12のフローチャートに示すように、第1の実施形態の類似度算出処理(S60)と異なり、直ちに、アクセスファイルaを除くファイルの集合Fを設定し(S64a)、その後は、第1の実施形態の類似度算出処理(S60)と同様に、ステップ65〜ステップ69の各処理を行う。
以上のように、本実施形態では、第1の実施形態のように、全ファイルに関して、類似度算出処理(S60)及びグループ化処理(S70)を行わず、アクセスのあったファイルに関してのみ、類似度算出処理(S60a)及びグループ化処理(S70a)を行うので、記憶システムにおける再配置処理での負荷を軽減することができる。
「各種変形例」
以上では、ファイル相互間の類似度を求めるにあたり、ファイルのアクセス頻度から、このファイルのアクセス度、及び較正アクセス度を求め、この較正アクセス度を用いて類似度を求めているが、アクセス度や較正アクセス度を求めなくても、アクセス頻度から直接的に類似度を求める方法もある。例えば、ファイル「1」とファイル「2」との類似度を求める場合、各単位期間毎に、ファイル「1」のアクセス頻度とファイル「2」のアクセス頻度を掛け、これらを合計した値をファイル「1」とファイル「2」との類似度としてもよい。すなわち、ファイル「1」とファイル「2」との類似度R(1,2)を、以下のように、求めてもよい。
類似度R(1,2)=0×1(10月1日分)+0×2(10月2日分)+3×1(10月3日分)
+5×0(10月4日分)+2×0(10月5日分)+1×0(10月6日分)
+0×0(10月7日分)
=3
この場合、ファイル類似度テーブルは、図13に示すようになり、仮に、2つのファイル相互間の類似度が15以上のもの(図中、アンダーラインを引いている)は、当該ファイル相互にアクセス関連度が高いとして、同一のグループとして扱うとすると、グループ化処理の結果は第1の実施形態と同様になる。
このように、類似度を求めると、その算出が極めて簡単になるため、記憶システムのデータ再配置処理にかかる負荷を軽減することができる。但し、この変形例では、偶然性をできる限り排除するためのグループ化度の概念を用いていないので、第1の実施形態よりも偶然性でグループ化してしまうものが多くなることは否めない。
ところで、ファイルaにアクセスがあったとき次にアクセスを受ける可能性が高いファイルの数が多く、高速記憶装置30へのファイル再配置が難しい場合が考えられる。このような場合、グループ化閾値を変更する方法や、アクセス関連度の上位からファイル数または合計サイズで選択する方法、読み取りと書き込みの2つのアクセスのうち、アクセス時間が相対的に長い書き込みファイルのみを再配置する方法等で対処できる。
以上の対処方法のうち、書き込みファイルのみを再配置する方法では、図3に示すアクセス日時テーブル22に、アクセス属性として、そのアクセスが読み取りであるか書き込みであるかの情報を付加し、図4に示すアクセス頻度テーブル23のアクセス頻度のフィールドに、読み取りアクセスと書き込みアクセスの欄を設ける必要がある。そして、例えば、ファイルaがアクセス(読み取り又は書き込み)を受けたときに、書き込みアクセスが行われる可能性が高いファイルbを再配置するために、ファイルaの較正アクセス度W(a,t)と、ファイルbの較正書込みアクセス度Ww(b,t)とを用いて、図10に示すS67,68,69の処理を実行して、ファイルaとファイルbとの類似度を求めるようにすればよい。なお、較正書込みアクセス度Ww(b,t)は、ここでは、以下のように定義する。
Ww(b,t)=Xw(b,t)・Y(t)
=[Cw(b,t)/C(b)]・Y(t)
Xw(b,t):単位期間tにおけるファイルbへの書込みアクセス度
Cw(b,t):単位期間t内のファイルbへの書込みアクセス頻度
すなわち、ファイルbの書込み較正アクセス度Ww(b,t)は、ファイルbへの書込みアクセス度Xw(b,t)に、単位期間tにおけるグループ化度Y(t)を掛けたものである。
また、以上では、ファイル単位での再配置を例にして説明したが、ファイル以外にも、メール、フォルダ、ボリューム、データベースのテーブル、レコード、フィールドなど、アクセス頻度の取得と記憶装置間の移動が可能なデータ単位であれば、如何なるデータ単位で再配置処理を行ってもよいことは言うまでもない。
また、以上では、アクセス速度が高速と低速の二つの種類の記憶装置30,31を備えているものを例にしたが、本発明はこれに限定されるものではなく、アクセス速度が三種類以上である場合にも適用できる。この場合、ファイルaとファイルbとの間に関連性があり、ファイルaにアクセスがあった場合、ファイルbをアクセス速度が最速の記憶装置に配置する方法が考えられる。また、他の方法として、グループ分けのための類似度の閾値として、例えば、2つの閾値を設定し、第1の閾値(>第2の閾値)以上の類似度のファイル組み合わせに関しては、関連性大のグループとし、第1の閾値未満で第2の閾値以上の類似度のファイル組み合わせに関しては、関連度中のグループとし、関連度大のグループ中の一のファイルにアクセスがあった場合には、最速の記憶装置に同グループ内のファイルを配置し、関連度中のグループ中の一のファイルにアクセスがあった場合には、次に最速の記憶装置に同グループ内のファイルを配置する方法も考えられる。
本発明に係る第1の実施形態としての記憶システムの構成図である。 本発明に係る第1の実施形態としてのファイル情報テーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としてのアクセス日時テーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としてのアクセス頻度テーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としての較正アクセス度テーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としてのファイル類似度テーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としてのファイルグループテーブルのデータ構成を示す説明図である。 本発明に係る第1の実施形態としての記憶システムの動作を示すフローチャートである。 図8中の較正アクセス度算出工程の詳細を示すフローチャートである。 図8中のファイル類似度算出工程の詳細を示すフローチャートである。 本発明に係る第2の実施形態としての記憶システムの動作を示すフローチャートである。 図11中の類似度算出工程の詳細を示すフローチャートである。 本発明に係る変形例としてのファイル類似度テーブルのデータ構成を示す説明図である。
符号の説明
10:記憶システム、11:プロセッサ、12:ファイル情報取得部、13:アクセス日時管理部、14:アクセス頻度取得部、15:アクセス度算出部、16:ファイル類似度算出、17:グループ化処理部、18:ファイル再配置部、19:アクセス処理部、20:データメモリ、21:ファイル情報テーブル、22:アクセス日時テーブル、23:アクセス頻度テーブル、24:較正アクセス度テーブル、25:ファイル類似度テーブル、26:ファイルグループテーブル、28:プログラムメモリ、29:データ再配置プログラム、30:高速小容量記憶装置、31:低速大容量記憶装置

Claims (15)

  1. 複数種類の記憶装置を備える記憶システムにおけるデータ再配置方法であって、
    前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するステップ、
    前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出するステップ、
    前記算出した値のうち、一定の値以上を有するファイルの組を1つのグループとしてグルーピングするステップ並びに
    前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置するステップ
    を含むことを特徴とするデータ再配置方法。
  2. 請求項1記載のデータ再配置方法であって、
    前記類似度を算出するステップは、
    ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出するステップ、
    ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出するステップ、
    前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出するステップ及び
    前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出するステップ
    を含むことを特徴とするデータ再配置方法。
  3. 請求項2記載のデータ再配置方法であって、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
    ことを特徴とするデータ再配置方法。
  4. 請求項3記載のデータ再配置方法であって、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
    ことを特徴とするデータ再配置方法。
  5. 請求項4記載のデータ再配置方法であって、
    前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
    前記アクセス度を算出するステップにおけるアクセスは、ファイルへの書込みアクセスである
    ことを特徴とするデータ再配置方法。
  6. 複数種類の記憶装置を備える記憶システムに対して、
    前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録する手段、
    前記複数のファイルの全ての組み合わせについて、前記記録したアクセス回数から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて、類似度を算出する手段、
    前記算出した値のうち、一定の値以上を有するファイルの組を1つのグループとしてグルーピングする手段並びに
    前記グルーピングしたファイルを、一括して前記複数種類の記憶装置で配置する手段
    として記憶システムを機能させることを特徴とするデータ再配置プログラム。
  7. 請求項6記載のデータ再配置プログラムであって、
    前記類似度を算出する手段は、
    ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であるグループ化度を、対象の期間における全ての期間について算出する手段、
    ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であるアクセス度を、前記複数のファイル全てについて算出する手段、
    前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて、前記グループ化度と前記アクセス度とを掛け合わせた較正アクセス度を算出する手段及び
    前記複数のファイルの全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた類似度を算出する手段
    を含むことを特徴とするデータ再配置プログラム。
  8. 請求項7記載のデータ再配置プログラムであって、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
    ことを特徴とするデータ再配置プログラム。
  9. 請求項8記載のデータ再配置プログラムであって、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
    ことを特徴とするデータ再配置プログラム。
  10. 請求項9記載のデータ再配置プログラムであって、
    前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
    前記アクセス度を算出する手段におけるアクセスは、ファイルへの書込みアクセスである
    ことを特徴とするデータ再配置プログラム。
  11. 制御部、
    複数種類の記憶装置及び
    メモリ
    を備え、
    前記メモリは、
    前記記憶装置の有する複数のファイルそれぞれについて、一定の期間ずつアクセス回数を記録するアクセス頻度情報、
    前記複数のファイルの全ての組み合わせについて、前記アクセス頻度情報から、ある特定の期間についてアクセスされたファイルのファイル全体からみたアクセスの度合い及びある特定のファイルについてある特定の期間の対象期間全体からみた相対的なアクセスの度合いを用いて類似度を記録するファイル類似度情報及び
    前記ファイル類似度情報における類似度のうち、一定の値以上を有するファイルの組を1つのグループとして記録するファイルグループ情報
    を有し、
    前記制御部は、
    前記ファイルグループ情報を参照し、1つのグループに属するファイルを一括して前記複数種類の記憶装置で配置する
    ことを特徴とするデータ再配置システム。
  12. 請求項11記載のデータ再配置システムであって、
    前記メモリは、さらに、
    ある特定の期間について、ファイル全体数とアクセスされたファイル数との割合であり、対象の期間における全ての期間について算出されるグループ化度と、
    ある特定のファイルについて、対象の期間における一定期間のそれぞれにおけるアクセス回数の対象の期間におけるアクセス回数全体に対する割合であり、前記複数のファイル全てについて算出されるアクセス度を、
    前記複数のファイル全てに対して、対象の期間における一定期間のそれぞれについて掛け合わせた較正アクセス度を記録する較正アクセス度情報
    を有し、
    前記類似度は、
    前記複数のファイル全ての組み合わせについて、対象の期間における一定の期間の前記較正アクセス度を掛け合わせ、該掛け合わせた値を全て足し合わせた値
    であることを特徴とするデータ再配置システム。
  13. 請求項12記載のデータ再配置システムであって、
    前記制御部は、さらに、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、データの再配置を行う
    ことを特徴とするデータ再配置システム。
  14. 請求項13記載のデータ再配置システムであって、
    前記制御部は、さらに、
    前記複数のファイルのうちいずれかのファイルにアクセスがあった場合、該アクセスがあったファイルを含んだグループのファイルを、一括して前記複数種類の記憶装置のうち高速な記憶装置に配置する
    ことを特徴とするデータ再配置システム。
  15. 請求項14記載のデータ再配置システムであって、
    前記ファイルへのアクセスは、ファイルへの読み込みアクセス及び書込みアクセスを含み、
    前記アクセス度に関するアクセスは、ファイルへの書込みアクセスである
    ことを特徴とするデータ再配置システム。
JP2006237626A 2006-09-01 2006-09-01 記憶システム、そのデータ再配置方法、データ再配置プログラム Expired - Fee Related JP4859595B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006237626A JP4859595B2 (ja) 2006-09-01 2006-09-01 記憶システム、そのデータ再配置方法、データ再配置プログラム
US11/744,907 US7853770B2 (en) 2006-09-01 2007-05-07 Storage system, data relocation method thereof, and recording medium that records data relocation program
US12/967,183 US8356154B2 (en) 2006-09-01 2010-12-14 Storage system, data relocation method thereof, and recording medium that records data relocation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237626A JP4859595B2 (ja) 2006-09-01 2006-09-01 記憶システム、そのデータ再配置方法、データ再配置プログラム

Publications (2)

Publication Number Publication Date
JP2008059438A JP2008059438A (ja) 2008-03-13
JP4859595B2 true JP4859595B2 (ja) 2012-01-25

Family

ID=39153402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237626A Expired - Fee Related JP4859595B2 (ja) 2006-09-01 2006-09-01 記憶システム、そのデータ再配置方法、データ再配置プログラム

Country Status (2)

Country Link
US (2) US7853770B2 (ja)
JP (1) JP4859595B2 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423739B2 (en) * 2008-02-06 2013-04-16 International Business Machines Corporation Apparatus, system, and method for relocating logical array hot spots
US8914340B2 (en) * 2008-02-06 2014-12-16 International Business Machines Corporation Apparatus, system, and method for relocating storage pool hot spots
JP5109944B2 (ja) 2008-03-10 2012-12-26 株式会社Jvcケンウッド 表示モジュール、表示モジュールの固定構造、及び画像表示装置
JP5186982B2 (ja) * 2008-04-02 2013-04-24 富士通株式会社 データ管理方法及びスイッチ装置
JP5284685B2 (ja) 2008-05-16 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション ファイルの再配置装置、再配置方法、及び再配置プログラム
US8055835B2 (en) * 2008-06-23 2011-11-08 International Business Machines Corporation Apparatus, system, and method for migrating wear spots
JP5199003B2 (ja) * 2008-09-25 2013-05-15 株式会社日立製作所 管理装置及び計算機システム
KR101023585B1 (ko) * 2008-12-08 2011-03-21 주식회사 케이티 객체기반 스토리지 시스템에서 클라이언트 요청빈도에 따른데이터 관리 방법
US8195617B2 (en) * 2008-12-30 2012-06-05 International Business Machines Corporation Managing data across a plurality of data storage devices based upon collaboration relevance
US8533183B2 (en) * 2009-03-10 2013-09-10 Hewlett-Packard Development Company, L.P. Optimizing access time of files stored on storages
US9164689B2 (en) * 2009-03-30 2015-10-20 Oracle America, Inc. Data storage system and method of processing a data access request
US8230131B2 (en) * 2009-09-14 2012-07-24 International Business Machines Corporation Data migration to high speed storage in accordance with I/O activity over time
CN102549542A (zh) * 2009-10-09 2012-07-04 株式会社日立制作所 负载偏差时实现数据重新分配的存储***及其控制方法
US8825603B2 (en) * 2010-05-19 2014-09-02 International Business Machines Corporation Ordering volumes and tracks for data transfer based on usage characteristics
US8364716B2 (en) * 2010-12-17 2013-01-29 Netapp, Inc. Methods and apparatus for incrementally computing similarity of data sources
KR101502895B1 (ko) 2010-12-22 2015-03-17 주식회사 케이티 복수의 오류 복제본으로부터 오류를 복구하는 방법 및 상기 방법을 이용하는 스토리지 시스템
KR101544480B1 (ko) 2010-12-24 2015-08-13 주식회사 케이티 복수 개의 프락시 서버를 포함하는 분산 저장 시스템 및 그 오브젝트 관리 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
KR101585146B1 (ko) 2010-12-24 2016-01-14 주식회사 케이티 오브젝트를 복수 개의 데이터 노드들의 위치에 기반하여 분산 저장하는 분산 저장 시스템 및 그 위치 기반 분산 저장 방법 및 컴퓨터에 의하여 독출 가능한 저장 매체
KR101483127B1 (ko) 2011-03-31 2015-01-22 주식회사 케이티 클라우드 스토리지 시스템에서 리소스를 고려한 자료분배방법 및 장치
KR101544483B1 (ko) 2011-04-13 2015-08-17 주식회사 케이티 분산 저장 시스템의 복제 서버 장치 및 복제본 생성 방법
KR101544485B1 (ko) 2011-04-25 2015-08-17 주식회사 케이티 클라우드 스토리지 시스템에서 복수개의 복제본을 분산 저장하는 방법 및 장치
JP5782962B2 (ja) * 2011-09-27 2015-09-24 富士通株式会社 Raidグループ制御装置
EP2811408A4 (en) * 2012-01-30 2015-01-21 Fujitsu Ltd DATA MANAGEMENT DEVICE, DATA MANAGEMENT METHOD, DATA MANAGEMENT PROGRAM, AND INFORMATION PROCESSING DEVICE
JP2013229081A (ja) * 2012-04-26 2013-11-07 Toshiba Corp ファイル処理装置及びファイル処理方法
JP6118401B2 (ja) * 2012-10-12 2017-04-19 株式会社日立製作所 ストレージ装置及びデータ管理方法
US9753987B1 (en) * 2013-04-25 2017-09-05 EMC IP Holding Company LLC Identifying groups of similar data portions
DE112013006656B4 (de) * 2013-04-26 2023-01-26 Hitachi, Ltd. Speichersystem
CN104516678B (zh) * 2013-09-29 2017-09-26 国际商业机器公司 用于数据存储的方法和设备
JP6171816B2 (ja) * 2013-10-04 2017-08-02 富士通株式会社 データ管理プログラム、データ管理装置およびデータ管理方法
CN103729252B (zh) * 2013-12-20 2017-09-05 杭州华为数字技术有限公司 一种虚拟机调度的方法及调度监控器
JP6269048B2 (ja) * 2013-12-26 2018-01-31 富士通株式会社 データ配置制御プログラム、データ配置制御方法およびデータ配置制御装置
JP6246102B2 (ja) * 2014-09-16 2017-12-13 Kddi株式会社 キャッシュデータ管理装置、方法及びプログラム
JP6394231B2 (ja) * 2014-09-25 2018-09-26 富士通株式会社 データ配置制御プログラム、データ配置制御装置およびデータ配置制御方法
US10671431B1 (en) * 2014-09-25 2020-06-02 EMC IP Holding Company LLC Extent group workload forecasts
WO2016122595A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Chunk monitoring
JP2016162247A (ja) * 2015-03-02 2016-09-05 富士通株式会社 データ管理プログラム、データ管理装置、及びデータ管理方法
JP2017072929A (ja) 2015-10-06 2017-04-13 富士通株式会社 データ管理プログラム、データ管理装置、およびデータ管理方法
JP2018005446A (ja) * 2016-06-30 2018-01-11 富士通株式会社 情報処理装置、ストレージ制御プログラム、及びストレージ制御方法
US9928890B2 (en) * 2016-08-29 2018-03-27 Apple Inc. System and method for calibrating memory using credit-based segmentation control
US10628435B2 (en) * 2017-11-06 2020-04-21 Adobe Inc. Extracting seasonal, level, and spike components from a time series of metrics data
WO2020158463A1 (ja) * 2019-01-28 2020-08-06 富士フイルム株式会社 記録装置、記録方法、記録プログラム、及び磁気テープ
CN113474837B (zh) * 2019-03-27 2022-07-29 富士胶片株式会社 导出装置、导出方法、存储介质及磁带
WO2021120731A1 (zh) * 2019-12-18 2021-06-24 深圳大普微电子科技有限公司 数据存储方法及组件,数据处理方法及组件
CN112988040B (zh) * 2019-12-18 2023-02-24 深圳大普微电子科技有限公司 一种数据存储方法、装置、设备及可读存储介质
WO2021181859A1 (ja) * 2020-03-13 2021-09-16 富士フイルム株式会社 転送装置、転送方法、及び転送プログラム
JPWO2022054401A1 (ja) * 2020-09-08 2022-03-17
CN114489492B (zh) * 2021-12-31 2024-01-30 华能烟台八角热电有限公司 一种数据存储方法及安全装置、数据存储***
CN117076387B (zh) * 2023-08-22 2024-03-01 北京天华星航科技有限公司 基于磁带的海量小文件的快速归档恢复***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512077A (ja) 1991-07-08 1993-01-22 Nec Corp フアイル再配置方式
JPH08263335A (ja) * 1995-03-20 1996-10-11 Toshiba Corp データ記憶装置
JPH0944381A (ja) * 1995-07-31 1997-02-14 Toshiba Corp データ格納方法およびデータ格納装置
JPH09282201A (ja) * 1996-04-12 1997-10-31 Hitachi Ltd 情報記憶管理装置
JPH09297699A (ja) * 1996-04-30 1997-11-18 Hitachi Ltd 階層記憶装置および階層記憶ファイル管理方法
US6032224A (en) * 1996-12-03 2000-02-29 Emc Corporation Hierarchical performance system for managing a plurality of storage units with different access speeds
US6842876B2 (en) * 1998-04-14 2005-01-11 Fuji Xerox Co., Ltd. Document cache replacement policy for automatically generating groups of documents based on similarity of content
US6691136B2 (en) * 2000-09-28 2004-02-10 Fair Issac Corporation Fast data retrieval based upon contiguous consolidation of records according to frequency of access
US6640285B1 (en) * 2000-10-26 2003-10-28 Emc Corporation Method and apparatus for improving the efficiency of cache memories using stored activity measures
US6785767B2 (en) * 2000-12-26 2004-08-31 Intel Corporation Hybrid mass storage system and method with two different types of storage medium
JP2003216460A (ja) * 2002-01-21 2003-07-31 Hitachi Ltd 階層ストレージ装置及びその制御装置
JP3859674B2 (ja) * 2002-11-25 2006-12-20 富士通株式会社 省電力制御システムおよび省電力制御方法
JP4322031B2 (ja) * 2003-03-27 2009-08-26 株式会社日立製作所 記憶装置
JP4579000B2 (ja) * 2005-02-14 2010-11-10 株式会社日立製作所 計算機システムにおけるデータ配置設定

Also Published As

Publication number Publication date
US8356154B2 (en) 2013-01-15
US7853770B2 (en) 2010-12-14
US20080059718A1 (en) 2008-03-06
US20110202741A1 (en) 2011-08-18
JP2008059438A (ja) 2008-03-13

Similar Documents

Publication Publication Date Title
JP4859595B2 (ja) 記憶システム、そのデータ再配置方法、データ再配置プログラム
CN105117351B (zh) 向缓存写入数据的方法及装置
US11132383B2 (en) Techniques for processing database tables using indexes
CN104268099B (zh) 一种管理数据读写的方法及装置
CN104615594B (zh) 一种数据更新方法及装置
CN103186622B (zh) 一种全文检索***中索引信息的更新方法以及装置
US11232072B2 (en) Method and apparatus for file system
US20080140691A1 (en) Method, Device and Computer Program Product for Optimizing File Placement in a Storage System
CN104281535B (zh) 一种映射表在内存中的处理方法和装置
US11625187B2 (en) Method and system for intercepting a discarded page for a memory swap
CN110187835A (zh) 用于管理访问请求的方法、装置、设备和存储介质
CN112286459A (zh) 一种数据处理方法、装置、设备及介质
CN113625973B (zh) 数据写入方法、装置、电子设备及计算机可读存储介质
CN112148226A (zh) 一种数据存储方法及相关装置
CN109189343B (zh) 一种元数据落盘方法、装置、设备及计算机可读存储介质
JP2008084011A (ja) Cadデータのロード装置
CN112306404B (zh) 一种瓦记录磁盘数据布局方法、***及相关设备
US20210026825A1 (en) Read iterator for pre-fetching nodes of a b-tree into memory
CN106503260A (zh) 一种提高数据库的有效存储空间的方法和装置
CN111459848B (zh) 一种文件碎片的整理方法、装置、存储介质及电子设备
EP3048541A1 (en) File access method and device
CN107436918A (zh) 数据库实现方法、装置和设备
CN109760044A (zh) 一种数据处理方法及装置
CN111158886A (zh) 用于优化操作***任务调度的方法、装置和智能设备
CN108845959A (zh) 一种内存数据处理方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111101

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees