WO2017081811A1 - ストレージ装置、記録媒体、および記憶制御方法 - Google Patents

ストレージ装置、記録媒体、および記憶制御方法 Download PDF

Info

Publication number
WO2017081811A1
WO2017081811A1 PCT/JP2015/081968 JP2015081968W WO2017081811A1 WO 2017081811 A1 WO2017081811 A1 WO 2017081811A1 JP 2015081968 W JP2015081968 W JP 2015081968W WO 2017081811 A1 WO2017081811 A1 WO 2017081811A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
storage device
storage
processor
write
Prior art date
Application number
PCT/JP2015/081968
Other languages
English (en)
French (fr)
Inventor
夏樹 楠野
俊哉 関
智広 西本
貴記 松下
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US15/741,097 priority Critical patent/US10846231B2/en
Priority to JP2017549954A priority patent/JP6507261B2/ja
Priority to PCT/JP2015/081968 priority patent/WO2017081811A1/ja
Publication of WO2017081811A1 publication Critical patent/WO2017081811A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0804Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with main memory updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0868Data transfer between cache memory and other subsystems, e.g. storage devices or host systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1041Resource optimization
    • G06F2212/1044Space efficiency improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/21Employing a record carrier using a specific recording technology
    • G06F2212/214Solid state disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/26Using a specific storage system architecture
    • G06F2212/261Storage comprising a plurality of storage devices
    • G06F2212/262Storage comprising a plurality of storage devices configured as RAID
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/31Providing disk cache in a specific location of a storage system
    • G06F2212/312In storage controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/40Specific encoding of data in memory or cache
    • G06F2212/401Compressed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/72Details relating to flash memory management
    • G06F2212/7201Logical to physical mapping or translation of blocks or pages

Definitions

  • the present invention relates to a storage apparatus.
  • the storage apparatus generally has a physical storage device that stores data and a controller that controls the physical storage device.
  • the controller provides a data storage space (generally a logical volume) to a computer (for example, a host computer) connected to the storage apparatus.
  • the storage device uses a plurality of physical storage devices in a PG (Parity Group) configuration such as RAID (Redundant Array of Independent (or Independent) Disks) to speed up I / O processing, High fault tolerance against failure can be exhibited.
  • PG Parent Group
  • RAID Redundant Array of Independent (or Independent) Disks
  • the storage apparatus includes a hard disk drive (HDD) and a physical storage device having a flash memory (hereinafter referred to as FM), for example, an SSD (Solid State Drive) as a physical storage device.
  • HDD hard disk drive
  • FM flash memory
  • SSD Solid State Drive
  • Data compression is a technique for reducing the amount of data stored in a physical storage device by compressing data, and realizes a reduction in footprint and a reduction in bit cost.
  • a physical storage device having a compression function is referred to as a compression drive.
  • the storage controller When the SSD itself is equipped with a compression function, the storage controller does not need to be aware of the compressed data, and can read / write (hereinafter referred to as R / W) in the same manner as a storage device without a compression function.
  • the compression drive to which data is written from the storage controller executes compression processing internally and stores it in the FM, thereby reducing the amount of FM used.
  • the storage controller can write data to the compressed drive only for the capacity of the compressed drive. In other words, when the storage controller has written data to the full capacity of the compression drive, it cannot write further data to the free space increased by compressing the data in the compression drive. This is because the area that the storage controller can write to the compressed drive is consumed with an uncompressed data size.
  • Patent Document 1 describes a technology in which a storage controller uses a semiconductor storage unit that compresses and stores data, and a storage controller moves data between semiconductor storage units so as to reduce the risk of the semiconductor storage unit being depleted. Has been.
  • a storage apparatus includes a plurality of storage devices, a first memory, a processor connected to the plurality of storage devices, the first memory, and a host device. .
  • the processor sets at least a part of the plurality of storage devices as a first storage device group, the processor creates cache information indicating a state of a plurality of cache areas in the first memory, and the processor A cache area storing data from the host device is associated with the first storage device group, the processor destages the data in each cache area to a corresponding storage device, and the storage device By compressing the staged data, the destaged data is converted into compressed data, the compressed data is stored, storage device information based on usage of the storage device is stored, and the processor The storage device information is acquired from a storage device, and the processor When receiving a write request for the first storage device group, it is determined whether a write destination cache area corresponding to the write destination address indicated in the write request is secured, and the write destination cache area is secured.
  • the processor determines whether to secure the write destination cache area based on the storage device information and the cache information, performs a securing determination, and writes the write destination cache area If it is determined that the write destination cache area is to be secured, the processor waits for the write destination cache area to be secured.
  • FIG. 1 is a diagram illustrating a configuration example of a storage system 10000 including a storage apparatus 10 according to Embodiment 1.
  • FIG. 2 is a diagram illustrating a configuration example of an SSD 700.
  • FIG. 3 is a diagram showing a configuration example of a flash memory 780.
  • FIG. It is a figure which shows the structural example of the address space of SSD. It is an outline explanatory view of capacity virtualization technology. It is a figure explaining the outline
  • 3 is a diagram illustrating a configuration example of a cache memory 103.
  • FIG. 5 is a diagram illustrating a configuration example of a disk management table 13100.
  • FIG. 10 is a diagram showing a configuration example of an entry management table 13800.
  • FIG. It is a figure which shows the structural example of the extent management table 13400.
  • 15 is a diagram showing a configuration example of a virtual volume management table 13500.
  • FIG. It is a figure which shows the structural example of the statistical information management table 13600.
  • FIG. 10 is a diagram illustrating a configuration example of an FM WR amount prediction table 13700 in Embodiment 1.
  • FIG. 5 is a diagram illustrating a configuration example of a cache management table 32100.
  • FIG. It is a figure which shows the structural example of the RG determination management table 32200.
  • FIG. 3 is a diagram illustrating a configuration example of a cache memory 716 in the SSD 700.
  • FIG. 5 is a diagram illustrating a configuration example of a logical-physical conversion table 23100.
  • FIG. It is a figure which shows the structural example of the statistical information management table 23200 in SSD.
  • a write process related to a write request from the host computer 30 is shown.
  • Destage processing is shown.
  • a read process related to a read request from the host computer 30 is shown.
  • the asynchronous process for SSD is shown.
  • the SSD internal information acquisition process is shown.
  • the storage status update process is shown.
  • WR request reception processing is shown.
  • An inflow restriction determination process is shown. Indicates idle job release processing.
  • 6 is a flowchart illustrating an example of a depletion avoidance process according to the first embodiment.
  • 6 is a flowchart illustrating an example of FM WR amount prediction processing according to the first embodiment.
  • 7 is a flowchart illustrating an example of a data movement process in a depletion avoidance process according to the first embodiment.
  • 6 is a flowchart illustrating an example of a life leveling process according to the first embodiment.
  • 7 is a flowchart illustrating an example of a data movement process in the life leveling process according to the first embodiment.
  • 6 is a flowchart illustrating an example of an I / O performance rebalancing process according to the first embodiment. It is a figure which shows the structural example of the storage system 10000b including the storage apparatus 10b which concerns on Example 2.
  • AAA table various types of information may be described using the expression “AAA table”, but the various types of information may be expressed using a data structure other than a table.
  • AAA table can be referred to as “AAA information” to indicate that it does not depend on the data structure.
  • numbers are used as identification information of elements (for example, extents), but other types of identification information (for example, names and identifiers) may be used.
  • the process may be described with “program” as the subject, but the program is executed by a processor (for example, a CPU (Central Processing Unit)) included in the controller (storage controller or SSD controller).
  • the subject of the process may be a controller or a processor in order to perform the determined process appropriately using a storage resource (for example, a memory) and / or a communication interface device (for example, a communication port).
  • the controller may include a hardware circuit that performs part or all of the processing.
  • the computer program may be installed from a program source.
  • the program source may be, for example, a program distribution server or a computer-readable storage medium.
  • the physical storage device may be referred to as “Disk” for convenience, but this notation does not necessarily mean that the storage medium included in the physical storage device is a disk-shaped storage medium.
  • the physical storage device may be, for example, an SSD.
  • a period or time is used, but the unit of the period or time is not limited to the following example.
  • the unit of the period or time may be any one of year, month, day, hour, minute, second, or any combination of two or more.
  • the nonvolatile semiconductor storage medium included in the SSD is a flash memory (FM).
  • the flash memory is assumed to be a type of flash memory in which erasure is performed in units of blocks and R / W is performed in units of pages, typically a NAND flash memory.
  • the flash memory may be another type of flash memory (for example, NOR type) instead of the NAND type.
  • other types of nonvolatile semiconductor storage media for example, phase change memory may be employed.
  • the NAND flash memory is generally composed of a plurality of blocks (physical blocks). Each block is composed of a plurality of pages (physical pages).
  • a logical page group (logical storage space) based on one or more SSDs (for example, a RAID group described later) may be provided.
  • a physical page to which no data is written can be referred to as a “free page”.
  • For each logical page, recently written data can be referred to as “valid data”, and data that has become old due to the writing of valid data can be referred to as “invalid data”.
  • a physical page in which valid data is stored can be referred to as a “valid page”, and a physical page in which invalid data is stored can be referred to as an “invalid page”.
  • FIG. 1 is a diagram showing an outline of the embodiment.
  • the storage apparatus 10 includes a storage controller 100 and a plurality of physical storage devices (Disks) 11.
  • the plurality of physical storage devices 11 constitute a RAID group (RG) 50.
  • the RG 50 may be a PG (Parity Group).
  • the RG 50 is the basis of the logical storage area.
  • the logical storage area may be the extent 70, or may be all or part of a logical volume (LU) provided to a higher-level device (for example, the host computer 30) connected to the storage device 10.
  • the storage controller 100 may manage the RG as a VDEV (Virtual Device) that is a logical volume, or may divide and manage one RG into a plurality of VDEVs.
  • VDEV Virtual Device
  • the storage controller 100 includes a cache memory 130. Write data from the host device is stored in the cache memory 130 and then destaged to the RG 50. The storage controller 100 manages data before destage among the data stored in the cache memory 130 as dirty data.
  • the storage controller 100 determines whether or not the RG actual free space of the RG that is the write destination of the write request is larger than the RG scheduled destage amount of the RG.
  • the RG actual free space is a physical free space of the RG, and is a value obtained by subtracting the RG actual use amount that is the physical use amount of the RG from the physical capacity of the RG.
  • the RG scheduled destage amount is the amount of data that may be destaged to the RG.
  • the RG scheduled destage amount is, for example, an estimated value of the amount of dirty data that is the amount of dirty data corresponding to the RG in the cache memory 130 and the amount of dirty data that is added before the destage processing. Is the sum of the data amount and the margin. Note that the RG scheduled destage amount may include the write data amount indicated in the write request.
  • the storage controller 100 acquires the internal information of each Disk 11 and calculates the RG actual usage based on the internal information.
  • the storage controller 100 transmits a write data transfer permission notification to the host computer 30, receives write data from the host computer 30, and receives write data. Is written into the cache memory 130. Thereafter, the storage controller 100 destages from the cache memory 130 to the RG 50 asynchronously with the write request.
  • the storage controller 100 executes the RG free waiting job. During the idle job, the storage controller 100 does not secure an area of the cache memory 130 for write data from the host device and does not receive write data to the RG. Thereafter, the storage controller 100 increases the RG actual free capacity of the RG by executing a data arrangement control process for moving data between RGs. In response to this, when it is determined that the RG actual free space of the RG is larger than the RG scheduled destage amount, the storage controller 100 releases the RG free waiting job, receives write data from the host device, Write data to cache memory.
  • the RG actual free capacity of the RG may be increased by adding the physical storage device 11 to the RG during the vacant waiting job. In this case, the storage controller 100 does not have to execute the data arrangement control process.
  • the storage controller 100 performs a RAID group 50 depletion avoidance process, a life leveling process, an I / O as a data arrangement control process for moving data between the RAID groups 50 separately from the process accompanying the I / O request from the host device.
  • O performance leveling (rebalancing) processing input / output leveling processing
  • relocation processing in storage tier virtualization and the like are performed.
  • the RAID group is an example of a semiconductor storage unit.
  • the semiconductor storage unit may be a single physical storage device 11.
  • SSD has the merit that the I / O processing is very high speed compared with HDD, but has the demerit that the number of data writing has an upper limit and the life is shorter than HDD.
  • a flash memory typically a NAND flash memory
  • the data cannot be directly overwritten on the physical area where the data is stored.
  • erase processing hereinafter referred to as block erasure
  • blocks which are flash memory erase units. After that, it is necessary to write data on the physical area where the block erase is executed.
  • the number of block erases for each block (hereinafter referred to as the number of erases) is limited due to physical limitations of the flash memory. If the number of erases of a block exceeds this limit, data cannot be stored in that block. That is, when the number of erasures of all blocks constituting the SSD exceeds the limit, the life of the SSD is reached.
  • WL wear leveling
  • the storage controller determines the SSD to be moved and the data to be moved.
  • the storage controller 100 acquires internal information about each physical storage device from each physical storage device 11.
  • the internal information includes various types of capacity information (total capacity, actual usage, total amount of data written to the flash memory after data compression, etc.). Information on lifespan.
  • the storage controller 100 calculates the RG depletion risk based on the internal information and the statistical information on the I / O amount, and determines whether or not to execute the depletion avoidance process.
  • the exhaustion risk is calculated by, for example, RG write I / O amount (WRI / O amount) ⁇ RG actual free space.
  • writing may be referred to as WR and reading may be referred to as RD.
  • the exhaustion risk may be RG actual WR amount (total FM write total amount) which is the amount written in RG ⁇ RG actual capacity (total physical capacity).
  • the storage controller 100 has an RG50 that has a high depletion risk and will not accept WR in the near future, and an RG50 that has a low depletion risk and is expected to have a long time to RG depletion. Is identified.
  • the storage controller 100 determines the amount of data (movement data amount) to be transferred from the RG 50 with a high depletion risk to the RG 50 with a low depletion risk.
  • the amount of movement data may be the amount of movement data that falls below a threshold (for example, 90% of RG usage) set by the user, or may be the amount of movement that can equalize the depletion risk between RGs 50.
  • the storage controller 100 moves the data by the determined movement data amount.
  • the range of the storage area when data is moved is called “extent”.
  • the extent is an address range (logical area) extending over a plurality of physical storage devices 11 (for example, SSDs) as indicated by reference numeral 70.
  • a load for data movement increases.
  • the load for data movement of the storage controller 100 can be suppressed.
  • the storage controller 100 calculates the remaining life of the RG 50 after the execution of the exhaustion avoidance process or when it is determined that the exhaustion avoidance process is unnecessary, and determines whether or not to execute the life leveling process.
  • the remaining life of the RG 50 for example, the minimum value of the remaining life information of the physical storage device 11 (in this case, SSD) constituting the RG 50 is set as the remaining life of the RG 50.
  • the remaining life of the RG 50 may be an average value of the remaining lives of the physical storage devices 11 (SSD) constituting the RG 50.
  • the storage controller 100 has an RG composed of an SSD that has a short remaining life, has a near future life, and becomes unusable, and an RG composed of an SSD that has a long remaining life. Identify.
  • the storage controller 100 determines an extent having a high WR load in an RG having a short remaining lifetime and an extent having a low WR load in an RG having a long remaining lifetime, and exchanges data of these extents.
  • the storage controller 100 measures the WR data amount for each extent. For example, if the amount of WR data to the SSD is large, block rewriting occurs frequently, and the number of block erasures increases accordingly. When the number of block erasures increases, the number of block erasures reaches a limit (upper limit), and the block can be read, but WR becomes impossible. Then, such an SSD with an increased number of blocks becomes unusable. Therefore, the storage controller 100 finds an extent having a large amount of WR data, and moves the data included in the extent from the short-lifetime SSD RG to the long-lifetime SSD RG.
  • the storage controller 100 calculates the I / O amount of the RG 50 after executing the life leveling process or when it is determined that the life leveling process is unnecessary, and determines whether or not the I / O performance rebalancing process is necessary. In the I / O performance rebalancing process, the storage controller 100 first identifies an RG with a large I / O amount and a high I / O load and an RG with a small I / O amount and a low I / O load. To do.
  • the storage controller 100 determines an extent having a high I / O load in an RG having a high I / O load and an extent having a low I / O load in an RG having a low I / O load. Exchange extent data.
  • the storage controller 100 may not include any of the data placement control processes.
  • FIG. 2 is a diagram illustrating a configuration example of the storage system 10000 including the storage apparatus 10 according to the first embodiment.
  • the storage system 10000 includes a storage device 10 and a host computer 30.
  • the host computer 30 is an example of a host device that uses the storage device 10.
  • the host computer 30 is an application server, for example.
  • the host computer 30 and the storage apparatus 10 are connected via a SAN (Storage Area Network) 20 so as to be communicable.
  • SAN Storage Area Network
  • the SAN 20 for example, Fiber Channel, SCSI (Small Computer System Interface), iSCSI (Internet Small Computer System Interface), USB (Universal Serial Bus), IEEE 1394Ser (Serial Standard Bus, etc.) can be used.
  • another type of communication network for example, a LAN (Local Area Network)
  • the storage system 10000 includes one host computer 30 and one storage apparatus 10, but a plurality of at least one of them may be included.
  • the host computer 30 executes control software (not shown) that issues a control command or the like to the storage apparatus 10, thereby issuing a control command or the like to the storage apparatus 10 to perform maintenance management of the storage apparatus 10.
  • control software (not shown) that issues a control command or the like to the storage apparatus 10, thereby issuing a control command or the like to the storage apparatus 10 to perform maintenance management of the storage apparatus 10.
  • control software By executing processing based on this control command in the storage apparatus 10, changing the RAID level of the RG that the storage apparatus 10 has, various activations of exhaustion avoidance processing, life leveling processing, and I / O performance rebalancing processing
  • Various operations such as adjustment of the threshold value and ON / OFF setting of the compression function in units of Pool or RG can be performed.
  • the RG 50 is a physical storage device group that includes a plurality of SSDs (or HDDs) and stores data according to a predetermined RAID level.
  • a computer different from the host computer 30 may be used as a computer that issues
  • the storage apparatus 10 includes a storage controller (Storage CTL) 100 connected to the host computer 30 and a Disk Box 110 connected to the storage controller 100.
  • Storage CTL Storage CTL
  • Disk Box 110 connected to the storage controller 100.
  • the storage controller 100 controls the operation of the storage device 10.
  • the storage controller 100 includes a communication interface device, a memory, and a control device connected to them.
  • As the communication interface devices there are a host I / F 101 which is a front-end communication interface device and a disk I / F 107 which is a back-end communication interface device.
  • As a control device there is a processor (for example, a CPU (Central Processing Unit)) 104.
  • the host I / F 101, the cache memory 103, the processor 104, and the disk I / F 107 are connected to the internal network 102 by a dedicated connection bus such as PCI (Peripheral Component Interconnect), for example. Communication is possible.
  • PCI Peripheral Component Interconnect
  • the cache memory 103 is a DRAM such as DDR3 (Double Data Rate3).
  • the Host I / F 101 is an interface for connecting the storage apparatus 10 to the SAN 20.
  • the internal network 102 is a network for connecting devices existing inside the storage apparatus 10.
  • the internal network 102 includes a switch. Instead of the internal network 102, an ASIC (Application Specific Integrated Circuit) having an assist function such as a switch function, DMA transfer, or RAID calculation may be used.
  • the processor 104 controls the entire storage apparatus 10. There may be a plurality of processors 104. In this case, a plurality of processors 104 may control the storage apparatus 10 in cooperation or sharing.
  • the cache memory 103 has an area for storing computer programs and data necessary for the processor 104 to control the storage apparatus 10.
  • the Disk I / F 107 is an interface for connecting the storage controller 100 and the Disk Box 110.
  • the Disk Box 110 includes a plurality of different types of Disk 11 (for example, nonvolatile physical storage devices such as the HDD 111 and the SSD 700).
  • an RG is composed of a plurality of Disks of the same type. Each RG provides a logical volume as a storage space for user data.
  • the HDD 11 and the SSD 700 are used as the Disk 11 constituting the Disk Box 110, but only the SSD 700 may be used.
  • the number of each part of the storage apparatus 10 and the number of each part of the storage controller 100 are not limited to the example of this figure.
  • FIG. 3 is a diagram illustrating a configuration example of the SSD 700.
  • the SSD 700 has a plurality of flash memories 780 and an SSD controller 710 connected thereto.
  • the SSD controller 710 controls the operation of the SSD 700.
  • the SSD controller 710 includes a communication interface device, a memory, a control device connected thereto, and a hardware device that executes data compression / decompression.
  • As the communication interface devices there are a Disk I / F 711 that is a front-end communication interface device and a Flash I / F 717 that is a back-end communication interface device.
  • As the memory there is a cache memory 716.
  • As a control device there is a processor 713.
  • a compression / decompression circuit 718 is a hardware device that performs data compression / decompression.
  • the function of compressing / decompressing data may be realized in software by the processor 713 executing a dedicated program.
  • the disk I / F 711, the processor 713, the cache memory 716, the flash I / F 717, and the compression / decompression circuit 718 are connected to each other via the internal network 712.
  • the Disk I / F 711 is connected to the Disk I / F 107 of the storage controller 100 via a dedicated connection bus.
  • the internal network 712 is a network for connecting devices.
  • the internal network 712 may include a switch. Further, the internal network 712 may be replaced by an ASIC having a switch function.
  • the processor 713 controls the entire SSD 700.
  • the cache memory 716 has an area for storing a computer program and data necessary for the processor 713 to control the SSD 700.
  • the flash I / F 717 is an interface for connecting the SSD controller 710 and the flash memory 780.
  • the SSD 700 is a semiconductor storage device including a plurality of flash memories 780 and a controller 710 for controlling them, and the external shape and the like are not limited to form factors.
  • the flash memory 780 may be a non-volatile semiconductor memory such as NOR or NAND. Further, in place of the flash memory 780, an MRAM (Magnetoretic random access memory) that is a magnetoresistive memory, a ReRAM (resistance random access memory) that is a resistance change type memory, and a FeRAM (Ferroelectric memory) that is a ferroelectric memory.
  • MRAM Magnetic random access memory
  • ReRAM resistance random access memory
  • FeRAM Feroelectric memory
  • FIG. 4 is a diagram illustrating a configuration example of the flash memory 780.
  • the flash memory 780 has a plurality of blocks 782 and a flash memory controller (hereinafter referred to as a flash controller) 781 connected thereto.
  • the flash controller 781 controls the flash memory 780.
  • Each block 782 includes a plurality of pages 783.
  • Data RD from the flash memory 780 and data WR to the flash memory 780 are executed in units of pages.
  • Data erasure is executed in units of blocks.
  • the page 783 includes a plurality of code words 784.
  • the code words 784 store data stored by the host computer 30 and ECC that is an error correction code for protecting the data.
  • the flash memory 780 is, for example, a NAND flash memory.
  • a NAND flash memory data cannot be overwritten. Therefore, in the flash memory 780, when new data is WR to the page 783 where the data is WR, the data is erased and WR is erased for the erased page 783 from which the data has been erased.
  • the SSD controller 710 performs the erase count leveling process on a plurality of blocks 782 in the SSD 700.
  • the SSD controller 710 stores data with a low update frequency in the block 782 with a large number of erases, and stores data with a high update frequency in the block 782 with a small number of erases, thereby leveling the number of erases of the block 782 in the SSD 700. To do.
  • the SSD controller 710 may equalize the number of erasures by selecting an empty block 782 with a small number of erasures and storing data during WR.
  • the plurality of blocks 782 may be divided into a plurality of groups according to the number of erasures, and the block 782 for storing data may be selected from the group with the fewest erasures. In this manner, the life of the SSD 700 is extended by leveling the number of times of erasure of the plurality of blocks 782 in the SSD 700.
  • FIG. 5 is a diagram showing a configuration example of an SSD address space.
  • the physical address space 800 is an address space of a physical storage area in which actual data is stored.
  • the logical address space 900 is a unique address space that the SSD 700 provides to the storage controller 100.
  • the SSD controller 710 divides the logical address space 900 into, for example, a plurality of areas (hereinafter, logical pages) 901, 902, 903, 904 having the same size as the physical page size.
  • the logical page 901 data is compressed data 911
  • the logical page 902 data is compressed data 912
  • the logical page 903 data is compressed data.
  • the data of the logical page 904 is converted (compressed) into compressed data 914, respectively. Since the compression rate changes depending on the data pattern or the like, the size of each compressed data obtained by converting the logical page is not necessarily constant, and becomes an arbitrary size.
  • Each compressed data is stored in a physical page in units of code words (CW).
  • compressed data 911 is stored in CW7841
  • compressed data 912 is stored in CW7842
  • compressed data 913 is stored in CW7843 and CW7844
  • compressed data 914 is stored in CW7900.
  • the logical page and the physical page are not in a one-to-one relationship, and the physical page is dynamically generated with respect to the compressed data actually stored in the FM780. Assigned. Further, in the SSD 700, by making the logical address space 900 larger than the physical address space 800, the storage controller 100 can write data that is larger than the physical storage capacity installed in the SSD 700.
  • the size of the logical address space 900 is determined on the assumption that all write data is compressed at the best compression rate (for example, 1/8) that can be compressed by the compression / decompression circuit 718.
  • the SSD 700 provides the storage controller 100 with a logical address space 900 having a logical capacity that is eight times as large as the physical capacity of the SSD 700.
  • an SSD 700 that physically has a capacity of 1 TB provides the storage controller 100 with a logical capacity of 8 TB, assuming that the best compression ratio is 1/8, for example.
  • the storage controller 100 can store data exceeding the actual physical capacity of the SSD 700 simply by writing data in the same manner as an HDD or SSD without a compression function.
  • the compression rate of the written data varies depending on the data pattern or the like, the compression rate may actually be worse (higher) than 1/8, and the storage controller 100 does not necessarily provide 8 TB to the SSD 700.
  • Cannot store the data As described above, a state in which the physical capacity becomes full before the logical capacity of the SSD 700 becomes full is called a depleted state.
  • the storage controller 100 cannot WR data at all for the SSD 700 that is in a depleted state.
  • a WR command for the SSD 700 in a depleted state becomes an error response. This is because, as described above, in the NAND type FM780, data cannot be simply overwritten, and when WR new data is written on the page where the data is stored, the data is erased and the data is erased. This is because it is necessary to perform WR on the erased page, and the erased page cannot be prepared in the exhausted SSD 700.
  • the storage controller 100 executes a depletion avoidance process, which will be described later, so that the SSD 700 is not depleted, and always keeps the SSD 700 in a non-depleted state.
  • the SSD controller 710 dynamically changes the mapping between the address range (logical storage area) that forms the logical address space 900 and the address range (physical storage area) that forms the physical address space 800, so that the WL in the SSD 700 Etc. can be realized.
  • the correspondence between the logical address space 900 and the physical address space 800 is managed by the processor 713 using a logical-physical conversion table 23100 described later.
  • the storage controller 100 does not directly manage the logical / physical conversion table in the SSD 700. Therefore, unless the processor 713 of the SSD 700 notifies the storage controller 100 with SSD internal information or the like, the storage controller 100 cannot grasp the correspondence between the logical address space 900 and the physical address space 800.
  • Capacity virtualization technology (for example, Thin Provisioning) is a technology that provides a virtual capacity larger than the physical capacity of the storage apparatus 10 to the host computer 30 side.
  • the host computer 30 accesses a virtual logical volume (virtual volume).
  • a virtual logical volume virtual volume
  • a physical storage area is allocated to the virtual storage area (virtual extent) of the WR request data.
  • a unit of physical storage area allocated in the capacity virtualization technology is set as an extent unit. The extent size may be varied from several MB to several GB.
  • FIG. 6 is a schematic explanatory diagram of capacity virtualization technology.
  • RG 200, 300, 400
  • Pool 500 is configured based on one or more RGs.
  • Extents (240, 241, 241, 340, 440, etc.) are storage areas (partial storage areas) obtained by dividing Pool 500, that is, a part of Pool 500.
  • Pool 500 is configured based on three RGs of RG200, RG300, and RG400.
  • the RG 200 will be described as an example.
  • RG200 is comprised by Disk210, Disk220, and Disk230.
  • the RG 200 constructs RAID5, and Data (D in the figure) and Parity (P in the figure) are stored in the Disks (210 to 230).
  • the storage area based on RG200 is divided into a plurality of extents (240, 241, 242).
  • a storage area based on the RG 200 corresponds to a logical address space 900 provided by a plurality of SSDs 700.
  • the extent is a storage area having a size larger than the block 782 of the SSD 700.
  • the extent size is, for example, N times the block (N is an integer of 2 or more).
  • the extent is configured by entries (for example, entries 251, 252, 253, 254, 255, 256) that are logical address spaces existing in each disk.
  • the entry stores a plurality of Data and Parity.
  • the entry 251 stores data 211, data 212, parity 213, etc.
  • the entry 252 stores data 221, data 223, parity 222, etc.
  • the entry 253 stores data 232.
  • Data 233, parity 231 and the like are stored.
  • entries 254, 255, and 256 store a plurality of Data and Parity.
  • the entries 251 and 254 are built in the Disk 210
  • the entries 252 and 255 are built in the Disk 220
  • the entries 253 and 256 are built in the Disk 230, respectively.
  • an extent 240, an extent 241 and an extent 242 are created from the storage area of the RG 200.
  • An extent 340, an extent 341, and an extent 342 are created from the storage area of the RG 300.
  • An extent 440, an extent 441, and an extent 442 are created from the storage area of the RG 400.
  • the virtual volume 600 is a virtual logical volume for the host computer 30 to store user data.
  • the capacity defined as the capacity of the virtual volume 600 can be a storage capacity larger than the total capacity of physical storage devices included in the storage apparatus 10.
  • the virtual volume 600 is composed of an arbitrary number of virtual extents (601 to 607, etc.).
  • the storage area of the virtual volume 600 is managed by a virtual address (logical address constituting the virtual volume), and a virtual extent is configured by the storage area of the virtual address divided into a predetermined range. In the example of this figure, one extent is associated with one virtual extent, but a plurality of extents may be associated with one virtual extent.
  • virtual extents 601 to 604 indicated by solid lines are virtual extents to which extents are allocated from RGs 200, 300, and 400. That is, an extent 341 is allocated to the virtual extent 601, an extent 242 is allocated to the virtual extent 602, an extent 442 is allocated to the virtual extent 603, and an extent 240 is allocated to the virtual extent 604. .
  • the virtual extents 605 to 607 indicated by broken lines are not the virtual extent to which the address designated as the WR destination of the data belongs, and therefore, these virtual extents 605 to 607 are not included in the virtual extents 605 to 607. The extent is unallocated.
  • FIG. 7 is a diagram for explaining the outline of data access when data is moved between RGs by the data movement process.
  • the data movement process is executed in an asynchronous process for SSD (described later).
  • the host computer 30 When the data is moved between RGs, the host computer 30 must change the data access destination to the destination RG. However, by converting the address using the virtual volume 600, the host computer 30 can access the migration destination data without changing the access destination. That is, the storage controller 100 changes the association of the virtual extent 610 to the virtual address from the logical address of the migration source extent 70 to the logical address of the migration destination extent 80. Therefore, even if the asynchronous processing for SSD is executed, the host computer 30 does not need to change the access destination address by accessing the virtual volume 600.
  • a virtual volume is used for address conversion. However, the present invention is not limited to this, and address conversion may be performed without using a virtual volume.
  • FIG. 8 is a diagram illustrating a configuration example of the cache memory 103.
  • the cache memory 103 of the storage controller 100 has a program area 12000, a table area 13000, and a data cache area 14000.
  • the program area 12000 and the table area 13000 are areas for storing programs for controlling the storage apparatus 10 and various tables.
  • the data cache area 14000 is an area used for temporarily storing user data.
  • the program area 12000 includes a write I / O program 12100, a read I / O program 12200, a life management program 12300, an SSD information acquisition program 12400, a life leveling program 12500, a depletion avoidance program 12600, an I / O performance rebalancing program 12700, And the inflow control program 31100 is stored.
  • the Write I / O program 12100 is a program that processes a WR request from the host computer 30.
  • the Read I / O program 12200 is a program that processes an RD request from the host computer 30.
  • the life management program 12300 is a program for the processor 104 to manage the life of various disks such as the SSD 700.
  • the SSD information acquisition program 12400 is a program for acquiring internal information of the SSD 700.
  • the life leveling program 12500 is a program for converting the life of the SSD 700 into RG units and executing the life leveling of the RG.
  • the depletion avoidance program 12600 is a program that calculates the RG depletion risk from the capacity information of the SSD 700 and executes RG depletion avoidance with a high possibility of depletion.
  • the I / O performance rebalancing program 12700 is a program for detecting that a specific RG is a performance bottleneck from RG I / O statistical information and performing performance leveling.
  • the inflow control program 31100 is a program that restricts WR data from the host computer 30 when it is determined that destaging is impossible.
  • the table area 13000 includes a disk management table (the table may be expressed as TBL) 13100, an RG management table 13200, a pool management table 13300, an extent management table 13400, a virtual volume management table 13500, a statistical information management table 13600, and an FM write. It includes an amount prediction table 13700, an entry management table 13800, a cache management table 32100, an RG determination management table 32200, and a determination result management table 32300.
  • TBL disk management table
  • the disk management TBL 13100 is a table that stores information about the disk stored in the disk box 110.
  • the RG management TBL 13200 is a table that stores information on RAID groups.
  • the Pool management TBL 13300 is a table storing Pool information.
  • the extent management TBL 13400 is a table that stores information about extents.
  • the virtual volume management TBL 13500 is a table that stores information related to virtual volumes.
  • the statistical information management TBL 13600 is a table that stores various types of information related to the I / O performance of the storage apparatus 10.
  • the FM write amount prediction TBL 13700 is a table used when the data write amount in the SSD is predicted in order to determine the movement target data when the processor 104 executes the life leveling process.
  • the cache management table 32100 is a table that stores information related to the data cache area 14000.
  • the RG determination management table 32200 is a table that stores information related to RG determination.
  • the determination result management table 32300 is a table that stores RG determination results.
  • User data 14100 is data used by the host computer 30.
  • FIG. 9 is a diagram illustrating a configuration example of the disk management table 13100.
  • the disk management TBL 13100 mainly manages information (depletion related information and remaining life information) for performing depletion management and life management of each disk managed by the storage controller 100.
  • the Disk management TBL 13100 includes, for each Disk, Disk # 13101, Disk Type 13102, information update date 13103, remaining guarantee period 13104, expected remaining life 13105, compression setting 13106, FM read total amount 13107, FM write total amount 13108, average compression rate 13109, remaining erase count 13110, FM usage 13111, physical capacity 13112, and logical capacity 13113.
  • Disk # 13101 is an identifier of the disk and is a unique number.
  • the Disk Type 13102 represents the type of Disk.
  • Examples of the disk type include SSD (SLC), SSD (MLC), and HDD.
  • SLC Single Level Cell
  • MLC Multiple Level Cell
  • TLC Triple Level Cell
  • SLC is a high-speed, long-life, low-capacity flash memory that can erase blocks in the order of hundreds of thousands to tens of thousands of times.
  • MLC is a low-speed, short-life, large-capacity flash memory, and can erase blocks in the order of tens of thousands to thousands of times.
  • TLC has a lower speed and shorter life than MLC, but is a large-capacity flash memory that can erase blocks in the order of several thousand to several hundred times.
  • the information update date 13103 represents the most recent date (for example, the date when the life information is updated) when the information about the disk is updated.
  • the remaining warranty period 13104 indicates how much disk warranty period left by the vendor remains. In the example of this figure, the remaining guarantee period 13104 is shown as the number of days.
  • the Disk warranty period is a period during which the Disk is guaranteed to operate normally (for example, 5 years).
  • the flash memory deteriorates due to an increase in the number of erasures due to data writing. When the flash memory reaches the end of its life, data R / W is impossible or data retention characteristics are remarkably deteriorated. Therefore, a threshold is set in advance as a period in which the Disk can be used normally based on the number of erasures, the total WR amount, and the like. If the disk usage period exceeds the warranty period, the disk will be replaced.
  • the expected remaining life 13105 indicates the remaining period in which the SSD remaining erase count 13110 is expected to reach zero.
  • the expected remaining life 13105 is a value predicted by the processor 104 (life management program 12300).
  • the expected remaining life 13105 is shown as the number of days.
  • the load is concentrated on a specific SSD due to, for example, I / O variation, etc., and this SSD has a higher load than the vendor's assumption. This means that the SSD reaches the end of its life before the expiration date guaranteed by the vendor.
  • the expected remaining life 13105 can be calculated based on the information update date and time 13103, the FM read total amount 13107, the FM write total amount 13108, the remaining erase count 13110, and the like. A method for calculating the remaining lifetime will be described later.
  • Compression setting 13106 indicates whether or not the target disk has enabled the data compression function.
  • the compression setting 13106 is ON (or a numerical value corresponding to ON (for example, “1”)) when it is valid (used), and is OFF (or a numerical value corresponding to OFF (for example, “1”) when invalid (not used). 0 ")).
  • the ON / OFF setting of the data compression function may be set by the administrator of the storage apparatus 10 via control software or the like installed in the host computer 30.
  • the FM read total amount 13107 is an integrated value of the read amount generated in the SSD (the amount of data read from the flash memory in the SSD), and is updated based on the internal information of the SSD.
  • the FM write total amount 13108 is an integrated value of the amount of WR generated in the SSD (the amount of data written in the flash memory in the SSD), and is updated based on the internal information of the SSD.
  • the average compression rate 13109 is a numerical value indicating what percentage of the original size is obtained by compressing the data inside the SSD.
  • the average compression rate 13109 is an average value of the compression rate of each SSD, and is updated based on the SSD internal information.
  • the remaining erase count 13110 indicates a value according to the block erase count that can be executed in the SSD.
  • the remaining erasure count 13110 is a ratio (percentage) of the remaining erasure count to a predetermined erasable count, and is updated based on SSD internal information. When the value of the remaining erase count 13110 becomes zero, it indicates that the erase count of all blocks in the flash memory has reached the upper limit.
  • the FM read total amount 13107, the FM write total amount 13108, the average compression rate 13109, and the remaining erase count 13110 are updated based on information acquired from each SSD by the storage controller 100.
  • the storage controller 100 is, for example, S.I. M.M. A. R. T.A. Information is acquired from each SSD using a general-purpose interface such as (Self-Monitoring Analysis and Reporting Technology).
  • FM usage amount 13111 represents the amount of data stored in the SSD and is updated based on the SSD internal information.
  • the physical capacity 13112 represents a physical capacity mounted on the SSD.
  • the logical capacity 13113 indicates the logical capacity for the SSD. This logical capacity is a capacity based on the best compression rate possible with the compression / decompression circuit 718 and is larger than the physical capacity.
  • the storage controller 100 recognizes the logical capacity 13113 as the SSD capacity when the compression setting 13106 is ON, and recognizes the physical capacity 13112 as the SSD capacity when the compression setting 13106 is OFF.
  • Disk management TBL 13100 for disks that do not require exhaustion management (for example, SSDs whose compression setting 13106 is OFF), the average compression rate 13109, FM usage 13111, and logical capacity 13113 are not subject to acquisition by the processor 104. Also good. Further, in the Disk management TBL 13100, for a Disk (for example, HDD) that does not require lifetime management, the remaining guarantee period 13104, the expected remaining lifetime 13105, the remaining erase count 13110, and the FM usage 13111 are not acquired by the processor 104. May be.
  • FIG. 10 is a diagram illustrating a configuration example of the RG management table 13200.
  • RG management TBL 13200 has RG # 13201, Disk Type 13202, RAID Level 13203, RAID configuration 13204, compression setting 13205, and Disk # 13206 for each RG.
  • RG # 13201 is an RG identifier and is a unique number.
  • the Disk Type 13202 represents the type of Disk constituting the RG.
  • the RG is composed of the same type of disk.
  • RAID Level 13203 represents the RAID level of RG.
  • the RAID level is various values such as RAID 1 + 0, 1, 3, 4, 5, 6.
  • the RAID configuration 13204 represents the number of data Disks (Disks that store data) and the number of parity Disks (Disks that store parity).
  • the compression setting 13205 indicates the setting status of the compression function for the Disk constituting the RG. When the compression setting 13205 is ON, it indicates that the compression setting of all the disks constituting this RG is ON. Further, when the compression setting 13205 is OFF, it indicates that the compression setting of all the disks constituting this RG is OFF.
  • Disk # 13206 represents the number (Disk #) of the Disk constituting the RG. The disk # 13206 includes the same number of valid disk # as the number of disks indicated by the RAID configuration 13204.
  • FIG. 11 is a diagram showing a configuration example of the Pool management table 13300.
  • the Pool management TBL 13300 has Pool # 13301, RG # 13302, RG remaining capacity 13303, and Pool remaining capacity 13304 for each Pool.
  • Pool # 13301 is an identifier of Pool and is a unique number.
  • RG # 13302 represents the RG number of all RGs constituting the Pool.
  • the RG remaining capacity 13303 represents the remaining capacity for each RG.
  • the Pool remaining capacity 13304 represents the remaining capacity of the Pool, and is equal to the total value of the RG remaining capacity 13303 of the RG constituting the Pool.
  • the RG remaining capacity 13303 and Pool remaining capacity 13304 are updated to values decreased by data writing by the processor 104 (Write I / O program 12100) when data writing occurs in the extent unallocated area of the virtual volume. .
  • FIG. 12 is a diagram showing a configuration example of the entry management table 13800.
  • the entry management TBL 13800 has, for each Disk, a Disk # 13801, an entry # 13802, a size 13803, a Start-LBA 13804, a Last-LBA 13805, and an allocation destination extent # 13806.
  • Disk # 13801 is a disk identifier (Disk #) and is a unique number.
  • An entry # 13802 is an identifier (entry #) of an entry created in the Disk, and is a unique identifier for each Disk.
  • a size 13803 indicates the capacity of the entry (for example, in bytes).
  • Start-LBA 13804 and Last-LBA 13805 indicate how many LBAs to what LBAs are used to create entries. Specifically, Start-LBA 13804 is the number of the first LBA in the entry address space, and Last-LBA 13805 is the number of the last LBA in the address space of the entry.
  • Allocation destination extent # 13807 indicates whether or not this entry has already been allocated to the extent. Specifically, the allocation extent # 13807 is the extent # of the allocation destination when it is an entry allocated to the extent, and is unallocated when it is an entry not allocated to the extent. "N / A" shown.
  • FIG. 13 is a diagram showing a configuration example of the extent management table 13400.
  • the extent management TBL 13400 has an extent # 13401, a size 13402, a disk # 13403, and an allocation entry # 13404 for each extent.
  • Extent # 13401 is an extent identifier and is a unique number.
  • the size 13402 represents the extent capacity (for example, in bytes).
  • the Disk # 13403 and the allocation entry # 13404 indicate the Disk # of the Disk for constructing the extent and the entry # of the entry.
  • FIG. 14 is a diagram showing a configuration example of the virtual volume management table 13500.
  • the virtual volume management TBL 13500 has an LU # 13501, a virtual capacity 13502, an actual used capacity 13503, a virtual extent # 13504, and an allocated extent # 13505 for each virtual volume.
  • LU # 13501 is a virtual volume identifier (LU #) and is a unique number.
  • the virtual capacity 13502 is a virtual capacity of the virtual volume.
  • a virtual capacity corresponding to the virtual capacity 13502 is provided to the host computer 30.
  • the actual used capacity 13503 is a total value of extent capacity actually allocated to the virtual volume.
  • Virtual extent # 13504 is an identifier of a virtual extent included in the virtual volume. In the example of this figure, it is shown that virtual extents # 0 to n are included in the virtual volume of LU # 0. The virtual extents # 13504 are arranged in ascending order, and it can be determined by calculation which virtual extent # corresponds to the LBA (Logical Block Address) specified by the R / W command issued from the host computer 30.
  • Allocation extent # 13505 is an identifier (number) of an extent allocated to a virtual volume.
  • the storage controller 100 manages the extent allocation state for each virtual extent. In the example of this figure, extent # 0 is assigned to virtual extent # 0, and extent # 100 is assigned to virtual extent # 1 for management.
  • extent # 13505 corresponding to virtual extent # 13504 of a virtual extent to which an extent that is a physical storage area is not allocated is “-” indicating that no extent is allocated. In the example of this figure, it is shown that no extent is allocated to the virtual extent of virtual extent #n.
  • FIG. 15 is a diagram showing a configuration example of the statistical information management table 13600.
  • the statistical information management TBL 13600 is information (input / output amount information) related to the access status such as R / W to each entry and / or extent.
  • the storage controller 100 monitors the R / W status in units of entries and constitutes the statistical information management TBL 13600.
  • the R / W access status to the extent can be acquired by the storage controller 100 adding the information values of the entries belonging to each extent based on the contents of the statistical information management TBL 13600.
  • the statistical information management TBL 13600 has, for each Disk, Disk # 13601, Entry # 13602, Average WR I / O Size 13603, Average RD I / O Size 13604, WR ratio 13605, WR amount 13606, and RD amount 13607. Note that at least one of the information items 13601 to 13607 may be referred to as statistical information.
  • Disk # 13601 is an identifier of the disk and is a unique number.
  • the extent # 13602 is an extent identifier based on the disk, and is a unique number.
  • Average WR I / O Size 13603 and Average RD I / O Size 13604 are average values of the I / O sizes of WR I / O and RD I / O generated in this entry.
  • the WR ratio 13605 is the ratio of the I / O requests generated in this entry that the request was a WR command.
  • the WR amount 13606 and the RD amount 13607 indicate the total amount of WR data and the total amount of RD data generated in this entry. Note that the WR amount 13606 and the RD amount 13607 are values in which the I / O contents requested by the storage controller 100 to the SSD are recorded, and thus these values are values before compression. In this embodiment, by monitoring the statistical information in units of entries and / or extents, it is possible to reduce the monitoring load compared to monitoring in units of blocks or pages of the flash memory.
  • the storage controller 100 monitors the access status of the allocated extent based on the virtual volume management TBL 13500.
  • the statistical information is a cumulative value after the extent is allocated to the virtual volume, and a trend of R / W.
  • the statistical information may be a cumulative value per unit time.
  • the storage controller 100 may reset only the statistical information regarding the moved extent in the life leveling process.
  • FIG. 16 is a diagram illustrating a configuration example of the FM WR amount prediction table 13700 according to the first embodiment.
  • FM WR amount prediction TBL 13700 is configured based on disk management TBL 13100 and statistical information management TBL 13600.
  • the FM WR amount prediction TBL 13700 has, for each Disk, a Disk # 13701, an entry # 13702, a WR amount 13703, a compression rate 13704, and an FM WR prediction amount 13705.
  • Disk # 13701 is an identifier of the disk and is a unique number.
  • the entry # 13702 is an entry identifier and is a unique number.
  • the WR amount 13703 indicates the total amount of WR data with entries as write destinations.
  • the WR amount 13703 is updated based on the value of the WR amount 13606 of the statistical information management TBL 13600 when the FM WR amount is predicted.
  • the compression rate 13704 is an average value of the compression rates in the disk, and is set based on internal information acquired from the SSD.
  • the compression rate 13704 is set by copying the value of the average compression rate 13109 of the Disk management TBL 13100 when the FM WR amount is predicted. In this embodiment, since the average value of the compression rate in Disk units is used, the numerical values of all entries are the same.
  • FM WR expected amount 13705 indicates the expected amount of data actually written to the flash memory (FM WR expected amount).
  • FM WR expected amount a value obtained by multiplying the WR amount 13703 of a certain entry by the average compression rate 13704 of the entire disk to which the entry belongs is regarded as the FM WR expected amount generated in this entry.
  • the FM WR predicted amount in extent units can be obtained by taking the sum of the FM WR predicted amounts of one or more entries constituting the extent.
  • the SSD life can be leveled with high accuracy by determining the extent to be moved based on the expected WR amount of extent.
  • the data to be moved may be an entry.
  • FIG. 17 is a diagram showing a configuration example of the cache management table 32200.
  • the storage controller 100 manages the data cache area 14000 by dividing it into a plurality of cache areas.
  • the cache area has a preset size.
  • One record of the cache management table 32100 includes a virtual address 32101 in the virtual volume, a cache area # 32102 indicating a cache area corresponding to the virtual address, and a status indicating whether the cache area is dirty or not. 32103.
  • the cache area may be a slot or a segment smaller than the slot. Further, the storage controller 100 may secure an area in segment units and manage the status 32103 in slot units.
  • FIG. 18 is a diagram illustrating a configuration example of the RG determination management table 32200.
  • One record of the RG determination management table 32200 belongs to the RG # 3221 indicating the RG, the RG actual free space # 32202 of the RG, the margin 32203 of the RG, the dirty data amount 32204 of the RG, and the RG. And pool # 32205 indicating the pool.
  • FIG. 19 is a diagram illustrating a configuration example of the determination result management table 32300.
  • the determination result management table 32300 includes a system flag 32301 indicating a determination result of the entire storage apparatus 10 by a storage state update process described later, a pool # 32302 indicating each pool, and a pool indicating a determination result of each pool by the storage state update process. It includes a flag 32303, an RG # 32304 indicating each RG belonging to the pool, and an RG flag 32305 indicating the determination result of each RG by the storage state update processing.
  • the system flag 32301 is set to ON if at least one RG flag 32305 is ON in the storage apparatus 10 during the storage status update process, and is set to OFF otherwise.
  • the pool flag 32303 of one pool is set to ON if at least one RG flag 32305 in the pool is ON during the storage status update process, and is set to OFF otherwise.
  • the RG flag 32305 of one RG is set to ON when the RG satisfies the free condition during the storage status update process, and is set to OFF otherwise.
  • FIG. 20 is a diagram illustrating a configuration example of the cache memory 716 in the SSD 700.
  • the cache memory 716 has a program area 22000, a table area 23000, and a data cache area 24000.
  • the program area 22000 and the table area 23000 are areas for storing programs for controlling the SSD 700 and various tables.
  • the data cache area 24000 is an area for temporarily storing user data.
  • the program area 22000 includes a Write I / O program 22100, a Read I / O program 22200, an SSD WL program 22300, a free space generation program 22400, an SSD internal information communication program 22500, and a compression / decompression program 22600.
  • the Write I / O program 22100 is a program that processes a WR request from the storage controller 100.
  • the Read I / O program 22200 is a program that processes an RD request from the storage controller 100.
  • the SSD WL program 22300 is a program for executing WL in the SSD.
  • the free space generation program 22400 is a program that executes a reclamation process that is performed to avoid the free space of the SSD 700 being depleted.
  • the SSD internal information communication program 22500 is a program for creating SSD internal information in accordance with a request from the storage controller 100 and notifying the storage controller 100 of the SSD internal information.
  • the compression / decompression program 22600 is a program for the SSD controller 710 to perform data compression / decompression using the processor 713.
  • the compression / decompression program 22600 may execute data compression / decompression by controlling the compression / decompression circuit 718.
  • the table area 23000 includes a logical-physical conversion table 23100, a statistical information management table 23200, and a compression setting flag 23300.
  • the logical-physical conversion TBL 23100 is a table for managing the correspondence between the logical address space of the SSD 700 and the physical address space.
  • the statistical information management TBL 23200 is a table for managing SSD statistical information.
  • the compression setting flag 23300 is a flag indicating whether the compression setting of the SSD 700 is ON or OFF.
  • the data cache area 24000 is an area for storing user data 24100.
  • the user data 24100 is data written to the block and data read from the block.
  • FIG. 21 is a diagram illustrating a configuration example of the logical-physical conversion table 23100.
  • the logical-physical conversion table 23100 includes Start-LBA 23101, Block # 23102, Page # 23103, and Cord Word (CW) # 23104.
  • Start-LBA 23101 indicates the start position of the LBA provided to the storage controller 100. Since the I / O unit of the flash memory is a page, the value of Start-LBA 23101 is managed as a multiple of the page size. Block # 23102, Page # 23103, and CW # 23104 indicate information (block #, page #, CW #) of the physical address space corresponding to the Start-LBA 23101. In this embodiment, since the SSD has a data compression function, a logical address space over two pages or more may be mapped to one physical page.
  • FIG. 22 is a diagram showing a configuration example of the statistical information management table 23200 in the SSD.
  • the statistical information management TBL 23200 information notified by the processor 713 in response to a request from the storage controller 100 is stored.
  • the statistical information management TBL 23200 includes a write request total amount 23211, a read request total amount 23212, an FM write total amount 23213, an average compression rate 23214, an FM read total amount 23215, and a remaining erase count 23216.
  • the total write request amount 23211 and the total read request amount 23212 are the total amounts of the data requested by the storage controller 100 for the SSD 700 and the read requested data, respectively, and each of them is the WR in the statistical information management TBL 13600.
  • the sum of the amount 13606 and the sum of the RD amount 13607 are the same value.
  • the FM write total amount 23213 and the FM read total amount 23215 are the total amount of data actually WR written to the FM 780 and the total amount of data actually RD from the FM 780. These values include the R / W amount generated inside the SSD in processing other than the R / W request from the storage controller 100 such as reclamation.
  • the FM write total amount 23213 has the same value as the FM usage amount 13111 of the Disk management TBL 13100.
  • the average compression rate 23213 is an average value of the compression rate of the compressed data obtained by the data compression process inside the SSD.
  • the remaining number of erasures 23216 is a value obtained by subtracting the total number of FM erasures generated by data WR from the FM from the maximum number of erasures supported by the vendor.
  • the numerical value of the statistical information management TBL 23200 is updated when data R / W or erasure occurs.
  • FIG. 23 shows a write process related to a write request from the host computer 30.
  • the processing of the storage controller 100 is realized by executing the Write I / O program 12100
  • the processing of the SSD controller 710 is realized by executing the Write I / O program 22100. Is done.
  • the host computer 30 transmits a WR request to the storage controller 100 (S10).
  • the storage controller 100 executes a WR request reception process described later (S20).
  • the storage controller 100 determines whether or not an extent has been allocated to the WR destination range (virtual volume address range) indicated by the WR request based on the virtual volume management table 13500 (S30).
  • the storage controller 100 shifts the processing to S50.
  • the storage controller 100 finds an unallocated extent and allocates the extent to a virtual extent in the WR destination range (S40). Note that the storage controller 100 may allocate extents when transferring data from the cache memory 103 to the SSD 700.
  • the storage controller 100 determines whether or not the cache area has been allocated to the WR destination range (there is a cache area securing request) (S50).
  • the storage controller 100 shifts the process to S70. If the cache area is unallocated (S50: No), the storage controller 100 finds an unallocated cache area and allocates the cache area to the WR destination range (S60).
  • the storage controller 100 urges sending WR data by sending a WR data transfer permission notification to the host computer 30 (S70).
  • the host computer 30 sends WR data in response to the WR data transfer permission notification (S80), and the storage controller 100 receives the WR data and stores the received WR data in the cache memory 103 (S85). . Thereafter, the storage controller 100 transmits a WR data transfer permission notification to the host computer 30 (S90).
  • the host computer 30 When the host computer 30 receives a transfer completion response from the storage controller 100, the host computer 30 ends the write process (S95).
  • FIG. 24 shows the destage processing
  • the storage controller 100 executes destage processing.
  • the storage controller 100 transmits the data stored in the cache memory 103 and the WR request for the data to the SSD controller 710 of the SSD 700 as the data storage destination (S105).
  • the SSD controller 710 receives the data and WR request from the storage controller 100, refers to its own compression setting flag 23100, and determines whether or not data compression is enabled (S106). As a result, when the data compression is valid (S106: Yes), the SSD controller 710 compresses the data (S107), refers to the logical-physical conversion TBL23100, and stores the FM location (Block #) of the data. , Page #, and CW #) and store the data in the determined FM position (S108).
  • the SSD controller 710 does not perform data compression, determines the FM location of the data storage destination based on the logical-physical conversion TBL23100, and determines the determined FM The data is stored in the position (S108).
  • the SSD controller 710 After executing S108, the SSD controller 710 updates the write request total amount 23211, FM write total amount 23213, average compression rate 23214, and remaining erase count 23216 of the statistical information management TBL 23200 regarding the received data (S109). Next, the SSD controller 710 transmits a transfer completion response as a response to the WR request received in S106 to the storage controller 100 (S110).
  • the storage controller 100 When the storage controller 100 receives the transfer completion response from the SSD controller 710, the storage controller 100 updates the average WR I / O Size 13603, the WR ratio 13605, and the WR amount 13606 of the statistical information management TBL 13600 (S111), and ends this sequence.
  • FIG. 25 shows a read process related to a read request from the host computer 30.
  • the processing of the storage controller 100 is realized by executing the Read I / O program 12200
  • the processing of the SSD controller 710 is realized by executing the Read I / O program 22200. Is done.
  • the host computer 30 transmits a data RD request to the storage controller 100 (S180).
  • the storage controller 100 receives an RD request for data, and is there a cache area assigned to the RD range (virtual volume address range) indicated in the RD request (the requested data is in the cache area)? It is determined whether or not (S190).
  • the storage controller 100 shifts the process to S208.
  • the storage controller 100 allocates the cache area, identifies the SSD 710 that is the basis of the extent, and sends the data RD to the SSD controller 710 of the identified SSD 710.
  • a request (staging request) is transmitted (S201).
  • the SSD controller 710 receives the data RD request, specifies the physical address range corresponding to the logical address range according to the RD request based on the logical-physical conversion TBL 23100, and extracts data from this physical address range (one or more pages). Perform the reading process. In this process, the SSD controller 710 confirms whether or not the data compression is valid (S202). If the data compression is valid (S202: Yes), the SSD controller 710 decompresses the read data ( (S203), the decompressed data is transmitted to the storage controller 100 (S204). On the other hand, when the data compression is not valid (S202: No), the SSD controller 710 transmits the read data to the storage controller 100 without decompressing (S204).
  • the SSD controller 710 updates the read request total amount 23212 and the FM read total amount 23215 of the statistical information management TBL 23200 (S205).
  • the storage controller 100 When the storage controller 100 receives data from the SSD controller 710 as a response to the RD request transmitted in S201, the storage controller 100 stores the received data in the cache memory 103 (S206), the average RD I / O Size 13604 of the statistical information management TBL 13600, The WR ratio 13605 and the RD amount 13607 are updated (S207). Thereafter, the storage controller 100 transmits the data stored in the cache memory 103 in S206 to the host computer 30 (S208).
  • the host computer 30 When the host computer 30 receives data from the storage controller 100 as a response to the RD request transmitted in S200, the host computer 30 ends the read process (S209).
  • the storage controller 100 may perform destage processing after storing the data in the cache memory 103 in S85 of the write processing, and transmit a transfer completion response to the host computer 30 after the destage processing.
  • the storage controller 100 may not use a margin, or may use a preset value as the margin.
  • FIG. 26 shows asynchronous processing for SSD.
  • the storage controller 100 executes an SSD internal information acquisition process (described later) with respect to each SSD controller 710 at every preset SSD internal information acquisition period asynchronously with the I / O request (S300).
  • the storage controller 100 transmits an SSD internal information acquisition command to the SSD controller 710 and receives an execution result notification command as a response from the SSD controller 710.
  • the information acquired in the process of S300 is, for example, data (FM write total amount 23213, average compression rate 23214, FM read total amount 23215, and remaining erase count 23216) stored in the statistical information management TBL 23200.
  • the storage controller 100 updates the disk management TBL 13100 based on the acquired internal information (S301). Specifically, the storage controller 100 updates the FM write total amount 13108 and the FM usage amount 13111 based on the FM write total amount 23213, and updates the FM read total amount 13107 based on the FM read total amount 23215.
  • the average compression rate 13109 is updated based on the average compression rate 23214, and the remaining erase count 13110 is updated based on the remaining erase count 23216.
  • the storage controller 100 calculates the risk of disk depletion based on the information of the disk management TBL 13100 (S302).
  • the depletion risk is an index for determining the ease of depletion of the disk. In the present embodiment, the higher the numerical value, the easier the depletion is.
  • the exhaustion risk is calculated by, for example, WR amount to Disk ⁇ average compression rate ⁇ free capacity. That is, the risk of exhaustion increases as the WR frequency increases, the compression rate decreases, and the free space decreases.
  • the WR amount to the disk is the total of the disk unit of the WR amount 13606 of the statistical information management TBL 13600, the average compression rate is the average compression rate 13109 of the disk management TBL 13100, and the free space is the physical capacity 13112 of the disk management TBL 13100. It can be calculated by subtracting the FM usage amount 13111 from.
  • the storage controller 100 determines whether or not the depletion risk is equal to or higher than a threshold, and determines whether or not to execute the depletion avoidance process (S303).
  • the threshold value may be set by the administrator of the storage apparatus 10 via control software installed in the host computer 30 or the like.
  • the storage controller 100 executes the exhaustion avoidance process (described later) (S304). After the end, the process proceeds to S305.
  • the exhaustion risk is not equal to or greater than the threshold and it is determined that the exhaustion avoidance process is unnecessary (S303: No)
  • the storage controller 100 advances the process to S305.
  • the storage controller 100 calculates the remaining life in RG units in order to determine whether or not the life leveling process is necessary (S305).
  • the remaining life in RG units may be the worst value among the remaining lives of the SSDs constituting the RG, or may be an average value of the remaining lives of the SSDs. A method for calculating the remaining life of each SSD will be described later.
  • the storage controller 100 stores the calculated remaining life of each SSD in the expected remaining life 13105 of the Disk management TBL.
  • the storage controller 100 obtains the difference in remaining life between RGs, determines whether the difference is equal to or greater than a threshold value, and determines whether to execute the life leveling process (S306).
  • the threshold value may be set by the administrator of the storage apparatus 10 via control software installed in the host computer 30 or the like. Whether or not to execute the life leveling process includes, for example, whether or not there is an SSD that reaches the life before the warranty period (an SSD having a smaller expected remaining life 13105 than the remaining warranty period 13104). It may be determined based on whether or not there is.
  • the storage controller 100 executes the life leveling process (described later) (S307).
  • the life leveling process ends, the process proceeds to S305 again.
  • the remaining life of the SSD RG for the state after the life leveling process is calculated again, and it is determined whether or not the difference in the remaining life is equal to or greater than the threshold value in S306.
  • the storage controller 100 determines whether or not the I / O performance rebalancing process is necessary.
  • the amount of I / O per physical capacity is calculated (S308).
  • the I / O amount per RG physical capacity is calculated by, for example, RG I / O amount ⁇ average compression ratio ⁇ RG physical capacity.
  • the RG I / O amount is calculated by calculating the I / O amount of each SSD from the WR amount 13600 and the RD amount 13607 of the statistical information management TBL 13600, and adding the I / O amount for the SSD constituting the RG. Can be calculated.
  • the average compression rate is, for example, a numerical value having the worst compression rate among the RGs from the average compression rate 13109 of the Disk management TBL 13100.
  • the RG physical capacity can be calculated by adding the physical capacity of the SSD constituting the RG from the physical capacity 13112 of the disk management TBL 13100.
  • the storage controller 100 obtains a difference in I / O amount per physical capacity between RGs, determines whether this difference is equal to or greater than a threshold value, and executes the I / O performance rebalancing process. It is determined whether or not (S309). As a result, if the difference is equal to or greater than the threshold (S309: Yes), the storage controller 100 executes an I / O performance rebalancing process (described later) (S310), and for the SSD after the I / O performance rebalancing process is completed. Asynchronous processing ends. On the other hand, when the difference is less than the threshold (S309: No), the storage controller 100 ends the SSD asynchronous process.
  • the asynchronous processing for SSD may be executed at an arbitrary timing, may be executed at regular intervals (for example, every other day), or may be executed when a specific command is received. Furthermore, the asynchronous processing for SSD may be executed by the user instructing the execution timing of this processing from the control software of the host computer 30.
  • the priority of the depletion avoidance process is the highest
  • the priority of the life leveling process is the second highest
  • the priority of the IO performance balance process is the lowest.
  • the processes are performed in descending order, but the priorities of these processes may be different from the priorities in this figure.
  • the priority of the IO performance balance process may be higher than the priority of the life leveling process.
  • the storage controller 100 has a higher priority than the target data placement control process even if the target data placement control process is performed before performing any data placement control process (target data placement control process). It may be determined whether or not the condition for skipping (the data arrangement control process performed earlier) remains satisfied. “The condition for skipping the higher-priority data placement control process remains satisfied” means that the condition that should be satisfied by the higher-priority data placement control process remains satisfied.
  • the storage controller 100 may perform the target data arrangement control process. If the result of this determination is negative, the storage controller 100 may skip (do not perform) the target data arrangement control process.
  • FIG. 27 shows the SSD internal information acquisition process.
  • the storage controller 100 executes SSD internal information acquisition processing.
  • This figure shows a configuration example of an SSD internal information acquisition command 25000 and an execution result notification command 25100 as a response thereto.
  • the SSD internal information acquisition command 25000 is a command that the storage controller 100 transmits to the SSD 700.
  • the SSD internal information acquisition command 25000 includes, for example, a command # 25001 and an acquisition target 25002.
  • Command # 25001 is a command identifier (command #).
  • the acquisition target 25002 is an item that is an object that the storage controller 100 desires to acquire from the SSD. Specifically, the acquisition target 25002 indicates which item value is required among the items included in the statistical information management TBL 23200 of the SSD 780.
  • the execution result notification command 25100 is a command sent from the SSD 700 to the storage controller 100, and includes a response content to the SSD internal information acquisition command 25000.
  • the execution result notification command 25100 includes, for example, command # 25101 and Disk internal information 25102.
  • Command # 25101 indicates to which request command the response is, and is command # 25001 corresponding to the request command.
  • the Disk internal information 25102 is a response value to the content specified by the acquisition target 25002, and this value is a value calculated or copied from the SSD statistical information management TBL 23200.
  • the storage controller 100 acquires the FM usage amount 13111, the physical capacity 13112, and the like by transmitting an SSD internal information acquisition command 25000 to each SSD 700, and subtracts the FM usage amount 13111 from the physical capacity 13112.
  • the SSD actual free capacity that is the physical free capacity size for each SSD 700 is calculated
  • the RG actual free capacity that is the sum of the SSD actual free capacity for each RG is calculated based on the RG management table 13200. It is stored in the judgment management table 32200.
  • the SSD 700 may manage the SSD actual free capacity, and the storage controller 100 may acquire the SSD actual free capacity from the SSD 700.
  • the storage controller 100 can periodically acquire the state of each SSD 700. As a result, the amount of data compressed by the SSD 700 and stored in the SSD 700 and the free physical capacity (actual free capacity) of the SSD 700 can be acquired.
  • FIG. 28 shows the storage status update process.
  • the storage controller 100 executes the storage state update process every time a preset storage state update cycle elapses in synchronization with the I / O request according to the inflow control program 31100.
  • the storage state update cycle may be shorter than the aforementioned SSD internal information acquisition cycle.
  • the storage controller 100 acquires, from each cache management table 32100, the number of cache areas whose status is dirty among the cache areas corresponding to the RG, and stores the RG based on the number of cache areas.
  • the RG dirty data amount A which is the dirty data amount of the corresponding cache area, is calculated and stored in the RG determination management table 32200 (S4110).
  • the storage controller 100 calculates, for each RG, a margin B indicating a data amount that may be destaged to the RG other than the RG dirty data amount A, and stores it in the RG determination management table 32200 (S4120). ).
  • the margin B is a predicted value of the maximum destage amount additionally generated as described above.
  • the margin B is expressed by reference margin ⁇ elapsed time.
  • the reference margin [GB / s] is determined in advance based on the maximum WR amount when the inflow restriction is not performed.
  • the reference margin may be determined for each model of the storage apparatus 10, or may be determined according to a write pend rate (hereinafter referred to as a WP rate).
  • the WP rate is expressed as dirty data amount / total capacity (number of dirty cache areas / total number of cache areas) in the data cache area 14000.
  • the elapsed time [s] is a time obtained by subtracting the update time of the latest RG actual free space from the current time, and indicates an update time interval of the RG actual free space.
  • the update of the RG actual free space is performed by the above-described SSD internal information acquisition process.
  • the elapsed time is equal to the SSD internal information acquisition cycle.
  • the elapsed time is longer than the SSD internal information acquisition cycle.
  • the storage controller 100 determines whether or not the inflow restriction condition is satisfied for each RG based on the RG determination management table 32200 (S4130).
  • the inflow restriction condition is expressed by A + B ⁇ C using the RG dirty data amount A, the margin B, and the RG actual free capacity C regarding the RG.
  • This inflow restriction condition indicates that all data having the sum of the RG dirty data amount A and the margin B cannot be written to the RG without being compressed.
  • the storage controller 100 may switch the RG inflow restriction condition depending on the presence / absence of the compression setting 13205 in the RG management table 13200.
  • the storage controller 100 determines whether or not the inflow restriction condition is satisfied in at least one RG in the result of S4130 (S4140).
  • the storage controller 100 sets the system flag to ON in the determination result management table 32300 (S4210).
  • the storage controller 100 updates the pool flag of each pool in the determination result management table 32300 (S4220).
  • the storage controller 100 sets the pool flag of the pool to ON, and otherwise sets the pool flag of the pool to OFF.
  • the pool flag condition is, for example, that at least one RG inflow restriction condition in the pool to which the target RG belongs is satisfied as a result of S4130.
  • the storage controller 100 updates the RG flag in the determination result management table 32300 (S4230), and ends this flow. If the RG flag condition is satisfied for each RG, the storage controller 100 sets the RG flag of the RG to ON, and otherwise sets the RG flag of the RG to OFF. For example, as a result of S4130, the RG flag condition is that the RG inflow restriction condition of the RG is satisfied, or that the RG inflow restriction condition of the RG is not satisfied and there is an idle waiting job for the RG.
  • the storage controller 100 sets the RG flags of all RGs to OFF in the determination result management table 32300 (S4240). Thereafter, the storage controller 100 sets the pool flags of all the pools to OFF (S4250). Thereafter, the storage controller 100 sets the system flag to OFF (S4260) and ends this flow.
  • the storage controller 100 can determine whether or not destaging to each RG is possible by calculating the RG actual free space and the RG scheduled destage amount.
  • the storage controller 100 periodically determines whether or not destaging to each RG is possible, and updates the determination result management table 32300 so that the determination result can be used when a WR request is received.
  • the storage controller 100 calculates the RG dirty data amount and the margin of the target RG, the data amount that can be destaged to the target RG can be calculated.
  • FIG. 29 shows WR request reception processing.
  • the storage controller 100 executes WR request reception processing according to the inflow control program 31100.
  • the storage controller 100 Upon receiving the WR request from the host computer 30 (S5110), the storage controller 100 determines whether or not it is necessary to secure a cache area corresponding to the WR destination range indicated in the WR request based on the cache management table 32100. Determination is made (S5120). Here, when the cache area does not exist in the data cache area 14000 (cache miss), the storage controller 100 determines that the cache area needs to be secured.
  • the storage controller 100 shifts the process to S5140.
  • the storage controller 100 sets a cache area securing request for securing the cache area (S5130).
  • the storage controller 100 executes an inflow restriction determination process to be described later (S5140), and determines whether it is determined to restrict the inflow (S5150). If it is determined not to restrict the inflow (S5150: N), the storage controller 100 ends this flow.
  • the storage controller 100 performs a waiting process (S5160). In this waiting processing, the storage controller 100 starts a waiting job for the target RG, and then repeats whether or not the waiting job has been released until the waiting job is released by a waiting job release process described later. judge. If it is determined that the idle job has been released, the storage controller 100 ends the idle process and moves the process to S5110. During the idle waiting process, the storage controller 100 does not secure a cache area and does not send a WR data transfer permission notification to the host computer 30.
  • the storage controller 100 determines that the inflow restriction of the target RG is performed when the WR request is received, the storage controller 100 waits without securing a cache area for the write data, and the amount of RG dirty data And an increase in the WP rate can be prevented. If it is determined not to restrict the inflow of the target RG, write data can be received from the host computer 30.
  • FIG. 30 shows the inflow restriction determination process.
  • the storage controller 100 executes the inflow restriction determination process according to the inflow control program 31100.
  • the storage controller 100 determines whether or not a cache area needs to be secured (a cache area securing request is set) (S5210). When it is determined that it is not necessary to secure the cache area (S5210: N), the storage controller 100 determines that the inflow restriction of the target RG is not performed (S5320), and ends this flow.
  • the storage controller 100 determines whether the system flag is ON based on the determination result management table 32300 (S5220). When it is determined that the system flag is OFF (S5210: N), the storage controller 100 shifts the process to S5320 described above.
  • the storage controller 100 determines whether the pool flag of the pool to which the target RG corresponding to the WR destination range belongs is ON based on the determination result management table 32300. It is determined whether or not (S5230). When it is determined that the pool flag is OFF (S5220: N), the storage controller 100 shifts the process to S5320 described above.
  • the storage controller 100 determines whether or not the RG flag of the target RG is ON based on the determination result management table 32300 (S5240). When it is determined that the RG flag is OFF (S5230: N), the storage controller 100 shifts the process to S5320 described above.
  • the storage controller 100 determines that the inflow restriction of the target RG is performed (S5310), and this flow is finished.
  • the storage controller 100 determines whether or not the target RG satisfies the free space shortage condition, and if the target RG satisfies the free space shortage condition. If it is determined, the process may be shifted to S5310, and if it is determined that the target RG does not satisfy the free space shortage condition, the process may be shifted to S5320.
  • the free space shortage condition is, for example, A + B ⁇ C.
  • the storage controller 100 determines the type of I / O process being executed, and changes the margin B according to the type. For example, a margin Ba when the I / O process being executed is a write from the host computer 30 to the cache and a margin Bb when the I / O process being executed is a destage are set in advance. Ba is larger than Bb.
  • the storage controller 100 determines to restrict the inflow of the target RG for safety.
  • the storage controller 100 can quickly determine whether or not to perform inflow restriction on the target RG by referring to the determination result management table 32300 at the time of a WR request. For example, the storage controller 100 determines that the inflow restriction is not performed if any flag regarding the target RG is OFF. Further, the storage controller 100 determines that the inflow restriction is performed if all the flags related to the target RG are ON.
  • FIG. 31 shows the idle waiting job release process.
  • the storage controller 100 is asynchronous with the I / O request, and executes an idle waiting job release process for each RG every time a preset idle waiting job determination period elapses.
  • the idle waiting job determination cycle may be shorter than the storage state collection cycle.
  • the storage controller 100 determines whether or not there is an idle waiting job in the target RG (S5410). When it is determined that there is no idle waiting job in the target RG (S5410: N), the storage controller 100 ends this flow.
  • the storage controller 100 determines whether the target RG satisfies the inflow permission condition (S4520).
  • the inflow permission condition is expressed as A + B ⁇ C using the RG dirty data amount A, the margin B, and the RG actual free space C regarding the RG.
  • This inflow permission condition indicates that all data having the sum of the RG dirty data amount A and the margin B can be written to the RG without being compressed.
  • the storage controller 100 releases the empty waiting job (S4530) and ends this flow. If it is determined that the target RG does not satisfy the inflow permission condition (S4520: N), the storage controller 100 ends this flow and continues the idle job.
  • the storage controller 100 releases the idle waiting job of the target RG when the RG free capacity of the target RG increases or when the dirty data amount of the target RG decreases. Can do. For example, the RG free capacity of the target RG is increased by a depletion avoidance process described later, and when the target RG satisfies the inflow permission condition, the free waiting job is released, and the host computer 30 transfers the WR data to the target RG to the storage device 10. Can be sent to.
  • the host computer 30 determines that a timeout has occurred and interrupts the processing related to the WR request.
  • FIG. 32 is a schematic explanatory diagram of SSD life expectancy.
  • the life expectancy of the SSD is a process executed in S305 described above.
  • the horizontal axis represents time
  • the vertical axis represents the number of remaining SSDs.
  • the life of the SSD is a period in which the SSD can actually be used.
  • life leveling processing specifically, processing for exchanging data stored in extents and entries between SSDs
  • t (previous) 30000 indicates the time when the lifetime was predicted last time (when the previous lifetime was predicted), and corresponds to the value of the information update date 13103 of the Disk management TBL 13100.
  • EZ (previous) 30003 is the number of remaining erases at the time of the previous life prediction, and is the number of remaining erases 13106.
  • t (current) 30001 is the time when the current lifetime is predicted
  • EZ (current) 30002 is the current remaining erase count, which is a value that can be acquired from the SSD internal information acquired this time.
  • the slope (I) is calculated by the following formula (1).
  • Inclination (I) (EZ (current)-EZ (previous)) ⁇ (t (current)-t (previous)) ... (1)
  • T (life reached) 30005 is the time when the remaining number of erasures becomes zero, that is, the life reached time. In this way, the remaining lifetime can be calculated from the remaining erase count and the decrease rate of the remaining erase count. The remaining lifetime is stored in the expected remaining lifetime 13105 of the Disk management TBL 13100.
  • FIG. 33 is a flowchart illustrating an example of a depletion avoidance process according to the first embodiment.
  • the depletion avoidance process corresponds to the process of S304 described above.
  • the storage controller 100 calculates the RG unit depletion risk for all RGs in the pool 500 (S500).
  • the RG unit depletion risk may be the worst value of the SSD unit depletion risk calculated in S302 described above in the SSD 700 constituting the RG, or may be the average value of the SSD depletion risk constituting the RG.
  • the storage controller 100 identifies the RG having the highest depletion risk and the RG having the lowest depletion risk (S501).
  • the storage controller 100 performs FM WR amount prediction processing (described later) for predicting the FM WR amount for each entry or extent based on the statistical information management TBL 13600 and the statistical information management TBL 23200 of the SSD 700 (S505).
  • the storage controller 100 calculates the amount of data to be moved (S502).
  • the amount of movement data may be the amount of movement below the threshold, or may be the amount of movement that equalizes the depletion risk between the target RGs (between the RG having the maximum depletion risk and the RG having the minimum depletion risk).
  • the threshold value may be set by the administrator of the storage apparatus 10 via control software installed in the host computer 30 or the like.
  • the storage controller 100 executes a data movement process (described later) for moving data by the determined amount (S503). Finally, the storage controller 100 updates information on various TBLs (S504) and ends the depletion avoidance process.
  • the risk of SSD depletion can be reduced with the minimum number of extent movements by moving data with a large FM WR amount in units of extents from an RG with a high depletion risk to a low RG.
  • the storage controller 100 determines whether or not the RG actual usage rate of each RG (ratio of the RG actual usage amount to the physical capacity of the RG) exceeds a preset RG actual usage rate threshold value. When the RG actual usage rate exceeds the RG actual usage rate threshold, data movement processing may be performed from the RG to another RG.
  • the storage controller 100 increases the actual free capacity of the target RG by moving data from the target RG of the idle job to another RG by the exhaustion avoidance process, and waits for the idle by the above idle job release process. The job can be released.
  • FIG. 34 is a flowchart illustrating an example of FM WR amount prediction processing according to the first embodiment.
  • the FM WR amount prediction process corresponds to the process of S505 described above.
  • the FM WR amount prediction process is a process in which the storage controller 100 calculates the FM WR predicted amount 13705 of the FM WR amount predicted TBL 13700.
  • the storage controller 100 selects an entry that is a target of calculation of the FM write amount prediction (S3031). Next, the storage controller 100 stores (copies) the value acquired from the average compression rate 13109 of the Disk management TBL 13100 in the compression rate 13704 of the selected entry (S3032). Subsequently, the storage controller 100 acquires the WR amount 13606 corresponding to this entry from the statistical information management TBL 13600 as the WR amount 13703 of this entry, and stores (copies) the value (S3033).
  • the storage controller 100 calculates the FM WR expected amount 13705 of this entry by multiplying the WR amount 13703 and the compression rate 13704 (S3034).
  • the storage controller 100 determines whether or not the calculation target entry remains (S3035). If the calculation target entry remains (S3035: No), the next entry is selected, and S3032 to S3035 are selected. Repeat the process. On the other hand, if it is determined in S3035 that no calculation target entry remains (S3035: Yes), the storage controller 100 calculates an FM WR predicted amount for each extent (S3036). Specifically, the storage controller 100 identifies entries belonging to each extent by referring to the extent management TBL 13400, and calculates the total FM WR expected amount 13705 of the identified entries. Thereafter, the storage controller 100 ends the FM WR amount prediction process.
  • FIG. 35 is a flowchart illustrating an example of the data movement process in the exhaustion avoidance process according to the first embodiment. This data movement process corresponds to the process of S503 described above.
  • the storage controller 100 selects an extent with a large FM WR predicted amount calculated in the FM WR amount prediction process of S505 from among the RGs having the maximum depletion risk specified in S501 (S5031).
  • the extent having the largest FM WR predicted amount is the extent having the largest FM WR predicted amount among a plurality of extents.
  • the storage controller 100 migrates the selected extent to the RG having the minimum depletion risk specified in S501 (S5032). Next, the storage controller 100 determines whether or not the amount of data moved from the RG having the maximum depletion risk to the RG having the minimum depletion risk has reached the amount of movement data calculated in S502 described above (S5033).
  • This process can reduce the risk of SSD depletion with the minimum number of extent movements by moving an extent with a high depletion risk FM WR to an RG with a low depletion risk.
  • FIG. 36 is a flowchart illustrating an example of a life leveling process according to the first embodiment.
  • the life leveling process corresponds to the process of S307 described above.
  • the storage controller 100 identifies the RG having the maximum remaining life and the RG having the minimum remaining life (S601), and based on the statistical information management TBL 13600 and the statistical information management TBL 23200 of the SSD 700, the FM WR for each entry or extent. FM WR amount prediction processing (described later) for predicting the amount is executed (S602).
  • the storage controller 100 executes a data movement process (described later) for executing data movement (S603), updates various tables (S604), and ends the life leveling process.
  • FIG. 37 is a flowchart illustrating an example of the data movement process in the life leveling process according to the first embodiment. This data movement process is a process corresponding to S603 described above.
  • the storage controller 100 selects an extent (A1) having a large FM WR expected amount from among the short-life RGs specified as the source of data of the life leveling process specified in S601 described above (S30410).
  • an extent having a large FM WR predicted amount is an extent having the largest FM WR predicted amount among a plurality of extents.
  • the storage controller 100 selects an extent (B1) having a small FM WR expected amount from the long-life RG specified as the transfer destination of the life leveling process specified in S601 (S30411).
  • the extent with the smallest FM WR predicted amount is the extent with the smallest FM WR predicted amount among a plurality of extents. It is also possible to group extents whose FM WR predicted amount is equal to or less than a threshold value, and select one extent from them.
  • the storage controller 100 determines whether or not the FM WR predicted amount of the extent (A1) is larger than the FM WR predicted amount of the extent (B1) (S30412). If the expected FM WR amount of extent (B1) is larger than the expected FM WR amount of extent (A1), moving the data of extent (B1) to an RG with a short remaining life will further increase the WR data amount to that RG. , It does not equalize the number of erases between devices. Therefore, by making this determination and canceling the data exchange, it is possible to appropriately equalize the number of erasures between devices without unnecessary data movement.
  • FIG. 38 is a flowchart illustrating an example of the I / O performance rebalancing process according to the first embodiment.
  • the I / O performance rebalancing process corresponds to the process of S310 described above.
  • the storage controller 100 identifies the RG with the largest I / O amount per RG physical capacity and the smallest RG (S901). Based on the statistical information management TBL 13600 and the statistical information management TBL 23200 of the SSD 700, the storage controller 100 Predict FM RD / WR forecast amount (FM RD forecast amount and FM WR forecast amount) for each extent (S902). Specifically, the FM RD predicted amount is also predicted by processing similar to the above-described FM WR amount predicted processing.
  • the storage controller 100 executes data movement (S903), updates various tables (S904), and ends the performance I / O rebalance processing.
  • step S903 the storage controller 100 performs processing similar to the data movement processing in step S603 described above, and an extent having a large RG I / O amount per RG physical capacity (FM RD / WR expected amount) is large.
  • FM RD / WR expected amount an extent having a large RG I / O amount per RG physical capacity
  • I / O amount to RG with large I / O amount is reduced, while I / O amount is reduced.
  • the divergence of the I / O amount between RGs can be reduced. That is, the I / O performance can be leveled.
  • the performance bottleneck can be avoided by moving the stored data in extent units from the RG having a large I / O amount to the RG having a small I / O amount.
  • the storage controller 100 may have a storage tier virtualization function.
  • the storage controller 100 sets the RG to one of a plurality of tiers, measures the access frequency for each virtual storage area such as a virtual extent, and assigns the virtual storage area to a plurality of tiers based on the access frequency. It arranges in either.
  • the storage controller 100 may execute the reallocation of the virtual storage area periodically or in response to an I / O request.
  • the storage controller 100 may execute an IO performance rebalancing process for moving data between Tiers.
  • the storage controller 100 stops the IO performance rebalancing process, the IO performance rebalancing process between Tiers, the rearrangement of storage tier virtualization, and the like. Thereby, the storage controller 100 preferentially executes an increase in the actual free space of the target RG.
  • the RG is depleted, the WR request for overwriting the allocated page becomes an error, and there is a possibility that the host computer 30 may be down, and thus the depletion avoidance process is given priority.
  • the storage controller 100 allocates the extent in the RG to the virtual extent, moves the data in the extent to the extent in another RG, and allocates the migration source extent. By assigning the extent of the movement destination to the extent, the actual free space of the RG can be adjusted.
  • a storage apparatus including a plurality of storage controllers (clusters) will be described.
  • differences from the first embodiment will be mainly described.
  • FIG. 39 is a diagram illustrating a configuration example of a storage system 10000b including the storage apparatus 10b according to the second embodiment.
  • the storage device 10b includes two storage controllers 100.
  • the processor 104 in the storage controller 100 is connected to a processor in another storage controller 100.
  • the host computer 30 is connected to the two storage controllers 100 via the SAN 20.
  • the Disk Box 110 is connected to the two storage controllers 100.
  • the two storage controllers 100 are respectively called a first storage controller and a second storage controller, the cache memory 130 in the first storage controller is called a first cache memory, and the cache memory 130 in the second storage controller is called the first storage controller. This is called a second cache memory.
  • the processing of S20 to S40 is executed as in the first embodiment.
  • the first storage controller determines whether or not the cache area corresponding to the WR destination range has been allocated to both the first cache memory and the second cache memory. When it is determined that the cache area corresponding to the WR destination range is not allocated to at least one of the first cache memory and the second cache memory, the first storage controller is determined not to be allocated in S60. A cache area corresponding to the WR destination range is secured from the cache memory.
  • the first storage controller writes the received WR data to both the first cache memory and the second cache memory in S85, and in WR, the WR data is written.
  • a data transfer permission notification is transmitted to the host computer 30.
  • the storage controller 100 determines that it is not necessary to secure the cache area, and the cache area When it does not exist in at least one of the first cache memory and the second cache memory, it is determined that the cache area needs to be secured. When it is determined that the cache area needs to be secured (S5120: Y), in S5130, the storage controller 100 sets a cache area securing request for a cache memory in which the cache area does not exist.
  • the storage controller 100 writes the write data received from the host computer 30 to the two cache memories 130 and transmits a response to the host computer 30, thereby shortening the response time of the WR request. , Can increase the reliability.
  • the storage controller 100 may acquire the compression rate for each entry. Specifically, when the SSD controller 710 completes the WR, the data compression rate for each entry is added to the response command sent to the storage controller 100. By referring to the data compression rate included in the response command, the storage controller 100 can manage the compression rate for each entry.
  • the prediction accuracy of the FM WR predicted amount for each entry can be increased, and as a result, the execution accuracy of the life leveling process can be improved.
  • WA Write Amplification
  • the amount of data actually written to the flash memory is larger than the amount of data received by the SSD 700 from the storage controller 100. .
  • the ratio of the amount of data actually written to the flash memory to the amount of received data is called WA.
  • the increase in the amount of WR data due to the internal processing of the SSD depends on the access pattern, the size of the WR data, and the like.
  • the storage controller 100 additionally acquires WA from the SSD controller 710 and adds the value to the FM WR predicted amount of predicted material, thereby further improving the accuracy of the life leveling process.
  • WA is a ratio ((b) / (a)) obtained by dividing the following (b) by (a).
  • (a) is the amount of data received by the SSD 700 from the storage controller 100
  • (b) is the amount of data actually written to the flash memory.
  • the SSD 700 when the SSD 700 receives WR data from the storage controller 100 in a state where no data is WR in the SSD 700, the data is WR as it is to an empty page. Is likely to be.
  • the page to be the destination of valid data and the data from the storage controller 100 are written. Therefore, WA exceeds “1.0”.
  • the reclamation process for example, generates a block having only invalid data by aggregating pages storing valid data and WR to another block when empty blocks start to be exhausted. This is a process for generating an empty block by erasing data in the block.
  • the storage controller 100 can newly acquire a WA from the SSD 700 through the SSD internal information acquisition command, and add the WA to the FM WR expected amount of expected material.
  • the FM usage amount for each entry may be notified from the SSD 700 to the storage controller 100.
  • the storage controller 100 does not need to predict the FM WR amount, and can perform the life leveling process using the FM usage amount notified from the SSD 700 as it is. For this reason, the load (calculation amount) of the storage controller 100 can be suppressed.
  • the storage controller 100 performs the life leveling process and The I / O performance rebalancing process can be realized with high accuracy.
  • Flash memory has a characteristic that data is easily destroyed even when data is repeatedly read from a page. Therefore, a general SSD has a function of storing an ECC, which is an error correction code for data, together with data in a page, and recovering a partially generated error by the ECC at the time of data reading. Further, such an SSD has a function of moving data to another page when the number of occurrences of data errors exceeds a certain threshold. Therefore, the flash memory can be erased even in an environment where only data RD occurs. Therefore, information (RDI / O count and / or data RD amount) related to RD for each extent or entry may be used as a material for determining the life leveling process.
  • ECC error correction code for data
  • the storage controller 100 performs the process of converting the remaining number of deletions into the remaining number of days.
  • the SSD 700 may notify the storage controller 100 of the remaining number of days. This can be realized, for example, when the SSD 700 has a function of converting the remaining number of erasures into the number of remaining days as described above.
  • the exhaustion avoidance process, the life leveling process, and the I / O performance rebalancing process are executed in units of extents, but these processes are performed in different units (for example, entry units or LU units). It may be broken.
  • the migration policy of each process such as permitting the balance process, (3) permitting the depletion avoidance process between the compressed RG and the non-compressed RG, the life leveling process, and the I / O performance rebalance process,
  • a plurality of patterns are prepared in the storage apparatus 10, and a user or an administrator sets a migration policy corresponding to the intended use for each predetermined storage area unit (for example, RG or LU) via the host computer 30 or the management computer. Processing that is selected and in accordance with the selected migration policy may be performed by the storage apparatus 10.
  • an interface for notifying whether the host computer 30 has already compressed the data to the storage controller 100 is prepared, and based on the information, the storage controller 100 determines whether or not compression is required, or compresses RG. Alternatively, it may be determined in which RG of the uncompressed RG, or a movement policy of the life leveling process may be determined.
  • a write request command sent from the host computer 30 to the storage controller 100 may include a field indicating whether or not data is compressed.
  • the storage device may be the SSD 700 or the HDD 111.
  • Each of the first memory and the second memory may be a cache memory 130.
  • the processor may be the processor 104.
  • Each of the first storage device group and the second storage device group may be RG or PG.
  • the storage device information may be statistical information management TBL23200.
  • the cache information may be a cache management table 32100.
  • the storage device controller may be the SSD controller 710.
  • the non-volatile semiconductor memory may be a flash memory 780.
  • the destage determination may be a storage state update process.
  • the securing determination may be S5210 to 5320 of the inflow restriction determining process.
  • the waiting may be an idle waiting job.
  • the free space may be an RG actual free space.
  • the release condition may be an inflow permission condition.
  • the physical storage area may be an extent.
  • the virtual storage area may be a virtual extent.
  • the depletion condition may be that the depletion risk of the first storage device group is the maximum, or that the RG actual usage rate exceeds the RG actual usage rate threshold.
  • the dirty data amount may be the RG dirty data amount.
  • the result of the destage determination may be the determination result management table 32300.
  • the scheduled destage amount may be an RG scheduled destage amount.
  • 10 storage device, 11: disk, 30: host computer, 100: storage controller, 130: cache memory, 700: SSD, 710: SSD controller, 780: flash memory, 781: flash controller, 10000: storage system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

キャッシュメモリにおけるダーティデータ量の過剰な増加を防ぐ。 プロセッサは、各記憶デバイスから記憶デバイス情報を取得し、プロセッサは、上位装置から第一記憶デバイスグループに対するライト要求を受信する場合、ライト要求に示されたライト先アドレスに対応するライト先キャッシュ領域が確保されているか否かを判定し、ライト先キャッシュ領域が確保されていないと判定された場合、プロセッサは、記憶デバイス情報およびキャッシュ情報に基づいて、ライト先キャッシュ領域を確保するか否かを判定する、確保判定を行い、ライト先キャッシュ領域を確保すると判定された場合、プロセッサは、ライト先キャッシュ領域を確保し、ライト先キャッシュ領域を確保しないと判定された場合、プロセッサは、ライト先キャッシュ領域の確保を待機する。

Description

ストレージ装置、記録媒体、および記憶制御方法
 本発明は、ストレージ装置に関する。
 ストレージ装置は、一般に、データを格納する物理記憶デバイスと、物理記憶デバイスを制御するコントローラとを有する。コントローラは、ストレージ装置に接続された計算機(例えばホスト計算機)にデータ格納空間(一般に論理ボリューム)を提供する。
 ストレージ装置は、複数の物理記憶デバイスを、RAID(Redundant Array of Independent(or Inexpensive)Disks)等のPG(Parity Group)構成で使用することにより、I/O処理を高速化したり、物理記憶デバイスの故障に対する高い耐障害性を発揮したりすることができる。
 ストレージ装置は、物理記憶デバイスとして、HDD(Hard Disk Drive)や、フラッシュメモリ(以下、FM)を有する物理記憶デバイス、例えば、SSD(Solid State Drive)を含む。
 次に、データ圧縮について述べる。データ圧縮は、データを圧縮することで物理記憶デバイスに格納するデータ量を削減する技術であり、フットプリントの削減やビットコストの低下を実現する。
 今後、SSD自体のビットコスト低下等を目的として、SSDが上述の圧縮機能を有する可能性がある。以下、圧縮機能を有する物理記憶デバイスを圧縮ドライブと呼ぶ。
 SSD自体が圧縮機能を搭載する場合、ストレージコントローラは圧縮後のデータを意識する必要がなく、圧縮機能のない記憶デバイスと同様にリード/ライト(以下、R/W)することができる。ストレージコントローラからデータを書き込まれた圧縮ドライブは、内部で圧縮処理を実行し、FMに格納することで、FMの使用量を削減することができる。しかし、ストレージコントローラからは、圧縮ドライブに対して、圧縮ドライブの容量分しかデータを書き込むことができない。つまりストレージコントローラは圧縮ドライブの容量一杯までデータを書き込んだ状態では、圧縮ドライブ内でデータが圧縮されることにより増加した空き容量に対してさらにデータを書き込むことができない。なぜなら、ストレージコントローラが圧縮ドライブに書き込める領域は非圧縮のデータサイズで消費されるためである。
 特許文献1には、データを圧縮して格納する半導体記憶ユニットを用いるストレージ装置において、ストレージコントローラが、半導体記憶ユニットが枯渇するリスクを軽減するように半導体記憶ユニット間でデータを移動する技術が記載されている。
国際公開第2015/008375号
 記憶デバイスの空き容量が不足する場合、当該記憶デバイスをデステージ先とするダーティデータがキャッシュメモリに溜まる。これにより、キャッシュメモリ資源を使用するサービスの性能低下、保守失敗、ホストシステムダウン等を発生させる可能性がある。
 上記課題を解決するために、本発明の一態様であるストレージ装置は、複数の記憶デバイスと、第一メモリと、前記複数の記憶デバイス、前記第一メモリ、及び上位装置に接続されるプロセッサと、を備える。前記プロセッサは、前記複数の記憶デバイスの少なくとも一部を第一記憶デバイスグループとして設定し、前記プロセッサは、前記第一メモリ内の複数のキャッシュ領域の状態を示すキャッシュ情報を作成し、前記プロセッサは、前記上位装置からのデータを格納するキャッシュ領域を、第一記憶デバイスグループに関連付け、前記プロセッサは、各キャッシュ領域内のデータを、対応する記憶デバイスへデステージし、前記記憶デバイスは、前記デステージされたデータを圧縮することで、前記デステージされたデータを圧縮データに変換し、前記圧縮データを格納し、前記記憶デバイスの使用量に基づく記憶デバイス情報を記憶し、前記プロセッサは、各記憶デバイスから前記記憶デバイス情報を取得し、前記プロセッサは、前記上位装置から前記第一記憶デバイスグループに対するライト要求を受信する場合、前記ライト要求に示されたライト先アドレスに対応するライト先キャッシュ領域が確保されているか否かを判定し、前記ライト先キャッシュ領域が確保されていないと判定された場合、前記プロセッサは、前記記憶デバイス情報および前記キャッシュ情報に基づいて、前記ライト先キャッシュ領域を確保するか否かを判定する、確保判定を行い、前記ライト先キャッシュ領域を確保すると判定された場合、前記プロセッサは、前記ライト先キャッシュ領域を確保し、前記ライト先キャッシュ領域を確保しないと判定された場合、前記プロセッサは、前記ライト先キャッシュ領域の確保を待機する。
 キャッシュメモリにおけるダーティデータ量の過剰な増加を防ぐことができる。
実施形態の概要を示す図である。 実施例1に係るストレージ装置10を含むストレージシステム10000の構成例を示す図である。 SSD700の構成例を示す図である。 フラッシュメモリ780の構成例を示す図である。 SSDのアドレス空間の構成例を示す図である。 容量仮想化技術の概要説明図である。 データ移動処理によりRG間でデータが移動された場合におけるデータアクセスの概要を説明する図である。 キャッシュメモリ103の構成例を示す図である。 Disk管理テーブル13100の構成例を示す図である。 RG管理テーブル13200の構成例を示す図である。 Pool管理テーブル13300の構成例を示す図である。 エントリ管理テーブル13800の構成例を示す図である。 エクステント管理テーブル13400の構成例を示す図である。 仮想ボリューム管理テーブル13500の構成例を示す図である。 統計情報管理テーブル13600の構成例を示す図である。 実施例1におけるFM WR量予想テーブル13700の構成例を示す図である。 キャッシュ管理テーブル32100の構成例を示す図である。 RG判定管理テーブル32200の構成例を示す図である。 判定結果管理テーブル32300の構成例を示す図である。 SSD700におけるキャッシュメモリ716の構成例を示す図である。 論物変換テーブル23100の構成例を示す図である。 SSD内の統計情報管理テーブル23200の構成例を示す図である。 ホスト計算機30からのライト要求に関わるライト処理を示す。 デステージ処理を示す。 ホスト計算機30からのリード要求に関わるリード処理を示す。 SSD向け非同期処理を示す。 SSD内部情報取得処理を示す。 ストレージ状態更新処理を示す。 WR要求受領処理を示す。 流入制限判定処理を示す。 空き待ちジョブ解放処理を示す。 SSDの寿命予想の概要説明図である。 実施例1に係る枯渇回避処理の一例を示すフローチャートである。 実施例1に係るFM WR量予想処理の一例を示すフローチャートである。 実施例1に係る枯渇回避処理におけるデータ移動処理の一例を示すフローチャートである。 実施例1に係る寿命平準化処理の一例を示すフローチャートである。 実施例1に係る寿命平準化処理におけるデータ移動処理の一例を示すフローチャートである。 実施例1に係るI/O性能リバランス処理の一例を示すフローチャートである。 実施例2に係るストレージ装置10bを含むストレージシステム10000bの構成例を示す図である。
 以下、本発明の実施形態を説明する。
 以下の説明では、「AAAテーブル」の表現にて各種情報を説明することがあるが、各種情報は、テーブル以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「AAAテーブル」を「AAA情報」と呼ぶことができる。
 また、以下の説明では、要素(例えばエクステント)の識別情報として番号が使用されるが、他種の識別情報(例えば名前、識別子)が使用されてよい。
 また、以下、「プログラム」を主語として処理を説明する場合があるが、プログラムは、コントローラ(ストレージコントローラ、又はSSDコントローラ)に含まれるプロセッサ(例えばCPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)及び/又は通信インタフェース装置(例えば通信ポート)を用いながら行うため、処理の主語がコントローラ或いはプロセッサとされてもよい。また、コントローラは、処理の一部又は全部を行うハードウェア回路を含んでもよい。コンピュータプログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ、又は、コンピュータで読取可能な記憶メディアであってもよい。
 また、以下の説明では、物理記憶デバイスを「Disk」と便宜上表記することがあるが、この表記は、物理記憶デバイスが有する記憶媒体が必ずしも円盤状の記憶媒体であることを意味しない。物理記憶デバイスは、例えば、SSDでもよい。
 また、以下の説明では、期間或いは時間を用いるが、期間或いは時間の単位は、以下の例に限定されない。例えば、期間或いは時間の単位は、年、月、日、時、分、秒のうちのいずれか1つ或いはいずれか2以上の組合せであってもよい。
 また、以下の説明では、SSDに含まれる不揮発半導体記憶媒体は、フラッシュメモリ(FM)であるとする。そのフラッシュメモリは、ブロック単位で消去が行われ、ページ単位でR/Wが行われる種類のフラッシュメモリ、典型的にはNAND型のフラッシュメモリであるとする。しかし、フラッシュメモリは、NAND型に代えて他種のフラッシュメモリ(例えばNOR型)でもよい。また、フラッシュメモリに代えて、他種の不揮発半導体記憶媒体、例えば相変化メモリが採用されてもよい。
 また、NAND型のフラッシュメモリは、一般に、複数のブロック(物理ブロック)で構成されている。各ブロックは、複数のページ(物理ページ)で構成されている。1以上のSSD(例えば後述のRAIDグループ)に基づく論理ページ群(論理的な記憶空間)が提供されてよい。何のデータも書き込まれていない物理ページを、「空きページ」と言うことができる。各論理ページについて、最近書き込まれたデータを「有効データ」と言い、有効データが書き込まれたことにより旧いデータとなったデータを「無効データ」と言うことができる。また、有効データが格納されている物理ページを「有効ページ」と言うことができ、無効データが格納されている物理ページを「無効ページ」と言うことができる。
 図1は、実施形態の概要を示す図である。
 ストレージ装置10は、ストレージコントローラ100と、複数の物理記憶デバイス(Disk)11を備える。複数の物理記憶デバイス11は、RAIDグループ(RG)50を構成する。RG50は、PG(Parity Group)であってもよい。RG50は、論理記憶領域の基になっている。論理記憶領域は、エクステント70でもよいし、ストレージ装置10に接続されている上位装置(例えばホスト計算機30)に提供される論理ボリューム(LU:Logical Unit)の全部或いは一部でもよい。なお、ストレージコントローラ100は、RGを論理ボリュームであるVDEV(Virtual Device)として管理してもよいし、一つのRGを複数のVDEVに分割して管理してもよい。
 ストレージコントローラ100は、キャッシュメモリ130を含む。上位装置からのライトデータは、キャッシュメモリ130に格納され、その後、RG50へデステージされる。ストレージコントローラ100は、キャッシュメモリ130に格納されているデータのうち、デステージ前のデータをダーティデータとして管理する。
 ストレージコントローラ100は、上位装置からライト要求を受信した場合、ライト要求のライト先であるRGのRG実空き容量が、当該RGのRG予定デステージ量より大きいか否かを判定する。RG実空き容量は、RGの物理的な空きスペースであり、RGの物理容量から、RGの物理的な使用量であるRG実使用量を減じて得られる値である。RG予定デステージ量は、当該RGへデステージされる可能性のあるデータの量である。RG予定デステージ量は、例えば、キャッシュメモリ130内で、当該RGに対応するダーティデータの量であるRGダーティデータ量と、それ以外にデステージ処理までに追加されるダーティデータの量の予測値であるデータ量であるマージンとの和である。なお、RG予定デステージ量は、ライト要求に示されたライトデータ量を含んでもよい。
 Disk11が圧縮機能を有する場合、ストレージコントローラ100は、各Disk11の内部情報を取得し、内部情報に基づいてRG実使用量を算出する。
 当該RGのRG実空き容量がデステージに十分であると判定された場合、ストレージコントローラ100は、ライトデータ転送許可通知をホスト計算機30へ送信し、ホスト計算機30からライトデータを受信し、ライトデータをキャッシュメモリ130へ書き込む。その後、ストレージコントローラ100は、ライト要求と非同期で、キャッシュメモリ130からRG50へデステージを行う。
 当該RGのRG実空き容量がデステージに十分でないと判定された場合、ストレージコントローラ100は、当該RGの空き待ちジョブを実行する。空き待ちジョブ中、ストレージコントローラ100は、上位装置からのライトデータのためのキャッシュメモリ130の領域を確保せず、当該RGへのライトデータを受信しない。その後、ストレージコントローラ100は、RG間でデータを移動するデータ配置制御処理を実行することにより、当該RGのRG実空き容量を増加させる。これに応じて、当該RGのRG実空き容量がRG予定デステージ量より大きいと判定された場合、ストレージコントローラ100は、当該RGの空き待ちジョブを解放し、上位装置からライトデータを受信し、ライトデータをキャッシュメモリへ書き込む。
 なお、空き待ちジョブ中、管理者が当該RGに物理記憶デバイス11を追加することで、当該RGのRG実空き容量を増加させてもよい。この場合、ストレージコントローラ100は、データ配置制御処理を実行しなくてもよい。
 次に、データ配置制御処理について説明する。
 ストレージコントローラ100は、上位装置からのI/O要求に伴う処理とは別に、RAIDグループ50間でデータを移動するデータ配置制御処理として、RAIDグループ50の枯渇回避処理、寿命平準化処理、I/O性能平準化(リバランス)処理(入出力平準化処理)、ストレージ階層仮想化における再配置処理等を行う。ここで、RAIDグループが半導体記憶ユニットの一例である。なお、半導体記憶ユニットを1つの物理記憶デバイス11としてもよい。
 SSDは、HDDに比べI/O処理が非常に高速であるというメリットを有しているが、データの書き込み回数には上限があり、HDDに比べ寿命が短いというデメリットも有している。
 フラッシュメモリ(典型的にはNAND型のフラッシュメモリ)は、データを書き換えようとしたとき、そのデータが格納されている物理領域上に、データを直接上書くことができない。その物理領域上のデータに対してデータの書き換えを行うためには、フラッシュメモリの消去単位であるブロックと呼ばれる単位で、その物理領域上のデータに対して消去処理(以下、ブロック消去)を実行した後、ブロック消去が実行された物理領域上にデータを書く必要がある。
 しかしながら、各ブロックについてのブロック消去の回数(以下、消去回数)は、フラッシュメモリの物理的な制約から限界がある。そして、ブロックの消去回数がこの限界を超えると、そのブロックにはデータを格納することができなくなってしまう。つまり、SSDを構成する全ブロックの消去回数が限界を超えると、そのSSDの寿命となる。
 そこで、一般のSSDでは、ウエアレベリング(以下、WL)とよばれる手法を用いて、SSDの長寿命化が図られている。WLでは、一般に、消去回数が多いブロックには、低頻度で更新されるデータが格納され、消去回数が少ないブロックには、高頻度で更新されるデータが格納される。これにより、ブロック間の消去回数を平準化し、特定のブロックのみが劣化することを抑えることができる。
 ストレージ装置の物理記憶デバイスとしてSSDが採用される場合、複数のSSDがストレージ装置に搭載されることが一般的である。このようなストレージ装置においては、各SSDにおいて特定のブロックのみが劣化することを抑えられても、SSD間の負荷に不均衡が生じ、特定のSSDのみに負荷が集中することがある。そこで、SSD間にもWLを適用し、複数のSSD間の消去回数を平準化することで、ストレージ装置全体の長寿命化を実現する手法が、知られている。以下では、SSDなどの物理記憶デバイス間で行われるWLを、「寿命平準化」と言う。
 寿命平準化では、ストレージコントローラが、移動対象のSSDと移動対象のデータとを決定する。
 データ配置制御処理において、ストレージコントローラ100は、各物理記憶デバイス11から各物理記憶デバイスに関する内部情報を取得する。例えば、物理記憶デバイス11がSSD(フラッシュメモリを有する記憶デバイス)であれば、内部情報は、各種容量情報(全体容量、実使用量、データ圧縮後にフラッシュメモリに書き込まれたデータの総量など)と寿命に関する情報などである。
 ストレージコントローラ100は、これらの内部情報とI/O量に関する統計情報に基づいて、RGの枯渇リスクを算出し、枯渇回避処理の実行要否を判断する。枯渇リスクは、例えば、RGのライトI/O量(WRI/O量)÷RG実空き容量、で算出する。以後、書き込みをWRと呼び、読み出しをRDと呼ぶことがある。また、枯渇リスクは、RGに書き込まれた量であるRG実WR量(FMライト合計量の合計)÷RGの実容量(物理容量の合計)、であってもよい。枯渇回避処理では、まず、ストレージコントローラ100は、枯渇リスクが高く近い将来RG枯渇が発生しWRを受け付けられなくなってしまうRG50と、枯渇リスクが低くRG枯渇までの時間が長いと予想されるRG50とを特定する。
 次に、ストレージコントローラ100は、枯渇リスクが高いRG50から枯渇リスクが低いRG50へ移動するデータ量(移動データ量)を決定する。移動データ量はユーザが設定する枯渇リスクに関する閾値(たとえばRG使用量90%など)を下回るだけの移動データ量でもよいし、RG50間で枯渇リスクを平準化することのできる移動量でもよい。
 次に、ストレージコントローラ100は、決定した移動データ量だけデータを移動する。ここで、データを移動させる際の記憶領域の範囲を「エクステント」と呼ぶ。エクステントは、参照符号70に示すように、複数の物理記憶デバイス11(例えば、SSD)にまたがったアドレス範囲(論理領域)である。フラッシュメモリのブロック単位や、ページ単位という小さい単位では、データ移動のための負荷が大きくなる。これに対して、ブロック及びページよりも大きい単位であって、複数のRG50にまたがったエクステントという単位でデータ移動を行うことでストレージコントローラ100のデータ移動のための負荷を抑えることができる。
 ストレージコントローラ100は枯渇回避処理実行後、または枯渇回避処理が不要だと判断した場合、RG50の残寿命を算出し、寿命平準化処理の実行要否を判断する。RG50の残寿命としては、例えば、RG50を構成する物理記憶デバイス11(ここでは、SSD)の残寿命情報の最小値をRG50の残寿命とする。または、RG50の残寿命としては、RG50を構成する物理記憶デバイス11(SSD)の残寿命の平均値としてもよい。寿命平準化処理では、まず、ストレージコントローラ100は、残寿命が短く、近い将来寿命を迎え、使用不可となってしまうSSDで構成されたRGと、残寿命が長いSSDで構成されたRGとを特定する。
 次に、ストレージコントローラ100は、残寿命の短いRGの中でWR負荷が高いエクステントと、残寿命の長いRGの中でWR負荷が低いエクステントとを決定し、それらのエクステントのデータを交換する。
 具体的には、WR負荷を判断するために、ストレージコントローラ100は、エクステント毎にWRデータ量を計測する。例えば、SSDへのWRデータ量が多いと、ブロックの書き換えが頻繁に発生し、それに伴ってブロックの消去回数が増加する。ブロックの消去回数が増加すると、そのブロックの消去回数が限界(上限値)に達して、そのブロックへのリードはできるが、WRが不可能となる。そして、このようなブロックが増加したSSDは、使用不可能となる。このため、ストレージコントローラ100が、WRデータ量が多いエクステントを見つけ、そのエクステントに含まれるデータを、短寿命のSSDのRGから、長寿命のSSDのRGへ移動する。
 これにより、ストレージコントローラ100の負荷を高くすることなく、SSD間で消去回数を平準化することができる。また、短寿命のSSDのRGにおけるWR I/O量が多いエクステントと、長寿命のSSDのRGにおけるWR I/O量が少ないエクステントとのデータを交換することで、最小の移動データ量で寿命平準化を実現することができる。
 ストレージコントローラ100は寿命平準化処理実行後、または寿命平準化処理が不要だと判断された場合、RG50のI/O量を算出し、I/O性能リバランス処理の実行要否を判断する。I/O性能リバランス処理では、まず、ストレージコントローラ100は、I/O量が多く、且つI/O負荷が高いRGと、I/O量が少なく、且つI/O負荷が低いRGを特定する。
 次にストレージコントローラ100は、I/O負荷が高いRGの中でI/O負荷が高いエクステントと、I/O負荷が低いRGの中でI/O負荷が低いエクステントとを決定し、それらのエクステントのデータを交換する。
 なお、ストレージコントローラ100は、データ配置制御処理のうち何れかの処理を含まなくてもよい。
 以下、本実施形態の実施例について詳細に説明する。
 図2は、実施例1に係るストレージ装置10を含むストレージシステム10000の構成例を示す図である。
 ストレージシステム10000は、ストレージ装置10、及びホスト計算機30を備える。ホスト計算機30は、ストレージ装置10を利用する上位装置の一例である。ホスト計算機30は、例えばアプリケーションサーバである。ホスト計算機30と、ストレージ装置10とは、例えば、SAN(Storage Area Network)20を経由して通信可能に接続されている。SAN20としては、例えば、ファイバチャネル、SCSI(Small Computer System Interface)、iSCSI(internet Small Computer System Interface)、USB(Universal Serial Bus)、IEEE1394バス、SAS(Serial Attached SCSI)等を用いることが可能である。また、SAN20に代えて、他種の通信ネットワーク(例えばLAN(Local Area Network))が採用されてもよい。なお、この図の例では、ストレージシステム10000は、ホスト計算機30及びストレージ装置10をそれぞれ1つ備えているが、それらのうちの少なくとも一方を複数備えてもよい。
 ホスト計算機30は、ストレージ装置10に対して制御コマンド等を発行する制御ソフトウェア(図示省略)を実行することにより、制御コマンド等をストレージ装置10に発行してストレージ装置10の保守管理をする。この制御コマンドに基づく処理がストレージ装置10で実行されることにより、ストレージ装置10が有するRGのRAIDレベルの変更や、枯渇回避処理、寿命平準化処理、及びI/O性能リバランス処理の各種起動閾値の調整、及び、Pool単位又はRG単位での圧縮機能のON/OFF設定等の種々の作業を行うことができる。なお、RG50は、複数のSSD(又はHDD)で構成され所定のRAIDレベルに従いデータを記憶する物理記憶デバイスグループである。ストレージ装置10に対して制御コマンドを発行する計算機として、ホスト計算機30とは別の計算機が使用されもよい。
 ストレージ装置10は、ホスト計算機30に接続されたストレージコントローラ(Storage CTL)100と、ストレージコントローラ100に接続されたDisk Box110とを有する。
 ストレージコントローラ100は、ストレージ装置10の動作を制御する。ストレージコントローラ100は、通信インタフェースデバイスと、メモリと、それらに接続された制御デバイスとを有する。通信インタフェースデバイスとして、フロントエンドの通信インタフェースデバイスであるHost I/F101と、バックエンドの通信インタフェースデバイスであるDisk I/F107とがある。メモリとして、キャッシュメモリ103がある。制御デバイスとして、プロセッサ(例えばCPU(Central Processing Unit))104がある。Host I/F101と、キャッシュメモリ103と、プロセッサ104と、Disk I/F107とは、例えばPCI(Peripheral Component Interconnect)のような専用の接続バスで、内部ネットワーク102に接続されており、内部ネットワーク102を介して通信可能である。
 キャッシュメモリ103は、例えばDDR3(Double Data Rate3)のようなDRAMである。Host I/F101は、ストレージ装置10をSAN20と接続するためのインタフェースである。内部ネットワーク102は、ストレージ装置10の内部に存在するデバイス同士を接続するためのネットワークである。内部ネットワーク102は、スイッチを含む。内部ネットワーク102に代えて、スイッチ機能やDMA転送、RAID演算等のアシスト機能を有するASIC(Application Specific Integrated Circuit)を用いてもよい。プロセッサ104は、ストレージ装置10の全体を制御する。プロセッサ104は、複数存在してもよい。この場合、複数のプロセッサ104が協調または分担してストレージ装置10を制御するようにしてもよい。キャッシュメモリ103は、プロセッサ104がストレージ装置10を制御するために必要なコンピュータプログラムやデータを記憶する領域を有する。Disk I/F107は、ストレージコントローラ100とDisk Box110とを接続するためのインタフェースである。Disk Box110は、種類の異なるDisk11(例えば、HDD111、SSD700といった不揮発物理記憶デバイス)を複数台備える。Disk Box110において、同じ種類の複数のDiskでRGが構成される。各RGから、ユーザデータの格納空間としての論理ボリュームが提供される。なお、この図の例では、Disk Box110を構成するDisk11として、HDD111及びSSD700としているが、SSD700のみとしてもよい。
 なお、ストレージ装置10の各部の数や、ストレージコントローラ100の各部の数は、この図の例に限られない。
 図3は、SSD700の構成例を示す図である。
 SSD700は、複数のフラッシュメモリ780と、それらに接続されたSSDコントローラ710とを有する。SSDコントローラ710は、SSD700の動作を制御する。SSDコントローラ710は、通信インタフェースデバイスと、メモリと、それらに接続された制御デバイス、およびデータの圧縮・伸長を実行するハードウェアデバイスとを有する。通信インタフェースデバイスとしては、フロントエンドの通信インタフェースデバイスであるDisk I/F711と、バックエンドの通信インタフェースデバイスであるFlash I/F717とがある。メモリとしては、キャッシュメモリ716がある。制御デバイスとしては、プロセッサ713がある。データの圧縮・伸長を実行するハードウェアデバイスとして、圧縮・伸長回路718がある。なお、データの圧縮・伸長を実行する機能を、プロセッサ713が専用のプログラムを実行することで、ソフトウェア的に実現してもよい。Disk I/F711と、プロセッサ713と、キャッシュメモリ716と、Flash I/F717と、圧縮・伸長回路718とは、内部ネットワーク712を介してそれぞれ接続されている。
 Disk I/F711は、ストレージコントローラ100のDisk I/F107と専用の接続バスで接続されている。内部ネットワーク712は、デバイス同士を接続するためのネットワークである。内部ネットワーク712は、スイッチを含んでもよい。また、内部ネットワーク712をスイッチ機能を有したASICで代用してもよい。プロセッサ713は、SSD700全体を制御する。キャッシュメモリ716は、プロセッサ713がSSD700を制御するために必要なコンピュータプログラムやデータを記憶する領域を有する。Flash I/F717は、SSDコントローラ710とフラッシュメモリ780とを接続するためのインタフェースである。
 本実施例において、SSD700は、複数のフラッシュメモリ780と、それらを制御するコントローラ710とを備える半導体記憶デバイスであり、外観形状等がフォームファクタに限定されるものではない。また、フラッシュメモリ780には、NORやNANDといった不揮発性の半導体メモリが使用されてよい。また、フラッシュメモリ780に代えて、磁気抵抗メモリであるMRAM(Magnetoresistive random access memory)や、抵抗変化型メモリであるReRAM(resistance random access memory)、強誘電体メモリであるFeRAM(Ferroelectric random access memory)等の各種半導体メモリが使用されてもよい。
 図4は、フラッシュメモリ780の構成例を示す図である。
 フラッシュメモリ780は、複数のブロック782と、それらに接続されたフラッシュメモリコントローラ(以下、フラッシュコントローラ)781とを有する。フラッシュコントローラ781は、フラッシュメモリ780を制御する。各ブロック782は、複数のページ783により構成される。フラッシュメモリ780からのデータのRD、及びフラッシュメモリ780へのデータのWRは、ページ単位で実行される。データ消去は、ブロック単位で実行される。ページ783は、複数のCode word784により構成されており、Code word784には、ホスト計算機30により格納されたデータと、そのデータを保護するためのエラー訂正符号であるECCとが格納されている。
 フラッシュメモリ780は、例えば、NAND型のフラッシュメモリである。NAND型のフラッシュメモリでは、データを上書きすることができない。そのため、フラッシュメモリ780では、データがWRされているページ783に新たなデータをWRする際は、データを消去し、データが消去された消去済みのページ783に対してWRする。
 SSDコントローラ710は、SSD700内の複数のブロック782に対して、消去回数の平準化処理を行う。SSDコントローラ710は、更新頻度が小さいデータを消去回数の多いブロック782に格納し、更新頻度が大きいデータを消去回数の少ないブロック782に格納することで、SSD700内のブロック782の消去回数を平準化する。なお、SSDコントローラ710は、WRの際に、消去回数の少ない空きブロック782を選択してデータを格納することで、消去回数の平準化を行ってもよい。この際、複数のブロック782を消去回数に応じて複数のグループに分けて、消去回数が少ないグループからデータを格納するブロック782を選択するようにしてもよい。このように、SSD700内の複数のブロック782の消去回数が平準化されることで、SSD700の長寿命化が達成される。
 図5は、SSDのアドレス空間の構成例を示す図である。
 SSD700に関して、物理アドレス空間800と、物理アドレス空間800より大きい論理アドレス空間900とが存在する。物理アドレス空間800は、実際のデータが格納される物理記憶領域のアドレス空間である。一方、論理アドレス空間900は、SSD700がストレージコントローラ100に対して提供する一意なアドレス空間である。
 SSDコントローラ710は、論理アドレス空間900を、例えば物理ページサイズと同じ大きさを持つ複数個の領域(以下、論理ページ)901、902、903、904等に分割する。ここで、本実施例ではSSD700は、データ圧縮機能を有しているため、論理ページ901のデータは圧縮データ911に、論理ページ902のデータは圧縮データ912に、論理ページ903のデータは圧縮データ913に、論理ページ904のデータは圧縮データ914にそれぞれ変換(圧縮)される。データパターン等によって、圧縮率が変化するため、論理ページを変換した各圧縮データのサイズは一定とは限らず、任意のサイズとなる。各圧縮データは、それぞれCode word(CW)単位で物理ページに格納される。この図の例では、圧縮データ911はCW7841に、圧縮データ912はCW7842に、圧縮データ913はCW7843とCW7844とに、圧縮データ914はCW7900に格納される。
 このように、データ圧縮機能を有しているSSD700では、論理ページと物理ページとは一対一の関係ではなく、実際にFM780に格納される圧縮後の圧縮データに対して物理ページが動的に割り当てられる。また、このSSD700では、論理アドレス空間900を物理アドレス空間800より大きくすることで、ストレージコントローラ100はSSD700が搭載する物理記憶容量以上のデータを書き込むことができる。
 ここで、論理アドレス空間900をどの程度の大きさとするかを考える。本実施例では全書き込みデータが圧縮・伸長回路718で圧縮できる最良の圧縮率(たとえば8分の1)で圧縮されることを想定して、論理アドレス空間900の大きさを決定する。この場合には、SSD700は自身が搭載する物理容量の8倍の大きさを持つ論理容量の論理アドレス空間900をストレージコントローラ100に提供する。例えば、物理的に1TBの容量を搭載するSSD700は、例えば最良の圧縮率8分の1だとすると、8TBの論理容量をストレージコントローラ100に提供する。これにより、ストレージコントローラ100は圧縮機能を持たないHDDやSSDと同様に単にデータをライトするだけで、SSD700の実際の物理容量以上のデータを格納することができる。この場合、書き込まれたデータの圧縮率は、データパターン等によって変化するため、実際には8分の1より圧縮率が悪く(高く)なることがあり、ストレージコントローラ100からSSD700に対して必ずしも8TBのデータを格納することができない。このように、SSD700の論理容量が満杯になる前に、物理容量が満杯になる状態を枯渇状態と呼ぶ。
 ストレージコントローラ100は枯渇状態になったSSD700に対しては、一切データをWRすることができない。枯渇状態のSSD700に対するWRコマンドはエラー応答となる。なぜなら、前述のとおり、NAND型のFM780では、単純にデータを上書きすることができず、データが格納されているページに新たなデータをWRする際は、データを消去し、データが消去された消去済みのページに対してWRする必要があり、枯渇状態のSSD700では、消去済みのページを用意することができないためである。
 逆に、非枯渇状態のSSD700に対しては、WRの制限はなく、論理アドレス空間900全面に対してWRすることができる。
 そこで、ストレージコントローラ100は、SSD700を枯渇状態にしないよう、後述の枯渇回避処理を実行し、SSD700を常に非枯渇状態に保つようにする。
 SSDコントローラ710は、論理アドレス空間900を構成するアドレス範囲(論理記憶領域)と物理アドレス空間800を構成するアドレス範囲(物理記憶領域)とのマッピングを動的に変更することで、SSD700内のWL等を実現することができる。なお、論理アドレス空間900と物理アドレス空間800との対応は、プロセッサ713が後述の論物変換テーブル23100を用いて管理している。本実施例では、ストレージコントローラ100は、SSD700内の論物変換テーブルを直接管理していない。ゆえに、SSD700のプロセッサ713がストレージコントローラ100に対して、SSD内部情報等で通知を行わない限り、ストレージコントローラ100は、論理アドレス空間900と物理アドレス空間800との対応関係を把握することはできない。
 次に、容量仮想化技術について説明する。
 容量仮想化技術(例えば、Thin Provisioning)とは、ストレージ装置10が有している物理的な容量より大きな仮想的な容量をホスト計算機30側に提供する技術である。ホスト計算機30は、仮想的な論理ボリューム(仮想ボリューム)に対してアクセスする。容量仮想化技術では、ストレージ装置10がWR要求を受けた場合に、WR要求のデータのWR先の仮想的な記憶領域(仮想エクステント)に、物理的な記憶領域が割り当てられる。本実施例では、容量仮想化技術において割り当てられる物理的な記憶領域の単位をエクステント単位とする。また、エクステントのサイズは、数MBから数GBと多様性に富んでいてよい。
 図6は、容量仮想化技術の概要説明図である。
 同一種類のDisk11(例えばSSD700)でRG(200、300、400)が構成される。1以上のRGを基にPool500が構成される。
 エクステント(240、241、241、340、440等)は、Pool500を分割することにより得られた記憶領域(部分記憶領域)、つまり、Pool500の一部である。この図の例では、Pool500は、RG200、RG300、及びRG400の3つのRGに基づいて構成されている。以下、RG200を例に説明する。
 RG200は、Disk210、Disk220、及びDisk230により構成されている。RG200は、RAID5を構築しており、Data(この図中のD)及びParity(この図中のP)がDisk(210~230)に格納される。
 RG200に基づく記憶領域が複数のエクステント(240、241、242)に分割される。RG200に基づく記憶領域は、複数のSSD700によって提供される論理アドレス空間900に対応する。
 エクステントは、SSD700のブロック782よりも大きいサイズの記憶領域である。エクステントのサイズは、例えば、ブロックのN倍(Nは2以上の整数)である。エクステントは、各Diskに存在する論理アドレス空間であるエントリ(例えば、エントリ251、252、253、254、255、256)により構成される。エントリには、複数個のData及びParityが格納される。この図の例では、例えばエントリ251には、データ211、データ212、パリティ213等が格納され、エントリ252には、データ221、データ223、パリティ222等が格納され、エントリ253には、データ232、データ233、パリティ231等が格納されている。エントリ254、255、及び256も同様に複数個のDataとParityとが格納されている。また、エントリ251及び254は、Disk210内に、エントリ252及び255は、Disk220内に、エントリ253及び256は、Disk230内にそれぞれ構築されている。
 この図の例では、RG200の記憶領域から、エクステント240、エクステント241、及びエクステント242が作成されている。RG300の記憶領域から、エクステント340、エクステント341、及びエクステント342が作成されている。RG400の記憶領域から、エクステント440、エクステント441、及びエクステント442が作成されている。
 仮想ボリューム600は、ホスト計算機30がユーザデータを格納するための仮想的な論理ボリュームである。仮想ボリューム600の容量として定義される容量は、ストレージ装置10が有する物理記憶デバイスの容量の合計よりも大きな記憶容量とすることができる。なお、仮想ボリューム600は、任意の数の仮想エクステント(601~607等)によって構成されている。仮想ボリューム600の記憶領域は、仮想アドレス(仮想ボリュームを構成する論理アドレス)で管理されており、所定の範囲に区切られた仮想アドレスの記憶領域により、仮想エクステントが構成される。この図の例では、1つの仮想エクステントに対して1つのエクステントが対応付けられているが、1つの仮想エクステントに対して複数のエクステントが対応付けられてもよい。
 この図の例において、実線で示されている仮想エクステント601~604は、RG200、300、及び400からエクステントが割当てられている仮想エクステントである。すなわち、仮想エクステント601に対してはエクステント341が、仮想エクステント602に対してはエクステント242が、仮想エクステント603に対してはエクステント442が、仮想エクステント604に対してはエクステント240がそれぞれ割当てられている。また、この図の例において、破線で示されている仮想エクステント605~607は、データのWR先として指定されたアドレスが属している仮想エクステントではなく、このため、これら仮想エクステント605~607にはエクステントが未割当てとなっている。
 図7は、データ移動処理によりRG間でデータが移動された場合におけるデータアクセスの概要を説明する図である。データ移動処理は、SSD向け非同期処理(後述)において実行される。
 RG間でデータが移動されると、ホスト計算機30は、データへのアクセス先を移動先のRGへ変更しなければならない。しかし、仮想ボリューム600を用いてアドレスが変換されることで、ホスト計算機30は、アクセス先を変更することなく、移動先のデータへアクセスできる。つまり、ストレージコントローラ100によって、仮想エクステント610の仮想アドレスに対する関連付けが、移動元のエクステント70の論理アドレスから、移動先のエクステント80の論理アドレスへ変更される。従って、SSD向け非同期処理を実行しても、ホスト計算機30は、仮想ボリューム600にアクセスすることで、アクセス先のアドレスを変更する必要はない。なお、本実施例では、アドレス変換に仮想ボリュームを用いているが、これに限られず、仮想ボリュームを用いずにアドレス変換を行うようにしてもよい。
 図8は、キャッシュメモリ103の構成例を示す図である。
 ストレージコントローラ100のキャッシュメモリ103は、プログラムエリア12000、テーブルエリア13000、及びデータキャッシュエリア14000を有する。プログラムエリア12000及びテーブルエリア13000は、ストレージ装置10を制御するためのプログラムや各種テーブルが格納される領域である。データキャッシュエリア14000は、ユーザデータを一時的に格納するために使用される領域である。
 プログラムエリア12000は、Write I/O プログラム12100、Read I/O プログラム12200、寿命管理プログラム12300、SSD情報取得プログラム12400、寿命平準化プログラム12500、枯渇回避プログラム12600、I/O性能リバランスプログラム12700、及び流入制御プログラム31100を記憶する。
 Write I/O プログラム12100は、ホスト計算機30からのWR要求を処理するプログラムである。Read I/O プログラム12200は、ホスト計算機30からのRD要求を処理するプログラムである。寿命管理プログラム12300は、プロセッサ104がSSD700などの各種Diskの寿命を管理するためのプログラムである。SSD情報取得プログラム12400は、SSD700の内部情報を取得するためのプログラムである。寿命平準化プログラム12500は、SSD700の寿命をRG単位に換算し、RGの寿命平準化を実行するためのプログラムである。枯渇回避プログラム12600は、SSD700の容量情報から、RGの枯渇リスクを計算し、枯渇の可能性が高いRGの枯渇回避を実行するプログラムである。I/O性能リバランスプログラム12700は、RGのI/O統計情報から、特定RGが性能ボトルネックとなっていることを検出し、性能平準化を実行するプログラムである。流入制御プログラム31100は、デステージ不可能であることを判定した場合、ホスト計算機30からのWRデータを制限するプログラムである。
 テーブルエリア13000は、Disk管理テーブル(テーブルをTBLと表記することもある)13100、RG管理テーブル13200、Pool管理テーブル13300、エクステント管理テーブル13400、仮想ボリューム管理テーブル13500、統計情報管理テーブル13600、FMライト量予想テーブル13700、エントリ管理テーブル13800、キャッシュ管理テーブル32100、RG判定管理テーブル32200、及び判定結果管理テーブル32300を有する。
 Disk管理TBL13100は、Disk Box110に格納されているDiskに関する情報を格納するテーブルである。RG管理TBL13200は、RAIDグループに関する情報を格納するテーブルである。Pool管理TBL13300は、Poolの情報を格納するテーブルである。エクステント管理TBL13400は、エクステントに関する情報を格納するテーブルである。仮想ボリューム管理TBL13500は、仮想ボリュームに関する情報を格納するテーブルである。統計情報管理TBL13600は、ストレージ装置10のI/O性能に関する各種情報を格納するテーブルである。FMライト量予想TBL13700は、プロセッサ104が寿命平準化処理を実行する際の移動対象データを決定するために、SSD内部のデータ書き込み量を予想する際に使用するテーブルである。キャッシュ管理テーブル32100は、データキャッシュエリア14000に関する情報を格納するテーブルである。RG判定管理テーブル32200は、RGの判定に関する情報を格納するテーブルである。判定結果管理テーブル32300は、RGの判定結果を格納するテーブルである。
 データキャッシュエリア14000には、WR要求及びRD要求に従うユーザデータ14100が一時記憶される。ユーザデータ14100は、ホスト計算機30が使用するデータである。
 図9は、Disk管理テーブル13100の構成例を示す図である。
 Disk管理TBL13100は、主にストレージコントローラ100が管理する各Diskの枯渇管理および寿命管理を行うための情報(枯渇関連情報、残寿命情報)を管理する。Disk管理TBL13100は、Disk毎に、Disk#13101、Disk Type13102、情報更新日13103、残保証期間13104、予想残寿命13105、圧縮設定13106、FMリード合計量13107、FMライト合計量13108、平均圧縮率13109、残消去回数13110、FM使用量13111、物理容量13112、及び論理容量13113を有する。
 Disk#13101は、Diskの識別子であり、ユニークな番号である。Disk Type13102は、Diskの種別を表す。Diskの種別としては、例えば、SSD(SLC)、SSD(MLC)、HDDなどがある。ここで、SSDは、使用するNANDフラッシュメモリの種類により、SLC(Single Level Cell)タイプ、MLC(Multi Level Cell)タイプ、及びTLC(Triple Level Cell)タイプの3種類が存在する。SLCは、高速、長寿命、低容量なフラッシュメモリであり、数十万から数万回オーダーのブロック消去が可能である。MLCは、低速、短寿命、及び大容量なフラッシュメモリであり、数万から数千回オーダーのブロック消去が可能である。TLCはMLCに比べ、さらに、低速、短寿命であるが、大容量なフラッシュメモリであり数千から数百回オーダーのブロック消去が可能である。
 情報更新日13103は、Diskに関する情報が更新された最近の日付(例えば、寿命情報等を更新した日付)を表す。残保証期間13104は、ベンダが定めるDiskの保証期間があとどれだけ残っているかを示す。この図の例では、残保証期間13104は、日数として示されている。ここで、Diskの保証期間とは、Diskが正常に動作することが保証された期間(例えば、5年)である。フラッシュメモリは、データの書き込みによる消去回数の増加により劣化し、寿命に到達すると、データのR/Wが不可能、または、データ保持特性が著しく悪化する。よって、Diskを正常に使用可能な期間として、予め消去回数や総WR量等に基づいて閾値が設定される。Diskの使用期間が保証期間を超えた場合は、そのDiskを交換することとなる。
 予想残寿命13105は、SSDの残消去回数13110がゼロに到達すると予想される残りの期間を示す。予想残寿命13105は、プロセッサ104(寿命管理プログラム12300)が予想した数値である。ここでは、予想残寿命13105は、日数として示されている。ここで、予想残寿命13105が残保証期間13104を下回るということは、例えばI/Oのばらつきなどにより、特定のSSDに負荷が集中することで、このSSDがベンダの想定よりも高負荷な状態となってしまい、ベンダが保証する使用期限よりも前に、SSDが寿命に到達するということを意味している。寿命平準化処理を実行することで、特定のSSDを含むRGへのWRの集中を回避することができ、SSDの長寿命化を図ることができる。予想残寿命13105は、情報更新日時13103、FMリード合計量13107、FMライト合計量13108、及び残消去回数13110等を基に算出することができる。残寿命期間の算出方法については後述する。
 圧縮設定13106は、対象Diskがデータ圧縮機能を有効にしているか否かを示す。圧縮設定13106は、有効(使用)中の場合はON(又はONに相当する数値(例えば「1」))となり、無効(未使用)中の場合はOFF(又はOFFに相当する数値(例えば「0」))となっている。なお、データ圧縮機能のON/OFFの設定については、ストレージ装置10の管理者がホスト計算機30にインストールされた制御ソフトウェア等を介して設定できるようにしてもよい。
 FMリード合計量13107は、SSD内に発生したリード量(SSD内のフラッシュメモリから読み出されたデータの量)の積算値であり、SSD内部情報を基に更新される。FMライト合計量13108は、SSD内に発生したWR量(SSD内のフラッシュメモリに書き込まれたデータの量)の積算値であり、SSD内部情報を基に更新される。平均圧縮率13109は、SSD内部でデータが圧縮されることにより、元のサイズに比べて何パーセントのサイズになったかを示す数値である。なお平均圧縮率13109は、各SSDの圧縮率の平均値であり、SSD内部情報を基に更新される。
 残消去回数13110は、SSDにおいて実行可能なブロック消去の回数に従う値を示す。本実施例では、残消去回数13110は、予め決まっている消去可能回数に対する残消去回数についての割合(パーセンテージ)となっており、SSD内部情報を基に更新される。残消去回数13110の値がゼロになったとき、フラッシュメモリ内の全てのブロックの消去回数が上限に達したことを示す。
 FMリード合計量13107、FMライト合計量13108、平均圧縮率13109及び残消去回数13110は、ストレージコントローラ100が各SSDから取得した情報に基づいて更新される。ストレージコントローラ100は、例えば、S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等の汎用インタフェースを用いて各SSDから情報を取得する。
 FM使用量13111は、SSD内に格納されているデータ量を表し、SSD内部情報を基に更新される。物理容量13112は、SSDが搭載する物理容量を表す。論理容量13113は、SSDに対する論理容量を示す。この論理容量は、圧縮・伸長回路718で可能な最良の圧縮率を前提とした容量であって、物理容量より大きな容量である。ストレージコントローラ100は圧縮設定13106がONの場合は、論理容量13113をSSDの容量と認識し、圧縮設定13106がOFFの場合は、物理容量13112をSSDの容量と認識する。
 なお、Disk管理TBL13100において、枯渇管理が必要ないDisk(たとえば圧縮設定13106がOFFのSSD)については、平均圧縮率13109、FM使用量13111、及び論理容量13113を、プロセッサ104による取得対象としなくてもよい。また、Disk管理TBL13100において、寿命管理が必要ないDisk(例えば、HDD)については、残保証期間13104、予想残寿命13105、残消去回数13110、及びFM使用量13111を、プロセッサ104による取得対象としなくてもよい。
 図10は、RG管理テーブル13200の構成例を示す図である。
 RG管理TBL13200は、RG毎に、RG#13201、Disk Type13202、RAID Level13203、RAID構成13204、圧縮設定13205、及びDisk#13206を有する。
 RG#13201は、RGの識別子であり、ユニークな番号である。Disk Type13202は、RGを構成するDiskの種別を表す。RGは、同一種類のDiskから構成される。
 RAID Level13203は、RGのRAIDレベルを表す。RAIDレベルは、例えば、RAID 1+0、1、3、4、5、6といった種々の値である。RAID構成13204は、RAIDを構成するデータDisk(データを格納するDisk)の数、及びパリティDisk(パリティを格納するDisk)の数を表す。圧縮設定13205は、RGを構成するDiskに対する圧縮機能の設定状況を示す。圧縮設定13205がONである場合には、このRGを構成する全Diskの圧縮設定がONであることを表す。また、圧縮設定13205がOFFである場合には、このRGを構成する全Diskの圧縮設定がOFFであることを表す。Disk#13206は、RGを構成するDiskの番号(Disk#)を表す。Disk#13206は、RAID構成13204が示すDiskの数と同数の有効なDisk#を含む。
 図11は、Pool管理テーブル13300の構成例を示す図である。
 Pool管理TBL13300は、Pool毎に、Pool#13301、RG#13302、RG残容量13303、及びPool残容量13304を有する。
 Pool#13301は、Poolの識別子であり、ユニークな番号である。RG#13302は、Poolを構成する全てのRGのRG番号を表す。RG残容量13303は、RG毎の残容量を表す。Pool残容量13304は、Poolの残容量を表し、Poolを構成するRGのRG残容量13303の合計値に等しい。RG残容量13303及びPool残容量13304は、仮想ボリュームのエクステント未割当領域にデータの書き込みが発生した際に、プロセッサ104(Write I/O プログラム12100)によりデータの書き込みにより減少した値に更新される。
 
 図12は、エントリ管理テーブル13800の構成例を示す図である。
 エントリ管理TBL13800は、Disk毎に、Disk#13801、エントリ#13802、サイズ13803、Start-LBA13804、Last-LBA13805、及び割当先エクステント#13806を有する。
 Disk#13801は、Diskの識別子(Disk#)であり、ユニークな番号である。エントリ#13802はDisk内に作成されたエントリの識別子(エントリ#)であり、Disk毎にユニークな識別子である。サイズ13803は、エントリの容量(例えばByte単位)を示す。
 Start-LBA13804及びLast-LBA13805は、エントリが、何番のLBAから何番のLBAまでのアドレス空間を使用して作成されているかを示す。具体的には、Start-LBA13804は、エントリのアドレス空間の先頭のLBAの番号であり、Last-LBA13805は、エントリのアドレス空間の最後尾のLBAの番号である。
 割当先エクステント#13807は、このエントリがエクステントに割当済みであるか否かを示す。具体的には、割当先エクステント#13807は、エクステントに割当済みのエントリである場合に、その割当先のエクステント#であり、エクステントに未割当てのエントリである場合には、未割当てであることを示す「N/A」となる。
 図13は、エクステント管理テーブル13400の構成例を示す図である。
 エクステント管理TBL13400は、エクステント毎に、エクステント#13401、サイズ13402、Disk#13403、及び割当てエントリ#13404を有する。
 エクステント#13401は、エクステントの識別子であり、ユニークな番号である。サイズ13402は、エクステントの容量(例えばByte単位)を表す。Disk#13403、及び割当てエントリ#13404は、エクステントを構築するDiskのDisk#と、エントリのエントリ#とを表す。
 図14は、仮想ボリューム管理テーブル13500の構成例を示す図である。
 仮想ボリューム管理TBL13500は、仮想ボリューム毎に、LU#13501、仮想容量13502、実使用容量13503、仮想エクステント#13504、及び割当てエクステント#13505を有する。
 LU#13501は、仮想ボリュームの識別子(LU#)であり、ユニークな番号である。仮想容量13502は、仮想ボリュームの仮想的な容量である。仮想容量13502に対応する仮想的な容量がホスト計算機30に提供される。実使用容量13503は、仮想ボリュームに実際に割当てられているエクステントの容量の合計値である。
 仮想エクステント#13504は、仮想ボリュームに含まれる仮想エクステントの識別子である。この図の例では、LU#0の仮想ボリュームには、仮想エクステント#0~nが含まれることを示している。仮想エクステント#13504は昇順に並んでおり、ホスト計算機30から発行されるR/Wコマンドで指定されるLBA(Logical Block Address)がどの仮想エクステント#に対応するかを計算によって求めることができる。割当てエクステント#13505は、仮想ボリュームに割り当てられているエクステントの識別子(番号)である。ストレージコントローラ100は、仮想エクステント毎に、エクステントの割当て状態を管理する。この図の例では、仮想エクステント#0には、エクステント#0が割当てられ、仮想エクステント#1には、エクステント#100が割当てられて管理されている。なお、物理的な記憶領域であるエクステントが未割当ての仮想エクステントの仮想エクステント#13504に対応するエクステント#13505は、エクステントが割当てられていないことを示す「-」となる。この図の例では、仮想エクステント#nの仮想エクステントには、エクステントが割当てられていないことを示している。
 図15は、統計情報管理テーブル13600の構成例を示す図である。
 統計情報管理TBL13600は、各エントリ及び/又はエクステントへのR/W等のアクセス状況に関する情報(入出力量情報)である。ストレージコントローラ100は、エントリ単位でR/W状況を監視しており、統計情報管理TBL13600を構成する。なお、エクステントへのR/Wのアクセス状況は、統計情報管理TBL13600の内容を基に、ストレージコントローラ100が各エクステントに属するエントリの各情報の値を加算することにより、取得することができる。
 統計情報管理TBL13600は、Disk毎に、Disk#13601、エントリ#13602、平均WR I/O Size13603、平均RD I/O Size13604、WR比率13605、WR量13606、及びRD量13607を有する。なお、情報項目13601~13607の少なくとも1つを統計情報と呼ぶ場合がある。
 Disk#13601は、Diskの識別子であり、ユニークな番号である。エクステント#13602は、Diskに基づくエクステントの識別子であり、ユニークな番号である。
 平均WR I/O Size13603及び平均RD I/O Size13604は、このエントリに発生したWR I/O、及びRD I/OのI/Oサイズの平均値である。WR比率13605は、このエントリに発生したI/O要求のうち、その要求がWRコマンドであった比率である。WR量13606及びRD量13607は、このエントリに発生したWRデータの総量及びRDデータの総量を示す。なお、WR量13606及びRD量13607は、ストレージコントローラ100がSSDに対して依頼したI/O内容を記録した数値であるため、これら数値は圧縮前の値である。本実施例では、統計情報の監視を、エントリ及び/又はエクステント単位とすることで、フラッシュメモリのブロックやページ単位で監視するよりも、監視負荷を低減することができる。
 ストレージコントローラ100は、仮想ボリューム管理TBL13500に基づいて、割当て中のエクステントについて、アクセス状況を監視する。統計情報は、仮想ボリュームにエクステントが割当てられた後からの累積値、及びR/Wの傾向である。なお、統計情報は、単位時間当たりの累積値としてもよい。
 また、枯渇回避処理、寿命平準化処理、又はI/O性能リバランス処理の実行後、各処理の対象のエクステントの統計情報を、リセットするようにしてもよい。例えば、ストレージコントローラ100は、寿命平準化処理において、移動されたエクステントに関する統計情報のみをリセットしてもよい。
 図16は、実施例1におけるFM WR量予想テーブル13700の構成例を示す図である。
 FM WR量予想TBL13700は、Disk管理TBL13100及び統計情報管理TBL13600を基に構成される。FM WR量予想TBL13700は、Disk毎に、Disk#13701、エントリ#13702、WR量13703、圧縮率13704、及びFM WR予想量13705を有している。
 Disk#13701は、Diskの識別子であり、ユニークな番号である。エントリ#13702は、エントリの識別子であり、ユニークな番号である。
 WR量13703は、エントリを書込み先としたWRデータの総量を示す。WR量13703は、FM WR量の予想の際に、統計情報管理TBL13600のWR量13606の値を基に更新される。圧縮率13704は、このDiskにおける圧縮率の平均値であり、SSDから取得した内部情報を基に設定される。圧縮率13704は、FM WR量の予想の際に、Disk管理TBL13100の平均圧縮率13109の値がコピーされて設定される。なお、本実施例では、Disk単位の圧縮率の平均値を使用するため、全エントリの数値はすべて同じ値としている。
 FM WR予想量13705は、フラッシュメモリに実際に書き込まれるデータの予想量(FM WR予想量)を示す。本実施例では、或るエントリのWR量13703と、そのエントリが属するDisk全体の平均圧縮率13704とを乗算した値を、このエントリに発生したFM WR予想量とみなす。また、エクステント単位のFM WR予想量は、そのエクステントを構成する1以上のエントリのFM WR予想量の合計をとることで取得することができる。
 例えば、或るエクステントへのWR予想量が多いと、そのエクステントの基になっているSSDにおいてブロックに対するデータの書き換えが頻繁に発生し、ブロックの消去回数が増加する。ブロックの消去回数が増加すると、そのブロックを有するSSDの寿命が短くなる。寿命平準化を行う際に、エクステントのWR予想量を基に、移動対象のエクステントを決めることで、精度高くSSD寿命を平準化することができる。なお、移動対象のデータはエントリとしてもよい。
 図17は、キャッシュ管理テーブル32200の構成例を示す図である。
 ストレージコントローラ100は、データキャッシュエリア14000を複数のキャッシュ領域に分割して管理する。キャッシュ領域は、予め設定されたサイズを有する。
 キャッシュ管理テーブル32100の一つのレコードは、仮想ボリュームにおける仮想アドレス32101と、当該仮想アドレスに対応するキャッシュ領域を示すキャッシュ領域#32102と、当該キャッシュ領域がダーティであるか否かを示すフラグであるステータス32103と、を含む。
 キャッシュ領域は、スロットであってもよいし、スロットより小さいセグメントであってもよい。また、ストレージコントローラ100は、セグメント単位で領域を確保し、スロット単位でステータス32103を管理してもよい。
 図18は、RG判定管理テーブル32200の構成例を示す図である。
 RG判定管理テーブル32200の一つのレコードは、RGを示すRG#32201と、当該RGのRG実空き容量#32202と、当該RGのマージン32203と、当該RGのダーティデータ量32204と、当該RGが属するプールを示すプール#32205と、を含む。
 図19は、判定結果管理テーブル32300の構成例を示す図である。
 判定結果管理テーブル32300は、後述のストレージ状態更新処理によるストレージ装置10全体の判定結果を示すシステムフラグ32301と、各プールを示すプール#32302と、ストレージ状態更新処理による各プールの判定結果を示すプールフラグ32303と、プールに属する各RGを示すRG#32304と、ストレージ状態更新処理による各RGの判定結果を示すRGフラグ32305と、を含む。
 システムフラグ32301は、ストレージ状態更新処理時に、ストレージ装置10内で少なくとも一つのRGフラグ32305がONであればONに設定され、そうでなければOFFに設定される。一つのプールのプールフラグ32303は、ストレージ状態更新処理時に、当該プール内の少なくとも一つのRGフラグ32305がONであればONに設定され、そうでなければOFFに設定される。一つのRGのRGフラグ32305は、ストレージ状態更新処理時に、当該RGが空き条件を満たせばONに設定され、そうでなければOFFに設定される。
 図20は、SSD700におけるキャッシュメモリ716の構成例を示す図である。
 キャッシュメモリ716は、プログラムエリア22000、テーブルエリア23000、及びデータキャッシュエリア24000を有する。
 プログラムエリア22000及びテーブルエリア23000は、SSD700を制御するためのプログラムや各種テーブルが格納される領域である。データキャッシュエリア24000は、ユーザデータを一時的に格納するための領域である。
 プログラムエリア22000は、Write I/O プログラム22100、Read I/O プログラム22200、SSD内WL プログラム22300、空き容量生成プログラム22400、SSD内部情報通信プログラム22500、及び、圧縮・伸長プログラム22600を有する。
 Write I/O プログラム22100は、ストレージコントローラ100からのWR要求を処理するプログラムである。Read I/O プログラム22200は、ストレージコントローラ100からのRD要求を処理するプログラムである。SSD内WL プログラム22300は、SSD内部でのWLを実行するためのプログラムである。空き容量生成プログラム22400は、SSD700の空き容量の枯渇を回避するために行われるリクラメーション処理を実行するプログラムである。
 SSD内部情報通信プログラム22500は、ストレージコントローラ100の要求に従ってSSDの内部情報を作成し、そのSSD内部情報をストレージコントローラ100に通知するためのプログラムである。圧縮・伸長プログラム22600は、SSDコントローラ710が、プロセッサ713を用いてデータの圧縮・伸長を実行するためのプログラムである。なお、圧縮・伸長プログラム22600を、圧縮・伸長回路718を制御することによってデータの圧縮・伸長を実行するようにしてもよい。
 テーブルエリア23000は、論物変換テーブル23100、統計情報管理テーブル23200、及び圧縮設定フラグ23300を有する。
 論物変換TBL23100は、SSD700の論理アドレス空間と物理アドレス空間との対応を管理するためのテーブルである。統計情報管理TBL23200は、SSDの統計情報を管理するためのテーブルである。圧縮設定フラグ23300は、SSD700の圧縮設定がONであるか、OFFであるかを示すフラグである。
 データキャッシュエリア24000は、ユーザデータ24100を格納する領域である。ここで、ユーザデータ24100は、ブロックに書き込まれるデータ及びブロックから読み出されたデータである。
 図21は、論物変換テーブル23100の構成例を示す図である。
 論物変換テーブル23100は、Start-LBA23101、Block#23102、Page#23103、及びCord Word(CW)#23104を有する。
 Start-LBA23101は、ストレージコントローラ100に提供するLBAの開始位置を示す。なお、フラッシュメモリのI/O単位はページであるため、Start-LBA23101の数値は、ページサイズの倍数で管理されている。Block#23102、Page#23103、及びCW#23104は、Start-LBA23101に対応する物理アドレス空間の情報(ブロック#、ページ#、CW#)を示している。なお、本実施例では、SSDがデータ圧縮機能を有するため、2ページ以上にわたる論理アドレス空間が、1ページの物理ページにマッピングされることがあり得る。この図の例では、LBA0からLBA8191に対応する論理アドレス空間と、LBA8192からLBA16383に対応する論理アドレス空間が同一の物理ページ(Block#0のPage#0)に格納されていることを示している。また、Start-LBA23101は、論理アドレス空間900に対応しているため、ストレージコントローラ100からのWRが無く実際に物理ページが割り当てられていないものも存在する。この場合には、Start-LBAに対応する物理空間アドレス空間を示すBlock#23102、Page#23103、及びCW#23104は無効な情報である。
 図22は、SSD内の統計情報管理テーブル23200の構成例を示す図である。
 統計情報管理TBL23200には、ストレージコントローラ100からの要求に応じてプロセッサ713が通知した情報が格納される。統計情報管理TBL23200は、ライト要求合計量23211、リード要求合計量23212、FMライト合計量23213、平均圧縮率23214、FMリード合計量23215、及び残消去回数23216を有する。
 ライト要求合計量23211とリード要求合計量23212とは、ストレージコントローラ100がSSD700に対してWR要求したデータと、リード要求したデータとのそれぞれの総量であり、それぞれが、統計情報管理TBL13600内のWR量13606の合計と、RD量13607の合計と同じ値となる。FMライト合計量23213及びFMリード合計量23215は、FM780に実際にWRされたデータの総量及びFM780から実際にRDされたデータの総量である。なお、これらの値には、リクラメーション等、ストレージコントローラ100からのR/W要求以外の処理においてSSD内部で発生するR/W量を含んでいる。FMライト合計量23213は、Disk管理TBL13100のFM使用量13111と同じ値となる。
 平均圧縮率23213は、SSD内部でのデータ圧縮処理により得られた圧縮データの、圧縮率の平均値である。残消去回数23216は、FMにデータがWRされることにより発生したFMの消去回数の合計値をベンダがサポートする最大消去回数から引いた値である。統計情報管理TBL23200の数値は、データのR/W、又は消去が発生した際に更新される。
 以下、ストレージコントローラ100の動作について説明する。
 図23は、ホスト計算機30からのライト要求に関わるライト処理を示す。
 なお、この図の例における、ストレージコントローラ100の処理は、Write I/O プログラム12100が実行されることにより実現され、SSDコントローラ710の処理は、Write I/O プログラム22100が実行されることにより実現される。
 ホスト計算機30は、WR要求をストレージコントローラ100に送信する(S10)。ストレージコントローラ100は、WR要求を受信すると、後述のWR要求受領処理を実行する(S20)。
 その後、ストレージコントローラ100は、WR要求が表すWR先範囲(仮想ボリュームのアドレス範囲)にエクステントが割当済みか否かを、仮想ボリューム管理テーブル13500を基に判定する(S30)。
 この判断の結果、エクステントが既に割当済みである場合(S30:Yes)は、ストレージコントローラ100は、処理をS50へ移行させる。エクステントが未割当である場合(S30:No)は、ストレージコントローラ100は、未割当てのエクステントを見つけて、そのエクステントをWR先範囲の仮想エクステントに割り当てる(S40)。なお、ストレージコントローラ100は、キャッシュメモリ103からSSD700にデータを転送する際に、エクステントを割当ててもよい。
 その後、ストレージコントローラ100は、WR先範囲にキャッシュ領域が割当済み(キャッシュ領域確保要求がある)か否かを判定する(S50)。
 この判断の結果、キャッシュ領域が既に割当済みである場合(S50:Yes)は、ストレージコントローラ100は、処理をS70へ移行させる。キャッシュ領域が未割当である場合(S50:No)は、ストレージコントローラ100は、未割当てのキャッシュ領域を見つけて、そのキャッシュ領域をWR先範囲に割り当てる(S60)。
 その後、ストレージコントローラ100は、ホスト計算機30へWRデータ転送許可通知を送信することで、WRデータ送付を促す(S70)。
 次に、ホスト計算機30はWRデータ転送許可通知に応じてWRデータを送付し(S80)、ストレージコントローラ100は、WRデータを受信し、受信されたWRデータをキャッシュメモリ103に格納する(S85)。その後、ストレージコントローラ100は、WRデータ転送許可通知をホスト計算機30へ送信する(S90)。
 ホスト計算機30は、ストレージコントローラ100から転送完了応答を受信すると、ライト処理を終了する(S95)。
 図24は、デステージ処理を示す。
 割当済みのキャッシュ領域数が予め設定されたキャッシュ領域数閾値を超える等の条件が成立した場合、ストレージコントローラ100は、デステージ処理を実行する。
 ストレージコントローラ100は、データの格納先となるSSD700のSSDコントローラ710に、キャッシュメモリ103に記憶されたデータと、そのデータについてのWR要求とを送信する(S105)。
 SSDコントローラ710は、ストレージコントローラ100からデータ及びWR要求を受信し、自身の圧縮設定フラグ23100を参照して、データ圧縮が有効になっているか否かを判断する(S106)。この結果、データ圧縮が有効となっている場合(S106:Yes)は、SSDコントローラ710は、データを圧縮し(S107)、論物変換TBL23100を参照し、データの格納先のFM位置(Block#、Page#、及びCW#)を決定し、決定したFM位置にそのデータを格納する(S108)。
 一方、データ圧縮設定が無効である場合(S106:No)は、SSDコントローラ710は、データ圧縮は行わず、論物変換TBL23100を基に、データの格納先のFM位置を決定し、決定したFM位置にそのデータを格納する(S108)。
 S108を実行した後、SSDコントローラ710は、受信したデータに関する統計情報管理TBL23200のライト要求合計量23211、FMライト合計量23213、平均圧縮率23214、及び残消去回数23216を更新する(S109)。次に、SSDコントローラ710は、ストレージコントローラ100に対して、S106で受信したWR要求の応答として、転送完了応答を送信する(S110)。
 ストレージコントローラ100は、SSDコントローラ710から転送完了応答を受信すると、統計情報管理TBL13600の平均WR I/O Size13603、WR比率13605、及びWR量13606を更新し(S111)、このシーケンスを終了する。
 図25は、ホスト計算機30からのリード要求に関わるリード処理を示す。
 なお、この図の例における、ストレージコントローラ100の処理は、Read I/O プログラム12200が実行されることにより実現され、SSDコントローラ710の処理は、Read I/O プログラム22200が実行されることにより実現される。
 ホスト計算機30は、ストレージコントローラ100に対して、データのRD要求を送信する(S180)。
 ストレージコントローラ100は、データのRD要求を受信し、そのRD要求に示されたRD範囲(仮想ボリュームのアドレス範囲)に割り当てられているキャッシュ領域がある(要求されたデータがキャッシュ領域にある)か否かを判定する(S190)。
 当該キャッシュ領域が割り当てられていない場合(S190:Y)、ストレージコントローラ100は、処理をS208へ移行させる。当該キャッシュ領域が割り当てられていない場合(S190:N)、ストレージコントローラ100は、当該キャッシュ領域を割り当て、エクステントの基となるSSD710を特定し、特定したSSD710のSSDコントローラ710に対して、データのRD要求(ステージング要求)を送信する(S201)。
 SSDコントローラ710は、データのRD要求を受信し、論物変換TBL23100を基に、RD要求に従う論理アドレス範囲に対応する物理アドレス範囲を特定し、この物理アドレス範囲(1以上のページ)からデータを読み出す処理を行う。この処理では、SSDコントローラ710は、データ圧縮が有効となっているか否かを確認し(S202)、データ圧縮が有効である場合(S202:Yes)は、読み出したデータに対して伸長を行い(S203)、伸長したデータをストレージコントローラ100に送信する(S204)。一方、データ圧縮が有効でない場合(S202:No)は、SSDコントローラ710は、読み出したデータを伸張することなくストレージコントローラ100に送信する(S204)。
 S204の次に、SSDコントローラ710は、統計情報管理TBL23200のリード要求合計量23212、及びFMリード合計量23215を更新する(S205)。
 ストレージコントローラ100は、S201で送信したRD要求の応答として、SSDコントローラ710からデータを受信すると、受信したデータをキャッシュメモリ103に格納し(S206)、統計情報管理TBL13600の平均RD I/O Size13604、WR比率13605、及びRD量13607を更新する(S207)。その後、ストレージコントローラ100は、S206でキャッシュメモリ103に格納したデータをホスト計算機30に送信する(S208)。
 ホスト計算機30は、S200で送信したRD要求の応答として、ストレージコントローラ100からデータを受信すると、リード処理を終了する(S209)。
 なお、ストレージコントローラ100は、ライト処理のS85において、データをキャッシュメモリ103に格納した後、デステージ処理を行い、デステージ処理後に転送完了応答をホスト計算機30へ送信してもよい。この場合、ストレージコントローラ100は、マージンを用いなくてもよいし、予め設定された値をマージンとして用いてもよい。
 図26は、SSD向け非同期処理を示す。
 ストレージコントローラ100は、I/O要求とは非同期で、予め設定されたSSD内部情報取得周期毎に、各SSDコントローラ710に対して、SSD内部情報取得処理(後述)を実行する(S300)。ここでストレージコントローラ100は、SSD内部情報取得コマンドをSSDコントローラ710へ送信し、その応答である実行結果通知コマンドをSSDコントローラ710から受信する。S300の処理で取得する情報は例えば、統計情報管理TBL23200に保存されているデータ(FMライト合計量23213、平均圧縮率23214、FMリード合計量23215、及び残消去回数23216)である。
 ストレージコントローラ100は、取得した内部情報を基に、Disk管理TBL13100を更新する(S301)。具体的には、ストレージコントローラ100は、FMライト合計量23213に基づいて、FMライト合計量13108及びFM使用量13111を更新し、FMリード合計量23215に基づいて、FMリード合計量13107を更新し、平均圧縮率23214に基づいて、平均圧縮率13109を更新し、残消去回数23216に基づいて、残消去回数13110を更新する。
 次に、ストレージコントローラ100はDisk管理TBL13100の情報を基に、このDiskの枯渇リスクを計算する(S302)。ここで、枯渇リスクとは、Diskの枯渇しやすさを判断するための指標であり、本実施例では、数値が高いほうが枯渇し易いことを示す。枯渇リスクは、例えば、DiskへのWR量×平均圧縮率÷空き容量、で算出される。つまり、WR頻度が高く、圧縮率が悪く、空き容量が少ないほど枯渇リスクが高くなる。DiskへのWR量は、統計情報管理TBL13600のWR量13606のDisk単位の合計であり、平均圧縮率は、Disk管理TBL13100の平均圧縮率13109であり、空き容量は、Disk管理TBL13100の物理容量13112からFM使用量13111を引くことにより算出できる。
 次に、ストレージコントローラ100は、枯渇リスクが閾値以上か否かを判断し、枯渇回避処理を実行するか否かを判断する(S303)。なお、閾値は、ストレージ装置10の管理者により、ホスト計算機30にインストールされた制御ソフトウェア等を介して設定されるようにしてもよい。枯渇リスクが閾値以上であって、枯渇回避処理が必要であると判断された場合(S303:Yes)は、ストレージコントローラ100は、枯渇回避処理(後述)を実行し(S304)、枯渇回避処理の終了後に、処理をS305に進める。一方、枯渇リスクが閾値以上でなくて、枯渇回避処理が不要であると判断された場合(S303:No)は、ストレージコントローラ100は、処理をS305に進める。
 S305では、ストレージコントローラ100は、寿命平準化処理の要否判断を行うため、RG単位の残寿命を計算する(S305)。ここで、RG単位の残寿命は、RGを構成する各SSDの残寿命のうち最悪値としてもよいし、各SSDの残寿命の平均値としてもよい。各SSDの残寿命を計算する方法については、後述する。ストレージコントローラ100は、計算された各SSDの残寿命を、Disk管理TBLの予想残寿命13105に格納する。
 次に、ストレージコントローラ100は、RG間での残寿命の差分を求め、差分が閾値以上か否かを判断し、寿命平準化処理を実行するか否かを判断する(S306)。なお、閾値は、ストレージ装置10の管理者により、ホスト計算機30にインストールされた制御ソフトウェア等を介して設定されるようにしてもよい。なお、寿命平準化処理を実行するか否かについては、例えば、保証期間よりも先に寿命に到達するSSDがあるか否か(残保証期間13104よりも予想残寿命13105の方が少ないSSDがあるか否か)により判断するようにしてもよい。
 この結果、差分が閾値以上であり、寿命平準化処理が必要であると判断された場合(S306:Yes)は、ストレージコントローラ100は、寿命平準化処理(後述)を実行する(S307)。この寿命平準化処理が終了すると、再度S305に進む。これにより、寿命平準化処理後の状態についての再びSSD RGの残寿命が算出され、S306で残寿命の差分が閾値以上であるか否かの判断が行われることとなる。
 一方、差分が閾値以上でなく、寿命平準化処理が不要であると判断された場合(S306:No)は、ストレージコントローラ100は、I/O性能リバランス処理の要否判断を行うため、RG物理容量当たりのI/O量を算出する(S308)。ここで、RG物理容量当たりのI/O量は、例えば、RGのI/O量×平均圧縮率÷RG物理容量で計算される。RGのI/O量は、統計情報管理TBL13600のWR量13600及びRD量13607から各SSDのI/O量を算出し、RGを構成しているSSD分のI/O量を加算することにより算出することができる。平均圧縮率は、例えば、Disk管理TBL13100の平均圧縮率13109からRGの中で最も圧縮率の悪い数値とする。RG物理容量は、Disk管理TBL13100の物理容量13112からRGを構成しているSSD分の物理容量を加算することにより算出することができる。
 次に、ストレージコントローラ100は、RG間で物理容量当たりのI/O量の差分を求め、この差分が閾値以上であるか否かを判断して、I/O性能リバランス処理を実行するか否かを判断する(S309)。この結果、差分が閾値以上の場合(S309:Yes)は、ストレージコントローラ100は、I/O性能リバランス処理(後述)を実行し(S310)、I/O性能リバランス処理終了後に、SSD向け非同期処理を終了する。一方、差分が閾値未満の場合(S309:No)は、ストレージコントローラ100は、SSD向け非同期処理を終了する。
 なお、SSD向け非同期処理は、任意のタイミングで実行されても良く、一定の間隔(例えば一日おき)で実行されても良く、また、特定のコマンドを受け取ったタイミングで実行されてもよい。更に、SSD向け非同期処理は、ホスト計算機30の制御ソフトウェアからユーザが本処理の実行契機を指示することで実行されてもよい。
 また、この図の例によれば、枯渇回避処理の優先度が最も高く、寿命平準化処理の優先度が2番目に高く、IO性能理バランス処理の優先度が最も低く、このような優先度が高い順に処理が行われるが、これらの処理のそれぞれの優先度は、この図の優先度と違っていてもよい。例えば、IO性能理バランス処理の優先度が寿命平準化処理の優先度より高くてもよい。
 また、枯渇回避処理、寿命平準化処理及びIO性能理バランス処理のような複数のデータ配置制御処理(記憶デバイス間でのデータ移動が生じる処理)がある。ストレージコントローラ100は、いずれかのデータ配置制御処理(対象のデータ配置制御処理)を行う前に、対象のデータ配置制御処理を行っても対象のデータ配置制御処理より優先度が高いデータ配置制御処理(先に行われたデータ配置制御処理)がスキップされるための条件が満たされたままとなるか否かを判断してもよい。「より優先度が高いデータ配置制御処理がスキップされるための条件が満たされたまま」とは、より優先度が高いデータ配置制御処理によって満たされるべき条件が満たされたままとなることであり、例えば、枯渇リスクがそれの閾値未満のままである、RG間残寿命差がそれの閾値未満のままである、又は、RG間IO量差がそれの閾値未満のままである、ということである。この判断の結果が肯定的の場合に、ストレージコントローラ100は、対象のデータ配置制御処理を行ってよい。また、この判断の結果が否定的の場合には、ストレージコントローラ100は、対象のデータ配置制御処理をスキップしてよい(行わないでよい)。
 図27は、SSD内部情報取得処理を示す。
 前述のS300においてストレージコントローラ100は、SSD内部情報取得処理を実行する。この図は、SSD内部情報取得コマンド25000と、その応答である実行結果通知コマンド25100の構成例を示す。
 SSD内部情報取得コマンド25000は、ストレージコントローラ100がSSD700に対して送信するコマンドである。
 SSD内部情報取得コマンド25000は、例えば、コマンド#25001及び取得対象25002を有している。コマンド#25001はコマンドの識別子(コマンド#)である。取得対象25002は、ストレージコントローラ100がSSDからの取得を希望する対象である項目である。具体的には、取得対象25002は、SSD780の統計情報管理TBL23200に含まれる項目のうち、どの項目の値を必要としているのかを示す。
 実行結果通知コマンド25100は、SSD700がストレージコントローラ100に対して送付するコマンドであり、SSD内部情報取得コマンド25000に対する応答内容を含んでいる。実行結果通知コマンド25100は、例えば、コマンド#25101及びDisk内部情報25102を含む。コマンド#25101は、どの要求コマンドに対する応答なのかを示し、要求コマンドに対応するコマンド#25001となっている。Disk内部情報25102は、取得対象25002で指定された内容に対する回答値であり、この値は、SSDの統計情報管理TBL23200から計算、もしくはコピーされた値となっている。
 SSD内部情報取得処理において、ストレージコントローラ100は、各SSD700にSSD内部情報取得コマンド25000を送信することで、FM使用量13111、物理容量13112等を取得し、物理容量13112からFM使用量13111を減ずることにより、SSD700毎の物理的な空き容量サイズであるSSD実空き容量を算出し、RG管理テーブル13200に基づいて、RG毎のSSD実空き容量の合計であるRG実空き容量を算出し、RG判定管理テーブル32200へ格納する。なお、SSD700がSSD実空き容量を管理し、ストレージコントローラ100がSSD700からSSD実空き容量を取得してもよい。
 SSD内部情報取得処理によれば、ストレージコントローラ100は、定期的に、各SSD700の状態を取得することができる。これにより、SSD700により圧縮されてSSD700に格納されているデータ量や、SSD700を空き物理容量(実空き容量)を取得することができる。
 図28は、ストレージ状態更新処理を示す。
 ストレージコントローラ100は、流入制御プログラム31100に従って、I/O要求とは非同期で、予め設定されたストレージ状態更新周期が経過する度に、ストレージ状態更新処理を実行する。ストレージ状態更新周期は、前述のSSD内部情報取得周期より短くてもよい。
 まず、ストレージコントローラ100は、キャッシュ管理テーブル32100から、各RGに対し、当該RGに対応するキャッシュ領域のうちステータスがダーティであるキャッシュ領域数を取得し、そのキャッシュ領域数に基づいて、当該RGに対応するキャッシュ領域のダーティデータ量であるRGダーティデータ量Aを算出し、RG判定管理テーブル32200へ格納する(S4110)。
 その後、ストレージコントローラ100は、各RGに対し、RGダーティデータ量A以外で当該RGにデステージされる可能性のあるデータ量を示すマージンBを計算し、RG判定管理テーブル32200へ格納する(S4120)。キャッシュメモリへのデータの書き込みと、デステージとが、非同期で行われる場合、当該RGに対するデステージが追加で発生する可能性がある。マージンBは、このように追加で発生する最大のデステージ量の予測値である。例えば、マージンBは、基準マージン×経過時間、で表される。基準マージン[GB/s]は、流入制限を行っていないときの最大WR量に基づいて予め決定される。なお、基準マージンは、ストレージ装置10の機種毎に決定されてもよいし、Write Pend率(以下、WP率)に応じて決定されてもよい。WP率は、データキャッシュエリア14000における、ダーティデータ量/全容量(ダーティであるキャッシュ領域数/全キャッシュ領域数)、で表される。経過時間[s]は、現在時刻から最新のRG実空き容量の更新時刻を減じた時間であり、RG実空き容量の更新時間間隔を示す。RG実空き容量の更新は、前述のSSD内部情報取得処理により行われる。ストレージコントローラ100の負荷が比較的低い場合、経過時間は、SSD内部情報取得周期に等しくなる。ストレージコントローラ100の負荷が比較的高い場合、経過時間は、SSD内部情報取得周期より長くなる。
 その後、ストレージコントローラ100は、RG判定管理テーブル32200に基づいて、各RGに対し、流入制限条件が成立するか否かを判定する(S4130)。流入制限条件は例えば、当該RGに関する、RGダーティデータ量Aと、マージンBと、RG実空き容量Cとを用いて、A+B≧C、で表される。この流入制限条件は、RGダーティデータ量AとマージンBの和のサイズの全てのデータを、非圧縮で当該RGに書き込むことができないことを示す。なお、ストレージコントローラ100は、RG管理テーブル13200の圧縮設定13205の有無によってRGの流入制限条件を切り替えてもよい。
 その後、ストレージコントローラ100は、S4130の結果において、少なくとも一つのRGにおいて流入制限条件が成立したか否かを判定する(S4140)。
 少なくとも一つのRGにおいて流入制限条件が成立したと判定された場合(S4140:Y)、ストレージコントローラ100は、判定結果管理テーブル32300において、システムフラグをONに設定する(S4210)。
 その後、ストレージコントローラ100は、判定結果管理テーブル32300において、各プールのプールフラグを更新する(S4220)。ここでストレージコントローラ100は、各プールに対し、プールフラグ条件が成立すれば、当該プールのプールフラグをONに設定し、そうでなければ、当該プールのプールフラグをOFFに設定する。プールフラグ条件は例えば、S4130の結果、対象RGが属するプール内の少なくとも一つのRGの流入制限条件が成立することである。
 その後、ストレージコントローラ100は、判定結果管理テーブル32300において、RGフラグを更新し(S4230)、このフローを終了する。ここでストレージコントローラ100は、各RGに対し、RGフラグ条件が成立すれば、当該RGのRGフラグをONに設定し、そうでなければ当該RGのRGフラグをOFFに設定する。RGフラグ条件は例えば、S4130の結果、当該RGのRG流入制限条件が成立すること、又は当該RGのRG流入制限条件が成立せず且つ当該RGに対する空き待ちジョブがあることである。
 S4140において全てのRGにおいて流入制限条件が成立しないと判定された場合(S4140:N)、ストレージコントローラ100は、判定結果管理テーブル32300において、全てのRGのRGフラグをOFFに設定する(S4240)。その後、ストレージコントローラ100は、全てのプールのプールフラグをOFFに設定する(S4250)。その後、ストレージコントローラ100は、システムフラグをOFFに設定し(S4260)、このフローを終了する。
 このストレージ状態更新処理によれば、ストレージコントローラ100が、RG実空き容量と、RG予定デステージ量を算出することにより、各RGへのデステージが可能か否かを判定することができる。ストレージコントローラ100は、定期的に各RGへのデステージが可能か否かを判定し、判定結果管理テーブル32300を更新することにより、WR要求の受信時にその判定結果を用いることができる。ストレージコントローラ100が対象RGのRGダーティデータ量とマージンを算出することで、対象RGへデステージされる可能性のあるデータ量を算出することができる。
 図29は、WR要求受領処理を示す。
 ストレージコントローラ100は、流入制御プログラム31100に従って、WR要求受領処理を実行する。
 ストレージコントローラ100は、ホスト計算機30からWR要求を受信すると(S5110)、キャッシュ管理テーブル32100に基づいて、WR要求に示されたWR先範囲に対応するキャッシュ領域の確保が必要であるか否かを判定する(S5120)。ここでストレージコントローラ100は、データキャッシュエリア14000内に当該キャッシュ領域が存在しない(キャッシュミス)場合、当該キャッシュ領域の確保が必要であると判定する。
 当該キャッシュ領域の確保が必要でないと判定された場合(S5120:N)、ストレージコントローラ100は、処理をS5140へ移行させる。
 当該キャッシュ領域の確保が必要であると判定された場合(S5120:Y)、ストレージコントローラ100は、当該キャッシュ領域を確保するためのキャッシュ領域確保要求を設定する(S5130)。
 その後、ストレージコントローラ100は、後述する流入制限判定処理を実行し(S5140)、流入制限すると判定されたか否かを判定する(S5150)。流入制限しないと判定された場合(S5150:N)、ストレージコントローラ100は、このフローを終了する。
 流入制限すると判定された場合(S5150:Y)、ストレージコントローラ100は、空き待ち処理を行う(S5160)。この空き待ち処理においてストレージコントローラ100は、対象RGの空き待ちジョブを開始し、その後、後述する空き待ちジョブ解放処理により空き待ちジョブが解放されるまで、空き待ちジョブが解放されたか否かを繰り返し判定する。空き待ちジョブが解放されたと判定された場合、ストレージコントローラ100は、空き待ち処理を終了し、処理をS5110へ移行させる。空き待ち処理中、ストレージコントローラ100は、キャッシュ領域を確保せず、WRデータ転送許可通知をホスト計算機30へ送信しない。
 このWR要求受領処理によれば、ストレージコントローラ100は、WR要求受領時、対象RGの流入制限を行うと判定した場合、ライトデータのためのキャッシュ領域を確保せずに待機し、RGダーティデータ量及びWP率の増加を防ぐことができる。また、対象RGの流入制限を行わないと判定した場合、ホスト計算機30からライトデータを受信することができる。
 図30は、流入制限判定処理を示す。
 前述のS5140においてストレージコントローラ100は、流入制御プログラム31100に従って、流入制限判定処理を実行する。ストレージコントローラ100は、キャッシュ領域の確保が必要である(キャッシュ領域確保要求が設定されている)か否かを判定する(S5210)。キャッシュ領域の確保が必要でないと判定された場合(S5210:N)、ストレージコントローラ100は、対象RGの流入制限を行わないと判定し(S5320)、このフローを終了する。
 キャッシュ領域の確保が必要であると判定された場合(S5210:Y)、ストレージコントローラ100は、判定結果管理テーブル32300に基づいて、システムフラグがONであるか否かを判定する(S5220)。システムフラグがOFFであると判定された場合(S5210:N)、ストレージコントローラ100は、処理を前述のS5320へ移行させる。
 システムフラグがONであると判定された場合(S5220:Y)、ストレージコントローラ100は、判定結果管理テーブル32300に基づいて、WR先範囲に対応する対象RGが属するプールのプールフラグがONであるか否かを判定する(S5230)。プールフラグがOFFであると判定された場合(S5220:N)、ストレージコントローラ100は、処理を前述のS5320へ移行させる。
 プールフラグがONであると判定された場合(S5230:Y)、ストレージコントローラ100は、判定結果管理テーブル32300に基づいて、対象RGのRGフラグがONであるか否かを判定する(S5240)。RGフラグがOFFであると判定された場合(S5230:N)、ストレージコントローラ100は、処理を前述のS5320へ移行させる。
 RGフラグがONであると判定された場合(S5240:Y)、ストレージコントローラ100は、対象RGの流入制限を行うと判定し(S5310)、このフローを終了する。
 なお、RGフラグがONであると判定された場合(S5240:Y)、ストレージコントローラ100は、対象RGが空き容量不足条件を満たすか否かを判定し、対象RGが空き容量不足条件を満たすと判定された場合に処理をS5310へ移行させ、対象RGが空き容量不足条件を満たさないと判定された場合に処理をS5320へ移行させてもよい。空き容量不足条件は例えば、A+B≧C、である。この場合、ストレージコントローラ100は、実行中のI/O処理の種類を判定し、その種類に応じてマージンBを変化させる。例えば、実行中のI/O処理がホスト計算機30からキャッシュへのライトである場合のマージンBaと、実行中のI/O処理がデステージである場合のマージンBbが予め設定される。Baは、Bbより大きい。
 なお、ストレージ状態更新処理によりパラメータエラーが発生した場合、ストレージコントローラ100は、安全のため、対象RGの流入制限を行うと判定する。
 この流入制限判定処理によれば、ストレージコントローラ100は、WR要求時に、判定結果管理テーブル32300を参照することにより、対象RGに対して流入制限を行うか否かを迅速に判定することができる。例えば、ストレージコントローラ100は、対象RGに関する何れかのフラグがOFFであれば、流入制限を行わないと判定する。また、ストレージコントローラ100は、対象RGに関する全てのフラグがONであれば、流入制限を行うと判定する。
 図31は、空き待ちジョブ解放処理を示す。
 ストレージコントローラ100は、I/O要求とは非同期で、予め設定された空き待ちジョブ判定周期が経過する度に、RG毎の空き待ちジョブ解放処理を実行する。空き待ちジョブ判定周期は、ストレージ状態収集周期より短くてもよい。
 ストレージコントローラ100は、対象RGに空き待ちジョブがあるか否かを判定する(S5410)。対象RGに空き待ちジョブがないと判定された場合(S5410:N)、ストレージコントローラ100は、このフローを終了する。
 対象RGに空き待ちジョブがあると判定された場合(S4510:Y)、ストレージコントローラ100は、対象RGが流入許可条件を満たすか否かを判定する(S4520)。流入許可条件は例えば、当該RGに関する、RGダーティデータ量Aと、マージンBと、RG実空き容量Cとを用いて、A+B<C、で表される。この流入許可条件は、RGダーティデータ量AとマージンBの和のサイズの全てのデータを、非圧縮で当該RGに書き込むことができることを示す。対象RGが流入許可条件を満たすと判定された場合(S4520:Y)、ストレージコントローラ100は、当該空き待ちジョブを解放し(S4530)、このフローを終了する。対象RGが流入許可条件を満たさないと判定された場合(S4520:N)、ストレージコントローラ100は、このフローを終了し、当該空き待ちジョブを継続させる。
 この空き待ちジョブ解放処理によれば、対象RGのRG空き容量が増加した場合や、対象RGのダーティデータ量が減少した場合等において、ストレージコントローラ100は、対象RGの空き待ちジョブを解放することができる。例えば、後述の枯渇回避処理により対象RGのRG空き容量が増加し、対象RGが流入許可条件を満たすことにより、空き待ちジョブが解放され、ホスト計算機30は対象RGへのWRデータをストレージ装置10へ送信できるようになる。また、ホスト計算機30は、WR要求から、予め設定されたWR待機時間の経過までに、ストレージ装置10からWRデータ転送許可通知を受信できない場合、タイムアウトと判定し、WR要求に関する処理を中断する。
 図32は、SSDの寿命予想の概要説明図である。SSDの寿命予想は、前述のS305に実行される処理である。この図は、横軸に時間を取り、縦軸にSSDの残消去回数を取っている。
 SSDの寿命予想の方法の一例として、残消去回数の減少速度から、SSDの寿命の終期への到達時刻を予想する方法について説明する。ここで、SSDの寿命とは、SSDを実際に使用可能な期間とする。或るSSDにWRが集中している場合、このSSDの寿命が短くなる。従って、寿命の長い他のSSDが積極的に使用されるように、寿命平準化処理(具体的には、エクステントやエントリに格納されているデータをSSD間で交換する処理)を行う必要がある。なお、寿命平準化処理では、残りの寿命が短い(残寿命が閾値以下の)SSDを検出する。
 この図の例において、t(前回)30000は、前回に寿命予想を行った時点(前回寿命予想時)を示し、Disk管理TBL13100の情報更新日時13103の値に対応する時点である。EZ(前回)30003は、前回寿命予想時における残消去回数であり、残消去回数13106の回数である。また、t(現在)30001は、今回の寿命予想を行う時点であり、EZ(現在)30002は現在の残消去回数であり、今回取得しているSSD内部情報から取得できる値である。
 まず、以下の数式(1)により、傾き(I)を算出する。
 傾き(I)=(EZ(現在)- EZ(前回))÷ (t(現在)- t(前回)) ・・・(1)
 ここで、傾き(I)30004が大きいほど、残消去回数の減少速度が速いことを示す。
 次に、傾き(I)30004と、現時点の残消去回数であるEZ(現在)30001とを用いて、以下の数式(2)により、t(寿命到達)を算出する。
 t(寿命到達)=-(EZ(現在)÷傾き(I)) ・・・(2)
 t(寿命到達)30005は、残消去回数がゼロとなる時間、すなわち、寿命到達時間である。このようにして、残消去回数と、残消去回数の減少速度とから、残寿命期間を算出することができる。残寿命期間は、Disk管理TBL13100の予想残寿命13105に格納される。
 記憶デバイスやストレージ装置は、所定の期間(保証期間、例えば5年)は使用し続けられ、データが保証されることが重要である。よって、保証期間を一つの指標として寿命平準化処理を実行することで、複数の記憶デバイス(例えばSSD)を保証期間以上使用することができるようになる。なお、SSDが寿命に到達するまでに書き込めるデータの全Write総量が分かっている場合は、この図の縦軸を残Write量(全Write総量からFMライト合計量13108を引いた値)として、t(寿命到達)を算出するようにしてもよい。
 図33は、実施例1に係る枯渇回避処理の一例を示すフローチャートである。枯渇回避処理は、前述のS304の処理に対応する。
 ストレージコントローラ100は、プール500内の全RGにおけるRG単位の枯渇リスクを算出する(S500)。RG単位の枯渇リスクは、RGを構成するSSD700の中で、前述のS302で算出したSSD単位の枯渇リスクの最悪値としてもよいし、RGを構成するSSDの枯渇リスクの平均値としてもよい。
 次に、ストレージコントローラ100は、枯渇リスクが最も高いRGと、枯渇リスクが最も低いRGとを特定する(S501)。次に、ストレージコントローラ100は、統計情報管理TBL13600と、SSD700の統計情報管理TBL23200とを基に、エントリやエクステント毎のFM WR量を予想するFM WR量予想処理(後述)を行う(S505)。
 次に、ストレージコントローラ100は、移動するデータ量を算出する(S502)。移動データ量は、閾値を下回る分を移動量としてもよいし、対象RG間(枯渇リスクが最大のRGと最小のRGとの間)で枯渇リスクを平準化する分を移動量としてもよい。閾値はストレージ装置10の管理者により、ホスト計算機30にインストールされた制御ソフトウェア等を介して設定されるようにしてもよい。
 次に、ストレージコントローラ100は、決定した量だけデータを移動するデータ移動処理(後述)を実行する(S503)。最後に、ストレージコントローラ100は、各種TBLの情報を更新して(S504)、枯渇回避処理を終了する。
 この枯渇回避処理によると、枯渇リスクの高いRGから低いRGへFM WR量が大きいデータをエクステント単位で移動させることによって、最小のエクステント移動回数でSSD枯渇の危険性を低減させることができる。
 なお、枯渇回避処理において、ストレージコントローラ100は、各RGのRG実使用率(当該RGの物理容量に対するRG実使用量の割合)が予め設定されたRG実使用率閾値を上回るか否かを判定し、RG実使用率がRG実使用率閾値を上回る場合、当該RGから他のRGへデータ移動処理を行ってもよい。
 また、ストレージコントローラ100は、枯渇回避処理により、空き待ちジョブの対象RGから他のRGへデータを移動することで、対象RGの実空き容量を増加させ、前述の空き待ちジョブ解放処理により空き待ちジョブを解放することができる。
 図34は、実施例1に係るFM WR量予想処理の一例を示すフローチャートである。FM WR量予想処理は、前述のS505の処理に対応する。FM WR量予想処理は、ストレージコントローラ100がFM WR量予想TBL13700のFM WR予想量13705を算出する処理である。
 ストレージコントローラ100は、FMライト量の予想の計算対象となるエントリを選択する(S3031)。次に、ストレージコントローラ100は、選択したエントリの圧縮率13704に、Disk管理TBL13100の平均圧縮率13109から取得した値を格納(コピー)する(S3032)。続いて、ストレージコントローラ100は、このエントリのWR量13703に、統計情報管理TBL13600からこのエントリに対応するWR量13606を取得し、その値を格納(コピー)する(S3033)。
 続いて、ストレージコントローラ100は、WR量13703と圧縮率13704とを乗算することで、このエントリのFM WR予想量13705を算出する(S3034)。次に、ストレージコントローラ100は、計算対象のエントリが残っているか否かを判断し(S3035)、計算対象エントリが残っている場合(S3035:No)は、次のエントリを選択し、S3032からS3035の処理を繰り返す。一方、S3035で、計算対象エントリが残っていないと判断した場合(S3035:Yes)には、ストレージコントローラ100は、エクステント毎のFM WR予想量を算出する(S3036)。具体的には、ストレージコントローラ100は、エクステント管理TBL13400を参照することで、各エクステントに属するエントリを特定し、特定したエントリのFM WR予想量13705の合計値を算出する。この後、ストレージコントローラ100は、FM WR量予想処理を終了する。
 図35は、実施例1に係る枯渇回避処理におけるデータ移動処理の一例を示すフローチャートである。このデータ移動処理は、前述のS503の処理に対応する。
 ストレージコントローラ100は、前述のS501で特定した枯渇リスク最大のRGの中で、S505のFM WR量予想処理で算出したFM WR予想量が大きいエクステントを選択する(S5031)。FM WR予想量が大きいエクステントとは、複数のエクステントの中で最もFM WR予想量が大きいエクステントとする。
 次に、ストレージコントローラ100は、選択したエクステントを、前述のS501で特定した枯渇リスク最小のRGへマイグレーションする(S5032)。次に、ストレージコントローラ100は、枯渇リスク最大のRGから枯渇リスク最小のRGへ移動したデータ量が、前述のS502で算出した移動データ量に達したか否かを判断する(S5033)。
 この結果、否定的(S5033:No)であれば、ストレージコントローラ100は、S5031の処理から繰り返す。一方、結果が肯定的(S5033:Yes)であれば、ストレージコントローラ100は、データ移動処理を終了する。
 この処理によると、枯渇リスクの高いRGのFM WR予想量が多いエクステントを枯渇リスクの低いRGへ移動することにより、最小のエクステント移動回数でSSD枯渇の危険性を低減させることができる。
 図36は、実施例1に係る寿命平準化処理の一例を示すフローチャートである。寿命平準化処理は、前述のS307の処理に対応する。
 ストレージコントローラ100は、残寿命が最大のRGと残寿命が最小のRGとを特定し(S601)、統計情報管理TBL13600と、SSD700の統計情報管理TBL23200とに基づいて、エントリやエクステント毎のFM WR量を予想するFM WR量予想処理(後述)を実行する(S602)。
 その後、ストレージコントローラ100は、データ移動を実行するデータ移動処理(後述)を実行し(S603)、各種テーブルを更新し(S604)、寿命平準化処理を終了する。
 図37は、実施例1に係る寿命平準化処理におけるデータ移動処理の一例を示すフローチャートである。このデータ移動処理は、前述のS603に対応する処理である。
 ストレージコントローラ100は、前述のS601で特定した、寿命平準化処理のデータの移動元となる短寿命のRGの中で、FM WR予想量が大きいエクステント(A1)を選択する(S30410)。ここで、FM WR予想量が大きいエクステントとは、複数のエクステントの中で最もFM WR予想量が大きいエクステントとする。
 次に、ストレージコントローラ100は、前述のS601で特定した、寿命平準化処理の移動先となる長寿命のRGの中で、FM WR予想量が小さいエクステント(B1)を選択する(S30411)。FM WR予想量が小さいエクステントとは、複数のエクステントの中で最もFM WR予想量が小さいエクステントとする。なお、FM WR予想量が閾値以下のエクステントをグループ化し、その中から一つのエクステントを選択するようにしてもよい。
 そして、ストレージコントローラ100は、エクステント(A1)のFM WR予想量がエクステント(B1)のFM WR予想量よりも大きいか否かを判断する(S30412)。エクステント(B1)のFM WR予想量がエクステント(A1)のFM WR予想量より大きい場合、エクステント(B1)のデータを残寿命が短いRGに移動すると、そのRGへのWRデータ量がさらに増加し、デバイス間で消去回数を平準化することにならない。よって、この判断を行って、データ交換を中止することにより、不要なデータ移動をすることなく、適切にデバイス間で消去回数の平準化を行うことができる。
 この判断の結果が肯定的(S30412:Yes)であれば、プロセッサ104は、エクステント(A1)内のデータとエクステント(B1)内のデータとを交換し(S30413)、データ移動処理を終了する。一方、この判断の結果が否定的(S30412:No)であれば、プロセッサ104は、データ交換を中止し(S30414)、本処理を終了する。
 残寿命の短いRGのFM WR予想量が多いエクステントと、残寿命が長いRGのFM WR予想量が少ないエクステントとを交換することにより、残寿命が短いRGを構成するSSDへのWRデータ量が減少する。従って、残寿命の減少を抑えることができる。一方、残寿命の長いRGはWRデータ量が増大する。よって、このデータ交換により、RG間の残寿命の乖離を小さくすることができる。つまり、SSD寿命を平準化することができる。
 図38は、実施例1に係るI/O性能リバランス処理の一例を示すフローチャートである。I/O性能リバランス処理は、前述のS310の処理に対応する。
 ストレージコントローラ100は、RG物理容量あたりのI/O量が最大のRGと、最小のRGとを特定し(S901)、統計情報管理TBL13600と、SSD700の統計情報管理TBL23200とに基づいて、エントリやエクステント毎のFM RD/WR予想量(FM RD予想量及びFM WR予想量)を予想する(S902)。具体的には、前述のFM WR量予想処理と同様な処理により、FM RD予想量に関しても予想する処理である。
 その後、ストレージコントローラ100は、データ移動を実行し(S903)、各種テーブルを更新し(S904)、性能I/Oリバランス処理を終了する。S903では、ストレージコントローラ100は、前述のS603のデータ移動処理と同様な処理により、RG物理容量あたりのI/O量(FM RD/WR予想量)が大きいRGのI/O量が大きいエクステントと、RG物理容量あたりのI/O量が小さいRGのI/O量が小さいエクステントとのデータを交換することによって、I/O量が大きいRGへのI/O量を減少させる一方、I/O量が小さいRGのI/O量を増加させる。このデータ交換により、RG間のI/O量の乖離を小さくすることができる。つまり、I/O性能を平準化することができる。このI/O性能リバランス処理により、I/O量が多いRGからI/O量が少ないRGへ格納データをエクステント単位で移動させることによって、性能ボトルネックを回避することができる。
 ストレージコントローラ100は、ストレージ階層仮想化の機能を有していてもよい。この場合、ストレージコントローラ100は、RGを複数の階層(Tier)の何れかに設定し、仮想エクステント等の仮想記憶領域毎にアクセス頻度を測定し、アクセス頻度に基づいて仮想記憶領域を複数のTierの何れかに配置する。ストレージコントローラ100は、仮想記憶領域の再配置を、定期的に実行してもよいし、I/O要求に応じて実行してもよい。また、ストレージコントローラ100は、Tier間でデータを移動するIO性能リバランス処理を実行してもよい。
 枯渇回避処理時、ストレージコントローラ100は、IO性能リバランス処理、Tier間のIO性能リバランス処理、ストレージ階層仮想化の再配置等を中止する。これにより、ストレージコントローラ100は、対象RGの実空き容量の増加を優先して実行する。RGが枯渇すると、割当済みページへの上書きのWR要求がエラーになり、ホスト計算機30のシステムダウンを誘発する可能性があるため、このように枯渇回避処理が優先される。
 これらのデータ移動制御処理によれば、ストレージコントローラ100は、RG内のエクステントを仮想エクステントに割り当て、エクステント内のデータを別のRG内のエクステントへ移動させ、移動元のエクステントを割り当てられている仮想エクステントに、移動先のエクステントを割り当てることにより、RGの実空き容量を調整することができる。
 本実施例では、複数のストレージコントローラ(クラスタ)を含むストレージ装置について説明する。本実施例では、主に実施例1との相違点を説明する。
 図39は、実施例2に係るストレージ装置10bを含むストレージシステム10000bの構成例を示す図である。
 ストレージ装置10bは、二つのストレージコントローラ100を含む。ストレージコントローラ100内のプロセッサ104は、別のストレージコントローラ100内のプロセッサに接続されている。ホスト計算機30は、SAN20を介して二つのストレージコントローラ100に接続されている。Disk Box110は、二つのストレージコントローラ100に接続されている。ここでは、二つのストレージコントローラ100をそれぞれ、第一ストレージコントローラ及び第二ストレージコントローラと呼び、第一ストレージコントローラ内のキャッシュメモリ130を第一キャッシュメモリと呼び、第二ストレージコントローラ内のキャッシュメモリ130を第二キャッシュメモリと呼ぶ。
 本実施例におけるライト処理について説明する。
 第一ストレージコントローラが、ホスト計算機30からWR要求を受信すると、実施例1と同様、S20~S40の処理を実行する。S50において、第一ストレージコントローラは、WR先範囲に対応するキャッシュ領域が第一キャッシュメモリと第二キャッシュメモリの両方に割当済みか否かを判定する。WR先範囲に対応するキャッシュ領域が第一キャッシュメモリと第二キャッシュメモリの少なくとも一つに割り当てられていないと判定された場合、S60において、第一ストレージコントローラは、割り当てられていないと判定されたキャッシュメモリから、WR先範囲に対応するキャッシュ領域を確保する。
 その後、第一ストレージコントローラは、S70、S80において、ホスト計算機30からWRデータを受信すると、S85において、受信されたWRデータを第一キャッシュメモリと第二キャッシュメモリの両方へ書き込み、S90において、WRデータ転送許可通知をホスト計算機30へ送信する。
 本実施例におけるWR要求受領処理について説明する。
 S5120において、ストレージコントローラ100は、WR先範囲に対応するキャッシュ領域が、第一キャッシュメモリと第二キャッシュメモリの両方に存在する場合、当該キャッシュ領域の確保が必要でないと判定し、当該キャッシュ領域が、第一キャッシュメモリと第二キャッシュメモリの少なくとも一方に存在しない場合に、当該キャッシュ領域の確保が必要であると判定する。当該キャッシュ領域の確保が必要と判定された場合(S5120:Y)、S5130において、ストレージコントローラ100は、当該キャッシュ領域が存在しないキャッシュメモリに対するキャッシュ領域確保要求を設定する。
 本実施例によれば、ストレージコントローラ100が、ホスト計算機30から受信したライトデータを、二つのキャッシュメモリ130へ書き込み、ホスト計算機30へ応答を送信することにより、WR要求の応答時間を短くすると共に、信頼性を高めることができる。
 以上、一実施形態及び幾つかの実施例を説明したが、本発明は、これらの実施形態及び実施例に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
 例えば、ストレージコントローラ100は、エントリ単位で圧縮率を取得してもよい。具体的には、SSDコントローラ710がWR完了時に、ストレージコントローラ100へ送付する応答コマンドに、エントリ単位のデータ圧縮率を付与する。応答コマンドに含まれるデータ圧縮率を参照することで、ストレージコントローラ100は、エントリ毎に圧縮率を管理することが可能となる。
 これにより、エントリ毎のFM WR予想量の予想精度を高めることができ、結果として寿命平準化処理の実行精度を向上させることができる。
 また、FM WR量の予想材料に、圧縮率に加えてWA(Write Amplification)を追加してもよい。
 一般的に、SSD700内部では、WLやリクラメーションなどの、SSD独自の処理が発生するため、SSD700がストレージコントローラ100から受信したデータの量に比べ、実際にフラッシュメモリに書き込まれるデータの量は大きい。受信したデータの量に対する、実際にフラッシュメモリに書き込まれるデータの量の比率は、WAと呼ばれる。SSD内部の処理によるWRデータ量の増加は、アクセスパターンや、WRデータのサイズ等にも依存する。
 SSD700内の独自処理によってWRデータ量が増加すると、それに伴って消去回数も増加する。そこで、ストレージコントローラ100がSSDコントローラ710からWAを追加で取得し、その値をFM WR予想量の予想材料に加えることで、寿命平準化処理の精度をより向上させることができる。
 まず、WAについて説明する。
 WAは、以下の(b)を(a)で割ることにより得られる比率((b)/(a))である。ここで、(a)は、SSD700がストレージコントローラ100から受信したデータの量であり、(b)は、フラッシュメモリに実際に書き込むデータの量である。
 例えば、SSD700に何もデータがWRされていない状態で、SSD700がストレージコントローラ100からWRデータを受信した場合、そのデータは、空きページにそのままWRされることになるので、WAは「1.0」となる確率が高い。また、例えば、SSD700のページに有効データがWRされており、且つ、空きページが無くリクラメーション処理の必要がある場合、有効データの移動先となるページ、及びストレージコントローラ100からのデータを書き込むためのページが必要となるため、WAは「1.0」を超えることになる。なお、リクラメーション処理とは、例えば、空きブロックが枯渇し始めた際に、有効なデータを格納するページを集約し、別のブロックへWRすることで、無効なデータのみを有するブロックを生成し、そのブロック内のデータを消去することで、空きブロックを生成する処理である。
 したがって、FMへのデータWR量を正確に予想するためには、内部コピー量を示すパラメータであるWAを考慮に入れる必要がある。そこで、ストレージコントローラ100はSSD内部情報取得コマンドを通じて、SSD700から新たにWAを取得するようにし、そのWAをFM WR予想量の予想材料に加えることができる。
 また、SSD700からストレージコントローラ100に、エントリ単位のFM使用量が通知されてもよい。これにより、ストレージコントローラ100は、FM WR量を予想する必要がなく、SSD700から通知されるFM使用量をそのまま使用して、寿命平準化処理を実行することができる。このため、ストレージコントローラ100の負荷(計算量)を抑えることができる。さらに、SSD700がデータ圧縮機能を有し、ストレージコントローラ100が管理するデータWR量と、SSD内部での実際のFM WR量とが異なる場合であっても、ストレージコントローラ100は、寿命平準化処理及びI/O性能リバランス処理を高精度に実現することができる。
 フラッシュメモリはページから繰り返しデータをRDした場合においても、データの破壊が生じやすいという特性を有している。そこで、一般的なSSDは、データのエラー訂正コードであるECCをデータとともにページに格納し、データ読み出し時に、部分的に生じたエラーをECCにより回復させる機能を有している。更に、このようなSSDは、データエラーの発生数が或る閾値を超過すると、データを別ページに移動させる機能を有している。したがって、データのRDしか発生しない環境下においても、フラッシュメモリの消去が発生しうる。そこで、寿命平準化処理の判断材料として、エクステントやエントリ毎のRDに関する情報(RDI/O数、及び/又はデータRD量)が用いられてもよい。
 また、実施例では、ストレージコントローラ100が残消去回数を残日数に換算する処理を行っていたが、SSD700が残日数をストレージコントローラ100に通知するようにしてもよい。これは、例えば、SSD700が、前述したような、残消去回数を残日数に換算する機能を備えることで実現することができる。
 実施例では、枯渇回避処理、寿命平準化処理、及びI/O性能リバランス処理がエクステント単位で実行されるが、これらの処理は、別の単位(例えば、エントリ単位、又はLU単位)で行われてもよい。
 ストレージ装置10内に、圧縮設定のRG(圧縮RG)と、非圧縮設定のRG(非圧縮RG)とが混在する場合に、圧縮RGと非圧縮RGとの間で枯渇回避処理、寿命平準化処理、及びI/O性能リバランス処理が実施されてもよい。さらに、(1)圧縮RG間でのみ枯渇回避処理、寿命平準化処理、及びI/O性能リバランス処理を許可する、(2)非圧縮RG間でのみ寿命平準化処理、I/O性能リバランス処理を許可する、(3)圧縮RG間と非圧縮RG間での枯渇回避処理、寿命平準化処理、及びI/O性能リバランス処理を許可する、といったような各処理の移動ポリシーを、ストレージ装置10に複数パターン用意しておき、ユーザ又は管理者が、ホスト計算機30又は管理計算機等を介して、所定の記憶領域単位(例えばRGもしくはLU)毎に、使用用途に応じた移動ポリシーが選択され、選択された移動ポリシーに従う処理がストレージ装置10によって行われてもよい。
 また、ホスト計算機30のアプリケーションによって圧縮されたデータは、ストレージ装置10のSSD700内で再度圧縮されても、データサイズは変わらない。そこで、ホスト計算機30からストレージコントローラ100に対してデータを既に圧縮しているか否かを通知するインタフェースを用意し、その情報を基にストレージコントローラ100が、圧縮の要否を決定したり、圧縮RGまたは非圧縮RGのどちらのRGにデータを格納するかを決定したり、寿命平準化処理の移動ポリシーを決定したりしてもよい。ここで、用意するインタフェースとしては、例えばホスト計算機30がストレージコントローラ100に対して送付するライト要求コマンド内に、データが圧縮されているか否かを示すフィールドを含むようにしてもよい。
 本発明の表現のための用語について説明する。記憶デバイスは、SSD700又はHDD111であってもよい。第一メモリ及び第二メモリの夫々は、キャッシュメモリ130であってもよい。プロセッサは、プロセッサ104であってもよい。第一記憶デバイスグループ及び第二記憶デバイスグループの夫々は、RG又はPGであってもよい。記憶デバイス情報は、統計情報管理TBL23200であってもよい。キャッシュ情報は、キャッシュ管理テーブル32100であってもよい。記憶デバイスコントローラは、SSDコントローラ710であってもよい。不揮発性半導体メモリは、フラッシュメモリ780であってもよい。デステージ判定は、ストレージ状態更新処理であってもよい。確保判定は、流入制限判定処理のS5210~5320であってもよい。待機は、空き待ちジョブであってもよい。空き容量は、RG実空き容量であってもよい。解放条件は、流入許可条件であってもよい。物理記憶領域は、エクステントであってもよい。仮想記憶領域は、仮想エクステントであってもよい。枯渇条件は、第一記憶デバイスグループの枯渇リスクが最大であることであってもよいし、RG実使用率がRG実使用率閾値を上回ることであってもよい。ダーティデータ量は、RGダーティデータ量であってもよい。デステージ判定の結果は、判定結果管理テーブル32300であってもよい。予定デステージ量は、RG予定デステージ量であってもよい。
 10:ストレージ装置、11:Disk、30:ホスト計算機、100:ストレージコントローラ、130:キャッシュメモリ、700:SSD、710:SSDコントローラ、780:フラッシュメモリ、781:フラッシュコントローラ、10000:ストレージシステム。

Claims (13)

  1.  複数の記憶デバイスと、
     第一メモリと、
     前記複数の記憶デバイス、前記第一メモリ、及び上位装置に接続されるプロセッサと、
    を備え、
     前記プロセッサは、前記複数の記憶デバイスの少なくとも一部を第一記憶デバイスグループとして設定し、
     前記プロセッサは、前記第一メモリ内の複数のキャッシュ領域の状態を示すキャッシュ情報を作成し、
     前記プロセッサは、前記上位装置からのデータを格納するキャッシュ領域を、第一記憶デバイスグループに関連付け、
     前記プロセッサは、各キャッシュ領域内のデータを、対応する記憶デバイスへデステージし、
     前記記憶デバイスは、前記デステージされたデータを圧縮することで、前記デステージされたデータを圧縮データに変換し、前記圧縮データを格納し、前記記憶デバイスの使用量に基づく記憶デバイス情報を記憶し、
     前記プロセッサは、各記憶デバイスから前記記憶デバイス情報を取得し、
     前記プロセッサは、前記上位装置から前記第一記憶デバイスグループに対するライト要求を受信する場合、前記ライト要求に示されたライト先アドレスに対応するライト先キャッシュ領域が確保されているか否かを判定し、
     前記ライト先キャッシュ領域が確保されていないと判定された場合、前記プロセッサは、前記記憶デバイス情報および前記キャッシュ情報に基づいて、前記ライト先キャッシュ領域を確保するか否かを判定する、確保判定を行い、
     前記ライト先キャッシュ領域を確保すると判定された場合、前記プロセッサは、前記ライト先キャッシュ領域を確保し、
     前記ライト先キャッシュ領域を確保しないと判定された場合、前記プロセッサは、前記ライト先キャッシュ領域の確保を待機する、
    ストレージ装置。
  2.  前記プロセッサが前記ライト要求を受信し、且つ前記ライト先キャッシュ領域が確保されている、状態において、前記プロセッサは、前記上位装置にライトデータを送信させるためのWRデータ転送許可通知を前記上位装置へ送信し、前記ライトデータを前記上位装置から受信し、前記ライトデータを前記ライト先キャッシュ領域へ書き込む、
    請求項1に記載のストレージ装置。
  3.  前記プロセッサは、前記記憶デバイス情報および前記キャッシュ情報に基づいて、前記第一記憶デバイスグループへのデステージが可能であるか否かを判定する、デステージ判定を行い、
     前記プロセッサは、前記ライト要求を受信する場合、前記デステージ判定の結果に基づいて、前記確保判定を行う、
    請求項2に記載のストレージ装置。
  4.  前記プロセッサは、前記記憶デバイス情報に基づいて、前記第一記憶デバイスグループの物理的な空き容量を算出し、
     前記プロセッサは、前記キャッシュ情報に基づいて、前記第一記憶デバイスグループへデステージされる可能性のあるデータ量である予定デステージ量を算出し、
     前記プロセッサは、前記デステージ判定において、前記空き容量が前記予定デステージ量より大きい場合、前記第一記憶デバイスグループへのデステージが可能であると判定する、
    請求項3に記載のストレージ装置。
  5.  前記プロセッサは、前記待機中、前記空き容量が前記予定デステージ量より大きいか否かを判定し、
     前記空き容量が前記予定デステージ量より大きいと判定された場合、前記プロセッサは、前記確保判定を行う、
    請求項4に記載のストレージ装置。
  6.  前記プロセッサは、仮想ボリュームを前記上位装置へ提供し、
     前記プロセッサは、前記第一記憶デバイスグループ内の物理記憶領域を、前記仮想ボリューム内の仮想記憶領域へ割り当てる、
    請求項5に記載のストレージ装置。
  7.  前記プロセッサは、前記複数の記憶デバイスのうち、前記第一記憶デバイスグループ以外の一部を、第二記憶デバイスグループとして設定し、
     前記プロセッサは、前記記憶デバイス情報に基づいて、前記第一記憶デバイスグループが、予め設定された枯渇条件を満たすか否かを判定し、
     前記第一記憶デバイスグループが前記枯渇条件を満たすと判定された場合、前記プロセッサは、前記第一記憶デバイスグループ内の第一物理記憶領域に格納されているデータを前記第二記憶デバイスグループ内の第二物理記憶領域へ移動させ、前記第一物理記憶領域を割り当てられている仮想記憶領域に、前記第二物理記憶領域を割り当てる、
    請求項6に記載のストレージ装置。
  8.  前記プロセッサは、前記キャッシュ情報に基づいて、前記第一記憶デバイスグループに対応するキャッシュ領域のダーティデータ量を算出し、
     前記プロセッサは、前記記憶デバイス情報の取得に基づいて、前記ダーティデータ量に関するマージンを決定し、
     前記プロセッサは、前記ダーティデータ量及び前記マージンの和を前記予定デステージ量として算出する、
    請求項7に記載のストレージ装置。
  9.  前記記憶デバイスは、前記プロセッサに接続される記憶デバイスコントローラと、前記記憶デバイスコントローラに接続される不揮発性半導体メモリとを含み、
     前記記憶デバイスコントローラは、前記ダーティデータを圧縮することで前記ダーティデータを前記圧縮データに変換し、前記圧縮データを前記不揮発性半導体メモリへ書き込む、
    請求項8に記載のストレージ装置。
  10.  前記プロセッサは、前記確保判定において、前記デステージ判定の結果が、前記第一記憶デバイスグループへのデステージが可能であることを示す場合、前記ライト先キャッシュ領域を確保すると判定し、前記デステージ判定の結果が、前記第一記憶デバイスグループへのデステージが可能でないことを示す場合、前記ライト先キャッシュ領域を確保しないと判定する、
    請求項9に記載のストレージ装置。
  11.  前記プロセッサに接続される第二メモリを更に備え、
     前記プロセッサは、前記第一メモリ及び前記第二メモリの両方に、前記ライト先に対応するキャッシュ領域が確保されている場合、前記ライト先キャッシュ領域が確保されていると判定し、
     前記プロセッサは、前記ライトデータを前記上位装置から受信した場合、前記ライトデータを、前記第一メモリ及び前記第二メモリの両方へ書き込む、
    請求項2に記載のストレージ装置。
  12.  プロセスをプロセッサに実行させるプログラムを格納するコンピュータ読み取り可能な記録媒体であって、前記プロセスは、
     前記プロセッサに接続される複数の記憶デバイスの少なくとも一部を第一記憶デバイスグループとして設定し、
     前記プロセッサに接続される第一メモリ内の複数のキャッシュ領域の状態を示すキャッシュ情報を作成し、
     上位装置からのデータを格納するキャッシュ領域を、第一記憶デバイスグループに関連付け、
     各キャッシュ領域内のデータを、対応する記憶デバイスへデステージし、前記記憶デバイスは、前記デステージされたデータを圧縮することで、前記デステージされたデータを圧縮データに変換し、前記圧縮データを格納し、前記記憶デバイスの使用量に基づく記憶デバイス情報を記憶し、
     各記憶デバイスから前記記憶デバイス情報を取得し、
     前記上位装置から前記第一記憶デバイスグループに対するライト要求を受信する場合、前記ライト要求に示されたライト先アドレスに対応するライト先キャッシュ領域が確保されているか否かを判定し、
     前記ライト先キャッシュ領域が確保されていないと判定された場合、前記記憶デバイス情報および前記キャッシュ情報に基づいて、前記ライト先キャッシュ領域を確保するか否かを判定する、確保判定を行い、
     前記ライト先キャッシュ領域を確保すると判定された場合、前記ライト先キャッシュ領域を確保し、
     前記ライト先キャッシュ領域を確保しないと判定された場合、前記ライト先キャッシュ領域の確保を待機する、
    ことを備える、
    記録媒体。
  13.  複数の記憶デバイスの少なくとも一部を第一記憶デバイスグループとして設定し、
     第一メモリ内の複数のキャッシュ領域の状態を示すキャッシュ情報を作成し、
     上位装置からのデータを格納するキャッシュ領域を、第一記憶デバイスグループに関連付け、
     各キャッシュ領域内のデータを、対応する記憶デバイスへデステージし、前記記憶デバイスは、前記デステージされたデータを圧縮することで、前記デステージされたデータを圧縮データに変換し、前記圧縮データを格納し、前記記憶デバイスの使用量に基づく記憶デバイス情報を記憶し、
     各記憶デバイスから前記記憶デバイス情報を取得し、
     前記上位装置から前記第一記憶デバイスグループに対するライト要求を受信する場合、前記ライト要求に示されたライト先アドレスに対応するライト先キャッシュ領域が確保されているか否かを判定し、
     前記ライト先キャッシュ領域が確保されていないと判定された場合、前記記憶デバイス情報および前記キャッシュ情報に基づいて、前記ライト先キャッシュ領域を確保するか否かを判定する、確保判定を行い、
     前記ライト先キャッシュ領域を確保すると判定された場合、前記ライト先キャッシュ領域を確保し、
     前記ライト先キャッシュ領域を確保しないと判定された場合、前記ライト先キャッシュ領域の確保を待機する、
    ことを備える記憶制御方法。
PCT/JP2015/081968 2015-11-13 2015-11-13 ストレージ装置、記録媒体、および記憶制御方法 WO2017081811A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/741,097 US10846231B2 (en) 2015-11-13 2015-11-13 Storage apparatus, recording medium, and storage control method
JP2017549954A JP6507261B2 (ja) 2015-11-13 2015-11-13 ストレージ装置、記録媒体、および記憶制御方法
PCT/JP2015/081968 WO2017081811A1 (ja) 2015-11-13 2015-11-13 ストレージ装置、記録媒体、および記憶制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/081968 WO2017081811A1 (ja) 2015-11-13 2015-11-13 ストレージ装置、記録媒体、および記憶制御方法

Publications (1)

Publication Number Publication Date
WO2017081811A1 true WO2017081811A1 (ja) 2017-05-18

Family

ID=58694884

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/081968 WO2017081811A1 (ja) 2015-11-13 2015-11-13 ストレージ装置、記録媒体、および記憶制御方法

Country Status (3)

Country Link
US (1) US10846231B2 (ja)
JP (1) JP6507261B2 (ja)
WO (1) WO2017081811A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10852951B1 (en) * 2017-10-18 2020-12-01 EMC IP Holding Company, LLC System and method for improving I/O performance by introducing extent pool level I/O credits and user I/O credits throttling on Mapped RAID
CN108664218A (zh) * 2018-04-23 2018-10-16 浙江大华技术股份有限公司 一种基于数据特征的ssd存储方法、装置及***
KR102545229B1 (ko) * 2018-05-04 2023-06-21 에스케이하이닉스 주식회사 메모리 시스템 및 그것의 동작 방법
CN110737391B (zh) * 2018-07-20 2023-08-22 伊姆西Ip控股有限责任公司 用于管理存储***的方法、设备和计算机程序产品
US11199988B2 (en) 2019-05-07 2021-12-14 International Business Machines Corporation Data migration across tiers in a multi-tiered storage area network
JP2021015461A (ja) * 2019-07-12 2021-02-12 株式会社日立製作所 ストレージ装置およびストレージ管理方法
CN111782146B (zh) * 2020-06-30 2023-10-13 深圳忆联信息***有限公司 实现写缓存的方法、装置、计算机设备及存储介质
US20220357980A1 (en) * 2021-05-06 2022-11-10 Dell Products L.P. Selectively offloading the compression and decompression of files to a hardware controller
US11481134B1 (en) * 2021-05-24 2022-10-25 Sap Se Adaptive caching for hybrid columnar databases with heterogeneous page sizes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014184941A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 ストレージ装置
WO2015008375A1 (ja) * 2013-07-19 2015-01-22 株式会社日立製作所 ストレージ装置および記憶制御方法
WO2015052798A1 (ja) * 2013-10-09 2015-04-16 株式会社日立製作所 ストレージシステム及び記憶制御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014049636A1 (en) * 2012-09-25 2014-04-03 Hitachi, Ltd. Storage apparatus and method of controlling the same
DE112013006504B4 (de) 2013-01-25 2022-06-15 Hitachi, Ltd. Speichersystem und Datenverwaltungsverfahren

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014184941A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 ストレージ装置
WO2015008375A1 (ja) * 2013-07-19 2015-01-22 株式会社日立製作所 ストレージ装置および記憶制御方法
WO2015052798A1 (ja) * 2013-10-09 2015-04-16 株式会社日立製作所 ストレージシステム及び記憶制御方法

Also Published As

Publication number Publication date
US20180196755A1 (en) 2018-07-12
JP6507261B2 (ja) 2019-04-24
JPWO2017081811A1 (ja) 2018-02-22
US10846231B2 (en) 2020-11-24

Similar Documents

Publication Publication Date Title
JP6381529B2 (ja) ストレージ装置および記憶制御方法
JP6507261B2 (ja) ストレージ装置、記録媒体、および記憶制御方法
JP5844473B2 (ja) 複数の不揮発性の半導体記憶媒体を有し、ホットデータを長寿命記憶媒体に配置しコールドデータを短寿命記憶媒体に配置するストレージ装置、及び、記憶制御方法
WO2014141411A1 (ja) ストレージシステムおよびストレージシステム制御方法
JP6073471B2 (ja) ストレージ装置
JP6000376B2 (ja) 特性の異なる複数種類のキャッシュメモリを有する情報処理装置
JP5437373B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
US10459639B2 (en) Storage unit and storage system that suppress performance degradation of the storage unit
JP5192352B2 (ja) 記憶装置及びデータ格納領域管理方法
US10545684B2 (en) Storage device
WO2017090176A1 (ja) ストレージシステム
US20180275894A1 (en) Storage system
WO2016013202A1 (ja) ストレージ装置、コンピュータシステム、アクセス制御方法および記録媒体
JP5768118B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
JP6138318B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
JP5945040B2 (ja) 複数のフラッシュパッケージを有するストレージシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15908331

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017549954

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15908331

Country of ref document: EP

Kind code of ref document: A1