WO2015037158A1 - 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法 - Google Patents

情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法 Download PDF

Info

Publication number
WO2015037158A1
WO2015037158A1 PCT/JP2013/074949 JP2013074949W WO2015037158A1 WO 2015037158 A1 WO2015037158 A1 WO 2015037158A1 JP 2013074949 W JP2013074949 W JP 2013074949W WO 2015037158 A1 WO2015037158 A1 WO 2015037158A1
Authority
WO
WIPO (PCT)
Prior art keywords
power consumption
information processing
inquiry
unit
setting
Prior art date
Application number
PCT/JP2013/074949
Other languages
English (en)
French (fr)
Inventor
山崎愼一
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2013/074949 priority Critical patent/WO2015037158A1/ja
Priority to JP2015536420A priority patent/JP5983888B2/ja
Publication of WO2015037158A1 publication Critical patent/WO2015037158A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power

Definitions

  • the present invention relates to a technique for managing power consumption of an entire information processing apparatus group installed as a server or the like in a facility such as a data center.
  • a large number of information processing apparatuses are installed as servers.
  • the power consumption of the information processing apparatus increases as the number of arithmetic processing devices (for example, CPU (Central Processing Unit)) and memories (memory modules) increases. Therefore, in recent years, there has been a growing need for power saving that suppresses the power consumption of the entire facility.
  • the information processing apparatus is referred to as “server” and the arithmetic processing apparatus is referred to as “CPU”.
  • the facility is expressed as “data center”.
  • the DVFS function that can reduce the power supply voltage applied to the CPU and / or the frequency of the clock used by the CPU is a power saving function. By shifting to a power saving mode in which at least one of the power supply voltage and the clock frequency is lowered, the power consumption of the CPU can be further suppressed.
  • power capping is performed to limit the power consumption of the entire server using the DVFS function.
  • the power consumption of the entire server is monitored, and when the monitored power consumption exceeds the set upper limit value, the CPU is shifted to the power consumption mode by the DVFS function to limit the power consumption of the entire server. It is supposed to be.
  • the power consumption of the server alone or the entire server group can be suppressed within an assumed range. Further, through the control of the power consumption of each server or each server group, the power consumption of the entire server installed in the data center can be suppressed within an assumed range. Power capping is also used in the form of predicting a change in the usage status (power consumption) of each server or each server group and enabling the DVFS function in accordance with scheduling based on the prediction.
  • the power consumption limitation (suppression) using power capping must be set for each server even if the servers are grouped. Therefore, in an environment where a large number of servers such as a data center are installed, a large amount of labor and a long time are required for setting work.
  • the data center is usually provided with a cooling facility (in many cases, an air conditioning facility) for cooling the entire data center.
  • the upper limit of power that can be consumed by the entire equipment (hereinafter referred to as “IT (Information Technology) equipment”) such as servers, network switches, and storages depends on the cooling facility, etc., from the upper limit of power that can be consumed by the entire data center.
  • IT Information Technology
  • the upper limit value of power that can be consumed by the entire IT device is “upper limit value for device”
  • the upper limit value of power that can be consumed by the entire data center is “upper limit value”
  • the upper limit value of power that can be consumed by other IT devices Are expressed as “equipment upper limit values”.
  • the cooling capacity required for the cooling equipment changes in accordance with changes outside the environment, for example, changes in the outside air temperature.
  • the required change in the cooling capacity is the reason for changing the upper limit value for equipment.
  • an object of the present invention is to provide a technique for managing power consumption of an entire server group with easier settings in an environment where a large number of servers (information processing apparatuses) are installed.
  • One system to which the present invention is applied manages the power consumption of the entire management target group including a plurality of information processing devices each controlling one or more cooling devices, each cooling device, and a plurality of information processing devices. And a control device.
  • the plurality of information processing devices include a detection unit that detects the state of the information processing device, a determination unit that determines setting contents for driving the cooling device based on the state detected by the detection unit, and a determination unit
  • the power consumption of the cooling device is increased from the current setting content, which is the current setting content
  • the determined control content is transmitted to the control device control information representing the amount of increased power including at least the increase in power consumption
  • An inquiry unit that inquires whether or not the setting change from the current setting content to the setting content is possible, and a setting change unit that changes the setting from the current setting content to the setting content according to the response of the control device to the inquiry by the inquiry unit; Have.
  • the control device has a storage unit that stores the upper limit value of the power consumption of the entire management target group, an acquisition unit that acquires the total power consumption that is the power consumption of the entire management target group, and any information processing device. When there is a match, a determination is made to determine whether or not a setting change is possible in the information processing apparatus that has made the inquiry, using the increased power amount, the total power consumption amount, and the upper limit value represented by the control information received by the inquiry. And a notification unit that notifies the information processing apparatus that has made the inquiry as a response to the inquiry.
  • the power consumption of the entire information processing apparatus group can be managed with easier settings in an environment where a large number of information processing apparatuses are installed.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to the present embodiment.
  • the information processing system according to the present embodiment is a system constructed in a data center. As shown in FIG. 1, the information processing system connects a number of servers 2, a control server 3, and a terminal device 4 such as a PC (Personal Computer) to a network 1 that is a LAN (Local Area Network), for example. It is built in the form of
  • Each server 2 is an information processing apparatus including an SP (Service Processor) 2a, one or more system boards (SB) 2b, and one or more IOUs (Input / Output Units) 2c.
  • the information processing apparatus according to the present embodiment is realized as the server 2.
  • SP2a is a management device that manages the installed server 2, and communicates with the control server 3 via the network 1.
  • the SB 2b is a processing module equipped with one or more CPUs.
  • the IOU 2c is a processing module on which one or more IO devices such as a hard disk device are mounted.
  • FIG. 2 is a diagram illustrating a configuration example of an SP mounted on a server and a part of components connected to the SP.
  • the SP 2a includes an MPU (Micro-Processing Unit) 201, a memory 202, a flash memory 203, an MB (Maintenance / Bus) interface 204, a LAN interface 205, an I2C (Inter-Integrated Circuit) interface 206, and a USB. (Universal Serial Bus) interface 207 is provided.
  • the LAN interface 205 is an interface that enables communication with the control server 3 via the network 2.
  • the SB 2b is equipped with an MBC (Maintenance Bus Controller) 211, a plurality of CPUs 212, a plurality of DDCs (DC (Direct Current) -DC Converter) 213, a plurality of sensors 214, and an ADC (Analog tonaDigital Converter) 215. .
  • Each CPU 212 includes a DVFS control circuit 212a.
  • Each sensor 214 is for detecting the state of the server 2. For example, a plurality of temperature sensors 214 (FIG. 4) for measuring the temperature of the CPU 212, and a plurality of temperatures for measuring the temperature of other parts. There are sensors, a plurality of power sensors for measuring power, and the like.
  • the DVFS control circuit 212a can control the voltage (power supply voltage) of power supplied from the DDC 213 by VID (Voltage IDentifier) set in the DDC 213 that supplies power to the CPU 212. Further, the DVFS control circuit 212a can control the frequency of the clock for the CPU 212 itself through the setting of the multiplication factor of a PLL (Phase Locked Loop) circuit (not shown) mounted on the CPU 212. Both the power supply voltage and the clock frequency increase or decrease the power consumption of the CPU 212. Thereby, the DVFS control circuit 212 a is used for managing the power consumption of the CPU 212.
  • VID Voltage IDentifier
  • the MBC 311 is connected to each CPU 312, the DVFS control circuit 312 a mounted on each CPU 312, each DDC 213, and the ADC 215 in the SB 2 b.
  • the MBC 311 is connected to the MB interface 204 of the SP 2a.
  • SP2a can acquire the sense value output via ADC215 from each sensor 214, and can suppress the power consumption of each CPU212 using each DVFS control circuit 212a.
  • a plurality of PSUs (Power Supply Units) 221 and a plurality of fan controllers (FANC) 223 for driving the fans 222 are connected to the I2C interface 206 of SP2a.
  • the SP 2 a can control on / off of each PSU 221 and the number of rotations of each fan 222 via each fan controller 223.
  • the SP2a flash memory 203 stores firmware 202a executed by the MPU 201.
  • the firmware 202a that is, the MPU 201 collects detection results by the sensors 214 via the MB interface 204, and controls the fan controller 223, the DVFS control circuit 312a of each CPU 212, and each PSU 321 using the collected detection results. Do.
  • the fan 222 is a cooling device for removing heat generated inside the server 2.
  • the fan 222 is a component that consumes a large amount of power in the server 2 together with the CPU 212. In most recent servers, the amount of power consumed by fans accounts for 30-50% of the total. For this reason, the power consumption of fans is currently being suppressed.
  • the power consumption of the fan is suppressed by controlling the rotational speed of the fan according to the ambient temperature or the state of the CPU or the like.
  • the ambient temperature (intake air temperature) of the server 2 is normally maintained at a constant temperature.
  • the fluctuation of the power consumption of the CPU 212 is large and tends to be higher than others.
  • the MPU 201 that executes the firmware 202a normally monitors the detection result of the temperature sensor 214 in each sensor 214, for example, the temperature of the CPU 212, and controls the rotational speed of the fan 222.
  • the rotational speed (rotational speed) of the fan 222 is changed in multiple stages.
  • the power consumption by the fan 222 varies depending on the rotation speed.
  • the power consumption increases as the rotational speed increases. Therefore, a setting change that increases the rotation speed of the fan 222 is an opportunity to change the power consumption of the server 2 stepwise.
  • the power consumption of the entire server 2 group is controlled.
  • a liquid may be used as a fluid for cooling the server.
  • the necessary cooling capacity can be ensured by controlling the number of revolutions of a pump for taking in the liquid. Therefore, the cooling device may be of a different type from the fan 222.
  • Some dedicated racks with servers are equipped with air conditioning equipment as cooling devices.
  • the cooling capacity of the air conditioning equipment provided in the dedicated rack can be adjusted by an installed server or an information processing device mounted in the dedicated rack.
  • a cooling device that is not mounted on the server 2 may be included in the entire server 2 group as a target for controlling power consumption.
  • the cooling device that is individually controlled according to the state of any one of the servers 2 becomes a part of the target for controlling the power consumption.
  • the control server 3 connected to the network 1 is installed to control the power consumption of the entire server 2 group.
  • the control server 3 is a control device according to the present embodiment.
  • FIG. 3 is a diagram illustrating a configuration example of an information processing apparatus that can be used as a control server that is a control apparatus according to the present embodiment.
  • an information processing apparatus that can be used as the control server 3 will be described in detail with reference to FIG.
  • this information processing apparatus includes a CPU 31, a FWH (Firm-Ware Hub) 32, a memory (memory module) 33, a NIC (Network Interface Card) 34, a hard disk device (HD) 35, a fan 36, and a controller. 37 and a BMC (Baseboard Management Controller) 38.
  • This configuration is an example, and the configuration of the information processing apparatus that can be used as the control server 3 is not limited to that shown in FIG.
  • FWH 32 is a memory storing firmware. This firmware is read into the memory 33 by the CPU 31 and executed.
  • the hard disk device 35 stores an OS (Operating System) and various application programs.
  • the CPU 31 can read and execute the OS and further necessary application programs from the hard disk device 35 via the controller 37 after the activation of the firmware is completed. Communication via the NIC 34 is enabled by starting up the OS.
  • an application program (hereinafter referred to as “power consumption management software”) for managing the power consumption of the entire server group 2 is included.
  • the CPU 31 executes the power consumption management software to control the power consumption of the entire server 2 group.
  • the BMC 38 is a dedicated management device for managing the information processing device.
  • the BMC 38 turns on / off the CPU 31, turns on / off a PSU (not shown), monitors errors occurring in each component, and the like.
  • FIG. 4 is a diagram illustrating an example of the functional configuration of the control server and the SP installed in each server.
  • movement of the control server 3 and SP2a are demonstrated in detail.
  • the SP 2a of each server 2 includes a communication unit 501, a power monitor 502, a CPU temperature acquisition unit 503, a fan rotation speed control unit 504, a throttling unit 505, and a storage unit 506.
  • control server 3 includes a communication unit 601, a current power collection unit 602, an availability determination unit 604, and a storage unit 604.
  • the storage unit 604 stores a monitoring target list 604a representing the server 2 that is a power consumption control target, and a power consumption upper limit value 604b.
  • the control server 3 can communicate with SP2a of the server 2 which should communicate by referring the monitoring object list
  • the power consumption upper limit value 604b is data set as an upper limit value of power that can be consumed by the entire server 2 group.
  • the control server 3 manages the power consumption of the entire server 2 group so that the power consumption of the entire server 2 group is equal to or lower than the power consumption upper limit 604b.
  • the terminal device 4 is used for setting / updating the monitoring target list 604a and the power consumption upper limit 604b.
  • the communication unit 601 is used for communication with the SP 2a of each server 2.
  • the current power collection unit 602 is a function for collecting the current power consumption of each server 2 from the SP 2a.
  • the server 2 in a situation where the rotation speed of the fan 222 should be increased makes an inquiry to the control server 3 as to whether or not the setting change to increase the rotation speed of the fan 222 can be performed.
  • the setting is changed according to the response result.
  • the availability determination unit 603 has a function of creating a message to be transmitted as a response to the inquiry. This inquiry is hereinafter referred to as “inquiry / non-inquiry”.
  • the availability determining unit 603 instructs the current power collecting unit 603 to collect the current power consumption amount of each server 2 when the communication unit 601 receives the availability inquiry from the SP 2 a of any server 2.
  • the current power collection unit 603 refers to the monitoring target list 604a and requests the SP 2a of each server 2 to transmit the current power consumption.
  • the current power collection unit 603 passes the power consumption amount transmitted from the SP 2a of each server 2 to the availability determination unit 603 according to the request.
  • the power consumption amount of each server 2 may be collected from a power repeater such as a distribution board.
  • the method for collecting power consumption is not particularly limited.
  • the availability determination unit 603 accumulates the current power consumption of each server 2 passed from the current power collection unit 603, and represents the current power consumption of the entire server 2 group (hereinafter referred to as “current power consumption”). ) Is calculated. Next, the availability determination unit 603 uses the calculated current power consumption and the power consumption upper limit value 604a to calculate a power amount representing the current power margin (hereinafter referred to as “margin power amount”). Thereby, the availability determination unit 603 determines that the calculated surplus power amount is larger than the increase in power consumption (hereinafter referred to as “increased power consumption amount”) associated with the setting change in the server 2 that transmitted the availability inquiry. , The setting change is permitted. The availability determination unit 603 determines whether the setting can be changed as described above, creates a message having contents according to the determination result, and causes the communication unit 601 to transmit the created message.
  • the communication unit 501 included in the SP 2 a of each server 2 is used for communication with the control server 3.
  • the power monitor 502 is a function that collects the amount of power supplied from each PSU 221 as data through communication with each PSU 221 via the I2C bus.
  • the CPU temperature acquisition unit 503 acquires the sense value output from the temperature sensor 214 that measures the temperature of each CPU 212, that is, the temperature detected by the temperature sensor 214.
  • the fan rotation speed control unit 504 controls the rotation speed of the fan 222 via the fan controller 223 from the temperature of each CPU 212 acquired by the CPU temperature acquisition unit 503.
  • the fan rotation speed control unit 504 refers to the fan rotation speed setting table 506a and the temperature threshold value table 506b stored in the storage unit 506.
  • FIG. 6 is a diagram illustrating a configuration example of the fan rotation speed setting table.
  • the rotation speed (rotation level) of the fan 222 is controlled in multiple stages. Thereby, the rotation speed of the fan 222 is increased or decreased in stages.
  • the fan rotation speed setting table table 506a is a table prepared to make it possible to specify the amount of power consumption that increases as the rotation speed increases when the rotation speed of the fan 222 is increased stepwise. .
  • the fan rotation speed setting table table 506a stores each data of the fan controller setting value (Hex) and the fan rotation level increased electric energy (W) for each fan rotation level.
  • the fan controller setting value is a value representing the setting value to be set in the fan controller 223 in hexadecimal.
  • “1Ah”, “33h”, “4Ch”, and the like all represent hexadecimal numbers.
  • the fan rotation level increased electric energy (W) is data representing an increase from the electric power consumption as a reference, with the electric power consumption at one smaller rotation level as a reference.
  • W electric energy
  • FIG. 6 “35.6”, “98.8”, and “142.4” indicate that the rotation level is changed from 1 to 2, the rotation level is changed from 2 to 3, and the rotation level is changed from 3.
  • the amount of electric power increasing in each case of changing to 4 is shown.
  • the fan rotation level increased power amount is abbreviated as “increased power amount”.
  • the increased power amount is the increased power amount of the entire server 2.
  • the increased power consumption includes an increase in power consumption of the fan 222 itself, and an increase in power consumption of the CPU 212 until the CPU temperature can be kept below the rotation speed increase temperature threshold by the fan 222 after the setting is changed. Includes minutes. Since the power actually consumed by the CPU 212 is unknown, the increased power amount may be a power amount that surely increases.
  • the range in which the cool air is supplied by each fan 222 is usually different.
  • the amount of increased electric power varies depending on the number of CPUs 212 that are assumed to be supplied with cool air by each fan 222, the cooling efficiency by the fans 222, and the like. Therefore, depending on the server 2, it is necessary to prepare a plurality of fan rotation speed setting tables 506a. However, for convenience of explanation, it is assumed here that there is only one fan rotation speed setting table 506a. That is, it is assumed that all the fans 222 are driven and the same rotation level is set.
  • FIG. 7 is a diagram illustrating a configuration example of the temperature threshold table.
  • the temperature threshold table 506b is a table prepared for determining a situation in which the rotation level of the fan 222 should be changed and a situation in which throttling for suppressing the power consumption of the CPU 212 should be performed.
  • the rotation speed up (UP) temperature threshold value (° C.)
  • the rotation speed down (DOWN) temperature threshold value (° C.)
  • the allowable temperature upper limit threshold value ° C.
  • Each data of the lower limit threshold (° C.) is stored.
  • the rotation speed up temperature threshold is data for determining a situation where the rotation level of the fan 222 should be increased by one level, that is, a situation where the cooling capacity should be increased. “80” shown in FIG. 7 means that the rotation level is increased by one step when the temperature of the CPU 212 (the temperature detected by the temperature sensor 214) exceeds 80 ° C.
  • the rotation speed down temperature threshold is data for determining a situation where the rotation level of the fan 222 should be lowered by one step, that is, a situation where the cooling capacity should be lowered. “72” shown in FIG. 7 means that the rotation level is lowered by one step when the temperature of the CPU 212 becomes 72 ° C. or lower.
  • the allowable temperature upper limit threshold is data for determining a situation where the throttling function should be enabled. “92” shown in FIG. 7 means that the throttling function is activated when the temperature of the CPU 212 that is on the rise exceeds 92 ° C.
  • the temperature of the CPU 212 detected (measured) by the temperature sensor 214 is referred to as “CPU temperature”.
  • the allowable temperature lower limit threshold is data for determining a situation where the throttling function should be disabled. “82” shown in FIG. 7 means that the throttling function is activated when the temperature of the CPU 212 which is in a downward trend exceeds 92 ° C.
  • the fan speed setting table 506a and the temperature threshold table 506b are tables stored in the server 2 at a factory, for example. Each table 506 a and 506 b can be updated using the terminal device 4.
  • the fan rotation speed control unit 504 compares the CPU temperature acquired by the CPU temperature acquisition unit 503 with the rotation speed up temperature threshold and the rotation speed down temperature threshold of the temperature threshold table 506b. If the fan rotation speed control unit 504 confirms that the CPU temperature exceeds the rotation speed increase temperature threshold value as a result of the comparison, the fan rotation speed control unit 504 performs the above-described availability determination and changes the rotation level setting via the communication unit 501. Confirm whether or not. The fan rotation speed control unit 504 stores the increased power amount of the rotation level one step higher than the current level in the message for inquiry about availability, and notifies the control server 3 of the increased power amount.
  • the fan rotation speed control unit 504 performs a setting change for the fan controller 223 to increase the rotation level by one step when the permission to change the setting is notified by a response message to the availability inquiry. When the setting change is not permitted, the fan rotation speed control unit 504 does not change the setting of the rotation level of the fan 222.
  • the fan rotation speed control unit 504 decreases the rotation level of the fan 222 by one level without making an inquiry to the control server 3. This is because a setting change that lowers the rotation level of the fan 222 by one level lowers the power consumption of the server 2. That is, the setting change does not cause the power consumption amount of the entire server 2 group to exceed the power consumption upper limit value 604b.
  • the throttling part 505 is prepared to cope with a situation where the fan 222 cannot perform sufficient cooling.
  • the throttling unit 505 monitors the CPU temperature acquired by the CPU temperature acquisition unit 503, and compares the CPU temperature with the allowable temperature upper limit threshold and the allowable temperature lower limit threshold of the temperature threshold table 506b. As a result, when the CPU temperature tends to rise and the CPU temperature exceeds the allowable temperature upper limit threshold, the throttling unit 505 sets the DVFS control circuit 212a of each CPU 212 via the DVFS instruction unit 510. change. Through the setting change, the throttling unit 505 suppresses the power consumption of each CPU 212 and lowers the CPU temperature.
  • the throttling unit 505 sets the DVFS control circuit 212a of each CPU 212 via the DVFS instruction unit 510. Restore normal settings. Through the setting change, the throttling unit 505 returns the performance of each CPU 212 to the normal state.
  • the SP 2a includes the throttling portion 505.
  • the throttling portion 505 may be provided outside the SP 2a.
  • the throttling unit 505 may be realized on the CPU 212.
  • the communication unit 501 is the LAN interface 205.
  • the fan rotation speed setting table table 506a and the temperature threshold value table 506b are stored in, for example, the flash memory 203, read into the memory 202, and referred to by the MPU 201. Therefore, the storage unit 506 is realized by the flash memory 203 and the memory 202.
  • Each PSU 221 and each fan controller 223 are connected to the I2C interface 206 via an I2C bus.
  • a detection result by each sensor 214 including a plurality of temperature sensors 214 is input to the MB controller 209 via the MBC 211.
  • An instruction to the DVFS control circuit 212a of each CPU 212 is given via the MB interface 209.
  • the processing itself in SP2a is performed by the MPU 201 executing the firmware 202a read from the flash memory 203 to the memory 202.
  • the power monitor 502 and the fan rotation speed control unit 504 are realized by the MPU 201, the memory 202, the flash memory 203, and the I2C interface 206.
  • the CPU temperature acquisition unit 503 and the throttling unit 505 are realized by the MPU 201, the memory 202, the flash memory 203, and the MB interface 204.
  • the DVFS instruction unit 510 instructs the DVFS control circuit 212a of each CPU 212 under the control of the throttling unit 505. Therefore, the DVFS instruction unit 510 is the MBC 211.
  • each server 2 inquires the control server 3 whether or not the setting change is possible when the setting change to increase the rotation level of the fan 222 is made, and the setting change is permitted from the control server 3. Unless it is done, the setting is not changed. Therefore, when there is no margin in the power allocated to the entire server 2 group, an increase in power consumption by the fan 222 is avoided.
  • the power consumption of the CPU 212 may increase by more than the increase assumed by the increased power amount. However, the power consumption larger than expected by the CPU 212 raises the CPU temperature, and the power consumption is suppressed by throttling. Therefore, an increase in power consumption by the CPU 212 occurs only temporarily. Not changing the setting of the rotation level of the fan 222 corresponds to suppressing the power consumption of the CPU 212 as necessary. As a result, the power consumption of the entire server 2 is controlled within an assumed range, and the power consumption amount is controlled (limited) to the power consumption upper limit 604b or less in the entire server 2 group.
  • Such control of the power consumption of the entire group of servers 2 is performed by setting the power consumption upper limit value 604b. Therefore, it is possible to quickly cope with a change in the amount of power allocated to the entire group of servers 2 in the data center and a change in the amount of power that can be consumed per server 2. When there is a margin in power, each server 2 can consume necessary power, so that the processing capacity of the entire data center can be maximized.
  • FIG. 8 is a flowchart of the fan rotation speed control process when the temperature rises.
  • the fan speed control process at the time of the temperature rise is a series of processes executed by the MPU 201 of the SP 2a mounted on each server 2 for controlling the speed of the fan 222 under a situation where the CPU temperature is rising. Yes, for example, every time a certain time elapses.
  • the fan rotation speed control process itself is realized by the MPU 201 executing the firmware 202a read to the memory 202. First, the operation of the MPU 201 of the SP 2a when the temperature rises will be described in detail with reference to FIG.
  • the MPU 201 acquires the sense value of each sensor 214 including each temperature sensor 214 via the MC interface 204 (SP1). Next, the MPU 201 determines whether any of the CPU temperatures acquired from the temperature sensors 214 exceeds the rotation speed increase temperature threshold value (SP2). If any of the CPU temperatures exceeds the rotation speed increase temperature threshold, the determination of SP2 is Yes and the process proceeds to SP3. When all the CPU temperatures do not exceed the rotation speed increase temperature threshold value, the determination of SP2 is No, and the fan rotation speed control process at the time of the temperature rise ends here.
  • the MPU 201 acquires the current rotation speed level of the fan 222 from the memory 202.
  • the MPU 201 refers to the fan rotation speed setting table table 506a, and acquires a setting value at a rotation speed level one level higher than the acquired rotation speed level (SP4).
  • the MPU 201 refers to the fan rotation speed setting table table 506a, and acquires the increased power amount at one rotation speed level higher than the acquired rotation speed level (SP5).
  • the MPU 201 that has acquired the increased power amount creates a message for inquiring whether or not to allow the control server 3 to transmit the created message to the LAN interface 205 (SP6).
  • the acquired increased power amount is stored in the message.
  • the MPU 201 that has transmitted the message waits for reception of a response message from the control server 3, and determines whether or not the received response message indicates that the setting change to increase the rotation level of the fan 222 is permitted (SP7). ).
  • the determination in SP7 is yes, and the MPU 201 sets the setting value acquired in SP4 in each fan controller 223 (SP8), and the fan rotation speed control process at the time of temperature rise is completed. To do.
  • the determination of SP7 is No, and the fan rotation speed control process at the time of temperature rise ends here.
  • the MPU 201 of the SP 2a changes the setting to increase the rotation level of the fan 222 by one level according to the instruction of the control server 3. For this reason, the control server 3 can avoid an increase in power consumption accompanying a design change of the rotation level of the fan 222 in the server 2 when the power that can be consumed is not sufficient.
  • FIG. 9 is a flowchart of the power consumption control process.
  • This power consumption control process is a process executed by the control server 3 in order to manage the power consumption of the entire group of servers 2 upon receipt of an inquiry message from the server 2. It is realized by executing. Next, the operation of the control server 3 will be described in detail with reference to FIG.
  • the CPU 31 determines whether or not the received message is for inquiry about availability, that is, whether or not to inquire about whether or not to change the setting to increase the rotation level of the fan 222 (SC1). If the received message is for inquiry about availability, the determination of SC1 is yes and the process proceeds to SC3. If the received message is for a purpose other than the inquiry about availability, the determination of SC1 is No and the process proceeds to SC2.
  • the CPU 31 executes processing for responding to the received message. After the execution of the process, the power consumption control process ends.
  • CPU31 assumes the case where the setting change which raises the rotation level of the fan 222 is performed in the server 2 which transmitted the message of inquiry about availability, and the electric power margin after the up which is the electric power margin in that case is shown.
  • the CPU 31 determines whether or not the sign of the surplus electric energy after the increase is positive (SC7).
  • the increased power amount stored in the availability inquiry message is an increase in power consumption of the server 2 caused by increasing the rotation level of the fan 222 as described above. Therefore, the sign of the amount of surplus power after being up means that there is a surplus of power that can increase the rotation level of the fan 222. For this reason, when there is enough power to raise the rotation level of the fan 222, the determination in SC7 is Yes and the process proceeds to SC8. If there is not enough power to raise the rotation level of the fan 222, the determination in SC7 is No and the process proceeds to SC9.
  • the CPU 31 creates a response message (indicated as “acceptable data” in FIG. 9) for notifying that the setting change for increasing the rotation level of the fan 222 is permitted, and transmits the created response message to the NIC 34.
  • the CPU 31 creates a response message (indicated as “non-response data” in FIG. 9) for notifying that the setting change to increase the rotation level of the fan 222 is not permitted, and the created response message is sent to the NIC 34. To send to. In this manner, after any response message is transmitted, the power consumption control process ends.
  • the setting change that increases the rotation level of the fan 222 of each server 2 does not cause the power consumption amount of the entire server 2 group to exceed the power consumption upper limit value 604b even if the setting change is performed. This is done on the condition.
  • the calculation method of the current power consumption at SC4, the marginal energy at SC5, and the marginal power after up at SC6 is not particularly limited.
  • the current power consumption may be a result of multiplying the current power consumption calculated in SC4 by a coefficient having a value exceeding 1.
  • FIG. 10 is a flowchart of the fan rotation speed control process when the temperature drops.
  • the fan rotation speed control process at the time of the temperature decrease is a series of processes executed by the MPU 201 of the SP 2a mounted on each server 2 for controlling the rotation speed of the fan 222 in a situation where the CPU temperature is decreasing. is there.
  • the fan rotation speed control process at the time of the temperature decrease is executed, for example, every time a predetermined time elapses, and the MPU 201 executes the firmware 202a read to the memory 202, similarly to the fan rotation speed control process at the time of the temperature increase. It is realized by doing.
  • the operation of the MPU 201 of the SP 2a when the temperature is lowered will be described in detail.
  • the MPU 201 acquires the sense value of each sensor 214 including each temperature sensor 214 via the MC interface 204 (SP21).
  • the MPU 201 determines whether or not all of the CPU temperatures acquired from the temperature sensors 214 are equal to or lower than the rotation speed down temperature threshold (SP22). If any one of the CPU temperatures is equal to or higher than the rotation speed down temperature threshold, the determination in SP22 is No, and the fan rotation speed control process at the time of the temperature decrease ends here. When all the CPU temperatures are equal to or lower than the rotation speed down temperature threshold, the determination of SP22 is Yes and the process proceeds to SP23.
  • the MPU 201 acquires the current rotation speed level of the fan 222 from the memory 202.
  • the MPU 201 refers to the fan rotation speed setting table table 506a, and acquires a setting value at one rotation speed level lower than the acquired rotation speed level (SP24).
  • the MPU 201 sets the setting value acquired in SP24 in each fan controller 223 (SP25). Thereafter, the fan rotation speed control process at the time of the temperature drop ends.
  • the MPU 201 of the SP 2a executes a setting change for lowering the rotation level of the fan 222 by one level without notifying the control server 3.
  • the reason for not notifying the control server 3 of the setting change is that the power consumption of the entire server 2 group is reduced by the setting change, and the control server 3 that has received the availability inquiry message is the power consumption at that time ( This is because (current power consumption) is collected from each server 2.
  • the control server 3 is configured to reduce the rotation level of the fan 222 by one level, and the server 2 group as a whole when any server 2 changes the setting. There is no need to recognize the power consumption.
  • FIG. 11 is a flowchart of the throttling process.
  • This throttling process is a process for suppressing the power consumption of each CPU 212 in accordance with the CPU temperature. This throttling process is executed, for example, every time a predetermined time elapses, and is executed by the MPU 201 executing the firmware 202a read out to the memory 202, as in the fan rotation speed control process when the temperature rises. The Finally, the throttling process will be described in detail with reference to FIG.
  • the MPU 201 acquires the sense value of each sensor 214 including each temperature sensor 214 via the MC interface 204 (SP31).
  • the MPU 201 determines whether or not the CPU temperature acquired from each temperature sensor 214 is increasing and whether any of the CPU temperatures exceeds the allowable temperature upper limit threshold (SP32).
  • SP32 allowable temperature upper limit threshold
  • the determination in SP32 is Yes and the process proceeds to SP33. If the CPU temperature as a whole does not tend to increase or all the CPU temperatures are equal to or lower than the allowable temperature upper limit threshold, the determination in SP33 is No and the process proceeds to SP35.
  • the MPU 201 activates the throttling function (indicated as “CPU throttling function” in FIG. 11).
  • the MPU 201 sets the VID and multiplication rate to the DVFS control circuit 212a of each CPU 212 via the MB interface 204, and lowers the clock frequency (operating frequency) and the power supply voltage (SP34). Thereafter, the throttling process ends.
  • the MPU 201 determines whether or not the CPU temperature acquired from each temperature sensor 214 is decreasing and all the CPU temperatures are equal to or lower than the allowable temperature lower limit threshold.
  • the determination in SP35 is Yes and the process proceeds to SP36. If the CPU temperature does not tend to decrease as a whole, for example, if the CPU temperature fluctuates randomly as a whole, or if any of the CPU temperatures is equal to or higher than the allowable temperature lower limit threshold, the determination of SP35 is No. The throttling process ends.
  • the MPU 201 releases the throttling function.
  • the MPU 201 sets the normal VID and multiplication rate to the DVFS control circuit 212a of each CPU 212 via the MB interface 204, and sets the clock frequency (operating frequency) and power supply voltage to the normal state. Return (SP37). Thereafter, the throttling process ends.
  • the server 2 is caused to transmit the increased power amount to the control server 3 by the inquiry about availability.
  • control information for specifying the increased power amount is used as the control server. 3 may be transmitted.
  • each server 2 makes an inquiry about whether or not the setting change for increasing the rotation level of the fan 222 is performed, but the inquiry about whether or not the server 2 may be performed also in another situation. Since many of the servers 2 that cannot perform the setting change are considered to perform throttling, the availability inquiry may be performed even when throttling is being performed. Also, on the condition that the control server 2 has a relatively large margin when collecting the power consumption of the entire group of servers 2 for the server 2 that did not allow the setting change by the availability inquiry, You may make it notify that a setting change is permitted. A priority order may be set for the server 2 or the server group, and a notification for permitting a setting change from the control server 3 may be performed according to the priority order.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Power Sources (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

 本発明を適用した1システムは、それぞれが冷却装置を1台以上、制御する複数台の情報処理装置と、各冷却装置、及び複数台の情報処理装置を含む管理対象群全体の消費電力を管理する制御装置とを備える。複数台の情報処理装置は、自情報処理装置の状態を検出する検出部と、検出部が検出した状態を基に、冷却装置を駆動するうえでの設定内容を決定する決定部と、決定部が決定した設定内容が現在の設定内容である現設定内容より冷却装置の消費電力を増大させる場合に、消費電力の増大分を少なくとも含む増加電力量を表す制御情報を制御装置に送信して、現設定内容から設定内容への設定変更の可否を問合わせる問合わせ部と、問合わせ部による問合わせへの制御装置の応答に従って、現設定内容から設定内容への設定変更を行う設定変更部と、を有する。制御装置は、管理対象群全体の消費電力の上限値を記憶した記憶部と、管理対象群全体の消費電力量である全消費電力量を取得する取得部と、何れかの情報処理装置から問合わせがあった場合に、問合わせによって受信する制御情報が表す増加電力量、全消費電力量、及び上限値を用いて、問合わせを行った情報処理装置での設定変更の可否を判定する判定部と、判定部による判定結果を問合わせへの応答として、問合わせを行った情報処理装置に通知する通知部と、を有する。

Description

情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法
 本発明は、データセンタ等の施設にサーバ等として設置される情報処理装置群全体の消費電力を管理するための技術に関する。
 データセンタ等の施設には、多数の情報処理装置がサーバとして設置される。情報処理装置の消費電力は、演算処理装置(例えばCPU(Central Processing Unit))、及びメモリ(メモリモジュール)の数の増加等に伴い、大きいものとなっている。そのため、近年、施設全体の消費電力を抑制する省電力化へのニーズが大きくなっている。以降、便宜的に、情報処理装置は「サーバ」、演算処理装置は「CPU」とそれぞれ表記する。施設は「データセンタ」と表記する。
 現在、CPUの大部分に省電力機能が搭載されている。CPUに印加される電源電圧、及び/或いは、CPUが用いるクロックの周波数を低下させることが可能なDVFS機能は、その省電力機能である。電源電圧、及びクロック周波数のうちの少なくとも一つを低下させる省電力モードに移行させることにより、CPUの消費電力はより抑えることができる。
 高性能化に伴い、CPUによる消費電力がサーバ全体で占める割合は大きくなっている。現在では、そのことに着目し、DVFS機能を用いてサーバ全体の消費電力を制限するパワーキャッピングが行われている。そのパワーキャッピングでは、例えばサーバ全体の消費電力量を監視し、監視する消費電力量が設定上限値を超えた場合に、DVFS機能によりCPUを消費電力モードに移行させ、サーバ全体の消費電力を制限するようになっている。
 このパワーキャッピングをサーバ、或いはサーバグループ(例えば同じラックに収納された複数台のサーバ)に用いることにより、サーバ単体、或いはサーバグループ全体の消費電力量を想定範囲内に抑えることができる。また、各サーバ、或いは各サーバグループの消費電力量の制御を通して、データセンタに設置されたサーバ全体の消費電力量を想定範囲内に抑えることができる。パワーキャッピングは、各サーバ、或いは各サーバグループの利用状況(消費電力量)の変化を予想し、その予想によるスケジューリングに沿ってDVFS機能を有効にさせる形でも用いられている。
 パワーキャッピングを用いた消費電力の制限(抑制)は、サーバをグループ化していたとしても、サーバ毎に設定を行わなければならない。そのため、データセンタのような非常に多くのサーバが設置された環境では、設定作業に大きな労力、及び長い時間が必要となる。
 データセンタは、通常、データセンタ全体を冷却するための冷却設備(多くの場合、空調設備である)を備えている。サーバ、ネットワークスイッチ、及びストレージ等の機器(以降「IT(Information Technology)機器」と表記)全体が消費可能な電力の上限値は、データセンタ全体で消費可能な電力の上限値から冷却設備等による消費分を除いた値となる。以降、IT機器全体で消費可能な電力の上限値は「機器用上限値」、データセンタ全体で消費可能な電力の上限値は「全体上限値」、IT機器以外で消費可能な電力の上限値は「設備用上限値」とそれぞれ表記する。これらの上限値の間には、全体上限値=機器用上限値+設備用上限値、の関係が成立する。
 データセンタでは、環境外部の変化、例えば外部の気温の変化に伴い、冷却設備(空調設備)に求められる冷却能力が変化する。求められる冷却能力の変化は、機器用上限値を変更する理由となる。
 IT機器において、ストレージ、及びネットワークスイッチ等は、サーバとは異なり、消費電力量の変動は小さい。また、ストレージ、及びネットワークスイッチ等は、消費電力を適切に抑制するのが困難である。そのため、機器用上限値の変更に伴い、各サーバの消費可能とする電力量を変更する必要性が生じる。
 また、データセンタでは、環境内部の変化、例えばサーバの増設、及びサーバの入れ替え等が高頻度に発生するのが普通である。そのような環境内部の変化は、IT機器全体の最大の消費電力量を変化させると共に、冷却設備に求められる冷却能力を変化させる可能性が高い。このため、内部環境の変化も、各サーバ(各サーバグループ)の消費可能とする電力量を変更する契機となる。
 このようなことから、データセンタのような多くのサーバが設置される環境では、パワーキャッピングのための設定の変更が高頻度で発生するのが普通である。各サーバ(各サーバグループ)の消費可能な電力量が変化することから、設定変更には、スケジューリングを用いるか否かに係わらず、サーバ単位の作業が必要である。そのため、設定変更には、多大な労力、及び長い時間が必要となるのが普通である。しかし、環境内外の変化には、迅速に対応する必要がある。そのため、サーバ群全体の消費電力を制限する設定は、より容易に行えるようにするのが望ましいと考えられる。
特開2009-48607号公報 特開2012-198736号公報 特開2011-39889号公報
 1側面では、本発明は、サーバ(情報処理装置)が多く設置された環境において、サーバ群全体の消費電力をより容易な設定により管理するための技術を提供することを目的とする。
 本発明を適用した1システムは、それぞれが冷却装置を1台以上、制御する複数台の情報処理装置と、各冷却装置、及び複数台の情報処理装置を含む管理対象群全体の消費電力を管理する制御装置とを備える。複数台の情報処理装置は、自情報処理装置の状態を検出する検出部と、検出部が検出した状態を基に、冷却装置を駆動するうえでの設定内容を決定する決定部と、決定部が決定した設定内容が現在の設定内容である現設定内容より冷却装置の消費電力を増大させる場合に、消費電力の増大分を少なくとも含む増加電力量を表す制御情報を制御装置に送信して、現設定内容から設定内容への設定変更の可否を問合わせる問合わせ部と、問合わせ部による問合わせへの制御装置の応答に従って、現設定内容から設定内容への設定変更を行う設定変更部と、を有する。制御装置は、管理対象群全体の消費電力の上限値を記憶した記憶部と、管理対象群全体の消費電力量である全消費電力量を取得する取得部と、何れかの情報処理装置から問合わせがあった場合に、問合わせによって受信する制御情報が表す増加電力量、全消費電力量、及び上限値を用いて、問合わせを行った情報処理装置での設定変更の可否を判定する判定部と、判定部による判定結果を問合わせへの応答として、問合わせを行った情報処理装置に通知する通知部と、を有する。
 本発明を適用した1システムでは、情報処理装置が多く設置された環境において、情報処理装置群全体の消費電力をより容易な設定により管理することができる。
本実施形態による情報処理システムの構成例を説明する図である。 サーバに搭載されたSPの構成例、及びそのSPと接続された構成要素の一部を表す図である。 本実施形態による制御装置である制御サーバとしてとして使用可能な情報処理装置の構成例を表す図である。 制御サーバ、及び各サーバに搭載されたSPの機能構成例を説明する図である。 監視対象リストの構成例を説明する図である。 ファン回転数設定テーブルの構成例を説明する図である。 温度閾値テーブルの構成例を説明する図である。 温度上昇時におけるファン回転数制御処理のフローチャートである。 消費電力制御処理のフローチャートである。 温度下降時におけるファン回転数制御処理のフローチャートである。 スロットリング処理のフローチャートである。
 以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
 図1は、本実施形態による情報処理システムの構成例を説明する図である。本実施形態による情報処理システムは、データセンタに構築されたシステムである。図1に表すように、その情報処理システムは、例えばLAN(Local Area Network)であるネットワーク1に対し、多数のサーバ2、制御サーバ3、及び例えばPC(Personal Computer)である端末装置4を接続する形で構築されている。
 各サーバ2は、SP(Service Processer)2a、1つ以上のシステムボード(SB)2b、及び1つ以上のIOU(Input/Output Unit)2cを備えた情報処理装置である。本実施形態による情報処理装置は、サーバ2として実現されている。
 SP2aは、搭載されたサーバ2を管理する管理装置であり、ネットワーク1を介して制御サーバ3との通信を行う。SB2bは、1個以上のCPUを搭載した処理モジュールである。IOU2cは、ハードディスク装置等のIO装置を1台以上、搭載した処理モジュールである。
 図2は、サーバに搭載されたSPの構成例、及びそのSPと接続された構成要素の一部を表す図である。
 SP2aは、図2に表すように、MPU(Micro-Processing Unit)201、メモリ202、フラッシュメモリ203、MB(Maintenance Bus)インターフェース204、LANインターフェース205、I2C(Inter-Integrated Circuit)インターフェース206、及びUSB(Universal Serial Bus)インターフェース207を備えている。LANインターフェース205は、ネットワーク2を介した制御サーバ3との通信を可能にさせるインターフェースである。
 SB2bには、MBC(Maintenance Bus Controller)211、複数のCPU212、複数のDDC(DC(Direct Current)-DC Converter)213、複数のセンサ214、及びADC(Analog to Digital Converter)215が搭載されている。各CPU212は、DVFS制御回路212aを備えている。各センサ214は、サーバ2の状態を検出するためのものであり、例えばCPU212の温度を測定するための複数の温度センサ214(図4)、他の部分の温度を測定するための複数の温度センサ、電力を計測するための複数の電力センサ等が存在する。
 DVFS制御回路212aは、CPU212に電力を供給するDDC213に設定するVID(Voltage IDentifier)により、そのDDC213から供給される電力の電圧(電源電圧)を制御することができる。また、DVFS制御回路212aは、CPU212に搭載されたPLL(Phase Locked Loop)回路(不図示)の逓倍率の設定を通して、そのCPU212自身用のクロックの周波数を制御することができる。電源電圧、及びクロック周波数は共に、CPU212の消費電力を増減させる。それにより、DVFS制御回路212aは、CPU212の消費電力の管理に用いられる。
 MBC311は、SB2b内では、各CPU312、各CPU312に搭載されたDVFS制御回路312a、各DDC213、及びADC215と接続されている。また、MBC311は、SP2aのMBインターフェース204と接続されている。それにより、SP2aは、各センサ214からADC215を介して出力されるセンス値を取得することができ、各DVFS制御回路212aを用いて、各CPU212の消費電力を抑制することができる。
 SP2aのI2Cインターフェース206には、複数台のPSU(Power Supply Unit)221、及びファン222を駆動する複数のファンコントローラ(FANC)223が接続されている。それにより、SP2aは、各PSU221のオン/オフ、及び各ファンコントローラ223を介した各ファン222の回転数の制御を行うことができる。
 SP2aのフラッシュメモリ203には、MPU201が実行するファームウェア202aが格納されている。このファームウェア202a、つまりMPU201は、MBインターフェース204を介した各センサ214による検出結果の収集を行い、収集した検出結果を用いてファンコントローラ223、各CPU212のDVFS制御回路312a、及び各PSU321の制御を行う。
 ファン222は、サーバ2の内部に発生する熱を除去するための冷却装置である。このファン222は、CPU212と共に、サーバ2で大きな電力を消費する構成要素である。最近の大部分のサーバでは、ファンによって消費される電力量が全体の30~50%の割合となっている。そのため、現在では、ファンの消費電力の抑制が行われている。
 ファンの消費電力の抑制は、周囲温度、或いはCPU等の状態に応じて、ファンの回転数を制御することで行われている。データセンタでは、サーバ2の周囲温度(吸気温度)は一定温度に維持されるのが普通である。CPU212の消費電力の変動は大きく、他よりも高温となりやすい。このことから、ファームウェア202aを実行するMPU201は、各センサ214のなかで温度センサ214による検出結果、例えばCPU212の温度を監視し、ファン222の回転数を制御するのが普通となっている。本実施形態では、ファン222の回転数(回転速度)は、多段階で変更されるようになっている。
 ファン222による消費電力は、回転数によって変化する。その消費電力は、回転数が大きくなるほど増大する。そのため、ファン222の回転数を大きくする設定変更は、サーバ2の消費電力を階段状に変化させる契機となる。本実施形態では、サーバ2の消費電力を階段状に変化させるファン222の回転数の設定変更に着目し、サーバ2群全体の消費電力の制御を行う。
 なお、サーバの冷却には、流体として液体を用いる場合がある。液体を用いて冷却を行うサーバでは、その液体を取り込むためのポンプの回転数を制御して、必要な冷却能力を確保することができる。このことから、冷却装置はファン222とは異なる種類であっても良い。
 サーバが搭載される専用ラックのなかには、冷却装置として空調機器を備えたものがある。専用ラックに備えられた空調設備による冷却能力は、搭載されたサーバ、或いは専用ラックに搭載された情報処理装置によって調整可能になっている。このことから、消費電力を制御する対象としてのサーバ2群全体のなかには、サーバ2に搭載されていない冷却装置が含まれる場合もある。つまり、何れかのサーバ2の状態に応じて個別に制御される冷却装置は、消費電力を制御する対象の一部となる。
 ネットワーク1に接続された制御サーバ3は、サーバ2群全体の消費電力を制御するために設置されている。それにより、制御サーバ3は、本実施形態による制御装置となっている。
 図3は、本実施形態による制御装置である制御サーバとしてとして使用可能な情報処理装置の構成例を表す図である。ここで、図3を参照し、制御サーバ3として使用可能な情報処理装置について具体的に説明する。
 この情報処理装置は、図3に表すように、CPU31、FWH(Firm-Ware Hub)32、メモリ(メモリモジュール)33、NIC(Network Interface Card)34、ハードディスク装置(HD)35、ファン36、コントローラ37、及びBMC(Baseboard Management Controller)38を備えている。この構成は1例であり、制御サーバ3として使用可能な情報処理装置の構成は、図3表すようなものに限定されない。
 FWH32は、ファームウェアを格納したメモリである。このファームウェアは、CPU31によってメモリ33に読み出され実行される。ハードディスク装置35には、OS(Operating System)、及び各種アプリケーション・プログラムが格納されている。CPU31は、ファームウェアの起動が完了した後、コントローラ37を介してハードディスク装置35からOS、更には必要なアプリケーション・プログラムを読み出して実行することができる。NIC34を介した通信は、OSの起動によって可能となる。
 ハードディスク装置35に格納されているアプリケーション・プログラムのなかには、サーバ群2全体の消費電力を管理するためのアプリケーション・プログラム(以降「消費電力管理ソフトウェア」と表記)が含まれている。CPU31は、その消費電力管理ソフトウェアを実行して、サーバ2群全体の消費電力を制御する。
 BMC38は、情報処理装置を管理するための専用の管理装置である。BMC38は、CPU31のオン/オフ、不図示のPSUのオン/オフ、各構成要素に発生するエラーの監視、等を行う。
 図4は、制御サーバ、及び各サーバに搭載されたSPの機能構成例を説明する図である。ここで図4を参照し、制御サーバ3、及び各サーバ2に搭載されたSP2aの各機能構成、並びに制御サーバ3、及びSP2aの動作について詳細に説明する。
 各サーバ2のSP2aは、図4に表すように、通信部501、電力モニタ502、CPU温度取得部503、ファン回転数制御部504、スロットリング部505、及び記憶部506を備えている。
 制御サーバ3は、図4に表すように、通信部601、現電力収集部602、可否判断部604、及び記憶部604を備えている。
 始めに、制御サーバ3について説明する。
 上記記憶部604には、消費電力の制御対象とするサーバ2を表す監視対象リスト604a、及び消費電力上限値604bが格納されている。
 監視対象リスト604aには、図5に表すように、監視対象とするサーバ2毎に、そのサーバ名、及びそのサーバ2に搭載されたSP2aのIP(Internet Protocol)アドレスの各データが格納されている。それにより、制御サーバ3は、監視対象リスト604aを参照することにより、通信を行うべきサーバ2のSP2aとの通信を行うことができる。
 消費電力上限値604bは、サーバ2群全体で消費可能な電力の上限値として設定されたデータである。制御サーバ3は、サーバ2群全体の消費電力が消費電力上限値604b以下となるように、サーバ2群全体の消費電力を管理する。
 端末装置4は、監視対象リスト604a、及び消費電力上限値604bの設定・更新に用いられる。
 通信部601は、各サーバ2のSP2aとの通信に用いられる。現電力収集部602は、各サーバ2の現在の消費電力量をSP2aから収集するための機能である。
 本実施形態では、ファン222の回転数を増大させるべき状況となったサーバ2は、ファン222の回転数を増大させる設定変更を行うことの可否を制御サーバ3に問合わせ、その問合わせへの応答結果に従い、設定変更を行うようになっている。可否判断部603は、その問合わせへの応答として送信すべきメッセージを作成する機能である。その問合わせは以降「可否問合わせ」と表記する。
 可否判断部603は、何れかのサーバ2のSP2aから上記可否問合わせを通信部601が受信した場合、現電力収集部603に対し、各サーバ2の現在の消費電力量の収集を指示する。その指示により、現電力収集部603は、監視対象リスト604aを参照し、各サーバ2のSP2aに現在の消費電力量の送信を要求する。現電力収集部603は、その要求によって各サーバ2のSP2aから送信される消費電力量を可否判断部603に渡す。
 なお、各サーバ2の消費電力量の収集は、分電盤等の電力中継器から行うようにしても良い。消費電力量の収集方法は、特に限定されるものではない。
 可否判断部603は、現電力収集部603から渡された各サーバ2の現在の消費電力量を累算して、サーバ2群全体の現在の消費電力量(以降「現消費電力量」と表記)を算出する。次に、可否判断部603は、算出した現消費電力量、及び消費電力上限値604aを用いて、現在の電力の余裕分を表す電力量(以降「余裕電力量」と表記)を算出する。それにより、可否判断部603は、算出した余裕電力量が、可否問合わせを送信したサーバ2での設定変更に伴う消費電力の上昇分(以降「増加消費電力量」と表記)より大きい場合に、その設定変更を許可する。可否判断部603は、そのように設定変更の可否を判断し、その判断結果に応じた内容のメッセージを作成し、作成したメッセージを通信部601から送信させる。
 各サーバ2のSP2aが有する通信部501は、制御サーバ3との通信に用いられる。電力モニタ502は、各PSU221とのI2Cバスを介した通信により、各PSU221から供給している電力量をデータとして収集する機能である。
 CPU温度取得部503は、各CPU212の温度を測定する温度センサ214から出力されたセンス値、つまり温度センサ214によって検出された温度を取得する。ファン回転数制御部504は、CPU温度取得部503が取得した各CPU212の温度から、ファンコントローラ223を介してファン222の回転数を制御する。ファン222の回転数の制御のために、ファン回転数制御部504は、記憶部506に格納されているファン回転数設定テーブル506a、及び温度閾値テーブル506bを参照する。
 図6は、ファン回転数設定テーブルの構成例を説明する図である。
 上記のように、ファン222の回転数(回転レベル)は多段階で制御する。それにより、ファン222の回転数は、段階的に増減される。このファン回転数設定テーブルテーブル506aは、ファン222の回転数を段階的に増大させる場合に、その回転数の増大に伴い、増加する消費電力量を特定可能にするために用意されたテーブルである。図6に表すように、ファン回転数設定テーブルテーブル506aには、ファン回転レベル毎に、ファンコントローラ設定値(Hex)、及びファン回転レベル増加電力量(W)の各データが格納されている。
 ファンコントローラ設定値は、ファンコントローラ223に設定すべき設定値を16進数で表した値である。図6中に表記の「1Ah」「33h」「4Ch」等は全て、16進数の数値を表している。
 ファン回転レベル増加電力量(W)は、一つ小さい回転レベルでの消費電力量を基準として、その基準とする消費電力量からの増加分を表すデータである。図6中に表記の「35.6」「98.8」「142.4」はそれぞれ、回転レベルを1から2に変更する、回転レベルを2から3に変更する、及び回転レベルを3から4に変更する各場合で増加する電力量を表している。以降、ファン回転レベル増加電力量は「増加電力量」と略記する。
 本実施形態では、増加電力量は、サーバ2全体の増加電力量としている。それにより、増加電力量には、ファン222自体の消費電力の増加分、及び設定変更後のファン222によってCPU温度が回転数アップ温度閾値以下に抑えることが可能なまでのCPU212の消費電力の増加分を含む。CPU212が実際に消費する電力は不明であることから、増加電力量は、確実に増大する電力量としても良い。
 ファン222は複数、搭載される場合、各ファン222によって冷気が供給される範囲は異なるのが普通である。各ファン222で冷気の供給を想定するCPU212の数、そのファン222による冷却効率等によって、増加電力量は変化する。そのため、サーバ2によっては、複数のファン回転数設定テーブル506aを用意する必要がある。しかし、ここでは、説明上、便宜的にファン回転数設定テーブル506aは一つのみと想定する。つまり、全てのファン222は駆動され、且つ同じ回転レベルが設定されると想定する。
 図7は、温度閾値テーブルの構成例を説明する図である。
 この温度閾値テーブル506bは、ファン222の回転レベルを変更すべき状況、及びCPU212の消費電力を抑制するスロットリングを行うべき状況の判定のために用意されたテーブルである。この温度閾値テーブル506bには、図7に表すように、回転数アップ(UP)温度閾値(℃)、回転数ダウン(DOWN)温度閾値(℃)、許容温度上限閾値(℃)、及び許容温度下限閾値(℃)の各データが格納されている。
 回転数アップ温度閾値は、ファン222の回転レベルを1段階、上げるべき状況、つまり冷却能力をより高くすべき状況を判定するためのデータである。図7に表記の「80」は、CPU212の温度(温度センサ214により検出された温度)が80℃を超えた状況時に、回転レベルが1段階、上げられることを意味する。
 回転数ダウン温度閾値は、ファン222の回転レベルを1段階、下げるべき状況、つまり冷却能力をより低くすべき状況を判定するためのデータである。図7に表記の「72」は、CPU212の温度が72℃以下となった状況時に、回転レベルが1段階、下げられることを意味する。
 許容温度上限閾値は、スロットリング機能を有効とすべき状況を判定するためのデータである。図7に表記の「92」は、上昇傾向にあるCPU212の温度が92℃を超えた状況時に、スロットリング機能が有効となることを意味する。以降、温度センサ214によって検出(測定)されたCPU212の温度は「CPU温度」と表記する。
 許容温度下限閾値は、スロットリング機能を無効とすべき状況を判定するためのデータである。図7に表記の「82」は、下降傾向にあるCPU212の温度が92℃を超えた状況時に、スロットリング機能が有効となることを意味する。
 上記ファン回転数設定テーブル506a、及び温度閾値テーブル506bは、例えば工場でサーバ2に保存されるテーブルである。各テーブル506a、及び506bは、端末装置4を用いて更新することができる。
 ファン回転数制御部504は、CPU温度取得部503が取得したCPU温度を、温度閾値テーブル506bの回転数アップ温度閾値、及び回転数ダウン温度閾値とそれぞれ比較する。ファン回転数制御部504は、その比較の結果、CPU温度が回転数アップ温度閾値を超えていることを確認した場合に、通信部501を介して、上記可否取り合わせを行い、回転レベルの設定変更の可否を確認する。ファン回転数制御部504は、その可否問合わせのためのメッセージに、現在より1段階、上の回転レベルの増加電力量を格納し、その増加電力量を制御サーバ3に通知する。
 ファン回転数制御部504は、可否問合わせへの応答メッセージにより、設定変更の許可が通知された場合、回転レベルを1段階、上げる設定変更をファンコントローラ223に対して行う。設定変更が許可されなかった場合、ファン回転数制御部504は、ファン222の回転レベルの設定を変更しない。
 ファン回転数制御部504は、CPU温度が回転数ダウン温度閾値以下であることを確認した場合、制御サーバ3への問合わせを行うことなく、ファン222の回転レベルを1段階、下げる。これは、ファン222の回転レベルを1段階、下げる設定変更は、サーバ2の消費電力量を低下させるからである。つまり、その設定変更は、サーバ2群全体の消費電力量を消費電力上限値604b以上とさせないからである。
 ファン222の回転レベルを上げる設定変更が行われない場合、80℃を超えたCPU温度は更に上昇する可能性がある。スロットリング部505は、ファン222により十分な冷却が行えない状況に対応するために用意されている。
 スロットリング部505は、CPU温度取得部503が取得したCPU温度を監視し、そのCPU温度を温度閾値テーブル506bの許容温度上限閾値、及び許容温度下限閾値と比較する。それにより、CPU温度が上昇傾向にあり、且つそのCPU温度が許容温度上限閾値を超えた場合に、スロットリング部505は、DVFS指示部510を介して、各CPU212のDVFS制御回路212aの設定を変更する。その設定変更を通して、スロットリング部505は、各CPU212の消費電力を抑制させ、CPU温度を低下させる。
 一方、CPU温度が下降傾向にあり、且つそのCPU温度が許容温度下限閾値以下となった場合に、スロットリング部505は、DVFS指示部510を介して、各CPU212のDVFS制御回路212aの設定を通常時の設定に戻す。その設定変更を通して、スロットリング部505は、各CPU212の性能を通常の状態に復帰させる。
 本実施形態では、SP2aがスロットリング部505を備えているが、このスロットリング部505は、SP2aの外部に設けても良い。例えばCPU212上にスロットリング部505を実現させても良い。
 SP2aが図2に表す構成であった場合、通信部501は、LANインターフェース205である。ファン回転数設定テーブルテーブル506a、及び温度閾値テーブル506bは、例えばフラッシュメモリ203に保存され、メモリ202に読み出されてMPU201に参照される。このことから、記憶部506は、フラッシュメモリ203、及びメモリ202によって実現される。
 各PSU221、及び各ファンコントローラ223は、I2Cバスを介してI2Cインターフェース206と接続されている。複数の温度センサ214を含む各センサ214による検出結果は、MBC211を介してMBコントローラ209に入力される。各CPU212のDVFS制御回路212aへの指示は、MBインターフェース209を介して行われる。SP2aでの処理自体は、フラッシュメモリ203からメモリ202に読み出されたファームウェア202aをMPU201が実行することで行われる。
 このようなことから、電力モニタ502、及びファン回転数制御部504は、MPU201、メモリ202、フラッシュメモリ203、及びI2Cインターフェース206によって実現される。CPU温度取得部503、及びスロットリング部505は、MPU201、メモリ202、フラッシュメモリ203、及びMBインターフェース204によって実現される。
 DVFS指示部510は、スロットリング部505の制御により、各CPU212のDVFS制御回路212aに指示を行う。このことから、DVFS指示部510は、MBC211である。
 上記のように、各サーバ2は、ファン222の回転レベルを上げる設定変更を行うべき状況となった場合、その設定変更の可否を制御サーバ3に問合わせ、その設定変更が制御サーバ3から許可されない限り、その設定変更を行わない。そのため、サーバ2群全体に割り当てられた電力に余裕がない場合、ファン222による消費電力の増大は回避される。
 CPU212の消費電力は、増加電力量で想定する増加分以上、増加することは有り得る。しかし、CPU212の想定より大きい消費電力はCPU温度を上昇させ、スロットリングによる消費電力の抑制が行われる。そのため、CPU212による消費電力の増大は一時的にのみ発生することになる。ファン222の回転レベルの設定変更を行わないことは、CPU212の消費電力を必要に応じて抑制することに相当する。これらの結果、サーバ2全体では、消費電力は想定の範囲内に制御され、サーバ2群全体では、消費電力量は消費電力上限値604b以下に制御(制限)される。
 このようなサーバ2群全体の消費電力量の制御は、消費電力上限値604bの設定により行われる。そのため、データセンタにおけるサーバ2群全体への電力量の割り当ての変更、及び1台のサーバ2当たりの消費可能な電力量の変更、等にも迅速に対応することができる。電力に余裕がある場合、各サーバ2は必要な電力を消費できることから、データセンタ全体の処理能力も最大にすることができる。
 以降は、図8~図11に表す各フローチャートを参照し、各サーバ2のSP2a、及び制御サーバ3の動作について詳細に説明する。
 図8は、温度上昇時におけるファン回転数制御処理のフローチャートである。この温度上昇時におけるファン回転数制御処理は、各サーバ2に搭載されたSP2aのMPU201が、CPU温度が上昇している状況下でファン222の回転数の制御のために実行する一連の処理であり、例えば一定時間が経過する度に実行される。このファン回転数制御処理自体は、メモリ202に読み出されたファームウェア202aをMPU201が実行することで実現される。始めに図8を参照し、温度上昇時におけるSP2aのMPU201の動作について詳細に説明する。
 先ず、MPU201は、MCインターフェース204を介して、各温度センサ214を含む各センサ214のセンス値を取得する(SP1)。次にMPU201は、各温度センサ214から取得されたCPU温度のうちの何れかが回転数アップ温度閾値を超えているか否か判定する(SP2)。何れかのCPU温度が回転数アップ温度閾値を超えていた場合、SP2の判定はYesとなってSP3に移行する。全てのCPU温度が回転数アップ温度閾値を超えていない場合、SP2の判定はNoとなり、ここで温度上昇時におけるファン回転数制御処理が終了する。
 SP3では、MPU201は、現在のファン222の回転数レベルをメモリ202から取得する。次に、MPU201は、ファン回転数設定テーブルテーブル506aを参照し、取得した回転数レベルから1段階、上の回転数レベルでの設定値を取得する(SP4)。続けてMPU201は、ファン回転数設定テーブルテーブル506aを参照し、取得した回転数レベルから1段階、上の回転数レベルでの増加電力量を取得するSP5)。
 増加電力量を取得したMPU201は、制御サーバ3に可否問合わせのためのメッセージを作成し、作成したメッセージをLANインターフェース205に送信させる(SP6)。取得された増加電力量は、そのメッセージ中に格納される。
 メッセージを送信させたMPU201は、制御サーバ3からの応答メッセージの受信を待って、受信した応答メッセージが、ファン222の回転レベルを上げる設定変更を許可する旨を表しているか否か判定する(SP7)。
 制御サーバ3がその設定変更を許可した場合、SP7の判定はyesとなり、MPU201はSP4で取得した設定値を各ファンコントローラ223に設定し(SP8)、温度上昇時におけるファン回転数制御処理が終了する。制御サーバ3がその設定変更を許可しなかった場合、SP7の判定はNoとなり、ここで温度上昇時におけるファン回転数制御処理が終了する。
 このように、CPU温度が回転数アップ温度閾値を超えた場合、SP2aのMPU201は、ファン222の回転レベルを1段階、上げる設定変更を、制御サーバ3の指示に従って行う。そのため、制御サーバ3は、消費可能な電力に余裕のない状況であった場合、サーバ2におけるファン222の回転レベルの設計変更に伴う消費電力の増大を回避させることができる。
 図9は、消費電力制御処理のフローチャートである。この消費電力制御処理は、サーバ2からの問合わせのメッセージの受信を契機に、サーバ2群全体の消費電力を管理するために制御サーバ3が実行する処理であり、CPU31が、消費電力管理ソフトウェアを実行することで実現される。次に、図9を参照し、制御サーバ3の動作について詳細に説明する。
 先ず、CPU31は、受信したメッセージが可否問合わせのためのものか否か、つまりファン222の回転レベルを上げる設定変更の可否を問合わせるものか否か判定する(SC1)。受信したメッセージが可否問合わせのためのものであった場合、SC1の判定はyesとなってSC3に移行する。受信したメッセージが可否問合わせ以外のためのものであった場合、SC1の判定はNoとなってSC2に移行する。
 SC2では、CPU31は、受信したメッセージに対応するための処理を実行する。その処理の実行後、消費電力制御処理が終了する。
 SC3では、CPU31は、監視対象リスト604aに登録されている各サーバ2のSP2aに対し、現在の消費電力量(図9中「現利用電力量」と表記)の送信を要求して、各サーバ2の現利用電力量を取得する。各サーバ2の現利用電力量を取得した後、CPU31は、例えば取得した現利用電力量を累算して、サーバ2群全体の消費電力量(図9中「現消費電力量」と表記)を算出する(SC4)。その現消費電力量の算出後、CPU31は、現時点での電力の余裕分である余裕電力量を計算する(SC5)。その余裕電力量の計算は、例えば消費電力上限値604bから現消費電力量を減算する(=消費電力上限値604b-現消費電力量)ことで行う。
 次に、CPU31は、可否問合わせのメッセージを送信したサーバ2でファン222の回転レベルを上げる設定変更を行った場合を想定し、その場合の電力の余裕分であるアップ後の余裕電力量を計算する(SC6)。アップ後の余裕電力量の計算は、例えばSC5で計算した余裕電力量から、可否問合わせのメッセージに格納されている増加電力量を減算する(=余裕電力量-増加電力量)ことで行う。
 次に、CPU31は、アップ後の余裕電力量の符号が正か否か判定する(SC7)。可否問合わせのメッセージに格納されている増加電力量は、上記のように、ファン222の回転レベルを上げることによって生じるサーバ2の消費電力の増加分である。そのため、アップ後の余裕電力量の符号が正とは、ファン222の回転レベルを上げさせても良いだけの電力の余裕があることを意味する。このことから、ファン222の回転レベルを上げても良いだけの電力の余裕がある場合、SC7の判定はYesとなってSC8に移行する。ファン222の回転レベルを上げても良いだけの電力の余裕がない場合、SC7の判定はNoとなってSC9に移行する。
 SC8では、CPU31は、ファン222の回転レベルを上げる設定変更を許可する旨を通知するための応答メッセージ(図9中「可応答データ」と表記)を作成し、作成した応答メッセージをNIC34に送信させる。一方、SC9では、CPU31は、ファン222の回転レベルを上げる設定変更を許可しない旨を通知するための応答メッセージ(図9中「否応答データ」と表記)を作成し、作成した応答メッセージをNIC34に送信させる。そのようにして、何れかの応答メッセージを送信させた後、消費電力制御処理が終了する。
 このようにして、本実施形態では、各サーバ2のファン222の回転レベルを上げる設定変更は、その設定変更を行っても、サーバ2群全体の消費電力量が消費電力上限値604bを超えないことを条件に、行わせている。なお、SC4での現消費電力量、SC5での余裕電力量、及びSC6でのアップ後の余裕電力量の計算方法は、特に限定されない。ファン222の回転レベルの設定変更後のサーバ2群全体の消費電力量が消費電力上限値604bを確実に超えないようにするうえでは、或る程度のマージンを設けるのが望ましい。例えば現消費電力量は、SC4で算出される現消費電力量に1を超える値の係数を乗算した結果としても良い。
 図10は、温度下降時におけるファン回転数制御処理のフローチャートである。この温度下降時におけるファン回転数制御処理は、各サーバ2に搭載されたSP2aのMPU201が、CPU温度が下降している状況下でファン222の回転数の制御のために実行する一連の処理である。この温度下降時におけるファン回転数制御処理は、上記温度上昇時におけるファン回転数制御処理と同様に、例えば一定時間が経過する度に実行され、メモリ202に読み出されたファームウェア202aをMPU201が実行することで実現される。次に図10を参照し、温度下降時におけるSP2aのMPU201の動作について詳細に説明する。
 先ず、MPU201は、MCインターフェース204を介して、各温度センサ214を含む各センサ214のセンス値を取得する(SP21)。次にMPU201は、各温度センサ214から取得されたCPU温度の全てが回転数ダウン温度閾値以下となっているか否か判定する(SP22)。何れかのCPU温度が回転数ダウン温度閾値以上となっている場合、SP22の判定はNoとなり、ここで温度下降時におけるファン回転数制御処理が終了する。全てのCPU温度が回転数ダウン温度閾値以下となっている場合、SP22の判定はYesとなってSP23に移行する。
 SP23では、MPU201は、現在のファン222の回転数レベルをメモリ202から取得する。次に、MPU201は、ファン回転数設定テーブルテーブル506aを参照し、取得した回転数レベルから1段階、下の回転数レベルでの設定値を取得する(SP24)。続けてMPU201は、SP24で取得した設定値を各ファンコントローラ223に設定する(SP25)。その後、温度下降時におけるファン回転数制御処理が終了する。
 このように、全てのCPU温度が回転数ダウン温度閾値以下となった場合、SP2aのMPU201は、ファン222の回転レベルを1段階、下げる設定変更を、制御サーバ3に通知することなく実行する。制御サーバ3に設定変更を通知しないのは、その設定変更によりサーバ2群全体の消費電力量は低減し、且つ可否問合わせのメッセージを受信した制御サーバ3は、その時点での消費電力量(現利用電力量)を各サーバ2から収集するからである。必要に応じて各サーバ2の現利用電力量を収集する以上、制御サーバ3は、ファン222の回転レベルを1段階、下げる設定変更を何れかのサーバ2が行った時点でのサーバ2群全体の消費電力量を認識する必要はない。
 図11は、スロットリング処理のフローチャートである。このスロットリング処理は、CPU温度に応じて、各CPU212の消費電力を抑制するための処理である。このスロットリング処理は、上記温度上昇時におけるファン回転数制御処理等と同様に、例えば一定時間が経過する度に実行され、メモリ202に読み出されたファームウェア202aをMPU201が実行することで実現される。最後に図11を参照し、スロットリング処理について詳細に説明する。
 先ず、MPU201は、MCインターフェース204を介して、各温度センサ214を含む各センサ214のセンス値を取得する(SP31)。次にMPU201は、各温度センサ214から取得されたCPU温度が上昇傾向であり、且つ何れかのCPU温度が許容温度上限閾値を超えたか否か判定する(SP32)。CPU温度が全体として上昇傾向であり、且つ何れかのCPU温度が許容温度上限閾値を超えた場合、SP32の判定はYesとなってSP33に移行する。CPU温度が全体として上昇傾向でない、或いは全てのCPU温度が許容温度上限閾値以下であった場合、SP33の判定はNoとなってSP35に移行する。
 SP33では、MPU201は、スロットリング機能(図11中「CPU throttling機能」と表記)を発動する。次に、MPU201は、MBインターフェース204を介して、各CPU212のDVFS制御回路212aに対し、上記VID、及び逓倍率を設定し、クロック周波数(動作周波数)、及び電源電圧を低下させる(SP34)。その後、このスロットリング処理が終了する。
 一方、SP35では、MPU201は、各温度センサ214から取得されたCPU温度が下降傾向であり、且つ全てのCPU温度が許容温度下限閾値以下であるか否か判定する。CPU温度が全体として下降傾向であり、且つ全てのCPU温度が許容温度下限閾値以下となっている場合、SP35の判定はYesとなってSP36に移行する。CPU温度が全体として下降傾向でない、例えばCPU温度が全体的にランダムに変動している、或いは何れかのCPU温度が許容温度下限閾値以上であった場合、SP35の判定はNoとなり、ここでこのスロットリング処理が終了する。
 SP36では、MPU201は、スロットリング機能の発動を解除する。次に、MPU201は、MBインターフェース204を介して、各CPU212のDVFS制御回路212aに対し、通常時のVID、及び逓倍率を設定し、クロック周波数(動作周波数)、及び電源電圧を通常の状態に復帰させる(SP37)。その後、このスロットリング処理が終了する。
 なお、本実施形態では、可否問合わせでサーバ2に増加電力量を制御サーバ3に送信させているが、その増加電力量の代わりに、その増加電力量を特定するための制御情報を制御サーバ3に送信させるようにしても良い。
 また、各サーバ2は、ファン222の回転レベルを上げる設定変更を行うべき状況時に、可否問合わせを行っているが、その可否問合わせは、別の状況時にも行うようにしても良い。その設定変更を行えないサーバ2の多くは、スロットリングを行うと考えられることから、スロットリングを行っている状況時にも、可否問合わせを行うようにしても良い。また、制御サーバ2に、可否問合わせで設定変更を許可しなかったサーバ2に対し、その後のサーバ2群全体の消費電力量を収集した際に比較的に大きい余裕があることを条件に、設定変更を許可する旨を通知するようにしても良い。サーバ2、或いはサーバグループに優先順位を設け、制御サーバ3からの設定変更を許可する通知を優先順位に従って行わせるようにしても良い。

Claims (7)

  1.  それぞれが冷却装置を1台以上、制御する複数台の情報処理装置と、各冷却装置、及び前記複数台の情報処理装置を含む管理対象群全体の消費電力を管理する制御装置とを備え、
     前記複数台の情報処理装置は、
     自情報処理装置の状態を検出する検出部と、
     前記検出部が検出した状態を基に、前記冷却装置を駆動するうえでの設定内容を決定する決定部と、
     前記決定部が決定した前記設定内容が現在の設定内容である現設定内容より前記冷却装置の消費電力を増大させる場合に、前記消費電力の増大分を少なくとも含む増加電力量を表す制御情報を前記制御装置に送信して、前記現設定内容から前記設定内容への設定変更の可否を問合わせる問合わせ部と、
     前記問合わせ部による問合わせへの前記制御装置の応答に従って、前記現設定内容から前記設定内容への設定変更を行う設定変更部と、を有し、
     前記制御装置は、
     前記管理対象群全体の消費電力の上限値を記憶した記憶部と、
     前記管理対象群全体の消費電力量である全消費電力量を取得する取得部と、
     何れかの情報処理装置から前記問合わせがあった場合に、前記問合わせによって受信する前記制御情報が表す増加電力量、前記全消費電力量、及び前記上限値を用いて、前記問合わせを行った情報処理装置での前記設定変更の可否を判定する判定部と、
     前記判定部による判定結果を前記問合わせへの応答として、前記問合わせを行った情報処理装置に通知する通知部と、を有する、
     ことを特徴とする情報処理システム。
  2.  前記複数台の情報処理装置は、前記検出部が検出した状態を基に、演算処理装置の消費電力を抑制する消費電力制御部、を有し、
     前記冷却装置の消費電力を増大させる前記現設定内容から前記設定内容への設定変更が行われなかった場合に、前記消費電力制御部による前記演算処理装置の消費電力の抑制を可能にさせる、
     ことを特徴とする請求項1記載の情報処理システム。
  3.  冷却装置を1台以上、制御する情報処理装置において、
     自情報処理装置の状態を検出する検出部と、
     前記検出部が検出した状態を基に、前記冷却装置を駆動するうえでの設定内容を決定する決定部と、
     前記決定部が決定した前記設定内容が現在の設定内容である現設定内容より前記冷却装置の消費電力を増大させる場合に、前記消費電力の増大分を少なくとも含む増加電力量を表す制御情報を制御装置に送信して、前記現設定内容から前記設定内容への設定変更の可否を問合わせる問合わせ部と、
     前記問合わせ部による問合わせへの前記制御装置の応答に従って、前記現設定内容から前記設定内容への設定変更を行う設定変更部と、
     を有することを特徴とする情報処理装置。
  4.  複数台の情報処理装置と、各情報処理装置がそれぞれ制御する冷却装置を含む管理対象群全体の消費電力の上限値を記憶した記憶部と、
     前記管理対象群全体の消費電力量である全消費電力量を取得する取得部と、
     何れかの情報処理装置から、前記冷却装置の消費電力を増大させる設計変更の可否の問合わせがあった場合に、前記問合わせによって受信する制御情報が表す増加電力量、前記全消費電力量、及び前記上限値を用いて、前記問合わせを行った情報処理装置での前記設定変更の可否を判定する判定部と、
     前記判定部による判定結果を前記問合わせへの応答として、前記問合わせを行った情報処理装置に通知する通知部と、
     を有することを特徴とする制御装置。
  5.  冷却装置を1台以上、制御する情報処理装置に、
     自情報処理装置の状態を検出し、
     検出した前記状態を基に、前記冷却装置を駆動するうえでの設定内容を決定し、
     決定した前記設定内容が現在の設定内容である現設定内容より前記冷却装置の消費電力を増大させる場合に、前記消費電力の増大分を少なくとも含む増加電力量を表す制御情報を制御装置に送信して、前記現設定内容から前記設定内容への設定変更の可否を問合わせ、
     前記問合わせへの前記制御装置の応答に従って、前記現設定内容から前記設定内容への設定変更を行う
     処理を実行させるプログラム。
  6.  複数台の情報処理装置と、各情報処理装置がそれぞれ制御する冷却装置を含む管理対象群全体の消費電力を制御する制御装置として用いられるコンピュータに、
     前記管理対象群全体の消費電力量である全消費電力量を取得し、
     何れかの情報処理装置から、前記冷却装置の消費電力を増大させる設計変更の可否の問合わせがあった場合に、前記問合わせによって受信する制御情報が表す増加電力量、前記全消費電力量、及び前記前記管理対象群全体の消費電力の上限値として設定された最大電力量を用いて、前記問合わせを行った情報処理装置での前記設定変更の可否を判定し、
     前記設定変更の可否の判定結果を前記問合わせへの応答として、前記問合わせを行った情報処理装置に通知する
     処理を実行させるプログラム。
  7.  複数台の情報処理装置と、各情報処理装置がそれぞれ制御する冷却装置を含む管理対象群全体の消費電力を制御させる制御装置に、前記管理対象群全体の消費電力の上限値を設定し、
     前記複数台の情報処理装置に、自情報処理装置で検出される状態に基づいて、搭載された演算処理装置の消費電力を抑制する消費電力制御機能を搭載し、前記冷却装置の消費電力を増大させる設定変更を、前記制御装置への問合わせによる応答に従って行わせ、
     前記上限値を設定した前記制御装置に、前記情報処理装置から問合わせされた前記設定変更を、前記管理対象群全体の消費電力量が前記上限値を超えない範囲内で許可させる、
     ことを特徴とする消費電力制御方法。
PCT/JP2013/074949 2013-09-13 2013-09-13 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法 WO2015037158A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2013/074949 WO2015037158A1 (ja) 2013-09-13 2013-09-13 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法
JP2015536420A JP5983888B2 (ja) 2013-09-13 2013-09-13 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/074949 WO2015037158A1 (ja) 2013-09-13 2013-09-13 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法

Publications (1)

Publication Number Publication Date
WO2015037158A1 true WO2015037158A1 (ja) 2015-03-19

Family

ID=52665297

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/074949 WO2015037158A1 (ja) 2013-09-13 2013-09-13 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法

Country Status (2)

Country Link
JP (1) JP5983888B2 (ja)
WO (1) WO2015037158A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206844A (ja) * 2015-04-20 2016-12-08 富士通株式会社 電子装置及びその冷却方法
CN108279715A (zh) * 2017-01-05 2018-07-13 新唐科技股份有限公司 调节电子装置从电源供应器提取电流的设备、***和方法
WO2021133506A1 (en) * 2019-12-23 2021-07-01 Advanced Micro Devices, Inc. Method and apparatus for managing overclocking in a data center

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011793A (ja) * 2004-06-25 2006-01-12 Nec Corp 電力管理システム及びプログラム
JP2007018483A (ja) * 2005-06-08 2007-01-25 Hitachi Ltd 記憶システム
JP2013047974A (ja) * 2012-10-22 2013-03-07 Toshiba Corp 情報処理装置および動作制御方法
JP2013145446A (ja) * 2012-01-13 2013-07-25 Hitachi Ltd It機器と冷却機器の連係制御システムおよび連係制御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4395800B2 (ja) * 2007-09-18 2010-01-13 日本電気株式会社 電力管理システムおよび電力管理方法
JP5022941B2 (ja) * 2008-02-20 2012-09-12 株式会社東芝 電子機器筐体のファン制御装置
JP5257709B2 (ja) * 2010-12-28 2013-08-07 株式会社日立製作所 仮想計算機の移動方法、仮想計算機システム及び管理サーバ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011793A (ja) * 2004-06-25 2006-01-12 Nec Corp 電力管理システム及びプログラム
JP2007018483A (ja) * 2005-06-08 2007-01-25 Hitachi Ltd 記憶システム
JP2013145446A (ja) * 2012-01-13 2013-07-25 Hitachi Ltd It機器と冷却機器の連係制御システムおよび連係制御方法
JP2013047974A (ja) * 2012-10-22 2013-03-07 Toshiba Corp 情報処理装置および動作制御方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206844A (ja) * 2015-04-20 2016-12-08 富士通株式会社 電子装置及びその冷却方法
CN108279715A (zh) * 2017-01-05 2018-07-13 新唐科技股份有限公司 调节电子装置从电源供应器提取电流的设备、***和方法
JP2018139099A (ja) * 2017-01-05 2018-09-06 新唐科技股▲ふん▼有限公司 電子装置が外部電源から引き出された電力を調節する装置、システム、方法およびコンピュータプログラム製品
WO2021133506A1 (en) * 2019-12-23 2021-07-01 Advanced Micro Devices, Inc. Method and apparatus for managing overclocking in a data center
US11747852B2 (en) 2019-12-23 2023-09-05 Advanced Micro Devices, Inc. Method and apparatus for maintaining stable operation of servers in a data center

Also Published As

Publication number Publication date
JP5983888B2 (ja) 2016-09-06
JPWO2015037158A1 (ja) 2017-03-02

Similar Documents

Publication Publication Date Title
US8352758B2 (en) Power bus current bounding using local current-limiting soft-switches and device requirements information
JP6323821B2 (ja) サーバラック電力管理
US8140195B2 (en) Reducing maximum power consumption using environmental control settings
JP5254734B2 (ja) 電子システムの電力を管理する方法、コンピュータ・プログラム、及び電子システム
JP5256340B2 (ja) 計算機及び計算機の電力管理システム
US8006112B2 (en) System and method for managing blades after a power supply unit failure
TWI582585B (zh) 機櫃的監控系統
US8365176B2 (en) Data center job migration and scheduling based on server chassis fan speed threshold
US10209750B2 (en) SSD driven system level thermal management
US20090187783A1 (en) Adjusting Cap Settings of Electronic Devices According to Measured Workloads
CN106371540B (zh) ***电源管理方法、芯片及电子设备
US20160313777A1 (en) System and Method for Dynamically Adjusting Power Supply Efficiency
KR20110004328A (ko) 컴퓨터 시스템 하드웨어 디바이스들의 고전력 상태들의 선택적 승인에 의한 전력 관리
TW201224728A (en) Power self-controlling networking device and method of controlling power
US8307220B2 (en) Managing power consumption of a computer
US8898484B2 (en) Optimizing delivery of regulated power from a voltage regulator to an electrical component
US9791902B2 (en) System and method for providing multi-dimensional power supply efficiency profiles
US9568981B2 (en) Apparatus and method for managing power consumption of a plurality of information processing apparatuses by suppressing the power consumption of an information processing apparatus having higher priority
US9009543B2 (en) Computer systems that acquire a plurality of statuses of non-normally operating hard disk drives
JP5983888B2 (ja) 情報処理システム、情報処理装置、制御装置、プログラム、及び消費電力制御方法
JP2017134668A (ja) 情報処理システム、情報処理システムの制御方法および管理装置の制御プログラム
JP5663383B2 (ja) ブレードサーバの電力制御方法及びシステム
US9733686B1 (en) Systems and methods for management controller enhanced power supply unit current sharing
US11182143B2 (en) Adjustment of voltage regulator firmware settings based upon an efficiency score
EP3295275B1 (en) Managing power in a high performance computing system for resiliency and cooling

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13893389

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015536420

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13893389

Country of ref document: EP

Kind code of ref document: A1