WO2015004785A1 - 管理装置、管理方法及びプログラム - Google Patents

管理装置、管理方法及びプログラム Download PDF

Info

Publication number
WO2015004785A1
WO2015004785A1 PCT/JP2013/069056 JP2013069056W WO2015004785A1 WO 2015004785 A1 WO2015004785 A1 WO 2015004785A1 JP 2013069056 W JP2013069056 W JP 2013069056W WO 2015004785 A1 WO2015004785 A1 WO 2015004785A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance value
cpu
instruction
processor configuration
equal
Prior art date
Application number
PCT/JP2013/069056
Other languages
English (en)
French (fr)
Inventor
小澤 誠
眞司 阿形
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2013/069056 priority Critical patent/WO2015004785A1/ja
Priority to JP2015526107A priority patent/JP6103060B2/ja
Publication of WO2015004785A1 publication Critical patent/WO2015004785A1/ja
Priority to US14/988,184 priority patent/US20160132356A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Definitions

  • the present invention relates to a system configuration dynamic change technique.
  • Dynamic Partitioning is a technology for inserting / removing a CPU (Central Processing Unit, also referred to as a processor), memory, etc. (also referred to as hot-line insertion / extraction) while the system is operating.
  • CPU Central Processing Unit
  • memory also referred to as hot-line insertion / extraction
  • a trigger for a DP operation such as a CPU or memory failure in the system
  • the system administrator performs a DP operation on the CPU or memory.
  • the influence of the CPU / insertion / removal on the system should be considered, and it is inappropriate to perform the DP operation as it is depending on the detected trigger. In some cases.
  • a technique for dynamically reconfiguring resources there is a technique that executes a proposed operation after determining whether or not the proposed reconfiguration operation is in accordance with the resource allocation policy.
  • the DP operation is not considered deeply.
  • an object of the present invention is, in one aspect, to provide a technique for enabling confirmation of whether or not the DP operation is appropriate.
  • the management apparatus includes (A) a receiving unit that receives an instruction to dynamically change a processor configuration in a system including a plurality of processors, and (B) a system corresponding to a processor configuration generated by the dynamic change according to the above instruction. If the performance value of the identified system is greater than or equal to the required performance value for the system, and if the performance value of the identified system is greater than or equal to the required performance value for the system, And a processing unit that executes processing for changing the processor configuration related to the instruction.
  • FIG. 1 is an overall system configuration diagram according to the present embodiment.
  • FIG. 2 is a functional block diagram of the management apparatus according to the present embodiment.
  • FIG. 3 is a diagram schematically showing changes in the CPU topology.
  • FIG. 4 is a diagram illustrating an example of the performance value of the system corresponding to the CPU topology.
  • FIG. 5 is a diagram illustrating an example of load prediction data.
  • FIG. 6 is a diagram illustrating an example of data stored in the system load prediction data storage unit.
  • FIG. 7 is a diagram showing a processing flow of processing according to the present embodiment.
  • FIG. 8A is a diagram showing a process flow of the advance check process according to the present embodiment.
  • FIG. 8B is a diagram showing a processing flow of the advance check processing according to the present embodiment.
  • FIG. 9 is a diagram illustrating another system configuration example.
  • FIG. 10 is a functional block diagram of a computer.
  • FIG. 11 is a functional block diagram of a computer.
  • FIG. 1 shows the entire system according to the present embodiment.
  • the management target system 200 and the management apparatus 100 that manages DP operations for the management target system 200 are connected via a network.
  • a management target system 200 according to the present embodiment includes a board 210 (each having three cells in FIG. 1, but only three, each including a CPU and a memory and provided with a plurality of cells that can be hot-swapped. Not). Further, in the management target system 200, the board 210, the control unit 230 that monitors and controls the cells on the board 210, and the data storage unit 240 that stores the results of monitoring or control by the control unit 230 are provided on the bus. 220 is connected.
  • Data such as an error that has occurred in a cell on the board 210 is accumulated as an error log in the data storage unit 240. Further, it is assumed that the control unit 230 can acquire CPU load data (for example, CPU usage rate, memory usage amount, etc.) on the board 210. Furthermore, the control unit 230 outputs error log data (also referred to as error data) and load data to the management apparatus 100 in response to a request from the management apparatus 100 or the like.
  • the management target system 200 is the same as the conventional one.
  • FIG. 2 shows a functional block diagram of the management apparatus 100.
  • the management apparatus 100 includes a monitoring unit 110, a pre-check processing unit 120, an input / output unit 130, a data storage unit 140, a system configuration information storage unit 150, and a system load prediction data storage unit 160.
  • the monitoring unit 110 acquires load data and error data from the management target system 200 periodically or at an arbitrary timing.
  • the input / output unit 130 receives an input from an administrator of the management target system 200 and outputs a warning, a preliminary check result, and the like.
  • the data storage unit 140 stores data being processed.
  • the advance check processing unit 120 performs a process for determining in advance whether or not to perform the DP operation.
  • the system configuration information storage unit 150 stores system configuration information such as memory configuration data and CPU topology data on the board 210 in the management target system 200.
  • the data of the memory configuration is data representing the application status of the memory RAS (Reliability Availability and Serviceability) function (for example, memory mirroring, memory sparing, memory error reporting, etc.).
  • RAS Reliability Availability and Serviceability
  • the CPU topology data is performance value data for each CPU topology.
  • a description will be given using an example in which two CPUs are included in each of the three cells. That is, CPUs 0 and 1 are included in cell 1, CPUs 2 and 3 are included in cell 2, and CPUs 4 and 5 are included in cell 3.
  • FIG. 3 (a) in a 3-cell 6-CPU configuration, CPUs in each cell are connected, CPU 4 and CPU 1 are connected, CPU 5 and CPU 2 are connected, and CPU 0 and CPU 2 are connected. It is assumed that CPU1 and CPU3 are connected.
  • the state of FIG. 3B is obtained.
  • data as shown in FIG. 4 is stored in the system configuration information storage unit 150.
  • a performance value is stored for each CPU topology (for example, cell configuration pattern (for example, cells 1 and 2)).
  • cell configuration pattern for example, cells 1 and 2
  • FIGS. 3B and 3C there is no change in performance regardless of which cell is selected between the 1-cell 2-CPU configuration and the 3-cell 6-CPU configuration.
  • FIGS. 3B and 3C in a 2-cell 4-CPU configuration, performance may or may not be degraded depending on the cell to be removed. Therefore, specifically, when removing cells, the CPU topology differs depending on which cell is removed, and further, the presence or absence of performance deterioration is also different.
  • the system load prediction data storage unit 160 stores load prediction data of the management target system 200.
  • the load prediction data is data as shown in FIG. 5, for example.
  • the time change of the system load is represented. Specifically, the load is about 10% at about 20 o'clock and becomes minimum, but gradually increases, reaches about 100% at about 6 o'clock, and then decreases. Since the time changes as described above, if the DP operation takes time, the load changes until the DP operation is completely completed.
  • system load prediction data storage unit 160 also stores data as shown in FIG. As shown in FIG. 6, the maximum required CPU performance and the time required for cell replacement are stored.
  • the system load (%) shown in FIG. 5 is shown as a ratio to the maximum required CPU performance.
  • the time required for the replacement of the cell is the time required for obtaining the replacement part after actually starting the DP operation and mounting it on the board 210 of the management target system 200. Such data also varies depending on the management target system 200.
  • the monitoring unit 110 of the management apparatus 100 detects the DP operation trigger based on the error data or load data acquired from the management target system 200, and notifies the administrator via the input / output unit 130, for example. Assume that the administrator inputs the operation content of the DP operation via the input / output unit 130 after the execution.
  • the administrator when a correctable error is detected continuously in the CPU or memory, a sign that the system load exceeds a threshold, a sign of insufficient performance, or a failure that occurs in another cell is detected, the administrator Is notified.
  • the administrator performs DP operation in order to replace a cell in which an error is detected or to add a cell in order to avoid insufficient performance.
  • the management apparatus 100 is caused to execute the processing described below before the DP operation is actually performed.
  • the administrator generally has no knowledge of the CPU topology as shown in FIG. 3, and understands that the performance deterioration occurs in the cell configuration as shown in FIG. 3B. Often not. In addition, the administrator may not know the error occurrence status, the load status, and the setting status of the memory RAS function. Therefore, by executing the processing according to the present embodiment, whether or not to execute the DP operation at this timing is automatically confirmed.
  • the input / output unit 130 receives an input of the DP operation content related to the CPU from the administrator, and outputs it to the pre-check processing unit 120 (FIG. 7: step S1). For example, an input of a cell number to be exchanged is accepted.
  • the advance check processing unit 120 executes advance check processing (step S3).
  • the advance check process will be described with reference to FIGS. 8A and 8B.
  • the pre-check processing unit 120 acquires error data for a predetermined period stored in the data storage unit 240 of the management target system 200 via the monitoring unit 110 and the control unit 230 of the management target system 200, and the data The data is stored in the storage unit 140 (FIG. 8A: Step S11).
  • the advance check processing unit 120 acquires load data from the control unit 230 via the monitoring unit 110 and stores the load data in the data storage unit 140 (step S13).
  • the pre-check processing unit 120 uses the CPU topology data stored in the system configuration information storage unit 150 based on the cell number removed by the DP operation to obtain the CPU topology and performance data generated by the DP operation.
  • Specify For example, if the current CPU topology (that is, the cell configuration) is in the state shown in FIG. 3A, if one cell is to be removed, the number of the cell to be removed is changed from that in FIG. 3B after the DP operation. It is specified which state of FIG. If two cells are removed, it is specified that the state shown in FIG. If the current CPU topology is FIG. 3B or FIG. 3C, it is specified from the cell number removed by the DP operation that the state shown in FIG. 3D is obtained after the DP operation. . Furthermore, the performance data corresponding to the CPU topology after the specified DP operation is identified from the association data of the CPU topology and performance shown in FIG.
  • the advance check processing unit 120 reads the load prediction data from the system load prediction data storage unit 160 (step S17). Data representing changes in system load over time as shown in FIG. 5 and data as shown in FIG. 6 are read.
  • the advance check processing unit 120 reads out the application status data of the memory RAS function from the system configuration information storage unit 150 (step S18).
  • Steps S11 to S18 are preprocessing, step S11 may be performed immediately before step S19, step S13 may be performed immediately before step S21, and step S15 may be performed immediately before step S23. Step S18 may be performed immediately before step S25.
  • the processing shifts to the processing in FIG. 8B via the terminal A, and the pre-check processing unit 120 determines whether or not a burst error has occurred from the acquired error data (step S19).
  • a burst error represents a state in which errors frequently occur, such as an error exceeding a predetermined reference occurring within a predetermined time (for example, an error occurs several times per minute). If the DP operation is performed in such a state, there is a possibility that the operation of the entire system may be stopped. Therefore, it is dangerous to perform the DP operation.
  • the pre-check processing unit 120 sets the pre-check result to NG (DP operation not possible) (step S29). Then, the process returns to the caller process.
  • the pre-check processing unit 120 determines whether or not the management target system 200 is in an overload state from the acquired load data (step S21). It is determined whether or not the current load (eg, CPU usage rate, memory usage rate, etc.) is a threshold value (eg, 90%). This is because, when the DP operation is performed in an overload state, performance degradation occurs, so that the impact on the entire system may be increased. Even in this step, it is confirmed whether the system load may exceed a predetermined level from the system load prediction data as shown in FIG. 5 between the current time and the time required for cell replacement (FIG. 6). You may make it do.
  • the current load eg, CPU usage rate, memory usage rate, etc.
  • a threshold value eg, 90%
  • step S29 the advance check processing unit 120 determines whether or not the CPU performance after the cell removal by the DP operation is sufficient within the DP operation period (step S23).
  • a DP operation as a transition from FIG. 3A to FIG. 3B, that is, a DP operation for exchanging the cells 2 including the CPUs 2 and 3 is performed at 20:00. Further, it is assumed that the time required for cell replacement is 6 hours (FIG. 6), and the maximum required CPU performance is “1 GHz ⁇ 6 CPU ⁇ MP coefficient” (FIG. 6).
  • the DP operation can be performed without any problem.
  • step S25 determines whether or not a memory-related condition is satisfied. More specifically, the memory RAS function is applied from the data acquired in step S18, and an error has occurred within a predetermined time in the memory to which the memory RAS function is applied from the data acquired in step S11. Determine whether the condition is met.
  • the memory RAS function is disabled during DP operation.
  • the system may go down if a memory error or the like occurs during the DP operation. If the DP operation is not performed, the error may be recovered by the memory RAS function such as memory sparing, and the system operation may be continued. Therefore, when an error occurs in a predetermined time in a memory to which the memory RAS function is applied, the DP operation is suppressed in order to avoid such a risk. Note that this condition is considered when the memory RAS function is supported and the cell includes a memory. However, when the memory RAS function is not supported in the first place, or when the memory is not included in the cell. May not be executed in step S25.
  • step S29 the advance check processing unit 120 sets the advance check result to OK (step S27). Then, the process returns to the caller process.
  • whether or not to perform the DP operation is determined from the burst error, overload, CPU performance, and memory conditions, but more conditions may be determined.
  • the preliminary check processing unit 120 determines whether or not the preliminary check result is OK (step S ⁇ b> 5). If the pre-check result is OK, the pre-check processing unit 120 causes the control unit 230 of the management target system 200 to perform the process of separating the DP operation target cell via the monitoring unit 110 (step S7). This process itself is the same as the conventional process, and the process to be performed before the administrator actually takes out the cell is performed. Other processing may be included.
  • the advance check processing unit 120 receives a disconnection completion notification from the control unit 230 of the management target system 200 via the monitoring unit 110, the advance check processing unit 120 notifies the administrator of a DP operable message via the input / output unit 130. You may make it do.
  • the preliminary check processing unit 120 updates the system configuration information in the system configuration information storage unit 150 according to the DP operation content (step S9). This is because the next time the managed system 200 is restarted, the system configuration starts after the DP operation.
  • the updated system configuration information may be stored in the data storage unit 240 of the management target system 200 via the monitoring unit 110 and the control unit 230.
  • the prior check processing unit 120 causes the input / output unit 130 to output a DP operation impossible message. This makes it possible to recognize that DP operation is impossible at the present time.
  • the present embodiment it is possible to automatically and in advance determine whether or not to perform the DP operation. In this way, after confirming that the DP operation can be performed while suppressing the influence on the entire management target system 200, the DP operation is actually performed. If the timing is inappropriate, the DP operation is suppressed.
  • the present invention is not limited to this.
  • the functional block diagram shown in FIG. 2 is an example, and may not match the program module configuration.
  • the processing flow as long as the processing result does not change, the processing order may be changed or the processing flow may be executed in parallel.
  • the order of the steps in FIG. 8B is interchangeable and may be executed in parallel.
  • FIG. 1 shows an example in which the management target system 200 and the management apparatus 100 are connected via a network
  • the management unit 260 having the function of the management apparatus 100 is managed.
  • a configuration that is included in the target system 200 may also be adopted.
  • the control unit 230 and the management unit 260 may be integrated.
  • the functions of the management apparatus 100 may be shared by a plurality of computers.
  • the management device 100 described above is a computer device, and as shown in FIG. 10, a memory 2501, a CPU 2503, a hard disk drive (HDD) 2505, a display control unit 2507 connected to the display device 2509, and a removable device.
  • a drive device 2513 for the disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519.
  • An operating system (OS: Operating System) and an application program for performing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503.
  • OS Operating System
  • the CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 2501, but may be stored in the HDD 2505. In an embodiment of the present technology, an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed from the drive device 2513 to the HDD 2505. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above and programs such as the OS and application programs. .
  • the management unit 260 when the management unit 260 is provided inside the management target system 200, the management unit 260 itself is also a computer device. As shown in FIG. 11, a RAM (Random Access Memory) 4501 and a processor are used. 4503 and ROM (Read Only Memory) 4507 are connected by a bus 4519. A control program for executing the processing in this embodiment and an operating system (OS: Operating System) when present are stored in the ROM 4507, and when executed by the processor 4503, the ROM 4507. To RAM4501. Further, data in the middle of processing is stored in the RAM 4501. Note that the processor 4503 may include a ROM 4507, and may further include a RAM 4501.
  • OS Operating System
  • a control program for performing the above-described processing may be stored and distributed on a computer-readable removable disk and written to the ROM 4507 by a ROM writer.
  • a computer device has various functions as described above by organically cooperating hardware such as the processor 4503, RAM 4501, and ROM 4507 described above and a control program (or OS in some cases). Is realized.
  • the system performance value corresponding to the processor configuration caused by the dynamic change is specified.
  • B It is determined whether or not the specified system performance value is equal to or higher than the required performance value for the system.
  • C When the specified system performance value is equal to or higher than the required performance value for the system And a process for executing a process for changing the processor configuration according to the instruction.
  • the degree of performance degradation caused by the dynamic change of the processor configuration may differ in this way, it is determined whether or not the required performance value is exceeded based on the performance value of the system corresponding to the processor configuration caused by the dynamic change. This makes it possible to determine in advance whether or not to dynamically change the processor configuration.
  • the required performance value described above may be calculated according to the system load within a predetermined time from the present time. This is to cope with a case where the system load increases during the dynamic change of the processor configuration.
  • the required performance value described above may be calculated according to the peak load of the system within a predetermined time required for the dynamic change according to the instruction from the present. This is because there is no problem if the peak load of the system can be processed.
  • the management method described above includes a condition that an error occurs in the system at a frequency equal to or higher than a first predetermined criterion, a condition that a load in the system is equal to or higher than a second predetermined criterion, and a memory in the system. It may be determined whether at least one of the conditions that an error has occurred in a memory to which the RAS (Reliability Availability and Serviceability) function is applied is satisfied. This is because there are other factors that should be considered in addition to the performance value of the processor.
  • RAS Reliability Availability and Serviceability
  • the program is, for example, a flexible disk, an optical disk such as a CD-ROM, a magneto-optical disk, or a semiconductor memory (for example, ROM). Or a computer-readable storage medium such as a hard disk or a storage device. Note that data being processed is temporarily stored in a storage device such as a RAM.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

 本発明に係る管理装置は、(A)複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付ける受け付け部と、(B)上記指示に係る動的変更により生ずるプロセッサ構成に対応するシステムの性能値を特定し、特定されたシステムの性能値がシステムについての要求性能値以上であるかを判断し、特定されたシステムの性能値がシステムについての要求性能値以上である場合に、上記指示に係るプロセッサ構成の変更のための処理を実行する処理部とを有する。

Description

管理装置、管理方法及びプログラム
 本発明は、システム構成の動的変更技術に関する。
 Dynamic Partitioning(以下、DPと呼ぶ。)とは、システムが稼働している間に、CPU(Central Processing Unit。プロセッサとも呼ぶ)やメモリ等を抜き差しする(活線挿抜とも呼ぶ)技術である。
 一般的に、システムにおけるCPUやメモリの故障といったDP操作の契機を検出すると、システムの管理者は、CPU又はメモリについてDP操作を行う。しかしながら、システムが稼働中にCPU等の挿抜を行う場合には、CPU等の挿抜がシステムに与える影響を考慮すべきであり、検出された契機に応じてそのままDP操作を行うことが不適切な場合もある。
 また、例えば、動的に資源を再構成するための技術として、再構成の提案動作が、資源配分の方針に従っているか否かを判断した上で提案動作を実行するというものがあるが、CPUについてのDP操作については深く考察されていない。
特開平7-295841号公報
 従って、本発明の目的は、一側面においては、DP操作が適切であるか否かを確認できるようにするための技術を提供することである。
 本発明に係る管理装置は、(A)複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付ける受け付け部と、(B)上記指示に係る動的変更により生ずるプロセッサ構成に対応するシステムの性能値を特定し、特定されたシステムの性能値がシステムについての要求性能値以上であるかを判断し、特定されたシステムの性能値がシステムについての要求性能値以上である場合に、上記指示に係るプロセッサ構成の変更のための処理を実行する処理部とを有する。
 DP操作が適切であるか否かを確認できるようになる。
図1は、本実施の形態に係るシステム全体構成図である。 図2は、本実施の形態に係る管理装置の機能ブロック図である。 図3は、CPUトポロジの変化を模式的に示す図である。 図4は、CPUトポロジに対応するシステムの性能値の一例を示す図である。 図5は、負荷予測データの一例を示す図である。 図6は、システム負荷予測データ格納部に格納されるデータの一例を示す図である。 図7は、本実施の形態に係る処理の処理フローを示す図である。 図8Aは、本実施の形態に係る事前チェック処理の処理フローを示す図である。 図8Bは、本実施の形態に係る事前チェック処理の処理フローを示す図である。 図9は、他のシステム構成例を示す図である。 図10は、コンピュータの機能ブロック図である。 図11は、コンピュータの機能ブロック図である。
 図1に本実施の形態に係るシステム全体を示す。本実施の形態では、管理対象システム200と、管理対象システム200に対するDP操作の管理を行う管理装置100とは、ネットワークで接続されている。本実施の形態に係る管理対象システム200は、CPUとメモリとを各々含み且つ活線挿抜が可能な複数のセルが設けられたボード210(図1ではセルは3つ。但し、3つに限定されない。)を有している。さらに、管理対象システム200においては、ボード210と、ボード210上のセルの監視及び制御を行う制御部230と、制御部230による監視又は制御の結果などを格納するデータ格納部240とが、バス220を介して接続されている。
 ボード210上のセルにおいて発生したエラーなどのデータは、データ格納部240においてエラーログとして蓄積される。また、制御部230は、ボード210上のCPUの負荷データ(例えばCPU使用率、メモリ使用量など)を取得することができるものとする。さらに、制御部230は、管理装置100からの要求等に応じてエラーログのデータ(エラーデータとも呼ぶ)や負荷データを、管理装置100に出力する。なお、管理対象システム200は、従来と同様である。
 図2に、管理装置100の機能ブロック図を示す。管理装置100は、監視部110と、事前チェック処理部120と、入出力部130と、データ格納部140と、システム構成情報格納部150と、システム負荷予測データ格納部160とを有する。
 監視部110は、管理対象システム200から、負荷データやエラーデータを、定期的に又は任意のタイミングで取得する。入出力部130は、管理対象システム200の管理者からの入力を受け付け、警告や事前チェック結果等を出力する。データ格納部140は、処理途中のデータを格納する。事前チェック処理部120は、DP操作実施の是非を事前に判断するための処理を実施する。
 システム構成情報格納部150は、管理対象システム200におけるボード210上のメモリ構成のデータ、CPUトポロジデータ等のシステム構成情報を格納する。
 メモリ構成のデータは、メモリRAS(Reliability Availability and Serviceability)機能(例えば、メモリミラーリングやメモリスペアリング、メモリエラーレポーティングなど)の適用状況を表すデータである。
 また、CPUトポロジデータは、CPUトポロジ毎の性能値のデータである。3セルの各々にCPUが2つ含まれる例を用いて説明する。すなわち、CPU0及び1はセル1に含まれ、CPU2及び3はセル2に含まれ、CPU4及び5はセル3に含まれる。図3(a)に示すように、3セル6CPU構成において、各セル内のCPUは接続されており、さらにCPU4とCPU1とが接続され、CPU5とCPU2とが接続され、CPU0とCPU2とが接続され、CPU1とCPU3とが接続されているものとする。図3(a)の状態において、セル2(CPU2及び3)が除去されると、図3(b)の状態になる。すなわち、セル2を除去すると、セル1とセル3との接続は、CPU1とCPU4との接続だけになってしまい、CPU0とCPU5とが通信する場合にCPU1及び4を経由しなければならないため、性能劣化が生じてしまう。図3(a)の状態において、セル1が除去された場合においても、図3(b)のように性能劣化が生じる。一方、図3(a)の状態において、セル3(CPU4及び5)が除去されると、図3(c)の状態になる。セル3を除去しても、セル1及び2の間では、CPU0とCPU2が接続され、CPU1とCPU3とが接続されているので、例えばCPU2とCPU1が通信を行う場合にはCPU0又は3を経由するのみで通信できるので、性能劣化が生じない。図3(b)の状態からセル3が除去されるか、図3(c)の状態からセル2が除去されると、図3(d)の状態、すなわちセル1のみの状態となる。
 このようなCPUトポロジの場合、図4に示すようなデータが、システム構成情報格納部150に格納される。図4の例では、CPUトポロジ(例えばセル構成パターン(例えばセル1及び2等))毎に、性能値が格納されるようになっている。図3の例では、1セルの2CPU構成と、3セルの6CPU構成とでは、どのようなセルが選択されても性能に変化はない。しかしながら、図3(b)及び(c)とで示したように、2セルの4CPU構成では、除去するセルによっては性能劣化がある場合もあれば、無い場合もある。従って、具体的に、セルを除去する場合には、どのセルを除去するかによってCPUトポロジが異なり、さらに性能劣化の有無も異なるので、区別する。なお、MP係数は、システムの設計を行う際にSMP(Symmetric Multiple Processor。対称型マルチプロセッサ)システムで、CPUの数を増加させた場合における性能の向上率を表す。例えばMP係数が1.8であれば、CPUを2つ搭載したマシンは、CPUを1つ搭載したマシンの1.8倍の性能を発揮することになる。そして、図4の例では、4CPU構成の場合に、性能劣化率=0.7の例を示しているが、これは、システムによって異なる値である。また、駆動周波数1GHzのCPU換算で性能を表しているが、これも一例に過ぎない。
 また、システム負荷予測データ格納部160には、管理対象システム200の負荷予測データが格納される。負荷予測データは、例えば図5に示すようなデータである。
 図5の例では、システム負荷の時間変化が表されている。具体的には、負荷は、おおよそ20時頃に10%で最小となるが、徐々に増加して6時頃に100%付近で最大となり、その後減少する。このように時間変化があるため、DP操作に時間が掛かると、完全にDP操作が完了するまでに負荷が変化してしまう。
 なお、システム負荷予測データ格納部160は、図6に示すようなデータも格納するものとする。図6に示すように、最大要求CPU性能と、セルの交換にかかる時間とが格納されるようになっている。図5に示したシステム負荷(%)は、この最大要求CPU性能に対する割合として示されている。また、セルの交換にかかる時間は、DP操作を開始した後、交換部品を手に入れて実際に管理対象システム200のボード210上に装着させるまでにかかる時間である。このようなデータについても、管理対象システム200によって異なる。
 次に、図7乃至図8Bを用いて、管理装置100の動作について説明する。まず、管理装置100の監視部110が、管理対象システム200から取得したエラーデータ又は負荷データに基づき、DP操作の契機を検出して、例えば入出力部130を介して管理者に対して通知を行った後に、管理者が、入出力部130を介してDP操作の操作内容が入力されるものとする。
 例えば、CPUやメモリに訂正可能エラーを連続して検出した場合や、システム負荷が閾値を超えるといった、性能不足になる予兆を検出した場合、その他セルに発生した故障を検出した場合に、管理者に対して通知を行う。管理者は、エラーが検出されたセルを交換するためや、性能不足を回避するためにセルを追加するためにDP操作を行う。但し、実際にDP操作を行って良いのか否かを確認するために、DP操作を実際に行う前に、以下で述べる処理を管理装置100に実行させる。
 なお、管理者は、一般的に、図3に示すようなCPUトポロジについての知識がないことが多く、図3(b)のようなセル構成で性能劣化が発生するといったことについては理解されていない場合が多い。その他、エラー発生状況、負荷状況、メモリRAS機能の設定状況についても、管理者が把握していない場合もある。従って、本実施の形態に係る処理を実行することで、DP操作をこのタイミングで実行することの是非について自動的に確認する。
 まず、入出力部130は、管理者から、CPUに関連するDP操作内容の入力を受け付け、事前チェック処理部120に出力する(図7:ステップS1)。例えば、交換するセルの番号の入力を受け付ける。
 そうすると、事前チェック処理部120は、事前チェック処理を実行する(ステップS3)。事前チェック処理については、図8A及び図8Bを用いて説明する。
 まず、事前チェック処理部120は、監視部110及び管理対象システム200の制御部230を介して、管理対象システム200のデータ格納部240に格納されている所定期間分のエラーデータを取得し、データ格納部140に格納する(図8A:ステップS11)。
 また、事前チェック処理部120は、監視部110を介して、制御部230から負荷データを取得し、データ格納部140に格納する(ステップS13)。
 そして、事前チェック処理部120は、DP操作によって除去されるセルの番号から、システム構成情報格納部150に格納されているCPUトポロジについてのデータを用いて、DP操作により生ずるCPUトポロジ及び性能データを特定する(ステップS15)。例えば、現在のCPUトポロジ(すなわちセル構成)が図3(a)の状態であれば、セルを1つ除去するのであれば、その除去されるセルの番号からDP操作後に図3(b)と図3(c)のいずれの状態になるかを特定する。また、セルを2つ除去するのであれば、図3(d)の状態となることが特定される。なお、現在のCPUトポロジが図3(b)又は図3(c)であれば、DP操作により除去されるセルの番号からDP操作後に、図3(d)の状態となることが特定される。さらに、図4に示すCPUトポロジと性能との対応付けデータから、特定されたDP操作後のCPUトポロジに対応する性能データを特定する。
 さらに、事前チェック処理部120は、システム負荷予測データ格納部160から、負荷予測データを読み出す(ステップS17)。図5に示すようなシステム負荷の時間変化を表すデータ、及び図6に示すようなデータを読み出す。
 また、事前チェック処理部120は、システム構成情報格納部150から、メモリRAS機能の適用状況データを読み出す(ステップS18)。
 ステップS11乃至S18については前処理であって、ステップS11についてはステップS19の直前に行えば良く、ステップS13についてはステップS21の直前に行えば良く、ステップS15についてはステップS23の直前に行えば良く、ステップS18についてはステップS25の直前に行えばよい。
 処理は端子Aを介して図8Bの処理に移行して、事前チェック処理部120は、取得されたエラーデータから、バーストエラーが発生しているか否かを判断する(ステップS19)。バーストエラーは、所定時間内に所定基準以上のエラーが発生している(例えば1分間に数回以上エラーが発生している)といったようにエラーが頻発している状態を表す。このような状態でDP操作を行うと、システム全体が動作停止する状態になる可能性があるので、DP操作を行うことが危険だからである。
 バーストエラーが発生している場合には、DP操作を行うことは不適切であるので、事前チェック処理部120は、事前チェック結果をNG(DP操作不可)に設定する(ステップS29)。そして呼出元の処理に戻る。
 一方、バーストエラーが発生していない場合には、事前チェック処理部120は、取得された負荷データから、管理対象システム200が過負荷状態であるか否かを判断する(ステップS21)。現在の負荷(例えばCPU使用率、メモリ使用率など)が、閾値(例えば90%)であるか否かを判断する。過負荷状態でDP操作を行うと性能低下が発生するので、システム全体へのインパクトが大きくなってしまう場合があるためである。なお、このステップにおいても、現在時刻からセル交換にかかる時間(図6)までの間において図5に示すようなシステム負荷予測データから、システム負荷が所定レベルを超えることがあるか否かを確認するようにしても良い。
 管理対象システム200が過負荷状態であれば、処理はステップS29に移行する。一方、過負荷状態ではない場合には、事前チェック処理部120は、DP操作によるセルの除去後のCPU性能がDP操作期間内において十分であるか否かを判断する(ステップS23)。
 例えば、図3(a)から図3(b)へ遷移するようなDP操作、すなわちCPU2及び3を含むセル2を交換するようなDP操作を20時に行おうとする場合を考える。また、セルの交換にかかる時間が6時間(図6)であり、最大要求CPU性能が「1GHz×6CPU×MP係数」(図6)であるものとする。
 ここで図5のようなシステム負荷予測であれば、20時から6時間内の負荷のピークは2時の60%であることが分かる。そうすると、DP操作期間中、最大要求CPU性能(1GHz×6CPU×MP係数)×60%(=3.6GHz×1CPU×MP係数)の負荷要求が発生する。
 一方、ステップS15で特定され且つCPUトポロジに対応する性能は、性能劣化があるパターンであるから(1GHz×4CPU×MP係数)×0.7(=2.8GHz×1CPU×MP係数)となる。
 そして、DP操作によりセルが除去された後のCPU性能と、DP操作期間中の負荷要求とを比較すると、後者の方が大きいので、DP操作期間中、負荷要求に対して性能が不足する状態となる。従って、このタイミングでDP操作を実行するのは問題であり、DP操作を抑止する。
 一方、DP操作によりセルが除去された後のCPU性能がDP操作期間中の負荷要求以上となればDP操作を問題なく実施できる。
 DP操作によりセルが除去された後のCPU性能がDP操作期間内において十分ではない場合には、処理はステップS29に移行する。一方、DP操作後のCPU性能がDP操作期間内において十分であれば、事前チェック処理部120は、メモリ関係の条件を満たすか判断する(ステップS25)。より具体的には、ステップS18で取得したデータからメモリRAS機能が適用されており、ステップS11で取得したデータからメモリRAS機能が適用されているメモリにおいて所定時間内にエラーが発生しているという条件を満たしているか否かを判断する。
 ある管理対象システムでは、DP操作中にメモリRAS機能が無効になる。このようなシステムにおいてDP操作を実施する場合、DP操作中にメモリエラー等が発生するとシステムダウンになる場合がある。仮にDP操作しなければ、メモリスペアリングなどのメモリRAS機能によりエラーをリカバリして、システムの動作が継続できたかもしれない。従って、メモリRAS機能が適用されているメモリにおいて所定時間内にエラーが発生している場合には、このような危険を回避するために、DP操作を抑止する。なお、メモリRAS機能がサポートされており、セルにメモリが含まれる場合には、この条件を考慮するが、そもそもメモリRAS機能がサポートされていないシステムや、セルにメモリが含まれていない場合には、ステップS25については実行しない場合もある。
 よって、このような条件が満たされる場合には、処理はステップS29に移行する。一方、このような条件が満たされない場合には、事前チェック処理部120は、事前チェック結果をOKに設定する(ステップS27)。そして呼出元の処理に戻る。
 本実施の形態では、バーストエラー、過負荷、CPU性能、メモリ条件から、DP操作の実施の是非について判断しているが、より多くの条件について判断するようにしても良い。
 図7の処理の説明に戻って、事前チェック処理部120は、事前チェック結果がOKであるか否かを判断する(ステップS5)。事前チェック結果がOKであれば、事前チェック処理部120は、監視部110を介して、管理対象システム200の制御部230にDP操作対象のセルの切り離し処理を実行させる(ステップS7)。この処理自体は従来と同じであり、管理者が実際にセルを取り出す前に行うべき処理を行うものである。その他の処理が含まれる場合もある。なお、事前チェック処理部120は、管理対象システム200の制御部230から切り離し完了通知を、監視部110を介して受け取ると、入出力部130を介してDP操作可能メッセージを管理者に対して通知するようにしても良い。
 一方、事前チェック結果がNGであれば、事前チェック処理部120は、システム構成情報格納部150におけるシステム構成情報を、DP操作内容に応じて更新する(ステップS9)。次回、管理対象システム200の再起動を行う場合には、DP操作後のシステム構成で起動するためである。なお、管理対象システム200のデータ格納部240等に、更新後のシステム構成情報を、監視部110及び制御部230を介して格納するようにしても良い。
 なお、事前チェック処理部120は、DP操作不可メッセージを、入出力部130に出力させる。これによって、現時点ではDP操作が不可能であることを認識できるようになる。
 以上本実施の形態によれば、DP操作を実施することの適否を自動的に且つ事前に判断できるようになる。このようにすれば、管理対象システム200全体への影響を抑えつつDP操作ができることが確認できた上で、実際にDP操作を実施することになる。また、不適切なタイミングであれば、そのDP操作は抑止されることになる。
 以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図2に示した機能ブロック図は一例であって、プログラムモジュール構成とは一致しない場合もある。また、処理フローについても、処理結果が変わらない限り、処理順番を入れ替えたり、並列実行するようにしても良い。例えば図8Bのステップの順番は、入れ替え可能であり、並列に実行しても良い。
 さらに、図1の例では、管理対象システム200と管理装置100とがネットワークで接続される例を示しているが、図9に示すように、管理装置100の機能を有する管理部260を、管理対象システム200に含めるような構成も採用しうる。場合によっては、制御部230と管理部260とが一体化されている場合もある。
 また、管理装置100の機能を、複数のコンピュータで分担するようにしても良い。
 なお、上で述べた管理装置100は、コンピュータ装置であって、図10に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
 また、図9に示すように、管理対象システム200内部に管理部260を設ける場合、管理部260自体も、コンピュータ装置であって、図11に示すように、RAM(Random Access Memory)4501とプロセッサ4503とROM(Read Only Memory)4507とがバス4519で接続されている。本実施の形態における処理を実施するための制御プログラム及び存在している場合にはオペレーティング・システム(OS:Operating System))は、ROM4507に格納されており、プロセッサ4503により実行される際にはROM4507からRAM4501に読み出される。また、処理途中のデータについては、RAM4501に格納される。なお、プロセッサ4503は、ROM4507を含む場合もあり、さらに、RAM4501を含む場合もある。本技術の実施の形態では、上で述べた処理を実施するための制御プログラムは、コンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ROMライタによってROM4507に書き込まれる場合もある。このようなコンピュータ装置は、上で述べたプロセッサ4503、RAM4501、ROM4507などのハードウエアと制御プログラム(場合によってはOSも)とが有機的に協働することにより、上で述べたような各種機能を実現する。
 以上述べた本実施の形態をまとめると以下のようになる。
 本実施の形態に係る管理方法は、(A)複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付けた場合、動的変更により生ずるプロセッサ構成に対応するシステムの性能値を特定し、(B)特定されたシステムの性能値がシステムについての要求性能値以上であるか否かを判断し、(C)特定されたシステムの性能値がシステムについての要求性能値以上である場合に、上記指示に係るプロセッサ構成の変更のための処理を実行する処理を含む。
 このようにプロセッサ構成の動的変更によって生ずる性能劣化の程度が異なる場合もあるので、動的変更により生ずるプロセッサ構成に対応するシステムの性能値に基づき、要求性能値以上であるか否かを判断することで、プロセッサ構成の動的変更の是非を事前に判断できるようになる。
 なお、上で述べた要求性能値が、システムにおける負荷に応じて算出される場合もある。システムの負荷によっては、プロセッサ構成の動的変更によって生ずる性能劣化を許容できる場合もあるためである。
 さらに、上で述べた要求性能値が、現在から所定時間内におけるシステムの負荷に応じて算出されるようにしても良い。プロセッサ構成の動的変更実施中にシステム負荷が増加する場合に対処するためである。
 さらに、上で述べた要求性能値が、現在から上記指示に係る動的変更にかかる所定時間内におけるシステムの負荷のピークに応じて算出されるようにしても良い。システムの負荷のピークを処理できれば、問題がないためである。
 さらに、上で述べた管理方法が、システムにおいてエラーが第1の所定基準以上の頻度で発生しているという条件と、システムにおける負荷が第2の所定基準以上であるという条件と、システムにおいてメモリRAS(Reliability Availability and Serviceability)機能が適用されているメモリについてエラーが発生しているという条件との少なくともいずれかが満たされているかを判断するようにしても良い。プロセッサの性能値だけではなく、他にもシステム全体への影響を考慮すべき事項があるためである。
 なお、上で述べたような処理をプロセッサに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD-ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。

Claims (7)

  1.  複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付ける受け付け部と、
     前記指示に係る動的変更により生ずるプロセッサ構成に対応する前記システムの性能値を特定し、特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係るプロセッサ構成の変更のための処理を実行する処理部と、
     を有する管理装置。
  2.  前記要求性能値が、前記システムにおける負荷に応じて算出される
     請求項1記載の管理装置。
  3.  前記要求性能値が、現在から所定時間内における前記システムの負荷に応じて算出される
     請求項1記載の管理装置。
  4.  前記要求性能値が、現在から前記指示に係る動的変更にかかる所定時間内における前記システムの負荷のピークに応じて算出される
     請求項1記載の管理装置。
  5.  前記処理部が、前記システムにおいてエラーが第1の所定基準以上の頻度で発生しているという条件と、前記システムにおける負荷が第2の所定基準以上であるという条件と、前記システムにおいてメモリRAS(Reliability Availability and Serviceability)機能が適用されているメモリについてエラーが発生しているという条件との少なくともいずれかが満たされているかを判断する
     請求項1記載の管理装置。
  6.  複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付けた場合、動的変更により生ずるプロセッサ構成に対応する前記システムの性能値を特定し、
     特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、
     特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係るプロセッサ構成の変更のための処理を実行する
     処理を、コンピュータに実行させるためのプログラム。
  7.  複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付けた場合、動的変更により生ずるプロセッサ構成に対応する前記システムの性能値を特定し、
     特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、
     特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係るプロセッサ構成の変更のための処理を実行する
     処理を含み、コンピュータにより実行される管理方法。
PCT/JP2013/069056 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム WO2015004785A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2013/069056 WO2015004785A1 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム
JP2015526107A JP6103060B2 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム
US14/988,184 US20160132356A1 (en) 2013-07-11 2016-01-05 Management apparatus and method for system configuration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/069056 WO2015004785A1 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/988,184 Continuation US20160132356A1 (en) 2013-07-11 2016-01-05 Management apparatus and method for system configuration

Publications (1)

Publication Number Publication Date
WO2015004785A1 true WO2015004785A1 (ja) 2015-01-15

Family

ID=52279507

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/069056 WO2015004785A1 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム

Country Status (3)

Country Link
US (1) US20160132356A1 (ja)
JP (1) JP6103060B2 (ja)
WO (1) WO2015004785A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700975B (zh) * 2016-01-08 2019-05-24 华为技术有限公司 一种中央处理器cpu热移除、热添加方法及装置
US10802929B2 (en) 2018-01-03 2020-10-13 Tesla, Inc. Parallel processing system runtime state reload

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310791A (ja) * 2006-05-22 2007-11-29 Hitachi Ltd 計算機システムの消費電力低減方法、及びそのプログラム
JP2011518393A (ja) * 2008-04-21 2011-06-23 アダプティブ コンピューティング エンタープライジズ インク 計算環境内のエネルギ消費を管理するシステムおよび方法
WO2011118424A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 マシン稼動計画作成装置、マシン稼動計画作成方法、及びマシン稼動計画作成用プログラム
JP2013524306A (ja) * 2010-03-25 2013-06-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システム内でタスクを開始するためのコンピュータ実装方法、システム及びコンピュータ・プログラム
JP2013127685A (ja) * 2011-12-19 2013-06-27 Hitachi Ltd 情報処理システムおよび運用管理方法
JP2013527948A (ja) * 2010-03-25 2013-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システム内でタスクをディスパッチするための方法、システム及びコンピュータ・プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8176167B2 (en) * 2006-12-05 2012-05-08 Qualcomm Incorporated Methods and apparaus for requesting wireless communication device performance data and providing the data in optimal file size

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310791A (ja) * 2006-05-22 2007-11-29 Hitachi Ltd 計算機システムの消費電力低減方法、及びそのプログラム
JP2011518393A (ja) * 2008-04-21 2011-06-23 アダプティブ コンピューティング エンタープライジズ インク 計算環境内のエネルギ消費を管理するシステムおよび方法
WO2011118424A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 マシン稼動計画作成装置、マシン稼動計画作成方法、及びマシン稼動計画作成用プログラム
JP2013524306A (ja) * 2010-03-25 2013-06-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システム内でタスクを開始するためのコンピュータ実装方法、システム及びコンピュータ・プログラム
JP2013527948A (ja) * 2010-03-25 2013-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システム内でタスクをディスパッチするための方法、システム及びコンピュータ・プログラム
JP2013127685A (ja) * 2011-12-19 2013-06-27 Hitachi Ltd 情報処理システムおよび運用管理方法

Also Published As

Publication number Publication date
JPWO2015004785A1 (ja) 2017-02-23
US20160132356A1 (en) 2016-05-12
JP6103060B2 (ja) 2017-03-29

Similar Documents

Publication Publication Date Title
US8495618B1 (en) Updating firmware in a high availability enabled computer system
EP3306476B1 (en) Method and apparatus for hot cpu removal and hot cpu adding during operation
US10089181B2 (en) Checkpoint triggering in a computer system
US8782643B2 (en) Device and method for controlling communication between BIOS and BMC
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US8880747B2 (en) Endpoint device discovery system
CN110109782B (zh) 一种故障PCIe设备的更换方法、装置及***
KR20150001146A (ko) 스토리지 시스템 및 그의 동작 방법
JP4726915B2 (ja) コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム
US7747893B2 (en) Method and system for managing resources during system initialization and startup
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
US11163630B2 (en) Using real-time analytics to manage application features
WO2022199204A1 (zh) 用于确定资源的方法和装置
JP6103060B2 (ja) 管理装置、管理方法及びプログラム
CN114911644A (zh) 一种vpx服务器管理模块冗余备份方法及***
WO2017041671A1 (zh) 故障恢复的方法和装置
CN113590285A (zh) 一种用于线程池参数动态设置的方法、***及设备
US20150220379A1 (en) Dynamically determining an external systems management application to report system errors
US20210011749A1 (en) Systems and methods to monitor a computing environment
US10742359B2 (en) Apparatus and method for improving messaging system reliability
JP2017037539A (ja) サーバ制御プログラム、サーバ制御方法およびサーバ制御装置
JP2014170448A (ja) レプリケーションシステム、業務処理システム、レプリケーション方法、及びプログラム
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム
CN109189338B (zh) 一种热备盘添加的方法、***及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13889315

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015526107

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13889315

Country of ref document: EP

Kind code of ref document: A1