JP5483784B1 - 制御装置、計算資源管理方法及び計算資源管理プログラム - Google Patents

制御装置、計算資源管理方法及び計算資源管理プログラム Download PDF

Info

Publication number
JP5483784B1
JP5483784B1 JP2013109247A JP2013109247A JP5483784B1 JP 5483784 B1 JP5483784 B1 JP 5483784B1 JP 2013109247 A JP2013109247 A JP 2013109247A JP 2013109247 A JP2013109247 A JP 2013109247A JP 5483784 B1 JP5483784 B1 JP 5483784B1
Authority
JP
Japan
Prior art keywords
resource
event
calculation
information
calculation resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013109247A
Other languages
English (en)
Other versions
JP2014229135A (ja
Inventor
健 尾尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013109247A priority Critical patent/JP5483784B1/ja
Application granted granted Critical
Publication of JP5483784B1 publication Critical patent/JP5483784B1/ja
Publication of JP2014229135A publication Critical patent/JP2014229135A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】事象の発生した計算資源と関連する計算資源を考慮して適切に計算資源を操作すること。
【解決手段】本願の開示する制御装置は、決定部と、操作部とを有する。決定部は、情報処理装置群の内部で稼働する計算資源における事象の発生を契機に、当該事象が発生した計算資源及び当該事象が発生した計算資源に関係する他の計算資源の状態に基づいて、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作を決定する。操作部は、前記決定部によって決定された操作を、前記事象が発生した計算資源及び前記他の計算資源に対して実行する。
【選択図】図4

Description

本発明は、制御装置、計算資源管理方法及び計算資源管理プログラムに関する技術であり、特に、情報処理システムの計算資源管理の自動化に係る技術である。
従来、情報処理システムの運用においては、装置や機能の設置と起動を人手で行った後、装置や機能に対して故障、性能劣化、過負荷、その他動作環境の変化などの事象を検知するための監視が行われる。そして、このような事象が生じた場合には、人手で故障の復旧や設備の増設、入替え、移動などの作業を行うことが一般的である。
しかし、24時間365日にわたり、情報処理システムを監視し、事象に応じた作業を行えるような態勢を整えるのは、経済的ではない。特に、すでに長期間にわたって運用され、事象の検知、対処の内容の決定、対処の内容に応じた作業について、経験が積み重ねられて定型化している場合においては顕著である。このようなことから、定型的な運用を、人手を要さず自動的に行う方法が開示されている。
ZABBIX-JP Japanese Zabbix Community 、ドキュメント Zabbixとは 機能、[online]、[平成25年5月23日検索]、インターネット<URL:http://www.zabbix.jp/documents/functions>
しかしながら、上記の従来技術では、事象の発生した計算資源のみを考慮し、関連する他の計算資源を考慮しない場合があるので、適切に計算資源を操作することができないという問題がある。
例えば従来技術では、アプリケーションサーバとは別に設置された監視装置が、アプリケーションサーバ内で動作する仮想マシンによって収集された複数項目の稼働状況を収集する。そして、監視装置は、収集した稼働状況を事前設定の閾値よりも超過したか否かを判定することにより、情報処理システムにおける障害発生の有無を判定する。ここで、監視装置は、障害が発生したと判定した場合、発生した障害の項目に対してそれぞれ定義された所定の処理を実行する。かかる場合、情報処理システムでは、例えば他の計算資源が余剰能力を有していても、余剰能力を有している計算資源が使用されることはない。
開示の技術は、上述に鑑みてなされたものであって、事象の発生した計算資源と関連する計算資源を考慮して適切に計算資源を操作することを目的とする。
本願の開示する制御装置は、決定部と、操作部とを有する。決定部は、情報処理装置群の内部で稼働する計算資源における事象の発生を契機に、当該事象が発生した計算資源及び当該事象が発生した計算資源に関係する他の計算資源の状態に基づいて、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作を決定する。操作部は、前記決定部によって決定された操作を、前記事象が発生した計算資源及び前記他の計算資源に対して実行する。
開示する制御装置、計算資源管理方法及び計算資源管理プログラムの一つの態様によれば、事象の発生した計算資源と関連する計算資源を考慮して適切に計算資源を操作することができるという効果を奏する。
図1は、情報処理システムの構成例を示す図である。 図2は、初期設定時における各装置間の情報の流れを示す図である。 図3は、事象発生時における各装置間の情報の流れを示す図である。 図4は、制御装置の構成を示す機能ブロック図である。 図5は、包含関係の一例を示す図である。 図6は、包含関係の一例を示す図である。 図7は、接続関係の一例を示す図である。 図8は、計算資源関連性情報テーブルが記憶するデータ構造の定義例を示す図である。 図9は、計算資源関連性情報テーブルが記憶する実体値の一例を示す図である。 図10は、計算資源監視内容情報テーブルが記憶するデータ構造の一例を示す図である。 図11は、適用対象判定条件式雛形選択情報テーブルが記憶するデータ構造の一例を示す図である。 図12は、判定条件式テーブルが記憶するデータ構造の一例を示す図である。 図13は、計算資源操作依頼の一例を示す図である。 図14は、計算資源監視条件情報を説明するための図である。 図15は、初期設定処理の動作例を説明するシーケンス図である。 図16は、変更処理の動作例を説明するシーケンス図である。 図17は、事象発生時の計算資源操作処理の動作例を説明するシーケンス図である。 図18は、初期設定処理の手順を示すフローチャートである。 図19は、資源操作処理の手順を示すフローチャートである。 図20は、判定条件式テーブル変更処理の手順を示すフローチャートである。 図21は、監視条件変更処理の手順を示すフローチャートである。 図22は、事象発生時の処理の手順を示すフローチャートである。 図23は、自動スケールアウトする場合の処理動作を説明するための図である。 図24は、仮想マシンサーバ装置の性能劣化を自動防止する場合の処理動作を説明するための図である。 図25は、サーバ室の温度が局所的に上昇することを防止する場合の処理動作を説明するための図である。 図26は、夜間に自動的に縮退運転する場合の処理動作を説明するための図である。 図27は、コンピュータシステムによる処理を実行するための計算資源管理プログラムによる情報処理がコンピュータを用いて具体的に実現されることを示す図である。
以下に、開示する制御装置、計算資源管理方法及び計算資源管理プログラムの実施形態について、図面に基づいて詳細に説明する。なお、本実施形態により開示する発明が限定されるものではない。
(第1の実施形態)
図1は、情報処理システム100の構成例を示す図である。図1に示すように、情報処理システム100は、利用者端末200と、情報処理装置群300と、監視装置400と、制御装置500とを有する。
利用者端末200は、制御装置500と接続し、利用者が制御装置500を操作する際に使用する入出力装置を備えたコンソール装置である。例えば、利用者は、情報処理装置群300の管理者である。
情報処理装置群300は、制御装置500と監視装置400とに接続する計算資源の集合であり、例えばサーバ装置である。情報処理装置群300は、制御装置500からの操作に基づいて計算資源が配置され、監視装置400から稼働状況を収集される一以上の計算資源を稼働する。
ここで言う、計算資源には、CPU(Central Processing Unit)、メモリ、データ保持領域を備え、ネットワーク通信機能を有する装置、CPU、メモリを備え、データを転送する機能を有する装置、サーバ室等の設置場所、及びこれらの仮想化装置が含まれる。より具体的には、計算資源には、サーバ機器やパーソナルコンピュータを含むコンピュータ装置、情報を永続的に保持するためのストレージ装置、コンピュータ装置間を相互に接続するためのネットワーク機器、各装置に電力を供給するための電源装置、各装置間を接続するケーブルなどの物理的な計算資源に加え、仮想計算機、仮想ネットワーク、仮想ディスクなどの仮想的な計算資源も含まれる。
また、情報処理装置群300の内部の計算資源は、別の一以上の計算資源と関係性を持つ場合がある。図1に示す例では、情報処理装群300は、計算資源301a及び計算資源301bを有し、計算資源301aと計算資源301bとが関係性を持つ。ここで言う「関係性」とは、例えば、仮想マシンと仮想マシンが稼働するコンピュータ装置との間の包含関係や、コンピュータ装置とネットワーク機器との間の接続関係などが含まれる。なお、「関係性」の詳細については、後述する。また、以下の説明では、計算資源301a及び計算資源301bを区別せずに一般化して呼ぶ場合には、計算資源301と記載する。
監視装置400は、制御装置500と情報処理装置群300とに接続する。この監視装置400は、CPU、メモリ、データ保持領域、及びネットワーク通信機能に加えて、温度・電力量等の測定値の収集機能、警報通知機能を有する装置であり、情報処理装置群300を監視することで、情報処理装置群300に生じた事象を検知する。なお、ここで言う「事象」には、装置や機能に対して生じた故障、性能劣化、過負荷、その他動作環境の変化などを含む。
制御装置500は、利用者端末200と情報処理装置群300と監視装置400とに接続する。この制御装置500は、CPU、メモリ、データ保持領域、及びネットワーク通信機能を有する装置である。この制御装置500は、情報処理装置群300の内部で稼働する計算資源301における事象の発生を契機に、当該事象が発生した計算資源301及び当該事象が発生した計算資源に関係する他の計算資源301の状態に基づいて、事象が発生した計算資源301及び他の計算資源301に対して実行する操作を決定する。そして、制御装置500は、決定した操作を、事象が発生した計算資源301及び他の計算資源301に対して実行する。
なお、各装置間の接続、及び制御装置500と利用者端末200との相互の接続は通信網を介したものであるが、通信網は構内通信網(LAN(Local Area Network))、インターネット、公衆電話網を含めて構成してもよい。また、制御装置500に対して利用者端末200が複数接続されていてもよい。また、利用者端末200は監視装置400に接続されていてもよい。
次に、図2及び図3を用いて、このような情報処理システム100における各装置間の情報の流れを説明する。図2は、初期設定時における各装置間の情報の流れを示す図である。なお、図2に示す例では、利用者端末200が、情報処理装置群300の初期設定を行う場合の情報の流れを示す。図2に示すように、利用者端末200は、情報処理装置群300の稼動を開始する場合、制御装置500に「計算資源操作依頼」を送信する(ステップS1)。
そして、制御装置500は、「計算資源操作依頼」に基づいて、情報処理装置群300の計算資源301を操作する(ステップS2)。制御装置500は、情報処理装置群300から計算資源301の操作が成功した旨を通知されると(ステップS3)、制御装置500内で関係性を変更する。続いて、制御装置500は、監視装置400に「計算資源監視条件情報」を送信する(ステップS4)。
そして、監視装置400は、「計算資源監視条件情報」に基づいて情報処理装置群300を監視する(ステップS5)。例えば、監視装置400は、制御装置500から受信する「計算資源監視条件情報」に基づいて、情報処理装置群300の内部において動作する複数の計算資源301の生死照会への応答状況、CPUやメモリの使用率、ネットワーク機器のパケットの送受数・帯域使用率などの稼働状況を収集する。そして、情報処理装置群300は、監視装置400に応答を返す(ステップS6)。
図3は、事象発生時における各装置間の情報の流れを示す図である。なお、図3に示す例では、監視装置400が、情報処理装置群300において事象の発生を検出した場合の情報の流れを示す。図3に示すように、監視装置400は、情報処理装置群300から収集した稼働状況に基づいて計算資源毎の状態の変化を検知すると、変化の内容を事象情報として制御装置500に送信する(ステップS11)。
制御装置500は、関係性に基づいて、計算資源301に対する操作内容を決定し、情報処理装置群300の計算資源301を操作する(ステップS12)。制御装置500は、情報処理装置群300から計算資源301の操作が成功した旨を通知されると(ステップS13)、制御装置500内で関係性を変更する。続いて、制御装置500は、監視装置400に「計算資源監視条件情報」を送信する(ステップS14)。
そして、監視装置400は、「計算資源監視条件情報」に基づいて情報処理装置群300を監視する(ステップS15)。そして、情報処理装置群300は、監視装置400に応答を返す(ステップS16)。
次に、図4を用いて、図1に示した制御装置500の機能構成を説明する。図4は、制御装置500の構成を示す機能ブロック図である。制御装置500は、通信制御部501と、記憶部510と、制御部520とを有する。
通信制御部501は、通信インターフェースであり、利用者端末200、情報処理装置群300、及び監視装置400等の外部装置とデータを送受信する。
記憶部510は、例えば、半導体メモリ素子又はハードディスクなどの記憶装置であり、計算資源関連性情報テーブル511と、計算資源監視内容情報テーブル512と、適用対象判定条件式雛形選択情報テーブル513と、判定条件式テーブル514とを有する。
計算資源関連性情報テーブル511は、ある計算資源と他の計算資源との間にどのような関係性があるかを識別する「関係性情報」を記憶する。例えば、「関係性情報」には、仮想マシンとこれが稼働するべきコンピュータ装置との間の包含関係や、コンピュータ装置とネットワーク機器との間の接続関係などが含まれる。ここでは、計算資源関連性情報テーブル511が記憶するデータ構造の説明を行う前に、図5〜図7を用いて、包含関係及び接続関係について説明する。
図5は、包含関係の一例を示す図である。なお、包含関係には、「論理的な包含」と、「物理的な包含」とがあり、図5では、論理的な包含の一例を示す。図5に示す例では、VMC(Virtual Machine Cluster)5a(仮想サーバ或いはサーバクラスタ)は、複数のVM(Virtual Machine)5b〜5fを稼動させている。すなわち、VMC5aが複数のVM5b〜5fを論理的に含んでいる。かかる場合、VMC5aとVM5b〜5fとが包含関係にあると呼ぶ。なお、包含関係において、計算資源Aが計算資源Bを包んでいる場合、言い換えると、計算資源Bが計算資源Aに含まれている場合、計算資源Bを「主項目」と言い、計算資源Aを「従属項目」と言う場合がある。図5に示す例では、VM5b〜5fが「主項目」であり、VMC5aが「従属項目」である。なお、この「主項目」及び「従属項目」の関係は、「論理的な包含」と、「物理的な包含」とで共通である。
図6は、包含関係の一例を示す図である。図6では、物理的な包含の一例を示す。図6に示す例では、リージョン6aは、ビル6bを物理的に含み、このビル6bは、サーバ室6cを物理的に含んでいる。また、図6に示す例では、サーバ室6cは、ラック6dを物理的に含み、このラック6dは、物理サーバ6eを物理的に含んでいる。なお、図6に示す例では、物理サーバ6eは、VM6f(或いは仮想サーバ)を論理的に含んでいる。このように、「論理的な包含」及び「物理的な包含」関係において、計算資源301は、関係する計算資源301と1対1以上の対応関係となる。
図7は、接続関係の一例を示す図である。図7に示す例では、ルータ7aは、スイッチ(SW)7dと接続する。また、ルータ7bは、SW7d及びSW7eと接続する。また、ルータ7cは、SW7eと接続する。また、図7に示す例では、SW7dは、VM7f及びVM7gと接続する。また、SW7eは、VM7g及びVM7hと接続する。このように、計算資源301同士間が接続する場合、接続関係であると呼ぶ。なお、VM7f〜7hをSW7d及び7eに対して上位の装置とし、SW7d及び7eをルータ7a〜7cに対して上位の装置とする場合、接続関係において、上位に位置する計算資源Aと下位に位置する計算資源Bとが接続する場合、上位に位置する計算資源Aを「主項目」と言い、下位に位置する計算資源Bを「従属項目」と言う場合がある。図7に示す例では、VM7f〜7hが「主項目」であり、SW7d及び7eが「従属項目」である。
続いて、図8及び図9を用いて、計算資源関連性情報テーブル511が記憶するデータ構造について説明する。図8は、計算資源関連性情報テーブル511が記憶するデータ構造の定義例を示す図である。言い換えると、図8は、計算資源相互間の関係性情報の定義例を示す。この関係性情報は、計算資源ごとに複数定義される。
例えば図8に示すように、関係性情報は、「関係性ID」と、「主項目」と、「関係」と、「従属項目」と、「関係種別」とで定義される。ここで「関係性ID」は、関係性情報の識別子である。例えば、「関係性ID」には、「0001」、「0002」などのデータ値が格納される。
また、「主項目」及び「従属項目」は、各々計算資源を示す。例えば、「主項目」には、「VM番号」、「サービス名」、「温度センサ」、及び「サーバ番号」などのデータ値が格納される。また、「従属項目」には、「サーバ番号」、「VM番号」、「ルータ番号」、「VMクラスタ番号」、「ロードバランサー番号」、及び「サーバ室番号」などのデータ値が格納される。
また、「関係」は、「主項目」と「従属項目」との関係を示す。例えば、「関係」には、主項目として指定される計算資源が従属項目として指定される計算資源上で起動することを示す「on」、主項目として指定される計算資源が従属項目として指定される計算資源に基づいていることを示す「based_on」、主項目として指定される計算資源が従属項目として指定される計算資源によって形成される群の1部であることを示す「Member_of」、主項目として指定される計算資源が従属項目として指定される計算資源に設置されていることを示す「Attached_by」、及び主項目として指定される計算資源が従属項目として指定される計算資源内に存在することを示す「in」などのデータ値が格納される。
「関係種別」は、ある計算資源と別の計算資源との間の関係を示す。例えば、「関係種別」には、「包含」或いは「接続」が格納される。
一例をあげると、図8に示す計算資源関連性情報テーブル511が記憶するデータ構造の定義例は、「関係性ID」が「0001」である場合、VM番号は、サーバ番号に包含される関係性を定義する。
図9は、計算資源関連性情報テーブル511が記憶する実体値の一例を示す図である。なお、図9に示す例では、図8の定義に基づいて登録された計算資源関連性情報テーブル511が記憶する実体値の一例を示す。図9に示す計算資源関連性情報テーブル511において「関係性ID」、「主項目」、「関係」、「従属項目」、及び「関係種別」は、図8に示す各項目と同様であるので、詳細な説明は省略する。
図9に示す例では、計算資源関連性情報テーブル511は、「関係性ID」が「0001」であり、VM番号が「vm0001」である計算資源は、サーバ番号が「sv0002」に包含される関係性であることを示す。同様に、図9に示す例では、計算資源関連性情報テーブル511は、「関係性ID」が「0002」であり、サービス名が「Svc0001」である計算資源は、VM番号が「vm0001」に包含される関係性であることを示す。なお、この計算資源関連性情報テーブル511が記憶する関係性情報は、計算資源301の操作の結果更新される。
図4に戻り、計算資源監視内容情報テーブル512は、計算資源毎に、計算資源に生じる事象のうち、計算資源にとって監視対象となる事象を識別するための情報を対応付けた「計算資源監視内容情報(資源状態情報とも言う)」を記憶する。ここで、初期設定時において、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」には、計算資源の監視当初の状態を識別する情報が設定される。例えば、計算資源への通信要求に対する計算資源からの応答が正常に行われている状態にあることや、計算資源における処理量が一定の閾値を超えていない状態にあることを示す情報が設定される。そして、この「計算資源監視内容情報」は、計算資源が操作されるごとに初期値が設定される。
また、「計算資源監視内容情報」は、計算資源に事象が発生した場合に更新される。例えば、計算資源への通信要求に対する計算資源からの応答が行われなくなった事象や、計算資源における処理量が一定の閾値を超えた事象などが発生した場合に、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」には、計算資源に発生した事象が設定される。
図10は、計算資源監視内容情報テーブル512が記憶するデータ構造の一例を示す図である。図10に示すように、計算資源監視内容情報テーブル512は、「種別」と、「監視対象」と、「監視項目」と、「監視状態(初期値)」とを対応付けた情報を記憶する。ここで、計算資源監視内容情報テーブル512が記憶する「種別」は、計算資源の種別を示す。例えば、「種別」には、「VM」、「サーバ」、「サーバラック」などのデータ値が格納される。
計算資源監視内容情報テーブル512が記憶する「監視対象」は、種別に対応する計算資源の識別子を示す。例えば、「監視対象」には、「vm0001」、「vm0002」などのデータ値が格納される。
計算資源監視内容情報テーブル512が記憶する「監視項目」は、監視対象について監視する項目を示す。例えば、「監視項目」には、「死活」、「CPU使用率」、「メモリ使用率」、「温度」、「電力消費量」、及び「ラック使用率」などのデータ値が格納される。
計算資源監視内容情報テーブル512が記憶する「監視状態」は、監視対象の状態を示す。例えば、「監視状態」には、計算資源から応答が得られたことを示す「green」、計算資源から応答が得られなかったことを示す「red」などのデータ値が格納される。また、「監視状態」には、使用率などについて「low」、「midium」、及び「high」などのデータ値が格納される。
一例をあげると、図10に示す計算資源監視内容情報テーブル512は、計算資源が「vm0001」で識別されるVMの死活を監視しており、「vm0001」の死活状態が「green」であり活状態であることを示す。同様に、図10に示す計算資源監視内容情報テーブル512は、計算資源が「vm0001」で識別されるVMのCPU使用率を監視しており、「vm0001」のCPU使用率が「low」であり低い状態であることを示す。
図4に戻り、適用対象判定条件式雛形選択情報テーブル513は、計算資源において発生する事象に対応して適用される判定条件式の雛形を識別する「判定条件式雛形情報」を記憶する。この適用対象判定条件式雛形選択情報テーブル513は、事象が生じた計算資源自体を示す変数と、この計算資源と特別な関係性をもつ他の一以上の計算資源を示す変数とを情報として含む。また、適用対象判定条件式雛形選択情報テーブル513は、一以上の対象計算資源における稼動状態を表す複数の判定項目の論理積として定義された実行すべき操作を決定するための判定条件式と、当該判定の結果として決定される実行するべき操作の内容を示す情報とを組み合わせた情報を含む。
図11は、適用対象判定条件式雛形選択情報テーブル513が記憶するデータ構造の一例を示す図である。図11に示すように、適用対象判定条件式雛形選択情報テーブル513は、「判定条件式雛形識別情報」と、「事象発生計算資源」と、「関連計算資源」と、「判定条件式」と、「操作内容」とを対応付けた情報を記憶する。
ここで、適用対象判定条件式雛形選択情報テーブル513が記憶する「判定条件式雛形識別情報」は、「判定条件式雛形情報」の識別子を示す。例えば、「判定条件式雛形識別情報」には、「000A」、「000B」などのデータ値が格納される。
また、適用対象判定条件式雛形選択情報テーブル513が記憶する「事象発生計算資源」は、事象が発生した計算資源の種別を示す。例えば、「事象発生計算資源」には、「サービス番号」、「仮想マシンクラスタ番号、「サーバ装置」、「温度センサ」、及び「時刻起動」などのデータ値が格納される。
また、適用対象判定条件式雛形選択情報テーブル513が記憶する「関連計算資源」は、事象が発生した計算資源と関係性のある計算資源を示す。例えば、「関連計算資源」には、「ルータ番号」、「仮想マシン番号」、及び「サーバ装置」などのデータ値が格納される。
また、適用対象判定条件式雛形選択情報テーブル513が記憶する「判定条件式」は、計算資源に対して操作を実行するか否かを判定する条件を示す式である。例えば、「判定条件式」には、「サービス=red&&ルータ=green」、「(仮想サーバ#1負荷=high)&&(仮想サーバ#2負荷=high)&&・・・(仮想サーバ#N負荷=high)」、「CPU負荷=high」、及び「夜間時間帯&&サーバ装置CPU=low」などのデータ値が格納される。
また、適用対象判定条件式雛形選択情報テーブル513が記憶する「操作内容」は、計算資源に対して実行する操作の内容を示す。例えば、「操作内容」には、「サービス再起動」、「仮想マシン追加」、「新仮想サーバ作成停止」、「新仮想サーバ作成停止、移動先探査、既存仮想サーバの移動」、及び「仮想サーバの移動先探査、仮想サーバの移動、サーバ装置の電源断」などのデータ値が格納される。
一例をあげると、図11に示す適用対象判定条件式雛形選択情報テーブル513は、「000A」で識別される「判定条件式雛形情報」が、サービスに事象が発生した場合であって、サービスに関連するルータが正常である場合、サービスを再起動する情報であることを示す。同様に、図11に示す適用対象判定条件式雛形選択情報テーブル513は、「000B」で識別される「判定条件式雛形情報」が、仮想マシンのクラスタに事象が発生した場合であって、仮想マシンのクラスタを構成する各仮想マシンの負荷がいずれも高い場合、仮想マシンを追加する情報であることを示す。
判定条件式テーブル514は、計算資源ごとに対応付けた「判定条件式情報」を記憶する。この判定条件式テーブル514は、図11に示した「判定条件式雛形情報」に基づいて、計算資源ごとの判定条件式情報を記憶する。
図12は、判定条件式テーブル514が記憶するデータ構造の一例を示す図である。図12に示すように、判定条件式テーブル514は、「判定条件式雛形識別情報」と、「事象発生計算資源」と、「関連計算資源」と、「判定条件式」と、「操作内容」とを対応付けた情報を記憶する。なお、判定条件式テーブル514が記憶する各項目は、図11に示した適用対象判定条件式雛形選択情報テーブル513が記憶する各項目と同様であるので、詳細な説明は省略する。
一例をあげると、図12に示す判定条件式テーブル514は、「000A」で識別される「判定条件式雛形情報」が、「svc0001」で識別されるサービスに事象が発生した場合、このサービスに関連するルータ「rt0001」が正常であれば、サービス「svc0001」を再起動する情報であることを示す。同様に、図12に示す判定条件式テーブル514は、「000C」で識別される「判定条件式雛形情報」が、「sv0001」で識別されるサーバ装置に事象が発生した場合、サーバ装置「sv0001」のCPU負荷が高ければ、新たに仮想サーバを作成することを停止する情報であることを示す。
図4に戻り、制御部520は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路であり、決定部521と、計算資源操作部522と、変更部523とを有する。
決定部521は、情報処理装置群300の内部で稼働する計算資源301における事象の発生を契機に、当該事象が発生した計算資源301及び当該事象が発生した計算資源301に関係する他の計算資源301の状態に基づいて、事象が発生した計算資源301及び他の計算資源301に対して実行する操作を決定する。
例えば、決定部521は、監視装置400からの事象情報の受信を契機に、事象が生じた計算資源自体とその計算資源と関係性をもつ別の一つまたは複数以上の計算資源(以下、「対象計算資源」と記す)の状態の値を判定条件式に適用した判定結果に基づき、操作の内容を決定する。
まず、決定部521は、監視装置400から事象情報を受信した場合、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」を更新する。例えば、決定部521は、計算資源監視内容情報において、事象が発生した計算資源の「種別」と「監視対象」と「監視項目」とに対応する「監視状態」の項目を、事象情報で通知された状態に変更する。
続いて、決定部521は、判定条件式テーブル514が記憶する「判定条件式情報」を参照して、実行する操作を決定する。例えば、決定部521は、判定条件式情報の「事象発生計算資源」において、事象が発生した計算資源の識別子と一致する計算資源を特定する。そして、決定部521は、特定した計算資源に対応付けられた「関連計算資源」と「判定条件式」とを特定する。
そして、決定部521は、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」において、事象が発生した計算資源の識別子と一致する「監視対象」に対応付けられた「監視状態」を読出し、事象が発生した計算資源の状態を特定する。同様に、決定部521は、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」において、事象が発生した計算資源に関係する計算資源(関連計算資源とも言う)の識別子と一致する「監視対象」に対応付けられた「監視状態」を読出し、関連計算資源の状態を特定する。
また、決定部521は、事象が発生した計算資源の状態と、関連計算資源の状態とが特定した判定条件式の条件を満たすか否かを判定する。そして、決定部521は、判定条件式の条件を満たす場合、判定条件式情報の「事象発生計算資源」に対応付けられた操作内容を実行すると判定する。一方、決定部521は、判定条件式の条件を満たさない場合、計算資源に対する操作を実行しないと判定する。
具体的には、図12で説明した判定条件式テーブル514が記憶する「判定条件式情報」である場合に、サービス「svc0001」に事象が発生した場合、決定部521は、「svc0001」の状態と、「rt0001」の状態とを計算資源監視内容情報から取得する。そして、決定部521は、「svc0001」の状態と、「rt0001」の状態とが判定条件式の条件を満たすか否かを判定する。なお、かかる場合、「svc0001」が「red」である。一例をあげると、決定部521は、「rt0001」が「green」であれば、判定条件式の条件を満たすと判定し、「rt0001」が「red」であれば、判定条件式の条件を満たさないと判定する。言い換えると、判定条件式情報は、事象が発生した計算資源の状態と、当該事象が発生した計算資源に関係する計算資源の状態との論理積によって表される。
また、決定部521は、計算資源操作部522に対して、対象計算資源に対する決定した操作の実行に係る「計算資源操作依頼」を送信する。図13は、計算資源操作依頼の一例を示す図である。図13に示すように、決定部521は、「操作」と、「操作対象」と、「操作引数」とを対応付けた計算資源操作依頼を生成する。
ここで、計算資源操作依頼における「操作」は、操作対象となる計算資源に対して実行する操作を規定するコマンド種別を示す。例えば、「操作」には、初期化を指示する「initialize」、起動を指示する「activate」、電源断を指示する「poweroff」、消去を指示する「cleanup」、接続を指示する「connect」、追加を指示する「addMember」、移動を指示する「migrateTo」、新たな仮想サーバ作成の停止を指示する「stopNewServer」などのデータ値が格納される。
また、「操作対象」は、操作の対象となる計算資源であり、事象が発生した計算資源を示す。「操作対象」には、仮想マシンを識別する「vm0001」及び「vm0002」、仮想マシンのクラスタを識別する「Vmc0003」、ロードバランサーを識別する「LB0001」、サーバ装置を識別する「sv0001」などのデータ値が格納される。
また、「操作引数」は、操作内容に応じた操作条件や操作対象と関係性のある計算資源を示す。例えば、「操作引数」には、「停止時間〜3分後」、「vm0002」などのデータ値が格納される。
一例をあげると、図13に示す計算資源操作依頼は、「vm0001」で識別されるVMを初期化することを示す。
計算資源操作部522は、計算資源操作依頼を受付けた場合、計算資源操作依頼が指定する操作依頼の内容に応じて情報処理装置群300内の計算資源301を操作する。例えば、計算資源操作部522は、決定部521によって決定された操作を、事象が発生した計算資源301及び他の計算資源301に対して実行する。例えば、計算資源操作部522は、決定部521から計算資源操作依頼を受信した場合、計算資源操作依頼が指定する操作依頼の内容に応じて情報処理装置群300内の計算資源301を操作する。そして、計算資源操作部522は、計算資源301を操作する処理が完了した場合、操作が完了した旨及び操作内容を変更部523に通知する。
また、計算資源操作部522は、更に、利用者端末200から情報処理装置群300の内部で稼働する計算資源301を操作する要求を受付けた場合に、計算資源301に対して操作を実行する。なお、利用者端末200から受信する「計算資源操作依頼」は、図13で説明した決定部521により生成される「計算資源操作依頼」と同様である。なお、計算資源操作部522は、計算資源301を操作する処理が完了した場合、操作が完了した旨及び操作内容を変更部523に通知する。
変更部523は、操作が実行された結果、操作の対象である計算資源301と、当該計算資源に関係する他の計算資源301との関係性が変化した場合、計算資源関連性情報テーブル511が記憶する操作の対象である計算資源301に対して関係性情報を変更する。
例えば、変更部523は、新たに計算資源を追加する場合、追加された計算資源について、「関係性ID」と、「主項目」と、「関係」と、「従属項目」と、「関係種別」とを対応付けた「関係性情報」を生成し、計算資源関連性情報テーブル511に記憶させる。また、稼働中の計算資源を停止する場合、変更部523は、停止された計算資源の「関係性情報」を計算資源関連性情報テーブル511から削除する。なお、稼働中の計算資源を再起動する場合、変更部523は、再起動された計算資源について、「関係性情報」を更新しない。
また、変更部523は、操作が実行された結果、操作の対象である計算資源301と、当該計算資源に関係する他の計算資源301との関係性が変化した場合、判定条件式テーブル514が記憶する判定条件式情報を変更する。言い換えると、変更部523は、計算資源操作部522における対象計算資源に対する決定された操作実行の結果として、新たな計算資源が生成されたり、計算資源相互間の関係内容性に追加、修正、削除などの変化が加えられるなどの計算資源間の関係性の変化を検知した場合、(既定の対象計算資源相互間の関係を示す値が変化するなど対象計算資源相互間の関係性が変化したりした場合には、)変化の対象となる全ての計算資源について、判定条件式情報を再度設定する。
例えば、変更部523は、適用対象判定条件式雛形選択情報と関係性情報とに基づいて判定条件式情報を再度設定する。具体的には、変更部523は、計算資源関連性情報テーブル511が記憶する関係性情報を参照して、新たな計算資源に関係する計算資源を特定する。より具体的には、変更部523は、計算資源関連性情報テーブル511が記憶する関係性情報から、新たな計算資源の識別子と一致する「主項目」に対応付けられた「従属項目」の識別子を特定することで、新たな計算資源に関係する計算資源(関連計算資源)を特定する。そして、変更部523は、特定した計算資源の識別子を、判定条件式情報の「関連計算資源」に格納する。また、変更部523は、新たな計算資源の識別子を、判定条件式情報の「事象発生計算資源」に格納する。
また、変更部523は、適用対象判定条件式雛形選択情報から判定条件式を読出し、新たな計算資源の識別子と、関連計算資源の識別子とを判定条件式に置換する。そして、変更部523は、置換した判定条件式を、判定条件式情報の「判定条件式」に格納する。
なお、変更部523は、計算資源間の関係性が変化した計算資源について、同様の処理を実行する。
また、変更部523は、計算資源監視条件情報を変更する。この計算資源監視条件情報には、計算資源に対する監視をどのように行うかを決定するための情報が含まれる。例えば、変更部523は、計算資源の操作の結果として新たな計算資源が生成された場合、或いは計算資源の監視条件が変化したりした場合に、計算資源監視条件情報を生成して、監視装置400に送信する。この計算資源監視条件情報には、計算資源からの無応答を監視する場合の計算資源への通信要求の頻度や応答に対する最大待ち時間、計算資源における過負荷を監視する場合の処理量の情報収集の頻度や処理量の閾値、監視装置から計算資源に対して通信要求を行う場合の宛先IP(Internet Protocol)アドレスなどが含まれる。
図14は、計算資源監視条件情報を説明するための図である。図14に示す例では、監視条件として例1〜例4を示す。図14において、例1として示す「計算資源監視条件情報」は、計算資源の生死を監視する条件を指定する。例えば、例1に示す「計算資源監視条件情報」は、情報処理装置群300からpingに対して60秒以上応答が得られない場合、事象情報として「サービス=red」を制御装置500に送信させることを示す。
より具体的には、監視装置400が10秒周期でpingを情報処理装置群300に送信し、情報処理装置群300から6回連続して応答が得られない場合に、pingに対して無応答であると判定する。かかる場合、監視装置400は、事象情報「サービス=red」を制御装置500に送信する。
また、図14において、例2として示す「計算資源監視条件情報」は、計算資源の負荷を監視する条件を指定する。例えば、例2に示す「計算資源監視条件情報」は、VMクラスタの合計ロードアベレージが5分間継続して5.0以上である場合、事象情報として「VMクラスタ負荷=high」を制御装置500に送信させることを示す。
より具体的には、監視装置400が30秒周期でロードアベレージを情報処理装置群300から測定値を収集し、情報処理装置群300からのVMクラスタの負荷を集計して、10回連続して5.0以上となる場合、VMクラスタの合計ロードアベレージが5分間継続して5.0以上であると判定する。かかる場合、監視装置400は、事象情報「VMクラスタ負荷=high」を制御装置500に送信する。
また、図14において、例3として示す「計算資源監視条件情報」は、計算資源のリソースの使用率を監視する条件を指定する。例えば、例3に示す「計算資源監視条件情報」は、CPU使用率が5分間継続して95%以上である場合、事象情報として「CPU負荷=high」を制御装置500に送信させることを示す。
より具体的には、監視装置400が30秒周期で情報処理装置群300のCPU使用率の測定値を収集し、10回連続して95%以上となる場合に、CPU使用率が5分間継続して95%以上であると判定する。かかる場合、監視装置400は、事象情報「CPU負荷=high」を制御装置500に送信する。
また、図14において、例4として示す「計算資源監視条件情報」は、サーバ室の温度を監視する条件を指定する。例えば、例4に示す「計算資源監視条件情報」は、サーバ室の温度が10分間継続して40度以上である場合、事象情報として「サーバ室温=high」を制御装置500に送信させることを示す。
より具体的には、監視装置400が1分周期でサーバ室の室温測定値を収集し、10回連続して40度以上となる場合に、サーバ室の温度が10分間継続して40度以上であると判定する。かかる場合、監視装置400は、事象情報「サーバ室温=high」を制御装置500に送信する。
なお、変更部523は、複数の監視条件について計算資源監視条件情報を生成して、監視装置400に送信してもよい。
図15は、初期設定処理の動作例を説明するシーケンス図である。図15に示す例では、制御装置500が、利用者端末200から計算資源操作依頼を受信した場合の処理動作を説明する。図15に示すように、利用者端末200は、計算資源操作依頼を制御装置500に送信する(ステップS21)。
そして、制御装置500において、計算資源操作部522が、利用者端末200から計算資源操作依頼を受信した場合、情報処理装置群300の計算資源301を操作する(ステップS22)。計算資源操作部522は、情報処理装置群300から操作完了を通知されると(ステップS23)、変更部523に操作完了を通知する。そして、変更部523は、計算資源関連性情報テーブル511が記憶する関係性情報を更新する(ステップS24)。
図16は、変更処理の動作例を説明するシーケンス図である。図16に示す例では、計算資源の操作が行われた場合の、制御装置500の変更部523による処理動作を説明する。図16に示すように、変更部523は、操作した計算資源について、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」を設定する(ステップS31)。例えば、新たに計算資源を追加する場合、変更部523は、追加された計算資源について「計算資源監視内容情報」を生成し、計算資源監視内容情報テーブル512に記憶させる。また、稼働中の計算資源を停止する場合、変更部523は、停止された計算資源の「計算資源監視内容情報」を計算資源監視内容情報テーブル512から削除する。また、稼働中の計算資源を再起動する場合、変更部523は、再起動された計算資源について、「計算資源監視内容情報」のうち「監視状態」を初期状態に設定する。
変更部523は、計算資源監視内容情報テーブル512から「計算資源監視内容情報」を取得し(ステップS32)、適用対象判定条件式雛形選択情報テーブル513から「判定条件式雛形情報」を取得し(ステップS33)、計算資源関連性情報テーブル511から「関係性情報」取得する(ステップS34)。そして、変更部523は、「判定条件式雛形情報」と「関係性情報」とに基づいて、判定条件式テーブル514が記憶する「判定条件式情報」を設定する(ステップS35)。
また、変更部523は、「計算資源監視内容情報」と「判定条件式雛形情報」と「関係性情報」とに基づいて、計算資源監視条件情報を生成し、生成した計算資源監視条件情報を監視装置400に送信する(ステップS36)。そして、監視装置400は、計算資源監視条件を設定し、情報処理装置群300の計算資源301を監視する(ステップS37)。
図17は、事象発生時の計算資源操作処理の動作例を説明するシーケンス図である。図17に示す例では、計算資源に事象が発生した場合の、制御装置500による処理動作を説明する。図17に示すように、監視装置400は、情報処理装置群300を監視し、情報処理装置群300に生じた異常や故障などを検知する(ステップS41)。そして、監視装置400は、情報処理装置群300から収集した稼働状況に基づいて計算資源毎の状態の変化を検知すると、変化の内容を事象情報として制御装置500に送信する(ステップS42)。
制御装置500において決定部521は、監視装置400から事象情報を受信すると、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」を更新する(ステップS43)。また、決定部521は、判定条件式を取得し(ステップS44)、条件を判定して計算資源に対して実行する操作を決定する。決定部521は、決定した操作について「計算資源操作依頼」を生成し、生成した「計算資源操作依頼」を計算資源操作部522に受け渡す(ステップS45)。
計算資源操作部522は、決定部521から計算資源操作依頼を受信した場合、情報処理装置群300の計算資源を操作する(ステップS46)。計算資源操作部522は、情報処理装置群300から操作完了を通知されると(ステップS47)、変更部523に操作完了を通知する。そして、変更部523は、計算資源関連性情報テーブル511が記憶する関係性情報を更新する(ステップS48)。
次に、図18〜図22を用いて、制御装置500による処理の手順を説明する。図18は、初期設定処理の手順を示すフローチャートである。図18に示すように、計算資源操作部522は、資源操作依頼を利用者端末200から受信したか否かを判定する(ステップS101)。ここで、計算資源操作部522は、資源操作依頼を利用者端末200から受信したと判定した場合(ステップS101、Yes)、資源操作処理を実行する(ステップS102)。なお。資源操作処理の詳細については、図19を用いて後述する。
ステップS102の終了後、変更部523は、判定条件式テーブル変更処理を実行する(ステップS103)。なお。判定条件式テーブル変更処理の詳細については、図20を用いて後述する。また、変更部523は、監視条件変更処理を実行する(ステップS104)。なお。監視条件変更処理の詳細については、図21を用いて後述する。
なお、計算資源操作部522は、資源操作依頼を利用者端末200から受信しなかったと判定した場合(ステップS101、No)、ステップS101の判定処理を繰り返し実行する。また、変更部523は、ステップS103の判定条件式テーブル変更処理と、ステップS104の監視条件変更処理との処理順序を入れ替えてもよい。
図19は、資源操作処理の手順を示すフローチャートである。なお、この資源操作処理は、図18に示したステップS102の処理に相当する。計算資源操作部522は、情報処理装置群300における計算資源301に対して資源操作を実行する(ステップS201)。そして、計算資源操作部522は、操作に成功したか否かを判定する(ステップS202)。ここで、計算資源操作部522は、操作に成功しなかったと判定した場合(ステップS202、No)、ステップS204に移行する。
一方、計算資源操作部522は、操作に成功したと判定した場合(ステップS202、Yes)、変更部523に計算資源関連性情報テーブル511が記憶する関係性情報を更新させる(ステップS203)。続いて、計算資源操作部522は、未操作の操作対象が存在するか否かを判定する(ステップS204)。ここで、計算資源操作部522は、未操作の操作対象が存在すると判定した場合(ステップS204、Yes)、ステップS201に移行して資源操作を実行する。一方、計算資源操作部522は、未操作の操作対象が存在しないと判定した場合(ステップS204、No)、資源操作処理を終了する。
図20は、判定条件式テーブル変更処理の手順を示すフローチャートである。なお、この判定条件式テーブル変更処理は、図18に示したステップS103の処理に相当する。変更部523は、計算資源監視内容情報テーブル512が記憶する「計算資源監視内容情報」に初期値を設定する(ステップS301)。
続いて、変更部523は、計算資源監視内容情報テーブル512から資源状態(計算資源監視内容情報)を読込む(ステップS302)。また、変更部523は、適用対象判定条件式雛形選択情報テーブル513から判定条件式雛形(「判定条件式雛形情報」)を読込む(ステップS303)。また、変更部523は、計算資源関連性情報テーブル511から関係性情報を読込む(ステップS304)。
そして、変更部523は、判定条件式テーブル514の「判定条件式」の項目を設定し(ステップS305)、「事象発生計算資源」、「関連計算資源」及び「操作内容」の各項目を設定する(ステップS306)。ステップS306の処理の終了後、変更部523は、判定条件式テーブル変更処理を終了する。
図21は、監視条件変更処理の手順を示すフローチャートである。なお、この監視条件変更処理は、図18に示したステップS104の処理に相当する。変更部523は、計算資源監視内容情報テーブル512から資源状態(計算資源監視内容情報)を読み込む(ステップS401)。また、変更部523は、計算資源関連性情報テーブル511から関係性情報を読み込む(ステップS402)。また、変更部523は、適用対象判定条件式雛形選択情報テーブル513から判定条件式雛形を読み込む(ステップS403)。そして、変更部523は、計算資源監視内容情報と関係性情報と判定条件式雛形とを参照して、監視条件情報を設定する(ステップS404)。変更部523は、設定した監視条件情報を監視装置400に送信する(ステップS405)。ステップS405の処理の終了後、変更部523は、監視条件変更処理を終了する。
図22は、事象発生時の処理の手順を示すフローチャートである。図22に示すように、決定部521は、監視装置400から事象情報を受信したか否かを判定する(ステップS501)。ここで、決定部521は、監視装置400から事象情報を受信したと判定した場合(ステップS501、Yes)、資源状態(計算資源監視内容情報テーブル512)を更新する(ステップS502)。なお、決定部521は、監視装置400から事象情報を受信しなかったと判定した場合(ステップS501、No)、ステップS501の判定処理を繰り返し実行する。
ステップS502の終了後、決定部521は、判定条件式テーブル514の「判定条件式」の項目を照合し(ステップS503)、操作を決定する(ステップS504)。決定部521は、決定した操作を計算資源操作部522に依頼する。
計算資源操作部522は、資源操作処理を実行する(ステップS505)。なお、資源操作処理の詳細については、図19で説明した処理と同様である。ステップS505の終了後、変更部523は、判定条件式テーブル変更処理を実行する(ステップS506)。なお、判定条件式テーブル変更処理の詳細については、図20で説明した処理と同様である。また、変更部523は、監視条件変更処理を実行する(ステップS507)。なお、監視条件変更処理の詳細については、図21で説明した処理と同様である。
上述したように、第1の実施形態に係る制御装置500は、情報処理装置群300の内部で稼働する計算資源301における事象の発生を契機に、当該事象が発生した計算資源301及び当該事象が発生した計算資源301に関係する他の計算資源301の状態に基づいて、事象が発生した計算資源301及び他の計算資源301に対して実行する操作を決定する。そして、制御装置500は、決定した操作を、事象が発生した計算資源301及び他の計算資源301に対して実行する。これにより、第1の実施形態によれば、事象の発生した計算資源と関連する計算資源を考慮して計算資源を操作することができる。この結果、情報処理システム100では、例えば他の計算資源が余剰能力を有している場合には、この余剰能力を有している計算資源を使用することができるので、計算資源を有効に活用することができる。以下では、図23〜図26を用いて、第1の実施形態に係る制御装置500によって計算資源を有効に活用する例を説明する。
(サービス故障自動復旧)
計算資源監視条件情報の監視条件がサービスの生死(外形監視)と、外形監視ルート上のルータの生死の監視であり、サービスが故障した場合に自動復旧する場合について説明する。かかる場合、制御装置500は、監視装置400から事象情報として、「(サービス=red)&&(ルータ=green)」を受信する。そして、制御装置500は、判定条件式テーブル514が記憶する判定条件式を参照し、操作対象であるサービスの再起動を行うと判定する。この場合、制御装置500は、コマンドとして、「cleanup(VM)」、「initialize(VM)」、及び「activate(VM)」を含んだ計算資源操作依頼を生成し、情報処理装置群300のサービスを再起動させる。なお、かかる場合には、関係性情報として、「(サービス)on(VM)」と「(サービス)based_on(ルータ)」が参照される。
(自動スケールアウト)
計算資源監視条件情報の監視条件がVMの性能監視であり、自動スケールアウトする場合について説明する。図23は、自動スケールアウトする場合の処理動作を説明するための図である。なお、ここでは、仮想マシンクラスタ(VMC)において3個の仮想マシン(VM#1〜VM#3)が稼動しているものとする。
かかる場合、制御装置500は、仮想マシンのロードアベレージの閾値越えを監視する。ここで、制御装置500は、事象情報として、ロードアベレージの閾値越えを示す「(loadAverage(VM)=high)for all VM in VMC」を受信する。そして、制御装置500は、5分以上継続してロードアベレージの閾値越えを示す事象情報を監視装置400から受信した場合、判定条件式テーブル514が記憶する判定条件式を参照し、仮想マシン(VM#4)を追加すると判定する。
この場合、制御装置500は、コマンドとして、「add_port(VMC)」、「connect(VMC、VM#4)」、「initialize(VM#4)」、及び「activate(VM#4)」、「add_member(LB、VM#4)」を含んだ計算資源操作依頼を生成し、VM#4を追加させる。なお、かかる場合には、関係性情報として、「(VM)member_of(VMC)」と「(VM)member_of(LB)」と「(VM#4)member_of(VMC)」とが参照される。
(性能劣化自動防止)
計算資源監視条件情報の監視条件が仮想マシンサーバ装置の性能(CPU使用率)監視であり、仮想マシンサーバ装置の性能劣化を自動防止する場合について説明する。図24は、仮想マシンサーバ装置の性能劣化を自動防止する場合の処理動作を説明するための図である。なお、ここでは、仮想マシンサーバ#1においてVM#1〜VM#3の3つの仮想マシンが稼動し、仮想マシンサーバ#2においてVM#4〜VM#5の2つの仮想マシンが稼動しているものとする。
かかる場合、制御装置500は、仮想マシンサーバ装置のCPU使用率を監視する。ここで、制御装置500は、事象情報として、例えば仮想マシンサーバ#1のCPU使用率が閾値(例えば95%)越えを示す「(cpuUsage(VMS)=high)」を受信する。そして、制御装置500は、10分間継続してCPU使用率が95%越えを示す事象情報を監視装置400から受信した場合、判定条件式テーブル514が記憶する判定条件式を参照し、仮想マシンサーバ#1には、新しい仮想マシンを配置させないと判定する。
この場合、制御装置500は、コマンドとして、「serverStop(VMS)」を含んだ計算資源操作依頼を生成し、仮想マシンサーバ#1には、新しい仮想マシンを配置させない。なお、かかる場合には、仮想マシンサーバ#2にVM#6が配置される。
(サーバ室温度局所上昇自動抑止)
計算資源監視条件情報の監視条件がサーバ室の温度監視であり、サーバ室の温度が局所的に上昇することを防止する場合について説明する。図25は、サーバ室の温度が局所的に上昇することを防止する場合の処理動作を説明するための図である。なお、ここでは、サーバ室25において、物理サーバ25a〜25cが設置されており、サーバ室25には、複数のセンサ25d〜25kが設置されているものとする。また、物理サーバ25aには、4台の仮想マシンサーバが稼動し、物理サーバ25bには、4台の仮想マシンサーバが稼動し、物理サーバ25cには、4台の仮想マシンサーバが稼動しているものとする。なお、個々の仮想マシンサーバにおいて、VMが稼動しているものとする。
かかる場合、制御装置500は、複数のセンサ25d〜25kを用いてのサーバ室25の温度上昇を監視する。ここで、制御装置500は、事象情報として、センサ25d及びセンサ25eで検出されたサーバ室の温度が閾値越えを示す「temp(TS)=high」を受信する。そして、制御装置500は、判定条件式テーブル514が記憶する判定条件式を参照し、新仮想マシン作成の停止と、他の仮想マシンサーバ装置上へ仮想マシンを移動させると判定する。かかる場合、センサ25d及びセンサ25eの近傍に設置された仮想マシンサーバ上で稼動するVMを別仮想マシンサーバへライブマイグレーションさせる。
この場合、制御装置500は、コマンドとして、「serverStop(VMS))」、「migrate_to(VM,search_mintemp_VMS(notVMS))」を含んだ計算資源操作依頼を生成し、VMを移動させる。なお、かかる場合には、関係性情報として、「(TS)attached_by(VMS)」と「(VM)on(VMS)」とが参照される。
(夜間自動縮退運転)
計算資源監視条件情報の監視条件が時刻起動の監視であり、夜間に自動的に縮退運転する場合について説明する。図26は、夜間に自動的に縮退運転する場合の処理動作を説明するための図である。なお、ここでは、日中、仮想マシンサーバ#1において12個の仮想マシン(VM#1〜VM#12)が稼動しており、仮想マシンサーバ#2において12個の仮想マシン(VM#13〜VM#24)が稼動しているものとする。
制御装置500は、仮想マシンサーバ#1及び仮想マシンサーバ#2のCPU使用率を監視する。ここで、制御装置500は、例えば20時以降かつCPU使用率が30分以上閾値を越えないことを示す「(time>20:00)&&(time<08:00)&&(cpuUsage(VMS)<30%)×30min」を受信する。かかる場合、制御装置500は、仮想マシンサーバ#2で稼動するVM#13〜VM#24を仮想マシンサーバ#1へライブマイグレーションで移動させ、VM#13〜VM#24の移動後に仮想マシンサーバ#2を停止させると判定する。
この場合、制御装置500は、コマンドとして、「if(search_vms_have_max_position(VMSs)==VMS) then foreach(VM on VMS)migrate_to(VM,search_vms_have_min_position(VMSs));if(position(VMS)==0)then poweroff(VMS)」を含んだ計算資源操作依頼を生成する。すなわち、制御装置500は、余力のあるサーバ装置(仮想マシンサーバ#1)の探査と、このサーバ装置への仮想マシンの移動と、移動完了後にサーバ装置(仮想マシンサーバ#2)の電源を停止させる。なお、かかる場合には、関係性情報として、「all(VMs)on(VMS)」と「(VM positions)on all(VMSs)」とが参照される。
(第2の実施形態)
さて、これまで本発明の実施形態について説明したが、本発明は上述した実施形態以外にも、その他の実施形態にて実施されてもよい。そこで、以下では、その他の実施形態を示す。
(システム構成)
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については(例えば、図1〜図26)、特記する場合を除いて任意に変更することができる。
また、決定部521と計算資源操作部522と変更部523は別々の制御装置に搭載され、別々の制御装置が一体の制御装置として動作するようにしてもよい。また、制御装置500と監視装置400とが一体の装置として動作するようにしてもよい。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
(プログラム)
また、上記第1の実施形態に係る制御装置500が実行する処理をコンピュータが実行可能な言語で記述した計算資源管理プログラムを作成することもできる。この場合、コンピュータが計算資源管理プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる計算資源管理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された計算資源管理プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、図4などに示した制御装置500と同様の機能を実現する計算資源管理プログラムを実行するコンピュータの一例を説明する。
図27は、計算資源管理プログラムを実行するコンピュータ1000を示す図である。図27に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図27に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した計算資源管理プログラムは、例えばハードディスクドライブ1090やメモリ1010に記憶される。
また、計算資源管理プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。具体的には、上記実施形態で説明した決定部521と同様の情報処理を実行する操作決定手順と、計算資源操作部522と同様の情報処理を実行する計算資源操作手順とが記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。
また、計算資源管理プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュールやプログラムデータを必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、計算資源管理プログラムに係るプログラムモジュールやプログラムデータは、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、計算資源管理プログラムに係るプログラムモジュールやプログラムデータは、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
(その他)
なお、本実施形態で説明した計算資源管理プログラムは、インターネットなどのネットワークを介して配布することができる。また、計算資源管理プログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
100 情報処理システム
200 利用者端末
300 情報処理装置群
400 監視装置
500 制御装置
501 通信制御部
510 記憶部
511 計算資源関連性情報テーブル
512 計算資源監視内容情報テーブル
513 適用対象判定条件式雛形選択情報テーブル
514 判定条件式テーブル
520 制御部
521 決定部
522 計算資源操作部
523 変更部
1000 コンピュータ
1010 メモリ
1011 ROM
1012 RAM
1020 CPU
1030 ハードディスクドライブインタフェース
1040 ディスクドライブインタフェース
1050 シリアルポートインタフェース
1060 ビデオアダプタ
1070 ネットワークインタフェース
1080 バス
1090 ハードディスクドライブ
1091 OS
1092 アプリケーションプログラム
1093 プログラムモジュール
1094 プログラムデータ
1100 ディスクドライブ
1110 マウス
1120 キーボード
1130 ディスプレイ

Claims (6)

  1. 情報処理装置群の内部で稼働する計算資源における事象の発生を契機に、当該事象が発生した計算資源及び当該事象が発生した計算資源に関係する他の計算資源の状態に基づいて、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作を決定する決定部と、
    前記決定部によって決定された操作を、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作部と
    を有することを特徴とする制御装置。
  2. 情報処理装置群の内部で稼働する計算資源について監視項目と、当該監視項目における計算資源の状態とを対応付けた資源状態情報、及び前記事象が発生した計算資源の状態と、当該事象が発生した計算資源に関係する他の計算資源の状態とに応じて実行する操作を対応付けた判定条件式情報を記憶する記憶部を更に有し、
    前記決定部は、資源状態情報を参照して、前記事象が発生した計算資源の状態と、前記関係する他の計算資源の状態とを特定し、特定した前記事象が発生した計算資源の状態と前記他の計算資源の状態とに基づいて、前記判定条件式情報を用いて、実行する操作を決定することを特徴とする請求項1に記載の制御装置。
  3. 前記記憶部は、情報処理装置群の内部で稼働する計算資源と、当該計算資源に関係する他の計算資源とを対応付けた関係性情報を更に記憶し、
    前記操作が実行された結果、前記関係性情報として記憶される、前記操作の対象である計算資源と、当該計算資源に関係する他の計算資源との関係性が変化した場合、前記操作の対象である計算資源に対して前記判定条件式情報を変更する変更部を更に有することを特徴とする請求項2に記載の制御装置。
  4. 前記操作部は、更に、利用者から情報処理装置群の内部で稼働する計算資源を操作する要求を受付けた場合に、前記計算資源に対して操作を実行することを特徴とする請求項1〜3のいずれか一つに記載の制御装置。
  5. 制御装置が、
    情報処理装置群の内部で稼働する計算資源における事象の発生を契機に、当該事象が発生した計算資源及び当該事象が発生した計算資源に関係する他の計算資源の状態に基づいて、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作を決定する決定工程と、
    前記決定工程によって決定された操作を、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作工程と
    を含んだことを特徴とする計算資源管理方法。
  6. コンピュータに
    情報処理装置群の内部で稼働する計算資源における事象の発生を契機に、当該事象が発生した計算資源及び当該事象が発生した計算資源に関係する他の計算資源の状態に基づいて、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作を決定する決定手順と、
    決定した操作を、前記事象が発生した計算資源及び前記他の計算資源に対して実行する操作手順と
    を実行させることを特徴とする計算資源管理プログラム。
JP2013109247A 2013-05-23 2013-05-23 制御装置、計算資源管理方法及び計算資源管理プログラム Active JP5483784B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013109247A JP5483784B1 (ja) 2013-05-23 2013-05-23 制御装置、計算資源管理方法及び計算資源管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013109247A JP5483784B1 (ja) 2013-05-23 2013-05-23 制御装置、計算資源管理方法及び計算資源管理プログラム

Publications (2)

Publication Number Publication Date
JP5483784B1 true JP5483784B1 (ja) 2014-05-07
JP2014229135A JP2014229135A (ja) 2014-12-08

Family

ID=50792118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013109247A Active JP5483784B1 (ja) 2013-05-23 2013-05-23 制御装置、計算資源管理方法及び計算資源管理プログラム

Country Status (1)

Country Link
JP (1) JP5483784B1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092782A (ja) 2014-11-11 2016-05-23 トヨタ自動車株式会社 車両用視界支援装置
JP7494539B2 (ja) 2020-04-07 2024-06-04 株式会社リコー 表示装置、負荷制御方法、プログラム
WO2023181425A1 (ja) * 2022-03-25 2023-09-28 株式会社Nttドコモ ネットワークノード及び通信方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058938A (ja) * 2004-08-17 2006-03-02 Hitachi Ltd ポリシルール管理支援方法およびポリシルール管理支援装置
JP2011197817A (ja) * 2010-03-17 2011-10-06 Nec Corp 監視システム、監視装置、サービス実行環境の監視方法、及び監視装置用プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058938A (ja) * 2004-08-17 2006-03-02 Hitachi Ltd ポリシルール管理支援方法およびポリシルール管理支援装置
JP2011197817A (ja) * 2010-03-17 2011-10-06 Nec Corp 監視システム、監視装置、サービス実行環境の監視方法、及び監視装置用プログラム

Also Published As

Publication number Publication date
JP2014229135A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
US10122605B2 (en) Annotation of network activity through different phases of execution
US9311160B2 (en) Elastic cloud networking
US20180145906A1 (en) Federated microburst detection
JP5458308B2 (ja) 仮想計算機システム、仮想計算機システムの監視方法及びネットワーク装置
US20160013990A1 (en) Network traffic management using heat maps with actual and planned /estimated metrics
US10374900B2 (en) Updating a virtual network topology based on monitored application data
JP4811830B1 (ja) コンピュータリソース制御システム
TW201732622A (zh) 可擴充集中式非揮發性記憶體儲存盒、電腦實施方法以及非暫態電腦可讀取儲存裝置
JP5757325B2 (ja) 仮想デスクトップシステム、ネットワーク処理装置、管理方法、及び管理プログラム
EP3330855A1 (en) Managing hardware resources
CN108369544A (zh) 计算***中延期的服务器恢复
JP5427504B2 (ja) サービス実行装置、サービス実行方法
CN103595801A (zh) 一种云计算***及其虚拟机实时监控方法
JP5617304B2 (ja) スイッチング装置、情報処理装置および障害通知制御プログラム
CN110580198B (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
US20150071091A1 (en) Apparatus And Method For Monitoring Network Performance
WO2016082078A1 (zh) 路径管理的***、装置和方法
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
WO2021072130A1 (en) Dynamic discovery of service nodes in a network
EP2645625B1 (en) Computer system and subsystem management method
JP6068296B2 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
JP6269199B2 (ja) 管理サーバおよび障害復旧方法、並びにコンピュータ・プログラム
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
JP2010087834A (ja) ネットワーク監視システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5483784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150