JP7458610B2

JP7458610B2 - データベースシステム、及びクエリ実行方法

Info

Publication number: JP7458610B2
Application number: JP2020179852A
Authority: JP
Inventors: 英臣出射; 和彦茂木; 記史西川; 晃清水; 和生合田; 悠登早水; 優喜連川
Original assignee: Hitachi Ltd; University of Tokyo NUC
Current assignee: Hitachi Ltd; University of Tokyo NUC
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2024-04-01
Anticipated expiration: 2040-10-27
Also published as: US20220129453A1; US11709839B2; JP2022070669A

Description

本発明は、概して、データ処理に関し、例えば、クラウド上に構築したデータベースシステムでの検索クエリの実行に関する。

近年、データベースを基盤とする多くのアプリケーションが存在し、データベースに格納されるデータは年々増加の傾向を辿っている。従来、このようなデータベースを管理するソフトウェアとして、データベース管理システム（以下、ＤＢＭＳ（Database Management System）と呼ぶ）がある。ＤＢＭＳが管理するデータの規模が拡大すれば、そのデータを記憶するストレージ装置もより大きな記憶容量が必要となり、また大規模のデータベースからデータ検索を迅速に行うためにはより大きなＣＰＵパワーが必要となる。この様な大規模のデータベースシステムを自前で構築及び運用するための作業負担及びコストは膨大になる。

それに対し、サーバやストレージを容易に追加できるクラウド環境では、事業規模、データ規模又はユーザの使用頻度に合わせたデータベースシステムを構築及び運用することが可能となり、自前でハードウェアリソースを用意する必要がなくなるためシステム導入の作業負担及びコストを削減できる。また、ＡＷＳ（Amazon Web Services（登録商標））の様なパブリッククラウドのサービスを利用することで、ハードウェアの保守に必要な作業負担及びコストも削減できる。

クラウドに論理的な計算機であるインスタンスを作成して、当該インスタンス上にデータベースシステムを構築することが可能である。そのデータベースシステムの構築の際、ＣＰＵコア、メモリサイズ及びストレージ容量を追加することで、データ量の増加や負荷増加に対応することが可能である。しかし、１インスタンス内のＩ／Ｏ帯域には制限があり、故に、データベースシステムの規模がある一定の規模を超えるとデータベースシステムのＩ／Ｏ性能を維持することは困難となる。

そこで、複数のインスタンスをクラウド上に作成し、それらのインスタンスが連携して動作することで性能を向上する技術が提案されている。例えば、非特許文献１は、リーダーノードでクライアントアプリケーションからクエリを受け付け、複数のコンピュートノードでクエリの処理を実行し、リーダーノードで実行結果を集計してクライアントアプリケーションに応答する技術を記載している。また、特許文献１は、クラウド上で動作する複数のノードから、クライアントからの要求を実行するノードを選択する技術を記載している。

ＵＳ２０１５／０１６９６５０

SIGMOD '15: Proceedings of the 2015 ACM SIGMOD International Conferenceon Management of Data, May 2015, Pages 1917-1923

ところが、非特許文献１に記載された技術では、リーダーノードは１つであり、当該リーダーノードがクエリの受付、クエリ実行結果の集計、及びクエリ結果の応答を行うため、処理が一極集中になる可能性がある。また、特許文献１に開示された技術では、データが分散配置されている場合には対応できない。

以上の課題は、データベースシステム以外のデータ処理システムにもあり得る。

かかる課題を解決するため本発明の一例としてのデータベースシステムは、複数の計算リソースを含む計算機システムの一例に設けられた複数のノードにそれぞれ備えられる複数のＤＢＭＳを備える。複数のＤＢＭＳの各々は、第１のＤＢＭＳと第２のＤＢＭＳのいずれかである。第１のＤＢＭＳは、クエリソースから検索クエリを受け付けた場合に当該検索クエリを転送するがデータ検索を実行しないＤＢＭＳである。第２のＤＢＭＳは、データ検索を実行するＤＢＭＳである。複数のノードは、１つ又は複数のノードグループを構成する。各ノードグループが、第１のノードと１つ以上の第２のノードとを含む。各ノードグループにおいて、第１のノードは、第１の記憶領域を提供し第１のＤＢＭＳを実行する論理計算機であり、第２のノードは、第２の記憶領域を提供し第２のＤＢＭＳを実行する論理計算機であり、当該ノードグループを構成する２つ以上のノードが有する２つ以上のＤＢＭＳが、当該２つ以上のノードが提供する２つ以上の記憶領域に同一のデータベースを格納し、当該ノードグループ内のデータベースからのデータ検索は、当該ノードグループ内の１つ以上の第２のＤＢＭＳにより実行される。

本発明によれば、処理の一極集中を回避し、分散配置されたデータからのデータ検索することができる。

本実施の形態におけるデータベースシステムの構成例を示した図である。マスターノードの構成例を示した図である。キャッシュノードの構成例を示した図である。ＤＢ管理情報の構成例を示した図である。ＤＢエリア情報の構成例を示した図である。スキーマ情報の構成例を示した図である。テーブル構成情報の構成例を示した図である。ノード管理情報の構成例を示した図である。ノード情報の構成例を示した図である。カレントマスターノード情報の構成例を示した図である。ノードルール情報の構成例を示した図である。インスタンス構成情報の構成例を示した図である。データ管理情報の構成例を示した図である。キャッシュノード管理情報の構成例を示した図である。キャッシュノード追加の処理例の一部を示した図である。キャッシュノード追加の処理例の残りを示した図である。キャッシュノード削除の処理例の一部を示した図である。キャッシュノード削除の処理例の残りを示した図である。新規グループの追加を伴わないデータインポートの処理例を示した図である。新規グループの追加を伴うデータインポートの処理例の第１の部分を示した図である。新規グループの追加を伴うデータインポートの処理例の第２の部分を示した図である。新規グループの追加を伴うデータインポートの処理例の残りの部分を示した図である。１グループ内に収まる検索クエリ実行の処理例を示した図である。複数グループ跨る検索クエリ実行の処理例を示した図である。モニタデータ取得送信処理の一例を示したフロー図である。モニタデータ受信処理の一例を示したフロー図である。キャッシュノード追加処理の一例を示したフロー図である。キャッシュノード削除処理の一例を示したフロー図である。データインポート処理の一例の一部を示したフロー図である。データインポート処理の一例の残りを示したフロー図である。マスターノード追加処理の一例を示したフロー図である。クエリ実行処理の一例の一部を示したフロー図である。クエリ実行処理の一例の一部を示したフロー図である。クエリ実行処理の一例の一部を示したフロー図である。クエリ実行処理の一例の一部を示したフロー図である。クエリ実行処理の一例の残りを示したフロー図である。別の実施形態での検索クエリ実行の処理例を示した図である。別の実施形態での検索クエリ実行の処理例を示した図である。

以下の説明では、データベースを「ＤＢ」と言い、データベース管理システムを「ＤＢＭＳ」と言うことがある。ＤＢＭＳに対するクエリの発行元は、ＤＢＭＳの外部のコンピュータプログラム（例えばアプリケーションプログラム）で良い。

以下の説明では、「インターフェース装置」は、１つ以上のインターフェースデバイスで良い。当該１つ以上のインターフェースデバイスは、１つ以上の同種の通信インターフェースデバイス（例えば１つ以上のＮＩＣ（Network Interface Card））であっても良いし２つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であっても良い。

また、以下の説明では、「メモリ」は、１つ以上のメモリデバイスであり、典型的には主記憶デバイスで良い。メモリにおける少なくとも１つのメモリデバイスは、揮発性メモリデバイスであっても良いし不揮発性メモリデバイスであっても良い。

また、以下の説明では、「永続記憶装置」は、１つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）であり、具体的には、例えば、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）である。

また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリで良い。

また、以下の説明では、「プロセッサ」は、１つ以上のプロセッサデバイスである。少なくとも１つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでも良い。少なくとも１つのプロセッサデバイスは、シングルコアでも良いしマルチコアでも良い。少なくとも１つのプロセッサデバイスは、プロセッサコアでも良い。少なくとも１つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサデバイスでも良い。

また、以下の説明では、「ｙｙｙ部」の表現にて機能を説明することがあるが、機能は、１つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されても良いし、１つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されても良い。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされても良い。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としても良い。プログラムは、プログラムソースからインストールされても良い。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であっても良い。各機能の説明は一例であり、複数の機能が１つの機能にまとめられたり、１つの機能が複数の機能に分割されたりしても良い。

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通部分（又は、参照符号）を使用し、同種の要素を区別する場合は、参照符号（又は、要素のＩＤ）を使用することがある。

以下、本発明の実施の形態を詳述する。

（１）本実施の形態におけるデータベースシステムの構成

図１は、本実施の形態におけるデータベースシステムの構成例を示した図である。

クラウド１００（複数の計算リソースを含む計算機システムに基づく仮想環境の一例）上に作成した複数のインスタンス１１０がそれぞれ複数のノードとして存在する。複数のノードに、複数のＤＢＭＳ（データベース管理システム）がそれぞれ備えられる。複数のＤＢＭＳでデータベースシステムが構成されている。各インスタンス１１０は、クラウド１００の基になる計算機システムを構成するサーバ、ストレージ及びネットワーク等の物理リソースを基に作成される論理的な計算機である。論理的なネットワーク１０８に各インスタンス１１０が接続される。

インスタンス１１０は、マスターノード１２０又はキャッシュノード１２２のいずれかとして動作する。別の言い方をすれば、マスターノードとしての役割が与えられたインスタンス１１０が、マスターノード１２０でよく、キャッシュノードとしての役割が与えられたインスタンス１１０が、キャッシュノード１２２で良い。

１つのマスターノード１２０と複数（又は１つ）のキャッシュノード１２２でノードグループ（以下、グループ）１３０が構成される。各キャッシュノード１２２は、同一グループ（自グループ）１３０のマスターノード１２０が保持するデータベースのデータと全く同じデータを、例えばマスターノード１２０が保持するデータベースの全部又は一部（例えば差分）のコピー（レプリケーション）を受信する等の方法によって、保持している。従って、どのキャッシュノード１２２でもデータ検索を実行することが可能である。但し、データ追加等の更新系の処理に関しては、マスターノード１２０が実行する。すなわち、本実施形態では、データベースに対するデータのライト（例えばデータ追加）を、マスターノード１２０が実行しキャッシュノード１２２が実行せず、一方、データベースからのデータのリード（例えばデータ検索）を、マスターノード１２０が実行せずキャッシュノード１２２が実行する。これにより、リード性能の高いデータベースシステムの実現が期待できる。マスターノード１２０が、第１のノードの一例であり、キャッシュノード１２２が、第２のノードの一例である。

図１には、２つのグループ１３０が例示されているが、グループ１３０は、１つでも良いし、３つ以上でも良い。グループ１３０の数とマスターノード１２０の数は同じである。その中で１つのマスターノードがカレントマスターノードとなる。カレントマスターノード１２０が、クラウド１００に接続されているクライアント１０４上のアプリケーション１０６（クエリソースの一例）から処理要求（クエリ）を受け付ける。クエリを受け付けたカレントマスターノード１２０は、同一グループ１３０内のキャッシュノード１２２にクエリを転送する（クエリ実行の処理を割り振る）。クエリを受けたキャッシュノード１２２は、受けたクエリを実行し、その実行結果をクエリ発行元のクライアント１０４のアプリケーション１０６に応答する。尚、クエリを受け付けたマスターノード１２０にキャッシュノード１２２がクエリの実行結果を送信し、マスターノード１２０が、当該実行結果を、クエリ発行元のクライアント１０４のアプリケーション１０６に応答しても良い。

クラウド１００上にインスタンス１１０を作成する、又は削除する方法としては、クラウドシステム管理者、又はデータベースシステム管理者が、クラウド管理部１０２に手動でインスタンス１１０の作成又は削除を指示しても良いし、データベースシステムで動作するＤＢＭＳ（又は別プログラム）がクラウド管理部１０２にインスタンス１１０の作成又は削除の指示を出すことで自動的にインスタンス１１０がクラウド管理部１０２により作成又は削除されても良い。尚、本実施の形態では、ＤＢＭＳがクラウド管理部１０２に指示を出すことでインスタンス１１０が自動的に作成又は削除されるものとする。また、インスタンス１１０を作成する際は、データベース管理者によって予め定められた構成（例えば、ＣＰＵコア数、メモリサイズ、ストレージ容量等が予め設定されている構成）のインスタンス１１０が作成されるものとする。また、インスタンス作成後は、ＯＳ（Operating System）のインストール及び環境設定と、ＤＢＭＳのインストール及び環境設定とを実施する必要があるが、本実施の形態では、新たにインスタンス１１０が作成された後、例えばスクリプトの実行等によって自動的に当該作成されたインスタンス１１０が利用可能になるものとする。尚、クラウド管理部１０２は、クラウド１００を管理する機能であり、例えば、上述したように、インスタンス１１０をクラウド１００上に作成したりクラウド１００からインスタンス１１０を削除したりすることができる。

インスタンス１１０の作成、又は削除の契機は、インスタンス１１０がマスターノード１２０であるかキャッシュノード１２２であるかによって異なる。マスターノード１２０を作成する契機は、新規にデータベースシステムが構築された時、又は既存のマスターノード１２０でデータベースのデータを記憶可能な領域がなくなった時である。マスターノード１２０を削除する契機は無くて良い。但し、データベース管理者が、マスターノード１２０が記憶しているデータが必要ないと判断した際に当該マスターノード１２０が削除されても良く、その場合は当該マスターノード１２０が属するグループ１３０全体が削除される。キャッシュノード１２２を作成する契機は、マスターノード１２０が作成された時（例えば、当該マスターノード１２０が属するグループ１３０のキャッシュノード１２２が作成される）、又は、あるグループ１３０の少なくとも１つのキャッシュノード１２２の負荷（例えば、当該グループに属する全キャッシュノード１２２の平均負荷）が予め設定されている第１の閾値を超えた時（例えば、当該グループ１３０にキャッシュノード１２２が新たに作成される）。キャッシュノード１２２を削除する契機は、あるグループ１３０の少なくとも１つのキャッシュノード１２２の負荷が予め設定されている第２の閾値（例えば、第２の閾値は、第１の閾値以下の閾値）を下回った時、又は、マスターノード１２０が削除された時（この場合は、当該マスターノード１２０を含んだグループ１３０削除される）である。

図２は、マスターノード１２０の構成例を示した図である。

マスターノード１２０は、マスターノード１２０が動作するインスタンス１１０に割り当てられたインターフェース装置２６０、ＣＰＵ２００、メモリ２１０、ブロックストレージ２４２、及び高速ストレージ２４０で構成される。インターフェース装置２６０、メモリ２１０、ブロックストレージ２４２及び高速ストレージ２４０にＣＰＵ２００が接続される。インターフェース装置２６０を通じてノード間での送受信が可能である。インターフェース装置２６０、ＣＰＵ２００、メモリ２１０、ブロックストレージ２４２及び高速ストレージ２４０の各々は、クラウド１００の基になっている計算機システムが有する物理的な計算リソースに基づく論理的な計算リソースでよいが、本実施形態では、説明を簡単にするために物理的な計算リソースとする。

ＣＰＵ２００は、１又は複数のＣＰＵコア２０２を内包し、メモリ２１０に格納されたＤＢＭＳ２１２、ＯＳ２１４等の各種プログラムを実行するプロセッサである。メモリ２１０は例えば半導体メモリであり、ＣＰＵ２００のワークメモリとしても使用される。尚、ＤＢＭＳ２１２、ＯＳ２１４の実体は、ＨＤＤ（Hard Disk Drive）等のディスク装置に格納されていても良い。

ブロックストレージ２４２は、例えばＳＣＳＩ（Small Computer System Interface）ディスクやＳＡＴＡ（Serial AT Attachment）ディスク等のディスク装置であり、アクセス性能は低いが電源が遮断されても記憶されたデータを保持するデバイスである。ブロックストレージ２４２が、第１の記憶領域の一例である。

高速ストレージ２４０は、例えばＮＶＭｅ（Non-Volatile Memory）で接続された不揮発性メモリであり、ブロックストレージ２４２と比較してアクセス性能が高いが、電源が遮断されると記憶されているデータは消失するデバイスである。

マスターノード１２０は、データベースのデータ永続性を保障するため、ブロックストレージ２４２を有するが、高速ストレージ２４０を有しないでも良い。高速ストレージ２４０を有している場合、例えば、次のようにして高速に同一グループ１３０内で全キャッシュノード１２２に同一のデータベースをコピーすることが期待される。すなわち、ＤＢＭＳ２１２が、ブロックストレージ２４２から高速ストレージ２４０へデータベース２５０の全部又は一部（例えば、ブロックストレージ２４２におけるデータベース２５０と高速ストレージ２４０におけるデータベース２５０との差分）をコピーし（いわゆる内部コピー）、その後、高速ストレージ２４０から後述の高速ストレージ３４０へデータベース２５０の全部又は一部（例えば、高速ストレージ２４０におけるデータベース２５０と高速ストレージ３４０におけるデータベース３５０との差分）をコピーする（いわゆるリモートコピー）。内部コピーは高速であることが期待され、また、高速ストレージ２４０及び３４０間でリモートコピーが行われるため当該リモートコピーも高速であることが期待される。

ＤＢＭＳ２１２は、第１のＤＢＭＳの一例である。ＤＢＭＳ２１２は、ブロックストレージ２４２や高速ストレージ２４０に格納されたデータベース２５０のデータを管理するプログラムである。ＤＢＭＳ２１２は、データベース管理やクライアントから受け付けたクエリを実行するために、クエリ受付部２２０、クエリ実行部２２２、ノード管理部２２４、ＤＢ管理情報２２６、ノード管理情報２２８、データ管理情報２３０、及びキャッシュノード管理情報２３２を有する。ＯＳ２１４は、Linux（登録商標）の様な一般的なＯＳでありここでは説明を省略するが、ＣＰＵやＩ／Ｏの稼働状態をモニタするsar／mpstat／iostat等のモニタコマンド２３４を有しているものとする。

図３は、キャッシュノード１２２の構成例を示した図である。

キャッシュノード１２２は、前述したマスターノード１２０と基本的な構成は変わらず、キャッシュノード１２２が動作するインスタンスに割り当てられたインターフェース装置３６０、ＣＰＵ３００、メモリ３１０及び高速ストレージ３４０で構成される。インターフェース装置３６０、メモリ３１０、及び高速ストレージ３４０にＣＰＵ３００が接続される。インターフェース装置３６０を通じてノード間での送受信が可能である。インターフェース装置３６０、ＣＰＵ３００、メモリ３１０、及び高速ストレージ３４０の各々も、クラウド１００の基になっている計算機システムが有する物理的な計算リソースに基づく論理的な計算リソースでよいが、本実施形態では、説明を簡単にするために物理的な計算リソースとする。

キャッシュノード１２２は、高速ストレージ３４０にデータベース３５０を保持するがデータベース３５０を格納するためのブロックストレージを有しない。キャッシュノード１２２は、高速ストレージ３４０のデータベース３５０からデータを読み込む。高速ストレージ３４０は、例えばＮＶＭｅ（Non-Volatile Memory）で接続された不揮発性メモリであり、ブロックストレージ２４２と比較してアクセス性能が高いが、電源が遮断されると記憶されているデータは消失するデバイスである。高速ストレージ３４０は、第２の記憶領域の一例である。第２の記憶領域は、ブロックストレージ２４２が一例である第１の記憶領域より高速であれば、電源遮断に伴いデータが消失してもよいしデータの永続性が保証されてもよい。

ＣＰＵ３００は、１又は複数のＣＰＵコア３０２を内包し、メモリ３１０に格納されたＤＢＭＳ３１２、ＯＳ３１４等の各種プログラムを実行するプロセッサである。メモリ３１０は例えば半導体メモリであり、ＣＰＵ３００のワークメモリとしても使用される。尚、ＤＢＭＳ３１２、ＯＳ３１４の実体は、ＨＤＤ（Hard Disk Drive）等のディスク装置に格納されていても良い。

ＤＢＭＳ３１２は、第２のＤＢＭＳの一例である。ＤＢＭＳ３１２は、高速ストレージ３４０に格納されたデータベース３５０のデータを管理するプログラムである。ＤＢＭＳ３１２は、データベース管理やクライアントから受け付けたクエリを実行するために、クエリ受付部３２０、クエリ実行部３２２、ノード管理部３２４、ＤＢ管理情報２２６、ノード管理情報２２８、データ管理情報２３０を有する。ＯＳ３１４は、Linuxの様な一般的なＯＳであり、ＣＰＵやＩ／Ｏの稼働状態をモニタするsar／mpstat／iostat等のモニタコマンド３３４を有しているものとする。

図４Ａは、ＤＢ管理情報２２６の構成例を示した図である。

ＤＢ管理情報２２６は、データベースのデータを格納する領域に関するＤＢエリア情報４００、データベースの表や索引といったスキーマに関するスキーマ情報４０２、データベースの表（テーブル）の構成に関するテーブル構成情報４０４で構成される。

図４Ｂは、ＤＢエリア情報４００の構成例を示した図である。

ＤＢエリア情報４００は、データベースのデータを格納する論理的な領域であるＤＢエリアと、実際にデータを格納するブロックストレージ、又は高速ストレージのＬＵ（Logical Unit）に対応するＯＳ上のデバイスファイルとを関係付ける情報であり、ＤＢエリア毎にエントリを有する。各エントリは、ＤＢエリアを一意に識別するＩＤが登録されるフィールド４１０、当該ＤＢエリアに対応するデバイスファイルパスが登録されるフィールド４１２、及び、当該ＤＢエリアの未使用領域のサイズが登録されるフィールド４１４を有する。尚、ここでは説明を省略しているが、ＬＵはＯＳが認識しているストレージ上の記憶領域であり、ＯＳがその記憶領域とデバイスファイルと対応付けている。ブロックストレージ及び高速ストレージの各々が１つのＬＵに相当してよい。この場合、ブロックストレージとしてのＬＵが、第１の記憶領域の一例であって、高速ストレージとしてのＬＵが、第２の記憶領域の一例でよい。

図４Ｃは、スキーマ情報４０２の構成例を示した図である。

スキーマ情報４０２は、データベースの表や索引といったスキーマに関する情報であり、データベースのスキーマ毎にエントリを有する。各エントリは、スキーマを一意に識別するＩＤが登録されるフィールド４２０、スキーマの種別が登録されるフィールド４２２、及び、当該スキーマのデータを格納するＤＢエリアのＩＤが登録されるフィールド４２４を有する。

図４Ｄは、テーブル構成情報４０４の構成例を示した図である。

テーブル構成情報４０４は、データベースのテーブル構成に関する情報であり、テーブルを構成する列毎にエントリを有する。各エントリは、テーブルを一意に識別するＩＤが登録されるフィールド４３０、テーブルを構成するカラムを一意に識別するＩＤが登録されるフィールド４３２、当該カラムの名称が登録されるフィールド４３４、及び、当該カラムのデータ型が登録されるフィールド４３６を有する。

図５Ａは、ノード管理情報２２８の構成例を示した図である。

ノード管理情報２２８は、マルチノードを構成する各ノードに関するノード情報５００、カレントとなっているマスターノード１２０に関するカレントマスターノード情報５０２、キャッシュノード１２２の追加及び削除のルールに関するノードルール情報５０４、及び、新規インスタンス作成時の構成に関するインスタンス構成情報５０６で構成される。

図５Ｂは、ノード情報５００の構成例を示した図である。

ノード情報５００は、当該システムでマルチノードを構成する各ノードに関する情報であり、ノード毎にエントリを有する。各エントリは、ノードを一意に識別するＩＤが登録されるフィールド５１０、当該ノードの種別（マスターノード／キャッシュノード）が登録されるフィールド５１２、当該ノードが属するグループのマスターノードのＩＤが登録されるフィールド５１４、当該ノードのＩＰアドレスが登録されるフィールド５１６、当該ノードに記憶可能なデータベースのデータ容量が登録されるフィールド５１８、及び、当該ノードに記憶しているデータベースのデータサイズが登録されるフィールド５２０を有する。

図５Ｃは、カレントマスターノード情報５０２の構成例を示した図である。

カレントマスターノード情報５０２は、当該システムでカレントになっているマスターノードに関する情報であり、カレントマスターノードのＩＤが登録されるフィールド５３０を有する。

図５Ｄは、ノードルール情報５０４の構成例を示した図である。

ノードルール情報５０４は、キャッシュノード１２２の追加及び削除のルールに関する情報であり、キャッシュノード１２２の追加ルールが登録されるフィールド５４０、及び、キャッシュノード１２２の削除ルールが登録されるフィールド５４２を有する。キャッシュノード１２２の追加ルールは、グループ１３０内の少なくとも一つのキャッシュノード１２２の負荷が第１の閾値を超えること、例えば、グループ１３０内のキャッシュノード１２２の全平均ＣＰＵ利用率が８０％超えたことでよい。キャッシュノード１２２の削除ルールは、グループ１３０内の少なくとも一つのキャッシュノード１２２の負荷が第２の閾値以下であること（第２の閾値は第１の閾値以下）、例えば、グループ１３０内のキャッシュノード１２２の全平均ＣＰＵ利用率が１０％を下回ったことでよい。これらのルールは、例えば、データベースシステム管理者等により予め設定される。尚、本実施の形態では、ＣＰＵ利用率が追加ルール及び削除ルールの両方に用いられているが、例えばＩＯＰＳ等の他の負荷指標を用いたルールが追加ルール及び削除ルールの少なくとも一つとして採用されて良い。

図５Ｅは、インスタンス構成情報５０６の構成例を示した図である。

インスタンス構成情報は、マスターノード構成（マスターノード用インスタンス構成）が登録されるフィールド５５０、及び、キャッシュノード構成（キャッシュノード用インスタンス構成）が登録されるフィールド５５２を有する。各フィールドは、インスタンスを構成するＣＰＵコア数、メモリサイズ、ストレージタイプ、ストレージ容量の情報を格納する。当該情報は、データベース管理者等によって予め設定され、新規インスタンス作成時に参照される。尚、図５Ｅが示す例によれば、キャッシュノードがマスターノードよりもリード性能（本実施形態ではデータ検索性能）が優れているようにするために、キャッシュノードについて、マスターノードのストレージよりも高速のストレージが採用され、例えば更に、マスターノードのＣＰＵコアよりも多くのＣＰＵコアが採用される。

図６Ａは、データ管理情報２３０の構成例を示した図である。

データ管理情報２３０は、データベースにおけるデータの記憶位置を表す。具体的には、例えば、データ管理情報２３０は、データベースに登録されたデータに関する情報であり、登録されたデータ毎にエントリを有する。各エントリは、当該データが登録されたマスターノードのＩＤが登録されるフィールド６００、当該データが登録されたテーブルのＩＤが登録されるフィールド６０２、当該データが登録されたカラムのＩＤが登録されるフィールド６０４、当該データの開始に関する情報（例えば、データが表す期間の開始日、又は、データの格納開始日）が登録されるフィールド６０６、及び、当該データの終了に関する情報（例えば、データが表す期間の終了日、又は、データの格納終了日）が登録されるフィールド６０８を有する。

図６Ｂは、キャッシュノード管理情報２３２の構成例を示した図である。

キャッシュノード管理情報２３２は、マスターノード１２０が同一グループのキャッシュノード１２２を管理する情報であり、それぞれのマスターノード１２０が同一グループのキャッシュノード１２２のノード数だけエントリを有する。図６Ｂは、あるグループ内のマスターノード１２０のＤＢＭＳ２１２が管理するキャッシュノード管理情報２３２Ａと、別のあるグループ内のマスターノード１２０のＤＢＭＳ２１２が管理するキャッシュノード管理情報２３２Ｂとを例示する。各エントリは、キャッシュノード１２２を識別するＩＤが登録されるフィールド６１０、当該キャッシュノード１２２の状態が登録されるフィールド６１２、当該キャッシュノード１２２のＣＰＵ利用率が登録されるフィールド６１４、当該キャッシュノード１２２のＩＯＰＳ（I/O Per Second）が登録されるフィールド６１６、及び、当該キャッシュノード１２２のスループットが登録されるフィールド６１８を有する。キャッシュノードの状態、ＣＰＵ利用率、ＩＯＰＳ及びスループットのうちの少なくとも一つが、キャッシュノードの稼働状況の一例に相当して良い。キャッシュノードのＣＰＵ利用率、ＩＯＰＳ及びスループットの少なくとも一つが、キャッシュノードの負荷の一例に相当して良い。

（２）本実施の形態におけるキャッシュノードの追加処理

図７Ａ及び図７Ｂは、キャッシュノード１２２の追加処理の流れを示した図である。尚、ここでは、説明簡略化のため、１つのグループ１３０があり、そのグループ１３０はマスターノードＭ１と、キャッシュノードＣ１１とで構成されており、そのグループ１３０にキャッシュノードＣ１２が追加されるとする。また、以下の説明では、ＤＢ管理情報２２６、ノード管理情報２２８、及びデータ管理情報２３０を含んだ情報を、「管理情報７５」と呼ぶ。また、以下の説明において、管理情報７５の同期を取るとは、更新後（最新）の管理情報７５の内容を更新前の管理情報７５に反映する（典型的にはコピーする）ことで管理情報７５の内容を同一にすることである。同様に、データベースの同期を取るとは、更新後のデータベースの内容を更新前のデータベースに反映する（典型的にはコピーする）ことで、データベースの内容を同一にすることである。

まず、追加前の処理として、図７Ａが示すように、キャッシュノードＣ１１のＤＢＭＳ３１２は、ＯＳ３１４のモニタコマンド３３４を定期的に実行することで、ＣＰＵ利用率やＩＯＰＳといったメトリック値を含んだモニタデータ７０を取得し、そのモニタデータ７０をマスターノードＭ１に送信する（矢印７００）。当該情報を受信したマスターノードＭ１のＤＢＭＳ２１２は、同一グループ１３０内の全キャッシュノード（ここでは、キャッシュノードＣ１１のみ）の平均ＣＰＵ利用率を算出する。算出された平均ＣＰＵ利用率がキャッシュノード追加ルール５４０に設定されている閾値を超えている場合、マスターノードＭ１のＤＢＭＳ２１２が、クラウド管理部１０２に、キャッシュノード用の新規インスタンス作成を要求する（矢印７０２）。

図７Ｂが示すように、インスタンス作成の要求を受け付けたクラウド管理部１０２は、要求されたインスタンス１１０Ｔを作成し、当該インスタンス１１０Ｔに関する情報（例えば、ＩＰアドレス）を、要求元のＤＢＭＳ２１２に送信する（矢印７０４）。インスタンス作成後は、ＯＳのインストールや環境設定、及び、ＤＢＭＳのインストールや環境設定を実施する必要があるが、本実施の形態では新規インスタンス作成後、例えばスクリプトの実行等によって自動的にインスタンスが利用可能になるものとする。

作成したインスタンス１１０Ｔに関する情報を受けたマスターノードＭ１のＤＢＭＳ２１２は、当該情報を元に管理情報７５（ノード情報５００）を更新し、当該管理情報７５と、同一グループ１３０内のキャッシュノードＣ１１の管理情報７５と同期を取る（矢印７２０）。また、マスターノードＭ１のＤＢＭＳ２１２は、新規作成したインスタンス（キャッシュノードＣ１２）のＤＢＭＳ３１２に管理情報７５を送信し（矢印７２２）、ブロックストレージ２４２（又は高速ストレージ２４０）に記憶しているデータベース２５０のデータをキャッシュノードＣ１２の高速ストレージ３４０に送信する（矢印７２４）。データ送信の完了によって、新規追加のキャッシュノードＣ１２が利用可能となり、マスターノードＭ１はキャッシュノード管理情報２３２に新規追加したキャッシュノードＣ１２のエントリを追加する。

以上のキャッシュノード１２２の追加処理の例では、説明簡略化のため、１グループ、１マスターノード、１キャッシュノードの構成が採用されたが、実際には複数のグループ１３０があっても良いし、同一グループ１３０に複数のキャッシュノード１２２があっても良い。複数のグループ１３０がある場合は、グループ１３０毎に上記の処理が行われ、キャッシュノード追加時に更新された管理情報７５は、更新したマスターノード１２０から別グループ１３０のマスターノード１２０に伝搬し、そのマスターノード１２０から同一グループ内のキャッシュノード１２２に伝搬して良い。また、同一グループ１３０に複数のキャッシュノード１２２がある場合は、全てのキャッシュノード１２２がモニタデータ７０を取得及び送信し、マスターノード１２０はそれらのモニタデータ７０を基にキャッシュノードを追加するか否かの判定を行って良い。

（３）本実施の形態におけるキャッシュノードの削除処理

図８Ａ及び図８Ｂは、キャッシュノード１２２の削除処理の流れを示した図である。尚、ここでは、説明簡略化のため、１つのグループ１３０があり、そのグループ１３０はマスターノードＭ１と、キャッシュノードＣ１１及びＣ１２とで構成されており、そのグループからキャッシュノードＣ１２が削除されるとする。

まず、削除前の処理として、図８Ａが示すように、キャッシュノードＣ１１及びＣ１２の各々において、ＤＢＭＳ３１２は、ＯＳ３１４のモニタコマンド３３４を定期的に実行してＣＰＵ利用率やＩＯＰＳといったメトリック値を含んだモニタデータ７０を取得し、そのモニタデータ７０をマスターノードＭ１に送信する（矢印８００）。当該情報を受信したマスターノードＭ１のＤＢＭＳ２１２は、同一グループ１３０内の全キャッシュノードＣ１１及びＣ１２の平均ＣＰＵ利用率を算出する。算出された平均ＣＰＵ利用率がキャッシュノード削除ルールのフィールド５４２に設定されている閾値を下回っている場合、マスターノードＭ１のＤＢＭＳ２１２が、最もＣＰＵ利用率の低いキャッシュノード（ここでは、キャッシュノードＣ１２）のインスタンスを選択し、選択したインスタンスを指定したインスタンス削除要求をクラウド管理部１０２に送信する（矢印８０２）。

図８Ｂが示すように、インスタンス削除の要求を受け付けたクラウド管理部１０２は、要求されたインスタンス（Ｃ１２）の削除を実行し、削除結果（削除したインスタンスに関する情報）を要求元のＤＢＭＳ２１２に送信する（矢印８１０）。

削除したインスタンスに関する情報を受けたマスターノードＭ１のＤＢＭＳ２１２は、当該情報を基に管理情報７５内のノード情報５００を更新し、同一グループ１３０内のキャッシュノード（ここでは、キャッシュノードＣ１１）と更新した管理情報７５の同期を取り（矢印８１４）、削除したキャッシュノードＣ１２のエントリをキャッシュノード管理情報２３２から削除する。

以上のキャッシュノード１２２の削除処理の例では、説明簡略化のため１グループ、１マスターノード、２キャッシュノードの構成が採用されたが、実際には複数のグループ１３０があっても良く、その場合はグループ１３０毎に上記の処理が行われて良い。キャッシュノード削除時に更新された管理情報７５は、更新したマスターノードＭ１から別グループ１３０のマスターノード１２０に伝搬し、そのマスターノード１２０から同一グループ１３０内のキャッシュノード１２２に伝搬する。また、グループ１３０内のキャッシュノード１２２が１ノードとなった場合でも残っているキャッシュノード１２２が削除されても良いが、データ検索が割り振られた場合に即座に実行できないため、１又は複数のキャッシュノード１２２が残されておいても良い。

（４）本実施の形態におけるデータインポート処理１

図９は、マスターノードの追加を伴わないデータインポート処理の流れを示した図である。尚、ここでは、説明簡略化のため、１つのグループ１３０があり、そのグループ１３０はマスターノードＭ１と、キャッシュノードＣ１１及びＣ１２とで構成されており、カレントのマスターノードであるマスターノードＭ１に対してデータがインポートされるとする。

アプリケーション１０６が、カレントマスターノードＭ１のＤＢＭＳ２１２に対し、インポート対象のデータが格納されているインポートファイル９０２が関連付けられたインポート要求を送信する（矢印９００）。

データのインポート要求を受けたマスターノードＭ１のＤＢＭＳ２１２は、管理情報７５内のＤＢエリア情報４００を参照して、インポート対象のデータをブロックストレージ２４２に格納できるか判定する。「インポート対象のデータをブロックストレージ２４２に格納できる」とは、ブロックストレージ２４２の空き領域が十分であることを意味する条件が満たされていること（例えば、空き領域の容量がインポート対象のデータのデータ容量以上であること）でよい。格納できると判定した場合は、ＤＢＭＳ２１２は、当該インポート要求を実行することで、インポートファイル９０２からブロックストレージ２４２のデータベース２５０にデータをインポートする（矢印９０４）。データのインポート完了後、ＤＢＭＳ２１２は、管理情報７５（ＤＢエリア情報４００及びデータ管理情報２３０）を、インポートされたデータの内容に合わせて更新し、更新後の管理情報７５と同一グループ１３０内のキャッシュノードＣ１１及びＣ１２内の管理情報７５との同期を取る（矢印９０６）。

また、マスターノードＭ１のＤＢＭＳ２１２は、ブロックストレージ２４２と高速ストレージ２４０の同期を取る、つまり、インポートされたデータをブロックストレージ２４２から高速ストレージ２４０にコピーする（矢印９１０）。その後、ＤＢＭＳ２１２は、マスターノードＭ１の高速ストレージ２４０と、同一グループ１３０のキャッシュノードＣ１１及びＣ１２の各々における高速ストレージ３４０との同期を取る、つまり、インポートされたデータを高速ストレージ２４０から高速ストレージ３４０にコピーする（矢印９１２）。尚、マスターノードＭ１のブロックストレージ２４２とキャッシュノードＣ１１及びＣ１２の各々における高速ストレージ３４０とで同期が取られても良い。また、同一グループ１３０内に複数のキャッシュノードがある場合は、各キャッシュノードの負荷（例えば稼働状況）を基に、負荷が低いキャッシュノード順に、同期が取られても良い。

（５）本実施の形態におけるデータインポート処理２

図１０、図１１及び図１２は、マスターノードの追加を伴うデータインポート処理の流れを示した図である。尚、ここでは、説明簡略化のため、１つのグループ１３０があり、そのグループ１３０はマスターノードＭ１と、キャッシュノードＣ１１及びＣ１２とで構成されており、カレントマスターノードＭ１に対してデータがインポートされようとするが、領域不足のため新たにマスターノードＭ２とキャッシュノードＣ２１とで構成されたグループ１３０Ｔが作成され、新規追加したマスターノードＭ２にデータがインポートされるとする。

図１０が示すように、アプリケーション１０６が、カレントマスターノードＭ１のＤＢＭＳ２１２に対し、インポート対象のデータが格納されているインポートファイル１００２が関連付けられたインポート要求を送信する（矢印１０００）。

インポート要求を受けたマスターノードＭ１のＤＢＭＳ２１２は、ＤＢエリア情報４００を参照して、インポート対象のデータがデータベースのデータを記憶するブロックストレージ２４２に格納できるか判定する。「インポート対象のデータをブロックストレージ２４２に格納できる」とは、ブロックストレージ２４２の空き領域が不足していることを意味する条件が満たされていること（例えば、空き領域の容量がインポート対象のデータのデータ容量未満であること）でよい。格納できないと判定した場合は、ＤＢＭＳ２１２は、クラウド管理部１０２に対して、マスターノード用の新規インスタンスとキャッシュノード用の新規インスタンスの合計２個のインスタンスの作成を要求する（矢印１００４）。尚、ここで作成するキャッシュノード用のインスタンスの数は２以上であっても良い。

図１１が示すように、インスタンス作成の要求を受けたクラウド管理部１０２は、要求されたマスターノードＭ２用のインスタンスと、キャッシュノードＣ２１用のインスタンスを作成し、それらのインスタンスに関する情報（例えばＩＰアドレス）を要求元のＤＢＭＳ２１２に送信する（矢印１１００）。

作成したインスタンスに関する情報を受けたマスターノードＭ１のＤＢＭＳ２１２は、当該情報を基に、管理情報７５（ノード情報５００）を更新し、更新後の管理情報７５と同一グループ１３０内のキャッシュノードＣ１１及びＣ１２の管理情報７５との同期を取る（矢印１１１４）。また、マスターノードＭ１のＤＢＭＳ２１２は、新規作成したインスタンス（マスターノードＭ２）のＤＢＭＳ２１２に管理情報７５を送信し（矢印１１１０）、カレントマスターノード情報５０２にマスターノードＭ２のＩＤを設定する。

マスターノードＭ１のＤＢＭＳ２１２から管理情報７５を受信したカレントのマスターノードＭ２のＤＢＭＳ２１２は、自環境に合わせてＤＢエリア情報４００を更新し、キャッシュノード管理情報２３２を作成する。作成後、ＤＢＭＳ２１２は、同時に作成されたインスタンス（キャッシュノードＣ２１）のエントリを追加し当該エントリに情報を登録し、キャッシュノードＣ２１のＤＢＭＳ３１２に管理情報７５（ＤＢ管理情報２２６、ノード管理情報２２８、及びデータ管理情報２３０）を送信する（矢印１１１２）。尚、新規作成されたキャッシュノードが複数の場合は、新規作成された全キャッシュノードに管理情報７５が送信される。

図１２に示すように、カレントになったマスターノードＭ２のＤＢＭＳ２１２は、データのインポートを要求したクライアント１０４のアプリケーション１０６に対して、再度データのインポートを要求するように指示を出す（矢印１２００）。当該指示を受けたアプリケーション１０６は、インポート対象のデータが格納されているインポートファイル１００２が関連付けられたインポート要求を、カレントマスターノードＭ２のＤＢＭＳ２１２に送信する（矢印１２０２）。

データのインポート要求を受けたマスターノードＭ２のＤＢＭＳ２１２は、当該インポート要求を実行して、インポートファイル１００２からブロックストレージ２４２にデータをインポートする（矢印１２０６）。データのインポート完了後、マスターノードＭ２のＤＢＭＳ２１２は、管理情報７５（ＤＢエリア情報４００及びデータ管理情報２３０）を、インポートしたデータの内容に基づき更新し、更新後の管理情報７５と同一グループ１３０内のキャッシュノードＣ１１の管理情報７５との同期を取る（矢印１２０６）。また、カントマスターノードＭ２のＤＢＭＳ２１２は、カレントマスターノードＭ２以外の各マスターノード（ここでは、マスターノードＭ１）のＤＢＭＳ２１２の管理情報７５とも、更新後の管理情報７５との同期を取る（矢印１２０８）。尚、システム内に複数のマスターノードが存在する場合は、全マスターノードの管理情報に対して更新後の管理情報との同期が取られる。管理情報７５が更新されたマスターノードＭ１のＤＢＭＳ２１２は、同一グループ１３０の全キャッシュノード（ここでは、キャッシュノードＣ１１及びＣ１２）の管理情報７５と、マスターノードＭ１における更新後の管理情報７５との同期を取る（矢印１２１０）。

また、カレントマスターノードＭ２のＤＢＭＳ２１２は、ブロックストレージ２４２におけるデータベース２５０と高速ストレージ２４０におけるデータベース２５０との同期を取る、つまり、ブロックストレージ２４２にインポートされたデータを高速ストレージ２４０にコピーする（矢印１２２０）。その後、当該ＤＢＭＳ２１２は、マスターノードＭ２の高速ストレージ２４０におけるデータベースと、同一グループ１３０のキャッシュノードＣ２１における高速ストレージ３４０におけるデータベースと同期を取る、つまり、高速ストレージ２４０から、インポートされたデータを高速ストレージ３４０にコピーする（矢印１２２２）。尚、マスターノードＭ２のブロックストレージ２４２におけるデータベースとキャッシュノードＣ２１の高速ストレージ３４０におけるデータベースとで同期が取られても良い。

以上のように、マスターノードの追加が伴うデータインポート処理では、データは、追加されたマスターノードＭ２にインポートされ、既存のマスターノードＭ１にはインポートされない。結果として、グループ１３０毎に、データベースの内容は異なり、故に、アプリケーション１０６からカレントマスターノードが受ける検索クエリに従う検索範囲は、下記のうちのいずれかである。
・カレントマスターノードが属する最新のグループ１３０内のデータベースの全部又は一部で構成された範囲。
・カレントマスターノードが属する最新のグループ１３０内のデータベースの全部又は一部と、カレントマスターノード以外の１以上のマスターノードがそれぞれ属する１以上のグループ内のデータベースの全部又は一部とで構成された範囲。
・カレントマスターノードが属する最新のグループ１３０内のデータベースの少なくとも一部を含んでおらず、カレントマスターノード以外の１以上のマスターノードがそれぞれ属する１以上のグループのうちの少なくとも１つのグループにおけるデータベースの全部又は一部で構成された範囲。

（６）本実施の形態におけるクエリ実行処理１

図１３は、カレントマスターノードのグループで検索クエリの実行が可能な場合のクエリ実行処理の流れを示した図である。尚、ここでは、２つのグループがあり、１つ目のグループはマスターノードＭ１とキャッシュノードＣ１１とで構成され、２つ目のグループはマスターノードＭ２と、キャッシュノードＣ２１及びＣ２２で構成され、マスターノードＭ２がカレントのマスターノードであるものとする。

カレントマスターノードＭ２のＤＢＭＳ２１２が、アプリケーション１０６から、検索クエリ１３００を受け付ける（矢印１３０２）。

検索クエリ１３００を受けたマスターノードＭ２のＤＢＭＳ２１２は、検索クエリ１３００を解析してクエリプラン１３を作成する。クエリプラン作成後、ＤＢＭＳ２１２は、キャッシュノード管理情報２３２を参照して、同一グループ１３０内のキャッシュノードのうち一番ＣＰＵ負荷（ＣＰＵ利用率）の低いキャッシュノードを特定し（ここでは、キャッシュノードＣ２１）、作成したクエリプラン１３と、クエリソース（クライアント１０４及び／又はアプリケーション１０６）に関する情報とが関連付けられた検索クエリをキャッシュノードＣ２１のＤＢＭＳ３１２に送信する（矢印１３０４）。この送信される検索クエリは、ＤＢＭＳ２１２が受けた検索クエリ１３００（つまりオリジナルの検索クエリ）に基づく検索クエリであり、具体的には、例えば、検索クエリ１３００それ自体でも良いし、検索クエリ１３００を用いて生成された検索クエリでも良い。尚、ここではマスターノードＭ２のＤＢＭＳ２１２がクエリプラン１３を作成し作成したクエリプラン１３をキャッシュノードＣ２１に送信しているが、ＤＢＭＳ２１２が検索クエリ１３００をそのままキャッシュノードＣ２１に送信し、キャッシュノードＣ２１のＤＢＭＳ３１２が検索クエリ１３００を解析してクエリプランを作成しても良い。また、特定されるキャッシュノードの条件として、一番ＣＰＵ負荷が低いことに代えて、他種の条件（例えば、ＣＰＵ負荷に代えて又は代えて他種の負荷が一番低いこと）が採用されてもよい。

検索クエリを受けたキャッシュノードＣ２１のＤＢＭＳ３１２は、管理情報７５（データ管理情報２３０）を参照して、受信した検索クエリに関連付けられているクエリプラン１３に従いアクセスされるデータが自ノードＣ２１の高速ストレージ３４０におけるデータベースに全て存在するか判断する。全て存在する場合は、ＤＢＭＳ３１２は、検索クエリを実行する、すなわち、高速ストレージ３４０におけるデータベースからのデータ検索を実行する（矢印１３０６）。キャッシュノードＣ２１のＤＢＭＳ３１２は、クエリ実行完了後、実行結果１３０８を、ＤＢＭＳ２１２から受けた検索クエリに関連付けられている情報から特定されたクライアント１０４のアプリケーション１０６に送信する（矢印１３１０）。

（７）本実施の形態におけるクエリ実行処理２

図１４は、複数のグループに跨って検索クエリを実行する場合のクエリ実行処理の流れを示した図である。尚、ここでは、２つのグループ１３０があり、１つ目のグループ１３０はマスターノードＭ１とキャッシュノードＣ１１とで構成され、２つ目のグループ１３０はマスターノードＭ２とキャッシュノードＣ２１及びＣ２２とで構成され、マスターノードＭ２がカレントのマスターノードであるものとする。

カレントマスターノードＭ２のＤＢＭＳ２１２が、アプリケーション１０６から、検索クエリ１４００を受け付ける（矢印１４０２）。

検索クエリ１４００を受けたマスターノードＭ２のＤＢＭＳ２１２は、検索クエリ１４００を解析してクエリプラン１３を作成する。クエリプラン作成後、ＤＢＭＳ２１２は、キャッシュノード管理情報２３２を参照して、同一グループ１３０内のキャッシュノードのうち一番ＣＰＵ負荷の低いキャッシュノードを特定し（ここでは、キャッシュノードＣ２１）、作成したクエリプランと、クエリソース（クライアント１０４及び／又はアプリケーション１０６）に関する情報とが関連付けられた検索クエリを、キャッシュノードＣ２１のＤＢＭＳ３１２に送信する（矢印１４０４）。尚、ここではマスターノードＭ２のＤＢＭＳ３１２が作成したクエリプラン１３をキャッシュノードＣ２１に送信しているが、ＤＢＭＳ２１２は、検索クエリ１４００をそのままキャッシュノードＣ２１に送信し、キャッシュノードＣ２１のＤＢＭＳ３１２が、検索クエリ１４００を解析してクエリプランを作成しても良い。

検索クエリを受けたキャッシュノードＣ２１のＤＢＭＳ３１２は、管理情報７５（データ管理情報２３０）を参照して、受けた検索クエリに関連付けられているクエリプラン１３に従いアクセスされるデータが自ノードＣ２１の高速ストレージ３４０におけるデータベース３５０内に全て存在するか判断する。一部のデータでも存在しないデータがあると判断した場合は、ＤＢＭＳ３１２は、当該データを記憶しているマスターノードを管理情報７５（データ管理情報２３０）から特定し（ここでは、マスターノードＭ１）、特定されたマスターノードＭ１のＤＢＭＳ２１２に対して、キャッシュノード割当要求（別の言い方をすれば、キャッシュノード問合せ）を発行する（矢印１４０６）。尚、複数のマスターノードが特定された場合は、特定された全てのマスターノードの各々に対して同じ処理が行われる。また、キャッシュノード割当要求に代えて、特定されたマスターノードが属するグループにおけるデータベースからデータを検索するための検索クエリが、特定されたマスターノードにおけるＤＢＭＳ２１２に送信されても良い。当該検索クエリを受けたＤＢＭＳ２１２が、同一グループ内のキャッシュノードに、検索クエリを送信しても良い。

キャッシュノード割当要求を受け付けたマスターノードＭ１のＤＢＭＳ２１２は、キャッシュノード管理情報２３２を参照して、同一グループ内のキャッシュノードのうち一番ＣＰＵ負荷の低いキャッシュノードを特定し（ここでは、キャッシュノードＣ１１）、特定したキャッシュノードＣ２１のＩＤを、要求元のキャッシュノードＣ２１のＤＢＭＳ３１２に応答する（矢印１４０６）。

キャッシュノード割当要求に対する応答を受けたキャッシュノードＣ２１のＤＢＭＳ３１２は、クエリプラン１３が関連付けられた検索クエリを、当該受けた応答が表すキャッシュノードＣ１１のＤＢＭＳ３１２に送信する（矢印１４０８）。この検索クエリに関連付けられるクエリプラン１３は、カレントマスターノードＭ２のＤＢＭＳ２１２により作成されたクエリプラン１３それ自体であるが、それに代えて、クエリプラン１３の一部（少なくとも、キャッシュノードＣ１１に送信される検索クエリに従う検索範囲に対応した部分を含んだクエリプラン）でも良い。キャッシュノードＣ２１のＤＢＭＳ３１２は、自ノードＣ２１の高速ストレージ３４０におけるデータベース３５０に、カレントマスターノードＭ２からのクエリプラン１３に従いアクセスされるデータが一部でも存在する場合、自ノードＣ２１の高速ストレージ３４０におけるデータベース３５０からのデータ検索を実行する（矢印１４１２）。

検索クエリを受けたキャッシュノードＣ１１のＤＢＭＳ３１２は、自ノードＣ１１の高速ストレージ３４０におけるデータベース３５０からのデータ検索を実行する、つまり検索クエリを実行する（矢印１４１４）。ＤＢＭＳ３１２は、実行結果１４１６を要求元のキャッシュノードＣ２１のＤＢＭＳ３１２に送信する（矢印１４１８）。

実行結果１４１６を受信したキャッシュノードＣ２１のＤＢＭＳ３１２は、自ノードＣ２１で検索クエリを実行した場合はその実行結果と受信した実行結果１４１６とをマージし、マージ後の実行結果１４２０を、カレントマスターノードＭ２からの検索クエリに関連付けられている情報から特定されたクライアント１０４のアプリケーション１０６に送信する（矢印１４２２）。

（８）本実施の形態における処理フロー

図１５は、各キャッシュノード１２２のＤＢＭＳ３１２が実行するモニタデータ取得送信処理１５００のフロー図である。一つのキャッシュノード１２２を例に取る。モニタデータ取得送信処理１５００は、例えば、キャッシュノード１２２のＤＢＭＳ３１２におけるノード管理部３２４により行われて良い。

キャッシュノード１２２のＤＢＭＳ３１２は、一定時間ウェイトし（ステップ１５０２）、その後ＣＰＵやＩ／Ｏの稼働状態をモニタするsar／mpstat／iostat等のモニタコマンド３３４を実行して、ＣＰＵ利用率やＩＯＰＳ、スループット等のモニタデータを取得する（ステップ１５０４）。続いて、モニタデータを取得したキャッシュノード１２２のＤＢＭＳ３１２は、ノード情報５００を参照して、当該キャッシュノード１２２が属するグループのマスターノード１２０を特定し（ステップ１５０６）、取得したモニタデータをそのマスターノード１２０のＤＢＭＳ２１２に送信する（ステップ１５０８）。キャッシュノード１２２のＤＢＭＳ３１２は、ステップ１５０２～１５０８の処理を繰り返して実行する。尚、マスターノード１２０とキャッシュノード１２２間のモニタデータ送受信は、決められた送受信フォーマットのプロトコルを利用して行われても良いし、ファイル等を介して行われても良い。

図１６は、各マスターノード１２０のＤＢＭＳ２１２が実行するモニタデータ受信処理１６００のフロー図である。一つのマスターノード１２０を例に取る。モニタデータ受信処理１６００は、例えば、マスターノード１２０のＤＢＭＳ２１２におけるノード管理部２２４により行われて良い。

マスターノード１２０のＤＢＭＳ２１２は、同じグループに属するキャッシュノード１２２のＤＢＭＳ３１２からモニタデータを受信するのを待ち（ステップ１６０２）、キャッシュノード１２２のＤＢＭＳ３１２のモニタデータ取得送信処理１５００によって送信されたモニタデータを受信する（ステップ１６０４）。

マスターノード１２０のＤＢＭＳ２１２は、キャッシュノード１２２のＤＢＭＳ３１２からモニタデータ受信した後、受信したモニタデータの内容に合わせてキャッシュノード管理情報２３２を更新する（ステップ１６０６）。続いて、ＤＢＭＳ２１２は、キャッシュノード管理情報２３２を基に、同じグループに属する全キャッシュノード１２２のＣＰＵ利用率から平均ＣＰＵ利用率を算出し（ステップ１６０８）、算出した平均ＣＰＵ利用率が追加閾値（ノードルール情報５０４のキャッシュノード追加ルールのフィールド５４０に設定されている閾値）を超えているか判定する（ステップ１６１０）。平均ＣＰＵ利用率が追加閾値を超えている場合は、ＤＢＭＳ２１２が、キャッシュノード追加処理１７００を実行し（ステップ１６１２）、再度キャッシュノードからのモニタデータ受信待ちとなる。平均ＣＰＵ利用率が追加閾値を超えていない場合は、ＤＢＭＳ２１２は、平均ＣＰＵ利用率が削除閾値（ノードルール情報５０４のキャッシュノード削除ルール５４２に設定されている閾値）を下回っているか判定する（ステップ１６１４）。平均ＣＰＵ利用率が削除閾値を下回っている場合は、ＤＢＭＳ２１２が、キャッシュノード削除処理１８００を実行し（ステップ１６１６）、再度キャッシュノードからのモニタデータ受信待ちとなる。平均ＣＰＵ利用率が削除閾値を下回っていない場合は、ＤＢＭＳ２１２は、同様に再度キャッシュノードからのモニタデータ受信待ちとなる。

図１７は、各マスターノード１２０のＤＢＭＳ２１２が実行するキャッシュノード追加処理１７００のフロー図である。一つのマスターノード１２０を例に取る。キャッシュノード追加処理１７００は、例えば、マスターノード１２０のＤＢＭＳ２１２におけるノード管理部２２４により行われて良い。

マスターノードのＤＢＭＳ２１２は、インスタンス構成情報５０６を参照し、キャッシュノード用インスタンス構成のフィールド５５２に設定されたキャッシュノード構成を特定し、当該構成の新規インスタンス作成をクラウド管理部１０２に要求する（ステップ１７０２）。インスタンス作成の要求を受けたクラウド管理部１０２は、要求された構成のインスタンスを作成し、ＩＰアドレス等のインスタンスに関する情報を要求元のＤＢＭＳ２１２に送信する。インスタンス作成後は、ＯＳのインストールや設定、ＤＢＭＳのインストールや環境設定を実施する必要があるが、本実施の形態では新規インスタンス作成後、例えばスクリプトの実行等によって自動的にインスタンスが利用可能になるものとする。

新規インスタンス作成要求後のマスターノードのＤＢＭＳ２１２は、クラウド管理部１０２からの応答を待つ（ステップ１７０４）。応答があった際は、ＤＢＭＳ２１２は、当該応答に関連付いている情報（作成された新規インスタンス（キャッシュノード）を表す情報）をキャッシュノード管理情報２３２に登録し、当該キャッシュノードの状態を使用可能の状態として設定する（ステップ１７０６）。続いて、ＤＢＭＳ２１２は、新規作成されたキャッシュノードのエントリをノード情報５００に作成し、クラウド管理部１０２からの応答に関連付いている情報（作成された新規インスタンス（キャッシュノード）を表す情報）を基に当該エントリに情報を設定する（ステップ１７０８）。キャッシュノードの作成後は、ＤＢＭＳ２１２は、ノード情報５００を参照して、自グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、ノード情報５００の同期を取る（ステップ１７１０）。

続いて、ＤＢＭＳ２１２は、ノード情報５００を参照して、当該ＤＢＭＳ２１２を有するマスターノードである対象マスターノード以外のマスターノードが存在するか判定する（ステップ１７１２）。対象マスターノード以外のマスターノードが存在する場合は、ＤＢＭＳ２１２は、対象マスターノード以外の各マスターノードのＤＢＭＳ２１２に対して、ノード情報５００の同期を取る（ステップ１７１４）。ノード情報５００の同期が取られたマスターノードにおけるＤＢＭＳ２１２は、当該ＤＢＭＳ２１２が管理するノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、ノード情報５００の同期を取る（ステップ１７１６）。

対象マスターノード（キャッシュノードを同一グループに新規作成したマスターノード）のＤＢＭＳ２１２は、新規作成したキャッシュノードのＤＢＭＳ３１２に対して、管理情報７５（ＤＢ管理情報２２６、ノード管理情報２２８、及びデータ管理情報２３０）の同期を取る（ステップ１７１８）。ＤＢＭＳ２１２は、対象マスターノードの高速ストレージ２４０に記憶しているデータベースのデータを、新規作成したキャッシュノードの高速ストレージ３４０に送信して同期を取る（ステップ１７２０）。

図１８は、各マスターノード１２０のＤＢＭＳ２１２が実行するキャッシュノード削除処理１８００のフロー図である。一つのマスターノード１２０を例に取る。キャッシュノード削除処理１８００は、例えば、マスターノード１２０のＤＢＭＳ２１２におけるノード管理部２２４により行われて良い。

マスターノード１２０のＤＢＭＳ２１２は、キャッシュノード管理情報２３２を参照して、ＣＰＵ利用率が最も低いキャッシュノードを特定し（ステップ１８０２）、特定したキャッシュノードの状態を削除中に変更し、当該キャッシュノードが処理実行中の場合は実行中の処理が完了するのを待つ（ステップ１８０４）。

続いて、マスターノード１２０のＤＢＭＳ２１２は、削除対象のキャッシュノードに対応するインスタンスの削除をクラウド管理部１０２に要求し（ステップ１８０６）、キャッシュノードの削除が完了するのを待つ（ステップ１８０８）。クラウド管理部１０２からの削除完了の応答を受け、ＤＢＭＳ２１２は、キャッシュノード管理情報２３２から削除したキャッシュノードのエントリを削除し（ステップ１８１０）、ノード情報５００から削除したキャッシュノードのエントリを削除する（ステップ１８１２）。削除後は、ＤＢＭＳ２１２は、ノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、ノード情報５００の同期を取る（ステップ１８１４）。

続いて、対象マスターノード（キャッシュノードを削除したマスターノード）のＤＢＭＳ２１２は、ノード情報５００を参照して、対象マスターノード以外のマスターノードが存在するか判定する（ステップ１８１６）。対象マスターノード以外のマスターノードが存在する場合は、対象マスターノードのＤＢＭＳ２１２は、対象マスターノード以外の各マスターノードのＤＢＭＳ２１２に対して、ノード情報５００の同期を取る（ステップ１８２０）。ノード情報５００の同期が取られたマスターノードのＤＢＭＳ２１２は、当該ＤＢＭＳ２１２が管理するノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、ノード情報５００の同期を取る（ステップ１８２２）。

図１９及び図２０は、カレントのマスターノードのＤＢＭＳ２１２が実行するデータインポート処理１９００のフロー図である。

カレントのマスターノードのＤＢＭＳ２１２にあるクエリ受付部２２０は、アプリケーション１０６から、データインポートの要求（インポート対象のデータが格納されているインポートファイルが関連付けられている要求）を受信する（ステップ１９０２）。データインポートの要求を受け付けたＤＢＭＳ２１２のクエリ実行部２２２は、ノード情報５００を参照して、当該マスターノードのデータ空き容量（例えば、データ空き容量＝データ容量－データ使用量）を算出し（ステップ１９０４）、算出したデータ空き容量よりインポート対象のデータサイズが大きいか判定する（ステップ１９０６）。

当該マスターノードのデータ空き容量がインポート対象のデータより大きい（又は同じ）と判定した場合は、ＤＢＭＳ２１２のクエリ実行部２２２は、ステップ１９１４から処理を続行する。当該マスターノードのデータ空き容量がインポート対象のデータより小さいと判定した場合は、ＤＢＭＳ２１２（例えばノード管理部２２４）は、マスターノード追加処理２１００を実行し（ステップ１９０８）、キャッシュノード追加処理１７００を実行し（ステップ１９１０）、新規グループを作成する。新規グループ作成後は、作成されたマスターノードがカレントマスターノードとなり、以前にカレントであったマスターノードのＤＢＭＳ２１２（例えばクエリ受付部３２０）が、インポート要求元のクライアント１０４のアプリケーション１０６に対して、再度データのインポートを要求するように指示を出し（ステップ１９１２）、ステップ１９０２から処理を実行する。

カレントマスターノードのＤＢＭＳ２１２のクエリ実行部２２２が、インポート要求を実行し、受信したインポートファイルのデータをブロックストレージ２４２上のデータベースにインポートし（ステップ１９１４）、データのインポート完了後、インポートしたデータに合わせてデータ管理情報２３０を更新する（ステップ１９１６）。続いて、ＤＢＭＳ２１２のクエリ実行部２２２が、ノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、データ管理情報２３０の同期を取る（ステップ１９１８）。

続いて、ＤＢＭＳ２１２のクエリ実行部２２２が、ノード情報５００を参照して、対象マスターノード（当該ＤＢＭＳ２１２を有するマスターノード）以外のマスターノードが存在するか判定する（ステップ２０００）。対象マスターノード以外のマスターノードが存在する場合は、ＤＢＭＳ２１２のクエリ実行部２２２が、対象マスターノード以外の各マスターノードのＤＢＭＳ２１２に対して、データ管理情報２３０の同期を取る（ステップ２００２）。データ管理情報２３０の同期が取られたマスターノードのＤＢＭＳ２１２（例えばクエリ実行部３２２）は、ノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードのＤＢＭＳ３１２に対して、データ管理情報２３０の同期を取る（ステップ２００４）。

対象マスターノード（データのインポートを実行したカレントのマスターノード）のＤＢＭＳ２１２のクエリ実行部２２２は、続いて当該マスターノードのブロックストレージ２４２のデータベースのデータと、高速ストレージ２４０のデータベースのデータの同期を取る（ステップ２００６）。同期完了後、ＤＢＭＳ２１２のクエリ実行部２２２は、ノード情報５００を参照して、同一グループに属するキャッシュノードを特定し、特定したキャッシュノードの高速ストレージ３４０のデータベースのデータと、対象マスターノードの高速ストレージ２４０のデータベースのデータとの同期を取る（ステップ２００８）。

図２１は、カレントのマスターノードのＤＢＭＳ２１２が実行するマスターノード追加処理２１００のフロー図である。マスターノード追加処理２１００は、例えば、マスターノード１２０のＤＢＭＳ２１２におけるノード管理部２２４により行われて良い。

カレントのマスターノードのＤＢＭＳ２１２は、インスタンス構成情報５０６を参照し、マスターノード用インスタンス構成のフィールド５５０に設定されたマスターノード構成を特定し、当該構成のインスタンス作成をクラウド管理部１０２に要求する（ステップ２１０２）。インスタンス作成の要求を受け付けたクラウド管理部１０２は、要求された構成のインスタンスを作成し、ＩＰアドレス等のインスタンスに関する情報を要求元のＤＢＭＳ２１２に送信する。

新規インスタンス作成要求後のマスターノードのＤＢＭＳ２１２は、クラウド管理部１０２からの応答を待つ（ステップ２１０４）。ＤＢＭＳ２１２は、応答があった際は、作成された新規インスタンス（マスターノード）を表す情報をノード情報５００に登録する（ステップ２１０６）。続いて、カレントのマスターノードのＤＢＭＳ２１２は、カレントマスターノード情報５０２が表すＩＤを、新規作成されたマスターノードのＩＤに変更し（ステップ２１０８）、新規作成されたマスターノードのＤＢＭＳ２１２に対して、管理情報７５（ＤＢ管理情報２２６、ノード管理情報２２８、及びデータ管理情報２３０）の同期を取る（ステップ２１０８）。新しくカレントのマスターノードになったマスターノードのＤＢＭＳ２１２は、キャッシュノード管理情報２３２を作成する（ステップ２１１２）。

図２２、図２３Ａ、図２３Ｂ、図２４Ａ及び図２４Ｂは、マスターノード及びキャッシュノードが実行するクエリ実行処理の処理フロー図である。この処理で実行されるクエリは、検索クエリである。

カレントのマスターノードのＤＢＭＳ２１２にあるクエリ受付部２２０は、アプリケーション１０６から、検索クエリを受信する（ステップ２２０２）。続いて、ＤＢＭＳ２１２のクエリ受付部２２０は、受信した検索クエリからクエリプランを作成し（ステップ２２０４）、作成したクエリプランをＤＢＭＳ２１２のクエリ実行部２２２に渡してクエリ実行を開始する（ステップ２２０６）。

ＤＢＭＳ２１２のクエリ実行部２２２は、キャッシュノード管理情報２３２を参照して、同一グループに属するキャッシュノードの中で最もＣＰＵ利用率の低いキャッシュノードを特定し（ステップ２２０８）、特定したキャッシュノードに対して、クエリプランとクエリソース情報（クライアント１０４とアプリケーション１０６に関する情報）とが関連付けられた検索クエリを送信する（ステップ２２１０）。

キャッシュノード（ここでは、Ｃ２１とする）のＤＢＭＳ３１２は、クエリプラン及びクエリソース情報が関連付いた検索クエリをＤＢＭＳ２１２から受信し（ステップ２２２０）、データ管理情報２３０を参照して、当該検索クエリの実行においてアクセスされるデータがノードＣ３１のデータベース３５０に全て存在するか判定する（ステップ２２２２）。

ステップ２２２２の判定結果が真の場合は、キャッシュノードＣ２１のＤＢＭＳ３１２のクエリ実行部３２２が、受信したクエリプランを基に高速ストレージ３４０上のデータベースからのデータ検索を実行し（ステップ２２２４）、実行結果を、クエリソース情報が表す要求元のアプリケーション１０６に応答する（ステップ２２２６）。

ステップ２２２２の判定結果が偽の場合は、キャッシュノードＣ２１のＤＢＭＳ３１２のクエリ実行部３２２が、データ管理情報２３０を参照して、当該検索クエリの実行においてアクセスされるデータを有するマスターノードを特定し（ステップ２３００）、特定したマスターノードにキャッシュノード割当要求を送信する（ステップ２３０２）。尚、ステップ２３００で複数のマスターノードが特定された場合は、特定された全てのマスターノードの各々についてステップ２３０２が行われる。

キャッシュノード割当要求を受けたマスターノードのＤＢＭＳ２１２（例えばノード管理部２２４）は、キャッシュノード管理情報２３２を参照して、同一グループに属するキャッシュノードの中で最もＣＰＵ利用率が低いキャッシュノードを特定し（ステップ２４００）、特定したキャッシュノード（ここでは、Ｃ１１とする）の情報を要求元のキャッシュノードＣ２１のＤＢＭＳ３１２に応答する（ステップ２４０２）。

キャッシュノード割当要求の応答を受けたキャッシュノードＣ２１のＤＢＭＳ３１２（例えばクエリ実行部３２２）は、割り当てられたキャッシュノードＣ１１のＤＢＭＳ３１２に対して、クエリプランが関連付けられた検索クエリを送信する（ステップ２３０４）。続いて、キャッシュノードＣ２１のＤＢＭＳ３１２（例えばクエリ実行部３２２）は、当該ＤＢＭＳ３１２が管理するデータ管理情報２３０を参照して、当該検索クエリの実行においてアクセスされるデータが自ノードＣ２１のデータベース３５０に一部でも存在するか判定する（ステップ２３０６）。ステップ２３０６の判定結果が真の場合は、キャッシュノードＣ２１のＤＢＭＳ３１２のクエリ実行部３２２が、受信したクエリプランを基にキャッシュノードＣ２１の高速ストレージ３４０におけるデータベース３５０からのデータ検索を実行する（ステップ２３０８）。当該実行完了後、又はステップ２３０６の判定結果が偽の場合、キャッシュノードＣ２１のＤＢＭＳ３１２（例えばクエリ実行部３２２）は、他キャッシュノードで実行している検索クエリの応答を待つ（ステップ２３１０）。

キャッシュノードＣ１１のＤＢＭＳ３１２のクエリ受付部３２０は、クエリプランとクエリ実行の要求をキャッシュノードＣ２１のＤＢＭＳ３１２から受信し（ステップ２４１０）、受信した検索クエリに関連付けられているクエリプランをクエリ実行部３２２に渡す（ステップ２４１２）。クエリ実行部３２２が、受けたクエリプランを基に、キャッシュノードＣ１１の高速ストレージ３４０におけるデータベース３５０からのデータ検索を実行する（ステップ２４１４）。実行完了後は、当該クエリ実行部３２２が、要求元のキャッシュノードＣ２１のＤＢＭＳ３１２に実行結果を送信する（ステップ２４１６）。

キャッシュノードＣ２１のＤＢＭＳ３１２は、ステップ２３１０で他キャッシュノード（ここでは、Ｃ１１）からの応答（実行結果）を待ち、応答受信後は、自ノードＣ２１を含む複数のキャッシュノードでクエリを実行した場合は複数の実行結果のマージを行い、マージされた実行結果を要求元のクライアント１０４のアプリケーション１０６に送信する（ステップ２３１２）。

（９）本実施の形態の効果

以上の本実施の形態によるデータベースシステムは、クラウド１００（複数の計算リソースを含む計算機システムに基づく仮想環境の一例）に設けられた複数のノードにそれぞれ備えられる複数のＤＢＭＳ（データベース管理システム）を備える。複数のＤＢＭＳの各々は、ＤＢＭＳ２１２（第１のＤＢＭＳの一例）とＤＢＭＳ３１２（第２のＤＢＭＳの一例）とのいずれかである。ＤＢＭＳ２１２は、クライアント１０４（クエリソースの一例）から検索クエリを受け付けた場合に当該検索クエリに基づく１つ以上の検索クエリを送信しデータ検索を実行しないＤＢＭＳである。ＤＢＭＳ３１２は、データ検索を実行するＤＢＭＳである。複数のノードは、１つ又は複数のグループ１３０を構成する。各グループ１３０が、マスターノード１２０（第１のノードの一例）と１つ以上のキャッシュノード１２２（１つ以上の第２のノードの一例）とを含む。各グループ１３０において、マスターノード１２０は、ブロックストレージ２４２の領域（第１の記憶領域の一例）を提供しＤＢＭＳ２１２を実行する論理計算機である。キャッシュノード１２２は、高速ストレージ３４０の領域（第２の記憶領域の一例）を提供しＤＢＭＳ３１２を実行する論理計算機である。各グループ１３０について、当該グループ１３０を構成する２つ以上のノードが有する２つ以上のＤＢＭＳが、当該２つ以上のノードが提供する２つ以上の記憶領域に同一のデータベースを格納し、当該グループ１３０内のデータベースからのデータ検索は、当該グループ１３０内の１つ以上のＤＢＭＳ３１２により実行される。グループ１３０毎にマスターノード１２０が存在し、また、データ検索はキャッシュノード１２２により実行されるので、処理の一極集中を回避できる。また、データ検索は、検索対象のデータが存在するグループ１３０におけるデータベースに対して行われるので、分散配置されたデータからのデータ検索することができる。

各グループ１３０において、キャッシュノード１２２は、当該グループ１３０に属する少なくとも１つのキャッシュノード１２２の負荷状況に基づいてスケールして良い。一方、グループ１３０それ自体が、全てのブロックストレージ２４２に格納されたデータベースの総量に基づいてスケールして良い。これにより、負荷状況の変化にもデータ量の増加にも柔軟に対応することができる。

ブロックストレージ２４２の領域は、データの永続性を保証するストレージに基づく記憶領域の一例で良い。このため、例えば同一グループ内の全てのキャッシュノード１２２からデータベース３５０が消失しても、同一グループ内のマスターノード１２０が管理するデータベース２５０を用いて、データベース３５０を復元できる。そして、高速ストレージ３４０の領域は、ブロックストレージ２４２よりも高速なストレージに基づく記憶領域の一例で良い。キャッシュノード１２２によりデータ検索は高速ストレージ２４０に対して行われるため、検索性能の向上が期待できる。

各ＤＢＭＳが、データベースのデータの記憶位置を表すデータ管理情報を管理して良い。所定のＤＢＭＳ２１２が、クライアント１０４から検索クエリを受け付けるようになっていて良い。所定のＤＢＭＳ２１２が、検索クエリを受け付けた場合、当該検索クエリに基づく１つ以上の検索クエリを、当該所定のＤＢＭＳ２１２と同一グループ１３０内の１つ以上のＤＢＭＳ３１２にそれぞれ送信して良い。所定のＤＢＭＳ２１２から検索クエリを受けたＤＢＭＳ３１２が、当該ＤＢＭＳ３１２が管理するデータ管理情報２３０を基に、当該検索クエリに基づきアクセスされるデータの全てが、当該ＤＢＭＳ３１２を実行するキャッシュノード１２２内のデータベース３５０に存在するか否かのデータ位置判定を行って良い。当該データ位置判定の結果が真の場合、当該ＤＢＭＳ３１２が、当該データベース３５０に対してデータ検索を実行して良い。当該データ位置判定の結果が偽の場合、当該ＤＢＭＳ３１２が、アクセスされるデータからのデータ検索のための１つ以上の検索クエリを、当該アクセスされるデータの少なくとも一部が存在する１つ以上のグループ１３０へ送信して良い。このようにして、検索対象のデータがいずれのグループ１３０内のデータベースに存在しても、一つ以上のグループ１３０における一つ以上のデータベースからデータを検索することができる。ＤＢＭＳ３１２は、検索クエリを、別グループ１３０におけるマスターノード１２０に送信しても良いし、別グループ１３０におけるキャッシュノード１２２に送信しても良い（前者の場合、別グループ１３０において、マスターノード１２０からキャッシュノード１２２へ検索クエリが送信されて良い）。

所定のＤＢＭＳ２１２は、最新のグループ１３０内のマスターノード１２０であるカレントのマスターノード１２０内のＤＢＭＳで良い。カレントのマスターノード１２０がクエリソースから検索クエリを受けた際は、同一グループ内のキャッシュノード１２２に検索クエリが送信されて良い。最新のグループ１３０は、最近データがインポートされたグループであるため、最新のグループ１３０のデータベースが検索対象である可能性が高い。本実施形態では、最新のグループ１３０内のマスターノード１２０がカレントのマスターノード１２０であるため、高速なデータ検索（例えば、検索クエリを別グループに送信する可能性が低いデータ検索）が期待される。

カレントマスターノード１２０内のＤＢＭＳ２１２が、データベースのデータの追加要求を受け付けるようになっていて良い。カレントのマスターノード１２０が提供するブロックストレージ２４２の領域の空き領域が不足していることを意味する条件が満たされているとカレントのＤＢＭＳ２１２が判定した場合、グループ１３０が新たに追加されて良い。新たに追加されたグループ１３０内のマスターノード１２０が、上記カレントマスターノード１２０に代わって新たにカレントのマスターノード１２０となって良い。このようにして、データベースシステムの全マスターノード１２０が管理するデータ量の増加に応じて、グループ１３０が追加され、追加された最新のグループ１３０内のマスターノード１２０が、カレントのマスターノードとなる。結果として、データ量に応じてグループ１３０をスケールし高速なデータ検索を維持することが期待される。尚、所定のＤＢＭＳ２１２が受けた追加要求に応答して前記最新のグループ１３０内のデータベースにデータが追加された場合、当該所定のＤＢＭＳ２１２が、当該所定のＤＢＭＳ２１２が管理するデータ管理情報２３０を更新して良い。当該更新と同期的に、当該更新後のデータ管理情報２３０が、カレントのマスターノード１２０以外の各ノードにおけるＤＢＭＳが管理するデータ管理情報２３０に反映されて良い。このようにして、どのマスターノード（どのグループ）にどのデータがあるかを表すデータ管理情報２３０を各ノードにおいて最新の状態に維持することができる。

所定のＤＢＭＳ２１２から少なくとも１つのＤＢＭＳ３１２への検索クエリには、クエリソースを表す情報であるクエリソース情報が関連付けられて良い。クエリソースから発行された検索クエリについて、２つ以上のＤＢＭＳ３１２がそれぞれデータ検索を行った場合、当該２つ以上のＤＢＭＳ３１２がそれぞれ行ったデータ検索の結果をいずれかのＤＢＭＳ３１２がマージしてクエリソース情報が表すクエリソースに返して良い。これにより、マスターノード１２０の負荷集中を避けることができる。

クエリソースから検索クエリを受けた所定のＤＢＭＳ２１２が、当該検索クエリのクエリプランを作成し、当該作成したクエリプランに基づく１つ以上のクエリプランをそれぞれ関連付けた１つ以上の検索クエリを、当該所定のＤＢＭＳ２１２と同一グループ１３０内の１つ以上のＤＢＭＳ３１２にそれぞれ送信してよい。検索クエリを受けたＤＢＭＳ３１２が、当該検索クエリに関連付いているクエリプランに従いデータ検索を行ってよい。このように、カレントマスターノード１２０のＤＢＭＳ２１２が作成したクエリプランを、同一グループを含む一つ以上のグループの各々に展開することで、データ検索を実現することができる。

所定のＤＢＭＳ２１２から検索クエリを受けたＤＢＭＳ３１２が、データ位置判定の結果が偽の場合、当該アクセスされるデータの少なくとも一部が存在する１つ以上のグループ１３０の各々におけるＤＢＭＳ２１２に、当該ＤＢＭＳ２１２と同一グループ１３０内のキャッシュノード１２２を問い合わせて良い。当該１つ以上のグループ１３０の各々について、問合せに応答して、ＤＢＭＳ３１２が、問合せ先のＤＢＭＳ２１２により選択された１つ以上のキャッシュノード１２２を表すキャッシュノード情報を受けて良い。当該１つ以上のグループ１３０の各々について、ＤＢＭＳ３１２が、受けたキャッシュノード情報から特定される１つ以上のキャッシュノード１２２の各々に、当該ＤＢＭＳ３１２が受けた当該検索クエリに基づく１つ以上の検索クエリをそれぞれ送信して良い。これにより、最新グループ以外のグループのマスターノード１２０が検索クエリを最新グループにおけるキャッシュノード１２２から受け、当該マスターノード１２０と同一グループ内のキャッシュノード１２２に検索クエリを送信する必要が無い。つまり、最新グループ以外のグループにおけるマスターノード１２０の負荷を低減できる。

各グループ１３０のマスターノード１２０のＤＢＭＳ２１２は、同一グループ（自グループ）に属するキャッシュノードの稼働状況をモニタして良い。ＤＢＭＳ２１２が、同一グループから稼働状況の低いキャッシュノード１２２を選択し、選択したキャッシュノード１２２に検索クエリを送信して良い。これにより、グループ１３０内での負荷の均一化を図ることが可能となる。

インスタンスの追加又は削除を行うことが容易であるクラウド１００の様な仮想環境の特徴を活かし、稼働状況（負荷）に応じてキャッシュノード１２２がスケールする。例えば、稼働状況が高くなった際はキャッシュノード１２２を追加することでデータ検索への影響を小さくすることが可能となる。また、稼働状況が低くなればキャッシュノード１２２を削除することで、当該キャッシュノード１２２（インスタンス）の稼働に要する消費電力を削減することが可能となる。

（１０）他の実施の形態

上記の実施の形態では、マスターノード１２０にはブロックストレージ２４２と高速ストレージ２４０の両方を記載しているが、高速ストレージ２４０はマスターノードになくても良い。その場合、ブロックストレージ２４２と高速ストレージ２４０のデータベースのデータの同期は必要がなく、またキャッシュノード１２２の高速ストレージ２４０にデータベースのデータとの同期はブロックストレージ２４２と行うことになる。

また、所定のＤＢＭＳ２１２が、クエリソースからの検索クエリを基に２つ以上の検索クエリを生成し、当該２つ以上の検索クエリを、当該所定のＤＢＭＳ２１２と同一グループ１３０内の２つ以上のＤＢＭＳ３１２にそれぞれ送信してよい。すなわち、図２５に例示するように、マスターノード１２０のＤＢＭＳ２１２が、同一グループから複数のキャッシュノード１２２を選択し、選択した複数のキャッシュノード１２２に、クエリソースからの検索クエリを分割した複数の検索クエリをそれぞれ送信しても良い（矢印２５０１）。この場合、複数のキャッシュノード１２２の中で１つのキャッシュノード１２２がメインで残りのキャッシュノード１２２がサブでよい。例えば、サブのキャッシュノードＣ２１が検索クエリを実行してメインのキャッシュノードＣ２１に実行結果２５１１を送信して良い。メインのキャッシュノードＣ２１が、実行結果２５１１と、当該ノードＣ２１での実行結果とをマージした実行結果２５１２を、クエリソースの一例であるアプリケーション１０６に応答して良い。このように、複数のキャッシュノード１２２で分割してデータ検索を実行することで、クエリソースから検索クエリを受けてからクエリソースに応答するまでの時間を短縮することが可能となる。

また、カレントのマスターノード１２０のＤＢＭＳ２１２が、クライアント１０４のアプリケーション１０６から検索クエリを受けた際、当該ＤＢＭＳ２１２がクエリプランを作成するが、それに代えて、例えば図１４において、検索クエリを受けたＤＢＭＳ３１２が、当該検索クエリのクエリプランを作成し、当該作成したクエリプランに従いデータ検索を行って良い。これにより、クエリプランの作成に処理に要する負荷がマスターノードから削減されるので、マスターノードの一極集中を避けることが可能となる。

また、図２６が例示するように、検索クエリを受けたキャッシュノード１２２のＤＢＭＳ３１２が、データ管理情報２３０を用いて、当該検索クエリに従いアクセスされるデータが自ノード１２２が有するデータベースに全く存在しないと判定した場合は、アクセスされるデータを有するキャッシュノードに対して、当該キャッシュノードを含むグループ内のマスターノード経由又は非経由に、検索クエリを送信し、当該検索クエリを受けたキャッシュノードが、検索クエリを実行し、実行結果を含む応答を、要求元のクエリソースに送信しても良い。これにより、クエリ実行に関係のないキャッシュノードの処理負荷を低減することが可能となる。

以上、幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。

例えば、本発明は、データベースシステムを含むデータ処理システム全般に適用可能である。例えば、本発明の一実施形態に係るデータ処理システムを、以下のように表現することができる。

すなわち、データ処理システムは、複数の計算リソースを含む計算機システムに基づく仮想環境に設けられた複数のノードにそれぞれ備えられる複数のデータ処理部を備える。複数のデータ処理部の各々は、第１のデータ処理部と第２のデータ処理部のいずれかである。第１のデータ処理部は、要求ソースからリード要求を受け付けた場合に当該リード要求に基づく１つ以上のリード要求を送信するがリード対象のデータを記憶領域からリードするリード処理を実行しないデータ処理部である。第２のデータ処理部は、リード処理を実行するデータ処理部である。複数のノードは、１つ又は複数のノードグループを構成する。各ノードグループが、第１のノードと１つ以上の第２のノードとを含む。各ノードグループにおいて、第１のノードは、第１の記憶領域を提供し第１のデータ処理部を有する論理計算機である。第２のノードは、第２の記憶領域を提供し第２のデータ処理部を有する論理計算機である。各ノードグループについて、当該ノードグループを構成する２つ以上のノードが有する２つ以上のデータ処理部が、当該２つ以上のノードが提供する２つ以上の記憶領域に同一のデータを格納する。各ノードグループについて、当該ノードグループ内のデータからのリード処理は、当該ノードグループ内の１つ以上の第２のデータ処理部により実行される。データ処理部は、要求を受けた場合、当該要求に従う処理を実行する、及び／又は、当該要求に基づく１つ以上の要求を送信する。データ処理部の一例が、ＤＢＭＳである。リード要求の一例が、検索クエリである。

１００…クラウド、１０２…クラウド管理部、１１０…インスタンス、１２０…マスターノード、１２２…キャッシュノード、１３０…グループ、２００、３００…ＣＰＵ、２１０、３１０…メモリ、２１２、３１２…データベース管理システム（ＤＢＭＳ）、２１４、３１４…ＯＳ、２２０、３２０…クエリ受付部、２２２、３２２…クエリ実行部、２２４、３２４…ノード管理部、２２６…ＤＢ管理情報、２２８…ノード管理情報、２３０…データ管理情報、２３２…キャッシュノード管理情報、２３４、３３４…モニタコマンド、２４０、３４０…高速ストレージ、２４２…ブロックストレージ、２５０、３５０…データベース

Claims

複数の計算リソースを含む計算機システムに基づく仮想環境に設けられた複数のノードにそれぞれ備えられる複数のＤＢＭＳ（データベース管理システム）を備え、
前記複数のＤＢＭＳの各々は、第１のＤＢＭＳと第２のＤＢＭＳのいずれかであり、
第１のＤＢＭＳは、検索クエリを受け付けた場合には当該検索クエリに基づく１つ以上の検索クエリを送信しデータ検索を実行しないＤＢＭＳであり、
第２のＤＢＭＳは、データ検索を実行するＤＢＭＳであり、
前記複数のノードは、１つ又は複数のノードグループを構成し、
各ノードグループが、第１のノードと１つ以上の第２のノードとを含み、
各ノードグループにおいて、
第１のノードは、第１の記憶領域を提供し第１のＤＢＭＳを実行する論理計算機であり、
第２のノードは、第２の記憶領域を提供し第２のＤＢＭＳを実行する論理計算機であり、
当該ノードグループを構成する２つ以上のノードが有する２つ以上のＤＢＭＳが、当該２つ以上のノードが提供する２つ以上の記憶領域に同一のデータベースを格納し、
当該ノードグループ内のデータベースからのデータ検索は、当該ノードグループ内の１つ以上の第２のＤＢＭＳにより実行される、
データベースシステム。
各ノードグループにおいて、第２のノードは、当該ノードグループに属する少なくとも１つの第２のノードの負荷状況に基づいてスケールし、
ノードグループは、全ての第１の記憶領域に格納されたデータベースの総量に基づいてスケールする、
請求項１に記載のデータベースシステム。
第１の記憶領域は、データの永続性を保証する記憶装置に基づく記憶領域であり、
第２の記憶領域は、前記第１の記憶領域の基になっている記憶装置よりも高速な記憶装置に基づく記憶領域である、
請求項１に記載のデータベースシステム。
各ＤＢＭＳが、データベースにおけるデータの記憶位置を表すデータ管理情報を管理し、
所定の第１のＤＢＭＳが、クエリソースから検索クエリを受け付けるようになっており、
前記所定の第１のＤＢＭＳが、検索クエリを受け付けた場合、当該検索クエリに基づく１つ以上の検索クエリを、当該所定の第１のＤＢＭＳと同一ノードグループ内の１つ以上の第２のＤＢＭＳにそれぞれ送信し、
前記所定の第１のＤＢＭＳから検索クエリを受けた第２のＤＢＭＳが、
当該第２のＤＢＭＳが管理するデータ管理情報を基に、当該検索クエリに基づきアクセスされるデータの全てが、当該第２のＤＢＭＳを実行する第２のノードが提供する第２の記憶領域内のデータベースに存在するか否かのデータ位置判定を行い、
当該データ位置判定の結果が真の場合、当該第２のＤＢＭＳを実行する第２のノードが提供する第２の記憶領域内のデータベースに対してデータ検索を実行し、
当該データ位置判定の結果が偽の場合、アクセスされるデータからのデータ検索のための１つ以上の検索クエリを、当該アクセスされるデータの少なくとも一部が存在する１つ以上のノードグループへ送信する、
請求項１に記載のデータベースシステム。
前記所定の第１のＤＢＭＳは、最新のノードグループ内の第１のノードであるカレントの第１のノード内のＤＢＭＳである、
請求項４に記載のデータベースシステム。
前記所定の第１のＤＢＭＳが、データベースのデータの追加要求を受け付けるようになっており、
前記カレントの第１のノードが提供する第１の記憶領域の空き領域が不足していることを意味する条件が満たされていると前記所定の第１のＤＢＭＳが判定した場合、ノードグループが新たに追加され、新たに追加されたノードグループ内の第１のノードが、前記カレントの第１のノードに代わって新たにカレントの第１のノードとなる、
請求項５に記載のデータベースシステム。
前記所定の第１のＤＢＭＳが受けた追加要求に応答して最新のノードグループ内のデータベースにデータが追加された場合、当該所定の第１のＤＢＭＳが、当該所定の第１のＤＢＭＳが管理するデータ管理情報を更新し、当該更新と同期的に、当該更新後のデータ管理情報が、前記カレントの第１のノード以外の各ノードにおけるＤＢＭＳが管理するデータ管理情報に反映される、
請求項６に記載のデータベースシステム。
前記所定の第１のＤＢＭＳから少なくとも１つの第２のＤＢＭＳへの検索クエリには、前記クエリソースを表す情報であるクエリソース情報が関連付けられており、
前記クエリソースから発行された検索クエリについて、２つ以上の第２のＤＢＭＳがそれぞれデータ検索を行った場合、当該２つ以上の第２のＤＢＭＳがそれぞれ行ったデータ検索の結果をいずれかの第２のＤＢＭＳがマージして前記クエリソース情報が表すクエリソースに返す、
請求項４に記載のデータベースシステム。
前記クエリソースから検索クエリを受けた前記所定の第１のＤＢＭＳが、当該検索クエリのクエリプランを作成し、当該作成したクエリプランに基づく１つ以上のクエリプランをそれぞれ関連付けた１つ以上の検索クエリを、当該所定の第１のＤＢＭＳと同一ノードグループ内の１つ以上の第２のＤＢＭＳにそれぞれ送信し、
検索クエリを受けた第２のＤＢＭＳが、当該検索クエリに関連付いているクエリプランに従いデータ検索を行う、
請求項４に記載のデータベースシステム。
検索クエリを受けた第２のＤＢＭＳが、当該検索クエリのクエリプランを作成し、当該作成したクエリプランに従いデータ検索を行う、
請求項４に記載のデータベースシステム。
前記所定の第１のＤＢＭＳが、前記クエリソースからの検索クエリを基に２つ以上の検索クエリを生成し、当該２つ以上の検索クエリを、当該所定の第１のＤＢＭＳと同一ノードグループ内の２つ以上の第２のＤＢＭＳにそれぞれ送信する、
請求項４に記載のデータベースシステム。
前記所定の第１のＤＢＭＳから同一ノードグループ内の第２のＤＢＭＳが受けた検索クエリに従いアクセスされるデータの全てが、当該第２のＤＢＭＳを実行する第２のノードが提供する第２の記憶領域内のデータベースに無い場合、当該第２のＤＢＭＳから検索クエリを受けた別ノードグループ内の第２のＤＢＭＳが、当該検索クエリの実行結果を前記クエリソースに応答する、
請求項４に記載のデータベースシステム。
前記所定の第１のＤＢＭＳから検索クエリを受けた第２のＤＢＭＳが、前記データ位置判定の結果が偽の場合、
当該アクセスされるデータの少なくとも一部が存在する１つ以上のノードグループの各々における第１のＤＢＭＳに、当該第１のＤＢＭＳと同一ノードグループ内の第２のノードを問い合わせ、
当該１つ以上のノードグループの各々について、問合せに応答して、問合せ先の第１のＤＢＭＳにより選択された１つ以上の第２のノードを表す第２ノード情報を受け、
当該１つ以上のノードグループの各々について、受けた第２ノード情報から特定される１つ以上の第２のノードの各々に、当該第２のＤＢＭＳが受けた当該検索クエリに基づく１つ以上の検索クエリをそれぞれ送信する、
請求項４に記載のデータベースシステム。
複数の計算リソースを含む計算機システムに基づく仮想環境に１つ又は複数のノードグループを構築し、
各ノードグループが、第１のノードと１つ以上の第２のノードとを含み、
第１のノードは、第１の記憶領域を提供し第１のＤＢＭＳを実行する論理計算機であり、
第２のノードは、第２の記憶領域を提供し第２のＤＢＭＳを実行する論理計算機であり、
構築されたノードグループにおいて、２つ以上のノードが提供する２つ以上の記憶領域に同一のデータベースを格納し、
クエリソースから第１のＤＢＭＳにより検索クエリを受け付け、
当該第１のＤＢＭＳにより、当該検索クエリに基づく１つ以上の検索クエリを１つ以上の第２のＤＢＭＳに送信し、
各ノードグループについて、当該ノードグループ内のデータベースが検索対象の場合、当該データベースからのデータ検索を、当該ノードグループ内の１つ以上の第２のＤＢＭＳにより実行する、
クエリ実行方法。