JP2019009490A - Network management device and network management method - Google Patents

Network management device and network management method Download PDF

Info

Publication number
JP2019009490A
JP2019009490A JP2017120558A JP2017120558A JP2019009490A JP 2019009490 A JP2019009490 A JP 2019009490A JP 2017120558 A JP2017120558 A JP 2017120558A JP 2017120558 A JP2017120558 A JP 2017120558A JP 2019009490 A JP2019009490 A JP 2019009490A
Authority
JP
Japan
Prior art keywords
failure
network
manager
network element
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017120558A
Other languages
Japanese (ja)
Other versions
JP6778151B2 (en
Inventor
建 可児島
Ken Kanishima
建 可児島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017120558A priority Critical patent/JP6778151B2/en
Publication of JP2019009490A publication Critical patent/JP2019009490A/en
Application granted granted Critical
Publication of JP6778151B2 publication Critical patent/JP6778151B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

To achieve both avoidance of resource contention due to multiple measures against a network failure and quick recovery by autonomous measures.SOLUTION: A network management device M includes an infrastructure manager unit 2 for managing a network element autonomously taking measures against failures and an orchestrator unit 1 taking measures against the failure of the network element. The infrastructure manager unit 2 includes a fault manager 27 for receiving telemetry data including fault event information relating to any of the network elements from the network element and a telemetry database 28 for storing the telemetry data and information on the priority date of the autonomous measures of the network element for the failure. The orchestrator unit 1 refers to the telemetry database 28 and does not trigger measures against the network element relating to the fault until the priority date comes.SELECTED DRAWING: Figure 1

Description

本発明は、ネットワークを管理する技術に関する。特に、ネットワークエレメントやネットワークエレメント・コントローラ、EMS(Element Management System)等による自律的な措置と、オーケストレータによる他律的な措置の競合の調整に関する技術に関する。   The present invention relates to a technique for managing a network. In particular, the present invention relates to a technique related to the adjustment of competition between autonomous measures by a network element, a network element controller, an EMS (Element Management System), etc., and other measures by an orchestrator.

ネットワーク故障や性能トラブルが生じた際、それに対する措置手段として、ネットワークエレメントやネットワークエレメント専用コントローラによる措置が行われていた。また、近年のAI(人工知能)技術の進歩により、オーケストレーションにおいてAI技術を活用した措置も可能となっている。   When a network failure or performance trouble occurs, a measure using a network element or a controller dedicated to the network element is taken as a measure against the trouble. In addition, due to recent progress in AI (artificial intelligence) technology, measures utilizing AI technology in orchestration are also possible.

非特許文献1には、通信ネットワークの従来の障害回復方式の一例が記載されている。この通信ネットワークでの従来の障害回復方式は、1+1プロテクション(1+1 Unidirectional/Bidirectional Protection)、1:1プロテクション(1:1 Protection)、事前予約型リストレーション(Shared Mesh Restoration)、パス再ルーティング(LSP Re-routing)がある。   Non-Patent Document 1 describes an example of a conventional failure recovery method for a communication network. Conventional failure recovery methods in this communication network include 1 + 1 protection (1 + 1 Unidirectional / Bidirectional Protection), 1: 1 protection (1: 1 Protection), pre-reserved restoration (Shared Mesh Restoration), path rerouting (LSP Re -routing).

これらの障害回復方式のうちパス再ルーティング以外の方式は、現用経路に対して事前に予備経路を決定する方式である。そのため、現用経路と予備経路が同時に障害となる多重障害の場合、障害の迂回に失敗する。多重障害が発生した場合は、パス再ルーティングが適用されている場合が多い。   Among these failure recovery methods, methods other than path rerouting are methods for determining a backup route in advance for the working route. For this reason, in the case of a multiple failure in which the working route and the backup route become obstacles at the same time, failure of the failure fails. When multiple failures occur, path rerouting is often applied.

J. Lang, Y. Rekhter, D. Papadimitriou,”RSVP-TE Extensions in Support of End-to-End Generalized Multi-Protocol Label Switching (GMPLS) Recovery”,IETF RFC4872.5章-11章,[online],[平成29年6月6日検索],インターネット<URL:https://tools.ietf.org/html/rfc4872>J. Lang, Y. Rekhter, D. Papadimitriou, “RSVP-TE Extensions in Support of End-to-End Generalized Multi-Protocol Label Switching (GMPLS) Recovery”, IETF RFC 4872.5 chapters-11, [online], [Search June 6, 2017], Internet <URL: https: //tools.ietf.org/html/rfc4872>

ネットワークのリンクに多重障害が同時に発生した場合、障害ごとに自律的に迂回パスを選択すると、リソースの競合が生じる。このリソース競合を回避するため、網全体を集中管理する迂回路選択装置を設けて、この迂回路選択装置により、障害に対する他律的な措置を行わせることが考えられる。   When multiple failures occur simultaneously in a network link, resource competition occurs when an alternative path is selected autonomously for each failure. In order to avoid this resource contention, it is conceivable that a detour selection device that centrally manages the entire network is provided, and this detour selection device performs other measures against the failure.

この迂回路選択装置は、措置の競合を防ぐため、ネットワークエレメントやネットワークエレメント・コントローラによる自律的な措置を行わせない。そのため、多重障害が生じていないケースでも、迂回路選択装置が他律的な措置を行うことになる。このようにした場合、ネットワークのリンクに単一の障害が発生した場合、自律的な措置で期待される迅速さよりも回復が遅れるという課題がある。   In order to prevent conflict of measures, this detour selection device does not allow autonomous measures by the network element or the network element controller. For this reason, even in the case where multiple failures have not occurred, the alternative route selection device takes other measures. In such a case, when a single failure occurs in the link of the network, there is a problem that recovery is delayed from the speed expected by an autonomous measure.

そこで、本発明は、ネットワークの障害に対する複数の措置によるリソース競合の回避と、自律的な措置による迅速な回復とを両立させることを課題とする。   Therefore, an object of the present invention is to achieve both avoidance of resource contention by a plurality of measures against a network failure and quick recovery by autonomous measures.

前記した課題を解決するため、請求項1に記載の発明では、障害に対して自律的に措置するネットワークエレメントを管理するインフラマネージャ部と、前記ネットワークエレメントの障害に対して措置するオーケストレータ部と、を備え、前記インフラマネージャ部は、前記ネットワークエレメントのうちいずれかに係る障害事象情報を含むテレメトリデータを当該ネットワークエレメントから受信する障害マネージャと、当該障害に対する前記ネットワークエレメントの自律的な措置の優先日時の情報と共に、前記テレメトリデータを格納するテレメトリデータベースと、を備え、前記オーケストレータ部は、前記テレメトリデータベースを参照して、前記優先日時まで前記障害に係るネットワークエレメントに対する措置を発動させない、ことを特徴とするネットワーク管理装置とした。   In order to solve the above-described problem, in the invention according to claim 1, an infrastructure manager unit that manages a network element that autonomously takes measures against a failure, and an orchestrator unit that takes measures against the failure of the network element, The infrastructure manager unit includes a failure manager that receives telemetry data including failure event information related to any of the network elements from the network element, and priority of autonomous measures of the network element for the failure. A telemetry database that stores the telemetry data together with date information, and the orchestrator unit refers to the telemetry database and does not activate measures for the network element related to the failure until the priority date and time. And a network management device, characterized in that.

このようにすることで、ネットワーク管理装置は、ネットワークの障害に対する複数の措置によるリソース競合の回避と、自律的な措置による迅速な回復とを両立させることができる。   By doing in this way, the network management apparatus can achieve both avoidance of resource contention due to a plurality of measures against a network failure and quick recovery by autonomous measures.

請求項2に記載の発明では、前記障害マネージャは、前記ネットワークエレメントのうちいずれかに係る前記障害事象情報を含む前記テレメトリデータを解析して、前記障害に係るネットワークエレメントの種別および障害種別を抽出する、ことを特徴とする請求項1に記載のネットワーク管理装置とした。   In the invention according to claim 2, the failure manager analyzes the telemetry data including the failure event information related to any one of the network elements, and extracts a type and a failure type of the network element related to the failure. The network management device according to claim 1, wherein

このようにすることで、ネットワーク管理装置は、障害に応じた措置を指示することができる。   By doing so, the network management device can instruct measures according to the failure.

請求項3に記載の発明では、前記インフラマネージャ部は、前記障害事象情報と、自律的な措置を優先させる優先時間情報との対応を格納した障害時間データベースを備え、前記障害マネージャは、前記障害時間データベースに基づき、当該障害事象情報に対応する優先時間情報を取得する、ことを特徴とする請求項1に記載のネットワーク管理装置とした。   In the invention according to claim 3, the infrastructure manager unit includes a failure time database storing correspondence between the failure event information and priority time information for giving priority to autonomous measures, and the failure manager includes the failure manager 2. The network management device according to claim 1, wherein priority time information corresponding to the failure event information is acquired based on a time database.

このようにすることで、ネットワーク管理装置は、障害が発生した後、この障害に応じた措置の時間だけネットワークエレメントに自律的な措置を行わせることができる。   By doing in this way, the network management apparatus can make a network element perform an autonomous measure only for the time of the measure according to this failure, after a failure generate | occur | produces.

請求項4に記載の発明では、前記オーケストレータ部は、前記障害事象情報から、自律的な措置の実施可否を応答するネットワーク管理ポリシマネージャ、を備えることを特徴とする請求項1に記載のネットワーク管理装置とした。   According to a fourth aspect of the present invention, the orchestrator unit includes a network management policy manager that responds to whether or not an autonomous measure can be implemented based on the failure event information. A management device was used.

このようにすることで、他律的に措置した方がよい障害事象に対して、自律的な措置を行わせず、最初から他律的に措置させることができる。   By doing in this way, it is possible to have other measures taken from the beginning without taking autonomous measures for fault events that should be taken other measures.

請求項5に記載の発明では、障害に対して自律的に措置するネットワークエレメントを管理するインフラマネージャ部と、前記ネットワークエレメントの障害に対して措置するオーケストレータ部と、を備えるネットワーク管理装置が実行するネットワーク管理方法であって、前記インフラマネージャ部の障害マネージャは、前記ネットワークエレメントのうちいずれかに係る障害事象情報を含むテレメトリデータを当該ネットワークエレメントから受信し、テレメトリデータベースに、前記障害に対する自律的な措置の優先日時の情報と共に、前記テレメトリデータを格納し、前記オーケストレータ部は、前記テレメトリデータベースを参照して、前記優先日時まで前記障害に係るネットワークエレメントに対する措置を発動させない、ことを特徴とするネットワーク管理方法とした。   In the invention according to claim 5, a network management apparatus comprising: an infrastructure manager that manages network elements that autonomously take measures against failures; and an orchestrator that takes measures against failures of the network elements is executed. The failure manager of the infrastructure manager unit receives telemetry data including failure event information related to any one of the network elements from the network element, and autonomously responds to the failure in a telemetry database. The telemetry data is stored together with the information on the priority date and time of various measures, and the orchestrator unit refers to the telemetry database and does not activate the measures for the network element related to the failure until the priority date and time. It was used as a network management method characterized.

このようにすることで、ネットワーク管理装置は、ネットワークの障害に対する複数の措置によるリソース競合の回避と、自律的な措置による迅速な回復とを両立させることができる。   By doing in this way, the network management apparatus can achieve both avoidance of resource contention due to a plurality of measures against a network failure and quick recovery by autonomous measures.

請求項6に記載の発明では、前記障害マネージャは、前記ネットワークエレメントのうちいずれかに係る前記障害事象情報を含む前記テレメトリデータを解析して、前記障害に係るネットワークエレメントの種別および障害種別を抽出する、ことを特徴とする請求項5に記載のネットワーク管理方法とした。   In the invention according to claim 6, the failure manager analyzes the telemetry data including the failure event information related to any one of the network elements, and extracts a type and a failure type of the network element related to the failure. The network management method according to claim 5, wherein:

このようにすることで、ネットワーク管理装置は、障害に応じた措置を指示することができる。   By doing so, the network management device can instruct measures according to the failure.

請求項7に記載の発明では、前記インフラマネージャ部は、障害事象情報と自律的な措置を優先させる優先時間情報の対応を格納した障害時間データベースを備えており前記障害マネージャは、前記障害時間データベースに基づき、前記テレメトリデータに含まれる障害事象情報に対応する優先時間情報を取得する、ことを特徴とする請求項5に記載のネットワーク管理方法とした。   In the invention according to claim 7, the infrastructure manager unit includes a failure time database storing correspondence between failure event information and priority time information for giving priority to autonomous measures, and the failure manager includes the failure time database. 6. The network management method according to claim 5, wherein priority time information corresponding to failure event information included in the telemetry data is acquired based on the information.

このようにすることで、ネットワーク管理装置は、障害が発生した後、この障害に応じた措置の時間だけ自律的な措置を行わせることができる。   By doing in this way, after a failure occurs, the network management device can perform an autonomous measure for a time corresponding to the failure.

請求項8に記載の発明では、前記オーケストレータ部のネットワーク管理ポリシマネージャは、前記障害に係るネットワークエレメントの種別および障害種別から、自律的な措置の実施可否を応答する、ことを特徴とする請求項5に記載のネットワーク管理方法とした。   The invention according to claim 8 is characterized in that the network management policy manager of the orchestrator unit responds whether or not an autonomous measure can be implemented from the type of network element and the type of failure related to the failure. The network management method according to item 5 is adopted.

このようにすることで、他律的に措置した方がよい障害事象に対して、自律的な措置を行わせず、最初から他律的に措置させることができる。   By doing in this way, it is possible to have other measures taken from the beginning without taking autonomous measures for fault events that should be taken other measures.

本発明によれば、ネットワークの障害に対する複数の措置によるリソース競合の回避と、自律的な措置による迅速な回復とを両立させることが可能となる。   According to the present invention, it is possible to achieve both avoidance of resource contention by a plurality of measures against a network failure and quick recovery by autonomous measures.

第1の実施形態におけるネットワーク管理装置の機能構成図である。It is a functional block diagram of the network management apparatus in 1st Embodiment. WIMによるテレメトリ受信処理を示すフローチャートである。It is a flowchart which shows the telemetry reception process by WIM. 障害マネージャによるテレメトリ解析処理を示すフローチャートである。It is a flowchart which shows the telemetry analysis process by a failure manager. オーケストレータ部による自律処理優先終了判定処理を示すフローチャートである。It is a flowchart which shows the autonomous process priority completion | finish determination process by an orchestrator part. 障害発生時のシーケンス図である。It is a sequence diagram at the time of failure occurrence. 自律的措置による回復時のシーケンス図である。It is a sequence diagram at the time of recovery | restoration by an autonomous measure. 第2の実施形態におけるネットワーク管理装置の機能構成図である。It is a functional block diagram of the network management apparatus in 2nd Embodiment. 障害マネージャによるテレメトリ解析処理を示すフローチャートである。It is a flowchart which shows the telemetry analysis process by a failure manager. 障害発生時のシーケンス図である。It is a sequence diagram at the time of failure occurrence.

以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
《第1の実施形態》
第1の実施形態では、自律的な措置と、オーケストレータ部による他律的な措置を併存させても、措置実施が競合しないための回避手段を導入する。
自律的な措置と他律的な措置の競合を回避するため、障害を検出したシステムまたは自律的に措置を実施すべきシステムに対して、自律的な措置の時間を確保する。オーケストレータなど他システムが障害事象情報を得ても、自律的な措置の時間の経過後でないと、他律的な措置を発動させない。
第1の実施形態では、障害の種類ごとに自律的な措置の時間(自律措置優先終了時間)が設定される。障害事象情報には、この自律的な措置の時間を障害検出時刻に加算した自律措置の優先終了日時が含まれる。オーケストレータなど他システムは、この障害に対して自律措置の優先終了日時まで他律的な措置を発動させない。
以下、図1から図6を参照しつつ、第1の実施形態について説明する。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
<< First Embodiment >>
In the first embodiment, even if an autonomous measure and an extraordinary measure by the orchestrator unit coexist, an avoidance means is introduced to prevent the measure implementation from competing.
In order to avoid competition between autonomous measures and other measures, secure the time for autonomous measures for the system that detected the failure or the system that should implement the measures autonomously. Even if another system such as an orchestrator obtains fault event information, the other measures are not activated unless the time for autonomous measures has elapsed.
In the first embodiment, an autonomous measure time (autonomous measure priority end time) is set for each type of failure. The failure event information includes the priority end date and time of the autonomous measure obtained by adding the time of this autonomous measure to the failure detection time. Other systems, such as an orchestrator, do not activate other measures for this failure until the priority end date of the autonomous measures.
Hereinafter, the first embodiment will be described with reference to FIGS. 1 to 6.

図1は、第1の実施形態におけるネットワーク管理装置Mの機能構成図である。
第1の実施形態のネットワーク管理装置Mは、仮想化領域となるコア網5および非仮想化領域となるアクセス網4を管理する。具体的には、ネットワーク管理装置Mは、コア網5に配置されている機器およびアクセス網4に配置されている機器からさまざまな情報を収集することで、これらの機器を監視する。通信システムは、コア網5に配置されている機器およびアクセス網4に配置されている機器によって構成される。
ネットワーク管理装置Mは、オーケストレータ部1およびインフラマネージャ部2を備える。
FIG. 1 is a functional configuration diagram of the network management apparatus M according to the first embodiment.
The network management apparatus M according to the first embodiment manages the core network 5 that is a virtualized area and the access network 4 that is a non-virtualized area. Specifically, the network management device M monitors these devices by collecting various information from the devices arranged in the core network 5 and the devices arranged in the access network 4. The communication system is composed of devices arranged in the core network 5 and devices arranged in the access network 4.
The network management device M includes an orchestrator unit 1 and an infrastructure manager unit 2.

《インフラマネージャ部2の詳細》
インフラマネージャ部2は、WIM33と、SDNマネージャ26と、テレメトリデータベース28と、インベントリデータベース29とを備える。SDNマネージャ26は、障害マネージャ27をを備えている。障害マネージャ27は、障害時間データベース271を備えている。なお図面ではデータベースのことを、“DB”と記載している場合がある。
<< Details of Infrastructure Manager 2 >>
The infrastructure manager unit 2 includes a WIM 33, an SDN manager 26, a telemetry database 28, and an inventory database 29. The SDN manager 26 includes a failure manager 27. The failure manager 27 includes a failure time database 271. In the drawings, the database may be described as “DB”.

WIM33(WAN(Wide Area Network) Infrastructure Manager)は、コア網5を管理し、制御する。WIM33は、コア網5に含まれるネットワークエレメントからテレメトリデータを取得し、ネットワークエレメントの障害を検出すると障害マネージャ27に送信する。   A WIM 33 (WAN (Wide Area Network) Infrastructure Manager) manages and controls the core network 5. The WIM 33 acquires telemetry data from the network elements included in the core network 5, and transmits the telemetry data to the failure manager 27 when a failure of the network element is detected.

SDN(Software Defined Networking)マネージャ26は、ソフトウェアによって具現化された仮想的なネットワークを管理するものであり、障害マネージャ27を備えている。障害マネージャ27は、WIM33から障害データを受信すると、この障害データを解析して、障害種別とネットワークエレメント種別を抽出する。ここで障害データとは、障害事象情報を含むテレメトリデータである。   An SDN (Software Defined Networking) manager 26 manages a virtual network embodied by software, and includes a failure manager 27. When receiving the failure data from the WIM 33, the failure manager 27 analyzes the failure data and extracts the failure type and the network element type. Here, the failure data is telemetry data including failure event information.

更に障害マネージャ27は、この障害に係る自律措置の優先時間を設定し、テレメトリデータベース28に自律措置の優先を終了する日時を格納する。
障害時間データベース271は、障害種別およびネットワークエレメント種別と、この障害に係る自律措置優先時間との関係を記憶したデータベースである。
Further, the failure manager 27 sets the priority time of the autonomous measure related to this failure, and stores the date and time when the priority of the autonomous measure ends in the telemetry database 28.
The failure time database 271 is a database that stores the relationship between the failure type and network element type and the autonomous measure priority time related to this failure.

テレメトリデータベース28は、ネットワークエレメント種別と、障害種別と、自律措置の優先終了日時と、回復/未回復の情報との組合せを格納するデータベースである。なお、ネットワークエレメント種別と障害種別は、テレメトリデータを分析したものである。ネットワークリソース・オーケストレータ13は、このテレメトリデータベース28を参照することにより、他律的な措置を実施するか否かを判断可能である。
インベントリデータベース29は、例えばアクセス網4やコア網5の状態情報を格納するデータベースである。
The telemetry database 28 is a database that stores a combination of a network element type, a failure type, a priority end date and time of autonomous measures, and recovered / unrecovered information. The network element type and the failure type are obtained by analyzing telemetry data. The network resource orchestrator 13 can determine whether or not to implement other measures by referring to the telemetry database 28.
The inventory database 29 is a database that stores status information of the access network 4 and the core network 5, for example.

更にインフラマネージャ部2は、通信システムを構成しているIAサーバ、コアルータ54、SDN−L2スイッチ51、PON41、L2スイッチ42、L3スイッチ43などの機器を管理する。これらIAサーバ、コアルータ54、SDN−L2スイッチ51、PON41、L2スイッチ42、L3スイッチ43などは、障害に対して自律的に措置するネットワークエレメントを含んでいる。
更にインフラマネージャ部2は、コア網5を制御するためVNFM21、VIM22などを備え、OSS25により上位装置Uと接続される。インフラマネージャ部2は、アクセス網4を制御するため、不図示のNMS(Network Management System)やEMS(Element Management System)などを備える。
Further, the infrastructure manager unit 2 manages devices such as the IA server, the core router 54, the SDN-L2 switch 51, the PON 41, the L2 switch 42, and the L3 switch 43 that constitute the communication system. These IA server, core router 54, SDN-L2 switch 51, PON 41, L2 switch 42, L3 switch 43, and the like include network elements that autonomously take measures against a failure.
Further, the infrastructure manager unit 2 includes a VNFM 21 and a VIM 22 for controlling the core network 5, and is connected to the upper apparatus U by the OSS 25. The infrastructure manager unit 2 includes an NMS (Network Management System), an EMS (Element Management System), and the like (not shown) for controlling the access network 4.

VNFM(Virtual Network Function Manager:仮想ネットワーク機能管理)21は、IAサーバに生成された仮想マシンに実装されているアプリケーションを管理し、制御する。VNFM21により、仮想マシンに実装されているアプリケーションの障害に対して自律的に措置することができる。
VIM(Virtual Infrastructure Manager:仮想インフラ管理)22は、IAサーバに生成された仮想マシンを管理し、制御する。VIM22により、仮想マシンの障害に対して自律的に措置することができる。
OSS(Open Source Software)25は、上位装置Uからの要求に応じて、インフラマネージャ部2を動作させるミドルウェアである。OSS25は、いわゆるオープンソース・ソフトウェアである。
A VNFM (Virtual Network Function Manager) 21 manages and controls applications installed in a virtual machine generated in the IA server. The VNFM 21 can autonomously take measures against a failure of an application installed in a virtual machine.
A VIM (Virtual Infrastructure Manager) 22 manages and controls the virtual machine generated in the IA server. The VIM 22 can autonomously take measures against a failure of the virtual machine.
The OSS (Open Source Software) 25 is middleware that operates the infrastructure manager unit 2 in response to a request from the host apparatus U. The OSS 25 is so-called open source software.

《オーケストレータ部1の詳細》
オーケストレータ部1は、コア網5およびアクセス網4に亘って構築される通信システムに対して、ハードウェア、ミドルウェア、アプリケーション、サービスの配備、設定、管理を行う。更にオーケストレータ部1は、コア網5やアクセス網4を構成するネットワークエレメントの障害に対して、他律的に措置する。オーケストレータ部1は、オペレータが操作する上位装置Uからネットワークサービス生成要求などの要求を取得する。オーケストレータ部1は、E2Eオーケストレータ11と、サーバリソース・オーケストレータ12と、ネットワークリソース・オーケストレータ13とを備える。
<< Details of Orchestrator 1 >>
The orchestrator unit 1 performs deployment, setting, and management of hardware, middleware, applications, and services for a communication system constructed across the core network 5 and the access network 4. Further, the orchestrator unit 1 takes other measures against failures of network elements constituting the core network 5 and the access network 4. The orchestrator unit 1 obtains a request such as a network service generation request from the host apparatus U operated by the operator. The orchestrator unit 1 includes an E2E orchestrator 11, a server resource orchestrator 12, and a network resource orchestrator 13.

E2Eオーケストレータ11は、ユーザに提供されるネットワークサービスを自律的に管理する。
サーバリソース・オーケストレータ12は、コア網5に配置されているIAサーバのリソース、および、IAサーバ上に生成されている仮想マシンのリソースを自律的に管理する。
ネットワークリソース・オーケストレータ13は、コア網5のリソースおよびアクセス網4のリソースを自律的に管理する。ネットワークリソース・オーケストレータ13は、他律的な措置を実行する装置である。
The E2E orchestrator 11 autonomously manages network services provided to users.
The server resource orchestrator 12 autonomously manages IA server resources arranged in the core network 5 and virtual machine resources generated on the IA server.
The network resource orchestrator 13 autonomously manages the resources of the core network 5 and the resources of the access network 4. The network resource orchestrator 13 is a device that executes other measures.

《コア網5の詳細》
コア網5には、コアルータ54a,54b、パケット交換システム53a,53b、SDN−L2スイッチ51a,51b、IAサーバが配置されているが、これらに限定されない。これらコアルータ54a,54b、パケット交換システム53a,53b、SDN−L2スイッチ51a,51bなどは、障害に対して自律的に措置するネットワークエレメントである。
なお、図面ではスイッチのことを“SW”と記載している場合がある。また、コア網5に配置されているコアルータ54a,54b、パケット交換システム53a,53b、SDN−L2スイッチ51a,51b、IAサーバなどを、ネットワークエレメントと記載している場合がある。
<< Details of Core Network 5 >>
The core network 5 includes core routers 54a and 54b, packet switching systems 53a and 53b, SDN-L2 switches 51a and 51b, and an IA server, but is not limited thereto. The core routers 54a and 54b, the packet switching systems 53a and 53b, the SDN-L2 switches 51a and 51b, and the like are network elements that autonomously take measures against a failure.
In the drawings, the switch may be described as “SW”. In addition, the core routers 54a and 54b, the packet switching systems 53a and 53b, the SDN-L2 switches 51a and 51b, the IA server, and the like arranged in the core network 5 may be described as network elements.

コアルータ54a,54bは、コア網5を経由するパケットの転送装置である。以下、コアルータ54a,54bを特に区別しないときには、単にコアルータ54と記載する。
パケット交換システム(PTS:Packet Transport System)53a,53bは、コア網5を経由するパケットを交換するためのシステムである。図面では、パケット交換システム53a,53bのことを“PTS”と記載している。またパケット交換システム53a,53bを特に区別しないときには、単にパケット交換システム53と記載する。
The core routers 54 a and 54 b are packet transfer devices that pass through the core network 5. Hereinafter, when the core routers 54a and 54b are not particularly distinguished, they are simply referred to as the core router 54.
Packet switching systems (PTS: Packet Transport System) 53 a and 53 b are systems for exchanging packets passing through the core network 5. In the drawing, the packet switching systems 53a and 53b are described as “PTS”. Further, when the packet switching systems 53a and 53b are not particularly distinguished, they are simply referred to as the packet switching system 53.

SDN−L2スイッチ(Software Defined Networking Layer2 Switch)51a,51bは、コア網5を経由するパケットを転送するSDN対応型の転送装置である。SDN−L2スイッチ51a,51bは、コア網5にてパケットが転送されるパスのEP(End Point:エンドポイント、端点)となる。以下、SDN−L2スイッチ51a,51bを特に区別しないときには、単にSDN−L2スイッチ51と記載する。   SDN-L2 switches (Software Defined Networking Layer 2 Switches) 51 a and 51 b are SDN-compatible transfer devices that transfer packets passing through the core network 5. The SDN-L2 switches 51 a and 51 b serve as EPs (End Points) of paths through which packets are transferred in the core network 5. Hereinafter, when the SDN-L2 switches 51a and 51b are not particularly distinguished, they are simply referred to as the SDN-L2 switch 51.

IA(Intel(登録商標) Architecture)サーバは、汎用のサーバである。このIAサーバは、周知の仮想化技術によって1または複数の仮想マシン(VM:Virtual Machine)を生成することができる。仮想マシンは更に、1つのアプリケーション(APL:Application)を配置することができる。仮想マシン上のアプリケーションを動作させることで、仮想マシンは、所定のネットワークサービスをユーザに提供することができる。アプリケーションは、VNF(Virtual Network Function:仮想ネットワーク機能)や、VNFC(VNF component)と呼ばれる場合がある。   An IA (Intel (registered trademark) Architecture) server is a general-purpose server. This IA server can generate one or a plurality of virtual machines (VMs) by a well-known virtualization technique. The virtual machine can further arrange one application (APL). By operating the application on the virtual machine, the virtual machine can provide a predetermined network service to the user. The application may be referred to as VNF (Virtual Network Function) or VNFC (VNF component).

IAサーバは、データセンタ52a,52b(DC:Data Center)に設置されている。以下、データセンタ52a,52bを特に区別しないときには、単にデータセンタ52と記載する。
各データセンタ52は、1または複数のIAサーバを保有している。データセンタ52は、IAサーバ群とみなすことができる。データセンタ52は、他のデータセンタ52と接続するためのゲートウェイスイッチを備えるが、ここではゲートウェイスイッチに関する説明を省略する。
The IA server is installed in data centers 52a and 52b (DC: Data Center). Hereinafter, when the data centers 52a and 52b are not particularly distinguished, they are simply referred to as the data center 52.
Each data center 52 has one or more IA servers. The data center 52 can be regarded as an IA server group. The data center 52 includes a gateway switch for connecting to another data center 52, but the description regarding the gateway switch is omitted here.

《データセンタ52の詳細》
データセンタ52は、他の仮想環境の影響を受けることのない独立した1または複数のスライスを生成することができる。スライスは、既存のネットワークの一部を仮想化したネットワークであり、データセンタ52に対して生成したスライスを「DCスライス(汎用サーバ用スライス)」と呼ぶ。データセンタ52は、複数のDCスライスを生成することができる。DCスライスは、自身のDCスライス内の仮想マシン間の通信を行うことができる。DCスライスは、同じデータセンタ52内での他のDCスライスとの通信や、他のデータセンタ52内のDCスライスとの通信を行うこともできる。
<< Details of Data Center 52 >>
The data center 52 can generate one or more independent slices that are not affected by other virtual environments. A slice is a network obtained by virtualizing a part of an existing network, and a slice generated for the data center 52 is called a “DC slice (general-purpose server slice)”. The data center 52 can generate a plurality of DC slices. A DC slice can communicate between virtual machines in its own DC slice. The DC slice can also communicate with other DC slices in the same data center 52 or communicate with DC slices in other data centers 52.

《アクセス網4の詳細》
アクセス網4には、PON41、L2スイッチ42、L3スイッチ43が配置されている。これらPON41、L2スイッチ42、L3スイッチ43などは、障害に対して自律的に措置するネットワークエレメントである。なお、アクセス網4に配置される機器は、これらに限定されない。
PON(Passive Optical Network)41は、複数のユーザ宅へ光ファイバなどの通信用インフラを導入する機器である。なお、PON41の例としては、OLT(Optical Line Terminal:光回線終端装置)がある。
L2スイッチ(Layer2 Switch)42は、アクセス網4を経由するパケットを、OSI(Open Systems Interconnection)参照モデルの第2階層上で制御する転送装置である。
L3スイッチ(Layer3 Switch)43は、アクセス網4を経由するパケットを、OSI参照モデルの第3階層上で制御する転送装置である。
<< Details of Access Network 4 >>
In the access network 4, a PON 41, an L2 switch 42, and an L3 switch 43 are arranged. These PON 41, L2 switch 42, L3 switch 43, and the like are network elements that autonomously take measures against a failure. The devices arranged in the access network 4 are not limited to these.
A PON (Passive Optical Network) 41 is a device that introduces a communication infrastructure such as an optical fiber into a plurality of user homes. An example of the PON 41 is an OLT (Optical Line Terminal).
The L2 switch (Layer2 Switch) 42 is a transfer device that controls a packet passing through the access network 4 on the second layer of an OSI (Open Systems Interconnection) reference model.
The L3 switch (Layer 3 Switch) 43 is a transfer device that controls packets passing through the access network 4 on the third layer of the OSI reference model.

図2は、WIM33によるテレメトリ受信処理を示すフローチャートである。
WIM33が、ネットワークエレメントからテレメトリデータを受信すると(ステップS10)、図2の処理が開始する。WIM33は、このテレメトリデータから障害事象を検出したか否かを判断する(ステップS11)。WIM33は、テレメトリデータから障害事象を検出したならば(Yes)、このテレメトリデータを障害マネージャ27に送信して、図2の処理を終了する。以下、このテレメトリデータは、障害マネージャ27によって処理される。
WIM33は、テレメトリデータから障害事象を検出しなかったならば(No)、図2の処理を終了する。
FIG. 2 is a flowchart showing telemetry reception processing by the WIM 33.
When the WIM 33 receives telemetry data from the network element (step S10), the process of FIG. 2 starts. The WIM 33 determines whether or not a failure event has been detected from the telemetry data (step S11). If the WIM 33 detects a failure event from the telemetry data (Yes), the WIM 33 transmits the telemetry data to the failure manager 27 and ends the processing of FIG. Hereinafter, this telemetry data is processed by the failure manager 27.
If the WIM 33 does not detect a failure event from the telemetry data (No), the process of FIG. 2 ends.

図3は、障害マネージャ27によるテレメトリ解析処理を示すフローチャートである。
障害マネージャ27は、WIM33から障害データを受信すると(ステップS20)、図3の処理を開始する。障害マネージャ27は、受信した障害データを解析し(ステップS21)、この障害に係るネットワークエレメント種別と、障害種別を判定する。
障害マネージャ27は、障害データを解析したネットワークエレメント種別と障害種別から自律措置優先時間を取得する(ステップS22)。障害マネージャ27は更に、障害検出日時に自律措置優先時間を加算して、自律措置優先終了日時を算出する(ステップS23)。障害マネージャ27は、障害データおよびその解析結果、自律措置優先終了日時、未回復の情報をテレメトリデータベース28に格納する(ステップS24)。
障害マネージャ27は、WIM33を介してネットワークエレメントに対して措置実行を指示する(ステップS25)。
FIG. 3 is a flowchart showing telemetry analysis processing by the failure manager 27.
When the failure manager 27 receives the failure data from the WIM 33 (step S20), the failure manager 27 starts the process of FIG. The failure manager 27 analyzes the received failure data (step S21), and determines the network element type and the failure type related to this failure.
The failure manager 27 acquires the autonomous measure priority time from the network element type and the failure type analyzed from the failure data (step S22). The failure manager 27 further calculates the autonomous measure priority end date by adding the autonomous measure priority time to the failure detection date and time (step S23). The failure manager 27 stores the failure data, the analysis result, the autonomous measure priority end date and time, and the unrecovered information in the telemetry database 28 (step S24).
The failure manager 27 instructs the network element to execute a measure via the WIM 33 (step S25).

障害マネージャ27は、現在の日時が自律措置優先終了日時以降であるか否かを判定する(ステップS26)。障害マネージャ27は、現在の日時が自律措置優先終了日時以降ならば(Yes)、WIM33を介してネットワークエレメントに対して措置中断を指示して(ステップS29)、図3の処理を終了する。   The failure manager 27 determines whether or not the current date and time is after the autonomous measure priority end date and time (step S26). If the current date and time is after the autonomous measure priority end date and time (Yes), the fault manager 27 instructs the network element to interrupt the measure via the WIM 33 (step S29), and ends the processing of FIG.

障害マネージャ27は、現在の日時が自律措置優先終了日時よりも前ならば(No)、このネットワークエレメントから回復した旨のテレメトリデータを受信したか否かを判定する(ステップS27)。障害マネージャ27は、このネットワークエレメントが回復していないと判定したならば(No)、ステップS26の処理に戻って判定を繰り返す。障害マネージャ27は、このネットワークエレメントが回復したと判定したならば(Yes)、テレメトリデータベース28を更新して回復済を登録し(ステップS28)、図3の処理を終了する。   If the current date and time is before the autonomous measure priority end date and time (No), the failure manager 27 determines whether or not telemetry data indicating that the network element has been recovered has been received (step S27). If the failure manager 27 determines that the network element has not recovered (No), the failure manager 27 returns to the process of step S26 and repeats the determination. If the failure manager 27 determines that the network element has been recovered (Yes), the failure manager 27 updates the telemetry database 28 to register the recovered state (step S28), and ends the processing of FIG.

図4は、オーケストレータ部1による自律処理優先終了判定処理を示すフローチャートである。
オーケストレータ部1は、テレメトリデータベース28から自律措置優先終了日時と回復済/未回復の情報を参照し(ステップS30)、ネットワークエレメントが回復済みであるか否かを判定する(ステップS31)。オーケストレータ部1は、ネットワークエレメントが回復済みならば(Yes)、図4の処理を終了する。
FIG. 4 is a flowchart showing the autonomous process priority termination determination process by the orchestrator unit 1.
The orchestrator unit 1 refers to the autonomous measure priority end date / time and the recovered / unrecovered information from the telemetry database 28 (step S30), and determines whether or not the network element has been recovered (step S31). If the network element has been recovered (Yes), the orchestrator unit 1 ends the process of FIG.

オーケストレータ部1は、ネットワークエレメントが回復済みでないならば(No)、現在の日時が自律措置優先終了日時以降であるか否かを判定する(ステップS32)。オーケストレータ部1は、現在の日時が自律措置優先終了日時よりも前ならば(No)、ステップS30の処理に戻る。
オーケストレータ部1は、現在の日時が自律措置優先終了日時以降ならば(Yes)、当該ネットワークエレメントへの措置を発動し(ステップS33)、図4の処理を終了する。
If the network element has not been recovered (No), the orchestrator unit 1 determines whether or not the current date and time is after the autonomous measure priority end date and time (step S32). The orchestrator unit 1 returns to the process of step S30 if the current date and time is before the autonomous measure priority end date and time (No).
If the current date and time is after the autonomous measure priority end date and time (Yes), the orchestrator unit 1 activates the measure for the network element (step S33) and ends the processing of FIG.

図5は、障害発生時のシーケンス図である。
ネットワークエレメント56は、障害事象情報を含むテレメトリデータをWIM33に送信する(ステップS40)。WIM33は、このテレメトリデータに基づいて障害事象を検出し(ステップS41)、このテレメトリデータを障害マネージャ27に送信する(ステップS42)。
障害マネージャ27は、WIM33からテレメトリデータを受信すると、このテレメトリデータを解析して(ステップS43)、ネットワークエレメント種別の情報と障害種別の情報を抽出する。障害マネージャ27は、障害時間データベース271を参照して(ステップS44)、ネットワークエレメント種別の情報および障害種別の情報の組合せに対応する自律措置の優先時間を取得する(ステップS45)。
障害マネージャ27は、自律措置の優先時間を障害検出時刻に加算して、自律措置の優先終了日時を算出し(ステップS46)、テレメトリデータと未回復の情報とあわせてテレメトリデータベース28に格納する。
FIG. 5 is a sequence diagram when a failure occurs.
The network element 56 transmits telemetry data including failure event information to the WIM 33 (step S40). The WIM 33 detects a failure event based on this telemetry data (step S41), and transmits this telemetry data to the failure manager 27 (step S42).
When the failure manager 27 receives telemetry data from the WIM 33, the failure manager 27 analyzes the telemetry data (step S43), and extracts information on the network element type and information on the failure type. The failure manager 27 refers to the failure time database 271 (step S44), and acquires the priority time of the autonomous measure corresponding to the combination of the network element type information and the failure type information (step S45).
The failure manager 27 adds the priority time of the autonomous measure to the failure detection time, calculates the priority end date and time of the autonomous measure (step S46), and stores it in the telemetry database 28 together with the telemetry data and the unrecovered information.

オーケストレータ部1は、テレメトリデータベース28に対して、テレメトリデータなどを要求する(ステップS50)。ここで要求する情報は、テレメトリデータに加えて、自律措置の優先終了日時と回復/未回復の情報である。テレメトリデータベース28は、その応答として、テレメトリデータと、自律措置の優先終了日時と、未回復である旨をオーケストレータ部1に送信する(ステップS51)。
このようにすることで、ネットワーク管理装置Mは、テレメトリデータベース28を介して自律的な措置と他律的な措置とを調停している。これにより、ネットワーク管理装置Mは、ネットワークの障害に対する複数の措置によるリソース競合を回避し、更に自律的な措置による迅速な回復を行わせることができる。
The orchestrator unit 1 requests telemetry data and the like from the telemetry database 28 (step S50). The information requested here includes the priority end date and time of the autonomous measure and the recovered / unrecovered information in addition to the telemetry data. As a response, the telemetry database 28 transmits the telemetry data, the priority end date / time of the autonomous measure, and the fact that it has not been recovered to the orchestrator unit 1 (step S51).
By doing so, the network management apparatus M mediates between autonomous measures and other measures through the telemetry database 28. As a result, the network management apparatus M can avoid resource contention due to a plurality of measures against a network failure, and can perform a quick recovery by an autonomous measure.

図6は、自律的措置による回復時のシーケンス図である。
障害マネージャ27は、WIM33に対してネットワークエレメント56の措置を指示する(ステップS60)。WIM33は、この措置の指示を受信すると、ネットワークエレメント56に対して措置を実行する(ステップS61)。
FIG. 6 is a sequence diagram at the time of recovery by autonomous measures.
The failure manager 27 instructs the WIM 33 to take measures for the network element 56 (step S60). When the WIM 33 receives the instruction for this measure, the WIM 33 executes the measure for the network element 56 (step S61).

ネットワークエレメント56が措置によって回復すると、WIM33に対して応答する(ステップS62)。WIM33は、この応答を障害マネージャ27に中継する(ステップS63)。障害マネージャ27は、テレメトリデータベース28に対して、このネットワークエレメント56の回復を送信する(ステップS64)。テレメトリデータベース28は、このネットワークエレメント56が回復した旨を格納する。   When the network element 56 is recovered by the measure, it responds to the WIM 33 (step S62). The WIM 33 relays this response to the failure manager 27 (step S63). The failure manager 27 transmits the recovery of the network element 56 to the telemetry database 28 (step S64). The telemetry database 28 stores information that the network element 56 has been recovered.

オーケストレータ部1は、テレメトリデータベース28に対して、テレメトリデータなどを要求する(ステップS70)。ここで要求する情報は、テレメトリデータに加えて、自律措置の優先終了日時と回復/未回復の情報である。テレメトリデータベース28は、その応答として、テレメトリデータと、自律措置の優先終了日時と、未回復である旨をオーケストレータ部1に送信する(ステップS71)。
このようにすることで、テレメトリデータベース28を介して自律的な措置と他律的な措置とを調停しているので、ネットワークの障害に対する他律的な措置によるリソース競合の回避と、自律的な措置による迅速な回復とを両立させることができる。
第1の実施形態のネットワーク管理装置Mは、障害が発生したのちの所定時間に亘り、自律的な措置の実施を許容している。これにより同一障害に対する複数の措置の競合を回避できる。
The orchestrator unit 1 requests telemetry data and the like from the telemetry database 28 (step S70). The information requested here includes the priority end date and time of the autonomous measure and the recovered / unrecovered information in addition to the telemetry data. As a response, the telemetry database 28 transmits the telemetry data, the priority end date / time of the autonomous measure, and the fact that it has not been recovered to the orchestrator unit 1 (step S71).
In this way, since autonomous measures and other measures are arbitrated via the telemetry database 28, avoidance of resource contention due to other measures against network failure and autonomous It is possible to achieve both quick recovery by measures.
The network management apparatus M according to the first embodiment allows the implementation of autonomous measures for a predetermined time after a failure occurs. As a result, it is possible to avoid contention between multiple measures for the same failure.

《第2の実施形態》
以下、図7から図9を参照しつつ、第2の実施形態について説明する。
図7は、第2の実施形態におけるネットワーク管理装置Mの機能構成図である。
第2の実施形態のネットワーク管理装置Mは、第1の実施形態とは異なり、オーケストレータ部1がネットワーク管理ポリシマネージャ14を含んでいる。第2の実施形態のネットワーク管理装置Mは更に、ネットワークエレメント種別と障害種別に対応した自律的措置の実施可否の設定が蓄積された設定値蓄積部15を含んでいる。なお、設定値蓄積部15は、オーケストレータ部1以外に含まれてもよく、または独立した装置やシステムでも構わない。
障害を検出したネットワークエレメントまたは自律的に措置を実施するシステムでは、この障害に対して自律的に措置してよいか否かを、ネットワーク管理ポリシマネージャ14に照会する。これより、ネットワークのリンクに多重障害が同時に発生した場合などに、網全体を管理する装置に他律的に措置を実行させることができ、リソースの競合を抑止することができる。
他律的に措置した方がよい障害とは、例えば輻輳、激甚災害、大規模停電などのようにネットワークのリンクに多重障害が同時に発生した場合である。
<< Second Embodiment >>
Hereinafter, the second embodiment will be described with reference to FIGS. 7 to 9.
FIG. 7 is a functional configuration diagram of the network management apparatus M according to the second embodiment.
Unlike the first embodiment, the orchestrator unit 1 includes a network management policy manager 14 in the network management device M of the second embodiment. The network management apparatus M of the second embodiment further includes a setting value storage unit 15 in which settings for whether or not to implement autonomous measures corresponding to the network element type and the failure type are stored. The set value storage unit 15 may be included in addition to the orchestrator unit 1 or may be an independent device or system.
In the network element that has detected the failure or the system that autonomously implements the measure, the network management policy manager 14 is inquired as to whether or not the measure may be taken autonomously with respect to the failure. As a result, when multiple failures occur simultaneously in the link of the network, it is possible to cause the device managing the entire network to take other measures and to suppress resource contention.
Failures that should be dealt with in other ways are cases where multiple failures occur simultaneously on the network link, such as congestion, catastrophic disasters, and large-scale power outages.

図8は、障害マネージャ27によるテレメトリ解析処理を示すフローチャートである。
ステップS80,S81の処理は、図3に示したステップS20,S21の処理と同様である。
ステップS81の処理が終了すると、障害マネージャ27は、障害データを解析したネットワークエレメント種別と障害種別に基づき、ネットワーク管理ポリシマネージャ14に対して自律措置の実施可否を問い合わせる(ステップS82)。
FIG. 8 is a flowchart showing telemetry analysis processing by the failure manager 27.
The processes in steps S80 and S81 are the same as the processes in steps S20 and S21 shown in FIG.
When the process of step S81 is completed, the failure manager 27 inquires of the network management policy manager 14 whether or not the autonomous measure can be performed based on the network element type and the failure type analyzed from the failure data (step S82).

障害マネージャ27は、ネットワーク管理ポリシマネージャ14からの応答が、自律措置の実施可能であったならば(Yes)、ステップS84の処理に進む。ステップS84〜S91の処理は、図3に示したステップS22〜S29の処理と同様である。
障害マネージャ27は、ネットワーク管理ポリシマネージャ14からの応答が自律措置の実施可能でなかったならば(No)、障害のテレメトリデータと未回復の情報とをテレメトリデータベース28に格納し(ステップS92)、図8の処理を終了する。
このとき、障害マネージャ27は、自律的な措置の実行を指示せず、かつ自律措置優先終了日時は格納しないので、オーケストレータ部1は、他律的な措置をすぐさま実行することができる。
If the response from the network management policy manager 14 indicates that the autonomous measure can be implemented (Yes), the failure manager 27 proceeds to the process of step S84. The process of steps S84 to S91 is the same as the process of steps S22 to S29 shown in FIG.
If the response from the network management policy manager 14 cannot execute the autonomous measure (No), the failure manager 27 stores the telemetry data of the failure and the unrecovered information in the telemetry database 28 (step S92). The process of FIG. 8 is terminated.
At this time, the failure manager 27 does not instruct execution of autonomous measures and does not store the autonomous measure priority end date and time, so the orchestrator unit 1 can immediately execute other measures.

図9は、障害発生時のシーケンス図である。
ネットワークエレメント56は、障害事象情報を含むテレメトリデータをWIM33に送信する(ステップS100)。WIM33は、このテレメトリデータに基づいて障害事象を検出し(ステップS101)、このテレメトリデータを障害マネージャ27に送信する(ステップS102)。
FIG. 9 is a sequence diagram when a failure occurs.
The network element 56 transmits telemetry data including failure event information to the WIM 33 (step S100). The WIM 33 detects a failure event based on this telemetry data (step S101), and transmits this telemetry data to the failure manager 27 (step S102).

障害マネージャ27は、WIM33からテレメトリデータを受信すると、このテレメトリデータを解析して(ステップS103)、ネットワークエレメント種別の情報と障害種別の情報を抽出する。障害マネージャ27は、このネットワークエレメント種別の情報と障害種別の情報の組合せを、ネットワーク管理ポリシマネージャ14に送信する(ステップS104)。ネットワーク管理ポリシマネージャ14は、このネットワークエレメント種別の情報と障害種別の情報の組合せに対して、自律措置が実施不可である旨を応答する(ステップS105)。障害マネージャ27は、障害のテレメトリデータと未回復の情報とをテレメトリデータベース28に送信する(ステップS106)。   When the failure manager 27 receives telemetry data from the WIM 33, the failure manager 27 analyzes the telemetry data (step S103), and extracts network element type information and failure type information. The failure manager 27 transmits the combination of the network element type information and the failure type information to the network management policy manager 14 (step S104). The network management policy manager 14 responds to the combination of the network element type information and the failure type information that the autonomous measure cannot be performed (step S105). The failure manager 27 transmits failure telemetry data and unrecovered information to the telemetry database 28 (step S106).

ネットワーク管理ポリシマネージャ14は、テレメトリデータベース28に対して、テレメトリデータなどを要求する(ステップS110)。ここで要求する情報は、テレメトリデータに加えて、自律措置の優先終了日時と回復/未回復の情報である。テレメトリデータベース28は、その応答として、ネットワークエレメント56が未回復である旨をネットワーク管理ポリシマネージャ14に送信する(ステップS111)。よってネットワーク管理ポリシマネージャ14は、この障害に係るネットワークエレメント56に対して、他律的な措置を指示する(ステップS112)。
第2の実施形態のネットワーク管理装置Mは、他律的に措置した方がよい障害については、最初から自律的な措置を実施せずに、他律的に措置している。これにより、同一障害に対する複数の措置によるリソース競合を回避可能である。
The network management policy manager 14 requests telemetry data and the like from the telemetry database 28 (step S110). The information requested here includes the priority end date and time of the autonomous measure and the recovered / unrecovered information in addition to the telemetry data. In response, the telemetry database 28 transmits to the network management policy manager 14 that the network element 56 has not been restored (step S111). Therefore, the network management policy manager 14 instructs the network element 56 relating to this failure to take other measures (step S112).
The network management apparatus M according to the second embodiment takes other measures for the faults that should be taken in other ways without implementing autonomous measures from the beginning. As a result, resource contention due to a plurality of measures for the same failure can be avoided.

(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(d)のようなものがある。
(Modification)
The present invention is not limited to the above-described embodiment, and can be modified without departing from the spirit of the present invention. For example, there are the following (a) to (d).

(a) テレメトリデータベース28に格納される情報は、テレメトリデータの解析結果に限定されず、テレメトリデータがそのまま格納されていてもよい。
(b) テレメトリデータベース28に格納される情報は、障害に係るテレメトリデータに限定されず、すべてのテレメトリデータが格納されてもよい。
(c) テレメトリデータベース28に格納される情報は、障害に係るテレメトリデータの解析結果に限定されず、すべてのテレメトリデータの解析結果が格納されてもよい。
(d) 障害時間データベース271は、障害事象情報と自律措置優先時間との関係を記憶していればよく、例えば障害種別とこの障害に係る自律措置優先時間との関係、障害に係るネットワークエレメント種別と対応する自律措置優先時間との関係であってもよい。
(A) The information stored in the telemetry database 28 is not limited to the analysis result of the telemetry data, and the telemetry data may be stored as it is.
(B) The information stored in the telemetry database 28 is not limited to the telemetry data related to the failure, and all telemetry data may be stored.
(C) The information stored in the telemetry database 28 is not limited to the analysis result of the telemetry data related to the failure, and the analysis result of all the telemetry data may be stored.
(D) The failure time database 271 only needs to store the relationship between the failure event information and the autonomous measure priority time. For example, the relationship between the failure type and the autonomous measure priority time related to this failure, the network element type related to the failure And the corresponding autonomous measure priority time.

M ネットワーク管理装置
1 オーケストレータ部
11 E2Eオーケストレータ
13 ネットワークリソース・オーケストレータ
12 サーバリソース・オーケストレータ
2 インフラマネージャ部
21 VNFM
22 VIM
25 OSS
26 SDNマネージャ
27 障害マネージャ
271 障害時間データベース
28 テレメトリデータベース
29 インベントリデータベース
33 WIM
4 アクセス網
41 PON
42 L2スイッチ
43 L3スイッチ
5 コア網
51 SDN−L2スイッチ
52 データセンタ
53 バケット交換システム
54 コアルータ
56 ネットワークエレメント
M Network management device 1 Orchestrator unit 11 E2E Orchestrator 13 Network resource orchestrator 12 Server resource orchestrator 2 Infrastructure manager unit 21 VNFM
22 VIM
25 OSS
26 SDN manager 27 Failure manager 271 Failure time database 28 Telemetry database 29 Inventory database 33 WIM
4 Access network 41 PON
42 L2 switch 43 L3 switch 5 Core network 51 SDN-L2 switch 52 Data center 53 Bucket switching system 54 Core router 56 Network element

Claims (8)

障害に対して自律的に措置するネットワークエレメントを管理するインフラマネージャ部と、
前記ネットワークエレメントの障害に対して措置するオーケストレータ部と、を備え、
前記インフラマネージャ部は、前記ネットワークエレメントのうちいずれかに係る障害事象情報を含むテレメトリデータを当該ネットワークエレメントから受信する障害マネージャと、
当該障害に対する前記ネットワークエレメントの自律的な措置の優先日時の情報と共に、前記テレメトリデータを格納するテレメトリデータベースと、
を備え、
前記オーケストレータ部は、前記テレメトリデータベースを参照して、前記優先日時まで前記障害に係るネットワークエレメントに対する措置を発動させない、
ことを特徴とするネットワーク管理装置。
An infrastructure manager that manages network elements that autonomously take measures against failures;
An orchestrator unit for taking measures against the failure of the network element,
The infrastructure manager unit receives a telemetry data including failure event information related to any of the network elements from the network element;
A telemetry database storing the telemetry data together with information on the priority date and time of the autonomous action of the network element for the failure;
With
The orchestrator unit refers to the telemetry database and does not activate measures for the network element related to the failure until the priority date and time.
A network management device.
前記障害マネージャは、前記ネットワークエレメントのうちいずれかに係る前記障害事象情報を含む前記テレメトリデータを解析して、前記障害に係るネットワークエレメントの種別および障害種別を抽出する、
ことを特徴とする請求項1に記載のネットワーク管理装置。
The failure manager analyzes the telemetry data including the failure event information related to any of the network elements, and extracts the type of network element and the failure type related to the failure.
The network management device according to claim 1.
前記インフラマネージャ部は、前記障害事象情報と、自律的な措置を優先させる優先時間情報との対応を格納した障害時間データベースを備え、
前記障害マネージャは、前記障害時間データベースに基づき、当該障害事象情報に対応する優先時間情報を取得する、
ことを特徴とする請求項1に記載のネットワーク管理装置。
The infrastructure manager unit includes a failure time database that stores correspondence between the failure event information and priority time information that prioritizes autonomous measures,
The failure manager acquires priority time information corresponding to the failure event information based on the failure time database;
The network management device according to claim 1.
前記オーケストレータ部は、前記障害事象情報から、自律的な措置の実施可否を応答するネットワーク管理ポリシマネージャ、
を備えることを特徴とする請求項1に記載のネットワーク管理装置。
The orchestrator unit, from the failure event information, a network management policy manager that responds whether or not an autonomous measure can be implemented,
The network management apparatus according to claim 1, further comprising:
障害に対して自律的に措置するネットワークエレメントを管理するインフラマネージャ部と、
前記ネットワークエレメントの障害に対して措置するオーケストレータ部と、
を備えるネットワーク管理装置が実行するネットワーク管理方法であって、
前記インフラマネージャ部の障害マネージャは、前記ネットワークエレメントのうちいずれかに係る障害事象情報を含むテレメトリデータを当該ネットワークエレメントから受信し、
テレメトリデータベースに、前記障害に対する自律的な措置の優先日時の情報と共に、前記テレメトリデータを格納し、
前記オーケストレータ部は、前記テレメトリデータベースを参照して、前記優先日時まで前記障害に係るネットワークエレメントに対する措置を発動させない、
ことを特徴とするネットワーク管理方法。
An infrastructure manager that manages network elements that autonomously take measures against failures;
An orchestrator unit for dealing with a failure of the network element;
A network management method executed by a network management device comprising:
The failure manager of the infrastructure manager unit receives telemetry data including failure event information related to any of the network elements from the network element,
In the telemetry database, the telemetry data is stored together with information on the priority date and time of autonomous measures for the failure,
The orchestrator unit refers to the telemetry database and does not activate measures for the network element related to the failure until the priority date and time.
And a network management method.
前記障害マネージャは、前記ネットワークエレメントのうちいずれかに係る前記障害事象情報を含む前記テレメトリデータを解析して、前記障害に係るネットワークエレメントの種別および障害種別を抽出する、
ことを特徴とする請求項5に記載のネットワーク管理方法。
The failure manager analyzes the telemetry data including the failure event information related to any of the network elements, and extracts the type of network element and the failure type related to the failure.
The network management method according to claim 5, wherein:
前記インフラマネージャ部は、障害事象情報と自律的な措置を優先させる優先時間情報の対応を格納した障害時間データベースを備えており
前記障害マネージャは、前記障害時間データベースに基づき、前記テレメトリデータに含まれる障害事象情報に対応する優先時間情報を取得する、
ことを特徴とする請求項5に記載のネットワーク管理方法。
The infrastructure manager unit includes a failure time database that stores correspondence between failure event information and priority time information that prioritizes autonomous measures, and the failure manager is included in the telemetry data based on the failure time database. Get priority time information corresponding to failure event information,
The network management method according to claim 5, wherein:
前記オーケストレータ部のネットワーク管理ポリシマネージャは、前記障害に係るネットワークエレメントの種別および障害種別から、自律的な措置の実施可否を応答する、
ことを特徴とする請求項5に記載のネットワーク管理方法。
The network management policy manager of the orchestrator unit responds whether or not an autonomous measure can be implemented from the type of network element and the type of failure related to the failure.
The network management method according to claim 5, wherein:
JP2017120558A 2017-06-20 2017-06-20 Network management device and network management method Active JP6778151B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017120558A JP6778151B2 (en) 2017-06-20 2017-06-20 Network management device and network management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017120558A JP6778151B2 (en) 2017-06-20 2017-06-20 Network management device and network management method

Publications (2)

Publication Number Publication Date
JP2019009490A true JP2019009490A (en) 2019-01-17
JP6778151B2 JP6778151B2 (en) 2020-10-28

Family

ID=65029199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017120558A Active JP6778151B2 (en) 2017-06-20 2017-06-20 Network management device and network management method

Country Status (1)

Country Link
JP (1) JP6778151B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0723041A (en) * 1993-06-28 1995-01-24 Fujitsu Ltd Circuit fault informing system
JPH09149028A (en) * 1995-11-20 1997-06-06 Nec Corp Distributed network fault recovery device
US20160224409A1 (en) * 2013-09-30 2016-08-04 Huawei Technologies Co., Ltd. Fault Management Method, Entity, and System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0723041A (en) * 1993-06-28 1995-01-24 Fujitsu Ltd Circuit fault informing system
JPH09149028A (en) * 1995-11-20 1997-06-06 Nec Corp Distributed network fault recovery device
US20160224409A1 (en) * 2013-09-30 2016-08-04 Huawei Technologies Co., Ltd. Fault Management Method, Entity, and System
JP2016533655A (en) * 2013-09-30 2016-10-27 ホアウェイ・テクノロジーズ・カンパニー・リミテッド Fault management method, entity, and system

Also Published As

Publication number Publication date
JP6778151B2 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
US10148517B2 (en) Systems and methods for topology discovery and application in a border gateway protocol based data center
JP6393773B2 (en) Switch replacement of partial software defined network in IP network
Velasco et al. In-operation network planning
US10318335B1 (en) Self-managed virtual networks and services
US10567252B1 (en) Network connection service high availability evaluation for co-location facilities
CN101601228A (en) Based on the fault location in the architecture of multiple spanning tree
JP6508051B2 (en) Communication control apparatus, communication control system, communication control method and communication control program
Heegaard et al. Achieving dependability in software-defined networking—a perspective
US8817605B2 (en) Cross-layer reconfiguration method for surviving multiple-link network failures
KR20150002474A (en) Methods for recovering failure in communication networks
US20130135992A1 (en) Method and system for managing high capacity traffic offload in an ip network nucleus in the transport layer
Benet et al. Minimizing live VM migration downtime using OpenFlow based resiliency mechanisms
JP6778151B2 (en) Network management device and network management method
Nguyen et al. An experimental feasibility study on applying SDN technology to disaster-resilient wide area networks
Lee et al. Fault localization in NFV framework
Venâncio et al. Nfv-rbcast: Enabling the network to offer reliable and ordered broadcast services
JP7020556B2 (en) Disaster recovery control methods, communication devices, communication systems, and programs
Ko et al. Dynamic failover for SDN-based virtual networks
Nguyen et al. An openflow-based scheme for service Chaining’s high availability in cloud network
EP2698961B1 (en) Method, system and devices for securing traffic on a traffic path in a computer network
CN108702321B (en) System, method and apparatus for implementing fast reroute (FRR)
Franco et al. Quantitative measurement of link failure reaction time for devices with P4-programmable data planes
Corrêa et al. An experimental evaluation of lightweight virtualization for software-defined routing platform
JP2018088650A (en) Information processing apparatus, communication control method, and communication control program
WO2024021976A1 (en) Message processing method and related device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201009

R150 Certificate of patent or registration of utility model

Ref document number: 6778151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150