WO2023047450A1 - ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム - Google Patents

ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム Download PDF

Info

Publication number
WO2023047450A1
WO2023047450A1 PCT/JP2021/034521 JP2021034521W WO2023047450A1 WO 2023047450 A1 WO2023047450 A1 WO 2023047450A1 JP 2021034521 W JP2021034521 W JP 2021034521W WO 2023047450 A1 WO2023047450 A1 WO 2023047450A1
Authority
WO
WIPO (PCT)
Prior art keywords
error
workflow
unit
network management
execution
Prior art date
Application number
PCT/JP2021/034521
Other languages
English (en)
French (fr)
Inventor
ジャヨン オ
正昭 小杉
Original Assignee
楽天モバイル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天モバイル株式会社 filed Critical 楽天モバイル株式会社
Priority to PCT/JP2021/034521 priority Critical patent/WO2023047450A1/ja
Priority to US17/788,820 priority patent/US20240193033A1/en
Publication of WO2023047450A1 publication Critical patent/WO2023047450A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities

Definitions

  • the present invention relates to a network management device, a network management method and a network management system, and particularly to technology for automating the construction of mobile networks.
  • NFV Network Function Virtualization
  • NFV Network Function Virtualization
  • ETSI European Telecommunications Standards Institute
  • NFV defines the architecture of NFV (see Patent Document 1, for example).
  • Telecom networks in recent years are large-scale networks built on a virtualization platform, and such large-scale networks require efficiency and automation in network construction.
  • a worker analyzes the log of the device where the problem occurred and deals with the problem. They asked for analysis and countermeasures.
  • telecom networks are made up of various components, and in some cases, many departments (persons and companies) are working together to build them. It was difficult to select If it takes time to deal with the problem, the stop time of the construction work in the meantime will be long, and as a result, the whole construction work time will be lengthened. Thus, building a network requires time and manpower cost.
  • the present invention provides a network management device, a network management method, and a network management system that can shorten the overall construction time and reduce the manpower cost required for handling errors in a large-scale network. is an issue.
  • one aspect of the network management apparatus provides an error that may occur when executing a workflow defining a series of network construction processes consisting of a plurality of processes, and a method for resolving the error.
  • a correspondence information storage unit that stores correspondence information that associates
  • a log collection unit that collects logs relating to the execution of the workflow
  • an execution of the workflow that stops when an error occurs during the execution of the workflow.
  • a workflow stopping unit while the workflow is stopped by the workflow stopping unit, refers to the corresponding information stored in the corresponding information storage unit based on the log collected by the log collecting unit, and performs a process for the error.
  • an error handling unit that determines and executes a handling; and a workflow that, when the error is resolved by the handling executed by the error handling unit, restarts the workflow from a process corresponding to the handling among the plurality of processes. and a resuming unit.
  • the error handling unit refers to the correspondence information stored in the correspondence information storage unit based on the log collected by the log collection unit, and executes a process to resolve an error that occurred during execution of the workflow. Determining whether the coping process can be automatically executed, and if it is determined that the coping process can be automatically executed, the coping process is automatically executed, and it is determined that the coping process cannot be automatically executed. In this case, the operator may be instructed to take measures to resolve the error that has occurred.
  • the error handling unit determines that the handling process requires human intervention, the error handling unit determines that the handling process cannot be automatically executed, and instructs the operator to execute the handling process as the handling process. can be indicated.
  • the error handling unit cannot automatically execute the handling process when the correspondence information stored in the correspondence information storage unit does not include the resolution method associated with the error that occurred during execution of the workflow. , and as the countermeasure, the operator may be instructed to analyze the error and execute countermeasure processing to eliminate the error.
  • the correspondence information storage unit may store, as the correspondence information, information for specifying the process to be restarted by the workflow restarting unit in association with the error and the error resolution method.
  • the workflow resuming unit performs any one of a process to be executed first, a process in which the error occurred, and a process subsequent to the process in which the error occurred, among the plurality of processes, according to the countermeasure.
  • the workflow may be resumed from .
  • the error handling unit may analyze logs of components related to the process in which the error occurred.
  • the workflow resuming unit does nothing to handle the error
  • the workflow restarting unit determines that the error occurs among the plurality of processes The workflow may be resumed from the process following the process performed.
  • the apparatus may further include an error processing re-executing unit that, after completing the series of network construction processing, takes measures against the processing in which the error occurred and re-executes the processing in which the error occurred.
  • one aspect of the network management method is a network management method executed by a network management device, in which an error that can occur when executing a workflow defining a series of network construction processes consisting of a plurality of processes is performed. and a method of resolving the error; collecting logs related to execution of the workflow; and executing the workflow when an error occurs during execution of the workflow. a step of stopping, a step of determining and executing a countermeasure for the error based on the log and referring to the countermeasure information while the workflow is stopped, and resolving the error by the executed countermeasure. and resuming the workflow from a process corresponding to the countermeasure, among the plurality of processes, when the process is executed.
  • one aspect of the network management system associates an error that may occur when executing a workflow that defines a series of network construction processes consisting of a plurality of processes and a method for resolving the error.
  • a correspondence information storage unit that stores correspondence information
  • a log collection unit that collects logs related to execution of the workflow
  • a workflow stop unit that stops execution of the workflow when an error occurs during execution of the workflow; While the workflow is stopped by the workflow stop unit, the correspondence information stored in the correspondence information storage unit is referenced based on the log collected by the log collection unit, and a countermeasure for the error is determined and executed.
  • a workflow resuming unit for resuming the workflow from a process corresponding to the handling among the plurality of processes when the error is resolved by the handling executed by the error handling part.
  • FIG. 1 is a diagram showing a configuration example of a mobile network including a network management device of this embodiment.
  • FIG. 2 is a diagram showing an example of the internal configuration of the network management system.
  • FIG. 3 is a functional block diagram of a network management unit;
  • FIG. 4 is a sequence diagram showing workflow execution operations.
  • FIG. 5 is a sequence diagram showing operations when automatic restart is possible.
  • FIG. 6 is an example of workflow information passed from the workflow control unit to the log collection unit.
  • FIG. 7 shows an example of processing contents defined by a workflow.
  • FIG. 8 is an example of the known problem list.
  • FIG. 9 is an example of an error resolution method list.
  • FIG. 10 is a sequence diagram showing the operation when a secondary analysis request to the user is required.
  • FIG. 10 is a sequence diagram showing the operation when a secondary analysis request to the user is required.
  • FIG. 11 is a sequence diagram showing an operation when an error handling request to the user is required.
  • FIG. 12 is a flowchart showing part of the operation of the workflow control unit.
  • FIG. 13 is an example of one virtualization platform that constitutes a central data center.
  • FIG. 14 is a block diagram showing an example of a hardware configuration of a network management device;
  • the network management apparatus has a network management function that automatically performs network construction processing in a mobile network built on a virtualization infrastructure. Specifically, the network management device executes a workflow that defines a series of network construction processes consisting of multiple processes. Then, when an error occurs during execution of the workflow, the network management device stops the execution of the workflow and takes measures against the error. Resume a workflow.
  • the network construction processing includes settings of network devices (switches, etc.), hardware settings of the virtualization platform, software settings of the virtualization platform, application settings, and the like.
  • the network management device collects logs related to workflow execution during workflow execution, and when an error occurs and the workflow is stopped, the error is handled based on the collected log. decide and execute.
  • the network management device refers to correspondence information in which errors that may occur when the workflow is executed and error resolution methods are associated in advance, and determines and executes countermeasures against the errors.
  • the network management device refers to the correspondence information to determine whether or not it is possible to automatically execute the coping process for resolving the error. automatically run to resolve the error.
  • the network management device determines that the automatic execution of the coping process is impossible, it instructs the operator (hereinafter also referred to as "user") to take measures to eliminate the error.
  • the network management device cannot automatically execute the coping process when human intervention is required to eliminate the error, or when the coping process for resolving the error has not been established. It can be determined that there is
  • FIG. 1 is a diagram showing a network configuration example of a mobile network 100 including a network management device of this embodiment.
  • a terminal capable of mobile communication such as a smartphone and a radio access network (RAN) communicate wirelessly, and the information is relayed through a backhaul network (mobile backhaul: MBH).
  • MBH mobile backhaul network
  • the mobile network 100 comprises a base station 11 and a plurality of accommodating stations 12-14.
  • the accommodation station 12 is an edge data center
  • the accommodation station 13 is a regional data center (RDC)
  • the accommodation station 14 is a central data center (CDC).
  • a backhaul network is configured from the edge data center 12 to the central data center 14 .
  • the mobile network 100 in this embodiment may be a virtualized network built on a virtualization infrastructure.
  • software is implemented on a general-purpose server from the switchboard of the backbone network to the wireless access function of the base station.
  • the base station 11 includes an antenna, a switchboard, a battery, and the like.
  • the edge data center 12 is installed near the base stations 11 and is connected to the plurality of base stations 11 by optical fiber cables or the like.
  • the edge data center 12 implements RAN-related radio access functions.
  • the regional data center 13 is connected to a plurality of edge data centers 12 arranged in the target region. In this regional data center 13, firewall/NAT (Network Address Translation), CDN (Content Distribution Network), and various applications for edge computing are implemented by software.
  • the central data center 14 is connected to multiple regional data centers 13 .
  • the central data center 14 implements core functions such as EPC (Evolved Packet Core) and IMS (IP Multimedia Subsystem).
  • each data center such as the edge data center 12, the regional data center 13, and the central data center 14 is not limited to the number shown in FIG.
  • the number of each data center (accommodating station) such as the edge data center 12, the regional data center 13, and the central data center 14 is not limited to the number shown in FIG.
  • a plurality of regional data centers 13 and central data centers 14 may be installed.
  • FIG. 2 is a diagram showing an example of the internal configuration of a network management system that configures mobile network 100. As shown in FIG. Each component shown in FIG. 2 has a reference point. Lines connecting components shown in FIG. 2 indicate that information can be sent and received from each other.
  • NFVI (NFV Infrastructure) 110 is a network function virtualization infrastructure, and includes physical resources, a virtualization layer, and virtualization resources. Physical resources include hardware resources such as computing resources, storage resources, and transmission resources.
  • the virtualization layer is a virtualization layer such as a hypervisor for virtualizing physical resources and providing them to VNF (Network Function Virtualization) 120 .
  • a virtualized resource is a virtualized infrastructure resource provided to the VNF 120 .
  • the NFVI 110 is a virtualized computing and virtualization system in which hardware resources of a physical server (hereinafter also simply referred to as "server") such as computing, storage, and network functions are virtualized by a virtualization layer such as a hypervisor. It is a platform that can be flexibly handled as virtualized hardware resources such as storage and virtualized networks.
  • a plurality of servers that make up the NFVI 110 are arranged in data centers (accommodating stations) 12-14.
  • the number of servers to be arranged in each data center 12 to 14, the arrangement position, the wiring, etc. are determined in advance according to the type of the data center (accommodating station type).
  • the servers installed are connected by an internal network so that information can be transmitted and received between them.
  • Data centers are connected by a network, and servers provided in different data centers can transmit and receive information to and from each other via the network.
  • the VNF 120 corresponds to an application running on a virtual machine (VM) on the server and implements network functions in software. Although not shown, each VNF 120 may be provided with a management function called EM (Element Manager).
  • EM Element Manager
  • the NFVI 110 and VNF 120 in FIG. 2 constitute a virtual environment. That is, the virtualization environment is composed of three layers, hardware, virtualization layer, and virtual machine, in order from the bottom.
  • a MANO (Management and Orchestration) 130 has a virtual environment management function and an orchestration function.
  • the MANO 130 includes an NFVO (NFV-Orchestrator) 131 , a VNFM (VNF-Manager) 132 and a VIM (Virtualized Infrastructure Manager) 133 .
  • the NFVO 131 performs orchestration of NFVI resources, life cycle management of network services, and integrated operation management of the entire system.
  • the NFVO 131 can perform processing according to instructions from an OSS/BSS (Operation Support System/Business Support System) 140, which will be described later.
  • OSS/BSS Operaation Support System/Business Support System
  • VNFM 132 performs life cycle management of VNF 120 .
  • VNFM 132 may be arranged in MANO 130 as a dedicated VNFM corresponding to each VNF 120 .
  • one VNFM 132 may manage the lifecycles of two or more VNFs 120 .
  • VNFM 132 may be a generic VNFM that corresponds to VNF 120 from a different vendor.
  • the VIM 133 manages and operates resources used by the VNF 120 .
  • OSS/BSS 140 is an integrated management system for mobile network 100 .
  • OSS is a system (equipment, software, mechanism, etc.) necessary for building and operating a service
  • BSS is information used for billing such as usage fees, billing, customer service, etc. It is a system (equipment, software, mechanism, etc.).
  • the network management unit 150 executes a workflow that defines a series of network construction processing consisting of multiple processes. Realize a network management function that restarts the workflow from the process according to the
  • the network management unit 150 constitutes a network management device according to this embodiment.
  • the network management unit 150 includes an error handling database (error handling DB) 150a. If an error occurs during execution of the workflow, the network management unit 150 refers to the error handling database 150a based on the log relating to the execution of the workflow, determines and executes the handling of the error.
  • the error handling database 150a is a handling information storage unit that stores handling information that associates an error that can occur when a workflow is executed with a method for resolving the error. This error countermeasure database 150a can store countermeasure information for errors that have actually occurred in the past and errors that may occur in the future.
  • the error handling database 150a may be a volatile memory or a non-volatile memory that acquires the above handling information from an external device and temporarily stores it. In this case, the timing of acquiring the correspondence information is not particularly limited. Furthermore, the network management unit 150 is not limited to being an external function of the OSS/BSS 140 or the MANO 130 as shown in FIG. The network management unit 150 may be provided inside the OSS/BSS 140 or may be provided inside the MANO 130 . In this case, the network management functions of the network management unit 150 are part of the functions of the OSS/BSS 140 and the MANO 130 .
  • FIG. 3 is a functional block diagram of the network management unit 150.
  • the network management unit 150 includes a log collection unit 151, a log analysis unit 152, a workflow control unit 153, and a user interface (I/F) 154.
  • the workflow control unit 153 includes a workflow stopping unit (WF stopping unit) 153a, an error handling execution unit 153b, and a workflow restarting unit (WF restarting unit) 153c.
  • the network management device 150 also includes an error handling database (error handling DB) 150a.
  • error handling DB error handling database
  • the log collection unit 151 collects logs related to workflow execution.
  • the OSS 140 can issue commands to the VNFM 132 and VIM 133 to sequentially execute the processes defined in the workflow.
  • the log collection unit 151 can collect logs directly from the VNFM 132 or VIM 133 or via the MANO 130 or OSS 140 .
  • the log analysis unit 152 refers to the error handling database 150a based on the log collected by the log collection unit 151, and automatically performs a handling process to resolve the error. Determine whether execution is possible.
  • the workflow stopping unit 153a of the workflow control unit 153 stops the workflow being executed in accordance with a stop request from the OSS 140, for example.
  • the OSS 140 determines whether an error has occurred based on the log collected by the log collection unit 151 during workflow execution, and if an error has occurred, sends a workflow stop request to the workflow control unit 153 . can be done.
  • the workflow control unit 153 may determine whether an error has occurred during execution of the workflow.
  • the error handling execution unit 153b determines and executes the error handling based on the log analysis result of the log analysis unit 152. do.
  • the workflow restarting unit 153c restarts the workflow when the error is resolved by the error handling execution unit 153b.
  • the workflow resuming unit 153c resumes the workflow from the processing corresponding to the countermeasure executed by the error countermeasure execution unit 153b among the plurality of processes defined in the workflow.
  • the workflow resuming unit 153c can resume the workflow from the process that is executed first, the process in which an error has occurred, or the process following the process in which the error has occurred among the plurality of processes.
  • the user interface 154 is an input/output device that can be operated by the user, and includes pointing devices such as keyboards and mice, monitors, speakers, and the like.
  • the configuration of the functional blocks of the network management unit 150 shown in FIG. 3 is an example, and a plurality of functional blocks may constitute one functional block, or one of the functional blocks may perform a plurality of functions. It may be divided into blocks to do.
  • the log analysis unit 152 and the error handling execution unit 153b refer to the error handling database 150a based on the logs collected by the log collection unit 151 while the workflow is stopped by the workflow stopping unit 153a, and An error handling unit, which is one functional block that determines and executes handling, may be configured.
  • the plurality of functions of the network management unit 150 may be divided into external functions of the OSS/BSS 140 and MANO 130, internal functions of the OSS/BSS 140, and internal functions of the MANO 130, respectively, of the network management system shown in FIG.
  • FIG. 4 is a sequence diagram showing operations during workflow execution.
  • the OSS 140 transmits a WF execution request to the workflow control unit (WF control unit) 153 and instructs execution of the workflow.
  • the workflow control unit 153 starts workflow execution in step S2, and transmits a log collection request to the log collection unit 151 in step S3.
  • step S4 the log collection unit 151 requests the NFVI 110 and VNF 120 to provide logs related to workflow execution.
  • the log collection unit 151 acquires collected logs transmitted from the NFVI 110 and VNF 120 and transmits them to the workflow control unit 153 .
  • the workflow control unit 153 acquires the collected log from the log collection unit 151 and transmits it to the OSS 140 in step S6.
  • the OSS 140 acquires the collection log from the workflow control unit 153 in step S7.
  • the OSS 140 can analyze the acquired collected log and determine whether an error has occurred during execution of the workflow. When the OSS 140 determines that an error has occurred during workflow execution, the OSS 140 can send a workflow stop request to the workflow control unit 153 . At this time, the OSS 140 may notify the workflow control unit 153 that an error has occurred, including information indicating which step in which workflow the error has occurred.
  • log collection unit 151 is not limited to collecting logs directly from the NFVI 110 or the VNF 120 as shown in FIG.
  • the log collection unit 151 may collect logs from the NFVI 110 and VNF 120 via the MANO 130 and OSS 140, as described above.
  • FIG. 5 is a sequence diagram showing an example of operations after an error occurs during execution of the workflow and the workflow is stopped by the workflow stopping unit 153a.
  • an example of executing network construction processing for the edge data center 12 will be described.
  • an edge data center is called a GC (Group unit Center) to distinguish it from other data centers.
  • step S11 the workflow control unit (WF control unit) 153 starts the log analysis workflow for error handling. Then, in step S ⁇ b>12 , the workflow control unit 153 transmits a log analysis request to the log collection unit 151 .
  • This log analysis request includes workflow information 401 shown in FIG.
  • the workflow information 401 includes an analysis ID, a GC name of a network construction target, a GC code, a failed step code, and a failed workflow. ID (WF ID) may be included.
  • the information forming the workflow information 401 can be obtained by the workflow control unit 153 from the OSS 140 together with the workflow stop request.
  • the log collection unit 151 transmits the collected log to the log analysis unit 152.
  • the collected log sent at this time may be the log of the component related to the process in which the error occurred.
  • the log collection unit 151 can select the log of the component related to the process in which the error occurred, and transmit the selected log to the log analysis unit 152 .
  • the log collection unit 151 refers to the process list 402 shown in FIG.
  • Logs of components related to processing can be selected as logs to be analyzed. For example, if the process in which the error occurred is a process related to hardware, a log related to hardware can be selected as the log to be analyzed.
  • the process list 402 may be prepared for each workflow.
  • the log collection unit 151 can refer to the process list 402 corresponding to the workflow in which the error occurred based on the “WF ID” included in the workflow information 401 .
  • the log collection unit 151 is not limited to referencing the processing list 402.
  • the workflow control unit 153 refers to the processing list 402, and the workflow information 401 includes the processing contents shown in FIG. You may transmit to the collection part 151.
  • the log analysis unit 152 refers to the known issue list 411 shown in FIG. 8, analyzes the collected log received from the log collection unit 151, and resolves the error. It is determined whether or not it is possible to automatically execute a coping process to
  • the known problem list 411 is a list of known problems for which error resolution methods have been established, and is stored in the error handling database 150a.
  • the known problem list 411 may include error IDs, keywords, error resolution codes, and automatic execution flags, as shown in FIG.
  • the keyword is an error keyword included in the log.
  • the keywords shown in FIG. 8 are examples, and may be more detailed keywords.
  • the auto-execution flag is a flag that indicates whether or not it is possible to automatically execute the coping process for resolving the error. True indicates that automatic execution is possible, and false indicates that automatic execution is impossible.
  • the log analysis unit 152 searches the known problem list 411 using the collected log received from the log collection unit 151 as a key.
  • the log analysis unit 152 transmits the log analysis result including the error resolution code and the automatic execution flag of the corresponding record to the log collection unit 151 in step S15. .
  • the log analysis unit 152 transmits the log analysis result including information indicating that the corresponding record does not exist to the log collection unit 151 in step S15.
  • the known problem list 411 may be prepared for each workflow, since errors that may occur and how to resolve them may differ depending on the workflow.
  • step S ⁇ b>16 the log collection unit 151 transmits the log analysis result received from the log analysis unit 152 to the workflow control unit 153 as it is.
  • step S ⁇ b>17 based on the log analysis result received from the log collection unit 151 , the workflow control unit 153 determines whether the error that has occurred is a known problem for which an error resolution method has been established, or whether an error resolution method has been established. If the problem is a known problem, a determination process is performed to determine whether or not it is possible to automatically execute a coping process for resolving the error. Then, the workflow control unit 153 executes countermeasures against the error according to the result of this judgment processing.
  • the log analysis unit 152 will generate The error resolution code (01) and the automatic execution flag (true) are included in the log analysis result and transmitted to the log collection unit 151 .
  • the workflow control unit 153 determines that the error that has occurred is a known problem for which an error resolution method has been established, and that an automatic coping process for resolving the error is performed. Determine that it is feasible.
  • step S18 the workflow control unit 153 automatically executes the coping process and restarts the workflow.
  • the workflow control unit 153 refers to the error resolution method list 412 shown in FIG. 9 to confirm the error resolution method, and automatically executes the coping process.
  • the error resolution method list 412 includes an error resolution code, an error resolution method, a restart step number (Step code) for specifying from which process the workflow should be restarted, and the hardware error that occurred. (HW) problem or software (SW) problem may be included.
  • the error resolution code of the error resolution method list 412 corresponds to the error resolution code of the known problem list 411 shown in FIG.
  • the workflow control unit 153 can automatically execute the coping processing and automatically restart the workflow. After automatically restarting the workflow, the workflow control unit 153 transmits a log collection request to the log collection unit 151 to restart log collection in the same manner as in step S3 in FIG.
  • FIG. 10 is a sequence diagram showing operations when the error that has occurred is an unknown problem.
  • steps S21 to S26 are the same as steps S11 to S16 in FIG.
  • the workflow control unit 153 receives, from the log collection unit 151, the log analysis result including information indicating that there is no record corresponding to the error that occurred in the known problem list 411.
  • step S27 the workflow control unit 153 determines that the error that has occurred is an unknown problem for which no error resolution method has been established, and that it is impossible to automatically execute the coping process to resolve the error.
  • step S28 the workflow control unit 153 transmits to the user I/F 154 a secondary analysis request including an error analysis request for the user 300 and an instruction to execute a coping process for resolving the error.
  • step S29 the user 300 confirms the secondary analysis request via the user I/F 154.
  • error analysis is performed by the user 300 in step S30
  • countermeasure processing is performed by the user 300 in step S31.
  • the user 300 transmits a completion notification indicating that the coping process has been completed to the workflow control unit 153 via the user I/F 154 (steps S32 and S33).
  • the workflow control unit 153 Upon receiving this completion notification, the workflow control unit 153 restarts the workflow in step S34. For example, the user 300 may transmit the completion notification including information for specifying the process to be resumed, and the workflow control unit 153 may resume the workflow based on the information included in the completion notification. Workflow control unit 153 may restart the workflow from the process that is executed first among the plurality of processes defined in the workflow without accepting the designation from user 300 .
  • FIG. 11 is a sequence diagram showing the operation when the error that has occurred is a known problem, but a coping process that requires human intervention is required.
  • the processes of steps S41 to S46 are the same as steps S11 to S16 of FIG.
  • the workflow control unit 153 receives from the log collection unit 151 the log analysis result including the error resolution code searched from the known problem list 411 and the automatic execution flag (false).
  • step S47 the workflow control unit 153 determines that the error that has occurred is a known problem for which an error resolution method has been established, but that it is impossible to automatically execute the coping process to resolve the error. .
  • step S ⁇ b>48 the workflow control unit 153 transmits to the user I/F 154 an error handling request (action notification) including an instruction to execute a handling process for resolving the error for the user 300 .
  • step S ⁇ b>49 the user 300 confirms the error handling request via the user I/F 154 .
  • step S50 the user 300 executes the coping process.
  • the user 300 transmits a completion notification indicating that the coping process has been completed to the workflow control unit 153 via the user I/F 154 (steps S51 and S52).
  • workflow control unit 153 restarts the workflow in step S53.
  • the workflow control unit 153 refers to the error resolution method list 412 of FIG. 9 to confirm the restart step number corresponding to the error resolution code included in the log analysis result, and restarts the workflow from the process of the restart step number. resume.
  • the system waits until the user 300 completes the coping process, and restarts the workflow.
  • step S101 the workflow control unit 153 acquires the log analysis result, and proceeds to step S102.
  • step S102 the workflow control unit 153 determines whether it is possible to automatically execute the coping process for resolving the error based on the automatic execution flag included in the log analysis result acquired in step S101. Specifically, if the automatic execution flag is true, the workflow control unit 153 determines that automatic execution is possible, and proceeds to step S103. , and the process proceeds to step S104.
  • step S103 the workflow control unit 153 refers to the error resolution method list 412 in FIG. 9 based on the error resolution code included in the log analysis result, confirms the error resolution method, and automatically executes the coping process. After automatically executing the coping process, the workflow control unit 153 proceeds to step S108. In step S104, the workflow control unit 153 determines whether the error that has occurred is a known problem or an unknown problem based on the log analysis result.
  • step S104 determines in step S104 that the error that has occurred is an unknown problem
  • the workflow control unit 153 proceeds to step S105, transmits a secondary analysis request to the user 300 to the user I/F 154, and proceeds to step S107. Transition.
  • step S106 transmits an error handling request to the user 300 to the user I/F 154, and proceeds to step S107. do.
  • step S107 the workflow control unit 153 determines whether or not the completion notification has been received from the user 300 via the user I/F 154. If the completion notification has not been received, the workflow control unit 153 waits as it is and sends the completion notification. When received, the process proceeds to step S108. In step S108, the workflow control unit 153 resumes the stopped workflow.
  • the workflow control unit 153 When resuming the workflow, the workflow control unit 153 resumes the workflow from the process corresponding to the action taken for the occurred error. Specifically, the workflow control unit 153 selects, among a plurality of processes defined in the workflow, the process to be executed first, the process in which an error has occurred, and the process to be executed next to the process in which the error has occurred, according to the executed action. Restart the workflow from any of the actions in .
  • the workflow must be restarted from the beginning. Therefore, in this case, the workflow is restarted from the process that is executed first among the multiple processes defined in the workflow.
  • the workflow can be re-executed from the process in which the error occurred. Therefore, in this case, the workflow is restarted from the process in which the error occurred among the multiple processes defined in the workflow.
  • the workflow control unit 153 determines that the process in which the error occurred can be skipped, it does nothing as a countermeasure against the error, and the process in which the error occurred among the multiple processes defined in the workflow is skipped.
  • the workflow may be resumed from the next processing. For example, when executing a workflow that performs construction processing such as installation on many nodes in order, if the node where the error occurred is a node that does not affect the overall configuration, the processing for that node is skipped. However, the processing for other nodes may proceed first.
  • FIG. 13 is an example of one virtualization infrastructure that constitutes a central data center (CDC).
  • one virtualization platform includes physical servers such as a management node 510, a compute node 501, a storage node 502, a controller node 503, and the like.
  • the management node 510 plays a role of software installation and monitoring of each node 501 , 502 , 503 and a role of providing a user interface for realizing operations on each node 501 , 502 , 503 .
  • the controller node 503 controls operations related to the life cycle of the virtual machine, and has a redundant configuration of three.
  • the edge data center (GC) and the regional data center (RDC) are configured including a management node and a controller node having a 3-redundant configuration.
  • the management node 510 acts as an installer of software for each node 501 , 502 , 503 . Therefore, the management node 510 is an indispensable node for network construction. Also, the controller node 503 having a 3-redundant configuration cannot maintain the redundant configuration if a problem occurs in 2 or more nodes. Therefore, two or more controller nodes 503 must be operating normally.
  • the entire workflow will be interrupted.
  • the workflow is stopped and the work flow is restarted after the work process such as housing replacement or hardware part replacement is performed.
  • the target node may be excluded and processing for other nodes may proceed first.
  • the workflow control unit 153 may include an error processing re-executing unit that re-executes a process in which an error has occurred.
  • the network management unit 150 which is a network management device according to the present embodiment, stops execution of a workflow when an error occurs during execution of a workflow defining a series of network construction processes consisting of a plurality of processes. then take action on the error and restart the workflow.
  • the network management unit 150 collects logs related to workflow execution during execution of the workflow, and if an error occurs and the workflow is stopped, the network management unit 150 determines how to deal with the error based on the collected logs. and run. Specifically, based on the collected log, the network management unit 150 refers to the correspondence information that associates errors that may occur when executing the workflow with methods for resolving the errors. Decide and take action. Then, when the error is resolved by executing the countermeasures against the error, the network management unit 150 restarts the workflow from the process corresponding to the countermeasure among the plurality of processes defined in the workflow.
  • the network management unit 150 decides and executes a countermeasure for the error based on the log. Therefore, there is no need for the operator who performs the network construction work to identify the cause of the problem by analyzing the notified alert, log, or the like, and to perform the coping process.
  • Telecom networks are large-scale, and recent telecom networks are virtualized networks built with multiple layers and multiple vendors. Also, many departments (or people or companies) may be involved in the work of building a telecom network. Therefore, it takes a lot of time and effort to identify the cause of the problem and select an analysis request destination by a person.
  • the network management unit 150 can determine and execute countermeasures against errors based on logs during workflow execution, thereby reducing work (labor and time) by workers. can do. By reducing the burden on the operator in this way, the personnel cost can be reduced.
  • the network management unit 150 resumes the workflow from the process corresponding to the countermeasure executed for the error. Specifically, the network management unit 150 selects, among a plurality of processes defined in the workflow, the first process to be executed, the process in which an error occurred, and the The workflow can be restarted from any of the processes following the generated process. As a result, it is possible to avoid redundantly executing processes unnecessarily, and it is possible to reduce wasted execution time. Therefore, the overall construction work time can be appropriately reduced. It should be noted that it is possible to determine from which process the workflow is restarted based on the restart step number associated with the error and the error resolution method in the correspondence information. As a result, it is possible to easily and appropriately specify the process for resuming the workflow.
  • the network management unit 150 references correspondence information that associates errors with error resolution methods based on logs collected during workflow execution, and resolves errors that occurred during workflow execution. It is possible to determine whether or not automatic execution of the coping process is possible. If the workflow management unit 150 determines that the coping process can be automatically executed, it automatically executes the coping process. If it determines that the coping process cannot be automatically executed, the workflow management unit 150 can be instructed to the user 300 to deal with.
  • the network management unit 150 determines that the coping process can be automatically executed. and automatically execute the coping process.
  • the network management unit 150 determines that automatic execution of the coping process is impossible. Then, the network management unit 150 can instruct the user 300 to execute a coping process as a measure to resolve the error.
  • the network management unit 150 determines that the automatic execution of the handling process is impossible. The user 300 can be instructed to analyze the error and to execute coping processing to eliminate the error.
  • the network management device may be implemented in any general-purpose server that constitutes the backhaul network, core network, or the like of the mobile network 100 .
  • the network management device may be implemented in a dedicated server.
  • the network management device may be implemented on a single or multiple computers.
  • the network management device 1 includes a CPU 2, a ROM 3, a RAM 4, an HDD 5, an input section (keyboard, pointing device, etc.) 6, a display section (monitor etc.) 7, communication I/F 8 and the like can be provided.
  • the network management device 1 includes a CPU 2, a ROM 3, a RAM 4, an HDD 5, an input section (keyboard, pointing device, etc.) 6, a display section (monitor etc.) 7, communication I/F 8 and the like can be provided.
  • the functions of the elements of the network management unit 150 shown in FIG. 3 can be implemented by the CPU 2 executing a program.
  • at least some of the elements of the network management unit 150 shown in FIG. 3 may operate as dedicated hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

大規模ネットワークにおいて、全体の構築時間の短縮と、エラー対処に要する人的コストの削減とを実現する。 ネットワーク管理装置は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を記憶する対応情報記憶部と、ワークフローの実行に関するログを収集するログ収集部と、ワークフローの実行中にエラーが発生した場合、ワークフローの実行を停止するワークフロー停止部と、ワークフロー停止部によるワークフローの停止中に、ログ収集部により収集されたログをもとに、対応情報記憶部に記憶された対応情報を参照して、エラーに対する対処を決定して実行するエラー対処部と、エラー対処部により実行された対処によってエラーが解消された場合、複数の処理のうち、対処に応じた処理からワークフローを再開するワークフロー再開部と、を備える。

Description

ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
 本発明は、ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システムに関し、特に、モバイルネットワークの構築を自動化するための技術に関する。
 汎用サーバの性能向上、ネットワーク基盤の充実を背景として、サーバなどの物理リソース上に仮想化されたコンピューティングリソースをオンデマンドで使うクラウドコンピューティング(以下、「クラウド」という。)が広く普及している。また、ネットワーク機能を仮想化し、クラウド上で提供するNFV(Network Function Virtualization)が知られている。NFVとは、仮想化技術およびクラウド技術を用いて、これまで専用ハードウェア上で動いていた様々なネットワークサービスのハードウェアとソフトウェアとを分離し、ソフトウェアを仮想化された基盤上で動かす技術である。これによって運用の高度化やコスト削減が期待される。
 そして、近年、モバイルネットワークにおいても仮想化が進められている。
 ETSI(European Telecommunications Standards Institute) NFVでは、NFVのアーキテクチャが定義されている(例えば、特許文献1参照)。
国際公開第2016/121802号
 近年のテレコムネットワークは仮想化基盤で構築された大規模ネットワークであり、このような大規模ネットワークにおいては、ネットワークの構築に効率化および自動化が求められている。
 従来、ネットワークの構築途中で何らかの問題が発生した場合には、作業者が、問題が起きた機器のログを解析して当該問題に対する対処を行ったり、関連部門(もしくは担当者、担当会社)に解析や対処を依頼したりしていた。しかしながら、テレコムネットワークは多様な構成要素によって成り立っており、また、多数の部門(人、会社)が連携して構築作業を行っている場合もあり、迅速に問題の原因を特定したり解析依頼先を選定したりすることが困難であった。問題対処に時間がかかると、その間の構築作業の停止時間も長くなり、結果として全体の構築作業時間が長くなる。
 このように、ネットワークの構築には、時間と人的コストとを要していた。
 そこで、本発明は、大規模ネットワークにおいて、全体の構築時間の短縮と、エラー対処に要する人的コストの削減とを実現することができるネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システムを提供することを課題としている。
 上記課題を解決するために、本発明に係るネットワーク管理装置の一態様は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を記憶する対応情報記憶部と、前記ワークフローの実行に関するログを収集するログ収集部と、前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するワークフロー停止部と、前記ワークフロー停止部による前記ワークフローの停止中に、前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記エラーに対する対処を決定して実行するエラー対処部と、前記エラー対処部により実行された対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するワークフロー再開部と、を備える。
 前記エラー対処部は、前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記ワークフローの実行中に発生したエラーを解消するための対処処理の自動実行が可能か否かを判定し、前記対処処理の自動実行が可能であると判定した場合、当該対処処理を自動実行し、前記対処処理の自動実行が不可能であると判定した場合、前記発生したエラーを解消するための対処を作業者に指示してよい。
 前記エラー対処部は、前記対処処理に人の介入が必要であると判定した場合、前記対処処理の自動実行が不可能であると判定し、前記対処として、前記作業者に前記対処処理の実行を指示してよい。
 前記エラー対処部は、前記対応情報記憶部に記憶された対応情報に、前記ワークフローの実行中に発生したエラーに対応付けられた前記解消方法が存在しない場合、前記対処処理の自動実行が不可能であると判定し、前記対処として、前記作業者に前記エラーの解析および当該エラーを解消するための対処処理の実行を指示してよい。
 前記対応情報記憶部は、前記対応情報として、前記ワークフロー再開部により再開する処理を特定するための情報を、前記エラーおよび前記エラーの解消方法に対応付けて記憶してよい。
 前記ワークフロー再開部は、前記対処に応じて、前記複数の処理のうち、最初に実行される処理、前記エラーが発生した処理、および、前記エラーが発生した処理の次の処理のいずれかの処理から前記ワークフローを再開してよい。
 前記エラー対処部は、前記ログ収集部により収集されたログのうち、前記エラーが発生した処理に関連するコンポーネントのログを解析してよい。
 前記エラー対処部は、前記エラーが発生した処理がスキップ可能な処理であると判定した場合、前記エラーに対する対処として何もせず、前記ワークフロー再開部は、前記複数の処理のうち、前記エラーが発生した処理の次の処理から前記ワークフローを再開してよい。
 ネットワーク管理装置は、前記エラー対処部において、前記エラーが発生した処理がスキップ可能な処理であると判定され、前記エラーに対する対処として何もしなかった場合、前記ワークフロー再開部により前記ワークフローが再開され、前記一連のネットワーク構築処理が終了した後、前記エラーが発生した処理に対する対処を行い、前記エラーが発生した処理を再実行するエラー処理再実行部をさらに備えてよい。
 また、本発明に係るネットワーク管理方法の一態様は、ネットワーク管理装置が実行するネットワーク管理方法であって、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を取得するステップと、前記ワークフローの実行に関するログを収集するステップと、前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するステップと、前記ワークフローの停止中に、前記ログをもとに、前記対応情報を参照して、前記エラーに対する対処を決定して実行するステップと、実行された前記対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するステップと、を含む。
 さらに、本発明に係るネットワーク管理システムの一態様は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を記憶する対応情報記憶部と、前記ワークフローの実行に関するログを収集するログ収集部と、前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するワークフロー停止部と、前記ワークフロー停止部による前記ワークフローの停止中に、前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記エラーに対する対処を決定して実行するエラー対処部と、前記エラー対処部により実行された対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するワークフロー再開部と、を備える。
 本発明の一つの態様によれば、大規模ネットワークにおいて、全体の構築時間の短縮と、エラー対処に要する人的コストの削減とを実現することができる。
 上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
図1は、本実施形態のネットワーク管理装置を含むモバイルネットワークの構成例を示す図である。 図2は、ネットワーク管理システムの内部構成の一例を示す図である。 図3は、ネットワーク管理部の機能ブロック図である。 図4は、ワークフロー実行動作を示すシーケンス図である。 図5は、自動再開が可能な場合の動作を示すシーケンス図である。 図6は、ワークフロー制御部がログ収集部に渡すワークフロー情報の一例である。 図7は、ワークフローで定義される処理内容の一例である。 図8は、既知問題リストの一例である。 図9は、エラー解消方法リストの一例である。 図10は、ユーザへの2次解析依頼が必要な場合の動作を示すシーケンス図である。 図11は、ユーザへのエラー対処依頼が必要な場合の動作を示すシーケンス図である。 図12は、ワークフロー制御部の動作の一部を示すフローチャートである。 図13は、中央データセンタを構成する一仮想化基盤の例である。 図14は、ネットワーク管理装置のハードウェア構成の一例を示すブロック図である。
 以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
 以下、本実施形態に係るネットワーク管理装置が、仮想化基盤で構築されるモバイルネットワークにおけるネットワーク構築処理を自動で行うネットワーク管理機能を備える場合について説明する。
 具体的には、ネットワーク管理装置は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行する。そして、ネットワーク管理装置は、ワークフローの実行中にエラーが発生した場合、ワークフローの実行を停止してエラーに対する対処を行い、エラーが解消されたら、上記複数の処理のうち、対処に応じた処理からワークフローを再開する。
 ここで、ネットワーク構築処理は、ネットワーク装置(スイッチ等)の設定、仮想化プラットフォームのハードウェア設定、仮想化プラットフォームのソフトウェア設定、アプリケーション設定などを含む。
 より具体的には、ネットワーク管理装置は、ワークフローの実行中にワークフローの実行に関するログを収集しておき、エラーが発生してワークフローを停止した場合、収集されたログをもとに、エラーに対する対処を決定して実行する。このとき、ネットワーク管理装置は、ワークフローを実行した際に発生し得るエラーとエラー解消方法とを予め対応付けた対応情報を参照して、エラーに対する対処を決定して実行する。
 ネットワーク管理装置は、上記対応情報を参照して、エラーを解消するための対処処理の自動実行が可能か否かを判定し、対処処理の自動実行が可能であると判定した場合、当該対処処理を自動実行することでエラーを解消させる。
 一方、ネットワーク管理装置は、対処処理の自動実行が不可能であると判定した場合、エラーを解消するための対処を作業者(以下、「ユーザ」ともいう。)に指示する。ここで、ネットワーク管理装置は、エラーを解消するために人の介入が必要である場合、または、エラーを解消するための対処処理が確立していない場合に、対処処理の自動実行が不可能であると判定することができる。
 図1は、本実施形態のネットワーク管理装置を含むモバイルネットワーク100のネットワーク構成例を示す図である。
 図1に示すモバイルネットワーク100においては、スマートフォンなどのモバイル通信可能な端末と無線アクセスネットワーク(Radio Access Network:RAN)とが無線通信し、その情報をバックホールネットワーク(モバイルバックホール:MBH)を中継してコアネットワークに送って処理することで、インターネット200に接続したり、他社のネットワークと接続して音声通話をしたりすることができる。
 具体的には、モバイルネットワーク100は、基地局11と、複数の収容局12~14と、を備えて構成される。ここで、収容局12はエッジデータセンタ、収容局13は地域データセンタ(Regional Data Center:RDC)、収容局14は中央データセンタ(Central Data Center:CDC)である。エッジデータセンタ12から中央データセンタ14までの間でバックホールネットワークが構成される。
 本実施形態におけるモバイルネットワーク100は、仮想化基盤で構築された仮想化ネットワークであってよい。このモバイルネットワーク100では、汎用的なサーバ上に、基幹網の交換機から基地局の無線アクセス機能までをソフトウェアで実現している。
 基地局11は、アンテナや配電盤、バッテリー等を備える。
 エッジデータセンタ12は、基地局11の近くに設置され、複数の基地局11とそれぞれ光ファイバーケーブル等で接続されている。エッジデータセンタ12では、RAN関連の無線アクセス機能を実現する。
 地域データセンタ13は、対象地域に配置される複数のエッジデータセンタ12と接続されている。この地域データセンタ13では、ファイアウォール/NAT(Network Address Translation)、CDN(Content Distribution Network)や、エッジコンピューティングのためのさまざまなアプリケーションをソフトウェアにより実現する。
 中央データセンタ14は、複数の地域データセンタ13と接続されている。この中央データセンタ14では、EPC(Evolved Packet Core)やIMS(IP Multimedia Subsystem)などのコア機能を実現する。
 なお、エッジデータセンタ12、地域データセンタ13、中央データセンタ14といった各データセンタ(収容局)の数は、図1に示す数に限定されない。例えば図1では、地域データセンタ13および中央データセンタ14を1つずつしか図示していないが、地域データセンタ13および中央データセンタ14はそれぞれ複数設置されていてもよい。
 図2は、モバイルネットワーク100を構成するネットワーク管理システムの内部構成の一例を示す図である。
 この図2に示す構成要素は、それぞれ参照点を有している。図2に示す構成要素間を結ぶ線は、互いに情報の送受信が可能であることを示している。
 NFVI(NFV Infrastructure)110は、ネットワーク機能仮想化基盤であり、物理資源、仮想化層、仮想化資源を含んで構成される。物理資源には、計算資源、記憶資源、伝送資源といったハードウェアリソースが含まれる。仮想化層は、物理資源を仮想化してVNF(Network Function Virtualization)120に提供するためのハイパーバイザー等の仮想化レイヤである。仮想化資源は、VNF120に提供される仮想化されたインフラ資源である。
 即ち、NFVI110は、コンピューティング、ストレージ、ネットワーク機能といった物理サーバ(以下、単に「サーバ」ともいう。)のハードウェアリソースを、ハイパーバイザー等の仮想化レイヤで仮想化した仮想化コンピューティング、仮想化ストレージ、仮想化ネットワークといった仮想化ハードウェアリソースとして柔軟に扱えるようにした基盤である。
 NFVI110を構成するサーバは、複数まとめてデータセンタ(収容局)12~14に配置される。各データセンタ12~14に配置されるサーバの台数や配置位置、配線等は、データセンタのタイプ(収容局タイプ)によって予め定められている。各データセンタ12~14では、配置されたサーバが内部のネットワークによって接続されており、互いに情報の送受信を行うことができるようになっている。また、データセンタ間はネットワークで接続されており、異なるデータセンタに設けられたサーバは、当該ネットワークを介して互いに情報の送受信を行うことができるようになっている。
 VNF120は、サーバ上の仮想マシン(Virtual Machine:VM)で動作するアプリケーションに対応し、ネットワーク機能をソフトウェア的に実現する。なお、特に図示しないが、VNF120ごとにEM(Element Manager)という管理機能が設けられていてもよい。
 図2におけるNFVI110とVNF120とで仮想化環境を構成している。つまり、仮想化環境は、下層から順に、ハードウェア、仮想化レイヤ、仮想マシンの3レイヤで構成される。
 MANO(Management and Orchestration)130は、仮想化環境の管理機能とオーケストレーション機能とを有する。MANO130は、NFVO(NFV-Orchestrator)131、VNFM(VNF-Manager)132、VIM(Virtualized Infrastructure Manager)133を備える。
 NFVO131は、NFVIリソースのオーケストレーションや、ネットワークサービスのライフサイクル管理を行い、システム全体の統合的な運用管理を行う。このNFVO131は、後述するOSS/BSS(Operation Support System/Business Support System)140からの指示に応じた処理を行うことができる。
 VNFM132は、VNF120のライフサイクル管理を行う。なお、VNFM132は、VNF120毎に、それぞれ対応する専用VNFMとしてMANO130に配置されていてもよい。または、1つのVNFM132が、2以上のVNF120のライフサイクルを管理してもよい。この場合、VNFM132は、異なるベンダから提供されるVNF120に対応する汎用VNFMであってもよい。
 VIM133は、VNF120が使用するリソースの運用管理を行う。
 OSS/BSS140は、モバイルネットワーク100の統合管理システムである。
 ここで、OSSは、サービスを構築し、運営していくために必要なシステム(機器やソフトウェア、仕組みなど)であり、BSSは、利用料などの課金、請求、顧客対応などのために用いる情報システム(機器やソフトウェア、仕組みなど)である。
 ネットワーク管理部150は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行し、ワークフローの実行中にエラーが発生した場合、ワークフローの実行を停止してエラーに対する対処を行い、当該対処に応じた処理からワークフローを再開するネットワーク管理機能を実現する。このネットワーク管理部150が本実施形態に係るネットワーク管理装置を構成している。
 ネットワーク管理部150は、エラー対処データベース(エラー対処DB)150aを備える。ネットワーク管理部150は、ワークフローの実行中にエラーが発生した場合、ワークフローの実行に関するログをもとにエラー対処データベース150aを参照してエラーに対する対処を決定し実行する。
 エラー対処データベース150aは、ワークフローを実行した際に発生し得るエラーと当該エラーの解消方法とを対応付けた対応情報を記憶する対応情報記憶部である。このエラー対処データベース150aは、過去に実際に発生したエラーや、これから発生し得るエラーについての対応情報を格納することができる。
 なお、エラー対処データベース150aは、上記対応情報を外部装置から取得し、一時的に記憶する揮発性メモリまたは不揮発性メモリ等であってもよい。この場合、対応情報を取得するタイミングは特に限定されない。
 さらに、ネットワーク管理部150は、図2に示すようにOSS/BSS140やMANO130の外部機能である場合に限定されない。ネットワーク管理部150は、OSS/BSS140の内部に設けられていてもよいし、MANO130の内部に設けられていてもよい。この場合、ネットワーク管理部150が有するネットワーク管理機能は、OSS/BSS140やMANO130の機能の一部となる。
 図3は、ネットワーク管理部150の機能ブロック図である。
 この図3に示すように、ネットワーク管理部150は、ログ収集部151と、ログ解析部152と、ワークフロー制御部153と、ユーザインタフェース(I/F)154と、を備える。ワークフロー制御部153は、ワークフロー停止部(WF停止部)153aと、エラー対処実行部153bと、ワークフロー再開部(WF再開部)153cと、を備える。また、ネットワーク管理装置150は、エラー対処データベース(エラー対処DB)150aを備える。
 ログ収集部151は、ワークフローの実行に関するログを収集する。ワークフローが実行された場合、例えばOSS140は、VNFM132やVIM133に命令を出してワークフローに定義された処理を順に実行していくことができる。この場合、ログ収集部151は、VNFM132やVIM133から直接、または、MANO130やOSS140を介してログを収集することができる。
 ログ解析部152は、ワークフローの実行中にエラーが発生した場合、ログ収集部151により収集されたログをもとに、エラー対処データベース150aを参照して、エラーを解消するための対処処理の自動実行が可能か否かを判定する。
 ワークフロー制御部153のワークフロー停止部153aは、例えばOSS140からの停止依頼に従って、実行中のワークフローを停止する。OSS140は、ワークフロー実行中にログ収集部151により収集されるログをもとにエラー発生の有無を判定し、エラー発生している場合、ワークフロー制御部153に対してワークフローの停止依頼を送信することができる。なお、ワークフロー実行中におけるエラー発生の有無は、ワークフロー制御部153が判定してもよい。
 エラー対処実行部153bは、ワークフローの実行中にエラーが発生してワークフロー停止部153aによりワークフローが停止された場合、ログ解析部152によるログ解析結果をもとに、エラーに対する対処を決定して実行する。
 ワークフロー再開部153cは、エラー対処実行部153bにより実行された対処によってエラーが解消された場合、ワークフローを再開する。このとき、ワークフロー再開部153cは、ワークフローに定義された複数の処理のうち、エラー対処実行部153bにより実行された対処に応じた処理からワークフローを再開する。
 具体的には、ワークフロー再開部153cは、複数の処理のうち、最初に実行される処理、エラーが発生した処理、または、エラーが発生した処理の次の処理からワークフローを再開することができる。
 ユーザインタフェース154は、ユーザが操作可能な入出力装置であり、キーボードやマウス等のポインティングディバイス、モニタ、スピーカ等を含む。
 なお、図3に示したネットワーク管理部150の機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。例えば、ログ解析部152およびエラー対処実行部153bは、ワークフロー停止部153aによるワークフローの停止中に、ログ収集部151により収集されたログをもとに、エラー対処データベース150aを参照して、エラーに対する対処を決定して実行する1つの機能ブロックであるエラー対処部を構成してもよい。
 また、ネットワーク管理部150の複数の機能は、それぞれ、図2に示すネットワーク管理システムのOSS/BSS140やMANO130の外部機能、OSS/BSS140の内部機能、MANO130内部機能に分かれていてもよい。
 図4は、ワークフロー実行中の動作を示すシーケンス図である。
 まずステップS1において、OSS140は、ワークフロー制御部(WF制御部)153に対してWF実行依頼を送信し、ワークフローの実行を指示する。
 すると、ワークフロー制御部153は、ステップS2においてワークフロー実行を開始し、ステップS3において、ログ収集部151に対してログ収集依頼を送信する。
 ステップS4では、ログ収集部151は、NFVI110やVNF120に対してワークフローの実行に関するログを要求する。ステップS5では、ログ収集部151は、NFVI110やVNF120から送信された収集ログを取得し、これをワークフロー制御部153に送信する。
 ワークフロー制御部153は、ステップS6においてログ収集部151から収集ログを取得し、これをOSS140に送信する。OSS140は、ステップS7においてワークフロー制御部153から収集ログを取得する。
 OSS140は、取得された収集ログを解析し、ワークフローの実行中にエラーが発生しているか否かを判定することができる。そして、OSS140は、ワークフローの実行中にエラーが発生していると判定した場合、ワークフロー制御部153に対してワークフローの停止依頼を送信することができる。このとき、OSS140は、どのワークフローのどのステップでエラーが発生したかを示す情報等を含めて、ワークフロー制御部153にエラーが発生していることを通知してよい。
 なお、ログ収集部151は、図4に示すようにNFVI110やVNF120から直接ログを収集する場合に限定されない。ログ収集部151は、上述したように、MANO130やOSS140を介してNFVI110やVNF120からログを収集してもよい。
 図5は、ワークフローの実行中にエラーが発生し、ワークフロー停止部153aによりワークフローが停止された後の動作の一例を示すシーケンス図である。
 なお、以下の説明では、エッジデータセンタ12のネットワーク構築処理を実行する例について説明する。なお、以下の説明では、エッジデータセンタを他のデータセンタと区別するためにGC(Group unit Center)と呼ぶ。
 ワークフローが停止されると、まずステップS11において、ワークフロー制御部(WF制御部)153は、エラー対処を行うためのログ解析用ワークフローを開始する。
 そして、ステップS12において、ワークフロー制御部153は、ログ収集部151に対してログ解析依頼を送信する。このログ解析依頼には、図6に示すワークフロー情報401が含まれる。
 ワークフロー情報401は、図6に示すように、解析ID、ネットワーク構築対象のGC名(GC Name)、GCコード(GC code)、処理に失敗したステップ番号(Failed step code)、処理に失敗したワークフローID(WF ID)を含んでよい。このワークフロー情報401を構成する情報は、ワークフロー制御部153がOSS140からワークフローの停止依頼とともに取得することができる。
 図5に戻って、ステップS13では、ログ収集部151は、ログ解析部152に収集ログを送信する。このとき送信される収集ログは、エラーが発生した処理に関連するコンポーネントのログであってよい。ログ収集部151は、図6に示すワークフロー情報401に含まれる情報をもとに、エラーが発生した処理に関連するコンポーネントのログを選定し、ログ解析部152に送信することができる。
 具体的には、ログ収集部151は、ワークフロー情報401に含まれる「Failed step code」をもとに、図7に示す処理リスト402を参照してエラーが発生した処理の内容を確認し、当該処理に関連するコンポーネントのログを解析対象のログとして選定することができる。例えばエラーが発生した処理が、ハードウェアに関連する処理である場合、ハードウェアに関連するログを解析対象のログとして選定することができる。
 なお、処理リスト402は、ワークフローごとに用意されていてよい。この場合、ログ収集部151は、ワークフロー情報401に含まれる「WF ID」をもとに、エラーが発生したワークフローに対応する処理リスト402を参照することができる。
 また、ログ収集部151が処理リスト402を参照する場合に限定されるものではなく、例えば、ワークフロー制御部153が処理リスト402を参照し、ワークフロー情報401に図7に示す処理内容を含めてログ収集部151に送信してもよい。
 図5に戻って、ステップS14では、ログ解析部152は、図8に示す既知問題リスト(Known issue list)411を参照して、ログ収集部151から受信した収集ログを解析し、エラーを解消するための対処処理の自動実行が可能か否かを判定する。既知問題リスト411は、エラー解消方法が確立している既知問題のリストであり、エラー対処データベース150aに格納されている。
 既知問題リスト411は、図8に示すように、エラーID、キーワード、エラー解消コード、自動実行フラグを含んでよい。
 ここで、キーワードは、ログに含まれるエラーキーワードである。なお、図8に示すキーワードは一例であり、より詳細なキーワードであってよい。例えばキーワードが「timeout」である場合、どのコンポーネント間でのタイムアウトであるといった具体的な内容が記述されたキーワードであってよい。
 また、自動実行フラグは、エラーを解消するための対処処理の自動実行が可能か否かを示すフラグであり、trueは自動実行可能、falseは自動実行不可能であることを示す。
 このステップS14では、ログ解析部152は、ログ収集部151から受信した収集ログをキーとして既知問題リスト411を検索する。
 そして、既知問題リスト411に該当するレコードが存在する場合、ログ解析部152は、ステップS15において、該当するレコードのエラー解消コードと自動実行フラグとを含むログ解析結果をログ収集部151に送信する。一方、既知問題リスト411に該当するレコードが存在しない場合には、ログ解析部152は、ステップS15において、該当するレコードが存在しないことを示す情報を含むログ解析結果をログ収集部151に送信する。
 なお、ワークフローによって発生し得るエラーやその解消方法が異なる場合もあるため、既知問題リスト411は、ワークフローごとに用意されていてもよい。
 ステップS16では、ログ収集部151は、ログ解析部152から受信したログ解析結果をワークフロー制御部153にそのまま送信する。
 ステップS17では、ワークフロー制御部153は、ログ収集部151から受信したログ解析結果をもとに、発生したエラーが、エラー解消方法が確立している既知問題であるか、エラー解消方法が確立していない未知問題であるかを判定し、既知問題である場合には、エラーを解消するための対処処理の自動実行が可能か否かを判断する判断処理を行う。そして、ワークフロー制御部153は、この判断処理の結果に応じて、エラーに対する対処を実行する。
 例えば、ステップS13においてログ収集部151からログ解析部152に送信される収集ログに、エラーキーワード「timeout」が含まれる場合、ログ解析部152は、図8のエラーID=10000001のレコードに含まれるエラー解消コード(01)と自動実行フラグ(true)とをログ解析結果に含めてログ収集部151に送信する。そして、このログ解析結果をログ収集部151から受信したワークフロー制御部153は、発生したエラーが、エラー解消方法が確立している既知問題であり、かつ、エラーを解消するための対処処理の自動実行が可能であると判断する。
 そのため、ステップS18において、ワークフロー制御部153は、対処処理を自動実行し、ワークフローを再開する。
 このとき、ワークフロー制御部153は、図9に示すエラー解消方法リスト412を参照してエラー解消方法を確認し、対処処理を自動実行する。エラー解消方法リスト412は、図9に示すように、エラー解消コード、エラー解消方法、ワークフロー再開時にどの処理から再開するかを特定するための再開ステップ番号(Step code)、発生したエラーがハードウェア(HW)の問題であるのかソフトウェア(SW)の問題であるのかを示す情報を含んでよい。ここで、エラー解消方法リスト412のエラー解消コードは、図8に示す既知問題リスト411のエラー解消コードに対応している。
 ワークフロー制御部153は、上記の例のようにエラー解消コード=01を含むログ解析結果を受信した場合、図9に示すエラー解消方法リスト412をもとに、エラー解消方法が「リトライ」であることを確認することができる。
 この場合、ワークフロー制御部153は、ステップS18において、ワークフローのリトライを実行する。つまり、ワークフロー制御部153は、ワークフローを再開する。このとき、ワークフロー制御部153は、図9に示すエラー解消方法リスト412を参照して、ログ解析結果に含まれるエラー解消コードに対応する再開ステップ番号を確認し、当該再開ステップ番号の処理からワークフローを再開する。
 このように、エラーを解消するための対処処理の自動実行が可能である場合には、対処処理を自動実行してからワークフローを自動再開する。
 なお、ここでは自動実行可能なエラー解消方法が「リトライ」である場合について説明したが、自動実行可能なエラー解消方法は上記に限定されない。エラー解消方法が、人の介入が不要な対処処理であれば、ワークフロー制御部153は、対処処理を自動実行してワークフローを自動再開することができる。
 ワークフロー制御部153は、ワークフローを自動再開した後は、図4のステップS3と同様にログ収集部151に対してログ収集依頼を送信し、ログ収集を再開する。
 次に、エラーを解消するための対処処理の自動実行が不可能である場合の動作について説明する。
 本実施形態では、発生したエラーが未知問題である、つまり、既知問題リスト411に発生したエラーに対応付けられたエラー解消方法が存在しない場合、または、エラー解消方法が存在するが、必ず人の介入が必要な対処処理である場合に、エラーを解消するための対処処理の自動実行が不可能であると判断する。
 図10は、発生したエラーが未知問題である場合の動作を示すシーケンス図である。この図10において、ステップS21~S26の処理は、図5のステップS11~S16と同様の処理である。
 例えば、過去に発生したことのないエラーや、過去に発生したがエラー解消方法が確立してないエラーについては、既知問題リスト411に登録されておらず、該当するレコードが存在しない。
 そのため、ステップS26では、ワークフロー制御部153は、ログ収集部151から、既知問題リスト411に発生したエラーに該当するレコードが存在しないことを示す情報を含むログ解析結果を受信する。
 そして、ステップS27において、ワークフロー制御部153は、発生したエラーが、エラー解消方法が確立していない未知問題であり、エラーを解消するための対処処理の自動実行が不可能であると判断する。
 すると、ワークフロー制御部153は、ステップS28において、ユーザ300に対してエラーの解析依頼とエラーを解消するための対処処理の実行指示とを含む2次解析依頼をユーザI/F154に送信する。ステップS29では、ユーザ300は、ユーザI/F154を介して2次解析依頼を確認する。
 これにより、ステップS30において、ユーザ300によるエラー解析が行われ、ステップS31において、ユーザ300による対処処理の実行が行われる。対処処理の実行後、ユーザ300は、ユーザI/F154を介して、対処処理の実行が完了したことを示す完了通知をワークフロー制御部153に対して送信する(ステップS32、S33)。
 ワークフロー制御部153は、この完了通知を受信すると、ステップS34においてワークフローを再開する。例えばユーザ300は、完了通知に再開する処理を特定するための情報を含めて送信し、ワークフロー制御部153は、完了通知に含まれる情報をもとにワークフローを再開してよい。なお、ワークフロー制御部153は、ユーザ300からの指定を受け付けず、ワークフローに定義された複数の処理のうち、最初に実行される処理からワークフローを再開してもよい。
 図11は、発生したエラーが既知問題であるが、人の介入が必要な対処処理を要する場合の動作を示すシーケンス図である。この図11において、ステップS41~S46の処理は、図5のステップS11~S16と同様の処理である。
 例えばワークフローの実行中にハードウェアの不具合等のエラーが発生した場合、ハードウェアの修理、交換といった人の介入が必要な対処処理が必要となり、対処処理の自動実行はできない。
 そのため、ステップS46では、ワークフロー制御部153は、ログ収集部151から、既知問題リスト411から検索されたエラー解消コードと自動実行フラグ(false)とを含むログ解析結果を受信する。
 そして、ステップS47において、ワークフロー制御部153は、発生したエラーが、エラー解消方法が確立している既知問題であるが、エラーを解消するための対処処理の自動実行が不可能であると判断する。
 すると、ワークフロー制御部153は、ステップS48において、ユーザ300に対してエラーを解消するための対処処理の実行指示を含むエラー対処依頼(アクション通知)をユーザI/F154に送信する。ステップS49では、ユーザ300は、ユーザI/F154を介してエラー対処依頼を確認する。
 これにより、ステップS50では、ユーザ300による対処処理の実行が行われる。対処処理の実行後、ユーザ300は、ユーザI/F154を介して、対処処理の実行が完了したことを示す完了通知をワークフロー制御部153に対して送信する(ステップS51、S52)。
 ワークフロー制御部153は、この完了通知を受信すると、ステップS53においてワークフローを再開する。このとき、ワークフロー制御部153は、図9のエラー解消方法リスト412を参照して、ログ解析結果に含まれるエラー解消コードに対応する再開ステップ番号を確認し、当該再開ステップ番号の処理からワークフローを再開する。
 このように、エラーを解消するための対処処理の自動実行が不可能である場合には、ユーザ300による対処処理の実行が完了するまで待機し、ワークフローを再開する。
 以下、ワークフロー制御部153がログ解析結果を受信した後の動作について、図12に示すフローチャートをもとに説明する。この図12に示す処理は、図5のステップS17およびS18、図10のステップS27~S34、図11のステップS47~S53の処理に対応している。
 まずステップS101において、ワークフロー制御部153は、ログ解析結果を取得し、ステップS102に移行する。
 ステップS102では、ワークフロー制御部153は、ステップS101において取得されたログ解析結果に含まれる自動実行フラグをもとに、エラーを解消するための対処処理の自動実行が可能か否かを判定する。具体的には、ワークフロー制御部153は、自動実行フラグがtrueである場合、自動実行が可能であると判定してステップS103に移行し、自動実行フラグがfalseである場合、自動実行が不可能であると判定してステップS104に移行する。
 ステップS103では、ワークフロー制御部153は、ログ解析結果に含まれるエラー解消コードをもとに、図9のエラー解消方法リスト412を参照し、エラー解消方法を確認して対処処理を自動実行する。ワークフロー制御部153は、対処処理を自動実行した後、ステップS108に移行する。
 ステップS104では、ワークフロー制御部153は、ログ解析結果をもとに、発生したエラーが既知問題であるか未知問題であるかを判定する。
 そして、ワークフロー制御部153は、ステップS104において、発生したエラーが未知問題であると判定した場合、ステップS105に移行し、ユーザI/F154にユーザ300に対する2次解析依頼を送信してステップS107に移行する。
 一方、ワークフロー制御部153は、ステップS104において、発生したエラーが既知問題であると判定した場合、ステップS106に移行し、ユーザI/F154にユーザ300に対するエラー対処依頼を送信してステップS107に移行する。
 ステップS107では、ワークフロー制御部153は、ユーザI/F154を介してユーザ300からの完了通知を受信したか否かを判定し、完了通知を受信していない場合にはそのまま待機し、完了通知を受信するとステップS108に移行する。
 ステップS108では、ワークフロー制御部153は、停止していたワークフローを再開する。
 このワークフロー再開時には、ワークフロー制御部153は、発生したエラーに対して実行された対処に応じた処理からワークフローを再開する。
 具体的には、ワークフロー制御部153は、実行された対処に応じて、ワークフローに定義された複数の処理のうち、最初に実行される処理、エラーが発生した処理、エラーが発生した処理の次の処理のいずれかの処理からワークフローを再開する。
 例えば、エラーに対する対処処理として、後述するマネジメントノード(管理用サーバ)の筐体を交換する処理を行った場合、パラメータなどの情報が変更され、セットアップの元になるファイルの更新が必要になるため、ワークフローの最初から実行し直す必要がある。そのため、この場合には、ワークフローに定義された複数の処理のうち、最初に実行される処理からワークフローを再開する。
 一方、ネットワークに問題が発生して疎通不可となるエラーが発生し、当該エラーに対する対処を行ってネットワークが疎通された場合には、エラーが発生した処理からワークフローを実行し直せばよい。そのため、この場合には、ワークフローに定義された複数の処理のうち、エラーが発生した処理からワークフローを再開する。
 また、仮想マシンのイメージ(雛形)をオンボーディングする処理でエラーが発生し、当該エラーに対する対処処理として、ユーザがマニュアルでオンボーディングした場合、ユーザによる対処処理によってエラーが発生した処理は実行済みとなる。そのため、この場合には、ワークフローに定義された複数の処理のうち、エラーが発生した処理の次の処理からワークフローを再開する。
 なお、ワークフロー制御部153は、エラーが発生した処理がスキップ可能な処理であると判定した場合、エラーに対する対処として何もせず、ワークフローに定義された複数の処理のうち、エラーが発生した処理の次の処理からワークフローを再開してもよい。
 例えば、多数のノードに対して順にインストール等の構築処理を行うワークフローを実行した場合、エラーが発生したノードが、全体の構成に影響を与えないノードである場合には、当該ノードに対する処理をスキップし、先に他のノードに対する処理を進めてもよい。
 図13は、中央データセンタ(CDC)を構成する一仮想化基盤の例である。この図13に示すように、一仮想化基盤は、マネジメントノード510や、コンピュートノード501、ストレージノード502、コントローラノード503等の物理サーバを含んで構成されている。
 ここで、マネジメントノード510は、各ノード501、502、503のソフトウェアのインストールやモニタリングの役割、および、各ノード501、502、503に対する操作を実現するためのユーザインタフェースを提供する役割を担う。
 また、コントローラノード503は、仮想マシンのライフサイクルに関わるオペレーションを司るものであり、3台で冗長構成を組んでいる。
 なお、エッジデータセンタ(GC)、地域データセンタ(RDC)についても同様に、マネジメントノードや、3冗長構成を有するコントローラノードを含んで構成されている。
 上記のように、マネジメントノード510は各ノード501、502、503のソフトウェアのインストーラとしての役割を担う。そのため、マネジメントノード510はネットワーク構築に不可欠なノードである。
 また、3冗長構成を有するコントローラノード503は、2ノード以上で不具合が発生すると冗長構成を保てない。そのため、コントローラノード503は、2ノード以上が正常に動作している必要がある。
 つまり、マネジメントの役割をするノードや全体の構成に影響を与えるノードが故障している場合や、コントローラの役割をするノードが冗長構成を保てない数故障している場合には、ワークフロー全体を停止して筐体交換やハードウェア部品交換等の対処処理を行い、対処後にワークフローを再開する。
 一方、マネジメントの役割をしないノードや全体の構成に影響を与えないノードが故障している場合には、対象のノードを除外して先に他のノード対する処理を進めてよい。この場合、ワークフローの再開により一連のネットワーク構築処理が終了した後、エラーが発生した処理に対する対処として、上記対象ノードの筐体交換やハードウェア部品交換等を行い、エラーが発生した処理を再実行することができる。エラーが発生した処理を再実行するエラー処理再実行部は、ワークフロー制御部153が備えてよい。
 なお、マネジメントの役割をしないノードや全体の構成に影響を与えないノードが故障している場合であっても、例えばネットワーク構築のスケジュールに余裕がある場合などには、ワークフローを停止して対象のノードに対するエラー対処を行い、対処後にワークフローを再開することが好ましい。
 以上説明したように、本実施形態におけるネットワーク管理装置であるネットワーク管理部150は、複数の処理からなる一連のネットワーク構築処理を定義したワークフローの実行中にエラーが発生した場合、ワークフローの実行を停止し、エラーに対する対処を実行してワークフローを再開する。このとき、ネットワーク管理部150は、ワークフローの実行中に、ワークフローの実行に関するログを収集し、エラーが発生してワークフローが停止された場合、収集されたログをもとに、エラーに対する対処を決定して実行する。
 具体的には、ネットワーク管理部150は、収集されたログをもとに、ワークフローを実行した際に発生し得るエラーと当該エラーの解消方法とを対応付けた対応情報を参照して、エラーに対する対処を決定して実行する。そして、ネットワーク管理部150は、エラーに対する対処が実行されてエラーが解消された場合、ワークフローに定義された複数の処理のうち、上記対処に応じた処理からワークフローを再開する。
 このように、ワークフローの実行中にエラーが発生した場合には、ネットワーク管理部150が、ログをもとにエラーに対する対処を決定して実行する。そのため、ネットワーク構築作業を行う作業者が、通知されたアラートやログ等を解析して問題の原因を特定し、対処処理を行う必要が無い。
 テレコムネットワークは大規模であり、また、近年のテレコムネットワークは、マルチレイヤおよびマルチベンダで構築された仮想化ネットワークである。また、テレコムネットワークの構築作業には多数の部門(もしくは人、会社)が関わっている場合がある。そのため、問題の原因特定や解析依頼先の選定を人が行う場合、多大な時間と労力とを要する。
 本実施形態では、上述したように、ネットワーク管理部150が、ワークフロー実行中のログをもとにエラーに対する対処を決定して実行することができるので、作業者による作業(労力、時間)を削減することができる。このように、作業者の負担軽減を実現することで、人的コストが削減される。また、問題対処が完了までの時間を短縮することもできる。これにより、その間の構築作業の停止時間を短縮することができ、結果として全体の構築作業時間を短縮することができる。
 さらに、ネットワーク管理部150は、ワークフローを再開する際、エラーに対して実行した対処に応じた処理からワークフローを再開する。具体的には、ネットワーク管理部150は、エラーに対して実行した対処に応じて、ワークフローに定義された複数の処理のうち、最初に実行される処理、エラーが発生した処理、および、エラーが発生した処理の次の処理のいずれかの処理からワークフローを再開することができる。
 これにより、不必要に処理を重複して実行してしまうことを回避することができ、無駄な実行時間を削減することができる。そのため、全体の構築作業時間を適切に削減することができる。
 なお、どの処理からワークフローを再開するかは、対応情報においてエラーおよびエラー解消方法に対応付けられた再開ステップ番号をもとに判断することができる。これにより、容易かつ適切にワークフローを再開する処理を特定することができる。
 ここで、ネットワーク管理部150は、ワークフロー実行中に収集されたログをもとに、エラーとエラー解消方法とを対応付けた対応情報を参照して、ワークフロー実行中に発生したエラーを解消するための対処処理の自動実行が可能か否かを判定することができる。そして、ワークフロー管理部150は、対処処理の自動実行が可能であると判定した場合、当該対処処理を自動実行し、対処処理の自動実行が不可能であると判定した場合、エラーを解消するための対処をユーザ300に指示することができる。
 具体的には、ネットワーク管理部150は、対応情報においてエラーに対応付けられたエラー解消方法が、人の介入が不要な対処処理の実行である場合、対処処理の自動実行が可能であると判定し、対処処理を自動実行することができる。
 一方、ネットワーク管理部150は、対応情報においてエラーに対応付けられたエラー解消方法が、人の介入が必要な対処処理の実行である場合、対処処理の自動実行が不可能であると判定する。そして、ネットワーク管理部150は、エラーを解消するための対処として、ユーザ300に対処処理の実行を指示することができる。
 また、ネットワーク管理部150は、対応情報にエラーに対応付けられたエラー解消方法が存在しない場合には、対処処理の自動実行が不可能であると判定し、エラーを解消するための対処として、ユーザ300にエラーの解析および当該エラーを解消するための対処処理の実行を指示することができる。
 このように、収集ログをもとに、対応情報を参照して、エラーに対する対処を自動的に決定し、適切に実行することができる。なお、対処処理の自動実行が可能であるか否かは、対応情報においてエラーに対応付けられた自動実行フラグを用いて判定することもできる。これにより、容易かつ適切に対処処理の自動実行が可能か否かを判定し、迅速かつ高精度に対処処理の自動実行またはユーザ300への通知を行うことができる。
 また、ワークフロー実行中にエラーが発生した場合、エラーが発生した処理に関連するコンポーネントのログを解析するようにすれば、エラーに対する対処の決定を効率良く行うことができる。
 以上のように、本実施形態では、大規模ネットワークにおいて、全体の構築時間を短縮し、エラー対処に要する人的コストを削減することができる。
 本実施形態に係るネットワーク管理装置は、モバイルネットワーク100のバックホールネットワークやコアネットワーク等を構成するいずれかの汎用サーバに実装されてよい。なお、ネットワーク管理装置は、専用サーバに実装されてもよい。また、ネットワーク管理装置は、単一または複数のコンピュータ上に実装されてもよい。
 ネットワーク管理装置が単一のコンピュータに実装される場合、図14に示すように、ネットワーク管理装置1は、CPU2、ROM3、RAM4、HDD5、入力部(キーボード、ポインティングデバイス等)6、表示部(モニター等)7、通信I/F8等を備えることができる。この場合、図3に示すネットワーク管理部150の各要素の少なくとも一部の機能は、上記CPU2がプログラムを実行することで実現することができる。ただし、図3に示すネットワーク管理部150の各要素のうちの少なくとも一部が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、上記CPU2の制御に基づいて動作する。
 なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
 11…基地局、12…エッジデータセンタ、13…地域データセンタ、14…中央データセンタ、100…モバイルネットワーク、110…NFVI、120…VNF、130…MANO、131…NFVO、132…VNFM、133…VIM、140…OSS/BSS、150…ネットワーク管理部、150a…エラー対処データベース151…ログ収集部、152…ログ解析部、153…ワークフロー制御部、153a…ワークフロー停止部、153b…エラー対処実行部、153c…ワークフロー再開部、154…ユーザインタフェース

 

Claims (11)

  1.  複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を記憶する対応情報記憶部と、
     前記ワークフローの実行に関するログを収集するログ収集部と、
     前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するワークフロー停止部と、
     前記ワークフロー停止部による前記ワークフローの停止中に、前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記エラーに対する対処を決定して実行するエラー対処部と、
     前記エラー対処部により実行された対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するワークフロー再開部と、を備えることを特徴とするネットワーク管理装置。
  2.  前記エラー対処部は、
     前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記ワークフローの実行中に発生したエラーを解消するための対処処理の自動実行が可能か否かを判定し、
     前記対処処理の自動実行が可能であると判定した場合、当該対処処理を自動実行し、
     前記対処処理の自動実行が不可能であると判定した場合、前記発生したエラーを解消するための対処を作業者に指示することを特徴とする請求項1に記載のネットワーク管理装置。
  3.  前記エラー対処部は、
     前記対処処理に人の介入が必要であると判定した場合、前記対処処理の自動実行が不可能であると判定し、
     前記対処として、前記作業者に前記対処処理の実行を指示することを特徴とする請求項2に記載のネットワーク管理装置。
  4.  前記エラー対処部は、
     前記対応情報記憶部に記憶された対応情報に、前記ワークフローの実行中に発生したエラーに対応付けられた前記解消方法が存在しない場合、前記対処処理の自動実行が不可能であると判定し、
     前記対処として、前記作業者に前記エラーの解析および当該エラーを解消するための対処処理の実行を指示することを特徴とする請求項2または3に記載のネットワーク管理装置。
  5.  前記対応情報記憶部は、前記対応情報として、前記ワークフロー再開部により再開する処理を特定するための情報を、前記エラーおよび前記エラーの解消方法に対応付けて記憶していることを特徴とする請求項1から4のいずれか1項に記載のネットワーク管理装置。
  6.  前記ワークフロー再開部は、
     前記対処に応じて、前記複数の処理のうち、最初に実行される処理、前記エラーが発生した処理、および、前記エラーが発生した処理の次の処理のいずれかの処理から前記ワークフローを再開することを特徴とする請求項1から5のいずれか1項に記載のネットワーク管理装置。
  7.  前記エラー対処部は、
     前記ログ収集部により収集されたログのうち、前記エラーが発生した処理に関連するコンポーネントのログを解析することを特徴とする請求項1から6のいずれか1項に記載のネットワーク管理装置。
  8.  前記エラー対処部は、
     前記エラーが発生した処理がスキップ可能な処理であると判定した場合、前記エラーに対する対処として何もせず、
     前記ワークフロー再開部は、前記複数の処理のうち、前記エラーが発生した処理の次の処理から前記ワークフローを再開することを特徴とする請求項1から7のいずれか1項に記載のネットワーク管理装置。
  9.  前記エラー対処部において、前記エラーが発生した処理がスキップ可能な処理であると判定され、前記エラーに対する対処として何もしなかった場合、
     前記ワークフロー再開部により前記ワークフローが再開され、前記一連のネットワーク構築処理が終了した後、前記エラーが発生した処理に対する対処を行い、前記エラーが発生した処理を再実行するエラー処理再実行部をさらに備えることを特徴とする請求項8に記載のネットワーク管理装置。
  10.  ネットワーク管理装置が実行するネットワーク管理方法であって、
     複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を取得するステップと、
     前記ワークフローの実行に関するログを収集するステップと、
     前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するステップと、
     前記ワークフローの停止中に、前記ログをもとに、前記対応情報を参照して、前記エラーに対する対処を決定して実行するステップと、
     実行された前記対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するステップと、を含むことを特徴とするネットワーク管理方法。
  11.  複数の処理からなる一連のネットワーク構築処理を定義したワークフローを実行した際に発生し得るエラーと、当該エラーの解消方法と、を対応付けた対応情報を記憶する対応情報記憶部と、
     前記ワークフローの実行に関するログを収集するログ収集部と、
     前記ワークフローの実行中にエラーが発生した場合、前記ワークフローの実行を停止するワークフロー停止部と、
     前記ワークフロー停止部による前記ワークフローの停止中に、前記ログ収集部により収集されたログをもとに、前記対応情報記憶部に記憶された対応情報を参照して、前記エラーに対する対処を決定して実行するエラー対処部と、
     前記エラー対処部により実行された対処によって前記エラーが解消された場合、前記複数の処理のうち、前記対処に応じた処理から前記ワークフローを再開するワークフロー再開部と、を備えることを特徴とするネットワークシステム。

     
     
     
PCT/JP2021/034521 2021-09-21 2021-09-21 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム WO2023047450A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/034521 WO2023047450A1 (ja) 2021-09-21 2021-09-21 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
US17/788,820 US20240193033A1 (en) 2021-09-21 2021-09-21 Network management apparatus, network management method and network management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/034521 WO2023047450A1 (ja) 2021-09-21 2021-09-21 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム

Publications (1)

Publication Number Publication Date
WO2023047450A1 true WO2023047450A1 (ja) 2023-03-30

Family

ID=85720235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/034521 WO2023047450A1 (ja) 2021-09-21 2021-09-21 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム

Country Status (2)

Country Link
US (1) US20240193033A1 (ja)
WO (1) WO2023047450A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10289140A (ja) * 1997-04-14 1998-10-27 Hitachi Ltd バッチ処理障害時の復旧方式
JP2001034509A (ja) * 1999-07-16 2001-02-09 Hitachi Ltd 情報処理装置の障害回復方法
JP2001094559A (ja) * 1999-09-17 2001-04-06 Mitsubishi Electric Corp ネットワーク設計装置、ネットワーク設計方法、および設計プログラムを記録した記録媒体
JP2010176303A (ja) * 2009-01-28 2010-08-12 Nippon Yunishisu Kk バッチ処理システムおよびこれに用いる情報端末装置、バッチ処理のリカバリ方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10289140A (ja) * 1997-04-14 1998-10-27 Hitachi Ltd バッチ処理障害時の復旧方式
JP2001034509A (ja) * 1999-07-16 2001-02-09 Hitachi Ltd 情報処理装置の障害回復方法
JP2001094559A (ja) * 1999-09-17 2001-04-06 Mitsubishi Electric Corp ネットワーク設計装置、ネットワーク設計方法、および設計プログラムを記録した記録媒体
JP2010176303A (ja) * 2009-01-28 2010-08-12 Nippon Yunishisu Kk バッチ処理システムおよびこれに用いる情報端末装置、バッチ処理のリカバリ方法

Also Published As

Publication number Publication date
US20240193033A1 (en) 2024-06-13

Similar Documents

Publication Publication Date Title
US9116874B2 (en) Virtual machine test system, virtual machine test method
US20140122935A1 (en) Diagnosing a Problem of a Software Product Running in a Cloud Environment
US20130232470A1 (en) Launching an application stack on a cloud platform environment
US20150089505A1 (en) Systems and methods for fault tolerant batch processing in a virtual environment
US8135732B2 (en) System and method for providing network-based services to users with high availability
CN109408310B (zh) 服务器的调试方法、服务器及可读存储介质
US11398989B2 (en) Cloud service for cross-cloud operations
US20210073011A1 (en) Customer service management
US20210344679A1 (en) Feedback framework
WO2018000878A1 (zh) 分布式任务处理方法和装置
CN112199355A (zh) 数据迁移方法、装置、电子设备及存储介质
WO2023047450A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
Bellavista et al. Elastic provisioning of stateful telco services in mobile cloud networking
JP4870794B2 (ja) 仮想マシンの監視管理装置、監視管理方法及びコンピュータプログラム
WO2023276039A1 (ja) サーバ管理装置、サーバ管理方法およびプログラム
TW201500937A (zh) 智慧型雲端化移轉之方法與系統
WO2023021642A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
WO2022269808A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびプログラム
WO2023032116A1 (ja) スクリプト判別装置、スクリプト判別方法およびスクリプト判別システム
WO2023012931A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
WO2023032115A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム
WO2023228233A1 (ja) 障害発生時における自動復旧のためのネットワーク管理
WO2022264289A1 (ja) ネットワーク管理装置、ネットワーク管理方法およびプログラム
WO2023276038A1 (ja) サーバ管理装置、サーバ管理方法およびプログラム
US11726854B2 (en) Host malfunction detection for CI/CD systems

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 17788820

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21958328

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE