WO2022044546A1 - 通信システムおよびその障害復旧方法 - Google Patents

通信システムおよびその障害復旧方法 Download PDF

Info

Publication number
WO2022044546A1
WO2022044546A1 PCT/JP2021/025180 JP2021025180W WO2022044546A1 WO 2022044546 A1 WO2022044546 A1 WO 2022044546A1 JP 2021025180 W JP2021025180 W JP 2021025180W WO 2022044546 A1 WO2022044546 A1 WO 2022044546A1
Authority
WO
WIPO (PCT)
Prior art keywords
user plane
plane function
failure
cloud
function
Prior art date
Application number
PCT/JP2021/025180
Other languages
English (en)
French (fr)
Inventor
裕昭 高野
啓文 葛西
智彰 松村
寛斗 栗木
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/041,013 priority Critical patent/US20230319542A1/en
Priority to EP21860976.6A priority patent/EP4207843A4/en
Publication of WO2022044546A1 publication Critical patent/WO2022044546A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/20Manipulation of established connections
    • H04W76/22Manipulation of transport tunnels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • H04W8/183Processing at user equipment or user record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/19Connection re-establishment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/30Network data restoration; Network data reliability; Network data fault tolerance

Definitions

  • This technology relates to communication systems. More specifically, the present invention relates to a communication system for recovering a failure in a core network and a method for recovering the failure.
  • the cellular network is composed of RAN (Radio Access Network) and core network (CN: Core Network).
  • the RAN is a wireless system between a base station (BS: Base Station) and a terminal (UE: User Equipment).
  • the core network mainly performs permission and session management when terminals connect to the network.
  • the core network is composed of a control plane function (CPF: Control Plane Function) and a user plane function (UPF: User Plane Function).
  • CPF Control Plane Function
  • UPF User Plane Function
  • NVM Network Functions Virtualization
  • the user plane function can be placed not only in the cloud but also in the local area network, which complicates the disaster recovery mechanism.
  • the above-mentioned prior art does not consider the complexity of such a network and may not be able to cope with disaster recovery well.
  • This technology was created in view of this situation, and aims to detect and recover from failures that occur in the core network.
  • the present technology has been made to solve the above-mentioned problems, and the first aspect thereof is a subscriber information holding unit that holds subscriber information indicating the association between a terminal and a user plane function in a communication system. And a control that changes the subscriber information so as to associate a new user plane function with the failure detection unit that detects a failure related to the user plane function and the terminal associated with the user plane function in which the failure is detected. It is a communication system including a unit and a failure recovery method thereof. This has the effect of changing the association between the terminal and the user plane function when a failure is detected.
  • control unit may select a user plane function in operation having a low processing usage rate as the new user plane function. This has the effect of newly associating a user plane function with a low processing usage rate with the terminal.
  • the processing usage rate may be determined based on the traffic volume of the user plane function in operation. Further, the processing usage rate may be determined based on the number of the terminals associated with the user plane function in operation.
  • the control unit may use the other operating user plane functions placed in the cloud. If the user plane function for which the above failure is detected is located in the local area network by selecting it as a new user plane function, the other operating user plane functions located in the local area network will be selected as the new user plane function. It may be selected as a user plane function. This has the effect of associating a new user plane function with the terminal without significantly changing the arrangement of the user plane function.
  • the control unit is a user who is located in the local area network when the user plane function in which the failure is detected is located in the local area network. If none of the plane functions meet the predetermined criteria, another operating user plane function located in the cloud may be selected as the new user plane function. In this case, the control unit uses the new user as the other operating user plane function located in the cloud when the user plane function in which the failure is detected is located in the local area network.
  • the tolerance information of whether or not to allow selection as a plane function is managed for each user plane function, and the above tolerance information of the user plane function in which the failure is detected indicates the above tolerance.
  • Other operating user plane functions located in the cloud may be selected as the new user plane functions.
  • control unit may associate a plurality of new user plane functions with the terminal associated with the user plane function in which the failure is detected. This has the effect of distributing the traffic of the user plane function.
  • control unit manages the performance of the computer accommodating the user plane function in operation as computer performance information for each user plane function, and the new computer performance information is used as the basis for the computer performance information.
  • User plane function may be selected. This has the effect of transferring to a user plane function with equivalent performance.
  • control unit manages priority information for each user plane function in operation and selects the new user plane function based on the priority information. You may try to do it. This has the effect of giving priority to the user plane function that hastened recovery.
  • the failure detection unit may be arranged in both the cloud and the local area network.
  • the fault detection unit located in the cloud collects the faults in both the cloud and the local area network, and notifies the detected faults to the control unit located in the cloud. You may do so.
  • the failure detection unit arranged in the cloud detects the failure for all the user plane functions arranged in the local area network
  • the local area network and the cloud are used. Assuming that the communication between the two is interrupted, the disconnection may be notified to the control unit arranged in the cloud. This has the effect of detecting a communication disconnection between the local area network and the cloud.
  • the fault detection unit is provided for each fault detection initiator for starting the fault detection and for each user plane function to detect the fault in response to the start of the fault detection. It may be provided with a failure detection responder to detect.
  • FIG. 1 is a diagram showing a first example of a wireless communication system assumed in the embodiment of the present technology.
  • This first example is an example when the embodiment of the present technology is applied to the 4th generation mobile communication system (4G).
  • the terminal 300 connects to the core network via the base station 200.
  • the terminal 300 and the base station 200 are connected by a wireless system, RAN.
  • the core network mainly performs permission and session management when the terminal 300 connects to the network, and is called EPC (Evolved Packet Core) in 4G.
  • EPC Electronic Packet Core
  • This 4G core network is divided into a control plane function 110 and a user plane function 120.
  • the former controls the network and the latter controls the packet.
  • the control plane function 110 is an example of the control unit described in the claims. Further, in the following, the control plane function 110 may be simply abbreviated as a control plane. Similarly, the user plane function 120 may be simply abbreviated as the user plane.
  • the 4G control plane function 110 includes HSS111, MME112, and the like.
  • the HSS (Home Subscriber Server) 111 is a database server that manages user information.
  • the MME (Mobility Management Entity) 112 is a gateway for control signals for controlling the terminal 300.
  • the 4G user plane function 120 includes SGW 121, PGW 122, and the like.
  • the SGW (Serving Gateway) 121 is a gateway for user data.
  • the PGW (Packet data network Gateway) 122 is a gateway for connecting to an external network.
  • the HSS 111 in which the subscriber information of the terminal 300 is stored receives the contract information of the terminal 300 and the key for encryption, and determines whether or not the terminal 300 may connect to the network. Generates a key for encryption. That is, the information of the terminal 300 associated with the subscriber number called IMSI (International Mobile Subscriber Identity) in the SIM (Subscriber Identity Module) card in the terminal 300 is stored in the terminal. For the 300, it is needed to connect to the network. Further, the MME 112 plays a role for the terminal 300 to attach to the cellular system.
  • IMSI International Mobile Subscriber Identity
  • SIM Subscriber Identity Module
  • FIG. 2 is a diagram showing a second example of a wireless communication system assumed in the embodiment of the present technology.
  • This second example is an example when the embodiment of the present technology is applied to the 5th generation mobile communication system (5G).
  • the point that the terminal 300 is connected to the core network via the base station 200 and the terminal 300 and the base station 200 are connected by RAN is the same as in the case of 4G described above.
  • the 5G control plane function 110 includes UDM113, SMF114, AMF115 and the like.
  • UDM Unified Data Management
  • the SMF Session Management Function
  • the AMF Access and Mobility Management Function
  • the 5G user plane function 120 is not separated like the 4G SGW 121 and PGW 122, and is referred to as UPF (User Plane Function) 123 here.
  • the UDM 113 has the same functions as the above-mentioned HSS111.
  • the notation HSS111 will be used, but this can also be applied to UDM113.
  • the AMF 115 and the SMF 114 play a role.
  • FIG. 3 is a diagram showing an example of arrangement of a core network in an embodiment of the present technology.
  • the 4G PGW 122 and 5G UPF123 play the role of a gateway that serves as a boundary between the core network and the general Internet.
  • the core network since the core network is also considered to be located on the general Internet, the user plane function of the core network called CN-U129, which corresponds to PGW 122 or UPF 123, is used as the boundary between the core network and the general application. You can think of it as a gateway to be deployed.
  • CN-U129 which corresponds to PGW 122 or UPF 123
  • the core network arranged at the edge may be replaced with the expression "one or more core network nodes arranged at the edge in the core network”.
  • the "edge" may mean that the terminal 300 or the base station 200 (for example, the access point of the terminal 300) is located near the terminal 300 or the base station 200 (for example, the access point of the terminal 300).
  • the core network may be placed on the LAN in factories, hospitals, and offices.
  • the base station 200 may be located in a local area such as a factory, hospital, or office, and the core network may be located locally or on the Internet near that local area. it is conceivable that. In any case, such a local cellular system requires a low cost system.
  • These may also be referred to as private 4G (local 4G) or private LTE (local LTE), private 5G (local 5G), and the like.
  • the user plane function realized by SGW 121 and PGW 122 or UPF 123 has the maximum throughput that can be processed as one index of its capacity. For example, it is an index that can process user data (user plane data) of 100 Mbps. It is assumed that there is a user plane function of the core network that processes 100 Mbps, and the capacity that one base station 200 can process is 100 Mbps. In that case, if one terminal uses the network, the one terminal can enjoy a speed of 100 Mbps. On the other hand, when there are 10 sets of such base stations 200 and terminals, the capacity of the user plane of the core network becomes a bottleneck, and each terminal can obtain only a throughput of 10 Mbps.
  • FIG. 4 is a diagram showing an example when the core network is the bottleneck. If the number of terminals 300 and base stations 200 increases with respect to the user plane function of the core network that processes 100 Mbps, the capacity of the user plane may become a bottleneck. When the number of base stations 200 and the number of terminals 300 increase in this way, it is necessary to improve the capacity of the user plane of the core network.
  • Static scaling is a method in which the number of user planes is decided once, the core network is started, connected to the base station 200, and after the operation is started, the number of user planes is basically unchanged. Is.
  • dynamic scaling is a method of flexibly increasing or decreasing the number of user planes in response to fluctuations in the number of terminals 300.
  • the method of dynamically increasing or decreasing the number of user planes is extremely difficult. This is because there are cases where it is necessary to change the settings of the base station 200, and the function of allocating a new PDU session to the user plane function notices the existence of the changed user plane and updates the internal table. This is because it may take some time. Since it is necessary to create a core network for a local cellular system called private LTE or private 5G described above at low cost, it is difficult to take such trouble. When scaling this, it is necessary to determine whether the number of user plane functions should be increased or decreased by some function, whether it is dynamic or static.
  • FIG. 5 is a diagram showing an example of a wireless communication system according to an embodiment of the present technology.
  • the terminal 300 and the base station 200 are arranged on a LAN (Local Area Network).
  • the control plane of the core network is located in the cloud on the Internet.
  • the user plane function of the core network may be arranged in the on-premise LAN or may be arranged in the on-cloud.
  • the user plane functions placed on the LAN cannot be increased unless the equipment such as a PC (Personal Computer) is strengthened.
  • PC Personal Computer
  • To delete the user plane function stop the program of the user plane function and then delete the virtual machine. Therefore, the addition or deletion of the user plane function is mainly the addition or deletion of the user plane function placed on the cloud.
  • NAT translation Network Address Translation
  • the function of adding or deleting a user plane function on the cloud is called a resource management function (Resource Management Function) 190.
  • the resource management function 190 needs to determine whether to add or remove a user plane function based on the network conditions.
  • the resource management function 190 is sometimes called MANO (Management And Network Orchestration) in 3GPP.
  • the resource management function 190 is an example of the control unit described in the claims.
  • a method of measuring how many Mbps speed can be obtained by using a network traffic amount measuring tool, for example, a tool such as iperf3 or ping, for a user plane function in use to be measured has been conventionally known. ..
  • the iperf3 server is placed in a virtual machine inside or near the user plane function, and the iperf3 client is placed on the LAN side to perform measurement. This makes it possible to measure the degree of congestion of traffic on the communication path of the communication path to the user plane function.
  • the network measurement tool actually generates traffic and measures how much there is room to improve the traffic volume.
  • the traffic generated by this network traffic volume measuring tool may affect the communication of important user data, resulting in a decrease in the traffic volume of the user data and deterioration of the delay characteristics.
  • the LAN part is often a vulnerable network, and in such a network, it is not desirable for the network traffic amount measuring tool to actually transmit the test data.
  • the resource management function 190 focuses on the following two types of information.
  • the first is the processing power of the user plane function.
  • the second is the status of traffic flowing through the network.
  • the former is mainly a LAN communication path, and the latter is a communication path that is different mainly for each user plane function of the cloud.
  • User plane functions are designed as software.
  • the processing capacity of the software is, for example, 100 Mbps, it means that 100 Mbits of user data can be processed per second.
  • the usage status of user data is 80 Mbps, which is close to 100 Mbps, it is better to add another user plane function and process it together with the added user plane function, because the processing capacity will increase. ,desirable.
  • the number of user plane functions is increased, a virtual machine in the cloud will be added, which has a negative aspect that the cost will increase for the private 5G / 4G network operator.
  • the user plane function located on the cloud side uses a common LAN, passes through the same route on the Internet at the subsequent stage, and finally passes through a different communication path when it is distributed to each user plane function. That is, the communication path is divided into a common communication path and a communication path unique to each user plane function. And it can be said that the common communication path is greatly affected by LAN.
  • FIG. 6 is a diagram showing an example of a communication path of a wireless communication system according to an embodiment of the present technology.
  • the router 410 is used as a gateway to connect to the Internet through a common communication path from the LAN.
  • a common communication path It may be branched in the router 410 arranged at the boundary between the ISP (Internet Services Provider) that provides the Internet to the LAN and the LAN. Further, in the communication path of the ISP after the LAN, there may be a case where the communication path is branched into an individual communication path. In addition, there may be cases where the data center in the cloud at the subsequent stage branches to individual communication paths. In any case, all the traffic that reaches each user plane function on the cloud side passes through a common communication path.
  • ISP Internet Services Provider
  • a 5G or 4G cellular network is composed of terminals, base stations and a core network as described above. Further, in order to connect a network function such as a base station or a core network, a communication cable such as Ethernet or an optical fiber exists with a network device such as a switch or a router. When they fail, certain functions of the network will not work.
  • a cellular network is an infrastructure on which various services and applications run. Therefore, when a network failure occurs, it is necessary to promptly restore the network function. Unlike wireless local area networks, cellular networks often handle important data, so failure detection and recovery are very important.
  • private 4G or 5G is a small system, it is expected that a large number of systems will operate simultaneously all over the world. Failures and detections cannot be dealt with due to the large number of failures and detections unless they are automated. Therefore, it is necessary to detect and recover from the failure without any trouble.
  • the base station, the core network, the computer on which the virtual machine in which the core network is arranged fails, the device fails, or the power failure occurs.
  • the communication cable it is assumed that the Ethernet cable, the optical fiber, specifically, the cable is broken.
  • the case where a failure occurs in a network function such as a user plane function means a state in which the function of the user plane function cannot be used. For example, if a program called a user plane function cannot be started, or if a computer or virtual machine equipped with the user plane function program cannot operate due to a power outage or a computer crash, a local area network cable to reach the user plane function or It is assumed that the optical fiber is broken, but the reason is not limited.
  • Network recovery can be broadly broken down into three steps.
  • the first is a procedure for detecting a network failure.
  • the basic method is to periodically check whether or not it is possible to communicate with the other party.
  • the second is a procedure for forwarding the detected network failure alarm (alarm) to an appropriate party.
  • the third is a procedure for receiving a network failure alarm and recovering from the failure. In that case, there is a failure by resetting the failed computer again and trying to recover it, or by installing the same function on another computer and switching the communication path there.
  • the basic method is to switch the functions.
  • LAN network failure and cloud network failure As mentioned above, a local cellular network called private 4G / 5G is composed of a LAN part and an Internet cloud part.
  • the user plane function is arranged on the LAN side and the cloud side without distinction. Terminals that require low latency should use the user plane function on the LAN side.
  • failures occur on both the LAN side and the cloud side, failures on the cloud side are considered to be more frequent.
  • the LAN is connected to the cloud via the ISP, but if the network of the ISP fails, a failure may occur in which traffic cannot flow from the LAN to the cloud. In this case, the function completed only in the LAN can operate, but it is an obstacle that the function arranged on the cloud side and the function arranged in the LAN cannot be exchanged.
  • the types of disabilities include the following three types of disabilities.
  • the first is a failure on the LAN side.
  • the second is the obstacle on the cloud side.
  • the failure on the cloud side will be emphasized rather than the failure on the LAN side. This is because it is assumed that the number of user plane functions arranged on the cloud side is larger than the number of user plane functions arranged on the LAN side.
  • the terminal and the base station are always arranged on the LAN side.
  • the cellular network can continue to operate only within the LAN even if a failure occurs in which the LAN cannot connect to the Internet outside. Is.
  • a private 4G or 5G for a purpose such as a cellular system in a factory, if only the LAN is operating without any trouble, the private 4G or 5G will function correctly.
  • the core network can be divided into a control plane function and a user plane function in both a 4G system (LTE) and a 5G system.
  • the control plane function is MME and the user plane functions are SGW and PGW.
  • a plurality of user plane functions may be arranged because the amount of traffic processing that can be processed by one user plane function is limited. Due to the location of multiple user plane functions in different locations, one of the user plane functions may lose functionality due to a network failure. Therefore, it can be said that the user plane function has a higher probability of causing a failure than the control plane function due to the large number.
  • the failure of the user plane function of the core network is mainly dealt with, and then the failure of the control plane function of the core network is dealt with.
  • the user plane function of the core network is desirable to arrange the user plane function of the core network on both the LAN side and the cloud side. This is because when a failure occurs, a new virtual machine can be prepared and the user plane function program can be restarted to recover. This is because the LAN side has the advantage of low latency, but is not good at scaling to easily increase or decrease the number of user plane functions. Even if a failure occurs on the LAN side, it is difficult to automatically prepare a new computer remotely, so recovery from the failure is not easy.
  • control plane function should be considered whether it should be placed on the LAN or the cloud.
  • the control plane function needs to control both the user plane function on the LAN side and the user plane function on the cloud side. Therefore, it may be arranged on either the LAN side or the cloud side, but it is considered that it is the cloud side that is easy to recover.
  • Private 4G or 5G must be low cost and easy to install, and it is difficult to select to place the control plane function on the LAN side from the beginning.
  • a control plane function is placed on the cloud side, and when a failure occurs, it is basically switched to another control plane function on the same cloud side.
  • the installation cost is high although the delay is low.
  • the installation cost is low, but the delay is large.
  • the frequency of failures is less when the user plane function is placed on the LAN than when it is placed on the cloud.
  • the LAN is cut off from the outside Internet, it is possible to operate only on the LAN if the user plane function is placed on the LAN, but if it is placed on the cloud, the operation should be continued. Can't be done.
  • the message S1 setup request (S1-setup request) is sent from the base station to the control plane function. Then, by returning the S1 setup response (S1-setup response) from the control plane function to the base station, the connection between the base station and the control plane function is made.
  • S1 setup request S1-setup request
  • the connection between the base station and the control plane function is made.
  • the function refers to the control plane function or user plane function of the core network.
  • function # 0 fails and switches to function # 1
  • a user plane function dedicated to backing up the user plane function in which a failure has occurred In private 5G / 4G, a plurality of user plane functions, for example, 1 to 32, are prepared. Therefore, for each user plane function, for example, one backup user plane function for switching in case of failure is prepared. I had to have 32 of them. In that case, the total number of user plane functions will be 2 to 64. This is a non-negligible cost for a system where the low cost of private 5G / 4G is important. The cost here is the cost of the computer for starting the program of the user plane function. In a private 5G / 4G system, a user plane function may be arranged in a LAN and a user plane function may be arranged in the cloud. In such a case, the problem is how to recover the failed user plane function.
  • the failed user plane function is transferred to the remaining user plane functions that are normally operating to recover from the failure.
  • the terminal and the user plane function are associated (association).
  • a terminal using a failed user plane function rewrites the association between the terminal and the user plane function in the subscriber file in order to use another user plane function. At that time, it is necessary to decide which user plane function to transfer to.
  • the user plane function of the number next to the consecutive number For example, if the number of operating user plane functions is 5, the user plane function is transferred to the user plane function having the number next to the failed user plane function number. If the user plane function # 1 fails, the association between the terminal and the user plane function is rewritten so that the user plane function # 2 is used for the terminal that used the user plane function # 1. Similarly, if the user plane function # 5 fails, it is transferred to the user plane function # 1.
  • the traffic of the user plane function of the transfer destination will be congested.
  • one unused user plane function is always prepared, and even if any user plane function fails, the terminal and the user of the subscriber file are transferred to the user plane function. It is conceivable to rewrite the association of plain functions.
  • User plane functions # 1 to # 4 are actually operated, and user plane functions # 5 are kept on standby without a terminal assigned for backup of user plane functions # 1 to # 4. Then, when any one of the user plane functions # 1 to # 4 fails, the user plane function # 5 is transferred to be used.
  • This second method has a problem that the resources of the user plane function # 5 for backup are wasted. Further, when a plurality of user plane functions fail, there is a problem that the user plane function # 5 alone cannot accommodate the traffic of the failed user plane function. Therefore, as a third method of transfer, it is conceivable to transfer to a user plane function having a low processing usage rate among the user plane functions. According to this third method, efficient transfer can be performed without wasting the user plane function.
  • the processing usage rate of the user plane function to be the transfer destination (transfer destination UPF processing usage rate) can be obtained by, for example, the following equation.
  • Transfer destination UPF processing usage rate Current processing traffic volume / UPF program processing traffic capacity
  • the processing room traffic amount (transfer destination UPF processing room traffic amount) of the user plane function to be the transfer destination may be used as shown in the following equation.
  • Transfer destination UPF processing room Traffic volume UPF Program Processing Capacity-Current Processing Traffic Volume
  • the processing usage rate of the user plane function may be evaluated not based on the traffic volume but by the number of terminals to which the user plane function belongs. That is, it is determined that the larger the number of terminals, the higher the processing usage rate of the user plane function. Therefore, in that case, the terminal belonging to the failed user plane function is distributed to the user plane function to which the number of terminals belongs is small.
  • the following equation can be used for the relationship between the number of terminals and the processing usage rate.
  • Transfer destination UPF processing usage rate Number of terminals currently affiliated / Maximum value of terminals belonging to one UPF
  • the resource management function 190 it is necessary for the resource management function 190 to know the current status of the user plane function. Specifically, it is necessary to arrange a traffic amount monitor for each user plane function, and the resource management function 190 periodically grasps the processing usage rate of each user plane function from the traffic amount monitor.
  • FIG. 7 is a diagram showing a first example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • the placement position, state, and processing usage rate are shown for each of the 32 user plane functions (UPFs).
  • the placement position indicates whether the user plane function is located in the local area network (LAN) or in the cloud.
  • the state indicates whether the operating state of the user plane function is operating, stopped, or a failure has occurred.
  • the processing usage rate is the above-mentioned processing usage rate.
  • the state and the processing usage rate are updated with the latest information at least every few seconds.
  • FIG. 8 is a diagram showing a second example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • the placement position, state, and number of terminals accommodated for each of the 32 user plane functions are shown. That is, it is an example of grasping the number of accommodated terminals in order to transfer to a place where the number of terminals assigned to the user plane function is small.
  • the resource management function 190 determines that the user plane functions # 1 and # 30, which have caused a failure, are promising candidates for the transfer destination because the number of terminals is small. can do.
  • the state and the number of terminals accommodated are updated with the latest information at least every few seconds.
  • FIG. 9 is a diagram showing a first state example of the user plane function in the embodiment of the present technology.
  • the user plane function # 5 is determined as the transfer destination.
  • the processing usage rate of the failed user plane function is "0.9", which is close to "1.0", even if it is attempted to be accommodated in another user plane function, it is accommodated by only one user plane function. It is thought that it cannot be cut off. In that case, it is useful to distribute and transfer to a plurality of user plane functions. For example, if there are nine terminals using the failed user plane function and the UPF processing usage rate is "0.9", the user plane that can accommodate the UPF processing usage rate of "0.3". It is considered that traffic can be accommodated by allocating three terminals to three functions. At this time, it is important to store the processing usage rate of the user plane function before the failure.
  • FIG. 10 is a diagram showing a third example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • the arrangement position, the state, the processing usage rate, the number of accommodated terminals, and the identifier of the accommodated terminal are shown.
  • the identifier of the accommodating terminal for example, the above-mentioned IMSI can be used.
  • FIG. 11 is a sequence diagram showing an example of the processing flow of the communication system according to the first embodiment of the present technology.
  • the attach procedure (Attach Procedure) operates, and the control plane function 110 assigns the user plane function 120 to the terminal 300 according to the subscriber information of the subscriber file 118 (812).
  • the terminal 300 communicates using the assigned user plane function 120 (813).
  • the subscriber file 118 is an example of the subscriber information holding unit described in the claims.
  • the failure detection unit 160 monitors the current status of the user plane function 120 (814). Then, when the failure detection unit 160 detects the occurrence of a failure in the user plane function 120, the failure detection unit 160 notifies the resource management function 190 of an identifier that identifies the user plane function 120 (815).
  • the resource management function 190 that received the notification from the failure detection unit 160 determines the user plane function of the transfer destination (816). At that time, the resource management function 190 considers the processing usage rate of the user plane function in which the failure has occurred and the processing usage rate of the user plane function of the transfer destination. As described above, it is also possible to transfer to a plurality of user plane functions.
  • the resource management function 190 changes the subscriber information of the subscriber file 118 so as to associate the transfer destination user plane function with the terminal 300 instead of the failed user plane function (817).
  • the attach procedure operates again (818).
  • the transfer destination user plane function 120 is assigned to the terminal 300 based on the subscriber information of the subscriber file 118.
  • the terminal 300 communicates using the newly assigned user plane function 120 (819).
  • the failure when a failure occurs in the user plane function, the failure is efficiently eliminated by determining the user plane function in operation having a low processing usage rate as the transfer destination. It can be restored.
  • the arrangement of the user plane function of the transfer destination is not particularly limited. However, we would like to avoid a large change in the properties seen from the terminal before and after the transfer as much as possible. Therefore, in this second embodiment, the selection of the user plane function of the transfer destination will be further examined.
  • one user plane function fails and stops functioning, another user plane function is used as a backup instead of the failed user plane function. It is desirable to continue to use the switched user plane function as it is. That is, when the user plane function that caused the failure is corrected, it is not desirable to return to the user plane function in which the failure has been corrected, considering the procedural waste and the time when the user data cannot be transmitted / received. In other words, it is desirable to continue using the user plane function that was switched and started to be used due to a failure.
  • the user plane function may be placed in a data center in the cloud of the Internet or on a computer such as a LAN PC.
  • a user plane function located in a cloud data center fails and is switched to a LAN user plane function, the nature of the LAN user plane function and the nature of the cloud user plane function are significantly different, so the original state. It means that you have switched to a user plane function that is significantly different from the above, and there is a problem in continuing to use the switched user plane function.
  • the user plane function placed on the LAN fails, the user plane function placed on the LAN is switched to, and when the user plane function placed on the cloud fails, the user plane function placed on the cloud is used. It shall be switched.
  • the transfer is basically performed to the user plane function located on the LAN, but when the user plane function located on the LAN does not have an appropriate transfer destination. Only transfer to the cloud user plane function. This is because the number of user plane functions prepared in the LAN is usually smaller than the number of user plane functions arranged in the cloud. When transferring a LAN user plane function to a cloud user plane function, it may be necessary to transfer from the cloud user plane function to the LAN user plane function again after the LAN user plane function is restored. ..
  • the reasons why the user plane function placed on the LAN may not have an appropriate transfer destination are as follows. For example, when there are two user plane functions in the LAN and one of them fails, the amount of traffic processed by the remaining one user plane function is large. For example, when one user plane function is capable of processing 100 Mbps, if the current traffic volume is 90 Mbps, the traffic of the failed user plane function cannot be accommodated. In that case, the traffic of the user plane function that caused the failure in the LAN is transferred to the user plane function of the cloud. This is not desirable, but it is a possible case.
  • the reason why the user plane function placed on the LAN may not have an appropriate transfer destination are as follows. For example, when there are two user plane functions in the LAN and one of them fails, the amount of traffic processed by the remaining one user plane function is large. For example, when one user plane function is capable of processing 100 Mbps, if the current traffic volume is 90 Mbps, the traffic of the failed user plane function cannot be accommodated. In that case, the traffic of the user plane function that caused
  • the terminal that was using the LAN user plane function may have been using a low-latency application. This is because the user plane function placed on the LAN near the base station requires less delay for communication than the user plane function placed on the cloud. If a LAN user plane function fails and it is difficult to transfer to another user plane function on the same LAN, it cannot be unconditionally transferred to a cloud user plane function. This is because it may be better to wait for the recovery of the LAN user plane function while the failure has occurred, rather than transferring the low-latency application to the cloud user plane function. Therefore, it is conceivable to set in advance in the resource management function 190 whether or not to allow the transfer to the cloud in the user plane function of the LAN.
  • FIG. 12 is a diagram showing a fourth example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • each item is evaluated depends on the scenario. For example, when a user plane function that includes an application that emphasizes delay time fails, it is desirable to transfer the user plane function that failed in the LAN to the user plane function in the LAN, so the placement position is important first. Look at it.
  • FIG. 13 is a diagram showing a second state example of the user plane function in the embodiment of the present technology.
  • the user plane functions # 1 and # 2 are arranged on the LAN, and eight user plane functions # 3 to # 10 are arranged and operated on the cloud.
  • the transfer destination is searched for from the user plane function placed in the cloud.
  • the transfer destination is basically searched from the user plane function placed on the LAN, but when there is no appropriate one. Will search for a transfer destination from the user plane function located in the cloud. For example, if the processing usage rate of user plane function # 1 is as high as "0.7" and there is no processing usage rate of "0.3" or less as in this example, transfer to the cloud is allowed. Such a transfer is also possible if it indicates that.
  • FIG. 14 is a sequence diagram showing an example of the processing flow of the communication system according to the second embodiment of the present technology.
  • the identifier of the user plane function placed on the LAN and the identifier of the user plane function placed on the cloud are set in advance (821).
  • information on whether or not to allow transfer from the LAN to the cloud when a failure occurs is set in advance (821).
  • the procedure after that is basically the same as that of the first embodiment described above. However, when the resource management function 190 that receives the notification from the failure detection unit 160 determines the user plane function of the transfer destination (826), when a failure occurs in the user plane function arranged on the cloud, the cloud Transfer to the user plane function placed above.
  • FIG. 15 is a diagram showing a fifth example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • the user plane function that accommodates the terminal equipped with such an application has high specifications as a virtual machine for running the program of the user plane function. Is considered to be assigned.
  • the specifications (performance) are assumed to be the speed of the processor, the memory, the speed of Ethernet, and the like.
  • the resource management function 190 holds information on the computer performance accommodating the user plane function in advance.
  • FIG. 16 is a diagram showing a sixth example of the state of the user plane function grasped by the resource management function 190 in the embodiment of the present technology.
  • the resource management function 190 holds information regarding the priority for recovery when a failure occurs in advance.
  • the transfer destination of the user plane function having a high priority is determined first.
  • a user plane function with a low priority may not have an appropriate transfer destination at some point. In that case, it is better to wait for a while and then check again for a user plane function with a low processing usage rate to determine the transfer destination. If the transfer destination cannot be found after a certain period of time, a new user plane function may be launched.
  • the priority shown here can be regarded as the priority in the LAN and the priority in the cloud.
  • the transfer destination of the user plane function placed on the LAN is basically the user plane function placed on the LAN
  • the transfer destination of the user plane function placed on the cloud is the user placed on the cloud. It is a plain function. Therefore, the above-mentioned priority may be divided into a priority in the LAN and a priority in the cloud.
  • the recovery priority setting in this example may be set manually or automatically. If it is done automatically, it is necessary to automatically detect what kind of application the terminal belonging to the user plane function is likely to use. As the most realistic method, when associating a terminal with a user plane function, it is better to associate the terminal that is likely to use an important application with the user plane function having a high recovery priority. That is, it is conceivable to automatically assign a user plane function having a high priority to the terminal according to the application of the terminal.
  • the user plane function arranged on the cloud is transferred and arranged on the LAN.
  • transfer to the user plane function located on the LAN as much as possible.
  • the service level after the transfer can be maintained as it was before the transfer. Also, by considering the recovery priority, it is possible to minimize the service interruption of important applications.
  • FIG. 17 is a diagram showing a configuration example for fault detection in the third embodiment of the present technology.
  • failure management functions 165 and 166 that forward alarms when a failure occurs are arranged on the LAN side and the cloud side, respectively.
  • a resource management function 190 is arranged on the cloud side.
  • the failure detection initiator 161 on the LAN side transmits pings to a plurality of failure detection responders 163 on the LAN side at regular intervals (for example, 10 minutes), and receives ping responses from those failure detection responders 163. Make sure the user plane function is working.
  • the user plane function that does not return a ping response recognizes that a failure has occurred and transfers the alarm to the failure management function 165 located on the LAN side.
  • the failure management function 165 notifies the resource management function 190 located in the cloud which user plane function is failing.
  • the resource management function 190 knows that, for example, UPF numbers # 1 to # 2 are used in the LAN, and the user plane functions # 3 to # 10 are used in the cloud. is doing. Therefore, when a failure of the user plane function of UPF number # 2 is reported, the resource management function 190 makes a decision to transfer it to another user plane function (# 1 or the like) on the LAN side. The resource management function 190 transfers the user plane function by rewriting the subscriber file used by the control plane function of the core network.
  • the failure detection initiator 161 on the LAN side sends a ping to a plurality of failure detection responders 164 on the cloud side at regular intervals (for example, 10 minutes), and no ping response is returned from any of the failure detection responders 164.
  • a failure such as a disconnection has occurred in the Internet line between the LAN and the cloud.
  • the alarm indicating that the LAN has become isolated is transferred to the failure management function 165 arranged on the LAN side.
  • the failure management function 165 can notify the private 5G / 4G administrator by e-mail or the like. Upon receiving the notification, the private 5G / 4G administrator can also start the program of the control plane function of the core network in the LAN and close it in the LAN to restore the cellular system. Note that this manual revival may be automatic.
  • the failure detection initiator 162 on the cloud side transmits pings to a plurality of failure detection responders 164 on the cloud side at regular intervals (for example, 10 minutes), and receives a ping response from those failure detection responders 164. Make sure each user plane function is working. For the user plane function for which no ping response is returned, it is recognized that a failure has occurred, and the alarm is transferred to the failure management function 166 located on the cloud side. The failure management function 166 notifies the resource management function 190 located in the cloud which user plane function is failing.
  • the resource management function 190 knows that, for example, user plane functions # 1 and # 2 are used in the LAN, and user plane functions # 3 to # 10 are used in the cloud. is doing. Therefore, when a failure of the user plane function of UPF number # 3 is reported, the resource management function 190 makes a decision to transfer it to another user plane function (# 7, etc.) on the cloud side. The resource management function 190 transfers the user plane function by rewriting the subscriber file 118 used by the control plane function of the core network.
  • the failure detection initiator 162 on the cloud side sends a ping to a plurality of failure detection responders 163 on the LAN side at regular intervals (for example, 10 minutes), and no ping response is returned from any of the failure detection responders 163.
  • a failure such as a disconnection has occurred in the Internet line between the LAN and the cloud.
  • an alarm may be issued that the LAN has become isolated. This alarm may be forwarded by email to the private 5G / 4G administrator.
  • the leading role is on the cloud side, and the resource management function 190 is arranged only on the cloud side.
  • the control plane function of the core network is arranged only on the cloud side, and operates as a control plane function of both the user plane function arranged on the LAN side and the user plane function arranged on the cloud side.
  • the control plane function on the LAN side may be used by the private 5G / 4G administrator.
  • the acquired fault alarms are collected by the fault management function 165 or 166 on the LAN side or the cloud side, respectively, but are finally transferred to the resource management function 190 on the cloud side.
  • it is completed on each network side (LAN or cloud) up to the point where the failure detection status is aggregated on both the LAN side and the cloud side. This makes it possible to transfer the alarm to the network operator before transferring the user plane function to the resource management function 190.
  • failure detection initiators 161 and 162, the failure detection responders 163 and 164, and the failure management functions 165 and 166 constitute the above-mentioned failure detection unit 160, and are examples of the failure detection units described in the claims.
  • FIG. 18 is a diagram showing an arrangement example of failure detection responders 163 and 164 in the third embodiment of the present technology.
  • Failure detection responders 163 and 164 exist for each user plane function.
  • a program that performs a ping response is placed in an actual computer or a virtual machine (virtual computer) in which the program of each user plane function is executed and is operating.
  • the fault detection responder 163 or 164 for the plurality of user plane functions uses a common fault detection responder 163 or 164. This is because most of the failures of the user plane function are the failures of the computer equipped with the user plane function, and it is sufficient to detect the failure in the computer unit.
  • FIG. 19 is a sequence diagram showing a first example of the processing flow of the communication system according to the third embodiment of the present technology.
  • the identifier of the user plane function placed on the LAN and the identifier of the user plane function placed on the cloud are set in advance (831).
  • the attach procedure When the power of the terminal 300 is turned on, the attach procedure operates, and the control plane function 110 assigns the user plane function 120 to the terminal 300 according to the subscriber information of the subscriber file 118 (832). As a result, the terminal 300 communicates using the assigned user plane function 120 (833).
  • the failure detection initiator 162 on the cloud side transmits pings to a plurality of failure detection responders 164 on the cloud side at regular intervals (834), and receives a ping response (835) from those failure detection responders 164. , Monitor for failure detection.
  • the user plane function that does not return a ping response recognizes that a failure has occurred and transfers the alarm to the failure management function 166 located on the cloud side.
  • the failure management function 166 notifies the resource management function 190 of the identifier of the user plane function in which the failure has occurred (836).
  • the failure detection initiator 161 on the LAN side transmits pings to a plurality of failure detection responders 163 on the LAN side at regular intervals (837), and receives a ping response (838) from those failure detection responders 163. , Monitor for failure detection.
  • the user plane function that does not return a ping response recognizes that a failure has occurred and transfers the alarm to the failure management function 165 located on the LAN side.
  • the failure management function 165 notifies the resource management function 190 of the identifier of the user plane function in which the failure has occurred (839).
  • the resource management function 190 that has received the notification from the failure management function 165 or 166 determines the user plane function of the transfer destination (846). Then, the resource management function 190 changes the subscriber information of the subscriber file 118 so as to associate the transfer destination user plane function with the terminal 300 instead of the failed user plane function (847).
  • the attach procedure operates again (848).
  • the transfer destination user plane function 120 is assigned to the terminal 300 based on the subscriber information of the subscriber file 118.
  • the terminal 300 communicates using the newly assigned user plane function 120 (849).
  • FIG. 20 is a sequence diagram showing a second example of the processing flow of the communication system according to the third embodiment of the present technology.
  • the failure detection initiator 161 on the LAN side transmits a ping to a plurality of failure detection responders 163 on the LAN side (857) and receives the ping response (858) to monitor the occurrence of a failure.
  • a ping is also transmitted to a plurality of failure detection responders 164 on the cloud side (861), and the ping response (862) is received.
  • failure management function 165 arranged on the LAN side.
  • the fault management function 165 notifies the administrator of the private 5G / 4G by e-mail or the like (864).
  • a mechanism to output a message that the software is operating periodically to a log file is installed in the program of the user plane function. You may.
  • the location of the log file may be in the file system of the computer on which the user plane function is operating. By periodically reading the log file remotely and checking the contents, it is possible to confirm that the program of the user plane function is actually operating.
  • the Heartbeat message is periodically exchanged between the process running the user plane function program and the process running the failure detection initiators 161 and 162 programs. It may be possible to monitor whether the other party is in operation.
  • failure detection can be efficiently performed by using the failure detection initiators 161 and 162 and the failure detection responders 163 and 164. That is, since recovery from a network failure can be performed at low cost, a stable communication environment can be provided to the user.
  • the processing procedure described in the above-described embodiment may be regarded as a method having these series of procedures, or as a program for causing a computer to execute these series of procedures or as a recording medium for storing the program. You may catch it.
  • this recording medium for example, a CD (Compact Disc), MD (MiniDisc), DVD (Digital Versatile Disc), memory card, Blu-ray Disc (Blu-ray (registered trademark) Disc) and the like can be used.
  • the present technology can have the following configurations.
  • a subscriber information holding unit that holds subscriber information indicating the association between a terminal and a user plane function in a communication system, and a subscriber information holding unit.
  • a fault detection unit that detects faults related to the user plane function
  • a communication system including a control unit that changes the subscriber information so as to associate a new user plane function with the terminal associated with the user plane function in which the failure is detected.
  • the control unit selects a user plane function in operation having a low processing usage rate as the new user plane function.
  • the processing usage rate is determined based on the traffic volume of the user plane function in operation.
  • the control unit uses another operating user plane function located in the cloud as the new user plane function. If the user plane function in which the failure is detected is located in the local area network, another operating user plane function located in the local area network is selected as the new user plane function.
  • the communication system according to any one of (1) to (4) above.
  • the control unit is predetermined among other operating user plane functions arranged in the local area network when the user plane function in which the failure is detected is arranged in the local area network.
  • the communication system according to (5) above which selects another operating user plane function located in the cloud as the new user plane function if none of the criteria is satisfied.
  • the control unit uses the new user plane as another operating user plane function located in the cloud when the user plane function in which the failure is detected is placed in the local area network.
  • the permissible information of whether or not to allow the selection as a function is managed for each user plane function, and the cloud only when the permissible information of the user plane function in which the failure is detected indicates the permissible.
  • the communication system according to (6) above which selects another operating user plane function arranged in the above as the new user plane function.
  • the fault detection unit arranged in the cloud collects the faults for both the cloud and the local area network, and notifies the detected faults to the control unit arranged in the cloud.
  • the failure detection unit located in the cloud detects the failure for all the user plane functions arranged in the local area network, the communication between the local area network and the cloud is interrupted.
  • the failure detection unit is The fault detection initiator that initiates the fault detection, and The communication system according to any one of (1) to (13) above, which is provided for each user plane function and includes a failure detection responder for detecting the failure in response to the start of detection of the failure.
  • a communication system including a subscriber information holding unit that holds subscriber information indicating the association between a terminal and a user plane function in the communication system.
  • the procedure for the failure detection unit to detect a failure related to the user plane function and
  • a failure recovery method in a communication system comprising a procedure in which a control unit changes the subscriber information so as to associate a new user plane function with the terminal associated with the user plane function in which the failure is detected.
  • Control Plane Function (CPF) 118 Subscriber File 120 User Plane Function (UPF) 160 Failure detection unit 161 and 162 Failure detection initiator 163, 164 Failure detection responder 165, 166 Failure management function 190 Resource management function 200 Base station 300 Terminal 410 Router

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

コアネットワークにおいて発生した障害を検出して復旧する。 加入者情報保持部は、通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する。障害検出部は、ユーザプレーンファンクションに関する障害を検出する。制御部は、障害検出部によって障害が検出されたユーザプレーンファンクションに関連付けられていた端末に、新たなユーザプレーンファンクションを関連付けるように、加入者情報保持部に保持されている加入者情報を変更する。

Description

通信システムおよびその障害復旧方法
 本技術は、通信システムに関する。詳しくは、コアネットワークにおける障害を復旧する通信システムおよびその障害復旧方法に関する。
 セルラーネットワークは、RAN(Radio Access Network)とコアネットワーク(CN:Core Network)から構成されている。RANは、基地局(BS:Base Station)と端末(UE:User Equipment)の間の無線システムである。コアネットワークは、端末がネットワークへ接続する際の許可やセッション管理を主に行っている。4Gおよび5Gにおいて、コアネットワークは、コントロールプレーンファンクション(CPF:Control Plane Function)、および、ユーザプレーンファンクション(UPF:User Plane Function)により構成される。端末がネットワークに接続してデータの送受信を行う場合には、コアネットワークのユーザプレーンの機能が必要となる。4Gの場合には、SGWやPGWがこの役割を果たす。5Gの場合には、ユーザプレーンファンクションがこの役割を果たす。
 ユーザプレーンファンクションのリソースは、コアネットワークにおいて複数配置されている。障害によりユーザプレーンファンクションの機能が使用できなくなった場合に、その障害を検出して復旧する必要がある。ネットワーク機能の仮想化(NFV:Network Functions Virtualization)においては、アラームを転送するアーキテクチャが開示されている(例えば、非特許文献1参照。)。
3GPP TS28.516、セクション4.1
 一方、ユーザプレーンファンクションは、クラウドのみならずローカルエリアネットワークにも配置され得るため、障害復旧の仕組みが複雑になる。上述の従来技術では、そのようなネットワークの複雑性について考慮されておらず、障害復旧にうまく対応できないおそれがある。
 本技術はこのような状況に鑑みて生み出されたものであり、コアネットワークにおいて発生した障害を検出して復旧することを目的とする。
 本技術は、上述の問題点を解消するためになされたものであり、その第1の側面は、通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する加入者情報保持部と、上記ユーザプレーンファンクションに関する障害を検出する障害検出部と、上記障害が検出されたユーザプレーンファンクションに関連付けられていた上記端末に新たなユーザプレーンファンクションを関連付けるように上記加入者情報を変更する制御部とを具備する通信システムおよびその障害復旧方法である。これにより、障害検出の際に端末とユーザプレーンファンクションの関連付けを変更するという作用をもたらす。
 また、この第1の側面において、上記制御部は、運用中のユーザプレーンファンクションのうち処理使用率が低いものを上記新たなユーザプレーンファンクションとして選択するようにしてもよい。これにより、処理使用率が低いユーザプレーンファンクションを端末に新たに関連付けるという作用をもたらす。この場合において、上記処理使用率は、上記運用中のユーザプレーンファンクションのトラフィック量に基づいて決定されてもよい。また、上記処理使用率は、上記運用中のユーザプレーンファンクションに関連付けられている上記端末の数に基づいて決定されてもよい。
 また、この第1の側面において、上記制御部は、上記障害が検出されたユーザプレーンファンクションがクラウドに配置されている場合には上記クラウドに配置されている他の運用中のユーザプレーンファンクションを上記新たなユーザプレーンファンクションとして選択し、上記障害が検出されたユーザプレーンファンクションがローカルエリアネットワークに配置されている場合には上記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションを上記新たなユーザプレーンファンクションとして選択するようにしてもよい。これにより、ユーザプレーンファンクションの配置を大きく変更することなく新たなユーザプレーンファンクションを端末に関連付けるという作用をもたらす。
 また、この第1の側面において、上記制御部は、上記障害が検出されたユーザプレーンファンクションが上記ローカルエリアネットワークに配置されている場合において上記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションの中に所定の基準を満たすものがなければ上記クラウドに配置されている他の運用中のユーザプレーンファンクションを上記新たなユーザプレーンファンクションとして選択するようにしてもよい。この場合において、上記制御部は、上記障害が検出されたユーザプレーンファンクションが上記ローカルエリアネットワークに配置されている場合において上記クラウドに配置されている他の運用中のユーザプレーンファンクションを上記新たなユーザプレーンファンクションとして選択することを許容するか否かの許容情報を上記ユーザプレーンファンクションごとに管理して、上記障害が検出されたユーザプレーンファンクションの上記許容情報が上記許容を示している場合にのみ上記クラウドに配置されている他の運用中のユーザプレーンファンクションを上記新たなユーザプレーンファンクションとして選択するようにしてもよい。
 また、この第1の側面において、上記制御部は、上記障害が検出されたユーザプレーンファンクションに関連付けられていた上記端末に複数の上記新たなユーザプレーンファンクションを関連付けるようにしてもよい。これにより、ユーザプレーンファンクションのトラフィックを分散するという作用をもたらす。
 また、この第1の側面において、上記制御部は、運用中のユーザプレーンファンクションを収容する計算機の性能を計算機性能情報として上記ユーザプレーンファンクションごとに管理して、上記計算機性能情報に基づいて上記新たなユーザプレーンファンクションを選択するようにしてもよい。これにより、同等の性能を持つユーザプレーンファンクションに振り替えるという作用をもたらす。
 また、この第1の側面において、上記制御部は、運用中のユーザプレーンファンクションについて優先度情報を上記ユーザプレーンファンクションごとに管理して、上記優先度情報に基づいて上記新たなユーザプレーンファンクションを選択するようにしてもよい。これにより、復旧を急ぐユーザプレーンファンクションを優先して振り替えるという作用をもたらす。
 また、この第1の側面において、上記障害検出部は、クラウドおよびローカルエリアネットワークの両者に配置されるようにしてもよい。この場合において、上記クラウドに配置された上記障害検出部は、上記クラウドおよび上記ローカルエリアネットワークの両方について上記障害を収集し、検出された上記障害を上記クラウドに配置された上記制御部に通知するようにしてもよい。
 また、この第1の側面において、上記クラウドに配置された上記障害検出部は、上記ローカルエリアネットワークに配置された全てのユーザプレーンファンクションについて上記障害を検出した場合には上記ローカルエリアネットワークと上記クラウドの間の通信が断絶したものとして上記断絶を上記クラウドに配置された上記制御部に通知するようにしてもよい。これにより、ローカルエリアネットワークとクラウドの間の通信断絶を検出するという作用をもたらす。
 また、この第1の側面において、上記障害検出部は、上記障害の検出を開始させる障害検出イニシエータと、上記ユーザプレーンファンクションごとに設けられて上記障害の検出の上記開始に応答して上記障害を検出する障害検出レスポンダとを備えるようにしてもよい。
本技術の実施の形態において想定する無線通信システムの第1の例を示す図である。 本技術の実施の形態において想定する無線通信システムの第2の例を示す図である。 本技術の実施の形態におけるコアネットワークの配置例を示す図である。 コアネットワークがボトルネックになっている場合の例を示す図である。 本技術の実施の形態における無線通信システムの一例を示す図である。 本技術の実施の形態における無線通信システムの通信経路の例を示す図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第1の例を示す図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第2の例を示す図である。 本技術の実施の形態におけるユーザプレーンファンクションの第1の状態例を示す図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第3の例を示す図である。 本技術の第1の実施の形態における通信システムの処理の流れの一例を示すシーケンス図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第4の例を示す図である。 本技術の実施の形態におけるユーザプレーンファンクションの第2の状態例を示す図である。 本技術の第2の実施の形態における通信システムの処理の流れの一例を示すシーケンス図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第5の例を示す図である。 本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第6の例を示す図である。 本技術の第3の実施の形態における障害検出のための構成例を示す図である。 本技術の第3の実施の形態における障害検出レスポンダ163および164の配置例を示す図である。 本技術の第3の実施の形態における通信システムの処理の流れの第1の例を示すシーケンス図である。 本技術の第3の実施の形態における通信システムの処理の流れの第2の例を示すシーケンス図である。
 以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
 1.第1の実施の形態(端末とユーザプレーンファンクションの関連付けを変更することにより障害を復旧する例)
 2.第2の実施の形態(新たなユーザプレーンファンクションを選定する例)
 3.第3の実施の形態(障害検出イニシエータと障害検出レスポンダによる障害検出の例)
 <1.第1の実施の形態>
 [無線通信システム]
 図1は、本技術の実施の形態において想定する無線通信システムの第1の例を示す図である。
 この第1の例は、第4世代移動通信システム(4G)に本技術の実施の形態を適用した場合の例である。端末300は、基地局200を介してコアネットワークに接続する。端末300と基地局200との間は、無線システムであるRANにより接続される。
 コアネットワークは端末300がネットワークに接続する際の許可やセッション管理を主に行うものであり、4GではEPC(Evolved Packet Core)と呼称される。この4Gのコアネットワークは、コントロールプレーンファンクション110とユーザプレーンファンクション120とに分かれおり、前者がネットワークの制御を行い、後者がパケット転送を行う。なお、コントロールプレーンファンクション110は、特許請求の範囲に記載の制御部の一例である。また、以下では、コントロールプレーンファンクション110を、単にコントロールプレーンと略すことがある。同様に、ユーザプレーンファンクション120を、単にユーザプレーンと略すことがある。
 4Gのコントロールプレーンファンクション110は、HSS111およびMME112などを備える。HSS(Home Subscriber Server)111は、ユーザ情報を管理するデータベースサーバである。MME(Mobility Management Entity)112は、端末300の制御のための制御信号のゲートウェイである。
 4Gのユーザプレーンファンクション120は、SGW121およびPGW122などを備える。SGW(Serving Gateway)121は、ユーザデータのゲートウェイである。PGW(Packet data network Gateway)122は、外部ネットワークに接続するためのゲートウェイである。
 4Gにおいて、端末300の加入者情報が格納されているHSS111からその端末300の契約情報や暗号のための鍵を受けて、その端末300がネットワークに接続してもよいか否かを判断し、暗号化のための鍵の生成などを行う。つまり、端末300の中にあるSIM(Subscriber Identity Module)カードの中にあるIMSI(International Mobile Subscriber Identity)という加入者番号に紐づいた端末300の情報がHSS111に格納されていることが、その端末300にとって、ネットワークに接続するために必要となる。また、端末300がセルラシステムにアタッチするために、MME112がその役割を果たす。
 図2は、本技術の実施の形態において想定する無線通信システムの第2の例を示す図である。
 この第2の例は、第5世代移動通信システム(5G)に本技術の実施の形態を適用した場合の例である。端末300が基地局200を介してコアネットワークに接続し、端末300と基地局200との間がRANにより接続される点は、上述の4Gの場合と同様である。
 5Gのコントロールプレーンファンクション110は、UDM113、SMF114およびAMF115などを備える。UDM(Unified Data Management)113は、加入者情報を管理するものである。SMF(Session Management Function)114は、セッション管理を行うものである。AMF(Access and Mobility Management Function)115は、端末の認証や位置管理などを行うものである。
 5Gのユーザプレーンファンクション120は、4GのSGW121およびPGW122のように分離されておらず、ここではUPF(User Plane Function)123と表記する。
 5Gにおいては、上述のHSS111と同様の機能をUDM113が備える。以降、HSS111という表記を用いるが、これは、UDM113にも適用できる。また、端末300がセルラシステムにアタッチするために、AMF115やSMF114がその役割を果たす。
 図3は、本技術の実施の形態におけるコアネットワークの配置例を示す図である。
 4GのPGW122や5GのUPF123は、コアネットワークと一般のインターネットとの境界となるゲートウェイの役割を果たしている。この実施の形態では、コアネットワークも一般のインターネットにも配置することを考えているためPGW122やUPF123に相当するCN-U129というコアネットワークのユーザプレーンファンクションが、コアネットワークと一般のアプリケーションとの境界に配置されるゲートウェイであると捉えて構わない。同様に、ここでは、MME112やSMF114およびAMF115に相当するものをCN-C119として示している。
 端末300と基地局200が配置されている近くにコアネットワークが配置されると、セルラ部分で要する遅延が少なくなることが知られている。そのため、インターネットのエッジ(Edge)に配置されるコアネットワークが増加することが予想される。ただし、この場合においても、エッジに配置されていないコアネットワークを、センターコアネットワークとして配置しておくことは有用である。エッジにコアネットワークが配置されていない時には、このセンターコアネットワークを使えばよいからである。なお、「エッジに配置されるコアネットワーク」という表現は、「コアネットワーク内のエッジに配置される1または複数のコアネットワークノード」という表現に代替されてもよい。また、「エッジ」は端末300または基地局200(例えば、端末300のアクセスポイント)の近くに配置されることを意味していてもよい。
 今後は、センターコアネットワークが存在している状況で、世界中の様々な場所のインターネットのエッジに多数のコアネットワークが配置されることが予想される。中には、工場や病院、オフィスの中のLANにコアネットワークを配置するケースも出てくると考えられる。少なくとも、基地局200は、工場や病院、オフィスのようなローカルエリアに配置され、コアネットワークは、そのようなローカルに置く場合とそのローカルエリアの近くのインターネット上に置かれる場合とが出てくると考えられる。いずれにしても、そのようなローカルなセルラシステムでは、低コストなシステムが要求される。これらは、プライベート4G(ローカル4G)またはプライベートLTE(ローカルLTE)や、プライベート5G(ローカル5G)などと呼ばれることもある。
 [スループット]
 SGW121およびPGW122またはUPF123によって実現されるユーザプレーンファンクションは、その能力の一つの指標として、処理できる最大のスループットというものがある。例えば、100Mbpsのユーザデータ(ユーザプレーンのデータ)を処理できる等の指標である。100Mbpsを処理するコアネットワークのユーザプレーンファンクションがあり、1台の基地局200が処理できる能力が100Mbpsであったとする。その場合には、1台の端末がネットワークを使うと、その1台の端末は100Mbpsのスピードを享受することができる。一方、そのような基地局200と端末が10セットあった場合には、コアネットワークのユーザプレーンの能力がボトルネックになって、各端末は10Mbpsのスループットしか得られない。
 図4は、コアネットワークがボトルネックになっている場合の例を示す図である。100Mbpsを処理するコアネットワークのユーザプレーンファンクションに対して、端末300や基地局200が増えるとユーザプレーンの能力がボトルネックになるおそれがある。このように基地局200の数や端末300の数が増えた時に、コアネットワークのユーザプレーンの能力を向上させる必要がある。
 コアネットワークのユーザプレーンの能力向上、すなわちスケーリング(Scaling)を行う際、静的(static)なスケーリングと動的(dynamic)なスケーリングとが考えられる。静的スケーリングとは、一度、ユーザプレーンの台数を決めて、コアネットワークを起動し、基地局200と接続し、運用を開始した後は、そのユーザプレーンの台数は、基本的に変えないという方法である。一方、動的スケーリングとは、端末300の数の変動に対応して、ユーザプレーンの台数を柔軟に増やし、または、減らす方法である。
 ユーザプレーンの台数を動的に増減させる方法は、非常に難易度が高い。なぜなら、基地局200の設定を変える必要が出てくる場合もあれば、新しいPDUセッションをユーザプレーンファンクションに割り振る機能が、変化したユーザプレーンの存在に気づき、内部のテーブルを更新するなどの手間がかかる場合もあるからである。上述のプライベートLTEやプライベート5Gなどと呼ばれる局所的なセルラシステムのためのコアネットワークは低コストで作る必要があるため、このような手間をかけることが困難であった。このスケーリングの際には、動的または静的のどちらの方法であっても、ユーザプレーンファンクションの数を増やすべきか、または、減らすべきかを、どこかの機能で判断する必要がある。
 図5は、本技術の実施の形態における無線通信システムの一例を示す図である。
 この実施の形態において、端末300と基地局200は、LAN(Local Area Network)に配置される。また、この実施の形態において、コアネットワークのコントロールプレーンは、インターネット上のクラウドに配置される。一方、コアネットワークのユーザプレーンファンクションは、オンプレミス(on-premise)のLANに配置してもよく、また、オンクラウド(on-cloud)に配置してもよい。
 LANに配置したユーザプレーンファンクションは、PC(Personal Computer)などの設備を増強しない限り、ユーザプレーンファンクションを増加することができない。一方、クラウドに配置したユーザプレーンファンクションは、クラウド上の仮想マシン(Virtual Machine)を追加して、その仮想マシンの中でユーザプレーンファンクションのプログラムを起動すれば、容易にユーザプレーンファンクションを追加することができる。ユーザプレーンファンクションの削除は、ユーザプレーンファンクションのプログラムを停止した上で、仮想マシンを削除すればよい。したがって、ユーザプレーンファンクションの追加または削除は、主にクラウド上に配置したユーザプレーンファンクションの追加または削除である。
 LANとクラウドのデータセンター内は、広域レイヤ2接続で接続することが望ましい。NAT変換(Network Address Translation)を減らすことにより、LAN側の基地局とクラウド側のコアネットワークを接続し易くするためである。
 クラウド上のユーザプレーンファンクションを追加または削除する機能を、リソースマネージメントファンクション(Resource Management Function)190と呼称する。リソースマネージメントファンクション190は、ネットワークの状況に基づいてユーザプレーンファンクションの追加または削除を判断する必要がある。リソースマネージメントファンクション190は、3GPPでは、MANO(Management And Network Orchestration)と呼ばれることもある。なお、リソースマネージメントファンクション190は、特許請求の範囲に記載の制御部の一例である。
 測定対象となる使用中のユーザプレーンファンクションに対して、ネットワークトラフィック量測定ツール、例えば、iperf3やpingといったツールを用いて、何Mbpsの速度が得られるかを測定する方法が従来から知られている。この方法では、iperf3サーバをユーザプレーンファンクションの内部、または、その近傍の仮想マシンに配置し、iperf3クライアントをLAN側に配置して、測定を行う。これにより、ユーザプレーンファンクションまでの通信経路の通信路のトラフィックの混雑度を測定することができる。
 この情報を取得しても、どの通信経路でトラフィックが混雑しているのか分からないため、ユーザプレーンファンクションを追加すべきか、または、削除すべきかの判断の情報としては十分ではない。また、ネットワーク測定ツールでは、実際にトラフィックを発生させて、どれくらいトラフィック量を向上させることができる余地があるかを測定する。しかし、このネットワークトラフィック量測定ツールによって生じたトラフィックが重要なユーザデータの通信に影響を与え、ユーザデータのトラフィック量の低下や遅延特性の悪化を招くことがある。特に、プライベート5G/4Gでは、LAN部分は脆弱なネットワークであることが少なくないため、そのようなネットワークでは、実際にテスト用のデータをネットワークトラフィック量測定ツールが送信するのは望ましくない。
 そこで、この実施の形態において、リソースマネージメントファンクション190は、大きく分けて以下の2つの情報に着目する。1つ目は、ユーザプレーンファンクションの処理能力である。また、2つ目は、ネットワークに流れるトラフィックの状況である。ネットワークに流れるトラフィックは、各ユーザプレーンファンクションで共通の通信路と、各ユーザプレーンファンクション固有の通信路の2種類ある。前者は、主にLANの通信経路であり、後者は、主にクラウドのユーザプレーンファンクション毎に異なる通信経路である。
 まず、1つ目のユーザプレーンファンクションの処理能力について検討する。ユーザプレーンファンクションは、ソフトウェアとして設計されている。そのソフトウェアの処理能力が例えば100Mbpsである場合には、1秒間に100Mビットのユーザデータを処理可能であるということになる。このとき、ユーザデータの使用状況が100Mbpsに迫る勢いの80Mbpsの場合には、もう1つユーザプレーンファンクションを追加して、追加したユーザプレーンファンクションと合わせて処理した方が、処理能力は増大するため、望ましい。もちろん、ユーザプレーンファンクションを増やす場合には、クラウドの仮想マシンを追加することになるため、プライベート5G/4Gのネットワーク運用者にとっては、コストが増大するという負の側面もある。
 次に、2つ目のネットワークに流れるトラフィックの状況について検討する。1つ目のユーザプレーンファンクションの処理能力の観点からユーザプレーンファンクションを追加した方がよいと判断しても、ネットワークのトラフィックが混雑している状況では、ユーザプレーンファンクションを増やしたとしてもスループットのパフォーマンスは向上しないと考えられる。したがって、ネットワークのトラフィックの状況を把握することが重要となる。ここで、ネットワークのトラフィックの状況とは、大きく分けて2つある。一つは、LAN側のネットワークのトラフィックの混雑状況、もう一つは、クラウド側のネットワークのトラフィックの混雑状況である。
 クラウド側に配置されたユーザプレーンファンクションは、共通のLANを使用し、その後段のインターネットでも同じ経路を通り、最後に各ユーザプレーンファンクションに分配されるときに、異なる通信路を通る。すなわち、通信経路は、共通の通信経路と、各ユーザプレーンファンクション独自の通信経路に分かれている。そして、共通の通信経路はLANの影響が大きいといえる。
 図6は、本技術の実施の形態における無線通信システムの通信経路の例を示す図である。
 この例では、LANから共通の通信経路を通って、ルータ410をゲートウェイとして、インターネットに接続される場合を想定している。
 ここで、共通の通信経路について検討する。LANにインターネットを提供するISP(Internet Services Provider)とLANとの境界に配置されるルータ410内で分岐している場合もあり得る。また、LANの後のISPの通信経路の中で、個別の通信経路に分岐している場合もあり得る。また、その後段のクラウドのデータセンターで個別の通信経路に分岐している場合もあり得る。何れにしても、クラウド側の各ユーザプレーンファンクションまで到達したトラフィックは、全て共通の通信経路を通っているということになる。
 [ネットワーク障害の検知]
 5Gまたは4Gのセルラーネットワークは、上述のように、端末、基地局およびコアネットワークから構成されている。また、基地局やコアネットワーク等のネットワークファンクション(Network Function)を接続するために、スイッチやルータなどのネットワーク機器とイーサネットや光ファイバー等の通信ケーブルが存在している。それらが故障した時には、ネットワークの所定の機能が動作しなくなる。セルラーネットワークは、インフラストラクチャーであり、このインフラストラクチャーを利用して様々なサービスとアプリケーションが動作している。したがって、ネットワーク障害が起きた時には、速やかにネットワークの機能を復旧させる必要がある。無線ローカルエリアネットワークと異なり、セルラーネットワークは重要なデータを取り扱うことが多いため、障害検知および復旧は非常に重要である。また、プライベート4Gまたは5Gは小型のシステムであるため、世界中で非常に多くのシステムが同時に稼働することが想定されている。障害および検知は、自動化しておかないと数が多いだけに対応できなくなってしまう。したがって、手間をかけずに障害検知および復旧を行う必要がある。
 ここで、障害を起こす可能性がある部分についてまとめる。まず、ネットワークファンクションについては、基地局やコアネットワーク、コアネットワークが配置されている仮想マシンが搭載されている計算機の障害、機器の故障や停電等が想定される。ネットワーク機器については、スイッチやルータなどの障害、機器の故障や停電等が想定される。また、通信ケーブルに関して、イーサネットケーブルや光ファイバー、具体的にはケーブルの断線等が想定される。
 なお、この実施の形態において、ユーザプレーンファンクションなどのネットワークファンクションにおいて障害が発生した場合とは、ユーザプレーンファンクションの機能を使えない状態をいう。例えば、ユーザプレーンファンクションというプログラムが起動できない場合、ユーザプレーンファンクションのプログラムを搭載している計算機や仮想マシンが停電やコンピュータのクラッシュで動作できない場合、ユーザプレーンファンクションに到達するためのローカルエリアネットワークケーブルや光ファイバーの断線等が想定されるが、その理由は問わない。
 [ネットワーク障害の復旧]
 ネットワークの復旧は、大きく3つの手順に分解できる。第1に、ネットワーク障害を検出する手順である。その際には、定期的に相手と通信可能か否かを確認する手法が基本となる。第2に、検出されたネットワーク障害のアラーム(alarm)を適切な相手に転送(Forwarding)する手順である。第3に、ネットワーク障害のアラームを受け取って障害を復旧する手順である。その際には、障害のあった計算機を再度リセットして、復旧できるか否かを試す手法や、別の計算機に同じ機能を搭載しておいて、そちらに通信経路を切り替えることによって障害があった機能を切り替える手法が基本となる。
 [LANのネットワーク障害とクラウドのネットワーク障害]
 上述のように、プライベート4G/5Gと呼ばれるローカルなセルラーネットワークは、LANの部分とインターネットのクラウドの部分とにより構成される。特に、ユーザプレーンファンクションは、LAN側にもクラウド側にも区別なく配置される。低遅延を要求する端末は、LAN側のユーザプレーンファンクションを使用した方がよい。
 LAN側でもクラウド側でも障害は起きるが、クラウド側の障害は、より頻度が大きいと考えられる。さらに、LANは、ISPを介してクラウドと接続されるが、ISPのネットワークに障害が起こった場合には、LANからクラウドにトラフィックが出ていけなくなる障害が発生し得る。この場合は、LANの中だけで完結した機能は動作可能であるが、クラウド側に配置された機能とLANに配置された機能との間でのやり取りはできなくなる障害である。
 障害の種類としては、以下の3種類の障害があげられる。第1に、LAN側の障害である。第2にクラウド側の障害である。第3に、LANが外のインターネットに接続できないために、クラウドに配置した機能とLANに配置した機能との間で通信ができなくなる障害である。
 この実施の形態においては、LAN側の障害よりもクラウド側の障害に重きを置いて議論する。クラウド側に配置するユーザプレーンファンクションの数の方が、LAN側に配置するユーザプレーンファンクションの数よりも多いことが想定されるからである。
 その次に、LANがインターネットに接続できなくなって、LANに配置された機器とクラウドに配置された機器が通信できなくなるという事象に対処することも非常に重要である。なぜならば、プライベート4Gまたは5Gネットワークでは、端末と基地局は、必ずLAN側に配置されるからである。つまり、LANにコアネットワークが配置されている場合は、LANから外のインターネットに接続ができないという障害が発生しても、LANの中でだけであればセルラーネットワークは動作を継続することが可能だからである。例えば、工場内のセルラシステムなどの用途でプライベート4Gまたは5Gを使う場合には、LANだけが障害がなく動作していれば、そのプライベート4Gまたは5Gは正しく機能することになるからである。
 [コアネットワークのコントロールプレーンファンクションの障害とユーザプレーンファンクションの障害]
 コアネットワークは、4Gシステム(LTE)でも5Gシステムでも、コントロールプレーンファンクションとユーザプレーンファンクションに分けることができる。4Gの場合は、コントロールプレーンファンクションは、MMEであり、ユーザプレーンファンクションは、SGWとPGWである。
 ユーザプレーンファンクションは、一つのユーザプレーンファンクションで処理できるトラフィック処理量に限りがあることなどから複数のユーザプレーンファンクションを配置することがある。複数のユーザプレーンファンクションを様々な場所に配置するために、いずれかのユーザプレーンファンクションがネットワーク障害により機能が失われることがあり得る。したがって、ユーザプレーンファンクションは、数が多い分だけ、コントロールプレーンファンクションよりも障害を起こす確率が高いといえる。以下では、主としてコアネットワークのユーザプレーンファンクションの障害を扱い、次にコアネットワークのコントロールプレーンファンクションの障害を扱う。
 上述のように、コアネットワークのユーザプレーンファンクションは、LAN側にもクラウド側にも配置するのが望ましい。障害が起きた時に仮想マシンを新たに用意し、ユーザプレーンファンクションのプログラムを再び起動すれば復旧できるからである。LAN側は、低遅延というメリットがある反面、ユーザプレーンファンクションの数を容易に増やしたり減らしたりというスケーリングは不得意だからである。LAN側で障害が起きた時も遠隔から自動で新しい計算機を用意するといったことが困難なため、障害からの復旧も容易ではない。
 一方、コントロールプレーンファンクションは、障害という側面を考えた時に、LANとクラウドのどちらに配置すべきであるかについて考察する。コントロールプレーンファンクションは、LAN側のユーザプレーンファンクションもクラウド側のユーザプレーンファンクションもどちらのユーザプレーンファンクションも制御する必要がある。したがって、LAN側かクラウド側かどちらか一方に配置すればよいが、復旧をし易いのは、やはりクラウド側であると考えられる。
 LAN側に配置するメリットとデメリットについて考察する。LANがインターネットと接続できないという障害が発生した時に、LAN側に残されたユーザプレーンファンクションとともに、基地局および端末とともにセルラシステムを動作させることが可能になるというメリットがある。一方、MMEは、クラウド上の仮想マシンではなく、LANに接続した物理マシン内に配置するため、障害が起きた時にその復旧が物理マシンの交換などになるため手間がかかるというデメリットがある。
 クラウド側に配置するメリットとデメリットについて考察する。LANがインターネットと接続できなくなった場合には、クラウド側に配置したコントロールプレーンファンクションがLANに配置した基地局やユーザプレーンファンクションを制御できないというデメリットがある。一方、コントロールプレーンファンクションやその周りのネットワークに障害があった場合には、例えば、近傍の別のデータセンターに仮想マシンを起動し、その仮想マシンの中でコントロールプレーンファンクションのプログラムを起動し直すことにより、容易にコントロールプレーンファンクションの復旧が可能になるというメリットがある。
 プライベート4Gまたは5Gは、低コストで設置容易性も考慮しなければならず、最初からLAN側にコントロールプレーンファンクションを配置しておくというのは、選択しづらい。基本的には、クラウド側にコントロールプレーンファンクションを配置しておき、障害が発生した時には、同じクラウド側で別のコントロールプレーンファンクションに切り替えることを基本とする。LANとクラウドの接続ができない障害が起きてしまった時には、LAN側に配置してあったコントロールプレーンファンクションに切り替えてもよい。コストを優先して、そこまで、対応しない場合も考えられる。コスト優先の場合には、クラウド側でコントロールプレーンファンクションの障害対応を考えるのがよいと考えられる。
 これらをまとめると、ユーザプレーンファンクションをLANに配置した場合には、低遅延ではあるが設置コストは高くなる。一方、ユーザプレーンファンクションをクラウドに配置した場合には、設置コストは低いが、遅延は大きくなる。障害という観点で見ると、ユーザプレーンファンクションをLANに配置した方がクラウドに配置するよりも、障害が起きる頻度は少なくなる。また、ユーザプレーンファンクションをクラウドに配置した方がクラウドに配置するよりも、障害からの復旧は容易である。また、LANが外のインターネットと遮断された場合には、ユーザプレーンファンクションをLANに配置していればLANのみで運用することも可能であるが、クラウドに配置していると運用を継続することができなくなる。
 コントロールプレーンファンクションのIPアドレスを基地局に設定すると、基地局からコントロールプレーンファンクションに対して、S1セットアップリクエスト(S1-setup request)というメッセージが送信される。そして、コントロールプレーンファンクションから基地局に対してS1セットアップレスポンス(S1-setup response)を返すことにより、基地局とコントロールプレーンファンクションとの間の接続が行われる。基地局によっては、新しいコントロールプレーンファンクションにつなぎ変える時に、数十分の時間を要するものもあるため、コントロールプレーンファンクションの切り替えはなるべく避けたい事態ではあるが、障害時に切り替えるのはやむを得ないといえるが、セルラサービスが一時中断してしまうことは受け入れなければならない。
 これに対し、ユーザプレーンファンクションの場合は、セルラサービスを継続しながら障害があったユーザプレーンファンクションを別のユーザプレーンファンクションで助けることにより復旧することが可能である。
 以下では、ファンクションとは、コアネットワークのコントロールプレーンファンクションまたはユーザプレーンファンクションを指す。ファンクション#0が障害を起こし、ファンクション#1に切り替えを行った場合に、ファンクション#0を起動し直して復旧した場合に、もとのファンクション#0に戻る必要は、基本的にはないと考えられる。機能間の切り替えは、時間がかかるため、どうしても、もとに戻すという理由がない限りは、そのままその切り替え先のファンクションを使用し続けた方が、端末の通信への影響が少ないからである。
 LAN側とクラウド側の障害の違いを考慮して、例えば、クラウド側で障害が起きた場合でも、その切り替え先は、まずは、同じクラウド側である方がよいと考えられる。LAN側に切り替えてしまうと、LANに配置したユーザプレーンファンクションの性能とクラウドに配置したユーザプレーンファンクションの性能は、遅延の観点で大きく異なるため、元に戻す必要が出てきてしまう。同じような性能であろうクラウドのユーザプレーンファンクション間での切り替えであれば、わざわざ元のユーザプレーンファンクションに戻る必要はない。基本は、同じ特性を持つネットワーク(クラウドまたはLAN)に配置された機能間で切り替えを行い、どうしてもそれができない場合のみ、LANとクラウド間にまたがった切り替えを行うのがよいと考えられる。
 通常は、障害が起きたユーザプレーンファンクションのバックアップ専用のユーザプレーンファンクションを用意しておく必要がある。プライベート5G/4Gでは、ユーザプレーンファンクションの数として、例えば1個から32個など複数用意することになるため、それぞれのユーザプレーンファンクション毎に故障時の切り替え用のバックアップのユーザプレーンファンクションを例えば1個から32個持つ必要があった。その場合、合計でユーザプレーンファンクションは、2個から64個持つことになる。これは、プライベート5G/4Gという低コストが重要であるシステムにとって無視できないコストである。ここでいうコストは、ユーザプレーンファンクションのプログラムを起動するための計算機のコストである。プライベート5G/4G用のシステムでは、ユーザプレーンファンクションをLANに配置したものとクラウドに配置したものが混在する場合がある。このような場合にどのように故障したユーザプレーンファンクションを復旧させるかが問題となる。
 [障害発生時の振替]
 そこで、ユーザプレーンファンクションを複数持つシステムの場合は、障害があったユーザプレーンファンクションは、通常動作している残りのユーザプレーンファンクションに振り替えることで、障害からの復旧を行う。加入者ファイルの加入者情報において、端末とユーザプレーンファンクションの関連付け(association)を行う。障害が発生したユーザプレーンファンクションを使用している端末が、別のユーザプレーンファンクションを使用するために、加入者ファイルにおいて端末とユーザプレーンファンクションの関連付けを書き換える。その際、どのユーザプレーンファンクションに振替を行うかを決定しなければいけない。
 振替の第1の手法として、連続する番号の次の番号のユーザプレーンファンクションに振替を行うことが考えられる。例えば、動作中のユーザプレーンファンクションの数が5個であった場合、故障したユーザプレーンファンクションの番号の次の番号のユーザプレーンファンクションに振り替える。仮に、ユーザプレーンファンクション#1が故障した場合には、ユーザプレーンファンクション#1を使用していた端末に対して、ユーザプレーンファンクション#2を使うように、端末とユーザプレーンファンクションの関連付けを書き換える。 同様に、ユーザプレーンファンクション#5が故障した場合は、ユーザプレーンファンクション#1に振り替える。
 ただし、上述の第1の手法では、振り替え先のユーザプレーンファンクションのトラフィックが輻湊してしまう可能性がある。そこで、振替の第2の手法として、未使用のユーザプレーンファンクションを常時1台用意しておき、どのユーザプレーンファンクションが故障しても、そのユーザプレーンファンクションに振り替えるように加入者ファイルの端末とユーザプレーンファンクションの関連付けを書き換えることが考えられる。ユーザプレーンファンクション#1から#4までを実際に稼働しておき、ユーザプレーンファンクション#5は、ユーザプレーンファンクション#1から#4のバックアップ用として、端末を割り当てない状態で待機しておく。そして、ユーザプレーンファンクション#1から#4のいずれかが故障した時に、ユーザプレーンファンクション#5を使用するように振り替える。
 この第2の手法では、バックアップ用のユーザプレーンファンクション#5のリソースが無駄になってしまうという問題がある。また、複数台のユーザプレーンファンクションが故障した時に、ユーザプレーンファンクション#5のみでは、その故障したユーザプレーンファンクションのトラッフィックを収容できないという問題がある。そこで、振替の第3の手法として、ユーザプレーンファンクションの中で、処理使用率が低いユーザプレーンファンクションに振り替えることが考えられる。この第3の手法によれば、ユーザプレーンファンクションを無駄にすることなく、効率の良い振替を行うことができる。
 この第3の手法において、故障したユーザプレーンファンクションに関連付けられていた端末にとって、振替先となるユーザプレーンファンクションの処理使用率(振替先UPF処理使用率)は、例えば次式により得られる。
  振替先UPF処理使用率=
   現在の処理トラフィック量 / 
   UPFのプログラム処理トラフィック能力
 例えば、ユーザプレーンファンクションのプログラム処理能力が100Mbpsで、現在の処理容量が80Mbpsの場合には、「0.8」が余地容量の率になる。「0.0」の場合は、完全に処理の容量があることを意味し、「1.0」は、処理能力が残っていないことを意味する。
 また、他の指標として、振替先UPF処理使用率に代えて、次式に示す、振替先となるユーザプレーンファンクションの処理余地トラフィック量(振替先UPF処理余地トラフィック量)を用いてもよい。
  振替先UPF処理余地トラフィック量=
   UPFのプログラム処理能力 - 現在の処理トラフィック量
 また、ユーザプレーンファンクションの処理使用率を、トラフィック量に基づくのではなく、所属している端末の数で評価してもよい。すなわち、端末の数が多いほど、ユーザプレーンファンクションの処理使用率が高いと判断する。したがって、その場合、所属する端末が少ないユーザプレーンファンクションに対して、故障したユーザプレーンファンクションに所属していた端末を振り分ける。この場合、端末の数と処理使用率の関係は、次式を用いることができる。
  振替先UPF処理使用率=
   現在所属している端末の数 / 一台のUPFに所属する端末の最大値
 このように、あまり使われていないユーザプレーンファンクションに振り替えるのが適切である。そのために、ユーザプレーンファンクションの現在の状況をリソースマネージメントファンクション190が把握している必要がある。具体的には、ユーザプレーンファンクション毎にトラッフィク量モニターを配置し、リソースマネージメントファンクション190はそのトラフィック量モニターから定期的に各ユーザプレーンファンクションの処理使用率を把握している必要がある。
 図7は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第1の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態および処理使用率が示されている。配置位置は、そのユーザプレーンファンクションがローカルエリアネットワーク(LAN)に配置されているか、クラウドに配置されているかを示す。状態は、そのユーザプレーンファンクションの動作状態として、動作中、停止中、または、障害発生中の何れであるかを示す。処理使用率は、上述の処理使用率である。ここで、状態および処理使用率は、少なくとも数秒置きに、情報が最新のものに更新(update)されていく。
 図8は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第2の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態、および、収容している端末の数が示されている。すなわち、ユーザプレーンファンクションに割り当てられている端末の数が少ないところに振り替えるために、収容している端末の数を把握する例である。この例では、障害を起こしたユーザプレーンファンクションの振替先として、例えば、ユーザプレーンファンクション#1や#30は、端末の数が少ないため、振替先の候補として有望であるとリソースマネージメントファンクション190は判断することができる。ここで、状態および収容している端末の数は、少なくとも数秒置きに、情報が最新のものに更新されていく。
 図9は、本技術の実施の形態におけるユーザプレーンファンクションの第1の状態例を示す図である。
 この例では、ユーザプレーンファンクション#3から#10の8台がクラウド上に配置されて運用されているものとする。そして、ユーザプレーンファンクション#4において障害が検出されたものとする。この場合、100Mbpsを処理できるユーザプレーンファンクション#5が、10Mbpsを使用中であるものと仮定すると、その処理使用率は「0.1」となり、他のユーザプレーンファンクションよりも余裕があると考えられる。そのため、この例ではユーザプレーンファンクション#5が振替先として決定されることになる。
 一方、故障したユーザプレーンファンクションの処理使用率が「1.0」に近い「0.9」などの場合は、別のユーザプレーンファンクションに収容しようとしても、1台のユーザプレーンファンクションのみで収容しきれないと考えられる。その場合は、複数台のユーザプレーンファンクションに分散して振り替えることが有用である。例えば、故障したユーザプレーンファンクションを使用している端末が9台で、UPF処理使用率が「0.9」であった場合には、「0.3」のUPF処理使用率を収容できるユーザプレーンファンクション3台に、端末を3台ずつ振り分けることによって、トラフィックを収容できると考えられる。このとき、故障前のユーザプレーンファンクションの処理使用率を記憶しておくことが重要となる。
 図10は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第3の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態、処理使用率、収容している端末の数、収容している端末の識別子が示されている。収容している端末の識別子としては、例えば、上述のIMSIを利用することができる。
 また、この例では、ユーザプレーンファンクション#30に障害が発生したことを想定しており、その障害が発生した直前の処理使用率および収容されていた端末の数とその識別子が示されている。これにより、障害発生直前の処理使用率が高い場合には、上述のように、分散して振り替えることを選択することができる。
 [動作]
 図11は、本技術の第1の実施の形態における通信システムの処理の流れの一例を示すシーケンス図である。
 端末300の電源がオンになると、アタッチプロシージャ(Attach Procedure)が動作し、コントロールプレーンファンクション110が端末300に対して、加入者ファイル118の加入者情報に従ってユーザプレーンファンクション120を割り当てる(812)。これにより、端末300は割り当てられたユーザプレーンファンクション120を使って通信を行う(813)。なお、加入者ファイル118は、特許請求の範囲に記載の加入者情報保持部の一例である。
 障害検出部160は、ユーザプレーンファンクション120の現在の状況を監視する(814)。そして、障害検出部160は、ユーザプレーンファンクション120について障害の発生を検出すると、そのユーザプレーンファンクション120を特定する識別子をリソースマネージメントファンクション190に通知する(815)。
 障害検出部160からの通知を受けたリソースマネージメントファンクション190は、振替先のユーザプレーンファンクションを決定する(816)。その際、リソースマネージメントファンクション190は、障害を発生したユーザプレーンファンクションの処理使用率や振替先のユーザプレーンファンクションの処理使用率を考慮する。なお、上述のように、複数台のユーザプレーンファンクションを振替先とすることも可能である。
 リソースマネージメントファンクション190は、障害を発生したユーザプレーンファンクションに代えて、振替先のユーザプレーンファンクションを端末300に関連付けるように、加入者ファイル118の加入者情報を変更する(817)。
 その後、端末300の電源を一旦オフにして、再度オンにすることより、再びアタッチプロシージャが動作する(818)。これにより、加入者ファイル118の加入者情報に基づいて、端末300に振替先のユーザプレーンファンクション120が割り当てられる。その後、端末300は新たに割り当てられたユーザプレーンファンクション120を使って通信を行う(819)。
 このように、本技術の第1の実施の形態では、ユーザプレーンファンクションの障害発生時に、運用中のユーザプレーンファンクションのうち処理使用率が低いものを振替先として決定することにより、効率よく障害を復旧することができる。
 すなわち、振替先として用意するユーザプレーンファンクションの数を少なくすることができるため、低コストで障害の復旧を行うことができる。また、加入者ファイルを書き換えるだけで済むため、簡易で低コストでコアネットワークによって障害の復旧を行うことができる。また、この仕組みは、運用中であったユーザプレーンファンクションに振り替えるだけであるため、端末によるサービスの中断を極力少なくすることができる。
 <2.第2の実施の形態>
 上述の第1の実施の形態では、振替先のユーザプレーンファンクションの配置等については特に制限していなかった。しかしながら、振替の前後で端末から見た性質が大きく変化することは可能な限り回避したい。そこで、この第2の実施の形態では、振替先のユーザプレーンファンクションの選定についてさらに検討を重ねる。
 あるユーザプレーンファンクションが障害を起こして機能を停止した場合、この障害を起こしたユーザプレーンファンクションの代わりにバックアップとして別のユーザプレーンファンクションを使用する。切り替えたユーザプレーンファンクションは、そのまま使用しつづけることが望ましい。つまり、障害を起こしたユーザプレーンファンクションが直った時に、その障害が直ったユーザプレーンファンクションに再度戻るということは、手続き上の無駄とユーザデータが送受信できない時間があることも考慮すると、望ましくない。つまり、障害により切り替えて使い始めたユーザプレーンファンクションは、その後も使い続けることが望ましい。
 ユーザプレーンファンクションは、インターネットのクラウドのデータセンターに配置される場合と、LANのPC等の計算機上に配置される場合がある。クラウドのデータセンターに配置されたユーザプレーンファンクションが障害を起こした時に、LANのユーザプレーンファンクションに切り替えると、LANのユーザプレーンファンクションの性質とクラウドのユーザプレーンファンクションの性質は大きく異なるため、元の状態とは大きく異なるユーザプレーンファンクションに切り替えてしまったことになり、そのまま切り替えたユーザプレーンファンクションを使い続けるのは問題がある。
 そこで、LANに配置したユーザプレーンファンクションが障害を起こした時には、LANに配置したユーザプレーンファンクションに切り替えるものとし、クラウドに配置したユーザプレーンファンクションが障害を起こした時には、クラウドに配置したユーザプレーンファンクションに切り替えるものとする。
 LANに配置されたユーザプレーンファンクションが故障した場合は、基本的には、LANに配置されたユーザプレーンファンクションに振替を行うが、LANに配置されたユーザプレーンファンクションに適切な振替先がない場合にのみクラウドのユーザプレーンファンクションに振替を行う。これは、LANに用意するユーザプレーンファンクションの数は、通常は、クラウドに配置されたユーザプレーンファンクションの数よりも少ないからである。LANの故障したユーザプレーンファンクションをクラウドのユーザプレーンファンクションに振り替える場合は、LANのユーザプレーンファンクションが復旧した後に、クラウドのユーザプレーンファンクションからLANのユーザプレーンファンクションに再度、振り替えることが必要となると考えられる。
 LANに配置されたユーザプレーンファンクションに適切な振替先がない場合が生じる理由は以下の通りである。例えば、LANに2つのユーザプレーンファンクションがあり、そのうち1つが故障した場合に、残りの1つのユーザプレーンファンクションで処理しているトラフィック量が大きい場合などである。例えば、1台のユーザプレーンファンクションで100Mbpsを処理する能力があるとき、現在のトラフィック量が90Mbpsである場合には、故障を起こしたユーザプレーンファンクションのトラフィックを収容できない。その場合は、LANの中の障害を起こしたユーザプレーンファンクションのトラフィックをクラウドのユーザプレーンファンクションに振り替える。これは望ましくはないが、起こりえるケースである。 
 一方、クラウドからLANに振り替えるケースはあまりないと思われる。クラウドにはユーザプレーンファンクションを配置するリソースが豊富にあるからである。仮想的に計算機をいくつでも配置することが可能だからである。LANへの計算機の配置は人が行う必要があり、無制限にユーザプレーンファンクションの数を増やせるわけではない。
 LANのユーザプレーンファンクションを使用していた端末は、低遅延のアプリケーションを使用していた可能性がある。クラウドに配置したユーザプレーンファンクションよりも基地局に近いLANに配置したユーザプレーンファンクションの方が通信に必要な遅延が少ないからである。LANのユーザプレーンファンクションに障害が起き、同じLANの別のユーザプレーンファンクションへの振替が困難な場合、無条件にクラウドのユーザプレーンファンクションに振り替えることができるわけではない。低遅延のアプリケーションをクラウドのユーザプレーンファンクションに振り替えるよりも、障害を発生した状態のままLANのユーザプレーンファンクションの復旧を待った方がよい場合もあるからである。そこで、あらかじめ、LANのユーザプレーンファンクションの中で、クラウドへの振替を許容するか否かを、事前にリソースマネージメントファンクション190に設定しておくことが考えられる。
 図12は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第4の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態、処理使用率に加えて、障害発生時にLANからクラウドへの振替を許容するか否かの情報が示されている。
 各項目をどのような順番で評価していくかは、シナリオによって異なる。例えば、遅延時間を重要視するアプリケーションを含んでいるユーザプレーンファンクションが故障を起こした時には、LANで故障したユーザプレーンファンクションは、LANのユーザプレーンファンクションに振り替えることが望ましいため、最初に配置位置を重要視する。
 次に、振替先が動作中であるかをチェックし、動作中のLANのユーザプレーンファンクションの中から、処理使用率が許容可能かどうかをチェックする。その際、対象となるユーザプレーンファンクションがない場合は、クラウドに振り替えてもよいか否かをチェックし、それが許容するとなっていた場合には、クラウドの中の動作中のユーザプレーンファンクションのうち処理使用率が少ないものを振替先として選択する。
 図13は、本技術の実施の形態におけるユーザプレーンファンクションの第2の状態例を示す図である。
 この例では、ユーザプレーンファンクション#1および#2がLAN上に配置され、ユーザプレーンファンクション#3から#10の8台がクラウド上に配置されて運用されているものとする。ここで、クラウド上に配置されたユーザプレーンファンクション#4において障害が検出された場合には、クラウドに配置されたユーザプレーンファンクションから振替先を探す。
 一方、LAN上に配置されたユーザプレーンファンクション#2において障害が検出された場合には、基本的にはLAN上に配置されたユーザプレーンファンクションから振替先を探すが、適切なものがない場合にはクラウドに配置されたユーザプレーンファンクションから振替先を探すことになる。例えば、この例のようにユーザプレーンファンクション#1の処理使用率が「0.7」と高く、処理使用率が「0.3」以下のものがない場合には、クラウドへの振替を許容する旨を示していればそのような振替も可能である。
 [動作]
 図14は、本技術の第2の実施の形態における通信システムの処理の流れの一例を示すシーケンス図である。
 この例では、LANに配置したユーザプレーンファンクションの識別子と、クラウドに配置されたユーザプレーンファンクションの識別子を、予め設定しておく(821)。また、障害発生時にLANからクラウドへの振替を許容するか否かの情報を、予め設定しておく(821)。
 それ以降の手順は基本的には上述の第1の実施の形態と同様である。ただし、障害検出部160からの通知を受けたリソースマネージメントファンクション190が、振替先のユーザプレーンファンクションを決定する際(826)、クラウド上に配置されたユーザプレーンファンクションで障害が起きた時は、クラウド上に配置されたユーザプレーンファンクションに振替を行う。
 また、LAN上に配置されたユーザプレーンファンクションで障害が起きた時は、なるべくLAN上に配置されたユーザプレーンファンクションに振替を行う。ただし、LAN上に配置されたユーザプレーンファンクションで障害が起きた際に適切なものがない場合、クラウドへの振替を許容する旨の設定がされていれば、クラウド上に配置されたユーザプレーンファンクションに振替を行う。
 [第1の変形例]
 図15は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第5の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態、処理使用率に加えて、ユーザプレーンファンクションを収容する計算機性能に関する情報が示されている。
 例えば、非常に低遅延を要求するアプリケーションがあった場合に、そのようなアプリケーションを搭載する端末を収容するユーザプレーンファンクションは、そのユーザプレーンファンクションのプログラムを走らせるための仮想マシンとしてスペックが高いものを割り当てるものと考えられる。ここで、スペック(性能)としては、プロセッサの速度、メモリ、イーサネットのスピードなどが想定される。
 クラウドでは、そのようなスペックの高い仮想マシンは、時間あたりの値段も高いが可能である。したがって、スペックの高いユーザプレーンファンクションが障害を起こした時には、同等の性能を持つユーザプレーンファンクションに振替を行うことが考えられる。そのため、リソースマネージメントファンクション190は、同図に示すように、ユーザプレーンファンクションを収容する計算機性能に関する情報を予め保持しておく。
 [第2の変形例]
 図16は、本技術の実施の形態におけるリソースマネージメントファンクション190が把握するユーザプレーンファンクションの状態の第6の例を示す図である。
 この例では、32台のユーザプレーンファンクション(UPF)の各々について、配置位置、状態、処理使用率に加えて、障害発生時に復旧を行う優先度に関する情報が示されている。
 複数のユーザプレーンファンクションが同時に障害を起こした時に、一度に全てのユーザプレーンファンクションを復旧すること(すなわち、端末を振り替ること)ができない場合がある。つまり、障害を起こした複数のユーザプレーンファンクションのための振替先のユーザプレーンファンクションをすぐに見つけられない場合がある。そのような振替先が足りないような場合には、新規に仮想マシンを立ち上げて、そこで、ユーザプレーンファンクションを立ち上げるなどの施策が必要となる。その場合の問題は、通信を利用しているアプリケーションの中には、一刻も早く復旧させないといけない遠隔医療やドローンの遠隔操作などがある。障害が起きた時に、そのような重要なアプリケーションが使用していたユーザプレーンファンクションを優先して振替先を見つける必要がある。新規に立ち上げた仮想マシンへの振替では時間がかかりすぎてしまうからである。
 したがって、システム運用者が、どのユーザプレーンファンクションを優先して復旧させるかをあらかじめ設定しておくことが実用上重要である。そのため、リソースマネージメントファンクション190は、同図に示すように、障害発生時に復旧を行う優先度に関する情報を予め保持しておく。これにより、同時に複数のユーザプレーンファンクションの障害が起きた時には、上述の振替先のユーザプレーンファンクションを決定する際(826)、優先度の高いユーザプレーンファンクションを先に振り替え先を決定する。
 優先度が低いユーザプレーンファンクションは、ある時点では、適切な振替先がない場合があり得る。その時は、しばらく時間をおいてから、再度、処理使用率が低いユーザプレーンファンクションがないかを調べて、振替先を決定するのがよいと考えられる。ある程度の時間が経過しても振替先が見つからない場合には、新たに新規のユーザプレーンファンクションを立ち上げるようにしてもよい。
 なお、ここに示した優先度は、LANの中での優先度と、クラウドの中での優先度と捉えることができる。つまり、LAN上に配置されたユーザプレーンファンクションの振替先は基本的にLAN上に配置されたユーザプレーンファンクションであり、クラウド上に配置されたユーザプレーンファンクションの振替先はクラウド上に配置されたユーザプレーンファンクションである。したがって、上述の優先度は、LANの中での優先度と、クラウドの中での優先度とに分けて考えてもよい。
 この例における復旧の優先度の設定は、手動で設定してもよく、また、自動で設定してもよい。自動で行う場合は、ユーザプレーンファンクションに属している端末がどのようなアプリケーションを使用する可能性が高いかを自動で検出する必要がある。最も現実的な手法としては、ユーザプレーンファンクションに端末を関連付ける際に、重要なアプリケーションを使う可能性が高い端末は、復旧の優先度が高いユーザプレーンファンクションに関連付けておくのがよい。すなわち、端末のアプリケーションに対応して、自動でその端末に優先度が高いユーザプレーンファンクションを割り当てるようにすることが考えられる。
 このように、本技術の第2の実施の形態では、クラウド上に配置されたユーザプレーンファンクションで障害が起きた時は、クラウド上に配置されたユーザプレーンファンクションに振替を行い、LAN上に配置されたユーザプレーンファンクションで障害が起きた時は、なるべくLAN上に配置されたユーザプレーンファンクションに振替を行う。これにより、振替後のサービスレベルを振替前と同様に維持することができる。また、復旧の優先度を考慮することにより、重要なアプリケーションのサービス中断を最小限にすることができる。
 <3.第3の実施の形態>
 この第3の実施の形態では、LANとクラウドの両方にユーザプレーンファンクションが配置されている場合に、障害検出を効率的に行うための仕組みについて検討する。具体的には、障害の検出を開始させる障害検出イニシエータと、障害検出イニシエータからの障害の検出の開始に応答して障害を検出する障害検出レスポンダとを想定して、それぞれの配置について検討する。
 図17は、本技術の第3の実施の形態における障害検出のための構成例を示す図である。
 この例では、ユーザプレーンファンクション#1および#2の2台がLAN上に配置され、ユーザプレーンファンクション#3から#10の8台がクラウド上に配置されて運用されているものとする。そして、LAN側には、1つの障害検出イニシエータ161と、ユーザプレーンファンクション毎に障害検出レスポンダ163が配置される。また、クラウド側には、1つの障害検出イニシエータ162と、ユーザプレーンファンクション毎に障害検出レスポンダ164が配置される。
 また、障害発生時にアラームを転送する障害マネージメントファンクション165および166が、LAN側およびクラウド側にそれぞれ配置される。クラウド側には、リソースマネージメントファンクション190が配置される。
 LAN側の障害検出イニシエータ161は、LAN側の複数の障害検出レスポンダ163に一定周期(例えば、10分)毎にpingを送信し、それらの障害検出レスポンダ163からのping応答を受信することにより各ユーザプレーンファンクションが動作していることを確かめる。ping応答が帰ってこないユーザプレーンファンクションは障害が起きたと認識し、そのアラームをLAN側に配置されている障害マネージメントファンクション165に転送する。その障害マネージメントファンクション165は、クラウドに配置されているリソースマネージメントファンクション190に、どのユーザプレーンファンクションが障害を受けているかを通知する。
 リソースマネージメントファンクション190は、例えば、UPF番号#1から#2がLANで使用しているということを把握していて、ユーザプレーンファンクション#3から#10は、クラウドで使用されているということを把握している。そのため、UPF番号#2のユーザプレーンファンクションの障害が報告された場合には、それは、LAN側の別のユーザプレーンファンクション(#1など)に振り替えるという決定をリソースマネージメントファンクション190が行う。リソースマネージメントファンクション190は、コアネットワークのコントロールプレーンファンクションが使用している加入者ファイルを書き換えることによって、ユーザプレーンファンクションの振替を行う。
 LAN側の障害検出イニシエータ161は、クラウド側の複数の障害検出レスポンダ164に一定周期(例えば、10分)毎にpingを送信し、それらの障害検出レスポンダ164の何れからもping応答が帰ってこない場合には、LANとクラウドの間のインターネット回線に断絶などの障害が起きたと認識する。その場合、LANが孤立してしまった旨のアラームを、LAN側に配置されている障害マネージメントファンクション165に転送する。
 障害マネージメントファンクション165は、メール等によってプライベート5G/4Gの管理者にその旨を知らせることができる。知らせを受け取ったプライベート5G/4Gの管理者は、LAN内でコアネットワークのコントロールプレーンファンクションのプログラムを起動し、LAN内に閉じてセルラシステムを復活させることもできる。なお、この手動での復活を自動にしてもよい。
 クラウド側の障害検出イニシエータ162は、クラウド側の複数の障害検出レスポンダ164に一定周期(例えば、10分)毎にpingを送信し、それらの障害検出レスポンダ164からのping応答を受信することにより、各ユーザプレーンファンクションが動作していることを確かめる。ping応答が帰ってこないユーザプレーンファンクションについては障害が起きたと認識し、そのアラームをクラウド側に配置されている障害マネージメントファンクション166に転送する。その障害マネージメントファンクション166は、クラウドに配置されているリソースマネージメントファンクション190に対して、どのユーザプレーンファンクションが障害を受けているかを通知する。
 リソースマネージメントファンクション190は、例えば、ユーザプレーンファンクション#1および#2がLANで使用されているということを把握しており、ユーザプレーンファンクション#3から#10はクラウドで使用されているということを把握している。そのため、UPF番号#3のユーザプレーンファンクションの障害が報告された場合には、それはクラウド側の別のユーザプレーンファンクション(#7など)に振り替えるという決定をリソースマネージメントファンクション190が行う。リソースマネージメントファンクション190は、コアネットワークのコントロールプレーンファンクションが使用している加入者ファイル118を書き換えることにより、ユーザプレーンファンクションの振替を行う。
 クラウド側の障害検出イニシエータ162は、LAN側の複数の障害検出レスポンダ163に一定周期(例えば、10分)毎にpingを送信し、それらの障害検出レスポンダ163の何れからもping応答が帰ってこない場合には、LANとクラウドの間のインターネット回線に断絶などの障害が起きたと認識する。その場合、LANが孤立してしまったというアラームを出してもよい。このアラームは、プライベート5G/4Gの管理者にメールで転送するようにしてもよい。
 上述の動作において、主役はクラウド側であり、リソースマネージメントファンクション190はクラウド側のみに配置される。また、通常時は、コアネットワークのコントロールプレーンファンクションはクラウド側にのみ配置され、LAN側に配置されたユーザプレーンファンクションとクラウド側に配置されたユーザプレーンファンクションの両方のコントロールプレーンファンクションとして動作する。ただし、LANがインターネットと切り離されてしまった場合には、LAN側のコントロールプレーンファンクションがプライベート5G/4Gの管理者によって使用されることがある。
 取得された障害のアラームは、それぞれ、LAN側またはクラウド側の障害マネージメントファンクション165または166で収集されるが、最終的にはクラウド側にあるリソースマネージメントファンクション190に転送される。このような構成にすると、LAN側およびクラウド側の両方で障害の検出状況を集約するところまでは、それぞれのネットワーク側(LANかクラウド)で完結する。これにより、リソースマネージメントファンクション190にユーザプレーンファンクションの振替をする前の段階で、アラームをネットワークオペレータに転送することが可能になる。
 なお、障害検出イニシエータ161および162、障害検出レスポンダ163および164、障害マネージメントファンクション165および166は、上述の障害検出部160を構成し、特許請求の範囲に記載の障害検出部の一例である。
 図18は、本技術の第3の実施の形態における障害検出レスポンダ163および164の配置例を示す図である。
 障害検出レスポンダ163および164は、ユーザプレーンファンクション毎に存在する。各ユーザプレーンファンクションのプログラムが実行されて動作している実計算機または仮想マシン(仮想計算機)にping応答を行うプログラムを配置する。複数のユーザプレーンファンクションが1台の実計算機や仮想マシンに配置されている場合は、その複数のユーザプレーンファンクションのための障害検出レスポンダ163または164は共通する障害検出レスポンダ163または164を使用する。ユーザプレーンファンクションの障害のほとんどは、そのユーザプレーンファンクションを搭載している計算機の障害であるため計算機の単位で障害を検出すれば十分だからである。
 [動作]
 図19は、本技術の第3の実施の形態における通信システムの処理の流れの第1の例を示すシーケンス図である。
 この例では、LANに配置したユーザプレーンファンクションの識別子と、クラウドに配置されたユーザプレーンファンクションの識別子を、予め設定しておく(831)。
 端末300の電源がオンになると、アタッチプロシージャが動作し、コントロールプレーンファンクション110が端末300に対して、加入者ファイル118の加入者情報に従ってユーザプレーンファンクション120を割り当てる(832)。これにより、端末300は割り当てられたユーザプレーンファンクション120を使って通信を行う(833)。
 クラウド側の障害検出イニシエータ162は、クラウド側の複数の障害検出レスポンダ164に一定周期毎にpingを送信して(834)、それらの障害検出レスポンダ164からのping応答(835)を受信することにより、障害検出のための監視を行う。ping応答が帰ってこないユーザプレーンファンクションは障害が起きたと認識し、そのアラームをクラウド側に配置されている障害マネージメントファンクション166に転送する。これにより、障害マネージメントファンクション166は、リソースマネージメントファンクション190に、障害を発生したユーザプレーンファンクションの識別子を通知する(836)。
 LAN側の障害検出イニシエータ161は、LAN側の複数の障害検出レスポンダ163に一定周期毎にpingを送信して(837)、それらの障害検出レスポンダ163からのping応答(838)を受信することにより、障害検出のための監視を行う。ping応答が帰ってこないユーザプレーンファンクションは障害が起きたと認識し、そのアラームをLAN側に配置されている障害マネージメントファンクション165に転送する。これにより、障害マネージメントファンクション165は、リソースマネージメントファンクション190に、障害を発生したユーザプレーンファンクションの識別子を通知する(839)。
 障害マネージメントファンクション165または166からの通知を受けたリソースマネージメントファンクション190は、振替先のユーザプレーンファンクションを決定する(846)。そして、リソースマネージメントファンクション190は、障害を発生したユーザプレーンファンクションに代えて、振替先のユーザプレーンファンクションを端末300に関連付けるように、加入者ファイル118の加入者情報を変更する(847)。
 その後、端末300の電源を一旦オフにして、再度オンにすることより、再びアタッチプロシージャが動作する(848)。これにより、加入者ファイル118の加入者情報に基づいて、端末300に振替先のユーザプレーンファンクション120が割り当てられる。その後、端末300は新たに割り当てられたユーザプレーンファンクション120を使って通信を行う(849)。
 図20は、本技術の第3の実施の形態における通信システムの処理の流れの第2の例を示すシーケンス図である。
 この例では、LAN側の障害検出イニシエータ161は、LAN側の複数の障害検出レスポンダ163にpingを送信して(857)、そのping応答(858)を受信することにより障害発生の監視を行うとともに、クラウド側の複数の障害検出レスポンダ164にもpingを送信して(861)、そのping応答(862)を受信する。
 その結果、それらの障害検出レスポンダ164の何れからもping応答が帰ってこない場合には、LANとクラウドの間のインターネット回線に断絶などの障害が起きたと認識する(863)。そして、LANが孤立してしまった旨のアラームを、LAN側に配置されている障害マネージメントファンクション165に転送する。障害マネージメントファンクション165は、メール等によってプライベート5G/4Gの管理者にその旨を知らせる(864)。
 [変形例]
 上述の例では、障害検知のためにpingを送信する場合を例として説明した。pingによれば、計算機のネットワークインターフェースが動作しているか否かを判断することができる。pingと同様に、計算機が動作しているか否かを調べる方法としては、TCPキープアライブ(TCP keep Alive)やHTTPキープアライブ(HTTP Keep Alive)といった通信コネクションを、障害検出イニシエータ161および162と障害検出レスポンダ163および164との間に設立し、その通信のコネクションが生きているかを定期的にキープアライブのためのパケットを送信することによって確かめることが考えられる。この場合は、キープアライブのパケットを送信するのは、ユーザプレーンファンクション側になり、それを収集するのが障害検出イニシエータ161および162側になる。
 pingやキープアライブを使った方法は、計算機とネットワークが機能するが、搭載したソフトウェアが動作を停止したことは検出することができない。したがって、ユーザプレーンファンクションのソフトウェアが実際に動作しているか否かを確かめるために、ユーザプレーンファンクションのプログラムの中に、定期的に動作しているというメッセージをログファイルに出力する仕組みを仕込んでおいてもよい。そのログファイルの配置位置は、ユーザプレーンファンクションが動作している計算機のファイルシステムの中でよい。遠隔からそのログファイルを定期的に読み出して内容を確認することにより、ユーザプレーンファンクションのプログラムが実際に動作していることを確認することができる。
 また、他の方法として、ユーザプレーンファンクションのプログラムが動作しているプロセスと障害検出イニシエータ161および162のプログラムが動作しているプロセスとの間で、ハートビート(Heartbeat)というメッセージを定期的に交換して相手が動作中であるかを監視するようにしてもよい。
 このように、本技術の第3の実施の形態では、障害検出イニシエータ161および162と障害検出レスポンダ163および164を用いることにより、障害検出を効率よく行うことができる。すなわち、ネットワーク障害からの復旧を低コストで行うことができるため、安定した通信環境をユーザに提供することができる。
 なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
 また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disc)、メモリカード、ブルーレイディスク(Blu-ray(登録商標)Disc)等を用いることができる。
 なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。
 なお、本技術は以下のような構成もとることができる。
(1)通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する加入者情報保持部と、
 前記ユーザプレーンファンクションに関する障害を検出する障害検出部と、
 前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に新たなユーザプレーンファンクションを関連付けるように前記加入者情報を変更する制御部と
を具備する通信システム。
(2)前記制御部は、運用中のユーザプレーンファンクションのうち処理使用率が低いものを前記新たなユーザプレーンファンクションとして選択する
前記(1)に記載の通信システム。
(3)前記処理使用率は、前記運用中のユーザプレーンファンクションのトラフィック量に基づいて決定される
前記(2)に記載の通信システム。
(4)前記処理使用率は、前記運用中のユーザプレーンファンクションに関連付けられている前記端末の数に基づいて決定される
前記(2)に記載の通信システム。
(5)前記制御部は、前記障害が検出されたユーザプレーンファンクションがクラウドに配置されている場合には前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択し、前記障害が検出されたユーザプレーンファンクションがローカルエリアネットワークに配置されている場合には前記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
前記(1)から(4)のいずれかに記載の通信システム。
(6)前記制御部は、前記障害が検出されたユーザプレーンファンクションが前記ローカルエリアネットワークに配置されている場合において前記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションの中に所定の基準を満たすものがなければ前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
前記(5)に記載の通信システム。
(7)前記制御部は、前記障害が検出されたユーザプレーンファンクションが前記ローカルエリアネットワークに配置されている場合において前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択することを許容するか否かの許容情報を前記ユーザプレーンファンクションごとに管理して、前記障害が検出されたユーザプレーンファンクションの前記許容情報が前記許容を示している場合にのみ前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
前記(6)に記載の通信システム。
(8)前記制御部は、前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に複数の前記新たなユーザプレーンファンクションを関連付ける
前記(1)から(7)のいずれかに記載の通信システム。
(9)前記制御部は、運用中のユーザプレーンファンクションを収容する計算機の性能を計算機性能情報として前記ユーザプレーンファンクションごとに管理して、前記計算機性能情報に基づいて前記新たなユーザプレーンファンクションを選択する
前記(1)から(8)のいずれかに記載の通信システム。
(10)前記制御部は、運用中のユーザプレーンファンクションについて優先度情報を前記ユーザプレーンファンクションごとに管理して、前記優先度情報に基づいて前記新たなユーザプレーンファンクションを選択する
前記(1)から(9)のいずれかに記載の通信システム。
(11)前記障害検出部は、クラウドおよびローカルエリアネットワークの両者に配置される
前記(1)から(10)のいずれかに記載の通信システム。
(12)前記クラウドに配置された前記障害検出部は、前記クラウドおよび前記ローカルエリアネットワークの両方について前記障害を収集し、検出された前記障害を前記クラウドに配置された前記制御部に通知する
前記(11)に記載の通信システム。
(13)前記クラウドに配置された前記障害検出部は、前記ローカルエリアネットワークに配置された全てのユーザプレーンファンクションについて前記障害を検出した場合には前記ローカルエリアネットワークと前記クラウドの間の通信が断絶したものとして前記断絶を前記クラウドに配置された前記制御部に通知する
前記(11)または(12)に記載の通信システム。
(14)前記障害検出部は、
 前記障害の検出を開始させる障害検出イニシエータと、
 前記ユーザプレーンファンクションごとに設けられて前記障害の検出の前記開始に応答して前記障害を検出する障害検出レスポンダと
を備える
前記(1)から(13)のいずれかに記載の通信システム。
(15)通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する加入者情報保持部を備える通信システムにおいて、
 障害検出部が、前記ユーザプレーンファンクションに関する障害を検出する手順と、
 制御部が、前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に新たなユーザプレーンファンクションを関連付けるように前記加入者情報を変更する手順と
を具備する通信システムにおける障害復旧方法。
 110 コントロールプレーンファンクション(CPF)
 118 加入者ファイル
 120 ユーザプレーンファンクション(UPF)
 160 障害検出部
 161、162 障害検出イニシエータ
 163、164 障害検出レスポンダ
 165、166 障害マネージメントファンクション
 190 リソースマネージメントファンクション
 200 基地局
 300 端末
 410 ルータ

Claims (15)

  1.  通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する加入者情報保持部と、
     前記ユーザプレーンファンクションに関する障害を検出する障害検出部と、
     前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に新たなユーザプレーンファンクションを関連付けるように前記加入者情報を変更する制御部と
    を具備する通信システム。
  2.  前記制御部は、運用中のユーザプレーンファンクションのうち処理使用率が低いものを前記新たなユーザプレーンファンクションとして選択する
    請求項1記載の通信システム。
  3.  前記処理使用率は、前記運用中のユーザプレーンファンクションのトラフィック量に基づいて決定される
    請求項2記載の通信システム。
  4.  前記処理使用率は、前記運用中のユーザプレーンファンクションに関連付けられている前記端末の数に基づいて決定される
    請求項2記載の通信システム。
  5.  前記制御部は、前記障害が検出されたユーザプレーンファンクションがクラウドに配置されている場合には前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択し、前記障害が検出されたユーザプレーンファンクションがローカルエリアネットワークに配置されている場合には前記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
    請求項1記載の通信システム。
  6.  前記制御部は、前記障害が検出されたユーザプレーンファンクションが前記ローカルエリアネットワークに配置されている場合において前記ローカルエリアネットワークに配置されている他の運用中のユーザプレーンファンクションの中に所定の基準を満たすものがなければ前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
    請求項5記載の通信システム。
  7.  前記制御部は、前記障害が検出されたユーザプレーンファンクションが前記ローカルエリアネットワークに配置されている場合において前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択することを許容するか否かの許容情報を前記ユーザプレーンファンクションごとに管理して、前記障害が検出されたユーザプレーンファンクションの前記許容情報が前記許容を示している場合にのみ前記クラウドに配置されている他の運用中のユーザプレーンファンクションを前記新たなユーザプレーンファンクションとして選択する
    請求項6記載の通信システム。
  8.  前記制御部は、前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に複数の前記新たなユーザプレーンファンクションを関連付ける
    請求項1記載の通信システム。
  9.  前記制御部は、運用中のユーザプレーンファンクションを収容する計算機の性能を計算機性能情報として前記ユーザプレーンファンクションごとに管理して、前記計算機性能情報に基づいて前記新たなユーザプレーンファンクションを選択する
    請求項1記載の通信システム。
  10.  前記制御部は、運用中のユーザプレーンファンクションについて優先度情報を前記ユーザプレーンファンクションごとに管理して、前記優先度情報に基づいて前記新たなユーザプレーンファンクションを選択する
    請求項1記載の通信システム。
  11.  前記障害検出部は、クラウドおよびローカルエリアネットワークの両者に配置される
    請求項1記載の通信システム。
  12.  前記クラウドに配置された前記障害検出部は、前記クラウドおよび前記ローカルエリアネットワークの両方について前記障害を収集し、検出された前記障害を前記クラウドに配置された前記制御部に通知する
    請求項11記載の通信システム。
  13.  前記クラウドに配置された前記障害検出部は、前記ローカルエリアネットワークに配置された全てのユーザプレーンファンクションについて前記障害を検出した場合には前記ローカルエリアネットワークと前記クラウドの間の通信が断絶したものとして前記断絶を前記クラウドに配置された前記制御部に通知する
    請求項11記載の通信システム。
  14.  前記障害検出部は、
     前記障害の検出を開始させる障害検出イニシエータと、
     前記ユーザプレーンファンクションごとに設けられて前記障害の検出の前記開始に応答して前記障害を検出する障害検出レスポンダと
    を備える
    請求項1記載の通信システム。
  15.  通信システムにおける端末とユーザプレーンファンクションとの関連付けを示す加入者情報を保持する加入者情報保持部を備える通信システムにおいて、
     障害検出部が、前記ユーザプレーンファンクションに関する障害を検出する手順と、
     制御部が、前記障害が検出されたユーザプレーンファンクションに関連付けられていた前記端末に新たなユーザプレーンファンクションを関連付けるように前記加入者情報を変更する手順と
    を具備する通信システムにおける障害復旧方法。
PCT/JP2021/025180 2020-08-27 2021-07-02 通信システムおよびその障害復旧方法 WO2022044546A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/041,013 US20230319542A1 (en) 2020-08-27 2021-07-02 Communication system and failure recovery method thereof
EP21860976.6A EP4207843A4 (en) 2020-08-27 2021-07-02 COMMUNICATIONS SYSTEM AND METHOD FOR RECOVERING ERRORS THEREIN

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-143533 2020-08-27
JP2020143533 2020-08-27

Publications (1)

Publication Number Publication Date
WO2022044546A1 true WO2022044546A1 (ja) 2022-03-03

Family

ID=80353175

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025180 WO2022044546A1 (ja) 2020-08-27 2021-07-02 通信システムおよびその障害復旧方法

Country Status (3)

Country Link
US (1) US20230319542A1 (ja)
EP (1) EP4207843A4 (ja)
WO (1) WO2022044546A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014236234A (ja) * 2013-05-30 2014-12-15 Kddi株式会社 通信システム、mme、pgw、sgwおよびプログラム
JP2015115774A (ja) * 2013-12-11 2015-06-22 富士通株式会社 通信システム及びネットワーク装置
US20180041942A1 (en) * 2016-08-04 2018-02-08 At&T Mobility Ii Llc LTE Gateways For Home And Commercial Sensor Data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012129136A1 (en) * 2011-03-18 2012-09-27 Alcatel-Lucent Usa Inc. System and method for session restoration at geo-redundant gateways
CN104704866B (zh) * 2014-06-30 2019-03-08 华为技术有限公司 重建pdn连接的方法、复位中心服务器、移动管理网元和数据网关
US10798178B2 (en) * 2019-01-10 2020-10-06 Cisco Technology, Inc. Selecting a user plane function (UPF) for layer 2 networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014236234A (ja) * 2013-05-30 2014-12-15 Kddi株式会社 通信システム、mme、pgw、sgwおよびプログラム
JP2015115774A (ja) * 2013-12-11 2015-06-22 富士通株式会社 通信システム及びネットワーク装置
US20180041942A1 (en) * 2016-08-04 2018-02-08 At&T Mobility Ii Llc LTE Gateways For Home And Commercial Sensor Data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3GPP TS28.516
See also references of EP4207843A4

Also Published As

Publication number Publication date
EP4207843A4 (en) 2024-03-06
EP4207843A1 (en) 2023-07-05
US20230319542A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
US10601728B2 (en) Software-defined data center and service cluster scheduling and traffic monitoring method therefor
US11237858B2 (en) Software-defined data center, and deployment method for service cluster therein
KR101523457B1 (ko) 지오-리던던트 게이트에서 세션 복원을 위한 시스템 및 방법
US20180316607A1 (en) Providing non-interrupt failover using a link aggregation mechanism
JP6287518B2 (ja) オープンフロースイッチおよびオープンフローネットワークの障害復旧方法
JP6350839B2 (ja) ネットワーク中継装置、ゲートウェイ冗長化システム、プログラム、および冗長化方法
JP5743809B2 (ja) 網管理システムおよび網管理方法
WO2011140951A1 (zh) 负载均衡的方法、设备和***
JP5941404B2 (ja) 通信システム、経路切替方法及び通信装置
CN113472646B (zh) 一种数据传输方法、节点、网络管理器及***
CN113810439B (zh) 一种以太网存储***及其信息通告方法和相关装置
WO2022044546A1 (ja) 通信システムおよびその障害復旧方法
CN113824595B (zh) 链路切换控制方法、装置和网关设备
JP5518771B2 (ja) 冗長ネットワークシステム、終端装置及び中継点隣接装置
US8903991B1 (en) Clustered computer system using ARP protocol to identify connectivity issues
JP6490167B2 (ja) 通信装置、通信方法、コンピュータプログラムおよび通信システム
CN107104837B (zh) 路径检测的方法和控制设备
EP3562101A1 (en) Bras management method, packet forwarding method, packet forwarding controller, and bras
WO2018223991A1 (zh) 一种切换主宽带网络网关bng和备bng的方法、***和bng
JP2017022579A (ja) 通信システム、通信ノード、および通信システムにおける代替処理方法
CN117081912A (zh) 一种源地址转换的主机切换的方法、装置、设备及介质
JP2015035678A (ja) ネットワークシステム、経路の監視方法、及び中継装置
JP2018019232A (ja) パケット伝送装置、及び、経路切替制御方法
JP2016219898A (ja) 通信システム及び冗長構成方法
JP2012191526A (ja) ネットワーク障害検知システム、ネットワーク障害検知方法、およびネットワーク障害検知プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21860976

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021860976

Country of ref document: EP

Effective date: 20230327

NENP Non-entry into the national phase

Ref country code: JP