WO2023242927A1 - データ管理装置、データ管理方法、及びプログラム - Google Patents

データ管理装置、データ管理方法、及びプログラム Download PDF

Info

Publication number
WO2023242927A1
WO2023242927A1 PCT/JP2022/023690 JP2022023690W WO2023242927A1 WO 2023242927 A1 WO2023242927 A1 WO 2023242927A1 JP 2022023690 W JP2022023690 W JP 2022023690W WO 2023242927 A1 WO2023242927 A1 WO 2023242927A1
Authority
WO
WIPO (PCT)
Prior art keywords
divided data
data
learning
unit
divided
Prior art date
Application number
PCT/JP2022/023690
Other languages
English (en)
French (fr)
Inventor
絵莉奈 竹下
章弘 森田
友哉 小杉
友輝 山田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/023690 priority Critical patent/WO2023242927A1/ja
Publication of WO2023242927A1 publication Critical patent/WO2023242927A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present disclosure relates to a data management device, a data management method, and a program.
  • a communication system NS has a communication network NW in which communication is performed between a plurality of end terminals via a plurality of transfer devices, and a parameter (herein referred to as a network parameter) representing the performance of the communication network is used. ), and a prediction function unit LM that predicts future network parameters using machine learning techniques.
  • FIG. 5 shows an outline of the communication system NS.
  • communication between end terminals ET1 and ET2 is performed via transfer devices T1 to T4.
  • the vertical axis represents traffic flow rate as a collected network parameter
  • the horizontal axis represents time.
  • a learning model is created by performing arbitrary machine learning using past traffic flow as learning data, and the learning model is used to predict future traffic flow.
  • Functional part LM can be predicted. In this way, methods for predicting future network parameters have been devised.
  • Non-Patent Document 1 discloses a technique for predicting future network parameters using past network parameters.
  • the learning data used to generate the learning model may include past network parameters as well as related configuration data.
  • Non-Patent Document 2 discloses that machine learning is performed using user feature data in addition to network parameters, and future network parameters are predicted based on the generated learning model.
  • FIG. 7 is a graph in which the vertical axis represents traffic flow rate and the horizontal axis represents time.
  • machine learning is performed using the traffic flow rate during learning period A as learning data, and learning model A is generated. It is assumed that the learning model A has been confirmed to have high prediction accuracy using test data among the data of the learning period A. If learning model A is used to predict the traffic flow rate for prediction period B at the timing indicated by the arrow in FIG. It is expected that it will come.
  • retraining or model architecture modification is performed using traffic flow data for prediction period B as new learning data and traffic flow data for learning period A as past learning data. It is necessary to carry out a redesign.
  • An object of the present disclosure is to provide a technique for improving the efficiency of storing learning data for reviewing trained models.
  • a data management device divides training data used to generate a trained model that outputs predicted values of future network parameters into predetermined periods, and outputs the divided data as divided data.
  • a divided data generation unit a learning result information acquisition unit that acquires learning result information indicating a result of applying the learned model to each of the divided data; and an actual measurement indicating actual measured values of network parameters for a period corresponding to the divided data.
  • an accuracy determining unit that acquires value information and determines the prediction accuracy of the learned model for each of the divided data based on the actual measurement value information and the learning result information; a compression determining unit that determines whether to compress divided data; uncompressed divided data that is divided data that has not been compressed by the compression determining unit; and compressed divided data that is divided data that has been compressed by the compression determining unit. and a storage unit that stores the information.
  • a data management method is a data management method executed by a data management device including a storage unit, which generates a trained model that outputs predicted values of future network parameters.
  • a divided data generation step in which the training data used in the above is divided into predetermined periods and output as divided data, and a learning result information acquisition step in which learning result information indicating the result of applying the trained model to each of the divided data is obtained.
  • the method includes a storing step of storing divided data and compressed divided data, which is divided data compressed in the compression determining step, in the storage unit.
  • a program according to the present disclosure causes a computer to function as a data management device according to the present disclosure.
  • the data management device According to the data management device, data management method, and program according to the present disclosure, it is possible to improve the storage efficiency of learning data for continuous learning.
  • FIG. 1 is a diagram showing a schematic configuration of a system according to the present embodiment.
  • FIG. 1 is a diagram illustrating an example configuration of a data management device according to the present embodiment.
  • FIG. 3 is a diagram for explaining divided data. It is a flowchart which shows an example of operation of the data management device concerning this embodiment. It is a flowchart which shows an example of operation of the data management device concerning this embodiment.
  • FIG. 1 is a schematic diagram showing a conventional communication system.
  • FIG. 2 is a diagram for explaining a conventional technique for predicting network parameters.
  • FIG. 2 is a diagram for explaining an example of conventional machine learning.
  • FIG. 1 is a diagram showing the configuration of a system 1 according to this embodiment.
  • the system 1 includes a network parameter collection device N and a data management device 10.
  • Each device is communicably connected to a network 30 including, for example, the Internet and a mobile communication network, by wire or wirelessly.
  • the communication method for transmitting and receiving information between each device is not particularly limited.
  • Each device may be integrated. That is, for example, the data management device 10 may have the function of the network parameter collection device N.
  • Each device communicates with each other via network 30.
  • the network parameter collection device N and the data management device 10 are computers such as servers that belong to a cloud computing system or other computing system.
  • the network 30 includes the Internet, at least one WAN (Wide Area Network), at least one MAN (Metropolitan Area Network), or any combination thereof.
  • Network 30 may include at least one wireless network, at least one optical network, or any combination thereof.
  • the wireless network is, for example, an ad hoc network, a cellular network, a wireless LAN (local area network), a satellite communication network, or a terrestrial microwave network.
  • the network parameter collection device N is configured by a computer including a memory, a controller, and a communication interface.
  • the memory may be configured by a HDD (Hard Disk Drive), an SSD (Solid State Drive), an EEPROM (Electrically Erasable Programmable Read-Only Memory), a ROM (Read-Only Memory), a RAM (Random Access Memory), or the like.
  • the controller may be configured with dedicated hardware such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array), a processor, or a combination of both. good.
  • standards such as Ethernet (registered trademark), FDDI (Fiber Distributed Data Interface), and Wi-Fi (registered trademark) may be used for the communication interface.
  • the network parameter collection device N collects network parameters within the network 30, which are parameters representing the performance of the network.
  • Network parameters are parameters collected at arbitrary time intervals in arbitrary units, such as per interface or per flow.
  • Network parameters include, for example, average transmitted traffic flow rate, resource utilization in forwarding devices, and delay time.
  • the network parameter refers to the average transmitted traffic flow rate.
  • the network parameter collection device N transmits log information indicating a log of the collected network parameters to the data management device 10. The log information is used as learning data to generate a learning model.
  • the data management device 10 uses the learning data used to generate the trained model to determine the prediction accuracy of the trained model.
  • the data management device 10 determines the learning data storage method according to the prediction accuracy.
  • the data management device 10 re-learns or generates a new model using the stored learning data and the most recent network parameters.
  • the data management device 10 includes a control section 11, a storage section 12, a communication section 13, an input section 14, and an output section 15.
  • the storage unit 12 includes one or more memories, and may include, for example, semiconductor memory, magnetic memory, optical memory, etc. Each memory included in the storage unit 12 may function as, for example, a main storage device, an auxiliary storage device, or a cache memory.
  • the storage unit 12 stores arbitrary information used for the operation of the data management device 10.
  • the storage unit 12 does not necessarily need to be provided inside the data management device 10, and may be provided outside the data management device 10. As described below, the storage unit 12 stores uncompressed divided data that is divided data that has not been compressed by the compression determining unit 114 and compressed divided data that is divided data that has been compressed by the compression determining unit 114. .
  • the communication unit 13 includes one or more communication interfaces connected to the network 30.
  • the communication interface corresponds to, for example, a mobile communication standard, a wired LAN standard, or a wireless LAN standard, but is not limited to these and may correspond to any communication standard.
  • the communication unit 13 receives information used for the operation of the data management device 10 and transmits information obtained by the operation of the data management device 10.
  • the input unit 14 includes at least one input interface.
  • the input interface is, for example, a physical key, a capacitive key, a pointing device, a touch screen integrated with the display, or a microphone.
  • the input unit 14 accepts an operation for inputting information used for the operation of the data management device 10.
  • the input unit 14 may be connected to the data management device 10 as an external input device instead of being included in the data management device 10.
  • any method such as USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface) (registered trademark), or Bluetooth (registered trademark) can be used.
  • the output unit 15 includes at least one output interface.
  • the output interface is, for example, a display or a speaker.
  • the display is, for example, an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence) display.
  • the output unit 15 outputs information obtained by the operation of the data management device 10.
  • the output unit 15 may be connected to the data management device 10 as an external output device instead of being included in the data management device 10.
  • any method such as USB, HDMI (registered trademark), or Bluetooth (registered trademark) can be used.
  • the control unit 11 is realized by a control calculation circuit (controller).
  • the control arithmetic circuit may be constituted by dedicated hardware such as ASIC or FPGA, or may be constituted by a processor, or may be constituted by including both.
  • the control unit 11 executes processing related to the operation of the data management device 10 while controlling each part of the data management device 10 .
  • the control unit 11 can send and receive information to and from an external device via the communication unit 13 and the network 30.
  • the control unit 11 includes a divided data generation unit 111, a learning result information acquisition unit 112, an accuracy determination unit 113, a compression determination unit 114, a compression unit 115, a restoration unit 116, and a learning unit 117.
  • the divided data generation unit 111 divides the learning data used to generate a trained model that outputs predicted values of future network parameters into predetermined periods, and outputs the divided data as divided data.
  • the divided data generation unit 111 first obtains learning data used to generate a trained model. Any method may be adopted to acquire the learning data.
  • the learning unit 117 acquires learning data from the network parameter collection device N, and generates a learned model based on the learning data.
  • the divided data generation unit 111 can acquire the learning data from the learning unit 117.
  • the present invention is not limited to this, and the divided data generation unit 111 may obtain the learning data by directly receiving the learning data from the network parameter collection device N.
  • FIG. 3 shows learning data used by the learning unit 117 to generate a trained model
  • the vertical axis shows traffic flow rate as a network parameter
  • the horizontal axis shows time.
  • the network parameter is the traffic flow rate, but is not limited to this, and may also be a resource utilization rate, delay time, etc. in a transfer device. It is assumed that learning by the learning unit 117 has been completed for the range of learning data D1 among the network parameters as learning data.
  • the divided data generation unit 111 divides the learning data D1 every time t, and generates a set of n pieces of divided data d_ ⁇ 1,1 ⁇ , d_ ⁇ 1,2 ⁇ ,...d_ ⁇ 1,n ⁇ . generate. t may be freely set by the user.
  • the divided data generation unit 111 outputs the generated plurality of divided data to the learning result information acquisition unit 112.
  • the learning result information acquisition unit 112 acquires learning result information indicating the result of applying the learned model to each divided data.
  • the learning result information acquisition unit 112 first acquires the trained model from the learning unit 117 that generated the trained model, which will be described below.
  • the learning result information acquisition unit 112 applies the acquired trained model to each of the plurality of divided data output from the divided data generation unit 111.
  • the learning result information acquisition unit 112 applies the learned model to each of the divided data d_ ⁇ 1,1 ⁇ , d_ ⁇ 1,2 ⁇ ,...d_ ⁇ 1,n ⁇ .
  • the learning result information acquisition unit 112 generates the result of applying the learning model as learning result information.
  • Table 1 below shows an example of learning result information. In this embodiment, the learning result information is shown in a table format, but the information is not limited to this.
  • the prediction results indicate the traffic flow rate predicted by the learned model for each period from d_ ⁇ 1,1 ⁇ to d_ ⁇ 1,n ⁇ in which the learning data is divided.
  • the learning result information acquisition unit 112 outputs learning result information to the accuracy determining unit 113.
  • the accuracy determination unit 113 acquires actual measurement value information indicating actual measurement values of network parameters for the period corresponding to the divided data, and determines the prediction accuracy of the learned model for each of the divided data based on the acquired information. Any method may be adopted to obtain the actual measurement value information. For example, the accuracy determination unit 113 may obtain the value indicating the traffic flow rate by receiving the value indicating the traffic flow rate from the network parameter collection device N as actual measurement value information indicating an actual measurement value.
  • Table 2 below shows an example of actual value information.
  • the actual measurement value information is shown in a table format, but the present invention is not limited to this.
  • the actual measured value indicates the actual measured value of the traffic flow rate in each period from d_ ⁇ 1,1 ⁇ to d_ ⁇ 1,n ⁇ divided by the divided data generation unit 111 as described above.
  • the error in the divided data d_ ⁇ 1,1 ⁇ is 50 MB
  • the error in the divided data d_ ⁇ 1,2 ⁇ is 20 MB
  • the error in the divided data d_ ⁇ 1, n ⁇ is 5 MB.
  • the accuracy determining unit 113 generates error information that indicates the degree of error in stages as "large error,” “medium error,” and "small error,” according to the difference between the predicted value and the actual measurement value of each divided data.
  • the reference value for determining the degree of error may be freely set. For example, in this embodiment, the accuracy determination unit 113 determines that if the error value is less than 10 MB, it is a "small error", if the error value is 10 MB or more and less than 30 MB, it is a "medium error", and if it is 30 MB or more, it is a "large error”.
  • the degree of error may be determined and error information may be generated.
  • the error information is "large error” for the divided data d_ ⁇ 1,1 ⁇ , “medium error” for the divided data d_ ⁇ 1,2 ⁇ , and “medium error” for the divided data d_ ⁇ 1,n ⁇ . indicates that the error is small.
  • the accuracy determining unit 113 may determine whether the prediction accuracy of the trained model is less than or equal to a threshold value. Any method may be adopted to determine that the prediction accuracy is below the threshold. For example, the accuracy determination unit 113 may determine the prediction accuracy based on the difference between the result of applying the learning model at the present time and the actual measured value at the present time. It may be determined whether the prediction accuracy is less than or equal to a threshold value.
  • the accuracy determining unit 113 outputs the generated error information to the compression determining unit 114. In this way, the accuracy determining unit 113 determines the prediction accuracy of the learned model for each piece of divided data based on the actual measurement value information and the learning result information.
  • the compression determining unit 114 determines whether to compress the divided data according to the prediction accuracy. Specifically, the compression determining unit 114 determines to compress the divided data according to the degree of error indicated by the error information output from the accuracy determining unit 113. In this embodiment, the compression determining unit 114 leaves the divided data d_ ⁇ 1,1 ⁇ whose degree of error indicated by the error information is "large error” as raw data, and leaves the divided data d_ ⁇ 1,1 ⁇ whose degree of error indicated by the error information is "small error”. For the data d_ ⁇ 1,n ⁇ and the divided data d_ ⁇ 1,2 ⁇ whose degree of error is "medium error", it is decided to compress the data.
  • the compression determining unit 114 compresses the divided data that has been decided to be compressed in the time series direction, and stores it in the storage unit 12 as compressed divided data.
  • any time compression algorithm employed in time series databases may be used.
  • the compression determining unit 114 stores the divided data that is determined to be left as raw data without compression in the storage unit 12 as uncompressed divided data without compressing it.
  • the compression determining unit 114 stores the divided data d_ ⁇ 1,1 ⁇ as uncompressed divided data, and stores the divided data d_ ⁇ 1,2 ⁇ and divided data d_ ⁇ 1,n ⁇ as compressed divided data. It is stored in section 12.
  • the restoring unit 116 restores the compressed divided data to generate restored divided data when the prediction accuracy of the trained model becomes less than or equal to the threshold value. Any method may be adopted for restoring the compressed divided data.
  • the restoring unit 116 may fit the compressed divided data to an arbitrary function, add white noise to the function, and restore the original time interval data.
  • the prediction accuracy threshold may be set freely.
  • the present invention is not limited to this, and the user checks the error information displayed via the output unit 15, determines that the prediction accuracy of the trained model is below the threshold, and requests the restoration unit 116 to generate the restored divided data. May be able to give instructions.
  • the restoring unit 116 restores the divided data d_ ⁇ 1,2 ⁇ and the divided data d_ ⁇ 1,n ⁇ stored as compressed divided data in the storage unit 12, and generates them as restored divided data.
  • the restoration unit 116 outputs the restored divided data d_ ⁇ 1,2 ⁇ and d_ ⁇ 1,n ⁇ to the learning unit 117.
  • the learning unit 117 uses log information indicating a log of network parameters acquired from the network parameter collection device N as learning data to generate a learned model that outputs predicted values of future network parameters. Any machine learning method such as a neural network or deep learning may be used to generate the trained model.
  • the learning unit 117 stores the generated trained model in the storage unit 12. However, the learning unit 117 may apply the learning model to predict future network parameters, or may output the learning model to an external prediction device.
  • the learning unit 117 uses the uncompressed divided data, the restored divided data, and the most recent network parameters when the restored divided data is output from the restoring unit 116, that is, when the prediction accuracy of the trained model is below the threshold. Then, retrain or redesign (change) the model architecture to generate a new model.
  • the learning unit 117 obtains restored divided data d_ ⁇ 1,2 ⁇ and d_ ⁇ 1,n ⁇ from the restoring unit 116 and reads uncompressed divided data d_ ⁇ 1,1 ⁇ from the storage unit 12.
  • the latest network parameters are acquired by receiving them from the network parameter collection device N. Similar to the generation of a trained model, any machine learning method may be used for relearning or generation of a new model by the learning unit 117.
  • the learning unit 117 may apply the modified learned model to predict future network parameters.
  • the learning unit 117 may be able to output the corrected learned model to an external prediction device. Even when the learning unit 117 generates a new learning model to replace a trained model, the learning unit 117 may apply the new learning model to predict future network parameters.
  • the learning unit 117 generates a trained model using the learning data.
  • the learning unit 117 performs relearning or generates a new model using uncompressed divided data, restored divided data, and the most recent network parameters. .
  • ⁇ Program> In order to function as the data management device 10 described above, it is also possible to use a computer that can execute program instructions.
  • the computer may be a general-purpose computer, a dedicated computer, a workstation, a PC (Personal Computer), an electronic notepad, or the like.
  • Program instructions may be program code, code segments, etc. to perform necessary tasks.
  • the computer includes a processor, a storage section, an input section, an output section, and a communication interface.
  • a processor is a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), DSP (Digital Signal Processor), SoC (System on a Chip), etc. may be configured.
  • the processor controls each of the above components and performs various calculation processes by reading and executing programs from the storage unit. Note that at least a part of these processing contents may be realized by hardware.
  • the input unit is an input interface that receives a user's input operation and obtains information based on the user's operation, and is a pointing device, keyboard, mouse, or the like.
  • the output unit is an output interface that outputs information, such as a display or a speaker.
  • the communication interface is an interface for communicating with an external device.
  • the program may be recorded on a computer-readable recording medium. Using such a recording medium, it is possible to install a program on a computer.
  • the recording medium on which the program is recorded may be a non-transitory recording medium.
  • the non-transitory recording medium is not particularly limited, and may be, for example, a CD-ROM, a DVD-ROM, a USB memory, or the like. Further, this program may be downloaded from an external device via a network.
  • step S1 of FIG. 4A using the log information as learning data, the learning unit 117 of the data management device 10 generates a learning model that outputs predicted values of future network parameters as a trained model.
  • the learning unit 117 may acquire log information from the network parameter collection device N.
  • the learning unit 117 may predict future network parameters using the learned model, or may output the learned model to an external device. In this embodiment, the learning unit 117 outputs the trained model to the learning result information acquisition unit 112.
  • step S2 the divided data generation unit 111 first obtains the learning data used to generate the trained model. Any method may be adopted to acquire the learning data.
  • the divided data generation unit 111 may acquire the learning data from the learning unit 117 or may acquire the learning data by directly receiving the learning data from the network parameter collection device N.
  • step S3 the divided data generation unit 111 divides the acquired learning data into predetermined periods, and outputs the divided data to the learning result information acquisition unit 112.
  • the divided data generation unit 111 divides the learning data used to generate the trained model that outputs predicted values of future network parameters every predetermined period, and generates divided data. Output.
  • step S4 the learning result information acquisition unit 112 acquires the learned model from the learning unit 117.
  • step S5 the learning result information acquisition unit 112 applies the acquired trained model to each of the plurality of divided data output from the divided data generation unit 111.
  • the learning result information acquisition unit 112 generates the result of applying the learning model as learning result information.
  • the learning result information acquisition unit 112 outputs the generated learning result information to the accuracy determining unit 113.
  • the learning result information acquisition unit 112 acquires learning result information indicating the result of applying the learned model to each divided data.
  • step S6 the accuracy determination unit 113 acquires log information by receiving it as actual measurement value information indicating an actual measurement value from the network parameter collection device N. In this way, the accuracy determining unit 113 obtains actual measurement value information indicating the actual measurement value of the network parameter for the period corresponding to the divided data.
  • the accuracy determining unit 113 determines, based on the learning result information output from the learning result information obtaining unit 112 and the actual measured value information, according to the difference between the predicted value and the actual measured value of each divided data. Error information is generated that indicates the degree of error in stages such as "large error,” “medium error,” and “small error.” The smaller the degree of error is, the higher the prediction accuracy of the trained model is, and the larger the error is, the lower the prediction accuracy of the trained model is. The accuracy determining unit 113 outputs the generated error information to the compression determining unit 114.
  • the accuracy determining unit 113 determines the prediction accuracy of the learned model for each piece of divided data based on the actual measurement value information and the learning result information.
  • step S8 the compression determining unit 114 determines whether to compress the divided data according to the prediction accuracy. Specifically, the compression determining unit 114 determines to compress the divided data according to the degree of error indicated by the error information output from the accuracy determining unit 113. In the present embodiment, the compression unit 115 leaves the divided data whose degree of error indicated by the error information is "large error” as raw data, and leaves the divided data whose degree of error indicated by the error information is "small error” or “medium error” as raw data. , decide to compress the data.
  • step S9 the compression determining unit 114 compresses the divided data that has been decided to be compressed in the time series direction, and stores it in the storage unit 12 as compressed divided data.
  • any time compression algorithm employed in time series databases may be used.
  • the compression determining unit 114 stores the divided data that is determined to be left as raw data without compression in the storage unit 12 as uncompressed divided data without compressing it.
  • the accuracy determining unit 113 determines whether the prediction accuracy of the trained model is less than or equal to a threshold value. Generally, as time passes from the generation date of the trained model, the prediction accuracy of the trained model decreases. Any method may be adopted to determine that the prediction accuracy is below the threshold. For example, the accuracy determination unit 113 may determine the prediction accuracy based on the difference between the result of applying the learning model at the present time and the actual measured value at the present time. It may be determined whether the prediction accuracy is less than or equal to a threshold value.
  • step S11 the restoring unit 116 restores the compressed divided data to generate restored divided data when the prediction accuracy of the trained model becomes less than or equal to the threshold value. Any method may be adopted for restoring the compressed divided data.
  • the prediction accuracy threshold may be set freely.
  • the restoring unit 116 restores the divided data stored as compressed divided data in the storage unit 12 and generates the restored divided data.
  • the restoration unit 116 outputs the restored divided data to the learning unit 117.
  • step S12 the learning unit 117 re-learns or redesigns (changes) the model architecture to generate a new model using the uncompressed divided data, the restored divided data, and the most recent network parameters.
  • the learning unit 117 acquires the restored divided data from the restoring unit 116, reads out the uncompressed divided data from the storage unit 12, and receives the latest network parameters from the network parameter collection device N. Get it with.
  • any machine learning method may be used for relearning or generation of a new model by the learning unit 117.
  • the learning unit 117 generates a trained model using the learning data, and when the prediction accuracy of the trained model becomes less than the threshold, the learning unit 117 generates the uncompressed divided data, the restored divided data, and the most recent network parameter. Retrain or generate a new model using (network parameters after the trained model was generated). After that, the operation of system 1 ends.
  • the data management device 10 of the present embodiment divides the training data used to generate a trained model that outputs predicted values of future network parameters into predetermined periods, and outputs the divided data as divided data.
  • an accuracy determination unit 113 that determines the prediction accuracy of the learned model for each of the divided data based on the actual measurement value information and the learning result information, and whether or not to compress the divided data according to the prediction accuracy.
  • a storage unit that stores uncompressed divided data, which is divided data that has not been compressed by the compression determining unit 114, and compressed divided data, which is divided data that has been compressed by the compression determining unit 114; 12.
  • the prediction accuracy of a trained model can be evaluated for each piece of training data divided along the time axis.
  • the low prediction accuracy is likely due to noise such as trends and seasonal fluctuations, but it is also possible that noise with similar characteristics is causing a decrease in prediction accuracy with new data.
  • the learning data for the interval with high prediction accuracy is compressed, and the learning data for the interval with low prediction accuracy can be saved as raw data without being compressed for later continuous learning. Trends can be captured again when creating a new trained model by redesigning (changing) the model architecture.
  • the capacity of the storage unit 12 can be saved compared to the case where all learning data is stored.
  • learning data in sections with low prediction accuracy required for subsequent continuous learning is not compressed, reducing the possibility of data corruption and making it possible to reliably save the data. Therefore, it is possible to improve the efficiency of storing learning data for reviewing trained models.
  • the data management device 10 of the present embodiment further includes a restoring unit 116 that restores the compressed divided data to generate restored divided data when the prediction accuracy of the learned model becomes less than or equal to a threshold value.
  • the compressed data of the divided learning data can be automatically restored when the prediction accuracy of the trained model decreases and re-learning becomes necessary. Compared to manually reselecting learning data to generate a learning model again, compressed learning data can be used more efficiently. Therefore, it is possible to improve the efficiency of storing learning data for reviewing trained models.
  • the data management device 10 of this embodiment generates a trained model using training data, and when the prediction accuracy of the trained model becomes less than or equal to a threshold value, the data management device 10 of the present embodiment generates a trained model using training data, and when the prediction accuracy of the trained model becomes less than or equal to a threshold value, the data management device 10 generates a trained model using training data.
  • the learning unit 117 further includes a learning unit 117 that performs relearning or generates a new model using data and recent network parameters.
  • the learning unit 117 automatically performs re-learning using necessary learning data or creates a new learning model. can be generated.
  • the learning data stored in the storage unit 12 can be utilized more efficiently than when learning data is selected manually. Therefore, it is possible to improve the efficiency of storing learning data for reviewing trained models.
  • the network parameter is the traffic flow rate.
  • the present embodiment it is possible to generate a learning model with higher accuracy regarding the traffic flow rate, which is largely related to the contents of a user's communication service contract, among network parameters.
  • [Additional note 1] comprising a memory and a control unit connected to the memory,
  • the control unit includes:
  • the training data used to generate the trained model that outputs predicted values of future network parameters is divided into predetermined periods and output as divided data, obtaining learning result information indicating the result of applying the learned model to each of the divided data;
  • Acquire actual measurement value information indicating actual measurement values of network parameters for a period corresponding to the divided data, and calculate the prediction accuracy of the trained model for each of the divided data based on the actual measurement value information and the learning result information.
  • the memory stores uncompressed divided data that is divided data that has not been compressed by the control unit and compressed divided data that is divided data that has been compressed by the control unit.
  • Data management device [Additional note 2] The data management device according to appendix 1, wherein the control unit restores the compressed divided data to generate restored divided data when the prediction accuracy of the trained model becomes equal to or less than a threshold value. [Additional note 3] The control unit generates the learned model using the learning data, Supplementary note that if the prediction accuracy of the trained model becomes less than or equal to a threshold, relearning or generating a new model using the uncompressed divided data, the restored divided data, and the most recent network parameters.
  • the data management device according to item 2.
  • a data management method executed by a data management device including a memory comprising: a divided data generation step of dividing learning data used to generate a trained model that outputs predicted values of future network parameters into predetermined periods and outputting the divided data as divided data; a learning result information acquisition step of acquiring learning result information indicating a result of applying the learned model to each of the divided data; Acquire actual measurement value information indicating actual measurement values of network parameters for a period corresponding to the divided data, and calculate the prediction accuracy of the trained model for each of the divided data based on the actual measurement value information and the learning result information.
  • an accuracy judgment step for judging the a compression determining step of determining whether to compress the divided data according to the prediction accuracy; a storing step of storing uncompressed divided data, which is divided data that was not compressed in the compression determining step, and compressed divided data, which is divided data that was compressed in the compression determining step, in the memory; How we manage our data, including: [Additional note 6] The data management method according to supplementary note 5, further comprising a restoring step of restoring the compressed divided data to generate restored divided data when the prediction accuracy of the learned model becomes less than or equal to a threshold value.
  • [Additional note 7] generating the trained model using the training data; If the prediction accuracy of the learned model is below a threshold, a learning step of relearning or generating a new model using the uncompressed divided data, the restored divided data, and the most recent network parameters.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本開示に係るデータ管理装置(10)は、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成部(111)と、分割データごとに学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得部(112)と、分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、実測値情報と学習結果情報とに基づいて、分割データのそれぞれについて、学習済みモデルの予測精度を判断する精度判断部(113)と、予測精度に応じて、分割データを圧縮するか否かを決定する圧縮決定部(114)と、圧縮決定部(114)により圧縮されなかった分割データである非圧縮分割データと、圧縮決定部(114)により圧縮された分割データである圧縮分割データとを記憶する記憶部(12)と、を備える。

Description

データ管理装置、データ管理方法、及びプログラム
 本開示は、データ管理装置、データ管理方法、及びプログラムに関する。
 従来、複数の転送装置を介して複数のエンド端末間の通信が行われる通信ネットワークNWを有する通信システムNSであって、当該通信ネットワークの性能を表すパラメータ(本明細書において、ネットワークパラメータと呼ぶ。)のデータを収集するネットワークデータベースNDBと、機械学習の技術を用いて将来のネットワークパラメータを予測する予測機能部LMとを有する通信システムが存在する。図5は、当該通信システムNSの概略を示す。通信システムNSでは、転送装置T1からT4を介して、エンド端末ET1とエンド端末ET2との通信が行われる。図6のグラフは、縦軸が収集されたネットワークパラメータとしてのトラフィック流量を、横軸が時間を表す。通信システムNSでは、図6の矢印で示す時点において、過去のトラフィック流量を学習データとして用いて任意の機械学習を行って学習モデルが作成され、該学習モデルを用いて、将来のトラフィック流量を予測機能部LMが予測できる。このように、将来のネットワークパラメータを予測する手法が考案されている。
 例えば非特許文献1では、過去のネットワークパラメータを用いて、将来のネットワークパラメータを予測する技術が開示されている。学習モデルの生成に用いる学習データは、過去のネットワークパラメータの他、関連する設定データも含まれることもある。例えば非特許文献2においては、ネットワークパラメータの他、ユーザ特徴データを用いて機械学習を行い、生成した学習モデルに基づいて将来のネットワークパラメータを予測することが開示されている。
R. Vinayakumar, K. P. Soman and P. Poornachandran, "Applying deep learning approaches for network traffic prediction," 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2017 A. Azari, P. Papapetrou, S. Denic, and G. Peters, "User traffic prediction for proactive resource management: Learning-powered approaches," in 2019 IEEE Global Communications Conference (GLOBECOM), pp. 1-6, 2019.
 過去のデータに対して高い精度を示せたとしても、将来的に予測精度が低下していくことが知られている。図7は、縦軸がトラフィック流量、横軸が時間を表すグラフである。まず学習期間Aにおけるトラフィック流量を学習データとして用いて機械学習が行われ、学習モデルAが生成される。当該学習モデルAは、学習期間Aのデータのうちのテストデータで高い予測精度があることが確認されているとする。図7の矢印で示すタイミングで学習モデルAを用いて、予測期間Bに対するトラフィック流量の予測を行っていると、トラフィック流量のトレンドの変化等に伴い、学習モデルAでは予測の精度が低下してくることが予想される。予測の精度を改善するために,新たな学習データとしての予測期間Bのトラフィック流量のデータと、過去の学習データである学習期間Aのトラフィック流量のデータとを用いて、再学習又はモデルアーキテクチャの再設計を実施する必要がある。
 一方で、過去の学習データを生データとして持ち続けると、ネットワークデータベースNDBの維持管理コストが増大する問題がある。トラフィック流量の予測の精度が維持できる範囲で、保存する過去のデータの量を減じることが必要である。このように、学習済みモデルの見直しのための学習データの保存の効率を改善する技術が望まれていた。
 かかる事情に鑑みてなされた本開示の目的は、学習済みモデルの見直しのための学習データの保存効率を改善する技術を提供することにある。
 上記課題を解決するため、本開示に係るデータ管理装置は、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成部と、前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得部と、前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断する精度判断部と、前記予測精度に応じて、前記分割データを圧縮するか否かを決定する圧縮決定部と、前記圧縮決定部により圧縮されなかった分割データである非圧縮分割データと、前記圧縮決定部により圧縮された分割データである圧縮分割データとを記憶する記憶部と、を備える。
 また、上記課題を解決するため、本開示に係るデータ管理方法は、記憶部を備えるデータ管理装置が実行するデータ管理方法であって、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成ステップと、前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得ステップと、前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断する精度判断ステップと、前記予測精度に応じて、前記分割データを圧縮するか否かを決定する圧縮決定ステップと、前記圧縮決定ステップにより圧縮されなかった分割データである非圧縮分割データと、前記圧縮決定ステップにより圧縮された分割データである圧縮分割データとを前記記憶部に記憶する記憶ステップと、を含む。
 上記課題を解決するため、本開示に係るプログラムは、コンピュータを、本開示に係るデータ管理装置として機能させる。
 本開示に係るデータ管理装置、データ管理方法、及びプログラムによれば、継続学習のための学習データの保存効率を改善することができる。
本実施形態に係るシステムの概略構成を示す図である。 本実施形態に係るデータ管理装置の構成例を示す図である。 分割データを説明するための図である。 本実施形態に係るデータ管理装置の動作の一例を示すフローチャートである。 本実施形態に係るデータ管理装置の動作の一例を示すフローチャートである。 従来の通信システムを示す概略図である。 従来の、ネットワークパラメータの予測をする技術を説明するための図である。 従来の機械学習の例を説明するための図である。
 <システム1の概略構成>
 図1は、本実施形態に係るシステム1の構成を示す図である。図1に示すように、システム1は、ネットワークパラメータ収集装置Nと、データ管理装置10とを備える。各装置は、例えばインターネット及び移動体通信網等を含むネットワーク30と有線又は無線により通信可能に接続される。各装置間で情報を送受信するための通信方法は、特に限定されない。各装置は一体化されていてもよい。つまり、例えば、データ管理装置10が、ネットワークパラメータ収集装置Nの機能を備えていても良い。各装置は、ネットワーク30を介して、互いに通信する。
 ネットワークパラメータ収集装置Nとデータ管理装置10とは、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属するサーバ等のコンピュータである。
 ネットワーク30は、インターネット、少なくとも1つWAN(Wide Area Network)、少なくとも1つのMAN(Metropolitan Area Network)、又はこれらの任意の組合せを含む。ネットワーク30は、少なくとも1つの無線ネットワーク、少なくとも1つの光ネットワーク、又はこれらの任意の組合せを含んでもよい。無線ネットワークは、例えば、アドホックネットワーク、セルラーネットワーク、無線LAN(local area network)、衛星通信ネットワーク、又は地上マイクロ波ネットワークである。
 ネットワークパラメータ収集装置Nは、メモリ、コントローラ、及び通信インターフェースを備えるコンピュータによって構成される。メモリは、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)及びRAM(Random Access Memory)等によって構成されてもよい。コントローラは、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。通信インターフェースには、例えば、イーサネット(登録商標)、FDDI(Fiber Distributed Data Interface)、Wi-Fi(登録商標)等の規格が用いられてもよい。
 ネットワークパラメータ収集装置Nは、ネットワーク30内の、ネットワークの性能を表すパラメータであるネットワークパラメータを収集する。ネットワークパラメータとは,インターフェースごと又はフローごと等、任意の単位で、任意の時間間隔で収集されるパラメータのことである。ネットワークパラメータは、例えば平均送信トラフィック流量、転送装置におけるリソース利用率、遅延時間を含む。本実施形態において、ネットワークパラメータは平均送信トラフィック流量を指す。ネットワークパラメータ収集装置Nは、収集したネットワークパラメータのログを示すログ情報を、データ管理装置10へ送信する。当該ログ情報は、学習データとして学習モデルの生成に用いられるものである。
 データ管理装置10は、以下で説明するように、学習済みモデルの生成に用いられた学習データを用いて、当該学習済みモデルの予測精度を判断する。データ管理装置10は、当該予測精度に応じて、学習データの保存の手法を決定する。データ管理装置10は、学習済みモデルの予測精度が下がった場合に、保存していた学習データと直近のネットワークパラメータとを用いて再学習又は新たなモデルを生成する。
 <データ管理装置10の構成>
 図2を参照して、データ管理装置10について説明する。データ管理装置10は制御部11、記憶部12、通信部13、入力部14、及び出力部15を備える。
 記憶部12は、1つ以上のメモリを含み、例えば半導体メモリ、磁気メモリ、光メモリなどを含んでもよい。記憶部12に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部12は、データ管理装置10の動作に用いられる任意の情報を記憶する。記憶部12は、必ずしもデータ管理装置10が内部に備える必要はなく、データ管理装置10の外部に備える構成としてもよい。記憶部12は、以下で説明するように、圧縮決定部114により圧縮されなかった分割データである非圧縮分割データと、圧縮決定部114により圧縮された分割データである圧縮分割データとを記憶する。
 通信部13は、ネットワーク30に接続する1つ以上の通信用インターフェースを含む。当該通信用インターフェースは、例えば移動通信規格、有線LAN規格、又は無線LAN規格に対応するが、これらに限られず、任意の通信規格に対応してもよい。通信部13は、データ管理装置10の動作に用いられる情報を受信し、またデータ管理装置10の動作によって得られる情報を送信する。
 入力部14には、少なくとも1つの入力用インターフェースが含まれる。入力用インターフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部14は、データ管理装置10の動作に用いられる情報を入力する操作を受け付ける。入力部14は、データ管理装置10に備えられる代わりに、外部の入力機器としてデータ管理装置10に接続されてもよい。接続方式としては、例えば、USB(Universal Serial Bus)、HDMI(High-Definition Multimedia Interface)(登録商標)、又はBluetooth(登録商標)等の任意の方式を用いることができる。
 出力部15には、少なくとも1つの出力用インターフェースが含まれる。出力用インターフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、LCD(Liquid Crystal Display)又は有機EL(Electro Luminescence)ディスプレイである。出力部15は、データ管理装置10の動作によって得られる情報を出力する。出力部15は、データ管理装置10に備えられる代わりに、外部の出力機器としてデータ管理装置10に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)等の任意の方式を用いることができる。
 制御部11は、制御演算回路(コントローラ)により実現される。該制御演算回路は、ASIC、FPGA等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。制御部11は、データ管理装置10の各部を制御しながら、データ管理装置10の動作に関わる処理を実行する。制御部11は、外部装置との情報の送受信を、通信部13及びネットワーク30を介して行うことができる。
 制御部11は、分割データ生成部111と、学習結果情報取得部112と、精度判断部113と、圧縮決定部114と、圧縮部115と、復元部116と、学習部117とを備える。
 分割データ生成部111は、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する。分割データ生成部111はまず、学習済みモデルの生成に用いられた学習データを取得する。学習データの取得には任意の手法が採用されてよい。本実施形態では、以下で説明するようにネットワークパラメータ収集装置Nから学習部117が学習データを取得し、当該学習データに基づいて学習済みモデルを生成する。分割データ生成部111は、学習部117から当該学習データを取得できる。これに限られず、分割データ生成部111はネットワークパラメータ収集装置Nから直接、学習データを受信することで取得してもよい。
 図3を参照して分割データ生成部111が出力する分割データを説明する。図3は学習部117が学習済みモデル生成のために用いる学習データを示し、縦軸はネットワークパラメータとしてのトラフィック流量を示し、横軸は時間を示す。ネットワークパラメータは本実施形態ではトラフィック流量であるがこれに限られず、転送装置におけるリソース利用率、遅延時間等であってもよい。学習データとしてのネットワークパラメータのうち、学習データD1の範囲については、学習部117によって学習が完了しているとする。分割データ生成部111は、学習データD1を、時間tごとに分割し、n個の分割データd_{1,1},d_{1,2},...d_{1,n}の集合を生成する。tはユーザによって自由に設定されてよい。分割データ生成部111は、生成した複数の分割データを学習結果情報取得部112へ出力する。
 学習結果情報取得部112は、分割データごとに学習済みモデルを適用した結果を示す学習結果情報を取得する。学習結果情報取得部112はまず、以下で説明する、学習済みモデルを生成した学習部117から、当該学習済みモデルを取得する。
 学習結果情報取得部112は、取得した学習済みモデルを、分割データ生成部111から出力された複数の分割データのそれぞれに適用する。本実施形態では、学習結果情報取得部112は分割データd_{1,1}, d_{1,2},...d_{1,n}のそれぞれに対し学習済みモデルを適用する。学習結果情報取得部112は、学習モデルを適用した結果を学習結果情報として生成する。以下の表1は、学習結果情報の例を示す。本実施形態では、学習結果情報を表形式で示すがこれに限られない。
Figure JPOXMLDOC01-appb-T000001
 上記表1において、予測結果は、学習データが分割された、d_{1,1}からd_{1,n}の各期間の、学習済みモデルによって予測されたトラフィック流量を示す。学習結果情報取得部112は、学習結果情報を精度判断部113へ出力する。
 精度判断部113は、分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、取得した情報に基づいて、分割データのそれぞれについて、学習済みモデルの予測精度を判断する。実測値情報の取得には任意の手法が採用されてよい。例えば精度判断部113は、ネットワークパラメータ収集装置Nから、トラフィック流量を示す値を、実測値を示す実測値情報として受信することで取得してよい。
 以下の表2は、実測値情報の例を示す。本実施形態では、実測値情報を表形式で示すがこれに限られない。
Figure JPOXMLDOC01-appb-T000002
 上記表2において実測値は、上述のように分割データ生成部111によって分割されたd_{1,1}からd_{1,n}の各期間における、トラフィック流量の実測値を示す。上記表1と比較すると、分割データd_{1,1}の誤差は50MB、分割データd_{1,2}の誤差は20MB、分割データd_{1,n}の誤差は5MBである。精度判断部113は、各分割データの予測値と実測値との差分に応じて、誤差の程度を「誤差大」「誤差中」「誤差小」と段階的に示す誤差情報を生成する。当該誤差の程度が小さい程、学習済みモデルの予測の精度が高いことが表され、誤差の程度が大きい程、学習済みモデルの予測の精度が低いことが表される。誤差の程度を決定するための基準値は自由に設定されてよい。例えば本実施形態では、精度判断部113が、誤差の値が10MB未満の場合は「誤差小」、10MB以上30MB未満の場合は「誤差中」、30MB以上の場合は「誤差大」、と誤差の程度を決定し、誤差情報を生成してよい。この場合、誤差情報は、誤差の程度として、分割データd_{1,1}については「誤差大」、分割データd_{1,2}については「誤差中」、分割データd_{1,n}については「誤差小」であることを示す。
 以下で説明する、復元部116による圧縮分割データの復元のため、精度判断部113は、学習済みモデルの予測精度が閾値以下であるか否かを判定してよい。予測精度が閾値以下となったことの判定には任意の手法が採用されてよく、例えば精度判断部113は、現時点での学習モデルを適用した結果と、現時点での実測値との差分に基づいて予測精度が閾値以下であるか否かを判定してもよい。
 精度判断部113は、生成した誤差情報を圧縮決定部114へ出力する。このようにして精度判断部113は実測値情報と学習結果情報とに基づいて、分割データのそれぞれについて、学習済みモデルの予測精度を判断する。
 圧縮決定部114は、予測精度に応じて、分割データを圧縮するか否かを決定する。具体的には圧縮決定部114は、精度判断部113から出力された誤差情報が示す誤差の程度に応じて分割データを圧縮することを決定する。本実施形態では、圧縮決定部114は、誤差情報が示す誤差の程度が「誤差大」である分割データd_{1,1}を生データとして残し、誤差の程度が「誤差小」である分割データd_{1,n}と誤差の程度が「誤差中」である分割データd_{1,2}とについては、データを圧縮することを決定する。
 圧縮決定部114は、圧縮することを決定した分割データを時系列方向に圧縮し、圧縮分割データとして記憶部12に格納する。時系列方向の圧縮は時系列データベースで採用されるような任意の時間圧縮アルゴリズムが用いられてよい。圧縮決定部114は、圧縮せずに生データとして残すことを決定した分割データについては圧縮せずに、非圧縮分割データとして記憶部12に格納する。本実施形態では、圧縮決定部114は、分割データd_{1,1}を非圧縮分割データとして、分割データd_{1,2}及び分割データd_{1,n}を圧縮分割データとしてそれぞれ記憶部12に格納する。
 復元部116は、学習済みモデルの予測精度が閾値以下となった場合に、圧縮分割データを復元して復元分割データを生成する。圧縮分割データに復元には任意の手法が採用されてよい。例えば復元部116は、圧縮分割データを任意の関数にフィッティングし、当該関数に白色雑音を追加して元の時間間隔のデータに復元してもよい。予測精度の閾値は自由に設定されてよい。これに限られず、ユーザが出力部15を介して表示される誤差情報を確認し、学習済みモデルの予測精度が閾値以下となったことを判断し、復元分割データの生成を復元部116に対し指示できてもよい。
 本実施形態では、復元部116は、記憶部12に圧縮分割データとして格納されている分割データd_{1,2}及び分割データd_{1,n}を復元し、復元分割データとして生成する。復元部116は、復元分割データd_{1,2}及びd_{1,n}を学習部117に出力する。
 学習部117は、ネットワークパラメータ収集装置Nから取得したネットワークパラメータのログを示すログ情報を学習データとして用いて将来のネットワークパラメータの予測値を出力する学習済みモデルを生成する。学習済みモデルの生成には、ニューラルネットワーク、深層学習等の任意の機械学習手法が用いられてよい。学習部117は生成した学習済みモデルを記憶部12に格納する。これに限られず、学習部117は当該学習モデルを適用して将来のネットワークパラメータの予測を行ってもよいし、当該学習モデルを外部の予測用の装置に出力できてもよい。
 学習部117は、復元部116から復元分割データが出力された場合、すなわち学習済みモデルの予測精度が閾値以下となった場合に、非圧縮分割データ、復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又はモデルアーキテクチャを再設計(変更)して新たなモデルを生成する。本実施形態では、学習部117は、復元分割データd_{1,2}及びd_{1,n}を復元部116から取得し、記憶部12から非圧縮分割データd_{1,1}を読み出すことで取得し、直近のネットワークパラメータをネットワークパラメータ収集装置Nから受信することで取得する。学習部117による再学習又は新たなモデルの生成には、学習済みモデルの生成と同様に任意の機械学習手法が用いられてよい。
 学習部117は、再学習の結果、学習済みモデルを修正した場合は、当該修正した学習済みモデルを適用して将来のネットワークパラメータの予測を行ってもよい。学習部117は、当該修正した学習済みモデルを外部の予測用の装置に出力できてもよい。学習部117は、学習済みモデルに代わる新たな学習モデルを生成した場合も同様に、当該新たな学習モデルを適用して将来のネットワークパラメータの予測を行ってよい。
 このように学習部117は、学習データを用いて学習済みモデルを生成する。学習部117は、学習済みモデルの予測精度が閾値以下となった場合には、非圧縮分割データ、復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する。
<プログラム>
 上述したデータ管理装置10として機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。
 コンピュータは、プロセッサと、記憶部と、入力部と、出力部と、通信インターフェースとを備える。プロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサは、記憶部からプログラムを読み出して実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。入力部は、ユーザの入力操作を受け付けてユーザの操作に基づく情報を取得する入力インターフェースであり、ポインティングデバイス、キーボード、マウスなどである。出力部は、情報を出力する出力インターフェースであり、ディスプレイ、スピーカなどである。通信インターフェースは、外部の装置と通信するためのインターフェースである。
 プログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性(non-transitory)の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USBメモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
<データ管理装置10の動作>
 次に、図4A及び図4Bを参照して、本実施形態に係るデータ管理装置10の動作について説明する。当該データ管理装置10の動作は、本実施形態に係るデータ管理方法に相当する。
 図4AのステップS1において、ログ情報を学習データとして用いて、データ管理装置10の学習部117が将来のネットワークパラメータの予測値を出力する学習モデルを学習済みモデルとして生成する。学習部117は、ログ情報をネットワークパラメータ収集装置Nから取得してよい。学習部117は、当該学習済みモデルを用いて将来のネットワークパラメータの予測を行ってもよいし、学習済みモデルを外部装置に出力してもよい。本実施形態において学習部117は、学習結果情報取得部112に学習済みモデルを出力する。
 ステップS2において、分割データ生成部111はまず、学習済みモデルの生成に用いられた学習データを取得する。学習データの取得には任意の手法が採用されてよい。分割データ生成部111は、学習部117から学習データを取得してもよいし、ネットワークパラメータ収集装置Nから直接、学習データを受信することで取得してもよい。
 ステップS3において、分割データ生成部111は、取得した学習データを所定期間ごとに分割し、分割データとして学習結果情報取得部112に出力する。
 ステップS2とステップS3とに示すように、分割データ生成部111は、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する。
 ステップS4において、学習結果情報取得部112は、学習部117から学習済みモデルを取得する。
 ステップS5において、学習結果情報取得部112は、取得した学習済みモデルを、分割データ生成部111から出力された複数の分割データのそれぞれに適用する。学習結果情報取得部112は、学習モデルを適用した結果を学習結果情報として生成する。学習結果情報取得部112は、生成した学習結果情報を精度判断部113へ出力する。
 ステップS4とステップS5とに示すように、学習結果情報取得部112は、分割データごとに学習済みモデルを適用した結果を示す学習結果情報を取得する。
 ステップS6において、精度判断部113は、ネットワークパラメータ収集装置Nから、ログ情報を実測値を示す実測値情報として受信することで取得する。このようにして精度判断部113は分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得する。
 図4BのステップS7において、精度判断部113は、学習結果情報取得部112から出力された学習結果情報と、実測値情報とに基づき各分割データの予測値と実測値との差分に応じて、誤差の程度を「誤差大」「誤差中」「誤差小」と段階的に示す誤差情報を生成する。当該誤差の程度が小さい程、学習済みモデルの予測の精度が高いことが表され、誤差の程度が大きい程、学習済みモデルの予測の精度が低いことが表される。精度判断部113は、生成した誤差情報を圧縮決定部114へ出力する。
 ステップS6とステップS7とに示すように、精度判断部113は実測値情報と学習結果情報とに基づいて、分割データのそれぞれについて、学習済みモデルの予測精度を判断する。
 ステップS8において、圧縮決定部114は、予測精度に応じて、分割データを圧縮するか否かを決定する。具体的には圧縮決定部114は、精度判断部113から出力された誤差情報が示す誤差の程度に応じて前記分割データを圧縮することを決定する。本実施形態では、圧縮部115は、誤差情報が示す誤差の程度が「誤差大」である分割データを生データとして残し、誤差の程度が「誤差小」又は「誤差中」である分割データとについては、データを圧縮することを決定する。
 ステップS9において、圧縮決定部114は、圧縮することを決定した分割データを時系列方向に圧縮し、圧縮分割データとして記憶部12に格納する。時系列方向の圧縮は時系列データベースで採用されるような任意の時間圧縮アルゴリズムが用いられてよい。圧縮決定部114は、圧縮せずに生データとして残すことを決定した分割データについては圧縮せずに、非圧縮分割データとして記憶部12に格納する。
 ステップS10において、精度判断部113は、学習済みモデルの予測精度が閾値以下であるか否かを判定する。一般的に、学習済みモデルの生成日から時間が経過すると、学習済みモデルの予測精度が低下する。予測精度が閾値以下となったことの判定には任意の手法が採用されてよく、例えば精度判断部113は、現時点での学習モデルを適用した結果と、現時点での実測値との差分に基づいて予測精度が閾値以下であるか否かを判定してもよい。
 ステップS11において、復元部116は、学習済みモデルの予測精度が閾値以下となった場合に、圧縮分割データを復元して復元分割データを生成する。圧縮分割データに復元には任意の手法が採用されてよい。予測精度の閾値は自由に設定されてよい。本実施形態では、復元部116は、記憶部12に圧縮分割データとして格納されている分割データを復元し、復元分割データとして生成する。復元部116は、復元分割データを学習部117に出力する。
 ステップS12において、学習部117は、非圧縮分割データ、復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又はモデルアーキテクチャを再設計(変更)して新たなモデルを生成する。本実施形態では、学習部117は、復元分割データを復元部116から取得し、記憶部12から非圧縮分割データを読み出すことで取得し、直近のネットワークパラメータをネットワークパラメータ収集装置Nから受信することで取得する。学習部117による再学習又は新たなモデルの生成には、学習済みモデルの生成と同様に任意の機械学習手法が用いられてよい。このように学習部117は、学習データを用いて学習済みモデルを生成し、学習済みモデルの予測精度が閾値以下となった場合には、非圧縮分割データ、復元分割データ、及び直近のネットワークパラメータ(学習済みモデル生成時以降のネットワークパラメータ)を用いて、再学習する、又は新たなモデルを生成する。その後、システム1の動作は終了する。
 上述したように、本実施形態のデータ管理装置10は、将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成部111と、分割データごとに学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得部112と、分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、実測値情報と学習結果情報とに基づいて、分割データのそれぞれについて、学習済みモデルの予測精度を判断する精度判断部113と、予測精度に応じて、分割データを圧縮するか否かを決定する圧縮決定部114と、圧縮決定部114により圧縮されなかった分割データである非圧縮分割データと、圧縮決定部114により圧縮された分割データである圧縮分割データとを記憶する記憶部12と、を備える。
 本実施形態によれば、学習済みモデルについて、時間軸で分割された学習データごとに予測精度を評価できる。予測精度が低い部分はトレンド、季節変動等のノイズである可能性が高いが、同様の特性のノイズが新しいデータでの予測精度の低下を招いている可能性がある。本実施形態では、予測の精度が高い区間の学習データは圧縮し、予測の精度が低い区間の学習データは後の継続学習のために圧縮せずに生データとして保存できるため、再学習、又はモデルアーキテクチャの再設計(変更)により新しい学習済みモデルを作る際に、再度トレンドを捉えることができる。また本実施形態によれば、全ての学習データを格納する場合と比較して、記憶部12の容量を節約できる。また、後の継続学習により必要とされる予測の精度が低い区間の学習データについては圧縮せず、データの破損の可能性を低減して確実に保存することが可能となる。よって、学習済みモデルの見直しのための学習データの保存効率を改善することができる。
 上述したように、本実施形態のデータ管理装置10は、学習済みモデルの予測精度が閾値以下となった場合に、圧縮分割データを復元して復元分割データを生成する復元部116をさらに備える。
 本実施形態によれば、分割された学習データのうち圧縮されたデータについて、学習済みモデルの予測精度が下がって再度の学習が必要となったときに自動的に復元することができる。人手により、再度学習モデルを生成するために学習データを選択し直す場合と比較して、効率的に圧縮された学習データを活用することができる。よって、学習済みモデルの見直しのための学習データの保存効率を改善することができる。
 上述したように、本実施形態のデータ管理装置10は、学習データを用いて学習済みモデルを生成し、学習済みモデルの予測精度が閾値以下となった場合には、非圧縮分割データ、復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する学習部117をさらに備える。
 本実施形態によれば、学習済みモデルの予測精度が下がって再度の学習が必要となったときに、学習部117が自動的に必要な学習データを用いて再学習、又は新たな学習モデルを生成することができる。人手により、学習データを選択して学習させる場合と比較して、効率的に記憶部12に格納していた学習データを活用することができる。よって学習済みモデルの見直しのための学習データの保存効率を改善することができる。
 上述したように、本実施形態のデータ管理装置10において、ネットワークパラメータはトラフィック流量である。
 本実施形態によれば、ネットワークパラメータのうち、ユーザの通信サービスの契約内容に大きく関わるトラフィック流量について、より精度のよい学習モデルの生成が可能となる。
 以上の実施形態に関し、更に以下の付記を開示する。
 [付記項1]
 メモリと、前記メモリに接続された制御部と、を備え、
 前記制御部は、
  将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力し、
  前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得し、
  前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断し、
  前記予測精度に応じて、前記分割データを圧縮するか否かを決定し、
 前記メモリは、前記制御部により圧縮されなかった分割データである非圧縮分割データと、前記制御部により圧縮された分割データである圧縮分割データとを記憶する、
データ管理装置。
 [付記項2]
 前記制御部は、前記学習済みモデルの予測精度が閾値以下となった場合に、前記圧縮分割データを復元して復元分割データを生成する、付記項1に記載のデータ管理装置。
 [付記項3]
 前記制御部は、前記学習データを用いて前記学習済みモデルを生成し、
前記学習済みモデルの予測精度が閾値以下となった場合には、前記非圧縮分割データ、前記復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する、付記項2に記載のデータ管理装置。
 [付記項4]
 前記ネットワークパラメータはトラフィック流量である、付記項1から3のいずれか一項に記載のデータ管理装置。
 [付記項5]
 メモリを備えるデータ管理装置が実行するデータ管理方法であって、
 将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成ステップと、
 前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得ステップと、
 前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断する精度判断ステップと、
 前記予測精度に応じて、前記分割データを圧縮するか否かを決定する圧縮決定ステップと、
 前記圧縮決定ステップにより圧縮されなかった分割データである非圧縮分割データと、前記圧縮決定ステップにより圧縮された分割データである圧縮分割データとを前記メモリに記憶する記憶ステップと、
を含む、データ管理方法。
 [付記項6]
 前記学習済みモデルの予測精度が閾値以下となった場合に、前記圧縮分割データを復元して復元分割データを生成する復元ステップをさらに含む、付記項5に記載のデータ管理方法。
 [付記項7]
 前記学習データを用いて前記学習済みモデルを生成し、
 前記学習済みモデルの予測精度が閾値以下となった場合には、前記非圧縮分割データ、前記復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する学習ステップをさらに含む、付記項6に記載のデータ管理方法。
 [付記項8]
 コンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記コンピュータを、付記項1から4のいずれか一項に記載のデータ管理装置として機能させるプログラムを記憶した非一時的記憶媒体。
 上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1 システム
10 データ管理装置
11 制御部
12 記憶部
13 通信部
14 入力部
15 出力部
30 ネットワーク
111 分割データ生成部
112 学習結果情報取得部
113 精度判断部
114 圧縮決定部
115 圧縮部
116 復元部
117 学習部
 

Claims (8)

  1.  将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成部と、
     前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得部と、
     前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断する精度判断部と、
     前記予測精度に応じて、前記分割データを圧縮するか否かを決定する圧縮決定部と、
     前記圧縮決定部により圧縮されなかった分割データである非圧縮分割データと、前記圧縮決定部により圧縮された分割データである圧縮分割データとを記憶する記憶部と、
    を備えるデータ管理装置。
  2.  前記学習済みモデルの予測精度が閾値以下となった場合に、前記圧縮分割データを復元して復元分割データを生成する復元部をさらに備える、請求項1に記載のデータ管理装置。
  3.  前記学習データを用いて前記学習済みモデルを生成し、
    前記学習済みモデルの予測精度が閾値以下となった場合には、前記非圧縮分割データ、前記復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する学習部さらに備える、請求項2に記載のデータ管理装置。
  4.  前記ネットワークパラメータはトラフィック流量である、請求項1から3のいずれか一項に記載のデータ管理装置。
  5.  記憶部を備えるデータ管理装置が実行するデータ管理方法であって、
     将来のネットワークパラメータの予測値を出力する学習済みモデルの生成に用いられた学習データを所定期間ごとに分割し、分割データとして出力する分割データ生成ステップと、
     前記分割データごとに前記学習済みモデルを適用した結果を示す学習結果情報を取得する学習結果情報取得ステップと、
     前記分割データに対応する期間のネットワークパラメータの実測値を示す実測値情報を取得し、前記実測値情報と前記学習結果情報とに基づいて、前記分割データのそれぞれについて、前記学習済みモデルの予測精度を判断する精度判断ステップと、
     前記予測精度に応じて、前記分割データを圧縮するか否かを決定する圧縮決定ステップと、
     前記圧縮決定ステップにより圧縮されなかった分割データである非圧縮分割データと、前記圧縮決定ステップにより圧縮された分割データである圧縮分割データとを前記記憶部に記憶する記憶ステップと、
    を含む、データ管理方法。
  6.  前記学習済みモデルの予測精度が閾値以下となった場合に、前記圧縮分割データを復元して復元分割データを生成する復元ステップをさらに含む、請求項5に記載のデータ管理方法。
  7.  前記学習データを用いて前記学習済みモデルを生成し、
     前記学習済みモデルの予測精度が閾値以下となった場合には、前記非圧縮分割データ、前記復元分割データ、及び直近のネットワークパラメータを用いて、再学習する、又は新たなモデルを生成する学習ステップをさらに含む、請求項6に記載のデータ管理方法。
  8.  コンピュータを、請求項1から3のいずれか一項に記載のデータ管理装置として機能させるためのプログラム。
     
PCT/JP2022/023690 2022-06-13 2022-06-13 データ管理装置、データ管理方法、及びプログラム WO2023242927A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023690 WO2023242927A1 (ja) 2022-06-13 2022-06-13 データ管理装置、データ管理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023690 WO2023242927A1 (ja) 2022-06-13 2022-06-13 データ管理装置、データ管理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023242927A1 true WO2023242927A1 (ja) 2023-12-21

Family

ID=89192630

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023690 WO2023242927A1 (ja) 2022-06-13 2022-06-13 データ管理装置、データ管理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023242927A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178540A (zh) * 2019-12-29 2020-05-19 浪潮(北京)电子信息产业有限公司 一种训练数据的传输方法、装置、设备及介质
JP2021140554A (ja) * 2020-03-06 2021-09-16 株式会社日立製作所 データ処理システムおよびデータ圧縮方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178540A (zh) * 2019-12-29 2020-05-19 浪潮(北京)电子信息产业有限公司 一种训练数据的传输方法、装置、设备及介质
JP2021140554A (ja) * 2020-03-06 2021-09-16 株式会社日立製作所 データ処理システムおよびデータ圧縮方法

Similar Documents

Publication Publication Date Title
CN108089921B (zh) 用于云端大数据运算架构的服务器及其运算资源最佳化方法
JP2022003566A (ja) ヒープをため込んでいるスタックトレースを特定するための、スレッド強度とヒープ使用量との相関
WO2019180433A1 (en) Predicting using digital twins
US20190294978A1 (en) Inferring digital twins from captured data
CN106233286B (zh) 对文件上传进行优先化的***和方法
JP5768834B2 (ja) プラントモデル管理装置及び方法
CN111652380A (zh) 针对机器学习算法进行算法参数调优的方法及***
JP6937330B2 (ja) 機械学習モデル圧縮システム、機械学習モデル圧縮方法及びプログラム
JPWO2008102739A1 (ja) 仮想サーバシステム及び物理サーバ選択方法
US10432491B2 (en) Control device for estimation of power consumption and energy efficiency of application containers
JP2022033695A (ja) モデルを生成するための方法、装置、電子機器、記憶媒体、及びコンピュータプログラム製品
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
CN111563592B (zh) 基于超网络的神经网络模型生成方法和装置
CN111611129A (zh) PaaS云平台的性能监控方法及装置
US11620537B2 (en) Optimizing gradient boosting feature selection
CN113254472A (zh) 一种参数配置方法、装置、设备及可读存储介质
JPWO2019026702A1 (ja) データ量圧縮方法、装置、プログラム及びicチップ
CN110851333B (zh) 根分区的监控方法、装置和监控服务器
KR102389217B1 (ko) 실시간 소비전력 모니터링 기반 전력패턴 분석을 통한 전력 관리 시스템
WO2023242927A1 (ja) データ管理装置、データ管理方法、及びプログラム
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN111783843A (zh) 一种特征选择方法、装置及计算机***
CN107783990B (zh) 一种数据压缩方法及终端
EP4278315A1 (en) Ticket troubleshooting support system
US9838032B2 (en) Data compression device, data compression method, and computer program product

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22946747

Country of ref document: EP

Kind code of ref document: A1