CN111327441B - 一种流量数据预测方法、装置、设备及存储介质 - Google Patents
一种流量数据预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111327441B CN111327441B CN201811534956.4A CN201811534956A CN111327441B CN 111327441 B CN111327441 B CN 111327441B CN 201811534956 A CN201811534956 A CN 201811534956A CN 111327441 B CN111327441 B CN 111327441B
- Authority
- CN
- China
- Prior art keywords
- data
- flow
- flow data
- matrix
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请涉及一种流量数据预测方法、装置、设备及存储介质,该方法包括:获取多个数据流量设备的流量数据序列;对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗;对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,流量数据矩阵中包括缺失值;利用预设填充方式,对每个流量数据矩阵进行缺失值填充,得到缺失值填充矩阵;利用预设神经网络模型、缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。该方法可以缓解现有技术中存在的预测流量数据的准确性低的问题,达到了提高预测流量数据的准确性的技术效果。
Description
技术领域
本申请涉及流量数据的数据挖掘和数据分析领域,尤其涉及一种流量数据预测方法、装置、设备及存储介质。
背景技术
随着节能减排概念的提出,整个ICT(Information and CommunicationTechnology,信息和通信技术)产业开始向绿色节能型的产业转化。作为ICT产业链的一个重要组成部分,基站的功耗在整个ICT产业能耗的占比较大,作为ICT产业中的能源巨头,基站的功耗的降低势在必行。
现有的基站的功耗较高的主要原因是,传统的基站基本上都是为了满足峰值期用户容量需求而设计,所以基站的容量通常较大。然而,通常情况下,基站能达到用户峰值的时刻情况较少,这主要是由于用户行为具有白天、夜晚的潮汐现象以及区域性差异,使得基站的负载流量呈现出明显的时间和空间上的差异性。
但同时随着智能移动终端的崛起,移动互联网也呈现迅猛增长的趋势,基站的数量以及密度也随之大大增加。如果能使各个基站根据网络流量的变化动态调整工作状态,不仅能有效地满足用户需求,也可以大大地减少基站的能耗。因此对整个基站的负载流量进行分析和预测尤为重要。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种流量数据预测方法、装置、设备及存储介质,缓解现有技术中存在的预测流量数据的准确性低的问题。
第一方面,本申请实施例提供了一种流量数据预测方法,包括:
获取多个数据流量设备的流量数据序列;
对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗;
对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值;
利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵;
利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
可选的,所述获取多个数据流量设备的流量数据序列,包括:
采集每个数据流量设备的在预设时间节点上的流量数据;
按照所述预设时间节点的顺序,汇总每个所述数据流量设备的所述流量数据,得到每个所述数据流量设备的所述流量数据序列。
可选的,所述对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗,包括:
获取预先得到的流量知识库;
在每个所述流量数据序列中,将与所述流量知识库对应的流量数据确定为所述异常流量数据;
删除所述异常流量数据。
可选的,所述对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,包括:
对于每个经过数据清洗后的流量数据序列中的流量数据按照预设数据格式进行数据转换,分别得到每个所述数据流量设备的转换后流量数据序列;
计算任意两个所述转换后流量数据序列间的相关系数,得到相关矩阵R和相似性距离矩阵S,其中,R=(rij)M×M,S=(sij)M×M,sij=1-rij,其中,rij为第i个所述转换后流量数据序列和第j个所述转换后流量数据序列间的相关系数,M为所述数据流量设备的数量,i=1,2,…,M,j=1,2,…,M;
利用每个所述数据流量设备的所述位置参数确定聚类个数C,利用所述聚类个数C和预设聚类方式对M个所述转换后流量数据序列进行聚类,得到C个转换后流量数据集合Vc,所述转换后流量数据集合Vc中包括Lc个所述转换后流量数据序列,其中,L1+L2+…+LC=M,c=1,2,…,C;
利用所述相似性距离矩阵S,对每个所述转换后流量数据集合中的所述转换后流量数据序列进行排序;
将每个经过排序后的转换后流量数据集合分别转换为所述流量数据矩阵。
可选的,所述预设数据格式对应的公式为:
可选的,利用相关系数公式计算任意两个所述转换后流量数据序列间的相关系数,所述相关系数公式为:
其中,i,j=1,2,…,M。
可选的,所述利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵,包括:
设置初始化迭代矩阵和初始化迭代步长;
对于每个所述流量数据矩阵,将所述初始化迭代矩阵、所述初始化迭代步长和所述流量数据矩阵输入预设的迭代模型,得到与所述流量数据矩阵对应的缺失值填充矩阵。
可选的,所述利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,包括:
将每个所述缺失值填充矩阵分解成所述数据流量设备的缺失值填充流量数据序列;
根据每个所述数据流量设备的所述位置参数和所述缺失值填充流量数据序列,构建训练数据集和预测数据集;
将所述训练数据集输入所述预设神经网络模型,得到训练后的模型;
将所述预测数据集输入所述训练后的模型中,得到每个所述数据流量设备的所述流量预测值。
第二方面,本申请实施例提供了一种流量数据预测装置,包括:获取模块、数据清洗模块、聚类模块、缺失值填充模块和预测模块;
所述获取模块,用于获取多个数据流量设备的流量数据序列;
所述数据清洗模块,用于对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗;
所述聚类模块,用于对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值;
所述缺失值填充模块,用于利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵;
所述预测模块,用于利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
第三方面,本申请实施例提供了一种流量数据预测设备,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如第一方面所述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
(1)本申请中,首先,对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,排除了异常流量数据对正常的流量数据的干扰,然后,对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,对每个流量数据矩阵进行缺失值填充,得到缺失值填充矩阵,这样每个流量数据矩阵中包括的经过数据清洗后的流量数据序列间的相关性比较高,使得与流量数据矩阵对应的缺失值填充矩阵能够更加准确的还原真实数据,最后,利用预设神经网络模型、缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,由于缺失值填充矩阵能够更加准确的还原真实数据,所以提高了每个数据流量设备的流量预测值的准确性,因此,缓解了现有技术中存在的预测流量数据的准确性低的问题,达到了提高预测流量数据的准确性的技术效果;
(2)本申请中,获取多个数据流量设备的流量数据序列,包括:采集每个数据流量设备的在预设时间节点上的流量数据;按照预设时间节点的顺序,汇总每个数据流量设备的流量数据,得到每个数据流量设备的流量数据序列,所以,在获取流量数据序列的过程中,工作人员可以根据实际需求设置预设时间节点,因此,提高了获取流量数据序列过程的灵活性和流量数据序列的多样性,更好的满足实际需求;
(3)本申请中,利用预设神经网络模型、缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,包括:将每个缺失值填充矩阵分解成数据流量设备的缺失值填充流量数据序列;根据每个数据流量设备的位置参数和缺失值填充流量数据序列,构建训练数据集和预测数据集;将训练数据集输入预设神经网络模型,得到训练后的模型;将预测数据集输入训练后的模型中,得到每个数据流量设备的流量预测值,由于缺失值填充矩阵能够更加准确的还原真实数据,同时,利用每个数据流量设备的位置参数构建训练数据集和预测数据集,所以,预测数据集能够准确的还原真实数据,训练后的模型更加准确,因此,训练后的模型能够更好更高效地预测流量数据的变化,提高每个数据流量设备的流量预测值的准确性;
(4)本申请中,对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,包括:获取预先得到的流量知识库;在每个流量数据序列中,将与流量知识库对应的流量数据确定为异常流量数据;删除异常流量数据,利用流量知识库对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,不仅可以提高数据清洗的效率和准确性,也可以为数据流量设备的网络故障分析提供有力支撑;
(5)本申请中,利用预设神经网络模型确定每个数据流量设备的流量预测值,能够充分考虑流量数据序列的时空特性,具有一定的普适性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的流量数据预测方法的流程图;
图2为本申请实施例提供的分别利用基于聚类分析的流量数据矩阵填充方式、高斯填充方式以及K最近邻算法填充方式得到的填充结果的平均绝对百分率误差的对比示意图;
图3为本申请实施例提供的分别利用流量数据矩阵填充结果、高斯填充结果以及K最近邻算法填充结果得到的预测结果的平均绝对百分率误差的对比示意图;
图4为本申请实施例提供的流量数据预测装置的结构示意图;
图5为本申请实施例提供的流量数据预测设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种流量数据预测方法、装置、设备及存储介质,缓解了现有技术中存在的预测流量数据的准确性低的问题,达到了提高预测流量数据的准确性的技术效果。
首先,对本申请实施例中的一种流量数据预测方法进行详细介绍,如图1所示,流量数据预测方法可以包括步骤S101至步骤S105:
S101,获取多个数据流量设备的流量数据序列。
示例性的,数据流量设备可以为基站。
S102,对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗。
S103,对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值。
S104,利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵。
S105,利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
本发明实施例中,首先对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,排除了异常流量数据对正常的流量数据的干扰,然后,对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,对每个流量数据矩阵进行缺失值填充,得到缺失值填充矩阵,这样每个流量数据矩阵中包括的经过数据清洗后的流量数据序列间的相关性比较高,使得与流量数据矩阵对应的缺失值填充矩阵能够更加准确的还原真实数据,最后,利用预设神经网络模型、缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,由于缺失值填充矩阵能够更加准确的还原真实数据,所以提高了每个数据流量设备的流量预测值的准确性,因此,缓解了现有技术中存在的预测流量数据的准确性低的问题,达到了提高预测流量数据的准确性的技术效果。
在实际应用中,需要满足多样的流量数据序列的需求,为了解决这个问题,在本发明的又一实施例中,步骤S101可以包括以下步骤:
S1011,采集每个数据流量设备的在预设时间节点上的流量数据。
示例性的,数据流量设备可以为基站。流量数据可以为总流量数据,或者可以为平均网络流速数据,或者可以为最大网络流速数据。工作人员可以根据实际应用需求设置预设时间节点。预设时间节点可以为以15分钟为时间间隔的时间节点,或者可以为以1小时为时间间隔的时间节点,或者可以为以1天为时间间隔的时间节点。
其中,每个数据流量设备的时钟均为同步的,保证流量数据的准确性。
S1012,按照所述预设时间节点的顺序,汇总每个所述数据流量设备的所述流量数据,得到每个所述数据流量设备的所述流量数据序列。
其中,以数据流量设备为M个且每个数据流量设备的流量数据为N个为例进行说明。那么,第1个数据流量设备的流量数据序列可以为(a11,a12,…,a1N),第2个数据流量设备的流量数据序列可以为(a21,a22,…,a2N),…,第M个数据流量设备的流量数据序列可以为(aM1,aM2,…,aMN)。以(aM1,aM2,…,aMN)为例进行说明,aM1可以为采集的第M个数据流量设备的第1个流量数据,aM2为采集的第M个数据流量设备的第2个流量数据,…,aMN为采集的第M个数据流量设备的第N个流量数据。
在本发明实施例中,还可以保存每个数据流量设备的流量数据序列。
本发明实施例中,获取多个数据流量设备的流量数据序列,包括:采集每个数据流量设备的在预设时间节点上的流量数据;按照预设时间节点的顺序,汇总每个数据流量设备的流量数据,得到每个数据流量设备的流量数据序列,所以,在获取流量数据序列的过程中,工作人员可以根据实际需求设置预设时间节点,因此,提高了获取流量数据序列过程的灵活性和流量数据序列的多样性,更好的满足实际需求。
在本发明的又一实施例中,步骤S102可以包括以下步骤:
S1021,获取预先得到的流量知识库。
其中,流量知识库可以包括:异常流量数据及与异常流量数据对应的网络设备故障信息。具体的,当产生异常流量数据时记录当前的网络设备故障信息,或者在网络设备出现故障时自动记录当前的流量数据作为异常流量数据,从而建立流量知识库。
S1022,在每个所述流量数据序列中,将与所述流量知识库对应的流量数据确定为所述异常流量数据。
示例性的,异常流量数据可以包括:异常值和/或重复值。
S1023,删除所述异常流量数据。
在本发明实施例中,还可以在将异常流量数据删除后,将数据的值补充零,避免数据的数量出现缺失,影响后续计算。以(a21,a22,…,a2N)为例进行说明,若确定a22为异常流量数据,则删除a22,同时在a22所在的数据位置上补零,即(a21,0,…,a2N)。
在进行步骤S102之前,还可以包括以下步骤:获取全部数据流量设备的流量数据序列的缺失数据量和全部数据量,计算缺失数据量与全部数据量的比值,判断比值是否大于预设阈值,若比值大于预设阈值,则丢弃全部数据流量设备的流量数据序列,若比值不大于预设阈值,则进行步骤S102。优选的,预设阈值可以为0.4。
本发明实施例中,对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,包括:获取预先得到的流量知识库;在每个流量数据序列中,将与流量知识库对应的流量数据确定为异常流量数据;删除异常流量数据,利用流量知识库对每个数据流量设备的流量数据序列中的异常流量数据进行数据清洗,不仅可以提高数据清洗的效率和准确性,也可以为数据流量设备的网络故障分析提供有力支撑。
在本发明的又一实施例中,步骤S103可以包括以下步骤:
S1031,对于每个经过数据清洗后的流量数据序列中的流量数据按照预设数据格式进行数据转换,分别得到每个所述数据流量设备的转换后流量数据序列。
其中,预设数据格式对应的公式可以为:
其中,为第m个所述数据流量设备的转换后流量数据序列中的第n个数据,amn为第m个经过数据清洗后的流量数据序列中的第n个所述流量数据,m=1,2,…,M,n=1,2,…,N。可以为第m个经过数据清洗后的流量数据序列的样本均值,sm可以为第m个经过数据清洗后的流量数据序列的标准差。
S1032,计算任意两个所述转换后流量数据序列间的相关系数,得到相关矩阵R和相似性距离矩阵S。
R=(rij)M×M,S=(sij)M×M,sij=1-rij,其中,rij为第i个所述转换后流量数据序列和第j个所述转换后流量数据序列间的相关系数,M为所述数据流量设备的数量,i=1,2,…,M,j=1,2,…,M。
其中,可以利用相关系数公式计算任意两个所述转换后流量数据序列间的相关系数,相关系数公式可以为:
具体的,相关矩阵R可以为:
具体的,相似性距离矩阵S可以为:
S1033,利用每个所述数据流量设备的所述位置参数确定聚类个数C,利用所述聚类个数C和预设聚类方式对M个所述转换后流量数据序列进行聚类,得到C个转换后流量数据集合Vc,所述转换后流量数据集合Vc中包括Lc个所述转换后流量数据序列,其中,L1+L2+…+LC=M,c=1,2,…,C。
优选的,预设聚类方式可以为R型Ward聚类方法。
示例性的,以M=10,C=3为例进行说明。对10个转换后流量数据序列进行聚类,得到3个转换后流量数据集合V1、V2和V3,其中,转换后流量数据集合V1中包括3个转换后流量数据序列,分别为第1个转换后流量数据序列、第3个转换后流量数据序列和第4个转换后流量数据序列。转换后流量数据集合V2中包括4个转换后流量数据序列,分别为第2个转换后流量数据序列、第5个转换后流量数据序列、第6个转换后流量数据序列和第8个转换后流量数据序列。转换后流量数据集合V3中包括3个转换后流量数据序列,分别为第7个转换后流量数据序列、第9个转换后流量数据序列和第10个转换后流量数据序列。
S1034,利用所述相似性距离矩阵S,对每个所述转换后流量数据集合中的所述转换后流量数据序列进行排序。
其中,对于转换后流量数据集合V1,根据相似性距离矩阵S确定第1个转换后流量数据序列与第3个转换后流量数据序列之间的排序优先级,确定第1个转换后流量数据序列与第4个转换后流量数据序列之间的排序优先级,确定第3个转换后流量数据序列与第4个转换后流量数据序列之间的排序优先级,利用3个排序优先级对第1个转换后流量数据序列、第3个转换后流量数据序列和第4个转换后流量数据序列序列进行排序,使得相关性比较高的转换后流量数据序列间靠的比较近。
S1035,将每个经过排序后的转换后流量数据集合分别转换为所述流量数据矩阵。
示例性的,与经过排序后的转换后流量数据集合V1对应的流量数据矩阵可以为:
其中,根据H1的表达方式可以看出,第1个转换后流量数据序列与第3个转换后流量数据序列之间的相关性高于第3个转换后流量数据序列与第4个转换后流量数据序列之间的相关性,其它的同理。
具体的,与经过排序后的转换后流量数据集合V1对应的流量数据矩阵可以为H1,与经过排序后的转换后流量数据集合V2对应的流量数据矩阵可以为H2,…,与经过排序后的转换后流量数据集合VC对应的流量数据矩阵可以为HC。
在本发明的又一实施例中,步骤S104可以包括以下步骤:
S1041,设置初始化迭代矩阵和初始化迭代步长。
S1042,对于每个所述流量数据矩阵,将所述初始化迭代矩阵、所述初始化迭代步长和所述流量数据矩阵输入预设的迭代模型,得到与所述流量数据矩阵对应的缺失值填充矩阵。
优选的,预设的迭代模型可以为奇异值阈值算法中的线性布雷格曼迭代的软阈值门限迭代收缩模型。
具体的,迭代模型可以为:
其中,τ>0,Yk为迭代矩阵,收缩算子Dτ的定义如下:Dτ(Y)=UDτ(Σ)VT,Dτ(Σ)=diag({σi-τ}+),而Σ=diag({σi}1<i<r),r为的秩。Ω是[L]×[N]的一个均匀随机采样集,PΩ表示在Ω上的矩阵形式。t+表示的是t非负部分,即t+=max(0,t)。
在每一次迭代过程中采用网格搜索优化更新收缩算子Dτ和迭代步长δk,具体更新过程如下:
对于每个流量数据矩阵,迭代过程完成之后,得到与流量数据矩阵对应的缺失值填充矩阵。具体的,得到与H1对应的Q1,得到与H2对应的Q2,…,得到与HC对应的QC。
图2为本申请实施例提供的分别利用基于聚类分析的流量数据矩阵填充方式、高斯填充方式以及K最近邻算法填充方式得到的填充结果的平均绝对百分率误差的对比示意图,从图2中可以看出,采用基于聚类分析的矩阵填充方法对缺失值填充时的平均绝对百分率误差有着明显的降低,足以说明基于聚类分析的矩阵填充方法在处理具有时间序列特性的数据的缺失值时,有比较好的填充效果。
在本发明的又一实施例中,步骤S105可以包括以下步骤:
S1051,将每个所述缺失值填充矩阵分解成所述数据流量设备的缺失值填充流量数据序列。
具体的,缺失值填充矩阵Q1可以分解成L1个缺失值填充流量数据序列,缺失值填充矩阵Q2可以分解成L2个缺失值填充流量数据序列,…,缺失值填充矩阵QC可以分解成LC个缺失值填充流量数据序列,L1+L2+…+LC=M。
S1052,根据每个所述数据流量设备的所述位置参数和所述缺失值填充流量数据序列,构建训练数据集和预测数据集。
其中,将M个数据流量设备所在的区域划分成M个网格,每个网格表示一个数据流量设备的覆盖区域,从而使得每个数据流量设备的缺失值填充流量数据序列形成一个三维张量I×J×N,其中,I×J表示数据流量设备的覆盖区域的位置信息,N表示数据流量设备的缺失值填充流量数据序列。
利用M个三维张量构建训练数据集和预测数据集。具体的,训练数据集可以表示为:
举例说明,可以将每个缺失值填充流量数据序列中的前A(K<A<N)个缺失值填充流量数据汇总在一起,作为训练数据集,将每个缺失值填充流量数据序列中的后N-A个缺失值填充流量数据汇总在一起,作为预测数据集。
S1053,将所述训练数据集输入所述预设神经网络模型,得到训练后的模型。
示例性的,预设神经网络模型可以为三层神经网络模型,三层神经网络模型的第一层为输入层,第二层为隐藏层,第三层为输出层。输入层可以包括20个神经元,隐藏层可以包括50个神经元,输出层可以包括1个神经元。三层神经网络模型可以采用BPTT算法。
其中,在训练预设神经网络模型的过程中,首先随机初始化预设神经网络模型的权值和偏置,具体过程如下:
bg=bi=b0=b≈O (14)
bf=1 (15)
然后,计算预设神经网络模型中各个记忆模块里面各个门的输出值,具体过程如下:
具体的,权值更新过程如下:
在上面的式子中τ∈{g,i,f,o},LK为整个函数的损失函数:
在迭代过程中,记录具体迭代次数,若具体迭代次数小于预设迭代阈值,则继续下一次迭代过程,否则终止迭代过程,输出权值及训练后的模型。
优选的,训练后的模型可以为Conv-LSTM模型。
S1054,将所述预测数据集输入所述训练后的模型中,得到每个所述数据流量设备的所述流量预测值。
图3为本申请实施例提供的分别利用流量数据矩阵填充结果、高斯填充结果以及K最近邻算法填充结果得到的预测结果的平均绝对百分率误差的对比示意图,从图3中可以看出,本申请实施例通过使用基于聚类分析的流量数据矩阵填充缺失值,能够在Conv-LSTM模型中很好的挖掘数据流量设备的流量数据的时间序列特性以及相邻数据流量设备间的地理位置特征,有效提高了预测准确度。
本发明实施例中,利用预设神经网络模型、缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,包括:将每个缺失值填充矩阵分解成数据流量设备的缺失值填充流量数据序列;根据每个数据流量设备的位置参数和缺失值填充流量数据序列,构建训练数据集和预测数据集;将训练数据集输入预设神经网络模型,得到训练后的模型;将预测数据集输入训练后的模型中,得到每个数据流量设备的流量预测值,由于缺失值填充矩阵能够更加准确的还原真实数据,同时,利用每个数据流量设备的位置参数构建训练数据集和预测数据集,所以,预测数据集能够准确的还原真实数据,训练后的模型更加准确,因此,训练后的模型能够更好更高效地预测流量数据的变化,提高每个数据流量设备的流量预测值的准确性。
进一步的,本发明实施例中,利用预设神经网络模型确定每个数据流量设备的流量预测值,能够充分考虑流量数据序列的时空特性,具有一定的普适性。
在本发明的又一实施例中,对本申请实施例中的一种流量数据预测装置进行详细介绍,如图4所示,流量数据预测装置包括:获取模块31、数据清洗模块32、聚类模块33、缺失值填充模块34和预测模块35。
所述获取模块31,用于获取多个数据流量设备的流量数据序列。
所述数据清洗模块32,用于对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗。
所述聚类模块33,用于对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值。
所述缺失值填充模块34,用于利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵。
所述预测模块35,用于利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
在本发明的又一实施例中,对本申请实施例中的一种流量数据预测设备进行详细介绍,如图5所示,流量数据预测设备包括:处理器501、存储器502、通信接口503和总线504。
所述处理器501、所述存储器502与所述通信接口503通过所述总线504完成相互间的通信。
所述通信接口503用于外部设备之间的信息传输。
示例性的,外部设备可以为用户设备UE。
所述处理器501用于调用所述存储器502中的程序指令,以执行如各方法实施例所提供的方法,例如包括:
S101,获取多个数据流量设备的流量数据序列。
S102,对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗。
S103,对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值。
S104,利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵。
S105,利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
在本发明的又一实施例中,对本申请实施例中的一种计算机可读存储介质进行详细介绍,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行各方法实施例所提供的方法,例如包括:
S101,获取多个数据流量设备的流量数据序列。
S102,对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗。
S103,对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值。
S104,利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵。
S105,利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种流量数据预测方法,其特征在于,包括:
获取多个数据流量设备的流量数据序列;
对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗;
对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值;
利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵;
利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
2.根据权利要求1所述的流量数据预测方法,其特征在于,所述获取多个数据流量设备的流量数据序列,包括:
采集每个数据流量设备的在预设时间节点上的流量数据;
按照所述预设时间节点的顺序,汇总每个所述数据流量设备的所述流量数据,得到每个所述数据流量设备的所述流量数据序列。
3.根据权利要求1所述的流量数据预测方法,其特征在于,所述对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗,包括:
获取预先得到的流量知识库;
在每个所述流量数据序列中,将与所述流量知识库对应的流量数据确定为所述异常流量数据;
删除所述异常流量数据。
4.根据权利要求1所述的流量数据预测方法,其特征在于,所述对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,包括:
对于每个经过数据清洗后的流量数据序列中的流量数据按照预设数据格式进行数据转换,分别得到每个所述数据流量设备的转换后流量数据序列;
计算任意两个所述转换后流量数据序列间的相关系数,得到相关矩阵R和相似性距离矩阵S,其中,R=(rij)M×M,S=(sij)M×M,sij=1-rij,其中,rij为第i个所述转换后流量数据序列和第j个所述转换后流量数据序列间的相关系数,M为所述数据流量设备的数量,i=1,2,…,M,j=1,2,…,M;
利用每个所述数据流量设备的所述位置参数确定聚类个数C,利用所述聚类个数C和预设聚类方式对M个所述转换后流量数据序列进行聚类,得到C个转换后流量数据集合Vc,所述转换后流量数据集合Vc中包括Lc个所述转换后流量数据序列,其中,L1+L2+…+LC=M,c=1,2,…,C;
利用所述相似性距离矩阵S,对每个所述转换后流量数据集合中的所述转换后流量数据序列进行排序;
将每个经过排序后的转换后流量数据集合分别转换为所述流量数据矩阵。
7.根据权利要求1所述的流量数据预测方法,其特征在于,所述利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵,包括:
设置初始化迭代矩阵和初始化迭代步长;
对于每个所述流量数据矩阵,将所述初始化迭代矩阵、所述初始化迭代步长和所述流量数据矩阵输入预设的迭代模型,得到与所述流量数据矩阵对应的缺失值填充矩阵。
8.根据权利要求1所述的流量数据预测方法,其特征在于,所述利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值,包括:
将每个所述缺失值填充矩阵分解成所述数据流量设备的缺失值填充流量数据序列;
根据每个所述数据流量设备的所述位置参数和所述缺失值填充流量数据序列,构建训练数据集和预测数据集;
将所述训练数据集输入所述预设神经网络模型,得到训练后的模型;
将所述预测数据集输入所述训练后的模型中,得到每个所述数据流量设备的所述流量预测值。
9.一种流量数据预测装置,其特征在于,包括:获取模块、数据清洗模块、聚类模块、缺失值填充模块和预测模块;
所述获取模块,用于获取多个数据流量设备的流量数据序列;
所述数据清洗模块,用于对每个所述数据流量设备的流量数据序列中的异常流量数据进行数据清洗;
所述聚类模块,用于对数据清洗后的流量数据序列进行聚类分析,得到多个流量数据矩阵,所述流量数据矩阵中包括缺失值;
所述缺失值填充模块,用于利用预设填充方式,对每个所述流量数据矩阵进行缺失值填充,得到缺失值填充矩阵;
所述预测模块,用于利用预设神经网络模型、所述缺失值填充矩阵以及每个数据流量设备的位置参数,确定每个数据流量设备的流量预测值。
10.一种流量数据预测设备,其特征在于,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811534956.4A CN111327441B (zh) | 2018-12-14 | 2018-12-14 | 一种流量数据预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811534956.4A CN111327441B (zh) | 2018-12-14 | 2018-12-14 | 一种流量数据预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111327441A CN111327441A (zh) | 2020-06-23 |
CN111327441B true CN111327441B (zh) | 2022-07-08 |
Family
ID=71170105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811534956.4A Active CN111327441B (zh) | 2018-12-14 | 2018-12-14 | 一种流量数据预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111327441B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11663448B2 (en) * | 2019-06-28 | 2023-05-30 | Conduent Business Services, Llc | Neural network systems and methods for event parameter determination |
CN110474815B (zh) * | 2019-09-23 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 带宽预测方法、装置、电子设备及存储介质 |
CN112770256B (zh) * | 2021-01-06 | 2022-09-09 | 重庆邮电大学 | 一种无人机自组织网络中的节点轨迹预测方法 |
CN116232923A (zh) * | 2022-12-23 | 2023-06-06 | 中国联合网络通信集团有限公司 | 模型训练方法、装置以及网络流量预测方法、装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8443013B1 (en) * | 2011-07-29 | 2013-05-14 | Google Inc. | Predictive analytical modeling for databases |
US9349105B2 (en) * | 2013-12-18 | 2016-05-24 | International Business Machines Corporation | Machine learning with incomplete data sets |
US9348885B2 (en) * | 2014-02-04 | 2016-05-24 | Adobe Systems Incorporated | System and method for ranking and selecting data features |
CN104239489B (zh) * | 2014-09-05 | 2018-03-20 | 河海大学 | 利用相似性搜索和改进bp神经网络预测水位的方法 |
US10430928B2 (en) * | 2014-10-23 | 2019-10-01 | Cal Poly Corporation | Iterated geometric harmonics for data imputation and reconstruction of missing data |
CN106294447A (zh) * | 2015-05-28 | 2017-01-04 | 中国科学院沈阳自动化研究所 | 一种基于双聚类填充的协同过滤方法 |
-
2018
- 2018-12-14 CN CN201811534956.4A patent/CN111327441B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111327441A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111327441B (zh) | 一种流量数据预测方法、装置、设备及存储介质 | |
CN109587713B (zh) | 一种基于arima模型的网络指标预测方法、装置及存储介质 | |
Bai et al. | A multi-pattern deep fusion model for short-term bus passenger flow forecasting | |
CN111260030B (zh) | 基于a-tcn电力负荷预测方法、装置、计算机设备及存储介质 | |
CN109214599B (zh) | 一种对复杂网络进行链路预测的方法 | |
CN113762595B (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
CN112381673B (zh) | 一种基于数字孪生的园区用电信息分析方法及装置 | |
CN111985719B (zh) | 一种基于改进的长短期记忆网络的电力负荷预测方法 | |
CN114285728A (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
JP6947108B2 (ja) | データ予測装置、方法、及びプログラム | |
CN111125519A (zh) | 用户行为预测方法、装置、电子设备以及存储介质 | |
CN116468186A (zh) | 一种航班链延误时间预测方法、电子设备及存储介质 | |
CN115080795A (zh) | 一种多充电站协同负荷预测方法及装置 | |
CN115409292A (zh) | 一种电力***短期负荷预测方法及相关装置 | |
CN112508286A (zh) | 一种基于Kmeans-BiLSTM-DMD模型的短期负荷预测方法 | |
CN116308854A (zh) | 一种基于概率扩散的信息级联流行度预测方法及*** | |
CN113609763B (zh) | 基于不确定性的卫星组件布局温度场预测方法 | |
Zhu et al. | A multi-objective biclustering algorithm based on fuzzy mathematics | |
CN117236571A (zh) | 一种基于物联网的规划方法和*** | |
CN117150409A (zh) | 一种用电异常检测方法 | |
CN111144473B (zh) | 训练集构建方法、装置、电子设备及计算机可读存储介质 | |
Chen et al. | Construction of probabilistic Boolean networks from a prescribed transition probability matrix: a maximum entropy rate approach | |
CN110839253A (zh) | 一种确定无线网格网络流量的方法 | |
CN116384574A (zh) | 一种基于w-lstm的非参数负荷区间预测方法 | |
CN116341752A (zh) | 一种基于图神经网络的协同供应链预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |