CN110020739B - 用于数据处理的方法、装置、电子设备及计算机可读介质 - Google Patents

用于数据处理的方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN110020739B
CN110020739B CN201810024135.XA CN201810024135A CN110020739B CN 110020739 B CN110020739 B CN 110020739B CN 201810024135 A CN201810024135 A CN 201810024135A CN 110020739 B CN110020739 B CN 110020739B
Authority
CN
China
Prior art keywords
data
flow data
time series
time
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810024135.XA
Other languages
English (en)
Other versions
CN110020739A (zh
Inventor
吕高帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN201810024135.XA priority Critical patent/CN110020739B/zh
Publication of CN110020739A publication Critical patent/CN110020739A/zh
Application granted granted Critical
Publication of CN110020739B publication Critical patent/CN110020739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种用于数据处理的方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域,该方法包括:获取用户的流量数据,所述流量数据包括电量数据;将所述流量数据按照时间特征分成多个时间序列数据;通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。本申请公开的用于数据处理的方法、装置、电子设备及计算机可读介质,能够对未来用电量进行有效预测,并指导商家电量分配。

Description

用于数据处理的方法、装置、电子设备及计算机可读介质
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种用于数据处理的方法、装置、电子设备及计算机可读介质。
背景技术
电量预测是指对一段时间内电力***的负荷消耗电能总量的预报。电量预测单位可分日、月、年等。电量预测的宏观方法可以考虑用电量与国民生产总值(GNP)的关系构造预测模型。用历史数据求出回归系数,按时间延伸求电量预测值。也可以考虑用时间序列构造预测模型求出预测值。高效的电量特征提取方法对用电量的预测起到至关重要的作用,在现有的电量预测方法中,很少出现对电量特征高效提取的相关方案,如回归分析法,需要统计分析变量历史数据,确定各变量之间的函数关系,虽然能对未来某个时期的用电量做出预测,但是对历史数据要求高,且预测精度低,计算量大,过程复杂。在众多的时序数据特征提取方法中,如基于基本统计特征的方法,就是提取数据波形的均值,方差,极值,波段,功率谱,过零点等统计特征来代表原有的时序数据作为特征矢量,虽然得到最早发展,过程简单,但是在数据有强噪声的情况下不太适合使用。
现有技术中,对用电量进行预测方法主要有基于基本统计特征方法提取的回归分析法,但是该方法计算量大,过程复杂,预测精度低,且不适合有强噪声的数据使用。
因此,需要一种新的用于数据处理的方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于数据处理的方法、装置、电子设备及计算机可读介质,能够对未来用电量进行有效预测,并指导商家电量分配。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于数据处理的方法,该方法包括:获取同一用户的流量数据,所述流量数据包括电量数据;将所述流量数据按照时间特征分成多个时间序列数据;通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。
在本公开的一种示例性实施例中,还包括:将多个用户在所述预定时间段中的所述流量数据预测值进行汇总计算,获取流量数据预测总值。
在本公开的一种示例性实施例中,所述流量数据还包括:客流量数据。
在本公开的一种示例性实施例中,还包括:通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。
在本公开的一种示例性实施例中,还包括:在训练所述长短期记忆网络时,通过均方差与相关系数对所述预测模型进行校验。
在本公开的一种示例性实施例中,所述将所述流量数据按照时间特征分成多个时间序列数据,包括:将所述流量数据按照星期特征分成七个时间序列数据,第一时间序列数据对应于不同星期中每个周一的流量数据;第二时间序列数据对应于不同星期中每个周二的流量数据;第三时间序列数据对应于不同星期中每个周三的流量数据;第四时间序列数据对应于不同星期中每个周四的流量数据;第五时间序列数据对应于不同星期中每个周五的流量数据;第六时间序列数据对应于不同星期中每个周六的流量数据;以及第七时间序列数据对应于不同星期中每个周日的流量数据。
在本公开的一种示例性实施例中,所述通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波,包括:通过离散小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。
在本公开的一种示例性实施例中,所述离散小波变换算法的分解层数为2层;母小波为Daubechies小波簇中的db2小波;以及边界扩展函数为zero-padding。
在本公开的一种示例性实施例中,所述获取所述用户在预定时间段中的流量数据预测值,包括:获取所述用户在未来一个月中的流量数据预测值;所述流量数据预测值包括未来一个月中每一天的流量数据。
在本公开的一种示例性实施例中,所述长短期记忆网络预测模型包括:多个子模型,所述多个子模型之间存在递进关系。
在本公开的一种示例性实施例中,所述长短期记忆网络预测模型中五个子模型的关系为:
其中,Fi为第i个模型,f0为第j个模型预测值的影响因素,gj为第j个模型预测值的影响因素,g0为空值。
根据本发明的一方面,提出一种用于数据处理的装置,该装置包括:数据模块,获取同一用户的流量数据,所述流量数据包括电量数据;拆分模块,将所述流量数据按照时间特征分成多个时间序列数据;特征模块,通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;小波模块,用于通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及预测模块,将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。
在本公开的一种示例性实施例中,还包括:训练模块,用于通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本发明的用于数据处理的方法、装置、电子设备及计算机可读介质,能够对未来用电量进行有效预测,并指导商家电量分配。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于数据处理的方法的流程图。
图2是根据另一示例性实施例示出的一种用于数据处理的方法中电量数据的示意图。
图3是根据另一示例性实施例示出的一种用于数据处理的方法中预测模型的示意图。
图4是根据一示例性实施例示出的一种用于数据处理的方法中不同模型预测效果比较图。
图5是根据一示例性实施例示出的一种用于数据处理的装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出一种计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
图1是根据一示例性实施例示出的一种用于数据处理的方法的流程图
如图1所示,在S102中,获取用户的流量数据,所述流量数据包括电量数据。获取到的用户的流量数据例如为电量数据以天为单位。表1展示了流量数据的格式。其中,record_date为记录时间,user_id为用户的编号,power_consumption为用户的用电量。流量数据中包含很多用户的电量数据,将每一个用户的数据分别提取出来以便后续处理。
表1流量数据的格式
record_date user_id power_consumption
2015/1/1 1 1135
2015/1/2 1 570
2015/1/1 2 24
2015/1/2 2 22
在S104中,将所述流量数据按照时间特征分成多个时间序列数据。由于历史每天的总用电量总体呈现周期性,以周为单位,如图2所示。由于一些法定节日的存在,其中也存在一些异常的高峰区段和低峰区段,但是总体呈现的是以周为单位的周期性趋势。所以将原数据按一周七天分成七个子时间序列,每个用户分别对应七个历史数据时间序列。例如,第一时间序列数据对应于不同星期中每个周一的流量数据;第二时间序列数据对应于不同星期中每个周二的流量数据;第三时间序列数据对应于不同星期中每个周三的流量数据;第四时间序列数据对应于不同星期中每个周四的流量数据;第五时间序列数据对应于不同星期中每个周五的流量数据;第五时间序列数据对应于不同星期中每个周五的流量数据;第七时间序列数据对应于不同星期中每个周日的流量数据。
在一个实施例中,所述流量数据按照时间特征分成多个时间序列数据之前例如进行进行缺失值填补。因为某些原因,某些用户存在某天没有用电量记录,由于数据量极少,所以可认为当天用电量为0。经过对原数据的初步处理,得到如表2所示的数据格式,和表1相比,增加了属性day_of_week(即每周的周几,如周四对应的数字是4)。
表2初步处理之后的数据
record_date user_id power_consumption day_of_week
2015/1/1 1 1135 4
2015/1/2 1 570 5
2015/1/1 2 24 4
2015/1/2 2 22 5
在S106中,通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差。在一个实施例中,对于时间序列例如使用均值和标准差两种统计量。按照时间段划分为训练集和测试集之后,每个集合中用于构造特征工程的部分将进行统计量的计算。不按一周七天划分(即不按照属性day_of_week划分)可以得到该集合范围内每个商家用户用电量在整个时间段的均值和标准差;按一周七天划分(即按day_of_week划分)可以得到每个商家用户用电量在整个时间段内同期某一天所有记录日的均值和标准差。另外考虑到原数据中同期某一天所有记录日的自身的波动特征,也将同期某一天所有记录日的数据作为特征。如表3和4所示,这是主要基于基本统计学提取特征方法得到的特征集数据格式,其中的属性use_id和day_of_week不用于训练,仅作为识别标签。
表3均值和标准差特征集数据格式
user_id day_of_week DOW_power_mean DOW_power_std power_std power_mean
1 1 312.9167 84.59149 98.75397 307.0595
1 2 316.9167 102.2523 98.75397 307.0595
表4同期某一天所有记录日的数据
user_id day_of_week 1_week 2_week 3_week ···
1 1 393 354 328 ···
1 2 35 341 462 ···
在S108中,通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。包括:通过离散小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。所述离散小波变换算法的分解层数为2层;母小波为Daubechies小波簇中的db2小波;以及边界扩展函数为zero-padding。
特征提取的方法有多种,大概分为四类:基于基本统计方法的特征提取,基于模型的特征提取,基于分形维数的特征提取和基于变换的特征提取。小波变换分为两种:连续小波变换(CWT)和离散小波变换(DWT)。DWT(离散小波变换)是基于线性变换的特征提取,表示时间序列的时间尺度以及他们的关系,用来分析包含非平稳的时间序列。小波分析的优点是(能够得到)允许使用长时间间隔的低频信息和短时间间隔的高频信息,并且能够揭示数据的特点,诸如趋势,故障点和其他信号分析技术可能会错过的(丢失)不连续性。另一个优点是根据研究的时间序列的特点可以灵活的选择母小波。离散小波变换的定义式如下:
其中,Ψ是小波变换函数,t表示时间,γ表示在整个时间序列中小波的变换因子(时间步长),s表示尺度因子,j表示膨胀系数且为整数,k决定着变换且为整数,s0是被指定且固定的膨胀步长,其值大于1,γ0表示局部系数,其值必须大于0。
DWT是通过两个互补的滤波器(高频波和低频波)将原始波形分解成两种波形:近似波形Approximations(A)and细节波Details(D)。近似波形是高尺度、低频率的分量;细节波是低尺度、高频率的分量。一般认为低频的近似波是代表波形的同一性,而高频的细节波代表着波形的细微变化,两者缺一不可。DWT的过程是一个迭代的分解过程。如果分解层数大于1,那么从第二层开始就对近似波形继续分解。因此一个原始波形经过DWT之后会产生很多高频细节波,而只有一个低频近似波。
在一个实施例中,按一周七天划分(即按照day_of_week划分)得到每个商家用户用电量在整个时间段同期某一天所有记录日的数据。之后所有小波变换中的离散小波变换对这些时间序列子集进行分解得到一个近似波(A)和多个细节波(D)。可例如,设定DWT模型的一些配置参数,母小波是Daubechies小波簇(Daubechies wavelets)中的db2,根据时间序列子集的长度设定分解层数是2,边界扩展函数使用的是zero-padding。绑定上述配置参数到DWT模型,之后对原时间序列波形进行分解处理,得到的时间序列子波用作特征。如表5所示,基于小波变换提取特征方法得到的特征集数据格式,其中的属性user_id和day_of_week不用于训练,仅作为识别标签。
表5离散小波变换分解后的子波特征集数据格式
user_id day_of_week w0 w1 w2 ···
1 1 -60.52715344 480.229347 633.6039154 ···
1 2 -55.22629175 341.5180818 708.8183392 ···
在S110中,将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。包括:获取所述用户在未来一个月中的流量数据预测值;所述流量数据预测值包括未来一个月中每一天的流量数据。在本实施例中,预测模型可例如为通过长短期记忆网络(LSTM,Long-Short Term Memory)训练之后建立的模型。
如图3所示,长短期记忆网络,通常简称“LSTMs”,是一种特殊的RNN,能够学习长期依赖关系。LSTM有三个“门”,门是用来过滤信息,让信息有选择的通过,他们是由一个sigmoid神经网络和一个pointwise乘法操作组成。sigmoid层输出0-1之间的数值,描述每个部分有多少量可以通过。0代表不允许任何量通过,1指允许任何量通过。
第一道门,忘记门层,决定从传入信息中丢弃什么。公式为,
rt=σ(Wr·[ht-1,xt])
rt为第一道门的输出信息,σ为激活函数,用于将最终输出值配置到[0,1]之间,Wr第一道门对应的参数矩阵,ht-1代表上一层门输出的信息,xt表示输入的信息,该门会读取ht-1和xt,然后输出一个0到1之间的数值给每个细胞状态。
第二道门,确定什么样的新信息被存放在细胞状态中,sigmid层称为“输入门层”,决定什么值我们将要更新
zt=σ(Wz·[ht-1,xt])
其中,tanh是双曲函数中的一种,tanh()为双曲正切。
zt为第二道门的输出信息,σ为激活函数,Wz为第二道门对应的参数矩阵,ht-1代表上一层门输出的信息,xt表示输入的信息,为候选激活层信息,W为/>对应的参数矩阵rt为第一道门的输出信息。
第三道门,更新细胞状态,ht-1到ht把旧状态与1-zt相乘,丢弃掉确定需要丢弃的信息,接着加上这就是新的候选值。
ht为第三道门的输出信息,zt为第二道门的输出信息,ht-1代表上一层门输出的信息,为候选激活层信息。
根据本发明的用于数据处理的方法,通过小波变化算法由历史数据中提取特征值,然后将该特征数据输入由LSTM网络训练后建立的预测模型中的方式,进而预测未来用电量,能够对未来用电量进行有效预测,并指导商家电量分配。而且,通过离散小波变换的方式,降低了基本统计学上的预测难度。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,还包括:将多个用户在所述预定时间段中的所述流量数据预测值进行汇总计算,获取流量数据预测总值。分别针对每个商家用户的历史用电量进行处理后用于训练和预测,之后将每个商家用户未来一个月内每天的用电量的预测值进行汇总,得到一个地区中所有商家未来一个月内每天总的用电量。
根据本发明的用于数据处理的方法,通过对一个地区中所述商家的用电路进行预测汇总,进而获取总用电量的方式,可以对商家电量分配产生指导意义。
在本公开的一种示例性实施例中,所述流量数据还包括:客流量数据。在一个实施例中,可例如通过上述方法对商家用户的客流量数据进行分析预测,进而获取某商场未来每天的客流量数据。上述客流量可以为实体店的客流量数据,也可以为网络购物平台中某一家店铺的客流量数据。与之对应的预测得到的总客流量的数据可以为某实体商场的总客流量,也可以为网络购物平台上的总客流量数据。本申请不以此为限。
在本公开的一种示例性实施例中,还包括:通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。还包括:在训练所述长短期记忆网络时,通过均方差与相关系数对所述预测模型进行校验。所述长短期记忆网络预测模型包括:多个子模型,所述多个子模型之间存在递进关系。
在一个实施例中,由于一个月天数一般都是在五周以内,再结合按属性day_of_week划分的数据集,可例如训练五个预测模型分别对应每周。这五个模型之间是存在递进关系的,具体表现为:预测得到的每周预测值用于之后每周预测的特征集构造。
所述长短期记忆网络预测模型中五个子模型的关系为:
其中,Fi为第i个模型,f0为第j个模型预测值的影响因素,gj为第j个模型预测值的影响因素,g0为空值。
在一个实施例中,在训练所述预测模型的过程中,使用不同统计度量准则验证每种模型的性能,可例如采用统计度量准则为:均方误差(MSE)和相关系数(R)。均方误差统计度量准则公式定义如下:
其中,N是数据点个数,yi是观察值,是计算值。相关系数统计量准则则定义公式如下:
其中,N是数据点个数,yi是观察值,是计算值,/>是观察值的均值,/>是计算值的均值。
在模型的训练阶段,通过均方误差(MSE)和相关系数(R)对每个子模型的校验结果如下:
表6在训练阶段,预测模型的MSE和R
将本申请中经过小波变换提取特征值,输入到预测模型中得到的数据与一般特征提取非提取到的特征值得到的预测数据进行比较,图4展示的是两种模型的预测值和观察值比较结果。三条线分别代表观察值,使用DWT提取得到特征集的预测值,与一般特征提取的预测值。我们可以看出本申请中剔除的DWT-LSTM的预测结果和观察值更加接近,而且优势明显。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据一示例性实施例示出的一种用于数据处理的装置的框图。用于数据处理的装置50包括:数据模块502,拆分模块504,特征模块506,小波模块508,预测模块510。
数据模块502获取同一用户的流量数据,所述流量数据包括电量数据。流量数据中包含很多用户的电量数据,将每一个用户的数据分别提取出来以便后续处理。
拆分模块504将所述流量数据按照时间特征分成多个时间序列数据。例如,第一时间序列数据对应于不同星期中每个周一的流量数据;第二时间序列数据对应于不同星期中每个周二的流量数据;第三时间序列数据对应于不同星期中每个周三的流量数据;第四时间序列数据对应于不同星期中每个周四的流量数据;第五时间序列数据对应于不同星期中每个周五的流量数据;第五时间序列数据对应于不同星期中每个周五的流量数据;第七时间序列数据对应于不同星期中每个周日的流量数据。
特征模块506通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差。通过所述多个时间序列数据分别计算所述流量数据的均值与标准差;将所述均值与所述标准差作为所述流量数据的特征值。
小波模块508用于通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。通过离散小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。所述离散小波变换算法的分解层数为2层;母小波为Daubechies小波簇中的db2小波;以及边界扩展函数为zero-padding。
预测模块510将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。在本实施例中,预测模型可例如为通过长短期记忆网络(LSTM,Long-Short Term Memory)训练之后建立的模型。
用于数据处理的装置50还包括:训练模块(图中未示出)用于通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。
根据本发明的用于数据处理的装置,通过小波变化算法由历史数据中提取特征值,然后将该特征数据输入预测模型中预测未来用电量的方式,能够对未来用电量进行有效预测,并指导商家电量分配。而且,通过离散小波变换的方式,降低了基本统计学上的预测难度。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本发明的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同***组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图1中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取同一用户的流量数据,所述流量数据包括电量数据;将所述流量数据按照时间特征分成多个时间序列数据;通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (14)

1.一种用于数据处理的方法,其特征在于,包括:
获取用户的流量数据,所述流量数据包括电量数据或客流量数据;
将所述流量数据按照时间特征分成多个时间序列数据;
通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;
通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及
将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。
2.如权利要求1所述的方法,其特征在于,还包括:
将多个用户在所述预定时间段中的所述流量数据预测值进行汇总计算,获取流量数据预测总值。
3.如权利要求1所述的方法,其特征在于,还包括:
通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。
4.如权利要求3所述的方法,其特征在于,还包括:
在训练所述长短期记忆网络时,通过均方差与相关系数对所述预测模型进行校验。
5.如权利要求1所述的方法,其特征在于,所述将所述流量数据按照时间特征分成多个时间序列数据,包括:
将所述流量数据按照星期特征分成七个时间序列数据,
第一时间序列数据对应于不同星期中每个周一的流量数据;
第二时间序列数据对应于不同星期中每个周二的流量数据;
第三时间序列数据对应于不同星期中每个周三的流量数据;
第四时间序列数据对应于不同星期中每个周四的流量数据;
第五时间序列数据对应于不同星期中每个周五的流量数据;
第六时间序列数据对应于不同星期中每个周六的流量数据;以及
第七时间序列数据对应于不同星期中每个周日的流量数据。
6.如权利要求1所述的方法,其特征在于,所述通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波,包括:
通过离散小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。
7.如权利要求6所述的方法,其特征在于,所述离散小波变换算法的分解层数为2层;
母小波为Daubechies小波簇中的db2小波;以及
边界扩展函数为zero-padding。
8.如权利要求1所述的方法,其特征在于,所述获取所述用户在预定时间段中的流量数据预测值,包括:
获取所述用户在未来一个月中的流量数据预测值;
所述流量数据预测值包括未来一个月中每一天的流量数据。
9.如权利要求1所述的方法,其特征在于,所述预测模型包括:
多个子模型,所述多个子模型之间存在递进关系。
10.如权利要求9所述的方法,其特征在于,所述预测模型中五个子模型的关系为:
其中,Fi为第i个模型,f0为第j个模型预测值的影响因素,gi为第j个模型预测值的影响因素,g0为空值。
11.一种用于数据处理的装置,其特征在于,包括:
数据模块,获取用户的流量数据,所述流量数据包括电量数据或客流量数据;
拆分模块,将所述流量数据按照时间特征分成多个时间序列数据;
特征模块,通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值与标准差;
小波模块,用于通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及
预测模块,将所述时间序列子波,所述均值与所述标准差作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。
12.如权利要求11所述的装置,其特征在于,还包括:
训练模块,用于通过用户的历史流量数据对与长短期记忆网络进行训练,获得所述预测模型。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN201810024135.XA 2018-01-10 2018-01-10 用于数据处理的方法、装置、电子设备及计算机可读介质 Active CN110020739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810024135.XA CN110020739B (zh) 2018-01-10 2018-01-10 用于数据处理的方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810024135.XA CN110020739B (zh) 2018-01-10 2018-01-10 用于数据处理的方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110020739A CN110020739A (zh) 2019-07-16
CN110020739B true CN110020739B (zh) 2024-03-05

Family

ID=67188125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810024135.XA Active CN110020739B (zh) 2018-01-10 2018-01-10 用于数据处理的方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN110020739B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537671B (zh) * 2020-04-17 2024-06-18 北京京东振世信息技术有限公司 分拣时效预测方法及装置、存储介质、电子设备
CN111597971B (zh) * 2020-05-14 2024-05-21 北京交通大学 一种城市轨道交通短期进站客流量预测方法
CN114449569B (zh) * 2020-11-02 2024-01-16 ***通信集团广东有限公司 用户流量使用量处理方法、网络设备及业务处理***
CN113783750B (zh) * 2021-08-25 2023-05-26 南方电网数字平台科技(广东)有限公司 电网指标波动异常的检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394538A (zh) * 2014-11-28 2015-03-04 重庆大学 一种移动网络数据流量分析及预测方法
CN106384170A (zh) * 2016-09-24 2017-02-08 华北电力大学(保定) 基于小波分解与重构的时间序列风速预测方法
CN106846173A (zh) * 2016-12-30 2017-06-13 国网新疆电力公司电力科学研究院 基于ewt‑esn的短期风电功率预测方法
CN107194496A (zh) * 2017-04-25 2017-09-22 甘肃省电力公司风电技术中心 光伏功率的预测方法及预测装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346745B (zh) * 2010-08-02 2014-04-02 阿里巴巴集团控股有限公司 单词的用户行为数的预测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394538A (zh) * 2014-11-28 2015-03-04 重庆大学 一种移动网络数据流量分析及预测方法
CN106384170A (zh) * 2016-09-24 2017-02-08 华北电力大学(保定) 基于小波分解与重构的时间序列风速预测方法
CN106846173A (zh) * 2016-12-30 2017-06-13 国网新疆电力公司电力科学研究院 基于ewt‑esn的短期风电功率预测方法
CN107194496A (zh) * 2017-04-25 2017-09-22 甘肃省电力公司风电技术中心 光伏功率的预测方法及预测装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LSTM神经网络的多元时间序列预测;金啸宇;科学技术与工程;第第21卷卷;全文 *
基于多机器学习竞争策略的短时交通流预测;徐健锋;交通运输***工程与信息;第第16卷卷(第第4期期);全文 *

Also Published As

Publication number Publication date
CN110020739A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110020739B (zh) 用于数据处理的方法、装置、电子设备及计算机可读介质
CN112396231B (zh) 针对时空数据的建模方法、装置、电子设备及可读介质
CN112508118A (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
US20220245526A1 (en) Quantile hurdle modeling systems and methods for sparse time series prediction applications
CN113284001A (zh) 用电量预测方法、装置、计算机设备和存储介质
CN110766184A (zh) 订单量预测方法和装置
CN114548586A (zh) 一种基于混合模型的短期电力负荷预测方法及***
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN114118570A (zh) 业务数据预测方法及装置、电子设备和存储介质
Singhania et al. Forecasting the United States unemployment rate by using recurrent neural networks with Google Trends data
CN113223502A (zh) 语音识别***优化方法、装置、设备及可读存储介质
Tanaka Bayesian matrix completion approach to causal inference with panel data
Feng et al. Spatiotemporal prediction based on feature classification for multivariate floating-point time series lossy compression
CN115169747A (zh) 电力负荷的非平稳时间序列预测方法、装置及相关设备
CN116228284A (zh) 货品需求预测方法、训练方法、装置、计算机***及介质
US20240103920A1 (en) Method and system for accelerating the convergence of an iterative computation code of physical parameters of a multi-parameter system
Chang et al. A multistep forecasting method for online car-hailing demand based on wavelet decomposition and deep Gaussian process regression
US20210182696A1 (en) Prediction of objective variable using models based on relevance of each model
CN113112299A (zh) 一种贵金属价格趋势预测方法及装置
CN113205257A (zh) 房产指数数据分析方法、装置、设备及存储介质
CN116402321B (zh) 物品需求量确定方法及装置、电子设备和存储介质
CN114238583B (zh) 自然语言处理方法、装置、计算机设备及存储介质
JP6959559B2 (ja) データ数決定装置、データ数決定方法及びデータ数決定プログラム
CN115759373A (zh) 燃气日负荷预测方法、装置及设备
CN117934247B (zh) 基于时序分解的碳排放因子预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant