CN105335592A - 生成时间数据序列的缺失区段中的数据的方法和设备 - Google Patents

生成时间数据序列的缺失区段中的数据的方法和设备 Download PDF

Info

Publication number
CN105335592A
CN105335592A CN201410291275.5A CN201410291275A CN105335592A CN 105335592 A CN105335592 A CN 105335592A CN 201410291275 A CN201410291275 A CN 201410291275A CN 105335592 A CN105335592 A CN 105335592A
Authority
CN
China
Prior art keywords
data
deleted segment
breakpoint
value
time data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410291275.5A
Other languages
English (en)
Inventor
王瑜
严骏驰
朱秀芳
董维山
张欣
张超
黄文强
李长升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201410291275.5A priority Critical patent/CN105335592A/zh
Priority to US14/730,296 priority patent/US9684872B2/en
Publication of CN105335592A publication Critical patent/CN105335592A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Complex Calculations (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种生成目标时间数据序列的缺失区段中的数据的方法和设备。所述方法包括:确定在所述缺失区段中是否存在断点;确定所述缺失区段中的数据的候选值;以及根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。利用所述方法和设备,可以更加准确地生成目标时间数据序列的缺失区段中的数据。

Description

生成时间数据序列的缺失区段中的数据的方法和设备
技术领域
本发明涉及时间数据序列中的缺失数据的重建,并且具体涉及一种生成时间序列数据的缺失区段中的数据的方法和设备。
背景技术
在智慧地球等的场景中,通过某种数据产生机制,可以随着时间不断地产生数据,从而形成时间数据序列。例如,在城市中,定期地(例如每月)读取用户的电表读数以收取电费,这些电表读数可以形成时间数据序列。出于某种种原因,时间数据序列中的某个区段(其包含一个或多个数据)可能缺失。例如,当如果某两个月用户不在家,则可能无法读取这两个月该用户的电表读数,使得表示该用户的每月电表读数的时间数据序列中的对应区段(其包括2个数据)缺失,这使得在对该时间数据序列进行分析以获得某些信息(例如用户偷电的情况)时,无法获得准确的分析结果。因此,当时间数据序列存在缺失区段时,需要重建/生成该缺失区段(即,其中的数据)。
已经提出了一些生成时间数据序列的缺失区段中的数据的方法。例如,在一种方法中,基于时间数据序列中位于缺失区段两侧的数据,使用线性内插来计算缺失区段中的数据。在另一种方法中,将缺失区段中的数据设为缺失区段两侧的数据的平均值。然而,在缺失区段包含超过2个数据的情况下,使用这些方法生成的缺失区段中的数据往往不符合该时间数据序列的实际情况,因而是不准确的。
发明内容
本发明的一个目的是提供一种生成时间数据序列(为便于描述,以下成为目标时间数据序列)的缺失区段中的数据的方法和设备,其能够更准确地确定缺失区段中的数据。
根据本发明的一个方面,提供了一种生成目标时间数据序列的缺失区段中的数据的方法,包括:确定在所述缺失区段中是否存在断点;确定所述缺失区段中的数据的候选值;以及根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
根据本发明的另一个方面,提供了生成目标时间数据序列的缺失区段中的数据的设备,包括:确定装置,被配置为确定在所述缺失区段中是否存在断点;候选值确定装置,被配置为确定所述缺失区段中的数据的候选值;以及生成装置,被配置为根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
利用根据本发明上述方面的方法和设备,对于存在缺失区段的时间数据序列,可以更准确地生成缺失区段中的数据,使得针对该时间数据序列进行的分析能够获得准确的结果。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
图2示意性地示出了存在缺失区段的时间数据序列的图。
图3示出了根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的流程图。
图4示出了使用根据本发明实施例的方法确定的缺失区段中的数据的断点和候选值的示意图。
图5示出了在缺失区段中存在一个断点的情况下生成缺失区段中的数据的值的示意图。
图6示出了根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图1显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
下面,将参照附图来描述根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的方法和装置。
所述目标时间数据序列可以包括多个数据,每个数据可以对应于一个点,在下文中,可互换地使用“数据”和“点”。此外,为了便于描述,将目标时间数据序列表示为X=x1,x2,…xn1,xn1+1,…xn1+t,xn1+t+1,…,xn,其中,n(n>2)表示该目标时间数据序列包含的数据数量,该目标时间数据序列中的缺失区段可表示为Xmissing=xn1+1,…xn1+t-1,xn1+t,即,该缺失区段包含t(1<t<n-1)个数据。相应地,缺失区段之前的数据x1,x2,…xn1可以形成第一子序列X1,缺失区段之后的数据xn1+t+1,…,xn可以形成第二子序列X2。
图2示意性地示出了存在缺失区段的目标时间数据序列的图,在图2中,虚线框内的部分对应于所述缺失区段。应当注意,在图2中,为简单起见,将目标时间数据序列示出为连续的线,但是在很多情况下,目标时间数据序列对应于离散的多个点。
下面,将参照图3来描述根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的方法。
如图3所示,在步骤S301中,确定在目标时间数据序列的缺失区段中是否存在断点。如本领域公知的,所述断点可以是与目标时间数据序列中的其他数据偏离较大的数据。
在本发明的实施例中,由于目标时间数据序列的缺失区段中的数据是未知的,因此难以直接确定该缺失区段中是否存在断点。为此,可以基于与该目标时间数据序列具有逻辑相似性的参考时间数据序列来确定目标时间数据序列的缺失区段是否存在断点,这是因为具有逻辑相似性的两个时间数据序列的数据也往往具有相似性。与该目标时间数据序列具有逻辑相似性的参考时间数据序列是指与目标时间数据序列具有相同或相似的逻辑属性的时间数据序列。所述逻辑属性可以取决于目标时间数据序列的性质。例如,如果目标时间数据序列表示某个用户的在某段时间内的电表读数,则所述逻辑属性可以是该用户的位置,在这种情况下,与目标时间数据序列具有逻辑相似性的参考时间数据序列可以是表示与该用户处于相同或相近的位置(例如建筑)的另一用户在该段时间内的电表读数的时间数据序列;或者,所述逻辑属性可以是该用户的工作,在这种情况下,与目标时间数据序列具有逻辑相似性的参考时间数据序列可以是表示与该用户具有相同工作(从而具有相同作息时间)的另一用户在该段时间内的电表读数的时间数据序列。为此,可以预先存储目标时间数据序列的各种逻辑属性以及分别具有与目标时间数据序列的这些逻辑属性相同或相似的逻辑属性的时间数据序列,使得在需要时,可以选择与目标时间数据序列具有逻辑相似性的参考时间数据序列以供随后使用。
可以通过确定在所述参考时间数据序列中与所述目标时间数据序列的缺失区段对应的区段(即,参考区段)中是否存在断点来确定在所述缺失区段中是否存在断点。所述参考区段例如可以是与所述缺失区段对应相同时间段的区段。
在本发明的实施例中,对于所述参考区段中的每个数据(即,参考数据),可以根据在所述参考时间数据序列中位于该参考数据两侧的预定数量的数据的平均值之间的差异程度,确定所述至少一个参考数据是否对应于断点。如果所述差异程度较大,则可以确定该参考数据是断点,从而确定所述缺失区段中的对应数据(例如对应相同时间的数据)也是断点。反之,如果所述差异程度较小,则可以确定该参考数据不是断点,从而确定所述缺失区段中的对应数据也不是断点。
具体地,假设参考时间数据序列为Y=y1,y2,…yn1,yn1+1,…yn1+t,yn1+t+1,…,yn,其中,n(n>2)表示该目标时间数据序列包含的数据数量,该时间数据序列中的与缺失区段对应的参考区段为Yref=yn1+1,…yn1+t
在一种实现方式中,对于参考区段中的每个参考数据yj(n1+1≤j≤n1+t),可以计算在该参考数据之前的预定数量(k个)数据的平均值M1以及该参考数据之后的预定数量(k个)数据的平均值M2,然后计算M2与M1之间的差Dj,从而通过Dj的大小来衡量两个平均值之间的差异程度:
D j = | M 2 - M 1 | = | 1 k &Sigma; l = j + 1 j + k x l - 1 k &Sigma; l = j - k + 1 j x l | .
然后,可以找出大于预设阈值的所有Dj,并且将对应的参考数据yj确定为该参考区段中的断点,从而将缺失区段中的对应数据xj确定为该缺失区段中的断点。所述预定数量k可以在满足n1+t+k≤n且n1+1-k≥0的情况下,根据需要灵活地设置。例如,可以将k设置为ns,s可以是小于1的正数,例如0.5或0.6。此外,所述阈值可以根据需要和/或时间数据序列本身的性质灵活地设置。例如,当参考时间数据序列表示用户的每月电表读数时,如果正常情况下该用户的每月电表读数的平均值为150,则可以将所述阈值设置为例如10,使得当平均值之间的差大于10时,将对应的参考数据确定为断点。应当注意,按照上述方式,可能出现参考区段中的连续的两个或多个参考数据对应的差Dj超过所述阈值的情况,在这种情况下,可以将所述两个或多个数据对应的差Dj中最大的Dj所对应的数据确定为断点,而不将其他数据视为断点。
在上述实现方式中,使用两个平均值之间的差的大小来衡量这两个平均值之间的差异程度,但这不是限制性的。在另一实现方式中,也可以使用两个平均值之间的比率来衡量这两个平均值之间的差异程度,使得当所述比率大于预设的阈值时,将对应的参考数据确定为断点。或者,也可以使用其他方式来量这两个平均值之间的差异程度。在其他实现方式中,也可以使用除了计算和比较平均值以外的方式来确定参考区段中的每个参考数据与其他参考数据的偏离程度,从而确定每个参考数据是否是断点。
继续参照图3,在步骤S302中,确定所述缺失区段中的数据的候选值。
具体地,在目标时间数据序列中,虽然缺失区段中的数据缺失,但是位于缺失区段之前的数据(即,上文所述的第一子序列(X1=x1,x2,…xn1)中的数据)能够反映一定的数据变化趋势,可以根据该变化趋势,确定位于第一子序列之后的缺失区段中的数据,换言之,可以基于所述目标时间数据序列中位于所述缺失区段的第一侧(例如之前或左侧)的数据,确定所述缺失区段中的数据的第一候选值。同样,位于缺失区段之后的数据(即,上文所述的第二子序列(X2=xn1+t+1,…,xn)中的数据)也能够反映一定的数据变化趋势,可以根据该数据变化趋势,确定位于第二子序列之前的缺失区段中的数据。换言之,可以基于所述目标时间数据序列中位于所述缺失区段第二侧(例如之后或右侧)的数据,确定所述缺失区段中的数据的第二候选值。
在本发明的实施例中,可以针对第一子序列和第二子序列分别拟合差分自回归移动平均(ARIMA)模型,继而可以根据该ARIMA模型来确定所述第一候选值和第二候选值。针对第一子序列和第二子序列拟合ARIMA模型的方法是本领域公知的,因此在下文中仅进行简单的描述。
具体地,可以针对第一子序列拟合ARIMA(p1,d1,q1)模型,该模型包括三个参数:d1、p1和q1,d1是使第一子序列成为平稳序列而对该第一子序列进行的差分运算的阶数,p1为自回归项数,q1为移动平均项数。通过确定d1、p1和q1,可以确定ARIMA(p1,d1,q1)模型。
首先,可以确定参数d1。具体地,可以检验第一子序列是否是平稳序列。如本领域公知的,平稳序列是指联合概率分布不随时间改变的序列,换言之,如果将第一子序列视为随机序列,并且该第一子序列的随机特征(通过联合概率分布来反映)不随时间改变,则第一子序列是平稳序列,反之第一子序列是非平稳序列。在本发明的实施例中,可以通过对第一子序列执行单位根检验(unitroottest),即检验在第一子序列中是否存在单位根,来判断第一子序列是否是平稳序列。对第一子序列进行单位根检验的方法是本领域公知的,在这里不再赘述。如果第一子序列是平稳序列,则不需要对其进行差分运算,因此d1为0。反之,如果第一子序列不是平稳子序列,则可以对其进行一阶差分运算,并且按照上文所述的方法检验所得到的一阶差分运算后的第一子序列是否是平稳序列。如果一阶差分运算后的第一子序列是平稳序列,则可以确定d1为1。反之,如果一阶差分运算后的第一子序列仍然不是平稳序列,则可以对第一子序列进行二阶差分运算,并且按照上述所述的方法检验所得到的二阶差分运算后的第一子序列是否是平稳序列。如果该二阶差分运算后的第一子序列是平稳序列,则可以确定d1为2。反之,如果该二阶差分运算后的第一子序列不是平稳序列,则可以对第一子序列进行三阶差分预算,并且重复上述检验操作,直到确定进行差分运算后的第一子序列为平稳子序列为止,然后将d1确定为相应的差分阶数。
然后,可以使用基于第一子序列获得的平稳序列(即,第一子序列本身或经过d1阶差分运算后的第一子序列)确定p1和q1。可以使用本领域公知的任何方法来估计p1和q1的初始值,然后对由此获得的ARIMA(p1,d1,q1)模型进行白噪声检验,即,检验所述平稳序列与ARIMA(p1,d1,q1)模型之间的残差是否属于白噪声。如果所述残差属于白噪声,则该ARIMA(p1,d1,q1)模型通过白噪声检验,即,所确定的p1和q1是合适的,从而可以针对第一子序列拟合ARIMA(p1,d1,q1)模型。反之,如果所述残差不属于白噪声,则该ARIMA(p1,d1,q1)模型没有通过白噪声检验。在这种情况下,可以重复执行估计参数p1和q1并且对由此确定的ARIMA(p1,d1,q1)模型进行白噪声检验的操作,直到找到合适的参数p1和q1使得由此确定的ARIMA(p1,d1,q1)模型通过白噪声检验为止。
通过上述操作,可以确定与第一子序列对应的ARIMA(p1,d1,q1)模型。然后,可以使用该ARIMA(p1,d1,q1)模型,逐个计算位于第一子序列之后的缺失区段中的数据xn1+1,…xn1+t的第一候选值x’n1+1,…x’n1+t
类似地,可以针对第二子序列(X2=xn1+t+1,…,xn)拟合ARIMA(p2,d2,q2)模型。与第一子序列不同,在这里,并非直接基于第二子序列来拟合ARIMA(p2,d2,q2)模型,而是基于与第二子序列的数据顺序相反的子序列,即,基于子序列X2’=xn,…,xn1+t+1,按照上文所述的方式拟合ARIMA(p2,d2,q2)模型。然后,可以根据该ARIMA(p2,d2,q2)模型逐个地确定缺失区段中的数据xn1+t,…xn1+1的第二候选值x”n1+t,…x”n1+1
图4示出了对于图2所示的例子,使用上述方法确定的缺失区段中的数据的断点以及第一和第二候选值的示意图。
继续参照图3,在步骤S303中,根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
具体地,当所述缺失区段中不存在断点时,这意味着所述缺失区段的数据不存在突变,在这种情况下,可以使用所述缺失区段的数据的第一候选值和第二候选值二者来生成所述缺失区段中的数据。在本发明的实施例中,可以使用所述第一候选值和第二候选值的加权和来生成所述缺失区段中的数据。例如,对于缺失区段中的数据xj,可以根据需要设置用于第一候选值x’j的权重w1和用于第二候选值x”j的权重w2(w1+w2=1),并且按照下式生成数据xj的值:
xj=x’j*w1+x”j*w2
另一方面,如果所述缺失区段中存在一个断点,则可以根据所述缺失区段中的数据相对于断点的位置,将所述缺失区段中的数据的值确定为所述第一候选值中的对应值或所述第二候选值中的对应值。例如,可以以缺失区段中的该断点为界,将所述缺失区段中位于断点第一侧(例如左侧)的数据的值确定为所述第一候选值中的对应值,并且将所述缺失区段中位于断点第二侧(例如右侧)的数据确定为所述第二候选值中的对应值。例如,对于缺失区段中的数据xn1+1,…xn1+t,假设xn1+u(1≤u≤t)被确定为断点,则可以将xn1+1,xn1+2,…,xn1+u确定为第一候选值中的x’n1+1,x’n1+2,…,x’n1+u,并且将缺失区段中的数据xn1+u+1,…xn1+t确定为第二候选值中的x”n1+u+1,…x”n1+t。图5示出了在缺失区段中存在一个断点的情况下生成缺失区段中的数据的值的示意图。
如果所述缺失区段(xn1+1,…xn1+t)中存在多个断点,则可以按照上文所述的方式,生成所述缺失区段中、位于该缺失区段的第一个数据xn1+1和第一个断点(最靠近xn1+1的断点)之间的数据,从而将所述缺失区段更新为从该第一个断点开始到xn1+t的新缺失区段,然后对于该新缺失区段重复执行上述方法,直到生成所有缺失数据为止。
在根据本发明实施例的上述方法中,根据与目标时间数据序列具有逻辑相似性的参考时间数据序列来确定断点,并且根据缺失区段前后的数据确定缺失区段中的数据的候选值,然后根据所述断点和候选值来生成缺失区段中的数据的值。这样,所生成的缺失区段中的数据比传统方法更加准确。
应当注意,上文所述的方法是说明性的,而非限制性的。例如,尽管在上文中先执行确定断点的步骤,再执行确定第一和第二候选值的步骤,这不是限制性的,也可以先执行确定第一和第二候选值的步骤,再执行确定断点的步骤,或者可以同时执行这两个步骤。
前面已经参考附图描述了实现本发明的方法的实施例。本领域技术人员可以理解的是,上述方法既可以以软件方式实现,也可以以硬件方式实现,或者通过软件与硬件相结合的方式实现。并且,本领域技术人员可以理解,通过以软件、硬件或者软硬件相结合的方式实现上述方法中的各个步骤,可以提供一种基于相同发明构思的生成目标时间数据序列的缺失区段中的数据的设备。即使该设备在硬件结构上与通用处理设备相同,由于其中所包含的软件的作用,使得该设备表现出区别于通用处理设备的特性,从而形成本发明的各个实施例的设备。本发明中所述设备包括若干单元或模块,所述单元或模块被配置为执行相应步骤。本领域的技术人员通过阅读本说明书可以理解如何编写程序实现所述单元或模块执行的动作。
下面将参考图6具体描述根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的设备。由于所述设备与上述方法基于相同的发明构思,因此其中相同或相应的实现细节同样适用于与上述方法对应的设备,由于其在上文中已经进行了详细和完整的描述,因此在下文中可能不再进行赘述。
如图6所示,根据本发明实施例的生成目标时间数据序列的缺失区段中的数据的设备600包括断点确定装置601、候选值确定装置602和生成装置603。
断点确定装置601可以确定在目标时间数据序列的缺失区段中是否存在断点。如上文所述,断点确定装置601可以基于与该目标时间数据序列具有逻辑相似性的参考时间数据序列来确定目标时间数据序列的缺失区段是否存在断点。与该目标时间数据序列具有逻辑相似性的参考时间数据序列是指与目标时间数据序列具有相同或相似的逻辑属性的时间数据序列。所述逻辑属性可以取决于目标时间数据序列的性质。可以将目标时间数据序列的各种逻辑属性以及分别具有与目标时间数据序列的这些逻辑属性相同或相似的逻辑属性的时间数据序列预先存储在存储器(未示出)中,使得在需要时,可以从存储器中读取与目标时间数据序列具有逻辑相似性的参考时间数据序列以供断点确定装置601使用。
断点确定装置601可以通过确定在所述参考时间数据序列中与所述目标时间数据序列的缺失区段对应的区段(即,参考区段)中是否存在断点来确定在所述缺失区段中是否存在断点。所述参考区段例如可以是与所述缺失区段对应相同时间段的区段。如上文所述,断点确定装置601可以对于所述参考区段中的每个数据(即,参考数据),根据在所述参考时间数据序列中位于该参考数据两侧的预定数量的数据的平均值之间的差异程度,确定所述至少一个参考数据是否对应于断点。如果所述差异程度较大,则可以确定该参考数据是断点,从而确定所述缺失区段中的对应数据(例如对应相同时间的数据)也是断点。反之,如果所述差异程度较小,则可以确定该参考数据不是断点,从而确定所述缺失区段中的对应数据也不是断点。
候选值确定装置602可以确定所述缺失区段中的数据的候选值。具体地,候选值确定装置602可以基于所述目标时间数据序列中位于所述缺失区段的第一侧(例如之前或左侧)的数据(即,第一子序列的数据),确定所述缺失区段中的数据的第一候选值,并且可以基于所述目标时间数据序列中位于所述缺失区段第二侧(例如之后或右侧)的数据(即,第二子序列的数据),确定所述缺失区段中的数据的第二候选值。候选值确定装置602可以按照上文所述的方式,通过针对第一子序列和第二子序列分别拟合ARIMA模型,继而根据该ARIMA模型来确定所述第一候选值和第二候选值。
生成装置603可以根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
具体地,当所述缺失区段中不存在断点时,生成装置603可以使用所述缺失区段的数据的第一候选值和第二候选值二者来生成所述缺失区段中的数据。在本发明的实施例中,可以使用所述第一候选值和第二候选值的加权和来生成所述缺失区段中的数据。另一方面,如果所述缺失区段中存在一个断点,则生成装置603可以根据所述缺失区段中的数据相对于断点的位置,将所述缺失区段中的数据的值确定为所述第一候选值中的对应值或所述第二候选值中的对应值。例如,生成装置603可以以缺失区段中的该断点为界,将所述缺失区段中位于断点第一侧(例如左侧)的数据的值确定为所述第一候选值中的对应值,并且将所述缺失区段中位于断点第二侧(例如右侧)的数据确定为所述第二候选值中的对应值。
如果所述缺失区段中存在多个断点,则生成装置603可以按照上文所述的方式,生成所述缺失区段中、位于该缺失区段的第一个数据xn1+1和第一个断点(最靠近xn1+1的断点)之间的数据,从而将所述缺失区段更新为从该第一个断点开始到xn1+t的新缺失区段,然后对于该新缺失区段重复执行上述操作,直到生成所有缺失数据为止。
这样,利用根据本发明实施例的上述设备,可以更准确地生成目标时间数据序列的缺失区段中的数据的值,使得基于该目标时间数据序列的各种分析能够获得更加准确的结果。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种生成目标时间数据序列的缺失区段中的数据的方法,包括:
确定在所述缺失区段中是否存在断点;
确定所述缺失区段中的数据的候选值;以及
根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
2.如权利要求1所述的方法,其中,所述确定在所述缺失区段中是否存在断点包括:
基于与所述目标时间数据序列具有逻辑相似性的参考时间数据序列来确定在所述缺失区段中是否存在断点。
3.如权利要求2所述的方法,其中,所述基于与所述目标时间数据序列具有逻辑相似性的参考时间数据序列来确定在所述缺失区段中是否存在断点包括:
通过确定在所述参考时间数据序列中与所述缺失区段对应的参考区段中是否存在断点来确定在所述缺失区段中是否存在断点。
4.如权利要求3所述的方法,其中,所述确定在所述参考时间数据序列中与所述缺失区段对应的参考区段中是否存在断点包括:
对于所述参考区段中的至少一个参考数据,根据在所述参考时间数据序列中位于所述参考数据两侧的预定数量的数据的平均值之间的差异程度,确定所述至少一个参考数据是否对应于断点。
5.如权利要求1所述的方法,其中,所述确定所述缺失区段中的数据的候选值包括:
基于所述目标时间数据序列中位于所述缺失区段第一侧的数据,确定所述缺失区段中的数据的第一候选值;以及
基于所述目标时间数据序列中位于所述缺失区段第二侧的数据,确定所述缺失区段中的数据的第二候选值。
6.如权利要求5所述的方法,其中,所述根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值包括:
响应于在所述缺失区段中不存在断点,使用所述缺失区段中的数据的第一候选值和第二候选值的加权和作为所述缺失区段中的数据的值。
7.如权利要求1或6所述的方法,其中,所述根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值包括:
响应于在所述缺失区段中存在断点,将所述缺失区段中位于断点第一侧的数据的值确定为所述第一候选值中的对应值,并且将所述缺失区段中位于断点第二侧的数据的值确定为所述第二候选值中的对应值。
8.一种生成目标时间数据序列的缺失区段中的数据的设备,包括:
断点确定装置,被配置为确定在所述缺失区段中是否存在断点;
候选值确定装置,被配置为确定所述缺失区段中的数据的候选值;以及
生成装置,被配置为根据在所述缺失区段中是否存在断点,选择性地使用所述缺失区段中的数据的候选值来生成所述缺失区段中的数据的值。
9.如权利要求8所述的设备,其中,所述断点确定装置基于与所述目标时间数据序列具有逻辑相似性的参考时间数据序列来确定在所述缺失区段中是否存在断点。
10.如权利要求9所述的设备,其中,所述断点确定装置通过确定在所述参考时间数据序列中与所述缺失区段对应的参考区段中是否存在断点来确定在所述缺失区段中是否存在断点。
11.如权利要求10所述的设备,其中,所述断点确定装置对于所述参考区段中的至少一个参考数据,根据在所述参考时间数据序列中位于所述参考数据两侧的预定数量的数据的平均值之间的差异程度,确定所述至少一个参考数据是否对应于断点。
12.如权利要求8所述的设备,其中,所述候选值确定装置按照以下方式确定所述缺失区段中的数据的候选值:基于所述目标时间数据序列中位于所述缺失区段第一侧的数据,确定所述缺失区段中的数据的第一候选值,并且基于所述目标时间数据序列中位于所述缺失区段第二侧的数据,确定所述缺失区段中的数据的第二候选值。
13.如权利要求12所述的设备,其中,所述生成装置响应于在所述缺失区段中不存在断点,使用所述缺失区段中的数据的第一候选值和第二候选值的加权和作为所述缺失区段中的数据的值。
14.如权利要求8或13所述的方法,其中,所述生成装置响应于在所述缺失区段中存在断点,将所述缺失区段中位于断点第一侧的数据的值确定为所述第一候选值中的对应值,并且将所述缺失区段中位于断点第二侧的数据的值确定为所述第二候选值中的对应值。
CN201410291275.5A 2014-06-25 2014-06-25 生成时间数据序列的缺失区段中的数据的方法和设备 Pending CN105335592A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410291275.5A CN105335592A (zh) 2014-06-25 2014-06-25 生成时间数据序列的缺失区段中的数据的方法和设备
US14/730,296 US9684872B2 (en) 2014-06-25 2015-06-04 Method and apparatus for generating data in a missing segment of a time data sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410291275.5A CN105335592A (zh) 2014-06-25 2014-06-25 生成时间数据序列的缺失区段中的数据的方法和设备

Publications (1)

Publication Number Publication Date
CN105335592A true CN105335592A (zh) 2016-02-17

Family

ID=54930920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410291275.5A Pending CN105335592A (zh) 2014-06-25 2014-06-25 生成时间数据序列的缺失区段中的数据的方法和设备

Country Status (2)

Country Link
US (1) US9684872B2 (zh)
CN (1) CN105335592A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885696A (zh) * 2017-11-20 2018-04-06 河海大学 一种利用观测序列相似性实现缺失数据修复的方法
CN112965963A (zh) * 2021-02-05 2021-06-15 同盾科技有限公司 信息处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335597B (zh) * 2014-07-30 2019-04-16 国际商业机器公司 用于获取路线的轨迹模式的方法和***
US9395384B1 (en) * 2015-10-07 2016-07-19 State Farm Mutual Automobile Insurance Company Systems and methods for estimating vehicle speed and hence driving behavior using accelerometer data during periods of intermittent GPS
GB2578430B (en) * 2018-10-25 2023-01-18 Kalibrate Tech Limited Data communication

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928398B1 (en) 2000-11-09 2005-08-09 Spss, Inc. System and method for building a time series model
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
US7809781B1 (en) 2005-04-29 2010-10-05 Hewlett-Packard Development Company, L.P. Determining a time point corresponding to change in data values based on fitting with respect to plural aggregate value sets
US8200454B2 (en) 2007-07-09 2012-06-12 International Business Machines Corporation Method, data processing program and computer program product for time series analysis
US8645304B2 (en) 2011-08-19 2014-02-04 International Business Machines Corporation Change point detection in causal modeling
KR101271694B1 (ko) 2012-01-09 2013-06-05 전남대학교산학협력단 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법
US20140032506A1 (en) 2012-06-12 2014-01-30 Quality Attributes Software, Inc. System and methods for real-time detection, correction, and transformation of time series data
FR2992428B1 (fr) 2012-06-25 2014-07-18 Electricite De France Procede de determination d'une valeur manquante parmi des donnees collectees pour une pluralite d'individus a une pluralite d'instants

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张熙: "含有周期性的时间序列中连续型缺失数据的填补方法", 《万方学位论文数据库》 *
陈远中 等: "改进的有序聚类分析法提取时间序列转折点", 《水文》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885696A (zh) * 2017-11-20 2018-04-06 河海大学 一种利用观测序列相似性实现缺失数据修复的方法
CN107885696B (zh) * 2017-11-20 2021-09-07 河海大学 一种利用观测序列相似性实现缺失数据修复的方法
CN112965963A (zh) * 2021-02-05 2021-06-15 同盾科技有限公司 信息处理方法
CN112965963B (zh) * 2021-02-05 2023-07-21 同盾科技有限公司 信息处理方法

Also Published As

Publication number Publication date
US20150379410A1 (en) 2015-12-31
US9684872B2 (en) 2017-06-20

Similar Documents

Publication Publication Date Title
CN105095614A (zh) 更新预测模型的方法和装置
CN105335592A (zh) 生成时间数据序列的缺失区段中的数据的方法和设备
CN106547678A (zh) 用于白盒测试的方法和装置
EP2993001A1 (en) Method and apparatus for industrial robotic energy saving optimization using fly-by
RU2718042C2 (ru) Система и инструмент для увеличения точности прогноза модели зрелых месторождений
CN105511957A (zh) 用于生成作业告警的方法和***
JPWO2006100753A1 (ja) コスト情報管理システム、コスト情報管理方法およびコスト情報管理プログラム
CN105701266A (zh) 用于电路设计中的静态时序分析的方法和***
CN114127803A (zh) 用于最优预测模型选择的多方法***
CN105335379A (zh) 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备
CN111209930A (zh) 一种生成授信策略的方法、装置和电子设备
US9965503B2 (en) Data cube generation
US9678824B2 (en) Durability and availability evaluation for distributed storage systems
CN105677458A (zh) 用于获取针对事件的约束的方法和装置
Zorn et al. Replacing energy simulations with surrogate models for design space exploration
US11836665B2 (en) Explainable process prediction
CN105447213A (zh) 用于对电路设计进行仿真的方法和装置
US20200365235A1 (en) Feature vector feasibility estimation
WO2020055659A1 (en) Generation and utilization of self-improving data-driven models with selective simulation of 3d object design
CN113688202B (zh) 情感极性分析方法、装置、电子设备以及计算机存储介质
CN112419025A (zh) 用户数据处理方法和装置、存储介质、电子设备
CN113971183A (zh) 实体打标模型训练的方法、装置及电子设备
US20220188566A1 (en) Data preparation for artificial intelligence models
KR102546334B1 (ko) 예측 결과의 중첩과 희소 샘플링에 기초한 장기 미래 예측 방법
US20230119568A1 (en) Pattern detection and prediction using time series data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217

RJ01 Rejection of invention patent application after publication