CN114281596A - 一种修复异常数据的方法、装置、电子设备及存储介质 - Google Patents

一种修复异常数据的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114281596A
CN114281596A CN202011038427.2A CN202011038427A CN114281596A CN 114281596 A CN114281596 A CN 114281596A CN 202011038427 A CN202011038427 A CN 202011038427A CN 114281596 A CN114281596 A CN 114281596A
Authority
CN
China
Prior art keywords
data
timestamp
abnormal
adjacent
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011038427.2A
Other languages
English (en)
Inventor
李虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202011038427.2A priority Critical patent/CN114281596A/zh
Publication of CN114281596A publication Critical patent/CN114281596A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本公开实施例涉数据处理技术领域,具体涉及一种修复异常数据的方法、装置、电子设备及非暂态计算机可读存储介质。本公开的至少一个实施例中,利用斜率信息来修复实时获取的数据,具体地,利用数据上下文之间的关联性,可确定存储的数据集中相邻数据的斜率信息,并在获取到新数据后,可确定数据集中与新数据相邻的第二数据,进而确定新数据相对于第二数据的变化量,从而根据变化量来判断新数据是否异常,若异常,则基于第二数据和斜率信息,修复新数据,解决现有技术不支持实时数据异常处理的问题。

Description

一种修复异常数据的方法、装置、电子设备及存储介质
技术领域
本公开实施例涉及数据处理技术领域,具体涉及一种修复异常数据的方法、装置、电子设备及非暂态计算机可读存储介质。
背景技术
近年来,随着信息技术的发展,各类信息的数据量不断增长,如何合理利用海量的大数据已经成为各行业研究的重点。在大数据统计过程中,会将异常数据统计在内。异常数据例如离群点数据。离群点数据指一个时间序列中,远离序列的一般水平的极端大值和极端小值。异常数据的存在不可避免地影响数据处理和分析的结果。
现有技术中主要通过数据拟合的方法来修复异常数据,但是需要预先获取到所有的数据来进行拟合,不支持实时数据异常处理。上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种修复异常数据的方法、装置、电子设备及非暂态计算机可读存储介质。
第一方面,本公开实施例提出一种修复异常数据的方法,所述方法包括:
从数据集中获取第一数据和与所述第一数据相邻的第二数据;
确定所述第一数据相对于所述第二数据的变化量;
基于所述变化量确定所述第一数据是否为异常数据;
若所述第一数据为异常数据,则基于所述第二数据和所述数据集中相邻数据的斜率信息,修复所述第一数据。
第二方面,本公开实施例还提出一种修复异常数据的装置,所述装置包括:
数据获取单元,用于从数据集中获取第一数据和与所述第一数据相邻的第二数据;
变化量确定单元,用于确定所述第一数据相对于所述第二数据的变化量;
异常判断单元,用于基于所述变化量确定所述第一数据是否为异常数据;
异常修复单元,用于在所述第一数据为异常数据时,基于所述第二数据和所述数据集中相邻数据的斜率信息,修复所述第一数据。
第三方面,本公开实施例还提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述修复异常数据的方法的步骤。
第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面所述修复异常数据的方法的步骤。
可见,本公开的至少一个实施例中,利用斜率信息来修复实时获取的数据,具体地,利用数据上下文之间的关联性,可确定存储的数据集中相邻数据的斜率信息,并在获取到新数据后,可确定数据集中与新数据相邻的第二数据,进而确定新数据相对于第二数据的变化量,从而根据变化量来判断新数据是否异常,若异常,则基于第二数据和斜率信息,修复新数据,解决现有技术不支持实时数据异常处理的问题。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是一种示例性应用场景图;
图2是本公开实施例提供的一种异常修复设备的示例性框图;
图3是本公开实施例提供的一种电子设备的示例性框图;
图4是本公开实施例提供的一种修复异常数据的方法的示例性流程图;
图5是本公开实施例提供的另一种修复异常数据的方法的示例性流程图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
针对大数据统计过程中异常数据,例如离群点数据的检测和修复是利用大数据进行分析的前提条件,若不能修复异常数据,则会导致大数据分析结果的准确性降低。
而现有技术中主要通过数据拟合的方法来修复异常数据,但是需要预先获取到所有的数据来进行拟合,不支持实时数据异常处理。另外,数据异常通常由数据采集设备的非正常采集和数据处理设备的非正常计算所造成的,数据异常的主要表现是出现数据突增或者数据骤降,导致现有技术拟合的曲线出现尖峰或掉坑等现象,会直接影响到用户的数据体验,也不会留给开发人员足够的时间进行数据的修复处理。
为此,本公开实施例提供一种修复异常数据的方法、装置、电子设备及非暂态计算机可读存储介质,利用斜率信息来修复实时获取的数据,具体地,利用数据上下文之间的关联性,可确定存储的数据集中相邻数据的斜率信息,并在获取到新数据后,可确定数据集中与新数据相邻的第二数据,进而确定新数据相对于第二数据的变化量,从而根据变化量来判断新数据是否异常,若异常,则基于第二数据和斜率信息,修复新数据,解决现有技术不支持实时数据异常处理的问题。另外,本公开实施例通过对异常数据进行检测与修复,能够降低由于数据采集设备与数据处理设备的宕机或者数据重复消费所造成数据掉坑与数据突增的问题。
图1为本公开实施例提供的一种示例性应用场景图。在一些实施例中,图1所示的应用场景为大数据场景。在另一些实施例中,图1所示的应用场景为CDN(Content DeliveryNetwork,内容分发网络)直播业务场景,其中,CDN是由分布在不同区域的边缘节点服务器集群组成的分布式网络,将用户内容分发到边缘节点(也成为CDN节点),有效解决互联网网络拥塞状况,提高用户访问网站的响应速度与网站的可用性。应当理解的是,本公开实施例的应用场景仅仅是本公开的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以将本公开应用于其他类似情景。
如图1所示,该应用场景中包括:多个用户端设备11、多个服务端设备12、异常修复设备13以及其他设备,例如网络中的网关设备、计费设备等。
所述用户设备11可以是任意类型的电子设备,例如,智能手机、平板电脑、智能运动装备等移动设备,又例如台式计算机、智能家电等固定设备。
所述服务端设备12可以为本地服务器,也可以为云端服务器。所述服务器可以为一个服务器,也可以为一个服务器群组。所述服务器群组可以是集中式的,也可以是分布式的。
针对不同的应用场景,所述用户设备11和所述服务端设备12所实现的功能不同,在此不再赘述。对于大数据场景,多个服务端设备12构成大数据服务器集群,例如Spark(大数据处理框架)集群,相应地,用户端设备11为Spark客户端。
所述异常修复设备13可以为云端的设备,例如,与多个服务端设备12共同构成大数据服务器集群,也即异常修复设备13为独立设备。在一些实施例中,异常修复设备13也可以为服务端设备12中的子设备,也即异常修复设备13不是独立设备。
在一些实施例中,所述异常修复设备13可以检测并修复异常数据。在一些实施例中,异常修复设备13利用斜率信息来修复实时获取的数据,具体地,利用数据上下文之间的关联性,可确定存储的数据集中相邻数据的斜率信息,并在获取到新数据(记为第一数据)后,可确定数据集中与第一数据相邻的第二数据,进而通过第二数据确定第一数据相对于第二数据的变化量,从而根据变化量来判断第一数据是否异常,若异常,则基于第二数据和斜率信息,修复第一数据,解决现有技术不支持实时数据异常处理的问题。
图2为本公开实施例提供的一种异常修复设备20的示例性框图。在一些实施例中,异常修复设备20可以实现为图1中的异常修复设备13或者异常修复设备13的一部分,用于检测并修复异常数据。如图2所示,异常修复设备20可划分为多个单元,例如可包括但不限于:数据获取单元21、变化量确定单元22、异常判断单元23和异常修复单元24。在一些实施例中,异常修复设备20还可包括图2中未示出的斜率确定单元和存储单元。
数据获取单元21
所述数据获取单元21,用于实时获取数据。在一些实施例中,数据获取单元21获取新数据(记为第一数据)并记录第一时间戳,第一时间戳为获取第一数据的时间戳。
在一些实施例中,数据获取单元21可确定数据集中与第一数据相邻的第二数据。在一些实施例中,数据获取单元21基于第一数据的第一时间戳和数据集的时序分布,确定数据集中与第一数据相邻的第二数据以及第二数据的第二时间戳;其中,第二时间戳早于第一时间戳。
例如,数据集中包括两个数据:(t1,y1)、(t2,y2),第一数据记为(t,y),t为第一时间戳,y为第一数据。由于第一数据是新获取的数据,而数据集中最后获取的数据是y2,因此,可确定与第一数据y相邻的第二数据为y2,相应地,t2记为第二时间戳,且t2早于t。
变化量确定单元22
所述变化量确定单元22,用于基于数据上下文的关联性,确定获取的新数据相对于第二数据的变化量。在一些实施例中,变化量确定单元22可确定第一数据相对于第二数据的变化量。
例如,变化量确定单元23基于第一数据、第一时间戳、第二数据和第二时间戳,确定第一数据相对于第二数据的变化量,其中,第一数据相对于所述第二数据的变化量通过下式确定:
Figure BDA0002705830290000061
其中,P为所述第一数据相对于所述第二数据的变化量,y为第一数据,t为第一时间戳,y2为第二数据,t2为第二时间戳。
异常判断单元23
所述异常判断单元23,用于判断获取的新数据是否为异常数据。在一些实施例中,异常判断单元23可基于第一数据相对于所述第二数据的变化量确定第一数据是否为异常数据。其中,异常数据包括离群点数据。
例如,异常判断单元23用于若变化量大于变化量阈值,确定第一数据为异常数据;若变化量小于或等于变化量阈值,确定第一数据为正常数据。其中,变化量阈值可以根据应用场景来设置,本实施例不限定变化量阈值的具体取值。
异常修复单元24
所述异常修复单元24,用于对异常数据进行修复。在一些实施例中,异常修复单元24可在第一数据为异常数据时,基于第二数据和数据集中相邻数据的斜率信息,修复第一数据。
例如,异常修复单元24在第一数据为异常数据时,基于第一时间戳、第二数据、第二数据的第二时间戳和斜率信息,得到第一数据对应的估计数据;将第一数据对应的估计数据作为第一时间戳对应的数据。其中,估计数据通过下式确定:
(t,yt)=(t,y2+(t-t2)×y′1)
其中,t为第一时间戳,yt为第一数据对应的估计数据,y2为第二数据,t2为第二时间戳,y′1为斜率信息。其中,斜率信息为数据集中与第二数据y2相邻的第三数据y1的斜率信息,且第三数据y1的第三时间戳t1早于第二时间戳t2。本实施例中斜率信息通过下式确定:
Figure BDA0002705830290000071
其中,Δt1为第二时间戳与第三时间戳的差值,y′1为斜率信息,t2为第二时间戳,t1为第三时间戳,y2为第二数据,y1为第三数据。
斜率确定单元
在一些实施例中,异常修复设备20还可包括图2中未示出的斜率确定单元,用于确定存储的数据集中相邻数据的斜率信息。其中,存储的数据集可以理解为已经获取到的无异常数据或者经过修复的数据,因此,数据集中包括的数据均为正常数据或估计数据;所述估计数据通过修复异常数据得到。在一些实施例中,数据集中还包括数据的时间戳,时间戳可以理解为数据获取的时刻。在一些实施例中,数据集中相邻数据的时间间隔是相同的,也即以等时间间隔获取数据。
在一些实施例中,所述斜率确定单元可以确定存储的数据集的时序分布。例如,斜率确定单元按照时间戳顺序,将数据集中的数据进行排序,得到数据集中所有数据的时序分布。在一些实施例中,斜率确定单元可基于时序分布,确定数据集中相邻数据的斜率信息。
例如,数据集中有两个数据,按照时间维度(即时间戳顺序)进行排序,排序后为:(t1,y1)、(t2,y2),其中,t1和t2分别为数据y1和y2的时间戳,且t1早于t2
数据y1和y2为相邻数据,相应地,斜率信息通过下式确定:
Figure BDA0002705830290000081
其中,Δt1为t1和t2的差值,y′1为斜率信息(也即y2和y1之间的斜率)。
又例如,数据集中有三个数据,按照时间维度(即时间戳顺序)进行排序,排序后为:(t1,y1)、(t2,y2)、(t3,y3),则数据y1和y2为相邻数据,数据y2和y3为相邻数据,并且可计算y3和y2之间的斜率,类似y2和y1之间的斜率计算,不再赘述。
存储单元
在一些实施例中,异常修复设备20还可包括图2中未示出的存储单元,所述存储单元可将获取的正常数据和其对应的时间戳存储到数据集中。在一些实施例中,所述存储单元可将获取的异常数据修复后得到估计数据和其对应的时间戳存储到数据集中。
例如,第一数据为异常数据时,存储单元可存储第一数据对应的估计数据和第一时间戳。
又例如,第一数据为正常数据时,存储单元可直接将第一数据和第一时间戳存储到数据集中。
在一些实施例中,异常修复设备20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如数据获取单元21、变化量确定单元22、异常判断单元23和异常修复单元24中的至少两个单元可以实现为一个单元;数据获取单元21、变化量确定单元22、异常判断单元23或异常修复单元24也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图3是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,所述电子设备可以实现为图1中的异常修复设备13或者异常修复设备13的一部分,用于检测并修复异常数据。
如图3所示,电子设备包括:至少一个处理器31、至少一个存储器32和至少一个通信接口33。电子设备中的各个组件通过总线***34耦合在一起。通信接口33,用于与外部设备之间的信息传输。可理解地,总线***34用于实现这些组件之间的连接通信。总线***34除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线***34。
可以理解,本实施例中的存储器32可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器32存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作***和应用程序。
其中,操作***,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的修复异常数据的方法的程序可以包含在应用程序中。
在本公开实施例中,处理器31通过调用存储器32存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器31用于执行本公开实施例提供的修复异常数据的方法各实施例的步骤。
本公开实施例提供的修复异常数据的方法可以应用于处理器31中,或者由处理器31实现。处理器31可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的修复异常数据的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器32,处理器31读取存储器32中的信息,结合其硬件完成方法的步骤。
图4为本公开实施例提供的一种修复异常数据的方法的示例性流程图。该方法的执行主体为电子设备,为便于描述,以下实施例中以电子设备为执行主体说明修复异常数据的方法的流程。
如图4所示,在步骤401中,电子设备获取新数据(记为第一数据),并确定数据集中与第一数据相邻的第二数据。例如,电子设备获取第一数据并记录获取第一数据的第一时间戳,进而基于第一时间戳和数据集的时序分布,确定数据集中与第一数据相邻的第二数据以及第二数据的第二时间戳;其中,第二时间戳早于第一时间戳。
例如,数据集中包括两个数据:(t1,y1)、(t2,y2),第一数据记为(t,y),t为第一时间戳,y为第一数据。由于第一数据是新获取的数据,而数据集中最后获取的数据是y2,因此,可确定与第一数据y相邻的第二数据为y2,相应地,t2记为第二时间戳,且t2早于t。
在步骤402中,电子设备确定第一数据相对于第二数据的变化量。例如,电子设备基于第一数据、第一时间戳、第二数据和第二时间戳,确定第一数据相对于第二数据的变化量。第一数据相对于第二数据的变化量通过下式确定:
Figure BDA0002705830290000111
其中,P为第一数据相对于第二数据的变化量,y为第一数据,t为第一时间戳,y2为第二数据,t2为第二时间戳。
在步骤403中,电子设备基于变化量确定第一数据是否为异常数据。例如,若变化量大于变化量阈值,电子设备确定第一数据为异常数据;若变化量小于或等于变化量阈值,电子设备确定第一数据为正常数据。
在步骤404中,电子设备基于第一数据为异常数据,则基于第二数据和数据集中相邻数据的斜率信息,修复第一数据。例如,电子设备基于第一数据为异常数据,则基于第一时间戳、第二数据、第二数据的第二时间戳和斜率信息,得到第一数据对应的估计数据;将第一数据对应的估计数据作为第一时间戳对应的数据,并存储第一数据对应的估计数据和第一时间戳。
在一些实施例中,电子设备可确定存储的数据集中相邻数据的斜率信息。其中,数据集中的数据均为正常数据或估计数据;所述估计数据通过修复异常数据得到。在一些实施例中,电子设备确定数据集的时序分布,并基于时序分布,确定数据集中相邻数据的斜率信息。
例如,数据集中有两个数据,按照时间维度(即时间戳顺序)进行排序,排序后为:(t1,y1)、(t2,y2),其中,t1和t2分别为数据y1和y2的时间戳,且t1早于t2。数据y1和y2为相邻数据,相应地,斜率信息通过下式确定:
Figure BDA0002705830290000121
其中,Δt1为t1和t2的差值,y′1为斜率信息(也即y2和y1之间的斜率)。
在一些实施例中,第一数据对应的估计数据通过下式确定:
(t,yt)=(t,y2+(t-t2)×y′1)
其中,t为第一时间戳,yt为第一数据对应的估计数据,y2为第二数据,t2为第二时间戳,y′1为斜率信息。其中,斜率信息为数据集中与第二数据y2相邻的第三数据y1的斜率信息,且第三数据y1的第三时间戳t1早于所述第二时间戳t2。其中,斜率信息通过下式确定:
Figure BDA0002705830290000122
其中,Δt1为第二时间戳与第三时间戳的差值,y′1为斜率信息,t2为第二时间戳,t1为第三时间戳,y2为第二数据,y1为第三数据。
在一些实施例中,电子设备基于第一数据为正常数据,还可以直接存储第一数据和第一时间戳。
图5为本公开实施例提供的一种修复异常数据的方法的示例性流程图。该方法的执行主体为电子设备,为便于描述,省略执行主体,修复异常数据的方法可包括如下步骤501至511:
501、确定存储的数据集的时序分布;所述数据集中的数据均为正常数据或估计数据;所述估计数据通过修复异常数据得到。数据集中还包括数据的时间戳,时间戳可以理解为数据获取的时刻。可基于数据的时间戳确定数据集中数据的时序分布。
例如,数据集中有两个数据,按照时间维度(即时间戳顺序)进行排序,排序后为:(t1,y1)、(t2,y2),其中,t1和t2分别为数据y1和y2的时间戳,且t1早于t2
502、基于所述时序分布,确定所述数据集中相邻数据的斜率信息。数据y1和y2为相邻数据,相应地,斜率信息通过下式确定:
Figure BDA0002705830290000131
其中,Δt1为t1和t2的差值,y′1为斜率信息(也即y2和y1之间的斜率)。
503、获取第一数据并记录第一时间戳;所述第一时间戳为获取所述第一数据的时间戳。
504、基于所述第一时间戳和所述时序分布,确定所述数据集中与所述第一数据相邻的第二数据以及所述第二数据的第二时间戳;其中,所述第二时间戳早于所述第一时间戳。
例如,数据集中包括两个数据:(t1,y1)、(t2,y2),第一数据记为(t,y),t为第一时间戳,y为第一数据。由于第一数据是新获取的数据,而数据集中最后获取的数据是y2,因此,可确定与第一数据y相邻的第二数据为y2,相应地,t2记为第二时间戳,且t2早于t。
505、基于所述第一数据、所述第一时间戳、所述第二数据和所述第二时间戳,确定所述第一数据相对于所述第二数据的变化量。
其中,所述第一数据相对于所述第二数据的变化量通过下式确定:
Figure BDA0002705830290000141
其中,P为所述第一数据相对于所述第二数据的变化量,y为第一数据,t为第一时间戳,y2为第二数据,t2为第二时间戳。
506、若所述变化量大于变化量阈值,确定所述第一数据为异常数据。
507、若所述第一数据为异常数据,基于所述第一时间戳、所述第二数据、所述第二时间戳和所述斜率信息,得到所述第一数据对应的估计数据。其中,估计数据通过下式确定:
(t,yt)=(t,y2+(t-t2)×y′1)
其中,t为第一时间戳,yt为第一数据对应的估计数据,y2为第二数据,t2为第二时间戳,y′1为斜率信息。其中,斜率信息为数据集中与第二数据y2相邻的第三数据y1的斜率信息,且第三数据y1的第三时间戳t1早于第二时间戳t2。本实施例中斜率信息通过下式确定:
Figure BDA0002705830290000142
其中,Δt1为第二时间戳与第三时间戳的差值,y′1为斜率信息,t2为第二时间戳,t1为第三时间戳,y2为第二数据,y1为第三数据。
508、将所述第一数据对应的估计数据作为所述第一时间戳对应的数据。
509、存储所述第一数据对应的估计数据和所述第一时间戳。
510、若所述变化量小于或等于变化量阈值,确定所述第一数据为正常数据。
511、若所述第一数据为正常数据,存储所述第一数据和所述第一时间戳。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如修复异常数据的方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (14)

1.一种修复异常数据的方法,其特征在于,所述方法包括:
从数据集中获取第一数据和与所述第一数据相邻的第二数据;
确定所述第一数据相对于所述第二数据的变化量;
基于所述变化量确定所述第一数据是否为异常数据;
若所述第一数据为异常数据,则基于所述第二数据和所述数据集中相邻数据的斜率信息,修复所述第一数据。
2.根据权利要求1所述的方法,其特征在于,所述数据集中的数据均为正常数据或估计数据;所述估计数据通过修复异常数据得到。
3.根据权利要求2所述的方法,其特征在于,所述数据集中相邻数据的斜率信息通过以下方式确定:
确定所述数据集的时序分布;
基于所述时序分布,确定所述数据集中相邻数据的斜率信息。
4.根据权利要求3所述的方法,其特征在于,所述从数据集中获取第一数据和与所述第一数据相邻的第二数据包括:
获取第一数据并记录获取所述第一数据的第一时间戳;
基于所述第一时间戳和所述时序分布,确定所述数据集中与所述第一数据相邻的第二数据以及所述第二数据的第二时间戳;其中,所述第二时间戳早于所述第一时间戳。
5.根据权利要求4所述的方法,其特征在于,所述确定所述第一数据相对于所述第二数据的变化量包括:
基于所述第一数据、所述第一时间戳、所述第二数据和所述第二时间戳,确定所述第一数据相对于所述第二数据的变化量。
6.根据权利要求5所述的方法,其特征在于,所述第一数据相对于所述第二数据的变化量通过下式确定:
Figure FDA0002705830280000021
其中,P为所述第一数据相对于所述第二数据的变化量,y为所述第一数据,t为所述第一时间戳,y2为所述第二数据,t2为所述第二时间戳。
7.根据权利要求1所述的方法,其特征在于,所述基于所述变化量确定所述第一数据是否为异常数据包括:
若所述变化量大于变化量阈值,确定所述第一数据为异常数据;
若所述变化量小于或等于所述变化量阈值,确定所述第一数据为正常数据。
8.根据权利要求4所述的方法,其特征在于,所述基于所述第二数据和所述数据集中相邻数据的斜率信息,修复所述第一数据包括:
基于所述第一时间戳、所述第二数据、所述第二数据的第二时间戳和所述斜率信息,得到所述第一数据对应的估计数据;
将所述第一数据对应的估计数据作为所述第一时间戳对应的数据;
存储所述第一数据对应的估计数据和所述第一时间戳。
9.根据权利要求8所述的方法,其特征在于,所述第一数据对应的估计数据通过下式确定:
(t,yt)=(t,y2+(t-t2)×y′1)
其中,t为所述第一时间戳,yt为所述第一数据对应的估计数据,y2为所述第二数据,t2为所述第二时间戳,y′1为所述斜率信息。
10.根据权利要求8或9所述的方法,其特征在于,所述斜率信息为所述数据集中与所述第二数据相邻的第三数据的斜率信息,且所述第三数据的第三时间戳早于所述第二时间戳。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一数据为正常数据,则存储所述第一数据和所述第一时间戳。
12.一种修复异常数据的装置,其特征在于,所述装置包括:
数据获取单元,用于从数据集中获取第一数据和与所述第一数据相邻的第二数据;
变化量确定单元,用于确定所述第一数据相对于所述第二数据的变化量;
异常判断单元,用于基于所述变化量确定所述第一数据是否为异常数据;
异常修复单元,用于在所述第一数据为异常数据时,基于所述第二数据和所述数据集中相邻数据的斜率信息,修复所述第一数据。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至11任一项所述方法的步骤。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至11任一项所述方法的步骤。
CN202011038427.2A 2020-09-28 2020-09-28 一种修复异常数据的方法、装置、电子设备及存储介质 Pending CN114281596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011038427.2A CN114281596A (zh) 2020-09-28 2020-09-28 一种修复异常数据的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011038427.2A CN114281596A (zh) 2020-09-28 2020-09-28 一种修复异常数据的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114281596A true CN114281596A (zh) 2022-04-05

Family

ID=80867866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011038427.2A Pending CN114281596A (zh) 2020-09-28 2020-09-28 一种修复异常数据的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114281596A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271677A (zh) * 2023-09-28 2023-12-22 大作(江苏)云科技有限公司 一种基于云计算的数据处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271677A (zh) * 2023-09-28 2023-12-22 大作(江苏)云科技有限公司 一种基于云计算的数据处理方法

Similar Documents

Publication Publication Date Title
WO2017113677A1 (zh) 处理用户行为数据的方法和***
US9774654B2 (en) Service call graphs for website performance
CN110162270B (zh) 基于分布式存储***的数据存储方法、存储节点及介质
CN110347561B (zh) 监控告警方法及终端设备
US10133775B1 (en) Run time prediction for data queries
CN109800204B (zh) 数据分配方法及相关产品
CN108647329B (zh) 用户行为数据的处理方法、装置及计算机可读存储介质
CN109257390B (zh) Cc攻击的检测方法、装置及电子设备
CN108664603B (zh) 一种修复时序数据的异常聚合值的方法及装置
CN105183873A (zh) 恶意点击行为检测方法及装置
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN106936778B (zh) 网站流量异常的检测方法和装置
US20210311969A1 (en) Automatically generating user segments
CN113656168A (zh) 一种流量的自动容灾和调度的方法、***、介质和设备
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN111090593A (zh) 确定崩溃归属的方法、装置、电子设备及存储介质
CN114281596A (zh) 一种修复异常数据的方法、装置、电子设备及存储介质
CN108664550B (zh) 一种对用户行为数据进行漏斗分析方法及装置
CN109074293A (zh) 静观候选确定装置、静观候选确定方法以及静观候选确定程序
CN110865877A (zh) 一种任务请求的响应方法及设备
CN107748711B (zh) 自动优化Storm并行度的方法、终端设备及存储介质
CN108255704B (zh) 一种脚本调用事件的异常响应方法及其终端
CN112487039B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN113901261A (zh) 异常对象集群的定位方法和装置、电子设备和存储介质
CN110309421B (zh) 一种ugc内容质量评估方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination