CN108733812A - 基于全局信息的时间序列数据中异常数据点的识别方法 - Google Patents

基于全局信息的时间序列数据中异常数据点的识别方法 Download PDF

Info

Publication number
CN108733812A
CN108733812A CN201810489464.1A CN201810489464A CN108733812A CN 108733812 A CN108733812 A CN 108733812A CN 201810489464 A CN201810489464 A CN 201810489464A CN 108733812 A CN108733812 A CN 108733812A
Authority
CN
China
Prior art keywords
data point
speed variation
time series
percentage speed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810489464.1A
Other languages
English (en)
Other versions
CN108733812B (zh
Inventor
王晓玲
刘小捷
宋光旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810489464.1A priority Critical patent/CN108733812B/zh
Publication of CN108733812A publication Critical patent/CN108733812A/zh
Application granted granted Critical
Publication of CN108733812B publication Critical patent/CN108733812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了基于全局信息的时间序列数据中异常数据点的识别方法,包括步骤:获取原始时间序列数据及各数据点的观测值;计算各数据点的观测值变化速度和各数据点的速度变化率;根据各数据点的速度变化率,计算原始时间序列数据的平均速度变化率,统计各数据点的速度变化率的离散概率分布,并对离散概率分布进行拟合得到概率密度函数;根据时间序列数据的值变化速度约束和数据点的速度变化率,检测异常数据点。将时间序列数据的平均速度变化率和速度变化率的概率分布作为全局信息,充分反应了时间序列数据的整体特性,通过查找违背整体特性的数据点能够对异常数据点进行有效识别,识别出异常数据点。该方法对时间序列数据中突发异常数据点能准确识别。

Description

基于全局信息的时间序列数据中异常数据点的识别方法
技术领域
本发明属于数据清洗领域,更为具体地讲,涉及一种基于全局信息的时间序列数据中异常数据点的识别方法。
背景技术
随着信息技术的发展,数据无时无刻不在产生和使用。各行各业的数据在不断地增长,数据已经在人们的生活中成为了十分重要的角色。由于各种各样的传感器被广泛使用,日常生活中越来越多的时间序列数据被采集和应用,例如气温数据和GPS轨迹数据。因为这些数据中蕴含着丰富的信息,使得时间序列数据挖掘成为了当今的一个热门研究课题。然而,与此同时脏数据也广泛存在于时间序列数据中,低质量的时间序列数据给数据挖掘和分析带来了巨大的影响。毫无疑问,通过清洗时间序列数据,从而提高时间序列数据的数据质量,可以有效地改善数据挖掘的结果,具有重要意义。
其中,如何从时间序列数据中检测突发异常点,是数据清洗中的一项重要内容。由于传感器错误和其他原因,导致时间序列数据中通常存在一些错误的数据点。而这些错误的异常数据点的位置通常难以判断,使得时间序列数据清洗成为极具挑战性的问题。基于平滑的方法通常用于消除序列中的异常数据点,如简单移动平均(SMA)和指数加权移动平均(EWMA)。然而,这类方法仅对序列中的所有数据点都进行平滑处理,难以有效判断异常点的位置。
综上,目前在识别时间序列数据中的突发异常数据点时,存在难以有效准确的判断异常数据点的位置的问题,从而影响对异常数据点的识别。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于全局信息的时间序列数据中异常数据点的识别方法,实现对时间序列数据中突发异常数据点的准确识别。
为实现上述发明目的,本发明一种基于全局信息的时间序列数据中异常数据点的识别方法,包括以下步骤:
S1:获取原始时间序列数据;
S2:根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率;
S3:统计原始时间序列数据各数据点的平均速度变化率和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数;
S4:检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于则第i个数据点将被识别为异常数据点,其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,smax和smin分别为最大和最小的值变化速度约束。
本发明的目的是这样实现的:
本发明通过获取原始时间序列数据及所述原始时间序列数据中各数据点的观测值;根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度和各数据点的速度变化率;根据所述各数据点的速度变化率,计算所述原始时间序列数据的平均速度变化率,统计所述各数据点的速度变化率的离散概率分布,并对所述离散概率分布进行拟合得到概率密度函数;根据时间序列数据的值变化速度约束和数据点的速度变化率,检测异常数据点。由于时间序列数据的观测值变化速度的分布大多没有规律,本发明在观测值变化速度的基础上继续计算速度变化率,发现速度变化率的分布基本符合正太分布,进而使用正太分布进行拟合。将时间序列数据的平均速度变化率和速度变化率的概率分布作为全局信息,充分反应了时间序列数据的整体特性,通过查找违背整体特性的数据点能够对异常数据点进行有效识别。
附图说明
图1是本发明基于全局信息的时间序列数据中异常数据点的识别方法的总体流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
如图1所示,本发明基于全局信息的时间序列数据中异常数据点的识别方法,其具体步骤包括:
S101:获取原始时间序列数据:
获取包含异常点的原始时间序列数据x={<t1,x1>,<t2,x2>,...,<tn,xn>},其中,ti表示第i个数据点的观测时间,xi表示第i个数据点的观测值,i=1、2、3……n。表1是本实施例中的原始时间序列数据表。
表1
S102:计算各数据点的观测值变化速度和数据点的速度变化率
根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率:
原始时间序列数据中第i个数据点xi的观测值变化速度计算公式为数据点的速度变化率计算公式为其中,ti表示第i个数据点的观测时间,ti-1表示第i-1个数据点的观测时间,xi表示第i个数据点的观测值,xi-1表示第i-1个数据点的观测值,vi表示第i个数据点的观测值变化速度,vi-1表示第i-1个数据点的观测值变化速度。
由于时间序列数据的观测值变化速度的分布大多没有规律,本发明在观测值变化速度的基础上继续计算速度变化率,发现速度变化率的分布基本符合正太分布,进而在接下来的步骤中使用正太分布进行拟合。
表2是本实施例中的原始时间序列数据的观测值变化速度和速度变化率表。
表2
S103:拟合速度变化率的概率分布
统计原始时间序列数据各数据点的平均速度变化率和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数。
本实施例中的平均速度变化率根据表2可以得到
表3是本实施例中的原始时间序列数据的速度变化率离散概率分布表。
速度变化率 概率
(-∞,-0.2) 0.04545
[-0.2,-0.1) 0.1364
[-0.1,0) 0.4545
[0,0.1) 0.2273
[0.1,0.2) 0.04545
[0.2,+∞) 0.0909
表3
使用正太分布拟合速度变化率的离散概率分布得到概率密度函数,计算公式为:
其中,为原始时间序列数据各数据点的平均速度变化率,σ为原始时间序列数据各数据点速度变化率的标准差,u为速度变化率。
本实施例中得到平均速度变化率标准差σ=0.1576,则概率密度函数为:
时间序列数据的平均速度变化率和速度变化率的概率分布作为一种全局信息,充分反应了时间序列数据的整体特性。
S104:异常数据点检测
检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于则第i个数据点将被识别为异常数据点。
其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,即:
其中,smax和smin分别为最大和最小的值变化速度约束,根据具体实施情况确定。
在本步骤中,通过查找违背上述整体特性的数据点能够对异常数据点进行有效识别。
本实施例中,变化速度的最大值smax=0.1和最小值smin=-0.1,根据速度变化率概率分布的概率密度函数得到:
表4是本实施例中的异常点检测结果
表4
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于全局信息的时间序列数据中异常数据点的识别方法,其特征在于,包括以下步骤:
S1:获取原始时间序列数据;
S2:根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率;
S3:统计原始时间序列数据各数据点的平均速度变化率和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数;
S4:检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于则第i个数据点将被识别为异常数据点,其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,为速度变化率小于速度变化率的概率,其值为从负无穷到速度变化率对概率密度函数进行积分得到的值,smax和smin分别为最大和最小的值变化速度约束。
2.根据权利要求1所述的基于全局信息的时间序列数据中异常数据点的识别方法,其特征在于,步骤S2中原始时间序列数据为:
x={<t1,x1>,<t2,x2>,...,<tn,xn>};
第i个数据点的观测值变化速度计算公式为:
速度变化率计算公式为
其中,ti表示第i个数据点的观测时间,ti-1表示第i-1个数据点的观测时间,xi表示第i个数据点的观测值,xi-1表示第i-1个数据点的观测值,vi表示第i个数据点的观测值变化速度,vi-1表示第i-1个数据点的观测值变化速度。
CN201810489464.1A 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法 Active CN108733812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810489464.1A CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810489464.1A CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Publications (2)

Publication Number Publication Date
CN108733812A true CN108733812A (zh) 2018-11-02
CN108733812B CN108733812B (zh) 2021-09-14

Family

ID=63938672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810489464.1A Active CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Country Status (1)

Country Link
CN (1) CN108733812B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062270A (zh) * 2022-06-10 2022-09-16 浙江工商大学 基于最大似然的缺失值填充的传感器数据处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065466A (zh) * 2012-11-19 2013-04-24 北京世纪高通科技有限公司 一种交通异常状况的检测方法和装置
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
US20140222653A1 (en) * 2011-09-08 2014-08-07 Tokyo Institute Of Technology Method and program for detecting change-point of time-series data, and method and program for predicting probability density distribution of future time-series data values
CN104793605A (zh) * 2015-04-10 2015-07-22 北京金控自动化技术有限公司 一种利用正态分布判定设备故障的方法
CN104849728A (zh) * 2015-05-12 2015-08-19 北京航空航天大学 地基增强***的完好性评估方法
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN105119734A (zh) * 2015-07-15 2015-12-02 中国人民解放军防空兵学院 基于健壮多元概率校准模型的全网络异常检测定位方法
CN106571039A (zh) * 2016-08-22 2017-04-19 中海网络科技股份有限公司 一种高速公路违章行为自动抓拍***
CN106909793A (zh) * 2017-03-03 2017-06-30 北京北青厚泽数据科技有限公司 检验服从近似正态分布的时间序列的异常的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222653A1 (en) * 2011-09-08 2014-08-07 Tokyo Institute Of Technology Method and program for detecting change-point of time-series data, and method and program for predicting probability density distribution of future time-series data values
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103065466A (zh) * 2012-11-19 2013-04-24 北京世纪高通科技有限公司 一种交通异常状况的检测方法和装置
CN104793605A (zh) * 2015-04-10 2015-07-22 北京金控自动化技术有限公司 一种利用正态分布判定设备故障的方法
CN104849728A (zh) * 2015-05-12 2015-08-19 北京航空航天大学 地基增强***的完好性评估方法
CN105119734A (zh) * 2015-07-15 2015-12-02 中国人民解放军防空兵学院 基于健壮多元概率校准模型的全网络异常检测定位方法
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN106571039A (zh) * 2016-08-22 2017-04-19 中海网络科技股份有限公司 一种高速公路违章行为自动抓拍***
CN106909793A (zh) * 2017-03-03 2017-06-30 北京北青厚泽数据科技有限公司 检验服从近似正态分布的时间序列的异常的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周春姐等: "面向移动用户的乘客需求预测***", 《计算机研究与发展》 *
施晓斌等: "无线传感器网络中基于模式频繁度的异常检测方法", 《信息技术与网络安全》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062270A (zh) * 2022-06-10 2022-09-16 浙江工商大学 基于最大似然的缺失值填充的传感器数据处理方法
CN115062270B (zh) * 2022-06-10 2024-05-31 浙江工商大学 基于最大似然的缺失值填充的传感器数据处理方法

Also Published As

Publication number Publication date
CN108733812B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Donaldson Measuring recognition memory.
Wu Inference for change point and post change means after a CUSUM test
CN104406603B (zh) 一种基于加速度传感器的计步方法和装置
US20150172864A1 (en) Apparatus and Method for Ascertaining the Operating Hours of a Business
CN105844102B (zh) 一种自适应无参空间离群点检测方法
CN112508105A (zh) 一种采油机故障检测与检索方法
CN116243097B (zh) 基于大数据的电能质量检测方法
CN116304898A (zh) 基于机器学习的传感器数据智能存储***
CN105389648A (zh) 一种常减压装置稳态工况的判别方法
CN106448168B (zh) 基于趋势性指标及波动性指标的交通事件自动检测方法
CN106528111B (zh) 一种数据结构作业程序相似性度量方法
CN117272216B (zh) 一种自动流量监测站和人工水尺观测站的数据分析方法
CN105117485A (zh) 一种基于k甚近邻的高准确率全局离群点检测算法
CN108733812A (zh) 基于全局信息的时间序列数据中异常数据点的识别方法
CN106295683A (zh) 一种基于尖锐度的时间序列数据的离群点检测方法
CN103439758A (zh) 用于雨传感器的数据处理方法
CN111695735B (zh) 一种基于流计算的铁路弓网实时预警方法、***及装置
CN106441295A (zh) 步行者行进方向确定方法及装置
Uddin et al. SmartSpaghetti: Accurate and robust tracking of Human's location
CN109933615A (zh) 一种基于差分矩阵的标签向量序列异常检测方法
CN105023271A (zh) 基于多线索信息的行为集体度衡量方法
Bąk et al. An analysis of dynamic changes in selected areas of sustainable development of the European Union countries
CN114925731A (zh) 检测柔性测斜仪监测数据异常值的方法
CN106768743A (zh) 一种基于实时数据处理技术的桥梁主梁线性评估方法
CN109801710A (zh) 行为能力判定方法及装置、终端和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant