CN106295683A - 一种基于尖锐度的时间序列数据的离群点检测方法 - Google Patents

一种基于尖锐度的时间序列数据的离群点检测方法 Download PDF

Info

Publication number
CN106295683A
CN106295683A CN201610623311.2A CN201610623311A CN106295683A CN 106295683 A CN106295683 A CN 106295683A CN 201610623311 A CN201610623311 A CN 201610623311A CN 106295683 A CN106295683 A CN 106295683A
Authority
CN
China
Prior art keywords
sharpness
time series
point
series data
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610623311.2A
Other languages
English (en)
Inventor
肖建力
张静
王忠浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201610623311.2A priority Critical patent/CN106295683A/zh
Publication of CN106295683A publication Critical patent/CN106295683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于尖锐度的时间序列数据的离群点检测方法,包括以下步骤:获取待检测的时间序列数据;对时间序列数据进行平滑,得到平滑曲线;计算平滑曲线上各点的尖锐度;由平滑曲线上各点的尖锐度计算尖锐度阈值;利用尖锐度阈值判断时间序列数据中的各点是否为离群点,如果该点的尖锐度大于尖锐度阈值,则判断为离群点。本发明的基于尖锐度的时间序列数据的离群点检测方法,显著降低了离群点检测算法的复杂度,对于离群点具有较高的检出率,对于非离群点具有较小的误检率。

Description

一种基于尖锐度的时间序列数据的离群点检测方法
技术领域
本发明涉及离群点检测技术领域,特别涉及一种基于尖锐度的时间序列数据的离群点检测方法。
背景技术
离群点是指远离序列的一般水平的极端大值和极端小值,亦或指与其他序列样本点一般行为或特征不一样的点。因此,有时候也称它为奇异值或是野值。离群点检测的目的是捕获那些与数据总体分布不一致的点。伴随着云计算、物联网及社交网络的兴起,离群点检测具有广阔的应用前景,可广泛应用于数据预处理、设备故障诊断、信用欺诈检测、交通事件检测等领域。
到现在为止产生了大量的时间序列数据的离群点的检测方法,这些方法大致可以分为如下几类:
(1)基于统计学习的方法
基于统计学习的方法对离群点进行检测的基本思想是将全部数据样本分为离群点和非离群点两类,通过建立二元分类模型来对样本进行分类。具体而言,基于统计学习的方法可以分为监督学习的方法、半监督学习的方法以及非监督学习的方法。基于统计学习的方法需要大量的样本来构建统计模型,尤其是当离群点的数目过少时,所建立的分类模型的检测性能往往不能够满足要求。
(2)基于非统计学习的方法
这类方法往往考察样本点在特征空间分布上的差异性,例如到中心点的距离,局部范围的密度等,如果某些点的此类特征与样本整体的差异性达到一定的程度,则将这些点视为离群点。相比于基于统计学习的方法,此类方法无需进行训练学习,但是检测过程较复杂。
发明内容
本发明针对上述现有技术中存在的问题,提出一种基于尖锐度的时间序列数据的离群点检测方法,其是基于非统计学习的方法,且显著降低了离群点检测算法的复杂度,对于离群点具有较高的检出率,对于非离群点具有较小的误检率。
为解决上述技术问题,本发明是通过如下技术方案实现的:
本发明提供一种基于尖锐度的时间序列数据的离群点检测方法,其包括以下步骤:
S11:获取待检测的时间序列数据;
S12:对所述时间序列数据进行平滑,得到所述时间序列数据的平滑曲线;
S13:计算所述平滑曲线上各点的尖锐度;
S14:由所述平滑曲线上各点的尖锐度计算尖锐度阈值;
S15:利用所述尖锐度阈值判断所述时间序列数据中的各点是否为离群点,如果该点的尖锐度大于所述尖锐度阈值,则判断为离群点。
较佳地,所述步骤S12具体为:采用均值平滑或拉普拉斯平滑对所述时间序列数据进行平滑,得到所述时间序列数据的平滑曲线。
较佳地,所述步骤S13具体包括:
S131:对于所述平滑曲线上的每一点,首先确定当前点第k个点Sk为中心控制点,然后向前或向后各取m个点,一共获得2m+1个点组成该中心控制点的支撑区域;
S132:由该中心控制点与所述支撑区域的两端点进行连线,分别得到两条支撑臂,两条所述支撑臂之间的夹角为支撑角γk
S133:得出该点的尖锐度为:
jrdk=1-sin(γk/2)。
较佳地,所述步骤S132中,所述支撑区域的两端点分别为Sk-m、Sk+m,所述中心控制点与所述支撑区域的两端点之间的间隔非常小,因此假设: SkSk-m|=|SkSk+m|,则有:
sin ( γ k / 2 ) = | S k - m S k + m | / 2 | S k S k - m | = | S k - m S k + m | / 2 | S k S k + m | = | S k - m S k + m | | S k S k - m | + | S k S k + m | ;
则步骤S133中,该点的尖锐度为:
jrd k = 1 - s i n ( γ k / 2 ) = 1 - | S k - m S k + m | | S k S k - m | + | S k S k + m | .
较佳地,m∈[3,8],且为整数。
较佳地,所述步骤S14具体为:提取所述平滑曲线上的尖锐度不为零的点,并计算这些点的尖锐度均值,以此均值作为尖锐度阈值。
较佳地,所述步骤S15具体为:将所述平滑曲线上的各点的尖锐度与所述尖锐度阈值进行比较,如果大于所述尖锐度阈值,则记录下该点的序号,在所述时间序列数据中排在此序号上的点为离群点,如果不大于所述尖锐度阈值,则为非离群点。
较佳地,所述步骤S15之后还包括:
S16:根据所述离群点判断所述时间序列数据中的噪声或有别于正常情形的特殊状态。
较佳地,所述步骤S16具体为:根据所述离群点判断数据预处理或设备故障诊断或信用欺诈检测或交通事件检测的时间序列数据中的的噪声或有别于正常情形的特殊状态。
相较于现有技术,本发明具有以下优点:
(1)本发明提供的基于尖锐度的时间序列数据的离群点检测方法,与现有的统计学方法相比,不需要大量的样本进行训练,尤其对于离群点样本较少时,统计学方法往往无法获得较好的效果或根本无法实施,但是本方法不受影响;
(2)本发明的基于尖锐度的时间序列数据的离群点检测方法,与现有的非统计学方法相比,简单方便,易于实施,实现成本低,本发明的方法可广泛应用于数据预处理、设备故障诊断、信用欺诈检测以及交通事件检测等方面。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
下面结合附图对本发明的实施方式作进一步说明:
图1为本发明的实施例的基于尖锐度的时间序列数据的离群点检测方法的流程图;
图2为本发明的实施例中待检测的时间序列数据的分布图;
图3为对图2的对时间序列数据进行平滑后得到的平滑曲线;
图4为本发明的实施例的计算尖锐度的原理示意图;
图5为对图2的时间序列数据进行离群点检测后得到的结果。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
结合图1~图5,对本发明的基于尖锐度的时间序列数据的离群点检测方法进行详细描述,其流程图如图1所示,包括以下步骤:
S11:获取待检测的时间序列数据;
S12:对时间序列数据进行平滑,得到所述时间序列数据的平滑曲线;可以采用均值平滑或拉普拉斯平滑等数据平滑算法进行平滑;
S13:计算平滑曲线上各点的尖锐度;
S14:由平滑曲线上各点的尖锐度均值得出尖锐度阈值;具体为:提取平滑曲线上的尖锐度不为零的点,并计算这些点的尖锐度均值,以此均值作为尖锐度阈值;
S15:利用尖锐度阈值判断时间序列数据中的各点是否为离群点;具体为:将平滑曲线上的各点的尖锐度与尖锐度阈值进行比较,如果大于尖锐度阈值,则记录下该点的序号,在时间序列数据中排在此序号上的点为离群点,如果不大于阈值,则为非离群点,不采取任何措施。
其中,步骤S13具体包括:
S131:对于平滑曲线上的每一点,首先确定当前点第k个点Sk为中心控制点,然后向前或向后各取m个点,一共获得2m+1个点组成该中心控制点的支撑区域;较佳地,m取值为[3,8]且为整数;
S132:由该中心控制点与支撑区域的两端点进行连线,分别得到两条支撑臂,两条支撑臂之间的夹角为支撑角γk
S133:得出该点的尖锐度为:jrdk=1-sin(γk/2)。
较佳实施例中,为了克服支撑角不好测量的问题,可以采用测量距离的方法来计算得出支撑角,具体为:假设|SkSk-m|=|SkSk+m|,于是有
sin ( γ k / 2 ) = | S k - m S k + m | / 2 | S k S k - m | = | S k - m S k + m | / 2 | S k S k + m | = | S k - m S k + m | | S k S k - m | + | S k S k + m | .
本发明的离群点检测方法可以应用于数据预处理、设备故障诊断、信用欺诈检测以及交通事件检测等领域。对应地,步骤S11中获得的时间序列数据可以为:时间序列的设备参数数据、时间序列的消费记录或时间序列的交通数据等。
较佳实施例中,在步骤S15之后还包括:S16:根据离群点判断时间序列数据中的噪声或有别于正常情形的特殊状态;其中,时间序列数据可以为时间序列的设备参数数据、时间序列的消费记录或时间序列的交通数据等。
下面以具体应用实例来对本发明进行详细描述,具体如下:
(1)获取某路段的一天24小时内采集的速度数据,其分布图如图2所示;
(2)采用均值平滑或拉普拉斯平滑等数据平滑算法对图2的速度数据进行平滑,得到平滑曲线,如图3所示,平滑曲线上的各点与原始速度数据上的各点存在一一对应关系;
(3)计算平滑曲线上各点的尖锐度
对于平滑曲线上的每一点,首先确定当前点Sk为当前中心控制点,然后向前或向后各取m个点,此处以各取4个点为例,一共获得9个点组成该中心控制点的支撑区域;由该中心控制点Sk与支撑区域的两端点Sk-m、Sk+m分别进行连线,分别得到两条支撑臂,两条支撑臂之间的夹角即为支撑角γk。如图4所示为其原理示意图,图4中***实线为轮廓线,黑点代表像素点,虚线为Sk、Sk-m、Sk+m三点拟合成的圆弧,N点为圆心,SkSk-m,SkSk+m为支撑臂,点Sk、Sk-m、Sk+m近似为一段圆弧上的三点,它们之间的间隔非常小,可以假设|SkSk-m|=|SkSk+m|,则有
sin ( &gamma; k / 2 ) = | S k - m S k + m | / 2 | S k S k - m | = | S k - m S k + m | / 2 | S k S k + m | = | S k - m S k + m | | S k S k - m | + | S k S k + m | , 0 < &gamma; k &le; 180
当三点处于同一直线上时,γk=180,此时有,
当γk趋近于0时,有,
尖锐度为:
jrd k = 1 - s i n ( &gamma; k / 2 ) = 1 - | S k - m S k + m | | S k S k - m | + | S k S k + m | ;
jrdk表示平滑曲线上第k个点支撑角的尖锐程度,其值越大,说明该角越尖锐,根据上式可计算出平滑曲线上各点的尖锐度jrdk
对于时间序列数据的前m个点和最后m个点,其尖锐度无法计算,可令其尖锐度为0。由于m的取值很小,这一处理不会影响本实施例的最终实施效果。
(4)计算尖锐度阈值
提取平滑曲线上的尖锐度不为零的点,并计算这些点的尖锐度均值,以此均值作为尖锐度阈值;
(5)根据尖锐度阈值判断原始速度数据中的各点是否为离群点
将平滑曲线上各点的尖锐度与尖锐度阈值进行比较,如果大于该阈值则记录下该点的序号,从而在原始数据中排在此序号上的点被判定为离群点。对于原始的速度数据进行离群点检测后得到的结果如图5所示,其中黑色点所表示的点为原始速度数据中的离群点。对于检测出的离群点可以用其支撑区域各数据的均值进行替代,从而达到剔除噪声数据及提高数据质量的效果。
此处公开的仅为本发明的优选实施例,本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化,均应落在本发明所保护的范围内。

Claims (10)

1.一种基于尖锐度的时间序列数据的离群点检测方法,其特征在于,包括以下步骤:
S11:获取待检测的时间序列数据;
S12:对所述时间序列数据进行平滑,得到所述时间序列数据的平滑曲线;
S13:计算所述平滑曲线上各点的尖锐度;
S14:由所述平滑曲线上各点的尖锐度计算尖锐度阈值;
S15:利用所述尖锐度阈值判断所述时间序列数据中的各点是否为离群点,如果该点的尖锐度大于所述尖锐度阈值,则判断为离群点。
2.根据权利要求1所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S12具体为:采用数据平滑算法对所述时间序列数据进行平滑,得到所述时间序列数据的平滑曲线。
3.根据权利要求1所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S13具体包括:
S131:对于所述平滑曲线上的每一点,首先确定当前点第k个点Sk为中心控制点,然后向前或向后各取m个点,一共获得2m+1个点组成该中心控制点的支撑区域;
S132:由该中心控制点与所述支撑区域的两端点进行连线,分别得到两条支撑臂,两条所述支撑臂之间的夹角为支撑角γk
S133:得出该点的尖锐度为:
jrdk=1-sin(γk/2)。
4.根据权利要求3所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S132中,所述支撑区域的两端点分别为Sk-m、Sk+m,所述中心控制点与所述支撑区域的两端点之间的间隔非常小,因此假设:|SkSk-m|=|SkSk+m|,则有:
s i n ( &gamma; k / 2 ) = | S k - m S k + m | / 2 | S k S k - m | = | S k - m S k + m | / 2 | S k S k + m | = | S k - m S k + m | | S k S k - m | + | S k S k + m | ;
则步骤S133中,该点的尖锐度为:
jrd k = 1 - s i n ( &gamma; k / 2 ) = 1 - | S k - m S k + m | | S k S k - m | + | S k S k + m | .
5.根据权利要求3所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,m∈[3,8],且为整数。
6.根据权利要求3至5任一项所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S14具体为:提取所述平滑曲线上的尖锐度不为零的点,并计算这些点的尖锐度均值,以此均值作为尖锐度阈值。
7.根据权利要求6所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S15具体为:将所述平滑曲线上的各点的尖锐度与所述尖锐度阈值进行比较,如果大于所述尖锐度阈值,则记录下该点的序号,在所述时间序列数据中排在此序号上的点为离群点,如果不大于所述尖锐度阈值,则为非离群点。
8.根据权利要求1所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S11具体为:获取待检测的时间序列数据为时间序列的设备参数数据、时间序列的消费记录或时间序列的交通数据。
9.根据权利要求1所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S15之后还包括:
S16:根据所述离群点判断所述时间序列数据中的噪声或有别于正常情形的特殊状态。
10.根据权利要求9所述的基于尖锐度的时间序列数据的离群点检测方法,其特征在于,所述步骤S16具体为:根据所述离群点判断数据预处理或设备故障诊断或信用欺诈检测或交通事件检测的时间序列数据中的的噪声或有别于正常情形的特殊状态。
CN201610623311.2A 2016-08-01 2016-08-01 一种基于尖锐度的时间序列数据的离群点检测方法 Pending CN106295683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610623311.2A CN106295683A (zh) 2016-08-01 2016-08-01 一种基于尖锐度的时间序列数据的离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610623311.2A CN106295683A (zh) 2016-08-01 2016-08-01 一种基于尖锐度的时间序列数据的离群点检测方法

Publications (1)

Publication Number Publication Date
CN106295683A true CN106295683A (zh) 2017-01-04

Family

ID=57664340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610623311.2A Pending CN106295683A (zh) 2016-08-01 2016-08-01 一种基于尖锐度的时间序列数据的离群点检测方法

Country Status (1)

Country Link
CN (1) CN106295683A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600965A (zh) * 2017-01-19 2017-04-26 上海理工大学 基于尖锐度的交通流早晚高峰时段自动识别方法
CN109116243A (zh) * 2018-06-29 2019-01-01 上海科列新能源技术有限公司 一种动力电池的异常检测方法和装置
CN109740175A (zh) * 2018-11-18 2019-05-10 浙江大学 一种面向风电机组功率曲线数据的离群点判别方法
CN113049251A (zh) * 2021-03-16 2021-06-29 哈工大机器人(合肥)国际创新研究院 一种基于噪声的轴承故障诊断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887586A (zh) * 2010-07-30 2010-11-17 上海交通大学 基于图像轮廓尖锐度的自适应角点检测方法
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
CN103700107A (zh) * 2013-12-26 2014-04-02 上海交通大学 一种基于图像尖锐度分布的特征点匹配方法
CN103778323A (zh) * 2014-01-03 2014-05-07 株洲南车时代电气股份有限公司 基于指数平滑的预测交通流数据的方法和***
CN104679970A (zh) * 2013-11-29 2015-06-03 高德软件有限公司 一种数据检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887586A (zh) * 2010-07-30 2010-11-17 上海交通大学 基于图像轮廓尖锐度的自适应角点检测方法
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
CN104679970A (zh) * 2013-11-29 2015-06-03 高德软件有限公司 一种数据检测方法及装置
CN103700107A (zh) * 2013-12-26 2014-04-02 上海交通大学 一种基于图像尖锐度分布的特征点匹配方法
CN103778323A (zh) * 2014-01-03 2014-05-07 株洲南车时代电气股份有限公司 基于指数平滑的预测交通流数据的方法和***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600965A (zh) * 2017-01-19 2017-04-26 上海理工大学 基于尖锐度的交通流早晚高峰时段自动识别方法
CN109116243A (zh) * 2018-06-29 2019-01-01 上海科列新能源技术有限公司 一种动力电池的异常检测方法和装置
CN109116243B (zh) * 2018-06-29 2021-03-02 上海科列新能源技术有限公司 一种动力电池的异常检测方法和装置
CN109740175A (zh) * 2018-11-18 2019-05-10 浙江大学 一种面向风电机组功率曲线数据的离群点判别方法
CN113049251A (zh) * 2021-03-16 2021-06-29 哈工大机器人(合肥)国际创新研究院 一种基于噪声的轴承故障诊断方法

Similar Documents

Publication Publication Date Title
CN106295683A (zh) 一种基于尖锐度的时间序列数据的离群点检测方法
CN103544296B (zh) 雷达距离扩展目标自适应智能融合检测方法
US20220006666A1 (en) Method and system for detecting and defending against abnormal traffic of in-vehicle network based on information entropy
CN103544498B (zh) 基于自适应抽样的视频内容检测方法与***
CN104283737B (zh) 数据流的处理方法和装置
US11513932B2 (en) Memory anomaly detection method and device
CN104538041A (zh) 异常声音检测方法及***
CN107911346B (zh) 一种基于极限学习机的入侵检测方法
CN105975504A (zh) 一种基于循环神经网络的社交网络消息爆发检测方法及***
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及***
CN105208040A (zh) 一种网络攻击检测方法及装置
CN107292302A (zh) 检测图片中兴趣点的方法和***
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN103927874A (zh) 基于欠抽样面向不平衡数据集的交通事件自动检测方法
CN104598914A (zh) 一种肤色检测的方法及装置
CN109859222A (zh) 基于级联神经网络的边缘提取方法及***
CN108830304A (zh) 一种基于支持向量机的图像识别***
CN106254864B (zh) 监控视频中的雪花和噪点噪声检测方法
CN109490776B (zh) 一种基于机器学习的手机振动马达良次品检测方法
CN112986922B (zh) 基于顺序统计滤波和二元检测的被动雷达信号检测方法
CN108376266A (zh) 基于样本边缘点内部点的单类支持向量机核参数优化方法
CN105183612B (zh) 服务器可用内存异常增长及运行状况的评估方法
CN111079744B (zh) 适用于复杂光照环境的车辆车牌智能识别方法及装置
CN107862866A (zh) 基于平均偏移量平移的数据噪音点检测方法
CN116298984A (zh) 一种锂离子电池容量跳水点和电池衰减程度识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication