CN106909793A - 检验服从近似正态分布的时间序列的异常的方法 - Google Patents

检验服从近似正态分布的时间序列的异常的方法 Download PDF

Info

Publication number
CN106909793A
CN106909793A CN201710122793.8A CN201710122793A CN106909793A CN 106909793 A CN106909793 A CN 106909793A CN 201710122793 A CN201710122793 A CN 201710122793A CN 106909793 A CN106909793 A CN 106909793A
Authority
CN
China
Prior art keywords
value
data
time series
exceptional value
exceptional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710122793.8A
Other languages
English (en)
Inventor
夏粟
夏一粟
刘红跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Beijing Hoze Data Technology Co Ltd
Original Assignee
Beijing Beijing Hoze Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Beijing Hoze Data Technology Co Ltd filed Critical Beijing Beijing Hoze Data Technology Co Ltd
Priority to CN201710122793.8A priority Critical patent/CN106909793A/zh
Publication of CN106909793A publication Critical patent/CN106909793A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种检验服从近似正态分布的时间序列的异常的方法,包括:步骤1,获取关键管理指标的按时间顺序排列的历史数据;步骤2,生成所述关键管理指标的正态概率图;步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4;步骤4,根据广义ESD统计检验时间序列是否存在异常值。通过本发明中的技术方案可科学地定义出异常模式,并实现异常模式的自动检测、及时发现异常,不需要管理者具有一定的管理经验,降低了对管理者的要求,可复制性好,增加了预测的科学性和合理性。

Description

检验服从近似正态分布的时间序列的异常的方法
技术领域
本发明涉及异常检测领域,特别涉及一种检验服从近似正态分布的时间序列的异常的方法。
背景技术
伴随着医院信息化建立的不断健全和完善,医院产生了大量的数据,该数据具有价值高,维度大等特点。正是由于数据的复杂性高,当医院某些指标发生异常时,难以发现,并且某些重要指标的异常检测对医院管理决策有着重要影响。因此如何及时有效地检测医院管理关键指标的异常模式,保证医院正常运行具有重要的意义。医院管理关键指标异常是指医院管理关键指标偏离其正常模式的情形。随着医院信息***的不断完善,数据量不断增加,医院重要管理关键指标异常对医院正常运行的影响越来越大。因而如何准确、快速地检测出指标异常,并做出合理的响应,是保证医院正常运行的前提条件之一。
医院管理关键指标(门诊量,住院量,手术量等)的异常模式检测技术有助于医院管理者及时发现医院相关指标的异常情况,及时查找问题发生的原因,解决问题,保证医院各项工作正常运转。目前医院现有的检测异常模式的方式,主要是医院管理者根据经验判断指标是否异常,这种异常检测方法存在很多问题,一是这种方式不能及时发现异常,往往是经过一段时间的数据汇总(如月报汇报时)管理者才发现异常,导致不能及时解决问题,时间滞后;二是这种检测异常模式的方法需要管理者具有一定的管理经验,对管理者的要求较高,可复制性差;还有就是由于管理者的经验的不同,导致检测出的异常模式更具有经验性、个人主观性,缺乏科学性、合理性。
发明内容
本发明提供了一种检验服从近似正态分布的时间序列的异常的方法,以解决现有技术中数据异常检测滞后性大、缺乏科学性和合理性的问题。
为解决上述问题,作为本发明的一个方面,提供了一种检验服从近似正态分布的时间序列的异常的方法,包括:步骤1,获取关键管理指标的按时间顺序排列的历史数据;步骤2,生成所述关键管理指标的正态概率图;步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4;步骤4,根据广义ESD统计检验时间序列是否存在异常值。
优选地,步骤2包括:步骤21,将每个关键管理指标的数据分别由小至大排列,并分别按1-n编号;步骤22,计算每个数据的分位数;步骤23,确定与每个分位数匹配的正态分布值;步骤24,根据上述每个数据的值及其对应的分位数的正态分布值生成散点图,其中,该散点图的X轴为所述正态分布值,Y值为所述数据的值;步骤25,采用一条直线拟合所述散点图中的数据点,生成正态概率图。
优选地,所述步骤3包括:计算所述散点图中的数据点与所述直线之间的相关系数,如果相关系数小于预定值,则认为存在异常值。
优选地,所述步骤4包括:步骤41,确定异常值的个数r或占比a;步骤42,计算步骤3中确定的每个异常值对应的统计量、以及该异常值在给定的显著水平下的临界值;步骤43,若该异常值的统计量大于临界值,则该异常值对应的数据是所述关键管理指标的异常值。
优选地,所述步骤42根据下式计算所述统计量:
其中,Ri为统计量,为样本均值,S为样本标准差,xi为时间序列中的数据值。
优选地,所述步骤42在显著性水平为α的条件下,根据下式计算所述临界值:
其中,λi为临界值,tp,n-i-1为自由度为n-i-1的t分布的100p百分位点,且其中,n为时间序列的长度,i为时间序列中的点的位置。
由于医院各指标为时间序列数据,即时间序列的自动异常检测技术,因此,通过本发明中的技术方案可科学地定义出异常模式,并实现异常模式的自动检测、及时发现异常,克服了现有技术中往往需要经过一段时间的数据汇总(如月报汇报时)后才能由管理者发现异常,导致不能及时解决问题现象。此外,本发明中的方法在检测异常模式时,不需要管理者具有一定的管理经验,降低了对管理者的要求,可复制性好,而且还能避免由于管理者经验的不同,导致检测出的异常模式带有很多经验性和个人主观性的问题,增加了预测的科学性和合理性。
附图说明
图1示意性地示出了本发明的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明提供了一种检验服从近似正态分布的时间序列的异常的方法,其不但适用于医院的门诊量、住院量、手术量,而且适用于如银行的交易额、交易量,交通领域的交通量,网络流量数据等。本发明中的所述方法包括:
步骤1,获取关键管理指标(以医院为例,如门诊量、住院量、手术量等)的按时间顺序排列的历史数据;
步骤2,生成所述关键管理指标的正态概率图;正态概率图可用于检查一组数据是否服从正态分布,是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。
步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4。根据正态概率图可初步判断是否存在异常值()这里说的潜在异常值甚至可以只是肉眼粗略的判断);如果有,那么进入到步骤4,精确的计算异常值,若没有,则不需要进入到步骤4。
步骤4,根据广义ESD统计检验时间序列是否存在异常值。
由于医院各指标为时间序列数据,即时间序列的自动异常检测技术,因此,通过本发明中的技术方案可科学地定义出异常模式,并实现异常模式的自动检测、及时发现异常,克服了现有技术中往往需要经过一段时间的数据汇总(如月报汇报时)后才能由管理者发现异常,导致不能及时解决问题现象。此外,本发明中的方法在检测异常模式时,不需要管理者具有一定的管理经验,降低了对管理者的要求,可复制性好,而且还能避免由于管理者经验的不同,导致检测出的异常模式带有很多经验性和个人主观性的问题,增加了预测的科学性和合理性。
优选地,步骤2包括:
步骤21,将每个关键管理指标的数据分别由小至大排列,并分别按1-n编号。以医院为例,本发明中检测异常的过程都是针对一个医院管理的关键指标而言的。医院管理会包含多个指标,所有指标检测异常的方法和步骤都是相同的,这里从小到大排序是对一个关键指标数据,比如医院住院量数据,按照住院量的大小从小到大排序,原始的数据是按时间排序的。
步骤22,计算每个数据的分位数。若i是排序后的序号,n是数据长度,则:分位数=(i-0.5)/n。
步骤23,确定与每个分位数匹配的正态分布值。
例如,可将原始数据、分位数及对应的正态分布值记到如下的表格里:
步骤24,根据上述每个数据的值及其对应的分位数的正态分布值生成散点图,其中,该散点图的X轴为所述正态分布值,Y值为所述数据的值。
步骤25,采用一条直线拟合所述散点图中的数据点,生成正态概率图。
优选地,所述步骤3包括:计算所述散点图中的数据点与所述直线之间的相关系数,如果相关系数小于预定值,则认为存在异常值。其中,相关系数是描述两个变量线性相关程度的统计量,此处为原始数据和正态分布值的相关系数,相关系数很高,说明二者存在明显的线性关系,拟合直线具有显著性。
优选地,所述步骤4包括:
步骤41,确定异常值的个数r或占比a。占比和个数都是基于步骤3中初步判断出的异常值,本步骤的目的是得到大概存在多少个异常值,或是原指标数据中有百分之多少为异常值。优选地,确定异常值的个数r或占比a的方法为观察正态概率图,根据偏离直线的点的个数确定。
步骤42,计算步骤3中确定的每个异常值对应的统计量、以及该异常值在给定的显著水平下的临界值。在初步判断了有异常值、异常值的大概个数或是占比,就开始精确的根据ESD统计量检测,检测的方法是一个一个的检测,先检测最异常的点,然后剃掉最异常的点再检验,直到检测到r个或达到占比。
步骤43,若该异常值的统计量大于临界值,则该异常值对应的数据是所述关键管理指标的异常值。
优选地,所述步骤42根据下式计算所述统计量:
其中,Ri为统计量,为样本均值,S为样本标准差,xi为时间序列中的数据值。
上式中,的值越大,说明xi相差越大,该数据点是管理关键关键指标的异常值的可能性也越大。
例如,我们可首先删除使最大的xi,然后重新计算余下的n-1个数据的Ri,再移除相应的xi。重复这个过程,一直到移除了r个满足条件的数据(此时,该数据集中,可能是医院管理关键关键指标的异常值的r个数据被删除),形成r个检测统计量R1,R2,,Rr
优选地,所述步骤42在显著性水平为α(置信度为1-α)的条件下,根据下式计算所述临界值:
其中,λi为临界值,tp,n-i-1为自由度为n-i-1的t分布的100p百分位点,且其中,n为时间序列的长度,i为时间序列中的点的位置。
假设:
H0:没有医院管理关键关键指标的异常值
H1:最多有r个医院管理关键关键指标的异常值
其中,t的密度函数为
假设H0成立,则有则有P(t≤λi)=p,则上述检验的拒绝域为(λi,+∞),即当Rii时,对应的数据是管理关键关键指标的异常值。
因此,找出使Rii得最大的i,就是我们检验的数据集中存在i个医院管理关键关键指标的异常值。
本发明可以帮助管理者自动检测管理关键指标的异常模式,对管理者的管理经验要求不高,检测出更加科学的异常模式,且具有即时性,随时检测异常。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种检验服从近似正态分布的时间序列的异常的方法,其特征在于,包括:
步骤1,获取关键管理指标的按时间顺序排列的历史数据;
步骤2,生成所述关键管理指标的正态概率图;
步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4;
步骤4,根据广义ESD统计检验时间序列是否存在异常值。
2.根据权利要求1所述的方法,其特征在于,步骤2包括:
步骤21,将每个关键管理指标的数据分别由小至大排列,并分别按1-n编号;
步骤22,计算每个数据的分位数;
步骤23,确定与每个分位数匹配的正态分布值;
步骤24,根据上述每个数据的值及其对应的分位数的正态分布值生成散点图,其中,该散点图的X轴为所述正态分布值,Y值为所述数据的值;
步骤25,采用一条直线拟合所述散点图中的数据点,生成正态概率图。
3.根据权利要求2所述的方法,其特征在于,所述步骤3包括:
计算所述散点图中的数据点与所述直线之间的相关系数,如果相关系数小于预定值,则认为存在异常值。
4.根据权利要求2所述的方法,其特征在于,所述步骤4包括:
步骤41,确定异常值的个数r或占比a;
步骤42,计算步骤3中确定的每个异常值对应的统计量、以及该异常值在给定的显著水平下的临界值;
步骤43,若该异常值的统计量大于临界值,则该异常值对应的数据是所述关键管理指标的异常值。
5.根据权利要求4所述的方法,其特征在于,所述步骤42根据下式计算所述统计量:
R i = m a x | x i - x ‾ | S
其中,Ri为统计量,为样本均值,S为样本标准差,xi为时间序列中的数据值。
6.根据权利要求4所述的方法,其特征在于,所述步骤42在显著性水平为α的条件下,根据下式计算所述临界值:
λ i = ( n - i ) t p , n - i - 1 ( n - i - 1 + t p , n - i - 1 2 ) ( n - i + 1 )
其中,λi为临界值,tp,n-i-1为自由度为n-i-1的t分布的100p百分位点,且其中,n为时间序列的长度,i为时间序列中的点的位置。
CN201710122793.8A 2017-03-03 2017-03-03 检验服从近似正态分布的时间序列的异常的方法 Pending CN106909793A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710122793.8A CN106909793A (zh) 2017-03-03 2017-03-03 检验服从近似正态分布的时间序列的异常的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710122793.8A CN106909793A (zh) 2017-03-03 2017-03-03 检验服从近似正态分布的时间序列的异常的方法

Publications (1)

Publication Number Publication Date
CN106909793A true CN106909793A (zh) 2017-06-30

Family

ID=59186366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710122793.8A Pending CN106909793A (zh) 2017-03-03 2017-03-03 检验服从近似正态分布的时间序列的异常的方法

Country Status (1)

Country Link
CN (1) CN106909793A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320810A (zh) * 2018-04-11 2018-07-24 平安科技(深圳)有限公司 疾病异常数据检测方法及装置、计算机装置及存储介质
CN108733812A (zh) * 2018-05-21 2018-11-02 华东师范大学 基于全局信息的时间序列数据中异常数据点的识别方法
CN111275466A (zh) * 2018-12-04 2020-06-12 北京京东尚科信息技术有限公司 一种超期单量预警的方法和装置
CN111275570A (zh) * 2020-01-13 2020-06-12 浙江大学 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN111859302A (zh) * 2020-07-28 2020-10-30 上海积成能源科技有限公司 一种居民用电安全分析中应用广义极致学生检验算法发现异常数据的方法
CN112152834A (zh) * 2019-06-29 2020-12-29 北京金山云网络技术有限公司 一种网络异常报警方法、装置及电子设备
CN114844798A (zh) * 2022-07-04 2022-08-02 海马云(天津)信息技术有限公司 云应用服务异常检测方法与装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320810A (zh) * 2018-04-11 2018-07-24 平安科技(深圳)有限公司 疾病异常数据检测方法及装置、计算机装置及存储介质
CN108733812A (zh) * 2018-05-21 2018-11-02 华东师范大学 基于全局信息的时间序列数据中异常数据点的识别方法
CN108733812B (zh) * 2018-05-21 2021-09-14 华东师范大学 基于全局信息的时间序列数据中异常数据点的识别方法
CN111275466A (zh) * 2018-12-04 2020-06-12 北京京东尚科信息技术有限公司 一种超期单量预警的方法和装置
CN111275466B (zh) * 2018-12-04 2023-12-05 北京京东振世信息技术有限公司 一种超期单量预警的方法和装置
CN112152834A (zh) * 2019-06-29 2020-12-29 北京金山云网络技术有限公司 一种网络异常报警方法、装置及电子设备
CN112152834B (zh) * 2019-06-29 2023-06-06 北京金山云网络技术有限公司 一种网络异常报警方法、装置及电子设备
CN111275570A (zh) * 2020-01-13 2020-06-12 浙江大学 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN111859302A (zh) * 2020-07-28 2020-10-30 上海积成能源科技有限公司 一种居民用电安全分析中应用广义极致学生检验算法发现异常数据的方法
CN114844798A (zh) * 2022-07-04 2022-08-02 海马云(天津)信息技术有限公司 云应用服务异常检测方法与装置

Similar Documents

Publication Publication Date Title
CN106909793A (zh) 检验服从近似正态分布的时间序列的异常的方法
CN107463633A (zh) 一种基于eemd‑神经网络的实时数据异常值检测方法
CN106093612A (zh) 一种电力变压器故障诊断方法
CN110333414A (zh) 电力变压器多层次状态评估方法
CN104035431B (zh) 用于非线性过程监控的核函数参数的获取方法和***
CN104677997B (zh) 一种变压器油色谱在线监测差异化预警方法
CN104091035A (zh) 一种基于数据驱动算法的空间站有效载荷健康监测方法
CN104679655B (zh) 基于参数相关性的软件***状态评估方法
CN108508865A (zh) 一种基于分散式osc-pls回归模型的故障检测方法
CN108022058A (zh) 一种风力机状态可靠性评估方法
CN103279640A (zh) 基于粗糙集理论和可靠性预计的星载电子***fmeca方法
Al-Nasser et al. Developing single-acceptance sampling plans based on a truncated lifetime test for an Ishita distribution
CN106408436A (zh) 一种晶圆制造企业电压暂降损失风险模糊综合评价方法
CN104715027B (zh) 一种分布数据异动判断定位方法及***
CN111813644A (zh) ***性能的评价方法、装置、电子设备和计算机可读介质
Zhang et al. Real-time burst detection based on multiple features of pressure data
CN107038665A (zh) 一种输出录取概率的方法、推荐志愿高校的方法及装置
CN110210531A (zh) 基于扩展随机流网的模糊多态制造***任务可靠性评估方法
CN115114124A (zh) 主机风险的评估方法及评估装置
CN108830444A (zh) 一种探空观测数据的评估和修正方法及装置
Vincent et al. Investment styles and the multiple testing of cross-sectional stock return predictability
CN116346405A (zh) 基于数据统计的网络安全运维能力评估***及方法
CN105512801A (zh) 一种输电设备状态评估方法
CN114048592A (zh) 一种精轧全流程分布式运行性能评估及非优原因追溯方法
Scagliarini et al. Monitoring operating room turnaround time: a retrospective analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170630

RJ01 Rejection of invention patent application after publication