CN117725477A - 异常预测方法、装置、电子设备及存储介质 - Google Patents
异常预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117725477A CN117725477A CN202311681217.9A CN202311681217A CN117725477A CN 117725477 A CN117725477 A CN 117725477A CN 202311681217 A CN202311681217 A CN 202311681217A CN 117725477 A CN117725477 A CN 117725477A
- Authority
- CN
- China
- Prior art keywords
- value
- score
- calculating
- abnormal
- abnormal value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000005856 abnormality Effects 0.000 title claims description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 102
- 238000012360 testing method Methods 0.000 claims abstract description 73
- 230000001186 cumulative effect Effects 0.000 claims description 15
- 238000012417 linear regression Methods 0.000 claims description 15
- 238000005315 distribution function Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 20
- 230000007774 longterm Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请提供一种异常预测方法、装置、电子设备及存储介质,涉及计算机技术领域,解决了异常检测中,常规基于异常预测的模型,长期预测值的置信区间宽,短期预测准确性方差大,导致的预测模型准确性低和通用性差的问题。该方法包括:计算数据样本点异常值分数;异常值分数与数据样本点异常可能性成正比;设置异常值阈值;异常值阈值用于计算异常值分数的预警阈值,异常值分数的预警阈值小于异常值分数的报警阈值;在数据样本点异常值分数小于异常值分数的报警阈值的情况下,计算第一预设值个时间步的数据样本点的异常值分数;根据第一预设值个时间步的数据样本点的异常值分数进行趋势假设检验;根据趋势假设检验结果获取异常结果。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种异常预测方法、装置、电子设备及存储介质。
背景技术
目前,在异常检测方面,常采用的方案是优先计算出数据样本的异常数值,进而基于对异常数值的分析结果而进行报警或预警。在异常检测中的预警部分,则通常使用近期历史数据训练时序分析模型或者机器学习模型,对未来数据进行预测以实现预警,上述基于预测的模型,随着预测期数的增加,预测值的置信区间往往愈发增宽,在某种可能的情况下,预测值最终将会恒等于输入历史数据的均值。另外在具有不同性质的数据集上,短期预测的准确性也往往具有较大的方差。因此,需要技术人员对不同的数据集验证不同的模型,预测方法的准确性和通用性较差。
因此,亟需一种新的技术手段解决上述问题。
发明内容
本申请提供了一种异常预测方法、装置、电子设备及存储介质,解决了使用近期历史数据训练时序分析模型或者机器学习模型,预测值的置信区间往往愈发增宽,短期预测的准确性也往往具有较大的方差,需要技术人员对不同的数据集验证不同的模型,预测准确性和通用性差的问题。
第一方面,本申请提供一种异常预测方法,方法包括:
计算数据样本点异常值分数;异常值分数与数据样本点异常可能性成正比;设置异常值阈值;异常值阈值用于计算异常值分数的预警阈值,异常值分数的预警阈值小于异常值分数的报警阈值;在数据样本点异常值分数小于异常值分数的报警阈值的情况下,计算预设值个时间步的数据样本点的异常值分数;根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验;根据趋势假设检验结果确定异常状态。
在一种可能的实施方式中,根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验包括:将异常值分数数据分为长度相等的两部分,计算差分数据对;根据差分数据对计算检验统计量;在异常值分数无增长趋势的情况下,检验统计量服从二项分布b(n/2,0.5),差分数据对大于零;基于二项分布的累积分布函数计算检验显著性水平值;根据检验显著性水平值与预设检验显著性水平值比较确定异常值分数的趋势。
在一种可能的实施方式中,根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验包括:基于一元线性回归根据异常值分数计算斜率;一元线性回归以时间作为自变量;计算异常值分数的标准差估值;基于异常值分数的标准差估值计算斜率值的标准差;基于斜率值的标准差计算斜率的T值;基于正态分布计算斜率的显著性水平数值;斜率为零的情况下,T值近似服从自由度为n-2的t分布,Cdf为t分布的的累积分布函数;根据斜率的显著性水平数值与预设检验显著性水平值比较确定异常值分数的趋势;斜率大于零。
在一种可能的实施方式中,方法还包括:
在数据样本点异常值分数大于或等于异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
第二方面,本申请提供一种异常预测装置,包括:计算单元、设置单元、检验单元、确定单元;计算单元,用于计算数据样本点异常值分数;还用于计算预设值个时间步的数据样本点的异常值分数;设置单元,用于设置异常值阈值;检验单元,用于根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验;确定单元,用于根据趋势假设检验结果确定异常状态。
在一种可能的实施方式中,计算单元,用于将异常值分数数据分为长度相等的两部分,计算差分数据对;还用于根据差分数据对计算检验统计量;具体用于基于二项分布的累积分布函数计算检验显著性水平值;确定单元,用于根据检验显著性水平值与预设检验显著性水平值比较确定异常值分数的趋势。
在一种可能的实施方式中,计算单元,用于基于一元线性回归根据异常值分数计算斜率;还用于计算异常值分数的标准差估值;也用于基于异常值分数的标准差估值计算斜率值的标准差;具体用于基于斜率值的标准差计算斜率的T值;还具体用于基于正态分布计算斜率的显著性水平数值;确定单元,还用于根据斜率的显著性水平数值与预设检验显著性水平值比较确定异常值分数的趋势。
在一种可能的实施方式中,检验单元,用于在数据样本点异常值分数大于或等于异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
第三方面,提供了一种电子设备,包括:处理器以及存储器;其中,存储器用于存储一个或多个程序,一个或多个程序包括计算机执行指令,当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如第一方面的一种异常预测方法。
第四方面,提供了一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,上述指令当被计算机执行时使计算机执行如第一方面的一种异常预测方法。
需要说明的是,第二方面至第四方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果,此处不再赘述。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
本申请提供了一种异常预测方法、装置、设备及存储介质,应用于异常检测的场景中,用于提高异常检测中预测的准确性和通用性。首先计算数据样本点异常值分数;进一步的,设置异常值阈值;从而在数据样本点异常值分数小于异常值分数的报警阈值的情况下,计算预设值个时间步的数据样本点的异常值分数;以根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验。最终根据趋势假设检验结果确定异常状态。通过上述方法,以实现具有更好准确性和通用性的异常预测的效果。
附图说明
图1为本申请的实施例提供的一种电子设备结构示意图;
图2为本申请的实施例提供的一种异常预测方法流程示意图;
图3为本申请的实施例提供具体的一种异常预测方法流程示意图;
图4为本申请的实施例提供具体的又一种异常预测方法流程示意图;
图5为本申请的实施例提供的一种异常预测装置结构示意图。
具体实施方式
下面结合附图对本申请实施例提供的一种异常预测的方法及装置进行详细地描述。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
在异常检测中,首先需要计算出数据样本点的异常值分数,以此为基础进行后续的报警和预警分析。一般而言,在预警方面,会采用时序分析模型(如ARIMA模型)或者机器学习模型(如LSTM模型)对未来数据进行预测。由于存在噪音等因素的影响,随着时间推移,预测值会逐渐远离真实值,最终将会恒等于输入历史数据的均值,因此预警的有效性取决于最近的历史数据的质量和数量。此外,在具有不同性质的数据集上,短期预测的准确性也具有较大的方差,无法做到完全一致的精度,因此需要技术人员针对不同数据集验证不同的模型,预测模型通用性较差。
有鉴于此,本申请实施例提供一种异常预测方法,在该方法中,对异常值分数根据Cox-Stuart非参数趋势检验和一元线性回归模型对原假设进行双重验证,以实现具有更好准确性和通用性的异常预测的效果。如图2所示,为本申请实施例提供的一种异常预测方法,该异常预测方法包括步骤:S201-S205。
S201、计算数据样本点异常值分数。
需要说明的是,异常值分数与数据样本点异常可能性成正比,在异常检测中,数据可以指用来进行分析的一组观察值或记录,上述观察值或记录可以代表一组实体的特征,示例性的如,客户的购买行为、网站的访问记录、机器的工作状态等等。数据样本点则是指从整个数据集中抽取出来的单个观测值或记录,可以理解的是,每个样本点都包含一组特定的特征值,特征值用于描述对应的实体或者事件。示例性的如,在客户购买行为的数据集中,一个样本点可能包括客户ID、购买的商品种类以及购买的数量等特征。还例如,在车辆领域,数据样本点可以包括车辆的各种传感器读数,如速度、转速、温度、压力等、车辆的位置和行驶路径、驾驶员的操作行为等等。针对这些数据样本点,可以通过构建预测模型来预估车辆的正常运行状态,并与实际测量值进行对比,从而发现潜在可能发生的异常状况。如某个传感器的读数持续超出预设范围,或者车辆的位置突然发生大幅度变化,可以判断存在异常情况。通过对多个数据样本点进行分析,可以了解数据的整体趋势和模式,并从中发现异常的情况。计算数据样本点的异常值分数通常是为了评估该样本点是否属于异常情况。异常值分数越高,表示该样本点越有可能是异常值;反之则表明该样本点更接近于正常情况。
常见的异常值分数计算方法有基于统计的方法和基于机器学习的方法。基于统计的方法一般使用统计量(如均值、方差、偏度、峰度等)来衡量数据分布情况,并通过比较样本点与整体数据分布的关系来判断其是否为异常值。基于机器学习的方法则通常采用聚类算法或者深度学习网络等方式对数据进行建模,并根据模型的预测结果来确定样本点的异常值分数。
S202、设置异常值阈值。
可以理解的是,在异常检测中,需要预先定义好阈值以区分正常情况和异常情况。当样本点的异常值分数超过这个阈值时,就可以认为它是一个异常值。设置异常值阈值是重要的步骤,异常值阈值直接决定哪些样本点会被识别为异常情况。一般的,异常值阈值可以根据实际情况灵活调整设置,以保证用于异常检测的模型能够有效地捕捉到真正值得关注的异常现象。进一步的,可以在一个完整的异常检测***中,同时设置多个不同的阈值,以便应对不同级别的异常状况。其中,预警阈值是用来发现轻微的异常情况,而报警阈值则是用来识别严重的异常情况。当一个样本点的异常值分数超过预警阈值但未达到报警阈值时,可以认为该样本点处于轻微异常状态,需要密切关注其发展动态。在本申请的一种可能的实施方式中,可以设置异常值分数的报警阈值的90%作为异常值分数的预警阈值。需要注意的是,无论是预警阈值还是报警阈值,都应该经过充分的测试和验证,以确保它们能够准确地反映出实际中的异常情况。
S203、在数据样本点异常值分数小于异常值分数的报警阈值的情况下,计算预设值个时间步的数据样本点的异常值分数。
在异常检测中,时间步是一个常用的概念,其含义是在连续的时间序列数据上划分出一系列等间隔的小时间段,每一个这样的时间段就被称为一个时间步。在异常检测过程中,可以按照一定的时间步长来切分数据,以把整个连续的时间序列分成一个个独立的数据样本点,然后根据这些样本点去训练和验证我们的异常检测模型。预设值个时间步,即我们要连续监测多长时间的数据,具体数值可以根据实际情况设定预设值。本步骤的优点是可以充分利用历史数据,对***的长期发展趋势做出更好的预测。此外,在实时监控***的过程中,也可以通过设定适当的时间步长来控制***的响应速度和精确度,以便及时发现潜在的风险和故障,提高检测的可靠性。合理选择时间步的长度对于异常检测的效果有着重要的影响。在本步骤中,在数据样本点的异常值分数低于报警阈值的情况下,连续监测一段时间内的数据样本点,并统计该段时间内数据样本点的异常值分数。
通过本步骤,可以在发现潜在的异常隐患,并及时采取措施避免可能发生的损失。同时也可以跟踪一段时间内数据的变化趋势,更好地理解***的运行状态并作出合理的决策。
S204、根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验。
在异常检测中,进行趋势假设检验,可以有助于判断当前的趋势是否有显著的变化,进而判断是否存在异常情况。具体的步骤可以是:在指定的时间范围内收集数据样本点的异常值分数,将其按照时间顺序排列起来。
选择一种合适的趋势假设检验方法,可以是ARIMA模型、自回归移动平均模型、线性回归模型等,来拟合这些数据样本点的趋势。根据所选择的模型,计算出当前数据样本点的预测值和真实值之间的误差。利用统计学原理计算出这个误差的概率分布,观察其是否落在正常的范围内。当概率分布非常偏离正常的范围,可以认为存在异常情况。在本申请中的一种可能的实现方式中,使用Cox-Stuart非参数趋势检和线性回归模型协同对异常进行预测,通过本步骤,可以发现异常情况的存在。
S205、根据趋势假设检验结果确定异常状态。
首先假设异常值分数无增长趋势,根据步骤S204的趋势检验模型计算以确定结果,将得到的结果与假设进行比较,可以确定异常状态。具体地,若使用的两个假设检验都否定了异常值分数无增长趋势,即可以认为异常值分数具有增长趋势,那么此时异常检测模型应该进入预警状态。可以理解的是,预警状态意味着我们需要密切注意***的运行状态,并尽快采取适当的措施来防止可能出现的严重问题。可能是由于某些因素导致***的异常值分数持续增加,若不加以干预,可能导致***的运行出现问题甚至崩溃。在此阶段,我们可以采取一些临时性的缓解措施,如减少负载、加强监控、及时排查故障等。
需要注意的是,虽然两种假设检验都拒绝了原假设,但是它们的结果并不完全一致,在实际应用中可能需要结合其他信息来进行综合判断。在本申请中,若使用的两种假设都拒绝了异常值分数无增长趋势,则判定为异常值分数有增长趋势,此时异常检测进入预警状态。
在一种可能的实施方式中,如图3所示的具体的一种异常预测方法,步骤S204可以包括:S204A1-S204A4。
S204A1、将异常值分数数据分为长度相等的两部分,计算差分数据对。
首先设Xt,t∈{1,2,...,n}是计算出的异常值分数序列,进行Cox-Stuart非参数趋势检验,计算差分数据对Dt,Dt=Xt-X(t+n/2),可以识别出短期趋势变化,目的是为了减少噪声的影响,使得异常检测更加有效。具体地,将异常值分数数据Xt分成长度相等的两部分:X1,X2,...,X(n/2)和X(n/2+1),X(n/2+2),...,Xn,然后依次进行差分,得到差分数据对Dt=Xt-X(t+n/2),其中t∈{1,2,...,n}。通过本步骤,可以消除短期波动带来的影响,并且可以更快地发现异常情况。因为当某个时段内的数据发生了明显的变化,那么差分后的数据也会表现出明显的差异。相反,如果数据没有发生变化或者变化较小,则差分后的数据也会保持稳定。本步骤利用差分数据对来进行相关的假设检验或模型拟合等操作,以进一步分析数据的趋势和特征,从而后续识别出潜在的异常情况。
S204A2、根据差分数据对计算检验统计量。
在异常值分数无增长趋势的情况下,检验统计量服从二项分布差分数据对大于零。
检验统计量其中,T是一个二元变量的总和,在异常值分数无增长趋势成立时,该检验统计量T服从二项分布/>
需要说明的是,二项分布B(n,p)是一种离散概率分布,其中n表示试验次数,p表示成功的概率。本步骤中,成功概率p=0.5,即表示每次试验都有50%的可能性取得正结果。由此,可以根据已知的n和p来求得二项分布/>的累积概率密度函数p(X≤T)。
S204A3、基于二项分布的累积分布函数计算检验显著性水平值。
计算检验的p值,其中,Bin为二项分布的累积分布函数。在Cox-Stuart非参数趋势检验中,计算检验的p值,它是检验统计量T所处的二项分布累积概率密度函数p(X≤T),其中/>是检验统计量T所依据的二项分布。
S204A4、根据检验显著性水平值与预设检验显著性水平值比较确定异常值分数的趋势。
根据步骤S204A3确定的斜率的显著性水平数值与预设检验显著性水平值比较进行比较,在一种可能的实施方式中,假设异常值分数无增长趋势,假设检验的显著性水平设置为0.05,当p值小于0.05时,可以判定异常值分数具有增长趋势。
由此,可以比较检验的p值与的显著水平值来判断原假设是否成立。如果p值大于预设检验显著性水平值,则接受原假设;反之则否定原假设,即认为异常值分数存在增长趋势。
在一种可能的实施方式中,如图4所示的具体的又一种异常预测方法,步骤S204还可以包括:S204B1-S204B6。
S204B1、基于一元线性回归根据异常值分数计算斜率;一元线性回归以时间作为自变量。
在本步骤中,使用时间作为自变量来研究数据的变化趋势。通过使用一元线性回归模型,可以预估数据变化的趋势,并通过比较观测到的数据与预期的趋势来识别潜在的异常。首先进行数据预处理,清洗数据,确保时间序列是完整的并且没有缺失值。进而定义因变量和自变量,在本步骤中,因变量可以是异常分数数据,自变量可以是时间。建立一元线性回归模型,该模型会基于时间变量和目标变量之间的关系来拟合一条直线,得到斜率β1
S204B2、计算异常值分数的标准差估值。
具体地,其中rss表示残差平方和。标准差估值/>是实现异常检测的重要工具之一。标准差是衡量一组数值分散程度的一个指标,/>表示总体标准差的估值,可以通过计算rss(残差平方和)除以n-2再开方得到。在这里,rss是指所有观测值减去均值后的平方之和,n是异常值分数样本的数量。
S204B3、基于异常值分数的标准差估值计算斜率值的标准差。
具体地,
其中,Xt表示某个时间t上的观测值,表示整个时间段内所有观测值的平均值。/>表示异常值分数的标准差估值,表示整体的变异程度。标准差(standard deviation,STD)经常被用作一个重要的统计工具。具体地,在基于统计的异常检测中,我们可以先计算整个数据集的平均值和标准差,然后定义一个“正态”区域,即距离平均值三个标准差之内的所有数据。进而,任何超出此范围的数据点都可以被认为是潜在的异常值。使用标准差的优点是简单直观,易于实施。本步骤通过计算所有观测值的平均值/>即将所有观测值相加并除以观测数量。进而计算残差,即每一个观测值减去平均值/>再计算所有残差的平方和,并除以观测数量n-2,以得出残差平方和的无偏估计rss。计算样本标准差/>即残差平方和rss除以n-2的平方根。最终,计算斜率的标准差std,即样本标准差/>除以rss的平方根。计算过程本质上是对斜率变化程度的量化,以能识别出显著不同于正常趋势的观测值。可以理解的是,异常值分数可能会导致斜率的标准差增大,因此如果一个观测值对应的斜率标准差超出了合理的阈值范围,我们可以怀疑它是一个异常值。本步骤有助于我们评估数据变化的程度以及可能存在的异常。
S204B4、基于斜率值的标准差计算斜率的T值。
具体地,
S204B5、基于正态分布计算斜率的显著性水平数值。
斜率为零的情况下,T值近似服从自由度为n-2的t分布,Cdf为t分布的累积分布函数。需要说明的是,当使用一元线性回归模型并且斜率为零的情况下,T值会近似服从自由度为n-2的t分布。此时残差项的方差不再是固定的常数,而是服从t分布,因此T值也要服从t分布。p表示统计量p的值,可以用来判断异常得分的大小是否超过正常范围。其中Cdf为t分布的累积分布函数,它返回指定值在t分布中的累计概率。具体地,p=2*(1-Cdf(|T|,n-2)),其中|T|是绝对值的T值,Cdf(|T|,n-2)是绝对值的T值在自由度为n-2的t分布中的累积概率。
S204B6、根据斜率的显著性水平数值与预设检验显著性水平值比较确定异常值分数的趋势。
根据步骤S204B5确定的斜率的显著性水平数值与预设检验显著性水平值比较进行比较,在一种可能的实施方式中,假设异常值分数无增长趋势,假设检验的显著性水平设置为0.05,当p值小于0.05且β1>0时,可以判定异常值分数具有增长趋势。
S301、在数据样本点异常值分数大于或等于异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
可以根据实际应用情况,设置相对较高的报警阈值,以避免误报的情况出现。可选的,当异常检测***发出异常报警后,可以根据实际需要采取相应措施,如减小***负荷、重新检查设备状态、修改参数配置等。同时,也需要仔细分析异常的原因,并寻求更深层次的解决方案,以防止类似的问题再次发生。
图5为本申请实施例提供的一种异常预测装置的结构示意图。如图5所示异常预测装置500用于提高异常预测的准确性和通用性,例如用于执行图2所示的一种异常预测方法。该异常预测装置500包括:计算单元501、设置单元502、检验单元503、确定单元504。计算单元501,用于计算数据样本点异常值分数;还用于计算预设值个时间步的数据样本点的异常值分数;设置单元502,用于设置异常值阈值;检验单元503,用于根据预设值个时间步的数据样本点的异常值分数进行趋势假设检验;确定单元504,用于根据趋势假设检验结果确定异常状态。
在一种可能的实现方式中,计算单元501,用于将异常值分数数据分为长度相等的两部分,计算差分数据对;还用于根据差分数据对计算检验统计量;具体用于基于二项分布的累积分布函数计算检验显著性水平值;确定单元504,用于根据检验显著性水平值与预设检验显著性水平值比较确定异常值分数的趋势。
在一种可能的实现方式中,计算单元501,用于基于一元线性回归根据异常值分数计算斜率;还用于计算异常值分数的标准差估值;也用于基于异常值分数的标准差估值计算斜率值的标准差;具体用于基于斜率值的标准差计算斜率的T值;还具体用于基于正态分布计算斜率的显著性水平数值;确定单元504,还用于根据斜率的显著性水平数值与预设检验显著性水平值比较确定异常值分数的趋势。
在一种可能的实现方式中,检验单元503,用于在数据样本点异常值分数大于或等于异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
在采用硬件的形式实现上述集成的模块的功能的情况下,本申请实施例提供了上述实施例中所涉及的电子设备的一种可能的结构示意图。如图1所示,一种电子设备100,用于解决异常预测准确性和通用性较差的问题。例如用于执行图2所示的一种异常预测方法。该电子设备100包括处理器101,存储器102以及总线103。处理器101与存储器102之间可以通过总线103连接。处理器101是通信装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器101可以是一个通用中央处理单元(central processingunit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器101可以包括一个或多个CPU,例如图1中所示的CPU0和CPU1。存储器102可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(rand om access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable rea d-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
作为一种可能的实现方式,存储器102可以独立于处理器101存在,存储器102可以通过总线103与处理器101相连接,用于存储指令或者程序代码。处理器101调用并执行存储器102中存储的指令或程序代码时,能够实现本申请实施例提供的一种异常预测方法。
另一种可能的实现方式中,存储器102也可以和处理器101集成在一起。总线103,可以是工业标准体系结构(industry standard architecture,ISA)总线、***设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extendedindustry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图1示出的结构并不构成对该电子设备100的限定。除图1所示部件之外,该电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
作为一个示例,结合图5,异常预测装置500中实现的功能与图1中的处理器101的功能相同。
可选的,如图1所示,本申请实施例提供的电子设备100还可以包括通信接口104。通信接口104,用于与其他设备通过通信网络连接。该通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLA N)等。通信接口104可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
在一种可能的实现方式中,本申请实施例提供的电子设备中,通信接口还可以集成在处理器中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元的划分进行举例说明。在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述方法实施例所示的方法流程中的各个步骤。
本申请的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行上述方法实施例中的一种异常预测方法。其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦式可编程只读存储器(erasable prog rammableread only memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(compactdisc read-only memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任一合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(application specific integrated circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。由于本申请的实施例中的电子设备、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种异常预测方法,其特征在于,所述方法包括:
计算数据样本点异常值分数;所述异常值分数与所述数据样本点异常可能性成正比;
设置异常值阈值;所述异常值阈值用于计算所述异常值分数的预警阈值,所述异常值分数的预警阈值小于所述异常值分数的报警阈值;
在所述数据样本点异常值分数小于所述异常值分数的报警阈值的情况下,计算预设值个时间步的数据样本点的异常值分数;
根据所述预设值个时间步的数据样本点的异常值分数进行趋势假设检验;
根据所述趋势假设检验结果确定异常状态。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设值个时间步的数据样本点的异常值分数进行趋势假设检验包括:
将所述异常值分数数据分为长度相等的两部分,计算差分数据对;
根据所述差分数据对计算检验统计量;在所述异常值分数无增长趋势的情况下,所述检验统计量服从二项分布b(n/2,0.5),所述差分数据对大于零;
基于二项分布的累积分布函数计算检验显著性水平值;
根据所述检验显著性水平值与预设检验显著性水平值比较确定所述异常值分数的趋势。
3.根据权利要求1所述的方法,其特征在于,所述根据所述预设值个时间步的数据样本点的异常值分数进行趋势假设检验包括:
基于一元线性回归根据所述异常值分数计算斜率;所述一元线性回归以时间作为自变量;
计算所述异常值分数的标准差估值;
基于所述异常值分数的标准差估值计算所述斜率值的标准差;
基于所述斜率值的标准差计算所述斜率的T值;
基于正态分布计算所述斜率的显著性水平数值;所述斜率为零的情况下,所述T值近似服从自由度为n-2的t分布,Cdf为所述t分布的的累积分布函数;
根据所述斜率的显著性水平数值与所述预设检验显著性水平值比较确定所述异常值分数的趋势;所述斜率大于零。
4.根据权利要求1所述的方法,其特征在于,还包括:
在所述数据样本点异常值分数大于或等于所述异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
5.一种异常预测装置,其特征在于,所述装置包括:计算单元、设置单元、检验单元、确定单元;
所述计算单元,用于计算数据样本点异常值分数;还用于计算预设值个时间步的数据样本点的异常值分数;
所述设置单元,用于设置异常值阈值;
所述检验单元,用于根据所述预设值个时间步的数据样本点的异常值分数进行趋势假设检验;
所述确定单元,用于根据所述趋势假设检验结果确定异常状态。
6.根据权利要求5所述的装置,其特征在于,
所述计算单元,用于将所述异常值分数数据分为长度相等的两部分,计算差分数据对;
还用于根据所述差分数据对计算检验统计量;
具体用于基于二项分布的累积分布函数计算检验显著性水平值;
所述确定单元,用于根据所述检验显著性水平值与预设检验显著性水平值比较确定所述异常值分数的趋势。
7.根据权利要求5所述的装置,其特征在于,
所述计算单元,用于基于一元线性回归根据所述异常值分数计算斜率;
还用于计算所述异常值分数的标准差估值;
也用于基于所述异常值分数的标准差估值计算所述斜率值的标准差;
具体用于基于所述斜率值的标准差计算所述斜率的T值;
还具体用于基于正态分布计算所述斜率的显著性水平数值;
确定单元,还用于根据所述斜率的显著性水平数值与所述预设检验显著性水平值比较确定所述异常值分数的趋势。
8.根据权利要求5所述的装置,其特征在于,
所述检验单元,用于在所述数据样本点异常值分数大于或等于所述异常值分数的报警阈值的情况下,结束异常预测,触发异常报警。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
被配置为存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-4中任一项所述的异常预测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,
当所述计算机可读存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1-4中任一项所述的异常预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681217.9A CN117725477A (zh) | 2023-12-08 | 2023-12-08 | 异常预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681217.9A CN117725477A (zh) | 2023-12-08 | 2023-12-08 | 异常预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725477A true CN117725477A (zh) | 2024-03-19 |
Family
ID=90199098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311681217.9A Pending CN117725477A (zh) | 2023-12-08 | 2023-12-08 | 异常预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725477A (zh) |
-
2023
- 2023-12-08 CN CN202311681217.9A patent/CN117725477A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542740B (zh) | 异常检测方法及装置 | |
CN108923952B (zh) | 基于服务监控指标的故障诊断方法、设备及存储介质 | |
CN109587001B (zh) | 一种性能指标异常检测方法及装置 | |
US10585774B2 (en) | Detection of misbehaving components for large scale distributed systems | |
US20200104229A1 (en) | Proactive information technology infrastructure management | |
JP6141235B2 (ja) | 時系列データにおける異常を検出する方法 | |
CN111459700A (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
EP1630635A2 (en) | Method and apparatus for improved fault detection in power generation equipment | |
CN111104736B (zh) | 基于时间序列的异常数据检测方法、装置、介质和设备 | |
CN110059293B (zh) | 基金估值数据的数据质量的确定方法、装置和服务器 | |
JP2015028700A (ja) | 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 | |
CN111967940B (zh) | 一种订单量异常检测方法及装置 | |
CN113127305A (zh) | 异常检测方法及装置 | |
CN110570544A (zh) | 飞机燃油***故障识别方法、装置、设备和存储介质 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、***及介质 | |
CN114037673A (zh) | 一种基于机器视觉的硬件衔接接口监测方法及*** | |
CN116450482A (zh) | 一种用户异常监测方法、装置、电子设备及存储介质 | |
KR101960755B1 (ko) | 미취득 전력 데이터 생성 방법 및 장치 | |
CN109976986B (zh) | 异常设备的检测方法及装置 | |
CN112380073B (zh) | 一种故障位置的检测方法、装置及可读存储介质 | |
CN112100037B (zh) | 告警级别识别方法、装置、电子设备及存储介质 | |
KR20220132824A (ko) | 배전설비 상태 이상 개소 감시 시스템 및 방법 | |
CN110458713B (zh) | 模型监控方法、装置、计算机设备及存储介质 | |
CN117149565A (zh) | 云平台关键性能指标的状态检测方法、装置、设备及介质 | |
CN117725477A (zh) | 异常预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |