CN112001596B - 一种时间序列数据异常点检测方法及*** - Google Patents
一种时间序列数据异常点检测方法及*** Download PDFInfo
- Publication number
- CN112001596B CN112001596B CN202010734092.1A CN202010734092A CN112001596B CN 112001596 B CN112001596 B CN 112001596B CN 202010734092 A CN202010734092 A CN 202010734092A CN 112001596 B CN112001596 B CN 112001596B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- data
- abnormal point
- current
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 230
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000009826 distribution Methods 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims abstract description 50
- 238000009776 industrial production Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013450 outlier detection Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 42
- 230000005856 abnormality Effects 0.000 abstract description 11
- 238000012544 monitoring process Methods 0.000 abstract description 8
- 238000004886 process control Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 18
- 238000009749 continuous casting Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000001816 cooling Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 239000000498 cooling water Substances 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000013398 bayesian method Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000011426 transformation method Methods 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 238000012994 industrial processing Methods 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种时间序列数据异常点检测方法及***,该方法包括:获取待检测的时间序列数据;利用相关向量机计算当前观测数据的预测概率分布;基于计算出的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到时间序列数据中异常点位置和异常点概率值;对各段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到异常点检测结果。本发明解决了工业控制过程产生的非稳态时序数据异常检测问题,可有效监控流程工业过程中工艺控制数据可能异常的情况,并且可利用异常点概率值表征数据异常的严重程度,提高了流程工业生产过程中数据异常监控的信息多样性和准确性。
Description
技术领域
本发明涉及流程工业质量管控与优化技术领域,特别涉及一种时间序列数据异常点检测方法及***。
背景技术
在流程工业生产过程中,需要建立一个良好的监控手段来对整个生产流程进行数据检测,从而得到高质量的良好产品。然而几乎所有的生产过程都可能会出现工艺设定或控制异常等情况,所以得到的数据经常会存在局部异常问题。
在实际生产过程中,需要找到生产过程数据异常发生的时刻和严重程度,从而进行对应的质量分析。因此,需要利用时间序列异常点检测来寻找流程工业生产中工艺数据发生异常波动的时间。但实际生产过程可能包含复杂的原料波动、人工干预、工艺状态变化等使生产过程处于非稳态过程,现有的常规统计监控方法无法准确检测数据异常的时刻,也无法量化数据异常的严重程度。
发明内容
本发明提供了一种时间序列数据异常点检测方法及***,以解决现有方法无法准确检测时间序列数据异常的时刻,无法量化数据异常的严重程度的问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种时间序列数据异常点检测方法,其包括:
获取待检测的时间序列数据,所述时间序列数据包括多段子时间序列;
利用相关向量机计算所述时间序列数据中当前观测数据的预测概率分布;
基于计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到所述时间序列数据中异常点位置和异常点概率值;
对所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
进一步地,所述获取待检测的时间序列数据,包括:
获取流程工业生产过程中预设工艺变量产生的实时原始时间序列数据集;
对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中不符合预设要求的时间序列数据,以得到所述待检测的时间序列数据。
进一步地,所述对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中不符合预设要求的时间序列数据,包括:
对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中的不正确的时间序列数据和包含空值的不完整的时间序列数据。
进一步地,所述利用相关向量机计算所述时间序列数据中当前观测数据的预测概率分布,包括:
根据不同工艺变量所产生的时间序列数据,确定所述相关向量机中的核函数,以及选择预设的模型超参数,并为所述模型超参数建立预设的收敛标准;
对于所述时间序列数据中的当前观测数据,基于相关向量机,利用对应的历史时间序列数据迭代计算其预测概率分布的均值和方差来更新所述模型超参数,直至满足所述预设的收敛标准后,计算得到当前观测数据的预测概率分布。
进一步地,所述利用贝叶斯框架判断当前观测数据是否为异常点,包括:
为贝叶斯框架选择预设的惩罚函数,以及为选择的惩罚函数设置预设的超参数,以用来计算当前观测数据的异常点条件先验分布;
利用当前观测数据的预测概率分布和异常点条件先验概率分布,计算当前运行长度的后验概率分布,并根据后验概率分布确定当前可能的最大运行长度;
将所述当前可能的最大运行长度与前一时刻的最大运行长度对比,根据对比结果判断当前观测数据是否为异常点以及计算出异常点概率值。
进一步地,所述根据对比结果判断当前观测数据是否为异常点,包括:
若所述当前可能的最大运行长度小于前一时刻的最大运行长度,则判断当前观测数据为异常点;若所述当前可能的最大运行长度不小于前一时刻的最大运行长度,则判断当前观测数据不是异常点。
进一步地,所述计算出异常点概率值,包括:
通过计算当前异常点对应的最大后验概率分布来确定当前异常点概率值。
进一步地,对所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值,包括:
对当前子时间序列中的异常点概率值做均值或取最大值处理,得到所述当前子时间序列对应的异常点概率值;并取所述当前子时间序列中的最后一个异常点位置来表示所述当前子时间序列对应的异常点位置。
进一步地,所述对当前子时间序列中的异常点概率值做均值或取最大值处理,包括:
确定各子时间序列中的异常点个数以及起始和结束的异常点之间的距离;
若当前子时间序列中的起始和结束的异常点之间的距离小于预设距离阈值或者当前子时间序列中的异常点个数大于预设个数阈值,则取当前子时间序列中的异常点概率值的最大值;否则,取当前子时间序列中异常点概率值的均值。
另一方面,本发明还提供了一种时间序列数据异常点检测***,其包括:
时间序列数据获取模块,用于获取待检测的时间序列数据,所述时间序列数据包括多段子时间序列;
相关向量机计算模块,用于利用相关向量机计算所述时间序列数据获取模块所获取的时间序列数据中当前观测数据的预测概率分布;
贝叶斯框架判断模块,用于基于所述相关向量机计算模块计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到所述时间序列数据中异常点位置和异常点概率值;
异常点合并处理模块,用于对所述贝叶斯框架判断模块计算出的所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明的时间序列数据异常点检测方法解决了流程工业加工过程中无法准确检测工艺控制数据异常情况的问题,能够很好的检测出流程工业加工过程中相关变量产生的数据异常情况,并且可以利用异常点概率值表征数据异常的严重程度,从而有效提高了流程工业生产过程中数据监控的信息多样性和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的时间序列数据异常点检测方法的流程图;
图2a为本发明第一实施例提供的时间序列异常点检测的示例图;
图2b为本发明第一实施例提供的时间序列异常点检测的另一示例图;
图3为本发明第二实施例提供的相关向量机和贝叶斯框架算法的流程图;
图4为本发明第二实施例提供的对检测结果二次处理的流程图;
图5为本发明第二实施例提供的利用各种算法对连铸拉速的时间序列数据异常点检测结果对比图;其中,图5中第一幅图为待检测的连铸拉速的时间序列数据的示意图,(a)为基于奇异谱变换方法的异常点检测结果图,(b)基于传统贝叶斯方法的异常点检测结果图,(c)基于相关向量机和贝叶斯框架方法的未进行二次处理的异常点检测结果图,(d)基于相关向量机和贝叶斯框架方法的进行二次处理后的异常点检测结果图;
图6为本发明第二实施例提供的利用各种算法对二冷段中冷却水水流量的时间序列数据异常点检测结果对比图;其中,图6中第一幅图为待检测的二冷段中冷却水水流量的时间序列数据的示意图,(a)为基于奇异谱变换方法的异常点检测结果图,(b)基于传统贝叶斯方法的异常点检测结果图,(c)基于相关向量机和贝叶斯框架方法的未进行二次处理的异常点检测结果图,(d)基于相关向量机和贝叶斯框架方法的进行二次处理后的异常点检测结果图;
图7为本发明第二实施例提供的利用各种算法对二冷段中冷却水水压的时间序列数据异常点检测结果对比图;其中,图7中第一幅图为待检测的二冷段中冷却水水压的时间序列数据的示意图,(a)为基于奇异谱变换方法的异常点检测结果图,(b)基于传统贝叶斯方法的异常点检测结果图,(c)基于相关向量机和贝叶斯框架方法的未进行二次处理的异常点检测结果图,(d)基于相关向量机和贝叶斯框架方法的进行二次处理后的异常点检测结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种时间序列数据异常点检测方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。
该时间序列数据异常点检测方法的执行流程如图1所示,包括以下步骤:
S101,获取待检测的时间序列数据;
需要说明的是,上述待检测的时间序列数据可以包括多段子时间序列,序列中的每个数据可以对应工业过程产生的工艺控制数据,其获取过程可以为:获取流程工业生产过程中重要工艺变量产生的实时原始时间序列数据集;对原始时间序列数据集进行预处理,去除原始时间序列数据集中的不正确的时间序列数据和包含空值的不完整的时间序列数据,以得到待检测的时间序列数据。
对于异常检测问题来说,正常的时间序列数据是没有必要进行检测验证的。同时对于包含空值的不完整的时间序列来说,其中的空缺值可能会影响最后的异常检测准确率,因此,在检测前需要将此类数据剔除,以保证检测效果。
S102,利用相关向量机计算时间序列数据中当前观测数据的预测概率分布;
需要说明的是,上述S102具体包括以下过程:
根据不同工艺变量所产生的时间序列数据,确定相关向量机中的核函数,以及选择合适的模型超参数α和β,并为超参数α和β建立合适的收敛标准;
对于待检测的时间序列数据中的当前观测数据,利用对应的历史时间序列数据迭代计算其预测概率分布的均值和方差来更新超参数α和β,直至满足所设置的收敛标准后,计算得到当前观测数据的预测概率分布。
S103,基于计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,得到时间序列数据中异常点位置和异常点概率值;
需要说明的是,上述S103具体包括以下过程:
为贝叶斯框架选择合适的惩罚函数,以及为选择的惩罚函数设置合适的超参数,以用来计算当前观测数据的异常点条件先验分布;
利用当前观测数据的预测概率分布和异常点条件先验概率分布,计算当前运行长度(自上一个异常点之后的时间长度)的后验概率分布,并根据计算出的当前运行长度的后验概率分布确定当前可能的最大运行长度;
将当前可能的最大运行长度与前一时刻的最大运行长度对比,根据对比结果判断当前观测数据是否为异常点以及计算出异常点概率值。若当前可能的最大运行长度小于前一时刻的最大运行长度,则判断当前观测数据为异常点;否则,判断当前观测数据不是异常点。而当前异常点概率值则可以通过计算当前异常点对应的最大后验概率分布值来确定。
通过上述过程不仅可以准确的检测出时间序列中的出现数据异常的位置,还可以计算出取值在[0,1]的概率值来表征数据异常的严重程度。
S104,对时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
需要说明的是,上述S104具体为:
对当前子时间序列中的异常点概率值做均值或取最大值处理,得到当前子时间序列对应的异常点概率值;并取当前子时间序列中的最后一个异常点位置来表示当前子时间序列对应的异常点位置,以此来表征当前范围内时间序列异常情况;其中,时间序列异常点检测的示例图如图2a和图2b所示。
其中,待检测的时间序列数据的子时间序列的划分可以根据设定的范围进行划分,对于各段子时间序列的划分点可以称之为异常点,并且假设每一段子时间序列中的数据是来自某一个概率分布。
其中,对当前子时间序列中的异常点概率值做均值或取最大值处理,包括:
确定各子时间序列中的异常点个数以及起始和结束的异常点之间的距离;
若当前子时间序列中的起始和结束的异常点之间的距离小于预设距离阈值或者当前子时间序列中的异常点个数大于预设个数阈值,则取当前子时间序列中的异常点概率值的最大值;否则,取当前子时间序列中异常点概率值的均值。
综上,本实施例的时间序列数据异常点检测方法解决了流程工业加工过程中无法准确检测工艺控制数据异常情况的问题,能够很好的检测出流程工业加工过程中相关变量产生的数据异常情况,并且可以利用异常点概率值表征数据异常的严重程度,提高了流程工业生产过程中数据监控的信息多样性和准确性。
第二实施例
本实施例将上述时间序列数据异常点检测方法应用到钢铁工业中连铸过程产生的实际时间序列数据的异常点检测,以对上述方法进行验证分析。
钢铁连铸数据集包括连铸机拉速时间序列数据,二冷段冷却水水流量时间序列数据,二冷段冷却水水压时间序列数据。其中,连铸拉速是指浇铸坯从结晶器中被引锭杆拉出来的速度。由于连铸速度变化对结晶器钢液表面波动的影响,因此研究连铸速度中数据变化情况对获得优质铸坯和提高生产效率具有重要意义。由于二冷控制是稳定和提高连铸坯质量的关键,其中板坯的缩孔、裂纹等缺陷与连铸二冷区冷却不均匀有关,因此检测二冷区的水流量和水压的数据有无异常情况对板坯的质量起着至关重要的作用。
本实施例首先对连铸时间序列数据集进行预处理,仔细分析时间序列数据集,删除不正确的时间序列数据和包含空缺值得不完整的时间序列数据。然后利用相关向量机和贝叶斯框架对预处理后的连铸数据集中各个变量对应的时间序列进行异常点检测分析。其中,基于相关向量机和贝叶斯框架是一种建立在统计理论和概率基础上的时间序列的数据分析方法。本实施例将基于相关向量机和贝叶斯框架的方法应用到时间序列异常点研究中,对于连铸过程中相关工艺产生的数据可利用相关向量机和贝叶斯框架来进行异常检测,检测过程如下:
针对上述的钢铁工业中连铸过程产生的实际时间序列数据集:若检测连铸拉速时间序列数据,则相关向量机中核函数选择级数为4的多项式核函数,并且模型超参数α和β选择为10-1和10-9。若检测二冷段冷却水水压时间序列数据,则相关向量机中核函数选择级数为3的多项式核函数,并且模型超参数α和β选择为10-1和10-9。若检测二冷段冷却水流量时间序列数据,则相关向量机中核函数选择级数为2的多项式核函数,并且模型超参数α和β选择为10-1和10-7。
基于上述,对于异常点检测问题,本实施例的方法利用相关向量机和贝叶斯框架来进行异常点分析,具体计算流程如图3所示,包括以下步骤:
1)初始化,包括:当前观测数据xt,最大运行长度pre,惩罚函数H(τ),相关向量机中的α和β;
2)使用相关向量机计算出当前观测数据xt的预测概率分布
3)利用惩罚函数H(τ)和预测概率分布predProbs评估当前时刻的运行长度增长概率:P(rt=rt-1+1,x1:t)=p(rt-1,x1:t-1)·predProbs·(1-H(rt-1));
4)利用惩罚函数H(τ)和预测概率分布predProbs评估当前时刻出现异常点概率:
5)计算当前运行长度的后验概率分布:
6)计算当前时刻可能的最大运行长度MaxRecursiveRunLength:
MaxRecursiveRunLength=P(rt|x1:t).argmax()
7)与之前最大运行长度pre进行对比:
若MaxRecursiveRunLength<Pre,则AnomalyScore[t]=P(rt|x1:t).max();
若MaxRecursiveRunLength>Pre,则AnomalyScore[t]=0。
8)更新参数:Pre=MaxRecursiveRunLength,t=t+1,然后返回到步骤2)。
考虑到检测结果中时间序列的局部范围内有多个异常点,因此考虑对时间序列中局部范围内的结果进行二次处理,处理过程如图4所示,包括以下步骤:
将该范围内异常点之间的位置距离定义为dis,该距离dis之间的异常点个数定义为num,该异常点概率值定义为score。当距离dis小于某一给定阈值或者异常点个数大于某一个给定阈值时,这就表明该范围内的异常点的密度较大,因此对该范围内的变化点概率值score取最大值处理,否则对该范围内异常点概率值score取平均值。即用处理后的值来表征该范围内时间序列的异常情况,并且取该范围内最后一个异常点位置来定位二次处理值的位置。
通过具体分析各时间序列数据的异常点检测结果,可以得出如下结论:
(1)当时间序列中部分数据突然增大或者减小时,本实施例的方法可以准确的检测到发生数据突变的异常点。
(2)当时间序列中某段数据的均值发生阶梯式变化时,本实施例的方法可以准确的检测到发生数据阶跃的异常点。
(3)本实施例的方法得出的异常点概率值大小可以很好的表征时间序列数据中发生异常的严重程度。
综上所述,这些与预期结果一致,说明基于相关向量机和贝叶斯框架的算法应用在实际工业数据上是可行的。
分别利用奇异谱变换方法,传统贝叶斯方法以及本实施例的基于相关向量机和贝叶斯框架方法来检测时间序列数据异常点。检测结果如图5至图7所示。
从图5、图6、图7中通过比较分析可以看出:
(1)本实施例的基于相关向量机和贝叶斯框架方法得到的异常点检测结果要远优于基于奇异谱变换方法的异常点检测结果。说明通过贝叶斯公式的概率计算,可以准确捕捉到时间序列中的数据变化情况。
(2)对比本实施例的基于相关向量机和贝叶斯框架方法和基于传统贝叶斯方法,前者可以准确的检测出各种数据变化类型对应的异常点。说明通过相关向量机来计算预测概率分布,可以提高时间序列异常点检测的准确率。
(3)对比本实施例的基于相关向量机和贝叶斯框架方法和基于奇异谱变换方法以及基于传统贝叶斯方法,前者可以通过计算出的异常点概率值来反应时间序列中数据发生异常的严重程度。
基于上述,可以说明对于存在异常问题的时序数据,本实施的基于相关向量机和贝叶斯框架方法比其他方法在时间序列数据异常点检测方面更加优秀。
综上,本实施例的时间序列数据异常点检测方法解决了流程工业加工过程中无法准确检测工艺控制数据异常情况的问题,与奇异谱变化等算法以及传统的贝叶斯算法进行对比,结果表明本实施例的方法能够很好的检测出流程工业加工过程中相关变量产生的数据异常情况,并且可利用异常点概率值表征数据异常的严重程度,提高了流程工业生产过程中数据监控的信息多样性和准确性。
第三实施例
本实施例提供了一种时间序列数据异常点检测***,该***包括以下模块:
时间序列数据获取模块,用于获取待检测的时间序列数据,所述时间序列数据包括多段子时间序列;
相关向量机计算模块,用于利用相关向量机计算所述时间序列数据获取模块所获取的时间序列数据中当前观测数据的预测概率分布;
贝叶斯框架判断模块,用于基于所述相关向量机计算模块计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到所述时间序列数据中异常点位置和异常点概率值;
异常点合并处理模块,用于对所述贝叶斯框架判断模块计算出的所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
本实施例的时间序列数据异常点检测***与上述第一实施例的时间序列数据异常点检测方法相对应;其中,本实施例的时间序列数据异常点检测***中的各功能模块所实现的功能与上述第一实施例的时间序列数据异常点检测方法中的各流程步骤一一对应;故,在此不再赘述。
第四实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以下步骤:
S101,获取待检测的时间序列数据;
S102,利用相关向量机计算时间序列数据中当前观测数据的预测概率分布;
S103,基于计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,得到时间序列数据中异常点位置和异常点概率值;
S104,对时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
本实施例的电子设备通过执行上述方法解决了流程工业加工过程中无法准确检测工艺控制数据异常情况的问题,能够很好的检测出流程工业加工过程中相关变量产生的数据异常情况,并且可以利用异常点概率值表征数据异常的严重程度,从而有效提高了流程工业生产过程中数据监控的信息多样性和准确性。
第五实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤:
S101,获取待检测的时间序列数据;
S102,利用相关向量机计算时间序列数据中当前观测数据的预测概率分布;
S103,基于计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,得到时间序列数据中异常点位置和异常点概率值;
S104,对时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值。
本实施例的存储介质所存储的方法解决了流程工业加工过程中无法准确检测工艺控制数据异常情况的问题,能够很好的检测出流程工业加工过程中相关变量产生的数据异常情况,并且可以利用异常点概率值来表征数据异常的严重程度,从而有效提高了流程工业生产过程中数据监控的信息多样性和准确性。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (5)
1.一种时间序列数据异常点检测方法,其特征在于,所述方法包括:
获取待检测的时间序列数据,所述时间序列数据包括多段子时间序列;
利用相关向量机计算所述时间序列数据中当前观测数据的预测概率分布;
基于计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到所述时间序列数据中异常点位置和异常点概率值;
对所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值;
所述获取待检测的时间序列数据,包括:
获取流程工业生产过程中预设工艺变量产生的实时原始时间序列数据集;
对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中不符合预设要求的时间序列数据,以得到所述待检测的时间序列数据;
所述利用相关向量机计算所述时间序列数据中当前观测数据的预测概率分布,包括:
根据不同工艺变量所产生的时间序列数据,确定所述相关向量机中的核函数,以及选择预设的模型超参数,并为所述模型超参数建立预设的收敛标准;
对于所述时间序列数据中的当前观测数据,基于相关向量机,利用对应的历史时间序列数据迭代计算其预测概率分布的均值和方差来更新所述模型超参数,直至满足所述预设的收敛标准后,计算得到当前观测数据的预测概率分布;
所述利用贝叶斯框架判断当前观测数据是否为异常点,包括:
为贝叶斯框架选择预设的惩罚函数,以及为选择的惩罚函数设置预设的超参数,以用来计算当前观测数据的异常点条件先验分布;
利用当前观测数据的预测概率分布和异常点条件先验概率分布,计算当前运行长度的后验概率分布,并根据后验概率分布确定当前可能的最大运行长度;
将所述当前可能的最大运行长度与前一时刻的最大运行长度对比,根据对比结果判断当前观测数据是否为异常点以及计算出异常点概率值;
所述根据对比结果判断当前观测数据是否为异常点,包括:
若所述当前可能的最大运行长度小于前一时刻的最大运行长度,则判断当前观测数据为异常点;若所述当前可能的最大运行长度不小于前一时刻的最大运行长度,则判断当前观测数据不是异常点;
所述计算出异常点概率值,包括:
通过计算当前异常点对应的最大后验概率分布来确定当前异常点概率值。
2.如权利要求1所述的时间序列数据异常点检测方法,其特征在于,所述对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中不符合预设要求的时间序列数据,包括:
对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中的不正确的时间序列数据和包含空值的不完整的时间序列数据。
3.如权利要求1所述的时间序列数据异常点检测方法,其特征在于,对所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值,包括:
对当前子时间序列中的异常点概率值做均值或取最大值处理,得到所述当前子时间序列对应的异常点概率值;并取所述当前子时间序列中的最后一个异常点位置来表示所述当前子时间序列对应的异常点位置。
4.如权利要求3所述的时间序列数据异常点检测方法,其特征在于,所述对当前子时间序列中的异常点概率值做均值或取最大值处理,包括:
确定各子时间序列中的异常点个数以及起始和结束的异常点之间的距离;
若当前子时间序列中的起始和结束的异常点之间的距离小于预设距离阈值或者当前子时间序列中的异常点个数大于预设个数阈值,则取当前子时间序列中的异常点概率值的最大值;否则,取当前子时间序列中异常点概率值的均值。
5.一种时间序列数据异常点检测***,其特征在于,所述***包括:
时间序列数据获取模块,用于获取待检测的时间序列数据,所述时间序列数据包括多段子时间序列;
相关向量机计算模块,用于利用相关向量机计算所述时间序列数据获取模块所获取的时间序列数据中当前观测数据的预测概率分布;
贝叶斯框架判断模块,用于基于所述相关向量机计算模块计算出的当前观测数据的预测概率分布,利用贝叶斯框架判断当前观测数据是否为异常点,以得到所述时间序列数据中异常点位置和异常点概率值;
异常点合并处理模块,用于对所述贝叶斯框架判断模块计算出的所述时间序列数据中的每一段子时间序列中的异常点位置和异常点概率值分别进行合并处理,得到各段子时间序列对应的异常点位置和异常点概率值;
所述获取待检测的时间序列数据,包括:
获取流程工业生产过程中预设工艺变量产生的实时原始时间序列数据集;
对所述实时原始时间序列数据集进行预处理,去除所述实时原始时间序列数据集中不符合预设要求的时间序列数据,以得到所述待检测的时间序列数据;
所述利用相关向量机计算所述时间序列数据中当前观测数据的预测概率分布,包括:
根据不同工艺变量所产生的时间序列数据,确定所述相关向量机中的核函数,以及选择预设的模型超参数,并为所述模型超参数建立预设的收敛标准;
对于所述时间序列数据中的当前观测数据,基于相关向量机,利用对应的历史时间序列数据迭代计算其预测概率分布的均值和方差来更新所述模型超参数,直至满足所述预设的收敛标准后,计算得到当前观测数据的预测概率分布;
所述利用贝叶斯框架判断当前观测数据是否为异常点,包括:
为贝叶斯框架选择预设的惩罚函数,以及为选择的惩罚函数设置预设的超参数,以用来计算当前观测数据的异常点条件先验分布;
利用当前观测数据的预测概率分布和异常点条件先验概率分布,计算当前运行长度的后验概率分布,并根据后验概率分布确定当前可能的最大运行长度;
将所述当前可能的最大运行长度与前一时刻的最大运行长度对比,根据对比结果判断当前观测数据是否为异常点以及计算出异常点概率值;
所述根据对比结果判断当前观测数据是否为异常点,包括:
若所述当前可能的最大运行长度小于前一时刻的最大运行长度,则判断当前观测数据为异常点;若所述当前可能的最大运行长度不小于前一时刻的最大运行长度,则判断当前观测数据不是异常点;
所述计算出异常点概率值,包括:
通过计算当前异常点对应的最大后验概率分布来确定当前异常点概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010734092.1A CN112001596B (zh) | 2020-07-27 | 2020-07-27 | 一种时间序列数据异常点检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010734092.1A CN112001596B (zh) | 2020-07-27 | 2020-07-27 | 一种时间序列数据异常点检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001596A CN112001596A (zh) | 2020-11-27 |
CN112001596B true CN112001596B (zh) | 2023-10-31 |
Family
ID=73467202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010734092.1A Active CN112001596B (zh) | 2020-07-27 | 2020-07-27 | 一种时间序列数据异常点检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001596B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312707B (zh) * | 2021-06-18 | 2023-09-08 | 深圳市神驼科技有限公司 | 货车状态自适应实时检测方法及其装置 |
CN113255579B (zh) * | 2021-06-18 | 2021-09-24 | 上海建工集团股份有限公司 | 一种施工监测异常采集数据自动识别与处理的方法 |
CN113391982B (zh) * | 2021-08-17 | 2021-11-23 | 云智慧(北京)科技有限公司 | 一种监控数据的异常检测方法、装置及设备 |
CN116304913A (zh) * | 2023-04-07 | 2023-06-23 | 中国长江三峡集团有限公司 | 基于贝叶斯模型的水质状态监测方法及装置、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957579A (zh) * | 2012-09-29 | 2013-03-06 | 北京邮电大学 | 一种网络异常流量监测方法及装置 |
WO2017124942A1 (zh) * | 2016-01-19 | 2017-07-27 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN107704962A (zh) * | 2017-10-11 | 2018-02-16 | 大连理工大学 | 一种基于不完整时间序列数据集的冶金企业蒸汽流量区间预测方法 |
CN110083593A (zh) * | 2019-04-23 | 2019-08-02 | 中国大唐集团科学技术研究院有限公司华东电力试验研究院 | 电站运行参数清洗及修复方法、修复*** |
CN110688618A (zh) * | 2019-07-08 | 2020-01-14 | 南京邮电大学 | 一种基于弱监督数据辅助的鲁棒事件检测方法及装置 |
-
2020
- 2020-07-27 CN CN202010734092.1A patent/CN112001596B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957579A (zh) * | 2012-09-29 | 2013-03-06 | 北京邮电大学 | 一种网络异常流量监测方法及装置 |
WO2017124942A1 (zh) * | 2016-01-19 | 2017-07-27 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN107704962A (zh) * | 2017-10-11 | 2018-02-16 | 大连理工大学 | 一种基于不完整时间序列数据集的冶金企业蒸汽流量区间预测方法 |
CN110083593A (zh) * | 2019-04-23 | 2019-08-02 | 中国大唐集团科学技术研究院有限公司华东电力试验研究院 | 电站运行参数清洗及修复方法、修复*** |
CN110688618A (zh) * | 2019-07-08 | 2020-01-14 | 南京邮电大学 | 一种基于弱监督数据辅助的鲁棒事件检测方法及装置 |
Non-Patent Citations (7)
Title |
---|
Change point detection of time series based on relevance vector machine and Bayesian framework with application to steel manufacturing;Zhou, Y等;CCEAI 2022: The 6th International Conference on Control Engineering and Artificial Intelligence;全文 * |
Real-time anomaly detection with Bayesian dynamic linear models;Luong Ha Nguyen等;STRUCTURAL CONTROL & HEALTH MONITORING;全文 * |
一种基于贝叶斯后验的异常值在线检测及置信度评估算法;孙栓柱;宋蓓;李春岩;王皓;;中国科学技术大学学报(第08期);全文 * |
基于相关向量机的风电机组功率曲线建模与监测;张方红等;船舶工程;全文 * |
基于稀疏贝叶斯回归的异常检测;苏乐群;冯爱民;;计算机与现代化(第01期);全文 * |
基于鲁棒极端学习机的混沌时间序列建模预测;沈力华;陈吉红;曾志刚;金健;;物理学报(第03期);全文 * |
无核相关向量机在时间序列预测中的应用;韩敏等;计算机学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001596A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001596B (zh) | 一种时间序列数据异常点检测方法及*** | |
CN112527788B (zh) | 变压器监测数据异常值检测与清洗的方法及装置 | |
Zhao et al. | Step-wise sequential phase partition (SSPP) algorithm based statistical modeling and online process monitoring | |
US11403535B2 (en) | Model-based machine learning system | |
CN110991495B (zh) | 生产制造过程中产品质量预测方法、***、介质及设备 | |
CN114077876B (zh) | 一种带钢热连轧多模态过程监测方法及装置 | |
CN115994337B (zh) | 一种带钢热连轧非平稳过程微小故障检测方法及装置 | |
US20220318987A1 (en) | Machine Learning for Metrology Measurements | |
CN116307289B (zh) | 一种纺织品加工工序参数检测预测方法、***及存储介质 | |
Zhang et al. | A novel feature-extraction-based process monitoring method for multimode processes with common features and its applications to a rolling process | |
CN115496384A (zh) | 工业设备的监控管理方法、装置和计算机设备 | |
JP7279473B2 (ja) | 異常検知装置、異常検知方法、および、コンピュータプログラム | |
CN111898903A (zh) | 一种钢铁产品均匀性和综合质量评估方法及*** | |
CN105675320A (zh) | 一种基于声学信号分析的机械***运行状态实时监控方法 | |
JP2011242942A (ja) | 異常判定装置、異常判定プログラムおよび異常判定方法 | |
Acernese et al. | Robust statistics-based anomaly detection in a steel industry | |
CN112631258A (zh) | 一种工业过程关键指标的故障预警方法 | |
CN116108932A (zh) | 一种钢铁生产过程数据和机理融合模型建立方法 | |
CN115274004A (zh) | 一种基于知识复用的发酵过程菌体浓度预测方法及*** | |
CN114004044A (zh) | 基于温度敏感点的机床主轴热误差快速辨识方法 | |
CN114118844A (zh) | 一种汽车零部件质量分析*** | |
CN110674461A (zh) | 基于多块投影非负矩阵分解的化工生产过程监控方法 | |
Wang et al. | Recursive correlated representation learning for adaptive monitoring of slowly varying processes | |
CN118211813B (zh) | 化工设备的智能安全生产巡检管理方法及*** | |
CN112183813B (zh) | 一种基于优化稀疏编码的超短期负荷滚动多步预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |