CN105205113A - 一种时序数据异常变化过程的挖掘***及方法 - Google Patents

一种时序数据异常变化过程的挖掘***及方法 Download PDF

Info

Publication number
CN105205113A
CN105205113A CN201510551876.XA CN201510551876A CN105205113A CN 105205113 A CN105205113 A CN 105205113A CN 201510551876 A CN201510551876 A CN 201510551876A CN 105205113 A CN105205113 A CN 105205113A
Authority
CN
China
Prior art keywords
data
window
feature
bunch
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510551876.XA
Other languages
English (en)
Inventor
鲍军鹏
杨天社
胡绍林
齐勇
高宇
李肖瑛
张海龙
杨冬毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
China Xian Satellite Control Center
Original Assignee
Xian Jiaotong University
China Xian Satellite Control Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University, China Xian Satellite Control Center filed Critical Xian Jiaotong University
Priority to CN201510551876.XA priority Critical patent/CN105205113A/zh
Publication of CN105205113A publication Critical patent/CN105205113A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种时序数据异常变化过程的挖掘***及方法,包括数据预处理模块、综合特征向量提取模块、SDMC聚类模块、特征字符串生成模块、异变过程学习模块。本发明能够从海量时序数据中挖掘出从正常到异常偏离再到明显故障的变化过程,分析上述过程中的特征变化规律。本发明把时序数据抽象成特征字符串,利用统计学习方法挖掘出频繁单词,由连续频繁单词构成频繁模式。频繁模式对应一般正常过程。而相邻频繁模式之间的间隙就是异变过程。异变过程的特征字符串就表达了该过程的特征。本发明可用于挖掘发现实时***异常变化和故障发展过程,对于分析***故障成因,提高故障诊断效率具有重要作用;对于进行复杂***全寿命健康管理具有重要意义。

Description

一种时序数据异常变化过程的挖掘***及方法
【技术领域】
本发明属于智能信息处理和计算机技术领域,具体涉及一种针对时序数据异常变化过程的挖掘***及方法。
【背景技术】
时间序列的异常变化过程对于认识时间序列规律特征,分析故障演化过程和故障成因,挖掘故障知识,更深层次地认识和学习时序***,预测***健康状态,介入早期故障预警都具有重要作用。
时间序列的变化往往都有一个发展过程。不同的异常变化其演变历程也各不相同,各有特点。挖掘异常变化的演变过程和特征变化规律,就是要从海量异常数据中挖掘出时间序列状态从正常到偏离再到异常,以及从轻度异常到重度异常或者故障的变化过程;然后分析这些演变过程中不同特征的变化规律。
【发明内容】
本发明提的目的在于提供一种时序数据异常变化过程的挖掘***及方法,通过数据预处理、综合特征向量提取、SDMC聚类、特征字符串生成、异变过程学习处理,可以从海量时序数据中挖掘出从正常到异常的变化过程。
为了实现上述目的,本发明采用如下技术方案:
一种时序数据异常变化过程的挖掘***,包括数据预处理模块、综合特征向量提取模块、SDMC聚类模块、特征字符串生成模块和异变过程学习模块;
数据预处理模块,用于对原始时序数据进行清洗、插值处理,获得归一化数据;
综合特征向量提取模块,用于自动分析所得归一化数据,求出数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量;
SDMC聚类模块,用于对综合特征向量进行聚类并对聚类结果进行簇间合并;
特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串;
异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
本发明进一步的改进在于:数据预处理模块包括去野值、生成单参数文件、等间隔处理以及归一化处理步骤;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行采样,等间隔处理后的数据,每分钟都从0秒开始,59秒结束;数据经过等间隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上。
本发明进一步的改进在于:综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量;综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后该窗口向后滑动Δt时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔Δt时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+Δt,t+2Δt,…,t+NΔt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
C = 1 f = N T k
其中,C表示数据周期,N表示窗口个数,T表示采样间隔Δt,k表示最大傅里叶系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于非周期数据,则指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;小波分解层数L根据窗口大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固定长度的窗口大小,如果k/2L小于阈值h,则分解层数为L,否则L加1,重复上述过程,直到k/2L小于阈值h;窗口数据通过L层小波分解后,得到相同长度的小波近似系数和小波细节系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换后得到一系列傅里叶系数;忽略直流分量,选择前n个最大的傅里叶系数及其对应频率作为傅里叶特征;n取值为2。
本发明进一步的改进在于:SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类;SDMC聚类模块的聚类方法具体包括以下步骤:首先取第一条综合特征向量单独为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时,计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束。
本发明进一步的改进在于:特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,把N个观察窗口序列转换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串。
本发明进一步的改进在于:异变过程学习模块首先给定待考察单词大小;然后把特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程的特征。
一种时序数据异常变化过程的挖掘方法,包括以下步骤:
第一步:数据预处理模块对原始时序数据进行清洗、插值处理,获得归一化数据;
第二步:综合特征向量提取模块自动分析所得归一化数据,求出数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量;
第三步:SDMC聚类模块对综合特征向量进行聚类并对聚类结果进行簇间合并;
第四步:特征字符串生成模块根据聚类结果将数据转换成对应的特征字符串;
第五步:异变过程学习模块将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
本发明进一步的改进在于,所述挖掘方法具体包括以下步骤:
第一步:数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处理以及归一化处理;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行采样,等间隔处理后的数据,每分钟都从0秒开始,59秒结束;数据经过等间隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上;
第二步:综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量;综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后该窗口向后滑动Δt时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔Δt时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+Δt,t+2Δt,…,t+NΔt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
C = 1 f = N T k
其中,C表示数据周期,N表示窗口个数,T表示采样间隔Δt,k表示最大傅里叶系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于非周期数据,则指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;小波分解层数L根据窗口大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固定长度的窗口大小,如果k/2L小于阈值h,则分解层数为L,否则L加1,重复上述过程,直到k/2L小于阈值h;窗口数据通过L层小波分解后,得到相同长度的小波近似系数和小波细节系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换后得到一系列傅里叶系数;忽略直流分量,选择前n个最大的傅里叶系数及其对应频率作为傅里叶特征;n取值为2;
第三步:SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类;SDMC聚类模块的聚类方法具体包括以下步骤:首先取第一条综合特征向量单独为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时,计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束;
第四步:特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,把N个观察窗口序列转换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串;
第五步:异变过程学习模块首先给定待考察单词大小;然后把特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程的特征。
相对于现有技术,本发明具有以下有益效果:本发明综合了多种时序特征,改进了聚类方法,从而比较稳定地挖掘出时序数据异变过程,并能以特征字符串给出抽象化表示,较好处理了时序数据的不确定性。
【附图说明】
图1是本发明***的模块框架图。
图2是本发明SDMC聚类模块流程图。
图3是本发明异变过程学习模块流程图。
图4是本发明示例参数数据曲线图。
图5是本发明示例参数所得到的频繁模式和非频繁模式。
图6是本发明示例参数所挖掘出的异常变化过程图示。
【具体实施方式】
以下是本方法较佳实施示例。
参照图1,本发明一种时序数据异常变化过程的挖掘***,包括数据预处理模块1-1、综合特征向量提取模块1-2、SDMC聚类模块1-3、特征字符串生成模块1-4、异变过程学习模块1-5。
数据预处理模块,用于对原始时序数据进行清洗、插值处理,获得归一化数据。
数据预处理模块包括去野值、生成单参数文件(清洗)、等间隔处理(插值)以及归一化处理工作;为了去除噪音干扰,获取有效数据值,本发明通过“去野值处理”删除原始时序数据中的无效野值,保留有效值。具体为,对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,以此达到去野值的目的。本发明提取单参数特征,不考虑多参数之间的关系。因此我们将每个有效参数单独写成一个数据文件。本发明对数据进行等间隔处理以保证在连续时间段内任意两个数据点之间的时间间隔相同。等间隔处理程序中,我们默认对数据每隔1秒进行采样。等间隔处理后的数据,每分钟都从0秒开始,59秒结束。数据经过等间隔处理之后还要进行归一化处理,将其取值范围转换到[0,1]区间上,以消除量纲对结果的影响。具体采用线性归一化方法,其中最大最小值由等间隔处理后的数据统计得到,也可以人为设置。
综合特征向量提取模块,用于自动分析所得归一化数据,求出数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量。
综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量,而非单一特征向量。综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];本发明自动识别出时序数据的最小完整周期,而不用人工逐一计算:首先设定一个初始观察窗口,然后该窗口向后滑动Δt时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔Δt时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+Δt,t+2Δt,…,t+NΔt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
C = 1 f = N T k
其中,C表示数据周期,N表示窗口个数,T表示采样间隔Δt,k表示最大傅里叶系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于非周期数据,则人工指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;本发明根据数据自适应确定小波分解层数,以获得合适的特征向量长度;小波分解层数L根据窗口大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固定长度的窗口大小,如果k/2L小于阈值h,则分解层数为L,否则L加1,重复上述过程,直到k/2L小于阈值h;窗口数据通过L层小波分解后,可以得到相同长度的小波近似系数和小波细节系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换后得到一系列傅里叶系数;忽略直流分量,选择前n个(n默认为2)最大的傅里叶系数及其对应频率作为傅里叶特征。
SDMC聚类模块,用于对综合特征向量进行聚类并对聚类结果进行簇间合并,提升聚类效果。
SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类;传统的K-Means聚类并不能保证簇间的距离足够大;当有些数据点比较分散的时候,传统K-Means聚类要么把大量相似度不够高的点强行聚集在一个簇中,导致簇很松散;要么会生成很多小簇,而小簇之间比较相似;这两种聚类结果都没有客观准确地反映出数据真实结构;本发明提出的SDMC(SimilarDensityMergeClustering)聚类方法类似于传统K-Means方法,但是最后进行了簇间合并过程,保证每个簇内的点足够相似,并且相似的小簇被适当合并;SDMC聚类方法具体包括以下步骤:首先取第一条综合特征向量单独为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时,计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束。
特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串。
特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,从而把N个观察窗口序列转换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串;越大的字符则表示越可能的异常特征,即出现概率越小的特征;概率最大的特征记为“a”,次大特征记为“b”以此类推;一条原始时序数据被转换为一个特征字符串。
异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
异变过程学习模块首先给定待考察单词大小(默认为4,可以认为给定);然后把特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程的特征。
本发明一种时序数据异常变化过程的方法,包括以下步骤:
首先,数据预处理模块1-1对原始时序数据进行清洗、插值处理,得到有效数据形式,以便进行后续挖掘工作。
其次,综合特征向量提取模块1-2自动分析数据,求出周期数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量。
然后,SDMC聚类模块1-3对综合特征向量进行聚类并对聚类结果进行簇间合并。
接着,特征字符串生成模块1-4根据聚类结果将数据转换成对应的特征字符串。
最后,异变过程学习模块1-5将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式,从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
参照图2,其为本发明SDMC聚类模块的流程图,包括以下步骤:
首先进行步骤2-1,取第一条综合特征向量单独为一个簇,并作为簇中心。然后进行步骤2-2,判断所有综合特征向量是否处理完。如果未处理完所有综合特征向量,则执行步骤2-3,取下一条综合特征向量。接着执行步骤2-4,计算该综合特征向量与当前所有簇中心的距离。然后执行步骤2-5,判断该综合特征向量是否与某个簇中心的距离小于指定阈值。如果小于指定阈值,则执行步骤2-6,将该综合特征向量放入与其距离最小的簇中,并调整该簇中心,然后转至步骤2-2。否则,执行步骤2-7,将该综合特征向量单独生成一个簇,并作为簇中心,然后转至步骤2-2。如果所有综合特征向量已经处理完,则执行步骤2-8,取第一条综合特征向量。然后执行步骤2-9,判断综合特征向量是否处理完。如果未处理完所有综合特征向量,则执行步骤2-10,计算该综合特征向量与当前所有簇中心的距离。接着执行步骤2-11,将该综合特征向量放入与其距离最近的簇中。然后执行步骤2-12,取下一条数据。然后转至步骤2-9。如果所有综合特征向量已经处理完,则执行步骤2-13,判断聚类结果是否发生变化。如果聚类结果发生了变化,则执行步骤2-14,调整变化簇的簇中心,然后转至步骤2-8。如果聚类结果无变化,则执行步骤2-15,计算两两簇中心之间的距离,从所有簇中选择簇中心最近的两个簇。然后执行步骤2-16,判断该对簇中心之间的距离是否小于给定阈值。如果簇心距离小于给定阈值,则执行步骤2-17,合并这两个簇,然后转至步骤2-15。如果簇心距离不小于给定阈值,则SDMC聚类过程结束。
参照图3,其为本发明异变过程学习模块流程图,包括以下步骤:
首先进行步骤3-1,获取由特征字符串生成模块生成的特征字符串序列。然后执行步骤3-2,在该字符串中统计所有长度为L(默认为4,可以认为给定)个字符的单词的出现频率。然后执行步骤3-3,判断所有单词的出现频率是否大于给定阈值。如果单词频率不大于给定阈值则执行步骤3-4,标记该单词为非频繁单词;否则执行步骤3-5,标记该单词为频繁单词。所有单词判断完之后,执行步骤3-6,重新扫描特征字符串序列。然后执行步骤3-7,判断当前位置是否到达字符串末尾。如果未到达字符串末尾,则执行步骤3-8,判断从当前位置开始连续的L个字符是否是频繁单词。如果该单词不是频繁单词,则执行步骤3-9,判断其前一个单词是否为频繁单词。如果前一个单词是频繁单词,则执行步骤3-12从上一个位置到当前位置得到一个频繁模式(即连续频繁单词的串),并将该模式放入频繁模式队列中。然后执行步骤3-10,向后滑动一个字符。如果前一个单词不是频繁单词,则直接执行步骤3-10,向后滑动一个字符。然后转至步骤3-7。如果从当前位置开始连续的L个字符是频繁单词,则执行步骤3-11,向后滑动L个字符。然后转至步骤3-7。如果字符串已经扫描完,到达字符串末尾,则执行步骤3-13,从频繁模式队列中找出所有相邻频繁模式之间的间隙所对应的字符串,即为非频繁模式。然后执行步骤3-14,输出所有非频繁模式所对应的异常变化过程,包括从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程。至此,异变过程学习结束。
参照图4,其为本方法一个示例参数的数据曲线图。
参照图5,其为从上述示例参数中所得到的频繁模式和非频繁模式。其中数字表示模式在特征字符串中出现的位置。
参照图6,图示了从上述示例参数中挖掘出的一个异常变化过程。

Claims (8)

1.一种时序数据异常变化过程的挖掘***,其特征在于,包括数据预处理模块、综合特征向量提取模块、SDMC聚类模块、特征字符串生成模块和异变过程学习模块;
数据预处理模块,用于对原始时序数据进行清洗、插值处理,获得归一化数据;
综合特征向量提取模块,用于自动分析所得归一化数据,求出数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量;
SDMC聚类模块,用于对综合特征向量进行聚类并对聚类结果进行簇间合并;
特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串;
异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
2.根据权利要求1所述的一种时序数据异常变化过程的挖掘***,其特征在于,数据预处理模块包括去野值、生成单参数文件、等间隔处理以及归一化处理步骤;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行采样,等间隔处理后的数据,每分钟都从0秒开始,59秒结束;数据经过等间隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上。
3.根据权利要求1所述的一种时序数据异常变化过程的挖掘***,其特征在于,综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量;综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后该窗口向后滑动Δt时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔Δt时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+Δt,t+2Δt,…,t+NΔt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
C = 1 f = N T k
其中,C表示数据周期,N表示窗口个数,T表示采样间隔Δt,k表示最大傅里叶系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于非周期数据,则指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;小波分解层数L根据窗口大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固定长度的窗口大小,如果k/2L小于阈值h,则分解层数为L,否则L加1,重复上述过程,直到k/2L小于阈值h;窗口数据通过L层小波分解后,得到相同长度的小波近似系数和小波细节系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换后得到一系列傅里叶系数;忽略直流分量,选择前n个最大的傅里叶系数及其对应频率作为傅里叶特征;n取值为2。
4.根据权利要求1所述的一种时序数据异常变化过程的挖掘***,其特征在于,SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类;SDMC聚类模块的聚类方法具体包括以下步骤:首先取第一条综合特征向量单独为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时,计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束。
5.根据权利要求1所述的一种时序数据异常变化过程的挖掘***,其特征在于,特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,把N个观察窗口序列转换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串。
6.根据权利要求1所述的一种时序数据异常变化过程的挖掘***,其特征在于,异变过程学习模块首先给定待考察单词大小;然后把特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程的特征。
7.一种时序数据异常变化过程的挖掘方法,其特征在于,包括以下步骤:
第一步:数据预处理模块对原始时序数据进行清洗、插值处理,获得归一化数据;
第二步:综合特征向量提取模块自动分析所得归一化数据,求出数据的最小完整周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量;
第三步:SDMC聚类模块对综合特征向量进行聚类并对聚类结果进行簇间合并;
第四步:特征字符串生成模块根据聚类结果将数据转换成对应的特征字符串;
第五步:异变过程学习模块将特征字符串划分为单词序列,根据单词的频率分为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
8.根据权利要求7所述的一种时序数据异常变化过程的挖掘方法,其特征在于,所述挖掘方法具体包括以下步骤:
第一步:数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处理以及归一化处理;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行采样,等间隔处理后的数据,每分钟都从0秒开始,59秒结束;数据经过等间隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上;
第二步:综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量;综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后该窗口向后滑动Δt时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔Δt时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+Δt,t+2Δt,…,t+NΔt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
C = 1 f = N T k
其中,C表示数据周期,N表示窗口个数,T表示采样间隔Δt,k表示最大傅里叶系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于非周期数据,则指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;小波分解层数L根据窗口大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固定长度的窗口大小,如果k/2L小于阈值h,则分解层数为L,否则L加1,重复上述过程,直到k/2L小于阈值h;窗口数据通过L层小波分解后,得到相同长度的小波近似系数和小波细节系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换后得到一系列傅里叶系数;忽略直流分量,选择前n个最大的傅里叶系数及其对应频率作为傅里叶特征;n取值为2;
第三步:SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类;SDMC聚类模块的聚类方法具体包括以下步骤:首先取第一条综合特征向量单独为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时,计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束;
第四步:特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,把N个观察窗口序列转换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串;
第五步:异变过程学习模块首先给定待考察单词大小;然后把特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程的特征。
CN201510551876.XA 2015-09-01 2015-09-01 一种时序数据异常变化过程的挖掘***及方法 Pending CN105205113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510551876.XA CN105205113A (zh) 2015-09-01 2015-09-01 一种时序数据异常变化过程的挖掘***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510551876.XA CN105205113A (zh) 2015-09-01 2015-09-01 一种时序数据异常变化过程的挖掘***及方法

Publications (1)

Publication Number Publication Date
CN105205113A true CN105205113A (zh) 2015-12-30

Family

ID=54952796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510551876.XA Pending CN105205113A (zh) 2015-09-01 2015-09-01 一种时序数据异常变化过程的挖掘***及方法

Country Status (1)

Country Link
CN (1) CN105205113A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106921599A (zh) * 2017-04-26 2017-07-04 中国民用航空总局第二研究所 一种基于聚类的交叠信号消除方法及***
CN108960537A (zh) * 2018-08-17 2018-12-07 安吉汽车物流股份有限公司 物流订单的预测方法及装置、可读介质
WO2019037557A1 (zh) * 2017-08-25 2019-02-28 清华大学 一种机车运行时序特征学习方法
CN109582482A (zh) * 2017-09-29 2019-04-05 西门子公司 用于检测离散型生产设备的异常的方法及装置
CN110020190A (zh) * 2018-07-05 2019-07-16 中国科学院信息工程研究所 一种基于多示例学习的可疑威胁指标验证方法及***
CN110032490A (zh) * 2018-12-28 2019-07-19 ***股份有限公司 用于检测***异常的方法及其装置
CN111651755A (zh) * 2020-05-08 2020-09-11 中国联合网络通信集团有限公司 入侵检测方法和装置
CN112732541A (zh) * 2020-12-28 2021-04-30 北京航空航天大学 一种用于复杂装备故障诊断的智能判据挖掘***
CN112966016A (zh) * 2021-03-01 2021-06-15 北京青萌数海科技有限公司 一种异常检测方法
CN113515554A (zh) * 2020-04-09 2021-10-19 华晨宝马汽车有限公司 用于不规则采样的时间序列的异常检测方法和***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106921599A (zh) * 2017-04-26 2017-07-04 中国民用航空总局第二研究所 一种基于聚类的交叠信号消除方法及***
CN106921599B (zh) * 2017-04-26 2019-08-13 中国民用航空总局第二研究所 一种基于聚类的交叠信号消除方法及***
WO2019037557A1 (zh) * 2017-08-25 2019-02-28 清华大学 一种机车运行时序特征学习方法
CN109582482A (zh) * 2017-09-29 2019-04-05 西门子公司 用于检测离散型生产设备的异常的方法及装置
CN110020190A (zh) * 2018-07-05 2019-07-16 中国科学院信息工程研究所 一种基于多示例学习的可疑威胁指标验证方法及***
CN110020190B (zh) * 2018-07-05 2021-06-01 中国科学院信息工程研究所 一种基于多示例学习的可疑威胁指标验证方法及***
CN108960537A (zh) * 2018-08-17 2018-12-07 安吉汽车物流股份有限公司 物流订单的预测方法及装置、可读介质
CN108960537B (zh) * 2018-08-17 2020-10-13 安吉汽车物流股份有限公司 物流订单的预测方法及装置、可读介质
CN110032490A (zh) * 2018-12-28 2019-07-19 ***股份有限公司 用于检测***异常的方法及其装置
CN113515554A (zh) * 2020-04-09 2021-10-19 华晨宝马汽车有限公司 用于不规则采样的时间序列的异常检测方法和***
CN111651755A (zh) * 2020-05-08 2020-09-11 中国联合网络通信集团有限公司 入侵检测方法和装置
CN111651755B (zh) * 2020-05-08 2023-04-18 中国联合网络通信集团有限公司 入侵检测方法和装置
CN112732541A (zh) * 2020-12-28 2021-04-30 北京航空航天大学 一种用于复杂装备故障诊断的智能判据挖掘***
CN112732541B (zh) * 2020-12-28 2023-05-09 北京航空航天大学 一种用于复杂装备故障诊断的智能判据挖掘***
CN112966016A (zh) * 2021-03-01 2021-06-15 北京青萌数海科技有限公司 一种异常检测方法

Similar Documents

Publication Publication Date Title
CN105205113A (zh) 一种时序数据异常变化过程的挖掘***及方法
CN108008332B (zh) 一种基于数据挖掘的新能源远程测试设备故障诊断方法
CN105205112A (zh) 一种时序数据异常特征的挖掘***及方法
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及***
CN108875772B (zh) 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN108435819B (zh) 一种铝型材挤压机能耗异常检测方法
CN111426905B (zh) 一种配电网同母线变关系异常诊断方法、装置及***
CN105205111A (zh) 一种挖掘时序数据故障模式的***及方法
CN106682835B (zh) 一种数据驱动的复杂机电***服役质量状态评估方法
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
US20220179393A1 (en) Machine tool evaluation method, machine tool evaluation system and medium
CN106446081B (zh) 基于变化一致性挖掘时序数据关联关系的方法
CN113485244A (zh) 一种基于刀具磨损预测的数控机床控制***及其方法
CN112215307B (zh) 一种应用机器学习自动检测地震仪器信号异常的方法
CN116070140B (zh) 一种配电变电站安全运行状态监测***及方法
CN110888850B (zh) 一种基于电力物联网平台的数据质量检测方法
CN115310499B (zh) 一种基于数据融合的工业设备故障诊断***及方法
CN116578833A (zh) 基于优化随机森林模型的igbt模块老化故障诊断***
CN111241145A (zh) 一种基于大数据的自愈规则挖掘方法及装置
CN114021855A (zh) 一种基于历史数据的牵引电机温升预测方法
Chen et al. Hass: High accuracy spike sorting with wavelet package decomposition and mutual information
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及***
CN116298881B (zh) 基于通道注意力多模块lmmd的电信号电机健康预警方法
Liu et al. Research and application of wear prediction method of NC milling cutter based on data-driven
CN112307990A (zh) 基于ai技术分析振动信号监控机床加工中心健康状态方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151230

RJ01 Rejection of invention patent application after publication