CN114139624A - 一种基于集成模型挖掘时间序列数据相似性信息的方法 - Google Patents

一种基于集成模型挖掘时间序列数据相似性信息的方法 Download PDF

Info

Publication number
CN114139624A
CN114139624A CN202111438131.4A CN202111438131A CN114139624A CN 114139624 A CN114139624 A CN 114139624A CN 202111438131 A CN202111438131 A CN 202111438131A CN 114139624 A CN114139624 A CN 114139624A
Authority
CN
China
Prior art keywords
data
time sequence
series data
time
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111438131.4A
Other languages
English (en)
Inventor
杨旭
王淼
雷云霖
蔡建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111438131.4A priority Critical patent/CN114139624A/zh
Publication of CN114139624A publication Critical patent/CN114139624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于集成模型的用于挖掘时间序列数据相似性信息的方法,其中包括了隐马尔可夫模型以及基于Wasserstein距离的条件变分自编码器模型。该方法建立输入层,对输入的时间序列进行初步处理;随后由隐马尔可夫分类层和条件变分编码器层分别进行对输入数据进行学习并分类;学习结束后,通过进一步优化,将两层将两个分类模型通过Stacking算法融合,可以并行训练。同时创新型地使用Wasserstein距离取代KL散度来度量两个时间序列的距离,让分类器具有更广泛的应用。本发明不仅可以更好地开展从时间序列隐藏状态和分布上的相似信息挖掘,还能将挖掘到的所有信息融合,这使得模型的学习更有效,运行效率更高且具有更广泛的应用性。

Description

一种基于集成模型挖掘时间序列数据相似性信息的方法
技术领域
本发明属于数据挖掘、机器学习技术领域,特别涉及一种基于集成模型挖掘时间序列数据相似性信息的方法。
背景技术
在时间序列数据挖掘中,相似性信息是比较关键的信息,也是数据挖掘的出发点之一。但是现在对于时间序列数据的挖掘中,很多算法都丢失了数据分布的相似性信息,只是从数据的角度进行相似性计算。这种仅仅依靠数据角度的相似性挖掘是一种信息损失,这种损失会导致一些隐式包含在时间序列数据的特征被丢失,会影响学习的效果,导致学习到的分布和真实分布差距较大。目前缺乏利用时间序列分布信息的算法,分布相似性是统计学中重点研究的问题之一,但在挖掘时间序列数据信息中,挖掘分布相似性还没有被广泛地讨论。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于集成模型挖掘时间序列数据相似性信息的方法,基于集成模型,集成了用于挖掘时间序列数据隐信息的隐马尔可夫分类器和用于挖掘时间序列数据分布相似信息的基于Wasserstein距离的条件变分自编码分类器,利用集成模型学习挖掘时间序列数据信息,将时间序列数据分类。本发明不仅可以有效地分类时间序列数据,还可以集成时间序列数据的离散性信息和连续性信息,使得学习更有效,可以并行,运行效率更高。
为了实现上述目的,本发明采用的技术方案是:
一种由隐马尔可夫模型和基于Wasserstein距离的条件变分自编码器集成的用于挖掘时间序列分布相似性信息的方法,包括如下步骤:
步骤1:对原始的时间序列数据进行处理,得到处理后的时间序列数据。原始的时间序列数据是指直接采集到的未分类的时间序列数据,原始的时间序列数据可以被分成一个或者多个类别,具体包括如下步骤:
步骤1.1:将原始的时间序列数据进行分类,使用杰卡德距离度量原始的时间序列,将距离相近的时间序列数据聚类,得到分类的时间序列数据;
步骤1.2:对步骤1.1中得到的分类的时间序列数据的某一类中某一个时间序列数据A使用最小哈希函数转化成签名向量sig(A);
步骤1.3:在得到步骤1.2的sig(A)后,将sig(A)分成不同的段,每个段上都有一个段位标记。
步骤1.4:对步骤1.1中的所有分类的时间序列数据重复步骤1.1到步骤1.3,这样得到了所有分类的时间序列数据的段位标记,根据相同的段位标记确定分类的时间序列数据的相似性,将段位标记不同的数据删除,完成数据预处理,得到处理后的时间序列数据。
步骤2:建立基础分类层,将处理后的时间序列数据输入到基础分类层中的若干个弱分类器进行初步分类;基础分类层包括两个模型,分别是利用隐马尔可夫模型得到的隐马尔可夫弱分类器和利用基于Wasserstein距离的条件变分自编码器得到的条件变分自编码器弱分类器;基础分类层输出一个与输入数据大小相同的新数据集,具体包括如下步骤:
步骤2.1:将步骤1得到的处理后的时间序列数据输入到基础分类层的隐马尔可夫分类模型中,使用前向-后向算法、鲍姆-韦尔奇算法求解参数,使用维特比算法进行解码,得到隐马尔可夫弱分类器,求解参数具体包括如下步骤:
步骤2.1.1:对一个处理后的时间序列数据O={o1,o2,o3…,oT}使用前向-后向算法,计算得到处理后的时间序列数据在隐马尔可夫分类器λ=(A,B,π)时的出现概率P(O|λ)。其中o1,o2,o3…,oT表示从时刻1到时刻T的处理后的时间序列数据的数值,A表示隐藏状态转移概率矩阵,B表示观测状态生成概率矩阵,观测状态即指处理后的时间序列数据数值,π表示隐藏状态的初始概率分布;
步骤2.1.2:对D个处理后的时间序列数据{(O1),(O2),...,(OD)}使用鲍姆-韦尔奇算法计算得到隐马尔可夫分类器λ的参数A,B,π。其中,(Oi),i=1,2,…D表示第i个处理后的时间序列数据;
步骤2.1.3:对隐马尔可夫分类器λ=(A,B,Π)使用维特比算法,计算得到处理后的时间序列O={o1,o2,o3…,oT}最有可能的隐藏状态序列
Figure BDA0003382081730000031
其中
Figure BDA0003382081730000032
表示处理后的时间序列数据O在时刻i的数值oi的隐藏状态。
步骤2.2:将步骤1得到的处理后的时间序列数据输入到基础分类层的条件变分自编码器,使用Sinkhorn近似算法计算时间序列数据的Wasserstein距离,得到条件变分自编码器弱分类器,构建条件变分自编码器弱分类器包括如下步骤:
步骤2.2.1:对处理后的时间序列数据中的某一类数据进行抽样,得到一个时间序列数据样本O,通过神经网络编码器输出正态分布的统计量μ,σ2,其中μ表示正态分布的均值,σ2表示正态分布的方差;
步骤2.2.2:对标准正态分布N(0,1)进行抽样,得到一个样本∈。对步骤2.2.1神经网络编码器输出的μ,σ2和样本∈进行公式1的运算得到
Figure BDA0003382081730000037
Figure BDA0003382081730000033
其中,
Figure BDA0003382081730000038
服从正态分布N(μ,σ2);
步骤2.2.3:
Figure BDA0003382081730000034
经过神经网络解码器输出和处理后的时间序列数据相同维度的数据
Figure BDA0003382081730000035
步骤2.2.4:使用Wasserstein距离测量处理后的时间序列数据样本O和神经网络解码器输出数据
Figure BDA0003382081730000036
的距离作为优化目标误差ε的一部分。多次迭代让优化目标达到最优,得到训练好的神经网络解码器,计算Wasserstein距离包括如下步骤:
步骤2.2.4.1:通过引入熵正则项对处理后的时间序列数据样本O和神经网络解码器输出数据
Figure BDA0003382081730000041
进行降维平滑处理,熵正则函数为:
Figure BDA0003382081730000042
Figure BDA0003382081730000043
其中,p(x)表示处理后的时间序列数据分布函数,p(xk)表示时刻k时处理后的时间序列数据为xk的概率;
步骤2.2.4.2:使用Sinkhorn近似算法计算Wasserstein距离来简化计算量。结合步骤2.2.4.1的熵正则函数得到Wasserstein距离的计算公式为公式2:
Figure BDA0003382081730000044
其中,
Figure BDA0003382081730000045
表示处理后的时间序列数据O和神经网络解码器输出数据
Figure BDA0003382081730000046
的Wasserstein距离,
Figure BDA0003382081730000047
表示在时刻n时,从
Figure BDA0003382081730000048
转移到on的代价函数;
步骤2.2.4.3:把Wasserstein距离整合到优化目标误差ε中,得到优化目标的表达是为公式3;
Figure BDA0003382081730000049
其中,
Figure BDA00033820817300000410
表示由
Figure BDA00033820817300000411
重建O的重建误差,计算方式为公式4。
Figure BDA00033820817300000412
其中,
Figure BDA00033820817300000413
表示重建O的结果是
Figure BDA00033820817300000414
的概率;
步骤2.2.5:将处理后的时间序列数据输入到步骤2.2.4中的神经网络编码器和训练好的神经网络解码器中,输出得到和处理后的时间序列数据分布接近一致的生成时间序列数据。
步骤3:建立集成融合层,利用基础分类层的输出作为集成融合层的输入,通过融合基础分类层中的若干个弱分类器进行集成学习训练出次级学习器,得到最后的集成模型,具体包括如下步骤;
步骤3.1:将处理后的时间序列数据输入到基础分类层中的两个弱分类器,收集输出数据作为集成训练数据集,集成训练数据集的数据类别个数和处理后的时间序列数据的数据类别个数一致。
步骤3.2:构建次级学习器,将步骤3.1中收集的集成训练数据集作为次级学习器的训练数据,使次级学习器学习基础分类层的输出,构建次级学习器的过程包括如下步骤:
步骤3.2.1:使用支持向量机分类器作为次级学习器,在任意两类样本之间构建一个支持向量机来进行分类。因此,如果集成训练数据集的数据类别个数为k,那么就需要构建
Figure BDA0003382081730000051
个支持向量机分类器;
步骤3.2.2:将集成训练数据集输入
Figure BDA0003382081730000052
个支持向量机分类器进行训练,训练结束后,对于未知类别的样本,统计每个支持向量机分类器的分类类别,得票最多的类别为该未知类别样本的类别,并将类别作为输出;
步骤3.3:将次级学习器的输出作为集成融合层的最终输出。
步骤4:利用得到的集成模型挖掘时间序列数据的相似性信息。
与现有技术相比,本发明的有益效果是:
1)、本发明可以基于隐变量对时间序列数据的相似性特征进行提取,可以集成时间序列的离散信息和连续信息并用于数据挖掘,补充现在时间序列数据挖掘方法的空白。
2)、本发明引入了基于Wasserstein距离的条件变分自编码器,将原模型中用于度量的KL散度改为Wasserstein距离,并利用Sinkhorn算法进行近似计算,使得隐变量对更广泛的数据分布进行拟合,节省计算资源。
3)、本发明引入了集成学习,利用Stacking融合模型优化算法将挖掘时间序列隐藏状态信息的隐马尔可夫模型和把时间序列相似性信息数字化的基于Wasserstein距离的条件变分自编码器模型集成融合,降低冗余性,使得基学习器能相互取长补短,提到分类的准确性和运行效率。
4)、本发明可以用于时间序列数据异常检测和交通流数据预测,对于时间序列数据异常检测,可将正常情况的时间序列作为训练数据输入集成模型中学习,随后将需要检测的数据输入到模型中进行分类,得到待检测数据是否为异常数据,本方法可以实时处理,能够及时预警。对于交通流数据预测来说,先将一致的交通流数据进行标记处理,输入到集成模型中学习,学习结束后将待检测数据输入,判断此时的交通流是否有拥堵的可能性,可以改进其他方法对突发情况的预测不及时的缺陷,增加模型的鲁棒性。
附图说明
图1是本发明整体结构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,一种基于集成模型的用于挖掘时间序列数据相似性信息的方法,构建输入层、基础分类层和集成融合层。原始数据输入到输入层后经过数据预处理后得到样本数据。基础分类层包括两个弱分类器,分别是隐马尔可夫弱分类器和基于Wasserstein距离的条件变分自编码弱分类器。将处理后的时间序列数据并行输入到两个弱分类器中进行学习分类,输入到隐马尔可夫弱分类器后,针对每一类数据分别训练学习n个隐马尔可夫弱分类器λ1,λ2,…,λn,将处理后的时间序列数据输入到所有的分类器中得到n个概率p1,p2,…,pn,取所有结果中的最大值所在的类别标签作为隐马尔可夫弱分类器的最终分类结果。在使用隐马尔可夫弱分类器的同时,把处理后的时间序列数据输入到基于Wasserstein距离的条件变分自编码器弱分类器中学习训练,在输入中抽样得到样本x,x经过神经网络编码器得到正态分布N(μ,σ2)的充分统计量:均值μ以及方差σ2;随后由N(μ,σ2)抽样得到z,z经过神经网络解码器输出
Figure BDA0003382081730000061
这样就利用学习训练好的神经网络解码器由已知样本x生成了同分布下的新样本
Figure BDA0003382081730000062
最后将两个弱分类器的输出作为集成融合层的输入。这种集成算法可以在数据挖掘时结合两个方向的信息,使模型挖掘的信息更多,学习能力更强;同时,基学习器可以并行训练,运行效率更高。
参考图1,以挖掘时间序列数据为例,本发明包括如下步骤:
步骤1:对原始的时间序列数据进行预处理,得到处理后的时间序列数据。原始的时间序列数据是指直接采集到的未分类的时间序列数据,原始的时间序列数据可以被分成一个或者多个类别,具体包括如下步骤:
步骤1.1:将原始的时间序列数据进行分类,使用杰卡德距离度量原始的时间序列,将距离相近的时间序列数据聚类,得到分类的时间序列数据;
步骤1.2:对步骤1.1中得到的分类的时间序列数据的某一类中某一个时间序列数据A使用最小哈希函数转化成签名向量sig(A);
步骤1.3:在得到步骤1.2的sig(A)后,将sig(A)分成不同的段,每个段上都有一个段位标记。
步骤1.4:对步骤1.1中的所有分类的时间序列数据重复步骤1.1到步骤1.3,这样得到了所有分类的时间序列数据的段位标记,根据相同的段位标记确定分类的时间序列数据的相似性,将段位标记不同的数据删除,完成数据预处理,得到处理后的时间序列数据。
步骤2:建立基础分类层,将处理后的时间序列数据输入到基础分类层中的若干个弱分类器进行初步分类;基础分类层包括两个模型,分别是利用隐马尔可夫模型得到的隐马尔可夫弱分类器和利用基于Wasserstein距离的条件变分自编码器得到的条件变分自编码器弱分类器;基础分类层输出一个与输入数据大小相同的新数据集,具体包括如下步骤:
步骤2.1:将步骤1得到的处理后的时间序列数据输入到基础分类层的隐马尔可夫分类模型中,使用前向-后向算法、鲍姆-韦尔奇算法求解参数,使用维特比算法进行解码,得到隐马尔可夫弱分类器,求解参数具体包括如下步骤:
步骤2.1.1:对一个处理后的时间序列数据O={o1,o2,o3…,oT}使用前向-后向算法,计算得到处理后的时间序列数据在隐马尔可夫分类器λ=(A,B,π)时的出现概率P(O|λ)。其中o1,o2,o3…,oT表示从时刻1到时刻T的处理后的时间序列数据的数值,A表示隐藏状态转移概率矩阵,B表示观测状态生成概率矩阵,观测状态即指处理后的时间序列数据数值,π表示隐藏状态的初始概率分布;
步骤2.1.2:对D个处理后的时间序列数据{(O1),(O2),...,(OD)}使用鲍姆-韦尔奇算法计算得到隐马尔可夫分类器λ的参数A,B,π。其中,(Oi),i=1,2,…D表示第i个处理后的时间序列数据;
步骤2.1.3:对隐马尔可夫分类器λ=(A,B,Π)使用维特比算法,计算得到处理后的时间序列O={o1,o2,o3…,oT}最有可能的隐藏状态序列
Figure BDA0003382081730000081
其中
Figure BDA0003382081730000082
表示处理后的时间序列数据O在时刻i的数值oi的隐藏状态。
步骤2.2:将步骤1得到的处理后的时间序列数据输入到基础分类层的条件变分自编码器,使用Sinkhorn近似算法计算时间序列数据的Wasserstein距离,得到条件变分自编码器弱分类器,构建条件变分自编码器弱分类器包括如下步骤:
步骤2.2.1:对处理后的时间序列数据中的某一类数据进行抽样,得到一个时间序列数据样本O,通过神经网络编码器输出正态分布的统计量μ,σ2,其中μ表示正态分布的均值,σ2表示正态分布的方差;
步骤2.2.2:对标准正态分布N(0,1)进行抽样,得到一个样本∈。对步骤2.2.1神经网络编码器输出的μ,σ2和样本∈进行公式1的运算得到
Figure BDA0003382081730000088
Figure BDA0003382081730000083
其中,
Figure BDA0003382081730000084
服从正态分布N(μ,σ2);
步骤2.2.3:
Figure BDA0003382081730000085
经过神经网络解码器输出和处理后的时间序列数据相同维度的数据
Figure BDA0003382081730000086
步骤2.2.4:使用Wasserstein距离测量处理后的时间序列数据样本O和神经网络解码器输出数据
Figure BDA0003382081730000087
的距离作为优化目标误差ε的一部分。多次迭代让优化目标达到最优,得到训练好的神经网络解码器,计算Wasserstein距离包括如下步骤:
步骤2.2.4.1:通过引入熵正则项对处理后的时间序列数据样本O和神经网络解码器输出数据
Figure BDA0003382081730000091
进行降维平滑处理,熵正则函数为:
Figure BDA0003382081730000092
Figure BDA0003382081730000093
其中,p(x)表示处理后的时间序列数据分布函数,p(xk)表示时刻k时处理后的时间序列数据为xk的概率;
步骤2.2.4.2:使用Sinkhorn近似算法计算Wasserstein距离来简化计算量。结合步骤2.2.4.1的熵正则函数得到Wasserstein距离的计算公式为公式2:
Figure BDA0003382081730000094
其中,
Figure BDA0003382081730000095
表示处理后的时间序列数据O和神经网络解码器输出数据
Figure BDA0003382081730000096
的Wasserstein距离,
Figure BDA0003382081730000097
表示在时刻n时,从
Figure BDA0003382081730000098
转移到on的代价函数;
步骤2.2.4.3:把Wasserstein距离整合到优化目标误差ε中,得到优化目标的表达是为公式3;
Figure BDA0003382081730000099
其中,
Figure BDA00033820817300000910
表示由
Figure BDA00033820817300000911
重建O的重建误差,计算方式为公式4。
Figure BDA00033820817300000912
其中,
Figure BDA00033820817300000913
表示重建O的结果是
Figure BDA00033820817300000914
的概率;
步骤2.2.5:将处理后的时间序列数据输入到步骤2.2.4中的神经网络编码器和训练好的神经网络解码器中,输出得到和处理后的时间序列数据分布接近一致的生成时间序列数据。
步骤3:建立集成融合层,利用基础分类层的输出作为集成融合层的输入,通过融合基础分类层中的若干个弱分类器进行集成学习训练出次级学习器,得到最后的集成模型,具体包括如下步骤;
步骤3.1:将处理后的时间序列数据输入到基础分类层中的两个弱分类器,收集输出数据作为集成训练数据集,集成训练数据集的数据类别个数和处理后的时间序列数据的数据类别个数一致。
步骤3.2:构建次级学习器,将步骤3.1中收集的集成训练数据集作为次级学习器的训练数据,使次级学习器学习基础分类层的输出,构建次级学习器的过程包括如下步骤:
步骤3.2.1:使用支持向量机分类器作为次级学习器,在任意两类样本之间构建一个支持向量机来进行分类。因此,如果集成训练数据集的数据类别个数为k,那么就需要构建
Figure BDA0003382081730000101
个支持向量机分类器;
步骤3.2.2:将集成训练数据集输入
Figure BDA0003382081730000102
个支持向量机分类器进行训练,训练结束后,对于未知类别的样本,统计每个支持向量机分类器的分类类别,得票最多的类别为该未知类别样本的类别,并将类别作为输出;
步骤3.3:将次级学习器的输出作为集成融合层的最终输出。
步骤4:利用得到的集成模型挖掘时间序列数据的相似性信息。
以下是本发明在网站识别中的一个具体应用案例。以五个网站流量的时间序列数据为实验数据,通过集成模型挖掘时间序列数据的相似性进行网络识别,确认未知类别的网站流量时间序列数据的所属类别。
在该例中,原始时间序列数据为长度为2525,宽度为1024的时间序列,长度表示本例的时间序列数据包含的采集时刻数量,宽度表示每个采集时刻对应的网站流量,原始时间序列数据中包含了5个网站的流量时间序列数据。首先,对原始时间序列数据进行数据预处理,在该例中选择局部敏感哈希算法删除部分数据,所以在最小哈希处理数据的基础上,将每个签名向量分为六段,将相似度尽可能高的数据保留,相似度较低的数据删除,降低噪声的干扰。随后,对每一类网站的时间序列数据中选择200个作为原始时间序列数据得到处理后的时间序列数据。下一步,对处理后的时间序列数据按照类别依次输入到本发明所述的步骤2构建基础分类层。下一步,将处理后的时间序列数据输入本发明所述的步骤2.1的隐马尔可夫弱分类器中进行隐信息挖掘,本例中输入的大小是1024*1。同时,将处理后的时间序列数据并行输入本发明所述的步骤2.2的基于Wasserstein距离的条件变分自编码器弱分类器中学习输入时间序列数据的分布,本例中输入数据的大小是1024*1。值得注意的是,如步骤2.2.1所述,在抽样时需要保证抽得的样本分布均匀,因此对每一类的处理后的时间序列数据的采集个数是相同的。然后按照本发明所述的步骤2.2.2到步骤2.2.5对抽样的时间序列数据进行学习。学习结束后,将基础分类层的输出作为集成融合层的输入,按照本发明的步骤3对输入进行学习,等待集成融合层学习结束后,集成融合层就可以用来进行网站识别。将未知网站的流量时间序列数据输入到集成融合层中,得到的输出分类就是该未知网站的类别。
本发明还可以用于其他工业场景,比如交通流的预测。需要注意的是,交通流预测是一个回归问题而不是分类问题,因此需要对集成模型的输出稍作修改,依靠基于Wasserstein距离的条件变分自编码器来学习交通流数据的分布,输出对某一时刻的预测流量。具体步骤为:首先,原始的时间序列数据为某地的交通流量时间序列数据,原始的时间序列数据长度表示该时间序列包含的时刻数量,宽度表示某时刻的交通流量。其次,将原始时间序列数据进行预处理,得到处理后的时间序列数据。下一步,将处理后的时间序列数据输入到基础分类层进行类别信息挖掘,得到输出数据。下一步,将基础分类层输出的时刻作为集成融合层中的次级学习器的输入来学习基础分类层输出的交通流量,次级学习器的输出是交通流量,并将次级学习器的输出作为集成融合层的输出。最后,将需要预测的时刻输入到集成融合层中,得到的输出就是预测的交通流量。这样就通过挖掘交通流量时间序列数据的相似性信息来进行预测。
同时,本发明还可以用于其他维度的时间序列数据,比如识别语音来源,语音时间序列数据包含了发音时刻、发音时长、发音间隔三个维度,比上述案例中的网站流量时间序列数据和交通流量时间序列数据多了一个维度。可以直接将语音时间序列数据输入到基础分类层中进行分类学习,随后将基础分类层的输出作为集成融合层的输入进行分类学习,最后将未知类别的语音时间序列数据作为集成融合层的输入,输出的类别为未知类别的语音时间序列数据的类别。这样就可以利用同来源的语音时间序列数据的相似性来识别语音来源。

Claims (8)

1.一种基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,包括如下步骤:
步骤1:对原始的时间序列数据进行处理,将其分成一个或者多个类别,所述原始的时间序列数据是指直接采集到的未分类的时间序列数据;
步骤2:建立基础分类层,将处理后的时间序列数据输入到基础分类层中的若干个弱分类器进行初步分类;基础分类层包括两个模型,分别是利用隐马尔可夫模型得到的隐马尔可夫弱分类器和利用基于Wasserstein距离的条件变分自编码器得到的条件变分自编码器弱分类器;基础分类层输出一个与输入数据大小相同的新数据集;
步骤3:建立集成融合层,利用基础分类层的输出作为集成融合层的输入,通过融合基础分类层中的若干个弱分类器进行集成学习训练出次级学习器,得到最后的集成模型;
步骤4:利用得到的集成模型挖掘时间序列数据的相似性信息。
2.根据权利要求1所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:将原始的时间序列数据进行分类,使用杰卡德距离度量原始的时间序列,将距离相近的时间序列数据聚类,得到分类的时间序列数据;
步骤1.2:对分类的时间序列数据的某一类中某一个时间序列数据A使用最小哈希函数转化成签名向量sig(A);
步骤1.3:将sig(A)分成不同的段,每个段上都有一个段位标记;
步骤1.4:对所有分类的时间序列数据重复步骤1.2到步骤1.4,得到了所有分类的时间序列数据的段位标记,根据相同的段位标记确定分类的时间序列数据的相似性,将段位标记不同的数据删除,完成数据处理。
3.根据权利要求1所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤2建立基础分类层具体包括以下步骤:
步骤2.1:将处理后的时间序列数据输入到基础分类层的隐马尔可夫分类模型中,使用前向-后向算法、鲍姆-韦尔奇算法求解参数,使用维特比算法进行解码,得到隐马尔可夫弱分类器;
步骤2.2:将处理后的时间序列数据输入到基础分类层的条件变分自编码器,使用Sinkhorn近似算法计算时间序列数据的Wasserstein距离,得到条件变分自编码器弱分类器。
4.根据权利要求3所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤2.1构建隐马尔可夫弱分类器具体包括以下步骤:
步骤2.1.1:对一个处理后的时间序列数据O={o1,o2,o3…,oT}使用前向-后向算法,计算得到处理后的时间序列数据在隐马尔可夫分类器λ=(A,B,π)时的出现概率P(O|λ);其中o1,o2,o3…,oT表示从时刻1到时刻T的处理后的时间序列数据的数值,A表示隐藏状态转移概率矩阵,B表示观测状态生成概率矩阵,观测状态即指处理后的时间序列数据数值,π表示隐藏状态的初始概率分布;
步骤2.1.2:对D个处理后的时间序列数据{(O1),(O2),...,(OD)}使用鲍姆-韦尔奇算法计算得到隐马尔可夫分类器λ的参数A,B,π;其中,(Oi),i=1,2,…D表示第i个处理后的时间序列数据;
步骤2.1.3:对隐马尔可夫分类器λ=(A,B,Π)使用维特比算法,计算得到处理后的时间序列O={o1,o2,o3…,oT}最有可能的隐藏状态序列
Figure FDA0003382081720000021
其中
Figure FDA0003382081720000022
表示处理后的时间序列数据O在时刻i的数值oi的隐藏状态。
5.根据权利要求4所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤2.2构建条件变分自编码器弱分类器具体包括以下步骤:
步骤2.2.1:对处理后的时间序列数据中的某一类数据进行抽样,得到一个时间序列数据样本O,通过神经网络编码器输出正态分布的统计量μ,σ2,其中μ表示正态分布的均值,σ2表示正态分布的方差;
步骤2.2.2:对标准正态分布N(0,1)进行抽样,得到一个样本∈,对步骤2.2.1神经网络编码器输出的μ,σ2和样本∈进行公式1的运算得到
Figure FDA0003382081720000031
Figure FDA0003382081720000032
其中,
Figure FDA0003382081720000033
服从正态分布N(μ,σ2);
步骤2.2.3:
Figure FDA0003382081720000034
经过神经网络解码器输出和处理后得到时间序列数据相同维度的数据
Figure FDA0003382081720000035
步骤2.2.4:使用Wasserstein距离测量处理后的时间序列数据样本O和神经网络解码器输出数据
Figure FDA0003382081720000036
的距离作为优化目标误差ε的一部分,多次迭代使优化目标达到最优,得到训练好的神经网络解码器;
步骤2.2.5:将处理后的时间序列数据输入到步骤2.2.4中的神经网络编码器和训练好的神经网络解码器中,输出得到和处理后的时间序列数据分布接近一致的生成时间序列数据。
6.根据权利要求5所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤2.2.4计算Wasserstein距离具体包括以下步骤:
步骤2.2.4.1:通过引入熵正则项对处理后的时间序列数据样本O和神经网络解码器输出数据
Figure FDA0003382081720000037
进行降维平滑处理,熵正则函数为:
Figure FDA0003382081720000038
Figure FDA0003382081720000039
其中,p(x)表示处理后的时间序列数据分布函数,p(xk)表示时刻k时处理后的时间序列数据为xk的概率;
步骤2.2.4.2:使用Sinkhorn近似算法计算Wasserstein距离来简化计算量,结合步骤2.2.4.1的熵正则函数得到Wasserstein距离的计算公式为公式2:
Figure FDA00033820817200000310
其中,
Figure FDA0003382081720000041
表示处理后的时间序列数据O和神经网络解码器输出数据
Figure FDA0003382081720000042
的Wasserstein距离,
Figure FDA0003382081720000043
表示在时刻n时,从
Figure FDA0003382081720000044
转移到on的代价函数;
步骤2.2.4.3:把Wasserstein距离整合到优化目标误差ε中,得到优化目标的表达是为公式3;
Figure FDA0003382081720000045
其中,
Figure FDA0003382081720000046
表示由
Figure FDA0003382081720000047
重建O的重建误差,计算方式为公式4;
Figure FDA0003382081720000048
其中,
Figure FDA0003382081720000049
表示重建O的结果是
Figure FDA00033820817200000410
的概率。
7.根据权利要求1基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤3构建集成融合层包括如下步骤:
步骤3.1:将处理后的时间序列数据输入到基础分类层中的两个弱分类器,收集输出数据作为集成训练数据集,集成训练数据集的数据类别个数和处理后的时间序列数据的数据类别个数一致;
步骤3.2:构建次级学习器,将收集的集成训练数据集作为次级学习器的训练数据,使次级学习器学习基础分类层的输出;
步骤3.3:将次级学习器的输出作为集成融合层的最终输出。
8.根据权利要求7所述基于集成模型挖掘时间序列数据相似性信息的方法,其特征在于,所述步骤3.2构建次级学习器包括如下步骤:
步骤3.2.1:使用支持向量机分类器作为次级学习器,在任意两类样本之间构建一个支持向量机来进行分类,集成训练数据集的数据类别个数为k,额需要构建
Figure FDA00033820817200000411
个支持向量机分类器;
步骤3.2.2:将集成训练数据集输入
Figure FDA00033820817200000412
个支持向量机分类器进行训练,训练结束后,对于未知类别的样本,统计每个支持向量机分类器的分类类别,得票最多的类别为该未知类别样本的类别,并将类别作为输出。
CN202111438131.4A 2021-11-29 2021-11-29 一种基于集成模型挖掘时间序列数据相似性信息的方法 Pending CN114139624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111438131.4A CN114139624A (zh) 2021-11-29 2021-11-29 一种基于集成模型挖掘时间序列数据相似性信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111438131.4A CN114139624A (zh) 2021-11-29 2021-11-29 一种基于集成模型挖掘时间序列数据相似性信息的方法

Publications (1)

Publication Number Publication Date
CN114139624A true CN114139624A (zh) 2022-03-04

Family

ID=80389582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111438131.4A Pending CN114139624A (zh) 2021-11-29 2021-11-29 一种基于集成模型挖掘时间序列数据相似性信息的方法

Country Status (1)

Country Link
CN (1) CN114139624A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599984A (zh) * 2022-09-09 2023-01-13 北京理工大学(Cn) 一种检索方法
CN116304358A (zh) * 2023-05-17 2023-06-23 济南安迅科技有限公司 一种用户数据采集方法
CN117993500A (zh) * 2024-04-07 2024-05-07 江西为易科技有限公司 基于人工智能的医学教学数据管理方法及***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599984A (zh) * 2022-09-09 2023-01-13 北京理工大学(Cn) 一种检索方法
CN115599984B (zh) * 2022-09-09 2023-06-09 北京理工大学 一种检索方法
CN116304358A (zh) * 2023-05-17 2023-06-23 济南安迅科技有限公司 一种用户数据采集方法
CN116304358B (zh) * 2023-05-17 2023-08-08 济南安迅科技有限公司 一种用户数据采集方法
CN117993500A (zh) * 2024-04-07 2024-05-07 江西为易科技有限公司 基于人工智能的医学教学数据管理方法及***

Similar Documents

Publication Publication Date Title
CN114139624A (zh) 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及***
CN112015863A (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN111507827A (zh) 一种健康风险评估的方法、终端及计算机存储介质
CN113779260A (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及***
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级***
CN110751191A (zh) 一种图像的分类方法及***
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN110717602B (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关***、设备
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及***
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN117152504A (zh) 一种空间相关性引导的原型蒸馏小样本分类方法
CN115391523A (zh) 风电场多源异构数据处理方法及装置
CN114781779A (zh) 一种无监督能耗异常检测方法、装置及存储介质
CN113420733A (zh) 一种高效分布式大数据数据采集实现方法及***
CN114153976A (zh) 基于社交媒体数据的交通事件分类方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination