CN114168822A - 一种时间序列数据聚类模型建立及时间序列数据聚类方法 - Google Patents
一种时间序列数据聚类模型建立及时间序列数据聚类方法 Download PDFInfo
- Publication number
- CN114168822A CN114168822A CN202111457339.0A CN202111457339A CN114168822A CN 114168822 A CN114168822 A CN 114168822A CN 202111457339 A CN202111457339 A CN 202111457339A CN 114168822 A CN114168822 A CN 114168822A
- Authority
- CN
- China
- Prior art keywords
- time
- data
- series data
- clustering
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种时间序列数据聚类模型建立方法及时间序列数据聚类方法,涉及数据聚类技术领域。本发明所述的时间序列数据聚类模型建立方法,包括:获取原始时间序列数据,将所述原始时间序列数据输入到深度神经网络中进行训练,得到所述原始时间序列数据的最终特征表示;根据所述最终特征表示通过对比学习对时间序列样本进行聚类,根据交叉熵调参直至训练完成,以建立时间序列数据聚类模型。本发明所述的技术方案,能够实现针对时间序列数据特点的高效特征表示,有效解决当前已有算法存在的特征提取表达能力不足、相似数据之间结构信息挖掘不充分的问题,提高了时间序列数据聚类的准确性。
Description
技术领域
本发明涉及数据聚类技术领域,具体而言,涉及一种时间序列数据聚类模型建立及时间序列数据聚类方法。
背景技术
时间序列数据具有时间连续性,例如医学领域常用的心电图,或是温度传感器所采集的温度数据,通常都具备时间连续性。借助各类自动化设备和传感器采集得到的海量数据按其发生的时间先后顺序排列,因此原始数据中就包含了丰富的、有关联性的、十分值得深入挖掘的信息。随着各类电子设备的增多,时间序列数据规模随之增长,海量无标注的原始数据在不断产生,数据量的巨大和数据本身的杂乱阻碍了对此类数据进一步的分类整理和深入利用。
现有聚类算法普遍存在聚类结果与真实类别错误率较高、聚类结果随机性过大、有一定风险退化到平凡解以及对时间序列数据特点考虑不足的缺点,存在特征提取表达能力不足、相似数据之间结构信息挖掘不充分的问题,影响到时间序列数据的特征挖掘和提取。
发明内容
本发明解决的问题是如何提高时间序列数据聚类的准确性。
为解决上述问题,本发明提供一种时间序列数据聚类模型建立方法,包括:获取原始时间序列数据,将所述原始时间序列数据输入到深度神经网络中进行训练,其中,所述深度神经网络的训练过程包括:通过卷积神经网络提取所述原始时间序列数据的邻近时间步上的特征,通过双向长短期记忆网络提取所述原始时间序列数据的长距离时间步上的特征,通过多头注意力机制融合各个时间步上的特征,通过图卷积网络融合所述原始时间序列数据之间的结构特征,得到所述原始时间序列数据的最终特征表示;其中,所述原始时间序列数据包括心电图数据、交通流量数据、温湿度传感器数据或姿态传感器数据;根据所述最终特征表示通过对比学习对时间序列样本进行聚类,根据交叉熵调参直至训练完成,以建立时间序列数据聚类模型。
本发明所述的时间序列数据聚类模型建立方法,通过卷积神经网络充分捕获时间序列数据的局部特征,通过双向长短期记忆网络捕获时间序列数据长距离的周期趋势特征,并通过多头注意力机制将重点聚焦于蕴含信息较大的特点显著的时间片段,引入图卷积网络融合时间序列数据之间的结构特征,即融合由无监督对比学习判别得到的簇间隐含特征,实现针对时间序列数据特点的高效特征表示;采用相似度阈值划分方法在模型学习过程中动态构建邻接图,应用图卷积网络对数据进行邻居节点的更新,同时采用对比学习的方法在无监督地条件下创建伪类标,通过交叉熵训练模型,可以在不使用传统聚类算法的条件下,完成对时间序列数据的聚类,丰富了模型的特征提取能力,有效解决当前已有算法存在的特征提取表达能力不足、相似数据之间结构信息挖掘不充分的问题,提高了例如心电图数据、交通流量数据、温湿度传感器数据或姿态传感器数据等时间序列数据聚类的准确性。
可选地,所述获取原始时间序列数据包括:从不同领域获取所述原始时间序列数据并进行预处理,其中,所述预处理具体包括:采用Z-Score标准化方法将所述原始时间序列数据的均值调整为0,将所述原始时间序列数据的标准差调整为1;对于长度不相等的时间序列,将预设幅度波动的随机值添加到相对较短的时间序列的尾部;对于缺失的时间步进行线性插值处理。
本发明所述的时间序列数据聚类模型建立方法,通过对原始时间序列数据进行标准化预处理,有利于后期输入到深度神经网络中进行训练。
可选地,所述通过图卷积网络融合所述原始时间序列数据之间的结构特征包括:构造相似度矩阵,根据所述相似度矩阵构造邻接矩阵,根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征。
本发明所述的时间序列数据聚类模型建立方法,通过构造相似度矩阵来构造邻接矩阵,从而通过图卷积网络实现邻居节点的特征聚合,实现原始时间序列数据之间的结构特征融合。
可选地,所述构造相似度矩阵包括:根据所述多头注意力机制输出的隐藏表示对确定相似度矩阵元素,根据所述相似度矩阵元素构造所述相似度矩阵。
本发明所述的时间序列数据聚类模型建立方法,通过多头注意力机制输出的隐藏表示对确定相似度矩阵元素,从而可以构造相似度矩阵。
可选地,所述根据所述相似度矩阵构造邻接矩阵包括:设置阈值门限,根据所述相似度矩阵元素与所述阈值门限的比较结果确定中间矩阵元素,根据所述中间矩阵元素构造中间矩阵,根据所述中间矩阵和单位矩阵构造所述邻接矩阵。
本发明所述的时间序列数据聚类模型建立方法,根据相似度矩阵元素与阈值门限的比较结果确定中间矩阵的组成元素,从而可以构造中间矩阵来构造邻接矩阵。
可选地,所述根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征包括:根据所述邻接矩阵确定所述图卷积网络的层特征传播公式,根据所述图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
本发明所述的时间序列数据聚类模型建立方法,根据邻接矩阵确定图卷积网络的层特征传播公式,从而可以根据图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
可选地,所述根据所述最终特征表示通过对比学习对时间序列样本进行聚类包括:根据所述最终特征表示确定余弦相似度,根据所述余弦相似度建立损失函数,根据所述损失函数对所述时间序列样本进行聚类。
本发明所述的时间序列数据聚类模型建立方法,根据最终特征表示确定余弦相似度,根据余弦相似度建立损失函数,根据损失函数对时间序列样本进行聚类,使得不相似的样本在特征空间中尽可能地分开,而相似的样本尽可能地聚集,从而完成聚类任务。
可选地,所述时间序列数据聚类模型建立方法还包括:将所述时间序列数据聚类模型输出的聚类类别与所述原始时间序列数据对应的真实类别比较,以验证所述时间序列数据聚类模型的性能。
本发明所述的时间序列数据聚类模型建立方法,通过将时间序列数据聚类模型输出的聚类类别和原始数据的真实类别标签比较,可验证时间序列数据聚类模型的性能和有效性。
本发明还提供一种时间序列数据聚类方法,包括:将时间序列数据输入到上述时间序列数据聚类模型建立方法所建立的时间序列数据聚类模型中,得到所述时间序列数据的聚类结果。所述时间序列数据聚类方法与上述时间序列数据聚类模型建立方法相对于现有技术所具有的优势相同,在此不再赘述。
本发明还提供一种计算机可读存储介质,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上时间序列数据聚类模型建立方法或时间序列数据聚类方法。所述计算机可读存储介质与上述时间序列数据聚类模型建立方法相对于现有技术所具有的优势相同,在此不再赘述。
附图说明
图1为本发明实施例的时间序列数据聚类模型建立方法的流程示意图;
图2为本发明实施例的时间序列数据聚类模型的构建示意图;
图3为本发明实施例的多头注意力机制的示意图。
具体实施方式
首先对背景技术进行详细介绍。
目前传统聚类算法主要分为分划聚类(k均值、k-medoids、k-modes、k-medians、kernel k-means等)、密度聚类(DBSCAN、OPTICS等)、层次聚类(BIRCH、CURE、ROCK、Chameleon、AGNES等)、网格聚类(STING、CLIQUE等)、基于模型的聚类(高斯混合模型聚类、SOM等)以及核聚类和谱聚类等方法。此类方法可以基于某种相似性度量(比如欧几里得距离等)将相似数据划分为一个类。这些方法的相似性度量计算效率较低,并且对于高维的数据表现较差,算法整体计算复杂度较高,难以应用在大规模数据集上,往往需要借助主成分分析、核方法和谱方法等线性或非线性的变换,对数据进行降维和特征转换,以便将原始数据映射到新的特征空间。因此,时间序列数据的高度复杂性对传统方法来说是一个不小的挑战。随着深度学习的发展,神经网络对于特征的提取能力逐步增强,利用神经网络将数据转换为对聚类更加有利的表示,已经成为研究人员探索的方向。
较早利用深度神经网络对数据做嵌入的是DEC(Deep Embedded Clustering,深度嵌入聚类)算法,采用全连接网络作为自编码器,预训练时通过重建误差作为损失函数调整模型参数,然后丢弃解码器,仅保留编码器作为嵌入,在新的特征空间使用传统k均值算法得到聚类中心,并计算各个数据点与聚类中心的软分配概率,并以此构建了一个目标概率分布,使用相对熵作为损失函数调整网络参数。为了解决丢弃解码器后可能导致的嵌入空间被扭曲,IDEC(Improved Deep Embedded Clustering,改进深度嵌入聚类)提出保持解码器不变,并将损失函数设置为相对熵和重建损失之和。此外算法DCEC(Deep ConvolutionalEmbedded Clustering,深度卷积嵌入聚类)为了提升特征提取的能力,采取了将全连接网络替换成卷积神经网络的办法。算法DTC(Deep Temporal Clustering,深度时间聚类)则在此基础之上同时考虑时序数据的特性,特征提取网络在卷积神经网络的基础上再增加了双向长短期记忆网络,以求提升网络的提取能力。但现有算法普遍存在聚类结果与真实类别错误率较高、聚类结果随机性过大、有一定风险退化到平凡解以及对时间序列数据特点考虑不足的缺点。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
如图1所示,本发明实施例提供一种时间序列数据聚类模型建立方法,包括:获取原始时间序列数据,将所述原始时间序列数据输入到深度神经网络中进行训练,其中,所述深度神经网络的训练过程包括:通过卷积神经网络提取所述原始时间序列数据的邻近时间步上的特征,通过双向长短期记忆网络提取所述原始时间序列数据的长距离时间步上的特征,通过多头注意力机制融合各个时间步上的特征,通过图卷积网络融合所述原始时间序列数据之间的结构特征,得到所述原始时间序列数据的最终特征表示;其中,所述原始时间序列数据包括心电图数据、交通流量数据、温湿度传感器数据或姿态传感器数据;根据所述最终特征表示通过对比学习对时间序列样本进行聚类,根据交叉熵调参直至训练完成,以建立时间序列数据聚类模型。
具体地,在本实施例中,结合图2所示,深度神经网络包括3层一维卷积神经网络(Conv1D)、1层双向长短期记忆网络(Bi-LSTM)、多头注意力机制层(Multi-HeadAttention)、全连接层(Linear)和两层图卷积网络(GCN Layer1&Layer2)。在训练时,Conv1D层采用Leaky Relu激活函数激活,用于提取原始时间序列数据的局部特征,即原始时间序列数据的邻近时间步上的特征;再利用Bi-LSTM层对原始时间序列数据的全局特征(即原始时间序列数据的长距离时间步上的特征)进行提取,考虑到真实世界的时序数据可能与未来信息有关,因此使用双向LSTM(Bi-LSTM)避免使用外部信息来获取更多时序数据的特征;接着利用多头注意力机制对Bi-LSTM层的各个时间步上的输出进行进一步处理(参见图3,虽然多头注意力机制是直接对Bi-LSTM层的各个时间步上的输出进行处理,但Bi-LSTM层也对Conv1D层的输出进行了处理,因此多头注意力机制实质上融合了各个时间步上的特征),使得模型的关注重点聚焦于蕴含信息较大的特点显著的片段。
结合图2所示,Conv1D层和Leaky Relu层之间通过Batch Normalization(批标准化)层连接。多头注意力机制的计算结果将经过一个全连接的线性层,将所有d维的特征向量转化为k维,并经过非参数化的Softmax层,得到特征嵌入的中间结果。
其中,多头注意力机制的计算过程如公式(1)、(2)和(3)所示。
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (3)
其中,Q表示Bi-LSTM层最后一个时间步的输出,K和V表示Bi-LSTM层每个时间步输出的拼接,W表示权重矩阵。多头注意力机制与卷积神经网络和双向长短期记忆网络在时间序列数据各个时间步上的结合结构如图3所示。
结合图3所示,输入样本X0至XT,经过CNNEmbedding Layer(卷积嵌入层)e0至eT,经过Bi-LSTM Layer(双向长短期记忆层)输出hf0、hb0至hfT、hbT,经Multi-Head Attention(多头注意力机制层)后输出特征表示。
为了加入数据的结构信息,可通过计算特征向量的相似度,构建出归一化的相似性度量矩阵,在此基础上进一步构建时间序列之间的邻接矩阵,将时序数据之间的结构信息加入模型,通过图卷积网络融合特征向量邻居节点的信息,得到时序数据的最终隐藏表示。
特征向量的相似度将由如下方式计算。令H=fenc(Xinput),其中fenc表示前述卷积神经网络、长短期记忆网络和多头注意力机制模型,H为该部分的得到的特征表示,那么对于任意输入时间序列样本对<xi,xj>,可以得到隐藏表示对<hi,hj>,计算这两个嵌入向量的相似性并对结果进行归一化。
由此可以得到相似度矩阵S,S是对称矩阵且对角线元素为1,其中矩阵元素sij表示两个时间序列的表示向量之间的相似度。在此基础上,设置阈值门限θ,可以构造出样本之间的邻接矩阵Adj:
Adj=M-I (5)
其中I是单位矩阵,矩阵M中元素满足:
样本间关系由上述邻接矩阵描述,将在模型学习过程中动态更新,实现邻居节点的更新。邻居节点的特征聚合使用的是GCN(图卷积网络)。单层结构的计算过程如下所示:
利用图卷积网络,对上层表示学习得到的隐层向量进行节点间的聚合。通过两层图卷积网络聚合一阶和二阶邻居节点的信息。最后经过一层Softmax层,得到原始时间序列数据的最终特征表示。
神经网络的初始权重使用Kaiming分布的随机初始化完成。原始时间序列数据经过模型后,可以得到任意两个样本对的最终特征表示(hi,hj),通过余弦距离这一相似性度量,可以计算两个样本经过表示学习后在特征空间里的相似度sij,如公式(8)所示:
对于聚类任务来说,此时两个样本的真实标签是未知的,通过对比学习并采取阈值划分的办法,通过调整阈值控制聚类过程,高于该值的相似度将视为两个样本为同一类别,由此将无监督的聚类任务转化为对比两个样本,判定该样本对是否属于同一类别,得到一个样本对的二分类问题,使用二分类交叉熵(Binary Cross Entropy,BCE)作为损失函数来对模型进行训练优化。对比学习的损失函数可以用公式(9)表示:
Lij=BCE(rij,sij)=-rij·log(sij)-(1-rij)·log(1-sij) (9)
其中rij为根据阈值得到的伪类标,取值为{0,1}。模型会根据损失函数的指引,在学习过程中使得不相似的样本在特征空间中尽可能地分开,而相似的样本尽可能地聚集。通过调整阈值参数可以优化模型的学习过程,提高聚类任务的效果。例如应用在心电检测中,对于心电图心搏数据聚类更加准确,大大节省了医生的检查时间,提高诊断效率。
在本实施例中,通过卷积神经网络充分捕获时间序列数据的局部特征,通过双向长短期记忆网络捕获时间序列数据长距离的周期趋势特征,并通过多头注意力机制将重点聚焦于蕴含信息较大的特点显著的时间片段,引入图卷积网络融合时间序列数据之间的结构特征,即融合由无监督对比学习判别得到的簇间隐含特征,实现针对时间序列数据特点的高效特征表示;采用相似度阈值划分方法在模型学习过程中动态构建邻接图,应用图卷积网络对数据进行邻居节点的更新,同时采用对比学习的方法在无监督地条件下创建伪类标,通过交叉熵训练模型,可以在不使用传统聚类算法的条件下,完成对时间序列数据的聚类,丰富了模型的特征提取能力,有效解决当前已有算法存在的特征提取表达能力不足、相似数据之间结构信息挖掘不充分的问题,提高了例如心电图数据、交通流量数据、温湿度传感器数据或姿态传感器数据等时间序列数据聚类的准确性。
可选地,所述获取原始时间序列数据包括:从不同领域获取所述原始时间序列数据并进行预处理,其中,所述预处理具体包括:采用Z-Score标准化方法将所述原始时间序列数据的均值调整为0,将所述原始时间序列数据的标准差调整为1;对于长度不相等的时间序列,将预设幅度波动的随机值添加到相对较短的时间序列的尾部;对于缺失的时间步进行线性插值处理。
具体地,在本实施例中,原始时间序列数据可以是心电图、交通流量、温湿度传感器和姿态传感器等各种具有时间序列特征的数据,例如加利福尼亚大学河滨分校时间序列分类档案中的时间序列数据包括电子设备、心电图、图片、姿态动作、传感器、模拟信号、光谱、交通流量和弹道等时序数据,由于数据来自不同领域,因此部分原始数据需要经过标准化处理。对原始数据使用的标准化方式是Z-Score标准化,即将原始数据的均值调整为0,并且调整数据的标准差到1。此外针对小部分长度不相等的时间序列,将低幅度波动的随机值添加到相对较短的序列的尾部。而针对少部分存在缺失值的时间序列数据,针对偶尔缺失的时间步进行线性插值处理。该分类数据集中包含的类别标签信息将被隐去,不会被传入模型引发数据泄露问题。
在本实施例中,通过对原始时间序列数据进行标准化预处理,有利于后期输入到深度神经网络中进行训练。
可选地,所述通过图卷积网络融合所述原始时间序列数据之间的结构特征包括:构造相似度矩阵,根据所述相似度矩阵构造邻接矩阵,根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征。
具体地,在本实施例中,如上述公式(4)、(5)和(6)所示,通过图卷积网络融合所述原始时间序列数据之间的结构特征包括:构造相似度矩阵s,根据相似度矩阵构造邻接矩阵Adj,样本间关系由邻接矩阵描述,将在模型学习过程中动态更新,实现邻居节点的更新,通过图卷积网络实现邻居节点的特征聚合,即融合原始时间序列数据之间的结构特征。
在本实施例中,通过构造相似度矩阵来构造邻接矩阵,从而通过图卷积网络实现邻居节点的特征聚合,实现原始时间序列数据之间的结构特征融合。
可选地,所述构造相似度矩阵包括:根据所述多头注意力机制输出的隐藏表示对确定相似度矩阵元素,根据所述相似度矩阵元素构造所述相似度矩阵。
具体地,在本实施例中,构造相似度矩阵包括:根据多头注意力机制输出的隐藏表示对<hi,hj>确定相似度矩阵元素sij,从而可以构造相似度矩阵S。
在本实施例中,通过多头注意力机制输出的隐藏表示对确定相似度矩阵元素,从而可以构造相似度矩阵。
可选地,所述根据所述相似度矩阵构造邻接矩阵包括:设置阈值门限,根据所述相似度矩阵元素与所述阈值门限的比较结果确定中间矩阵元素,根据所述中间矩阵元素构造中间矩阵,根据所述中间矩阵和单位矩阵构造所述邻接矩阵。
具体地,在本实施例中,根据相似度矩阵构造邻接矩阵包括:设置阈值门限θ,参见公式(6),根据相似度矩阵元素sij与阈值门限θ的比较结果确定中间矩阵元素mij,从而可以构造中间矩阵M,参见公式(5),再根据中间矩阵M和单位矩阵I构造邻接矩阵Adj。
在本实施例中,根据相似度矩阵元素与阈值门限的比较结果确定中间矩阵的组成元素,从而可以构造中间矩阵来构造邻接矩阵。
可选地,所述根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征包括:根据所述邻接矩阵确定所述图卷积网络的层特征传播公式,根据所述图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
具体地,在本实施例中,参见上述公式(7),根据邻接矩阵确定图卷积网络的层特征传播公式,即公式(7),从而可以根据图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
在本实施例中,根据邻接矩阵确定图卷积网络的层特征传播公式,从而可以根据图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
可选地,所述根据所述最终特征表示通过对比学习对时间序列样本进行聚类包括:根据所述最终特征表示确定余弦相似度,根据所述余弦相似度建立损失函数,根据所述损失函数对所述时间序列样本进行聚类。
具体地,在本实施例中,参见上述公式(8),根据最终特征表示(hi,hj)确定余弦相似度sij,从而可以根据公式(9)建立对比学习的损失函数,根据损失函数对时间序列样本进行聚类,使得不相似的样本在特征空间中尽可能地分开,而相似的样本尽可能地聚集。
在本实施例中,根据最终特征表示确定余弦相似度,根据余弦相似度建立损失函数,根据损失函数对时间序列样本进行聚类,使得不相似的样本在特征空间中尽可能地分开,而相似的样本尽可能地聚集,从而完成聚类任务。
可选地,所述时间序列数据聚类模型建立方法还包括:将所述时间序列数据聚类模型输出的聚类类别与所述原始时间序列数据对应的真实类别比较,以验证所述时间序列数据聚类模型的性能。
具体地,在本实施例中,表示学习得到的特征向量经过最后一层Softmax层后可以代表样本属于每一个聚簇的概率,因此训练结束后,用特征向量的最大值下标作为类别标签,即可得到表示学习的聚类结果。
ci=argmax(hi) (10)
一般原始时间序列数据是含有真实类别标签的,本发明所采用的聚类算法在训练过程中不使用标签信息,但可以借助标签信息评价本发明聚类结果的有效性。应用公式(10)处理时间序列数据聚类模型的输出,将得到的聚类类别和原始数据的真实类别标签比较,可验证时间序列数据聚类模型的性能和有效性。
在本实施例中,通过将时间序列数据聚类模型输出的聚类类别和原始数据的真实类别标签比较,可验证时间序列数据聚类模型的性能和有效性。
本发明另一实施例提供一种时间序列数据聚类方法,包括:将时间序列数据输入到上述时间序列数据聚类模型建立方法所建立的时间序列数据聚类模型中,得到所述时间序列数据的聚类结果。
本发明另一实施例提供一种计算机可读存储介质,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上时间序列数据聚类模型建立方法或时间序列数据聚类方法。
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (10)
1.一种时间序列数据聚类模型建立方法,其特征在于,包括:
获取原始时间序列数据,将所述原始时间序列数据输入到深度神经网络中进行训练,其中,所述深度神经网络的训练过程包括:通过卷积神经网络提取所述原始时间序列数据的邻近时间步上的特征,通过双向长短期记忆网络提取所述原始时间序列数据的长距离时间步上的特征,通过多头注意力机制融合各个时间步上的特征,通过图卷积网络融合所述原始时间序列数据之间的结构特征,得到所述原始时间序列数据的最终特征表示;其中,所述原始时间序列数据包括心电图数据、交通流量数据、温湿度传感器数据或姿态传感器数据;
根据所述最终特征表示通过对比学习对时间序列样本进行聚类,根据交叉熵调参直至训练完成,以建立时间序列数据聚类模型。
2.根据权利要求1所述的时间序列数据聚类模型建立方法,其特征在于,所述获取原始时间序列数据包括:从不同领域获取所述原始时间序列数据并进行预处理,其中,所述预处理具体包括:
采用Z-Score标准化方法将所述原始时间序列数据的均值调整为0,将所述原始时间序列数据的标准差调整为1;
对于长度不相等的时间序列,将预设幅度波动的随机值添加到相对较短的时间序列的尾部;
对于缺失的时间步进行线性插值处理。
3.根据权利要求1所述的时间序列数据聚类模型建立方法,其特征在于,所述通过图卷积网络融合所述原始时间序列数据之间的结构特征包括:
构造相似度矩阵,根据所述相似度矩阵构造邻接矩阵,根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征。
4.根据权利要求3所述的时间序列数据聚类模型建立方法,其特征在于,所述构造相似度矩阵包括:
根据所述多头注意力机制输出的隐藏表示对确定相似度矩阵元素,根据所述相似度矩阵元素构造所述相似度矩阵。
5.根据权利要求3所述的时间序列数据聚类模型建立方法,其特征在于,所述根据所述相似度矩阵构造邻接矩阵包括:
设置阈值门限,根据所述相似度矩阵元素与所述阈值门限的比较结果确定中间矩阵元素,根据所述中间矩阵元素构造中间矩阵,根据所述中间矩阵和单位矩阵构造所述邻接矩阵。
6.根据权利要求3所述的时间序列数据聚类模型建立方法,其特征在于,所述根据所述邻接矩阵和所述图卷积网络融合所述原始时间序列数据之间的结构特征包括:
根据所述邻接矩阵确定所述图卷积网络的层特征传播公式,根据所述图卷积网络聚合一阶邻居节点和二阶邻居节点的特征。
7.根据权利要求1所述的时间序列数据聚类模型建立方法,其特征在于,所述根据所述最终特征表示通过对比学习对时间序列样本进行聚类包括:
根据所述最终特征表示确定余弦相似度,根据所述余弦相似度建立损失函数,根据所述损失函数对所述时间序列样本进行聚类。
8.根据权利要求1所述的时间序列数据聚类模型建立方法,其特征在于,还包括:
将所述时间序列数据聚类模型输出的聚类类别与所述原始时间序列数据对应的真实类别比较,以验证所述时间序列数据聚类模型的性能。
9.一种时间序列数据聚类方法,其特征在于,包括:
将时间序列数据输入到权利要求1至8任一项所述的时间序列数据聚类模型建立方法所建立的时间序列数据聚类模型中,得到所述时间序列数据的聚类结果。
10.一种计算机可读存储介质,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1至8任一项所述的时间序列数据聚类模型建立方法或权利要求9所述的时间序列数据聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111457339.0A CN114168822A (zh) | 2021-12-02 | 2021-12-02 | 一种时间序列数据聚类模型建立及时间序列数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111457339.0A CN114168822A (zh) | 2021-12-02 | 2021-12-02 | 一种时间序列数据聚类模型建立及时间序列数据聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168822A true CN114168822A (zh) | 2022-03-11 |
Family
ID=80482229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111457339.0A Pending CN114168822A (zh) | 2021-12-02 | 2021-12-02 | 一种时间序列数据聚类模型建立及时间序列数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168822A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938555A (zh) * | 2024-03-25 | 2024-04-26 | 衢州海易科技有限公司 | 车联网云平台日志序列和参数异常检测方法及*** |
-
2021
- 2021-12-02 CN CN202111457339.0A patent/CN114168822A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938555A (zh) * | 2024-03-25 | 2024-04-26 | 衢州海易科技有限公司 | 车联网云平台日志序列和参数异常检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109639739B (zh) | 一种基于自动编码器网络的异常流量检测方法 | |
AU2020104006A4 (en) | Radar target recognition method based on feature pyramid lightweight convolutional neural network | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN112508085B (zh) | 基于感知神经网络的社交网络链路预测方法 | |
CN112560432B (zh) | 基于图注意力网络的文本情感分析方法 | |
CN110232341B (zh) | 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
Yang et al. | Combined wireless network intrusion detection model based on deep learning | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN112764024B (zh) | 基于卷积神经网络和Bert的雷达目标识别方法 | |
CN114519469A (zh) | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN114120041A (zh) | 一种基于双对抗变分自编码器的小样本分类方法 | |
Deng et al. | An overview of extreme learning machine | |
CN116628605A (zh) | 一种基于ResNet和DSCAttention机制的窃电分类的方法及装置 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
CN114168822A (zh) | 一种时间序列数据聚类模型建立及时间序列数据聚类方法 | |
CN117688362A (zh) | 基于多元数据特征增强的光伏功率区间预测方法及装置 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、***、介质及设备 | |
Wang et al. | Conscience online learning: an efficient approach for robust kernel-based clustering | |
Wu et al. | Genetic-algorithm-based Convolutional Neural Network for Robust Time Series Classification with Unreliable Data. | |
CN111797732B (zh) | 一种对采样不敏感的视频动作识别对抗攻击方法 | |
Nemer et al. | A review of research on industrial time series classification for machinery based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |