CN117195961A - 一种改进的多尺度权重共享卷积方法 - Google Patents

一种改进的多尺度权重共享卷积方法 Download PDF

Info

Publication number
CN117195961A
CN117195961A CN202311042653.1A CN202311042653A CN117195961A CN 117195961 A CN117195961 A CN 117195961A CN 202311042653 A CN202311042653 A CN 202311042653A CN 117195961 A CN117195961 A CN 117195961A
Authority
CN
China
Prior art keywords
encoder
weight
data
improved
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311042653.1A
Other languages
English (en)
Inventor
陈彦如
程健峰
吴迪智
罗富玮
金正�
陈是澎
袁道华
陈良银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202311042653.1A priority Critical patent/CN117195961A/zh
Publication of CN117195961A publication Critical patent/CN117195961A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本专利涉及一种改进的多尺度权重共享卷积网络,可有效捕获不同时间尺度上的特征,并提供多头注意力机制和改进的变分自编码器来增强模型的性能。本专利提出的多通道1D CNN模型用多个独立的卷积核对每个通道进行卷积操作,合并各通道的结果来提高模型性能和准确性。为了减少参数量并保证精确性,采用多通道局部权重共享方式,提出了多尺度卷积核来适应不同时间尺度的特征。改进的变分自编码器结合注意力的输出进行整体建模,并利用KL散度优化方法提高特征提取效果。本专利的创新点在于多尺度权重共享、多通道1DCNN、多头注意力机制和改进的变分自编码器的结合应用,提高模型性能和准确性,适用于工厂数据分析等领域。

Description

一种改进的多尺度权重共享卷积方法
技术领域
本专利申请涉及多尺度权重共享卷积网络,在特定的应用场景中用于处理多变量时间序列数据。该网络结构结合了多尺度卷积神经网络、多头注意力机制和改进的变分自编码器,旨在提高多变量时间序列数据的特征提取能力和准确性。
背景技术
在工厂数据分析中,多变量时间序列数据广泛存在,传统的一维卷积神经网络(1DCNN)仅适用于处理单通道的时间序列数据,无法充分利用多个相关联通道的信息。此外,固定大小的卷积核只能捕获特定尺度的特征,对于长期依赖的时序数据可能无法捕捉到关键信息。同时,传统的全局权重共享方法在多通道卷积中存在学习不足的问题。
发明内容
本专利申请提出了一种改进的多尺度权重共享卷积方法,用于处理多变量时间序列数据。该方法包括以下几个部分:
第一部分,多尺度权重共享卷积网络。本发明提出了一种多尺度卷积神经网络模型,用于处理多变量时间序列数据。该模型可以有效地捕捉不同时间尺度上的特征。通过使用较小的卷积核来捕捉短期时序特征,并使用较大的卷积核来捕捉长期时序特征,该模型可以更全面地描述时间序列数据的特征。
第二部分:多头注意力机制。本发明还引入了多头注意力机制,用于灵活地关注不同数据维度之间的相互影响。通过使用多头注意力机制,模型可以更好地捕捉维度间的关系特征,从而提高对多变量时间序列数据的建模能力。
第三部分:改进的变分自编码器。为了更好地对注意力的输出进行建模,并提高特征提取效果,本发明利用改进的变分自编码器(VAE)从全局性的角度对注意力进行整体建模。同时,引入了KL散度优化方法,以提高VAE模型的训练效果。此外,利用VAE模型的概率分布进行异常解释,增强了模型的异常检测能力。
综上所述,本发明提出了一种改进的多尺度权重共享卷积方法,通过多通道局部权重共享和多尺度卷积核的设计。为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的电子终端的方框示意图。
图2为本发明较佳实施例提供的基于态势变化模型的数据处理方法的流程图。
具体实施方式
由于工厂情景下的数据大多数为多变量时间序列,传统的1D CNN模型只适用于单个通道的时间序列数据,无法充分利用多个相关联通道的信息。多通道1D CNN模型使用多个独立的卷积核对每个通道进行卷积操作,然后将每个通道的卷积结果合并在一起。这种方法可以同时提取多个维度的时序特征,并利用合并操作充分利用多个通道的信息,从而提高模型的性能和准确性。为了实现这一点,算法需要创建多通道内核k以独立地处理输入数据的每个通道。多通道内核k对多通道数据x的卷积运算:
其中nc是数据中的信道数,Xc是在时间步长t-i+1处对第h个信道的测量。多通道数据上的卷积几乎与单通道上的卷积相似,两者之间的差异是所有通道上的附加求和。然而本节注意到,在多通道卷积中,为每个通道都设置了卷积核,每个卷积核的权重数量就会更多,使得模型参数庞大,训练速度降低,增大了过拟合的风险。
此外现有的模型使用1D CNN处理时序数据时,常见的使用方式是使用固定大小的卷积核来提取每个子序列的特征,捕捉时间和空间信息。然而本节注意到,由于1D CNN只能捕捉局部时序特征,对于长期依赖的时序数据,1D CNN可能会捕捉不到关键信息。因此固定大小的卷积核只能捕获特定尺度的特征,无法适应不同时间尺度。
综合以上考虑,本节提出了改进的多尺度权重共享卷积方法。为了平衡参数量过大和特征提取的效果,提出了多通道局部权重共享方法。为了解决无法适应不同时间尺度的问题,提出多尺度的卷积核方法。
首先介绍本节提出的多通道局部权重共享方法。共享权重是指在多通道卷积神经网络中,对于不同位置的卷积核使用相同的参数。这种方法可以极大地减少神经网络的参数量,因为每个卷积核的参数数量可以被压缩到和单个卷积核一样的数量。对于多通道卷积神经网络,每个卷积核需要与多个通道进行卷积操作,因此需要更多的参数。但是,如果使用共享权重方法,所有通道上的相同位置的卷积核都可以使用相同的参数,从而大大减少了参数量。这样就可以有效地解决多通道卷积神经网络参数量大的问题。
具体来说,假设一个卷积层包含k个卷积核,每个卷积核的大小为h×w,输入通道数为cin,输出通道数为cout。如果使用不共享权重的方法,该层的参数数量为k×h×w×cin×cout。而如果使用共享权重的方法,该层的参数数量仅为k×h×w。因此,共享权重可以大大减少参数数量,从而减少模型的复杂度,提高模型的训练速度和泛化性能。
然而本节注意到全局共享方法会存在学习不足的问题,因为卷积核都使用同一个权重矩阵,虽然大幅度减少了参数量,但会导致原始数据类型差距较大的通道学习效果差。也就是说如果输入数据之前存在维度之间数据特点非常不同的情况,使用全局共享的卷积核将无法完全适应所有特征,导致模型学习不足,不能准确地提取特征。
针对这个问题,本节提出了局部权重共享方法。具体而言,局部自由权重共享只在特定的区域进行权重共享,使得每个区域可以自由调整权重,从而更好地适应数据的特征。也就是说,传统的全局权重共享是通过共享一个参数矩阵来实现的,而局部自由权重共享则是通过将权重矩阵分解为多个局部权重矩阵来实现的,每个局部权重矩阵可以独立地进行调整。这种结构在降低参数量的同时,保证了良好的特征提取能力。传统的全局权重共享的计算公式:
yi,j,k=∑m,n,lWm,n,l,kXi+m,j+n,l
局部自由权重共享公式:
其中表示位于(i,j)坐标处的局部权重矩阵中的权重。为了充分利用多通道自由权重共享的优势,本章进一步提出可以先分析数据之间的相关性,将相关性较强的多维数据使用同一个局部权重矩阵,这样可以在减少参数量的同时,保证不过多丢失特征提取能力。举例而言,针对本章使用的数据集,观察到AIT502,UV401,AIT501,AIT502的数据特点都是大幅度的跳变,以2000个时间点为周期,具有比较明显的相似性,故可以针对这几个通道使用同一个局部自由权重共享进行优化。
为了解决固定卷积核只能捕获特定尺度的特征的问题,本节提出的多尺度卷积核(Multi-scale Convolutional Kernel),用于从数据集中提取具有不同时间尺度的高表达力的潜在特征。本节构建了一个三条旁路的卷积层,卷积核大小不同,其中每一个卷积层都使用前述第一个模块中的多通道卷积方法。由于工厂数据既包含短期内的规律性(以单传感器为尺度,考虑产品进入工序瞬时,或离开工序瞬时),又包含中期模式(考虑产生在单个工序中的生产过程),还包括长期的变化(考虑从上一个产品到下一个产品的整个周期,包含运输、生产、检测)。
为了覆盖以上三种情况,观察本节使用数据集的特点,本节分别选择大小为3的短周期,大小为7的中周期,大小为15的长周期Conv 1D卷积核在时间域中滑动,这意味着这种多尺度卷积模块可以同时提取序列中以3、7和15个时间单位为周期的数据趋势和隐藏交互。此外,已知一维卷积核的大小将影响网络的学习效果。例如,当卷积核较小时候,这有利于检测点异常,因为点异常的持续时间很短(由单个时间点引起),可以充分捕捉局部特征信息。当卷积核较大时候,有利于捕获更长的异常类型,比如模式异常,因为模式异常的持续时间很长(由一系列连续点引起)。因此,所提出模型的多尺度设计也可以同时兼顾到大内核和小内核的优点,有助于模型在不同尺度上联合学习模式。在模块的末尾,将卷积和池化后得到的特征向量连接起来形成一个新的全局特征向量矩阵。这样,由三个不同周期提取的特征图将被融合,后续的注意力机制将从这些分层特征中自适应地提取有用信息。
在使用不同尺度的卷积层提取特征之后,为了进行特征选择和降采样,以减少数据的空间维度并保留最显著的特征,本节选择使用最大池化对特征图ck进行下采样操作:
其中ck代表使用大小为k的内核提取到的特征图,为采样后的特征图。通过卷积和池化操作后得到的特征向量用/>表示,这三个特征向量被连接成一个全局特征向量矩阵T。该全局特征向量矩阵T会被输入到多头注意力机制进行进一步处理:
为了捕获维度间的相关性特征,本章提出了使用多头注意力机制对阶段一得到的卷积网络进一步提取有用信息。
尽管注意力机制在不同领域取得了较好的效果,但是当面对高维数据时,单头注意力机制存在着计算量大,容易过拟合等问题。多头注意力机制的优势在于其能够对输入序列进行灵活地组合和聚合,更适合于对长序列和多维序列进行建模和处理。同时,多头注意力机制可以对不同的时间步骤进行关注,提高模型的鲁棒性和稳定性。
为了利用多头注意力机制进一步提取维度间相关性,本节首先将前述卷积网络中得到的全局特征向量矩阵T初始化矩阵Q,K,V,这三个矩阵作为单头注意力机制的关键参数。单头注意力机制的主要思想是缩放点积注意力(Scaled Dot-product Attention,SDA),它首先通过求解Q和K的点积来计算相似度,接着除以(dk是矩阵K的维度),以使得点积计算结果不会太大。然后,通过Softmax函数对结果进行归一化,然后将其乘以矩阵V以得到注意力表达式。SDA的计算方法:
与标准的注意力机制不同,多头注意力机制引入了多个查询、键、值的组合,从而增强了注意力机制对于输入序列中不同信息的提取能力。具体思想是用不同的参数 来依次对矩阵Q,K,V进行线性变换,并将线性变换结果输入到SDA中,计算结果用headi来表述:
将计算结果从headi到headh拼接成矩阵,乘以参数W就完成了最后的线性变化,得到多头注意力机制的最终输出:
Head=MultiHead(Q,K,V)=Concat(head1,...,headh)W
为了能够从全局性的角度将多变量的信息进行整体建模,同时也能够更好地捕捉不同维度之间的依赖性,本节提出将注意力机制的输出映射在VAE模型的潜空间中,利用VAE的随机性质使得它能够从潜在空间中学习数据的特征,包括正常数据的分布和变化模式,从而更好地适应复杂的数据分布。同时还能利用VAE的重构概率提供异常可解释性。
然而本节注意到,普通的VAE使用随机梯度下降(SGD)等优化方法训练VAE时,编码器倾向于将每个输入映射为其潜在分布中的一个固定点,这样就使得VAE中的KL散度项变得恒定,不再与潜在变量有关,从而无法对其进行有效的优化。为了解决这个问题,本节提出了经过修改的ELBO表达式和重参数优化的改进VAE方法。
VAE的基本理论如下:假设x为输入数据,z为潜在变量(latent variable),则VAE的目标是学习一个条件分布pθ(z|X),使得对于给定的x,能够从潜在空间z中采样并生成与x相似的新样本。为了实现这个目标,VAE首先将输入数据x映射到潜在空间z中,得到编码器(encoder)qφ(z|X)。然后,从qφ(z|X)中采样一个潜在变量z,并将其解码成与X相似的数据X′,得到解码器(decoder)pθ(X|z)。为了确保解码器生成的数据X′与输入数据X相似,VAE引入了一个重构误差项,表示X和X′之间的差异。同时,为了使学习到的潜在空间z具有一定的结构性和连续性,VAE还引入了一个正则项,即潜在变量z的先验分布p(z)。
由于直接计算pθ(X|z)是很困难的,为了实现这个目标,VAE使用一种被称为变分推断(Variational Inference)的技术来训练模型。具体来说,VAE的损失函数(ELBO):
ELBO=Eqφ(z|X)[logpθ(X|z)]-KL(qφ(z|X)|p(z))
其中,表示在给定输入X的情况下,z的期望。KL(qφ(z|X)|p(z))表示后验分布qφ(z|X)与先验分布p(z)之间的KL散度。通过最小化这个损失函数,VAE可以学习到数据的潜在分布,并从中生成新的样本。然而本节注意到,在实际应用中,如果KL散度项的权重过大,或者数据集的分布和先验分布有较大差异,就会导致模型倾向于将输入样本映射到潜在空间中的一个小区域,而忽略了样本之间的多样性。具体来说,KL散度项在VAE的目标函数中惩罚了潜在空间的分布与先验分布之间的差异。为了最小化KL散度,模型会努力使学习到的潜在变量分布接近于先验分布,这通常会使潜在空间中的样本点聚集在一起,形成一个紧凑的簇。生成器网络通过解码这些样本点产生的样本会趋向于相似或重复。这是因为模型倾向于将输入样本映射到靠近先验分布的区域,使KL散度项最小化,而不是探索潜在空间中更广泛的分布。
为了解决这个问题,本节对ELBO第一项(即重构误差)进行优化,赋予其更多的权重。修改后的ELBO定义:
ELBO=Eqφ(z|x)[logpθ(x|z)]-βKL(qφ(z|x)||p(z))
其中,β是一个超参数,用于控制重构误差和KL散度误差的相对重要性。通过调整β的值,可以平衡模型的重构精度和潜在空间的连续性。
此外,计算ELBO有两种方法,分别是最大似然法和随机梯度下降算法(SGD)。最大似然法的缺点是难以直接优化,因为通常需要对整个数据集计算似然函数的梯度,计算代价较高。同时,直接从高斯分布中进行采样是不可导的,这就使得常规的随机梯度下降算法无法直接用于训练。因为使用随机梯度下降算法会导致采样过程的随机性无法被梯度所捕捉,从而使得训练过程难以收敛。为了解决这个问题,本节提出使用了重参数化技巧随机梯度变分估计方法。重参数化技巧的思想是将采样过程分离出来,使得采样过程与可微分操作分离,从而将不可导的采样操作转化为可导的操作,使得可以直接应用常规的随机梯度下降算法进行训练。具体来说,重参数化技巧可以通过引入一个新的随机变量e~N(0,I),重新表示原本的随机变量z,使得z可以被重新写作z(e)=μzze,其中μz和σz是z的均值和标准差。这样,z(e)的采样过程与可微分操作分离,可以被看作是一个确定性操作,可以直接应用随机梯度下降算法进行优化。

Claims (10)

1.一种可捕获维度间相关性的多尺度权重共享卷积网络,其特征在于,包括:
多通道1D CNN模块,用于对多通道时间序列数据进行卷积操作,并将结果合并在一起;
多尺度卷积核模块,包括多个具有不同大小的卷积核,用于提取具有不同时间尺度的潜在特征;
多头注意力机制模块,用于关注不同数据维度之间的相互影响;
改进的变分自编码。
2.根据权利要求1所述的多通道卷积网络,其中多通道1D CNN模块使用多个独立的卷积核对每个通道进行卷积操作,并将结果合并在一起:
3.根据权利要求1所述的多尺度卷积网络,其中多尺度卷积核模块包括至少两个具有不同大小的卷积核,用于提取不同时间尺度的潜在特征:
4.根据权利要求1所述的局部权重共享卷积网络,局部自由权重共享只在特定的区域进行权重共享,使得每个区域可以自由调整权重,从而更好地适应数据的特征;也就是说,传统的全局权重共享是通过共享一个参数矩阵来实现的,而局部自由权重共享则是通过将权重矩阵分解为多个局部权重矩阵来实现的,每个局部权重矩阵可以独立地进行调整;这种结构在降低参数量的同时,保证了良好的特征提取能力:
5.一种用于捕获维度间相关性特征并提供异常可解释性的方法,包括以下步骤:
使用多头注意力机制对卷积网络中的全局特征向量进行进一步提取,其中多头注意力机制通过缩放点积注意力机制计算相似度,并引入多个查询、键和值的组合进行线性变换和注意力机制;
维护数据点的分布函数,用于指示下一个编码器关注的数据点
根据输入和解码器输出之间的均方误差更新数据点的分布函数权重:
6.如权利要求3所述的一种改进的增强编码器,用于神经网络训练,包括:
使用加权采样方法关注异常样本和正常样本,提高特征表达的学习能力:
根据编码器重构误差大小赋予自适应输出权重,捕捉每个编码器的表现差异,提高检测性能:
7.如权利要求2所述的一种深层和浅层结合的训练方法,用于提高模型的检测精度,包括:
使用生成器生成假数据来迷惑模型,最小化与真实数据的差异;
使用对抗训练使模型区分真实数据和重构生成数据,最大化差异。
8.一种合并训练的方法,用于同时进行增强编码器和对抗训练,包括:
将增强编码器和对抗训练的训练过程合并,减少迭代次数;
使用自适应权重函数控制增强编码器和对抗训练的权重,提高训练的稳定性和准确性:
9.如权利要求3所述的一种集成学习方法,一种根据误差值计算编码器重要性的方法,包括:
根据编码器重构误差值对编码器的重要性进行评估;
利用重构误差值的大小确定编码器的相对权重;
将重构误差值作为指标来调整编码器的贡献度,从而提高模型的性能。
10.如权利要求3所述的一种基于分布函数的样本选择方法,用于增强编码器的训练,包括:
维护一个分布函数来指示编码器关注的数据点;
根据数据点的分布函数权重进行样本选择,关注重要的数据点;
通过动态调整数据点的分布函数权重,提高模型对不同样本的关注度和学习能力。
CN202311042653.1A 2023-08-18 2023-08-18 一种改进的多尺度权重共享卷积方法 Pending CN117195961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311042653.1A CN117195961A (zh) 2023-08-18 2023-08-18 一种改进的多尺度权重共享卷积方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311042653.1A CN117195961A (zh) 2023-08-18 2023-08-18 一种改进的多尺度权重共享卷积方法

Publications (1)

Publication Number Publication Date
CN117195961A true CN117195961A (zh) 2023-12-08

Family

ID=88995187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311042653.1A Pending CN117195961A (zh) 2023-08-18 2023-08-18 一种改进的多尺度权重共享卷积方法

Country Status (1)

Country Link
CN (1) CN117195961A (zh)

Similar Documents

Publication Publication Date Title
Guo et al. A data imputation method for multivariate time series based on generative adversarial network
Li et al. An evolutionary multiobjective approach to sparse reconstruction
Kao et al. Integration of nonlinear independent component analysis and support vector regression for stock price forecasting
CN115690002A (zh) 一种基于Transformer和密集特征融合的遥感图像变化检测方法及***
CN113705809B (zh) 一种数据预测模型训练方法、工业指标预测方法和装置
Li et al. Patch similarity aware data-free quantization for vision transformers
CN110766060B (zh) 基于深度学习的时间序列相似度的计算方法、***及介质
CN111832228A (zh) 基于cnn-lstm的振动传递***
Wang et al. Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring
Liang et al. Spectral–spatial attention feature extraction for hyperspectral image classification based on generative adversarial network
CN116522265A (zh) 工业互联网时序数据异常检测方法及装置
Liu et al. Stock price trend prediction model based on deep residual network and stock price graph
Meskhi et al. Learning abstract task representations
Huang et al. Hinging hyperplanes for time-series segmentation
Ge et al. On the provable advantage of unsupervised pretraining
CN117094451A (zh) 一种耗电量的预测方法、装置及终端
CN116757533A (zh) 一种工业设备异常检测方法及相关装置
Li et al. An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices
CN117195961A (zh) 一种改进的多尺度权重共享卷积方法
Niveditha et al. Kernelized Deep Networks for Speech Signal Segmentation Using Clustering and Artificial Intelligence in Neural Networks
He et al. Crude Oil Price Prediction using Embedding Convolutional Neural Network Model
CN112801142B (zh) 一种基于张量自回归滑动平均模型的视频分类方法
Prochaska et al. Active output selection strategies for multiple learning regression models
CN116405368B (zh) 一种高维不平衡数据条件下的网络故障诊断方法、***
Si et al. Sparse polynomial radial basis function neural network in unit hyperspherical space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination