CN116777068A

CN116777068A - 一种基于因果Transformer的网络化数据预测方法

Info

Publication number: CN116777068A
Application number: CN202310776376.0A
Authority: CN
Inventors: 陈都鑫; 程钰鑫; 虞文武
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-06-19
Filing date: 2023-06-28
Publication date: 2023-09-19

Abstract

本发明公开一种基于因果Transformer的网络化数据预测方法，适用于预测复杂工程***的耦合时间序列，本发明首先采用基于因果性指标的因果推理方法，以不同位置测速仪检测的车辆速度时间序列数据为基础，应用最优因果熵算法和互信息估计器，构建因果网络并估计因果熵值，再利用测速仪的经纬度坐标构造距离网络。接着，该发明将因果网络、距离网络以及时间序列输入Transformer卷积时空块。其中，每个时空块由一个残差Transformer模块和一个可以总结因果网络和距离网络信息的残差多图卷积网络模块组成，用于提取时间和空间维度信息。最后，提取的信息可以通过输出层进行解码可以获得预测结果。该方法具有良好的预测效果，可以为复杂工程***提供有效的数据支撑。

Description

一种基于因果Transformer的网络化数据预测方法

技术领域

本发明涉及一种基于因果Transformer的网络化数据预测方法，特别是预测复杂工程***的耦合时间序列。

背景技术

复杂工程***的时间序列预测在各种现实世界的场景中起着至关重要的作用，如交通预测、电力支配、供应链管理和金融投资。如果事件或指标的未来演变可以被准确估计，它可以帮助人们做出重要决策。例如，如果***到有严重的交通堵塞，交通管理部门就能更合理地引导车辆，提高公路网的运行效率。

在实际问题中，复杂***往往表现为多变量动态演化过程，具有信息的不完备与不确定性等，因此难以建立起准确的解析形式的数学模型，常常依赖于通过观测所获得的时间序列进行分析。统计学领域中，分析由这些复杂***生成的时间序列是一种重要的动态数据处理方法。当检测单元较少时，利用经典统计学方法预测耦合时间序列是可行的。移动平均自回归(ARIMA)及其变体是时间序列分析经典方法之一。然而，这种类型的模型受到时间序列的平稳假设的限制，未能将时空相关性考虑在内。因此，这些方法对高维时间序列数据的处理具有限制。随着机器学习在其他领域的应用，相关模型也逐渐被应用于复杂工程***耦合时间序列的预测，这些模型可以实现更高的预测准确性和更复杂的数据建模，如K-近邻算法(KNN)、支持向量机(SVM)和神经网络(NN)。其中，神经网络方法已被广泛成功地应用于各种耦合时间序列预测任务。相关工作已经取得了重大进展，例如深度置信网络(DBN)、堆叠式自编码器(SAE)等。但这些网络很难从数据中联合提取空间和时间特征，它们的能力受到了严重的限制。为了充分利用空间特征，一些模型使用卷积神经网络(CNN)来捕捉网络中的相邻关系，同时在时间轴上采用了循环神经网络(RNN)方法。例如，用于短期交通预测的特征级融合架构CLTFP，就是通过结合长短期记忆(LSTM)网络和一维CNN提出的。之后，提出的FC-LSTM模型加入了窥探机制，让原先输入的时间序列向量换成矩阵，以表示空间上的连接关系，然而，所应用的普通卷积操作限制了该模型只能处理诸如图像、视频的网格结构而不是一般的领域。同时，用于序列学习的递归网络需要迭代训练，这就引入了按步骤累积的错误。为了更好地捕捉非欧式空间网络的信息，时空预测方法引入了图神经网络(GNN)。例如基于图卷积神经网络(GCN)的STGCN，将空间特征提取和时间特征提取分开封装为S模块与T模块，每个卷积块包含两个门控顺序卷积层和一个空间图卷积层，通过串联ST块增加模型深度，用于时空网络速度预测。在此基础上，人们提出了各种网络时空预测模型，基于时空特征提取的网络时空预测方法已成为主流方法。如使用注意力机制来捕捉时间和空间的动态的ASTGCN模型；将修改过的GAT与LSTM相结合的GaAN模型；使用因果卷积、门控机制已经残差块进行时间序列数据处理的GraphWaveNet模型；使用多注意机制来提取交通流的时空信息的GMAN模型。基于时空特征提取的模型在预测方面取得了突出的成果。然而，仍有一些问题有待解决。现有模型的主要缺点是，空间特征的提取大多集中在对相邻节点信息的提取上，这就造成了全局特征提取的不足。同时，在时间序列信息的提取方面，RNN或CNN方法无法从数据中提取长期依赖性，导致目前的交通流预测模型的长期预测性能较差。

因此，本发明中提出了基于因果的时空网络模型来进行复杂***耦合时间序列的预测。根据上述分析，单纯的距离网络不能很好地提取网络的全局特征。所以，可以基于多维数据构建因果网络。在因果网络中，每个节点的父节点，即影响该节点产生变化的节点，将是该节点的一阶邻居。由此，可以通过GCN提取因果关系特征。将因果关系特征结合时间维度以及距离网络的特征，本发明可以有效地获取复杂工程***耦合时间序列的时空信息并获得较好的预测效果。

发明内容

技术问题：本发明的目的是提供一种基于因果Transformer的网络化数据预测方法。以交通流为例，本发明在观测到不同位置测速仪检测的车辆速度时间序列数据的基础上，采用基于因果关系熵的因果推理方法初步构建因果网络，并通过互信息估计方法计算因果熵，得到网络边权重。之后利用测速仪的经纬度坐标构造距离网络。网络构建完成后，本发明将因果网络、距离网络以及时间序列输入Transformer卷积时空块提取特征后解码输出得到预测结果。其中，每个时空块包含一个残差Transformer时间模块和一个可以总结因果网络和距离网络信息的残差空间卷积模块。本发明提取时空数据的多维信息用于预测，所提出的模型具有良好的预测效果。

技术方案：为实现上述目的，本发明涉及一种基于因果Transformer的网络化数据预测方法采用的技术方案为：所述方法包括以下步骤：

步骤1：网络构建；

步骤2：建立时空Transformer卷积模型。

其中网络构建包括因果网络的构建以及距离网络的构建。

步骤11：因果网络构建阶段，该阶段包括两步：

(1)在观测到的时间序列数据上采用基于因果关系熵的因果推理方法构建因果网络，对于事件X，与之相关的不确定性和复杂性可以通过香农熵来量化，事件X的熵H(X)的计算公式为：

其中，p(x)是一个事件X的采取特定值x的概率。对于两个事件X和Y信息之间的关系，可以通过联合熵H(X，Y)和条件熵H(X|Y)，H(Y|X)表征，其定义为：

其中，p(x，y)是X＝x，Y＝y的联合概率，p(x|y)，p(y|x)是X＝x，Y＝y的条件概率。而事件X的信息可以细分为只属于X的信息以及X和Y的共享信息，互信息I(X；Y)可以描述事件X和Y之间的共享信息，当两者关系越密切时，互信息越大，互信息I(X；Y)的定义为：

I(X；Y)≡H(X)-H(X|Y)。

此时，若存在第三个事件Z作为发生条件时，事件X，Y的条件互信息I(X；Y|Z)为：

I(X；Y|Z)≡H(Y|Z)-H(Y|X，Z)。

然而互信息只能反映事件之间的关系，为了衡量两个事件之间信息流的方向性，可以引入转移熵T_X→Y，转移熵T_X→Y的定义为：

T_X→Y≡I(X^(t)；Y^(t+τ)|Y^(t))，

其中，τ为延迟时间。由于复杂工程***不可避免地包含两个以上的节点，如果没有适当的条件，转移熵就不能区分网络中的直接和间接因果关系。而因果关系熵C_Y→X|Z可以克服转移熵的成对限制，因果关系熵C_Y→X|Z的定义为：

C_Y→X|Z≡I(Y^(t)；X^(t+τ)|Z^(t))＝H(X^(t+τ)|Z^(t))-H(X^(t+τ)|Z^(t)，Y^(t))，

这一指标可以反映在给定的条件Z^(t)且明确X^(t+τ)的信息和方向时，Y^(t)能提供的信息量。因此，通过确定延迟时间τ，可以得到两个节点时间序列之间信息流的方向。以交通***为例，可以根据测速仪获得的车辆速度时间序列，构建因果网络。本发明将每个测速仪视为一个节点，组成节点集V，节点数为N，即|V|＝N。当两个节点的因果熵大于0时，将两个节点的连边加入边集E_C中，矩阵W_C∈R^N×N为以因果熵为权值的矩阵。则其因果网络图可表示为G_C＝(V，E_C，W_C)。

对任一节点x∈V，所有方向指向它且因果熵大于0的节点被称之为因果父母，根据最优因果熵原则，x的因果父母集是使集合中因果熵最大化的最小节点集N_x。

最优因果熵算法可以分成聚合阶段与删除阶段。

·聚合阶段：对于节点集V＝{x，y₁，y₂，…，y_N-1}＝{x，y}，记节点集V中除去节点x的节点集为y＝{y₁，y₂，…，y_N-1}，节点x的因果父母集为z。算法初始阶段z为空集。如果

则将节点y_i添加到z中，即z＝z∪y_i。换而言之，y_i为当前属于y且不属于z的节点集中因果熵最大的节点，而且该因果熵大于0。当y中找不到这样的节点时，聚合阶段结束。

·删除阶段：聚合阶段所得的z可能是与x直接交流的超集。因此，对于z中成员z_i，如果

则将z_i从z中删除，当遍历z中所有成员后，留在z中的节点就是x的直接因果父母，删除阶段结束。此时N_x＝z。

·对于V中每个节点进行最优因果熵算法，可以得到两两节点之间的因果关系E_C，初步构造因果网络。

(2)计算因果熵。因果熵等价于互信息。因此，本发明通过一种基于K邻近算法的互信息估计方法来估计两个事件X，Y的互信息：

I(X；Y)＝ψ(k)+ψ(N)-<ψ(n_x+1)+ψ(n_y+1)>，

其中<>表示所有样本的平均值，k表示为近邻点个数，是一个Digamma函数/> N表示样本大小，n_x，n_y分别表示X，Y方向满足K邻近算法的个数。即对于固定的k值，设联合空间中的数据点w_i＝(x_i，y_i)到其第k个最近邻的距离为∈(i)，n_x，n_y分别为x_j，y_j(j≠i)中满足||x_j-x_i||x＜∈(i)，||y_j-y_i||_y＜∈(i)的点数。在本发明中，当范数内为标量相减时，范数的值与标量之差的绝对值相同。

当考虑n个独立样本{s₁，s₂，…，s_n}的联合随机变量S＝(X，Y，Z)，其中s_i＝(x_i，y_i，z_i)。I(X；Y|Z)的估计由以下公式给出：

I(X；Y|Z)＝ψ(k)-<ψ(n_xz+1)+ψ(n_yz+1)-ψ(n_z+1)>。

ψ(k)同样为Digamma函数。对于固定的k值，设联合空间中的数据点s_i到其第k个最近邻的距离为∈(i)。距离度量使用最大范数，即||s_i-s_j||_xyz＝max{||x_i-x_j||_x，||y_i-y_j||_y，||z_i-z_j||_z}。基于此，更确切地说：

n_xz(i)表示(x_j，z_j)(j≠i)中满足||(x_j，z_j)-(x_i，z_i)||_xz＜∈(i)的点数；

n_yz(i)表示(y_j，z_j)(j≠i)中满足||(y_j，z_j)-(y_i，z_i)||_yz＜∈(i)的点数；

n_z(i)表示z_j(j≠i)中满足||z_j-z_i||_z＜∈(i)的点数。

经过以上过程，W_C被成功估计，进而构建了完整的因果网络G_C＝(V，E_C，W_C)。

步骤12：距离网络构建阶段。距离网络可表示为G_D＝(V，E_D，W_D)，其中E_D，W_D分别距离网络的边集以及邻接矩阵，邻接矩阵W_D是基于节点之间距离生成的，W_D第i行第j列元素表示如下：

其中d_ij为第i个节点与第j个节点的距离，该距离可以通过Python中的haversine工具带入节点经纬度计算得到，σ²是距离的假定方差，ε是权重的阈值。本发明设定ε为0.5，σ²为10。类似于因果网络的定义，距离网络的邻接矩阵W_D中的元素大于0代表该位置存在连边。经过步骤二，距离网络G_D＝(V，E_D，W_D)被成功构建。步骤2：建立时空Transformer卷积模型。

时空模型建立，该阶段包括三步：

步骤21：数据预处理。人工选择一个滑动窗口来确定输入维度，即选择N个节点的个时间步长的耦合信息流数据/>作为模型输入。输入维度的限制是为了避免输入的时间数据长度过长导致维度过高的神经网络运行过慢。

步骤22：Transformer卷积时空块。每个时空块包含一个可以提取时间维度信息的残差Transformer模块和一个可以总结因果网络和距离网络信息的残差多图卷积模块。

(1)时间模块。本发明在时间轴上采用Informer模型结构来捕捉数据的时间动态行为。

1.1Informer模型包括编码器和解码器两部分。以第l个时空块为例，记模块输入为在编码器部分，将输入/>向量映射为/>其中，/>包含了输入/>线性映射后的向量、/>内元素的局部位置编码以及/>内元素在整个时间轴的全局位置编码。这使得/>不仅包含局部时序信息还具有层次时序信息，如星期、月和年等，以及突发时间戳信息(事件或某些节假日等)。在向量映射之后，数据经过多个注意力块，每个块都包含多头概率稀疏自注意力。每个块的输出通过自注意力蒸馏提取相关的注意力信息，其中使用了一维卷积层Conv1d、ELU激活层和最大池化MaxPool。该过程由从第j层到第(j+1)层的公式定义为：

第j层输入经过注意力块[·]_AB后，通过自注意力蒸馏提取对具有主导注意力的优势特征赋予更高权重。具体操作为首先选择长度为K_C的卷积核，在时间轴两端进行循环填充，使用Conv1d在序列的时间维度上进行一维卷积，其中输入和输出的维度一致。接着数据通过激活函数ELU，记输入为x_ELU，则ELU的表达式为：

最后，经过激活函数的数据在时间维度进行最大池化MaxPool操作提取出指定窗口的最大数据，显著减少了特征张量的大小。记输入的时间维度大小为L_in，则经过最大池化后，特征张量的时间维度L_out为：

1.2Informer的解码器需要以的形式作为输入：

包含起始令牌序列，时间维度长度为L_token，/>构成目标序列的占位符，时间维度长度为/>同时/>也是/>在时间维度长度。/>的标量值是零填充的，它包含了目标序列的时间戳。本发明从输入序列/>中采样一个特定大小的序列作为起始令牌，例如来自前一个小时的交通流量数据。序列/>通过掩码多头概率稀疏自注意层，并与编码器的输出组合。然后，通过多头注意力传递。上述过程重复进行，直到通过全连接层得到输出/>其在最终输出中的位置与输入时的/>相对应。

(2)空间模块。

2.1由于交通***距离网络与因果网络属于非欧几里德网络，所以本发明采用图神经网络的谱域方法提取非欧几里得结构数据的特征。第l个空间模块的输入包括第l个时间模块输出距离网络G_D＝(V，E_D，W_D)和因果网络G_C＝(V，E_C，W_C)。为了方便表述，将距离网络与因果网络统称为网络G。记网络G邻接矩阵为W∈R^N×N。本发明使用了图拉普拉斯一阶近似的图卷积网络，时间模块的输出/>经过图卷积后可得到卷积输出/>卷积过程可以描述为：

其中，Θ为卷积核的参数，为W重新规范化的结果，I_N为N阶单位矩阵。为/>的度矩阵，/>的对角线元素/>可以表示为/> 的非对角元素全部为0。

此外，本发明在堆叠图卷积层时实现了残差连接。并且为了汇总因果网络和距离网络的信息，使用了多个图卷积。记第l个时间模块的输出为分别对/>在GD和G_C卷积，整合提取特征得到/>

将/>在G_D和G_C卷积输出串联，/>表示第l个空间模块的输出，ReGCN表示残差图卷积操作，将/>的图卷积输出与/>的线性变换FC₁输出相加，即/> 此外，下标C表示图卷积使用因果网络，下标D表示图卷积使用距离网络。

2.2为了保证时空块不改变数据维数，将空间模块的输出线性变换(FC₂)得到第l个时空块的输出公式如下：

本发明通过堆叠时空块增加模型深度，所以第l个时空块的输出同时可以作为第l+1个时空块的输入。

步骤23：输出层。

通过输出层解码得到预测结果。通过多个时空块对于特征的提取，对提取的信息进行解码，即线性变换FC₃，使输出的维度为预测的时间步数，记第L-1个时空块输出为最终提取特征，输出Y_pred∈R^N×K为预测结果，则输出层的解码过程如下：

有益效果：

1、本发明利用数据驱动的方法，将因果网络与时空特征提取方法结合，构建了可以总结因果网络和距离网络信息的残差多图卷积网络空间卷积模块。解决了以往方法空间特征的提取大多集中在对相邻节点信息提取的问题，可以很好地提取网络的全局特征；

2、本发明利用Informer提取时间维度信息，相比于RNN模型，突破了模型不能并行计算的限制；相比CNN，计算两个位置之间的关联所需的操作次数不随距离增长；相比于传统Transformer，提高了长时预测问题的能力，充分发挥了捕捉长序列时间序列输出和输入之间的个体长程依赖性方面的潜在价值；

3、本发明在加州第7区的交通流量数据集PeMSD7(M)上取得了出色的预测性能。相比于其他广泛使用的时空预测模型，在预测中有较好的提升。本发明选择了以下几种的基准模型进行对比，包括历史平均值(HA),线性支持向量回归(LSVR),前馈神经网络(FNN),全连接长短期记忆人工神经网络(FC-LSTM)，时空图卷积网络(STGCN)，扩散卷积递归神经网络(DCRNN)，图波形生成网络(GraphWaveNet)。预测效果对比表如下：

本发明采用了广泛使用的预测评价指标：平均绝对值误差(MAE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE)进行效果对比。这三项指数越小代表模型的效果越好，从上表可以看出，本发明在15分钟、30分钟、60分钟的预测中，都优于其他基准模型。

附图说明

图1数据输入到预测结果输出流程图；

图2模型整体示意图；

图3第l个Transformer卷积时空块内部结构示意图。

具体实施方式

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1-图3，一种基于因果Transformer的网络化数据预测方法采用的技术方案为：所述方法包括以下步骤：

步骤1：网络构建；

步骤2：建立时空Transformer卷积模型。

其中网络构建包括因果网络的构建以及距离网络的构建。

步骤11：因果网络构建阶段，该阶段包括两步：

(1)在观测到的时间序列数据上采用基于因果关系熵的因果推理方法构建因果网络。对于事件X，与之相关的不确定性和复杂性可以通过香农熵来量化，事件X的熵H(X)的计算公式为：

其中，p(x，y)是X＝x，Y＝y的联合概率，p(x|y)，p(y|x)是X＝x，Y＝y的条件概率。而事件X的信息可以细分为只属于X的信息以及X和Y的共享信息。互信息I(X；Y)可以描述事件X和Y之间的共享信息，当两者关系越密切时，互信息越大，互信息I(X；Y)的定义为：

I(X；Y)≡H(X)-H(X|Y)。

I(X；Y|Z)≡H(Y|Z)-H(Y|X，Z)。

T_X→Y≡I(X^(t)；Y^(t+τ)|Y^(t))，

最优因果熵算法可以分成聚合阶段与删除阶段。

·聚合阶段：对于节点集V＝{x，y₁，y₂，…，y_N-1}＝{x，y}，记节点集V中除去节点x的节点集为y＝{yx，y₂，…，y_N-1}，节点x的因果父母集为z。算法初始阶段z为空集。如果

则将节点y_i添加到z中，即z＝z∪y_i。当y中找不到这样的节点时，聚合阶段结束。

·对于V中每个节点进行最优因果熵算法，可以得到两两节点之间的因果关系EC，初步构造因果网络。

I(X；Y)＝ψ(k)+ψ(N)-<ψ(n_x+1)+ψ(n_y+1)>，

I(X；Y|Z)＝ψ(k)-<ψ(n_xz+1)+ψ(n_yz+1)-ψ(n_z+1)>。

ψ(k)同样为Digamma函数。对于固定的k值，设联合空间中的数据点s_i到其第k个最近邻的距离为∈(i)。距离度量使用最大范数，即||s_i-s_j||_xyz＝max{||x_i-x_j||_x，||y_i-y_j||_y，||z_i-z_j||z}。基于此，更确切地说：

n_z(i)表示z_j(j≠i)中满足||z_j-z_i||_z＜∈(i)的点数。

时空模型建立，该阶段包括三步：

1.2 Informer的解码器需要以的形式作为输入：/>

包含起始令牌序列，时间维度长度为L_token，/>构成目标序列的占位符，时间维度长度为/>同时/>也是/>在时间维度长度。/>的标量值是零填充的，它包含了目标序列的时间戳。本发明从输入序列/>中采样一个特定大小的序列作为起始令牌，例如来自前一个小时的交通流量数据。序列/>通过掩码多头概率稀疏自注意层，并与编码器的输出组合。然后，通过多头注意力传递。上述过程重复进行，直到通过全连接层得到/>其在最终输出中的位置与输入时的/>相对应。

(2)空间模块。

此外，本发明在堆叠图卷积层时实现了残差连接。并且为了汇总因果网络和距离网络的信息，使用了多个图卷积。记第l个时间模块的输出为分别对/>在G_D和G_C卷积，整合提取特征得到/>

本发明通过堆叠时空块增加模型深度，所以第l个时空块的输出同时可以作为第l+1个时空块的输入。/>

步骤23：输出层。

实施例2：参见图1-图3，一种基于因果Transformer的网络化数据预测方法采用的技术方案为：所述方法包括以下步骤：

步骤一：在观测到的时间序列数据上应用最优因果熵算法初步构建因果网络G_C＝(V，E_C，W_C)。对于节点集V＝{x，y₁，y₂，…，y_N-1}＝{x，y}，记节点x的因果父母集为z。算法初始阶段z为空集。如果

步骤二：聚合阶段所得的z可能是与x直接交流的超集。因此，对于z中成员z_i，如果

则将z_i从z中删除，当遍历z中所有成员后，留在z中的节点就是x的直接因果父母，删除阶段结束。此时节点x的父母因果集N_x＝z。

步骤三：对于V中每个节点进行上述两步，可以得到两两节点之间的因果关系E_C，完成因果网络的初步构建。

步骤四：通过互信息公式估计公式

I(X；Y|Z)＝ψ(k)-<ψ(n_xz+1)+ψ(n_yz+1)-ψ(n_z+1)>，估计因果熵的值，获得W_C，完成因果网络G_C＝(V，E_C，W_C)的构建。

步骤五：利用V中每个节点的经纬度坐标计算节点之间的距离，通过距离构造距离网络G_D＝(V，E_D，W_D)。

步骤六：数据预处理。人工选择一个滑动窗口来确定输入维度，即选择N个节点的个时间步长的耦合信息流数据/>作为模型输入。

步骤七：如图3，在第l个时空块中，将数据输入时间模块。在编码器部分，先将输入/>向量映射为/>再经过多个包含多头概率稀疏自注意力的注意力块。每个块的输出通过自注意力蒸馏提取相关的注意力信息。

步骤八：作为解码器部分输入，通过掩码多头概率稀疏自注意层，并与编码器的输出组合。然后，通过多头注意力传递。上述过程重复进行，直到通过全连接层得到/>其在最终输出中的位置与输入时的/>相对应。

步骤九：将提取的时间信息输入空间模块，通过模型：

/>

得到残差多图卷积输出

步骤十：为了保证时空块不改变数据维数，将线性变换，得到第l个时空块的输出/>

步骤十一：对最后一个时空块提取的信息通过输出层进行解码。使输出维度为预测的时间步数，得到输出Y_pred。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于因果Transformer的网络化数据预测方法,其特征在于，所述方法包括以下步骤：

步骤1：网络构建；

步骤2：建立时空Transformer卷积模型。

2.根据权利要求1所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤1：网络构建，具体如下：

步骤11：因果网络的构建；

步骤12：距离网络的构建。

3.根据权利要求2所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤11：因果网络构建网络构建，该阶段包括两步：

其中，p(x)是一个事件X的采取特定值x的概率，对于两个事件X和Y信息之间的关系，通过联合熵H(X,Y)和条件熵H(X|Y),H(Y|X)表征，其定义为：

其中，p(x,y)是X＝x,Y＝y的联合概率，p(x|y),p(y|x)是X＝x,Y＝y的条件概率，而事件X的信息细分为只属于X的信息以及X和Y的共享信息，互信息I(X；Y)描述事件X和Y之间的共享信息，当两者关系越密切时，互信息越大，互信息I(X；Y)的定义为：

I(X；Y)≡H(X)-H(X|Y)，

此时，若存在第三个事件Z作为发生条件时，事件X,Y的条件互信息I(X；Y|Z)为：

I(X；Y|Z)≡H(Y|Z)-H(Y|X,Z)，

然而互信息只能反映事件之间的关系，为了衡量两个事件之间信息流的方向性，引入转移熵T_X→Y，转移熵T_X→Y的定义为：

T_X→Y≡I(X^(t)；Y^(t++)|Y⁽⁽⁾)，

其中，τ为延迟时间，由于复杂工程***不可避免地包含两个以上的节点，如果没有适当的条件，转移熵就不能区分网络中的直接和间接因果关系，而因果关系熵C_Y→X|Z克服转移熵的成对限制，因果关系熵C_Y→X|Z的定义为：

C_Y→X|Z≡I(Y⁽⁽⁾；X⁽⁽⁺⁺⁾|Z⁽⁽⁾)＝H(X⁽⁽⁺⁺⁾|Z⁽⁽⁾)-H(X^(t+τ)|Z^(t),Y^(t))，

这一指标反映在给定的条件Z^(t)且明确X^(t++)的信息和方向时，Y^(t)能提供的信息量，因此，通过确定延迟时间τ，得到两个节点时间序列之间信息流的方向，

记复杂***的节点集为V，节点数为N，当两个节点的因果熵大于0时，将两个节点的连边加入边集E_C中，矩阵W_C∈R^N×N为以因果熵为权值的矩阵，则其因果网络图可表示为G_C＝(V,E_C,W_C)，对任一节点x∈V，所有方向指向它且因果熵大于0的节点被称之为因果父母，根据最优因果熵原则，x的因果父母集是使集合中因果熵最大化的最小节点集N_x，最优因果熵算法可以分成聚合阶段与删除阶段，

在聚合阶段，对于节点集V＝{x,y₁,y₂,…,y_N31}＝{x,y}，记节点x的因果父母集为z，算法初始阶段z为空集，如果则将节点y_i添加到z中，即z＝z∪y_i，换而言之，y_i为当前属于y且不属于z的节点集中因果熵最大的节点，而且该因果熵大于0，当y中找不到这样的节点时，聚合阶段结束，在删除阶段，聚合阶段所得的z可能是与x直接交流的超集，因此，对于z中成员z_i，如果/>则将z_i从z中删除，当遍历z中所有成员后，留在z中的节点就是x的直接因果父母，删除阶段结束，此时N_x＝z，对于V中每个节点进行最优因果熵算法，可以得到两两节点之间的因果关系E_C，初步构造因果网络，

(2)计算因果熵，因果熵等价于互信息，通过一种基于K邻近算法的互信息估计方法来估计两个事件X,Y的互信息：

I(X；Y)＝ψ(k)+ψ(N)-<ψ(n_x+1)+ψ(n_y+1)>，

其中<>表示所有样本的平均值，k表示为近邻点个数，是一个Digamma函数

N表示样本大小，n_x,n_y分别表示X,Y方向满足K邻近算法的个数，即对于固定的k值，设联合空间中的数据点w_i＝(x_i,y_i)到其第k个最近邻的距离为∈(i)，n_x,n_y分别为x_j,y_j(j≠i)中满足||x_j-x_i||_x<

∈(i),||y_j-y_i||_y<∈(i)的点数，当范数内为标量相减时，范数的值与标量之差的绝对值相同；

当考虑n个独立样本{s₁,s₂,…,s_n}的联合随机变量S＝(X,Y,Z)，其中s_i＝

(x_i,y_i,z_i)，I(X；Y|Z)的估计由以下公式给出：

I(X；Y|Z)＝ψ(k)-<ψ(n_xz+1)+ψ(n_yz+1)-ψ(n_z+1)>，

ψ(k)同样为Digamma函数，对于固定的k值，设联合空间中的数据点s_i到其第k个最近邻的距离为∈(i)，距离度量使用最大范数，即||s_i-s_j||_xyz＝max{||x_i-

x_j||_x,||y_i-y_j||_y,||z_i-z_j||_z}，基于此，更确切地说：

n_xz(i)表示(x_j,z_j)(j≠i)中满足||(x_j,z_j)-(x_i,z_i)||_xz<∈(i)的点数；

n_yz(i)表示(y_j,z_j)(j≠i)中满足||(y_j,z_j)-(y_i,z_i)||_yz<∈(i)的点数；

n_z(i)表示z_j(j≠i)中满足||z_j-z_i||_z<∈(i)的点数，

经过以上过程，W_C被成功估计，进而构建了完整的因果网络G_C＝(V,E_C,W_C)。

4.根据权利要求2所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤12：距离网络构建阶段，具体如下：

距离网络可表示为G_D＝(V,E_D,W_D)，其中E_D,W_D分别距离网络的边集以及邻接矩阵，邻接矩阵W_D是基于节点之间距离生成的，W_D第i行第j列元素表示如下：

其中d_ij为第i个节点与第j个节点的距离，该距离可以通过Python中的haversine工具带入节点经纬度计算得到，σ²是距离的假定方差，ε是权重的阈值，设定ε为0.5，σ²为10，距离网络的邻接矩阵W_D中的元素大于0代表该位置存在连边，经过步骤二，距离网络G_D＝(V,E_D,W_D)被成功构建。

5.根据权利要求1所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤2：建立时空Transformer卷积模型，包括三个步骤：

步骤21：数据预处理；

步骤22：Transformer卷积时空块；

步骤23：输出层。

6.根据权利要求5所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤21：数据预处理，具体如下：人工选择一个滑动窗口来确定输入维度，即选择N个节点的个时间步长的耦合信息流数据/>作为模型输入，输入维度的限制是为了避免输入的时间数据长度过长导致维度过高的神经网络运行过慢。

7.根据权利要求5所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤22：Transformer卷积时空块，具体如下：每个时空块包含一个可以提取时间维度信息的残差Transformer模块和一个可以总结因果网络和距离网络信息的残差多图卷积模块，

(1)时间模块，在时间轴上采用Informer模型结构来捕捉数据的时间动态行为；

1.1Informer模型包括编码器和解码器两部分，以第l个时空块，记模块输入为在编码器部分，将输入/>向量映射为/>其中，/>包含了输入/>线性映射后的向量、/>内元素的局部位置编码以及/>内元素在整个时间轴的全局位置编码，这使得/>不仅包含局部时序信息还具有层次时序信息，如星期、月和年等，以及突发时间戳信息；

在向量映射之后，数据经过多个注意力块，每个块都包含多头概率稀疏自注意力，每个块的输出通过自注意力蒸馏提取相关的注意力信息，其中使用了一维卷积层Conv1d、ELU激活层和最大池化MaxPool，该过程由从第j层到第(j+1)层的公式定义为：

第j层输入经过注意力块[·]_AB后，通过自注意力蒸馏提取对具有主导注意力的优势特征赋予更高权重，具体操作为首先选择长度为K_C的卷积核，在时间轴两端进行循环填充，使用Conv1d在序列的时间维度上进行一维卷积，其中输入和输出的维度一致，接着数据通过激活函数ELU，记输入为x_ELU，则ELU的表达式为：

最后，经过激活函数的数据在时间维度进行最大池化MaxPool操作提取出指定窗口的最大数据，显著减少了特征张量的大小，记输入的时间维度大小为L_in，则经过最大池化后，特征张量的时间维度L_ou(为：

1.2Informer的解码器需要以的形式作为输入：

包含起始令牌序列，时间维度长度为L_token，/>构成目标序列的占位符，时间维度长度为/>同时/>也是/>在时间维度长度，/>的标量值是零填充的，它包含了目标序列的时间戳，从输入序列/>中采样一个特定大小的序列作为起始令牌，例如来自前一个小时的交通流量数据，序列/>通过掩码多头概率稀疏自注意层，并与编码器的输出组合，然后，通过多头注意力传递，上述过程重复进行，直到通过全连接层得到/>其在最终输出中的位置与输入时的/>相对应，

(2)空间模块，

2.1由于复杂***距离网络与因果网络属于非欧几里德网络，所以本发明采用图神经网络的谱域方法提取非欧几里得结构数据的特征，第l个空间模块的输入包括第l个时间模块输出距离网络G_D＝(V,E_D,W_D)和因果网络G_C＝(V,E_C,W_C)，为了方便表述，将距离网络与因果网络统称为网络G，记网络G邻接矩阵为W∈

R^N×N，使用图拉普拉斯一阶近似的图卷积网络，时间模块的输出经过图卷积后可得到卷积输出/>卷积过程可以描述为：

其中，Θ为卷积核的参数，为W重新规范化的结果，I_N为N阶单位矩阵，/>为/>的度矩阵，/>的对角线元素/>可以表示为/> 的非对角元素全部为0，

在堆叠图卷积层时实现了残差连接，为了汇总因果网络和距离网络的信息，使用了多个图卷积，记第l个时间模块的输出为分别对/>在G_D和G_C卷积，整合提取特征得到/>

将/>在G_D和G_C卷积输出串联，/>为第l个空间模块的输出，ReGCN表示残差图卷积操作，将/>的图卷积输出与/>的线性变换FC₁输出相加，即/> 此外，下标C表示图卷积使用因果网络，下标D表示图卷积使用距离网络，

通过堆叠时空块增加模型深度，所以第l个时空块的输出同时可以作为第l+1个时空块的输入。

8.根据权利要求5所述的基于因果Transformer的网络化数据预测方法,其特征在于，步骤23：输出层，具体如下：

通过输出层解码得到预测结果，通过多个时空块对于特征的提取，对提取的信息进行解码，即线性变换FC_T，使输出的维度为预测的时间步数，记第L-1个时空块输出为最终提取特征，输出Y_pred∈R^N×K为预测结果，则输出层的解码过程如下：