CN116403397A

CN116403397A - 一种基于深度学习的交通预测方法

Info

Publication number: CN116403397A
Application number: CN202211651167.5A
Authority: CN
Inventors: 魏迎梅; 高敏; 杨雨璇; 韩贝贝; 谢毓湘; 康来; 蒋杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-07-07

Abstract

本发明提供一种基于深度学习的交通预测方法，包括：获取表征第一数量个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量个未来时间步的时空信息的未来表征；应用第一BERT模型对所述历史表征进行处理，获取第一状态编码；将所述第一状态编码与所述未来表征相加，得到预测表征；应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态。通过以上方式，本发明能够有效捕获交通数据中隐藏的时空依赖性，提高长期预测的准确率。

Description

一种基于深度学习的交通预测方法

技术领域

本发明属于智能交通技术领域，具体是涉及到一种基于深度学习的交通预测方法。

背景技术

伴随着城市化进程的加快和经济的快速发展，城市的人口和机动车的数量不断增长。为了最大限度地提高城市运行效率，各城市纷纷开发了智能交通***，而交通预测在智能交通***中扮演着重要角色。准确的预测结果可以有效地缓解城市的交通拥堵，为交通管理提供更有意义的决策依据。交通预测方面有两个主要挑战：时间依赖性和空间依赖性。时间依赖性是指当前的交通状态受到以前交通状态的影响。时间依赖性具有接近性、周期性和趋势性等特性。空间依赖性是指周围环境对一个地区的交通状态的影响。不同的相邻地区产生的影响彼此不同。一般来说，距离越近，影响越大。时间依赖性和空间依赖性总是交织在一起，产生更复杂的关联性。

随着深度学习方法在计算机视觉和自然语言处理等领域取得的巨大成就，许多研究人员试图将深度学习方法引入交通预测中。卷积神经网络(Convolutional NeuralNetworks，CNN)和图神经网络(Graph Neural Network，GNN)分别被用来学习隐藏在网格结构和图结构的交通数据中的空间相关性。递归神经网络(Recursive Neural Network，RNN)对时间相关性的建模具有指导意义。RNN的变体长短期记忆模型和门控循环单元可以应用于预测短期交通流量，因为它们解决了传统RNN模型的梯度***和梯度消失问题。

传统RNN模型在捕获时间依赖性方面仍有不足。在交通预测中，当前时间段的交通状态可能受到很久以前的交通状态的影响。然而，传统RNN模型很难记住很久以前的交通状态，也就是说，存在长期依赖的问题。另外现有的机器学习方法只能够对时间上的依赖性进行建模，无法捕捉空间上的依赖性。

发明内容

本发明提供一种基于深度学习的交通预测方法，以解决现有的交通长期状态预测准确度不高的问题。

为解决上述技术问题，本发明提出一种基于深度学习的交通预测方法，包括：获取表征第一数量个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量个未来时间步的的时空信息的未来表征；应用第一BERT模型对所述历史表征进行处理，获取第一状态编码；将所述第一状态编码与所述未来表征相加，得到预测表征；应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态。

可选的，所述应用第一BERT模型对所述历史表征进行处理，获取第一状态编码，包括：对所述历史表征进行时间注意力计算，获取第一时间注意力编码；对所述第一时间注意力编码进行空间注意力计算，获取第一空间注意力编码；对所述第一空间注意力编码进行层归一化处理，得到第一状态编码。

可选的，所述对所述历史表征进行时间注意力计算，获取第一时间注意力编码，包括：将所述所述历史表征分解为时间步和节点粒度，根据所述历史表征计算所述第一BERT模型中任一节点的任一时间步的当前层的时间注意力的时间输入向量，所述时间输入向量包括时间查询向量、时间键向量以及时间值向量；根据所述时间查询向量和所述时间键向量应用激活函数计算当前层的第一时间注意力权重；对当前层的所述第一时间注意力权重与所述时间值向量进行加权求和，并与上一层的第一时间注意力编码进行残差连接，得到当前层的第一时间注意力编码。

可选的，所述对所述第一时间注意力编码进行空间注意力计算，获取第一空间注意力编码，包括：根据所述取第一空间注意力编码计算所述第一BERT模型中任一节点的任一时间步的当前层的空间注意力的空间输入向量，所述空间输入向量包括空间查询向量、空间键向量以及空间值向量；根据所述空间查询向量和所述空间键向量应用激活函数计算当前层的第一空间注意力权重；对当前层的所述第一空间注意力权重与所述空间值向量进行加权求和，并与当前层的第一时间注意力编码进行残差连接，得到当前层的第一空间注意力编码。

可选的，所述对所述第一空间注意力编码进行层归一化处理，得到第一状态编码，包括：应用前馈网络对所述第一空间注意力编码进行处理；将所述第一空间注意力编码与所述前馈网络的输出叠加，得到第一状态编码。

可选的，所述将所述第一状态编码与所述未来表征相加，得到预测表征，包括：如果所述第一数量小于所述第二数量，则对所述第一数量个时间步的所述第一状态编码进行随机数填充，扩展至所述第二数量个时间步；如果所述第一数量大于所述第二数量，则对所述第二数量个时间步的所述未来表征进行补零，扩展至所述第一数量个时间步。

可选的，所述应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态，包括：对所述预测表征进行时间注意力计算，获取第二时间注意力编码；对所述第二时间注意力编码进行空间注意力计算，获取第二空间注意力编码，并对所述第二空间注意力编码进行层归一化处理，获取第二状态编码，所述第二状态编码即为预测的交通状态。

可选的，所述对所述预测表征进行时间注意力计算，获取第二时间注意力编码包括：将所述预测表征分解为时间步和节点粒度，根据所述预测表征计算所述第二BERT模型中任一节点的任一时间步的当前层的时间注意力的时间输入向量，所述时间输入向量包括时间查询向量、时间键向量以及时间值向量；根据所述时间查询向量和所述时间键向量应用激活函数计算当前层的第二时间注意力权重；对当前层的所述第二时间注意力权重与所述时间值向量进行加权求和，并与上一层的第二时间注意力编码进行残差连接，得到当前层的第二时间注意力编码。

基于同一发明构思，本发明实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如前述中任意一项所述的方法。

基于同一发明构思，本发明实施例还提出了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行前述任意一项所述的方法。

从上面所述可以看出，本发明提出一种基于深度学习的交通预测方法，包括：获取表征第一数量个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量个未来时间步的的时空信息的未来表征；应用第一BERT模型对所述历史表征进行处理，获取第一状态编码；将所述第一状态编码与所述未来表征相加，得到预测表征；应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态，能够有效捕获交通数据中隐藏的时空依赖性，提高长期预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种基于深度学习的交通预测方法的流程示意图；

图2为本发明实施例中的一种基于深度学习的交通预测方法中输入表征示意图；

图3为本发明实施例中的分离时空注意力的示意图；

图4为本发明实施例中的获取第一状态编码的流程示意图；

图5为本发明实施例中的一种基于深度学习的交通预测示意图；

图6为本发明实施例的一种电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本发明实施例提出了一种基于深度学习的交通预测方法，如图1所示，一种基于深度学习的交通预测方法包括：

步骤S1：获取表征第一数量P个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量Q个未来时间步的的时空信息的未来表征。

双向编码器表示法(Bidirectional Encoder Representation fromTransformer，BERT)是自然语言处理中一个里程碑式的模型，它所包含的注意力机制将时间窗口中任何时间步骤之间的距离减少到1，从而有效地解决了长期依赖的问题。此外，BERT是一个预训练的模型，可以根据不同的任务配备不同的轻量级输出，而不需要为特定的任务单独设计一个定制模型。因此，BERT经过改造有望成为一个关于交通状态的通用模型，它可以被用于多个下游任务，如交通状态分类和交通状态聚类。针对传统方法在捕获空间依赖性和时间依赖性方面的不足以及BERT模型体现出来的优势，本发明实施例对BERT模型进行修改，使其变成适合交通预测场景的模型，简称为TPBERT。

在步骤S1之前，将道路网络表示成一个有向图G＝(V，E，A)，其中V是节点的集合，E是节点之间的边的集合，A是邻接矩阵。特别地，N＝|V|是节点的数量，_ij∈A表示v_i和v_j之间的物理距离。有向图G上所有顶点在时间步t的流量状态由向量

表示，其中C是交通状态观测值的数量。基于有向图G和P个历史时间步中观察到的交通状态数据，交通预测任务可以表述为学习一个函数f预测未来Q个时间步的交通状态：f(G，X＝Y；

其中，

由于交通预测会受到时间依赖性和空间依赖性的影响，对时间和空间信息进行编码并将其纳入模型至关重要。此外，考虑到历史时间步骤和未来时间步骤之间的位置关系，需要编码交通数据及其时间信息、空间信息、位置信息，得到交通状态嵌入信息、时间嵌入信息、空间嵌入信息、位置嵌入信息。并且所有嵌入的大小设定为D。每种信息的说明如下：

交通状态嵌入信息：在时间步t的原始交通状态观测值被表示为

为了与其他嵌入的大小保持一致的D，X_t通过一个完全连接的网络，得到最终的表示

时间嵌入信息：周期性是交通预测中时间依赖性的一个重要特征，时间嵌入主要包含日周期性和周周期性，日周期性意味着交通状态在一天中的同一时刻更加相似，周周期性意味着一周中相同日子的交通状态有相同的模式。例如一周有七天，每周的周期性需要7个不同的嵌入向量来表示。日周期性的表示与数据收集的时间间隔有关。假设时间间隔为5分钟，一天有24×60÷5＝288个时间步。因此，288个不同的嵌入向量将被用来表示日周期性。本发明的日周期性和周周期性嵌入是随机初始化的。时间嵌入信息

是通过日周期性和周周期性嵌入相加得到的，它可以在训练期间不断更新。

空间嵌入信息：BERT能对序列中的元素和元素之间的关系进行编码，但不能对空间依赖关系进行建模。为了解决这个问题，基于图嵌入提出空间嵌入信息，它将节点的关键信息保留在一个矢量中，使用节点嵌入算法来学习节点表示，这是一个有偏向的随机行走，其中超参数p和q控制行走的策略。所有的节点表示向量都是预先训练好的，以方便空间嵌入，表示为

位置嵌入信息：对于位置编码有两种选择，绝对位置编码和相对位置编码。本发明实施例中选择相对位置编码，因为绝对位置编码需要整个时间序列中的已知位置，而相对位置编码则不需要。对于连续的P个历史时间步和Q个未来时间步，它们的相对位置可以通过P+Q的不同嵌入来编码。与时间嵌入信息一样，位置嵌入信息

也是随机初始化的，并且可以在训练中更新。

如图2所示，历史表征包括历史交通状态嵌入信息、历史时间嵌入信息、历史空间嵌入信息和历史位置嵌入信息，未来表征包括未来时间嵌入信息、未来空间嵌入信息和未来位置嵌入信息。即历史时间步t的历史表征为

未来时间步t的未来表征为/>

步骤S2：应用第一BERT模型对所述历史表征进行处理，获取第一状态编码。

为了捕获交通状态数据中隐藏的时间依赖性和空间依赖性，使用分离时空注意力机制逐个计算时间注意力和空间注意力。如图3所示，输入首先被传递到时间注意力中捕捉时间上的依赖性，然后被传递到空间注意力中捕捉空间上的依赖性，得到最终的输出。值得注意的是，注意力是针对道路网络中的每个节点计算的，也就是说，每个节点都可以作为一个查询向量。如图4所示，步骤S2包括：

步骤S21：对所述历史表征进行时间注意力计算，获取第一时间注意力编码。

将所述历史表征分解为时间步t和节点粒度v，根据所述历史表征计算所述第一BERT模型中任一节点v的任一时间步t的当前层l的时间注意力的时间输入向量，所述时间输入向量包括时间查询向量

时间键向量/>

以及时间值向量/>

计算公式如下所示：

其中，LN表示层归一化运算，a表示第a个注意力头。假设注意力头的总数量为A，注意力头的维度D^h＝÷A。

根据所述时间查询q向量和所述时间键k向量应用激活函数计算当前层l的第一时间注意力权重

其中，SM为激活函数，本发明实施例优选为softmax激活函数。

对当前层l的所述第一时间注意力权重与所述时间值向量进行加权求和

并与上一层的第一时间注意力编码进行残差连接，得到当前层l的第一时间注意力编码

计算公式如下：

步骤S22：对所述第一时间注意力编码

进行空间注意力计算，获取第一空间注意力编码/>

在本发明实施例中，时间注意力编码

是计算空间注意力的输入。也就是说，新的空间查询向量、空间键向量以及空间值向量是由/>

获得的，此处依然使用

表示，不再赘述。

在步骤S22中，根据所述第一时间注意力编码

计算所述第一BERT模型中任一节点v的任一时间步t的当前层l的空间注意力的空间输入向量，所述空间输入向量包括空间查询向量/>

空间键向量/>

以及空间值向量/>

计算公式与步骤S21中相同，在此不再赘述。

根据所述空间查询向量

和所述空间键向量/>

应用激活函数计算当前层l的第一空间注意力权重/>

对当前层l的所述第一空间注意力权重

与所述空间值向量/>

进行加权求和/>

并与当前层l的第一时间注意力编码进行残差连接，得到当前层l的第一空间注意力编码/>

计算公式如下：

步骤S23：对所述第一空间注意力编码

进行层归一化处理，得到第一状态编码/>

可选的，首先应用前馈网络对所述第一空间注意力编码

进行处理。然后将所述第一空间注意力编码与所述前馈网络的输出叠加，得到第一状态编码/>

计算公式如下：

步骤S3：将所述第一状态编码与所述未来表征相加，得到预测表征。

历史表征与未来表征两个输入中，未来表征的时间、空间和位置信息是已知的。因此，需要通过二次输入以将未来信息纳入模型，并完成从历史到未来的转变。第一状态编码为第一数量P个时间步维度，未来表征为第二数量Q个时间步的维度，P≠Q，即未来表征与第一状态编码维度不一致时，如果第一数量小于第二数量，则对所述第一数量个时间步的第一状态编码进行随机数填充，扩展至第二数量个时间步。如果第一数量大于第二数量，则对第二数量个时间步的所述未来表征进行补零，扩展至第一数量个时间步。如此，可以保证历史表征的维度和未来表征的维度一致。

步骤S4：应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态。

TPBERT模型的结构如图5所示，整个TPBERT模型由2个l层叠加而成。前l层即为第一BERT模型的运算层数，后l层即为第二BERT模型的运算层数，第二BERT模型与第一BERT模型的结构完全相同。前l层已经提取了历史表征的抽象信息，可以将后l层与未来表征结合起来，做出相应的预测。历史表征法表示为

未来表征法表示为/>

E_h被送入前L层，产生一个输出/>

当P＝Q，或者通过扩展维度输出H^L和未来表征E_f的维度相同时，H^L与未来表征E_f相加，得到/>

E_f′被送入第二个L层，产生一个输出/>

即预测表示E_p。为了得到最终的预测/>

E_p将进入一个全连接神经网络。

在步骤S4中，对所述预测表征进行时间注意力计算，获取第二时间注意力编码；对所述第二时间注意力编码进行空间注意力计算，获取第二空间注意力编码，并对所述第二空间注意力编码进行层归一化处理，获取第二状态编码，所述第二状态编码即为预测的交通状态。上述分析计算过程与步骤2中相同，将原式中的历史表征数据更换为预测表征数据即可。

以下对本发明实施例的基于深度学***均绝对误差(MAE)、均方根误差(RMSE)、和平均绝对百分比误差(MAPE)为三个来衡量模型性能的指标。

表1试验对比结果

表1中HA、ARIMA、SVR、FNN、FC-LSTM、DCRNN、STGCN、MRA-BGCN、Graph WaveNet、STAWnet、MTGNN、GMAN是其他不同类型的预测模型，HA表示利用历史时间序列的加权平均作为预测结果的预测模型；ARIMA与卡尔曼滤波器是一个预测和分析时间序列的统计预测模型；SVR是将交通预测视为一项回归任务，并在支持向量机的帮助下进行预测的模型；FNN是由两个密集层和L2正则化组成的预测模型；FC-LSTM是一个编码器-解码器预测模型；DCRNN是利用双向图随机游走和RNN来捕捉空间和时间上的相关性的预测模型；STGCN是建立在空间-时间卷积块上，整合了图卷积和门控时间卷积的预测模型；MRA-BGCN是引入了双分量图卷积和多范围注意机制来整合来自不同邻居的交通信息的预测模型；Graph WaveNet是使用自适应的依赖矩阵与一维卷积学习长序列信息的预测模型；STA Wnet是使用自我学习的节点嵌入来表示潜在的空间关系的预测模型；MTGNN是一个由图结构学习、图卷积和时间卷积组成的多变量时间序列预测模型；GMAN是一个配备了多种注意机制，如空间注意、时间注意和变换注意的编码器-解码器架构预测模型。实验结果表明，本发明实施例的基于深度学习的交通预测方法用于交通预测中准确度有所提高。在短期预测中，MRA-BGCN在两个数据集上表现最好。在中期和长期预测，TPBERT在两个数据集上的表现优于其他模型。从不同的数据集来看，METR-LA的预测比PeMS-BAY的误差更大，说明METR-LA的交通状况比BAY地区更复杂，而TPBERT在更具挑战性的METR-LA上表现良好，表明TPBERT对复杂的交通数据具有重要的建模能力。

本发明实施例通过获取表征第一数量个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量个未来时间步的的时空信息的未来表征；应用第一BERT模型对所述历史表征进行处理，获取第一状态编码；将所述第一状态编码与所述未来表征相加，得到预测表征；应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态，能够提高长期预测方面的准确率，有利于对交通数据中隐藏的时空依赖性的捕获。

基于同一发明构思，本发明实施例还提供了一种电子设备，该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如前述中任意一项所述的方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器601、存储器602、输入/输出接口603、通信接口604和总线605。其中处理器601、存储器602、输入/输出接口603和通信接口604通过总线605实现彼此之间在设备内部的通信连接。

处理器601可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案。

存储器602可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器602可以存储操作***和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器602中，并由处理器601来调用执行。

输入/输出接口603用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口604用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线605包括一通路，在设备的各个组件(例如处理器601、存储器602、输入/输出接口603和通信接口604)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器601、存储器602、输入/输出接口603、通信接口604以及总线605，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如前述中任意一项所述的方法。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度学习的交通预测方法，其特征是，所述基于深度学习的交通预测方法包括：

获取表征第一数量个历史时间步的交通状态信息和时空信息的历史表征以及表征第二数量个未来时间步的时空信息的未来表征；

应用第一BERT模型对所述历史表征进行处理，获取第一状态编码；

将所述第一状态编码与所述未来表征相加，得到预测表征；

应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态。

2.如权利要求1所述的基于深度学习的交通预测方法，其特征是，所述应用第一BERT模型对所述历史表征进行处理，获取第一状态编码，包括：

对所述历史表征进行时间注意力计算，获取第一时间注意力编码；

对所述第一时间注意力编码进行空间注意力计算，获取第一空间注意力编码；

对所述第一空间注意力编码进行层归一化处理，得到第一状态编码。

3.如权利要求2所述的基于深度学习的交通预测方法，其特征是，所述对所述历史表征进行时间注意力计算，获取第一时间注意力编码，包括：

将所述历史表征分解为时间步和节点粒度，根据所述历史表征计算所述第一BERT模型中任一节点的任一时间步的当前层的时间注意力的时间输入向量，所述时间输入向量包括时间查询向量、时间键向量以及时间值向量；

根据所述时间查询向量和所述时间键向量应用激活函数计算当前层的第一时间注意力权重；

对当前层的所述第一时间注意力权重与所述时间值向量进行加权求和，并与上一层的第一时间注意力编码进行残差连接，得到当前层的第一时间注意力编码。

4.如权利要求2所述的基于深度学习的交通预测方法，其特征是，所述对所述第一时间注意力编码进行空间注意力计算，获取第一空间注意力编码，包括：

根据所述取第一时间注意力编码计算所述第一BERT模型中任一节点的任一时间步的当前层的空间注意力的空间输入向量，所述空间输入向量包括空间查询向量、空间键向量以及空间值向量；

根据所述空间查询向量和所述空间键向量应用激活函数计算当前层的第一空间注意力权重；

对当前层的所述第一空间注意力权重与所述空间值向量进行加权求和，并与当前层的第一时间注意力编码进行残差连接，得到当前层的第一空间注意力编码。

5.如权利要求2所述的基于深度学习的交通预测方法，其特征是，所述对所述第一空间注意力编码进行层归一化处理，得到第一状态编码，包括：

应用前馈网络对所述第一空间注意力编码进行处理；

将所述第一空间注意力编码与所述前馈网络的输出叠加，得到第一状态编码。

6.如权利要求1所述的基于深度学习的交通预测方法，其特征是，所述将所述第一状态编码与所述未来表征相加，得到预测表征，包括：

如果所述第一数量小于所述第二数量，则对所述第一数量个时间步的所述第一状态编码进行随机数填充，扩展至所述第二数量个时间步；

如果所述第一数量大于所述第二数量，则对所述第二数量个时间步的所述未来表征进行补零，扩展至所述第一数量个时间步。

7.如权利要求1所述的基于深度学习的交通预测方法，其特征是，所述应用第二BERT模型对所述预测表征进行处理，获取预测的交通状态，包括：

对所述预测表征进行时间注意力计算，获取第二时间注意力编码；

对所述第二时间注意力编码进行空间注意力计算，获取第二空间注意力编码，并对所述第二空间注意力编码进行层归一化处理，获取第二状态编码，所述第二状态编码即为预测的交通状态。

8.如权利要求7所述的基于深度学习的交通预测方法，其特征是，所述对所述预测表征进行时间注意力计算，获取第二时间注意力编码包括：

将所述预测表征分解为时间步和节点粒度，根据所述预测表征计算所述第二BERT模型中任一节点的任一时间步的当前层的时间注意力的时间输入向量，所述时间输入向量包括时间查询向量、时间键向量以及时间值向量；

根据所述时间查询向量和所述时间键向量应用激活函数计算当前层的第二时间注意力权重；

对当前层的所述第二时间注意力权重与所述时间值向量进行加权求和，并与上一层的第二时间注意力编码进行残差连接，得到当前层的第二时间注意力编码。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。

10.一种计算机存储介质，其特征是，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1至8中任意一项所述的方法。