CN116050640B - 基于自适应多图卷积的多模式交通***短时客流预测方法 - Google Patents

基于自适应多图卷积的多模式交通***短时客流预测方法 Download PDF

Info

Publication number
CN116050640B
CN116050640B CN202310108449.9A CN202310108449A CN116050640B CN 116050640 B CN116050640 B CN 116050640B CN 202310108449 A CN202310108449 A CN 202310108449A CN 116050640 B CN116050640 B CN 116050640B
Authority
CN
China
Prior art keywords
traffic
mode
passenger flow
self
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310108449.9A
Other languages
English (en)
Other versions
CN116050640A (zh
Inventor
张金雷
杨立兴
杨咏杰
阴佳腾
戚建国
高自友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202310108449.9A priority Critical patent/CN116050640B/zh
Publication of CN116050640A publication Critical patent/CN116050640A/zh
Application granted granted Critical
Publication of CN116050640B publication Critical patent/CN116050640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于自适应多图卷积的多模式交通***短时客流预测方法。该方法包括:针对多模式交通***,获取历史客流序列、自相关图和互相关图;以历史客流序列、自相关图和互相关图作为输入,利用经训练的短时客流预测模型输出预测的每种交通模式的未来客流。本发明能够协同考虑城市多模式交通***范围内多个不同区域对于多种交通模式的未来客流,解决了多模式交通客流异质性问题,并且实现了不同交通模式的信息交互,提升了计算效率。

Description

基于自适应多图卷积的多模式交通***短时客流预测方法
技术领域
本发明涉及交通客流预测技术领域,更具体地,涉及一种基于自适应多图卷积的多模式交通***短时客流预测方法。
背景技术
城市交通***中的短时客流预测能够捕捉多模式交通客流的时空特征,并分别预测每种交通模式在城市内每个区域的未来客流。然而,对多交通模式进行短期流入预测存在一些难点。例如,多模式交通***中不同交通模式之间的信息交互机制难以获取;多模式交通***的客流的复杂动态时空特征难以捕获;多模式交通的客流数据存在异质性,导致客流数据难以组织,模型难以构建。
目前,深度学习模型被广泛应用于交通预测,包括长短时记忆网络(LSTM)、卷积神经网络(CNN)、图卷积神经网络(GCN)等。然而,现有的多模式交通短时客流预测方案存在如下问题:现有研究通常只关注目标交通方式和一些外部因素,如天气条件,而忽略其他交通方式的影响;现有的多模式交通短时客流预测的研究很少关注多模式交通***内的交互机制;由于不同交通模式具有不同的空间特征,导致多模式交通的客流数据存在异质性,客流数据的异质性导致多模式交通客流数据难以组织,预测模型难以构建;由于城市网络范围内不同区域的功能不同,因此在多模交通***中,不同交通模式的客流规律存在较大差异,导致在城市范围内不同交通模式的客流规律难以获取。此外,不同交通模式之间的时空关系可能是随时间变化的,而现有研究利用静态的时空关系矩阵刻画不同交通模式之间的时空关系,难以捕获动态的时空特性。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于自适应多图卷积的多模式交通***短时客流预测方法。该方法包括以下步骤:
针对多模式交通***,获取历史客流序列X(t-L)→t以及自相关图Gs和互相关图Gc
通过训练短时客流预测模型学习映射函数F(·),以预测每种交通模式的未来客流,表示为:
Xt+1=F(X(t-L)→t,Gs,Gc)
其中,L表示历史时间段的长度,Xt+1表示多模式交通***在t+1时刻的进站客流序列。
与现有技术相比,本发明的优点在于,提出了一种新颖的基于多任务学习的短时客流预测模型,能够准确预测多模式交通***内不同交通模式的未来进站客流,并提取不同交通模式之间的信息交互机制,为管理和理解多交通模式***提供了可靠的方法和深刻的见解。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于自适应多图卷积的多模式交通***短时客流预测方法的流程图;
图2是根据本发明一个实施例的短时客流预测模型的示意图;
图3是根据本发明一个实施例的多元时间关系注意力机制示意图;
图4是根据本发明一个实施例的影响系数矩阵可视化示意图;
图5是根据本发明一个实施例的基于注意力机制的特征聚合层示意图;
图6是根据本发明一个实施例的因果卷积层示意图;
图7是根据本发明一个实施例的TaxiBJ数据可视化图;
图8是根据本发明一个实施例的地铁和公交客流数据处理示意图;
图9是根据本发明一个实施例的部分区域多模式交通客流示意图;
图10是根据本发明一个实施例的超参数调整结果示意图;
图11是根据本发明一个实施例的M2-former在不同区域的预测结果示意图;
图12是根据本发明一个实施例的短时客流预测模型在不同区域的预测结果示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
参见图1所示,所提供的基于自适应多图卷积的多模式交通***短时客流预测方法总体上包括:步骤S110,针对多模式交通***,获取历史客流序列、自相关图和互相关图;步骤S120,以历史客流序列、自相关图和互相关图作为输入,利用经训练的短时客流预测模型输出预测的每种交通模式的未来客流。在下文中,将首先对相关概念进行定义,并对多模式交通***短时客流预测问题进行详细定义,进而介绍相关的短时客流预测模型以及实验验证结果。
一、相关概念及问题定义
定义1(多模式交通***):多模式交通***T由M(M>1)种交通模式构成,例如地铁、公交、出租车等。对于第k种交通模式而言,表示交通模式k在t时刻的客流,其中Nk表示交通模式k的节点个数。对于多模式交通***T而言,在t时刻的客流可表示为
定义2(自相关图):对于交通模式k而言,其自相关图定义为其中,Vk为节点集,且|Vk|=Nk。/>为权重矩阵,该矩阵用于刻画节点集中每个点之间的相关性。对于多模式交通***T而言,所有交通模式的自相关图表示为
定义3(互相关图):对于交通模式m和交通模式n而言,其互相关图定义为其中,Vm和Vn分别为交通模式m和交通模式n的节点集,且|Vm|=Nm、|Vn|=Nn。/>为权重矩阵,该矩阵用于刻画交通模式m和交通模式n之间的相关性。具体而言,[Amn]i,j表示交通模式m中的节点i与交通模式n的节点j之间的相关性。对于多模式交通***T而言,所有交通模式的互相关图表示为/>
定义4(静态空间相关性矩阵):为全面获取多模式交通***中的空间特性,本发明定义两种静态空间相关性矩阵,即距离相关性矩阵和功能相关性矩阵/>具体而言,给定交通模式m和交通模式n,距离相关性矩阵/>定义参见公式(1)。其中,/>表示交通模式m中的节点i与交通模式n的节点j之间的距离相关性,lngi,lati和lngj,latj分别表示交通模式m中的节点i与交通模式n的节点j的经纬度。函数dist(·)用于计算两个点之间的欧氏距离。
对于功能相关性矩阵而言,给定交通模式m和交通模式n,功能相关性矩阵表示为:
其中,示交通模式m中的节点i与交通模式n的节点j之间的功能相关性。pm,i和pn,j分别表示交通模式m中的节点i与交通模式n的节点j的进站客流序列。Corr(·)用于计算相关系数。σ表示标准差。
问题定义:对于多模式交通***T而言,该***包含M(M>1)种交通模式。给定多模式交通***的历史客流序列X(t-L)→t以及自相关图Gs和互相关图Gc,多模式交通***的短时客流预测旨在寻找函数F(·),该函数能够预测多模式交通***内每种交通模式的未来客流:
Xt+1=F(X(t-L)→t,Gs,Gc) (3)
其中,L表示历史时间段的长度,Xt+1表示多模式交通***在t+1时刻的进站客流序列。
二、相关模型介绍
1)ProbSparse自注意力机制
Vaswani等首次提出Transformer模型用于自然语言处理。Transformer的特点在于,该模型由多头注意力机制和前向传播神经网络构成,其中多头注意力机制由多个自注意力机制构成。Zhou等针对Transformer模型进行改进,并提出Informer模型用于长时间序列预测任务,该模型创新点在于ProbSparse自注意力机制层以及蒸馏层(Distillinglayer)。
ProbSparse自注意力机制主要涉及三个矩阵,即查询矩阵Q,键矩阵K,值矩阵V。对于交通模式i而言,假设历史时间段长度为L,节点总数为Si。则上述三个矩阵可表示为和/>ProbSparse自注意力机制表达式如下:
其中,Softmax(·)表示激活函数,用于缩放点积结果。/>表示处理后的查询矩阵,该矩阵只包含通过稀疏度量M(qi,K)计算的前u个查询向量,u由抽样因子c通过u=c·lnLQ控制。基于ProbSparse自注意力机制,多头ProbSparse自注意力机制表示如下:
其中,np表示注意点的个数,*表示卷积操作。表示第i个注意力点的可学习参数。此外,本发明设置dq=dk=dv=dmodel/n,其中dmodel是超参数。由于ProbSparse自注意力机制仅对查询向量Q进行筛选,导致值向量V存在冗余现象从而导致信息矩阵难以进一步处理,为此Zhou等使用蒸馏层消除值向量V的冗余。假定第i层编码层中多头ProbSparse注意力机制的输出为Ri,则蒸馏层原理如下式。
其中,ELU(·)为激活函数,Conv1D(·)为一维卷积操作,MaxPool(·)表示最大池化操作。
2)多图卷积(MGC)
许多研究利用多图卷积(MGC)用于全面刻画交通网络的空间特征。MGC可由下式表示:
其中,Au代表第u种相关性矩阵,Du为对应的度矩阵。Wu表示可学习参数。与普通的图卷积相比,MGC能够捕获多种空间关系。然而,该图卷积难以适用于多模式交通***。具体而言,MGC中的参数量会随着交通模式数量的增加而显著增加,导致模型难以训练。此外,在多模式交通***中,不同交通模式之间的相关性矩阵通常维度是不同的,因此无法直接通过求和方式聚合多种特征。为解决这些问题,本发明提出使用于多模式交通***的MGC。具体而言,对于多模式交通***T而言,该***包含M(M>1)种交通模式以及目标交通模式P。利用/>分别表示距离相关型矩阵集合和功能相关性矩阵集合,并定义/>为用于目标交通模式P的MGC,公式表达如下:
其中,u表示相关性矩阵的种类,和/>分别表示互相关矩阵和自相关矩阵。Wu,c和Wu,s是可学习参数。
三、本发明提出的短时客流预测模型
本发明提出新颖的基于多任务学习的短时客流预测模型M2-former。具体而言,该模型由多个具有编解码器结构的分支组成,每个分支对应特定的交通模式。对于特定的交通模式,编码器用于学习和捕获多种交通模式之间的显式和隐式时空相关性;解码器用于进一步提取目标交通模式的流入特征,并生成未来的流入。模型的整体框架如图2所示。M2-former由E个编码器层和D个解码器层组成,任务特定层用于获取每种流量模式的未来流入。
编码器用于学习多模式交通间的复杂相关性,主要由两部分组成,分别是:多元时间关系注意机制(MTR-A)用于提取多交通模式间的时间相关性,由多模式交通***ProbSparse注意力机制和基于注意力机制的特征聚合层(AAB)组成;多元空间自适应多图卷积(MSR-MGC)用于捕获不同交通模式之间的显式和隐式空间相关性。最后,融合层将两个部分的输出进行汇总。
1)多元时间关系注意力机制(MTR-A):
MTR-A结构如图3所示,MTR-A由多模式交通***ProbSparse注意力机制和基于注意力机制的特征聚合层(AAB)组成,用于捕获多模式交通的时间相关性。
多模式交通***ProbSparse注意力机制基于多头ProbSparse自注意力机制,本发明提出多模式交通***ProbSparse注意力机制/>该机制旨在计算多种交通模式对目标交通模式的影响系数,并获得时间相关性。具体而言,对于多模式交通***T而言,该***包含M(M>1)种交通模式以及目标交通模式P。假设历史时间段长度为L,多模式交通***的历史进站客流表示为XO={Xk,k=1,…,M},/>其中,Sk表示第k种交通模式的节点个数。/>表示目标交通模式的历史客流序列。将XP视为键矩阵/>和值矩阵/>将XO视为查询矩阵集合Q={Q1,…,Qm,QP},其中,/>对于目标交通模式P,多模式交通***ProbSparse注意力机制可由下式表示:
其中,为蒸馏层,/>和/>为科学系参数。由于不同交通模式的数据结构不同,Wk用于将所有时间相关性结果的维度进行统一。此外,所有交通模式共享同一个多头ProbSparse自注意力机制层。
的关键在于计算查询矩阵和键矩阵的乘积,即/> 本发明定义/>为交通模式k对目标交通模式的影响系数矩阵,该矩阵的元素可以通过下式进行计算:
其中,qk表示中的元素,k表示KT中的元素。可以将影响系数矩阵进行可视化,如图4所示。通过计算/>和KT各元素的乘积,影响系数矩阵能够刻画交通模式k的历史客流对目标交通模式的影响。进一步,影响系数矩阵与值矩阵相乘,从而得到交通模式k与目标交通模式之间的时间相关性特征图/>进一步,将所有交通模式与目标交通模式间的时间相关性的维度进行统一并凭借在一起,得到全局时间相关性特征图集合为充分提取HP中的信息,本发明提出基于注意力机制的特征聚合层,用于进一步处理HP
本发明提出的基于注意力机制的特征聚合层(AAB)如图5所示,输入特征图HP,HP依次经过交通模式级注意力层和节点级注意力层处理,分别生成两个注意力矩阵ATL∈Rm×1×1每个注意力矩阵分别与对应输入相乘用于特征细化。经过特征细化后得到特征图H″p,进一步对每个交通模式的特征图进行求和,并通过残差链接获得目标交通***的时间特征图/>基于注意力机制的特征聚合层AAB可由下式表示,其中,⊙表示哈达玛积。
AAB主要包括交通模式级注意力层和节点级注意力层。具体而言,交通模式级注意力层关注不同交通模式的影响。给定特征图HP,该注意力层首先通过最大池化、平均池化以及节点级特征提取(NLE)聚合每种交通模式的特征,从而生成三个不同的向量,即和/>三者具有相同的维度。上述三个向量被输入至同一个全连接层,从而获取交通模式级注意力矩阵ATL,公式表达如下:
其中,σ表示Sigmoid激活函数,FC(·)表示全连接层,Win∈Rm×(m/r)和Wre∈R(m/r)×m为可学习参数,r是一个给定的参数。
由于最大池化和平均池化只能捕获所有交通模式的部分特征。因此,本发明提出NLE用于对最大池化和平均池化进行补充,使得模型全面获取所有交通模式的特征。具体来说,NLE分别沿时间轴和节点轴依次处理每种交通模式的特征图。进一步,将不同交通模式的值进行拼接,得到最终结果。具体而言,对于交通模式k,NLE首先单独处理特征图时间轴,得到节点的表示值计算公式如下:
其中,为交通模式k对应的特征图,/>为可学习参数。进一步,NLE对/>沿节点轴进行处理,并获取交通模式k的对应结果/>
其中,为可学习参数。最终,将每种交通模式的结果进行拼接,得到
对于节点级注意力层而言,该注意力层主要关注不同节点的影响。因此,交通模式级注意力层和节点级注意力层得以互补,全面获得多模式交通的信息。具体而言,给定经过交通模式级注意力层处理后的特征图H′p,节点级注意力层通过对每个交通模式对应的特征图进行最大池化和平均池化操作,实现特征聚合并生成两个具有相同维度的特征矩阵和/>进一步,/>和/>经过二维卷积成生成节点级注意力矩阵ANL
2)多元空间自适应多图卷积(MSR-MGC)
本发明提出自适应的多图卷积MSR-MGC用于提取多模式交通***的动态空间特征。与公式(8)的多图卷积不同,MSR-MGC利用自适应互相关矩阵用于捕获不同交通模式间的隐式空间关系,从而刻画多模式交通***的动态空间特征。对于每种交通模式,提出自适应隐式关系节点矩阵Eadp用于描述对应交通模式的隐式空间特征。基于Eadp,交通模式i对交通模式j的自适应空间胡关系矩阵定义如下:
其中,表示对应类别的空间关系矩阵,/>和/>为可学习参数。C为超参数,表示自适应隐式关系节点矩阵中隐藏状态的数目。ReLU(·)是激活函数,用于消除弱连接。
对于第l层编码层而言,给定目标交通模式的输入空间相关性矩阵集合Ad和Af,以及自适应隐式空间关系节点集合/>MSR-MGC可由下式表示:
其中,和/>为可学习参数。
最终,MTR-A的输出HMTR和MSR-MGC的输出HMSR通过融合层输入至融合层,生成第l层编码层的输出。
Xen=HMSR+HMTR (19)
此外,由于不同交通模式间存在多种联系,导致模型的参数量会随着交通模式数量的上升而显著增加。在一个实施例中,设计正则项用于避免参数量过大。
其中,ε是一个预先定义的参数用于权衡自相关性参数和互相关性参数的比重。一般情况下,目标交通模式的历史流入对其未来流入的影响最大,而其他交通方式相对于目标交通方式的影响较小。因此,ε的设定值小于1。
解码器用于多模式交通***间的知识共享并提取目标交通模式的特征。例如解码器主要由两部分构成,分别是:自时间关系注意机制(STR-A)用于提取目标交通模式的自时间相关性,该注意力机制由两种注意机制叠加而成,即因果ProbSparse注意力机制和卷积多头注意力机制;自空间多图卷积(SSR-MGC)用于提取自空间相关性,实现多交通模式间的知识共享。
1)自时间关系注意机制(STR-A)
自时间关系注意机制由因果ProbSparse注意力机制和卷积多头注意力机制构成。
对于因果ProbSparse注意力机制(CPS-A),其利用一维因果卷积处理对应交通模式的历史客流。此外,本发明利用扩张卷积对数据进行处理,使得卷积核获得更大的感受野。具体而言,如图6所示,给定目标交通模式的历史客流数据XP,以及核大小为K的卷积核函数f,一维因果卷积从特定的时间步提取历史客流信息并进行聚合。
其中,*D表示空洞卷积操作,其中D表示扩张系数,例如设定D=2i,其中i表示第i层解码层。图6展示了扩张系数为1,2和4的一维扩张因果卷积。此外,本发明设定残差链接,因此,CPS-A的输出为 进一步,/>被输入至多头ProbSparse自注意力制中,用于获取目标交通模式的隐藏状态/>
卷积多头注意力机制:原始的多头注意力机制中使用全连接层对查询矩阵、键矩阵和值矩阵进行处理。然而,全连接层难以捕获交通网络中不同节点的特征,并且需要消耗大量的计算资源。为此,本发明提出卷积多头注意力机制,利用二维卷积操作替换全连接层,如下式所示:
其中,*表示卷积操作,和/>表示可学习参数,/> nc表示卷积多头注意力机制中注意点的个数,为超参数。
2)自空间多图卷积(SSR-MGC)
由于解码层仅考虑目标交通模式,不同的分支之间不存在显示连接。因此,为实现不同交通模式对应分支之间的知识共享,本发明提出SSR-MGC,利用多元线性关系学习框架构建隐式连接,实现多模式交通的知识共享。与公式(8)不同,SSR-MGC仅考虑自相关矩阵,并且对可学习参数进行修改。具体而言,在第i层解码层,本发明设定/>交通模式P在SSR-MGC中对应的可学习参数。对于目标交通模式P,第i层解码层的SSR-MGC如下式所示:
其中,和/>分别表示交通模式P的距离自相关矩阵和功能自相关矩阵。本发明将所有分支在第i层解码层可学习参数聚合在同一个集合中其中L′=2×L。给定训练数据{X,Y},其中,则/>的最大后验概率如下:
其中,第一项为先验分布,假设每个解码层的/>是相互独立的。第二项是网络的最大似然估计。假设/>服从张量正态分布:
其中,是均值张量,/>和/>分别表示输入协方差矩阵、输出协方差矩阵和交通模式协方差矩阵。/>表示Kronecker乘积。通过对不同分支的参数施加相同的分布实现不同交通模式间的知识共享。
将公式(25)带入公式(24)并取负对数,可以得到第i层解码层中SSR-MGC对应的正则项
其中,表示对应类别的维度大小。值得注意的是,在训练过程中,为保证数值稳定性,只更新/>而其余协方差矩阵均设定位单位矩阵且不被更新。本发明利用Ohlson等提出的算法进行更新。
最终,将SSR-MGC的输出HSSR与STR-A的输出HSTR求和并输入至全连接层中生成对应交通模式的未来客流。
总体而言,本发明选择均方误差(MSE)作为模型的损失函数,如下所示:
其中,α和β为预先定义的参数,用于权衡两个正则项的比重。
四、实验结果
以下将详细介绍实验验证所使用的数据集、评价指标及损失函数、基准模型、模型参数设置以及结果分析。
1)数据集
选择了地铁、出租车和公共汽车代表的多种交通方式。实验基于2016年2月29日至4月1日(约1个月)来自中国北京的真实多模式交通***数据。此外,只考虑了工作日地铁的流入数据和出租车、公交车的接送需求。由于这些交通方式的服务时间各不相同,因此选取了上午5:00-晚上11:00之间的流入数据,即地铁的服务时间。时间粒度设置为30分钟,一天有36个时间步长。下文将详细介绍不同交通模式的数据细节。
出租车需求数据:使用TaxiBJ的出租车需求数据。如图7所示,左图为TaxiBJ原始数据,该数据将北京部分地区划分为32×32的网格单元,其中网格的颜色表示网格的流入量,颜色越深,流入量越高。如图7右图所示,定义一个4×4网格单元作为一个区域,因此共有64个区域。进一步,提取每个区域的流入数据来表示出租车流入数据集。此外,由于出租车不存在固定的站点,因此将每个区域的中心设置为出租车站。
公交客流数据:如图8所示,在左图中,依据出租车所在区域,筛选1269个公交站点(浅色点)。通过收集每个站点的AFC数据得到每个站点的流入数据。由于公交站点数量较多,且每个公交站点的客流波动较大,将同一区域内的公交站点的客流进行汇总,并用结果来表示每个区域的公交客流。因此,公交车和出租车的流入数据结构是同构的。此外,为了正确地表示每个区域的公交站点,为每个区域生成一个虚拟公交站点。如图8右图所示,给定一个包含S个公交站点的区域,假设日均客流越大,该区域的代表性越强。因此,在坐标为(i,j)的区域内,虚拟公交站点的位置公式为:
/>
其中,lngvirtual和latvirtual分别表示虚拟站点的经纬度。lngi和lati分别表示站点i的经纬度,表示站点i的平均客流量。
地铁客流数据:如图8(深色点)所示,部分地区没有地铁站。因此,选取区域内所有的地铁站(深色点)来表示地铁流入数据集,地铁站共有174个(图8右图)。与出租车和公交车的流入数据相比,地铁的数据结构不同。
如图8的右图所示,选择了两个有相关地铁站和公交车站的区域进行说明,即区域(a)和区域(b)。区域(a)包含了所有的交通方式。区域(b)表示不包含地铁站的区域,因此,选择最近的地铁站(圆圈中)进行说明。如图9所示,所选数据的时间段为周一至周五。总体而言,不同地区不同交通方式的流入量和模式差异显著。具体而言,在客流量方面,区域(a)内三种交通方式之间存在轻微差异,而区域(b)内三种交通方式之间完全不同。区域(b)内地铁和出租车的客流量占主导地位,公交车的客流量明显较低。在客流规律方面,区域(a)的地铁、公交和出租车的客流都呈现双峰分布。对于区域(b)而言,三种交通方式均呈单峰分布,但不同交通方式高峰时间不同。
2)评价指标及损失函数
选择均方根误差(RMSE)、加权平均绝对百分比误差(WMAPE)及平均绝对误差(MAE)作为模型表现的评价指标,其定义如下。
其中,和yi,k分别为交通模式k的预测值和真实值,M为输入客流序列的总长度。
3)基准模型
在实验验证中,将所提出的M2-former模型将和以下基准模型进行对比。所有的模型在一台带有i7-8700K处理器(12M缓存,频率最高4.7GHz),32GB运行内存,以及NVIDIAGeForce GTX 3070显卡的台式机进行运算。
长短时记忆网络(LSTM):采用全连通层的LSTM方法对交通模式的流入进行建模。
二维卷积神经网络(CNN-2D):应用CNN-2D模型对交通模式的流入进行建模,每个交通模式都有一个CNN层和全连接层。对于所有的CNN-2D模型,内核大小为3×3,填充为1,stride为1。
ConvLSTM:该模型将卷积运算与LSTM相结合的混合模型,具有强大的时间序列数据时空建模能力。利用该模型预测每种交通模式的未来客流。
ST-ResNet:该模型使用2D-CNN和残差连接,能够捕获网络范围内客流的时空特性,预测未来客流。
MIX-MGC:该模型是一种基于多图卷积的模型,具有不同的分支,不同分支之间共享知识。该模型能够协同预测多种交通模式。具体来说,模型共包括两个部分,第一部分通过正则化跨任务学习共享知识,第二部分通过多线性关系学习共享知识。
STGCN:一种基于GCN的深度学习模型,可以用空间图-卷积层和时间门控-因果-卷积层对时空特征建模。
Informer:一种基于多头ProbSparse注意力机制的模型,利用该模型分别预测每种交通模式的未来客流。
4)模型参数设定及超参数调试
本实验在PyTorch环境下搭建M2-former模型,实验中batch大小设置为16,训练集、验证集和测试集比例为7:1:2。在M2-fromer模型中,编码层和解码层的层数为2,采样系数c设定为6。损失函数中,α和β分别设定为0.0005和0.0001。此外,还有四个超参数需要设定,包括中的注意点个数和dmodel,卷积多头注意力机制中注意点的个数,以及历史事件步的长度。
对于中注意点个数,设定搜索区间为[2,10],步长为1;对于/>中dmodel的值,设定搜索集合(5,10,15,20,25,30);对于卷积多头注意力机制中注意点的个数,设置其搜索区间为[2,10],步长为1;对于历史时间段的长度,设定搜索区间为[2,10],步长为1;。在调整超参数时,采用控制变量法进行参数调整,具体原理不再赘述。本节使用RMSE和MAE作为模型效果的评价指标,并使用全网数据集进行超参数调整。超参数调整结果如图10所示。由图可知,对于/>而言,注意点个数最优值为2,dmodel最优值为10;对于卷积多头注意力机制中注意点的个数最优值为4。对于历史时间段的长度,最优值为4。
五、实验结果讨论
实验结果参见表1。可以看出,M2-former相较于所有基准模型而言,在多模式交通***短时客流预测方面取得最低的误差,预测精度最高。此外,M2-former模型的在区域(a)和区域(b)的预测结果如图11所示,其中左侧图对应区域(a),右侧图对应区域(b)。
表1多模式交通短时客流预测结果对比表
表2消融实验结果
进一步地,通过消融实验证明M2-former结构的有效性,依据控制变量原则改变M2-former的部分结构和框架。并利用RMSE、MAE及WMAPE作为评价指标,结果参见表2。由于M2-former模型的主要组成部分可分为基于注意力机制的模块和基于图的模块,因此分两部分讨论。首先,针对基于注意力机制的模块,模型细节如下所述。
移除M2-former模型中的多模式交通ProbSparse注意力机制部分,其余部分保持不变。
AAB:利用加法操作替换M2-former模型中的基于注意力机制的特征聚合层,其余部分不变。
CPS-A:将M2-former模型中的因果ProbSparse注意力机制层替换为多头ProbSparse自注意力机制层,其余部分不变。
Conv-A:将M2-former模型中的卷积多头注意力机制层替换为普通的多头注意力机制,其余部分不变。
表2的第3-6列展示了不同模型的评价指标,对于而言,该模型只考虑目标交通模式的自相关性,预测误差最高。这一结果表明,必须共同考虑多种交通方式之间的多重相关性,而不是仅仅考虑自相关性。对于AAB而言,该模型直接将多种交通模式的特征图相加,而没有对不同的交通模式分配不同的权重,预测误差较高。这主要是因为加法操作默认所有特征的重要性相同,从而导致某些区域的特征冗余。所提出的基于注意力的聚合块能够平衡所有的特征,并为它们找到最佳的权衡,从而解决潜在的问题。另外CPS-A和Conv-A的模型误差也较高。
其次,针对基于图的模块,模型细节如下所述。
MSR-MGC:移除M2-former模型中的多元空间多图卷积部分,其余部分保持不变。
SSR-MGC:移除M2-former模型中的自空间多图卷积部分,其余部分保持不变。
表2的第7-8列展示了不同模型的评价指标。具体而言,如果不加入基于图的模块,模型在每种交通模式下的预测误差均高于M2-former,表明基于图的模块有助于提高预测精度。此外,移除MSR-MGC的模型的预测误差远高于移除SSR-MGC的模型,该结果表明获取多种交通模式之间的多重空间交叉相关性至关重要。
为阐明协同考虑多种交通模式的优势,将M2-former进行简化,设计适用于单模式交通短时客流预测的模型,模型性能参见表3。结果表明,M2-former在每种交通模式上的预测误差均小于分别预测每种交通模式,表明协同考虑多模式交通的优势。
表3单模式交通预测模型与多模式交通预测模型结果对比
此外,M2-former模型能够提取多模式交通***中的时空信息交互机制,实验中将时空信息交互机制进行可视化分析,便于理解多模式交通***。
对于时间交互机制而言,M2-former通过MTR-A提取多模式交通***的时间交互机制。为更好的理解该机制的内在原理,对M2-former中的MTR-A进行修改,设计了MTM-CA模型,该模型使用多头注意力机制获取多模式交通***中的多元时间相关性。实验结果参见表4,可以看到M2-former预测误差低于MTM-CA。
表4MTM-CA与M2-former模型实验结果比对表
进一步,将地铁-出租车和地铁-公交的时间相关性进行可视化分析,如图12所示,其中图12(a)对应地铁-出租车,图12(b)对应地铁-公交。对于地铁-出租车的时间相关性而言,MTM-CA与M2-former取得了相似的结果;对于地铁-公交的时间相关性而言,MTM-CA与M2-former的结果截然不同。总体而言,M2-former和MTM-CA通过提取不同的区域历史客流信息,为不同的区域分配对应的权重,实现对每个区域的历史客流信息进行过滤,从而实现时间相关性的提取。
对于空间交互机制而言,M2-former通过MSR-MGC提取多模式交通***的空间交互机制。为探究自适应多图卷积以及不同的空间关系图对结果的影响,对M2-former模型进行修改。具体而言,No Adapt表示不使用自适应多图卷积而原始的MGC替代MSR-MGC,Adapt表示使用自适应多图卷积。(D)和(F)分别表示只使用距离相关性矩阵或功能相关性矩阵,(DF)表示同时使用距离相关性矩阵和功能相关性矩阵。结果参见表5,结果表明所提出模型的有效性。
表5不同空间交互机制对应模型的结果比对表
进一步,将不同的空间关系矩阵进行可视化,分析不同交通模式之间的空间信息交互机制。经分析可知,对于功能相关性矩阵而言,自适应空间相关性矩阵能够保留静态空间相关性矩阵的基本特征,并对不同区域的特征进行细化。对于距离相关性矩阵而言,静态空间相关性矩阵只能捕获不同站点之间局部的距离相关性特征,无法获取全局相关性特征,而自适应空间相关性矩阵能够获取全局距离相关性特征。总体而言,空间信息交互机制通过给不同交通模式的不同区域分配不同的权重,从而筛选出最为相关的区域,过滤无用信息,实现信息交互。
综上所述,本发明能够协同考虑城市多模式交通***范围内多个不同区域对于多种交通模式的未来客流。所构建的M2-former模型能够提取多种交通模式的动态时空特征,其中通过编码器,模型能够捕获多模式交通之间的时空信息交互机制同时取不同交通模式的动态时空特征;通过解码器,模型能够提取目标交通模式的特征,并准确预测对应交通模式的未来客流。此外,模型包含多分枝结构并且在不同的分支间构建连接,解决了多模式交通客流异质性问题,并且实现了不同交通模式的信息交互,提升了计算效率。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
附图中的流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (8)

1.一种基于自适应多图卷积的多模式交通***短时客流预测方法,包括以下步骤:
针对多模式交通***,获取历史客流序列X(t-L)→t以及自相关图Gs和互相关图Gc
通过训练短时客流预测模型学习映射函数F(·),以预测每种交通模式的未来客流,表示为:
Xt+1=F(X(t-L)→t,Gs,Gc)
其中,L表示历史时间段的长度,Xt+1表示多模式交通***在t+1时刻的进站客流序列;
其中,自相关图表示为 表示交通模式k对应的自相关图,Vk为节点集,且|Vk|=Nk,/>为权重矩阵,用于刻画节点集中每个点之间的相关性,M表示交通模式的数量,Nk表示交通模式k的节点个数;
其中,互相关图表示为 表示交通模式m和交通模式n的互相关图,Vm和Vn分别为交通模式m和交通模式n的节点集,且|Vm|=Nm、|Vn|=Nn,/>为权重矩阵,用于刻画交通模式m和交通模式n之间的相关性,Nm表示交通模式m的节点个数,Nn表示交通模式n的节点个数;
其中,所述短时客流预测模型包括多个分支,每个分支包含编码器、解码器和任务特定层,并且每个分支对应特定的交通模式,其中,对于特定的交通模式,编码器用于学习和捕获多种交通模式之间的显式和隐式时空相关性;解码器用于提取目标交通模式的流入特征,并生成未来的流入;任务特定层用于获取对应交通模式的未来流入;
其中,对于每个分支:
编码器包含多模式交通***ProbSparse注意力机制、基于注意力机制的特征聚合层、多元空间自适应多图卷积以及融合层,其中,多模式交通***ProbSparse注意力机制用于计算多种交通模式对目标交通模式的影响系数,并获得时间相关性;基于注意力机制的特征聚合层包括交通模式级注意力层和节点级注意力层,所述交通模式级注意力层关注不同交通模式的影响,所述节点级注意力层关注不同节点的影响;多元空间自适应多图卷积用于提取多模式交通***的动态空间特征;融合层将基于注意力机制的特征聚合层的输出以及多元空间自适应多图卷积的输出进行汇总;
解码器包括自时间关系注意机制和自空间多图卷积,其中,自时间关系注意机制叠加因果ProbSparse注意力机制和卷积多头注意力机制,用于提取目标交通模式的自时间相关性;自空间多图卷积用于提取自空间相关性,实现多交通模式间的知识共享。
2.根据权利要求1所述的方法,其特征在于,对于目标交通模式P,所述多模式交通***ProbSparse注意力机制表示为:
其中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,为蒸馏层,Wk和b是科学系参数,Wo是权重系数。
3.根据权利要求1所述的方法,其特征在于,所述基于注意力机制的特征聚合层表示为:
其中,⊙表示哈达玛积,HP表示输入特征图,HP依次经过交通模式级注意力层和节点级注意力层处理,分别生成两个注意力矩阵ATL和ANL
4.根据权利要求1所述的方法,其特征在于,所述因果ProbSparse注意力机制利用一维因果卷积处理对应交通模式的历史客流,所述卷积多头注意力机制利用二维卷积操作对查询矩阵、键矩阵和值矩阵进行处理。
5.根据权利要求1所述的方法,其特征在于,对于所述自空间多图卷积,针对目标交通模式P,第i层解码层的自空间多图卷积的输出表示为:
其中,和/>分别表示目标交通模式P的距离自相关矩阵和功能自相关矩阵,XP是目标交通模式的历史客流数据,/>是可学习参数,u表示相关性矩阵的种类,/>是自相关矩阵。
6.根据权利要求1所述的方法,其特征在于,训练所述短时客流预测模型的损失函数是均方误差。
7.一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。
8.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
CN202310108449.9A 2023-02-01 2023-02-01 基于自适应多图卷积的多模式交通***短时客流预测方法 Active CN116050640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108449.9A CN116050640B (zh) 2023-02-01 2023-02-01 基于自适应多图卷积的多模式交通***短时客流预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108449.9A CN116050640B (zh) 2023-02-01 2023-02-01 基于自适应多图卷积的多模式交通***短时客流预测方法

Publications (2)

Publication Number Publication Date
CN116050640A CN116050640A (zh) 2023-05-02
CN116050640B true CN116050640B (zh) 2023-10-13

Family

ID=86127333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108449.9A Active CN116050640B (zh) 2023-02-01 2023-02-01 基于自适应多图卷积的多模式交通***短时客流预测方法

Country Status (1)

Country Link
CN (1) CN116050640B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598939A (zh) * 2018-12-24 2019-04-09 中国科学院地理科学与资源研究所 一种基于多任务多视图学习模型的短时交通预测方法
CN114626585A (zh) * 2022-02-28 2022-06-14 北京交通大学 一种基于生成对抗网络的城市轨道交通短时客流预测方法
CN114692984A (zh) * 2022-04-09 2022-07-01 华东交通大学 基于多步耦合图卷积网络的交通预测方法
CN115146844A (zh) * 2022-06-27 2022-10-04 北京交通大学 一种基于多任务学习的多模式交通短时客流协同预测方法
CN115273464A (zh) * 2022-07-05 2022-11-01 湖北工业大学 一种基于改进的时空Transformer的交通流量预测方法
CN115578851A (zh) * 2022-07-14 2023-01-06 西北师范大学 一种基于mgcn的交通预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598939A (zh) * 2018-12-24 2019-04-09 中国科学院地理科学与资源研究所 一种基于多任务多视图学习模型的短时交通预测方法
CN114626585A (zh) * 2022-02-28 2022-06-14 北京交通大学 一种基于生成对抗网络的城市轨道交通短时客流预测方法
CN114692984A (zh) * 2022-04-09 2022-07-01 华东交通大学 基于多步耦合图卷积网络的交通预测方法
CN115146844A (zh) * 2022-06-27 2022-10-04 北京交通大学 一种基于多任务学习的多模式交通短时客流协同预测方法
CN115273464A (zh) * 2022-07-05 2022-11-01 湖北工业大学 一种基于改进的时空Transformer的交通流量预测方法
CN115578851A (zh) * 2022-07-14 2023-01-06 西北师范大学 一种基于mgcn的交通预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Multi-graph convolutional network for short-Term Passenger Flow forecasting in urban rail transit";jinlei zhang et al.;《IET intelligent transport systems》;1-9 *
梁强升 ; 许心越 ; 刘利强 ; .面向数据驱动的城市轨道交通短时客流预测模型.中国铁道科学.2020,(04),155-164. *

Also Published As

Publication number Publication date
CN116050640A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Chu et al. Deep multi-scale convolutional LSTM network for travel demand and origin-destination predictions
CN111400620B (zh) 基于时空嵌入Self-Attention的用户轨迹位置预测方法
Yin et al. Multi-stage attention spatial-temporal graph networks for traffic prediction
Kong et al. Adaptive spatial-temporal graph attention networks for traffic flow forecasting
Sun et al. Dual dynamic spatial-temporal graph convolution network for traffic prediction
Gad et al. A robust deep learning model for missing value imputation in big NCDC dataset
CN116187555A (zh) 基于自适应动态图的交通流预测模型构建方法及预测方法
CN116504060B (zh) 基于Transformer的扩散图注意力网络交通流预测方法
Zheng et al. Hybrid deep learning models for traffic prediction in large-scale road networks
CN113516133A (zh) 一种多模态图像分类方法及***
CN111047078A (zh) 交通特征预测方法、***及存储介质
Sriramulu et al. Adaptive dependency learning graph neural networks
CN117194763A (zh) 基于用户偏好与时空上下文信息的下一个poi推荐方法
Xia et al. Attention-based spatial–temporal adaptive dual-graph convolutional network for traffic flow forecasting
Liu et al. Attention-based spatial-temporal graph convolutional recurrent networks for traffic forecasting
Zhan et al. Neural networks for geospatial data
CN112988851A (zh) 反事实预测模型数据处理方法、装置、设备及存储介质
CN116050640B (zh) 基于自适应多图卷积的多模式交通***短时客流预测方法
CN114757391B (zh) 一种面向服务质量预测的网络数据空间设计与应用方法
Kong et al. JointGraph: joint pre-training framework for traffic forecasting with spatial-temporal gating diffusion graph attention network
Wang et al. Codinet: Path distribution modeling with consistency and diversity for dynamic routing
Chen et al. Towards an end-to-end artificial intelligence driven global weather forecasting system
CN115146844A (zh) 一种基于多任务学习的多模式交通短时客流协同预测方法
ABBAS A survey of research into artificial neural networks for crime prediction
Wang et al. MIANet: Multi-level temporal information aggregation in mixed-periodicity time series forecasting tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant