CN114912669A - 基于多源数据的公交客流组合图神经网络预测方法 - Google Patents

基于多源数据的公交客流组合图神经网络预测方法 Download PDF

Info

Publication number
CN114912669A
CN114912669A CN202210436660.9A CN202210436660A CN114912669A CN 114912669 A CN114912669 A CN 114912669A CN 202210436660 A CN202210436660 A CN 202210436660A CN 114912669 A CN114912669 A CN 114912669A
Authority
CN
China
Prior art keywords
bus
attribute
passenger flow
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210436660.9A
Other languages
English (en)
Inventor
何赏璐
袁佳鑫
戚湧
周竹萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210436660.9A priority Critical patent/CN114912669A/zh
Publication of CN114912669A publication Critical patent/CN114912669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于多源数据的公交客流组合图神经网络预测方法,属于公共交通客流分析技术领域。包括如下步骤:A采集公交客流相关的多源数据;B构建属性图并生成图结构数据;C搭建公交客流预测组合图神经网络模型;D训练模型,得到预测结果。本发明利用图神经网络和深度学习的组合,实现了公交客流相关的多源数据在时空上的关联关系。

Description

基于多源数据的公交客流组合图神经网络预测方法
技术领域
本发明涉及一种基于多源数据的公交客流组合图神经网络预测方法,属于公共交通客流分析技术领域。
背景技术
在城市公交***中,公交站点客流的短时数量和变化反映了公交乘客的实际需求和受客观外部影响下的不稳定性。准确预测公交站点短时客流,可精确获取乘客出行规律和特征,有助于公交管理部门和运营企业管理和服务公交乘客出行。为了提升公交站点短时客流预测的准确性,预测算法的发展有两大趋势,一是深度学习等人工智能技术的应用;二是多源数据的融合。例如,专利“一种公交客流预测方法、装置、电子设备及存储介质”(公开号:CN112862187A)公开了一种利用卷积神经网络的公交客流预测方法。专利“一种基于自适应图学习的公共交通客流预测方法及***”(公开号:CN113537580A)公开了一种通过构造图学习模块来生成关系矩阵以预测公交客流的方法。上述两个专利在公交客流方法上均采用了深度学习类方法,但仅应用了单一的公交客流数据源。专利“公交客流预测方法及***”(公开号:CN112766597A)公开了一种基于LSTM、注意力机制和分时图卷积方法,融合历史公交客流数据、公交线路数据、天气和节假日信息的公交客流预测方法。该专利提出的预测方法涉及深度学习方法以及多源数据,然而整合的数据源仍不充分。
随着智慧交通、智慧城市的建设,更多更丰富的数据资源,为公交客流短时预测提升精度提供了辅助。除了与预测直接相关的历史公交客流数据之外,公交线网数据、城市其它公共交通运营信息、公交站点周边用地信息(POI)、天气信息、道路交通运行信息等均可为公交短时客流预测提供服务。而这些多源信息既包含时间序列上的相关性,也包含了空间拓扑结构上的连接性,因此需要构建整合时空特征同时能反映各类数据源不同影响权重的预测方法。
发明内容
本发明的目的在于,克服现有技术中存在的问题,提供一种基于多源数据的公交客流组合图神经网络预测方法,利用图神经网络和深度学习的组合,实现了公交客流数据在时空上的关联关系。
为了解决上述问题,本发明的基于多源数据的公交客流组合图神经网络预测方法包括如下步骤:
步骤A:采集公交客流相关的多源数据;
步骤B:构建属性图并生成图结构数据;
步骤C:搭建公交客流预测组合图神经网络模型;
步骤D:训练模型,得到预测结果。
进一步的,步骤A具体包括如下步骤:
步骤A1:获取静态信息,包括公交线网所在道路拓扑和公交站点基本信息、站点周边用地信息(如POI,Point of Interest,兴趣点);
步骤A2:获取历史信息和实时动态信息,所述动态信息包括公交站点上下客流、公交线路所在道路运行状态、天气、日历;
步骤A3:生成多源数据的特征向量集。
进一步的,步骤B具体包括如下步骤:
步骤B1:构建属性图,将公交线路的拓扑结构图简化为有向图,包括节点和边;所述节点代表公交站点;边代表不同站点间的关联关系,上游公交站点被认为和所有下游公交站点之间均有关联,若连接的是紧邻的上下游公交站点被称为实边,其余称为虚边;
步骤B2:生成图结构数据,将多源数据编码到属性图中,第t个时间段的图结构多源数据为:Gt=(N,E,Vt,At,ut),式中,N为节点数据集,对应于公交站点;E为边数据集,对应于站点间关联性;Vt是第t个时间段节点属性,包含公交站点上车客流数据和下车客流数据;At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;
步骤B3:分割数据集,以一定比例将多源数据的特征向量集划分为训练数据集、验证数据集和测试数据集。
进一步的,步骤B2中,Vt是第t个时间段节点属性,包含了公交站点上车客流数据和下车客流数据;若有nno个节点,那么第t个时间段的节点属性定义为
Figure BDA0003612025190000021
其中,
Figure BDA0003612025190000022
Figure BDA0003612025190000023
Figure BDA0003612025190000024
分别是第t个时间段内第i个公交站点的上客和下客客流数据的特征向量;
At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;若有ned条边,则第t个时间段的边属性为
Figure BDA0003612025190000025
其中,
Figure BDA0003612025190000026
Figure BDA0003612025190000027
是影响公交站点之间上下客流数据关联性的因素的特征向量之一,具体来说可包含但不局限于如下四类因素:
(1)空间接近度用公交站点之间公交线路的行驶距离来衡量;若用dis(i,j)表示相同行驶方向的上游公交站点i和下游公交站点j之间的道路行驶距离,则
Figure BDA0003612025190000031
为连接i和j的边的空间接近度;
(2)时间影响度用上游公交站点的上客客流数据与下游公交站点的下客客流数据的相似度来衡量;给定τ个时间段各个公交站点上下客流数据,上游公交站点i的上客客流形成包含τ个数据的时间序列,下游公交站点j的下客客流形成包含τ个数据的时间序列,用DTW求出站点i对站点j的时间影响度Sti(i,j)=D(i,j);D(i,j)为基于DTW求出的两组时间序列的距离测度;
(3)语义相似度用公交站点周边区域的土地利用情况来衡量;公交站点周边区域的POI表示该区域的土地利用情况,用于计算两个公交站点的语义距离,通过公交站点周围用地的POI计算不同类别POI的密度分布;假设有npoi类别的POI,公交站点i的土地利用可以表示为长度为npoi的向量pi,其中每个维度表示特定类别的附近POI的密度,连接公交站点i和j的边的语义相似度可以计算为Sse(i,j)=pi·pj
(4)交通影响度用两个公交站点之间道路运行状态来衡量;两个公交站点之间道路运行状态可用平均行驶速度来表示性,即
Figure BDA0003612025190000032
Figure BDA0003612025190000033
为公交站点i和公交站点j之间的平均行驶速度;结合上述四类对边属性有影响的因素,对于第t个时间段的边属性,即
Figure BDA0003612025190000034
其中,
Figure BDA0003612025190000035
ned为边的数量;
ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;将天气状况和日历特征视为与公交站点客流数据密切相关的全局属性;日历特征具体指一天中的哪一时间、一周中的哪一天、一个月中的哪一天、一年中的哪一个月和日期类型;第t个时间段全局属性
Figure BDA0003612025190000036
其中,
Figure BDA0003612025190000037
表示天气条件特征,
Figure BDA0003612025190000038
表示日历特征。
进一步的,步骤C具体包括如下步骤:
C1:搭建输入层模型,输入图结构数据;
C2:搭建隐藏层模型,对图结构数据的时空关系建模;
C3:搭建输出层模型,输出最终的公交客流预测结果;
步骤C2具体包括如下步骤:
C2.1:利用注意力机制,量化每个因素的贡献;图结构Gt=(N,E,Vt,At,ut)的每种类型的属性vt都由多个特征向量组成;
C2.2:建构图神经网络GNN与长短期记忆网络LSTM组合单元,将LSTM单元中的矩阵乘法替换为GNN卷积,所述GNN卷积过程包括更新边属性,接着更新节点属性,最后更新全局属性。
进一步的,步骤C2.1中,所述属性
Figure BDA0003612025190000041
中编码了nfa类型的因子,其中,
Figure BDA0003612025190000042
是第t个时刻第k个因素的特征向量,注意力机制对各个因素的贡献量化计算如下:
Figure BDA0003612025190000043
Figure BDA0003612025190000044
Figure BDA0003612025190000045
其中,zl、βl、θl和bl是可学习的参数,ht-1是隐藏状态;该计算过程以节点属性为例,同样也适用于边属性和全局属性;其中,对于边属性,连接节点i和节点j的边的隐藏状态是对应两个隐藏状态hi、hj之和;对于全局属性,其隐藏状态是所有节点隐藏状态之和。
进一步的,步骤C2.2中,所述更新边属性的计算方式如下:
a′i,j=φa(ai,j,vi,vj,u)
Figure BDA0003612025190000046
Figure BDA0003612025190000047
式中,ai,j是从上游节点i到下游节点j的边属性;vi和vj是节点i和节点j的节点属性;u是全局属性;
Figure BDA0003612025190000048
是连接节点i的所有边的更新属性;Ri是连接节点i的边数量;φa是针对边属性的更新函数,计算每条边的更新属性;α′i,j更新的边属性是上游节点对下游节点影响;聚合函数ρa→v将所有与节点i有连接的更新的边属性,聚合成为一个向量;聚合函数ρa→u将图结构中所有边属性聚合到一起为更新的边属性
Figure BDA0003612025190000049
Figure BDA00036120251900000410
为更新后的各边属性集合。
进一步的,步骤C2.2中,所述更新节点属性的计算方式如下:
Figure BDA0003612025190000051
Figure BDA0003612025190000052
式中,节点属性的更新函数φv利用更新后的节点i的聚合更新边属性、节点i属性和全局属性来获得节点i的更新属性v′i
Figure BDA0003612025190000053
是更新后的节点属性集合,通过聚合函数ρv→u形成一个向量;
步骤C2.2中,所述更新全局属性的计算方式如下:
Figure BDA0003612025190000054
式中,全局属性的更新函数φu利用更新后的边属性和节点属性,获得更新的全局属性u′。
进一步的,在更新全局属性的过程中,整合GNN卷积后的LSTM模型的运算方式如下:
Figure BDA0003612025190000055
Figure BDA0003612025190000056
Figure BDA0003612025190000057
Figure BDA0003612025190000058
ht=o⊙tanh(ct)
其中,*表示为对图结构数据的卷积,⊙表示Hadamard乘积,σ()表示sigmoid函数;i、f和o是输入门、遗忘门和输出门;h是隐藏状态,c是单元状态,W是权重;图结构中所有节点共享LSTM层。
进一步的,步骤D包括如下步骤:
D1.利用一段时间内的历史多源数据,通过时间反向传播,以公交站点客流预测误差最小化为目标,对整个组合图神经网络模型进行训练,获得输入多源数据映射到未来公交客流的学习函数;该过程表达为:给定τ个时间段的图结构历史多源数据[Gt-τ+1,Gt -τ+2,…,Gt],第t+l时间段组合模型输出的公交客流为Yt+l,学习函数f()为:
Figure BDA0003612025190000061
若第t+l时间段的真实客流为
Figure BDA0003612025190000062
那么训练过程中的损失通过下式计算:
Figure BDA0003612025190000063
其中,W1和W2分别是组合模型和注意力机制的权重矩阵,λ1和λ2是惩罚因子;
D2.输入实时数据,得出公交客流预测结果;在训练好的组合图神经网络模型中输入采集到当前时刻多源数据后,得出未来时刻公交站点的客流预测值。
本发明的有益效果是:(1)构建公交站点客流数据的空间关联性:构建基于公交客流相关多源数据的图结构以及图结构数据;
(2)提升预测精度并整合多源数据:通过图神经网络GNN和深度学习LSTM的组合,整合了影响公交客流的多源数据,包括天气、日历、道路运行状态、上下游站点关联性、POI等;
(3)量化不同因素对预测精度的贡献:通过添加注意力机制,提升了公交客流预测的精度。
附图说明
图1为本发明基于多源数据的公交客流组合图神经网络预测方法的逻辑框图;
图2为本发明属性构建图;
图3为公交客流组合图神经网络预测模型结构图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,本发明的基于多源数据的公交客流组合图神经网络预测方法包括如下步骤:
步骤A:采集公交客流相关的多源数据;
步骤A具体包括如下步骤:
步骤A1:获取静态信息,包括公交线网所在道路拓扑和公交站点基本信息、站点周边用地信息(如兴趣点POI);
步骤A2:获取历史信息和实时动态信息,动态信息包括公交站点上下客流、公交线路所在道路运行状态、天气、日历;
步骤A3:生成多源数据的特征向量集。
步骤B:构建属性图并生成图结构数据;
步骤B具体包括如下步骤:
步骤B1:构建属性图如图2所示,将公交线路的拓扑结构图简化为有向图,包括节点和边;节点代表公交站点;边代表不同站点间的关联关系,上游公交站点被认为和所有下游公交站点之间均有关联,若连接的是紧邻的上下游公交站点被称为实边,其余称为虚边;
步骤B2:生成图结构数据,将多源数据编码到属性图中,第t个时间段的图结构多源数据为:Gt=(N,E,Vt,At,ut),式中,N为节点数据集,对应于公交站点;E为边数据集,对应于站点间关联性;Vt是第t个时间段节点属性,包含公交站点上车客流数据和下车客流数据;At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;
步骤B3:分割数据集,以一定比例将多源数据的特征向量集划分为训练数据集、验证数据集和测试数据集。
如图3所示,步骤C:搭建公交客流预测组合图神经网络模型;
步骤C具体包括如下步骤:
C1:搭建输入层模型,输入图结构数据;
C2:搭建隐藏层模型,对图结构数据的时空关系建模;通过在图结构数据的属性中添加注意力机制来量化不同因素对预测的影响,通过图神经网络GNN构建空间相关性,再将GNN整合入长短期记忆网络LSTM实现时空关系建模;
C3:搭建输出层模型,输出最终的公交客流预测结果;
步骤C2具体包括如下步骤:
C2.1:利用注意力机制,量化每个因素的贡献;图结构Gt=(N,E,Vt,At,ut)的每种类型的属性vt都由多个特征向量组成;
步骤C2.1中,属性
Figure BDA0003612025190000071
中编码了nfa类型的因子,其中,
Figure BDA0003612025190000072
是第t个时刻第k个因素的特征向量,注意力机制对各个因素的贡献量化计算如下:
Figure BDA0003612025190000073
Figure BDA0003612025190000074
Figure BDA0003612025190000075
其中,zl、βl、θl和bl是可学习的参数,ht-1是隐藏状态;该计算过程以节点属性为例,同样也适用于边属性和全局属性;其中,对于边属性,连接节点i和节点j的边的隐藏状态是对应两个隐藏状态hi、hj之和;对于全局属性,其隐藏状态是所有节点隐藏状态之和。
C2.2:建构图神经网络GNN与长短期记忆网络LSTM组合单元,将LSTM单元中的矩阵乘法替换为GNN卷积,GNN卷积过程包括更新边属性,接着更新节点属性,最后更新全局属性。
步骤C2.2中,更新边属性的计算方式如下:
a′i,j=φa(ai,j,vi,vj,u)
Figure BDA0003612025190000081
Figure BDA0003612025190000082
式中,ai,j是从上游节点i到下游节点j的边属性;vi和vj是节点i和节点j的节点属性;u是全局属性;
Figure BDA0003612025190000083
是连接节点i的所有边的更新属性;Ri是连接节点i的边数量;φa是针对边属性的更新函数,计算每条边的更新属性;a′i,j更新的边属性是上游节点对下游节点影响;聚合函数ρa→v将所有与节点i有连接的更新的边属性,聚合成为一个向量;聚合函数ρa→u将图结构中所有边属性聚合到一起为更新的边属性
Figure BDA0003612025190000084
Figure BDA0003612025190000085
为更新后的各边属性集合。
步骤C2.2中,更新节点属性的计算方式如下:
Figure BDA0003612025190000086
Figure BDA0003612025190000087
式中,节点属性的更新函数φv利用更新后的节点i的聚合更新边属性、节点i属性和全局属性来获得节点i的更新属性v′i
Figure BDA0003612025190000088
是更新后的节点属性集合,通过聚合函数ρv→u形成一个向量。
步骤C2.2中,更新全局属性的计算方式如下:
Figure BDA0003612025190000089
式中,全局属性的更新函数φu利用更新后的边属性和节点属性,获得更新的全局属性u′。
在更新全局属性的过程中,整合GNN卷积后的LSTM模型的运算方式如下:
Figure BDA0003612025190000091
Figure BDA0003612025190000092
Figure BDA0003612025190000093
Figure BDA0003612025190000094
ht=o⊙tanh(ct)
其中,*表示为对图结构数据的卷积,⊙表示Hadamard乘积,σ()表示sigmoid函数;i、f和o是输入门、遗忘门和输出门;h是隐藏状态,c是单元状态,W是权重;图结构中所有节点共享LSTM层。
步骤D:训练模型,得到预测结果。
步骤D包括如下步骤:
D1.利用一段时间内的历史多源数据,通过时间反向传播,以公交站点客流预测误差最小化为目标,对整个组合图神经网络模型进行训练,获得输入多源数据映射到未来公交客流的学习函数;该过程表达为:给定τ个时间段的图结构历史多源数据[Gt-τ+1,Gt -τ+2,…,Gt],第t+l时间段组合模型输出的公交客流为Yt+l,学习函数f()为:
Figure BDA0003612025190000095
若第t+l时间段的真实客流为
Figure BDA0003612025190000096
那么训练过程中的损失通过下式计算:
Figure BDA0003612025190000097
其中,W1和W2分别是组合模型和注意力机制的权重矩阵,λ1和λ2是惩罚因子;
D2.输入实时数据,得出公交客流预测结果;在训练好的组合图神经网络模型中输入采集到当前时刻多源数据后,得出未来时刻公交站点的客流预测值。
步骤B2中,Vt是第t个时间段节点属性,包含了公交站点上车客流数据和下车客流数据;若有nno个节点,那么第t个时间段的节点属性定义为
Figure BDA0003612025190000101
其中,
Figure BDA0003612025190000102
Figure BDA0003612025190000103
Figure BDA0003612025190000104
分别是第t个时间段内第i个公交站点的上客和下客客流数据的特征向量;
At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;若有ned条边,则第t个时间段的边属性为
Figure BDA0003612025190000105
其中,
Figure BDA0003612025190000106
Figure BDA0003612025190000107
是影响公交站点之间上下客流数据关联性的因素的特征向量之一,具体来说可包含但不局限于如下四类因素:
(1)空间接近度用公交站点之间公交线路的行驶距离来衡量;若用dis(i,j)表示相同行驶方向的上游公交站点i和下游公交站点j之间的道路行驶距离,则
Figure BDA0003612025190000108
为连接i和j的边的空间接近度;
(2)时间影响度用上游公交站点的上客客流数据与下游公交站点的下客客流数据的相似度来衡量;给定τ个时间段各个公交站点上下客流数据,上游公交站点i的上客客流形成包含τ个数据的时间序列,下游公交站点j的下客客流形成包含τ个数据的时间序列,用DTW(Dynamic Time Warping,动态时间规整)求出站点i对站点j的时间影响度Sti(i,j)=D(i,j);D(i,j)为基于DTW求出的两组时间序列的距离测度;
(3)语义相似度用公交站点周边区域的土地利用情况来衡量;公交站点周边区域的POI表示该区域的土地利用情况,用于计算两个公交站点的语义距离,通过公交站点周围用地的POI计算不同类别POI的密度分布;假设有npoi类别的POI,公交站点i的土地利用可以表示为长度为npoi的向量pi,其中每个维度表示特定类别的附近POI的密度,连接公交站点i和j的边的语义相似度可以计算为Sse(i,j)=pi·pj
(4)交通影响度用两个公交站点之间道路运行状态来衡量;两个公交站点之间道路运行状态可用平均行驶速度来表示性,即
Figure BDA0003612025190000109
Figure BDA00036120251900001010
为公交站点i和公交站点j之间的平均行驶速度;结合上述四类对边属性有影响的因素,对于第t个时间段的边属性,即
Figure BDA0003612025190000111
其中,
Figure BDA0003612025190000112
ned为边的数量;
ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;将天气状况和日历特征视为与公交站点客流数据密切相关的全局属性;日历特征具体指一天中的哪一时间、一周中的哪一天、一个月中的哪一天、一年中的哪一个月和日期类型(即工作日或假期);第t个时间段全局属性
Figure BDA0003612025190000113
其中,
Figure BDA0003612025190000114
表示天气条件特征,
Figure BDA0003612025190000115
表示日历特征。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (10)

1.一种基于多源数据的公交客流组合图神经网络预测方法,其特征在于,包括如下步骤:
步骤A:采集公交客流相关的多源数据;
步骤B:构建属性图并生成图结构数据;
步骤C:搭建公交客流预测组合图神经网络模型;
步骤D:训练模型,得到预测结果。
2.根据权利要求1所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于,步骤A具体包括如下步骤:
步骤A1:获取静态信息,包括公交线网所在道路拓扑和公交站点基本信息、站点周边用地信息;
步骤A2:获取历史信息和实时动态信息,所述动态信息包括公交站点上下客流、公交线路所在道路运行状态、天气、日历;
步骤A3:生成多源数据的特征向量集。
3.根据权利要求1所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于,步骤B具体包括如下步骤:
步骤B1:构建属性图,将公交线路的拓扑结构图简化为有向图,包括节点和边;所述节点代表公交站点;边代表不同站点间的关联关系,上游公交站点被认为和所有下游公交站点之间均有关联,若连接的是紧邻的上下游公交站点被称为实边,其余称为虚边;
步骤B2:生成图结构数据,将多源数据编码到属性图中,第t个时间段的图结构多源数据为:Gt=(N,E,Vt,At,ut),式中,N为节点数据集,对应于公交站点;E为边数据集,对应于站点间关联性;Vt是第t个时间段节点属性,包含公交站点上车客流数据和下车客流数据;At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;
步骤B3:分割数据集,以一定比例将多源数据的特征向量集划分为训练数据集、验证数据集和测试数据集。
4.根据权利要求3所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤B2中,Vt是第t个时间段节点属性,包含了公交站点上车客流数据和下车客流数据;若有nno个节点,那么第t个时间段的节点属性定义为
Figure FDA0003612025180000011
其中,
Figure FDA0003612025180000012
Figure FDA0003612025180000013
Figure FDA0003612025180000014
分别是第t个时间段内第i个公交站点的上客和下客客流数据的特征向量;
At是第t个时间段边属性,包含了代表公交站点之间的关联关系及影响关联性的各种因素;若有ned条边,则第t个时间段的边属性为
Figure FDA0003612025180000021
其中,
Figure FDA0003612025180000022
Figure FDA0003612025180000023
是影响公交站点之间上下客流数据关联性的因素的特征向量之一,具体来说可包含但不局限于如下四类因素:
(1)空间接近度用公交站点之间公交线路的行驶距离来衡量;若用dis(i,j)表示相同行驶方向的上游公交站点i和下游公交站点j之间的道路行驶距离,则
Figure FDA0003612025180000024
为连接i和j的边的空间接近度;
(2)时间影响度用上游公交站点的上客客流数据与下游公交站点的下客客流数据的相似度来衡量;给定r个时间段各个公交站点上下客流数据,上游公交站点i的上客客流形成包含r个数据的时间序列,下游公交站点j的下客客流形成包含τ个数据的时间序列,用DTW求出站点i对站点j的时间影响度Sti(i,j)=D(i,j);D(i,j)为基于DTW求出的两组时间序列的距离测度;
(3)语义相似度用公交站点周边区域的土地利用情况来衡量;公交站点周边区域的POI表示该区域的土地利用情况,用于计算两个公交站点的语义距离,通过公交站点周围用地的POI计算不同类别POI的密度分布;假设有npoi类别的POI,公交站点i的土地利用可以表示为长度为npoi的向量pi,其中每个维度表示特定类别的附近POI的密度,连接公交站点i和j的边的语义相似度可以计算为Sse(i,j)=pi·pi
(4)交通影响度用两个公交站点之间道路运行状态来衡量;两个公交站点之间道路运行状态可用平均行驶速度来表示性,即
Figure FDA0003612025180000025
Figure FDA0003612025180000026
为公交站点i和公交站点j之间的平均行驶速度;结合上述四类对边属性有影响的因素,对于第t个时间段的边属性,即
Figure FDA0003612025180000027
其中,
Figure FDA0003612025180000028
ned为边的数量;
ut是第t个时间段全局属性,全局属性是指所有公交站点客流数据共享的因素;将天气状况和日历特征视为与公交站点客流数据密切相关的全局属性;日历特征具体指一天中的哪一时间、一周中的哪一天、一个月中的哪一天、一年中的哪一个月和日期类型;第t个时间段全局属性
Figure FDA0003612025180000029
其中,
Figure FDA00036120251800000210
表示天气条件特征,
Figure FDA00036120251800000211
表示日历特征。
5.根据权利要求1所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤C具体包括如下步骤:
C1:搭建输入层模型,输入图结构数据;
C2:搭建隐藏层模型,对图结构数据的时空关系建模;
C3:搭建输出层模型,输出最终的公交客流预测结果;
步骤C2具体包括如下步骤:
C2.1:利用注意力机制,量化每个因素的贡献;图结构Gt=(N,E,Vt,At,ut)的每种类型的属性vt都由多个特征向量组成;
C2.2:建构图神经网络GNN与长短期记忆网络LSTM组合单元,将LSTM单元中的矩阵乘法替换为GNN卷积,所述GNN卷积过程包括更新边属性,接着更新节点属性,最后更新全局属性。
6.根据权利要求5所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤C2.1中,所述属性
Figure FDA0003612025180000031
中编码了nfa类型的因子,其中,
Figure FDA0003612025180000032
是第t个时刻第k个因素的特征向量,注意力机制对各个因素的贡献量化计算如下:
Figure FDA0003612025180000033
Figure FDA0003612025180000034
Figure FDA0003612025180000035
其中,zl、βl、θl和bl是可学习的参数,ht-1是隐藏状态;该计算过程以节点属性为例,同样也适用于边属性和全局属性;其中,对于边属性,连接节点i和节点j的边的隐藏状态是对应两个隐藏状态hi、hj之和;对于全局属性,其隐藏状态是所有节点隐藏状态之和。
7.根据权利要求5所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤C2.2中,所述更新边属性的计算方式如下:
a′i,j=φa(ai,j,vi,vj,u)
Figure FDA0003612025180000036
Figure FDA0003612025180000037
式中,ai,j是从上游节点i到下游节点j的边属性;vi和vj是节点i和节点j的节点属性;u是全局属性;
Figure FDA0003612025180000041
是连接节点i的所有边的更新属性;Ri是连接节点i的边数量;φa是针对边属性的更新函数,计算每条边的更新属性;a′i,j更新的边属性是上游节点对下游节点影响;聚合函数ρa→v将所有与节点i有连接的更新的边属性,聚合成为一个向量;聚合函数ρa→u将图结构中所有边属性聚合到一起为更新的边属性
Figure FDA00036120251800000411
Figure FDA0003612025180000042
为更新后的各边属性集合。
8.根据权利要求1所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤C2.2中,所述更新节点属性的计算方式如下:
Figure FDA0003612025180000043
Figure FDA0003612025180000044
式中,节点属性的更新函数φv利用更新后的节点i的聚合更新边属性、节点i属性和全局属性来获得节点i的更新属性v′i
Figure FDA0003612025180000045
是更新后的节点属性集合,通过聚合函数ρv→u形成一个向量;
步骤C2.2中,所述更新全局属性的计算方式如下:
Figure FDA0003612025180000046
式中,全局属性的更新函数φu利用更新后的边属性和节点属性,获得更新的全局属性u′。
9.根据权利要求8所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:在更新全局属性的过程中,整合GNN卷积后的LSTM模型的运算方式如下:
Figure FDA0003612025180000047
Figure FDA0003612025180000048
Figure FDA0003612025180000049
Figure FDA00036120251800000410
ht=o⊙tanh(ct)
其中,*表示为对图结构数据的卷积,⊙表示Hadamard乘积,σ()表示sigmoid函数;i、f和o是输入门、遗忘门和输出门;h是隐藏状态,c是单元状态,W是权重;图结构中所有节点共享LSTM层。
10.根据权利要求1所述的基于多源数据的公交客流组合图神经网络预测方法,其特征在于:步骤D包括如下步骤:
D1.利用一段时间内的历史多源数据,通过时间反向传播,以公交站点客流预测误差最小化为目标,对整个组合图神经网络模型进行训练,获得输入多源数据映射到未来公交客流的学习函数;该过程表达为:给定τ个时间段的图结构历史多源数据[Gt-τ+1,Gt-τ+2,…,Gt],第t+l时间段组合模型输出的公交客流为Yt+l,学习函数f()为:
Figure FDA0003612025180000051
若第t+l时间段的真实客流为
Figure FDA0003612025180000052
那么训练过程中的损失通过下式计算:
Figure FDA0003612025180000053
其中,W1和W2分别是组合模型和注意力机制的权重矩阵,λ1和λ2是惩罚因子;
D2.输入实时数据,得出公交客流预测结果;在训练好的组合图神经网络模型中输入采集到当前时刻多源数据后,得出未来时刻公交站点的客流预测值。
CN202210436660.9A 2022-04-24 2022-04-24 基于多源数据的公交客流组合图神经网络预测方法 Pending CN114912669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436660.9A CN114912669A (zh) 2022-04-24 2022-04-24 基于多源数据的公交客流组合图神经网络预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436660.9A CN114912669A (zh) 2022-04-24 2022-04-24 基于多源数据的公交客流组合图神经网络预测方法

Publications (1)

Publication Number Publication Date
CN114912669A true CN114912669A (zh) 2022-08-16

Family

ID=82764528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436660.9A Pending CN114912669A (zh) 2022-04-24 2022-04-24 基于多源数据的公交客流组合图神经网络预测方法

Country Status (1)

Country Link
CN (1) CN114912669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580547A (zh) * 2022-11-21 2023-01-06 中国科学技术大学 基于网络数据流间时空相关性的网站指纹识别方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580547A (zh) * 2022-11-21 2023-01-06 中国科学技术大学 基于网络数据流间时空相关性的网站指纹识别方法和***

Similar Documents

Publication Publication Date Title
Wu et al. Hierarchical travel demand estimation using multiple data sources: A forward and backward propagation algorithmic framework on a layered computational graph
CN109919358A (zh) 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN111582559B (zh) 一种到达时间的预估方法及装置
CN106910199A (zh) 面向城市空间信息采集的车联网众包方法
CN112419131B (zh) 交通起讫点需求估算方法
CN110956807A (zh) 基于多源数据与滑动窗口组合的高速公路流量预测方法
Guo et al. Real-time ride-sharing framework with dynamic timeframe and anticipation-based migration
Zhang et al. PewLSTM: Periodic LSTM with Weather-Aware Gating Mechanism for Parking Behavior Prediction.
Xie et al. Multistep prediction of bus arrival time with the recurrent neural network
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
CN113947132A (zh) 基于gcn图神经网络的公交到站预测方法、计算机及介质
CN110490365B (zh) 一种基于多源数据融合预测网约车订单量的方法
Yang et al. Short-term prediction of airway congestion index using machine learning methods
CN114912669A (zh) 基于多源数据的公交客流组合图神经网络预测方法
He et al. ML-MMAS: Self-learning ant colony optimization for multi-criteria journey planning
Shmueli Applications of neural networks in transportation planning
Madadi et al. Multi-stage optimal design of road networks for automated vehicles with elastic multi-class demand
CN111008736A (zh) 用于新航线的开通决策方法及***
Yang et al. Dynamic Origin‐Destination Matrix Estimation Based on Urban Rail Transit AFC Data: Deep Optimization Framework with Forward Passing and Backpropagation Techniques
Vijayalakshmi et al. Multivariate Congestion Prediction using Stacked LSTM Autoencoder based Bidirectional LSTM Model.
Zahedian et al. Dynamic toll prediction using historical data on toll roads: case study of the I-66 inner beltway
Treboux et al. A predictive data-driven model for traffic-jams forecasting in smart santader city-scale testbed
Nizar et al. Forecasting of temperature by using LSTM and bidirectional LSTM approach: case study in Semarang, Indonesia
Petelin et al. Models for forecasting the traffic flow within the city of Ljubljana
Li et al. Ridesplitting demand prediction via spatiotemporal multi-graph convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination