CN113159681B

CN113159681B - 一种基于博弈强化学习的多式联运动态路径规划方法

Info

Publication number: CN113159681B
Application number: CN202110423315.7A
Authority: CN
Inventors: 叶峰; 覃诗; 赖乙宗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-02-14
Anticipated expiration: 2041-04-20
Also published as: CN113159681A

Abstract

本发明公开了一种基于博弈强化学习的多式联运动态路径规划方法；所述方法包括以下步骤：S1订单处理模块接收用户的订单信息；S2博弈模块根据传入的订单信息计算博弈影响因子；S3并行强化学习模块根据传入的订单信息构建强化学习环境中的状态转移模型，根据所需目标构建强化学习中的奖励，学习单个目标下的Q网络；S4结合博弈因子和单个目标下Q网络进行多目标下的Q表的计算，生成订单初始策略；S5执行订单，根据订单执行情况调整博弈影响因子，调整多目标下的Q网络，直到订单执行完成。

Description

一种基于博弈强化学习的多式联运动态路径规划方法

技术领域

本发明涉及多式联运路径规划，尤其涉及一种基于博弈强化学习的多式联运动态路径规划方法。

背景技术

随着我国综合运输体系的不断完善，多式联运作为一种先进的运输组织形式，在运输实践中应用得越来越广泛，且随着多式联运服务网络的日趋成熟，运输的经济效益和社会效益也得到了显著提升。

多式联运路径规划是不确定环境下多约束、多目标优化问题。

物流行业追求的普遍目标包括总的成本最小，总的运输时间最小，碳排放最小。由于这些目标间的互斥性，当路径节点数较多的时，实现多目标的全局最优是一个典型的NP-HARD问题。同时运输场景、用户偏好、运输过程环境、人员、设备条件等不确定性因素，以及运输手段的时空约束，增加了该问题的复杂性。目前的解决方案多为单目标以及静态场景下的路径规划。

发明内容

本发明在于解决不确定环境下存在时空约束的多式联运多目标优化问题，提供一种基于博弈强化学习的多式联运动态路径规划方法；

本发明根据时间、成本及社会效益等多个目标建立多个Q网络，同时根据运输场景及用户偏好等采用博弈机制，同时考虑时间，成本和社会效益；

本发明在订单执行过程中，为了消除不确定性的影响，引入反馈调节机制，对路径进行动态调整，以期达成实现多目标的动态均衡。

本发明通过下述技术方案实现：

一种基于博弈强化学习的多式联运动态路径规划方法，包括以下步骤：

S1：订单处理模块，接收用户订单信息；

S2：博弈模块，根据传入的订单信息计算博弈影响因子；

S3：并行强化学习模块，根据传入的订单信息，构建强化学习环境中的状态转移模型，根据所需目标构建强化学习中的奖励，进行单个目标下的Q网络的学习，多个目标的学习并行进行；

S4：多目标下的Q表计算模块，结合博弈因子和多个单目标下Q网络进行多目标下的Q表的计算，生成订单初始策略；

S5：动态调整模块，执行订单，根据执行情况调整博弈影响因子，调整多目标下的Q表，直到订单执行完成。

步骤S1所述订单处理模块接收用户的订单信息，具体订单信息包括起运地点、目的地点、起运时间、货物种类、货物重量以及用户偏好。所述用户偏好包括运输时间最短，运输费用最低等。

步骤S2所述博弈模块根据传入的订单信息计算初始博弈影响因子，具体包括以下子步骤：

S2-1：设定重要程度分为1级到5级，对应的数值分别为1，3，5，7，9，其中级别越高即数值越大重要程度越高；

S2-2：设定各个目标的初始重要程度均为3级，即数值为5，使用者根据需求制定不同规则来调整各个目标的重要程度；

S2-3：根据各目标的等级计算博弈影响因子。

步骤S3所述并行强化学习模块根据传入的订单信息构建强化学习环境中的状态转移模型，根据所需目标构建强化学习中的奖励，学习单个目标下的Q网络，多个目标的学习并行进行，具体包括以下子步骤：

S3-1：根据订单中的起运地点和目标地点，从地图存储模块中分离出起运地点到目标地点的完整路由网络图，包含起运地点和目标地点以及这两地点之间的路由，路由网络图表示为G(N，V，M)，其中N表示节点集合，N＝{1，2，...，n}，M表示运输方式的集合，M＝{0，1，2，...，m}，V表示边的集合，V＝{v_k|v_k＝(v_ij，m)，i∈N，j∈N，m∈M}，其中v_k表示从i节点到j节点，采用m运输方式的一条边，各个节点表示城市，联通的两节点之间存在一条或多条边，包含不同的运输方式，不同的边具有不同的时间成本和运输成本以及碳排放大小等各类成本；其中，边的时间成本表示为T_vk，运输成本表示为C_vk，碳排放大小表示为CE_vk；

S3-2：根据路由网络图，构建强化学习环境，每个节点即为一个状态S，当前节点选择某条边到下一个节点即为一个动作A；在每个节点即每个状态时根据从该节点出发可选择的边的集合中来选择动作，来转移到下一状态，并获得奖励；状态数量等于路由网络图中的城市节点的数量，节点之间有边连接，从节点i处出发可选择的边的集合为v_ki＝{v_k|v_k＝(v_ij，m)，j∈N，m∈M}，v_ki集合中元素的总数量为L，L表示从节点i处出发可以选择的边的总数量，在节点i处可选择的动作数量为L；

S3-3：对每个Q学习网络制定对应的环境奖励；所述每个Q学习网络可以包括目标为最小化订单执行时间的Q网络，目标为最小化订单执行成本的Q网络，目标为最小化碳排放的Q网络等，目标数量可依据用户需求进行增加减少；

针对最小化运输时间的Q网络，环境中奖励的设置：智能体从当前状态经过v_k转移到下一状态时其奖励设置为R＝-T_vk，若相对于预估时间延迟了Td送达，则会得到惩罚R＝-Td，目标是使得所有状态奖励之和最大化，即最小化执行时间；

针对最小化运输成本的Q网络，环境中奖励的设置：

①运输成本和中转成本，根据选择的服务，即公路，铁路，水路的以及距离的不同，结合货运站以及码头装卸费用的不同在环境中设置对应的惩罚值；

②堆存成本，滞留成本和延迟成本，根据堆存时间，滞留时间以及延迟时间在环境中设置对应的惩罚值；

③如若超过最大运输能力以及节点最大中转能力，进行惩罚值的设置；针对最小化运输成本的Q网络，智能体从当前状态经过v_k转移到下一状态时其奖励设置为R＝-C_vk，目标是使得所有状态奖励之和最大化，即最小化运输成本；

针对以最小化碳排放目标的Q网络，环境中奖励的设置：智能体从当前状态经过v_k转移到下一状态时其奖励设置为R＝-CE_vk，目标是使得所有状态奖励之和最大化，即最小化碳排放；

对于所有目标，根据共同存在的约束设定一些共同的奖励：

(1).运载量超过限制量为θ时，设置其奖励值为-θ*100；

(2).当货物运输过程中发生折返时，设置其奖励值为-1000；

S3-4：设定强化学习的搜索策略，所述的搜索策略为∈贪婪法；

S3-5：设定单目标下Q网络学习的网络模型中包含两个深度神经网络，即Q-当前网络和Q-目标网络，这两个网络结构相同，更新频率不一致；Q-当前网络即时更新，Q-目标网络更新频率低于Q-当前网络，在Q-当前网络迭代次数每达到设定值C时，对Q-目标网络更新一次，将Q-当前网络的参数更新至Q-目标网络；Q网络以状态作为输入，输出该状态下所有可选动作的价值；网络模型中包含记忆池E，用来存储经验；记忆池中的记忆被随机抽取，用于更新网络，这可以打乱记忆之间的相关性，提升训练效率；

S3-6：针对单个目标下Q网络的学习；

S3-7：当学习次数到达最大学习次数时，单目标Q网络完成学习；

S3-8：并行对多个单目标学习Q网络进行学习。

上述步骤S-4所述多目标下的Q表计算模块，结合博弈影响因子以及各单目标下训练的Q网络计算各个状态-动作对的价值表，计算出该博弈因子下各个状态下对应的各个动作的动作价值，根据贪婪法生成订单初始最优策略，其具体子步骤如下：

S4-1结合博弈影响因子计算多目标下状态s下的可选择的动作的价值；

S4-2根据生成的多目标下的Q表，生成订单初始策略。

上述步骤S5所述动态调整模块，执行订单，根据执行情况调整博弈影响因子，调整多目标下的Q网络，直到订单执行完成，具体子步骤如下：

S5-1执行订单，监控订单的执行情况，根据订单执行的情况调整博弈影响因子，减小不确定因素对时效性等的影响如对时间节点进行监控，其具体子步骤如下：

S5-1-1在执行订单时，对时间节点进行监控，若由于不确定因素影响导致订单到达状态s时迟于预估时间节点T_s，则将时间重要程度提升一级；

S5-1-2重新计算博弈影响因子；

S5-1-3重新计算多目标下的Q表；

S5-1-4根据新的Q表更新路径，更新订单执行策略；

S5-1-5验证新的订单策略是否符合需求，如果符合则执行新的策略，不符合则转S5-1-2，直至新的策略符合需求。

上述步骤S2-3所述根据各目标的等级计算博弈影响因子，包括如下子步骤：

S2-3-1：根据需求等调整n个目标的重要程度后，目标i的重要程度为I级；

S2-3-2：根据等级I确定目标i的等级对应的数值

S2-3-3：依据下式计算目标i的影响因子δ_i：

S2-3-4：所述的目标可根据需求进行调整，目标的数量和内容均可进行调整。

上述步骤S3-4，所述搜索策略为∈贪婪法，其包括如下子步骤：

S3-4-1：设定贪婪因子∈，其初始值在0到1之间取值；

S3-4-2：随机生成一个在0到1之间的数β；

S3-4-3：如果β≥∈，则选择动作范围内动作价值最大即Q值最大的动作，如果β＜∈，则在动作范围内随机选择一个动作；

S3-4-4：随着训练的进行，探索率∈随着迭代的进行而变小；

上述步骤S3-6，所述针对单个目标下Q网络的学习，其具体包括如下子步骤：设置最大学习次数T，状态集S，动作集A，步长α，衰减因子γ，探索率∈，Q-当前网络Q，Q-目标网络Q′，批量梯度下降的样本数m，Q-目标网络参数更新频率C；

S3-6-1：初始化学习次数i为1；

S3-6-2：当学习次数i＜最大学习次数T时，转到步骤S3-6-3，否则转到步骤S3-7；

S3-6-3：初始化S为起运地点这一状态；

S3-6-4：在Q网络中使用S作为输入，得到Q网络的所有动作对应的Q值输出；

S3-6-5：用∈贪婪法在当前Q值输出中选择对应的动作A，在状态S执行当前动作A，得到新状态S′，以及奖励R，判断S′是否为目标地点D，保存在变量is_D中；将{S，A，R，S′，is_D}这个五元组存入经验回放集合E中，将状态从S切换到S′；

S3-6-6：从经验回放集合E中采样m个样本{S_j，A_j，R_j，S′_j，is_D_j}，j＝1，2...m，计算当前目标动作价值Q的值ζ_j：

ζ_j＝R_j+γmax_a′Q′(S′_j，A′_j)

其中，R_j为状态从S_j切换到S′_j时获得的奖励，γ为奖励的衰减因子，max_a′Q′(S′_j，A′_j)为在到S′_j状态时可选的最大动作价值；

S3-6-7：使用均方差损失函数：

通过神经网络的梯度反向传播来更新Q网络的所有参数w；

S3-6-8：如果学习次数i为更新频率C的倍数，即i％C＝1时，更新目标Q网络参数w′＝w；

S3-6-9：如果S′不是终止状态，转到步骤S3-6-4继续学习，如果S′是终止状态，当前轮的学习完毕，学习次数增加一次，即i＝i+1，如果新的学习次数小于最大学习次数，转到步骤S3-6-3，如果到达最大学习次数，转到步骤S3-7。

上述步骤S4-1，所述结合博弈影响因子计算多目标下状态s下的可选择的动作的价值，具体子步骤如下：

S4-1-1将状态s输入各个已经训练好的Q网络，得到各个Q网络的输出的在该状态的可选择的动作的价值，在状态s下目标i网络输出各个动作的价值集合Q_is＝{Q_is1，Q_is2，...，Q_isl，...，Q_isL}；

S4-1-2根据博弈影响因子δ_A，δ_B...，δ_i，...δ_n以及Q_is结合如下公式计算s状态下动作A_sl的价值：

S4-1-3遍历计算所有状态下所有动作的价值，形成多目标下Q值表，所述Q表横轴为状态，纵轴为动作，每一状态-动作对对应着唯一的动作价值；

步骤S4-2，所述根据生成的多目标下的Q表，生成订单初始策略，具体子步骤如下：

S4-2-1将状态S设为初始状态；

S4-2-2根据状态S查表，得到状态S下可选动作的价值集合；

S4-2-3使用贪婪法在可选动作中选择动作价值最高的动作，同时刷新状态到下一状态；

S4-2-4重复执行S4-2-2至S4-2-3直至刷新状态到达的下一状态为终止状态目的地点D；

S4-2-5从终止状态回溯到初始状态，得到最优策略，即生成订单的执行路线，以及从起始状态到达状态s预计的时间节点T_s。

本发明相对于现有技术，具有如下的优点及效果：

本发明提出基于并联DQN网络的多目标强化学习架构，根据时间、成本及社会效益三大目标建立多个Q网络，同时采用博弈机制，实现时间、成本、社会效益三者的动态均衡。

本发明在强化学***衡探索和利用的关系，多网络并行学习也可以有效减少训练时间。

本发明能够动态地解决多式联运下多目标优化的问题，相比于单目标的优化，可以考虑到更多的因素，可以实现时间、成本和社会效益三者的动态均衡，更符合实际情况；其次考虑了不确定因素等对订单执行的影响，能够根据执行情况进行动态调整，鲁棒性更高，适应能力更强。

附图说明

图1为本发明基于博弈强化学习的多式联运动态路径规划方案流程图。

具体实施方式

下面结合具体实施例对本发明作进一步具体详细描述。

如图1所示，本发明公开了一种基于博弈强化学习的多式联运动态路径规划方法，其方案为：

订单处理模块，用于处理用户输入的订单信息；

博弈模块，用于计算博弈影响因子；

并行强化学习模块，用于各目标下Q网络的学习

多目标下的Q表计算模块，用于多目标下Q表的计算；

动态调整模块，用于处理订单过程中的闭环动态调整反馈模块。

Step1.接收订单信息并简单处理

订单处理模块接收用户的订单信息，所述订单信息包括起运地点、目的地点、起运时间、货物种类、货物重量以及用户偏好。所述用户偏好包括运输时间最短，运输费用最低等。

Step2.博弈模块根据传入的订单信息计算初始博弈影响因子

Step21设定重要程度分为5级，为1级到5级，对应的数值分别为1，3，5，7，9，其中级别越高即数值越大重要程度越高。

Step22设定各目标的初始重要程度均为3级，即数值为5，使用者根据需求制定不同规则来调整各个目标的重要程度。

Step23默认的规则设定为：1.若货物中为冷链运送类等，将时间目标的重要程度提升1级；2.若用户需求为时效性优先，则将时间目标的重要程度提升为5级；3.若用户需求为运输成本低优先，则将成本目标提升为5级；4.碳排放重要等级不得低于2级。

Step24根据各目标的等级计算博弈影响因子，其具体步骤如下：

Step241根据需求等调整后，时间目标的重要程度为A级，成本目标的重要程度为B级，碳排放的重要程度为C级；

Step242根据A，B，C等级确定等级对应的数值a，b，c；

Step243依据以下各式计算各目标的影响因子，时间目标的影响因子为δ_A，运输成本目标的影响因子为δ_B，最小碳排放目标的影响因子为δ_C：

Step244所述的目标可根据需求进行调整，目标的数量和内容均可进行调整。

Step3并行强化学习模块根据传入的订单信息构建强化学习环境中的状态转移模型，根据所需目标构建强化学习中的奖励，学习单个目标下的Q网络

Step31根据订单中的起运地点和目标地点，从地图存储模块中分离出起运地点到目标地点的完整路由网络图，包含起运地点和目标地点以及这两地点之间的路由，路由网络图表示为G(N，V，M)，其中N表示节点集合，N＝{1，2，...，n}，M表示运输方式的集合，M＝{0，1，2，...，m}，V表示边的集合，V＝{v_k|v_k＝(v_ij，m)，i∈N，j∈N，m∈M}，其中v_k表示从i节点到j节点，采用m运输方式的一条边，各个节点表示城市，联通的两节点之间存在一条或多条边，包含不同的运输方式，不同的边具有不同的时间成本和运输成本以及碳排放大小成本；其中，边的时间成本表示为T_vk，运输成本表示为C_vk，碳排放大小表示为CE_vk。

Step32根据路由网络图，构建强化学习环境，每个节点即为一个状态S，当前节点选择某条边到下一个节点即为一个动作A。在每个节点n即每个状态时根据v_nj来选择动作，转移到下一状态，并获得奖励。状态数量等于路由网络图中的城市节点的数量，节点之间有边连接，从节点i处出发可选择的边的集合为v_ki＝{v_k|v_k＝(v_ij，m)，j∈N，m∈M}，v_ki集合中元素的总数量为L，L表示从节点i处出发可以选择的边的总数量，在节点i处可选择的动作数量为L。

Step33对每个Q学习网络制定对应的环境奖励。所述的每个Q学习网络包括目标为最小化订单执行时间的Q网络，目标为最小化订单执行成本的Q网络，目标为最小化碳排放的Q网络等，目标数量可以依据用户需求进行增加减少。

针对最小化运输时间的Q网络，环境中奖励的设置：智能体从当前状态经过v_k转移到下一状态时其奖励设置为R＝-T_vk，如果相对于预估时间延迟了Td送达，则会得到惩罚R＝-Td，目标是使得所有状态奖励之和最大化，即最小化执行时间；

针对最小化运输成本的Q网络，环境中奖励的设置：

对于所有目标，根据共同存在的约束设定一些共同的奖励：

(1).运载量超过限制量为θ时，设置其奖励值为-θ*100；

(2).当货物运输过程中发生折返时，设置其奖励值为-1000。

Step34设定强化学习的搜索策略，所述的搜索策略为∈贪婪法，其具体步骤为：

Step341设定贪婪因子∈，其初始值在0到1之间取值；

Step342随机生成一个在0到1之间的数β；

Step343如果β≥∈，则选择动作范围内动作价值最大即Q值最大的动作，如果β＜∈，则在动作范围内随机选择一个动作；

Step344随着训练的进行，探索率∈随着迭代的进行而变小。

Step35设定单目标下Q网络学习的网络模型中包含两个深度神经网络，即Q-当前网络和Q-目标网络，这两个网络结构相同，更新频率不一致。Q-当前网络即时更新，Q-目标网络更新频率慢于Q-当前网络，在Q-当前网络迭代次数每达到设定值C时，对Q-目标网络更新一次，将Q-当前网络的参数更新至Q-目标网络。Q网络以状态作为输入，输出该状态下所有可选动作的价值。网络模型中包含记忆池E，用来存储经验。记忆池中的记忆被随机抽取，用于更新网络，这可以打乱记忆之间的相关性，提升训练效率。

Step36针对单个目标下Q网络的学习，其具体步骤如下：

设置最大学习次数T，状态集S，动作集A，步长α，衰减因子γ，探索率∈，Q-当前网络Q，Q-目标网络Q′，批量梯度下降的样本数m，Q-目标网络参数更新频率C。

Step361初始化学习次数i为1；

Step362当学习次数i＜最大学习次数T时，转到步骤Step363，否则转到步骤Step37；

Step363初始化S为起运地点这一状态；

Step364在Q网络中使用S作为输入，得到Q网络的所有动作对应的Q值输出；

Step365用∈贪婪法在当前Q值输出中选择对应的动作A，在状态S执行当前动作A，得到新状态S′，以及奖励R，判断S′是否为目标地点D，保存在变量is_D中。将{S，A，R，S′，is_D}这个五元组存入经验回放集合E中，将状态从S切换到S′；

Step366从经验回放集合E中采样m个样本{S_j，A_j，R_j，S′_j，is_D_j}，j＝1，2.，，，m，计算当前目标动作价值Q的值ζ_j：

ζ_j＝R_j+γmax_a′Q′(S′_j，A′_j)

其中，R_j为状态从S_j切换到S′_j时获得的奖励，γ为奖励的衰减因子，max_a′Q′(S′_j，A′_j)为在S′_j状态时可选的最大的动作价值；

Step367使用均方差损失函数：

通过神经网络的梯度反向传播来更新Q网络的所有参数w；

Step368如果学习次数i为更新频率C的倍数，即i％C＝1时，更新目标Q网络参数w′＝w；

Step369如果S′不是终止状态，转到步骤Step364继续学习，如果S是终止状态，当前轮的学习完毕，学习次数增加一次，即i＝i+1，如果新的学习次数小于最大学习次数，转到步骤Step363，如果到达最大学习次数，转到步骤Step37；

Step37当学习次数到达最大学习次数时，单目标Q网络完成学习。

Step38并行对多个单目标学习Q网络进行学习。

Step4结合博弈影响因子以及各单目标下训练的Q网络计算各个状态-动作对的价值表，计算出该博弈因子下各个状态下对应的各个动作的动作价值，根据贪婪法生成订单初始最优策略

Step41结合博弈影响因子计算多目标下n状态下的可选择的动作的价值，具体步骤如下：

Step411将状态n输入各个已经训练好的Q网络，得到各个Q网络的输出的在该状态的可选择的动作的价值，如输入状态n，在状态n下时间目标即A目标网络输出的各个动作的价值Q_AN＝Q_AN1，Q_AN2，Q_AN3，...，Q_ANl；在n状态下运输成本目标即B目标网络输出的各个动作的价值Q_BN＝Q_BN1，Q_BN2，Q_BN3，...，Q_BNl；在n状态下最小化碳排放目标即C目标网络输出各个动作的价值Q_CN＝Q_CN1，Q_CN2，Q_CN3，...，Q_CNl；

Step412根据博弈影响因子λ_A，λ_B，λ_C以及Q_ANl，Q_BNl，Q_CNl结合如下公式计算n状态下动作A_nl的价值：

Q_Nl＝δ_A*Q_ANl+δ_B*Q_BNl+δ_C*Q_CNl

Step413遍历计算所有状态下所有动作的价值，形成多目标下Q值表，所述Q表横轴为状态，纵轴为动作，每一状态-动作对对应着唯一的动作价值。

Step42根据生成的多目标下的Q表，生成订单初始策略，具体步骤如下：

Step421将状态S设为初始状态；

Step422根据状态S查表，得到状态S下可选动作的价值集合；

Step423使用贪婪法在可选动作中选择动作价值最高的动作，同时刷新状态到下一状态；

Step424重复执行Step422至Step423直至刷新状态到达的下一状态为终止状态目的地点D；

Step425从终止状态回溯到初始状态，得到最优策略，即生成订单的执行路线，以及到达状态节点N预计的时间节点T_s；

Step5根据执行情况调整博弈影响因子，调整多目标下的Q网络，直到订单执行完成。

S51执行订单，监控订单的执行情况，根据订单执行的情况调整博弈影响因子，减小不确定因素对时效性等的影响如对时间节点进行监控，其具体步骤如下：

Step511在执行订单时，对时间节点进行监控，若由于不确定因素影响导致订单迟于预估时间节点，则将时间重要程度提升一级；

Step512重新计算博弈影响因子；

Step513重新计算多目标下的Q表；

Step514根据新的Q表更新路径，更新订单执行策略；

Step515验证新的订单策略是否符合需求，如果符合则执行新的策略，不符合则转Step512。

如上所述，便可较好地实现本发明。

本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于博弈强化学习的多式联运动态路径规划方法，其特征在于，包括以下步骤：

S1：订单处理模块，接收用户订单信息；

S2：博弈模块，根据传入的订单信息计算博弈影响因子；

S4：多目标下的Q表计算模块，结合博弈影响因子和多个单目标下Q网络进行多目标下的Q表的计算，生成订单初始策略；

S5：动态调整模块，执行订单，根据执行情况调整博弈影响因子，调整多目标下的Q表，直到订单执行完成；

步骤S4所述多目标下的Q表计算模块，结合博弈影响因子以及各单目标下训练的Q网络计算各个状态-动作对的价值表，计算出该博弈影响因子下各个状态下对应的各个动作的动作价值，根据贪婪法生成订单初始最优策略，其具体子步骤如下：

S4-1：结合博弈影响因子计算多目标下状态s下的可选择的动作的价值；

S4-2：根据生成的多目标下的Q表，生成订单初始策略；

步骤S4-1，所述结合博弈影响因子计算多目标下状态s下的可选择的动作的价值，具体子步骤如下：

S4-1-1：将状态s输入各个已经训练好的Q网络，得到各个Q网络的输出的在该状态的可选择的动作的价值，在状态s下目标i网络输出各个动作的价值集合Q_is＝{Q_is1,Q_is2,…,Q_isl,…,Q_isL}；

S4-1-2：根据博弈影响因子δ_A，δ_B…,δ_i,…δ_n以及Q_is结合如下公式计算s状态下动作A_sl的价值：

S4-1-3：遍历计算所有状态下所有动作的价值，形成多目标下Q值表，所述Q表横轴为状态，纵轴为动作，每一状态-动作对对应着唯一的动作价值；

S42-1：将状态s设为初始状态；

S4-2-2：根据状态s查表，得到状态s下可选动作的价值集合；

S4-2-3：使用贪婪法在可选动作中选择动作价值最高的动作，同时刷新状态到下一状态；

S4-2-4：重复执行S4-2-2至S4-2-3直至刷新状态到达的下一状态为终止状态目的地点D；

S4-2-5：从终止状态回溯到初始状态，得到最优策略，即生成订单的执行路线，以及从起始状态到达状态s预计的时间节点T_s。

2.根据权利要求1所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于：步骤S1所述订单处理模块接收用户的订单信息，具体订单信息包括起运地点、目的地点、起运时间、货物种类、货物重量以及用户偏好。

3.根据权利要求2所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S2所述博弈模块根据传入的订单信息计算初始博弈影响因子，具体包括以下子步骤：

S2-3：根据各目标的等级计算博弈影响因子。

4.根据权利要求3所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S3所述并行强化学习模块根据传入的订单信息构建强化学习环境中的状态转移模型，根据所需目标构建强化学习中的奖励，学习单个目标下的Q网络，多个目标的学习并行进行，具体包括以下子步骤：

S3-1：根据订单中的起运地点和目标地点，从地图存储模块中分离出起运地点到目标地点的完整路由网络图，包含起运地点和目标地点以及这两地点之间的路由，路由网络图表示为G(N,V,M)，其中N表示节点集合，N＝{1,2,…,n}，M表示运输方式的集合，M＝{0,1,2,…,m}，V表示边的集合，V＝{v_k|v_k＝(v_ij,m),i∈N,j∈N，m∈M}，其中v_k表示从i节点到j节点，采用m运输方式的一条边，各个节点表示城市，联通的两节点之间存在一条或多条边，包含不同的运输方式，不同的边具有不同的时间成本和运输成本以及碳排放大小成本；其中，边的时间成本表示为T_vk，运输成本表示为C_vk，碳排放大小表示为CE_vk；

S3-2：根据路由网络图，构建强化学习环境，每个节点即为一个状态集S，当前节点选择某条边到下一个节点即为一个动作A；在每个节点即每个状态时根据从该节点出发可选择的边的集合中来选择动作，来转移到下一状态，并获得奖励；状态数量等于路由网络图中的城市节点的数量，节点之间有边连接，从节点i处出发可选择的边的集合为v_ki＝{v_k|v_k＝(v_ij,m),j∈N，m∈M}，v_ki集合中元素的总数量为L，L表示从节点i处出发可以选择的边的总数量，在节点i处可选择的动作数量为L；

S3-3：对每个Q学习网络制定对应的环境奖励；所述每个Q学习网络可以包括目标为最小化订单执行时间的Q网络，目标为最小化订单执行成本的Q网络，目标为最小化碳排放的Q网络，目标数量依据用户需求进行增加减少；

针对最小化运输成本的Q网络，环境中奖励的设置：

对于所有目标，根据共同存在的约束设定共同奖励：

(1).运载量超过限制量为θ时，设置其奖励值为-θ*100；

(2).当货物运输过程中发生折返时，设置其奖励值为-1000；

S3-4：设定强化学习的搜索策略，所述的搜索策略为ε贪婪法；

S3-6：针对单个目标下Q网络的学习；

S3-8：并行对多个单目标学习Q网络进行学习。

5.根据权利要求4所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S5所述动态调整模块，执行订单，根据执行情况调整博弈影响因子，调整多目标下的Q网络，直到订单执行完成，具体子步骤如下：

S5-1：执行订单，监控订单的执行情况，根据订单执行的情况调整博弈影响因子，减小不确定因素对时效性的影响如对时间节点进行监控，其具体子步骤如下：

S5-1-1：在执行订单时，对时间节点进行监控，若由于不确定因素影响导致订单到达状态s时迟于预估时间节点T_s，则将时间重要程度提升一级；

S5-1-2：重新计算博弈影响因子；

S5-1-3：重新计算多目标下的Q表；

S5-1-4：根据新的Q表更新路径，更新订单执行策略；

S5-1-5：验证新的订单策略是否符合需求，如果符合则执行新的策略，不符合则转S5-1-2，直至新的策略符合需求。

6.根据权利要求3所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S2-3所述根据各目标的等级计算博弈影响因子，包括如下子步骤：

S2-3-1：根据需求调整d个目标的重要程度后，目标f的重要程度为I级；

S2-3-2：根据等级I确定目标f的等级对应的数值

S2-3-3：依据下式计算目标f的影响因子δ_f：

7.根据权利要求4所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S3-4，所述搜索策略为ε贪婪法，其包括如下子步骤：

S3-4-1：设定贪婪因子ε，其初始值在0到1之间取值；

S3-4-2：随机生成一个在0到1之间的数β；

S3-4-3：如果β≥ε，则选择动作范围内动作价值最大即Q值最大的动作，如果β＜ε，则在动作范围内随机选择一个动作；

S3-4-4：随着训练的进行，探索率ε随着迭代的进行而变小。

8.根据权利要求4所述基于博弈强化学习的多式联运动态路径规划方法，其特征在于，步骤S3-6，所述针对单个目标下Q网络的学习，其具体包括如下子步骤：设置最大学习次数T，状态集S,动作集A,步长α，衰减因子γ,探索率ε,Q-当前网络Q，Q-目标网络Q′,批量梯度下降的样本数h，Q-目标网络参数更新频率C；

S3-6-1：初始化学习次数p为1；

S3-6-2：当学习次数p＜最大学习次数T时，转到步骤S3-6-3，否则转到步骤S3-7；

S3-6-3：初始化S为起运地点这一状态；

S3-6-5：用ε贪婪法在当前Q值输出中选择对应的动作集A，在状态s执行当前动作集A,得到新状态s′，以及奖励R，判断S′是否为目标地点D，保存在变量is_D中；将{S,A,R,S′,is_D}这个五元组存入经验回放集合E中，将状态从S切换到S′；

S3-6-6：从经验回放集合E中采样h个样本{S_j,A_j,R_j,S′_j,is_D_j},j＝1,2…h，计算当前目标动作价值Q的值ζ_j：

ζ_j＝R_j+γmax_a′Q′(S′_j,A′_j)

其中，R_j为状态从S_j切换到S′_j时获得的奖励，γ为奖励的衰减因子，max_a′Q′(S′_j,A′_j)为在到S′_j状态时可选的最大动作价值；

S3-6-7：使用均方差损失函数：

通过神经网络的梯度反向传播来更新Q网络的所有参数w；

S3-6-8：如果学习次数p为更新频率C的倍数,即i％C＝1时，更新目标Q网络参数w′＝w；

S3-6-9：如果S′不是终止状态，转到步骤S3-6-4继续学习，如果S′是终止状态，当前轮的学习完毕，学习次数增加一次，即p＝i+1，如果新的学习次数小于最大学习次数，转到步骤S3-6-3，如果到达最大学习次数，转到步骤S3-7；

S3-7：当学习次数到达最大学习次数时，单目标Q网络完成学习。