CN114120670A

CN114120670A - 用于交通信号控制的方法和***

Info

Publication number: CN114120670A
Application number: CN202111411787.7A
Authority: CN
Inventors: 应缜哲; 孟昌华; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-03-01
Anticipated expiration: 2041-11-25
Also published as: CN114120670B

Abstract

本公开提供了一种用于交通信号控制的方法和***，方法包括针对路网中的每个交叉路口，获取该交叉路口及其相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态；将所获取的交通信息输入交通信号控制模型以得到预测的交通信号状态；以及基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。

Description

用于交通信号控制的方法和***

技术领域

本公开涉及智慧交通领域，更具体地，涉及用于交通信号控制的方法和***。

背景技术

目前，随着私家车越来越多，大城市的交通拥堵问题愈发严重，交通信号控制是影响人们日常通勤生活的重要问题。然而，由于计算和存储问题，设计一种有效的大规模交通信号控制策略一直是一个挑战。目前国内大多数城市使用的交通信号机采用单纯的固定周期信号控制，信号灯配时未考虑交通流量实时变化情况，控制方式相对来说比较单一，无法综合运用多种信号控制方式，对交叉口的时空资源进行深度研判，形成综合优化方案。在平峰时期，无车方向绿灯仍在亮，造成道路资源的极大浪费，降低了通行效率，而在交通流量高峰期时，无法根据交通拥堵的实时情况来调节交通流量。信号灯与交通标志标线等交通设施互不协调。信号灯的设置与道路车道功能不匹配导致交叉口冲突点增多，高峰期间长期处于拥堵状态。

目前所存在的大部分交通信号控制方案是基于规则***，这种基于规则的模型的优势是有较好的可解释性，并且调整起来对算法/工作人员要求较低，然而这种模型会消耗大量的时间，并且在不同的城市完全无法复用，需要算法人员针对性进行调整优化。即使是在同一个城市，在道路发生变化(如修路等)时，规则引擎都需要人工介入进行优化，在实际的生产环境中，规则都是较难应用的算法。

另外，学习大规模交通信号控制的联合策略是困难的，因为不同路口的状态选择种类是乘积叠加的，以每个路口有8种信号状态为例，1000个路口就有8¹⁰⁰⁰种可能，这导致在时间资源和计算资源有限的情况下很难学习到最优策略。

因此，希望能够提供一种智能交通信号控制***，以针对实际路网场景中的大量交叉路口提供协调的交通信号控制策略，从而使得交通***能够以较少的延迟服务更多车辆，提升交通运作效果。

发明内容

提供本公开内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本公开内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

针对以上问题，根据本公开的一个方面，提供了一种用于交通信号控制的方法，该方法包括：针对路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态；将所获取的交通信息输入经训练的交通信号控制模型以得到预测的交通信号状态；以及基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。在特征建模时通过将相邻路口的特征纳入考量，可以使交通信号控制具备协同性，从而能够更好地提升交通运作效果，进一步缓解交通拥堵问题。

根据本公开的一个实施例，针对每个交叉路口，交通信息包括关于每个驶入道路和驶出道路上车流变化的动态信息。在特征建模时更多地考虑动态信息，对道路的依赖性不强，由此使得模型在真实世界环境中能够得到更准确的预测结果。

根据本公开的进一步实施例，针对每个交叉路口，车辆信息包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶入道路新增加的车辆数量、以及每个道路的平均车速，并且道路信息包括路网中每个道路的长度、限速和车道数。通过对各种车辆及道路特征进行组合，可以对交叉路口处的环境进行更准确的建模，从而使得模型在真实世界环境中能够得到更准确的预测结果。

根据本公开的进一步实施例，交通信号控制模型是基于强化学习网络以在一时间区间内通过每个交叉路口的车辆数量作为奖励来训练得到的。

根据本公开的进一步实施例，强化学习网络包括深度Q网络(DQN)。

根据本公开的进一步实施例，交通信号控制模型是通过以下操作来训练得到的：获取每个道路上的每个车辆在该道路上的位置信息；建立每个交叉路口处的特征，其中特征包括该交叉路口及其相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态；以及将所建立的特征作为状态输入深度强化学习网络，以对交通信号状态的控制作为动作，在一时间区间内通过每个交叉路口的车辆数量作为奖励，利用交通***模拟环境进行车流模拟训练，通过不断迭代寻优来更新网络参数以使得所预测的交通信号状态使奖励最大化，从而得到经训练的交通信号控制模型。

根据本公开的进一步实施例，交通信号控制模型是通过多进程模拟计算来训练得到的。通过在强化学习中使用多进程模拟计算可以使大规模城市的计算拟合时间少，***效率高。

根据本公开的另一方面，提供了一种用于交通信号控制的***，该***包括：设置在每个道路上的信息采集模块，该信息采集模块用于针对路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态；信息处理模块，该信息处理模块用于将所获取的交通信息输入交通信号控制模型以得到预测的交通信号状态；信号控制模块，该信号控制模块用于基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。该***通过获取相邻路口的信息而使得交通信号控制具备协同性，从而能够更好地提升交通运作效果，进一步缓解交通拥堵问题。

根据本公开的一个实施例，针对每个交叉路口，交通信息包括关于每个驶入道路和驶出道路上车流变化的动态信息。该***通过获取关于当前路口处的车流的动态信息而使得模型的预测结果在真实世界中更为准确。

根据本公开的进一步实施例，针对每个交叉路口，车辆信息包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶入道路新增加的车辆数量、以及每个道路的平均车速，并且道路信息包括路网中每个道路的长度、限速和车道数。

根据本公开的进一步实施例，针对每个交叉路口，特征包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的长度、限速、车道数、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的平均车速、每个驶入道路新增加的车辆数量、上一周期时该交叉路口及相邻路口选择的交通信号状态。

根据本公开的进一步实施例，交通信号控制模型是通过多进程模拟计算来训练得到的。

根据本公开的又一方面，提供了一种存储有指令的计算机可读存储介质，当这些指令被执行时使得机器执行前述方面中的任一者所述的方法。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本公开的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本公开的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1是根据本公开的一个实施例的基于深度Q网络的交通信号控制模型的示意架构图；

图2是根据本公开的一个实施例的四支路交叉路口及其交通信号状态的示意图；

图3是根据本公开的一个实施例的用于训练基于深度Q网络的交通信号控制模型的方法的示意图；

图4是根据本公开的一个实施例的用于交通信号控制的方法的示例流程图；

图5是根据本公开的一个实施例的利用经训练的交通信号控制模型来进行交通信号控制的场景的示例；

图6是根据本公开的一个实施例的用于交通信号控制的***的示意架构图；以及

图7是根据本公开的一个实施例的用于交通信号控制的***的示意架构图。

具体实施方式

下面结合附图详细描述本公开，本公开的特点将在以下的具体描述中得到进一步的显现。

图1示出了根据本公开的一个实施例的基于深度Q网络的交通信号控制模型100的示意架构图。如图1所示，环境模拟路网中的交通场景并且提供针对所有车辆、道路和N个交叉路口的初始状态

在此，仅关注设有交通信号灯的交叉路口，并且这些交叉路口被视为智能体(agent)。转向图2，图2示出了根据本公开的一个实施例的四支路(双向六车道)交叉路口结构及其交通信号状态200的示意图。在图2中，用1-24数字标记该交叉路口处不同转向的道路信息，同时将大于一个车道的道路简化成一个车道，其中用1-12数字标记的车道为驶入车道，用13-24数字标记的车道为驶出车道。另外，该交叉路口处的交通信号灯被简化为8种状态：即，西北向及东南向通行(1)、南北向通行(2)、东北向和西南向通行(3)、东西向通行(4)、南向及东南向通行(5)、西向及西南向通行(6)、北向及西北向通行(7)以及东向及东北向通行(8)。当然，交叉路口还可包括三支路交叉路口的结构。

回到图1，在图1的网络架构中可见，在观察第t个状态s^t之后，所有智能体(即，路网中的所有交叉路口)根据特定的动作选择策略πs^t,a^t)来执行动作

并且得到奖励

其中动作被定义为针对每个路口要在下一时间戳处选择的交通信号状态。随后，环境将其状态转变为

由此，整个过程可由四元组

来表征，其中N为智能体的数目，即，路网中设有交通信号的交叉路口的数目，S_i为智能体i的状态，A_i为可用于智能体i的动作，γ为衰减系数。图1中所示的深度Q网络的目标在于学习到能够最大化以下最优问题的联合策略π：

因此，需要考虑两个重要因素，针对每个智能体的状态以及所得到的奖励。

在一些情形中，可以针对每个交叉路口(即，智能体)进行特征建模以得到环境的特征表示(即，深度Q网络(DQN)中的状态)。在一些方面，针对路网中的每个交叉路口，可以针对车辆信息、道路信息、路线预测信息等进行建模。车辆信息包括例如每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的车辆数量、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的车辆数量、每个驶入道路新增加的车辆数量以及每个道路的平均车速。在这一情形中，可以将道路按以自由车速到路口的时间来划分，以用于确定每个道路上接近该交叉路口的行驶时间处于不同时间区间的车辆数量。例如，可以统计每个驶入道路上接近路口的行驶时间分别为0～10秒、0～30秒、30秒以上的区间车辆数量以及每个驶出道路上接近路口行驶时间分别为0～10秒、0～30秒的区间车辆数量。道路信息包括例如每个道路的长度、限速和车道数目。如果道路较短，则发生拥堵的可能性更高，因此可以针对较短道路上的车辆设置较大权重。另外，可以通过根据每个车辆的历史路线来预测该车辆的整条行驶路线来确定路线预测信息以进一步优化建模、降低延迟。在建模时可以简化道路情况(例如，将同一转向的车道简化为一个道路)，因为在建模时主要针对车辆进行建模，对于道路类型没有特别大的依赖。另外，可以主要针对车辆的动态信息(例如，关于每个驶入道路和驶出道路上车流变化的动态信息)进行建模以使得模型的预测结果在真实场景下更加准确。在进一步情形中，路口特征还可包括相邻路口的信息，例如，相邻路口的交通信号状态。相邻路口可以是指二维平面空间中与当前路口连通的相邻路口，也可以指三维空间中与当前路口相邻的路口(如在存在立交桥的情况下)。通过将相邻路口的特征纳入考量，可以实现交通信号控制的协同性，从而能够更好地提升交通运作效果，缓解交通拥堵问题。另外，在一些情形中，奖励可被设计为每隔一时间区间(例如，5s)通过路口的车辆数量。

在此仅作为示例示出了基于DQN的交通信号控制模型。然而，本领域技术人员能够理解，用于控制交通信号状态的改变的交通信号控制模型还可以利用基于机器学习的其他算法来进行训练，包括但不限于强化学习网络、深度强化学习网络等。

图3示出了根据本公开的一个实施例的用于训练基于DQN网络的交通信号控制模型的方法300的示意图。

为了训练图1中的网络DNN以学习到最优的交通信号控制策略，需要缓存一批四元组(s,a,r,s’)到经验池中作为训练集，其中s’为s执行a后的下一个状态。由此，可以首先输入针对每个交叉路口的初始状态s⁰，随后从动作集(例如，8种交通信号状态)中选择针对每个交叉路口的动作(即，要在下一时间步选择的交通信号状态)，其中动作策略利用贪心算法求解，其中ε为“探索”的概率，取值范围[0,1]：

其中π表示存在1ε的概率选取当前网络所预测的最大Q值对应的动作(即在当前状态下选取最优动作)，存在ε的概率随机选择动作。随后在执行动作a之后得到奖励r(例如，在一时间区间内通过每个交叉路口的车辆数量)，更新下一时刻的状态s’，将所得到的四元组(s,a,r,s’)存储到经验池中，重复该步骤以将一批四元组存储到经验池中以供训练。

随后在训练过程中，从经验池中随机选取一定数量的四元组来训练网络，通过不断迭代寻优来更新网络参数θ以使得所预测的交通信号状态使奖励最大化，从而得到经训练的交通信号控制模型。由于状态的转移是连续的，如果直接按顺序取一批四元组作为训练集，则容易过拟合，因为训练样本间并非是独立的，因此可以从记忆池中随机选取少量四元组来进行训练，以保证训练样本是独立同分布的，并且同时加快了训练速度。另外，为了防止过拟合并且提高网络的稳定性，设计与主网络结构相同的目标网络，其中每隔N个时间步将主网络的参数复制到目标网络。DQN损失函数如下式所示：

可以利用随机梯度下降法来对DQN权值进行优化以使得损失函数最小，逐渐逼近最优Q函数，从而得到最优交通信号控制策略。

另外，在训练模型时还可以使用开源交通***模拟环境(例如，cbengine)进行多进程模拟计算以得到全局的经训练的强化学习网络，从而减少了针对大规模城市路网(例如，具有超过1000个交叉路口)的计算拟合时间。

图4示出了根据本公开的一个实施例的用于交通信号控制的方法400的示例流程图。方法400开始于步骤401，针对大规模路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中该交通信息包括车辆信息、道路信息和当前交通信号状态。针对每个交叉路口，交通信息可包括关于每个驶入道路和驶出道路上车流变化的动态信息。车辆信息可包括例如每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量(例如，行驶时间分别为0～10秒、0～30秒、30秒以上的区间车辆数量)、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量(行驶时间分别为0～10秒、0～30秒的区间车辆数量)、每个驶入车道新增加的车辆数量、以及每个道路的平均车速。道路信息可包括例如该交叉路口处的每个道路的长度、限速和车道数，其中一个道路可包括多个相同转向的车道。当前交通信号状态(即，上一周期选择的交通信号状态)可例如包括使车流无冲突地行进通过交叉路口的8种状态，如图2所示。

在步骤402，将所获取的交通信息输入基于机器学***均车速、每个驶入道路新增加的车辆数量、上一周期时该交叉路口及相邻路口选择的交通信号状态，随后将所建立的特征作为状态输入DQN网络，以对交通信号状态的选择作为动作，在一时间区间(例如，5s)内通过每个交叉路口的车辆数量作为奖励，利用交通***模拟环境进行车流模拟训练，通过不断迭代寻优来更新网络参数以使得所预测的交通信号状态使奖励最大化，从而得到经训练的交通信号控制模型，具体训练过程如图3所示。在一些情形中，可以通过多进程模拟计算来训练交通信号控制模型，这使得大规模城市(例如，具有超过1000路口)的计算拟合时间低于24小时。

在步骤403，基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。例如，如果针对一交叉路口的所预测的交通信号状态为南北向通行，而该交叉路口上一周期所选的交通信号状态为东西向通行，则将该交叉路口处的交通信号状态从东西向通行切换到南北向通行以进行交通管理。

以下通过具体示例来进一步描述利用本申请中的交通信号控制方法来进行交通信号控制的场景。图5示出了根据本公开的一个实施例的利用经训练的交通信号控制模型来进行交通信号控制的场景500的示例。为了清楚起见，在场景500中仅作为示例呈现了交叉路口1及其相邻交叉路口2的交通状况，其中上一周期时交叉路口1和相邻交叉路口2选择的交通信号状态均为南北向通行(如图2中所示的交通信号状态2)，而当前时刻在交叉路口1和相邻交叉路口2处南北向车流较为稀疏，而东西向车流拥堵。首先可以建立交叉路口1的特征，其中包括统计每个驶入道路上接近交叉路口1的行驶时间分别为0～10秒、0～30秒、30秒以上的区间车辆数量并取对数；统计交叉路口1处的每个道路的长度、限速、车道数并进行归一化；统计每个驶出道路上接近交叉路口1的行驶时间分别为0～10秒、0～30秒的区间车辆数量并取对数；统计交叉路口1处的每个道路的平均车速；统计每个驶入道路新增加的车辆数量并取对数；统计上一周期时交叉路口1及相邻交叉路口2选择的交通信号状态。随后，可以将所建立的特征输入经训练的交通信号控制模型以得到预测的交通信号状态为东西向通行(如图2中所示的交通信号状态4)。随后，可以基于针对交叉路口1的所预测的交通信号状态来将交叉路口1处的交通信号状态从南北向通行切换到东西向通行以缓解南北向车流拥堵，提高道路资源的利用率。在上述实施例中仅示出了二维平面空间中与当前路口连通的相邻路口。然而，可以领会，还可以存在三维空间中与当前路口相邻的路口(如在存在立交桥的情况下)，在此不再进一步赘述。

图6示出了根据本公开的一个实施例的用于交通信号控制的***600的示意架构图。如图6中所示，***600可至少包括设置在路网中的每个道路上的信息采集模块601、信息处理模块602和信号控制模块603。

信息采集模块601可被配置成获取路网中的每个交叉路口及其相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态。该信息采集模块601可以是设置在路边的摄像头。进一步地，信息采集模块601可被配置成采集每个交叉路口处的动态交通信息，例如，每个驶入或驶出道路上接近该交叉路口的行驶时间处于不同时间区间的车辆数量、每个驶入道路新增加的车辆数量等。

信息处理模块602可以将所获取的交通信息输入经训练的交通信号控制模型以得到针对每个交叉路口的预测的交通信号状态，其中该交通信号控制模型是基于深度强化学习网络(例如，DQN)来训练得到的。在一些情形中，在训练时可以将所获取的交通信息作为状态，对交通信号状态的选择作为动作，在一时间区间内通过每个交叉路口的车辆数量作为奖励，使用开源交通***模拟环境进行多进程模拟训练，以得到一个全局的强化学习网络，在该模拟环境中，并非所有车辆均按规定路线行驶，他们会随机进行选择。

信号控制模块603可基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。在一些情形中，***600在真实环境中可以每隔5s进行交通信号状态的预测，并且根据模型预测的结果(例如，1～8交通信号状态)进行交通管理。

本领域技术人员能够理解，本公开的***及其各模块既可以以硬件形式实现，也可以以软件形式实现，并且各模块可以任意合适的方式合并或组合。

图7示出了根据本公开的一个实施例的用于交通信号控制的***700的示意架构图。如图7所示，***700可包括存储器701和至少一个处理器702。存储器701可存储经训练的交通信号控制模型。存储器701可包括RAM、ROM、或其组合。存储器701可存储计算机可执行指令，这些指令在由至少一个处理器702执行时使该至少一个处理器执行本文中所描述的各种功能，包括：针对路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中交通信息包括车辆信息、道路信息和当前交通信号状态；将所获取的交通信息输入经训练的交通信号控制模型以得到预测的交通信号状态，其中该交通信号控制模型是基于深度强化学习网络来训练得到的；以及基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。在一些情形中，存储器701可尤其包含BIOS，该BIOS可控制基本硬件或软件操作，诸如与***组件或设备的交互。处理器702可包括智能硬件设备(例如，通用处理器、DSP、CPU、微控制器、ASIC、FPGA、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件，或其任何组合)。

结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器，或者任何其他此类配置)。

本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现，则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如，由于软件的本质，本文描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置，包括被分布以使得功能的各部分在不同的物理位置处实现。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

Claims

1.一种用于交通信号控制的方法，所述方法包括：

针对路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中所述交通信息包括车辆信息、道路信息和当前交通信号状态；

将所获取的交通信息输入交通信号控制模型以得到预测的交通信号状态；以及

基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。

2.如权利要求1所述的方法，针对每个交叉路口，所述交通信息包括关于每个驶入道路和驶出道路上车流变化的动态信息。

3.如权利要求2所述的方法，针对每个交叉路口，所述车辆信息包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶入道路新增加的车辆数量、以及每个道路的平均车速，所述道路信息包括路网中每个道路的长度、限速和车道数。

4.如权利要求1所述的方法，所述交通信号控制模型是基于强化学习网络以在一时间区间内通过每个交叉路口的车辆数量作为奖励来训练得到的。

5.如权利要求4所述的方法，所述强化学习网络包括深度Q网络(DQN)。

6.如权利要求5所述的方法，所述交通信号控制模型是通过以下操作来训练得到的：

获取每个道路上的每个车辆在该道路上的位置信息；

建立每个交叉路口处的特征，其中所述特征包括该交叉路口及其相邻路口的交通信息，其中所述交通信息包括车辆信息、道路信息和当前交通信号状态；以及

将所建立的特征作为状态输入深度强化学习网络，以对交通信号状态的控制作为动作，在一时间区间内通过每个交叉路口的车辆数量作为奖励，利用交通***模拟环境进行车流模拟训练，通过不断迭代寻优来更新网络参数以使得所预测的交通信号状态使奖励最大化，从而得到经训练的交通信号控制模型。

7.如权利要求6所述的方法，针对每个交叉路口，所述特征包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的长度、限速、车道数、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的平均车速、每个驶入道路新增加的车辆数量、上一周期时该交叉路口及相邻路口选择的交通信号状态。

8.如权利要求1所述的方法，所述交通信号控制模型是通过多进程模拟计算来训练得到的。

9.一种用于交通信号控制的***，所述***包括：

信息采集模块，针对路网中的每个交叉路口，获取该交叉路口和相邻路口的交通信息，其中所述交通信息包括车辆信息、道路信息和当前交通信号状态；

信息处理模块，将所获取的交通信息输入交通信号控制模型以得到预测的交通信号状态；

信号控制模块，基于针对每个交叉路口的所预测的交通信号状态来控制交通信号状态的改变。

10.如权利要求9所述的***，针对每个交叉路口，所述交通信息包括关于每个驶入道路和驶出道路上车流变化的动态信息。

11.如权利要求10所述的***，针对每个交叉路口，所述车辆信息包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、每个驶入道路新增加的车辆数量、以及每个道路的平均车速，所述道路信息包括路网中每个道路的长度、限速和车道数。

12.如权利要求9所述的***，所述交通信号控制模型是基于强化学习网络以在一时间区间内通过每个交叉路口的车辆数量作为奖励来训练得到的。

13.如权利要求12所述的***，所述强化学习网络包括深度Q网络(DQN)。

14.如权利要求13所述的***，所述交通信号控制模型是通过以下操作来训练得到的：

获取每个道路上的每个车辆在该道路上的位置信息；

15.如权利要求14所述的***，针对每个交叉路口，所述特征包括每个驶入道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的长度、限速、车道数、每个驶出道路上接近该交叉路口的行驶时间处于不同时间区间的区间车辆数量、该交叉路口处的每个道路的平均车速、每个驶入道路新增加的车辆数量、上一周期时该交叉路口及相邻路口选择的交通信号状态。

16.如权利要求9所述的***，所述交通信号控制模型是通过多进程模拟计算来训练得到的。

17.一种存储有指令的计算机可读存储介质，当所述指令被执行时使得机器执行如权利要求1-8中任一项所述的方法。