CN113378306B

CN113378306B - 交通控制方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113378306B
Application number: CN202110927773.4A
Authority: CN
Inventors: 由长喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-03
Anticipated expiration: 2041-08-13
Also published as: CN113378306A

Abstract

本申请提供了一种交通控制方法、装置、电子设备及计算机可读存储介质；应用于交通领域；方法包括：根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；根据序列概率在多个交通相位序列中选择出符合当前的目标交通路口的目标交通相位序列；根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及目标交通相位序列中的候选交通相位分别对应的相位概率；根据相位概率选择出符合当前的目标交通路口的目标交通相位。通过本申请，能够提升交通控制的灵活性，有效降低交通路口的拥塞程度。

Description

交通控制方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及交通技术，尤其涉及一种交通控制方法、装置、电子设备及计算机可读存储介质。

背景技术

交通相位与交通路口相关联，是指交通路口（如十字路口或其他类型的路口）的多个信号灯的颜色有序排列的状态组合，在日常的城市交通过程中，交通相位的切换影响到车辆在对应的交通路口的通行效率。

在相关技术提供的方案中，通常是由相关人员提前设定好每个交通路口的交通相位切换规则，以使信号灯按照固化的交通相位切换规则来切换颜色，例如，对于某个信号灯来说，其规则是持续显示红灯60秒，然后持续显示绿灯20秒，再持续显示红灯60秒，如此循环往复。然而，由于城市交通的复杂度高，不同时段（如高峰期和非高峰期）的车辆行驶情况可能存在很大差异，因此，相关技术提供的方案的灵活性差，容易导致交通路口的拥塞程度高。

发明内容

本申请实施例提供一种交通控制方法、装置、电子设备及计算机可读存储介质，能够提升交通控制的灵活性，有效降低交通路口的拥塞程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种交通控制方法，包括：

根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，所述交通相位序列包括具有顺序的多个交通相位；

将序列概率最大的交通相位序列作为目标交通相位序列；

根据所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到所述目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，所述候选交通相位表示所述目标交通相位序列中位于所述当前的交通相位之后的交通相位；

将相位概率最大的交通相位作为目标交通相位，并在所述目标交通路口应用所述目标交通相位。

本申请实施例提供一种交通控制装置，包括：

序列选择模块，用于根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，所述交通相位序列包括具有顺序的多个交通相位；

所述序列选择模块，还用于将序列概率最大的交通相位序列作为目标交通相位序列；

相位选择模块，用于根据所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到所述目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，所述候选交通相位表示所述目标交通相位序列中位于所述当前的交通相位之后的交通相位；

所述相位选择模块，还用于将相位概率最大的交通相位作为目标交通相位，并在所述目标交通路口应用所述目标交通相位。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的交通控制方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的交通控制方法。

本申请实施例具有以下有益效果：

根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率，并根据序列概率进行针对多个交通相位序列的宏观选择，能够选择出最符合目标交通路口当前情况的目标交通相位序列；根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到当前的交通相位以及候选交通相位分别对应的相位概率，并根据相位概率判断是继续保持当前的交通相位还是应用候选交通相位，从而能够保证最终应用的目标交通相位最符合目标交通路口当前情况。如此，能够根据目标交通路口的当前情况进行适应性调整，提升交通控制的灵活性，同时也可以有效降低交通路口的拥塞程度，提升车辆在交通路口的行驶效率。

附图说明

图1是本申请实施例提供的交通控制***的架构示意图；

图2是本申请实施例提供的终端设备的架构示意图；

图3A是本申请实施例提供的交通控制方法的流程示意图；

图3B是本申请实施例提供的强化学习的流程示意图；

图3C是本申请实施例提供的强化学习的流程示意图；

图3D是本申请实施例提供的强化学习的流程示意图；

图3E是本申请实施例提供的交通控制方法的流程示意图；

图4是本申请实施例提供的目标交通路口以及驶入车道的示意图；

图5是本申请实施例提供的强化学习的原理示意图；

图6是本申请实施例提供的网络架构的示意图；

图7是本申请实施例提供的交通相位的示意图；

图8是本申请实施例提供的交通相位序列的示意图；

图9是本申请实施例提供的相邻交通路口的示意图；

图10是本申请实施例提供的顶层控制器的网络架构的示意图；

图11是本申请实施例提供的底层控制器的网络架构的示意图；

图12是本申请实施例提供的通过强化学习原理进行模型训练的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中，所涉及的术语“多个”是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）交通相位：交通路口的多个信号灯（如所有信号灯）的颜色有序排列的状态组合，交通路口与交通相位是一一对应的关系。本申请实施例对交通路口的类型不做限定，例如可以是十字路口、丁字路口等。值得说明的是，在交通路口应用交通相位是指将交通路口的多个信号灯调整为与该交通相位一致。

2）交通相位序列：指将多个交通相位按照一定的顺序进行排列得到的序列。对于每个交通路口，可以预先设定对应的多个交通相位序列。

3）序列控制模型：基于人工智能（Artificial Intelligence，AI）原理构建的模型，用于进行序列预测处理。其中，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。类似地，相位控制模型也是基于AI原理构建的用于进行相位预测处理的模型。

对于一个交通路口来说，可以对应一个序列控制模型以及多个相位控制模型，其中，每个相位控制模型对应一个交通相位序列。

4）强化学习（Reinforcement Learning，RL）：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（Agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。在本申请实施例中，可以将交通路口作为智能体，以实现对该交通路口对应的模型的训练。

5）仿真（Simulation）：在本申请实施例中是指对若干个交通路口的车辆行驶情况进行仿真（模拟），在仿真过程中，可以支持对交通路口的交通相位进行调整，以便于实现强化学习。

6）损失值：用于表示模型的输出结果与期望结果之间的差异。模型的训练主要涉及前向传播（Forward Propagation）及反向传播（Back Propagation）两个过程，以包括输入层、隐藏层及输出层的神经网络模型为例，前向传播处理是指依次通过输入层、隐藏层及输出层进行处理，最终得到输出结果；反向传播处理是指根据计算出的损失值依次传播至输出层、隐藏层及输入层，从而对各个层中的权重参数进行更新。

本申请实施例提供一种交通控制方法、装置、电子设备及计算机可读存储介质，能够提升交通控制的灵活性，有效降低交通路口的拥塞程度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器。

参见图1，图1是本申请实施例提供的交通控制***100的一个架构示意图，终端设备400通过网络300连接服务器200，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的交通控制方法可以由终端设备实现。例如，对于路网（Road Network）中需要进行交通控制的目标交通路口，终端设备400根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，交通相位序列包括具有顺序的多个交通相位；将序列概率最大的交通相位序列作为目标交通相位序列；根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，候选交通相位表示目标交通相位序列中位于当前的交通相位之后的交通相位；将相位概率最大的交通相位作为目标交通相位，并在目标交通路口应用目标交通相位。其中，路网指的是在一定区域内由各种道路组成的相互联络、交织成网状分布的道路***。

值得说明的是，终端设备400可以通过序列控制模型来实现序列预测处理，通过相位控制模型来实现相位预测处理。在此之前，终端设备400可以基于强化学习的原理对序列控制模型和相位控制模型进行训练，并将训练后的序列控制模型和训练后的相位控制模型存储至本地，以便于调用。

值得说明的是，当终端设备400是目标交通路口的交通相位控制终端（如用于控制信号灯颜色的终端）时，终端设备400可以直接在目标交通路口应用目标交通相位，以使目标交通路口在下一时刻的交通相位与目标交通相位一致。当终端设备400不是目标交通路口的交通相位控制终端时，终端设备400可以将计算出的目标交通相位发送至目标交通路口的交通相位控制终端，以使该交通相位控制终端在目标交通路口应用接收到的目标交通相位。

在一些实施例中，以电子设备是服务器为例，本申请实施例提供的交通控制方法也可以由服务器实现。例如，服务器200根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行一系列处理，得到目标交通相位，并在目标交通路口应用目标交通相位，例如通知目标交通路口的交通相位控制终端在目标交通路口应用目标交通相位。

同理，服务器200可以基于强化学习的原理对序列控制模型和相位控制模型进行训练，并将训练后的序列控制模型和训练后的相位控制模型存储至本地（如服务器200的分布式文件***中），以便于后续调用训练后的序列控制模型实现序列预测处理，调用训练后的相位控制模型实现相位预测处理。

在一些实施例中，本申请实施例提供的交通控制方法也可以由终端设备及服务器协同实现。例如，终端设备400可以将获取到的目标交通路口当前的车道状态、交通相位以及交通相位序列发送至服务器200，以使服务器200计算目标交通相位。服务器200可以将计算出的目标交通相位发送至终端设备400，以使终端设备400在目标交通路口应用目标交通相位。

又例如，服务器200可以将训练后的序列控制模型和训练后的相位控制模型发送至终端设备400，以使终端设备400具有序列预测处理及相位预测处理的能力。

在一些实施例中，图1示出的交通控制***100可以作为智能交通***（Intelligent Traffic System，ITS）或者智能交通***的一部分。其中，智能交通***又称智能运输***（Intelligent Transportation System），是将先进的科学技术（如信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等）有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输***。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的交通控制方法，例如，计算机程序可以是操作***中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作***中安装才能运行的程序（如图1示出的客户端410），例如可以是用于对交通路口进行信号灯控制的应用程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是交通控制服务，供终端设备400进行调用。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，图2中示出的结构中的部分（例如用户接口、呈现模块和输入处理模块）可以缺省。参见图2，图2是本申请实施例提供的终端设备400的结构示意图，图2所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作***设备和显示内容和信息的用户接口）；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的交通控制装置455，其可以是程序和插件等形式的软件，包括以下软件模块：序列选择模块4551及相位选择模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的交通控制方法。

参见图3A，图3A是本申请实施例提供的交通控制方法的一个流程示意图，将结合图3A示出的步骤进行说明。

在步骤101中，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，交通相位序列包括具有顺序的多个交通相位。

这里，目标交通路口可以是任意区域（如某个县或某个市）中的任意一个交通路口。在对目标交通路口进行交通控制的过程中，首先获取目标交通路口当前的车道状态、交通相位以及交通相位序列，其中，车道状态即为目标交通路口对应的至少一个车道的车辆行驶状态。然后，根据获取到的目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率，该序列概率表示对应的交通相位序列与目标交通路口的当前情况的匹配程度。

值得说明的是，本申请实施例对车道状态及交通相位的获取方式不做限定，例如可以对目标交通路口进行拍摄得到图像，并对该图像进行分析处理得到车道状态及交通相位；或者，也可以从目标交通路口对应的物联网终端处获取车道状态及交通相位，物联网终端如车道状态的感应终端（例如设置在路面的感应终端，用于感知路面的车队长度、车速以及车辆等待时长等）、交通相位控制终端（如用于控制信号灯颜色的终端）等。此外，目标交通路口当前的交通相位序列即为上一次所确定的目标交通相位序列。

值得说明的是，本申请实施例对交通相位序列包括的交通相位的数量不做限定，对交通相位序列的生成方式也不做限定。例如，可以对目标交通路口所支持的多个交通相位进行穷举式的组合处理，得到多个交通相位序列；或者，也可以由相关人员根据目标交通路口的车辆行驶特点，手动设定多个交通相位序列。

在一些实施例中，步骤101之前，还包括：对目标交通路口的驶入车道当前的车队长度、车速以及车辆等待时长进行组合处理，得到目标交通路口当前的车道状态。

例如，目标交通路口当前的车道状态包括但不限于目标交通路口的驶入车道（部分驶入车道或所有驶入车道）当前的车队长度、车速以及车辆等待时长，其中，车队长度可以是正在等待（如在信号灯为红灯的情况下进行等待）的所有车辆的总长度，车速可以是实时车速或过去一段时间内的平均车速，车辆等待时长可以是首车等待时长，首车是指等待结束后能够第一时间驶入目标交通路口的车辆。为了便于理解，提供了如图4所示的目标交通路口的示意图，图4中以目标交通路口为十字路口的情况为例，示出了驶入车道1至4。

通过上述方式，能够基于车队长度、车速以及车辆等待时长全面地体现目标交通路口的当前情况，便于进行准确的序列预测处理及相位预测处理。

在步骤102中，将序列概率最大的交通相位序列作为目标交通相位序列。

在得到多个交通相位序列分别对应的序列概率后，将序列概率最大的交通相位序列作为目标交通相位序列，如此，基于序列概率实现对多个交通相位序列的宏观选择，保证选择出的目标交通相位序列最符合目标交通路口的当前情况。其中，目标交通相位序列可以与目标交通路口当前的交通相位序列相同或不同。

在步骤103中，根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，候选交通相位表示目标交通相位序列中位于当前的交通相位之后的交通相位。

这里，将目标交通相位序列中位于当前的交通相位之后的交通相位（例如位于当前的交通相位之后的下一个交通相位）作为候选交通相位，根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位对应的相位概率、以及候选交通相位对应的相位概率，该相位概率表示对应的交通相位与目标交通路口的当前情况的匹配程度。

在一些实施例中，可以通过这样的方式来实现上述的根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理：当序列预测周期到达时，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；可以通过这样的方式来实现上述的根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理：当相位预测周期到达时，根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理；其中，序列预测周期大于相位预测周期。

在本申请实施例中，交通控制可以周期性地进行。例如，当序列预测周期到达时，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；当相位预测周期到达时，根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理。相较于交通相位来说，交通相位序列更为宏观，交通相位序列能够有效应用的时长通常更长，因此，可以设定序列预测周期大于相位预测周期，例如，序列预测周期为900秒，相位预测周期为15秒。如此，可以在一个序列预测周期内应用同一个交通相位序列（即目标交通相位序列），可以在一个相位预测周期内应用同一个交通相位（即目标交通相位），能够在保证交通控制效果的基础上，减少计算资源的消耗，即减少序列预测处理的执行次数。

在一些实施例中，可以通过这样的方式来实现上述的根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理：通过序列控制模型对目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；可以通过这样的方式来实现上述的根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理：通过目标交通相位序列对应的相位控制模型对目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理；其中，多个交通相位序列分别对应一个相位控制模型。

本申请实施例可以结合人工智能的原理实现，例如，目标交通路口对应一个序列控制模型以及多个相位控制模型，其中，多个相位控制模型分别对应不同的交通相位序列。在该情况下，可以通过序列控制模型对目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，并在确定出目标交通相位序列时，通过目标交通相位序列对应的相位控制模型对目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理。如此，能够提升序列预测处理及相位预测处理的准确性。在此之前，还可以对序列控制模型及多个相位控制模型进行训练，从而进一步提升处理精度。

在步骤104中，将相位概率最大的交通相位作为目标交通相位，并在目标交通路口应用目标交通相位。

这里，将相位概率最大的交通相位作为目标交通相位，并在目标交通路口应用目标交通相位，如此，在宏观选择出的目标交通相位序列的基础上实现交通相位的底层选择，能够提升交通控制的准确性。

值得说明的是，当目标交通相位为目标交通路口当前的交通相位时，在目标交通路口应用目标交通相位是指保持目标交通路口当前的交通相位不变；当目标交通相位为候选交通相位时，在目标交通路口应用目标交通相位是指将目标交通路口当前的交通相位切换为候选交通相位。

如图3A所示，本申请实施例通过确定目标交通相位序列以及目标交通相位，能够有效降低目标交通路口的拥塞程度，减少车辆的停车次数，提高车辆在目标交通路口的通过率和车速，实现良好的交通控制。

在一些实施例中，参见图3B，图3B是本申请实施例提供的强化学习的一个流程示意图，将结合图3B示出的各个步骤进行说明。

在步骤201中，对目标交通路口进行环境仿真处理，得到仿真车道状态、仿真交通相位以及仿真交通相位序列。

这里，可以基于强化学习的原理对序列控制模型及相位控制模型进行训练，从而提升后续处理的精度。

例如，可以对目标交通路口进行环境仿真处理，得到目标交通路口在仿真环境中的仿真车道状态、仿真交通相位以及仿真交通相位序列，其中，仿真交通相位是目标交通路口对应的多个交通相位中的一个，同理，仿真交通相位序列是目标交通路口对应的多个交通相位序列中的一个。

值得说明的是，环境仿真处理用于模拟真实环境中的目标交通路口，环境仿真处理可以通过开源的仿真工具来实现，如城市交通仿真（Simulation of Urban MObility，SUMO）工具。为了提升环境仿真处理的准确性，可以对包括目标交通路口在内的多个交通路口（如某个区域内的所有交通路口）共同进行环境仿真处理。

在步骤202中，通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的训练序列概率。

这里，通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率，为了便于区分，将这里得到的序列概率命名为训练序列概率。

在步骤203中，将训练序列概率最大的交通相位序列作为训练交通相位序列。

这里，挑选出最大的训练序列概率，并将最大的训练序列概率对应的交通相位序列作为训练交通相位序列。

在步骤204中，通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率；其中，训练候选交通相位表示训练交通相位序列中位于当前的仿真交通相位之后的交通相位。

这里，将训练交通相位序列中位于当前的仿真交通相位之后的交通相位（例如位于当前的仿真交通相位之后的下一个交通相位）作为训练候选交通相位，通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的相位概率，为了便于区分，将这里得到的相位概率命名为训练相位概率。

在步骤205中，将训练相位概率最大的交通相位作为训练目标交通相位，并在目标交通路口仿真应用训练目标交通相位。

这里，挑选出最大的训练相位概率，并将最大的训练相位概率对应的交通相位作为训练目标交通相位。然后，在目标交通路口的仿真环境中仿真应用训练目标交通相位，即模拟真实环境中在目标交通路口应用训练目标交通相位后的情况。

在步骤206中，确定在目标交通路口仿真应用训练目标交通相位后得到的新的仿真车道状态，并根据新的仿真车道状态确定控制奖励。

这里，确定在目标交通路口仿真应用训练目标交通相位后得到的新的仿真车道状态，该新的仿真车道状态可以是应用训练目标交通相位后的某一时刻的仿真车道状态，也可以是应用训练目标交通相位后的某一个时间段内的平均仿真车道状态。然后，根据新的仿真车道状态确定控制奖励，该控制奖励用于表示应用训练目标交通相位后对于交通控制的积极效果，控制奖励越大，则积极效果越强。

在一些实施例中，新的仿真车道状态包括第一状态数据以及第二状态数据；其中，目标交通路口的拥塞程度与第一状态数据负相关，且与第二状态数据正相关；可以通过这样的方式来实现上述的根据新的仿真车道状态确定控制奖励：对第一状态数据以及第二状态数据进行状态数据融合处理，得到控制奖励；其中，控制奖励与第一状态数据正相关，且与第二状态数据负相关。

这里，新的仿真车道状态可以包括第一状态数据以及第二状态数据，其中，目标交通路口的拥塞程度与第一状态数据负相关，且与第二状态数据正相关，例如，第一状态数据可以包括车速，第二状态数据可以包括车队长度以及车辆等待时长。在该情况下，可以对第一状态数据以及第二状态数据进行状态数据融合处理，得到控制奖励，其中，控制奖励与第一状态数据正相关，且与第二状态数据负相关，状态数据融合处理的方式包括但不限于加权求和。

当然，新的仿真车道状态也可以仅包括第一状态数据，或者仅包括第二状态数据。例如，在新的仿真车道状态仅包括车速的情况下，可以直接将车速作为控制奖励，也可以对车速进行一些处理（如乘以一个为正数的权重参数）后得到控制奖励，该控制奖励与车速正相关，根据车速得到控制奖励的过程中所进行的处理可以视为状态数据融合处理。又例如，在新的仿真车道状态仅包括车队长度以及车辆等待时长的情况下，可以对车队长度以及车辆等待时长进行状态数据融合处理，得到控制奖励，该控制奖励与车队长度负相关，且与车辆等待时长负相关。通过上述方式，能够提升计算控制奖励的准确性，从而提升强化学习的准确性。

在步骤207中，根据控制奖励对序列控制模型、以及训练交通相位序列对应的相位控制模型进行强化学习。

这里，根据控制奖励对序列控制模型、以及训练交通相位序列对应的相位控制模型进行强化学习，即进行模型训练。本申请实施例对强化学习的算法不做限定，例如可以是优势动作评论（Advantage Actor Critic，A2C）算法、异步的优势动作评论（AsynchronousAdvantage Actor-Critic，A3C）算法或深度Q值网络（Deep Q-Network，DQN）算法等。

在一些实施例中，可以通过这样的方式来实现上述的通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理：当序列预测周期到达时，通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理；可以通过这样的方式来实现上述的通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理：当相位预测周期到达时，通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理；其中，序列预测周期大于相位预测周期。

同理，可以每隔一个序列预测周期进行一次序列预测处理，每隔一个相位预测周期进行一次相位预测处理，其中，序列预测周期大于相位预测周期。

值得说明的是，在该情况下，对于训练交通相位序列对应的相位控制模型来说，每隔一个相位预测周期，即可根据计算出的训练目标交通相位确定一个控制奖励，该控制奖励用于对训练交通相位序列对应的相位控制模型进行强化学习，即进行训练；对于序列控制模型来说，每隔一个序列预测周期，可以对该序列预测周期内的所有相位预测周期分别对应的控制奖励进行奖励融合处理，得到融合控制奖励，该融合控制奖励用于对序列控制模型进行强化学习，即进行训练。其中，奖励融合处理的方式包括但不限于求和处理、加权求和等。

如图3B所示，本申请实施例可以借助环境仿真处理的方式，对目标交通路口对应的序列控制模型以及多个相位控制模型进行有效训练，从而提升后续进行交通控制的效果。

在一些实施例中，参见图3C，图3C是本申请实施例提供的强化学习的一个流程示意图，基于图3B，在步骤202的同时，还可以在步骤301中，通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到序列价值。

在本申请实施例中，可以通过A2C的方式进行强化学习，A2C涉及actor分支及critic分支，对于序列控制模型来说，多个交通相位序列分别对应的训练序列概率即为序列控制模型的actor分支的输出。

当通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理的同时，还可以通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到价值（Value），为了便于区分，将这里的价值命名为序列价值。这里的序列价值即为序列控制模型的critic分支的输出。

其中，序列预测处理以及序列价值预测处理可以共享序列控制模型中的至少部分网络层。

在一些实施例中，序列控制模型包括全连接网络以及记忆传递网络，全连接网络包括与目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接子网络；可以通过这样的方式来实现上述的通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的训练序列概率：通过目标交通路口当前的仿真车道状态对应的全连接子网络，对目标交通路口当前的仿真车道状态进行全连接处理，得到目标交通路口当前的仿真车道状态对应的全连接结果；通过目标交通路口当前的仿真交通相位序列对应的全连接子网络，对目标交通路口当前的仿真交通相位序列进行全连接处理，得到目标交通路口当前的仿真交通相位序列对应的全连接结果；通过记忆传递网络对目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接结果进行记忆传递处理，得到记忆传递结果；对记忆传递结果进行概率归一化处理，得到多个交通相位序列分别对应的训练序列概率。

这里，提供了序列控制模型的网络架构的一种示例，即序列控制模型包括全连接（Fully Connected，FC）网络以及记忆传递网络，其中，全连接网络包括与目标交通路口当前的仿真车道状态对应的全连接子网络（全连接子网络可以是全连接层）、以及与目标交通路口当前的仿真交通相位序列对应的全连接子网络，在当前的仿真车道状态包括多种状态数据（如车队长度、车速以及车辆等待时长等）的情况下，还可以进一步细分为多种状态数据分别对应的全连接子网络；记忆传递网络支持在内部的不同网络层之间的记忆传递，例如记忆传递网络可以是长短期记忆（Long Short-Term Memory，LSTM）网络，但并不限于此。

如此，可以通过序列控制模型中与当前的仿真车道状态对应的全连接子网络对当前的仿真车道状态进行全连接处理，得到当前的仿真车道状态对应的全连接结果；通过序列控制模型中与当前的仿真交通相位序列对应的全连接子网络对当前的仿真交通相位序列进行全连接处理，得到当前的仿真交通相位序列对应的全连接结果。然后，通过序列控制模型中的记忆传递网络对当前的仿真车道状态对应的全连接结果、以及当前的仿真交通相位序列对应的全连接结果进行记忆传递处理，得到记忆传递结果。最后，对记忆传递结果进行概率归一化处理，以将记忆传递结果映射为多个交通相位序列分别对应的训练序列概率，其中，概率归一化处理可以通过Softmax函数实现，但并不限于此，概率归一化处理的过程可以视为是序列控制模型的actor分支。通过上述的网络架构，能够提升序列预测处理的准确性。

在一些实施例中，可以通过这样的方式来实现上述的通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到序列价值：对记忆传递结果进行线性回归处理，得到序列价值。

这里，可以对序列控制模型中的记忆传递网络输出的记忆传递结果进行线性回归处理，得到序列价值。这里，线性回归处理的过程可以视为是序列控制模型的critic分支。

在图3C中，图3B示出的步骤204的同时，还可以在步骤302中，通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位价值预测处理，得到相位价值。

同理，相位控制模型可以包括actor分支及critic分支。例如，对于训练交通相位序列对应的相位控制模型来说，目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率即为actor分支的输出。

当通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理的同时，还可以通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位价值预测处理，得到相位价值，该相位价值即为训练交通相位序列对应的相位控制模型中的critic分支的输出。

其中，序列价值、相位价值以及控制奖励共同用于对序列控制模型以及训练交通相位序列对应的相位控制模型进行强化学习。

在一些实施例中，训练交通相位序列对应的相位控制模型包括全连接网络以及记忆传递网络，全连接网络包括与目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列分别对应的全连接子网络；可以通过这样的方式来实现上述的通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率：通过目标交通路口当前的仿真车道状态对应的全连接子网络，对目标交通路口当前的仿真车道状态进行全连接处理，得到目标交通路口当前的仿真车道状态对应的全连接结果；通过目标交通路口当前的仿真交通相位对应的全连接子网络，对目标交通路口当前的仿真交通相位进行全连接处理，得到目标交通路口当前的仿真交通相位对应的全连接结果；通过目标交通路口当前的仿真交通相位序列对应的全连接子网络，对目标交通路口当前的仿真交通相位序列进行全连接处理，得到目标交通路口当前的仿真交通相位序列对应的全连接结果；通过记忆传递网络对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列分别对应的全连接结果进行记忆传递处理，得到记忆传递结果；对记忆传递结果进行概率归一化处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率。

与序列控制模型类似地，可以通过训练交通相位序列对应的相位控制模型中与当前的仿真车道状态对应的全连接子网络，对目标交通路口当前的仿真车道状态进行全连接处理，得到目标交通路口当前的仿真车道状态对应的全连接结果；通过训练交通相位序列对应的相位控制模型中与当前的仿真交通相位对应的全连接子网络，对目标交通路口当前的仿真交通相位进行全连接处理，得到目标交通路口当前的仿真交通相位对应的全连接结果；通过训练交通相位序列对应的相位控制模型中与当前的仿真交通相位序列对应的全连接子网络，对目标交通路口当前的仿真交通相位序列进行全连接处理，得到目标交通路口当前的仿真交通相位序列对应的全连接结果。然后，通过训练交通相位序列对应的相位控制模型中的记忆传递网络，对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列分别对应的全连接结果进行记忆传递处理，得到记忆传递结果。最后，对记忆传递结果进行概率归一化处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率。这里的概率归一化处理同样可以通过Softmax函数实现，但并不限于此，这里的概率归一化处理的过程可以视为是训练交通相位序列对应的相位控制模型中的actor分支。

在一些实施例中，可以通过这样的方式来实现上述的通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位价值预测处理，得到相位价值：对记忆传递结果进行线性回归处理，得到相位价值。

这里，可以对训练交通相位序列对应的相位控制模型中的记忆传递网络输出的记忆传递结果进行线性回归处理，得到相位价值。这里，线性回归处理的过程可以视为是训练交通相位序列对应的相位控制模型的critic分支。

在图3C中，图3B示出的步骤207可以通过步骤303至步骤306实现，将结合各个步骤进行说明。

在步骤303中，根据控制奖励以及相位价值确定第一相位损失值，并根据控制奖励、相位价值、以及训练目标交通相位对应的训练相位概率确定第二相位损失值。

这里，在A2C算法中包括第一损失函数以及第二损失函数，第一损失函数涉及的参数包括控制奖励以及critic分支的输出，第二损失函数涉及的参数包括控制奖励、critic分支的输出以及actor分支的输出。

因此，对于训练交通相位序列对应的相位控制模型来说，将控制奖励以及相位价值代入上述的第一损失函数，得到第一相位损失值；将控制奖励、相位价值、以及训练目标交通相位对应的训练相位概率代入上述的第二损失函数，得到第二相位损失值。

在步骤304中，根据第一相位损失值以及第二相位损失值，训练训练交通相位序列对应的相位控制模型。

这里，根据第一相位损失值以及第二相位损失值，对训练交通相位序列对应的相位控制模型进行训练，即实现对训练交通相位序列对应的相位控制模型的强化学习。其中，可以结合反向传播和梯度下降的方式实现模型训练。

在一些实施例中，可以通过这样的方式来实现上述的根据第一相位损失值以及第二相位损失值，训练训练交通相位序列对应的相位控制模型：执行以下任意一种处理：根据第一相位损失值以及第二相位损失值，依次训练训练交通相位序列对应的相位控制模型；其中，第一相位损失值的训练优先级大于第二相位损失值的训练优先级，或者第二相位损失值的训练优先级大于第一相位损失值的训练优先级；对第一相位损失值以及第二相位损失值进行损失值融合处理，并根据得到的融合损失值训练训练交通相位序列对应的相位控制模型。

这里，针对训练交通相位序列对应的相位控制模型提供了两种训练方式，将进行分别说明。

1）根据第一相位损失值以及第二相位损失值，依次对训练交通相位序列对应的相位控制模型进行训练。例如，在第一相位损失值的训练优先级大于第二相位损失值的训练优先级的情况下，先根据第一相位损失值对训练交通相位序列对应的相位控制模型进行训练，再根据第二相位损失值对训练交通相位序列对应的相位控制模型进行训练。在第二相位损失值的训练优先级大于第一相位损失值的训练优先级的情况下，先根据第二相位损失值对训练交通相位序列对应的相位控制模型进行训练，再根据第一相位损失值对训练交通相位序列对应的相位控制模型进行训练。

2）对第一相位损失值以及第二相位损失值进行损失值融合处理，并根据得到的融合损失值对训练交通相位序列对应的相位控制模型进行训练。其中，损失值融合处理的方式包括但不限于求和处理、加权求和、平均处理、加权平均等。

上述的两种训练方式可以任选其一使用，能够提升训练的灵活性，在步骤305中，根据控制奖励以及序列价值确定第一序列损失值，并根据控制奖励、序列价值、以及训练交通相位序列对应的训练序列概率确定第二序列损失值。

同理，对于序列控制模型来说，将控制奖励以及序列价值代入上述的第一损失函数，得到第一序列损失值；将控制奖励、序列价值、以及训练交通相位序列对应的训练序列概率代入上述的第二损失函数，得到第二序列损失值。

值得说明的是，对于应用到序列预测周期以及相位预测周期的情况，步骤305中的控制奖励可以替换为融合控制奖励。

在步骤306中，根据第一序列损失值以及第二序列损失值，训练序列控制模型。

这里，根据第一序列损失值以及第二序列损失值，对序列控制模型进行训练，即实现对序列控制模型的强化学习。

在一些实施例中，可以通过这样的方式来实现上述的根据第一序列损失值以及第二序列损失值，训练序列控制模型：执行以下任意一种处理：根据第一序列损失值以及第二序列损失值依次训练序列控制模型；其中，第一序列损失值的训练优先级大于第二序列损失值的训练优先级，或者第二序列损失值的训练优先级大于第一序列损失值的训练优先级；对第一序列损失值以及第二序列损失值进行损失值融合处理，并根据得到的融合损失值训练序列控制模型。

如图3C所示，本申请实施例结合A2C的方式来进行强化学习，能够进一步提升模型训练的效果。

在一些实施例中，参见图3D，图3D是本申请实施例提供的强化学习的一个流程示意图，图3B示出的步骤202可以更新为步骤401，在步骤401中，通过序列控制模型对组合交通路口中多个交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的训练序列概率；其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口。

在本申请实施例中，交通路口并不是独立存在的，而是与其他的交通路口存在一定的关系，例如，某个车辆从交通路口A驶出，并驶入交通路口B。因此，在强化学习的过程中，除了参考目标交通路口的情况之外，还可以参考目标交通路口的相邻交通路口的情况。

例如，可以通过序列控制模型对组合交通路口中多个交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的训练序列概率，其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口，即组合交通路口可以理解为是目标交通路口以及相邻交通路口的集合。

在一些实施例中，步骤401之前，还包括：针对目标交通路口执行以下任意一种处理：将与目标交通路口连通的交通路口作为相邻交通路口；其中，目标交通路口与连通的交通路口之间未间隔有其他的交通路口；将与目标交通路口之间的距离小于距离阈值的交通路口作为相邻交通路口；获取包括目标交通路口的多个车辆行驶记录，并将出现频率大于频率阈值的车辆行驶记录所包括的、且区别于目标交通路口的交通路口作为相邻交通路口。

本申请实施例提供了确定目标交通路口的相邻交通路口的三种方式，将进行分别说明。

1）将与目标交通路口连通的交通路口作为相邻交通路口，其中，目标交通路口与连通的交通路口之间未间隔有其他的交通路口。

2）将与目标交通路口之间的距离小于距离阈值的交通路口作为相邻交通路口，这里的距离可以是图距离（Graph Distance），当然也可以是其他类型的距离。

3）获取包括目标交通路口的多个车辆行驶记录，并将出现频率大于频率阈值的车辆行驶记录所包括的、且区别于目标交通路口的交通路口作为相邻交通路口。其中，车辆行驶记录包括车辆在行驶过程中所经过的交通路口。这里的车辆行驶记录可以是指真实环境中的车辆行驶记录，也可以是指仿真环境中的车辆行驶记录。

在图3D中，图3B示出的步骤204可以更新为步骤402，在步骤402中，通过训练交通相位序列对应的相位控制模型对组合交通路口中多个交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率。

同理，在相位预测处理的过程中，也可以参考组合交通路口中的多个交通路口。

在图3D中，图3B示出的步骤206可以通过步骤403至步骤405实现，将结合各个步骤进行说明。

在步骤403中，确定在目标交通路口仿真应用训练目标交通相位后得到的新的仿真车道状态。

在步骤404中，根据组合交通路口中的任意一个交通路口与目标交通路口之间的距离，确定任意一个交通路口对应的距离权重；其中，距离权重与距离之间负相关。

对于组合交通路口中的每个交通路口，可以根据交通路口与目标交通路口之间的距离，确定该交通路口对应的距离权重。其中，距离权重与距离之间负相关，即交通路口A与目标交通路口之间的距离越大，证明交通路口A的重要性越低，则交通路口A对应的距离权重越小。

在步骤405中，根据组合交通路口中的多个交通路口分别对应的距离权重，对新的仿真车道状态进行加权处理，得到控制奖励。

例如，根据组合交通路口中的多个交通路口分别对应的距离权重，对新的仿真车道状态进行加权求和，得到控制奖励。若组合交通路口中的各个交通路口对应的距离权重越大，则控制奖励越大。如此，能够综合考虑组合交通路口中的各个交通路口，提升计算出的控制奖励的全面性。

如图3D所示，本申请实施例通过综合参考组合交通路口中的各个交通路口，能够进一步提升强化学习的效果。

在一些实施例中，参见图3E，图3E是本申请实施例提供的交通控制方法的一个流程示意图，图3A示出的步骤101可以更新为步骤501，在步骤501中，根据组合交通路口中多个交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口。

这里，在对目标交通路口进行交通控制的过程中，除了参考目标交通路口的情况之外，还可以参考目标交通路口的相邻交通路口的情况。例如，可以根据组合交通路口中多个交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率，其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口。

值得说明的是，这里可以通过序列控制模型对组合交通路口中多个交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率。

在图3E中，图3A示出的步骤103可以更新为步骤502，在步骤502中，根据组合交通路口中多个交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率。

同理，相位预测处理的对象也可以变为组合交通路口中多个交通路口当前的车道状态、交通相位以及交通相位序列。

值得说明的是，这里可以通过目标交通相位序列对应的相位控制模型对组合交通路口中多个交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率。

在一些实施例中，步骤501之前，还包括：针对目标交通路口执行以下任意一种处理：将与目标交通路口连通的交通路口作为相邻交通路口；其中，目标交通路口与连通的交通路口之间未间隔有其他的交通路口；将与目标交通路口之间的距离小于距离阈值的交通路口作为相邻交通路口；获取包括目标交通路口的多个车辆行驶记录，并将出现频率大于频率阈值的车辆行驶记录所包括的、且区别于目标交通路口的交通路口作为相邻交通路口。

如图3E所示，本申请实施例通过综合参考组合交通路口中的各个交通路口，能够实现对组合交通路口的协同控制，进一步提升交通控制的效果。

下面，将说明本申请实施例在实际的应用场景中的示例性应用。本申请实施例采用分层强化学习的方式进行区域路网的信控协同优化，主要包括以下三个方面：1）对于每一个交通路口，设定多个底层控制器（对应上文的相位控制模型，这里命名为controller），每个底层控制器用来实现特定交通相位序列的信控方案，即每个底层控制器对应一个交通相位序列，如此，可以较大程度保证方案的多样性和全面性；2）对于每一个交通路口，设定一个顶层控制器（对应上文的序列控制模型，这里命名为meta-controller），用于周期性调度底层的controller，保证本交通路口controller调度的有序性；3）controller与meta-controller均与相邻交通路口的控制器共享部分信息，分别实现底层的相位协同作用和顶层的序列协同作用，从而进一步提升交通控制的效果。

本申请实施例可以应用于任意区域（如某个城市）内路网的信号灯协同控制场景，根据区域内实时的路况、车流密度、车队长度等信息在线调整区域内各个交通路口的交通相位及配时，发挥区域内多交通路口的协同作用，有效缓解路网的整体通行效率，大大降低车辆的拥塞程度。接下来将进行详细说明。

首先，介绍强化学习的相关原理。本申请实施例提供了如图5所示的强化学习的原理示意图，强化学习是指智能体（Agent）根据环境（Environment）的状态（State）采取行动，从而改变环境的状态，得到奖励（Reward），并根据奖励调整后续的行动的循环过程，强化学习的目标即为得到最大的奖励，在强化学习的过程中，可以综合考虑探索（Exploit）和利用（Explore）和两个方面。

在本申请实施例中，可以将路网内的每一个交通路口视为一个Agent，将交通路口的当前情况视为Environment，将交通路口的路口状态视为State。对于每一个Agent，本申请实施例设定两层的控制器，即meta-controller及controller。meta-controller作为顶层控制器，每

秒做一次宏观决策，输出一个macro-action（如一个controller的序号，对应上文的目标交通相位序列），以激活该macro-action对应的controller，其中，

对应上文的序列预测周期。controller作为多个底层控制器之一，当被顶层输出的macro-action 选中后，每

秒做一次决策，制定本交通路口在下一个

内应用的目标交通相位，其中，

对应上文的相位预测周期。在本申请实施例中，

，例如

可以是

的整数倍，如

=15秒，

=60

=900秒。

针对每一个Action，本申请实施例分别针对meta-controller和底层的controller进行网络（指人工神经网络）架构的设定，作为示例，提供了如图6所示的网络架构的示意图。meta-controller和controller均可以采用A2C算法进行模型训练，但训练算法并不限于此。接下来将对meta-controller和controller进行分别说明。

1）底层控制器controller。这里，主要涉及到controller对应的状态、动作集（action set）、reward的相关定义，其中，动作集即为可执行的动作的集合。

对于交通路口如十字路口来说，可以包括如图7所示的8个交通相位，具体包含不同方向的直行、左转和全通相位，其中，全通相位是指单方向放行的交通相位，如图7示出的交通相位⑤、⑥、⑦及⑧。具体来说，图7示出的交通相位①表示东西直行，交通相位②表示东西左转，交通相位③表示南北直行，交通相位④表示南北左转，交通相位⑤由西向东全部放行，交通相位⑥表示由东向西全部放行，交通相位⑦表示由南向北全部放行，交通相位⑧表示由北向南全部放行。对于其他类型的交通路口（如丁字路口），其支持的交通相位可以是图7示出的8个交通相位所构成的集合的子集，此处不做详述。

图7示出的各个交通相位可以按一定的顺序排列组成交通相位序列，这里提供了图8示出的4种交通相位序列，在图8中，交通相位序列①为“交通相位①->交通相位③”，即左转让直行；交通相位序列②为“交通相位④->交通相位③->交通相位①”；交通相位序列③为“交通相位⑦->交通相位③->交通相位⑧->交通相位①”；交通相位序列④为“交通相位④->交通相位③->交通相位②->交通相位①”。当然，根据实际应用场景中的需求，可以定义更多的交通相位序列，并不限于图8示出的4种。底层控制器分别针对每一种交通相位序列进行设定实现，对于图8则需要设定4个底层控制器。

接下来，分别说明controller对应的状态、action set及reward的相关定义。

a）action set与底层控制器的输出。

底层控制器的输出为一个定义在action set上的概率分布，即policy。对于所有的底层控制器，本申请实施例均将action set定义为

, keep表示继续维持当前的交通相位，即是将当前的交通相位作为目标交通相位，next表示将交通相位序列中当前的交通相位之后的下一个交通相位（对应上文的候选交通相位）作为目标交通相位。

b）state/底层控制器的输入。

state是用于描述一个目标交通路口及其邻域当前状态的一系列特征，也直接充当底层控制器的部分模型输入。

对于目标交通路口k，可以对k的每个驶入车道的车队长度、车速（如平均车速）、车辆等待时长（如首车等待时长）进行组合处理，得到k的车道状态。这里，用

表示k的所有驶入车道的集合，则k的车道状态

,其中

、

及

分别表示车道

的车队长度、首车等待时长和平均车速。此外，本申请实施例还把交通路口当前的交通相位（交通相位的序号）和当前的交通相位序列（交通相位序列的序号）作为描述路口状态的必要特征，比如，

表示目标交通路口k当前的交通相位是图7示出的交通相位④，

表示目标交通路口k当前采用图8示出的交通相位序列②。则目标交通路口k完整的路口状态可以描述为

。

为了实现交通路口的协同控制作用，每一个交通路口在确定目标交通相位之前，除了需要观察本交通路口的路口状态，还需要观察相邻交通路口的路口状态。在本申请实施例中，目标交通路口的相邻交通路口可以是指目标交通路口直接连通的交通路口，即目标交通路口与相邻交通路口之间未间隔有其他的交通路口。为了便于理解，示出了如图9所示的示意图，对于交通路口A来说，其相邻交通路口包括交通路口B、C、D及E。

若以用

表示目标交通路口k及其相邻交通路口的集合（对应上文的组合交通路口），则组合交通路口的路口状态可表示为

，其中，

即为目标交通路口k对应的底层控制器的输入。

c）reward。

本申请实施例设定组合交通路口的reward函数来实现对组合交通路口的协同控制。对于目标交通路口k，reward可以考虑车队长度及首车等待时长，因此，目标交通路口k 的reward 可以为

，其中，

是首车等待时长的权重，例如

的取值范围可以是0~0.5，值得说明的是，本申请实施例涉及的取值范围以及具体取值均为示例，并不构成对本申请实施例的限定，即涉及的取值范围以及具体取值可以根据实际应用场景中的需求进行适应性调整。组合交通路口的reward可以表示为

，其中，

为距离权重，

的取值范围可以为0~1，例如可取0.5。

表示交通路口

到交通路口k的距离，可以是图距离（Graph Distance）。由于本申请实施例中组合交通路口仅由目标交通路口k及其相邻交通路口组成，因此

可以设定为：

2）顶层控制器meta-controller。同样地，涉及到meta-controller对应的状态、action set（命名为macro-action set）及reward的相关定义，将进行分别说明。

a）macro-action set与顶层控制器的输出。

meta-controller的输出为在macro-action set上的概率分布，可以称为macro-policy。macro-action set为目标交通路口所有的交通相位序列的集合，例如图8所示的4种交通相位序列可以添加至一个macro-action set中。

b）顶层控制器的输入。

meta-controller用于调度底层控制器，meta-controller在选择需要激活的底层控制器时，不需要考虑目标交通路口的交通相位，即meta-controller只进行针对交通相位序列的宏观选择，与目标交通路口当前的交通相位无关，该当前的交通相位放在底层控制器考虑。因此，对于meta-controller来说，定义目标交通路口k当前的路口状态为

，其中

、

及

分别表示车道

的车队长度、首车等待时长和平均车速，

表示目标交通路口k的所有驶入车道的集合。对于meta-controller来说，组合交通路口的路口状态可表示为

，其中，

是目标交通路口k对应的 meta-controller的输入。

c）reward。

由于meta-controller每

秒制定一次决策，底层的controller每

秒制定一次决策并计算一次该决策获得的奖励

，以

为

的M倍的情况为例，则meta-controller制定一次决策获得的奖励为未来

秒内底层的controller（未来

秒内只有一个controller被激活）获得的决策奖励的总和，定义如下：

其中，M可以是大于1的整数。

3）网络架构。

在本申请实施例中，meta-controller与底层的controller的网络架构可以设定为较为相似，差别在于，meta-controller的输入不包含组合交通路口当前的交通相位。作为示例，提供了如图10所示的meta-controller的网络架构的示意图，meta-controller的输入包括组合交通路口中各个交通路口按车辆行驶方向（指驶入交通路口的方向）提取的车队长度、首车等待时长和平均车速，还包括组合交通路口中各个交通路口当前的交通相位序列。与meta-controller的各种类型的输入（例如车队长度为一种类型，首车等待时长为另一种类型）相对应的是全连接层（对应上文的全连接子网络），之后是一个有状态的LSTM网络，该LSTM网络用于对各个全连接层输出的全连接结果进行记忆传递处理，得到记忆传递结果。其中，全连接层对应图10示出的FC，图10示出的FC（64）表示该FC层包括64个神经元，以此类推。

作为示例，还提供了如图11所示的controller的网络架构的示意图，controller的输入包括组合交通路口中各个交通路口按车辆行驶方向（指驶入交通路口的方向）提取的车队长度、首车等待时长和平均车速，还包括组合交通路口中各个交通路口当前的交通相位以及交通相位序列。与meta-controller类似地，在controller中，与controller的各种类型的输入相对应的是全连接层，之后是一个有状态的LSTM网络。

在本申请实施例中，可以使用A2C的方式对各个控制器进行训练，因此，设定每个控制器的输出包括两个分支，即actor分支和critic分支。对于actor分支，使用softmax激活函数对LSTM网络的输出结果（即记忆传递结果）进行概率归一化处理，得到policy，即action set（或macro-action set）中各个action的概率；对于critic分支，对LSTM网络的输出结果进行线性回归（Linear）处理，得到估计的价值（value）。

4）网络训练。

在本申请实施例中，可以通过开源的仿真工具来构建交通流仿真平台并模拟城市道路车辆行为。这里，以SUMO工具为例进行说明，可以通过SUMO工具提供的Traci API来控制仿真环境的信号灯状态并访问交通路口的仿真数据，其中，仿真数据包括仿真车道状态、仿真交通相位以及仿真交通相位序列。为了便于理解，设定每个底层的controller的相位预测周期

=15秒，在切换交通相位的过程中，对于信号灯如果涉及到绿灯向红灯转换，则保持黄灯的持续时间为5秒，即绿灯->黄灯（持续5秒）->红灯（该方式同样可以适用于真实环境的交通控制过程中）；meta-controller的序列预测周期

=60

=900秒；强化学习过程中的每个episode的持续时间为3600秒，其中，episode是重启仿真器的周期。

这里，提供了如图12所示的通过强化学习原理进行模型训练的示意图，将结合图12进行说明。

仍以目标交通路口k为例，训练底层的controller与训练meta-controller的方式类似。在本申请实施例中，模型训练的训练数据以批（batch）为单位，这里，表示包括

个周期的batch的经验数据（适用于meta-controller的顶层经验数据或适用于controller的底层经验数据）为：

其中，

表示第

个周期（相位预测周期或序列预测周期，例如，对于底层控制器来说，

=15s为一个周期；对于顶层控制器来说，

=60

为一个周期），

表示第

个周期开始时组合交通路口的路口状态，

表示第

个周期开始时所执行的action，

表示执行

所得到的reward（底层控制器的reward或顶层控制器的reward）。对于底层的controller，可以设定

=60；对于meta-controller，可以设定

=4。训练时的损失函数如下所示：

其中，

及

分别表示critic分支和actor分支的输出，

表示在

的情况下执行

的概率（对应上文的训练相位概率）；

表示网络的权重参数；

；

；

表示执行本次训练前尚未优化

的critic 分支输出。

对于底层的controller来说，得到的

和

分别对应上文的第一相位损失值及第二相位损失值；对于meta-controller来说，得到的

和

分别对应上文的第一序列损失值及第二序列损失值。

本申请实施例对模型训练的完成条件不做限定，例如可以是episode的完成次数达到次数阈值，如10⁵次。完成模型训练后，对于每个控制器来说，可以丢弃网络架构中仅用于训练的critic分支。如此，可以根据目标交通路口k对应的训练后的meta-controller以及多个训练后的controller，对真实环境中的目标交通路口k进行交通控制。

值得说明的是，上述示出的控制器的网络架构、路口状态以及reward等并不构成对本申请实施例的限定，根据实际应用场景中的需求，可以进行适应性调整，以提升在实际应用场景中的交通控制效果。此外，上述示例中采用A2C的方式进行模型训练，根据实际应用场景中的需求，也可以采用其他训练算法进行模型训练，如DQN算法、A3C算法等。

本申请实施例可以应用于区域或城市级路网的交通路口协同控制场景，可以非常有效地降低交通路口的拥塞程度，减少车辆的停车次数，提高车辆在交通路口的通过率和车速。

下面继续说明本申请实施例提供的交通控制装置455实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的交通控制装置455中的软件模块可以包括：序列选择模块4551，用于根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，交通相位序列包括具有顺序的多个交通相位；序列选择模块4551，还用于将序列概率最大的交通相位序列作为目标交通相位序列；相位选择模块4552，用于根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，候选交通相位表示目标交通相位序列中位于当前的交通相位之后的交通相位；相位选择模块4552，还用于将相位概率最大的交通相位作为目标交通相位，并在目标交通路口应用目标交通相位。

在一些实施例中，序列选择模块4551还用于：通过序列控制模型对目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；相位选择模块4552还用于：通过目标交通相位序列对应的相位控制模型对目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理；其中，多个交通相位序列分别对应一个相位控制模型。

在一些实施例中，交通控制装置455还包括强化学习模块，用于：对目标交通路口进行环境仿真处理，得到仿真车道状态、仿真交通相位以及仿真交通相位序列；通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的训练序列概率；将训练序列概率最大的交通相位序列作为训练交通相位序列；通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率；其中，训练候选交通相位表示训练交通相位序列中位于当前的仿真交通相位之后的交通相位；将训练相位概率最大的交通相位作为训练目标交通相位，并在目标交通路口仿真应用训练目标交通相位；确定在目标交通路口仿真应用训练目标交通相位后得到的新的仿真车道状态，并根据新的仿真车道状态确定控制奖励；根据控制奖励对序列控制模型、以及训练交通相位序列对应的相位控制模型进行强化学习。

在一些实施例中，强化学习模块还用于：通过序列控制模型对目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到序列价值；通过训练交通相位序列对应的相位控制模型对目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位价值预测处理，得到相位价值；其中，序列价值、相位价值以及控制奖励共同用于对序列控制模型、以及训练交通相位序列对应的相位控制模型进行强化学习。

在一些实施例中，强化学习模块还用于：根据控制奖励以及相位价值确定第一相位损失值，并根据控制奖励、相位价值、以及训练目标交通相位对应的训练相位概率确定第二相位损失值；根据第一相位损失值以及第二相位损失值，训练训练交通相位序列对应的相位控制模型；根据控制奖励以及序列价值确定第一序列损失值，并根据控制奖励、序列价值、以及训练交通相位序列对应的训练序列概率确定第二序列损失值；根据第一序列损失值以及第二序列损失值，训练序列控制模型。

在一些实施例中，强化学习模块还用于执行以下任意一种处理：根据第一相位损失值以及第二相位损失值，依次训练训练交通相位序列对应的相位控制模型；其中，第一相位损失值的训练优先级大于第二相位损失值的训练优先级，或者第二相位损失值的训练优先级大于第一相位损失值的训练优先级；对第一相位损失值以及第二相位损失值进行损失值融合处理，并根据得到的融合损失值训练训练交通相位序列对应的相位控制模型。

在一些实施例中，序列控制模型包括全连接网络以及记忆传递网络，全连接网络包括与目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接子网络；强化学习模块还用于：通过目标交通路口当前的仿真车道状态对应的全连接子网络，对目标交通路口当前的仿真车道状态进行全连接处理，得到目标交通路口当前的仿真车道状态对应的全连接结果；通过目标交通路口当前的仿真交通相位序列对应的全连接子网络，对目标交通路口当前的仿真交通相位序列进行全连接处理，得到目标交通路口当前的仿真交通相位序列对应的全连接结果；通过记忆传递网络对目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接结果进行记忆传递处理，得到记忆传递结果；对记忆传递结果进行概率归一化处理，得到多个交通相位序列分别对应的训练序列概率；对记忆传递结果进行线性回归处理，得到序列价值。

在一些实施例中，强化学习模块还用于：通过序列控制模型对组合交通路口中多个交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理；其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口；通过训练交通相位序列对应的相位控制模型对组合交通路口中多个交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理。

在一些实施例中，强化学习模块还用于：根据组合交通路口中的任意一个交通路口与目标交通路口之间的距离，确定任意一个交通路口对应的距离权重；其中，距离权重与距离之间负相关；根据组合交通路口中的多个交通路口分别对应的距离权重，对新的仿真车道状态进行加权处理，得到控制奖励。

在一些实施例中，强化学习模块还用于：针对目标交通路口执行以下任意一种处理：将与目标交通路口连通的交通路口作为相邻交通路口；其中，目标交通路口与连通的交通路口之间未间隔有其他的交通路口；将与目标交通路口之间的距离小于距离阈值的交通路口作为相邻交通路口；获取包括目标交通路口的多个车辆行驶记录，并将出现频率大于频率阈值的车辆行驶记录所包括的、且区别于目标交通路口的交通路口作为相邻交通路口。

在一些实施例中，新的仿真车道状态包括第一状态数据以及第二状态数据；其中，目标交通路口的拥塞程度与第一状态数据负相关，且与第二状态数据正相关；强化学习模块还用于：对第一状态数据以及第二状态数据进行状态数据融合处理，得到控制奖励；其中，控制奖励与第一状态数据正相关，且与第二状态数据负相关。

在一些实施例中，序列选择模块4551，还用于当序列预测周期到达时，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；相位选择模块4552，还用于当相位预测周期到达时，根据目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理；其中，序列预测周期大于相位预测周期。

在一些实施例中，交通控制装置455还包括车道状态确定模块，用于对目标交通路口的驶入车道当前的车队长度、车速以及车辆等待时长进行组合处理，得到目标交通路口当前的车道状态。

在一些实施例中，序列选择模块4551，还用于根据组合交通路口中多个交通路口当前的车道状态以及交通相位序列进行序列预测处理；其中，组合交通路口包括目标交通路口以及目标交通路口的相邻交通路口；相位选择模块4552，还用于根据组合交通路口中多个交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令（即可执行指令），该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的交通控制方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的交通控制方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种交通控制方法，其特征在于，所述方法包括：

当序列预测周期到达时，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，所述交通相位序列包括具有顺序的多个交通相位；所述序列概率表示对应的交通相位序列与所述目标交通路口的当前情况的匹配程度；

将序列概率最大的交通相位序列作为目标交通相位序列；

当相位预测周期到达时，根据所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到所述目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，所述候选交通相位表示所述目标交通相位序列中位于所述当前的交通相位之后的交通相位；所述相位概率表示对应的交通相位与所述目标交通路口的当前情况的匹配程度；所述序列预测周期大于所述相位预测周期；

2.根据权利要求1所述的方法，其特征在于，所述根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，包括：

通过序列控制模型对所述目标交通路口当前的车道状态以及交通相位序列进行序列预测处理；

所述根据所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，包括：

通过所述目标交通相位序列对应的相位控制模型对所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理；

其中，所述多个交通相位序列分别对应一个相位控制模型。

3.根据权利要求2所述的方法，其特征在于，所述通过序列控制模型对所述目标交通路口当前的车道状态以及交通相位序列进行序列预测处理之前，所述方法还包括：

对所述目标交通路口进行环境仿真处理，得到仿真车道状态、仿真交通相位以及仿真交通相位序列；

当所述序列预测周期到达时，通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到所述多个交通相位序列分别对应的训练序列概率；

将训练序列概率最大的交通相位序列作为训练交通相位序列；

当所述相位预测周期到达时，通过所述训练交通相位序列对应的相位控制模型对所述目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，得到所述目标交通路口当前的仿真交通相位以及训练候选交通相位分别对应的训练相位概率；

其中，所述训练候选交通相位表示所述训练交通相位序列中位于所述当前的仿真交通相位之后的交通相位；

将训练相位概率最大的交通相位作为训练目标交通相位，并在所述目标交通路口仿真应用所述训练目标交通相位；

确定在所述目标交通路口仿真应用所述训练目标交通相位后得到的新的仿真车道状态，并根据所述新的仿真车道状态确定控制奖励；

根据所述控制奖励对所述序列控制模型、以及所述训练交通相位序列对应的相位控制模型进行强化学习。

4.根据权利要求3所述的方法，其特征在于，当通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理时，所述方法还包括：

通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到序列价值；

当通过所述训练交通相位序列对应的相位控制模型对所述目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理时，所述方法还包括：

通过所述训练交通相位序列对应的相位控制模型对所述目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位价值预测处理，得到相位价值；

其中，所述序列价值、所述相位价值以及所述控制奖励共同用于对所述序列控制模型、以及所述训练交通相位序列对应的相位控制模型进行强化学习。

5.根据权利要求4所述的方法，其特征在于，所述根据所述控制奖励对所述序列控制模型、以及所述训练交通相位序列对应的相位控制模型进行强化学习，包括：

根据所述控制奖励以及所述相位价值确定第一相位损失值，并根据所述控制奖励、所述相位价值、以及所述训练目标交通相位对应的训练相位概率确定第二相位损失值；

根据所述第一相位损失值以及所述第二相位损失值，训练所述训练交通相位序列对应的相位控制模型；

根据所述控制奖励以及所述序列价值确定第一序列损失值，并根据所述控制奖励、所述序列价值、以及所述训练交通相位序列对应的训练序列概率确定第二序列损失值；

根据所述第一序列损失值以及所述第二序列损失值，训练所述序列控制模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一相位损失值以及所述第二相位损失值，训练所述训练交通相位序列对应的相位控制模型，包括：

执行以下任意一种处理：

根据所述第一相位损失值以及所述第二相位损失值，依次训练所述训练交通相位序列对应的相位控制模型；

其中，所述第一相位损失值的训练优先级大于所述第二相位损失值的训练优先级，或者所述第二相位损失值的训练优先级大于所述第一相位损失值的训练优先级；

对所述第一相位损失值以及所述第二相位损失值进行损失值融合处理，并根据得到的融合损失值训练所述训练交通相位序列对应的相位控制模型。

7.根据权利要求4所述的方法，其特征在于，所述序列控制模型包括全连接网络以及记忆传递网络，所述全连接网络包括与所述目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接子网络；

所述通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，得到所述多个交通相位序列分别对应的训练序列概率，包括：

通过所述目标交通路口当前的仿真车道状态对应的全连接子网络，对所述目标交通路口当前的仿真车道状态进行全连接处理，得到所述目标交通路口当前的仿真车道状态对应的全连接结果；

通过所述目标交通路口当前的仿真交通相位序列对应的全连接子网络，对所述目标交通路口当前的仿真交通相位序列进行全连接处理，得到所述目标交通路口当前的仿真交通相位序列对应的全连接结果；

通过所述记忆传递网络对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列分别对应的全连接结果进行记忆传递处理，得到记忆传递结果；

对所述记忆传递结果进行概率归一化处理，得到所述多个交通相位序列分别对应的训练序列概率；

所述通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列价值预测处理，得到序列价值，包括：

对所述记忆传递结果进行线性回归处理，得到序列价值。

8.根据权利要求3所述的方法，其特征在于，所述通过所述序列控制模型对所述目标交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理，包括：

通过所述序列控制模型对组合交通路口中多个交通路口当前的仿真车道状态以及仿真交通相位序列进行序列预测处理；

其中，所述组合交通路口包括所述目标交通路口以及所述目标交通路口的相邻交通路口；

所述通过所述训练交通相位序列对应的相位控制模型对所述目标交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理，包括：

通过所述训练交通相位序列对应的相位控制模型对所述组合交通路口中多个交通路口当前的仿真车道状态、仿真交通相位以及仿真交通相位序列进行相位预测处理。

9.根据权利要求8所述的方法，其特征在于，所述根据所述新的仿真车道状态确定控制奖励，包括：

根据所述组合交通路口中的任意一个交通路口与所述目标交通路口之间的距离，确定所述任意一个交通路口对应的距离权重；其中，所述距离权重与所述距离之间负相关；

根据所述组合交通路口中的多个交通路口分别对应的距离权重，对所述新的仿真车道状态进行加权处理，得到控制奖励。

10.根据权利要求3所述的方法，其特征在于，所述新的仿真车道状态包括第一状态数据以及第二状态数据；其中，所述目标交通路口的拥塞程度与所述第一状态数据负相关，且与所述第二状态数据正相关；

所述根据所述新的仿真车道状态确定控制奖励，包括：

对所述第一状态数据以及所述第二状态数据进行状态数据融合处理，得到控制奖励；

其中，所述控制奖励与所述第一状态数据正相关，且与所述第二状态数据负相关。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，包括：

根据组合交通路口中多个交通路口当前的车道状态以及交通相位序列进行序列预测处理；

根据所述组合交通路口中多个交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理。

12.一种交通控制装置，其特征在于，所述装置包括：

序列选择模块，用于当序列预测周期到达时，根据目标交通路口当前的车道状态以及交通相位序列进行序列预测处理，得到多个交通相位序列分别对应的序列概率；其中，所述交通相位序列包括具有顺序的多个交通相位；所述序列概率表示对应的交通相位序列与所述目标交通路口的当前情况的匹配程度；

相位选择模块，用于当相位预测周期到达时，根据所述目标交通路口当前的车道状态、交通相位以及交通相位序列进行相位预测处理，得到所述目标交通路口当前的交通相位以及候选交通相位分别对应的相位概率；其中，所述候选交通相位表示所述目标交通相位序列中位于所述当前的交通相位之后的交通相位；所述相位概率表示对应的交通相位与所述目标交通路口的当前情况的匹配程度；所述序列预测周期大于所述相位预测周期；

13.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的交通控制方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至11任一项所述的交通控制方法。