CN115512554B

CN115512554B - 参数模型训练及交通信号控制方法、装置、设备和介质

Info

Publication number: CN115512554B
Application number: CN202211071604.6A
Authority: CN
Inventors: 曾宏生; 周波; 王泽隆; 王凡; 陈永锋; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-07-28
Anticipated expiration: 2042-09-02
Also published as: CN115512554A

Abstract

本公开提供了一种参数模型训练及交通信号控制方法、装置、设备和介质，涉及深度学习和智能交通等领域。具体实现方案为：将车流运行信息输入信号灯控制策略的初始参数模型，以得到车流运行信息中至少两项运行信息的第一权重；基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数；响应于根据各信号灯的第一控制参数控制各信号灯，获取各道路上多个车辆的第一行驶数据；根据第一行驶数据确定目标指标值；根据目标指标值对初始参数模型进行训练。由此，基于训练后的初始参数模型预测信号灯的控制参数，可提升预测结果的可靠性，进而根据可靠的控制参数对各信号灯进行控制，可提升交通的通行效率。

Description

参数模型训练及交通信号控制方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及深度学习和智能交通等技术领域，尤其涉及参数模型训练及交通信号控制方法、装置、设备和介质。

背景技术

随着城市人口及车辆的持续增长，城市交通网络经常会出现拥堵问题，而交通拥堵会带来严重的污染和经济成本。对交通信号灯进行控制，比如控制交通信号灯的周期时长、不同信号相位的时间分配，可以提升交通的通行效率，缓解交通拥堵。

发明内容

本公开提供了一种参数模型训练及交通信号控制方法、装置、设备和介质。

根据本公开的一方面，提供了一种信号灯控制策略的参数模型训练方法，包括：

获取第一设定区域中各道路上的车流运行信息，并将所述车流运行信息输入信号灯控制策略的初始参数模型，以根据所述初始参数模型的输出确定所述车流运行信息中至少两项运行信息的第一权重；

基于所述至少两项运行信息的第一权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的第一控制参数；

响应于根据各所述信号灯的第一控制参数控制各所述信号灯，对各所述道路上的多个第一车辆进行行驶数据采集，以得到所述多个第一车辆的第一行驶数据；

根据所述多个第一车辆的第一行驶数据，确定目标指标值，其中，所述目标指标值用于指示所述多个第一车辆在各所述道路上的通行效率；

根据所述目标指标值，对所述初始参数模型进行训练，以得到目标参数模型。

根据本公开的另一方面，提供了一种交通信号控制方法，包括：

获取第二设定区域中各道路上的车流运行信息；

将所述车流运行信息输入信号灯控制策略的目标参数模型，以根据所述目标参数模型的输出确定所述车流运行信息中至少两项运行信息的权重；

基于所述至少两项运行信息的权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的控制参数；

根据各所述信号灯的控制参数，控制各所述信号灯。

根据本公开的又一方面，提供了一种信号灯控制策略的参数模型训练装置，包括：

获取模块，用于获取第一设定区域中各道路上的车流运行信息；

第一确定模块，用于将所述车流运行信息输入信号灯控制策略的初始参数模型，以根据所述初始参数模型的输出确定所述车流运行信息中至少两项运行信息的第一权重；

第二确定模块，用于基于所述至少两项运行信息的第一权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的第一控制参数；

采集模块，用于响应于根据各所述信号灯的第一控制参数控制各所述信号灯，对各所述道路上的多个第一车辆进行行驶数据采集，以得到所述多个第一车辆的第一行驶数据；

第三确定模块，用于根据所述多个第一车辆的第一行驶数据，确定目标指标值，其中，所述目标指标值用于指示所述多个第一车辆在各所述道路上的通行效率；

训练模块，用于根据所述目标指标值，对所述初始参数模型进行训练，以得到目标参数模型。

根据本公开的再一方面，提供了一种交通信号控制装置，包括：

获取模块，用于获取第二设定区域中各道路上的车流运行信息；

第一确定模块，用于将所述车流运行信息输入信号灯控制策略的目标参数模型，以根据所述目标参数模型的输出确定所述车流运行信息中至少两项运行信息的权重；

第二确定模块，用于基于所述至少两项运行信息的权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的控制参数；

控制模块，用于根据各所述信号灯的控制参数，控制各所述信号灯。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的信号灯控制策略的参数模型训练方法，或者，执行本公开上述另一方面提出的交通信号控制方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的信号灯控制策略的参数模型训练方法，或者，执行本公开上述另一方面提出的交通信号控制方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的信号灯控制策略的参数模型训练方法，或者，实现本公开上述另一方面提出的交通信号控制方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为智能交通信号灯控制***的结构示意图；

图2为应用单点自适应控制算法的智能交通信号灯控制***的结构

图3为本公开实施例一所提供的信号灯控制策略的参数模型训练方法的流程示意图；

图4为本公开实施例二所提供的信号灯控制策略的参数模型训练方法的流程示意图；

图5为本公开实施例三所提供的信号灯控制策略的参数模型训练方法的流程示意图；

图6为本公开实施例四所提供的信号灯控制策略的参数模型训练方法的流程示意图；

图7为本公开实施例五所提供的交通信号控制方法的流程示意图；

图8为本公开实施例所提供的信号灯控制***的架构示意图；

图9为本公开实施例所提供的进化策略算法的更新流程示意图；

图10为本公开实施例所提供的交通现场的部署流程示意图；

图11为本公开实施例六所提供的信号灯控制策略的参数模型训练装置的结构示意图；

图12为本公开实施例七所提供的交通信号控制装置的结构示意图；

图13示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，智能交通信号灯控制***的结构可以如图1所示，其中，可以获取交通场景中的车流/排队信息，并将车流/排队信息输入智能控制模型，以得到该智能控制模型输出的信号灯的控制参数(包括信号灯的周期时长、不同信号相位的时间分配)，从而可以根据信号灯的控制参数，对交通信号灯进行动态控制，以提升交通的通行效率。

相关技术中，动态信号灯控制算法主要是基于运筹学方法进行求解的优化方案，例如单点自适应控制算法，应用单点自适应控制算法的智能交通信号灯控制***的结构可以如图2所示。其中，单点自适应控制算法主要基于绿信比均衡优化模型(即图2中的预测模块)和最佳周期优化模型(即图2中的优化模块)，根据实时的车流信息和排队信息，求解最优信号灯的控制参数(包括周期时长和不同相位的分配时长)。

其中，绿信比是指交通信号灯一个周期内可用于车辆通行的比例时间，即一个信号相位的有效绿灯时长和周期总时长的比值。

此外，基于强化学习和神经网络的方法近期也开始被尝试应用于智能交通信号灯控制***中，一般是通过构建一个城市级交通的仿真环境(包括路网、信号灯、车流数据等建模)，然后基于神经网络构建一个策略模型来接收交通观测状态，以及输出信号灯控制的动作，并基于强化学习算法(例如DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)、SAC(Soft Actor-Critic，一种深度强化学习算法)等)在交通仿真器上不断迭代、更新策略网络，最后将交通仿真器训练的策略模型部署到真实交通场景中。

然而，单点自适应控制算法(运筹学方法)需要根据人工经验对一些超参数进行设定，例如综合流量数值中的通行流量与排队数值权重比等，并根据交通现场的控制效果对上述超参数进行调整。而基于人工设定超参数的方式主要存在以下两个问题：

第一，当需要设定超参数的路口数量较多时，人工设定超参数的方式需要投入大量的人力成本进行调解，且设定的超参数通常是效果较好的数值，并不是模型的最优解。

第二，当交通状态在短时间内变化幅度较大时，人工设定的超参数无法快速灵活地变化，导致模型求解得到的方案并不是最优方案。

而基于强化学习的方法存在以下缺点：

1、由于强化学习算法鲁棒性较差和泛化能力不足，仿真环境训练出来的模型不易直接迁移到真实交通场景中。

2、不能很好地和线上的一些其他策略和规则约束进行融合。

针对上述存在的至少一项问题，本公开提出一种参数模型训练及交通信号控制方法、装置、设备和介质。

下面参考附图描述本公开实施例的参数模型训练及交通信号控制方法、装置、设备和介质。

图3为本公开实施例一所提供的信号灯控制策略的参数模型训练方法的流程示意图。

本公开实施例以该信号灯控制策略的参数模型训练方法被配置于信号灯控制策略的参数模型训练装置中来举例说明，该信号灯控制策略的参数模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行信号灯控制策略的参数模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

如图3所示，该信号灯控制策略的参数模型训练方法可以包括以下步骤：

步骤301，获取第一设定区域中各道路上的车流运行信息，并将车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重。

在本公开实施例中，第一设定区域为预先设定的区域，比如，可以为某座城市、某个省等等。即本公开中，对第一设定区域的划分粒度不作限制，该第一设定区域的划分粒度可以为乡、镇、县、区、市、省、国等。

在本公开实施例中，可以对第一设定区域中各道路上的车辆进行信息采集，以得到车流运行信息，其中，车流运行信息可以包括车流信息、车辆的排队信息、车辆的通行流量信息、车辆的行驶轨迹等运行信息。

在本公开实施例中，信号灯控制策略可以包括但不限于动态信号灯控制算法(比如单点自适应控制算法)等控制策略。

在本公开实施例中，信号灯控制策略的初始参数模型，用于生成与信号灯控制策略相关的参数(或超参数)。

在本公开实施例中，可以将车流运行信息输入信号灯控制策略的初始参数模型，得到初始参数模型的输出，其中，初始参数模型的输出，用于指示车流运行信息中至少两项运行信息的第一权重，从而本公开中，可以根据初始参数模型的输出，确定车流运行信息中至少两项运行信息的第一权重，比如，通行流量信息的权重、排队信息的权重等。

步骤302，基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

其中，每个信号灯的第一控制参数包括但不限于该信号灯的周期时长、不同信号相位的时间分配等控制参数。

在本公开实施例中，可以基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

以信号灯控制策略为单点自适应控制算法进行示例，初始参数模型可以用于生成该单点自适应控制算法的超参数(比如通行流量信息的权重(即通行流量权重)、排队信息的权重(即排队数值权重)等)，从而可以基于单点自适应控制算法的超参数，采用单点自适应控制算法根据车流运行信息确定各道路上信号灯的第一控制参数。

步骤303，响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。

在本公开实施例中，可以根据各信号灯的第一控制参数，控制对应信号灯，并对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。其中，第一行驶数据可以包括第一车辆行驶的轨迹点，各轨迹点的位置信息，各轨迹点的行驶时间戳等。

步骤304，根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率。

在本公开实施例中，可以根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率。例如，多个第一车辆在各道路上的通行效率越高，目标指标值越大，反之，多个第一车辆在各道路上的通行效率越低，目标指标值越小。

步骤305，根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例中，可以根据目标指标值对初始参数模型进行训练，以得到目标参数模型。

作为一种应用场景，可以获取第一设定区域(比如待优化城市)中各道路的道路信息和各道路上的信号灯信息(后续记为路网拓扑)，以及获取设定时间段的车流运行数据(包含车辆行驶轨迹等)，根据路网拓扑，构建交通仿真器，并在交通仿真器上加载车流运行数据，从而还原现实的交通运转。

并且，可以将线上的信号灯控制策略(比如单点自适应控制算法)接入到交通仿真器中，从而根据信号灯控制策略输出的各信号灯的控制参数，控制交通仿真器的信号灯。对于原本由人工经验或专家领域知识设定的单点自适应控制算法的相关参数(例如车辆、排队特征的特征组合权重参数)，可以由初始参数模型进行预测，该初始参数模型的输入可以为实时的路况信息(例如车流运行数据中的车流和排队等信息)，其中，可以根据交通仿真器反馈的车辆平均延误等参数，确定目标指标值，根据目标指标值对初始参数模型进行训练，以使全天平均通行效率最高。

本公开实施例的信号灯控制策略的参数模型训练方法，通过将第一设定区域中各道路上的车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重；基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数；响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据；根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率；根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。由此，可以实现基于深度学习技术，对信号灯控制策略的初始参数模型进行训练，从而基于训练后的初始参数模型预测信号灯的控制参数，可以提升预测结果的准确性和可靠性，进而根据可靠的控制参数对各信号灯进行控制，可以提升交通的通行效率。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中是如何根据多个第一车辆的第一行驶数据，确定目标指标值的，本公开还提出一种信号灯控制策略的参数模型训练方法。

图4为本公开实施例二所提供的信号灯控制策略的参数模型训练方法的流程示意图。

如图4所示，该信号灯控制策略的参数模型训练方法可以包括以下步骤：

步骤401，获取第一设定区域中各道路上的车流运行信息，并将车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重。

步骤402，基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

步骤403，响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。

步骤401至403的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤404，针对多个第一车辆中的任一第一车辆，根据第一车辆的第一行驶数据，确定第一车辆的行驶起点和行驶终点，以及第一车辆从行驶起点行驶至行驶终点的实际行驶时长和实际行驶距离。

在本公开实施例中，针对多个第一车辆中的任意一个第一车辆，可以根据该第一车辆的第一行驶数据，确定该第一车辆的行驶起点和行驶终点，以及第一车辆从行驶起点行驶至行驶终点的实际行驶时长和实际行驶距离。

例如，第一行驶数据可以包括第一车辆行驶的各轨迹点的位置信息和各轨迹点的行驶时间戳，可以从各轨迹点中确定行驶起点和行驶终点，并根据行驶起点对应的第一行驶时间戳和行驶终点对应的第二行驶时间戳之间的差值，确定实际行驶时长，根据行驶起点至行驶终点之间的各轨迹点的位置信息，确定实际行驶距离。

步骤405，根据行驶起点和行驶终点之间的实际行驶距离，确定第一车辆的参考行驶时长。

在本公开实施例中，可以根据行驶起点和行驶终点之间的实际行驶距离，确定第一车辆的参考行驶时长。其中，参考行驶时长与实际行驶距离呈正相关关系，即实际行驶距离越长，参考行驶时长越大，反之，实际行驶距离越短，参考行驶时长越小。

作为一种示例，可以预先设定一个参考车速，根据实际行驶距离和参考车速之间的比值，确定参考行驶时长。

步骤406，根据实际行驶时长和参考行驶时长之间的第一差异，确定第一车辆的通行延误时长。

在本公开实施例中，可以根据实际行驶时长和参考行驶时长之间的差异(本公开中记为第一差异，比如差值、差值的绝对值、差值的平方等)，确定第一车辆的通行延误时长。其中，通行延误时长与第一差异呈正相关关系。

步骤407，根据多个第一车辆的通行延误时长，确定目标指标值。

在本公开实施例中，可以根据多个第一车辆的通行延误时长，确定目标指标值。

作为一种可能的实现方式，可以将多个第一车辆的通行延误时长进行累加，得到第一和值，根据该第一和值确定目标指标值，其中，目标指标值与第一和值呈负相关关系。

作为另一种可能的实现方式，可以将多个第一车辆的通行延误时长进行加权求和，得到第二和值，根据该第二和值确定目标指标值，其中，目标指标值与第二和值呈负相关关系。

作为又一种可能的实现方式，可以确定多个第一车辆的通行延误时长的均值，根据均值，确定目标指标值，其中，目标指标值与均值呈负相关关系。

应当理解的是，车辆的通行延误时长越长，车辆的通行效率越低，反之，车辆的通行延误时长越短，车辆的通行效率越高，根据各车辆的通行延误时长的均值，确定用于指示多个第一车辆在各道路上的通行效率的目标指标值，可以提升确定结果的准确性和可靠性。

当然，也可以基于其他算法，根据多个第一车辆的通行延误时长，确定目标指标值，本公开对此并不做限制。

由此，可以实现基于不同方式，确定目标指标值，可以提升该方法的灵活性和适用性。

步骤408，根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。

在本公开的任意一个实施例之中，可以根据目标指标值，对初始参数模型进行训练，以使目标指标值最大化。

需要说明的是，上述仅以模型训练的终止条件为目标指标值最大化进行示例，实际应用时，还可以设置其他终止条件，比如，训练次数达到设定次数，训练时长达到设定时长，目标指标值收敛等等，本公开对此并不做限制。

由此，模型训练的终止条件为目标指标值最大化，可以使得经过训练的模型学习到最优参数，从而根据最优参数，控制信号灯，可以提升交通的通行效率。

本公开实施例的信号灯控制策略的参数模型训练方法，通过针对多个第一车辆中的任一第一车辆，根据第一车辆的第一行驶数据，确定第一车辆的行驶起点和行驶终点，以及第一车辆从行驶起点行驶至行驶终点的实际行驶时长和实际行驶距离；根据行驶起点和行驶终点之间的实际行驶距离，确定第一车辆的参考行驶时长；根据实际行驶时长和参考行驶时长之间的第一差异，确定第一车辆的通行延误时长；根据多个第一车辆的通行延误时长，确定目标指标值。综上，目标指标值可以指示车辆的通行延误时长和通行效率，从而根据该目标指标值对初始参数模型进行训练，可以使得训练后的模型能够优化车辆的通行效率和通行延误时长，提升交通的通行效率。

为了清楚说明本公开任一实施例中是如何根据目标指标值，对初始参数模型进行训练的，本公开还提出一种信号灯控制策略的参数模型训练方法。

图5为本公开实施例三所提供的信号灯控制策略的参数模型训练方法的流程示意图。

如图5所示，该信号灯控制策略的参数模型训练方法可以包括以下步骤：

步骤501，获取第一设定区域中各道路上的车流运行信息，并将车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重。

步骤502，基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

步骤503，响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。

步骤504，根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率。

步骤501至504的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤505，获取信号灯控制策略的参考参数模型，其中，参考参数模型是对初始参数模型添加噪声得到的。

在本公开实施例中，可以对初始参数模型添加噪声，得到参考参数模型，其中，噪声为矢量，该噪声的维度与初始参数模型中的模型参数的维度匹配或相同。

其中，参考参数模型的个数可以为一个，或者，也可以为多个，本公开对此并不做限制，例如，当参考参数模型为多个时，可以通过对初始参数模型添加不同的噪声，得到多个参考参数模型，即每个参考参数模型所添加的噪声不同。

步骤506，将车流运行信息输入参考参数模型，以根据参考参数模型的输出确定车流运行信息中至少两项运行信息的第二权重。

在本公开实施例中，可以将车流运行信息输入参考参数模型，得到参考参数模型的输出，其中，参考参数模型的输出，用于指示车流运行信息中至少两项运行信息的第二权重，从而本公开中，可以根据参考参数模型的输出，确定的车流运行信息中至少两项运行信息的第二权重，比如，通行流量信息的权重、排队信息的权重等。

步骤507，基于至少两项运行信息的第二权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第二控制参数。

其中，每个信号灯的第二控制参数包括但不限于该信号灯的周期时长、不同信号相位的时间分配等控制参数。

在本公开实施例中，可以基于至少两项运行信息的第二权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第二控制参数。具体实现原理与步骤302类似，在此不做赘述。

步骤508，响应于根据各信号灯的第二控制参数控制各信号灯，对各道路上的多个第二车辆进行行驶数据采集，以得到多个第二车辆的第二行驶数据。

其中，第二车辆与第一车辆可以相同，或者，第二车辆与第一车辆可以不同，本公开对此并不做限制。

在本公开实施例中，可以根据各信号灯的第二控制参数，控制对应信号灯，并对各道路上的多个第二车辆进行行驶数据采集，以得到多个第二车辆的第二行驶数据。其中，第二行驶数据可以包括第二车辆行驶的轨迹点，各轨迹点的位置信息，各轨迹点的行驶时间戳等。

步骤509，根据多个第二车辆的第二行驶数据，确定参考指标值；其中，参考指标值用于指示多个第二车辆在各道路上的通行效率。

在本公开实施例中，可以根据多个第二车辆的第二行驶数据，确定参考指标值，其中，参考指标值用于指示多个第二车辆在各道路上的通行效率。例如，多个第二车辆在各道路上的通行效率越高，参考指标值越大，反之，多个第二车辆在各道路上的通行效率越低，参考指标值越小。具体实现方式同目标指标值的确定方式，在此不做赘述。

步骤510，根据目标指标值和参考指标值，对初始参数模型进行训练。

在本公开实施例中，可以根据目标指标值和参考指标值，对初始参数模型进行训练。

本公开实施例的信号灯控制策略的参数模型训练方法，可以实现基于添加噪声的参考参数模型与初始参数模型进行交互的方式，指导初始参数模型进行训练，可以提升初始参数模型的训练效果，从而提升模型的预测精度。

为了清楚说明上述实施例中是如何根据目标指标值和参考指标值，对初始参数模型进行训练的，本公开还出一种信号灯控制策略的参数模型训练方法。

图6为本公开实施例四所提供的信号灯控制策略的参数模型训练方法的流程示意图。

如图6所示，该信号灯控制策略的参数模型训练方法可以包括以下步骤：

步骤601，获取第一设定区域中各道路上的车流运行信息，并将车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重。

步骤602，基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

步骤603，响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。

步骤604，根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率。

步骤605，获取信号灯控制策略的参考参数模型，其中，参考参数模型是对初始参数模型添加噪声得到的。

步骤606，将车流运行信息输入参考参数模型，以根据参考参数模型的输出确定车流运行信息中至少两项运行信息的第二权重。

步骤607，基于至少两项运行信息的第二权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第二控制参数。

步骤608，响应于根据各信号灯的第二控制参数控制各信号灯，对各道路上的多个第二车辆进行行驶数据采集，以得到多个第二车辆的第二行驶数据。

步骤609，根据多个第二车辆的第二行驶数据，确定参考指标值；其中，参考指标值用于指示多个第二车辆在各道路上的通行效率。

步骤601至609的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤610，确定目标指标值和参考指标值之间的第二差异。

在本公开实施例中，可以确定目标指标值和参考指标值之间的第二差异(比如差值、差值的绝对值、差值的平方等)。

步骤611，将第二差异和噪声进行融合，以得到融合数据。

在本公开实施例中，可以将第二差异和噪声进行融合，以得到融合数据。

作为一种可能的实现方式，当参考参数模型的个数为一个时，由于噪声是矢量，第二差异为标量，可以将第二差异与噪声相乘，得到融合数据。

作为另一种可能的实现方式，当参考参数模型的个数为多个时，针对每个参考参数模型，可以将该参考参数模型对应的噪声与第二差异进行相乘，得到中间数据，从而可以将多个参考参数模型的中间数据进行相加，以得到融合数据。

由此，可以实现基于多个添加噪声的参考参数模型与初始参数模型进行交互的方式，指导初始参数模型进行训练，可以提升初始参数模型的训练效果，从而提升模型的预测精度。

步骤612，根据融合数据对至少两项运行信息的第一权重进行更新，以得到至少两项运行信息的第三权重。

在本公开实施例中，可以根据融合数据对至少两项运行信息的第一权重进行更新，以得到至少两项运行信息的第三权重。

例如，初始参数模型的输出(用于指示至少两项运行信息的第一权重)可以通过矢量或向量表示，可以将初始参数模型的输出与融合数据(矢量)进行相加，以得到目标数据，该目标数据用于指示至少两项运行信息的第三权重。

步骤613，基于至少两项运行信息的第三权重，对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例中，可以基于至少两项运行信息的第三权重，对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例一种可能的实现方式中，可以基于至少两项运行信息的第三权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第三控制参数，具体实现方式同步骤302，在此不做赘述。之后，可以根据各信号灯的第三控制参数控制各信号灯，并对各道路上的多个第三车辆进行行驶数据采集，以得到多个第三车辆的第三行驶数据，其中，第三车辆与第一车辆和第二车辆可以相同，或者也可以不同，本公开对此并不做限制。

之后，可以根据多个第三车辆的第三行驶数据，确定更新指标值，其中，更新指标值用于指示多个第三车辆在各道路上的通行效率，具体实现方式同目标指标值的确定方式，在此不做赘述。从而可以根据更新指标值对初始参数模型进行训练，以得到目标参数模型。由此，可以实现基于添加噪声的参考参数模型与初始参数模型进行交互的方式，来指导初始参数模型进行训练，可以提升初始参数模型的训练效果，提升模型的预测精度。

作为一种可能的实现方式，可以根据更新指标值，对初始参数模型进行训练，以使更新指标值最大化。

需要说明的是，上述仅以模型训练的终止条件为更新指标值最大化进行示例，实际应用时，还可以设置其他终止条件，比如，训练次数达到设定次数，训练时长达到设定时长，更新指标值收敛等等，本公开对此并不做限制。

由此，模型训练的终止条件为更新指标值最大化，可以使得经过训练的模型学习到最优参数，从而根据最优参数，控制信号灯，可以提升车辆的通行效率。

上述为信号灯控制策略的参数模型训练方法所对应的各实施例，本公开还提出一种交通信号控制模型的应用方法，即交通信号控制方法。

图7为本公开实施例五所提供的交通信号控制方法的流程示意图。

如图7所示，该交通信号控制方法可以包括以下步骤：

步骤701，获取第二设定区域中各道路上的车流运行信息。

在本公开实施例中，第二设定区域为预先设定的区域，比如，可以为某座城市、某个省等等。即本公开中，对第二设定区域的划分粒度不作限制，该第二设定区域的划分粒度可以为乡、镇、县、区、市、省、国等。

其中，第二设定区域与第一设定区域可以相同，或者也可以不同，本公开对此并不做限制。

在本公开实施例中，可以对第二设定区域中各道路上的车辆进行信息采集，以得到车流运行信息，其中，车流运行信息可以包括车流信息、车辆的排队信息、车辆的通行流量信息、车辆的行驶轨迹等运行信息。

步骤702，将车流运行信息输入信号灯控制策略的目标参数模型，以根据目标参数模型的输出确定车流运行信息中至少两项运行信息的权重。

其中，信号灯控制策略可以包括但不限于动态信号灯控制算法(比如单点自适应控制算法)等控制策略。

其中，信号灯控制策略的目标参数模型可以是采用上述任一方法实施例训练得到的。

在本公开实施例中，可以将车流运行信息输入信号灯控制策略的目标参数模型，得到目标参数模型的输出，其中，目标参数模型的输出，用于指示车流运行信息中至少两项运行信息的权重，从而本公开中，可以根据初始参数模型的输出，确定车流运行信息中至少两项运行信息的权重，比如，通行流量信息的权重、排队信息的权重等。

步骤703，基于至少两项运行信息的权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的控制参数。

其中，每个信号灯的控制参数包括但不限于该信号灯的周期时长、不同信号相位的时间分配等控制参数。

在本公开实施例中，可以基于至少两项运行信息的权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的控制参数。

以信号灯控制策略为单点自适应控制算法进行示例，目标参数模型可以用于生成该单点自适应控制算法的超参数(比如通行流量信息的权重(即通行流量权重)、排队信息的权重(即排队数值权重)等)，从而可以基于单点自适应控制算法的超参数，采用单点自适应控制算法根据车流运行信息确定各道路上信号灯的控制参数。

步骤704，根据各信号灯的控制参数，控制各信号灯。

在本公开实施例中，针对每个信号灯，可以根据该信号灯的控制参数，控制该信号灯。

本公开实施例的交通信号控制方法，通过将第二设定区域中各道路上的车流运行信息输入信号灯控制策略的目标参数模型，以根据目标参数模型的输出确定车流运行信息中至少两项运行信息的权重；基于至少两项运行信息的权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的控制参数；根据各信号灯的控制参数，控制各信号灯。由此，基于模型预测信号灯控制策略的相关参数，而无需由工经验或专家领域知识设定信号灯控制策略的相关参数(即权重)，不仅可以降低人力成本，还可以提升参数的预测精度，从而根据精度较高的参数，生成信号灯的控制参数，可以提升交通的通行效率。

在本公开的任意一个实施例之中，以信号灯控制策略为单点自适应控制算法进行示例，信号灯控制***的架构可以如图8所示，具体地，可以首先采集需要优化城市的路网拓扑(道路信息、信号灯信息等)以及设定时间段的车流运行数据(包含车辆行驶轨迹等)；之后，可以在现有的交通仿真器上加载路网拓扑和车流运行数据，从而还原现实的交通运转；另外，可以将线上的单点自适应控制算法接入到交通仿真器中，从而控制交通仿真器的信号灯；对于原本由人工经验或专家领域知识设定的单点自适应控制算法的相关参数(例如车辆、排队特征的特征组合权重参数)，替换成基于神经网络模型(本公开中记为初始参数模型)的预测，该神经网络模型的输入可以是实时的路况特征(车流和排队等信息)，然后基于进化策略算法对神经网络模型进行优化，优化目标是全天平均通行效率最高(例如可以通过车辆平均时延进行描述)；优化后的神经网络模型(本公开中记为目标参数模型)，可以部署到真实交通场景中进行验证。

其中，可以根据交通仿真器反馈的车辆平均延误等参数，确定目标指标值(或称为奖励)，结合进化策略算法根据目标指标值对初始参数模型中的模型参数进行更新，以使全天平均通行效率最高，即最大化奖励。

其中，进化策略算法的更新流程可以如图9所示，可以并行运行多个(即n+1个)交通仿真器，在每个交通仿真器中采样一个固定的交通运行时间段(例如以4小时为一个回合)的车流运行数据，然后分别基于当前迭代轮的模型、以及加入噪声后的模型进行仿真运行，根据分别得到的奖励，以奖励差值作为该次噪声采样的最终奖励，收集多个交通仿真器的噪声和对应奖励后，根据进化策略算法进行模型参数的更新，然后进入下一轮迭代，直到模型收敛。

具体地，针对每个交通仿真器，可以执行以下步骤：

将车流运行数据输入未添加噪声的神经网络模型，根据神经网络模型输出的参数，采用单点自适应控制算法根据车流运行信息确定各道路上信号灯的第一控制参数，响应于根据各信号灯的第一控制参数控制交通仿真器中各信号灯，对交通仿真器中各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据，根据多个第一车辆的第一行驶数据，确定目标指标值(即未添加噪声的奖励，例如图9中的EP_LEN_originPolicy)。

并且，将车流运行数据输入添加噪声的神经网络模型，根据神经网络模型输出的参数，采用单点自适应控制算法根据车流运行信息确定各道路上信号灯的第二控制参数，响应于根据各信号灯的第二控制参数控制交通仿真器中的各信号灯，对交通仿真器中各道路上的多个第二车辆进行行驶数据采集，以得到多个第二车辆的第二行驶数据，根据多个第二车辆的第二行驶数据，确定参考指标值(即添加噪声的奖励，例如图9中的EP_LEN_NosisyPolicy)。

将参考指标值和目标指标值之间的差值(即图9中的EP_LEN_NosisyPolicy-EP_LEN_originPolicy)作为该次噪声采样的最终奖励(即图8中的R₀、R₁、…、R_n)，将R₀与噪声Noise₀相乘+R₁与噪声Noise₁相乘+…+R_n与噪声Noise_n，得到融合数据，并将融合数据与未添加噪声的神经网络模型的输出相加，得到更新后的参数，并根据更新后的参数，采用单点自适应控制算法根据车流运行信息确定各道路上信号灯的第三控制参数，响应于根据各信号灯的第三控制参数控制交通仿真器中的各信号灯，对交通仿真器中各道路上的多个第三车辆进行行驶数据采集，以得到多个第三车辆的第三行驶数据，根据多个第三车辆的第三行驶数据，确定更新指标值，根据该更新指标值对未添加噪声的神经网络模型进行训练，直到模型收敛。

利用交通仿真器对神经网络模型进行训练之后，经过训练的神经网络模型可以部署到交通现场，交通现场的路况数据输入到神经网络模型后，输出单点自适应控制算法对应的超参数，从而调整单点自适应控制算法的控制效果。例如，交通现场的部署流程可以如图10所示。

综上，相比于基于运筹学的交通信号灯控制***，本公开中，无需依赖人工经验或专家知识，并且可以针对不同交通路况场景，实时调整单点自适应控制算法的超参数，从而进一步提高算法的控制效果。并且，相比于基于交通仿真器的纯强化学习的交通信号灯控制***，本公开中，通过和现有运筹学方法的结合，不完全依赖于神经网络进行控制，具有更好的泛化性。

与上述图3至图6实施例提供的信号灯控制策略的参数模型训练方法相对应，本公开还提供一种信号灯控制策略的参数模型训练装置，由于本公开实施例提供的信号灯控制策略的参数模型训练装置与上述图2至图7实施例提供的信号灯控制策略的参数模型训练方法相对应，因此在信号灯控制策略的参数模型训练方法的实施方式也适用于本公开实施例提供的信号灯控制策略的参数模型训练装置，在本公开实施例中不再详细描述。

图11为本公开实施例六所提供的信号灯控制策略的参数模型训练装置的结构示意图。

如图11所示，该信号灯控制策略的参数模型训练装置1100可以包括：获取模块1101、第一确定模块1102、第二确定模块1103、采集模块1104、第三确定模块1105以及训练模块1106。

其中，获取模块1101，用于获取第一设定区域中各道路上的车流运行信息。

第一确定模块1102，用于将车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重。

第二确定模块1103，用于基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数。

采集模块1104，用于响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据。

第三确定模块1105，用于根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率。

训练模块1106，用于根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例的一种可能的实现方式中，第三确定模块1105，用于：针对多个第一车辆中的任一第一车辆，根据第一车辆的第一行驶数据，确定第一车辆的行驶起点和行驶终点，以及第一车辆从行驶起点行驶至行驶终点的实际行驶时长和实际行驶距离；根据行驶起点和行驶终点之间的实际行驶距离，确定第一车辆的参考行驶时长；根据实际行驶时长和参考行驶时长之间的第一差异，确定第一车辆的通行延误时长；根据多个第一车辆的通行延误时长，确定目标指标值。

在本公开实施例的一种可能的实现方式中，第三确定模块1105，用于：确定多个第一车辆的通行延误时长的均值；根据均值，确定目标指标值，其中，目标指标值与均值呈负相关关系。

在本公开实施例的一种可能的实现方式中，训练模块1106，用于：获取信号灯控制策略的参考参数模型，其中，参考参数模型是对初始参数模型添加噪声得到的；将车流运行信息输入参考参数模型，以根据参考参数模型的输出确定车流运行信息中至少两项运行信息的第二权重；基于至少两项运行信息的第二权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第二控制参数；响应于根据各信号灯的第二控制参数控制各信号灯，对各道路上的多个第二车辆进行行驶数据采集，以得到多个第二车辆的第二行驶数据；根据多个第二车辆的第二行驶数据，确定参考指标值；其中，参考指标值用于指示多个第二车辆在各道路上的通行效率；根据目标指标值和参考指标值，对初始参数模型进行训练。

在本公开实施例的一种可能的实现方式中，训练模块1106，用于：确定目标指标值和参考指标值之间的第二差异；将第二差异和噪声进行融合，以得到融合数据；根据融合数据对至少两项运行信息的第一权重进行更新，以得到至少两项运行信息的第三权重；基于至少两项运行信息的第三权重，对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例的一种可能的实现方式中，训练模块1106，用于：基于至少两项运行信息的第三权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第三控制参数；响应于根据各信号灯的第三控制参数控制各信号灯，对各道路上的多个第三车辆进行行驶数据采集，以得到多个第三车辆的第三行驶数据；根据多个第三车辆的第三行驶数据，确定更新指标值；其中，更新指标值用于指示多个第三车辆在各道路上的通行效率；根据更新指标值对初始参数模型进行训练，以得到目标参数模型。

在本公开实施例的一种可能的实现方式中，参考参数模型为多个，多个参考参数模型是对初始参数模型添加不同噪声得到的；训练模块1106，用于：针对任一参考参数模型，将对应的第一差异和噪声进行相乘，以得到中间数据；将多个参考参数模型的中间数据进行相加，以得到融合数据。

在本公开实施例的一种可能的实现方式中，训练模块1106，用于：根据更新指标值，对初始参数模型进行训练，以使更新指标值最大化。

在本公开实施例的一种可能的实现方式中，训练模块1106，用于：根据目标指标值，对初始参数模型进行训练，以使目标指标值最大化。

本公开实施例的信号灯控制策略的参数模型训练装置，通过将第一设定区域中各道路上的车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重；基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数；响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据；根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率；根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。由此，可以实现基于深度学习技术，对信号灯控制策略的初始参数模型进行训练，从而基于训练后的初始参数模型预测信号灯的控制参数，可以提升预测结果的准确性和可靠性，进而根据可靠的控制参数对各信号灯进行控制，可以提升交通的通行效率。

与上述图7实施例提供的交通信号控制方法相对应，本公开还提供一种交通信号控制装置，由于本公开实施例提供的交通信号控制装置与上述图7实施例提供的交通信号控制方法相对应，因此在交通信号控制方法的实施方式也适用于本公开实施例提供的交通信号控制装置，在本公开实施例中不再详细描述。

图12为本公开实施例七所提供的交通信号控制装置的结构示意图。

如图12所示，该交通信号控制装置1200可以包括：获取模块1201、第一确定模块1202、第二确定模块1203以及控制模块1204。

其中，获取模块1201，用于获取第二设定区域中各道路上的车流运行信息。

第一确定模块1202，用于将车流运行信息输入信号灯控制策略的目标参数模型，以根据目标参数模型的输出确定车流运行信息中至少两项运行信息的权重。

第二确定模块1203，用于基于至少两项运行信息的权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的控制参数。

控制模块1204，用于根据各信号灯的控制参数，控制各信号灯。

本公开实施例的交通信号控制装置，通过将第二设定区域中各道路上的车流运行信息输入信号灯控制策略的目标参数模型，以根据目标参数模型的输出确定车流运行信息中至少两项运行信息的权重；基于至少两项运行信息的权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的控制参数；根据各信号灯的控制参数，控制各信号灯。由此，基于模型预测信号灯控制策略的相关参数，而无需由工经验或专家领域知识设定信号灯控制策略的相关参数(即权重)，不仅可以降低人力成本，还可以提升参数的预测精度，从而根据精度较高的参数，生成信号灯的控制参数，可以提升交通的通行效率。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的信号灯控制策略的参数模型训练方法或交通信号控制方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的信号灯控制策略的参数模型训练方法或交通信号控制方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的信号灯控制策略的参数模型训练方法或交通信号控制方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1302中的计算机程序或者从存储单元1308加载到RAM(Random AccessMemory，随机访问/存取存储器)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。I/O(Input/Output，输入/输出)接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如上述信号灯控制策略的参数模型训练方法或交通信号控制方法。例如，在一些实施例中，上述信号灯控制策略的参数模型训练方法或交通信号控制方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的信号灯控制策略的参数模型训练方法或交通信号控制方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述信号灯控制策略的参数模型训练方法或交通信号控制方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上***的***)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过将第一设定区域中各道路上的车流运行信息输入信号灯控制策略的初始参数模型，以根据初始参数模型的输出确定车流运行信息中至少两项运行信息的第一权重；基于至少两项运行信息的第一权重，采用信号灯控制策略根据车流运行信息确定各道路上信号灯的第一控制参数；响应于根据各信号灯的第一控制参数控制各信号灯，对各道路上的多个第一车辆进行行驶数据采集，以得到多个第一车辆的第一行驶数据；根据多个第一车辆的第一行驶数据，确定目标指标值，其中，目标指标值用于指示多个第一车辆在各道路上的通行效率；根据目标指标值，对初始参数模型进行训练，以得到目标参数模型。由此，可以实现基于深度学习技术，对信号灯控制策略的初始参数模型进行训练，从而基于训练后的初始参数模型预测信号灯的控制参数，可以提升预测结果的准确性和可靠性，进而根据可靠的控制参数对各信号灯进行控制，可以提升交通的通行效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信号灯控制策略的参数模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述根据所述多个第一车辆的第一行驶数据，确定目标指标值，包括：

针对所述多个第一车辆中的任一第一车辆，根据所述第一车辆的第一行驶数据，确定所述第一车辆的行驶起点和行驶终点，以及所述第一车辆从所述行驶起点行驶至所述行驶终点的实际行驶时长和实际行驶距离；

根据所述行驶起点和所述行驶终点之间的实际行驶距离，确定所述第一车辆的参考行驶时长；

根据所述实际行驶时长和所述参考行驶时长之间的第一差异，确定所述第一车辆的通行延误时长；

根据所述多个第一车辆的通行延误时长，确定所述目标指标值。

3.根据权利要求2所述的方法，其中，所述根据所述多个第一车辆的通行延误时长，确定所述目标指标值，包括：

确定所述多个第一车辆的通行延误时长的均值；

根据所述均值，确定所述目标指标值，其中，所述目标指标值与所述均值呈负相关关系。

4.根据权利要求1所述的方法，其中，所述根据所述目标指标值，对所述初始参数模型进行训练，以得到目标参数模型，包括：

获取所述信号灯控制策略的参考参数模型，其中，所述参考参数模型是对所述初始参数模型添加噪声得到的；

将所述车流运行信息输入所述参考参数模型，以根据所述参考参数模型的输出确定所述车流运行信息中至少两项运行信息的第二权重；

基于所述至少两项运行信息的第二权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的第二控制参数；

响应于根据各所述信号灯的第二控制参数控制各所述信号灯，对各所述道路上的多个第二车辆进行行驶数据采集，以得到所述多个第二车辆的第二行驶数据；

根据所述多个第二车辆的第二行驶数据，确定参考指标值；其中，所述参考指标值用于指示所述多个第二车辆在各所述道路上的通行效率；

根据所述目标指标值和所述参考指标值，对所述初始参数模型进行训练。

5.根据权利要求4所述的方法，其中，所述根据所述目标指标值和所述参考指标值，对所述初始参数模型进行训练，包括：

确定所述目标指标值和所述参考指标值之间的第二差异；

将所述第二差异和所述噪声进行融合，以得到融合数据；

根据所述融合数据对所述至少两项运行信息的第一权重进行更新，以得到至少两项运行信息的第三权重；

基于所述至少两项运行信息的第三权重，对所述初始参数模型进行训练，以得到所述目标参数模型。

6.根据权利要求5所述的方法，其中，所述基于各所述信号灯的第三控制参数，对所述初始参数模型进行训练，包括：

基于所述至少两项运行信息的第三权重，采用所述信号灯控制策略根据所述车流运行信息确定各所述道路上信号灯的第三控制参数；

响应于根据各所述信号灯的第三控制参数控制各所述信号灯，对各所述道路上的多个第三车辆进行行驶数据采集，以得到所述多个第三车辆的第三行驶数据；

根据所述多个第三车辆的第三行驶数据，确定更新指标值；其中，所述更新指标值用于指示所述多个第三车辆在各所述道路上的通行效率；

根据所述更新指标值对所述初始参数模型进行训练，以得到目标参数模型。

7.根据权利要求5所述的方法，其中，所述参考参数模型为多个，多个所述参考参数模型是对初始参数模型添加不同噪声得到的；

所述将所述第二差异和所述噪声进行融合，以得到融合数据，包括：

针对任一所述参考参数模型，将对应的第一差异和噪声进行相乘，以得到中间数据；

将所述多个参考参数模型的中间数据进行相加，以得到所述融合数据。

8.根据权利要求5-7中任一项所述的方法，其中，所述根据所述更新指标值对所述初始参数模型进行训练，包括：

根据所述更新指标值，对所述初始参数模型进行训练，以使所述更新指标值最大化。

9.根据权利要求1所述的方法，其中，所述根据所述目标指标值，对所述初始参数模型进行训练，包括：

根据所述目标指标值，对所述初始参数模型进行训练，以使所述目标指标值最大化。

10.一种交通信号控制方法，所述方法包括：

获取第二设定区域中各道路上的车流运行信息；

根据各所述信号灯的控制参数，控制各所述信号灯；

所述目标参数模型的训练方法，包括：

11.一种信号灯控制策略的参数模型训练装置，所述装置包括：

12.根据权利要求11所述的装置，其中，所述第三确定模块，用于：

13.根据权利要求12所述的装置，其中，所述第三确定模块，用于：

确定所述多个第一车辆的通行延误时长的均值；

14.根据权利要求11所述的装置，其中，所述训练模块，用于：

15.根据权利要求14所述的装置，其中，所述训练模块，用于：

确定所述目标指标值和所述参考指标值之间的第二差异；

将所述第二差异和所述噪声进行融合，以得到融合数据；

16.根据权利要求15所述的装置，其中，所述训练模块，用于：

17.根据权利要求15所述的装置，其中，所述参考参数模型为多个，多个所述参考参数模型是对初始参数模型添加不同噪声得到的；

所述训练模块，用于：

18.根据权利要求15-17中任一项所述的装置，其中，所述训练模块，用于：

19.根据权利要求11所述的装置，其中，所述训练模块，用于：

20.一种交通信号控制装置，所述装置包括：

控制模块，用于根据各所述信号灯的控制参数，控制各所述信号灯；

其中，所述装置还用于获取所述目标参数模型，具体包括：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法，或者，执行权利要求10所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法，或者，执行根据权利要求10所述的方法。