CN113628458B

CN113628458B - 基于群体智能强化学习的交通信号灯优化方法

Info

Publication number: CN113628458B
Application number: CN202110914300.0A
Authority: CN
Inventors: 刘双侨; 王茂帆; 郑皎凌
Original assignee: Sichuan Yifang Intelligent Technology Co ltd
Current assignee: Sichuan Yifang Intelligent Technology Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2022-10-04
Anticipated expiration: 2041-08-10
Also published as: CN113628458A

Abstract

本发明公开了一种基于群体智能强化学习的交通信号灯优化方法，包括以下步骤：S1、共同构成Actor‑Critic_global；S2、初始化n个智能体的参数；S3、初始化n个智能体对应的Actor‑Critic网络，以及全局Actor‑Critic_global网络；S4、基于当前n个智能体的参数，将S分别输入到各自Actor网络中；等。在多交叉口环境下，通过控制交通信号灯设计一种模型，借助了Actor‑Critic的算法框架，同时使用了智能体之间集中式学习分散式执行的方法，算法在收敛速度上得到了较大的提升。本发明使得交通状态得到改善，为后期群体智能强化学习的交通信号控制的应用奠定了基础。

Description

基于群体智能强化学习的交通信号灯优化方法

技术领域

本发明属于人工智能(强化学习)领域，特别涉及一种基于群体智能强化学习的交通信号灯优化方法。

背景技术

领域内总体技术现状描述

交通调度过程中，交通信号灯成为控制交通的关键。以往的交通信号灯都处于静态状态，信号灯时长以及切换速度均不能动态更改。而随着交通复杂度提高，交通信号灯时常会造成适得其反的效果。因此将强化学习决策过程加入信号灯控制中，通过道路上检测装置，动态获取环境反馈，决策模型中的状态与奖励处于动态状态，跟随环境反馈而做出适当更改。通过群体智能之间的合作与博弈，做出一个恰当的决策方法。近年来，随着群体智能以及博弈论研究的深入，群体智能已经被用于交通决策中。群体智能的信息交互通过交通拓扑网络传递，即时的信息交互，将让智能体具有对即将到来车流的预见作用，能够提前采取适当决策舒缓交通拥堵。群体智能强化学习中三个关键点：状态与行为以及奖励，这三者如何制定，需要通过不断的接近真实状态的交通模拟获取。

与本发明创造最接近的现有技术一

现有技术一的技术内容

单智能体强化学习发展已经较为成熟，其采用分布式框架，将智能体分别设立在每个道路交叉口，能够独立地对信号灯进行调度控制。因其智能体的独立性和资源占有率较高，获得一定效率提升。随后深度强化学习应运而生，该技术使得强化学习与与具有感知能力的深度学习结合在一起。

现有技术一的缺陷

单智能体强化学习会因其分布式结构造成协调性较差，信息存在封闭性，不能形成有效的合作。出现突发情况时，单一智能体停止工作，就会造成整个***的工作停滞甚至崩溃。Q学习的学习适合处理离散的状态，并且使用Q学习部署到现在的交通环境中，面对单路口环境下，路口的情况有成千上万种，Q表的容量有限的，无法统计数以万计的状态，并不适合交通环境。

与本发明创造最接近的现有技术二

现有技术二的技术内容

群体智能强化学习以最大程度地减少车辆行驶时间或多个交叉路口的站点数量例如文献。在常规的多路口环境中可以实现协调通过设置路网的所有交叉点之间的绿灯开始之间的时间间隔。还有些优化的方法例如文献，以最小化车辆的行驶时间和/或多个交叉路口的站点数量，代替优化偏移量或最大压力，旨在最大化网络的吞吐量，从而最小化行程时间。但是很多这样的方法依旧是根据静态环境或者假设来构建的简化交通状况，并不保证实际的运营会有所改善。

现有技术二的缺陷

随着智能体数量的增长，集中式训练的计算工作量太大；在测试期间。每个智能体都是独立行动的，在动态的环境下智能体的变动需要根据结合周围其他智能体进行上下协调。

发明内容

针对现有利用集中式强化学习优化交通组织存在的缺陷，使用分散式的强化学习智能体来控制多路口进行交互。分散式的通讯更加的实用，并不需要集中决策具有良好的伸缩性，但在模型的收敛和速度上往往是很不稳定的。

本发明的目的是通过以下技术方案来实现的：

基于群体智能强化学习的交通信号灯优化方法，包括以下步骤：

S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体；其中，S为联合状态，S₁，S₂，…，S_n为智能体当前时刻对应的状态，S_{1_next}，S_{2_next}，…，S_{n_next}为智能体下一时刻对应的状态，O₁，O₂，…，O_n为n个智能体对应的观察值，A₁，A₂，…，A_n为智能体对应的行为，R₀，R₁，…，R_n为n个智能体对应的回报，Actor₁，Actor₂，…，Actor_n为n个智能体构造的Actor本地网络，Ctritic₁，Critic₂，…，Critic_n为n个智能体的Actor本地网络对应的Critic本地网络，共同构成Actor-Critic₁，Actor-Critic₂，…，Actor-Critic_n；Actor_global为全局Actor网络，Critic_global为全局Critic网络，共同构成Actor-Critic_global，下标1，2，…，n为智能体的编号；

S2、初始化n个智能体的参数；

所述智能体的参数包括S、行为A、TD_error；

S3、初始化n个智能体对应的Actor-Critic网络，以及全局Actor-Critic_global网络；

S4、基于当前n个智能体的参数，将S分别输入到各自Actor网络中；各自Actor网络分别选择对应智能体的行为A，使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R，转移至下一个状态S_next；

S5、将S3步骤获得的S，A，S_next作为Critic网络的输入，计算获得TD_error；

S6、更新本地Actor-Crtic网络的参数和权重；

S7、更新全局Actor-Critic_global网络的参合和权重；

S8、重复S4至S7步骤，直到达到设置的回合次数或智能体完成Actor-Critic_global网络所预设的训练目标，得到训练完善的交通信号灯优化模型；

S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化，获得优化后的交通信号灯方案。

作为优选方式，所述步骤S2中状态S设定包括：状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得；

每个指标取相应的factor进行数据加权处理利于训练结果的收敛，factor₁为idPhase权重，factor₂为duration权重，factor₃为queue权重，具体状态空间取值公式为：

S＝idPhase*factor₁+duration*factor₂+queue*factor₃；

其中factor₁＝len(green_list)，green_list意思是环境中所有交通信号灯，len(Green_list)即表示环境中所有交通信号灯的个数；

factor₁取相位中绿灯相位个factor₂，factor₃根据测试结果取整数。

作为优选方式，当前相位对应配时数据需做一定离散化处理，便于后期收敛；具体离散处理如下：

作为优选方式，所述步骤S2中行为A设定包括：

获取动作a，动作a表示下一状态红绿灯即将变更到的相位，长度为独立红绿灯相位个数，状态空间A利用One-hot编码方式，能够完整表示每一个相位。

作为优选方式，所述步骤S4中n个智能体分别进行Actor-Critic网络训练包括以下步骤：

A1、初始化状态S和动作矩阵A以及TD_error；

A2、将S，A，TD_error传导进入Actor网络中，输出act_prob，因为Actor网络基于概率分布选择动作，act_prob即为当前S下，进行所有行为选择的概率分布；并且将act_prob概率分布进行如下取对数转换，利于更快的达到收敛：

log_prob＝log(act_prob)

A3：将由Critic网络传入的TD_error与A2步骤计算得到的log_prob进行如下计算得到利益导向损失值exp_v；

exp_v＝reduce_mean(log_prob*td_error)

其中，reduce_mean即为神经网络中求平均值。

A4：Actor基于A2步骤下计算得到的act_prob，提取出具有最大概率的行为a；智能体进行行为a，并从环境中得到对应的奖励反馈，并且智能体状态切换至状态S_next。

A5：利用梯度下降最大化利益导向损失值exp_v，训练并更新智能体Actor网络的参数和权重；

A6：将当前状态S以及状态S_next传入Critic网络中，分别获得当前状态价值V和下一状态V_next；

A7：利用从环境中获取的奖励值R，以及从A6步骤获得的V，V_next，计算得到Td_error，计算公式如下：

TD_error＝R+GAMMA*V_next-V

GAMMA：在强化学习中表示学习率，在强化学习的过程中，GAMMA越大，衰减越小。这意味着智能体的学习过程更关注于长期的回报。另一方面，更小的GAMMA，会带来更大的衰减。这意味着智能体更关心于短期的回报。

A8：利用A7步骤得到的TD_error反向传递给Critic网络，用于更新智能体Critic网络的参数和权重。

A9：利用A5步骤的行为a以及状态S_next，A7步骤获取的TD_error传递给Actor网络，利用梯度下降最大化利益导向损失值exp_v，训练并更新智能体Actor网络的参数和权重。

作为优选方式，所述步骤S4中获取相应的回报R包括以下内容：

R＝RNCR(t)+CR*0.3

(1)路网畅通率

路网畅通率定义为路网在某一时间段T内，交通状态较好的路段里程与路网中所有路段里程的比值，描述了路网总体畅通程度，是路网交通总体运行质量的一个度量，可以用于评价交通管理效果；

其中，RNCR(t)表示T时间段内的路网畅通率(T可取5min或者3min)，n为路网中所包含路段数，l_ij为第i条路段的长度，k_i为二值函数，当路段i的交通状态等级属于可接受交通状态时，k_i＝1，否则k_i＝0；路段平均速度meanspeed≥20km/h时，为可接受交通状态；meanspeed＜20km/h时，为不可接受状态；RNCR(t)的取值范围为[0，1]，值越大，表示路网状态越好，反之，路网状态越差。

(2)拥堵里程占比

拥堵里程占比是拥挤路段的长度占整个路网的长度的比例，描述了路网整体的运行状态：

其中，CR表示路网拥挤里程占比，jamLengthInMetersSum表示拥挤里程占比，l_ij为路段l_ij的长度。

本发明的有益效果是：

在多交叉口环境下，通过控制交通信号灯设计一种模型，借助了Actor-Critic的算法框架，同时使用了智能体之间集中式学习分散式执行的方法，结合了集中式学习和分散式学习的优点，使得算法在收敛速度上得到了较大的提升。本发明使得交通状态得到改善，为后期群体智能强化学习的交通信号控制的应用奠定了基础。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例的结构示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例

S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体；其中，S为n个智能体当前时刻对应的状态，S₁，S₂，…，S_n为智能体当前时刻对应的状态，S_{1_next}，S_{2_next}，…，S_{n_next}为智能体下一时刻对应的状态，O₁，O₂，…，O_n为n个智能体对应的观察值，A₁，A₂，…，A_n为智能体对应的行为，R₀，R₁，…，R_n为n个智能体对应的回报，Actor₁，Actor₂，…，Actor_n为n个智能体构造的Actor本地网络，Ctritic₁，Critic₂，…，Critic_n为n个智能体的Actor本地网络对应的Critic本地网络，共同构成Actor-Critic₁，Actor-Critic₂，…，Actor-Critic_n；Actor_global为全局Actor网络，Critic_global为全局Critic网络，共同构成Actor-Critic_global，下标1，2，…，n为智能体的编号；

S2、初始化n个智能体的参数；

所述智能体的参数包括S、行为A、TD_error；

TD_error用来衡量每次智能体完成行为A后，此行为从环境中获得的奖励反馈与上一次动作选择带来的奖励反馈之间的差距，用来衡量Actor网络进行的动作选择是否更合理有效；Actor网络的角色类似于演绎者，基于策略进行动作选择，Critic网络则利用TD_error来评估Actor网络进行的动作选择是否更有效。

S6、更新本地Actor-Crtic网络的参数和权重；

S7、更新全局Actor-Critic_global网络的参合和权重；

S8、重复S4至S7步骤，直到达到设置的回合次数或智能体完成Actor-Critic_global网络所预设的训练目标(训练目标为路网畅通率以及拥堵里程占比指标达到更佳状态或者训练模型达到收敛状态。)，得到训练完善的交通信号灯优化模型；

在一个优选实施例中，所述步骤S2中状态S设定包括：状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得；

每个指标取相应的factor(权重)进行数据加权处理利于训练结果的收敛，factor₁为idPhase权重，factor₂为duration权重，factor₃为queue权重，具体状态空间取值公式为：

S＝idPhase*factor₁+duration*factor₂+queue*factor₃；

其中factor₁＝len(green_list)，

Green_list意思是环境中所有交通信号灯，len(Green_list)即表示环境中所有交通信号灯的个数。

factor₁取相位中绿灯相位个factor₂，factor₃根据测试结果取整数。factor₂＝[factor₁÷3]，factor₃＝[factor₁×0.7+factor₂÷2]，其中[]为取整符号。

在一个优选实施例中，当前相位对应配时数据需做一定离散化处理，便于后期收敛；具体离散处理如下：

在一个优选实施例中，所述步骤S2中行为A设定包括：

获取动作a，动作a表示下一状态红绿灯即将变更到的相位，长度为独立红绿灯相位个数，状态空间A利用One-hot编码方式，能够完整表示每一个相位。(例如：[1，0，0，0，0]表示该红绿灯有5组相位，并且当前one-hot编码表示第0组相位，所有相位以0作为开始)。

在一个优选实施例中，所述步骤S4中n个智能体分别进行Actor-Critic网络训练包括以下步骤：

A1、初始化状态S和动作A以及TD_error；

log_prob＝log(act_prob)

exp_v＝reduce_mean(log_prob*td_error)

其中，reduce_mean即为神经网络中求平均值。

TD_error＝R+GAMMA*V_next-V

在一个优选实施例中，所述步骤S4中获取相应的回报R包括以下内容：

R＝RNCR(t)+CR*0.3

(1)路网畅通率

(2)拥堵里程占比

其中，CR表示路网拥挤里程占比，jamLengthInMetersSum表示拥挤里程占比，l_ij为路段l_ij的长度。CR越小则表示交通状态越好。

通过实验表明，此回报函数设定利于帮助区分优化程度的好坏，使模型具备更佳的辨识能力。

在一个优选实施例中，红绿灯a对应交通信号灯配时为：

0：<phase duration＝″36″state＝〞rrrGGgrrrGGg〞/>

1：<phase duration＝″4″state＝〞rrryygrrryyg″/>

2：<phase duration＝″6″state＝″rrrrrGrrrrrG″/>

3：<phase duration＝″4″state＝″rrrrryrrrrry″/>

4：<phase duration＝″36″state＝″GGgrrrGGgrrr″/>

5：<phase duration＝″4″state＝″yyyrrryyyrrr″/>

此配时说明，红绿灯总共有6个相位，相位对应时间duration为36S，4S，6S，4S，36S，4S。

其State代表每个相位下红绿灯控制的道路连接状态，例如：

如图1所示，该图表示红绿灯a在0号相位下，State状态。

R，r代表交通信号灯控制道路连接为红灯状态，G，g代表交通信号灯控制道路连接处于绿灯状态，Y，y代表交通信号灯控制道路连接处于黄灯状态。大小写字母区分也意义在于通行优先级，大写字母优先级大于小写字母。

state＝〞rrrGGgrrrGGg″表示的含义为：在此phase(相位)下，①②③⑦⑧⑨道路连接为红灯状态，④⑤⑥⑩

道路连接为绿灯状态。

通过本发明优化后；

红绿灯a对应优化后交通信号灯配时为

0：<phase duration＝″27″state＝″rrrGGgrrrGGg″/>

1：<phase duration＝″2″state＝″rrryygrrryyg″/>

2：<phase duration＝″4″state＝″rrrrrGrrrrrG″/>

3：<phase duration＝″7″state＝″rrrrryrrrrry″/>

4：<phase duration＝″43″state＝″GGgrrrGGgrrr″/>

5：<phase duration＝〞6″state＝″yyyrrryyyrrr″/>

主要优化体现在每个Phase(相位)对应的duration(配时)的优化上。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。