CN113628458B - 基于群体智能强化学习的交通信号灯优化方法 - Google Patents

基于群体智能强化学习的交通信号灯优化方法 Download PDF

Info

Publication number
CN113628458B
CN113628458B CN202110914300.0A CN202110914300A CN113628458B CN 113628458 B CN113628458 B CN 113628458B CN 202110914300 A CN202110914300 A CN 202110914300A CN 113628458 B CN113628458 B CN 113628458B
Authority
CN
China
Prior art keywords
network
state
traffic
agents
road
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110914300.0A
Other languages
English (en)
Other versions
CN113628458A (zh
Inventor
刘双侨
王茂帆
郑皎凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yifang Intelligent Technology Co ltd
Original Assignee
Sichuan Yifang Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yifang Intelligent Technology Co ltd filed Critical Sichuan Yifang Intelligent Technology Co ltd
Priority to CN202110914300.0A priority Critical patent/CN113628458B/zh
Publication of CN113628458A publication Critical patent/CN113628458A/zh
Application granted granted Critical
Publication of CN113628458B publication Critical patent/CN113628458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于群体智能强化学习的交通信号灯优化方法,包括以下步骤:S1、共同构成Actor‑Criticglobal;S2、初始化n个智能体的参数;S3、初始化n个智能体对应的Actor‑Critic网络,以及全局Actor‑Criticglobal网络;S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;等。在多交叉口环境下,通过控制交通信号灯设计一种模型,借助了Actor‑Critic的算法框架,同时使用了智能体之间集中式学习分散式执行的方法,算法在收敛速度上得到了较大的提升。本发明使得交通状态得到改善,为后期群体智能强化学习的交通信号控制的应用奠定了基础。

Description

基于群体智能强化学习的交通信号灯优化方法
技术领域
本发明属于人工智能(强化学习)领域,特别涉及一种基于群体智能强化学习的交通信号灯优化方法。
背景技术
领域内总体技术现状描述
交通调度过程中,交通信号灯成为控制交通的关键。以往的交通信号灯都处于静态状态,信号灯时长以及切换速度均不能动态更改。而随着交通复杂度提高,交通信号灯时常会造成适得其反的效果。因此将强化学习决策过程加入信号灯控制中,通过道路上检测装置,动态获取环境反馈,决策模型中的状态与奖励处于动态状态,跟随环境反馈而做出适当更改。通过群体智能之间的合作与博弈,做出一个恰当的决策方法。近年来,随着群体智能以及博弈论研究的深入,群体智能已经被用于交通决策中。群体智能的信息交互通过交通拓扑网络传递,即时的信息交互,将让智能体具有对即将到来车流的预见作用,能够提前采取适当决策舒缓交通拥堵。群体智能强化学习中三个关键点:状态与行为以及奖励,这三者如何制定,需要通过不断的接近真实状态的交通模拟获取。
与本发明创造最接近的现有技术一
现有技术一的技术内容
单智能体强化学习发展已经较为成熟,其采用分布式框架,将智能体分别设立在每个道路交叉口,能够独立地对信号灯进行调度控制。因其智能体的独立性和资源占有率较高,获得一定效率提升。随后深度强化学习应运而生,该技术使得强化学习与与具有感知能力的深度学习结合在一起。
现有技术一的缺陷
单智能体强化学习会因其分布式结构造成协调性较差,信息存在封闭性,不能形成有效的合作。出现突发情况时,单一智能体停止工作,就会造成整个***的工作停滞甚至崩溃。Q学习的学习适合处理离散的状态,并且使用Q学习部署到现在的交通环境中,面对单路口环境下,路口的情况有成千上万种,Q表的容量有限的,无法统计数以万计的状态,并不适合交通环境。
与本发明创造最接近的现有技术二
现有技术二的技术内容
群体智能强化学习以最大程度地减少车辆行驶时间或多个交叉路口的站点数量例如文献。在常规的多路口环境中可以实现协调通过设置路网的所有交叉点之间的绿灯开始之间的时间间隔。还有些优化的方法例如文献,以最小化车辆的行驶时间和/或多个交叉路口的站点数量,代替优化偏移量或最大压力,旨在最大化网络的吞吐量,从而最小化行程时间。但是很多这样的方法依旧是根据静态环境或者假设来构建的简化交通状况,并不保证实际的运营会有所改善。
现有技术二的缺陷
随着智能体数量的增长,集中式训练的计算工作量太大;在测试期间。每个智能体都是独立行动的,在动态的环境下智能体的变动需要根据结合周围其他智能体进行上下协调。
发明内容
针对现有利用集中式强化学习优化交通组织存在的缺陷,使用分散式的强化学习智能体来控制多路口进行交互。分散式的通讯更加的实用,并不需要集中决策具有良好的伸缩性,但在模型的收敛和速度上往往是很不稳定的。
本发明的目的是通过以下技术方案来实现的:
基于群体智能强化学习的交通信号灯优化方法,包括以下步骤:
S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;其中,S为联合状态,S1,S2,…,Sn为智能体当前时刻对应的状态,S1_next,S2_next,…,Sn_next为智能体下一时刻对应的状态,O1,O2,…,On为n个智能体对应的观察值,A1,A2,…,An为智能体对应的行为,R0,R1,…,Rn为n个智能体对应的回报,Actor1,Actor2,…,Actorn为n个智能体构造的Actor本地网络,Ctritic1,Critic2,…,Criticn为n个智能体的Actor本地网络对应的Critic本地网络,共同构成Actor-Critic1,Actor-Critic2,…,Actor-Criticn;Actorglobal为全局Actor网络,Criticglobal为全局Critic网络,共同构成Actor-Criticglobal,下标1,2,…,n为智能体的编号;
S2、初始化n个智能体的参数;
所述智能体的参数包括S、行为A、TD_error;
S3、初始化n个智能体对应的Actor-Critic网络,以及全局Actor-Criticglobal网络;
S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;各自Actor网络分别选择对应智能体的行为A,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R,转移至下一个状态Snext
S5、将S3步骤获得的S,A,Snext作为Critic网络的输入,计算获得TD_error;
S6、更新本地Actor-Crtic网络的参数和权重;
S7、更新全局Actor-Criticglobal网络的参合和权重;
S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成Actor-Criticglobal网络所预设的训练目标,得到训练完善的交通信号灯优化模型;
S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案。
作为优选方式,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;
每个指标取相应的factor进行数据加权处理利于训练结果的收敛,factor1为idPhase权重,factor2为duration权重,factor3为queue权重,具体状态空间取值公式为:
S=idPhase*factor1+duration*factor2+queue*factor3
其中factor1=len(green_list),green_list意思是环境中所有交通信号灯,len(Green_list)即表示环境中所有交通信号灯的个数;
factor1取相位中绿灯相位个factor2,factor3根据测试结果取整数。
作为优选方式,当前相位对应配时数据需做一定离散化处理,便于后期收敛;具体离散处理如下:
Figure BDA0003204864910000051
作为优选方式,所述步骤S2中行为A设定包括:
获取动作a,动作a表示下一状态红绿灯即将变更到的相位,长度为独立红绿灯相位个数,状态空间A利用One-hot编码方式,能够完整表示每一个相位。
作为优选方式,所述步骤S4中n个智能体分别进行Actor-Critic网络训练包括以下步骤:
A1、初始化状态S和动作矩阵A以及TD_error;
A2、将S,A,TD_error传导进入Actor网络中,输出act_prob,因为Actor网络基于概率分布选择动作,act_prob即为当前S下,进行所有行为选择的概率分布;并且将act_prob概率分布进行如下取对数转换,利于更快的达到收敛:
log_prob=log(act_prob)
A3:将由Critic网络传入的TD_error与A2步骤计算得到的log_prob进行如下计算得到利益导向损失值exp_v;
exp_v=reduce_mean(log_prob*td_error)
其中,reduce_mean即为神经网络中求平均值。
A4:Actor基于A2步骤下计算得到的act_prob,提取出具有最大概率的行为a;智能体进行行为a,并从环境中得到对应的奖励反馈,并且智能体状态切换至状态Snext
A5:利用梯度下降最大化利益导向损失值exp_v,训练并更新智能体Actor网络的参数和权重;
A6:将当前状态S以及状态Snext传入Critic网络中,分别获得当前状态价值V和下一状态Vnext
A7:利用从环境中获取的奖励值R,以及从A6步骤获得的V,Vnext,计算得到Td_error,计算公式如下:
TD_error=R+GAMMA*Vnext-V
GAMMA:在强化学习中表示学习率,在强化学习的过程中,GAMMA越大,衰减越小。这意味着智能体的学习过程更关注于长期的回报。另一方面,更小的GAMMA,会带来更大的衰减。这意味着智能体更关心于短期的回报。
A8:利用A7步骤得到的TD_error反向传递给Critic网络,用于更新智能体Critic网络的参数和权重。
A9:利用A5步骤的行为a以及状态Snext,A7步骤获取的TD_error传递给Actor网络,利用梯度下降最大化利益导向损失值exp_v,训练并更新智能体Actor网络的参数和权重。
作为优选方式,所述步骤S4中获取相应的回报R包括以下内容:
R=RNCR(t)+CR*0.3
(1)路网畅通率
路网畅通率定义为路网在某一时间段T内,交通状态较好的路段里程与路网中所有路段里程的比值,描述了路网总体畅通程度,是路网交通总体运行质量的一个度量,可以用于评价交通管理效果;
Figure BDA0003204864910000071
其中,RNCR(t)表示T时间段内的路网畅通率(T可取5min或者3min),n为路网中所包含路段数,lij为第i条路段的长度,ki为二值函数,当路段i的交通状态等级属于可接受交通状态时,ki=1,否则ki=0;路段平均速度meanspeed≥20km/h时,为可接受交通状态;meanspeed<20km/h时,为不可接受状态;RNCR(t)的取值范围为[0,1],值越大,表示路网状态越好,反之,路网状态越差。
(2)拥堵里程占比
拥堵里程占比是拥挤路段的长度占整个路网的长度的比例,描述了路网整体的运行状态:
Figure BDA0003204864910000072
其中,CR表示路网拥挤里程占比,jamLengthInMetersSum表示拥挤里程占比,lij为路段lij的长度。
本发明的有益效果是:
在多交叉口环境下,通过控制交通信号灯设计一种模型,借助了Actor-Critic的算法框架,同时使用了智能体之间集中式学习分散式执行的方法,结合了集中式学习和分散式学习的优点,使得算法在收敛速度上得到了较大的提升。本发明使得交通状态得到改善,为后期群体智能强化学习的交通信号控制的应用奠定了基础。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例的结构示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例
基于群体智能强化学习的交通信号灯优化方法,包括以下步骤:
S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;其中,S为n个智能体当前时刻对应的状态,S1,S2,…,Sn为智能体当前时刻对应的状态,S1_next,S2_next,…,Sn_next为智能体下一时刻对应的状态,O1,O2,…,On为n个智能体对应的观察值,A1,A2,…,An为智能体对应的行为,R0,R1,…,Rn为n个智能体对应的回报,Actor1,Actor2,…,Actorn为n个智能体构造的Actor本地网络,Ctritic1,Critic2,…,Criticn为n个智能体的Actor本地网络对应的Critic本地网络,共同构成Actor-Critic1,Actor-Critic2,…,Actor-Criticn;Actorglobal为全局Actor网络,Criticglobal为全局Critic网络,共同构成Actor-Criticglobal,下标1,2,…,n为智能体的编号;
S2、初始化n个智能体的参数;
所述智能体的参数包括S、行为A、TD_error;
TD_error用来衡量每次智能体完成行为A后,此行为从环境中获得的奖励反馈与上一次动作选择带来的奖励反馈之间的差距,用来衡量Actor网络进行的动作选择是否更合理有效;Actor网络的角色类似于演绎者,基于策略进行动作选择,Critic网络则利用TD_error来评估Actor网络进行的动作选择是否更有效。
S3、初始化n个智能体对应的Actor-Critic网络,以及全局Actor-Criticglobal网络;
S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;各自Actor网络分别选择对应智能体的行为A,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R,转移至下一个状态Snext
S5、将S3步骤获得的S,A,Snext作为Critic网络的输入,计算获得TD_error;
S6、更新本地Actor-Crtic网络的参数和权重;
S7、更新全局Actor-Criticglobal网络的参合和权重;
S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成Actor-Criticglobal网络所预设的训练目标(训练目标为路网畅通率以及拥堵里程占比指标达到更佳状态或者训练模型达到收敛状态。),得到训练完善的交通信号灯优化模型;
S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案。
在一个优选实施例中,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;
每个指标取相应的factor(权重)进行数据加权处理利于训练结果的收敛,factor1为idPhase权重,factor2为duration权重,factor3为queue权重,具体状态空间取值公式为:
S=idPhase*factor1+duration*factor2+queue*factor3
其中factor1=len(green_list),
Green_list意思是环境中所有交通信号灯,len(Green_list)即表示环境中所有交通信号灯的个数。
factor1取相位中绿灯相位个factor2,factor3根据测试结果取整数。factor2=[factor1÷3],factor3=[factor1×0.7+factor2÷2],其中[]为取整符号。
在一个优选实施例中,当前相位对应配时数据需做一定离散化处理,便于后期收敛;具体离散处理如下:
Figure BDA0003204864910000121
在一个优选实施例中,所述步骤S2中行为A设定包括:
获取动作a,动作a表示下一状态红绿灯即将变更到的相位,长度为独立红绿灯相位个数,状态空间A利用One-hot编码方式,能够完整表示每一个相位。(例如:[1,0,0,0,0]表示该红绿灯有5组相位,并且当前one-hot编码表示第0组相位,所有相位以0作为开始)。
在一个优选实施例中,所述步骤S4中n个智能体分别进行Actor-Critic网络训练包括以下步骤:
A1、初始化状态S和动作A以及TD_error;
A2、将S,A,TD_error传导进入Actor网络中,输出act_prob,因为Actor网络基于概率分布选择动作,act_prob即为当前S下,进行所有行为选择的概率分布;并且将act_prob概率分布进行如下取对数转换,利于更快的达到收敛:
log_prob=log(act_prob)
A3:将由Critic网络传入的TD_error与A2步骤计算得到的log_prob进行如下计算得到利益导向损失值exp_v;
exp_v=reduce_mean(log_prob*td_error)
其中,reduce_mean即为神经网络中求平均值。
A4:Actor基于A2步骤下计算得到的act_prob,提取出具有最大概率的行为a;智能体进行行为a,并从环境中得到对应的奖励反馈,并且智能体状态切换至状态Snext
A5:利用梯度下降最大化利益导向损失值exp_v,训练并更新智能体Actor网络的参数和权重;
A6:将当前状态S以及状态Snext传入Critic网络中,分别获得当前状态价值V和下一状态Vnext
A7:利用从环境中获取的奖励值R,以及从A6步骤获得的V,Vnext,计算得到Td_error,计算公式如下:
TD_error=R+GAMMA*Vnext-V
A8:利用A7步骤得到的TD_error反向传递给Critic网络,用于更新智能体Critic网络的参数和权重。
在一个优选实施例中,所述步骤S4中获取相应的回报R包括以下内容:
R=RNCR(t)+CR*0.3
(1)路网畅通率
路网畅通率定义为路网在某一时间段T内,交通状态较好的路段里程与路网中所有路段里程的比值,描述了路网总体畅通程度,是路网交通总体运行质量的一个度量,可以用于评价交通管理效果;
Figure BDA0003204864910000131
其中,RNCR(t)表示T时间段内的路网畅通率(T可取5min或者3min),n为路网中所包含路段数,lij为第i条路段的长度,ki为二值函数,当路段i的交通状态等级属于可接受交通状态时,ki=1,否则ki=0;路段平均速度meanspeed≥20km/h时,为可接受交通状态;meanspeed<20km/h时,为不可接受状态;RNCR(t)的取值范围为[0,1],值越大,表示路网状态越好,反之,路网状态越差。
(2)拥堵里程占比
拥堵里程占比是拥挤路段的长度占整个路网的长度的比例,描述了路网整体的运行状态:
Figure BDA0003204864910000141
其中,CR表示路网拥挤里程占比,jamLengthInMetersSum表示拥挤里程占比,lij为路段lij的长度。CR越小则表示交通状态越好。
通过实验表明,此回报函数设定利于帮助区分优化程度的好坏,使模型具备更佳的辨识能力。
在一个优选实施例中,红绿灯a对应交通信号灯配时为:
0:<phase duration=″36″state=〞rrrGGgrrrGGg〞/>
1:<phase duration=″4″state=〞rrryygrrryyg″/>
2:<phase duration=″6″state=″rrrrrGrrrrrG″/>
3:<phase duration=″4″state=″rrrrryrrrrry″/>
4:<phase duration=″36″state=″GGgrrrGGgrrr″/>
5:<phase duration=″4″state=″yyyrrryyyrrr″/>
此配时说明,红绿灯总共有6个相位,相位对应时间duration为36S,4S,6S,4S,36S,4S。
其State代表每个相位下红绿灯控制的道路连接状态,例如:
如图1所示,该图表示红绿灯a在0号相位下,State状态。
R,r代表交通信号灯控制道路连接为红灯状态,G,g代表交通信号灯控制道路连接处于绿灯状态,Y,y代表交通信号灯控制道路连接处于黄灯状态。大小写字母区分也意义在于通行优先级,大写字母优先级大于小写字母。
state=〞rrrGGgrrrGGg″表示的含义为:在此phase(相位)下,①②③⑦⑧⑨道路连接为红灯状态,④⑤⑥⑩
Figure BDA0003204864910000151
道路连接为绿灯状态。
通过本发明优化后;
红绿灯a对应优化后交通信号灯配时为
0:<phase duration=″27″state=″rrrGGgrrrGGg″/>
1:<phase duration=″2″state=″rrryygrrryyg″/>
2:<phase duration=″4″state=″rrrrrGrrrrrG″/>
3:<phase duration=″7″state=″rrrrryrrrrry″/>
4:<phase duration=″43″state=″GGgrrrGGgrrr″/>
5:<phase duration=〞6″state=″yyyrrryyyrrr″/>
主要优化体现在每个Phase(相位)对应的duration(配时)的优化上。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于群体智能强化学习的交通信号灯优化方法,其特征在于,包括以下步骤:
S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;
Figure DEST_PATH_IMAGE002
,
Figure DEST_PATH_IMAGE004
,…,
Figure DEST_PATH_IMAGE006
为智能体当前时刻对应的状态,
Figure DEST_PATH_IMAGE008
,
Figure DEST_PATH_IMAGE010
,…,
Figure DEST_PATH_IMAGE012
为智能体下一时刻对应的状态,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
,…,
Figure DEST_PATH_IMAGE018
为n个智能体对应的观察值,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
,…,
Figure DEST_PATH_IMAGE024
为智能体对应的行为,
Figure DEST_PATH_IMAGE026
,
Figure DEST_PATH_IMAGE028
,…,
Figure DEST_PATH_IMAGE030
为n个智能体对应的回报,
Figure DEST_PATH_IMAGE032
,
Figure DEST_PATH_IMAGE034
,…,
Figure DEST_PATH_IMAGE036
为n个智能体构造的
Figure DEST_PATH_IMAGE038
本地网络,
Figure DEST_PATH_IMAGE040
,
Figure DEST_PATH_IMAGE042
,…,
Figure DEST_PATH_IMAGE044
为n个智能体的
Figure 730084DEST_PATH_IMAGE038
本地网络对应的
Figure DEST_PATH_IMAGE046
本地网络,共同构成
Figure DEST_PATH_IMAGE048
,
Figure DEST_PATH_IMAGE050
,…,
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
为全局
Figure 90568DEST_PATH_IMAGE038
网络,
Figure DEST_PATH_IMAGE056
为全局
Figure 932622DEST_PATH_IMAGE046
网络,共同构成
Figure DEST_PATH_IMAGE058
,下标1,2,…,n为智能体的编号;
S2、初始化n个智能体的参数;
所述智能体的参数包括
Figure DEST_PATH_IMAGE060
、行为
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
S为n个智能体当前时刻对应的状态,
Figure DEST_PATH_IMAGE066
用来衡量每次智能体完成行为A后,此行为从环境中获得的奖励反馈与上一次动作选择带来的奖励反馈之间的差距,用来衡量
Figure DEST_PATH_IMAGE068
网络进行的动作选择是否更合理有效;
S3、初始化n个智能体对应的
Figure DEST_PATH_IMAGE070
网络,以及全局
Figure DEST_PATH_IMAGE072
网络;
S4、基于当前n个智能体的参数,将
Figure 672039DEST_PATH_IMAGE060
分别输入到各自
Figure 17570DEST_PATH_IMAGE068
网络中;各自
Figure 869726DEST_PATH_IMAGE068
网络分别选择对应智能体的行为
Figure 667918DEST_PATH_IMAGE062
,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报
Figure DEST_PATH_IMAGE074
,转移至下一个状态
Figure DEST_PATH_IMAGE076
S5、将S4步骤获得的
Figure 194714DEST_PATH_IMAGE060
,
Figure DEST_PATH_IMAGE078
,
Figure 191489DEST_PATH_IMAGE076
作为
Figure DEST_PATH_IMAGE080
网络的输入,计算获得
Figure 748634DEST_PATH_IMAGE064
S6、更新本地
Figure DEST_PATH_IMAGE082
网络的参数和权重;
S7、更新全局
Figure DEST_PATH_IMAGE084
网络的参合和权重;
S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成
Figure 96439DEST_PATH_IMAGE084
网络所预设的训练目标,得到训练完善的交通信号灯优化模型;
S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案;
所述步骤S4中n个智能体分别进行
Figure DEST_PATH_IMAGE086
网络训练包括以下步骤:
A1、初始化状态
Figure 895768DEST_PATH_IMAGE060
和动作A以及
Figure 950312DEST_PATH_IMAGE064
A2、将
Figure 911314DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE088
Figure 713792DEST_PATH_IMAGE064
传导进入
Figure 520074DEST_PATH_IMAGE068
网络中,输出
Figure DEST_PATH_IMAGE090
,因为
Figure 225862DEST_PATH_IMAGE068
网络基于概率分布选择动作,
Figure 357766DEST_PATH_IMAGE090
即为当前
Figure DEST_PATH_IMAGE092
下,进行所有行为选择的概率分布;并且将act_prob概率分布进行如下取对数转换,利于更快的达到收敛:
Figure DEST_PATH_IMAGE094
A3:将由
Figure DEST_PATH_IMAGE096
网络传入的
Figure 243944DEST_PATH_IMAGE064
与A2步骤计算得到的
Figure DEST_PATH_IMAGE098
进行如下计算得到利益导向损失值
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE102
其中,reduce_mean即为神经网络中求平均值;
A4:
Figure 742666DEST_PATH_IMAGE068
基于A2步骤下计算得到的
Figure 771801DEST_PATH_IMAGE090
,提取出具有最大概率的行为
Figure DEST_PATH_IMAGE104
A5:将当前状态
Figure 605765DEST_PATH_IMAGE092
以及A4步骤获取的状态
Figure 87562DEST_PATH_IMAGE076
传入
Figure 501226DEST_PATH_IMAGE096
网络中,分别获得当前状态价值
Figure DEST_PATH_IMAGE106
和下一状态
Figure DEST_PATH_IMAGE108
A6:利用从环境中获取的奖励值
Figure 214229DEST_PATH_IMAGE074
,以及从A5步骤获得的
Figure 687936DEST_PATH_IMAGE106
,
Figure 922608DEST_PATH_IMAGE108
,计算得到Td_ error,计算公式如下:
Figure DEST_PATH_IMAGE110
GAMMA:在强化学习中表示学习率;
A7:利用A6步骤得到的
Figure 936701DEST_PATH_IMAGE064
反向传递给
Figure 940429DEST_PATH_IMAGE096
网络,用于更新智能体
Figure 83572DEST_PATH_IMAGE096
网络的参数和权重;
A8:利用A4步骤的行为
Figure 539961DEST_PATH_IMAGE104
以及状态
Figure 295427DEST_PATH_IMAGE076
,A6步骤获取的
Figure 153662DEST_PATH_IMAGE064
传递给
Figure 703592DEST_PATH_IMAGE068
网络,利用梯度下降最大化利益导向损失值
Figure 912856DEST_PATH_IMAGE100
,训练并更新智能体
Figure 472014DEST_PATH_IMAGE068
网络的参数和权重。
2.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;
每个指标取相应的factor进行数据加权处理利于训练结果的收敛,
Figure DEST_PATH_IMAGE112
为idPhase权重,
Figure DEST_PATH_IMAGE114
为duration权重,
Figure DEST_PATH_IMAGE116
为queue权重,具体状态空间取值公式为:
Figure DEST_PATH_IMAGE118
其中
Figure DEST_PATH_IMAGE120
green_list意思是环境中所有交通信号灯,len(green_list)即表示环境中所有交通信号灯的个数;
Figure 342012DEST_PATH_IMAGE112
取相位中绿灯相位个数,
Figure DEST_PATH_IMAGE122
根据测试结果取整数。
3.如权利要求2所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,当前相位对应配时数据需做一定离散化处理,便于后期收敛;具体离散处理如下:
Figure DEST_PATH_IMAGE124
4.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,所述步骤S2中行为
Figure 951591DEST_PATH_IMAGE078
设定包括:
获取动作a, 动作a表示下一状态红绿灯即将变更到的相位,长度为独立红绿灯相位个数,状态空间
Figure 116993DEST_PATH_IMAGE078
利用One-hot编码方式,能够完整表示每一个相位。
5.权利要求1所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,所述步骤S4中获取相应的回报
Figure 479842DEST_PATH_IMAGE074
包括以下内容:
Figure DEST_PATH_IMAGE126
(1)路网畅通率
路网畅通率定义为路网在某一时间段 T 内,交通状态较好的路段里程与路网中所有路段里程的比值,描述了路网总体畅通程度,是路网交通总体运行质量的一个度量,可以用于评价交通管理效果;
Figure DEST_PATH_IMAGE128
其中,
Figure DEST_PATH_IMAGE130
表示T时间段内的路网畅通率;
为路网中所包含路段数,
Figure DEST_PATH_IMAGE132
为第i条路段的长度,
Figure DEST_PATH_IMAGE134
为二值函数,当路段i的交通状态等级属于可接受交通状态时,
Figure 797822DEST_PATH_IMAGE134
=1,否则
Figure 689554DEST_PATH_IMAGE134
=0;
Figure 607832DEST_PATH_IMAGE130
的取值范围为[0,1];
(2)拥堵里程占比
拥堵里程占比是拥挤路段的长度占整个路网的长度的比例,描述了路网整体的运行状态:
Figure DEST_PATH_IMAGE136
其中,CR表示路网拥挤里程占比,
Figure DEST_PATH_IMAGE138
表示拥挤里程占比,
Figure 866381DEST_PATH_IMAGE132
为路段
Figure 288135DEST_PATH_IMAGE132
的长度。
CN202110914300.0A 2021-08-10 2021-08-10 基于群体智能强化学习的交通信号灯优化方法 Active CN113628458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914300.0A CN113628458B (zh) 2021-08-10 2021-08-10 基于群体智能强化学习的交通信号灯优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914300.0A CN113628458B (zh) 2021-08-10 2021-08-10 基于群体智能强化学习的交通信号灯优化方法

Publications (2)

Publication Number Publication Date
CN113628458A CN113628458A (zh) 2021-11-09
CN113628458B true CN113628458B (zh) 2022-10-04

Family

ID=78384203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914300.0A Active CN113628458B (zh) 2021-08-10 2021-08-10 基于群体智能强化学习的交通信号灯优化方法

Country Status (1)

Country Link
CN (1) CN113628458B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN112863206A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于强化学习的交通信号灯控制方法与***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667339B (zh) * 2009-09-23 2011-11-09 北京交通大学 基于实测的城市道路区域交通服务水平建模***和方法
US9037519B2 (en) * 2012-10-18 2015-05-19 Enjoyor Company Limited Urban traffic state detection based on support vector machine and multilayer perceptron
US10187098B1 (en) * 2017-06-30 2019-01-22 At&T Intellectual Property I, L.P. Facilitation of passive intermodulation cancelation via machine learning
WO2019234156A1 (en) * 2018-06-06 2019-12-12 Deepmind Technologies Limited Training spectral inference neural networks using bilevel optimization
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN111243299B (zh) * 2020-01-20 2020-12-15 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN112201060B (zh) * 2020-09-27 2022-05-20 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉***通信号控制方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN112949933B (zh) * 2021-03-23 2022-08-02 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN112863206A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于强化学习的交通信号灯控制方法与***

Also Published As

Publication number Publication date
CN113628458A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
Wu et al. Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks
Liang et al. Deep reinforcement learning for traffic light control in vehicular networks
Zang et al. Metalight: Value-based meta-reinforcement learning for traffic signal control
CN110032782B (zh) 一种城市级智能交通信号控制***及方法
Liang et al. A deep reinforcement learning network for traffic light cycle control
Xu et al. Hierarchically and cooperatively learning traffic signal control
Wang et al. Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning
Jin et al. A group-based traffic signal control with adaptive learning ability
CN107665230A (zh) 用于智能家居控制的用户行为预测模型的训练方法及装置
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
Liang et al. A deep q learning network for traffic lights’ cycle control in vehicular networks
CN110225535A (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
Yan et al. A hybrid metaheuristic algorithm for the multi-objective location-routing problem in the early post-disaster stage.
CN112365724A (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN111414681B (zh) 基于共享深度强化学习的建筑物内疏散仿真方法及***
CN110222848A (zh) 计算机执行的集成模型的确定方法及装置
Li et al. A Bayesian optimization algorithm for the nurse scheduling problem
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN112446538B (zh) 一种基于个性化避险的最优路径获取方法
CN107241135A (zh) 一种卫星网络切换方法及装置
Li et al. Fairness control of traffic light via deep reinforcement learning
CN113628458B (zh) 基于群体智能强化学习的交通信号灯优化方法
Lu et al. A multi-agent adaptive traffic signal control system using swarm intelligence and neuro-fuzzy reinforcement learning
CN112884148A (zh) 嵌入多步规则的混合强化学习训练方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant