CN112991750A - 基于强化学习与生成式对抗网络的局部交通优化方法 - Google Patents
基于强化学习与生成式对抗网络的局部交通优化方法 Download PDFInfo
- Publication number
- CN112991750A CN112991750A CN202110526842.0A CN202110526842A CN112991750A CN 112991750 A CN112991750 A CN 112991750A CN 202110526842 A CN202110526842 A CN 202110526842A CN 112991750 A CN112991750 A CN 112991750A
- Authority
- CN
- China
- Prior art keywords
- training
- traffic
- local traffic
- network
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于强化学习与生成式对抗网络的局部交通优化方法,包括建立训练模型,采用生成对抗网络自主提升模型的准确率,通过训练某个路口检测到的真实车流量数据预测指定时刻的车流量数据;采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表,采用奖赏函数,得到最佳局部交通优化策略,利用强化学习交互式学习的优点,大大提升了交通信号灯周期调整的效率,由某个路口的当前拥堵级别和红绿灯信号灯时间比调整来验证拥堵情况是否有所缓解,以此往复不断优化得到最佳的红绿灯时间比,再利用生成式对抗网络的启发自博弈思想实现对Q学习的有限时间最佳训练,实现局部交通优化,最终得到最优调整方案,从而提升局部交通优化能力。
Description
技术领域
本发明属于交通优化领域,具体涉及一种基于强化学习与生成式对抗网络的局部交通优化方法。
背景技术
传统的局部交通优化方法包括几类典型的控制***,如TRANSYT、SCOOT等,主要通过由车辆检测设备获得的实时数据来优化信号配时,再通过各类通信和信号控制设备实现控制,后来随着计算机技术的快速普及发展,人工智能方法为交通优化提供了新的思路,包括专家***,神经网络等,其中专家***利用交通堵塞与交通运行的联系被应用在控制***中,而神经网络利用其泛化能力,自学习能力被应用于交通量的预测以及交通配时方案的制定中。
目前各种人工智能方法已经被应用到了交通控制与优化当中,然而这类方法在解决局部交通优化问题时都存在局限性,局部交通优化是个庞大的***,专家***所需要的大量的经验知识推理以及知识库的建立会较为困难,不易通过一些定性的知识和关系对交通参数进行描述。传统的人工神经网络因为学习样本的遍历性,容易陷入到局部最优,因此需要结合其他方法来提高泛化能力。目前的方法在解决单路***通优化效果较好。但是在面对复杂路段以及局部交通控制时,明显能力不足。因此,设计一套能够高效的解决局部交通问题的优化方案具有重要意义。
发明内容
本发明要解决的技术问题是提供一种基于强化学习与生成式对抗网络的局部交通优化方法。
为了解决上述技术问题,本发明采用的技术方案是:一种基于强化学习与生成式对抗网络的局部交通优化方法,具体包括以下步骤:S1,建立训练模型,采用生成对抗网络对模型训练速度进行优化,输入某个路口检测到的真实车流量数据输出虚拟车流量数据;S2,采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表,得到局部交通优化方案,采用奖赏函数对局部交通优化方案进行训练,得到最佳局部交通优化方案。
在某些实施方式中,所述步骤S1的具体步骤为:建立生成式对抗网络模型,初始化生成对抗网络中的生成器和判别器,生成式对抗网络训练过程中固定一方,更新另一个网络的参数,交替迭代使得对方的错误最大化,最后生成与真实数据分布相同的虚拟数据分布。
在某些实施方式中,所述步骤S2的具体步骤为:将虚拟车流量数据设定为状态集S,向神经网络输入所述状态集S,输出动作集,其中a为学习效率,对N条车道设置权重并通过奖赏函数获得动作回报值R,向Q学习算法输入真实数据和虚拟数据,动作集从而逼近真实动作,找到最佳动作集,即得到最佳局部交通优化方案。
在某些实施方式中,生成式对抗网络训练过程中所述固定一方为生成器。
本发明的范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案等。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
本发明利用强化学习交互式学习的优点,将周期调整设置为动作,并将交通流量和局部交通运行状况设置为状态和回报,大大提升了交通信号灯周期调整的效率,通过基础数据来训练模型,由状态和动作获取对应的奖赏,即由某个路口的当前拥堵级别和红绿灯信号灯时间比调整来查看拥堵情况是否有所缓解,以此往复调整得到最佳的红绿灯时间比,再利用生成式对抗网络的启发自博弈思想,可以利用有限基础数据来训练生成对抗网络,然后利用生成对抗网络生成的新数据构成虚拟数据并结合基础数据来提高强化学习的速度,创造性地使用生成对抗网络实现对Q学习的最佳训练,即将二者相互结合,从交通信号灯周期方面实现局部交通优化,最终得到最好的调整方案,能够极大地提升局部交通优化效率。
附图说明
附图1为本发明流程框架图;
附图2为生成式对抗网络结构图;
附图3为生成式对抗网络训练过程图;
附图4为局部交通路网示意图;
附图5为交通优化原理示意图。
具体实施方式
以下结合附图对本发明进行说明:
(1)数据集与特征选取
本发明设定一个路口的交通流量作为数据集,本发明研究的为典型十字路口,如图4所示,其状态空间大小为所有的道路上的车流量大小,动作设定为红灯或者绿灯,由道路上的车速大小作为奖赏回报来判断其动作的好坏,将一次红绿灯切换看做一个周期,设定为每三个周期进行一次动作调整,即红绿灯时间比的调整,通过大量的训练找到一个最佳的Q值表,将其应用于具体的十字路口,可以及时的调整信号灯的红绿灯时间比达到优化交通。
(2)具体方案
本发明引入生成式对抗网络用于提升模型对正常数据的训练效果,同时抑制其对异常数据的泛化能力,如图2所示,生成式对抗网络包含一个生成器G与判别器D,生成器G试图产生更接近真实的交通流量样本数据,判别器D试图更完美的分辨真实数据与生成数据,从而生成想要得到的数据,然后用于agent训练,网络结构如图2所示。
生成式对抗网络模型的目标函数如下所示:
其中,为真实数据的分布,为噪音变量,D是判别函数,x是真
实数据,D(x)是判别真实数据的概率,D(G(z))是判别生成数据的概率,训练D使得最大化和,训练G最小化,即最大化D的损失。也可
以将和理解为D的损失,理解为G的损失,
训练过程中固定一方,更新另一个网络的参数,交替迭代使得对方的错误最大化,最终G能
够估测出样本数据的分布,即生成的样本更加的真实。
本实施例中,生成式对抗网络算法思路为首先初始化G和D,然后在每次的迭代过
程中,固定G,训练D;从数据集中选出m个样本点,从一个分布(均匀分布、正态分布等)中选
出m个向量;将m个向量中的向量z作为网络的输入,得到m个生成的数据;训练D来最大化和,训练G最小化;G希望趋近1,
即正类,这样G的损失会最小,D希望真实数据的输出趋近1,生成数据的输出趋近0。
生成式对抗网络训练过程如图3所示,淡色虚线表示生成数据在判别器中对应的分布情况,深色虚线表示真实数据的分布情况,实线表示数据的生成分布情况,图(a),D刚开始训练,本身分类能力有限;图(b),D训练效果较好,可以明显区分生成数据;图(c),实线与深色虚线发生偏移,淡色虚线下降,表明生成数据的概率下降,实线会往淡色虚线高的方向移动,训练过程中,G在提升,G也在影响着D的分布,假设G固定不动,训练D至最优,公式如下:
如图4,交通基本实现原理:信号控制器通过控制信号灯的下一秒状态发出一个动作,从而改变了路边的检测器检测到车道的车速状态,然后获得了奖赏在与环境发生交互的循环过程,所以马尔可夫性质简单表示为:M=<S,A,Ps,a,R>。
具体如图5,设某个十字路口单方向出口一共有N条车道,在每个方向道路上设置检测器用于检测车辆获取车速V,并将该条长L的道路分为M个区域段,可以得到该出口t时刻的状态空间大小,定义为:
本实施例中,设定右转是不受信号灯控制的,所以一个十字路口的状态有四种:南北方向直行,南北方向左转,东西方向直行,东西方向左转,1表示绿灯可以通行,0表示红灯禁止通行,则四种状态有四个动作,用一维二进制数组表示为:[1,0,0,0,]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1],通过改变输入的数组来实现对红绿灯信号时间控制的仿真,以一秒为一个单位,例如输入[1,0,0,0],[1,0,0,0]表示南北方向直行绿灯两秒。
奖赏函数需要能够反映局部交通网络的畅通堵塞情况,通常情况下根据车道的来往车速大小能够很好判段交通状况,平均车速越快说明交通越是良好,由于每个车道的车流量存在大小差异,因此不能直接对区域内所有车道进行平均车速的计算,车流量大的车道对于整个局部网络的平均车速贡献较大,给与其大的比重,奖赏函数公式为:
对于Q值的存储,输入为每个状态,输出为动作,也就是Q值:
将虚拟数据和真实数据用于训练神经网络,从而逼近真实动作值函数,找到最佳策略,也就是所有最佳动作的集合。
学习算法更新公式为:
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于强化学习与生成式对抗网络的局部交通优化方法,其特征在于,具体包括以下步骤:S1,建立训练模型,采用生成对抗网络对模型训练速度进行优化,输入某个路口检测到的真实车流量数据,输出虚拟车流量数据;S2,采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表,得到局部交通优化方案,采用奖赏函数对局部交通优化方案进行训练,得到最佳局部交通优化方案。
2.根据权利要求1所述的基于强化学习与生成式对抗网络的局部交通优化方法,其特征在于,所述步骤S1的具体步骤为:建立生成式对抗网络模型,初始化生成对抗网络中的生成器和判别器,生成式对抗网络训练过程中固定一方,更新另一个网络的参数,交替迭代使得对方的错误最大化,最后生成与真实数据分布相同的虚拟数据分布。
4.根据权利要求2所述的基于强化学习与生成式对抗网络的局部交通优化方法,其特征在于:生成式对抗网络训练过程中所述固定一方为生成器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526842.0A CN112991750B (zh) | 2021-05-14 | 2021-05-14 | 基于强化学习与生成式对抗网络的局部交通优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526842.0A CN112991750B (zh) | 2021-05-14 | 2021-05-14 | 基于强化学习与生成式对抗网络的局部交通优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991750A true CN112991750A (zh) | 2021-06-18 |
CN112991750B CN112991750B (zh) | 2021-11-30 |
Family
ID=76336522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110526842.0A Active CN112991750B (zh) | 2021-05-14 | 2021-05-14 | 基于强化学习与生成式对抗网络的局部交通优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991750B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506450A (zh) * | 2021-07-28 | 2021-10-15 | 浙江海康智联科技有限公司 | 一种基于Qlearning的单点信号配时方案选择方法 |
CN114613170A (zh) * | 2022-03-10 | 2022-06-10 | 湖南大学 | 一种基于强化学习的交通信号灯路口协调控制方法 |
CN115662152A (zh) * | 2022-09-27 | 2023-01-31 | 哈尔滨理工大学 | 一种基于深度学习驱动的城市交通管理自适应*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194612A (zh) * | 2017-06-20 | 2017-09-22 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及*** |
CN111191654A (zh) * | 2019-12-30 | 2020-05-22 | 重庆紫光华山智安科技有限公司 | 道路数据生成方法、装置、电子设备及存储介质 |
CN111311577A (zh) * | 2020-02-14 | 2020-06-19 | 迈拓仪表股份有限公司 | 一种基于生成对抗网络及强化学习的智能渗水检测方法 |
US20200242477A1 (en) * | 2019-01-30 | 2020-07-30 | StradVision, Inc. | Method and device for providing information for evaluating driving habits of driver by detecting driving scenarios occurring during driving |
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
-
2021
- 2021-05-14 CN CN202110526842.0A patent/CN112991750B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194612A (zh) * | 2017-06-20 | 2017-09-22 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及*** |
US20200242477A1 (en) * | 2019-01-30 | 2020-07-30 | StradVision, Inc. | Method and device for providing information for evaluating driving habits of driver by detecting driving scenarios occurring during driving |
CN111191654A (zh) * | 2019-12-30 | 2020-05-22 | 重庆紫光华山智安科技有限公司 | 道路数据生成方法、装置、电子设备及存储介质 |
CN111311577A (zh) * | 2020-02-14 | 2020-06-19 | 迈拓仪表股份有限公司 | 一种基于生成对抗网络及强化学习的智能渗水检测方法 |
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113506450A (zh) * | 2021-07-28 | 2021-10-15 | 浙江海康智联科技有限公司 | 一种基于Qlearning的单点信号配时方案选择方法 |
CN114613170A (zh) * | 2022-03-10 | 2022-06-10 | 湖南大学 | 一种基于强化学习的交通信号灯路口协调控制方法 |
CN114613170B (zh) * | 2022-03-10 | 2023-02-17 | 湖南大学 | 一种基于强化学习的交通信号灯路口协调控制方法 |
CN115662152A (zh) * | 2022-09-27 | 2023-01-31 | 哈尔滨理工大学 | 一种基于深度学习驱动的城市交通管理自适应*** |
Also Published As
Publication number | Publication date |
---|---|
CN112991750B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991750B (zh) | 基于强化学习与生成式对抗网络的局部交通优化方法 | |
Wang et al. | Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
Kothai et al. | A new hybrid deep learning algorithm for prediction of wide traffic congestion in smart cities | |
CN113643528B (zh) | 信号灯控制方法、模型训练方法、***、装置及存储介质 | |
CN114360266B (zh) | 一种网联车探测状态感知的交叉口强化学习信号控制方法 | |
CN113538910B (zh) | 一种自适应的全链条城市区域网络信号控制优化方法 | |
CN113744527B (zh) | 一种面向高速公路合流区的智能靶向疏堵方法 | |
Ma et al. | A deep reinforcement learning approach to traffic signal control with temporal traffic pattern mining | |
CN111739284A (zh) | 基于遗传算法优化模糊控制的交通信号灯智能配时方法 | |
CN113554875B (zh) | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 | |
CN113257016B (zh) | 一种交通信号控制方法、装置以及可读存储介质 | |
CN111126687B (zh) | 一种交通信号的单点离线优化***及方法 | |
CN112950963A (zh) | 一种城市主支路交叉口自适应信号控制优化方法 | |
Lukoševicius et al. | Time warping invariant echo state networks | |
Song et al. | Traffic signal control under mixed traffic with connected and automated vehicles: a transfer-based deep reinforcement learning approach | |
Li et al. | Deep imitation learning for traffic signal control and operations based on graph convolutional neural networks | |
Cao et al. | Design of a traffic junction controller using classifier system and fuzzy logic | |
CN114970058A (zh) | 一种基于信赖域贝叶斯的大规模网络信号控制优化方法 | |
Ghods et al. | A genetic-fuzzy control application to ramp metering and variable speed limit control | |
Arabi et al. | Reinforcement learning-driven attack on road traffic signal controllers | |
Nishikawa et al. | Improvements of the traffic signal control by complex-valued Hopfield networks | |
CN117133138A (zh) | 一种多交叉***通信号协同控制方法 | |
Bang et al. | Safe Merging in Mixed Traffic with Confidence | |
CN116569235A (zh) | 用于交通信号控制的时间检测器扫描图像方法、***和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 35 / F, block a, Suzhou City Life Plaza, 251 pinglong Road, Gusu District, Suzhou City, Jiangsu Province 215000 Patentee after: Jiangsu Boyuxin Information Technology Co.,Ltd. Country or region after: China Address before: 35 / F, block a, Suzhou City Life Plaza, 251 pinglong Road, Gusu District, Suzhou City, Jiangsu Province 215000 Patentee before: Suzhou BOYUXIN Transportation Technology Co.,Ltd. Country or region before: China |