CN112991750A

CN112991750A - 基于强化学习与生成式对抗网络的局部交通优化方法

Info

Publication number: CN112991750A
Application number: CN202110526842.0A
Authority: CN
Inventors: 刘新成; 宣帆; 肖通; 徐璀; 周国冬
Original assignee: Suzhou Boyuxin Transportation Technology Co Ltd
Current assignee: Jiangsu Boyuxin Information Technology Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-06-18
Anticipated expiration: 2041-05-14
Also published as: CN112991750B

Abstract

一种基于强化学习与生成式对抗网络的局部交通优化方法，包括建立训练模型，采用生成对抗网络自主提升模型的准确率，通过训练某个路口检测到的真实车流量数据预测指定时刻的车流量数据；采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表，采用奖赏函数，得到最佳局部交通优化策略，利用强化学习交互式学习的优点，大大提升了交通信号灯周期调整的效率，由某个路口的当前拥堵级别和红绿灯信号灯时间比调整来验证拥堵情况是否有所缓解，以此往复不断优化得到最佳的红绿灯时间比，再利用生成式对抗网络的启发自博弈思想实现对Q学习的有限时间最佳训练，实现局部交通优化，最终得到最优调整方案，从而提升局部交通优化能力。

Description

基于强化学习与生成式对抗网络的局部交通优化方法

技术领域

本发明属于交通优化领域，具体涉及一种基于强化学习与生成式对抗网络的局部交通优化方法。

背景技术

传统的局部交通优化方法包括几类典型的控制***，如TRANSYT、SCOOT等，主要通过由车辆检测设备获得的实时数据来优化信号配时，再通过各类通信和信号控制设备实现控制，后来随着计算机技术的快速普及发展，人工智能方法为交通优化提供了新的思路，包括专家***，神经网络等，其中专家***利用交通堵塞与交通运行的联系被应用在控制***中，而神经网络利用其泛化能力，自学习能力被应用于交通量的预测以及交通配时方案的制定中。

目前各种人工智能方法已经被应用到了交通控制与优化当中，然而这类方法在解决局部交通优化问题时都存在局限性，局部交通优化是个庞大的***，专家***所需要的大量的经验知识推理以及知识库的建立会较为困难，不易通过一些定性的知识和关系对交通参数进行描述。传统的人工神经网络因为学习样本的遍历性，容易陷入到局部最优，因此需要结合其他方法来提高泛化能力。目前的方法在解决单路***通优化效果较好。但是在面对复杂路段以及局部交通控制时，明显能力不足。因此，设计一套能够高效的解决局部交通问题的优化方案具有重要意义。

发明内容

本发明要解决的技术问题是提供一种基于强化学习与生成式对抗网络的局部交通优化方法。

为了解决上述技术问题，本发明采用的技术方案是：一种基于强化学习与生成式对抗网络的局部交通优化方法，具体包括以下步骤：S1，建立训练模型，采用生成对抗网络对模型训练速度进行优化，输入某个路口检测到的真实车流量数据输出虚拟车流量数据；S2，采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表，得到局部交通优化方案，采用奖赏函数对局部交通优化方案进行训练，得到最佳局部交通优化方案。

在某些实施方式中，所述步骤S1的具体步骤为：建立生成式对抗网络模型，初始化生成对抗网络中的生成器和判别器，生成式对抗网络训练过程中固定一方，更新另一个网络的参数，交替迭代使得对方的错误最大化，最后生成与真实数据分布相同的虚拟数据分布。

在某些实施方式中，所述步骤S2的具体步骤为：将虚拟车流量数据设定为状态集S，向神经网络输入所述状态集S，输出动作集

，其中a为学习效率，对N条车道设置权重并通过奖赏函数获得动作回报值R，向Q学习算法输入真实数据和虚拟数据，动作集

从而逼近真实动作，找到最佳动作集

，即得到最佳局部交通优化方案。

在某些实施方式中，生成式对抗网络训练过程中所述固定一方为生成器。

在某些实施方式中，所述状态集S为所有状态

的合集，状态

为单个路口的交通流量，所述动作，即为Q值为周期调整，所述周期为一次红绿灯切换，所述动作集

为所有Q值合集，所述动作回报值R为道路上的车速大小。

本发明的范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案等。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明利用强化学习交互式学习的优点，将周期调整设置为动作，并将交通流量和局部交通运行状况设置为状态和回报，大大提升了交通信号灯周期调整的效率，通过基础数据来训练模型，由状态和动作获取对应的奖赏，即由某个路口的当前拥堵级别和红绿灯信号灯时间比调整来查看拥堵情况是否有所缓解，以此往复调整得到最佳的红绿灯时间比，再利用生成式对抗网络的启发自博弈思想，可以利用有限基础数据来训练生成对抗网络，然后利用生成对抗网络生成的新数据构成虚拟数据并结合基础数据来提高强化学习的速度，创造性地使用生成对抗网络实现对Q学习的最佳训练，即将二者相互结合，从交通信号灯周期方面实现局部交通优化，最终得到最好的调整方案，能够极大地提升局部交通优化效率。

附图说明

附图1为本发明流程框架图；

附图2为生成式对抗网络结构图；

附图3为生成式对抗网络训练过程图；

附图4为局部交通路网示意图；

附图5为交通优化原理示意图。

具体实施方式

以下结合附图对本发明进行说明：

（1）数据集与特征选取

本发明设定一个路口的交通流量作为数据集，本发明研究的为典型十字路口，如图4所示，其状态空间大小为所有的道路上的车流量大小，动作设定为红灯或者绿灯，由道路上的车速大小作为奖赏回报来判断其动作的好坏，将一次红绿灯切换看做一个周期，设定为每三个周期进行一次动作调整，即红绿灯时间比的调整，通过大量的训练找到一个最佳的Q值表，将其应用于具体的十字路口，可以及时的调整信号灯的红绿灯时间比达到优化交通。

（2）具体方案

本发明引入生成式对抗网络用于提升模型对正常数据的训练效果，同时抑制其对异常数据的泛化能力，如图2所示，生成式对抗网络包含一个生成器G与判别器D，生成器G试图产生更接近真实的交通流量样本数据，判别器D试图更完美的分辨真实数据与生成数据，从而生成想要得到的数据，然后用于agent训练，网络结构如图2所示。

生成式对抗网络模型的目标函数如下所示：

，

其中，

为真实数据

的分布，

为噪音变量，D是判别函数，x是真实数据，D(x)是判别真实数据的概率，D(G(z))是判别生成数据的概率，训练D使得最大化

和

，训练G最小化

，即最大化D的损失。也可以将

和

理解为D的损失，

理解为G的损失，训练过程中固定一方，更新另一个网络的参数，交替迭代使得对方的错误最大化，最终G能够估测出样本数据的分布，即生成的样本更加的真实。

本实施例中，生成式对抗网络算法思路为首先初始化G和D，然后在每次的迭代过程中，固定G，训练D；从数据集中选出m个样本点，从一个分布（均匀分布、正态分布等）中选出m个向量；将m个向量中的向量z作为网络的输入，得到m个生成的数据；训练D来最大化

和

，训练G最小化

；G希望

趋近1，即正类，这样G的损失会最小，D希望真实数据的输出趋近1，生成数据的输出

趋近0。

生成式对抗网络训练过程如图3所示，淡色虚线表示生成数据在判别器中对应的分布情况，深色虚线表示真实数据的分布情况，实线表示数据的生成分布情况，图（a），D刚开始训练，本身分类能力有限；图（b），D训练效果较好，可以明显区分生成数据；图（c），实线与深色虚线发生偏移，淡色虚线下降，表明生成数据的概率下降，实线会往淡色虚线高的方向移动，训练过程中，G在提升，G也在影响着D的分布，假设G固定不动，训练D至最优，公式如下：

其中，

为真实数据x的分布，

为生成数据x的分布，随着

愈加趋近

，

趋近0.5，即图（d）状态，也就是最终想要获得训练结果，此时的分布与分布相同，用生成数据和真实数据同时进行强化学习的agent训练。

如图4，交通基本实现原理：信号控制器通过控制信号灯的下一秒状态发出一个动作，从而改变了路边的检测器检测到车道的车速状态，然后获得了奖赏在与环境发生交互的循环过程，所以马尔可夫性质简单表示为：M=<S,A,Ps,a,R>。

具体如图5，设某个十字路口单方向出口一共有N条车道，在每个方向道路上设置检测器用于检测车辆获取车速V，并将该条长L的道路分为M个区域段，可以得到该出口t时刻的状态空间大小，定义为：

，而该路口的状态集合S为所有

的集合。

本实施例中，设定右转是不受信号灯控制的，所以一个十字路口的状态有四种：南北方向直行，南北方向左转，东西方向直行，东西方向左转，1表示绿灯可以通行，0表示红灯禁止通行，则四种状态有四个动作，用一维二进制数组表示为：[1,0,0,0,]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]，通过改变输入的数组来实现对红绿灯信号时间控制的仿真，以一秒为一个单位，例如输入[1,0,0,0],[1,0,0,0]表示南北方向直行绿灯两秒。

奖赏函数需要能够反映局部交通网络的畅通堵塞情况，通常情况下根据车道的来往车速大小能够很好判段交通状况，平均车速越快说明交通越是良好，由于每个车道的车流量存在大小差异，因此不能直接对区域内所有车道进行平均车速的计算，车流量大的车道对于整个局部网络的平均车速贡献较大，给与其大的比重，奖赏函数公式为：

，

其中，

为常数，

表示车道号为i的车道的平均车速，

表示车道i的车流量，

示局部交通网络内所有车道数的总流量，

是设定的标准平均速度，计算得到的速度高于此速度给一正的回报，低于此速度则给一个负的回报。

对于Q值的存储，输入为每个状态，输出为动作，也就是Q值：

，

其中，

为神经网络的参数，输入为状态s，输出动作对应的动作值函数Q 。

利用奖赏函数公式计算,得到上一个动作回报值

。

将虚拟数据和真实数据用于训练神经网络,从而逼近真实动作值函数，找到最佳策略，也就是所有最佳动作的集合。

学习算法更新公式为：

，

其中，a为学习效率，a大则代表

受下一状态影响大。r为奖赏值R,

表示下一个状态集的选择策略。

为折扣率，

越低，学习效率受奖赏值影响越大。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习与生成式对抗网络的局部交通优化方法，其特征在于，具体包括以下步骤：S1，建立训练模型，采用生成对抗网络对模型训练速度进行优化，输入某个路口检测到的真实车流量数据，输出虚拟车流量数据；S2，采用Q学习对真实车流量数据和虚拟车流量数据进行训练输出动作形成Q值表，得到局部交通优化方案，采用奖赏函数对局部交通优化方案进行训练，得到最佳局部交通优化方案。

2.根据权利要求1所述的基于强化学习与生成式对抗网络的局部交通优化方法，其特征在于，所述步骤S1的具体步骤为：建立生成式对抗网络模型，初始化生成对抗网络中的生成器和判别器，生成式对抗网络训练过程中固定一方，更新另一个网络的参数，交替迭代使得对方的错误最大化，最后生成与真实数据分布相同的虚拟数据分布。

3.根据权利要求1所述的基于强化学习与生成式对抗网络的局部交通优化方法，其特征在于，所述步骤S2的具体步骤为：将虚拟车流量数据设定为状态集S，向神经网络输入所述状态集S，输出动作集

从而逼近真实动作，找到最佳动作集

，即得到最佳局部交通优化方案。

4.根据权利要求2所述的基于强化学习与生成式对抗网络的局部交通优化方法，其特征在于：生成式对抗网络训练过程中所述固定一方为生成器。

5.根据权利要求3所述的基于强化学习与生成式对抗网络的局部交通优化方法，其特征在于：所述状态集S为所有状态

的合集，状态

为所有Q值合集，所述动作回报值R为道路上的车速大小。