CN103324085B

CN103324085B - 基于监督式强化学习的最优控制方法

Info

Publication number: CN103324085B
Application number: CN201310232043.8A
Authority: CN
Inventors: 赵冬斌; 王滨; 刘德荣
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2016-03-02
Anticipated expiration: 2033-06-09
Also published as: CN103324085A

Abstract

本发明提出一种基于监督式强化学习的最优控制方法，包括步骤：步骤1，初始化控制器和评价器的人工神经网络的权值等参数，及一组训练数据集；步骤2，选择一组***状态开始迭代；步骤3，监督式控制器产生初始稳定的控制策略，控制器通过调整自身权值逼近该控制策略；步骤4，控制器生成相应的控制动作，并附加一定的随机噪声作为探索；步骤5，将带有噪声的控制动作施加到被控制的***上，观测下一时刻***的状态和回报；步骤6，调整控制器和评价器的人工神经网络的权重；步骤7，判断当前状态是否满足终止条件，是则进入步骤8，否则回到步骤3；步骤8，判断初始的***状态数据是否已经全部用于训练，是则输出最终的控制器，否则回到步骤2。

Description

基于监督式强化学习的最优控制方法

技术领域

本发明涉及智能控制技术领域，尤其涉及基于监督式强化学习的最优控制方法。

背景技术

在工业生产、航空航天、汽车工程等领域，被控***能够在有限的资源下使用最小的资源来完成控制目标，即最优控制。最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优。性能指标函数是与***状态和所采用的控制策略有关，它能够反映该控制策略在当前以及以后时刻的控制效果。针对离散***性能指标函数可以用数学形式表示如下：

J (x_{k}) = Σ_{n = k}^{\infty} r (x_{n}, u_{n})

其中***运行时间用下标k表示，x_k和u_k分别指k时刻***状态和控制动作。r(·，·)被称为回报函数，反映某一时刻当前***的运行好坏。因此最优控制便是寻找使上式有最优解的控制策略，然而，由于计算的复杂性，最优的控制策略一般是无法直接计算得到的。尤其是车辆的自适应巡航控制问题，在控制车辆速度和车距时，需要针对不同驾驶场景和不同驾驶习惯来进行自适应调节，由此提出了自适应最优控制器的设计问题。

强化学习最初可以追溯到控制论、统计学、心理学、神经***科学、计算机科学的早期研究，现在已经成为一种新的机器学习算法，并逐渐成为研究的热点。强化学习是以和环境互动，并获取环境奖惩来进行学习，并最终获得最优策略。

由于强化学习具有无监督的自适应能力，它的训练过程可以看成是探索和评价的过程，控制器根据自身的状态选择动作，环境给对该动作做出评价和奖惩，最终根据累计回报最大的原则来选择最优控制动作。

然而，由于强化学习的初始训练过程是一个探索的过程，为了实现最优控制目标需要付出较大的搜索代价。因此提出一种搜索代价小、学习成功率高的强化学习最优控制算法显得尤为重要。

发明内容

针对传统的强化学习控制方法训练代价高、学习成功率低的问题，本发明提出一种基于监督式强化学习的最优控制方法。

本发明提出的一种基于监督式强化学习的最优控制方法，该方法包括以下步骤：步骤1，首先初始化控制器和评价器的人工神经网络的权值等参数，和一组训练数据集；步骤2，选取一组训练数据即***状态开始进行迭代学习；步骤3，根据当前时刻的***状态，采用监督式控制器“监督”控制器的人工神经网络学习一个容许可控的控制策略；步骤4，控制器的人工神经网络输出学习到的控制策略，并在此基础上附加一定的随机噪声作为探索，以期获得更好的控制策略；步骤5，根据当前控制策略和当前时刻被控***的状态，生成控制动作并施加到被控***上，获得下一时刻的***状态和***给出的回报；步骤6，根据前一时刻***状态、相应控制动作和下一时刻的***状态，调整控制器、评价器的人工神经网络的权重，获得调整后的控制器和评价器的人工神经网络权重；步骤7，判断当前状态是否满足定义的终止条件，是则进入步骤8，否则返回步骤3继续执行；步骤8，判断是否将选取的训练数据集中的数据全部用于训练，是则输出当前控制器的人工神经网络对应的控制策略作为最优控制策略，否则返回步骤2继续训练。

综上所述，与传统的强化学习控制方法相比，本发明提出的基于监督式强化学习的最优控制方法使用监督式控制器对控制器进行预训练得到初始稳定的控制策略，保证学习过程的100％成功率，而基于初始稳定控制策略的一定范围内的随机探索，有利于寻找最优控制策略，具体优点包括：

1)本发明提出的基于监督式强化学习的最优控制方法不依赖于被控***模型，而是基于采集的***数据，使得该方法具有对真实环境的自适应能力；

2)不论是线性还是非线性***，该方法都能够适用；

3)采用监督式控制器，保证整个算法在运行中，始终能够获得稳定的控制策略并能收敛到最优解，同时也保证了整个算法训练过程100％成功率；

4)控制动作加入了探索噪声，既满足了持续激励条件，避免获得与监督式控制器相同的控制策略，同时也保证了整个***在运行当中不断输出有用的***数据。

附图说明

图1是本发明基于监督式强化学习的最优控制方法流程图；

图2是本发明优选实施例中车辆自适应巡航控制问题示意图；

图3是本发明中基于监督式强化学习的最优控制方法结构框图；

图4是本发明中控制器和评价器的人工神经网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，参照附图，对本发明进行进一步详细说明。

在本发明的方法中，监督式控制器为已有的非最优控制器，如PID控制器等，在开始的训练过程中，监督式控制器赋予控制器一些先验知识，有效的降低强化学习的训练难度。同时导师监督学习不能提供所有的、最优的信息，需要引入强化学习的探索过程实现最优化，而通过评价器可有效地对该探索过程进行评价并反馈给控制器。最终，基于监督式强化学习的最优控制方法能够使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。该方法特别适用于线性或非线性离散***求解最优控制问题。本发明可直接利用实时采集的数据，不依赖于***模型。将车辆的自适应巡航控制作为本发明的研究对象，如图2所示。控制目标是控制车辆刹车踏板或油门开度使车辆能适应不同的驾驶场景和不同的驾驶习惯。

本发明的基于监督式强化学习的最优控制方法包括的基本步骤是：步骤1，由人工神经网络构建控制器和评价器，初始化控制器和评价器的人工神经网络的权值等参数，初始化一组训练数据集；步骤2，选择一组***状态作为训练数据开始迭代；步骤3，根据当前时刻***状态，监督式控制器产生初始稳定的控制策略，控制器的人工神经网络通过调整自身权值逼近这个控制策略；步骤4，控制器的人工神经网络根据当前学习到的控制策略和当前时刻***状态，生成相应的控制动作，并在该控制动作的较小邻域内进行探索，即在此控制动作上附加一定的随机噪声作为探索；步骤5，将带有噪声的控制动作施加到被控制的***上，观测下一时刻***的状态和回报；步骤6，根据已有的***数据观测量，调整控制器和评价器的人工神经网络的权重；步骤7，判断当前状态是否满足终止条件，是则进入步骤8，否则回到步骤3继续调整控制器、评价器的人工神经网络的权重；步骤8，判断初始的***状态数据是否已经全部用于训练，是则输出最终的控制器，否则继续回到步骤2选取***状态继续迭代。

下面结合图1对各步骤进行详细说明。图1是本发明基于监督式强化学习的最优控制方法的流程图。如图1所示，该方法包括以下几个步骤：

步骤1，首先初始化控制器和评价器的人工神经网络的权值等参数，和一组训练数据集，该训练数据集来自真实的***数据。

本发明以车辆自适应巡航控制为例进行说明。图2是车辆自适应巡航控制问题示意图。车辆的自适应巡航控制(ACC：AdaptiveCruiseControl)***是一种先进的驾驶员辅助***(ADAS：AdvancedDriverAssistanceSystem)。其从定速巡航控制(CC：CruiseControl)***发展而来，通过距离传感器实时测量本车与前车的距离和相对速度，计算出合适的油门或刹车的控制量，并进行自动调节实现本车的车速控制或车距控制。在无前车的情况下，ACC***根据驾驶员自设的行驶速度，通过控制发动机油门开度来保持定速行驶，类似于CC***；在检测到有前车的情况下，ACC***能够计算并估计本车能否以当前速度继续行驶，如若不能，ACC***将计算出实现车速或安全车距所需的发动机油门和刹车制动的控制量，通过控制油门和刹车实现车辆的车速和车距控制。在车辆的自适应巡航控制问题上，基于监督式强化学习的最优控制方法所需的训练数据就是本车与前车的距离和相对速度。

步骤2，选取一组训练数据即***状态开始进行迭代学习。

在训练数据集中选取一组训练数据作为控制器和评价器的输入，对控制器和评价器的人工神经网络进行训练学习。

步骤3，根据当前时刻的***状态，采用监督式控制器“监督”控制器的人工神经网络学习一个初始稳定的控制策略。

稳定的控制策略指的是在某一区域内，在任意初始状态下，控制策略能够对被控***进行稳定控制。初始稳定的控制策略不仅保证了相应的性能指标函数是有效的，同时有利于基于监督式强化学习的最优控制方法的在线运行。初始的稳定控制策略不需要是最优的，可以是任意一种稳定的控制策略。在实际应用中，一个被控***的稳定控制策略是很容易得到的，如常见的PID方法、LQR方法、模糊控制等等都可以作为初始的稳定控制策略，由这种初始稳定的控制策略构成的控制器即可作为监督式控制器。在车辆的自适应巡航控制问题上，稳定的控制策略即是能够使后车跟随前车的间距稳定控制在一定范围内。

图3是基于监督式强化学习的最优控制结构图，示出了监督式控制器、控制器、评价器和被控***之间的数据流向，其中u(t)和x(t)分别表示控制动作和该控制动作下的***状态。图4是人工神经网络结构图。人工神经网络结构包括输入、n个隐藏神经元和相应的神经元权重和输出。控制器和评价器的人工神经网络分别用来逼近控制策略和性能指标函数。控制器的人工神经网络用来计算控制动作，而评价器的人工神经网络则用来反映当前控制策略的性能指标，从而改进当前控制策略。神经网络逼近控制策略和性能指标函数可以用如下公式表示：

u^{A} (t) = ω_{a}^{T} (t) σ (v_{a}^{T} (t) X_{a} (t)) - - - (1)

J (t) = ω_{c}^{T} (t) σ (v_{c}^{T} (t) X_{c} (t)) - - - (2)

其中，J和u^A分别表示由人工神经网络逼近的性能指标函数和控制策略。ω_a，v_a和ω_c，v_c分别是控制器和评价器的人工神经网络的权重，T代表矩阵的转置，σ(·)被称为激活函数，其可以为高斯函数或二次函数。对于车辆的自适应巡航控制问题，控制器的输入变量X_a(即图3中的x(t))包括本车与前车的相对速度Δv和相对距离Δd，评价器的输入变量X_c包括X_a，还有相应的控制动作u。控制动作是本车的加速度a_d。根据人工神经网络的逼近性，通过选取合适的人工神经网络结构并调整相应的人工神经网络权重，可以有效的逼近性能指标函数和控制策略。尤其是当被控***是非线性***时，性能指标函数和控制策略是高度非线性函数，无法直接用函数表示时，人工神经网络能够有效地解决相应的问题。

监督式控制器与控制器的人工神经网络的监督误差可表示为：其中u^S(t)为监督式控制器的输出，u^A(t)为控制器的人工神经网络的输出。控制器的人工神经网络的权值调节方法为：

Δ ω_{a}^{S} (t) = - α \frac{{&PartialD; E}_{s} (t)}{{&PartialD; ω}_{a} (t)} = - {ασ}_{a} (t) [ω_{a}^{T} (t) σ_{a} (t) - u^{S} (t)]^{T} - - - (3)

ω_{a} (t + 1) = ω_{a} (t) + Δ ω_{a}^{S} (t) - - - (4)

其中，σ_a(t)为控制器的人工神经网络隐含层激活函数，采用双曲正切函数；α＝0.1是学习速率，下同。

步骤4，控制器的人工神经网络输出学习到的控制策略，并在此基础上附加一定的随机噪声作为探索，以期获得更好的控制策略；

控制器的输出附加一定的噪声后可表示为：

u(t)＝u^A(t)+N(0，χ)(5)

其中N(0，χ)表示均值为0、方差为χ＝0.2的随机数，为探索噪声。u(t)是最终施加到被控***上的控制动作。

步骤5，根据当前控制策略和当前时刻被控***的状态，生成控制动作并施加到被控***上，获得下一时刻的***状态和***给出的回报；

***的累加回报函数定义为：

J (t) = Σ_{k = 0}^{T} γ^{k} r (t + k + 1) - - - (6)

其中，γ为折扣因子，0＜γ≤1，r(t)为t时刻的回报，可由具体问题定义相应的回报函数，也可简单定义为二值形式，如：“0”表示成功，“-1”表示其他。针对车辆的自适应巡航控制问题，折扣因子γ＝0.9；定义二值形式的回报函数，“0”表示训练达到了终止条件，“-1”表示处于其他状态，训练尚未成功。

步骤6，根据前一时刻***状态、相应控制动作和下一时刻的***状态，调整控制器、评价器的人工神经网络的权重，获得调整后的控制器和评价器的人工神经网络权重；

评价器的人工神经网络的预测误差可表示为：其中e_c(t)＝γJ(t)+r(t)-J(t-1)。评价器的人工神经网络的权值更新可表示为：

{Δω}_{c} (t) = - β \frac{{&PartialD; E}_{c} (t)}{{&PartialD; ω}_{c} (t)} - - - (6)

= - βγ σ_{c} (t) [{γω}_{c}^{T} (t) σ_{c} (t) - ω_{c}^{T} (t - 1) σ_{c} (t - 1) + r (t)]^{T}

ω_c(t+1)＝ω_c(t)+Δω_c(t)(7)

其中，σ_c(t)为控制器的人工神经网络隐含层激活函数，采用双曲正切函数；β＝0.3为学习速率，下同。

控制器的人工神经网络的学习误差表示为：其中e_a(t)＝J(t)-U(t)，U(t)为期望的最终值，定义为0。控制器的人工神经网络的权值更新可表示为：

{Δω}_{a}^{C} (t) = - α \frac{{&PartialD; E}_{a} (t)}{{&PartialD; ω}_{a} (t)} = - α ω_{c, n + 1} σ_{a} (t) {[ω_{c}^{T} (t) σ_{c} (t)]}^{T} - - - (8)

ω_{a} (t + 1) = ω_{a} (t) + {Δω}_{a}^{C} (t) - - - (9)

其中w_c，n+1为与控制输入u连接的评价器的人工神经网络权值。

步骤7，判断当前状态是否满足定义的终止条件，是则进入步骤8，否则返回步骤3继续执行；针对车辆的自适应巡航控制问题，定义终止条件为

\{\begin{matrix} | Δv | < 0.072 km / h \\ | Δd | < 0.2 m \end{matrix} - - - (10)

训练过程中，当***的状态满足此条件时，即认为训练成功，得到的回报为“0”，否则得到的回报为“-1”。

步骤8，判断是否将选取的训练数据集中的数据全部用于训练，是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略，否则返回步骤2继续训练。

经过上述步骤1～8后，最终获得的人工神经网络控制器对应的控制策略被认为是最优控制策略。

以上所述的方法步骤，对本发明的目的、技术方案和有益效果进行了进一步详细说明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于监督式强化学习的最优控制方法，其特征在于，该方法包括以下步骤：

步骤1，首先初始化控制器和评价器的人工神经网络的权值参数，和一组训练数据集；

步骤2，选取一组训练数据即***状态开始进行迭代学习；

步骤3，根据当前时刻的***状态，采用监督式控制器监督控制器的人工神经网络学习一个容许可控的控制策略；

其中，所述控制器的在线学***方项的一半定义为监督误差，具体公式表示为：

E_{s} (t) = \frac{1}{2} {[u^{A} (t) - u^{S} (t)]}^{2},

其中u^S(t)为监督式控制器的输出，u^A(t)为控制器的人工神经网络的输出；

然后利用所述监督误差对控制器进行学习，使所述监督误差减小到预定值或者使学习次数达到预定值以获得与所述监督式控制器近似的控制策略；

其中，所述控制器的人工神经网络的权值调节方法为：

{Δω}_{a}^{s} (t) = - α \frac{\partial E_{s} (t)}{\partial ω_{a} (t)} = - {ασ}_{a} (t) {[ω_{a}^{T} (t) σ_{a} (t) - u^{s} (t)]}^{T};

ω_{a} (t + 1) = ω_{a} (t) + {Δω}_{a}^{S} (t);

其中，为控制器的人工神经网络权值的梯度，ω_a(t)为控制器的人工神经网络权值，ω_a(t+1)为控制器的人工神经网络更新后的权值，σ_a(t)为控制器的人工神经网络隐含层激活函数，α为学习速率；

步骤7，判断当前状态是否满足定义的终止条件，是则进入步骤8，否则返回步骤3继续执行；

2.根据权利要求1所述的方法，其特征在于，步骤4中所述控制器获得更好的控制策略的优劣评价由评价器来进行。

3.根据权利要求2所述的方法，其特征在于，步骤4中所述控制器的输出附加一定的噪声后表示为：u(t)＝u^A(t)+N(0，χ)，其中N(0，χ)表示均值为0、方差为χ的随机数。

4.根据权利要求1所述的方法，其特征在于，步骤6中所述评价器的人工神经网络的预测误差定义为：其中e_c(t)＝γJ(t)+r(t)-J(t-1)，J(t)为***的累加回报函数，定义为：

J (t) = Σ_{k = 0}^{T} γ^{k} r (t + k + 1);

其中，γ为折扣因子，0＜γ≤1，r(t)为t时刻的回报，k为从当前开始之后的时刻数；所述评价器的人工神经网络的权值更新表示为：

\begin{matrix} {Δω}_{c} (t) = - β \frac{\partial E_{c} (t)}{\partial ω_{c} (t)} \\ = - {βγσ}_{c} (t) {[{γω}_{c}^{T} (t) σ_{c} (t) - ω_{c}^{T} (t - 1) σ_{c} (t - 1) + r (t)]}^{T} \end{matrix};

ω_c(t+1)＝ω_c(t)+Δω_c(t)；

其中，ω_c(t)为控制器的人工神经网络权值，σ_c(t)为控制器的人工神经网络隐含层激活函数，β为学习速率；

步骤6中所述控制器的人工神经网络的学习误差定义为：其中e_a(t)＝J(t)-U(t)，U(t)为期望的最终目标，所述控制器的人工神经网络的权值更新表示为：

{Δω}_{a}^{C} (t) = - α \frac{\partial E_{a} (t)}{\partial ω_{a} (t)} = - {αω}_{c, n + 1} σ_{a} (t) {[ω_{c}^{T} (t) σ_{c} (t)]}^{T};

ω_{a} (t + 1) = ω_{a} (t) + {Δω}_{a}^{C} (t);

其中，为控制器的人工神经网络权值的梯度，w_c，n+1为与控制输入u连接的评价器的人工神经网络的权值。

5.根据权利要求1所述的方法，其特征在于，步骤6中所述评价器的人工神经网络的学习以及对控制器的人工神经网络的学习过程中，对所述控制器、评价器的人工神经网络的权重只进行一次更新，减少了学习时间。

6.根据权利要求1所述的方法，其特征在于，步骤7中通过判断是否满足所定义的终止条件来判断当前迭代周期是否已经结束。