CN103324085B - 基于监督式强化学习的最优控制方法 - Google Patents

基于监督式强化学习的最优控制方法 Download PDF

Info

Publication number
CN103324085B
CN103324085B CN201310232043.8A CN201310232043A CN103324085B CN 103324085 B CN103324085 B CN 103324085B CN 201310232043 A CN201310232043 A CN 201310232043A CN 103324085 B CN103324085 B CN 103324085B
Authority
CN
China
Prior art keywords
controller
neural network
artificial neural
omega
evaluator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310232043.8A
Other languages
English (en)
Other versions
CN103324085A (zh
Inventor
赵冬斌
王滨
刘德荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310232043.8A priority Critical patent/CN103324085B/zh
Publication of CN103324085A publication Critical patent/CN103324085A/zh
Application granted granted Critical
Publication of CN103324085B publication Critical patent/CN103324085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于监督式强化学习的最优控制方法,包括步骤:步骤1,初始化控制器和评价器的人工神经网络的权值等参数,及一组训练数据集;步骤2,选择一组***状态开始迭代;步骤3,监督式控制器产生初始稳定的控制策略,控制器通过调整自身权值逼近该控制策略;步骤4,控制器生成相应的控制动作,并附加一定的随机噪声作为探索;步骤5,将带有噪声的控制动作施加到被控制的***上,观测下一时刻***的状态和回报;步骤6,调整控制器和评价器的人工神经网络的权重;步骤7,判断当前状态是否满足终止条件,是则进入步骤8,否则回到步骤3;步骤8,判断初始的***状态数据是否已经全部用于训练,是则输出最终的控制器,否则回到步骤2。

Description

基于监督式强化学习的最优控制方法
技术领域
本发明涉及智能控制技术领域,尤其涉及基于监督式强化学习的最优控制方法。
背景技术
在工业生产、航空航天、汽车工程等领域,被控***能够在有限的资源下使用最小的资源来完成控制目标,即最优控制。最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优。性能指标函数是与***状态和所采用的控制策略有关,它能够反映该控制策略在当前以及以后时刻的控制效果。针对离散***性能指标函数可以用数学形式表示如下:
J ( x k ) = Σ n = k ∞ r ( x n , u n )
其中***运行时间用下标k表示,xk和uk分别指k时刻***状态和控制动作。r(·,·)被称为回报函数,反映某一时刻当前***的运行好坏。因此最优控制便是寻找使上式有最优解的控制策略,然而,由于计算的复杂性,最优的控制策略一般是无法直接计算得到的。尤其是车辆的自适应巡航控制问题,在控制车辆速度和车距时,需要针对不同驾驶场景和不同驾驶习惯来进行自适应调节,由此提出了自适应最优控制器的设计问题。
强化学习最初可以追溯到控制论、统计学、心理学、神经***科学、计算机科学的早期研究,现在已经成为一种新的机器学习算法,并逐渐成为研究的热点。强化学习是以和环境互动,并获取环境奖惩来进行学习,并最终获得最优策略。
由于强化学习具有无监督的自适应能力,它的训练过程可以看成是探索和评价的过程,控制器根据自身的状态选择动作,环境给对该动作做出评价和奖惩,最终根据累计回报最大的原则来选择最优控制动作。
然而,由于强化学习的初始训练过程是一个探索的过程,为了实现最优控制目标需要付出较大的搜索代价。因此提出一种搜索代价小、学习成功率高的强化学习最优控制算法显得尤为重要。
发明内容
针对传统的强化学习控制方法训练代价高、学习成功率低的问题,本发明提出一种基于监督式强化学习的最优控制方法。
本发明提出的一种基于监督式强化学习的最优控制方法,该方法包括以下步骤:步骤1,首先初始化控制器和评价器的人工神经网络的权值等参数,和一组训练数据集;步骤2,选取一组训练数据即***状态开始进行迭代学习;步骤3,根据当前时刻的***状态,采用监督式控制器“监督”控制器的人工神经网络学习一个容许可控的控制策略;步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;步骤5,根据当前控制策略和当前时刻被控***的状态,生成控制动作并施加到被控***上,获得下一时刻的***状态和***给出的回报;步骤6,根据前一时刻***状态、相应控制动作和下一时刻的***状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优控制策略,否则返回步骤2继续训练。
综上所述,与传统的强化学习控制方法相比,本发明提出的基于监督式强化学习的最优控制方法使用监督式控制器对控制器进行预训练得到初始稳定的控制策略,保证学习过程的100%成功率,而基于初始稳定控制策略的一定范围内的随机探索,有利于寻找最优控制策略,具体优点包括:
1)本发明提出的基于监督式强化学习的最优控制方法不依赖于被控***模型,而是基于采集的***数据,使得该方法具有对真实环境的自适应能力;
2)不论是线性还是非线性***,该方法都能够适用;
3)采用监督式控制器,保证整个算法在运行中,始终能够获得稳定的控制策略并能收敛到最优解,同时也保证了整个算法训练过程100%成功率;
4)控制动作加入了探索噪声,既满足了持续激励条件,避免获得与监督式控制器相同的控制策略,同时也保证了整个***在运行当中不断输出有用的***数据。
附图说明
图1是本发明基于监督式强化学习的最优控制方法流程图;
图2是本发明优选实施例中车辆自适应巡航控制问题示意图;
图3是本发明中基于监督式强化学习的最优控制方法结构框图;
图4是本发明中控制器和评价器的人工神经网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进行进一步详细说明。
在本发明的方法中,监督式控制器为已有的非最优控制器,如PID控制器等,在开始的训练过程中,监督式控制器赋予控制器一些先验知识,有效的降低强化学习的训练难度。同时导师监督学习不能提供所有的、最优的信息,需要引入强化学习的探索过程实现最优化,而通过评价器可有效地对该探索过程进行评价并反馈给控制器。最终,基于监督式强化学习的最优控制方法能够使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。该方法特别适用于线性或非线性离散***求解最优控制问题。本发明可直接利用实时采集的数据,不依赖于***模型。将车辆的自适应巡航控制作为本发明的研究对象,如图2所示。控制目标是控制车辆刹车踏板或油门开度使车辆能适应不同的驾驶场景和不同的驾驶习惯。
本发明的基于监督式强化学习的最优控制方法包括的基本步骤是:步骤1,由人工神经网络构建控制器和评价器,初始化控制器和评价器的人工神经网络的权值等参数,初始化一组训练数据集;步骤2,选择一组***状态作为训练数据开始迭代;步骤3,根据当前时刻***状态,监督式控制器产生初始稳定的控制策略,控制器的人工神经网络通过调整自身权值逼近这个控制策略;步骤4,控制器的人工神经网络根据当前学习到的控制策略和当前时刻***状态,生成相应的控制动作,并在该控制动作的较小邻域内进行探索,即在此控制动作上附加一定的随机噪声作为探索;步骤5,将带有噪声的控制动作施加到被控制的***上,观测下一时刻***的状态和回报;步骤6,根据已有的***数据观测量,调整控制器和评价器的人工神经网络的权重;步骤7,判断当前状态是否满足终止条件,是则进入步骤8,否则回到步骤3继续调整控制器、评价器的人工神经网络的权重;步骤8,判断初始的***状态数据是否已经全部用于训练,是则输出最终的控制器,否则继续回到步骤2选取***状态继续迭代。
下面结合图1对各步骤进行详细说明。图1是本发明基于监督式强化学习的最优控制方法的流程图。如图1所示,该方法包括以下几个步骤:
步骤1,首先初始化控制器和评价器的人工神经网络的权值等参数,和一组训练数据集,该训练数据集来自真实的***数据。
本发明以车辆自适应巡航控制为例进行说明。图2是车辆自适应巡航控制问题示意图。车辆的自适应巡航控制(ACC:AdaptiveCruiseControl)***是一种先进的驾驶员辅助***(ADAS:AdvancedDriverAssistanceSystem)。其从定速巡航控制(CC:CruiseControl)***发展而来,通过距离传感器实时测量本车与前车的距离和相对速度,计算出合适的油门或刹车的控制量,并进行自动调节实现本车的车速控制或车距控制。在无前车的情况下,ACC***根据驾驶员自设的行驶速度,通过控制发动机油门开度来保持定速行驶,类似于CC***;在检测到有前车的情况下,ACC***能够计算并估计本车能否以当前速度继续行驶,如若不能,ACC***将计算出实现车速或安全车距所需的发动机油门和刹车制动的控制量,通过控制油门和刹车实现车辆的车速和车距控制。在车辆的自适应巡航控制问题上,基于监督式强化学习的最优控制方法所需的训练数据就是本车与前车的距离和相对速度。
步骤2,选取一组训练数据即***状态开始进行迭代学习。
在训练数据集中选取一组训练数据作为控制器和评价器的输入,对控制器和评价器的人工神经网络进行训练学习。
步骤3,根据当前时刻的***状态,采用监督式控制器“监督”控制器的人工神经网络学习一个初始稳定的控制策略。
稳定的控制策略指的是在某一区域内,在任意初始状态下,控制策略能够对被控***进行稳定控制。初始稳定的控制策略不仅保证了相应的性能指标函数是有效的,同时有利于基于监督式强化学习的最优控制方法的在线运行。初始的稳定控制策略不需要是最优的,可以是任意一种稳定的控制策略。在实际应用中,一个被控***的稳定控制策略是很容易得到的,如常见的PID方法、LQR方法、模糊控制等等都可以作为初始的稳定控制策略,由这种初始稳定的控制策略构成的控制器即可作为监督式控制器。在车辆的自适应巡航控制问题上,稳定的控制策略即是能够使后车跟随前车的间距稳定控制在一定范围内。
图3是基于监督式强化学习的最优控制结构图,示出了监督式控制器、控制器、评价器和被控***之间的数据流向,其中u(t)和x(t)分别表示控制动作和该控制动作下的***状态。图4是人工神经网络结构图。人工神经网络结构包括输入、n个隐藏神经元和相应的神经元权重和输出。控制器和评价器的人工神经网络分别用来逼近控制策略和性能指标函数。控制器的人工神经网络用来计算控制动作,而评价器的人工神经网络则用来反映当前控制策略的性能指标,从而改进当前控制策略。神经网络逼近控制策略和性能指标函数可以用如下公式表示:
u A ( t ) = ω a T ( t ) σ ( v a T ( t ) X a ( t ) ) - - - ( 1 )
J ( t ) = ω c T ( t ) σ ( v c T ( t ) X c ( t ) ) - - - ( 2 )
其中,J和uA分别表示由人工神经网络逼近的性能指标函数和控制策略。ωa,va和ωc,vc分别是控制器和评价器的人工神经网络的权重,T代表矩阵的转置,σ(·)被称为激活函数,其可以为高斯函数或二次函数。对于车辆的自适应巡航控制问题,控制器的输入变量Xa(即图3中的x(t))包括本车与前车的相对速度Δv和相对距离Δd,评价器的输入变量Xc包括Xa,还有相应的控制动作u。控制动作是本车的加速度ad。根据人工神经网络的逼近性,通过选取合适的人工神经网络结构并调整相应的人工神经网络权重,可以有效的逼近性能指标函数和控制策略。尤其是当被控***是非线性***时,性能指标函数和控制策略是高度非线性函数,无法直接用函数表示时,人工神经网络能够有效地解决相应的问题。
监督式控制器与控制器的人工神经网络的监督误差可表示为:其中uS(t)为监督式控制器的输出,uA(t)为控制器的人工神经网络的输出。控制器的人工神经网络的权值调节方法为:
Δ ω a S ( t ) = - α ∂ E s ( t ) ∂ ω a ( t ) = - ασ a ( t ) [ ω a T ( t ) σ a ( t ) - u S ( t ) ] T - - - ( 3 )
ω a ( t + 1 ) = ω a ( t ) + Δ ω a S ( t ) - - - ( 4 )
其中,σa(t)为控制器的人工神经网络隐含层激活函数,采用双曲正切函数;α=0.1是学习速率,下同。
步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;
控制器的输出附加一定的噪声后可表示为:
u(t)=uA(t)+N(0,χ)(5)
其中N(0,χ)表示均值为0、方差为χ=0.2的随机数,为探索噪声。u(t)是最终施加到被控***上的控制动作。
步骤5,根据当前控制策略和当前时刻被控***的状态,生成控制动作并施加到被控***上,获得下一时刻的***状态和***给出的回报;
***的累加回报函数定义为:
J ( t ) = Σ k = 0 T γ k r ( t + k + 1 ) - - - ( 6 )
其中,γ为折扣因子,0<γ≤1,r(t)为t时刻的回报,可由具体问题定义相应的回报函数,也可简单定义为二值形式,如:“0”表示成功,“-1”表示其他。针对车辆的自适应巡航控制问题,折扣因子γ=0.9;定义二值形式的回报函数,“0”表示训练达到了终止条件,“-1”表示处于其他状态,训练尚未成功。
步骤6,根据前一时刻***状态、相应控制动作和下一时刻的***状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;
评价器的人工神经网络的预测误差可表示为:其中ec(t)=γJ(t)+r(t)-J(t-1)。评价器的人工神经网络的权值更新可表示为:
Δω c ( t ) = - β ∂ E c ( t ) ∂ ω c ( t ) - - - ( 6 )
= - βγ σ c ( t ) [ γω c T ( t ) σ c ( t ) - ω c T ( t - 1 ) σ c ( t - 1 ) + r ( t ) ] T
ωc(t+1)=ωc(t)+Δωc(t)(7)
其中,σc(t)为控制器的人工神经网络隐含层激活函数,采用双曲正切函数;β=0.3为学习速率,下同。
控制器的人工神经网络的学习误差表示为:其中ea(t)=J(t)-U(t),U(t)为期望的最终值,定义为0。控制器的人工神经网络的权值更新可表示为:
Δω a C ( t ) = - α ∂ E a ( t ) ∂ ω a ( t ) = - α ω c , n + 1 σ a ( t ) [ ω c T ( t ) σ c ( t ) ] T - - - ( 8 )
ω a ( t + 1 ) = ω a ( t ) + Δω a C ( t ) - - - ( 9 )
其中wc,n+1为与控制输入u连接的评价器的人工神经网络权值。
步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;针对车辆的自适应巡航控制问题,定义终止条件为
| &Delta;v | < 0.072 km / h | &Delta;d | < 0.2 m - - - ( 10 )
训练过程中,当***的状态满足此条件时,即认为训练成功,得到的回报为“0”,否则得到的回报为“-1”。
步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略,否则返回步骤2继续训练。
经过上述步骤1~8后,最终获得的人工神经网络控制器对应的控制策略被认为是最优控制策略。
以上所述的方法步骤,对本发明的目的、技术方案和有益效果进行了进一步详细说明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于监督式强化学习的最优控制方法,其特征在于,该方法包括以下步骤:
步骤1,首先初始化控制器和评价器的人工神经网络的权值参数,和一组训练数据集;
步骤2,选取一组训练数据即***状态开始进行迭代学习;
步骤3,根据当前时刻的***状态,采用监督式控制器监督控制器的人工神经网络学习一个容许可控的控制策略;
其中,所述控制器的在线学***方项的一半定义为监督误差,具体公式表示为:
E s ( t ) = 1 2 &lsqb; u A ( t ) - u S ( t ) &rsqb; 2 ,
其中uS(t)为监督式控制器的输出,uA(t)为控制器的人工神经网络的输出;
然后利用所述监督误差对控制器进行学习,使所述监督误差减小到预定值或者使学习次数达到预定值以获得与所述监督式控制器近似的控制策略;
其中,所述控制器的人工神经网络的权值调节方法为:
&Delta;&omega; a s ( t ) = - &alpha; &part; E s ( t ) &part; &omega; a ( t ) = - &alpha;&sigma; a ( t ) &lsqb; &omega; a T ( t ) &sigma; a ( t ) - u s ( t ) &rsqb; T ;
&omega; a ( t + 1 ) = &omega; a ( t ) + &Delta;&omega; a S ( t ) ;
其中,为控制器的人工神经网络权值的梯度,ωa(t)为控制器的人工神经网络权值,ωa(t+1)为控制器的人工神经网络更新后的权值,σa(t)为控制器的人工神经网络隐含层激活函数,α为学习速率;
步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;
步骤5,根据当前控制策略和当前时刻被控***的状态,生成控制动作并施加到被控***上,获得下一时刻的***状态和***给出的回报;
步骤6,根据前一时刻***状态、相应控制动作和下一时刻的***状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;
步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;
步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略,否则返回步骤2继续训练。
2.根据权利要求1所述的方法,其特征在于,步骤4中所述控制器获得更好的控制策略的优劣评价由评价器来进行。
3.根据权利要求2所述的方法,其特征在于,步骤4中所述控制器的输出附加一定的噪声后表示为:u(t)=uA(t)+N(0,χ),其中N(0,χ)表示均值为0、方差为χ的随机数。
4.根据权利要求1所述的方法,其特征在于,步骤6中所述评价器的人工神经网络的预测误差定义为:其中ec(t)=γJ(t)+r(t)-J(t-1),J(t)为***的累加回报函数,定义为:
J ( t ) = &Sigma; k = 0 T &gamma; k r ( t + k + 1 ) ;
其中,γ为折扣因子,0<γ≤1,r(t)为t时刻的回报,k为从当前开始之后的时刻数;所述评价器的人工神经网络的权值更新表示为:
&Delta;&omega; c ( t ) = - &beta; &part; E c ( t ) &part; &omega; c ( t ) = - &beta;&gamma;&sigma; c ( t ) &lsqb; &gamma;&omega; c T ( t ) &sigma; c ( t ) - &omega; c T ( t - 1 ) &sigma; c ( t - 1 ) + r ( t ) &rsqb; T ;
ωc(t+1)=ωc(t)+Δωc(t);
其中,ωc(t)为控制器的人工神经网络权值,σc(t)为控制器的人工神经网络隐含层激活函数,β为学习速率;
步骤6中所述控制器的人工神经网络的学习误差定义为:其中ea(t)=J(t)-U(t),U(t)为期望的最终目标,所述控制器的人工神经网络的权值更新表示为:
&Delta;&omega; a C ( t ) = - &alpha; &part; E a ( t ) &part; &omega; a ( t ) = - &alpha;&omega; c , n + 1 &sigma; a ( t ) &lsqb; &omega; c T ( t ) &sigma; c ( t ) &rsqb; T ;
&omega; a ( t + 1 ) = &omega; a ( t ) + &Delta;&omega; a C ( t ) ;
其中,为控制器的人工神经网络权值的梯度,wc,n+1为与控制输入u连接的评价器的人工神经网络的权值。
5.根据权利要求1所述的方法,其特征在于,步骤6中所述评价器的人工神经网络的学习以及对控制器的人工神经网络的学习过程中,对所述控制器、评价器的人工神经网络的权重只进行一次更新,减少了学习时间。
6.根据权利要求1所述的方法,其特征在于,步骤7中通过判断是否满足所定义的终止条件来判断当前迭代周期是否已经结束。
CN201310232043.8A 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法 Active CN103324085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310232043.8A CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310232043.8A CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Publications (2)

Publication Number Publication Date
CN103324085A CN103324085A (zh) 2013-09-25
CN103324085B true CN103324085B (zh) 2016-03-02

Family

ID=49192902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310232043.8A Active CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Country Status (1)

Country Link
CN (1) CN103324085B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN103702349B (zh) * 2013-12-26 2017-03-01 中国科学院自动化研究所 一种基于稀疏强化学习的传感器网络优化方法
JP6453805B2 (ja) * 2016-04-25 2019-01-16 ファナック株式会社 製品の異常に関連する変数の判定値を設定する生産システム
CN109313540B (zh) * 2016-05-13 2021-12-03 微软技术许可有限责任公司 口语对话***的两阶段训练
US20180218262A1 (en) * 2017-01-31 2018-08-02 Panasonic Intellectual Property Corporation Of America Control device and control method
CN107065561B (zh) * 2017-05-16 2019-11-22 清华大学 两轮自平衡车的机器学习控制方法
DE112017007596T5 (de) * 2017-06-02 2020-02-20 Honda Motor Co., Ltd. Strategieerzeugungsvorrichtung und Fahrzeug
DE102017212839A1 (de) * 2017-07-26 2019-01-31 Robert Bosch Gmbh Kontrollmodul für Künstliche Intelligenz
CN108073076B (zh) * 2017-12-22 2020-08-28 东软集团股份有限公司 车辆控制方法和装置
CN108216233B (zh) * 2017-12-28 2019-10-15 北京经纬恒润科技有限公司 一种自适应巡航***控制参数的标定方法及装置
CN108181816A (zh) * 2018-01-05 2018-06-19 南京航空航天大学 一种基于在线数据的同步策略更新最优控制方法
CN110351558B (zh) * 2018-04-03 2021-05-25 杭州微帧信息科技有限公司 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351561B (zh) * 2018-04-03 2021-05-07 杭州微帧信息科技有限公司 一种用于视频编码优化的高效强化学习训练方法
CN108600002B (zh) * 2018-04-17 2021-02-26 浙江工业大学 一种基于半监督学习的移动边缘计算分流决策方法
CN109190751B (zh) * 2018-07-19 2020-12-22 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109543225B (zh) * 2018-10-19 2022-12-16 东软集团股份有限公司 车辆的控制方案生成方法、装置、存储介质和电子设备
CN109663359B (zh) * 2018-12-06 2022-03-25 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN111324100A (zh) * 2018-12-13 2020-06-23 上汽通用汽车有限公司 一种转毂试验控制***以及一种转毂试验控制方法
CN109739090A (zh) * 2019-01-15 2019-05-10 哈尔滨工程大学 一种自主式水下机器人神经网络强化学习控制方法
CN111505944B (zh) * 2019-01-30 2021-06-11 珠海格力电器股份有限公司 节能控制策略学习方法、实现空调节能控制的方法及装置
CN111091884B (zh) * 2019-12-24 2024-04-05 无锡识凌科技有限公司 一种医院信息集成平台的患者主索引匹配***及方法
CN111142383B (zh) * 2019-12-30 2022-09-23 中国电子科技集团公司信息科学研究院 一种非线性***最优控制器的在线学习方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640491A (en) * 1992-09-14 1997-06-17 Texaco, Inc. Control system using an adaptive neural network for target and path optimization for a multivariable, nonlinear process
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
CN1571982A (zh) * 2002-03-26 2005-01-26 科学与工业研究会 存在仪器噪声和测量误差时人工神经网络模型改进的性能
CN101493677A (zh) * 2008-06-30 2009-07-29 李华嵩 一种神经网络的***控制器结构及***辨识结构
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路***通信号优化控制方法
CN102335872A (zh) * 2011-09-14 2012-02-01 桂林电子科技大学 基于人工神经网络的磨床砂轮自动修整方法和修整装置
CN102645894A (zh) * 2012-04-20 2012-08-22 中国科学院自动化研究所 模糊自适应动态规划方法
CN102937784A (zh) * 2012-10-30 2013-02-20 中冶南方工程技术有限公司 基于人工神经网络的铸坯质量在线预报的控制方法
TW201310180A (zh) * 2011-08-24 2013-03-01 Univ Ishou 獲得薄膜光穿透率製程參數方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640491A (en) * 1992-09-14 1997-06-17 Texaco, Inc. Control system using an adaptive neural network for target and path optimization for a multivariable, nonlinear process
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
CN1571982A (zh) * 2002-03-26 2005-01-26 科学与工业研究会 存在仪器噪声和测量误差时人工神经网络模型改进的性能
CN101493677A (zh) * 2008-06-30 2009-07-29 李华嵩 一种神经网络的***控制器结构及***辨识结构
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路***通信号优化控制方法
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
TW201310180A (zh) * 2011-08-24 2013-03-01 Univ Ishou 獲得薄膜光穿透率製程參數方法
CN102335872A (zh) * 2011-09-14 2012-02-01 桂林电子科技大学 基于人工神经网络的磨床砂轮自动修整方法和修整装置
CN102645894A (zh) * 2012-04-20 2012-08-22 中国科学院自动化研究所 模糊自适应动态规划方法
CN102937784A (zh) * 2012-10-30 2013-02-20 中冶南方工程技术有限公司 基于人工神经网络的铸坯质量在线预报的控制方法

Also Published As

Publication number Publication date
CN103324085A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103324085B (zh) 基于监督式强化学习的最优控制方法
Wang et al. Harmonious lane changing via deep reinforcement learning
CN108437991B (zh) 一种智能电动汽车自适应巡航控制***及其方法
Li et al. Ecological adaptive cruise control for vehicles with step-gear transmission based on reinforcement learning
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN112193280A (zh) 一种重载列车强化学习控制方法及***
CN103217899B (zh) 基于数据的q函数自适应动态规划方法
CN109213148A (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN102109821A (zh) 车辆自适应巡航控制***及方法
CN111439260A (zh) 面向个性化需求的网联商用柴油车巡航行驶优化控制***
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及***
CN112193253B (zh) 一种无人驾驶车辆在变曲率弯道行驶的纵向控制方法
CN110956851A (zh) 一种智能网联汽车协同调度换道方法
Wei et al. End-to-end vision-based adaptive cruise control (ACC) using deep reinforcement learning
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
Selvaraj et al. An ML-aided reinforcement learning approach for challenging vehicle maneuvers
Zhao et al. Supervised adaptive dynamic programming based adaptive cruise control
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
Jiang et al. Path tracking control based on Deep reinforcement learning in Autonomous driving
Kerbel et al. Driver assistance eco-driving and transmission control with deep reinforcement learning
Acquarone et al. Acceleration control strategy for Battery Electric Vehicle based on Deep Reinforcement Learning in V2V driving
US11794780B2 (en) Reward function for vehicles
CN113232651B (zh) 一种基于adhdp的燃油汽车生态自适应巡航控制方法
CN115083149A (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant