CN110347155A - 一种智能车辆自动驾驶控制方法及*** - Google Patents
一种智能车辆自动驾驶控制方法及*** Download PDFInfo
- Publication number
- CN110347155A CN110347155A CN201910562566.6A CN201910562566A CN110347155A CN 110347155 A CN110347155 A CN 110347155A CN 201910562566 A CN201910562566 A CN 201910562566A CN 110347155 A CN110347155 A CN 110347155A
- Authority
- CN
- China
- Prior art keywords
- subtask
- driving
- intelligent vehicle
- neural network
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000006399 behavior Effects 0.000 claims abstract description 27
- 230000007613 environmental effect Effects 0.000 claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种智能车辆自动驾驶控制方法及***,属于智能驾驶技术领域,解决了现有自动驾驶无法很好地自适应完成在线学习的问题。一种智能车辆自动驾驶控制方法,步骤如下:获取智能车辆全局行驶规划路径,将全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;根据当前的驾驶子任务,采集驾驶子任务对应的环境信息,处理环境信息得到所述驾驶子任务对应的状态量;将状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;根据动作量,得到智能车辆的底层控制量,并基于底层控制量控制智能车辆运行。实现了智能车辆自动驾驶的自适应在线学习。
Description
技术领域
本发明涉及智能驾驶技术领域,尤其涉及一种智能车辆自动驾驶控制方法及***。
背景技术
随着传感技术、人工智能技术、计算机技术的发展,智能交通***逐渐兴起。具有高度自动化水平的驾驶员行为学习***引起了公众和研究机构的持续关注,并取得长足的发展与进步。
在军事领域,驾驶员行为学***台颇具益处;在民用领域,驾驶员行为学***顺性、舒适性差等。
发明内容
鉴于上述的分析,本发明旨在提供一种智能车辆自动驾驶控制方法及***,用以解决现有自动驾驶无法很好地自适应完成在线学习的问题。
本发明的目的主要是通过以下技术方案实现的:
一种智能车辆自动驾驶控制方法,包括如下步骤:
获取智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;
根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;
将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;
根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行。
在上述方案的基础上,本发明还做了如下改进:
进一步,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务,包括:
根据道路环境的不同,将所述全局行驶规划路径至少分解为直行路段、十字交叉路段;
根据驾驶任务,将所述直行路段的驾驶子任务划分为车道保持子任务或车道变更子任务;将十字交叉路段的驾驶子任务划分为路口左/右转子任务或直行子任务。
进一步,根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量,包括:
当所述驾驶子任务为所述车道保持子任务时,采集的环境信息为:前车与本车的速度信息、距离信息;此时的状态量为:前车车速与本车车速之间的差值、两车间距与期望车距之间的差值;
当所述驾驶子任务为所述车道变更子任务时,采集的环境信息为:本车和待变更车道上与本车相距预设范围内所有车辆的速度信息、距离信息;此时的状态量信息为:待变更车道上与本车相距预设范围内所有车辆中车速最大值与本车车速之间的差值、待变更车道上距本车最近的车辆与本车之间的距离;
当所述驾驶子任务为所述路口左/右转子任务或直行子任务时,采集的环境信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息;此时的状态量信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息。
进一步,所述驾驶员行为学习模型包括类型选择层、结构选择层、参数学习层;
所述驾驶员行为学习模型在训练过程中,具体执行以下操作:
根据当前的驾驶子任务,通过类型选择层选择与所述驾驶子任务相适应的神经网络类型、通过结构选择层选择与所述驾驶子任务相适应的神经网络结构参数,并将所述神经网络类型、神经网络结构参数选择结果发送至参数学习层;
所述参数学习层根据所述神经网络类型、神经网络结构参数确定当前神经网络学习模型的结构;
采用基于值函数的强化学习方法,训练所述参数学习层,直至所述神经网络学习模型收敛。
进一步,所述类型选择层中可选的神经网络类型至少包括前馈神经网络、深度学习神经网络;
当所述驾驶子任务为车道保持子任务或车道变更子任务时,所述类型选择层选择的神经网络类型为前馈神经网络;
当所述驾驶子任务为路口左/右转子任务或直行子任务时,所述类型选择层选择的神经网络类型为深度学习神经网络。
进一步,通过结构选择层选择与驾驶子任务相适应的神经网络结构参数,包括:
根据选用的强化学习方法及当前驾驶子任务确定输入层、输出层的节点数;
根据驾驶子任务的复杂程度确定隐含层层数:当所述驾驶子任务为车道保持子任务时或车道变更子任务时,隐含层层数选用单层形式;当所述驾驶子任务为路口左/右转子任务或直行子任务时,隐含层层数为多层;设定Hxu=[w3 w4]T、Hux=[w3w4]、Huu=[w5],从而得到Q函数的线性表示形式,w1、w2、w3、w4、w5通过神经网络模型的Q函数表达式对输入层节点求偏导解得,其中,Sk表示第k时刻的状态量,Ak表示第k时刻的动作量。
进一步,采用基于值函数的强化学习方法,训练所述参数学习层,直至所述神经网络学习模型收敛,包括:
初始化参数学习层中神经网络的权重参数、激活函数参数,初始化Q(S0,A0)=0、状态量S0和动作量A0;
对每个步数k,执行:
接收当前时刻状态量Sk+1,获取上一时刻状态量Sk和动作Ak;
根据公式计算当前损失Rk;
根据公式Ak+1=-(Huu)-1HuxSk+1=LSk+1计算当前时刻的动作量Ak+1并输出;
根据公式计算当前Q(Sk+1,Ak+1)函数;
根据公式ek=α[Rk+γQ(Sk+1,Ak+1)-Q(Sk,Ak)]计算当前时刻的残差ek;
当连续20个时间步数内残差的绝对值均小于预设值时,即判定神经网络学习模型收敛,此时停止训练。
进一步,当步数k能够被m整除时,根据当前时刻的残差ek,采用梯度下降法调整更新当前神经网络的权重参数和偏置参数:
计算出均方误差:其中,m为批量步长,表示每m个仿真步长更新一次训练参数;λ为权重衰减系数,该项用于防止神经网络训练过程中过拟合的发生。nl表示神经网络的层数。sl表示第l层的节点数。表示第l层的第j个节点与第l+1层的第i个节点间的权重参数;
将所述均方误差作为代价函数,采用梯度下降法调整更新当前神经网络的权重参数和偏置参数。
进一步,根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行,包括:
将所述动作量转变为期望速度,将所述期望速度与实际车速的偏差输入至PID控制器,利用PID控制器处理得到节气门开度和制动油压百分比;
将所述节气门开度和制动油压百分比传递至车辆底层控制器,调节节气门开度和制动油压,实现对车辆的速度控制。
本发明还提供了一种智能车辆自动驾驶控制***,包括:
路径分解模块,用于采集智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;
状态量生成模块,用于根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;
动作量求解模块,用于将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;
执行模块,用于根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行。
本发明有益效果如下:本发明公开的智能车辆自动驾驶控制方法,通过将驾驶任务划分为不同的驾驶子任务,并针对不同的驾驶子任务,通过与之相对应的神经网络模型的训练,得到相应的动作量,并根据该动作量调整智能车辆的运行状态,达到控制智能车辆自动驾驶的目的。能够实现在线学***顺性、舒适性。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例1中的智能车辆自动驾驶控制方法流程图;
图2为本发明中驾驶员行为学习模型训练过程示意图;
图3为本发明实施例2中的智能车辆自动驾驶控制***示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种智能车辆自动驾驶控制方法,流程图如图1所示,步骤如下:
步骤S1:采集智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;具体地,根据道路环境的不同,将所述全局行驶规划路径至少分解为直行路段、十字交叉路段;根据驾驶任务,将所述直行路段的驾驶子任务划分为车道保持子任务或车道变更子任务;将十字交叉路段的驾驶子任务划分为路口左/右转子任务或直行子任务。
步骤S2:根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;具体地,
当所述驾驶子任务为所述车道保持子任务时,采集的环境信息为:前车与本车的速度信息、距离信息;此时的状态量为:前车车速与本车车速之间的差值、两车间距与期望车距之间的差值;
当所述驾驶子任务为所述车道变更子任务时,采集的环境信息为:本车和待变更车道上与本车相距预设范围内所有车辆的速度信息、距离信息;此时的状态量信息为:待变更车道上与本车相距预设范围内所有车辆中车速最大值与本车车速之间的差值、待变更车道上距本车最近的车辆与本车之间的距离;
当所述驾驶子任务为所述路口左/右转子任务或直行子任务时,采集的环境信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息;此时的状态量信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息。
步骤S3:将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;
步骤S4:根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行:将所述动作量转变为期望速度,将所述期望速度与实际车速的偏差输入至PID控制器,利用PID控制器处理得到节气门开度和制动油压百分比;此处的PID控制器还可替换为增量式PID控制器或MPC控制器;将所述节气门开度和制动油压百分比传递至车辆底层控制器,调节节气门开度和制动油压,实现对车辆的速度控制。
上述方法的重点在于驾驶员行为学习模型的训练,因此,本发明给出了具体的训练驾驶员行为学习模型的方法。所述驾驶员行为学习模型包括类型选择层、结构选择层、参数学习层;
所述驾驶员行为学习模型在训练过程中,具体执行以下操作:
步骤S31:根据当前的驾驶子任务,通过类型选择层选择与所述驾驶子任务相适应的神经网络类型、通过结构选择层选择与所述驾驶子任务相适应的神经网络结构参数,并将所述神经网络类型、神经网络结构参数选择结果发送至参数学习层;其中,所述类型选择层中可选的神经网络类型至少包括前馈神经网络、深度学习神经网络;当所述驾驶子任务为车道保持子任务时或车道变更子任务时,所述类型选择层选择的神经网络类型为前馈神经网络;当所述驾驶子任务为路口左/右转子任务时,所述类型选择层选择的神经网络类型为深度学习神经网络。根据选用的强化学习方法及当前驾驶子任务确定输入层、输出层的节点数;根据驾驶子任务的复杂程度确定隐含层层数:当所述驾驶子任务为车道保持子任务时或车道变更子任务时,隐含层层数选用单层形式;当所述驾驶子任务为路口左/右转子任务或直行子任务时,隐含层层数为多层;设定Hxu=[w3 w4]T、Hux=[w3w4]、Huu=[w5],从而得到Q函数的线性表示形式w1、w2、w3、w4、w5通过神经网络模型的Q函数表达式对输入层节点求偏导解得,其中,Sk表示第k时刻的状态量,Ak表示第k时刻的动作量。
步骤S32:所述参数学习层根据所述神经网络类型、神经网络结构参数确定当前神经网络学习模型的结构;
步骤S33:采用基于值函数的强化学习方法,训练所述参数学习层,直至所述神经网络学习模型收敛。具体地,
初始化参数学习层中神经网络的权重参数、激活函数参数,初始化Q(S0,A0)=0、状态量S0和动作量A0;
对每个步数k,执行:
接收当前时刻状态量Sk+1,获取上一时刻状态量Sk和动作Ak;
根据公式计算当前损失Rk;
根据公式Ak+1=-(Huu)-1HuxSk+1=LSk+1计算当前时刻的动作量Ak+1并输出;
根据公式计算当前Q(Sk+1,Ak+1)函数;
根据公式ek=α[Rk+γQ(Sk+1,Ak+1)-Q(Sk,Ak)]计算当前时刻的残差ek。
当步数k可以被m整除时,计算出均方误差:其中,m为批量步长,表示每m个仿真步长更新一次训练参数;λ为权重衰减系数,该项用于防止神经网络训练过程中过拟合的发生。nl表示神经网络的层数。sl表示第l层的节点数。表示第l层的第j个节点与第l+1层的第i个节点间的权重参数;将所述均方误差作为代价函数,采用梯度下降法调整更新当前神经网络的权重参数和偏置参数。
与现有技术相比,本实施例提供的智能车辆自动驾驶控制方法,通过将驾驶任务划分为不同的驾驶子任务,并针对不同的驾驶子任务,通过与之相对应的神经网络模型的训练,得到相应的动作量,并根据该动作量调整智能车辆的运行状态,达到控制智能车辆自动驾驶的目的。能够实现在线学***顺性、舒适性。
实施例2
本发明实施例2给出了另一种训练驾驶员行为学习模型的方法,如图2所示。
当驾驶子任务为车道保持子任务或车道变更子任务时,由于该类学习任务较为简单,模型并不复杂。因此选择结构简单,求解速度快的前馈神经网络。输入层、输出层节点数根据所采取的强化学习方法而定。隐含层层数优先选用单层形式,以简化模型,避免出现过拟合。隐含层节点数可根据经验公式(m为隐含层节点数,n为输入层节点数,l为输出层节点数)确定。输出层的激活函数通常选择线性函数以简化训练,输入层和隐含层的激活函数通常选择tanh型激活函数。例如,采取Neural Q-Learning的强化学习方法时,将神经网络模型所逼近的Q函数进行参数简化假设,得到Q函数的线性形式,进而确定输入层节点个数,输出层节点为Q值。当驾驶子任务为路口左/右转子任务或直行子任务时,由于该类学习任务需要考虑多名交通参与者的交互情况,整个过程较复杂。因此选择隐含层数较多的深度神经网络。输入层、输出层节点数根据所采取的强化学习方法而定。隐含层层数优先选用双层形式,以简化模型,避免出现过拟合。隐含层节点数可根据经验公式(m为隐含层节点数,n为输入层节点数,l为输出层节点数)确定。
选择好神经网络类型及神经网络输入层节点数、输出层节点数、隐含层个数及激活函数的形式后,即可初始化训练参数值并建立神经网络模型来逼近Q函数。
以驾驶子任务为车道保持子任务为例,Q函数及神经网络模型建立的示例如下:
步骤1、根据强化学习方法,定义状态量、动作量及Q函数。将Q函数定义为状态量定义为Sk=[s1 s2]T。其中,s1=vlk-vhk(vlk为前车车速,vhk为本车车速)和s2=dk-dE(dk为两车间距,dE为期望车距)。动作量定义为Ak。Hxx、Hxu、Hux、Huu是与***损失相关的二次型矩阵。
步骤2、对Q函数相关参数进行适当简化假设,构建线性函数模型。假定Hxu=[w3 w4]T、Hux=[w3 w4]、Huu=[w5],代入上述Q函数得到线性模型:Q=wTx=[w1 w2 w3 w4 w5][s1 2 s2 2 2s1a 2s2a a2]T。
步骤3、根据线性Q函数模型,建立神经网络模型。根据步骤S203,采用一个前馈神经网络模型来近似Q函数。该前馈神经网络模型是一个具有单个隐含层的三层全连接式的神经网络。输入层具有五个节点(x=[x1 x2 x3 x4 x5]T=[s1 2 s2 2 2s1a 2s2a a2]T),隐含层具有三个节点,输出层具有一个节点(Q(x)),训练参数具体包括从输入层各个节点到隐含层各个节点、从隐含层各个节点到输出层各个节点的共18个权重参数和隐含层各个节点处的3个偏置参数。初始训练参数取[-2,1]范围内的随机数。
由训练数据集,在每个学习步中由奖励函数计算得到奖励值。根据选择的基于值函数的强化学习方法中的Q值更新公式,进而计算上一学习步(一定状态、一定动作对应)的期望Q值。期望Q值与实际Q值的差值,即残差。进而计算均方误差(MSE),使用梯度下降法对神经网络学习模型训练参数进行更新训练。
利用梯度下降法更新参数的具体步骤如下:
步骤1、计算奖励值。由训练数据集,在每个时刻由奖励函数计算得到奖励值,奖励函数的定义为(k表示不同时刻,C和D为正定矩阵,分别表示状态量和动作量对Rk的权重)。
步骤2、计算残差及均方误差。在第k时刻,期望Q值与实际Q值的差值,即为残差ek=α[Rk+γQ(Sk+1,Ak+1)-Q(Sk,Ak)](α为学习率,γ为折扣系数)。进而可计算出均方误差(MSE)(其中,m为批量步长,表示每m个仿真步长更新一次训练参数。λ为权重衰减系数,该项用于防止神经网络训练过程中过拟合的发生。nl表示神经网络的层数。sl表示第l层的节点数。表示第l层的第j个节点与第l+1层的第i个节点间的权重参数)。
步骤3、将MSE作为代价函数,使用梯度下降法对神经网络学习模型训练参数进行更新训练。首先要明确的是,以Neural Q-Learning强化学习方法为例,神经网络学习模型的参数训练过程实现的目标是第k时刻Q值的函数逼近。神经网络权重参数和偏置参数的更新公式分别为(α为学习率):
此外,训练结果还可以对神经网络结构优化提供依据,例如比较不同隐含层节点数、层数或激活函数类型的神经网络模型的收敛训练速度、收敛值等。当连续20个时间步数内残差的绝对值均小于预设值时,即判定神经网络学习模型收敛,此时停止训练。
步骤4、动作量求解模型的具体实现过程。
Q函数的真值函数定义为本示例选择使用贪心算法来进行动作量的求解。贪心算法的本质为选择某一时刻一定状态下最大Q值对应的动作量作为输出动作量。对于神经网络模型来说,在某一时刻一定状态下,求解Q函数的极值,极值所对应动作量即为输出动作量。对上述真值函数求解极值,可推导动作量求解模型表达式为w3、w4、w5的值可由神经网络模型表达式分别对x3、x4、x5求偏导解得。
实施例3
本发明还公开了一种智能车辆自动驾驶控制***,结构示意图如图3所示,包括:路径分解模块,用于采集智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;状态量生成模块,用于根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;动作量求解模块,用于将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;执行模块,用于根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行。
本发明中***实施例的具体实施过程参见上述方法实施例即可,本实施例在此不再赘述。由于本实施例与上述方法实施例原理相同,所以本***也具有上述方法实施例相应的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种智能车辆自动驾驶控制方法,其特征在于,包括如下步骤:
获取智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;
根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;
将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;
根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行。
2.根据权利要求1所述的智能车辆自动驾驶控制方法,其特征在于,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务,包括:
根据道路环境的不同,将所述全局行驶规划路径至少分解为直行路段、十字交叉路段;
根据驾驶任务,将所述直行路段的驾驶子任务划分为车道保持子任务或车道变更子任务;将十字交叉路段的驾驶子任务划分为路口左/右转子任务或直行子任务。
3.根据权利要求2所述的智能车辆自动驾驶控制方法,其特征在于,根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量,包括:
当所述驾驶子任务为所述车道保持子任务时,采集的环境信息为:前车与本车的速度信息、距离信息;此时的状态量为:前车车速与本车车速之间的差值、两车间距与期望车距之间的差值;
当所述驾驶子任务为所述车道变更子任务时,采集的环境信息为:本车和待变更车道上与本车相距预设范围内所有车辆的速度信息、距离信息;此时的状态量信息为:待变更车道上与本车相距预设范围内所有车辆中车速最大值与本车车速之间的差值、待变更车道上距本车最近的车辆与本车之间的距离;
当所述驾驶子任务为所述路口左/右转子任务或直行子任务时,采集的环境信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息;此时的状态量信息为:本车和路口处与本车相距预设范围内所有车辆的位置、速度信息。
4.根据权利要求3所述的智能车辆自动驾驶控制方法,其特征在于,所述驾驶员行为学习模型包括类型选择层、结构选择层、参数学习层;
所述驾驶员行为学习模型在训练过程中,具体执行以下操作:
根据当前的驾驶子任务,通过类型选择层选择与所述驾驶子任务相适应的神经网络类型、通过结构选择层选择与所述驾驶子任务相适应的神经网络结构参数,并将所述神经网络类型、神经网络结构参数选择结果发送至参数学习层;
所述参数学习层根据所述神经网络类型、神经网络结构参数确定当前神经网络学习模型的结构;
采用基于值函数的强化学习方法,训练所述参数学习层,直至所述神经网络学习模型收敛。
5.根据权利要求4所述的智能车辆自动驾驶控制方法,其特征在于,所述类型选择层中可选的神经网络类型至少包括前馈神经网络、深度学习神经网络;
当所述驾驶子任务为车道保持子任务时或车道变更子任务时,所述类型选择层选择的神经网络类型为前馈神经网络;
当所述驾驶子任务为路口左/右转子任务或直行子任务时,所述类型选择层选择的神经网络类型为深度学习神经网络。
6.根据权利要求5所述的智能车辆自动驾驶控制方法,其特征在于,通过结构选择层选择与驾驶子任务相适应的神经网络结构参数,包括:
根据选用的强化学习方法及当前驾驶子任务确定输入层、输出层的节点数;
根据驾驶子任务的复杂程度确定隐含层层数:当所述驾驶子任务为车道保持子任务或车道变更子任务时,隐含层层数选用单层形式;当所述驾驶子任务为路口左/右转子任务或直行子任务时,隐含层层数为多层;设定Hxu=[w3 w4]T、Hux=[w3 w4]、Huu=[w5],从而得到Q函数的线性表示形式,w1、w2、w3、w4、w5通过神经网络模型的Q函数表达式对输入层节点求偏导解得,其中,Sk表示第k时刻的状态量,Ak表示第k时刻的动作量。
7.根据权利要求4-6中任一项所述的智能车辆自动驾驶控制方法,其特征在于,采用基于值函数的强化学习方法,训练所述参数学习层,直至所述神经网络学习模型收敛,包括:
初始化参数学习层中神经网络的权重参数、激活函数参数,初始化Q(S0,A0)=0、状态量S0和动作量A0;
对每个步数k,执行:
接收当前时刻状态量Sk+1,获取上一时刻状态量Sk和动作Ak;
根据公式计算当前损失Rk;
根据公式Ak+1=-(Huu)-1HuxSk+1=LSk+1计算当前时刻的动作量Ak+1并输出;
根据公式计算当前Q(Sk+1,Ak+1)函数;
根据公式ek=α[Rk+γQ(Sk+1,Ak+1)-Q(Sk,Ak)]计算当前时刻的残差ek;
当连续20个时间步数内残差的绝对值均小于预设值时,即判定神经网络学习模型收敛,此时停止训练。
8.根据权利要求7所述的智能车辆自动驾驶控制方法,其特征在于,
当步数k能够被m整除时,根据当前时刻的残差ek,采用梯度下降法调整更新当前神经网络的权重参数和偏置参数:
计算出均方误差:其中,m为批量步长,表示每m个仿真步长更新一次训练参数;λ为权重衰减系数,该项用于防止神经网络训练过程中过拟合的发生。nl表示神经网络的层数。sl表示第l层的节点数。表示第l层的第j个节点与第l+1层的第i个节点间的权重参数;
将所述均方误差作为代价函数,采用梯度下降法调整更新当前神经网络的权重参数和偏置参数。
9.根据权利要求1所述的智能车辆自动驾驶控制方法,其特征在于,根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行,包括:
将所述动作量转变为期望速度,将所述期望速度与实际车速的偏差输入至PID控制器,利用PID控制器处理得到节气门开度和制动油压百分比;
将所述节气门开度和制动油压百分比传递至车辆底层控制器,调节节气门开度和制动油压,实现对车辆的速度控制。
10.一种智能车辆自动驾驶控制***,其特征在于,包括:
路径分解模块,用于采集智能车辆全局行驶规划路径,将所述全局行驶规划路径分解为不同的行驶路段,并将不同的行驶路段按照驾驶任务划分为相应的驾驶子任务;
状态量生成模块,用于根据当前的驾驶子任务,采集所述驾驶子任务对应的环境信息,处理所述环境信息得到所述驾驶子任务对应的状态量;
动作量求解模块,用于将所述状态量输入至训练好的驾驶员行为学习模型中,经由所述驾驶员行为学习模型处理实时输出动作量;
执行模块,用于根据所述动作量,得到智能车辆的底层控制量,并基于所述底层控制量控制智能车辆运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562566.6A CN110347155B (zh) | 2019-06-26 | 2019-06-26 | 一种智能车辆自动驾驶控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562566.6A CN110347155B (zh) | 2019-06-26 | 2019-06-26 | 一种智能车辆自动驾驶控制方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347155A true CN110347155A (zh) | 2019-10-18 |
CN110347155B CN110347155B (zh) | 2020-11-06 |
Family
ID=68183269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910562566.6A Active CN110347155B (zh) | 2019-06-26 | 2019-06-26 | 一种智能车辆自动驾驶控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347155B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111322164A (zh) * | 2020-03-12 | 2020-06-23 | 宁波洁程汽车科技有限公司 | 一种基于Q-learning的发动机转速控制方法 |
CN112149119A (zh) * | 2020-09-27 | 2020-12-29 | 苏州遐视智能科技有限公司 | 一种用于人工智能***的动态主动安全防御方法、***及存储介质 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
CN112373471A (zh) * | 2021-01-12 | 2021-02-19 | 禾多科技(北京)有限公司 | 用于控制车辆行驶的方法、装置、电子设备和可读介质 |
CN112435464A (zh) * | 2020-10-23 | 2021-03-02 | 江苏大学 | 一种基于q强化学习的高速路主线行驶车辆的接管时间预测***及预测方法 |
CN112991744A (zh) * | 2021-04-28 | 2021-06-18 | 北京科技大学 | 一种适用于长距离城市道路的自动驾驶决策方法及*** |
CN113173163A (zh) * | 2020-01-09 | 2021-07-27 | 通用汽车环球科技运作有限责任公司 | 学习驾驶员偏好并使车道居中控制适应驾驶员行为的***和方法 |
CN113928247A (zh) * | 2021-09-01 | 2022-01-14 | 北京汽车研究总院有限公司 | 车辆辅助驾驶的学习方法及装置 |
CN114394105A (zh) * | 2022-01-26 | 2022-04-26 | 东风汽车集团股份有限公司 | 智能驾驶***管理方法 |
CN115909712A (zh) * | 2021-09-29 | 2023-04-04 | 宁德时代新能源科技股份有限公司 | 行驶速度确定模型的训练方法、行驶速度确定方法及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016159868A (ja) * | 2015-03-05 | 2016-09-05 | 株式会社ジェイテクト | 自動運転装置 |
CN106828495A (zh) * | 2017-02-16 | 2017-06-13 | 奇瑞汽车股份有限公司 | 一种控制车辆行驶的方法及装置 |
CN108749814A (zh) * | 2018-05-24 | 2018-11-06 | 北理慧动(常熟)车辆科技有限公司 | 一种智能驾驶车辆行驶控制方法 |
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
US20190072965A1 (en) * | 2017-09-07 | 2019-03-07 | TuSimple | Prediction-based system and method for trajectory planning of autonomous vehicles |
CN109476306A (zh) * | 2016-07-06 | 2019-03-15 | 日产自动车株式会社 | 行驶控制方法及行驶控制装置 |
CN109624986A (zh) * | 2019-03-01 | 2019-04-16 | 吉林大学 | 一种基于模式切换的驾驶风格的学习巡航控制***及方法 |
CN109669456A (zh) * | 2018-12-26 | 2019-04-23 | 芜湖哈特机器人产业技术研究院有限公司 | 一种agv调度控制*** |
CN109726804A (zh) * | 2019-01-25 | 2019-05-07 | 江苏大学 | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 |
US20190185011A1 (en) * | 2017-12-18 | 2019-06-20 | PlusAI Corp | Method and system for human-like driving lane planning in autonomous driving vehicles |
-
2019
- 2019-06-26 CN CN201910562566.6A patent/CN110347155B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016159868A (ja) * | 2015-03-05 | 2016-09-05 | 株式会社ジェイテクト | 自動運転装置 |
CN109476306A (zh) * | 2016-07-06 | 2019-03-15 | 日产自动车株式会社 | 行驶控制方法及行驶控制装置 |
CN106828495A (zh) * | 2017-02-16 | 2017-06-13 | 奇瑞汽车股份有限公司 | 一种控制车辆行驶的方法及装置 |
US20190072965A1 (en) * | 2017-09-07 | 2019-03-07 | TuSimple | Prediction-based system and method for trajectory planning of autonomous vehicles |
US20190185011A1 (en) * | 2017-12-18 | 2019-06-20 | PlusAI Corp | Method and system for human-like driving lane planning in autonomous driving vehicles |
CN108749814A (zh) * | 2018-05-24 | 2018-11-06 | 北理慧动(常熟)车辆科技有限公司 | 一种智能驾驶车辆行驶控制方法 |
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
CN109669456A (zh) * | 2018-12-26 | 2019-04-23 | 芜湖哈特机器人产业技术研究院有限公司 | 一种agv调度控制*** |
CN109726804A (zh) * | 2019-01-25 | 2019-05-07 | 江苏大学 | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 |
CN109624986A (zh) * | 2019-03-01 | 2019-04-16 | 吉林大学 | 一种基于模式切换的驾驶风格的学习巡航控制***及方法 |
Non-Patent Citations (6)
Title |
---|
URUN DOGAN等: "Autonomous Driving: A Comparison of Machine Learning Techniques by Means of the Prediction of Lane Change Behavior", 《INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS》 * |
ZHENHAI GAO等: "Decision-making method for vehicle longitudinal automatic driving based on reinforcement Q-learning", 《INTERNATIONAL JOURNAL OF ADVANCED ROBOTIC SYSTEMS》 * |
夏伟等: "基于深度强化学习的自动驾驶策略学习方法", 《集成技术》 * |
石乐明等: "《大数据与精准医学》", 31 December 2017, 上海交通大学出版社 * |
陈慧岩等: "《智能车辆理论与应用》", 31 July 2018, 北京理工大学出版社 * |
韦如明: "基于强化学习的移动机器人路径规划研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113173163A (zh) * | 2020-01-09 | 2021-07-27 | 通用汽车环球科技运作有限责任公司 | 学习驾驶员偏好并使车道居中控制适应驾驶员行为的***和方法 |
CN111322164A (zh) * | 2020-03-12 | 2020-06-23 | 宁波洁程汽车科技有限公司 | 一种基于Q-learning的发动机转速控制方法 |
CN111322164B (zh) * | 2020-03-12 | 2022-03-01 | 宁波洁程汽车科技有限公司 | 一种基于Q-learning的发动机转速控制方法 |
CN112162555B (zh) * | 2020-09-23 | 2021-07-16 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
CN112149119A (zh) * | 2020-09-27 | 2020-12-29 | 苏州遐视智能科技有限公司 | 一种用于人工智能***的动态主动安全防御方法、***及存储介质 |
CN112435464A (zh) * | 2020-10-23 | 2021-03-02 | 江苏大学 | 一种基于q强化学习的高速路主线行驶车辆的接管时间预测***及预测方法 |
CN112373471A (zh) * | 2021-01-12 | 2021-02-19 | 禾多科技(北京)有限公司 | 用于控制车辆行驶的方法、装置、电子设备和可读介质 |
CN112991744A (zh) * | 2021-04-28 | 2021-06-18 | 北京科技大学 | 一种适用于长距离城市道路的自动驾驶决策方法及*** |
CN113928247A (zh) * | 2021-09-01 | 2022-01-14 | 北京汽车研究总院有限公司 | 车辆辅助驾驶的学习方法及装置 |
CN113928247B (zh) * | 2021-09-01 | 2023-08-18 | 北京汽车研究总院有限公司 | 车辆辅助驾驶的学习方法及装置 |
CN115909712A (zh) * | 2021-09-29 | 2023-04-04 | 宁德时代新能源科技股份有限公司 | 行驶速度确定模型的训练方法、行驶速度确定方法及设备 |
CN114394105A (zh) * | 2022-01-26 | 2022-04-26 | 东风汽车集团股份有限公司 | 智能驾驶***管理方法 |
CN114394105B (zh) * | 2022-01-26 | 2023-05-12 | 东风汽车集团股份有限公司 | 智能驾驶***管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110347155B (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347155A (zh) | 一种智能车辆自动驾驶控制方法及*** | |
CN110471444A (zh) | 基于自主学习的无人机智能避障方法 | |
Novi et al. | Real-time control for at-limit handling driving on a predefined path | |
CN110806759A (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN111339690A (zh) | 一种基于期望值函数的深度强化学习训练加速方法 | |
CN110134140A (zh) | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 | |
CN106557075A (zh) | 生成最佳的加速/减速的机床 | |
CN108008627A (zh) | 一种并行优化的强化学习自适应pid控制方法 | |
CN107919813A (zh) | 基于模糊神经网络的超声电机转速控制 | |
GB2603064A (en) | Improved machine learning for technical systems | |
CN104408518A (zh) | 基于粒子群优化算法的神经网络学习优化方法 | |
CN110989366B (zh) | 掘进机的控制方法、掘进机与计算机可读存储介质 | |
CN106991493A (zh) | 基于灰色神经网络组合模型的污水处理出水参数预测方法 | |
CN114815882B (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
CN103927451A (zh) | 一种空间机器人***参数在轨辨识方法 | |
CN114253274B (zh) | 基于数据驱动的网联混合车辆编队滚动优化控制方法 | |
Kowalczyk et al. | Artificial potential based control for a large scale formation of mobile robots | |
Byeon et al. | Skill-level-based hybrid shared control for human-automation systems | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
CN116620327A (zh) | 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法 | |
CN109752952A (zh) | 一种获取多维随机分布及强化控制器的方法和装置 | |
CN107651010B (zh) | 基于驾驶员模型的速差转向车辆转向控制器及控制方法 | |
CN116176654A (zh) | 一种场景自适应的轨道交通ato控制*** | |
Osaka et al. | Route optimization for autonomous bulldozer by distributed deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |