CN113501008A - 一种基于强化学习算法的自动驾驶行为决策方法 - Google Patents
一种基于强化学习算法的自动驾驶行为决策方法 Download PDFInfo
- Publication number
- CN113501008A CN113501008A CN202110928217.9A CN202110928217A CN113501008A CN 113501008 A CN113501008 A CN 113501008A CN 202110928217 A CN202110928217 A CN 202110928217A CN 113501008 A CN113501008 A CN 113501008A
- Authority
- CN
- China
- Prior art keywords
- state
- target
- reinforcement learning
- behavior
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆可以完成在巡航,跟车,换道,超车,制动等状态间的切换,基于预先规划的路线完成自主行驶功能。基于强化学习的行为决策***采用了在演员‑评论家(Actor‑Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度。
Description
技术领域
本发明涉及自动驾驶技术领域,涉及了一种用于L4级自动驾驶车辆的基于深度强化学习的行为决策方法。
背景技术
随着汽车保有量的不断增加,随之带来的交通拥堵问题与交通安全问题开始得到越来越多的重视。而发展自动驾驶可以很好的应对这一系列的问题,因此,自动驾驶技术开始受到越来越多的重视,也是未来汽车比不可少的功能之一。自动驾驶***按照层次可以分为环境感知,行为决策,运动控制三个部分。行为决策***的主要功能可以概括为基于上层感知层输入的汽车当前的行驶状态,周围环境信息,以及驾驶任务等信息对驾驶行为进行决策。
发明内容
(一)要解决的技术问题
本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆可以完成在巡航,跟车,换道,超车,制动等状态间的切换,基于预先规划的路线完成自主行驶功能。
(二)发明内容
为实现上述目的,本发明实施例提供如下技术方案:一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆完成各种行驶状态间的切换,其特征是包括以下步骤:
步骤S1:利用有限状态机来建立基于规则的行为决策***,有限状态机可以表示为一个五元组:
F=(S,s0,F,∑,δ)
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策***将自动驾驶车辆的目标进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策***出下一时刻自动驾驶车辆目标状态;
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策***,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策***,基于当前时刻状态与目标输入信息,输出下一时刻车辆目标状态;
步骤S4:建立仲裁***,仲裁***对基于规则的行为决策***与基于强化学习的行为决策***做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态。
作为优选,所述步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
S302:将状态行为集合放入经验池进行存储,***基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态。
作为优选,所述步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi:
τi=<s1 i,a1 i,s2 i,a2 i,...,sn i,an i>,
sn i:第i个序列中第n个状态,
an i:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:D=<(s1,a1),(s2,a2)...,(s2,a2))。
作为优选,所述步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态;
作为优选,所述步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度;二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
每一序列的累计回报Gi可表示为:
基于每一序列的累计回报,可以计算该序列的采样优先级pi:
pi=Gi+ε,
基于每一序列的采样优先级,可以对该序列的采样概率p(i)进行分配,优先级值pi越大,采样概率越大:
采集到的n个序列li *(i=1,2,...,n)组成样本经验池E*={l1 *,l2 *,...,ln *,其中,在序列li中,样本数为ni,每个样本表示为为布尔变量,用于表示状态是否为终止状态。从序列中采样时,每一序列的采样优先级由累计回报来表示,而从样本经验池中采样时,每一样本的采样优先级pi *由样本的TD偏差δi表示:
pi *=|δi|+ε,
样本经验池E*中每一序列li *的样本数为ni *,则样本经验池E*中样本总数可以表示为:
故基于每一样本的采样优先级pi *,可以求得该样本的采样概率p(i)*:
S30222:基于当前的状态st,演员网络Cφ输出当前动作at;
S30223:基于当前的状态st与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新。由于对Q值的估计如果过高,可能会造成,误差的累计,所以选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数;
作为优选,所述步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策***(状态机输出状态)输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策***(神经网络输出状态)输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
本发明通过基于规则的行为决策***,可以在不同环境的道路下快速做出相应的行为决策,同时基于强化学习的行为决策***对基于规则的行为决策***起到互补的作用,训练好的强化学习模块可以学习基于规则的决策***未定义驾驶场景的新的驾驶策略,从而对行为决策***进行更新。同时,基于强化学习的行为决策***采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度,同时,本专利采用了二次采用优先级回放的方法对TD3算法进行了进一步优化,减小了因学习到不理想的策略而使网络训练进入歧途的可能性。
(三)有益效果:
基于规则的行为决策***,可以在不同环境的道路下快速做出相应的行为决策,同时基于强化学习的行为决策***对基于规则的行为决策***起到互补的作用,训练好的强化学习模块可以学习基于规则的决策***未定义驾驶场景的新的驾驶策略,从而对行为决策***进行更新。基于强化学习的行为决策***采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度。
附图说明
图1为本发明实施例提供的一种状态机的状态转移逻辑图;
图2为本发明实施例提供的一种深度强化学习结构的构件图;
图3为本发明实施例提供的一种基于规则与学习的自动驾驶车辆行为决策***具体工作流程图。
具体实施方式
一下通过具体示例对本发明进行详细描述,通过本说明书所揭露的内容,本领域的相关技术人员可以了解到本公开的其他优点与功效。本发明还可以通过另外不同的实施方式加以实施或利用,本说明书中的各项细节也可以在不背离本发明的精神的情况下,基于各种观点与应用而做出修饰与改变。
基于规则与学习的自动驾驶车辆行为决策***具体工作流程如图所示(可参考图3),可以在城市道路环境中,基于感知模块得到的环境信息,并结合车辆当前时刻处于的行驶状态,输出下一时刻的目标行驶状态与对应的状态转移需要的动作,从而使自动驾驶车辆在规划的路线上完成自主行驶。自动驾驶车辆做出的行为决策由两个模块同时生成:一是基于规则的行为决策***;二是基于学习的行为决策***,基于规则的***可以基于基本的规则,快速生成对应决策,而基于学习的行为决策***相比于基于规则的决策***,在陌生环境中完成自学习功能,二者为互补关系。生成的两个决策会经过仲裁模块进行评价,从而输出两者中较优的决策。
本发明中的基于规则与基于学习的自动驾驶车辆行为决策方法具体来说可以包括以下步骤:
步骤S1:利用有限状态机来建立基于规则的行为决策***,有限状态机可以表示为一个五元组:
F=(S,s0,F,∑,δ)
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策***将自动驾驶车辆的目标状态进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策***出下一时刻自动驾驶车辆目标状态;
步骤S2具体可表示为:
前方切入,造成前方切入危险,此时判断前方为危险时,需要该目标的位置与状态信息;
换道时,需要获取前方与后方目标的位置与状态信息;
这些目标所需的状态信息相似,但不同目标的作用完全不同,故考虑设置一个目标ID信息,以对不同目标进行分类,再获取不同目标的状态ID信息,具体包括周围目标(跟车目标,前方切入目标,后方切入目标)的相对位置,速度,加速度信息,同时还需要自车当前的状态和当前车道ID。(可参考图1)
故初步将输入输出接口定义为:
t时刻输入接口:
[stateID(t),laneID,tarID-i,Vxi,Vyi,Xi,Yi,tarlaneID](i=1,2,3..)
stateID:自车当前时刻状态(1:初始化2:跟车3:巡航4:换道5:制动)
laneID:自车当前车道ID(从左至右分别为-1,0,1)
tarID-i:目标i的ID(1:跟车目标2:前方切入目标3:后方切入目标)
Vxi,Vyi:目标i的纵向与横向速度信息
Xi,Yi:目标i的纵向与横向位置信息
tarlaneID:目标i的车道ID。
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策***,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策***,基于当前时刻状态与目标输入信息,基于强化学习的行为决策***输出下一时刻车辆目标状态。
立仲裁***,仲裁***对基于规则的行为决策***与基于强化学习的行为决策***做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态;
步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi:
τi=〈s1 i,a1 i,s2 i,a2 i,...,sn i,an i〉
sn i:第i个序列中第n个状态,
an i:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:
D=<(s1,a1),(s2,a2)...,(s2,a2)>
S302:将状态行为集合放入经验池进行存储,***基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态;
步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态(可参考图2)
S3022:训练步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度。二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
每一序列的累计回报Gi可表示为:
基于每一序列的累计回报,可以计算该序列的采样优先级pi:
pi=Gi+ε
基于每一序列的采样优先级,可以对该序列的采样概率p(i)进行分配,优先级值pi越大,采样概率越大:
采集到的n个序列li *(i=1,2,...,n)组成样本经验池E*={l1 *,l2 *,...,ln *},其中,在序列li中,样本数为ni,每个样本表示为为布尔变量,用于表示状态是否为终止状态。从序列中采样时,每一序列的采样优先级由累计回报来表示,而从样本经验池中采样时,每一样本的采样优先级pi *由样本的TD偏差δi表示:
pi *=|δi|+ε
样本经验池E*中每一序列li *的样本数为ni *,则样本经验池E*中样本总数可以表示为:
故基于每一样本的采样优先级pi *,可以求得该样本的采样概率p(i)*:
S30222:基于当前的状态st,演员网络Cφ输出当前动作at;
S30223:基于当前的状态st与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新。由于对Q值的估计如果过高,可能会造成,误差的累计,所以选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数;
其中,步骤S3024构建的的深度强化学习结构是主要基于TD3算法,是一种基于Actor-Critic算法改进而来的结构。TD3算法的基本框架由6个网络构成:演员(Actor)网络Cφ,演员目标(Actor Target)网络Cφ′,评论家(Critic)网络Qθ1与Qθ2,评论家目标(CriticTarget)网络Qθ1′与Qθ2′。演员网络,演员目标网络,评论家网络,评论家目标网络由卷积神经网络构建而成。
步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策***(状态机输出状态)输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策***(神经网络输出状态)输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
需要说明的是,在本文中,变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (7)
1.一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对围目标信息的感知,自动驾驶车辆完成各种行驶状态间的切换,其特征是包括以下步骤:
步骤S1:利用有限状态机来建立基于规则的行为决策***,有限状态机可以表示为一个五元组:F=(S,s0,F,∑,δ),
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S,
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策***将自动驾驶车辆的目标进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策***出下一时刻自动驾驶车辆目标状态;
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策***,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策***,基于当前时刻状态与目标输入信息,输出下一时刻车辆目标状态;
步骤S4:建立仲裁***,仲裁***对基于规则的行为决策***与基于强化学习的行为决策***做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态。
2.根据权利要求1所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
S302:将状态行为集合放入经验池进行存储,***基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态。
3.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi:
τi=<s1 i,a1 i,s2 i,a2 i,...,sn i,an i>,
sn i:第i个序列中第n个状态,
an i:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:D=<(s1,a1),(s2,a2)...,(s2,a2)>。
4.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态。
5.根据权利要求4所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度;
S30222:基于当前的状态St,演员网络Cφ输出当前动作at;
S30223:基于当前的状态St与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新,选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数。
6.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述二次采样可以分为两步:1)从序列中采样,2)采集的序列组成样本经验池后,再从采样得到序列中进行样本采集。
7.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策***(状态机输出状态)输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策***(神经网络输出状态)输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928217.9A CN113501008B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习算法的自动驾驶行为决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928217.9A CN113501008B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习算法的自动驾驶行为决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113501008A true CN113501008A (zh) | 2021-10-15 |
CN113501008B CN113501008B (zh) | 2023-05-19 |
Family
ID=78015985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110928217.9A Active CN113501008B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习算法的自动驾驶行为决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113501008B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113682312A (zh) * | 2021-09-23 | 2021-11-23 | 中汽创智科技有限公司 | 一种融合深度强化学习的自主换道方法及*** |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114852043A (zh) * | 2022-03-23 | 2022-08-05 | 武汉理工大学 | 一种基于分层回报td3的hev能量管理方法及*** |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180188727A1 (en) * | 2016-12-30 | 2018-07-05 | Baidu Usa Llc | Method and system for operating autonomous driving vehicles based on motion plans |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
US20190367025A1 (en) * | 2018-05-31 | 2019-12-05 | Visteon Global Technologies, Inc. | Adaptive longitudinal control using reinforcement learning |
US20190384291A1 (en) * | 2018-06-19 | 2019-12-19 | Toyota Research Institute, Inc. | Debugging an autonomous driving machine learning model |
CN110901656A (zh) * | 2018-09-17 | 2020-03-24 | 长城汽车股份有限公司 | 用于自动驾驶车辆控制的实验设计方法和*** |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
US10620631B1 (en) * | 2017-12-29 | 2020-04-14 | Apex Artificial Intelligence Industries, Inc. | Self-correcting controller systems and methods of limiting the operation of neural networks to be within one or more conditions |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN111674345A (zh) * | 2020-05-29 | 2020-09-18 | 东风汽车集团有限公司 | 一种适用于高度自动驾驶的网络电气结构 |
CN111752269A (zh) * | 2020-06-30 | 2020-10-09 | 东风商用车有限公司 | 自动驾驶控制器和整车控制器的交互***及方法 |
CN111845773A (zh) * | 2020-07-06 | 2020-10-30 | 北京邮电大学 | 基于强化学习的自动驾驶车辆微观决策方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策***的方法、***和介质 |
CN112009467A (zh) * | 2019-05-30 | 2020-12-01 | 罗伯特·博世有限公司 | 用于自动驾驶***的冗余环境感知跟踪 |
CN112201069A (zh) * | 2020-09-25 | 2021-01-08 | 厦门大学 | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 |
CN112749729A (zh) * | 2019-10-31 | 2021-05-04 | 辉达公司 | 基于比较模型参数的精度训练机器学习模型的处理器和*** |
CN112840350A (zh) * | 2018-10-16 | 2021-05-25 | 法弗人工智能有限公司 | 自动驾驶车辆规划和预测 |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
-
2021
- 2021-08-12 CN CN202110928217.9A patent/CN113501008B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180188727A1 (en) * | 2016-12-30 | 2018-07-05 | Baidu Usa Llc | Method and system for operating autonomous driving vehicles based on motion plans |
US10620631B1 (en) * | 2017-12-29 | 2020-04-14 | Apex Artificial Intelligence Industries, Inc. | Self-correcting controller systems and methods of limiting the operation of neural networks to be within one or more conditions |
US20190367025A1 (en) * | 2018-05-31 | 2019-12-05 | Visteon Global Technologies, Inc. | Adaptive longitudinal control using reinforcement learning |
US20190384291A1 (en) * | 2018-06-19 | 2019-12-19 | Toyota Research Institute, Inc. | Debugging an autonomous driving machine learning model |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
CN110901656A (zh) * | 2018-09-17 | 2020-03-24 | 长城汽车股份有限公司 | 用于自动驾驶车辆控制的实验设计方法和*** |
CN112840350A (zh) * | 2018-10-16 | 2021-05-25 | 法弗人工智能有限公司 | 自动驾驶车辆规划和预测 |
CN112009467A (zh) * | 2019-05-30 | 2020-12-01 | 罗伯特·博世有限公司 | 用于自动驾驶***的冗余环境感知跟踪 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN112749729A (zh) * | 2019-10-31 | 2021-05-04 | 辉达公司 | 基于比较模型参数的精度训练机器学习模型的处理器和*** |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN111674345A (zh) * | 2020-05-29 | 2020-09-18 | 东风汽车集团有限公司 | 一种适用于高度自动驾驶的网络电气结构 |
CN111752269A (zh) * | 2020-06-30 | 2020-10-09 | 东风商用车有限公司 | 自动驾驶控制器和整车控制器的交互***及方法 |
CN111845773A (zh) * | 2020-07-06 | 2020-10-30 | 北京邮电大学 | 基于强化学习的自动驾驶车辆微观决策方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策***的方法、***和介质 |
CN112201069A (zh) * | 2020-09-25 | 2021-01-08 | 厦门大学 | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
CN113044064A (zh) * | 2021-04-01 | 2021-06-29 | 南京大学 | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113682312A (zh) * | 2021-09-23 | 2021-11-23 | 中汽创智科技有限公司 | 一种融合深度强化学习的自主换道方法及*** |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114237267B (zh) * | 2021-11-02 | 2023-11-24 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114852043A (zh) * | 2022-03-23 | 2022-08-05 | 武汉理工大学 | 一种基于分层回报td3的hev能量管理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113501008B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113501008A (zh) | 一种基于强化学习算法的自动驾驶行为决策方法 | |
CN110834644B (zh) | 一种车辆控制方法、装置、待控制车辆及存储介质 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Zhang et al. | Query-efficient imitation learning for end-to-end simulated driving | |
CN113291308B (zh) | 一种考虑驾驶行为特性的车辆自学习换道决策***及方法 | |
CN109711557B (zh) | 一种行车轨迹预测方法、计算机设备及存储介质 | |
US11260872B2 (en) | System and method for utilizing a temporal recurrent network for online action detection | |
Forbes et al. | The batmobile: Towards a bayesian automated taxi | |
Sun et al. | Behavior planning of autonomous cars with social perception | |
EP3837633A2 (en) | Driving scenarios for autonomous vehicles | |
CN111845773B (zh) | 基于强化学习的自动驾驶车辆微观决策方法 | |
CN110861634B (zh) | 交互感知决策 | |
CN115516464A (zh) | 通过停放的车辆的处理能力进行的ann训练 | |
CN112015842B (zh) | 自行车轨迹预测的自动驾驶车辆风险评估方法及*** | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN114358128A (zh) | 一种训练端到端的自动驾驶策略的方法 | |
CN115257745A (zh) | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 | |
US11465611B2 (en) | Autonomous vehicle behavior synchronization | |
CN114035575B (zh) | 基于语义分割的无人驾驶车辆运动规划方法及*** | |
CN113511222A (zh) | 场景自适应式车辆交互行为决策与预测方法及装置 | |
JP2019010967A (ja) | 自動制御装置およびその制御方法 | |
WO2021008798A1 (en) | Training of a convolutional neural network | |
CN115034281A (zh) | 一种基于RoboSim的自动驾驶行为决策模型的构建方法 | |
CN115719478A (zh) | 一种独立于无关信息的加速强化学习的端到端自动驾驶方法 | |
CN115092181A (zh) | 车辆的控制方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |