CN115848369A - 一种基于深度强化学习的个性化自适应巡航***及其控制方法 - Google Patents

一种基于深度强化学习的个性化自适应巡航***及其控制方法 Download PDF

Info

Publication number
CN115848369A
CN115848369A CN202211646001.4A CN202211646001A CN115848369A CN 115848369 A CN115848369 A CN 115848369A CN 202211646001 A CN202211646001 A CN 202211646001A CN 115848369 A CN115848369 A CN 115848369A
Authority
CN
China
Prior art keywords
module
vehicle
network
action
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211646001.4A
Other languages
English (en)
Inventor
姜顺明
吴朋朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202211646001.4A priority Critical patent/CN115848369A/zh
Publication of CN115848369A publication Critical patent/CN115848369A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于深度强化学习的个性化自适应巡航***及其控制方法,基于深度强化学习设计个性化的多目标自适应巡航控制***,基于改进的深度确定性梯度策略,通过设计三种不同控制风格的控制模块,以及对该***的安全性、跟车性及舒适性进行模块化奖励函数的设计满足不同风格驾驶员对于ACC***各性能的需求,通过构建相似度函数,将其用于在线动作网络的更新,使其更加符合人类驾驶员的驾驶习惯,通过经验更新模块,提高了各类型驾驶员高价值经验样本的复用率,有效提升了网络的收敛速度,总体提升了ACC***的个性化及综合性能。

Description

一种基于深度强化学习的个性化自适应巡航***及其控制 方法
技术领域
本发明涉及一种车辆自动控制***,特别提供了一种基于深度强化学习的个性化自适应巡航***及其控制方法,属于车辆辅助驾驶技术领域。
背景技术
随着科学技术的不断进步,汽车也越来越偏向智能化,自动驾驶是今后汽车发展的主要趋势之一。自适应巡航控制(Adaptive cruise control,ACC)***是先进驾驶辅助***(Advanced driving assistance system,ADAS)的重要组成部分,也是自动驾驶较为初级的阶段。ACC***最初是从定速巡航的基础上发展而来,此后又增加了车距保持的功能,通过车载传感器感知前方的行驶环境,控制器根据感知信息做出决策,给出相应的控制量,控制节气门和制动***自动调整车速,提高了驾驶的安全性和舒适性。
自适应巡航***研究的核心部分就是控制方法的设计,一般可分为基于规则和基于学习的控制方法两类。其中基于规则的自适应巡航方法就是根据固定规则对环境做出特定的反应,但是在实际的行车工况中复杂度很高,人为设计的规则难以囊括所有的情况,因此泛化性较差。此外由于决策是基于固定规则,不能够满足人类驾驶员个性化的需求,从而导致ACC***的接受度低。经典的PID控制理论、滑膜控制理论、模糊控制理论、模型预测控制方法等被广泛应用于基于规则的自适应巡航控制方法中。其中利用模型预测控制方法,通过既定规则结合性能指标的方式可实现多目标ACC***的设计,但是缺乏从状态到动作的因果关联性。
而基于学习的自适应巡航控制方法,不需要根据特定的工况制定相应的规则,解决上述问题具有天然的优势。目前很多研究者们都倾向用深度强化学习来设计自适应巡航控制方法,由于深度学习具有强大的感知能力,可作为强化学习特征提取的工具。同时强化学习将车辆看成是一个智能体,通过试错的方式不断地与环境进行交互,寻求最优策略,根据策略使得在特定状态下采取能够获得最大累计回报的动作。将深度学习和强化学习相结合得到的深度强化学习,具有在复杂的坏境下做出合理决策的能力,因此该方法泛化性良好。
目前有很多研究者为了提高ACC***的市场接受率,针对大量驾驶员的行为数据展开了驾驶员驾驶风格的研究;也有不少学者针对ACC多目标协调问题进行了深入研究,但是在设计多目标ACC***的时候忽略了不同风格驾驶员对于ACC***各性能的需求。如何在考虑驾驶风格的基础上有效平衡ACC***各性能,实现个性化及综合性能的提升是ACC研究的重点。
发明内容
发明目的:针对现有技术中存在的不足,本发明提供了一种基于深度强化学习的个性化自适应巡航***及其控制方法。本发明基于深度强化学习设计个性化的多目标自适应巡航控制***,基于改进的深度确定性梯度策略,对自适应巡航***的安全性、跟车性及舒适性进行了模块化奖励函数的设计,此外根据特定的驾驶风格设计了三套不同控制风格的控制模块,以满足不同风格驾驶员对于不同性能的需求。
技术方案:一种基于深度强化学习的个性化自适应巡航***,包括环境感知层、上层控制器、下层控制器和执行机构,所述环境感知层获取的信号输入至上层控制器,上层控制器根据输入的信号转化为控制信号输出给下层控制器,下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构,执行机构根据执行指令运行;
所述环境感知层包括毫米波雷达、车速传感器,毫米波雷达获取探测范围内自车与前车的实际间距d信号和相对车速ΔV信号;车速传感器用于获取自车车速Vt信号;
所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块;
所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块,信号参数记录模块记录由环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块根据上述信号计算出冲击度,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,识别驾驶风格模块根据计算出驾驶员驾驶状态识别系数Rd判断驾驶员的风格,所述驾驶员的风格包括激进型、一般型和保守型三种类型;
所述动作输入计算模块包括激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块,所述激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块分别包括期望距离计算模块、参数计算模块和参数记录模块;
所述深度强化学习模块包括激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块及保守型DDPG_calm控制模块,根据驾驶风格识别器识别出的驾驶风格,选择对应风格的动作输入计算模块和控制模块;
所述下层控制器包括驱动/制动切换模块和期望节气门/制动压力计算模块,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;
所述执行机构包括动力装置控制单元、电子节气门、制动控制单元及制动油缸,动力装置控制单元根据计算出的节气门开度控制电子节气门,制动控制单元根据期望制动压力控制制动油缸。
本发明通过环境感知层采集智能体状态信号传输给上层控制器,上层控制器根据其信号识别出对应的驾驶风格,并切换至对应的驾驶风格控制模式,经过训练得出对应驾驶风格的期望加速度,下层控制器根据该期望加速度,计算出对应的期望节气门开度或制动压力,将其输入至执行机构执行,从而达到在***的基础性能上提升个性化和整体性能,并且满足各种风格驾驶的需求。
一种基于深度强化学习的个性化自适应巡航***的控制方法,包括以下步骤:
步骤一、启动***,毫米波雷达获取探测范围内是否有前车,无前车则保持设定车速行驶,有前车则进入步骤二;
步骤二、采集信号参数,毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度Vt信号;
步骤三、录入信号参数,将步骤二中获得的信号参数输入至信号参数记录模块中并保存;
步骤四、识别驾驶风格,识别驾驶风格模块根据参数记录模块中的信号参数判断当前驾驶员的风格;若判定为激进型,则进入步骤五;若不是激进型则进一步判定是否为一般型,若是一般型,则进入步骤六;若不是一般型则判定为保守型,则进入步骤七;将驾驶员的识别结果存储在识别驾驶风格模块中;
步骤五、切换至激进型控制模式,识别驾驶风格模块判定的驾驶风格为激进型,则将信号参数记录模块中存储的信号参数输入到激进型动作输入计算模块中,输出为本车与前车之间的状态量,激进型DDPG_aggressive控制模块与激进型动作输入计算模块相连,以状态量作为输入,输出为激进型驾驶员的期望加速度;
步骤六、切换至一般型控制模式,识别驾驶风格模块判定的驾驶风格为一般型,则将信号参数记录模块中存储的信号参数输入到一般型动作输入计算模块中,输出为本车与前车之间的状态量,一般型DDPG_normal控制模块与一般型动作输入计算模块相连,以状态量作为输入,输出为一般型驾驶员的期望加速度;
步骤七、切换至保守型控制模式,识别驾驶风格模块判定的驾驶风格为保守型,则将信号参数记录模块中存储的信号参数输入到保守型动作输入计算模块中,输出为本车与前车之间的状态量,保守型DDPG_calm控制模块与保守型动作输入计算模块相连,以状态量作为输入,输出为保守型驾驶员的期望加速度;
步骤八、调节加速度,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速/或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;动力装置控制单元根据节气门开度控制电子节气门或者制动控制单元根据期望制动压力控制制动油缸或者执行机构保持现状;若***持续运行则回到步骤二重复循环至步骤八,若***关闭则进入步骤九;
步骤九、结束,关闭***或停车时,***运行至步骤八后进入步骤九停止运行。
本发明根据特定的驾驶风格设计出三套不同控制风格的控制模块,并且对该***的安全性、跟车性及舒适性进行了模块化奖励函数的设计,通过不同风格的控制模块进行策略训练以及奖励函数的辅助使得该***在不断学习更新策略的同时保证其策略都是高价值经验并且使智能体的学习更加稳定,满足了不同风格驾驶员对于ACC***各性能的需求,提升了该***的个性化及综合性能。
优选项,所述步骤四中识别驾驶风格的方法如下:
S1、计算冲击度,读取由信号参数记录模块记录的环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块接受自车速传感器传来的自车速度Vt信号,根据公式计算出冲击度J(t):
J(t)=d2Vt/d2t (1)
式中,Vt为t时刻自车的行驶速度;
S2、求驾驶员驾驶状态识别系数Rd,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,并将其输入到识别驾驶风格模块,
驾驶员驾驶状态识别系数Rd
Figure BDA0004008613940000041
式中,SDJ为识别周期内冲击度的标准差,
Figure BDA0004008613940000042
为标准驾驶员行驶冲击度的平均值,Ji为i时刻的冲击度,T为识别周期;
S3、判断驾驶员的风格,在识别驾驶风格模块中,根据实时计算的驾驶员驾驶状态识别系数Rd来判断驾驶员的风格,若Rd>aggressivethreshold,则驾驶员的风格为激进型,aggressivethreshold为激进型驾驶员驾驶状态识别系数临界值;若Rd<normalthresho1d,则驾驶员的风格为保守型;若normalthresho1d<Rd<aggressivethreshold,则驾驶员的风格为一般型,最后将驾驶员的识别结果存储在识别驾驶风格模块中。
优选项,所述步骤五、六和七中本车与前车之间的状态量包括距离误差Δd、自车速度Vt和相对速度ΔV;参数计算模块根据期望距离的计算公式ddes=Vt*τ+d0,计算出期望距离ddes,式中,Vt为t时刻自车的行驶速度,τ为跟车时距,d0为安全跟车距离;参数计算模块结合实际距离d、自车速度Vt及相对速度ΔV信号计算出距离误差Δd=d-ddes,将距离误差Δd、自车速度Vt和相对速度ΔV信号参数在参数记录模块予以保存。
选取激进型的跟车间距τ为1s及d0为2m、一般型的跟车间距τ为1.5s及d0为3m和保守型的跟车间距为2s及d0为4m。
优选项,所述步骤五、六和七中激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块和保守型DDPG_calm控制模块的控制策略通过进行训练,训练收敛后获得并分别保存在对应的模块中,以状态量为输入根据控制策略输出期望加速度。
优选项,所述训练方法包括状态量更新模块、经验更新模块、网络参数更新模块和奖励函数模块,所述状态量更新模块将通过环境感知层采集到的数据转换成状态量后输入到经验更新模块更新出高价值经验样本并存储,所述网络参数更新模块随机抽取经验更新模块中的经验样本进行训练并且根据奖励函数模块给予的奖励朝着获得最大奖励的方式进行更新。
优选项,所述状态量更新模块将自车与前车的相对车速ΔV、自车车速Vt、实际间距与期望间距之间的距离误差Δd,作为状态输入,经过网络参数更新模块输出期望的加速度作为状态输出,在t时刻给定状态量,对下一时刻的状态量进行更新,将该状态输入和实际加速度定义为样本经验序列(si,ai,ri,si+1),其中si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,
Vt(t+1)=Vt(t)+a(t)*ΔT
ΔVt-1,t(t+1)=Vt-1(t+1)-Vt(t+1)
Figure BDA0004008613940000051
式中,ΔT为更新的时间步长,Vt-1为前车速度,Vt为自车速度,ΔVt-1,t为自车和前车之间的相对速度,d为自车和前车之间的实际车间距,Δd为实际车间距和期望车间距之间的距离误差,ddes为期望的车间距;
训练开始前初始化状态量:
Vt(t=0)=Vt data(t=0); (4)
d(t=0)=ddata(t=0); (5)
Figure BDA0004008613940000052
式中,Vt(t=0)是训练开始t=0时刻的自车速度,Vt data(t=0)是随机采样的跟车片段中自车在t=0时刻的速度,d(t=0)是训练开始t=0时刻的两车车间距,ddata(t=0)是随机采样的跟车片段中两车在t=0时刻实际的车间距,ΔVt-1,t(t=0)是训练开始t=0时刻自车和前车的相对速度,
Figure BDA0004008613940000053
是随机采样的跟车片段中两车实际的相对速度。
优选项,所述经验更新模块通过筛选高价值样本经验进入对应风格经验池,收集对应风格驾驶员的样本经验(si,ai,ri,si+1),
定义激进型风格驾驶员训练样本的平均奖励
Figure BDA0004008613940000061
为:
Figure BDA0004008613940000062
式中,n是从最开始训练到当前训练所经历的次数,rm是第m次训练获得的奖励;
获取当前经验的奖励ractual,当
Figure BDA0004008613940000063
时,将经验存储至经验池,当
Figure BDA0004008613940000064
Figure BDA0004008613940000065
时,计算概率/>
Figure BDA0004008613940000066
将该经验以概率p存储至经验池,当ractual<0时,将该经验丢弃;
对于一般型风格驾驶员和保守型风格驾驶员采取与激进型风格驾驶员的经验更新模块相同的更新方式,其中,定义一般型风格驾驶员的平均奖励为
Figure BDA0004008613940000067
定义保守型风格驾驶员的平均奖励为/>
Figure BDA0004008613940000068
优选项,所述网络参数更新模块包括动作网络和策略评价网络,所述动作网络包括在线动作网络和目标动作网络,所述策略评价网络包括在线动作评价网络和目标动作评价网络,所述动作网络基于自车和前车的状态量输出确定性的期望加速度,所述策略评价网络基于在线动作网络采取的动作好坏输出动作价值评价函数:Q(s,a|θQ),
定义在线动作网络参数为θμ;目标动作网络参数为θμ′;在线动作评价网络参数为θQ;目标动作评价网络参数为θQ′
动作网络更新:
随机采集N(si,ai,ri,si+1)个样本进行训练,在线动作网络根据样本中的si,输出μ(siμ),到在线动作评价网络;
构造相似度函数:
Figure BDA0004008613940000069
式中,aact为实际加速度,si为样本状态量,θμ为在线动作网络参数,μ(siμ)为在线动作网络输出的确定性策略;
在线动作评价网络根据样本中的si,ai以及相似度函数Q′计算出新的动作价值评价函数:
Qnew=Q(s,a|θQ)+Q′ (9)
式中,Q(s,a|θQ)为动作价值评价函数,Q′为相似度函数;
通过演员(actor)网络的优化器更新Qnew,优化器通过梯度上升的方式更新在线动作网络参数θμ
Figure BDA0004008613940000071
式中,θμ为在线动作网络参数,Qnew为新动作价值评价函数,Q(s,a|θQ)为动作价值评价函数,si为样本状态量,μ(siμ)为在线动作网络输出的确定性策略,aact为实际加速度,N为样本数;
动作评价网络更新:
目标动作网络根据样本中的si+1,输出μ′(si+1μ′)到目标动作评价网络,目标动作评价网络根据样本中的ri,si+l和目标动作网络的输出μ′(si+1μ′),预估出未来奖励和yi
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (11)
式中,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,Q′为相似度函数,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,γ为折扣因子,μ′(si+1μ′)为目标动作网络的确定性策略;
通过评论家网络(critic)网络的优化器更新在线动作评价网络的参数θQ,优化器根据奖励和yi和在线动作评价网络输出的动作价值评价函数Q(si,aiQ),通过最小化损失函数的方式更新在线动作评价网络的参数θQ
Figure BDA0004008613940000072
式中,yi为未来奖励和,si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,γ为折扣因子,N为样本数,Q(si,aiQ)为动作价值评价函数,μ′(si+1μ′)为目标动作网络的确定性策略;
目标动作网络和目标动作评价网络都采取软更新(soft update)的方式分别更新参数θμ′和θQ′,每隔一段时间更新一次:
Figure BDA0004008613940000073
式中,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,θμ为在线动作网络参数,θQ为在线动作评价网络参数,τ为跟车时距。
对于动作网络的输出采用tanh激活函数,对于激进型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-4,4]m/s2;对于一般型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-3.5,3.5]m/s2;对于保守型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-3,3]m/s2
优选项,所述奖励函数模块分为安全性奖励函数、跟车性奖励函数、舒适性奖励函数,将其线性集成,在训练中不断调整各性能前的权重;
安全性主要和自车和前车的相对距离Δd和相对速度Δv有关,当两车之间的Δd、Δv很小时容易发生追尾事故,所述安全性奖励函数R1如下:
Figure BDA0004008613940000081
式中,Δd为自车和前车的相对距离,Δv为相对速度,
跟车性能用两车间的实际距离和期望距离之间的偏差来衡量,偏差越大则给予的惩罚越多,所述跟车性奖励函数R2如下:
Figure BDA0004008613940000082
式中,dact为自车与前车的实际距离,ddes为自车与前车的期望距离,
所述舒适性奖励函数R3如下:
R3=-jerk2 (16)
式中,jerk为加速度变化率。常用来衡量舒适性,jerk的值越小则舒适性越好,
对于激进型驾驶风格,要求跟车性优于舒适性,故将其跟车性期望间距中的跟车时距τ设置为1s,其奖励函数线性集成为R=10R1+5R2+R3
对于一般型驾驶风格,要求跟车性和舒适性介于其他两种驾驶风格之间,故将其跟车性期望间距中的跟车时距τ设置为1.5s,其奖励函数线性集成为R=10R1+2R2+3R3
对于保守型驾驶风格,要求舒适性优于跟车性,故将其跟车性期望间距中的跟车时距τ设置为2s,其奖励函数线性集成为R=10R1+R2+5R3
有益效果:本发明通过设计三种不同控制风格的控制模块,以及对该***的安全性、跟车性及舒适性进行模块化奖励函数的设计满足不同风格驾驶员对于ACC***各性能的需求,通过构建相似度函数,将其用于在线动作网络的更新,使其更加符合人类驾驶员的驾驶习惯,通过经验更新模块,提高了各类型驾驶员高价值经验样本的复用率,有效提升了网络的收敛速度,总体提升了该***的个性化及综合性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
图1为本发明ACC***整体架构图;
图2为本发明驾驶员风格识别器结构图;
图3为本发明ACC***工作流程图;
图4为本发明经验更新模块处理图;
图5为本发明网络更新图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
如图1所示,一种基于深度强化学习的个性化自适应巡航***,包括环境感知层、上层控制器、下层控制器和执行机构,所述环境感知层获取的信号输入至上层控制器,上层控制器根据输入的信号转化为控制信号输出给下层控制器,下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构,执行机构根据执行指令运行;
所述环境感知层包括毫米波雷达、车速传感器,毫米波雷达获取探测范围内自车与前车的实际间距d信号和相对车速ΔV信号;车速传感器用于获取自车车速Vt信号;
所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块;
如图2所示,所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块,信号参数记录模块记录由环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块根据上述信号计算出冲击度,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,识别驾驶风格模块根据计算出驾驶员驾驶状态识别系数Rd判断驾驶员的风格,所述驾驶员的风格包括激进型、一般型和保守型三种类型;
所述动作输入计算模块包括激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块,所述激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块分别包括期望距离计算模块、参数计算模块和参数记录模块;
所述深度强化学习模块包括激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块及保守型DDPG_calm控制模块,根据驾驶风格识别器识别出的驾驶风格,选择对应风格的动作输入计算模块和控制模块;
所述下层控制器包括驱动/制动切换模块和期望节气门/制动压力计算模块,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;
为了避免驱动/制动频繁切换,通过驱动/制动曲线上下方设置阈值的方式,将其分为驱动控制、制动控制及不操作三种模式。当期望加速度在驱动/制动阈值上方时进行驱动控制,当期望加速度在驱动/制动阈值下方时则进行制动控制,当期望加速度在两者之间时,则无需进行驱动或制动控制,以提高驾驶过程中的舒适性和燃油经济性。
所述执行机构包括动力装置控制单元、电子节气门、制动控制单元及制动油缸,动力装置控制单元根据计算出的节气门开度控制电子节气门,制动控制单元根据期望制动压力控制制动油缸。
本发明通过环境感知层采集智能体状态信号传输给上层控制器,上层控制器根据其信号识别出对应的驾驶风格,并切换至对应的驾驶风格控制模式,经过训练得出对应驾驶风格的期望加速度,下层控制器根据该期望加速度,计算出对应的期望节气门开度或制动压力,将其输入至执行机构执行,从而达到在***的基础性能上提升个性化和整体性能,并且满足各种风格驾驶的需求。
如图3所示,一种基于深度强化学习的个性化自适应巡航***的控制方法,包括以下步骤:
步骤一、启动***,毫米波雷达获取探测范围内是否有前车,无前车则保持设定车速行驶,有前车则进入步骤二;
步骤二、采集信号参数,毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度Vt信号;
步骤三、录入信号参数,将步骤二中获得的信号参数输入至信号参数记录模块中并保存;
步骤四、识别驾驶风格,识别驾驶风格模块根据参数记录模块中的信号参数判断当前驾驶员的风格;若判定为激进型,则进入步骤五;若不是激进型则进一步判定是否为一般型,若是一般型,则进入步骤六;若不是一般型则判定为保守型,则进入步骤七;将驾驶员的识别结果存储在识别驾驶风格模块中;
步骤五、切换至激进型控制模式,识别驾驶风格模块判定的驾驶风格为激进型,则将信号参数记录模块中存储的信号参数输入到激进型动作输入计算模块中,输出为本车与前车之间的状态量,激进型DDPG_aggressive控制模块与激进型动作输入计算模块相连,以状态量作为输入,输出为激进型驾驶员的期望加速度;
步骤六、切换至一般型控制模式,识别驾驶风格模块判定的驾驶风格为一般型,则将信号参数记录模块中存储的信号参数输入到一般型动作输入计算模块中,输出为本车与前车之间的状态量,一般型DDPG normal控制模块与一般型动作输入计算模块相连,以状态量作为输入,输出为一般型驾驶员的期望加速度;
步骤七、切换至保守型控制模式,识别驾驶风格模块判定的驾驶风格为保守型,则将信号参数记录模块中存储的信号参数输入到保守型动作输入计算模块中,输出为本车与前车之间的状态量,保守型DDPG calm控制模块与保守型动作输入计算模块相连,以状态量作为输入,输出为保守型驾驶员的期望加速度;
步骤八、调节加速度,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速/或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;动力装置控制单元根据节气门开度控制电子节气门或者制动控制单元根据期望制动压力控制制动油缸或者执行机构保持现状;若***持续运行则回到步骤二重复循环至步骤八,若***关闭则进入步骤九;
步骤九、结束,关闭***或停车时,***运行至步骤八后进入步骤九停止运行。
本发明根据特定的驾驶风格设计出三套不同控制风格的控制模块,并且对该***的安全性、跟车性及舒适性进行了模块化奖励函数的设计,通过不同控制风格的控制模块进行策略训练以及奖励函数的辅助使得该***在不断学习更新策略的同时保证其策略都是高价值经验并且使智能体的学习更加稳定,将三种模式下的策略分别保存在对应的控制模块中,使得每种模式的策略都能够根据传感器采集到的两车之间的状态信息,做出符合驾驶习性的决策,满足了不同风格驾驶员对于ACC***各性能的需求,提升了该***的个性化及综合性能。
所述步骤四中识别驾驶风格的方法如下:
S1、计算冲击度,读取由信号参数记录模块记录的环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块接受自车速传感器传来的自车速度Vt信号,根据公式计算出冲击度J(t):
J(t)=d2Vt/d2t (1)
式中,Vt为t时刻自车的行驶速度;
S2、求驾驶员驾驶状态识别系数Rd,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,并将其输入到识别驾驶风格模块,
驾驶员驾驶状态识别系数Rd
Figure BDA0004008613940000121
式中,SDJ为识别周期内冲击度的标准差,
Figure BDA0004008613940000122
为标准驾驶员行驶冲击度的平均值,Ji为i时刻的冲击度,T为识别周期;
S3、判断驾驶员的风格,在识别驾驶风格模块中,根据实时计算的驾驶员驾驶状态识别系数Rd来判断驾驶员的风格,若Rd>aggressivethreshold,则驾驶员的风格为激进型,aggressivethreshold为激进型驾驶员驾驶状态识别系数临界值;若Rd<normalthreshold,则驾驶员的风格为保守型;若normalthreshold<Rd<aggressivethreshold,则驾驶员的风格为一般型,最后将驾驶员的识别结果存储在识别驾驶风格模块中。
所述步骤五、六和七中本车与前车之间的状态量包括距离误差Δd、自车速度Vt和相对速度ΔV;参数计算模块根据期望距离的计算公式ddes=Vt*τ+d0,计算出期望距离ddes,式中,Vt为t时刻自车的行驶速度,τ为跟车时距,d0为安全跟车距离;参数计算模块结合实际距离d、自车速度Vt及相对速度ΔV信号计算出距离误差Δd=d-ddes,将距离误差Δd、自车速度Vt和相对速度ΔV信号参数在参数记录模块予以保存。
选取激进型的跟车间距τ为1s及d0为2m、一般型的跟车间距τ为1.5s及d0为3m和保守型的跟车间距为2s及d0为4m。
所述步骤五、六和七中激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块和保守型DDPG_calm控制模块的控制策略通过进行训练,训练收敛后获得并分别保存在对应的模块中,以状态量为输入根据控制策略输出期望加速度。
所述训练方法包括状态量更新模块、经验更新模块、网络参数更新模块和奖励函数模块,所述状态量更新模块将通过环境感知层采集到的数据转换成状态量后输入到经验更新模块更新出高价值经验样本并存储,所述网络参数更新模块随机抽取经验更新模块中的经验样本进行训练并且根据奖励函数模块给予的奖励朝着获得最大奖励的方式进行更新。
所述状态量更新模块将自车与前车的相对车速ΔV、自车车速Vt、实际间距与期望间距之间的距离误差Δd,作为状态输入,经过网络参数更新模块输出期望的加速度作为状态输出,在t时刻给定状态量,对下一时刻的状态量进行更新,将该状态输入和实际加速度定义为样本经验序列(si,ai,ri,si+1),其中si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,
Vt(t+1)=Vt(t)+a(t)*ΔT
ΔVt-1,t(t+1)=Vt-1(t+1)-Vt(t+1)
Figure BDA0004008613940000131
式中,ΔT为更新的时间步长,Vt-1为前车速度,Vt为自车速度,ΔVt-1,t为自车和前车之间的相对速度,d为自车和前车之间的实际车间距,Δd为实际车间距和期望车间距之间的距离误差,ddes为期望的车间距;
训练开始前初始化状态量:
Vt(t=0)=Vt data(t=0); (4)
d(t=0)=ddata(t=O); (5)
Figure BDA0004008613940000132
式中,Vt(t=0)是训练开始t=0时刻的自车速度,Vt data(t=0)是随机采样的跟车片段中自车在t=0时刻的速度,d(t=0)是训练开始t=0时刻的两车车间距,ddata(t=0)是随机采样的跟车片段中两车在t=0时刻实际的车间距,ΔVt-1,t(t=0)是训练开始t=0时刻自车和前车的相对速度,
Figure BDA0004008613940000133
是随机采样的跟车片段中两车实际的相对速度。
如图4所示,由于经验池是有限的,新样本会不断地代替旧样本以实现更新的目的。但是在智能体探索的过程中会出现低价值的新样本经验代替原来高价值旧样本的经验,这样就会导致网络收敛的速度慢。因此为了提高高价值经验样本的复用率,筛选高价值的经验样本,设计经验更新模块。
所述经验更新模块通过筛选高价值样本经验进入对应风格经验池,收集对应风格驾驶员的样本经验(si,ai,ri,si+1),定义激进型风格驾驶员训练样本的平均奖励
Figure BDA0004008613940000141
为:
Figure BDA0004008613940000142
式中,n是从最开始训练到当前训练所经历的次数,rm是第m次训练获得的奖励;
获取当前经验的奖励ractual,当
Figure BDA0004008613940000143
时,将经验存储至经验池,当/>
Figure BDA0004008613940000144
Figure BDA0004008613940000145
时,计算概率/>
Figure BDA0004008613940000146
将该经验以概率p存储至经验池,当racmal<0时,将该经验丢弃;
对于一般型风格驾驶员和保守型风格驾驶员采取与激进型风格驾驶员的经验更新模块相同的更新方式,其中,定义一般型风格驾驶员的平均奖励为
Figure BDA0004008613940000147
定义保守型风格驾驶员的平均奖励为/>
Figure BDA0004008613940000148
如图5所示,所述网络参数更新模块包括动作网络和策略评价网络,所述动作网络包括在线动作网络和目标动作网络,所述策略评价网络包括在线动作评价网络和目标动作评价网络,所述动作网络基于自车和前车的状态量输出确定性的期望加速度,所述策略评价网络基于在线动作网络采取的动作好坏输出动作价值评价函数:Q(s,a|θQ),
定义在线动作网络参数为θμ;目标动作网络参数为θμ′;在线动作评价网络参数为θQ;目标动作评价网络参数为θQ′;在线动作网络的目标就是不断优化动作网络的参数θμ,使其能够根据两车间的状态输出越来越符合人类驾驶员行为、越来越正确的期望加速度。在线动作评价网络的目标就是更新自身网络参数θQ,使得对于动作网络输出的动作价值,评价越来越准确。
动作网络更新:
随机采集N(si,ai,ri,si+1)个样本进行训练,在线动作网络根据样本中的si,输出μ(siμ),到在线动作评价网络;
构造相似度函数,其实际加速度和期望加速度的偏差越大则给予的价值越低:
Figure BDA0004008613940000149
式中,aact为实际加速度,si为样本状态量,θμ为在线动作网络参数,μ(siμ)为在线动作网络输出的确定性策略;
在线动作评价网络根据样本中的si,ai以及相似度函数Q′计算出新的动作价值评价函数:
Qnew=Q(s,a|θQ)+Q′ (9)
式中,Q(s,a|θQ)为动作价值评价函数,Q′为相似度函数;
以最大化Qnew的方式更新动作网络的参数,不仅能够迎合策略评价网络,而且可以使得动作网络输出的期望加速度更加符合人类的驾驶习惯。
通过演员(actor)网络的优化器更新Qnew,优化器通过梯度上升的方式更新在线动作网络参数θμ
Figure BDA0004008613940000151
式中,θμ为在线动作网络参数,Qnew为新动作价值评价函数,Q(s,a|θQ)为动作价值评价函数,si为样本状态量,μ(siμ)为在线动作网络输出的确定性策略,aact为实际加速度,N为样本数;
动作评价网络更新:
目标动作网络根据样本中的si+1,输出μ′(si+1μ′)到目标动作评价网络,目标动作评价网络根据样本中的ri,si+l和目标动作网络的输出μ′(si+1μ′),预估出未来奖励和yi
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′) (11)
式中,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,Q′为相似度函数,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,γ为折扣因子,μ′(si+1μ′)为目标动作网络的确定性策略;
通过评论家网络(critic)网络的优化器更新在线动作评价网络的参数θQ,优化器根据奖励和yi和在线动作评价网络输出的动作价值评价函数Q(si,aiQ),通过最小化损失函数的方式更新在线动作评价网络的参数θQ
Figure BDA0004008613940000152
式中,yi为未来奖励和,si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,γ为折扣因子,N为样本数,Q(si,aiQ)为动作价值评价函数,μ′(si+1μ′)为目标动作网络的确定性策略;
目标动作网络和目标动作评价网络都采取软更新(soft update)的方式分别更新参数θμ′和θQ′,每隔一段时间更新一次,让目标网络缓慢跟踪主网络来更新参数,大大增强了学习的稳定性:
Figure BDA0004008613940000153
式中,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,θμ为在线动作网络参数,θQ为在线动作评价网络参数,τ为跟车时距。
对于动作网络的输出采用tanh激活函数,对于激进型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-4,4]m/s2;对于一般型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-3.5,3.5]m/s2;对于保守型驾驶风格,将函数映射到范围[-1,1],因此可以将输出加速度限制在[-3,3]m/s2
由于奖励函数的设计关乎到控制方法的好坏,它给动作网络和策略评价网络参数的更新指明了方向,在强化学习的任务中起到了至关重要的作用。奖励函数是状态和动作的函数,其设计是强化学习方法的关键,需要不断优化和实验以防止智能体投机取巧的行为。所述奖励函数模块分为安全性奖励函数、跟车性奖励函数、舒适性奖励函数,将其线性集成,在训练中不断调整各性能前的权重;
安全性主要和自车和前车的相对距离Δd和相对速度Δv有关,当两车之间的Δd、Δv很小时容易发生追尾事故,所述安全性奖励函数R1如下:
Figure BDA0004008613940000161
式中,Δd为自车和前车的相对距离,Δv为相对速度,
跟车性能用两车间的实际距离和期望距离之间的偏差来衡量,偏差越大则给予的惩罚越多,所述跟车性奖励函数R2如下:
Figure BDA0004008613940000162
式中,dact为自车与前车的实际距离,ddes为自车与前车的期望距离,
所述舒适性奖励函数R3如下:
R3=-jerk2 (16)
式中,jerk为加速度变化率。常用来衡量舒适性,jerk的值越小则舒适性越好,
对于激进型驾驶风格,要求跟车性优于舒适性,故将其跟车性期望间距中的跟车时距τ设置为1s,其奖励函数线性集成为R=10R1+5R2+R3
对于一般型驾驶风格,要求跟车性和舒适性介于其他两种驾驶风格之间,故将其跟车性期望间距中的跟车时距τ设置为1.5s,其奖励函数线性集成为R=10R1+2R2+3R3
对于保守型驾驶风格,要求舒适性优于跟车性,故将其跟车性期望间距中的跟车时距τ设置为2s,其奖励函数线性集成为R=10R1+R2+5R3
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于深度强化学习的个性化自适应巡航***,包括环境感知层、上层控制器、下层控制器和执行机构,所述环境感知层获取的信号输入至上层控制器,上层控制器根据输入的信号转化为控制信号输出给下层控制器,下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构,执行机构根据执行指令运行;其特征在于:
所述环境感知层包括毫米波雷达、车速传感器,毫米波雷达获取探测范围内自车与前车的实际间距d信号和相对车速ΔV信号;车速传感器用于获取自车车速Vt信号;
所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块;
所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块,信号参数记录模块记录由环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块根据上述信号计算出冲击度,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,识别驾驶风格模块根据计算出驾驶员驾驶状态识别系数Rd判断驾驶员的风格,所述驾驶员的风格包括激进型、一般型和保守型三种类型;
所述动作输入计算模块包括激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块,所述激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块分别包括期望距离计算模块、参数计算模块和参数记录模块;
所述深度强化学习模块包括激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块及保守型DDPG_calm控制模块,根据驾驶风格识别器识别出的驾驶风格,选择对应风格的动作输入计算模块和控制模块;
所述下层控制器包括驱动/制动切换模块和期望节气门/制动压力计算模块,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;
所述执行机构包括动力装置控制单元、电子节气门、制动控制单元及制动油缸,动力装置控制单元根据计算出的节气门开度控制电子节气门,制动控制单元根据期望制动压力控制制动油缸。
2.根据权利要求1所述的基于深度强化学习的个性化自适应巡航***的控制方法,其特征在于,包括以下步骤:
步骤一、启动***,毫米波雷达获取探测范围内是否有前车,无前车则保持设定车速行驶,有前车则进入步骤二;
步骤二、采集信号参数,毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度Vt信号;
步骤三、录入信号参数,将步骤二中获得的信号参数输入至信号参数记录模块中并保存;
步骤四、识别驾驶风格,识别驾驶风格模块根据参数记录模块中的信号参数判断当前驾驶员的风格;若判定为激进型,则进入步骤五;若不是激进型则进一步判定是否为一般型,若是一般型,则进入步骤六;若不是一般型则判定为保守型,则进入步骤七;将驾驶员的识别结果存储在识别驾驶风格模块中;
步骤五、切换至激进型控制模式,识别驾驶风格模块判定的驾驶风格为激进型,则将信号参数记录模块中存储的信号参数输入到激进型动作输入计算模块中,输出为本车与前车之间的状态量,激进型DDPG_aggressive控制模块与激进型动作输入计算模块相连,以状态量作为输入,输出为激进型驾驶员的期望加速度;
步骤六、切换至一般型控制模式,识别驾驶风格模块判定的驾驶风格为一般型,则将信号参数记录模块中存储的信号参数输入到一般型动作输入计算模块中,输出为本车与前车之间的状态量,一般型DDPG_normal控制模块与一般型动作输入计算模块相连,以状态量作为输入,输出为一般型驾驶员的期望加速度;
步骤七、切换至保守型控制模式,识别驾驶风格模块判定的驾驶风格为保守型,则将信号参数记录模块中存储的信号参数输入到保守型动作输入计算模块中,输出为本车与前车之间的状态量,保守型DDPG_calm控制模块与保守型动作输入计算模块相连,以状态量作为输入,输出为保守型驾驶员的期望加速度;
步骤八、调节加速度,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速/或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;动力装置控制单元根据节气门开度控制电子节气门或者制动控制单元根据期望制动压力控制制动油缸或者执行机构保持现状;若***持续运行则回到步骤二重复循环至步骤八,若***关闭则进入步骤九;
步骤九、结束,关闭***或停车时,***运行至步骤八后进入步骤九停止运行。
3.根据权利要求2所述的基于深度强化学习的个性化自适应巡航***,其特征在于,所述步骤四中识别驾驶风格的方法如下:
S1、计算冲击度,读取由信号参数记录模块记录的环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块接受自车速传感器传来的自车速度Vt信号,根据公式计算出冲击度J(t):
J(t)=d2Vt/d2t (1)
式中,Vt为t时刻自车的行驶速度;
S2、求驾驶员驾驶状态识别系数Rd,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,并将其输入到识别驾驶风格模块,
驾驶员驾驶状态识别系数Rd
Figure FDA0004008613930000031
式中,SDJ为识别周期内冲击度的标准差,
Figure FDA0004008613930000032
为标准驾驶员行驶冲击度的平均值,Ji为i时刻的冲击度,T为识别周期;
S3、判断驾驶员的风格,在识别驾驶风格模块中,根据实时计算的驾驶员驾驶状态识别系数Rd来判断驾驶员的风格,若Rd>aggressivethreshold,则驾驶员的风格为激进型,aggressivethreshold为激进型驾驶员驾驶状态识别系数临界值;若Rd<normalthreshold,则驾驶员的风格为保守型;若normalthreshold<Rd<aggressivethreshold,则驾驶员的风格为一般型,最后将驾驶员的识别结果存储在识别驾驶风格模块中。
4.根据权利要求2所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述步骤五、六和七中本车与前车之间的状态量包括距离误差Δd、自车速度Vt和相对速度ΔV;参数计算模块根据期望距离的计算公式ddes=Vt*τ+d0,计算出期望距离ddes,式中,Vt为t时刻自车的行驶速度,τ为跟车时距,d0为安全跟车距离;参数计算模块结合实际距离d、自车速度Vt及相对速度ΔV信号计算出距离误差Δd=d-ddes,将距离误差Δd、自车速度Vt和相对速度ΔV信号参数在参数记录模块予以保存。
5.根据权利要求2所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述步骤五、六和七中激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块和保守型DDPG_calm控制模块的控制策略通过进行训练,训练收敛后获得并分别保存在对应的模块中,以状态量为输入根据控制策略输出期望加速度。
6.根据权利要求5所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述训练方法包括状态量更新模块、经验更新模块、网络参数更新模块和奖励函数模块,所述状态量更新模块将通过环境感知层采集到的数据转换成状态量后输入到经验更新模块更新出高价值经验样本并存储,所述网络参数更新模块随机抽取经验更新模块中的经验样本进行训练并且根据奖励函数模块给予的奖励朝着获得最大奖励的方式进行更新。
7.根据权利要求6所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述状态量更新模块将自车与前车的相对车速ΔV、自车车速Vt、实际间距与期望间距之间的距离误差Δd,作为状态输入,经过网络参数更新模块输出期望的加速度作为状态输出,在t时刻给定状态量,对下一时刻的状态量进行更新,将该状态输入和实际加速度定义为样本经验序列(si,ai,ri,si+1),其中si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,
Vt(t+1)=Vt(t)+a(t)*ΔT
ΔVt-1,t(t+1)=Vt-1(t+1)-Vt(t+1)
Figure FDA0004008613930000041
式中,ΔT为更新的时间步长,Vt-1为前车速度,Vt为自车速度,ΔVt-1,t为自车和前车之间的相对速度,d为自车和前车之间的实际车间距,Δd为实际车间距和期望车间距之间的距离误差,ddes为期望的车间距;
训练开始前初始化状态量:
Vt(t=0)=Vt data(t=0); (4)
d(t=0)=ddata(t=0); (5)
Figure FDA0004008613930000042
式中,Vt(t=0)是训练开始t=0时刻的自车速度,Vt data(t=0)是随机采样的跟车片段中自车在t=0时刻的速度,d(t=0)是训练开始t=0时刻的两车车间距,ddata(t=0)是随机采样的跟车片段中两车在t=0时刻实际的车间距,ΔVt-1,t(t=0)是训练开始t=0时刻自车和前车的相对速度,
Figure FDA0004008613930000043
是随机采样的跟车片段中两车实际的相对速度。
8.根据权利要求6所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述经验更新模块通过筛选高价值样本经验进入对应风格经验池,收集对应风格驾驶员的样本经验(si,ai,ri,si+1),
定义激进型风格驾驶员训练样本的平均奖励
Figure FDA0004008613930000044
为:
Figure FDA0004008613930000045
式中,n是从最开始训练到当前训练所经历的次数,rm是第m次训练获得的奖励;
获取当前经验的奖励ractual,当
Figure FDA0004008613930000046
时,将经验存储至经验池,当
Figure FDA0004008613930000047
时,计算概率/>
Figure FDA0004008613930000048
将该经验以概率p存储至经验池,当ractual<0时,将该经验丢弃;
对于一般型风格驾驶员和保守型风格驾驶员采取与激进型风格驾驶员的经验更新模块相同的更新方式,其中,定义一般型风格驾驶员的平均奖励为
Figure FDA0004008613930000051
定义保守型风格驾驶员的平均奖励为/>
Figure FDA0004008613930000052
9.根据权利要求6所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述网络参数更新模块包括动作网络和策略评价网络,所述动作网络包括在线动作网络和目标动作网络,所述策略评价网络包括在线动作评价网络和目标动作评价网络,所述动作网络基于自车和前车的状态量输出确定性的期望加速度,所述策略评价网络基于在线动作网络采取的动作好坏输出动作价值评价函数:Q(s,a|θQ),
定义在线动作网络参数为θμ;目标动作网络参数为θμ′;在线动作评价网络参数为θQ;目标动作评价网络参数为θQ′
动作网络更新:
随机采集N(si,ai,ri,si+1)个样本进行训练,在线动作网络根据样本中的si,输出μ(siμ),到在线动作评价网络;
构造相似度函数:
Figure FDA0004008613930000053
式中,aact为实际加速度,si为样本状态量,θμ为在线动作网络参数,μ(siμ)为在线动作网络输出的确定性策略;
在线动作评价网络根据样本中的si,ai以及相似度函数Q′计算出新的动作价值评价函数:
Qnew=Q(s,a|θQ)+Q′ (9)
式中,Q(s,a|θQ)为动作价值评价函数,Q′为相似度函数;
通过演员(actor)网络的优化器更新Qnew,优化器通过梯度上升的方式更新在线动作网络参数θμ
Figure FDA0004008613930000054
式中,θμ为在线动作网络参数,Qnew为新动作价值评价函数,Q(s,a|θQ)为动作价值评价函数,si为样本状态量,μ(siμ)为在线动作网络输出的确定性策略,aact为实际加速度,N为样本数;
动作评价网络更新:
目标动作网络根据样本中的si+1,输出μ′(si+1μ′)到目标动作评价网络,目标动作评价网络根据样本中的ri,si+1和目标动作网络的输出μ′(si+1μ′),预估出未来奖励和yi
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (11)
式中,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,Q′为相似度函数,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,γ为折扣因子,μ′(si+1μ′)为目标动作网络的确定性策略;
通过评论家网络(critic)网络的优化器更新在线动作评价网络的参数θQ,优化器根据奖励和yi和在线动作评价网络输出的动作价值评价函数Q(si,aiQ),通过最小化损失函数的方式更新在线动作评价网络的参数θQ
Figure FDA0004008613930000061
式中,yi为未来奖励和,si为当前样本的状态量,ai为当前样本的实际加速度,ri为当前样本的奖励,si+1为当前样本下一时刻的状态量,γ为折扣因子,N为样本数,Q(si,aiQ)为动作价值评价函数,μ′(si+1μ′)为目标动作网络的确定性策略;
目标动作网络和目标动作评价网络都采取软更新(soft update)的方式分别更新参数θμ′和θQ′,每隔一段时间更新一次:
Figure FDA0004008613930000062
式中,θμ′为目标动作网络参数,θQ′为目标动作评价网络参数,θμ为在线动作网络参数,θQ为在线动作评价网络参数,τ为跟车时距。
10.根据权利要求6所述的基于深度强化学习的个性化自适应巡航***,其特征在于:所述奖励函数模块分为安全性奖励函数、跟车性奖励函数、舒适性奖励函数,将其线性集成,在训练中不断调整各性能前的权重;
所述安全性奖励函数R1如下:
Figure FDA0004008613930000063
式中,Δd为自车和前车的相对距离,Δv为相对速度,
所述跟车性奖励函数R2如下:
Figure FDA0004008613930000064
式中,dact为自车与前车的实际距离,ddes为自车与前车的期望距离,
所述舒适性奖励函数R3如下:
R3 = -jerk2 (16)
式中,jerk为加速度变化率。
CN202211646001.4A 2022-12-20 2022-12-20 一种基于深度强化学习的个性化自适应巡航***及其控制方法 Pending CN115848369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211646001.4A CN115848369A (zh) 2022-12-20 2022-12-20 一种基于深度强化学习的个性化自适应巡航***及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211646001.4A CN115848369A (zh) 2022-12-20 2022-12-20 一种基于深度强化学习的个性化自适应巡航***及其控制方法

Publications (1)

Publication Number Publication Date
CN115848369A true CN115848369A (zh) 2023-03-28

Family

ID=85674766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211646001.4A Pending CN115848369A (zh) 2022-12-20 2022-12-20 一种基于深度强化学习的个性化自适应巡航***及其控制方法

Country Status (1)

Country Link
CN (1) CN115848369A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116811915A (zh) * 2023-06-30 2023-09-29 清华大学 基于乘员脑电信号的车辆决策方法、装置和计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116811915A (zh) * 2023-06-30 2023-09-29 清华大学 基于乘员脑电信号的车辆决策方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111046919B (zh) 一种融合行为意图的周围动态车辆轨迹预测***及方法
CN109624986B (zh) 一种基于模式切换的驾驶风格的学习巡航控制***及方法
CN108995653B (zh) 一种驾驶员驾驶风格识别方法及***
CN106740846B (zh) 一种双模式切换的电动汽车自适应巡航控制方法
CN113788021B (zh) 一种结合前车速度预测的自适应跟车巡航控制方法
US9266533B2 (en) Adaptive cruise control system and method for vehicle
CN109927725A (zh) 一种具有驾驶风格学习能力的自适应巡航***及实现方法
CN110834644A (zh) 一种车辆控制方法、装置、待控制车辆及存储介质
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
CN112498354B (zh) 考虑个性化驾驶体验的多时间尺度自学习变道方法
CN112668779B (zh) 基于自适应高斯过程的前车运动状态预测方法
CN110386145A (zh) 一种目标驾驶员驾驶行为实时预测***
WO2019011268A1 (zh) 基于博弈论的驾驶员辅助***决策方法、***及其他
CN112109708B (zh) 一种考虑驾驶行为的自适应巡航控制***及其控制方法
CN110490275A (zh) 一种基于迁移学习的驾驶行为预测方法
CN112116100B (zh) 一种考虑驾驶员类型的博弈论决策方法
CN113722835B (zh) 拟人化随机换道驾驶行为建模方法
CN112677982B (zh) 基于驾驶员特性的车辆纵向速度规划方法
CN115848369A (zh) 一种基于深度强化学习的个性化自适应巡航***及其控制方法
CN108773372B (zh) 一种自适应车辆自动控制***
Abdelrahman et al. Driver behavior classification in crash and near-crash events using 100-CAR naturalistic data set
CN113954855A (zh) 一种汽车驾驶模式自适应匹配方法
CN113808438B (zh) 基于神经网络的车辆队列控制模式切换***及切换方法
CN112596388B (zh) 一种基于驾驶员数据的lstm神经网络aeb***控制方法
CN114872727A (zh) 一种应用于自动驾驶车辆的周围车辆轨迹预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination