CN110716550B - 一种基于深度强化学习的换挡策略动态优化方法 - Google Patents

一种基于深度强化学习的换挡策略动态优化方法 Download PDF

Info

Publication number
CN110716550B
CN110716550B CN201911076016.XA CN201911076016A CN110716550B CN 110716550 B CN110716550 B CN 110716550B CN 201911076016 A CN201911076016 A CN 201911076016A CN 110716550 B CN110716550 B CN 110716550B
Authority
CN
China
Prior art keywords
network
gear shifting
shifting strategy
predicted
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911076016.XA
Other languages
English (en)
Other versions
CN110716550A (zh
Inventor
陈刚
袁靖
张介
顾爱博
周楠
王和荣
苏树华
陈守宝
王良模
王陶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911076016.XA priority Critical patent/CN110716550B/zh
Publication of CN110716550A publication Critical patent/CN110716550A/zh
Application granted granted Critical
Publication of CN110716550B publication Critical patent/CN110716550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Transmission Device (AREA)

Abstract

本发明属于工程机械及车辆工程领域,具体涉及一种基于深度强化学习的换挡策略动态优化方法。包括如下步骤:(1):确定换挡策略状态输入变量和动作输出变量;(2):根据状态输入变量和动作输出变量,确定换挡策略马尔科夫决策过程;(3):根据换挡策略目标建立强化学习换挡策略奖励函数;(4):根据马尔科夫决策过程和奖励函数,求解深度强化学习换挡策略;(5):将步骤(4)计算出的预测Q网络放入换挡策略控制器,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位;(6):在行驶过程中定期更新预测Q网络。本发明通过深度强化学习方法对换挡策略进行更新,实现换挡策略的动态优化。

Description

一种基于深度强化学习的换挡策略动态优化方法
技术领域
本发明属于工程机械及车辆工程领域,具体涉及一种基于深度强化学习的换挡策略动态优化方法。
背景技术
换挡策略是目前工程机械及车辆控制技术的核心技术之一,指的是工程机械及车辆在行驶过程中,挡位随所选参数变化的规律。求解方法是建立换挡策略重点考虑的。换挡策略的求解方法包括图解法、解析法、遗传算法、动态规划法等。换挡策略的求解和优化是关于换挡策略研究的核心方向,尤其是换挡策略的动态优化是换挡策略研究的难点之一。
“基于变载荷的最佳动力性AMT换挡规律修正”,李浩,控制工程,第22卷第1期,第50~54页,2015年1月。在两参数换挡策略的基础上引入了加速度为换挡参数,实现了考虑加速度的动态三参数换挡。其求解方法为解析法,在求解过程中需要针对各个油门开度对加速度-速度曲线进行拟合,求解复杂、计算量大,同时只能针对单一性能指标进行,也无法针对实际行驶状况进行动态优化。
“Performance Evaluation Approach Improvement for IndividualizedGearshift Schedule Optimization”,Yin X,2016年05月。利用遗传算法对换挡策略进行了优化,提高了换挡策略的综合性能,解决了解析法只能求解单一性能指标的问题,但同样无法针对实际行驶状况进行动态优化。
“Optimal gear shift strategies for fuel economy and driveability”,VietDacNgo,Proceedings of the Institution of Mechanical Engineers,Part D:Journal of Automobile Engineering,第227卷第10期,第1398~1413页,2013年10月。通过动态规划方法对换挡策略针对特定驾驶循环工况进行求解。其缺点在于:动态规划在求解换挡规律时,需要构建复杂的状态图,状态图以表格形式表现。状态图的复杂程度取决于动态规划算法中的离散程度。过于复杂的状态图会因为贝尔曼纬度灾难而出现收敛速度下降或无法收敛的情况。同时由于针对特定驾驶循环进行优化,不能在行驶过程中进行动态优化。
在现有专利中,专利申请号201710887558.X公开了一种动态规划算法的汽车换挡规律优化方法。依据实施例分别制定了基于经济性和动力性的换挡规律。动态规划在求解换挡规律时,需要构建复杂的状态图,状态图复杂程度的多少取决于动态规划算法中的离散程度。过于复杂的状态图会因为贝尔曼纬度灾难而出现收敛速度下降或无法收敛的情况。同时无法针对实际行驶状况进行动态优化。
在现有专利中,专利申请号201811306659.4公开了一种基于驾驶意图的换挡策略修正方法及***。根据驾驶员的驾驶过程对当前的换挡修正系数和补偿偏移值进行更新,对原换挡策略进行修正,实现换挡策略的动态更新。但其换挡策略的动态更新规则需要人为制定,优化效果受人为制定影响较大,同时优化方法不具备通用性,只能针对单一车型。智能化程度较低。
总体而言,现有的换挡策略求解或优化方法大部分无法针对实际行驶状况进行动态优化,自适应能力较差。部分可以实现动态优化的换挡策略需要人为制定换挡策略的动态更新规则,智能化和通用性较低。
发明内容
本发明的目的在于提供一种基于深度强化学习的换挡策略动态优化方法。本发明构建了换挡策略马尔可夫决策过程和奖励函数,之后利用深度强化学习方法求解换挡策略,然后将深度强化学习方法求解出的预测Q网络放入换挡策略控制器中实现挡位的选择,同时,在日常行驶过程中采集行驶数据,通过深度强化学习方法对换挡策略进行更新,实现换挡策略的动态优化。
实现本发明目的的技术解决方案为:一种基于深度强化学习的换挡策略动态优化方法,包括如下步骤:
步骤(1):确定换挡策略状态输入变量和动作输出变量;
步骤(2):根据步骤(1)的状态输入变量和动作输出变量,确定换挡策略马尔科夫决策过程;
步骤(3):根据换挡策略目标建立强化学习换挡策略奖励函数;
步骤(4):根据步骤(2)中的马尔科夫决策过程和步骤(3)中的奖励函数,求解深度强化学习换挡策略;具体为首先通过马尔可夫决策过程及奖励函数计算马尔可夫链,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络;
步骤(5):将步骤(4)计算出的预测Q网络放入换挡策略控制器,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位;
步骤(6):在行驶过程中,采集工程机械及车辆行驶数据保存进经验池,并定期更新预测Q网络,更新完成后将预测Q网络放入换挡策略控制器,实现对换挡策略进行动态优化。
进一步的,所述步骤(1)中的状态输入变量包括车速v、加速度
Figure BDA0002262464010000032
和油门开度αt,行驶坡度和地面摩擦阻力系数;动作输出变量包括档位操作和换挡操作,其中档位操作包括升档、降档或保持档位,换挡操作即选择的挡位ng
进一步的,所述步骤(2)中的换挡策略马尔可夫决策过程表示为下一时刻状态为当前状态和所选动作的转移函数的形式,转移函数的形式如下:
st+1=T(st,at)
式中,st+1为下一时刻的状态变量,st为当前状态变量,at为所选动作变量,其中,s∈S,a∈A,S为状态变量的集合,A为动作变量的集合。
进一步的,所述步骤(3)中的换挡策略奖励函数与换挡策略目标正相关,所述换挡策略目标包括动力性、经济型和舒适性。
进一步的,所述换挡策略目标为动力性换挡策略,描述为工程机械及车辆在舒适度约束条件下以最短时间t到达最高车速,奖惩机制为:
Figure BDA0002262464010000031
式中,r为奖惩机制计算出的奖励;rt为临时奖励,rt=-0.001||VTamx-v||;vTmax为当前油门开度αt下的最大车速;J为工程机械及车辆的冲击度;Jmax为所设计的最大允许冲击度。
进一步的,所述步骤(4)中的马尔科夫链的形式为:
<st,at,rt,st+1>
式中,rt为根据奖励目标计算出的临时奖励。
进一步的,所述步骤(4)中的深度强化学习方法包含两个结构相同但参数不同的神经网络,称为预测Q网络和目标Q网络,其中预测Q网络的作用是计算在当前状态下各动作的Q值,目标Q网络用于更新预测Q网络。
进一步的,步骤四中,所建立的马尔可夫链中,动作变量at的选择是通过贪心算法,贪心算法表示为:
Figure BDA0002262464010000041
式中,Qp为预测Q网络,θp为预测Q网络参数,e为贪心算法参数;
在所述的步骤(4)中,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络,预测Q网络用于计算在行驶状态st下挡位集合A下的Q值,预测Q网络的输出为Qp(s,A,θp)。
进一步的,在所述的步骤(5)中,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位,换挡控制器根据预测Q网络选择合适的挡位a*:
a*(s)=argmaxa[Qp(s,a,θp)|a∈A]
式中,Qp为预测Q网络,θp为预测Q网络参数。
进一步的,所述步骤(6)中采集行驶数据包括:车速、油门开度、加速度、行驶坡度和地面摩擦阻力系数;
在所述的步骤(6)中更新预测Q网络的方法包括两种:方法一为通过工程机械及车辆行驶数据重构步骤(2)中的转移函数,然后根据步骤(3)和步骤(4)更新预测Q网络;方法二为根据步骤(4)中的预测Q网络更新方法直接更新预测Q网络;
其中,方法一是通过采集工程机械及车辆行驶数据对步骤(2)中的转移函数进行重构,重构方法为对转移函数中的参数进行重新计算形成结构相同但参数不同的转移函数,或者通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数;
其中,方法二是通过采集工程机械及车辆行驶数据然后根据步骤(4)中的预测Q网络更新方法进行更新,预测Q网络的更新方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaxaQt(s,a,θt)-Qp(s,a,θp))2
式中,γ为奖励递减值;α为神经网络学习率;Qt为目标Q网络,θt为目标Q网络参数
本发明与现有技术相比,其显著优点在于:
(1)本申请通过采用深度强化学习方法,因为可以根据工程机械及车辆行驶过程构建包含马尔可夫决策过程和奖励函数的马尔可夫链实现对预测Q网络的更新的原理,能够解决对换挡策略进行求解和动态优化的问题;具有自适应能力强的特点;
(2)本申请通过采用深度强化学习方法,因为算法本身在进行求解和动态优化的步骤具有统一性,不受受控对象本体的影响,可以适用于乘用车、工程机械及车辆、特种车辆和电动车辆等不同车型;原因是可以通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数,不受所运用适用对象本体的影响,具有通用性强的特点;
(3)本申请通过采用深度强化学习方法对换挡策略进行求解和动态优化,因为算法本身不受受控对象本体的影响同时可以实现换挡策略的动态优化,具有智能性强的特点;
(4)本申请通过采用深度强化学习中的预测Q网络实现挡位的选择,代替了传统方法中的表格形式,因为神经网络拟合能力强,可适用于高维状态变量下的换挡策略的原因,能够解决贝尔曼纬度灾难的问题。
附图说明
图1是本发明基于深度强化学习的换挡策略动态优化方法原理图。
图2是本发明求解深度强化学习换挡策略流程图。
图3是本发明采用的神经网络结构模型图。
图4是本发明换挡策略的动态优化过程原理图。
具体实施方式
本发明提供了一种基于深度强化学习的换挡策略动态优化方法。本发明构建了换挡策略马尔可夫决策过程和奖励函数,之后利用深度强化学习方法求解换挡策略。然后将深度强化学习方法求解出的预测Q网络放入换挡策略控制器中实现挡位的选择。同时,在日常行驶过程中采集行驶数据,通过深度强化学习方法对换挡策略进行更新。实现换挡策略的动态优化。
一种基于深度强化学习的换挡策略动态优化方法,包括如下步骤:
步骤一,确定换挡策略状态变量及动作变量。
步骤二,根据状态输入变量和动作输出变量确定换挡策略马尔科夫决策过程。
步骤三,根据换挡策略优化目标建立强化学习换挡策略奖励函数。
步骤四,根据步骤二的马尔科夫决策过程和步骤三奖励函数,求解深度强化学习换挡策略。首先通过所建立的马尔可夫决策过程及奖励函数计算马尔可夫链,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络。
步骤五,将步骤四计算出的预测Q网络放入换挡策略控制器,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位。
步骤六,在行驶过程中,采集工程机械及车辆行驶数据保存进经验池,并定期更新预测Q网络,更新完成后将预测Q网络放入换挡策略控制器,实现对换挡策略进行动态优化。
进一步,在所述步骤一,换挡策略状态变量为工程机械及车辆行驶状态变量或外界环境变量。动作变量为档位操作或换挡操作。档位操作包括升档、降档或保持档位;换挡操作即选择的挡位。
在所述的步骤二中,换挡策略马尔可夫决策过程表示为下一时刻状态为当前状态和所选动作的转移函数T的形式。转移函数的形式为:
st+1=T(st,at)
式中,st+1为下一时刻的状态变量,st为当前状态变量,at为所选动作变量。其中,s∈S,a∈A。S为状态变量的集合,A为动作变量的集合。在换挡策略中,状态变量为工程机械及车辆行驶状态变量或外界环境变量,包括车速、油门开度、加速度、行驶坡度和地面摩擦阻力系数。动作变量包括档位操作或换挡操作。
在所述的步骤三中,所建立的换挡策略奖励函数与换挡目标正相关。
在所述的步骤三中,所述的换挡目标包括动力性、经济性、舒适性。
在所述的步骤四中,通过所建立的马尔可夫决策过程及奖励函数计算马尔可夫链。马尔可夫链的形式为:
<st,at,rt,st+1>
式中,rt为根据奖励目标计算出的临时奖励。
在所述的步骤四中,所建立的马尔可夫链中,动作at的选择是通过贪心算法,贪心算法表示为:
Figure BDA0002262464010000071
式中,Qp为预测Q网络,θp为预测Q网络参数。e为贪心算法参数。
在所述的步骤四中,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络。预测Q网络用于计算在行驶状态st下挡位集合A下的Q值。预测Q网络的输出为Qp(s,A,θp),预测Q网络的更新方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaxaQt(s,a,θt)-Qp(s,a,θp))2
式中,γ为奖励递减值;α为神经网络学习率;Qt为目标Q网络。θt为目标Q网络参数。
在所述的步骤五中,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位。换挡控制器根据预测Q网络选择合适的挡位a*。
a*(s)=argmaxa[Qp(s,a,θp)|a∈A]
式中,Qp为预测Q网络,θp为预测Q网络参数。
在所述的步骤六中,采集行驶数据数据包括:车速、油门开度、加速度、行驶坡度和地面摩擦阻力系数。
在所述的步骤六中,更新预测Q网络的方法包括两种。方法一为通过工程机械及车辆行驶数据重构步骤二中的转移函数,然后根据步骤三和步骤四更新预测Q网络。方法二为根据步骤四中的预测Q网络更新方法直接更新预测Q网络。
在所述的步骤六中,更新预测Q网络的方法一是通过采集工程机械及车辆行驶数据对步骤二中的转移函数进行重构,重构方法为对转移函数中的参数进行重新计算形成结构相同但参数不同的转移函数,或者通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数等。
在所述的步骤六中,更新预测Q网络的方法二是通过采集工程机械及车辆行驶数据然后根据步骤四中的预测Q网络更新方法进行更新,预测Q网络的更新方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaxaQt(s,a,θt)-Qp(s,a,θp))2
在所述的步骤六中,通过所述的深度强化学习中预测Q网络的更新实现换挡策略的动态优化。
实施例
本发明提供一种基于深度强化学习的换挡策略动态优化方法。本发明构建了换挡策略马尔科夫决策过程,然后利用深度强化学习方法求解换挡策略。求解完成后将深度强化学习训练出的预测Q网络放入换挡策略控制器中实现挡位的选择。之后在行驶过程中,通过采集工程机械及车辆行驶数据对预测Q网络进行更新以实现换挡策略的动态优化。预测Q网络的更新方法包括:根据工程机械及车辆行驶数据重构换的挡策略转移函数更新预测Q网络和直接根据深度强化学习方法更新预测Q网络。基于深度强化学习的换挡策略动态优化方法原理如图1所示,包括如下步骤:
步骤一,确定换挡策略状态变量及动作变量。
步骤二,根据状态输入变量和动作输出变量确定换挡策略马尔科夫决策过程。
步骤三,根据换挡策略优化目标建立强化学习换挡策略奖励函数。
步骤四,根据步骤二的马尔科夫决策过程和步骤三的奖励函数,求解深度强化学习换挡策略。首先通过所建立的马尔可夫决策过程及奖励函数计算马尔可夫链,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络。
步骤五,将步骤四计算出的预测Q网络放入换挡策略控制器,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位。
步骤六,在行驶过程中,采集工程机械及车辆行驶数据保存进经验池,并定期更新预测Q网络,更新完成后将预测Q网络放入换挡策略控制器,实现对换挡策略进行动态优化。
以下结合附图和实施例对本发明的技术方案作具体实施描述。
步骤一,确定换挡策略状态变量及动作变量。在实施例中,换挡策略状态变量为车速v、加速度
Figure BDA0002262464010000081
和油门开度αt。动作变量为挡位ng
在实施例中,根据状态变量(车速、加速度、油门开度)和动作变量(档位)确定换挡策略马尔科夫决策过程。马尔可夫决策过程状态转移函数T为:
Figure BDA0002262464010000091
式中,Te为发动机输出转矩;ig为挡位ng对应的传动比;i0为主减速器传动比;ηt为传动***效率;m为汽车总重量;β为等效坡度阻力系数。Cd为空气阻力系数;A为汽车迎风面积;Fb为制动力;R为轮胎有效转动半径;ρ为空气密度。
步骤三,根据换挡目标建立强化学习换挡策略奖励函数。在本实施例中,学习目标为动力性换挡策略,描述为工程机械及车辆在舒适度约束条件下以最短时间t到达最高车速。奖惩机制为:
Figure BDA0002262464010000092
式中,r为奖惩机制计算出的奖励;rt为临时奖励,rt=-0.001||VTamx-v||;vTmax为当前油门开度αt下的最大车速;J为工程机械及车辆的冲击度;Jmax为所设计的最大允许冲击度。
步骤四,根据步骤二的马尔科夫决策过程和步骤三的奖励函数,求解深度强化学习换挡策略。首先通过所建立的马尔可夫决策过程及奖励函数计算马尔可夫链,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络。步骤四的流程如图2所示。具体步骤如下所示。
第一步:首先初始化状态变量和动作变量,根据所建立的马尔可夫决策过程转移函数计算出下一时刻的状态。
第二步:通过所设计的奖惩机制计算奖励。
第三步:将上述的状态-动作-下一时刻状态和奖励表示成马尔可夫链的形式保存进经验池。
第四步:将下一时刻的状态作为当前状态,预测Q网络根据当前状态计算各动作下的Q值,然后通过贪心算法根据各动作下的Q值计算当前状态下的实际选择挡位。然后回到第一步,循环往复。
在以上步骤中,当经验池中马尔可夫链的数量到达预定个数时,开始对预测Q网络进行更新。
预测Q网络的更新过程通过预测Q网络和目标Q网络共同完成的,预测Q网络的更新方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaaxQt(s,a,θt)-Qp(s,a,θp))2
式中,γ为奖励递减值;α为神经网络学习率;Qt为目标Q网络。θt为目标Q网络参数。
在预测Q网络的更新过程中,需要定期将预测Q网络的参数导入复制到目标Q网络中以实现目标Q网络的更新。
预测Q网络和目标Q网络具有相同的神经网络结构。在本实施例中,预测Q网络和目标Q网络所采用的神经网络结构模型如图3所示。所使用的神经网络结构模型具有五个全连接层作为中间层,采用线性整流函数ReLU作为神经网络激活函数。线性整流函数ReLU表示为:
ReLU(x)=max(0,Wx+b)
式中:W为神经网络的权重;b为神经网络的偏秩;x为神经网络输入。
在本实施例中,神经网络数据输入为状态变量(车速、油门开度、加速度)。输出层输出的是所有挡位ng对应的Q值。Q值越大说明在当前状态下,选择对应Q值的档位可以获得更大的最大化折扣累计奖励值。
步骤五,将步骤四计算出的预测Q网络放入换挡策略控制器,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位。
在步骤五中,工程机械及车辆根据换挡策略控制器选择挡位。具体表现为:
a*(s)=argmaxa[Qp(s,a,θp)|a∈A]
式中,Qp为预测Q网络,θp为预测Q网络参数。
步骤六,在行驶过程中,采集工程机械及车辆行驶数据保存进经验池,并定期更新预测Q网络,更新完成后将预测Q网络放入换挡策略控制器,实现对换挡策略进行动态优化。
在步骤六中,更新预测Q网络的方法包括两种。方法一为通过工程机械及车辆行驶数据重构步骤二中的转移函数,然后根据步骤三和步骤四更新预测Q网络。方法二为根据步骤四中的预测Q网络更新方法直接更新预测Q网络。
在步骤六中,更新预测Q网络的方法一是通过采集工程机械及车辆行驶数据对步骤二中的转移函数进行重构,重构方法为对转移函数中的参数进行重新计算形成结构相同但参数不同的转移函数,或者通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数等。在本实施例中,所重构的转移函数为:
Figure BDA0002262464010000111
根据重构方法,在本实施例中,可以通过对转移函数中的参数进行重新计算。或者通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数。无论进行那种形式的重构,重构后的转移函数可以统一表示为:
st+1=Tnew(st,at,Θ)
式中,Ω为转移函数参数。
重构结束后,需要重新进行步骤四和步骤五得到新的预测Q网络。
在步骤六中,更新预测Q网络的方法二是通过采集工程机械及车辆行驶数据然后根据步骤四中的预测Q网络更新方法进行更新。
在步骤六中,更新预测Q网络的方法二是通过采集工程机械及车辆行驶数据然后根据步骤四中的预测Q网络更新方法进行更新,以实现换挡策略的动态优化过程,换挡策略的动态优化过程如图4所示。具体过程如下:
第一步:采集工程机械及车辆行驶数据
第二步:将采集的工程机械及车辆行驶数据进行处理,处理完成后的数据表达为马尔可夫链的形式,可以表示为:
<st,at,rt,st+1>
第三步:预测Q网络的更新,预测Q网络的更新过程通过预测Q网络和目标Q网络共同完成的,方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaxaQt(s,a,θt)-Qp(s,a,θp))2
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (9)

1.一种基于深度强化学习的换挡策略动态优化方法,其特征在于,包括如下步骤:
步骤(1):确定换挡策略状态输入变量和动作输出变量;
步骤(2):根据步骤(1)的状态输入变量和动作输出变量,确定换挡策略马尔科夫决策过程;
步骤(3):根据换挡策略目标建立强化学习换挡策略奖励函数;
步骤(4):根据步骤(2)中的马尔科夫决策过程和步骤(3)中的奖励函数,求解深度强化学习换挡策略;具体为首先通过马尔可夫决策过程及奖励函数计算马尔可夫链,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络;
步骤(5):将步骤(4)计算出的预测Q网络放入换挡策略控制器,在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位;
步骤(6):在行驶过程中,采集工程机械及车辆行驶数据保存进经验池,并定期更新预测Q网络,更新完成后将预测Q网络放入换挡策略控制器,实现对换挡策略进行动态优化;
步骤(1),确定换挡策略状态变量及动作输出变量,换挡策略状态变量为车速v、加速度
Figure FDA0003670067980000011
和油门开度αt,动作输出变量为挡位ng
根据状态变量即车速、加速度以及油门开度和动作输出变量即档位确定换挡策略马尔科夫决策过程,马尔可夫决策过程状态转移函数T为:
Figure FDA0003670067980000012
式中,Te为发动机输出转矩;ig为挡位ng对应的传动比;i0为主减速器传动比;ηt为传动***效率;m为汽车总重量;β为等效坡度阻力系数;Cd为空气阻力系数;A为汽车迎风面积;Fb为制动力;R为轮胎有效转动半径;ρ为空气密度;
步骤(3),所述换挡策略目标为动力性换挡策略,描述为工程机械及车辆在舒适度约束条件下以最短时间t到达最高车速,奖惩机制为:
Figure FDA0003670067980000021
式中,r为奖惩机制计算出的奖励;rt为临时奖励,rt=-0.001||VTamx-v||;vTmax为当前油门开度αt下的最大车速;J为工程机械及车辆的冲击度;Jmax为所设计的最大允许冲击度;
步骤(4)具体步骤如下所示;
第一步:首先初始化状态变量和动作变量,根据所建立的马尔可夫决策过程转移函数计算出下一时刻的状态;
第二步:通过所设计的奖惩机制计算奖励;
第三步:将上述的状态-动作-下一时刻状态和奖励表示成马尔可夫链的形式保存进经验池;
第四步:将下一时刻的状态作为当前状态,预测Q网络根据当前状态计算各动作下的Q值,然后通过贪心算法根据各动作下的Q值计算当前状态下的实际选择挡位;然后回到第一步,循环往复;
在以上步骤中,当经验池中马尔可夫链的数量到达预定个数时,开始对预测Q网络进行更新;
预测Q网络的更新过程通过预测Q网络和目标Q网络共同完成的,预测Q网络的更新方法为:
Qp(s,a,θp)=Qp(s,a,θp)+α(r+γmaxaQt(s,a,θt)-Qp(s,a,θp))2
式中,γ为奖励递减值;α为神经网络学习率;Qt为目标Q网络,θt为目标Q网络参数,Qp为预测Q网络,θp为预测Q网络参数。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的状态输入变量包括车速v、加速度
Figure FDA0003670067980000022
和油门开度αt,行驶坡度和地面摩擦阻力系数;动作输出变量包括档位操作和换挡操作,其中档位操作包括升档、降档或保持档位,换挡操作即选择的挡位ng
3.根据权利要求2所述的方法,其特征在于,所述步骤(2)中的换挡策略马尔可夫决策过程表示为下一时刻状态为当前状态和所选动作的转移函数的形式,转移函数的形式如下:
st+1=T(st,at)
式中,st+1为下一时刻的状态变量,st为当前状态变量,at为所选动作变量,其中,s∈S,a∈A,S为状态变量的集合,A为动作变量的集合。
4.根据权利要求3所述的方法,其特征在于,所述步骤(3)中的换挡策略奖励函数与换挡策略目标正相关,所述换挡策略目标包括动力性、经济型和舒适性。
5.根据权利要求4所述的方法,其特征在于,所述步骤(4)中的马尔科夫链的形式为:
<st,at,rt,st+1>
式中,rt为根据奖励目标计算出的临时奖励。
6.根据权利要求5所述的方法,其特征在于,所述步骤(4)中的深度强化学习方法包含两个结构相同但参数不同的神经网络,称为预测Q网络和目标Q网络,其中预测Q网络的作用是计算在当前状态下各动作的Q值,目标Q网络用于更新预测Q网络。
7.根据权利要求6所述的方法,其特征在于,步骤(4)中,所建立的马尔可夫链中,动作变量at的选择是通过贪心算法,贪心算法表示为:
Figure FDA0003670067980000031
式中,Qp为预测Q网络,θp为预测Q网络参数,e为贪心算法参数;
在所述的步骤(4)中,将马尔可夫链保存入经验池,然后根据经验池中数据更新深度强化学习换挡策略中的预测Q网络,预测Q网络用于计算在行驶状态st下挡位集合A下的Q值,预测Q网络的输出为Qp(s,A,θp)。
8.根据权利要求7所述的方法,其特征在于,在所述的步骤(5)中,工程机械及车辆在行驶过程中,工程机械及车辆根据换挡策略控制器选择挡位,换挡控制器根据预测Q网络选择合适的挡位a*:
a*(s)=argmaxa[Qp(s,a,θp)|a∈A]
式中,Qp为预测Q网络,θp为预测Q网络参数。
9.根据权利要求8所述的方法,其特征在于,所述步骤(6)中采集行驶数据包括:车速、油门开度、加速度、行驶坡度和地面摩擦阻力系数;
在所述的步骤(6)中更新预测Q网络的方法包括两种:方法一为通过工程机械及车辆行驶数据重构步骤(2)中的转移函数,然后根据步骤(3)和步骤(4)更新预测Q网络;方法二为根据步骤(4)中的预测Q网络更新方法直接更新预测Q网络;
其中,方法一是通过采集工程机械及车辆行驶数据对步骤(2)中的转移函数进行重构,重构方法为对转移函数中的参数进行重新计算形成结构相同但参数不同的转移函数,或者通过采用神经网络、线性拟合和傅里叶变换法拟合转移函数;
其中,方法二是通过采集工程机械及车辆行驶数据然后根据步骤(4)中的预测Q网络更新方法进行更新。
CN201911076016.XA 2019-11-06 2019-11-06 一种基于深度强化学习的换挡策略动态优化方法 Active CN110716550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911076016.XA CN110716550B (zh) 2019-11-06 2019-11-06 一种基于深度强化学习的换挡策略动态优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911076016.XA CN110716550B (zh) 2019-11-06 2019-11-06 一种基于深度强化学习的换挡策略动态优化方法

Publications (2)

Publication Number Publication Date
CN110716550A CN110716550A (zh) 2020-01-21
CN110716550B true CN110716550B (zh) 2022-07-22

Family

ID=69213797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911076016.XA Active CN110716550B (zh) 2019-11-06 2019-11-06 一种基于深度强化学习的换挡策略动态优化方法

Country Status (1)

Country Link
CN (1) CN110716550B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111487863B (zh) * 2020-04-14 2022-06-17 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN111882030B (zh) * 2020-06-29 2023-12-05 武汉钢铁有限公司 一种基于深度强化学习的加锭策略方法
CN111965981B (zh) * 2020-09-07 2022-02-22 厦门大学 一种航空发动机强化学习控制方法及***
CN112395690A (zh) * 2020-11-24 2021-02-23 中国人民解放军海军航空大学 基于强化学习的舰载机舰面保障流程优化方法
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN114662982B (zh) * 2022-04-15 2023-07-14 四川大学 一种基于机器学习的城市配电网多级动态重构方法
CN116069014B (zh) * 2022-11-16 2023-10-10 北京理工大学 一种基于改进型深度强化学习的车辆自动控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797534A (zh) * 2017-09-30 2018-03-13 安徽江淮汽车集团股份有限公司 一种纯电动自动驾驶***
CN108407797A (zh) * 2018-01-19 2018-08-17 洛阳中科龙网创新科技有限公司 一种基于深度学习的实现农机自动换挡的方法
CN109325624A (zh) * 2018-09-28 2019-02-12 国网福建省电力有限公司 一种基于深度学习的月度电力需求预测方法
CN109991856A (zh) * 2019-04-25 2019-07-09 南京理工大学 一种机器人驾驶车辆集成协调控制方法
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442455B1 (en) * 2000-12-21 2002-08-27 Ford Global Technologies, Inc. Adaptive fuel strategy for a hybrid electric vehicle
US20180018757A1 (en) * 2016-07-13 2018-01-18 Kenji Suzuki Transforming projection data in tomography by means of machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797534A (zh) * 2017-09-30 2018-03-13 安徽江淮汽车集团股份有限公司 一种纯电动自动驾驶***
CN108407797A (zh) * 2018-01-19 2018-08-17 洛阳中科龙网创新科技有限公司 一种基于深度学习的实现农机自动换挡的方法
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN109325624A (zh) * 2018-09-28 2019-02-12 国网福建省电力有限公司 一种基于深度学习的月度电力需求预测方法
CN109991856A (zh) * 2019-04-25 2019-07-09 南京理工大学 一种机器人驾驶车辆集成协调控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
拖拉机驾驶机器人设计及人机协作方法研究;卢伟;《南京信息工程大学学报》;20190328;第165-173页 *

Also Published As

Publication number Publication date
CN110716550A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110716550B (zh) 一种基于深度强化学习的换挡策略动态优化方法
CN108087541B (zh) 汽车有级自动变速器多性能综合最优挡位决策***
CN111731303B (zh) 一种基于深度强化学习a3c算法的hev能量管理方法
WO2021114742A1 (zh) 一种混合动力电动汽车综合预测能量管理方法
CN110936824B (zh) 一种基于自适应动态规划的电动汽车双电机控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN109591659B (zh) 一种智能学习的纯电动汽车能量管理控制方法
CN110550034A (zh) 一种纯电动汽车两档amt综合换挡方法
CN112943914B (zh) 车辆换挡线确定方法、装置、计算机设备和存储介质
Zhao et al. Torque coordinating robust control of shifting process for dry dual clutch transmission equipped in a hybrid car
CN110985566B (zh) 一种车辆起步控制方法、装置、车辆及存储介质
DE102014214763A1 (de) Echtzeit-kraftstoffverbrauchsschätzung
CN113104023B (zh) 分布式mpc的网联混合动力汽车能量管理***及方法
CN106114492A (zh) 新能源汽车自动变速器动力换挡控制***及控制方法
You et al. Shift strategy of a new continuously variable transmission based wheel loader
CN110792762A (zh) 一种巡航模式下商用车前瞻换挡控制方法
CN113682293B (zh) 智能网联混合动力汽车多***动态协调控制***及方法
CN112009456A (zh) 一种网联混合动力汽车能量管理方法
CN115793445B (zh) 一种基于多智能体深度强化学习的混合动力汽车控制方法
He et al. MPC-based longitudinal control strategy considering energy consumption for a dual-motor electric vehicle
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及***
Shen et al. Two-level energy control strategy based on ADP and A-ECMS for series hybrid electric vehicles
Zou et al. Research on shifting process control of automatic transmission
CN106347373A (zh) 一种基于电池荷电状态预测的动态规划方法
CN113492827A (zh) 一种混合动力汽车能量管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant