CN113335277A - 智能巡航控制方法、装置、电子设备和存储介质 - Google Patents
智能巡航控制方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113335277A CN113335277A CN202110458260.3A CN202110458260A CN113335277A CN 113335277 A CN113335277 A CN 113335277A CN 202110458260 A CN202110458260 A CN 202110458260A CN 113335277 A CN113335277 A CN 113335277A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- queue
- state
- current
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000005457 optimization Methods 0.000 claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 27
- 230000001133 acceleration Effects 0.000 claims description 22
- 238000011217 control strategy Methods 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 230000001276 controlling effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005094 computer simulation Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4042—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/802—Longitudinal distance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质,其方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。
Description
技术领域
本发明涉及自动控制技术领域,尤其涉及一种智能巡航控制方法、装置、电子设备和存储介质。
背景技术
巡航控制是一种先进的辅助驾驶方法,能够有效降低驾驶员负担,并提高道路交通效率、驾驶安全性以及燃油经济性。目前自适应巡航控制(ACC)、协同自适应巡航控制(CACC)和互联巡航控制(CCC)等基于网络化控制的巡航控制方法虽然受到广泛关注与应用,但仍存在诸多限制。如ACC方法结合了多种传感器技术感知道路交通信息,由于传感器的感知灵敏度较差且容易受到外界环境的干扰,导致ACC方法稳定性和安全性不足。CACC方法在ACC的基础上引入了车联网中的车对车(V2V)通信技术来促进车队内的车辆主动交换其运动状态信息,然而,CACC方法要求车队中的每辆车都配备ACC自动驾驶设备以辅助协同控制,并且其通信拓扑结构通常是固定不变的,当车队中有手动驾驶车辆或者道路状况发生改变时,将不可避免地导致CACC的性能和稳定性下降,这也限制了其在未来交通场景中的应用。为了实现更灵活的车辆队列设计、连接结构和通信拓扑结构,进一步提出的CCC允许受控车辆接收前方多辆汽车广播的状态信息,而无需为全部车辆配备传感器,在提高每辆车的信息感知和控制能力的同时,也无需统一设计整个队列。虽然CCC***既不需要指定的头车,也不需要固定的通信结构,因此可以有选择的进行通信,允许模块化设计,可扩展性更好,然而在环境变化、受控车辆移动、网络节点的传输能力及链路质量的限制情况下,其拓扑结构、网络通信时延和期望状态等特性将是动态的、时变的,复杂交通环境的不可预测性和网络的不可靠性将对基于网络化控制的巡航控制方法带来严峻的挑战。
发明内容
本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质,用以解决目前基于网络化控制的巡航控制方法存在上述的部分或全部的问题。
第一方面,本发明实施例提供一种智能巡航控制方法,包括:
确定自动控制车辆的当前状态信号;
将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
优选地,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
优选地,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
优选地,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
优选地,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1;
优选地,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
其中,N是采样间隔数,C与D为系数矩阵:
c1和c2为预设系数。
优选地,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(sk|θμ),执行策略并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk,+r1k)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ:
其中,M为小批量采样的样本数,Q(st,at|θQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θμ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1|θμ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ:
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
第二方面,本发明实施例提供一种智能巡航控制装置,包括状态信号单元和智能控制单元;
所述状态信号单元,用于确定自动控制车辆的当前状态信号;
所述智能控制单元,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。
本发明实施例提供的一种智能巡航控制方法、装置、电子设备和存储介质,通过将自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明实施例通过与环境持续不断地交互,可以持续智能地学***稳驾驶,从而解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种智能巡航控制方法的流程示意图;
图2是本发明提供的基于网络化控制的智能巡航控制场景示意图;
图3是本发明提供的基于网络化控制的智能巡航控制架构图;
图4是本发明提供的一种智能巡航控制装置的结构示意图;
图5是本发明提供的智能优化控制模块框图;
图6是本发明提供的***建模模块框图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明提供的一种智能巡航控制方法、装置、电子设备和存储介质。
本发明实施例提供了一种智能巡航控制方法。图1为本发明实施例提供的智能巡航控制方法的流程示意图,如图1所示,该方法包括:
步骤110,确定自动控制车辆的当前状态信号;
具体地,本发明实施例中车辆队列包括手动驾驶车辆和CCC车辆,队列中的各车辆都配备有通信设备,通过V2V通信技术,CCC自动驾驶车辆可以接收来自其他车辆的状态信息,包括车头时距、车速和加速度。
步骤120,将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
具体地,通过分析车辆动力学和无线网络特性,构建车辆队列***的动态方程,考虑动态时变的网络通信时延和期望状态的影响,建立优化控制问题,从而构建MDP模型,使用DRL算法,通过与环境不断交互产生样本并训练神经网络,最终得到自动控制车辆的智能优化控制策略,能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距,同时保证了控制***以及车辆队列的在网络动态条件下的平稳运行。
本发明实施例提供的方法,通过与环境持续不断地交互,可以持续智能地学***稳驾驶。
基于上述任一实施例,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
需要说明的是,由于CCC***中车辆之间的网络拓扑结构灵活,每辆车都可以与附近的车辆进行通信。通过无线V2V通信,CCC车辆可以获取车队中其它车辆的车头时距、速度和加速度等实时状态信息,从而可以对整个车辆队列进行建模。同时,由于CCC可以为异构的车辆队列提供服务,因此车队中的手动驾驶车辆和CCC自动控制车辆的顺序与数量是可变的,这也更加符合现实交通场景对车辆队列灵活性的要求。通常自动控制车辆无需考虑其后车辆的车辆状态,为了更加清楚地描述技术方案,本发明实施例以尾车为CCC自动控制车辆、其他车辆为手动驾驶车辆为例。并且,本发明实施例提供的方法同样适用于更复杂的模型中对于自动控制车辆的控制,当队列模型发生变化时,可以使用本发明实施例提出的建模方法,按照队列的具体情况构建相应的***动态方程。
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
需要说明的是,巡航控制的目标是使车辆队列中的车辆能够跟踪期望车速并保持期望车距,同时达到舒适平滑的加速度控制。因此以最小化车速和车距误差以及控制输入为目标,可以构建二次型优化控制问题。但是,一方面,由于高维状态空间和复杂的物理特性,这种优化控制问题很难直接得到解析解。另一方面,由于实际网络通信时延和期望状态动态时变特性的影响,采用传统的依赖于固定参数模型和静态策略的优化决策方法,往往存在较高的鲁棒性和稳定性风险。因此,本发明实施例提出了基于DRL(DeepReinforcement Learning)的智能优化控制方法提高自动控制车辆在复杂动态条件下的适应性和稳定性。
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
需要说明的是,强化学习(Reinforcement Learning,RL)问题通常用MDP(MarkovDecision Process)描述,MDP一般包括状态、动作、状态转移函数以及奖励函数,根据***模型以及优化问题建立***的MDP模型。根据MDP模型,采用基于深度强化学习(DeepReinforcement Learning,DRL)的算法得到智能优化控制策略。传统的基于离散动作的人工智能算法,例如Q-learning、DQN(Deep Q-learning)、演员-评论家(Actor-Critic)等,在处理巡航控制这样的动作值为连续的控制问题时,往往会因为收敛性和稳定性差导致性能下降的问题。本发明实施例基于DRL中的深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法,根据定义好的MDP模型,通过与环境不断交互进行样本采集与训练,以最大化奖励函数为目标不断优化神经网络参数,最终能够根据CCC自动控制车辆当前状态输入实时产生智能优化控制策略输出信号,从而实现对CCC自动控制车辆的安全稳定控制。
基于上述任一实施例,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
具体地,根据队列建立队列***模型,包括:
根据V2V通信收集队列中各车的车距、车速以及加速度信息;
根据车距、车速和加速度信息,建立队列中各车的动态方程;
根据头车获得期望车速,结合范围策略,获得各车的期望车距;
根据期望车速和期望车距以及各车当前车速和车距,建立各车的状态误差方程;
联立各车的状态误差方程,获得基于连续时间的队列状态方程,经离散化处理后可获得基于离散时间的队列***模型。
由于引入了无线V2V通信来促进车辆之间的状态信息分享与交流,通过分析无线网络中的时延特性对CCC自动控制车辆的影响,得到有时延的车辆动态方程。然后将队列中所有手动驾驶车辆以及CCC自动驾驶车辆的状态误差方程联立得到连续时间***状态误差方程。然后,本发明实施例通过采样将连续时间***状态方程离散化,获得基于离散时间的队列***模型。
基于上述任一实施例,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
需要说明的是,分别对手动驾驶车辆和CCC自动控制车辆进行动态分析,通过V2V通信获得队列中各车的状态信息如车距、车速、加速度,然后根据它们之间的关系可以建立车辆动态方程。将队列中头车的车速作为其它车辆的期望车速,根据范围策略可以获得期望车距。在获得期望车速和期望车距之后,可以获得各车辆的状态误差方程。其中,期望车距和车速满足如下范围策略:
其中,V(h)表示所述期望车速,h表示当前车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速。
基于上述任一实施例,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1;
基于上述任一实施例,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
其中,N是采样间隔数,C与D为系数矩阵:
c1和c2为预设系数。
具体地,图2为本发明实施例提供的基于网络化控制的智能巡航控制场景示意图,为了便于理解,本发明实施例的车辆队列由m+1辆车组成,其中尾车即#1车为CCC自动驾驶车辆,其它车辆均为人类手动驾驶车辆,车队最前方即#m+1车为头车。队列中的各车辆都配备有通信设备,通过V2V通信技术,CCC自动驾驶车辆可以接收来自其他车辆的状态信息,包括车头时距、车速和加速度。为了清楚地阐述本发明实施例的技术方案,本发明实施例中头车作为CCC自动驾驶车辆的跟踪目标,以动态变化的车速行驶。
如图2所示,人类手动驾驶车辆的动力学方程可定义如下:
而CCC自动驾驶车辆的动力学方程可定义如下:
其中,u(t)表示控制策略,即CCC自动驾驶车辆的加速度,τ(t)表网络化控制过程中的网络诱导时延。
车队中各车的目的是达到期望车距h*(t)和期望车速v*(t)=V(h*(t))。根据实际状态和期望状态的偏差可以定义车距误差车速误差根据车辆动力学模型,利用线性一阶近似可以得到车辆队列的误差动力学模型为:
定义状态向量:
上式中,
yi+1=A0yi+B1ui+B2ui-1
巡航控制的目标是使车辆跟踪目标车距和车速行驶,从而使整个车队始终保持平衡状态y*≡0。为了实现优化控制,定义二次代价函数为:
上式中,N是采样间隔数,C与D为系数矩阵:
其中,c1和c2为预设系数,本发明实施例中可分别取为1和0.1。
综上,可以构建巡航控制***最优化问题为:
s.t.yi+1=A0yi+B1ui+B2ui-1
基于网络动态时变特性的影响,为了提高网络化的智能巡航控制***的环境适应性和自学习能力,本发明实施例提出了基于DRL的智能优化控制方法来解决上述优化问题。
MDP通常用来形式化描述RL问题,在每个时隙k,智能体从环境中观察当前状态并决策,执行动作后得到下一状态并通过反馈的奖励值调整策略。本发明实施例根据构建的网络动态场景下的巡航控制***模型以及最优化问题来定义MDP中的状态、动作、状态转移函数以及奖励函数。
1)状态
考虑到优化控制策略受到当前状态和网络时延的导致的延迟控制信号的共同影响,定义新状态向量为:
2)动作
对于网络化巡航控制***,可以定义动作为加速度控制策略:
ak=uk
3)状态转移函数
根据网络化巡航控制***离散时间***模型以及状态向量sk,状态转移函数可表示为:
sk+1=skE+akF
其中,
4)奖励函数
与优化理论中最小化代价函数不同,智能算法的目标为最大化长期累积奖励值,因此可以定义奖励函数为:
其中,
长期累积奖励值称为回报,表示如下:
上式中,0<γ<1为折扣因子。
由于巡航控制***的动作取值是连续的,而DRL中的DDPG方法可以很好的解决因离散动作设计而导致的***性能下降问题。因此,本发明实施例提出基于DDPG的智能优化控制方法来得到智能控制策略,从而提升***收敛性与稳定性。
基于上述任一实施例,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
需要说明的是,基于网络化控制的智能巡航控制架构如图3所示,其中,DDPG主要包括四个深度神经网络:当前actor网络μ(s|θμ),目标actor网络μ′(s|θμ′),当前critic网络Q(s,a|θQ),目标critic网络Q′(s,a|θQ′),其中μ(·)为确定性动作策略,Q(·)为动作价值评估函数,θ表示对应的神经网络参数。智能体通过训练actor网络学习得到控制策略μ,通过训练critic网络得到相应Q值对控制策略进行评价。
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ),执行策略并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ:
其中,M为小批量采样的样本数,Q(st,at|θQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θμ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1|θμ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ:
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
具体地,基于网络化控制的智能巡航控制方法可以分为两个步骤:采样和训练。
1)采样
首先需要为训练采集足够的样本,在每个时隙中,根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ)。为了保证在连续动作空间中保证有效的探索,添加随机噪声η得到探索策略为:
2)训练
本发明实施例的训练过程以200个时隙为一情节(episode),在每个情节中,随机抽取小批量的M个样本(st,at,st+1,rt)用于训练,以降低样本数据相关性并提升训练效率。
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ:
其中,M为小批量采样的样本数,Q(st,at|θQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,可以表示为:
xt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
上式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θμ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1|θμ′)为目标actor网络根据输入状态st+1生成的下一动作策略。
当前actor网络通过如下策略梯度函数来更新其参数θμ:
然后,目标actor网络和目标critic网络通过如下“软更新”的方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,0<δ<<1为一固定常数。
最后,经过足够多情节的训练,可以得到优化的当前actor网络参数θμ*。于是,根据每一次获取的输入状态s,当前actor网络能够实时生成网络化巡航控制***的优化控制策略为:
u*=a*=μ(s|θμ*)。
下面对本发明提供的一种智能巡航控制装置进行描述,下文描述的与上文描述的一种智能巡航控制方法可相互对应参照。
图4为本发明实施例提供的一种智能巡航控制装置的结构示意图,如图4所示,该装置包括状态信号单元410和智能控制单元420;
所述状态信号单元410,用于确定自动控制车辆的当前状态信号;
所述智能控制单元420,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
本发明实施例提供的装置,通过与环境持续不断地交互,可以持续智能地学***稳驾驶。
基于上述任一实施例,所述智能控制单元包括智能优化控制模块;
如图5所示,所述智能优化控制模块包括***建模模块510、问题构建模块520、MDP构建模块530和计算处理模块540;
所述***建模模块510,用于获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
所述问题构建模块520,用于根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
所述MDP构建模块530,用于根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型;
所述计算处理模块540,用于基于DRL的算法与环境不断交互产生样本并训练,从而获得智能优化控制策略。
基于上述任一实施例,如图6所示,所述***建模模块包括状态获取模块610、动态构建模块620、状态误差构建模块630和***动态模块640;
所述状态获取模块610,用于通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
所述动态构建模块620,用于根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
所述状态误差构建模块630,用于通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
所述***动态模块640,用于联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
基于上述任一实施例,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
基于上述任一实施例,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1;
基于上述任一实施例,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
其中,N是采样间隔数,C与D为系数矩阵:
c1和c2为预设系数。
基于上述任一实施例,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ),执行策略并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk,+r1k)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ:
其中,M为小批量采样的样本数,Q(st,at|θQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θμ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1|θμ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ:
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
综上,本发明实施例提供的智能巡航控制方法和装置,通过综合分析车辆动力学和无线网络特性,构建整体车辆队列***的动态方程,考虑动态时变的网络通信时延和期望状态的影响,建立优化控制问题,从而构建MDP模型,采用基于DRL的智能算法,通过与环境持续交互产生样本并训练神经网络,不断积累经验,从而得到自动控制车辆的智能优化控制策略,不仅能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距,同时保证了其在实际复杂的网络动态场景中也能自主平稳运行。也即,本发明实施例通过对车辆队列进行整体建模,在网络通信时延以及***期望状态动态变化场景下,结合优化控制理论以及人工智能方法,得到基于网络化控制的巡航控制***的智能优化控制策略,从而实现对CCC自动控制车辆的稳定控制。本发明的优势在于把网络化控制和人工智能技术应用于车辆自动巡航控制***中,考虑了复杂动态环境对控制***的影响,进而设计了基于DRL的方法来获得智能优化控制策略,促进了巡航控制***的环境适应性和自学习能力。
图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种智能巡航控制方法,其特征在于,包括:
确定自动控制车辆的当前状态信号;
将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
2.根据权利要求1所述的智能巡航控制方法,其特征在于,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
3.根据权利要求2所述的智能巡航控制方法,其特征在于,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
7.根据权利要求1所述的智能巡航控制方法,其特征在于,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(sk|θμ),执行策略并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ:
其中,M为小批量采样的样本数,Q(st,at|θQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θμ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1|θμ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ:
其中,▽为梯度算子;
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
8.一种智能巡航控制装置,其特征在于,包括状态信号单元和智能控制单元;
所述状态信号单元,用于确定自动控制车辆的当前状态信号;
所述智能控制单元,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的智能巡航控制方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的智能巡航控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458260.3A CN113335277A (zh) | 2021-04-27 | 2021-04-27 | 智能巡航控制方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458260.3A CN113335277A (zh) | 2021-04-27 | 2021-04-27 | 智能巡航控制方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113335277A true CN113335277A (zh) | 2021-09-03 |
Family
ID=77468696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458260.3A Pending CN113335277A (zh) | 2021-04-27 | 2021-04-27 | 智能巡航控制方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113335277A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113734167A (zh) * | 2021-09-10 | 2021-12-03 | 苏州智加科技有限公司 | 车辆控制方法、装置、终端及存储介质 |
CN114387787A (zh) * | 2022-03-24 | 2022-04-22 | 华砺智行(武汉)科技有限公司 | 车辆轨迹控制方法、装置、电子设备及存储介质 |
CN116257069A (zh) * | 2023-05-16 | 2023-06-13 | 睿羿科技(长沙)有限公司 | 一种无人车辆编队决策与速度规划的方法 |
CN117055586A (zh) * | 2023-06-28 | 2023-11-14 | 中国科学院自动化研究所 | 基于自适应控制的水下机器人巡游搜索与抓取方法、*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109606367A (zh) * | 2018-11-06 | 2019-04-12 | 北京工业大学 | 基于车联网的巡航控制***的最优线性控制方法及装置 |
CN109624986A (zh) * | 2019-03-01 | 2019-04-16 | 吉林大学 | 一种基于模式切换的驾驶风格的学习巡航控制***及方法 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
US20200033868A1 (en) * | 2018-07-27 | 2020-01-30 | GM Global Technology Operations LLC | Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents |
CN110989576A (zh) * | 2019-11-14 | 2020-04-10 | 北京理工大学 | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 |
CN111267831A (zh) * | 2020-02-28 | 2020-06-12 | 南京航空航天大学 | 一种混合动力车辆智能变时域模型预测能量管理方法 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
-
2021
- 2021-04-27 CN CN202110458260.3A patent/CN113335277A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200033868A1 (en) * | 2018-07-27 | 2020-01-30 | GM Global Technology Operations LLC | Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents |
CN109606367A (zh) * | 2018-11-06 | 2019-04-12 | 北京工业大学 | 基于车联网的巡航控制***的最优线性控制方法及装置 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN109624986A (zh) * | 2019-03-01 | 2019-04-16 | 吉林大学 | 一种基于模式切换的驾驶风格的学习巡航控制***及方法 |
CN110989576A (zh) * | 2019-11-14 | 2020-04-10 | 北京理工大学 | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 |
CN111267831A (zh) * | 2020-02-28 | 2020-06-12 | 南京航空航天大学 | 一种混合动力车辆智能变时域模型预测能量管理方法 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113734167A (zh) * | 2021-09-10 | 2021-12-03 | 苏州智加科技有限公司 | 车辆控制方法、装置、终端及存储介质 |
CN114387787A (zh) * | 2022-03-24 | 2022-04-22 | 华砺智行(武汉)科技有限公司 | 车辆轨迹控制方法、装置、电子设备及存储介质 |
CN114387787B (zh) * | 2022-03-24 | 2022-08-23 | 华砺智行(武汉)科技有限公司 | 车辆轨迹控制方法、装置、电子设备及存储介质 |
CN116257069A (zh) * | 2023-05-16 | 2023-06-13 | 睿羿科技(长沙)有限公司 | 一种无人车辆编队决策与速度规划的方法 |
CN116257069B (zh) * | 2023-05-16 | 2023-08-08 | 睿羿科技(长沙)有限公司 | 一种无人车辆编队决策与速度规划的方法 |
CN117055586A (zh) * | 2023-06-28 | 2023-11-14 | 中国科学院自动化研究所 | 基于自适应控制的水下机器人巡游搜索与抓取方法、*** |
CN117055586B (zh) * | 2023-06-28 | 2024-05-14 | 中国科学院自动化研究所 | 基于自适应控制的水下机器人巡游搜索与抓取方法、*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113335277A (zh) | 智能巡航控制方法、装置、电子设备和存储介质 | |
Zhu et al. | Human-like autonomous car-following model with deep reinforcement learning | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
WO2021208771A1 (zh) | 强化学习的方法和装置 | |
Li et al. | A reinforcement learning-based vehicle platoon control strategy for reducing energy consumption in traffic oscillations | |
Zhu et al. | Multi-robot flocking control based on deep reinforcement learning | |
CN109990790B (zh) | 一种无人机路径规划方法及装置 | |
CN113412494B (zh) | 一种确定传输策略的方法及装置 | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
CN112937564A (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
CN115578876A (zh) | 一种车辆的自动驾驶方法、***、设备及存储介质 | |
Han et al. | Intelligent decision-making for 3-dimensional dynamic obstacle avoidance of UAV based on deep reinforcement learning | |
US20230367934A1 (en) | Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information | |
Wang et al. | Design of intelligent connected cruise control with vehicle-to-vehicle communication delays | |
CN113867354A (zh) | 一种自动驾驶多车智能协同的区域交通流导引方法 | |
CN115494879B (zh) | 基于强化学习sac的旋翼无人机避障方法、装置及设备 | |
Ure et al. | Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning | |
CN114815882B (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
CN112462602B (zh) | 一种在DoS攻击下保持移动舞台车队安全间距的分布式控制方法 | |
Zhou et al. | A novel mean-field-game-type optimal control for very large-scale multiagent systems | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
Yuan et al. | Prioritized experience replay-based deep q learning: Multiple-reward architecture for highway driving decision making | |
Wang et al. | Experience sharing based memetic transfer learning for multiagent reinforcement learning | |
CN109725639B (zh) | 巡航***的线性控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |