CN113335277A - 智能巡航控制方法、装置、电子设备和存储介质 - Google Patents

智能巡航控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113335277A
CN113335277A CN202110458260.3A CN202110458260A CN113335277A CN 113335277 A CN113335277 A CN 113335277A CN 202110458260 A CN202110458260 A CN 202110458260A CN 113335277 A CN113335277 A CN 113335277A
Authority
CN
China
Prior art keywords
vehicle
queue
state
current
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110458260.3A
Other languages
English (en)
Inventor
王朱伟
金森繁
刘力菡
方超
孙阳
李萌
杨睿哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110458260.3A priority Critical patent/CN113335277A/zh
Publication of CN113335277A publication Critical patent/CN113335277A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4042Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/802Longitudinal distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质,其方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。

Description

智能巡航控制方法、装置、电子设备和存储介质
技术领域
本发明涉及自动控制技术领域,尤其涉及一种智能巡航控制方法、装置、电子设备和存储介质。
背景技术
巡航控制是一种先进的辅助驾驶方法,能够有效降低驾驶员负担,并提高道路交通效率、驾驶安全性以及燃油经济性。目前自适应巡航控制(ACC)、协同自适应巡航控制(CACC)和互联巡航控制(CCC)等基于网络化控制的巡航控制方法虽然受到广泛关注与应用,但仍存在诸多限制。如ACC方法结合了多种传感器技术感知道路交通信息,由于传感器的感知灵敏度较差且容易受到外界环境的干扰,导致ACC方法稳定性和安全性不足。CACC方法在ACC的基础上引入了车联网中的车对车(V2V)通信技术来促进车队内的车辆主动交换其运动状态信息,然而,CACC方法要求车队中的每辆车都配备ACC自动驾驶设备以辅助协同控制,并且其通信拓扑结构通常是固定不变的,当车队中有手动驾驶车辆或者道路状况发生改变时,将不可避免地导致CACC的性能和稳定性下降,这也限制了其在未来交通场景中的应用。为了实现更灵活的车辆队列设计、连接结构和通信拓扑结构,进一步提出的CCC允许受控车辆接收前方多辆汽车广播的状态信息,而无需为全部车辆配备传感器,在提高每辆车的信息感知和控制能力的同时,也无需统一设计整个队列。虽然CCC***既不需要指定的头车,也不需要固定的通信结构,因此可以有选择的进行通信,允许模块化设计,可扩展性更好,然而在环境变化、受控车辆移动、网络节点的传输能力及链路质量的限制情况下,其拓扑结构、网络通信时延和期望状态等特性将是动态的、时变的,复杂交通环境的不可预测性和网络的不可靠性将对基于网络化控制的巡航控制方法带来严峻的挑战。
发明内容
本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质,用以解决目前基于网络化控制的巡航控制方法存在上述的部分或全部的问题。
第一方面,本发明实施例提供一种智能巡航控制方法,包括:
确定自动控制车辆的当前状态信号;
将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
优选地,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
优选地,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
优选地,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为
Figure BDA0003041385510000031
其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
优选地,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1
其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,
Figure BDA0003041385510000032
Figure BDA0003041385510000041
Figure BDA0003041385510000042
i为采样间隔序号,ΔT为采样间隔,τ为网络诱导时延,λj
Figure BDA0003041385510000043
表示与人类驾驶行为有关的***参数,j为队列中的车辆序号,m为车辆队列中除头车外的车辆总数,
Figure BDA0003041385510000044
为范围策略在期望车距处的偏导数。
优选地,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
Figure BDA0003041385510000045
其中,N是采样间隔数,C与D为系数矩阵:
Figure BDA0003041385510000046
c1和c2为预设系数。
优选地,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(skμ),执行策略
Figure BDA0003041385510000051
并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk,+r1k)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
Figure BDA0003041385510000052
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ
Figure BDA0003041385510000053
其中,M为小批量采样的样本数,Q(st,atQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1μ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1μ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ
Figure BDA0003041385510000054
其中,
Figure BDA0003041385510000055
为梯度算子;
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
第二方面,本发明实施例提供一种智能巡航控制装置,包括状态信号单元和智能控制单元;
所述状态信号单元,用于确定自动控制车辆的当前状态信号;
所述智能控制单元,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。
本发明实施例提供的一种智能巡航控制方法、装置、电子设备和存储介质,通过将自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明实施例通过与环境持续不断地交互,可以持续智能地学***稳驾驶,从而解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种智能巡航控制方法的流程示意图;
图2是本发明提供的基于网络化控制的智能巡航控制场景示意图;
图3是本发明提供的基于网络化控制的智能巡航控制架构图;
图4是本发明提供的一种智能巡航控制装置的结构示意图;
图5是本发明提供的智能优化控制模块框图;
图6是本发明提供的***建模模块框图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明提供的一种智能巡航控制方法、装置、电子设备和存储介质。
本发明实施例提供了一种智能巡航控制方法。图1为本发明实施例提供的智能巡航控制方法的流程示意图,如图1所示,该方法包括:
步骤110,确定自动控制车辆的当前状态信号;
具体地,本发明实施例中车辆队列包括手动驾驶车辆和CCC车辆,队列中的各车辆都配备有通信设备,通过V2V通信技术,CCC自动驾驶车辆可以接收来自其他车辆的状态信息,包括车头时距、车速和加速度。
步骤120,将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
具体地,通过分析车辆动力学和无线网络特性,构建车辆队列***的动态方程,考虑动态时变的网络通信时延和期望状态的影响,建立优化控制问题,从而构建MDP模型,使用DRL算法,通过与环境不断交互产生样本并训练神经网络,最终得到自动控制车辆的智能优化控制策略,能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距,同时保证了控制***以及车辆队列的在网络动态条件下的平稳运行。
本发明实施例提供的方法,通过与环境持续不断地交互,可以持续智能地学***稳驾驶。
基于上述任一实施例,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
需要说明的是,由于CCC***中车辆之间的网络拓扑结构灵活,每辆车都可以与附近的车辆进行通信。通过无线V2V通信,CCC车辆可以获取车队中其它车辆的车头时距、速度和加速度等实时状态信息,从而可以对整个车辆队列进行建模。同时,由于CCC可以为异构的车辆队列提供服务,因此车队中的手动驾驶车辆和CCC自动控制车辆的顺序与数量是可变的,这也更加符合现实交通场景对车辆队列灵活性的要求。通常自动控制车辆无需考虑其后车辆的车辆状态,为了更加清楚地描述技术方案,本发明实施例以尾车为CCC自动控制车辆、其他车辆为手动驾驶车辆为例。并且,本发明实施例提供的方法同样适用于更复杂的模型中对于自动控制车辆的控制,当队列模型发生变化时,可以使用本发明实施例提出的建模方法,按照队列的具体情况构建相应的***动态方程。
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
需要说明的是,巡航控制的目标是使车辆队列中的车辆能够跟踪期望车速并保持期望车距,同时达到舒适平滑的加速度控制。因此以最小化车速和车距误差以及控制输入为目标,可以构建二次型优化控制问题。但是,一方面,由于高维状态空间和复杂的物理特性,这种优化控制问题很难直接得到解析解。另一方面,由于实际网络通信时延和期望状态动态时变特性的影响,采用传统的依赖于固定参数模型和静态策略的优化决策方法,往往存在较高的鲁棒性和稳定性风险。因此,本发明实施例提出了基于DRL(DeepReinforcement Learning)的智能优化控制方法提高自动控制车辆在复杂动态条件下的适应性和稳定性。
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
需要说明的是,强化学习(Reinforcement Learning,RL)问题通常用MDP(MarkovDecision Process)描述,MDP一般包括状态、动作、状态转移函数以及奖励函数,根据***模型以及优化问题建立***的MDP模型。根据MDP模型,采用基于深度强化学习(DeepReinforcement Learning,DRL)的算法得到智能优化控制策略。传统的基于离散动作的人工智能算法,例如Q-learning、DQN(Deep Q-learning)、演员-评论家(Actor-Critic)等,在处理巡航控制这样的动作值为连续的控制问题时,往往会因为收敛性和稳定性差导致性能下降的问题。本发明实施例基于DRL中的深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法,根据定义好的MDP模型,通过与环境不断交互进行样本采集与训练,以最大化奖励函数为目标不断优化神经网络参数,最终能够根据CCC自动控制车辆当前状态输入实时产生智能优化控制策略输出信号,从而实现对CCC自动控制车辆的安全稳定控制。
基于上述任一实施例,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
具体地,根据队列建立队列***模型,包括:
根据V2V通信收集队列中各车的车距、车速以及加速度信息;
根据车距、车速和加速度信息,建立队列中各车的动态方程;
根据头车获得期望车速,结合范围策略,获得各车的期望车距;
根据期望车速和期望车距以及各车当前车速和车距,建立各车的状态误差方程;
联立各车的状态误差方程,获得基于连续时间的队列状态方程,经离散化处理后可获得基于离散时间的队列***模型。
由于引入了无线V2V通信来促进车辆之间的状态信息分享与交流,通过分析无线网络中的时延特性对CCC自动控制车辆的影响,得到有时延的车辆动态方程。然后将队列中所有手动驾驶车辆以及CCC自动驾驶车辆的状态误差方程联立得到连续时间***状态误差方程。然后,本发明实施例通过采样将连续时间***状态方程离散化,获得基于离散时间的队列***模型。
基于上述任一实施例,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为
Figure BDA0003041385510000111
其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
需要说明的是,分别对手动驾驶车辆和CCC自动控制车辆进行动态分析,通过V2V通信获得队列中各车的状态信息如车距、车速、加速度,然后根据它们之间的关系可以建立车辆动态方程。将队列中头车的车速作为其它车辆的期望车速,根据范围策略可以获得期望车距。在获得期望车速和期望车距之后,可以获得各车辆的状态误差方程。其中,期望车距和车速满足如下范围策略:
Figure BDA0003041385510000112
其中,V(h)表示所述期望车速,h表示当前车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速。
基于上述任一实施例,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1
其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,
Figure BDA0003041385510000121
Figure BDA0003041385510000122
Figure BDA0003041385510000123
i为采样间隔序号,ΔT为采样间隔,τ为网络诱导时延,λj
Figure BDA0003041385510000126
表示与人类驾驶行为有关的***参数,j为队列中的车辆序号,m为车辆队列中除头车外的车辆总数,
Figure BDA0003041385510000124
为范围策略在期望车距处的偏导数。
基于上述任一实施例,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
Figure BDA0003041385510000125
其中,N是采样间隔数,C与D为系数矩阵:
Figure BDA0003041385510000131
c1和c2为预设系数。
具体地,图2为本发明实施例提供的基于网络化控制的智能巡航控制场景示意图,为了便于理解,本发明实施例的车辆队列由m+1辆车组成,其中尾车即#1车为CCC自动驾驶车辆,其它车辆均为人类手动驾驶车辆,车队最前方即#m+1车为头车。队列中的各车辆都配备有通信设备,通过V2V通信技术,CCC自动驾驶车辆可以接收来自其他车辆的状态信息,包括车头时距、车速和加速度。为了清楚地阐述本发明实施例的技术方案,本发明实施例中头车作为CCC自动驾驶车辆的跟踪目标,以动态变化的车速行驶。
如图2所示,人类手动驾驶车辆的动力学方程可定义如下:
Figure BDA0003041385510000132
Figure BDA0003041385510000133
其中,vj(t)表示第j辆车的车速,hj(t)表示第j辆车和前一辆车之间的车距,
Figure BDA0003041385510000137
表示v(t)关于时间t的微分,λj
Figure BDA0003041385510000134
表示与人类驾驶行为有关的***参数,V(h)为基于车距的期望速度。
而CCC自动驾驶车辆的动力学方程可定义如下:
Figure BDA0003041385510000135
Figure BDA0003041385510000136
其中,u(t)表示控制策略,即CCC自动驾驶车辆的加速度,τ(t)表网络化控制过程中的网络诱导时延。
车队中各车的目的是达到期望车距h*(t)和期望车速v*(t)=V(h*(t))。根据实际状态和期望状态的偏差可以定义车距误差
Figure BDA0003041385510000141
车速误差
Figure BDA0003041385510000142
根据车辆动力学模型,利用线性一阶近似
Figure BDA0003041385510000143
可以得到车辆队列的误差动力学模型为:
Figure BDA0003041385510000144
Figure BDA0003041385510000145
定义状态向量:
Figure BDA0003041385510000146
联立每辆车的误差动力学方程得到***动态方程为:
Figure BDA0003041385510000147
上式中,
Figure BDA0003041385510000148
Figure BDA0003041385510000149
通过采样离散化***动态方程,得到第i个采样间隔
Figure BDA00030413855100001410
的离散时间***动态模型为:
yi+1=A0yi+B1ui+B2ui-1
其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,ΔT表示采样间隔,其它参数为:
Figure BDA0003041385510000151
巡航控制的目标是使车辆跟踪目标车距和车速行驶,从而使整个车队始终保持平衡状态y*≡0。为了实现优化控制,定义二次代价函数为:
Figure BDA0003041385510000152
上式中,N是采样间隔数,C与D为系数矩阵:
Figure BDA0003041385510000153
其中,c1和c2为预设系数,本发明实施例中可分别取为1和0.1。
综上,可以构建巡航控制***最优化问题为:
Figure BDA0003041385510000154
s.t.yi+1=A0yi+B1ui+B2ui-1
基于网络动态时变特性的影响,为了提高网络化的智能巡航控制***的环境适应性和自学习能力,本发明实施例提出了基于DRL的智能优化控制方法来解决上述优化问题。
MDP通常用来形式化描述RL问题,在每个时隙k,智能体从环境中观察当前状态并决策,执行动作后得到下一状态并通过反馈的奖励值调整策略。本发明实施例根据构建的网络动态场景下的巡航控制***模型以及最优化问题来定义MDP中的状态、动作、状态转移函数以及奖励函数。
1)状态
考虑到优化控制策略受到当前状态和网络时延的导致的延迟控制信号的共同影响,定义新状态向量为:
Figure BDA0003041385510000161
2)动作
对于网络化巡航控制***,可以定义动作为加速度控制策略:
ak=uk
3)状态转移函数
根据网络化巡航控制***离散时间***模型以及状态向量sk,状态转移函数可表示为:
sk+1=skE+akF
其中,
Figure BDA0003041385510000162
4)奖励函数
与优化理论中最小化代价函数不同,智能算法的目标为最大化长期累积奖励值,因此可以定义奖励函数为:
Figure BDA0003041385510000163
其中,
Figure BDA0003041385510000164
长期累积奖励值称为回报,表示如下:
Figure BDA0003041385510000171
上式中,0<γ<1为折扣因子。
由于巡航控制***的动作取值是连续的,而DRL中的DDPG方法可以很好的解决因离散动作设计而导致的***性能下降问题。因此,本发明实施例提出基于DDPG的智能优化控制方法来得到智能控制策略,从而提升***收敛性与稳定性。
基于上述任一实施例,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
需要说明的是,基于网络化控制的智能巡航控制架构如图3所示,其中,DDPG主要包括四个深度神经网络:当前actor网络μ(s|θμ),目标actor网络μ′(s|θμ′),当前critic网络Q(s,a|θQ),目标critic网络Q′(s,a|θQ′),其中μ(·)为确定性动作策略,Q(·)为动作价值评估函数,θ表示对应的神经网络参数。智能体通过训练actor网络学习得到控制策略μ,通过训练critic网络得到相应Q值对控制策略进行评价。
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ),执行策略
Figure BDA0003041385510000172
并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将
Figure BDA0003041385510000175
作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
Figure BDA0003041385510000173
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ
Figure BDA0003041385510000174
其中,M为小批量采样的样本数,Q(st,atQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1μ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1μ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ
Figure BDA0003041385510000181
其中,
Figure BDA0003041385510000182
为梯度算子;
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ'
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
具体地,基于网络化控制的智能巡航控制方法可以分为两个步骤:采样和训练。
1)采样
首先需要为训练采集足够的样本,在每个时隙中,根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ)。为了保证在连续动作空间中保证有效的探索,添加随机噪声η得到探索策略为:
Figure BDA0003041385510000183
执行策略
Figure BDA0003041385510000184
根据状态转移函数可以得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,然后将(sk,ak,sk+1,rk)作为样本存储在经验回放缓冲区当中。不断重复上述步骤,从而生成足够的样本。
2)训练
本发明实施例的训练过程以200个时隙为一情节(episode),在每个情节中,随机抽取小批量的M个样本(st,at,st+1,rt)用于训练,以降低样本数据相关性并提升训练效率。
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ
Figure BDA0003041385510000191
其中,M为小批量采样的样本数,Q(st,atQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,可以表示为:
xt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
上式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1μ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1μ′)为目标actor网络根据输入状态st+1生成的下一动作策略。
当前actor网络通过如下策略梯度函数来更新其参数θμ
Figure BDA0003041385510000192
其中,M为小批量采样的样本数,
Figure BDA0003041385510000193
为梯度算子,上式主要目标为增大当前actor网络获得较大Q值的动作概率。
然后,目标actor网络和目标critic网络通过如下“软更新”的方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,0<δ<<1为一固定常数。
最后,经过足够多情节的训练,可以得到优化的当前actor网络参数θμ*。于是,根据每一次获取的输入状态s,当前actor网络能够实时生成网络化巡航控制***的优化控制策略为:
u*=a*=μ(s|θμ*)。
下面对本发明提供的一种智能巡航控制装置进行描述,下文描述的与上文描述的一种智能巡航控制方法可相互对应参照。
图4为本发明实施例提供的一种智能巡航控制装置的结构示意图,如图4所示,该装置包括状态信号单元410和智能控制单元420;
所述状态信号单元410,用于确定自动控制车辆的当前状态信号;
所述智能控制单元420,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
本发明实施例提供的装置,通过与环境持续不断地交互,可以持续智能地学***稳驾驶。
基于上述任一实施例,所述智能控制单元包括智能优化控制模块;
如图5所示,所述智能优化控制模块包括***建模模块510、问题构建模块520、MDP构建模块530和计算处理模块540;
所述***建模模块510,用于获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
所述问题构建模块520,用于根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
所述MDP构建模块530,用于根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型;
所述计算处理模块540,用于基于DRL的算法与环境不断交互产生样本并训练,从而获得智能优化控制策略。
基于上述任一实施例,如图6所示,所述***建模模块包括状态获取模块610、动态构建模块620、状态误差构建模块630和***动态模块640;
所述状态获取模块610,用于通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
所述动态构建模块620,用于根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
所述状态误差构建模块630,用于通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
所述***动态模块640,用于联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
基于上述任一实施例,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为
Figure BDA0003041385510000211
其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
基于上述任一实施例,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1
其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,
Figure BDA0003041385510000221
Figure BDA0003041385510000222
Figure BDA0003041385510000223
i为采样间隔序号,ΔT为采样间隔,τ为网络诱导时延,λj
Figure BDA0003041385510000224
表示与人类驾驶行为有关的***参数,j为队列中的车辆序号,m为车辆队列中除头车外的车辆总数,
Figure BDA0003041385510000225
为范围策略在期望车距处的偏导数。
基于上述任一实施例,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
Figure BDA0003041385510000226
其中,N是采样间隔数,C与D为系数矩阵:
Figure BDA0003041385510000231
c1和c2为预设系数。
基于上述任一实施例,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(s|θμ),执行策略
Figure BDA0003041385510000232
并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk,+r1k)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
Figure BDA0003041385510000233
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ
Figure BDA0003041385510000234
其中,M为小批量采样的样本数,Q(st,atQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1μ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1μ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ
Figure BDA0003041385510000241
其中,M为小批量采样的样本数,
Figure BDA0003041385510000242
为梯度算子;
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ':
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
综上,本发明实施例提供的智能巡航控制方法和装置,通过综合分析车辆动力学和无线网络特性,构建整体车辆队列***的动态方程,考虑动态时变的网络通信时延和期望状态的影响,建立优化控制问题,从而构建MDP模型,采用基于DRL的智能算法,通过与环境持续交互产生样本并训练神经网络,不断积累经验,从而得到自动控制车辆的智能优化控制策略,不仅能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距,同时保证了其在实际复杂的网络动态场景中也能自主平稳运行。也即,本发明实施例通过对车辆队列进行整体建模,在网络通信时延以及***期望状态动态变化场景下,结合优化控制理论以及人工智能方法,得到基于网络化控制的巡航控制***的智能优化控制策略,从而实现对CCC自动控制车辆的稳定控制。本发明的优势在于把网络化控制和人工智能技术应用于车辆自动巡航控制***中,考虑了复杂动态环境对控制***的影响,进而设计了基于DRL的方法来获得智能优化控制策略,促进了巡航控制***的环境适应性和自学习能力。
图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的智能巡航控制方法,该方法包括:确定自动控制车辆的当前状态信号;将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种智能巡航控制方法,其特征在于,包括:
确定自动控制车辆的当前状态信号;
将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。
2.根据权利要求1所述的智能巡航控制方法,其特征在于,所述马尔可夫决策过程模型的构建过程包括以下步骤:
获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程;
根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;
根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。
3.根据权利要求2所述的智能巡航控制方法,其特征在于,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列***的动态方程,包括以下步骤:
通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;
根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;
通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;
联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列***的动态方程。
4.根据权利要求3所述的智能巡航控制方法,其特征在于,所述预先设定的范围策略包括:
若当前车距小于预设的最小车距,则期望车速为0;
若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为
Figure FDA0003041385500000021
其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;
若当前车距大于预设的最大车距,则期望车速为预设的最大车速;
根据所述期望车速获得各车的期望车距。
5.根据权利要求3所述的智能巡航控制方法,其特征在于,所述离散化处理后获得队列***的动态方程如下:
yi+1=A0yi+B1ui+B2ui-1
其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,
Figure FDA0003041385500000022
Figure FDA0003041385500000023
Figure FDA0003041385500000031
i为采样间隔序号,ΔT为采样间隔,τ为网络诱导时延,λj
Figure FDA0003041385500000032
表示与人类驾驶行为有关的***参数,j为队列中的车辆序号,m为车辆队列中除头车外的车辆总数,
Figure FDA0003041385500000033
为范围策略在期望车距处的偏导数。
6.根据权利要求2所述的智能巡航控制方法,其特征在于,所述根据所述队列***的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:
Figure FDA0003041385500000034
其中,N是采样间隔数,C与D为系数矩阵:
Figure FDA0003041385500000035
c1和c2为预设系数。
7.根据权利要求1所述的智能巡航控制方法,其特征在于,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:
构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;
在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(skμ),执行策略
Figure FDA0003041385500000041
并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将
Figure FDA0003041385500000042
作为样本存储在经验回放缓冲区当中,获得状态样本;其中,
Figure FDA0003041385500000043
当前critic网络通过最小化如下均方误差损失函数来更新其参数θQ
Figure FDA0003041385500000044
其中,M为小批量采样的样本数,Q(st,atQ)是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:
xt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1μ′)|θQ′)为目标critic网络生成的下一Q值,μ′(st+1μ′)为目标actor网络根据输入状态st+1生成的下一动作策略;
当前actor网络通过如下策略梯度函数来更新其参数θμ
Figure FDA0003041385500000045
其中,▽为梯度算子;
目标actor网络和目标critic网络通过如下方式来分别更新其参数θQ'和θμ'
θQ′←δθQ+(1-δ)θQ′
θμ′←δθμ+(1-δ)θμ′
其中,δ为固定常数,0<δ<<1。
8.一种智能巡航控制装置,其特征在于,包括状态信号单元和智能控制单元;
所述状态信号单元,用于确定自动控制车辆的当前状态信号;
所述智能控制单元,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;
其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的智能巡航控制方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的智能巡航控制方法的步骤。
CN202110458260.3A 2021-04-27 2021-04-27 智能巡航控制方法、装置、电子设备和存储介质 Pending CN113335277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110458260.3A CN113335277A (zh) 2021-04-27 2021-04-27 智能巡航控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110458260.3A CN113335277A (zh) 2021-04-27 2021-04-27 智能巡航控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113335277A true CN113335277A (zh) 2021-09-03

Family

ID=77468696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110458260.3A Pending CN113335277A (zh) 2021-04-27 2021-04-27 智能巡航控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113335277A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113734167A (zh) * 2021-09-10 2021-12-03 苏州智加科技有限公司 车辆控制方法、装置、终端及存储介质
CN114387787A (zh) * 2022-03-24 2022-04-22 华砺智行(武汉)科技有限公司 车辆轨迹控制方法、装置、电子设备及存储介质
CN116257069A (zh) * 2023-05-16 2023-06-13 睿羿科技(长沙)有限公司 一种无人车辆编队决策与速度规划的方法
CN117055586A (zh) * 2023-06-28 2023-11-14 中国科学院自动化研究所 基于自适应控制的水下机器人巡游搜索与抓取方法、***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109606367A (zh) * 2018-11-06 2019-04-12 北京工业大学 基于车联网的巡航控制***的最优线性控制方法及装置
CN109624986A (zh) * 2019-03-01 2019-04-16 吉林大学 一种基于模式切换的驾驶风格的学习巡航控制***及方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN109606367A (zh) * 2018-11-06 2019-04-12 北京工业大学 基于车联网的巡航控制***的最优线性控制方法及装置
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109624986A (zh) * 2019-03-01 2019-04-16 吉林大学 一种基于模式切换的驾驶风格的学习巡航控制***及方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113734167A (zh) * 2021-09-10 2021-12-03 苏州智加科技有限公司 车辆控制方法、装置、终端及存储介质
CN114387787A (zh) * 2022-03-24 2022-04-22 华砺智行(武汉)科技有限公司 车辆轨迹控制方法、装置、电子设备及存储介质
CN114387787B (zh) * 2022-03-24 2022-08-23 华砺智行(武汉)科技有限公司 车辆轨迹控制方法、装置、电子设备及存储介质
CN116257069A (zh) * 2023-05-16 2023-06-13 睿羿科技(长沙)有限公司 一种无人车辆编队决策与速度规划的方法
CN116257069B (zh) * 2023-05-16 2023-08-08 睿羿科技(长沙)有限公司 一种无人车辆编队决策与速度规划的方法
CN117055586A (zh) * 2023-06-28 2023-11-14 中国科学院自动化研究所 基于自适应控制的水下机器人巡游搜索与抓取方法、***
CN117055586B (zh) * 2023-06-28 2024-05-14 中国科学院自动化研究所 基于自适应控制的水下机器人巡游搜索与抓取方法、***

Similar Documents

Publication Publication Date Title
CN113335277A (zh) 智能巡航控制方法、装置、电子设备和存储介质
Zhu et al. Human-like autonomous car-following model with deep reinforcement learning
Liang et al. A deep reinforcement learning network for traffic light cycle control
WO2021208771A1 (zh) 强化学习的方法和装置
Li et al. A reinforcement learning-based vehicle platoon control strategy for reducing energy consumption in traffic oscillations
Zhu et al. Multi-robot flocking control based on deep reinforcement learning
CN109990790B (zh) 一种无人机路径规划方法及装置
CN113412494B (zh) 一种确定传输策略的方法及装置
CN109726804B (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN112937564A (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN115578876A (zh) 一种车辆的自动驾驶方法、***、设备及存储介质
Han et al. Intelligent decision-making for 3-dimensional dynamic obstacle avoidance of UAV based on deep reinforcement learning
US20230367934A1 (en) Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information
Wang et al. Design of intelligent connected cruise control with vehicle-to-vehicle communication delays
CN113867354A (zh) 一种自动驾驶多车智能协同的区域交通流导引方法
CN115494879B (zh) 基于强化学习sac的旋翼无人机避障方法、装置及设备
Ure et al. Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN112462602B (zh) 一种在DoS攻击下保持移动舞台车队安全间距的分布式控制方法
Zhou et al. A novel mean-field-game-type optimal control for very large-scale multiagent systems
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
Yuan et al. Prioritized experience replay-based deep q learning: Multiple-reward architecture for highway driving decision making
Wang et al. Experience sharing based memetic transfer learning for multiagent reinforcement learning
CN109725639B (zh) 巡航***的线性控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination