CN113335277A

CN113335277A - 智能巡航控制方法、装置、电子设备和存储介质

Info

Publication number: CN113335277A
Application number: CN202110458260.3A
Authority: CN
Inventors: 王朱伟; 金森繁; 刘力菡; 方超; 孙阳; 李萌; 杨睿哲
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-09-03

Abstract

本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质，其方法包括：确定自动控制车辆的当前状态信号；将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。

Description

智能巡航控制方法、装置、电子设备和存储介质

技术领域

本发明涉及自动控制技术领域，尤其涉及一种智能巡航控制方法、装置、电子设备和存储介质。

背景技术

巡航控制是一种先进的辅助驾驶方法，能够有效降低驾驶员负担，并提高道路交通效率、驾驶安全性以及燃油经济性。目前自适应巡航控制(ACC)、协同自适应巡航控制(CACC)和互联巡航控制(CCC)等基于网络化控制的巡航控制方法虽然受到广泛关注与应用，但仍存在诸多限制。如ACC方法结合了多种传感器技术感知道路交通信息，由于传感器的感知灵敏度较差且容易受到外界环境的干扰，导致ACC方法稳定性和安全性不足。CACC方法在ACC的基础上引入了车联网中的车对车(V2V)通信技术来促进车队内的车辆主动交换其运动状态信息，然而，CACC方法要求车队中的每辆车都配备ACC自动驾驶设备以辅助协同控制，并且其通信拓扑结构通常是固定不变的，当车队中有手动驾驶车辆或者道路状况发生改变时，将不可避免地导致CACC的性能和稳定性下降，这也限制了其在未来交通场景中的应用。为了实现更灵活的车辆队列设计、连接结构和通信拓扑结构，进一步提出的CCC允许受控车辆接收前方多辆汽车广播的状态信息，而无需为全部车辆配备传感器，在提高每辆车的信息感知和控制能力的同时，也无需统一设计整个队列。虽然CCC***既不需要指定的头车，也不需要固定的通信结构，因此可以有选择的进行通信，允许模块化设计，可扩展性更好，然而在环境变化、受控车辆移动、网络节点的传输能力及链路质量的限制情况下，其拓扑结构、网络通信时延和期望状态等特性将是动态的、时变的，复杂交通环境的不可预测性和网络的不可靠性将对基于网络化控制的巡航控制方法带来严峻的挑战。

发明内容

本发明实施例提供一种智能巡航控制方法、装置、电子设备和存储介质，用以解决目前基于网络化控制的巡航控制方法存在上述的部分或全部的问题。

第一方面，本发明实施例提供一种智能巡航控制方法，包括：

确定自动控制车辆的当前状态信号；

将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；

其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。

优选地，所述马尔可夫决策过程模型的构建过程包括以下步骤：

获取自动控制车辆组建的车辆队列的队列状态信息，并根据所述队列状态信息建立队列***的动态方程；

根据所述队列***的动态方程，以最小化状态误差和输入为目标函数构建二次型优化控制方程；

根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型。

优选地，所述获取自动控制车辆组建的车辆队列的队列状态信息，并根据所述队列状态信息建立队列***的动态方程，包括以下步骤：

通过车对车通信获取车辆队列中各车的车距、车速及加速度信息；

根据所述车辆队列中各车的车距、车速及加速度信息，建立队列中各车的动态方程；

通过头车获取期望车速，基于预先设定的范围策略获得各车的期望车距，并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距，建立各车的状态误差方程；

联合所述各车的状态误差方程，并基于连续时间的队列中各车的状态方程，离散化处理后获得队列***的动态方程。

优选地，所述预先设定的范围策略包括：

若当前车距小于预设的最小车距，则期望车速为0；

若当前车距不小于预设的最小车距且不大于预设的最大车距，则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速，其计算公式为

其中，V(h)表示期望车速，h表示车距，h_min表示预设的最小车距，h_max表示预设的最大车距，v_max表示预设的最大车速；

若当前车距大于预设的最大车距，则期望车速为预设的最大车速；

根据所述期望车速获得各车的期望车距。

优选地，所述离散化处理后获得队列***的动态方程如下：

y_i+1＝A₀y_i+B₁u_i+B₂u_i-1；

其中，y_i＝y(iΔT)和u_i＝u(iΔT)分别表示当前时刻的状态变量和加速度控制策略，

i为采样间隔序号，ΔT为采样间隔，τ为网络诱导时延，λ_j和

表示与人类驾驶行为有关的***参数，j为队列中的车辆序号，m为车辆队列中除头车外的车辆总数，

为范围策略在期望车距处的偏导数。

优选地，所述根据所述队列***的动态方程，以最小化状态误差和输入为目标函数构建二次型优化控制方程如下：

其中，N是采样间隔数，C与D为系数矩阵：

c1和c2为预设系数。

优选地，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的，包括：

构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新；

在每个时隙中根据输入状态s_k，当前actor网络将输出相应的动作策略μ(s_k|θ^μ)，执行策略

并根据状态转移函数得到下一时刻状态s_k+1，并根据奖励函数得出相应的奖励r_k，将(s_k,a_k,s_k,+r_1k)作为样本存储在经验回放缓冲区当中，获得状态样本；其中，

当前critic网络通过最小化如下均方误差损失函数来更新其参数θ^Q：

其中，M为小批量采样的样本数，Q(s_t,a_t|θ^Q)是当前Q值，通过将s_t与a_t输入到当前critic网络中得到，x_t为目标Q值，表示为：

x_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

式中，r_t为相应的奖励函数值，Q′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)为目标critic网络生成的下一Q值，μ′(s_t+1|θ^μ′)为目标actor网络根据输入状态s_t+1生成的下一动作策略；

当前actor网络通过如下策略梯度函数来更新其参数θ^μ：

其中，

为梯度算子；

目标actor网络和目标critic网络通过如下方式来分别更新其参数θ^Q'和θ^μ'：

θ^Q′←δθ^Q+(1-δ)θ^Q′

θ^μ′←δθ^μ+(1-δ)θ^μ′

其中，δ为固定常数，0＜δ＜＜1。

第二方面，本发明实施例提供一种智能巡航控制装置，包括状态信号单元和智能控制单元；

所述状态信号单元，用于确定自动控制车辆的当前状态信号；

所述智能控制单元，用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；

其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述智能巡航控制方法的步骤。

本发明实施例提供的一种智能巡航控制方法、装置、电子设备和存储介质，通过将自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。本发明实施例通过与环境持续不断地交互，可以持续智能地学***稳驾驶，从而解决了目前基于网络化控制的巡航控制方法存在复杂交通环境的不可预测性和网络的不可靠性的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种智能巡航控制方法的流程示意图；

图2是本发明提供的基于网络化控制的智能巡航控制场景示意图；

图3是本发明提供的基于网络化控制的智能巡航控制架构图；

图4是本发明提供的一种智能巡航控制装置的结构示意图；

图5是本发明提供的智能优化控制模块框图；

图6是本发明提供的***建模模块框图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明提供的一种智能巡航控制方法、装置、电子设备和存储介质。

本发明实施例提供了一种智能巡航控制方法。图1为本发明实施例提供的智能巡航控制方法的流程示意图，如图1所示，该方法包括：

步骤110，确定自动控制车辆的当前状态信号；

具体地，本发明实施例中车辆队列包括手动驾驶车辆和CCC车辆，队列中的各车辆都配备有通信设备，通过V2V通信技术，CCC自动驾驶车辆可以接收来自其他车辆的状态信息，包括车头时距、车速和加速度。

步骤120，将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；

具体地，通过分析车辆动力学和无线网络特性，构建车辆队列***的动态方程，考虑动态时变的网络通信时延和期望状态的影响，建立优化控制问题，从而构建MDP模型，使用DRL算法，通过与环境不断交互产生样本并训练神经网络，最终得到自动控制车辆的智能优化控制策略，能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距，同时保证了控制***以及车辆队列的在网络动态条件下的平稳运行。

本发明实施例提供的方法，通过与环境持续不断地交互，可以持续智能地学***稳驾驶。

基于上述任一实施例，所述马尔可夫决策过程模型的构建过程包括以下步骤：

需要说明的是，由于CCC***中车辆之间的网络拓扑结构灵活，每辆车都可以与附近的车辆进行通信。通过无线V2V通信，CCC车辆可以获取车队中其它车辆的车头时距、速度和加速度等实时状态信息，从而可以对整个车辆队列进行建模。同时，由于CCC可以为异构的车辆队列提供服务，因此车队中的手动驾驶车辆和CCC自动控制车辆的顺序与数量是可变的，这也更加符合现实交通场景对车辆队列灵活性的要求。通常自动控制车辆无需考虑其后车辆的车辆状态，为了更加清楚地描述技术方案，本发明实施例以尾车为CCC自动控制车辆、其他车辆为手动驾驶车辆为例。并且，本发明实施例提供的方法同样适用于更复杂的模型中对于自动控制车辆的控制，当队列模型发生变化时，可以使用本发明实施例提出的建模方法，按照队列的具体情况构建相应的***动态方程。

需要说明的是，巡航控制的目标是使车辆队列中的车辆能够跟踪期望车速并保持期望车距，同时达到舒适平滑的加速度控制。因此以最小化车速和车距误差以及控制输入为目标，可以构建二次型优化控制问题。但是，一方面，由于高维状态空间和复杂的物理特性，这种优化控制问题很难直接得到解析解。另一方面，由于实际网络通信时延和期望状态动态时变特性的影响，采用传统的依赖于固定参数模型和静态策略的优化决策方法，往往存在较高的鲁棒性和稳定性风险。因此，本发明实施例提出了基于DRL(DeepReinforcement Learning)的智能优化控制方法提高自动控制车辆在复杂动态条件下的适应性和稳定性。

需要说明的是，强化学习(Reinforcement Learning，RL)问题通常用MDP(MarkovDecision Process)描述，MDP一般包括状态、动作、状态转移函数以及奖励函数，根据***模型以及优化问题建立***的MDP模型。根据MDP模型，采用基于深度强化学习(DeepReinforcement Learning,DRL)的算法得到智能优化控制策略。传统的基于离散动作的人工智能算法，例如Q-learning、DQN(Deep Q-learning)、演员-评论家(Actor-Critic)等，在处理巡航控制这样的动作值为连续的控制问题时，往往会因为收敛性和稳定性差导致性能下降的问题。本发明实施例基于DRL中的深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)算法，根据定义好的MDP模型，通过与环境不断交互进行样本采集与训练，以最大化奖励函数为目标不断优化神经网络参数，最终能够根据CCC自动控制车辆当前状态输入实时产生智能优化控制策略输出信号，从而实现对CCC自动控制车辆的安全稳定控制。

基于上述任一实施例，所述获取自动控制车辆组建的车辆队列的队列状态信息，并根据所述队列状态信息建立队列***的动态方程，包括以下步骤：

具体地，根据队列建立队列***模型，包括：

根据V2V通信收集队列中各车的车距、车速以及加速度信息；

根据车距、车速和加速度信息，建立队列中各车的动态方程；

根据头车获得期望车速，结合范围策略，获得各车的期望车距；

根据期望车速和期望车距以及各车当前车速和车距，建立各车的状态误差方程；

联立各车的状态误差方程，获得基于连续时间的队列状态方程，经离散化处理后可获得基于离散时间的队列***模型。

由于引入了无线V2V通信来促进车辆之间的状态信息分享与交流，通过分析无线网络中的时延特性对CCC自动控制车辆的影响，得到有时延的车辆动态方程。然后将队列中所有手动驾驶车辆以及CCC自动驾驶车辆的状态误差方程联立得到连续时间***状态误差方程。然后，本发明实施例通过采样将连续时间***状态方程离散化，获得基于离散时间的队列***模型。

基于上述任一实施例，所述预先设定的范围策略包括：

若当前车距小于预设的最小车距，则期望车速为0；

根据所述期望车速获得各车的期望车距。

需要说明的是，分别对手动驾驶车辆和CCC自动控制车辆进行动态分析，通过V2V通信获得队列中各车的状态信息如车距、车速、加速度，然后根据它们之间的关系可以建立车辆动态方程。将队列中头车的车速作为其它车辆的期望车速，根据范围策略可以获得期望车距。在获得期望车速和期望车距之后，可以获得各车辆的状态误差方程。其中，期望车距和车速满足如下范围策略：

其中，V(h)表示所述期望车速，h表示当前车距，h_min表示预设的最小车距，h_max表示预设的最大车距，v_max表示预设的最大车速。

基于上述任一实施例，所述离散化处理后获得队列***的动态方程如下：

y_i+1＝A₀y_i+B₁u_i+B₂u_i-1；

i为采样间隔序号，ΔT为采样间隔，τ为网络诱导时延，λ_j和

为范围策略在期望车距处的偏导数。

基于上述任一实施例，所述根据所述队列***的动态方程，以最小化状态误差和输入为目标函数构建二次型优化控制方程如下：

其中，N是采样间隔数，C与D为系数矩阵：

c1和c2为预设系数。

具体地，图2为本发明实施例提供的基于网络化控制的智能巡航控制场景示意图，为了便于理解，本发明实施例的车辆队列由m+1辆车组成，其中尾车即#1车为CCC自动驾驶车辆，其它车辆均为人类手动驾驶车辆，车队最前方即#m+1车为头车。队列中的各车辆都配备有通信设备，通过V2V通信技术，CCC自动驾驶车辆可以接收来自其他车辆的状态信息，包括车头时距、车速和加速度。为了清楚地阐述本发明实施例的技术方案，本发明实施例中头车作为CCC自动驾驶车辆的跟踪目标，以动态变化的车速行驶。

如图2所示，人类手动驾驶车辆的动力学方程可定义如下：

其中，v_j(t)表示第j辆车的车速，h_j(t)表示第j辆车和前一辆车之间的车距，

表示v(t)关于时间t的微分，λ_j和

表示与人类驾驶行为有关的***参数，V(h)为基于车距的期望速度。

而CCC自动驾驶车辆的动力学方程可定义如下：

其中，u(t)表示控制策略，即CCC自动驾驶车辆的加速度，τ(t)表网络化控制过程中的网络诱导时延。

车队中各车的目的是达到期望车距h^*(t)和期望车速v^*(t)＝V(h^*(t))。根据实际状态和期望状态的偏差可以定义车距误差

车速误差

根据车辆动力学模型，利用线性一阶近似

可以得到车辆队列的误差动力学模型为：

定义状态向量：

联立每辆车的误差动力学方程得到***动态方程为：

上式中，

通过采样离散化***动态方程，得到第i个采样间隔

的离散时间***动态模型为：

y_i+1＝A₀y_i+B₁u_i+B₂u_i-1

其中，y_i＝y(iΔT)和u_i＝u(iΔT)分别表示当前时刻的状态变量和加速度控制策略，ΔT表示采样间隔，其它参数为：

巡航控制的目标是使车辆跟踪目标车距和车速行驶，从而使整个车队始终保持平衡状态y^*≡0。为了实现优化控制，定义二次代价函数为：

上式中，N是采样间隔数，C与D为系数矩阵：

其中，c₁和c₂为预设系数，本发明实施例中可分别取为1和0.1。

综上，可以构建巡航控制***最优化问题为：

s.t.y_i+1＝A₀y_i+B₁u_i+B₂u_i-1

基于网络动态时变特性的影响，为了提高网络化的智能巡航控制***的环境适应性和自学习能力，本发明实施例提出了基于DRL的智能优化控制方法来解决上述优化问题。

MDP通常用来形式化描述RL问题，在每个时隙k，智能体从环境中观察当前状态并决策，执行动作后得到下一状态并通过反馈的奖励值调整策略。本发明实施例根据构建的网络动态场景下的巡航控制***模型以及最优化问题来定义MDP中的状态、动作、状态转移函数以及奖励函数。

1)状态

考虑到优化控制策略受到当前状态和网络时延的导致的延迟控制信号的共同影响，定义新状态向量为：

2)动作

对于网络化巡航控制***，可以定义动作为加速度控制策略：

a_k＝u_k

3)状态转移函数

根据网络化巡航控制***离散时间***模型以及状态向量s_k，状态转移函数可表示为：

s_k+1＝s_kE+a_kF

其中，

4)奖励函数

与优化理论中最小化代价函数不同，智能算法的目标为最大化长期累积奖励值，因此可以定义奖励函数为：

其中，

长期累积奖励值称为回报，表示如下：

上式中，0＜γ＜1为折扣因子。

由于巡航控制***的动作取值是连续的，而DRL中的DDPG方法可以很好的解决因离散动作设计而导致的***性能下降问题。因此，本发明实施例提出基于DDPG的智能优化控制方法来得到智能控制策略，从而提升***收敛性与稳定性。

基于上述任一实施例，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的，包括：

需要说明的是，基于网络化控制的智能巡航控制架构如图3所示，其中，DDPG主要包括四个深度神经网络:当前actor网络μ(s|θ^μ)，目标actor网络μ′(s|θ^μ′)，当前critic网络Q(s,a|θ^Q)，目标critic网络Q′(s,a|θ^Q′)，其中μ(·)为确定性动作策略，Q(·)为动作价值评估函数，θ表示对应的神经网络参数。智能体通过训练actor网络学习得到控制策略μ，通过训练critic网络得到相应Q值对控制策略进行评价。

在每个时隙中根据输入状态s_k，当前actor网络将输出相应的动作策略μ(s|θ^μ)，执行策略

并根据状态转移函数得到下一时刻状态s_k+1，并根据奖励函数得出相应的奖励r_k，将

作为样本存储在经验回放缓冲区当中，获得状态样本；其中，

x_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

当前actor网络通过如下策略梯度函数来更新其参数θ^μ：

其中，

为梯度算子；

θ^Q′←δθ^Q+(1-δ)θ^Q′

θ^μ′←δθ^μ+(1-δ)θ^μ′

其中，δ为固定常数，0＜δ＜＜1。

具体地，基于网络化控制的智能巡航控制方法可以分为两个步骤：采样和训练。

1)采样

首先需要为训练采集足够的样本，在每个时隙中，根据输入状态s_k，当前actor网络将输出相应的动作策略μ(s|θ^μ)。为了保证在连续动作空间中保证有效的探索，添加随机噪声η得到探索策略为：

执行策略

根据状态转移函数可以得到下一时刻状态s_k+1，并根据奖励函数得出相应的奖励r_k，然后将(s_k,a_k,s_k+1,r_k)作为样本存储在经验回放缓冲区当中。不断重复上述步骤，从而生成足够的样本。

2)训练

本发明实施例的训练过程以200个时隙为一情节(episode)，在每个情节中，随机抽取小批量的M个样本(s_t,a_t,s_t+1,r_t)用于训练，以降低样本数据相关性并提升训练效率。

其中，M为小批量采样的样本数，Q(s_t,a_t|θ^Q)是当前Q值，通过将s_t与a_t输入到当前critic网络中得到，x_t为目标Q值，可以表示为：

x_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

上式中，r_t为相应的奖励函数值，Q′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)为目标critic网络生成的下一Q值，μ′(s_t+1|θ^μ′)为目标actor网络根据输入状态s_t+1生成的下一动作策略。

当前actor网络通过如下策略梯度函数来更新其参数θ^μ：

其中，M为小批量采样的样本数，

为梯度算子，上式主要目标为增大当前actor网络获得较大Q值的动作概率。

然后，目标actor网络和目标critic网络通过如下“软更新”的方式来分别更新其参数θ^Q'和θ^μ'：

θ^Q′←δθ^Q+(1-δ)θ^Q′

θ^μ′←δθ^μ+(1-δ)θ^μ′

其中，0＜δ＜＜1为一固定常数。

最后，经过足够多情节的训练，可以得到优化的当前actor网络参数θ^μ*。于是，根据每一次获取的输入状态s，当前actor网络能够实时生成网络化巡航控制***的优化控制策略为：

u^*＝a^*＝μ(s|θ^μ*)。

下面对本发明提供的一种智能巡航控制装置进行描述，下文描述的与上文描述的一种智能巡航控制方法可相互对应参照。

图4为本发明实施例提供的一种智能巡航控制装置的结构示意图，如图4所示，该装置包括状态信号单元410和智能控制单元420；

所述状态信号单元410，用于确定自动控制车辆的当前状态信号；

所述智能控制单元420，用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；

本发明实施例提供的装置，通过与环境持续不断地交互，可以持续智能地学***稳驾驶。

基于上述任一实施例，所述智能控制单元包括智能优化控制模块；

如图5所示，所述智能优化控制模块包括***建模模块510、问题构建模块520、MDP构建模块530和计算处理模块540；

所述***建模模块510，用于获取自动控制车辆组建的车辆队列的队列状态信息，并根据所述队列状态信息建立队列***的动态方程；

所述问题构建模块520，用于根据所述队列***的动态方程，以最小化状态误差和输入为目标函数构建二次型优化控制方程；

所述MDP构建模块530，用于根据所述队列***的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型；

所述计算处理模块540，用于基于DRL的算法与环境不断交互产生样本并训练，从而获得智能优化控制策略。

基于上述任一实施例，如图6所示，所述***建模模块包括状态获取模块610、动态构建模块620、状态误差构建模块630和***动态模块640；

所述状态获取模块610，用于通过车对车通信获取车辆队列中各车的车距、车速及加速度信息；

所述动态构建模块620，用于根据所述车辆队列中各车的车距、车速及加速度信息，建立队列中各车的动态方程；

所述状态误差构建模块630，用于通过头车获取期望车速，基于预先设定的范围策略获得各车的期望车距，并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距，建立各车的状态误差方程；

所述***动态模块640，用于联合所述各车的状态误差方程，并基于连续时间的队列中各车的状态方程，离散化处理后获得队列***的动态方程。

基于上述任一实施例，所述预先设定的范围策略包括：

若当前车距小于预设的最小车距，则期望车速为0；

根据所述期望车速获得各车的期望车距。

y_i+1＝A₀y_i+B₁u_i+B₂u_i-1；

i为采样间隔序号，ΔT为采样间隔，τ为网络诱导时延，λ_j和

为范围策略在期望车距处的偏导数。

其中，N是采样间隔数，C与D为系数矩阵：

c₁和c2为预设系数。

x_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

当前actor网络通过如下策略梯度函数来更新其参数θ^μ：

其中，M为小批量采样的样本数，

为梯度算子；

θ^Q′←δθ^Q+(1-δ)θ^Q′

θ^μ′←δθ^μ+(1-δ)θ^μ′

其中，δ为固定常数，0＜δ＜＜1。

综上，本发明实施例提供的智能巡航控制方法和装置，通过综合分析车辆动力学和无线网络特性，构建整体车辆队列***的动态方程，考虑动态时变的网络通信时延和期望状态的影响，建立优化控制问题，从而构建MDP模型，采用基于DRL的智能算法，通过与环境持续交互产生样本并训练神经网络，不断积累经验，从而得到自动控制车辆的智能优化控制策略，不仅能够使自动控制车辆跟踪理想的期望车速并与前车始终保持安全的车距，同时保证了其在实际复杂的网络动态场景中也能自主平稳运行。也即，本发明实施例通过对车辆队列进行整体建模，在网络通信时延以及***期望状态动态变化场景下，结合优化控制理论以及人工智能方法，得到基于网络化控制的巡航控制***的智能优化控制策略，从而实现对CCC自动控制车辆的稳定控制。本发明的优势在于把网络化控制和人工智能技术应用于车辆自动巡航控制***中，考虑了复杂动态环境对控制***的影响，进而设计了基于DRL的方法来获得智能优化控制策略，促进了巡航控制***的环境适应性和自学习能力。

图7为本发明实施例提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行智能巡航控制方法，该方法包括：确定自动控制车辆的当前状态信号；将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的智能巡航控制方法，该方法包括：确定自动控制车辆的当前状态信号；将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的智能巡航控制方法，该方法包括：确定自动控制车辆的当前状态信号；将所述自动控制车辆的当前状态信号输入至智能优化控制模型中，实现对所述自动控制车辆的智能巡航控制；其中，所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。