CN115303297B

CN115303297B - 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置

Info

Publication number: CN115303297B
Application number: CN202210876472.8A
Authority: CN
Inventors: 陆丽萍; 朱万杰
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2024-06-18
Anticipated expiration: 2042-07-25
Also published as: CN115303297A

Abstract

本发明公开了一种基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置，其中的方法首先搭建仿真环境，获取城市场景下车辆的环境数据；然后构建自动驾驶控制模型，通过感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作；接着根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛；最后利用训练好的自动驾驶控制模型进行自动驾驶控制。本发明的方法可以大大改善自动驾驶的性能。

Description

基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置

技术领域

本发明涉及深度学习图像处理和车辆控制技术领域，尤其涉及一种基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置。

背景技术

车辆感知技术，是指整个车载感知***主要包括环境感知、车身感知与网联感知三大部分。其中，(1)环境感知：主要负责车辆从外界获取信息，如附近车辆、车道线、行人、建筑物、障碍物、交通标志、信号灯等，主要包括四大类别的硬件传感器车载摄像头、毫米波雷达、激光雷达、超声波雷达；(2)车身感知：主要负责车辆对自身状态的感知，如车辆位置、行驶速度、姿态方位等，主要包括惯性导航、卫星导航和高精度地图；(3)网联感知：主要负责实现车辆与外界的网联通信以此来获得道路信息、行人信息等，主要包括各类路侧设备、车载终端以及V2X云平台等。自动驾驶汽车首先是对环境信息与车内信息的采集、处理与分析，这是实现车辆自主驾驶的基础和前提。环境感知是自动驾驶车辆与外界环境信息交互的关键，车辆通过硬件传感器获取周围的环境信息，环境感知是一个复杂的***，需要多种传感器实时获取信息，各类硬件传感器是自动驾驶汽车的眼睛。

近年来，随着深度学习的飞速发展，使用深度学习技术来感知环境信息的方法越来越多。例如，二维和三维物体检测、运动预测和深度估计等等。但是，这些方法大多都是为了单独解决子任务而设计，并最终通过模块化的方案集成在自动驾驶感知***中使用。虽然这种高度模块化的架构在一些驾驶任务中运行良好，但它开始触及其性能限制，因为(1)过多的人类启发式可能导致不恰当的感知结果和驾驶行为；(2)太多复杂的子***使得整个***的扩展和维护成本高昂。由于端到端架构会避免这些限制，因为驱动模型可以从数据中学习并不断优化，而不需要太多手工设计的参与。端到端的感知方法使我们能够同时解决检测、跟踪、定位和映射问题。学习后的模型能够同时提供周围车辆姿态的准确估计、自我车辆全局姿态和局部语义路线图。使用这种端到端方法，我们只需要最少的人力工程工作就可以获得一个功能齐全的感知***，而且不需要在线地图。

车辆控制技术，是指运用车辆动力学原理，利用基于规则的或者基于模型预测的原理去实现车辆的控制。近年来，机器学习技术在不同的应用领域取得了巨大的成功，这主要归功于大量可获取的数据，更加高效的算法，以及越来越强大的传感器、芯片和通讯技术。机器学习(ML)是人工智能(AI)的一个分支，也是实现AI的一个途径。

机器学习方法可以分为如下几种类别：1、监督学习：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。2、无监督学习：与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络(GAN)、聚类。3、迁移学习：专注于存储已有问题的解决模型，并将其利用在其他不同但相关问题上。比如说，用来辨识汽车的知识也可以被用来提升识别卡车的能力。4、强化学习：机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。

但是现有的方法存在自动驾驶性能不佳的技术问题。

发明内容

本发明提供一种基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置，用以解决或者至少部分解决现有的方法存在的自动驾驶性能不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，包括：

S1：搭建仿真环境，通过传感器获取车辆以及周围的图像数据，通过激光雷达获取激光雷达数据，将图像数据和激光雷达数据作为城市场景下车辆的环境数据；

S2：构建自动驾驶控制模型，该模型包括特征提取模块、感知模块和强化学习模块，其中，特征提取模块用于采用注意力机制对输入的环境数据进行特征提取和融合得到融合后的特征，感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作；

S3：根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛；

S4：利用训练好的自动驾驶控制模型进行自动驾驶控制。

在一种实施方式中，步骤S1包括：

S1.1：搭建端到端自动驾驶的仿真环境，在Carla仿真器中，搭建城市道路场景；

S1.2：在搭建的城市道路场景中设置预设数量的基于规则的车辆，并让设置的车辆随机出现在城市道路场景中；

S1.3：构建车辆的自动驾驶代理和通信模块，在车辆上搭载摄像头和激光雷达，将搭载的摄像头获取的图像数据、激光雷达获取的激光雷达数据通过通信模块反馈给自动驾驶代理。

在一种实施方式中，在步骤S1之后，所述方法还包括对图像数据和激光雷达数据进行预处理，具体为：

将图像数据进行裁剪得到64*64分辨率的图像，

将激光雷达点云投影到地平面，并裁剪得到64*64分辨率的图像。

在一种实施方式中，特征提取模块包括4个卷积层和3个注意力层，每一个卷积模块包括两个卷积层和注意力层，步骤S2的自动驾驶控制模型，特征提取模块的处理过程包括：

将激光雷达数据经过处理后得到图像与传感器获取的图像一起输入到第一个卷积层中分别得到64*64*64的特征，

将第一个卷积层输出的特征输入第一个注意力层，通过注意力机制处理分别得到对应的特征图，然后输入第二个卷积层中分别得到32*32*128的特征；

将第二个卷积层得到的特征输入第二个注意力层，通过注意力机制处理分别得到对应的特征图，再输入到第三个卷积层中分别得到16*16*256的特征；

将第三个卷积层得到的特征输入第三个注意力层，通过注意力机制处理分别得到对应的特征图，然后输入到第四个卷积层中分别得到8*8*512的特征；

通过concat将第四个卷积层得到的8*8*512的图像的特征和激光雷达的特征进行拼接，得到融合后的特征。

在一种实施方式中，步骤S2的自动驾驶控制模型中，感知模块得到的环境信息的编码特征为下一时间步的状态。

基于同样的发明构思，本发明第二方面提供了基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制装置，包括：

数据获取模块，用于搭建仿真环境，通过传感器获取车辆以及周围的图像数据，通过激光雷达获取激光雷达数据，将图像数据和激光雷达数据作为城市场景下车辆的环境数据；

模型构建模块，用于构建自动驾驶控制模型，该模型包括特征提取模块、感知模块和强化学习模块，其中，特征提取模块用于采用注意力机制对输入的环境数据进行特征提取和融合得到融合后的特征，感知模块用于基于概率图模型网络根据融合后的特征得到环境信息的编码特征，强化学习模块用于根据环境信息的编码特征进行城市场景中自动驾驶的学习，得到反馈信息，基于反馈信息能够得到自动驾驶下一步的动作；

模型训练模块，用于根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据构建的训练样本对自动驾驶控制模型进行训练，直到模型收敛；

模型应用模块，用于利用训练好的自动驾驶控制模型进行自动驾驶控制。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

相对于现有技术，本发明的优点和有益的技术效果如下：

1、相比于模块化的感知方法，由于采用了基于注意力机制和图模型端到端的感知方法，减少了感知***的复杂性，并且大大减少了人类启发式操作对自动驾驶的影响。

2、相比于模仿学习的控制方法，通过强化学习模块，使用贝叶斯以及图模型的强化学习方法，提高了车辆针对于模仿学习永远无法学习到的危险情况处理的应对能力，大大增强了自动驾驶代理在城市场景中的驾驶性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法的框架图；

图2是本发明的实施例中注意力机制处理图像和激光雷达数据的过程示意图；

图3是本发明实施例中概率图模型进行推理的过程示意图；

图4是本发明实施例中注意力机制原理图。

具体实施方式

本发明的目的是提供一种基于注意力机制与概率图模型和贝叶斯强化学习的城市场景下端到端自动驾驶方法来提高自动驾驶在城市场景中的驾驶性能。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，包括：

S3：根据设计的损失函数与强化学习的奖励函数，利用获取的城市场景下车辆的环境数据对自动驾驶控制模型进行训练，直到模型收敛；

S4：利用训练好的自动驾驶控制模型进行自动驾驶控制。

本申请发明人通过大量的研究与实践发现：由于强化学***的表现，使用强化学习，可以自动学习策略，不需要任何专家数据。它可以探索各种可能的情况，包括一些危险的情况，然后学习相关的技能，它也有潜力实现超人的表现。这对于自动驾驶领域，有重大的借鉴意义。基于此，提出了一种基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法。

请参见图1，为本发明实施例中基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法的框架图。

具体来说，步骤S1是搭建仿真环境，获取城市场景下车辆的环境数据，并以此为基础获得训练数据样本，步骤S2是模型的构建，特征提取模块、感知模块构成感知***，强化学习模块为控制***。

损失函数是通过先验值与后验值得到的，奖励值是通过预先设定的奖励函数得到的。具体实施过程中，损失函数用于将输入的原图像与重构的图像进行对比得出车辆获取的环境信息与原信息之间的误差，先验值指原图像，后验值指重构的图像。

模型的处理过程主要包括感知阶段和学习阶段，其中，在感知阶段通过注意力机制和图模型网络得到城市场景环境的信息，学习阶段，强化学习代理从获得的信息中学习如何驾驶汽车，针对于城市场景中出现的情况做出相应的反馈，由损失函数和奖励函数得到一个收敛的有高性能的驾驶模型，通过使用该模型，使汽车能够在复杂的城市场景中安全、稳定、高效的行驶。

在一种实施方式中，步骤S1包括：

具体来说，仿真环境为Carla模拟器，在模拟器中搭建城市道路场景。预设数量可以根据实际情况设置，例如为100、200等。

将图像数据进行裁剪得到64*64分辨率的图像，

请参见图2，是本发明的实施例中注意力机制处理图像和激光雷达数据的过程示意图。

具体来说，特征提取模块将图像和激光雷达获取到的信息进行映射对齐，然后通过注意力机制在不同的分辨率下进行transformer映射对齐融合。其中，第一个卷积层的特征64*64*64的特征包括64*64*64的摄像头图像特征和激光雷达图像特征，后面的卷积层也类似。

具体来说，；将图像与激光雷达融合的特征输入到感知模块中，通过该概率图模型网络对环境进行精确建模，从而推断出下一个时间的状态。

然后将感知模块的得到的状态输入到由贝叶斯和概率图模型应用到Latent-SAC算法的强化学习模块当中，让该强化学习模块在环境状态中调整自身的行为策略；最终实现在城市道路场景中高性能的行驶。

进一步地，根据模型在仿真城市场景驾驶的表现，对模型各个模块进行调整，使训练的自动驾驶代理在城市场景中能够获得更高的奖励值，实现高性能的驾驶。

具体实施过程中，S1中的环境数据为图像和激光雷达点云。

请参见图3和图4，分别是本发明实施例中概率图模型进行推理的过程示意图；本发明实施例中注意力机制原理图。

自动驾驶控制模型的处理流程包括：

S31、摄像头图像经过裁剪得到64*64分辨率的图像，激光雷达点云经过投影到地平面，然后裁剪得到64*64分辨率的图像，将图像和激光雷达获取到的信息进行映射对齐，然后通过注意力机制在不同的分辨率下进行transformer映射对齐融合，计算编码后的特征，通过概率图模型网络推理下一个时间步的状态；

其中，注意力机制处理流程如下：

在形式上，本发明将输入序列表示为其中N为序列中token的数量，每个token由一个维数D_f的特征向量表示。注意力机制使用线性投影来计算一组查询、键和值(Q、K和V)。

Q＝FⁱⁿM^q，K＝FⁱⁿM^k，V＝FⁱⁿM^v

其中和/>是权重矩阵。它使用Q和K之间的缩放点积来计算关注权重，然后聚合每个查询的值。

最后，使用非线性变换来计算输出特征，F^out与输入特征Fⁱⁿ具有相同的形状。

F^out＝MLP(A)+Fⁱⁿ

概率图模型推理流程如下：

检测和跟踪的目的是估计周围车辆的位姿d_t，而定位和映射的目的是获得局部语义地图和全局自我车辆的位姿l_t。所有这些估计都以传感器的历史输入x_1：t和动作a_1：t为条件。因此，可以通过估计以下条件概率来简化感知任务：

一般来说，不需要计算精确的积分，只需要计算它的期望，可以通过抽样来近似：

将概率图模型与收集到的数据进行拟合。为了方便起见，本发明首先表示一个由传感器输入、检测输出、局部语义路线图、自我车辆姿态和动作组成的轨迹：

通过最大化数据的对数似然，可以对模型进行拟合：

引入潜在变量和变分分布/>以及应用Jensen不等式得到：

ELBO代表证据下限。通过使ELBO最大化，可以使原始对数似然最大化。

S32、将提取的特征(感知模块输出的特征编码)输入到贝叶斯强化学习代理中，通过强化学习的探索，不断地学习如何在城市场景中行驶；

在强化学习作为驾驶代理时，agent在每个时间步观察状态z_t，在其策略a_t～π(a_t，z_t)处执行动作，然后获得奖励r(z_t，a_t)。然后根据状态转移z_t+1～p(z_t+1|z_t，a_t)更新状态。假设一个事件中有H个时间步，初始状态由z₁～p(z₁)产生，那么强化学习的目标是找到一种能够优化期望累计奖励的策略：

π^*代表期望累积奖励，π代表在t时刻的奖励；

自动驾驶代理策略学习运用上述概率图模型以及贝叶斯优化后，可得到其证据下限：

在本实施例中，在流程S33中，根据设计的误差函数与奖励函数和更新策略，训练模型收敛。

在实验中，本发明设计如下奖励函数：

r＝200r_collision+v_lon+10r_fast+r_out-5α²+0.2r_iat-0.1

其中r_collision是与碰撞相关的奖励，如果自我车辆发生碰撞，则设置为-1，否则设置为0。v_lon是自我车辆的纵向速度。r_fast是与跑得太快有关的奖励，如果它超过了期望的速度(这里是8米/秒)，则设置为-1，否则设置为0。如果自我车辆跑出车道，r_out设置为-1，否则设置为0。α为自我车辆在拉德内的转向角，r_lat为与侧向加速度相关的奖励，计算公式为r_lat＝-|α|v_lon ²。添加最后一个常数项是为了防止自我车辆停滞不前。

在本实施例中，对于模型的优化与调整，主要流程内容为：在感知阶段通过注意力机制和图模型网络得到城市场景环境的信息，强化学习代理从获得的信息中学习如何驾驶汽车，针对于城市场景中出现的情况做出相应的反馈，由损失函数和奖励函数得到一个收敛的有高性能的驾驶模型，通过使用该模型，使汽车能够在复杂的城市场景中安全、稳定、高效的行驶。

下面通过一个具体实施例，对本发明提供的一种基于注意力机制与概率图模型和贝叶斯强化学习的城市场景下端到端自动驾驶方法进行介绍：

步骤一：搭建端到端自动驾驶的仿真环境，在Carla仿真器中，搭建城市道路场景；

步骤二：设置Carla仿真环境城市场景，在该仿真场景下设置100辆基于规则的车辆，并让他们随机出现在城市道路场景中；

步骤三：构建Carla仿真器与自动驾驶代理通信模块，在城市仿真场景中构建具有自动驾驶代理的车辆，并在该车辆上搭载摄像头和激光雷达以及碰撞传感器等，将该车辆在城市环境中获取的信息反馈给自动驾驶代理；

步骤四：处理车辆由传感器获取到的环境信息，将激光雷达获取到的环境信息投影到地平面，然后将投影得到的图像(64*64)与摄像头获取的图像(64*64)一起输入到conv中分别得到64*64*64的特征，然后再将这些特征使用注意力机制处理分别得到一个feature map，然后继续输入到conv中分别得到32*32*128的特征，重复上一步的注意力机制处理，再继续输入到conv中分别得到16*16*256的特征，重复上一步的注意力机制处理，继续输入到conv中分别得到8*8*512的特征，通过concat将图像和激光雷达得到的特征拼接起来；

步骤五：将图像与激光雷达融合的特征输入到概率图模型网络(感知模块)当中，通过该网络对环境进行精确建模，从而推断出下一个时间的状态；

步骤六：构建自动驾驶代理，将贝叶斯和概率图模型应用到使用Latent-SAC算法的强化学习当中，让该强化学习代理从步骤五的输出中获取信息；

步骤七：将构建的自动驾驶代理车辆放入步骤一和步骤二搭建的城市仿真环境当中，让该代理在仿真环境下行驶；

实施例二

基于同样的发明构思，本实施例提供了基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制装置，包括：

由于本发明实施例二所介绍的装置为实施本发明实施例一中基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，包括：

S4：利用训练好的自动驾驶控制模型进行自动驾驶控制；

其中，S3中设计的奖励函数的形式为：

r＝200r_collision+v_lon+10r_fast+r_out-5α²+0.2r_lat-0.1

其中r_collision是与碰撞相关的奖励，如果自我车辆发生碰撞，则设置为-1，否则设置为0，v_lon是自我车辆的纵向速度，r_fast是与速度相关的奖励，如果它超过期望的速度，则设置为-1，否则设置为0，如果自我车辆跑出车道，r_out设置为-1，否则设置为0，α为自我车辆在拉德内的转向角，r_lat为与侧向加速度相关的奖励，计算公式为r_lat＝-|α|v_lon ²，添加的最后一个常数项是为了防止自我车辆停滞不前。

2.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，步骤S1包括：

3.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，在步骤S1之后，所述方法还包括对图像数据和激光雷达数据进行预处理，具体为：

将图像数据进行裁剪得到64*64分辨率的图像，

4.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，特征提取模块包括4个卷积层和3个注意力层，每一个卷积模块包括两个卷积层和注意力层，步骤S2的自动驾驶控制模型，特征提取模块的处理过程包括：

5.如权利要求1所述的基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法，其特征在于，步骤S2的自动驾驶控制模型中，感知模块得到的环境信息的编码特征为下一时间步的状态。

6.基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制装置，其特征在于，包括：

模型应用模块，用于利用训练好的自动驾驶控制模型进行自动驾驶控制；

其中，模型训练模块中设计的奖励函数的形式为：

r＝200r_collision+v_lon+10r_fast+r_out-5α²+0.2r_lat-0.1

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至5中任一项权利要求所述的方法。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项权利要求所述的方法。