CN112382165B

CN112382165B - 驾驶策略生成方法、装置、介质、设备及仿真***

Info

Publication number: CN112382165B
Application number: CN202011303762.0A
Authority: CN
Inventors: 吴伟; 段雄; 郎咸朋
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-10-04
Anticipated expiration: 2040-11-19
Also published as: CN112382165A

Abstract

本公开涉及一种驾驶策略生成方法、装置、介质、设备及仿真***，以优化仿真***的仿真效果。所述方法包括：从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，所述目标车辆信息包括所述目标仿真车辆在所述目标仿真时刻的目标位置；获取与所述目标仿真车辆对应的目标地图信息，所述目标地图信息取自高精地图；将所述目标环境信息、所述目标车辆信息和所述目标地图信息输入至决策模型，获得所述决策模型输出的目标控制策略，其中，所述决策模型是根据所述仿真***生成的仿真数据、通过强化学习方式训练而获得的；根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制。

Description

驾驶策略生成方法、装置、介质、设备及仿真***

技术领域

本公开涉及仿真领域，具体地，涉及一种驾驶策略生成方法、装置、介质、设备及仿真***。

背景技术

目前，主流的仿真平台(即，仿真***)主要有两大类，一类通常应用于车辆动力学模型和功能的仿真，例如以Vector公司为主的CANoe仿真，另一类则是基于场景的仿真，例如VTD仿真。这些仿真平台提供的大多是仿真验证的功能，且一般针对感知算法或者基于规则的决策规划算法进行仿真验证，然而，单一的仿真验证功能无法为仿真***带来较好的仿真效果，同时，基于规则的决策规划算法无法适用于多种仿真场景，存在一定的局限性。

发明内容

本公开的目的是提供一种驾驶策略生成方法、装置、介质、设备及仿真***，以优化仿真***的仿真效果。

为了实现上述目的，根据本公开的第一方面，提供一种应用于仿真***的驾驶策略生成方法，所述方法包括：

从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，所述目标车辆信息包括所述目标仿真车辆在所述目标仿真时刻的目标位置；

获取与所述目标仿真车辆对应的目标地图信息，所述目标地图信息取自高精地图；

将所述目标环境信息、所述目标车辆信息和所述目标地图信息输入至决策模型，获得所述决策模型输出的目标控制策略，其中，所述决策模型是根据所述仿真***生成的仿真数据、通过强化学习方式训练而获得的；

根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制。

可选地，通过如下方式获取所述目标地图信息：

在高精地图中，确定包含所述目标位置在内的预设面积的地图区域；

将所述地图区域对应的地图信息作为所述目标地图信息。

可选地，所述决策模型通过如下方式获得：

从所述仿真***生成的仿真数据中，获取所述目标仿真车辆对应于第一历史仿真时刻的第一环境信息、第一车辆信息和第一地图信息；

将所述第一环境信息、所述第一车辆信息和所述第一地图信息输入至本次训练所使用的初始模型，获得所述初始模型输出的第一控制策略；

根据所述第一控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制；

从所述仿真***生成的仿真数据中，获取所述目标仿真车辆在第二历史仿真时刻对应的指定车辆参数，作为第一实际车辆参数，其中，所述第二历史仿真时刻为所述第一历史仿真时刻的下一仿真时刻；

获取所述目标仿真车辆对应于第二历史仿真时刻的理想车辆参数，作为第一参考车辆参数；

根据所述第一实际车辆参数和所述第一参考车辆参数二者之间的偏差程度，确定本次训练的奖励函数值；

根据所述奖励函数值对所述初始模型进行优化，以获得所述决策模型。

可选地，所述根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制，包括：

根据所述目标控制策略，通过车辆动力学模型，确定对所述目标仿真车辆进行仿真控制的仿真结果；

根据所述仿真结果，生成所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的环境信息和车辆信息，并存储至所述仿真***中。

可选地，在所述根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制的步骤之后，所述方法还包括：

从所述仿真***生成的仿真数据中，获取所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的指定车辆参数，作为第二实际车辆参数；

获取所述目标仿真车辆对应于所述目标仿真时刻的下一仿真时刻的理想车辆参数，作为第二参考车辆参数；

根据所述第二实际车辆参数和所述第二参考车辆参数二者之间的偏差程度，对所述决策模型进行优化，以获得优化后的决策模型。

可选地，指定车辆参数包括以下中的至少一者：曲率、位置、转向角、与周边车辆的距离。

可选地，所述目标环境信息包括：目标仿真车辆周边车辆的信息、目标仿真车辆周边行人的信息、目标仿真车辆周边的道路信息、目标仿真车辆周边的障碍物信息；

所述目标车辆信息还包括：目标仿真车辆的姿态；

所述目标控制策略包括针对以下至少一者的控制策略：方向盘、油门、刹车。

根据本公开的第二方面，提供一种应用于仿真***的驾驶策略生成装置，所述装置包括：

第一获取模块，用于从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，所述目标车辆信息包括所述目标仿真车辆在所述目标仿真时刻的目标位置；

第二获取模块，用于获取与所述目标仿真车辆对应的目标地图信息，所述目标地图信息取自高精地图；

决策模块，用于将所述目标环境信息、所述目标车辆信息和所述目标地图信息输入至决策模型，获得所述决策模型输出的目标控制策略，其中，所述决策模型是根据所述仿真***生成的仿真数据、通过强化学习方式训练而获得的；

仿真控制模块，用于根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制。

可选地，所述第二获取模块包括：

第一确定子模块，用于在高精地图中，确定包含所述目标位置在内的预设面积的地图区域；

第二确定子模块，用于将所述地图区域对应的地图信息作为所述目标地图信息。

可选地，所述决策模型通过如下方式获得：

可选地，所述仿真控制模块包括：

第三确定子模块，用于根据所述目标控制策略，通过车辆动力学模型，确定对所述目标仿真车辆进行仿真控制的仿真结果；

生成与存储子模块，用于根据所述仿真结果，生成所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的环境信息和车辆信息，并存储至所述仿真***中。

可选地，所述装置还包括：

第三获取模块，用于在所述仿真控制模块根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制之后，从所述仿真***生成的仿真数据中，获取所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的指定车辆参数，作为第二实际车辆参数；

第四获取模块，用于获取所述目标仿真车辆对应于所述目标仿真时刻的下一仿真时刻的理想车辆参数，作为第二参考车辆参数；

模型优化模块，用于根据所述第二实际车辆参数和所述第二参考车辆参数二者之间的偏差程度，对所述决策模型进行优化，以获得优化后的决策模型。

所述目标车辆信息还包括：目标仿真车辆的姿态；

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

根据本公开的第五方面，提供一种仿真***，包括本公开第二方面所述的应用于仿真***的驾驶策略生成装置。

通过上述技术方案，从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，获取与目标仿真车辆对应的目标地图信息，将目标环境信息、目标车辆信息和目标地图信息输入至决策模型，获得决策模型输出的目标控制策略，根据目标控制策略，通过仿真***对目标仿真车辆进行仿真控制。其中，目标地图信息取自高精地图，高精地图包含丰富的地图信息，有利于提升仿真效果。并且，决策模型是根据仿真***生成的仿真数据、通过强化学习方式训练而获得的。这样，既能通过强化学习辅助仿真***的驾驶策略生成，还能基于仿真***自身的数据利用强化学习方式实现决策模型的训练，能够进一步提升仿真***的仿真效果，扩展仿真***的使用场景。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的用于仿真***的驾驶策略生成方法的流程图；

图2是根据本公开提供的用于仿真***的驾驶策略生成方法中，初始模型的结构的一种示例性的示意图；

图3是根据本公开的一种实施方式提供的应用于仿真***的驾驶策略生成装置的框图；

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开的一种实施方式提供的用于仿真***的驾驶策略生成方法的流程图。如图1所示，该方法可以包括以下步骤：

在步骤11中，从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息；

在步骤12中，获取与目标仿真车辆对应的目标地图信息；

在步骤13中，将目标环境信息、目标车辆信息和目标地图信息输入至决策模型，获得决策模型输出的目标控制策略，其中，决策模型是根据仿真***生成的仿真数据、通过强化学习方式训练而获得的；

在步骤14中，根据目标控制策略，通过仿真***对目标仿真车辆进行仿真控制。

简单来说，在仿真***执行仿真任务的过程中，针对仿真***中的各个仿真对象(例如，车辆、行人等)，在每一仿真时刻进行仿真，并生成各仿真时刻下的仿真数据，另外，针对同一仿真对象，可以根据该仿真对象在前一仿真时刻的位置、姿态以及相应的控制策略，控制该仿真对象在下一仿真时刻的位置、姿态。因此，仿真***能够针对其中包含的各个仿真对象，源源不断地生成新的仿真数据，以供使用。从而，从仿真***生成的仿真数据中，就能获得执行本方法所需的数据，即目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息。

其中，目标环境信息可以包括但不限于以下几者：目标仿真车辆周边车辆的信息、目标仿真车辆周边行人的信息、目标仿真车辆周边的道路信息、目标仿真车辆周边的障碍物信息。目标仿真车辆周边车辆的信息可以例如包括目标仿真车辆周边车辆的位置、车速、行驶方向等。目标仿真车辆周边行人的信息可以例如包括行人的行走状态(如，是否行进等)、行进方向、行走速度等。目标仿真车辆周边的道路信息可以例如包括车道线信息、道路之间的连接信息、道路的属性信息(如，是否为路口等)、交通灯信息等。目标仿真车辆周边的障碍物信息可以例如包括障碍物状态(如，是否移动、移动方向等)、障碍物位置等。

自动驾驶中的环境模型是指某一时刻，对自动驾驶车辆周围环境的描述，可以包括动态信息，如其他车辆的位置、速度、行驶方向，行人的状态，还包括静态信息，如车道线信息、道路连接关系和道路属性等，静态障碍物的状态(如，交通灯状态)等。因此，示例地，目标环境信息可以通过仿真***的环境模型直接获取。

目标车辆信息可以包括但不限于：目标仿真车辆在目标仿真时刻的位置(目标位置)、目标仿真车辆在目标仿真时刻的姿态。示例地，目标车辆信息也可以通过环境模型直接获取。

在获取到目标环境信息和目标车辆信息之后，可以执行步骤12，获取目标仿真车辆对应的目标地图信息。仿真***中可以设置有高精地图，高精地图包含仿真场景中所涉及到的所有地图信息，地图信息中可以包括道路信息、障碍物信息等。由于高精地图具有丰富的地图信息，基于高精地图进行仿真，能够获得更好的仿真效果。

在一种可能的实施方式中，步骤12中，获取目标仿真车辆对应的目标地图信息，可以是上述高精地图的全部。

在另一种可能的实施方式中，步骤12中，获取目标仿真车辆对应的目标地图信息，可以包括以下步骤：

在高精地图中，确定包含目标位置在内的预设面积的地图区域；

将地图区域对应的地图信息作为目标地图信息。

如前文所述，目标车辆信息可以包括目标仿真车辆在目标仿真时刻的位置，也就是目标位置。在通过步骤11确定目标车辆信息中的目标位置后，可以进一步根据该目标位置，在高精地图中确定包含该目标位置在内的预设面积的地图区域，并将此地图区域对应的地图信息作为目标地图信息。其中，预设面积可以通过N*M限定，M、N表示距离。示例地，可以以目标位置为中心，根据预设面积选取相应的地图区域，例如，以目标位置为中心，选取300m(米)*300m的地图区域，进而确定目标地图信息。

通过上述方式，选取包含目标位置在内的部分地图区域，并将部分地图区域对应的地图信息作为目标地图信息，能够有效减少后续数据处理过程中的数据处理复杂度，进而有效提升数据处理效率。

获取到上述目标环境信息、目标车辆信息和目标地图信息后，就可以执行步骤13，将目标环境信息、目标车辆信息和目标地图信息输入至决策模型，以获得决策模型输出的目标控制策略。

将目标环境信息、目标车辆信息和目标地图信息输入至决策模型，可以首先对目标环境信息、目标车辆信息和目标地图信息进行预处理，获得与目标环境信息、目标车辆信息和目标地图信息对应的状态向量，并将该状态向量输入至决策模型。

决策模型针对输入的内容，会产生相应的输出结果，也就是目标控制策略。示例地，目标控制策略包括针对以下至少一者的控制策略：方向盘、油门、刹车。

其中，决策模型是根据仿真***生成的仿真数据、通过强化学习方式训练而获得的。强化学习(Reinforcement Learning，RL)，是以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

在一种可能的实施方式中，决策模型可以通过如下方式获得：

从仿真***生成的仿真数据中，获取目标仿真车辆对应于第一历史仿真时刻的第一环境信息、第一车辆信息和第一地图信息；

将第一环境信息、第一车辆信息和第一地图信息输入至本次训练所使用的初始模型，获得初始模型输出的第一控制策略；

根据第一控制策略，通过仿真***对目标仿真车辆进行仿真控制；

从仿真***生成的仿真数据中，获取目标仿真车辆在第二历史仿真时刻对应的指定车辆参数，作为第一实际车辆参数，其中，第二历史仿真时刻为第一历史仿真时刻的下一仿真时刻；

获取目标仿真车辆对应于第二历史仿真时刻的理想车辆参数，作为第一参考车辆参数；

根据第一实际车辆参数和第一参考车辆参数二者之间的偏差程度，确定本次训练的奖励函数值；

根据奖励函数值对初始模型进行优化，以获得决策模型。

上述第一环境信息、第一车辆信息和第一地图信息的获得方式与前文中给出的目标环境信息、目标车辆信息和目标地图信息的获得方式相同，区别仅在于各自对应的仿真时刻不同，因此，对于第一环境信息、第一车辆信息和第一地图信息的获取方式，此处不再赘述。

决策模型的生成需要经过多次训练，在一次的训练过程中，初始模型可以认为是本次训练开始时所使用的模型。在训练最开始时，一般需要创建一个模型，该模型就是初次训练所使用的初始模型，在后续的训练过程中可以以初始创建的模型为基础，逐步进行训练，直至获得决策模型。

强化学习训练中，一般首先利用强化学习算法设计一个决策智能体，后续的模型训练基于该决策智能体实现。下面针对决策智能体，也就是初始模型在本方法中的应用进行详细说明。如图2所示，本方法所使用的智能体可以包含两个网络，分别是决策网络和评价网络。其中，决策网络用于根据输入内容对外输出控制策略(一般体现为决策向量)，评价网络则用于内部评价，评价每次生成的决策向量的质量。一般情况下，可以为智能体定义状态向量S，奖励函数R，决策向量(动作指令)集合A。在强化学习训练过程中，将车辆在当前时刻的状态向量输入至智能体，获得智能体输出的决策向量，仿真***根据该决策向量进行仿真控制，能够改变车辆的状态，进而获得车辆在下一时刻的实际状态，同时，车辆在下一时刻还对应有一理想状态，根据该实际状态以及该理想状态，能够知晓二者之间的偏差，从而生成奖励函数的奖励值，并根据这个奖励值对当前智能体内的网络参数进行优化调整，本次训练完成，经过这样的多次训练，在满足训练结束条件的情况下，就能够获得决策模型。其中，实际状态与理想状态之间的偏差越小，说明实际状态接近理想状态，相应地，奖励函数对应的奖励值会越大，从而，在利用奖励值优化智能体的过程中，有效考虑了决策向量的实际效果，有利于获得更加优质的决策模型。在本方法中，如图2所示，智能体的输入连接仿真***的环境模型和高精地图，能够根据环境地图和高精地图的数据内容实时获取当前时刻所需的输入数据，并形成状态向量，作为智能体的输入，同时，智能体(也就是智能体中的决策网络)的输出连接仿真***的控制器，其输出的控制策略(决策向量)能够被控制器获取到，从而该控制器能够基于该控制策略对仿真车辆进行控制，进行下一步的仿真，同时，智能体中评价网络的输入也会连接控制器，能够根据实际的仿真结果和理想仿真情况进行比较，比较结果用于智能体内部的参数更新。如此循环往复，经过多次训练，就能获得具有良好效果的决策模型。

因此，在获取到第一历史仿真时刻对应的第一环境信息、第一车辆信息和第一地图信息后，将这些信息输入至本次训练所使用的初始模型(即上述智能体)，能够获得初始模型输出的第一控制策略，进而，根据第一控制策略，通过仿真***对目标仿真车辆进行仿真控制，生成针对目标仿真车辆的一系列新的仿真数据，之后，从这些仿真数据中，获取目标仿真车辆在第二历史仿真时刻(第一仿真时刻的下一仿真时刻)的指定车辆参数，作为第一实际车辆参数，同时，获取目标仿真车辆对应于第二历史仿真时刻的理想车辆参数，作为第一参考车辆参数，根据二者之间的偏差程度，确定本次训练的奖励函数值，继而根据奖励函数值对初始模型进行优化，直至获得决策模型。示例地，可以设置偏差的倒数为奖励函数值。

其中，指定车辆参数可以包括但不限于以下中的至少一者：曲率、位置、转向角、与周边车辆的距离。示例地，可以预先设置针对指定车辆参数的评价指标，例如，可以预设指定车辆参数对应的实际车辆参数和理想车辆参数之间的偏差与奖励函数值之间的对应关系，对该偏差进行量化。例如，与周边车辆的距离越小，对应的奖励函数值越大。

如此，根据目标环境信息、目标车辆信息和目标地图信息，通过上述决策模型，能够获得相应的目标控制策略。之后，可以执行步骤14。

示例地，步骤14可以包括以下步骤：

根据目标控制策略，通过车辆动力学模型，确定对目标仿真车辆进行仿真控制的仿真结果；

根据仿真结果，生成目标仿真车辆在目标仿真时刻的下一仿真时刻对应的环境信息和车辆信息，并存储至仿真***中。

也就是说，仿真***根据目标控制策略针对目标仿真车辆进行下一步的仿真，并生成一系列仿真数据，由此更新目标仿真车辆在下一仿真时刻的环境模型及车辆信息，同时这些信息被存储至仿真***的数据库中。

通过上述技术方案，从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，获取与目标仿真车辆对应的目标地图信息，将目标环境信息、目标车辆信息和目标地图信息输入至决策模型，获得决策模型输出的目标控制策略，根据目标控制策略，通过仿真***对目标仿真车辆进行仿真控制。其中，决策模型是根据仿真***生成的仿真数据、通过强化学习方式训练而获得的。这样，既能通过强化学习辅助仿真***的驾驶策略生成，还能基于仿真***自身的数据利用强化学习方式实现决策模型的训练，能够进一步提升仿真***的仿真效果，扩展仿真***的使用场景。

在图1所示的方案的基础上，在步骤14根据目标控制策略，通过仿真***对目标仿真车辆进行仿真控制之后，本公开提供的方法还可以包括以下步骤：

从仿真***生成的仿真数据中，获取目标仿真车辆在目标仿真时刻的下一仿真时刻对应的指定车辆参数，作为第二实际车辆参数；

获取目标仿真车辆对应于目标仿真时刻的下一仿真时刻的理想车辆参数，作为第二参考车辆参数；

根据第二实际车辆参数和第二参考车辆参数二者之间的偏差程度，对决策模型进行优化，以获得优化后的决策模型。

上述训练过程相当于基于本次的实际车辆参数对决策模型进行进一步的更新，与上文中决策模型的单次训练过程原理相同，此处不再赘述。

图3是根据本公开的一种实施方式提供的应用于仿真***的驾驶策略生成装置的框图，如图3所示，该装置30可以包括：

第一获取模块31，用于从仿真***生成的仿真数据中，获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息，所述目标车辆信息包括所述目标仿真车辆在所述目标仿真时刻的目标位置；

第二获取模块32，用于获取与所述目标仿真车辆对应的目标地图信息，所述目标地图信息取自高精地图；

决策模块33，用于将所述目标环境信息、所述目标车辆信息和所述目标地图信息输入至决策模型，获得所述决策模型输出的目标控制策略，其中，所述决策模型是根据所述仿真***生成的仿真数据、通过强化学习方式训练而获得的；

仿真控制模块34，用于根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制。

可选地，所述第二获取模块32包括：

可选地，所述决策模型通过如下方式获得：

可选地，所述仿真控制模块34包括：

可选地，所述装置30还包括：

所述目标车辆信息还包括：目标仿真车辆的姿态；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一仿真***。参照图4，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的应用于仿真***的驾驶策略生成方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作***，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的应用于仿真***的驾驶策略生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的应用于仿真***的驾驶策略生成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的应用于仿真***的驾驶策略生成方法的代码部分。

本公开还提供一种仿真***，包括本公开任意实施例所述的应用于仿真***的驾驶策略生成装置。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种应用于仿真***的驾驶策略生成方法，其特征在于，所述方法包括：

根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制；

其中，所述决策模型通过如下方式获得：

2.根据权利要求1所述的方法，其特征在于，通过如下方式获取所述目标地图信息：

将所述地图区域对应的地图信息作为所述目标地图信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制，包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制的步骤之后，所述方法还包括：

5.根据权利要求1或4所述的方法，其特征在于，指定车辆参数包括以下中的至少一者：曲率、位置、转向角、与周边车辆的距离。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标环境信息包括：目标仿真车辆周边车辆的信息、目标仿真车辆周边行人的信息、目标仿真车辆周边的道路信息、目标仿真车辆周边的障碍物信息；

所述目标车辆信息还包括：目标仿真车辆的姿态；

7.一种应用于仿真***的驾驶策略生成装置，其特征在于，所述装置包括：

仿真控制模块，用于根据所述目标控制策略，通过所述仿真***对所述目标仿真车辆进行仿真控制；

其中，所述决策模型通过如下方式获得：

8.根据权利要求7所述的装置，其特征在于，所述第二获取模块包括：

9.根据权利要求7所述的装置，其特征在于，所述仿真控制模块包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7或10所述的装置，其特征在于，指定车辆参数包括以下中的至少一者：曲率、位置、转向角、与周边车辆的距离。

12.根据权利要求7-10中任一项所述的装置，其特征在于，所述目标环境信息包括：目标仿真车辆周边车辆的信息、目标仿真车辆周边行人的信息、目标仿真车辆周边的道路信息、目标仿真车辆周边的障碍物信息；

所述目标车辆信息还包括：目标仿真车辆的姿态；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

14.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。

15.一种仿真***，其特征在于，包括权利要求7-12中任一项所述的应用于仿真***的驾驶策略生成装置。