CN111731326A

CN111731326A - 避障策略确定方法、装置及存储介质

Info

Publication number: CN111731326A
Application number: CN202010626976.5A
Authority: CN
Inventors: 乔晓利
Original assignee: Imotion Automotive Technology Suzhou Co Ltd
Current assignee: Imotion Automotive Technology Suzhou Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-02
Anticipated expiration: 2040-07-02
Also published as: CN111731326B

Abstract

本申请涉及一种避障策略确定方法、装置及存储介质，属于计算机技术领域，该方法包括：将当前行驶车辆的当前环境信息输入估值网络，得到每种驾驶操作对应的Q值；估值网络使用第一训练数据训练得到，第一训练数据从安全数据容器和不安全数据容器中抽取得到；对各个驾驶操作按照Q值由大到小的顺序进行排序；对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作；在第i位的驾驶操作不是安全驾驶操作时，令i为i+1直至第i位的驾驶操作为安全驾驶操作时，确定第i位的驾驶操作为当前行驶车辆的避障策略；可以解决基于规则确定出的避障策略安全性不高的问题；提高确定出的避障策略的安全性。

Description

避障策略确定方法、装置及存储介质

技术领域

本申请涉及一种避障策略确定方法、装置及存储介质，属于计算机技术领域。

背景技术

随着物联网技术的发展，自动驾驶车辆支持自动避障功能。比如：自动躲避其它车辆、自动躲避路障等。

现有的避障策略包括：根据当前道路信息按照预设规则躲避障碍物。比如：当前时刻的道路环境为左侧行驶车辆较多，变道策略为向右变更车道。

然而，在当前道路环境很复杂时，基于预设规则躲避障碍物的方法可能无法给出安全性更高的避障策略。

发明内容

本申请提供了一种避障策略确定方法、装置及存储介质，可以解决基于规则确定当前环境信息的避障策略时，得到的避障策略的安全性不高的问题。本申请提供如下技术方案：

第一方面，提供了一种避障策略确定方法，所述方法包括：

获取当前行驶车辆的当前环境信息；

将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；所述估值网络是使用第一训练数据训练得到的，所述第一训练数据从安全数据容器和不安全数据容器中抽取得到；所述安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息；所述不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值；

对各个驾驶操作按照Q值由大到小的顺序进行排序；

对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述n为所述驾驶操作的个数；

在所述第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行所述对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作的步骤，直至所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。

可选地，所述将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值之前，还包括：

获取所述安全数据容器和所述不安全数据容器；

从所述安全数据容器和所述不安全数据容器中抽取所述第一训练数据；

使用所述第一训练数据对初始估值网络进行训练，得到所述估值网络。

可选地，所述获取所述安全数据容器和所述不安全数据容器，包括：

基于ε-greedy算法从多种驾驶操作中选择驾驶操作；

将所述第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型，得到所述选择的驾驶操作的奖励值；

将所述选择的驾驶操作输入第一安全检测模型，得到所述第一安全检测模型输出的第一安全检测结果；所述第一安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作是否安全；

将所述第一环境信息和所述选择的驾驶操作输入第二安全检测模型，得到所述第二安全检测模型输出的第二安全检测结果；所述第二安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作之后的k个时刻是否安全，所述k为正整数；

在所述第一安全检测结果和所述第二安全检测结果均指示所述选择的驾驶操作安全时，将所述第一环境信息、所述选择的驾驶操作、所述选择的驾驶操作的奖励值、执行所述选择的驾驶操作后的第二环境信息确定为所述安全数据容器中的一条安全数据，所述选择的驾驶操作为所述安全数据中的安全驾驶操作；

在所述第一安全检测结果和所述第二安全检测结果中的任意一个指示所述选择的驾驶操作不安全时，将所述第一环境信息、所述选择的驾驶操作和所述选择的驾驶操作的奖励值确定为所述不安全数据容器中的一条不安全数据，所述选择的驾驶操作为所述不安全数据中的不安全驾驶操作。

可选地，所述将第一环境信息和所述选择的驾驶操作输入预先训练的驾驶奖励模型，得到所述选择的驾驶操作的奖励值之前，还包括：

构建初始驾驶奖励模型，所述初始驾驶奖励模型包括驾驶动作参数、所述驾驶动作参数的第一权重向量、驾驶状态参数和所述驾驶状态参数的第二权重向量；

基于逆强化学习方式对所述初始驾驶奖励模型进行学习，得到所述驾驶奖励模型，所述驾驶奖励模型包括驾驶动作参数、学习后的第一权重向量、驾驶状态参数和学习后的第二权重向量。

可选地，所述将所述选择的驾驶操作输入第一安全检测模型，得到所述第一安全检测模型输出的第一安全检测结果，包括：

计算执行所述选择的驾驶操作后训练车辆的第一位置信息和第一速度信息；

获取所述第一环境信息中的障碍物的第二位置信息和第二速度信息；

计算所述第一位置信息和所述第二位置信息之间的相对距离；

计算所述第一速度信息和所述第二速度信息之间的相对速度；

计算所述相对距离与所述相对速度之间的商，得到相对时长；

在所述相对时长大于时长阈值时，输出用于指示所述选择的驾驶操作安全的第一安全检测结果；

在所述相对时长小于或等于时长阈值时，输出用于指示所述选择的驾驶操作不安全的第一安全检测结果。

可选地，所述第二安全检测模型是使用多条第二训练数据对初始神经网络模型进行训练得到的；每条第二训练数据包括第x时刻的环境信息、第x时刻执行的驾驶操作、以及第x时刻之后的k个时刻的环境信息；所述x为小于所述k的整数；

所述将所述选择的驾驶操作输入第二安全检测模型，得到所述第二安全检测模型输出的第二安全检测结果，包括：

将所述第一环境信息和所述选择的驾驶操作输入所述第二安全检测模型，得到执行所述选择的驾驶操作之后的k个时刻的环境信息；

获取所述k个时刻的环境信息中每个时刻的环境信息对应的障碍物与训练车辆之间的距离；

在所述k个时刻中至少一个时刻对应的障碍物与训练车辆之间的距离小于距离阈值时，输出用于指示所述选择的驾驶操作不安全的第二安全检测结果；

在所述k个时刻中各个时刻对应的障碍物与训练车辆之间的距离均大于所述距离阈值时，输出用于指示所述选择的驾驶操作安全的第二安全检测结果。

可选地，所述估值网络包括主网络和目标网络；所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和空的第二环境信息；或者，所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和执行所述驾驶操作后的第二环境信息；

所述使用所述第一训练数据对初始估值网络进行训练，得到所述估值网络，包括：

将所述第一训练数据输入所述主网络，以供所述主网络根据所述第一训练数据中的第一环境信息、驾驶操作、所述驾驶操作的奖励值和第二环境信息计算所述驾驶操作对应的Q估计值；

将所述第一训练数据输入所述目标网络，以供所述目标网络根据所述第一训练数据中的第一环境信息、驾驶操作、所述驾驶操作的奖励值和第二环境信息计算所述驾驶操作对应的Q目标值；

基于反向传播和梯度下降算法使用所述Q目标值与所述Q估计值之间的均方误差值对所述主网络进行参数迭代更新，得到所述估值网络。

可选地，所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略之后，还包括：

获取执行所述第i位最高的驾驶操作之后的下一时刻环境信息；

获取所述第i位的驾驶操作的奖励值；

将所述当前环境信息、所述第i位的驾驶操作、所述第i位的驾驶操作的奖励值和所述下一时刻环境信息加入所述安全数据容器，得到更新后的第一训练数据；

使用所述更新后的第一训练数据对所述估值网络进行更新，得到更新后的估值网络，以使用所述更新后的估值网络确定后续环境信息的避障策略。

第二方面，提供一种避障策略确定装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的避障策略确定方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的避障策略确定方法。

本申请的有益效果在于：通过获取当前行驶车辆的当前环境信息；将当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；估值网络是使用第一训练数据训练得到的，第一训练数据从安全数据容器和不安全数据容器中抽取得到；安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行安全驾驶操作的奖励值和执行安全驾驶操作后的第二环境信息；不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行不安全驾驶操作的奖励值；对各个驾驶操作按照Q值由大到小的顺序进行排序；对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作；在第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作的步骤，直至第i位的驾驶操作为安全驾驶操作时，确定第i位的驾驶操作为当前行驶车辆的避障策略；可以解决基于规则确定当前环境信息的避障策略时，得到的避障策略的安全性不高的问题；通过将强化学习运用于避障场景，对于期望的驾驶操作进行奖励，对于非期望的驾驶操作进行惩罚，可以适应更复杂的驾驶场景，提高确定出的避障策略的安全性。

另外，通过对各个驾驶操作按照Q值由大到小的顺序进行安全检测，由于Q值越大，驾驶操作是安全驾驶操作的概率越大，一方面按照Q值由大到小的顺序进行安全检测，可以提高确定出安全驾驶操作的效率；另一方面可以进一步保证确定出的安全策略的安全性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的避障策略确定方法的流程图；

图2是本申请一个实施例提供的避障策略确定装置的框图；

图3是本申请一个实施例提供的避障策略确定装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

逆向强化学习：是指从专家示例中学习回报(reward)函数的过程。逆向强化学习包括但不限于以下几种：学徒学习、最大边际规划(Maximum Margin Planning，MMP)、结构化分类和神经逆向强化学习等，本申请再此不对逆向强化学习的类型一一列举。

Q-Learning：是指学习每个操作对应的期望值(Expected Utility)(或称Q值)的方法。学习Q-Learning的模型可以是神经网络，这样得到的模型为估值网络，也称为深度Q网络(Deep-Q Network，DQN)。换句话说，估值网络包括DQN。估值网络还可以包括深度双Q网络(Double DQN，DDQN)等，实施例不对估值网络的类型作限定。

DQN包括两个结构完全相同但是参数却不同的网络，即预测Q估计值的主网络(MainNet)和输出目标Q值的目标网络(TargetNet)。其中，MainNet使用的是最新的参数，TargetNet使用的参数是历史的参数。

示意性地，MainNet的输出通过Q(s，a)表示，用于评估当前状态动作的值函数；TargetNet的输出通过Q(s，a)_expected表示。Q(s，a)和Q(s，a)_expected的计算方式参考下式：

Q(s，a)_expected＝r_s，_a+γmax_a’(Q(s’，a’))

其中，s表示当前状态、a表示当前状态采取的动作、

表示采取动作a后由s进入s’的概率分布、r_s，_a为当前状态采取动作a的奖励值、max_a’(Q(s’，a’)表示下一状态s’采取动作a’时的最大Q值、γ为折扣因子。

通过计算Q(s，a)和Q(s，a)_expected的均方误差，并基于反向传播和梯度下降算法使用计算得到的均方误差值对估值网络进行参数更新，可以得到训练后的估值网络。一段时间之后(比如：迭代训练n次之后)将估值网络的网络参数复制给目标网络，以使目标网络后续计算Q目标值Q(s，a)_expected。

可选地，本申请中以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或者服务器，终端可以为手机、计算机、车载处理***、可穿戴式设备等，本实施例不对终端的类型作限定。

图1是本申请一个实施例提供的避障策略确定方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取当前行驶车辆的当前环境信息。

当前环境信息包括基于当前行驶车辆的车辆位置确定的预设范围内的障碍物信息。障碍物信息包括障碍物的速度信息和位置信息。其中，障碍物包括但不限于：位于预设范围内，且除当前行驶车辆之外的其它车辆、人、路障、和/或植物等，本实施例不对障碍物的类型作限定。

当然，当前环境信息还可以包括当前行驶车辆的道路信息等，本实施例不对当前环境信息包括的内容作限定。其中，当前环境信息可以电子设备对当前行驶车辆所处环境的环境图像进行图像识别得到的。

步骤102，将当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；估值网络是使用第一训练数据训练得到的，第一训练数据基于ε-greedy算法从安全数据容器和不安全数据容器中抽取得到；安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行安全驾驶操作的奖励值和执行安全驾驶操作后的第二环境信息；不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行不安全驾驶操作的奖励值。

本实施例中，在将当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值之前，还包括以下几个步骤：

步骤1、获取安全数据容器和不安全数据容器。

在一个示例中，获取安全数据容器和不安全数据容器，包括：基于ε-greedy算法从多种驾驶操作中选择驾驶操作；将第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型，得到选择的驾驶操作的奖励值；将选择的驾驶操作输入第一安全检测模型，得到第一安全检测模型输出的第一安全检测结果；将第一环境信息和选择的驾驶操作输入第二安全检测模型，得到第二安全检测模型输出的第二安全检测结果；在第一安全检测结果和第二安全检测结果均指示选择的驾驶操作安全时，将第一环境信息、选择的驾驶操作、选择的驾驶操作的奖励值、执行选择的驾驶操作后的第二环境信息确定为安全数据容器中的一条安全数据，该选择的驾驶操作为安全数据中的安全驾驶操作；在第一安全检测结果和第二安全检测结果中的任意一个指示选择的驾驶操作不安全时，将第一环境信息、选择的驾驶操作和选择的驾驶操作的奖励值确定为不安全数据容器中的一条不安全数据，该选择的驾驶操作为不安全数据中的不安全驾驶操作。

驾驶奖励模型为电子设备训练得到的。此时，将第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型，得到驾驶操作的奖励值之前，还包括：构建初始驾驶奖励模型，该初始驾驶奖励模型包括驾驶动作参数、驾驶动作参数的第一权重向量、驾驶状态参数和驾驶状态参数的第二权重向量；基于逆强化学习方式对初始驾驶奖励模型进行学习，得到驾驶奖励模型，该驾驶奖励模型包括驾驶动作参数、学习后的第一权重向量、驾驶状态参数和学习后的第二权重向量。

示意性地，驾驶状态参数包括驾驶速度v和驾驶距离d，驾驶动作参数a包括方向盘旋转角度，以顺时针方向为正方向、逆时针方向为负方向为例，方向盘旋转角度包括±(0，30，60，…，480，510，540)，当然，方向盘旋转角度还可以包括其它角度，本实施例不对方向盘旋转角度的划分方式作限定。此时，初始驾驶奖励模型为r＝w_1*v+w_2*d+w_3*a。其中，w_1和w_2为驾驶状态参数的第二权重向量；w_3为驾驶动作参数的第一权重参数。此时，驾驶动作参数a为输入至驾驶奖励模型的驾驶操作，驾驶状态参数为输入至驾驶奖励模型的驾驶速度v和驾驶距离d。

第一安全检测模型用于检测在第一环境信息中执行选择的驾驶操作是否安全。将选择的驾驶操作输入第一安全检测模型，得到第一安全检测模型输出的第一安全检测结果，包括：计算执行选择的驾驶操作后训练车辆的第一位置信息和第一速度信息；获取第一环境信息中的障碍物的第二位置信息和第二速度信息；计算第一位置信息和第二位置信息之间的相对距离；计算第一速度信息和第二速度信息之间的相对速度；计算相对距离与相对速度之间的商，得到相对时长；在相对时长大于时长阈值时，输出用于指示选择的驾驶操作安全的第一安全检测结果；在相对时长小于或等于时长阈值时，输出用于指示选择的驾驶操作不安全的第一安全检测结果。

第二安全检测模型用于检测在第一环境信息中执行驾驶操作之后的k个时刻是否安全，k为正整数。第二安全检测模型是使用多条第二训练数据对初始神经网络模型进行训练得到的；每条第二训练数据包括第x时刻的环境信息、第x时刻执行的驾驶操作、以及第x时刻之后的k个时刻的环境信息；x为小于k的整数。此时，将选择的驾驶操作输入第二安全检测模型，得到第二安全检测模型输出的第二安全检测结果，包括：将第一环境信息和选择的驾驶操作输入第二安全检测模型，得到执行选择的驾驶操作之后的k个时刻的环境信息；获取k个时刻的环境信息中每个时刻的环境信息对应的障碍物与训练车辆之间的距离；在k个时刻中至少一个时刻对应的障碍物与训练车辆之间的距离小于距离阈值时，输出用于指示选择的驾驶操作不安全的第二安全检测结果；在k个时刻中各个时刻对应的障碍物与训练车辆之间的距离均大于距离阈值时，输出用于指示选择的驾驶操作安全的第二安全检测结果。

其中，初始神经网络模型可以为循环神经网络(Recurrent Neural Network,RNN)，当然，也可以是卷积神经网络(Convolutional Neural Networks，CNN)等，本实施例不对初始神经网络模型的网络类型作限定。

在另一个示例中，获取安全数据容器和不安全数据容器，包括：读取预先存储的安全数据容器和不安全数据容器。

步骤2、从安全数据容器和不安全数据容器中抽取第一训练数据。

以大概率在安全数据容器中抽取部分第一训练数据，以小概率在不安全数据容器中抽取部分第一训练数据。

步骤3、使用第一训练数据对初始估值网络进行训练，得到估值网络。

在一个示例中，估值网络包括主网络和目标网络。第一训练数据包括第一环境信息、驾驶操作、驾驶操作的奖励值和空的第二环境信息(即在驾驶操作为不安全驾驶操作时，对应的第二环境信息为空)；或者，第一训练数据包括第一环境信息、驾驶操作、驾驶操作的奖励值和执行驾驶操作后的第二环境信息。此时，使用第一训练数据对初始估值网络进行训练，得到估值网络，包括：将第一训练数据输入主网络，以供主网络根据第一训练数据中的第一环境信息、驾驶操作、驾驶操作的奖励值和第二环境信息计算驾驶操作对应的Q估计值；将第一训练数据输入目标网络，以供目标网络根据第一训练数据中的第一环境信息、驾驶操作、驾驶操作的奖励值和第二环境信息计算驾驶操作对应的Q目标值；基于反向传播和梯度下降算法使用Q目标值与Q估计值之间的均方误差值对主网络进行参数迭代更新，得到估值网络。

其中，估值网络可以得到多种驾驶操作对应的Q值，驾驶操作为方向盘旋转角度，以顺时针方向为正方向、逆时针方向为负方向为例，方向盘旋转角度包括±(0，30，60，…，480，510，540)。

步骤103，对各个驾驶操作按照Q值由大到小的顺序进行排序。

步骤104，对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作。

其中，i依次取1至n的整数，n为驾驶操作的个数，n为大于1的整数。

确定第i位的驾驶操作是否为安全驾驶操作，包括：将第i位的驾驶操作输入第一安全检测模型，得到第一安全检测模型输出的第一安全检测结果；将当前环境信息和第i位的驾驶操作输入第二安全检测模型，得到第二安全检测模型输出的第二安全检测结果；在第一安全检测结果和第二安全检测结果均指示第i位的驾驶操作安全时，确定第i位的驾驶操作为安全驾驶操作；在第一安全检测结果和第二安全检测结果中的任意一个指示第i位的驾驶操作不安全时，确定第i位的驾驶操作为不安全驾驶操作。

第一安全检测模型和第二安全检测模型的相关描述详见步骤1，本实施例在此不再赘述。

步骤105，在第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行步骤104，直至第i位的驾驶操作为安全驾驶操作时，确定第i位的驾驶操作为当前行驶车辆的避障策略。

可选地，为了提高估值网络的准确性，在步骤105之后，即电子设备确定第i位的驾驶操作为当前行驶车辆的避障策略之后，获取执行第i位的驾驶操作之后的下一时刻环境信息；获取第i位的驾驶操作的奖励值；将当前环境信息、第i位的驾驶操作、第i位的驾驶操作的奖励值和下一时刻环境信息加入安全数据容器，得到更新后的第一训练数据；使用更新后的第一训练数据对估值网络进行更新，得到更新后的估值网络，以使用更新后的估值网络确定后续环境信息的避障策略。

其中，使用更新后的第一训练数据对估值网络进行更新，得到更新后的估值网络的过程参考步骤3，本实施例在此不再赘述。

综上所述，本实施例提供的避障策略确定方法，通过获取当前行驶车辆的当前环境信息；将当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；估值网络是使用第一训练数据训练得到的，第一训练数据从安全数据容器和不安全数据容器中抽取得到；安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行安全驾驶操作的奖励值和执行安全驾驶操作后的第二环境信息；不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行不安全驾驶操作的奖励值；对各个驾驶操作按照Q值由大到小的顺序进行排序；对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作；在第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作的步骤，直至第i位的驾驶操作为安全驾驶操作时，确定第i位的驾驶操作为当前行驶车辆的避障策略；可以解决基于规则确定当前环境信息的避障策略时，得到的避障策略的安全性不高的问题；通过将强化学习运用于避障场景，对于期望的驾驶操作进行奖励，对于非期望的驾驶操作进行惩罚，可以适应更复杂的驾驶场景，提高确定出的避障策略的安全性。

另外，通过第一安全检测模型和第二安全检测模型对驾驶操作进行双重安全检测，可以提高驾驶操作的安全性检测结果的准确性，从而提高使用该驾驶操作训练得到的估值网络确定出的避障策略的安全性。

另外，通过逆强化学习来学习驾驶奖励模型，而不是手动设置奖励函数，可以提高确定驾驶操作的奖励值的准确性，从而提高使用该奖励值训练得到的估值网络确定出的避障策略的安全性。

图2是本申请一个实施例提供的避障策略确定装置的框图。该装置至少包括以下几个模块：信息获取模块210、Q值计算模块220、操作排序模块230、安全检测模块240和策略确定模块250。

信息获取模块210，用于获取当前行驶车辆的当前环境信息；

Q值计算模块220，用于将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；所述估值网络是使用第一训练数据训练得到的，所述第一训练数据从安全数据容器和不安全数据容器中抽取得到；所述安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息；所述不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值；

操作排序模块230，用于对各个驾驶操作按照Q值由大到小的顺序进行排序；

安全检测模块240，用于对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述n为所述驾驶操作的个数；

策略确定模块250，用于在所述第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行所述对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作的步骤，直至所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的避障策略确定装置在进行避障策略确定时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将避障策略确定装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的避障策略确定装置与避障策略确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请一个实施例提供的避障策略确定装置的框图，该装置可以是智能手机、平板电脑、笔记本电脑、台式电脑或服务器，避障策略确定装置还可能被称为用户设备、便携式终端、膝上型终端、台式终端、控制终端等，本实施例对此不作限定。该装置至少包括处理器301和存储器302。

处理器301可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的避障策略确定方法。

在一些实施例中，避障策略确定装置还可选包括有：***设备接口和至少一个***设备。处理器301、存储器302和***设备接口之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口相连。示意性地，***设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，避障策略确定装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的避障策略确定方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的避障策略确定方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种避障策略确定方法，其特征在于，所述方法包括：

获取当前行驶车辆的当前环境信息；

对各个驾驶操作按照Q值由大到小的顺序进行排序；

对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述n为所述驾驶操作的个数，所述n为大于1的整数；

2.根据权利要求1所述的方法，其特征在于，所述将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值之前，还包括：

获取所述安全数据容器和所述不安全数据容器；

3.根据权利要求2所述的方法，其特征在于，所述获取所述安全数据容器和所述不安全数据容器，包括：

基于ε-greedy算法从多种驾驶操作中选择驾驶操作；

4.根据权利要求3所述的方法，其特征在于，所述将第一环境信息和所述选择的驾驶操作输入预先训练的驾驶奖励模型，得到所述选择的驾驶操作的奖励值之前，还包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述选择的驾驶操作输入第一安全检测模型，得到所述第一安全检测模型输出的第一安全检测结果，包括：

6.根据权利要求3所述的方法，其特征在于，所述第二安全检测模型是使用多条第二训练数据对初始神经网络模型进行训练得到的；每条第二训练数据包括第x时刻的环境信息、第x时刻执行的驾驶操作、以及第x时刻之后的k个时刻的环境信息；所述x为小于所述k的整数；

7.根据权利要求2所述的方法，其特征在于，所述估值网络包括主网络和目标网络；所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和空的第二环境信息；或者，所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和执行所述驾驶操作后的第二环境信息；

8.根据权利要求1至7任一所述的方法，其特征在于，所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略之后，还包括：

获取执行所述第i位的驾驶操作之后的下一时刻环境信息；

获取所述第i位的驾驶操作的奖励值；

9.一种避障策略确定装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的避障策略确定方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至8任一项所述的避障策略确定方法。