CN108944947A

CN108944947A - 驾驶设备决策的预测方法和装置

Info

Publication number: CN108944947A
Application number: CN201810773941.7A
Authority: CN
Inventors: 钱德恒; 任冬淳; 付圣; 丁曙光
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-07-15
Filing date: 2018-07-15
Publication date: 2018-12-07
Also published as: CN109367543A; CN109367543B; WO2020015491A1

Abstract

本发明是关于一种驾驶设备决策的预测方法，包括：获取驾驶设备的实时环境信息；根据所述实时环境信息和预测模型，确定所述驾驶设备需要执行的至少一种动作的概率分布；其中，所述预测模型根据样本数据预先确定，所述样本数据的特征包含环境信息和驾驶员基于环境信息执行的动作信息。根据本发明的实施例，可以根据实时环境信息和预测模型，预测出驾驶设备需要执行的至少一种动作的概率分布，也即预测结果是关于执行动作的概率分布，而不是单一的一种动作。这一方面使得预测结果与驾驶员实际执行的动作更为相符，保证预测的准确率，进而保证对驾驶设备的有效控制，另一方面有利于保证机器学习过程能够收敛，以便确定出预测模型。

Description

驾驶设备决策的预测方法和装置

技术领域

本发明涉及控制技术领域，具体而言，涉及驾驶设备决策的预测方法、驾驶设备决策的预测装置、电子设备和计算机可读存储介质。

背景技术

为了实现驾驶设备的自动控制，需要根据驾驶设备的环境信息预测出驾驶设备需要执行的动作。相关技术为了得到能够进行预测的预测模型，采集包括驾驶设备的环境信息，以及驾驶员基于环境信息执行的动作信息的样本数据，然后基于样本数据进行机器学习得到预测模型。

根据相关技术中的预测模型，基于相同环境信息可以确定一种动作，也即驾驶员在具有该环境信息的环境中，可能会通过该动作控制驾驶设备，进而控制驾驶设备自动执行该动作，实现自动控制。

然而在实际情况下，基于相同环境信息，驾驶员可能做出的动作是有所不同的，例如在前方车辆行驶较慢的情况下，有的驾驶员指定的动作为超车，有的驾驶员执行的动作为鸣笛，有的驾驶员执行的动作为跟随。

这一方面可能导致根据预测模型得到的预测结果与实际情况可能并不相符，影响预测的准确率，另一方面可能导致在机器学习的过程中，根据尚未确定的预测模型确定的动作，与样本数据中驾驶员实际的动作不符，导致机器学习过程不收敛，从而无法确定出预测模型。

发明内容

根据本发明实施例的第一方面，提出一种驾驶设备决策的预测方法，包括：

获取驾驶设备的实时环境信息；

根据所述实时环境信息和预测模型，确定所述驾驶设备需要执行的至少一种动作的概率分布；

其中，所述预测模型根据样本数据预先确定，所述样本数据的特征包含环境信息和驾驶员基于环境信息执行的动作信息。

可选地，所述预测模型根据样本数据预先确定，包括：

采集样本数据，所述样本数据包括驾驶设备的环境信息，以及驾驶员基于环境信息执行的动作信息；

针对每个样本数据，通过机器学习模型获得驾驶设备需要执行的至少一种动作的概率分布的参数；

构建关于所述参数的可求导函数；

根据所述函数计算该样本数据中驾驶员执行的动作信息对所述参数的梯度，根据所述梯度调整所述机器学习模型，以确定所述预测模型。

可选地，所述参数包括所述概率分布的均值和标差。

可选地，在所述概率分布满足正态分布的情况下，所述构建关于所述参数的可求导函数包括：

针对每个样本数据，在计算出均值和标差后，从标准正态分布中采样一个参量，根据所述参量、均值和标差构建所述函数，以使所述函数的因变量满足该均值和标差对应的正态分布。

可选地，所述样本数据为在时域上存在关系的多张图片，所述采集样本数据包括：

从所述多张图片中提取多张图片作为表征所述环境信息和所述动作信息时间维度的特征。

可选地，所述采集样本数据还包括：

针对每张提取的图片，在该图片中提取多个像素作为表征所述环境信息和所述动作信息空间维度的特征。

可选地，所述提取多张图片和/或所述提取多个像素，基于空洞卷积提取。

根据本发明实施例的第二方面，提出一种驾驶设备决策的预测装置，包括：

实时获取单元，用于获取驾驶设备的实时环境信息；

动作预测单元，用于根据所述实时环境信息和预测模型，确定所述驾驶设备需要执行的至少一种动作的概率分布；

可选地，所述装置还包括：

样本采集单元，用于采集样本数据，所述样本数据包括驾驶设备的环境信息，以及驾驶员基于环境信息执行的动作信息；

参数计算单元，用于针对每个样本数据，通过机器学习模型获得驾驶设备需要执行的至少一种动作的概率分布的参数；

函数构建单元，构建关于所述参数的可求导函数；

模型确定单元，用于根据所述函数计算该样本数据中驾驶员执行的动作信息对所述参数的梯度，根据所述梯度调整所述机器学习模型，以确定所述预测模型。

可选地，所述参数包括所述概率分布的均值和标差。

可选地，在所述概率分布满足正态分布的情况下，所述函数构建单元用于针对每个样本数据，在计算出均值和标差后，从标准正态分布中采样一个参量，根据所述参量、均值和标差构建所述函数，以使所述函数的因变量满足该均值和标差对应的正态分布。

可选地，所述样本数据为在时域上存在关系的多张图片，所述样本采集单元用于从所述多张图片中提取多张图片作为表征所述环境信息和所述动作信息时间维度的特征。

可选地，所述样本采集单元还用于针对每张提取的图片，在该图片中提取多个像素作为表征所述环境信息和所述动作信息空间维度的特征。

可选地，所述图片和/或所述像素，基于空洞卷积提取。

根据本发明实施例的第三方面，提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一实施例所述的方法。

根据本发明实施例的第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述任一实施例所述方法中的步骤。

根据本发明的实施例，可以根据实时环境信息和预测模型，预测出驾驶设备需要执行的至少一种动作的概率分布，也即预测结果是关于执行动作的概率分布，而不是单一的一种动作。这一方面使得预测结果与驾驶员实际执行的动作更为相符，保证预测的准确率，进而保证对驾驶设备的有效控制，另一方面有利于保证机器学习过程能够收敛，以便确定出预测模型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明的实施例示出的一种驾驶设备决策的预测方法的示意流程图。

图2是根据本发明的实施例示出的一种确定预测模型的示意流程图。

图3是根据本发明的实施例示出的一种采集样本数据的示意流程图。

图4是根据本发明的实施例示出的另一种采集样本数据的示意流程图。

图5是根据本发明的实施例示出的提取多张图片的示意图。

图6A是基于普通卷积提取多个像素的示意图。

图6B是根据本发明的实施例示出的提取多个像素的示意图。

图7是根据本发明的实施例示出的驾驶设备决策的预测装置所在车载设备的一种硬件结构图。

图8是根据本发明的实施例示出的一种驾驶设备决策的预测装置的示意框图。

图9是根据本发明的实施例示出的另一种驾驶设备决策的预测装置的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据本发明的实施例示出的一种驾驶设备决策的预测方法的示意流程图。本实施例所示的方法可以适用于各类驾驶设备，其中，所述驾驶设备可以是无人驾驶驾驶设备，也可以是有人驾驶驾驶设备，而在该方法应用于有人驾驶驾驶设备的情况下，预测的结果可以应用于无人驾驶模式。进一步地，所述驾驶设备可以是车辆，也可以是飞行器、船舶等。以下主要在驾驶设备为无人驾驶车辆的情况下，对本发明的实施例进行示例性说明。

如图1所示，所述驾驶设备决策的预测方法包括：

步骤S1，获取驾驶设备的实时环境信息。

在一个实施例中，实时环境信息可以通过驾驶设备上的装置采集，例如通过摄像头、雷达(激光雷达、毫米波雷达等)采集，也可以通过驾驶设备以外的装置采集，例如通过路边的摄像头、人手中的终端采集，然后将采集到的数据传输至驾驶设备。

步骤S2，根据所述实时环境信息和预测模型，确定所述驾驶设备需要执行的至少一种动作的概率分布；

在一个实施例中，可以预先确定所述预测模型，通过该预测模型，可以根据实施环境信息预测驾驶设备需要执行的至少一种动作的概率分布。

其中，若预测驾驶设备只需执行一种动作，那么概率分布就是该动作的执行概率为100％，为了更全面地示例本发明的技术方案，以下主要在预测驾驶设备需要执行多种动作的情况下进行描述。

需要说明的是，所述多种动作可以是连续动作，也可以是非连续动作。

其中，若多种动作为连续动作，那么多种动作属于同一类动作，例如该类动作是方向盘转向，那么多种动作可以是指方向盘转向的多种角度，例如该类动作是行驶速度，那么多种动作可以是指行驶的不同速度。

在这种情况下，根据本发明的实施例，预测的概率分布可以是关于该类动作连续的概率分布，例如以方向盘转向的角度为例，那么预测的概率分布可以是关于-180°到180°的概率分布。

若多种动作为非连续动作，那么多种动作可以属于同一类动作，也可以属于不同类动作，例如属于不同类动作，那么多种动作可以包括超车、跟随、鸣笛等。

在这种情况下，根据本发明的实施例，预测的概率分布可以是对于每个动作分别对应的概率，例如预测的概率分布可以是超车的概率为50％，跟随的概率为30％，鸣笛的概率为20％。

基于本发明的实施例，可以根据实时环境信息和预测模型，预测出驾驶设备需要执行的至少一种动作的概率分布，也即预测结果是关于执行动作的概率分布，而不是单一的一种动作。这一方面使得预测结果与驾驶员实际执行的动作更为相符，保证预测的准确率，进而保证对驾驶设备的有效控制，另一方面有利于保证机器学习过程能够收敛，以便确定出预测模型。

图2是根据本发明的实施例示出的一种确定预测模型的示意流程图。如图2所示，在图1所示实施例的基础上，所述预测模型根据样本数据预先确定，包括：

步骤S3，采集样本数据，所述样本数据包括驾驶设备的环境信息，以及驾驶员基于环境信息执行的动作信息；

步骤S4，针对每个样本数据，通过机器学习模型获得驾驶设备需要执行的至少一种动作的概率分布的参数；

步骤S5，构建关于所述参数的可求导函数；

步骤S6，根据所述函数计算该样本数据中驾驶员执行的动作信息对所述参数的梯度，根据所述梯度调整所述机器学习模型，以确定所述预测模型。

在一个实施例中，样本数据可以是多种类型的数据，例如可以是视频，也可以是图片，还可以是文字，并且可以仅包括一种类型的数据，也可以包括多种类型的数据。

在一个实施例中，在机器学习过程中，可以设定机器学习模型(也即尚未确定的预测模型)，其中，机器学习模型包括输入量和输出量，并且针对每个输入量分别设置有权重值，机器学习的过程主要是针对每个样本数据，将输入量代入机器学习模型，将得到的输出量与样本数据中的动作信息进行比较，以调整机器学习模型中的权重值。具体的过程根据所选择的机器学习算法而有所不同，其中，机器学习过程中所选择的机器学习算法可以是神经网络、逻辑回归、梯度提升决策树(GBDT)等，具体机器学习算法可以根据需要进行选择。

但是由于本实施例输出的是概率分布，这与动作信息难以比较。因此，本实施例在机器学习过程中，将样本数据的环境信息输入机器学习模型后，计算出概率分布的参数，然后构建基于该参数的可求导函数，也即该可导函数的因变量相对于该参数是可求导的，也即可求梯度的。

其中，概率分布的类型可以通过设定机器学习模型来确定，例如概率分布可以是正态分布、二项分布、泊松分布等，所提取的参数可以是均值(期望)和标差。以下主要以正态分布为例，对本发明的实施例进行示例性说明。

在一个实施例中，在概率分布为正态分布的情况下，所述参数包括所述概率分布的均值μ和标差σ，也即根据输出的均值μ和标差σ即可驾驶设备需要执行的至少一种动作的概率分布。在这种情况下，构建关于所述参数的可求导函数包括：

针对每个样本数据，在计算出均值和标差后，从标准正态分布中采样一个参量ζ，根据所述参量、均值和标差构建所述函数，以使所述函数的因变量满足该均值和标差对应的正态分布。

例如函数z＝μ+σ×ζ，由于ζ满足正态分布N(0,1)，据此设置的函数可以保证函数的因变量z满足以μ为均值，以σ为标差的正态分布N(μ,σ)，也即可以将z视为在正态分布N(μ,σ)中采样得到的，而根据机器学习模型输出的概率分布则是驾驶设备需要执行的至少一个动作的正态分布N(μ,σ)，因此z可以视作驾驶设备需要执行的动作，从而使得与所述参数相关的z和样本数据中驾驶员对驾驶设备执行的动作存在可比性。

进而可以根据所述函数计算该样本数据中驾驶员执行的动作信息对所述参数的梯度，例如可以计算z与样本数据中驾驶员执行的动作信息的差值，然后对该差值进行求导，其中，在所述参数为多个的情况下，可以选择需要求导的参数，从而得到样本数据中驾驶员执行的动作信息对参数的梯度，进而可以根据该梯度调整机器学习模型，例如调整机器学习模型中关于输入量的权重值。

然而针对根据每个样本数据计算得到的概率分布的参数分别执行上述确定梯度的过程，并调整用于计算参数的机器学习模型，即可逐渐将机器学习模型调整为满足需要预测模型。

图3是根据本发明的实施例示出的一种采集样本数据的示意流程图。如图3所示，在图2所示实施例的基础上，所述样本数据为在时域上存在关系的多张图片，所述采集样本数据包括：

步骤S31，从所述多张图片中提取多张图片作为表征所述环境信息和所述动作信息时间维度的特征。

图4是根据本发明的实施例示出的另一种采集样本数据的示意流程图。如图4所示，在图3所示实施例的基础上，所述采集样本数据还包括：

步骤S32，针对每张提取的图片，在该图片中提取多个像素作为表征所述环境信息和所述动作信息空间维度的特征。

在一个实施例中，在样本数据为在时域上存在关系的多张图片的情况下，样本数据可以是连续的多张图片，例如时频，也可以是不连续的多张图片，但是在每张图片中的内容在时域上存在先后关系。

对于如上所述的样本数据，提取的特征可以是多张图片，由于图片在时域上存在关联关系，因此可以多张图片可以作为表征环境信息和动作信息时间维度的特征。对于提取的多张图片，还可以进一步提取图片中的多个像素，由于像素和像素之间在空间上存在联系，因此多个像素可以作为表征环境信息和动作信息空间维度的特征。

在一个实施例中，空洞卷积相对于普通卷积，多一个扩张率(或者成为空洞率)的参数，例如扩张率为2，那么在卷积核为3×3的情况下，空洞卷积的感受野与卷积核为5×5的普通卷积的感受野相同，也即对于相同数目的样本，通过空洞卷积提取能够表征样本特征所需的参数，相对于通过普通卷积提取能够表征样本特征所需的参数，所需提取的参数较少，从而有利于减少机器学习过程中的运算量，提高运算速度，加快学习过程。

图5是根据本发明的实施例示出的提取多张图片的示意图。

如图5所示，以神经网络作为机器学***行四边形表示图片，多张图片在时域上存在先后关系。

基于扩张率为2，卷积核为3×3的空洞卷积在多张图片中提取图片，从第一隐层到第二隐层，以及从第二隐层到输出层，所提取的图片并不是连续的，而是间隔一张图片，从而相对于通过普通卷积提取图片，可以提取较少的图片。

图6A是基于普通卷积提取多个像素的示意图。图6B是根据本发明的实施例示出的提取多个像素的示意图。

如图6A和图6B所示，其中的平行四边形表示像素，在图6A中，虚线表示扩充的边界，以卷积核为3×3的卷积提取图片，那么感受野也是3×3，提取的像素为9个。在图6B中，以扩张率为2，卷积核为3×3的空洞卷积，那么感受野为5×5，但是提取的像素仍然是9个。

可见，基于相同的感受野，通过空洞卷积提取参数，相对于通过普通卷积提取参数，所提取的参数的数量较少，有利于降低运算量，提高运算速度。

需要说明的是，所提取的特征并不限于上述图片、像素，还可以包括其他特征。所采用的空洞卷积，扩张率、核函数、步长等参数可以根据需要进行设置，并不限于上述实施例所述的情况。

与前述驾驶设备决策的预测方法的实施例相对应，本申请还提供了驾驶设备决策的预测装置的实施例。

本申请驾驶设备决策的预测装置的实施例可以应用在车载设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在车载设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为根据本发明的实施例示出的驾驶设备决策的预测装置所在车载设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的车载设备通常根据该车载设备的实际功能，还可以包括其他硬件，对此不再赘述。

图8是根据本发明的实施例示出的一种驾驶设备决策的预测装置的示意框图。本实施例所示的装置可以适用于各类驾驶设备，其中，所述驾驶设备可以是无人驾驶驾驶设备，也可以是有人驾驶驾驶设备，而在该方法应用于有人驾驶驾驶设备的情况下，预测的结果可以应用于无人驾驶模式。进一步地，所述驾驶设备可以是车辆，也可以是飞行器、船舶等。

如图8所示，所述驾驶设备决策的预测装置包括：

实时获取单元1，用于获取驾驶设备的实时环境信息；

动作预测单元2，用于根据所述实时环境信息和预测模型，确定所述驾驶设备需要执行的至少一种动作的概率分布；

图8是根据本发明的实施例示出的另一种驾驶设备决策的预测装置的示意框图。如图8所示，所述装置还包括：

样本采集单元3，用于采集样本数据，所述样本数据包括驾驶设备的环境信息，以及驾驶员基于环境信息执行的动作信息；

参数计算单元4，用于针对每个样本数据，通过机器学习模型获得驾驶设备需要执行的至少一种动作的概率分布的参数；

函数构建单元5，构建关于所述参数的可求导函数；

模型确定单元6，用于根据所述函数计算该样本数据中驾驶员执行的动作信息对所述参数的梯度，根据所述梯度调整所述机器学习模型，以确定所述预测模型。

可选地，所述参数包括所述概率分布的均值和标差。

可选地，所述图片和/或所述像素，基于空洞卷积提取。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的实施例还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一实施例所述的方法，所述电子设备可以是车载设备，也可以是驾驶设备控制者的终端，还可以是服务器。

本发明的实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时上述任一实施例所述方法中的步骤。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种驾驶设备决策的预测方法，其特征在于，包括：

获取驾驶设备的实时环境信息；

2.根据权利要求1所述的方法，其特征在于，所述预测模型根据样本数据预先确定，包括：

构建关于所述参数的可求导函数；

3.根据权利要求2所述的方法，其特征在于，所述参数包括所述概率分布的均值和标差。

4.根据权利要求3所述的方法，其特征在于，在所述概率分布满足正态分布的情况下，所述构建关于所述参数的可求导函数包括：

5.根据权利要求2所述的方法，其特征在于，所述样本数据为在时域上存在关系的多张图片，所述采集样本数据包括：

6.根据权利要求5所述的方法，其特征在于，所述采集样本数据还包括：

7.根据权利要求6所述的方法，其特征在于，所述提取多张图片和/或所述提取多个像素，基于空洞卷积提取。

8.一种驾驶设备决策的预测装置，其特征在于，包括：

实时获取单元，用于获取驾驶设备的实时环境信息；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行所述权利要求1至7中任一项所述方法中的步骤。