WO2017210901A1

WO2017210901A1 - 车辆自动驾驶的速度规划方法、装置及计算装置

Info

Publication number: WO2017210901A1
Application number: PCT/CN2016/085310
Authority: WO
Inventors: 周小成; 姜岩; 彭进展; 周鑫; 张丹; 罗赛
Original assignee: 驭势科技（北京）有限公司
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2017-12-14
Also published as: EP3460613A4; US10564644B2; EP3460613B1; CN107182206B; US20190265713A1; ES2833674T3; US11747818B2; EP3460613A1; CN107182206A; US20200218275A1

Abstract

用于车辆自动驾驶的速度规划方法、装置及计算装置。方法包括：采用训练样本集进行机器学习，获得机器学习模型（S110）；对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表（S120）；实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果（S130）。很好地解决了不能对机器学习训练出的模型做局部调整的问题，易于修改某个分区的决策，而完全不影响其它分区的决策结果；分区决策表的直观特性可以很好的帮助发现和解决机器学习过程中存在的问题；分区决策表可以加速决策过程。

Description

车辆自动驾驶的速度规划方法、装置及计算装置

技术领域

本发明涉及车辆控制领域，特别是涉及一种用于车辆自动驾驶的速度规划方法、装置及计算装置。

背景技术

随着车辆技术的发展，车辆自动驾驶成为热点研究领域。速度规划和控制是自动驾驶中的一个重要研究内容，其基本目标是根据检测到的状态(如当前车速、前车的车速、与前车的距离)规划出一系列后续时间点车的预期车速，并计算出车的最终控制参数(如油门和刹车)对车进行实际的控制操作。速度规划在保证乘客的基本舒适和安全的同时，需要保证在其它车辆有非预期的行为(如突然刹车)时能保证乘客绝对的安全。

为了处理各种可能出现的情况，需要设计较复杂的速度规划和控制模型。在人工设计和实现中，很容易漏掉某些少见的情况和因素。同时，从驾驶员驾驶的汽车上可以采集很丰富的成熟的驾驶数据。由于机器学习方法可以很方便的从数据中学习模型，机器学习方法越来越多地应用到速度规划和控制。另外，在现实世界中，每个驾驶员都有不同的驾驶习惯和对安全舒适程度的界定，因此如果使用同一种规划和控制方法很难满足各种不同的需求，而机器学习方法可以很好的适配这种个性化驾驶习惯需求。

发明内容

本发明的发明人通过长期研究，认识到应用机器学习对车辆进行速度规划存在一些问题。

首先，通过机器学习方法学习到的模型的效果和训练数据直接相关。由于驾驶员通常都是在一个很舒适的范围内驾驶，收集到的训练数据很难覆盖到所有可能出现的场景(如车速极快而据前车距离很短等极端场景)，虽然泛化等技术可以一定程度上解决这个问题，但不能完全解决这个问题。另外，收集到的驾驶员的行为不一定完全满足舒适安全的需求，如有些驾驶员并不能保证和前车的距离，因此当前车突然刹车时，驾驶车辆很难保证不碰上前车的情况下完全刹车。显然，用这种数据训练出来的模型同样也不能处理这种情况。

机器学习存在的另一个问题是很难对其训练出来的模型做局部微调。在应用于自动驾驶的速度规划和控制中，通常需要针对某种特殊情况对模型进行局部调整。而对机器学习得到的模型，对学习到的每个参数的调整，都可能带来全局的不易控制的影响。通过添加更多的训练用例也可以修正模型，但是这种方法周期比较长，并且最后训练出来的模型也不能完全预知。

本发明的目的在于克服现有技术中的缺点与不足，提出一种全新的用于车辆自动驾驶的速度规划方法、装置及计算装置。

根据本发明的一个方面，提供一种用于车辆自动驾驶的速度规划方法，具体包括：

首先为机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；

其次为分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；

再次为实时决策步骤，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。

进一步地，速度规划方法还可以包括实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

进一步地，在实时控制中，在发现确定分区的决策结果不符合预期时，可以对该分区的分区决策结果进行调整。

进一步地，对该分区的分区决策结果进行调整，可以依经验对该分区的分区决策结果进行调整，也可以通过机器学习方法对该分区进行学习，调整该分区的分区决策结果。

进一步地，各维特征分量可以包括当前车速、和前车的距离、前车相对速度和最大车速。

进一步地，在机器学习步骤之前，需要对特征空间进行离散化编码。

进一步地，根据本发明实施例的速度规划方法，离散化编码方法优选为Tiling Coding，其中用只有一个Tiling的Tiling Coding对每个特征分量进行编码，并且将每个特征分量所处的维度划分成优选的7-13个区间，从而对所述输入空间进行分区。

进一步地，在分区决策表取得步骤中，首先需要计算采用离散化编码方法得到的离散化编码结果的空间大小，当所述空间大于确定阈值时，采用动态存储方法存储分区决策表，仅遍历训练空间的输入，存储相应决策模型的输出结果，同时除了分区决策表，还存储训练出的决策模型备用；当所述空间小于所述确定阈值时，采用静态存储方法存储分区决策表，遍历所有编码空间，存储决策模型的输出结果。

进一步地，在实时决策步骤中，首先采用所述离散化编码方法对所述输入特征量进行离散化编码，然后将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用静态存储方法存储时，直接获取分区决策表中已存储的决策结果；

进一步地，在实时决策步骤中，首先采用所述离散化编码方法对所述输入特征量进行离散化编码，然后将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用动态存储方法存储时，如果分区决策表内存储有该离散化编码结果的决策结果，则直接从分区决策表中获取决策结果；反之如果分区决策表内没有存储该离散化编码结果的决策结果，则调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表。

进一步地，机器学习的方法可以采用监督式学习方法或非监督式学习方法，也可以采用增强式学习方法。

进一步地，对特征空间进行离散化编码时，只要两个输入最终的离散编码相同，即认为这两个输入属于同一个分区。

进一步地，离散化编码方法可以包括各类Coarse Coding方法，如Tile Coding。

进一步地，在实时控制中，在对该分区的分区决策结果进行调整后需要确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，应当重新执行所述机器学习步骤和分区决策表取得步骤。

根据本发明的另一个方面，提供一种用于车辆自动驾驶的速度规划装置，该装置包括机器学习单元、分区决策表取得单元、实时决策单元。可选地，速度规划装置还可以包括实时控制单元。

其中，机器学习单元配置为采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值。

其中，分区决策表取得单元配置为对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表。

其中，实时决策单元配置为实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。

其中，实时控制单元配置为基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

进一步地，其中的实时控制单元还配置为在实时控制中，在发现确定分区的决策结果不符合预期时，对该分区的分区决策结果进行调整。

进一步地，其中的分区决策表取得单元还配置为对该分区的分区决策内容进行调整，可以依经验对该分区的分区决策内容进行调整，也可以通过机器学习方法对该分区进行学习，调整该分区的分区决策结果。

进一步地，其中实时决策单元还配置为各维特征分量包括当前车速、和前车的距离、前车相对速度和最大车速。

进一步地，本发明的车辆自动驾驶的速度规划装置还包括离散化编码单元，配置为对训练样本和所述实时决策阶段的输入特征量进行离散化编码。

进一步地，根据本发明实施例的速度规划装置，离散化编码单元采用的离散化编码方法为Tiling Coding，其中用只有一个Tiling的Tiling Coding对每个特征分量进行编码，并且将每个特征分量所处的维度划分成7-13个区间，从而对所述输入空间进行分区。

进一步地，分区决策表取得单元配置为计算采用离散化编码方法得到的离散化编码结果的空间大小，当所述空间大于确定阈值时，采用动态存储方法存储分区决策表，仅遍历训练空间的输入，存储相应决策模型的输出结果，同时还存储训练出的决策模型备用；当所述空间小于所述确定阈值时，采用静态存储方法存储分区决策表，遍历所有编码空间，存储决策模型的输出结果。

进一步地，实时决策单元配置为采用所述离散化编码方法对所述输入特征量进行离散化编码，将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用静态存储方法存储时，直接获取分区决策表中已存储的决策结果。

进一步地，实时决策单元配置为采用所述离散化编码方法对所述输入特征量进行离散化编码，将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用动态存储方法存储时，如果分区决策表内存储有该离散化编码结果的决策结果，则直接从分区决策表中获取决策结果；反之如果分区决策表内没有存储该离散化编码结果的决策结果，则调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表。

进一步地，机器学习的方法可以为监督式学习方法或非监督式学习方法，也可以为增强式学习方法。

进一步地，分区决策表取得单元配置为只要两个输入最终的离散编码相同，即认为这两个输入属于同一个分区。

进一步地，离散化编码方法选自可以包括各类Coarse Coding方法，如Tile Coding。

进一步地，反馈单元配置为确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，引发所述机器学习单元和分区决策表取得单元重新进行机器学习操作和分区决策表取得操作。

根据本发明的另一个方面，提供一种用于车辆自动驾驶的速度规划的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；实时决策步骤，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果；以及实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

本发明采用分区决策表技术提供的速度规划方法、装置及计算装置适用于车辆自动驾驶技术，很好的解决了不能对机器学习训练出的模型做局部调整的问题，可以很容易修改某个分区的决策，而完全不影响其它分区的决策结果，从而完成局部调整。同时，分区决策表的直观特性可以很好的帮助发现和解决机器学习过程中存在的问题。分区决策表可以加速决策过程，查分区决策表可以获得更快的决策速度。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1是根据本发明一个实施例的用于车辆自动驾驶的速度规划方法的总体流程图；

图2示意性地示出了机器学习训练和应用的操作过程和输入、输出的示例性示意图；

图3示出了在应用机器学习方法之前，进行离散化编码处理的机器学习训练和应用的操作过程和输入、输出的示例性示意图；

图4示出了Coarse Coding类别中的Tile Coding离散化编码方法。

图5示出了根据本发明一个实施例的、在采用离散化编码情况下的整个决策分区表的建立和优化过程。

图6示出了根据本发明一个实施例的实时决策步骤的实现方法的流程图。

图7示出了根据本发明实施例的含有实时控制步骤的速度规划控制方法的700的流程图。

图8示出了根据本发明实施例的用于车辆自动驾驶的速度规划装置800的结构框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

在进行详细说明之前，首先介绍一下本发明的总体思想，以便于本领域技术人员把握本发明。

如前所述，发明人经实现和分析发现，利用机器学习具有严重依赖于训练数据，由于训练数据的局限性使得训练出来的模型不能处理一些实际突发情况等问题，以及还具有难于做局部微调，整体调整周期长且效果难以预知的问题。为此，发明人提出了本发明，将机器学习模型的训练和应用分别处理：在训练时，我们按照通用的机器学习方法来进行训练；在应用这些训练出来的模型之前，将输入空间按分成多个分区，并且将模型中决策结果存入到不同分区，从而形成一个按分区组织的决策表，由此，应用模型的决策过程转化为一个查分区决策表的过程。这样，可以很容易修改某个分区的决策，而完全不影响其它分区的决策结果，从而完成局部调整。同时，分区决策表的直观特性可以很好的帮助发现和解决机器学习过程中存在的问题。分区决策表可以加速决策过程，查分区决策表可以获得更快的决策速度。对于实时性要求较高的自动驾驶速度规划来说，易于调整局部策略和具有迅捷的决策速度是非常重要的。

下面结合图1描述根据本发明实施例的车辆自动驾驶方法示例。图1示出了本发明一个实施例的用于车辆自动驾驶的速度规划方法的总体流程图。

在步骤S110中，执行机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值。在步骤S110完成后，前进到步骤S120。

在步骤S120中，执行分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表。

在步骤S130中，进行实时决策，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。

根据本发明实施例，将机器学习模型的训练和应用分别处理。在训练时按照通用的事先收集的训练用例训练模型，具体的机器学习方法可以是需要标注数据的监督式学习，也可以是不需要标注数据的非监督式学习，也可以是增强学习等。和传统方法不同的是，在应用这些训练出来的模型之前，将输入空间按训练时的离散化编码方法划分成多个分区，并且将模型中决策结果存入到不同分区，从而形成一个按分区组织的决策表。因此，采用本发明实施例的车辆自动驾驶的速度规划方法，就是将应用模型的决策过程转化为一个查分区决策表的过程。

为便于理解，图2示意性地示出了机器学习训练和应用的操作过程和输入、输出的示例性示意图。

在图2所示，针对输入的各个训练用例(训练样本)210，进行机器学习220，得到决策模型230，对输入空间分区240，结合分区和决策模型，得到分区决策表250。

在利用分区决策表进行决策时，对于到来的输入270，首先对其进行分区240，在确定所属分区后，到分区决策表250中查询获得对应的决策结果。作为进行分区的例子，对于连续维度的分区，例如可以基于车辆控制专家的经验知识来进行分区。

在一个示例中，在应用机器学习方法前，采用某种编码方式对输入空间进行离散化处理提取特征后再进行处理，这些离散化编码方法很自然的将连续输入空间划分成多个分区。这里的分区不限定是同一维度数据连续空间的分区，只要其最终的编码相同，即可以认为两个样本属于同一分区；换句话说这里的分区并不一定是按原空间连续划分的，而是按照离散编码的结果划分。图3示出了在应用机器学习方法之前，进行离散化编码处理的机器学习训练和应用的操作过程和输入、输出的示例性示意图，其中任何输入，不管是训练示例，还是应用示例，都要先进行离散化编码处理380。

图4示出了示出了粗编码(Coarse Coding)类别中的Tile Coding离散化编码方法。在图4所示的二维输入空间中，三个不同位置的Tiling将整个空间划分为不同的小区域，这些小区域即可作为分区。

作为输入空间的示例，可以由当前车速、和前车的距离、前车相对速度和最大车速四个维度构成。需要说明的是，这里的前车是一个宽泛的概念，并不局限于车辆。当前面没有任何物体时，可以虚拟出一辆前车，并设置虚拟前车的距离和相对速度。最大车速是由各种条件限制(如道路限制、天气条线限制)下的最高行驶速度。因此，自动驾驶领域中的速度规划和控制的编码空间通常不大，因此比较适合进行分区。

发明人实践得到的一个优选例子为：用只有一个Tiling的Tiling Coding对每个输入维度进行编码，将每个输入维度划分成10个左右分区即可很好的满足自动驾驶的速度决策需求。比如对于最大车速，我们可以以10公里每小时的分区大小对其进行分区，结合现实情况，将其划分成[0，10，20，30，40，50，60，70，80，90，100，110，120]共12个分区。此时的分区数为10⁴左右。对计算机而言，这样大小的分区表非常容易存储和处理。在某些极端情况下(如输入维度很多或离散化编码输出空间很大)，最后出来的编码空间可能超出计算机的存储空间。此时，基于来自现实世界的真实输入非常稀疏，可以采用哈希表或其它节省存储空间的方法来动态存储和处理分区决策表。

下面参考图5描述根据本发明一个实施例的、在采用离散化编码情况下的整个决策分区表的建立和优化过程示例，该过程可以用于执行图1所示的步骤S120。需要说明的是，图5中的阈值可以根据机器的存储空间设定。需要说明的是，此仅为示例，并非在机器学习训练之前，必须要对训练样本进行离散化编码，

如图5所示，在步骤S510中，计算机器学习方法采用离散化编码结果的空间大小。

在步骤S520中，判断空间大小是否大于某个阈值。

当步骤S520中判断结果为否时，前进到步骤S530，静态存储分区决策表：遍历所有编码空间，存储决策模型的输出结果；反之，当判断结果为是时，前进到步骤S540，用哈希或其它动态存储方法存储分区决策表：仅遍历训练空间的输入，存储相应决策模型的输出结果；接下来前进到步骤S550，除了分区决策表，还存储训练出的决策模型备用。需要说明的是，当需要动态存储分区决策表时，为了降低后续动态应用时动态建表的开销，可以选择提前添加训练集对应的表项，也可以选择添加其它输入集对应的表项，或者不添加任何表项，等后续需要时再动态添加。此时，由于后面需要动态***决策表项，除了初始分区决策表以外，也需要保存机器学习得到的决策模型，如步骤S550所示。

下面参考附图6描述根据本发明一个实施例的实时决策步骤S130的实现方法的操作过程示例，这里，假设采用离散化编码方法对输入进行处理，而且分区决策表是通过图5所示的方法构建和存储的。

如图6所示，在步骤S610中，应用离散编码方法对输入进行编码。这里的输入可以为车辆自动驾驶过程中实时获得的当前车速、和前车的距离、前车相对速度和最大车速。不过此仅为示例，输入的维度和具体特征量可以根据速度规划方法的不同而不同。

在步骤S620中，将获得的离散化结果作为分区块的索引，查询分区决策表。

在分区决策表为采用静态存储方法存储的或者虽为采用动态存储方法存储的但是分区决策表内存储有该离散化编码结果的决策结果时，能够直接从分区决策表中获取决策结果；反之当分区决策表为采用动态存储方法存储且分区决策表内没有存储该离散化编码结果的决策结果时，则不能直接从分区决策表中获得决策结果。

在步骤S630中，判断是否得到决策结果。如果答案为“是”，则前进到步骤S650，返回决策结果。反之，答案为“否”，则前进到步骤S640，调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表，然后前进到步骤S650。

需要说明的是，图6是在进行了离散编码而且先前视情况采用了静态存储或动态存储情况下的决策过程示例。不过这仅为示例，而不是作为本发明的限制，在不进行离散编码的情况下，利用分区决策表进行决策的过程可以不同，例如，此时可以直接根据输入来确定其所属分区，然后查询分区决策表，获得决策结果；在没有通过查询分区决策表得到决策结果的情况下，在存储了决策模型的情况下，可以调用存储的决策模型来得到决策结果，或者也可以直接给出反馈表明此时无法给出决策结果等等。

根据本发明实施例的速度规划方法，当发现确定分区的决策结果不符合预期时，能够迅速对该分区的分区决策结果进行调整。不需要修改训练用例集或调整训练参数重新训练，也不需要调整训练出来的模型的参数，而只需要修改分区决策表上相应分区的决策结果，从而保证所做的调整只局限于这个分区，而不会影响其它分区上的决策结果。

针对分区决策结果进行调整的具体方法可以是依经验对该分区的分区决策结果进行调整，也可以通过机器学习方法对该分区进行学习。比如，当发现在当前车速是10公里每小时、和前车的距离是200米、前车相对速度是5公里每小时、最大车速是30公里每小时的时候速度控制不正常时，即可以参考某个有经验的驾驶员在这种情况下的反应，将其转换成相应的决策结果，存储到该输入所属区间对应的决策表项。或者也可以收集很多驾驶员在驾驶时的数据，将所有和该输入空间相应的决策结果收集起来，通过归纳或者简单的机器学习方法得到一个期望的决策结果。

在一个示例中，在获得决策结果后，执行实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。图7示出了根据本发明实施例的含有实时控制步骤的速度规划控制方法的700的流程图，图7中的步骤S710-S730与图1所示的步骤S110-S130类似，不同在于多了实时控制步骤S740，即基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

需要说明的是，这里根据速度规划决策结果，执行实时控制，并不是排他式的控制，而是可以结合自动驾驶的其他控制策略(例如转向控制等)来一起综合对车辆进行控制。

根据本发明一个优选实施例，当发现某些分区的决策结果不符合预期时，在对该分区的分区决策结果进行调整后可以确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，则重新执行整体训练步骤，重新机器学习，然后得到新的决策模型，再次进行分区，即可以基于这些反馈结果来重新执行例如图1所示的步骤S110至步骤S130，即机器学习步骤和分区决策表取得步骤，在重新进行机器学习时，可以基于应用决策结果的反馈来尝试通过修改训练参数、添加相应的训练用例等方法来得到更好的机器学习。

根据本发明的另一实施例，还提供了一种用于车辆自动驾驶的速度规划装置。下面将结合图8进行说明，速度规划装置包括以下单元：机器学习单元810、分区决策表取得单元820和实时决策单元830。可选地，还可以包括实时控制单元830。

机器学习单元810配置为采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值。

分区决策表取得单820配置为对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表。

实时决策单元830配置为实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。

实时控制单元840配置为基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

在一个示例中，速度规划装置还可以包括局部分区决策调整单元，配置为当发现确定分区的决策结果不符合预期时，对该分区的分区决策结果进行调整。

局部分区决策调整单元对该分区的分区决策内容进行调整时，可以依经验对该分区的分区决策内容进行调整，也可以通过机器学习方法对该分区进行学习，调整该分区的分区决策结果。

在一个示例中，速度规划装置还包括离散化编码单元，配置为对训练样本和所述实时决策阶段的输入特征量进行离散化编码。

因为最终的编码空间通常不大，比如在实现自动巡航***时的速度规划和控制中，输入只有当前车速、和前车的距离、前车相对速度和最大车速四个维度。离散化编码单元优选采用的离散化编码方法为Tiling Coding，只有一个Tiling的Tiling Coding对每个输入维度进行编码，将每个输入维度划分成优选的7-13个区间，这样即可很好的满足自动驾驶的速度决策需求。

因为在某些极端情况下(如输入维度很多或离散化编码输出空间很大)，最后出来的编码空间可能超出计算机的存储空间，所以分区决策表取得单元820还配置为计算采用离散化编码方法得到的离散化编码结果的空间大小。

当分区决策表取得单元820计算出采用离散化编码方法得到的离散化编码结果的空间大于所确定的阈值时，则决定选择采用动态存储方法存储分区决策表，此时仅遍历训练空间的输入，存储相应决策模型的输出结果，同时还存储训练出的决策模型备用。

相应的，本发明的实时决策单元830配置为先采用所述离散化编码方法对所述输入特征量进行离散化编码，再将获得的离散化编码结果作为分区决策表的索引，因为此时分区决策表为采用动态存储方法存储，如果分区决策表内存储有该离散化编码结果的决策结果，则直接从分区决策表中获取决策结果；反之如果分区决策表内没有存储该离散化编码结果的决策结果，则调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表。

当本发明的分区决策表取得单元820计算出采用离散化编码方法得到的离散化编码结果的空间小于所述确定阈值时，采用静态存储方法存储分区决策表，遍历所有编码空间，存储决策模型的输出结果。

相应的，本发明的实时决策单元830配置为先采用所述离散化编码方法对所述输入特征量进行离散化编码，再将获得的离散化编码结果作为分区决策表的索引，因为此时分区决策表为采用静态存储方法存储，可以直接获取分区决策表中已存储的决策结果。

机器学习单元810配置为采用的机器学习的方法可以为监督式学习方法或非监督式学习方法，也可以为增强式学习方法。

分区决策表取得单元820配置为只要两个输入最终的离散编码相同，即认为这两个输入属于同一个分区。

作为离散化编码单元配置为所采用的离散化编码方法可以选自各类Coarse Coding方法，如Tile Coding。

在一个示例中，速度规划装置800还可以包括反馈单元，配置为当发现某些分区的决策结果不符合预期时，在对该分区的分区决策结果进行调整后需要确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，引发所述机器学习单元810和分区决策表取得单元820重新进行机器学习操作和分区决策表取得操作。

本发明另一个实施例还提供了一种用于车辆自动驾驶的速度规划的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；实时决策步骤，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。

可选地，当所述计算机可执行指令集合被所述处理器执行时，还可以执行下述步骤：实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。

需要说明的是，本文中的车辆应该做广义理解，包括各种大中小型车辆，也包括水上交通工具等。

需要说明的是，有关方法的各个步骤可以在车辆本地执行，也可以在云端执行，或者在本地和云端结合起来执行，有关数据的存储也可以存储在本地，或者存储在云端，或者在本地和云端结合起来存储。

以上已经描述了本发明的各实施例，上述说明是示例上性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种用于车辆自动驾驶的速度规划方法，包括：

机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；

分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；

实时决策步骤，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。
根据权利要求1的速度规划方法，还包括：

实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。
根据权利要求1的方法，还包括：

在发现确定分区的决策结果不符合预期时，对该分区的分区决策结果进行调整。
根据权利要求3的方法，所述对该分区的分区决策结果进行调整包括：

依经验对该分区的分区决策结果进行调整；和/或

通过机器学习方法对该分区进行学习，调整该分区的分区决策结果。
根据权利要求1的方法，所述各维特征分量包括：

当前车速、和前车的距离、前车相对速度和最大车速。
根据权利要求1的方法，还包括，在机器学习步骤之前，对特征空间进行离散化编码。
根据权利要求6所述的方法，其特征在于，所述分区决策表取得步骤包括：

计算采用离散化编码方法得到的离散化编码结果的空间大小：

当所述空间大于确定阈值时，采用动态存储方法存储分区决策表，仅遍历训练空间的输入，存储相应决策模型的输出结果，同时除了分区决策表，还存储训练出的决策模型备用；以及

当所述空间小于所述确定阈值时，采用静态存储方法存储分区决策表，遍历所有编码空间，存储决策模型的输出结果。
根据权利要求7所述的方法，其特征在于，所述实时决策步骤包括：

采用所述离散化编码方法对所述输入特征量进行离散化编码；

将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用静态存储方法存储时，直接获取分区决策表中已存储的决策结果；

将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用动态存储方法存储时，如果分区决策表内存储有该离散化编码结果的决策结果，则直接从分区决策表中获取决策结果；反之如果分区决策表内没有存储该离散化编码结果的决策结果，则调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表。
根据权利要求6所述的方法，其特征在于，只要两个输入最终的离散编码相同，即认为这两个输入属于同一个分区。
根据权利要求6所述的方法，其特征在于，所述离散化编码方法为粗编码方法中的一种。
根据权利要求2所述的方法，还包括：

确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，重新执行所述机器学习步骤和分区决策表取得步骤。
一种用于车辆自动驾驶的速度规划装置，包括：

机器学习单元，配置为采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；

分区决策表取得单元，配置为对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；

实时决策单元，配置为实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果。
根据权利要求12的速度规划装置，还包括：

实时控制单元，配置为基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。
根据权利要求12的速度规划装置，还包括：

局部分区决策调整单元，在发现确定分区的决策结果不符合预期时，对该分区的分区决策结果进行调整。
根据权利要求14的速度规划装置，所述对该分区的分区决策内容进行调整包括：

依经验对该分区的分区决策内容进行调整；和/或

通过机器学习方法对该分区进行学习，调整该分区的分区决策结果。
根据权利要求12的速度规划装置，所述各维特征分量包括：

当前车速、和前车的距离、前车相对速度和最大车速。
根据权利要求12的速度规划装置，还包括：

离散化编码单元，配置为对训练样本和所述实时决策阶段的输入特征量进行离散化编码。
根据权利要求17所述的速度规划装置，其特征在于，所述分区决策表取得单元配置为：

计算采用离散化编码方法得到的离散化编码结果的空间大小：

当所述空间大于确定阈值时，采用动态存储方法存储分区决策表，仅遍历训练空间的输入，存储相应决策模型的输出结果，同时还存储训练出的决策模型备用；以及

当所述空间小于所述确定阈值时，采用静态存储方法存储分区决策表，遍历所有编码空间，存储决策模型的输出结果。
根据权利要求18所述的速度规划装置，其特征在于，实时决策单元配置为：

采用所述离散化编码方法对所述输入特征量进行离散化编码；

将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用静态存储方法存储时，直接获取分区决策表中已存储的决策结果；

将获得的离散化编码结果作为分区决策表的索引，当分区决策表为采用动态存储方法存储时，如果分区决策表内存储有该离散化编码结果的决策结果，则直接从分区决策表中获取决策结果；反之如果分区决策表内没有存储该离散化编码结果的决策结果，则调用所述存储的决策模型来得到决策结果，并将得到的决策结果加入到分区决策表。
根据权利要求17所述的速度规划装置，其特征在于，只要两个输入最终的离散编码相同，即认为这两个输入属于同一个分区。
根据权利要求17所述的速度规划装置，其特征在于，所述离散化编码方法为粗编码方法中的一种。
根据权利要求12所述的速度规划装置，还包括：

反馈单元，配置为确定被调整过分区决策结果的分区的数目，当所述分区的数目超过预定阈值时，引发所述机器学习单元和分区决策表取得单元重新进行机器学习操作和分区决策表取得操作。
一种用于车辆自动驾驶的速度规划的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：

机器学习步骤，采用训练样本集进行机器学习，获得机器学习模型，每个训练样本由形成输入空间的多维特征分量和形成输出空间的决策结果来描述，所述多维特征分量的每维是用于描述车辆特定时刻状态的、与速度规划有关的变量，所述决策结果指示下一时刻的预期速度和/或与速度控制相关的控制参数数值；

分区决策表取得步骤，对于输入空间进行分区，以及基于所述获得的机器学习模型，得到与确定分区对应的决策结果，形成各个分区对应于相应决策结果的分区决策表；

实时决策步骤，实时获得行驶中车辆的各维特征分量作为输入特征量，确定该输入特征量所属于的输入分区，基于所确定的分区，查询分区决策表来获得相应的决策结果；以及

实时控制步骤，基于所获得的决策结果，对车辆发出控制命令，从而控制车辆的速度。