CN109857118A

CN109857118A - 用于规划驾驶策略的方法、装置、设备及存储介质

Info

Publication number: CN109857118A
Application number: CN201910186289.3A
Authority: CN
Inventors: 夏中谱; 潘屹峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-06-07
Anticipated expiration: 2039-03-12
Also published as: CN109857118B

Abstract

本发明提出了用于规划驾驶策略的方法、装置等，其中用于规划驾驶策略的方法，可以包括：根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P；将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

Description

用于规划驾驶策略的方法、装置、设备及存储介质

技术领域

本发明涉及机动车驾驶领域，具体涉及一种用于规划驾驶策略的方法、装置、计算机设备、计算机存储介质等。

背景技术

在现有技术中，在无人车***进行道路测试时，不可避免的会出现一些不可控的事件(例如计算机程序自身存在的缺陷，造成需要刹车的时候没有刹车，需要拐弯的时候没有拐弯等等)，造成人工接管，即，此时需要从自动驾驶模式切换到人工驾驶模式。在满足自动驾驶条件之后，再从人工驾驶模式切换到自动驾驶模式。如此反复。目前人工接管后主要是通过开发人员对接管情况进行分析并加以处理，例如通过规则参数的修改，以实现驾驶策略的改进和优化等。

由于在出现这些不可控的事件时，需要人工接管，使得无人车的体验感、舒适感、安全性都受到影响。

发明内容

如何解决现有技术中当无人车行驶过程中出现不可控的事件时，需要人工接管的问题，以便改进和优化现有技术的驾驶策略是个亟待解决的问题。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

根据本发明的第一方面，提供了一种用于规划驾驶策略的方法，可以包括：

根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P；

将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据 P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型 W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f (A，W’)，其中W’为修正的神经网络模型。

在本发明的一个实施例中，作为负样本的规划轨迹数据B可以包括：

在遍历所有规划轨迹情况下得到的规划轨迹数据B。

在本发明的另一个实施例中，其中对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P可以包括：

针对多个时间段内的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P。

在本发明的再一个实施例中，其中将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出可以包括：

将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据 P同时输入神经网络模型W，对比学习同一时间段内负样本和正样本情况下神经网络模型W的输出。

根据本发明的第二方面，提供了一种用于规划驾驶策略的装置，可以包括：

构建和拟合单元，用于根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系 B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

生成单元，用于对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P；

对比和修正单元，将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

在本发明的一个实施例中，其中作为负样本的规划轨迹数据B可以包括：

在遍历所有规划轨迹情况下得到的规划轨迹数据B。

在本发明的再一个实施例中，其中将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出包括：

根据本发明的第三方面，提供了一种计算机设备，可以包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述的方法。

借助于本发明的用于规划驾驶策略的方法、装置等，解决了现有技术中当无人车在行驶过程中出现不可控的事件时需要人工接管的问题。也就是说，借助于得到的修正的神经网络模型W’可以在出现不可控的事件时，无人车继续处于自动驾驶的状态，采取的驾驶策略就像人工接管之后采取的驾驶策略一样，使得无人车的体验感、舒适感、安全性都得到进一步的提高。

上述概述仅仅是为了说明的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示意性示出根据本发明第一方面的一个实施例的用于规划驾驶策略方法的流程图；

图2示意性示出根据本发明一个实施例的作为负样本的规划轨迹数据 B示意图；

图3示意性示出根据本发明一个实施例的对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P的示意图；

图4示意性示出根据本发明一个实施例的将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的示意图；

图5示意性示出根据本发明一个实施例的规划驾驶策略的示意图；

图6示意性示出根据本发明第二方面的一个实施例的用于规划驾驶策略的装置的流程图；

图7示意性示出根据本发明第三个方面的关于计算机设备的一个实施例。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的各个实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。

下面结合本发明附图1-7进行详细地描述。

图1示意性示出根据本发明第一方面的一个实施例的用于规划驾驶策略的方法100的流程图，可以包括下面的步骤：

步骤102，根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i(A_i， W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

步骤104，对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P；

步骤106，将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

下面将结合图5描述一下用于规划驾驶策略的方法100的具体解释。在图5所示的从出发地A到目的地D之间存在若干条路径，例如图5中简单示意性示出的路径1、路径2、路径3等等。在每条路径上都存在许多节点，这些节点使用“·”表示(后续为了方便，将“节点”简称为“点”)，如在路径1上的点A、点C0、点C1、点C2、点C3、点C4、点C5、点 C6、点C7、点D等等。这些节点都是设想存在的切换点，例如机动车在点A到点C0的距离内处于自动驾驶模式，或者说是无人驾驶模式；在点 C0到点C1的距离内由于不可控事件的触发，机动车需要切换到人工驾驶模式；在点C1到点C2的距离内由于满足了自动驾驶的条件，机动车又继续处于自动驾驶模式；如此反复。

因此可以假设，机动车在点A到点C0的距离内、在点C1到点C2的距离内、在点C3到点C4的距离内、在点C5到点C6的距离内、在点C7 到点D的距离内处于自动驾驶模式；机动车在点C0到点C1的距离内、在点C2到点C3的距离内、在点C4到点C5的距离内、在点C6到点C7的距离内处于人工驾驶模式。

在步骤102中，根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i (A_i，W)可以具体包含下面的情况，例如：

对于A点到C1点，构建了规划轨迹数据B₁、道路场景数据A₁、神经网络模型W之间的函数关系B₁＝f₁(A₁，W)，其中B₁表示从A点到C1 点的规划轨迹，A₁表示从A点到C1点的道路场景，W代表神经网络模型，如在图5中所示的，可以认为机动车例如无人车在从A点运动到C1点的范围内，机动车处于自动驾驶状态，或者说处于无人驾驶的状态。但是由于不可控事件的触发，在规划轨迹数据B₁、道路场景数据A₁、神经网络模型W之间的函数关系B₁＝f₁(A₁，W)所规划的A点到C1点距离内，由于在C0点出现了不可控事件，遭成了C0点到C1点的距离内(或者说时间段内)机动车由人工接管，处于人工驾驶模式。但是规划轨迹数据B₁、道路场景数据A₁、神经网络模型W之间的函数关系B₁＝f₁(A₁， W)实际上已经规划了C0点到C1点距离内(或者说时间段内)机动车的自动驾驶轨迹数据。后续需要将C0点到C1点的距离内(或者说时间段内)机动车由人工接管之后的驾驶员行为轨迹与C0点到C1点的距离内自动驾驶状态下初始规划的自动驾驶轨迹数据(该自动驾驶轨迹数据实际上是规划轨迹数据B₁的一部分，即对应于C0点到C1点距离内的数据) 输入神经网络模型W，以便对比神经网络模型W在上述两种情况下的输出结果，这一点还将在后面描述。

类似的，对于C1点到C3点，构建了规划轨迹数据B₂、道路场景数据A₂、神经网络模型W之间的函数关系B₂＝f₂(A₂，W)，其中B₂表示从 C1点到C3点的规划轨迹，A₂表示从C1点到C3点的道路场景，W代表神经网络模型，如在图5中所示的，可以认为机动车例如无人车在从C1 点运动到C3点的范围内，机动车处于自动驾驶状态，或者说处于无人驾驶的状态。但是由于不可控事件的触发，在规划轨迹数据B₂、道路场景数据A₂、神经网络模型W之间的函数关系B₂＝f₂(A₂，W)所规划的C2点到C3点距离内，由于在C2点出现了不可控事件，遭成了C2点到C3点的距离内(或者说时间段内)机动车由人工接管，处于人工驾驶模式。但是规划轨迹数据B₂、道路场景数据A₂、神经网络模型W之间的函数关系 B₂＝f₂(A₂，W)实际上已经规划了C2点到C3点距离内(或者说时间段内)机动车的自动驾驶轨迹数据。后续需要将C2点到C3点的距离内(或者说时间段内)机动车由人工接管之后的驾驶员行为轨迹与C2点到C3点的距离内自动驾驶状态下初始规划的自动驾驶轨迹数据(该自动驾驶轨迹数据实际上是规划轨迹数据B₂的一部分，即对应于C2点到C3点距离内的数据)输入神经网络模型W，以便对比神经网络模型W在上述两种情况下的输出结果，这一点还将在后面描述。

类似的，对于C3点到C5点，构建了规划轨迹数据B₃、道路场景数据A₃、神经网络模型W之间的函数关系B₃＝f₃(A₃，W)，其中B₃表示从 C3点到C5点的规划轨迹，A₃表示从C3点到C5点的道路场景，W代表神经网络模型，如在图5中所示的，可以认为机动车例如无人车在从C3 点运动到C5点的范围内，机动车处于自动驾驶状态，或者说处于无人驾驶的状态。但是由于不可控事件的触发，在规划轨迹数据B₃、道路场景数据A₃、神经网络模型W之间的函数关系B₃＝f₃(A₃，W)所规划的C4点到C5点距离内，由于在C4点出现了不可控事件，遭成了C4点到C5点的距离内(或者说时间段内)机动车由人工接管，处于人工驾驶模式。但是规划轨迹数据B₃、道路场景数据A₃、神经网络模型W之间的函数关系 B₃＝f₃(A₃，W)实际上已经规划了C4点到C5点距离内(或者说时间段内)机动车的自动驾驶轨迹数据。后续需要将C4点到C5点的距离内(或者说时间段内)机动车由人工接管之后的驾驶员行为轨迹与C4点到C5点的距离内自动驾驶状态下初始规划的自动驾驶轨迹数据(该自动驾驶轨迹数据实际上是规划轨迹数据B₃的一部分，即对应于C4点到C5点距离内的数据)输入神经网络模型W，以便对比神经网络模型W在上述两种情况下的输出结果，这一点还将在后面描述。

类似的，对于C5点到C7点，构建了规划轨迹数据B₄、道路场景数据A₄、神经网络模型W之间的函数关系B₄＝f₄(A₄，W)，其中B₄表示从 C5点到C7点的规划轨迹，A₄表示从C5点到C7点的道路场景，W代表神经网络模型，如在图5中所示的，可以认为机动车例如无人车在从C5 点运动到C7点的范围内，机动车处于自动驾驶状态，或者说处于无人驾驶的状态。但是由于不可控事件的触发，在规划轨迹数据B₄、道路场景数据A₄、神经网络模型W之间的函数关系B₄＝f₄(A₄，W)所规划的C6点到C7点距离内，由于在C6点出现了不可控事件，遭成了C6点到C7点的距离内(或者说时间段内)机动车由人工接管，处于人工驾驶模式。但是规划轨迹数据B₄、道路场景数据A₄、神经网络模型W之间的函数关系 B₄＝f₄(A₄，W)实际上已经规划了C6点到C7点距离内(或者说时间段内)机动车的自动驾驶轨迹数据。后续需要将C6点到C7点的距离内(或者说时间段内)机动车由人工接管之后的驾驶员行为轨迹与C6点到C7点的距离内自动驾驶状态下初始规划的自动驾驶轨迹数据(该自动驾驶轨迹数据实际上是规划轨迹数据B₄的一部分，即对应于C6点到C7点距离内的数据)输入神经网络模型W，以便对比神经网络模型W在上述两种情况下的输出结果，这一点还将在后面描述。

类似的，对于C7点到D点，构建了规划轨迹数据B₅、道路场景数据 A₅、神经网络模型W之间的函数关系B₅＝f₅(A₅，W)，其中B₅表示从C7 点到D点的规划轨迹，A₅表示从C7点到D点的道路场景，W代表神经网络模型，如在图5中所示的，可以认为机动车例如无人车在从C7点运动到D点的范围内，机动车处于自动驾驶状态，或者说处于无人驾驶的状态，假设在C7点到D点的距离内没有再发生不可控的事件。

当然对于路径1上出发点A到目的地D之间还可以细分为若干个节点，图5中所示的节点个数仅仅是示意性的，并不局限于路径1、路径2、路径3上所示的这些节点。

如上所示，得到了路径1上的多个规划轨迹B₁＝f₁(A₁，W)，B₂＝f₂(A₂， W)，B₃＝f₃(A₃，W)，…B_i＝f_i(A_i，W)。

在本发明的一个实施例中，作为负样本的规划轨迹数据B包括：在遍历所有规划轨迹情况下得到的规划轨迹数据B。例如包含了在选择路径2 情况下，得到的多个规划轨迹B₁’＝f₁’(A₁’，W)，B₂’＝f₂’(A₂’，W)，B₃’＝f₃’(A₃’，W)，…B_i’＝f_i’(A_i’，W)。还包含了在选择路径3情况下，得到的多个规划轨迹B₁”＝f₁”(A₁”，W)，B₂”＝f₂”(A₂”，W)，B₃”＝f₃”(A₃”，W)，…B_i”＝f_i” (A_i”，W)。还包含了在选择路径n情况下(图5未示出)，得到的多个规划轨迹B₁ ⁽ⁿ⁾＝f₁ ⁽ⁿ⁾(A₁ ⁽ⁿ⁾，W)，B₂ ⁽ⁿ⁾＝f₂ ⁽ⁿ⁾(A₂ ⁽ⁿ⁾，W)，B₃ ⁽ⁿ⁾＝f₃ ⁽ⁿ⁾(A₃ ⁽ⁿ⁾， W)，…B_i ⁽ⁿ⁾＝f_i ⁽ⁿ⁾(A_i ⁽ⁿ⁾，W)。

在本发明的一个实施例中，备选的，可以将路径1上得到的多个规划轨迹B₁＝f₁(A₁，W)，B₂＝f₂(A₂，W)，B₃＝f₃(A₃，W)，…B_i＝f_i(A_i，W)；路径2上得到的多个规划轨迹B₁’＝f₁’(A₁’，W)，B₂’＝f₂’(A₂’，W)，B₃’＝f₃’ (A₃’，W)，…B_i’＝f_i’(A_i ^’，W)；路径3上得到的多个规划轨迹B₁”＝f₁”(A₁”， W)，B₂”＝f₂”(A₂”，W)，B₃”＝f₃”(A₃”，W)，…B_i”＝f_i”(A_i”，W)；……路径n上得到的多个规划轨迹B₁ ⁽ⁿ⁾＝f₁ ⁽ⁿ⁾(A₁ ⁽ⁿ⁾，W)，B₂ ⁽ⁿ⁾＝f₂ ⁽ⁿ⁾(A₂ ⁽ⁿ⁾，W)， B₃ ⁽ⁿ⁾＝f₃ ⁽ⁿ⁾(A₃ ⁽ⁿ⁾，W)，…B_i ⁽ⁿ⁾＝f_i ⁽ⁿ⁾(A_i ⁽ⁿ⁾，W)拟合得到神经网络模型W，其中i＝1、2、3、…n。采用这样的拟合方法，相当于考虑到了从出发点A 到目的地D之间的所有的备选路径/规划轨迹、道路场景等因素，这样拟合得到的神经网络模型W更具有综合性和包容性。备选的，也可以针对特定的路径，例如路径1的情况，就拟合得到神经网络模型W。

在本发明的步骤104中提到了，对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P。

需要说明的是，在出现上述不可控的事情之后，驾驶员进行接管，生成驾驶员的行为轨迹。

例如在选择路径1的情况下，在C0点到C1点的距离内，得到驾驶员的行为轨迹X₁，此时对应的场景数据为A₁₁；在C2点到C3点的距离内，得到驾驶员的行为轨迹X₂，此时对应的场景数据为A₂₂；在C4点到 C5点的距离内，得到驾驶员的行为轨迹X₃，此时对应的场景数据为A₃₃；在C6点到C7点的距离内，得到驾驶员的行为轨迹X₄，此时对应的场景数据为A₄₄。这里图5所示的路径1上的节点A、C0、C1……C7、D点都仅仅是示意行的，实际上可以对于路径1进行细分，从而得到对应的驾驶员的行为轨迹X_n。

在一个实施例中，将得到的驾驶员的行为轨迹X₁，X₂，X₃，……X_n，进行拼接拟合，得到在选择路径1情况下从出发点A到目的地D之间驾驶员的行为轨迹P＝f(A₁₁，X₁)+f(A₂₂，X₂)+f(A₃₃，X₃)+…+f(A_nn， X_n)。

正如在上面提到的，如图3所示的，对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P包括了针对多个时间段内的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P。例如上面提到的，将在C0点到C1点距离内对应的时间段内驾驶员行为轨迹X₁、在C2 点到C3点距离内对应的时间段内驾驶员行为轨迹X₂、在C4点到C5点距离内对应的时间段内驾驶员行为轨迹X₃、在C6点到C7点距离内对应的时间段内驾驶员行为轨迹X₄进行拼接。

其中步骤106提到了，将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

备选的，将上述得到的自动驾驶状态下的规划轨迹作为负样本，驾驶员行为轨迹作为正样本。例如，针对于路径1，将自动驾驶情况下得到的多个规划轨迹，即B＝B₁+B₂+B₃……B_i，其中B₁＝f₁(A₁，W)，B₂＝f₂(A₂， W)，B₃＝f₃(A₃，W)，…B_i＝f_i(A_i，W)作为负样本；将驾驶员驾驶情况下得到的行为轨迹X＝f(A₁₁，X₁)+f(A₂₂，X₂)+f(A₃₃，X₃)+……+f(A_nn， X_n)作为正样本。这里的负样本被认为是将来需要校正的、不太可靠的样本，正样本被认为是可靠的样本。

如在图4所示的，将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出可以包括：将作为负样本的规划轨迹数据B 和作为正样本的驾驶员行为轨迹数据P同时输入神经网络模型W，对比学习同一时间段内负样本和正样本情况下神经网络模型W的输出。例如C0 点到C1点之间对应的时间段(自动驾驶状态下规划的轨迹数据，负样本) 与C0点到C1点之间对应的时间段(人工驾驶状态下得到的驾驶员行为轨迹，正样本)处于同一时间段；C2点到C3点之间对应的时间段(自动驾驶状态下规划的轨迹数据，负样本)与C2点到C3点之间对应的时间段 (人工驾驶状态下得到的驾驶员行为轨迹，正样本)处于同一时间段；C4点到C5点之间对应的时间段(自动驾驶状态下规划的轨迹数据，负样本) 与C4点到C5点之间对应的时间段(人工驾驶状态下得到的驾驶员行为轨迹，正样本)处于同一时间段；C6点到C7点之间对应的时间段(自动驾驶状态下规划的轨迹数据，负样本)与C6点到C7点之间对应的时间段 (人工驾驶状态下得到的驾驶员行为轨迹，正样本)处于同一时间段。

在对比学习负样本和正样本情况下神经网络模型W的输出之后，将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’ 为修正的神经网络模型。修正的目的在于，使得得到的驾驶策略G＝f(A， W’)更能准确反映道路场景A的变化，在后续使用的过程中，向修正的神经网络模型W’输入出发地A和目的地D之后得到的驾驶策略G更加舒适、更加安全。

根据本发明的第二方面，提供一种用于规划驾驶策略的装置，如在图 6中所示的，可以包括：

构建和拟合单元202，根据采集的规划轨迹数据B和道路场景数据A，构建规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系 B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

生成单元204，用于对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P；

对比和修正单元206，将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出，并且将神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

在本发明的一个实施例中，作为负样本的规划轨迹数据B可以包括：在遍历所有规划轨迹情况下得到的规划轨迹数据B。

在本发明的另一个实施例中，其中对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P可以包括：针对多个时间段内的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P。

在本发明的再一个实施例中，其中将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入神经网络模型W，对比学习在负样本和正样本情况下神经网络模型W的输出包括：将作为负样本的规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P同时输入神经网络模型W，对比学习同一时间段内负样本和正样本情况下神经网络模型W的输出。

在根据本发明第三方面的实施例中，提供一种计算机设备，可以包括：一个或多个处理器；存储装置，用于存储一或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上的方法。

在根据本发明第四方面的实施例中，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如上的方法。

图7示出根据本发明实施例的计算机设备的结构框图。如图7所示，该计算机设备包括：存储器310和处理器320，存储器310内存储有可在处理器320上运行的计算机程序。处理器320执行计算机程序时实现上述实施例中的用于规划驾驶策略的方法。存储器310和处理器320的数量可以为一个或多个。

该装置/设备/终端/服务器还包括：

通信接口330，用于与外界设备进行通信，进行数据交互传输。

存储器310可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器310、处理器320和通信接口330独立实现，则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构 (EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器310、处理器320及通信接口330 集成在一块芯片上，则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的 ***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于规划驾驶策略的方法，其特征在于，包括：

根据采集的规划轨迹数据B和道路场景数据A，构建所述规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

将作为负样本的所述规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入所述神经网络模型W，对比学习在所述负样本和所述正样本情况下所述神经网络模型W的输出，并且将所述神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

2.根据权利要求1所述的用于规划驾驶策略的方法，其中所述作为负样本的所述规划轨迹数据B包括：

在遍历所有规划轨迹情况下得到的规划轨迹数据B。

3.根据权利要求2所述的用于规划驾驶策略的方法，其中所述对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P包括：

4.根据权利要求3所述的用于规划驾驶策略的方法，其中所述将作为负样本的所述规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入所述神经网络模型W，对比学习在所述负样本和所述正样本情况下所述神经网络模型W的输出包括：

将作为负样本的所述规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P同时输入所述神经网络模型W，对比学习同一时间段内所述负样本和所述正样本情况下所述神经网络模型W的输出。

5.一种用于规划驾驶策略的装置，其特征在于，包括：

构建和拟合单元，用于根据采集的规划轨迹数据B和道路场景数据A，构建所述规划轨迹数据B、道路场景数据A、神经网络模型W之间的函数关系B_i＝f_i(A_i，W)，并且拟合得到神经网络模型W，其中i＝1、2、3、…n；

对比和修正单元，将作为负样本的所述规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入所述神经网络模型W，对比学习在所述负样本和所述正样本情况下所述神经网络模型W的输出，并且将所述神经网络模型W进行修正，得到规划的驾驶策略G＝f(A，W’)，其中W’为修正的神经网络模型。

6.根据权利要求5所述的用于规划驾驶策略的装置，其中所述作为负样本的所述规划轨迹数据B包括：

在遍历所有规划轨迹情况下得到的规划轨迹数据B。

7.根据权利要求6所述的用于规划驾驶策略的装置，其中所述对于驾驶员驾驶情况下的驾驶员行为轨迹进行拼接，生成驾驶员行为轨迹数据P包括：

8.根据权利要求7所述的用于规划驾驶策略的装置，其中所述将作为负样本的所述规划轨迹数据B和作为正样本的驾驶员行为轨迹数据P输入所述神经网络模型W，对比学习在所述负样本和所述正样本情况下所述神经网络模型W的输出包括：

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。