CN112447065B

CN112447065B - 一种轨迹规划方法及装置

Info

Publication number: CN112447065B
Application number: CN201910760761.XA
Authority: CN
Inventors: 林鹏宏
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-04-26
Anticipated expiration: 2039-08-16
Also published as: CN112447065A

Abstract

本发明公开了轨迹规划方法及装置，根据预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；基于所述第一代价图和所述第二代价图，确定时空代价图；根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹。

Description

一种轨迹规划方法及装置

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种轨迹规划方法及装置。

背景技术

随着科学技术的不断发展，自动驾驶也得到了飞速的发展。自动驾驶无需配备驾驶员，全程由计算机自动控制驾驶。

而自动驾驶研究的重点就在于驾驶轨迹规划，驾驶轨迹规划是否合理直接影响到行车安全和行车效率。例如，如果车辆的驾驶轨迹规划不合理，自动驾驶乘客到交通事故事发地，则会严重影响行车安全。再例如，无人机的驾驶轨迹规划不合理，可能会碰撞到其他无人机，进而产生碰撞事故。

而目前的轨迹规划的精度不高，导致轨迹规划不合理。

发明内容

为了解决上述技术问题，提出了本申请。

根据本申请的一个方面，提供了一种轨迹规划方法，所述方法包括：根据预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；基于所述第一代价图和所述第二代价图，确定时空代价图；根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹。

根据本申请的另一方面，提供了一种轨迹规划装置，包括：处理模块，用于调用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；获得模块，用于对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；第一确定模块，用于基于所述第一代价图和所述第二代价图，确定时空代价图；第二确定模块，用于根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹。

根据本申请的再一方面，提供了一种可移动设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的方法。

与现有技术相比，采用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图，由此能够客观准确的预测出通过各轨迹需要付出的代价，然后再对可移动设备的相关场景数据进行映射，获得第二代价图，而由于第二代价图是由场景数据映射得到，由此可以精确反映出各轨迹对应障碍物的静态代价，然后基于所述第一代价图和所述第二代价图，确定时空代价图，由此该时空代价图从时间域和空间域上都结合了第一代价图客观反映出的轨迹代价和第二代价图中的静态代价，由此从时空两方面都能够精确全面的反应各轨迹的代价。然后根据所述可移动设备对应的目标驾驶策略和所述时空代价图，生成所述可移动设备对应的目标驾驶轨迹。由于得到的时空代价图已经能够精确全面的反应各轨迹代价，因而本发明能够准确的匹配出目标驾驶轨迹，有效提升目标驾驶轨迹的准确性和合理性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的轨迹规划方法的流程示意图。

图2是本申请另一示例性实施例提供的时空代价图的示意图。

图3是本申请一示例性实施例提供的确定可移动设备对应的目标驾驶轨迹的流程示意图。

图4是本申请一示例性实施例提供的计算每条轨迹各自的代价值的流程示意图。

图5是本申请一示例性实施例提供的轨迹规划装置的示意图。

图6是本申请一示例性实施例提供的第一确定模块的一个示例框图；

图7是本申请一示例性实施例提供的生成模块的一个示例框图；

图8是本申请一示例性实施例提供的可移动设备的示例框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

现有的轨迹规划一般通过各种传感器采集周围的环境数据并转化为代价函数来进行轨迹规划，因此需要考虑周边环境中的各种障碍物(如阶梯、护柱、地下通道、斜坡)的位置。如果可移动设备要通过某个位置，则会将传感器采集到的该位置的相关环境数据转化为相关的代价函数，获得可移动设备通过该位置的代价。而目前的轨迹规划方案中，为了避免发生碰撞，对于地形可通过性的设定非常保守，经常会将可通过路径识别为不可通过，进而导致规划路径极不合理。

为了解决上述问题，采用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图，由此能够客观准确的预测出可移动设备在驾驶过程中执行驾驶操作需要付出的代价，然后再对可移动设备的相关场景数据进行映射，获得第二代价图，而由于第二代价图是由场景数据映射得到，由此可以精确反映出各轨迹对应障碍物的静态代价，然后基于所述第一代价图和所述第二代价图，确定时空代价图，由此该时空代价图从时间域和空间域上都结合了第一代价图客观反映出的轨迹代价和第二代价图中的静态代价，由此从时空两方面都能够精确全面的反应可移动设备在驾驶过程中执行驾驶操作的代价。然后根据所述可移动设备对应的目标驾驶策略和所述时空代价图，生成所述可移动设备对应的目标驾驶轨迹。由于得到的时空代价图已经能够精确全面反映出可移动设备在驾驶过程中执行驾驶操作的代价，因而本发明能够根据时空代价图反映的代价准确的匹配出目标驾驶轨迹，有效提升目标驾驶轨迹的准确性和合理性。

示例性方法

图1是本申请一示例性实施例提供的轨迹规划方法的流程示意图。本实施例可应用在可移动设备上。本实施例的可移动设备，包括无人车、无人机、机械臂和移动机器人等能够自主移动的设备。

由于本实施例的轨迹规划方法针对的是可移动设备，其应用场景和现有的线路规划场景是有差别的。现有的地图类APP在为用户进行线路规划时，根据用户输入的起点位置和用户输入的终点位置进行线路规划，然后在显示屏上显示从起点到终点的多条线路，给出导航时间，也会显示各条线路的堵车路段等等，其不会考虑车辆驾驶数据，只会考虑道路数据。而本实施例的轨迹规划和现有线路规划是不一样的，由于环境信息、可移动设备的速度、位置等等在不同时刻都是变化的，所以本实施例从时间域和空间域上来考虑，在每个时刻，都会计算可移动设备驾驶的代价。具体的，可移动设备在每个时刻都会有多种驾驶可能。例如无人车在某个时间可以加速左转、减速左转、保持当前速度左转、加速右转、减速右转、保持当前速度右转、加速直行、减速直行、保持当前速度直行、停车等等目标驾驶策略，因此需要确定出无人车执行上述每个操作的代价，然后控制无人车按照代价最低的轨迹点形式。比如，通过某个路口时，以40迈速度通过该路口还是以20迈速度通过该路口，加速或者减速通过该路口等等操作都具有代价值，如果以40迈速度通过该路口的代价值最低，则控制无人车以40迈速度通过该路口。由此可见，本申请的轨迹规划实际上和线路规划是不同的，本申请关注的是可移动设备在当前所有可能操作的代价，再根据该代价进行轨迹规划。

本申请中的一个或者多个实施例中描述的轨迹规划方法如图1所示，包括如下步骤：

步骤101，根据预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图。

本实施例的预设模型包括但不限于是：最大熵非线性深度逆强化学习模型等等。

进一步的，最大熵非线性深度逆强化学习模型需要事先训练好，将大量驾驶数据建模为关于轨迹的分布，并将关于轨迹的分布约束到熵最大之一。

驾驶数据用作训练样本对模型进行训练。驾驶数据包括：时间、速度、位置、线路、轨迹、实时环境信息等等。虽然本实施例使用了最大熵非线性深度逆强化学习模型，但是针对不同的可移动设备，驾驶数据是不同的。以无人车举例，无人车的驾驶数据包括：具***置为某时间、某个路口，车速，在该路口以何种轨迹驾驶，该路口的实时路况等等数据。而无人机的驾驶数据包括：具***置为某高空点、速度、在该高空以何种轨迹通过某遮挡物等等。

具体来说，通过IRL方法从演示数据中学习代价函数。IRL方法，指的是在给定一个策略或者一些操作演示的前提下，反向推导出MDP马尔科夫决策过程的奖励函数。IRL方法的思路，是让可移动设备从司机的专家演示行为中推导出一个可以指导可移动设备收敛到司机开车的策略的奖励函数，即通过演示策略来反推代价图。IRL确定各个任务的相对重要程度，求出一系列决策行为的指导原则——奖励函数；在奖励函数难以量化的领域，可以通过IRL学习到人类司机作决策的奖励函数。

进一步的，本实施例基于完全卷积神经网络(FCNs)的Max-Ent DIRL框架作为预设模型。利用大量驾驶数据样本，实现了从原始的驾驶数据样本到代价的端到端映射，因此预设模型输出的代价图能够客观、全面、精确反映出可移动设备在驾驶过程中执行驾驶操作需要付出的代价。

可移动设备对应的驾驶数据包括：时间、速度、位置、线路、轨迹、实时环境信息等等。

第一代价图，表示可移动设备在驾驶过程中执行驾驶操作需要付出的代价。第一代价图是以三维地图的形式显示在可移动设备上。

第一代价图包含多层图层(两层以上)，每维图层代表每个时刻的代价图。第一代价图可以从时间域和空间域上反映出可移动设备在驾驶过程中执行驾驶操作需要付出的代价。

进一步的，第一代价图中的每个像素具有代价值。该每个像素的代价值具体包含静态代价值及动态代价值。该第一代价图包含静态代价值及动态代价值。动态代价值受到静态代价值的影响。

步骤102，对所述可移动设备对应的相关场景数据进行映射，获得第二代价图。

具体来说，第二代价图也称手动代价图，由可移动设备上的各类传感器采集各种相关场景数据，而相关场景数据和代价函数之间具有映射关系，由此可以根据相关场景数据映射到代价函数，进而形成第二代价图。

在第二代价图也是从时间域和空间域上反映出可移动设备在驾驶过程中执行驾驶操作需要付出的代价。而值得注意的是，第二代价图中包括障碍物和图形边界的静态代价值，因此可移动设备在驾驶过程中执行驾驶操作需要付出的代价是由静态代价值反应的。具体的，第二代价图中描绘了各种障碍物的位置、形状，以及代价图的边界等等。例如，阶梯、斜坡、护柱、地下通道等等静态障碍物对应有各自的静态代价值，图形边界也具有代价值。

步骤103，基于所述第一代价图和所述第二代价图，确定时空代价图。

具体来说，时空代价图也是从时间域和空间域上反映出可移动设备在驾驶过程中执行驾驶操作需要付出的代价。但是和第一代价图的不同之处在于，由于其考虑了第二代价图中各种障碍物的位置、形状，以及代价图的边界等等情况，将第二代价图中的静态代价值结合到第一代价图中，因此时空代价图的代价值会更准确全面，也更加立体。

如图2所示，时空代价图包含多层图层(两层以上)，每维图层代表每个时刻的空间代价图。如果空间规划是2维的，那么时空代价图便是3维的，因为增加了时间这一维度。同理，如果空间规划是n维的，那么时空代价网络即是n+1维的。为了便于理解，以2维空间的例子进行介绍。

在图2中，某一个图层(2D栅格代价图)代表某一时刻下的时空代价图，该时空代价图包含静态代价值及动态代价值。动态代价值受到静态代价值的影响。

进一步的，静态代价值指的是所处环境信息的代价值，例如图上某个路口的隔栏、柱子、红路灯等等障碍物的代价值，主要是以静态代价值的形式表现。时空代价图中的静态代价值是综合了第一代价图中的静态代价值和第二代价图中的静态代价值得到。

动态代价值指的是在该时刻执行动态操作付出的代价值，时空代价图中的动态代价值综合了第一代价图中的静态代价值和第二代价图中的动态代价值得到。举例来说，第二代价图中的某个道路上有调头指示线，掉头指示线的静态代价值为10，那么可移动设备在调头过该道路的动态代价值可能为1，而第一代价图中同样的道路位置，在掉头指示线的位置设置有隔栏，那么此处是不允许调头的，综合第一代价图后，时空代价值中的静态代价值和动态代价值都可能为100，表示调头会发生碰撞。

在高度方向向上为时间递增，最底下一层代表当前时间t，而往上则按等时间间隔递增，第二层为t+△t，第三层为t+2△t…以此类推。

在图形中每个像素具有一个代价值，代价值的范围可任意规定，如从0到100。0表示代价最低，而100表示代价最高，100表示在该点处会发生碰撞。

步骤104，根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹。

具体来说，目标驾驶策略具体为执行目标驾驶操作的策略。预设驾驶操作数目不定。举例来说，可移动设备在单向三车道的中间车道直行，目标驾驶策略中可以包括：右换道、左换道、车道保持等等预设驾驶操作。而目标驾驶轨迹是可移动设备在驾驶过程中执行驾驶需要付出的代价值最小的规划路线。该步骤的目的就是为了从时空代价图中确定出目标驾驶策略中预设驾驶操作对应的代价值，然后确定出代价值最小的轨迹作为目标驾驶轨迹。

通过上述分析，本发明的实施例采用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图，由此能够客观准确的预测出可移动设备在驾驶过程中执行驾驶操作需要付出的代价，然后再对可移动设备的相关场景数据进行映射，获得第二代价图，而由于第二代价图是由场景数据映射得到，由此可以精确反映出各轨迹对应障碍物的静态代价，然后基于所述第一代价图和所述第二代价图，确定时空代价图，由此该时空代价图从时间域和空间域上都结合了第一代价图客观反映出的轨迹代价和第二代价图中的静态代价，由此从时空两方面都能够精确全面的反应可移动设备在驾驶过程中执行驾驶操作的代价。然后根据所述可移动设备对应的目标驾驶策略和所述时空代价图，生成所述可移动设备对应的目标驾驶轨迹。由于得到的时空代价图已经能够精确全面反映出可移动设备在驾驶过程中执行驾驶操作的代价，因而本发明能够根据时空代价图反映的代价准确的匹配出目标驾驶轨迹，有效提升目标驾驶轨迹的准确性和合理性。

在上述图1所示实施例的基础上，由于预设模型包括最大熵非线性深度逆强化学习模型。作为本实施例一种可选的实施方式，在步骤101的具体实施过程中，根据所述最大熵非线性深度逆强化学习模型对所述可移动设备的驾驶数据进行处理，获得逆强化学习代价图。其中，最大熵非线性深度逆强化学习模型已经事先训练好，故而将可移动设备的驾驶数据输入到该模型中，即可获得第一代价图，其也称为逆强化学习代价图。

上述操作利用大量驾驶数据样本，实现了从原始的驾驶数据到代价的端到端映射，因此预设模型输出的代价图能够客观、全面、精确反映出可移动设备在驾驶过程中执行驾驶操作需要付出的代价。

具体来说，可移动设备对应的驾驶数据包括：时间、速度、位置、线路、轨迹、实时环境信息等等。将这些具体的参数输入到模型中，即可获得逆强化学习代价图。

在逆强化学习代价图中具有驾驶操作的代价值。例如无人车在当前时刻，可以加速左转、减速左转、保持当前速度左转、加速右转、减速右转、保持当前速度右转、加速直行、减速直行、保持当前速度直行、停车等等操作，这些操作都具有各自的逆强化学习代价图。进一步的，逆强化学习代价图中包含静态代价值和动态代价值。静态代价值是逆强化学习代价图中的障碍物的代价值。动态代价值是每个可能操作在执行过程中未参考周边环境信息时对应的代价值。动态代价值受静态代价值影响。例如通过某个路口时，如果不参考路口中障碍物的代价值，可能以40迈速度通过该路口的代价值最低，但是考虑到环境信息的静态代价值之后，以20迈速通过该路口的代价值在代价图中更低，则控制无人车以20迈速度通过该路口。

在上述图1所示实施例的基础上，作为本实施例一种可选的实施方式，在步骤103过程中，将所述第二代价图中的边界和/或障碍物渲染到第一代价图中，获得所述时空代价图。

实施此步骤的原因在于，由于第一代价图中的驾驶数据中包含有相关环境数据，而可移动设备可能并不严格遵守相关环境数据驾驶，例如按照原本的交通法则，人行横道、左转需要减速慢行。但在训练过程中的训练数据，可能包含有加速通过人行横道或左转的驾驶数据，如此会降低相关环境数据对代价值的影响。由此，需要采用第二代价图对第一代价图进行调整，获得更为准确的时空代价图。

而在渲染的过程中，以第二代价图中的边界和/或障碍物为标准，将其渲染到第一代价图中，替换第一代价图中相应位置的边界和/或障碍物。由于第二代价图中的边界和/或障碍物都具有各自的静态代价值，将其渲染到第一代价图中，相应位置的代价值会发生变化，由此来更新第一代价图中的代价值，以保证驾驶的安全性。举例来说，在可移动设备通过某个路口时，在第二代价图中左转的代价值为40，是可以左转的。如果将第二代价图中的边界和/或障碍物渲染其中，可能左转道路在第二代价图中已经围起来在维修，此路不通。因此渲染得到的时空代价图中，左转的代价值可能更新为100，表示会发生碰撞。由此，能够保证驾驶的安全性，如果没有第二代价图的渲染，可能已经发生碰撞事故。另外，将第二代价图的边界渲染到第一代价图中，也会改变第一代价图中对应位置的代价值。进一步的，由于第一代价图有模型处理得到，因此其边界位置不明显，而第二代价图中的边界代价值非常高(表示不可碰撞)，因此，因此渲染得到的时空代价图中，驾驶到边界的代价值可能更新为100，表示驾驶会发生碰撞。由此，能够进一步规划轨迹，保证驾驶的安全性。

进一步的，由于第一代价图是从时间域和空间域上表示可移动设备驾驶执行驾驶操作付出的代价值。而第二代价图在不同的时间域上，其障碍物的位置可能会发生变化。因此在渲染的过程中，会对应时间域，将同一时刻的第二代价图渲染到同一时刻的第一代价图中，以使得到的时空代价图能够更加精确、全面的表示可移动设备驾驶付出的代价值，以保证驾驶的安全性。

参看图3，在上述图1所示实施例的基础上，作为本实施例一种可选的实施方式，上述步骤104具体包括如下步骤：

步骤301，根据所述目标驾驶策略从所述时空代价图中进行取样，获得取样样本代价图。

具体来说，根据目标驾驶策略中包含的预设驾驶操作，从时空代价图中进行取样，确定出所述预设驾驶操作对应的取样样本代价图。

进一步的，确定预设驾驶操作对应的当前时间，根据所述当前时间的预设驾驶操作，确定出预设驾驶操作对应的取样样本代价图。值得注意的是，根据目标驾驶策略取样，可能会得到大量取样样本代价图。

承接上述举例，在可移动设备在单向三车道的中间车道直行时，目标驾驶策略中可以包括：右换道、左换道、车道保持。进一步的，以右换道为例，确定当前时刻，根据当前时刻和右换道的策略，从时空代价图中确定出当前时刻右换道对应的所有取样样本代价图。左换道、车道保持等策略的车道取样样本代价图的取样操作类似，故而不再赘述。

作为一种可选的实施例，在取样的过程中，由于取样数量巨大，为了简化后续计算量和存储量。可以根据预设驾驶操作从时空代价图中截取预设操作对应的图像区域，该图像区域中包含执行预设操作的代价值，并将所述图像区域所述预设驾驶操作对应的取样样本代价图。

通过上述步骤，能够准确的从时空代价图中确定出取样样本代价图，进而为得到精确合理的目标驾驶轨迹打好基础。

步骤302，根据所述取样样本代价图生成多条轨迹。

将得到的取样样本代价图进行按照时间域和空间域组合，即可生成多条轨迹。以右换道中的取样样本代价图为例，将其相互组合，能够得到加速右换道，减速右换道，保持当前速度右换道等等驾驶轨迹。

步骤303，根据所述时空代价图从所述多条轨迹中确定出所述目标驾驶轨迹。

具体来说，由于每条轨迹都具有各自的轨迹点，因此可以按照轨迹点在时空代价图中确定出具体的代价值，进而计算每条轨迹各自的代价值。

采用上述实施方式，能够以时空代价图为基础，根据目标驾驶策略确定出精确、合理的目标驾驶轨迹，由于时空代价图能够准确、全面、客观的反映出各驾驶操作的代价值，并且先从大量时空代价图中筛选出对应的取样样本代价图，能够避免无关代价图的骚扰。另外，根据取样样本代价图生成的多条轨迹都，也能够保证都是和目标驾驶策略相关的轨迹。然后再以时空代价图中的代价值为基础确定出目标驾驶轨迹，进而能够保证确定出精确、合理、安全的目标驾驶轨迹。

参看图4，在上述图3所示实施例的基础上，作为本实施例一种可选的实施方式，由于每条轨迹都具有各自的轨迹点，因此可以按照轨迹点在时空代价图中确定出具体的代价值，进而计算每条轨迹各自的代价值。下面介绍步骤303具体的具体实施过程：

步骤401，确定所述多条轨迹各自的轨迹点。

具体来说，每个轨迹都包含了各自的轨迹点，每个轨迹点具有两个维度:位置、时间。每个轨迹点的具***置可以通过X.Y.Z三维坐标来表示。

步骤402，根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹各自的代价值。

具体来说，代价值用于表征可移动设备执行驾驶操作的代价。通常以得分、百分比等等形式来表示。而由于每条轨迹都包含一个或者多个轨迹点，而各轨迹点对应有各自的代价值。因此在具体的实施过程中，根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹中每个轨迹点的代价值；将所述多条轨迹中每条轨迹对应的每个轨迹点的代价值相加，获得所述多条轨迹中每条轨迹各自的代价值。由于每条轨迹拆分为一个或者多个轨迹点，然后确定各轨迹点的代价值，并进一步求得对应轨迹的代价值，因而能够保证轨迹代价值的精准性。

进一步的，针对每个轨迹点来说，每个轨迹点具有各自的时间、位置等等参数，因此可以按照轨迹点的时间、位置从时空代价图中确定出该轨迹点的代价值。进一步的，可以先按照轨迹点的时间确定出对应的时空代价图。然后再根据轨迹点的位置从时空代价图中对应位置的代价值。当然，先根据位置确定出一个或者多个时空代价图对应位置的代价值，再根据时间确定出具体的时空代价图对应位置的代价值也可。

作为一种可选的实施例，由于轨迹是由取样样本代价图组合得到的，因此可以各轨迹点对应有各自的取样样本代价图。故而也可以根据各轨迹点的时间、位置在取样样本代价图中确定出该轨迹点的代价值。

而针对每条轨迹来说，由于每条轨迹包含多个轨迹点。故而，在每条轨迹中，得到每个轨迹点的代价值之后。将该条轨迹点的所有轨迹点的代价值相加，即可获得该条轨迹的代价值。而在相加的过程中，可以直接将所有轨迹点的代价值相加，即可获得该条轨迹的代价值，或者，设置每个轨迹点的权重，然后将每个轨迹点的权重和代价值相乘，得到每个轨迹点的权重代价权重总值，再将所有轨迹点的代价权重总值相加，即可获得该条轨迹的代价值。具体的，预设驾驶操作从开始操作到结束操作具有一时间段，在该时间段内对应的每条轨迹，都由每个时刻的轨迹点构成。和开始操作越接近的轨迹点，其代价值对预设驾驶操作影响越大，故而其对应权重越高，那么将权重值考虑其中计算得到的代价值更为精准。

步骤403，根据所述多条轨迹各自的代价值，确定出所述目标驾驶轨迹。

具体来说，在确定目标驾驶轨迹的方式有多种。

作为一种可选的实施例，将所述多条轨迹各自的代价值进行排序；在排序的过程中，将代价值低由低到高进行排序。故而，代价值越低，其排序越靠前，表示执行预设驾驶操作的代价越低。代价值越高，其排序越靠后，表示执行预设驾驶操作的代价越高。将排序靠前的预设个数的轨迹作为所述目标驾驶轨迹。预设个数为一个或者多个。如此排序能够直观的看出各条轨迹的代价值，进而减少确定目标驾驶轨迹的误操作，能够提高确定目标驾驶轨迹的准确度。

作为一种可选的实施例，设置预设代价阈值，将多条轨迹各自的代价值和预设代价阈值进行对比；将代价值低于预设代价阈值的轨迹确定为目标驾驶轨迹。

通过上述方式可以将各条轨迹拆分为轨迹点，能够细化到由轨迹点的代价值求得各条轨迹的代价值，进而能够保证轨迹代价值的精准性。在代价值精准的基础上，基于各条轨迹的代价值就能够确定精确、合理的目标驾驶轨迹，避免出现错误的轨迹，也避免各种事故发生，能够进一步保证驾驶的安全性。

示例性装置

图5图示了根据本申请实施例的轨迹规划装置500的框图。

如图5所示，本申请实施例的视频中轨迹规划装置500包括：处理模块501，用于调用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；获得模块502，用于对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；第一确定模块503，用于基于所述第一代价图和所述第二代价图，确定时空代价图；第二确定模块504，用于根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹。

在一个示例中，所述预设模型包括：最大熵非线性深度逆强化学习模型；所述处理模块501，具体用于根据所述最大熵非线性深度逆强化学习模型对所述可移动设备的驾驶数据进行处理，获得逆强化学习代价图。

在一个示例中，第一确定模块503，具体用于将所述第二代价图中的边界和/或障碍物渲染到第一代价图中，获得所述时空代价图。

图6图示了根据本申请实施例的第二确定模块504的一个示例框图。如图6所示，在一个示例中，第二确定模块504包括：取样模块601，用于根据所述目标驾驶策略从所述时空代价图中进行取样，获得取样样本代价图；生成模块602，用于根据所述取样样本代价图生成多条轨迹；第三确定模块603，用于根据所述时空代价图从所述多条轨迹中确定出所述目标驾驶轨迹。

图7图示了根据本申请实施例的第三确定模块603的一个示例框图。如图7所示，在一个示例中，第三确定模块603包括：第四确定模块701，用于确定所述多条轨迹各自的轨迹点；第五确定模块702，用于根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹各自的代价值；第六确定模块703，用于根据所述多条轨迹各自的代价值，确定出所述目标驾驶轨迹。

在一个示例中，第五确定模块702，包括：生成模块，包括：第七确定模块，用于根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹中每个轨迹点的代价值；相加模块，用于将所述多条轨迹中每条轨迹对应的每个轨迹点的代价值相加，获得所述多条轨迹中每条轨迹各自的代价值。

在一个示例中，第六确定模块703，包括：排序模块，用于将所述多条轨迹各自的代价值进行排序。第五确定模块，用于将排序靠前的预设个数的轨迹作为所述目标驾驶轨迹。

在一个示例中，第六确定模块703，包括：对比模块，用于将多条轨迹各自的代价值和预设代价阈值进行对比；第六确定模块，用于将代价值低于预设代价阈值的轨迹确定为目标驾驶轨迹。

示例性可移动设备设备

图8图示了根据本申请实施例的可移动设备的框图。

如图8所示，可移动设备(电子设备10)包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制可移动设备中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的目标物的姿态跟踪方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，可移动设备还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该可移动设备是第一设备或第二设备时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该可移动设备中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，可移动设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的轨迹规划方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的目标物的姿态跟踪方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种轨迹规划方法，所述方法包括：

根据预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；

对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；

基于所述第一代价图和所述第二代价图，确定时空代价图；

根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹；

其中，所述第一代价图包含多层图层，每维图层代表每个时刻的代价图；

其中，所述第一代价图用来客观准确的预测出通过各轨迹需要付出的代价；

所述第二代价图用来精确反映出各轨迹对应障碍物的静态代价；

所述时空代价图是从时空两方面都能够精确全面的反应各轨迹的代价。

2.如权利要求1所述的方法，其中，所述预设模型包括：最大熵非线性深度逆强化学习模型；

所述根据预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图，包括：

根据所述最大熵非线性深度逆强化学习模型对所述可移动设备的驾驶数据进行处理，获得逆强化学习代价图。

3.如权利要求1所述的方法，其中，所述基于所述第一代价图和所述第二代价图，确定时空代价图，包括：

将所述第二代价图中的边界和/或障碍物渲染到第一代价图中，获得所述时空代价图。

4.如权利要求1所述的方法，其中，所述根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹，包括：

根据所述目标驾驶策略从所述时空代价图中进行取样，获得取样样本代价图；

根据所述取样样本代价图生成多条轨迹；

根据所述时空代价图从所述多条轨迹中确定出所述目标驾驶轨迹。

5.如权利要求4所述的方法，其中，所述根据所述时空代价图从所述多条轨迹中确定出所述目标驾驶轨迹，包括：

确定所述多条轨迹各自的轨迹点；

根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹各自的代价值；

根据所述多条轨迹各自的代价值，确定出所述目标驾驶轨迹。

6.如权利要求5所述的方法，其中，所述根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹各自的代价值，包括：

根据所述多条轨迹各自的轨迹点从所述时空代价图中确定出所述多条轨迹中每个轨迹点的代价值；

将所述多条轨迹中每条轨迹对应的每个轨迹点的代价值相加，获得所述多条轨迹中每条轨迹各自的代价值。

7.如权利要求5所述的方法，其中，所述根据所述多条轨迹各自的代价值，确定出所述目标驾驶轨迹，包括：

将所述多条轨迹各自的代价值进行排序；

将排序靠前的预设个数的轨迹作为所述目标驾驶轨迹。

8.一种轨迹规划装置，包括：

处理模块，用于调用预设模型对可移动设备对应的驾驶数据进行处理，获得第一代价图；

获得模块，用于对所述可移动设备对应的相关场景数据进行映射，获得第二代价图；

第一确定模块，用于基于所述第一代价图和所述第二代价图，确定时空代价图；

第二确定模块，用于根据所述可移动设备对应的目标驾驶策略和所述时空代价图，确定所述可移动设备对应的目标驾驶轨迹；

所述第一代价图包含多层图层，每维图层代表每个时刻的代价图；

9.一种可移动设备，包括：

处理器；以及存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7中任一所述的方法。