CN117657121A

CN117657121A - 车辆的自动泊车方法、装置、车辆及存储介质

Info

Publication number: CN117657121A
Application number: CN202311693997.9A
Authority: CN
Inventors: 黄秋生
Original assignee: Chery Intelligent Automotive Technology Hefei Co ltd
Current assignee: Chery Intelligent Automotive Technology Hefei Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-08

Abstract

本申请涉及一种车辆的自动泊车方法、装置、车辆及存储介质，其中，方法包括：获取自动驾驶汽车完成一次泊车训练过程的回报值；根据自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围；根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识，生成先验知识对应的转角策略范围，控制自动驾驶汽车按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。由此，解决了相关技术动作空间少且是离散的，易导致泊车过程中的方向盘转角控制不平顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢等问题。

Description

车辆的自动泊车方法、装置、车辆及存储介质

技术领域

本申请涉及自动泊车技术领域，特别涉及一种车辆的自动泊车方法、装置、车辆及存储介质。

背景技术

深度强化学习根据算法不同可以分为基于价值的(Value-Based)和执行者、评价者双网络的(Actor-Critic)。Q-learning(Q)、Deep Q-Network(DQN)属于基于价值的算法，这种算法注重在智能体(agent)采取某个动作(action)后立马从环境中获得较高的回报(reward)。然后大部分的深度强化学习需要解决的是一个持续时间内范围连续动作的最优化问题，当前动作有可能不能导致很好的最终结果，这是局部最优和全局最优的矛盾所在。

相关技术中，Soft Actor-Critic(SAC)、Deep Deterministic Policy Gradient(DDPG)、Twin-Delayed Deep Deterministic(TD3)等算法构建了执行者、评价者双网络，其中执行者网络(Actor-Network)在智能体的训练过程中获得更新，其更新策略是在某个环境观测值(observation)下采用什么样的动作(action)是更优的；评价者网络基于定义好的reward函数下，估算当前观测值(observation)采取某个动作可能会获得的reward，用来指导action的更新，双网络下的深度强化学习，可以利用长期的动作奖励来更新当前的动作策略。

然而，相关技术训练动作空间少且是离散的，易导致泊车过程中的方向盘转角控制不平顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且基于Q-learning的深度强化学习，训练速度慢，性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢，亟待改善。

发明内容

本申请提供一种车辆的自动泊车方法、装置、车辆及存储介质，以解决相关技术训练动作空间少且是离散的，易导致泊车过程中的方向盘转角控制不平顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢等问题。

本申请第一方面实施例提供一种车辆的自动泊车方法，包括以下步骤：获取自动驾驶汽车完成一次泊车训练过程的回报值；根据所述自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围；以及根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，生成所述先验知识对应的转角策略范围，控制所述自动驾驶汽车按照所述转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

可选地，在本申请的一个实施例中，所述确定先验知识的生效范围，包括：识别深度强化学习训练的实际阶段，以根据所述实际阶段确定先验知识的生效范围。

可选地，在本申请的一个实施例中，在按照所述转角策略范围在后轴中心处根据所述右转极限点和左转极限点之间的转角策略进行自动泊车之前，还包括：若所述实际阶段为预设早期阶段或者预设晚期阶段，则根据所述实际阶段对应的前轮转角行驶的范围得到所述转角策略。

可选地，在本申请的一个实施例中，所述根据所述自动驾驶汽车与目标泊车位的距离，确定先验知识的生效范围，包括：在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为所述生效范围；在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为所述生效范围，其中，所述第一预设范围小于所述第二预设范围。

可选地，在本申请的一个实施例中，所述根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，包括：在所述深度强化学习训练处于所述早期训练阶段时，基于第一预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；在所述深度强化学习训练处于中期训练阶段时，基于第二预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；在所述深度强化学习训练处于所述晚期训练阶段时，基于第三预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识。

可选地，在本申请的一个实施例中，所述右转极限角的计算公式为：

δ_right＝θ-γ，

其中，θ为所述自动驾驶汽车当前的航向与水平方向的夹角，γ为所述自动驾驶汽车的第一行驶路径在所述自动驾驶汽车后轴中心处的切线与水平方向的夹角。

本申请第二方面实施例提供一种车辆的自动泊车装置，包括：获取模块，用于获取自动驾驶汽车完成一次泊车训练过程的回报值；确定模块，用于根据所述自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围；以及控制模块，用于根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，生成所述先验知识对应的转角策略范围，控制所述自动驾驶汽车按照所述转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

可选地，在本申请的一个实施例中，所述确定模块包括：识别单元，用于识别深度强化学习训练的实际阶段，以根据所述实际阶段确定先验知识的生效范围。

可选地，在本申请的一个实施例中，还包括：生成模块，用于在按照所述转角策略范围在后轴中心处根据所述右转极限点和左转极限点之间的转角策略进行自动泊车之前，在所述实际阶段为预设早期阶段或者预设晚期阶段时，根据所述实际阶段对应的前轮转角行驶的范围得到所述转角策略。

可选地，在本申请的一个实施例中，所述确定模块包括：第一确定单元，用于在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为所述生效范围；第二确定单元，用于在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为所述生效范围，其中，所述第一预设范围小于所述第二预设范围。

可选地，在本申请的一个实施例中，所述控制模块包括：第一遵循单元，用于在所述深度强化学习训练处于所述早期训练阶段时，基于第一预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；第二遵循单元，用于在所述深度强化学习训练处于中期训练阶段时，基于第二预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；第三遵循单元，用于在所述深度强化学习训练处于所述晚期训练阶段时，基于第三预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识。

δ_right＝θ-γ，

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的车辆的自动泊车方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的车辆的自动泊车方法。

本申请实施例可以根据深度学***顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种车辆的自动泊车方法的流程图；

图2为根据本申请一个实施例的车辆的自动泊车方法的原理示意图；

图3为根据本申请另一个实施例的车辆的自动泊车方法的原理示意图；

图4为根据本申请实施例提供的一种车辆的自动泊车装置的结构示意图；

图5为根据本申请实施例提供的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的车辆的自动泊车方法、装置、车辆及存储介质。针对上述背景技术中提到的相关技术动作空间少且是离散的，易导致泊车过程中的方向盘转角控制不平顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学***顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢等问题。

具体而言，图1为本申请实施例所提供的一种车辆的自动泊车方法的流程示意图。

如图1所示，该车辆的自动泊车方法包括以下步骤：

在步骤S101中，获取自动驾驶汽车完成一次泊车训练过程的回报值。

可以理解的是，本申请实施例中的自动驾驶汽车可以为智能体；本申请实施例中的回报值用以在泊车训练过程中，确定目前处于训练的早期、中期或晚期阶段。

在实际执行过程中，本申请实施例可以获取自动驾驶汽车完成一次泊车训练过程的回报值，根据回报值大小可以判断当前深度强化学习处于什么阶段，例如，根据回报值大小可以当前深度强化学习目前处于训练的早期、中期或晚期阶段。

本申请实施例可以获取自动驾驶汽车完成一次泊车训练过程的回报值，从而为后续在自动驾驶汽车采用不同的概率触发先验知识的生效提供依据，保证既不影响自动驾驶汽车对未知动作的探索，又加快了自动驾驶汽车策略训练的收敛速度。

在步骤S102中，根据自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围。

可以理解的是，本申请实施例中的自动驾驶汽车可以在生效范围内使先验知识生效。

在实际执行过程中，本申请实施例可以根据自动驾驶汽车与目标泊车位的距离，确定先验知识的生效范围，例如，在自动驾驶汽车与目标泊车位距离4m时，确定智能驾驶汽车行驶至目标泊车位4m的范围为先验知识的生效范围。

本申请实施例可以根据自动驾驶汽车与目标泊车位的距离，确定先验知识的生效范围，在自动泊车深度强化学习的算法中加入先验知识，从而指导深度强化学习过程，在保证后续学习到的策略的泛化性的同时提高了训练的速度。

可选地，在本申请的一个实施例中，确定先验知识的生效范围，包括：识别深度强化学习训练的实际阶段，以根据实际阶段确定先验知识的生效范围。

可以理解的是，本申请实施例中深度强化学习训练的实际阶段可以包括早期阶段、中期阶段和晚期阶段。

作为一种可能实现的方式，本申请实施例可以识别深度强化学习训练的实际阶段，以根据实际阶段确定先验知识的生效范围，例如，本申请实施例在识别到深度强化学习训练的实际阶段为早期阶段时，确定智能驾驶汽车行驶至目标泊车位4m的范围为先验知识的生效范围；又例如，本申请实施例在识别到深度强化学习训练的实际阶段为晚期阶段时，确定智能驾驶汽车行驶至目标泊车位3m的范围为先验知识的生效范围。

本申请实施例可以有针对性地根据深度强化学习训练的实际阶段确定先验知识的生效范围，从而保证自动驾驶汽车在先验知识的生效范围内完成自动泊车，进而提高了自动驾驶汽车策略训练的收敛速度。

可选地，在本申请的一个实施例中，根据自动驾驶汽车与目标泊车位的距离，确定先验知识的生效范围，包括：在自动驾驶汽车和目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为生效范围；在自动驾驶汽车和目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为生效范围，其中，第一预设范围小于第二预设范围。

可以理解的是，本申请实施例中的第一预设区间可以为[0，4]，第二预设区间可以为(4，6)，第一预设范围可以为智能驾驶汽车行驶至目标泊车位4m的范围，第二预设范围可以为智能驾驶汽车行驶至目标泊车位大于4m小于6m的范围。

在实际执行过程中，本申请实施例可以在自动驾驶汽车和目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为生效范围，使先验知识生效，从而使得自动驾驶汽车可以在生效范围内行驶，缩小自动驾驶汽车的探索范围，让自动驾驶汽车快速地学习到正确的策略，本申请实施例在自动驾驶汽车和目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为生效范围，从而使得自动驾驶汽车可以探索各种转角策略，进而通过不断地试错尝试出最优的转角策略，其中，第一预设范围小于第二预设范围。

举例而言，如图2所示，本申请实施例可以在自动驾驶汽车和目标泊车位之间的实际距离处于第一预设距离区间[0，4]时，将智能驾驶汽车行驶至目标泊车位4m的范围作为生效范围，使先验知识生效，本申请实施例在自动驾驶汽车和目标泊车位之间的实际距离处于第二预设距离区间(4，6)时，将智能驾驶汽车行驶至目标泊车位大于4m小于6m的范围作为生效范围，从而使得自动驾驶汽车可以探索各种转角策略，进而通过不断地试错尝试出最优的转角策略。

本申请实施例可以在自动驾驶汽车和目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为生效范围，在自动驾驶汽车和目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为生效范围，从而根据自动驾驶汽车和目标泊车位之间的距离，有针对性地得到最优的转角策略，不影响自动驾驶汽车对未知动作的探索。

需要说明的是，第一预设距离区间、第二预设距离区间、第一预设范围和第二预设范围可以由本领域技术人员根据实际情况进行设置，在此不作具体限制。

在步骤S103中，根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识，生成先验知识对应的转角策略范围，控制自动驾驶汽车按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

可以理解的是，本申请实施例为了保证自动驾驶汽车学习到的泊车策略的泛化性，可以根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识。

在实际执行过程中，本申请实施例可以根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识，在先验知识生效时，本申请限定了自动驾驶汽车应该采取的转角策略范围，如图2和图3所示，以O为圆点，以水平方向为X轴，以竖直方向为Y轴，生成先验知识对应的转角策略范围，控制自动驾驶汽车按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

本申请实施例可以首先计算VP直线和PO直线的夹角，由于V、P、O的坐标均为已知，故角VPO可以计算得出，设为α，由正弦定理“在任意一个平面三角形中，各边和它所对角的正弦值的比相等且等于外接圆的直径”，得到：

其中，|VO|为直线VO的长度，R为点V、P、O外接圆的半径。

在泊车场景下，由于行驶车速低，自动驾驶汽车可以简化为2轮自行车模型，其中δ为前轮转角，L为轴距，R为转弯半径。根据车辆运动学理论，得到：

本申请实施例可以遵循生效的先验知识，生成先验知识对应的转角策略范围，控制自动驾驶汽车按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车，从而基于深度学习强化算法，采用执行者网络、评价者网络双网络训练方法，可以规避陷入局部最优解的问题，在训练过程中增加路径规划的先验知识，以提升自动驾驶汽车学习最优策略的速度。

可选地，在本申请的一个实施例中，在按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车之前，还包括：若实际阶段为预设早期阶段或者预设晚期阶段，则根据实际阶段对应的前轮转角行驶的范围得到转角策略。

举例而言，本申请实施例在深度强化学习训练的实际阶段为预设早期阶段时，根据深度强化学习的原则，可以增加自动驾驶汽车探索新action(action为自动驾驶汽车采用什么样的前轮转角行驶)的范围，使自动驾驶汽车每次泊车训练来到相同位置时，可以尝试采取不同的转角策略行驶，有利于学习到正确的策略；又例如，本申请实施例可以在深度强化学习训练的实际阶段为晚期阶段时，由于自动驾驶汽车已经学习到较为正确的策略，应减少自动驾驶汽车尝试新的action的概率，在自动驾驶汽车在一次泊车训练中来到相同的位置时，采取之前已经验证过的正确的转角策略行驶。

本申请实施例可以在实际阶段为预设早期阶段或者预设晚期阶段时，根据实际阶段对应的前轮转角行驶的范围得到转角策略，进一步提高了训练的速度。

需要说明的是，预设早期阶段和预设晚期阶段可以由本领域技术人员根据实际情况进行设置，在此不作具体限制。

可选地，在本申请的一个实施例中，根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识，包括：在深度强化学习训练处于早期训练阶段时，基于第一预设概率，在生效范围内的先验知识生效时，遵循先验知识；在深度强化学习训练处于中期训练阶段时，基于第二预设概率，在生效范围内的先验知识生效时，遵循先验知识；在深度强化学习训练处于晚期训练阶段时，基于第三预设概率，在生效范围内的先验知识生效时，遵循先验知识。

可以理解的是，本申请实施例中的第一预设概率可以为ρ∈(0,0.5)的概率，第二预设概率可以为(ρ+1)/2的概率，第三预设概率可以为100％的概率。

在实际执行过程中，本申请实施例可以在深度强化学习训练处于早期训练阶段时，使自动驾驶汽车按照ρ∈(0,0.5)的概率，在生效范围内的先验知识生效时，遵循先验知识，本申请实施例在深度强化学习训练处于中期训练阶段时，使自动驾驶汽车按照(ρ+1)/2的概率，在生效范围内的先验知识生效时，遵循先验知识；在深度强化学习训练处于晚期训练阶段时，使自动驾驶汽车按照100％的概率，在生效范围内的先验知识生效时，遵循先验知识，从而保证了自动驾驶汽车学习到的泊车策略的泛化性。

本申请实施例可以根据不同的概率，在生效范围内的先验知识生效时，遵循先验知识，从而采用双网络的深度强化学习算法，并加入了先验知识指导深度强化学习过程，在保证学习到的策略的泛化性的同时提高了训练的速度。

需要说明的是，第一预设概率、第二预设概率和第三预设概率可以由本领域技术人员根据实际情况进行设置，在此不作具体限制。

可选地，在本申请的一个实施例中，右转极限角的计算公式为：

δ_right＝θ-γ，

其中，θ为自动驾驶汽车当前的航向与水平方向的夹角，γ为自动驾驶汽车的第一行驶路径在自动驾驶汽车后轴中心处的切线与水平方向的夹角。

在实际执行过程中，如图2所示，本申请实施例可以在自动驾驶汽车处于V点处时，通过自动驾驶汽车的传感器获得V点坐标，VO与X轴正方向的夹角，记为ω，ω∈[0,2π]，本申请实施例可以根据自动驾驶汽车的传感器获得VH与X轴正方向的夹角，记为θ，θ∈[0,2π]代表自动驾驶汽车当前的航向；

进一步地，本申请实施例可以计算圆弧VPO对应的圆心角为：

其中，R为圆弧VPO的半径，由正弦定理计算得出，

本申请实施例可以计算圆弧VPO在V点处的切线与X轴正方向的夹角：

限定自动驾驶汽车在V点的右转极限角：

δ_right＝θ-γ，

同理，根据圆弧VQO，可以计算自动驾驶汽车左转极限角δ_left。

本申请实施例可以通过公式，提高右转极限角和左转极限角的计算精准度，从而在训练过程中增加路径规划的先验知识，以提升自动驾驶汽车学习最优策略的速度。

具体地，可以结合图2所示，以一个具体实施例对本申请实施例中的车辆的自动泊车方法的工作原理进行详细阐述。

本申请实施例可以对智能体进行建模，在自动泊车场景下，智能体是自动驾驶汽车，由于泊车环境下车速较低，本申请实施例可以忽略轮胎侧偏角对车辆运动的影响，自动驾驶汽车可以建模为双轮自行车模型，即前轮为转向轮，后轮为非转向轮。根据车辆运动学，有其中δ为前轮转角，L为轴距，R为转弯半径。本申请实施例中的自动驾驶汽车在深度强化学习训练过程中，前轮转角和转弯半径会遵循这个公式，因此自动驾驶汽车在自动泊车策略的学习过程中，实际上是基于自动驾驶汽车当前所在位置，向目标泊车位行驶的路径规划问题，但为了防止训练的过拟合，应给予自动驾驶汽车足够的探索空间，尝试从不同的路径行驶到目标泊车位，而对于没有经验的自动驾驶汽车，只能通过不断地试错获得较好的策略，因此本申请实施例可以对自动驾驶汽车的动作探索增加先验知识。

如图2所示，从BEV(Birds-Eyes-View，鸟瞰视图)视角观察自动泊车过程，O为目标泊车位，假设自动驾驶汽车是采用车头泊入的方式进行泊车，则最终的泊车目标是使自动驾驶汽车的后轴中心和O点重合，V代表自动驾驶汽车当前时刻的后轴中心，VH代表自动驾驶汽车当前的航向，VL和VR分别代表自动驾驶汽车在当前位置能向左和向右的极限转角，矩形T代表目标泊车位，矩形T1、T2代表目标泊车位相邻的泊车位上已经泊入的车辆。为保证自动驾驶汽车与相邻车位已泊入车辆不发生碰撞，本申请实施例可以设置自动驾驶汽车行驶路径的限位点P、Q，可以理解为如果自动驾驶汽车在点P和矩形T1之间的区域行驶进入目标泊车位T，则会发生碰撞，这是因为自动驾驶汽车不能作为一个质点，作为自动驾驶的车辆，有长宽尺寸，Q点的设定道理相同。

本申请实施例中，由V、P、O三点确定一个圆弧，由V、Q、O三点确定另一个圆弧，因为P、Q为限位点，所以处在V点处的自动驾驶汽车，必须要在圆弧VPO和圆弧VQO连接的区域内行驶才可以正确地进入到目标泊车位，并使后轴中心和O点重合，且保证泊入后自动驾驶汽车的航向角和泊车位是水平的(即不压线)。观察圆弧VPO和圆弧VQO，以及VL、VR的关系，得知自动驾驶汽车在V点所能采取的所有action中，那些转角超出了圆弧VPO和圆弧VQO所围区域范围的，是无效的action，尤其在自动驾驶汽车距离目标泊车位很近的情形下。

根据本申请实施例提出的车辆的自动泊车方法，可以根据深度学***顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢的问题。

其次参照附图描述根据本申请实施例提出的车辆的自动泊车装置。

图4是本申请实施例的车辆的自动泊车装置的结构示意图。

如图4所示，该车辆的自动泊车装置10包括：获取模块100、确定模块200和控制模块300。

具体地，获取模块100，用于获取自动驾驶汽车完成一次泊车训练过程的回报值。

确定模块200，用于根据自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围。

控制模块300，用于根据不同概率在生效范围内的先验知识生效时，遵循生效的先验知识，生成先验知识对应的转角策略范围，控制自动驾驶汽车按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

可选地，在本申请的一个实施例中，确定模块200包括：识别单元。

其中，识别单元，用于识别深度强化学习训练的实际阶段，以根据实际阶段确定先验知识的生效范围。

可选地，在本申请的一个实施例中，车辆的自动泊车装置10还包括：生成模块。

其中，生成模块，用于在按照转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车之前，在实际阶段为预设早期阶段或者预设晚期阶段时，根据实际阶段对应的前轮转角行驶的范围得到转角策略。

可选地，在本申请的一个实施例中，确定模块200还包括：第一确定单元和第二确定单元。

其中，第一确定单元，用于在自动驾驶汽车和目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为生效范围。

第二确定单元，用于在自动驾驶汽车和目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为生效范围，其中，第一预设范围小于第二预设范围。

可选地，在本申请的一个实施例中，控制模块300包括：第一遵循单元、第二遵循单元和第三遵循单元。

其中，第一遵循单元，用于在深度强化学习训练处于早期训练阶段时，基于第一预设概率，在生效范围内的先验知识生效时，遵循先验知识。

第二遵循单元，用于在深度强化学习训练处于中期训练阶段时，基于第二预设概率，在生效范围内的先验知识生效时，遵循先验知识。

第三遵循单元，用于在深度强化学习训练处于晚期训练阶段时，基于第三预设概率，在生效范围内的先验知识生效时，遵循先验知识。

δ_right＝θ-γ，

需要说明的是，前述对车辆的自动泊车方法实施例的解释说明也适用于该实施例的车辆的自动泊车装置，此处不再赘述。

根据本申请实施例提出的车辆的自动泊车装置，可以根据深度学***顺，未在训练过程中增加先验知识，影响了训练的收敛速度，且相关技术中的深度强化学习性能效果低，容易陷入局部最优解，易面临搜索范围广，训练速度慢的问题。

图5为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的车辆的自动泊车方法。

进一步地，车辆还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的车辆的自动泊车方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车辆的自动泊车方法，其特征在于，包括以下步骤：

获取自动驾驶汽车完成一次泊车训练过程的回报值；

根据所述自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围；以及

根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，生成所述先验知识对应的转角策略范围，控制所述自动驾驶汽车按照所述转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

2.根据权利要求1所述的方法，其特征在于，所述确定先验知识的生效范围，包括：

识别深度强化学习训练的实际阶段，以根据所述实际阶段确定先验知识的生效范围。

3.根据权利要求2所述的方法，其特征在于，在按照所述转角策略范围在后轴中心处根据所述右转极限点和左转极限点之间的转角策略进行自动泊车之前，还包括：

若所述实际阶段为预设早期阶段或者预设晚期阶段，则根据所述实际阶段对应的前轮转角行驶的范围得到所述转角策略。

4.根据权利要求1所述的方法，其特征在于，所述根据所述自动驾驶汽车与目标泊车位的距离，确定先验知识的生效范围，包括：

在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第一预设距离区间时，将第一预设范围作为所述生效范围；

在所述自动驾驶汽车和所述目标泊车位之间的实际距离处于第二预设距离区间时，将第二预设范围作为所述生效范围，其中，所述第一预设范围小于所述第二预设范围。

5.根据权利要求3所述的方法，其特征在于，所述根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，包括：

在所述深度强化学习训练处于所述早期训练阶段时，基于第一预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；

在所述深度强化学习训练处于中期训练阶段时，基于第二预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识；

在所述深度强化学习训练处于所述晚期训练阶段时，基于第三预设概率，在所述生效范围内的所述先验知识生效时，遵循所述先验知识。

6.根据权利要求1所述的方法，其特征在于，所述右转极限角的计算公式为：

δ_right＝θ-γ，

7.一种车辆的自动泊车装置，其特征在于，包括：

获取模块，用于获取自动驾驶汽车完成一次泊车训练过程的回报值；

确定模块，用于根据所述自动驾驶汽车与目标泊车位的距离，以确定先验知识的生效范围；以及

控制模块，用于根据不同概率在所述生效范围内的所述先验知识生效时，遵循生效的先验知识，生成所述先验知识对应的转角策略范围，控制所述自动驾驶汽车按照所述转角策略范围在后轴中心处根据右转极限点和左转极限点之间的转角策略进行自动泊车。

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

识别单元，用于识别深度强化学习训练的实际阶段，以根据所述实际阶段确定先验知识的生效范围。

9.一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6任一项所述的车辆的自动泊车方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-6任一项所述的车辆的自动泊车方法。