CN108407805A

CN108407805A - 一种基于dqn的车辆自动泊车方法

Info

Publication number: CN108407805A
Application number: CN201810277016.5A
Authority: CN
Inventors: 余伶俐; 严孝鑫; 周开军; 邵玄雅; 孔德成; 况宗旭; 魏亚东; 金鸣岳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-08-17
Anticipated expiration: 2038-03-30
Also published as: CN108407805B

Abstract

本发明公开了一种基于DQN的车辆自动泊车方法，包括以下步骤：步骤一，获取当前时刻的车辆位置、障碍物信息及泊车位信息，并将车辆停到相对合理的泊车起始位置；步骤二，根据当前时刻的车辆位置、障碍物信息及泊车位信息，使用训练好的DQN计算期望车辆前轮摆角；步骤三，按照根据期望车辆前轮摆角，控制车辆前轮转动并移动车辆；步骤四，更新当前时刻车辆位置，判断是否进入泊车位，如果到达泊车位则泊车结束，否则更新障碍物信息，返回步骤二重新计算车辆前轮摆角。该方法采用DQN计算期望车辆前轮摆角，能够自主学习相关参数，大大减少了泊车***参数调试的工作；使***有较好的容错能力和鲁棒性，极大提高了车辆一次性泊车的成功率。

Description

一种基于DQN的车辆自动泊车方法

技术领域

本发明属于智能驾驶及其控制技术领域，特别设计一种基于DQN的车辆自动泊车方法。

背景技术

随着经济的发展，人民的生活水平在逐年上升，汽车也逐渐走进更多人的生活，但是在停车的时候一些司机特别是新手司机及公交车等大型车辆的司机，因为视野受限及熟练度不够，使其在停车过程中存在较大的难度，虽然当下的倒车雷达及倒车影像都很普及，但是最终操作的还是驾驶员，其只能观察某一个区域，存在较大的局限性。目前车辆定位技术及传感器***已经非常成熟，使得自动泊车技术能够走出实验室，成为一种高级的辅助驾驶的重要组成。但是现有的自动泊车效率不高，不能实现真正的自动泊车，还需要驾驶员在泊车过程中介入才能完成。在此基础之上，本发明提出了一种基于DQN的车辆自动泊车方法，该方法能够自主学习泊车过程，能够大大减轻司机的泊车压力，同时能够针对不同的车辆进行自主学习，有较好的适应性。

发明内容

本发明的目的在于，为了解决现有的自动泊车效率不高、精度差、需要人在中间介入的问题，提出一种基于DQN的车辆自动泊车方法，能够更好更快的完成泊车过程，减轻司机的泊车负担，提高泊车的效率。

本发明所提供的技术方案为

一种基于DQN(Deep Q-Network，深度Q网络)的车辆自动泊车方法，包括以下步骤：

步骤一，通过GPS及毫米波等传感器获取障碍物信息(坐标和宽度)及泊车位信息，建立泊车坐标系，判断泊车类型是垂直泊车还是平行泊车，并将车辆停到相对合理的泊车起始位置；

步骤二，获取当前时刻的车辆位置信息(坐标和航向角)；根据当前时刻的车辆位置信息、障碍物信息及泊车位信息，使用训练过后的DQN计算期望车辆前轮摆角；

步骤三，按照根据期望车辆前轮摆角，控制车辆前轮转动并移动车辆；

步骤四，更新当前时刻的车辆位置信息，判断是否进入泊车位，如果进入泊车位则泊车结束，否则更新障碍物信息，返回步骤二重新计算车辆前轮摆角。

进一步地，所述步骤一中，判断泊车类型的方法为：如果泊车位与泊车起始位置垂直，则为垂直泊车，如果泊车位与泊车起始位置平行，则为平行泊车；

确定相对合理的泊车起始位置的方法为：

首先，确定相对合理的泊车最终位置：相对合理的泊车最终位置位于泊车位内，并与泊车位四周指示线的距离均不小于0.05m(相对合理的泊车最终位置与理想泊车最终位置是有一定误差)；然后，在相对合理的泊车最终位置内确定理想泊车最终位置；再按以下方法确定与理想泊车最终位置对应的理想泊车起始位置：在垂直泊车中，车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的纵向距离为车辆的最小转弯半径R_min(最小转弯半径R_min通过查询车辆自身参数获得)，横向距离为车辆最小转弯半径R_min与车辆轴长R_min的和，车头朝向与车位中轴线垂直；平行泊车中，车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的横向距离为纵向距离为车头朝向与车位中轴线平行；最后，确定与理想泊车起始位置横向及纵向误差不大于1.5m，航向误差不大于10°的位置为相对合理的泊车起始位置。

进一步地，所述步骤四中，如果车辆进入泊车位，且到达相对合理的泊车最终位置则泊车结束。

在Q-learning中，通过建立一个Q表来存储状态-动作的Q值，通过公式(1)更新状态的Q值，

Q(s,a)＝Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s,a)] (1)

其中，s为当前状态，Q(s,a)为当前状态s下每一个动作a的Q值，Q(s′,a′)为执行动作a之后下一状态s′下每一个动作a′的Q值，γ为学习效率，α折扣因子，r是执行动作a之后得到的价值。通过不断学习，Q表最终收敛到一个稳定的表。

针对状态比较多的情况，Q表(Q-table)会无限大，这就需要用DQN来解决。

DQN是建立在Q-learning的基础上，用神经网络取代Q表计算Q值，在DQN中有两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络，当前神经网络用于计算当前状态的s下每一个动作a的Q值Q(s,a)，目标神经网络计算用于下一个状态s′下每一个动作a′的Q值Q(s′,a′)，其中，在训练阶段用到当前神经网络及目标神经网络，在训练结束之后，只用当前神经网络选择动作。

进一步地，所述步骤二和步骤三中：

首先，建立DQN；DQN中包括两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络，当前神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a)，一个动作a表示车辆前轮转动一个角度并移动特定距离，目标神经网络计算用于下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a)；神经网络的输入层为车辆位置信息障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝1,2,…,n及理想泊车最终位置信息s_p＝(x_p,y_p,y_p)，其中，x_t,y_t和分别为车辆在泊车坐标系中的x，y坐标及航向角；x_obi,y_obi和w_obi为第i个障碍物在泊车坐标系中的x、y坐标及宽度，n为障碍物的个数，当没有障碍物时，则将障碍物信息设置为泊车位四个角的位置，宽度为固定值；x_p、y_p及分别为车辆理想泊车最终泊位置在泊车坐标系中的x、y坐标及方向；神经网络的中间隐含层有两层，每层有20个神经元；神经网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a)；车辆前轮转动角度，即前轮摆角一共有N＝β/τ+1个，其中β为前轮摆角最大值与最小值的差值，τ为分辨率；

然后，对DQN进行训练；

最后，将当前时刻的车辆位置信息障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝0,2,…,n及理想泊车最终位置信息输入到训练好的DQN中的当前神经网络中，用当前神经网络计算当前状态下每一个动作的Q值，根据ε-greedy策略选择动作a_t并，并执行动作a_t，即计算期望车辆前轮摆角，并根据期望车辆前轮摆角，控制车辆前轮转动并移动车辆。

进一步地，所述对DQN进行训练包括以下步骤：

步骤1，按照平行泊车中泊车位在车辆左后方及右后方，垂直泊车中泊车位在车辆左后方及右后方四种情景采集四组泊车数据并存储，每一组泊车数据包括多条路径上的车辆位置信息障碍物信息{s_obi＝(x_obi,y_obi,w_obi):i＝1,2,…,n}及理想泊车最终位置其中，m为路径上的车辆位置信息的个数，n为障碍物的个数；数据的存储形式为[l_t,s_ob1…s_obn,s_p]，这四组数据将用于训练同一个DQN；

步骤2，针对没有障碍物的情况进行训练；

2.1、令n＝4，将障碍物信息设置为泊车位四个角的位置，宽度为固定值；初始化DQN中神经网络的权重θ；

2.2、令当前循环次数t＝1；令当前状态s_t＝l_t；

2.3、以当前状态s_t，障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝1,2,…,n及车辆理想泊车最终位置作为当前神经网络的输入，计算当前状态s_t下每一个动作a的Q值Q(s_t,a)；

2.4、根据ε-greedy策略选择动作a_t，并执行动作a_t，得到奖励r_t和下一个状态如果执行动作a_t后到达理想泊车最终位置，即s_t+1＝s_p，表明已将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置，则r_t＝10，结束训练；如果执行动作a_t后到达采集的数据中的车辆位置，即则r_t＝1，如果执行动作a_t后撞到障碍物，即s_t+1∈{s_obi＝(x_obi,y_obi,w_obi):i＝1,2,…,n}，则r_t＝-1，其他情况r_t＝0；

2.5、将s_t+1、障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝1,2,…,n及车辆理想泊车最终位置s_p作为目标神经网络的输入，将目标神经网络输出层的最大值max_aQ(s_t+1,a)作为下一状态s_t+1的目标值，用公式1计算动作a_t的回报μ_t；

其中γ为折扣因子；

2.6、使用梯度下降法更新当前神经网络的权重，公式为其中

2.7、判断是否有t＝kC,k＝1,2,…，即是否进行了kC次循环，若是，则将目标神经网络的权重更新为当前神经网络的权重(即每隔C步更新一次目标神经网络的权重)；

2.8、令t＝t+1；返回步骤2.2；

步骤3，针对有静态障碍物的情况进行训练；

将障碍物信息设置为步骤1中采集的静态障碍物信息；初始化DQN中神经网络的权重θ为步骤2中针对没有障碍物的情况进行训练后得到的神经网络的权重；重复步骤2.2～步骤2.8的训练流程进行训练，直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置；

步骤4，针对有动态障碍物的情况进行训练；

将障碍物信息设置为步骤1中采集的动态障碍物信息；初始化DQN中神经网络的权重θ为步骤3中针对有静态障碍物的情况进行训练后得到的神经网络的权重；重复步骤2.2～步骤2.8的训练流程进行训练，直到将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置，得到最终的DQN。

车辆在泊车过程中，会有行人等障碍物对泊车产生一定的影响，本发明对DQN分为没有障碍物、存在静态障碍物、存在动态障碍物三种情况进行训练，能减少训练时间、增加训练的可靠度。实际应用的过程中，采用经过没有障碍物、存在静态障碍物和存在动态障碍物三种情况训练之后得到的最终的DQN计算期望车轮前摆角。

进一步地，所述ε-greedy策略是指：

设置一个Epsilon值ε，其中ε是一个介于0-1之间的数，在选择动作的过程中，产生一个随机数random，若random<ε，则选择最大Q值对应的动作a_t，否则随机选择一个动作。

进一步地，所述泊车结束的判断方法为：

判断当前时刻的车辆位置与理想泊车最终位置的欧氏距离及车辆的航向的偏差指标M，通过公式(2)计算：

其中，k₁,k₂为设置的系数，在0-1之间；如果距离M<M_min，则判定车辆已经到达相对合理的泊车最终位置，其中M_min为偏差指标阈值，为经验参数。

进一步地，所述泊车位坐标系是指以车辆在理想泊车最终位置时的后轴中心点为原点，泊车位中轴线为x轴，泊车与中轴线垂直的方向为y轴，泊车位上方为Z轴，逆时针旋转方向为负，车辆位置信息中车辆的x，y坐标都是车辆后轴中心点的x，y坐标。

本发明方法是在车辆进入泊车状态，且起始位置较为理想的情况下进行的；在泊车过程中，车辆的速度相对较低，一般小于等于10km/h，所以本发明只针对车辆的前轮摆角进行控制，速度设置为定值。本发明中的泊车位尺寸按照国家的标准，即小型车车位尺寸为2.5～2.7×5～6米，公交车车位尺寸为3.8～4.8×12～14米。

有益效果：

本发明采用DQN计算期望车辆前轮摆角，***能够自主学习相关参数，完成泊车过程；大大减少以往泊车***参数调试的工作，减少了人为干预，；使***有较好的容错能力和鲁棒性，极大提高了车辆一次性泊车的成功率。本发明能够更好更快的完成泊车过程，减轻司机的泊车负担，提高泊车的效率。本发明通过采集不同车辆的数据能够实现不同车辆的自主泊车。

附图说明：

图1为本发明流程图；

图2为本发明中的泊车类型；图2(a)为垂直泊车，图2(b)为平行泊车；

图3为DQN模型

具体实施方式：

以下将结合附图和具体实施实例对本发明做进一步详细说明。

本实施实例采用长12m，宽2.5m的大客车改装的智能车，装有激光雷达、毫米波雷达、GPS定位***及机器视觉***，在标准的停车场进行自动泊车实验。

参照图1所示的流程，一种基于DQN的车辆自动泊车方法，包括以下几个步骤：

步骤一，通过GPS及毫米波等传感器获取障碍物信息及可用泊车位，建立泊车坐标系，判断是垂直泊车还是平行泊车，行驶到相对合理的泊车起始位置；

步骤二，获取当前时刻的车辆位置信息；根据当前时刻的车辆位置信息及障碍物信息，用训练过后的DQN计算期望车辆前轮摆角；

步骤四，更新当前时刻的车辆位置信息，判断是否进入泊车位，如果到达泊车最终位置，泊车结束，否则返回步骤二重新计算期望车辆前轮摆角。

所述步骤一具体包含以下步骤：

(1.1)车辆从停车场控制中心获得可用泊车位的位置，判断泊车的类型并将车辆停在相对合理的位置A附近，方向与理想航向偏差在10°以内；获得车辆周围障碍物的信息，主要包括障碍物的坐标及宽度；

(1.2)以泊车最终位置的车辆后轴中心点为原点，泊车位中轴线为x轴，泊车与中轴线垂直的方向为y轴，泊车位上方为Z轴，逆时针旋转方向为负建立泊车位坐标系，以车辆后轴中心点为原点，车辆正前方为x轴，车辆正左方为y轴，车辆正上方为Z轴建立车辆坐标系，并将车辆及障碍物位置等信息映射到坐标系中。

所述步骤二具体包含以下步骤：

在Q-learning中，通过建立一个Q表来存储状态-动作的Q值，通过公式(1)更新状态的Q值。

Q(s,a)＝Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s,a)] (1)

其中，s为当前的状态，Q(s,a)为当前状态的Q值，Q(s′,a′)为执行动作a之后下一状态s′的Q值，γ为学习效率，α折扣因子。通过不断学习，Q表最终收敛到一个稳定的表。

本实例中建立的输入有五个状态即车辆位置信息及四个障碍物信息s_ob1，s_ob2，s_ob3，s_ob4；在检测到障碍物的时候，将s_ob1、s_ob2、s_ob3、s_ob4依次设置为检测到的障碍物信息，在没有检测到障碍物的时候，则将s_ob1、s_ob2、s_ob3、s_ob4依次设置为泊车位的四个角的坐标及宽度，其中宽度设置为15cm；神经网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a)，本发明中动作a表示车辆前轮转动一个角度并移动特定距离；本实施例中车辆前轮转动角度，即前轮摆角前轮摆角为-30°到+30°，设置β＝60，τ＝1，则一共有61个前轮摆角，即(-30°,-29°,…0…+29°,+30°)。

将车辆位置信息及四个障碍物信息输入到训练好的DQN中，用当前神经网络计算输出层中每一个前轮摆角对应的Q值，根据ε-greedy策略选择合适的前轮摆角。

训练DQN主要包括以下步骤：

(2.1)按照平行泊车中泊车位在车辆左后方及右后方，垂直泊车中泊车位在车辆左后方及右后方四种情景采集四组泊车数据，每组数据有10条路径，采集的数据用于训练同一个DQN；

(2.2)将四个障碍物信息s_ob1，s_ob2，s_ob3，s_ob4设置为泊车位的四个角的坐标且宽度设置为15cm；

(2.3)采用重复经验的方法对DQN进行训练，车辆在泊车位坐标系中的当前位置信息s_t及s_ob1、s_ob2、s_ob3、s_ob4为输入，计算输出层中每一个动作a的Q值Q(s_t,a)，在训练阶段根据ε-greedy策略选择动作a_t，在应用阶段直接选取最大Q值对应的动作a_t，执行动作a_t，得到奖励r_t及下一个状态如果执行动作a_t后到达最终泊车的位置，则r_t＝10，如果执行动作a_t后得到的s_t+1在采集的数据中，r_t＝1，如果执行动作a_t后撞到障碍物，r_t＝-1，其他情况r_t＝0，在目标神经网络中计算下一状态s_t+1的目标值max_a Q(s_t+1,a)，用公式(2)计算动作a_t的回报μ_t；

其中γ为折扣因子；

使用梯度下降法更新当前神经网络的权重，公式为其中

将(s_t,a_t,r_t,s_t+1)存储下来，作为经验回放的数据，在经过一定步长的训练之后，将目标神经网络的权重更新为计算当前神经网络的权重，一直训练到能够从相对合理的泊车起始位置到达车辆的泊车位置；

(2.4)将四个障碍物信息s_ob1，s_ob2，s_ob3，s_ob4设置为静态的障碍物重复2.3进行训练；

(2.5)将四个障碍物信息s_ob1，s_ob2，s_ob3，s_ob4设置为动态的障碍物重复2.3进行训练；

ε-greedy策略是指，设置一个Epsilon值ε＝0，其中ε是一个介于0-1之间的数，在选择动作的过程中，产生一个随机数random，若random<ε，则选择最大Q值对应的动作a_t，否则随机选择一个动作；

所述步骤三具体包含以下步骤：

(3.1)执行DQN计算出的前轮摆角，并跟新车辆位置；

(3.2)判断当前时刻的车辆位置与理想泊车最终位置的欧氏距离及车辆的航向的偏差指标M，通过公式(3)计算：

如果M<M_min,则判定车辆已经到达相对合理的泊车最终位置，泊车过程结束，否则，则继续更新位置，并重新计算摆角。

以上实例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实例对本发明进行详细的讲解，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应包含在本发明的权利要求范围内。

Claims

1.一种基于DQN的车辆自动泊车方法，其特征在于，包括以下步骤：

步骤一，获取障碍物信息及泊车位信息，建立泊车坐标系，判断泊车类型是垂直泊车还是平行泊车，并将车辆停到相对合理的泊车起始位置；

步骤二，获取当前时刻的车辆位置信息；根据当前时刻的车辆位置信息、障碍物信息及泊车位信息，使用训练过后的DQN计算期望车辆前轮摆角；

2.根据权利要求1所述基于DQN的车辆自动泊车方法，其特征在于，所述步骤一中，判断泊车类型的方法为：如果泊车位与泊车起始位置垂直，则为垂直泊车，如果泊车位与泊车起始位置平行，则为平行泊车；

确定相对合理的泊车起始位置的方法为：

首先，确定相对合理的泊车最终位置：相对合理的泊车最终位置位于泊车位内，并与泊车位四周指示线的距离均不小于0.05m；然后，在相对合理的泊车最终位置内确定理想泊车最终位置；再按以下方法确定与理想泊车最终位置对应的理想泊车起始位置：在垂直泊车中，车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的纵向距离为车辆的最小转弯半径R_min，横向距离为车辆最小转弯半径R_min与车辆轴长R_min的和，车头朝向与车位中轴线垂直；平行泊车中，车辆在理想泊车起始位置时的后轴中心点与在理想泊车最终位置时的后轴中心点的横向距离为纵向距离为车头朝向与车位中轴线平行；最后，确定与理想泊车起始位置横向及纵向误差不大于1.5m，航向误差不大于10°的位置为相对合理的泊车起始位置。

3.根据权利要求2所述的基于DQN的车辆自动泊车方法，其特征在于，所述步骤四中，如果车辆进入泊车位，且到达相对合理的泊车最终位置则泊车结束。

4.根据权利要求1～3中任一项所述的基于DQN的车辆自动泊车方法，其特征在于，所述步骤二和步骤三中：

首先，建立DQN；DQN中包括两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络，当前神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a)，一个动作a表示车辆前轮转动一个角度并移动特定距离，目标神经网络计算用于下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a)；神经网络的输入层为车辆位置信息障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝1,2,…,n及理想泊车最终位置信息s_p＝(x_p,y_p,y_p)，其中，x_t,y_t和分别为车辆在泊车坐标系中的x，y坐标及航向角；x_obi,y_obi和w_obi为第i个障碍物在泊车坐标系中的x、y坐标及宽度，n为障碍物的个数，当没有障碍物时，则将障碍物信息设置为泊车位四个角的位置，宽度为固定值；x_p、y_p及分别为车辆理想泊车最终泊位置在泊车坐标系中的x、y坐标及方向；神经网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a)；车辆前轮转动角度，即前轮摆角一共有N＝β/τ+1个，其中β为前轮摆角最大值与最小值的差值，τ为分辨率；

然后，对DQN进行训练；

最后，将当前时刻的车辆位置信息障碍物信息s_obi＝(x_obi,y_obi,w_obi),i＝0,2,…,n及理想泊车最终位置信息输入到训练好的DQN中，用当前神经网络计算当前状态下每一个动作的Q值，根据ε-greedy策略选择动作a_t并，并执行动作a_t，即计算期望车辆前轮摆角，并根据期望车辆前轮摆角，控制车辆前轮转动并移动车辆。

5.根据权利要求4所述的基于DQN的车辆自动泊车方法，其特征在于，对DQN进行训练包括以下步骤：

步骤2，针对没有障碍物的情况进行训练；

2.2、令当前循环次数t＝1；令当前状态s_t＝l_t；

2.4、根据ε-greedy策略选择动作a_t，并执行动作a_t，得到奖励r_t和下一个状态如果执行动作a_t后到达理想泊车最终位置，即s_t+1＝s_p，表明已将DQN训练到使得车辆能够从相对合理的泊车起始位置到达理想泊车最终位置，则r_t＝10，结束训练；如果执行动作a_t后到达采集的数据中的车辆位置，即t＝1,2,…,m}，则r_t＝1，如果执行动作a_t后撞到障碍物，即s_t+1∈{s_obi＝(x_obi,y_obi,w_obi):i＝1,2,…,n}，则r_t＝-1，其他情况r_t＝0；

其中γ为折扣因子；

2.6、使用梯度下降法更新当前神经网络的权重，公式为其中

2.7、判断是否有t＝kC,k＝1,2,…，即是否进行了kC次循环，若是，则将目标神经网络的权重更新为当前神经网络的权重；

2.8、令t＝t+1；返回步骤2.2；

步骤3，针对有静态障碍物的情况进行训练；

步骤4，针对有动态障碍物的情况进行训练；

6.根据权利要求5要求所述的基于DQN的车辆自动泊车方法，ε-greedy策略是指：

7.根据权利要求4所述的基于DQN的车辆自动泊车方法，其特征在于，泊车结束的判断方法为：

8.根据权利要求1所述的基于DQN的车辆自动泊车方法，其特征在于，所述泊车位坐标系是指以车辆在理想泊车最终位置时的后轴中心点为原点，泊车位中轴线为x轴，泊车与中轴线垂直的方向为y轴，泊车位上方为Z轴，逆时针旋转方向为负，车辆位置信息中车辆的x，y坐标都是车辆后轴中心点的x，y坐标。

9.根据权利要求1所述的基于DQN的车辆自动泊车方法，在泊车过程中，车辆的速度设置为定值，且小于或等于10km/h；所述泊车位尺寸按照国家的标准，即小型车车位尺寸为2.5～2.7×5～6米，公交车车位尺寸为3.8～4.8×12～14米。