CN111301411B

CN111301411B - 车辆的行驶控制方法和装置

Info

Publication number: CN111301411B
Application number: CN201811504829.XA
Authority: CN
Inventors: 谷俊; 何俏君; 石含飞; 彭斐; 毛茜; 李彦琳; 尹超凡
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2021-04-20
Anticipated expiration: 2038-12-10
Also published as: CN111301411A

Abstract

本发明公开了一种车辆的行驶控制方法，涉及汽车的行驶控制领域，该方法包括步骤：获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹；根据所述运动轨迹和预设的参考区域形状信息，确定参考区域；根据本车的车辆状态信息，计算与所述参考区域的位置关系；根据所述位置关系，通过预先训练的强化学习模型得到相应的本车行驶控制策略。本发明实施例还提供了一种车辆的行驶控制装置，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

Description

车辆的行驶控制方法和装置

技术领域

本发明涉及汽车的行驶控制领域，尤其涉及一种车辆的行驶控制方法和装置。

背景技术

随着汽车工业的发展，汽车的智能驾驶功能得到了越来越多的关注。

目前常见的智能驾驶功能通常有自动跟车功能，在现有的自动跟车功能中，主要是通过获取本车与被跟随车辆的车距，以及本车与被跟随车辆的行驶方向的夹角，计算出相应的控制策略，从而对本车的行驶进行控制。

在实施本发明的过程中发明人发现，现有技术依赖于与被跟随车辆之间的车距和行驶方向的夹角，在被跟随车辆突然出现变道，或是突然出现异常急转弯的情况下，本车也往往会相应地执行突然变道或转向的操作，导致行驶的稳定性和安全性收到较大影响。

发明内容

本发明实施例的目的是提供一种车辆的行驶控制方法和装置，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

为实现上述目的，本发明实施例提供了一种车辆的行驶控制方法，包括步骤：

获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹；

根据所述运动轨迹和预设的参考区域形状信息，确定参考区域；

根据本车的车辆状态信息，计算与所述参考区域的位置关系；

根据所述位置关系，通过预先训练的强化学习模型得到相应的本车行驶控制策略。

作为上述方案的改进，所述运动轨迹包括，根据所述定位信息确定的当前定位点，以及根据前一时刻获取的定位信息确定的前一时刻定位点；所述参考区域为三角形，所述三角形的一个角为定位角；所述定位角的顶点位于所述当前定位点，所述前一时刻定位点位于所述定位角的内部。

作为上述方案的改进，所述参考区域为等腰三角形，所述定位角为所述等腰三角形顶角；所述等腰三角形底边上的高位于所述当前定位点和所述前一时刻定位点所在的直线上；所述等腰三角形的底边长度与所述被跟随车辆的车宽成正比例关系。

作为上述方案的改进，所述运动轨迹与所述等腰三角形的底边上的高之间，满足如下关系：

其中，h_n为所述等腰三角形底边上的高；k为常数；(x_n,y_n)为所述当前定位点的坐标；(x_n-1,y_n-1)为所述前一时刻定位点的坐标。

作为上述方案的改进，其特征在于，所述车辆状态信息包括本车的位置信息；

所述位置关系包括，行驶路程与调整距离；其中，所述行驶路程为，根据所述位置信息所确定的当前位置行驶到所述当前定位点的轨迹长度；所述调整距离为，所述当前位置与所述定位角两边所在直线的距离差的绝对值；

所述强化学习模型的奖励函数包括纵向奖励和横向奖励；

若所述行驶路程处于预设的路程范围内，则所述纵向奖励为最大值；若所述行驶路程小于预设的安全车距，则所述纵向奖励为最小值；

若所述调整距离不大于预设的正常偏移，则所述横向奖励为最大值；若所述调整距离大于预设的安全偏移，则所述横向奖励为最小值。

作为上述方案的改进，所述车辆状态信息还包括本车的行驶状态信息；

所述纵向奖励和所述横向奖励，还包括：

若所述行驶路程未处于所述路程范围内，且不小于所述安全车距，且根据所述行驶状态信息，所述行驶路程趋向于所述路程范围，则所述纵向奖励为次大值；若所述行驶路程未处于所述路程范围内，且不小于所述安全车距，且根据所述行驶状态信息，所述行驶路程未趋向于所述路程范围，则所述纵向奖励为次小值；

若所述调整距离大于所述正常偏移，且不大于所述安全偏移，且根据所述行驶状态信息，所述调整距离趋向于所述正常偏移，则所述横向奖励为次大值；若所述调整距离大于所述正常偏移，且小于所述安全偏移，且根据所述行驶状态信息，所述调整距离未趋向于所述正常偏移，则所述横向奖励为次小值。

作为上述方案的改进，所述行驶状态信息还包括行驶方向；所述位置关系还包括偏离角，所述偏离角为所述行驶方向与所述运动轨迹的指向之间的夹角；所述强化学习模型的奖励函数还包括朝向奖励；

若所述偏离角不大于预设的正常偏角，则所述朝向奖励为最大值；若所述偏离角大于预设的安全偏角，则所述朝向奖励为最小值。

作为上述方案的改进，所述朝向奖励还包括：

若所述偏离角大于所述正常偏角，且未超过所述安全偏角，且根据所述行驶状态信息，所述偏离角趋向于所述正常偏角，则所述朝向奖励为次大值；若所述偏离角大于所述正常偏角，且未超过所述安全偏角，且根据所述行驶状态信息，所述偏离角未趋向于所述正常偏角，则所述朝向奖励为次小值。

作为上述方案的改进，所述本车行驶控制策略包括油门开度变化量、制动踏板开度变化量和车辆行驶方向变化量中的一项或多项；

所述油门开度变化量的取值范围预设为(-5,5)，控制精度预设为1％；

所述制动踏板开度变化量的取值范围预设为(-5,5)，控制精度预设为1％；

所述车辆行驶方向变化量的取值范围预设为(-15,15)，控制精度预设为1°；

所述本车行驶控制策略的更新频率为30Hz。

本发明还提供了一种车辆的行驶控制装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的行驶控制方法。

与现有技术相比，本发明公开的车辆的行驶控制方法和装置，通过获取被跟随车辆的定位信息，以得到相应的运动轨迹，并结合预设的参考区域的形状信息，确定参考区域，从而根据本车与所述参考区域的位置关系，通过强化学习模型得到相应的本车行驶控制策略。由于在计算所述本车行驶控制策略的过程中，结合所述运动轨迹得到所述参考区域，通过本车与所述参考区域的位置关系对所述本车行驶控制策略进行计算，在所述被跟随车辆的行驶发生突发性变化时，通过参照与所述参考区域的位置关系，依然能够得到相对稳定的控制策略，解决了现有行驶控制方法中，被跟随车辆行驶发生突发性变化时，容易对本车的行驶控制造成较大影响的问题，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

附图说明

图1是本发明实施例1中一种车辆的行驶控制方法的流程示意图。

图2a至2b是实施例1中的行驶控制方法的场景示意图。

图3是本发明实施例2中一种车辆的行驶控制装置的结构示意图。

图4是本发明实施例3中一种车辆的行驶控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种车辆的行驶控制方法的流程示意图。所述行驶控制方法包括步骤S110至步骤S140。

S110、获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹。

所述运动轨迹包括所述被跟随车辆至少两个时刻的定位点，优选地，可以包括当前定位点和前一时刻定位点。具体地，可以是根据获取到的所述定位信息，确定所述当前定位点，根据前一时刻获取的前一时刻定位信息，确定所述前一时刻定位点，从而得到所述运动轨迹。

所述定位信息可以是通过与所述被跟随车辆进行通信，以接收所述被跟随车辆发送的定位信息。优选地，可以是通过V2V通信技术(vehicle-to-vehicle communication)与所述被跟随车辆进行通信，由所述被跟随车辆将其定位信息发送出来，如GPS信息等，并由本车接收所述定位信息，以实现对所述被跟随车辆的定位信息的获取。可以理解地，本车还可以通过其他的车间通信技术，与所述被跟随车辆进行通信，从而获取所述被跟随车辆的定位信息，均不影响本发明可取得的有益效果。

更优选地，还可以获取所述被跟随车辆的车速信息和行驶方向信息，从而更精确地得到所述被跟随车辆的运动轨迹，进一步提高跟车的准确性。

S120、根据所述运动轨迹和预设的参考区域形状信息，确定参考区域。

所述参考区域形状信息记录了所述参考区域的具体形状，或是所述参考区域的形状需满足的关系。例如，可以在所述参考区域形状信息中，预先设定所述参考区域为梯形或是五边形等，或是设定所述参考区域的边长满足特定规则等，均不影响本发明可取得的有益效果。

作为一种优选的实施方式，可以是预先设定所述参考区域为三角形，并设定所述三角形的一个角的顶点位于所述当前定位点，以作为定位角，所述前一时刻定位点位于所述定位角的内部。

更进一步地，还可以是预先设定所述参考区域为等腰三角形，并以所述等腰三角形的顶角作为所述定位角，所述等腰三角形的底边上的高位于所述当前定位点和所述前一时刻定位点所在直线上。所述等腰三角形底边上的高的长度可以根据需要进行相应的设置，例如，可以是设定所述等腰三角形的底边上的高满足如下关系：

其中，h_n为所述等腰三角形底边上的高；k为常数；(x_n,y_n)为所述当前定位点的坐标；(x_n-1,y_n-1)为所述前一时刻定位点的坐标。对于常数k，在实际应用中可以根据具体情况调整，或是预先进行试验标定，均不影响本发明可取得的有益效果。

所述等腰三角形的底边长度与所述被跟随车辆的车宽成正比例关系，例如所述底边取所述被跟随车辆车宽倍数等。

具体地，参见图2a，可以设前一时刻定位点P_n-1(x_n-1,y_n-1)，当前定位点P_n(x_n,y_n)，取线段P_AP_B的长度为所述被跟随车辆车宽的1.2倍，前一时刻定位点P_n-1(x_n-1,y_n-1)和当前定位点P_n(x_n,y_n)均位于线段P_AP_B的垂直平分线上，根据P_n-1(x_n-1,y_n-1)和P_n(x_n,y_n)计算相应的高，得到等腰三角形P_nP_AP_B，即为所述参考区域。

S130、根据本车的车辆状态信息，计算与所述参考区域的位置关系。

所述车辆状态信息可包括本车的位置信息和行驶状态信息，可以是通过本车的CAN总线向车内各节点获取，如向GPS模块获取所述位置信息等。在获取信息时，可通过一定的采样频率获取所述行驶状态信息，例如30Hz的采样频率。

所述行驶状态信息可包括行驶方向，例如通过获取本车方向盘的转角信息，以得到所述行驶方向。所述行驶状态信息还可包括本车的油门开度和制动踏板开度等，以进一步提高对本车的车辆状态的判断准确性。

更进一步地，当存在后方车辆对本车进行跟随的情况下，还可以将所述车辆状态信息发送给所述后方车辆，以提高跟车队列控制的准确性。

针对所述位置关系，所述位置关系可以包括行驶路程与调整距离。更进一步地，所述位置关系还可以包括偏离角。

对于所述行驶路程，可以是根据所述车辆状态信息的所述位置信息，得到本车的当前位置，并进一步获取从所述当前位置到所述当前定位点的轨迹长度。例如，可以是沿所述运动轨迹，计算所述行驶路程，也可以是根据其他的路径计算方法，计算从所述当前位置到所述当前定位点的轨迹长度，从而得到所述行驶路程，均不影响本发明可取得的有益效果。

对于所述调整距离，在所述参考区域为三角形的情况下，所述调整距离可以是从所述当前位置到所述定位角两边所在直线的距离差的绝对值。

对于所述偏离角，为所述行驶方向与所述运动轨迹的指向之间的夹角。例如，所述运动轨迹的指向为所述前一时刻定位点指向所述当前定位点的向量方向。

具体地，参见图2b，设当前位置U，当前定位点P_n，当前位置U与直线P_nP_A的距离D₁,当前位置U与直线P_nP_B的距离D₂,本车的行驶方向

线段P_AP_B上的高H。则行驶路径L为从当前位置U移动到当前定位点P_n的路径长度；调整距离S＝|D₁-D₂|，偏离角θ为行驶方向

与向量

之间的夹角。

S140、根据所述位置关系，通过预先训练的强化学习模型得到相应的本车行驶控制策略。

可以是预先训练所述强化学习模型，以所述位置关系作为所述强化学习模型的输入，从而根据所述强化学习模型的输出得到所述本车行驶控制策略。

优选地，所述本车行驶控制策略可以是所述车辆的动作输出量，例如油门开度变化量、制动踏板开度变化量和车辆行驶方向变化量等的一项或多项。根据所述本车行驶控制策略，控制所述车辆的相应结构进行工作，例如根据所述油门开度变化量控制油门开度、根据所述制动踏板开度变化量控制所述制动踏板，以根据所述车辆行驶方向变化量控制所述车辆的行驶方向等，以实现对所述车辆的行驶控制。可以理解地，所述本车行驶控制策略可能根据车辆的实际情况有所调整，不影响本发明可取得的有益效果。所述本车行驶控制策略的更新频率可以预设为任意频率值，例如，可以将所述更新频率预设为30Hz，以与上述采样频率相匹配，以更好地实现对所述车辆状态信息的获取和调整。

更优选地，所述油门开度变化量和所述制动踏板变化量的取值可以设定在(-5,5)的区间范围内，控制精度设定为1％，即对油门开度和制动踏板开度的每次调整，限定在±5％的开度范围内。所述车辆行驶方向变化量可以通过方向盘转角变化量进行调整，可以将所述方向盘转角变化量设定在(-15,15)的区间范围内，控制精度设定为1°，即对方向盘转角的每次调整，限定在±15°的范围内。在实际应用中，可能根据具体情况的设定有所调整，均不影响本发明可取得的有益效果。

针对所述强化学习模型，可以是采用离散函数作为奖励函数，所述奖励函数还可以包括纵向奖励和横向奖励，例如，所述奖励函数可以表现为所述纵向奖励与所述横向奖励之和。所述奖励函数还可以包括朝向奖励，例如，所述奖励函数还可以表现为所述纵向奖励、所述横向奖励与所述朝向奖励之和。可以理解地，在其他情况下，所述奖励函数也可以表现为所述纵向奖励、所述横向奖励与所述朝向奖励的其他计算值，例如乘积或是通过特定运算公式得到的其他计算值，所述奖励函数还可以表现为其中任意两项的计算值，均不影响本发明可取得的有益效果。

优选地，所述纵向奖励和所述横向奖励可以通过以下依据进行取值。

所述纵向奖励：若所述行驶路程处于预设的路程范围内，则所述纵向奖励为最大值；若所述行驶路程小于预设的安全车距，则所述纵向奖励为最小值。

所述横向奖励：若所述调整距离不大于预设的正常偏移，则所述横向奖励为最大值；若所述调整距离大于预设的安全偏移，则所述横向奖励为最小值。

更优选地，所述纵向奖励和所述横向奖励的取值依据还可以进一步细化。

所述纵向奖励还可以包括：若所述行驶路程未处于所述路程范围内，且不小于所述安全车距，且根据所述行驶状态信息，所述行驶路程趋向于所述路程范围，则所述纵向奖励为次大值；若所述行驶路程未处于所述路程范围内，且不小于所述安全车距，且根据所述行驶状态信息，所述行驶路程未趋向于所述路程范围，则所述纵向奖励为次小值。

所述横向奖励还可以包括：若所述调整距离大于所述正常偏移，且不大于所述安全偏移，且根据所述行驶状态信息，所述调整距离趋向于所述正常偏移，则所述横向奖励为次大值；若所述调整距离大于所述正常偏移，且小于所述安全偏移，且根据所述行驶状态信息，所述调整距离未趋向于所述正常偏移，则所述横向奖励为次小值。

对于所述朝向奖励，可以通过如下依据进行取值。

所述朝向奖励的取值依据还可以进一步优化：

作为举例，设所述纵向奖励为R1，所述行驶路程为L，所述路程范围为[L₁,L₂]，所述安全车距为L₀，所述行驶路程的变化量为ΔL；设所述横向奖励为R2，所述调整距离为s，所述正常偏移为s₁，所述安全偏移为s₀，所述调整距离的变化量为Δs；设所述朝向奖励为R3，所述偏离角为θ，所述正常偏角为θ₁，所述安全偏角为θ₀，所述偏离角的变化量为Δθ。对应的所述纵向奖励和所述横向奖励参见表1。

表1纵向奖励和横向奖励计算表

其中，针对所述行驶路程的变化量，可以是通过将当前采集到的行驶路程和上一时刻的行驶路程进行比较，以得到所述行驶路程的变化量；也可以是通过所述位置关系，以判断所述行驶路程是否趋于所述路程范围，从而得到所述行驶路程的变化量。针对所述调整距离的变化量，可以是通过将当前采集到的调整距离和上一时刻的调整距离进行比较，以得到所述调整距离的变化量；也可以是通过所述位置关系，以判断所述调整距离是否趋于所述正常偏移，从而得到所述调整距离的变化量。针对所述偏离角的变化量，可以是通过将当前采集到的偏离角和上一时刻的偏离角进行比较，以得到所述偏离角的变化量；也可以是通过所述位置关系，以判断所述偏离角是否趋于所述正常偏角，从而得到所述偏离角的变化量。

本发明实施例1公开的车辆的行驶控制方法，通过获取被跟随车辆的定位信息，以得到相应的运动轨迹，并结合预设的参考区域的形状信息，确定参考区域，从而根据本车与所述参考区域的位置关系，通过强化学习模型得到相应的本车行驶控制策略。由于在计算所述本车行驶控制策略的过程中，结合所述运动轨迹得到所述参考区域，通过本车与所述参考区域的位置关系对所述本车行驶控制策略进行计算，在所述被跟随车辆的行驶发生突发性变化时，通过参照与所述参考区域的位置关系，依然能够得到相对稳定的控制策略，解决了现有行驶控制方法中，被跟随车辆行驶发生突发性变化时，容易对本车的行驶控制造成较大影响的问题，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

本发明实施例2还提供了一种车辆的行驶控制装置。参见图3，行驶控制装置20包括轨迹获取模块21、参考获取模块22、位置获取模块23和策略计算模块24。

所述轨迹获取模块21，用于获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹。所述参考获取模块22，用于根据所述运动轨迹和预设的参考区域形状信息，确定参考区域。所述位置获取模块23，用于根据本车的车辆状态信息，计算与所述参考区域的位置关系。所述策略计算模块24，用于根据所述位置关系，通过预先训练的强化学习模型得到相应的本车行驶控制策略。

所述行驶控制装置20的工作过程如实施例1所述的行驶控制方法，在此不作赘述。

本发明实施例2公开的车辆的行驶控制装置，通过获取被跟随车辆的定位信息，以得到相应的运动轨迹，并结合预设的参考区域的形状信息，确定参考区域，从而根据本车与所述参考区域的位置关系，通过强化学习模型得到相应的本车行驶控制策略。由于在计算所述本车行驶控制策略的过程中，结合所述运动轨迹得到所述参考区域，通过本车与所述参考区域的位置关系对所述本车行驶控制策略进行计算，在所述被跟随车辆的行驶发生突发性变化时，通过参照与所述参考区域的位置关系，依然能够得到相对稳定的控制策略，解决了现有行驶控制方法中，被跟随车辆行驶发生突发性变化时，容易对本车的行驶控制造成较大影响的问题，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

本发明实施例3提供了一种车辆的行驶控制装置。参见图4，行驶控制装置30包括：处理器31、存储器32以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如行驶控制程序。所述处理器31执行所述计算机程序时实现上述各个测试方法实施例中的步骤，例如图1所示的步骤S120。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实施例2所述的行驶控制装置。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述行驶控制装置30中的执行过程。例如，所述计算机程序可以被分割成轨迹获取模块、参考获取模块、位置获取模块和策略计算模块，各模块具体功能如下：所述轨迹获取模块，用于获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹。所述参考获取模块，用于根据所述运动轨迹和预设的参考区域形状信息，确定参考区域。所述位置获取模块，用于根据本车的车辆状态信息，计算与所述参考区域的位置关系。所述策略计算模块，用于根据所述位置关系，通过预先训练的强化学习模型得到相应的本车行驶控制策略。

所述行驶控制装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述行驶控制装置30可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，所述示意图仅仅是图像增强设备的示例，并不构成对行驶控制装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述行驶控制装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述行驶控制装置30的控制中心，利用各种接口和线路连接整个行驶控制装置30的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块，所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块，以及调用存储在存储器32内的数据，实现所述行驶控制装置30的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述行驶控制装置30集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

本发明实施例3公开的汽车的行驶控制装置和可读存储介质，通过获取被跟随车辆的定位信息，以得到相应的运动轨迹，并结合预设的参考区域的形状信息，确定参考区域，从而根据本车与所述参考区域的位置关系，通过强化学习模型得到相应的本车行驶控制策略。由于在计算所述本车行驶控制策略的过程中，结合所述运动轨迹得到所述参考区域，通过本车与所述参考区域的位置关系对所述本车行驶控制策略进行计算，在所述被跟随车辆的行驶发生突发性变化时，通过参照与所述参考区域的位置关系，依然能够得到相对稳定的控制策略，解决了现有行驶控制方法中，被跟随车辆行驶发生突发性变化时，容易对本车的行驶控制造成较大影响的问题，可以在自动跟车的行驶控制中，有效地提高车辆在行驶过程中的稳定性和安全性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种车辆的行驶控制方法，其特征在于，包括步骤：

获取被跟随车辆的定位信息，得到所述被跟随车辆的运动轨迹；其中，所述运动轨迹包括，根据所述定位信息确定的当前定位点，以及根据前一时刻获取的定位信息确定的前一时刻定位点；

2.如权利要求1所述的行驶控制方法，其特征在于，所述参考区域为三角形，所述三角形的一个角为定位角；所述定位角的顶点位于所述当前定位点，所述前一时刻定位点位于所述定位角的内部。

3.如权利要求2所述的行驶控制方法，其特征在于，所述参考区域为等腰三角形，所述定位角为所述等腰三角形顶角；所述等腰三角形底边上的高位于所述当前定位点和所述前一时刻定位点所在的直线上；所述等腰三角形的底边长度与所述被跟随车辆的车宽成正比例关系。

4.如权利要求3所述的行驶控制方法，其特征在于，所述运动轨迹与所述等腰三角形的底边上的高之间，满足如下关系：

5.如权利要求2至4任一项所述的行驶控制方法，其特征在于，所述车辆状态信息包括本车的位置信息；

所述强化学习模型的奖励函数包括纵向奖励和横向奖励；

6.如权利要求5所述的行驶控制方法，其特征在于，所述车辆状态信息还包括本车的行驶状态信息；

所述纵向奖励和所述横向奖励，还包括：

7.如权利要求6所述的行驶控制方法，其特征在于，所述行驶状态信息还包括行驶方向；所述位置关系还包括偏离角，所述偏离角为所述行驶方向与所述运动轨迹的指向之间的夹角；所述强化学习模型的奖励函数还包括朝向奖励；

8.如权利要求7所述的行驶控制方法，其特征在于，所述朝向奖励还包括：

9.如权利要求1所述的行驶控制方法，其特征在于，所述本车行驶控制策略包括油门开度变化量、制动踏板开度变化量和车辆行驶方向变化量中的一项或多项；

所述油门开度变化量的取值范围预设为（-5%，5%），控制精度预设为1%；

所述制动踏板开度变化量的取值范围预设为（-5%，5%），控制精度预设为1%；

所述车辆行驶方向变化量的取值范围预设为（-15°，15°），控制精度预设为1°；

所述本车行驶控制策略的更新频率为30Hz。

10.一种车辆的行驶控制装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的行驶控制方法。