CN115626184A - 自动驾驶车辆的权重系数和控制策略自学习方法及装置 - Google Patents
自动驾驶车辆的权重系数和控制策略自学习方法及装置 Download PDFInfo
- Publication number
- CN115626184A CN115626184A CN202211629437.2A CN202211629437A CN115626184A CN 115626184 A CN115626184 A CN 115626184A CN 202211629437 A CN202211629437 A CN 202211629437A CN 115626184 A CN115626184 A CN 115626184A
- Authority
- CN
- China
- Prior art keywords
- control strategy
- weight coefficient
- control
- optimized
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Combined Controls Of Internal Combustion Engines (AREA)
Abstract
本发明公开了一种自动驾驶车辆的权重系数和控制策略自学习方法及装置,涉及车辆自动驾驶控制技术领域。包括:获取待优化的控制策略;将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层;根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。本发明基于给定的专家驾驶策略,通过模仿该目标控制策略实现控制代价函数权重系数和控制策略的自学习。本发明能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
Description
技术领域
本发明涉及车辆自动驾驶控制技术领域,特别是指一种自动驾驶车辆的权重系数和控制策略自学习方法及装置。
背景技术
车辆的智能控制技术是智能化汽车的核心体现。模型预测控制因为其能够考虑未来时刻信息,目前是智能驾驶的控制主流方法。然而模型预测控制由于通过滚动时域优化求解控制量,存在求解效率低下的难题。业界和学术界通过在线优化和离线预求解的方法来提高模型预测控制的求解速度。在线优化方法包含暖启动和提前终止迭代等方法,能够加快求解速度,但面对复杂问题时,求解效率仍然难以满足车辆的控制需求。离线预求解方法主要是显式MPC(Model Predictive Control,模型预测控制),该方法对状态空间进行划分,离线建立从状态量到最优控制律之间的映射关系,映射关系等可以用表格和神经网络等存储,在线应用时通过查表或者神经网络直接映射得到控制量,该方法能够在很大程度上提高求解实时性。然而为了追求高品质的控制效果,需要不断调整权重系数再训练策略以满足控制要求。这导致在实现自动驾驶快速求解和高品质控制的时候,耗费大量的时间和精力,不利于控制技术的应用落地。
发明内容
本发明针对模型预测控制由于通过滚动时域优化求解控制量,存在求解效率低下的难题,以及在实现自动驾驶快速求解和高品质控制的时候,需要不断调整权重系数再训练策略以满足控制要求,耗费大量的时间和精力,不利于控制技术的应用落地的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习方法,该方法由电子设备实现,该方法包括:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,S3中的根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,包括:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,S33中的基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略,包括:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S332、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,S34中的基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数,包括:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,S341中的专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,S343中的损失函数,如下式(1)所示:
可选地,S344中的对损失函数进行最小化,得到更新后的权重系数,包括:
另一方面,本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习装置,该装置应用于实现自动驾驶车辆的权重系数和控制策略自学习方法,该装置包括:
获取模块,用于获取待优化的控制策略。
输入模块,用于将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
输出模块,用于根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,输出模块,进一步用于:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,输出模块,进一步用于:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S32、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,输出模块,进一步用于:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,损失函数,如下式(1)所示:
可选地,输出模块,进一步用于:
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习方法流程示意图;
图2是本发明实施例提供的自学习方法双层优化结构示意图;
图3是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习方法,该方法可以由电子设备实现。如图1所示的自动驾驶车辆的权重系数和控制策略自学习方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型。
其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
一种可行的实施方式中,如图2所示,控制策略双层优化模型为双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断交互迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略的自学习。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,上述步骤S3可以包括如下步骤S31-S34:
S31、获取初始化的权重系数。
S32、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
可选地,上述步骤S32可以包括如下步骤S321-S323:
S321、基于权重系数以及待优化的控制策略,构建最优控制问题。
S322、将最优控制问题的期望作为控制策略更新的目标函数。
一种可行的实施方式中,以所构建的最优控制问题的期望为策略更新的目标函数,如下式(2)所示:
S323、对目标函数进行最小化,得到更新后的控制策略。
S33、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
可选地,上述步骤S33可以包括如下步骤S331-S334:
S331、基于专家驾驶策略生成专家驾驶数据。
S332、根据更新后的控制策略生成状态和控制轨迹。
S333、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
可选地,S333中的损失函数,如下式(4)所示:
S334、对损失函数进行最小化,得到更新后的权重系数。
微分动力学方程,如下式(5)所示:
微分协态方程,如下式(6)所示:
微分输入方程,如下式(7)所示:
微分边界条件,如下式(8)所示:
S34、根据更新后的权重系数,转去执行S32,直至达到预设迭代次数,输出优化后的控制策略。
一种可行的实施方式中,在每一轮迭代中,权重系数优化层以专家驾驶策略生成的专家数据和待优化策略生成的状态和控制轨迹构建损失函数,最小化该损失函数实现对权重系数的更新;控制策略优化层基于上层所更新的权重系数和,最小化控制目标函数,实现对策略网络的更新。
进一步地,对训练完毕的控制策略进行在线应用,以控制自动驾驶车辆。
进一步地,对神经网络进行离线训练的伪代码,如下表1所示:
表1
举例来说,以具备自动驾驶功能的乘用车为控制对象,控制任务为轨迹跟踪,车辆模型采用三自由度单轨模型,轮胎力采用线性轮胎模型,具体参数如下表2所示:
表2
进一步地,权重系数优化层:待优化权重系数为和,为待优化变量,给定权重系数更新步长,具体参数如下表3所示。在控制***中,利用更新后的优化策略生成状态和控制轨迹,以专家数据和构建损失函数。对分别对和求偏导得和,利用辅助控制***求得偏导数,利用链式求导法则求得,。更新待优化变量,,实现待优化权重系数为和的更新。
通过不断迭代策略优化层和权重系数优化层,实现控制代价函数和控制策略的自学习。将所学到的策略进行在线应用,经过对比发现,本方法能够实现控制策略和控制代价函数权重系数的自学习。
表3
本发明实施例中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
如图3所示,本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习装置300,该装置300应用于实现自动驾驶车辆的权重系数和控制策略自学习方法,该装置300包括:
获取模块310,用于获取待优化的控制策略。
输入模块320,用于将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
输出模块330,用于根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,输出模块330,进一步用于:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,输出模块330,进一步用于:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S332、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,输出模块330,进一步用于:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,损失函数,如下式(1)所示:
可选地,输出模块330,进一步用于:
本发明实施例中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述自动驾驶车辆的权重系数和控制策略自学习方法:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述自动驾驶车辆的权重系数和控制策略自学习方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种自动驾驶车辆的权重系数和控制策略自学习方法,其特征在于,所述方法包括:
S1、获取待优化的控制策略;
S2、将所述待优化的控制策略输入到构建好的控制策略双层优化模型;其中,所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层;
S3、根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于所述优化后的控制策略对自动驾驶车辆进行控制。
2.根据权利要求1所述的方法,其特征在于,所述S3中的根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,包括:
S31、获取初始化的权重系数;设定k=1;
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数;
S33、基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略;
S34、基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数;
S35、根据所述更新后的权重系数,k=k+1,转去执行S32;
S36、停止循环,输出优化后的控制策略。
3.根据权利要求2所述的方法,其特征在于,所述S33中的基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略,包括:
S331、基于所述权重系数以及待优化的控制策略,构建最优控制问题;
S332、将所述最优控制问题的期望作为控制策略更新的目标函数;
S333、对所述目标函数进行最小化,得到更新后的控制策略。
4.根据权利要求2所述的方法,其特征在于,所述S34中的基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数,包括:
S341、基于专家驾驶策略生成专家驾驶数据;
S342、根据所述更新后的控制策略生成状态和控制轨迹;
S343、基于所述专家驾驶数据以及所述状态和控制轨迹,构建损失函数;
S344、对所述损失函数进行最小化,得到更新后的权重系数。
5.根据权利要求4所述的方法,其特征在于,所述S341中的专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
8.一种自动驾驶车辆的权重系数和控制策略自学习装置,其特征在于,所述装置包括:
获取模块,用于获取待优化的控制策略;
输入模块,用于将所述待优化的控制策略输入到构建好的控制策略双层优化模型;其中,所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层;
输出模块,用于根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于所述优化后的控制策略对自动驾驶车辆进行控制。
9.根据权利要求8所述的装置,其特征在于,输出模块,进一步用于:
S31、获取初始化的权重系数;设定k=1;
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数;
S33、基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略;
S34、基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数;
S35、根据所述更新后的权重系数,k=k+1,转去执行S32;
S36、停止循环,输出优化后的控制策略。
10.根据权利要求9所述的装置,其特征在于,输出模块,进一步用于:
S331、基于所述权重系数以及待优化的控制策略,构建最优控制问题;
S332、将所述最优控制问题的期望作为控制策略更新的目标函数;
S333、对所述目标函数进行最小化,得到更新后的控制策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211629437.2A CN115626184B (zh) | 2022-12-19 | 2022-12-19 | 自动驾驶车辆的权重系数和控制策略自学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211629437.2A CN115626184B (zh) | 2022-12-19 | 2022-12-19 | 自动驾驶车辆的权重系数和控制策略自学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115626184A true CN115626184A (zh) | 2023-01-20 |
CN115626184B CN115626184B (zh) | 2023-07-21 |
Family
ID=84909780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211629437.2A Active CN115626184B (zh) | 2022-12-19 | 2022-12-19 | 自动驾驶车辆的权重系数和控制策略自学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115626184B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109839937A (zh) * | 2019-03-12 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 确定车辆自动驾驶规划策略的方法、装置、计算机设备 |
CN111483468A (zh) * | 2020-04-24 | 2020-08-04 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和*** |
US20210276598A1 (en) * | 2020-03-05 | 2021-09-09 | Elmira Amirloo Abolfathi | Machine-learning based system for path and/or motion planning and method of training the same |
CN114170488A (zh) * | 2021-12-10 | 2022-03-11 | 安徽酷哇机器人有限公司 | 基于条件模仿学习和强化学习的自动驾驶方法 |
CN114444655A (zh) * | 2021-12-28 | 2022-05-06 | 郑州英集动力科技有限公司 | 基于蓝牙通信和迁移学习的热用户室温测量及控制方法 |
CN114675742A (zh) * | 2022-05-04 | 2022-06-28 | 吉林大学 | 一种面向高度自动驾驶的人机决策逻辑在线校验方法 |
-
2022
- 2022-12-19 CN CN202211629437.2A patent/CN115626184B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109839937A (zh) * | 2019-03-12 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 确定车辆自动驾驶规划策略的方法、装置、计算机设备 |
US20210276598A1 (en) * | 2020-03-05 | 2021-09-09 | Elmira Amirloo Abolfathi | Machine-learning based system for path and/or motion planning and method of training the same |
CN111483468A (zh) * | 2020-04-24 | 2020-08-04 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和*** |
CN114170488A (zh) * | 2021-12-10 | 2022-03-11 | 安徽酷哇机器人有限公司 | 基于条件模仿学习和强化学习的自动驾驶方法 |
CN114444655A (zh) * | 2021-12-28 | 2022-05-06 | 郑州英集动力科技有限公司 | 基于蓝牙通信和迁移学习的热用户室温测量及控制方法 |
CN114675742A (zh) * | 2022-05-04 | 2022-06-28 | 吉林大学 | 一种面向高度自动驾驶的人机决策逻辑在线校验方法 |
Non-Patent Citations (1)
Title |
---|
印度)桑塔努·帕塔纳亚克(SANTANU PATTANAYAK), 机械工业出版社 * |
Also Published As
Publication number | Publication date |
---|---|
CN115626184B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN112193280B (zh) | 一种重载列车强化学习控制方法及*** | |
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN110991757B (zh) | 一种混合动力电动汽车综合预测能量管理方法 | |
CN111284489B (zh) | 智能网联汽车随机预测巡航控制*** | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN116027669A (zh) | 一种高速列车自适应滑模控制方法、***及电子设备 | |
Ure et al. | Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning | |
CN114815882B (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
Yang et al. | Longitudinal tracking control of vehicle platooning using DDPG-based PID | |
Liessner et al. | Safe deep reinforcement learning hybrid electric vehicle energy management | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制***及方法 | |
CN114355897B (zh) | 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及*** | |
Precup et al. | A survey on fuzzy control for mechatronics applications | |
CN115626184A (zh) | 自动驾驶车辆的权重系数和控制策略自学习方法及装置 | |
CN116681142A (zh) | 基于迭代式策略约束的智能体强化学习方法和装置 | |
CN114278727B (zh) | 极限工况下的车辆自动换挡控制方法、***、介质及设备 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
CN114537391A (zh) | 一种基于预报观测器的车辆跟驰伺服控制方法及*** | |
Zhu et al. | Autonomous driving vehicle control auto-calibration system: An industry-level, data-driven and learning-based vehicle longitudinal dynamic calibrating algorithm | |
CN111598311B (zh) | 一种新型列车运行速度曲线智能优化方法 | |
CN113537620A (zh) | 基于Markov模型优化和工况识别的车速预测方法 | |
Natella et al. | A Q-learning approach for SoftECU design in hybrid electric vehicles | |
Han et al. | Research on vehicle cruise control based on online asynchronous supervised reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |