CN112099496B - 一种自动驾驶训练方法、装置、设备及介质 - Google Patents
一种自动驾驶训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112099496B CN112099496B CN202010934770.9A CN202010934770A CN112099496B CN 112099496 B CN112099496 B CN 112099496B CN 202010934770 A CN202010934770 A CN 202010934770A CN 112099496 B CN112099496 B CN 112099496B
- Authority
- CN
- China
- Prior art keywords
- structured noise
- historical data
- automatic driving
- data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 title claims abstract description 80
- 230000009471 action Effects 0.000 claims abstract description 57
- 238000011156 evaluation Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 53
- 238000010586 diagram Methods 0.000 description 12
- 238000004088 simulation Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000002787 reinforcement Effects 0.000 description 7
- 230000001276 controlling effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/0278—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B9/00—Simulators for teaching or training purposes
- G09B9/02—Simulators for teaching or training purposes for teaching control of vehicles or other craft
- G09B9/04—Simulators for teaching or training purposes for teaching control of vehicles or other craft for teaching control of land vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Electromagnetism (AREA)
- Theoretical Computer Science (AREA)
- Educational Technology (AREA)
- Optics & Photonics (AREA)
- Educational Administration (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请公开了一种自动驾驶训练方法、装置、设备及介质,包括:获取当前时刻的交通环境状态以及对应的结构化噪声;所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;控制所述自动驾驶车辆执行所述执行动作;通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;基于所述回报通过反向传播运算更新评价网络参数;利用策略梯度算法更新策略网络参数。能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。
Description
技术领域
本申请涉及自动驾驶技术领域,特别涉及一种自动驾驶训练方法、装置、设备及介质。
背景技术
现代城市交通中,机动车数量日益增多,道路拥堵情况严重,且交通事故频发。有研究表明,每个人一生中因交通拥堵导致的时间浪费长达3年,而 90%的交通事故由人为操作失误或错误造成。为最大程度降低人为因素造成的危害,人们将目光转向自动驾驶领域。根据驾驶员在车辆行驶过程中的参与度大小,将自动驾驶由低到高分为Level-0至Level-5共6个级别,即人类驾驶员驾驶、辅助驾驶、部分自动驾驶、条件自动驾驶、高度自动驾驶和完全自动驾驶。目前,主流自动驾驶企业或项目普遍达到Level-3级别。自动驾驶是一项十分复杂的集成性技术,涵盖车载传感器、数据处理器、控制器等硬件装置,并需要现代移动通信与网络技术作为支撑,以实现车辆、行人和非机动车等交通参与者之间的信息传递与共享,完成在复杂环境下的传感感知、决策规划和控制执行等功能,实现车辆的自动加速/减速、转向、超车、刹车等操作,保证行车安全。参见图1所示,本图1为本申请实施例提供的一种自动驾驶车辆控制架构示意图。
基于模拟器环境进行自动驾驶***计算机仿真是自动驾驶车辆测试和试验的基础关键技术,能够有效保证上自动驾驶车辆的安全性,以及加速自动驾驶研究应用。现有的自动驾驶仿***要分为两类,即模块化方法(Modular Pipeline)和端到端方法(End-to-End Pipeline)。参见图2所示,图2为本申请提供的现有技术中的一种模块化方法示意图,将自动驾驶***分解成几个独立但互相关联的模块,如感知(Perception)、本地化(Localization)、规划 (Planning)和控制(Control)模块,具有良好的可解释性,在***发生故障时能快速定位到问题模块,是现阶段业界广泛使用的常规方法。然而,***的模块化构建和维护困难大,在面对新的复杂场景时不易更新。参见图3所示,图3为本申请提供的现有技术中的一种端到端方法示意图,端到端方法将自动驾驶问题视为一个机器学习问题,直接优化“传感器数据处理-生成控制命令- 执行命令”的整个流程。端到端的方法搭建简单,在自动驾驶领域获得快速发展,但方法本身也是一个“黑盒”,解释性差。端到端的方法也有2种形式,分别是Open-loop的模仿学习方法和Closed-loop的强化学习方法。参见图4所示,图4为本申请提供的现有技术中的一种Open-loop的模仿学习方法示意图。 Open-loop的模仿学习方法通过模仿人类驾驶员的行为,以监督学习的方式学会自动驾驶,强调一种“预测能力”,图5为本申请提供的现有技术中的一种 Closed-loop的强化学习方法示意图,Closed-loop的强化学习方法,借助马尔科夫决策过程(MDP,Markov DecisionProcess)从头开始探索和改进自动驾驶策略,强调一种“驾驶能力”。强化学习(RL,Reinforcement Learning)是近年来快速发展的一类机器学习方法,其中的智能体(Agent)-环境 (Environment)交互作用机制和序列决策机制接近于人类学习的过程,因此也被称为实现“通用人工智能(AGI,Artificial General Intelligence)”的关键步骤。结合深度学习(DL,Deep Learning)的深度强化学习(DRL,Deep Reinforcement Learning)算法能够自动学习大规模输入数据的抽象表征,决策性能更加优秀,已经在电子游戏、机械控制、广告推荐、金融交易、城市交通等领域获得了广泛应用。
DRL应用于自动驾驶问题时不需要领域专家知识,也不需要建立模型,具有较为广泛的适应性,能够应对不断变化的复杂道路环境。然而,基于DRL 的自动驾驶车辆从头开始学***稳,甚至出现冲出车道、碰撞等事故。现有研究成果表明,相比模块化方法和Open-loop的模仿学习方法,基于DRL的自动驾驶训练的稳定性最差,并且对环境、天气变化十分敏感。
发明内容
有鉴于此,本申请的目的在于提供一种自动驾驶训练方法、装置、设备及介质,能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。其具体方案如下:
第一方面,本申请公开了一种自动驾驶训练方法,包括:
获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
控制所述自动驾驶车辆执行所述执行动作;
通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
基于所述回报通过反向传播运算更新评价网络参数;
利用策略梯度算法更新策略网络参数。
可选的,所述自动驾驶训练方法,还包括:
利用DQN算法对自动驾驶车辆进行预训练;
将对应的预训练数据存放至回放缓冲区,将所述回放缓冲区存放的数据作为所述历史数据。
可选的,所述基于所述回报通过反向传播运算更新评价网络参数,包括:
基于所述回报进行针对评价网络损失函数的反向传播运算,单步更新所述评价网络参数。
可选的,所述利用策略梯度算法更新策略网络参数,包括:
利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算,更新所述策略网络参数。
可选的,所述自动驾驶训练方法,还包括:
预先计算所述结构化噪声。
可选的,所述预先计算所述结构化噪声,包括:
从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch;
计算出所述minibatch中每条所述历史数据的高斯因子;
利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。
可选的,所述预先计算所述结构化噪声,包括:
从所述历史数据中随机抽取数据,得到多个minibatch;
计算出每个所述minibatch中每条所述历史数据的高斯因子,然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。
第二方面,本申请公开了一种自动驾驶训练装置,包括:
数据获取模块,用于获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
动作确定模块,用于通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
动作控制模块,用于控制所述自动驾驶车辆执行所述执行动作;
策略评价模块,用于通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
评价网络更新模块,用于基于所述回报通过反向传播运算更新评价网络参数;
策略网络更新模块,用于利用策略梯度算法更新策略网络参数。
第三方面,本申请公开了一种自动驾驶训练设备,包括处理器和存储器;
其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现前述的自动驾驶训练方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的自动驾驶训练方法。
可见,本申请获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息,然后通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作,之后控制所述自动驾驶车辆执行所述执行动作,并通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报,然后基于所述回报通过反向传播运算更新评价网络参数以及利用策略梯度算法更新策略网络参数。这样,在自动驾驶的训练过程中,引入基于历史数据的结构化噪声,并且,历史数据包括历史动作信息以及历史交通环境状态信息,能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种自动驾驶车辆控制架构示意图;
图2为现有技术中的一种模块化方法示意图;
图3为现有技术中的一种端到端方法示意图;
图4为现有技术中的一种Open-loop的模仿学习方法示意图;
图5为现有技术中的一种Closed-loop的强化学习方法示意图;
图6为本申请公开的一种自动驾驶训练方法流程图;
图7为本申请公开的一种自动驾驶训练示意图;
图8为本申请公开的一种具体的自动驾驶训练方法流程图;
图9为本申请公开的一种具体的自动驾驶训练方法流程图;
图10为本申请公开的一种自动驾驶训练装置结构示意图;
图11为本申请公开的一种自动驾驶训练设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
DRL应用于自动驾驶问题时不需要领域专家知识,也不需要建立模型,具有较为广泛的适应性,能够应对不断变化的复杂道路环境。然而,基于DRL 的自动驾驶车辆从头开始学***稳,甚至出现冲出车道、碰撞等事故。现有研究成果表明,相比模块化方法和Open-loop的模仿学习方法,基于DRL的自动驾驶训练的稳定性最差,并且对环境、天气变化十分敏感。为此,本申请提供了一种自动驾驶训练方案,能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。
参见图6所示,本申请实施例公开了一种自动驾驶训练方法,包括:
步骤S11:获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息。
获取当前时刻的交通环境状态St以及对应的结构化噪声zt。
需要指出的是,基于DRL的自动驾驶***序列决策过程为:自动驾驶车辆(即智能体)在t时刻观测到所处环境的状态St,如自身和其他交通参与者的位置、速度、加速度等动力学信息,交通信号灯以及道路拓扑特征等信息,利用非线性的神经网络(NN,NeuralNetwork)表示策略(Policy)πθ,并选取车辆动作at,如加速/减速、转向、变道、刹车等。进入下一个时刻t+1,环境根据自动驾驶车辆采取的动作at,结合设定的基准,如自动驾驶车辆平均行驶速度、偏离车道中心距离、闯红灯、发生碰撞等因素,计算出回报rt+1,并进入一个新的状态St+1。自动驾驶车辆根据获得的回报rt+1对策略πθ进行调整,并结合新的状态St+1进入下一个决策过程。通过自动驾驶车辆与环境之间的交互做出序列决策,学***稳、安全驾驶。现有的基于DRL的自动驾驶研究应用多采用能够应对连续动作空间的算法,如深度确定策略梯度算法(DDPG,DeepDeterministic Policy Gradient)、置信域策略优化算法(TRPO,Trust Region PolicyOptimization) 和近端策略优化算法(PPO,Proximal Policy Optimization)。本实施例可以将 DRL与结构化噪声融合,进行自动驾驶决策。考虑自动驾驶问题的状态空间和动作空间连续性,本实施例可以使用样本效率和计算效率较高的DDPG算法。在其他一些实施例中,还可以利用异步优势Actor-Critic算法A3C (Asynchronous Advantage Actor-Critic)、双延迟确定性策略梯度算法TD3 (Twin Delayed Deep Deterministic policygradient)、松弛Actor-Critic算法SAC (Soft Actor-Critic)。
在具体的实施方式中,本实施例可以获取车辆传感器采集到的交通环境状态数据。具体的,可以借助摄像头、GPS(即Global Positioning System,全球定位***)、IMU(即Inertia Measurement Unit,惯性测量装置)、毫米波雷达、激光雷达等车载传感器装置,获取行车环境状态,如天气数据、交通信号灯、交通拓扑信息,自动驾驶车辆、其他交通参与者的位置、运行状态等信息,并且,本实施例的交通环境状态不仅包括摄像头获取的直接原始图像数据,还包括通过深度学习模型,如RefineNet等处理得到的深度图和语义分割图等。其中,针对自动驾驶车辆,可以直接获得的状态信息有:车辆的行驶速度和侧向速度v、u;方向盘的转向角δ;车辆中心与道路中心线的距离偏差ΔL;车辆与四个方向最近的交通参与者的距离Δxi,i=1~4等。
步骤S12:通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作。
在具体的实施方式中,ActorNet(策略网络)基于策略函数πθ(as,z)选取动作at,自动驾驶车辆完成相应动作,如“向左变道”,其中θ为Actor Net的网络参数,s表示交通环境状态,z表示结构化噪声。
步骤S13:控制所述自动驾驶车辆执行所述执行动作。
步骤S14:通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报。
在具体的实施方式中,CriticNet(评价网络)根据自动驾驶车辆执行的动作at,基于价值函数Qω(s,a,z)对ActorNet的策略进行评价,并得到交通环境给予的回报rt+1,其中,ω为CriticNet的网络参数。
其中,价值函数Qω(s,a,z)为由预设的回报函数转化得到。
需要指出的是,本申请实施例还可以预先设计研究自动驾驶问题的回报函数rt。考虑自动驾驶仿真的具体场景,以及自动驾驶车辆平均行驶速度,偏离车道中心距离,扰***通的时长,是否压线、闯红灯、发生碰撞等评估指标,可以将自动驾驶车辆的回报函数设计成不同形式。以车辆变道的仿真场景举例,根据自动驾驶车辆变道是否成功、是否扰***通,甚至发生碰撞等因素,可以将回报函数设计为:
其中,v为自动驾驶车辆的行驶速度,vref为根据道路限速设定的参考速度,λ是人为设定的系数。
并且,价值函数可通过回报函数计算得到,形式为:
其中,γ∈(0,1]为折扣因子。本实施例引入结构化噪声,相应的价值函数为Qω(s,a,z),E表示求期望运算。
步骤S15:基于所述回报通过反向传播运算更新评价网络参数。
在具体的实施方式中,基于所述回报进行针对评价网络损失函数的反向传播运算,单步更新所述评价网络参数。具体的,通过反向传播传播运算,最小化评价网络损失函数,单步更新网络参数ω。其中,评价网络损失函数为:
式中,yt=rt+1+γQ′ω(st+1,at+1,zt+1)。Q′ω(st+1,at+1,zt+1)和Qω(st,at,zt)分别是目标网络和预测网络的价值函数。N为采集的样本数量,γ∈(0,1]为折扣因子。其中,所述目标网络和预测网络为基于DQN(即Deep-Q-Network,深度价值函数神经网络)算法设计的神经网络。
步骤S16:利用策略梯度算法更新策略网络参数。
在具体的实施方式中,本实施例可以利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算,更新所述策略网络参数。
具体的,本实施例通过如下策略梯度,更新Actor Net的网络参数θ:
其中,J(θ)为策略梯度方法的目标函数,通常使用回报的某种形式表示。由Critic Net的价值函数关于动作a求导得到,为当前步骤下Actor Net的策略求导得到。策略梯度方法的任务是使得目标函数最大化,通过梯度上升来实现。借助上式得到策略梯度后,通过θ←θ+α▽θJ(θ)对网络参数θ进行更新,其中,α为固定的时间步参数。
重复上述步骤S11至步骤S15,直至自动驾驶结束。
例如,参见图7所示,图7为本申请公开的一种自动驾驶训练示意图。结合结构化噪声z,使用DDPG算法训练车辆自动驾驶。DDPG算法是一种典型的 Actor-Critic的强化学习算法。其中,策略网络(Actor Net)根据评价网络(Critic Net)反馈的价值函数更新策略,而Critic Net训练价值函数,使用时间差分法 (TD)进行单步更新。并且,Critic Net包括基于DQN算法设计的目标网络 (Target Net)和预测网络(Pred Net),网络参数更新时会使用两个网络的价值函数。Actor Net和Critic Net共同作用,使智能体选择的动作获得最大累计回报。
可见,本申请实施例获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息,然后通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作,之后控制所述自动驾驶车辆执行所述执行动作,并通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报,然后基于所述回报通过反向传播运算更新评价网络参数以及利用策略梯度算法更新策略网络参数。这样,在自动驾驶的训练过程中,引入基于历史数据的结构化噪声,并且,历史数据包括历史动作信息以及历史交通环境状态信息,能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。
参见图8所示,本申请实施例公开了一种具体的自动驾驶训练方法,包括:
步骤S21:利用DQN算法对自动驾驶车辆进行预训练。
步骤S22:将对应的预训练数据存放至回放缓冲区,将所述回放缓冲区存放的数据作为所述历史数据。
在具体的实施方式中,利用经典的DQN算法对车辆自动驾驶进行预训练,积累回放缓冲区数据B。使用经典的DQN方法,构建2个结构相同但参数不同的神经网络,分别是间隔一定时间更新参数的目标网络(Target Net)和每步更新参数的预测网络(Pred Net)。以车辆变道的仿真场景举例,自动驾驶车辆在每个时刻t的动作空间为[at1,at2,at3],分别表示“向左变道”、“向右变道”和“保持当前车道”。Target Net和Pred Net均使用简单的3层神经网络,中间仅包含一个隐藏层。输入车辆传感器装置采集到的交通环境状态St,计算输出目标价值Qtarget和预测价值Qpred,并选择最大的Qpred对应的动作at作为自动驾驶车辆的驾驶动作。依据设计的回报函数,获得回报rt+1,进入新的交通环境状态St+1,并将学习经历ct=(st,at,rt,st+1)存储到回放缓冲区中。使用RMSProP优化器更新网络参数以最小化损失函数,持续对自动驾驶车辆进行预训练,直至累计足够的回放缓冲区数据B。
步骤S23:计算所述结构化噪声。
在一种具体的实施方式中,本实施例可以从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch(即小批量数据);计算出所述minibatch中每条所述历史数据的高斯因子;利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。
在另一种具体的实施方式中,本实施例可以从所述历史数据中随机抽取数据,得到多个minibatch;计算出每个所述minibatch中每条所述历史数据的高斯因子,然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。
也即,可以利用多个minibatch计算出多个结构化噪声,这样,在进行自动驾驶训练时,可以利用不同的结构化噪声训练,以提升自动驾驶的鲁棒性。
具体的,可以从回放缓冲区B中随机取出minibatch bi~B,minibatch bi中包含N条历史数据c1:N=(sn,an,rn,sn+1),n=1~N。计算得到每一条历史数据的高斯因子。采样的每一条历史数据cn的高斯因子,即Ψφ(z|cn)=N(μn,σn)。其中,N表示高斯分布,则历史数据cn的高斯因子表示为
使用神经网络NN(Neural Network)计算,其中,均值方差φ为神经网络f的参数。计算得到概率表示的潜在变量,即结构化噪声。采样的每一个minibatch bi的结构化噪声,即z~qφ(z|c1:N)。其中, qφ(z|c1:N)由每一条历史数据cn的高斯因子Ψφ(z|cn)累乘得到,即
也即,本实施例可以预先计算所述结构化噪声,在另外一些实施例中,可以在获取当前时刻的交通环境状态时,从历史数据中抽取minibatch,计算出当前时刻对应的结构化噪声。
步骤S24:获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息。
在一种具体的实施方式中,本实施例可以获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为预先计算出的固定值,每个时刻所采用的结构化噪声相同。
在另一种具体的实施方式中,本实施例可以获取当前时刻的交通状态以及对应的结构化噪声;其中,当前时刻获取的所述结构化噪声为从预先计算出的多个所述结构化噪声中获取的一个结构化噪声。具体的,可以循环从预先计算出的多个所述结构化噪声中获取当前时刻对应的结构化噪声。例如,预先计算出100个结构化噪声,可以循环从100个结构化噪声中获取当前时刻对应的结构化噪声。当然,在另外一些实施例中,获取当前时刻对应的结构化噪声的具体过程可以包括:实时从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch,然后计算出该minibatch中每条所述历史数据的高斯因子,利用全部所述高斯因子计算出该minibatch对应的所述结构化噪声。
可以理解的是,利用不同的结构化噪声进行训练,可以提升自动驾驶的鲁棒性。
步骤S25:通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作。
步骤S26:控制所述自动驾驶车辆执行所述执行动作。
步骤S27:通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报。
在具体的实施方式中,所述评价网络继承了预训练后的目标网络和神经网络,从而提升了自动驾驶训练的效率。
步骤S28:基于所述回报通过反向传播运算更新评价网络参数。
步骤S29:利用策略梯度算法更新策略网络参数。
也即,本申请提供了一种DRL与结构化噪声融合的自动驾驶决策方法,在自动驾驶模拟平台中,通过车辆传感器装置获取环境状态信息,从回放缓冲区(Replay Buffer)中采样历史数据,借助高斯因子算法在策略函数和价值函数中引入结构化噪声,解决基于DRL的自动驾驶序列决策的鲁棒性问题,避免自动驾驶车辆面对复杂环境时行驶不稳定、甚至引发事故的危险情况。例如,参见图9所示,本申请实施例公开了一种具体的自动驾驶训练方法,包括(1)获取车辆传感器装置采集到的交通环境状态St;(2)设计所研究自动驾驶问题的回报函数rt;(3)使用经典的DQN算法对车辆自动驾驶进行预训练,积累回放缓冲区数据B;(4)从回放缓冲区B中取样历史数据c,利用高斯因子计算概率表示的潜在变量z,即结构化的噪声;(5)结合结构化噪声z,使用DDPG算法训练车辆自动驾驶。
参见图10所示,本申请实施例公开了一种自动驾驶训练装置,包括:
数据获取模块11,用于获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
动作确定模块12,用于通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
动作控制模块13,用于控制所述自动驾驶车辆执行所述执行动作;
策略评价模块14,用于通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
评价网络更新模块15,用于基于所述回报通过反向传播运算更新评价网络参数;
策略网络更新模块16,用于利用策略梯度算法更新策略网络参数。
可见,本申请实施例获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息,然后通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作,之后控制所述自动驾驶车辆执行所述执行动作,并通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报,然后基于所述回报通过反向传播运算更新评价网络参数以及利用策略梯度算法更新策略网络参数。这样,在自动驾驶的训练过程中,引入基于历史数据的结构化噪声,并且,历史数据包括历史动作信息以及历史交通环境状态信息,能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。
所述装置还包括预训练模块,用于利用DQN算法对自动驾驶车辆进行预训练;将对应的预训练数据存放至回放缓冲区,将所述回放缓冲区存放的数据作为所述历史数据。
评价网络更新模块15,具体用于基于所述回报进行针对评价网络损失函数的反向传播运算,单步更新所述评价网络参数。
策略网络更新模块16,具体用于利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算,更新所述策略网络参数。
所述装置还包括结构化噪声计算模块,用于预先计算所述结构化噪声。
在一种具体的实施方式中,所述结构化噪声计算模块,具体用于从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch;计算出所述minibatch中每条所述历史数据的高斯因子;利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。
在另一种具体的实施方式中,所述结构化噪声计算模块,具体用于从所述历史数据中随机抽取数据,得到多个minibatch;计算出每个所述minibatch中每条所述历史数据的高斯因子,然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。
参见图11所示,本申请实施例公开了一种自动驾驶训练设备,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器 21,用于执行所述计算机程序,以实现前述实施例公开的神经网络模型训练方法。
关于上述自动驾驶训练方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的自动驾驶训练方法。
关于上述自动驾驶训练方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种自动驾驶训练方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (7)
1.一种自动驾驶训练方法,其特征在于,包括:
预先计算结构化噪声;
获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
控制所述自动驾驶车辆执行所述执行动作;
通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
基于所述回报通过反向传播运算更新评价网络参数;
利用策略梯度算法更新策略网络参数;
所述预先计算结构化噪声,包括:从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch;
计算出所述minibatch中每条所述历史数据的高斯因子;
利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声;
或,所述预先计算结构化噪声,包括:从所述历史数据中随机抽取数据,得到多个minibatch;
计算出每个所述minibatch中每条所述历史数据的高斯因子,然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。
2.根据权利要求1所述的自动驾驶训练方法,其特征在于,还包括:
利用DQN算法对自动驾驶车辆进行预训练;
将对应的预训练数据存放至回放缓冲区,将所述回放缓冲区存放的数据作为所述历史数据。
3.根据权利要求1所述的自动驾驶训练方法,其特征在于,所述基于所述回报通过反向传播运算更新评价网络参数,包括:
基于所述回报进行针对评价网络损失函数的反向传播运算,单步更新所述评价网络参数。
4.根据权利要求1所述的自动驾驶训练方法,其特征在于,所述利用策略梯度算法更新策略网络参数,包括:
利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算,更新所述策略网络参数。
5.一种自动驾驶训练装置,其特征在于,包括:
结构化噪声计算模块,用于预先计算结构化噪声;
数据获取模块,用于获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
动作确定模块,用于通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
动作控制模块,用于控制所述自动驾驶车辆执行所述执行动作;
策略评价模块,用于通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
评价网络更新模块,用于基于所述回报通过反向传播运算更新评价网络参数;
策略网络更新模块,用于利用策略梯度算法更新策略网络参数;
所述结构化噪声计算模块,具体用于从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch;计算出所述minibatch中每条所述历史数据的高斯因子;利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声;
或,所述结构化噪声计算模块,具体用于从所述历史数据中随机抽取数据,得到多个minibatch;计算出每个所述minibatch中每条所述历史数据的高斯因子,然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。
6.一种自动驾驶训练设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至4任一项所述的自动驾驶训练方法。
7.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的自动驾驶训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010934770.9A CN112099496B (zh) | 2020-09-08 | 2020-09-08 | 一种自动驾驶训练方法、装置、设备及介质 |
PCT/CN2021/073449 WO2022052406A1 (zh) | 2020-09-08 | 2021-01-23 | 一种自动驾驶训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010934770.9A CN112099496B (zh) | 2020-09-08 | 2020-09-08 | 一种自动驾驶训练方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112099496A CN112099496A (zh) | 2020-12-18 |
CN112099496B true CN112099496B (zh) | 2023-03-21 |
Family
ID=73752230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010934770.9A Active CN112099496B (zh) | 2020-09-08 | 2020-09-08 | 一种自动驾驶训练方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112099496B (zh) |
WO (1) | WO2022052406A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112099496B (zh) * | 2020-09-08 | 2023-03-21 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112835368A (zh) * | 2021-01-06 | 2021-05-25 | 上海大学 | 一种多无人艇协同编队控制方法及*** |
CN112904864B (zh) * | 2021-01-28 | 2023-01-03 | 的卢技术有限公司 | 基于深度强化学习的自动驾驶方法和*** |
CN113253612B (zh) * | 2021-06-01 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶控制方法、装置、设备及可读存储介质 |
CN113743469B (zh) * | 2021-08-04 | 2024-05-28 | 北京理工大学 | 一种融合多源数据及综合多维指标的自动驾驶决策方法 |
CN113449823B (zh) * | 2021-08-31 | 2021-11-19 | 成都深蓝思维信息技术有限公司 | 自动驾驶模型训练方法及数据处理设备 |
CN113991654B (zh) * | 2021-10-28 | 2024-01-23 | 东华大学 | 一种能源互联网混合能量***及其调度方法 |
CN114120653A (zh) * | 2022-01-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 一种集中式车群决策控制方法、装置及电子设备 |
CN114104005B (zh) * | 2022-01-26 | 2022-04-19 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114859899B (zh) * | 2022-04-18 | 2024-05-31 | 哈尔滨工业大学人工智能研究院有限公司 | 移动机器人导航避障的演员-评论家稳定性强化学习方法 |
CN114895697B (zh) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
CN114859734B (zh) * | 2022-06-15 | 2024-06-07 | 厦门大学 | 一种基于改进sac算法的温室环境参数优化决策方法 |
CN115903457B (zh) * | 2022-11-02 | 2023-09-08 | 曲阜师范大学 | 一种基于深度强化学习的低风速永磁同步风力发电机控制方法 |
CN116811915A (zh) * | 2023-06-30 | 2023-09-29 | 清华大学 | 基于乘员脑电信号的车辆决策方法、装置和计算机设备 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117041916B (zh) * | 2023-09-27 | 2024-01-09 | 创意信息技术股份有限公司 | 一种海量数据处理方法、装置、***及存储介质 |
CN117330063B (zh) * | 2023-12-01 | 2024-03-22 | 华南理工大学 | 一种提升imu和轮速计组合定位算法精度的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196587A (zh) * | 2018-02-27 | 2019-09-03 | 中国科学院深圳先进技术研究院 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019089591A1 (en) * | 2017-10-30 | 2019-05-09 | Mobileye Vision Technologies Ltd. | Vehicle navigation based on human activity |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110481536B (zh) * | 2019-07-03 | 2020-12-11 | 中国科学院深圳先进技术研究院 | 一种应用于混合动力汽车的控制方法及设备 |
CN110989577B (zh) * | 2019-11-15 | 2023-06-23 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111310915B (zh) * | 2020-01-21 | 2023-09-01 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN112099496B (zh) * | 2020-09-08 | 2023-03-21 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112256746A (zh) * | 2020-09-11 | 2021-01-22 | 安徽中科新辰技术有限公司 | 一种基于标签化数据治理技术实现方法 |
-
2020
- 2020-09-08 CN CN202010934770.9A patent/CN112099496B/zh active Active
-
2021
- 2021-01-23 WO PCT/CN2021/073449 patent/WO2022052406A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196587A (zh) * | 2018-02-27 | 2019-09-03 | 中国科学院深圳先进技术研究院 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022052406A1 (zh) | 2022-03-17 |
CN112099496A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110796856B (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
US11900797B2 (en) | Autonomous vehicle planning | |
US20220212693A1 (en) | Method and apparatus for trajectory prediction, device and storage medium | |
CN107229973B (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
Min et al. | Deep Q learning based high level driving policy determination | |
Chen et al. | Driving maneuvers prediction based autonomous driving control by deep Monte Carlo tree search | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及*** | |
CN115303297B (zh) | 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 | |
CN112406904B (zh) | 自动驾驶策略的训练方法、自动驾驶方法、设备和车辆 | |
CN115578876A (zh) | 一种车辆的自动驾驶方法、***、设备及存储介质 | |
CN113989330A (zh) | 车辆轨迹预测方法、装置、电子设备和可读存储介质 | |
Wei et al. | Game theoretic merging behavior control for autonomous vehicle at highway on-ramp | |
CN113743469A (zh) | 一种融合多源数据及综合多维指标的自动驾驶决策方法 | |
CN116476863A (zh) | 基于深度强化学习的自动驾驶横纵向一体化决策方法 | |
CN117325865A (zh) | 一种lstm轨迹预测的智能车辆换道决策方法及*** | |
Youssef et al. | Comparative study of end-to-end deep learning methods for self-driving car | |
US20210398014A1 (en) | Reinforcement learning based control of imitative policies for autonomous driving | |
CN116448134B (zh) | 基于风险场与不确定分析的车辆路径规划方法及装置 | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
WO2023135271A1 (en) | Motion prediction and trajectory generation for mobile agents | |
Ren et al. | Intelligent path planning and obstacle avoidance algorithms for autonomous vehicles based on enhanced rrt algorithm | |
CN115719547A (zh) | 基于多重交互行为的交通参与者轨迹预测方法及*** | |
CN115116240A (zh) | 一种无信号灯交叉路口车辆协同控制方法及*** | |
CN115107806A (zh) | 一种自动驾驶***中面向突发事件场景的车辆轨迹预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |