CN114708568A - 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 - Google Patents

基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 Download PDF

Info

Publication number
CN114708568A
CN114708568A CN202210632703.0A CN202210632703A CN114708568A CN 114708568 A CN114708568 A CN 114708568A CN 202210632703 A CN202210632703 A CN 202210632703A CN 114708568 A CN114708568 A CN 114708568A
Authority
CN
China
Prior art keywords
vehicle
network
automatic driving
thermal infrared
rtfnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210632703.0A
Other languages
English (en)
Other versions
CN114708568B (zh
Inventor
刘洋
王永富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202210632703.0A priority Critical patent/CN114708568B/zh
Publication of CN114708568A publication Critical patent/CN114708568A/zh
Application granted granted Critical
Publication of CN114708568B publication Critical patent/CN114708568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质,涉及自动驾驶控制领域。针对传统自动驾驶方法在夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境下行驶效果欠佳的问题,在语义分割模块引入一种改进的基于多模态特征融合的语义分割方法RTFNet,使用自制数据集训练改进RTFNet网络模型,融合RGB图像和热红外图像并进行语义分割生成分割图,将分割图作为强化学***。

Description

基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
技术领域
本发明涉及自动驾驶控制领域,特别是涉及基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质。
背景技术
随着科技的发展和人民生活水平的提高,自动驾驶技术在生产和生活中得到了广泛的普及,能够有效地减少驾驶员的疲劳、增加驾驶安全性。自动驾驶技术是指汽车等交通工具在驾驶过程中可以通过车载传感器接收外界驾驶环境的相关信息,将所探测到的道路、车辆位置和障碍物等信息输入到车载设备上位机的CPU或GPU进行逻辑推理和运算,然后将结果指令输出到执行器,进而通过改变转向、速度等控制交通工具的运行,实现交通工具在限定或非限定条件下代替人类驾驶员进行部分自动或全自动驾驶。低可见度环境下自动驾驶技术是自动驾驶领域的一个热点问题,得到了十分广泛的关注。
目前大多数自动驾驶技术都是基于激光雷达和RGB摄像头提供的外界驾驶环境的相关信息,使用传统控制方法进行决策的。传统控制方法一般是建立发动机和交通工具行驶过程的近似数学模型,在此基础上设计控制器进行控制,对模型的数学建模具有依赖性,当模型阶数和参数出现误差时,控制就达不到预期的效果。由于现实低可见度环境具有特征稀疏、高度复杂以及不确定性强的特点,无法向车载设备上位机提供外界驾驶环境的准确信息,导致强化学习算法的鲁棒性差且不易收敛。激光雷达工作时易受恶劣环境影响且存在定位误差,激光雷达和与之配套的高精度地图价格高昂。算法在夜间、迎面车灯眩光和雾霾等低可见度环境下效果欠佳。这些问题大大影响了自动驾驶的经济性、实用性和可靠性。
发明内容
本发明解决的是目前自动驾驶在低可见度环境下行驶效果不佳的问题,提供了基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质,能够提高自动驾驶控制***的感知能力、泛化能力和可靠性,减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时,能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境,从而实现全天候自动驾驶。
为了达到上述目的,本发明采用的技术方案为:
基于改进RTFNet的纯视觉自动驾驶控制***,包括探测单元、车载上位机;所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块。
所述语义分割模块,采用改进的RTFNet网络模型:使用探测单元采集的热红外-RGB联合数据集进行训练,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。
所述强化学习模块:根据专家经验数据集,对DDPG模型进行预训练,将分割图输入经预训练的DDPG模型,获得DDPG模型的损失函数值和优化DDPG模型参数。
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数在自动驾驶仿真试验台中迭代获得离线决策模型;在真实环境中采集真实驾驶动作决策数据集,对离线决策模型进行优化迭代,获得最终决策模型;根据最终决策模型进行自动驾驶控制实车决策。
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像。
所述改进的RTFNet网络模型,用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力 (MHSA)模块;在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力 (MHSA)模块;将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块;增加跃层连接;采用改进的RTFNet网络模型作为语义特征融合模块,所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型。
另一方面,本发明还提供了基于改进RTFNet的纯视觉自动驾驶控制方法,采用所述***,包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(s t ,a t ,r t ,s t+1) p 作为专家经验数据集,对DDPG模型进行预训练直至达到设定的最大迭代次数n 1或算法收敛为止;其中,s t 是交通状态,a t 是驾驶动作指令,s t+1是新的交通状态,r t 是本次驾驶动作指令的奖励值;
S2:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I 1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I 2;在语义分割模块使用改进的RTFNet网络模型将I 1I 2进行多模态融合和语义分割生成分割图I 3
S3:将I 3作为交通状态输入到经过预训练的DDPG模型中,经过预训练的DDPG模型依据交通状态s t 从其动作空间中选择相应的驾驶动作指令a t 并输出,经驾驶动作指令a t 后形成新的交通状态s t+1,通过奖励函数计算本次驾驶动作指令的奖励值r t ,并将交通状态s t 、驾驶动作指令a t 、本次驾驶动作指令的奖励值r t 和新的交通状态s t+1作为转移样本(s t ,a t ,r t ,s t+1)存入经验回放池中;从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w
S4:在自动驾驶仿真试验台重复步骤S2-S4直至达到设定的最大迭代次数n 2或者算法收敛为止,生成离线决策模型π 1;在真实环境中采集真实驾驶动作决策数据集重复步骤S2-S4,对离线决策模型π 1进行优化更新直至迭代次数达到n 3次或者算法收敛为止,生成最终决策模型π 2
S5:根据最终决策模型π 2进行自动驾驶控制实车决策。
所述的S1具体过程,包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令a t 和环境感知传感器提供的交通状态s t 、经驾驶动作指令a t 后形成新的交通状态s t+1、通过奖励函数r计算的驾驶动作的奖励值r t 组成的样本集(s t ,a t ,r t ,s t+1) p 作为专家经验数据集;
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到n 1次或者算法收敛为止,得到经过预训练的DDPG模型。
所述的S2中,建立热红外-RGB联合数据集的具体过程,包括以下步骤:
S2.1.1:利用车载FLIR红外热像仪和车载RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像;
S2.1.2:使用图像标注工具软件对原始图像进行标注,生成语义图像和标签图像;
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例n 4将所有训练样本随机划分为训练集与测试集;
所述图像标注工具软件采用Labelme图像标注工具软件。
所述生成分割图I 3的具体过程,包括以下步骤:
S2.2.1:使用RGB编码器对自动驾驶车辆前方的交通状态RGB图像I 1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I 2进行特征提取并与I 1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I 3
所述的步骤S3中,奖励函数r包括行驶方向角度奖励函数r 1、安全距离奖励函数r 2、规则驾驶奖励函数r 3、速度奖励函数r 4,具体为:
行驶方向角度奖励函数r 1和安全距离奖励函数r 2,如式(1)所示:
Figure 87719DEST_PATH_IMAGE001
(1)
其中,k 1 k 2为常数
Figure DEST_PATH_IMAGE002
为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure 880226DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
为自动驾驶车辆中心点到车道中轴线的距离;
Figure 33864DEST_PATH_IMAGE005
为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,
Figure DEST_PATH_IMAGE006
均由探测单元获取;
规则驾驶奖励函数r 3,如式(2)所示:
Figure 304440DEST_PATH_IMAGE007
(2)
其中,k 3是常数;
速度奖励函数r 4,如式(3)所示:
Figure DEST_PATH_IMAGE008
(3)
其中,k 4是常数,V max 为该路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h
总奖励函数r,如式(4)所示:
r= r 1 + r 2 + r 3 + r 4 (4)。
所述S3中,计算DDPG模型的损失函数值L和优化DDPG模型参数w的具体过程,包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θ u 、θ Q 表示;其中,Actor网络以交通状态s t 为输入进行
Figure 519081DEST_PATH_IMAGE009
计算得到驾驶动作指令a t ,Critic网络以交通状态s t 和驾驶动作指令a t 为输入进行计算得到
Figure DEST_PATH_IMAGE010
S3.2:分别构建Actor网络和Critic网络的目标网络
Figure 341543DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
,参数分别用θ u’ 、θ Q’ 表示;建立经验回放池的存储空间R并得到初始交通状态s 1
S3.3:通过在Actor网络参数θ Q 上施加高斯扰动N对驾驶动作进行探索,如式(5)所示:
Figure 483943DEST_PATH_IMAGE013
(5)
S3.4:将交通状态s t 、驾驶动作指令a t 、在交通状态s t 时执行驾驶动作指令a t 得到的奖励值r t 和下一个交通状态s t+1构成一个元组(s t ,a t ,r t ,s t+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个元组数据(s i ,a i ,r i ,s i+1),通过贝尔曼方程对Q值进行估计,如式(6)所示:
Figure DEST_PATH_IMAGE014
(6)
其中,γ是衰减因子;
通过y i
Figure 56744DEST_PATH_IMAGE015
的差值对Critic网络进行更新,如式(7)所示:
Figure DEST_PATH_IMAGE016
(7)
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(8)所示:
Figure 600989DEST_PATH_IMAGE017
(8)
其中,
Figure DEST_PATH_IMAGE018
表示在策略网络参数θ u 下的策略梯度,
Figure 971184DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μs i )表示在策略网络在交通状态s i 时选取的驾驶动作策略,
Figure 600879DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
分别表示在交通状态s i 下采取驾驶动作a=μs i )时Critic网络的状态-动作值和该交通状态下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(9)所示:
Figure 337891DEST_PATH_IMAGE023
(9)
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。
另一方面,本发明还提供了一种计算机可读存储介质,所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现所述改进RTFNet的低可见度下纯视觉自动驾驶控制方法的步骤。
采用所述方案的有益技术效果为:
1、使用红外摄像头代替激光雷达接收外界驾驶环境的相关信息,显著节约了自动驾驶硬件成本,避免了恶劣环境对激光雷达的不利影响。
2、为了克服传统控制方法对外界驾驶环境的模型依赖性大以及模型误差较大导致的精度差、适应性差的缺点,引入深度强化学习算法DDPG,充分利用了真实低可见度环境中严格按照交通规则在各种交通状态时行驶的信息来加强自动驾驶车辆的规划和控制。
3、为了向车载设备上位机提供外界驾驶环境的准确信息,将车载RGB摄像头采集的RGB图像和车载FLIR红外热像仪采集的热红外图像进行多模态特征融合,生成了具有RGB图像的色彩和外观特征和热红外图像的轮廓特征的融合图,融合了二者的优点,更全面有效地表示驾驶环境的特征。
4、应用语义分割方法处理融合图,在剔除无关信息的同时使得强化学习***能够获得更为全面***的交通状态特征描述。
5、进行多模态特征融合和语义分割时,采用了改进RTFNet网络模型,能够提高网络模型的运行速度、分割结果的全局准确率和平均交并比。
6、基于模仿学习的方法对DDPG网络模型进行预训练并且为自动驾驶控制方法建立了奖励函数,使得DDPG算法更好地完成特征提取和决策相关性的建立,从而克服了稀疏奖励在长阶段任务中的影响,提高模型收敛速度和最终性能。
7、提出了多层次联合训练方法,分别在试验台和真实环境中训练自动驾驶车辆。通过自动驾驶车辆与真实环境直接进行交互,使得误差、延迟和噪声等干扰因素作为环境模型的一部分被DDPG算法隐式地建模,并在值估计和决策生成过程中被充分地考虑,既能避免强化学习模型对训练数据集的依赖的问题,又提高了算法的训练效率和鲁棒性。
附图说明
图1为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制***结构示意图;
图2为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法流程示意图;
图3为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的热红外-RGB联合数据集中的热红外图像和RGB图像、实际图像测试结果;
图4为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的RTFNet网络模型结构图;
图5为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的MHSA模块示意图;
图6为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的改进RTFNet网络模型结构图;
图7为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法DDPG算法流程示意图;
图8为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的仿真试验台示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质,能够提高自动驾驶控制***的感知能力、泛化能力和可靠性,减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时,能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境,从而实现全天候自动驾驶。
一方面,本实施例提出了基于改进RTFNet的纯视觉自动驾驶控制***,如图1所示,包括探测单元、车载上位机。
所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块。
所述语义分割模块,采用改进的RTFNet网络模型:用于训练探测单元采集的热红外-RGB联合数据集,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像。
所述改进的RTFNet网络模型,在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力 (MHSA)模块;在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力 (MHSA)模块;将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块;增加跃层连接;采用改进的RTFNet网络模型作为语义特征融合模块,所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型;
所述强化学习模块:根据经验样本集,对DDPG模型进行预训练,将分割图输入经预训练的DDPG模型,获得DDPG模型的损失函数值和优化DDPG模型参数;
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数自动驾驶仿真试验台中迭代获得离线决策模型;在真实环境中采集真实驾驶动作决策数据集,对离线决策模型进行优化迭代,获得最终决策模型;根据最终决策模型进行自动驾驶控制实车决策。
另一方面,本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制方法,如图2所示,包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(s t ,a t ,r t ,s t+1) p 作为专家经验数据集对DDPG模型进行预训练直至迭代次数达到3000次或者算法收敛为止;其中:s t 是交通状态,a t 是驾驶动作指令,s t+1是新的交通状态,r t 是本次驾驶动作指令的奖励值;包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令和环境感知传感器提供的交通状态、经驾驶动作指令后形成新的交通状态、通过奖励函数计算的驾驶动作的奖励值组成的样本集作为专家经验数据集;
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到3000次或者算法收敛为止,得到经过预训练的DDPG模型;
S2:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,如图3所示,建立热红外-RGB联合数据集,如图4所示,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I 1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I 2;在语义分割模块使用改进的RTFNet网络模型将I 1I 2进行多模态融合和语义分割生成分割图I 3,具体包括以下步骤:
S2.1:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练;得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;
S2.1.1:利用型号为Asens M2的车载FLIR红外热像仪和型号为MV-CE003-20GC的车载RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像;
S2.1.2:使用Labelme图像标注工具软件对原始图像进行标注,生成语义图像和标签图像;
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例4:1将所有训练样本随机划分为训练集与测试集;
所述改进的RTFNet网络模型,具体为:
如图5所示,在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力(MHSA)模块;在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力(MHSA)模块;
如图6所示,将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块;
在现有的RTFNet网络模型基础上增加跃层连接;采用改进的RTFNet网络模型作为语义特征融合模块,所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型;
S2.2:通过RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I 1,通过FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I 2;在语义分割模块使用改进的RTFNet网络模型将I 1I 2进行多模态融合和语义分割生成分割图I 3
S2.2.1:使用RGB编码器对自动驾驶车辆前方的交通状态RGB图像I 1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I 2进行特征提取并与I 1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I 3
S3:将I 3作为交通状态s t 输入到经过预训练的DDPG模型中,如图7所示,经过预训练的DDPG模型依据交通状态s t 从其动作空间中选择相应的驾驶动作指令a t 并输出,经驾驶动作指令a t 后形成新的交通状态s t+1,通过奖励函数计算本次驾驶动作指令的奖励值r t ,并将交通状态s t 、驾驶动作指令a t 、本次驾驶动作指令的奖励值r t 和新的交通状态s t+1作为转移样本(s t ,a t ,r t ,s t+1)存入经验回放池中;从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w;包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θ u 、θ Q 表示;其中,Actor网络以交通状态s t 为输入进行
Figure DEST_PATH_IMAGE024
计算得到驾驶动作指令a t ,Critic网络以交通状态s t 和驾驶动作指令a t 为输入进行计算得到
Figure 235178DEST_PATH_IMAGE025
S3.2:分别构建Actor网络和Critic网络的目标网络
Figure DEST_PATH_IMAGE026
Figure 540388DEST_PATH_IMAGE027
,参数分别用 θ u’ 、θ Q’ 表示;建立经验回放池的存储空间R并得到初始交通状态s 1
S3.3:通过在Actor网络参数θ Q 上施加高斯扰动N对驾驶动作进行探索,如式(10)所示:
Figure DEST_PATH_IMAGE028
(10)
S3.4:将交通状态s t 、驾驶动作指令a t 、在交通状态s t 时执行驾驶动作指令a t 得到的奖励值r t 和下一个交通状态s t+1构成一个元组(s t ,a t ,r t ,s t+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个元组数据(s i ,a i ,r i ,s i+1),通过贝尔曼方程对Q值进行估计,如式(11)所示:
Figure 158845DEST_PATH_IMAGE029
(11)
其中,γ是衰减因子;
通过y i
Figure DEST_PATH_IMAGE030
的差值对Critic网络进行更新,如式(12)所示:
Figure 309335DEST_PATH_IMAGE031
(12)
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(13)所示:
Figure DEST_PATH_IMAGE032
(13)
其中,
Figure 326707DEST_PATH_IMAGE018
表示在策略网络参数θ u 下的策略梯度,
Figure 661873DEST_PATH_IMAGE019
Figure 266161DEST_PATH_IMAGE020
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μs i )表示在策略网络在交通状态s i 时选取的驾驶动作策略,
Figure 344976DEST_PATH_IMAGE021
Figure 842953DEST_PATH_IMAGE022
分别表示在交通状态s i 下采取驾驶动作a=μs i )时Critic网络的状态-动作值和该交通状态下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(14)所示:
Figure 991431DEST_PATH_IMAGE033
(14)
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止;
为进一步说明本发明显著的实质性特点,分别采用本发明所述改进RTFNet网络模型、现有的RTFNet网络模型及现有的RTFNet-152网络模型在rtx3070Ti显卡上的每秒处理图片数量、全局准确率、平均交并比的对比如表1所示,其中采用的测试数据集为预留的热红外-RGB联合数据集1000张图片;
所述奖励函数r包括行驶方向角度奖励函数r 1、安全距离奖励函数r 2、规则驾驶奖励函数r 3、速度奖励函数r 4,具体为:
行驶方向角度奖励函数r 1和安全距离奖励函数r 2,如式(15)所示:
Figure DEST_PATH_IMAGE034
(15)
其中,k 1 k 2为常数;
Figure 817436DEST_PATH_IMAGE035
为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure DEST_PATH_IMAGE036
Figure 699941DEST_PATH_IMAGE037
为自动驾驶车辆中心点到车道中轴线的距离;
Figure DEST_PATH_IMAGE038
为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,
Figure 426326DEST_PATH_IMAGE039
均由探测单元获取;
规则驾驶奖励函数r 3,如式(16)所示:
Figure DEST_PATH_IMAGE040
(16)
其中,k 3是常数;
速度奖励函数r 4,如式(17)所示:
Figure 978662DEST_PATH_IMAGE041
(17)
其中,k 4是常数,V max 为该路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h
总奖励函数r,如式(18)所示:
r= r 1 + r 2 + r 3 + r 4 (18)
S4:在自动驾驶仿真试验台重复步骤S2-S4直至迭代次数达到1500次或者算法收敛为止,如图8所示,生成离线决策模型π 1;在真实环境中采集真实数据集重复步骤S2-S4,对离线决策模型π 1进行优化更新直至迭代次数达到1500次或者算法收敛为止,生成最终决策模型π 2
S5:利用最终决策模型π 2进行自动驾驶控制实车决策。
另一方面,本实施例还提供了一种计算机可读存储介质,所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现所述改进RTFNet的低可见度下纯视觉自动驾驶控制方法的步骤。
为进一步突出本发明显著的实质性效果,与现有的RTFNet模型及RTFNet-152模型,在每秒处理图片数量、全局准确率、平均交并比三个标准上进行对比。
表1:改进RTFNet网络模型与现有网络模型的每秒处理图片数量、全局准确率、平均交并比对比表
网络模型 每秒处理图片数量/张 全局准确率/% 平均交并比/%
改进RTFNet 90.89 69.5 56.9
现有的RTFNet 90.56 63.1 52.2
现有的RTFNet-152 39.81 65.3 55.0
由表1可知,本发明提出的改进的RTFNet模型相对于现有的RTFNet模型在每秒处理图片数量、全局准确率、平均交并比上均有提高,尤其在全局准确率和平均交互比上具有显著提高;相对于现有的RTFNet-152模型在每秒处理图片数量、全局准确率、平均交并比上均有提高,尤其在每秒处理图片数量上具有显著提高。

Claims (9)

1.基于改进RTFNet的纯视觉自动驾驶控制***,包括探测单元、车载上位机,其特征在于:
所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像;
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块,模块协同工作,实现自动驾驶控制;
所述语义分割模块,采用改进的RTFNet网络模型:使用探测单元采集的热红外-RGB联合数据集进行训练,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图;
所述强化学习模块:根据专家经验数据集,对DDPG模型进行预训练,将分割图输入经预训练的DDPG模型,获得DDPG模型的损失函数值和优化DDPG模型参数;
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数自动驾驶仿真试验台中迭代获得离线决策模型;在真实环境中采集真实驾驶动作决策数据集,对离线决策模型进行优化迭代,获得最终决策模型;根据最终决策模型进行自动驾驶控制实车决策。
2.根据权利要求1所述的基于改进RTFNet的纯视觉自动驾驶控制***,其特征在于:
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像;
所述改进的RTFNet网络模型,在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力模块;在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力 模块;将RGB图像编码器和热红外图像编码器中的卷积模块改为可分离卷积模块;增加跃层连接;采用改进的RTFNet网络模型作为语义特征融合模块,所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型。
3.基于改进RTFNet的纯视觉自动驾驶控制方法,采用权利要求1所述***,其特征在于:包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(s t ,a t ,r t ,s t+1) p 作为专家经验数据集,对DDPG模型进行预训练直至达到设定的最大迭代次数n 1或算法收敛为止;其中,s t 是交通状态,a t 是驾驶动作指令,s t+1是新的交通状态,r t 是本次驾驶动作指令的奖励值;
S2:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I 1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I 2;在语义分割模块使用改进的RTFNet网络模型将I 1I 2进行多模态融合和语义分割生成分割图I 3
S3:将I 3作为交通状态s t 输入到经过预训练的DDPG模型中,经过预训练的DDPG模型依据交通状态s t 从其动作空间中选择相应的驾驶动作指令a t 并输出,经驾驶动作指令a t 后形成新的交通状态s t+1,通过奖励函数计算本次驾驶动作指令的奖励值r t ,并将交通状态s t 、驾驶动作指令a t 、本次驾驶动作指令的奖励值r t 和新的交通状态s t+1作为转移样本(s t ,a t ,r t ,s t+1)
存入经验回放池中;从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w
S4:在自动驾驶仿真试验台重复步骤S2-S4直至达到设定的最大迭代次数n 2或者算法收敛为止,生成离线决策模型π 1;在真实环境中采集真实驾驶动作决策数据集,重复步骤S2-S4,对离线决策模型π 1进行优化更新直至迭代次数达到n 3次或者算法收敛为止,生成最终决策模型π 2
S5:根据最终决策模型进行自动驾驶控制实车决策。
4.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:所述的S1具体过程,包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令a t 和环境感知传感器提供的交通状态s t 、经驾驶动作指令a t 后形成新的交通状态s t+1、通过奖励函数r计算的驾驶动作的奖励值r t 组成的样本集(s t ,a t ,r t ,s t+1) p 作为专家经验数据集;
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到n 1次或者算法收敛为止,得到经过预训练的DDPG模型。
5.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述的S2建立热红外-RGB联合数据集的具体过程,包括以下步骤:
S2.1.1:利用车载FLIR红外热像仪和车载RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像;
S2.1.2:使用图像标注工具软件对原始图像进行标注,生成语义图像和标签图像;
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例n 4将所有训练样本随机划分为训练集与测试集;
所述图像标注工具软件采用Labelme图像标注工具软件。
6.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述生成分割图I 3的具体过程,包括以下步骤:
S2.2.1:使用RGB图像编码器对自动驾驶车辆前方的交通状态RGB图像I 1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I 2进行特征提取并与I 1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I 3
7.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述的步骤S3中,奖励函数r包括行驶方向角度奖励函数r 1、安全距离奖励函数r 2、规则驾驶奖励函数r 3、速度奖励函数r 4,具体为:
行驶方向角度奖励函数r 1和安全距离奖励函数r 2,如式(1)所示:
Figure 779980DEST_PATH_IMAGE001
(1)
其中,k 1 k 2为常数
Figure 648185DEST_PATH_IMAGE002
为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure 818136DEST_PATH_IMAGE003
Figure 167340DEST_PATH_IMAGE004
为自动驾驶车辆中心点到车道中轴线的距离;
Figure 995094DEST_PATH_IMAGE005
为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,
Figure 505972DEST_PATH_IMAGE006
均由探测单元获取;
规则驾驶奖励函数r 3,如式(2)所示:
Figure 747508DEST_PATH_IMAGE007
(2)
其中,k 3是常数;
速度奖励函数r 4,如式(3)所示:
Figure 133358DEST_PATH_IMAGE008
(3)
其中,k 4是常数,V max 为该路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h
总奖励函数r,如式(4)所示:
r= r 1 + r 2 + r 3 + r 4 (4)。
8.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述S3中,计算DDPG模型的损失函数值L和优化DDPG模型参数w的具体过程,包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θ u 、θ Q 表示;其中,Actor网络以交通状态s t 为输入进行
Figure 693915DEST_PATH_IMAGE009
计算得到驾驶动作指令a t ,Critic网络以交通状态s t 和驾驶动作指令a t 为输入进行计算得到
Figure 638344DEST_PATH_IMAGE010
S3.2:分别构建Actor网络和Critic网络的目标网络
Figure 81089DEST_PATH_IMAGE011
Figure 5051DEST_PATH_IMAGE012
,参数分别用θ u’ 、θ Q’ 表示;建立经验回放池的存储空间R并得到初始交通状态s 1
S3.3:通过在Actor网络参数θ Q 上施加高斯扰动N对驾驶动作进行探索,如式(5)所示:
Figure 541819DEST_PATH_IMAGE013
(5)
S3.4:将交通状态s t 、驾驶动作指令a t 、在交通状态s t 时执行驾驶动作指令a t 得到的奖励值r t 和下一个交通状态s t+1构成一个元组(s t ,a t ,r t ,s t+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个元组数据(s i ,a i ,r i ,s i+1),通过贝尔曼方程对Q值进行估计,如式(6)所示:
Figure 925658DEST_PATH_IMAGE014
(6)
其中,γ是衰减因子;
通过y i
Figure 852769DEST_PATH_IMAGE015
的差值对Critic网络进行更新,如式(7)所示:
Figure 19570DEST_PATH_IMAGE016
(7)
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(8)所示:
Figure 849992DEST_PATH_IMAGE017
(8)
其中,
Figure 136223DEST_PATH_IMAGE018
表示在策略网络参数θ u 下的策略梯度,
Figure 881457DEST_PATH_IMAGE019
Figure 645757DEST_PATH_IMAGE020
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μs i )表示在策略网络在交通状态s i 时选取的驾驶动作策略,
Figure 97729DEST_PATH_IMAGE021
Figure 259589DEST_PATH_IMAGE022
分别表示在交通状态s i 下采取驾驶动作a=μs i )时,Critic网络的状态-动作值和交通状态s i 下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(9)所示:
Figure 161293DEST_PATH_IMAGE023
(9)
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。
9.一种计算机可读存储介质,其特征在于:所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现权利要求3-权利要求8任一项所述方法的步骤。
CN202210632703.0A 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质 Active CN114708568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210632703.0A CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210632703.0A CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质

Publications (2)

Publication Number Publication Date
CN114708568A true CN114708568A (zh) 2022-07-05
CN114708568B CN114708568B (zh) 2022-10-04

Family

ID=82177603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210632703.0A Active CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质

Country Status (1)

Country Link
CN (1) CN114708568B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078923A (zh) * 2023-07-19 2023-11-17 苏州大学 面向自动驾驶环境的语义分割自动化方法、***及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110320883A (zh) * 2018-03-28 2019-10-11 上海汽车集团股份有限公司 一种基于强化学习算法的车辆自动驾驶控制方法及装置
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113255054A (zh) * 2021-03-14 2021-08-13 南京晓庄学院 一种基于异构融合特征的强化学习自动驾驶方法
CN113420368A (zh) * 2021-05-24 2021-09-21 江苏大学 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、***、设备及计算机存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110320883A (zh) * 2018-03-28 2019-10-11 上海汽车集团股份有限公司 一种基于强化学习算法的车辆自动驾驶控制方法及装置
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、***、设备及计算机存储介质
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113255054A (zh) * 2021-03-14 2021-08-13 南京晓庄学院 一种基于异构融合特征的强化学习自动驾驶方法
CN113420368A (zh) * 2021-05-24 2021-09-21 江苏大学 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI ET AL.: "Attention Is All You Need", 《NIPS 2017》 *
TIMOTHY P. LILLICRAP ET AL.: "CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING", 《ARXIV》 *
YUXIANG SUN ET AL.: "RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes", 《IEEE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078923A (zh) * 2023-07-19 2023-11-17 苏州大学 面向自动驾驶环境的语义分割自动化方法、***及介质

Also Published As

Publication number Publication date
CN114708568B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策***及基于无人机的训练集制备方法
CN109263639B (zh) 基于状态栅格法的驾驶路径规划方法
Cai et al. Vision-based trajectory planning via imitation learning for autonomous vehicles
US10929995B2 (en) Method and apparatus for predicting depth completion error-map for high-confidence dense point-cloud
CN110738121A (zh) 一种前方车辆检测方法及检测***
CN112731925B (zh) 用于无人驾驶方程式赛车锥桶识别和路径规划及控制方法
CN111311945A (zh) 一种融合视觉和传感器信息的驾驶决策***及方法
CN111026127A (zh) 基于部分可观测迁移强化学习的自动驾驶决策方法及***
CN112212872A (zh) 基于激光雷达和导航地图的端到端自动驾驶方法及***
CN113544467A (zh) 对齐用于导航的道路信息
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
KR102525191B1 (ko) 자율주행 차량에서의 주행 경로 생성 및 제어 시스템 및 방법
CN110599497A (zh) 一种基于深度神经网络的可行驶区域分割方法
CN113715842B (zh) 一种基于模仿学习和强化学习的高速运动车辆控制方法
US20200394838A1 (en) Generating Map Features Based on Aerial Data and Telemetry Data
Ding et al. A lane detection method based on semantic segmentation
Friji et al. A dqn-based autonomous car-following framework using rgb-d frames
Holder et al. Learning to drive: Using visual odometry to bootstrap deep learning for off-road path prediction
CN114821517A (zh) 用于学习神经网络以确定环境中车辆姿态的方法和***
CN114620059B (zh) 一种自动驾驶方法及其***、计算机可读存储介质
CN109543520A (zh) 一种面向语义分割结果的车道线参数化方法
Holder et al. Learning to drive: End-to-end off-road path prediction
CN114708568B (zh) 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN116853283A (zh) 位于十字路口的机动车行为预测方法、装置及计算机***
Wang et al. An end-to-end auto-driving method based on 3D LiDAR

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant