CN113553934B - 基于深度强化学习的地面无人车智能决策方法及*** - Google Patents
基于深度强化学习的地面无人车智能决策方法及*** Download PDFInfo
- Publication number
- CN113553934B CN113553934B CN202110811357.8A CN202110811357A CN113553934B CN 113553934 B CN113553934 B CN 113553934B CN 202110811357 A CN202110811357 A CN 202110811357A CN 113553934 B CN113553934 B CN 113553934B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- decision
- reinforcement learning
- information
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000014509 gene expression Effects 0.000 claims abstract description 64
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000001133 acceleration Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度强化学习的地面无人车智能决策方法及***,所述方法包括:深度强化学习决策网络对采集的车辆信息和环境信息进行分析和计算,得出不同的特征表达,并对环境特征表达进行分析,做出智能决策;评分模块利用驾驶员行车特征表达对当前行车状态进行判断和评分,并记录当前评分分数与当前行车状态终止次数;经验池对当前行车状态进行终止状态评定,并对行车环境状态、评分、决策结果与终止状态作为经验存储;随机提取多条经验对深度强化学习决策网络进行参数调整,得到环境感知与智能决策一体化的深度网络模型。本发明实现了利用该一体化模型直接进行从环境到决策的判断,解决了目前无法在复杂道路环境条件下实现地面无人车智能决策的问题。
Description
技术领域
本发明涉及车辆控制技术领域,具体涉及一种基于深度强化学习的地面无人车智能决策方法及***。
背景技术
在传统环境感知与智能决策方法中,采用多个多种传感器对环境进行测量,并对测量到的数据进行有效利用,然后将多源的数据快速融合的方法一直是一个难题。对于智能决策***,它需要获取大量的行车规则与历史行车环境与智能决策数据经验建立知识库,并且不能对现实情况中复杂的非结构性的路面环境信息进行准确的智能决策。所以在有限的人力、真实行车环境中复杂的路面状况条件下,往往无法对车辆的行车状态进行准确的智能决策。
发明内容
为了解决现有环境感知与智能决策方法存在的无法在复杂道路环境条件下实现地面无人车智能决策的问题,本发明提供一种基于深度强化学习的地面无人车智能决策方法及***。
本发明为解决技术问题所采用的技术方案如下:
一种基于深度强化学习的地面无人车智能决策方法,包括以下步骤:
S1、采集车辆信息以及车辆周围的环境信息;
S2、深度强化学习决策网络对步骤S1获得的车辆信息和环境信息进行分析和计算,得出驾驶员行车特征表达和车辆环境特征表达;
S3、深度强化学习决策网络对所述车辆环境特征表达进行分析与计算,对当前行车环境给出智能决策结果;
S4、评分模块对所述驾驶员行车特征表达进行分析和计算,对车辆的当前行车状态进行判断和评分,记录当前评分分数与当前行车状态终止次数;
S5、将驾驶员行车特征表达、智能决策结果、当前车辆状态的评分、当前行车状态是否终止信号作为一条经验保存在经验池模块中;
S6、抽取经验池模块中的多条经验,对深度强化学习决策网络进行反向传播,调整决策网络参数,直至深度强化学习决策网络收敛。
进一步地,所述步骤S1中,通过无人车上装载的GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器和声音传感器采集车辆信息以及车辆周围的环境信息;同时采集车辆当前的转向灯、刹车和油门信号信息。
进一步地,通过所述GNSS定位***获取当前车辆位置信息;通过所述摄像头传感器获取车辆周围的环境图像信息;通过所述毫米波雷达和激光雷达传感器获取环境三维点云信息,得到障碍物与车辆的距离、相对速度、相对方位,障碍物长宽体积;通过所述声音传感器获取声音信息。
进一步地,步骤S3中所述智能决策结果包括横向决策和纵向决策;所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速。
进一步地,所述步骤S4中,评分模块根据当前车辆在车道中的位置、与相邻车辆之间的距离、与前方车辆之间的距离、与前方障碍物之间的距离信息对车辆的当前行车状态进行判断和评分。
进一步地,所述深度强化学习决策网络包括用于处理图像信息和环境三维点云信息的深度卷积神经网络和用于处理声音信息的深度循环神经网络。
进一步地,所述深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成;两条全连接流位于卷积层之后;每一条全连接流由至少一层全连接层构成;全连接层的最后一层的神经元个数与对应的横向决策种类和纵向决策种类数量相同;所述卷积层形成为深度卷积神经网络,所述全连接流形成为深度循环神经网络。
进一步地,所述全连接层对输入的车辆环境特征表达进行非线性计算,提取车辆环境特征表达中的整体特征,并对该整体特征进行智能决策。
进一步地,所述智能决策包括横向决策和纵向决策,所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速。
进一步地,所述步骤S4中,评分模块对驾驶员行车特征表达进行分析和计算具体为所述评分模块根据驾驶员行车特征表达中的转向灯、刹车以及油门信号判断当前车辆状态是否终止。
进一步地,出现至少以下一种情况时判断当前车辆状态为终止:当智能决策结果是保持车道,并且做出决策的阈值时间内转向灯有亮起的状态,则判定当前行车状态为终止;当智能决策结果是变道,并且做出决策的阈值时间内车辆的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是转弯,并且做出决策的阈值时间内车辆的对应方向的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是减速,并且做出决策的阈值时间内车辆油门有信号的时候,则判定当前行车状态为终止;当智能决策结果是加速,并且做出决策的阈值时间内车辆的刹车有信号的时候,则判定当前行车状态终止。
进一步地,所述步骤S6中抽取经验池模块中的多条经验,计算深度强化学习决策网络进行反向传播法和随机梯度下降法所需要的标签值与损失值,然后利用所获得的标签值与损失值对深度强化学习决策网络进行更新。
本发明的另一方面,提供了一种基于深度强化学习的地面无人车智能决策***,包括:
信息采集装置,用于采集车辆信息以及车辆周围的环境信息;
车载服务器;
CAN总线,用于实现信息采集装置与车载服务器之间的数据通讯;
集成在车载服务器中的深度强化学习决策网络、评分模块和经验池模块;所述深度强化学习决策网络用于将采集的车辆信息以及车辆周围的环境信息进行分析和计算,生成驾驶员行车特征表达和车辆环境特征表达,并对车辆环境特征表达进行分析与计算,以对当前行车环境给出智能决策结果;所述评分模块对驾驶员行车特征表达进行分析和计算,对当前行车状态进行判断以及评分,记录当前评分的分数与当前行车状态终止次数;所述经验池模块用于保存包括驾驶员行车特征表达、智能决策结果、当前车辆状态的评分、当前行车状态是否终止的信号信息的经验。
进一步地,所述信息采集装置包括装载在无人车上的GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器和声音传感器。
进一步地,通过所述GNSS定位***获取当前车辆位置信息;通过所述摄像头传感器获取车辆周围的环境图像信息;通过所述毫米波雷达和激光雷达传感器获取环境三维点云信息,得到障碍物与车辆的距离、相对速度、相对方位,障碍物长宽体积;通过所述声音传感器获取声音信息。
进一步地,所述智能决策结果包括横向决策和纵向决策;所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速。
进一步地,所述评分模块根据当前车辆在车道中的位置、与相邻车辆之间的距离、与前方车辆之间的距离、与前方障碍物之间的距离信息对车辆的当前行车状态进行判断和评分。
进一步地,所述深度强化学习决策网络包括用于处理图像信息和环境三维点云信息的深度卷积神经网络和用于处理声音信息的深度循环神经网络。
进一步地,所述深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成;两条全连接流位于卷积层之后;每一条全连接流由至少一层全连接层构成;全连接层的最后一层的神经元个数与对应的横向决策种类和纵向决策种类数量相同;所述卷积层形成为深度卷积神经网络,所述全连接流形成为深度循环神经网络。
进一步地,所述全连接层对输入的车辆环境特征表达进行非线性计算,提取车辆环境特征表达中的整体特征,并对该整体特征进行智能决策。
进一步地,所述智能决策包括横向决策和纵向决策,所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速。
进一步地,评分模块对驾驶员行车特征表达进行分析和计算具体为所述评分模块根据驾驶员行车特征表达中的转向灯、刹车以及油门信号判断当前车辆状态是否终止。
进一步地,出现至少以下一种情况时判断当前车辆状态为终止:当智能决策结果是保持车道,并且做出决策的阈值时间内转向灯有亮起的状态,则判定当前行车状态为终止;当智能决策结果是变道,并且做出决策的阈值时间内车辆的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是转弯,并且做出决策的阈值时间内车辆的对应方向的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是减速,并且做出决策的阈值时间内车辆油门有信号的时候,则判定当前行车状态为终止;当智能决策结果是加速,并且做出决策的阈值时间内车辆的刹车有信号的时候,则判定当前行车状态终止。
进一步地,抽取经验池模块中的多条经验,计算深度强化学习决策网络进行反向传播法和随机梯度下降法所需要的标签值与损失值,然后利用所获得的标签值与损失值对深度强化学习决策网络进行更新。
综上所述,本发明提供了一种基于深度强化学习的地面无人车智能决策方法和***,所述方法包括:深度强化学习决策网络对采集的车辆信息和环境信息进行分析和计算,得出不同的特征表达,并对环境特征表达进行分析作出智能决策;评分模块利用驾驶员行车特征表达对当前行车状态进行判断和评分,并记录当前评分分数与当前行车状态终止次数;经验池对当前行车状态进行终止状态评定,并对行车环境状态、评分、决策结果与终止状态作为经验存储;随机提取多条经验对深度强化学习决策网络进行参数调整,得到环境感知与智能决策一体化的深度网络模型。
与现有技术相比,本发明具有以下优点:
1、本发明中,深度强化学习决策网络收敛后,将实现环境感知-智能决策一体化实时预测,不仅简化了计算流程、降低了计算量,使得实时性得以保证,而且整个训练过程将不会对驾驶员产生任何打扰,驾驶员仅需正确驾驶车辆即可完成网络的训练。
2、本发明中,深度强化学习决策网络将对提取到的行车环境信息进行计算,不需要开发相关知识库***,在减少了人力的同时,可以避免因道路的环境信息非结构化而产生的决策失准或决策不能的情况,对于环境信息的非结构性有强鲁棒性,任意行车环境都可以进行准确的决策。
3、在行车环境中使用摄像头、雷达等传感器采集的行车环境信息以及车辆自身的位置、姿态信息以及驾驶员的操作信息,采用无人监督的训练形式得到可在真实环境下完成车辆智能决策功能的深度强化学习决策网络模型。
附图说明
图1为本发明的一种基于深度强化学习的地面无人车智能决策***的结构示意图。
图2为本发明的一种基于深度强化学习的地面无人车智能决策方法的流程示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明提供的一种基于深度强化学习的地面无人车智能决策方法和***,主要采用深度强化学习技术,通过传感器获取行车环境中的车辆环境信息,评分模块的评分以真实环境采集到的传感器数据为基础,对当前行车状态进行自动的评估并给出得分,通过深度强化学习决策网络对当前车辆进行环境感知与智能决策,并利用经验池模块对深度强化学习决策网络进行参数更新,实现地面无人车智能决策。
如图1所示,本发明的一种基于深度强化学习的地面无人车智能决策***,主要包括:CAN总线、GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器、声音传感器、深度强化学习决策网络、经验池模块、评分模块、车载服务器。
深度强化学习决策网络、经验池模块、评分模块集成在车载服务器中,该车载服务器采用高性能的CPU和大量内存完成评分模块的自动评分、存储经验池模块以及深度强化学习决策网络训练工作。GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器、声音传感器被装载在车辆上。GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器、声音传感器均通过CAN总线与车载服务器相连,并通过CAN总线进行数据传输。
GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器、声音传感器用于采集车辆信息以及车辆周围的环境信息。
深度强化学习决策网络用于将采集的车辆信息以及车辆周围的环境信息进行融合,提取数据特征,如图像特征、环境三维点云数据特征等,最终生成1对环境特征表达,包括驾驶员行车特征表达和车辆环境特征表达。每次将1对环境特征表达分别送入深度强化学习决策网络与评分模块,其中驾驶员行车特征表达被传送至评分模块进行分析,对当前行车状态进行判断以及评分,记录当前评分的分数与当前行车状态终止次数;车辆环境特征表达,不包括车辆当前的转向灯、刹车、油门信号,该车辆环境表达被传送至深度强化学习决策网络进行分析以及智能决策,以训练深度强化学习决策网络。
智能决策结果分为两个部分:横向决策以及纵向决策。其中横向决策包括车辆保持车道、变道、左转、右转;纵向决策包括车辆加速、减速以及匀速。
深度强化学习决策网络可以对图像数据进行深度的特征提取,深度强化学习决策网络具有极强的自主学习能力和高度的非线性映射,使得在复杂的路面环境信息、少量的人力条件下,使用无人监督、后台自动评分的方式对深度强化学习决策网络进行训练,准确判断当前行车环境并做出保证车辆安全的决策。
评分模块根据驾驶员行车特征表达中的转向灯、刹车以及油门信号判断当前车辆状态是否终止,当智能决策结果是保持车道,并且做出决策的阈值时间内转向灯有亮起的状态,则判定当前行车状态为终止;当智能决策结果是变道,并且做出决策的阈值时间内车辆的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是转弯,并且做出决策的阈值时间内车辆的对应方向的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是减速,并且做出决策的阈值时间内车辆油门有信号的时候,将判定当前行车状态为终止;当智能决策结果是加速,并且做出决策的阈值时间内车辆的刹车有信号的时候,将判定当前行车状态终止。
经验池模块接收当前的驾驶员行车特征表达,深度强化学习决策网络的智能决策结果,评分模块对当前车辆状态的评分,当前行车状态是否终止信号。将当前的驾驶员行车特征表达,深度强化学习决策网络的智能决策结果,评分模块对当前车辆状态的评分,当前行车状态是否终止信号这四项信息作为一条经验保存在经验池模块中。在积累了大量的经验后,每执行一次智能决策,都要将经验池模块中的经验随机抽取一部分,用来计算深度强化学习决策网络进行反向传播法和随机梯度下降法所需要的标签值与损失值,从而调整网络参数,直到网络收敛。深度强化学习决策网络收敛后,在预测过程中将对当前行车环境的感知与判断,并对当前行车状态进行智能决策,一体化的完成自动驾驶过程中的环境感知与智能决策功能,并且整个过程中不需要构建知识库***以及推理***。
本发明中,***将自动对当前行车状态进行分析并评分,训练过程中将不再需要人工标注或干预,实现无监督的深度强化学习决策网络训练过程。
如图2所示,本发明的一种基于深度强化学习的地面无人车智能决策方法,包括有深度学习神经网络与深度强化学习神经网络模型的训练步骤,主要是通过以下方法实现的:
步骤S1、通过车辆上装载的GNSS定位***、摄像头传感器、毫米波雷达传感器、激光雷达传感器、声音传感器采集车辆信息以及车辆周围的环境信息,例如,通过GNSS定位***获取当前车辆位置信息,通过摄像头传感器获取车辆周围的环境图像信息,通过所述毫米波雷达和激光雷达传感器获取环境三维点云信息,得到障碍物与车辆的距离、相对速度、相对方位,障碍物长宽体积,通过声音传感器获取声音信息,同时还会收集驾驶员在驾驶车辆时车辆当前的转向灯、刹车和油门信号信息,将上述信息传输给深度强化学习决策网络。
步骤S2、深度强化学习决策网络使用深度学习算法,对输入的车辆信息以及车辆周围的环境信息进行融合分析计算,最终生成1对环境特征表达,包括驾驶员行车特征表达和车辆环境特征表达。
深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成。两条全连接流位于卷积层之后。每一条全连接流由至少一层全连接层构成。全连接层的最后一层的神经元个数与对应的横向决策种类、纵向决策种类数量均相同。
深度强化学习决策网络(算法)主要包括:用于处理图像信息和环境三维点云信息的深度卷积神经网络(对应卷积层)以及用于处理声音信息的深度循环神经网络(对应全连接流)。其中,深度卷积神经网络用来提取图像信息以及环境三维点云信息的特征信息,该深度卷积神经网络采用类似于对抗神经网络的训练方式进行了预训练,使得该深度卷积神经网络对于数据的噪声干扰有很强的鲁棒性。
例如,一个典型的三层的深度卷积神经网络的配置参数为:三层都是卷积层,其中第一层有32个8×8的卷积核,步长为4;第二层有64个4×4的卷积核,步长为2;第三层有64个3×3的卷积核,步长为1。由摄像头传感器采集的车辆周围的环境图像信息经过上述三层的深度卷积神经网络计算后,得到当前时刻的行车图像特征表达,该表达将与其他车辆环境特征表达一同输入深度强化学习决策网络进行分析计算。
深度循环神经网络使用长短时记忆单元对输入的声音信息流进行计算,持续的对当前声音状态进行特征提取。
驾驶员行车特征表达被传送至评分模块;车辆环境表达被传送至深度强化学习决策网络;当前的驾驶员行车特征表达被传送至经验池模块。
步骤S3、深度强化学习决策网络对接收的车辆环境特征表达进行计算与分析,深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成。每一条全连接流由至少一层全连接层构成。全连接层的最后一层的神经元个数与对应的横向决策种类、纵向决策种类数量均相同。全连接层对于输入的车辆环境特征表达进行非线性计算,提取车辆环境特征表达中的整体特征,并对该整体特征进行决策;深度强化学习决策网络的全连接层的最后一层分为两支,分别代表了横向决策和纵向决策,其中:横向决策全连接层有4个神经元,分别对应车辆横向决策中的道路保持、换道、左转、右转;纵向决策全连接层有3个神经元,分别对应车辆加速、减速以及匀速。深度强化学习决策网络在对车辆环境特征表达进行计算后,将对当前行车环境做出决策,该决策是一个{横向决策,纵向决策}二元组。
步骤S4、评分模块对驾驶员行车特征表达进行分析和计算,根据当前车辆在车道中的位置、与相邻车辆之间的距离、与前方车辆之间的距离、与前方障碍物之间的距离等信息对车辆的当前行车状态进行判断以及评分,记录当前评分的分数与当前行车状态终止次数;其中主要涉及到关于车道线检测、目标识别等多种算法。最后,评分模块将根据车辆当前行车状态自动给出评分分数,将不会需要驾驶员进行任何操作,也不会做出任何干扰。该评分分数、当前行车状态是否终止信号以及步骤S3中得到的深度强化学习决策网络的智能决策结果将会送至经验池模块中等待下一步计算。
步骤S5、经验池模块接收当前的驾驶员行车特征表达,深度强化学习决策网络的智能决策结果,评分模块对当前车辆状态的评分,当前行车状态是否终止信号。将当前的驾驶员行车特征表达,深度强化学习决策网络的智能决策结果,评分模块对当前车辆状态的评分,当前行车状态是否终止信号这四项信息作为一条经验保存在经验池模块中。在积累了一定数量的经验之后,接下来的每个时刻,将随机抽取经验池模块中微批数量的经验,对深度强化学习决策网络进行反向传播,调整网络参数,直至深度强化学习决策网络收敛。
本发明对场景变化、光照变化、天气变化都有很强的鲁棒性,特别适合解决在复杂道路环境条件下的地面无人车智能决策,可在真实环境的智能决策中达到极低的事故率同时保证决策准确率;由于采用了深度强化学习决策网络,该***具有非常快的预测速度,完全可以满足实际道路情况下的智能决策。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于深度强化学习的地面无人车智能决策方法,其特征在于,包括以下步骤:
S1、采集车辆信息以及车辆周围的环境信息;
S2、深度强化学习决策网络对步骤S1获得的车辆信息和环境信息进行分析和计算,通过车辆信息得出驾驶员行车特征表达,通过环境信息得到车辆环境特征表达;
S3、深度强化学习决策网络对所述车辆环境特征表达进行分析与计算,对当前行车环境给出智能决策结果,包括横向决策和纵向决策;所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速;
S4、评分模块对所述驾驶员行车特征表达进行分析和计算,对车辆的当前行车状态进行判断和评分,记录当前评分分数与当前行车状态终止次数;
S5、将驾驶员行车特征表达、智能决策结果、当前车辆状态的评分、当前行车状态是否终止信号作为一条经验保存在经验池模块中;
S6、抽取经验池模块中的多条经验,对深度强化学习决策网络进行反向传播,调整决策网络参数,直至深度强化学习决策网络收敛,所述深度强化学习决策网络包括用于处理图像信息和环境三维点云信息的深度卷积神经网络和用于处理声音信息的深度循环神经网络,所述深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成;两条全连接流位于卷积层之后;每一条全连接流由至少一层全连接层构成;全连接层的最后一层的神经元个数与对应的横向决策种类和纵向决策种类数量相同;所述卷积层形成为深度卷积神经网络,所述全连接流形成为深度循环神经网络。
2.根据权利要求1所述的一种基于深度强化学习的地面无人车智能决策方法,其特征在于,所述步骤S4中,评分模块对驾驶员行车特征表达进行分析和计算具体为所述评分模块根据驾驶员行车特征表达中的转向灯、刹车以及油门信号判断当前车辆状态是否终止。
3.根据权利要求2所述的一种基于深度强化学习的地面无人车智能决策方法,其特征在于,出现至少以下一种情况时判断当前车辆状态为终止:当智能决策结果是保持车道,并且做出决策的阈值时间内转向灯有亮起的状态,则判定当前行车状态为终止;当智能决策结果是变道,并且做出决策的阈值时间内车辆的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是转弯,并且做出决策的阈值时间内车辆的对应方向的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是减速,并且做出决策的阈值时间内车辆油门有信号的时候,则判定当前行车状态为终止;当智能决策结果是加速,并且做出决策的阈值时间内车辆的刹车有信号的时候,则判定当前行车状态终止。
4.一种基于深度强化学习的地面无人车智能决策***,其特征在于,包括:信息采集装置,用于采集车辆信息以及车辆周围的环境信息;车载服务器,用于车载高性能计算;CAN总线,用于实现信息采集装置与车载服务器之间的数据通讯;集成在车载服务器中的深度强化学习决策网络、评分模块和经验池模块;所述深度强化学习决策网络用于将采集的车辆信息以及车辆周围的环境信息进行分析和计算,生成驾驶员行车特征表达和车辆环境特征表达,并对车辆环境特征表达进行分析与计算,以对当前行车环境给出智能决策结果,所述智能决策结果包括横向决策和纵向决策,具体为采集车辆信息以及车辆周围的环境信息;对获得的车辆信息和环境信息进行分析和计算,通过车辆信息得出驾驶员行车特征表达,通过环境信息得到车辆环境特征表达;对所述车辆环境特征表达进行分析与计算,对当前行车环境给出智能决策结果,包括横向决策和纵向决策;所述横向决策包括车辆保持车道、变道、左转、右转,所述纵向决策包括车辆加速、减速、匀速;所述评分模块对驾驶员行车特征表达进行分析和计算,对当前行车状态进行判断以及评分,记录当前评分的分数与当前行车状态终止次数,将驾驶员行车特征表达、智能决策结果、当前车辆状态的评分、当前行车状态是否终止信号作为一条经验保存在经验池模块中,所述经验池模块用于保存包括驾驶员行车特征表达、智能决策结果、当前车辆状态的评分、当前行车状态是否终止的信号信息的经验,抽取经验池模块中的多条经验,对深度强化学习决策网络进行反向传播,调整决策网络参数,直至深度强化学习决策网络收敛,所述深度强化学习决策网络包括用于处理图像信息和环境三维点云信息的深度卷积神经网络和用于处理声音信息的深度循环神经网络,所述深度强化学习决策网络的网络结构由至少一层卷积层以及两条全连接流组成;两条全连接流位于卷积层之后;每一条全连接流由至少一层全连接层构成;全连接层的最后一层的神经元个数与对应的横向决策种类和纵向决策种类数量相同;所述卷积层形成为深度卷积神经网络,所述全连接流形成为深度循环神经网络。
5.根据权利要求4所述的一种基于深度强化学习的地面无人车智能决策***,其特征在于,评分模块对驾驶员行车特征表达进行分析和计算具体为所述评分模块根据驾驶员行车特征表达中的转向灯、刹车以及油门信号判断当前车辆状态是否终止。
6.根据权利要求5所述的一种基于深度强化学习的地面无人车智能决策***,其特征在于,出现至少以下一种情况时判断当前车辆状态为终止:当智能决策结果是保持车道,并且做出决策的阈值时间内转向灯有亮起的状态,则判定当前行车状态为终止;当智能决策结果是变道,并且做出决策的阈值时间内车辆的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是转弯,并且做出决策的阈值时间内车辆的对应方向的转向灯没有亮起的状态,则判定当前行车状态为终止;当智能决策结果是减速,并且做出决策的阈值时间内车辆油门有信号的时候,则判定当前行车状态为终止;当智能决策结果是加速,并且做出决策的阈值时间内车辆的刹车有信号的时候,则判定当前行车状态终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811357.8A CN113553934B (zh) | 2021-07-19 | 2021-07-19 | 基于深度强化学习的地面无人车智能决策方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811357.8A CN113553934B (zh) | 2021-07-19 | 2021-07-19 | 基于深度强化学习的地面无人车智能决策方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553934A CN113553934A (zh) | 2021-10-26 |
CN113553934B true CN113553934B (zh) | 2024-02-20 |
Family
ID=78103382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110811357.8A Active CN113553934B (zh) | 2021-07-19 | 2021-07-19 | 基于深度强化学习的地面无人车智能决策方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553934B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108594804A (zh) * | 2018-03-12 | 2018-09-28 | 苏州大学 | 基于深度q网络配送小车的自动行驶控制方法 |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人***集群控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054374A (ko) * | 2017-11-13 | 2019-05-22 | 한국전자통신연구원 | 주행 경험 정보를 이용한 자율주행 학습 장치 및 방법 |
-
2021
- 2021-07-19 CN CN202110811357.8A patent/CN113553934B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108594804A (zh) * | 2018-03-12 | 2018-09-28 | 苏州大学 | 基于深度q网络配送小车的自动行驶控制方法 |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人***集群控制方法 |
Non-Patent Citations (2)
Title |
---|
Driverless Car: Autonomous Driving Using Deep Reinforcement Learning In Urban Environment;Abdur R. Fayjie 等;《2018 15th International Conference on Ubiquitous Robots》;第896-901页 * |
基于深度强化学习方法的无人驾驶智能决策控制的研究;陈超;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第7期);第1-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113553934A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11651240B2 (en) | Object association for autonomous vehicles | |
US11836623B2 (en) | Object detection and property determination for autonomous vehicles | |
US11084494B2 (en) | Method for detecting safety of driving behavior, apparatus, device and storage medium | |
EP3937079A1 (en) | Trajectory prediction method and device | |
EP3218890B1 (en) | Hyper-class augmented and regularized deep learning for fine-grained image classification | |
US9053433B2 (en) | Assisting vehicle guidance over terrain | |
CN108986540A (zh) | 车辆控制***和方法、以及行驶辅助服务器 | |
CN112698645A (zh) | 具有基于学习的定位校正***的动态模型 | |
CN113552883B (zh) | 基于深度强化学习的地面无人车自主驾驶方法及*** | |
CN114435351A (zh) | 用于基于神经网络的自动驾驶的***和方法 | |
CN111016901A (zh) | 基于深度学习的智能驾驶决策方法及*** | |
EP2405383A1 (en) | Assisting with guiding a vehicle over terrain | |
WO2022178858A1 (zh) | 一种车辆行驶意图预测方法、装置、终端及存储介质 | |
CN113553934B (zh) | 基于深度强化学习的地面无人车智能决策方法及*** | |
CN114895682B (zh) | 一种基于云端数据的无人驾驶矿车行走参数校正方法及*** | |
CN116901963A (zh) | 自动驾驶车辆的制动控制方法、装置、车辆和介质 | |
CN116238544A (zh) | 一种自动驾驶车辆的行驶控制方法及控制*** | |
CN114779764B (zh) | 基于行车风险分析的车辆强化学习运动规划方法 | |
US11983918B2 (en) | Platform for perception system development for automated driving system | |
CN110333517B (zh) | 障碍物感知方法、装置及存储介质 | |
CN112351407A (zh) | 一种基于5g分级决策的aeb策略方法 | |
WO2024093321A1 (zh) | 车辆的位置获取方法、模型的训练方法以及相关设备 | |
CN116476861A (zh) | 一种基于多模态感知和分层动作的自动驾驶决策*** | |
KR20240001069A (ko) | 추출된 궤적 특징들에 기초한 궤적 계획 | |
CN116225027A (zh) | 一种全景智能小车自动行驶方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |