CN107229973A - 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 - Google Patents
一种用于车辆自动驾驶的策略网络模型的生成方法及装置 Download PDFInfo
- Publication number
- CN107229973A CN107229973A CN201710332994.0A CN201710332994A CN107229973A CN 107229973 A CN107229973 A CN 107229973A CN 201710332994 A CN201710332994 A CN 201710332994A CN 107229973 A CN107229973 A CN 107229973A
- Authority
- CN
- China
- Prior art keywords
- status information
- return value
- information collection
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Feedback Control In General (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明适用计算机技术领域,提供了一种用于车辆自动驾驶的策略网络模型的生成方法及装置,所述方法包括:将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集;根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作;根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练极限学习机的网络模型;根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型,从而有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的生成效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种用于车辆自动驾驶的策略网络模型的生成方法及装置。
背景技术
随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,导致诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。无人驾驶汽车技术被视为这些问题的有效解决方案,其发展被受瞩目,美国电子和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆数目所占比例将达到75%。
无人驾驶汽车,即在没有司机的情况下通过自身的辅助驾驶***在道路上行驶,具备环境感知能力。辅助驾驶***通过传感器获取的环境信息做出控制决策,已出现了多种用于辅助驾驶***的传感器和产品,例如:激光雷达、机器视觉、自适应巡航、车辆接近通报装置、夜视辅助、自适应前照明***等。
目前,辅助驾驶***的控制方法主要为基于规则的控制决策,即根据已知的驾驶经验构建对车辆环境信息输出控制决策的专家规则***,专家规则***这类浅层学习算法可看作从被标记的数据之间寻找规律的过程,当规则很难被抽象成公式或简单逻辑时,浅层学习就无法奏效,然而,自动驾驶场景类别多样、路况复杂,很难用有限的规则定义清楚。
随着深度强化学习技术的快速发展,一些研究机构提出“端对端”式的自动驾驶算法,通过深度网络构建辅助驾驶***中的控制决策模型。这类方法不需要对车辆的状态进行基于规则的识别。然而,对车辆自动驾驶进行深度学习要求强大的计算资源,例如需要数百瓦的图形处理器(GPU)等长时间(数天到数周)的训练,才能得到一个决策网络,如果外界条件改变,则需要重新训练。
发明内容
本发明的目的在于提供一种用于车辆自动驾驶的策略网络模型的生成方法及装置,旨在解决现有技术中策略网络模型的生成效率较低的问题。
一方面,本发明提供了一种用于车辆自动驾驶的策略网络模型的生成方法,所述方法包括下述步骤:
将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;
根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
另一方面,本发明提供了一种用于车辆自动驾驶的策略网络模型的生成装置,所述装置包括:
状态处理模块,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
强化学习模块,用于根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
极限学习机训练模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;以及
策略网络生成模块,用于根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
本发明将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,以在降低状态信息集中数据量的同时保留状态信息集中的特征,获得特征状态信息集,根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作,根据特征状态信息集中的状态信息、每个状态信息对应的最大回报值以及每个最大回报值对应的车辆动作,训练预设的极限学习机的网络模型,并根据训练结果,生成车辆自动驾驶的策略模型,从而通过对状态信息的处理、通过采用强化学习得到每个状态信息的最大回报值和最大回报值对应的车辆动作、通过训练极限学习及的网络模型,有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
附图说明
图1是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程图;
图2是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的结构示例图;
图3是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构示意图;以及
图4是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的优选结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集。
本发明适用于基于赛车仿真模拟平台或赛车模拟器(例如开放式赛车模拟器TORCS,The open racing car simulation)建立的交互平台,在该交互平台上进行无人驾驶汽车的行驶交互试验。在当前的交互试验过程中,通过车辆上预设的多个传感器采集车辆状态信息,车辆状态信息可包括车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向上的速度分量。
在本发明实施例中,采集每个实验时刻的车辆状态信息,并将所有的车辆状态信息一起构成状态信息集,为了减少状态信息集中的数据量并保留状态信息集的特征,对状态信息集进行处理,生成特征状态信息集,从而通过对状态信息集的处理有效地降低后续过程的计算量。其中,特征状态信息集可包含具有代表性的状态信息或状态信息的特征。
具体地,可通过预设的聚类算法(例如K-means聚类)将状态信息集划分为若干个簇,并聚类出能够代表每个簇的簇中心点,这些簇中心点的状态信息构成特征状态信息集,此外,还可通过预设的特征提取算法(例如自编码机特征提取算法)提取状态信息集中的特征,由这些特征构成特征状态信息集。
在步骤S102中,根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。
在本发明实施例中,回报值函数用来计算在某个状态下车辆做出某个动作后获得的立即回报值,车辆动作集中可包括直行、刹车等车辆动作。先对特征状态信息集的每个状态信息对应的回报值序列进行初始化,可初始化为零,每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值,其中,状态信息s的回报值序列中车辆动作s的回报值可表示为
在本发明实施例中,根据回报值函数和车辆动作集,对特征状态信息集中状态信息的回报值序列进行多次更新,直至所有回报值序列中的值不再变化,最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作,从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。
具体地,在更新回报值序列时,在车辆动作集中遍历可以在特征状态信息集的当前状态信息下执行的车辆动作,执行遍历得到的动作,并通过回报值函数计算执行后的立即回报值,根据该立即回报值和预设的更新公式,即可对在该当前状态信息下遍历到的车辆动作所对应的回报值。其中,回报值函数可表示为:
其中,为在特征状态信息集的状态信息s下执行遍历到的动作a时的回报值,为状态信息s的下一状态信息s'的最大回报值,r为在状态信息s下执行遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
作为示例地,回报值函数的公式可为:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为回报值函数计算得到的立即回报值,Δdis为车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为车辆当前行驶方向与道路切向的夹角,trackPos为车辆离道路中线的距离,threshold为预设阈值,当trackPos大于threshold时,r为无穷小,可表示对车辆太靠近道路边界时的惩罚。另外,回报值函数还可考虑行驶速度、单位耗油量、平稳度等。
在步骤S103中,根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练预设极限学习机的网络模型。
在本发明实施例中,极限学习机是一种单隐层前馈神经网络学习算法。其中,极限学习机的网络模型可表示为:
其中,g()为隐层节点的激活函数,βi=[βi1,βi2,...,βin]T为连接第i个隐层节点与网络输出层节点的输出权值向量,ωi=[ω1i,ω2i,...,ωmi]为连接第i个隐层节点的随机输入权值向量,极限学习机网络模型的输出值为Qi=[Qi1,Qi2,...,Qin]T,Qj为输出值中的第j列向量,j=1,2,…,N,N为输出节点的个数,M为隐层节点的个数。
在本发明实施例中,可将特征状态信息集中每个状态信息对应的最大回报值设置为极限学习机网络模型一次训练过程中的输出值,将特征状态信息集中的状态信息和每个状态信息下获得最大回报值的车辆动作最为极限学习机网络模型一次训练过程中的输入值,从而训练得到极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量。可通过进行多次的车辆自动驾驶试验,多次地训练极限学习机网络模型。
在本发明实施例中,极限学习机网络模型的表示方式还可写为矩阵形式Wβ=Q,当隐层节点的激活函数无限可微时,极限学习机网络模型的输入权值和隐层节点阈值可随机赋值,此时可将矩阵W视为常数,极限学习机的学习过程可等价为求取线性***Wβ=Q最小范数的最小二乘解。
在步骤S104中,根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型。
在本发明实施例中,图2为策略网络模型的示例,由此可见,极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量,即策略网络模型中隐藏层的权重值,最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。
在本发明实施例中,对采集到的所有状态信息构成的状态信息集进行处理,以降低状态信息集中的数据量并保留状态信息集中的特征,生成特征状态信息集,通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作,通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作,训练极限学习机的网络模型,最后根据训练的到的参数向量,得到车辆自动驾驶的策略网络模型,从而通过对状态信息的处理、通过强化学习和极限学习机的结合,有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图3示出了本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
状态处理模块31,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集。
在本发明实施例中,采集每个实验时刻的车辆状态信息,并将所有的车辆状态信息一起构成状态信息集,为了减少状态信息集中的数据量并保留状态信息集的特征,对状态信息集进行处理,生成特征状态信息集,从而通过对状态信息集的处理有效地降低后续过程的计算量。其中,特征状态信息集可包含具有代表性的状态信息或状态信息的特征。
强化学习模块32,用于根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。
在本发明实施例中,每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值,根据回报值函数和车辆动作集,对特征状态信息集中状态信息的回报值序列进行多次更新,直至所有回报值序列中的值不再变化,最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作,从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。
具体地,在更新回报值序列时,在车辆动作集中遍历可以在特征状态信息集的当前状态信息下执行的车辆动作,执行遍历得到的动作,并通过回报值函数计算执行后的立即回报值,根据该立即回报值和预设的更新公式,即可对在该当前状态信息下遍历到的车辆动作所对应的回报值。其中,回报值函数可表示为:
其中,为在特征状态信息集的状态信息s下执行遍历到的动作a时的回报值,为状态信息s的下一状态信息s'的最大回报值,r为在状态信息s下执行遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
极限学习机训练模块33,用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练极限学习机的网络模型。
在本发明实施例中,极限学习机的网络模型可表示为:
其中,g()为隐层节点的激活函数,βi=[βi1,βi2,...,βin]T为连接第i个隐层节点与网络输出层节点的输出权值向量,ωi=[ω1i,ω2i,...,ωmi]为连接第i个隐层节点的随机输入权值向量,极限学习机网络模型的输出值为Qi=[Qi1,Qi2,...,Qin]T,Qj为输出值中的第j列向量,j=1,2,...,N,N为输出节点的个数,M为隐层节点的个数。
在本发明实施例中,可将特征状态信息集中每个状态信息对应的最大回报值设置为极限学习机网络模型一次训练过程中的输出值,将特征状态信息集中的状态信息和每个状态信息下获得最大回报值的车辆动作最为极限学习机网络模型一次训练过程中的输入值,从而训练得到极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量。可通过进行多次的车辆自动驾驶试验,多次地训练极限学习机网络模型。
在本发明实施例中,极限学习机网络模型的表示方式还可写为矩阵形式Wβ=Q,当隐层节点的激活函数无限可微时,极限学习机网络模型的输入权值和隐层节点阈值可随机赋值,此时可将矩阵W视为常数,极限学习机的学习过程可等价为求取线性***Wβ=Q最小范数的最小二乘解。
策略网络生成模块34,用于根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型。
在本发明实施例中,极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量,即策略网络模型中隐藏层的权重值,最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。
优选地,如图4所示,状态处理模块31包括:
状态处理子模块411,用于通过预设的聚类算法对状态信息集进行聚类、或通过预设的特征提取算法对状态信息集进行特征提取,以生成特征状态信息集。
优选地,强化学习模块32包括回报值初始化模块421、回报值更新模块422和最大回报值获取模块423,其中:
回报值初始化模块421,用于对特征状态信息集的每个状态信息对应的回报值序列进行初始化,回报值序列包括执行车辆动作集中所有车辆动作对应的回报值;
回报值更新模块422,用于根据回报值函数和车辆动作集,对所有回报值序列进行多次更新,直至所有回报值序列不再变化;以及
最大回报值获取模块423,用于从特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和最大回报值对应的车辆动作。
回报值更新模块422包括动作遍历模块和回报值更新子模块,其中:
动作遍历模块,用于遍历车辆动作集,并根据回报值函数计算在特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;以及
回报值更新子模块,用于根据立即回报值和预设的更新公式,更新在特征状态信息集的状态信息下执行遍历到的车辆动作对应的回报值。
优选地,极限学习机训练模块33包括学习机设置模块431和网络训练模块432,其中:
学习机设置模块431,用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,设置极限学习机网络模型的输入和输出;以及
网络训练模块432,用于对极限学习机网络模型进行训练,获得极限学习机网络模型的输出权重。
在本发明实施例中,对采集到的所有状态信息构成的状态信息集进行处理,以降低状态信息集中的数据量并保留状态信息集中的特征,生成特征状态信息集,通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作,通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作,训练极限学习机的网络模型,最后根据训练的到的参数向量,得到车辆自动驾驶的策略网络模型,从而通过对状态信息的处理、通过强化学习和极限学习机的结合有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
在本发明实施例中,用于车辆自动驾驶的策略网络模型的装置的各模块可由相应的硬件或软件模块实现,各模块可以为独立的软、硬件模块,也可以集成为一个软、硬件模块,在此不用以限制本发明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于车辆自动驾驶的策略网络模型的生成方法,其特征在于,所述方法包括下述步骤:
将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型;
根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
2.如权利要求1所述的方法,其特征在于,将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集的步骤,包括:
通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取,以生成所述特征状态信息集。
3.如权利要求1所述的方法,其特征在于,根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作的步骤,包括:
对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化,所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值;
根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化;
从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。
4.如权利要求3所述的方法,其特征在于,根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化的步骤,包括:
遍历所述车辆动作集,并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;
根据所述立即回报值和预设的更新公式,更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值,所述更新公式为:
其中,为在所述特征状态信息集的状态信息s下执行所述遍历到的动作a时的回报值,为所述状态信息s的下一状态信息s'的最大回报值,r为在所述状态信息s下执行所述遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
5.如权利要求1所述的方法,其特征在于,根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型的步骤,包括:
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,设置所述极限学习机网络模型的输入和输出;
对所述极限学习机网络模型进行训练,获得所述极限学习机网络模型的输出权重。
6.一种用于车辆自动驾驶的策略网络模型的生成装置,其特征在于,所述装置包括:
状态处理模块,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
强化学习模块,用于根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
极限学习机训练模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;以及
策略网络生成模块,用于根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
7.如权利要求6所述的装置,其特征在于,所述状态处理模块包括:
状态处理子模块,用于通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取,以生成所述特征状态信息集。
8.如权利要求6所述的装置,其特征在于,所述强化学习模块包括:
回报值初始化模块,用于对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化,所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值;
回报值更新模块,用于根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化;以及
最大回报值获取模块,用于从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。
9.如权利要求8所述的装置,其特征在于,所述回报值更新模块包括:
动作遍历模块,用于遍历所述车辆动作集,并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;以及
回报值更新子模块,用于根据所述立即回报值和预设的更新公式,更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值,所述更新公式为:
其中,为在所述特征状态信息集的状态信息s下执行所述遍历到的动作a时的回报值,为所述状态信息s的下一状态信息s'的最大回报值,r为在所述状态信息s下执行所述遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
10.如权利要求6所述的装置,其特征在于,所述极限学习机训练模块包括:
学习机设置模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,设置所述极限学习机网络模型的输入和输出;以及
网络训练模块,用于对所述极限学习机网络模型进行训练,获得所述极限学习机网络模型的输出权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710332994.0A CN107229973B (zh) | 2017-05-12 | 2017-05-12 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710332994.0A CN107229973B (zh) | 2017-05-12 | 2017-05-12 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107229973A true CN107229973A (zh) | 2017-10-03 |
CN107229973B CN107229973B (zh) | 2021-11-19 |
Family
ID=59933240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710332994.0A Active CN107229973B (zh) | 2017-05-12 | 2017-05-12 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107229973B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶***及方法 |
CN107862346A (zh) * | 2017-12-01 | 2018-03-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN108635861A (zh) * | 2018-05-18 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 控制应用中车辆的方法、设备及存储介质 |
CN108791302A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 驾驶员行为建模*** |
CN108791308A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 基于驾驶环境构建驾驶策略的*** |
WO2018205245A1 (zh) * | 2017-05-12 | 2018-11-15 | 中国科学院深圳先进技术研究院 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108891421A (zh) * | 2018-06-25 | 2018-11-27 | 大连大学 | 一种构建驾驶策略的方法 |
CN108920805A (zh) * | 2018-06-25 | 2018-11-30 | 大连大学 | 具有状态特征提取功能的驾驶员行为建模*** |
CN108944940A (zh) * | 2018-06-25 | 2018-12-07 | 大连大学 | 基于神经网络的驾驶员行为建模方法 |
CN109543225A (zh) * | 2018-10-19 | 2019-03-29 | 东软集团股份有限公司 | 车辆的控制方案生成方法、装置、存储介质和电子设备 |
CN109901446A (zh) * | 2017-12-08 | 2019-06-18 | 广州汽车集团股份有限公司 | 路口通行控制方法、装置及*** |
CN109901572A (zh) * | 2018-12-13 | 2019-06-18 | 华为技术有限公司 | 自动驾驶方法、训练方法及相关装置 |
WO2019141197A1 (en) * | 2018-01-17 | 2019-07-25 | Huawei Technologies Co., Ltd. | Method of generating training data for training neural network, method of training neural network and using neural network for autonomous operations |
WO2019218263A1 (zh) * | 2018-05-16 | 2019-11-21 | 深圳大学 | 基于极限学习机的极限ts模糊推理方法及*** |
CN110850854A (zh) * | 2018-07-27 | 2020-02-28 | 通用汽车环球科技运作有限责任公司 | 自动驾驶员代理和为自动驾驶员代理提供策略的策略服务器 |
CN111123957A (zh) * | 2020-03-31 | 2020-05-08 | 北京三快在线科技有限公司 | 一种轨迹规划的方法及装置 |
WO2021052383A1 (en) * | 2019-09-17 | 2021-03-25 | Huawei Technologies Co., Ltd. | Methods and systems for observation prediction in autonomous vehicles |
CN113609102A (zh) * | 2021-08-11 | 2021-11-05 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113673805A (zh) * | 2020-05-13 | 2021-11-19 | 丰田自动车株式会社 | 车辆调配装置、车辆及终端 |
CN113837211A (zh) * | 2020-06-23 | 2021-12-24 | 华为技术有限公司 | 一种驾驶决策方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103448719A (zh) * | 2012-06-01 | 2013-12-18 | 通用汽车环球科技运作有限责任公司 | 神经认知驾驶员状态处理 |
CN105700526A (zh) * | 2016-01-13 | 2016-06-22 | 华北理工大学 | 具有自主学习能力的在线序列极限学习机方法 |
JP2017049629A (ja) * | 2015-08-31 | 2017-03-09 | マツダ株式会社 | 運転支援制御装置 |
-
2017
- 2017-05-12 CN CN201710332994.0A patent/CN107229973B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103448719A (zh) * | 2012-06-01 | 2013-12-18 | 通用汽车环球科技运作有限责任公司 | 神经认知驾驶员状态处理 |
JP2017049629A (ja) * | 2015-08-31 | 2017-03-09 | マツダ株式会社 | 運転支援制御装置 |
CN105700526A (zh) * | 2016-01-13 | 2016-06-22 | 华北理工大学 | 具有自主学习能力的在线序列极限学习机方法 |
Non-Patent Citations (5)
Title |
---|
EDWARD 等: "Shortest path stochastic control for hybrid electric vehicles", 《 INTERNATIONAL JOURNAL OF ROBUST & NONLINEAR CONTROL》 * |
SIMULATED CAR RACING CHAMPIONSHIP: COMPETITION SOFTWARE MANUAL: "Simulated car racing championship: Competition software manual", 《ARXIV》 * |
WEI XIA 等: "A Control Strategy of Autonomous Vehicles based on Deep Reinforcement Learning", 《2016 9TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID》 * |
周慧子 等: "面向自动驾驶的动态路径规划避障算法", 《计算机应用》 * |
韩伟 等: "《多智能体***及其在电子商务中的应用》", 1 January 2008, 中国科学技术大学出版社 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018205245A1 (zh) * | 2017-05-12 | 2018-11-15 | 中国科学院深圳先进技术研究院 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶***及方法 |
CN107862346A (zh) * | 2017-12-01 | 2018-03-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
CN108009587B (zh) * | 2017-12-01 | 2021-04-16 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
CN107862346B (zh) * | 2017-12-01 | 2020-06-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
CN109901446B (zh) * | 2017-12-08 | 2020-07-07 | 广州汽车集团股份有限公司 | 路口通行控制方法、装置及*** |
US11348455B2 (en) | 2017-12-08 | 2022-05-31 | Guangzhou Automobile Group Co., Ltd. | Intersection traffic control method, apparatus and system |
CN109901446A (zh) * | 2017-12-08 | 2019-06-18 | 广州汽车集团股份有限公司 | 路口通行控制方法、装置及*** |
WO2019141197A1 (en) * | 2018-01-17 | 2019-07-25 | Huawei Technologies Co., Ltd. | Method of generating training data for training neural network, method of training neural network and using neural network for autonomous operations |
CN108288094B (zh) * | 2018-01-31 | 2021-06-29 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
WO2019218263A1 (zh) * | 2018-05-16 | 2019-11-21 | 深圳大学 | 基于极限学习机的极限ts模糊推理方法及*** |
CN108635861A (zh) * | 2018-05-18 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 控制应用中车辆的方法、设备及存储介质 |
US11135513B2 (en) | 2018-05-18 | 2021-10-05 | Tencent Technology (Shenzhen) Company Limited | Virtual vehicle control method, model training method, control device and storage medium |
CN108635861B (zh) * | 2018-05-18 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 控制应用中车辆的方法、装置、设备及存储介质 |
WO2019218791A1 (zh) * | 2018-05-18 | 2019-11-21 | 腾讯科技(深圳)有限公司 | 虚拟车辆的控制方法、模型训练方法、控制设备及存储介质 |
CN108891421A (zh) * | 2018-06-25 | 2018-11-27 | 大连大学 | 一种构建驾驶策略的方法 |
CN108920805A (zh) * | 2018-06-25 | 2018-11-30 | 大连大学 | 具有状态特征提取功能的驾驶员行为建模*** |
CN108791302A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 驾驶员行为建模*** |
CN108791302B (zh) * | 2018-06-25 | 2020-05-19 | 大连大学 | 驾驶员行为建模*** |
CN108791308A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 基于驾驶环境构建驾驶策略的*** |
CN108920805B (zh) * | 2018-06-25 | 2022-04-05 | 大连大学 | 具有状态特征提取功能的驾驶员行为建模*** |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108944940A (zh) * | 2018-06-25 | 2018-12-07 | 大连大学 | 基于神经网络的驾驶员行为建模方法 |
CN110850854A (zh) * | 2018-07-27 | 2020-02-28 | 通用汽车环球科技运作有限责任公司 | 自动驾驶员代理和为自动驾驶员代理提供策略的策略服务器 |
CN109543225A (zh) * | 2018-10-19 | 2019-03-29 | 东软集团股份有限公司 | 车辆的控制方案生成方法、装置、存储介质和电子设备 |
CN109901572A (zh) * | 2018-12-13 | 2019-06-18 | 华为技术有限公司 | 自动驾驶方法、训练方法及相关装置 |
WO2020119363A1 (zh) * | 2018-12-13 | 2020-06-18 | 华为技术有限公司 | 自动驾驶方法、训练方法及相关装置 |
CN109901572B (zh) * | 2018-12-13 | 2022-06-28 | 华为技术有限公司 | 自动驾驶方法、训练方法及相关装置 |
WO2021052383A1 (en) * | 2019-09-17 | 2021-03-25 | Huawei Technologies Co., Ltd. | Methods and systems for observation prediction in autonomous vehicles |
CN111123957A (zh) * | 2020-03-31 | 2020-05-08 | 北京三快在线科技有限公司 | 一种轨迹规划的方法及装置 |
CN113673805A (zh) * | 2020-05-13 | 2021-11-19 | 丰田自动车株式会社 | 车辆调配装置、车辆及终端 |
CN113673805B (zh) * | 2020-05-13 | 2024-05-14 | 丰田自动车株式会社 | 车辆调配装置及车辆 |
CN113837211A (zh) * | 2020-06-23 | 2021-12-24 | 华为技术有限公司 | 一种驾驶决策方法及装置 |
CN113837211B (zh) * | 2020-06-23 | 2024-06-14 | 华为技术有限公司 | 一种驾驶决策方法及装置 |
CN113609102A (zh) * | 2021-08-11 | 2021-11-05 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113609102B (zh) * | 2021-08-11 | 2024-03-19 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107229973B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229973A (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
Li et al. | Humanlike driving: Empirical decision-making system for autonomous vehicles | |
CN107169567A (zh) | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 | |
Du et al. | Comfortable and energy-efficient speed control of autonomous vehicles on rough pavements using deep reinforcement learning | |
CN107492251A (zh) | 一种基于机器学习与深度学习的驾驶员身份识别与驾驶状态监测方法 | |
CN107310550A (zh) | 道路交通工具行驶控制方法和装置 | |
CN110196587A (zh) | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 | |
Hecker et al. | Learning accurate, comfortable and human-like driving | |
CN110956851B (zh) | 一种智能网联汽车协同调度换道方法 | |
CN114312830B (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN101465058A (zh) | 智能式动态路线诱导***诱导单元决策方法 | |
CN110182217A (zh) | 一种面向复杂超车场景的行驶任务复杂度量化评估方法 | |
CN115344052B (zh) | 基于改进的群优化算法的车辆路径控制方法及控制*** | |
CN116432448B (zh) | 基于智能网联车和驾驶员遵从度的可变限速优化方法 | |
Geng et al. | Human-driver speed profile modeling for autonomous vehicle's velocity strategy on curvy paths | |
CN116564095A (zh) | 基于cps的重点车辆高速公路隧道预测巡航云控制方法 | |
Li et al. | Vehicle classification and speed estimation based on a single magnetic sensor | |
Gao et al. | Discretionary cut-in driving behavior risk assessment based on naturalistic driving data | |
CN106873595A (zh) | 一种基于时间自动机的跟车行为识别方法 | |
CN113120003A (zh) | 无人驾驶车辆运动行为决策方法 | |
CN107045639A (zh) | 一种基于时间自动机的跟车行为生成方法 | |
CN113743767B (zh) | 基于时间和安全性的车辆派单方法、***、计算机及介质 | |
CN113276860B (zh) | 车辆控制方法、装置、电子设备以及存储介质 | |
Chen et al. | Platoon separation strategy optimization method based on deep cognition of a driver’s behavior at signalized intersections | |
Teng et al. | Car following model based on driving risk field for vehicle infrastructure cooperation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |