CN113110526A - 一种模型训练的方法、无人驾驶设备的控制方法及装置 - Google Patents

一种模型训练的方法、无人驾驶设备的控制方法及装置 Download PDF

Info

Publication number
CN113110526A
CN113110526A CN202110657875.9A CN202110657875A CN113110526A CN 113110526 A CN113110526 A CN 113110526A CN 202110657875 A CN202110657875 A CN 202110657875A CN 113110526 A CN113110526 A CN 113110526A
Authority
CN
China
Prior art keywords
driving
model
training
scene
decision model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110657875.9A
Other languages
English (en)
Other versions
CN113110526B (zh
Inventor
刘思威
贾庆山
任冬淳
白钰
樊明宇
夏华夏
毛一年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Sankuai Online Technology Co Ltd filed Critical Tsinghua University
Priority to CN202110657875.9A priority Critical patent/CN113110526B/zh
Publication of CN113110526A publication Critical patent/CN113110526A/zh
Application granted granted Critical
Publication of CN113110526B publication Critical patent/CN113110526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0003In analogue systems, e.g. continuous systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Feedback Control In General (AREA)

Abstract

本说明书公开了一种模型训练的方法、无人驾驶设备的控制方法及装置,并具体公开了,针对每个行驶场景,通过场景行驶模型确定该训练样本所对应的行驶场景并利用该训练样本对该行驶场景对应的决策模型进行训练,得到每个调整后的决策模型,再在调整后的决策模型基础上,确定出每个训练样本对应的实际行驶场景,并利用该实际行驶场景对场景行驶模型进行训练,直至确定满足预设训练条件。而后,在对无人驾驶设备进行控制时,使用训练后的场景行驶模型确定无人驾驶设备所在的行驶场景,再采用与该行驶场景相匹配的决策模型,确定无人驾驶设备对应的控制策略,并控制无人驾驶设备行驶,这样,提高了无人驾驶设备对于不同行驶场景的适应能力。

Description

一种模型训练的方法、无人驾驶设备的控制方法及装置
技术领域
本说明书涉及无人驾驶技术领域,尤其涉及一种模型训练的方法、无人驾驶设备的控制方法及装置。
背景技术
无人驾驶技术是在没有驾驶员或者驾驶员不接管车辆的情况下,车辆自行驾驶,通过各种实际场景的驾驶技术。随着人工智能技术的不断进步,无人驾驶技术也取得了长足的发展,各种无人车受到越来越多用户的青睐。目前,无人驾驶中进行控制策略规划的方式通常有两种,一种根据无人车采集的数据,动态规划出行驶轨迹,而后,根据规划的行驶轨迹,确定出无人车对应的控制策略,进而通过确定出的控制策略控制无人车行驶;另一种是将无人车采集的数据输入到预先训练的决策模型,直接得到对应的控制策略。
然而,在实际生活中,无人车需要面对的场景是多种多样的,例如,山地道路、越野道路、城市道路、乡村道路等,在面对不同的场景,无人车所需面对的问题和挑战都是不同的,因而在控制策略规划时所需关注的侧重点也不同,在现有的控制策略规划方法,多是基于无人车采集的数据来确定车辆对应的控制策略的,而没有充分考虑到无人车所在场景对于控制策略的决策结果影响,因而,当无人车在不同场景中行驶时,得到的控制策略不能良好的适应驾驶环境,存在无人车适应能力弱的问题。
发明内容
本说明书提供一种模型训练的方法、无人驾驶设备的控制方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景;
将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型;
得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景;
以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
可选地,根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型,具体包括:
根据所述第一预测控制策略,预测所述训练样本对应的未来行驶轨迹,并确定所述未来行驶轨迹对应的第一评分;
以最大化所述第一评分为优化目标,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型。
可选地,确定该训练样本与每个调整后决策模型之间的匹配度,具体包括:
针对每个调整后决策模型,将所述历史传感数据输入到该调整后决策模型中,得到该训练样本对应的第二预测控制策略;
确定所述第二预测控制策略对应的第二评分;
根据所述第二评分,确定该训练样本与该调整后决策模型之间的匹配度。
可选地,确定满足预设训练条件,具体包括:
针对每一轮模型训练,从各训练样本中确定出目标样本,其中,针对每个训练样本,若确定该训练样本在该轮模型训练中所确定出的实际行驶场景,不同于将该训练样本输入到上一轮调整后的场景行驶模型中所识别出的行驶场景,将该训练样本将为目标样本;
若确定所述目标样本在所述各训练样本中的占比小于设定占比,确定满足预设训练条件。
可选地,所述方法还包括:
确定算法配置相匹配的各调整后决策模型,作为各待聚类决策模型;
根据每个待聚类决策模型中包含的模型参数,对所述各待聚类决策模型进行聚类,得到各聚类簇;
针对每个聚类簇,将该聚类簇中包含的待聚类决策模型对应的行驶场景进行合并,得到该聚类簇对应的合并行驶场景;
根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型。
可选地,根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型,具体包括:
针对该聚类簇中包含的每个待聚类决策模型,根据归属于该待聚类决策模型对应的行驶场景的训练样本的数目,确定该待聚类决策模型对应的权重系数;
根据该聚类簇中各待聚类决策模型对应的权重系数,该聚类簇中各待聚类决策模型包含的模型参数,以及该聚类簇中各待聚类决策模型包含的相匹配的算法配置,生成该聚类簇对应的合并行驶场景的决策模型。
本说明书提供了一种无人驾驶设备的控制方法,包括:
获取无人驾驶设备采集的传感数据;
将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略,所述场景行驶模型和所述决策模型是通过上述模型训练的方法训练得到的;
根据所述控制策略,对所述无人驾驶设备进行控制。
本说明书提供了一种模型训练的装置,包括:
行驶场景确定模块,用于针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景;
决策模型训练模块,用于将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型;
实际行驶场景确定模块,用于得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景;
场景行驶模型训练模块,用于以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
本说明书提供了一种无人驾驶设备的控制装置,包括:
获取模块,用于获取无人驾驶设备采集的传感数据;
行驶场景确定模块,用于将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
控制策略确定模块,用于将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略,所述场景行驶模型和所述决策模型是通过上述模型训练的方法训练得到的;
控制模块,用于根据所述控制策略,对所述无人驾驶设备进行控制。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练的方法和无人驾驶设备的控制方法。
本说明书提供了一种无人驾驶设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法和无人驾驶设备的控制方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的模型训练的方法和无人驾驶设备的控制方法中,针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景,并继续将该历史传感数据输入到与该行驶场景对应的决策模型中,得到该训练样本对应的第一预测控制策略,以根据该第一预测控制策略,对行驶场景对应的决策模型进行训练,得到该行驶场景对应的调整后决策模型。而后,基于得到的各调整后决策模型,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据该匹配度,确定该训练样本对应的实际行驶场景,并以最小化场景行驶模型输出的行驶场景与实际行驶场景之间的偏差为优化目标,对场景行驶模型进行训练,直到确定满足预设训练条件为止。随后,在无人驾驶设备行驶过程中,根据获取到的无人驾驶设备所采集的传感数据,利用训练好的场景行驶模型中,得到无人驾驶设备所在的行驶场景,并将传感数据输入到预先训练的与该行驶场景相匹配的决策模型中,得到无人驾驶设备对应的控制策略,进而根据确定出的控制策略,对无人驾驶设备进行控制。
从上述方法中可以看出,本说明书中先基于场景行驶模型输出的行驶场景结果,对各行驶场景对应的决策模型进行训练,得到每个调整后的决策模型,再在调整后的决策模型基础上,确定出每个训练样本对应的实际行驶场景,并利用该实际行驶场景对场景行驶模型进行训练,直至确定满足预设训练条件为止。而后,在对无人驾驶设备进行控制时,使用训练后的场景行驶模型确定无人驾驶设备所在的行驶场景,再采用与确定出的行驶场景相匹配的决策模型,确定无人驾驶设备对应的控制策略,并根据该控制策略对无人驾驶设备进行控制,这样,就可以尽可能使得对无人驾驶设备进行控制时使用的决策模型更适用于无人驾驶设备当前所在的环境,进而提高了无人驾驶设备对于不同行驶场景的适应能力。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种模型训练的方法的流程示意图;
图2为本说明书中模型训练时的详细流程示意图;
图3为本说明书中一种无人驾驶设备的控制方法的流程示意图;
图4为本说明书提供的一种模型训练的装置的示意图;
图5为本说明书提供的一种无人驾驶设备的控制装置的示意图;
图6为本说明书提供的对应于图1或图3的无人驾驶设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在实现无人驾驶时,目前的主要实现方式是在一种算法配置下训练得到无人驾驶设备的决策模型,并利用该决策模型来确定无人驾驶设备的控制策略以对无人驾驶设备进行控制。然而,目前无人驾驶设备通常是使用一个决策模型进行决策,而这一决策模型往往并不能适用于所有的行驶场景,这导致在实际应用中,无人驾驶设备通过决策模型所确定出的控制策略并不适用于当前所处的行驶场景,从而出现无人驾驶设备对于不同行驶场景的适应能力低的情况,以及可能会给无人驾驶设备的行驶带来一定的安全隐患。
为解决这一问题,本说明书中提供了一种模型训练的方法,用于针对不同的行驶场景,训练得到与之相匹配的决策模型,以使得针对每一种行驶场景,均能够通过训练后的与该行驶场景相匹配的决策模型进行决策,进而提高了无人驾驶设备对于不同行驶场景的适应能力。
下面将结合实施例详细阐述本说明书中提供的模型训练的方法以及无人驾驶设备的控制方案。
图1为本说明书中一种模型训练的方法的流程示意图,具体包括以下步骤:
步骤S100,针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景。
本说明书中,作为该训练样本的历史传感数据是由装配有多种传感器(如摄像头、激光雷达、毫米波雷达等)的指定设备(可以是有人驾驶的专用于采集传感数据的设备,也可以是无人驾驶设备)在实际道路行驶过程中,所采集的历史传感数据,该传感数据中可以包括:指定设备所在环境,指定设备的行驶状态,指定设备的控制量等。其中,指定设备所在环境,可以包括指定设备所在道路的类型(如,山地道路、城乡道路、高速路、城市主路等)、指定设备所在道路的路况(如,路面湿滑情况、路面积水情况、路面平整情况、车道数、交通流大小等)、指定设备所在路段周围的障碍物(如,障碍物车辆(包括车辆类型、车辆位置等)、行人等)等。指定设备的行驶状态,可以包括指定设备的速度、指定设备的加速度、指定设备的角速度等。指定设备的控制量,可以包括指定设备油门的力度、指定设备刹车的力度、指定设备方向盘转动角度等。
具体实施中,无人驾驶设备针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中后,该场景行驶模型将输出该训练样本所对应的行驶场景,进而可以根据该行驶场景确定出需要进行训练的决策模型。
需要说明的是,上述内容中模型训练的方法的执行主体是无人驾驶设备,当然,本说明书中为无人驾驶设备提供业务支持的服务器也可以作为模型训练的方法的执行主体。下面为了方便描述,将仅以无人驾驶设备为执行主体为例进行说明。其中,无人驾驶设备可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此,配置有应用本说明书提供的模型训练的方法所得到的模型的无人驾驶设备可以用于执行配送领域的配送任务,如,使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。
其中,每个行驶场景对应一个决策模型,该决策模型由算法配置和模型参数共同构成,各决策模型在模型参数上至少存在部分不同。在确定预设的若干个行驶场景对应的决策模型时,可以在每种算法配置下,设置若干个行驶场景对应的决策模型,进而,得到所有的行驶场景对应的决策模型。其中,算法配置可以是指具有不同的运算逻辑的深度学习神经网络、轨迹规划算法等。
步骤S102,将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型。
具体实施中,无人驾驶设备针对每个训练样本,可以将该训练样本的历史传感数据,输入到与确定出的该训练样本对应的行驶场景相匹配的决策模型中,得到该训练样本对应的第一预测控制策略。而后,基于该训练样本中的传感数据,预测指定设备按照第一预测控制策略行驶后所能得到的未来行驶轨迹,进而,确定该未来行驶轨迹对应的第一评分,以最大化该第一评分为优化目标,对该行驶场景对应的决策模型进行训练,得到每个行驶场景对应的调整后决策模型。
其中,第一预测控制策略可以包括速度控制策略和转角控制策略,该速度控制策略用来对指定设备进行速度控制,该转角控制策略用来对指定设备进行转角控制。当第一预测控制策略仅包括速度控制策略,第一预测控制策略可以包括指定设备油门的力度、指定设备刹车的力度。当第一预测控制策略同时包括速度控制策略和转角控制策略时,第一预测控制策略可以包括指定设备油门的力度、指定设备刹车的力度、指定设备转向角度。
无人驾驶设备确定出该训练样本对应的第一预测控制策略后,将进一步针对该第一预测控制策略,确定对应的第一评分,并根据该第一评分对决策模型进行训练。
其中,无人驾驶设备可以基于训练样本中包含的历史传感数据,根据确定出的第一预测控制策略进行仿真测试,得到指定设备按照该第一预测控制策略行驶后,所得到的未来行驶轨迹,并根据该未来行驶轨迹和指定设备的实际行驶轨迹之间的差异,确定该未来行驶轨迹对应的第一评分。其中,可以设定未来行驶轨迹与指定设备的实际行驶轨迹之间的重合度越高,未来行驶轨迹对应的第一评分越高。
当然,无人驾驶设备预测未来行驶轨迹时,该未来行驶轨迹中还可以包括预测出的指定设备按照第一预测控制策略行驶时所对应的传感数据,而后,根据该未来行驶轨迹中预测出的传感数据和训练样本中的历史传感数据,确定该未来行驶轨迹对应的第一评分。其中,用于确定第一评分的传感数据可以包括指定设备的速度、指定设备的加速度、指定设备的转向角度等。因为,通常来说,指定设备的速度越快,则可以越快的到达目的地,故而可以设定速度越快,评分越高。指定设备的加速度的变化越平稳,则指定设备行驶过程越平稳,舒适度越高,故而可以设定加速度的变化越平稳,评分越高。指定设备的转向角度越小,则指定设备行驶过程越平稳,舒适度越高,故而可以设定转向角度的变化越平稳,评分越高。
进一步地,由于不同的第一行驶场景,决策模型决策时所关注的侧重点不同,因而,可以针对不同的行驶场景,在确定对应的第一评分时可以根据行驶场景的特点,选取出一部分专用于该行驶场景的传感数据,以确定第一评分。
例如,在跟车行驶场景中,指定设备与前车之间的距离不能过小也不能过大,因此,可以通过预测指定设备按照第一控制策略行驶时,未来行驶轨迹中自身与前车之间的距离的变化情况,确定该未来行驶轨迹对应的第一评分。此时,指定设备的位置数据和前车的位置数据,即可作为在跟车场景中专用于确定第一评分的传感数据。
再例如,在转弯行驶场景中,指定设备需要在车道内行驶,不得超车变道,这样,可以通过预测指定设备按照第一控制策略行驶时,未来行驶轨迹中车身与两侧车道线之间的距离的变化情况,确定该未来行驶轨迹对应的第一评分。此时,指定设备的左侧车身与左侧车道线之间的距离和指定设备的右侧车身与右侧车道线之间的距离,即可作为在转弯行驶场景中专用于确定第一评分的传感数据。
需要说明的是,上述仅是给出了两种行驶场景下的确定第一评分的特例,实际应用中,可以针对不同的行驶场景,根据实际要求选取出不同的传感数据,来确定未来行驶轨迹对应的第一评分,此处不做具体限定。
步骤S104,得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景。
具体实施中,无人驾驶设备得到每个调整后决策模型后,将继续基于所有的调整后决策模型,确定该训练样本与每个调整后决策模型之间的匹配度。具体实施中,无人驾驶设备可以针对每个调整后决策模型,将历史传感数据输入到该调整后决策模型中,得到该训练样本对应的第二预测控制策略,而后,确定该第二预测控制策略对应的第二评分,再根据该第二评分,确定该训练样本与该调整后决策模型之间的匹配度。其中,第二预测控制策略对应的第二评分的确定方式可以参考未来行驶轨迹对应的第一评分的确定方式,在此不再详细阐述。
本说明书中,根据第二评分,确定该训练样本与每个调整后决策模型之间的匹配度时,第二评分越高,该第二评分所对应的第二预测控制策略对应的调整后决策模型与该训练样本之间的匹配度越高,也就是说,该训练样本属于该调整后决策模型所对应的行驶场景的可能性越高。此时,可将匹配度最高的决策模型对应的行驶场景,作为该样本对应的实际行驶场景。
当然,本说明书中也可以通过其他的方式确定该训练样本与每个调整后决策模型之间的匹配度。如,在决策模型训练时,会根据各训练样本训练时所得到的第一评分,确定模型训练时的模型更新步长。训练样本越适宜采用哪种决策模型,在训练时所得到模型更新步长往往越小,因此,可以根据各训练样本在各决策模型训练时所对应的模型更新步长,确定该训练样本与每个调整后决策模型之间的匹配度,其中,模型更新步长越小,匹配度越高。其他方式在此就不详细举例说明了。
步骤S106,以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
本说明书中,无人驾驶设备在对场景行驶模型进行训练时,将针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景,而后,以最小化该行驶场景与实际行驶场景之间的偏差为优化目标,对场景行驶模型进行训练。并在所有训练样本训练完成后,判断是否满足预设训练条件,若不满足,则重新针对每个训练样本,通过调整后场景行驶模型重新确定该训练样本所对应的行驶场景,以对决策模型和场景行驶模型进行训练,直至确定满足预设的训练条件为止。
本说明书中,无人驾驶设备可以通过如下方式确定是否满足预设的训练条件。具体的,无人驾驶设备从所有的训练样本中,确定出在该轮训练中所确定出的实际行驶场景,不同于将该训练样本输入到上一轮调整后的场景行驶模型中所识别出的行驶场景的训练样本,并将这些训练样本作为目标训练样本。接着,确定目标样本在所有训练样本中的占比,并判断该占比是否小于设定占比,若该占比小于设定占比,则确定满足预设训练条件,模型训练完成,否则,继续进行下一轮的决策模型训练和场景行驶模型训练。
即,前后两轮训练给出不同实际行驶场景的训练样本的数目越少(目标样本在所有训练样本中的占比越小),则说明场景行驶模型识别出训练样本所对应的行驶场景的能力越强。换句话说,场景行驶模型对训练样本进行分类时所输出的行驶场景在每轮训练间不再频繁发生变更,所实现的分类逻辑趋于稳定,进而可以认为场景行驶模型输出的行驶场景比较准确。相应地,前后两轮训练给出不同实际行驶场景的训练样本的数目减少,也说明采用上述评分方式,能够通过调整后决策模型准确地确定出训练样本对应的实际行驶场景,则调整后决策模型所确定出的控制策略也更加准确。
当然,预设训练条件还可以包括其他形式,例如,模型训练的轮次到达设定轮次时,可以确定满足预设训练条件;再例如,在每轮训练后使用验证样本对场景识别模型以及各行驶场景对应的决策模型进行验证,并在确定验证通过后,确定满足预设训练条件等。其他方式在此就不详细举例说明了。
进一步地,本说明书中为了加快模型训练的速度,可以在第一轮的模型训练时,针对每个训练样本,直接将作为该训练样本的历史传感数据输入到至少部分决策模型中去,得到该训练样本对应的至少部分第一预测控制策略,并确定对应的第一评分,以根据第一评分,对这些决策模型进行训练,得到调整后决策模型。而后,基于调整后决策模型,确定该训练样本对应的实际行驶场景,并对场景行驶模型进行训练,得到调整后的场景行驶模型。随后进行第二轮模型训练。
在第二轮模型训练中,针对每个训练样本,将作为该训练样本的历史传感数据输入到调整后的场景行驶模型中,得到该训练样本对应的行驶场景,以对该行驶场景对应的决策模型进行训练,得到新的调整后的决策模型。而后,基于新的调整后决策模型,重新确定每个训练样本对应的实际行驶场景,以对场景行驶模型进行训练,得到新的调整后的场景行驶模型。接着,判断是否满足预设训练条件,若不满足,开始下一轮次的训练,直至确定满足预设的训练条件为止。
为了进一步地加快模型训练的速度,本说明书中还可以在进行模型训练之前对训练样本集中的所有训练样本进行精细化的划分,将所有训练样本划分成若干的子训练样本集。而后,在进行模型训练时,将归属于同一个子训练样本集的各训练样本输入到场景行驶模型中后,所得到的各训练样本对应的行驶场景应是一致的,以此来对场景识别模型以及各行驶场景对应的决策模型进行训练。
下面将结合附图详细说明本说明书中提供的模型训练的方法的详细流程示意图,参见图2。
步骤200,获取用于训练决策模型的训练样本,将该训练样本输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景。
步骤202,将该训练样本输入到与该行驶场景对应的决策模型中,得到该训练样本对应的第一预测控制策略,并根据该第一预测控制策略,对行驶场景对应的决策模型进行训练,得到调整后决策模型。
步骤204,判断是否存在未用于训练决策模型的训练样本,若是,则返回执行步骤200,否则,执行步骤206。
步骤206,在得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据该匹配度,确定该训练样本对应的实际行驶场景。
步骤208,以最小化该训练样本对应的行驶场景与实际行驶场景之间的偏差为优化目标,对场景行驶模型进行训练,得到调整后场景行驶模型。
步骤210,判断是否存在未用于训练场景行驶模型的训练样本,若是,则返回执行步骤206,否则,执行步骤212。
步骤212,确定此轮模型训练完成,判断是否满足预设训练条件,若是,结束流程,否则,执行步骤214。
步骤214,获取用于训练决策模型的训练样本,将该训练样本输入到调整后场景行驶模型中,得到该训练样本对应的行驶场景,并继续执行步骤202。
本说明书中,在模型训练时,为了能够更好的应对多样的行驶场景,可以设计场景行驶模型所能分类的行驶场景类别比较多,这样,训练后确定出的行驶场景以及行驶场景所对应的决策模型可能存在一定程度的冗余。因此,实际应用中,还可以在模型训练完成后,对各决策模型进行聚类,将属于同一个聚类簇中的各行驶场景,以及各行驶场景所对应的决策模型进行合并。
具体的,无人驾驶设备确定算法配置相匹配的各调整后决策模型,作为各待聚类决策模型,再根据每个待聚类决策模型中包含的模型参数,对各待聚类决策模型进行聚类,得到各聚类簇,而后,针对每个聚类簇,将该聚类簇中包含的待聚类决策模型对应的行驶场景进行合并,得到该聚类簇对应的合并行驶场景,最终,根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型。
无人驾驶设备从所有的调整后决策模型中确定各待聚类决策模型时,可以将所有的调整后决策模型的模型参数设定为同一参数值,而后,根据各决策模型所实现的运算逻辑,将运算逻辑相似的各调整后决策模型看作是算法配置相匹配的各调整后决策模型,并作为各待聚类决策模型。
进一步地,无人驾驶设备确定出各待聚类决策模型后,将针对这些各待聚类决策模型,根据每个待聚类决策模型中包含的模型参数,对所述各待聚类决策模型进行聚类,得到各聚类簇。
具体实施中,无人驾驶设备对各待聚类决策模型进行聚类时,将根据各待聚类决策模型的模型参数,确定任意两个待聚类决策模型之间的相似度,并根据确定出的相似度,对各待聚类决策模型进行聚类,得到各聚类簇。
其中,无人驾驶设备确定两个待聚类决策模型之间的相似度的方式有多种。例如,无人驾驶设备可以根据每个待聚类决策模型的模型参数,构建出用于表征该待聚类决策模型的向量,而后,确定这两个向量之间的余弦距离,并根据余弦距离确定两个待聚类决策模型之间的相似度,其中,两个向量之间的余弦距离越小,对应的待聚类决策模型之间的相似度越高。
再例如,无人驾驶设备在根据每个待聚类决策模型的模型参数,构建出用于表征该待聚类决策模型的向量后,将这两个待聚类决策模型的向量相减,得到描述这两个待聚类决策模型之间差异的差异向量,而后,再确定该差异向量对应的范数,根据差异向量对应的范数确定两个待聚类决策模型之间的相似度,其中,差异向量对应的范数越小,对应的待聚类决策模型之间的相似度越高。需要说明的是,上述仅是两种确定聚类簇的具体实例,本说明书中还可以采用其他的聚类方法进行聚类,再此就不一一举例说明了。
无人驾驶设备确定出各聚类簇后,还将针对每个聚类簇,将该聚类簇中包含的待聚类决策模型对应的行驶场景进行合并,得到该聚类簇对应的合并行驶场景,最后,根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型。
具体实施中,无人驾驶设备将针对该聚类簇中包含的每个待聚类决策模型,根据归属于该待聚类决策模型对应的行驶场景的训练样本的数目,确定该待聚类决策模型对应的权重系数,而后,根据该聚类簇中各待聚类决策模型对应的权重系数,该聚类簇中各待聚类决策模型包含的模型参数,以及该聚类簇中各待聚类决策模型包含的相匹配的算法配置,生成该聚类簇对应的合并行驶场景的决策模型。
例如,聚类簇1中包括:待聚类决策模型A、待聚类决策模型B、待聚类决策模型C,待聚类决策模型A的模型参数表示为[a1,a2,a3,…,an],权重系数为0.2;待聚类决策模型B的模型参数表示为[b1,b2,b3,…,bn],权重系数为0.3;待聚类决策模型C的模型参数表示为[c1,c2,c3,…,cn],权重系数为0.5;且这三个待聚类决策模型的算法配置相同。则,该聚类簇对应的合并行驶场景的决策模型的模型参数可以表示为[0.2×a1+0.3×b1+0.5×c1,0.2×a2,+0.3×b2,+0.5×c2,0.2×a3+0.3×b3+0.5×c3,…,0.2×an+0.3×bn+0.5×cn]。
上述仅提供了一种可以实现的合并行驶场景的决策模型的实例,本说明书中,可以根据实际需求具体设定,故不对行驶场景的决策模型的合并方式进行具体限定。
进一步地,本说明书中还可以针对每个聚类簇,直接从该聚类簇内的各待聚类决策模型中选取出一个待聚类决策模型,作为该聚类簇对应的合并行驶场景的决策模型。
例如,无人驾驶设备可以针对每个聚类簇中包含的各待聚类决策模型,确定归属于各待聚类决策模型对应的行驶场景的训练样本的数目,并选取出训练样本的数目最多的待聚类决策模型,作为该聚类簇对应的合并行驶场景的决策模型。再例如,无人驾驶设备针对每个聚类簇,从该聚类簇内的各待聚类决策模型中,随机选取出一个待聚类决策模型,作为该聚类簇对应的合并行驶场景的决策模型。其他方式不在一一举例。
本说明书中提供的模型训练的方法中,先基于场景行驶模型所给出的初始行驶场景分类下,对决策模型进行训练,使得调整后决策模型具有一定的决策能力。而后,在调整后决策模型具备一定决策能力的情况下,使用这些调整后决策模型来确定各训练样本所对应的实际行驶场景(即最适用的决策模型所对应的行驶场景),并将各训练样本所应对应的实际行驶场景作为标注,反过来对场景行驶模型进行训练。通过这种方式进行多次迭代训练后,可以保证训练后的场景行驶模型具备较高的场景分类能力以及训练后决策模型均具备较高的决策能力。
进一步地,在实际应用中,行驶场景的划分往往较为复杂,所以,若是通过人工的方式来确定出训练样本对应的实际行驶场景,往往准确性较低,而在本说明书中的模型训练过程中,训练样本对应的实际行驶场景并不需要通过人工的方式来进行标注,而是通过使用调整后决策模型所确定出的控制策略,来确定出到底训练样本适合哪一行驶场景对应的决策模型,这样不仅有效地节省了人力成本,并且能够准确地确定出训练样本所对应的实际行驶场景。
图3为本说明书中一种无人驾驶设备的控制方法的流程示意图,具体包括以下步骤:
步骤300,获取无人驾驶设备采集的传感数据;
步骤302,将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
步骤304,将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略;
步骤306,根据所述控制策略,对所述无人驾驶设备进行控制。
其中,场景行驶模型和决策模型是通过上述模型训练的方法训练得到的。
具体实施中,本说明书中可以将对无人驾驶设备的控制解耦为两部分:速度控制和转角控制。若使用本说明书中训练得到的场景行驶模型和决策模型,对无人驾驶设备进行速度控制,无人驾驶设备将传感数据输入到场景行驶模型中,得到对应的行驶场景后,将继续将传感数据输入到与该行驶场景相匹配的决策模型中,得到无人驾驶设备对应的速度控制策略。无人驾驶设备根据该速度控制策略行驶时,可以实现对自身的速度控制,其中,速度控制策略可以包括无人驾驶设备油门的力度、无人驾驶设备刹车的力度。而无人驾驶设备基于转角的控制,则可由无人驾驶设备通过轨迹跟踪算法(如,纯跟踪(pure-pursuit)算法、Stanley等),来确定出转角控制策略。
若使用本说明书中训练得到的场景行驶模型和决策模型,同时实现对无人驾驶设备进行速度控制和转角控制,无人驾驶设备将传感数据输入到场景行驶模型中,得到对应的行驶场景后,将继续将传感数据输入到与该行驶场景相匹配的决策模型中,得到无人驾驶设备对应的速度控制策略以及转角控制策略。无人驾驶设备根据该速度控制策略行驶时,可以实现对自身的速度控制,其中,速度控制策略可以包括无人驾驶设备油门的力度、无人驾驶设备刹车的力度。与此同时,无人驾驶设备根据该转角控制策略行驶时,可以实现对自身的转角控制,转角控制策略可以包括车辆方向盘转动角度。
通过上述步骤,无人驾驶设备可以先基于场景行驶模型输出的行驶场景结果,对各行驶场景对应的决策模型进行训练,得到每个调整后的决策模型,进而再在调整后的决策模型基础上,确定出每个训练样本对应的实际行驶场景,并利用该实际行驶场景对场景行驶模型进行训练,直至确定满足预设训练条件。而后,在对无人驾驶设备进行控制时,使用训练后的场景行驶模型确定无人驾驶设备所在的行驶场景,再采用与确定出的行驶场景相匹配的决策模型,确定无人驾驶设备对应的控制策略,实现对无人驾驶设备进行控制,这样,就可以尽可能使得对无人驾驶设备进行控制时使用的决策模型更适用于无人驾驶设备当前所在的环境,进而提高了无人驾驶设备对于不同行驶场景的适应能力。
以上为本说明书的一个或多个实施例提供的模型训练的方法和无人驾驶设备的控制方法,基于同样的思路,本说明书还提供了相应的模型训练的装置和无人驾驶设备的控制装置,如图4和5所示。
图4为本说明书提供的一种模型训练的装置示意图,具体包括:
行驶场景确定模块400,用于针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景;
决策模型训练模块401,用于将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型;
实际行驶场景确定模块402,用于得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景;
场景行驶模型训练模块403,用于以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
可选地,所述决策模型训练模块401,具体用于根据所述第一预测控制策略,预测所述训练样本对应的未来行驶轨迹,并确定所述未来行驶轨迹对应的第一评分;以最大化所述第一评分为优化目标,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型。
可选地,所述决策模型训练模块401,具体用于针对每个调整后决策模型,将所述历史传感数据输入到该调整后决策模型中,得到该训练样本对应的第二预测控制策略;确定所述第二预测控制策略对应的第二评分;根据所述第二评分,确定该训练样本与该调整后决策模型之间的匹配度。
可选地,所述场景行驶模型训练模块403,具体用于针对每一轮模型训练,从各训练样本中确定出目标样本,其中,针对每个训练样本,若确定该训练样本在该轮模型训练中所确定出的实际行驶场景,不同于将该训练样本输入到上一轮调整后的场景行驶模型中所识别出的行驶场景,将该训练样本将为目标样本;若确定所述目标样本在所述各训练样本中的占比小于设定占比,确定满足预设训练条件。
可选地,所述装置还包括:
聚类模块404,用于确定算法配置相匹配的各调整后决策模型,作为各待聚类决策模型;根据每个待聚类决策模型中包含的模型参数,对所述各待聚类决策模型进行聚类,得到各聚类簇;针对每个聚类簇,将该聚类簇中包含的待聚类决策模型对应的行驶场景进行合并,得到该聚类簇对应的合并行驶场景;根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型。
可选地,所述聚类模块404,具体用于针对该聚类簇中包含的每个待聚类决策模型,根据归属于该待聚类决策模型对应的行驶场景的训练样本的数目,确定该待聚类决策模型对应的权重系数;根据该聚类簇中各待聚类决策模型对应的权重系数,该聚类簇中各待聚类决策模型包含的模型参数,以及该聚类簇中各待聚类决策模型包含的相匹配的算法配置,生成该聚类簇对应的合并行驶场景的决策模型。
图5为本说明书提供的一种无人驾驶设备的控制装置示意图,具体包括:
获取模块500,用于获取无人驾驶设备采集的传感数据;
场景确定模块501,用于将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
控制策略确定模块502,用于将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略,所述场景行驶模型和所述决策模型是通过上述模型训练的方法训练得到的;
控制模块503,用于根据所述控制策略,对所述无人驾驶设备进行控制。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的模型训练的方法或上述图3提供的无人驾驶设备的控制方法。
本说明书还提供了图6所示的无人驾驶设备的示意结构图。如图6所述,在硬件层面,该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1提供的模型训练的方法或上述图3提供的无人驾驶设备的控制方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (11)

1.一种模型训练的方法,其特征在于,包括:
针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景;
将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型;
得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景;
以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
2.如权利要求1所述的方法,其特征在于,根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型,具体包括:
根据所述第一预测控制策略,预测所述训练样本对应的未来行驶轨迹,并确定所述未来行驶轨迹对应的第一评分;
以最大化所述第一评分为优化目标,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型。
3.如权利要求2所述的方法,其特征在于,确定该训练样本与每个调整后决策模型之间的匹配度,具体包括:
针对每个调整后决策模型,将所述历史传感数据输入到该调整后决策模型中,得到该训练样本对应的第二预测控制策略;
确定所述第二预测控制策略对应的第二评分;
根据所述第二评分,确定该训练样本与该调整后决策模型之间的匹配度。
4.如权利要求1所述的方法,其特征在于,确定满足预设训练条件,具体包括:
针对每一轮模型训练,从各训练样本中确定出目标样本,其中,针对每个训练样本,若确定该训练样本在该轮模型训练中所确定出的实际行驶场景,不同于将该训练样本输入到上一轮调整后的场景行驶模型中所识别出的行驶场景,将该训练样本将为目标样本;
若确定所述目标样本在所述各训练样本中的占比小于设定占比,确定满足预设训练条件。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
确定算法配置相匹配的各调整后决策模型,作为各待聚类决策模型;
根据每个待聚类决策模型中包含的模型参数,对所述各待聚类决策模型进行聚类,得到各聚类簇;
针对每个聚类簇,将该聚类簇中包含的待聚类决策模型对应的行驶场景进行合并,得到该聚类簇对应的合并行驶场景;
根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型。
6.如权利要求5所述的方法,其特征在于,根据该聚类簇中包含的待聚类决策模型,确定该聚类簇对应的合并行驶场景的决策模型,具体包括:
针对该聚类簇中包含的每个待聚类决策模型,根据归属于该待聚类决策模型对应的行驶场景的训练样本的数目,确定该待聚类决策模型对应的权重系数;
根据该聚类簇中各待聚类决策模型对应的权重系数,该聚类簇中各待聚类决策模型包含的模型参数,以及该聚类簇中各待聚类决策模型包含的相匹配的算法配置,生成该聚类簇对应的合并行驶场景的决策模型。
7.一种无人驾驶设备的控制方法,其特征在于,包括:
获取无人驾驶设备采集的传感数据;
将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略,所述场景行驶模型和所述决策模型是通过如上述权利要求1~6任一项所述的模型训练的方法训练得到的;
根据所述控制策略,对所述无人驾驶设备进行控制。
8.一种模型训练的装置,其特征在于,包括:
行驶场景确定模块,用于针对每个训练样本,将作为该训练样本的历史传感数据输入到预设的场景行驶模型中,得到该训练样本对应的行驶场景;
决策模型训练模块,用于将所述历史传感数据输入到与所述行驶场景对应的决策模型中,得到所述训练样本对应的第一预测控制策略,以根据所述第一预测控制策略,对所述行驶场景对应的决策模型进行训练,得到所述行驶场景对应的调整后决策模型;
实际行驶场景确定模块,用于得到每个调整后决策模型后,针对每个训练样本,确定该训练样本与每个调整后决策模型之间的匹配度,并根据所述匹配度,确定该训练样本对应的实际行驶场景;
场景行驶模型训练模块,用于以最小化所述行驶场景与所述实际行驶场景之间的偏差为优化目标,对所述场景行驶模型进行训练,直到确定满足预设训练条件为止。
9.一种无人驾驶设备的控制装置,其特征在于,包括:
获取模块,用于获取无人驾驶设备采集的传感数据;
行驶场景确定模块,用于将所述传感数据输入到预先训练的场景行驶模型中,得到所述无人驾驶设备对应的行驶场景;
控制策略确定模块,用于将所述传感数据输入到与所述行驶场景相匹配的决策模型中,得到所述无人驾驶设备对应的控制策略,所述场景行驶模型和所述决策模型是通过如上述权利要求1~6任一项所述的模型训练的方法训练得到的;
控制模块,用于根据所述控制策略,对所述无人驾驶设备进行控制。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法或上述权利要求7所述的方法。
11.一种无人驾驶设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法或上述权利要求7所述的方法。
CN202110657875.9A 2021-06-15 2021-06-15 一种模型训练的方法、无人驾驶设备的控制方法及装置 Active CN113110526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110657875.9A CN113110526B (zh) 2021-06-15 2021-06-15 一种模型训练的方法、无人驾驶设备的控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110657875.9A CN113110526B (zh) 2021-06-15 2021-06-15 一种模型训练的方法、无人驾驶设备的控制方法及装置

Publications (2)

Publication Number Publication Date
CN113110526A true CN113110526A (zh) 2021-07-13
CN113110526B CN113110526B (zh) 2021-09-24

Family

ID=76723515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110657875.9A Active CN113110526B (zh) 2021-06-15 2021-06-15 一种模型训练的方法、无人驾驶设备的控制方法及装置

Country Status (1)

Country Link
CN (1) CN113110526B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113325855A (zh) * 2021-08-02 2021-08-31 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN114056351A (zh) * 2021-11-26 2022-02-18 文远苏行(江苏)科技有限公司 自动驾驶方法及装置
CN116069043A (zh) * 2023-03-24 2023-05-05 华南农业大学 一种无人驾驶农机作业速度自主决策方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109747659A (zh) * 2018-11-26 2019-05-14 北京汽车集团有限公司 车辆驾驶的控制方法和装置
US20190265712A1 (en) * 2018-02-27 2019-08-29 Nauto, Inc. Method for determining driving policy
CN110196593A (zh) * 2019-05-16 2019-09-03 济南浪潮高新科技投资发展有限公司 一种自动驾驶多场景环境检测及决策***及方法
US20190378035A1 (en) * 2018-06-11 2019-12-12 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and medium for classifying driving scenario data
CN110929431A (zh) * 2020-02-03 2020-03-27 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN110991095A (zh) * 2020-03-05 2020-04-10 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN111010545A (zh) * 2019-12-20 2020-04-14 深圳市中天安驰有限责任公司 车辆驾驶决策方法、***、终端及存储介质
CN112356841A (zh) * 2020-11-26 2021-02-12 中国人民解放军国防科技大学 一种基于脑机交互的车辆控制方法及装置
CN112829747A (zh) * 2021-02-23 2021-05-25 国汽(北京)智能网联汽车研究院有限公司 一种驾驶行为决策方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190265712A1 (en) * 2018-02-27 2019-08-29 Nauto, Inc. Method for determining driving policy
US20190378035A1 (en) * 2018-06-11 2019-12-12 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and medium for classifying driving scenario data
CN109747659A (zh) * 2018-11-26 2019-05-14 北京汽车集团有限公司 车辆驾驶的控制方法和装置
CN110196593A (zh) * 2019-05-16 2019-09-03 济南浪潮高新科技投资发展有限公司 一种自动驾驶多场景环境检测及决策***及方法
CN111010545A (zh) * 2019-12-20 2020-04-14 深圳市中天安驰有限责任公司 车辆驾驶决策方法、***、终端及存储介质
CN110929431A (zh) * 2020-02-03 2020-03-27 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN110991095A (zh) * 2020-03-05 2020-04-10 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN112356841A (zh) * 2020-11-26 2021-02-12 中国人民解放军国防科技大学 一种基于脑机交互的车辆控制方法及装置
CN112829747A (zh) * 2021-02-23 2021-05-25 国汽(北京)智能网联汽车研究院有限公司 一种驾驶行为决策方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113325855A (zh) * 2021-08-02 2021-08-31 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN113325855B (zh) * 2021-08-02 2021-11-30 北京三快在线科技有限公司 基于迁移场景用于预测障碍物轨迹的模型训练方法
CN114056351A (zh) * 2021-11-26 2022-02-18 文远苏行(江苏)科技有限公司 自动驾驶方法及装置
CN114056351B (zh) * 2021-11-26 2024-02-02 文远苏行(江苏)科技有限公司 自动驾驶方法及装置
CN116069043A (zh) * 2023-03-24 2023-05-05 华南农业大学 一种无人驾驶农机作业速度自主决策方法
CN116069043B (zh) * 2023-03-24 2023-08-15 华南农业大学 一种无人驾驶农机作业速度自主决策方法

Also Published As

Publication number Publication date
CN113110526B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113110526B (zh) 一种模型训练的方法、无人驾驶设备的控制方法及装置
US11899411B2 (en) Hybrid reinforcement learning for autonomous driving
CN111208838B (zh) 一种无人驾驶设备的控制方法及装置
CN110929431B (zh) 一种车辆行驶决策模型的训练方法及装置
CN112364997B (zh) 一种障碍物的轨迹预测方法及装置
CN111238523B (zh) 一种运动轨迹的预测方法及装置
CN111076739B (zh) 一种路径规划的方法及装置
CN112306059B (zh) 一种控制模型的训练方法、控制方法以及装置
CN111338360B (zh) 一种规划车辆行驶状态的方法及装置
CN111522245B (zh) 用于控制无人设备的方法及装置
CN113341941B (zh) 一种无人驾驶设备的控制方法及装置
CN112629550A (zh) 一种预测障碍物轨迹以及模型训练的方法及装置
CN111532285B (zh) 一种车辆控制方法及装置
CN112949756B (zh) 一种模型训练以及轨迹规划的方法及装置
CN113033527A (zh) 一种场景识别方法、装置、存储介质及无人设备
CN112947495B (zh) 模型训练的方法、无人驾驶设备的控制方法以及装置
CN113074748B (zh) 一种无人驾驶设备的路径规划方法及装置
CN112649012A (zh) 一种轨迹规划方法、设备、介质及无人设备
CN111123957B (zh) 一种轨迹规划的方法及装置
CN114019971B (zh) 一种无人设备控制方法、装置、存储介质及电子设备
CN114153207B (zh) 一种无人驾驶设备的控制方法及控制装置
WO2023087157A1 (zh) 一种智能驾驶方法及应用该方法的车辆
CN114167857B (zh) 一种无人驾驶设备的控制方法及装置
CN114545940A (zh) 一种无人设备的控制方法、装置及电子设备
CN113848913A (zh) 一种无人驾驶设备的控制方法及控制装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant