CN116880462A - 自动驾驶模型、训练方法和自动驾驶方法和车辆 - Google Patents

自动驾驶模型、训练方法和自动驾驶方法和车辆 Download PDF

Info

Publication number
CN116880462A
CN116880462A CN202310266204.9A CN202310266204A CN116880462A CN 116880462 A CN116880462 A CN 116880462A CN 202310266204 A CN202310266204 A CN 202310266204A CN 116880462 A CN116880462 A CN 116880462A
Authority
CN
China
Prior art keywords
information
layer
sample
automatic driving
autopilot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310266204.9A
Other languages
English (en)
Inventor
黄际洲
王凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310266204.9A priority Critical patent/CN116880462A/zh
Publication of CN116880462A publication Critical patent/CN116880462A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/54Audio sensitive means, e.g. ultrasound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开提供了一种自动驾驶模型、训练方法、自动驾驶方法和车辆。涉及自动驾驶技术领域。自动驾驶模型包括用于连接组成端到端神经网络模型的多模态编码层和决策控制层,决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息,多模态编码层的第一输入信息包括车辆的导航信息和利用传感器所获得的车辆周围环境的感知信息,多模态编码层用于获取与第一输入信息相对应的隐式表示,决策控制层用于至少基于输入的隐式表示获取自动驾驶策略信息。由此,能够实现感知‑决策一体化的自动驾驶技术,使得感知直接对决策负责,摆脱对高精地图的依赖,减少误差累积,解决预测和决策之间的耦合问题,并且克服结构化的预测信息容易导致规划失败的问题。

Description

自动驾驶模型、训练方法和自动驾驶方法和车辆
技术领域
本公开涉及计算机技术领域,尤其涉及自动驾驶和人工智能技术领域,具体涉及一种自动驾驶模型、利用自动驾驶模型实现的自动驾驶方法、自动驾驶模型的训练方法、基于自动驾驶模型的自动驾驶装置、一种自动驾驶模型的训练装置、电子设备、计算机可读存储介质、计算机程序产品和自动驾驶车辆。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
自动驾驶技术融合了识别、决策、定位、通信安全和人机交互等诸多方面的技术。通过人工智能学习能够辅助生成自动驾驶策略。
高精地图也称高精度地图,是由自动驾驶汽车使用的地图。高精地图拥有精确的车辆位置信息和丰富的道路元素数据信息,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,从而更好地规避潜在的风险。换言之,自动驾驶技术强依赖于高精地图。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种自动驾驶模型、利用自动驾驶模型实现的自动驾驶方法、自动驾驶模型的训练方法、基于自动驾驶模型的自动驾驶装置、一种自动驾驶模型的训练装置、电子设备、计算机可读存储介质、计算机程序产品和自动驾驶车辆。
根据本公开的一方面,提供了一种自动驾驶模型,包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息,其中,所述多模态编码层的第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在车辆的行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息,所述多模态编码层被配置用于获取与所述第一输入信息相对应的隐式表示,所述决策控制层的第二输入信息包括所述隐式表示,所述决策控制层被配置用于基于所述第二输入信息获取目标自动驾驶策略信息。
根据本公开的另一方面,提供了一种利用自动驾驶模型实现的自动驾驶方法,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。所述方法包括:获取所述多模态编码层的第一输入信息,所述第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在所述车辆行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息;将所述第一输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的与所述第一输入信息相对应的隐式表示;以及将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
根据本公开的另一方面,提供了一种自动驾驶模型的训练方法,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络基础模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息,所述方法包括对所述多模态编码层和决策控制层进行训练的第一训练过程。其中,所述第一训练过程包括:获取第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息,所述第一样本输入信息包括第一样本车辆的第一样本导航信息和针对所述第一样本车辆周围环境的样本感知信息,所述样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;将所述第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;将包括所述第一样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第一预测自动驾驶策略信息;以及至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
根据本公开的另一方面,提供了一种基于自动驾驶模型的自动驾驶装置,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。所述装置包括:输入信息获取单元,被配置为获取所述多模态编码层的第一输入信息,所述第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在所述车辆行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息;多模态编码单元,被配置为将所述第一输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的与所述第一输入信息相对应的隐式表示;以及决策控制单元,被配置为将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
根据本公开的另一方面,提供了一种自动驾驶模型的训练装置,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息,所述装置用于对所述多模态编码层和决策控制层进行训练。该装置包括:样本信息获取单元,被配置为获取第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息,所述第一样本输入信息包括第一样本车辆的第一样本导航信息和针对所述第一样本车辆周围环境的样本感知信息,所述样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;多模态编码层训练单元,被配置为将所述第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;决策控制层训练单元,被配置为将包括所述第一样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第一预测自动驾驶策略信息;以及参数调整单元,被配置为至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述方法。
根据本公开的另一方面,提供了一种自动驾驶车辆,包括:根据本公开实施例的自动驾驶装置、自动驾驶模型的训练装置、以及电子设备中的一者。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性***的示意图;
图2示出了根据本公开的实施例的自动驾驶模型的示意图;
图3示出了根据本公开的实施例的利用自动驾驶模型实现的自动驾驶方法的流程图;
图4示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法的流程图;
图5示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法的流程图;
图6示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法的流程图;
图7示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法的流程图;
图8示出了根据本公开的实施例的自动驾驶模型的训练方法的流程图;
图9示出了根据本公开的另一实施例的自动驾驶模型的训练方法的流程图;
图10示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图;
图11示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图;
图12示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图;
图13示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图;
图14示出了根据本公开的另一实施例的自动驾驶模型的训练方法的流程图;
图15示出了根据本公开的实施例的基于自动驾驶模型的自动驾驶装置的结构框图;
图16示出了根据本公开的实施例的自动驾驶模型的训练装置的结构框图;以及
图17示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
在相关技术中,自动驾驶技术中以优化和规则为主的算法通常依赖高精地图和针对不同场景的算法优化。高精地图也称高精度地图,主要包括两类信息:一是道路信息,包括高速公路等车道的位置、类别、宽度、坡度和曲率等信息;二是与车道相关的附属设施及构造物等信息,包括交通标志、交通信号灯、过街天桥、交通监视点(电子眼、测速雷达)、路侧设施、障碍物等道路细节和基础设施信息,包括车道限制场景(如车道上某一时段限行)和车道限制信息(如车辆类型、天气状况、通行时间)等。通过这些数据,自动驾驶车辆的导航***可以完成准确定位,判断哪些道路可以行驶,为车辆提供指引。
高精地图数据兼有静态要素(如道路交通基础设施、车道网和道路网等)和动态要素(如道路拥堵情况、交通事故等)。在静态数据层,高精地图可以包括车道拓扑(比如车道基准线、车道连接点、车道交通类型、车道功能类型等)、道路部件(路面标线、道路设施)、车道数量、类型、坡度、曲率、交通信号灯位置等信息;在动态数据层,高精地图可以包括路口红绿灯实时状态,道路拥堵情况、通行区域天气情况、交通拥堵而产生的临时交通标志和交通控制数据,车辆、行人、等信息。
高精地图拥有精确的车辆位置信息和丰富的道路元素数据信息,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,从而更好地规避潜在的风险。相应地,依赖于高精地图的算法的应用受限于非常局部的区域,可能因地图误差导致自动驾驶失败,并且难以解决大量的长尾情况。此外,相关技术中的算法依赖于大量的人力标注,这些标注方法一方面耗费大量人力,另一方面这些标注方法以感知为目的。例如,在驾驶过程中存在大量背景信息,以及与驾驶无关的远处障碍物(例如对面车道边上的非机动车)。以感知为目的的自动标注中,标注人员难以判断哪些障碍物应该被识别,哪些不应该被关注,难以直接服务于自动驾驶的策略优化和驾驶决策。
在相关技术中,无人驾驶技术主要依赖于感知模块和规划控制模块的协同作用。自动驾驶的工作过程包括两个阶段:第一,将摄像头或雷达等传感器获得的非结构化信息转换为结构化信息(结构化的信息包括障碍物信息、其他车辆信息、行人和非机动车信息、车道线信息、红绿灯信息、其他静态路面信息等)。这些信息可以和高精地图结合匹配,从而精准获得高精地图上的位置信息。第二,基于结构化信息以及相关观测历史进行预测和决策。其中,预测包括预测未来一段时间内周边结构化环境的变化情况;决策包括生成一些可用于后续轨迹规划使用的结构化信息(例如变道加塞、等待)。第三,基于结构化的决策信息和周边结构化环境的变化,对目标车辆的未来一段时间的轨迹进行规划,例如规划轨迹或控制信息(例如规划速度和位置)。
经过研究发现,基于感知-预测-规划的自动驾驶技术可能面临一些技术问题。首先是误差累积的问题,因为感知不能直接对决策负责,这使得感知不一定能捕捉对于决策起到关键作用的信息,此外,因为感知的错误难以在后续流程中进行弥补(例如,区域内的障碍物可能没有被识别出来),后续的流程可能难以在丢失关键障碍物的情况下做出正确决策。其次是不能解决预测和规划之间的耦合问题,周围障碍物、尤其是与目标车辆互动的关键障碍物的行为可能会受到目标车辆的影响。换言之,在自动驾驶模型的运行过程中,预测和规划这两个模块之间存在耦合,使得流式决策对最终自动驾驶效果产生影响。此外,还存在结构化信息的表示缺陷的问题,结构化信息完全受限于人工预定义好的标准,一旦遇到未明确定义的新的范式(例如出现未知障碍物、车辆行人未知的状态等等),算法很容易失败。最后是对高成本地图(例如高精度地图)的依赖问题,相关技术主要依赖于高精地图点云等信息来进行车辆定位,然而在实践中,高精地图仅在有限的区域可获得,这限制了自动驾驶的实际应用区域;此外,高精地图的更新成本巨大,一旦地图和实际道路发生不匹配,容易造成决策失败。
基于此,本公开提供了一种自动驾驶模型、利用自动驾驶模型实现的自动驾驶方法、自动驾驶模型的训练方法、基于自动驾驶模型的自动驾驶装置、一种自动驾驶模型的训练装置、电子设备、计算机可读存储介质、计算机程序产品和自动驾驶车辆,采用感知-决策一体化的自动驾驶技术,使得感知直接对决策负责,有利于感知捕捉对决策起到关键作用的信息,减少误差累积,解决相关技术中预测和决策之间的耦合问题。另外感知直接对决策负责还能够克服结构化的信息受限于人工预定义好的标准而导致算法容易失败的问题,实现重感知轻地图的自动驾驶技术,进而能够克服高精地图更新不及时和区域受限而导致决策失败的问题,由于摆脱了对高精地图的依赖,能够节省高精地图的更新成本。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性***100的示意图。参考图1,该***100包括机动车辆110、服务器120以及将机动车辆110耦接到服务器120的一个或多个通信网络130。
在本公开的实施例中,机动车辆110可以包括根据本公开实施例的计算设备和/或被配置以用于执行根据本公开实施例的方法。
服务器120可以运行使得能够实现自动驾驶的一个或多个服务或软件应用。在某些实施例中,服务器120还可以提供其他服务或软件应用,这些服务或软件应用可以包括非虚拟环境和虚拟环境。在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。机动车辆110的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的***配置是可能的,其可以与***100不同。因此,图1是用于实施本文所描述的各种方法的***的一个示例,并且不旨在进行限制。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作***的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作***以及任何商业上可用的服务器操作***的一个或多个操作***。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从机动车辆110接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由机动车辆110的一个或多个显示设备来显示数据馈送和/或实时事件。
网络130可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络130可以是卫星通信网络、局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(包括例如蓝牙、WiFi)和/或这些与其他网络的任意组合。
***100还可以包括一个或多个数据库150。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库150中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库150可以驻留在各种位置。例如,由服务器120使用的数据存储库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库150可以是不同的类型。在某些实施例中,由服务器120使用的数据存储库可以是数据库,例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库150中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件***支持的常规存储库。
机动车辆110可以包括传感器111用于感知周围环境。传感器111可以包括下列传感器中的一个或多个:视觉摄像头、红外摄像头、超声波传感器、毫米波雷达以及激光雷达(LiDAR)。不同的传感器可以提供不同的检测精度和范围。摄像头可以安装在车辆的前方、后方或其他位置。视觉摄像头可以实时捕获车辆内外的情况并呈现给驾驶员和/或乘客。此外,通过对视觉摄像头捕获的画面进行分析,可以获取诸如交通信号灯指示、交叉路口情况、其他车辆运行状态等信息。红外摄像头可以在夜视情况下捕捉物体。超声波传感器可以安装在车辆的四周,用于利用超声波方向性强等特点来测量车外物体距车辆的距离。毫米波雷达可以安装在车辆的前方、后方或其他位置,用于利用电磁波的特性测量车外物体距车辆的距离。激光雷达可以安装在车辆的前方、后方或其他位置,用于检测物体边缘、形状信息,从而进行物体识别和追踪。由于多普勒效应,雷达装置还可以测量车辆与移动物体的速度变化。
机动车辆110还可以包括通信装置112。通信装置112可以包括能够从卫星141接收卫星定位信号(例如,北斗、GPS、GLONASS以及GALILEO)并且基于这些信号产生坐标的卫星定位模块。通信装置112还可以包括与移动通信基站142进行通信的模块,移动通信网络可以实施任何适合的通信技术,例如GSM/GPRS、CDMA、LTE等当前或正在不断发展的无线通信技术(例如5G技术)。通信装置112还可以具有车联网或车联万物(Vehicle-to-Everything,V2X)模块,被配置用于实现例如与其它车辆143进行车对车(Vehicle-to-Vehicle,V2V)通信和与基础设施144进行车辆到基础设施(Vehicle-to-Infrastructure,V2I)通信的车与外界的通信。此外,通信装置112还可以具有被配置为例如通过使用IEEE802.11标准的无线局域网或蓝牙与用户终端145(包括但不限于智能手机、平板电脑或诸如手表等可佩戴装置)进行通信的模块。利用通信装置112,机动车辆110还可以经由网络130接入服务器120。
机动车辆110还可以包括控制装置113。控制装置113可以包括与各种类型的计算机可读存储装置或介质通信的处理器,例如中央处理单元(CPU)或图形处理单元(GPU),或者其他的专用处理器等。控制装置113可以包括用于自动控制车辆中的各种致动器的自动驾驶***。自动驾驶***被配置为经由多个致动器响应来自多个传感器111或者其他输入设备的输入而控制机动车辆110(未示出的)动力总成、转向***以及制动***等以分别控制加速、转向和制动,而无需人为干预或者有限的人为干预。控制装置113的部分处理功能可以通过云计算实现。例如,可以使用车载处理器执行某一些处理,而同时可以利用云端的计算资源执行其他一些处理。控制装置113可以被配置以执行根据本公开的方法。此外,控制装置113可以被实现为根据本公开的机动车辆侧(客户端)的计算设备的一个示例。
图1的***100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
根据本公开的一方面,提供了一种自动驾驶模型。图2示出了根据本公开的实施例的自动驾驶模型200的示意图。
如图2所示,自动驾驶模型200包括多模态编码层210和决策控制层220,多模态编码层210和决策控制层220连接组成端到端的神经网络模型,以使得决策控制层220直接基于多模态编码层210的输出获取自动驾驶策略信息。多模态编码层210的第一输入信息包括目标车辆的导航信息In1和利用传感器所获得的目标车辆周围环境的感知信息(例如可以但不限于包括In2、In3和In4,下面内容中以感知信息包括In2、In3和In4为例来描述),感知信息包括在目标车辆的行驶过程中针对目标车辆周围环境的当前感知信息和历史感知信息。多模态编码层210被配置用于获取与第一输入信息In1至In4相对应的隐式表示et。决策控制层220的第二输入信息包括所述隐式表示et,决策控制层220被配置用于基于第二输入信息获取目标自动驾驶策略信息。
如上所述,相关技术中可以先基于感知信息进行预测以获得未来预测信息,决策控制层再基于未来预测信息进行规划,也就是说,决策控制层220不直接基于感知信息进行规划,而是直接基于未来预测信息进行规划。而本申请实施例中决策控制层220可以直接基于多模态编码层210的输出获取自动驾驶策略信息,多模态编码层210用于对感知信息进行编码计算,相当于决策控制层220可以直接基于感知信息进行规划,获取自动驾驶策略信息。换言之,本申请实施例中感知直接对决策负责。
在示例中,自动驾驶模型200可以采用具有编码器(Encoder)和解码器(Decoder)的Transformer网络结构。可以理解的是,自动驾驶模型200还可以是其他的基于Transformer网络结构的神经网络模型,在此不作限定。Transformer架构可以通过自注意力机制来计算模型输入与输出的隐含表示。换言之,Transformer架构可以是基于这种自注意力机制而构建的Encoder-Decoder模型。
在示例中,第一输入信息中的目标车辆的导航信息In1可以包括矢量化的导航信息和矢量化的地图信息,矢量化的导航信息和矢量化的地图信息可以是对车道级、或道路级导航信息以及粗定位信息中的一者或多者进行矢量化运算所获得的。
根据本申请的一些实施例中,目标车辆周围环境的感知信息In2、In3和In4可以包括一个或多个摄像机的感知信息In2、一个或多个激光雷达的感知信息In3、以及一个或多个毫米波雷达的感知信息In4。可以理解的是,目标车辆周围环境的感知信息并不局限于上述一种形式,例如可以仅包括多个摄像机的感知信息In2,而不包括一个或多个激光雷达的感知信息In3以及一个或多个毫米波雷达的感知信息In4。通过摄像机获取到的感知信息In2可以是图片或视频形式的感知信息,通过激光雷达所获取到的感知信息In3可以是雷达点云(例如三维点云)形式的感知信息。在示例中,上述不同形式的信息(图片、视频、点云)等可以直接输入到多模态编码层210而无需进行预处理。此外,感知信息包括在车辆的行驶过程中针对目标车辆周围环境的当前感知信息xt和多个历史时刻对应的历史感知信息xt-Δt,这里,t与Δt之间可以具有预设时长的时间跨度。
在示例中,多模态编码层210可以对第一输入信息进行编码计算,生成相对应的隐式表示et。隐式表示et例如可以是鸟瞰图(BEV)空间中的隐式表示。例如,可以先将摄像机的感知信息In2输入到共享的骨干网络(Backbone),提取每个摄像机的数据特征。然后,对多个的摄像机的感知信息In2进行融合,并转换到BEV空间。接着,可以在BEV空间内进行跨模态融合,将像素级的视觉数据和激光雷达点云进行融合。最后进行时序融合,形成BEV空间的隐式表示et
在一个示例中,可以利用融合时空信息的Transformer Encoder结构,实现多摄像头的输入信息到BEV空间的隐式表示et的投影。例如,可以通过预先设置参数的网格划分的BEV查询机制(BEV queries)来利用时空信息。利用空间交叉注意力机制(即BEV查询机制从多相机特征中通过注意力机制提取所需的空间特征),让BEV查询机制能从其感兴趣的多相机视角中提取特征,从而聚合空间信息;此外,通过时序自注意力机制(即每一时刻生成的BEV特征都从上一时刻的BEV特征获取所需的时序信息)来融合历史信息,从而聚合时序信息。
相应地,决策控制层220基于输入的隐式表示et,获取目标自动驾驶策略信息。目标自动驾驶策略信息例如可以包括规划轨迹Out1或针对车辆的控制信号Out2(例如控制油门、刹车、转向幅度等的信号)。在示例中,可以利用自动驾驶车辆中的控制策略模块对轨迹规划Out1进行解释,以获取针对车辆的控制信号Out2;或者可以利用神经网络基于隐式表示et直接输出针对车辆的控制信号Out2。
在示例中,决策控制层220可以包括Transformer中的解码器。
在图2中,多模态编码层210至决策控制层220、决策控制层220至轨迹规划Out1之间的实线箭头表示可微分的运算,换言之,在进行模型训练时,梯度可以通过上述实线箭头进行反向回传。
可见,在根据本公开实施例的自动驾驶模型200中,多模态编码层210和决策控制层220连接组成端到端的神经网络模型,因此感知信息能够直接对决策负责,可以解决预测与规划之间的耦合问题。此外,隐式表示的引入可以克服结构化信息的表示缺陷而导致算法容易失败的问题。另外,由于感知直接对决策负责,使得感知能够捕捉对于决策较为关键的信息,减少感知错误导致的误差累积。再者,由于感知直接对决策负责,实现了重感知轻地图的自动驾驶技术,进而能够克服高精地图更新不及时和区域受限而导致决策失败的问题,由于摆脱了对高精地图的依赖,能够节省高精地图的更新成本。
根据一些实施例,继续参考图2,自动驾驶模型200还可以包括未来预测层230,未来预测层230被配置用于基于输入的隐式表示et预测针对目标车辆周围环境的未来预测信息Out3,并且决策控制层220的第二输入信息还可以包括未来预测信息Out3的至少一部分。例如,未来预测信息Out3可以包括基于隐式表示et所预测的在未来时刻的障碍物位置或未来时刻的传感器输入信息。未来预测信息Out3中的至少一部分可以作为辅助信息A输入到决策控制层220中,决策控制层220可以基于隐式表示et和辅助信息A来预测目标自动驾驶策略信息。
在示例中,未来预测层230可以是Transformer中的解码器。
在示例中,未来预测信息Out3可以输出结构化的预测信息,相应地,未来预测信息Out3至辅助信息A、辅助信息A至决策控制层220之间的虚线箭头表示不可微分的运算,换言之,在进行模型训练时,梯度不可以通过上述虚线箭头进行反向回传。然而,由于多模态编码层210至未来预测层230、未来预测层230至未来预测信息Out3之间是可微分的运算,因此仍可以通过实线箭头所指示的方向进行梯度的反向回传,换言之,也可以对未来预测层230进行单独的训练。
由此,通过在自动驾驶模型200中引入未来预测层230,未来预测层230所预测的至少一部分信息作为辅助信息输入到决策控制层220中以辅助决策,可以提升决策的准确性和安全性。此外,在进行模型训练时,可以在决策控制层220的基础上,进一步通过未来预测层230对多模态编码层210进行训练,从而使得多模态编码层210的编码更加准确,从而使得决策控制层220可以预测得到更加优化的目标自动驾驶策略信息。
根据一些实施例,未来预测信息Out3可以包括以下各项中的至少一者:针对目标车辆周围环境的未来预测感知信息(例如未来某个时刻的传感器信息未来某个时刻的传感器信息包括未来某个时刻的摄像机输入信息或雷达输入信息)、与未来预测感知信息相对应的未来预测隐式表示/>(例如未来某个时刻的传感器信息相对应的在BEV空间的隐式表示)、以及针对目标车辆周围环境的未来预测检测信息(例如未来某个时刻的障碍物位置/>)。而且未来预测检测信息可以包括目标车辆周围环境中的多个障碍物的类型及其未来预测状态信息(包括障碍物的大小和各种长尾信息)。
根据一些实施例,继续参考图2,自动驾驶模型200还可以包括感知检测层240,感知检测层240可以被配置用于基于输入的隐式表示et获取针对目标车辆周围环境的目标检测信息Out4,目标检测信息Out4包括当前检测信息和历史检测信息,当前检测信息包括目标车辆周围环境中的多个路面元素和障碍物的类型及其当前状态信息,历史检测信息包括目标车辆周围环境中的多个障碍物的类型及其历史状态信息。并且决策控制层220的第二输入信息还可以包括目标检测信息Out4的至少一部分。
路面元素可以为静止对象,而障碍物可以为运动对象,所以可以不检测路面元素的历史状态信息。
在示例中,目标检测信息Out4可以是针对障碍物的三维空间中的包围框,并且可以指示包围框中相应的障碍物的分类、状态等。例如可以指示包围框中障碍物的大小、位置、以及车辆类型、车辆当前状态(例如是否打开了转向灯、远光灯等长尾信息)、车道线的位置和长度等。将理解的是,针对包围框中相应的障碍物的分类可以是预先定义的多个类别中的一个或多个类别。
此外,目标检测信息Out4(当前检测信息和历史检测信息)可以是结构化信息。相应地,目标检测信息Out4至辅助信息A、辅助信息A至决策控制层220之间的虚线箭头表示不可微分的运算,换言之,在进行模型训练时,梯度不可以通过上述虚线箭头进行反向回传。然而,由于多模态编码层210至感知检测层240、感知检测层240至目标检测信息Out4之间是可微分的运算,因此仍可以通过实线箭头所指示的方向进行梯度的反向回传,换言之,也可以对感知检测层240进行单独的训练。
在示例中,感知检测层240可以包括Transformer中的解码器。
由此,通过在自动驾驶模型200中引入感知检测层240,感知检测层240所预测的至少一部分信息作为辅助信息输入到决策控制层220中以辅助决策,可以使得针对车辆周围环境的当前和历史一段时间的检测信息能够用于辅助决策,从而提升决策的准确性和安全性。此外,在进行模型训练时,可以在决策控制层220的基础上,进一步通过感知检测层240对多模态编码层210进行训练,从而使得多模态编码层210的编码更加准确,从而使得决策控制层220可以预测得到更加优化的目标自动驾驶策略信息。
根据一些实施例,继续参考图2,自动驾驶模型200还可以包括评价反馈层250,评价反馈层250可以被配置用于基于输入的隐式表示et获取针对目标自动驾驶策略信息的评价反馈信息Out5。
在示例中,评价反馈层250可以是Transformer中的解码器。
由此,通过在自动驾驶模型200中引入评价反馈层250,可以指示当前驾驶行为来源于人类司机还是模型、当前驾驶是否舒适、当前驾驶是否违反交通规则、以及当前驾驶是否属于危险驾驶等,从而提升用户体验。
将理解的是,多模态编码层210至评价反馈层250、评价反馈层250至评价反馈信息Out5之间的实线箭头表示可微分的运算,换言之,在进行模型训练时,梯度可以通过上述实线箭头进行反向回传。由此,在进行模型训练时,可以在决策控制层220的基础上,进一步通过评价反馈层250对多模态编码层210进行训练,从而使得多模态编码层210的编码更加准确,从而使得决策控制层220可以预测得到更加优化的目标自动驾驶策略信息。
根据一些实施例,如图2中包括未来预测信息Out3和目标检测信息Out4在内的辅助信息A指向评价反馈层250的虚线箭头所示,当自动驾驶模型200包括未来预测层230和感知检测层240时,评价反馈层250可以被配置用于基于输入的未来预测信息Out3和目标检测信息Out4中一者或两者的至少一部分、以及隐式表示et获取针对目标自动驾驶策略信息的评价反馈信息Out5。由此,使得针对车辆周围环境的当前和历史一段时间的检测信息和未来预测信息能够用于辅助评价,提升评价的准确性。
根据一些实施例,评价反馈层250可以被配置用于基于输入的隐式表示et和目标自动驾驶策略信息(例如规划轨迹Out1)获取针对目标自动驾驶策略信息的评价反馈信息。由此,基于自动驾驶策略信息来辅助进行评价反馈,可以进一步提升评价的准确性。
根据本申请的另一些实施例,评价反馈层250可以被配置用于输入的未来预测信息Out3和目标检测信息Out4中一者或两者的至少一部分、目标自动驾驶策略信息以及隐式表示et获取针对目标自动驾驶策略信息的评价反馈信息Out5,从而能够进一步提升评价的准确性。
根据一些实施例,进一步参考图2,自动驾驶模型200还可以包括解释层260,解释层260可以被配置用于基于输入的隐式表示et获取针对目标自动驾驶策略信息的解释信息Out6,解释信息Out6能够表征目标自动驾驶策略信息的决策分类。由此,在自动驾驶过程中,可以向乘客提供与目标自动驾驶策略信息相关的解释信息,提升了自动驾驶策略的可解释性,从而提升了用户体验。
在示例中,解释层260可以针对目标自动驾驶策略信息进行分类,每个分类可以映射到一个预设的自然语言语句。例如,解释信息Out6可以包括:当前需要变道、前方有红绿灯因此需要减速行驶、周围车辆可能需要加塞等自然语言语句。此外,解释层260可以包括Transformer中的解码器从而解码得到自然语言以用于驾驶策略的解释。
根据一些实施例,当自动驾驶模型200包括未来预测层230和感知检测层240时,解释层260可以被配置用于基于输入的未来预测信息和目标检测信息中一者或两者的至少一部分、以及隐式表示et获取针对目标自动驾驶策略信息的解释信息Out6。由此,可以使得针对车辆周围环境的当前和历史一段时间的目标检测信息和未来预测信息能够用于辅助解释,从而进一步提升解释的准确性和合理性。
根据一些实施例,继续参考图2,解释层260可以被配置用于基于输入的隐式表示et和目标自动驾驶策略信息(例如规划轨迹Out1)获取针对目标自动驾驶策略信息的解释信息。由此,将自动驾驶策略信息用于辅助解释,可以进一步提升解释的准确性。
根据本申请的另一些实施例,解释层260可以被配置用于输入的未来预测信息Out3和目标检测信息Out4中一者或两者的至少一部分、目标自动驾驶策略信息以及隐式表示et获取针对目标自动驾驶策略信息的解释信息Out6,从而能够进一步提升解释的准确性。
根据一些实施例,传感器可以包括摄像机,感知信息可以包括摄像机采集的二维图像。并且,多模态编码层210可以被进一步配置用于:基于包括二维图像、以及摄像机的内参和外参的第一输入信息,获取与第一输入信息相对应的隐式表示et
在示例中,摄像机的内参(即,与摄像机自身特性相关的参数,例如摄像机的焦距、像素大小等)和外参(即,在世界坐标系中的参数,例如摄像机的位置、旋转方向等)可以作为自动驾驶模型200的超参数而被输入到模态编码层210中。摄像机的内参和外参可以用于进行输入的二维图像到例如BEV空间的转换。
此外,感知信息可以是多个摄像机分别采集的二维图像的序列。
根据一些实施例,第一输入信息还可以包括车道级地图,并且导航信息可以包括道路级导航信息和/或车道级导航信息。与高精地图不同,车道级地图具有更好的易获得性和更小的空间占用。由此,通过使用车道级地图和车道级导航信息,能够克服对高精地图的依赖。
导航地图可以包括道路级地图(SD Map)、车道级地图(LD Map)、高精地图(HDMap)。道路级地图主要由粒度的道路拓扑信息构成,导航定位精确度较低(例如精度大约为15米左右),主要用于帮助司机进行导航,不能满足自动驾驶的需求。而车道级地图和高精地图可以用于自动驾驶。车道级地图加入了车道级的拓扑信息,相较于道路级地图具有更高的精度,精度一般在亚米级,并且可以包括道路信息(例如车道线)和与车道相关的附属设施信息(例如交通信号灯、路牌、停车位等),可以用于辅助自动驾驶。与车道级地图相比,高精地图具有更高的地图数据精度(精度达到了厘米级)、更丰富地图数据类型、更高的地图更新频率,可以用于自动驾驶。这三种导航地图中高精地图的信息最丰富、精度最高,使用和更新成本也更高。由于本申请实施例的方案中感知直接对决策负责,能够实现重感知轻地图的自动驾驶技术,因此可以摆脱对高精地图的依赖,并保证高效的决策。进一步地,使用车道级地图作为辅助信息来进行决策能够提升决策效果。
根据一些实施例,感知信息可以包括以下各项中的至少一者:摄像机采集的图像、激光雷达采集的信息和毫米波雷达采集的信息。将理解的是,通过摄像机获取到的图像可以是图片或视频形式,通过激光雷达所获取到的信息可以是雷达点云(例如三维点云)。
根据一些实施例,多模态编码层210被配置用于将第一输入信息映射至预设空间以获得中间表示,并且利用时序注意力机制和/或空间注意力机制对中间表示进行处理,以获得与第一输入信息相对应的隐式表示et
在示例中,预设空间可以是BEV空间。因为感知、预测、决策和规划等过程均是在三维空间内进行的,而摄像机所捕获的图像信息只是真实物理世界在透视视图下的投影,从图像得到的信息需要经过复杂的处理才能使用,因此会存在一定的信息损失,而将视觉信息映射至BEV空间能够较为方便地连接感知与规划控制。
在示例中,可以先将第一输入信息(例如第一输入信息中的图像信息)输入到骨干网络(例如ResNet、EfficientNet等骨干网络),提取多层图像特征作为中间表示。此外,激光雷达和毫米波雷达的数据可以直接转换到BEV空间。随后,可以利用空间自注意力机制从图像特征中提取所需的空间特征,从而聚合空间信息;此外,可以利用时序自注意力机制来融合历史信息,从而聚合时序信息。
由此,通过时序和空间融合使得隐式表示et能够表征丰富的时序和空间信息,从而进一步提升决策的准确性和安全性。
根据一些实施例,目标自动驾驶策略信息可以包括目标规划轨迹Out1。
根据本公开的另一方面,提供了一种利用自动驾驶模型实现的自动驾驶方法。图3示出了根据本公开的实施例的利用自动驾驶模型实现的自动驾驶方法300的流程图。所利用的自动驾驶模型包括多模态编码层和决策控制层,多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。例如,可以利用如上文描述的自动驾驶模型200实现方法300。
如图3所示,自动驾驶方法300包括:
步骤S310、获取多模态编码层的第一输入信息,第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,感知信息包括在车辆行驶过程中针对目标车辆周围环境的当前感知信息和历史感知信息;
步骤S320、将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;以及
步骤S330、将包括隐式表示的第二输入信息输入决策控制层,以获取决策控制层所输出的目标自动驾驶策略信息。
根据一些实施例,在获取到目标自动驾驶策略信息(例如目标规划轨迹或目标控制信号,目标控制信号例如可以包括控制油门、刹车、转向幅度等的信号)后,根据目标自动驾驶策略信息控制车辆执行自动驾驶。
在步骤S310中,第一输入信息中的目标车辆的导航信息例如可以包括矢量化的导航信息和矢量化的地图信息,矢量化的导航信息和矢量化的地图信息可以是对车道级、或道路级导航信息以及粗定位信息中的一者或多者进行矢量化运算所获得的。此外,目标车辆周围环境的感知信息可以包括一个或多个摄像机的感知信息、一个或多个激光雷达的感知信息、以及一个或多个毫米波雷达的感知信息。
由于多模态编码层和决策控制层连接组成端到端的神经网络模型,因此感知信息能够直接对决策负责,可以解决预测与规划之间的耦合问题。此外,隐式表示的引入可以克服结构化信息的表示缺陷而导致算法容易失败的问题。另外,由于感知直接对决策负责,使得感知能够捕捉对于决策较为关键的信息,减少感知错误导致的误差累积。
图4示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法400的流程图。
根据一些实施例,自动驾驶模型还可以包括未来预测层(例如图2中的未来预测层230),并且参考图4,自动驾驶方法400包括:
步骤S410、获取多模态编码层的第一输入信息,第一输入信息可以与上文关于图3描述的方法300中的第一输入信息类似,在此不再赘述;
步骤S420、将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;
步骤S430、将隐式表示输入未来预测层,以获取未来预测层所输出的针对目标车辆周围环境的未来预测信息;以及
步骤S440、将包括未来预测信息的至少一部分和隐式表示的第二输入信息输入决策控制层,以获取决策控制层所输出的目标自动驾驶策略信息。
由此,未来预测层所预测的至少一部分信息作为辅助信息输入到决策控制层中以辅助决策,可以提升决策的准确性和安全性。
图5示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法500的流程图。
根据一些实施例,自动驾驶模型还可以包括感知检测层(例如图2中的感知检测层240),并且参考图5,自动驾驶方法500包括:
步骤S510、获取多模态编码层的第一输入信息,第一输入信息可以与上文关于图3描述的方法300中的第一输入信息类似,在此不再赘述;
步骤S520、将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;
步骤S530、将隐式表示输入感知检测层,以获取感知检测层所输出的目标车辆周围环境的目标检测信息,目标检测信息包括当前检测信息和历史检测信息,当前检测信息包括目标车辆周围环境中的多个路面元素和障碍物的类型及其当前状态信息,历史检测信息包括目标车辆周围环境中的多个障碍物的类型及其历史状态信息;以及
步骤S540、将包括目标检测信息的至少一部分和隐式表示的第二输入信息输入决策控制层,以获取决策控制层所输出的目标自动驾驶策略信息。
由此,感知检测层所预测的至少一部分信息作为辅助信息输入到决策控制层中以辅助决策,可以使得针对车辆周围环境的当前和历史一段时间的检测信息能够用于辅助决策,从而提升决策的准确性和安全性。
图6示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法600的流程图。
根据一些实施例,自动驾驶模型还可以包括评价反馈层(例如图2中的评价反馈层250),并且参考图6,自动驾驶方法600包括:
步骤S610、获取多模态编码层的第一输入信息,第一输入信息可以与上文关于图3描述的方法300中的第一输入信息类似,在此不再赘述;
步骤S620、将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;以及
步骤S630、将隐式表示输入评价反馈层,以获取评价反馈层所输出的针对目标自动驾驶策略信息的评价反馈信息。
由此,通过评价反馈层,可以指示当前驾驶行为来源于人类司机还是模型、当前驾驶是否舒适、当前驾驶是否违反交通规则、以及当前驾驶是否属于危险驾驶等,从而提升用户体验。
根据一些实施例,当自动驾驶模型包括未来预测层和感知检测层时,上述步骤S630可以包括:将未来预测信息和目标检测信息中一者或两者的至少一部分、以及隐式表示输入评价反馈层,以获取评价反馈层所输出的针对目标自动驾驶策略信息的评价反馈信息。由此,使得针对车辆周围环境的当前和历史一段时间的检测信息和未来预测信息能够用于辅助评价,提升评价的准确性。
根据一些实施例,上述步骤S630可以包括:将隐式表示和目标自动驾驶策略信息输入评价反馈层,以获取评价反馈层所输出的针对目标自动驾驶策略信息的评价反馈信息。由此,基于自动驾驶策略信息来辅助进行评价反馈,可以进一步提升评价的准确性。
图7示出了根据本公开的另一实施例的利用自动驾驶模型实现的自动驾驶方法700的流程图。
根据一些实施例,自动驾驶模型还可以包括解释层(例如图2中的解释层260),并且参考图7,自动驾驶方法700包括:
步骤S710、获取多模态编码层的第一输入信息,第一输入信息可以与上文关于图3描述的方法300中的第一输入信息类似,在此不再赘述;
步骤S720、将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;以及
步骤S730、将隐式表示输入解释层,以获取解释层所输出的针对目标自动驾驶策略信息的解释信息,解释信息能够表征目标自动驾驶策略信息的决策分类。
由此,在自动驾驶过程中,可以向乘客提供与目标自动驾驶策略信息相关的解释信息,提升了自动驾驶策略的可解释性,从而提升了用户体验。
在示例中,解释层可以针对目标自动驾驶策略信息进行分类,每个分类可以映射到一个预设的自然语言语句。例如,解释信息可以包括:当前需要变道、前方有红绿灯因此需要减速行驶、周围车辆可能需要加塞等自然语言语句。此外,解释层可以是Transformer中的解码器从而解码得到自然语言以用于驾驶策略的解释。
根据一些实施例,当自动驾驶模型包括未来预测层和感知检测层时,上述步骤S730可以包括:将未来预测信息和目标检测信息中一者或两者的至少一部分、以及隐式表示输入解释层,以获取解释层所输出的针对目标自动驾驶策略信息的解释信息。由此,可以使得针对车辆周围环境的当前和历史一段时间的目标检测信息和未来预测信息能够用于辅助解释,从而进一步提升解释的准确性和合理性。
根据一些实施例,上述步骤S730可以包括:将隐式表示和目标自动驾驶策略信息输入解释层,以获取解释层所输出的针对目标自动驾驶策略信息的解释信息。由此,将自动驾驶策略信息用于辅助解释,可以进一步提升解释的准确性。
根据一些实施例,自动驾驶方法还可以包括:
获取利用上述的自动驾驶模型控制目标车辆执行自动驾驶过程中的真实驾驶数据,真实驾驶数据包括目标车辆的导航信息、针对目标车辆周围环境的真实感知信息、以及真实自动驾驶策略信息,真实驾驶数据用于对自动驾驶模型进行迭代训练。
真实驾驶数据中的目标车辆的导航信息可以包括矢量化的导航信息和矢量化的地图信息,矢量化的导航信息和矢量化的地图信息可以是对车道级、或道路级导航信息以及粗定位信息中的一者或多者进行矢量化运算所获得的。真实感知信息可以包括在真实道路场景下的车辆上一个或多个摄像机的感知信息、一个或多个激光雷达的感知信息、以及一个或多个毫米波雷达的感知信息。可以理解的是,目标车辆周围环境的感知信息并不局限于上述一种形式,例如可以仅包括多个摄像机的感知信息,而不包括一个或多个激光雷达的感知信息以及一个或多个毫米波雷达的感知信息。通过摄像机获取到的感知信息可以是图片或视频形式的感知信息,通过激光雷达所获取到的感知信息可以是雷达点云(例如三维点云)形式的感知信息。真实自动驾驶策略信息可以包括在真实道路场景下所采集的自动驾驶车辆的规划轨迹或针对车辆的控制信号(例如控制油门、刹车、转向幅度等的信号)。
根据一些实施例,自动驾驶方法还可以包括:
利用迭代训练得到的自动驾驶模型控制目标车辆再次执行自动驾驶。
由此,在实车行驶过程中,可以同步进行自动驾驶任务和模型训练任务,能够基于真实驾驶数据对自动驾驶模型进行训练,保证决策效率,使得自动驾驶行为能够很好对齐到人类乘客的偏好,提升用户体验,并且避免冷启动的漫长学习过程。
在示例中,可以利用自动驾驶模型所预测的规划轨迹或针对车辆的控制信号(例如控制油门、刹车、转向幅度等的信号)来控制目标车辆再次执行自动驾驶。例如,可以利用自动驾驶车辆中的控制策略模块对轨迹规划进行解释,以获取针对车辆的控制信号;或者可以利用神经网络基于隐式表示直接输出针对车辆的控制信号。
可以以预设时间间隔,获取利用自动驾驶模型控制目标车辆控制目标车辆执行自动驾驶过程中的真实驾驶数据,并基于新获取的真实驾驶数据对自动驾驶模型进行持续迭代训练。
根据本公开的另一方面,提供了一种自动驾驶模型的训练方法。图8示出了根据本公开的实施例的自动驾驶模型的训练方法的流程图。所述自动驾驶模型包括多模态编码层和决策控制层,多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。在示例中,待训练的自动驾驶模型可以采用具有编码器和解码器的Transformer网络结构。可以理解的是,待训练的自动驾驶模型还可以是其他的基于Transformer网络结构的神经网络模型,在此不作限定。例如,所述自动驾驶模型可以是上文描述的自动驾驶模型200。
自动驾驶模型的训练方法包括对多模态编码层和决策控制层进行训练的第一训练过程800,如图8所示,第一训练过程800包括:
步骤S810、获取第一样本输入信息和第一样本输入信息相对应的第一真实自动驾驶策略信息,第一样本输入信息包括第一样本车辆的第一样本导航信息和针对第一样本车辆周围环境的样本感知信息,样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;
步骤S820、将第一样本输入信息输入多模态编码层,以获取多模态编码层所输出的第一样本隐式表示;
步骤S830、将包括第一样本隐式表示的中间样本输入信息输入决策控制层,以获取决策控制层所输出的第一预测自动驾驶策略信息;以及
步骤S840、至少基于第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整多模态编码层和决策控制层的参数。
在步骤S810中,第一样本导航信息可以包括矢量化的导航信息和矢量化的地图信息,矢量化的导航信息和矢量化的地图信息可以是对车道级、或道路级导航信息以及粗定位信息中的一者或多者进行矢量化运算所获得的。样本感知信息可以包括第一样本车辆上的一个或多个摄像机的样本感知信息、一个或多个激光雷达的样本感知信息、以及一个或多个毫米波雷达的样本感知信息。可以理解的是,样本感知信息可以仅包括多个摄像机的样本感知信息,而不包括一个或多个激光雷达的样本感知信息以及一个或多个毫米波雷达的样本感知信息。通过摄像机获取到的样本感知信息可以是图片或视频形式的感知信息,通过激光雷达所获取到的样本感知信息可以是雷达点云(例如三维点云)形式的感知信息。在示例中,上述不同形式的样本信息(图片、视频、点云)等可以直接输入到多模态编码层而无需进行预处理。
在示例中,第一样本输入信息可以是在实车行驶过程中采集的,例如是由人工驾驶的带有自动驾驶传感器的车辆在真实道路场景中收集的,并且第一真实自动驾驶策略信息可以是该车辆在真实道路场景的行驶过程中的行车轨迹数据(包括行驶过程中所记录的针对车辆的控制信号)。此外,在示例中,第一样本输入信息可以包括实车在真实道路场景行驶过程中采集的样本数据和仿真车在仿真道路场景行驶过程中得到的样本数据。
由于待训练的模型的多模态编码层和决策控制层连接组成端到端的神经网络模型,因此样本信息中的感知信息能够直接对决策负责,可以解决训练得到的自动驾驶模型的预测与规划之间的耦合问题。此外,隐式表示的引入可以克服结构化信息的表示缺陷而导致算法容易失败的问题。另外,由于样本信息中的感知信息能够直接对决策负责,使得感知能够捕捉对于决策较为关键的信息,减少训练得到的模型中感知错误导致的误差累积。
图9示出了根据本公开的另一实施例的自动驾驶模型的训练方法900的流程图。
根据一些实施例,参考图9,方法900包括:
步骤S910、在第一训练过程之前,对多模态编码层和决策控制层进行离线预训练,以使得自动驾驶模型能够基于输入的第一样本输入信息获取第一预测自动驾驶策略信息;以及
如图9中的虚线框中的步骤所示,第一训练过程包括:
步骤S920、利用离线预训练获得的自动驾驶模型执行自动驾驶,并且在该自动驾驶过程中获取第一样本输入信息和第一样本输入信息相对应的第一真实自动驾驶策略信息;
步骤S930、将第一样本输入信息输入多模态编码层,以获取多模态编码层所输出的第一样本隐式表示;
步骤S940、将包括第一样本隐式表示的中间样本输入信息输入决策控制层,以获取决策控制层所输出的第一预测自动驾驶策略信息;以及
步骤S950、至少基于第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整多模态编码层和决策控制层的参数。
在离线预训练中,模型未部署在行驶于真实道路场景的实车上,通过对自动驾驶模型进行离线预训练,可以使得训练得到的模型具有初步的自动驾驶能力,在此基础之上,进一步进行实车模型训练。由此,不仅可以提高模型训练过程的安全性和可靠性,还可以提高模型训练的整体效率。
在示例中,离线预训练阶段所使用的样本数据可以是自动驾驶车辆在自动驾驶(例如L4级别的自动驾驶)过程中或在人工驾驶的过程中采集的。此外,也可以在仿真环境中进行离线预训练。
图10示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图。根据一些实施例,自动驾驶模型还可以包括感知检测层和未来预测层。如图10所示,上述步骤S910可以包括:
步骤S1010、获取第二样本输入信息以及第二样本输入信息相对应的第二样本车辆周围环境的第一真实检测信息和第一未来真实信息,第一真实检测信息包括第二样本车辆周围环境中的多个真实样本障碍物的类型及其真实当前状态信息和真实历史状态信息、以及多个预测样本路面元素的类型及其真实当前状态信息;
步骤S1020、将第二样本输入信息输入多模态编码层,以获取多模态编码层所输出的第二样本输入信息相对应的第二样本隐式表示;
步骤S1030、将第二样本隐式表示输入感知检测层,以获取感知检测层所输出的第一预测检测信息,第一预测检测信息包括第二样本车辆周围环境中的多个预测样本障碍物的类型及其预测当前状态信息和预测历史状态信息、以及多个预测样本路面元素的类型及其预测当前状态信息;
步骤S1040、将第二样本隐式表示输入未来预测层,以获取未来预测层所输出的第一未来预测信息;
步骤S1050、基于第一真实检测信息和第一预测检测信息、以及第一未来真实信息和第一未来预测信息,调整多模态编码层的参数;
步骤S1060、基于第一真实检测信息和第一预测检测信息,调整感知检测层的参数;以及
步骤S1070、基于第一未来真实信息和第一未来预测信息,调整未来预测层的参数。
第二样本输入信息(xt)可以是自动驾驶车辆在自动驾驶(例如L4级别的自动驾驶)过程中或在人工驾驶的过程中采集的,也可以是在仿真环境中获取的输入样本。例如,第二样本输入信息可以包括传感器(例如摄像机、雷达)感知信息、地图信息或导航信息。
第一真实检测信息可以是由人工标注的信息。例如,对于自动驾驶车辆(包括人工驾驶的带自动驾驶传感器的车辆)所收集的数据(x1,x2...,xt,...),可以针对其中的路面元素和障碍物进行人工标注,从而获取/>例如三维空间中的包围框,并且可以标注包围框中相应的障碍物的真实分类、真实当前状态等。例如可以标注包围框中障碍物的真实的大小、位置、以及车辆类型、车辆当前状态(例如是否打开了转向灯、远光灯等长尾信息)、车道线的位置和长度等。此外,第一真实检测信息/>可以是自标注的信息,即,对于自动驾驶车辆(包括人工驾驶的带自动驾驶传感器的车辆)所收集的数据(x1,x2...,xt,...),可以首先依靠感知模型(或者带训练模型的感知输出)进行标注,再由人工进行检查和修正以获得/>
相应地,第一预测检测信息(st)是感知检测层所输出的预测结果,其可以包括预测的三维空间中的包围框,并且可以包括预测的包围框中相应的障碍物的真实分类、真实当前状态等。
相应地,第一未来真实信息与第一真实检测信息/>类似,但第一未来真实信息/>指示的是未来时刻的检测信息。
相应地,第一未来预测信息与第一预测检测信息(st)类似,但第一未来预测信息/>指示的是未来时刻的预测信息。/>
由此,在步骤S1050中,基于第一真实检测信息和第一预测检测信息(st)、以及第一未来真实信息/>和第一未来预测信息/>调整多模态编码层的参数。在步骤S1060中,基于第一真实检测信息/>和第一预测检测信息(st),调整感知检测层的参数。在步骤S1070中,基于第一未来真实信息/>和第一未来预测信息/>调整未来预测层的参数。
在示例中,可以利用监督学习和自监督学习执行步骤S1050至步骤S1070中的任意步骤。例如,可以使用如下等式(1)中的目标函数来调整多模态编码层和感知检测层的参数:
其中,D表示某种测度,用于测量第一预测检测信息(st)和第一真实检测信息之间的距离。如无特殊说明,下文中的D均可以表示类似的测度。
例如,可以使用如下等式(2)中的目标函数来调整多模态编码层和未来预测层的参数:
或者,当没有足够的标注的第一未来真实信息时,可以使用如下等式(3)中的目标函数,基于自标注来调整多模态编码层和未来预测层的参数:
其中,(st+Δt)可以是待训练的模型的感知检测层的输出。
由此,在进行模型训练时,进一步通过感知检测层和未来预测层与多模态编码层进行协同调参,能够进一步提升多模态编码层的学习效果。
上述步骤中利用感知检测层和未来预测层对多模态编码层进行预训练,可以理解的,也可以仅利用感知检测层或未来预测层对多模态编码层进行预训练,具体的实现过程与上述类似,不再详述。
图11示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图。根据一些实施例,自动驾驶模型还可以包括未来预测层。并且如图11所示,上述步骤S910可以练包括:
步骤S1110、获取第三样本输入信息以及第三样本输入信息相对应的第三样本车辆周围环境的第二未来真实信息和第二真实自动驾驶策略信息;
步骤S1120、将第三样本输入信息输入多模态编码层,以获取多模态编码层所输出的第三样本输入信息相对应的第三样本隐式表示;
步骤S1130、将第三样本隐式表示输入未来预测层,以获取未来预测层所输出的第二未来预测信息;
步骤S1140、将包括第三样本隐式表示的样本中间表示输入决策控制层,以获取决策控制层所输出的第二预测自动驾驶策略信息;
步骤S1150、基于第二未来真实信息和第二未来预测信息,调整未来预测层的参数;
步骤S1160、基于第二真实自动驾驶策略信息和第二预测自动驾驶策略信息、以及第二未来真实信息和第二未来预测信息,调整多模态编码层的参数;以及
步骤S1170、基于第二真实自动驾驶策略信息和第二预测自动驾驶策略信息,调整决策控制层的参数。
第三样本输入信息(xt)可以与上文中的第二样本输入信息类似;并且第二未来真实信息可以与上文中的第一未来真实信息类似,因此不再赘述。
第二真实自动驾驶策略信息可以是人工驾驶的轨迹数据。相应地,第二预测自动驾驶策略信息(yt)是决策控制层所输出的预测结果(轨迹规划)。
由此,可以调整多模态编码层以及决策控制层的参数。例如,可以应用行为模仿的训练方式,利用如下等式(4)中的目标函数来调整多模态编码层和决策控制层的参数:
由此,在进行模型训练时,进一步通过未来预测层与多模态编码层、决策控制层进行协同调参,能够进一步提升多模态编码层和决策控制层的学习效果。
将理解的是,在本实施例中针对未来预测层的调参可以采用图10中所描述的用于调整未来预测层的参数的方式。
根据一些实施例,继续参考图11,对多模态编码层和决策控制层进行离线预训练可以包括:将第三样本输入信息输入驾驶策略预测模型,以获取驾驶策略预测模型所输出的第二自动驾驶策略真实信息。
在已有的真实自动驾驶策略信息有限的情况下,可以利用驾驶策略预测模型,基于已有的无轨迹标注的驾驶数据来获取伪标注轨迹数据。在示例中,可以将样本输入信息(xt)(例如传感器的感知信息)输入驾驶策略预测模型,从而预测出对应的轨迹规划(yt)。预测得到的轨迹规划(yt)可以在对多模态编码层和决策控制层进行离线预训练的过程中作为第二自动驾驶策略真实信息。由此,可以在已有的真实自动驾驶策略信息有限的情况下,完成离线预训练过程。
根据一些实施例,未来预测信息可以包括以下各项中的至少一者:针对样本车辆周围环境的未来预测感知信息(例如未来某个时刻的传感器信息未来某个时刻的传感器信息包括未来某个时刻的摄像机输入信息或雷达输入信息)、与未来预测感知信息相对应的未来预测隐式表示(例如未来某个时刻的BEV空间的隐式表示)、以及针对样本车辆周围环境中的未来预测检测信息(例如未来某个时刻的障碍物位置/>)。并且未来预测检测信息可以包括样本车辆周围环境中的多个预测样本障碍物的类型及其未来预测状态信息(包括障碍物的大小和各种长尾信息)。
图12示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图。根据一些实施例,自动驾驶模型还可以包括评价反馈层。参考图12,上述步骤S910、对所述多模态编码层和所述决策控制层进行离线预训练还可以包括:
步骤S1210、获取第四样本输入信息和与第四样本输入信息相对应的第三真实自动驾驶策略信息;
步骤S1220、将第四样本输入信息输入多模态编码层,以获取多模态编码层所输出的第四样本输入信息相对应的第四样本隐式表示;
步骤S1230、将包括第四样本隐式表示的中间样本输入信息输入决策控制层,以获取决策控制层所输出的第三预测自动驾驶策略信息;
步骤S1240、将第四样本隐式表示输入评价反馈层,以获取评价反馈层所输出的针对第三预测自动驾驶策略信息的样本评价反馈信息;
步骤S1250、基于针对第四预测自动驾驶策略信息的样本评价反馈信息、第三预测自动驾驶策略信息和第三真实自动驾驶策略信息,调整多模态编码层和决策控制层的参数。
第四样本输入信息(xt)可以与上文中的第二样本输入信息或第三样本输入信息类似;并且第三真实自动驾驶策略信息可以与上文中的第二真实自动驾驶策略信息类似;相应地,第三预测自动驾驶策略信息(yt)是决策控制层所输出的预测结果(轨迹规划),因此不再赘述。
样本评价反馈信息例如可以指示当前驾驶行为来源于人类司机还是模型、当前驾驶是否舒适、当前驾驶是否违反交通规则、以及当前驾驶是否属于危险驾驶等。
由此,通过进一步利用样本评价反馈信息,对评价反馈层、多模态编码层和决策控制层进行协同调参,能够进一步提升多模态编码层和决策控制层的学习效果,从而提升用户体验。
在示例中,可以利用强化学习的方式调整多模态编码层和决策控制层的参数。例如,可以基于包括第三预测自动驾驶策略信息(y1,....,yt)、第三真实自动驾驶策略信息以及样本评价反馈信息(r1,....,rt)进行强化学习。
在示例中,可以采用PPO算法或SAC算法进行该强化学习。
在示例中,可以采用如下等式(5)中的目标函数来调整多模态编码层和决策控制层的参数:
其中,At可以指示时间t的优势函数(Advantage Function),并且At可以基于样本评价反馈信息(r1,....,rt)得到。α可以是用于调整损失值大小的超参数。
图13示出了根据本公开的实施例的自动驾驶模型的训练方法的部分过程的流程图。根据一些实施例,评价反馈层可以单独训练得到。参考图13,评价反馈层的训练过程可以包括:
步骤S1310、获取第五样本输入信息以及针对第五样本输入信息的真实评价反馈信息;
步骤S1320、将第五样本输入信息输入多模态编码层,以获取多模态编码层所输出的第五样本输入信息相对应的第五样本隐式表示;
步骤S1330、将第五样本隐式表示输入评价反馈层,以获取评价反馈层所输出的针对第五样本输入信息的预测评价反馈信息;以及
步骤S1340、基于真实评价反馈信息和预测评价反馈信息,调整多模态编码层和评价反馈层的参数。
第五样本输入信息(xt)可以与上文中的第二样本输入信息、第三样本输入信息或第四样本输入信息类似,因此不再赘述。
真实评价反馈信息可以人工反馈的评价反馈信息(乘客或司机对于自动驾驶车辆驾驶体验的评价),例如可以指示当前驾驶行为来源于人类司机还是模型、当前驾驶是否舒适、当前驾驶是否违反交通规则、以及当前驾驶是否属于危险驾驶等。
相应地,预测评价反馈信息(rt)是评价反馈层所输出的预测结果。
在示例中,可以采用如下等式(6)中的目标函数来调整多模态编码层和评价反馈层的参数:
在示例中,可以先利用反馈建模来学习一个函数以对评价反馈信息进行预估。换言之,可以使模型自身预估当前的驾驶轨迹所获得的期望收益(即上文提到的评价反馈层所输出的预测结果)。例如,可以利用如下等式(7)来确定(rt):
rt=R(xt,...,xt-l+1) 等式(7)
其中,(xt,...,xt-l+1)可以是样本输入信息。
根据一些实施例,真实评价反馈信息可以包括以下各项中的至少一者:驾驶舒适度信息、驾驶安全性信息、驾驶效率、是否文明使用行车灯、驾驶行为来源信息、是否违反交通规则信息。
在实车上进行强化学习训练时,可能需要自动驾驶模型预测一些错误或失败的结果,甚至可能需要目标车辆与周围障碍物发生碰撞来基于错误或碰撞经验进行学习。然而,基于成本和安全的考虑,在实车训练时无法让自动驾驶车辆发生真实的碰撞。
根据一些实施例,第一样本输入信息可以包括干预标识,干预标识能够表征第一真实自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息。当自动驾驶模型还包括评价反馈层时,第一训练过程还可以包括:将第一样本隐式表示输入评价反馈层,以获取评价反馈层所输出的针对第一预测自动驾驶策略信息的样本评价反馈信息。并且上述步骤S950、至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数可以包括:基于样本评价反馈信息(r1,....,rt)、干预标识(i1,....,iT)、第一预测自动驾驶策略信息(y1,....,yt)和第一真实自动驾驶策略信息调整多模态编码层和决策控制层的参数。
在实车训练过程中,安全员可以在危急时刻随时介入,夺取自动驾驶车辆的控制权。在危机过去之后,再将控制权交还给自动驾驶车辆。干预标识用于表征第一真实自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息。换言之,通过引入干预标识,可以避免实车训练时可能出现的碰撞所带来的不可接收的模型训练成本。强化学习能够逐渐学会避免干预出现的不利情况。通过这种机制,一方面可以提升强化学习的效率,另一方面也可以减少劣势经验对学习过程的影响,从而进一步提升训练得到的模型的鲁棒性。
在示例中,可以利用反馈强化学习以及人在回路学习的方式调整多模态编码层和决策控制层的参数。例如,可以基于包括样本评价反馈信息(r1,....,rt)、干预标识(i1,....,it)、第一预测自动驾驶策略信息(y1,....,yt)、第一真实自动驾驶策略信息以及第一样本输入信息(x1,....,xt)在内的五元组数据进行学习。
其中,当干预标识(i1,....,iT)为真值时,表示自动驾驶车辆由人工操控而不再受到自动驾驶模型发出的控制信号的操控;当干预标识(i1,....,iT)为非真值时,表示自动驾驶车辆由自动驾驶模型发出的控制信号的操控而非受人工/>操控。
在示例中,可以采用如下等式(8)中的目标函数来调整多模态编码层和评价反馈层的参数:
其中,λ1和λ2可以分别是指示相应分量加权的超参数。其中,干预标识(i1,....,iT)的为真值1,非真值为0。
在一些实施例中,在离线预训练阶段,可以结合上文中描述的多个目标函数来对自动驾驶模型进行调参。例如,在示例中,可以利用等式(1)、等式(2)或(3)、等式(4)、以及等式(5)中的多个目标函数在离线预训练阶段对自动驾驶模型进行调参,相应地,其目标函数可以是如下等式(9)中的L1
L1=LSL+LBC+LSSL+LRL 等式(9)
在一些实施例中,在实车训练阶段,可以结合上文中描述的多个目标函数来对自动驾驶模型进行调参。例如,在示例中,可以利用等式(2)或(3)、等式(5)、以及等式(8)中的多个目标函数在实车训练阶段对自动驾驶模型进行调参,相应地,其目标函数可以是如下等式(10)中的L2
L2=LSSL+LRL+LHRL 等式(10)
图14示出了根据本公开的另一实施例的自动驾驶模型的训练方法的流程图。
根据一些实施例,自动驾驶模型的训练方法还可以包括对多模态编码层和决策控制层进行训练的第二训练过程1400,如图14所示,第二训练过程1400可以包括:
步骤S1410、利用第一训练过程训练得到的自动驾驶模型再次执行自动驾驶,并且在该自动驾驶过程中获取第六样本输入信息、第六样本输入信息相对应的第四真实自动驾驶策略信息;
步骤S1420、获取自动驾驶模型基于输入的第六样本输入信息所获得的第四预测自动驾驶策略信息;以及
步骤S1430、至少基于第四真实自动驾驶策略信息和第四真实自动驾驶策略信息,再次调整多模态编码层和决策控制层的参数。
第六样本输入信息(xt)可以与上文中的第一样本输入信息类似;第四真实自动驾驶策略信息可以是人工驾驶的轨迹数据,相应地,第四预测自动驾驶策略信息(yt)是决策控制层所输出的预测结果(轨迹规划),因此不再赘述。
由此,自动驾驶模型可以在无论是实车训练过程中还是仿真训练过程中持续迭代训练。在示例中,可以以预设的时间间隔进行上述迭代训练,从而持续对自动驾驶模型进行优化。
根据一些实施例,第一样本输入信息可以包括在真实驾驶场景下执行自动驾驶而获得的多模态编码层的真实样本输入信息,和/或在仿真驾驶场景下执行仿真自动驾驶而获得的多模态编码层的仿真样本输入信息。
在示例中,第一样本输入信息可以既包括上述真实样本输入信息又包括仿真样本输入信息,例如,可以以真实样本输入信息为主,而以仿真样本输入信息为辅,对仿真样本输入信息进行各种设定,从而利用仿真环境挖掘更多样的长尾样本,扩充训练样本的丰富程度。也就是说,在自动驾驶模型的训练过程所使用的真实样本输入信息的数据量大于仿真样本输入信息的数据量。
将理解的是,无论是在离线预训练阶段还是在实车训练阶段,均可以包括在仿真环境中进行的训练。
根据一些实施例,真实样本输入信息和/或所述仿真样本输入信息可以包括干预标识。干预标识能够表征相应的真实自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息。由此,通过在仿真训练场景中引入人为干预的场景,使得仿真场景更加贴合于实际的驾驶场景,从而进一步提升仿真场景中的模型训练效果。
根据一些实施例,真实驾驶场景可以包括存在人为干预的干预真实驾驶场景,并且仿真驾驶场景的构建过程可以包括:将干预真实驾驶场景添加到仿真驾驶场景中。通过在仿真过程中为基于自动驾驶模型进行行驶的目标车辆设置安全员的方式,能够在仿真过程中允许人为干预,从而能够实现在仿真时采用人在回路的强化学习方式对自动驾驶模型进行训练。
根据一些实施例,仿真驾驶场景的构建过程可以包括:基于仿真驾驶场景中的环境信息确定仿真驾驶场景中的至少一个障碍对象的轨迹。其中环境信息可以包括基于自动驾驶模型在仿真驾驶场景中执行仿真自动驾驶的驾驶信息。其中,仿真驾驶场景中的障碍对象可以包括行人、非机动车、机动车等类型。可以为仿真驾驶场景中的每一类障碍对象训练预测网络来基于障碍对象周围的环境信息预测障碍对象的轨迹。从而使得能够在仿真驾驶场景中更真实地模拟真实场景,从而提高在仿真环境中对自动驾驶模型进行训练的效果。在一些示例中,可以利用transformer模型来实现预测网络。
根据一些实施例,基于仿真驾驶场景中的环境信息确定仿真驾驶场景中的至少一个障碍对象的轨迹可以包括:基于环境信息确定该障碍对象周围环境的仿真感知信息;确定该障碍对象的行为模式类别;以及基于仿真感知信息和行为模式类别预测所述障碍对象的轨迹。
可以从预定义的多个行为模式类别中随机选取该障碍对象的行为模式类别。在一些实现方式中,行为模式类别可以是通过人工标注的类别,如较为莽撞的、较为保守的等。在另一些实现方式中,行为模式类别可以是利用无标注训练得到的聚类结果。通过随机地确定仿真驾驶场景中各个障碍对象的行为模式的类别,可以在仿真驾驶场景中实现更多样化的场景仿真。
仿真感知信息包括障碍对象在仿真环境的运动过程中针对周围环境的当前感知信息和历史感知信息。仿真感知信息可以是结构化的信息,也可以是结构化的信息的隐式表示(如在BEV空间中)。
在环境信息包括基于自动驾驶模型在仿真驾驶场景中执行仿真自动驾驶的驾驶信息的情况下,通过环境进行感知并基于感知信息来预测障碍对象的轨迹,可以使得在仿真环境中的障碍对象响应于自动驾驶模型的驾驶决策来做出相应的反应,从而能够在仿真环境中实现被训练的自动驾驶模型和仿真环境中的其他障碍对象之间的决策博弈,增加仿真场景的真实性,以提高自动驾驶模型的训练效果。
本申请实施例中所提供的自动驾驶模型具有以下优点:
高泛化性。相较于相关技术中基于串行的方式,必须定义好中间状态的结构化表示形式。比如障碍物的类别,路面元素的类别等等。然而如果出现了未在定义格式内的新障碍物或者路面元素,这些方法很可能失效。(大部分会变为“未知类型”)。本申请实施例中端到端的自动驾驶模型中,这类问题通过端到端梯度的迭代可以被一定程度自动解决。也就是即便我们不能完全定义这些类别,只要模型经过此类数据的训练,也能推导这类新障碍或者路面元素的特点。即模型可以在感知人工标注完全缺失的情况下进行学习。即使在环境发生巨大变化时,模型也能逐步通过人在回路和反馈的闭环学习不断更新自己,适应相关的变化。
高鲁棒性。人工定义的规则很难保障模型在发生意外情况时仍然能够操控好。如发生部分传感器失灵,刹车制动失灵,爆胎等情况,以及发现地图和真实观测不匹配的情况,不知道该信任哪方。本申请实施例的方案中,这类情况可以完全学习到模型参数里。同时将感知和车道级地图信息导入,模型可以自主判断需要依赖于哪些信息。例如在路面上遇到临时红绿灯,临时施工等状况,模型有可能学习到如何处理。
一定的可解释性以及可信性。本申请实施例的方案提出,除了驾驶行为,模型输出了一系列中间结果(包括结构化信息,未来预测,以及评价反馈等),很大程度上解决了可解释和可信的问题,实现了“知道自己知不知道”,从而大大增强模型对于人类的可解释和可信。
完整可行的阶段执行计划。本申请实施例的方案可以充分利用感知标注以及L4数据进行学习。在启动的初期即便没有实车也能达到较高的水准。同时利用真车和仿真的双闭环。利用仿真环境快速挖掘原来实车很难遇见的场景并进行高效率学习,从而大大降低实车场景累积的需求。
根据本公开的另一方面,提供了一种基于自动驾驶模型的自动驾驶装置。自动驾驶模型包括多模态编码层和决策控制层,多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。
图15示出了根据本公开的实施例的基于自动驾驶模型的自动驾驶装置1500的结构框图。如图15所示,装置1500包括:
输入信息获取单元1510,被配置为获取多模态编码层的第一输入信息,第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,感知信息包括在车辆行驶过程中针对目标车辆周围环境的当前感知信息和历史感知信息;
多模态编码单元1520,被配置为将第一输入信息输入多模态编码层,以获取多模态编码层所输出的与第一输入信息相对应的隐式表示;以及
决策控制单元1530,被配置为将包括隐式表示的第二输入信息输入决策控制层,以获取决策控制层所输出的目标自动驾驶策略信息。
根据本公开的另一方面,提供了一种自动驾驶模型的训练装置。自动驾驶模型包括多模态编码层和决策控制层,多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得决策控制层直接基于多模态编码层的输出获取自动驾驶策略信息。自动驾驶模型的训练装置用于对多模态编码层和决策控制层进行训练。
图16示出了根据本公开的实施例的自动驾驶模型的训练装置1600的结构框图。如图16所示,装置1600包括:
样本信息获取单元1610,被配置为获取第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息,所述第一样本输入信息包括第一样本车辆的第一样本导航信息和针对所述第一样本车辆周围环境的样本感知信息,所述样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;
多模态编码层训练单元1620,被配置为将所述第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;
决策控制层训练单元1630,被配置为将包括所述第一样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第一预测自动驾驶策略信息;以及
参数调整单元1640,被配置为至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
应当理解,图15中所示装置1500的各个模块或单元可以与参考图3描述的方法300中的各个步骤相对应。由此,上面针对方法300描述的操作、特征和优点同样适用于装置1500及其包括的模块以及单元;并且图16中所示装置1600的各个模块或单元可以与参考图8描述的方法800中的各个步骤相对应。由此,上面针对方法800描述的操作、特征和优点同样适用于装置1600及其包括的模块以及单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个单元的功能可以分为多个单元,和/或多个单元的至少一些功能可以组合成单个单元。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图15和图16描述的各个单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些单元可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些单元可以被实现为硬件逻辑/电路。例如,在一些实施例中,单元1510至1530、以及单元1610至1640中的一个或多个可以一起被实现在片上***(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如,中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
根据本公开的另一方面,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开实施例的自动驾驶方法或自动驾驶模型的训练方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使所述计算机执行根据本公开实施例的自动驾驶方法或自动驾驶模型的训练方法。
根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现根据本公开实施例的自动驾驶方法或自动驾驶模型的训练方法。
根据本公开的另一方面,还提供了一种自动驾驶车辆,包括根据本公开实施例的自动驾驶装置1500、自动驾驶模型的训练装置1600、以及上述的电子设备中的一者。
参考图17,现将描述可以作为本公开的服务器或客户端的电子设备1700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图17所示,电子设备1700包括计算单元1701,其可以根据存储在只读存储器(ROM)1702中的计算机程序或者从存储单元1708加载到随机访问存储器(RAM)1703中的计算机程序,来执行各种适当的动作和处理。在RAM 1703中,还可存储电子设备1700操作所需的各种程序和数据。计算单元1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。
电子设备1700中的多个部件连接至I/O接口1705,包括:输入单元1706、输出单元1707、存储单元1708以及通信单元1709。输入单元1706可以是能向电子设备1700输入信息的任何类型的设备,输入单元1706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1708可以包括但不限于磁盘、光盘。通信单元1709允许电子设备1700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1701执行上文所描述的各个方法和处理,例如方法(或过程)300至1400。例如,在一些实施例中,方法(或过程)300至1400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1702和/或通信单元1709而被载入和/或安装到电子设备1700上。当计算机程序加载到RAM 1703并由计算单元1701执行时,可以执行上文描述的方法(或过程)300至1400的一个或多个步骤。备选地,在其他实施例中,计算单元1701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法(或过程)300至1400。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、***和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (47)

1.一种自动驾驶模型,包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得所述决策控制层直接基于所述多模态编码层的输出获取自动驾驶策略信息,
其中,所述多模态编码层的第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在目标车辆的行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息,所述多模态编码层被配置用于获取与所述第一输入信息相对应的隐式表示,
所述决策控制层的第二输入信息包括所述隐式表示,所述决策控制层被配置用于基于所述第二输入信息获取目标自动驾驶策略信息。
2.根据权利要求1所述的模型,其中,所述自动驾驶模型还包括未来预测层,所述未来预测层被配置用于基于输入的所述隐式表示预测针对所述目标车辆周围环境的未来预测信息,
所述决策控制层的第二输入信息还包括所述未来预测信息的至少一部分。
3.根据权利要求2所述的模型,其中,所述未来预测信息包括以下各项中的至少一者:
针对所述目标车辆周围环境的未来预测感知信息、与所述未来预测感知信息相对应的未来预测隐式表示、以及针对所述目标车辆周围环境的未来预测检测信息,
其中,所述未来预测检测信息包括所述目标车辆周围环境中的多个障碍物的类型及其未来预测状态信息。
4.根据权利要求1所述的模型,其中,所述自动驾驶模型还包括感知检测层,所述感知检测层被配置用于基于输入的所述隐式表示获取针对所述目标车辆周围环境的目标检测信息,所述目标检测信息包括当前检测信息和历史检测信息,所述当前检测信息包括所述目标车辆周围环境中的多个路面元素和障碍物的类型及其当前状态信息,所述历史检测信息包括所述目标车辆周围环境中的多个障碍物的类型及其历史状态信息,
所述决策控制层的第二输入信息还包括所述目标检测信息的至少一部分。
5.根据权利要求1-4中任一项所述的模型,其中,所述自动驾驶模型还包括评价反馈层,
所述评价反馈层被配置用于基于输入的所述隐式表示获取针对所述目标自动驾驶策略信息的评价反馈信息。
6.根据权利要求5所述的模型,其中,当所述自动驾驶模型包括未来预测层和感知检测层时,所述评价反馈层被配置用于基于输入的未来预测信息和目标检测信息中一者或两者的至少一部分、以及所述隐式表示获取针对所述目标自动驾驶策略信息的评价反馈信息。
7.根据权利要求5所述的模型,其中,所述评价反馈层被配置用于基于输入的所述隐式表示和所述目标自动驾驶策略信息获取针对所述目标自动驾驶策略信息的评价反馈信息。
8.根据权利要求1-4中任一项所述的模型,其中,所述自动驾驶模型还包括解释层,
所述解释层被配置用于基于输入的所述隐式表示获取针对所述目标自动驾驶策略信息的解释信息,所述解释信息能够表征所述目标自动驾驶策略信息的决策分类。
9.根据权利要求8所述的模型,其中,当所述自动驾驶模型包括未来预测层和感知检测层时,所述解释层被配置用于基于输入的未来预测信息和目标检测信息中一者或两者的至少一部分、以及所述隐式表示获取针对所述目标自动驾驶策略信息的解释信息。
10.根据权利要求8所述的模型,其中,所述解释层被配置用于基于输入的所述隐式表示和所述目标自动驾驶策略信息获取针对所述目标自动驾驶策略信息的解释信息。
11.根据权利要求1-10中任一项所述的模型,其中,所述传感器包括摄像机,所述感知信息包括摄像机采集的二维图像,
所述多模态编码层被进一步配置用于:
基于包括所述二维图像、以及所述摄像机的内参和外参的第一输入信息,获取与所述第一输入信息相对应的隐式表示。
12.根据权利要求1-11中任一项所述的模型,其中,所述第一输入信息还包括车道级地图,所述导航信息包括道路级导航信息和/或车道级导航信息。
13.根据权利要求1-11中任一项所述的模型,其中,所述感知信息包括以下各项中的至少一者:
摄像机采集的图像、激光雷达采集的信息和毫米波雷达采集的信息。
14.根据权利要求1-11中任一项所述的模型,其中,所述多模态编码层被配置用于将所述第一输入信息映射至预设空间以获得中间表示,并且利用时序注意力机制和/或空间注意力机制对所述中间表示进行处理,以获得所述第一输入信息相对应的所述隐式表示。
15.根据权利要求1-11中任一项所述的模型,其中,所述目标自动驾驶策略信息包括目标规划轨迹。
16.一种利用自动驾驶模型实现的自动驾驶方法,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得所述决策控制层直接基于所述多模态编码层的输出获取自动驾驶策略信息,所述方法包括:
获取所述多模态编码层的第一输入信息,所述第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在所述车辆行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息;
将所述第一输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的与所述第一输入信息相对应的隐式表示;以及
将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
17.根据权利要求16所述的方法,其中,所述自动驾驶模型还包括未来预测层,所述方法还包括:
将所述隐式表示输入所述未来预测层,以获取所述未来预测层所输出的针对所述目标车辆周围环境的未来预测信息,
其中,所述将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息包括:
将包括所述未来预测信息的至少一部分和所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
18.根据权利要求16所述的方法,其中,所述自动驾驶模型还包括感知检测层,所述方法还包括:
将所述隐式表示输入所述感知检测层,以获取所述感知检测层所输出的所述目标车辆周围环境的目标检测信息,所述目标检测信息包括当前检测信息和历史检测信息,所述当前检测信息包括所述目标车辆周围环境中的多个障碍物和路面元素的类型及其当前状态信息,所述历史检测信息包括所述目标车辆周围环境中的多个障碍物的类型及其历史状态信息,
其中,所述将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息包括:
将包括所述目标检测信息的至少一部分和所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
19.根据权利要求16-18中任一项所述的方法,其中,所述自动驾驶模型还包括评价反馈层,所述方法还包括:
将所述隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述目标自动驾驶策略信息的评价反馈信息。
20.根据权利要求19所述的方法,其中,当所述自动驾驶模型包括未来预测层和感知检测层时,所述将所述隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述目标自动驾驶策略信息的评价反馈信息包括:
将未来预测信息和目标检测信息中一者或两者的至少一部分、以及所述隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述目标自动驾驶策略信息的评价反馈信息。
21.根据权利要求19所述的方法,其中,所述将所述隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述目标自动驾驶策略信息的评价反馈信息包括:
将所述隐式表示和所述目标自动驾驶策略信息输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述目标自动驾驶策略信息的评价反馈信息。
22.根据权利要求16-18中任一项所述的方法,其中,所述自动驾驶模型还包括解释层,所述方法还包括:
将所述隐式表示输入所述解释层,以获取所述解释层所输出的针对所述目标自动驾驶策略信息的解释信息,所述解释信息能够表征所述目标自动驾驶策略信息的决策分类。
23.根据权利要求22所述的方法,其中,当所述自动驾驶模型包括未来预测层和感知检测层时,所述将所述隐式表示输入所述解释层,以获取所述解释层所输出的针对所述目标自动驾驶策略信息的解释信息包括:
将未来预测信息和目标检测信息中一者或两者的至少一部分、以及所述隐式表示输入所述解释层,以获取所述解释层所输出的针对所述目标自动驾驶策略信息的解释信息。
24.根据权利要求22所述的方法,其中,将所述隐式表示输入所述解释层,以获取所述解释层所输出的针对所述目标自动驾驶策略信息的解释信息包括:
将所述隐式表示和所述目标自动驾驶策略信息输入所述解释层,以获取所述解释层所输出的针对所述目标自动驾驶策略信息的解释信息。
25.一种自动驾驶模型的训练方法,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络基础模型,以使得所述决策控制层直接基于所述多模态编码层的输出获取自动驾驶策略信息,所述方法包括对所述多模态编码层和决策控制层进行训练的第一训练过程,
其中,所述第一训练过程包括:
获取第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息,所述第一样本输入信息包括第一样本车辆的第一样本导航信息和针对所述第一样本车辆周围环境的样本感知信息,所述样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;
将所述第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;
将包括所述第一样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第一预测自动驾驶策略信息;以及
至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
26.根据权利要求25所述的方法,还包括:
在所述第一训练过程之前,对所述多模态编码层和所述决策控制层进行离线预训练,以使得所述自动驾驶模型能够基于输入的所述第一样本输入信息获取所述第一预测自动驾驶策略信息;
其中,所述第一训练过程还包括:
利用离线预训练获得的自动驾驶模型执行自动驾驶,并且在该自动驾驶过程中获取所述第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息。
27.根据权利要求26所述的方法,其中,所述自动驾驶模型还包括感知检测层和未来预测层,对所述多模态编码层进行离线预训练包括:
获取第二样本输入信息以及所述第二样本输入信息相对应的第二样本车辆周围环境的第一真实检测信息和第一未来真实信息,所述第一真实检测信息包括第二样本车辆周围环境中的多个真实样本障碍物的类型及其真实当前状态信息和真实历史状态信息、以及多个真实样本路面元素的类型及其真实当前状态信息;
将第二样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的所述第二样本输入信息相对应的第二样本隐式表示;
将所述第二样本隐式表示输入所述感知检测层,以获取所述感知检测层所输出的第一预测检测信息,所述第一预测检测信息包括所述第二样本车辆周围环境中的多个预测样本障碍物的类型及其预测当前状态信息和预测历史状态信息、以及多个预测样本路面元素的类型及其预测当前状态信息;
将所述第二样本隐式表示输入所述未来预测层,以获取所述未来预测层所输出的第一未来预测信息;
基于所述第一真实检测信息和所述第一预测检测信息、以及所述第一未来真实信息和第一未来预测信息,调整所述多模态编码层的参数;
基于所述第一真实检测信息和所述第一预测检测信息,调整所述感知检测层的参数;以及
基于所述第一未来真实信息和第一未来预测信息,调整所述未来预测层的参数。
28.根据权利要求26所述的方法,其中,所述自动驾驶模型还包括未来预测层,对所述多模态编码层和决策控制层进行离线预训练包括:
获取第三样本输入信息以及所述第三样本输入信息相对应的第三样本车辆周围环境的第二未来真实信息和第二真实自动驾驶策略信息;
将第三样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的所述第三样本输入信息相对应的第三样本隐式表示;
将所述第三样本隐式表示输入所述未来预测层,以获取所述未来预测层所输出的第二未来预测信息;
将包括所述第三样本隐式表示的样本中间表示输入所述决策控制层,以获取所述决策控制层所输出的第二预测自动驾驶策略信息;
基于所述第二未来真实信息和第二未来预测信息,调整所述未来预测层的参数;
基于所述第二真实自动驾驶策略信息和所述第二预测自动驾驶策略信息、以及所述第二未来真实信息和第二未来预测信息,调整所述多模态编码层的参数;以及
基于所述第二真实自动驾驶策略信息和所述第二预测自动驾驶策略信息,调整所述决策控制层的参数。
29.根据权利要求28所述的方法,其中,对所述多模态编码层和决策控制层进行离线预训练包括:
将所述第三样本输入信息输入驾驶策略预测模型,以获取所述驾驶策略预测模型所输出的第二自动驾驶策略真实信息。
30.根据权利要求27或28所述的方法,其中,未来预测信息包括以下各项中的至少一者:
针对样本车辆周围环境的未来预测感知信息、与所述未来预测感知信息相对应的未来预测隐式表示、以及针对样本车辆周围环境中的未来预测检测信息,
其中,所述未来预测检测信息包括样本车辆周围环境中的多个预测样本障碍物元素的类型及其未来预测状态信息。
31.根据权利要求26所述的方法,其中,所述自动驾驶模型还包括评价反馈层,所述对所述多模态编码层和所述决策控制层进行离线预训练,还包括:
获取第四样本输入信息和与所述第四样本输入信息相对应的第三真实自动驾驶策略信息;
将第四样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的所述第四样本输入信息相对应的第四样本隐式表示;
将包括所述第四样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第三预测自动驾驶策略信息;
将所述第四样本隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述第三预测自动驾驶策略信息的样本评价反馈信息;
基于针对所述第四预测自动驾驶策略信息的样本评价反馈信息、所述第三预测自动驾驶策略信息和第三真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
32.根据权利要求31所述的方法,其中,所述评价反馈层的训练过程包括:
获取第五样本输入信息以及针对所述第五样本输入信息的真实评价反馈信息;
将所述第五样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的所述第五样本输入信息相对应的第五样本隐式表示;
将所述第五样本隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述第五样本输入信息的预测评价反馈信息;以及
基于所述真实评价反馈信息和预测评价反馈信息,调整所述多模态编码层和所述评价反馈层的参数。
33.根据权利要求32所述的方法,其中,所述真实评价反馈信息包括以下各项中的至少一者:
驾驶舒适度信息、驾驶安全性信息、驾驶效率、是否文明使用行车灯、驾驶行为来源信息、是否违反交通规则信息。
34.根据权利要求25-33中任一项所述的方法,其中,所述第一样本输入信息包括干预标识,所述干预标识能够表征所述第一真实自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息,当所述自动驾驶模型还包括评价反馈层时,所述第一训练过程还包括:
将所述第一样本隐式表示输入所述评价反馈层,以获取所述评价反馈层所输出的针对所述第一预测自动驾驶策略信息的样本评价反馈信息,
其中,至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数包括:
基于所述样本评价反馈信息、所述干预标识、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
35.根据权利要求25-34中任一项所述的方法,还包括对所述多模态编码层和决策控制层进行训练的第二训练过程,所述第二训练过程包括:
利用所述第一训练过程训练得到的自动驾驶模型再次执行自动驾驶,并且在该自动驾驶过程中获取第六样本输入信息、所述第六样本输入信息相对应的第四真实自动驾驶策略信息;
获取所述自动驾驶模型基于输入的第六样本输入信息所获得的第四预测自动驾驶策略信息;以及
至少基于所述第四真实自动驾驶策略信息和第四真实自动驾驶策略信息,再次调整所述多模态编码层和所述决策控制层的参数。
36.根据权利要求25-35中任一项所述的方法,其中,所述第一样本输入信息包括在真实驾驶场景下执行自动驾驶而获得的所述多模态编码层的真实样本输入信息,和/或在仿真驾驶场景下执行仿真自动驾驶而获得的所述多模态编码层的仿真样本输入信息。
37.根据权利要求36所述的方法,其中,所述真实样本输入信息和/或所述仿真样本输入信息包括干预标识。
38.根据权利要求36所述的方法,其中,所述真实驾驶场景包括存在人为干预的干预真实驾驶场景,所述仿真驾驶场景的构建过程包括:
将所述干预真实驾驶场景添加到所述仿真驾驶场景中。
39.根据权利要求36所述的方法,其中,所述仿真驾驶场景的构建过程包括:
基于所述仿真驾驶场景中的环境信息确定所述仿真驾驶场景中的至少一个障碍对象的轨迹,其中所述环境信息包括基于所述自动驾驶模型在所述仿真驾驶场景中执行仿真自动驾驶的驾驶信息。
40.根据权利要求39所述的方法,其中,基于所述仿真驾驶场景中的环境信息确定所述仿真驾驶场景中的至少一个障碍对象的轨迹包括:
基于所述环境信息确定该障碍对象周围环境的仿真感知信息;
确定该障碍对象的行为模式类别;
基于所述仿真感知信息和所述行为模式类别预测所述障碍对象的轨迹。
41.根据权利要求40所述的方法,其中,确定该障碍对象的行为模式类别包括:
从预定义的多个行为模式类别中随机选取该障碍对象的行为模式类别。
42.一种基于自动驾驶模型的自动驾驶装置,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得所述决策控制层直接基于所述多模态编码层的输出获取自动驾驶策略信息,所述装置包括:
输入信息获取单元,被配置为获取所述多模态编码层的第一输入信息,所述第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在所述车辆行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息;
多模态编码单元,被配置为将所述第一输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的与所述第一输入信息相对应的隐式表示;以及
决策控制单元,被配置为将包括所述隐式表示的第二输入信息输入所述决策控制层,以获取所述决策控制层所输出的目标自动驾驶策略信息。
43.一种自动驾驶模型的训练装置,所述自动驾驶模型包括多模态编码层和决策控制层,所述多模态编码层和决策控制层连接组成端到端的神经网络模型,以使得所述决策控制层直接基于所述多模态编码层的输出获取自动驾驶策略信息,所述装置用于对所述多模态编码层和决策控制层进行训练,并且包括:
样本信息获取单元,被配置为获取第一样本输入信息和所述第一样本输入信息相对应的第一真实自动驾驶策略信息,所述第一样本输入信息包括第一样本车辆的第一样本导航信息和针对所述第一样本车辆周围环境的样本感知信息,所述样本感知信息包括针对第一样本车辆周围环境的当前样本感知信息和历史样本感知信息;
多模态编码层训练单元,被配置为将所述第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;
决策控制层训练单元,被配置为将包括所述第一样本隐式表示的中间样本输入信息输入所述决策控制层,以获取所述决策控制层所输出的第一预测自动驾驶策略信息;以及
参数调整单元,被配置为至少基于所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和决策控制层的参数。
44.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求16-41中任一项所述的方法。
45.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求16-41中任一项所述的方法。
46.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求16-41中任一项所述的方法。
47.一种自动驾驶车辆,包括:
根据权利要求42所述的自动驾驶装置、根据权利要求43所述的自动驾驶模型的训练装置、以及根据权利要求44所述的电子设备中的一者。
CN202310266204.9A 2023-03-17 2023-03-17 自动驾驶模型、训练方法和自动驾驶方法和车辆 Pending CN116880462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310266204.9A CN116880462A (zh) 2023-03-17 2023-03-17 自动驾驶模型、训练方法和自动驾驶方法和车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310266204.9A CN116880462A (zh) 2023-03-17 2023-03-17 自动驾驶模型、训练方法和自动驾驶方法和车辆

Publications (1)

Publication Number Publication Date
CN116880462A true CN116880462A (zh) 2023-10-13

Family

ID=88261052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310266204.9A Pending CN116880462A (zh) 2023-03-17 2023-03-17 自动驾驶模型、训练方法和自动驾驶方法和车辆

Country Status (1)

Country Link
CN (1) CN116880462A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519206A (zh) * 2023-12-07 2024-02-06 北京百度网讯科技有限公司 基于生成式扩散模型的自动驾驶模型、方法、装置和车辆

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108773373A (zh) * 2016-09-14 2018-11-09 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置
CN113076599A (zh) * 2021-04-15 2021-07-06 河南大学 一种基于长短时记忆网络的多模态车辆轨迹预测方法
WO2021226921A1 (en) * 2020-05-14 2021-11-18 Harman International Industries, Incorporated Method and system of data processing for autonomous driving
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113954864A (zh) * 2021-09-22 2022-01-21 江苏大学 一种融合周边车辆交互信息的智能汽车轨迹预测***及方法
US20220048498A1 (en) * 2020-08-12 2022-02-17 Argo AI, LLC Waypoint prediction for vehicle motion planning
CN115303297A (zh) * 2022-07-25 2022-11-08 武汉理工大学 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
CN115578876A (zh) * 2022-10-14 2023-01-06 浪潮(北京)电子信息产业有限公司 一种车辆的自动驾驶方法、***、设备及存储介质
CN115578705A (zh) * 2022-10-21 2023-01-06 北京易航远智科技有限公司 基于多模态融合的鸟瞰图特征生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108773373A (zh) * 2016-09-14 2018-11-09 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置
WO2021226921A1 (en) * 2020-05-14 2021-11-18 Harman International Industries, Incorporated Method and system of data processing for autonomous driving
US20220048498A1 (en) * 2020-08-12 2022-02-17 Argo AI, LLC Waypoint prediction for vehicle motion planning
CN113076599A (zh) * 2021-04-15 2021-07-06 河南大学 一种基于长短时记忆网络的多模态车辆轨迹预测方法
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113954864A (zh) * 2021-09-22 2022-01-21 江苏大学 一种融合周边车辆交互信息的智能汽车轨迹预测***及方法
CN115303297A (zh) * 2022-07-25 2022-11-08 武汉理工大学 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
CN115578876A (zh) * 2022-10-14 2023-01-06 浪潮(北京)电子信息产业有限公司 一种车辆的自动驾驶方法、***、设备及存储介质
CN115578705A (zh) * 2022-10-21 2023-01-06 北京易航远智科技有限公司 基于多模态融合的鸟瞰图特征生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519206A (zh) * 2023-12-07 2024-02-06 北京百度网讯科技有限公司 基于生成式扩散模型的自动驾驶模型、方法、装置和车辆

Similar Documents

Publication Publication Date Title
US20240144010A1 (en) Object Detection and Property Determination for Autonomous Vehicles
US11480972B2 (en) Hybrid reinforcement learning for autonomous driving
EP3822852B1 (en) Method, apparatus, computer storage medium and program for training a trajectory planning model
CN112740268B (zh) 目标检测方法和装置
CN110356412B (zh) 用于自主驾驶的自动规则学习的方法和设备
US20220261601A1 (en) Multiple Stage Image Based Object Detection and Recognition
CN114758502B (zh) 双车联合轨迹预测方法及装置、电子设备和自动驾驶车辆
CN116051779A (zh) 用于自主***和应用的使用深度神经网络利用点云致密化的3d表面重建
CN116051780A (zh) 用于自主***和应用的使用人工智能利用点云致密化的3d表面重建
CN116048060A (zh) 用于自主***和应用的使用神经网络基于真实世界数据的3d表面结构估计
US20230252280A1 (en) Online learning by an instance of a deep learning model and sharing of learning with additional instances of the deep learning model
CN116678424A (zh) 高精度车辆定位、矢量化地图构建及定位模型训练方法
CN116880462A (zh) 自动驾驶模型、训练方法和自动驾驶方法和车辆
CN116776151A (zh) 可与车外人员进行自主交互的自动驾驶模型和训练方法
CN114212108A (zh) 自动驾驶方法、装置、车辆、存储介质及产品
CN117035032A (zh) 融合文本数据和自动驾驶数据进行模型训练的方法和车辆
US20230294716A1 (en) Filtering perception-related artifacts
CN116859724B (zh) 时序自回归同时决策和预测的自动驾驶模型及其训练方法
CN116881707A (zh) 自动驾驶模型、训练方法、装置和车辆
CN116991157A (zh) 具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆
CN117591847B (zh) 基于车况数据的模型指向评测方法和装置
CN117593892B (zh) 真值数据的获取方法和装置、存储介质及电子设备
CN117593686B (zh) 基于车况真值数据的模型评测方法和装置
US11938939B1 (en) Determining current state of traffic light(s) for use in controlling an autonomous vehicle
CN116872962A (zh) 含人工干预预测的自动驾驶模型、训练方法、设备和车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination