CN114077242A - 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法 - Google Patents

用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法 Download PDF

Info

Publication number
CN114077242A
CN114077242A CN202110928604.2A CN202110928604A CN114077242A CN 114077242 A CN114077242 A CN 114077242A CN 202110928604 A CN202110928604 A CN 202110928604A CN 114077242 A CN114077242 A CN 114077242A
Authority
CN
China
Prior art keywords
control
hardware
actions
sequence
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110928604.2A
Other languages
English (en)
Inventor
P·盖格尔
C-N·斯泰勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN114077242A publication Critical patent/CN114077242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0055Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements
    • G05D1/0061Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements for transition from automatic pilot to manual pilot and vice versa
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/085Changing the parameters of the control units, e.g. changing limit values, working points by control input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • B60W2050/0044In digital systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法。按照不同的实施方式,描述了一种方法,该方法具有:通过第一神经网络来确定势函数;通过第二神经网络从多个可能的控制场景中确定针对控制情况的一个控制场景;通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列;而且按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。

Description

用于在具有多个硬件代理的控制情况下控制硬件代理的设备 和方法
技术领域
不同实施例一般性地涉及用于在具有多个硬件代理的控制情况下控制一个(或多个)硬件代理的设备和方法。
背景技术
近年来,自主驾驶已成为研究界和公众都非常感兴趣的话题。自主车辆不仅在经济上而且对于改善机动可能性并且潜在减少碳排放来说都有巨大潜力。与任何控制一样,自主驾驶包含在相应的控制情况下做出决策。在控制情况下,特别是在自主驾驶中通常有多个车辆参与,并且车辆应该执行的行动取决于一个或多个其它车辆执行哪些行动。换言之,存在多个交互代理,并且值得期望的是:找到针对所要控制的代理(“自我代理”)的控制,该控制一并考虑其它代理的目标是什么以及这些其它代理基于此将如何表现(在假设这些其它代理的一种理性的情况下);并且基于此来找到对自我代理的控制,该控制使该自我代理的收益最大化并且相对于这些其它代理(例如其它车辆)的行为而言是稳健的。由于所有代理都有多个行动可用并且例如在道路交通中必须实时地产生相对应的控制指令,所以用于在具有多个硬件代理(例如车辆)的控制情况下控制硬件代理的高效方法是值的期望的。
发明内容
按照不同的实施方式,提供一种用于在具有多个硬件代理的控制情况下控制硬件代理的方法,该方法具有:确定表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息;通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第一神经网络来确定势函数,该第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来输出势函数的参数值,其中该势函数给分别对于每个硬件代理来说在该控制情况下具有行动序列的共同行动序列分别分配潜在值,该潜在值表征这些硬件代理从在该控制情况下的相应的共同行动序列中所具有的收益;通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对该控制情况的控制场景,该第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来针对该控制情况从所述多个可能的控制场景中确定一个或多个控制场景,其中每个控制场景都包含这些硬件代理的可能的共同行动序列的集合;通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列;而且
按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。
该潜在值表征这些硬件代理的收益值、也就是说尤其是偏好。
上述方法使得能够确定多个可移动设备、例如硬件代理、例如多个车辆的(将来的)共同轨迹,这些轨迹一并考虑其它代理的目标是什么以及这些其它代理基于此将如何表现。接着,这些所确定的共同轨迹例如不仅可以被用于控制单个(或多个)代理而且可以被用于对所有代理的纯预测。这例如是驾驶员辅助***和自动驾驶车辆的重要子任务,但是也可以被应用于具有不是交通成员的多个交互设备(在控制上下文中也称为代理)的其它控制情况。
清楚地,博弈论(spieltheoretisch)层被***到神经网络中,该博弈论层对可移动或移动设备的将来的轨迹进行预测。这尤其意味着:通过确定(局部)纳什均衡来预测将来的轨迹(这些轨迹通过行动序列来给出)。博弈(Spiel)具有由神经网络根据表征或影响所述多个硬件代理的行为和/或该控制情况的信息、例如先前观察到的参与的硬件代理(例如车辆)的轨迹所预测的参数。博弈论层可以被设计为使得该博弈论层可微,这能够实现对总网络的高效的基于梯度的端到端训练,尽管博弈论层被设立用于求解优化问题(并且因此是隐含层,其中输入与输出之间的关系没有明确地作为简单函数来给出,而是只例如借助于一个等式来给出)。该博弈(以及因此尤其是该博弈的参数)描述了代理的目标或收益函数,并且可以在某些假设(详情如下)下通过上文已经提到的势函数来被表征。
该控制情况可包含具有多个任务的多个代理,例如用于分发种子的机器人和用于浇水的机器人。在这种情况下,表征或影响所述多个硬件代理的行为和/或该控制情况的信息可以是关于这些任务(例如种子分发、浇水)的信息。
信息例如也可以是:是否正在下雨(这改变了该控制情况以及这些代理的行为,例如浇水机器人接着将更少浇水或者完全不浇水)。在交通情况下,这些信息也可包含车辆的类型,例如载货车(LKW)(行驶和加速较慢)或者跑车(行驶和加速较快)。
这些信息也可以是传感器数据,根据这些传感器数据可以导出该行为和/或该控制情况(也就是说这些传感器数据表示该行为或该控制情况)。
博弈参数的值由第一神经网络(NN)根据这些信息来确定,该第一神经网络在不同实施方式中被称作偏好确定NN。由该NN输出的中间表示可以被检查(例如检查是否一致,例如与先验知识的一致),因为该中间表示是可解释的并且对应于这些硬件代理(也就是说代理)的偏好。
关于这些硬件代理的偏好的先验知识可以被编码到博弈中,使得所预测的行动(尤其是所确定的用于控制至少一个硬件代理的行动序列)与该先验知识一致。
第一神经网络可以被设计为使得该第一神经网络的输出、也就是说该中间表示是低维的。这尤其使得能够利用低数据量来进行训练。
在不同实施方式中被称作均衡细化NN的第二神经网络使博弈论层易于操作(英文tractable,也就是说实际可实现)。按照一个实施方式,该博弈论层的输出尤其减少了必须被评估或必须被求解的纳什均衡候选者的数目。
每个所预测的共同轨迹(也就是说轨迹组,针对每个硬件代理都有一个)通过该博弈的纳什均衡来给出。因此,这些硬件代理的轨迹是一致的,这些轨迹对应于(近似)理性的(也就是说合理的)行为并且遵循编码在该博弈(也就是说势函数的参数)中的预先给定的条件(例如偏好)。
在下文说明了不同的实施例。
实施例1是一种如上所述的用于在具有多个硬件代理的控制情况下控制硬件代理的方法。
实施例2是根据实施例1所述的方法,该方法具有:根据所述多个可能的控制场景来确定针对该控制情况的多个控制场景,并且针对每个所确定的控制场景,确定所确定的控制场景的概率值;
从所确定的控制场景中选择其概率值在所确定的控制场景中最高的一个或多个控制场景;
针对每个所选择的控制场景,通过搜索关于所选择的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列;
而且
按照所确定的共同行动序列来控制该至少一个硬件代理。
控制场景的概率值表示该控制场景的概率,但是该概率值不一定需要在0与1之间,也就是说概率值可以任意缩放。通过选择其概率值最高的控制场景(也就是说清楚地是控制变体或选项),针对其来确定共同行动序列的控制场景的数目被减少。这降低了复杂性并且例如能够实现针对实时控制、例如在车辆中的实时控制的(切合实际的)实际实现。
实施例3是根据实施例1或2所述的方法,该方法具有:
根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景,并且针对每个所确定的控制场景,确定所确定的控制场景的概率;针对每个所确定的控制场景,通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列;从所确定的行动序列中选择共同行动序列,使得取决于概率和/或收益的目标函数通过关于所确定的行动序列的所选择的行动序列来被优化;而且按照所选择的共同行动序列来控制该至少一个硬件代理。目标函数例如是通过预先给定的权重来加权的概率和收益之和。也可以使用像遵守交通规则那样的标准来选择共同行动序列。收益尤其可包含质量的量度和成本的量度(例如负加权,因为这些成本应该尽可能低)。
在考虑概率和收益的情况下选择共同行动序列允许高效的控制。
实施例4是根据实施例1至3中任一项所述的方法,该方法还具有:根据关于这些硬件代理的附加的先验知识,确定该势函数的说明这些硬件代理的控制偏好的附加参数值;并且根据由该第一神经网络输出的参数值和这些附加参数值来确定该势函数。
以这种方式,先验知识可以一并流入到控制中并且尤其是提供按照偏好来使该控制适配的可能性。这也能被理解成约束条件,诸如限速。例如,也可以输送关于道路几何图形、环境地图等等的信息。
实施例5是根据实施例1至4中任一项所述的方法,该方法具有:确定所述可能的控制场景,使得对于每个控制场景来说,该势函数在针对该控制场景所包含的硬件代理的可能的共同行动序列集合上是凹的(如果收益被最大化)或者凸的(如果成本被最小化)。
由此确保了:针对每个控制场景都可以执行对势函数的最优值的高效搜索,这例如使实时控制实际可实现(例如在预先给定的供支配的硬件的情况下)。
实施例6是根据实施例1至5中任一项所述的方法,该方法具有:通过利用具有多个第一训练数据要素的第一训练数据进行监督学习来训练该第一神经网络,其中每个第一训练数据要素都具有表征和/或影响多个硬件代理的行为和/或该控制情况的信息以及针对共同(将来)行动序列的基本事实(英文ground truth);而且通过利用具有多个第二训练数据要素的第二训练数据进行监督学习来训练该第二神经网络,其中每个第二训练数据要素都具有表征和/或影响多个硬件代理的行为和/或该控制情况的信息以及针对该控制场景的基本事实。
以这种方式,这两个神经网络可以彼此独立地被训练,这能够实现对总网络的高效训练。
实施例7是根据实施例6所述的方法,其中对该第一神经网络的训练具有确定与该势函数的参数相关的损失函数的梯度,其方式是(例如解析式地)确定从势函数到通过搜索局部最优值来实现的共同行动序列(换言之从该势函数的参数值到共同行动序列)的映射的梯度。
尽管优化层(搜索最优值)包含隐含层,这仍能够实现高效的训练。
实施例8是根据实施例1至7中任一项所述的方法,其中表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息说明了所述多个硬件代理的先前的移动轨迹。
先前的移动轨迹是获得关于代理的行为(尤其是偏好和将来所要预期的行为)的信息的高效途径。
实施例9是一种用于控制硬件代理的设备,该设备被设立为实施根据实施例1至8中任一项所述的方法。
实施例10是一种计算机程序,其具有程序指令,当这些程序指令由一个或多个处理器来实施时,这些程序指令使所述一个或多个处理器执行根据实施例1至8中任一项所述的方法。
实施例11是一种计算机可读存储介质,在其上存储有程序指令,当这些程序指令由一个或多个处理器来实施时,这些程序指令使所述一个或多个处理器执行根据实施例1至8中任一项所述的方法。
附图说明
本发明的实施例在附图中被示出并且在下文详细地予以阐述。在附图中,相同的附图标记在多个视图中各处通常都涉及相同的部分。这些附图不一定比例正确,其中重点反而通常在于呈现本发明的原理。
图1示出了按照实施方式的车辆。
图2示出了具有两个车辆的交通情况作为示例。
图3示出了机器控制模型。
图4示出了针对图2的交通情况的两个控制场景。
图5示出了流程图,该流程图阐明了用于在具有多个硬件代理的控制情况下控制硬件代理的方法。
具体实施方式
不同的实施方式、尤其是下文描述的实施例可以借助于一个或多个电路来被实现。在一个实施方式中,“电路”可以被理解为任何类型的逻辑实现实体,该逻辑实现实体可以是硬件、软件、固件或它们的组合。因而,在一个实施方式中,“电路”可以是硬接线逻辑电路或可编程逻辑电路,诸如可编程处理器、例如微处理器。“电路”也可以是由处理器实现或实施的软件、例如任何类型的计算机程序。根据一个替选的实施方式,相应的功能的任何其它类型的实现方案都可以被理解为“电路”,这些相应的功能在下文更详细地予以描述。
图1示出了车辆101。
在图1的示例中,车辆101、例如载客车(PKW)或载货车(LKW)配备有车辆控制装置102。
车辆控制装置102具有数据处理组件,例如处理器(例如CPU(中央单元))103和存储器104,该存储器用于存储车辆控制装置102按照其来工作的控制软件和由处理器103来处理的数据。
例如,所存储的控制软件(计算机程序)具有命令,当处理器实施这些命令时,这些命令引起:处理器103实现一个或多个神经网络107。
存储在存储器104中的数据例如可包含由一个或多个摄像机105所检测到的图像数据。所述一个或多个摄像机105例如可以拍摄车辆101的周围环境的一张或多张灰度或彩色照片。
车辆控制装置102可以对图像数据进行研究并且按照结果来控制车辆101。这样,车辆控制装置102例如可以控制执行器106(例如制动器),以便控制车辆的速度,例如以便使车辆制动。
车辆控制装置102可以在使用图像数据(或者还有其它信息源、如其它类型的传感器或者车辆-车辆通信的数据)的情况下探测在车辆101周围的对象、尤其是其它车辆。
接着,车辆控制装置102必须决定该车辆控制装置如何控制车辆101。为此,车辆控制装置102可以预测一个或多个其它对象、例如一个或多个其它车辆朝向哪里移动。所述一个或多个其它车辆的一个或多个轨迹与自己的轨迹(也就是说车辆101的轨迹)一起形成共同轨迹。
图2示出了具有两个车辆的交通情况200作为示例。
在交通情况200中,例如对应于车辆101的第一车辆201行驶到高速公路上。第二车辆202(从第一车辆201的角度是“其它车辆”)已经位于高速公路的右侧车道204上。第一车辆201首先位于加速车道203上,并且车辆控制装置102的任务是:控制第一车辆201,使得该第一车辆变换到高速公路的右侧车道204上,其中应考虑某些条件(也称作偏好),如距第二车辆的距离太小(尤其是避免事故)、加速度不太高、速度不太低等等。
从交通情况200(如图2中所示)在时间点t = 0的开始直至该交通情况在时间点t= T(例如当两个车辆201、202都在高速公路上行驶时)的结束,两个车辆都遵循相应的轨迹。这两条轨迹共同形成“共同”轨迹。
在一般情况下,在控制情况下存在代理的集合
Figure 245129DEST_PATH_IMAGE002
。这些代理可以是车辆并且该控制情况可以是交通情况,但是其它应用也是可能的,例如该控制情况可包含在公司中共同加工的产品的多个机器人臂。在这种情况下,也应该避免机器人臂之间的碰撞并且遵守其它条件(例如对产品的快速加工和与此相对应地机器人臂的非活动阶段少)。另一应用示例是对在工厂车间中巡回行驶以便例如分发材料的移动机器人的控制。这些机器人有时在人类也走动的区域内行驶。为此,还重要的是:预测人类的轨迹,并且最终确定对于这些机器人来说良好的轨迹。
每个代理
Figure DEST_PATH_IMAGE003
在任何时间
Figure 847755DEST_PATH_IMAGE004
都具有单独的状态
Figure DEST_PATH_IMAGE005
。代理的状态序列一起得出该代理的(单独的)轨迹
Figure 627492DEST_PATH_IMAGE006
。这些代理的轨迹一起形成这些代理的共同轨迹
Figure DEST_PATH_IMAGE007
。该共同轨迹应该针对
Figure 22702DEST_PATH_IMAGE008
来被预测,因此该共同轨迹也被称作将来的共同轨迹。
假设:先前的共同轨迹x(该共同轨迹例如直至时间点t = 0)供支配,例如通过车辆201、202之间的通信或者还有相互观察来供支配。替选于先前的共同轨迹,也可以使用诸如传感器数据那样的信息,根据这些信息可以到处行为和/或控制情况(也就是说这些信息表示该行为或该控制情况)。
第i个代理的轨迹
Figure DEST_PATH_IMAGE010A
应通过向量
Figure DEST_PATH_IMAGE011
Figure 774757DEST_PATH_IMAGE012
来被确定,该向量被称作代理i的行动序列,其中
Figure DEST_PATH_IMAGE014
是行动序列(也就是说可能的行动的组合)的空间。相对应地,该共同轨迹通过参数化
Figure 784170DEST_PATH_IMAGE015
来给出,其中
Figure DEST_PATH_IMAGE016
是共同行动序列的空间。行动序列不一定需要单独操作的序列,该行动序列例如也可在于以恒定速度来行驶。那么,行动序列的行动(也就是说在所有时间点)都是相同的,即以该(恒定)速度行驶。
在下文中,
Figure 457728DEST_PATH_IMAGE017
表示第i个分量被忽略,也就是说
Figure DEST_PATH_IMAGE018
预测可包含具有相应的概率
Figure 656628DEST_PATH_IMAGE019
的多个预测轨迹
Figure DEST_PATH_IMAGE020
。每个预测轨迹
Figure 325507DEST_PATH_IMAGE020
例如都可对应于具有索引k的控制场景(换言之控制选项或控制可能性)。例如,预测轨迹之一
Figure 944969DEST_PATH_IMAGE021
对应于第一车辆201在第二车辆202之前行驶到高速公路上的控制场景,并且第二预测轨迹
Figure DEST_PATH_IMAGE022
对应于第一车辆201在第二车辆202之后行驶到高速公路上的控制场景。
在博弈论的意义上,该控制情况可以被视为“博弈”。博弈包含代理(“博弈方”)的集合、这些代理的可能的行动和这些代理的收益函数。
在下文中,(轨迹)博弈被理解为其中对于每个代理来说都存在形式
Figure 699299DEST_PATH_IMAGE023
的收益函数
Figure DEST_PATH_IMAGE024
的博弈,其中
Figure 436311DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
是代理i的每个时间步长(长度Δ)的收益函数
Figure DEST_PATH_IMAGE028
μ是时间的量度
而且其中
Figure 84330DEST_PATH_IMAGE029
=
Figure DEST_PATH_IMAGE030
如果存在开集
Figure 779753DEST_PATH_IMAGE031
,则局部纳什均衡是共同行动序列
Figure 21379DEST_PATH_IMAGE025
,使得针对每个代理i都适用
Figure DEST_PATH_IMAGE032
并且针对每个
Figure 925530DEST_PATH_IMAGE033
适用
Figure DEST_PATH_IMAGE034
如果存在所谓的势函数(在下文也称作收益-势函数)
Figure DEST_PATH_IMAGE036
,则博弈叫做(精确连续)势博弈,使得
Figure 569001DEST_PATH_IMAGE037
适用于所有代理i、所有行动序列
Figure DEST_PATH_IMAGE038
和其余的行动序列
Figure 904168DEST_PATH_IMAGE039
例如,如下函数被用作每个时间步长的收益函数:
Figure DEST_PATH_IMAGE040
其中
Figure 633089DEST_PATH_IMAGE041
是取决于共同轨迹并且对于所有代理来说都是共同的项,而且
Figure DEST_PATH_IMAGE042
是只取决于第i个代理的轨迹并且可因代理而异的项,而且
Figure 102117DEST_PATH_IMAGE043
是只取决于除了第i个代理之外的代理的轨迹并且可因代理而异的项。
在这种情况下,可以使用函数
Figure DEST_PATH_IMAGE044
作为势函数。
参数向量
Figure DEST_PATH_IMAGE046
包含博弈的参数以及因此该势函数的值。该参数向量表示这些代理的偏好。
按照不同的实施方式,通过该势函数不是在整个行动序列空间A内优化,而是在子空间
Figure 600094DEST_PATH_IMAGE047
的族
Figure DEST_PATH_IMAGE048
内优化,也就是说使得该势函数在每个
Figure 60157DEST_PATH_IMAGE049
上都是严格凹的。每个
Figure DEST_PATH_IMAGE050
都对应于一个控制场景。例如,
Figure 10795DEST_PATH_IMAGE051
包含其中第一车辆201在第二车辆202后面切入车道的所有行动序列,而且
Figure DEST_PATH_IMAGE052
包含其中第一车辆201在第二车辆202之后切入车道的所有行动序列。
在这种情况下,针对每个控制场景都可以通过该势函数关于所属的
Figure 158880DEST_PATH_IMAGE050
的优化、也就是说从
Figure 714626DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE054
的argmax来找到局部纳什均衡。
在下文中,描述了一种神经网络,该神经网络包含层(称为“博弈论层”),该层通过搜索该势函数的最优值来确定共同轨迹。
图3示出了机器控制模型300。
控制模型300例如是总神经网络并且由控制装置、例如控制装置107来实现。
控制模型300具有偏好确定NN 301、均衡细化NN 302、优化层303(也称为博弈论层)以及控制层304。
控制模型300的输入是硬件代理(例如车辆201、202)的先前的共同轨迹,优化层303的输出是这些硬件代理的一个或多个将来的共同轨迹(例如每个控制场景的共同轨迹,必要时配备有概率)。控制层304可以从一个或多个硬件代理的将来的共同轨迹导出控制指令,即使得所要控制的硬件代理遵循其单独轨迹,该单独轨迹是将来的共同轨迹的部分。
偏好确定NN 301是神经网络,该神经网络根据这些硬件代理的先前的共同轨迹来确定博弈的参数
Figure DEST_PATH_IMAGE056
的值并且由此确定该势函数的参数的值。参数
Figure DEST_PATH_IMAGE056A
对这些硬件代理的偏好进行编码,如从先前的共同轨迹可见。这例如是所希望的速度、所允许的加速度(或针对加速度的惩罚)、越过车道边界的惩罚、对中间车道的偏好等等。偏好确定NN 301可以是全连接神经网络(英文fully connected neural network,例如具有分别带16个神经元的两个全连接隐藏层)、LSTM-NN(长短期记忆NN)、卷积网络等等。
均衡细化NN 302是神经网络,该神经网络确定关于这些控制场景(即关于
Figure 578546DEST_PATH_IMAGE057
)并且由此关于博弈的纳什均衡的概率分布,也就是说为每个
Figure DEST_PATH_IMAGE058
分配概率
Figure 16480DEST_PATH_IMAGE019
。在使用该概率分布的情况下,后续层可显著减少必须被研究或分析的纳什均衡的数目,以便预测共同轨迹,其方式是例如只采纳最可能的控制场景。这样,在一个简单的实施方式中,均衡细化NN 302也可仅确定该最可能的控制场景。均衡细化NN 302也可以被划分成两个神经网络,这两个神经网络中,一个神经网络确定控制场景并且一个神经网络确定其概率分布。
均衡细化NN 302可以被实现为分类NN(例如具有带64个神经元和例如丢弃(Dropout)的全连接层,以便在多次遍历期间产生结果的概率分布),该分类NN对这些硬件代理的先前的共同轨迹在如下意义上进行分类,即该分类NN给这些硬件代理分配一个控制场景(或多个控制场景,分别具有概率,例如Softmax值),也即“分类”到控制场景。
图4示出了针对图2的交通情况的两个控制场景401、402。
在第一控制场景401中,第一车辆201在第二车辆202之后变换到高速公路的右侧车道上,并且在第二控制场景中,第一车辆201在第二车辆202之前变换到高速公路的右侧车道上。对于这两个控制场景中的每个控制场景来说,都存在相应的局部纳什均衡。
优化层303获得参数值(偏好确定NN 301的输出)作为输入并且针对每个控制场景(例如针对一个或多个最可能的控制场景)通过如上所述的那样优化该势函数来计算针对该控制场景的纳什均衡,如由均衡细化NN 302所输出的那样。优化层303的输出是这些控制场景的第k个控制场景的共同轨迹(例如以共同行动序列
Figure 437097DEST_PATH_IMAGE059
的形式来给出)。优化层303可以例如借助于比如L-BFGS(Limited Memory Broyden-Fletcher-Goldfarb-Shanno(有限存储Broyden-Fletcher-Goldfarb-Shanno))那样的拟牛顿法来搜索关于该控制场景
Figure DEST_PATH_IMAGE060
(也就是说关于在该控制场景
Figure 50612DEST_PATH_IMAGE061
中的共同行动序列)的势函数的最优值。由于在子空间
Figure 164062DEST_PATH_IMAGE060
上的势函数的凹性,这是可能的。
针对所要控制的硬件代理,控制层304从控制场景的共同轨迹提取属于该硬件代理的轨迹(也就是说行动序列),并且针对所要控制的硬件代理产生相对应的控制指令,也就是说针对该行动序列的每个行动都产生一个或多个控制指令,所述控制指令引起:所要控制的硬件代理实施该行动,例如相对应的执行器(发动机、制动器)相对应地被激活。在多个控制场景的情况下,控制层304可以选择一个控制场景,例如最可能的控制场景,该最可能的控制场景具有最低成本(或最高收益)或者这些标准的组合(例如加权和)。
硬件代理可以是完全或部分自动化的。例如,车辆可以完全自主地被控制或者驾驶员可以被辅助(诸如在驻车辅助的情况下进行转向移动时)。
为了对控制模型300进行训练,偏好确定NN 301和均衡细化NN 302的权重被适配。这例如可以以针对均衡细化NN 302和偏好确定NN 301的两个分开的训练过程来进行:
例如使用具有训练数据要素的训练数据集,这些训练数据要素中的每个都包含先前的共同轨迹和所属的纳什均衡(也就是说将来的共同轨迹)。这些训练数据要素可以通过(例如借助于无人机拍摄)模拟和/或演示、也就是说记录由人类或其它控制装置实行的真实控制过程(例如车辆控制过程)来被获得。可被使用的训练数据集的示例是“highD”数据集。
接着,均衡细化NN 302的权重通过监督学习来被训练为使得均衡细化NN 302针对先前的共同轨迹来尽可能好地预测预先给定的纳什均衡(也就是说基本事实纳什均衡),例如如针对这种形式的监督学习通常借助于反向传播来尽可能好地预测预先给定的纳什均衡。
为了对偏好确定NN 301进行训练,在优化层303的输出上的损失被限定,例如所预测的共同轨迹相对于来自相应的训练数据要素中的共同轨迹而言的均方误差或绝对误差。该损失可以通过优化层303来被反向传播,并且偏好确定NN 301的权重可以被训练为使得该损失在优化层303的输出端处被最小化。
如果将通过优化层303所计算的函数写成
Figure DEST_PATH_IMAGE062
,其中
Figure DEST_PATH_IMAGE064
如上是控制场景的索引,则可以针对反向传播在
Figure 712462DEST_PATH_IMAGE065
处使用梯度
Figure DEST_PATH_IMAGE066
其中
Figure 936769DEST_PATH_IMAGE067
和H表示梯度、Jacobi矩阵或Hesse矩阵。
概况来说,按照不同的实施方式,提供了如在图4中示出的方法。
图5示出了流程图500,该流程图阐明了用于在具有多个硬件代理的控制情况下控制一个(或多个)硬件代理的方法。
该方法具有如下步骤:
在501中,确定如下信息,这些信息表征和/或影响所述多个硬件代理的行为和/或该控制情况;
在502中,通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第一神经网络来确定势函数,该第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来输出势函数的参数值,其中该势函数给分别对于每个硬件代理来说具有在该控制情况中的行动序列的共同行动序列分别分配潜在值,所述潜在值表征这些硬件代理从在该控制情况中的相应的共同行动序列中所具有的收益;
在503中,通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对所述控制情况的控制场景,该第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来针对该控制情况从所述多个可能的控制场景中确定控制场景,其中每个控制场景都包含这些硬件代理的可能的共同行动序列的集合;而且
在504中,通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列;而且
在505中,按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。
“硬件代理”可以被理解成任何(具有其运动被控制的机械部分的)物理***,如机器人(例如机器人臂)、计算机控制的机器、车辆、家用电器、电动工具、生产机器、个人助理或门禁***。
第一神经网络和/或第二神经网络可以处理不同类型的传感器数据,例如像视频、雷达、激光雷达(LiDAR)、超声、移动、声音、热成像等等那样的不同传感器的传感器数据。除了先前的轨迹之外,这些信息可以被输送给偏好确定NN和均衡细化NN作为输入。先前的轨迹例如以一个或多个多元时间序列的形式被给予这些神经网络,所述多元时间序列包含每个硬件代理在(其中给出先前的轨迹的时间网格的)每个时间点的状态(例如位置)。
按照实施方式,该方法是计算机实现的。
尽管本发明主要是在参考特定实施方式的情况下被展示和描述的,但是本领域技术人员应该理解:可以在不脱离本发明的如通过随后的权利要求书限定的本质和范围的情况下关于其设计方案和细节进行大量更改。因而,本发明的范围通过随附的权利要求书来被确定,而且意图涵盖落入权利要求书的字面含义或等效范围的全部更改。

Claims (11)

1.用于在具有多个硬件代理的控制情况下控制硬件代理的方法,所述方法具有:
确定表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息;
通过将表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息输送到第一神经网络来确定势函数,所述第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或所述控制情况的信息来输出势函数的参数值,其中所述势函数给分别对于每个硬件代理来说具有在该控制情况中的行动序列的共同行动序列分别分配潜在值,所述潜在值表征这些硬件代理从在所述控制情况中的相应的共同行动序列中所具有的收益;
通过将表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对所述控制情况的控制场景,所述第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或所述控制情况的信息来针对所述控制情况从所述多个可能的控制场景中确定一个或多个控制场景,其中每个控制场景都包含所述硬件代理的可能的共同行动序列的集合;
通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列;而且
按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。
2.根据权利要求1所述的方法,所述方法具有:
根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景,并且针对每个所确定的控制场景,确定所确定的控制场景的概率值;
从所确定的控制场景中选择其概率值在所确定的控制场景中最高的一个或多个控制场景;
针对每个所选择的控制场景,通过搜索关于所选择的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列;
而且
按照所确定的共同行动序列之一来控制所述至少一个硬件代理。
3.根据权利要求1或2所述的方法,所述方法具有:
根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景,并且针对每个所确定的控制场景,确定所确定的控制场景的概率;
针对每个所确定的控制场景,通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列;
从所确定的行动序列中选择共同行动序列,使得取决于概率和/或收益的目标函数通过关于所确定的行动序列的所选择的行动序列来被最大化;而且
按照所选择的共同行动序列来控制所述至少一个硬件代理。
4.根据权利要求1至3中任一项所述的方法,所述方法还具有:根据关于所述硬件代理的附加的先验知识,确定所述势函数的说明所述硬件代理的控制偏好的附加参数值;并且根据由所述第一神经网络输出的参数值和所述附加参数值来确定所述势函数。
5.根据权利要求1至4中任一项所述的方法,所述方法具有:确定所述可能的控制场景,使得对于每个控制场景来说,所述势函数在针对所述控制场景所包含的硬件代理的可能的共同行动序列集合上是凹的或者凸的。
6.根据权利要求1至5中任一项所述的方法,所述方法具有:
通过利用具有多个第一训练数据要素的第一训练数据进行监督学习来训练所述第一神经网络,其中每个第一训练数据要素都具有表征和/或影响多个硬件代理的行为和/或所述控制情况的信息以及针对共同行动序列的基本事实;而且
通过利用具有多个第二训练数据要素的第二训练数据进行监督学习来训练所述第二神经网络,其中每个第二训练数据要素都具有表征和/或影响多个硬件代理的行为和/或所述控制情况的信息以及针对所述控制场景的基本事实。
7.根据权利要求6所述的方法,其中对所述第一神经网络的训练具有确定与该势函数的参数相关的损失函数的梯度,其方式是确定从势函数到通过搜索局部最优值来实现的共同行动序列的映射的梯度。
8.根据权利要求1至7中任一项所述的方法,其中表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息说明了所述多个硬件代理的先前的移动轨迹。
9.用于控制硬件代理的设备,所述设备被设立为实施根据权利要求1至8中任一项所述的方法。
10.计算机程序,其具有程序指令,当所述程序指令由一个或多个处理器来实施时,所述程序指令使所述一个或多个处理器执行根据权利要求1至8中任一项所述的方法。
11.计算机可读存储介质,在其上存储有程序指令,当所述程序指令由一个或多个处理器来实施时,所述程序指令使所述一个或多个处理器执行根据权利要求1至8中任一项所述的方法。
CN202110928604.2A 2020-08-14 2021-08-13 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法 Pending CN114077242A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020210376.3 2020-08-14
DE102020210376.3A DE102020210376A1 (de) 2020-08-14 2020-08-14 Vorrichtung und Verfahren zum Steuern eines Hardware-Agenten in einer Steuersituation mit mehreren Hardware-Agenten

Publications (1)

Publication Number Publication Date
CN114077242A true CN114077242A (zh) 2022-02-22

Family

ID=80000411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928604.2A Pending CN114077242A (zh) 2020-08-14 2021-08-13 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法

Country Status (3)

Country Link
US (1) US20220048527A1 (zh)
CN (1) CN114077242A (zh)
DE (1) DE102020210376A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11975736B2 (en) * 2020-08-27 2024-05-07 Ford Global Technologies, Llc Vehicle path planning
US20230406345A1 (en) * 2022-06-17 2023-12-21 Baidu Usa Llc Distributional expert demonstrations for autonomous driving

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3995782A1 (en) * 2016-01-05 2022-05-11 Mobileye Vision Technologies Ltd. Systems and methods for estimating future paths
US11067995B2 (en) * 2017-03-20 2021-07-20 Mobileye Vision Technologies Ltd. Navigation by augmented path prediction
US11684886B1 (en) * 2017-06-23 2023-06-27 AI Incorporated Vibrating air filter for robotic vacuums
US20200174490A1 (en) * 2017-07-27 2020-06-04 Waymo Llc Neural networks for vehicle trajectory planning
DE112019000065T5 (de) * 2018-02-02 2020-03-05 Nvidia Corporation Sicherheitsprozeduranalyse zur hindernisvermeidung in einem autonomen fahrzeug
US11077845B2 (en) 2018-03-20 2021-08-03 Mobileye Vision Technologies Ltd. Systems and methods for navigating a vehicle
CN111328411B (zh) * 2018-09-28 2022-11-29 百度时代网络技术(北京)有限公司 用于自动驾驶车辆的行人概率预测***
US11900797B2 (en) * 2018-10-16 2024-02-13 Five AI Limited Autonomous vehicle planning
US11679760B2 (en) * 2018-12-10 2023-06-20 Mobileye Vision Technologies Ltd. Navigation in vehicle crossing scenarios
US10627823B1 (en) * 2019-01-30 2020-04-21 StradVision, Inc. Method and device for performing multiple agent sensor fusion in cooperative driving based on reinforcement learning
US11126179B2 (en) * 2019-02-21 2021-09-21 Zoox, Inc. Motion prediction based on appearance
US20200406894A1 (en) * 2019-06-28 2020-12-31 Zoox, Inc. System and method for determining a target vehicle speed
US11645518B2 (en) * 2019-10-07 2023-05-09 Waymo Llc Multi-agent simulations
US11100344B2 (en) * 2019-11-21 2021-08-24 GM Global Technology Operations LLC Image-based three-dimensional lane detection
US20210197720A1 (en) * 2019-12-27 2021-07-01 Lyft, Inc. Systems and methods for incident detection using inference models
US20210197813A1 (en) * 2019-12-27 2021-07-01 Lyft, Inc. Systems and methods for appropriate speed inference
DE102020112899A1 (de) * 2020-05-13 2021-11-18 Audi Aktiengesellschaft Verfahren und System zur vollständig automatischen Führung eines Kraftfahrzeugs und Kraftfahrzeug
US11878682B2 (en) * 2020-06-08 2024-01-23 Nvidia Corporation Path planning and control to account for position uncertainty for autonomous machine applications
US11433923B2 (en) * 2020-06-10 2022-09-06 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for long-term prediction of lane change maneuver
US11644835B2 (en) * 2020-07-29 2023-05-09 Toyota Research Institute, Inc. Game-theoretic planning for risk-aware interactive agents
US11783178B2 (en) * 2020-07-30 2023-10-10 Toyota Research Institute, Inc. Systems and methods for corridor intent prediction

Also Published As

Publication number Publication date
DE102020210376A1 (de) 2022-02-17
US20220048527A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US11726477B2 (en) Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout
Liang et al. Cirl: Controllable imitative reinforcement learning for vision-based self-driving
Bhattacharyya et al. Modeling human driving behavior through generative adversarial imitation learning
US11480972B2 (en) Hybrid reinforcement learning for autonomous driving
Lee et al. Deep learning and control algorithms of direct perception for autonomous driving
WO2021178299A1 (en) Multi-agent trajectory prediction
Yoganandhan et al. Fundamentals and development of self-driving cars
US11514363B2 (en) Using a recursive reinforcement model to determine an agent action
US11960292B2 (en) Method and system for developing autonomous vehicle training simulations
CN110941272A (zh) 自动驾驶控制方法和设备
CN114077242A (zh) 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法
Hu et al. Vehicle trajectory prediction considering aleatoric uncertainty
Azam et al. N 2 C: neural network controller design using behavioral cloning
Ashwin et al. Deep reinforcement learning for autonomous vehicles: lane keep and overtaking scenarios with collision avoidance
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
Rezaei et al. Mobile robot monocular vision-based obstacle avoidance algorithm using a deep neural network
Li et al. A platform-agnostic deep reinforcement learning framework for effective sim2real transfer in autonomous driving
WO2023242223A1 (en) Motion prediction for mobile agents
Sukthankar et al. Evolving an intelligent vehicle for tactical reasoning in traffic
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios
US20230070734A1 (en) Method and system for configuring variations in autonomous vehicle training simulations
CN115731531A (zh) 对象轨迹预测
WO2021160273A1 (en) Computing system and method using end-to-end modeling for a simulated traffic agent in a simulation environment
Wang et al. An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle
US20230030474A1 (en) Method and system for developing autonomous vehicle training simulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination