CN114077242A

CN114077242A - 用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法

Info

Publication number: CN114077242A
Application number: CN202110928604.2A
Authority: CN
Inventors: P·盖格尔; C-N·斯泰勒
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-08-14
Filing date: 2021-08-13
Publication date: 2022-02-22
Also published as: DE102020210376A1; US20220048527A1

Abstract

用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法。按照不同的实施方式，描述了一种方法，该方法具有：通过第一神经网络来确定势函数；通过第二神经网络从多个可能的控制场景中确定针对控制情况的一个控制场景；通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列；而且按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。

Description

用于在具有多个硬件代理的控制情况下控制硬件代理的设备和方法

技术领域

不同实施例一般性地涉及用于在具有多个硬件代理的控制情况下控制一个（或多个）硬件代理的设备和方法。

背景技术

近年来，自主驾驶已成为研究界和公众都非常感兴趣的话题。自主车辆不仅在经济上而且对于改善机动可能性并且潜在减少碳排放来说都有巨大潜力。与任何控制一样，自主驾驶包含在相应的控制情况下做出决策。在控制情况下，特别是在自主驾驶中通常有多个车辆参与，并且车辆应该执行的行动取决于一个或多个其它车辆执行哪些行动。换言之，存在多个交互代理，并且值得期望的是：找到针对所要控制的代理（“自我代理”）的控制，该控制一并考虑其它代理的目标是什么以及这些其它代理基于此将如何表现（在假设这些其它代理的一种理性的情况下）；并且基于此来找到对自我代理的控制，该控制使该自我代理的收益最大化并且相对于这些其它代理（例如其它车辆）的行为而言是稳健的。由于所有代理都有多个行动可用并且例如在道路交通中必须实时地产生相对应的控制指令，所以用于在具有多个硬件代理（例如车辆）的控制情况下控制硬件代理的高效方法是值的期望的。

发明内容

按照不同的实施方式，提供一种用于在具有多个硬件代理的控制情况下控制硬件代理的方法，该方法具有：确定表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息；通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第一神经网络来确定势函数，该第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来输出势函数的参数值，其中该势函数给分别对于每个硬件代理来说在该控制情况下具有行动序列的共同行动序列分别分配潜在值，该潜在值表征这些硬件代理从在该控制情况下的相应的共同行动序列中所具有的收益；通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对该控制情况的控制场景，该第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来针对该控制情况从所述多个可能的控制场景中确定一个或多个控制场景，其中每个控制场景都包含这些硬件代理的可能的共同行动序列的集合；通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列；而且

按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。

该潜在值表征这些硬件代理的收益值、也就是说尤其是偏好。

上述方法使得能够确定多个可移动设备、例如硬件代理、例如多个车辆的（将来的）共同轨迹，这些轨迹一并考虑其它代理的目标是什么以及这些其它代理基于此将如何表现。接着，这些所确定的共同轨迹例如不仅可以被用于控制单个（或多个）代理而且可以被用于对所有代理的纯预测。这例如是驾驶员辅助***和自动驾驶车辆的重要子任务，但是也可以被应用于具有不是交通成员的多个交互设备（在控制上下文中也称为代理）的其它控制情况。

清楚地，博弈论（spieltheoretisch）层被***到神经网络中，该博弈论层对可移动或移动设备的将来的轨迹进行预测。这尤其意味着：通过确定（局部）纳什均衡来预测将来的轨迹（这些轨迹通过行动序列来给出）。博弈（Spiel）具有由神经网络根据表征或影响所述多个硬件代理的行为和/或该控制情况的信息、例如先前观察到的参与的硬件代理（例如车辆）的轨迹所预测的参数。博弈论层可以被设计为使得该博弈论层可微，这能够实现对总网络的高效的基于梯度的端到端训练，尽管博弈论层被设立用于求解优化问题（并且因此是隐含层，其中输入与输出之间的关系没有明确地作为简单函数来给出，而是只例如借助于一个等式来给出）。该博弈（以及因此尤其是该博弈的参数）描述了代理的目标或收益函数，并且可以在某些假设（详情如下）下通过上文已经提到的势函数来被表征。

该控制情况可包含具有多个任务的多个代理，例如用于分发种子的机器人和用于浇水的机器人。在这种情况下，表征或影响所述多个硬件代理的行为和/或该控制情况的信息可以是关于这些任务（例如种子分发、浇水）的信息。

信息例如也可以是：是否正在下雨（这改变了该控制情况以及这些代理的行为，例如浇水机器人接着将更少浇水或者完全不浇水）。在交通情况下，这些信息也可包含车辆的类型，例如载货车（LKW）（行驶和加速较慢）或者跑车（行驶和加速较快）。

这些信息也可以是传感器数据，根据这些传感器数据可以导出该行为和/或该控制情况（也就是说这些传感器数据表示该行为或该控制情况）。

博弈参数的值由第一神经网络（NN）根据这些信息来确定，该第一神经网络在不同实施方式中被称作偏好确定NN。由该NN输出的中间表示可以被检查（例如检查是否一致，例如与先验知识的一致），因为该中间表示是可解释的并且对应于这些硬件代理（也就是说代理）的偏好。

关于这些硬件代理的偏好的先验知识可以被编码到博弈中，使得所预测的行动（尤其是所确定的用于控制至少一个硬件代理的行动序列）与该先验知识一致。

第一神经网络可以被设计为使得该第一神经网络的输出、也就是说该中间表示是低维的。这尤其使得能够利用低数据量来进行训练。

在不同实施方式中被称作均衡细化NN的第二神经网络使博弈论层易于操作（英文tractable，也就是说实际可实现）。按照一个实施方式，该博弈论层的输出尤其减少了必须被评估或必须被求解的纳什均衡候选者的数目。

每个所预测的共同轨迹（也就是说轨迹组，针对每个硬件代理都有一个）通过该博弈的纳什均衡来给出。因此，这些硬件代理的轨迹是一致的，这些轨迹对应于（近似）理性的（也就是说合理的）行为并且遵循编码在该博弈（也就是说势函数的参数）中的预先给定的条件（例如偏好）。

在下文说明了不同的实施例。

实施例1是一种如上所述的用于在具有多个硬件代理的控制情况下控制硬件代理的方法。

实施例2是根据实施例1所述的方法，该方法具有：根据所述多个可能的控制场景来确定针对该控制情况的多个控制场景，并且针对每个所确定的控制场景，确定所确定的控制场景的概率值；

从所确定的控制场景中选择其概率值在所确定的控制场景中最高的一个或多个控制场景；

针对每个所选择的控制场景，通过搜索关于所选择的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列；

而且

按照所确定的共同行动序列来控制该至少一个硬件代理。

控制场景的概率值表示该控制场景的概率，但是该概率值不一定需要在0与1之间，也就是说概率值可以任意缩放。通过选择其概率值最高的控制场景（也就是说清楚地是控制变体或选项），针对其来确定共同行动序列的控制场景的数目被减少。这降低了复杂性并且例如能够实现针对实时控制、例如在车辆中的实时控制的（切合实际的）实际实现。

实施例3是根据实施例1或2所述的方法，该方法具有：

根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景，并且针对每个所确定的控制场景，确定所确定的控制场景的概率；针对每个所确定的控制场景，通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列；从所确定的行动序列中选择共同行动序列，使得取决于概率和/或收益的目标函数通过关于所确定的行动序列的所选择的行动序列来被优化；而且按照所选择的共同行动序列来控制该至少一个硬件代理。目标函数例如是通过预先给定的权重来加权的概率和收益之和。也可以使用像遵守交通规则那样的标准来选择共同行动序列。收益尤其可包含质量的量度和成本的量度（例如负加权，因为这些成本应该尽可能低）。

在考虑概率和收益的情况下选择共同行动序列允许高效的控制。

实施例4是根据实施例1至3中任一项所述的方法，该方法还具有：根据关于这些硬件代理的附加的先验知识，确定该势函数的说明这些硬件代理的控制偏好的附加参数值；并且根据由该第一神经网络输出的参数值和这些附加参数值来确定该势函数。

以这种方式，先验知识可以一并流入到控制中并且尤其是提供按照偏好来使该控制适配的可能性。这也能被理解成约束条件，诸如限速。例如，也可以输送关于道路几何图形、环境地图等等的信息。

实施例5是根据实施例1至4中任一项所述的方法，该方法具有：确定所述可能的控制场景，使得对于每个控制场景来说，该势函数在针对该控制场景所包含的硬件代理的可能的共同行动序列集合上是凹的（如果收益被最大化）或者凸的（如果成本被最小化）。

由此确保了：针对每个控制场景都可以执行对势函数的最优值的高效搜索，这例如使实时控制实际可实现（例如在预先给定的供支配的硬件的情况下）。

实施例6是根据实施例1至5中任一项所述的方法，该方法具有：通过利用具有多个第一训练数据要素的第一训练数据进行监督学习来训练该第一神经网络，其中每个第一训练数据要素都具有表征和/或影响多个硬件代理的行为和/或该控制情况的信息以及针对共同（将来）行动序列的基本事实（英文ground truth）；而且通过利用具有多个第二训练数据要素的第二训练数据进行监督学习来训练该第二神经网络，其中每个第二训练数据要素都具有表征和/或影响多个硬件代理的行为和/或该控制情况的信息以及针对该控制场景的基本事实。

以这种方式，这两个神经网络可以彼此独立地被训练，这能够实现对总网络的高效训练。

实施例7是根据实施例6所述的方法，其中对该第一神经网络的训练具有确定与该势函数的参数相关的损失函数的梯度，其方式是（例如解析式地）确定从势函数到通过搜索局部最优值来实现的共同行动序列（换言之从该势函数的参数值到共同行动序列）的映射的梯度。

尽管优化层（搜索最优值）包含隐含层，这仍能够实现高效的训练。

实施例8是根据实施例1至7中任一项所述的方法，其中表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息说明了所述多个硬件代理的先前的移动轨迹。

先前的移动轨迹是获得关于代理的行为（尤其是偏好和将来所要预期的行为）的信息的高效途径。

实施例9是一种用于控制硬件代理的设备，该设备被设立为实施根据实施例1至8中任一项所述的方法。

实施例10是一种计算机程序，其具有程序指令，当这些程序指令由一个或多个处理器来实施时，这些程序指令使所述一个或多个处理器执行根据实施例1至8中任一项所述的方法。

实施例11是一种计算机可读存储介质，在其上存储有程序指令，当这些程序指令由一个或多个处理器来实施时，这些程序指令使所述一个或多个处理器执行根据实施例1至8中任一项所述的方法。

附图说明

本发明的实施例在附图中被示出并且在下文详细地予以阐述。在附图中，相同的附图标记在多个视图中各处通常都涉及相同的部分。这些附图不一定比例正确，其中重点反而通常在于呈现本发明的原理。

图1示出了按照实施方式的车辆。

图2示出了具有两个车辆的交通情况作为示例。

图3示出了机器控制模型。

图4示出了针对图2的交通情况的两个控制场景。

图5示出了流程图，该流程图阐明了用于在具有多个硬件代理的控制情况下控制硬件代理的方法。

具体实施方式

不同的实施方式、尤其是下文描述的实施例可以借助于一个或多个电路来被实现。在一个实施方式中，“电路”可以被理解为任何类型的逻辑实现实体，该逻辑实现实体可以是硬件、软件、固件或它们的组合。因而，在一个实施方式中，“电路”可以是硬接线逻辑电路或可编程逻辑电路，诸如可编程处理器、例如微处理器。“电路”也可以是由处理器实现或实施的软件、例如任何类型的计算机程序。根据一个替选的实施方式，相应的功能的任何其它类型的实现方案都可以被理解为“电路”，这些相应的功能在下文更详细地予以描述。

图1示出了车辆101。

在图1的示例中，车辆101、例如载客车（PKW）或载货车（LKW）配备有车辆控制装置102。

车辆控制装置102具有数据处理组件，例如处理器（例如CPU（中央单元））103和存储器104，该存储器用于存储车辆控制装置102按照其来工作的控制软件和由处理器103来处理的数据。

例如，所存储的控制软件（计算机程序）具有命令，当处理器实施这些命令时，这些命令引起：处理器103实现一个或多个神经网络107。

存储在存储器104中的数据例如可包含由一个或多个摄像机105所检测到的图像数据。所述一个或多个摄像机105例如可以拍摄车辆101的周围环境的一张或多张灰度或彩色照片。

车辆控制装置102可以对图像数据进行研究并且按照结果来控制车辆101。这样，车辆控制装置102例如可以控制执行器106（例如制动器），以便控制车辆的速度，例如以便使车辆制动。

车辆控制装置102可以在使用图像数据（或者还有其它信息源、如其它类型的传感器或者车辆-车辆通信的数据）的情况下探测在车辆101周围的对象、尤其是其它车辆。

接着，车辆控制装置102必须决定该车辆控制装置如何控制车辆101。为此，车辆控制装置102可以预测一个或多个其它对象、例如一个或多个其它车辆朝向哪里移动。所述一个或多个其它车辆的一个或多个轨迹与自己的轨迹（也就是说车辆101的轨迹）一起形成共同轨迹。

图2示出了具有两个车辆的交通情况200作为示例。

在交通情况200中，例如对应于车辆101的第一车辆201行驶到高速公路上。第二车辆202（从第一车辆201的角度是“其它车辆”）已经位于高速公路的右侧车道204上。第一车辆201首先位于加速车道203上，并且车辆控制装置102的任务是：控制第一车辆201，使得该第一车辆变换到高速公路的右侧车道204上，其中应考虑某些条件（也称作偏好），如距第二车辆的距离太小（尤其是避免事故）、加速度不太高、速度不太低等等。

从交通情况200（如图2中所示）在时间点t = 0的开始直至该交通情况在时间点t= T（例如当两个车辆201、202都在高速公路上行驶时）的结束，两个车辆都遵循相应的轨迹。这两条轨迹共同形成“共同”轨迹。

在一般情况下，在控制情况下存在代理的集合

。这些代理可以是车辆并且该控制情况可以是交通情况，但是其它应用也是可能的，例如该控制情况可包含在公司中共同加工的产品的多个机器人臂。在这种情况下，也应该避免机器人臂之间的碰撞并且遵守其它条件（例如对产品的快速加工和与此相对应地机器人臂的非活动阶段少）。另一应用示例是对在工厂车间中巡回行驶以便例如分发材料的移动机器人的控制。这些机器人有时在人类也走动的区域内行驶。为此，还重要的是：预测人类的轨迹，并且最终确定对于这些机器人来说良好的轨迹。

每个代理

在任何时间

都具有单独的状态

。代理的状态序列一起得出该代理的（单独的）轨迹

。这些代理的轨迹一起形成这些代理的共同轨迹

。该共同轨迹应该针对

来被预测，因此该共同轨迹也被称作将来的共同轨迹。

假设：先前的共同轨迹x（该共同轨迹例如直至时间点t = 0）供支配，例如通过车辆201、202之间的通信或者还有相互观察来供支配。替选于先前的共同轨迹，也可以使用诸如传感器数据那样的信息，根据这些信息可以到处行为和/或控制情况（也就是说这些信息表示该行为或该控制情况）。

第i个代理的轨迹

应通过向量

来被确定，该向量被称作代理i的行动序列，其中

是行动序列（也就是说可能的行动的组合）的空间。相对应地，该共同轨迹通过参数化

来给出，其中

是共同行动序列的空间。行动序列不一定需要单独操作的序列，该行动序列例如也可在于以恒定速度来行驶。那么，行动序列的行动（也就是说在所有时间点）都是相同的，即以该（恒定）速度行驶。

在下文中，

表示第i个分量被忽略，也就是说

。

预测可包含具有相应的概率

的多个预测轨迹

。每个预测轨迹

例如都可对应于具有索引k的控制场景（换言之控制选项或控制可能性）。例如，预测轨迹之一

对应于第一车辆201在第二车辆202之前行驶到高速公路上的控制场景，并且第二预测轨迹

对应于第一车辆201在第二车辆202之后行驶到高速公路上的控制场景。

在博弈论的意义上，该控制情况可以被视为“博弈”。博弈包含代理（“博弈方”）的集合、这些代理的可能的行动和这些代理的收益函数。

在下文中，（轨迹）博弈被理解为其中对于每个代理来说都存在形式

的收益函数

的博弈，其中

是代理i的每个时间步长（长度Δ）的收益函数

μ是时间的量度

而且其中

=

。

如果存在开集

，则局部纳什均衡是共同行动序列

，使得针对每个代理i都适用

并且针对每个

适用

。

如果存在所谓的势函数（在下文也称作收益-势函数）

，则博弈叫做（精确连续）势博弈，使得

适用于所有代理i、所有行动序列

和其余的行动序列

。

例如，如下函数被用作每个时间步长的收益函数：

其中

是取决于共同轨迹并且对于所有代理来说都是共同的项，而且

是只取决于第i个代理的轨迹并且可因代理而异的项，而且

是只取决于除了第i个代理之外的代理的轨迹并且可因代理而异的项。

在这种情况下，可以使用函数

作为势函数。

参数向量

包含博弈的参数以及因此该势函数的值。该参数向量表示这些代理的偏好。

按照不同的实施方式，通过该势函数不是在整个行动序列空间A内优化，而是在子空间

的族

内优化，也就是说使得该势函数在每个

上都是严格凹的。每个

都对应于一个控制场景。例如，

包含其中第一车辆201在第二车辆202后面切入车道的所有行动序列，而且

包含其中第一车辆201在第二车辆202之后切入车道的所有行动序列。

在这种情况下，针对每个控制场景都可以通过该势函数关于所属的

的优化、也就是说从

到

的argmax来找到局部纳什均衡。

在下文中，描述了一种神经网络，该神经网络包含层（称为“博弈论层”），该层通过搜索该势函数的最优值来确定共同轨迹。

图3示出了机器控制模型300。

控制模型300例如是总神经网络并且由控制装置、例如控制装置107来实现。

控制模型300具有偏好确定NN 301、均衡细化NN 302、优化层303（也称为博弈论层）以及控制层304。

控制模型300的输入是硬件代理（例如车辆201、202）的先前的共同轨迹，优化层303的输出是这些硬件代理的一个或多个将来的共同轨迹（例如每个控制场景的共同轨迹，必要时配备有概率）。控制层304可以从一个或多个硬件代理的将来的共同轨迹导出控制指令，即使得所要控制的硬件代理遵循其单独轨迹，该单独轨迹是将来的共同轨迹的部分。

偏好确定NN 301是神经网络，该神经网络根据这些硬件代理的先前的共同轨迹来确定博弈的参数

的值并且由此确定该势函数的参数的值。参数

对这些硬件代理的偏好进行编码，如从先前的共同轨迹可见。这例如是所希望的速度、所允许的加速度（或针对加速度的惩罚）、越过车道边界的惩罚、对中间车道的偏好等等。偏好确定NN 301可以是全连接神经网络（英文fully connected neural network，例如具有分别带16个神经元的两个全连接隐藏层）、LSTM-NN（长短期记忆NN）、卷积网络等等。

均衡细化NN 302是神经网络，该神经网络确定关于这些控制场景（即关于

）并且由此关于博弈的纳什均衡的概率分布，也就是说为每个

分配概率

。在使用该概率分布的情况下，后续层可显著减少必须被研究或分析的纳什均衡的数目，以便预测共同轨迹，其方式是例如只采纳最可能的控制场景。这样，在一个简单的实施方式中，均衡细化NN 302也可仅确定该最可能的控制场景。均衡细化NN 302也可以被划分成两个神经网络，这两个神经网络中，一个神经网络确定控制场景并且一个神经网络确定其概率分布。

均衡细化NN 302可以被实现为分类NN（例如具有带64个神经元和例如丢弃（Dropout）的全连接层，以便在多次遍历期间产生结果的概率分布），该分类NN对这些硬件代理的先前的共同轨迹在如下意义上进行分类，即该分类NN给这些硬件代理分配一个控制场景（或多个控制场景，分别具有概率，例如Softmax值），也即“分类”到控制场景。

图4示出了针对图2的交通情况的两个控制场景401、402。

在第一控制场景401中，第一车辆201在第二车辆202之后变换到高速公路的右侧车道上，并且在第二控制场景中，第一车辆201在第二车辆202之前变换到高速公路的右侧车道上。对于这两个控制场景中的每个控制场景来说，都存在相应的局部纳什均衡。

优化层303获得参数值（偏好确定NN 301的输出）作为输入并且针对每个控制场景（例如针对一个或多个最可能的控制场景）通过如上所述的那样优化该势函数来计算针对该控制场景的纳什均衡，如由均衡细化NN 302所输出的那样。优化层303的输出是这些控制场景的第k个控制场景的共同轨迹（例如以共同行动序列

的形式来给出）。优化层303可以例如借助于比如L-BFGS（Limited Memory Broyden-Fletcher-Goldfarb-Shanno（有限存储Broyden-Fletcher-Goldfarb-Shanno））那样的拟牛顿法来搜索关于该控制场景

（也就是说关于在该控制场景

中的共同行动序列）的势函数的最优值。由于在子空间

上的势函数的凹性，这是可能的。

针对所要控制的硬件代理，控制层304从控制场景的共同轨迹提取属于该硬件代理的轨迹（也就是说行动序列），并且针对所要控制的硬件代理产生相对应的控制指令，也就是说针对该行动序列的每个行动都产生一个或多个控制指令，所述控制指令引起：所要控制的硬件代理实施该行动，例如相对应的执行器（发动机、制动器）相对应地被激活。在多个控制场景的情况下，控制层304可以选择一个控制场景，例如最可能的控制场景，该最可能的控制场景具有最低成本（或最高收益）或者这些标准的组合（例如加权和）。

硬件代理可以是完全或部分自动化的。例如，车辆可以完全自主地被控制或者驾驶员可以被辅助（诸如在驻车辅助的情况下进行转向移动时）。

为了对控制模型300进行训练，偏好确定NN 301和均衡细化NN 302的权重被适配。这例如可以以针对均衡细化NN 302和偏好确定NN 301的两个分开的训练过程来进行：

例如使用具有训练数据要素的训练数据集，这些训练数据要素中的每个都包含先前的共同轨迹和所属的纳什均衡（也就是说将来的共同轨迹）。这些训练数据要素可以通过（例如借助于无人机拍摄）模拟和/或演示、也就是说记录由人类或其它控制装置实行的真实控制过程（例如车辆控制过程）来被获得。可被使用的训练数据集的示例是“highD”数据集。

接着，均衡细化NN 302的权重通过监督学习来被训练为使得均衡细化NN 302针对先前的共同轨迹来尽可能好地预测预先给定的纳什均衡（也就是说基本事实纳什均衡），例如如针对这种形式的监督学习通常借助于反向传播来尽可能好地预测预先给定的纳什均衡。

为了对偏好确定NN 301进行训练，在优化层303的输出上的损失被限定，例如所预测的共同轨迹相对于来自相应的训练数据要素中的共同轨迹而言的均方误差或绝对误差。该损失可以通过优化层303来被反向传播，并且偏好确定NN 301的权重可以被训练为使得该损失在优化层303的输出端处被最小化。

如果将通过优化层303所计算的函数写成

，其中

如上是控制场景的索引，则可以针对反向传播在

处使用梯度

，

其中

和H表示梯度、Jacobi矩阵或Hesse矩阵。

概况来说，按照不同的实施方式，提供了如在图4中示出的方法。

图5示出了流程图500，该流程图阐明了用于在具有多个硬件代理的控制情况下控制一个（或多个）硬件代理的方法。

该方法具有如下步骤：

在501中，确定如下信息，这些信息表征和/或影响所述多个硬件代理的行为和/或该控制情况；

在502中，通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第一神经网络来确定势函数，该第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来输出势函数的参数值，其中该势函数给分别对于每个硬件代理来说具有在该控制情况中的行动序列的共同行动序列分别分配潜在值，所述潜在值表征这些硬件代理从在该控制情况中的相应的共同行动序列中所具有的收益；

在503中，通过将表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对所述控制情况的控制场景，该第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或该控制情况的信息来针对该控制情况从所述多个可能的控制场景中确定控制场景，其中每个控制场景都包含这些硬件代理的可能的共同行动序列的集合；而且

在504中，通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列；而且

在505中，按照所确定的共同行动序列来控制所述多个硬件代理中的至少一个硬件代理。

“硬件代理”可以被理解成任何（具有其运动被控制的机械部分的）物理***，如机器人（例如机器人臂）、计算机控制的机器、车辆、家用电器、电动工具、生产机器、个人助理或门禁***。

第一神经网络和/或第二神经网络可以处理不同类型的传感器数据，例如像视频、雷达、激光雷达（LiDAR）、超声、移动、声音、热成像等等那样的不同传感器的传感器数据。除了先前的轨迹之外，这些信息可以被输送给偏好确定NN和均衡细化NN作为输入。先前的轨迹例如以一个或多个多元时间序列的形式被给予这些神经网络，所述多元时间序列包含每个硬件代理在（其中给出先前的轨迹的时间网格的）每个时间点的状态（例如位置）。

按照实施方式，该方法是计算机实现的。

尽管本发明主要是在参考特定实施方式的情况下被展示和描述的，但是本领域技术人员应该理解：可以在不脱离本发明的如通过随后的权利要求书限定的本质和范围的情况下关于其设计方案和细节进行大量更改。因而，本发明的范围通过随附的权利要求书来被确定，而且意图涵盖落入权利要求书的字面含义或等效范围的全部更改。

Claims

1.用于在具有多个硬件代理的控制情况下控制硬件代理的方法，所述方法具有：

确定表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息；

通过将表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息输送到第一神经网络来确定势函数，所述第一神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或所述控制情况的信息来输出势函数的参数值，其中所述势函数给分别对于每个硬件代理来说具有在该控制情况中的行动序列的共同行动序列分别分配潜在值，所述潜在值表征这些硬件代理从在所述控制情况中的相应的共同行动序列中所具有的收益；

通过将表征和/或影响所述多个硬件代理的行为和/或所述控制情况的信息输送到第二神经网络来从多个可能的控制场景中确定针对所述控制情况的控制场景，所述第二神经网络被训练来根据表征和/或影响多个硬件代理的行为和/或所述控制情况的信息来针对所述控制情况从所述多个可能的控制场景中确定一个或多个控制场景，其中每个控制场景都包含所述硬件代理的可能的共同行动序列的集合；

通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列；而且

2.根据权利要求1所述的方法，所述方法具有：

根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景，并且针对每个所确定的控制场景，确定所确定的控制场景的概率值；

针对每个所选择的控制场景，通过搜索关于所选择的控制场景的可能的共同行动序列所确定的势函数的局部最优值来确定所述多个硬件代理的共同行动序列；

而且

按照所确定的共同行动序列之一来控制所述至少一个硬件代理。

3.根据权利要求1或2所述的方法，所述方法具有：

根据所述多个可能的控制场景来确定针对所述控制情况的多个控制场景，并且针对每个所确定的控制场景，确定所确定的控制场景的概率；

针对每个所确定的控制场景，通过搜索关于所确定的控制场景的可能的共同行动序列所确定的势函数的最优值来确定所述多个硬件代理的共同行动序列；

从所确定的行动序列中选择共同行动序列，使得取决于概率和/或收益的目标函数通过关于所确定的行动序列的所选择的行动序列来被最大化；而且

按照所选择的共同行动序列来控制所述至少一个硬件代理。

4.根据权利要求1至3中任一项所述的方法，所述方法还具有：根据关于所述硬件代理的附加的先验知识，确定所述势函数的说明所述硬件代理的控制偏好的附加参数值；并且根据由所述第一神经网络输出的参数值和所述附加参数值来确定所述势函数。

5.根据权利要求1至4中任一项所述的方法，所述方法具有：确定所述可能的控制场景，使得对于每个控制场景来说，所述势函数在针对所述控制场景所包含的硬件代理的可能的共同行动序列集合上是凹的或者凸的。

6.根据权利要求1至5中任一项所述的方法，所述方法具有：

通过利用具有多个第一训练数据要素的第一训练数据进行监督学习来训练所述第一神经网络，其中每个第一训练数据要素都具有表征和/或影响多个硬件代理的行为和/或所述控制情况的信息以及针对共同行动序列的基本事实；而且

通过利用具有多个第二训练数据要素的第二训练数据进行监督学习来训练所述第二神经网络，其中每个第二训练数据要素都具有表征和/或影响多个硬件代理的行为和/或所述控制情况的信息以及针对所述控制场景的基本事实。

7.根据权利要求6所述的方法，其中对所述第一神经网络的训练具有确定与该势函数的参数相关的损失函数的梯度，其方式是确定从势函数到通过搜索局部最优值来实现的共同行动序列的映射的梯度。

8.根据权利要求1至7中任一项所述的方法，其中表征和/或影响所述多个硬件代理的行为和/或该控制情况的信息说明了所述多个硬件代理的先前的移动轨迹。

9.用于控制硬件代理的设备，所述设备被设立为实施根据权利要求1至8中任一项所述的方法。

10.计算机程序，其具有程序指令，当所述程序指令由一个或多个处理器来实施时，所述程序指令使所述一个或多个处理器执行根据权利要求1至8中任一项所述的方法。

11.计算机可读存储介质，在其上存储有程序指令，当所述程序指令由一个或多个处理器来实施时，所述程序指令使所述一个或多个处理器执行根据权利要求1至8中任一项所述的方法。