CN113614743A

CN113614743A - 用于操控机器人的方法和设备

Info

Publication number: CN113614743A
Application number: CN202080022191.5A
Authority: CN
Inventors: M·赫尔曼; H·L·戴; J·皮特斯
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-03-18
Filing date: 2020-03-05
Publication date: 2021-11-05
Also published as: DE102019203634A1; WO2020187591A1; US20220176554A1; US12005580B2

Abstract

一种用于操控机器人的计算机实现的方法以及用于此的设备，其中按照用于对环境（102）的参数模型（202）进行训练的方法来对环境（102）的参数模型（202）、尤其是深度神经网络进行训练，尤其是其中根据调节对象对模型（202）进行训练，并且其中按照用于以基于模型的方式学习策略（π）的方法来学习策略（π），以及其中根据参数模型（202）和所述策略（π）来操控所述机器人。

Description

用于操控机器人的方法和设备

背景技术

J. Ho和S. Ermon 的“Generative adversarial imitation learning”（在 D.D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, 和 R. Garnett（编者）的Advancesin Neural Information Processing Systems 29, 第 4565-4573页. CurranAssociates, Inc., 2016中）公开了生成对抗式模仿学习GAIL的方案。GAIL是一种用于训练策略的方法，所述策略应该模仿专家行为。

A. Doerr, C. Daniel, D. Nguyen-Tuong, A. Marco, S. Schaal, T. Marc和S. Trimpe的“Optimizing long-term predictions for model-based policy search”（在 S. Levine, V. Vanhoucke, 和 K. Goldbergt（编者）的Proceedings of the 1stAnnual Conference on Robot Learning, volume 78 of Proceedings of MachineLearning Research, 第 227-238页. PMLR,13-15 Nov 2017中）公开了用于基于模型地学习这种策略的长期预测的方案。

值得期望的是，进一步改善这些操作方法的方案。

发明内容

这通过根据独立权利要求的方法和设备实现。

一种用于对环境的参数模型、尤其是深度神经网络进行训练的计算机实现的方法规定，该模型根据模型状态、行动和奖励确定新的模型状态，其中根据专家轨迹以及尤其是按照策略根据模型状态所确定的模型轨迹来确定奖励，并且其中根据奖励确定模型的至少一个参数。由此，模型的长时间行为被学习，所述长时间行为特别好地匹配于经建模的***的真实***行为。

优选地规定，鉴别器根据专家轨迹和模型轨迹确定奖励，其中利用梯度下降方法根据专家轨迹和模型轨迹确定鉴别器的至少一个参数。在roll out（推进）中，专家轨迹被用作参考，发生器、即预给定装置按照某种策略根据模型状态确定模型轨迹来用于与参考进行比较。通过梯度下降方法对鉴别器进行参数化。这使得能够在第一步骤中与模型的训练无关地对鉴别器进行参数化。

优选地，利用基于情节的策略搜索（episode-based policy search）或策略梯度（Policy Gradient）方法、尤其是REINFORCE或TRPO根据奖励来学习模型的至少一个参数。这使得能够在第二步骤中与鉴别器的训练无关地训练模型。优选地首先训练鉴别器，并且使用然后由鉴别器确定的奖励来训练模型。优选地交替地重复这些步骤。

优选地根据针对环境的***动力学的真实期望值并且根据模型的所建模的期望值来确定奖励。期望值代表基于训练数据点的对实际***动力学的近似，这使能够更高效地计算出所述训练。

优选地尤其是根据演示确定专家轨迹，其中检测专家在环境状态中尤其是按照专家策略预给定的专家行动，其中环境通过该专家行动以一概率被转变成新的环境状态，并且其中环境状态、专家行动和新的环境状态被确定为专家轨迹的数据点。因此可以特别高效地表示监督式学习。

优选地在模型状态中检测根据策略而被预给定的行动，其中模型通过所述行动以一概率被转变成新的模型状态，其中根据模型状态、行动以及新的模型状态确定奖励。这使得能够利用由发生器根据模型所确定的模型轨迹而对鉴别器进行训练。模型在训练中发生变化。因此即使发生器使用的策略不改变，发生器的模型轨迹也发生变化。这使得能够使鉴别器适配于经改变的模型。因此，所述训练总体上变得更有效。

包括调节对象的环境的参数模型优选地根据所述调节对象被训练，其中根据模型并且根据调节对象的至少一个所检测的实际参量或所观察的状态参量确定至少一个状态参量或调节参量用于操控调节对象。根据调节对象，可以以未经训练或部分训练的方式使用模型。由此，尤其是鉴于模型的学习方面而对用于进行控制或调节的常规方法进行显著改进。

优选地尤其是借助于代理根据模型的模型状态按照策略确定行动，其中根据所述策略、行动或新的模型状态确定奖励，其中在强化学习方法中根据所述奖励而学习策略。因此同样可以高效地学习策略。代理的目标是在强化学习方法中最大化奖励。例如，根据策略与预给定参考策略的一致性的度量、模型行为与环境实际行为的一致性或与参考模型行为的一致性的度量来确定奖励。

一种用于操控机器人的计算机实现的方法规定，按照上面陈述的方法对环境的参数模型进行训练，学习策略，并且根据参数模型和策略来操控机器人。这意味着，机器人被这样操控，使得所述机器人模仿人类行为。为此而学习策略。为了学习策略而使用同样被学习的模型、即环境模型。

一种用于操控机器人的设备被构造用于执行用于操控机器人的计算机实现的方法。该设备被构造用于学习环境模型和策略，利用所述策略可以模仿人类行为。

附图说明

其他有利扩展方案从以下描述和附图中得出。在附图中：

图1示出用于操控机器人的设备的一部分的示意图，

图2示出该设备的另一部分的示意图，

图3示出调节***的部分的示意图，

图4示出学习***的部分的示意图，

图5示出用于训练模型的方法中的步骤，

图6调节方法中的步骤，

图7示出针对策略的学习方法中的步骤。

具体实施方式

图1示出用于操控机器人的设备的一部分。用于操控机器人的设备被构造用于根据在下面描述的方法对环境的参数模型进行训练。如在下面描述的那样，该设备被构造用于学习策略。在一方面中，该设备此外被构造用于如在下面描述的那样根据调节对象对模型进行训练。该设备此外被构造用于根据参数模型和策略操控机器人。该设备被构造用于学习环境模型和策略，其中利用所述策略能够模仿人类行为。

用于操控机器人的设备包括至少一个用于指令的存储器和至少一个用于执行所述指令的处理器。所述指令的执行导致：根据用于操控机器人的策略确定针对机器人的行动。该设备例如包括至少一个用于根据所述行动操控机器人的操控装置。

机器人可以是执行所述行动的至少部分自主的车辆。

该设备被构造用于检测针对环境102的专家轨迹

。专家轨迹

包括多个三元组

，这些三元组共同地得出专家轨迹

。该设备包括第一预给定装置104，所述第一预给定装置被构造用于根据专家策略

确定针对环境102的环境状态

的专家行动

。环境102通过所述专家行动

以概率

而被转变成新的环境状态

。预给定装置104可以具有人机接口，所述人机接口被构造用于将环境102的状态

输出给专家并且根据专家输入检测专家行动

。

在该示例中，该设备被构造用于根据演示确定专家轨迹

。在所述演示期间，检测如下专家行动

，其中专家在环境状态

中预给定所述专家行动。所述环境状态

、专家行动

和新环境状态

被确定为专家轨迹

的数据点。例如，该设备被构造用于重复这些步骤，以便检测针对所述专家轨迹

的数据点，直至所述演示结束为止。在该示例中，设置用于专家轨迹

的第一存储器106。

图2示意性地示出该设备的另一部分。该设备被构造用于对环境102的参数模型202进行训练。模型202例如是深度神经网络。该设备包括用于行动

的第二预给定装置204。模型202被构造用于根据模型状态s_M、行动

和奖励r来确定新的模型状态s_M'。在该示例中，第二预给定装置204是发生器，所述发生器被构造用于根据模型状态s_M按照策略

来确定行动

。预给定装置204被构造用于在模型202的训练中作为多个

三元组的序列检测模型轨迹τ，其中这些三元组共同地得出模型轨迹

。例如，该设备被构造用于重复这些步骤，以便检测针对模型轨迹τ的数据点，直至模型的训练结束。在该示例中，设置用于模型轨迹τ的第二存储器206。

该设备包括鉴别器208，所述鉴别器被构造用于根据专家轨迹

和模型轨迹τ确定奖励r。

该设备包括训练装置210，所述训练装置被构造用于利用梯度下降方法根据专家轨迹

和模型轨迹τ确定鉴别器208的至少一个参数w。

训练装置210被构造用于利用基于情节的策略搜索或利用策略梯度方法、尤其是REINFORCE或TRPO根据奖励r来学习模型202的至少一个参数θ。

训练装置210被构造用于根据针对环境102的***动力学的真实期望值

并且根据针对模型202的所建模的期望值

来确定奖励r。训练装置210例如被构造用于检测在模型状态s_M中预给定的行动

，其中模型202通过行动

以概率

被转变成新的模型状态

，并且其中根据模型状态s_M、行动

和新的模型状态

确定奖励r。训练装置210被构造用于根据奖励r确定模型202的至少一个参数θ。

在一方面中，同样设置一种用于以基于模型的方式进行控制或调节的装置。在图3中示出用于调节的装置，所述装置包括环境102的参数模型202，其中环境102包括调节对象302。该装置被构造用于根据所述调节对象302来训练模型202。该装置被构造用于根据模型202和根据调节对象302的所观察的状态参量或至少一个所检测的实际参量s_R来确定至少一个状态参量或调节参量y用于操控调节对象302。对于控制，则与实际参量无关地相应地进行处理。

在图4中示意性地示出了用于以基于模型的方式学习策略的装置。该装置包括环境102的参数模型202。该装置包括代理402，所述代理被构造用于按照策略π根据模型202的模型状态s_M来确定行动

。强化学习装置404被构造用于根据策略π、行动

或新的模型状态

确定奖励

，并且在强化学习方法中根据奖励

来学习策略π。

图5示出用于对环境102的参数模型202进行训练的计算机实现的方法的步骤。

在步骤502中，尤其是根据演示来确定专家轨迹

。

在该示例中，检测专家在环境状态s_U中预给定的专家行动

。例如，环境状态s_U、专家行动

和新环境状态s'_U被确定为专家轨迹

的数据点。例如，重复该步骤，直至演示结束。

随后执行步骤504。在步骤504中，例如利用相应参数的随机值，对鉴别器208和模型202进行初始化。

随后执行步骤506。在步骤506中，利用模型202的模型参数生成新的模型轨迹。例如，针对模型202根据相应模型状态s_M和相应行动

为模型轨迹τ确定新的模型状态s_M'。

随后执行步骤508。在步骤508中，根据专家轨迹

和模型轨迹τ来确定奖励r。在该示例中，为所生成的模型轨迹τ确定奖励r。为此，使用鉴别器208。

随后执行步骤510。在步骤510中，借助于奖励r或利用所累积的奖励R来训练模型202。在此，例如利用基于情节的策略搜索或利用策略梯度方法、尤其是REINFORCE或TRPO来学习模型202的至少一个参数θ。

随后执行步骤512。在步骤512中，借助于专家轨迹和模型轨迹来对鉴别器208进行训练。在该示例中，利用梯度下降方法根据专家轨迹

和模型轨迹τ来确定鉴别器208的至少一个参数w。

在该示例中重复这些步骤。根据针对不同模型轨迹已确定的奖励r而确定所累积的奖励R。

基于马尔可夫决策过程

确定最初未知的奖励r，其假设：已经在决策过程M情况下创建了专家轨迹。例如，奖励是二进制值，即真或假。后续优化的目的是学习函数

，其中

说明环境的实际***行为。

为此使用具有未知奖励r的以下马尔可夫决策过程：

其中

行动空间

，

状态空间

，

初始分布

动态过渡概率

如果在该决策过程中使用GAIL方法，则能够确定奖励r，并且能够学习模型

。

例如，根据针对环境102的***动力学的真实期望值

和模型202的所建模的期望值

来确定奖励r。

例如，针对梯度下降方法，设置以任意策略π的多个roll out，其中

其中D_w是具有至少一个参数w的鉴别器

例如，作为奖励r使用log(D)，以便利用

训练模型

，其中

，

其中

是基于模型状态s₀、行动a₀和新的模型状态s'₀的第i个模型轨迹的期望值。

以基于情节的策略搜索为基础的示例性算法在下面作为伪代码来说明。该算法基于通过专家策略

确定的专家轨迹

，

for i = 1 to ... do

从模型参数建议分布中对模型参数

采样

for 每个模型参数

do

对K个轨迹

采样

评估模型参数

其中

end for

通过使

最大化来从

至

更新鉴别器

使用以权重

被加权的最大似然来从

至

更新模型参数建议分布

end for。

在算法中使用R、r、H、γ和λ的以下定义：

R 由多个（s,a,s'）三元组组成的模型轨迹的总累积奖励，

r 单个（s,a,s'）三元组的奖励，其经由鉴别器确定，

H 模型q的因果熵，

γ 无限时间折扣MDP的折扣因子

λ 可自由选择的正则化因子

在图6中示出用于以基于模型的方式调节的方法中的步骤。包括调节对象302的环境102的参数模型202在步骤602中根据调节对象302如所描述的那样被训练。随后在步骤604中，根据模型202并且根据调节对象302的至少一个所检测的实际参量s_R或所观察的状态参量确定至少一个状态参量或调节参量y用于操控调节对象302。这些步骤可以例如在初始化模型202之后针对自学习调节器而递归地被重复。也可以规定，先训练模型并且仅重复用于调节的步骤604。

在图7中示出了用于以基于模型的方式学习策略的方法中的步骤。环境102的参数模型202在步骤702中如描述的那样被训练。

在随后的步骤704中，尤其是由代理402按照策略π根据模型202的模型状态s_M确定行动

。

随后，在步骤706中，根据策略π、行动

或新的模型状态s'_M确定奖励

。随后在步骤708中，在强化学习方法中根据奖励

确定策略π。

例如，该奖励

取决于最后应该由策略π来学习的任务。奖励可以被定义为函数r(s,a)或r(s)。通过如下方式而被奖励：行动

在状态s中以多大程度地有助于履行任务或者在特定状态中是如何好地用于履行任务的。

如果例如任务是导航到由模型202建模的2D环境中的目的地。则奖励可以例如是距目的地的距离。相应地可以针对车辆学习用于导航的策略。

步骤702至708优选地递归地被重复。可以规定在执行步骤708之前递归地重复步骤704和706。

在下面描述一种用于操控机器人的计算机实现的方法。该方法规定，按照根据图5描述的方法对环境102的参数模型202进行训练。该方法此外规定，按照根据图7描述的方法学习策略π，并且根据参数模型202和策略π来操控机器人。这意味着：这样操控机器人，以使得所述机器人模仿人类行为。

在一个方案中，模型202按照根据图6描述的方法取决于调节对象地被训练。

Claims

1.一种用于对环境（102）的参数模型（202）、尤其是深度神经网络进行训练的计算机实现的方法，其特征在于，所述模型（202）根据模型状态（s_M）、行动（

）和奖励（r）确定（506）新的模型状态（s_M'），其中根据专家轨迹（

）以及尤其是按照策略

根据所述模型状态（s_M）所确定的模型轨迹（τ）来确定（508）所述奖励（r），并且其中根据所述奖励（r）确定所述模型（202）的至少一个参数（θ）。

2.根据权利要求1所述的方法，其特征在于，尤其是鉴别器（208）根据所述专家轨迹（

）和所述模型轨迹（τ）确定（508）所述奖励（r），其中利用梯度下降方法根据所述专家轨迹（

）和所述模型轨迹（τ）确定（512）所述鉴别器（208）的至少一个参数（w）。

3.根据权利要求1或2所述的方法，其特征在于，利用基于情节的策略搜索或策略梯度方法、尤其是REINFORCE或TRPO根据所述奖励（r）学习（510）所述模型（202）的所述至少一个参数（θ）。

4.根据前述权利要求之一所述的方法，其特征在于，根据针对所述环境（102）的***动力学的真实期望值（

）并且根据所述模型（202）的所建模的期望值（

）确定（512）所述奖励（r）。

5.根据前述权利要求中任一项所述的方法，其特征在于，尤其是根据演示确定（502）所述专家轨迹（

），其中检测专家在环境状态（s_U）中尤其是按照专家策略

预给定的专家行动（

），其中所述环境（102）通过所述专家行动（

）以概率

被转变成新的环境状态（s'_U），并且其中所述环境状态（s_U））、所述专家行动（

）和所述新的环境状态（S'_U）被确定（502）为所述专家轨迹（

）的数据点。

6.根据前述权利要求中任一项所述的方法，其特征在于，在模型状态（s_M）中检测（506）根据策略（π）而被预给定的行动（

），其中所述模型（202）通过所述行动（

）以概率

被转变到新的模型状态（s'_M），其中根据所述模型状态（s_M）、所述行动（a）和所述新的模型状态（s'_M）确定所述奖励（r）。

7.根据前述权利要求中任一项所述的方法，其特征在于，包括调节对象（302）的环境（102）的参数模型（202）根据所述调节对象（302）被训练（602），其中根据所述模型（202）并且根据所述调节对象（302）的至少一个所检测的实际参量（s_R）或所观察的状态参量确定（604）至少一个状态参量或调节参量（y），用于操控所述调节对象（302）。

8.根据前述权利要求中任一项所述的方法，其特征在于，尤其是借助于代理（402）根据所述模型（202）的模型状态（s_M）按照策略（π）确定（704）行动（

），其中根据所述策略（π）、所述行动（

）或新的模型状态（s'_M）确定（706）奖励（

），其中在强化学习方法中根据所述奖励（

）学习（708）所述策略（π）。

9.一种用于操控机器人的计算机实现的方法，其特征在于，按照根据权利要求8所述的方法对环境（102）的参数模型（202）、尤其是深度神经网络进行训练，并且学习用于操控所述机器人的策略（π），并且其中根据所述参数模型（202）和所述策略（π）来操控所述机器人。

10.一种计算机程序，其特征在于，所述计算机程序包括计算机可读指令，在通过计算机执行所述计算机可读指令时运行根据权利要求1至9中任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储器，在所述存储器上存储有权利要求10所述的计算机程序。

12.一种用于操控机器人的设备，其特征在于，所述设备被构造用于执行根据权利要求9所述的方法。