CN113614743A - 用于操控机器人的方法和设备 - Google Patents

用于操控机器人的方法和设备 Download PDF

Info

Publication number
CN113614743A
CN113614743A CN202080022191.5A CN202080022191A CN113614743A CN 113614743 A CN113614743 A CN 113614743A CN 202080022191 A CN202080022191 A CN 202080022191A CN 113614743 A CN113614743 A CN 113614743A
Authority
CN
China
Prior art keywords
model
state
expert
reward
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080022191.5A
Other languages
English (en)
Inventor
M·赫尔曼
H·L·戴
J·皮特斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113614743A publication Critical patent/CN113614743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

一种用于操控机器人的计算机实现的方法以及用于此的设备,其中按照用于对环境(102)的参数模型(202)进行训练的方法来对环境(102)的参数模型(202)、尤其是深度神经网络进行训练,尤其是其中根据调节对象对模型(202)进行训练,并且其中按照用于以基于模型的方式学习策略(π)的方法来学习策略(π),以及其中根据参数模型(202)和所述策略(π)来操控所述机器人。

Description

用于操控机器人的方法和设备
背景技术
J. Ho和S. Ermon 的“Generative adversarial imitation learning”(在 D.D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, 和 R. Garnett(编者)的Advancesin Neural Information Processing Systems 29, 第 4565-4573页. CurranAssociates, Inc., 2016中)公开了生成对抗式模仿学习GAIL的方案。GAIL是一种用于训练策略的方法,所述策略应该模仿专家行为。
A. Doerr, C. Daniel, D. Nguyen-Tuong, A. Marco, S. Schaal, T. Marc和S. Trimpe的“Optimizing long-term predictions for model-based policy search”(在 S. Levine, V. Vanhoucke, 和 K. Goldbergt(编者)的Proceedings of the 1stAnnual Conference on Robot Learning, volume 78 of Proceedings of MachineLearning Research, 第 227-238页. PMLR,13-15 Nov 2017中)公开了用于基于模型地学习这种策略的长期预测的方案。
值得期望的是,进一步改善这些操作方法的方案。
发明内容
这通过根据独立权利要求的方法和设备实现。
一种用于对环境的参数模型、尤其是深度神经网络进行训练的计算机实现的方法规定,该模型根据模型状态、行动和奖励确定新的模型状态,其中根据专家轨迹以及尤其是按照策略根据模型状态所确定的模型轨迹来确定奖励,并且其中根据奖励确定模型的至少一个参数。由此,模型的长时间行为被学习,所述长时间行为特别好地匹配于经建模的***的真实***行为。
优选地规定,鉴别器根据专家轨迹和模型轨迹确定奖励,其中利用梯度下降方法根据专家轨迹和模型轨迹确定鉴别器的至少一个参数。在roll out(推进)中,专家轨迹被用作参考,发生器、即预给定装置按照某种策略根据模型状态确定模型轨迹来用于与参考进行比较。通过梯度下降方法对鉴别器进行参数化。这使得能够在第一步骤中与模型的训练无关地对鉴别器进行参数化。
优选地,利用基于情节的策略搜索(episode-based policy search)或策略梯度(Policy Gradient)方法、尤其是REINFORCE或TRPO根据奖励来学习模型的至少一个参数。这使得能够在第二步骤中与鉴别器的训练无关地训练模型。优选地首先训练鉴别器,并且使用然后由鉴别器确定的奖励来训练模型。优选地交替地重复这些步骤。
优选地根据针对环境的***动力学的真实期望值并且根据模型的所建模的期望值来确定奖励。期望值代表基于训练数据点的对实际***动力学的近似,这使能够更高效地计算出所述训练。
优选地尤其是根据演示确定专家轨迹,其中检测专家在环境状态中尤其是按照专家策略预给定的专家行动,其中环境通过该专家行动以一概率被转变成新的环境状态,并且其中环境状态、专家行动和新的环境状态被确定为专家轨迹的数据点。因此可以特别高效地表示监督式学习。
优选地在模型状态中检测根据策略而被预给定的行动,其中模型通过所述行动以一概率被转变成新的模型状态,其中根据模型状态、行动以及新的模型状态确定奖励。这使得能够利用由发生器根据模型所确定的模型轨迹而对鉴别器进行训练。模型在训练中发生变化。因此即使发生器使用的策略不改变,发生器的模型轨迹也发生变化。这使得能够使鉴别器适配于经改变的模型。因此,所述训练总体上变得更有效。
包括调节对象的环境的参数模型优选地根据所述调节对象被训练,其中根据模型并且根据调节对象的至少一个所检测的实际参量或所观察的状态参量确定至少一个状态参量或调节参量用于操控调节对象。根据调节对象,可以以未经训练或部分训练的方式使用模型。由此,尤其是鉴于模型的学习方面而对用于进行控制或调节的常规方法进行显著改进。
优选地尤其是借助于代理根据模型的模型状态按照策略确定行动,其中根据所述策略、行动或新的模型状态确定奖励,其中在强化学习方法中根据所述奖励而学习策略。因此同样可以高效地学习策略。代理的目标是在强化学习方法中最大化奖励。例如,根据策略与预给定参考策略的一致性的度量、模型行为与环境实际行为的一致性或与参考模型行为的一致性的度量来确定奖励。
一种用于操控机器人的计算机实现的方法规定,按照上面陈述的方法对环境的参数模型进行训练,学习策略,并且根据参数模型和策略来操控机器人。这意味着,机器人被这样操控,使得所述机器人模仿人类行为。为此而学习策略。为了学习策略而使用同样被学习的模型、即环境模型。
一种用于操控机器人的设备被构造用于执行用于操控机器人的计算机实现的方法。该设备被构造用于学习环境模型和策略,利用所述策略可以模仿人类行为。
附图说明
其他有利扩展方案从以下描述和附图中得出。在附图中:
图1示出用于操控机器人的设备的一部分的示意图,
图2示出该设备的另一部分的示意图,
图3示出调节***的部分的示意图,
图4示出学习***的部分的示意图,
图5示出用于训练模型的方法中的步骤,
图6调节方法中的步骤,
图7示出针对策略的学习方法中的步骤。
具体实施方式
图1示出用于操控机器人的设备的一部分。用于操控机器人的设备被构造用于根据在下面描述的方法对环境的参数模型进行训练。如在下面描述的那样,该设备被构造用于学习策略。在一方面中,该设备此外被构造用于如在下面描述的那样根据调节对象对模型进行训练。该设备此外被构造用于根据参数模型和策略操控机器人。该设备被构造用于学习环境模型和策略,其中利用所述策略能够模仿人类行为。
用于操控机器人的设备包括至少一个用于指令的存储器和至少一个用于执行所述指令的处理器。所述指令的执行导致:根据用于操控机器人的策略确定针对机器人的行动。该设备例如包括至少一个用于根据所述行动操控机器人的操控装置。
机器人可以是执行所述行动的至少部分自主的车辆。
该设备被构造用于检测针对环境102的专家轨迹
Figure 608044DEST_PATH_IMAGE001
。专家轨迹
Figure 259605DEST_PATH_IMAGE001
包括多个三元组
Figure 632818DEST_PATH_IMAGE002
,这些三元组共同地得出专家轨迹
Figure 28027DEST_PATH_IMAGE003
。该设备包括第一预给定装置104,所述第一预给定装置被构造用于根据专家策略
Figure 639137DEST_PATH_IMAGE004
确定针对环境102的环境状态
Figure 461599DEST_PATH_IMAGE005
的专家行动
Figure 197474DEST_PATH_IMAGE006
。环境102通过所述专家行动
Figure 396374DEST_PATH_IMAGE006
以概率
Figure 65253DEST_PATH_IMAGE007
而被转变成新的环境状态
Figure 917671DEST_PATH_IMAGE008
。预给定装置104可以具有人机接口,所述人机接口被构造用于将环境102的状态
Figure 672001DEST_PATH_IMAGE005
输出给专家并且根据专家输入检测专家行动
Figure 877854DEST_PATH_IMAGE009
在该示例中,该设备被构造用于根据演示确定专家轨迹
Figure 401239DEST_PATH_IMAGE010
。在所述演示期间,检测如下专家行动
Figure 627821DEST_PATH_IMAGE006
,其中专家在环境状态
Figure 869447DEST_PATH_IMAGE005
中预给定所述专家行动。所述环境状态
Figure 3625DEST_PATH_IMAGE005
、专家行动
Figure 647096DEST_PATH_IMAGE006
和新环境状态
Figure 451104DEST_PATH_IMAGE008
被确定为专家轨迹
Figure 180025DEST_PATH_IMAGE011
的数据点。例如,该设备被构造用于重复这些步骤,以便检测针对所述专家轨迹
Figure 258840DEST_PATH_IMAGE010
的数据点,直至所述演示结束为止。在该示例中,设置用于专家轨迹
Figure 553555DEST_PATH_IMAGE011
的第一存储器106。
图2示意性地示出该设备的另一部分。该设备被构造用于对环境102的参数模型202进行训练。模型202例如是深度神经网络。该设备包括用于行动
Figure 325202DEST_PATH_IMAGE012
的第二预给定装置204。模型202被构造用于根据模型状态sM、行动
Figure 869316DEST_PATH_IMAGE012
和奖励r来确定新的模型状态sM'。在该示例中,第二预给定装置204是发生器,所述发生器被构造用于根据模型状态sM按照策略
Figure 751821DEST_PATH_IMAGE013
来确定行动
Figure 838726DEST_PATH_IMAGE012
。预给定装置204被构造用于在模型202的训练中作为多个
Figure 781274DEST_PATH_IMAGE014
三元组的序列检测模型轨迹τ,其中这些三元组共同地得出模型轨迹
Figure 812684DEST_PATH_IMAGE015
。例如,该设备被构造用于重复这些步骤,以便检测针对模型轨迹τ的数据点,直至模型的训练结束。在该示例中,设置用于模型轨迹τ的第二存储器206。
该设备包括鉴别器208,所述鉴别器被构造用于根据专家轨迹
Figure 233301DEST_PATH_IMAGE016
和模型轨迹τ确定奖励r。
该设备包括训练装置210,所述训练装置被构造用于利用梯度下降方法根据专家轨迹
Figure 502608DEST_PATH_IMAGE017
和模型轨迹τ确定鉴别器208的至少一个参数w。
训练装置210被构造用于利用基于情节的策略搜索或利用策略梯度方法、尤其是REINFORCE或TRPO根据奖励r来学习模型202的至少一个参数θ。
训练装置210被构造用于根据针对环境102的***动力学的真实期望值
Figure 616058DEST_PATH_IMAGE018
并且根据针对模型202的所建模的期望值
Figure 541288DEST_PATH_IMAGE019
来确定奖励r。训练装置210例如被构造用于检测在模型状态sM中预给定的行动
Figure 500017DEST_PATH_IMAGE012
,其中模型202通过行动
Figure 561514DEST_PATH_IMAGE012
以概率
Figure 439340DEST_PATH_IMAGE020
被转变成新的模型状态
Figure 851867DEST_PATH_IMAGE021
,并且其中根据模型状态sM、行动
Figure 676604DEST_PATH_IMAGE012
和新的模型状态
Figure 858186DEST_PATH_IMAGE022
确定奖励r。训练装置210被构造用于根据奖励r确定模型202的至少一个参数θ。
在一方面中,同样设置一种用于以基于模型的方式进行控制或调节的装置。在图3中示出用于调节的装置,所述装置包括环境102的参数模型202,其中环境102包括调节对象302。该装置被构造用于根据所述调节对象302来训练模型202。该装置被构造用于根据模型202和根据调节对象302的所观察的状态参量或至少一个所检测的实际参量sR来确定至少一个状态参量或调节参量y用于操控调节对象302。对于控制,则与实际参量无关地相应地进行处理。
在图4中示意性地示出了用于以基于模型的方式学习策略的装置。该装置包括环境102的参数模型202。该装置包括代理402,所述代理被构造用于按照策略π根据模型202的模型状态sM来确定行动
Figure 375755DEST_PATH_IMAGE012
。强化学习装置404被构造用于根据策略π、行动
Figure 744420DEST_PATH_IMAGE012
或新的模型状态
Figure 310530DEST_PATH_IMAGE023
确定奖励
Figure 612199DEST_PATH_IMAGE024
,并且在强化学习方法中根据奖励
Figure 769510DEST_PATH_IMAGE025
来学习策略π。
图5示出用于对环境102的参数模型202进行训练的计算机实现的方法的步骤。
在步骤502中,尤其是根据演示来确定专家轨迹
Figure 156629DEST_PATH_IMAGE026
在该示例中,检测专家在环境状态sU中预给定的专家行动
Figure 119906DEST_PATH_IMAGE006
。例如,环境状态sU、专家行动
Figure 10502DEST_PATH_IMAGE006
和新环境状态s'U被确定为专家轨迹
Figure 541977DEST_PATH_IMAGE026
的数据点。例如,重复该步骤,直至演示结束。
随后执行步骤504。在步骤504中,例如利用相应参数的随机值,对鉴别器208和模型202进行初始化。
随后执行步骤506。在步骤506中,利用模型202的模型参数生成新的模型轨迹。例如,针对模型202根据相应模型状态sM和相应行动
Figure 150813DEST_PATH_IMAGE012
为模型轨迹τ确定新的模型状态sM'。
随后执行步骤508。在步骤508中,根据专家轨迹
Figure 121043DEST_PATH_IMAGE026
和模型轨迹τ来确定奖励r。在该示例中,为所生成的模型轨迹τ确定奖励r。为此,使用鉴别器208。
随后执行步骤510。在步骤510中,借助于奖励r或利用所累积的奖励R来训练模型202。在此,例如利用基于情节的策略搜索或利用策略梯度方法、尤其是REINFORCE或TRPO来学习模型202的至少一个参数θ。
随后执行步骤512。在步骤512中,借助于专家轨迹和模型轨迹来对鉴别器208进行训练。在该示例中,利用梯度下降方法根据专家轨迹
Figure 131725DEST_PATH_IMAGE011
和模型轨迹τ来确定鉴别器208的至少一个参数w。
在该示例中重复这些步骤。根据针对不同模型轨迹已确定的奖励r而确定所累积的奖励R。
基于马尔可夫决策过程
Figure 693156DEST_PATH_IMAGE027
确定最初未知的奖励r,其假设:已经在决策过程M情况下创建了专家轨迹。例如,奖励是二进制值,即真或假。后续优化的目的是学习函数
Figure 789288DEST_PATH_IMAGE028
,其中
Figure 500892DEST_PATH_IMAGE029
说明环境的实际***行为。
为此使用具有未知奖励r的以下马尔可夫决策过程:
Figure 100501DEST_PATH_IMAGE030
其中
行动空间
Figure 239358DEST_PATH_IMAGE031
状态空间
Figure 416261DEST_PATH_IMAGE032
初始分布
Figure 665977DEST_PATH_IMAGE033
动态过渡概率
Figure 447988DEST_PATH_IMAGE035
如果在该决策过程中使用GAIL方法,则能够确定奖励r,并且能够学习模型
Figure 757747DEST_PATH_IMAGE036
例如,根据针对环境102的***动力学的真实期望值
Figure 297313DEST_PATH_IMAGE018
和模型202的所建模的期望值
Figure 350719DEST_PATH_IMAGE019
来确定奖励r。
例如,针对梯度下降方法,设置以任意策略π的多个roll out,其中
Figure 49554DEST_PATH_IMAGE037
其中Dw是具有至少一个参数w的鉴别器
例如,作为奖励r使用log(D),以便利用
Figure 530214DEST_PATH_IMAGE038
训练模型
Figure 291496DEST_PATH_IMAGE039
,其中
Figure 148594DEST_PATH_IMAGE040
其中
Figure 842880DEST_PATH_IMAGE041
是基于模型状态s0、行动a0和新的模型状态s'0的第i个模型轨迹的期望值。
以基于情节的策略搜索为基础的示例性算法在下面作为伪代码来说明。该算法基于通过专家策略
Figure 291179DEST_PATH_IMAGE042
确定的专家轨迹
Figure 336496DEST_PATH_IMAGE026
for i = 1 to ... do
从模型参数建议分布中对模型参数
Figure 590760DEST_PATH_IMAGE043
采样
for 每个模型参数
Figure 139553DEST_PATH_IMAGE044
do
对K个轨迹
Figure 696436DEST_PATH_IMAGE045
采样
评估模型参数
Figure 963469DEST_PATH_IMAGE046
其中
Figure DEST_PATH_IMAGE047
end for
通过使
Figure 959107DEST_PATH_IMAGE048
最大化来从
Figure DEST_PATH_IMAGE049
Figure 955882DEST_PATH_IMAGE050
更新鉴别器
使用以权重
Figure 949246DEST_PATH_IMAGE051
被加权的最大似然来从
Figure 703575DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
更新模型参数建议分布
end for。
在算法中使用R、r、H、γ和λ的以下定义:
R 由多个(s,a,s')三元组组成的模型轨迹的总累积奖励,
r 单个(s,a,s')三元组的奖励,其经由鉴别器确定,
H 模型q的因果熵,
γ 无限时间折扣MDP的折扣因子
λ 可自由选择的正则化因子
在图6中示出用于以基于模型的方式调节的方法中的步骤。包括调节对象302的环境102的参数模型202在步骤602中根据调节对象302如所描述的那样被训练。随后在步骤604中,根据模型202并且根据调节对象302的至少一个所检测的实际参量sR或所观察的状态参量确定至少一个状态参量或调节参量y用于操控调节对象302。这些步骤可以例如在初始化模型202之后针对自学习调节器而递归地被重复。也可以规定,先训练模型并且仅重复用于调节的步骤604。
在图7中示出了用于以基于模型的方式学习策略的方法中的步骤。环境102的参数模型202在步骤702中如描述的那样被训练。
在随后的步骤704中,尤其是由代理402按照策略π根据模型202的模型状态sM确定行动
Figure 34062DEST_PATH_IMAGE012
随后,在步骤706中,根据策略π、行动
Figure 557447DEST_PATH_IMAGE012
或新的模型状态s'M确定奖励
Figure 784029DEST_PATH_IMAGE025
。随后在步骤708中,在强化学习方法中根据奖励
Figure 760076DEST_PATH_IMAGE024
确定策略π。
例如,该奖励
Figure 35199DEST_PATH_IMAGE024
取决于最后应该由策略π来学习的任务。奖励可以被定义为函数r(s,a)或r(s)。通过如下方式而被奖励:行动
Figure 678670DEST_PATH_IMAGE012
在状态s中以多大程度地有助于履行任务或者在特定状态中是如何好地用于履行任务的。
如果例如任务是导航到由模型202建模的2D环境中的目的地。则奖励可以例如是距目的地的距离。相应地可以针对车辆学习用于导航的策略。
步骤702至708优选地递归地被重复。可以规定在执行步骤708之前递归地重复步骤704和706。
在下面描述一种用于操控机器人的计算机实现的方法。该方法规定,按照根据图5描述的方法对环境102的参数模型202进行训练。该方法此外规定,按照根据图7描述的方法学习策略π,并且根据参数模型202和策略π来操控机器人。这意味着:这样操控机器人,以使得所述机器人模仿人类行为。
在一个方案中,模型202按照根据图6描述的方法取决于调节对象地被训练。

Claims (12)

1.一种用于对环境(102)的参数模型(202)、尤其是深度神经网络进行训练的计算机实现的方法,其特征在于,所述模型(202)根据模型状态(sM)、行动(
Figure DEST_PATH_IMAGE002A
)和奖励(r)确定(506)新的模型状态(sM'),其中根据专家轨迹(
Figure DEST_PATH_IMAGE003
)以及尤其是按照策略
Figure 157681DEST_PATH_IMAGE004
根据所述模型状态(sM)所确定的模型轨迹(τ)来确定(508)所述奖励(r),并且其中根据所述奖励(r)确定所述模型(202)的至少一个参数(θ)。
2.根据权利要求1所述的方法,其特征在于,尤其是鉴别器(208)根据所述专家轨迹(
Figure 543663DEST_PATH_IMAGE003
)和所述模型轨迹(τ)确定(508)所述奖励(r),其中利用梯度下降方法根据所述专家轨迹(
Figure 323400DEST_PATH_IMAGE003
)和所述模型轨迹(τ)确定(512)所述鉴别器(208)的至少一个参数(w)。
3.根据权利要求1或2所述的方法,其特征在于,利用基于情节的策略搜索或策略梯度方法、尤其是REINFORCE或TRPO根据所述奖励(r)学习(510)所述模型(202)的所述至少一个参数(θ)。
4.根据前述权利要求之一所述的方法,其特征在于,根据针对所述环境(102)的***动力学的真实期望值(
Figure DEST_PATH_IMAGE006A
)并且根据所述模型(202)的所建模的期望值(
Figure DEST_PATH_IMAGE008A
)确定(512)所述奖励(r)。
5.根据前述权利要求中任一项所述的方法,其特征在于,尤其是根据演示确定(502)所述专家轨迹(
Figure 347637DEST_PATH_IMAGE003
),其中检测专家在环境状态(sU)中尤其是按照专家策略
Figure DEST_PATH_IMAGE009
预给定的专家行动(
Figure DEST_PATH_IMAGE011
),其中所述环境(102)通过所述专家行动(
Figure DEST_PATH_IMAGE011A
)以概率
Figure 506217DEST_PATH_IMAGE012
被转变成新的环境状态(s'U),并且其中所述环境状态(sU))、所述专家行动(
Figure DEST_PATH_IMAGE013
)和所述新的环境状态(S'U)被确定(502)为所述专家轨迹(
Figure 784DEST_PATH_IMAGE003
)的数据点。
6.根据前述权利要求中任一项所述的方法,其特征在于,在模型状态(sM)中检测(506)根据策略(π)而被预给定的行动(
Figure DEST_PATH_IMAGE002AA
),其中所述模型(202)通过所述行动(
Figure DEST_PATH_IMAGE002AAA
)以概率
Figure DEST_PATH_IMAGE015
被转变到新的模型状态(s'M),其中根据所述模型状态(sM)、所述行动(a)和所述新的模型状态(s'M)确定所述奖励(r)。
7.根据前述权利要求中任一项所述的方法,其特征在于,包括调节对象(302)的环境(102)的参数模型(202)根据所述调节对象(302)被训练(602),其中根据所述模型(202)并且根据所述调节对象(302)的至少一个所检测的实际参量(sR)或所观察的状态参量确定(604)至少一个状态参量或调节参量(y),用于操控所述调节对象(302)。
8.根据前述权利要求中任一项所述的方法,其特征在于,尤其是借助于代理(402)根据所述模型(202)的模型状态(sM)按照策略(π)确定(704)行动(
Figure DEST_PATH_IMAGE002AAAA
),其中根据所述策略(π)、所述行动(
Figure DEST_PATH_IMAGE002_5A
)或新的模型状态(s'M)确定(706)奖励(
Figure DEST_PATH_IMAGE016
),其中在强化学习方法中根据所述奖励(
Figure 484461DEST_PATH_IMAGE016
)学习(708)所述策略(π)。
9.一种用于操控机器人的计算机实现的方法,其特征在于,按照根据权利要求8所述的方法对环境(102)的参数模型(202)、尤其是深度神经网络进行训练,并且学习用于操控所述机器人的策略(π),并且其中根据所述参数模型(202)和所述策略(π)来操控所述机器人。
10.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,在通过计算机执行所述计算机可读指令时运行根据权利要求1至9中任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储器,在所述存储器上存储有权利要求10所述的计算机程序。
12.一种用于操控机器人的设备,其特征在于,所述设备被构造用于执行根据权利要求9所述的方法。
CN202080022191.5A 2019-03-18 2020-03-05 用于操控机器人的方法和设备 Pending CN113614743A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102019203634.1 2019-03-18
DE102019203634.1A DE102019203634A1 (de) 2019-03-18 2019-03-18 Verfahren und Vorrichtung zum Ansteuern eines Roboters
PCT/EP2020/055900 WO2020187591A1 (de) 2019-03-18 2020-03-05 Verfahren und vorrichtung zum ansteuern eines roboters

Publications (1)

Publication Number Publication Date
CN113614743A true CN113614743A (zh) 2021-11-05

Family

ID=69804862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080022191.5A Pending CN113614743A (zh) 2019-03-18 2020-03-05 用于操控机器人的方法和设备

Country Status (4)

Country Link
US (1) US12005580B2 (zh)
CN (1) CN113614743A (zh)
DE (1) DE102019203634A1 (zh)
WO (1) WO2020187591A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人***的非零和博弈神经-最优控制方法
CN113156959B (zh) * 2021-04-27 2024-06-04 东莞理工学院 复杂场景自主移动机器人自监督学习及导航方法
CN113885330B (zh) * 2021-10-26 2022-06-17 哈尔滨工业大学 一种基于深度强化学习的信息物理***安全控制方法
DE102022201116B4 (de) 2022-02-02 2024-05-16 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和***
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
US20180330200A1 (en) * 2017-05-09 2018-11-15 Omron Corporation Task execution system, task execution method, training apparatus, and training method
WO2018211139A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
US20190072959A1 (en) * 2017-09-06 2019-03-07 GM Global Technology Operations LLC Unsupervised learning agents for autonomous driving applications

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102156303B1 (ko) * 2015-11-12 2020-09-15 딥마인드 테크놀로지스 리미티드 비동기 심층 강화 학습
US20210271968A1 (en) * 2018-02-09 2021-09-02 Deepmind Technologies Limited Generative neural network systems for generating instruction sequences to control an agent performing a task
GB201803599D0 (en) * 2018-03-06 2018-04-18 Morpheus Labs Ltd Behaviour models for autonomous vehicle simulators
US10703370B2 (en) * 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
US11231717B2 (en) * 2018-11-08 2022-01-25 Baidu Usa Llc Auto-tuning motion planning system for autonomous vehicles

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
US20180330200A1 (en) * 2017-05-09 2018-11-15 Omron Corporation Task execution system, task execution method, training apparatus, and training method
WO2018211139A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和***
US20190072959A1 (en) * 2017-09-06 2019-03-07 GM Global Technology Operations LLC Unsupervised learning agents for autonomous driving applications
CN109460015A (zh) * 2017-09-06 2019-03-12 通用汽车环球科技运作有限责任公司 用于自主驾驶应用的无监督学习代理

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAMYAR AZIZZADENESHELI ET AL.: ""Sample-Efficient Deep RL with Generative Adversarial Tree Search"", ARXIV.ORG,CORNELL UNIVERSITY LIBRARY, 15 June 2018 (2018-06-15), pages 1 - 15 *
李晨溪等: ""基于知识的深度强化学习研究综述"", 《***工程与电子技术》, vol. 39, no. 11, 30 November 2017 (2017-11-30), pages 2603 - 2613 *

Also Published As

Publication number Publication date
DE102019203634A1 (de) 2020-09-24
WO2020187591A1 (de) 2020-09-24
US20220176554A1 (en) 2022-06-09
US12005580B2 (en) 2024-06-11

Similar Documents

Publication Publication Date Title
CN113614743A (zh) 用于操控机器人的方法和设备
JP5300739B2 (ja) コンピュータ支援によって技術システムを制御および/または調整する方法
US10949740B2 (en) Machine learning device, numerical controller, machine tool system, manufacturing system, and machine learning method for learning display of operation menu
JP5448841B2 (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
Shi et al. An adaptive decision-making method with fuzzy Bayesian reinforcement learning for robot soccer
CN106552974B (zh) 具有移动轴异常负载警告功能的线放电加工机
CN110119844A (zh) 引入情绪调控机制的机器人运动决策方法、***、装置
US10353351B2 (en) Machine learning system and motor control system having function of automatically adjusting parameter
CN111144580B (zh) 一种基于模仿学习的层级强化学习训练方法和装置
Ribeiro Reinforcement learning agents
CN106558959B (zh) 机械学习装置和线圈制造装置
US11762679B2 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium
EP3899797A1 (en) Multi-agent reinforcement learning with matchmaking policies
US11897066B2 (en) Simulation apparatus
US20170091675A1 (en) Production equipment including machine learning system and assembly and test unit
CN111433689B (zh) 用于目标***的控制***的生成
CN109725597A (zh) 测试装置以及机器学习装置
Baert et al. Maximum causal entropy inverse constrained reinforcement learning
US20230120256A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium and device
US11628562B2 (en) Method, device and computer program for producing a strategy for a robot
JPH06332506A (ja) 非線形制御装置
Zhang et al. A deep reinforcement learning based human behavior prediction approach in smart home environments
JP2000339005A (ja) 制御対象の最適化制御方法及び制御装置
JP6829271B2 (ja) 測定動作パラメータ調整装置、機械学習装置及びシステム
CN111077769A (zh) 用于控制或调节技术***的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination