CN115081612A - 用以改进机器人策略学习的设备和方法 - Google Patents

用以改进机器人策略学习的设备和方法 Download PDF

Info

Publication number
CN115081612A
CN115081612A CN202210250821.5A CN202210250821A CN115081612A CN 115081612 A CN115081612 A CN 115081612A CN 202210250821 A CN202210250821 A CN 202210250821A CN 115081612 A CN115081612 A CN 115081612A
Authority
CN
China
Prior art keywords
model
strategy
training data
state
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210250821.5A
Other languages
English (en)
Inventor
F·伯肯坎普
L·弗勒利希
M·列法罗夫
A·多尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN115081612A publication Critical patent/CN115081612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • G05D1/0016Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement characterised by the operator's input device
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Medical Informatics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)

Abstract

用以改进机器人策略学习的设备和方法。一种用于学习策略的计算机实现的方法,包括以下步骤:至少记录代理与其遵循策略的环境的交互情节,并将所记录的情节添加到训练数据集合。基于训练数据来优化转变动力学模型,使得转变动力学模型取决于训练数据中包含的状态和动作来预测环境的下一状态。通过优化回报,基于训练数据和转变动力学模型来优化策略参数。该方法的特征在于,转变动力学模型包括表征全局模型的第一模型和表征校正模型的第二模型,该校正模型被配置为校正第一模型的输出。

Description

用以改进机器人策略学习的设备和方法
本发明涉及一种用于通过改进的环境模型学习策略的方法、一种计算机程序和一种机器可读存储介质、一种实行所述方法的***。
现有技术
在强化学习中,目标是控制真实的、未知的随机***,其特征在于转变动力学p
方程(1):
Figure 984005DEST_PATH_IMAGE001
其编码在下一状态之上的概率分布
Figure 432304DEST_PATH_IMAGE002
注意,确定性***被明确允许作为随机***的特例。***由随机(或确定性)策略
Figure 493932DEST_PATH_IMAGE003
控制,使得π θ 取决于时间步长t和对应的状态s t ,并由θ参数化。
强化学习的目标是找到在一定时间范围H内使预期回报r最大化的策略参数θ。允许无限的范围,即,
Figure 154721DEST_PATH_IMAGE004
。所得的优化问题是:
方程(2):
Figure 500251DEST_PATH_IMAGE005
其中
Figure 588293DEST_PATH_IMAGE006
标示所谓的折扣因子,并且
Figure 386485DEST_PATH_IMAGE007
是阶段回报。
实际上,确切的动力学p是未知的。一种解决方式将是从与真实***p交互中收集数据,并使用它来优化策略。这样做的另一种方式是基于模型的强化学习,其中基于来自方程(1)的轨迹数据学习近似的动力学模型
Figure 601696DEST_PATH_IMAGE008
。也就是说,将当前策略π θ 应用于***,并在以下伪代码的第4行中记录状态转变:
用于基于通用模型的强化学习的伪代码:
Figure 536154DEST_PATH_IMAGE009
关键的挑战是,学习模型不可避免地仅是真实世界的近似,使得
Figure 60677DEST_PATH_IMAGE010
。因此,方程(2)中的期望在不同的状态分布上,这可能导致缓慢收敛以及甚至在方程(2)中的真实***p上的次优解,这是本发明将解决的问题。
存在两种主要方式来减轻模型误差。一种是改进第5行中伪代码的模型训练,而替代方法聚焦于第6行中的策略优化。
Michael Janner, Justin Fu, Marvin Zhang和Sergey Levine的“When totrust your model: Model-based policy optimization”(在Advances in NeuralInformation Processing Systems中, volume 32, pages 12519–12530. CurranAssociates, Inc., 2019)提出以从D env 独立同分布选择的状态开始,仅用模型模拟短范围。由于模拟误差与该范围的长度相结合,因此这减小误差的大小。然而,它没有解决来自推广(rollout)的模型误差的根本问题,并且使推广范围成为基本的(并且调谐起来具有挑战的)超参数。
Andreas Doerr, Christian Daniel, Duy Nguyen-Tuong, Alonso Marco,Stefan Schaal, Toussaint Marc和Sebastian Trimpe的“Optimizing long-termpredictions for model-based policy search”(volume 78 of Proceedings ofMachine Learning Research, pages 227–238. PMLR, 13–15 Nov 2017. URL
Figure DEST_PATH_IMAGE012AA
)取而代之地聚焦于学习近似模型以在长期预测任务上具有低误差。
迭代学习控制(D. A. Bristow, M. Tharayil和A. G. Alleyne的“A survey ofiterative learning control”,IEEE Control Systems Magazine, 26(3):96–114,2006)描述了聚焦于基于模型的RL的特定子情况的一类方法,其中策略π和学习模型两者是固定的,除了时间相关误差项,该时间相关误差项可以基于其学习模型的线性化以及以状态和动作为二次的回报函数而以封闭形式计算。
本发明的优点
提出使用数据D env 从与环境交互收集的数据中学习或改进(潜在地时间相关的)模型
Figure 868534DEST_PATH_IMAGE013
。最后,基于该学习模型,通过近似求解方程(3)来优化策略参数(例如在伪代码的第6行中):
方程(3):
Figure 887437DEST_PATH_IMAGE014
为此目的,提出了一种特定形式的模型学习,它可以附加于其他模型学习方法一起使用以改进学习性能。特别地,虽然现有方法仅基于环境数据学习真实动力学p的全局模型g,但是提出附加地学习(同策略(on-policy))校正项。于是所得模型近似由方程(4)给出:
方程(4):
Figure 676401DEST_PATH_IMAGE015
其具有可以是状态相关的全局模型g和同策略校正模型d t
如果全局模型和/或校正项d t 是概率性的,则求和运算被解释为由分布编码的随机变量的总和。
虽然全局模型g全局地近似动力学(包括异策略(off-policy),或者换句话说,对于RL过程期间所有收集的数据),但是同策略校正确保了低误差的同策略(或者换句话说,利用与当前策略相似的策略已经收集的数据)。
如果从具有如方程(4)中提出的预期转变动力学的D env 中的情节重播动作序列,则可以从真实环境获得确切的情节数据。因此,方程(3)中的同策略模型误差减少,这导致在优化策略时改进的稳定性和数据效率。
在确定性转变动力学和策略的特例中,校正项导致同策略模型中的零误差。
发明内容
在第一方面,本发明涉及一种用于为代理、特别是至少部分自主的机器人学习策略的计算机实现的方法。取决于当前状态,可以将策略配置为输出动作或动作上的分布。如果遵循由策略提出的动作,将实现策略已经对于其优选地通过强化学习进行了优化的目标。
该方法以初始化策略π θ 和转变动力学模型
Figure 371825DEST_PATH_IMAGE008
开始,倘若代理实行动作(a),则该转变动力学模型
Figure 144609DEST_PATH_IMAGE008
取决于当前状态(s t )和所述动作(a)两者预测在环境和/或代理的下一状态(s t+1)之上的分布。因此,可以说转变动力学模型近似转变概率或确定性转变并输出下一状态。注意,环境也可以是***,其中代理例如是***的参与者(actor)。转变动力学模型将当前状态和动作(例如由策略确定的动作)取作输入,并返回下一状态或下一状态之上的分布。
此后跟随着重复以下步骤,直到满足终止条件:
通过遵循策略π θ 并且将记录的情节添加到训练数据D env 的集合来至少记录代理与其环境的交互情节。情节可以是代理的轨迹。
记录的交互可以包括成对的状态和应用的动作或者应用的动作和此后到达的下一状态。然后,情节包括从第一动作开始直到最后一个动作的所有对。记录交互的步骤可以在真实世界环境中执行。附加地或替代地,该步骤通过环境模拟来实行。状态通常由传感器感测,其中传感器感测代理的状态和/或代理的环境状态,然后将其用作策略的输入。在环境模拟的情况下,模拟状态。
情节可以同步或异步、同策略或异策略收集并具有完整或部分轨迹。
在将情节添加到经训练的数据之后,跟随着基于训练数据D env 对转变动力学模型(
Figure 685311DEST_PATH_IMAGE008
)的优化,使得转变动力学模型(
Figure 613603DEST_PATH_IMAGE008
)取决于包含在训练数据D env 中的状态和动作来预测环境的下一状态。有趣的是,所有记录的情节可以独立于经训练策略的过程而被重新使用。该属性使得该步骤非常采样高效。
转变动力学模型(
Figure 479928DEST_PATH_IMAGE008
)的特征在于,它包括表征全局模型的第一模型(g)和也被称为同策略校正模型的校正模型(d t ),该校正模型(d t )被配置为校正第一模型的输出。换句话说,转变动力学模型是第一和第二模型的叠加。在下文中,校正模型也被称为校正项。转变动力学模型
Figure 5587DEST_PATH_IMAGE008
被配置为预测环境和/或代理在实行针对当前状态的预定义动作时将处于的下一状态。因此,它预测下一时间步长的状态,其中时间步长可以与实行动作或感测状态的时间点相关。时间步长也可以是离散值,它表征自预定义的起始点起所实行的动作数量。校正模型被配置为在实行动作之后校正第一模型相对于环境真实状态的误差。例如,第一模型取决于当前状态和例如由策略确定的动作来预测环境的状态。然后,校正模型校正第一模型的预测状态,使得在代理针对当前状态实行所述动作之后,预测状态尽可能地类似于环境的真实状态。换句话说,校正模型校正第一模型的输出,以获得尽可能接近环境将呈现的状态的预测状态。因此,校正模型校正第一模型以获得关于环境、特别是环境动力学的更准确的状态。
注意,转变动力学模型被学习来近似环境的动力学,并且优选地是代理的动力学。这可以实现所述模型基于来自D env 的情节数据尽可能准确地预测状态。
优选地,第一模型取决于环境的当前状态和动作,并且如果实行输入的动作,则输出环境的预测状态。校正项取决于时间或时间步长和/或当前状态。替代地,校正项是提取的校正值,其由训练数据的记录状态和第一模型的预测状态之间的差异来确定。校正项输出对于第一模型的校正。第一模型被参数化,其中其参数在优化转变动力学模型的步骤中被优化。相比之下,校正模型输出可以直接添加到第一模型的离散校正,或者校正项也在训练数据的记录状态和第一模型的预测状态之间的差异上进行参数化和优化。校正项的特例是非参数化函数,而取而代之由时间离散误差项组成。
在前一步骤完成之后,此后跟随着通过经由遵循(当前)策略π θ 优化至少一个情节之上的回报r,从而基于训练数据D env 和转变动力学模型
Figure 615560DEST_PATH_IMAGE008
优化策略π θ 参数θ,其中转变动力学模型
Figure 129849DEST_PATH_IMAGE008
用于预测应用策略时的下一状态。换句话说,策略不是应用于环境上,取而代之它与转变动力学模型交互。该优化步骤也可以称为通过基于模型的强化学习来优化策略。所述优化包括特别是取决于回报来更新策略的参数。
给定学习的转变动力学模型
Figure 167075DEST_PATH_IMAGE008
,可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者(Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel和Sergey Levine的“Soft actor-critic: Off-policy maximum entropy deep reinforcement learningwith a stochastic actor”,2018),或者随机值梯度(Nicolas Heess, Gregory Wayne,David Silver, Timothy Lillicrap, Tom Erez和Yuval Tassa的“Learning continuouscontrol policies by stochastic value gradients”,In C. Cortes, N. Lawrence, D.Lee, M. Sugiyama和R. Garnett, editors的“Advances in Neural InformationProcessing Systems”,volume 28, pages 2944–2952. Curran Associates, Inc., 2015.URL
Figure DEST_PATH_IMAGE017A
Figure DEST_PATH_IMAGE019A
)。
该策略可以是神经网络,或任何其他参数化的分布或动作之上的确定性函数。
回报指示所采取的状态和/或动作的质量。典型地,该回报信号被设计来操控学***滑变体(例如,指数函数)、负二次成本项(类似于来自最优控制的方法)等。如果学习算法应当同时为多个目标而努力,也可能的是构建另一个回报信号作为加权的一些其他回报信号。
如果不满足终止条件,将以记录情节开始重复上面刚解释的步骤。终止条件可以是相对于策略优化而选择的收敛标准。注意,如果转变动力学模型足够准确,则可以跳过记录情节的步骤。
换句话说,第一方面提出的方法通过添加状态和/或时间相关项来扩展转变动力学模型,以减少同策略的模型预测,即在由当前控制策略选择的动作下。这具有如下优点:转变动力学模型在没有与环境的附加交互的情况下变得更准确。因为转变动力学模型的准确性仅对于与学习策略相关的部分有所改进,特别是对于通过遵循策略而达到的所述部分有所改进,所以所述方法自动地仅集中于全局模型的相关部分来改进它。
提出了为了优化转变动力学模型(
Figure 524238DEST_PATH_IMAGE008
)在训练数据上优化第一模型之后选择校正项,使得对于从训练数据D env 上的策略π θ 中选择的动作,转变动力学模型误差是低的。校正模型适用于当前策略,以为每个收敛状态提供最准确的转变动力学模型。优选地,校正模型被优化,使得全局模型的误差对于当前策略是最小的,其中当前策略是取决于新添加的训练数据当前被优化的策略。
此外,提出了选择校正项
Figure 672323DEST_PATH_IMAGE020
,使得如果如D env 中那样确切地选择动作,则预期转变
Figure 555965DEST_PATH_IMAGE021
的序列将变得等于训练数据。也就是说,选择函数d t 来最小化在以下方程左和右两边之间的差异的某种度量。
方程(5):
Figure 311563DEST_PATH_IMAGE022
此外,提出了通过最小化在校正模型d t 的输出与如下差异之间的差异的度量来选择校正模型d t :训练数据的记录状态
Figure 15076DEST_PATH_IMAGE023
与转变动力学模型
Figure 966852DEST_PATH_IMAGE008
的第一项g的预期预测状态之间的差异。
此外,提出了校正模型d t 与第一项g联合优化。优选地,为了优化策略参数θ,可以通过策略π θ 下的动作的可能性(或对数可能性)来重新加权校正模型d t ,以确保同策略模型拟合。
联合优化意味着转变动力学模型
Figure 705001DEST_PATH_IMAGE008
及其两个项均在同一优化步骤内更新。这具有如下优点:不必明确确定第一模型的误差,并且也不需要优化关于所述误差的校正项。这使方法加速,并进一步改进了转变动力学模型的准确性。
此外,提出了校正项d t 是状态和/或时间相关的。该时间可以是自情节开始起经过的时间。在训练期间,自情节开始起经过的时间是从已经感测到环境的第一状态的时间点直到感测到当前状态的当前时间点可以测量的时间。当利用根据本发明第一方面获得的策略时,也可以应用相同的定义。替代地,时间可以表征自情节的第一动作起已经实行的动作数量。
此外,提出了项d t 仅可以是时间相关的,在这种情况下,我们可以具有确定性的校正项
Figure 97412DEST_PATH_IMAGE024
在给定数据和第一模型的情况下,该确定性的校正项是完全指定的。如果环境是确定性的,则当采取
Figure 553801DEST_PATH_IMAGE008
中的动作
Figure 309267DEST_PATH_IMAGE025
时,该时间相关项导致零误差模型误差。
此外,提出了校正项是概率函数,其中所述概率函数通过近似推断来优化。当确切的学习和推断在计算上难以处理时,近似推断方法通过折衷计算时间来换取准确性,从而使得从大数据学习现实模型成为可能。
策略的所确定动作可以被用来提供用于控制代理的参与者的控制信号,包括用于控制机器人的以上方法的所有步骤,并且进一步包括以下步骤:取决于所述输出信号确定所述致动器控制信号。优选地,所述致动器控制至少部分自主的机器人和/或制造机器和/或访问控制***。
注意,可以学习策略以用于控制代理的动力学和/或稳定性。该策略可以接收表征代理和/或环境的状态的传感器值作为输入。该策略被训练成通过最大化阶段回报来遵循最优轨迹。该策略输出表征控制值的值,使得代理将遵循最优轨迹。
将参考以下各图更详细地讨论本发明的实施例。各图示出了:
图1 方法的流程图;
图2 控制***,具有控制其环境中的致动器的分类器;
图3 控制至少部分自主的机器人的控制***;
图4 控制制造机器的控制***;
图5 控制自动化个人助理的控制***;
图6 控制访问控制***的控制***;
图7 控制监督***的控制***;
图8 控制成像***的控制***。
具体实施方式
在基于模型的强化学习中,学习真实***p的转变概率或确定性转变的近似模型
Figure 636343DEST_PATH_IMAGE026
。也就是说,学习模型将当前状态和控制动作取作输入,并返回下一状态或下一状态之上的分布。因此,该模型可以用于使用现有策略优化方法结合
Figure 451852DEST_PATH_IMAGE026
来优化策略。所提出的同策略校正采用对
Figure 943008DEST_PATH_IMAGE026
的固定的或学习的近似,并利用状态和/或时间相关项来扩展它,以减少同策略的模型预测,即在当前控制策略π所选择的动作下。
图1中示出的是用于学习用于控制机器人的策略的方法的实施例的流程图。
该方法以初始化(S1)策略(π θ )和转变动力学模型(
Figure 236586DEST_PATH_IMAGE008
)开始,倘若代理取决于当前状态(s t )和动作(a)两者实行所述动作(a),则转变动力学模型(
Figure 949327DEST_PATH_IMAGE008
)预测环境和/或代理的下一状态(s t+1)。
此后跟随着循环,直到满足终止条件:
循环的第一步骤是至少记录(S2)代理与其遵循策略(π θ )的环境的交互情节。后续,记录的情节被添加(S3)到训练数据(D env )的集合。
此后,实行步骤优化(S4)。这里,基于训练数据(D env )优化转变动力学模型(
Figure 155311DEST_PATH_IMAGE008
),使得转变动力学模型(
Figure 320714DEST_PATH_IMAGE008
)取决于包含在训练数据(D env )中的状态和动作来预测环境的下一状态。
模型
Figure 417983DEST_PATH_IMAGE008
的全局部分g可以使用任何现有的方法来学习,任何现有的方法包括近似推断、最小化预测误差的方法以及用以优化长期预测误差的方法。校正项d t 是相对于上面方程5优化的。
在完成步骤S4之后,跟随着步骤S5。该步骤包括通过经由遵循策略(π θ )而优化至少一个情节之上的回报,来基于训练数据(D env )和转变动力学模型(
Figure 985230DEST_PATH_IMAGE008
)优化策略(π θ )参数(θ)。给定步骤S4的转变动力学模型(
Figure 876963DEST_PATH_IMAGE008
),可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者、随机值梯度、近似策略优化和最大后验策略优化。
如果步骤S5已经完成并且不满足终止条件,则可以重复该循环。
如果该循环已经终止,则所得的优化策略可以用于计算用于控制物理***的控制信号,所述物理***例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机器或访问控制***。它通过学习用于控制物理***的策略并且然后相应地操作物理***来这样做。一般来说,如上所述获得的策略与任何种类的***交互。照此,应用范围非常广泛。在下文中,示例性地描述了一些应用。
图2中示出的是在其环境20中的致动器10的一个实施例。致动器10与控制***40交互。致动器10及其环境20将被统称为致动器***。在优选均匀间隔的距离处,传感器30感测致动器***的状况。传感器30可以包括几个传感器。对所感测的状况进行编码的传感器30的输出信号S(或者,在传感器30包括多个传感器的情况下,每个传感器的输出信号S)被传输到控制***40。可能的传感器包括但不限于:陀螺仪、加速度计、力传感器、相机、雷达、lidar、角度编码器等。注意,传感器通常不直接测量***的状态,而是观察状态的结果,例如,相机检测图像而不是直接检测汽车与其他交通参与方的相对位置。然而,可能的是从如图像或lidar测量之类的高维观察中过滤状态。
由此,控制***40接收传感器信号S的流。然后,它取决于传感器信号S的流计算一系列致动器控制命令A,该一系列致动器控制命令A然后被传输到致动器10。
控制***40在可选的接收单元50中接收传感器30的传感器信号S的流。接收单元50将传感器信号S变换成状态s。替代地,在没有接收单元50的情况下,每个传感器信号S可以直接取作输入信号s。
输入信号s然后被传递到策略60,该策略60例如可以由人工神经网络给出。
策略60由参数
Figure DEST_PATH_IMAGE028AAA
参数化,该参数
Figure DEST_PATH_IMAGE028AAAA
存储在参数存储装置St 1中并由其提供。
策略60从输入信号s确定输出信号y。输出信号y可以是动作a。输出信号y被传输到可选的转换单元80,该可选的转换单元80将输出信号y转换成控制命令A。致动器控制命令A然后被传输到致动器10,用于相应地控制致动器10。替代地,输出信号y可以直接取作控制命令A。
致动器10接收致动器控制命令A,被相应地控制,并且实行对应于致动器控制命令A的动作。致动器10可以包括控制逻辑,该控制逻辑将致动器控制命令A变换成另外的控制命令,该另外的控制命令然后被用于控制致动器10。
在另外的实施例中,控制***40可以包括传感器30。在甚至另外的实施例中,控制***40替代地或附加地可以包括致动器10。
在一个实施例中,策略60可以被设计为用于控制物理***的信号,所述物理***例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机器或访问控制***。它通过学习用于控制物理***的策略并且然后相应地操作物理***来这样做。
在仍另外的实施例中,可以设想的是控制***40控制显示器10a而不是致动器10。
此外,控制***40可以包括处理器45(或多个处理器)和其上存储有指令的至少一个机器可读存储介质46,如果实行所述指令,则使得控制***40实行根据本发明一个方面的方法。
图3示出了一实施例,其中控制***40用于控制至少部分自主的机器人、例如至少部分自主的载具100。
传感器30可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器和/或一个或多个位置传感器(如例如GPS)。这些传感器中的一些或全部优选地但不是必须地集成在载具100中。
替代地或附加地,传感器30可以包括用于确定致动器***状态的信息***。这样的信息***的一个示例是天气信息***,其确定环境20中天气的目前或未来状态。
例如,使用输入信号s,策略60可以例如控制至少部分自主的机器人以实现预定义的目标状态。输出信号y控制至少部分自主的机器人。
优选地集成在载具100中的致动器10可以由载具100的制动器、推进***、发动机、传动系或转向装置来给出。优选地,可以确定致动器控制命令A,使得致动器(或多个致动器)10被控制,使得载具100避免与至少部分自主机器人的环境中的对象碰撞。
优选地,至少部分自主的机器人是自主汽车。汽车状态的可能描述可以包括它的位置、速度、与其他交通参与方的相对距离、路面的摩擦系数(可以因例如雨、雪、干燥等不同的环境而变化)。可以测量该状态的传感器包括陀螺仪、车轮处的角度编码器、相机/lidar/雷达等。这种类型的学习的回报信号将表征汽车对预先计算的轨迹(也称为参考轨迹)多么好地遵循。参考轨迹可以由最佳规划器来确定。该***的动作可以是转向角、制动和/或油门。优选地,制动压力或转向角由策略输出,所述策略特别是使得实现最小的制动距离或实行回避操纵,如(次)最优规划器将这样做。
注意,对于该实施例,可以学习策略以用于控制至少部分自主的机器人的动力学和/或稳定性。例如,如果机器人处于安全危急情形,则策略可以例如通过实行紧急制动来控制机器人操纵它脱离所述危急情形。然后,该策略可以输出表征负加速度的值,其中取决于所述值来控制参与者,例如用与负加速度相关的力来中断。
在另外的实施例中,至少部分自主的机器人可以由另一个移动机器人(未示出)给出,该另一个移动机器人(未示出)可以例如通过飞行、游泳、潜水或行走来移动。移动机器人尤其可以是至少部分自主的割草机,或者至少部分自主的清洁机器人。
在另外的实施例中,至少部分自主的机器人可以由园艺机器人(未示出)给出,该园艺机器人(未示出)使用传感器30、优选地是光学传感器来确定环境20中的植物的状态。致动器10可以是用于喷洒化学物质的喷嘴。可以确定致动器控制命令A,以使得致动器10向植物喷洒合适量的合适化学物质。
在甚至另外的实施例中,至少部分自主的机器人可以由家用电器(未示出)给出,该家用电器(未示出)如例如是洗衣机、炉子、烤箱、微波炉或洗碗机。传感器30(例如光学传感器)可以检测将由家居电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器30可以检测洗衣机内部衣物的状态。然后可以取决于检测到的衣物材料来确定致动器控制信号A。
图4中示出的是一实施例,其中控制***40用于控制例如作为生产线的一部分的制造***200的制造机器11(例如冲压切割机、切割机或枪钻)。控制***40控制致动器10,该致动器10进而控制制造机器11。
传感器30可以由光学传感器给出,该光学传感器捕获例如制造产品12的属性。策略60可以取决于制造产品12的状态来确定操控产品12的动作。控制制造机器11的致动器10然后可以取决于所确定的制造产品12的状态被控制,用于制造产品12的后续制造步骤。或者,可以设想的是,取决于所确定的制造产品12的状态,在后续制造产品12的制造期间控制致动器10。
用于制造的优选实施例涉及通过机器人自主(拆卸)组装某些对象。状态可以取决于传感器来确定。优选地,为了组装对象,状态表征机器人操控器本身和应当***控的对象。对于机器人操控器,状态可以由其关节角和角速度以及其末端执行器的位置和取向组成。该信息可以通过关节中的角度编码器以及测量机器人关节角速率的陀螺仪来测量。从运动学方程中,可能的是推导出末端执行器位置和取向。取而代之,也可能的是利用相机图像或lidar扫描来推断与机器人操控器的相对位置和取向。机器人任务的回报信号可以例如拆分成组装过程的不同阶段。例如,当在组装期间将销***孔中时,合适的回报信号将编码销相对于孔的位置和取向。典型地,机器人***经由每个关节处的电动机来致动。因此,取决于实现,学习算法的动作可以是所需的扭矩或者是直接施加到电机的电压/电流。
图5中示出的是一实施例,其中控制***40用于控制自动化个人助理250。传感器30可以是例如用于接收用户249的手势的视频图像的光学传感器。替代地,传感器30也可以是例如用于接收用户249的语音命令的音频传感器。
控制***40然后确定用于控制自动化个人助理250的致动器控制命令A。根据传感器30的传感器信号S确定致动器控制命令A。传感器信号S被传输到控制***40。例如,策略60可以被配置为例如取决于表征手势识别的状态来确定动作,该手势识别可以由算法来确定以标识用户249做出的手势。控制***40然后可以确定致动器控制命令A,用于传输到自动化个人助理250。然后,它将所述致动器控制命令A传输到自动化个人助理250。
例如,可以根据由分类器60识别的所标识用户手势来确定致动器控制命令A。然后,它可以包括使得自动化个人助理250从数据库检索信息并以适合于用户249接收的形式输出该检索到的信息的信息。
在另外的实施例中,可以设想的是,代替自动化个人助理250,控制***40控制根据所标识的用户手势控制的家用电器(未示出)。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。
图6中示出的是一实施例,其中控制***控制访问控制***300。访问控制***可以被设计成物理地控制访问。例如,它可以包括门401。传感器30被配置为检测与决定是否准许访问相关的场景。例如,它可以是用于提供图像或视频数据、用于检测人脸的光学传感器。
图7中示出的是一实施例,其中控制***40控制监督***400。该实施例在很大程度上与图5中所示的实施例等同。因此,将仅详细描述不同的方面。传感器30被配置为检测被监督的场景。控制***不一定控制致动器10,而是控制显示器10a。例如,机器学习***60可以确定场景的分类,例如光学传感器30检测到的场景是否可疑。被传输到显示器10a的致动器控制信号A然后可以例如被配置为使得显示器10a取决于所确定的分类来调整所显示的内容,例如突出显示被机器学习***60认为可疑的对象。
图8中示出的是用于控制成像***500的控制***40的实施例,成像***500例如是MRI装置、x射线成像装置或超声成像装置。传感器30例如可以是成像传感器。策略60然后可以基于其输入状态确定表征轨迹的动作,以取得成像***500的记录。
术语“计算机”涵盖用于处理预定义计算指令的任何设备。这些计算指令可以以软件的形式,或者以硬件的形式,或者还以软件和硬件的混合形式。
进一步理解,过程不仅可以完全以如描述的软件来实现。它们也可以以硬件或者以软件和硬件的混合形式来实现。

Claims (13)

1.一种用于学习用于代理的策略的计算机实现的方法,包括以下步骤:
- 初始化(S1)策略(π θ )和转变动力学模型(
Figure DEST_PATH_IMAGE001
),所述转变动力学模型(
Figure 990215DEST_PATH_IMAGE001
)预测环境和/或代理的下一状态(s t+1);
- 重复以下步骤,直到满足终止条件:
-至少记录(S2)代理与遵循策略(π θ )的环境的交互情节,并且将记录的情节添加(S3)到训练数据(D env )的集合;
-基于训练数据(D env )优化(S4)转变动力学模型(
Figure 438514DEST_PATH_IMAGE001
),使得转变动力学模型(
Figure 14989DEST_PATH_IMAGE001
)取决于包含在训练数据(D env )中的状态和动作来预测环境的下一状态;
-通过经由遵循策略(π θ )优化至少一个情节之上的回报,基于训练数据(D env )和转变动力学模型(
Figure 941357DEST_PATH_IMAGE001
)优化(S5)策略(π θ )参数(θ);
其特征在于
转变动力学模型(
Figure 490150DEST_PATH_IMAGE001
)包括表示环境的学习模型的第一模型(g)和校正模型(d t ),所述校正模型(d t )被配置为校正第一模型(g)的误差。
2.根据权利要求1所述的方法,其中,为了优化转变动力学模型(
Figure 597433DEST_PATH_IMAGE001
),在训练数据(D env )上优化第一模型(g)之后,选择校正模型,使得对于从训练数据上的策略(π θ )选择的动作,第一模型(g)的误差被最小化。
3.根据前述权利要求中任一项所述的方法,其中,校正模型(d t )被优化,使得如果在记录训练数据(D env )的情节时动作被选择为完成,则由转变动力学模型(
Figure 661204DEST_PATH_IMAGE001
)预测的状态序列将等于训练数据的记录状态。
4.根据权利要求3所述的方法,其中,通过最小化在校正模型(d t )的输出与如下差异之间的差异来选择校正模型(d t ):训练数据的记录状态(
Figure 391263DEST_PATH_IMAGE002
)与第一模型(g)的预测状态之间的差异。
5.根据前述权利要求中任一项所述的方法,其中校正模型(d t )与第一模型(g)联合优化。
6.根据前述权利要求中任一项所述的方法,其中校正模型(d t )是状态或时间相关的,其中时间表征自相应情节开始起经过的时间跨度。
7.根据权利要求6所述的方法,其中环境是确定性的,并且校正模型是时间相关的。
8.根据前述权利要求中任一项所述的方法,其中校正模型是概率函数,其中所述概率函数通过近似推断来优化。
9.一种用于取决于根据前述权利要求中任一项获得的学习策略(π θ )来操作代理的计算机实现的方法,其中传感器感测代理的环境,并且其中取决于所感测的环境来确定当前状态(s t ),并且其中所述学习策略(π θ )取决于当前状态来确定用于代理的动作(a t ),其中代理实行所述动作。
10.根据前述权利要求中任一项所述的方法,其中代理是至少部分自主的机器人(100)和/或制造机器(200)和/或访问控制***(300)。
11.一种计算机程序,其被配置为如果所述计算机程序由处理器(45,145)实行,则使得计算机实行根据权利要求1至10中任一项的方法及其所有步骤。
12.一种机器可读存储介质(46,146),其上存储根据权利要求11的计算机程序。
13.一种用于操作致动器(10)的控制***(40),所述控制***(40)包括利用根据权利要求1至8中任一项所述的方法训练的策略(60),并且被配置为根据所述策略(60)的输出来操作所述致动器(10)。
CN202210250821.5A 2021-03-16 2022-03-15 用以改进机器人策略学习的设备和方法 Pending CN115081612A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21162920.9A EP4060567A1 (en) 2021-03-16 2021-03-16 Device and method to improve learning of a policy for robots
EP21162920.9 2021-03-16

Publications (1)

Publication Number Publication Date
CN115081612A true CN115081612A (zh) 2022-09-20

Family

ID=74946996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250821.5A Pending CN115081612A (zh) 2021-03-16 2022-03-15 用以改进机器人策略学习的设备和方法

Country Status (3)

Country Link
US (1) US20220297290A1 (zh)
EP (1) EP4060567A1 (zh)
CN (1) CN115081612A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402956B (zh) * 2023-06-02 2023-09-22 深圳大学 智能驱动的三维物体可交互重建方法、装置、设备和介质

Also Published As

Publication number Publication date
EP4060567A1 (en) 2022-09-21
US20220297290A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
Jesus et al. Deep deterministic policy gradient for navigation of mobile robots in simulated environments
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
Morales et al. A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Sadeghzadeh et al. Self-learning visual servoing of robot manipulator using explanation-based fuzzy neural networks and Q-learning
Chen et al. Robot navigation with map-based deep reinforcement learning
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
Liu et al. Episodic memory-based robotic planning under uncertainty
Katyal et al. High-speed robot navigation using predicted occupancy maps
CN111830822A (zh) 配置与环境交互的***
Jiang et al. iTD3-CLN: Learn to navigate in dynamic scene through Deep Reinforcement Learning
CN118201742A (zh) 使用图神经网络的多机器人协调
Mustafa Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach
EP3884436A1 (en) Controlling agents using latent plans
CN115081612A (zh) 用以改进机器人策略学习的设备和方法
Chen et al. Deep reinforcement learning of map-based obstacle avoidance for mobile robot navigation
CN113671942A (zh) 用于控制机器人的设备和方法
CN111949013A (zh) 控制载具的方法和用于控制载具的装置
CN111984000A (zh) 用于自动影响执行器的方法和设备
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
US20230090127A1 (en) Device and method for controlling an agent
US20240054008A1 (en) Apparatus and method for performing a task
Paudel Learning for robot decision making under distribution shift: A survey
Alamiyan-Harandi et al. A new framework for mobile robot trajectory tracking using depth data and learning algorithms
Zhou et al. Deep reinforcement learning with long-time memory capability for robot mapless navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination