CN113711139A - 用于操控技术装置的方法和设备 - Google Patents

用于操控技术装置的方法和设备 Download PDF

Info

Publication number
CN113711139A
CN113711139A CN202080027845.3A CN202080027845A CN113711139A CN 113711139 A CN113711139 A CN 113711139A CN 202080027845 A CN202080027845 A CN 202080027845A CN 113711139 A CN113711139 A CN 113711139A
Authority
CN
China
Prior art keywords
state
determined
target
policy
technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080027845.3A
Other languages
English (en)
Inventor
F·施密特
J·G·沃尔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113711139A publication Critical patent/CN113711139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

用于操控技术装置(102)的计算机实现的方法和设备(100),其中所述技术装置(102)是机器人、至少部分自主的车辆、家居控制装置、家用电器、家庭手工设备尤其是电动工具、生产机器、个人辅助设备、监控***或者访问控制***,其中所述设备(100)具有用于至少一个传感器(108)的输入数据(106)的输入端(104)、用于借助于操控信号(112)操控所述技术装置(102)的输出端(110)和计算装置(114),所述计算装置被构造用于根据输入数据(106)操控技术装置(102),其中根据输入数据(106)确定所述技术装置(102)的至少一部分或所述技术装置(102)的环境的状态,其中根据用于所述技术装置(102)的策略和状态确定至少一个行动,并且其中所述技术装置(102)***控用于执行至少一个行动,其中利用强化学习算法在与所述技术装置(102)或所述技术装置(102)的环境的交互中根据至少一个反馈信号学习尤其是由人工神经网络代表的策略,其中根据目标预设确定所述至少一个反馈信号,其中与连续函数的值成比例地确定交互情节的至少一个起始状态和/或至少一个目标状态,其中通过将连续函数应用于先前为策略确定的性能度量、通过将连续函数应用于先前为策略确定的性能度量的导数、通过将连续函数应用于先前为策略确定的性能度量的尤其是时间上的变化、通过将连续函数应用于策略或通过组合这些应用来确定所述值。

Description

用于操控技术装置的方法和设备
背景技术
蒙特卡洛树(Monte Carlo Tree)搜索和强化学习是可以发现或学习用于操控技术装置的策略所利用的方案。于是可以使用曾发现或学习的策略来操控技术装置。
值得期望的是加速或者首先能够实现策略的发现或学习。
发明内容
这通过根据独立权利要求的计算机实现的方法和设备来实现。
用于操控技术装置的计算机实现的方法规定,技术装置是机器人、至少部分自主的车辆、家居控制装置、家用电器、家庭手工设备、尤其是电动工具、生产机器、个人辅助设备、监控***或访问控制***,其中根据输入数据,确定技术装置的至少一部分或技术装置的环境的状态,其中根据状态并且根据用于技术装置的策略来确定至少一个行动,以及其中为此对技术装置进行操控,以便执行至少一个行动,其中尤其是由人工神经网络代表的策略利用强化学习算法在与技术装置或技术装置的环境交互中根据至少一个反馈信号被学习,其中至少一个反馈信号根据目标预设被确定,其中用于交互情节的至少一个起始状态和/或至少一个目标状态与连续函数的值成比例地被确定,其中通过将连续函数应用于先前为策略确定的性能度量、通过将连续函数应用于为策略确定的性能度量的导数、通过将连续函数应用于为策略确定的性能度量的尤其是时间上的变化、通过将连续函数应用于策略或通过组合这些应用来确定所述值。目标预设例如包括目标状态g的实现。任意强化学习训练算法在与环境交互中越过多次迭代来训练策略
Figure DEST_PATH_IMAGE001
Figure 768002DEST_PATH_IMAGE002
。与环境的交互在交互情节、即情节(Episoden)或走子(Rollout)中发生,所述交互情节在起始状态s0中开始,并且通过达到目标预设或最大时间范围T而结束。在基于目标的强化学习的情况下,目标预设包含实现目标状态g,但是更一般地,可以附加地或替代地关于所获得的奖励r进行预设。下面在问题提出的实际目标预设和情节的临时目标预设之间进行区分。问题提出的实际目标预设例如是从每个可能的起始状态实现一个目标或从一个起始状态实现所有可能的目标。情节的临时目标预设例如在基于目标的强化学习情况下是从情节的起始状态出发实现特定的目标。
如果技术装置和环境允许这一点,则在训练期间原则上可以自由选择情节的起始和目标状态,而与实际问题提出的目标预设无关。如果一个目标状态g或多个目标状态固定地被预先给定,则对于情节需要起始状态s0。而如果起始状态s0固定地被预先给定,则在基于目标的强化学习的情况下需要目标状态g。原则上也可以选择两者。
在训练期间起始/目标状态的选择影响策略π在实现问题提出的实际目标预设方面的训练行为。尤其是在环境仅稀疏地给予奖励r、这意味着很少r不等于0的场景中,训练非常困难直至是不可能的,并且在训练期间起始/目标状态的巧妙选择可以在问题提出的实际目标预设方面巨大地改善或者甚至首先能够实现训练进展。
在该方法中,在训练的过程上生成起始/目标状态的课程。这意味着情节的起始/目标状态根据概率分布、元策略
Figure DEST_PATH_IMAGE004A
Figure DEST_PATH_IMAGE005
来选择,其跨越训练过程不时地被重新计算。这通过将连续函数G应用于估计的、与状态有关的性能度量
Figure 340934DEST_PATH_IMAGE006
的方式来发生。该与状态有关的性能度量
Figure DEST_PATH_IMAGE007
基于从策略π与环境的交互中收集的数据、即状态s、行动
Figure DEST_PATH_IMAGE009
、奖励r和/或附加地收集的数据被估计。例如,性能度量
Figure 120672DEST_PATH_IMAGE010
表示目标实现概率,利用所述目标实现概率来估计每个状态作为可能的起始或目标状态的目标预设的实现。
例如,根据概率分布选择起始/目标状态。例如,已知根据在所有可能状态上的均匀分布来选择起始状态。通过使用通过将连续函数应用于性能度量
Figure 719143DEST_PATH_IMAGE011
、应用于性能度量的导数、应用于性能度量的尤其是时间上的变化、应用于策略π或组合这些应用确定的概率分布,显著改善训练进展。通过这种应用生成的概率分布表示用于选择起始/目标状态的元策略。
与具有或不具有起始/目标状态的课程的传统强化学习算法相比,元策略的特定显性配置根据经验显示改善的训练进展。与现有的课程方案相比,必须确定更少或不必确定超参数、即用于确定课程的设定参量。此外,元策略可以成功地应用于许多不同的环境,因为例如不必对环境动态做出假设,或者在固定地预先给定的目标状态的情况下目标状态g不必从早先就是已知的。此外,与传统的基于演示的算法相比,不需要演示参考策略。
根据状态分布确定起始状态和/或目标状态。这些起始状态和/或目标状态可以被采样,即可以借助于根据连续函数G确定的元策略
Figure DEST_PATH_IMAGE012A
Figure 15739DEST_PATH_IMAGE013
来发现所述起始状态和/或目标状态。在预先给定的目标状态g情况下,起始状态s0被采样。在预先给定的起始状态s0情况下,目标状态g被采样。也可以对两种状态进行采样。对于起始状态s0使用性能度量
Figure 572622DEST_PATH_IMAGE014
。对于目标状态g使用性能度量
Figure 839655DEST_PATH_IMAGE015
。附加地或可替代地,使用各自性能度量的导数、例如梯度
Figure 772976DEST_PATH_IMAGE016
或者使用各自性能度量的尤其是时间上的变化
Figure 176276DEST_PATH_IMAGE017
或者策略
Figure 169640DEST_PATH_IMAGE018
Figure 658390DEST_PATH_IMAGE019
。在策略的训练的迭代i中,元策略定义与环境的交互情节的起始状态s0或目标状态g或两者。用于选择起始状态s0的元策略
Figure 129822DEST_PATH_IMAGE020
通过性能度量
Figure 105738DEST_PATH_IMAGE021
、性能度量的导数、例如梯度
Figure 535582DEST_PATH_IMAGE022
、性能度量的尤其是时间上的变化
Figure 777207DEST_PATH_IMAGE023
和/或策略
Figure 52331DEST_PATH_IMAGE024
来定义。用于选择目标状态g的元策略
Figure 430223DEST_PATH_IMAGE025
通过性能度量
Figure 499810DEST_PATH_IMAGE026
、性能度量的导数、例如梯度
Figure 963152DEST_PATH_IMAGE028
、性能度量的尤其是时间上的变化
Figure 776387DEST_PATH_IMAGE029
和/或策略
Figure 8786DEST_PATH_IMAGE030
来定义。该做法可以非常普遍地应用,并且根据性能度量的选择、潜在地可应用于此的数学运算、即导数或尤其是时间上的变化以及用于确定状态分布的连续函数G,可以采用许多不同的具体表现形式。必须规定较少或不必规定超参数,所述超参数可以通过动作的成功或失败决定。不需要用于检测参考策略的演示。加速训练过程或者在困难的环境中根本首先能够实现训练过程的有意义的起始状态尤其是例如在选择起始状态时与应用于关于状态的性能度量的导数或梯度的连续函数G成比例地可以准确地在极限处被选择,除了具有低目标实现概率或性能的这种状态之外,具有高目标实现概率或性能的状态处于所述极限处。在此情况下,导数或梯度提供关于性能度量的变化的信息。策略的局部改善足以提高具有先前低目标实现概率或性能的状态的目标实现概率或性能。与起始状态的非定向传播相反,起始状态定向地根据准则以应用于性能度量的方式变得可优先化。如果选择目标状态,相同内容适用于所述目标状态的传播。
优选地规定,估计性能度量。所估计的性能量度
Figure 514853DEST_PATH_IMAGE031
表示性能度量
Figure 888328DEST_PATH_IMAGE032
的良好近似。所估计的性能度量
Figure 770833DEST_PATH_IMAGE033
表示性能度量
Figure 123317DEST_PATH_IMAGE034
的良好近似。
优选地规定,所估计的性能度量通过与状态有关的目标实现概率定义,为可能的状态或可能状态的子集确定所述目标实现概率,其中利用策略从起始状态开始确定至少一个行动和至少一个从通过技术装置对至少一个行动的执行待预期的或得出的状态,其中目标实现概率根据目标预设、例如目标状态并且根据至少一个待预期的或得出的状态被确定。例如,对于状态空间的所有状态或这些状态的子集确定目标实现概率,其方式是从作为起始状态的所选择的状态开始或者以作为目标状态的所选择的状态的目标预设利用策略分别执行与环境的交互的一个或多个情节、也即走子,其中利用策略在每个情节中从起始状态开始确定至少一个行动和至少一个从通过技术装置对至少一个行动的执行中待预期的或得出的状态,其中根据目标预设并且根据至少一个待预期的或得出的状态确定目标实现概率。例如,目标实现概率说明:在一定数量的交互步骤内从起始状态s0以何种概率实现目标状态g。走子例如是强化学习训练的一部分,或者附加地被执行。
优选地规定,所估计的性能度量通过价值函数或优势函数定义,所述价值函数或优势函数根据至少一个状态和/或至少一个行动和/或起始状态和/或目标状态来确定。价值函数例如是价值函数
Figure 65866DEST_PATH_IMAGE036
或由此得出的优势函数
Figure 503800DEST_PATH_IMAGE037
Figure 658838DEST_PATH_IMAGE038
Figure 865828DEST_PATH_IMAGE039
,其原本由一些强化学习算法确定。价值函数或优势函数也可以与实际的强化学习算法分开地、例如借助于受监控的学习从在与环境的交互中从强化学习训练中观测或执行的状态、奖励、行动和/或目标状态中被学习。
优选地规定,所估计的性能度量通过参数模型定义,其中根据至少一个状态和/或至少一个行动和/或起始状态和/或目标状态来学习所述模型。该模型可以由强化学习算法本身或与实际强化学习算法分开地、例如借助于受监控的学习从在与环境的交互中从强化学习训练中观测或执行的状态、奖励、行动和/或目标状态中被学习。
优选地规定,通过与技术装置和/或环境的交互来训练策略,其中根据起始状态分布确定至少一个起始状态和/或其中根据目标状态分布确定至少一个目标状态。这使得能够特别有效地学习策略。
优选地规定,根据连续函数定义状态分布,其中状态分布或者针对预先给定的目标状态定义关于起始状态的概率分布,或者针对预先给定的起始状态定义关于目标状态的概率分布。状态分布表示元策略。如已经在前面的部分中阐述的,在环境的稀疏反馈的情况下,由此借助于强化学习改善或首先能够实现策略的学习行为。由此得出更好的策略,所述更好的策略做出更好的动作决策并且作为初始参量输出所述动作决策。
优选地规定,对于预先给定的目标状态将状态确定为交互情节的起始状态,或者对于预先给定的起始状态将状态确定为交互情节的目标状态,其中尤其是在离散的有限状态空间的情况下根据状态分布通过采样方法确定状态,其中尤其是对于连续或无限状态空间,尤其是借助于状态空间的粗略网格逼近来确定可能状态的有限集合。例如,借助于标准采样方法对状态分布进行采样。起始和/或目标状态与此相应地例如根据状态分布借助于直接采样、拒绝采样或马尔可夫链蒙特卡洛采样(Markov Chain Monte Carlo Sampling)被采样。可以规定对发生器进行训练,所述发生器根据状态分布生成起始和/或目标状态。例如,在连续状态空间或具有无限多个状态的离散状态空间中,事先对状态的有限集合进行采样。为此可以使用状态空间的粗略网格逼近。
优选地规定,通过传感器、尤其是视频、雷达、激光雷达、超声波、运动、温度或振动传感器的数据定义输入数据。尤其是在这些传感器的情况下,可以特别高效地应用该方法。
用于操控技术装置的设备包括用于至少一个传感器的输入数据的输入端、用于操控技术装置的输出端和计算装置,所述计算装置被构造用于按照该方法根据输入数据操控技术装置。
附图说明
其他有利的实施方式从以下描述和附图中得出。在附图中,
图1示出用于操控技术装置的设备的部分的示意图,
图2示出用于操控技术装置的第一方法的部分的第一流程图,
图3示出用于操控技术装置的第二方法的部分的第二流程图,
图4示出用于操控技术装置的第一方法的部分的第三流程图,
图5示出用于操控技术装置的第二方法的部分的第四流程图。
具体实施方式
在图1中示出了用于操控技术装置102的设备100。
技术装置102可以是机器人、至少部分自主的车辆、家居控制装置、家用电器、家庭手工设备、尤其是电动工具、生产机器、个人辅助设备、监控***或访问控制***。
设备100包括用于传感器108的输入数据106的输入端104和用于利用至少一个操控信号112操控技术装置102的输出端110和计算装置114。数据连接116、例如数据总线将计算装置114与输入端104和输出端110连接。传感器108例如检测关于技术装置102的状态或技术装置102的环境的信息118。
在该示例中,输入数据106由传感器108的数据定义。传感器108例如是视频、雷达、激光雷达、超声波、运动、温度或振动传感器。输入数据106例如是传感器108的原始数据或已经被处理的数据。可以设置多个尤其是不同的传感器,所述传感器提供不同的输入数据106。
计算装置114被构造用于根据输入数据106确定技术装置102的状态s。在该示例中,输出端110被构造用于根据行动
Figure DEST_PATH_IMAGE041A
操控技术装置102,所述行动
Figure DEST_PATH_IMAGE041AA
由计算装置114根据策略π确定。
设备100被构造用于根据输入数据106按照以下描述的方法根据策略π来操控技术装置102。
在至少部分自主或自动驾驶中,技术装置包括车辆。例如,输入参量定义车辆的状态s。输入参量例如必要时是其他交通参与者的经预处理的位置、车道标记、交通标志和/或其他传感器数据、例如图像、视频、雷达数据、激光雷达数据、超声波数据。例如,输入参量是从车辆的传感器或从其他车辆或基础装置获得的数据。例如,行动a定义用于操控车辆的输出参量。输出参量例如涉及动作决策、例如变道、提高或降低车辆速度。在该示例中,策略π定义应该在状态s下执行的行动
Figure DEST_PATH_IMAGE042A
例如,策略π可以实施为预先给定的规则集合,或者可以在使用蒙特卡洛树搜索的情况下连续地动态地被重新生成。蒙特卡洛树搜索是启发式搜索算法,所述启发式搜索算法使得能够为一些决策过程发现策略π。由于固定的规则集未良好地一般化,并且在所需的计算机容量方面,蒙特卡洛树搜索是非常昂贵的,因此使用强化学习来从与环境的交互中学习策略π是一种替代方案。
强化学习对策略
Figure 572753DEST_PATH_IMAGE043
进行训练,并且将作为输入参量的状态s映射到作为输出参量的行动
Figure DEST_PATH_IMAGE042AA
,所述策略
Figure 980208DEST_PATH_IMAGE043
例如通过神经网络表示。在训练期间,策略
Figure 938936DEST_PATH_IMAGE044
与环境交互并且获得奖励r。环境可以完全或部分地包括技术装置。环境可以完全或部分地包括技术装置的环境。环境还可以包括模拟环境,所述模拟环境完全或部分地对技术装置和/或技术装置的环境进行模拟。
策略
Figure 433DEST_PATH_IMAGE045
基于该奖励r被适配。策略
Figure 19205DEST_PATH_IMAGE046
例如在训练开始之前随机地被初始化。训练是情节性的。情节、即走子定义策略
Figure 166152DEST_PATH_IMAGE045
与环境或模拟环境在最大时间范围T内的交互。从起始状态s0开始,具有行动
Figure DEST_PATH_IMAGE047A
的策略重复地操控技术装置,由此得出新的状态。当达到例如包括目标状态g的目标预设(或时间范围T时,该情节结束。在情节期间,执行以下步骤:在状态s下利用策略
Figure 115523DEST_PATH_IMAGE048
确定行动
Figure DEST_PATH_IMAGE042AAA
;在状态s下执行行动
Figure DEST_PATH_IMAGE049A
;确定从中得出的新状态s';重复步骤,其中使用新状态s'作为状态s。例如,在离散的交互步骤中实施情节。例如,当交互步骤的数量达到对应于时间范围T的极限时,或者当已经达到目标预设、例如目标状态g时,这些情节结束。交互步骤可以表示时间步骤。在这种情况下,例如当达到时间极限或目标预设、例如目标状态g时,情节结束。
必须为这样的情节确定起始状态s0。可以从状态空间S、例如技术装置和/或其环境或模拟环境的可能状态集合中选择该起始状态。
针对不同情节的起始状态s0可以从状态空间S中规定或均匀地被采样、即均匀地随机地被选择。
选择起始状态s0的这些形式尤其是在存在环境的非常少的奖励r的场景中可能减慢或者在足够困难的环境中完全禁止对策略
Figure 234788DEST_PATH_IMAGE050
的学习。这取决于策略
Figure 158882DEST_PATH_IMAGE050
在训练开始之前随机地被初始化。
在至少部分自主或自动驾驶中可能仅非常稀少地给予奖励r。例如,将正奖励r确定为到达目标位置(例如高速公路出口)的反馈。例如,将负奖励r确定为引起碰撞或离开车道的反馈。如果例如在至少部分自主或自动驾驶中仅仅针对达到目标、即达到期望的目标状态g确定奖励r,并且固定的起始状态s0离目标状态g非常远,或者状态空间S在对起始状态s0进行均匀采样时非常大或者环境中的障碍物附加地使进展变得困难,则这导致仅非常少地或在最坏的情况下不从环境获得奖励r,因为在达到最大交互步骤数量之前根本很少达到目标状态g,或者只有在许多交互步骤后才达到目标状态g。这妨碍在学习策略
Figure 58705DEST_PATH_IMAGE051
时的训练进展或使学习变得不可能。
尤其是在至少部分自主或自动驾驶中,很难将奖励r设计为使得在不引起不期望的副作用的情况下促进期望的驾驶行为。
作为针对特定问题提出的解决可能性,在这种情况下可以生成起始状态s0的课程,所述课程选择起始状态s0,使得经常从环境获得足够的奖励r以保证训练进展,其中策略
Figure 359236DEST_PATH_IMAGE046
被定义为使得可以在任何时候从由问题提出设置的所有起始状态s0到达目标状态g。例如,策略
Figure 395325DEST_PATH_IMAGE046
被定义为使得可以到达状态空间S中的每个任意状态。
与此等效的是在预先给定的起始状态s0的情况下目标状态选择的问题。离走子的起始状态s0非常远的目标状态g同样导致仅存在环境的少量奖励r,并且由此学习过程被阻碍或变得不可能。
作为针对特定问题提出的解决可能性,在这种情况下可以生成目标状态g的课程,所述课程在预先给定的起始状态s0的情况下选择目标状态g,使得经常从环境获得足够的奖励r以便保证训练进展,其中策略
Figure 241053DEST_PATH_IMAGE052
被定义为使得所述策略在任何时候可以达到由问题提出设置的所有目标状态g。例如,策略
Figure 362593DEST_PATH_IMAGE052
被定义为使得可以到达状态空间S中的每个任意状态。
例如,在Florensa等人的Reverse Curriculum Generation for ReinforcementLearning: https://arxiv.org/pdf/1707.05300.pdf中公开了用于起始状态的课程的这种操作模式。
例如,在Held等人的Automatic Goal Generation for Reinforcement LearningAgents:https://arxiv.org/pdf/1705.06366.pdf中公开了用于目标状态的课程的这种操作模式。
对于连续和离散状态空间S,可以基于训练迭代i的策略
Figure 466815DEST_PATH_IMAGE052
定义随机元策略
Figure 357410DEST_PATH_IMAGE053
用于为用于强化学习的算法的一个或多个后续训练迭代的情节选择起始状态s0
随机元策略
Figure 888886DEST_PATH_IMAGE054
在该示例中根据性能度量
Figure 435405DEST_PATH_IMAGE055
、性能度量的导数、例如梯度
Figure 608897DEST_PATH_IMAGE056
、性能梯度的变化
Figure 619579DEST_PATH_IMAGE057
以及实际策略
Figure 587535DEST_PATH_IMAGE058
来定义。变化在该示例中是时间上的变化。
如果在迭代i中预先给定性能度量
Figure 667355DEST_PATH_IMAGE059
、性能度量的导数、例如梯度
Figure 378959DEST_PATH_IMAGE060
、性能度量的变化
Figure 978568DEST_PATH_IMAGE061
和/或策略
Figure 851846DEST_PATH_IMAGE062
,则元策略
Figure 169694DEST_PATH_IMAGE063
定义在起始状态s0上的概率分布。因此可以根据元策略
Figure 419410DEST_PATH_IMAGE064
选择起始状态s0
对于连续和离散状态空间S,可以基于训练迭代i的策略
Figure 139105DEST_PATH_IMAGE065
定义随机元策略
Figure 183284DEST_PATH_IMAGE066
用于为用于强化学习的算法的一个或多个后续训练迭代的情节选择目标状态g。
随机元策略
Figure 988429DEST_PATH_IMAGE067
在该示例中根据性能度量
Figure 41836DEST_PATH_IMAGE068
、性能度量的导数、例如梯度
Figure 616036DEST_PATH_IMAGE069
、性能梯度的变化
Figure 578920DEST_PATH_IMAGE070
以及实际策略
Figure 605782DEST_PATH_IMAGE071
来定义。变化在该示例中是时间上的变化。
如果在迭代i中预先给定性能度量
Figure 197300DEST_PATH_IMAGE072
、性能度量的导数、例如梯度
Figure 891586DEST_PATH_IMAGE073
、性能度量的变化
Figure 277568DEST_PATH_IMAGE074
和/或策略
Figure 57306DEST_PATH_IMAGE075
,则元策略
Figure 186936DEST_PATH_IMAGE076
定义在目标状态g上的概率分布。因此可以根据元策略
Figure 470149DEST_PATH_IMAGE077
选择目标状态g。
可以规定选择起始状态s0或目标状态g或两者。下面在两种方法、即一种方法用于选择起始状态s0和一种方法用于选择目标状态g之间进行区分。这些方法可以彼此无关地或共同地被实施,以便要么仅选择状态之一要么共同地选择两种状态。
为了确定起始状态s0,元策略
Figure 558191DEST_PATH_IMAGE078
被选择为使得从状态空间S或这些状态的子集中与连续函数G的值成比例地作为起始状态s0确定状态s。将函数G应用于性能度量
Figure 559645DEST_PATH_IMAGE079
、导数、例如梯度
Figure 742234DEST_PATH_IMAGE060
、变化
Figure 879954DEST_PATH_IMAGE061
、策略
Figure 873318DEST_PATH_IMAGE062
或其任意组合,以便确定与环境的交互的一个或多个情节的起始状态s0。例如,为此确定
Figure 830910DEST_PATH_IMAGE080
针对离散有限状态空间的起始状态s0例如根据性能度量
Figure 567921DEST_PATH_IMAGE081
与连续函数G的值成比例地利用
Figure 91307DEST_PATH_IMAGE082
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。
例如,利用:
Figure 255572DEST_PATH_IMAGE083
其中对于
Figure 231618DEST_PATH_IMAGE084
Figure 726315DEST_PATH_IMAGE085
Figure 369786DEST_PATH_IMAGE086
其中
Figure 704953DEST_PATH_IMAGE087
Figure DEST_PATH_IMAGE088
其中
Figure 902716DEST_PATH_IMAGE089
或者
Figure DEST_PATH_IMAGE090
采样,其中
Figure 184793DEST_PATH_IMAGE091
表示s的所有相邻状态的集合,即从s在一个时间步中通过任意行动
Figure DEST_PATH_IMAGE093AA
可以到达的所有状态SN
起始状态s0可以与应用于梯度
Figure DEST_PATH_IMAGE094
的连续函数G的值成比例地利用
Figure 72983DEST_PATH_IMAGE095
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 579051DEST_PATH_IMAGE096
Figure 795269DEST_PATH_IMAGE097
Figure 628839DEST_PATH_IMAGE098
或者
Figure 981323DEST_PATH_IMAGE099
采样。
起始状态s0可以与应用于变化
Figure 923871DEST_PATH_IMAGE100
的连续函数G的值成比例地利用
Figure 361806DEST_PATH_IMAGE101
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 516844DEST_PATH_IMAGE102
Figure 723834DEST_PATH_IMAGE103
Figure 243808DEST_PATH_IMAGE104
或者
Figure 169039DEST_PATH_IMAGE105
采样,其中
Figure 393347DEST_PATH_IMAGE106
例如是
Figure 172953DEST_PATH_IMAGE107
,其中
Figure 457304DEST_PATH_IMAGE108
起始状态s0可以与应用于性能度量
Figure 869830DEST_PATH_IMAGE109
和策略
Figure 632250DEST_PATH_IMAGE110
的连续函数G的值成比例地利用
Figure 813833DEST_PATH_IMAGE111
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 269085DEST_PATH_IMAGE112
采样,其中在这种情况下,
Figure 168908DEST_PATH_IMAGE113
是价值函数
Figure 469439DEST_PATH_IMAGE114
,其中s=s0或是优势函数
Figure 505528DEST_PATH_IMAGE115
,其中s=s0,并且
Figure 866102DEST_PATH_IMAGE116
是关于行动
Figure DEST_PATH_IMAGE118A
的标准偏差,所述行动
Figure DEST_PATH_IMAGE118AA
要么从行动空间A中选择要么根据策略
Figure 348162DEST_PATH_IMAGE119
来选择,
Figure DEST_PATH_IMAGE120
,其中
Figure 170493DEST_PATH_IMAGE121
在这种情况下是优势函数
Figure 326668DEST_PATH_IMAGE122
(其中s=s0),
或者
Figure 858143DEST_PATH_IMAGE123
,其中
Figure 201400DEST_PATH_IMAGE124
在这种情况下是优势函数
Figure 578155DEST_PATH_IMAGE125
(其中s=s0)。
为了确定目标状态g,元策略
Figure 588836DEST_PATH_IMAGE126
被选择为使得从状态空间S中或者这些状态的子集中与连续函数G的值成比例地作为目标状态g来确定状态s。将函数G应用于性能度量
Figure 556792DEST_PATH_IMAGE127
、导数、例如梯度
Figure 652924DEST_PATH_IMAGE128
、变化
Figure 833369DEST_PATH_IMAGE129
、策略
Figure 698557DEST_PATH_IMAGE130
或其任意组合,以便确定与环境的交互的一个或多个情节的目标状态g。例如,为此确定
Figure 319638DEST_PATH_IMAGE131
针对离散有限状态空间的目标状态g例如根据性能度量
Figure 637487DEST_PATH_IMAGE132
与连续函数G的值成比例地利用
Figure 621624DEST_PATH_IMAGE133
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 341318DEST_PATH_IMAGE134
其中对于
Figure 854339DEST_PATH_IMAGE135
Figure 925063DEST_PATH_IMAGE136
Figure 978470DEST_PATH_IMAGE137
其中
Figure 818250DEST_PATH_IMAGE138
Figure 33330DEST_PATH_IMAGE139
其中
Figure 309460DEST_PATH_IMAGE140
或者
Figure 900978DEST_PATH_IMAGE141
采样,其中
Figure 329685DEST_PATH_IMAGE142
表示s的所有相邻状态的集合、即从s在一个时间步中通过任意行动
Figure DEST_PATH_IMAGE144A
可以到达的所有状态SN
目标状态g可以与应用于梯度
Figure 872924DEST_PATH_IMAGE145
的连续函数G的值成比例地利用
Figure 918241DEST_PATH_IMAGE146
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 313450DEST_PATH_IMAGE147
Figure 862243DEST_PATH_IMAGE148
Figure 950285DEST_PATH_IMAGE149
Figure 217318DEST_PATH_IMAGE150
采样。
目标状态g可以与应用于变化
Figure 353901DEST_PATH_IMAGE151
的连续函数G的值成比例地利用
Figure 22780DEST_PATH_IMAGE152
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 281723DEST_PATH_IMAGE153
Figure 770473DEST_PATH_IMAGE154
Figure 507485DEST_PATH_IMAGE155
或者
Figure 765291DEST_PATH_IMAGE156
采样,其中
Figure 382086DEST_PATH_IMAGE157
例如是
Figure 623712DEST_PATH_IMAGE158
,其中
Figure 164414DEST_PATH_IMAGE159
Figure 276727DEST_PATH_IMAGE160
目标状态g可以与应用于性能度量
Figure 611893DEST_PATH_IMAGE161
和策略
Figure 278498DEST_PATH_IMAGE162
的连续函数G的值成比例地利用
Figure 622892DEST_PATH_IMAGE163
采样
下面,在分子中给出示例性的连续函数G,所述连续函数尤其是根据用于标准化的分母满足该关系。例如,利用:
Figure 120869DEST_PATH_IMAGE164
其中
Figure 626937DEST_PATH_IMAGE165
在该情况下是价值函数
Figure 577575DEST_PATH_IMAGE166
(其中
Figure 411146DEST_PATH_IMAGE167
固定给定的起始状态)或优势函数
Figure 763630DEST_PATH_IMAGE168
(其中
Figure 440599DEST_PATH_IMAGE169
固定给定的起始状态),并且
Figure 878533DEST_PATH_IMAGE170
是关于行动
Figure DEST_PATH_IMAGE144AA
的标准偏差,所述行动
Figure DEST_PATH_IMAGE144AAA
要么从行动空间A中选择要么根据策略
Figure 954942DEST_PATH_IMAGE171
(其中
Figure 161933DEST_PATH_IMAGE172
固定给定的起始状态)来选择,
Figure 275382DEST_PATH_IMAGE173
,其中
Figure 138296DEST_PATH_IMAGE113
在这种情况下是优势函数
Figure 362604DEST_PATH_IMAGE175
(其中
Figure 689680DEST_PATH_IMAGE176
固定给定的起始状态),
或者
Figure 974031DEST_PATH_IMAGE177
,其中
Figure 855399DEST_PATH_IMAGE124
在这种情况下是优势函数
Figure 617819DEST_PATH_IMAGE175
(其中
Figure 799402DEST_PATH_IMAGE178
固定给定的起始状态)。
在这里明确针对离散有限状态空间S的情况列出的准则也可以通过修改应用于连续状态空间。性能度量的估计等效地发生。
尤其是在参数模型的情况下同样可以为性能度量计算导数。为了从连续状态空间或具有无限数量个状态的离散状态空间中对起始状态或目标状态进行采样,例如进行状态空间的网格逼近或对多个状态进行预采样,以便确定有限数量个状态。
与导数有关的确定、即以此描述的基于梯度的准则以及将连续函数的应用应用于性能度量以及策略的准则在训练进展和因此性能方面是特别有利的。
图2示出用于操控技术装置102的第一方法的部分的第一流程图。在图2中,示意性地示出对于预先给定的目标状态g对策略
Figure 739807DEST_PATH_IMAGE179
的学习。更确切地说,图2示出起始状态选择利用元策略
Figure 374051DEST_PATH_IMAGE180
如何使策略
Figure 674582DEST_PATH_IMAGE181
和环境利用动态性
Figure 710671DEST_PATH_IMAGE182
和奖励函数
Figure 274508DEST_PATH_IMAGE183
彼此互相作用。在所述策略和环境之间的交互不受下面描述的顺序约束。在一种实现中,通过策略和环境交互、更新策略和更新元策略例如作为不同时间标度上的三个不同过程同时运行数据收集,所述过程不时地相互交换信息。
在步骤200中,策略的一个或多个过去的训练迭代的情节的策略
Figure 396047DEST_PATH_IMAGE184
和/或轨迹
Figure DEST_PATH_IMAGE185
Figure 765849DEST_PATH_IMAGE186
被转交给起始状态选择算法,所述起始状态选择算法为一个或多个后续训练迭代的情节确定起始状态s0
可以规定,附加地转交价值函数、例如函数
Figure 656444DEST_PATH_IMAGE187
Figure 437188DEST_PATH_IMAGE188
或优势函数、即例如优势函数
Figure 46023DEST_PATH_IMAGE189
在步骤202中,确定一个或多个起始状态s0。元策略
Figure 688357DEST_PATH_IMAGE190
基于性能度量
Figure 433459DEST_PATH_IMAGE191
、可能特定的导数或尤其是其时间变化和/或策略
Figure 135836DEST_PATH_IMAGE192
产生起始状态s0。这单独地在每个情节之前或对于多个情节、例如对于与为了更新瞬时策略
Figure 231968DEST_PATH_IMAGE193
需要的一样多的情节或对于策略
Figure 677993DEST_PATH_IMAGE194
的多个策略更新的情节进行。
在步骤204中,由起始状态选择算法将起始状态s0转交给用于强化学习的算法。
用于强化学习的算法在与环境的情节式交互中收集数据,并且基于数据的至少一部分不时地更新策略。
为了收集数据,重复地执行策略和环境的交互的情节、即走子。为此,步骤206至212在情节或走子中迭代地被实施,例如直至达到交互步骤的最大数量或达到目标预设、例如目标状态g为止。新的情节以起始状态s=s0开始。刚好当前的策略
Figure 543181DEST_PATH_IMAGE195
在步骤206中选择行动
Figure DEST_PATH_IMAGE197A
,所述行动在步骤208中在环境中被执行,紧接着在步骤210中根据动态性
Figure 150880DEST_PATH_IMAGE198
确定新状态s'并且根据
Figure 950952DEST_PATH_IMAGE199
确定奖励r(可以是0),在步骤212中将其转交给强化学习算法。如果s=g,则奖励例如为1,并且否则为0。例如,在目标达到s=g时或在最大迭代步骤数量T之后,情节结束。然后,新的情节以新的起始状态s0开始。在情节期间生成的元组
Figure 200668DEST_PATH_IMAGE200
得出轨迹
Figure 920362DEST_PATH_IMAGE201
不时地在步骤206中基于所收集的数据
Figure 964542DEST_PATH_IMAGE202
更新策略
Figure 769687DEST_PATH_IMAGE203
。得出经更新的策略
Figure 557514DEST_PATH_IMAGE204
,所述经更新的策略在后续情节中基于状态s选择行动
Figure DEST_PATH_IMAGE197AA
图3示出用于操控技术装置102的第二方法的部分的第二流程图。在图3中,示意性地示出针对预先给定的起始状态s0对策略
Figure 600556DEST_PATH_IMAGE205
的学习。更确切地说,图3示出起始状态选择利用元策略
Figure 64905DEST_PATH_IMAGE206
如何使策略
Figure 983444DEST_PATH_IMAGE207
和环境利用动态性
Figure 574963DEST_PATH_IMAGE208
和奖励函数
Figure 534828DEST_PATH_IMAGE183
彼此互相作用。在所述策略和环境之间的交互不受下面描述的顺序约束。在一种实现中,通过策略和环境交互、更新策略和更新元策略例如作为不同时间标度上的三个不同过程同时运行数据收集,所述过程不时地相互交换信息。
在步骤300中,策略的一个或多个过去的训练迭代的情节的策略
Figure 186390DEST_PATH_IMAGE209
和/或轨迹
Figure 966127DEST_PATH_IMAGE210
Figure 361336DEST_PATH_IMAGE211
被转交给起始状态选择算法,所述起始状态选择算法为一个或多个后续训练迭代的情节确定目标状态g。
可以规定,附加地转交价值函数、例如函数
Figure 378971DEST_PATH_IMAGE212
Figure 670275DEST_PATH_IMAGE213
或优势函数、即例如优势函数
Figure 937308DEST_PATH_IMAGE214
在步骤302中,确定一个或多个目标状态g。元策略
Figure 136208DEST_PATH_IMAGE215
基于性能度量
Figure 539508DEST_PATH_IMAGE216
、可能特定的导数或尤其是其时间变化和/或策略
Figure 532871DEST_PATH_IMAGE217
产生目标状态g。这单独地在每个情节之前或对于多个情节、例如对于与为了更新瞬时策略
Figure 287201DEST_PATH_IMAGE218
需要的一样多的情节或对于策略
Figure 289792DEST_PATH_IMAGE219
的多个策略更新的情节进行。
在步骤304中,从目标状态选择算法将目标状态g转交给用于强化学习的算法。
用于强化学习的算法在与环境的情节式交互中收集数据,并且基于数据的至少一部分不时地更新策略。
为了收集数据,重复地执行策略和环境的交互的情节、即走子。为此,步骤306至312在情节或走子中迭代地被实施,例如直至达到交互步骤的最大数量或达到目标预设、例如针对该情节选择的目标状态g为止。新的情节以预先给定的起始状态s=s0开始。刚好当前的策略
Figure 265707DEST_PATH_IMAGE220
在步骤306中选择行动
Figure DEST_PATH_IMAGE221A
,所述行动在步骤308中在环境中被执行,紧接着在步骤310中根据动态性
Figure 164393DEST_PATH_IMAGE222
确定新状态s'并且根据
Figure 609281DEST_PATH_IMAGE223
确定奖励r(可以是0),在步骤312中将其转交给强化学习算法。如果s=g,则奖励例如为1,并且否则为0。例如,在目标达到s=g时或在最大迭代步骤数量T之后,情节结束。然后,新的情节以新的目标状态g开始。在情节期间生成的元组
Figure 149983DEST_PATH_IMAGE224
得出轨迹
Figure 527875DEST_PATH_IMAGE225
不时地在步骤306中基于所收集的数据
Figure 128621DEST_PATH_IMAGE226
更新策略
Figure 326384DEST_PATH_IMAGE227
。得出经更新的策略
Figure 176439DEST_PATH_IMAGE228
,所述经更新的策略在后续情节中基于状态s和刚好对于该情节当前的目标g选择行动
Figure DEST_PATH_IMAGE221AA
图4示出用于操控技术装置102的第一方法的部分的第三流程图。在图4中示出起始状态选择的循环。可以为策略
Figure 80941DEST_PATH_IMAGE229
的一次或多次迭代的情节确定多个起始状态。
在步骤402中,确定性能度量
Figure 852588DEST_PATH_IMAGE230
。在该示例中,性能度量
Figure 803226DEST_PATH_IMAGE231
通过以下方式来确定,即所述性能度量被估计:
Figure 420152DEST_PATH_IMAGE232
例如,这可以通过如下方式发生:
-利用当前策略
Figure 507057DEST_PATH_IMAGE233
在多个情节上执行与环境的交互,并且从中为每个状态计算目标实现概率,
-从过去的训练情节的走子数据
Figure 449605DEST_PATH_IMAGE234
中为每个状态计算目标实现概率,
-如果价值函数
Figure 871228DEST_PATH_IMAGE235
、价值函数
Figure 291845DEST_PATH_IMAGE236
或优势函数
Figure 233256DEST_PATH_IMAGE237
可用,则使用所述价值函数
Figure 81127DEST_PATH_IMAGE235
、价值函数
Figure 740778DEST_PATH_IMAGE238
或优势函数
Figure 965086DEST_PATH_IMAGE237
,和/或
-一起学习一个尤其是参数模型或参数模型的全体。
在可选的步骤404中,性能度量
Figure 26583DEST_PATH_IMAGE239
或所估计的性能度量
Figure 779775DEST_PATH_IMAGE240
的梯度、导数或时间变化被计算。
在步骤406中,确定起始状态分布。为此,在该示例中确定连续函数G的值,其方式是,将函数G应用于性能度量
Figure 146297DEST_PATH_IMAGE241
、性能度量的导数或梯度
Figure 174296DEST_PATH_IMAGE242
、性能度量的时间变化
Figure 355878DEST_PATH_IMAGE243
和/或策略
Figure 811130DEST_PATH_IMAGE244
状态s与连续函数G的所属的值成比例地被确定为起始状态s0。根据连续函数G定义的元策略
Figure 179795DEST_PATH_IMAGE245
提供在针对预先给定的目标状态g的起始状态s0上的概率分布,也即以何种概率选择状态s作为起始状态s0
在连续状态空间中或在具有无限多个状态的离散状态空间中,概率分布可能仅针对先前确定的状态的有限集合被确定。为此可以使用状态空间的粗略网格逼近。
在该示例中,在使用根据连续函数G定义的概率分布的情况下利用以下可能性之一来确定起始状态s0
-尤其是在离散有限状态空间S的情况下,根据起始状态s0上的概率分布确定起始状态s0,即直接进行采样,
-借助于概率分布的拒绝采样确定起始状态s0
-借助于概率分布的马尔可夫链蒙特卡洛采样确定起始状态s0
-由发生器确定起始状态s0,所述发生器被训练根据起始状态分布生成起始状态。
在一个方面中可能的是,附加或代替于这些起始状态,利用附加的启发式知识确定这些起始状态附近的附加起始状态。例如,启发式知识可以包括随机行动或布朗运动。通过该方面提高性能或稳健性。
在步骤408中,利用强化学习算法在与环境的交互中针对一个或多个训练迭代对策略
Figure 480326DEST_PATH_IMAGE246
进行训练。
在该示例中,在大量训练迭代中通过与技术装置102和/或其环境的交互来训练策略
Figure 985257DEST_PATH_IMAGE247
在一个方面中,在用于训练策略
Figure 611410DEST_PATH_IMAGE247
的环境中根据针对该训练迭代的起始状态分布为策略
Figure 732950DEST_PATH_IMAGE247
的情节或走子确定起始状态s0
根据在步骤406中针对各自迭代或复数次迭代确定的起始状态分布来确定针对不同迭代的起始状态s0
在该示例中,与技术装置102的交互意味着利用行动
Figure DEST_PATH_IMAGE248A
操控技术装置102。
在步骤408之后,执行步骤402。
在该示例中重复步骤402到408,直至策略
Figure 289702DEST_PATH_IMAGE249
达到质量度量,或者直至进行了最大数量的迭代。
在一个方面中,随后进一步利用在最后的迭代中确定的策略
Figure 445877DEST_PATH_IMAGE249
操控技术装置102。
图5示出了用于操控技术装置102的第二方法的部分的第四流程图。在图5中示出目标状态选择的循环。可以为策略
Figure 977352DEST_PATH_IMAGE250
的一次或多次迭代的情节确定多个目标状态。
在步骤502中,确定性能度量
Figure 320609DEST_PATH_IMAGE251
。在该示例中,性能度量
Figure 228522DEST_PATH_IMAGE252
被估计:
Figure 973624DEST_PATH_IMAGE253
例如,这可以通过如下方式发生:
-利用当前策略
Figure 676001DEST_PATH_IMAGE254
在多个情节上执行与环境的交互,并且从中为每个状态计算目标实现概率,
-从过去的训练情节的走子数据
Figure 506554DEST_PATH_IMAGE255
中为每个状态计算目标实现概率,
-如果价值函数
Figure 700382DEST_PATH_IMAGE256
、价值函数
Figure 299990DEST_PATH_IMAGE257
或优势函数
Figure 173268DEST_PATH_IMAGE258
可用,则使用所述价值函数
Figure 756696DEST_PATH_IMAGE256
、价值函数
Figure 6412DEST_PATH_IMAGE259
或优势函数
Figure 460527DEST_PATH_IMAGE260
,和/或
-一起学习一个尤其是参数模型或参数模型的全体。
在可选的步骤504中,性能度量
Figure 504707DEST_PATH_IMAGE261
或所估计的性能度量
Figure 27961DEST_PATH_IMAGE262
的梯度、导数或时间变化被计算。
在步骤506中,确定起始状态分布。为此,在该示例中确定连续函数G的值,其方式是,将函数G应用于性能度量
Figure 222313DEST_PATH_IMAGE263
、性能度量的导数或梯度
Figure 62093DEST_PATH_IMAGE264
、性能度量的时间变化
Figure 542753DEST_PATH_IMAGE265
和/或策略
Figure 100773DEST_PATH_IMAGE266
状态s与连续函数G的所属的值成比例地被确定为目标状态g。根据连续函数G定义的元策略
Figure 692291DEST_PATH_IMAGE267
提供在针对预先给定的起始状态s0的目标状态g上的概率分布,也即以何种概率选择状态s作为目标状态g。
在连续状态空间中或在具有无限多个状态的离散状态空间中,概率分布可能仅针对先前确定的状态的有限集合被确定。为此可以使用状态空间的粗略网格逼近。
在该示例中,在使用根据连续函数G定义的概率分布的情况下利用以下可能性之一来确定目标状态g:
-尤其是对于离散有限状态空间S,根据目标状态g上的概率分布确定目标状态g,即直接进行采样,
-借助于概率分布的拒绝采样确定目标状态g,
-借助于概率分布的马尔可夫链蒙特卡洛采样确定目标状态g,
-由发生器确定目标状态g,所述发生器被训练根据起始状态分布生成起始状态。
在一个方面中可能的是,附加或代替于这些目标状态,利用附加的启发式知识确定这些目标状态附近的附加目标状态。例如,启发式知识可以包括随机行动或布朗运动。通过该方面提高性能或稳健性。
在步骤508中,利用强化学习算法在与环境的交互中针对一个或多个训练迭代对策略
Figure 386578DEST_PATH_IMAGE268
进行训练。
在该示例中,在大量训练迭代中通过与技术装置102和/或其环境的交互来训练策略
Figure 257713DEST_PATH_IMAGE268
在一个方面中,在用于训练策略
Figure 37450DEST_PATH_IMAGE269
的环境中根据针对这些训练迭代的目标状态分布为策略
Figure 432659DEST_PATH_IMAGE270
的情节或走子确定目标状态g。
根据在步骤506中针对各自迭代或多次迭代确定的目标状态分布来确定针对不同迭代的目标状态g。
在该示例中,与技术装置102的交互意味着利用行动
Figure DEST_PATH_IMAGE272A
操控技术装置102。
在该示例中重复步骤502到508,直至策略
Figure 715873DEST_PATH_IMAGE273
达到质量度量,或者直至进行了最大数量的迭代。
在一个方面中,随后进一步利用在最后的迭代中确定的策略
Figure 272756DEST_PATH_IMAGE274
操控技术装置102。
在一个方面中,起始和/或目标状态选择算法从强化学习算法获得当前策略、在先前训练迭代的交互情节期间收集的数据和/或价值或优势函数。基于这些分量,起始和/或目标状态选择算法首先估计性能度量。必要时,确定该性能度量的导数或尤其是随时间变化。紧接着,基于所估计的性能度量通过应用连续函数确定起始和/或目标状态分布、即元策略。必要时,还使用性能度量的导数或尤其是时间变化和/或策略。最后,起始和/或目标状态选择算法为强化学习算法提供针对一次或多次训练迭代的特定的起始状态分布和/或特定的目标状态分布、即元策略。然后,强化学习算法针对相对应数量的训练迭代训练策略,其中根据起始和/或目标状态选择算法的元策略确定在训练迭代内的一个或多个交互情节的起始和/或目标状态。然后,该流程从头开始,直至策略达到质量准则或执行了最大数量训练迭代。
例如,所描述的策略被实现为人工神经网络,所述人工神经网络的参数在迭代中被更新。所描述的元策略是从数据中计算的概率分布。在一个方面中,这些元策略访问神经网络,所述神经网络的参数在迭代中被更新。

Claims (12)

1.一种用于操控技术装置(102)的计算机实现的方法,其中所述技术装置(102)是机器人、至少部分自主的车辆、家居控制装置、家用电器、家庭手工设备尤其是电动工具、生产机器、个人辅助设备、监控***或者访问控制***,其中根据输入数据确定所述技术装置(102)的至少一部分或所述技术装置(102)的环境的状态,其中根据用于所述技术装置(102)的策略和状态确定至少一个行动,并且其中所述技术装置(102)***控用于执行至少一个行动,其特征在于,利用强化学习算法在与所述技术装置(102)或所述技术装置(102)的环境的交互中根据至少一个反馈信号学习尤其是由人工神经网络代表的策略,其中根据目标预设确定所述至少一个反馈信号,其中与连续函数的值成比例地确定交互情节的至少一个起始状态和/或至少一个目标状态,其中通过将连续函数应用于先前为策略确定的性能度量、通过将连续函数应用于先前为策略确定的性能度量的导数、通过将连续函数应用于先前为策略确定的性能度量的尤其是时间上的变化、通过将连续函数应用于策略或通过组合这些应用来确定所述值。
2.根据权利要求1所述的计算机实现的方法,其特征在于,估计所述性能度量。
3.根据权利要求2所述的计算机实现的方法,其特征在于,通过与状态有关的目标实现概率定义所估计的性能度量,所述目标实现概率针对可能的状态或可能的状态的子集被确定,其中利用策略从起始状态出发确定至少一个行动和至少一个从通过所述技术装置对至少一个行动的执行中待预期或得出的状态,其中根据所述目标预设、例如目标状态并且根据至少一个待预期的或得出的状态确定所述目标实现概率。
4.根据权利要求2或3所述的计算机实现的方法,其特征在于,通过价值函数或优势函数定义所估计的性能度量,所述价值函数或优势函数根据至少一个状态(s)和/或至少一个行动(
Figure DEST_PATH_IMAGE002
)和/或起始状态(s0)和/或目标状态(g)被确定。
5.根据权利要求2至4中任一项所述的计算机实现的方法,其特征在于,通过参数模型定义所估计的性能度量,所述模型根据至少一个状态和/或至少一个行动和/或起始状态和/或目标状态被学习。
6.根据前述权利要求中任一项所述的计算机实现的方法,其特征在于,通过与所述技术装置(102)和/或所述环境交互来训练所述策略,其中至少一个起始状态根据起始状态分布被确定和/或其中至少一个目标状态根据目标状态分布被确定。
7.根据前述权利要求中任一项所述的计算机实现的方法,其特征在于,根据连续函数定义状态分布,其中所述状态分布要么对于预先给定的目标状态定义在起始状态上的概率分布,要么对于预先给定的起始状态定义在目标状态上的概率分布。
8.根据权利要求7所述的计算机实现的方法,其特征在于,对于预先给定的目标状态,状态被确定为情节的起始状态,或者对于预先给定的起始状态,状态被确定为情节的目标状态,其中尤其是在离散有限状态空间的情况下根据状态分布通过采样方法确定所述状态,其中尤其是对于连续或无限状态空间,尤其是借助于所述状态空间的粗略网格逼近确定可能的状态的有限集合。
9.根据前述权利要求中任一项所述的计算机实现的方法,其特征在于,通过传感器、尤其是视频、雷达、激光雷达、超声波、运动、温度或振动传感器的数据定义所述输入数据。
10.一种计算机程序,其特征在于,所述计算机程序包括指令,在通过计算机执行所述指令时,运行根据权利要求1至9中任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可读存储器,其上存储有根据权利要求10所述的计算机程序。
12.一种用于操控技术装置(102)的设备(100),其中所述技术装置(102)是机器人、至少部分自主的车辆、家居控制装置、家用电器、家庭手工设备尤其是电动工具、生产机器、个人辅助设备、监控***或者访问控制***,其特征在于,所述设备(100)具有用于至少一个传感器(108)、尤其是视频、雷达、激光雷达、超声波、运动、温度或振动传感器的输入数据(106)的输入端(104)、用于借助于操控信号(112)操控所述技术装置(102)的输出(110)和计算装置(114),所述计算装置被构造用于按照根据权利要求1至9中任一项所述的方法根据输入数据(106)操控技术装置(102)。
CN202080027845.3A 2019-04-12 2020-03-24 用于操控技术装置的方法和设备 Pending CN113711139A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102019205359.9A DE102019205359B4 (de) 2019-04-12 2019-04-12 Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
DE102019205359.9 2019-04-12
PCT/EP2020/058206 WO2020207789A1 (de) 2019-04-12 2020-03-24 Verfahren und vorrichtung zum ansteuern einer technischen einrichtung

Publications (1)

Publication Number Publication Date
CN113711139A true CN113711139A (zh) 2021-11-26

Family

ID=70008510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080027845.3A Pending CN113711139A (zh) 2019-04-12 2020-03-24 用于操控技术装置的方法和设备

Country Status (4)

Country Link
US (1) US20220197227A1 (zh)
CN (1) CN113711139A (zh)
DE (1) DE102019205359B4 (zh)
WO (1) WO2020207789A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650394B (zh) * 2020-12-24 2023-04-25 深圳前海微众银行股份有限公司 智能设备控制方法、设备及可读存储介质
CN113050433B (zh) * 2021-05-31 2021-09-14 中国科学院自动化研究所 机器人控制策略迁移方法、装置及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108701251A (zh) * 2016-02-09 2018-10-23 谷歌有限责任公司 使用优势估计强化学习

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701251A (zh) * 2016-02-09 2018-10-23 谷歌有限责任公司 使用优势估计强化学习
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CARLOS FLORENSA 等: "Automatic Goal Generation for Reinforcement Learning Agents", PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, pages 1 - 14 *
CARLOS FLORENSA 等: "Reverse Curriculum Generation for Reinforcement Learning", 1ST CONFERENCE ON ROBOT LEARNING (CORL 2017), pages 1 - 14 *

Also Published As

Publication number Publication date
WO2020207789A1 (de) 2020-10-15
US20220197227A1 (en) 2022-06-23
DE102019205359B4 (de) 2022-05-05
DE102019205359A1 (de) 2020-10-15

Similar Documents

Publication Publication Date Title
Bhattacharyya et al. Multi-agent imitation learning for driving simulation
CN110032782B (zh) 一种城市级智能交通信号控制***及方法
CN110646009B (zh) 一种基于dqn的车辆自动驾驶路径规划的方法及装置
Toghi et al. Cooperative autonomous vehicles that sympathize with human drivers
CN111098852A (zh) 一种基于强化学习的泊车路径规划方法
US10353351B2 (en) Machine learning system and motor control system having function of automatically adjusting parameter
Liang et al. Search-based task planning with learned skill effect models for lifelong robotic manipulation
JP4028384B2 (ja) エージェント学習装置、方法、プログラム
US12005580B2 (en) Method and device for controlling a robot
CN113711139A (zh) 用于操控技术装置的方法和设备
Li et al. Transferable driver behavior learning via distribution adaption in the lane change scenario
CN113415288B (zh) 分段式纵向车速规划方法、装置、设备及存储介质
Zou et al. Inverse reinforcement learning via neural network in driver behavior modeling
Ure et al. Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning
Liessner et al. Simultaneous electric powertrain hardware and energy management optimization of a hybrid electric vehicle using deep reinforcement learning and Bayesian optimization
Wang et al. An interaction-aware evaluation method for highly automated vehicles
US20230120256A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium and device
CN116968721A (zh) 一种混合动力汽车预测式能量管理方法、***和存储介质
Zakaria et al. A study of multiple reward function performances for vehicle collision avoidance systems applying the DQN algorithm in reinforcement learning
RU2019145038A (ru) Способы и процессоры для управления рулением беспилотным автомобилем
Zhang et al. Conditional random fields for multi-agent reinforcement learning
Contardo et al. Learning states representations in pomdp
US20230142461A1 (en) Tactical decision-making through reinforcement learning with uncertainty estimation
Ozkan et al. Trust-Aware Control of Automated Vehicles in Car-Following Interactions with Human Drivers
EP3742344A1 (en) Computer-implemented method of and apparatus for training a neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination