CN101842754A

CN101842754A - 用于以计算机辅助方式探索技术***的状态的方法

Info

Publication number: CN101842754A
Application number: CN200880113934A
Authority: CN
Inventors: A·汉斯; S·尤德卢夫特; D·施尼加斯; A·M·沙弗; V·斯特津格
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-10-31
Filing date: 2008-09-29
Publication date: 2010-09-22
Anticipated expiration: 2028-09-29
Also published as: JP5130374B2; DE102008007700A1; EP2206023A1; EP2206023B1; WO2009056416A1; JP2011505030A; US8494980B2; US20100241243A1; CN101842754B

Abstract

本发明涉及一种用于以计算机辅助方式探索技术***的状态的方法。在所述方法中，通过在技术***的相应状态中执行引起新状态的动作来经历技术***的状态。在此，在使用安全函数和反馈规则的情况下保证在探索期间经历大数据量的状态和动作并且同时不出现不允许的动作，所述不允许的动作例如可直接地或者间接地引起对技术***的损害或有故障的工作状态。根据本发明的方法具有以下优点：收集关于技术***的大量状态和动作，所述状态和动作接着可被用于确定适当调节技术***的学习方法中。根据本发明的方法可针对任意技术***被采用，一种优选的应用情况是探索燃气轮机中的状态。该方法不仅可在技术***的真实工作中而且可在对技术***的工作的仿真中被使用。

Description

用于以计算机辅助方式探索技术***的状态的方法

技术领域

本发明涉及一种用于以计算机辅助方式探索技术***的状态的方法以及一种相对应的计算机程序产品。

背景技术

从现有技术中公知各种方法，其中在考虑预先确定的准则的情况下以计算机辅助方式使技术***的动态时间特性最优。这些方法的例子是基于技术***的已知数据学习该***的最优调节的学习方法。该技术***在这种情况下通过表示技术***的可测量的状态量、诸如如压力、温度、功率等等的物理量的状态来描述。此外，在该技术***中定义了如下动作，所述动作描述了技术***上的确定的调节量的变化，诸如阀门位置的变化、压力的提高等等。通过动作将技术***的状态转移到新的后继状态。已知的学习方法在此学习最优的动作选择规则，该最优的动作选择规则针对技术***的每个状态确定最优的动作，用于将***转移到新的状态。每个动作在这种情况下例如通过回报或者惩罚、尤其是在包括成本函数在内的情况下被评估，其中借助评分(Bewertung)可以实现技术***的最优的动态特性。

适当地确定技术***的最优特性的基础在这种情况下是技术***的良好探测的状态空间形式的良好的数据库。因此必须存在状态、动作和后继状态形式的关于技术***的多个合适的数据。在这种情况下存在如下问题：在探索状态空间时，为了确定合适的数据库可以采取要被分级为不安全的状态，即该状态可能直接地或间接地引起对技术***的损害或引起其故障工作。

发明内容

因此，本发明的任务是提出一种用于以计算机辅助方式探索技术***的状态的方法，利用该方法避免采取不安全的状态并且同时经历状态空间使得提供了良好的数据库用于执行接下来的用于确定技术***的最优的调节的方法。

该任务通过独立权利要求来解决。本发明的扩展方案在从属权利要求中被限定。

在根据本发明的方法中，相继地经历技术***的状态，其方式是在技术***的相应状态中执行引起新状态的动作。在此，使用了安全函数(Sicherheitsfunktion)和反馈规则(Rueckfuehrungsregel)。借助安全函数，在执行引起未知的、从前还未经历的状态的动作之前确定相应的动作是技术***中的允许的还是不允许的动作，其中只有当所述动作是允许的时才执行所述动作。因此，安全函数保证：只有当未知的状态根据预先给定的准则被分级为安全的时候，才探索所述未知的状态。除了安全函数以外，此外还在根据本发明的方法中使用反馈规则，其中在达到技术***的未知的、从前还未经历的状态时基于该反馈规则选择随后的动作。该反馈规则用于将技术***的状态引回到已知的状态。利用该反馈规则保证，技术***的状态从新的未知的状态再次返回到已知的状态区域中。由此避免技术***的状态通过动作移动到可引起对技术***的损害的状态区中。

根据本发明的方法具有如下优点：通过使用安全函数和反馈规则提供了合适的机制，利用这些合适的机制实现了对状态空间的全面的探索，其中尽可能避免了执行不允许的动作的危险。

在根据本发明的方法的优选的实施形式中，不允许的动作被表征为使得在执行不允许的动作时技术***以为一的概率或者以大于零的概率到达如下状态：该状态直接在执行不允许的动作之后或者间接地在执行另外的动作之后引起技术***的不希望的或有故障的工作状态。不希望的或有故障的工作状态在此尤其是导致对技术***的损害或损毁的状态。

在根据本发明的方法的另一实施形式中，即使在该技术***中达到其中要执行的动作根据安全函数被分级为不允许的状态时，才应用反馈规则。由此，进一步改进了对状态空间的安全探索。

在另一实施形式中，所执行的动作分别根据其中执行动作的状态并且根据通过动作所达到的新状态以评分来进行评估，其中这些评分尤其是也用于在对状态进行探索之后学习用于基于所经历的状态和所评估的动作调节或控制技术***的方法。优选地，借助评分也将动作分类为不允许的，其中其评分小于预先确定的值的动作被分级为不允许。

在根据本发明的方法的另一改进方案中，也基于对动作的所确定的评分来学习安全函数。优选地，给所经历的包含状态和在该状态下执行的动作的对分别分配有最小评分，该最小评分出现在执行动作之后和出现在接着经历针对动作的反馈规则时，其中基于最小评分确定安全函数，并且其中当最小评分小于预先确定的值时，该安全函数接着确定不允许的动作。由此以合适的方式保证了在状态下执行的动作既不直接地也不间接地引起技术***的不希望的或有故障的工作状态。

在本发明的优选的变形方案中，安全函数利用函数逼近器来确定，该函数逼近器基于围绕恰好要随着动作改变的状态的局部外插来逼近最小评分。尤其是，函数逼近器执行局部线性的和/或局部二次的外插。

在实施形式中，根据本发明所使用的反馈规则可以是针对该技术***预先给定的规则。尤其是，反馈规则可以基于技术***的已经现有的调节器。

代替预先给定的规则或除了预先给定的规则之外，也可以利用强化的、考虑动作的评分的学习方法来确定反馈规则。强化的学习方法在此优选地基于最优性准则，根据该最优性准则使所有将来的评分的期望值的最小值最大化。以这种方式保证了利用反馈规则快速地返回到已知且安全的状态。

为了通过执行状态中的所有可能的动作来实现对状态的基本上完整的探索，在特别优选的实施形式中，在经历这些状态时，给这些状态如下地分配相继的类别：

i)如果状态基于反馈规则被改变，则给通过动作达到的未知的、从前还未经历的状态分配有在执行该动作之前分配给该状态的类别。

ii)在所有其它情况下，给通过动作达到的未知的、从前还未经历的状态分配有跟随在执行该动作之前分配给该状态的类别的类别。

状态优选地按类别来经历，使得在一个类别中首先探索所有可能的要执行的动作并且接着转变到下一类别。概念“动作的探索”在这种情况下意味着：该动作被执行或者被分级为不允许的。

在优选的实施形式中，在使用类别的情况下使用基于图形的路径发现方法，用于经历状态和可能的动作。在该方法中，在经历状态期间建立图形，该图形的节点对应于所经历的状态而其棱边对应于所执行的动作，并且在该图形中为每个节点存储了相对应的状态的类别，其中在达到其中已经探索、即执行所有可能的动作和/或利用安全函数将所有可能的动作分级为不允许的动作的状态时，在该图形中搜索至相同类别中的其中还可以探索动作的状态的路径，并且在找到这种路径时通过该路径到达该状态。在没有发现至相同类别中的其中还可探索动作的状态的路径的情况下，经历后续类别的状态。

可替换于基于图形的路径发现方法或除了基于图形的路径发现方法之外，也可以使用强化的学习方法来发现路径。在此，一个类别的状态利用强化的学习方法基于回报函数(Belohnugsfunktion)来经历，其中当动作引起在恰好经历的类别中的其中还可能探索至少一个动作的状态时，根据回报函数为该动作分配回报。优选地，在强化的学习方法中，动作选择规则在经历预先确定数目的状态之后被更新，其中在更新时考虑新添加的动作和其中执行相应的新添加的动作的相应的状态以及通过动作所达到的新状态。

也为了利用根据本发明的方法来处理大的状态空间，在优选的实施形式中，在基于图形的学习方法中和/或在强化的学习方法中将技术***的相似的状态汇总成共同的群集。

在使用类别的情况下，优选地不仅在达到未知的状态时应用反馈规则，而且在达到跟随恰好要经历的类别之后的类别的状态时应用反馈规则。在另一改进方案中，经历根据反馈规则的状态直至达到恰好要经历的类别的状态。

在使用类别的情况下，该方法优选地被启动来使得首先在不考虑安全函数的情况下经历根据反馈规则的状态并且在此给这些状态分配相同的类别，其中经历这些状态直至不再抛弃确定数量的状态，并且其中接着在考虑安全函数的情况下到达未知的、从前还未经历的状态，其中给该状态分配随后的类别。

根据本发明的方法尤其是在技术***的真实工作中被采用。必要时，该方法也可以在对技术***的工作的仿真中被使用。

在特别优选的实施形式中，该方法被用于探索燃气轮机的状态。燃气轮机的状态和/或分配给这些状态的动作优选地包括一个或多个如下的量：

燃气轮机的总功率；对燃气轮机的燃料供给；燃气轮机中的或者在燃气轮机的环境中的一个或多个压力和/或温度；燃气轮机的蜂鸣音(Brummen)；燃气轮机中的燃烧室加速；燃气轮机上的一个或多个调整参数、尤其是阀门调整和/或燃料比和/或进口导向叶片的调整。

除了上面所描述的方法之外，本发明此外还包括计算机程序产品，其具有存储在机器可读的载体上的程序代码，用于当程序运行在计算机上时执行根据本发明的方法。

附图说明

以下参照所附的附图详细地描述了本发明的实施例。

其中：

图1示出了阐述了根据本发明的方法的实施形式的可能组合的示意图；

图2示出了用于基于基准问题(Benchmark-Problem)测试根据本发明的方法的实施形式的评估函数(Bewertungs-Funktion)的三维图；

图3示出了阐述了按照根据本发明的方法的实施形式的备份策略(Backup-Policy)的学习的图形；以及

图4示出了阐述了基于基准问题的根据本发明的方法的结果的图形。

具体实施方式

以下所描述的根据本发明的方法的实施形式涉及对包含技术***的多个状态的状态空间进行探索，其中应基于所谓的强化学习(Reinforcement-Learning)根据预先给定的状态来学习最优的动作选择规则。根据该规则，在对技术***的工作进行仿真时或者在真实工作中以适当的方式从技术***的状态出发来选择最优动作，该最优动作引起技术***的接下来的状态。利用该动作选择规则，根据预先给定的准则最优地选择技术***的工作状态，例如这些状态可被选择为使得出现技术***的最好的效率或者技术***的最低的磨损。

在这里所描述的实施形式中，借助所谓的回报函数(Reward-Funktion)来描述最优的动作选择规则，该回报函数根据其中执行动作的状态以及由此得到的后继状态来将回报R_s，s′ ^a分配给所执行的动作，该回报R_s，s′ ^a对应于权利要求意义上的评分。

强化学习在现有技术中已充分公知并且是一种用于解决最优控制问题的机器学习的方法。如上面已解释的那样，利用强化学习(下面也称作RL方法)来识别动作选择规则(以下也称作策略(Policy))，该动作选择规则最优地在预先给定的环境之内控制执行这些动作的所谓的主体(Agent)。在这里所描述的实施形式中，该策略被限定成马尔可夫(Markov)决策过程，该马尔可夫决策过程包括状态空间S、大量动作A和动态性。后者由从当前状态s至新的后继状态s′以及引起后继状态s′的动作a的转移概率

得到。在每个相对应的转移中，主体获得上面已提及的回报。该回报同样遵循分布并且仅仅在特定情况下是确定性的，使得R表示函数。通常，感兴趣的是：在策略空间π∈∏，π：S→A上使折扣值函数(diskontierende ValueFunction)

V^{π} (s) = E_{s}^{π} (Σ_{i = 0}^{\infty} γ^{i} R_{s^{(i)}, s^{(i + 1)}}^{π (s^{(i)})})

最大化，其中针对所有状态s的折扣因子0＜γ＜1。作为中间步骤使用所谓的Q函数

Q^{π} (s, a) = E_{s^{'}}^{π} (R_{s, s^{'}}^{a} + γ Q^{π} (s^{'}, π (s^{'}))),

该Q函数与状态和动作有关。在这种情况下，

被限定为最优的值函数并且相对应地

Q * (s, a) = E_{s^{'}} (R_{s, s^{'}}^{a} + γV * (s^{'})) = E_{s^{'}} (R_{s, s^{'}}^{a} + γ \max_{a^{'}} Q * (s^{'}, a^{'}))

被限定为最优的Q函数。上述方程表示本领域技术人员公知的贝尔曼(Bellman)最优性方程，该贝尔曼最优性方程的解提供了最优策略π(s)＝argmax_a Q*(s，a)。

上面所描述的RL方法能够根据合理数目的相互作用来使诸如燃气轮机的复杂的技术设备最优化。为了实现上述RL方法所需的是：为了学习该方法已经存在以包括状态、动作、后继状态和评分的元组为形式的、预先确定数量的数据记录，以便基于这些数据记录来执行学习。根据本发明的方法关注的是以适当的方式生成用于学习的数据记录，其中该生成借助通过执行相对应的动作对技术***的状态的状态空间进行探索来实现。由于在对状态空间进行探索时尚未已知技术***的特征，所以能保证的是：不执行不允许的动作，这些不允许的动作在技术***中是不希望的并且尤其是可引起对***的损害。此外，利用探索方法应能够实现经历如下状态空间，在该状态空间中大数目的不会引起对技术***的损害的安全状态被采用。以下所描述的实施形式能够实现这种对技术***的状态空间的安全探索。

以下所描述的方法的两个主要组成部分是安全函数和备用策略。安全函数具有确定状态-动作对是否安全的任务，而备用策略应将临界的或者未知的状态引回到安全的并且已经已知的状态。为了将这两个组分相联系，在以下所描述的根据本发明的方法的实施形式中使用了所谓的基于水平的探索方案，该探索方案将状态划分成彼此相继的水平的序列的水平。

在该方法中使用的安全函数必须针对状态-动作对发表关于其安全状态的观点，该安全状态能被划分成“安全的”、“临界的”和“超临界的”类别。此外，动作可以被划分成“致命的”和“非致命的”类别。如果适用：

(其中τ是预先确定的边界值)，则存在用于从状态s过渡至状态s′的非致命动作。而如果适用

则动作是致命的。

如果针对所有在一个状态下能被执行的动作a存在策略P(对于其适用

)，则状态被分类为安全的。临界状态是其中存在动作使得以概率

达到超临界的后继状态s′的状态。超临界状态在这种情况下是如下状态：在该状态中，对于所有在该状态下被执行的动作，所有随后的策略也在任何位置引起致命转移，以所述所有随后的策略可以经历这些状态。也就是说，对于在超临界状态下的所有动作a适用：

&Exists; i : R_{s^{(i)}, s^{(i + 1)}}^{π (s^{(i)})} < τ .

从上述对安全的、临界的和超临界的定义得到：主体从临界状态(在安全地执行随后的动作的情况下)又可转化成安全状态。此外，分级为安全的动作(即其后继状态是安全的)可以在状态空间的探索中始终被执行，因为该动作始终具有大于τ的回报。如果出现值在边界值τ之下的回报，则这在通常情况下引起对技术***的损害或者引起技术***的有故障的工作。

安全函数的问题的不重要的解决方案在于：预先定义该安全函数。然而，这以关于RL环境的详细了解为前提，然而详细了解大多不存在。因而需要的是：从已经存在的探索数据、即从对(s，a，r，s′)元组形式的状态过渡的观察中学习安全函数。在此，r标明针对动作a被给予的回报，该动作a将状态s转化成状态s′。

在以下所描述的本发明的实施形式中，使用安全函数，该安全函数避免了不安全的动作，所述不安全的动作直接地或间接地在其执行之后引向致命状态。对此，考虑了下面还将进一步描述的备用策略。当在探索状态空间时达到了技术***的未知的、从前还未经历的状态时，始终采用该策略。在这种情况下，基于在权利要求中通常称作反馈规则的备用策略执行动作，使得又返回至已知的、从前经历过的状态。

安全函数在以下所描述的实施形式中被实现为回报的最小估计(最小回报估计)。该估计在于：估计在状态s下执行动作a并且遵循该备用策略之后获得的最小回报。尤其是，安全函数基于以下两个步骤来确定：

1.在探索期间，收集(s，a，r_min)形式的最小回报样本。在此，(s，a)标明在状态s下执行动作a并且r_min标明在备用轨迹(Backup-Trajektorie)上的所观察的最小回报，该备用轨迹紧接着转移由备用策略生成。

2.基于在探索期间所收集的样本来学习函数逼近器，该函数逼近器从状态-动作对映射到期望的最小回报：

最小回报样本与所使用的备用策略有关。类似地，当在状态s下执行动作a并且接着遵循策略π时Q函数Q^π(s，a)的值如何提供将来的回报的期望的(已打折扣的)总和，当在状态s下执行动作a并且此后遵循备用策略时，R_min(s，a)提供了期望的最小回报。

备用策略具有如下任务：当在执行该方法时所使用的主体因为其处于新状态而不再可以做出安全决策时将该主体引回到已知的区域中，在所述新状态下，该主体不能足够良好地估计各个动作的安全性。在此，备用策略本身不允许引导至临界状态。这例如通过如下方式来实现：备用策略接近可能的固定点或者尝试停留在状态空间的确定的区域中。

对于在真实工作中的已经在没有强化学习的情况下被驱动的技术***，常常已经存在如下调节器：只要该调节器处于安全的情况并且不引起致命转移，该调节器就可以被用作预先详细说明的备用策略。如果还不存在这种调节器，则需要从已经存在的探索数据、即从已经存在的(s，a，r，s′)元组中学习备用策略。

如上面所阐明的那样，动作的安全性通过相对应的回报来表达，其中回报小于边界值τ的动作对应于致命的转移。在从探索数据中学习备用策略时，备用策略因此必须考率回报。在本发明的可能的变形方案中，备用策略借助通用的RL方法来确定，其中然而现在并不使用开头所定义的值函数，因为由此确定的最优策略通常也不是同时安全的。此外，主观想像上最优的并且安全的策略可能由于生成中的错误而是不安全的。为了使这一点得到保障，使回报的最小值的期望值而不是回报的总和的期望值最大化。相对应的贝尔曼最优性方程内容如下：

Q^{m *} (s, a) = \underset{s^{'} &Element; S}{Σ} P_{s, s^{'}}^{a} \min [R_{s, s^{'}}^{a}, \max_{a^{'} &Element; A} Q^{m *} (s^{'}, a^{'})] - - - (1)

在此省去了折扣因子γ，因为通过目标函数的变形不再存在发散和的问题。

当针对给定的RL问题确定适当地满足该方程的

时，由此能确定关于

的贪婪策略

该贪婪策略

力求避免低的回报。如果策略在任何状态下都执行具有最大的Q值的动作，则该策略在此是贪婪的(greedy)。

类似于也可以确定最优策略的Q函数那样，这种满足上述方程(1)的最大-最小Q函数例如能够利用在现有技术中公知的动态编程来确定。然而，在此不存在唯一的检验点，因为大约Q＝-∞是尽管不希望但是允许的解。利用Q＝∞进行初始化保证了达到正确的解，因为在第一迭代步骤中使用最小值的回报而不使用最初的Q值。

为了确定上面所描述的备用策略，可以使用任意的在现有技术中公知的RL方法，尤其是上面已提及的动态编程、神经适配的Q迭代(NFQ，Neural Fitted Q-Iteration)以及基于递归神经网络的方法，这些方法例如被描述在专利申请DE 10 2007 001 025.9中。

为了创建一种多个探索数据形式的尽可能广泛的数据库，采用了所谓的基于水平的探索。在这种情况下涉及逐步探索，所述逐步探索缓慢地从状态空间的已知为安全的区域中去除执行的主体并且首先尝试收集尽可能多的局部观察。对此，给每个状态s分配水平l∈N(N＝自然数的数量)。从探索在安全区域中开始出发，针对开始状态s₀设置水平l(s₀)＝0。如果在探索期间进入迄今未知的状态s_i，则其水平被设置为l(s_i)＝l(s_i-1)+1，其中l(s_i-1)对应于前任状态的水平。如果在遵循备用策略时进入新的状态s_i，则其水平l(s_i)被前任状态s_i-1的水平接管，也就是说适用l(s_i)＝l(s_i-1)。这通过对备用策略的遵循不引起安全性的恶化来激发。基于该水平概念，探索如下进行：

-以水平l(s₀)＝0开始，为每个在技术***中已知的状态都分配水平。

-维持当前要探索的水平l_c，其中l_c＝0在开始时被初始化。探索的目标是：分别针对水平l_c，在水平l_c所对应的所有状态下，只要动作的执行被估计为是安全的，就执行所有在那里可能的动作。如果完整探索当前水平的所有状态，则提高l_c。

-探索继续直至满足中断准则为止，所述中断准则诸如是对全部可安全探索的区域的完整探索。然而，在实践中，这常常几乎不能被实现，因此达到所希望的最小性能是更合乎目的的。

为了可以以这种方式和方法来进行探索，需要有针对性地接近状态的可能性。在执行该方法的主体在达到具有提高的水平的新状态之后遵循该备用策略之后，该主体迟早又到达已知状态。从那里开始，必须存在达到当前水平的状态的可能性。

以下描述了两种方法：如何可以以合适的方式达到一个水平的所有已知的状态并且因此可以执行一个水平中的所有可能的动作。

第一方法是基于图形的路径发现，该基于图形的路径发现可以在确定性的RL问题中找到任意的已知的状态。该方法基于如下构思：在探索期间建立其节点表示状态而其棱边表示所执行的动作的图形。除了状态之外，在节点上注明状态的水平。该方法的特征在于如下步骤：

-当在当前状态下不再探索动作时，在图形中搜索如下状态：该状态的水平对应于当前要探索的状态并且针对该状态存在尚可安全探索的动作。如果未发现这种状态，则提高当前要探索的水平并且使该探索停止。

-为了发现从当前状态至要探索的状态的路径，执行该图形上的广度优先搜索(Bereitensuche)。通过执行利用其沿着所发现的路径的棱边被标记的动作从当前状态到达目的地状态。

上述方法不适于包括多余数千个状态的技术***。在合理的计算时间内，仅可以完整探索低的二位水平。因此，在基于图形的路径发现的优选的实施形式中将相邻的状态适当地汇合成群集。在该基于图形的方法的上下文中，群集因此对应于图形中的节点。通常，马尔科夫条件在此被违反，使得依据应用情况必须发现在计算开销与问题的可解决性之间的合适的折衷。

用于探索一个水平的状态的第二方法在于借助强化学习的路径发现。该方法也可以在随机情况下被采用，并且在这种情况下可以使用通用的RL方法，例如相对于备用策略的学习所述的方法之一。对此，定义了马尔科夫决策过程，该马尔科夫决策过程的状态对应于预先定义的群集。现在，如果R′是所追求的状态，则定义回报函数

否则

对于这样定义的RL问题确定了最优策略并且遵循该最优策略直至达到所希望的群集。也可能的是，将多个群集定义为目标。在这种情况下，所述策略会尝试达到最接近当前群集的群集。

下面描述了算法的实施形式，该算法的实施形式再现了借助强化学习的路径发现的整个方法。在这种情况下学习并且更新强化学习的策略，其中对策略的更新在执行确定数目的动作之后进行。

用于强化学习的算法包括如下步骤：

默认设置：

在开始存在(s，a，s′)元组形式的观察列表0。Z标明目标群集的集合，也就是通过路径发现达到的并且包含其中还可以执行可能的动作的状态的那些群集。N标明其后要更新用于进行路径发现的策略的动作的数目。m是其后必须达到目标群集(中断准则)的动作的最大数目。

首先如下初始化该方法：

确定回报函数

根据O确定转移概率的估计T。

求解通过T和R定义的RL问题，由此获得策略π_ω。

接着基于如下步骤进行用于进行路径发现的策略应用：

设置：c：＝0

以重复循环执行如下步骤：

重复

如果c＞0∧c mod n＝0，则

基于0更新估计T；

求解通过T和R定义的RL问题并且由此获得更新过的策略π_ω

结束该假设条件

(利用上述假设条件来更新策略。)

确定如下定义：

s：＝当前状态；

a：＝π_ω(s)；

执行动作s并且如下来更新：

s′：＝当前状态；

将(s，a，s′)附加于0；

c：＝c+1；

检查是否达到最大数目的动作，更确切地说如下：

如果c＝m，则

返回“假”(即路径发现不成功)；

结束假设条件

重复所述重复循环的上述步骤，直至适用：s′∈Z

如果满足条件s′∈Z，则路径发现成功并且返回值“真”。

上面所描述的用于执行根据本发明的探索方法的可能变形方案在根据图1的图中再一次被阐述。该方法通过主体AG来执行并且不仅使用安全函数SF、探索策略ES而且使用备用策略BP来执行该方法。安全函数在此利用上面所描述的最小-回报估计来逼近，其中尤其是使用局部二次逼近。必要时，该逼近也会利用神经网络(例如多层-感知器)来执行。探索策略ES尝试在一个水平之内执行所有可能的动作。在此可以使用上面所描述的基于图形的路径发现或借助强化学习的路径发现。作为备用策略BP可以采用现有的调节器，或者备用策略可以利用强化学习方法来学习。根据本发明的方法的实施形式由本发明人来实施并且在以已知的基准问题BurnSim为形式的示例性的测试环境上来测试。环境BurnSim在图1中通过附图标记BS来说明。示例性地，在此，BurnSim问题的状态被标明为s、s′而所执行的动作被标明为a。s′在此是在执行动作a时源于状态s的后继状态。

以下阐述了用于测试根据本发明的方法的基准问题BurnSim。根据本发明的方法的实施形式针对该问题被实施并且用实验方法来调查。BurnSim问题通过在调节燃气轮机时真实出现的问题来激发。最优地驱动汽轮机指的是，该汽轮机以尽可能高的功率行驶。然而，在汽轮机的高功率区域中，在燃烧室中出现了不希望的动态性，其也被称为“蜂鸣音”(英语：humming)。当该蜂鸣音变得过强时，会引起对汽轮机的损害。基于该原因，目标是以尽可能高的功率驱动燃气轮机并且同时注意蜂鸣音不变得过强。在BurnSim问题中的技术***的状态空间是二维的并且内容如下：

S：＝{(f，h)|f∈[0，1)，h∈[0，∞)}。

在此，f标明直接对应于汽轮机的功率的燃料供给。h表示蜂鸣音。允许三个动作，即将燃料供给降低、保持和提高，这三个动作在下面用英语术语decrease(对应于降低)、keep(对应于保持)和increase(对应于提高)来标明。工作空间的内容因此如下：

A：＝{decrease，keep，increase}。

动作“降低”和“提高”在此将f改变0.05，然而f必须保持在界限[0，1)中。***动态性、即在执行动作a时从一个时间步到接下来的时间步的状态改变通过下式给出：

回报函数仅与后继状态s_t+1＝(f_t+1，h_t+1)有关并且内容如下：

r_{t} = 4 f_{t + 1}^{2} - {(\frac{h_{t + 1} - f_{t + 1} / 5}{5})}^{2}

安全性的边界值被设置为：

τ＝-1

因此，安全性的状态得到为：

r_t＜-1

状态s_t是致命的，

r_t≥-1

状态s_t不是致命的。

目标在于：使回报的所期望的总和最大化，而未曾观察到回报小于-1。明显地，当f尽可能高并且同时h尽可能低时，达到尽可能高的回报。

图2阐明了所使用的回报函数。沿着轴线f绘制了燃料供给，而沿着轴线h绘制了蜂鸣音，其中更高的值代表更高的燃料供给或更高的蜂鸣音。沿着轴线r再现了回报。弯曲的网格平面E1在此是根据燃料供给和蜂鸣音的回报函数。此外，再现了边界值平面E2，在该边界值平面E2上，所有回报都具有-1的值。回报函数的回报绝不允许采取在该边界平面之下的值，因为这会引起燃气轮机的致命状态。在回报函数的平面中，区域E10通过线L1来确定界线，其中绝不达到回报函数的该区域，因为与低的蜂鸣音结合的高的燃料供给由于***动态性而是不可能的。此外，通过线L2确定了回报函数的区域E11的界线，其中该区域是状态的不安全的区域，即采取不安全的区域中的状态必然在稍后的时刻引导至致命状态。

图2中的线L1通过如下方式来获得：在f＝0时开始重复地执行动作“提高”。如从图2中获悉的那样，在此也提高了回报。但是也引起蜂鸣音的提高，这对回报有负面影响。在安全探索的意义上，状态在轨迹的端部(f＝0.95；h＝3.35)已经是超临界的，因为即使立即降低燃料供给，也不能避免-138.45的回报，因为尽管燃料供给降低直到59.14但是蜂鸣音升高。如已经提及的那样，轨迹L1也标记了状态空间的可达到的区域的边界。在该边界之下的区域由于***动态性而不能达到。通过轨迹L1，安全探测的基本的困难已变得明显：即使状态必然但仅仅间接地引导至致命状态，也必须将该状态识别为不安全的。

如已经提及的那样，图2中的安全区域的边界被标记为线L2。从在该边界之上的每个状态、即在更高的燃料供给和/或更高的蜂鸣音的情况下，不可能避免小于-1的边界值的回报。如果主体因此在探索期间移动到那里，则该主体未达到安全探索的目标。BurnSim环境具有在f＝0.5处的固定区域。在该位置，未改变蜂鸣音。当在那里执行动作“保持”时，则既不改变状态也不改变回报。

在实施根据本发明的针对BurnSim问题的方法时，针对安全函数、探索策略和备用策略实施不同的变形方案。利用其根据本发明探索各个状态的主体将各个组分集合在一起并且协调相互作用。安全探索的整个过程被概括如下：

1.初始化：

从以下情况开始：主体在开始探索时处于状态空间的安全区域中。观察列表被初始化为空的，同样具有还要探索的动作的状态的数量被初始化为空的，当前水平被设置为0。

2.备用策略的最初遵循：

遵循备用策略直至该备用策略达到并且不再抛弃固定点或者状态空间的确定区域。只要备用策略并非已经执行了一个状态中的所有可能的动作，所有在此所访问的状态就获得水平0并且被记入具有还要探索的动作的状态的列表中。

3.探索步骤：

探索策略选择要探索的动作。如果在当前状态下没有动作要探索(或者因为已经全部被探索，或者当前状态的水平并不对应于当前要探索的水平)，则该探索策略生成需要的动作，通过这些需要的动作，主体到达具有当前要探索的动作的状态中，以便接着选择在那里要探索的动作。在执行动作之前，主体借助安全函数检验其安全性。如果动作被估计为是安全的，则执行该动作。否则，该动作被标记为是不安全的并且使用备用策略来返回到安全区域中。对于在执行探索步骤时达到新的、迄今未知的状态或者达到水平比当前要探索的更高的已知的状态的情况，同样使用备用策略。

4.借助备用策略来返回：

如果进入新状态或者水平比当前要探索的更高的状态，则使用备用策略来返回到已知的区域中。在最简单的情况下，在此使用备用策略直至达到水平为0的状态。

5.水平提高：

当在当前水平的所有状态下的所有安全动作都被探索时，提高水平并且探索以步骤3来继续。

6.探索结束：

当执行了所有状态下的全部安全动作时或者当满足中断准则时，探索结束。这可以是达到最大水平。同样可能的是，基于已经收集到的观察来确定最优策略并且确定其性能。当该策略已达到所希望的质量或者该策略随着进一步的观察基本上不再改变时，可以结束探索。

以下描述了对于BurnSim问题如何确定安全函数。为了实现安全函数，局部二次地逼近最小回报函数。由于此原因，最小回报函数的估计线性地被实现在特征空间

φ_{i} = (f_{i}, h_{i}, f_{i}^{2}, h_{i}^{2}, f_{i} h_{i}, 1)

中，其中f_i作为燃料供给而h_i作为相应的转移i的蜂鸣音。在此形成的特征矩阵

X = (\begin{matrix} f_{1} & h_{1} & f_{1}^{2} & h_{1}^{2} & f_{1} h_{1} & 1 \\ \cdot & \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot & \cdot \\ f_{k} & h_{k} & f_{k}^{2} & h_{k}^{2} & f_{k} h_{k} & 1 \end{matrix})

最后利用最小二乘方w＝(X^TX)^-1X^Ty的方法来逼近所观察的最小回报

y = (\begin{matrix} r_{\min, 1} \\ \cdot \\ \cdot \\ \cdot \\ r_{\min, k} \end{matrix}) .

默认情况下，考虑十个最近的近邻。如果特征空间不完全张开，即X^TX不是正则的，则包括其它近邻。在超过cond(X^TX)＞1000时，呈现X的奇异性。

在BurnSim问题中，在一个实施形式中，事先已知的标准调节器被用作备用策略。该调节器提供以下备用策略：

该调节器力求关于燃料供给的固定区域之下的状态并且因此引起蜂鸣音的持续降低。

如果备用策略事先是未知的，则该备用策略必须在使用在过去描述的RL方法的情况下从已经存在的观察中进行学习，该RL方法代替回报的总和的期望值使回报的最小值的期望值最大化。在针对BurnSim问题实施的实施形式中，在此受所谓的学徒式学习的构思鼓动地从如下轨迹中获得观察，该轨迹已预先给定了所谓的教师。教师轨迹因此是(s，a，r，s′)元组构成的初始数据集，利用该初始数据集通过RL方法来学习备用策略。

图3示出了一图形，在该图形上沿着横坐标绘制燃料供给f而沿着纵坐标绘制蜂鸣音h。在该图形中，再现了教师轨迹T。该轨迹包括所有对于安全备用策略所需的观察。尤其是，在f＝0.5的右边的区域中的观察是重要的，以便可以学习在那里燃料供给降低(decrease)是安全的动作。此外，在图3中也通过相对应的在相应的状态下要执行的动作表示所学习的备用策略。在这种情况下，朝向左边的三角性D代表降低燃料，圆形K代表保持燃料而指向右边的三角形I代表提高燃料。

由于在教师轨迹中仅仅存在数目一目了然的状态，所以可能的是将这些状态理解为是离散的并且基于表格地在应用贝尔曼最优性方程(参见方程(1))的变形方案的情况下确定Q函数。此外，其转移并不由教师执行的非确定性的Q值事后被设置到-∞，使得基于得到的Q函数的策略也可以从不执行该动作。这是需要的，以便可以保证安全性。

Q函数仅针对状态空间的数个状态包含条目。然而，备用策略必须可为整个状态空间的所有状态提供动作。这通过简单的最近近邻生成来实现，对于该最近近邻生成，在给定的状态s，在Q中搜寻其距s的欧几里得的距离最小的状态

如已经提及的那样，图3示出了所使用的教师轨迹以及得到的策略。仅仅对于轨迹的点，Q函数包含条目，针对所有其它点，根据最近的近邻的Q值来选择动作。认识到的是：在几乎所有情况下，选择将燃料供给朝着0.5方向改变的动作。当教师轨迹针对一个状态仅包含一个动作时，所学习的策略也针对该状态和其近邻选择该动作，即使该动作在使最小回报最大化的意义上并非是最优的。该效应尤其是在f≤0.3并且h≈0.4(动作“保持”)的区域中以及在0.65≤f≤0.85并且h≤0.1(动作“提高”)的区域中可以观察到。然而在这两种情况下，错误特性是非临界的：在f＜0.5的区域中执行“保持”引起蜂鸣音的降低；在其它所述区域中的期望的“提高”是毫无问题的，因为绝不会进入状态空间的该区域。

在实施根据本发明的针对BurnSim问题的方法时，采用了对于探索策略所需的路径发现的两个实现方案。一方面，使用了基于图形的通过在图形中广度优先搜索的路径搜索，而另一方面，执行了通过对路径发现RL问题的定义和求解的搜索。

对于基于图形的方法，状态空间通过以下方式人为地被缩小：在BurnSim实施方案中，在每个步骤之后，蜂鸣音被四舍五入到1/50的精度。因此，RL问题本身改变。在真实的问题中，缩小这种形式的状态空间是不可能的。

替换于基于图形的路径搜索，借助强化学习的路径发现方法被遵循，其中状态被聚集成群集。该聚集在此如下地进行：

-由于燃料供给可以提高和降低仅仅0.05并且始终保持在[0，1)区间中，所以燃料供给的状态可以采取仅仅20个离散值。

-而蜂鸣音采取连续值。为了聚集状态，蜂鸣音被四舍五入到1/50的精度。在此，不涉及RL问题的改变，即BurnSim问题本身保持不变。例如状态s₁＝(f＝0.25；h＝0.1239)和s₂＝(f＝0.25；h＝0.1277)是BurnSim中的两个不同的状态。然而，两者属于所聚集的状态

根据与基于图形的变形方案相同的原理在这样聚集的状态上执行探索。

图4示出了基于BurnSim执行的对状态空间的探索的仿真的结果。在此，在图4中沿着横坐标再现了燃料供给f而沿着纵坐标再现了蜂鸣音h。通过线LI1再现了基于强化学***面中的投影。

在使用基于图形的探索的情况下，使用局部二次逼近，并且作为备用策略可以采用上面所描述的标准调节器π^backup。如从图4中得到的那样，在探索期间不超过τ＝-1的界限，使得探索满足安全探索的准则。

在具有状态聚集和RL路径发现的探索中，如在基于图形的探索中那样将局部二次逼近用作安全函数。备用策略是如下策略：这些策略如上面所描述的那样根据图3的教师轨迹T被确定。在路径发现中所探索的区域小于通过基于图形的探索所覆盖的区域，因为线LI1在线LI2之下。

在状态空间的有些区域中，用于学习的教师轨迹不包含可替换的动作，而是仅仅包含非最优的动作。因缺少训练数据中的替换物，所得到的策略也选择该动作。结果是比标准调节器更慢地降低蜂鸣音的备用策略。由此在该策略的备用轨迹上观察到比在标准调节器的这些轨迹上更小的回报。结果，安全函数将动作更早地分级为不安全的。

尽管有相对于基于图形的探索更小的覆盖区域，从最优策略的轨迹进入的状态空间的整个区域中仍获得了信息。因此，在这种情况下，观察足以由此导出最优策略。该最优策略在这种情况下是平均提供最高回报的那个动作选择规则。该策略对于BurnSim问题是已知的。

基于图形的探索需要大约52000个步骤，直至不再可能进行进一步的探索。而在利用RL路径发现对所聚集的状态进行探索的情况下，需要大约98000个步骤。较大数目的探索步骤的原因在于对于探索不怎么适合的所学习的备用策略以及在路径发现中由于状态聚集而违背马尔科夫条件引起的不安全性。

为了证明该方法的性能，利用上面所描述的探索方法确定的数据被用于学***均回报，其中两个RL方法不仅利用基于图形的路径发现而且利用RL路径发现来执行。

表1

平均回报

RL方法基于图形的路径发现 RL路径发现

动态编程 1.164 1.132

神经适配的Q迭代 1.166 1.166

最优策略 1.166

从表1中可认识到的是，不仅利用基于图形的路径发现进行探索而且利用RL路径发现进行探索都引起具有接近最优策略的回报或甚至对应于该回报的回报的策略。尤其是，利用神经适配的Q迭代不仅针对基于图形的路径发现而且针对RL路径发现都确定了最优策略。

从上述实施方案中得到的是，利用根据本发明的方法的不同的实施形式可以非常良好地如下探索技术***的状态：实现良好的数据库，利用该数据库可以学习针对该技术***的相对应的控制方法或调节方法。在此，在探索时尤其是避免达到可直接地或间接地引起对技术***的损害的状态。

Claims

1.一种用于以计算机辅助方式对技术***的状态(s，s′)进行探索的方法，其中：

-通过在技术***的相应状态(s，s′)中执行引起新状态(s，s′)的动作(a)来相继经历技术***的状态(s，s′)；

-在执行引起未知的、从前还未经历的状态(s，s′)的动作(a)之前，借助安全函数(SF)来确定相应的动作(a)是技术***中的允许的动作(a)还是不允许的动作(a)，其中只有当所述动作(a)是允许的动作时才执行所述动作(a)；

-在达到未知的状态(s，s′)时，基于反馈规则(BP)来选择随后的动作(a)，用于将状态(s，s′)引回到已知的状态(s，s′)。

2.根据权利要求1所述的方法，其中，不允许的动作(a)被表征为使得在执行不允许的动作(a)时该技术***以为1的概率或者以大于零的概率到达如下状态(s，s′)：所述状态(s，s′)直接在执行不允许的动作(a)之后或者间接地在执行其它动作(a)之后引起技术***的不希望的和/或有故障的工作状态。

3.根据权利要求1或2所述的方法，其中，此外在达到技术***的根据安全函数(SF)将要执行的动作(a)分级为不允许的动作的状态(s，s′)的情况下，基于反馈规则(BP)来选择随后的动作(a)。

4.根据上述权利要求之一所述的方法，其中，分别根据执行动作(a)的状态(s)和根据通过所述动作达到的新状态(s′)给所执行的动作(a)分配评分(r)。

5.根据权利要求4所述的方法，其中，不允许的动作(a)具有小于预先确定的值的评分(r)。

6.根据权利要求4或5所述的方法，其中，安全函数(SF)基于动作(a)的评分(r)而被学习。

7.根据权利要求6所述的方法，其中，给所经历的包含状态(s)和在所述状态(s)下执行的动作(a)的对分别分配最小评分(r_min)，该最小评分(r_min)在执行动作(a)之后并且在接着经历动作(a)的反馈规则(BF)时出现，其中基于最小评分(r_min)确定安全函数(SF)并且其中当最小评分(r_min)小于预先给定的值时，安全函数(SF)接着确定不允许的动作。

8.根据权利要求7所述的方法，其中，安全函数(SF)利用函数逼近器来确定，该函数逼近器基于围绕恰好要随着动作(a)改变的状态(s，s′)的局部外插来逼近最小评分(r_min)。

9.根据权利要求8所述的方法，其中，函数逼近器执行局部线性的和/或局部二次的外插。

10.根据上述权利要求之一所述的方法，其中，反馈规则(BP)是针对技术***预先给定的规则。

11.根据权利要求10所述的方法，其中，反馈规则(BP)通过技术***的现有调节器来实现。

12.根据权利要求4至9之一或根据与权利要求4相结合的权利要求10或11所述的方法，其中，反馈规则(BP)利用强化的、考虑动作(a)的评分(r)的学习方法来确定。

13.根据权利要求12所述的方法，其中，强化的学习方法基于最优性准则，根据该最优性准则使所有将来的评分(r)的期望值的最小值最大化。

14.根据上述权利要求之一所述的方法，其中，在经历技术***的状态(s，s′)时，给状态(s，s′)分配相继的类别来使得：

i)如果状态(s，s′)基于反馈规则(BP)被改变，则给通过动作(a)达到的未知的、从前还未经历的状态(s，s′)分配在执行动作(a)之前分配给状态(s，s′)的类别；

ii)在所有其它情况下，给通过动作达到的未知的、从前还未经历的状态(s，s′)分配跟随在执行动作(a)之前分配给状态(s，s′)的类别的类别。

15.根据权利要求14所述的方法，其中，状态(s，s′)根据类别而被经历来使得在一个类别中首先对所有可能的要执行的动作(a)进行探索并且接着转移到接下来的类别。

16.根据权利要求15所述的方法，其中，一个类别的状态(s，s′)利用基于图形的路径发现方法而被经历，其中在经历状态(s，s′)期间建立图形，该图形的节点对应于所经历的状态(s，s′)并且该图形的棱边对应于所执行的动作(a)，而且在该图形中对于每个节点存储相对应的状态(s，s′)的类别，其中在达到已经探索了所有可能的动作(a)的状态(s，s′)时在该图形中搜索至相同类别中的还能探索动作(a)的状态(s，s′)的路径，并且在找到这种路径时通过该路径到达该状态(s，s′)。

17.根据权利要求16所述的方法，其中，在未发现至相同类别中的还能执行动作(a)的状态(s，s′)的路径的情况下，经历后继类别的状态(s，s′)。

18.根据权利要求15至17之一所述的方法，其中，一个类别的状态(s，s′)利用基于回报函数的强化学习方法而被经历，其中当动作(a)引起在刚刚经历的类别中的可能对至少一个动作(a)进行探索的状态(s，s’)时，根据动作(a)的回报函数来分配回报。

19.根据权利要求18所述的方法，其中，在强化学习方法中，在经历了预先确定的数目的状态(s，s′)之后更新动作选择规则，其中在更新时考虑新添加的动作和执行相应的新添加的动作的相应的状态(s)以及通过动作(a)达到的新状态(s′)。

20.根据权利要求14至19之一所述的方法，其中，在基于图形的学习方法中和/或在强化学习方法中，技术***的相似状态被汇总成共同的群集。

21.根据权利要求14至20之一所述的方法，其中，此外在达到在刚刚要经历的类别之后的类别的状态(s，s’)时，基于反馈规则来选择随后的动作(a)。

22.根据权利要求14至21之一所述的方法，其中，状态(s，s′)根据反馈规则而被经历，直至达到刚刚要经历的类别的状态。

23.根据权利要求14至22之一所述的方法，其中，该方法被启动为使得首先在不考虑安全函数(SF)的情况下根据反馈规则(BP)经历状态(s，s′)并且在此给状态(s，s′)分配相同的类别，其中经历状态(s，s′)直至不再抛弃确定数量的状态，并且接着在考虑安全函数(SF)的情况下到达未知的、从前还未经历的状态(s，s′)，其中给所述状态(s，s′)分配后续的类别。

24.根据上述权利要求之一所述的方法，其中，该方法在技术***的真实工作中被采用。

25.根据权利要求1至23之一所述的方法，其中，该方法在对技术***的工作的仿真中被采用。

26.根据上述权利要求之一所述的方法，其中，利用该方法对燃气轮机的状态(s，s′)进行探索。

27.根据权利要求26所述的方法，其中，燃气轮机的状态和/或分配给所述状态(s，s′)的动作(a)包括如下量中的一个或者多个：燃气轮机的整个功率；对燃气轮机的燃料供给；燃气轮机中的或者在燃气轮机的环境中的一个或多个压力和/或温度；燃气轮机的蜂鸣音；燃气轮机中的燃烧室加速；燃气轮机上的一个或多个调整参数、尤其是阀门调整和/或燃料比和/或进口导向叶片的调整。

28.一种计算机程序产品，其具有存储在机器可读的载体上的程序代码，用于当程序运行在计算机上时执行根据上述权利要求之一所述的方法。