CN113874865A - 借助于贝叶斯优化方法确定技术***的调节策略的模型参数的方法和装置 - Google Patents

借助于贝叶斯优化方法确定技术***的调节策略的模型参数的方法和装置 Download PDF

Info

Publication number
CN113874865A
CN113874865A CN202080041182.0A CN202080041182A CN113874865A CN 113874865 A CN113874865 A CN 113874865A CN 202080041182 A CN202080041182 A CN 202080041182A CN 113874865 A CN113874865 A CN 113874865A
Authority
CN
China
Prior art keywords
model
model parameters
function
technical system
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080041182.0A
Other languages
English (en)
Inventor
E·克伦斯科
C·丹尼尔
L·弗罗利希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113874865A publication Critical patent/CN113874865A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25298System identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及用于借助于贝叶斯优化方法来确定技术***(2)的调节策略的方法,其中基于调节模型的模型参数(
Figure 100004_DEST_PATH_IMAGE002
)创建和能实施调节策略,其中为了优化调节实施以下步骤:提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数(
Figure 100004_DEST_PATH_IMAGE002A
)评估技术***(2)的调节质量;基于质量函数执行贝叶斯优化方法,以便在说明模型参数(
Figure 100004_DEST_PATH_IMAGE003
)的允许值范围的模型参数域(I)内迭代地确定具有模型参数(
Figure 100004_DEST_PATH_IMAGE003A
)的模型参数组;并且根据质量函数的所属的最大后验估计值(
Figure 100004_DEST_PATH_IMAGE005
)来确定模型参数中至少一个模型参数的模型参数域(I)。

Description

借助于贝叶斯优化方法确定技术***的调节策略的模型参数 的方法和装置
技术领域
本发明涉及一种尤其是在使用贝叶斯优化方法的情况下为技术***寻找出合适的调节策略的方法。尤其是,本发明涉及一种用于更有效地优化调节模型的模型参数以实现技术***的调节策略的计算机实现的方法。此外,本发明涉及用于加速贝叶斯优化方法的实施以减少调节策略的参数化的计算开支的措施。
背景技术
用于调节或运行技术***的调节策略或调节模型的确定视技术***的复杂性而定是耗费的。虽然在技术***的线性动态行为情况下可以通过经典方法确定最佳调节,但是尤其是在非线性物理***情况下,基于物理相互关系创建或参数化相对应的调节模型是耗费的。
可替换地,可以使用所谓的强化学习来寻找出合适的调节策略。强化学习包括观察技术***与环境之间的相互作用,并从中学习相对应的函数模型,该函数模型描述技术***在其与环境交互时的行为。通过最小化由成本函数或质量函数说明的成本值来进行学习过程,所述成本值评估调节***的性能以获得用于在环境中自动化地经调节地引导技术***的调节模型的模型参数。
尤其是无模型的强化学习方法是有利的,因为不需要关于环境以及环境与***的相互作用的知识,但是在学习过程期间***与环境的交互时间非常长。相比之下,在传统的基于模型的方法情况下,模型结构在最初被预先给定,该模型结构基本上描述了调节***在环境中的行为。由此可以映射出调节***和环境之间的交互的影响。通过参数适配来适配模型结构可以简单且有效地执行。然而,传统方法具有缺点,因为选择的模型结构可能不合适,并且由此通过调节模型的优化进行参数适配并不能导致最佳结果。
与强化学习相关的调节模型的创建和优化可以结合贝叶斯优化来执行,其中质量函数被建模为高斯过程模型。这使得能够为调节模型创建一个高效的黑盒优化器,所述调节模型在其他情况下会很耗费地创建/参数化。但是,由于此类调节模型的模型参数的数量众多,因此优化非常复杂,从而大量的测量过程是必要的,并且由于测量数据量大,长训练时间成为规则。
发明内容
根据本发明,提供了根据权利要求1的用于借助于贝叶斯优化方法来确定技术***的调节策略的方法以及根据并列独立权利要求的相对应的装置、调节***和调节方法。
在从属权利要求中说明了进一步的构型方案。
根据第一方面,提供了一种借助于贝叶斯优化方法来确定技术***的调节策略的方法,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术***的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;并且
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
创建调节模型以对调节***的调节进行建模。调节模型定义了一种调节策略并表示一种函数关系,利用该函数关系可以基于调节的一个或多个输入参量来计算操纵参量。输入参量中至少一个输入参量在此对应于要调节的技术***的状态参量。
可以通过多种方式预先给定调节模型的形式。因此,调节模型可以包含基于物理定律的公式关系,例如运动方程、振动方程、阻尼行为等。调节模型也可以基于自由选择的公式关系。公式关系通常必须考虑技术***的非线性行为。
用于确定调节模型的贝叶斯优化方法与技术***迭代地应用不同的调节策略,并以有效的方式优化调节。在此,质量函数借助于高斯过程回归建模,以便将***模型的性能建模为调节模型的模型参数的函数,其中高斯过程回归基于有噪声的状态参量来创建。基本上,问题涉及寻找出一种将***状态映射到输入参量向量上的调节策略。为此,基于状态参量向量(来自多个状态参量)和输入参量向量(来自多个输入参量)在预定时间范围内评估取决于调节策略的模型参数的质量函数(成本函数)。
一般在应当最小化未知函数
Figure 100002_DEST_PATH_IMAGE002
、即所谓的“黑盒(Black-Box)”函数时应用贝叶斯优化。该未知函数
Figure 100002_DEST_PATH_IMAGE002A
只能对值 x 被评估和(可能受噪声影响地)观察。所观察的值 y 得出为
Figure DEST_PATH_IMAGE004
,其中 e 表示噪声。此外假设,对未知函数
Figure 100002_DEST_PATH_IMAGE002AA
的每次评估都是昂贵的,也就是说在如下意义上导致成本,即未知函数的评估导致高的耗费,例如在试验台上实施实验时是这种情况。由于对未知函数的评估昂贵,因此值得追求的是在优化期间只须进行少量评估。
在某些假设条件下,例如未知函数的连续性,可以在函数模型中用高斯过程回归来近似未知函数。为此,在多个评估点
Figure DEST_PATH_IMAGE006
处对未知函数进行评估并使用高斯过程观察对应的函数值
Figure DEST_PATH_IMAGE008
之后,可以建立未知函数
Figure 100002_DEST_PATH_IMAGE009
的模型。高斯过程的一个特性是,模型预测在评估点周围的范围中非常好并且可以良好地近似未知函数。这反映在功能模型的低不确定性中。远离评价点,关于未知函数
Figure DEST_PATH_IMAGE009A
的预测变差,并且不确定性随着距评价点的距离增加而增加。
优化未知函数
Figure DEST_PATH_IMAGE009AA
的一种可能策略是在许多不同的位置处(例如在规则网格上)评估未知函数,并采用最低的观察函数值作为优化的结果。这种做法效率低下,并且需要具有相对应地高的耗费的许多评估来寻找出最优值。
代替这种方案,使用高斯过程来选择新的评估点。为此,将用于评估未知函数的新评估点选择为,使得由此一方面改进了模型,从而降低了质量函数的估计期望值的不确定性。为此,通常在未知功能尚未被评估(Exploration(探索))的区域中选择评估点。另一方面,将用于评估未知函数的新评估点选择为,使得尽可能快地或以在评估点处的少量测量来实现最小化函数的目标。为此,优选基于高斯过程(Exploitation(采用))承诺低函数值的评估点。这两个对立的标准由所谓的获取功能来权衡。
获取函数使用通过高斯过程模型描述的质量函数的参数,例如期望值
Figure DEST_PATH_IMAGE011
和分配给该期望值的标准偏差
Figure 100002_DEST_PATH_IMAGE013
。一个例子是所谓的Lower Confidence Bound (置信下限,LCB) 获取函数,其描述如下:
Figure DEST_PATH_IMAGE015
。在实践中,因子 k 通常恒定地例如规定为一个特定值,例如 k = 2。可以利用常见的基于梯度的方法有效地最小化该新标准,并且然后 LCB (x) 的最小值形成未知函数
Figure DEST_PATH_IMAGE009AAA
的新的评估点。在此情况下要注意的是,对于获取函数的优化,必须定义优化域,在该优化域中搜索下一个评估点。该域通常根据经验和/或专业知识来选择。
根据上述方法,将贝叶斯优化方法用于通过最小化最初未知的质量函数来寻找出调节策略的模型参数。目标是以这样一种方式创建调节模型,即技术***的行为尽可能精确地符合希望的规范。如有必要,质量函数可以根据调节***的性能根据相应的模型参数被不断更新。为了更新质量函数,需要对相应模型参数进行评估,这使得有必要在真实环境中利用相应的模型参数来运行调节***。由于需要实际运行调节***,通过不断要更新的质量函数来改进成本评估变得非常耗费。因此,值得希望的是,在实际技术***处尽可能地将测量过程的数量最小化。
分别在一个或多个测量过程之后,可以利用最近测量的模型参数和结果得到的成本来更新质量函数,并且可以选择一组新的测试模型参数,在其中评估质量函数的参数的预先给定的采集函数被最小化或最大化。预先给定获取函数,以便在权衡探索和采用的情况下通过最小化/最大化来确定新的测试模型参数组。在根据本发明的方法的上下文中,探索意味着为了选择新的测试模型参数优选可能的模型参数空间的如下区域,在所述区域中成本尚未通过先前的测量过程进行评估。在根据本发明的方法的上下文中采用意味着通过测量过程为下一次成本评估选择模型参数组,该模型参数组被估计为一组最佳的模型参数。
上述方法的思想在于,在先前受限的优化域中借助于贝叶斯优化方法来确定调节模型的模型参数。虽然在传统的贝叶斯优化方法情况下不容易确定各个模型参数的在其中应当执行对调节策略的搜索的模型参数域,使得以更有效的方式、即利用更少数量的评估过程/测量来实施优化,但是可以根据来自最初实施的***识别的先前确定的最大后验估计值(MAP估计)来确定模型参数的用于其优化的值范围。
这样,用于质量函数的贝叶斯优化的模型参数域可以自动缩小,即无需手动地预先给定模型参数的值范围,从而可以显着减少用于优化的测量过程的数量。
此外,参数回归模型可以将输入参量向量和***状态映射到随后的***状态上,并且尤其是可以被相应地训练以获得加权矩阵。
此外,模型参数可以借助于用于 LQR 调节器的 AB 学习方法来确定,其中针对至少一个最大后验估计值分别确定不确定性度量,其中至少一个模型参数的值范围被规定在最大后验估计值周围。
除了最大后验估计值之外,还可以确定最大后验估计值的不确定性度量,并且所述不确定性度量允许确定所分配的模型参数的相应值范围的大小。这使得能够单独适配模型参数的优化的搜索范围,即将受高度不确定性影响的模型参数的搜索范围规定为大于受较低不确定性影响的模型参数的情况。
可以规定,借助用于 LQR 调节器的 K 学习方法来确定模型参数,其中至少一个模型参数的值范围被规定在最大后验估计值周围。
此外,在最大后验估计值周围以如下度量确定至少一个模型参数的值范围,所述度量被确定为0 和 1 之间的预先给定的因子与相关最大后验估计值的乘积。
根据另一实施方式,优化方法可以以通过对先验平均值函数最小化得出的初始模型参数开始,其中所述技术***的非参数近似模型被训练来获得先验平均值函数。
根据另一方面,提供了一种借助于贝叶斯优化方法来确定技术***的调节策略的装置,其中基于调节模型的模型参数创建和能实施调节策略,其中所述装置被构造用于为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术***的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
根据另一方面,提供了一种具有技术***和用于调节技术***的调节单元的调节***,其中在调节单元中实现用于根据技术***的状态参量来提供输入参量向量的调节模型,其中设置模型创建块以便基于在优化块中实施的贝叶斯优化方法来确定调节模型的模型参数,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术***的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
附图说明
下面根据附图更详细地解释实施方式。其中:
图1示出了具有调节单元和待调节的技术***的调节***的示意图;和
图2是流程图,用于说明借助强化学习方法创建调节模型的方法。
具体实施方式
图1示出了构造用于调节技术***2的自适应调节***1的示意图。技术***2例如可以是机动车辆的内燃机或其子***。调节单元 3 用一系列输入参量
Figure DEST_PATH_IMAGE017
作为操纵参量来调节技术*** 2,所述输入参量导致技术*** 2 的某些运行点。输入参量
Figure DEST_PATH_IMAGE017A
通常包括多个输入参量,这些输入参量组合在一个输入参量向量
Figure DEST_PATH_IMAGE019
中。此外,对于输入参量(输入参量向量
Figure DEST_PATH_IMAGE017AA
的元素)中的每一个都有一个允许的值范围。此外,技术***2的操控导致一个或多个状态参量,所述状态参量在待测量的输入参量向量u处被测量并且以状态参量向量
Figure DEST_PATH_IMAGE021
的形式表示。
借助于作为技术***2的一部分的一个或多个传感器21,可以检测一个或多个测量参量
Figure DEST_PATH_IMAGE023
的变化过程,所述一个或多个测量参量分别代表相对应的状态参量
Figure DEST_PATH_IMAGE025
,所述状态参量分别说明技术*** 2 的***状态 x。D在此对应于状态参量的数量。因此,技术***2的***状态借助于一个或多个传感器21被检测并且作为状态参量向量x的状态参量被传送到调节单元3。
输入参量
Figure DEST_PATH_IMAGE017AAA
对应于基于状态参量
Figure DEST_PATH_IMAGE021A
和调节策略
Figure DEST_PATH_IMAGE027
确定的调节单元3的操纵参量。技术***2的运行借助于技术***2的一个或多个致动器22根据输入参量u(t)进行。例如,因此可以控制机器人或车辆的运动或可以对车辆的驱动单元或驾驶员辅助***进行控制。例如,输入参量 u 可以对应于施加到作为致动器 22 的机电执行器的电压。根据一个或多个输入参量u操控致动器22并实施相对应的动作。在这种情况下,致动器22可以包括(不一定在结构上集成的)操控逻辑,其从输入参量
Figure DEST_PATH_IMAGE029
确定操控参量,相关致动器22利用该操控参量来操控。
在一个实施例中,调节单元3被用于调节作为技术***的内燃机。为此,可以将节气门位置、燃料输送和/或类似的作为输入参量预给定到节气门执行器或喷射阀的操控装置,并且接收相对应的状态参量,例如转速、负载、发动机温度。
在一个实施例中,调节单元3被用于调节作为技术***2的至少部分自主的机器人,尤其是至少部分自主的机动车辆。传感器21可以是例如优选地布置在机动车辆中的一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR(激光雷达)传感器和/或一个或多个位置传感器(例如 GPS)。替代地或附加地,传感器21还可以包括确定关于技术***(机动车辆)的状态的信息的信息***,例如确定机动车辆附近的当前或未来天气状态的天气信息***。
在另一实施例中,调节单元3被用于调节作为技术***的机动车辆中的功能。为此,可以将加速踏板位置、以手腕力矩或转向位置为形式的转向干预、诸如周围对象的位置的环境信息、制动干预和/或类似的预先给定为输入参量并且接收相对应的状态参量,所述状态参量说明机动车辆的驾驶行为,例如车速、转弯位置、与周围对象的距离等。
调节单元3可以利用多个测量参量
Figure DEST_PATH_IMAGE031
来探测,例如至少部分自主机器人的状态或状态变化过程,例如发动机转速、车速、燃料消耗、发动机温度、纵向速度和/或横向速度、转向角、偏航率等。优选地布置在机动车辆中的致动器32可以是例如机动车辆的制动器、驱动器或转向器。
可替代地,至少部分自主的机器人还可以是另一移动机器人(未示出),例如通过飞行、游泳、潜水或步行来移动的机器人。移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。
在另外的替代方案中,至少部分自主的机器人还可以是家用电器(未示出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器21、例如光学传感器,可以检测用家用电器处理的对象的状态,例如在洗衣机的情况下,位于洗衣机中衣物的状态。然后可以利用调节单元3来确定该对象的类型或状态并且通过测量参量
Figure DEST_PATH_IMAGE033
来表征。然后可以这样确定输入参量,即根据对象的所确定的类型或所确定的状态来操控家用电器。例如,在洗衣机的情况下,该洗衣机可以根据位于其中的衣物由什么材料构成来进行控制。然后可以根据确定了衣物的何种材料来选择输入参量u(t)。
在另一实施方式中,调节单元3可用于操控生产***的生产机器(技术***3),其方式是控制该生产机器的致动器22通过输入参量***控。生产机器11可以是例如用于冲压、锯切、钻孔、铣削、车削和/或切割的机器。
传感器21则可以是例如检测生产产品的特性的光学传感器。可能的是,控制生产机器的致动器32根据生产产品的所确定的特性***控,从而生产机器相对应地实施该生产产品的后续处理步骤。还可能的是,传感器31确定由生产机器处理的生产产品的特性,并据此针对后续生产产品来适配对生产机器的操控。
调节单元3的调节遵循调节策略。调节策略应当通过动态过程来适配,使得***行为在质量函数方面变得最佳。为此,实施优化方法,即调节策略所基于的调节模型的模型参数优化为使得对经调解的技术***2的性能进行优化。为此,在模型创建块 4 中创建调节模型(动态模型),该调解模型是调节单元 3的调节策略的基础。模型创建块 4 基于在优化块 5 中实施的贝叶斯优化方法确定调节模型的模型参数。这基于在质量函数块 6 中确定或预给定的预给定质量函数进行。
在进一步优选的实施方式中,调节单元3、模型创建块4、优化块5和成本函数块6在计算单元中实现。计算单元包括控制设备 2、一个或多个处理器和至少一个机器可读存储介质,指令存储在所述机器可读存储介质上,所述指令当其在处理器上实施时促使所述计算单元实施根据本方法的发明。
技术***2对应于动态***,该动态***借助于调节单元3以合适的调节策略以优化的方式被调解,所述调节策略应当相对应地借助于贝叶斯优化方法来创建。贝叶斯优化方法用于确定调解模型,其方式是在优化方法期间迭代地应用各种测试模型参数组来调解技术***2并基于结果得到的状态参量来适配模型参数。在此,质量函数借助于高斯过程回归来建模,通过所述高斯过程回归,技术***的调解性能被定义为模型参数的函数。调节的性能从预给定的质量标准中得出,该质量标准将调节的品质分配给结果得到的状态参量。状态参量具有容差,使得质量函数优选地通过高斯过程回归创建。
基本上,该问题涉及寻找出一种调节策略,该调解策略将***状态
Figure DEST_PATH_IMAGE035
映射到输入参量向量
Figure DEST_PATH_IMAGE037
其中
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE041
,其中
Figure DEST_PATH_IMAGE043
表示模型参数域
Figure DEST_PATH_IMAGE045
中调节策略的模型参数。基于状态向量
Figure DEST_PATH_IMAGE035A
和输入参量向量
Figure DEST_PATH_IMAGE047
在预先确定的时间范围
Figure DEST_PATH_IMAGE049
上预给定依赖于模型参数
Figure DEST_PATH_IMAGE051
的质量函数J,其中模型参数
Figure DEST_PATH_IMAGE051A
应当通过优化方法被优化,
Figure DEST_PATH_IMAGE053
其中
Figure DEST_PATH_IMAGE055
对应于期望值,
Figure DEST_PATH_IMAGE057
表示通过状态向量
Figure DEST_PATH_IMAGE059
给出的状态在附着的输入参量向量
Figure DEST_PATH_IMAGE061
情况下的成本,并且
Figure DEST_PATH_IMAGE063
表示状态过渡模型,该状态过渡模型描述技术*** 2 的动态性并且此外通过噪声参量
Figure DEST_PATH_IMAGE065
施加。
贝叶斯优化方法用于通过最小化质量函数来寻找到调节策略的优化模型参数
Figure DEST_PATH_IMAGE067
。目标是调节策略能够利用调节单元 3来实现对技术*** 2 的尽可能最佳的调节,其中通过质量函数确定的成本最小化“最佳地”涉及由调节单元 3 和技术***2组成的总***的预给定性能。
因此,质量函数因此提供了在时间窗口
Figure DEST_PATH_IMAGE069
期间实际技术*** 2 的行为相对于相应地具有成本J的预给定性能的偏差。因此,质量函数的评估要求技术*** 2在测量过程中在真是环境中运行。由于需要实际运行包括技术***2和调节单元3的调节***,成本J的评估变得非常复杂,使得在真实的技术***2处用于评估特定调节策略的测量过程的数量应当被尽可能地最小化。
可以借助于 LQR 调节器实施对调节的创建,所述LQR调节器需要待调节***的线性动态模型。该 LQR 调节器可以通过反馈矩阵 K 来描述,而反馈矩阵的元素可以作为模型参数完全或部分地针对优化被适配。
下面假设,调节策略对应于
Figure DEST_PATH_IMAGE071
的线性状态调节策略。
线性调节策略所具有的优点是,它们与其他调节模型相比具有少的维度。此外,线性调节策略使其能够以简单的方式在调节器中实现并且从而提高贝叶斯优化的效率。
结合贝叶斯优化,可以使用线性二次调节器,即所谓的 LQR 调节器,如在创建调节策略的领域中已知的那样。在 LQR 调节器情况下,测量过程中的***行为和与环境的交互通过具有一组变化的输入参量向量和结果得出检测的状态参量向量的受控运行来确定。在此,***动态性根据
Figure DEST_PATH_IMAGE073
被线性化,并且成本相应地被乘方
Figure DEST_PATH_IMAGE075
通过这些近似,可以在模型创建块 4 中创建 LQR 反馈矩阵,该矩阵表示动态模型并且一般地称为
Figure DEST_PATH_IMAGE077
。调节策略优化通过直接适配反馈矩阵(K学习(K-Learning))来执行,其中反馈矩阵中的一部分项或每个项对应于用于优化的一个模型参数。此外,只有反馈矩阵K的与***矩阵A和B对应的组成部分被假设为待优化的模型参数,其中矩阵A和B的每个项对应于一个模型参数。
可替代地,在没有矩阵 Q 和 R(加权矩阵)的反馈矩阵 K 中可以假设为要优化的模型参数。在此,仅适配具有以下形式的权重矩阵的对角线项就足够了:
Figure DEST_PATH_IMAGE079
其中
Figure DEST_PATH_IMAGE081
并且
Figure DEST_PATH_IMAGE083
根据模型参数与上述矩阵的从属关系,这些方法被称为K学习(K-Learning)、AB学习(AB-Learning)和QR学习(QR-Learning)。在贝叶斯优化情况下,必须充分关于质量函数的长度尺度覆盖参数空间,以便找出优化的模型参数的良好估计。
然而,在没有先验知识的情况下,很难为优化选择各个模型参数的值范围,即模型参数域。然而,这对于没有过多数量的测量过程的有效优化方法来说是重要的。因此,上述方法规定选择模型参数的合适的搜索范围,从而可以减少测量过程的数量。这尤其是在高维的情况下是必要的,因为在那里不容易手动设置模型参数中每一个模型参数的值范围。因此,模型参数的值范围首先通过学习动态模型上的分布来确定,并且然后使用该分布来选择模型参数中每个模型参数的值范围。该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值来获得,以便获得***动态性的近似线性模型。这导致模型上的高斯分布
Figure DEST_PATH_IMAGE085
其中
Figure DEST_PATH_IMAGE087
是最大后验 (MAP)估计值,其中符号
Figure DEST_PATH_IMAGE089
说明矩阵 A 和 B 转换成向量。
在选择模型参数取值范围之后,可能的是,在某些维度中模型参数的值范围选择过于保守。例如,如果缩放参数 ß 太小或由于模型偏差,就可能发生这种情况。因此可能发生的是,最优模型参数向量并不位于所选择的模型参数域内。因此,模型参数域可以在优化期间动态地适配。
在贝叶斯优化的过程期间,存在对模型参数值的最优值的估计,即在当前的模型参数域中近似质量函数的最小值。如果从贝叶斯优化得出所估计的最优值的位置位于模型参数域的范围边界处,则更好的模型参数有可能位于当前模型参数域之外。因此提出,对其值位于模型参数域的边界处的模型参数的值范围进行扩大。模型参数域的这种动态适配可以通过不同方式实施。
模型参数的值范围的适配使得能够从有限的值范围出发,在优化期间仅针对模型参数向量的那些优化满足模型参数域的边界范围的维度来动态适配所述值范围。由此,可以整体上更有效地进行优化,从而显着改善收敛性。此外,可以更好地补偿潜在的模型误差,从而经优化的***模型变得性能更高。通过改善效率,可以将贝叶斯优化缩放到高维调节策略。
为了与模型参数组有关地创建针对调节***的性能的质量函数,首先提供数据
Figure DEST_PATH_IMAGE091
,其中i = 1 ... n
因此,初始高斯过程模型被训练为质量函数,该初始高斯过程模型以一定代价映射测试模型参数
Figure DEST_PATH_IMAGE093
其中 K 对应于协方差矩阵,其中
Figure DEST_PATH_IMAGE095
因此,高斯过程模型既提供了预期值,即成本 J,又提供了该预期值的不确定性。
现在可以由此确定初始模型参数域,因为在没有先验知识的情况下很难为优化选择各个模型参数的值范围,即模型参数域。选择合适的模型参数域对于没有过多数量的测量过程的有效优化方法来说是重要的。在步骤S3中,因此为模型参数选择合适的搜索范围,从而可以减少测量过程的数量。这在高维的情况下尤其必要,因为在那里不容易手动调整模型参数中每个模型参数的值范围。因此,基于先前训练的高斯过程模型来确定模型参数的值范围,并且随后使用该分布来选择模型参数中每个模型参数的值范围。
该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值获得,以便获得***动态性的近似线性模型。这导致模型上的高斯分布
Figure DEST_PATH_IMAGE097
其中
Figure DEST_PATH_IMAGE099
是最大后验 (MAP) 估计并且符号
Figure DEST_PATH_IMAGE101
说明矩阵 A 和 B 转换成向量。
图1的装置1还包括优化单元22。优化单元22可以设置在控制设备2中,或者可替代地与控制设备2分开地设置。优化单元22的目的是为调节器21确定调节模型,通过该调节模型可以调节动态技术***3。为此,优化单元22执行迭代优化方法,通过该迭代优化方法创建调节模型,其方式是对质量函数进行最小化。质量函数的最小化可以表达为:
Figure DEST_PATH_IMAGE103
其中初始条件通过
Figure DEST_PATH_IMAGE105
预先给定。
Figure DEST_PATH_IMAGE107
在此对应于***状态在时间点 t 的状态向量,并且
Figure DEST_PATH_IMAGE109
对应于在时间点t的输入参量向量。成本矩阵
Figure DEST_PATH_IMAGE111
Figure DEST_PATH_IMAGE113
被假定为正半定或正定。基于动态行为
Figure DEST_PATH_IMAGE115
的线性近似,并且在假设具有调节策略
Figure DEST_PATH_IMAGE117
的线性状态反馈控制器
Figure DEST_PATH_IMAGE119
的情况下,利用
Figure DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE123
得出上述最小化问题的近似静态解,其中最后提到的方程对应于时间离散代数Riccati 方程 (DARE),其可以有效地根据
Figure DEST_PATH_IMAGE125
通过 Kleinman 方法来求解。下面通过短符号
Figure DEST_PATH_IMAGE127
描述线性状态反馈控制器。
最后提到的方程的解在调节理论中已知为 LQR 调节器(LQR:线性二次调节器)。由于***动态性的线性近似,LQR 调节器的建模通常导致不令人满意的结果,所述***动态性的线性近似通常只是在工作点附近的足够精确的近似。
下面应基于贝叶斯优化方法执行调节策略搜索。所述贝叶斯优化方法规定了高斯过程回归。高斯过程回归是对先验未知函数
Figure DEST_PATH_IMAGE129
建模的非参数方法。借助高斯过程回归,在对***行为进行有噪声观察的情况下,既可以确定函数值的进程,也可以确定函数值中每个函数值的预测的不确定性。高斯过程可以理解为函数上的分布,并且由先验平均值函数
Figure DEST_PATH_IMAGE131
和协方差函数
Figure DEST_PATH_IMAGE133
定义。平均值函数说明关于要映射的质量函数
Figure DEST_PATH_IMAGE135
的先验知识,并且通常假定为零。协方差函数也称为核心,并且定义了分别两个函数值
Figure DEST_PATH_IMAGE137
Figure DEST_PATH_IMAGE139
之间的相关性,其中
Figure DEST_PATH_IMAGE141
假设 n 个有噪声的观察值:
Figure DEST_PATH_IMAGE143
Figure DEST_PATH_IMAGE145
其中
Figure DEST_PATH_IMAGE147
,可以创建关于对测量数据的预测的先验分布,以便获得质量函数在每个点
Figure DEST_PATH_IMAGE149
的后验预测。后验平均值和协方差由下式给出
Figure DEST_PATH_IMAGE151
其中
Figure DEST_PATH_IMAGE153
并且对称 Gram 矩阵
Figure DEST_PATH_IMAGE155
具有项
Figure DEST_PATH_IMAGE157
高斯过程回归被用于对技术*** 2 的行为建模并评估其最优性。由调节器和技术***2构成的装置的行为由质量函数表示,该质量函数表示模型参数与基于由模型参数定义的调节策略所调节的技术***的结果得到的成本之间的函数关系。然后应用贝叶斯优化方法来优化质量函数。该质量函数在分析上是不可能的,并且因此必须反复执行。因此,用于优化的耗费应限制于尽可能小的迭代次数。
迭代对应于将调节策略应用到实际的技术***2的测量过程,所述调节策略由要考虑的模型参数
Figure DEST_PATH_IMAGE159
定义。由此得出新的数据对
Figure DEST_PATH_IMAGE161
,该新的数据对被添加到高斯过程的训练数据
Figure DEST_PATH_IMAGE163
在每个测量过程之后,通过最大化获取函数
Figure DEST_PATH_IMAGE165
来选择新的评估点,这可以有效地通过数值优化技术、如 L-BFGS来执行。替换于获取函数,可以使用例如改进概率(probability of improvement,PI)、预期改进(expected improvement,El)和置信上限(upper confidence bound,UCB)。所有这些函数都提供了在采用、即优选其中质量函数尚未被评估的输入参量向量的范围与采用、即优选质量函数的所估计的最优值(最小值)所在的范围之间的权衡。
对于贝叶斯优化,仅评估通过测量过程所运行的技术***的整体行为,而通常丢弃轨迹数据或进程数据。对于借助于贝叶斯线性回归的***识别,可以高频采样状态参量,以获得待估计模型的不确定性度量。
在经典参数回归情况下假设模型
Figure DEST_PATH_IMAGE167
具有输入 x 和权重或参数w,它们被用于估计有噪声的目标变量 t。
假设噪声遵循精度(反方差)为
Figure DEST_PATH_IMAGE169
的高斯分布,后验分布对应于在矩阵
Figure DEST_PATH_IMAGE171
中说明的n次测量和在向量
Figure DEST_PATH_IMAGE173
中说明的相应目标值的权重:
Figure DEST_PATH_IMAGE175
其中n对应于数据点的数量,
Figure DEST_PATH_IMAGE169A
对应于描述数据中噪声的预给定常数,
Figure DEST_PATH_IMAGE177
对应于待估计模型参数的先验平均值(模型参数的高斯先验的平均值),
Figure DEST_PATH_IMAGE179
对应于待估计的模型参数的先验协方差(模型参数的高斯先验的协方差),
Figure DEST_PATH_IMAGE181
对应于数据点的位置(汇总在一个矩阵中),t 对应于数据点的函数值(汇总在一个向量中),
Figure DEST_PATH_IMAGE183
对应于待估计的模型参数的后验期望值(平均值)并且
Figure DEST_PATH_IMAGE185
对应于待估计的模型参数的后验协方差。
权重 w 的最大后验估计值(MAP 估计)对应于后验分布的平均值,即
Figure DEST_PATH_IMAGE187
并且其协方差对应于
Figure DEST_PATH_IMAGE189
调节模型的确定通过强化学习进行,以便借助于贝叶斯优化方法确定线性状态反馈控制器的参数化。
下面提出了用于加速优化过程的收敛的措施。
作为初步假设,假定非线性技术*** 2 被线性模型逼近,并且使用贝叶斯优化方法来优化***矩阵
Figure DEST_PATH_IMAGE191
的项。结果得到的调节模型
Figure DEST_PATH_IMAGE193
然后可以写为:
Figure DEST_PATH_IMAGE195
该方法称为AB学习方法。
可替代的学习方法是所谓的K学习方法,其中直接优化成反馈增益矩阵。这里,调节模型对应于
Figure DEST_PATH_IMAGE197
,其与前面描述的方案相反不使用上述方法并且因此是无模型方案。
根据图2的流程图,现在借助于贝叶斯优化方法来描述用于创建调节模型的方法。
在步骤S1中,首先确定MAP加权矩阵
Figure DEST_PATH_IMAGE199
。这可以在没有关于调节模型的先验知识的情况下进行。在技术***的识别过程中,目标是基于给定的当前状态
Figure DEST_PATH_IMAGE201
和输入参量向量
Figure DEST_PATH_IMAGE203
确定技术*** 2 的后续状态
Figure DEST_PATH_IMAGE205
。因此下式适用:
Figure DEST_PATH_IMAGE207
最大后验估计(MAP 估计)对应于权重
Figure DEST_PATH_IMAGE209
使用贝叶斯线性回归的优点在于,所述贝叶斯线性回归不仅接收到平均值
Figure DEST_PATH_IMAGE211
的 MAP 估计,而且还接收到不确定性
Figure DEST_PATH_IMAGE213
的估计。这些对应于矩阵
Figure DEST_PATH_IMAGE215
的对角线的项。
在步骤S2中,确定调节模型的待确定模型参数的值范围。贝叶斯优化必须也在质量函数的长度尺度方面尽可能充分地覆盖模型参数的值范围。先验地,通常很难确定为了实现良好的调节行为必须在哪些值范围中优化模型参数、即矩阵 K 的项。
为此,借助来自步骤 S1 的***识别的 MAP 估计值
Figure DEST_PATH_IMAGE217
,为模型参数中每个模型参数选择有意义的值范围,在所述值范围中模型参数随后被优化。
对于AB学习过程,从矩阵K的MAP估计值
Figure DEST_PATH_IMAGE219
和参数估计值的方差出发,取值范围的选择对应于
Figure DEST_PATH_IMAGE221
(模型参数域)。因此,MAP 估计值周围的
Figure DEST_PATH_IMAGE223
方差可以假设为参数的值范围,因此下式适用:
Figure DEST_PATH_IMAGE225
其中 i 可以优选地假定在 1 和 4 之间,尤其是假定为 2。
因此,在贝叶斯优化方法期间,具有更高不确定性的模型参数被分配了更大值范围用于优化,并且相反地,被良好识别的模型参数、即具有低不确定性的模型参数被分配了更小的值范围。
在 K 学习方法情况下,借助于 LQR 调节器为估计***构建值范围:
Figure DEST_PATH_IMAGE227
调节模型的模型参数的值范围可以在此情况下设置在0与相应模型参数的MAP估计值的两倍之间
Figure DEST_PATH_IMAGE229
一般来说,可以预给定调节模型的模型参数的值范围:
Figure DEST_PATH_IMAGE231
其中
Figure DEST_PATH_IMAGE233
在步骤S3中,确定先验平均值函数。这使用技术*** 2 的近似模型来确定技术*** 2 的简单模拟器。该模拟器用于估计质量函数的形式。技术***2的近似模型例如借助于高斯过程基于几个测量点来确定。为此使用的测量点的数量可以在 10 到 100 之间。然后可以例如通过高斯过程回归构建成本的近似先验平均值函数。
然后在步骤S4中通过最小化先验平均值函数来确定初始的模型参数
Figure DEST_PATH_IMAGE235
借助初始的模型参数
Figure DEST_PATH_IMAGE236
,可以在步骤S5中评估测量过程中的由此定义的调节模型,并且可以根据质量函数确定相对应的最小成本
Figure DEST_PATH_IMAGE238
随后,在步骤 S6 中,在考虑最后确定的数据对
Figure DEST_PATH_IMAGE240
的情况下根据获取函数
Figure DEST_PATH_IMAGE242
的最大化来确定针对优化方法的下一次迭代的下一模型参数
Figure DEST_PATH_IMAGE244
借助于当前模型参数
Figure DEST_PATH_IMAGE246
,可以在步骤S7中评估下一测量过程中的由此定义的调节模型并且确定相对应的最小成本
Figure DEST_PATH_IMAGE248
然后,在步骤S8中,将最后确定的数据对添加到训练数据中
Figure DEST_PATH_IMAGE250
然后在步骤S9中检查终止标准,该终止标准例如说明是否已经实现调节模型的足够性能或者是否存在足够的收敛。如果满足终止标准(二选一:是),则该方法以步骤S10结束,否则(二选一:否)***跳回到步骤S6。
在步骤S10中,最后确定的模型参数被应用于调节策略。

Claims (11)

1.一种借助于贝叶斯优化方法来确定技术***(2)的调节策略的方法,其中基于调节模型的模型参数(
Figure DEST_PATH_IMAGE002
)创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数(
Figure DEST_PATH_IMAGE003
)评估技术***(2)的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数(
Figure DEST_PATH_IMAGE003A
)的允许值范围的模型参数域(
Figure DEST_PATH_IMAGE005
)内迭代地确定具有模型参数(
Figure DEST_PATH_IMAGE003AA
)的模型参数组;并且
- 根据质量函数的所属的最大后验估计值(
Figure DEST_PATH_IMAGE007
)来确定模型参数中至少一个模型参数的模型参数域(
Figure DEST_PATH_IMAGE005A
)。
2.根据权利要求1所述的方法,其中参数回归模型将技术***(2)的***状态和输入参量向量映射到后续的***状态上,并且尤其是被相应地训练以获得加权矩阵(
Figure DEST_PATH_IMAGE009
)。
3.根据权利要求1或2所述的方法,其中借助于用于LQR调节器的AB学习方法来确定模型参数(
Figure DEST_PATH_IMAGE003AAA
),其中对于至少一个最大后验估计值(
Figure DEST_PATH_IMAGE010
)分别确定不确定性度量,其中至少一个模型参数(
Figure DEST_PATH_IMAGE003AAAA
)的值范围被规定在最大后验估计值(
Figure DEST_PATH_IMAGE010A
)周围。
4.根据权利要求3所述的方法,其中在预先给定预期值的不确定性(
Figure DEST_PATH_IMAGE012
)的情况下,至少一个模型参数(
Figure DEST_PATH_IMAGE002A
)的值范围被确定在最大后验估计值(
Figure DEST_PATH_IMAGE010AA
)周围。
5.根据权利要求1或2所述的方法,其中借助于用于LQR调节器的K学习方法来确定所述模型参数(
Figure DEST_PATH_IMAGE002AA
),其中至少一个模型参数(
Figure DEST_PATH_IMAGE003_5A
)的值范围被规定在最大后验估计值(
Figure DEST_PATH_IMAGE010AAA
)周围。
6.根据权利要求5所述的方法,其中在最大后验估计值(
Figure DEST_PATH_IMAGE010AAAA
)周围以如下度量确定至少一个模型参数(
Figure DEST_PATH_IMAGE002AAA
)的值范围,所述度量被确定为0 和 1 之间的预先给定的因子与相关最大后验估计值(
Figure DEST_PATH_IMAGE010_5A
)的乘积。
7.根据权利要求1至6中任一项所述的方法,其中所述优化方法以通过对先验平均值函数最小化得出的初始模型参数开始,其中所述技术***(2)的非参数近似模型被训练来获得先验平均值函数。
8.一种借助于贝叶斯优化方法来确定技术***(2)的调节策略的装置,其中基于调节模型的模型参数(
Figure DEST_PATH_IMAGE002AAAA
)创建和能实施调节策略,其中所述装置被构造用于为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数(
Figure DEST_PATH_IMAGE003_6A
)评估技术***(2)的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数(
Figure DEST_PATH_IMAGE003_7A
)的允许值范围的模型参数域(
Figure DEST_PATH_IMAGE005AA
)内迭代地确定具有模型参数(
Figure DEST_PATH_IMAGE003_8A
)的模型参数组;
- 根据质量函数的所属的最大后验估计值(
Figure DEST_PATH_IMAGE010_6A
)来确定模型参数中至少一个模型参数的模型参数域(
Figure DEST_PATH_IMAGE005AAA
)。
9.一种具有技术***(2)和用于调节技术***(2)的调节单元(3)的调节***(1),其中在调节单元(3)中实现用于根据技术***(2)的状态参量来提供输入参量向量的调节模型,其中设置模型创建块(4)以便基于在优化块(5)中实施的贝叶斯优化方法来确定调节模型的模型参数(
Figure DEST_PATH_IMAGE003_9A
),其中基于调节模型的模型参数(
Figure DEST_PATH_IMAGE003_10A
)创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数(
Figure DEST_PATH_IMAGE003_11A
)评估技术***(2)的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数(
Figure DEST_PATH_IMAGE003_12A
)的允许值范围的模型参数域(
Figure DEST_PATH_IMAGE013
)内迭代地确定具有模型参数(
Figure DEST_PATH_IMAGE003_13A
)的模型参数组;
- 根据质量函数的所属的最大后验估计值(
Figure DEST_PATH_IMAGE010_7A
)来确定模型参数(
Figure DEST_PATH_IMAGE003_14A
)中至少一个模型参数的模型参数域(
Figure DEST_PATH_IMAGE013A
)。
10.一种具有程序代码装置的计算机程序,所述计算机程序被设置为当计算机程序在计算单元上实施时实施根据权利要求1至7中任一项所述的方法。
11.一种机器可读存储介质,具有其上存储的根据权利要求10所述的计算机程序。
CN202080041182.0A 2019-06-06 2020-05-27 借助于贝叶斯优化方法确定技术***的调节策略的模型参数的方法和装置 Pending CN113874865A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102019208262.9A DE102019208262A1 (de) 2019-06-06 2019-06-06 Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
DE102019208262.9 2019-06-06
PCT/EP2020/064676 WO2020244987A1 (de) 2019-06-06 2020-05-27 Verfahren und vorrichtung zur ermittlung von modellparametern für eine regelungsstrategie eines technischen systems mithilfe eines bayes'schen optimierungsverfahrens

Publications (1)

Publication Number Publication Date
CN113874865A true CN113874865A (zh) 2021-12-31

Family

ID=70861495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080041182.0A Pending CN113874865A (zh) 2019-06-06 2020-05-27 借助于贝叶斯优化方法确定技术***的调节策略的模型参数的方法和装置

Country Status (4)

Country Link
US (1) US20220236698A1 (zh)
CN (1) CN113874865A (zh)
DE (1) DE102019208262A1 (zh)
WO (1) WO2020244987A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115755606A (zh) * 2022-11-16 2023-03-07 上海友道智途科技有限公司 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018215061A1 (de) * 2018-09-05 2020-03-05 Robert Bosch Gmbh Verfahren zum sicheren Trainieren eines dynamischen Modells
US11915181B2 (en) * 2019-11-14 2024-02-27 Schlumberger Technology Corporation Upper confidence bound algorithm for oilfield logic
CN113469561A (zh) * 2021-07-19 2021-10-01 交叉信息核心技术研究院(西安)有限公司 连接到电网的氢能的环境价值评估方法和***
WO2023057084A1 (de) * 2021-10-07 2023-04-13 Linde Gmbh Verfahren zum betreiben einer verfahrenstechnischen anlage, verfahrenstechnische anlage und verfahren zum umrüsten einer verfahrenstechnischen anlage
CN113962654B (zh) * 2021-10-21 2023-10-31 天津大学 基于仿真的公交排班优化方法、***及可存储介质
DE102022104313A1 (de) 2022-02-23 2023-08-24 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs
DE102022124791A1 (de) 2022-09-27 2024-03-28 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren und Vorrichtung zur Abstimmung der Parameter eines Antriebsstranges
CN117909886B (zh) * 2024-03-18 2024-05-24 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030099350A1 (en) * 2001-10-03 2003-05-29 Alcatel System and method for upstream power backoff for xDSL
US20090271340A1 (en) * 2008-04-23 2009-10-29 Siemens Aktiengesellschaft Method for the computer-aided learning of a control or adjustment of a technical system
US20180349158A1 (en) * 2017-03-22 2018-12-06 Kevin Swersky Bayesian optimization techniques and applications
CN109740757A (zh) * 2019-01-25 2019-05-10 电子科技大学 一种基于序贯蒙特卡罗方法的贝叶斯优化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018219943A1 (en) * 2017-05-29 2018-12-06 Franka Emika Gmbh System and method for controlling actuators of an articulated robot
CN108508856B (zh) * 2018-03-28 2020-09-22 西安西电电气研究院有限责任公司 一种工业设备智能控制***及方法
US20200327435A1 (en) * 2019-04-12 2020-10-15 General Electric Company Systems and methods for sequential power system model parameter estimation
DE102019208263A1 (de) * 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030099350A1 (en) * 2001-10-03 2003-05-29 Alcatel System and method for upstream power backoff for xDSL
US20090271340A1 (en) * 2008-04-23 2009-10-29 Siemens Aktiengesellschaft Method for the computer-aided learning of a control or adjustment of a technical system
US20180349158A1 (en) * 2017-03-22 2018-12-06 Kevin Swersky Bayesian optimization techniques and applications
CN109740757A (zh) * 2019-01-25 2019-05-10 电子科技大学 一种基于序贯蒙特卡罗方法的贝叶斯优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨斌, 聂在平: "一种支持向量回归中超参数自适应方法", 广西师范大学学报(自然科学版), no. 01, 25 March 2003 (2003-03-25) *
王新;孟玲玲;: "基于EEMD-LSSVM的超短期负荷预测", 电力***保护与控制, no. 01, 1 January 2015 (2015-01-01) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115755606A (zh) * 2022-11-16 2023-03-07 上海友道智途科技有限公司 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备

Also Published As

Publication number Publication date
US20220236698A1 (en) 2022-07-28
DE102019208262A1 (de) 2020-12-10
WO2020244987A1 (de) 2020-12-10

Similar Documents

Publication Publication Date Title
CN113874865A (zh) 借助于贝叶斯优化方法确定技术***的调节策略的模型参数的方法和装置
CN113498523B (zh) 用于控制机器对象的操作的装置和方法以及存储介质
CN113939775B (zh) 用于确定针对技术***的调节策略的方法和设备
US20130013543A1 (en) Method for the computer-aided control of a technical system
Di Cairano et al. An MPC design flow for automotive control and applications to idle speed regulation
JP2010514986A (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
JP6841852B2 (ja) 制御装置及び制御方法
CN111433689B (zh) 用于目标***的控制***的生成
US11550272B2 (en) Method and device for setting at least one parameter of an actuator control system and actuator control system
KR102326733B1 (ko) 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체
KR102382047B1 (ko) Pso를 이용한 모터 제어기의 자동 학습 튜닝 시스템
CN112051731A (zh) 用于确定针对技术***的控制策略的方法和设备
WO2023013212A1 (en) System and method for calibrating feedback controllers
EP3928167B1 (en) Apparatus and method for control with data-driven model adaptation
CN116819973B (zh) 一种轨迹跟踪控制方法
CN111240201B (zh) 一种扰动抑制控制方法
CN104345637B (zh) 用于自适应基于数据的函数模型的方法和设备
Menées et al. Fuzzy model predictive control for nonlinear processes
US11790247B2 (en) Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems
Minami et al. Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator
JP7207474B1 (ja) 情報処理装置
JP2024524771A (ja) フィードバックコントローラを較正するためのシステムおよび方法
Xakimovich et al. Structural-Parametric Synthesis of an Adaptive Fuzzy-Logical System
Nandhini et al. An Efficient Model Predictive Control method for Real-time complex nonlinear systems
CN112947078A (zh) 一种基于值迭代的伺服电机智能优化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination