CN109100990B

CN109100990B - 控制装置、记录媒体及控制***

Info

Publication number: CN109100990B
Application number: CN201810149072.0A
Authority: CN
Inventors: 浪江正树; 藤井高史; 小林昭朗
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2017-06-21
Filing date: 2018-02-13
Publication date: 2021-09-03
Anticipated expiration: 2038-02-13
Also published as: US10977576B2; CN109100990A; JP2019008416A; US20180374001A1; JP6897360B2; EP3418822A1

Abstract

本发明提供一种控制装置、记录媒体及控制***，减少控制对象实际动作的时间及次数，降低学习控制的调整工作量。控制装置包括：指令值生成部，以根据校正数据在每个控制周期输出的校正量对第一指令值进行补偿而生成第二指令值并输出给控制运算部；学习运算部，根据第一指令值与来自控制对象的反馈值的偏差更新校正数据；以及初始值决定部，决定校正数据的初始值。初始值决定部包括：特性取得部，取得表示给控制运算部的指令值与响应此指令值控制对象出现的反馈值的关系的响应特性；估计部，根据以临时校正数据补偿第一指令值所得的值及响应特性，估计将出现在控制对象的反馈值；以及更新部，根据第一指令值与估计的反馈值的偏差更新临时校正数据。

Description

控制装置、记录媒体及控制***

技术领域

本发明涉及一种通过学习控制提高对控制对象的控制性能的控制装置、记录媒体及控制***。

背景技术

作为对控制对象进行控制的方法的一例，有如下控制***：对于根据指令值图形(pattern)对控制对象依次输出的指令值，根据控制对象的特性进行校正后，将该指令值给予所述控制对象。此种控制***中采用如下学习控制，此学习控制通过学习来依次更新对指令值的校正量等。

此种学习控制例如有时被应用于使用电动机(motor)的机械***或机器人等控制对象中含有未知要素的动态***。

例如日本专利特开2004-227163号公报(专利文献1)公开了一种伺服控制装置，此伺服控制装置能在实行多个零件等的同一形状加工的情况下应用学习控制。

现有技术文献

专利文献

专利文献1：日本专利特开2004-227163号公报

发明内容

[发明所要解决的问题]

所述的学习控制中，为了决定适当的校正量而需要某种程度的学习，为了应用于实际的控制对象，需要使控制对象以规定次数进行实际动作。

因此，期望减少使控制对象实际动作的次数，减少学习控制的调整工作量。

[解决问题的技术手段]

本发明的某一方面提供一种控制装置，此控制装置用于对控制对象进行控制。控制装置包含指令值生成部，此指令值生成部生成第二指令值并输出给控制运算部，所述第二指令值是以根据校正数据在每个控制周期输出的校正量，对根据预定图形在每个控制周期输出的第一指令值进行补偿所得。控制运算部根据第二指令值算出对控制对象的控制输出。控制装置包含：学习运算部，根据第一指令值与来自控制对象的反馈值的偏差更新校正数据；以及初始值决定部，决定所述校正数据的初始值，此初始值是在学习运算部尚未对校正数据执行更新的状态下使用。初始值决定部包括：特性取得部，取得响应特性，此响应特性表示给予控制运算部的指令值与响应此指令值而控制对象出现的反馈值的关系；估计部，根据以临时校正数据补偿第一指令值所得的值及响应特性，估计估计将出现在控制对象的反馈值；以及更新部，根据第一指令值与估计的反馈值的偏差更新临时校正数据。

优选初始值决定部还包括算出部，此算出部根据响应于向控制运算部输出第一指令值的控制对象中出现的反馈值、与对应的估计的反馈值的偏差，算出模型误差。

优选更新部将模型误差反映在更新后的临时校正数据中。

优选更新部以与估计的反馈值的偏差乘以既定系数所得的值来更新当前的临时校正数据。

优选特性取得部将根据阶跃状指定值图形将每个控制周期要输出的第三指令值输出给控制运算部，并对与第三指令值对应地取得的反馈值的时间变化，通过时间差分近似而算出对单位脉冲的响应特性。

优选特性取得部将任意指令值给予控制运算部，并且根据与此任意指令值对应地取得的反馈值的时间变化，将通过***辨识方法估计出的传递函数决定为响应特性。

优选初始值决定部还包括反复进行估计部及更新部的处理直到满足预定的结束条件。

本发明的另一方面提供一种记录媒体，其存储控制程序，此控制程序用以实现用于对控制对象进行控制的控制装置。控制程序使计算机执行以下步骤：生成第二指令值并输出给控制运算部，所述第二指令值是以根据校正数据在每个控制周期输出的校正量对根据预定图形在每个控制周期输出的第一指令值进行补偿所得。控制运算部根据第二指令值算出对控制对象的控制输出。控制程序使计算机执行以下步骤：根据第一指令值与来自控制对象的反馈值的偏差更新校正数据；以及决定所述校正数据的初始值，此初始值是在尚未对校正数据执行更新的状态下使用。决定校正数据的初始值的步骤包括以下步骤：取得响应特性，此响应特性表示给予控制运算部的指令值与响应此指令值而控制对象出现的反馈值的关系；根据以临时校正数据补偿第一指令值所得的值及响应特性，估计将出现在控制对象的反馈值；以及根据第一指令值与估计的反馈值的偏差更新临时校正数据。

本发明的又一方面提供一种控制***，此控制***用于对控制对象进行控制。控制***包括：指令值生成部，生成第二指令值，此第二指令值是以根据校正数据在每个控制周期输出的校正量，对根据预定图形在每个控制周期输出的第一指令值进行补偿所得；控制运算部，根据第二指令值算出对控制对象的控制输出；学习运算部，根据第一指令值与来自控制对象的反馈值的偏差更新校正数据；以及初始值决定部，决定所述校正数据的初始值，此初始值是在学习运算部尚未对校正数据执行更新的状态下使用。初始值决定部包括：特性取得部，取得响应特性，此响应特性表示给予控制运算部的指令值与响应此指令值而控制对象出现的反馈值的关系；估计部，根据以临时校正数据补偿第一指令值所得的值及响应特性，估计将出现在控制对象的反馈值；以及更新部，根据第一指令值与估计的反馈值的偏差更新临时校正数据。

[发明的效果]

根据本发明的某一实施例，能够减少使控制对象实际动作的次数，从而减少学习控制的调整工作量。

附图说明

图1为表示本实施例的控制装置的构成的示意图。

图2(A)～图2(C)为表示包含本实施例的控制装置的控制***的功能分担例的示意图。

图3为着眼于包含本实施例的学习控制的控制体系的指令值生成及控制运算的示意图。

图4为用于对包含本实施例的学习控制的控制体系的指令值生成的数据的一例进行说明的图。

图5为着眼于包含本实施例的学习控制的控制体系的学习运算的示意图。

图6为对图5所示的包含本实施例的学习控制的控制体系附加模拟学习运算的示意图。

图7为表示本实施例的控制装置的学习控制的处理顺序的流程图。

图8为表示图7的步骤S8所示的模拟学习运算的处理顺序的流程图。

图9(A)～图9(C)为表示图7的步骤S8所示的模拟学习运算中取得的时间波形的一例的图。

图10(A)～图10(C)为用于对本实施例的模拟学习运算的效果进行说明的图表。

图11(A)～图11(C)为用于对本实施例的模拟学习运算的效果进行说明的图表。

图12(A)、图12(B)为表示本实施例的控制装置的控制程序所含的学习控制程序114的安装例的图。

图13为表示本实施例的控制装置的控制程序所含的学习控制程序114的安装例的图。

[符号的说明]

10：控制对象

100：控制装置

102：处理器

104：芯片组

106：主存储器

108：闪速存储器

110：***程序

112：用户程序

112A：顺序程序

112B：运动程序

114：学习控制程序

116：外部网络控制器

118：存储卡接口

120：存储卡

122：内部总线控制器

124：现场总线控制器

126：I/O单元

150：指令值生成部

151：指令值图形

152：指令值校正部

153：校正数据

154：控制运算部

155：指令值

156、160：差分器

158：位置控制部

162：速度控制部

164：转矩滤波器

166：电流控制部

168：速度检测部

170：偏差算出部

171：偏差数据

172：学习运算部

174：学习切换部

176：特性测定用指令值生成部

177：特性测定用指令值图形

178：模式切换部

180：模拟学习运算部

181：特性测定用响应数据

182：响应数据

200：伺服驱动器

300：机械

1141：特性测定功能块

1142：学习运算功能块

1143：模拟学习运算功能块

S2、S4、S6、S8、S10、S12、S14、S16、S18、S20、S22、S24、S26、S28、S30、S81～S87：步骤

具体实施方式

一方面参照附图一方面对本发明的实施例进行详细说明。此外，对附图中的相同或相应部分标注相同符号，不重复进行说明。

<A.控制装置的构成>

首先，对本实施例的控制装置100的构成进行说明。控制装置100主要具有对任意控制对象进行控制的功能。控制装置100例如可为可编程逻辑控制器(programmable logiccontroller，PLC)(可编程控制器)的工厂自动化(Factory Automation，FA)用控制器，或也可为通用计算机。另外，也可通过多个装置联合而实现下文将述的包含本实施例的学习控制的控制体系。例如也可由PLC负责包括学习运算的实际控制，并且由与PLC联合的通用计算机负责事先的学习运算(模拟)。

本实施例的学习控制根据控制对象的特性，对每次依预定的指令值图形算出的指令值(以下也称为“校正前指令值”)进行校正，由此生成指令值。而且，执行用于根据此生成的指令值算出控制输出的控制运算。即，本实施例的学习控制主要由指令值生成、学习运算及控制运算构成。

以下，为了便于说明，主要示出使用PLC进行安装的情况的构成例。

图1为表示本实施例的控制装置100的构成的示意图。参照图1，控制装置100将通过执行预先存储的控制程序(包括***程序110及用户程序112)而算出的控制输出或指令值给予伺服驱动器200，并且经由伺服驱动器200或输入/输出(Input/Output，I/O)单元126取得反馈值。使用此种控制输出或指令值与反馈值实现学习控制。

更具体而言，控制装置100包含中央处理器(Central Processing Unit，CPU)或微处理器(Micro-Processing Unit，MPU)等处理器102、芯片组104、主存储器106、闪速存储器108、外部网络控制器116、存储卡接口118、内部总线控制器122及现场总线控制器124。

处理器102读取闪速存储器108中存储的***程序110及用户程序112，在主存储器106中展开并执行，由此实现对控制对象的任意控制。***程序110包括用于提供数据的输入输出处理或执行时机控制等控制装置100的基本功能的命令码。用户程序112是根据控制对象而任意设计，包括用于执行顺序控制的顺序程序112A及用于执行运动控制的运动程序112B。

为了实现本实施例的学习控制，在闪速存储器108中存储着学习控制程序114。也可通过将学习控制程序114与顺序程序112A及运动程序112B联合执行而实现下文将述的学习控制。

如此，通过由处理器102执行控制程序(***程序110、用户程序112及学习控制程序114)而实现用于对控制对象进行控制的控制装置。

芯片组104通过控制各部件(component)而实现整个控制装置100的处理。

内部总线控制器122为与通过内部总线与控制装置100连结的各种设备(device)交换数据的接口。作为此种设备的一例，示出连接着I/O单元126的示例。

现场总线控制器124为与通过现场总线与控制装置100连结的各种设备交换数据的接口。作为此种设备的一例，示出连接着伺服驱动器200的示例。

内部总线控制器122及现场总线控制器124能够对所连接的设备给予任意指令值，并且能够取得设备管理的任意数据(包括测定值)。

外部网络控制器116对各种通过有线/无线网络的数据交换进行控制。存储卡接口118构成为可装卸存储卡120，且能对存储卡120写入数据，从存储卡120读取数据。

也能以专用的硬连线电路(hardwired circuit)的形式来安装通过控制装置100执行控制程序而提供的一部分或全部功能。关于硬连线电路，例如能够使用专用集成电路(Application Specific Integrated Circuit，ASIC)或现场可编程门阵列(Field-Programmable Gate Array，FPGA)等进行安装。

<B.控制体系的功能分担例>

其次，对包含本实施例的学习控制的控制体系的功能分担例加以说明。图2(A)～图2(C)为表示包含本实施例的控制装置100的控制***的功能分担例的示意图。参照图2(A)，典型而言控制装置100从包含伺服驱动器200及机械300的控制对象10测定反馈值，并且将反映所测定的反馈值(控制量)的学习运算及控制运算的结果所得的控制输出向控制对象10输出。即，图2(A)所示的构成中，控制装置100中执行指令值生成、学习运算及控制运算。图2(A)所示的控制输出相当于操作量。

此外，图2(A)～图2(C)中，机械300为作为驱动体的电动机及作为被驱动体的机械体的总称。

也可如图2(B)所示，控制装置100将执行指令值生成及学习运算而生成的指令值给予伺服驱动器200，并且伺服驱动器200根据指令值执行控制运算。

或者也可如图2(C)所示，控制装置100执行指令值生成并向伺服驱动器200输出校正前指令值，伺服驱动器200中执行学习运算及控制运算。

也可如图2(B)及图2(C)所示，控制装置100及伺服驱动器200协作实现本实施例的学习控制。进而，不限于图2(A)～图2(C)所示的构成，也可通过任意的硬件构成来实现。

如以上所述，也可将实现包含本实施例的学习控制的控制体系的一个或多个装置或者单元总称为“控制***”。控制***为包含由一个或多个装置或者单元所组成的任意构成的概念。

<C.指令值生成及控制运算>

然后，着眼于包含本实施例的学习控制的控制体系的指令值生成及控制运算来说明基本处理。

图3为着眼于包含本实施例的学习控制的控制体系的指令值生成及控制运算的示意图。图3中作为一例，示出根据预定的位置图形对控制对象10进行控制的情况的构成例。但是不限于位置，能够使用任意指令值。

参照图3，控制装置100包含负责指令值生成的指令值生成部150及指令值校正部152。另外，控制装置100包含负责控制运算的控制运算部154。

指令值生成部150根据预定的指令值图形151在每个控制周期(例如1ms)输出校正前指令值(相当于“第一指令值”)。图3所示的示例中，指令值图形151规定控制对象10应移动的轨迹(位置图形)。因此，校正前指令值成为位置指令值。

指令值校正部152以根据校正数据153在每个控制周期输出的校正量对来自指令值生成部150的校正前指令值进行补偿，由此生成指令值(校正后指令值：相当于“第二指令值”)。然后，指令值校正部152将所生成的指令值输出给控制运算部154。此示例中，指令值成为位置指令值。如下文将述，校正数据153通过学习控制而更新其内容。

图4为用于对包含本实施例的学习控制的控制体系的指令值生成的数据的一例进行说明的图。参照图4，例如指令值图形151中规定如下图形：从基准点开始朝一个方向移动后，在此位置待机既定时间，然后回到原本的基准位置。根据此指令值图形151在每个控制周期输出校正前指令值。与输出校正前指令值的控制周期相对应，根据校正数据153在每个控制周期依次输出校正量。在指令值校正部152中，以校正量对校正前指令值进行补偿，由此将图4所示的指令值155输出给控制运算部154。

例如控制对象10具有既定的惯性，另外控制运算部154具有某种程度的延迟时间，因此即便给予指令值图形151所规定的校正前指令值，控制对象10也不会根据指令值图形151移动。因此，在校正数据153中存储校正量(或者补偿量)，以使控制对象10能根据指令值图形151所规定的轨迹动作。通过将此种经校正量补偿的指令值155给予控制运算部154，控制对象10进行与指令值图形151相应的行为。

校正数据153中，必须规定与控制对象10的特性相应的校正量，本实施例中，通过下文所述的学习运算来决定适当的校正数据153。

再次参照图3，将来自指令值校正部152的指令值给予控制运算部154。控制运算部154依指令值算出对控制对象10的控制输出。更具体而言，控制运算部154执行控制运算以使控制对象10的反馈值与指令值一致，算出控制输出。在每个既定的控制周期(例如1ms)反复执行控制运算。图3所示的示例中，示出控制运算部154执行位置控制的示例，但也可执行速度控制等。

图3所示的控制体系中，控制运算部154利用位置控制回路及速度控制回路对来自指令值校正部152的位置指令值算出最终的控制输出(此示例中为给予伺服驱动器200的电流指令值)。

更具体而言，控制运算部154包含差分器156、差分器160、位置控制部158、速度控制部162、转矩滤波器164、电流控制部166及速度检测部168。

位置控制部158为构成位置控制回路的控制运算部，根据来自差分器156的位置偏差输出速度指令值作为操作量。差分器156算出控制对象10的反馈值(实际位置)与位置指令值的偏差(位置偏差)。

速度控制部162为构成速度控制回路的控制运算部，输出与来自差分器160的速度偏差相应的转矩指令值。差分器160算出控制对象10的反馈值(实际速度)与来自位置控制部158的操作量(速度指令值)的偏差(速度偏差)。

速度检测部168根据来自电动机中安装的编码器等的反馈值(例如数量与电动机转速成比例的脉冲)算出电动机的实际速度。速度检测部168典型而言是使用微分元件(differentiating element)实现。

转矩滤波器164将来自速度控制部162的转矩指令值所含的高频成分除去。电流控制部166根据来自转矩滤波器164的转矩指令值，算出表示伺服驱动器200应给予电动机的电流的大小或时机的电流指令值。

图3所示的控制体系中，位置控制部158采用比例(Proportional，P)控制，速度控制部162采用比例积分(Proportional Integral，PI)控制。但是，位置控制部158及速度控制部162可为任何控制体系。

本实施例的学习控制主要依据指令值校正部152中的指令值的校正处理而提高控制性能，控制运算部154中的控制运算的内容并无特别限制。

另外，在如所述图2(B)及图2(C)所示的控制装置100及伺服驱动器200协作实现本实施例的学习控制的情况下，指令值生成部150生成校正前指令值的周期、指令值校正部152输出指令值的周期及控制运算部154进行控制运算的周期也可不彼此一致，只要以各装置的周期执行运算处理即可。

<D.学习运算>

其次，着眼于包含本实施例的学习控制的控制体系的学习运算来说明基本处理。

图5为着眼于包含本实施例的学习控制的控制体系的学习运算的示意图。参照图5，控制装置100包含负责学习运算的偏差算出部170、学习运算部172及学习切换部174。

本实施例的学习控制的学习运算在输出指令值之后，经由控制运算部154来测定表示控制对象10所产生的位移的反馈值发生何种变化，并依次更新校正数据153。

指令值校正部152向控制运算部154输出指令值，由此控制运算部154执行与所输入的特性测定用指令值相应的控制运算，并向控制对象10输出所得的控制输出。响应此控制输出而以反馈值的形式表现控制对象10所发生的变化。偏差算出部170算出来自指令值生成部150的校正前指令值与反馈值的偏差，以偏差数据171的形式依次输出。偏差数据171是指预定的指令值图形151与控制对象10的实际行为的差异。

学习运算部172根据偏差数据171(指令值与来自控制对象10的反馈值的偏差)更新校正数据153。通过将指令值图形151所规定的一系列校正前指令值的输出反复进行多次，而依次更新校正数据153，反映出控制运算部154及控制对象10的特性。

将指令值图形151所规定的校正前指令值的全部输出计数为1次，将第k次学习运算时的偏差数据记作Err(k)。另外，将使用通过执行k次学习运算所得的偏差数据Err(k)而算出的第k+1次校正数据记作Rev(k+1)。

学习运算部172在各次学习运算中更新校正数据153。更具体而言，使用第k次学习运算的偏差数据Err(k)，根据以下的数学式算出第k+1次校正数据Rev(k+1)。其中，n＝0～N。

Rev(k+1)(n)＝Rev(k)(n)+G×Err(k)(n+st)

其中，

Rev(k+1)(n)：第k+1次学习运算的采样时刻n的校正数据

Rev(k)(n)：第k次学习运算的采样时刻n的校正数据

G：决定学习强度的系数(0＜G≤1：通常也可为“1”)

Err(k)(n+st)：第k次学习运算的采样时刻n+st的偏差数据

st：校正移位时间(控制周期的整数倍)

所述数学式中成为Err(k)(n+st)是指将偏差数据反映在校正数据中时，将偏差数据以仅校正移位时间st的时间朝过往方向挪动。这是为了补偿由控制运算、机械300的响应延迟、通信延迟等所致的浪费时间。校正移位时间st能够利用下文所述的特性测定方法，根据控制运算部154及控制对象10的特性事先决定。

通过学习切换部174在内部将学习运算部172与校正数据153连接或阻断，而使学习运算部172的学习运算起效或失效。通常，使学习运算部172的学习运算在执行既定次数后失效。其原因在于防止校正数据153成为经过度学习的校正数据。

本实施例的学习控制的学习运算具有对包含控制运算部154及控制对象10的整体测定特性的模式。此模式也用于下文将述的模拟学习运算中，因此以下也称为“特性测定/模拟学习模式”。此外，作为特性测定/模拟学习模式的对比，将向控制运算部154输出来自指令值校正部152的指令值的模式也称为“控制模式”。

控制装置100包含负责特性测定的特性测定用指令值生成部176及模式切换部178。

特性测定中，模式切换部178切换到特性测定/模拟学习模式侧，在内部将特性测定用指令值生成部176与控制运算部154连接。特性测定用指令值生成部176根据预定的特性测定用指令值图形177，在每个控制周期输出特性测定用指令值。根据响应特性测定用指令值的输出而产生的反馈值，算出包含控制运算部154及控制对象10的特性。包含控制运算部154及控制对象10的特性也可在决定校正移位时间时考虑，所述校正移位时间是在更新校正数据153时使用。

特性测定用指令值生成部176输出特性测定用指令值的控制周期基本上是设定为与指令值生成部150输出校正前指令值的控制周期相同。另外，关于特性测定用指令值图形177所规定的特性测定用指令值图形，优选使用适于对包含控制运算部154及控制对象10的特性进行测定的时间变化(例如脉冲状时间变化、阶跃状时间变化(阶跃响应)、斜坡状时间变化(斜坡响应)等)。脉冲状时间变化是指给予短时间宽度(例如一个控制周期等)的脉冲时的响应特性。

通过以上的学习运算而决定用于算出与控制对象相应的适当指令值的校正数据153。

此外，图5所示的学习切换部174及模式切换部178也可不为物理开关，例如也可为使用软件安装的逻辑开关。

<E.模拟学习运算>

包含本实施例的学习控制的控制体系还安装着用于更适当地决定作为校正数据153的初始值的Rev(1)的处理(以下称为“模拟学习运算”)。以下，将Rev(1)中输入的校正数据称为“临时校正数据”。

模拟学习运算中，使用特性测定/模拟学习模式中测定的反馈值，通过模拟来执行相当于上文所述的学习运算的运算。根据通过执行此模拟所得的结果算出临时校正数据。通过采用此种模拟学习运算，能够减少为了收集适当的校正数据而使控制对象实际动作的次数。

图6为对图5所示的包含本实施例的学习控制的控制体系附加模拟学习运算的示意图。参照图6，控制装置100包含负责模拟学习运算的模拟学习运算部180。模拟学习运算也利用特性测定用指令值生成部176及模式切换部178的功能。

模拟学习运算中，基本上测定两个响应数据(反馈值的时间变化)。

第一响应数据为未校正响应数据182，相当于将指令值图形151所规定的校正前指令值直接(不在指令值校正部152中给予任何校正量)输出给控制运算部154时产生的反馈值的时间变化。

第二响应数据为特性测定用响应数据181，相当于将特性测定用指令值图形177所规定的校正前指令值输出给控制运算部154时产生的反馈值的时间变化。

模拟学习运算部180根据未校正响应数据182、特性测定用指令值图形177及特性测定用响应数据181，对包含控制运算部154及控制对象10的整体的特性进行模拟，由此算出被用作Rev(1)的临时校正数据。即，模拟学习运算部180决定学习运算部172尚未对校正数据153执行更新的状态下所用的校正数据153的初始值Rev(1)。

如下文将述，特性测定用指令值图形177优选采用阶跃状时间变化(阶跃响应)。

<F.处理顺序>

然后，对本实施例的控制装置100的学习控制的处理顺序进行说明。图7为表示本实施例的控制装置100的学习控制的处理顺序的流程图。图7所示的各步骤是通过图1所示的处理器102执行控制程序(包括***程序110、用户程序112及学习控制程序114)而实现。

参照图7，控制装置100首先执行学习控制所需要的准备工序(步骤S2～步骤S10)。

具体而言，控制装置100接受启动指令时(步骤S2中为是)，设定控制模式(将模式切换部178切换到控制模式侧)，并且将依照指令值图形151的校正前指令值给予控制运算部154，存储此时所测定的反馈值的时间变化作为未校正响应数据182(步骤S4)。

然后，控制装置100设定特性测定/模拟学习模式(将模式切换部178切换到特性测定/模拟学习模式侧)，并且将依照特性测定用指令值图形177的特性测定用指令值给予控制运算部154，存储此时所测定的反馈值的时间变化作为特性测定用响应数据181(步骤S6)。

随后，控制装置100使用步骤S2中取得的未校正响应数据182及步骤S6中取得的特性测定用响应数据181，执行模拟学习运算(步骤S8)。将通过步骤S8的模拟学习运算的执行所得的临时校正数据设定为校正数据153的初始值即Rev(1)(步骤S10)。即，控制装置100决定尚未对校正数据153执行更新的状态下所用的校正数据153的初始值Rev(1)。

通过以上的处理，学习控制的准备工序完成，因此随后开始学习控制。

控制装置100接受启动指令时(步骤S12中为是)，设定控制模式(将模式切换部178切换到控制模式侧)，并且使学习运算起效(将学习切换部174设定为开(on))(步骤S14)。然后，控制装置100响应启动指令而输出如下指令值，此指令值是以根据当前的校正数据153在每个控制周期输出的校正量，对根据预定的指令值图形151在每个控制周期输出的校正前指令值进行补偿所得(步骤S16)。根据输出的指令值算出对控制对象10的控制输出。

然后，控制装置100存储来自指令值生成部150的校正前指令值与测定的反馈值的偏差的时间变化作为偏差数据171(步骤S18)，并且根据所存储的偏差数据171更新校正数据153(步骤S20)。即，控制装置100根据指令值与来自控制对象10的反馈值的偏差更新校正数据153。

当指令值图形151所规定的时间变化的所有输出完成时，控制装置100将学习次数增加1(步骤S22)。然后，控制装置100判断学习次数是否达到预定的既定次数(步骤S24)，若学习次数未达到预定的既定次数(步骤S24中为否)，则控制装置100重复进行步骤S12以后的处理。

相对于此，若学习次数达到预定的既定次数(步骤S24中为是)，则控制装置100使学习运算失效(将学习切换部174设定为关(off))(步骤S26)。以后，以通常的控制模式执行学习控制。

控制装置100接受启动指令时(步骤S28中为是)，响应启动指令而将如下指令值给予控制运算部154，所述指令值是通过以根据当前的校正数据153所输出的校正量，对根据照指令值图形151的校正前指令值进行补偿而算出(步骤S30)。以后，重复进行步骤S28及步骤S30的处理。

<G.模拟学习运算的处理顺序>

然后，对模拟学习运算(图7的步骤S8)的更详细的处理顺序进行说明。

图8为表示图7的步骤S8所示的模拟学习运算的处理顺序的流程图。图9(A)～图9(C)为表示图7的步骤S8所示的模拟学习运算中取得的时间波形的一例的图。

参照图8，控制装置100取得响应特性，此响应特性表示给予控制运算部154的指令值与响应此指令值而出现在控制对象10上的反馈值的关系。更具体而言，使用步骤S6中取得的特性测定用响应数据181，算出对单位脉冲指令值的单位脉冲响应数据U(n)(步骤S81)。

特性测定用指令值图形177中，将高度H的阶跃状时间变化规定为指令值。特性测定用指令值图形177所规定的时间变化是以控制周期的N倍长度规定。

图9(A)中，将控制周期设为1ms，给予表示高度1的阶跃状时间变化的特性测定用指令值，并且示出相当于此时所出现的特性测定用响应数据的响应数据S(n)的时间波形。如图9(A)所示，给予特性测定用指令值时，响应数据S(n)以既定的时间常数逐渐增加。

特性测定用指令值生成部176根据预定的特性测定用指令值图形177在每个控制周期输出特性测定用指令值。存储针对此特性测定用指令值而产生的反馈值的时间变化、即每个控制周期的响应数据S(n)(n＝0～N)作为特性测定用响应数据181。

特性测定用响应数据181所存储的时间变化相当于控制运算部154及控制对象10的离散阶跃响应。步骤S81中，根据此离散阶跃响应算出离散单位冲激响应。

具体而言，将一个控制周期设为单位时间，近似地根据以下的数学式算出对高度1的单位时间宽度的脉冲(以下也称为“单位脉冲”)指令值的单位脉冲响应数据U(n)(n＝0～N)。此处，设S(1)＝0。

U(n)＝{S(n)-S(n-1)}/H)

如此，控制装置100将根据阶跃状指定值图形在每个控制周期输出的特性测定用指令值输出给控制运算部154，并对与特性测定用指令值对应地取得的反馈值的时间变化(即，响应数据S(n))通过时间差分近似而算出对单位脉冲的响应特性(即，单位脉冲响应数据U(n))。

随后，控制装置100决定临时校正数据的初始值。更具体而言，控制装置100算出对预定的指令值图形151所规定的校正前指令值图形的响应数据R_sim(0)(n)(步骤S82)。更详细而言，针对指令值图形151所规定的指令值图形D(n)，使用单位脉冲响应数据U(n)，近似地根据以下的数学式算出对应的响应数据R_sim(0)(n)(n＝0～N)。此处，i＝0～n，设R_sim(k_s)(0)＝0。

R_sim(0)(n)＝∑{D(i)×U(n-i)}

即，通过指令值图形D(n)与单位脉冲响应数据U(n)的一种折积运算，算出相当于在开始学习运算前可能取得的响应特性的响应数据R_sim(0)(n)。

图9(B)中示出根据图9(A)所示的响应数据S(n)算出的单位脉冲指令值及与此单位脉冲指令值对应的单位脉冲响应数据U(n)的时间波形。如图9(B)所示，单位脉冲响应数据U(n)响应单位脉冲指令，仅在某一时间段显示响应。

然后，控制装置100根据响应于向控制运算部154输出校正前指令值的控制对象10中出现的反馈值、与对应的估计的反馈值的偏差，算出模型误差Merr(n)(步骤S83)。更具体而言，控制装置100算出步骤S4中取得的未校正响应数据182所存储的时间变化即响应数据R(0)(n)、与步骤S82中算出的响应数据R_sim(0)(n)的偏差作为模型误差Merr(n)。即，根据以下的数学式算出模型误差Merr(n)(n＝0～N)。

Merr(n)＝R(0)(n)-R_sim(0)(n)

然后，控制装置100通过模拟而执行学习运算(模拟学习运算)。即，控制装置100通过模拟来实现与上文所述的学习运算部172中的校正数据153的更新相同的处理。

首先，控制装置100根据以临时校正数据补偿校正前指令值所得的值及响应特性，估计控制对象10可能出现的反馈值。更具体而言，控制装置100算出第k_s次模拟学习运算的偏差数据Err_sim(k_s)(步骤S84)。

第k_s次模拟学习运算的偏差数据Err_sim(k_s)在模拟情况下是近似地根据以下的数学式算出。其中，n＝0～N，i＝0～n。

R_sim(k_s)(n)＝∑[{D(i)+Rev_sim(k_s)(i)}×U(n-i)]

Err_sim(k_s)(n)＝D(n)-R_sim(k_s)(n)

然后，控制装置100根据指令值与估计的反馈值的偏差更新临时校正数据。更具体而言，控制装置100根据偏差数据Err_sim(k_s)更新第k_s+1次校正数据Rev_sim(k_s+1)(步骤S85)。第k_s+1次校正数据Rev_sim(k_s+1)是根据以下的数学式算出。其中，n＝0～N。

Rev_sim(k_s+1)(n)＝Rev_sim(k_s)(n)+G×Err_sim(k_s)(n+st)+Merr(n)

其中，

Rev_sim(k_s+1)(n)：第k_s+1次模拟学习的采样时刻n的校正数据

Rev_sim(k_s)(n)：第k_s次模拟学习的采样时刻n的校正数据

G：决定学习强度的系数(0＜G≤1：通常也可为“1”)

Err_sim(k_s)(n+st)：第k_s次模拟学习的采样时刻n+st的偏差数据

st：校正移位时间(控制周期的整数倍)

如上所述，控制装置100以与估计的反馈值的偏差乘以既定系数G所得的值来更新当前的临时校正数据。此时，也可将模型误差Merr(n)反映在更新后的临时校正数据中。

然后，控制装置100完成模拟学习运算的执行时，判断是否满足预定的模拟结束条件(步骤S86)。若不满足预定的模拟结束条件(步骤S86中为否)，则控制装置100再次执行步骤S84以后的处理。如此反复进行反馈值估计及临时校正数据更新的处理直到满足预定的模拟结束条件。

另一方面，若满足预定的模拟结束条件(步骤S86中为是)，则控制装置100将校正数据Rev_sim(k_s)的当前值决定为临时校正数据(步骤S87)。然后，处理进入图7的步骤S10。

预定的模拟结束条件例如包括将包含偏差数据Err_sim(k_s)的平方和等的评价函数收敛至充分小的值。或者，预定的模拟结束条件包括模拟学习运算的执行达到预定的学习次数。此外，模拟学习运算中，校正数据153成为经过度学习的校正数据的可能性低，因此也可使模拟结束条件较判定所述学习运算结束的条件严格(即，变更为使学习次数增加)。

通过以上的处理顺序而算出被用作Rev(1)的临时校正数据。

图9(C)中示出执行10次模拟学习运算后所得的校正数据的一例。图9(c)中除了校正数据以外，示出校正前指令值及实际位置(反馈值)的时间变化的一例。如图9(C)所示，得知通过模拟能事先取得适当的校正数据。

<H.实施例>

然后，对包含本实施例的学习控制的控制体系的若干实施例进行说明。

图10(A)～图10(C)及图11(A)～图11(C)为用于说明本实施例的模拟学习运算的效果的图表。

图10(A)中示出在完全未进行学习运算的状态(校正数据153中不存在任何信息的状态)下执行控制时的各部的时间波形。图10(B)中示出在进行了1次学习运算的状态(校正数据153中仅存在通过1次学习运算所得的信息的状态)下执行控制时的各部的时间波形。图10(C)中示出执行既定次数的模拟学习运算而设定临时校正数据后，在进行了1次学习运算的状态(校正数据153为利用通过1次学习运算所得的信息将临时校正数据更新后的状态)下执行控制时的各部的时间波形。

图10(A)～图10(C)中，位置偏差的变动越小，能视为越适当地进行了学习。通过1次学习运算，从图10(A)所示的状态改善成图10(B)所示的状态。然而，如图10(C)所示，得知通过事先执行本实施例的模拟学习运算，位置偏差的变动与图10(B)所示的位置偏差的变动相比变得更小。即，得知通过事先执行模拟学习运算，能更快地接近最终的校正数据。

图11(A)中示出在进行了3次学习运算的状态(校正数据153中存在通过3次学习运算所得的信息的状态)下执行控制时的各部的时间波形。图11(B)中示出在进行了7次学习运算的状态(校正数据153中存在通过7次学习运算所得的信息的状态)下执行控制时的各部的时间波形。

另一方面，图11(C)中示出执行既定次数的模拟学习运算而设定临时校正数据后，在进行了3次学习运算的状态(校正数据153为利用通过3次学习运算所得的信息将临时校正数据更新后的状态)下执行控制时的各部的时间波形。

如上所述，位置偏差的变动越小，能视为越适当地进行了学习。从通过3次学习运算所得的图11(A)所示的状态开始进一步进行4次学习运算，改善成通过共计7次学习运算所得的图11(B)所示的状态。然而，如图11(C)所示，得知通过事先执行本实施例的模拟学习运算，仅通过3次学习运算便可获得与图11(B)所示的7次学习运算相同的效果。即，图11(A)～图11(C)所示的示例中，得知通过模拟学习运算，能够将使控制对象实际动作的次数减少至一半以下(7次减少到3次)。

<I.学习控制程序的安装例>

接着，对本实施例的控制装置100中预先存储的控制程序所含的学习控制程序114的安装例进行说明。

图12(A)、12(B)及图13为表示本实施例的控制装置100的控制程序所含的学习控制程序114的安装例的图。图12(A)、12(B)及图13中示出通过功能块(functionblock)来规定所述的各处理的执行的示例。

图12(A)中示出特性测定功能块1141，此特性测定功能块1141负责对包含控制运算部154及控制对象10的整体测定特性的处理。图12(A)所示的特性测定功能块1141中，位于左侧的要素为输入要素，位于右侧的要素为输出要素。对于以下将说明的其他功能块而言也相同。

更具体而言，特性测定功能块1141中输入特性测定模式启动、最大测定时间、指令值高度及反馈值作为输入信号，所述特性测定模式启动指示开始特性测定模式，所述最大测定时间规定应继续进行特性测定的时间，所述指令值高度规定作为特性测定用指令值而给予的阶跃信号的高度，所述反馈值规定来自控制对象的反馈值。

另外，从特性测定功能块1141输出特性测定中、特性测定用指令值、校正移位时间及单位脉冲响应数据U(n)，所述特性测定中表示正在执行特性测定模式，所述特性测定用指令值为特性测定用指令值的监视器输出，所述校正移位时间用于在学习运算中更新校正数据，所述单位脉冲响应数据U(n)被用于模拟学习运算中。关于特性测定用指令值，以所指定的最大测定时间输出脉冲状或阶跃状的指令值。单位脉冲响应数据为时间序列数据，因此也能以阵列数据的形式输出。

图12(B)中示出负责学习运算的学习运算功能块1142。设想学习运算功能块1142在每1次学习运算时启动。

更具体而言，学习运算功能块1142中输入学习运算启动、学习结束判定值、校正移位时间、预定的指令值图形、反馈值及当前的校正数据作为输入信号，所述学习运算启动指示开始学习运算，所述学习结束判定值为用于结束学习运算的条件，所述校正移位时间用于在学习运算中更新校正数据，所述反馈值规定来自控制对象的反馈值。

另外，从学习运算功能块1142输出学习运算中、评价函数值、学习结束、响应数据及更新后的校正数据，所述学习运算中表示正在执行学习运算，所述评价函数值表示1次学习运算的结果，所述学习结束表示学习运算的执行已完成，所述响应数据表示学习运算中的反馈值的时间变化，所述更新后的校正数据是1次学习运算的结果所得。响应数据及校正数据为时间序列数据，因此也能以阵列数据的形式输出。

此外，首次学习运算中所取得的响应数据也可在模拟学习运算中用作未校正响应数据182。校正数据在每次学习运算时更新。

图13中示出负责模拟学习运算的模拟学习运算功能块1143。设想模拟学习运算通过启动1次而输出临时校正数据。

更具体而言，模拟学习运算功能块1143中输入模拟学习运算启动、校正移位时间、预定的指令值图形、单位脉冲响应数据及未校正响应数据作为输入信号，所述模拟学习运算启动指示开始模拟学习运算，所述校正移位时间用于在模拟学习运算中更新校正数据。指令值图形、单位脉冲响应数据及未校正响应数据为时间序列数据，因此也能以阵列数据的形式输出。

另外，从模拟学习运算功能块1143输出模拟学习中及临时校正数据，所述模拟学习中表示正在执行模拟学习运算，所述临时校正数据是通过执行模拟学习运算而决定。临时校正数据为时间序列数据，因此也能以阵列数据的形式输出。临时校正数据也可用作学习运算功能块1142中输入的校正数据的初始值。另外，通过采用下文将述的方法，也可不需要未校正响应数据。

<J.对实施例的变形例>

也可对所述实施例施加以下的变形。

(1)省略模拟学习运算中的特性测定(图7的步骤S4)

所述模拟学习运算中，通过特性测定而取得未校正响应数据(步骤S4)。进而使用未校正响应数据算出模型误差Merr(n)(步骤S83)，但在将响应数据S(n)的取得省略的情况下，将模型误差Merr(n)设为零进行操作。

通过省略模拟学习运算中的特性测定，虽然所算出的临时校正数据的精度稍降低，但也能将使控制对象实际动作的次数减少1次。

(2)单位脉冲响应数据U(n)的算出方法(步骤S81)

所述实施例中，使用阶跃状时间变化作为特性测定用指令值，并且使用根据此指令值取得的阶跃响应数据，算出对单位脉冲指令值的响应数据。

不限于此，也可使用脉冲状时间变化作为特性测定用指令值，并且根据此指令值直接测定单位脉冲响应数据。

或者，也可使用斜坡状时间变化作为特性测定用指令值，并且根据此指令值取得的斜坡响应数据算出单位脉冲响应数据。

(3)单位脉冲响应数据U(n)的算出方法(步骤S81)及校正数据Rev_sim(k_s)的算出方法(步骤S84)

所述实施例中，根据单位脉冲响应数据U(n)及指令值图形D(n)算出各次的校正数据Rev_sim(k_s)(n)。

也可使用概括控制运算部154及控制对象10的传递函数来代替单位脉冲响应数据U(n)。

也可输入白噪声等并根据对此白噪声的响应数据通过***辨识(systemidentification)方法来决定传递函数。即，也可将白噪声等任意指令值给予控制运算部154，并且根据与此任意指令值对应地取得的反馈值的时间变化通过***辨识方法进行估计，将所估计的传递函数决定为响应特性。

也可根据如此而决定的传递函数及指令值图形D(n)算出各次的校正数据Rev_sim(k_s)(n)。

(4)离线***中的模拟学习运算

所述实施例中，作为典型例，对控制装置100执行学习运算及模拟学习运算的构成进行了说明。但是，也可分别由不同的处理主体来执行学习运算及模拟学习运算。例如也可取得通过控制装置100输出指令值所得的反馈值，并使用所取得的反馈值，在与控制装置100无关而另准备的个人计算机上执行模拟学习运算，并使通过执行此模拟学习运算所决定的临时校正数据再次回到控制装置100。

<K.结论>

在包含本实施例的学习控制的控制体系中，将已知的指令值给予控制运算部154，并且取得来自控制对象10的反馈值的时间变化即响应数据。然后，根据所取得的响应数据，执行反映包含控制运算部154及控制对象10的体系的特性的模拟学习运算，决定对指令值图形的临时校正数据。通过将所决定的临时校正数据用作学习运算的校正数据的初始值，能够尽早结束学习运算而决定适当的校正数据。

通过采用以上的模拟学习运算，能够减少实现适当的学习运算所需要的使控制对象10实际动作的次数，由此能够削减对控制体系进行调整的时间及劳力。另外，即便学习运算的执行次数更少，也能够实现精度高的学习控制。

另外，在模拟执行环境具有充分性能的情况下，可以减少控制对象10实际动作的次数，结果能够缩短用于实现学习运算的总时间。

进而，通过并行执行使控制对象10实际动作的处理与所述模拟，能进一步缩短总时间。具体可想到以下方法：在使控制对象10以当前的指令值图形实际动作时，执行对下一指令值图形的事先模拟。

应认为此次公开的实施例在所有方面为例示而非限制性。本发明的范围是由权利要求而非所述说明来揭示，意指包括与权利要求均等的含意及范围内的所有变更。

Claims

1.一种控制装置，用于对控制对象进行控制，其特征在于，包括：

指令值生成部，所述指令值生成部生成第二指令值并输出给控制运算部，所述第二指令值是以根据校正数据在每个控制周期输出的校正量，对根据预定图形在每个控制周期输出的第一指令值进行补偿所得，所述控制运算部根据所述第二指令值算出对所述控制对象的控制输出；且

所述控制装置包括：

学习运算部，根据所述第一指令值与来自所述控制对象的反馈值的偏差更新所述校正数据；以及

初始值决定部，决定所述校正数据的初始值，所述初始值是在所述学习运算部尚未对所述校正数据执行更新的状态下使用；

所述初始值决定部包括：

特性取得部，取得响应特性，所述响应特性表示给予所述控制运算部的指令值与响应所述指令值而所述控制对象出现的反馈值的关系；

估计部，根据以临时校正数据补偿所述第一指令值所得的值及所述响应特性，估计将出现在所述控制对象的反馈值；以及

更新部，根据所述第一指令值与所述估计的反馈值的偏差更新所述临时校正数据，其中

所述学习运算部通过使用未校正响应数据及特性测定用响应数据执行模拟学习运算，所述未校正响应数据为对依照指令值图形的校正前指令值的反馈值的时间变化，且所述特性测定用响应数据为对依照特性测定用指令值图形的特性测定用指令值的反馈值的时间变化；以及

所述初始值决定部将通过执行所述模拟学习运算而得的所述临时校正数据设定为所述校正数据的所述初始值。

2.根据权利要求1所述的控制装置，其特征在于：所述初始值决定部还包括算出部，所述算出部根据响应于向所述控制运算部输出所述第一指令值的所述控制对象中出现的反馈值、与对应的所述估计的反馈值的偏差，算出模型误差。

3.根据权利要求2所述的控制装置，其特征在于：所述更新部将所述模型误差反映在更新后的临时校正数据中。

4.根据权利要求2或3所述的控制装置，其特征在于：所述更新部以与所述估计的反馈值的偏差乘以既定系数所得的值，更新当前的临时校正数据。

5.根据权利要求1至3中任一项所述的控制装置，其特征在于：所述特性取得部将根据阶跃状指定值图形将每个控制周期要输出的第三指令值输出给所述控制运算部，

对与所述第三指令值对应地取得的反馈值的时间变化，通过时间差分近似而算出对单位脉冲的响应特性。

6.根据权利要求1至3中任一项所述的控制装置，其特征在于：所述特性取得部将任意指令值给予所述控制运算部，并且根据与所述任意指令值对应地取得的反馈值的时间变化，将通过***辨识方法估计出的传递函数决定为所述响应特性。

7.根据权利要求1至3中任一项所述的控制装置，其特征在于：所述初始值决定部还包括反复进行所述估计部及所述更新部的处理直到满足预定的结束条件的部分。

8.一种记录媒体，其存储用以实现用于对控制对象进行控制的控制装置的控制程序，所述控制程序的特征在于：

所述控制程序使计算机执行生成第二指令值并输出给控制运算部的步骤，所述第二指令值是以根据校正数据在每个控制周期输出的校正量，对根据预定图形在每个控制周期输出的第一指令值进行补偿所得，所述控制运算部根据所述第二指令值算出对所述控制对象的控制输出；且

所述控制程序使计算机执行以下步骤：

根据所述第一指令值与来自所述控制对象的反馈值的偏差更新所述校正数据；以及

决定所述校正数据的初始值，所述初始值是在尚未对所述校正数据执行更新的状态下使用；

决定所述校正数据的初始值的步骤包括以下步骤：

取得响应特性，所述响应特性表示给予所述控制运算部的指令值与响应所述指令值而所述控制对象出现的反馈值的关系；

根据以临时校正数据补偿所述第一指令值所得的值及所述响应特性，估计将出现在所述控制对象的反馈值；

根据所述第一指令值与所述估计的反馈值的偏差更新所述临时校正数据，其中决定所述校正数据的初始值的步骤包括：

通过使用未校正响应数据及特性测定用响应数据执行模拟学习运算，所述未校正响应数据为对依照指令值图形的校正前指令值的反馈值的时间变化，且所述特性测定用响应数据为对依照特性测定用指令值图形的特性测定用指令值的反馈值的时间变化；以及

将通过执行所述模拟学习运算而得的所述临时校正数据设定为所述校正数据的所述初始值。

9.一种控制***，用于对控制对象进行控制，所述控制***的特征在于包括：

指令值生成部，生成第二指令值，所述第二指令值是以根据校正数据在每个控制周期输出的校正量，对根据预定图形在每个控制周期输出的第一指令值进行补偿所得；

控制运算部，根据所述第二指令值算出对所述控制对象的控制输出；

所述初始值决定部包括：