CN104647387A

CN104647387A - 机器人控制方法、***和装置

Info

Publication number: CN104647387A
Application number: CN201410685590.6A
Authority: CN
Inventors: 根岸真人
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-11-25
Filing date: 2014-11-25
Publication date: 2015-05-27
Anticipated expiration: 2034-11-25
Also published as: CN104647387B; US9592605B2; US20150148956A1; JP2015100877A; EP2875913A2; JP6347595B2; US20170136623A1; EP2875913A3

Abstract

公开了机器人控制方法、***和装置。计算针对实际轨道y_k与目标轨道x之间的轨道误差e_k的评价值E_k。在所计算出的评价值E_k比最佳评价值E_best好的情况下，由评价值E_k更新最佳评价值E_best并存储评价值E_k。这种情况下的指令轨道u_k被用作最佳指令轨道u_best并被存储。在计算出的评价值E_k比最佳评价值E_best差的情况下，计算轨道的校正Δu_k+1的补偿器被改变为另一个补偿器，并且轨道的校正Δu_k+1被计算。根据轨道的校正Δu_k+1以及最佳指令轨道u_best计算下次操作中的指令轨道u_k+1。

Description

机器人控制方法、***和装置

技术领域

本发明涉及能够基于在指令轨道与实际轨道之间的轨道误差学习指令轨道并控制指令轨道的机器人控制方法和机器人控制装置。

背景技术

近些年来，人们致力于实现包含能够与人手的能力一样好地迅速地执行复杂的组装过程的机器人的机器人***。在理想情况下，当目标轨道由指令轨道指定时，机器人沿着目标轨道被准确地驱动。但是，实际上，轨道跟踪误差会出现于实际轨道与指令轨道之间。此外，随着驱动机器人的速度增加，轨道误差也增加。

要减小这样的轨道误差，人们已经提出了执行学习控制，以使得下次操作结果基于前一次操作结果而习得(日本专利特开No.2006-110702)。在日本专利特开No.2006-110702所公开的技术中，机器人根据指令轨道来驱动，并且使用传感器等来测量实际轨道。使用比例-积分-微分(PID)补偿器，基于在实际轨道与指令轨道之间的轨道误差来计算轨道的校正，并且通过将轨道校正加上当前的指令轨道来生成下一个指令轨道。通过在机器人每次被驱动时都按照以上所描述的方式来学习指令轨道，尽量获得机器人的尽可能接近于目标轨道的实际轨道。由机器人执行的组装过程通常是基本操作的重复，并且因而通过按照以上所描述的方式的学习很容易实现预期的改进。

但是，即使是在日本专利特开No.2001-182785所公开的技术中，也还存在对轨道误差的减小的限制。也就是，轨道误差可能由伺服控制***中的操作延迟以及机器人的振动导致。机器人的关节由其中控制带宽并不是无限宽，而是有限的伺服控制***驱动，并且对控制带宽的限制使得实际轨道难以精确地跟随所指令轨道，并从而可能出现轨道误差。而且，机器人的关节的刚性以及主体的刚性并不是无限高的，而是有限的，并从而机器人的任何运动可能导致具有固有频率的振动发生，这可能导致轨道误差。特别地，由振动导致的轨道误差的特征在于振动在固有频率附近的频率范围内具有大的振幅，并且输出具有与输入的相位相差180°的相位。

要确保伺服控制***中的高稳定性，控制频带通常被设定为比机器人的固有频率低。但是，这会导致伺服控制***在低频率范围内具有响应延迟，并且导致机器人在高频率范围内具有振动，这可能是误差的主要原因。类似的情况同样可能出现于学习控制***中的控制回路内。因而，要在学习控制中确保高稳定性，控制频带被设定为比机器人的固有频率低。但是，结果，机器人可以在比学习控制***的控制频带高的范围内进行振动，这使得难以减小由机器人的振动导致的轨道误差。因此，难以通过使用日本专利特开No.2001-182785所公开的技术的学习控制来减小轨道误差。

另一种可能的控制方法是对机器人建模并且配置在学习控制中使用的补偿器，以致于根据其逆模型来操作。但是，实际上，在建模中会出现不可避免的误差，这会产生不利的影响。这已知为溢出问题。由于以上所述的原因，在设计能够降低机器人的振动的补偿器方面存在着约束，并且存在难以通过学习控制来减小的轨道误差。

要处理以上所描述的难以减小轨道误差的情况，可以减小补偿器的增益以在学习控制中获得高稳定性。但是，增益的减小会导致调整轨道误差的速度降低。结果，大量的学习迭代是必要的，这导致学习速度降低。此外，在学习控制中，在实际轨道的测量当中会出现噪声，并且这样的噪声会导致轨道误差与先前的轨道误差相比变得更差。在这种情况下，在根据日本专利特开No.2001-182785所公开的技术的学习控制中，学习控制从退化的状态开始继续进行，并从而学习的大量迭代是必要的，这导致了学习速度降低。

发明内容

本发明的各个方面一般地提供能够降低轨道误差并提高学习速度的机器人控制方法和控制装置。

根据本发明的一个方面，机器人控制方法能够通过控制单元来控制机器人以便按照指令轨道驱动机器人、检查机器人沿其被驱动的实际轨道，并且通过基于在实际轨道与目标轨道之间的轨道误差的学习来控制指令轨道。该方法包括：通过控制单元来计算对轨道误差的评价值，并且由控制单元通过学习来控制指令轨道。通过学习的控制包括：1)通过控制单元来存储好的状态，使得在计算出的评价值比存储于存储单元内的评价值好的情况下，存储于存储单元中的评价值由计算出的评价值更新并且被存储在存储单元中，并且存储在存储单元中的指令轨道由在轨道误差被评价时所给出的指令轨道来更新，2)通过控制单元来改变补偿器，使得在所计算出的评价值比存储于存储单元内的评价值差的情况下，当前选定的补偿器被改变为另一个补偿器，该另一个补偿器包含于配置为根据轨道误差来计算指令轨道的校正量的多个补偿器中并且被配置为按照与当前选定的补偿器用以计算校正量的方式不同的方式来计算校正量，以及3)由控制单元计算在下次操作中的指令轨道，使得使用所选定的补偿器来计算针对存储在存储单元中的指令轨道的校正量，并且在下次操作中的指令轨道根据计算出的校正量以及存储于存储单元内的指令轨道来计算。

根据本发明的一个方面，机器人控制装置能够控制机器人以便按照指令轨道驱动机器人、检查机器人被沿其驱动的实际轨道，并且通过基于在实际轨道与目标轨道之间的轨道误差的学习来控制指令轨道。该装置包含被配置为计算对轨道误差的评价值并通过学习执行控制的控制单元，以及能够存储评价值和指令轨道的存储单元。控制单元被配置为通过学习执行控制，使得在计算出的评价值比存储于存储单元中的评价值好的情况下，存储于存储单元中的评价值由计算出的评价值更新并且被存储在存储单元中，并且存储在存储单元中的指令轨道由在轨道误差被评价时所给出的指令轨道来更新，在计算出的评价值比存储在存储单元中的评价值差的情况下，从被配置为根据轨道误差来计算指令轨道的校正量的多个补偿器中选出的补偿器被改变为配置为按照与当前选定的补偿器用以计算校正量的方式不同的方式来计算校正量的另一个补偿器，使用当前选定的补偿器计算存储于存储单元中的指令轨道的校正量，并且根据计算出的校正量以及存储于存储单元中的指令轨道计算下次操作中的指令轨道。

本发明的更多特征根据下面参照附图关于示例性实施例的描述将变得明显。

附图说明

图1是示意性地示出机器人装置的结构的示意图。

图2是示出机器人控制装置的配置的框图。

图3是示出根据第一实施例的学习控制的框图。

图4A和4B是示出根据第一实施例的学习控制的流程图。

图5是示出所模拟的阶跃响应的示意图。

图6是示出所模拟的目标轨道与实际轨道的示意图。

图7是示出在执行首次学习之后的模拟的轨道误差的示意图。

图8是示出在执行第二次学习之后的模拟的轨道误差的示意图。

图9是示出在执行第三次学习之后的模拟的轨道误差的示意图。

图10是示出在执行第四次学习之后的模拟的轨道误差的示意图。

图11是示出在执行第五次学习之后的模拟的轨道误差的示意图。

图12是示出根据第二实施例的学习控制的框图。

图13是示出根据第二实施例的学习控制的流程图，在该图中仅示出在学习控制中的改变参数和补偿器编号的过程。

图14是示出根据第三实施例的学习控制的框图。

图15A和15B是示出根据第四实施例的学习控制过程的流程图。

具体实施方式

第一实施例

在下文参照图1至图11来描述第一实施例。首先，描述机器人装置的总体结构。如图1所示，机器人装置100包含起着多关节机器人的作用的机器人手臂(机器人)200以及控制机器人手臂200的机器人控制装置300。机器人装置100还包含起着用于将多个示教点数据块传输给机器人控制装置300的示教装置的作用的示教器400。示教器400由人类操作者来操作以指定机器人手臂200或机器人控制装置300的操作。

在本实施例中，机器人手臂200为例如6关节的机器人。机器人手臂200具有驱动各自的关节J1至J6绕着相应的关节轴A1至A6旋转的多个(更具体地，6个)致动器201至206。机器人手臂200能够移动，使得机器人手臂200的手部的顶端(末端点)位于所允许的范围内的任意指定的位置以及使得顶端点位于任何指定的三维方向上。一般使用坐标系来表示机器人手臂200的位置和姿态。在图1中，To表示固定于机器人手臂200的基部上的坐标系，并且Te表示固定于机器人手臂200的末端点(手部的顶端)上的坐标系。

在本实施例中，致动器201至206分别包含电机211至216以及与各自的电机211至216连接的减速器221至226。各个减速器221至226经由皮带或轴承(未示出)连接至由相应的关节J1至J6驱动的框架。注意，致动器201至206各自的结构并不限定于以上所描述的结构，并且一个或全部致动器可以被不同地配置。例如，可以将人工肌肉等用于一个或全部致动器。为每个减速器221至226布置旋转检测传感器(诸如编码器等)，使得关节的角度由旋转检测传感器检测。检查每个关节J1至J6的角度使得可以计算出机器人手臂的顶端的位置和姿态，并从而可以检测机器人手臂200的实际轨道。

作为替代地，可以使用相机等测量机器人手臂的顶端的位置，并且由此可以确定实际轨道。

机器人手臂200还包含可控地驱动各个致动器201至206的电机211至216的伺服控制单元230。伺服控制单元230基于所输入的指令轨道，通过将电流命令输出给电机211至216来控制电机211至216的操作，使得各个关节J1至J6的位置根据所指令轨道运动。注意，尽管在本实施例中通过示例的方式假定仅提供一个伺服控制单元230，但是也可以提供多个伺服控制单元使得每个电机211至216通过伺服控制单元中相应的一个伺服控制单元来控制。

在图1中，示出了四个示教点p₁、p₂、p₃和p₄。当机器人手臂200首次被驱动时，这些示教点由例如人类操作者使用示教器400给出。注意，示教点并不是在所谓的三维空间中的点。在机器人在关节空间中运动的情况下，示教点由关节角表示。在机器人在任务空间中运动的情况下，示教点指示在三维空间中的位置和姿态，并且这些示教点p₁、p₂、p₃和p₄被表示于坐标系内，如图1所示。也就是，示教点不是在三维空间中的点，而是向量。

机器人控制装置300是通过在相邻的示教点之间插值来生成穿过示教点的轨道从而生成目标轨道x的计算机。基于由示教器400等示教的示教点而最初设定的轨道被用作目标，并从而在本说明书中，最初设定的轨道被称为目标轨道x(由图1中的虚线表示)，并且给予伺服控制单元230的指令轨道被称为指令轨道u。T表示机器人根据目标轨道运动的操作时间。因为每个示教点都由向量表示，所以目标轨道x由时间序列向量数据，即二维数组数据表示。

机器人手臂200的每个关节的角度由伺服控制单元230根据由机器人控制装置300给出的目标轨道来控制。伺服控制单元230根据所输入的指令轨道u来操作机器人手臂200，并且将实际轨道y作为操作结果来输出。注意，实际轨道y像目标轨道x一样由时间序列向量数据表示，也就是，实际轨道y由二维数组数据给出。注意，目标轨道x可以由各个关节的关节角或者由正交坐标系中的坐标值表示。

然后，下面将参照图2来描述机器人控制装置300的大体配置。机器人控制装置300包含起着控制单元的作用的CPU 301，起着存储单元的作用的ROM 302、RAM 303、硬盘驱动器(HDD)304和存储盘驱动(存储介质)305，以及各种接口306至309。

CPU 301经由总线310连接至ROM 302、RAM 303、HDD 304、存储盘驱动305以及各种接口306至309。在ROM 302中，存储了用于操作CPU 301的程序330。程序330包括机器人控制程序。更具体地，机器人控制程序是控制各个部分(见图3)以执行各种操作和过程的程序。RAM 303是能够临时存储由CPU 301执行的操作的结果等的存储单元。HDD 304是用于存储操作的结果以及各种数据(包括最佳指令轨道、最佳评价值等)的存储单元。

示教器400连接至接口306，使得CPU 301被允许经由接口306和总线310来接收来自示教器400的输入。

伺服控制单元230连接至接口309，使得CPU 301被允许按照预定的时间间隔经由总线310和接口309将目标轨道数据输出到伺服控制单元230。

接口307连接至监视器321，并且各种图像显示于监视器321上。接口308能够连接至外部存储器件322，诸如可重写的非易失性存储器、外部HDD等。存储盘驱动305能够从存储盘(存储介质)331中读出各种数据、程序等。根据本公开内容的用于存储程序的存储介质并不限定于存储盘331，而是同样可以使用非易失性存储器、外部HDD等(诸如外部存储器件322)。

然后，将在下文参照图3至11来描述根据本实施例的学习控制。首先，参照图3来描述与学习控制关联的单元的操作。在图3中，符号k被用来表示第k次学习迭代现在正在执行。也就是，值k指示所执行的学习迭代的次数。注意，值k最初设定为0。

如图3所示，机器人控制装置300包含轨道误差计算单元1、评价值计算单元2、评价值判断单元3、最佳评价值存储单元4，以及最佳轨道误差存储单元5。机器人控制装置300还包含最佳指令轨道存储单元6、补偿器编号更新单元7、补偿器选择单元8、命令计算单元9、前一指令轨道存储单元10，以及学习迭代次数更新单元11。注意，以上所描述的这些单元通过由CPU 301执行程序330来实现。

轨道误差计算单元1根据以下所描述的公式(1)来计算在实际轨道y_k与目标轨道x之间的轨道误差e_k。注意，轨道误差e_k像目标轨道x和实际轨道y_k一样也是时间序列向量数据，也就是，二维数组数据。

e_k＝x-y_k (1)

评价值计算单元2根据轨道误差e_k来计算评价值E_k。更具体地，根据例如以下所描述的公式(2)来计算评价值E_k，其中stdev是返回标准差的函数。

E_k＝stdev(e_k) (2)

作为替代地，可以简单地通过根据以下所描述的公式(3)计算峰谷差(PV)值来确定评价值E_k。

E_k＝max(e_k)-min(e_k) (3)

评价值判断单元3将评价值E_k与以下所描述的最佳评价值E_best进行比较，并且输出评价结果q_k。评价结果q_k是取两个值的变量，其中一个值指示评价值E_k比最佳评价值E_best还要好(也就是，结果被评价为好)，而另一个值指示评价值E_k比最佳评价值E_best差(也就是，结果被评价为差)。也就是，评价结果q_k指出轨道误差是改进了还退化了。在评价结果q_k具有改进值(也就是，结果被评价为好)的情况下，最佳评价值存储单元4丢弃当前的最佳评价值E_best，并且将评价值E_k存储为新的最佳评价值E_best。在评价结果q_k具有改进值(也就是，结果被评价为好)的情况下，最佳轨道误差存储单元5丢弃当前的最佳轨道误差e_best，并且将轨道误差e_k存储为新的最佳轨道误差e_best。在评价结果q_k具有改进值(也就是，结果被评价为好)的情况下，最佳指令轨道存储单元6丢弃当前的最佳指令轨道u_best，并且以存储于前一个指令轨道存储单元10内的前一个指令轨道u_k更新最佳指令轨道。

在评价结果q_k具有改进值的情况下，补偿器编号更新单元7输出与前一补偿器编号相同的补偿器编号m。在评价结果q_k具有退化值的情况下，补偿器编号更新单元7更新补偿器编号m，并且输出所更新的补偿器编号。例如，通过每次在更新被执行时将补偿器编号加1来执行补偿器编号m的更新。补偿器编号m从1开始。当全部补偿器都已被选择时，补偿器编号m返回到1。

补偿器选择单元8根据用于标识补偿器的补偿器编号m来选择补偿器，并且将所选择的补偿器应用于最佳轨道误差e_best，由此根据以下所描述的公式(4)输出轨道的校正(校正量)Δu_k+1。注意，最佳轨道误差e_best和轨道校正Δu_k+1同样是时间序列向量数据，也就是，二维数组数据。

Δu_k+1＝^mF(e_best) (4)

以下列出了补偿器的示例。

(1)根据以下公式的比例补偿器

Δu_k+1＝Γ₁e_best (5)

其中Γ1是称为比例增益的常量。

(2)根据以下公式的积分补偿器

Δu_k+1＝Γ₂∫e_bestdt (6)

其中Γ2是称为积分增益的常量。

(3)根据以下公式的微分补偿器

Δ u_{k + 1} = Γ_{3} \frac{d}{dt} e_{best} - - - (7)

其中Γ3是称为微分增益的常量。

(4)根据以下公式的PID补偿器

Δ u_{k + 1} = (Γ_{1} + Γ_{2} &Integral; dt + Γ_{3} \frac{d}{dt}) e_{best} - - - (8)

该补偿器是补偿器(1)至(3)的组合。

(5)允许低频率通过的低通滤波器(LPF)。对于一阶LPF，其传递函数由以下所描述的公式(9)定义。

T (s) = \frac{1}{1 + \frac{s}{2 π f_{c}}} - - - (9)

在公式(9)中，fc表示截止频率，而s表示拉普拉斯变换变量。可以使用双线性变换等来设计具有以上所描述的传递函数T(s)的滤波器。在此省略了关于设计方法的详细描述，但是结果可以由以下所描述的公式(10)给出。注意，公式(10)包含作为参数的截止频率。

Δ_u+1＝LPF(e_best，f_c) (10)

(6)根据以下公式的二阶微分补偿器。

Δ u_{k + 1} = Γ_{6} \frac{d^{6}}{{dt}^{2}} e_{best} - - - (11)

在目标轨道x由位置定义的情况下，二阶微分对应于加速度。因而，在该补偿器中，加速度被反馈回来。在加速度反馈中，反馈量在较高的频率下较大，并从而加速度反馈是有效的，特别是对于抑制机器人的振动。Γσ是常量。

(7)根据以下公式的时间延迟补偿器或时间提前补偿器。

Δ u_{k + 1} (t) = \{\begin{matrix} 0 & t + t_{0} < 0 \\ e_{best} (t + t_{0}) & 0 < t + t_{0} < T \\ 0 & T < t + t_{0} \end{matrix} - - - (12)

在该补偿器中，根据时间移位最佳轨道误差e_best，并且结果被用作轨道的校正Δu_k+1。在公式(12)中，t₀表示时移量。当t₀为负时，在时间延迟补偿模式中执行补偿，而当t₀为正时，在时间提前补偿模式中执行补偿。当操作时间超出0至T的范围时，轨道误差被视为0。在机器人的振动频率基本上恒定的情况下，振动可以通过将t₀设定为等于振动周期来抑制。

(8)仅让特定的频率分量不通过的陷波滤波器。其传递函数由以下所描述的公式(13)定义。

T (s) = \frac{{(\frac{s}{2 π f_{0}})}^{2} + 1}{{(\frac{s}{2 π f_{0}})}^{2} + \frac{1}{Q} (\frac{s}{2 π f_{0}}) + 1} - - - (13)

在公式(13)中，f₀表示抑制频率，Q值是指示锐度的无量纲数，而s表示拉普拉斯变换变量。可以使用双线性变换等设计具有以上所描述的传递函数T(s)的滤波器。在此省略关于设计过程的详细描述，但是结果可以由以下所描述的公式(14)给出。注意，公式(14)包含作为参数的抑制频率f₀和Q值。

Δu_k+1＝NOTCH(e_best，f₀，Q) (14)

注意，通过将f₀设定为等于机器人的振动频率，可以防止振动导致轨道校正Δu_k+1变大。

指令计算单元9通过根据以下所描述的公式(15)将轨道校正Δu_k+1加上最佳指令轨道u_best而计算在下次操作中的指令轨道u_k+1。注意，因为该指令轨道被用作下次迭代中的指令轨道，指示学习迭代次数的下标k加1并从而改变为k+1。

u_k+1＝u_best+Δu_k+1 (15)

前一指令轨道存储单元10存储所产生的下次指令轨道u_k+1。在对机器人手臂200执行了下次驱动之后，如果评价值E_k+1比最佳评价值E_best好，则所存储的下次指令轨道u_k+1由最佳指令轨道存储单元6使用。伺服控制单元230根据指令轨道u_k+1来操作机器人手臂200，并且将实际轨道y_k+1作为操作结果来输出。学习迭代次数更新单元11使指示学习迭代次数的下标k递增，也就是，学习迭代次数更新单元11对学习迭代次数计数。

然后，参照图4A和4B所示的流程图来描述根据本实施例的学习控制操作。该流程图表示首次迭代操作，在每次迭代中根据相同的目标轨道x驱动机器人手臂200。迭代操作的次数由学习迭代次数k表示。在第一次迭代中，k被设定使得k＝0。

当机器人手臂200的驱动开始并从而根据本实施例的学习控制操作开始时，确定机器人手臂200的驱动操作是否为初次迭代(S1)。在驱动操作处于初次迭代(在S1中为Y)的情况下，处理流程进入步骤S2，否则(在S1中为N)处理流程进入步骤S3。

例如，在机器人手臂200的驱动操作处于初次迭代并从而处理流程进入步骤S2的情况下，则第一指令轨道u₁和最佳指令轨道u_best被设定为等于目标轨道x(u₁＝x，且u_best＝x)。而且，当前最佳评价值E_best被设定为差值，并且更具体地，该当前最佳评价值E_best被设定为较大的值或无穷大(E_best＝∞)。而且，补偿器编号m被设定为1(m＝1)。其后，处理流程进入步骤S15，在步骤S15中，指令轨道u₁在下一次学习迭代中被存储为前一指令轨道。然后，在步骤S16中，根据指令轨道u₁(被输入伺服控制单元230)来操作机器人手臂200。结果，实际轨道y_k(输出)被获得。然后，在步骤S17中，学习迭代次数k加1(k＝k+1)，并且机器人手臂200的首次操作结束。

在机器人手臂200的操作处于第二次或后续迭代中(在S1中为N)的情况下，处理流程进入步骤S3，在该步骤S3中确定学习是否正在进行中，也就是，学习迭代次数k是否等于或小于最大迭代次数k_max。在确定学习迭代次数k大于最大迭代次数k_max的情况下，这意味着学习已经超前得以致于使用补偿器进行的指令轨道的计算不再提供更多的改进，这将在后面详细地描述，并从而处理流程进入步骤S4(学习停止)。在步骤S4中，指令轨道u_k+1被设定为等于存储于存储单元内的最佳指令轨道u_best(u_k+1＝u_best)。其后，步骤S15至S17被执行。指令轨道u_k+1被存储为前一指令轨道，以防万一，并且实际根据指令轨道u_k+1(也就是，根据最佳指令轨道u_best)驱动机器人手臂200。学习迭代次数k然后加1，并且该学习迭代结束。

另一方面，在步骤S3确定学习正在进行中(在S3中为Y)的情况下，处理流程进入步骤S5。在步骤S5中，首先，轨道误差计算单元1计算在前一实际轨道y_k与目标轨道x之间的轨道误差e_k(e_k＝x-y_k)。其后，评价值计算单元2根据轨道误差e_k计算评价值E_k(评价值计算步骤)(S6)。

然后，学习控制操作开始。首先，评价值判断单元3将所计算的评价值E_k与最佳评价值E_best比较，并且确定评价值E_k是否得到改进(S7)，并且评价值判断单元3输出评价结果q_k。在评价值E_k得到改进使得评价值E_k比最佳评价值E_best好(在S7中为Y)的情况下，处理流程进入步骤S8。但是，在评价值E_k退化使得评价值E_k比最佳评价值E_best差(在S7中为N)的情况下，处理流程进入步骤S11。在机器人手臂200的操作处于第二次迭代(k＝1)的情况下，评价值E_k总是得到改进的，因为最佳评价值E_best被最初设定为无穷大，并从而处理流程进入步骤S8。

在步骤S8中，因为评价值E_k得到改进，使得评价值E_k比最佳评价值E_best好，最佳评价值存储单元4以评价值E_k来更新最佳评价值E_best，并且存储所更新的最佳评价值E_best(好状态存储步骤)。然后，在步骤S9中，最佳轨道误差存储单元5以被改进为比前一轨道误差好的轨道误差e_k来更新最佳轨道误差e_best，并且存储所更新的最佳轨道误差e_best。在步骤S10中，最佳指令轨道存储单元6以被改进为比前一指令轨道好的指令轨道u_k来更新最佳指令轨道u_best(好状态存储步骤)。

另一方面，在步骤S11中，因为评价值E_k退化，使得评价值E_k比最佳评价值E_best差，补偿器编号更新单元7通过将补偿器编号m加1来更新补偿器编号m(补偿器改变步骤)。在步骤S12中，补偿器选择单元8根据补偿器编号m来选择补偿器(补偿器改变步骤)。也就是，在评价值E_k得到改进使得评价值E_k比最佳评价值E_best好的情况下，步骤S11没有被执行，并从而补偿器编号m没有更新，并且补偿器没有改变。另一方面，在评价值E_k退化使得评价值E_k比最佳评价值E_best差的情况下，补偿器编号m在步骤S11中更新，并从而当前选定的补偿器改变为与当前补偿器不同地执行计算的另一个补偿器。

在步骤S13中，补偿器选择单元8将补偿器应用于最佳轨道误差e_best，由此计算出轨道校正Δu_k+1并输出结果(下一轨道计算步骤)。然后，在步骤S14中，指令计算单元9通过将轨道校正Δu_k+1加上最佳指令轨道u_best来计算下次指令轨道u_k+1(下一轨道计算步骤)。

其后，处理流程进入以上所描述的步骤S15，在该步骤S15中，指令轨道u_k+1被存储为前一指令轨道，以在下一学习迭代中使用。然后，在步骤S16中，根据指令轨道u_k+1(被输入伺服控制单元230)来操作机器人手臂200。结果，实际轨道y_k+1(输出)被获得。然后，在步骤S17中，学习迭代次数k加1(k＝k+1)(计数步骤)，并且机器人手臂200的第k次迭代操作结束。

注意，尽管在本实施例中通过示例的方式假定仅提供一个伺服控制单元230，但是也可以提供多个伺服控制单元，使得每个电机211至216通过相应的一个伺服控制单元被控制。在这种情况下，可以对与各个电机211至216对应的所有伺服控制单元中的每个伺服控制单元执行学习控制操作，或者可以至少对与位于离机器人手臂的顶端最远处的电机211对应的伺服控制单元执行学习控制操作。这是因为最大的误差倾向于发生在位于离机器人手臂的顶端最远处的电机211上。

然后，以下将参照图4A和4B所示的流程图来描述根据本实施例的学习控制操作的模拟。在该模拟中，为了更容易理解，假定将要控制的***是单轴旋转关节。注意，移动关节的模拟可以按照与旋转关节类似的方式来执行。假定作为对指令轨道u的响应的结果的输出轨道y由以下所描述的公式(16)所示出的传递函数表示。

\frac{{w_{0}}^{2}}{s^{2} + 2 ξ w_{0} s + {w_{0}}^{2}} - - - (16)

注意，由公式(16)表示的传递函数是已知为二阶延迟的传递函数。在公式(16)中，w₀表示固有共振频率，而ζ表示临界阻尼比。该传递函数提供模拟机器人手臂的振动的特性。

在该模拟中，假定频率等于5Hz，也就是，w₀＝2πf_c＝10π，且ζ＝0.1。当假定上述条件时，在图5中示出了所产生的阶跃响应。在这种情况下，响应在振动的同时接近目标值1，如图5所示。在实际机器人中，不是这样的阶跃响应，而是光滑轨道被用作目标轨道。在该模拟中，如下所述，两秒移动100°的五次曲线被使用。

首先，在步骤S2的初始设定中，最初的指令轨道u₁由五次曲线所定义的目标轨道x给出。在步骤S16中，根据指令轨道u₁操作机器人。图16示出了根据以上所描述的公式(16)响应于指令轨道u₁的输出轨道y₁的计算结果。当在此规模上查看时，在指令轨道u₁与输出轨道y₁之间没有观察到显著的差异。

但是，当学习迭代次数在步骤S17中被更新到k＝1并且轨道误差e₁在步骤S5中被计算时，则结果变为如图7所示出的那样。如同可以在图7中见到的，轨道误差e₁仍然是大的。因为输出轨道y₁相对于指令轨道u₁具有延迟，所以轨道误差e₁是正的。

如果标准差被用作评价值，则获得E₁＝0.243作为在步骤S6中的评价值计算的结果。该评价值示于图7的右上角。因为最佳评价值E_best最初在步骤S2中被设定为最差值(无穷大)，所以在步骤S7中确定评价值得到了改进。结果，在步骤S8至S10中，评价值E₁被用作最佳评价值E_best，轨道误差e₁被用作最佳轨道误差e_best，而指令轨道u₁被用作最佳指令轨道u_best，并且它们被存储。

增益为1的比例补偿器被用作第一补偿器。尽管该补偿器对于处理低频率误差是有效的，但是对于高频率误差倾向于发生振荡。在步骤S12和S13中，计算轨道校正Δu₂。在步骤S14中，计算下次操作u₂中的指令轨道。然后在步骤S17中，学习迭代次数被更新为k＝2。

随后，根据以上所描述的公式(16)计算作为对指令轨道u₂的响应的结果的输出轨道y₂。在步骤S5和S6中，计算轨道误差e₂和评价值E₂，并且获得结果，如图8所示。获得E₂＝0.021作为评价值，这指示出已经获得了显著的改进。因而，在步骤S7中，再次确定已获得改进。在步骤S13和S14中，使用与在前一迭代中使用的比例补偿器相同的比例补偿器计算下次操作中的指令轨道u₃。在步骤S17中，学习迭代次数被更新为k＝3。

而且，根据以上所描述的公式(16)计算作为对指令轨道u₃的响应的结果的输出轨道y₃。在步骤S5和S6中，计算轨道误差e₃和评价值E₃，并且获得结果，如图9所示。获得E₃＝0.084作为评价值，这指示出在该迭代中发生了退化。注意，高频率振动分量被观察到，因为机器人手臂在它的5Hz的固有频率下受到激发。这意味着有可能学习控制会导致轨道误差的退化。尽管图中未示出，使用同一补偿器的进一步学习导致进一步退化，这意味着：当使用同一补偿器的学习如同在传统的学习控制技术中执行那样继续时，有可能会发生轨道误差的退化。

但是，在本实施例中，实际操作如同以下所描述的那样来执行。在步骤S7中，确定评价值E₃退化了，并从而在步骤S11中，补偿器编号被更新为m＝2。在该模拟中，第二补偿器是作为具有1Hz的截止频率的低通滤波器与具有80ms的时间提前补偿时间的时间提前补偿器的串联的补偿器。

注意，低通滤波器的截止频率被设定为比受控装置的固有频率低。如果截止频率被另外设定，则低通滤波器无法使受控装置的固有振动减弱到足够低的水平。而且，时间提前补偿时间被设定为短于受控装置的固有振动的振动周期。如果时间提前补偿被另外设定，则在相邻的振动峰值之间发生重叠，并从而提前补偿的效果丢失。因此，在本模拟中，低通滤波器的截止频率被设定1Hz，低于受控装置的固有频率5Hz，并且时间提前补偿时间被设定为80ms，短于受控装置的固有振动的振动周期200ms。注意，在操作包括寻找参数(例如，截止频率、时间提前补偿时间等)的合适值的情况下，没有必要提前精确地确定这些值，这将在后面参照第二实施例详细描述。

注意，在本实施例中，当轨道误差e发生退化时，引起退化的指令轨道u没有被使用，而是使用最佳指令轨道u_best，并从而即使在计算中使用任何补偿器时也不会发生误差放大，这保证了高稳定性。因此，即使指令轨道使用公式组合(补偿器)来计算，也不会发生问题。

使用以上所描述的作为低通滤波器和时间提前补偿器的串联的补偿器，在步骤S13和S14中计算在下次操作中的指令轨道u₄。注意，重要的是，当退化发生时，则轨道误差e₃和指令轨道u₃没有被使用，而是使用最佳轨道误差e_best和最佳指令轨道u_best计算指令轨道u₄。这使得可以防止退化对下一学习过程施加不利影响。然后在步骤S17中，学习迭代次数被更新为k＝4。

随后，根据以上所描述的公式(16)计算作为对指令轨道u₄的响应的结果的输出轨道y₄。在步骤S5和S6中，计算轨道误差e₄和评价值E₄，并且获得结果，如图10所示。获得E₄＝0.009作为评价值，这指示出已获得显著的改进。因而，在步骤S7中确定评价值得到了改进。在步骤S13和S14中，使用与在前一次迭代(第四次迭代)中使用的补偿器相同的补偿器计算下一(第五次)指令轨道u₅。在步骤S17中，学习迭代次数被更新为k＝5。

随后，根据以上所描述的公式(16)计算作为对指令轨道u₅的响应的结果的输出轨道y₅。在步骤S5和S6中，计算轨道误差e₅和评价值E₅，并且获得结果，如图11所示。获得E₅＝0.006作为评价值，并从而获得进一步的改进。

如上所述，在该模拟中，第一评价值E₁＝0.243通过使用比例补偿器的学习控制过程而被改进为E₂＝0.021。但是，其后，退化发生。补偿器自动切换到另一个有效的补偿器，并从而评价值被改进为E₅＝0.006。

如上所述，模拟已经指出补偿器的改变对于改进学习结果是有效的。注意，即使在补偿器的改变没有引起学习结果的改进的情况下，重复执行步骤S11中的补偿器的进一步改变以寻找好的补偿器，直到在步骤S7中确定改进已获得。在步骤S3中确定学习迭代次数是否已经超过最大的迭代次数。若是，则在任何后续过程中，经由过去的学习获得的最佳指令轨道u_best在步骤S4中总是被指定为正在使用。可能所希望的是设定最大迭代次数，使得当达到最大迭代次数时，停止对补偿器的进一步寻找，因为使用任何补偿器都没有获得进一步的学习结果改进。

在机器人控制装置300中，如上所述，当轨道误差e_k的评价值E_k变得比存储于存储单元(例如，RAM 303)内的最佳评价值E_best好时，在这种情况下所使用的指令轨道u_k被存储。因此，所存储的最佳指令轨道u_best被更新为更好的指令轨道，这通过学习防止了指令轨道的退化。另一方面，在轨道误差e_k的评价值E_k变得比最佳评价值E_best差的情况下，在这种情况下给出的指令轨道u_k不被存储，并且用于计算指令轨道u_k+1的轨道校正Δu_k+1的补偿器被改变为另一个补偿器。因而，有可能依次处理各种不同的控制频带(例如低频带、高频带等)，并从而有可能获得更好的学习效果。因此，通过重复学习控制操作，有可能改善轨道误差e，也就是，有可能减小轨道误差e。

例如，当学习使用从反馈控制理论的视角来看不稳定的补偿器继续进行时，振荡会出现于作为学习结果而给出的指令轨道中，也就是，学习控制操作可能变得不稳定。相比之下，在根据本实施例的机器人控制装置300中，当评价值E_k变差时，当前的补偿器改变为另一个补偿器，并且从而可以防止学习控制操作变得不稳定。因此，允许在不考虑稳定性的情况下从各种补偿器中选择补偿器。

例如，当轨道误差e由于噪声或者由于某些其他原因而突然变得比前一轨道误差差时，如果在这种情况下给出的指令轨道u被存储并且学习控制操作继续进行，则学习控制操作从其中指令轨道u变差的状态继续进行，并且从而在学习的进程中出现延迟。但是，在根据本实施例的机器人控制装置300中，退化的指令轨道u没有被用于下次学习中，而是学习控制操作总是使用最佳指令轨道u_best继续进行。因此，即使评价值E出现退化也不影响下次学习，并且可以防止由于评价值E的退化而发生的学习速度降低。

而且，在根据本实施例的机器人控制装置300中，允许按照以下方式来选择补偿器：高增益补偿器首先被选择以实现快速的收敛，尽管它可能具有不稳定性，并且当评价值E变差时，选择低增益补偿器。这使得可以增加学习速度。

尽管比例补偿器对于处理低频率是有效的，但是它在高频率中可能不稳定。另一方面，通过将低通滤波器与时间提前补偿器串联而实现的补偿器对于处理高频率是有效的。但是，这种类型的补偿器在低频率下并不是很有效，因而大量的重复学习是必要的。鉴于以上情况，在根据本实施例的机器人控制装置300中，在开始时比例补偿器被用作补偿器，并且补偿器在必要时改变为通过将低通滤波器与时间提前补偿器串联而实现的补偿器。这使得可以迅速地对低频分量进行校正，并且然后按照高效率的方式对剩余的高频分量进行校正，这允许增加学习速度。如果使用补偿器的顺序反过来，则比例补偿器会对高频分量产生退化，并且从而没有获得高的学习效果。

而且，在根据本实施例的机器人控制装置300中，补偿器在学习过程中被改变。根据补偿器的选择，在新计算出的指令轨道中可能没有获得改进，这会导致机器人手臂200重复无改进的操作。要处理以上所描述的情况，最大的迭代次数被设定以定义最大可允许的学习操作次数，并且当学习操作次数超过最大迭代次数时，停止进一步学习，由此防止执行无改进的操作。当停止进一步的学习时，操作基于最佳指令轨道来执行，并从而可以按照好的方式来继续进行操作。

第二实施例

然后，以下将参照图12和图13来描述作为第一实施例的部分修改的第二实施例。第二实施例不同于第一实施例之处在于，增加了寻找补偿器的参数的过程。在根据传统的学习与控制技术的补偿器中，诸如补偿器的增益之类的参数被提前确定。但是，参数的最优值并不必预先知道，并且参数值的选择可以确定学习与控制过程的性能。例如，允许通过将增益设定为较大的值来减少学习的重复次数。但是，在这种情况下，可能会损失高稳定性，并且可能发生振荡，这使得不可能执行学习控制操作。很显然要选择好的参数值，但是适合于学习控制操作的参数值并不是预先知道的，因而难以在学习控制操作中获得高性能。在机器人的情形中，运动特性依据机器人的姿态或移动机器人的方式而大幅变化。因此，即使条件稍微改变也会导致有必要重新设置参数值以获得好的操作，这会致使人类操作者执行非常麻烦的工作。也就是，实际上，难以确定合适的参数值。第二实施例提供处理这样的困难情况的技术。

每个补偿器都通过公式以及包含于公式内的参数来定义。例如，在以上参照公式(4)所描述的补偿器的情形中，每个补偿器都由以下所描述的公式(17)来定义。

Δu_k+1＝¹F(e_beest，^mp) (24)

其中^mp表示第m补偿器的参数。依据补偿器的类型，补偿器可以包括多个参数。例如，PID补偿器包括三个参数，即，比例增益、积分增益和微分增益。

在第二实施例中，提供了补偿器参数寻找单元14，如图12所示。在本实施例中，如同将在下文更详细地描述的，补偿器参数寻找单元14使包含于定义补偿器的公式中的参数^mp最优化。在参数^mp最优化之后，补偿器编号更新单元7更新补偿器编号m以改变补偿器的公式。

然后，以下参照图13来描述根据第二实施例的学习控制。在图13所示的这个流程图中，在图4A所示的流程图中的步骤S11被替代。除步骤S11外的其他步骤类似于图4A所示的那些步骤，因而在下文将参照图4A和4B所示的步骤描述那些类似的步骤。在图13中，由虚线14包围的部分表示由补偿器参数寻找单元14执行的控制过程，而由虚线7包围的部分表示由补偿器编号更新单元7执行的控制过程。

如同第一实施例一样，在由评价值判断单元3给出的评价结果q_k获得了改进的情况下，处理流程从步骤S7进入步骤S8至S10。在这种情况下，因为在补偿器编号m和参数p方面没有发生改变，所以在步骤S12中选择前一操作所使用的同一补偿器(见图4A)。另一方面，在评价结果q_k发生退化的情况下，处理流程从步骤S7进入图13所示的步骤S11-1。

在步骤S11-1中，确定寻找方向d是正的还是负的。在寻找方向d为正的情况下，处理流程进入步骤S11-2，但是在寻找方向d为负的情况下，处理流程进入步骤S11-5。注意，寻找方向d最初设定为正。

在步骤S11-2中，确定参数^mp的值是否在预定的范围(寻找范围)之内。在参数^mp处于寻找范围内的情况下，处理流程进入步骤S11-3。但是，在参数^mp不处于寻找范围内的情况下，处理流程进入步骤S11-4。注意，预定的寻找范围由为每个参数所预定的上限和下限来规定。

在步骤S11-3中，为参数^mp预定的步长Δ^mp被加到参数^mp，由此在正方向上更新参数^mp。其后，在步骤S12及后续步骤中，使用当前选定的其参数^mp在正方向上更新的补偿器计算指令轨道u_k+1。

另一方面，当在步骤S11-2中确定参数^mp不处于寻找范围内的情况下，处理流程进入步骤S11-4，在该步骤S11-4中寻找方向改变为负的(d改变为负)，并且处理流程返回步骤S11-1。因为寻找方向现在是负的，所以处理流程进入步骤S11-5，并且确定参数^mp的值是否处于预定的寻找范围内。在参数^mp处于寻找范围内的情况下，处理流程进入步骤S11-6，在该步骤S11-6中为参数^mp所预定的步长Δ^mp被从参数^mp中减去，由此在负方向上更新参数^mp。其后，在步骤S12及后续步骤中，使用当前选定的其参数^mp被在负方向上更新的补偿器计算指令轨道u_k+1。

当在步骤S11-5中确定参数^mp不处于寻找范围内的情况下，处理流程进入步骤S11-7，在该步骤S11-7中确定是否对于全部参数都已经完成了参数寻找过程。在寻找尚未对全部参数都完成的情况下，处理流程进入步骤S11-8，在该步骤S11-8中其值将被寻找的参数被改变并且寻找方向d最初设定为正。其后，处理流程返回步骤S11-1以开始为另一个参数寻找最优值。

在步骤S11-7确定已经对全部参数都完成了寻找的情况下，处理流程进入步骤S11-9。在这种情况下，针对包含于定义第m补偿器的公式中的全部参数寻找都已完成，并且从而在步骤S11-9中，补偿器编号m被更新(m＝m+1)并且处理流程进入步骤S11-10。在步骤S11-10中，确定是否全部的补偿器都已被选择。在尚未选择全部补偿器的情况下，处理流程返回步骤S11-1，以开始为另一个新选择的补偿器寻找合适的参数值。在全部补偿器都已被选择(并且针对全部补偿器寻找都已经完成)的情况下，处理流程进入步骤S11-11，在该步骤S11-11中，补偿器编号返回到初始值(m＝1)。其后，处理流程返回步骤S11-1以从第一补偿器开始再次寻找合适的参数值。

通过按照以上所描述的方式执行根据图13所示的流程图的过程，第m补偿器的补偿器编号m和参数^mp被找到，并且合适的值被确定。使用在该寻找中确定的补偿器编号m和参数^mp来依次计算轨道校正。

除了以上所描述的步骤之外，其他操作按照与第一实施例类似的方式来执行，并且从而省略更多的描述。

注意，当使用所选择的补偿器操作机器人时，即使评价值E_k发生退化，也不会出现问题。如上所述，当评价值E_k发生退化时，补偿器自动改变为另一个补偿器，并且在不考虑稳定性的情况下针对不同的参数执行寻找。

在第二实施例中，如上所述，即使包含于定义在学习控制操作中使用的补偿器的公式中的参数不是已知的，参数值也会被自动调整以改进对轨道误差的评价值。

第三实施例

然后，以下参照图14来描述作为第一实施例的部分修改的第三实施例。第三实施例不同于第一实施例之处在于，最佳指令轨道u_best按照与根据第一实施例的方式不同的方式来存储。在第三实施例中，前一轨道校正被存储。当退化发生时，指令轨道被返回到前一指令轨道，并被用作最佳指令轨道u_best。结果，最佳指令轨道u_best得以被有效地存储。

在第三实施例中，如图14所示，提供了前一轨道校正存储单元12和最佳指令轨道计算单元13。前一轨道校正存储单元12存储轨道校正Δu_k。在获得了评价结果q_k的改进的情况下，最佳指令轨道计算单元13采用前一指令轨道u_k作为最佳指令轨道u_best，如同在第一实施例中那样(u_best＝u_k)。在退化发生于评价结果q_k中的情况下，最佳指令轨道计算单元13从前一指令轨道u_k中减去前一轨道校正Δu_k，并且将该结果用作最佳指令轨道u_best(u_best＝u_k-Δu_k)。因为导致退化的轨道校正Δu_k被减去，所以结果获得了最佳指令轨道u_best。

除了以上所描述的步骤之外，其他操作按照与第一实施例类似的方式来执行，并且从而省略更多的描述。在第三实施例中，通过存储前一轨道校正，允许获得与通过存储最佳指令轨道所获得的效果相同的效果。

第四实施例

然后，以下参照图15A和15B描述作为第一实施例的部分修改的第四实施例。该第四实施例不同于第一实施例之处在于，评价值的上限被预先确定。如果评价值变得大于该上限，则重新开始学习控制操作。

如图15A和15B所示，除了图4A和4B的流程图的步骤之外，根据第四实施例的操作流程还包括在轨道误差e_k于步骤S5中被计算以及评价值E_k于步骤S6中被计算之后执行的步骤S20至S22。在步骤S20中，确定学习迭代次数k是否大于预定的最大迭代次数k_max。在学习迭代次数k不大于最大迭代次数k_max的情况下，学习正在进行，并从而处理流程直接进入步骤S7。但是，在学习迭代次数k大于最大迭代次数k_max的情况下，学习处于停止状态，并且从而处理流程进入步骤S21。

在步骤S21中，确定评价值E_k是否已经超过了上限E_max。在评价值E_k尚未超过上限E_max的情况下，处理流程进入步骤S4，同时保持其中学习被停止的状态。在步骤S4中，继续进行使用最佳指令轨道u_best的驱动，如同在第一实施例中那样。

另一方面，在评价值E_k已经超过了上限E_max的情况下，则为了重新开始学习，处理流程进入步骤S22。在步骤S22中，通过使最大学习迭代次数k_max增加预先确定的例如10的迭代增量数Δk(k_max＝k_max+Δk)更新最大学习迭代次数k_max(学习重新开始步骤)。因此，为了重新开始学习，处理流程进入步骤S7。步骤S7及后续步骤与根据第一实施例的那些步骤类似，并且从而省略关于它们的更多描述。

在第三实施例中，如上所述，即使在学习被停止的状态中仍在步骤S21中监测评价值E_k。如果发生评价值E_k的退化，则在步骤S22中更新学习迭代次数，并且重新开始学习。当机器人手臂的特性由于环境(例如，温度)变化而发生改变时，轨道误差e_k有可能会变差。在轨道误差e_k变差的情况下，学习自动重新开始以减小误差。

在以上所描述的实施例中，以示例但不限制的方式，假定旋转关节被驱动，但是也可以按照类似的方式来驱动移动关节。

在以上所描述的实施例中，以示例但不限制的方式，假定关节的目标轨道x被给定，并且其实际轨道y被测量。目标轨道x可以是机器人的手部顶端的位置/姿态的目标轨道，并且实际轨道y可以是其实际轨道。在这种情况下，伺服控制单元230接收指示机器人手臂的手部顶端的位置/姿态的输入，并且计算各个关节的角度，也就是，伺服控制单元230解决逆运动学问题并且根据所获得的解决方案操作机器人手臂。在这种情况下，通过根据所获得的各个关节的角度计算机器人的手部顶端的位置/姿态从而获得操作结果，也就是，逆运动学问题被解决，并且所产生的解决方案被输出。

在以上所描述的实施例中，以示例但不限制的方式，假定机器人是6关节的机器人。但是，对于关节的数量没有特别的限定，并且每个关节可以是旋转关节或移动关节。

在以上所描述的实施例中，以示例但不限制的方式，假定目标轨道和实际轨道均由时间序列位置向量数据表示。但是，机器人手臂的轨道可以不是通过位置而是通过速度给出。在任何情况下，都可以按照类似的方式执行学习控制。在机器人手臂的轨道由速度给出的情况下，伺服控制单元230接收指示速度的输入，并且输出所获得的速度作为操作结果。此外，作为替代地，目标轨道可以不是由位置而是由时间序列加速度数据给出。同样地，在这种情况下，可以按照类似的方式执行学习控制。

尽管在第一、第三及第四实施例中没有给出有关补偿器的参数的寻找的描述，但是可以提供具有不同参数的多个补偿器并且在必要时可以选择补偿器编号，由此使得可以实现与通过参数的寻找所实现的效果类似的效果。

其他实施例

本发明的实施例还能够通过读出并执行记录于存储介质(例如，非暂时的计算机可读存储介质)上的计算机可执行指令以执行本发明的一种或多种上述实施例的功能的***或装置的计算机来实现，以及通过由***或装置的计算机通过例如从存储介质读出并执行计算机可执行指令以执行一种或多种上述实施例的功能来执行的方法来实现。计算机可以包含中央处理单元(CPU)、微处理单元(MPU)或其他电路中的一项或多项，并且可以包含单独计算机或单独计算机处理器的网络。计算机可执行指令可以由例如网络或存储介质提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算***的存储、光盘(诸如压缩盘(CD)、数字通用盘(DVD)或蓝光光盘(BD)^TM)、闪存器件、存储卡等中的一项或多项。

其他实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给***或装置，该***或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

在本实施例中，当轨道误差的评价值变得比存储于存储单元内的评价值好时，在这种情况下使用的指令轨道被存储，并从而所存储的指令轨道被更新为更好的指令轨道，这防止了指令轨道退化。另一方面，当轨道误差的评价值变差时，在这种情况下给出的指令轨道不被存储，并且计算指令轨道的校正量的补偿器改变为另一个补偿器。因而，可以通过按顺序改变补偿器来处理各种不同的控制频带(诸如低频带、高频带等)，并从而可以获得更好的学习效果。因而，可以通过反复地执行学习控制来改进轨道误差，并且可以最终获得小的轨道误差。

例如，如果使用从反馈控制理论的视角来看不稳定的补偿器反复执行学习，则振荡有可能出现于作为学习结果获得的指令轨道中，也就是，学习控制操作有可能不稳定。在本实施例中，相比之下，当评价值变差时，补偿器改变为另一个补偿器并从而可以防止学习控制操作变得不稳定。因此，允许在不考虑稳定性的情况下从各种补偿器中选择补偿器。

例如，当轨道误差由于噪声或者由于某些其他原因而突然变得比前一轨道误差差时，如果在这种情况下给出的指令轨道被存储并且学习控制操作继续进行，则学习控制操作从其中指令轨道变差的状态开始继续进行，并且从而在学习的进程中出现延迟。但是，在以上所描述的实施例中，退化的指令轨道没有用于下次学习中，而是学习控制操作总是使用好的指令轨道来继续。因此，即使评价值中出现退化也不影响下次学习，并且可以防止发生因评价值退化所致的学习速度降低。

而且，在以上所描述的实施例中，补偿器可以按照例如以下方式来修改：高增益补偿器首先被选择以实现快速收敛，尽管高增益补偿器可能具有不稳定性，并且当评价值变差时，低增益补偿器被选择。这使得可以增加学习速度。

虽然已经参照示例性的实施例描述本发明，但是应当理解，本发明并不限定于所公开的示例性实施例。下面的权利要求书的范围应当被给予最广泛的解释，以包含所有此类修改以及等效的结构和功能。

Claims

1.一种机器人控制方法，能够通过控制单元控制机器人以便按照指令轨道驱动机器人、检测所述机器人被沿其驱动的实际轨道，并且通过基于在所述实际轨道与目标轨道之间的轨道误差的学习来控制所述指令轨道，所述方法包括：

由所述控制单元针对所述轨道误差计算评价值；并且

由所述控制单元通过学习来控制所述指令轨道，

所述通过学习来控制包括

由所述控制单元存储好的状态，使得在计算出的评价值比存储于存储单元内的评价值好的情况下，存储于所述存储单元内的所述评价值由所述计算出的评价值更新并被存储在所述存储单元中，并且存储于所述存储单元内的所述指令轨道由所述轨道误差被评价时给出的所述指令轨道更新，

由所述控制单元改变补偿器，使得在所述计算出的评价值比存储于所述存储单元中的所述评价值差的情况下，当前选定的补偿器被改变为另一个补偿器，所述另一个补偿器包含于被配置为根据所述轨道误差计算所述指令轨道的校正量的多个补偿器中并且被配置为按照与当前选定的补偿器用以计算校正量的方式不同的方式来计算校正量，以及

由所述控制单元计算下次操作中的指令轨道，使得使用所述选定的补偿器计算针对存储于所述存储单元内的所述指令轨道的校正量，并且从所述计算出的校正量以及存储于所述存储单元中的所述指令轨道计算所述下次操作中的所述指令轨道。

2.根据权利要求1所述的机器人控制方法，其中在由所述控制单元改变所述补偿器时，当所述当前选定的补偿器被改变为被配置为按照与当前选定的补偿器用以计算所述校正量的方式不同的方式计算所述校正量的另一个补偿器时，通过改变定义所述补偿器的公式以及改变包含于所述公式内的一个或多个参数以使得参数值在预定的范围之内改变来改变所述补偿器，并且在所述参数值的改变已经针对所有参数都执行过的情况下，所述公式被改变。

3.根据权利要求1所述的机器人控制方法，其中

所述多个补偿器至少包括比例补偿器、低通滤波器和时间提前补偿器，并且

在由所述控制单元改变所述补偿器时，所述比例补偿器在所述学习控制开始处被选定，并且当所述补偿器被改变为被配置为按照与所述比例补偿器用以计算所述校正量的方式不同的方式来计算所述校正量的另一个补偿器时，所述补偿器被改变为通过将所述低通滤波器和所述时间提前补偿器串联实现的补偿器，并且所述低通滤波器的截止频率被设定为低于所述机器人的固有振动频率并且所述时间提前补偿器的提前时间被设定为短于所述机器人的固有振动的振动周期。

4.根据权利要求1所述的机器人控制方法，还包括：

由所述控制单元对所执行的学习控制的迭代次数进行计数；并且

由所述控制单元停止所述学习控制，使得在所计数的所执行的学习控制的迭代次数超过最大的迭代次数的情况下，所述学习控制被停止并且所述机器人被控制以根据存储于所述存储单元内的所述指令轨道被驱动。

5.根据权利要求4所述的机器人控制方法，还包括：

由所述控制单元重新开始所述学习控制，使得在所述计算出的评价值超过预定的上限的情况下，所述最大迭代次数增加并且所述学习控制重新开始。

6.一种机器人控制***，能够通过控制单元控制机器人以便按照指令轨道驱动机器人、检测所述机器人被沿其驱动的实际轨道，并且通过基于在所述实际轨道与目标轨道之间的轨道误差的学习来控制所述指令轨道，所述***包括：

用于针对所述轨道误差计算评价值的装置；以及

用于通过学习来控制所述指令轨道的装置，

所述通过学习来控制包括

用于存储好的状态，使得在计算出的评价值比存储于存储单元内的评价值好的情况下，存储于所述存储单元内的所述评价值由所述计算出的评价值更新并被存储在所述存储单元中，并且存储于所述存储单元内的所述指令轨道由所述轨道误差被评价时给出的所述指令轨道更新的装置，

用于改变补偿器，使得在所述计算出的评价值比存储于所述存储单元中的所述评价值差的情况下，当前选定的补偿器被改变为另一个补偿器的装置，所述另一个补偿器包含于被配置为根据所述轨道误差计算所述指令轨道的校正量的多个补偿器中并且被配置为按照与当前选定的补偿器用以计算校正量的方式不同的方式来计算校正量，以及

用于计算下次操作中的指令轨道，使得使用所述选定的补偿器计算针对存储于所述存储单元内的所述指令轨道的校正量，并且从所述计算出的校正量以及存储于所述存储单元中的所述指令轨道计算所述下次操作中的所述指令轨道的装置。

7.一种机器人控制装置，能够控制机器人以按照指令轨道驱动机器人，检测所述机器人被沿其驱动的实际轨道，并且通过基于在所述实际轨道与目标轨道之间的轨道误差的学习控制所述指令轨道，所述装置包含：

控制单元，被配置为计算针对所述轨道误差的评价值并且通过学习执行所述控制；以及

能够存储所述评价值和所述指令轨道的存储单元，

所述控制单元被配置为通过学习执行所述控制，使得

在所计算出的评价值比存储于所述存储单元内的所述评价值好的情况下，存储于所述存储单元内的所述评价值由所述计算出的评价值更新并且被存储在所述存储单元中，并且存储于所述存储单元内的所述指令轨道由所述轨道误差被评价时给出的所述指令轨道更新，

在所述计算出的评价值比存储于所述存储单元内的所述评价值差的情况下，从被配置为根据所述轨道误差计算所述指令轨道的校正量的多个补偿器中选出的补偿器被改变为被配置为按照与当前选定的补偿器用以计算校正量的方式不同的方式计算校正量的另一个补偿器，

使用所述当前选定的补偿器计算存储于所述存储单元中的所述指令轨道的校正量，以及

根据所述计算出的校正量以及存储于所述存储单元内的所述指令轨道计算所述下次操作中的指令轨道。