CN110355751A

CN110355751A - 控制装置和机器学习装置

Info

Publication number: CN110355751A
Application number: CN201910231497.0A
Authority: CN
Inventors: 林晃市郎
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-03-26
Filing date: 2019-03-26
Publication date: 2019-10-22
Anticipated expiration: 2039-03-26
Also published as: JP2019166626A; US20190291271A1; JP6781183B2; US11235461B2; DE102019001948B4; CN110355751B; DE102019001948A1

Abstract

本发明提供一种控制装置和机器学习装置。该机器学习装置具备能够根据机器人的目标轨迹推定应该对该机器人的各轴指令的指令数据的通用的控制装置，学习与机器人的轨迹数据对应的应该对该机器人具备的轴进行指令的指令数据的推定。机器学习装置具备：轴角度变换部，其根据轨迹数据，计算出机器人所具备的轴的轴角度的变化量；状态观测部，其观测与机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；标签数据取得部，其取得与针对机器人所具备的轴的指令数据相关的轴角度指令数据作为标签数据；学习部，其使用状态变量和标签数据，将机器人所具备的轴的轴角度的变化量与针对该轴的指令数据关联起来进行学习。

Description

控制装置和机器学习装置

技术领域

本发明涉及控制装置和机器学习装置，具体涉及进行高精度轨迹指令数据的生成的控制装置和机器学习装置。

背景技术

在通过机器人进行激光加工、密封、电弧焊接等时，机器人TCP(Tool CenterPoint：刀具中央点)的轨迹精度是重要的。在控制机器人时，控制驱动机器人具备的各关节的电动机，使得机器人TCP沿着所设想的目标轨迹。但是，由于机器人的关节所具备的减速机、机械臂自身的刚性不足、各关节轴的反冲(backlash)等的原因，有时机器人TCP从预先设想的目标轨迹偏离。

此外，作为改善机器人TCP的轨迹精度的现有技术，例如在日本特开2006-110702号公报、日本特开2004-322224号公报、日本特开2017-127964号公报中，公开了以下的技术，即根据通过传感器、模拟器等掌握的机器人动作中的机器人TCP的轨迹，反复进行学习控制，重现目标轨迹。

如现有技术所示那样，从安装在机器人的传感器得到加速度、角速度、力等物理量。为了根据测量出的物理量求出机器人TCP的轨迹，需要计算积分等。另外，传感值也有时包含噪声，因此计算的位置精度低，通过反复学习改善轨迹精度的效果也小。另外，作为直接测量机器人的前端位置的装置，有激光***等，但在为了记录机器人TCP的轨迹而使用这样的装置的情况下，在每次变更机器人的动作进行学习时都设置测量装置，存在非常繁琐的问题。

发明内容

因此，本发明的目的在于：提供一种通用的控制装置和机器学习装置，其能够根据机器人的目标轨迹，推定应该向该机器人的各轴进行指令的指令数据。

本发明的控制装置使用直接测量机器人的动作轨迹而作为位置数据的测量装置、向机器人指令的指令数据，来实现机器人TCP的轨迹精度的改善。将由位置测量装置测量出的机器人TCP的动作轨迹的数据(以下称为实测轨迹数据)、机器人的控制所使用的指令数据作为学习用数据组而进行机器学习，由此，如果输入了理想的轨迹数据，则制作输出用于重现该轨迹的指令数据的***。

另外，本发明的一个实施例是一种控制装置，其根据机器人所具备的机械臂的前端位置的轨迹数据，推定应该对该机器人所具备的轴进行指令的指令数据，该控制装置具备：机器学习装置，其学习与上述轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，并且具备：轴角度变换部，其根据上述轨迹数据，计算出上述机器人所具备的轴的轴角度的变化量；状态观测部，其观测上述轴角度变换部计算出的与上述机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；标签数据取得部，其取得与针对上述机器人所具备的轴的指令数据相关的轴角度指令数据作为标签数据；学习部，其使用上述状态变量和上述标签数据，将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习。

本发明的另一个实施例是一种控制装置，其根据机器人所具备的机械臂的前端位置的轨迹数据，推定应该对该机器人所具备的轴进行指令的指令数据，该控制装置具备：机器学习装置，其学习与上述轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，并且具备：轴角度变换部，其根据上述轨迹数据，计算出上述机器人所具备的轴的轴角度的变化量；状态观测部，其观测上述轴角度变换部计算出的与上述机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；学习部，其将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习；推定结果输出部，其根据上述状态观测部观测到的状态变量、上述学习部的学习结果，推定并输出针对上述机器人所具备的轴的指令数据。

本发明的另一个实施例是一种机器学习装置，其学习与机器人所具备的机械臂的前端位置的轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，具备：轴角度变换部，其根据上述轨迹数据，计算出上述机器人所具备的轴的轴角度的变化量；状态观测部，其观测上述轴角度变换部计算出的与上述机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；标签数据取得部，其取得与针对上述机器人所具备的轴的指令数据相关的轴角度指令数据作为标签数据；学习部，其使用上述状态变量和上述标签数据，将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习。

本发明的另一个实施例是一种机器学习装置，其学习与机器人所具备的机械臂的前端位置的轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，具备：轴角度变换部，其根据上述轨迹数据，计算出上述机器人所具备的轴的轴角度的变化量；状态观测部，其观测上述轴角度变换部计算出的与上述机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；学习部，其将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习；推定结果输出部，其根据上述状态观测部观测到的状态变量、上述学习部的学习结果，推定并输出针对上述机器人所具备的轴的指令数据。

根据本发明，能够根据机器人的目标轨迹，推定应该向该机器人的各轴指令的指令数据，因此能够通过学习各种机器人的移动来通用地推定机器人的指令数据。

附图说明

根据参照附图的以下的实施例的说明，能够了解本发明的上述以及其他目的和特征。

图1是一个实施方式的控制装置的概要硬件结构图。

图2是一个实施方式的控制装置的概要功能框图。

图3是表示轨迹数据的例子的图。

图4是表示学习部110的输入数据和输出数据的例子的图。

图5是表示控制装置的一个形式的概要功能框图。

图6是表示组装了控制装置的***的一个形式的概要功能框图。

具体实施方式

以下，与附图一起说明本发明的实施方式。

图1是第一实施方式的控制装置的主要部分的概要硬件结构图。控制装置1例如能够作为控制机器人的控制装置来安装。另外，控制装置1能够作为与控制机器人的控制装置一起设置的计算机、经由网络与该控制装置连接的单元计算机、主机计算机、云服务器等计算机来安装。图1表示作为控制制造机械的控制装置而安装控制装置1的情况的例子。

本实施方式的控制装置1具备的CPU11是整体地控制控制装置1的处理器。CPU11经由总线20读出存储在ROM12中的***/程序，依照该***/程序控制控制装置1整体。在RAM13中，暂时存储临时的计算数据、显示数据、操作者经由未图示的输入部输入的各种数据等。

非易失性存储器14例如构成为被未图示的电池备份等而即使控制装置1的电源切断也保持存储状态的存储器。在非易失性存储器14中，存储有经由接口19读入的控制程序、通过操作盘71示教的示教位置、从机器人及其***设备、轨迹测量装置3取得的各种数据等。可以在利用时将存储在非易失性存储器14中的程序加载到RAM13。另外，在ROM12中，预先写入有控制装置1的动作所需要的各种***/程序(包括用于控制与机器学习装置100的交换的***/程序)。

轨迹测量装置3是激光***等将目标物的动作轨迹作为位置数据而直接测量的测量装置，在本实施方式中，在机器学习装置100进行学习时，作为轨迹测量点而测量安装在机器人的机械臂前端的测量对象物，由此测量机器人的机械臂前端的位置数据。CPU11经由接口18取得该位置数据作为轨迹数据。

用于控制机器人具备的轴的轴控制电路30接受来自CPU11的轴的移动指令量，向伺服放大器40输出轴的指令。伺服放大器40接受该指令，驱动使机器人具备的轴移动的伺服电动机50。轴的伺服电动机50内置有位置/速度检测器，将来自该位置/速度检测器的位置/速度反馈信号反馈到轴控制电路30，进行位置/速度的反馈控制。

此外，在图1的硬件结构图中，轴控制电路30、伺服放大器40、伺服电动机50仅示出了一个，但实际上准备了成为控制对象的机器人所具备的轴的数量。

接口21是用于连接控制装置1和机器学习装置100的接口。机器学习装置100具备统一控制机器学习装置100整体的处理器101、存储了***/程序等的ROM102、用于进行与机器学习相关的处理中的临时存储的RAM103、以及用于存储学习模型等的非易失性存储器104。机器学习装置100能够观测经由接口21可通过控制装置1取得的各信息。另外，控制装置1根据从机器学习装置100输出的值，进行机器人的控制。

图2是第一实施方式的控制装置1和机器学习装置100的概要功能框图。通过由图1所示的控制装置1具备的CPU11、以及机器学习装置100的处理器101执行各个***/程序，控制控制装置1和机器学习装置100的各部的动作，来实现图2所示的各功能模块。

本实施方式的控制装置1具备：控制部34，其读出存储在非易失性存储器14中的控制程序的程序块、示教位置，控制机器人2及其周边装置。

控制部34是以下的控制单元，即读出存储在非易失性存储器14中的控制程序的程序块、示教位置(或在RAM13中展开的控制程序的程序块、示教位置)，根据该程序块的指令控制机器人2。控制部34具有用于控制机器人2的各部使得进行以下的动作等的普通的功能：在控制程序的程序块指示机器人2具备的各轴(关节)的移动的情况下，在每个控制周期，向驱动该轴的伺服电动机50输出作为轴角度的变化量的指令数据，在控制程序的程序块指示机器人2具备的未图示的周边装置的动作的情况下，向该周边装置输出动作指令。

另一方面，控制装置1具备的机器学习装置100包括用于通过所谓的机器学习自己学习与机器人2的机械臂前端部的轨迹数据(变换所得的各轴的轴角度的变化量)对应的机器人2的各轴角度指令数据的推定的软件(学习算法)和硬件(处理器101等)。控制装置1具备的机器学习装置100进行学习的内容相当于表示机器人2的机械臂前端部的轨迹数据(变换所得的各轴的轴角度的变化量)和机器人2的各轴角度指令数据的相关性的模型构造。

如在图2中用功能模块所示的那样，控制装置1具备的机器学习装置100具备：轴角度变换部105，其根据轨迹测量装置3测量所得的轨迹数据所包含的机器人2的机械臂前端部的位置，求出机器人2的各轴的轴角度的变化量；状态观测部106，其观测包含轴角度变换部105进行变换后的表示机器人2的各轴的轴角度的轴角度数据S1的数据，作为表示环境的当前状态的状态变量S；标签(lable)数据取得部108，其取得包含表示应该向机器人2的各轴指示的轴角度的变化量的轴角度指令数据L1的标签数据L；学习部110，其使用状态变量S和标签数据L，将向机器人2指示的各轴的轴角度的变化量与从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量关联起来进行学习；推定结果输出部122，其输出表示使用学习部110的已学习模型从机器人2的机械臂前端部的轨迹数据(变换所得的各轴的轴角度的变化量)推定出的应该向机器人2的各轴输出的轴角度的变化量的轴角度指令数据。

轴角度变换部105是以下的功能单元，即根据轨迹测量装置3测量安装在机器人2的机械臂前端部的测量对象物所得的轨迹数据所包含的机器人2的机械臂前端部的位置，变换为机器人2具备的各轴的轴角度的变化量。轴角度变换部105根据机器人2的机械臂前端部的位置和构成机器人2的各机械臂的长度等，通过使用逆向运动学等公知的方法，求出机器人2具备的各轴的轴角度(位置)，根据求出的各轴的轴角度，计算各轴的轴角度的变化量。

图3是表示机器人2的机械臂前端部的轨迹数据的例子的图。可以将机器人2的机械臂前端部的轨迹数据定义为轨迹测量装置3在每个预定周期测量安装在机器人2的机械臂前端部的测量对象物的位置所得的(预定的坐标系、例如机器人坐标系的)位置数据的序列。轴角度变换部105根据轨迹数据所包含的每个预定周期的测量对象物的各个位置数据，求出各周期中的各轴的轴角度的变化量。例如，在得到图3所示的轨迹数据时，轴角度变换部105顺序地求出测量对象物从P₀向P₁移动时的各轴的轴速度的变化量Da₁、从P₁向P₂移动时的各轴的轴速度的变化量Da₂、……。

可以从轨迹测量装置3逐次地取得在轴角度变换部105求出轴角度的变化量时使用的轨迹数据，但也可以将轨迹测量装置3测量的轨迹数据暂时存储在非易失性存储器14等存储器中，在此后的学习中从该存储器取得。在这样的情况下，可以关联地存储时刻等，使得能够掌握存储在存储器上的轨迹数据(所包含的各位置数据)与从控制部34向机器人2输出的指令数据之间的对应关系(例如在测量对象物的位置位于P₁时从控制部34向机器人2的各轴输出指令数据C₁的情况下的位置数据P₁和指令数据Ca₁之间的对应关系)。

状态观测部106在学习部110进行学习时，从轴角度变换部105取得作为状态变量S的轴角度数据S1。另外，状态观测部106在使用学习部110的学习结果推定机器人2的各轴的轴角度指令数据时，从轴角度变换部105取得作为状态变量S的轴角度数据S1(Da：Da₁、Da₂、……)。

标签数据取得部108在学习部110进行学习时，作为标签数据L，取得与从控制部34向机器人2输出的各轴的轴角度指令数据相关的轴角度指令数据L1(Ca：Ca₁、Ca₂、……)。对于轴角度指令数据L1，例如既可以直接取得从控制部34向机器人2输出的各轴的轴角度指令数据，也可以将从控制部34向机器人2输出的各轴的轴角度指令数据暂时存储到非易失性存储器14等存储器中，在此后的学习中从该存储器取得。在这样的情况下，例如可以关联地存储时刻等，使得能够掌握存储在存储器上的指令数据和轨迹数据(所包含的各位置数据)之间的对应关系。此外，标签数据取得部108在学习部110进行学习时被利用，在学习部110完成学习后，没有必要成为机器学习装置100的必需的结构。

学习部110依照被统称为机器学习的任意的学习算法，学习与状态变量S(从机器人2的机械臂前端部的轨迹数据变换得到的表示各轴的轴角度的变化量的轴角度数据S1)对应的标签数据L(表示机器人2的各轴的轴角度指令数据的轴角度指令数据L1)。学习部110例如能够学习状态变量S所包含的轴角度数据S1与标签数据L所包含的轴角度指令数据L1之间的相关性。学习部110能够反复地执行基于包含状态变量S和标签数据L的数据集合的学习。

学习部110在最简单的结构的情况下，可以构成为学习轴角度数据S1所包含的一个各轴的轴角度的变化量Da和轴角度指令数据L1所包含的一个对各轴的指令数据Ca之间的关系。另外，学习部110可以构成为学习轴角度数据S1所包含的一连串(多个)各轴的轴角度的变化量(例如图3中的从P₀向P₁移动时的各轴的轴角度的变化量、从P₁向P₂移动时的各轴的轴角度的变化量、从P₂向P₃移动时的各轴的轴角度的变化量、……)与轴角度指令数据L1所包含的一连串(多个)对各轴的指令数据之间的关系。在后者的情况下，能够考虑到同时输入的一连串的各轴的轴角度的变化量的全部关系地推定各轴的轴角度指令数据，因此提高了作为推定结果的轴角度指令数据的精度。

图4表示出构成学习部110的机器学习器的输入数据和输出数据的例子。在图4中，构成为m＝1的情况相当于学习部110的最简单的结构的情况。

在学习部110的学习中，理想的是根据对多个机器人2分别得到的数据执行多个学习循环。通过反复进行这样的学习循环，学习部110自动地解释从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量(轴角度数据S1)与机器人2的各轴的轴角度指令数据(轴角度指令数据L1)之间的相关性。在学习算法的开始时，轴角度指令数据L1与轴角度数据S1的相关性实质上是未知的，但随着学习部110推进学习，逐渐解释轴角度指令数据L1与轴角度数据S1的关系，通过使用作为其结果得到的已学习模型，能够解释轴角度指令数据L1与轴角度数据S1的相关性。

此外，学习部110也可以构成为具备一个学习模型，但例如也可以准备与根据机器人2的构造、位置姿势(以及在机器人2的机械臂前端安装或把持的物品的重量)求出的惯性对应的不同的学习模型。在这样的情况下，制作基于惯性的值的多个划分，按照每个划分分别构筑不同的学习模型，选择与根据机器人2的构造、位置姿势(以及在机器人2的机械臂前端安装或把持的物品的重量)计算出的惯性对应的学习模型，使用该学习模型进行学习和推定即可。由此，能够个别地构筑分别反映出因惯性的不同而造成的机器人的动作的不同的学习模型，因此能够减小已学习模型的构筑所花费的成本(学习模型的收敛所花费的时间等)、已学习模型的大小。

推定结果输出部122根据学习部110学习的结果(已学习模型)，根据机器人2的机械臂前端部的轨迹数据(变换所得的各轴的轴角度的变化量)，推定机器人2的各轴的轴角度指令数据，输出所推定出的机器人2的各轴的轴角度指令数据。更具体地说，学习部110与从机器人2的机械臂前端部的轨迹数据变换所得的表示各轴的轴角度的变化量的轴角度数据S1关联地进行学习所得的与机器人2的各轴的轴角度指令数据相关的轴角度指令数据L1表示控制部34应该向机器人2的各轴输出的指令数据，在学习部110使用已学习模型进行的推定中输出该值。然后，推定结果输出部122根据该输出的值，推定为了实现机器人2的前端部应该描绘出的轨迹(目标轨迹)而应该向机器人2的各轴输出的指令，并向控制部34输出该推定结果。

在机器学习装置100推定与机器人2的目标轨迹数据对应的应该从控制部34向机器人2输出的轴角度指令数据时，使用推定结果输出部122。更具体地说，如果从操作盘71等的外部、或通过控制程序，向机器学习装置100输入机器人2的前端应该描绘的目标轨迹数据，则轴角度变换部105根据输入的目标轨迹数据，计算机器人2具备的各轴的轴角度的变化量，将计算出的机器人2具备的各轴的轴角度的变化量设为轴角度数据S1，推定结果输出部122使用学习部110的学习结果，推定应该向机器人2的各轴指示的轴角度的变化量即轴角度指令数据L1。

在具有上述结构的机器学习装置100中，学习部110执行的学习算法并没有特别限定，作为机器学习能够采用公知的学习算法。图5是图2所示的控制装置1的其他实施例，表示作为学习算法的其他例子具备执行监督学习的学习部110的结构。监督学习是以下的方法，即提供输入和与之对应的输出的已知的数据集(set)(称为监督数据)，从这些监督数据识别出暗示输入和输出的相关性的特征，由此学习用于推定与新输入对应的所需要的输出的相关性模型。

在图3所示的控制装置1具备的机器学习装置100中，学习部110具备：误差计算部112，其计算根据从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量推定机器人2的各轴的轴角度指令数据的相关性模型M与根据从过去取得的机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量以及从实际的机器人2的各轴角度指令数据的结果得到的监督数据T识别的相关性特征之间的误差E；模型更新部114，其以缩小误差E的方式更新相关性模型M。学习部110通过由模型更新部114反复进行相关性模型M的更新，来学习基于从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量进行的机器人2的各轴角度指令数据的推定。

例如，对状态变量S和标签数据L之间的相关性进行简化而(例如用一次函数)表现相关性模型M的初始值，在监督学习的开始之前，提供给学习部110。监督数据T可以利用在本发明中如上述那样从过去取得的机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量数据、实际的机器人2的各轴角度指令数据的数据，在控制装置1运行时随时提供给学习部110。误差计算部112根据随时提供给学习部110的监督数据T，识别暗示从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量与安装在该识别代码的该机器人2上的机器人2的各轴角度指令数据之间的相关性的相关性特征，求出该相关性特征和与当前状态的状态变量S和标签数据L对应的相关性模型M之间的误差E。模型更新部114例如依照预先确定的更新规则，向误差E变小的方向更新相关性模型M。

在下一个学习循环中，误差计算部112依照更新后的相关性模型M，使用状态变量S进行机器人2的各轴的轴角度指令数据的推定，求出该推定的结果与实际取得的标签数据L之间的误差E，由模型更新部114再次更新相关性模型M。这样，未知的环境的当前状态和与之对应的推定之间的相关性逐渐变得清楚。

在进行上述监督学习时，可以使用神经网络。作为神经网络，可以使用具备输入层、中间层、输出层的三层的神经网络，但也可以构成为使用利用了成为三层以上的层的神经网络的所谓深度学习的方法，由此进行更高效的学习和推定。

另外，也可以使用考虑到过去的输入地学习和推定时序地输入的数据的循环神经网络(recurrent neural network)。在使用循环神经网络的情况下，构成学习部110的机器学习器在构成为学习轴角度数据S1所包含的一个各轴的轴角度的变化量Da和轴角度指令数据L1所包含的一个对各轴的指令数据Ca之间的关系的情况下，也能够进行考虑到过去的机器人2的移动的序列的学习和推定。

上述机器学习装置100的结构可以记载为由处理器101分别执行的机器学习方法(或软件)。该机器学习方法使用从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量来学习机器人2的各轴角度指令数据的推定，该机器学习方法包括：处理器101观测从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量(轴角度数据S1)，作为表示当前状态的状态变量S的步骤；取得机器人2的各轴的轴角度指令数据(轴角度指令数据L1)作为标签数据L的步骤；使用状态变量S和标签数据L，将轴角度数据S1和机器人2的各轴的轴角度指令数据关联起来进行学习的步骤。

能够将通过机器学习装置100的学习部110学习所得的已学习模型利用为与机器学习相关的软件的一部分即程序模块。可以在具备CPU、GPU等处理器和存储器的计算机中使用本发明的已学习模型。更具体地说，计算机的处理器如下这样动作，即依照来自存储在存储器中的已学习模型的指令，将从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量作为输入进行运算，根据运算结果输出机器人2的各轴的轴角度指令数据的推定结果。本发明的已学习模型能够经由外部存储介质、网络等复制到其他计算机而利用。

另外，在将本发明的已学习模型复制到其他计算机而在新环境中利用时，也可以根据在该环境中得到的新状态变量、标签数据，对该已学习模型进行进一步的学习。在这样的情况下，能够得到从该环境下的已学习模型派生出的已学习模型(以下称为派生模型)。本发明的派生模型在根据从机器人2的机械臂前端部的轨迹数据变换所得的各轴的轴角度的变化量输出机器人2的各轴的轴角度指令数据的推定结果这一点上，与原来的已学习模型相同，但在输出比原来的已学习模型更适合于新的环境的结果这一点上与原来的已学习模型不同。该派生模型还能够经由外部存储介质、网络等复制到其他计算机而利用。

并且，也能够使用针对向组装了本发明的已学习模型的机器学习装置的输入得到的输出，在其他机器学习装置中制作通过从1开始进行学习所得到的已学习模型(以下称为蒸馏模型)，并对此进行利用(将这样的学习步骤称为蒸馏)。在蒸馏中，将原来的已学习模型称为训练模型，将新制作的蒸馏模型称为学生模型。一般，蒸馏模型的大小比原来的已学习模型小，但仍然产生与原来的已学习模型同等的正确度，因此更适合于经由外部存储介质、网络等向其他计算机发布。

图6表示具备控制装置1的一个实施方式的***170。***170具备作为单元计算机、主机计算机、云服务器等计算机的一部分而实现的至少一台控制装置1、多个机器人2(具备它的制造机械)、将控制装置1和机器人2相互连接起来的有线/无线的网络172。

在具有上述结构的***170中，具备机器学习装置100的控制装置1能够使用学习部110的学习结果，自动并且正确地推定与机器人2的机械臂前端部的轨迹数据对应的机器人2的各轴的轴角度指令数据。另外，可以构成为控制装置1的机器学习装置100根据针对多个机器人2分别得到的状态变量S和标签数据L1，学习对全部机器人2通用的机器人2的各轴的轴角度指令数据的推定，并在全部机器人2中利用该学习结果。因此，根据***170，能够将更多样的数据集合(包括状态变量S和标签数据L)作为输入，提高机器人2的各轴的轴角度指令数据的推定的学习的速度、可靠性。

以上，说明了本发明的实施方式，但本发明并不只限于上述实施方式的例子，通过施加适当的变更，能够以各种形式实施。

例如，机器学习装置100执行的学习算法、计算算法、控制装置1执行的算法等并不限于上述实施例，能够采用各种算法。

另外，在上述实施方式中，将控制装置1和机器学习装置100说明为具有不同的CPU的装置，但也可以通过控制装置1具备的CPU11、存储在ROM12中的***/程序来实现机器学习装置100。

以上，说明了本发明的实施方式，但本发明并不只限于上述实施方式的例子，通过施加适当的变更，能够以其他形式实施。

Claims

1.一种控制装置，其根据机器人所具备的机械臂的前端位置的轨迹数据，推定应该对该机器人所具备的轴进行指令的指令数据，其特征在于，

该控制装置具备：

机器学习装置，其学习与上述轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，

并且具备：

轴角度变换部，其根据上述轨迹数据，计算出上述机器人所具备的轴的轴角度的变化量；

状态观测部，其观测上述轴角度变换部计算出的与上述机器人所具备的轴的轴角度的变化量相关的轴角度数据，作为表示环境的当前状态的状态变量；

标签数据取得部，其取得与针对上述机器人所具备的轴的指令数据相关的轴角度指令数据作为标签数据；以及

学习部，其使用上述状态变量和上述标签数据，将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习。

2.根据权利要求1所述的控制装置，其特征在于，

上述学习部具备：

误差计算部，其计算相关性模型与相关性特征的误差，其中，上述相关性模型是根据上述状态变量推定针对上述机器人所具备的轴的指令数据的模型，上述相关性特征是从预先准备的训练数据识别的特征；以及

模型更新部，其以缩小上述误差的方式更新上述相关性模型。

3.根据权利要求1或2所述的控制装置，其特征在于，

上述学习部通过多层构造来运算上述状态变量和上述标签数据。

4.根据权利要求1～3中任意一项所述的控制装置，其特征在于，

使用能够进行基于时序数据的学习的学习模型来构筑上述学习部。

5.一种控制装置，其根据机器人所具备的机械臂的前端位置的轨迹数据，推定应该对该机器人所具备的轴进行指令的指令数据，其特征在于，

该控制装置具备：

并且具备：

学习部，其将上述机器人所具备的轴的轴角度的变化量与针对上述机器人所具备的轴的指令数据关联起来进行学习；以及

推定结果输出部，其根据上述状态观测部观测到的状态变量、上述学习部的学习结果，推定并输出针对上述机器人所具备的轴的指令数据。

6.根据权利要求1～5中任意一项所述的控制装置，其特征在于，

上述学习部选择并使用各个惯性区间相关联的多个学习模型中的与根据上述机器人的构造计算出的惯性所对应的学习模型。

7.根据权利要求1～6中任意一项所述的控制装置，其特征在于，

上述机器学习装置存在于云服务器中。

8.一种机器学习装置，其学习与机器人所具备的机械臂的前端位置的轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，其特征在于，该机器学习装置具备：

9.一种机器学习装置，其学习与机器人所具备的机械臂的前端位置的轨迹数据对应的应该对上述机器人所具备的轴进行指令的指令数据的推定，其特征在于，该机器学习装置具备：