CN110315505A

CN110315505A - 机器学习装置及方法、机器人控制装置、机器人视觉***

Info

Publication number: CN110315505A
Application number: CN201910237675.0A
Authority: CN
Inventors: 藁科文和; 高桥悠太郎
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-03-29
Filing date: 2019-03-27
Publication date: 2019-10-11
Also published as: DE102019002065A1; US11253999B2; DE102019002065B4; JP2019171540A; JP6810087B2; US20190299405A1

Abstract

本发明提供一种机器学习装置及方法、机器人控制装置、机器人视觉***。机器学习装置具有：其观测视觉传感器拍摄的工件的图像以及以使该图像接近目标图像的方式计算出的从任意位置起的机械臂前端部的移动量作为状态变量；判定数据取得部，其取得目标图像作为判定数据；以及学习部，其按照由状态变量和判定数据的组合构成的训练数据集，学习用于使机械臂前端部或工件从任意位置移动到目标位置的移动量，目标位置是视觉传感器与工件成为预定的相对位置关系的位置，目标图像是将机械臂前端部或工件配置于目标位置时由设置的视觉传感器拍摄的工件的图像。

Description

机器学习装置及方法、机器人控制装置、机器人视觉***

技术领域

本发明涉及机器学习装置、使用了机器学习装置的机器人控制装置和机器人视觉***、以及机器学习方法。

背景技术

已知在使机器人进行预定作业的机器人***中，利用设置于机器人的照相机所拍摄到的图像的称为视觉反馈的方法(例如，日本特开2003-211381号公报、日本特开平09-076185号公报、日本特开2010-188432号公报、日本特开2003-305676号公报)。通过利用视觉反馈，可以更短时间地设置使用了校正动作的机器人***。

但是，虽然能够短时间地实现设置，但是存在几个问题点。例如，第一存在如下问题：关于预先设为作业的对象的工件，必须准备目标标记或特征点。第二存在如下问题：需要从拍摄到的图像中检测该目标标记或特征点的检测算法。第三存在如下问题：用于稳定地检测准备好的目标标记或特征点的设定的技术不可或缺。从这些方面出发，针对利用视觉反馈的作业员的负担依然大。

发明内容

在利用使用了以往的视觉反馈的机器人***时，存在如下问题：关于预先设为作业的对象的工件，必须准备目标标记或特征点，针对作业员的负担大。

本公开的一实施方式有关的机器学习装置具有：状态观测部，其观测视觉传感器在任意位置拍摄的工件的图像以及以使该图像接近目标图像的方式计算出的从任意位置起的机器人的机械臂前端部的移动量作为状态变量；判定数据取得部，其取得目标图像作为判定数据；以及学习部，其按照由状态变量和判定数据的组合构成的训练数据集，学习用于使机械臂前端部或工件从任意位置移动到目标位置的机械臂前端部的移动量。这里，目标位置是视觉传感器与工件成为预定的相对位置关系的位置，目标图像是将机械臂前端部或工件配置于目标位置时由视觉传感器拍摄的工件的图像。

本公开的一实施方式有关的机器学习方法包括如下步骤：存储视觉传感器与工件成为预定的相对位置关系的位置作为目标位置；存储将机器人的机械臂前端部或工件配置于目标位置时由视觉传感器拍摄的工件的图像作为目标图像；观测在任意位置拍摄的工件的图像以及以使该图像接近目标图像的方式计算出的从任意位置起的机械臂前端部的移动量作为状态变量；，从存储有目标图像的目标图像存储部取得目标图像作为判定数据；以及按照由状态变量和判定数据的组合构成的训练数据集，学习用于使机械臂前端部或工件从任意位置移动到目标位置的移动量。

附图说明

通过与附图关联的以下实施方式的说明，可以进一步明确本发明的目的、特征以及优点。

图1是具有实施例涉及的机器学习装置的机器人视觉***的结构图。

图2是具有实施例涉及的机器学习装置的机器人视觉***的框图。

图3是具有实施例涉及的机器学习装置的机器人视觉***的详细框图。

图4是实施例涉及的机器学习装置的框图。

图5是用于说明实施例涉及的机器学习方法的执行过程的流程图。

图6是表示神经元的模型的示意图。

图7是表示三层神经网络模型的示意图。

图8是用于说明通过实施例涉及的机器学习方法进行学习之后执行作业的过程的流程图。

具体实施方式

以下，参照附图，对实施例涉及的机器学习装置、使用了机器学习装置的机器人控制装置以及机器人视觉***、和机器学习方法进行说明。其中，应该留意的是本发明的技术范围并不限定于这些实施方式，还涉及要求专利保护的范围所记载的发明及其均等物。

首先，对具有实施例涉及的机器学习装置的机器人视觉***进行说明。图1表示具有实施例涉及的机器学习装置的机器人视觉***1000的结构图，图2表示机器人视觉***1000的框图。机器人视觉***1000具有：机器人控制装置20；机器人10，其使用装配于机械臂前端部11的装置来对工件13(作业对象物)进行作业；以及视觉传感器12，其装配于机器人10的机械臂前端部11，来拍摄工件13。

机器人10例如是六轴的多关节机器人，针对配置于作业台40上部的工件13进行预定作业。例如，只要是把持工件13的作业，都可以在机械臂前端部11使用机械手。但是，并不限定于这样的示例，机械臂前端部11也可以是进行焊接、研磨等其他作业的工具。机械臂前端部11不仅可以在水平方向上动作也可以在垂直方向上动作，可以以在垂直方向上延伸的轴为中心旋转。这样通过使机械臂前端部11运转，可以对设置于机械臂前端部11的视觉传感器12的图像进行调整。

如图1所示，可以在机器人10的机械臂前端部11处设置视觉传感器12。或者，也可以在外部固定设置视觉传感器12。不论哪种情况，都通过视觉传感器12来拍摄工件13，使机械臂前端部11移动以使两者的相对位置关系成为目标位置关系。视觉传感器12可以是二维照相机，也可以是三维传感器(例如距离传感器(range sensor)等)。在图1中示出了设置一台视觉传感器12的示例，但视觉传感器也可以是多个。例如，视觉传感器也可以是使用两台二维照相机进行校正的立体照相机。

此外，在将视觉传感器12固定于机器人10的外部的情况下，也可以使机械臂前端部11以在垂直方向上延伸的轴为中心旋转。通过这样，可以对由视觉传感器12拍摄的工件13的图像进行调整。

视觉传感器12对装载于作业台40上部的工件13进行拍摄。将拍摄到的图像显示于显示装置500。例如，在通过视觉传感器12拍摄了工件13时，在显示装置500上显示工件的图像513。

这里，在针对工件13进行预定作业之后，将成为基准的工件的位置设为“基准位置”。例如，可以将作业台40上部的平面中央部设为基准位置。

将视觉传感器12与工件13成为预定的相对位置关系时的机器人10的机械臂前端部11的位置设为“目标位置”。例如，在进行作为机械臂前端部11使用机械手来把持工件13的作业时，也可以将机械臂前端部11能够可靠地把持工件13的位置设为目标位置。

图3是具有实施例涉及的机器学习装置的机器人视觉***的详细框图。机器人视觉***1000具有：机器人10、作为机械臂前端部11的机械手、视觉传感器12、以及机器人控制装置20。机器人控制装置20具有：目标图像存储部22、机器人控制部23、以及机器学习装置100。并且，机器人控制装置20也可以具有目标位置存储部21、移动量计算部5。

目标位置存储部21存储上述的目标位置。目标图像存储部22存储目标图像。这里，所谓“目标图像”是机械臂前端部11配置于目标位置时由视觉传感器12拍摄到的工件13的图像。在目标位置存储部21和目标图像存储部22中可以使用RAM等存储器。

移动量计算部5计算机械臂前端部11的移动量以便由视觉传感器12拍摄到的工件13的图像接近目标图像。移动量计算部5在计算机(CPU：Central Processing Unit：中央处理单元)中通过软件或固件来实现。

机器人控制部23按照决定出的动作指令来控制机器人10。作为动作指令的示例，列举出机器人10用于执行预定动作的转矩指令等。机器人控制部23在计算机中通过软件或固件来实现。

接下来，对实施例涉及的机器学习装置进行说明。图4表示实施例涉及的机器学习装置的框图。机器学习装置100具有：状态观测部1、判定数据取得部2、以及学习部3。机器学习装置100通过构成机器人控制装置20的计算机软件来实现。

状态观测部1观测在任意位置由视觉传感器12拍摄到的工件13的图像、以及以使该图像接近目标图像的方式计算出的任意位置起的机械臂前端部11的移动量作为状态变量。

判定数据取得部2从目标图像存储部22取得目标图像作为判定数据。

学习部3按照由状态变量以及判定数据的组合构成的训练数据集，学习用于使机械臂前端部11从任意位置移动到目标位置的移动量。在将视觉传感器12固定于机器人10的外部时，学习用于使工件13移动至视觉传感器12与被拍摄的工件13的相对位置关系成为目标位置关系的位置(目标位置)的机械臂前端部11的移动量。

在图2所示的示例中，示出了按照从一台机器人10取得的训练数据集来计算移动量的示例，但是并不局限于这样的示例。即，机器学习装置100也可以构成为，学习部3按照对多个机器人取得的训练数据集来学习移动量。

如图2所示，优选的是，学习部3具有：回报计算部31，其根据移动后的机器人的机械臂前端部11的位置与目标位置来计算回报；以及函数更新部32，其根据回报，来更新用于从当前的状态变量推测机械臂前端部11的移动量的函数。优选的是，函数更新部32像后述那样，使用所谓的Q学习来进行强化学习。或者，也可以将配置于预定位置的视觉传感器12拍摄到的工件13的图像和机械臂前端部11从预定位置向目标位置的移动量的数据集合作为标签来进行后述的监督学习。通过进行监督学习，在基准位置存储了目标图像与目标位置之后，移动到适当位置，取得该移动量与该位置的图像，通过准备多个该集(set)可以学习图像的变化与移动量的关系，可以自动取得大量的学习数据集。

使机械臂前端部11移动以使视觉传感器12拍摄到的工件13的图像接近目标图像，移动后的机器人10的位置越是接近目标位置越是给予高的回报。

优选的是，学习部3根据状态变量以及回报，来更新与机械臂前端部11的移动量对应的行为价值表。优选的是，学习部3通过多层结构来运算由状态观测部1观测到的状态变量，实时更新用于判断行为价值的行为价值表。这里，作为通过多层结构来运算状态变量的方法，例如，可以使用图7所示那样的多层神经网络。

学习部3也可以根据与机器人相同结构的其他机器人的状态变量和回报，更新与该其他机器人的机械臂前端部的移动量对应的价值函数。在图2所示的示例中，示出了使用通过自身的机器学习装置的学习部更新后的价值函数来更新自身的价值函数的示例，但是并不局限于这样的示例。即，也可以使用通过与自身的机器学习装置不同的其他机器学习装置的学习部更新后的价值函数来更新自身的价值函数。例如，还可以具有在多个机器人控制装置之间交换数据的数据交换部，将其他机器人控制装置的机器学习装置的学习内容利用于自身的机器学习装置的学习中。

学习部3也可以构成为：按照由当前的状态变量以及判定数据的组合构成的追加的训练数据集，再次学习机器人10的机械臂前端部11的移动量并进行更新。

优选的是，机器学习装置100还具有：决策部4，其根据学习部3按照训练数据集进行学习后的结果，来决定针对机器人10的动作指令。决策部4将在机械臂前端部11移动后的位置拍摄到的工件13的图像作为状态变量，将目标图像作为判定数据，计算出使映现于视觉传感器12的工件13的图像接近目标图像的机器人10的机械臂前端部11的移动量(移动数据)。例如，决策部4计算机械臂前端部11的移动量，以使由设置于机器人10的机械臂前端部11的视觉传感器12拍摄到的工件13的图像接近目标图像，所述机器人10配置于任意位置。

接下来，使用图5所示的流程图对实施例涉及的机器学习方法进行说明。首先，在步骤S101中，目标位置存储部21存储视觉传感器12与放置于基准位置的工件13成为预定的相对位置关系时的机器人10的机械臂前端部11的位置作为目标位置。

接下来，在步骤S102中，目标图像存储部22存储由设置于机械臂前端部11的视觉传感器12拍摄到的、放置于基准位置的工件13的图像作为目标图像，所述机械臂前端部11配置于目标位置。

接下来，在步骤S103中，状态观测部1观测由配置于任意位置的视觉传感器12拍摄到的工件13的图像、以及以使该图像接近目标图像而计算出的任意位置起的机械臂前端部11的移动量作为状态变量。

接下来，在步骤S104中，从存储了目标图像的目标图像存储部22取得目标图像作为判定数据。

接下来，在步骤S105中，按照由状态变量以及判定数据的组合构成的训练数据集，学习用于使机械臂前端部11从任意位置移动到目标位置的移动量。

接下来，在步骤S106中，判断移动后的机械臂前端部11的位置与目标位置的差值是否为第一阈值以下。在移动后的机械臂前端部11的位置与目标位置的差值为第一阈值以下时，设为视觉传感器12与工件13的位置关系和拍摄到目标图像时的位置关系相同而结束学习。这里，优选的是，第一阈值设定为机器人10使用设置于机械臂前端部11的工具能够对工件13执行预定作业的范围。

另一方面，在上述差值超过第一阈值时，返回到步骤S103反复进行机械臂前端部的移动量的计算，反复进行至移动后的机械臂前端部11的位置与目标位置的差值为第一阈值以下为止。像以上那样，决策部4在以从机器学习装置100输出的移动量移动了机械臂前端部11之后，反复进行至移动后的机械臂前端部11的位置与目标位置的差值成为预定的阈值(第一阈值)以下为止。在以机器学习装置100学习而获得的移动量进行了移动之后，机器人10将该位置设为起点，执行预定作业。

在以上的说明中，对使机械臂前端部11移动的示例进行了说明，在将视觉传感器12设置于机器人10的外部的情况下也可以同样地进行学习。在将视觉传感器12设置于机器人10的外部的情况下，将表示使机械臂前端部11移动之前进行了拍摄的视觉传感器12与工件13的相对位置关系的图像以及移动量作为状态变量，将表示设为目标的视觉传感器12与工件13的相对位置关系的图像作为判定数据(目标图像)来学习移动量。

这里，在图5所示的流程图中，示出了每次移动时都执行移动后的机械臂前端部11的位置与目标位置的差值同第一阈值的大小关系的判断的示例，但是并不局限于此。即，为了缩短学习消耗的时间，也可以限制移动后的机械臂前端部11的位置与目标位置的差值同第一阈值的比较次数。作为次数的限制方法，例如，可以预先决定好进行比较的次数。或者，也可以进行一次移动预定次数后的机械臂前端部11的位置与目标位置的差值同阈值的比较。或者，也可以按照用户的指示来执行移动后的机械臂前端部11的位置与目标位置的差值同阈值的比较。

这里，对图2所示的机器学习装置100进行详细说明。机器学习装置100具有如下功能：通过解析从输入到装置的数据集合中提取出其中有用的规则和知识表现、判断基准等，输出其判断结果，并且进行知识学习。该方法是多种多样的，但是大致分类为“监督学习”、“无监督学习”、以及“强化学习”。并且，在实现这些方法的基础上，存在对特征量本身的提取进行学习的称为“深层学习”的方法。

所谓“监督学习”是通过将某种输入与结果(label)的数据组大量地提供给学习装置(机器学习装置)，学习这些数据集中的特征，能够归纳性地获得从输入推定出结果的模型即其相关性。在本实施方式中，能够根据机器人10的机械臂前端部11的移动量以及工件13的图像等的状态观测部1的观测结果、和回报计算部31的回报，在用于使机械臂前端部11从任意位置移动到目标位置的移动量的计算中使用监督学习。上述学习能够使用后述的神经网络等算法来实现。

所谓“无监督学习”是如下技术：通过只将输入数据大量地提供给学习装置(机器学习装置)，学习输入数据进行怎样的分布，即使不提供对应的训练输出数据，也能学习针对输入数据进行压缩、分类、整形等的装置。能够将处于这些数据集之中的特征聚类于相似者之间等。使用其结果来进行设定某个基准而使其为最佳的输出分配，由此，能够实现预测输出。此外，作为“无监督学习”和“监督学习”中间的问题设定而还有被称为“半监督学习”，其对应于如下情况：仅存在一部分输入和输出的数据组，除此之外仅有输入数据。

以如下方式来设定强化学习的问题。

·机器学习装置100观测环境200的状态，决定行为。

·环境200按照某种规则进行变化，并且自身行为有时也对环境给予变化。

·每次进行行为时反馈回来回报信号。

·想要最大化的是将来的(折扣)回报的总和。

·从完全不知道行为引起的结果或者从不完全知道的状态起，开始学习。机器人控制装置20以机器人10的机械臂前端部11或工件13实际动作开始，能够将其结果获得为数据。也就是说，需要一边试错一边探索最佳的行为。

·可以将例如模仿人类动作那样事先学习(所述的称为监督学习、逆强化学习这样的技术)的状态设为初始状态，来从较好的开始点起开始学习。

所谓“强化学习”是用于如下学习的方法：不单进行判定和分类，还通过学习行为而在行为给予环境的相互作用的基础上学习适当的行为，即，使将来获得的回报最大化。这表示在本实施方式中能够获得对未来造成影响的行为。例如，以Q学习的情况继续说明，但是并非局限于此。

Q学习是在某种环境状态s下学习选择行为a的价值Q(s、a)的方法。也就是说，在某种状态s时，将价值Q(s、a)最高的行为a选择为最佳行为。但是，最开始对于状态s与行为a的组合来说，完全不知道价值Q(s、a)的正确值。因此，智能体(行为主体)在某种状态s下选择各种各样的行为a，并针对当时的行为a给予回报。由此，智能体继续学习更好的行为选择，即学习正确的价值Q(s、a)。

行为的结果是想要使将来获得的回报的总和最大化。所以目标是最终成为Q(s、a)＝E[Σγ^tr_t](回报的折扣期待值。γ：折扣率)(按最佳行为改变状态时得到期望值。当然，由于不知道期望值，因此不得不一边探索一边学习)。这样的价值Q(s、a)的更新式例如可以通过如下数学式来表示。

这里，s_t表示时刻t的环境状态，a_t表示时刻t的行为。通过行为a_t，状态变化为s_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态s_t+1下，将γ乘以选择出当时知道的Q值最高的行为a时的Q值。γ是0＜γ≤1的参数，被称为折扣率。α是学习系数，设α的范围为0＜α≤1。

该数学式表示如下方法：根据试行a_t的结果而反馈回来的回报r_t+1，更新状态s_t下的行为a_t的评价值Q(s_t、a_t)。表示若回报r_t+1+行为a导致的下一状态下的最佳行为“max a”的评价值Q(s_t+1、max a_t+1)比状态s下的行为a的评价值Q(s_t、a_t)大，则增大Q(s_t、a_t)，反之，则减小Q(s_t、a_t)。也就是说，使某种状态下的某种行为价值，接近作为结果即时反馈回来的回报和该行为导致的下一状态下的最佳的行为价值。

Q(s、a)在计算机上的表现方法有以下方法：针对所有的状态行为对(s、a)，将其值保存为表格(行为价值表)的方法、以及准备将Q(s、a)进行近似这样的函数的方法。在后者的方法中，可以通过随机梯度下降法(Stochastic gradient descent method)等方法来调整近似函数的参数来实现所述的更新式。作为近似函数，可以使用后述的神经网络。

作为监督学习、无监督学习以及强化学习中的价值函数的近似算法，可以使用神经网络。例如由实现模拟了图6所示那样的神经元模型的神经网络的运算装置以及存储器等来构成神经网络。

如图6所示，神经元输出针对多个输入x(这里，作为一个示例，输入x₁～输入x₃)的输出y。对各输入x₁～x₃乘以与该输入x对应的权值w(w₁～w₃)。由此，神经元输出由如下数学式表现的输出y。另外，输入x、输出y以及权值w都是向量。

这里，θ是偏置(bias)，f_k是激活函数(activation function)。

接下来，参照图7对组合了上述的神经元而得的具有三层权值的神经网络进行说明。图7是表示具有D1～D3的三层权值的神经网络的示意图。

如图7所示，从神经网络的左侧输入多个输入x(这里作为一例是输入x1～输入x3)，从右侧输出结果y(这里作为一例，结果y1～结果y3)。

具体来说，输入x1～输入x3乘以对应的权值而被输入到三个神经元N11～N13的每一个。与这些输入相乘的权值统一标记为W1。

神经元N11～N13分别输出Z11～Z13。这些Z11～Z13可以被统一标记为特征向量Z1，看作是提取出输入向量的特征量而得的向量。该特征向量Z1是权值W1与权值W2间的特征向量。

Z11～Z13乘以对应的权值而被输入到两个神经元N21、N22的每一个。与这些特征向量相乘的权值被统一标记为W2。

神经元N21、N22分别输出Z21、Z22。它们被统一标记为特征向量Z2。该特征向量Z2是权值W2与权值W3之间的特征向量。

特征向量Z21、Z22乘以对应的权值而被输入到三个神经元N31～N33的每一个。与这些特征向量相乘的权值被统一标记为W3。

最后，神经元N31～N33分别输出结果y1～结果y3。

在神经网络的动作中有学习模式和价值预测模式，在学习模式中使用学习数据集来学习权值W，在预测模式中使用其参数进行机器人10的行为判断(为了方便而写为预测，但是也可以是检测、分类、推论等多种多样的任务)。

也可以是在预测模式下对实际运行机器人10而获得的数据进行即时学习，并反映到下一行为中(在线学习)。也可以是使用预先收集好的数据组来进行汇总学习，以后一直用该参数进行检测模式(批量学习)。每当积攒了其中间的某种程度数据时，就可以***学习模式。

可以通过误差反传播法(back propagation)来学习权值W1～W3。误差信息从右侧进入流向左侧。误差反传播法是如下技术：针对各神经元调整(学习)各自的权值使得降低输入了输入x时的输出y与真的输出y(监督)之间的差量。

这样的神经网络还可以在三层以上进一步增加层(称为深层学习)。可以阶段性地进行输入的特征提取，仅从训练数据自动地获得用于反馈结果的运算装置。

因此，本实施方式的机器学习装置100为了实施上述的Q学习，如图2所示而具有状态观测部1、学习部3以及决策部4。但是，应用于本发明的机器学习方法并不局限于Q学习。例如在应用监督学习时，价值函数对应于学习模型、回报对应于误差。

如图2所示，在机器人控制装置20的状态中存在通过行为而间接变化的状态、和通过行为而直接变化的状态。在通过行为而间接变化的状态中包含机器人10的机械臂前端部11的移动量。在通过行为而直接变化的状态中包含使机器人10的机械臂前端部11移动而拍摄工件13获得的图像。

学习部3根据更新式以及回报，从行为价值表中更新对应于当前的状态变量以及要取得的行为的行为价值。

机器学习装置100经由网络与机器人控制装置20连接，状态观测部1可以构成为经由网络将机器学习装置100计算出的移动量转发给机器人控制装置20。此外，优选的是，机器学习装置100存在于云端服务器。

像以上那样，在学习完成之后，机器人10实际对工件13执行作业。在作业的执行阶段，工件13放置于与基准位置不同的位置，通过使用如上所述地进行了学习的学习器(学习控制装置)，视觉传感器12与工件13的相对关系与处于目标位置的机器人10的机械臂前端部11的视觉传感器12与处于基准位置的工件13的相对位置关系相同。另外，不限于通过一次学习而成为完全相同的相对关系，能够通过饭局进行而逐渐接近。即，具有存储目标位置的目标位置存储部21，在反复执行移动量的计算时，机器学习装置100对用于使机械臂前端部11从任意位置移动到存储于目标位置存储部21的目标位置的移动量进行学习。

图8表示用于对通过实施例有关的机器学习方法进行了学习之后，执行作业的过程进行说明的流程图。首先，在步骤S201中，拍摄配置于任意位置的工件13。

接下来，在步骤S202中，根据学习模型计算使拍摄到的工件13的图像接近目标位置的任意位置起的机械臂前端部11的移动量。

接下来，在步骤S203中，根据计算出的移动量使机械臂前端部11移动。

接下来，在步骤S204中，根据移动后或移动过程中拍摄到的工件13的图像再次计算机械臂前端部11的移动量。

接下来，在步骤S205中，判断移动量是否为第二阈值以下。在移动量为第二阈值以下时，视觉传感器12与工件13的位置关系和拍摄到目标图像时相同。该情况下，在步骤S206中，对工件13执行作业。这里，优选的是，第二阈值设定于机器人10使用设置于机械臂前端部11的刀具能够对工件13执行预定作业的范围。

另一方面，在移动量超过第二阈值时，返回到步骤S202反复进行机械臂前端部11的移动量的计算，反复进行至移动量成为第二阈值以下为止。像以上那样，决策部4在以从机器学习装置100输出来的移动量移动了机械臂前端部11之后，在移动量成为预定的阈值(第二阈值)以下之前反复进行计算。

这里，优选的是，执行作业时使用的第二阈值与学习时使用的第一阈值相同，或第一阈值比第二阈值小。这样通过将第一阈值设为第二阈值以下，可以根据通过学习而求出的正确的移动量来执行预定作业。

此外，在上述的说明中，对分开进行学习步骤与作业执行步骤的示例进行了说明，但是并不局限于这样的示例。例如，也可以同时进行学习步骤与作业执行步骤。通过在作业执行步骤中同时进行学习步骤，可以缩短学习步骤所需的时间，可以进一步提升学习精度。

像以上那样，根据实施例有关的机器人视觉***，不需要模型(用于从图像检测对象物的模型样式、所谓的模板匹配的模板)示教、检测算法、或特别的技术，可以只设定目标图像来使机器人移动到目标位置。

根据一实施例有关的机器学习装置以及机器学习方法，不需要在一边利用拍摄工件而获得的图像一边使用机器人对工件执行预定作业之前，预先准备目标标记或特征点，可以减轻对作业员的负担。

Claims

1.一种机器学习装置，其特征在于，具有：

状态观测部，其观测视觉传感器在任意位置拍摄的工件的图像以及以使该图像接近目标图像的方式计算出的从所述任意位置起的机器人的机械臂前端部的移动量作为状态变量；

判定数据取得部，其取得所述目标图像作为判定数据；以及

学习部，其按照由所述状态变量和所述判定数据的组合构成的训练数据集，学习用于使所述机械臂前端部或工件从任意位置移动到目标位置的所述机械臂前端部的移动量，

所述目标位置是所述视觉传感器与工件成为预定的相对位置关系的位置，

所述目标图像是将所述机械臂前端部或工件配置于所述目标位置时由所述视觉传感器拍摄的工件的图像。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述学习部构成为，按照对多个机器人取得的训练数据集来学习所述移动量。

3.根据权利要求1或2所述的机器学习装置，其特征在于，

所述学习部具有：

回报计算部，其根据移动后的所述机器人的机械臂前端部或工件的位置和所述目标位置来计算回报；以及

函数更新部，其根据所述回报，更新用于从当前的状态变量推测所述机械臂前端部的移动量的函数。

4.根据权利要求3所述的机器学习装置，其特征在于，

所述学习部根据所述状态变量和所述回报，更新与所述机械臂前端部的移动量对应的行为价值表。

5.根据权利要求3或4所述的机器学习装置，其特征在于，

所述学习部根据与上述机器人相同结构的其他机器人的状态变量和回报，更新与该其他机器人的机械臂前端部的移动量对应的行为价值表。

6.根据权利要求1所述的机器学习装置，其特征在于，

将配置于预定位置的所述视觉传感器拍摄的工件的图像和所述机械臂前端部从所述预定位置向所述目标位置的移动量的数据集合作为标签来进行监督学习。

7.根据权利要求1～6中任一项所述的机器学习装置，其特征在于，

所述学习部构成为，按照由当前的状态变量和所述判定数据的组合构成的追加的训练数据集，再次学习所述机器人的机械臂前端部的移动量并进行更新。

8.根据权利要求1～7中任一项所述的机器学习装置，其特征在于，

所述机器学习装置还具有：决策部，其根据所述学习部按照所述训练数据集进行学习而得的结果，决定针对所述机器人的动作指令。

9.根据权利要求8所述的机器学习装置，其特征在于，

所述决策部在所述机械臂前端部移动了从所述机器学习装置输出的移动量之后，在移动量成为预定的阈值以下之前反复进行计算。

10.根据权利要求9所述的机器学习装置，其特征在于，

所述机器学习装置具有：目标位置存储部，其存储所述目标位置，

在反复执行所述移动量的计算时，所述机器学习装置学习用于使所述机械臂前端部或工件从任意位置移动到存储于所述目标位置存储部的所述目标位置的移动量。

11.一种机器人控制装置，其特征在于，具有：

权利要求8所述的机器学习装置；

目标图像存储部，其存储所述目标图像；以及

机器人控制部，其按照所决定的所述动作指令来控制所述机器人。

12.一种机器人视觉***，其特征在于，具有：

权利要求11所述的机器人控制装置；

机器人，其使用装配于所述机械臂前端部的装置对工件进行作业；以及

视觉传感器，其装配于所述机器人的机械臂前端部，对工件进行拍摄。

13.一种机器人视觉***，其特征在于，具有：

权利要求11所述的机器人控制装置；

视觉传感器，其固定于所述机器人的外部，对工件进行拍摄。

14.根据权利要求12或13所述的机器人视觉***，其特征在于，

在移动了所述机器学习装置进行学习而得的移动量之后，所述机器人以该位置为起点，执行预定作业。

15.根据权利要求12～14中任一项所述的机器人视觉***，其特征在于，

所述机器学习装置经由网络与所述机器人控制装置连接，

所述状态观测部经由所述网络将所述机器学习装置计算出的移动量转发给所述机器人控制装置。

16.根据权利要求12～15中任一项所述的机器人视觉***，其特征在于，

所述机器学习装置存在于云端服务器。

17.一种机器学习方法，其特征在于，该机器学习方法包括如下步骤：

存储视觉传感器与工件成为预定的相对位置关系的位置作为目标位置，

存储将机器人的机械臂前端部或工件配置于所述目标位置时由视觉传感器拍摄的工件的图像作为目标图像，

观测在任意位置拍摄的工件的图像以及以使该图像接近所述目标图像的方式计算出的从所述任意位置起的所述机械臂前端部的移动量作为状态变量，

从存储有所述目标图像的目标图像存储部取得所述目标图像作为判定数据，以及

按照由所述状态变量和所述判定数据的组合构成的训练数据集，学习用于使所述机械臂前端部或工件从任意位置移动到所述目标位置的移动量。