CN107767760B

CN107767760B - 机械学习器、机器人***以及机械学习方法

Info

Publication number: CN107767760B
Application number: CN201710723747.3A
Authority: CN
Inventors: 尾崎俊一; 西浩次
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2016-08-23
Filing date: 2017-08-22
Publication date: 2020-01-07
Anticipated expiration: 2037-08-22
Also published as: DE102017007729B4; JP2018030185A; US10603797B2; DE102017007729A1; CN107767760A; US20180056520A1; JP6517762B2

Abstract

本发明提供机械学习器、机器人***以及机械学习方法，其学习人(1)和机器人(3)协作地进行作业的机器人的动作。具备：状态观测部(21)，其在上述人和上述机器人协作地进行作业时，观测表示上述机器人的状态的状态变量；报酬计算部(22)，其基于控制上述机器人的控制数据、上述状态变量以及上述人的行动计算报酬；以及价值函数更新部(23)，其基于上述报酬及上述状态变量，更新对上述机器人的动作进行控制的行动价值函数。

Description

机械学习器、机器人***以及机械学习方法

技术领域

本发明涉及机械学习器、机器人***以及机械学习方法。

背景技术

以往，在机器人***中，在机器人进行动作期间中，为了确保人的安全，以人不进入机器人的作业区域的方式讲述了安全对策。例如，在机器人的周围设置安全栏，在机器人的动作期间中禁止人进入安全栅的内部。

近年来，研究、开发出了人和机器人协作地进行作业的机器人(协作机器人)，并实用化。在这种机器人(机器人***)中，例如以在机器人的周围不设置安全栅的状态，机器人和人(作业人员)协作地进行一个作业。

然而，以往提出了在通过教学(示教操作盘)相对于机器人示教作业动作时，通过简单的按压操作或触摸操作进行示教操作，从而实现了机器人的示教操作的简易化及教学时间的缩短的机器人的示教技术的方案(例如参照日本特开平10-146782号公报)。

另外，以往，还提出了在通过教学输入移动路径上的坐标值并示教的工业用机器人中，还提出了配置起动开关、停止开关、输入各种命令、数值的数字键组、示教模式键、反复输入键及显示装置等，简单且正确地进行设定移动路径的坐标值的输入的工业用机器人的方案(例如参照日本特开平05-318358号公报)。

一般地，现在的产业用机器人按照预先制成的动作程序进行动作(驱动)，或者以通过利用教学等预先示教的示教点的方式被驱动。即使在人和机器人协作地进行作业的机器人***(协作机器人***)中，也预先设定机器人的轨道，沿所设定的轨道驱动机器人。

但是，在人和机器人协作地进行作业时，存在作业方法不普遍的情况。例如，在制造产品的工场等中，在将工件从初期位置搬运至目标位置的情况下，为了人和机器人协作地提起工件并搬运至目标位置，提起工件的方向、速度等存在多个选项。

其中，人的负担度依赖于相对于工件的机器人的控制方法而变化，例如，人的疲劳情况即使在进行相同的作业的情况下，也由于距人的距离、速度等而变化。另外，人的行动方式还存在因作业的内容而不同的情况，存在难以使人和机器人协作地进行动作的机器人的动作最适化的问题。

因此，考虑了应用机械学习的方法学习人和机器人协作地进行作业的机器人的动作的方案。但是，即使在应用机械学习而得到的机器人的动作中，也存在要求通过人(例如作业人员)进一步改善该机器人的动作的情况。

发明内容

本发明的主要目的在于，鉴于上述课题，提供能进一步改进人和机器人协作地进行作业的机器人的动作的机械学习器、机器人***及机械学习方法。另外，本发明的另一目的还在于提供能在人和机器人协作地进行作业时，通过各种传感器信息、与人的对话等改进协作动作的机械学习器、机器人***以及机械学习方法。

根据本发明的第一实施方式，提供一种机械学习器，其学习人和机器人协作地进行作业的机器人的动作，具备：状态观测部，其在上述人和上述机器人协作地进行作业时，观测表示上述机器人的状态的状态变量；报酬计算部，其基于控制上述机器人的控制数据以及上述状态变量、以及上述人的行动计算报酬；以及价值函数更新部，其基于上述报酬及上述状态变量，更新控制上述机器人的动作的行动价值函数。

上述报酬计算部能在基于上述控制数据以及上述状态变量的第一报酬上加上基于上述人的行动的第二报酬来计算上述报酬。上述第二报酬可以在通过设于上述机器人的触觉传感器抚摸上述机器人时设定正报酬，在敲打上述机器人时设定负报酬，或者在设于上述机器人的一部分或上述机器人的附近、或者通过安装于上述人的传声器称赞上述机器人时设定正报酬，在批评上述机器人时设定负报酬。

上述机械学习器还可以具备基于上述价值函数更新部的输出，决定规定上述机器人的动作的指令数据的意思决策部。上述状态变量能包括摄像机、力传感器、传声器以及触觉传感器的输出的至少一个。上述摄像机直接设于上述机器人或设于上述机器人的上方等周围，上述力传感器设于上述机器人的基台部分或把手部分或周边设备的至少一处，或者，上述触觉传感器可以设于上述机器人的至少一部分或周边设备。

根据本发明的第二实施方式，提供一种机器人***，其具备上述本发明的第一实施方式的机械学习器、与上述人协作地进行作业的上述机器人、控制上述机器人的动作的机器人控制部，上述机械学习器解析上述人和上述机器人协作地进行作业后的特征点或工件的分布，学习上述机器人的动作。

上述机器人***还可以具备获取摄像机、力传感器、触觉传感器、传声器以及输入装置的输出，并识别作业的意图的作业意图识别部。上述机器人***还具备识别从上述传声器输入的上述人的声音的声音识别部，上述作业意图识别部能基于上述声音识别部修正上述机器人的动作。上述机器人***还可以具备基于利用上述作业意图识别部进行的作业意图的解析生成相对于上述人的质问的质问生成部、以及将由上述质问生成部生成的上述质问向上述人传递的扬声器。

上述传声器接收来自上述扬声器的相对于上述质问的上述人的应答，上述声音识别部识别通过上述传声器而输入的上述人的应答，能向上述作业意图识别部输出。输入上述机械学习器的上述状态观测部的上述状态变量是上述作业意图识别部的输出，上述作业意图识别部将基于上述人的行动的正报酬变换为设定为正报酬的状态变量并向上述状态观测部输出，将基于上述人的行动的负报酬变换为设定为负报酬的状态变量并向上述状态观测部输出。上述机械学习器可以以不过度学习的方式设定学习至预定的时点的动作。上述机器人控制部能在利用上述触觉传感器感知轻微的碰撞时，使上述机器人停止。

根据本发明的第三实施方式，提供一种机械学习方法，其学习人和机器人协作地进行作业的机器人的动作，在上述人和上述机器人协作地进行作业时，观测表示上述机器人的状态的状态变量，基于控制上述机器人的控制数据以及上述状态变量、以及上述人的动作计算报酬，基于上述报酬以及上述状态变量，更新控制上述机器人的动作的行动价值函数。

附图说明

图1是表示本发明的一实施方式的机器人***的方框图。

图2是示意地表示神经元的模型的图。

图3是示意地表示组合图2所示的神经元而构成的三层的神经网络的图。

图4是示意地表示本实施方式的机器人***的一例的图。

图5是示意地表示图4所示的机器人***的变形例的图。

图6是用于说明本实施方式的机器人***的一例的方框图。

图7A及图7B是用于说明利用图6所示的机器人***进行的动作的一例的图。

图8是用于说明利用应用了神经网络的深层学习实现图7A及图7B所示的利用机器人***的动作的情况的处理的一例的图。

具体实施方式

下面，参照附图详细叙述本发明的机械学习器、机器人***以及机械学习方法的实施方式。图1是表示本发明的一实施方式的机器人***的方框图。

如图1所示，本实施方式的机器人***用于学习人(作业人员1)和机器人协作地进行作业的机器人(协作机器人)3的动作，包括机器人3、机器人控制部30以及机械学习器2。其中，机械学习器2能与机器人控制部30一体化，但也可以分别设置。

如图1所示，机械学习器2例如学习设定于机器人控制部30的机器人3的动作指令，包括状态观测部21、报酬计算部22、价值函数更新部23以及意思决策部24。状态观测部21观测机器人3的状态，报酬计算部22基于状态观测部21的输出及人的行动计算报酬。

即，向报酬计算部22输入例如来自机器人控制部30的机器人的控制数据、状态观测部21的输出(由状态观测部21观测到的状态变量)以及基于人的行动的报酬，进行报酬的计算。具体地说，例如在通过设于机器人3的一部分的触觉传感器41抚摸机器人3时设定正报酬，在敲打机器人3时设定负报酬，将基于该人的行动的报酬加在基于控制数据及状态变量的报酬上而能进行报酬的计算。

或者，也可以例如在通过设于机器人3的一部分或附近、或者安装于机器人3的附近或人1的传声器42表扬机器人3时设定正报酬，在批评机器人3时设定负报酬，将基于该人的行动的报酬加在基于控制数据以及状态变量的报酬上而进行报酬的计算。

价值函数更新部23基于由报酬计算部22计算出的报酬，更新从现在的状态变量求出的与机器人的动作指令相关的价值函数。其中，作为状态观测部21观测的状态变量，例如如后所述，包括传声器42、摄像机44、力传感器45以及触觉传感器41的输出的至少一个。另外，意思决策部24基于价值函数更新部23的输出决定规定机器人3的动作的指令数据。

接着，说明机械学习及机械学习器(机械学习装置)。机械学习器具有从输入装置的数据的集合中通过解析抽出位于其中的有用的规则、知识表现、判断基准等，输出该判断结果，并且进行知识的学习(机械学习)的功能。机械学习的方法多种多样，但如果大致区别，则例如分为“有教师学习”、“无教师学习”以及“强化学习”。另外，除了实现这些方法，还具有学习特征量其本身的抽出的、被称为“深层学习(深度学习)：Deep Learning”的方法。

参照图1说明的本实施方式的机械学习器2应用了“强化学习”，该机械学习器2也能使用通用的计算机或处理器，但若例如应用GPGPU(General-Purpose computing onGraphics Processing Units)、大规模PC组等，则能更高速地进行处理。

在此，机械学习除了“强化学习”之外，还具有“有教师学习”等多种方法，说明其概略。首先，“有教师学习”是指，通过将教师数据、即某输入和结果(标记)的数据组大量地给予机械学习器，学习这些数据组所具有的特征，归纳地获得从输入推断结果的模型(误差模型)、即其关系性。

另外，“无教师学习”是指，通过只将大量的输入数据给予机械学习器，学习输入数据为哪种分布，即使不给予对应的教师输出数据，也能利用相对于输入数据进行压缩、分类、整形等的装置进行学习的方法。例如，能将这些数据组所具有的特征聚集于相似的人员彼此等。通过使用该结果，设置某些基准并进行使其最适化的输出的分配，能实现输出的预测。另外，作为“无教师学习”和“有教师学习”的中间的问题设定，有被称为“有半教师学习”的设定，这种情况例如与存在只一部分输入和输出的数据组，其以外只是输入的数据的情况对应。

接着，关于“强化学习”详述。首先，作为强化学习的问题设定，如下那样考虑。

机器人(即人和机器人协作地进行作业的机器人(协作机器人))观测环境的状态，决定行动。

环境根据某种规则而变化，另外，自身的行动有时也对环境带来变化。

每当行动，便传回报酬信号。

最大化是直至将来的(折扣)报酬的合计。

从完全不清楚行动引起的结果、或不完全清楚的状态开始学习。即，协作机器人能在第一次实际将其结果作为数据而得到。即，需要一边进行错误试验一边探索最适的行动。

也能将以模仿人类的动作的方式事前学习(“有教师学习”、“逆强化学习”的方法)了的状态作为初期状态从良好的开始地点开始学习。

在此，“强化学习”是指，不只是判断、分类，还通过学习行动，学习根据行动对环境带来的相互作用学习适当的行动、即用于使将来得到的报酬最大的学习的方法。下面作为例子，在Q学习的情况下继续说明，但并未限定于Q学习。

Q学习是在某环境状态s下学习选择行动a的价值Q(s，a)的方法。即，只要在某状态s时，将价值Q(s，a)最高的行动a选择为最适的行动即可。但是，最初关于状态s和行动a的组合，价值Q(s，a)的正确的值完全不清楚。因此，代理人(行动主体)在某状态s下选择多种行动a，相对于此时的行动a给予报酬。由此，代理人学习更好的行动的选择、即正确的价值Q(s，a)。

另外，由于想使行动的结果、直到将来得到的报酬的合计最大化，因此，目的最终成为Q(s，a)＝E[Σ(γ^t)r_t]。其中期待值为在根据最适的行动状态变化时获得的值，这一点不清楚，因此一边探索一边学习。这种价值Q(s，a)的更新式例如能由下式1表示。

在上述式1中，s_t表示时刻t时的环境的状态，a_t表示时刻t时的行动。通过行动a_t，状态变化为s_t+1。r_t+1表示根据其状态的变化得到的报酬。另外，带max的项是在状态s_t+1下，在选择了此时清楚的Q值最高的行动a的情况下的Q值乘以γ得到的项。其中，γ是0＜γ≤1的参数，被称为折扣率。另外，α是学习系数，为0＜α≤1的范围。

上述式1表示根据试验a_t的结果、传回的报酬r_t+1更新状态s_t下的行动a_t的评价值Q(s_t，a_t)的方法。即，表示若与状态s下的行动a的评价值Q(s_t，a_t)相比，由报酬r_t+1+行动a得到的下一个状态下的最佳行动max a的评价值Q(s_t+1，max a_t+1)越大，则使Q(s_t，a_t)最大，相反若越小，则使Q(s_t，a_t)越小。即，使某状态下的某行动的价值近似于由作为结果随时传回的报酬和其行动决定的下一个状态下的最佳的行动的价值。

其中，Q(s，a)在计算机上的表现方法具有预先相对于全部的状态行动对(s，a)将其值作为图表保持的方法和准备使Q(s，a)近似的函数的方法。在后者的方法中，上述式1能通过利用概率梯度下降法等方法调整近似函数的参数来实现。另外，作为近似函数，能使用后述的神经网络。

在此，作为利用“强化学习”的价值函数的近似算法，能使用神经网络。图2是示意地表示神经元的模型的图，图3是示意地表示组合了图2所示的神经元而构成的三层的神经网络的图。即，神经网络例如由图2所示那样的模拟了神经元的模型的运算装置及存储器等构成。

如图2所示，神经元输出相对于多个输入x(在图2中作为一例为输入x1～x3)的输出(结果)y。在各输入x(X1，X2，X3)上乘以与该输入x对应的权w(W1，W2，W3)。由此，神经元输出由下式2表现的结果y。另外，输入x、结果y及权w全部是向量。另外，在下述的式2中，θ是偏置，f_k是活性化函数。

参照图3，说明组合图2所示的神经元而构成的三层的神经网络。如图3所示，从神经网络的左侧输入多个输入x(在此作为一例为输入x1～输入x3)，从右侧输出结果y(在此，作为一例，为结果y1～结果y3)。具体地说，输入x1、x2、x3相对于三个神经元N11～N13的各个乘以对应的权并输入。在这些输入上所乘的权总括地标记为W1。

神经元N11～N13分别输出z11～z13。在图3中，这些z11～z13总括地标记为特征向量Z1，能视为抽出了输入向量的特征量的向量。该特征向量Z1是权W1与权W2之间的特征向量。z11～z13相对于两个神经元N21及N22的各个乘以对应的权并输入。这些特征向量所乘的权总括地标记为W2。

神经元N21、N22分别输出z21、z22。在图3中，这些z21、z22总括地标记为特征向量Z2。该特征向量Z2是权W2与权W3之间的特征向量。z21、z22相对于三个神经元N31～N33的各个乘以对应的权并输入。这些特征向量所乘的权总括地标记为W3。

最后，神经元N31～N33分别输出结果y1～结果y3。神经网络的动作具有学习模式和价值预测模式。例如，在学习模式中，使用学习数据组学习权W，使用其参数在预测模式中进行机器人的行动判断。另外，为了方便，记载为预测，但当然能进行检测、分类、推论等多种任务。

其中，能在预测模式中立即学习使机器人实际进行动作而得到的数据，并反映在下一次行动(在线学习)、能使用预先收集的数据组一并地进行学习且以后一直利用该参数进行检测模式(分批学习)。或者，也能每当其中间的、某程度数据驻留时夹着学习模式。

另外，权w1～w3能通过误差逆传运法(误差逆转传播法：反向传播：Backpropagation)进行学习。另外，误差的信息从右侧进入并流向左侧。误差逆传运法是关于各神经元，以减小输入了输入x时的输出y和真正的输出y(教师)的差的方式调整(学习)各自的权的方法。这种神经网络可以增加到三层以上的更多层(也称为深层学习)。另外，也能只从教师数据自动地获得阶段性地进行输入的特征抽出并将结果传回的运算装置。

如上所述，本实施方式的机械学习器2例如为了实施“强化学习(Q学习)”，具备状态观测部21、报酬计算部22、价值函数更新部23以及意思决策部24。但是，应用于本发明的机械学习方法未限定于Q学习，只要加上基于人的行动的报酬地进行报酬的计算的方法，也能应用其他机械学习方法。另外，机械学习(机械学习器2)例如能通过应用GPGPU、大规模PC组等实现的情况如上所述。

图4是示意地表示本实施方式的机器人***的一例的图，表示人1和机器人3协作地搬运工件W的例子。在图4中，参照符号1表示人(作业人员)，3表示机器人(协作机器人)，30表示机器人控制部，31表示机器人3的基座部分，并且，32表示机器人3的手部分。另外，参照符号41表示触觉传感器，42表示传声器，43表示输入装置(示教器)，44表示摄像机，45a、45b表示力传感器，46表示扬声器，并且，W表示工件。在此，参照图1说明的机械学习器2例如设于机器人控制部30。另外，输入装置43例如作为手表状的装置，人1能安装。

如图4所示，在机器人***的一例中，传声器42、摄像机44及扬声器46设于机器人3的手部分32的附近，力传感器45a设于机器人3的基座部分31，力传感器45b设于机器人3的手部分32。传声器42、摄像机44、力传感器45a、45b以及触觉传感器41的输出的至少一个为输入参照图1说明的机械学习器2的状态观测部21的状态变量(状态量)。力传感器45a、45b检测由机器人3的动作产生的力。

触觉传感器41设于机器人3的手部分32的附近，通过该触觉传感器41将基于人1的行动的报酬(第二报酬)给予机械学习器2(报酬计算部22)。具体地说，第二报酬在人1通过触觉传感器41抚摸机器人3时设定正报酬，在敲打机器人3时设定负报酬，该第二报酬例如加在基于控制数据及状态变量的报酬(第一报酬)上。另外，触觉传感器41例如也能设置为覆盖机器人3的整体，另外，为了确保安全性，例如也能在由触觉传感器41感受到轻微的碰撞时，使机器人3停止。

或者，例如在通过设于机器人3的手部分32的传声器42，人1夸奖机器人3时设定正报酬，在批评机器人3时设定负报酬，将该报酬(第二报酬)加于基于控制数据以及状态变量的第一报酬上。另外，由人1产生的报酬(第二报酬)未限定于通过触觉传感器41抚摸/敲打、或者通过传声器42夸奖/批评，能通过多种传感器等将由人1产生的报酬加在上述第一报酬上。

图5是示意地表示图4所示的机器人***的变形例的图。从图5与图4的比较可以看出，在图5所示的变形例中，触觉传感器41设于人1容易进行抚摸/敲打之类的动作的机器人3的一部分，摄像机44设于机器人3的上方。其中，摄像机44例如具有变焦距功能，能扩大/缩小摄影。

另外，力传感器45a只设于机器人3的基座部分31，传声器42供人1安装。另外，输入装置43为固定的装置，在该输入装置43上设有扬声器46。这样，触觉传感器41、传声器42、输入装置43、摄像机44、力传感器45以及扬声器46等能设于多种场所(例如周边设备)。

图6是用于说明本实施方式的机器人***的一例的方框图。如图6所示，机器人***包括协作机器人(人和机器人协作地进行作业的机器人)3、机器人控制部30、机械学习器2、作业意图识别部51、声音识别部52及质问生成部53。另外，机器人***还包括触觉传感器41、传声器42、输入装置43、摄像机44、力传感器45以及扬声器46等。其中，机械学习器2例如能解析在人1和机器人3协作地进行作业后的特征点或工件W的分布而学习机器人3的动作。

作业意图识别部51例如接收摄像机44、力传感器45、触觉传感器41、扬声器42以及输入装置43的输出，识别作业的意图。声音识别部52识别从传声器42输入的人1的声音，作业意图识别部51基于声音识别部52修正机器人3的动作。

质问生成部53例如基于由作业意图识别部51进行的作业意图的解析，生成相对于人1的质问，通过扬声器46将所生成的质问传递至人1。另外，传声器42接收相对于来自扬声器46的质问的人1的回答，声音识别部52识别通过传声器42输入的人1的回答并输出至作业意图识别部51。

在图6所示的机器人***的例子中，例如输入参照图1说明的机械学习器2的状态观测部21的状态变量作为作业意图识别部51的输出而给予。在此，作业意图识别部51将基于人1的行动的报酬(第二报酬)转换为与该报酬相当的状态变量并输出至状态观测部21。即，作业意图识别部51将基于人1的行动的正报酬转换为设定为正报酬的状态变量并输出至状态观测部21，另外，将基于人1的行动的负报酬变换为设定为负报酬的状态变量并输出至状态观测部21。

另外，在本机器人***中，机械学习器2能将直至预定的时点学习的动作设定为不过度学习。这是例如充分进行机器人的动作的学习，不尝试(不学习)过度的学习的一方能使作业稳定地进行的情况等。另外，机器人控制部30在通过触觉传感器41感受到轻微的碰撞(例如与由人1进行的抚摸/敲打不同的碰撞)时，能考虑安全而使机器人3停止的情况如上所述。

在此，基于图6说明本实施方式的机器人***的处理的一例。例如，人(作业人员)1发出的声音通过传声器42输入声音识别部52，进行内容的解析。通过声音识别部52解析(识别)后的声音的内容被输入作业意图识别部51。另外，向作业意图识别部51还输入来自触觉传感器41、传声器42、输入装置43、摄像机44以及力传感器45的信号，与作业人员1发言的内容一致地解析作业人员1进行的作业意图。另外，输入作业意图识别部51的信号未限定于上述，可以是多种传感器等的输出。

作业意图识别部51能结合声音(传声器42的输出)和摄像机图像(摄像机44的输出)，例如若说“工件”则能识别图像中的哪个是工件。这可以例如通过组合利用Google(注册商标)的自动生成图像的说明文章的技术以及已有的声音识别技术来实现。

另外，作业意图识别部51具备简单的词汇，例如若说“使工件稍微向右”，则能使机器人(协作机器人)3进行使工件稍微向右移动的动作。这已经通过例如利用Windows(注册商标)的声音识别进行的电脑的操作、利用声音识别的便携电话等的可动设备的操作实现。

另外，在本实施方式的机器人***中，还能结合声音(传声器42的输出)和力传感器信息(力传感器45)，例如若说“再稍微弱”，则能以向力传感器45的输入变弱的方式控制协作机器人3。具体地说，在以输入相对于x方向的力的状态下说“再稍微弱”的情况下，以相对于x方向的力弱的方式并以例如使向x方向的速度、加速度、力的输入下降的方式控制协作机器人3。

在作业意图识别部51中，存储摄像机图像内的作业前后(例如说了“作业开始”以及“作业结束”时)的特征点分布，能以特征点分布成为作业后的状态的方式控制协作机器人3。在此，作为特征点，例如是能通过应用自动编码器(自身符号化器)适当地表现作业的点，该特征点例如能通过以下的顺序选择。

图7A及图7B是用于说明利用图6所示的机器人***进行的动作的一例的图，用于说明特征点的选择顺序。即，表示相对于图7A所示那样的、离开地放置的L字型工件W0及星形螺栓S0，通过机器人3的动作，图7B所示那样的、在L字型工件W0的端部载置了星形螺栓S0的情况。

首先，选择适当的特征点(CP1～CP7)，存储作业前后的分布和位置关系。其中，特征点可以由人设置，但由机器人自动设定比较方便。另外，自动设定的特征点相对于工件W0内的特征的部分CP1～CP6、认为部件S0的部分CP7、或在作业前后有变化的点等设定。另外，在作业后的分布上有法则的点(特征点)为良好地表示其作业的特征点。相反，在作业后的分布上没有规则性的点通过为不表示其作业的特征点而被放弃。通过对每个协作作业进行该处理，能机械学习地应用正确的特征点和该特征点的作业后的分布。其中，还存在特征点的分布允许稍微偏差的情况，但这也能例如通过应用使用了神经网络的深层学习而具有灵活性地学习。

例如，在图7A及图7B所示那样的、在L字型工件W0的端部载置星形螺栓S0的情况下，例如选择特征点(虚线框)CP1～CP7，存储各个特征点的作业结束时的分布。并且，以成为作业结束时的特征点分布的方式使物体(W0，S0)移动，作业结束。

图8是用于说明通过应用了神经网络的深层学习实现图7A及图7B所示的利用机器人***进行的动作的情况下的处理的一例的图。在图8中，首先，如SN1所示，例如将作业结束时的图像内的像素输入各个神经元(神经网络)，如SN2所示，通过神经元识别图像内的特征点(CP1～CP7)、物体(W0，S0)。另外，如SN3所示，通过神经元学习图像内的特征点、物体的分布规则，能解析作业意图。另外，神经网络的阶层未限定于输入层、中间层以及输出层这三阶层，例如当然也可以通过多个阶层形成中间层。

接着，在作业时，与上述的SN1～SN3相同，通过使作业前的图像通过神经元，如SN4所示，进行图像内的特征点、物体的识别(特征点的取出)，并且，如SN5所示，通过SN2及SN3的神经元的处理，计算作业结束时的特征点、物体的分布。并且，控制机器人3，以成为所计算出的特征点、物体分布的方式使物体(W0，S0)移动，作业结束。

另外，参照上述的图6，继续说明。如图6所示，例如如果在利用作业意图识别部51进行的解析时有不清楚的点、想确认的点，则回到质问生成部53，将来自质问生成部53的质问内容通过扬声器46传递至作业人员(人)1。具体地说，在作业人员1说“使工件进一步向右”的情况下，例如协作机器人3(机器人***)使工件稍微向右移动，能够问作业人员1“是这个位置吗？”。

作业人员对通过扬声器46接收到的提问进行回答，该回答通过传声器42及声音识别部52解析作业人员1的回答的内容，并反馈至作业意图识别部51，再次解析作业意图。将作业意图识别部51的解析结果(例如还包括将基于上述的作业人员1的行动的报酬(第二报酬)转换为与该报酬相当的状态变量的输出)向机械学习器2输出。另外，机械学习器2的处理之前详述过，因此省略，但机械学习器2的输出被输入机器人控制部30，控制协作机器人3，并且，例如基于所得到的作业意图，运用于今后的协作机器人3的控制。

本机器人想在协作作业时也一边稍微改变动作方式、动作速度一边改善作业。如上所述，由作业人员1得到的报酬(第二报酬)能通过借助于触觉传感器41抚摸/敲打、或者通过传声器42夸奖/批评，相对于作业的改善设定正报酬/负报酬，但例如在作业人员1通过视觉传感器41敲打协作机器人3(设定负报酬：给予惩罚)时，协作机器人3也能够例如进行今后不进行在给予该惩罚不久之前的动作改变后的方向的修正的动作的改善。

另外，例如协作机器人3在某区间稍微移动地改变，结果，在被批评(给予惩罚)的情况下，也能进行在该区间今后不进行提前移动的修正的动作的改善。另外，例如在动作次数少的情况下等，在机器人***(协作机器人3)不清楚为什么被惩罚的情况下，机器人***1(质问生成部53)对作业人员1进行提问，此时，例如若说再慢点儿进行动作，则协作机器人3以从下次再慢点进行动作的方式进行控制。

这样，本实施方式的机器人***(协作机器人)3不仅是基于状态变量的动作的机械学习，还能基于人(作业人员)1的行动修正(改善)协作机器人3的动作。另外，通过作业意图识别部51(声音识别部52、质问生成部53)与作业人员1谈话，能进一步改进协作机器人3的动作。在该协作机器人3与作业人员1的谈话中，作为质问生成部53生成的质问，例如不仅是在发现多个工件时“取哪个工件”、或者“将工件放在哪里”这一类的基于与作业人员的协作作业的提问，例如在学习量不足而可靠度低的情况下，可以向作业人员11询问“这个工件可以吗”、或“在这里可以吗”这一自身的提问。

以上，如上所详述，根据本发明的机械学习器、机器人***及机械学习方法的实施方式，能在协作作业中收集学习数据，能进一步改善人和机器人协作地进行作业的机器人的动作。另外，根据本发明的机械学习器、机器人***以及机械学习方法的实施方式，能在人和机器人协作地进行作业时，通过各种传感器信息、与人的谈话等改进协作动作。根据情况，不需要与人协作，能以机器人单体完成任务。

根据本发明的机械学习器、机器人***及机械学习方法，起到能进一步改善人和机器人协作地进行作业的机器人的动作的效果。另外，根据本发明的机械学习器、机器人***及机械学习方法，还起到在人和机器人协作地进行作业时，通过各种传感器信息、与人的谈话等改善协作动作的效果。

以上，说明了实施方式，但在此记载的全部的例子、条件是以帮助应用于发明及技术的发明的概念的理解的目的而记载，特别记载的例子、条件并不限定发明的范围。另外，说明书这种记载并不表示发明的优点及缺点。详细地记载了发明的实施方式，但当然能理解为能不脱离发明的精神及范围地进行各种改变、置换及变形。

Claims

1.一种机器人***，其具备：

机械学习器，其学习人和机器人协作地进行作业的机器人的动作，并且具备：

状态观测部，其在上述人和上述机器人协作地进行作业时，观测表示上述机器人的状态的状态变量；报酬计算部，其基于控制上述机器人的控制数据、上述状态变量以及上述人的行动计算报酬；以及价值函数更新部，其基于上述报酬及上述状态变量，更新对上述机器人的动作进行控制的行动价值函数；

与上述人协作地进行作业的上述机器人；

控制上述机器人的动作的机器人控制部；以及

作业意图识别部，其接收摄像机、力传感器、触觉传感器、传声器以及输入装置的输出，并识别作业的意图，

上述机器人***的特征在于，

上述机械学习器解析上述人和上述机器人协作地进行作业后的特征点或工件的分布，并学习上述机器人的动作，

输入到上述机械学习器的上述状态观测部的上述状态变量包括上述作业意图识别部的输出，

上述作业意图识别部将基于上述人的行动的正报酬变换为设定为正报酬的状态变量并向上述状态观测部输出，并且

将基于上述人的行动的负报酬变换为设定为负报酬的状态变量并向上述状态观测部输出。

2.根据权利要求1所述的机器人***，其特征在于，

上述报酬计算部在基于上述控制数据以及上述状态变量的第一报酬上加上基于上述人的行动的第二报酬来计算上述报酬。

3.根据权利要求2所述的机器人***，其特征在于，

关于上述第二报酬，

在通过设于上述机器人的上述触觉传感器抚摸上述机器人时设定正报酬，在敲打上述机器人时设定负报酬，或者，

在通过设于上述机器人的一部分或上述机器人的附近、或者安装于上述人的传声器夸奖上述机器人时设定正报酬，在批评上述机器人时设定负报酬。

4.根据权利要求1～3任一项所述的机器人***，其特征在于，

还具备基于上述价值函数更新部的输出来决定对上述机器人的动作进行规定的指令数据的意思决策部。

5.根据权利要求1～3任一项所述的机器人***，其特征在于，

上述状态变量包括上述摄像机、上述力传感器、上述传声器以及上述触觉传感器的输出的至少一个。

6.根据权利要求5所述的机器人***，其特征在于，

上述摄像机直接设于上述机器人或设于上述机器人的上方周围，

上述力传感器设于上述机器人的基座部分、或把手部分、或周边设备的至少一处，或者，

上述触觉传感器设于上述机器人的至少一部分或周边设备。

7.根据权利要求1～3任一项所述的机器人***，其特征在于，

还具备识别从上述传声器输入的上述人的声音的声音识别部，

上述作业意图识别部基于上述声音识别部修正上述机器人的动作。

8.根据权利要求7所述的机器人***，其特征在于，

还具备：

质问生成部，其基于利用上述作业意图识别部进行的作业意图的解析生成相对于上述人的质问；以及

扬声器，其将由上述质问生成部生成的上述质问向上述人传递。

9.根据权利要求8所述的机器人***，其特征在于，

上述传声器接收相对于来自上述扬声器的上述质问的上述人的回答，

上述声音识别部识别通过上述传声器输入的上述人的回答，并向上述作业意图识别部输出。

10.根据权利要求1～3任一项所述的机器人***，其特征在于，

上述机械学习器能以不过度学习的方式设定学习至预定的时间的动作。

11.根据权利要求1～3任一项所述的机器人***，其特征在于，

在通过上述触觉传感器感受到轻微的碰撞时，上述机器人控制部使上述机器人停止。