CN114051443A

CN114051443A - 信息处理装置、机器人***以及信息处理方法

Info

Publication number: CN114051443A
Application number: CN202080046345.4A
Authority: CN
Inventors: 高桥城志; 安斋智纪
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2019-07-03
Filing date: 2020-07-03
Publication date: 2022-02-15
Also published as: WO2021002465A1; US20220113724A1; JPWO2021002465A1

Abstract

实施方式所涉及的信息处理装置具备获取部和推理部。获取部获取物体的图像信息以及表示抓持物体的抓持部与物体的接触状态的触觉信息。推理部基于图像信息的第一贡献度和触觉信息的第二贡献度的至少一方，得到表示物体的位置和姿势的至少一方的输出数据。

Description

信息处理装置、机器人***以及信息处理方法

技术领域

本发明的实施方式涉及一种信息处理装置、机器人***以及信息处理方法。

背景技术

已知利用抓持部(手部等)将物体抓持并搬运的机器人***。这样的机器人***例如根据对物体进行摄像得到的图像信息等估计物体的位置和姿势等，基于估计出的信息控制物体的抓持。

非专利文献1：Jaekyum Kim,et al.,“Robust Deep Multi-modal LearningBased on Gated Information Fusion Network”,arXiv:1807.06233,2Nov 2018.

非专利文献2：Arevalo,John,et al.,“GATED MULTIMODAL UNITS FORINFORMATION FUSION”,[online],retrieved from the Internet:<URL:https：//openreview.net/pdf？id＝Hy-2G6ile>

发明内容

发明要解决的问题

发明要解决的问题在于，能够更高精度地估计物体的位置和姿势的至少一方。

用于解决问题的方案

实施方式所涉及的信息处理装置具备获取部和推理部。获取部获取物体的图像信息以及表示抓持物体的抓持部与物体的接触状态的触觉信息。推理部基于图像信息的第一贡献度和触觉信息的第二贡献度的至少一方得到表示物体的位置和姿势的至少一方的输出数据。

附图说明

图1是表示包括实施方式的信息处理装置的机器人***的硬件结构例的图。

图2是表示机器人的结构例的图。

图3是信息处理装置的硬件框图。

图4是表示信息处理装置的功能结构的一例的功能框图。

图5是表示神经网络的结构例的图。

图6是表示实施方式中的学习处理的一例的流程图。

图7是表示实施方式中的控制处理的一例的流程图。

图8是表示变形例中的异常检测处理的一例的流程图。

(附图标记说明)

1：机器人***；100：信息处理装置；101：获取部；102：学习部；103：推理部；104：检测部；105：动作控制部；106：输出控制部；121：存储部；200：控制器；204：存储器；206：硬件处理器；208：存储装置；210：操作装置；212：显示装置；214：通信装置；222：ROM；224：RAM；300：机器人；301：摄像部；302：触觉传感器；311：抓持部；400：传感器；500：物体

具体实施方式

以下，参照图来详细地说明实施方式。

图1是表示包括本实施方式的信息处理装置100的机器人***1的硬件结构例的图。如图1所示，机器人***1具备信息处理装置100、控制器200、机器人300以及传感器400。

机器人300是由信息处理装置100控制位置和姿势的至少一方(轨道)而移动的移动体的例子。机器人300例如具备抓持物体的抓持部(抓持装置)、多个连杆、多个关节以及驱动各个关节的多个驱动装置(马达等)。以下，以至少具备抓持物体的抓持部并使抓持的物体移动的机器人300为例进行说明。

图2是表示这样构成的机器人300的结构例的图。如图2所示，机器人300具备抓持部311、摄像部(摄像装置)301以及触觉传感器302。抓持部311抓持要移动的物体500。摄像部301是对物体500进行摄像并输出图像信息的摄像装置。摄像部301并不必须配备于机器人300，也可以设置于机器人300的外部。

触觉传感器302是获取表示抓持部311与物体500的接触状态的触觉信息的传感器。触觉传感器302例如是输出如下图像信息来作为触觉信息的传感器：使凝胶状的原材料与物体500接触，由与摄像部301不同的摄像装置对凝胶状的原材料因接触所产生的位移进行摄像得到的图像信息。这样，触觉信息也可以是以图像形式表示接触状态的信息。触觉传感器302不限于此，可以是任意的传感器。例如，触觉传感器302也可以是使用因抓持部311与物体500的接触所产生的压力、电阻值以及静电电容的至少一个来探测触觉信息的传感器。

能够应用的机器人(移动体)不限于此，可以是任意的机器人(移动体)。例如，也可以是具备一个关节和连杆的机器人、移动机械手以及移动台车。另外，也可以是具备用于使机器人整体在实际空间内的任意的方向上平行移动的驱动装置的机器人。移动体既可以是像这样整体的位置发生变化的物体，也可以是一部分位置被固定而其它部分的位置和姿势的至少一方发生变化的物体。

返回到图1，传感器400探测用于在机器人300的动作的控制中使用的信息。传感器400例如是探测直到物体500为止的深度信息的深度传感器(depth sensor)。传感器400不限于深度传感器。另外，也可以不具备传感器400。传感器400也可以是如上述那样设置于机器人300的外部的摄像部301。也可以构成为机器人300还具备深度传感器等传感器400。

控制器200根据来自信息处理装置100的指示对机器人300的驱动进行控制。例如，控制器200对机器人300的抓持部311和驱动关节等的驱动装置(马达等)进行控制，以使得按由信息处理装置100指定的旋转方向和旋转速度旋转。

信息处理装置100连接于控制器200、机器人300以及传感器400，对机器人***1的整体进行控制。例如，信息处理装置100对机器人300的动作进行控制。机器人300的动作的控制中包括基于物体500的位置和姿势的至少一方使机器人300动作(移动)的处理。信息处理装置100将用于使机器人300动作的动作指令输出到控制器200。信息处理装置100也可以具备学习用于对物体500的位置和姿势的至少一方进行估计(推理)的神经网络的功能。在该情况下，信息处理装置100还作为学习神经网络的学习装置发挥功能。

图3是信息处理装置100的硬件框图。作为一例，通过如图3所示的与一般的计算机(信息处理装置)同样的硬件结构来实现信息处理装置100。关于信息处理装置100，既可以通过如图3所示的一个计算机来实现，也可以通过协作动作的多个计算机来实现。

信息处理装置100具备存储器204、一个或多个硬件处理器206、存储装置208、操作装置210、显示装置212以及通信装置214。各部分通过总线被连接。一个或多个硬件处理器206也可以包含在协作动作的多个计算机中。

存储器204例如包括ROM 222和RAM 224。ROM 222将在信息处理装置100的控制中使用的程序和各种设定信息等以不能改写的方式进行存储。RAM 224是SDRAM(SynchronousDynamic Ran dom Access Memory：同步动态随机存取存储器)等易失性存储介质。RAM 224作为一个或多个硬件处理器206的作业区域发挥功能。

一个或多个硬件处理器206经由总线连接于存储器204(ROM 222和RAM 224)。一个或多个硬件处理器206例如既可以是一个或多个CPU(Central Processing Unit：中央处理单元)，也可以是一个或多个GPU(Graphics Processing Unit：图形处理单元)。另外，一个或多个硬件处理器206也可以是包括用于实现神经网络的专用处理电路的半导体装置等。

一个或多个硬件处理器206将RAM 224的规定区域作为作业区域，通过与被预先存储在ROM 222或存储装置208中的各种程序的协作来执行各种处理，总括控制构成信息处理装置100的各部分的动作。另外，一个或多个硬件处理器206通过与被预先存储在ROM 222或存储装置208中的程序的协作来对操作装置210、显示装置212以及通信装置214等进行控制。

存储装置208是快闪存储器等利用半导体的存储介质、或者能够以磁或光学方式记录的存储介质等能够改写的记录装置。存储装置208存储在信息处理装置100的控制中使用的程序和各种设定信息等。

操作装置210是鼠标和键盘等输入设备。操作装置210受理由用户操作输入的信息，将所受理的信息输出到一个或多个硬件处理器206。

显示装置212向用户显示信息。显示装置212从一个或多个硬件处理器206接收信息等，显示所接收到的信息。此外，在向通信装置214或存储装置208等输出信息的情况下，信息处理装置100也可以不具备显示装置212。

通信装置214与外部的设备进行通信，经由网络等发送接收信息。

由本实施方式的信息处理装置100执行的程序以能够安装的形式或能够执行的形式的文件被记录在CD-ROM、软盘(FD)、CD-R、DVD(Digital Versatile Disk：数字通用盘)等能够由计算机读取的记录介质中来作为计算机程序产品被提供。

另外，也可以构成为将由本实施方式的信息处理装置100执行的程序保存在连接于因特网等网络的计算机上，通过经由网络下载来提供。另外，也可以构成为经由因特网等网络提供或分发由本实施方式的信息处理装置100执行的程序。另外，也可以构成为将由本实施方式的信息处理装置100执行的程序预先装入ROM等中来提供。

由本实施方式所涉及的信息处理装置100执行的程序可以使计算机作为后述的信息处理装置100的各部分发挥功能。该计算机能够由硬件处理器206从计算机可读取的存储介质将程序读出到主存储装置上并执行。

图1所示的硬件结构是一例，不限于此。也可以构成为一个装置具备信息处理装置100、控制器200、机器人300以及传感器400中的一部分或全部。例如，也可以构成为机器人300还具备信息处理装置100、控制器200以及传感器400的功能。另外，也可以构成为信息处理装置100还具备控制器200和传感器400的一方或两方的功能。另外，在图1中记载了信息处理装置100还可作为学习装置发挥功能，但是也可以通过物理上不同的装置来实现信息处理装置100和学习装置。

接着，说明信息处理装置100的功能结构。图4是表示信息处理装置100的功能结构的一例的功能框图。如图4所示，信息处理装置100具备获取部101、学习部102、推理部103、检测部104、动作控制部105、输出控制部106以及存储部121。

获取部101获取在由信息处理装置100执行的各种处理中使用的各种信息。例如，获取部101获取用于学习神经网络的学习数据。学习数据的获取方法可以是任意的方法，获取部101例如从外部的装置经由网络等获取预先制作的学习数据，或者从存储介质获取预先制作的学习数据。

学习部102使用学习数据来学习神经网络。神经网络例如输入由摄像部301进行摄像得到的物体500的图像信息以及由触觉传感器302得到的触觉信息，输出作为物体500的位置和姿势的至少一方的输出数据。

学习数据例如是将图像信息、触觉信息以及物体500的位置及姿势的至少一方(正解数据)相对应所得到的数据。通过使用这样的学习数据进行学习，得到针对所输入的图像信息和触觉信息输出表示物体500的位置和姿势的至少一方的输出数据的神经网络。此外，表示位置和姿势的至少一方的输出数据包括表示位置的输出数据、表示姿势的输出数据以及表示位置和姿势这两方的输出数据。稍后叙述神经网络的结构例和学习方法的详情。

推理部103使用学习得到的神经网络来执行推理。例如，推理部103对神经网络输入图像信息和触觉信息，得到神经网络所输出的表示物体500的位置和姿势的至少一方的输出数据。

检测部104检测在机器人300的动作的控制中使用的信息。例如，检测部104使用由推理部103得到的多个输出数据，检测物体500的位置和姿势的至少一方的变化。检测部104也可以检测相对于开始了物体500的抓持的时间点的物体500的位置和姿势的至少一方的、之后得到的物体500的位置和姿势的至少一方的相对变化。相对变化包括物体500相对于抓持部311进行旋转或平行移动(平移)所产生的变化。这样的相对变化的信息能够使用于在抓持了物体500的状态下对物体的位置和姿势的至少一方进行控制的手中操作(In-HandManipulation)等。

如果已得到开始了物体500的抓持的时间点的、绝对坐标下的物体500的位置和姿势，则根据检测出的相对变化的信息还能够求出绝对坐标下的物体500的位置和姿势的变化。在摄像部301设置于机器人300的外部的情况下，也可以构成为求出机器人300相对于摄像部301的位置信息。由此，能够更容易地求出绝对坐标下的物体500的位置和姿势。

动作控制部105对机器人300的动作进行控制。例如，动作控制部105参照由检测部104检测出的物体500的位置和姿势的至少一方的变化，以将物体500设为目标的位置和姿势的方式对抓持部311和机器人300的位置等进行控制。更具体地说，动作控制部105生成用于以将物体500设为目标的位置和姿势的方式使机器人300动作的动作指令，将动作指令发送到控制器200，由此使机器人300动作。

输出控制部106对各种信息的输出进行控制。例如，输出控制部106对将信息显示在显示装置212的处理以及使用通信装置214经由网络发送接收信息的处理进行控制。

存储部121存储在信息处理装置100中使用的各种信息。例如，存储部121存储神经网络的参数(权重系数、偏置等)以及用于学习神经网络的学习数据。例如通过图3的存储装置208来实现存储部121。

例如通过一个或多个硬件处理器206来实现上述各部分(获取部101、学习部102、推理部103、检测部104、动作控制部105以及输出控制部106)。例如，也可以通过使一个或多个CPU执行程序、即通过软件来实现上述各部分。也可以通过专用的IC(IntegratedCircuit：集成电路)等硬件处理器、即通过硬件来实现上述各部分。也可以同时使用软件和硬件来实现上述各部分。在使用多个处理器的情况下，各处理器既可以实现各部分中的一个，也可以实现各部分中的两个以上。

接着，说明神经网络的结构例。以下，以输入图像信息和触觉信息这两个信息并输出物体500的位置和姿势的神经网络为例进行说明。图5是表示神经网络的结构例的图。此外，以下以包括CNN(Convolutional Neural Network：卷积神经网络)的神经网络的结构为例进行说明，但是也可以使用CNN以外的神经网络。另外，图5所示的神经网络是一例，不限于此。

如图5所示，神经网络包括CNN 501、CNN 502、联合器503、乘法器504、乘法器505以及联合器506。CNN 501及502分别是输入图像信息和触觉信息的CNN。

联合器503将CNN 501的输出与CNN 502的输出进行联合(concatenate)。联合器503也可以构成为神经网络。例如，能够将联合器503设为全联合的神经网络，但是不限于此。联合器503例如是输入CNN 501的输出和CNN 502的输出并输出α和β(二维信息)的神经网络。联合器503也可以是仅输出α、或者仅输出β(一维信息)的神经网络。在前者的情况下，例如能够通过β＝1-α来计算β。在后者的情况下，例如能够通过α＝1-β来计算α。联合器503例如也可以使用ReLu函数、S型(sigmoid)函数以及柔性最大值(softmax)函数等来控制输出的范围。例如，联合器503也可以构成为输出满足α+β＝1的α和β。

向联合器503输入的信息的个数、换言之传感器的个数不限于2个，也可以是N个(N为2以上的整数)。在该情况下，联合器503构成为输入与各传感器对应的CNN的输出并输出N维或(N-1)维的信息(α、β、γ、···等)即可。

乘法器504对CNN 501的输出乘以α。乘法器505对CNN 502的输出乘以β。α和β是基于联合器503的输出计算的值(例如矢量)。α和β分别是相当于对于神经网络的最终的输出数据(位置和姿势的至少一方)的、图像信息的贡献度(第一贡献度)和触觉信息的贡献度(第二贡献度)的值。例如，通过在神经网络中包括输入联合器503的输出并输出α和β的中间层，能够计算α和β。

关于α和β，还能够解释为表示为了进行输出数据的计算而将图像信息和触觉信息分别使用何种程度的值(使用比例)、图像信息和触觉信息各自的权重以及图像信息和触觉信息各自的可靠度等。

在以往的被称为注意力(attention)的技术中，例如计算表示关注图像上的哪个部分的值。在这样的技术中，可能产生如下问题：例如即使在输入信息(图像信息等)的可靠性(或者数据的相关关系)低的状况下，也关注应用了注意力的一部分数据。

与此相对，在本实施方式中，计算图像信息和触觉信息对于输出数据的贡献度(使用比例、权重或可靠度)。例如在图像信息的可靠度低的情况下，α接近0。在计算最终的输出数据时使用该α的值与来自CNN 501的输出的相乘结果。这意味着，在无法信赖图像信息的情况下，计算最终的输出数据时的图像信息的使用比例下降。通过这样的功能，能够更高精度地估计物体的位置和姿势等。

此外，CNN 501对联合器503的输出与CNN 501对乘法器504的输出既可以相同，也可以不同。来自CNN 501的各输出的维数也可以互不相同。同样地，CNN 502对联合器503的输出与CNN 502对乘法器505的输出既可以相同，也可以不同。来自CNN 502的各输出的维数也可以互不相同。

联合器506将乘法器504的输出与乘法器505的输出进行联合，输出联合结果来作为表示物体500的位置和姿势的至少一方的输出数据。联合器506也可以构成为神经网络。例如，能够将联合器503设为全联合的神经网络和LSTM(Long short term memory：长短期记忆)神经网络，但是不限于此。

在如上述那样联合器503仅输出α或者仅输出β的情况下，还能够解释为仅使用α或者仅使用β来得到输出数据。即，推理部103能够基于图像信息的贡献度α和触觉信息的贡献度β的至少一方得到输出数据。

接着，说明这样构成的本实施方式所涉及的信息处理装置100的学习处理。图6是表示本实施方式中的学习处理的一例的流程图。

首先，获取部101获取包括图像信息和触觉信息的学习数据(步骤S101)。获取部101获取例如从外部的装置经由网络等获取并存储在存储部121中的学习数据。通常，学习处理重复执行多次。获取部101也可以获取多个学习数据中的一部分来作为在各次的学习中使用的学习数据(分批)。

接着，学习部102将包括在获取到的学习数据中的图像信息和触觉信息输入到神经网络，得到神经网络所输出的输出数据(步骤S102)。

学习部102使用输出数据来更新神经网络的参数(步骤S103)。例如，学习部102以使输出数据与包括在学习数据中的正解数据(表示物体500的位置和姿势的至少一方的正解数据)的误差(E1)最小化的方式更新神经网络的参数。学习部102可以将任意的算法用于学习，例如能够使用误差反向传播法来进行学习。

如上述那样，α和β表示图像信息和触觉信息对于输出数据的贡献度。因此，学习部102也可以以使α和β满足α+β＝1的方式进行学习。例如，学习部102也可以以使对误差E1加上决定为在α+β＝1的情况下最小的误差E2所得到的误差E(E＝E1+E2)最小的方式进行学习。

学习部102判定是否结束学习(步骤S104)。例如，学习部102根据是否对全部的学习数据进行了处理、误差的改善的大小是否变得小于阈值、或者学习的次数是否达到上限值等，来判定学习的结束。

在学习未结束的情况下(步骤S104：“否”)，返回到步骤S101，对新的学习数据重复进行处理。在判定为学习结束的情况下(步骤S104：“是”)，结束学习处理。

通过如以上那样的学习处理，得到针对包括图像信息和触觉信息的输入数据输出表示物体500的位置和姿势的至少一方的输出数据的神经网络。该神经网络不仅能够用于输出输出数据，还能够用于从中间层得到贡献度α和β。

另外，根据本实施方式，能够根据学习的进度来变更对学习有贡献的学习数据的种类。例如，在学习的初始阶段，图像信息的贡献度提高，从中途起触觉信息的贡献度提高，由此从容易学习的部分起学习，能够更高效地推进学习。由此，与输入多个输入信息的一般的神经网络的学习(不使用注意力的多模态学习等)相比，能够在短时间内进行学习。

接着，说明本实施方式所涉及的信息处理装置100对机器人300的控制处理。图7是表示本实施方式中的控制处理的一例的流程图。

获取部101获取由摄像部301进行摄像得到的图像信息以及由触觉传感器302检测出的触觉信息来作为输入数据(步骤S201)。推理部103将获取到的输入数据输入到神经网络，得到神经网络所输出的输出数据(步骤S202)。

检测部104使用所得到的输出数据来检测物体500的位置和姿势的至少一方的变化(步骤S203)。例如，检测部104检测输出数据相对于在多个时刻得到的多个输入数据的变化。动作控制部105根据检测出的变化对机器人300的动作进行控制(步骤S204)。

根据本实施方式，例如在由于摄像部301的异常和摄像环境(照明等)的恶化等而图像信息的可靠度变低的情况下，通过推理部103的处理来降低图像信息的贡献度而输出输出数据。另外，例如在由于触觉传感器302的异常等而触觉信息的可靠度变低的情况下，通过推理部103的处理来降低触觉信息的贡献度而输出输出数据。由此，能够更高精度地估计表示物体的位置和姿势的至少一方的输出数据。

(变形例1)

在频繁地或持续地输出与学习时极端不同的贡献度的情况下，能够判定为在传感器(摄像部301、触觉传感器302)中产生了故障或异常。例如，在由于故障而从传感器输出的信息(图像信息、触觉信息)仅为噪声的情况、或者值为零的情况下，该信息的贡献度的值接近0。

因此，检测部104检测部104也可以还具备基于图像信息的贡献度α和触觉信息的贡献度β的至少一方检测摄像部301和触觉传感器302的异常的功能。基于贡献度的异常的检测(判定)方法可以是任意的方法，例如能够应用如下方法。

·在贡献度α的变化为阈值(第一阈值)以上的情况下判定为在摄像部301中产生了异常。

·在贡献度β的变化为阈值(第二阈值)以上的情况下判定为在触觉传感器302中产生了异常。

·在贡献度α为阈值(第一阈值)以下的情况下判定为在摄像部301中产生了异常。

·在贡献度β为阈值(第二阈值)以下的情况下判定为在触觉传感器302中产生了异常。

例如在满足α+β＝1的关系的情况下，检测部104如果能够得到α和β中的一方则还能够得到另一方。即，检测部104能够基于α和β的至少一方检测摄像部301和触觉传感器302的至少一方的异常。

关于贡献度的变化，也可以使用在预先决定的期间内得到的多个贡献度的变化的平均值。另外，也可以使用通过1次推理来得到的贡献度的变化。即，检测部104也可以在即使贡献度只有一次表示异常的值的情况下，也判定为在对应的传感器中产生了异常。

动作控制部105也可以停止产生了异常的传感器(摄像部301、触觉传感器302)的动作。例如，动作控制部105也可以在检测出摄像部301的异常的情况下，停止摄像部301的动作，在检测出触觉传感器302的异常的情况下，停止触觉传感器302的动作。

在停止了动作的情况下，有时不再输出对应的信息(图像信息或触觉信息)。在这样的情况下，推理部103例如也可以将异常时用的信息(例如全部的像素值为0的图像信息和触觉信息)输入到神经网络。也可以是考虑到停止动作的情况，学习部102使用异常时用的学习数据来学习神经网络。由此，能够用一个神经网络来应对仅使一部分传感器动作的情况和使全部的传感器动作的情况这两方。

通过停止产生了异常的传感器(摄像部301、触觉传感器302)的动作，能够实现计算成本的降低以及消耗电力的降低等。动作控制部105也可以不管有无异常都能够停止传感器的动作。例如，动作控制部105也可以在指定了计算成本的降低的情况下和指定了低电力模式的情况下等停止被指定的传感器的动作。动作控制部105也可以使摄像部301和触觉传感器302中的贡献度小的一方的动作停止。

输出控制部106也可以在由检测部104检测出异常的情况下，输出表示检测出异常的信息(异常信息)。异常信息的输出方法可以是任意的方法，例如能够应用在显示装置212等上显示异常信息的方法、通过照明装置的发光(闪烁)等来输出异常信息的方法、使用扬声器等声音输出装置通过声音来输出异常信息的方法以及使用通信装置214等经由网络向外部装置(管理者用终端、服务器装置等)发送异常信息的方法等。通过输出异常信息，例如即使不清楚异常的详细的原因，也能够通知产生了异常(处于与通常状态不同的状态)。

图8是表示本变形例中的异常检测处理的一例的流程图。此外，在异常检测处理中，例如使用在图7所示的控制处理中进行使用神经网络的推理(步骤S202)时得到的贡献度。因而，控制处理与异常检测处理也可以并行执行。

检测部104获取在推理时得到的图像信息的贡献度α和触觉信息的贡献度β(步骤S301)。检测部104使用贡献度α、β来分别判定摄像部301和触觉传感器302的异常的有无(步骤S302)。

输出控制部106判定是否由检测部104检测出异常(步骤S303)。在检测出异常的情况下(步骤S303：“是”)，输出控制部106输出表示产生了异常的异常信息(步骤S304)。在未检测出异常的情况下(步骤S303：“否”)，异常检测处理结束。

(变形例2)

在上述实施方式和变形例中，主要说明了输入图像信息和触觉信息这两种信息的神经网络。神经网络的结构不限于此，也可以是输入其它2个以上的输入信息的神经网络。例如，也可以使用进一步输入图像信息和触觉信息以外的1个以上的输入信息的神经网络以及输入种类与图像信息及触觉信息不同的多个输入信息的神经网络。在输入信息为3个以上的情况下，也如α、β、γ···那样按每个输入信息决定贡献度即可。另外，也可以使用这样的神经网络来执行如变形例1所示的异常检测处理。

动作的移动体不限于机器人，例如也可以是汽车等车辆。即，本实施方式例如能够应用于使用将基于摄像部301的车辆的周围的图像信息和基于LIDAR(Laser ImagingDetection And Ranging：激光成像探测与测距)传感器的距离信息作为输入信息的神经网络的自动驾驶***。

输入信息不限于从摄像部301和触觉传感器302等传感器输入的信息，可以是任意的信息。例如，也可以将由用户输入的信息用作对神经网络的输入信息。在该情况下，如果应用上述变形例1，则例如能够检测由用户输入了不正当的输入信息。

神经网络的设计者不需要考虑应该使用多个输入信息的哪个等，例如以将多个输入信息全部输入的方式构建神经网络即可。这是因为，如果是适当地学习得到的神经网络，则能够增大需要的输入信息的贡献度且减小不需要的输入信息的贡献度来输出输出数据。

另外，还能够用于以下用途：使用在学习后得到的贡献度来发现多个输入信息中的不需要的输入信息。由此，例如能够以不使用贡献度低的输入信息的方式构建(修正)***。

例如考虑设计如下***的情况，该***包括输入基于多个摄像部的图像信息的神经网络。首先，以输入全部摄像部的图像信息的方式构建神经网络，按照上述实施方式学习神经网络。验证通过学习得到的贡献度，以不使用与贡献度低的图像信息对应的摄像部的方式设计***。这样，本实施方式还能够实现包括使用多个输入信息的神经网络的***的***集成的效率化。

本实施方式例如包括以下方式。

(方式1)

一种信息处理装置，具备：

推理部，将与由抓持部抓持的物体有关的多个输入信息输入到神经网络，得到表示所述物体的位置和姿势的至少一方的输出数据；以及

检测部，基于表示多个所述输入信息各自对所述输出数据的贡献的程度的多个贡献度，检测多个所述输入信息各自的异常。

(方式2)

根据方式1所述的信息处理装置，

所述检测部在所述贡献度的变化为阈值以上的情况下，判定为在对应的所述输入信息中产生了异常。

(方式3)

根据方式1所述的信息处理装置，

所述检测部在所述贡献度为阈值以下的情况下，判定为在对应的所述输入信息中产生了异常。

(方式4)

根据方式1所述的信息处理装置，

还具备动作控制部，在检测出所述输入信息的异常的情况下，该动作控制部停止生成所述输入信息的探测部的动作。

在本说明书中，“a、b以及c的至少一个(一方)”或“a、b或c的至少一个(一方)”的表现包括a、b、c、a-b、a-c、b-c、a-b-c的任意组合。另外，覆盖a-a、a-b-b、a-a-b-b-c-c等与任意要素的多个实例的组合。并且，覆盖具有a-b-c-d等追加a、b和/或c以外的其它要素的情形。

说明了本发明的几个实施方式，但是这些实施方式是作为例子提示的，并非意图限定发明的范围。这些新的实施方式能够以其它各种方式来实施，在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。这些实施方式、其变形包括在发明的范围、主旨内，并且包括在权利要求书中记载的发明及其均等的范围内。

Claims

1.一种信息处理装置，具备：

获取部，获取物体的图像信息以及表示抓持所述物体的抓持装置与所述物体的接触状态的触觉信息；以及

推理部，基于所述图像信息的第一贡献度和所述触觉信息的第二贡献度的至少一方，得到表示所述物体的位置和姿势的至少一方的输出数据。

2.根据权利要求1所述的信息处理装置，其中，

所述触觉信息是以图像形式表示所述接触状态的信息。

3.根据权利要求1或2所述的信息处理装置，其中，

还具备检测部，该检测部基于将多个所述图像信息和多个所述触觉信息输入到神经网络来得到的多个所述输出数据，检测所述物体的位置和姿势的至少一方的变化。

4.根据权利要求1至3中的任一项所述的信息处理装置，其中，

基于所述图像信息和所述触觉信息决定所述第一贡献度。

5.根据权利要求1至4中的任一项所述的信息处理装置，其中，

基于所述图像信息和所述触觉信息决定所述第二贡献度。

6.根据权利要求1至5中的任一项所述的信息处理装置，其中，

还具检测部，该检测部基于所述第一贡献度和所述第二贡献度的至少一方，检测对所述图像信息进行检测的摄像装置和对所述触觉信息进行检测的触觉传感器的至少一方的异常。

7.根据权利要求6所述的信息处理装置，其中，

所述检测部在所述第一贡献度的变化为第一阈值以上的情况、或者所述第二贡献度的变化为第二阈值以上的情况下，判定为在所述摄像装置和所述触觉传感器的至少一方中产生了异常。

8.根据权利要求6所述的信息处理装置，其中，

所述检测部在所述第一贡献度为第一阈值以下的情况、或者所述第二贡献度为第二阈值以下的情况下，判定为在所述摄像装置和所述触觉传感器的至少一方中产生了异常。

9.根据权利要求6至8中的任一项所述的信息处理装置，其中，

还具备动作控制部，在检测出所述摄像装置的异常的情况下，该动作控制部停止所述摄像装置的动作，在检测出所述触觉传感器的异常的情况下，该动作控制部停止所述触觉传感器的动作。

10.一种机器人***，具备权利要求1至9中的任一项所述的信息处理装置、控制器以及包括所述抓持装置的机器人，其中，

所述控制器根据来自所述信息处理装置的指示对所述机器人的驱动进行控制。

11.根据权利要求10所述的机器人***，其中，

还具备摄像装置和触觉传感器。

12.信息处理方法，包括：

获取步骤，获取物体的图像信息以及表示抓持所述物体的抓持装置与所述物体的接触状态的触觉信息；以及

推理步骤，基于所述图像信息的第一贡献度和所述触觉信息的第二贡献度的至少一方，得到表示所述物体的位置和姿势的至少一方的输出数据。

13.根据权利要求12所述的信息处理方法，其中，

所述触觉信息是以图像形式表示所述接触状态的信息。

14.根据权利要求12或13所述的信息处理方法，其中，

还包括检测步骤，在该检测步骤中，基于将多个所述图像信息和多个所述触觉信息输入到神经网络来得到的多个所述输出数据，检测所述物体的位置和姿势的至少一方的变化。

15.根据权利要求12至14中的任一项所述的信息处理方法，其中，

基于所述图像信息和所述触觉信息决定所述第一贡献度。

16.根据权利要求12至15中的任一项所述的信息处理方法，其中，

基于所述图像信息和所述触觉信息决定所述第二贡献度。

17.根据权利要求12至16中的任一项所述的信息处理方法，其中，

还包括检测步骤，在该检测步骤中，基于所述第一贡献度和所述第二贡献度的至少一方，检测对所述图像信息进行检测的摄像装置和对所述触觉信息进行检测的触觉传感器的至少一方的异常。

18.根据权利要求17所述的信息处理方法，其中，

在所述检测步骤中，在所述第一贡献度的变化为第一阈值以上的情况、或者所述第二贡献度的变化为第二阈值以上的情况下，判定为在所述摄像装置和所述触觉传感器的至少一方中产生了异常。

19.根据权利要求17所述的信息处理方法，其中，

在所述检测步骤中，在所述第一贡献度为第一阈值以下的情况、或者所述第二贡献度为第二阈值以下的情况下，判定为在所述摄像装置和所述触觉传感器的至少一方中产生了异常。

20.根据权利要求17至19中的任一项所述的信息处理方法，其中，

还包括动作控制步骤，在该动作控制步骤中，在检测出所述摄像装置的异常的情况下，停止所述摄像装置的动作，在检测出所述触觉传感器的异常的情况下，停止所述触觉传感器的动作。