CN111868758B

CN111868758B - 信息处理装置、信息处理方法以及存储介质

Info

Publication number: CN111868758B
Application number: CN201980017044.6A
Authority: CN
Inventors: 大川洋平; 柴田义也; 齐藤千智; 林剑之介; 伴野裕
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2018-03-06
Filing date: 2019-03-01
Publication date: 2024-01-12
Anticipated expiration: 2039-03-01
Also published as: US11762679B2; EP3764290A1; JP2019153246A; JP6955702B2; US20210049033A1; WO2019172101A1; CN111868758A; EP3764290A4

Abstract

本发明提供一种信息处理装置、信息处理方法以及存储介质，可合适地获得运行机械的控制模块。所述信息处理装置包括：第一输入部，关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；第二输入部，接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；假想模型生成部，使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；判定部，对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；及学习部，学习用于实现规定的运行的所述运行机械的控制模块。

Description

信息处理装置、信息处理方法以及存储介质

技术领域

本发明涉及一种信息处理装置、信息处理方法以及存储介质。

背景技术

近年来，例如想到下述情况等，即：通过监督学习(supervised learning)或强化学习(reinforcement learning)等机械学习，来自律地获得利用工业机器人等运行机械的控制模块。但是，为了使用运行机械的真机来获得控制模块，需要变动学习真机的次数，因而非常耗费时间。

因此，作为缩短学习时间的方法，也想到将对于运行机械或作业对象物、观察运行的传感器(sensor)、及运行环境等分别等效的假想模型配置在假想空间上后，基于使用所述假想模型的模拟(simulation)，在假想空间上学习运行机械的控制模块。但是，在真实环境下，例如会产生机械臂(robot arm)的各个体的偏差、或传感器的安装位置的偏差等，但一般来说假想模型中不产生这种偏差，因而通过利用假想模型的模拟器(simulator)进行学习而获得的控制模块在适用于真实环境的情况下，稳健性不充分。

作为通过利用模拟器进行学习而获得机械臂的控制模块时为真实环境的各种状况做准备的技术，例如在非专利文献1中公开了下述方法，即：随机选择机器人或作业对象物的假想模型的颜色、或者相机或光源的位置、墙面或工作台(table)的纹理(texture)等，进行学习。

现有技术文献

非专利文献

非专利文献1：史蒂芬詹姆斯(Stephen James)及另两人，《Transferring End-to-End Visuomotor Control from Simulation to Real World for a Multi-Stage Task》，美国，第一届机器人学习大会(1st Conference on Robot Learning)(CoRL 2017)，2017年7月7日

发明内容

发明所要解决的问题

但是，若如非专利文献1记载的方法那样随机生成假想模型进行学习，则也会学习到现实中不可能产生的假想模型，因而学习效率变差。而且另一方面，若仅学习实际产生的假想模型，则也存在下述问题，即：对于并未学习的未知的状况，无法适用已获得的控制模块。

本发明的若干形态是鉴于所述问题而成，其目的之一在于提供一种信息处理装置、信息处理方法以及程序，可合适地获得运行机械的控制模块。

解决问题的技术手段

本发明的一形态的信息处理装置包括：第一输入部，关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；第二输入部，接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；假想模型生成部，使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；判定部，对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；以及学习部，根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块。

所述结构中，接受规定概率分布的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量，使用基于所述第二参数使元件的特性具有偏差的假想模型，来学习控制模块。由此，可生成相对于真实环境下产生的偏差而稳健的控制模块。

而且，在假想环境下生成控制模块，因而可仅以计算时间来获得控制模块。由此，与在真实环境下生成学习数据的情况相比，能以更短的时间获得运行机械的控制模块。

此外，所谓“运行机械”，是基于任意的控制模块而运行的机器人等机械，例如包含多轴机械臂等工业机器人。尤其不仅包含在真实世界中运行的机械，而且也包含使真实世界中的机械在假想世界中运行的作为假想模型的机械在内，而称为运行机械。

所述结构中，也可构成为，所述学习部针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别学习对应的所述控制模块。

也可构成为，所述学习数据生成部针对可选择的多个所述运行机械分别生成所述学习数据，所述学习部针对可选择的多个所述运行机械分别使用对应的所述学习数据进行学习，由此学习对应的所述控制模块。

所述结构中，可针对各运行机械，分别生成合适的控制模块。

所述结构中，也可构成为还包括：学习数据生成部，生成与运行成功与否的判定结果、及此时所用的所述运行机械的控制信息相应的学习数据，所述学习部使用所述学习数据，来学习用于实现规定的运行的所述运行机械的所述控制模块。

所述结构中，可通过监督学习来学习控制模块。

所述结构中，也可构成为，所述学习数据生成部针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别生成所述学习数据，所述学习部针对可选择的多个所述运行机械分别使用对应的所述学习数据进行学习，由此学习对应的所述控制模块。

所述结构中，可针对各运行机械，分别通过监督学习来生成合适的控制模块。

所述结构中，也可构成为还包括：第一算出部，针对多个所述运行机械与所述控制模块的组合，分别根据对使适用了对应的所述控制模块的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出运行成功率；以及第一选择部，根据所述运行成功率，来选择所述运行机械与所述控制模块的组合。

所述结构中，在配置有基于第二参数使元件的特性具有偏差的假想模型的假想环境下进行模拟，所述第二参数规定将构成假想模型的元件的特性作为概率变量的概率分布，根据所述模拟的结果，来选择运行机械及控制模块的组合。由此，可选择相对于真实环境下产生的偏差而稳健的运行机械及控制模块的组合。

所述结构中，也可构成为，所述学习数据生成部生成包含运行正确与否的判定结果、此时所用的所述运行机械的控制信息、及此时所用的所述第一参数的所述学习数据，所述学习部将由不同的所述第一参数指定的多个类别的基于所述运行机械的所述学习数据，作为单一的所述控制模块进行学习，由此学习可适用于多个类别的所述运行机械的所述控制模块。

所述结构中，可生成针对多个类别的运行机械而可适用的、通用的控制模块。由此可认为，即便是学习时未使用的运行机械，所述控制模块也可适用。

所述结构中，也可构成为，所述学习部还包括：第二算出部，针对多个类别的所述运行机械，根据对使适用了所述控制模块的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出适用所述控制模块的情况下的运行成功率；以及第二选择部，根据所述运行成功率来选择所述运行机械。

所述结构中，在配置有基于第二参数使元件的特性具有偏差的假想模型的假想环境下进行模拟，所述第二参数规定构成假想模型的元件的特性的概率分布，根据所述模拟的结果，来选择运行机械及控制模块的组合。而且可认为，运行机械及控制模块即便在学习时未使用，也可适用。

所述结构中，也可构成为，所述第一参数包含所述运行机械的运动学结构的类别、及所述运行机械的形状的类别中的至少一者的信息。

而且，所述结构中，也可构成为，所述第二参数与将所述运行机械的元件的尺寸、设置位置、颜色及纹理中的至少任一特性作为概率变量的概率分布有关。

所述结构中，尤其可生成关于控制模块的学习对象即运行机械而考虑到真实环境下的特性偏差的、稳健的控制模块。

所述结构中，也可构成为，所述一个以上的假想模型包含对所述运行机械的周边环境造成影响的构件、与所述运行机械一起使用的构件、检测所述运行机械的运行的传感器、及所述运行机械的作业对象物中的至少任一个，所述第一参数包含对所述运行机械的周边环境造成影响的构件的类别、与所述运行机械一起使用的构件的类别、用于检测所述运行机械的运行的传感器类别、及所述运行机械的作业对象物的类别中的至少任一个的信息。

而且，所述结构中，也可构成为，所述第二参数与将至少下述任一者的特性作为概率变量的概率分布有关：对所述运行机械的周边环境造成影响的构件、与所述运行机械一起使用的构件、用于检测所述运行机械的运行的传感器、及所述运行机械的作业对象物。

所述结构中，尤其可生成关于运行机械的运行环境或控制对象物、传感器等而考虑到真实环境下的特性偏差的、稳健的运行机械的控制模块。

所述结构中，也可构成为，所述第二参数的概率分布包含连续值的分布函数的类别与决定函数形状的值的组合、离散值的分布函数与决定函数形状的值的组合、及值的分布的列表。

所述结构中，可生成反映出真实环境下可能产生的各种概率分布的假想环境，来进行控制模块的学习等。

本发明的一形态的信息处理方法中，信息处理装置进行下述处理：关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；以及根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块。

而且，在假想环境下生成控制模块，因而可仅以计算时间来获得控制模块。由此，与在真实环境下生成学习数据的情况相比，能以更短的时间获得控制模块。

本发明的一形态的程序使信息处理装置执行下述处理：关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；以及根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块。

此外，本发明中，所谓“部”或“部件”、“装置”、“***”，不仅是指物理部件，也包括借由软件来实现所述“部”或“部件”、“装置”、“***”所具有的功能的情况。而且，一个“部”或“部件”、“装置”、“***”所具有的功能可由两个以上的物理部件或装置来实现，两个以上的“部”或“部件”、“装置”、“***”的功能也可由一个物理部件或装置来实现。而且，本发明中，“不同的运行机械的类别”及“不同的第一参数”的描述是指运行机械的类别、作业的类别、及运行环境的类别的组合中任一个以上不同。

附图说明

图1为用于说明实施方式的参数的一例的图。

图2为用于示意性地例示实施方式的信息处理装置的结构的一例的图。

图3为例示实施方式的信息处理装置的处理顺序的一例的流程图。

图4为例示实施方式的信息处理装置的处理顺序的一例的流程图。

图5为用于示意性地例示实施方式的信息处理装置的硬件结构的一例的图。

图6为例示实施方式的信息处理装置的处理顺序的一例的流程图。

图7为例示实施方式的信息处理装置的处理顺序的一例的流程图。

图8为例示实施方式的信息处理装置的处理顺序的一例的流程图。

图9为例示实施方式的信息处理装置的处理顺序的一例的流程图。

[符号的说明]

100：信息处理装置

101：假想模型类别信息输入部

103：概率信息输入部

105：感测数据输入部

110：模拟部

111：假想模型生成部

113：假想感测数据生成部

115：运行成功与否判定部

117：运行成功率算出部

121：学习数据生成部

123：学习数据

131：控制模块生成部

133：控制模块

141：选择部

501：控制部

505：存储部

507：控制程序

509：数据库(DB)

511：通信接口部

513：输入部

515：输出部

517：总线

具体实施方式

以下，参照附图对本发明的实施方式进行说明。但是，以下说明的实施方式仅为例示，并非意在排除以下明示的各种变形或技术的适用。即，本发明可在不偏离其主旨的范围内进行各种变形而实施。而且，以下的附图的记载中，对相同或类似的部分标注相同或类似的符号来表示。附图为示意性，未必与实际的尺寸或比率等一致。有时在附图相互之间也包含相互的尺寸关系或比率不同的部分。

[1适用例]

首先，一方面参照图1，一方面对实施方式的总体概要进行说明。本实施方式的信息处理装置例如用于通过学习来获得工业机器人等运行机械的控制模块。此处，所谓控制模块，是表现下述函数的软件的一单位或软件的组合、搭载了所述软件的硬件、或实现所述软件的功能的设备等，所述函数用于在被给予了某种输入的情况下，生成与运行机械的控制有关的输出。控制模块具备与运行机械所执行的作业有关的学习能力。此处所谓学习能力是指下述能力，即：可基于由学习用数据所得的经验，来提高某项作业(任务)的处理能力。

此时，也想到使运行机械实际在真实环境下运行，将所述运行中使用的控制内容及运行结果作为学习数据来进行学习，但在真实环境下运行需要相应的时间，因而为了获得数量充分的学习数据，需要庞大的时间。因此，本实施方式的信息处理装置中，在假想空间上配置运行机械或作业对象物、用于检测运行机械的运行的传感器等后，使运行机械在所述假想空间上假想地运行，将其结果作为学习数据。由此，不使运行机械实际运作，仅通过利用运算处理来模拟假想空间中的运行便可获得学习数据，因而能以更短的时间获得大量的学习数据，并使用所述学习数据来生成控制模块。

此处，在真实环境下，构成运行机械的构件的尺寸、或者与运行机械一起使用的光源的强度、检测运行的传感器的设置位置等会产生偏差。若不考虑这种偏差的存在，而将构件尺寸、光源强度、传感器设置位置等设为固定值，将所述固定值的假想空间上的运行结果作为学习数据来学习控制模块，则即使将其适用于真实环境，也无法保证相对于真实环境的偏差而稳健的运行。

因此，本实施方式的信息处理装置概率性地设定配置在假想空间上的运行机械或传感器、作业对象物、光源等(以下，将配置在假想空间上的这些物件统称为“假想模型”)的尺寸或位置等各种特性。通过使运行机械在配置有这样具有概率性偏差的假想模型的假想环境下运行，并将运行结果作为学习数据来生成控制模块，从而进行相对于真实环境的偏差而稳健的运行。

以下的说明中，将规定配置于假想环境的假想模型的类别的参数称为第一参数，将规定概率分布的参数称为第二参数，所述概率分布将构成假想模型的结构元件的特性作为概率变量。

例如，图1的示例中，作为配置于假想环境的运行机械的假想模型，可通过第一参数来确定“六轴臂型”及“七轴臂型”两种。而且，作为作业台的假想模型，可通过第一参数来确定“圆工作台”及“立方体”两种。

进而，针对由第一参数确定的假想模型，通过第二参数来指定构成所述假想模型的元件的特性。例如若为“六轴臂型”的运行机械，则通过第二参数指定，元件“第一连杆”的特性“长度”是通过正态分布函数的概率分布来连续地赋予，且将作为正态分布函数的变量的μ(平均)及σ(标准偏差)分别设定为40cm及2cm。而且同样地，例如若为“七轴臂型”，则通过第二参数指定，元件“第一连杆”的特性“长度”是以均匀分布函数的形式赋予，且将最小值(Min)及最大值(Max)分别设定为20cm及30cm。而且，通过第二参数指定，元件“第七连杆”的特性“长度”是通过列表以离散值的形式赋予，且60cm的概率为60％，50cm的概率为40％。

本实施方式的信息处理装置中，这样预先通过第一参数来赋予配置于假想环境的假想模型的类别，通过第二参数来赋予假想模型的结构元件的特性可取的值的产生概率。由此，信息处理装置利用具有与第二参数相应的偏差的结构元件的特性，来生成由第一参数确定的一个以上的假想模型后，将这些假想模型配置于假想环境，进行使运行机械的假想模型在所述假想环境下运行的模拟。如上文所述，运行机械也为假想模型的一种，因而运行机械的结构元件的特性(例如，进行握持运行的运行机械的情况下的、进行所述握持运行的运行机械的物理特性等)等也可通过第二参数而具有概率性偏差。信息处理装置在配置有这样具有概率性偏差的假想模型的假想环境下，反复进行运行机械的运行模拟，并将其运行结果作为学习数据来学习控制模块。尤其若根据真实环境的偏差来设定第二参数，则可通过学习来获得相对于真实环境的偏差而稳健的控制模块。

[2结构例1]

以下，一方面参照图2至图5，一方面对本实施方式的信息处理装置100的结构例1进行说明。此外，结构例1中，在可选择的运行机械存在多个的情况下，针对各运行机械分别学习合适的控制模块133。

[2.1运行结构]

首先，一方面参照图2，一方面对结构例1的信息处理装置100的运行结构例进行说明。信息处理装置100大致包含假想模型类别信息输入部101、概率信息输入部103、感测数据输入部105、模拟部110、学习数据生成部121、控制模块生成部131、及选择部141。此外，这些各结构既可作为在处理器上运行的程序而实现，或也可作为专用的一个或多个半导体等硬件而实现。下文中，一方面参照图5，一方面对各结构作为程序而实现的情况的硬件结构的示例加以描述。

假想模型类别信息输入部101接受下述信息的输入，所述信息即上述第一参数，用于确定配置于假想环境的、包含运行机械的一个以上的假想模型各自的类别。此外，假想模型类别信息输入部101为本发明的“第一输入部”的一例。

通过第一参数，除了可确定运行机械的运动学(kinematics)结构的类别、手部形状的类别以外，还可确定对运行机械的周边环境造成影响的构件(例如光源、地、墙面等)的类别、与运行机械一起使用的构件(例如作业台或托板等)的类别、用于检测运行机械的运行的传感器(例如可包含相机)等的类别、运行机械执行的作业的作业对象物的类别等中的至少任一个。

概率信息输入部103接受下述信息的输入，所述信息即上述第二参数，与概率分布有关，所述概率分布将构成配置于假想环境的假想模型的元件(例如，一方面参照图1一方面说明的、构成作为假想模型的六轴臂的连杆等)的特性(例如尺寸或重量、设置位置、颜色、纹理等)作为概率变量。此外，概率信息输入部103为本发明的“第二输入部”的一例。

此外，第二参数包含与概率分布有关的信息，所述概率分布除了将运行机械的运动学结构、手部形状的特性作为概率变量以外，还将对运行机械的周边环境造成影响的构件(例如光源、地、墙面等)、与运行机械一起使用的构件(例如作业台或托板等)、用于检测运行机械的运行的传感器(例如可包含相机)、运行机械的作业对象物等中的至少任一者的特性作为概率变量。更具体而言，例如第二参数表示与下述概率分布有关的信息，所述概率分布将运行机械的各部的尺寸、运行机械的设置位置、运行机械的颜色、运行机械的纹理、作业台/地/墙面的各部的尺寸、设置位置、颜色及纹理、传感器的设置位置、相机的焦点、相机的视角、作业对象物的各部的尺寸、设置位置、移动速度、加速度、颜色等特性作为概率变量。

此时，第二参数可通过连续值的分布函数的类别(例如正态分布、均匀分布等)与决定函数形状的值(例如正态分布的情况下，为μ及σ的值)的组合、离散值的分布函数与决定函数形状的值的组合、值的分布的列表(例如表示以○％取第一值、以□％取第二值、以△％取第三值…的列表)等，来表现将特性作为概率变量的概率分布。

感测数据输入部105接受实际配置有运行机械或光源、传感器(例如可包含相机)等的真实环境下的、传感器的检测结果的输入。后述的假想感测数据生成部113可通过将假想环境下的传感器的检测结果与所述真实环境的传感器的检测结果组合，从而生成更接近真实环境的伪感测数据，生成使用所述伪感测数据的学习数据123。但是，在不进行所述处理，而仅使用假想环境下的传感器的检测结果来生成学习数据123的情况下，也可省略感测数据输入部105。

模拟部110在生成包含运行机械的一个以上的假想模型后，进行使运行机械在配置有所生成的假想模型的假想环境下假想地运行的模拟。此时，在可选择的运行机械(可由第一参数指定的运行机械)存在多个的情况下，针对各运行机械进行模拟。模拟部110包含假想模型生成部111、假想感测数据生成部113、运行成功与否判定部115、运行成功率算出部117。

假想模型生成部111生成多数个配置于假想环境的一个以上的假想模型。此外，假想模型生成部111为本发明的“假想模型生成部”的一例。由假想模型生成部111生成的假想模型的类别是通过从假想模型类别信息输入部101输入的第一参数来确定。而且，构成假想模型的元件的特性是基于从概率信息输入部103输入的第二参数概率性地规定。即，在假想模型生成部111生成100个一个类别的假想模型的情况下，所生成的各假想模型的元件的特性会产生与第二参数相应的偏差。尤其通过预先根据真实世界的概率分布来设定第二参数的概率分布，从而信息处理装置100可在假想环境下生成接近在具有偏差的真实环境下收集的学习数据的学习数据123。

假想感测数据生成部113生成假想感测数据，此假想感测数据为检测使运行机械(作为假想模型的运行机械)在假想环境下运行的情况下的、运行机械的运行或周边环境等的结果。此时，在从感测数据输入部105接受真实环境下的传感器的检测结果的信息的输入的情况下，假想感测数据生成部113也可通过将假想感测数据与所述真实环境下的传感器的检测结果组合，从而生成更接近真实环境的伪感测数据。

运行成功与否判定部115使用由假想环境下的传感器(作为假想模型的传感器)所检测的结果，使成为控制模块133的学习对象的运行机械以任意的控制内容运行，判定是否获得预先设定的运行结果。若在获得了预先设定的运行结果的情况下运行成功，则在未获得预先设定的运行结果的情况下运行失败。此外，由假想环境下的传感器检测的结果相当于上文所述的假想感测数据，也可代替假想感测数据而使用伪感测数据(此外，下文的“假想感测数据”的记载只要未特别提及，则可设为“伪感测数据”)。此外，运行成功与否判定部115为本发明的“判定部”的一例。

此处，如上文所述，为了获得数量充分的施行母数，假想模型生成部111针对一个类别生成多数个假想模型。运行成功与否判定部115使用假想模型生成部111所生成的各假想模型，使运行机械在假想环境下运行，判定各自的运行结果。由运行成功与否判定部115判定出的运行成功与否的判定结果和运行机械的运行内容(控制信息)、及假想感测数据(也可为伪感测数据)一起输出至学习数据生成部121。

运行成功率算出部117将使用相同运行机械试行时的运行结果累计，由此算出使运行机械在假想环境下运行的情况下获得预定的运行结果的运行成功率。此外，运行成功率算出部117为本发明的“第一算出部”的一例。

此处，为了算出运行成功率，模拟部110需要反复进行多次假想环境下的模拟，但对于此时配置于假想环境的假想模型，可使用通过假想模型生成部111使用第二参数概率性地生成的假想模型。即，运行成功率是针对与具有偏差的真实环境同样地具有偏差的假想模型而算出，因而尤其通过预先根据真实世界的概率分布来设定第二参数的概率分布，从而可算出接近真实环境的运行成功率。

学习数据生成部121根据模拟部110进行模拟的结果而生成学习数据123。学习数据123中，可包含运行机械的运行内容(控制内容)、假想感测数据、以及使用这些运行内容及假想感测数据的情况下的运行成功与否的判定结果的信息。此时，在可选择的运行机械存在多个的情况下，学习数据123是针对各运行机械而生成。学习数据生成部121为本发明的“学习数据生成部”的一例。

控制模块生成部131通过使用学习数据123的学习来生成控制模块133。此时，在可选择的运行机械存在多个的情况下，控制模块生成部131针对各运行机械生成控制模块133。此外，控制模块生成部131为本发明的“学习部”的一例。

由控制模块生成部131生成的控制模块133的形态为任意，例如可使用神经网络(neural network)。此时，例如可将假想感测数据及运行机械的单位运行作为神经网络的输入，将针对所述假想感测数据与所述单位运行的组合的运行成功率作为输出。控制模块生成部131通过学习，以所述神经网络的输出结果近似于假想空间的模拟结果的运行成功率的方式，生成各节点的权重经调整的神经网络(即控制模块133)。通过针对一个假想感测数据组合成为单位运行候补的多个单位运行，从而学习针对各单位运行的组合的作业成功率。所得的神经网络作为控制模块133而从控制模块生成部131向任意的存储介质输出。

此外，在使用控制模块133使运行机械(无论是假想环境的运行机械还是真实环境的运行机械)运行的情况下，例如只要进行以下那样的处理即可。通过将由传感器所检测到的感测数据、及运行机械可取的任意的单位运行输入至神经网络(控制模块133)，从而可获得选择所述单位运行的情况下的成功概率。因此，只要针对一个感测数据，组合可成为运行候补的多个单位运行，算出针对各组合的运行成功率后，将运行成功率最高的单位运行设为临近的单位运行即可。

由控制模块生成部131生成的控制模块133输出至模拟部110。模拟部110的运行成功率算出部117算出适用所述控制模块133使运行机械运行的情况下的运行成功率。此时，在可选择的运行机械存在多个的情况下，运行成功率算出部117针对运行机械与控制模块133的各个组合，算出运行成功率。

在可选择的运行机械存在多个的情况下，选择部141选择用作真机的运行机械与控制模块133的组合。此外，选择部141为本发明的“第一选择部”的一例。更具体而言，例如选择部141只要从各运行机械与控制模块133的组合中，选择运行成功率算出部117所算出的运行成功率最高的运行机械与控制模块133的组合，作为用作真机的运行机械及控制模块133即可。

[2.2处理的流程]

以下，一方面参照图3及图4，一方面对结构例1的信息处理装置100的处理流程进行说明。图3及图4为表示信息处理装置100的处理流程的流程图。

此外，后述的各处理步骤可在处理内容不产生矛盾的范围内，任意地变更顺序或并列执行，而且，也可在各处理步骤间追加其他步骤。进而，为方便起见而记载为一个步骤的步骤也可分多个步骤来执行，也可将为方便起见而分多个记载的步骤作为一个步骤来执行。此方面对于后述的图6至图9的流程图来说也相同。

[2.2.1控制模块133的学习]

首先，一方面参照图3，一方面对学习控制模块133的处理流程进行说明。

假想模型类别信息输入部101接受第一参数的输入，所述第一参数包含成为控制模块133的学习对象的、运行机械的类别的确定，与配置于假想环境的一个以上的假想模型有关(S301)。而且，概率信息输入部103接受与概率分布有关的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量(S303)。假想模型生成部111利用具有通过第二参数概率性地设定的特性的元件，来生成由第一参数指定的类别的一个以上的假想模型(S305)。模拟部110进行模拟，即，使成为学习对象的运行机械，在配置有所生成的一个以上的假想模型的假想环境下运行(S307)。此时，假想感测数据生成部113在运行的适当时间点生成假想感测数据，此假想感测数据为检测假想环境的状况所得的结果。运行成功与否判定部115判定这样进行模拟后，结果运行机械是否达成预先设定的目的，即，判定运行是否成功(S309)。

学习数据生成部121使用所述判定结果来生成学习数据123(S311)。如上文所述，学习数据123中，可包含运行机械的运行内容(控制信息)、假想感测数据、以及使用这些运行内容(控制信息)及假想感测数据的情况下的运行成功与否的判定结果的信息。

生成学习数据123后，控制模块生成部131使用这些学习数据123，来学习对象运行机械的控制模块133(S313)。关于控制模块133的学习方法的具体例，已在上文中描述，因而此处省略说明。

模拟部110、学习数据生成部121及控制模块生成部131将这种假想环境下的从生成假想模型到运行判定为止的处理反复进行规定的试行次数，直到获得充分的母数为止(S315的否(No))。而且，在可选择的运行机械(成为学习对象的运行机械)的类别存在多个的情况下，信息处理装置100以各运行机械的数量来反复进行S301至S315的处理(S317的否(No))。

[2.2.2运行机械的选择]

接下来，一方面参照图4，一方面对从可选择的多个运行机械中选择适合适用于真实环境的运行机械的处理流程进行说明。

假想模型类别信息输入部101例如从在真实环境下实际进行作业时可选择的多个运行机械中，接受一个候补的第一参数的输入(S401)。而且，概率信息输入部103接受与概率分布有关的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量(S403)。假想模型生成部111使用具有通过第二参数概率性地设定的特性的元件，来生成由第一参数所指定的类别的一个以上的假想模型(S405)。模拟部110进行模拟，即，使作为选择候补的运行机械，在配置有所生成的一个以上的假想模型的假想环境下运行(S407)。此时，运行机械基于由控制模块生成部131所生成的控制模块133而运行。而且，假想感测数据生成部113在运行的适当时间点生成假想感测数据，此假想传感数据为检测假想环境的状况所得的结果。运行成功与否判定部115判定这样进行模拟后，结果运行机械是否达成预先设定的目的，即，判定运行是否成功(S409)。

模拟部110将这种假想环境下的从生成假想模型到运行判定为止的处理反复进行规定的试行次数，直到获得足以将运行成功率累计的母数为止(S411的否(No))。运行成功率算出部117算出由运行机械及控制模块133的组合所得的运行成功率(S413)。

信息处理装置100针对可选择的运行机械及控制模块133的所有组合，进行S401至S413的处理(S415的否(No))。针对可选择的运行机械及控制模块133的所有组合算出运行成功率后(S415的是(Yes))，选择部141基于所述运行成功率，来选择实际使用的运行机械及控制模块133的组合(S417)。此时，选择部141例如只要选择运行成功率最高的运行机械及控制模块133的组合即可。

[2.3硬件结构]

以下，一方面参照图5，一方面对可实现信息处理装置100的硬件结构进行说明。图5示意性地例示本实施方式的信息处理装置100的硬件结构的一例。

图5的示例所示的信息处理装置100包含控制部501、存储部505、通信接口(Interface，I/F)部511、输入部513及输出部515，各部可经由总线517相互可通信地连接。

控制部501包含中央处理器(Central Processing Unit，CPU)、随机存取存储器(Random Access Memory，RAM)503、只读存储器(Read Only Memory，ROM)等，根据信息处理来进行各结构元件的控制。更具体而言，例如控制部501可含有的CPU通过从存储部505向RAM 503读入控制程序507，并执行所述控制程序507，从而可执行图2所示的假想模型类别信息输入部101、概率信息输入部103、感测数据输入部105、模拟部110、学习数据生成部121、控制模块生成部131及选择部141的各种处理。

存储部505例如为硬盘驱动器(Hard Disc Drive，HDD)、固态驱动器(Solid StateDrive，SSD)等辅助存储装置，存储由控制部501执行的控制程序507、及数据库(Data Base，DB)509等。DB 509中，可管理图2所示的学习数据123或控制模块133等。此外，由假想模型生成部111生成的假想模型、或由假想感测数据生成部113生成的假想感测数据等也可存储于存储部505。

控制程序507是用于执行一方面参照图2至图4一方面说明的信息处理装置100的处理的程序。尤其图2所示的假想模型类别信息输入部101、概率信息输入部103、感测数据输入部105、模拟部110、学习数据生成部121、控制模块生成部131及选择部141的各结构可作为控制程序507而实现。

通信接口部511例如是用于通过有线或无线而与其他装置通信的通信模块。通信I/F部511在与其他装置的通信中使用的通信方式为任意，例如可列举局域网(Local AreaNetwork，LAN)或通用串行总线(Universal Serial Bus，USB)等。例如可想到，控制模块133向未图示的运行机械的输出等是经由通信I/F部511而进行。

输入部513例如是用于受理来自用户的各种输入操作等的设备，可由鼠标或键盘、触摸屏等来实现。输出部515例如是显示器或扬声器等用于通过显示或声音等向利用信息处理装置100的用户等告知各种信息的装置。例如可想到，通过输出部515将由选择部141所选择的运行机械的信息等进行显示等，而将所述信息等告知用户。

[2.4结构例1的效果]

如以上所说明，结构例1的信息处理装置100中，接受规定概率分布的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量，基于所述第二参数而生成使元件的特性具有偏差的假想模型后，在配置有所述假想模型的假想环境下进行运行机械的运行模拟，并对其运行结果进行评价。通过使用基于所述运行结果的学习数据123来生成所述运行机械的控制模块133，从而可生成相对于真实环境下产生的偏差而稳健的控制模块133。

而且，针对可选择的所有运行机械反复进行相同处理而生成控制模块133后，进一步针对适用了所述控制模块133的运行机械，同样地在配置有基于第二参数使元件的特性具有偏差的假想模型的假想环境下进行模拟，并对其结果进行评价。通过选择其中运行成功率高的运行机械及控制模块133的组合，从而可选择相对于真实环境下产生的偏差而稳健的运行机械及控制模块133的组合。

[2.5结构例1的变形例]

此外，所述说明的结构例1将本发明适用于通过监督学习来自主获得自动机械的控制模块的技术，但本发明不限于监督学习。例如，也可适用于通过强化学习来自主获得自动机械的控制模块的技术。以下，一方面参照图6，一方面对将本发明适用于强化学习的情况下的结构及处理进行说明。

所述S601至S605的处理与一方面参照图4一方面说明的所述结构例1相同，因而省略说明。在将本发明适用于强化学习的情况下，运行成功与否判定部115作为报酬算出部而运行，每当自动机械的假想模型运转时，代替运行成功与否的判定结果而算出报酬(S609)。学习数据生成部121生成包含所算出的报酬的学习数据123(S611)，保存于任意的存储介质。控制模块生成部131在规定的运转次数的间隔从存储介质读入学习数据123，学习控制模块133(S613)。控制模块生成部131可在各运转后学习，也可在多次运转间隔学习。此外，合适的是将运转作为运行机械的单位运行(S615)。信息处理装置100反复进行这些处理，直到针对所有候补运行机械类别的学习结束为止(S617)。

此处，若以控制模块生成部131仅读入临近的学习数据123的方式安装，则仅使用相同假想模型中的学习数据123，因而难以学习稳健的控制模块133。因此，若从存储介质随机读入学习数据123，则可使用因第二参数而变动的不同假想模型中的学习数据123来进行学习，因而可获得更稳健的控制模块133。

或者，若并列执行模拟部110的模拟，而且通过第二参数使各模拟中的假想模型随机地不同后，收集由这些各模拟所得的学习数据123来进行控制模块生成部131中的学习，则可使用因第二参数而变动的不同假想模型中的学习数据123。此时，控制模块生成部131也可获得稳健的控制模块133。

[3结构例2]

以下，对本实施方式的信息处理装置100的结构例2加以说明。此外，结构例2中，通过学习来获得可适用于多个作业机械的、通用的控制模块133。

[3.1运行结构]

结构例2的信息处理装置100的大致的运行结构与结构例1相同。而且，结构例2的信息处理装置100可通过与结构例1的信息处理装置100相同的硬件结构来实现，因而省略与硬件结构有关的说明。

以下，一方面参照图2，一方面以运行与结构例1不同的部分为中心进行说明。以下的说明中，对可设为与结构例1相同的部分省略记载。

假想模型类别信息输入部101接受下述信息的输入，所述信息即第一参数，用于确定配置于假想环境的、包含运行机械的一个以上的假想模型各自的类别。此处，结构例2中，可由第一参数来指定多个类别的假想模型。关于可由第一参数指定的假想模型的类别，与结构例1相同。即，利用结构例2的第一参数，可指定不同类别的多个运行机械类别、不同类别的多个环境类别、及不同类别的多个作业对象物类别等。

概率信息输入部103接受下述信息的输入，所述信息即第二参数，与概率分布有关，所述概率分布将构成配置于假想环境的假想模型的元件的特性作为概率变量。如上文所述，可由第一参数来指定多个类别的假想模型，因而第二参数中需要包含与下述概率分布有关的信息，所述概率分布以针对这些多个类别的假想模型各自的元件的特性作为概率变量。

关于结构例2的感测数据输入部105、及利用其的假想感测数据生成部113，可设为与结构例1相同。

模拟部110生成成为运行机械的一个以上的假想模型后，进行模拟，即，使运行机械在配置有所生成的假想模型的假想环境下假想地运行。此时，在由第一参数指定的运行机械的类别存在多个的情况下，模拟部110针对各类别的运行机械进行模拟。

模拟部110所含的假想模型生成部111生成多数个配置于假想环境的一个以上的假想模型。此时，由假想模型生成部111生成的假想模型的类别可设为由第一参数指定的多个类别，针对各类别，基于第二参数而生成元件的特性具有偏差的假想模型。

运行成功与否判定部115使用由假想环境下的传感器(作为假想模型的传感器)所检测的结果，使成为控制模块133的学习对象的运行机械以任意的控制内容运行，判定是否获得预先设定的运行结果。由运行成功与否判定部115判定的运行成功与否的判定结果是和运行机械的运行内容(控制内容)、及假想感测数据(也可为伪感测数据)一起向学习数据生成部121输出。

此处，假想模型生成部111为了获得数量充分的试行母数，而针对一个类别生成多数个假想模型。进而，结构例2的假想模型生成部111也生成多个类别的假想模型，因而运行成功与否判定部115使用针对多个类别分别生成多数个的假想模型各自，使运行机械在假想环境下运行，对这些的运行结果分别进行判定。

运行成功率算出部117通过将使用运行机械试行的情况下的运行结果累计，从而算出使运行机械在假想环境下运行时获得预定的运行结果的运行成功率。此时，运行成功率是针对单一类别的假想环境、即第一参数的单一的组合而分别算出。此外，结构例2的运行成功率算出部117为本发明的“第二算出部”的一例。

学习数据生成部121根据由模拟部110所得的模拟结果来生成学习数据123。学习数据123中，可包含假想模型的生成中使用的第一参数、运行机械的运行内容(控制内容)、假想感测数据、以及使用这些运行内容及假想感测数据的情况下的运行成功与否的判定结果的信息。此时，学习数据生成部121针对具有相同功能的多个类别的运行机械，生成学习数据123。

控制模块生成部131通过使用学习数据123的学习而生成控制模块133。此处，如上文所述，由结构例2的控制模块生成部131生成的控制模块133并非针对多个类别的运行机械分别生成，而是成为通用的单一的控制模块，即：通过指定与要控制的运行机械的类别对应的第一参数，从而进行适于运行机械的类别的控制。

此处，由控制模块生成部131生成的控制模块133的形态为任意，例如可使用神经网络。此时，例如可由神经网络将假想模型的生成中使用的第一参数、假想感测数据、以及运行机械的单位运行作为输入，将针对所述假想感测数据与所述单位运行的组合的运行成功率作为输出。控制模块生成单元131通过学习，以所述神经网络的输出结果近似于假想空间的模拟结果的运行成功率的方式，生成各节点的权重经调整的神经网络(即控制模块133)。通过针对假想模型的生成中使用的第一参数及假想感测数据之一组合成为单位运行候补的多个单位运行，从而学习针对各单位运行的组合的作业成功率。所得的神经网络作为控制模块133而从控制模块生成部131向任意的存储介质输出。

由控制模块生成部131生成的通用的一个控制模块133输出至模拟部110。模拟部110的运行成功率算出部117算出使用所述控制模块133使运行机械运行时的运行成功率。此时，在可选择的运行机械的类别存在多个的情况下，运行成功率算出部117针对各类别的运行机械分别算出运行成功率。因此，需要对控制模块133输入与运行机械的类别对应的第一参数。

在可选择的运行机械的类别存在多个的情况下，选择部141选择与通用的控制模块133配合使用的运行机械的类别作为真机。此外，结构例2的选择部141为本发明的“第二选择部”的一例。

[3.2处理流程]

以下，一方面参照图7及图8，一方面对结构例2的信息处理装置100的处理流程进行说明。图7及图8是表示信息处理装置100的处理流程的流程图。

[3.2.1控制模块133的学习]

首先，一方面参照图7，一方面对学习通用的控制模块133的处理流程进行说明。

假想模型类别信息输入部101接受第一参数的输入，所述第一参数包含成为控制模块133的学习对象的、运行机械的类别的信息，与可配置于假想环境的一个以上的假想模型有关(S701)。此时，第一参数中，针对具有相同功能的一个假想模型(例如一个运行机械)，可包含多个类别的信息。而且，概率信息输入部103接受与概率分布有关的第二参数的输入，所述概率分布将构成第一参数所含的多个类别的假想模型各自的元件的特性作为概率变量(S703)。

模拟部110选定包含一个以上的假想模型的组合，所述一个以上的假想模型构成本次试行中使用的假想环境(S705)，假想模型生成部111利用具有通过第二参数概率性地设定的特性的元件，来生成构成所选定的组合的各假想模型(S707)。模拟部110进行模拟，即，使成为学习对象的运行机械，在配置有所生成的一个以上的假想模型的假想环境下运行(S709)。此时，假想感测数据生成部113在运行的适当时间点生成假想感测数据，此假想感测数据为检测假想环境的状况所得的结果。运行成功与否判定部115判定这样进行模拟后，结果运行机械是否达成预先设定的目的，即，判定运行是否成功(S711)。

学习数据生成部121使用所述结果来生成学习数据123(S713)。学习数据123中，可包含假想模型的生成中使用的第一参数、运行机械的运行内容(控制信息)、假想感测数据、以及使用这些运行内容及假想感测数据的情况下的运行成功与否的判定结果的信息。

生成学习数据123后，控制模块生成部131使用所述学习数据123，学习可在所有运行机械中通用地使用的控制模块133(S715)。

模拟部110、学习数据生成部121及控制模块生成部131针对构成假想环境的一个以上的假想模型的组合，将S707至S715的处理反复进行规定的试行次数，直到获得充分的母数为止(S717的否(No))。以充分的试行次数进行模拟后(S717的是(Yes))，模拟部110选定不同的假想模型的组合(S719的否(No)、S705)，再次反复进行S707至S715的处理。

[3.2.2运行机械的选择]

接下来，一方面参照图8，一方面对从可选择的多个类别的运行机械中选择适合适用于真实环境的运行机械的类别的处理流程进行说明。

假想模型类别信息输入部101例如从在真实环境下实际进行作业时可选择的多个类别的运行机械中，接受一个候补的第一参数的输入(S801)。而且，概率信息输入部103接受与概率分布有关的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量(S803)。假想模型生成部111使用具有通过第二参数概率性地设定的特性的元件，来生成由第一参数所指定的类别的一个以上的假想模型(S807)。模拟部110进行模拟，即，使作为选择候补的运行机械，在配置有所生成的一个以上的假想模型的假想环境下运行(S809)。此时，运行机械基于由控制模块生成部131所生成的控制模块133而运行。此时，需要对控制模块133指定假想模型的生成中使用的第一参数。而且，假想感测数据生成部113在运行的适当时间点生成假想感测数据，此假想感测数据是检测假想环境的状况所得的结果。运行成功与否判定部115判定这样进行模拟后，结果运行机械是否达成预先设定的目的，即，判定运行是否成功(S811)。

模拟部110针对作为候补而选择的类别的运行机械，将S807至S811的处理反复进行规定的试行次数，直到获得充分的母数为止(S813的否(No))。针对一个类别的运行机械以充分的试行次数进行模拟后(S813的是(Yes))，运行成功率算出部117算出运行成功率(S815)。

然后，模拟部110选定不同的运行机械(S817的否(No)、S805)，再次通过S807至S815的处理来算出运行成功率。这样针对运行机械的可选择的所有类别算出运行成功率后(S817的是(Yes))，选择部141基于所述运行成功率，选择实际使用的运行机械的类别(S819)。此时，选择部141例如只要选择运行成功率最高的运行机械即可。

[3.3结构例2的效果]

如以上所说明，结构例2的信息处理装置100中，与结构例1同样地，接受规定概率分布的第二参数的输入，所述概率分布将构成假想模型的元件的特性作为概率变量，基于所述第二参数而生成使元件的特性具有偏差的假想模型后，在配置有所述假想模型的假想环境下进行运行机械的运行模拟，对其运行结果进行评价。通过使用基于所述运行结果的学习数据123来生成所述运行机械的控制模块133，从而可生成相对于真实环境下产生的偏差而稳健的控制模块133。

而且，通过接受表示作为控制对象的运行机械的类别的、第一参数的输入，从而生成可执行合适的运行的、通用的控制模块133。可认为，所生成的控制模块133为通用的模块，因而即便为用于获得控制模块133的学习时未使用的类别的运行机械，也可适用所述控制模块133。

进而，针对适用了所述控制模块133的运行机械，同样地在配置有基于第二参数而使元件的特性具有偏差的假想模型的假想环境下进行模拟，并对其结果进行评价。通过选择其中运行成功率高的运行机械，从而可选择相对于真实环境下产生的偏差而稳健的运行机械。

[3.4结构例2的变形例]

此外，所述说明的结构例2将本发明适用于通过监督学习来自主获得自动机械的控制模块的技术，但本发明不限于监督学习。例如，与适用例1同样地，也可适用于通过强化学习来自主获得自动机械的控制模块的技术。将本发明适用于强化学习的情况下的结构及处理流程示于图9。基本上可通过与一方面参照图6一方面说明的适用例1的控制模块133的学习流程、及一方面参照图7一方面说明的适用例2的控制模块的学习流程的至少任一个相应的处理的组合来实现，因而省略详细的说明。

[4附记]

以上所说明的实施方式是为了容易地理解本发明，并非用于限定性地解释本发明。实施方式所包括的各元件及其配置、材料、条件、形状以及尺寸等不限定于例示，可适当变更。而且，可将不同实施方式所示的结构彼此局部地替换或组合。

(附记1)

一种信息处理装置100，包括：

第一输入部101，关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；

第二输入部103，接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；

假想模型生成部111，使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；

判定部115，对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；

学习部131，根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块133。

(附记2)

根据附记1所记载的信息处理装置100，其中，

所述学习部131针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别学习对应的所述控制模块133。

(附记3)

根据附记1或附记2所记载的信息处理装置100，还包括：

学习数据生成部121，生成与运行成功与否的判定结果、及此时所用的所述运行机械的控制信息相应的学习数据123，

所述学习部131使用所述学习数据123，来学习用于实现规定的运行的所述运行机械的所述控制模块133。

(附记4)

根据附记3所记载的信息处理装置100，其中，

所述学习数据生成部121针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别生成所述学习数据123，

所述学习部131针对可选择的多个所述运行机械分别使用对应的所述学习数据123进行学习，由此学习对应的所述控制模块133。

(附记5)

根据附记2至附记4中任一项所记载之信息处理装置100，还包括：

第一算出部，针对多个所述运行机械与所述控制模块133的组合，分别根据对使适用了对应的所述控制模块133的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出运行成功率；以及

第一选择部141，根据所述运行成功率，来选择所述运行机械与所述控制模块133的组合。

(附记6)

根据附记3所记载的信息处理装置100，其中，

所述学习数据生成部121生成包括与运行成功与否的判定结果、此时所用的所述运行机械的控制信息、及此时所用的所述第一参数的所述学习数据123，

所述学习部131将由不同的所述第一参数指定的多个类别的基于所述运行机械的所述学习数据123，作为单一的所述控制模块133进行学习，由此学习可适用于多个类别的所述运行机械的所述控制模块133。

(附记7)

根据附记6所记载的信息处理装置100，其中，

所述学习部131还包括：第二算出部117，针对多个类别的所述运行机械，根据对使适用了所述控制模块133的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出适用所述控制模块133的情况下的运行成功率；以及

第二选择部141，根据所述运行成功率来选择所述运行机械。

(附记8)

根据附记1至附记7中任一项所记载的信息处理装置100，其中，

所述第一参数包含所述运行机械的运动学结构的类别、及所述运行机械的形状的类别中的至少一者的信息。

(附记9)

根据附记1至附记8中任一项所记载的信息处理装置100，其中，

所述第二参数与将所述运行机械的元件的尺寸、设置位置、颜色及纹理中至少任一特性作为概率变量的概率分布有关。

(附记10)

根据附记1至附记9中任一项所记载的信息处理装置100，其中，

所述一个以上的假想模型包含对所述运行机械的周边环境造成影响的构件、与所述运行机械一起使用的构件、检测所述运行机械的运行的传感器、及所述运行机械的作业对象物中的至少任一个，

所述第一参数包含对所述运行机械的周边环境造成影响的构件的类别、与所述运行机械一起使用的构件的类别、用于检测所述运行机械的运行的传感器类别、及所述运行机械的作业对象物的类别中的至少任一个的信息。

(附记11)

根据附记10所记载的信息处理装置100，其中，

所述第二参数与将至少下述任一者的特性作为概率变量的概率分布有关：对所述运行机械的周边环境造成影响的构件、与所述运行机械一起使用的构件、用于检测所述运行机械的运行的传感器、及所述运行机械的作业对象物。

(附记12)

根据附记1至附记11中任一项所记载的信息处理装置100，其中，

所述第二参数的概率分布包含连续值的分布函数的类别与决定函数形状的值的组合、离散值的分布函数与决定函数形状的值的组合、及值的分布的列表。

(附记13)

一种信息处理方法，由信息处理装置100进行下述处理：

关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；

接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；

使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；

对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；以及

根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块(133)。

(附记14)

一种程序，用于使信息处理装置100执行下述处理：

根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块133。

Claims

1.一种信息处理装置，包括：

第一输入部，关于包含运行机械的假想模型的一个以上的假想模型，接受用于确定类别的第一参数的输入；

第二输入部，接受与概率分布有关的第二参数的输入，所述概率分布将构成所述一个以上的假想模型的元件的特性作为概率变量；

假想模型生成部，使用所述第一参数及所述第二参数，概率性地生成所述一个以上的假想模型；

判定部，对使所述运行机械的假想模型，在包含概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定；以及

学习部，根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块。

2.根据权利要求1所述的信息处理装置，其中，

所述学习部针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别学习对应的所述控制模块。

3.根据权利要求1或2所述的信息处理装置，还包括：

学习数据生成部，生成与运行成功与否的判定结果、及此时所用的所述运行机械的控制信息相应的学习数据，

所述学习部使用所述学习数据，来学习用于实现规定的运行的所述运行机械的所述控制模块。

4.根据权利要求3所述的信息处理装置，其中，

所述学习数据生成部针对与由所述第一参数确定的类别对应地生成的多个所述运行机械分别生成所述学习数据，

所述学习部针对能够选择的多个所述运行机械分别使用对应的所述学习数据进行学习，由此学习对应的所述控制模块。

5.根据权利要求2所述的信息处理装置，还包括：

第一算出部，针对多个所述运行机械与所述控制模块的组合，分别根据对使适用了对应的所述控制模块的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出运行成功率；以及

第一选择部，根据所述运行成功率，来选择所述运行机械与所述控制模块的组合。

6.根据权利要求3所述的信息处理装置，其中，

所述学习数据生成部生成包括与运行成功与否的判定结果、此时所用的所述运行机械的控制信息、及此时所用的所述第一参数的所述学习数据，

所述学习部将由不同的所述第一参数指定的多个类别的基于所述运行机械的所述学习数据，作为单一的所述控制模块进行学习，由此学习能够适用于多个类别的所述运行机械的所述控制模块。

7.根据权利要求6所述的信息处理装置，其中，还包括：

第二算出部，针对多个类别的所述运行机械，根据对使适用了所述控制模块的所述运行机械的假想模型，在至少包含使用所述第二参数概率性地生成的所述一个以上的假想模型的假想空间上运行的情况下的所述运行的正确与否进行判定，来算出适用所述控制模块的情况下的运行成功率；以及

第二选择部，根据所述运行成功率来选择所述运行机械。

8.根据权利要求1或2所述的信息处理装置，其中，

9.根据权利要求1或2所述的信息处理装置，其中，

所述第二参数与将所述运行机械的元件的尺寸、设置位置、颜色及纹理中的至少任一特性作为概率变量的概率分布有关。

10.根据权利要求1或2所述的信息处理装置，其中，

11.根据权利要求10所述的信息处理装置，其中，

所述第二参数与以下述任一个的特性作为概率变量的概率分布有关：对所述运行机械的周边环境造成影响的构件、与所述运行机械一起使用的构件、用于检测所述运行机械的运行的传感器、及所述运行机械的作业对象物。

12.根据权利要求1或2所述的信息处理装置，其中，

13.一种信息处理方法，由信息处理装置进行下述处理：

根据所述运行正确与否的判定结果，来学习用于实现规定的运行的所述运行机械的控制模块。

14.一种存储介质，用于存储使信息处理装置执行下述处理的程序：