CN111673729A

CN111673729A - 路径决定方法

Info

Publication number: CN111673729A
Application number: CN202010090222.2A
Authority: CN
Inventors: 长谷川雄二; 松﨑灿心
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-11
Filing date: 2020-02-13
Publication date: 2020-09-18
Anticipated expiration: 2040-02-13
Also published as: CN111673729B; US20200293051A1; US11467592B2; JP7250571B2; JP2020149095A

Abstract

本发明提供一种决定机器人的路径的路径决定方法，其以移动装置一边避免与交通参与者等多个移动物体的干涉，一边顺利地移动至目标地点为止的方式决定机器人的路径。在多个第二步行者(M2)按照规定的移动模式移动的环境中，识别第一步行者(M1)朝目标地点(Po)移动时的多个移动路径(Rw)。生成将包含环境图像的时间序列的复合环境图像与移动方向指令组合的数据作为学习用数据，所述环境图像表示分别按照所述多个移动路径(Rw)移动时的假想机器人的周围的视觉环境，所述移动方向指令表示假想机器人的移动方向。使用学习用数据来学习模型参数，并使用学习完毕CNN来决定机器人(2)的移动速度指令(v_cmd)。

Description

路径决定方法

技术领域

本发明涉及一种自行移动型的机器人的路径决定方法。

背景技术

以往，作为自行移动型的机器人的路径决定方法，已知有专利文献1及专利文献2中记载的路径决定方法。在专利文献1的路径决定方法中，根据步行者等交通参与者的速度，算出被预想为存在机器人干涉交通参与者的可能性的干涉可能性时间，进而，算出被设想为交通参与者在规定时间后移动的假想障碍物区域。并且，根据干涉可能性时间及假想障碍物区域，决定机器人的路径。由此，避免机器人与交通参与者的干涉。

而且，在专利文献2的路径决定方法中，计算机器人的当前位置，根据外界传感器已测定的距离数据来生成障碍物地图，并且从存储部读取地图信息。接下来，参照障碍物地图及地图信息，判定在已被存储在地图信息的路径上是否存在障碍物，当在路径上存在障碍物时，通过A﹡探索算法来执行机器人的路径。具体而言，根据当前位置信息、障碍物地图及地图信息，算出栅格地图上的围绕机器人的许多栅格中的障碍物的存在概率，将障碍物的存在概率最低的栅格决定为路径。

[现有技术文献]

[专利文献]

专利文献1：日本专利特开2009-110495号公报

专利文献2：日本专利特开2010-191502号公报

发明内容

[发明所要解决的问题]

根据所述专利文献1的路径决定方法，因使用交通参与者的干涉可能性时间及假想障碍物区域的关系，当步行者等实际的交通参与者以无法预测的轨迹进行了移动时，机器人与交通参与者的干涉状态频发。其结果，机器人的停止状态频发，存在商品性低这一问题。尤其，在存在人山人海的交通环境下，问题变得显着。

而且，在专利文献2的路径决定方法的情况下，当步行者等实际的交通参与者以无法预测的轨迹进行了移动时，也产生与专利文献1相同的问题。尤其，在存在人山人海的交通环境下，变成找不到障碍物的存在概率最低的栅格的状态，由此机器人的停止时间变长。

因此，本发明的目的在于提供一种决定机器人的路径的方法，其以移动装置一边避免与交通参与者等多个移动物体的干涉，一边顺利地移动至目标地点为止的方式决定机器人的路径。

[解决问题的技术手段]

本发明涉及一种移动装置在所述移动装置周边存在多个移动物体的状况下，决定至目标地点为止的目标移动路径的方法。

本发明的路径决定方法：在多个第二移动物体分别按照不同的多个移动模式移动的状况下，识别第一移动物体一边避免与所述多个第二移动物体各自的干涉，一边移动至所述目标地点为止时的所述第一移动物体的多个移动路径，生成将包含复合环境图像的环境图像数据与行动参数相关联的多个学习用数据，所述复合环境图像是通过将所述移动装置分别按照所述多个移动路径移动时的表示所述移动装置的环境的环境图像的时间序列予以复合而生成，所述行动参数表示所述移动装置的行动，使用所述多个学习用数据，按照指定学习方法来学习将所述环境图像数据作为输入而将所述行动参数作为输出的行动模型的模型参数，由此来生成学习完毕的所述行动模型即学习完毕模型，使用所述学习完毕模型，决定所述移动装置的所述目标移动路径。

根据本发明的路径决定方法，在多个第二移动物体分别按照多个移动模式移动的环境中，识别第一移动物体一边避免与所述多个第二移动物体的干涉，一边朝目标地点移动时的多个移动路径。进而，生成将包含环境图像的时间序列的复合环境图像与移动方向指令组合的数据作为学习用数据，所述环境图像是在假想移动装置在假想空间内分别按照所述多个移动路径移动时的表示假想移动装置的周围的视觉环境的环境图像，所述移动方向指令表示假想移动装置的移动方向。使用学习用数据学习将包含复合环境图像的环境图像数据作为输入而将移动方向指令作为输出的行动模型的模型参数，由此来生成学习完毕模型。并且，使用学习完毕模型，决定移动装置的移动速度指令。

因此，学习模型的模型参数可一边反映第一移动物体的实际的移动路径及相对于所述第一移动物体的第二移动物体的相对的移动形态，一边高精度地学习。其结果，即便在移动装置周围存在多个移动物体的状况下，也能够以移动装置一边避免与多个移动物体的干涉，一边顺利地移动至目标地点为止的方式，决定所述移动装置的目标移动路径。

在本发明的路径决定方法中，优选作为所述环境图像，识别包含多个移动物体图像区域的图像，所述多个移动物体图像区域分别表示位于所述移动装置周边的多个移动物体，且生成将所述多个环境图像各自中所含的所述多个移动物体图像区域分别予以重合的所述复合环境图像。

根据所述路径决定方法，在复合环境图像中包含多个移动物体图像区域的图像，所述多个移动物体图像区域分别表示位于移动装置周边的多个移动物体，将所述移动物体图像区域的时间序列予以重合。由此，可生成包含简略地表示移动物体的时间序列的移动形态的环境图像数据的学习用数据，因此可谋求行动模型的结构的简单化，进而可谋求机器人的路径决定时的运算处理量的减少，其结果，可迅速且高精度地决定机器人的路径。

在本发明的路径决定方法中，优选生成以下述方式将所述多个移动物体图像区域予以重合的所述复合环境图像，即，根据所述多个环境图像各自的时间序列的顺序先后，将所述多个移动物体图像区域各自的一部分或全部的色调、彩度或明度或者它们的任意组合予以差别化。

根据所述路径决定方法，可生成包含以下述方式简略地表示移动物体的时间序列的移动形态的环境图像数据的学习用数据，即，根据时间序列的先后，通过颜色的三要素中的至少一个要素来将移动物体的时间序列的移动形态予以差别化，因此可谋求行动模型的结构的简单化，进而可谋求机器人的路径决定时的运算处理量的减少，其结果，可迅速且高精度地决定机器人的路径。

在本发明的路径决定方法中，优选生成以在时间序列上为后的所述移动物体图像区域掩盖在时间序列上为前的所述移动物体图像区域的至少一部分的方式而重合的所述复合环境图像。

根据所述路径决定方法，可生成包含以下述方式简略地表示移动物体的时间序列的移动形态的环境图像数据的学习用数据，即，根据时间序列的先后，通过重合的上下关系来将移动物体的时间序列的移动形态予以差别化，因此可谋求行动模型的结构的简单化，进而可谋求机器人的路径决定时的运算处理量的减少，其结果，可迅速且高精度地决定机器人的路径。

在本发明的路径决定方法中，优选所述环境图像数据除了所述复合环境图像以外，还包括表示所述移动装置的速度高低的速度图像、及表示所述目标地点的方向的方向图像中的至少一者。

根据所述路径决定方法，在环境图像数据中，除了复合环境图像以外，还包括表示移动装置的速度高低的速度图像、及表示目标地点的方向的方向图像中的至少一者。因此，可谋求行动模型的结构的简单化，进而可谋求机器人的路径决定时的运算处理量的减少，其结果，可迅速且高精度地决定机器人的路径。

在本发明的路径决定方法中，优选所述多个学习用数据包含假想的机器人在假想空间内分别按照所述多个移动路径移动时的所述环境图像数据及与所述环境图像数据相关联的所述行动参数。

根据所述路径决定方法，使假想移动装置在假想空间内分别按照多个移动路径进行移动，由此生成多个学习用数据。由此，无需实际准备移动装置(实体机器)，相应地可容易地生成学习用数据，进而可容易地生成存储保持所述学习用数据的数据库。

附图说明

图1是应用了本发明的一实施方式的路径决定***的机器人的外观图。

图2是利用机器人的引导***的构成图。

图3是表示机器人的电气构成的框图。

图4是表示学习装置的构成的框图。

图5是获取第一步行者的移动路径时的立体图。

图6是图5的移动路径的获取结果的例示图。

图7是关于第二步行者的配置的第一模式的说明图。

图8是关于第二步行者的配置的第二模式的说明图。

图9是关于第二步行者的配置的第三模式的说明图。

图10是关于第二步行者的配置的第四模式的说明图。

图11是关于第二步行者的配置的第五模式的说明图。

图12是关于第二步行者的配置的第六模式的说明图。

图13是关于第二步行者的配置的第七模式的说明图。

图14是关于模拟环境下的从假想机器人视点的图像的说明图。

图15是关于从图14的图像生成的作为环境图像的掩模图像的说明图。

图16是关于复合环境图像的说明图。

图17是表示路径决定***的构成的框图。

图18是表示移动控制处理的流程图。

[符号的说明]

1：路径决定***

2：机器人(移动装置)

32：移动路径获取元件

33：学习用数据获取元件

34：CNN学习元件

Pobj：指定地点

M1：第一步行者(第一移动物体)

M2：第二步行者(第二移动物体)

Po：目标地点

Rw：第一步行者的移动路径

v_cmd：移动速度指令(机器人的目标移动路径)

具体实施方式

(路径决定***的构成)

图1中所示的作为本发明的一实施方式的路径决定***1是应用于倒立摆型的机器人2(相当于“移动装置”)者，且是利用后述的方法，在交通参与者的存在概率高的条件下，决定机器人2的路径者。

机器人2是自行移动型的机器人，用于图2中所示的引导***3。引导***3是在购物中心或机场等中，机器人2一边做用户的向导，一边将用户引导至其目标地点(例如店铺或登机门)为止的形式者。

如图2所示，引导***3包括：多个机器人2，在规定的区域内自行移动；输入装置4，与多个机器人2分开设置，被输入用户的目标地点；以及服务器5，可与机器人2及输入装置4相互进行无线通信。

输入装置4例如包含鼠标、键盘及触摸屏中的至少一个。对应于由用户(或操作者)通过输入装置4来输入目标地点，将表示所述目标地点的目标地点数据发送至服务器5。若由服务器5接收目标地点数据，则根据被保存在服务器5所具有的存储装置的地图数据，将由所述目标地点数据表示的目标地点、或从当前地点至目标地点为止的中间地点设定为指定地点Pobj。从服务器5朝机器人2发送表示指定地点Pobj的指定地点数据。

(机器人的构成)

在通过机器人2所具有的控制装置10，经由无线通信装置14而接收到已从服务器5发送的指定地点数据的情况下，读取由所述指定地点数据表示的指定地点Pobj，并决定至所述指定地点Pobj为止的路径。

接下来，对机器人2的机械构成进行说明。如图1所示，机器人2包括本体20、及设置在本体20的下部的移动机构21等，以可通过移动机构21而在路面上全方位地移动的方式构成。

移动机构21例如与日本专利特开2017-56763号公报中公开的移动机构同样地构成。移动机构21包括圆环状的芯体22、多个滚子23、第一致动器24及第二致动器25(参照图3)。多个滚子23以在芯体22的圆周方向(环绕轴心的方向)上以等角度间隔排列的方式，外插在芯体22，多个滚子23的各个可环绕芯体22的轴心与芯体22一体地旋转。而且，各滚子23可环绕各滚子23的配置位置上的芯体22的横剖面的中心轴(将芯体22的轴心作为中心的圆周的切线方向的轴)进行旋转。

进而，第一致动器24包含电动机，当从控制装置10输入了后述的控制输入信号时，经由驱动机构(省略图示)而将芯体22环绕其轴心进行旋转驱动。

第二致动器25也与第一致动器24同样地包含电动机，当从控制装置10输入了控制输入信号时，经由未图示的驱动机构而将滚子23环绕其轴心进行旋转驱动。由此，利用第一致动器24及第二致动器25，以在路面上全方位地移动的方式驱动本体20。通过以上的构成，机器人2可在路面上全方位地移动。

接下来，对机器人2的电气构成进行说明。如图3所示，机器人2进而包括：控制装置10、摄像机11、激光雷达12、加速度传感器13及无线通信装置14。

控制装置10包含微型计算机，所述微型计算机包括：中央处理器(CentralProcessing Unit，CPU)、单核处理器或/和多核处理器等运算处理装置，随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)或/和带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，E2PROM)等存储器(存储装置)，以及输入/输出(Input/Output，I/O)接口及各种电路等。在E2PROM内存储有机器人2进行引导的地方的地图数据、及用于执行按照卷积神经网络(ConvolutionalNeural Network，CNN)的运算处理的软件。CNN是由学习装置30(后述)充分地学习CNN的模型参数即连接层的权重及偏置项后的CNN。

摄像机11(拍摄装置)拍摄机器人2周边环境，并将表示周边环境的图像信号输出至控制装置10。激光雷达12(测距传感器)使用激光，测量至周边环境内的对象物为止的距离等，并将表示所述距离的测量信号输出至控制装置10。进而，加速度传感器13检测机器人2的加速度，并将表示所述加速度的检测信号输出至控制装置10。

控制装置10使用以上的摄像机11的图像信号及激光雷达12的测量信号，通过自适应蒙特卡罗定位(adaptive Monte Carlo localization，amlc)方法来推测机器人2的自身位置。而且，控制装置10根据激光雷达12的测量信号及加速度传感器13的各个检测信号，算出机器人2的x速度成分v_x及y速度成分v_y。

进而，控制装置10与无线通信装置14连接，控制装置10经由无线通信装置14而与服务器5之间执行无线通信。

(路径决定方法)

接下来，对本实施方式的路径决定***1的构成及路径决定方法的原理进行说明。图4中所示的学习装置30是用于学习CNN的模型参数(连接层的权重及偏置项)(后述)者，包括激光雷达31、移动路径获取元件32、学习用数据获取元件33及CNN学习元件34。这些元件32～元件34包含运算处理装置及存储装置等。

首先，为了学习一般的步行者的移动路径，如图5所示，在作为基准步行者的第一步行者M1(相当于“第一移动物体”)从移动开始地点Ps(参照图6)移动(或步行)至目标地点Po(参照图6)为止的情况下，当移动开始时，设定多个第二步行者M2(相当于“第二移动物体”)以不规则的配置位于第一步行者M1的前进方向上的人山人海的状况。

接下来，使用激光雷达31，测量第一步行者M1从移动开始地点Ps实际移动至目标地点Po为止时的实际空间位置的时间序列(实际空间位置轨道)、及多个第二步行者M2的实际空间位置的时间序列，并将所述测量结果输出至移动路径获取元件32。

并且，在移动路径获取元件32中，根据第一步行者M1及多个第二步行者M2各自的实际空间位置的时间序列的测量结果，例如识别如图6所示的第一步行者M1的从移动开始地点Ps至目标地点Po为止的实际空间内的移动路径Rw，并将其存储在存储装置。如图6所示，第一步行者M1的移动路径Rw由二维空间的离散的多个坐标值(x、y)或连续函数y＝f(x)来定义。

例如，将第一步行者M1的移动开始地点Ps的坐标值定义为(0、α)(0＜α)，将第一步行者M1的移动开始方向定义为+y方向。将第一步行者M1从移动开始地点Ps到达目标地点Po为止的期间内的第二步行者M2的实际空间位置的时间序列或移动路径与第一步行者M1的移动路径Rw相关联，而由移动路径获取元件32获取。

通过移动路径获取元件32，获取第二步行者M2分别按照图7～图13的各图中所示的第一移动模式～第七移动模式移动时的第一步行者M1的移动路径Rw。

如图7所示，第一移动模式是十个第二步行者M2从第一步行者M1的前侧(x坐标值大的位置)朝后方或-x方向移动的模式。

如图8所示，第二移动模式是五个第二步行者M2从第一步行者M1的前侧朝后方或-x方向移动的模式。

如图9所示，第三移动模式是十个第二步行者M2从第一步行者M1的右侧(y坐标值小的位置)朝左方向或+y方向移动的模式。

如图10所示，第四移动模式是五个第二步行者M2从第一步行者M1的右侧朝左方向或+y方向移动的模式。

如图11所示，第五移动模式是十个第二步行者M2从第一步行者M1的左侧(y坐标值大的位置)朝右方向或-y方向移动的模式。

如图12所示，第六移动模式是五个第二步行者M2从第一步行者M1的左侧朝右方向或-y方向移动的模式。

如图13所示，第七移动模式是五个第二步行者M2从第一步行者M1的右侧朝左方向(或+y方向)移动，另一方面，另外五个第二步行者M2从第一步行者M1的左侧朝右方向(或-y方向)移动的模式。

第一步行者M1的移动路径Rw在与第二步行者M2的位置相关联的状态下由移动路径获取元件32获取，它们的获取结果被输出至学习用数据获取元件33。

通过学习用数据获取元件33，根据移动路径Rw及与其相关联的第二步行者M2的位置的获取结果，按照以下所述的方法来获取或生成学习用数据。首先，在gazebo模拟器等的模拟环境下，生成相当于所述第二步行者M2的假想第二步行者M2'(参照图14)、及相当于机器人2的假想机器人(未图示)，或使它们显在化。

其次，一边使假想机器人按照与第一步行者M1的移动路径Rw对应的移动路径在假想空间内移动，一边使假想第二步行者M2'按照与已由移动路径获取元件32获取的第二步行者M2的实际空间位置轨道对应的假想空间位置轨道，在假想空间内移动。

在假想机器人的移动中，以规定周期生成表示所述假想机器人的周围(例如，前方)的视觉环境的多个图像。理想的是使所生成的图像与搭载在实体机器人的输入装置的位置、姿势、视角及采样周期一致。根据所述多个图像，按照单发多框检测器(Single ShotMultiBox Detector，SSD)方法，依次生成掩模图像作为“环境图像”。

例如，如图14所示，在模拟环境下，当三个假想第二步行者M21'、M22'及M23'位于假想机器人的前方时，按照SSD方法，探索与三个假想第二步行者M21'、M22'及M23'分别对应的图像坐标系中的三个矩形的移动物体图像区域，由此生成图15中所示的环境图像。移动物体图像区域的形状除矩形以外，也可以是圆形、椭圆形、三角形、梯形或多边形、或者将它们组合而成的形状。

如图15所示，在环境图像中，三个假想第二步行者M21'、M22'及M23'各自的占有图像区域(移动物体图像区域)分别作为三个矩形的移动物体图像区域S(M21)、S(M22)及S(M23)来表示。

在各采样周期中依次获取环境图像，并将其累积地存储在存储装置。并且，将本次以前的多次的环境图像予以复合，由此生成复合环境图像(复合掩模图像)，进而生成表示所述复合环境图像的环境图像数据。例如，将本次以前的共计三次的时间序列的环境图像，即，本次时间点t＝k(“k”是表示采样周期的指数)、及上次时间点t＝k－1、以及上上次时间点t＝k－2的各时间点的环境图像予以重合，由此生成如图16所示的复合环境图像。

在图16中所示的复合环境图像中，包含与假想第二步行者M2i'(i＝1、2、3)对应的本次以前的三次的移动物体图像区域S(M2i)(t＝k－2)、移动物体图像区域S(M2i)(t＝k－1)及移动物体图像区域S(M2i)(t＝k)。在本实施方式中，关于同一个假想第二步行者M2i'，以将本次的环境图像中的矩形区域重合在上次的环境图像中的矩形区域上的方式，将环境图像按时间序列依次重合。因此，在图16中，上上次的移动物体图像区域S(M2i)(t＝k－2)的一部分隐藏在上次的移动物体图像区域S(M2i)(t＝k－1)的背后，上次的移动物体图像区域S(M2i)(t＝k－1)的一部分隐藏在本次的移动物体图像区域S(M2i)(t＝k)的背后。

在图16中所示的复合环境图像中，越回到过去，移动物体图像区域S(M2i)的整体的明度变得越低。也可以代替移动物体图像区域S(M2i)的明度或除了移动物体图像区域S(M2i)的明度以外，以彩度及色调中的至少一者按时间序列变化的方式生成环境图像数据，也能够以并非移动物体图像区域S(M2i)的整体，而是仅边界部分等一部分的色调、彩度及明度中的至少一个按时间序列变化的方式生成环境图像数据。

在复合环境图像的上端部，本次的目标地点Po(t＝k)作为表示矩形的白色方框等具有规定形状与规定色彩的图形的图像区域(或像素)、及复合环境图像中的所述图像区域的位置来表现。目标地点Po的位置由复合环境图像的横向的像素位置来定义，所述复合环境图像的横向的像素位置将以假想机器人的当前时间点的自身位置为基准时的相当于前方的中央的方位设为基准方位角(＝0deg)，表示-90deg～90deg的方位角范围的值。目标地点Po的位置也可以由复合环境图像的纵向的像素位置或图像坐标值来定义。

进而，在复合环境图像的下端，假想机器人的本次的假想x速度成分v_x'(t＝k)、及假想y速度成分v_y'(t＝k)作为两个表示矩形的白色方框等具有规定形状与规定色彩的图形的图像区域(或像素)、及复合环境图像中的所述图像区域的位置来表现。假想x速度成分v_x'是假想机器人在假想空间内的速度的x成分，由表示从假想机器人的最小移动速度v_min(例如0)至最大移动速度v_max为止的范围的值的复合环境图像的横向的像素位置来定义。同样地，假想y速度成分v_y'是假想机器人在假想空间内的速度的y成分，由表示从假想机器人的最小移动速度v_min(例如0)至最大移动速度v_max为止的范围的值的复合环境图像的横向的像素位置来定义。假想x速度成分v_x'及假想y速度成分v_y'中的至少一者也可以由复合环境图像的纵向的像素位置或图像坐标值来定义。

在学习用数据获取元件33中，将采样时的假想机器人的移动方向指令作为向量来设定，所述向量将“左方向”、“中央方向(前方向)”及“右方向”的三个方向作为要素。例如，在移动方向指令为使假想机器人朝前方移动的指令的情况下，将与“中央方向”对应的要素设定为“1”，将与“左方向”及“右方向”分别对应的要素设定为“0”。

在移动方向指令为使假想机器人朝右方向(相对于前方向，朝右侧移动第一规定方位角θ₁以上的方位角的方向)移动的指令的情况下，将与“右方向”对应的要素设定为“1”，将与其以外的方向对应的要素设定为“0”。同样地，在移动方向指令为使假想机器人朝左方向(相对于前方向，朝左侧移动第二规定方位角θ₂以上的方位角的方向)移动的指令的情况下，将与“左方向”对应的要素设定为“1”，将与其以外的方向对应的要素设定为“0”。第一规定方位角θ₁及第二规定方位角θ₂可以相同，也可以不同。

接下来，通过学习用数据获取元件33，以规定周期生成复合环境图像(参照图16)及与其相关联的移动方向指令的一组的数据作为学习用数据。并且，对应于已生成规定数的(例如几千以上)的学习用数据，将所述学习用数据输出至CNN学习元件34。也可以每当通过学习用数据获取元件33，以一个规定周期或多个规定周期生成一个学习用数据或多个学习用数据时，均将学习用数据输出至CNN学习元件34。

通过CNN学习元件34，利用已被输入的学习用数据，执行CNN的模型参数的学习。具体而言，将一组的学习用数据中的环境图像输入CNN，针对与所述输入对应的CNN的输出，将移动方向指令用作教学数据。

CNN的输出层包含三个单元。从CNN输出将分别来自所述三个单元的三个softmax值作为要素的指令(以下称为“CNN输出指令”)。CNN输出指令包含将与移动方向指令相同的三个方向(“左方向”、“中央方向”及“右方向”)作为要素的指令。

接下来，使用移动方向指令与CNN输出指令的损失函数(例如平均平方和误差)，按照梯度法来决定CNN的连接层的权重及偏置项。即，执行CNN的模型参数的学习运算。并且，将所述学习运算执行与学习用数据的组数相应的次数(即几千次)，由此CNN学习元件34中的CNN的模型参数的学习运算结束。在学习装置30中，如以上那样执行CNN的模型参数的学习。

接下来，一边参照图17，一边对本实施方式的路径决定***1等的构成进行说明。路径决定***1是利用以下所述的方法，决定(算出)作为机器人2的路径的移动速度指令v_cmd者，移动速度指令v_cmd是将机器人2的x速度成分v_x及y速度成分v_y的目标值即目标x速度成分v_x_cmd及目标y速度成分v_y_cmd作为要素者。

如图17所示，路径决定***1包括复合环境图像生成元件50、移动方向决定元件51、暂定移动速度决定元件52及移动速度决定元件53，具体而言，这些元件50～元件53包含控制装置10。另外，将以下所述的各种控制处理设为以规定的控制周期ΔT来执行者。

通过复合环境图像生成元件50，对应于已被输入来自摄像机11的图像信号及来自激光雷达12的测量信号，按照所述SSD方法来生成复合环境图像。在所述复合环境图像中，与图16中所示的复合环境图像同样地显示表示前方的移动物体的矩形区域的时间序列，并显示机器人2的x速度成分v_x、y速度成分v_y及指定地点Pobj(省略图示)来代替假想x速度成分v_x'、假想y速度成分v_y'及目标地点Po。

交通参与者的位置及尺寸根据摄像机11的图像信号及激光雷达12的测量信号来决定。而且，机器人2的x速度成分v_x及y速度成分v_y根据激光雷达12的测量信号及加速度传感器13的检测信号来决定。进而，指定地点Pobj由来自服务器5的目标地点信号来决定。如以上那样生成的环境图像被从环境图像生成元件50朝移动方向决定元件51输出。

移动方向决定元件51包括模型参数已在所述CNN学习元件34中被学习的CNN(学习完毕模型)，使用CNN，如以下这样决定机器人2的移动方向。

首先，在移动方向决定元件51中，若来自环境图像生成元件50的环境图像被输入CNN，则从CNN输出所述CNN输出指令。接下来，将CNN输出指令的三个要素(“左方向”、“中央方向”及“右方向”)之中，最大值的要素的方向决定为机器人2的移动方向。并且，如以上那样决定的机器人2的移动方向被从移动方向决定元件51朝暂定移动速度决定元件52输出。

在暂定移动速度决定元件52中，根据来自移动方向决定元件51的机器人2的移动方向、及机器人2的x速度成分v_x与y速度成分v_y，算出暂定移动速度指令v_cmd_cnn。暂定移动速度指令v_cmd_cnn是将机器人2的x速度成分的暂定值v_x_cnn及y速度成分的暂定值v_y_cnn作为要素的向量。接下来，如以上那样决定的机器人2的暂定移动速度指令v_cmd_cnn被从暂定移动速度决定元件52朝移动速度决定元件53输出。

在移动速度决定元件53中，根据暂定移动速度指令v_cmd_cnn，按照应用了动态窗口法(Dynamic Window Approach，DWA)的算法，决定移动速度指令v_cmd。移动速度指令v_cmd是将目标x速度成分v_x_cmd及目标y速度成分v_y_cmd作为要素者，所述两个速度成分v_x_cmd、v_y_cmd在后述的移动控制处理中，用作机器人2的x速度成分及y速度成分的目标值。

具体而言，按照关系式(1)来定义目标函数G(v)，以目标函数G(v)变成最大值的方式决定移动速度指令v_cmd。

G(v)＝α·cnn(v)+β·dist(v)‥(1)。

“α”及“β”分别为规定的权重参数，根据机器人2的动作特性来决定。“cnn(v)”是因变量或函数，所述因变量或函数将动态窗口(Dynamic Window)内的将x速度成分及y速度成分设为要素的速度指令与暂定移动速度指令v_cmd_cnn的偏差作为主变量，主变量的值越小，其表示越大的值。

“dist(v)”是表示设想机器人2以x速度成分的暂定值v_x_cnn及y速度成分的暂定值v_y_cnn移动时，最接近机器人2(移动装置)的交通参与者(移动物体)的距离的值，根据激光雷达12的测量信号来决定。

在本实施方式的路径决定***1中，如以上那样决定将目标x速度成分v_x_cmd及目标y速度成分v_y_cmd作为要素的移动速度指令v_cmd。另外，在本实施方式中，决定移动速度指令v_cmd相当于决定机器人的路径。

接下来，一边参照图18，一边对移动控制处理进行说明。移动控制处理是用于控制移动机构21的两个致动器24、25，以使机器人2以所述两个目标速度v_x_cmd、v_y_cmd移动者，通过控制装置10以规定的控制周期ΔT来执行。

如图18所示，首先读取各种数据(图18/步骤1)。各种数据是已分别从所述摄像机11、激光雷达12、加速度传感器13及无线通信装置14输入控制装置10的信号的数据。

其次，判定是否已读取完由指定地点数据表示的指定地点Pobj(图18/步骤2)。在所述判定结果为否定的情况(图18/步骤2…否(NO))下，即未从服务器5接收指定地点数据的情况下，直接结束本处理。

另一方面，在所述判定结果为肯定的情况(图18/步骤2…是(YES))下，按照所述图17的方法，算出目标x速度成分v_x_cmd及目标y速度成分v_y_cmd(图18/步骤3)。

接下来，对应于目标x速度成分v_x_cmd及目标y速度成分v_y_cmd，按照规定的控制算法，算出x控制输入成分Ux及y控制输入成分Uy(图18/步骤4)。在此情况下，作为规定的控制算法，只要使用地图检索等前馈控制算法、或反馈控制算法即可。

接下来，将与x控制输入成分Ux对应的控制输入信号输出至第一致动器24，并且将与y控制输入成分Uy对应的控制输入信号输出至第二致动器25(图18/步骤5)。随后，结束本处理。由此，机器人2的实际的x速度成分v_x及y速度成分v_y以变成目标x速度成分v_x_cmd及目标y速度成分v_y_cmd的方式得到控制。其结果，机器人2沿着由所述目标速度v_x_cmd、目标速度v_y_cmd决定的路径，一边避开前方的交通参与者，一边朝指定地点Pobj移动。

(效果)

根据作为本发明的一实施方式的路径决定***1，在多个第二步行者M2(第二移动物体)分别按照多个移动模式移动的环境中，识别第一步行者M1(第一移动物体)一边避免与所述多个第二步行者M2的干涉，一边朝目标地点Po移动时的多个移动路径Rw(参照图7～图13)。

进而，生成将包含环境图像(参照图15)的时间序列的复合环境图像(参照图16)与移动方向指令组合的数据作为学习用数据，所述环境图像表示在假想空间内分别按照所述多个移动路径移动时的假想机器人(假想移动装置)的周围的视觉环境，所述移动方向指令表示假想机器人的移动方向。

使用学习用数据来学习将包含复合环境图像的环境图像数据作为输入而将移动方向指令作为输出的CNN(行动模型)的模型参数，由此生成学习完毕CNN作为学习完毕模型。并且，使用学习完毕CNN来决定机器人2(移动装置)的移动速度指令v_cmd。

因此，可一边反映第一步行者M1(第一移动物体)的实际的移动路径及相对于所述第一步行者M1的第二步行者M2的相对的移动形态，一边高精度地学习作为学习模型的CNN的模型参数。其结果，即便在机器人2周围存在多个步行者(移动物体)的状况下，也能够以机器人2一边避免与多个移动物体的干涉，一边顺利地移动至目标地点为止的方式，决定所述机器人2的目标移动路径。

而且，在复合环境图像中，除了机器人2的前方的环境图像以外，表现有表示x速度成分v_x与y速度成分v_y的两个矩形的白色方框、及表示目标地点Po的矩形的白色方框，因此可谋求CNN的结构的简单化，进而可谋求机器人2的目标移动路径的决定所需要的运算处理量的减少。由此，可迅速且高精度地决定机器人2的目标移动路径。

进而，学习用数据通过使假想机器人在假想空间内分别按照多个移动路径Rw移动来生成，因此无需准备存在机器人2(实体机器)及交通参与者(多个移动物体)的环境，相应地可容易地生成学习用数据。

(本发明的其他实施方式)

在所述实施方式中，采用可自行移动的机器人2作为“移动装置”，但作为其他实施方式，也可以采用通过使一个车轮或多个车轮旋转来进行移动的车辆、履带式的移动装置、或双足步行型的机器人等作为移动装置。移动装置2也可以是由搭乘移动装置2的人进行操作来进行移动的移动装置、或由人进行远程操作来进行移动的移动装置。

在所述实施方式中，第一移动物体及多个第二移动物体均为步行者，但作为其他实施方式，第一移动物体及多个第二移动物体中的一部分或全部也可以是步行者以外的移动物体。例如，所述物体也可以是可自行移动的移动装置或由操纵者进行操纵的移动装置、坐在自行车或轮椅的人、狗或猫等人以外的动物。

作为假想移动装置，也可以不是假想机器人，而定义与第一移动物体的种类对应的假想移动装置。作为多个假想移动物体中的至少一部分，也可以不是步行者(假想步行者)，而生成与第二移动物体的种类对应的假想移动物体。

在所述实施方式中，作为行动模型，采用CNN，但作为其他实施方式，作为行动模型，也可以采用循环神经网络(Recurrent Neural Network，RNN)及深度Q网络(deep Q-network，DQN)等将环境图像数据作为输入而将行动参数作为输出的其他行动模型。

所述实施方式是使用梯度法作为规定的学习法的例子，但本发明的规定的学习法并不限定于此，只要是学习行动模型的模型参数者即可。

在所述实施方式中，作为机器人2的移动机构，采用包括芯体22及多个滚子23的移动机构21，但作为其他实施方式，也可以采用可使机器人2全方位地移动的其他构成的移动机构。例如，作为移动机构，也可以采用如下的构成的移动机构：将球体与多个滚子组合，通过所述多个滚子来对球体进行旋转驱动，由此使机器人2全方位地移动。

所述实施方式将用于执行按照CNN的运算处理的软件存储保持在构成机器人2的控制装置10的存储装置，但作为其他实施方式，也可以将所述软件存储在构成服务器5的存储装置，由服务器5来执行目标移动路径的决定运算处理，并从服务器5朝机器人2发送作为所述运算处理结果的目标移动路径。

进而，实施方式是在移动速度决定元件53中，利用DWA方法来算出将作为机器人2的移动速度的x速度成分v_x及y速度成分v_y设为要素的移动速度指令v_cmd的例子，但也可以在移动速度决定元件53中，按照DWA方法算出作为机器人2的移动速度的x速度成分v_x及角速度ω来加以代替。

所述实施方式在移动路径获取元件32中，获取如下的第一步行者M1的移动路径Rw，即多个第二步行者M2按照作为第二步行者M2的移动模式的第一移动模式～第七移动模式移动时的第一步行者M1的移动路径Rw(参照图7～图13)。作为其他实施方式，也可以附加地或代替地获取如下的第一步行者M1的移动路径Rw，即第二步行者M2按照第二步行者M2的移动方向及数量与所述七个移动模式不同的移动模式移动时的第一步行者M1的移动路径Rw。

例如，也可以使用如构成第一群的多个第二步行者M2与构成第二群的多个第二步行者M2以相互倾斜地交叉的方式移动的移动模式，或者如通过构成第一群的多个第二步行者M2朝x方向移动、构成第二群的多个第二步行者M2朝y方向移动而相互交叉的移动模式等。

Claims

1.一种路径决定方法，其是移动装置在所述移动装置周边存在多个移动物体的状况下，决定至目标地点为止的目标移动路径的方法，所述路径决定方法的特征在于，

在多个第二移动物体分别按照不同的多个移动模式移动的状况下，识别第一移动物体一边避免与所述多个第二移动物体各自的干涉，一边移动至所述目标地点为止时的所述第一移动物体的多个移动路径，

生成将包含复合环境图像的环境图像数据与行动参数相关联的多个学习用数据，所述复合环境图像是通过将所述移动装置分别按照所述多个移动路径移动时的表示所述移动装置的环境的环境图像的时间序列予以复合而生成，所述行动参数表示所述移动装置的行动，

使用所述多个学习用数据，按照指定学习方法来学习将所述环境图像数据作为输入而将所述行动参数作为输出的行动模型的模型参数，由此来生成学习完毕的所述行动模型即学习完毕模型，

使用所述学习完毕模型，决定所述移动装置的所述目标移动路径。

2.根据权利要求1所述的路径决定方法，其特征在于，

作为所述环境图像，识别包含多个移动物体图像区域的图像，所述多个移动物体图像区域分别表示位于所述移动装置周边的多个移动物体，

生成将所述多个环境图像各自中所含的所述多个移动物体图像区域分别予以重合的所述复合环境图像。

3.根据权利要求2所述的路径决定方法，其特征在于，

生成以下述方式将所述多个移动物体图像区域予以重合的所述复合环境图像，即，根据所述多个环境图像各自的时间序列的顺序先后，将所述多个移动物体图像区域各自的一部分或全部的色调、彩度或明度或者它们的任意组合予以差别化。

4.根据权利要求2或3所述的路径决定方法，其特征在于，

生成以在时间序列上为后的所述移动物体图像区域掩盖在时间序列上为前的所述移动物体图像区域的至少一部分的方式而重合的所述复合环境图像。

5.根据权利要求1至4中任一项所述的路径决定方法，其特征在于，

所述环境图像数据除了所述复合环境图像以外，还包括表示所述移动装置的速度高低的速度图像、及表示所述目标地点的方向的方向图像中的至少一者。

6.根据权利要求1至5中任一项所述的路径决定方法，其特征在于，

所述多个学习用数据包含假想的机器人在假想空间内分别按照所述多个移动路径移动时的所述环境图像数据及与所述环境图像数据相关联的所述行动参数。