CN104908048A

CN104908048A - 动作推断装置、机器人以及动作推断方法

Info

Publication number: CN104908048A
Application number: CN201510108828.3A
Authority: CN
Inventors: 鸟羽薰; 大原庆久
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2014-03-14
Filing date: 2015-03-12
Publication date: 2015-09-16
Anticipated expiration: 2035-03-12
Also published as: JP2015187856A; CN104908048B; US20150262003A1; JP6550643B2; US9684824B2

Abstract

本发明提供一种动作推断装置、机器人以及动作推断方法。动作推断装置具备：取得部，其取得传感器与对象物之间的距离；以及状况推断部，其基于第一时刻由所述取得部取得的所述距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻而设定的。

Description

动作推断装置、机器人以及动作推断方法

技术区域

本发明涉及动作推断装置、机器人以及动作推断方法。

背景技术

提出了识别通过胳膊、手、手指、脚、头等身体各部分的动作来表达意志或感情的姿势的装置(以下称为姿势识别装置)。

在这种姿势识别装置中，基于由图像传感器生成的、将到探测对象区域中存在的物体为止的距离值作为像素值的图像，提取探测对象区域中存在的人的特定部位。并且，提出了姿势识别装置基于所提取的特定部位的形状的时间序列数据，识别特定空间中的规定姿势。此外，特定部位例如是人手的比手腕更靠近尖端的部分，规定的姿势例如是将手伸向图像传感器上方的动作(例如参考JP特开2006-99749号(专利文献1))。

发明内容

但是，手伸向图像传感器上方的时机，对于姿势识别装置来说，难以预测。

因此，在专利文献1记载的技术中，存在不能短时间高精度地识别处于探测对象区域的人的姿势的情况。

本发明鉴于上述问题而作，目的在于提供一种动作推断装置、机器人以及动作推断方法，能够高精度地检测处于探测对象区域的人的动作。

为了解决上述课题，实现相关目的，本发明采用了以下方式。

(1)本发明的一方式所涉及的动作推断装置具备：取得部，其取得传感器与对象物之间的距离；以及状况推断部，其基于第一时刻由所述取得部取得的所述距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻而设定的。

(2)作为本发明的其它方式，也可以构成为在(1)的动作推断装置中，所述状况推断部基于第一期间内由所述取得部取得的所述距离来推断人的反应，所述第一期间是基于促使人结束举手的时刻而设定的。

(3)作为本发明的其它方式，也可以构成为在(2)的动作推断装置中，所述状况推断部提取所述第一时刻和所述第一期间各自中的对象物的高度方向的距离，并且对在所述第一时刻所提取出的高度方向的距离与在所述第一期间所提取出的高度方向的距离进行比较，由此推断人的反应。

(4)作为本发明的其它方式，也可以构成为在(2)的动作推断装置中，具备：人处理部，其基于由所述取得部取得的所述距离来检测人，对所检测出的每个人赋予标识符，所述状况推断部使用由所述人处理部赋予了所述标识符的所述人的所述距离，提取所述第一时刻和所述第一期间各自中的每个所述标识符的高度方向的距离，并且对所述第一时刻和所述第一期间各自中的所提取出的每个所述标识符的高度方向的距离彼此进行比较，由此推断人的反应。

(5)作为本发明的其它方式，也可以构成为在(4)的动作推断装置中，具备：区域距离处理部，其将对人的反应进行推断的规定范围划分为一个以上的区域，基于由所述取得部取得的所述距离，求出该划分了的每个区域的距离，所述状况推断部通过由所述人处理部赋予了所述标识符的所述人的所述距离、以及由所述区域距离处理部求出的距离中的至少一个距离来推断人的反应。

(6)作为本发明的其它方式，也可以构成为在(5)的动作推断装置中，所述区域距离处理部提取所述第一时刻和所述第一期间内的所划分了的每个区域的高度方向的距离，并且比较基于所述第一时刻和所述第一期间内的所提取出的所划分了的每个区域的高度方向的距离的值，由此推断人的反应。

(7)作为本发明的其它方式，也可以构成为在(6)的动作推断装置中，基于所划分了的每个区域的高度方向的距离的值，是提取了所述第一时刻和所述第一期间内的所划分了的每个区域的高度方向的距离的区域中的所述高度方向的距离的平均值。

(8)作为本发明的其它方式，也可以构成为在(5)至(7)中的任一动作推断装置中，具备：距离追踪部，其追踪所述人处理部赋予的标识符的距离，所述状况推断部参考所述距离追踪部赋予的所述标识符的数量，在规定期间内变得不能追踪的所述标识符的数量超过规定值时，使用由所述区域距离处理部求出的距离来推断人的反应，在规定期间内变得不能追踪的所述标识符的数量少于规定值时，使用由所述人处理部求出的距离来推断人的反应。

(9)作为本发明的其它方式，也可以构成为在(5)至(8)中的任一动作推断装置中，所述第一时刻或所述第一期间是对应于由所述区域距离处理部测量的所述距离的变化变得小于规定值时而决定的。

(10)作为本发明的其它方式，也可以构成为在(2)至(9)中的任一动作推断装置中，所述状况推断部计算举手存在范围，提取处于计算出的所述举手存在范围内的、所述第一时刻或所述第一期间内由所述取得部取得的所述距离，基于所提取出的距离来推断人的反应，所述举手存在范围是基于人不进行举手的第二期间内由所述取得部取得的所述距离、以及人的体格数据计算出的举手时人的手存在的高度方向的范围。

(11)作为本发明的其它方式，也可以构成为在(1)至(10)中的任一动作推断装置中，所述人的反应，是人进行了举手的反应或未进行举手的反应，所述状况推断部对所述人的反应进行多次推断，基于所述多次推断的结果，进行多数决定的判定。

(12)作为本发明的其它方式，也可以构成为在(1)至(11)中的任一动作推断装置中，具备：对于规定范围进行本传感器与对象物之间的距离的测量的传感器。

(13)本发明的一方式所涉及的机器人具备：输出部，其输出表示促使人结束举手的信号；以及所述权利要求1至12中任一项所述的所述动作推断装置。

(14)本发明的一方式所涉及的动作推断方法，包括：取得过程，取得部取得传感器与对象物之间的距离；以及状况推断过程，状况推断部基于第一时刻由所述取得过程取得的所述距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻而设定的。

根据上述方式(1)、(12)、(13)以及(14)，与举手的期间相比，能够在短时间内精度良好地推断人的反应。

根据上述方式(2)、(3)以及(4)，基于人放下手之前的期间中人举起了手时的高度方向的值、以及人放下了手时的高度方向的值，能够检测举起了手的人数。

根据上述方式(5)、(6)以及(7)，能够推断举起了手的期间以及放下手时的、区域中的高度方向的变化量。并且，动作推断装置能够基于所推断的结果，通过多数决定，来推断对哪个提问的举手最多。

根据上述方式(8)，能够根据检测结果，使用由区域距离处理部求出的距离或者由人处理部求出的距离来推断人的反应。

根据上述方式(9)，能够基于由区域距离处理部检测出的结果，决定基于促使人结束举手的时刻而设定的第一时刻、以及基于促使人结束举手的时刻而设定的第一期间。

根据上述方式(10)，不需要确定个人，因而即使存在人密集的区域，也能够推断人的反应。

根据上述方式(11)，能够进行多数决定的判定。

附图说明

图1是本发明的第一实施方式所涉及的机器人的概略的方框图。

图2是说明第一实施方式所涉及的语音信号的输出定时和检测举手的定时的图。

图3是由第一实施方式所涉及的机器人进行的举手检测的处理过程的流程图。

图4是说明第一实施方式所涉及的LRF传感器的测量和传感处理部与人合并处理部的处理的图。

图5是第一实施方式所涉及的集群处理、人集群数据的生成的处理过程的流程图。

图6是由第一实施方式所涉及的人合并处理部进行的合并处理过程的流程图。

图7是表示第一实施方式所涉及的进行跟踪的结果的示例的图。

图8是说明第一实施方式所涉及的LRF传感器的测量和传感处理部与网格合并处理部的处理的图。

图9是第一实施方式所涉及的网格数据的生成的处理过程的流程图。

图10是由第一实施方式所涉及的网格合并处理部进行的合并处理过程的流程图。

图11是说明第一实施方式所涉及的进行第一处理及第二处理的定时的图。

图12是本发明的第二实施方式所涉及的机器人的概略的方框图。

图13是说明第二实施方式所涉及的人的部位的高度的图。

图14A是人放下了手的示意图。

图14B是说明第二实施方式所涉及的人放下了手的期间的xyz值的第一图的例子的图。

图15A是人举起了手的示意图。

图15B是说明第二实施方式所涉及的人举起了手的期间的xyz值的第二图的例子的图。

图16是说明第二实施方式所涉及的状况推断部使用第一图～第五图进行的处理的图。

图17是说明第二实施方式所涉及的状况推断部进行集群以推断举起了手的人数的处理的图。

图18是第二实施方式所涉及的状况推断部的处理过程的流程图。

图19是说明促使人结束举手的时刻、第一时刻以及第一期间的图。

具体实施方式

首先说明本发明的概要。

例如，在活动会场，有时由人型机器人来主持活动。在这种状况下，有时预先使机器人存储场景、动作、以及语音信号等，在进行所存储的动作的同时，在与场景对应的定时(timing)，再生所存储的语音信号。在这种机器人的动作中，有时难以取得位于(处于)会场的人与机器人的交流。

因此，本实施方式中，根据位于会场的人们的反应来选择机器人接下来进行的动作、输出的语音信号，由此使机器人与人的交流更加丰富。本实施方式中，机器人推断位于会场的人的举手，基于推断的结果进行多数决定(多数決)，由此从所提示的话题中选择话题。

下面参考附图说明本发明的实施方式。

[第一实施方式]

图1是本实施方式所涉及的机器人1的概略的方框图。

如图1所示，机器人1包括处理部2以及动作推断装置3而构成。机器人1通过无线或有线与n(n是1以上的整数)个LRF(Laser Range Finder，激光测距仪)传感器10-1～10-n连接。此外，在不特指LRF传感器10-1～10-n中的某一者的情况下，称为LRF传感器10。此外，本实施方式中，说明由机器人1具备动作推断装置3的例子，但不限于此。例如，也可以由活动会场等使用的导引***等具备动作推断装置3。

LRF传感器10是三维的空间传感器，在照射激光的同时以规定的间距扫描探测对象的空间，测量由物体反射而返回的时间，由此检测与物体的距离和方向。LRF传感器10-1～10-n分别将测距点的信息输出到对应的传感处理部(取得部)20-1～20-n，该测距点的信息是包含与检测出的物体的距离和方向的检测结果。此外，测距点的信息中包含x轴分量、y轴分量、以及z轴分量。LRF传感器10-1～10-n分别以探测对象空间的一部分重叠的方式设置在能够俯瞰人的位置，例如探测对象空间的天花板、墙壁等。激光的波长例如是905nm、785nm等。另外，一个LRF传感器10的扫描范围例如在水平面上为270度，步距(step)角度为0.25度，步距数为1080步距。此外，本实施方式中，作为传感器的例子，说明使用LRF传感器10的例子，但不限于此，也可以是其它传感器。

首先说明处理部2的构成。

处理部2进行机器人1的动作等各种控制。处理部2具备存储部101、控制部102、以及语音输出部103。

存储部101中存储有与机器人1的控制有关的信息、语音输出数据、场景信息等。此外，所谓场景信息，是记述了在规定时间进行规定动作的信息。

控制部102读出存储部101中存储的场景信息，基于读出的场景信息从语音输出部103输出语音信号。另外，控制部102在输出语音信号的定时，生成触发信号d5，将生成的触发信号d5输出到状况推断部50。另外，控制部102基于从动作推断装置3输入的表示检测结果的信息(以下称为检测信息)d6，从场景信息中选择接下来进行的处理。

语音输出部103与控制部102的处理对应地输出语音信号。语音输出部103例如是扬声器。

接下来说明动作推断装置3的构成。

动作推断装置3具备n个传感处理部20-1～20-n，人合并(統合)处理部(人处理部、距离追踪部)30、网格(グリツド)合并处理部(区域距离处理部)40、状况推断部50、以及存储部60。此外，在不特指传感处理部20-1～20-n中的某一者的情况下，称为传感处理部20。另外，LRF传感器10-1～10-n分别经由无线或有线与对应的传感处理部20-1～20-n连接。另外，动作推断装置3也可以构成为包括LRF传感器10。

传感处理部20取得LRF传感器10输出的检测结果。传感处理部20使用从LRF传感器10输入的检测结果，例如在每个规定的周期对测距点进行分类(集群)。传感处理部20计算分类了的每个集群的重心位置，将计算出的重心位置作为表示位置的信息。传感处理部20在分类了的每个集群中提取高度的最大值，将提取出的最大值作为表示高度的信息。并且，传感处理部20对于每个集群，将表示位置的信息与表示高度的信息相关联以生成人集群数据d1，将生成的人集群数据d1输出到人合并处理部30。

另外，传感处理部20使用从LRF传感器10输入的检测结果，例如在每个规定的周期中将测距点分类为预先规定的网格。传感处理部20在分类了的每个网格中提取高度的最大值，将提取出的最大值作为表示高度的信息。并且，传感处理部20对于每个网格，将表示网格的位置的信息与表示高度的信息相关联以生成网格数据d2，将生成的网格数据d2输出到网格合并处理部40。

传感处理部20例如使用最短距离法等分层方法、k-means法等划分最优化方法来对测距点进行分类。传感处理部20将与高度对应的z轴方向的值在规定范围内或规定高度以上并且在xy平面上具有规定密度的测距点检测为一个集群。例如，传感处理部20对在xy平面上投影了的测距点进行分层的集群，由此对得到的测距点进行分类。

人合并处理部30对从传感处理部20-1～20-n分别输入的人集群数据d1进行合并。人合并处理部30使用合并了的人集群数据对每个人分配标识符(ID)。人合并处理部30对分配了ID的人集群数据进行跟踪(以下称为ID跟踪)。此外，ID跟踪例如如后所述使用集群的重心位置进行，该集群是将测距点投影到xy平面，对投影了的投影点进行分类得到的。人合并处理部30将表示分配了ID的位置的信息(以下也称为人位置)、分配了ID的人集群数据、以及分配了的ID相对应，以生成人数据。人合并处理部30将生成的人数据d3输出到状况推断部50。

网格合并处理部40对从传感处理部20-1～20-n分别输入的网格数据d2进行合并。网格合并处理部40使用合并了的网格数据，提取每个网格的高度的最大值。并且，网格合并处理部40对提取了网格高度的网格的数量进行计数。网格合并处理部40计算提取了网格高度的网格中的网格高度的平均值，将计算出的高度作为表示网格高度的信息d4输出到状况推断部50。

状况推断部50中，从控制部102输入基于场景信息的触发信号d5。此外，触发信号d5中可以包含表示后述的语音信号的种类的信息。状况推断部50根据输入的触发信号d5，使用从人合并处理部30输入的人数据d3，在规定的期间(第一期间)内，对于每个ID，从人数据中包含的表示高度的信息中检测最大值。状况推断部50将在规定期间内检测出的最大值作为该ID的第一集群高度值存储到存储部60。

另外，状况推断部50根据输入的触发信号d5，使用从网格合并处理部40输入的表示网格高度的信息d4，检测规定期间(第一期间)内的表示网格高度的信息的最大值，将在规定期间内检测出的最大值作为第一网格高度值存储到存储部60。

状况推断部50根据输入的触发信号d5，使用从人合并处理部30输入的人数据d3，在规定的时刻(第一时刻)，对于每个ID，将人数据中包含的表示高度的信息作为该ID的第二集群高度值存储到存储部60。

另外，状况推断部50根据输入的触发信号d5，将规定时刻的表示网格高度的信息的最大值作为第二网格高度值存储到存储部60。

状况推断部50对于每个ID，读出存储部60中存储的第一集群高度值和第二集群高度值，对读出的第一集群高度值与第二集群高度值进行比较，由此对每个ID判别是否举起了手。

状况推断部50例如在从第一集群高度值中减去第二集群高度值得到的值在规定值以上时，判别为举起了手。或者，状况推断部50例如在将第一集群高度值除以第二集群高度值得到的值在规定值以上时，判别为举起了手。

存储部60中存储第一集群高度值、第二集群高度值、第一网格高度值、第二网格高度值。

图2是说明本实施方式所涉及的语音信号的输出定时和检测举手的定时的图。图2中，横轴为时间。此外，在图2所示的例子中，示出机器人1提示的话题为A和B两个的情况。

首先，说明控制部102输出语音信号的定时。

在时刻t0，人正在听从机器人1输出的语音。在该时刻，人不进行举手。

时刻t1时，控制部102基于存储部101中存储的场景信息，开始从语音输出部103输出语音信号“希望听A的人请举起手”。

另外，时刻t11时，控制部102基于存储部101中存储的场景信息，开始从语音输出部103输出语音信号“希望听B的人请举起手”。期间p1是输出在时刻t1或t11开始输出的语音信号的期间，是时刻t1～t2或时刻t11～t12的期间。

从时刻t1起经过期间p2之后的时刻t4时，控制部102基于存储部101中存储的场景信息，从语音输出部103输出语音信号“好，知道了”。另外，从时刻t11起经过期间p2之后的时刻t14时，控制部102基于存储部101中存储的场景信息，从语音输出部103输出语音信号“好，知道了”。期间p2是场景信息中设定的时刻t1或t11起的规定时间，例如为10秒的期间。另外，期间p5是输出在时刻t4或时刻t14开始输出的语音信号的期间，是时刻t4～t6或时刻t14～t16的期间。时刻t4以及t14是促使人结束举手的时刻。

时刻t3是从时刻t4起期间p4(第一期间)之前的时刻。另外，时刻t13是从时刻t14起期间p4之前的时刻。期间p4例如是(规定时间的)1/2。例如，规定时间是4秒，期间p4是2秒。在该期间p4内，人合并处理部30对于每个ID检测集群高度。另外，在该期间p4内，网格合并处理部40对于每个网格检测网格高度，在检测了网格高度的所有网格中计算网格高度的平均值。

时刻t5是从时刻t4起期间p6(第一期间)之后的时刻。另外，时刻t15是从时刻t14起期间p6之后的时刻。期间p6例如是(规定时间的)1/2。例如，规定时间是4秒，期间p6是2秒。在时刻t5以及t15时，人合并处理部30对于每个ID检测集群高度。另外，在时刻t5以及t15时，网格合并处理部40对于每个网格检测网格高度，在检测了网格高度的所有网格中计算网格高度的平均值。

本实施方式中，如图2所示，状况推断部50对使用从输出语音信号的定时即时刻t4起期间p4(第一期间)之前的期间的数据而检测出的每个ID的集群高度、和使用从时刻t4起期间p6(第一期间)之后的时刻(第一时刻)的数据而检测出的集群高度进行比较，由此推断举起了手的人数。同样，状况推断部50对使用从时刻t14起期间p4之前的期间的数据而检测出的每个ID的集群高度、和使用从时刻t14起期间p6之后的时刻的数据而检测出的高度进行比较，由此推断举起了手的人数。并且，在时刻t16之后，控制部102比较对提问A以及B举起了手的人数，由此进行多数决定。

或者，状况推断部50对使用从时刻t4起期间p4之前的期间的数据而计算出的网格高度的平均值、和使用从时刻t4起期间p6之后的时刻的数据而计算出的网格高度的平均值进行比较，由此推断网格高度。同样，状况推断部50对使用从时刻t14起期间p4之前的期间的数据而计算出的网格高度的平均值、和使用从时刻t14起期间p6之后的时刻的数据而计算出的网格高度进行比较，由此推断网格高度。并且，在时刻t16之后，控制部102比较对提问A以及B的网格高度，由此进行多数决定。

接下来，说明由机器人1进行的举手检测的处理过程。

图3是由本实施方式所涉及的机器人1进行的举手检测的处理过程的流程图。

(步骤S1)控制部102读出存储部101中存储的场景信息。控制部102使处理进入步骤S2。

(步骤S2)控制部102基于读出的场景信息，从语音输出部103输出语音信号。控制部102使处理进入步骤S3。

(步骤S3)传感处理部20在从LRF传感器10输入的检测结果中，提取z轴分量的值在规定值以上的测距点。传感处理部20使处理进入步骤S4。

(步骤S4)传感处理部20使用步骤S3中提取的测距点的信息，生成人集群数据。接下来，传感处理部20使用步骤S3中提取的测距点的信息，对每个网格生成网格数据。此外，关于生成的顺序，既可以先进行网格数据的生成，也可以并行进行人集群数据的生成与网格数据的生成。传感处理部20使处理进入步骤S5。

(步骤S5)人合并处理部30使用步骤S4中生成的人集群数据进行合并处理。

接下来，网格合并处理部40使用步骤S4中生成的网格数据进行合并处理。此外，关于处理的顺序，既可以由人合并处理部30以及网格合并处理部40中的任一者先进行，也可以平行进行。人合并处理部30以及网格合并处理部40使处理进入步骤S6。

(步骤S6)状况推断部50判别是否经过了期间(p2-p4)(规定期间(第一期间))、是否经过了期间(p2+p4)。状况推断部50在判别为未经过期间(p2-p4)的情况下(步骤S6；未经过)，返回步骤S3。状况推断部50在判别为经过了期间(p2-p4)的情况下(步骤S6；经过期间(p2-p4))，进入步骤S7，在判别为经过了期间(p2+p4)(规定时刻)的情况下(步骤S6；经过期间(p2+p4))，进入步骤S9。

(步骤S7)状况推断部50判别是否经过了期间p2。状况推断部50在判别为未经过期间p2的情况下(步骤S7；否)，进入步骤S8，在判别为经过了期间p2的情况下(步骤S7；是)，返回步骤S3。

(步骤S8)状况推断部50进行第一处理。状况推断部50在处理结束后返回步骤S3。

(步骤S9)状况推断部50进行第二处理。状况推断部50在处理结束后进入步骤S10。

(步骤S10)状况推断部50比较由步骤S8的第一处理检测出的结果与由步骤S9的第二处理检测出的结果。

(步骤S11)状况推断部50基于步骤S10中比较的结果，推断举手了的人数。接下来，状况推断部50基于步骤S10中比较的结果，推断网格高度的变化量。

动作推断装置3基于场景信息，反复执行步骤S2～S11，直到以规定次数提示规定提问为止。

(步骤S12)状况推断部50基于场景信息，以规定次数提示了规定提问之后，基于步骤S11中推断的每个提问的推断结果，进行多数决定判定。具体而言，状况推断部50根据设定了的条件，选择使用人合并处理部30还是网格合并处理部40的处理结果。状况推断部50比较步骤S11中推断的每个提问的举手了的人数，选择人数最多的提问。或者，状况推断部50比较步骤S11中推断的每个提问的网格高度的变化量，选择变化量最大的提问。

最后，结束举手检测的处理。

<人集群数据的生成>

接下来，说明步骤S4(图3)中进行的人集群数据的生成。

图4是说明本实施方式所涉及的LRF传感器10的测量和传感处理部20与人合并处理部30的处理的图。图4中，面向纸面，设左右方向为x轴方向，进深方向为y轴方向，高度方向为z轴方向。

在图4所示的例子中，在检测对象空间的天花板上，以距离为L1的间隔设置有两个LRF传感器10-1和LRF传感器10-2。符号111所示的区域表示LRF传感器10-1能够检测的区域(以下称为检测区域)，符号112所示的区域表示LRF传感器10-2的检测区域。另外，在图4所示的例子中，示出规定高度以上的测距点。

另外，在图4所示的例子中，在LRF传感器10-1的检测区域111中有人hu1，在LRF传感器10-2的检测区域112中有人hu1和人hu2。

测距点121～126是对人hu1的测距点，测距点131～133是对人hu2的测距点。测距点例如是与人的头部、耳朵、衣领、肩膀等对应的点。这些测距点中包含有x、y、z各分量。也就是说，测距点中包含有表示xy平面上的位置的信息和表示高度的信息。

并且，在图4所示的例子中，测距点122～126是由LRF传感器10-1测量的测距点，测距点121～126及131～133是由LRF传感器10-2测量的测距点。

另外，图4中，投影点141～146是将测距点131～136投影到xy平面的点，投影点151～153是将测距点131～133投影到xy平面的点。

接下来，说明集群处理、人集群数据的生成的处理过程。

图5是本实施方式所涉及的集群处理、人集群数据的生成的处理过程的流程图。

(步骤S101)传感处理部20在从对应的LRF传感器10输入的测距点的信息中，使用各测距点的信息中包含的x轴分量和y轴分量将z轴分量的值在规定值以上的测距点投影到xy平面。传感处理部20使处理进入步骤S102。

(步骤S102)传感处理部20对投影到xy平面的投影点进行分类(分为集群)。传感处理部20使处理进入步骤S103。

(步骤S103)传感处理部20对于分为集群的每个集群，计算集群内包含的投影点的重心位置，将计算出的重心位置作为表示该集群的位置的信息。传感处理部20使处理进入步骤S104。

(步骤S104)传感处理部20对于分为集群的每个集群，在与集群内包含的投影点对应的测距点中提取z轴分量的最大值，将提取出的最大值作为表示该集群的高度的信息。传感处理部20使处理进入步骤S105。

(步骤S105)传感处理部20将每个集群的表示位置的信息与表示高度的信息相关联，以生成每个集群的人集群数据。

接下来，参考图4、图5说明集群处理、人集群数据的生成的具体例。

传感处理部20-1将输入的测距点122～126投影到xy平面，生成投影点142～146的信息。传感处理部20-2将输入的测距点121～126及131～133投影到xy平面，生成投影点141～146及151～153的信息(步骤S101)。

接下来，传感处理部20-1将投影点142～146分类为一个集群。另外，传感处理部20-2将投影点141～146分类为一个集群，将投影点151～153分类为一个集群(步骤S102)。

传感处理部20-1计算进行了集群的投影点142～146的重心位置。传感处理部20-1计算进行了集群的投影点141～146的重心位置、投影点151～153的重心位置(步骤S103)。

接下来，传感处理部20-1提取在与分类了的集群中包含的投影点142～146对应的测距点122～126中作为z轴分量最大值的测距点122的z轴分量。传感处理部20-2提取在测距点121～126中作为z轴分量最大值的测距点121的z轴分量，并且提取在测距点131～133中作为z轴分量最大值的测距点132的z轴分量(步骤S104)。

接下来，传感处理部20-1将表示作为投影点142～146的重心位置的位置的信息与表示测距点122的高度的信息相关联，以生成人集群数据d1₍₁₁₎。传感处理部20-2将表示作为投影点141～146的重心位置的位置的信息与表示测距点121的高度的信息相关联，以生成人集群数据d1₍₂₁₎，将表示作为投影点151～153的重心位置的位置的信息与表示测距点132的高度的信息相关联，以生成人集群数据d1₍₂₂₎(步骤S105)。

<由人合并处理部30进行的第一合并处理>

接下来，说明由人合并处理部30进行的步骤S5(图3)的第一合并处理。

图6是由本实施方式所涉及的人合并处理部30进行的第一合并处理过程的流程图。

(步骤S201)人合并处理部30对从传感处理部20-1～20-n输入的人集群数据进行合并。人合并处理部30使处理进入步骤S202。

(步骤S202)人合并处理部30使用合并了的人集群数据，对每个集群分配ID。人合并处理部30使处理进入步骤S203。

(步骤S203)人合并处理部30对于每个ID，将表示分配了ID的集群的位置的信息、表示分配了ID的集群的高度的信息、以及分配了的ID相关联，以生成人数据。人合并处理部30使处理进入步骤S204。

(步骤S204)人合并处理部30使用生成的人数据，针对每个ID，对分配了ID的人的位置以及高度进行跟踪。此外，人合并处理部30在无法跟踪的情况下，删除与无法跟踪的ID对应的人数据。

接下来，参考图4、图6说明由人合并处理部30进行的第一合并处理的具体例。

人合并处理部30对于从传感处理部20-1输入的人集群数据d1₍₁₁₎与从传感处理部20-2输入的人集群数据d1₍₂₁₎，判别为表示位置的信息处于规定范围内并进行合并(步骤S201)。接下来，人合并处理部30对于合并了人集群数据d1₍₁₁₎与d1₍₂₁₎的集群数据，例如分配ID1(步骤S202)。另外，人合并处理部30在人集群数据d1₍₁₁₎与d1₍₂₁₎中包含的表示高度的信息中，提取测距点121的z轴分量的值作为最大值。

另外，人合并处理部30对于从传感处理部20-2输入的人集群数据d1₍₂₂₎，判别为表示位置的信息与其处于规定范围内的其它人集群数据不存在。在此情况下，人合并处理部30不将其它人集群数据与人集群数据d1₍₂₂₎相合并(步骤S201)。接下来，人合并处理部30对人集群数据d1₍₂₂₎分配ID2(步骤S202)。另外，人合并处理部30提取人集群数据d1₍₂₂₎中包含的表示高度的信息。

接下来，人合并处理部30生成ID1的人数据、ID2的人数据(步骤S203)。

接下来，人合并处理部30跟踪各ID。例如在时刻t1(图2)时分配的各ID中包含的合并后的人集群数据在每个采样时间Δt内位于规定范围内的情况下，跟踪将其判别为相同的ID。所谓规定范围，例如是指在采样时间Δt内人步行移动时，人集群数据能够移动的范围等。此外，人合并处理部30对判别为相同ID的人数据中包含的表示高度的信息进行跟踪(步骤S204)。

图7是表示本实施方式所涉及的进行跟踪的结果例的图。此外，图7所示的例子是检测出ID4～ID7的4人的例子。另外，图7所示的集群高度是指，由人合并处理部30提取的每个ID的高度最高的测距点的z轴分量的值。

图7中，横轴为时间，纵轴为集群的高度。另外，符号g101的曲线是表示由人合并处理部30分配了ID4的人的集群高度的时间变化的曲线，符号g102的曲线是表示由人合并处理部30分配了ID5的人的集群高度的时间变化的曲线，符号g103的曲线是表示由人合并处理部30分配了ID6的人的集群高度的时间变化的曲线，符号g104的曲线是表示由人合并处理部30分配了ID7的人的集群高度的时间变化的曲线。

时刻t21是控制部102基于存储部101中存储的场景信息从语音输出部103输出语音信号“希望听A的人请举起手”的时刻。

曲线g101～g104分别是分配了ID4～ID7的集群高度的变化。如曲线g101所示，ID4的集群高度约为1620[mm]，时刻t22时跟踪失败。此外，跟踪失败在进行了跟踪的人集群数据消失等情况下发生。人集群数据消失例如在人移动到检测区域(规定范围)外等情况下发生。

如曲线g102所示，ID5的集群高度在时刻t21～t25的期间约为1550[mm]，在时刻t25时集群高度变化为约1800[mm]。

另外，如曲线g103所示，ID6的集群高度在时刻t21～t23的期间约为1580[mm]，在时刻t23时集群高度变化为约1900[mm]，在时刻t24时跟踪失败。

如曲线g104所示，ID7的集群高度在时刻t21～t26的期间约为1480[mm]，未发生变化。

<网格数据的生成>

接下来，说明步骤S4(图3)中进行的网格数据的生成。

图8是说明本实施方式所涉及的LRF传感器10的测量和传感处理部20与网格合并处理部40的处理的图。图8中，与图4相同，面向纸面，设左右方向为x轴方向，进深方向为y轴方向，高度方向为z轴方向。另外，检测对象空间中预先设定网格a(1，1)～a(3，5)。网格纵向长L2，横向长L2，L2例如是10cm。此外，与图4相同的对象使用相同符号并省略说明。另外，在图8所示的例子中，与图4相同，示出规定高度以上的测距点。

网格a(1，1)～a(3，5)的各顶点的坐标值预先存储在传感处理部20中。例如，网格a(1，1)的xy坐标值分别是，左下顶点c1为(0，0)，左上顶点c2为(10，0)，右上顶点c3为(10，10)，右下顶点c4为(0，10)。传感处理部20将位于该范围的投影点分类为该网格a(1，1)的投影点。

图9是本实施方式所涉及的网格数据的生成的处理过程的流程图。

(步骤S301)传感处理部20在步骤S101(图5)之后，对于每个网格，对投影的投影点进行分类。传感处理部20使处理进入步骤S302。

(步骤S302)传感处理部20对于每个网格，提取与网格包含的投影点对应的测距点的z轴分量的最大值，将提取出的z轴分量作为表示该网格的高度的信息。传感处理部20使处理进入步骤S303。

(步骤S303)传感处理部20对于每个网格，将表示网格位置的信息与提取的表示网格高度的信息相关联，以生成网格数据。

在图8所示的例子中，传感处理部20-1将投影点142～146分类为网格a(1，4)，作为表示高度的信息提取与投影点142对应的测距点122的z轴分量。并且，传感处理部20-1将表示网格a(1，4)的位置的信息与作为测距点122的z轴分量的表示高度的信息相关联，以生成网格数据d2₍₁₁₎。

另外，传感处理部20-2将投影点141～146分类为网格a(1，4)，作为表示高度的信息提取与投影点141对应的测距点121的z轴分量。此外，传感处理部20-2将投影点151～153分类为网格a(1，5)，作为表示高度的信息提取与投影点152对应的测距点132的z轴分量。并且，传感处理部20-2将表示网格a(1，4)的位置的信息与作为测距点121的z轴分量的表示高度的信息相关联，以生成网格数据d2₍₂₁₎，将表示网格a(1，5)的位置的信息与作为测距点132的z轴分量的表示高度的信息相关联，以生成网格数据d2₍₂₂₎。

此外，传感处理部20仅对提取了表示高度的信息的网格生成网格数据。

<由网格合并处理部40进行的合并处理>

接下来，说明步骤S5(图3)中进行的合并处理。

图10是由本实施方式所涉及的网格合并处理部40进行的合并处理过程的流程图。

(步骤S401)网格合并处理部40对网格数据d2中包含的表示位置的信息一致的、从传感处理部20-1～20-n输入的网格数据d2进行合并。网格合并处理部40使处理进入步骤S402。

(步骤S402)网格合并处理部40在合并之后，在有多个表示网格高度的信息的情况下，提取最大值，将提取的表示高度的信息决定为该网格的高度值。网格合并处理部40使处理进入步骤S403。

(步骤S403)网格合并处理部40对具有表示高度的信息的合并后的网格数进行计数，作为网格数。接下来，网格合并处理部40对具有表示高度的信息的所有网格的高度值进行加法计算，除以网格数，由此计算网格高度的平均值。

例如，网格合并处理部40使用下式(1)计算具有表示高度的信息的网格的高度，即z轴方向的值的平均值Zave。

平均值Zave＝∑(各网格的z轴方向的高度)/(附加有表示高度的信息的网格数) (1)

在图8所示的例子中，平均值Zave为{网格a(1，4)的高度(测距点121的z轴方向的分量)+网格a(1，5)的高度(测距点132的z轴方向的分量)}/2。

接下来，网格合并处理部40使用式(1)计算时刻t5(图2)时的具有表示高度的信息的网格的高度的平均值Zave。

例如，设图8所示的人hu1的身高为173[cm]，人hu2的身高为168[cm]，人hu1举手时的高度为210[cm]，人hu2举手时的高度为195[cm]。

期间p4(图2)时，在人hu1与人hu2两人均举起了手的情况下，举手的期间p4中的网格高度的平均值Zave是202.5[cm](＝(210[cm]+195[cm])/2)。在此情况下，设期间p4中的最大值Zmax是平均值Zave。另外，放下手的时刻t5时的网格高度的平均值Zave是170.5[cm](＝(173[cm]+168[cm])/2)。比较期间p4的最大值Zmax 202.5[cm]与时刻t5时的平均值Zave 170.5[cm]，差为32[cm]。

另外，图8中，期间p4时，在只有人hu1举起了手的情况下，举手的期间p4中的网格高度的平均值Zave是189[cm](＝(210[cm]+168[cm])/2)。同样，设期间p4中的最大值Zmax是平均值Zave。另外，放下手的时刻t5时的网格高度的平均值Zave是170.5[cm](＝(173[cm]+168[cm])/2)。比较期间p4的最大值Zmax 189[cm]与时刻t5时的平均值Zave 170.5[cm]，差为18.5[cm]。

也就是说，期间p4的最大值Zmax与时刻t5时的平均值Zave的差越大，则举起了手的人数越多。

例如，设机器人1根据场景信息反复执行三次图3所示的处理，由此使位于检测区域的人们进行三选一。

状况推断部50在第一次的时刻t1₍₁₎时，从语音输出部103输出语音信号“希望听A的人请举起手”。并且，计算第一次的期间p4₍₁₎的最大值与时刻t5₍₁₎时的平均值的差Δg1。

接下来，状况推断部50在第二次的时刻t1₍₂₎(＝时刻t11，图2)时，从语音输出部103输出语音信号“希望听B的人请举起手”。并且，计算第二次的期间p4₍₂₎的平均值与时刻t5₍₂₎(＝时刻t15，图2)时的平均值的差Δg2。

接下来，状况推断部50在第三次的时刻t1₍₃₎时，从语音输出部103输出语音信号“希望听C的人请举起手”。并且，计算第三次的期间p4₍₃₎的平均值与时刻t5₍₃₎时的平均值的差Δg3。

状况推断部50通过比较以此方式计算出的差Δg1～Δg3，推断对提问A～C中的哪个提问的举手最多。

如上所述，在本实施方式所涉及的动作推断装置3中，人的反应，是人进行了举手的反应或未进行举手的反应，状况推断部(例如，状况推断部50)对人的反应进行多次推断，基于多次推断的结果，进行多数决定的判定。

通过该构成，本实施方式的动作推断装置3能够进行多数决定的判定。

此外，在上述例子中，说明了传感处理部20仅对提取了高度信息的网格生成网格数据的例子，但不限于此。传感处理部20对于不具有表示高度的信息的网格，例如可以关联0作为表示高度的信息，以生成网格数据。在此情况下，网格合并处理部40在步骤S403中，可以将高度信息为大于0的值的网格的数量作为网格数，另外，将表示高度的信息大于0的值作为网格的高度值。

在图8所示的例子中，从传感处理部20-1输入的网格数据d2₍₁₁₎与从传感处理部20-2输入的网格数据d2₍₂₁₎中分别包含的表示位置的信息一致，因此网格合并处理部40将它们合并为一个网格的网格数据。网格合并处理部40在从多个传感处理部20输入的表示高度的信息不一致的情况下，比较从多个传感处理部20输入的表示高度的信息的z轴分量彼此，提取值较大的z轴分量作为最大值。

另外，与从传感处理部20-2输入的网格数据d2₍₂₂₎中包含的表示位置的信息一致的其它网格数据不存在，因此网格合并处理部40不进行与其它网格数据的合并。并且，网格合并处理部40提取作为表示高度的信息的、测距点132的z轴分量作为最大值。

并且，网格合并处理部40将测距点121与132的z轴分量的相加值除以网格数2，以计算网格高度。

<进行第一处理及第二处理的定时>

接下来，说明进行第一处理及第二处理的定时。

图11是说明本实施方式所涉及的进行第一处理及第二处理的定时的图。

图11中，与图7同样，横轴为时间，纵轴为集群的高度。另外，曲线g111～g114分别是由人合并处理部30分配了ID4～ID7的人的集群高度的时间变化。图11所示的例子是跟踪了分配了ID4～ID7的4人时的结果。此外，控制部102在时刻t31开始与时刻t1(图2)相同的语音信号“希望听A的人请举起手”的输出，在时刻t35开始与时刻t4(图2)相同的语音信号“好，知道了”的输出。

在时刻t32，如曲线g113所示，分配了ID6的人的集群高度增大，在时刻t33，如曲线g112所示，分配了ID5的人的集群高度增大，在时刻t34，如曲线g111所示，分配了ID4的人的集群高度增大。如曲线g114所示，分配了ID7的人的集群高度具有不足规定阈值的变化。

在时刻t36，如符号g113所示，分配了ID6的人的集群高度减小，在时刻t37，如符号g111所示，分配了ID4的人的集群高度减小，在时刻t38，如符号g112所示，分配了ID5的人的集群高度减小。

如图11所示，在检测区域中有多人，其中的一些人举手的情况下，举手的定时参差不齐。例如，有的人确认周围的人举手了之后再举手。例如，图11所示的时刻t32与时刻34的时间差例如为3秒。此外，不清楚多个人何时开始举手。这样，若要检测举手，则在图11中例如需要在时刻t31～时刻35之间进行检测。

另一方面，图11所示的时刻t36与时刻t38的时间差例如为1秒。也就是说，如图11所示，从输出语音信号“好，知道了”的时刻t35起经过规定时间后，举起了手的人们在短时间内放下了手。

因此，本实施方式中，以时刻t35时输出语音信号“好，知道了”为触发信号，在推断为举起了手的、输入触发信号的时刻起规定时间前的期间内进行第一处理。并且，本实施方式中，在输入触发信号的时刻起规定时间后进行第二处理，通过比较第一处理与第二处理的结果，检测举起了手的人数。规定时间例如是2秒。

<第一处理>

接下来，说明步骤S8(图3)中进行的第一处理。

首先，使用图2说明状况推断部50使用人数据d3进行的第一处理。

状况推断部50在经过期间(p2-p4)后～经过期间p2后为止，即时刻t3～t4的期间，对于每个ID，从人数据d3中包含的表示高度的信息中检测最大值。最大值的检测，例如通过如下方式进行：比较时刻t-Δt(采样时间)与时刻t的表示高度的信息，将值较大的一者作为最大值进行保持。

状况推断部50将在时刻t3～t4的期间内检测出的最大值作为该ID的第一集群高度值存储到存储部60。

接下来，使用图2说明状况推断部50使用表示网格高度的信息d4进行的第一处理。

状况推断部50在时刻t3～t4的期间内，从表示网格高度的信息d4中检测最大值。状况推断部50将在时刻t3～t4的期间内检测出的最大值作为第一网格高度值存储到存储部60。

<第二处理>

接下来，说明步骤S9(图3)中进行的第二处理。

首先，使用图2说明状况推断部50使用人数据d3进行的第二处理。

状况推断部50在经过期间(p2+p4)后，即时刻t5时，对于每个ID，检测人数据中包含的表示高度的信息。状况推断部50将在时刻t5时提取的值作为该ID的第二集群高度值存储到存储部60。

接下来，使用图2说明状况推断部50使用表示网格高度的信息d4进行的第二处理。

状况推断部50将时刻t5时的表示网格高度的信息d4作为第二网格高度值存储到存储部60。

<比较处理>

接下来，说明步骤S10及S11(图3)中进行的比较处理及推断处理。

首先，说明状况推断部50对人数据d3进行的比较处理及推断处理。

接下来，说明状况推断部50对表示网格高度的信息d4进行的比较处理及推断处理。

状况推断部50读出存储部60中存储的第一网格高度值和第二网格高度值，对读出的第一网格高度值与第二网格高度值进行比较，由此计算网格高度的变化量。

状况推断部50例如可以将从第一集群高度值中减去第二集群高度值得到的值作为网格高度变化量，或者也可以将第一集群高度值除以第二集群高度值得到的值作为网格高度变化量。

接下来，说明状况推断部50使用上述人合并处理部30检测出的检测结果和网格合并处理部40检测出的检测结果中的任一者的例子。

状况推断部50根据以下条件选择人合并处理部30检测出的检测结果还是网格合并处理部40检测出的检测结果。

(条件1)基于从人合并处理部30输入的跟踪结果进行选择

在跟踪失败次数或失败率不足规定值的情况下，选择人合并处理部30检测出的检测结果，在跟踪失败次数或失败率在规定值以上的情况下，选择网格合并处理部40检测出的检测结果。

(条件2)基于人的密集度进行选择

检测每个网格的密集度，在检测出的每个网格的密集度不足规定值的情况下，选择人合并处理部30检测出的检测结果，在检测出的每个网格的密集度在规定值以上的情况下，选择网格合并处理部40检测出的检测结果。此外，本实施方式中的密集度例如是基于规定面积内的人数的指标。

如上所述，本实施方式的动作推断装置3具备：取得部(例如，传感处理部20)，其取得传感器(例如LRF传感器10)与对象物(人)之间的距离(例如，人的高度方向的值)；以及状况推断部(例如，状况推断部50)，其基于第一时刻(例如，时刻t3或t5)由取得部取得的距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻(例如，时刻t4)而设定的。

通过该构成，本实施方式的动作推断装置3在人放下了手的定时，基于由LRF传感器10测量的测距点，将作为人的反应的手已放下的人数推断为举手了的人数，或者推断作为放下了手的人的比例(举手了的人的比例)的高度变化量。据此，本实施方式的动作推断装置3与举手的期间相比，能够在短时间内精度良好地推断人的反应。

另外，在本实施方式的动作推断装置3中，状况推断部(例如，状况推断部50)基于第一期间(例如，时刻t3至t4的期间p4、或时刻t4至t5的期间p6)内由取得部取得的距离(例如，人的高度方向的值)来推断人的反应，所述第一期间是基于促使人结束举手的时刻而设定的。

另外，在本实施方式的动作推断装置3中，状况推断部(例如，状况推断部50)提取第一时刻(例如，时刻t3)和第一期间(例如，时刻t3至t4的期间p4)各自中的对象物(例如，人)的高度方向的距离，并且对在第一时刻所提取出的高度方向的距离与在第一期间所提取出的高度方向的距离进行比较，由此推断人的反应。

另外，在本实施方式的动作推断装置3中，具备：人处理部(例如，人合并处理部30)，其基于由取得部(例如，传感处理部20)取得的距离(例如，人的高度方向的值)来检测人，对所检测出的每个人赋予标识符(例如，ID)，状况推断部(例如，状况推断部50)使用由人处理部赋予了标识符的人的距离，提取第一时刻(例如，时刻t3)和第一期间(例如，时刻t3至t4的期间p4)各自中的每个标识符的高度方向的距离，并且对第一时刻和第一期间各自中的所提取出的每个标识符的高度方向的距离彼此进行比较，由此推断人的反应。

通过该构成，本实施方式的动作推断装置3基于人放下手之前的期间中人举起了手时的高度方向的值、以及人放下了手时的高度方向的值，能够检测举起了手的人数。

另外，本实施方式的动作推断装置3中，具备：区域距离处理部(例如，网格合并处理部40)，将对人的反应进行推断的规定范围划分为一个以上区域，基于取得部(例如，传感处理部20)取得的距离求出每个该区域的距离(例如，人的高度方向的值)，状况推断部(例如，状况推断部50)通过由人处理部(例如，人合并处理部30)赋予了标识符(例如，ID)的人的距离、以及区域距离处理部求出的距离中的至少一个距离来推断人的反应。

通过该构成，本实施方式的动作推断装置3能够推断举起了手的期间以及放下手时的、区域中的高度方向的变化量。并且，动作推断装置3能够基于推断的结果，通过多数决定，来推断对哪个提问的举手最多。

此外，本实施方式中，说明了动作推断装置3的状况推断部50选择人合并处理部30的处理结果或网格合并处理部40的处理结果中的任一者，将选择的结果输出到处理部2的例子，但不限于此。状况推断部50也可以将人合并处理部30的处理结果以及网格合并处理部40的处理结果两者输出到处理部2，由处理部2来选择使用哪一处理结果。

另外，本实施方式中，说明了根据基于放下手的定时，生成触发信号d5的例子，但不限于此。动作推断装置3例如也可以基于促使举手的定时，计算直到输出放下手的语音信号为止的时刻，基于计算出的时刻，计算举起了手的期间即期间p4、或者放下手时的时刻t5，还可以在该定时由控制部102对动作推断装置3输出触发信号d5。

另外，本实施方式中，说明了基于场景信息、促使放下手的定时，进行第一处理及第二处理(图3)的例子，但不限于此。

状况推断部50也可以在提取了由网格合并处理部40计算的表示高度的信息的网格中，在每个采样时间取得高度的平均值。并且，状况推断部50可以在取得的提取了表示高度的信息的网格中，判别高度的平均值是否变得小于预先规定的值，在判别为变得小于预先规定的值时，判别为位于检测区域的人们的手已放下。并且，状况推断部50可以基于位于检测区域的人们的手已放下的时候，决定手举起的期间以及正在放下手的时候。

在此情况下，动作推断装置3可以将由人合并处理部30处理的结果与由网格合并处理部40处理的结果分别与表示时刻的信息相关联并存储到存储部60，从存储部60读出决定的期间以及时刻的信息以进行第一处理及第二处理。

如上所述，在本实施方式的动作推断装置3中，与区域距离处理部(例如，网格合并处理部40)测量的距离(例如，高度方向的值)的变化变得小于规定值时相对应，来决定第一时刻(例如，时刻t3或t5)或第一期间(例如，时刻t3至t4的期间p4)。

通过该构成，本实施方式的动作推断装置3能够与场景信息无关地、基于由网格合并处理部40处理由LRF传感器10测量的测距点的结果，决定举起了手的期间以及放下了手的期间。其结果是，本实施方式中，即使不使用触发信号d5，也能够进行举起了手的人的人数的推断、或者人的手的高度的变化量的推断。

[第二实施方式]

图12是本实施方式所涉及的机器人1A的概略的方框图。

如图12所示，机器人1A包括处理部2以及动作推断装置3A而构成。机器人1A通过无线或有线与n(n是1以上的整数)个LRF传感器10-1～10-n连接。此外，对于与机器人1具有相同功能的功能部，使用相同符号并省略说明。另外，在不特指LRF传感器10-1～10-n中的某一者的情况下，称为LRF传感器10。此外，也可以由活动会场等使用的导引***等具备动作推断装置3A。

动作推断装置3A具备n个传感处理部20A-1～20A-n，人合并处理部30、网格合并处理部40、状况推断部50A、以及存储部60A。在不特指传感处理部20A-1～20A-n中的某一者的情况下，称为传感处理部20A。另外，与机器人1同样，LRF传感器10-1～10-n分别经由无线或有线与对应的传感处理部20A-1～20A-n连接。另外，动作推断装置3A也可以包括LRF传感器10而构成。

传感处理部20A将从LRF传感器10输入的测距点的信息d7输出到状况推断部50A。

传感处理部20A使用从LRF传感器10输入的检测结果，例如在每个规定的周期对测距点进行分类(集群)。传感处理部20A计算分类了的每个集群的重心位置，将计算出的重心位置作为表示位置的信息。传感处理部20A在分类了的每个集群中提取高度的最大值，将提取出的最大值作为表示高度的信息。并且，传感处理部20A对于每个集群，将表示位置的信息与表示高度的信息相关联以生成人集群数据d1，将生成的人集群数据d1输出到人合并处理部30。

另外，传感处理部20A使用从LRF传感器10输入的检测结果，例如在每个规定的周期中将测距点分类为预先规定的网格。传感处理部20A在分类了的每个网格中提取高度的最大值，将提取出的最大值作为表示高度的信息。并且，传感处理部20A对于每个网格，将表示网格的位置的信息与表示高度的信息相关联以生成网格数据d2，将生成的网格数据d2输出到网格合并处理部40。

状况推断部50A基于从控制部102输入的触发信号d5，合并从传感处理部20A输入的测距点的信息d7，生成手下垂的期间的平均的第一图(Az)和举起了手时的第二图(B)。此外，手下垂的期间是指，到输出促使举手的语音信号为止的期间，例如在图2中是时刻t0～t1的期间。

另外，状况推断部50A对生成的平均的第一图(Az)乘以存储部60A中存储的体格数据，以生成人的手能够存在的z值的最大值的第三图(AzMax)、以及z值的最小值的第四图(AzMin)。状况推断部50A通过比较所生成的第二图、第三图、以及第四图，生成推断为由于举起了手而产生的、xy平面上的第五图(C)。状况推断部50A对生成的第五图进行集群的分类，以推断举起了手的人数。

状况推断部50A与状况推断部50同样，使用人合并处理部30的处理的结果，推断举起了手的人数。此外，状况推断部50A与状况推断部50同样，使用网格合并处理部40的处理的结果，推断网格高度的变化量。

此外，状况推断部50A基于预先规定的条件、或者从人合并处理部30、网格合并处理部40、以及传感处理部20A中的至少一者输入的结果，推断举起了手的人数、或者由于举起了手而产生的网格高度的变化量，将推断的结果输出到控制部102。

存储部60A中除了存储第一集群高度值、第二集群高度值、第一网格高度值、第二网格高度值以外，还存储人的体格数据。人的体格数据是指身高与手腕的桡骨茎突点之比、肩峰高与手腕的桡骨茎突点之比。此外，可以针对每个国家、地区，存储上述人的体格数据。

在此，说明本实施方式中的举手判定的假定和根据。

(假定1)已知人的身高与胳膊的长度存在统计相关，另外，与年龄、性别无关，基本上是固定的。

(假定2)一般而言，人垂直向上抬起手。

(假定3)在人密集的情况下，人往往以避免与接近的人的举起的手接触的方式举手。也就是说，人默认地设定手的私人空间。

(假定4)人与他人靠近的距离倾向于不低于躯干的厚度(腹部的厚度)。

图13是说明本实施方式所涉及的人的部位的高度的图。图13中，肩峰高Hs是人站立时的从地板或地面到肩峰附近的高度。身高Hh是人站立时的从地板或地面到头顶为止的高度。手腕Hw是在人站立时，举起了手时的从地板或地面到手腕的桡骨茎突点为止的高度。

如上述假定1所示，手腕Hw相对于身高Hh的比例和肩峰高Hs相对于身高Hh的比例不存在较大差异。因此，无论是儿童还是成年人，根据与身高Hh或肩峰高Hs的默认比例，可知人举手时手所在的手腕Hw的高度。

因此，本实施方式中，在测距点位于举手时的高度(＝手腕Hw)相对于头的位置的高度(＝身高Hh)的比例与举手时的高度(＝手腕Hw)相对于肩峰高Hs的比例之间的情况下，判别为手。

图14A是人放下了手的示意图。图14B是说明本实施方式所涉及的人放下了手的期间的xyz值的第一图的例子的图。在图14A所示的例子中，作为代表，仅示出一个LRF传感器10，但与第一实施方式同样，例如在天花板上设置有n个LRF传感器10。另外，图14A及图14B所示的例子是由LRF传感器10测量了与5个人(人hu1～人hu5)对应的测距点的情况的例子。

图14B中，面向纸面，设左右方向为x轴方向，进深方向为y轴方向，高度方向为z轴方向。图14B中，点表示测距点。另外，图14B所示的第一图是由通过一次采样取得的测距点得到的第一图(A)。

图15A是人举起了手的示意图。图15B是说明本实施方式所涉及的人举起了手的期间的xyz值的第二图的例子的图。另外，图15A及图15B所示的例子是由LRF传感器10测量了与5个人(人hu1～人hu5)对应的测距点的情况的例子。

图15B中，面向纸面，设左右方向为x轴方向，进深方向为y轴方向，高度方向为z轴方向。图15B中，点表示测距点。另外，图15B所示的第一图是由在规定时刻取得的测距点得到的第二图(B)。

图15A及图15B所示的例子是人hu2和人hu4举起了手的例子。

接下来，说明状况推断部50A进行的处理。

图16是说明本实施方式所涉及的状况推断部50A使用第一图～第五图进行的处理的图。图17是说明本实施方式所涉及的状况推断部50A进行集群以推断举起了手的人数的处理的图。图18是本实施方式所涉及的状况推断部50A的处理过程的流程图。另外，图16中，面向纸面，设左右方向为x轴方向，进深方向为y轴方向，高度方向为z轴方向。图17中，面向纸面，设左右方向为x轴方向，进深方向为y轴方向。

另外，在以下的处理的说明中，仅说明状况推断部50A使用第一图～第五图进行的处理，但状况推断部50A与第一实施方式同样，也进行步骤S1～S11(图3)的处理。

(步骤S501)状况推断部50A在每个采样定时，从传感处理部20A取得手下垂的期间中的测距点的信息，对取得的测距点进行合并。接下来，状况推断部50A使用合并了的测距点，生成如图16的符号m301所示的区域图这样的第一图(A)。例如，从时刻t0(图2)起，到从控制部102输入触发信号d5的时刻t1为止的期间的采样数为10个的情况下，通过状况推断部50A生成10个第一图(A)，上述触发信号d5表示输出时刻t1时的语音信号。状况推断部50A使处理进入步骤S502。

(步骤S502)状况推断部50A生成如图16的符号m302所示的区域图这样的、作为手下垂的期间中的xyz值的平均值图的平均的第一图(Av)。也就是说，在步骤S502中，状况推断部50A将所有测距点视为手下垂时的值。状况推断部50A使处理进入步骤S503。

(步骤S503)状况推断部50A对步骤S502生成的平均的第一图(Av)的z轴分量的值，乘以从存储部60A读出的、手腕Hw与肩峰高Hs之比(Hw/Hs)，以生成如图16的符号m303所示的区域图这样的第三图(AzMax)。Hw/Hs例如是1.1。其含义是，在手下垂时测量的测距点是肩峰时，计算举起了手的情况下的手腕的z轴分量的值的上限值。状况推断部50A使处理进入步骤S504。

(步骤S504)状况推断部50A对步骤S502生成的平均的第一图(Av)的z轴分量的值，乘以从存储部60A读出的、手腕Hw与身高Hh之比(Hw/Hh)，以生成如图16的符号m304所示的区域图这样的第四图(AzMin)。Hw/Hh例如是1.3。其含义是，在手下垂时测量的测距点是头顶时，计算举起了手的情况下的手腕的z轴分量的值的上限值。状况推断部50A使处理进入步骤S505。

(步骤S505)状况推断部50A从传感处理部20A取得举起了手时的测距点的信息，对取得的测距点进行合并。接下来，状况推断部50A使用合并了的测距点，生成如图16的符号m305所示的区域图这样的第二图(B)。在步骤S505中，状况推断部50A也将所有测距点视为手下垂时的值。状况推断部50A使处理进入步骤S506。

(步骤S506)状况推断部50A在步骤S505生成的第二图(B)中，提取具有比步骤S503生成的第三图(AzMax)大并且比步骤S504生成的第四图(AzMin)小的z轴分量的值的测距点。状况推断部50A通过该处理，提取具有认为在举起了手时手存在的z轴分量的值的测距点。状况推断部50A使处理进入步骤S507。

(步骤S507)状况推断部50A将提取出的测距点中包含的x轴分量和y轴分量投影到xy平面，生成如图16的符号m306所示的区域图这样的、由投影点组成的第五图(C)。也就是说，符号m306所示的区域图中的点表示投影点，各投影具有x轴分量以及y轴分量的各值。状况推断部50A使处理进入步骤S508。

(步骤S508)状况推断部50A对于步骤S507生成的第五图(C)的投影点，如图17的符号m307所示的区域图这样进行分类(集群)。图17中，符号c1～c5所示区域的投影点表示分类为各集群的投影点的集合。状况推断部50A使处理进入步骤S509。

(步骤S509)状况推断部50A基于步骤S508中分类的结果，推断举手了的人数。此外，状况推断部50A基于LRF传感器10的测量性能，在集群中包含的投影点在规定值以下的情况下，将分类了的集群判别为噪声。在图17所示的例子中，状况推断部50A在投影点为一个的情况下判别为噪声。因此，将符号c1、c4、以及c5中包含的区域的投影点判别为噪声。接下来，状况推断部50A基于步骤S509中判别的结果，推断举手了的人数。在图17所示的例子中，判别为举起了手的集群是符号c2和c3中包含的区域的投影点。

动作推断装置3A基于场景信息，反复执行步骤S501～S509，直到以规定次数提示规定提问为止。

(步骤S510)状况推断部50基于场景信息，以规定次数提示了规定提问之后，基于步骤S509中推断的每个提问的推断结果，进行多数决定判定。具体而言，状况推断部50根据设定了的条件，选择人合并处理部30的处理结果、网格合并处理部40的处理结果、以及使用第一图～第五图的处理结果中的至少一个。状况推断部50A根据每个提问的对举手了的人数的推断结果，选择对应的提问。

至此，结束举手检测的处理。

如上所述，在本实施方式的动作推断装置3A中，状况推断部(例如状况推断部50)计算举手存在范围(例如，第三图(AzMax)～第四图(AzMin))，提取位于计算出的举手存在范围内的、第一时刻(例如，时刻t3或t5)或第一期间(例如，时刻t3至t4的期间p4、或时刻t4至t5的期间p6)内由取得部取得的距离(例如第五图(C))，基于提取出的距离来推断人的反应，上述举手存在范围是基于人不进行举手的第二期间(例如时刻t0～t1的期间)中取得部(例如，传感处理部20)取得的距离、以及人的体格数据计算出的举手时人的手存在的高度方向的范围。

通过该构成，本实施方式的动作推断装置3A不需要确定个人，因而即使存在人密集的区域，也能够推断举手了的人数。另外，根据本实施方式，即使由于LRF传感器10的测量结果的参差不齐而使测量值存在参差不齐，由于在手放下的规定时间内进行同步并相加，因此也能够提高鲁棒性。

此外，在第一实施方式及第二实施方式中，说明了处理部2基于存储部101中存储的场景信息生成触发信号d5的例子，但不限于此。

例如，发表者也可以是人。在此情况下，发表者可以在向位于检测区域的人发出提问的定时，按下不图示的操作开关，由此将触发信号d5输出到动作推断装置(3或3A)。例如，发表者可以在发出促使举手的提问时按下A按钮，在发出促使举手动作的语音时按下B按钮，在结束所有提问时按下C按钮。操作开关可以将与按下的按钮相应的触发信号d5输出到动作推断装置(3或3A)。在此情况下，动作推断装置(3或3A)也能够根据输入的触发信号d5，在规定期间以及规定时刻进行上述处理，由此进行多数决定处理。

此外，第一实施方式及第二实施方式中说明的检测区域例如并不限于一个会场。检测区域可以为多个。在此情况下，动作推断装置(3或3A)例如可以对每个会场推断举起了手的人数，或者推断网格高度的变化量，由状况推断部(50或50A)或者控制部102判别所有会场中推断的结果，以进行多数决定处理。并且，这些会场可以是分离的，在会场分离的情况下，多个动作推断装置(3或3A)可以将处理结果例如经由无线线路发送到一个动作推断装置(3或3A)，由接收了所有处理结果的动作推断装置(3或3A)进行处理。动作推断装置(3或3A)接收的处理结果例如可以是LRF传感器10测量的测距点的信息，也可以是由各会场中设置的动作推断装置(3或3A)处理的人数据d3、网格高度信息d4、以及测距点的信息d7。

这样，在分离的多个会场中设置机器人(1、1A)，进行同步以进行处理的情况下，机器人(1、1A)输出的语音信号可以是与国家、地区相应的语音信号。

此外，在第一实施方式以及第二实施方式中，说明了人对提问举手或放下手的例子，但不限于此。例如，在位于检测区域的多个人将牌子等举至高于头顶的高度或放下的情况下，也能够通过上述处理来进行多数决定处理。

另外，人也可以举起放下加速度传感器、GPS(Global PositioningSystem，全球定位***)等能够进行位置检测的便携终端。并且，动作推断装置(3或3A)也可以接收这些便携终端发送的信息，也使用接收的信息，进行人是否举手的判别、推断举手了的人的人数等人的反应。

另外，在第一实施方式以及第二实施方式中，说明了在例如使用图2所说明的定时进行处理的例子，但是不限于此。

时刻t101～t102的期间，是语音输出部103输出了促使人结束举手的语音信号“请放下手”的期间。

时刻t4是促使人结束举手的时刻。也就是说，促使人结束举手的时刻，只要是输出了促使人结束举手的语音信号的时刻t101～t102的期间内即可。促使人结束举手的时刻，例如，既可以是开始输出促使人结束举手的语音信号的定时，也可以是结束了语音信号的定时。或者，促使人结束举手的时刻，例如，既可以是语音信号的“请”的定时，也可以是语音信号的“手”的定时。

时刻t3以及时刻t5，是基于促使人结束举手的时刻而设定的第一时刻。

此外，时刻t3～t4的期间p4和时刻t4～t5的期间p6是基于促使人结束举手的时刻而设定的第一期间。

状况推断部50，例如与第一实施方式同样地，对使用从时刻t4起期间p4之前的期间的数据(例如，平均值、最大值、统计处理的值)而检测出的高度、和使用从时刻t4起期间p6之后的时刻t5的数据而检测出的高度进行比较，来推断进行了举手的人数。

或者，状况推断部50也可以对使用时刻t3的数据而检测出的高度、和使用时刻t5的数据而检测出的高度进行比较，来推断进行了举手的人数。

或者，状况推断部50也可以对使用时刻t3的数据而检测出的高度、和使用期间p6的数据(例如，平均值、最大值、统计处理的值)而检测出的高度进行比较，来推断进行了举手的人数。

或者，状况推断部50也可以对使用期间p4的数据而检测出的高度、和使用期间p6的数据(例如，平均值、最大值、统计处理的值)而检测出的高度进行比较，来推断进行了举手的人数。

如上所述，状况推断部50可以对推断为人举起了手的时刻或者期间的任一高度、和推断为人放下了手的时刻或者期间的任一高度进行比较，来推断进行了举手的人数。

此外，可以将用于实现本发明的动作推断装置(3或3A)的功能的程序记录在计算机可读取的记录介质上，使计算机***读入并执行该记录介质上记录的程序，据此进行举手的推断。此外，这里的“计算机***”包括OS、周边设备等硬件。另外，“计算机***”也包括具备主页提供环境(或显示环境)的WWW***。另外，“计算机可读取的记录介质”指软盘、磁光盘、ROM、CD-ROM等可移动介质、计算机***内置的硬盘等存储装置。此外，“计算机可读取的记录介质”还包括如经由因特网等网络或电话线路等通信线路发送程序的情况下作为服务器或客户机的计算机***内部的易失性存储器(RAM)那样在一定时间内保持程序的介质。

另外，对于上述程序，可以从存储装置等中存储了该程序的计算机***，经由传输介质，或者利用传输介质中的传输波，将其传输至其它计算机***。在此，传输程序的“传输介质”是指，如因特网等网络(通信网)或电话线路等通信线路(通信线)这样具有传输信息的功能的介质。另外，上述程序可以是用于实现上述功能的一部分的程序。此外，也可以是能够与计算机***中已经存储的程序组合来实现上述功能的程序，也即所谓的差分文件(差分程序)。

Claims

1.一种动作推断装置，其特征在于具备：

取得部，其取得传感器与对象物之间的距离；以及

状况推断部，其基于第一时刻由所述取得部取得的所述距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻而设定的。

2.根据权利要求1所述的动作推断装置，其特征在于，

所述状况推断部基于第一期间内由所述取得部取得的所述距离来推断人的反应，所述第一期间是基于促使人结束举手的时刻而设定的。

3.根据权利要求2所述的动作推断装置，其特征在于，

所述状况推断部提取所述第一时刻和所述第一期间各自中的对象物的高度方向的距离，并且对在所述第一时刻所提取出的高度方向的距离与在所述第一期间所提取出的高度方向的距离进行比较，由此推断人的反应。

4.根据权利要求2所述的动作推断装置，其特征在于具备：

人处理部，其基于由所述取得部取得的所述距离来检测人，对所检测出的每个人赋予标识符，

所述状况推断部使用由所述人处理部赋予了所述标识符的所述人的所述距离，提取所述第一时刻和所述第一期间各自中的每个所述标识符的高度方向的距离，并且对所述第一时刻和所述第一期间各自中的所提取出的每个所述标识符的高度方向的距离彼此进行比较，由此推断人的反应。

5.根据权利要求4所述的动作推断装置，其特征在于具备：

区域距离处理部，其将对人的反应进行推断的规定范围划分为一个以上的区域，基于由所述取得部取得的所述距离，求出该划分了的每个区域的距离，

所述状况推断部通过由所述人处理部赋予了所述标识符的所述人的所述距离、以及由所述区域距离处理部求出的距离中的至少一个距离来推断人的反应。

6.根据权利要求5所述的动作推断装置，其特征在于，

所述区域距离处理部提取所述第一时刻和所述第一期间内的所划分了的每个区域的高度方向的距离，并且比较基于所述第一时刻和所述第一期间内的所提取出的所划分了的每个区域的高度方向的距离的值，由此推断人的反应。

7.根据权利要求6所述的动作推断装置，其特征在于，

基于所划分了的每个区域的高度方向的距离的值，是提取了所述第一时刻和所述第一期间内的所划分了的每个区域的高度方向的距离的区域中的所述高度方向的距离的平均值。

8.根据权利要求5所述的动作推断装置，其特征在于具备：

距离追踪部，其追踪所述人处理部赋予的标识符的距离，

所述状况推断部参考所述距离追踪部赋予的所述标识符的数量，在规定期间内变得不能追踪的所述标识符的数量超过规定值时，使用由所述区域距离处理部求出的距离来推断人的反应，在规定期间内变得不能追踪的所述标识符的数量少于规定值时，使用由所述人处理部求出的距离来推断人的反应。

9.根据权利要求5所述的动作推断装置，其特征在于，

所述第一时刻或所述第一期间是对应于由所述区域距离处理部测量的所述距离的变化变得小于规定值时而决定的。

10.根据权利要求2所述的动作推断装置，其特征在于，

所述状况推断部计算举手存在范围，提取处于计算出的所述举手存在范围内的、所述第一时刻或所述第一期间内由所述取得部取得的所述距离，基于所提取出的距离来推断人的反应，所述举手存在范围是基于人不进行举手的第二期间内由所述取得部取得的所述距离、以及人的体格数据计算出的举手时人的手存在的高度方向的范围。

11.根据权利要求1所述的动作推断装置，其特征在于，

所述人的反应，是人进行了举手的反应或未进行举手的反应，

所述状况推断部对所述人的反应进行多次推断，基于所述多次推断的结果，进行多数决定的判定。

12.根据权利要求1至11中任一项所述的动作推断装置，其特征在于具备：

对于规定范围进行本传感器与对象物之间的距离的测量的传感器。

13.一种机器人，其特征在于具备：

输出部，其输出表示促使人结束举手的信号；以及

所述权利要求1至12中任一项所述的所述动作推断装置。

14.一种动作推断方法，其特征在于包括：

取得过程，取得部取得传感器与对象物之间的距离；以及

状况推断过程，状况推断部基于第一时刻由所述取得过程取得的所述距离来推断人的反应，所述第一时刻是基于促使人结束举手的时刻而设定的。