CN103365411A

CN103365411A - 信息输入设备、信息输入方法和计算机程序

Info

Publication number: CN103365411A
Application number: CN2013100891660A
Authority: CN
Inventors: 野田邦昭; 铃木洋贵; 武田晴登; 渡边有祐
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-27
Filing date: 2013-03-20
Publication date: 2013-10-23
Anticipated expiration: 2033-03-20
Also published as: US9075444B2; US9430698B2; JP2013205983A; US20130257720A1; US20150262004A1; CN103365411B

Abstract

本发明涉及信息输入设备、信息输入方法和计算机程序。该信息输入设备包括：观测单元，观测包括用户以及一个或多个要控制的设备的环境，并且包括传感器；学习单元，根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；状态估计单元，估计所述环境中已经建模的前景的位置和姿势；用户识别单元，从前景识别用户的手指并且识别手指的形状、位置和姿势；以及设备控制单元，基于识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

Description

信息输入设备、信息输入方法和计算机程序

技术领域

本公开涉及用于向要控制的设备输入由用户发出的控制命令的信息输入设备、信息输入方法和计算机程序。具体地讲，本公开涉及一种用于输入例如手势的由用户发出的控制命令的信息输入设备、信息输入方法和计算机程序。

背景技术

在人所生活的环境中，存在诸如家用电器和信息装置的由用户进行控制的各种类型的产品。已经存在被构造为使用诸如激光笔或遥控器的装置来远程控制这些类型的设备的技术。

例如，已经提出了遥控位置通知***（例如，参见日本未审专利申请公布No.2008-224584）和指向***（例如，参见日本未审专利申请公布No.2009-301564）等等，该遥控位置通知***能够向用户通知遥控的位置；当用户用手挥动从其中心发射高亮度扩散光束的指向装置时，该指向***使用多个光接收传感器检测该指向装置的位置，并且在垂直或水平地移动指针的同时根据手的运动在屏幕上显示指针。然而，在这些相关技术中，用户必须用他或她的手指操作用于产生用于检测手指的位置或姿势的信号的特定装置，例如，遥控器。

还提出了遥控器（例如，参见日本未审专利申请公布No.2010-79332），所述遥控器被构造为拍摄正在操作用于显示操作按钮或菜单的操作显示装置的操作者的图像，并且基于从拍摄的图像检测的手区域的形状和运动以及操作显示装置上的显示来检测用户执行的操作。这个相关技术能够使用用户的手指的轮廓来识别他或她的姿势。然而，由于这个技术仅仅使用二维轮廓信息，所以难以稳定地识别姿势，除非手指的姿势对于相机是适当的。由于这个原因，用户必须意识到相机的位置。这对执行操作的用户的姿势施加了很大的限制。当观测手指的形状的方向等发生变化时，手指的轮廓明显变化。因此，当根据轮廓识别姿势时，取决于观测方向，识别结果变得不稳定。

还提出了图像识别设备（例如，参见日本未审专利申请公布No.2010-15553），所述图像识别设备三维地读取操作者相对于虚拟操作表面的运动，基于操作者的一部分与虚拟操作表面之间的位置关系来确定该运动是否是操作，并且当操作者在基于这个位置关系定义的两个或更多虚拟操作层的任何一个中进行运动时，基于事先向这个虚拟操作层分配的操作类型和操作者在这个虚拟操作层中的运动来确定操作的细节。这些图像识别设备使用图像特征值，三维地跟踪用户的手指。然而，例如，当照明条件急剧变化时，难以在图像的多个帧之间稳定地匹配和跟踪特征点。因此，该图像识别设备看起来识别稳定性低。另外，尽管这些图像识别设备可以测量手指的特征点的三维位置，但是它们不能够检测手指自身的姿势。另外，由于这些图像识别设备识别在相对于相机的位置处的用户，所以用户必须意识到相机的位置。另外，为了使用户可以执行直观操作，必须基于相机与屏幕之间的相对位置关系来确定相机的位置。因此，选择的自由度低。

还提出了人运动确定设备（例如，参见日本未审专利申请公布No.2012-3364），该人运动确定设备被构造为使用正在执行预定运动的人的拍摄图像并且还使用关于拍摄的图像的深度的信息来确定人的运动，从拍摄的图像提取特征点来计算三维特征值，跟踪这个三维特征值以计算四维轨迹特征值，并且使用该四维轨迹特征值针对每个单位跟踪时间确定运动。然而，为了向这些设备输入操作，用户必须在与由标记指示的位置关联的虚拟操作表面上执行操作。因此，对正执行操作的用户的位置或姿势施加了限制。

发明内容

期望提供能够基于由用户执行的直观运动（例如，手势）向要控制的设备输入控制命令的优良的信息输入设备、信息输入方法和计算机程序。

根据本发明的一个实施例，提供了一种信息输入设备。该信息输入设备包括：观测单元，被构造为观测包括用户以及一个或多个要控制的设备的环境，该观测单元包括传感器；学习单元，被构造为根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；状态估计单元，被构造为估计所述环境中已经建模的前景的位置和姿势；用户识别单元，被构造为从前景识别用户的手指并且识别手指的形状、位置和姿势；以及设备控制单元，被构造为基于由用户识别单元识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

在根据本公开的实施例的信息输入设备中，观测单元可以获得环境的距离图像，学习单元可以从距离图像分离前景和背景并且学习前景和背景的三维模型。

在根据本公开的实施例的信息输入设备中，学习单元可以在用户实际控制或操作要控制的期望设备之前，事先构建要控制的期望设备的三维模型。

在根据本公开的实施例的信息输入设备中，学习单元可以构建包括要控制的期望设备的周围环境的三维模型，然后从周围环境消除要控制的期望设备，并且通过检测与差别对应的三维模型仅构建要控制的期望设备的三维模型。

在根据本公开的实施例的信息输入设备中，状态估计单元可以更新已经由学习单元构建的三维前景和背景模型，以及可以连续估计传感器和前景的相应位置和姿势，在改变传感器的视野的同时构建背景的三维模型，然后通过在固定三维背景模型的情况下提取与差别对应的区域来学习前景的三维模型。

在根据本公开的实施例的信息输入设备中，学习单元事先并入关于三维前景和背景模型的知识并且随后学习三维前景和背景模型。

在根据本公开的实施例的信息输入设备中，学习单元可以从三维空间中切出位置或姿势不变化的模型作为背景，切出位置或姿势频繁变化的对象作为前景模型，并且学习前景和背景模型。

在根据本公开的实施例的信息输入设备中，用户识别单元可以检测与通过从观测单元捕捉的图像检测人或面部获得的区域关联的前景模型，作为用户。

在根据本公开的实施例的信息输入设备中，用户识别单元可以通过事先标记手指，针对标记的手指和在标记后准备的典型人体的三维模型执行图形匹配，并且关注与标记的节点对应的区域的前景，来识别手指。

在根据本公开的实施例的信息输入设备中，用户识别单元可以针对事先为每个手形状准备的典型的三维手模型识别所识别的手指的形状。

在根据本公开的实施例的信息输入设备中，用户识别单元可以为每个用户准备不同的典型的三维手模型，并且根据基于观测数据识别的用户改变该典型的三维手模型。

在根据本公开的实施例的信息输入设备中，设备控制单元可以基于识别的手的形状、位置和姿势识别要控制的设备，然后向要控制的设备发出与识别的手的状态或状态变化对应的控制命令。

在根据本公开的实施例的信息输入设备中，设备控制单元可以参考控制命令对应表来确定来自用户的与识别的手的状态或状态变化对应的控制命令，该控制命令对应表定义了手的形状与控制命令之间的分类对应关系。

在根据本公开的实施例的信息输入设备中，设备控制单元可以使用为每个要控制的设备定义分类对应关系的控制命令对应表。

在根据本公开的实施例的信息输入设备中，当用户作出举起食指的指向运动时，设备控制单元可以识别在从食指的指尖延伸的直线上存在的前景模型作为要控制的设备。

在根据本公开的实施例的信息输入设备中，设备控制单元可以确定与用户的左右手的各自状态的组合或者状态变化的组合对应的控制命令。

在根据本公开的实施例的信息输入设备中，当设备控制单元识别显示器作为要控制的设备时，设备控制单元可以输出与显示器的屏幕上的光标操作对应的控制命令。

在根据本公开的实施例的信息输入设备中，设备控制单元可以基于相对于手指指向运动的开始位置的位移量，指定屏幕上光标位置的三维运动速度。

在根据本公开的实施例的信息输入设备中，设备控制单元可以获得从识别的用户的双手的手指延伸的直线的交点，并且基于该交点指定相对于屏幕上三维用户界面的深度。

在根据本公开的实施例的信息输入设备中，设备控制单元可以基于识别的用户的指向手指的姿势与环境内的物体的交点，识别要控制的设备和要向该要控制的设备发送的指令。

在根据本公开的实施例的信息输入设备中，设备控制单元可以基于识别的用户的一只手的手指的姿势与环境内的物体的交点识别要控制的设备，以及可以基于识别的用户的另一只手的手指的形状或者另一只手的手指的位置和姿势的变化，识别要向该要控制的设备发出的指令并且输出控制命令。

根据本公开的另一个实施例，提供了一种用于输入信息的方法。该用于输入信息的方法包括：观测包括用户以及一个或多个要控制的设备的环境；根据在观测步骤中获得的观测数据分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；估计所述环境中已经建模的前景的位置和姿势；从前景识别用户的手指并且识别手指的形状、位置和姿势；以及基于在识别步骤中识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

根据本公开的另一个实施例，提供了一种以计算机可读形式编写以使得计算机发挥如下部件的作用的计算机程序：观测单元，被构造为观测包括用户以及一个或多个要控制的设备的环境，该观测单元包括传感器；学习单元，被构造为根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；状态估计单元，被构造为估计所述环境中已经建模的前景的位置和姿势；用户识别单元，被构造为从前景识别用户的手指并且识别手指的形状、位置和姿势；以及设备控制单元，被构造为基于由用户识别单元识别的手指的形状、位置和姿势，向所述一个或多个设备输出控制命令。

通过定义以计算机可读形式编写的计算机程序以在计算机上执行预定处理，形成根据本公开的另一个实施例的计算机程序。换言之，通过在计算机上安装根据本公开的另一个实施例的计算机程序，在计算机上执行协作功能，并且能够获得与根据本公开的实施例的信息输入设备的效果类似的效果。

根据本公开的实施例，可以提供能够基于由用户执行的直观运动（例如，手势）向要控制的设备输入控制命令的优良的信息输入设备、信息输入方法和计算机程序。

根据本公开的实施例，用户在使用手势输入控制命令时不必持有任何特殊指向装置，并且能够空手地操作要控制的设备。

另外，根据本公开的实施例的信息输入设备使用全局坐标系识别用户的手指的位置和姿势。这导致观测用户的手的装置的放置位置的灵活性增加。

根据本公开的实施例的信息输入设备不依赖于手指的轮廓而使用手指的三维模型连续跟踪用户的手指的位置和姿势。因此，无论从什么方向观测手指，信息输入设备都能够没有问题地识别手指。另外，在使用手指的三维模型进行跟踪时，信息输入设备不会丢失三维模型的特征点的跟踪。因此，它能够稳定地识别用户的手指的位置和姿势。

基于根据本公开的实施例的信息输入设备，用户能够通过测量用户相对于要控制的设备的位置，或者组合并识别用户的双手的手指的姿势然后获得从双手的手指延伸的直线的交点，来指定深度。因此，在显示器上显示的GUI设计的灵活性增加，从而可以更加便利地选择3D显示上的菜单等。

通过在下文中结合附图详细描述本公开的实施例，本公开的其它目标、特征和优点将变得清楚。

附图说明

图1是示意性示出了根据本公开的实施例的信息输入设备的功能结构的图；

图2是示出通过从观测数据学习三维模型获得的结果的例子的图；

图3是示出通过学习前景模型获得的结果的例子的图；

图4是示出事先准备的典型的三维手模型的例子的图；

图5是示出了定义手的形状与控制命令之间的分类对应关系的控制命令对应表的例子的图；

图6是示出信息输入设备基于用户的手势控制设备的处理的流程图；

图7是示出了用户正经由信息输入设备操作显示器的屏幕上的光标的图；

图8是示出了用户基于相对于手指指向运动的开始位置的位移量来指定屏幕上的光标位置的三维运动速度的图；

图9是示出了用户在三维GUI上执行获得从两手的指尖延伸的直线的交点的指向运动以指定深度的图；

图10是用户指示机器人运送物体的图；

图11是用户指示信息输入设备打开或关闭家庭生活环境中的照明器具等的图；以及

图12是示出了用户向信息输入设备示出电视、音乐播放***等是要控制的设备并且指示信息输入设备执行显示的亮度或音量的改变等的图。

具体实施方式

现在，将参照附图详细描述本公开的实施例。

图1示意性示出了根据本公开的实施例的信息输入设备100的功能结构。图1中所示的信息输入设备100包括观测单元101、学习单元102、状态估计单元103、用户识别单元104和设备控制单元105。在存在用户和要由用户控制的一个或多个设备106的环境中，信息输入设备100能够远程操作用户期望控制的设备106。

观测单元101观测包括用户和一个或多个要控制的设备的环境，并且将观测数据输出到学习单元102。

学习单元102根据来自观测单元101的观测数据，分离包括用户和要控制的期望设备的前景以及包括除前景之外的环境的背景，并且学习前景和背景的三维模型。

状态估计单元103估计已经建模的个体前景被布置在环境中的位置以及前景的姿势。

用户识别单元104从前景中识别用户，特别是识别用户的手指，并且识别手指的形状、位置和姿势。

设备控制单元105基于用户的手指的形状和关于手指的状态变化的时间序列信息，向要控制的设备106输出控制命令。

将在下面详细描述上述的单元101到106。

观测单元101是满足如下要求的单元：观测用于在观测单元101之后的学习单元102从获得的图像序列分离前景和背景并且学习前景和背景的三维模型的充足信息。

观测单元101例如是包括能够获得距离图像（range image）的传感器的单元。用于获取距离图像的传感器的例子包括：使用双目相机执行立体匹配的传感器；基于红外线到目标物体的往返行程的时间来测量距离图像的飞行时间（time of flight，TOF）传感器，诸如可从Optrima获得的DepthSense（例如，参见http://www.softkinetic.com/Solutions/DepthSensecameras.aspx(2012年3月19日时)）；以及通过向目标物体应用红外图案使用三角测量来计算距离图像的传感器，诸如在Kinect中使用并且可从PrimeSense获得的相机。当然，观测单元101不限于用于获取距离图像的单元并且可以是用于获取普通RGB图像的相机，只要满足上述要求即可。

假定：如果包括在观测单元101中的传感器的视野受到限制，则通过驱动在其上安装有传感器的基座来改变传感器的位置或方向，从而传感器能够观测包括用户和要控制的设备106的整个环境。

学习单元102根据从观测单元101获得的观测数据，分离前景与背景，并且学习它们的三维模型。学习结果存储在诸如前景模型存储单元102A和背景模型存储单元102B的存储介质中。

学习单元102可以从观测数据顺序地学习前景模型。另一方面，针对现有模型（例如，在家庭环境中先前布置的家用电器），可从外部设置先前产生的三维模型。

当用户指定在环境中（在用户的房间中、等等）布置的要控制的设备106时，状态估计单元103必须获得要控制的设备106的三维模型以估计要控制的设备106的位置或姿势。用于事先登记模型的具体方法如下。构建包括用户期望登记的要控制的设备106的周围环境的三维模型；然后，从周围环境去除要控制的期望设备106，并且检测与该差别对应的三维模型。因此，构建了只包括要控制的设备106的三维模型。这样，在实际控制诸如电视机和照明器具的通常布置在房间中的要控制的设备之前，用户事先登记这些设备的三维模型。另外，向与每个登记的三维模型对应的设备分配识别标记，并且下面讨论的控制命令对应表107与每个标记的设备进行关联。

背景模型是除被确定为前景的部分以外的整个环境的三维模型。通过向学习单元102追加从观测单元101获得的观测数据，学习单元102顺序地更新背景模型。因此，即使对于观测单元101实际上没有观测到的范围，模型也存在于虚拟空间中。

状态估计单元103从分别存储在前景模型存储单元102A和背景模型存储单元102B中的前景和背景以及由观测单元101输出的观测数据，估计传感器的位置或朝向。同时，状态估计单元103估计背景模型中的前景模型（用户和要控制的设备106）的位置和姿势。

在这个实施例中，学习单元102和状态估计单元103一起工作，从顺序地获得的观测数据进行学习并且更新前景和背景，以及继续估计传感器和前景的相应状态（位置和姿势的总共6个自由度）。具体地讲，首先，单元102和103使用KinectFusion（例如，参见Shahram Izadi,et al.,"KinectFusion:Real-time3D Reconstruction and InteractionUsing a Moving Depth Camera",ACM Symposium on User InterfaceSoftware and Technology,2011）或DTAM（例如，参见Richard A.Newcombe,et al.,"DTAM:Dense Tracking and Mapping in Real-Time",ICCV,2011)）改变传感器的视点，然后从拍摄的距离图像或RGB图像构建三维背景模型（例如，见图2），然后使背景模型固定，提取与差别对应的区域，由此能够学习前景模型（例如，见图3）。或者，通过事先并入关于前景和背景模型的知识并且从该知识进行学习，单元102和103可以分离并学习前景和背景（例如，从三维空间切出位置或姿势不变化的模型作为背景，并且切出位置或姿势频繁变化的目标作为前景模型，并且学习前景模型和背景模型）。

用户识别单元104从识别的前景识别正在操作设备的用户的模型，并且确定前景模型中用户的手指的形状或姿势。为了检测用户，与从拍摄的图像检测的人区域（例如，参见三井相和、山内悠嗣、藤吉弘亘共著「ＪｏｉｎｔＨＯＧ特徴を用いた2段階ＡｄａＢｏｏｓｔによる人検出」（第14回画像センシングシンポジウムＳＳＩＩ08，2008））或从面部检测获得的人区域（例如，参见日本未审专利申请公布No.2005-157679）关联的前景模型可被检测为用户。其它检测方法包括通过事先对手指进行标记，通过在标记的手指与典型人体的三维模型（即人体模型104A）之间执行图形匹配（例如，参见Sundar,H.,et al.,"Skeleton Based Shape Matching and Retrieval",Proceedings ofthe Shape Modeling International,2003）以及通过关注与标记的节点对应的手指的前景，来检测手指的方法。针对手模型104B识别所识别的手指的形状。手模型104B是为每个手形状（例如，举起食指的剪刀形状、石头形状、布形状）事先准备以将每个手形状与不同设备控制命令进行关联的典型三维手模型（例如，参见Robert Osada et al.,"Shapedistributions",ACM Transactions on Graphics(TOG),2002）。在图4中示出了事先准备的典型三维手模型的例子。

手形状看起来在用户之间有细微变化。因此，可为每个用户登记不同模型以增加状态估计的精度。在这种情况下，优选地通过对观测数据执行面部识别等来识别用户并且为每个识别的用户改变模型。

设备控制单元105首先基于识别的手的形状和手的位置或姿势来识别要控制的设备，然后确定与识别的手的状态或状态变化对应的控制命令，并且将控制命令发出到要控制的设备。

在这个实施例中，用户能够使用手的形状以及手的状态或者状态变化，换言之，使用手的姿势，来输入控制命令。为了允许基于手的姿势进行输入，设备控制单元105可以使用控制命令对应表107，在控制命令对应表107中定义了手的形状与控制命令之间的分类对应关系。可为每个要控制的设备定义控制命令对应表107，从而在设备之间不同控制命令能够与相同手形状关联。

图5示出了控制命令对应表107的例子。在控制命令对应表107中，为诸如电视机、音乐播放***、照明器具和水壶的多种类型的要控制的设备中的每一种设备定义与左手和右手的形状对应的控制命令。

例如，假设用户举起他或她的食指进行指向显示屏幕的运动。在这种情况下，能够在从状态估计单元103和用户识别单元104的识别结果合成的虚拟空间中识别从指尖延伸的直线上的前景模型，并且要控制的设备可被识别为电视机。另外，从控制命令对应表107，设备控制单元105能够识别与用户的手指指向运动对应的控制命令是要移动光标，并且因此能够移动在显示器上位于从指尖延伸的直线上的光标。

在图5中所示的控制命令对应表107的上半部分显示了一只手的运动；它的下半部分显示了另一只手的运动。例如，上半部分分配给左手，下半部分分配给右手。颠倒这种分配是容易的。可能存在不仅通过一只手而且通过左右手的组合进行控制的设备。在图5所示的表中，与手1（左手）的遮蔽形状对应的命令可以和与手2（右手）的遮蔽形状对应的命令进行组合。

例如，如果用户期望改变电视机的频道，则用户首先通过使手1形成为形状2指向电视机。结果，设备控制单元105识别电视机是要控制的设备。在以上状态下，用户仅仅需要使手2形成为形状1从而使用手2作出频道改变姿势。针对手2的姿势，如下所述，可以作出诸如画圆和往复运动的姿势。另一方面，如果用户期望关闭电视机，则他或她能够通过仅仅使用手1来进行，如下所述。具体地讲，用户仅仅需要先使手1形成为形状2以指向电视机，然后将它变成形状5。与之相对，如果用户期望打开电视机，则他或她仅仅需要使手1形成为形状2以指向电视机。

将指尖指向要控制的设备106的指向运动的空间意义由指尖相对于要控制的设备106的位置定义。因此，空间意义不取决于产生观测数据的观测单元101的传感器的位置或姿势。由于这个原因，在观测单元101布置在工作空间中的位置的确定中，不必考虑用户站立的位置或布置要控制的设备的位置。另一方面，用户不必意识到传感器的位置就可以作出指向运动并且由此能够集中于直观操作要控制的设备106。

图6是示出根据这个实施例的信息输入设备100基于用户的手的姿势来控制设备的处理步骤的流程图。

首先，观测单元101观测环境并且将获得的观测数据输出到状态估计单元103（步骤S601）。

状态估计单元103估计观测单元101的传感器的位置和姿势（步骤S602），并且估计前景模型的位置和姿势（步骤S603）。

随后，用户识别单元104从前景识别用户的手指并且识别手指的形状、位置和姿势（步骤S604）。

设备控制单元105首先基于识别的手的形状、位置和姿势识别要控制的设备，然后确定与识别的手的状态或状态变化对应的控制命令（步骤S606）。设备控制单元105然后向要控制的设备发出所确定的控制命令（步骤S607）。

学习单元102学习前景和背景模型并且还将这些模型分别存储在前景模型存储单元102A和背景模型存储单元102B中（步骤S608）。学习单元102还顺序地更新已经存储的前景和背景模型（步骤S609）。处理然后返回到步骤S601，并且重复上述的处理步骤。

最后，将参照附图描述使用根据这个实施例的信息输入设备100的示例UI操作。

（1）2D/3D屏幕上的GUI操作

图7示出了用户经由根据这个实施例的信息输入设备100（图7中未示出）正在操作显示器的屏幕上的光标的图。信息输入设备100基于由例如布置在显示器上方的观测单元101获得的观测数据（距离图像等），识别用户的指向显示器的手指，并且从手指的位置和姿势识别该显示器是要控制的设备。随后，基于手指的位置和姿势的变化，信息输入设备100输出与显示屏幕上的光标操作对应的控制命令。

图8示出了用户基于从手指指向运动的开始位置的位移量(Δx,Δy,Δz)，指定屏幕上的光标位置(x',y',z')的三维运动速度。在图8中所示的例子中，用户向光标给出与从手指执向运动的开始位置的位移量成比例的三维运动速度。

图9示出了用户在个人计算机等的三维GUI上作出获得从双手的指尖延伸的直线的交点以指定深度的指向运动的图。因此，在显示器上显示的GUI设计的灵活性增加，从而可以更加便利地选择3D显示上的菜单等。

（2）指示机器人运送特定物体

图10示出了用户经由根据这个实施例的信息输入设备100（图10中未示出）指示机器人运送要运送的物体。例如，信息输入设备100基于由布置在环境中的观测单元101获得的观测数据（距离图像等），识别用户的手指。然后，信息输入设备100从呈指向形状的手指的姿势与环境中的物体的交点，识别要控制的设备是机器人。另外，信息输入设备100从呈指向形状的手指的姿势与环境中的另一物体的交点，识别用户正指示机器人运送该另一物体，并且将运送该另一物体的控制命令输出到机器人。

（3）打开/关闭家用电器

图11示出了用户指示根据这个实施例的信息输入设备100（图11中未示出）打开或关闭家庭生活环境中的照明器具等的图。例如，信息输入设备100基于由布置在家庭生活环境内的观测单元101获得的观测数据（距离图像等），识别用户的手指。然后，信息输入设备100从呈指向形状的手指的姿势与家庭生活环境内的物体的交点，识别照明器具是要控制的设备。另外，信息输入设备100从用户的手指的形状的变化，识别用户正指示信息输入设备100打开或关闭照明器具，并且向照明器具输出用于打开或关闭它的控制命令。

（4）使用姿势调整音量等

图12示出了用户向根据这个实施例的信息输入设备100（图12中未示出）示出电视机、音乐播放***等是要控制的设备并且指示信息输入设备100执行显示器的亮度或音量的改变等的图。在图12中所示的例子中，用户使用一只手（左手）的手指指定要控制的设备并且使用另一只手（右手）的手指的姿势向要控制的设备输入控制命令。例如，信息输入设备100基于由布置在环境内的观测单元101（在图12中未示出）获得的观测数据（距离图像等），识别用户的双手的手指。信息输入设备100从呈指向形状的左手的手指的姿势与家庭生活环境内的物体的交点，识别用户指定电视机或音乐播放***作为要控制的设备。另外，信息输入设备100基于右手手指的指向形状或右手手指的位置和姿势的变化（即，右手手指的姿势），识别用户指示信息输入设备100执行要控制的设备的显示器的亮度或音量的改变等，并且向电视机或音乐播放***输出控制命令。

在图7到图12中所示的任何示例操作中，用户在使用手势输入控制命令时不必持有任何特殊指向装置，并且能够空手地操作要控制的设备。

另外，信息输入设备100使用全局坐标系识别用户的手指的位置和姿势。这导致观测用户的手的装置的放置位置的灵活性增加。例如，即使当观测单元被布置在期望位置（例如，从其能够看到更加宽广的空间的位置）时，不考虑观测单元与用户或要控制的设备之间的相对位置关系，用户的直观输入操作不会被妨碍。另外，在输入控制命令时，用户不必意识到观测单元的位置而仅需要意识到用户相对于要控制的设备的位置。因此，用户能够使用直观运动输入控制命令。

另外，信息输入设备100不依赖于手指的轮廓而使用手指的三维模型连续地跟踪用户的手指的位置和姿势。因此，无论从什么方向观测手指，信息输入设备100都能够没有问题地识别手指。另外，在使用手指的三维模型跟踪手指的位置和姿势时，信息输入设备100不会丢失手指的特征点的跟踪。因此，它能够稳定地识别用户的手指的位置和姿势。

本公开可以如下地构造。

（1）一种信息输入设备，包括：观测单元，被构造为观测包括用户以及一个或多个要控制的设备的环境，该观测单元包括传感器；学习单元，被构造为根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；状态估计单元，被构造为估计所述环境中已经建模的前景的位置和姿势；用户识别单元，被构造为从前景识别用户的手指并且识别手指的形状、位置和姿势；以及设备控制单元，被构造为基于由用户识别单元识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

（2）根据上述（1）所述的信息输入设备，其中，观测单元获得所述环境的距离图像，并且其中，学习单元从所述距离图像分离前景和背景并且学习前景和背景的三维模型。

（3）根据上述（1）所述的信息输入设备，其中，学习单元在用户实际控制或操作要控制的期望设备之前，事先构建要控制的期望设备的三维模型。

（4）根据上述（3）所述的信息输入设备，其中，学习单元构建包括要控制的期望设备的周围环境的三维模型，然后从周围环境消除要控制的期望设备，并且通过检测与差别对应的三维模型仅构建要控制的期望设备的三维模型。

（5）根据上述（1）所述的信息输入设备，其中，状态估计单元更新已经由学习单元构建的前景模型和背景模型，以及继续估计传感器和前景的相应位置和姿势，在改变传感器的视野的同时构建背景的三维模型，然后通过在三维背景模型固定的情况下提取与差别对应的区域，来学习前景的三维模型。

（6）根据上述（1）所述的信息输入设备，其中，学习单元事先并入关于三维前景模型和背景模型的知识并且随后学习三维前景模型和背景模型。

（7）根据上述（1）所述的信息输入设备，其中，学习单元从三维空间切出位置或姿势不变化的模型作为背景，并切出位置或姿势频繁变化的对象作为前景模型，并且学习前景模型和背景模型。

（8）根据上述（1）所述的信息输入设备，其中，用户识别单元检测与通过从观测单元捕捉的图像中检测人或面部而获得的区域关联的前景模型作为用户。

（9）根据上述（1）所述的信息输入设备，其中，用户识别单元通过事先标记手指，针对标记的手指和在标记后准备的典型人体的三维模型执行图形匹配，并且关注与标记的节点对应的区域的前景，来识别手指。

（10）根据上述（1）所述的信息输入设备，其中，用户识别单元针对事先为每个手形状准备的典型的三维手模型，识别所识别的手指的形状。

（11）根据上述（10）所述的信息输入设备，其中，用户识别单元为每个用户准备不同的典型的三维手模型，并且根据基于观测数据识别的用户改变该典型的三维手模型。

（12）根据上述（1）所述的信息输入设备，其中，设备控制单元基于识别的手的形状、位置和姿势识别要控制的设备，然后向要控制的设备发出与识别的手的状态或状态变化对应的控制命令。

（13）根据上述（12）所述的信息输入设备，其中，设备控制单元参考控制命令对应表来确定来自用户的与识别的手的状态或状态变化对应的控制命令，所述控制命令对应表定义手的形状与控制命令之间的分类对应关系。

（14）根据上述（13）所述的信息输入设备，其中，设备控制单元使用为每个要控制的设备定义了分类对应关系的控制命令对应表。

（15）根据上述（1）所述的信息输入设备，其中，当用户作出举起食指的指向运动时，设备控制单元识别在从食指的指尖延伸的直线上存在的前景模型作为要控制的设备。

（16）根据上述（1）所述的信息输入设备，其中，设备控制单元确定与用户的左右手的各自状态的组合或者状态变化的组合对应的控制命令。

（17）根据上述（1）所述的信息输入设备，其中，设备控制单元识别显示器作为要控制的设备，设备控制单元输出与显示器的屏幕上的光标操作对应的控制命令。

（18）根据上述（17）所述的信息输入设备，其中，设备控制单元基于相对于手指指向运动的开始位置的位移量，指定屏幕上光标位置的三维运动速度。

（19）根据上述（17）所述的信息输入设备，其中，设备控制单元获得从识别的用户的双手的手指延伸的直线的交点，并且基于所述交点指定相对于屏幕上的三维用户界面的深度。

（20）根据上述（1）所述的信息输入设备，其中，设备控制单元基于识别的用户的指向手指的姿势与环境内的物体的交点，识别要控制的设备和要向该要控制的设备发送的指令。

（21）根据上述（1）所述的信息输入设备，其中，设备控制单元基于识别的用户的一只手的手指的姿势与环境内的物体的交点识别要控制的设备，以及基于识别的用户的另一只手的手指的形状或者另一只手的手指的位置和姿势的变化，识别要向该要控制的设备发出的指令并且输出控制命令。

（22）一种用于输入信息的方法，包括：观测包括用户以及一个或多个要控制的设备的环境；根据在观测步骤中获得的观测数据分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；估计所述环境中已经建模的前景的位置和姿势；从前景识别用户的手指并且识别手指的形状、位置和姿势；以及基于在识别步骤中识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

（23）一种以计算机可读形式编写以使得计算机发挥如下部件的作用的计算机程序：观测单元，被构造为观测包括用户以及一个或多个要控制的设备的环境，该观测单元包括传感器；学习单元，被构造为根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；状态估计单元，被构造为估计所述环境中已经建模的前景的位置和姿势；用户识别单元，被构造为从前景识别用户的手指并且识别手指的形状、位置和姿势；以及设备控制单元，被构造为基于由用户识别单元识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

本公开包含与在2012年3月27日提交到日本专利局的日本优先权专利申请JP2012-072392中公开的主题有关的主题，该日本优先权专利申请的全部内容以引用方式并入本文。

本领域技术人员应该明白，可以根据设计要求和其它因素构思各种变型、组合、子组合和替代，只要它们位于权利要求及其等同物的范围内即可。

Claims

1.一种信息输入设备，包括：

观测单元，被构造为观测包括用户以及一个或多个要控制的设备的环境，该观测单元包括传感器；

学习单元，被构造为根据由观测单元获得的观测数据，分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；

状态估计单元，被构造为估计所述环境中已经建模的前景的位置和姿势；

用户识别单元，被构造为从前景识别用户的手指并且识别手指的形状、位置和姿势；以及

设备控制单元，被构造为基于由用户识别单元识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

2.根据权利要求1所述的信息输入设备，

其中，观测单元获得所述环境的距离图像，以及

其中，学习单元从所述距离图像分离前景和背景并且学习前景和背景的三维模型。

3.根据权利要求1所述的信息输入设备，

其中，学习单元在用户实际控制或操作要控制的期望设备之前，事先构建要控制的期望设备的三维模型。

4.根据权利要求3所述的信息输入设备，

其中，学习单元构建包括要控制的期望设备的周围环境的三维模型，然后从周围环境消除要控制的期望设备，并且通过检测与差别对应的三维模型仅构建要控制的期望设备的三维模型。

5.根据权利要求1所述的信息输入设备，其中

状态估计单元更新已经由学习单元构建的前景模型和背景模型，同时继续估计传感器和前景的相应位置和姿势，在改变传感器的视野的同时构建背景的三维模型，然后通过在三维背景模型固定的情况下提取与差别对应的区域，来学习前景的三维模型。

6.根据权利要求1所述的信息输入设备，

其中，学习单元事先并入关于三维前景模型和背景模型的知识并且学习三维前景模型和背景模型。

7.根据权利要求1所述的信息输入设备，

其中，学习单元从三维空间切出位置或姿势不变化的模型作为背景，切出位置或姿势频繁变化的对象作为前景模型，并且学习前景模型和背景模型。

8.根据权利要求1所述的信息输入设备，

其中，用户识别单元检测与通过从观测单元捕捉的图像中检测人或面部而获得的区域关联的前景模型作为用户。

9.根据权利要求1所述的信息输入设备，

其中，用户识别单元通过事先标记手指，针对标记的手指和在标记后准备的典型人体的三维模型执行图形匹配，并且关注与标记的节点对应的区域的前景，来识别手指。

10.根据权利要求1所述的信息输入设备，其中

用户识别单元针对事先为每个手形状准备的典型的三维手模型，识别所识别的手指的形状。

11.根据权利要求10所述的信息输入设备，

其中，用户识别单元为每个用户准备不同的典型的三维手模型，并且根据基于观测数据识别的用户改变该典型的三维手模型。

12.根据权利要求1所述的信息输入设备，

其中，设备控制单元基于识别的手的形状、位置和姿势识别要控制的设备，然后向要控制的设备发出与识别的手的状态或状态变化对应的控制命令。

13.根据权利要求12所述的信息输入设备，

其中，设备控制单元参考控制命令对应表来确定来自用户的与识别的手的状态或状态变化对应的控制命令，所述控制命令对应表定义手的形状与控制命令之间的分类对应关系。

14.根据权利要求13所述的信息输入设备，

其中，设备控制单元使用为每个要控制的设备定义了分类对应关系的控制命令对应表。

15.根据权利要求1所述的信息输入设备，

其中，当用户作出举起食指的指向运动时，设备控制单元识别在从食指的指尖延伸的直线上存在的前景模型作为要控制的设备。

16.根据权利要求1所述的信息输入设备，

其中，设备控制单元确定与用户的左右手的各自状态的组合或者状态变化的组合对应的控制命令。

17.根据权利要求1所述的信息输入设备，

其中，设备控制单元识别显示器作为要控制的设备，设备控制单元基于识别的手指的位置和姿势的变化，输出与显示器的屏幕上的光标操作对应的控制命令。

18.根据权利要求17所述的信息输入设备，

其中，设备控制单元基于相对于手指指向运动的开始位置的位移量，指定屏幕上光标位置的三维运动速度。

19.根据权利要求17所述的信息输入设备，

其中，设备控制单元获得从识别的用户的双手的手指延伸的直线的交点，并且基于所述交点指定相对于屏幕上的三维用户界面的深度。

20.根据权利要求1所述的信息输入设备，

其中，设备控制单元基于识别的用户的指向手指的姿势与环境内的物体的交点，识别要控制的设备和要向该要控制的设备发送的指令。

21.根据权利要求1所述的信息输入设备，

其中，设备控制单元基于识别的用户的一只手的手指的姿势与环境内的物体的交点识别要控制的设备，以及基于识别的用户的另一只手的手指的形状或者另一只手的手指的位置和姿势的变化，识别要向该要控制的设备发出的指令并且输出控制命令。

22.一种用于输入信息的方法，包括：

观测包括用户以及一个或多个要控制的设备的环境；

根据在观测步骤中获得的观测数据分离前景和背景，并且学习前景和背景的三维模型，前景包括用户以及所述一个或多个要控制的设备，背景包括除前景外的环境；

估计所述环境中已经建模的前景的位置和姿势；

从前景识别用户的手指并且识别手指的形状、位置和姿势；以及

基于在识别步骤中识别的手指的形状、位置和姿势，向所述一个或多个要控制的设备输出控制命令。

23.一种以计算机可读形式编写以使得计算机发挥如下部件的作用的计算机程序：