CN108229391A

CN108229391A - 手势识别装置及其服务器、手势识别***、手势识别方法

Info

Publication number: CN108229391A
Application number: CN201810001744.3A
Authority: CN
Inventors: 李英杰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-06-29
Anticipated expiration: 2038-01-02
Also published as: US10725553B2; US20190204930A1; CN108229391B

Abstract

一种手势识别装置、手势识别服务器、手势识别***及手势识别方法。该手势识别装置包括图像采集单元、视频编码单元、第一网络通信单元和指令执行单元。图像采集单元配置为采集手势图像数据；视频编码单元配置为对所述手势图像数据进行编码以形成视频流数据；第一网络通信单元配置为发送所述视频流数据以及接收手势操控命令；指令执行单元配置为根据所述手势操控命令执行对应的控制操作。该手势识别装置可以在不具有高性能的计算能力的情形下，也能够满足实时交互的需求。

Description

手势识别装置及其服务器、手势识别***、手势识别方法

技术领域

本公开的实施例涉及一种手势识别装置、手势识别服务器、手势识别***及手势识别方法。

背景技术

随着电子设备的种类、数量越来越多，普及程度越来越广泛，用户与电子设备的人机交互方式也从利用遥控器、鼠标、键盘等外设进行的简单交互方式，发展到了利用语音交互、体感交互、眼动交互和手势交互等多样化的交互方式。这其中手势交互方式由于比较自然方便，在很多应用场景中具有很大的需求。

在手势交互方式中需要进行手势识别，由于手势识别的计算过程比较复杂，对实时性要求比较高，所以进行手势识别的硬件设备需要具有较高的计算能力才能满足需求。例如在家庭中基本普及的数字机顶盒，由于计算能力不足可能会导致一帧图像的处理时间太长，因此无法满足实时交互的需求。

发明内容

本公开至少一实施例提供一种手势识别装置，包括图像采集单元、视频编码单元、第一网络通信单元和指令执行单元。所述图像采集单元配置为采集手势图像数据；所述视频编码单元配置为对所述手势图像数据进行编码以形成视频流数据；所述第一网络通信单元配置为发送所述视频流数据以及接收手势操控命令；所述指令执行单元配置为根据所述手势操控命令执行对应的控制操作。

例如，本公开一实施例提供的手势识别装置还包括功能设置单元。所述第一网络通信单元还配置为发送所述手势识别装置的配置信息以及接收配置命令；所述功能设置单元配置为根据所述配置命令对所述手势识别装置进行配置。

例如，在本公开一实施例提供的手势识别装置中，所述视频编码单元还配置为对所述手势图像数据进行图像预处理。所述视频编码单元还配置为根据所述配置命令对所述图像预处理进行动态调整；所述图像采集单元还配置为根据所述配置命令对采集所述手势图像数据的帧率进行动态调整。

本公开至少一实施例提供一种手势识别装置，包括图像采集单元、第一网络通信单元、至少一个第一处理器和至少一个第一存储器。所述图像采集单元配置为采集手势图像数据；所述第一网络通信单元配置为发送包括所述手势图像数据的视频流数据以及接收手势操控命令；所述第一存储器配置为存储有可适于所述第一处理器执行的计算机指令，且所述计算机指令被所述第一处理器执行时实施如下操作：对所述手势图像数据进行编码以形成所述视频流数据；根据所述手势操控命令执行对应的控制操作。

本公开至少一实施例提供一种手势识别方法，包括：采集手势图像数据；对所述手势图像数据进行编码以形成视频流数据，并发送至手势识别服务器；接收所述手势识别服务器返回的手势操控命令，并执行对应的控制操作。

例如，本公开一实施例提供的手势识别方法还包括：将手势识别装置的配置信息发送至所述手势识别服务器；接收所述手势识别服务器返回的配置命令，并根据所述配置命令对所述手势识别装置进行配置。

例如，本公开一实施例提供的手势识别方法还包括对所述手势图像数据进行图像预处理。所述图像预处理根据所述配置命令动态调整；所述采集手势图像数据的帧率根据所述配置命令动态调整。

例如，在本公开一实施例提供的手势识别方法中，所述图像预处理包括对所述手势图像数据进行手部区域提取。

本公开至少一实施例提供一种手势识别服务器，包括第二网络通信单元、视频解码单元和手势识别单元。所述第二网络通信单元配置为接收包括手势图像数据的视频流数据以及发送手势操控命令；所述视频解码单元配置为对所述视频流数据进行解码以获得所述手势图像数据；所述手势识别单元配置为对所述手势图像数据进行手势识别，并在有手势操作的情形下生成所述手势操控命令。

例如，本公开一实施例提供的手势识别服务器还包括参数配置单元。所述第二网络通信单元还配置为接收配置信息，以及发送配置命令；所述手势识别单元还配置为根据所述配置信息选择手势识别算法；所述参数配置单元配置为根据所述手势识别单元的手势识别结果或所述手势识别算法生成所述配置命令。

例如，在本公开一实施例提供的手势识别服务器中，所述配置命令包括根据所述手势识别结果生成的动态调整帧率的配置命令。

例如，在本公开一实施例提供的手势识别服务器中，所述手势识别单元还配置为根据所述手势识别结果预测手部的运动轨迹。

本公开至少一实施例提供一种手势识别服务器，包括第二网络通信单元、至少一个第二处理器和至少一个第二存储器。所述第二网络通信单元配置为接收包括手势图像数据的视频流数据以及发送手势操控命令；所述第二存储器配置为存储有可适于所述第二处理器执行的计算机指令，且所述计算机指令被所述第二处理器执行时实施如下操作：对所述视频流数据进行解码以获得所述手势图像数据；对所述手势图像数据进行手势识别，并在有手势操作的情形下生成所述手势操控命令。

本公开至少一实施例提供一种手势识别方法，包括：接收包括手势图像数据的视频流数据；对所述视频流数据进行解码以获得所述手势图像数据；对所述手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令；发送所述手势操控命令。

例如，本公开一实施例提供的手势识别方法还包括：接收配置信息；根据所述配置信息选择手势识别算法；根据所述手势识别的结果或所述手势识别算法生成配置命令；发送所述配置命令。

例如，在本公开一实施例提供的手势识别方法中，所述配置命令包括根据所述手势识别的结果生成的动态调整帧率的配置命令。

例如，本公开一实施例提供的手势识别方法还包括：根据所述手势识别结果预测手部的运动轨迹。

本公开至少一实施例提供一种手势识别***，包括本公开一实施例提供的手势识别装置和本公开一实施例提供的手势识别服务器。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开一实施例中的一个示例提供的一种手势识别装置的示意图；

图2为本公开一实施例中的另一个示例提供的一种手势识别装置的示意图；

图3为本公开一实施例提供的一种手势识别装置的示意图；

图4为本公开一实施例中的一个示例提供的一种手势识别方法的示意图；

图5为本公开一实施例中的另一个示例提供的一种手势识别方法的示意图；

图6为本公开一实施例中的另一个示例提供的一种手势识别方法的示意图；

图7为本公开一实施例中的一个示例提供的一种手势识别服务器的示意图；

图8为本公开一实施例中的另一个示例提供的一种手势识别服务器的示意图；

图9为本公开一实施例提供的一种手势识别服务器的示意图；

图10为本公开一实施例中的一个示例提供的一种手势识别方法的示意图；

图11为本公开一实施例中的另一个示例提供的一种手势识别方法的示意图；

图12为本公开一实施例中的另一个示例提供的一种手势识别方法的示意图；以及

图13为本公开一实施例提供的一种手势识别***的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本公开至少一实施例提供一种手势识别装置，包括图像采集单元、视频编码单元、第一网络通信单元和指令执行单元。图像采集单元配置为采集手势图像数据；视频编码单元配置为对手势图像数据进行编码以形成视频流数据；第一网络通信单元配置为发送视频流数据以及接收手势操控命令；指令执行单元配置为根据手势操控命令执行对应的控制操作。本公开至少一实施例还提供一种手势识别服务器、手势识别***以及手势识别方法。

本公开的实施例提供的手势识别装置、手势识别服务器、手势识别***以及手势识别方法，可以在手势识别装置不具有高性能的计算能力的情形下，也能够满足实时交互的需求。

下面结合附图对本公开的实施例进行详细说明。

本公开实施例的一个示例提供一种手势识别装置10，如图1所示，该手势识别装置10包括图像采集单元110、视频编码单元120、第一网络通信单元130和指令执行单元140。

例如，图像采集单元110可以配置为采集手势图像数据。例如，在本公开的一些实施例中，图像采集单元110可以具体实现为摄像头，例如其示例可以包括RGB(红绿蓝色彩模式)摄像头或深度摄像头。例如RGB摄像头可以采集包括肤色信息的手势图像数据或采集包括灰度图像的手势图像数据；又例如深度摄像头可以采集包括深度信息的手势图像数据。需要说明的是，本公开的实施例对采用的摄像头的类型不作限定，只要是可以实现采集用户的手势图像的功能即可。另外，在本公开的实施例中，图像采集单元110(例如摄像头)可以内置在所述手势识别装置10中，也可以通过一定的接口(例如USB等接口)外置于所述手势识别装置10外部，本公开的实施例对此不作限定。

例如，视频编码单元120可以配置为对手势图像数据进行编码以形成视频流数据。例如，用户在进行手势操作时，随着手的移动，图像采集单元110可以按照一定的帧率(例如30帧/秒等)采集多帧手势图像数据，视频编码单元120可以将该多帧手势图像数据进行编码以形成视频流数据。当然，用户也可能做出一个静止的手势动作，此时图像采集单元110采集到的连续的多帧手势图像数据可能是相同的。

例如，当手势识别装置10集成在计算机、电视机或数字机顶盒中时，视频编码单元120可以利用电视机或数字机顶盒中已有的具有视频编码功能的硬件来实现，在这种情形下，视频编码单元120具有硬件编码功能。又例如，视频编码单元120可以包括至少一个处理器和至少一个存储器。该存储器配置为存储有可适于处理器执行的计算机指令，且计算机指令被处理器执行时可以实施：对手势图像数据进行编码以形成视频流数据。在这种情形下，视频编码单元120具有软件编码功能。

需要说明的是，视频编码单元120可以同时具有硬件编码功能和软件编码功能，本公开的实施例对此不作限定。例如，在视频编码单元120同时具有硬件编码功能和软件编码功能的情形下，可以首先采用硬件编码，这样可以提高编码的速度，进而提高手势识别装置10的实时性。

例如，视频编码单元120在进行编码时，采用的编码类型可以包括H.264和H.265等编码类型，也可以采用未来开发的其他编码类型。H.264和H.265均是现有的编码类型，这里不再赘述。

例如，第一网络通信单元130可以配置为发送视频流数据以及接收手势操控命令。例如，第一网络通信单元130可以通过网络，例如有线网络或无线网络，发送视频流数据以及接收手势操控命令。例如，在本公开的一些实施例中，第一网络通信单元130可以具体实现为调制解调器、有线网卡、无线网卡等，例如无线网卡可以和无线路由器互联，无线路由器可以和云端服务器(例如手势识别服务器)互联，进而可以实现手势识别装置10与云端服务器的通信。本公开的实施例对第一网络通信单元130的通信方式不作限定，只要是可以实现与云端服务器的通信功能即可。

例如，指令执行单元140可以配置为根据手势操控命令执行对应的控制操作。例如，手势操控命令可以是手势识别服务器对视频流数据经过手势识别处理后返回的手势操控命令。例如，第一网络通信单元130通过网络接收到手势操控命令后，指令执行单元140可以根据该手势操控命令执行对应的控制操作，例如暂定、播放、静音等控制操作，也可以是游戏中的前进、后退等控制操作。例如，可以预先将每个手势操控命令分别设置一个对应的值例如称为手势值。例如可以将暂停的手势操控命令对应的手势值记为1，将播放的手势操控命令对应的手势值记为2，将静音的手势操控命令对应的手势值记为3等，这样在通过网络传输手势操控命令时只需要传输对应的手势值即可。采用这种配置方式，可以减少传输的数据量，也更便于指令执行单元140进行判断处理。

例如，在本公开的一些实施例中，和视频编码单元120类似，指令执行单元140也可以实现为至少一个处理器和至少一个存储器。该存储器配置为存储有可适于处理器执行的计算机指令，且计算机指令被处理器执行时可以实施：根据手势操控命令执行对应的控制操作。需要说明的是，指令执行单元140和视频编码单元120可以通过同一个处理器和存储器实现。例如在该存储器中可以存储有多个手势操控命令与手势值的对应关系表，指令执行单元140在执行时可以通过查表获得某一个手势值对应的具体手势操控命令。

本公开的实施例提供的手势识别装置10，可以在该手势识别装置10不具有高性能的计算能力的情形下，将采集并编码形成的视频流数据发送至手势识别服务器，以将对视频流数据的手势识别处理放在具有更强计算能力的手势识别服务器中进行。手势识别装置10接收手势识别处理获得的手势操控命令后，执行对应的控制操作以完成实时交互。该手势识别装置10可以在不具有高性能的计算能力的情形下，也能够满足实时交互的需求。

例如，如图2所示，在本公开实施例的一个示例中，手势识别装置10还可以包括功能设置单元150。

例如，如图2所示，在包括功能设置单元150的情形下，第一网络通信单元130还可以配置为向手势识别服务器发送手势识别装置10的配置信息以及从手势识别服务器接收配置命令。

例如，在手势识别装置10开始工作时，可以将配置信息通过第一网络通信单元130发送至手势识别服务器。例如配置信息包括视频编码单元120是否支持图像预处理；还包括图像采集单元110的配置信息，例如包括是否支持灰度图像、是否支持深度、RGB数据、是否支持调焦、摄像头转动等。

例如，手势识别服务器接收到上述配置信息后，可以根据该配置信息选择对应的手势识别算法，并根据选择的手势识别算法生成配置命令并返回，第一网络通信单元130可以接收该配置命令。

例如，功能设置单元150可以配置为根据配置命令对手势识别装置10进行配置。例如，配置命令包括图像采集单元110获取图像类型(例如深度图像、灰度图像或RGB图像)的配置命令；又例如，配置命令还可以包括图像采集单元110在开始采集手势图像数据时，采用的默认的帧率和分辨率的配置命令；又例如，配置命令还可以包括设置推流地址的配置命令，该推流地址是第一网络通信单元130发送视频流数据所到达的网络地址。需要说明的是，上述推流地址可以采用固定地址或可变地址方式，本公开的实施例对此不作限定。在采用可变地址方式时，可以提高数据传输的安全隐蔽性。

例如，在本公开实施例的一个示例中，视频编码单元120还可以配置为对手势图像数据进行图像预处理。例如，图像预处理包括对手势图像数据进行手部区域提取。例如，图像采集单元110采集获得的手势图像数据大小为640×480，手部区域大小例如为320×240，则视频编码单元120可以先将手部所在的这个区域截取出来再对其进行编码。采用这种方式，可以减少视频流数据的数据量从而提高传输效率。

例如，在本公开实施例的一个示例中，视频编码单元120还可以配置为根据配置命令对图像预处理进行动态调整。例如，手势识别服务器在对视频流数据进行手势识别时，可以对手部进行跟踪并利用多帧跟踪结果预测手部的运动轨迹，从而调整手部中心位置坐标和手部区域大小。手势识别服务器可以实时的将手部中心位置坐标和手部区域大小作为配置命令发送至手势识别装置10，视频编码单元120在进行图像预处理时就可以根据这些配置命令对截取区域的位置和大小进行动态调整。需要说明的是，此处所述手部中心位置坐标表示手部中心在手势图像数据中的坐标，以下各实施例与此相同，不再赘述。

例如，可以将每一帧手势图像数据经过图像预处理后(例如手部区域截取)的数据称为视频帧数据，对多个视频帧数据进行编码后形成视频流数据。手部中心位置坐标可以通过记录视频帧数据在对应手势图像数据中的位置坐标以及手部中心在视频帧数据中的位置坐标计算得到。

下面举例说明如何获得手部中心位置坐标。依然如上所述，图像采集单元110采集获得的手势图像数据大小为640×480，手部区域大小例如为320×240，将该手部区域截取出来并编码以形成视频帧数据。手势识别服务器在对该视频帧数据进行手势识别时，例如得到手部中心在该视频帧数据中的位置坐标为(1,2)，又例如手部区域320×240在对应手势图像数据640×480中的左上定点位置坐标为(100,101)，则通过计算可以得到手部中心在手势图像数据中的坐标即手部中心位置坐标为(101,103)。

需要说明的是，本公开的实施例包括但不限于上述获得手部中心位置坐标的方式。

例如，在本公开实施例的一个示例中，图像采集单元110还可以配置为根据配置命令对采集手势图像数据的帧率进行动态调整。例如，手势识别服务器在对视频流数据进行手势识别时，如果连续超过一定的时间(例如3秒、5秒等)没有检测到手部轮廓，则可以向手势识别装置10发出配置命令，图像采集单元110根据该配置命令可以降低采集手势图像数据的帧率，例如从30帧/秒降低为10帧/秒或1帧/秒；如果重新检测到了手部轮廓，则恢复采集手势图像数据的帧率，例如再恢复到30帧/秒。采用这种方式，可以节省手势识别装置10和手势识别服务器的计算资源和通信资源(例如网络带宽)。

本公开的一个实施例还提供一种手势识别装置10，如图3所示，该手势识别装置10包括图像采集单元110、第一网络通信单元130、至少一个第一处理器160和至少一个第一存储器170。

例如，图像采集单元110配置为采集手势图像数据。

例如，第一网络通信单元130配置为发送包括手势图像数据的视频流数据以及接收手势操控命令。

关于图像采集单元110和第一网络通信单元130可以参考上述实施例中相应描述，这里不再赘述。

例如，第一存储器170配置为存储有可适于第一处理器160执行的计算机指令，且计算机指令被第一处理器160执行时实施如下操作：

对手势图像数据进行编码以形成视频流数据；以及根据手势操控命令执行对应的控制操作。

本公开的一个实施例还提供一种手势识别方法，如图4所示，该手势识别方法包括如下操作。

步骤S110：采集手势图像数据；

步骤S120：对手势图像数据进行编码以形成视频流数据，并发送至手势识别服务器；以及

步骤S130：接收手势识别服务器返回的手势操控命令，并执行对应的控制操作。

例如，如图2所示，可以采用图像采集单元110执行步骤S110，以获得手势图像数据。例如，可以采用视频编码单元120对在步骤S110中获得的手势图像数据执行步骤S120，即对手势图像数据进行编码以形成视频流数据，并发送至手势识别服务器。例如可以通过图2中所示的第一网络通信单元130将视频流数据发送至手势识别服务器。

在步骤S130中，同样地，可以采用图2中所示的第一网络通信单元130接收手势识别服务器返回的手势操控命令，然后采用图2中所示的指令执行单元140执行手势操控命令对应的控制操作。

需要说明的是，关于图像采集单元110、视频编码单元120、第一网络通信单元130以及指令执行单元140的描述可以参考上述关于手势识别装置10的实施例中的相应描述，这里不再赘述。

本公开的实施例提供的手势识别方法，可以在手势识别装置10不具有高性能的计算能力的情形下，将采集并编码形成的视频流数据发送至手势识别服务器，以将对视频流数据的手势识别处理放在具有更强计算能力的手势识别服务器中进行。手势识别装置10接收手势识别处理获得的手势操控命令后，执行对应的控制操作以完成实时交互。该手势识别方法可以在手势识别装置10不具有高性能的计算能力的情形下，也能够满足实时交互的需求。

在本公开实施例的一个示例中，如图5所示，图4中所示的手势识别方法还可以包括如下操作。

步骤S140：将手势识别装置的配置信息发送至手势识别服务器；

步骤S150：接收手势识别服务器返回的配置命令，并根据配置命令对手势识别装置进行配置。

例如，如图2所示，在手势识别装置10包括功能设置单元150的情形下，在手势识别装置10开始工作时，可以执行步骤S140，将手势识别装置10的配置信息发送至手势识别服务器。例如配置信息包括视频编码单元120是否支持图像预处理；还包括图像采集单元110的配置信息，例如包括是否支持灰度图像、是否支持深度、RGB数据、是否支持调焦、摄像头转动等。

例如，手势识别服务器接收到上述配置信息后，可以根据该配置信息选择对应的手势识别算法，并根据选择的手势识别算法生成配置命令并返回。在步骤S150中，可以采用图2中所示的第一网络通信单元130接收该配置命令，并可以采用图2中所示的功能设置单元150根据配置命令对手势识别装置10进行配置。

在本公开实施例的一个示例中，如图6所示，图5中所示的手势识别方法还可以包括如下操作。

步骤S160：对手势图像数据进行图像预处理。

例如，可以在执行步骤S120前执行步骤S160，即在对手势图像数据进行编码前先对其进行图像预处理。例如，可以采用图2中所示的视频编码单元120执行步骤S160。

例如，在一个示例中，在步骤S160中对手势图像数据进行的图像预处理可以包括对手势图像数据进行手部区域提取。例如，图像采集单元110采集获得的手势图像数据大小为640×480，手部区域大小例如为320×240，则视频编码单元120可以先将手部所在的这个区域截取出来再对其进行编码。采用这种方式，可以减少视频流数据的数据量从而提高传输效率。

例如，在本公开实施例的一个示例中，图2中所示的视频编码单元120在执行步骤S160时可以根据配置命令动态调整。例如，手势识别服务器在对视频流数据进行手势识别时，可以对手部进行跟踪并利用多帧跟踪结果预测手部的运动轨迹，从而调整手部中心位置坐标和手部区域大小。手势识别服务器可以实时的将手部中心位置坐标和手部区域大小作为配置命令发送至手势识别装置10，视频编码单元120在进行图像预处理时就可以根据这些配置命令对截取区域的位置和大小进行动态调整。

需要说明的是，关于手部中心位置坐标可以参考上述关于手势识别装置10的实施例中的相应描述，这里不再赘述。

例如，在本公开实施例的一个示例中，图2中所示的图像采集单元110在执行步骤S110时，采集手势图像数据的帧率可以根据配置命令进行动态调整。例如，手势识别服务器在对视频流数据进行手势识别时，如果连续超过一定的时间(例如3秒、5秒等)没有检测到手部轮廓，则可以向手势识别装置10发出配置命令，图像采集单元110根据该配置命令可以降低采集手势图像数据的帧率，例如从30帧/秒降低为10帧/秒或1帧/秒；如果重新检测到了手部轮廓，则恢复采集手势图像数据的帧率，例如再恢复到30帧/秒。采用这种方式，可以节省手势识别装置10和手势识别服务器的计算资源和通信资源(例如网络带宽)。

本公开的一个实施例还提供一种手势识别服务器20，如图7所示，该手势识别服务器20包括第二网络通信单元210、视频解码单元220和手势识别单元230。

例如，第二网络通信单元210可以配置为接收包括手势图像数据的视频流数据以及发送手势操控命令。例如，第二网络通信单元210可以接收手势识别装置10发送过来的视频流数据，该视频流数据例如是由手势识别装置10对手势图像数据经过预处理、编码处理后获得的，即该视频流数据包括手势图像数据。

例如，第二网络通信单元210可以通过网络，例如有线网络或无线网络，接收视频流数据以及发送手势操控命令。例如，在本公开的一些实施例中，第二网络通信单元210可以具体实现为调制解调器、有线网卡、无线网卡，例如无线网卡可以和无线路由器互联，无线路由器可以和手势识别装置10互联，进而可以实现手势识别服务器20与手势识别装置10的通信。本公开的实施例对第二网络通信单元210的通信方式不作限定，只要是可以实现与手势识别装置10的通信功能即可。

例如，视频解码单元220可以配置为对视频流数据进行解码以获得手势图像数据。例如该解码获得的手势图像数据可以提供给手势识别单元230以进行手势识别。例如，视频解码单元220可以包括至少一个处理器和至少一个存储器。该存储器配置为存储有可适于处理器执行的计算机指令，且计算机指令被处理器执行时可以实施操作：对视频流数据进行解码以获得手势图像数据。

需要说明的是，手势识别装置10在对手势图像数据进行编码前如果对其进行了图像预处理(例如手部区域截取)，则在这种情形下，视频解码单元220对视频流数据进行解码后获得的是经过图像预处理后的手势图像数据，即视频帧数据。

例如，手势识别单元230可以配置为对视频解码单元220获得的手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令。例如，该手势识别单元230可以包括多种手势识别算法，例如肤色识别算法、灰度图像识别算法以及深度图像识别算法等，手势识别单元230可以采用手势识别算法对手势图像数据进行手势识别。

例如，手势识别单元230生成的手势操控命令可以通过第二网络通信单元210发送至手势识别装置10，手势识别装置10可以根据该手势操控命令执行对应的控制操作，例如暂定、播放、静音等控制操作，又例如游戏中的前进、后退等控制操作。例如，可以预先将每个手势操控命令分别设置一个对应的值例如称为手势值。例如可以将暂停的手势操控命令对应的手势值记为1，将播放的手势操控命令对应的手势值记为2，将静音的手势操控命令对应的手势值记为3等，这样在通过网络传输手势操控命令时只需要传输对应的手势值即可。采用这种配置方式，可以减少传输的数据量，也更便于手势识别装置10进行判断处理。

例如，在本公开的一些实施例中，和视频解码单元220类似，手势识别单元230也可以实现为至少一个处理器和至少一个存储器。该存储器配置为存储有可适于处理器执行的计算机指令，且计算机指令被处理器执行时可以实施操作：对手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令。需要说明的是，手势识别单元230和视频解码单元220可以通过同一个处理器和存储器实现。例如在该存储器中可以存储有多个手势操作动作与手势值的对应关系表，手势识别单元230在进行手势识别时可以通过查表生成某一个手势操作动作对应的手势值，即手势操控命令。

本公开的实施例提供的手势识别服务器20，可以在手势识别装置10不具有高性能的计算能力的情形下，将手势识别处理放在手势识别服务器20中进行，以满足实时交互的需求。

例如，如图8所示，在本公开实施例的一个示例中，手势识别服务器20还可以包括参数配置单元240。

例如，如图8所示，在包括参数配置单元240的情形下，第二网络通信单元210还可以配置为接收配置信息，以及发送配置命令。

例如，上述配置信息为手势识别装置10的配置信息，在图2中所示的手势识别装置10开始工作时，可以将手势识别装置10的配置信息发送至手势识别服务器20。

例如，第二网络通信单元210配置为接收该配置信息，手势识别单元230还可以配置为根据配置信息选择手势识别算法。例如手势识别装置10采用RGB摄像头时，相应的手势识别算法可以采用肤色识别算法或灰度图像识别算法；又例如手势识别装置10采用深度摄像头时，相应的手势识别算法可以采用深度图像识别算法。例如，参数配置单元240还可以配置为根据手势识别算法生成配置命令。例如，该配置命令可以通过第二网络通信单元210发送至手势识别装置10。

例如，采用灰度图像识别算法时，参数配置单元240生成的配置命令包括配置手势识别装置10获取灰度图像的配置命令；又例如，采用深度图像识别算法时，参数配置单元240生成的配置命令包括配置手势识别装置10获取深度图像的配置命令。

例如，参数配置单元240生成的配置命令还可以包括手势识别装置10在开始采集手势图像数据时，采用的默认的帧率和分辨率的配置命令；又例如，参数配置单元240生成的配置命令还可以包括设置推流地址的配置命令，该推流地址是手势识别装置10发送视频流数据所到达的网络地址。

例如，在本公开实施例的一个示例中，参数配置单元240还可以配置为根据手势识别单元230的手势识别结果生成配置命令。

例如，在一个示例中，上述配置命令包括根据手势识别单元230的手势识别结果生成的动态调整帧率的配置命令。例如该配置命令发送至手势识别装置10后，图像采集单元110可以根据该配置命令动态调整采集手势图像数据的帧率。例如，手势识别单元230在对手势图像数据进行手势识别时，如果连续超过一定的时间(例如3秒、5秒等)没有检测到手部轮廓，则可以向手势识别装置10发出配置命令，图像采集单元110可以根据该配置命令可以降低采集手势图像数据的帧率，例如从30帧/秒降低为10帧/秒或1帧/秒；如果手势识别单元230重新检测到了手部轮廓，则恢复采集手势图像数据的帧率，例如再恢复到30帧/秒。采用这种方式，可以节省手势识别装置10和手势识别服务器20的计算资源和通信资源(例如网络带宽)。

例如，在本公开实施例的一个示例中，手势识别单元230还可以配置为根据手势识别结果预测手部的运动轨迹。需要说明的是，手部的运动轨迹表示手部中心位置坐标连续变化形成的轨迹，以下各实施例与此相同，不再赘述。

例如，手势识别单元230在对手势图像数据进行手势识别时，可以对手部进行跟踪并利用多帧跟踪结果预测手部的运动轨迹，从而调整手部中心位置坐标和手部区域大小。手势识别服务器20可以实时的将手部中心位置坐标和手部区域大小作为配置命令发送至手势识别装置10，视频编码单元120在进行图像预处理时就可以根据这些配置命令对截取区域的位置和大小进行动态调整。

本公开的一个实施例还提供一种手势识别服务器20，如图9所示，该手势识别服务器20包括第二网络通信单元210、至少一个第二处理器250和至少一个第二存储器260。例如，多个第二处理器250可以布置为处理器集群等形式，例如分布式拼接处理器；多个第二存储器260可以布置为分布式存储器、存储器池、存储器阵列等多种形式。

例如，第二网络通信单元210配置为接收包括手势图像数据的视频流数据以及发送手势操控命令。关于第二网络通信单元210可以参考上述实施例中相应描述，这里不再赘述。

例如，第二存储器260配置为存储有可适于第二处理器250执行的计算机指令，且计算机指令被第二处理器250执行时实施如下操作：对视频流数据进行解码以获得手势图像数据；对手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令。

本公开的一个实施例还提供一种手势识别方法，如图10所示，该手势识别方法包括如下操作。

步骤S210：接收包括手势图像数据的视频流数据；

步骤S220：对视频流数据进行解码以获得手势图像数据；

步骤S230：对手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令；以及

步骤S240：发送手势操控命令。

例如，如图8所示，可以采用第二网络通信单元210执行步骤S210以接收包括手势图像数据的视频流数据。例如，该视频流数据可以是由手势识别装置10对手势图像数据经过预处理、编码处理后获得的，即该视频流数据包括手势图像数据。

例如，如图8所示，可以采用视频解码单元220执行步骤S220，对在步骤S210中获得的视频流数据进行解码以获得手势图像数据。

例如，如图8所示，可以采用手势识别单元230执行步骤S230，对在步骤S220中解码获得的手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令。

在步骤S240中，同样地，可以采用图8中所示的第二网络通信单元210发送在步骤S230中生成的手势操控命令。例如可以将该手势操控命令发送至手势识别装置10，手势识别装置10可以根据该手势操控命令执行对应的控制操作，例如暂定、播放、静音等控制操作。

需要说明的是，关于第二网络通信单元210、视频解码单元220以及手势识别单元230的描述可以参考上述关于手势识别服务器20的实施例中的相应描述，这里不再赘述。

本公开的实施例提供的手势识别方法，可以在手势识别装置10不具有高性能的计算能力的情形下，将手势识别处理放在手势识别服务器20中进行，以满足实时交互的需求。

在本公开实施例的一个示例中，如图11所示，图10中所示的手势识别方法还可以包括如下操作。

步骤S250：接收配置信息；

步骤S260：根据配置信息选择手势识别算法；

步骤S270：根据手势识别的结果或手势识别算法生成配置命令；以及

步骤S280：发送配置命令。

例如，如图8所示，手势识别服务器20在包括参数配置单元240的情形下，还可以采用第二网络通信单元210执行步骤S250，以接收配置信息。例如，上述配置信息为手势识别装置10的配置信息，在图2中所示的手势识别装置10开始工作时，可以将手势识别装置10的配置信息发送至手势识别服务器20。

例如，如图8所示，可以采用手势识别单元230执行步骤S260，手势识别单元230可以根据在步骤S250中获得的配置信息选择手势识别算法。例如手势识别装置10采用RGB摄像头时，相应的手势识别算法可以采用肤色识别算法或灰度图像识别算法；又例如手势识别装置10采用深度摄像头时，相应的手势识别算法可以采用深度图像识别算法。

例如，在步骤S270中，可以采用图8中所示的参数配置单元240根据在步骤S260中选择的手势识别算法生成配置命令。例如，采用灰度图像识别算法时，参数配置单元240生成的配置命令包括配置手势识别装置10获取灰度图像的配置命令；又例如，采用深度图像识别算法时，参数配置单元240生成的配置命令包括配置手势识别装置10获取深度图像的配置命令。

例如，在步骤S270中，参数配置单元240生成的配置命令还可以包括手势识别装置10在开始采集手势图像数据时，采用的默认的帧率和分辨率的配置命令；又例如，参数配置单元240生成的配置命令还可以包括设置推流地址的配置命令，该推流地址是手势识别装置10发送视频流数据所到达的网络地址。

例如，在步骤S270中，还可以采用图8中所示的参数配置单元240根据在步骤S230中获得的手势识别的结果生成配置命令。

例如，在一个示例中，上述配置命令包括根据步骤S230中获得的手势识别结果生成的动态调整帧率的配置命令。例如该配置命令发送至手势识别装置10后，图像采集单元110可以根据该配置命令动态调整采集手势图像数据的帧率。例如，在步骤S230中对手势图像数据进行手势识别时，如果连续超过一定的时间(例如3秒、5秒等)没有检测到手部轮廓，则可以向手势识别装置10发出配置命令，图像采集单元110可以根据该配置命令降低采集手势图像数据的帧率，例如从30帧/秒降低为10帧/秒或1帧/秒；如果在步骤S230中重新检测到了手部轮廓，则恢复采集手势图像数据的帧率，例如再恢复到30帧/秒。采用这种方式，可以节省手势识别装置10和手势识别服务器20的计算资源和通信资源(例如网络带宽)。

例如，在步骤S280中，依然可以采用图8中所示的第二网络通信单元210发送在步骤S270中生成的配置命令。

在本公开实施例的一个示例中，如图12所示，图11中所示的手势识别方法还可以包括如下操作。

步骤S290：根据手势识别结果预测手部的运动轨迹。

例如，在步骤S230中，手势识别单元230在对手势图像数据进行手势识别时，可以对手部进行跟踪并利用多帧跟踪结果预测手部的运动轨迹，从而调整手部中心位置坐标和手部区域大小。手势识别服务器20可以实时的将手部中心位置坐标和手部区域大小作为配置命令发送至手势识别装置10，视频编码单元120在进行图像预处理时就可以根据这些配置命令对截取区域的位置和大小进行动态调整。

在本公开的各实施例中，任一处理器(包括第一处理器160和第二处理器250)可以由专用集成电路芯片实现，例如该专用集成电路芯片可以设置在一个主板上，例如在该主板上还可以设置有存储器以及电源电路等；处理器也可以由电路或者采用软件、硬件(电路)、固件或其任意组合方式实现。在本公开的实施例中，处理器可以包括各种计算结构，例如复杂指令集计算机(CISC)结构、精简指令集计算机(RISC)结构或者一种实行多种指令集组合的结构。在一些实施例中，处理器也可以是微处理器，例如X86处理器或ARM处理器，或者可以是数字处理器(DSP)等。

在本公开的实施例中，存储器(包括第一存储器170和第二存储器260)例如可以设置在上述主板上，存储器可以保存处理器执行的指令和/或数据。例如，存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储器，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储器上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现本公开实施例中(由处理器实现)期望的功能。

本公开的一个实施例还提供一种手势识别***1，如图13所示，该手势识别***1包括本公开的实施例提供的任一手势识别装置10和本公开的实施例提供的任一手势识别服务器20。例如，手势识别装置10和手势识别服务器20可以通过网络进行互联通信。

需要说明的是，本公开的实施例中所描述的网络可以为各种类型的通信网络，包括但不限于局域网、广域网以及Internet互联网等；可以实现为以太网(Ethernet)、令牌网(Token Ring)、FDDI网、异步传输模式网(ATM)等；可以包括但不限于3G/4G/5G移动通信网络、无线局域网WIFI、有线通信网络等。相应地，该手势识别服务器可以实现为多种形式，包括架设于局域网内的服务器、架设于广域网内的服务器或者在架设于互联网内的服务器，例如云端服务器，此时该云服务可以由公有云供应商(典型地例如亚马逊、阿里云等)提供，或者可以由私有云方式提供。

本公开的实施例提供的手势识别***1，可以在手势识别装置10不具有高性能的计算能力的情形下，将采集并编码形成的视频流数据发送至手势识别服务器20，以将对视频流数据的手势识别处理放在具有更强计算能力的手势识别服务器中20进行。手势识别装置10接收手势识别处理获得的手势操控命令后，执行对应的控制操作以完成实时交互。该手势识别***1可以在手势识别装置10不具有高性能的计算能力的情形下，也能够满足实时交互的需求。

例如，可以将本公开的实施例中提供的手势识别装置10集成在现有的电子设备中，例如计算机、电视、数字机顶盒和IP摄像头等，以扩展现有电子设备的功能及应用场景。当然，手势识别装置10也可以单独使用，本公开的实施例对此不作限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种手势识别装置，包括图像采集单元、视频编码单元、第一网络通信单元和指令执行单元，其中，

所述图像采集单元配置为采集手势图像数据；

所述视频编码单元配置为对所述手势图像数据进行编码以形成视频流数据；

所述第一网络通信单元配置为发送所述视频流数据以及接收手势操控命令；

所述指令执行单元配置为根据所述手势操控命令执行对应的控制操作。

2.根据权利要求1所述的手势识别装置，还包括功能设置单元，其中，

所述第一网络通信单元还配置为发送所述手势识别装置的配置信息以及接收配置命令；

所述功能设置单元配置为根据所述配置命令对所述手势识别装置进行配置。

3.根据权利要求2所述的手势识别装置，其中，

所述视频编码单元还配置为对所述手势图像数据进行图像预处理；

所述视频编码单元还配置为根据所述配置命令对所述图像预处理进行动态调整；

所述图像采集单元还配置为根据所述配置命令对采集所述手势图像数据的帧率进行动态调整。

4.一种手势识别装置，包括图像采集单元、第一网络通信单元、至少一个第一处理器和至少一个第一存储器，其中，

所述图像采集单元配置为采集手势图像数据；

所述第一网络通信单元配置为发送包括所述手势图像数据的视频流数据以及接收手势操控命令；

所述第一存储器配置为存储有可适于所述第一处理器执行的计算机指令，且所述计算机指令被所述第一处理器执行时实施如下操作：

对所述手势图像数据进行编码以形成所述视频流数据；

根据所述手势操控命令执行对应的控制操作。

5.一种手势识别方法，包括：

采集手势图像数据；

对所述手势图像数据进行编码以形成视频流数据，并发送至手势识别服务器；

接收所述手势识别服务器返回的手势操控命令，并执行对应的控制操作。

6.根据权利要求5所述的手势识别方法，还包括：

将手势识别装置的配置信息发送至所述手势识别服务器；

接收所述手势识别服务器返回的配置命令，并根据所述配置命令对所述手势识别装置进行配置。

7.根据权利要求6所述的手势识别方法，还包括对所述手势图像数据进行图像预处理；其中，

所述图像预处理根据所述配置命令动态调整；

所述采集手势图像数据的帧率根据所述配置命令动态调整。

8.根据权利要求7所述的手势识别方法，其中，所述图像预处理包括对所述手势图像数据进行手部区域提取。

9.一种手势识别服务器，包括第二网络通信单元、视频解码单元和手势识别单元，其中，

所述第二网络通信单元配置为接收包括手势图像数据的视频流数据以及发送手势操控命令；

所述视频解码单元配置为对所述视频流数据进行解码以获得所述手势图像数据；

所述手势识别单元配置为对所述手势图像数据进行手势识别，并在有手势操作的情形下生成所述手势操控命令。

10.根据权利要求9所述的手势识别服务器，还包括参数配置单元，其中，

所述第二网络通信单元还配置为接收配置信息，以及发送配置命令；

所述手势识别单元还配置为根据所述配置信息选择手势识别算法；

所述参数配置单元配置为根据所述手势识别单元的手势识别结果或所述手势识别算法生成所述配置命令。

11.根据权利要求10所述的手势识别服务器，其中，所述配置命令包括根据所述手势识别结果生成的动态调整帧率的配置命令。

12.根据权利要求9-11任一所述的手势识别服务器，其中，所述手势识别单元还配置为根据所述手势识别结果预测手部的运动轨迹。

13.一种手势识别服务器，包括第二网络通信单元、至少一个第二处理器和至少一个第二存储器，其中，

所述第二存储器配置为存储有可适于所述第二处理器执行的计算机指令，且所述计算机指令被所述第二处理器执行时实施如下操作：

对所述视频流数据进行解码以获得所述手势图像数据；

对所述手势图像数据进行手势识别，并在有手势操作的情形下生成所述手势操控命令。

14.一种手势识别方法，包括：

接收包括手势图像数据的视频流数据；

对所述视频流数据进行解码以获得所述手势图像数据；

对所述手势图像数据进行手势识别，并在有手势操作的情形下生成手势操控命令；

发送所述手势操控命令。

15.根据权利要求14所述的手势识别方法，还包括：

接收配置信息；

根据所述配置信息选择手势识别算法；

根据所述手势识别的结果或所述手势识别算法生成配置命令；

发送所述配置命令。

16.根据权利要求15所述的手势识别方法，其中，所述配置命令包括根据所述手势识别的结果生成的动态调整帧率的配置命令。

17.根据权利要求14-16任一所述的手势识别方法，还包括：

根据所述手势识别结果预测手部的运动轨迹。

18.一种手势识别***，包括：权利要求1-4任一所述的手势识别装置和权利要求9-13任一所述的手势识别服务器。