CN111601129B

CN111601129B - 控制方法、装置、终端及存储介质

Info

Publication number: CN111601129B
Application number: CN202010507222.8A
Authority: CN
Inventors: 方迟; 王笑
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-04-01
Anticipated expiration: 2040-06-05
Also published as: WO2021244650A1; US20230093983A1; JP2023527906A; EP4149116A4; CN111601129A; EP4149116A1

Abstract

本公开涉及计算机技术领域，具体涉及控制方法、装置、终端及存储介质。根据本公开实施例提供的控制方法，包括：接收摄像装置捕获的图像；根据图像获取用户的第一部位的位置信息和第二部位的姿态信息；根据第一部位的位置信息确定导航标识的移动轨迹；根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制。

Description

控制方法、装置、终端及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及控制方法、装置、终端及存储介质。

背景技术

智能电视已替代传统电视被广泛使用，其可以搭载多种多样的节目和应用程序供用户选择和观看。现有的智能电视由遥控器控制，其通常只有上下左右四个方向键可以用来控制选择方向，交互效率较低，费时费力。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

根据本公开的一个或多个实施例，提供了一种控制方法，包括：

接收摄像装置捕获的图像；

根据所述图像获取用户的第一部位的位置信息和第二部位的姿态信息；

根据所述第一部位的位置信息确定导航标识的移动轨迹；

根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制。

根据本公开的一个或多个实施例，提供了一种控制装置，包括：

数据接收单元，用于接收摄像装置捕获的图像；

获取识别单元，用于根据所述图像获取用户的第一部位的位置信息和第二部位的姿态信息；

移动轨迹单元，用于根据所述第一部位的位置信息确定导航标识的移动轨迹；

控制指令单元，用于根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制。

根据本公开的一个或多个实施例，提供了一种终端，其特征在于，所述终端包括：

至少一个存储器和至少一个处理器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器所存储的程序代码以执行根据本公开的一个或多个实施例提供的控制方法。

根据本公开的一个或多个实施例，提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码用于执行本公开的一个或多个实施例提供的控制方法。

根据本公开的一个或多个实施例提供的控制方法，通过根据所述第一部位的位置信息确定导航标识的移动轨迹，并根据所述第二部位的姿态信息确定控制指令，使控制指令的确定与导航标识位置的确定相分离。一方面，控制指令的确定基于静态的姿态信息，而导航标识位置的确定基于动态的位置变化，进而可以为采用不同特性算法分别确定上述两个过程提供便利条件；另一方面，控制指令的确定与导航标识位置的确定基于用户不同的身体部位，可以使二者确定过程互不影响，尤其是第一部位的轮廓形状不随第二部位的姿态而改变，可以避免手势的变化影响导航标识的移动，从而可以提高用户指令的识别精度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1示出了根据本公开一实施例提供的控制方法的流程图；

图2示出了根据本公开实施例提供的控制方法控制远场显示设备的场景示意图；

图3示出了根据本公开另一实施例提供的控制方法的流程图；

图4示出了根据本公开的一个或多个实施例提供的控制装置的结构示意图；

图5为用来实现本公开实施例的终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

参考图1，图1示出了根据本公开一实施例提供的控制方法100的流程图，该方法100可用于包括但不限于远场显示设备的终端设备，其中，远场显示设备是指用户无法用身体部位或其他诸如触控笔等物理控制设备以直接接触的方式实现接触式控制的显示设备，包括但不限于电视、会议屏幕等电子设备。具体地，方法100包括步骤S101-步骤S104：

步骤S101：接收摄像装置捕获的图像。

其中，摄像装置可以内置或外接于终端设备，其可以将捕获到的图像数据实时发送给终端设备供终端设备进行处理。有利地，摄像装置以可以正对用户的方式设置，从而可以捕获用户对终端设备发出的肢体指令。

步骤S102：根据图像获取用户的第一部位的位置信息和第二部位的姿态信息。

其中，第一部位和第二部位是用户的身体部位，例如手、手臂等；第一部位的位置信息是指第一部位在图像中的位置，或第一部位相对于被控终端设备的位置信息；第二部位的姿态信息是指第二部位所处的形态，例如手势等。

步骤S103：根据第一部位的位置信息确定导航标识的移动轨迹。

其中，导航标识可以用来选中和控制显示界面上的视觉元素。导航标识可以用图标表示，例如Windows***的鼠标指针；导航标识还可以被隐藏，可以使视觉元素高亮或产生其他动画效果，表示该视觉元素被选中。导航标识的移动轨迹包括一个或一组移动向量，其反映导航标识移动的位移和方向。导航标识的移动轨迹由用户第一部位的位置信息决定。

步骤S104：根据第二部位的姿态信息确定控制指令，其中，控制指令用于对导航标识所指向的视觉元素进行控制导航标识。

其中，导航标识的控制指令系对被导航标识所指向的视觉元素的控制或实施的操作，包括对视觉元素的点击、轻触、长按、放大、缩小、旋转等。在一些实施例中，可以预先设置各个第二部位的姿态信息与控制指令的映射关系，从而可以根据该映射关系确定获取的第二部的姿态信息所对应的控制指令。

这样，根据本公开实施例提供的控制方法，通过根据所述第一部位的位置信息确定导航标识的移动轨迹，并根据所述第二部位的姿态信息确定控制指令，使控制指令的确定与导航标识位置的确定相分离。一方面，控制指令的确定基于静态的姿态信息，而导航标识位置的确定基于动态的位置变化，进而可以为采用不同特性算法分别确定上述两个过程提供便利条件，示例性的，控制指令的确定可以基于静态的姿态信息，而导航标识位置的确定基于动态变化的位置信息，因此针对上述两种不同的计算特性，可以采用相应特性的计算模块分别计算第一部位的位置信息和第二部位的姿态信息，从而提高信息获取的针对性，提高计算准确率和计算资源利用率；另一方面，控制指令的确定与导航标识位置的确定基于用户不同的身体部位，可以使二者确定过程互不影响，尤其是第一部位的轮廓形状不随第二部位的姿态而改变，可以避免手势的变化影响导航标识的移动，从而可以提高用户指令的识别精度。

在一些实施例中，第一部位和所述第二部位属于同一用户不同的身体部位。第一部位和第二部位二者没有包含关系，例如，当第二部位是手时，第一部位可以为手腕、手肘，而非手指。本公开实施例通过根据用户不同的身体部位分别确定导航标识的移动轨迹和控制指令，从而可以防止用户改变第一部位的位置时影响控制指令的确认或用户改变第二部位姿态时影响导航标识移动轨迹的确认。

在一些实施例中，第一部位为手腕，所述第二部位为手。在本公开实施例中，手腕可以准确且稳定的反映手势的位移，且较手指、手掌等部位受手势变化的影响较小，从而可以实现对导航标识移动的精准控制。

在一些实施例中，步骤S102进一步包括：

A1：基于第一计算模块根据所述图像获取用户的第一部位的位置信息；

A2：基于第二计算模块根据所述图像获取用户的第二部位的姿态信息。

控制指令的确定基于静态的姿态信息，而导航标识位置的确定基于动态的位置变化，因此在本实施例中，通过采用特性不同的计算模块分别计算第一部位的位置信息和第二部位的姿态信息可以提高信息获取的针对性，进而提高计算精度和计算资源利用率。

在一些实施例中，第一计算模块可以运行第一机器学习模型，第二计算模块可以运行第二机器学习模型。第一和第二机器学习模型被训练为以可靠地识别和区分用户的第一部位和第二部位。通过使用训练好的机器学习模型确定第一部位的位置信息和第二部位的姿态信息，可以提升识别精度，降低计算资源和硬件成本。

在一些实施例中，步骤S104进一步包括：

B1：若所述第二部位的姿态信息符合预设的第一姿态，则根据所述第二部位的姿态信息对所述被控元素进行控制。

其中，第一姿态可以包括一种或多种预设手型。

在一些实施例中，步骤S104进一步包括：

B2：若所述第二部位的姿态信息不符合预设的第一姿态，则不对所述被控元素进行控制。

在本公开实施例中，当第二部位的姿态信息不符合预设的第一姿态，则仅根据第一部位的位置信息移动导航器标识。

在一些实施例中，步骤S102进一步包括：

步骤C1：确定所述图像中的第一部位的关键点；

步骤C2：根据所述第一部位的关键点在所述图像中的位置确定所述第一部位的位置信息。

在一些实施例中，方法100还包括：

步骤S105：基于根据至少两帧目标图像获取的第一部位位置信息，滚动被所述导航标识指向的视觉元素。

其中，所述至少两帧目标图像的确定方法包括：

步骤D1：当所述第二部位的姿态信息符合预设的第二姿态时，将所述第二部位的姿态信息对应的图像作为目标图像；

步骤D2：从连续多个帧的所述目标图像中选取至少两帧目标图像。

在本公开实施例中，目标图像为姿态信息符合第二姿态的图像，通过当姿态信息符合第二姿态时，触发将第一部位的位置变化转化为视觉元素的滚动效果，使用户可以控制导航标识滚动视觉元素，从而提升交互效率。其中，第二姿态可以包括一种或多种预设手型。

在一些实施例中，步骤S105进一步包括：

步骤E1：根据所述至少两帧目标图像获取的第一部位的位置信息确定第一部位的运动信息；

步骤E2：根据所述第一部位的运动信息滚动所述视觉元素。

第一部位的运动信息包括以下一种或多种：第一部位的运动时间、第一部位的运动速度、第一部位的运动位移、第一部位的运动加速度。在本实施例中，通过根据位置信息确定运动信息，可以实现滚动视觉元素所需的初始参数和条件，从而确定视觉元素的相关滚动参数。

在一些实施例中，步骤E2进一步包括：

确定所述第一部位的运动信息是否满足预设的运动条件；

若是，根据所述第一部位的运动信息确定所述视觉元素的滚动方向和滚动距离。

在一些实施例中，所述第二姿态为五指伸开。滚动操作通常要求手势的移动速度较快，而在快速移动的情况下，五指伸开较其他手势更易识别，从而可以提高识别准确率。

在一些实施例中，步骤S103进一步包括：若所述第二部位的姿态信息符合预设的第三姿态，则根据所述第一部位的位置信息确定导航标识的移动轨迹。其中，第三姿态可以包括多种预设手型。在本实施例中，当第二部位的姿态信息符合预设的第三姿态时，才根据第一部位的位置信息确定导航标识的移动轨迹，例如仅基于符合预设手型的手的第一部位位置移动导航标识，可以避免用户无意地运动第一部位产生导航标识误移动。

在一些实施例中，步骤S103进一步包括：根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹。在本公开实施例中，为防止用户在挥动第一部位时不可避免地上下或左右晃动引起导航标识抖动，导航标识可以根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹，相比基于相邻两帧确定的第一部位的位置变化所确定的导航标识移动轨迹，可以减少导航标识抖动。其中，间隔的图像可以是间隔预定帧数的图像，也可以是动态调整间隔帧数的图像。示例性地，可以将第一部位的位置信息在按照时间顺序前后排列的多个帧(例如连续多个帧)中的位置变化或由该位置变化转化的导航标识坐标，拟合成一条平滑的曲线，从而根据该曲线确定导航标识的移动轨迹。

在一些实施例中，摄像装置为单独的RGB摄像头，方法100还包括颜色空间预处理步骤，该颜色空间预处理步骤对图像数据进行HSV颜色空间处理，以将图像数据的颜色空间转化为HSV颜色空间。RGB摄像头通常由三个独立的CCD传感器来获取三种彩色信号，其可以采集非常精确的彩色图像。可以提升第二部位姿态特征和第一部位关键点特征提取和识别的准确性。但是因RGB模式的图像不利于肤色分割，因而在本公开实施例中，通过进一步对摄像装置捕获的图像数据进行颜色空间预处理，将图像数据的颜色空间转化为HSV颜色空间，可以使后续的第二部位姿态特征和第一部位关键点特征的识别和提取更加准确。

在一些实施例中，第一机器学***衡预处理步骤，该二值化预处理步骤可以对图像数据进行二值化处理从而得到二值化图像数据，该白平衡预处理步骤可以对图像数据进行白平衡处理。卷积神经网络是一种输入到输出的映射，其无需准确的数学表达式即可学***衡处理可以修正图像数据的光照条件，从而使后续的第二部位姿态特征和第一部位关键点特征的识别和提取更加准确。

在一些实施例中，步骤S103进一步包括：基于第一部位的位置信息采用滤波算法和防抖算法，确定导航标识的最终移动轨迹。其中，滤波算法可以包括卡尔曼滤波算法，防抖算法可以包括移动平均法。在本公开实施例中，通过采用滤波算法和防抖算法对第一部位关键点特征的位置变化或由该位置变化确定的导航标识坐标变化进行处理，可以使导航标识的移动轨迹更加平滑流畅，防止导航标识抖动。

图2示出了根据本公开实施例提供的控制方法控制远场显示设备的场景示意图。远场显示设备100具有摄像装置110，摄像装置110被配置为可以捕获远场显示设备100前方一定区域内的图像。根据本公开的一个或多个实施例提供的控制方法，用户(未示出)在该特定区域内可以通过挥动手腕210移动该远场显示设备100显示的导航标识120，并可以通过控制手220的姿态来对导航标识120所指向的视觉元素130发出特定的控制指令。

参考图3，图3示出了根据本公开另一实施例提供的控制方法200的流程图，方法200包括步骤S201-步骤S206：

步骤S201：接收RGB摄像头捕获的图像；

步骤S202：对该图像进行HSV颜色空间预处理、二值化预处理和白平衡预处理；

步骤S203：基于卷积神经网络模型从预处理后的图像获取用户的手腕位置信息；

步骤S204：基于随机森林模型从预处理后的图像获取用户的手部姿态信息；其中，随机深林(Random forest)是一种机器学习算法，其对噪声和异常值具有很好的容忍度，不会出现过拟合，对各种各样的第二部位姿态特征的提取和识别具有较高的准确度。

步骤S205：根据获取的手腕位置信息确定导航标识的移动轨迹；

步骤S206：根据获取的手部姿态信息及其与控制指令的映射关系，确定导航标识的控制指令。控制指令用于对所述导航标识所指向的视觉元素进行控制。

针对上述控制方法，图4示出了根据本公开一实施例提供的控制装置300的结构示意图，装置300包括数据接收单元301、数据接收单元301、第一机器学习单元302、第二机器学习单元303、控制指令单元304和移动轨迹单元305，其中：

数据接收单元301，用于接收摄像装置捕获的图像；

获取单元302，用于根据所述图像获取用户的第一部位的位置信息和第二部位的姿态信息；

移动轨迹单元303，根据所述第一部位的位置信息确定导航标识的移动轨迹；

控制指令单元304，用于根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制。

这样，根据本公开实施例提供的控制装置，通过根据所述第一部位的位置信息确定导航标识的移动轨迹，并根据所述第二部位的姿态信息确定控制指令，使控制指令的确定与导航标识位置的确定相分离。一方面，控制指令的确定基于静态的姿态信息，而导航标识位置的确定基于动态的位置变化，进而可以为采用不同特性算法分别确定上述两个过程提供便利条件，示例性的，控制指令的确定可以基于静态的姿态信息，而导航标识位置的确定基于动态变化的位置信息，因此针对上述两种不同的计算特性，可以采用相应特性的计算模块分别计算第一部位的位置信息和第二部位的姿态信息，从而提高信息获取的针对性，提高计算准确率和计算资源利用率；另一方面，控制指令的确定与导航标识位置的确定基于用户不同的身体部位，可以使二者确定过程互不影响，尤其是第一部位的轮廓形状不随第二部位的姿态而改变，可以避免手势的变化影响导航标识的移动，从而可以提高用户指令的识别精度。

对于装置的实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离模块说明的模块可以是或者也可以不是分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在一些实施例中，获取单元302进一步用于基于第一计算模块根据所述图像获取用户的第一部位的位置信息，以及基于第二计算模块根据所述图像获取用户的第二部位的姿态信息。

在一些实施例中，第一计算模块运行第一机器学习模型，第二计算模块运行第二机器学习模型。第一和第二机器学习模型被训练为以可靠地识别和区分用户的第一部位和第二部位。通过使用训练好的机器学习模型确定第一部位的位置信息和第二部位的姿态信息，可以提升识别精度，降低计算资源和硬件成本。

在一些实施例中，控制指令单元304进一步用于若所述第二部位的姿态信息符合预设的第一姿态，则根据所述第二部位的姿态信息对所述被控元素进行控制。

其中，第一姿态可以包括一种或多种预设手型。

在一些实施例中，控制指令单元304进一步用于若所述第二部位的姿态信息不符合预设的第一姿态，则不对所述被控元素进行控制。

在一些实施例中，获取单元302进一步包括：

关键点确定子单元，用于确定所述图像中的第一部位的关键点；以及

位置确定子单元，用于根据所述第一部位的关键点在所述图像中的位置确定所述第一部位的位置信息。

在一些实施例中，装置300还包括滚动单元，用于基于根据至少两帧目标图像获取的第一部位位置信息，滚动被所述导航标识指向的视觉元素。

其中，滚动单元进一步包括：

目标图像确定子单元，用于当所述第二部位的姿态信息符合预设的第二姿态时，将所述第二部位的姿态信息对应的图像作为目标图像；以及

目标图像选取子单元，用于从连续多个帧的所述目标图像中选取至少两帧目标图像。

在一些实施例中，滚动单元进一步包括：

运动信息子单元，用于根据所述至少两帧目标图像获取的第一部位的位置信息确定第一部位的运动信息；

滚动子单元，用于根据所述第一部位的运动信息滚动所述视觉元素。

在一些实施例中，滚动子单元进一步用于确定所述第一部位的运动信息是否满足预设的运动条件，以及用于若确定满足预设的运动条件，则根据所述第一部位的运动信息确定所述视觉元素的滚动方向和滚动距离。

在一些实施例中，移动轨迹单元303进一步用于若所述第二部位的姿态信息符合预设的第三姿态，则根据所述第一部位的位置信息确定导航标识的移动轨迹。其中，第三姿态可以包括多种预设手型。在本实施例中，当第二部位的姿态信息符合预设的第三姿态时，才根据第一部位的位置信息确定导航标识的移动轨迹，例如仅基于符合预设手型的手的第一部位位置移动导航标识，可以避免用户无意地运动第一部位产生导航标识误移动。

在一些实施例中，移动轨迹单元303进一步用于根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹。为防止用户在挥动第一部位时不可避免地上下或左右晃动引起导航标识抖动，导航标识可以根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹，相比基于相邻两帧确定的第一部位的位置变化所确定的导航标识移动轨迹，可以减少导航标识抖动。示例性地，可以将第一部位的位置信息在连续多个帧中的位置变化或由该位置变化转化的导航标识坐标，拟合成一条平滑的曲线，从而根据该曲线确定导航标识的移动轨迹。

在一些实施例中，摄像装置为单独的RGB摄像头，装置300还包括颜色空间预处理单元，用于对图像数据进行HSV颜色空间处理，以将图像数据的颜色空间转化为HSV颜色空间。RGB摄像头通常由三个独立的CCD传感器来获取三种彩色信号，其可以采集非常精确的彩色图像。可以提升第二部位姿态特征和第一部位关键点特征提取和识别的准确性。但是因RGB模式的图像不利于肤色分割，因而在本公开实施例中，通过进一步对摄像装置捕获的图像数据进行颜色空间预处理，将图像数据的颜色空间转化为HSV颜色空间，可以使后续的第二部位姿态特征和第一部位关键点特征的识别和提取更加准确。

在一些实施例中，第一机器学***衡预处理单元，用于对图像进行二值化处理和白平衡处理。卷积神经网络是一种输入到输出的映射，其无需准确的数学表达式即可学***衡处理可以修正图像数据的光照条件，从而使后续的第二部位姿态特征和第一部位关键点特征的识别和提取更加准确。

在一些实施例中，移动轨迹单元303进一步用于基于第一部位的位置信息采用滤波算法和防抖算法，确定导航标识的最终移动轨迹。其中，滤波算法可以包括卡尔曼滤波算法，防抖算法可以包括移动平均法。在本公开实施例中，通过采用滤波算法和防抖算法对第一部位关键点特征的位置变化或由该位置变化确定的导航标识坐标变化进行处理，可以使导航标识的移动轨迹更加平滑流畅，防止导航标识抖动。

相应地，根据本公开的一个或多个实施例，提供了一种终端设备，包括：

至少一个存储器和至少一个处理器；

其中，存储器用于存储程序代码，处理器用于调用存储器所存储的程序代码以执行根据本公开一个或多个实施例提供的传输私密信息的方法。

相应地，根据本公开的一个或多个实施例，提供了一种非暂态计算机存储介质，非暂态计算机存储介质存储有程序代码，程序代码用于执行根据本公开一个或多个实施例提供的传输私密信息的方法。

下面参考图5，其示出了适于用来实现本公开实施例的终端设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如智能电视、台式计算机等等的固定终端。图5示出的终端设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，终端设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有终端设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许终端设备800与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的终端设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述终端设备中所包含的；也可以是单独存在，而未装配入该终端设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该终端设备执行时，使得该终端设备：接收摄像装置捕获的图像；根据图像获取用户的第一部位的位置信息和第二部位的姿态信息；根据第一部位的位置信息确定导航标识的移动轨迹；以及根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该终端设备执行时，使得该终端设备：接收摄像装置捕获的图像；根据图像获取用户的第一部位的位置信息和第二部位的姿态信息；根据第一部位的位置信息确定导航标识的移动轨迹；以及根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种控制方法，包括：接收摄像装置捕获的图像；根据图像获取用户的第一部位的位置信息和第二部位的姿态信息；根据第一部位的位置信息确定导航标识的移动轨迹；根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制。

根据本公开的一个或多个实施例，第一部位和第二部位属于同一用户不同的身体部位。

根据本公开的一个或多个实施例，第一部位为手腕，第二部位为手。

根据本公开的一个或多个实施例，根据图像获取用户的第一部位的位置信息和第二部位的姿态信息，包括：基于第一计算模块根据图像获取用户的第一部位的位置信息；基于第二计算模块根据图像获取用户的第二部位的姿态信息。

根据本公开的一个或多个实施例，第一计算模块运行第一机器学习模型，第二计算模块运行第二机器学习模型。

根据本公开的一个或多个实施例，根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制，包括：若第二部位的姿态信息符合预设的第一姿态，则根据第二部位的姿态信息对视觉元素进行控制。

根据本公开的一个或多个实施例，根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制，包括：若第二部位的姿态信息不符合预设的第一姿态，则不对视觉元素进行控制。

根据本公开的一个或多个实施例，根据图像获取用户的第一部位的位置信息，包括：确定图像中的第一部位的关键点；根据第一部位的关键点在图像中的位置确定第一部位的位置信息。

根据本公开的一个或多个实施例提供的控制方法还包括：基于根据至少两帧目标图像获取的第一部位的位置信息，滚动被导航标识指向的视觉元素；其中，至少两帧目标图像的确定方法包括：当第二部位的姿态信息符合预设的第二姿态时，将第二部位的姿态信息对应的图像作为目标图像；从连续多个帧的目标图像中选取至少两帧目标图像。

根据本公开的一个或多个实施例，基于根据至少两帧目标图像获取的第一部位的位置信息，滚动被导航标识指向的视觉元素，包括：根据至少两帧目标图像获取的第一部位的位置信息确定第一部位的运动信息；根据第一部位的运动信息滚动视觉元素。

根据本公开的一个或多个实施例，第一部位的运动信息包括以下一种或多种：第一部位的运动时间、第一部位的运动速度、第一部位的运动位移、第一部位的运动加速度。

根据本公开的一个或多个实施例，根据第一部位的运动信息滚动视觉元素，包括：确定第一部位的运动信息是否满足预设的运动条件；若是，根据第一部位的运动信息确定视觉元素的滚动方向和滚动距离。

根据本公开的一个或多个实施例，第二姿态为五指伸开。

根据本公开的一个或多个实施例，根据第一部位的位置信息确定导航标识的移动轨迹，包括：若第二部位的姿态信息符合预设的第三姿态，则根据第一部位的位置信息确定导航标识的移动轨迹。

根据本公开的一个或多个实施例，根据第一部位的位置信息确定导航标识的移动轨迹，包括：根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹。

根据本公开的一个或多个实施例，摄像装置为单独的RGB摄像头；控制方法还包括：对图像进行HSV颜色空间预处理，以将图像的颜色空间转化为HSV颜色空间。

根据本公开的一个或多个实施例，第一机器学***衡预处理。

根据本公开的一个或多个实施例，根据第一部位的位置信息确定导航标识的移动轨迹，包括：基于第一部位的位置信息采用滤波算法和防抖算法，确定导航标识的最终移动轨迹。

根据本公开的一个或多个实施例，提供了一种控制装置，包括：数据接收单元，用于接收摄像装置捕获的图像；获取识别单元，用于根据图像获取用户的第一部位的位置信息和第二部位的姿态信息；移动轨迹单元，用于根据第一部位的位置信息确定导航标识的移动轨迹；以及控制指令单元，用于根据第二部位的姿态信息确定控制指令，控制指令用于对导航标识所指向的视觉元素进行控制。

根据本公开的一个或多个实施例，提供了一种终端，终端包括：至少一个存储器和至少一个处理器；其中，存储器用于存储程序代码，处理器用于调用存储器所存储的程序代码以执行根据本公开的一个或多个实施例提供的控制方法。

根据本公开的一个或多个实施例，提供了一种计算机存储介质，计算机存储介质存储有程序代码，程序代码用于执行根据本公开的一个或多个实施例提供的控制方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种控制方法，其特征在于，包括：

接收摄像装置捕获的图像；

根据所述第一部位的位置信息确定导航标识的移动轨迹；

根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制；

其中，所述第一部位和所述第二部位属于不同的身体部位，所述第一部位和所述第二部位之间没有包含关系，所述第一部位的位置变化能够反映所述第二部位的位置变化。

2.如权利要求1所述的控制方法，其特征在于，所述第一部位和所述第二部位属于同一用户不同的身体部位。

3.如权利要求2所述的控制方法，其特征在于，所述第一部位为手腕，所述第二部位为手。

4.如权利要求1所述的控制方法，其特征在于，所述根据所述图像获取用户的第一部位的位置信息和第二部位的姿态信息，包括：

基于第一计算模块根据所述图像获取用户的第一部位的位置信息；

基于第二计算模块根据所述图像获取用户的第二部位的姿态信息。

5.如权利要求4所述的控制方法，其特征在于，

所述第一计算模块用于运行第一机器学习模型，所述第二计算模块用于运行第二机器学习模型。

6.如权利要求1所述的控制方法，其特征在于，所述根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制，包括：

若所述第二部位的姿态信息符合预设的第一姿态，则根据所述第二部位的姿态信息对所述视觉元素进行控制。

7.如权利要求6所述的控制方法，其特征在于，所述根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制，包括：

若所述第二部位的姿态信息不符合预设的第一姿态，则不对所述视觉元素进行控制。

8.如权利要求1所述的控制方法，其特征在于，根据所述图像获取用户的第一部位的位置信息，包括：

确定所述图像中的第一部位的关键点；

根据所述第一部位的关键点在所述图像中的位置确定所述第一部位的位置信息。

9.如权利要求1所述的控制方法，其特征在于，还包括：

基于根据至少两帧目标图像获取的第一部位的位置信息，滚动被所述导航标识指向的视觉元素；

其中，所述至少两帧目标图像的确定方法包括：

当所述第二部位的姿态信息符合预设的第二姿态时，将所述第二部位的姿态信息对应的图像作为目标图像；

从连续多个帧的所述目标图像中选取至少两帧目标图像。

10.如权利要求9所述的控制方法，其特征在于，所述基于根据至少两帧目标图像获取的第一部位的位置信息，滚动被所述导航标识指向的视觉元素，包括：

根据所述至少两帧目标图像获取的第一部位的位置信息确定第一部位的运动信息；

根据所述第一部位的运动信息滚动所述视觉元素。

11.如权利要求10所述的控制方法，其特征在于，所述第一部位的运动信息包括以下一种或多种：第一部位的运动时间、第一部位的运动速度、第一部位的运动位移、第一部位的运动加速度。

12.如权利要求10所述的控制方法，其特征在于，所述根据所述第一部位的运动信息滚动所述视觉元素，包括：

确定所述第一部位的运动信息是否满足预设的运动条件；

13.如权利要求9所述的控制方法，其特征在于，所述第二姿态为五指伸开。

14.如权利要求1所述的控制方法，其特征在于，根据所述第一部位的位置信息确定导航标识的移动轨迹，包括：

若所述第二部位的姿态信息符合预设的第三姿态，则根据所述第一部位的位置信息确定导航标识的移动轨迹。

15.如权利要求1所述的控制方法，其特征在于，所述根据所述第一部位的位置信息确定导航标识的移动轨迹，包括：

根据从间隔的图像获取的第一部位的位置信息确定导航标识的移动轨迹。

16.如权利要求1所述的控制方法，其特征在于，

所述摄像装置为单独的RGB摄像头；

所述控制方法还包括：对所述图像进行HSV颜色空间预处理，以将所述图像的颜色空间转化为HSV颜色空间。

17.如权利要求5所述的控制方法，其特征在于，

所述第一机器学习模型为卷积神经网络模型；

所述控制方法还包括：对所述图像进行二值化预处理和白平衡预处理。

18.如权利要求1所述的控制方法，其特征在于，所述根据所述第一部位的位置信息确定导航标识的移动轨迹，包括：

基于所述第一部位的位置信息采用滤波算法和防抖算法，确定所述导航标识的最终移动轨迹。

19.一种控制装置，其特征在于，包括：

数据接收单元，用于接收摄像装置捕获的图像；

控制指令单元，用于根据所述第二部位的姿态信息确定控制指令，所述控制指令用于对所述导航标识所指向的视觉元素进行控制；

20.一种控制终端，其特征在于，所述控制终端包括：

至少一个存储器和至少一个处理器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器所存储的程序代码以执行权利要求1至18中任一项所述的控制方法。

21.一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序代码，所述程序代码被处理器执行时实现权利要求1至18中任一项所述的控制方法。