CN114756115A - 交互控制方法、装置及设备 - Google Patents

交互控制方法、装置及设备 Download PDF

Info

Publication number
CN114756115A
CN114756115A CN202011581403.1A CN202011581403A CN114756115A CN 114756115 A CN114756115 A CN 114756115A CN 202011581403 A CN202011581403 A CN 202011581403A CN 114756115 A CN114756115 A CN 114756115A
Authority
CN
China
Prior art keywords
image data
feature
data
feature extraction
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011581403.1A
Other languages
English (en)
Inventor
邵柏韬
刘宝龙
古鉴
叶孝璐
杜杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011581403.1A priority Critical patent/CN114756115A/zh
Publication of CN114756115A publication Critical patent/CN114756115A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种针对智能设备的交互控制方法、装置及设备。获取设备所处场景的图像数据;对图像数据进行特征提取,得到能够表征图像数据的一种或多种尺度的特征提取结果的特征数据;基于特征数据,识别场景中用户的肢体动作;以及控制设备执行与肢体动作的识别结果对应的操作。由此,无论用户距离设备是近还是远,图像中需要识别的肢体部分(如手部)在图像中的占比是大还是小,均能够得到较好的肢体动作识别结果。

Description

交互控制方法、装置及设备
技术领域
本公开涉及交互领域,特别是涉及一种针对智能设备的交互控制方法、装置及设备。
背景技术
随着科技的发展和人们生活水平的提高,各种类型的智能设备正越来越多地进入千家万户。
为了凸显智能设备的智能性,强大的交互能力是智能设备的必备特质。
在为智能设备配置交互能力时,不仅需要考虑用户的便利性,还需要考虑智能设备的处理性能以及实际交互过程中可能遇到的问题。
以智能电视为例,用户与电视交互的距离不固定,为了使得智能电视支持用户在距智能电视不同位置处与智能电视交互,在为智能电视配置交互能力时,需要考虑不同距离对交互算法的影响,以使交互算法支持用户在距智能电视不同位置处与智能电视交互。
因此,如何针对智能设备提供一种行之有效的交互控制方案,是目前亟需解决的一个问题。
发明内容
本公开要解决的一个技术问题是提供一种行之有效的交互控制方案。
根据本公开的第一个方面,提供了一种交互控制方法,包括:获取设备所处场景的图像数据;对图像数据进行特征提取,得到能够表征图像数据在一种或多种尺度下的特征提取结果的特征数据;基于特征数据,识别场景中用户的肢体动作;以及控制设备执行与肢体动作的识别结果对应的操作。
根据本公开的第二个方面,提供了一种交互控制装置,包括:获取模块,用于获取设备所处场景的图像数据;特征提取模块,用于对图像数据进行特征提取,得到能够表征图像数据在一种或多种尺度下的特征提取结果的特征数据;识别模块,用于基于特征数据,识别场景中用户的肢体动作;以及控制模块,用于控制设备执行与肢体动作的识别结果对应的操作。
根据本公开的第三个方面,提供了一种智能设备,包括:图像采集模块,用于采集图像数据;处理器,用于对图像数据进行特征提取,得到能够表征图像数据在一种或多种尺度下的特征提取结果的特征数据,基于特征数据,识别场景中用户的肢体动作,并控制设备执行与肢体动作的识别结果对应的操作。
根据本公开的第四个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面的方法。
根据本公开的第五个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面的方法。
由此,本公开通过获取设备所处场景的图像数据,对图像数据进行特征提取得到能够表征图像数据的一种或多种尺度的特征提取结果的特征数据,基于特征数据识别场景中用户的肢体动作,并控制设备执行与肢体动作的识别结果对应的操作,使得用户可以通过做出肢体动作与设备进行交互。并且,由于本公开是基于能够表征图像数据的一种或多种尺度的特征提取结果的特征数据来识别用户的肢体动作,使得无论用户距离设备是近还是远,图像中需要识别的肢体(如手部)在图像中的占比是大还是小,均能够得到较好的肢体动作识别结果。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的交互控制方法的示意性流程图。
图2示出了根据本公开一个实施例的特征提取流程示意图。
图3示出了用户通过手势与设备进行交互的方法实现流程示意图
图4示出了图3所示方法的算法实现原理示意图。
图5示出了根据本公开一个实施例的交互控制装置的结构示意图。
图6示出了根据本公开一个实施例的智能设备的结构示意图。
图7示出了根据本公开一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了根据本公开一个实施例的交互控制方法的示意性流程图。图1所示方法可以由设备执行,即设备可以通过执行图1所示方法为用户提供基于动作的交互服务。其中,设备可以是但不限于智能厨具、智能冰箱、智能洗衣机、智能集成灶、智能开关等物联网设备。作为示例,设备可以是指同时具备图像采集功能和图像数据处理功能的设备。
物联网设备,也即接入物联网的设备。物联网(The Internet of Things,简称IOT)是指通过各种信息传感器、射频识别技术、全球定位***、红外感应器、激光扫描器等各种装置与技术,实时采集任何需要监控、连接、互动的物体或过程,采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息,通过各类可能的网络接入,实现物与物、物与人的泛在连接,实现对物品和过程的智能化感知、识别和管理。
参见图1,在步骤S110,获取设备所处场景的图像数据。
所获取的图像数据可以是通过对设备所处场景进行(实时)图像采集得到的图像数据,如视频流数据。设备所处场景可以是指设备附近的空间区域,或者在设备特定方向(如设备屏幕正前方)上的空间区域。
作为示例,图像数据可以是指设备所处场景中与用户活动范围对应的场景部分的图像数据。即,可以通过对设备所处场景中与用户活动范围对应的场景部分进行成像,得到图像数据。在设备具有图像采集功能的情况下,可以由设备(如安装在设备中的摄像头)采集图像数据。
在步骤S120,对图像数据进行特征提取,得到能够表征图像数据的一种或多种尺度的特征提取结果的特征数据。
为了使用户无论在远处还是在近处均能通过动作与设备进行交互,本公开提出,可以通过对图像数据进行特征提取,得到能够表征图像数据的一种或多种尺度的特征提取结果的特征数据。
“尺度”是指对图像数据进行特征提取得到的特征提取结果的尺度。在特征工程技术领域,对图像数据进行特征提取得到的特征提取结果可以视为一个特征矩阵。特征矩阵中的每个元素可以表征一个单位尺寸,整个特征矩阵可以视为一个特征图(feature map),特征提取结果的尺度可以用特征图的大小表征。即,特征提取结果的尺度可以理解为特征提取结果所对应的特征矩阵(或特征图)的尺寸大小。如果将特征矩阵中的每个元素视为一个像素,那么也尺度也可以称为分辨率。
尺度较大的特征提取结果可以是通过对图像数据进行浅层特征提取得到的能够更好地表征图像数据中的细节信息的特征提取结果,如可以是指图像数据经卷积神经网络中在前的一个或多个卷积核进行卷积得到的尺度较大的特征图;相应地,尺度较小的特征提取结果可以是通过对图像数据进行深层特征提取得到的能够更好地表征图像数据的语义信息的特征提取结果,如可以是指图像数据经卷积神经网络中在后的一个或多个卷积核进行卷积得到的尺度较小的特征图。
本公开通过得到能够表征图像数据的一种或多种尺度的特征提取结果的特征数据,使得无论用户距离设备是近还是远,图像数据中需要识别的目标对象(用户肢体部分,如用户手部)在图像数据中的占比是大还是小,所得到的特征数据均能至少表征目标对象的部分特征,同时还可以表征图像数据中更为高级的语义特征。由此,特征数据是同时兼顾了精准性和鲁棒性的特征数据。
在执行步骤S120之前,可以检测用户与设备间的距离,或分析图像数据中需要识别的目标对象在图像数据中的占比是否超过第一阈值,若用户与设备间的距离小于第二阈值,或目标对象在图像数据中的占比大于第一阈值,则可以按照正常的特征提取方式(如利用卷积神经网络的特征提取方式)对图像数据进行特征提取,这种情况下提取得到的特征数据可以视为用于表征图像数据的一种尺度(该尺度一般是一个小尺度)的特征提取结果的特征数据(如最终得到的特征图)。若用户与设备间的距离大于第二阈值,或目标对象在图像数据中的占比小于第一阈值,则可以对图像数据进行多尺度特征提取,得到能够表征图像数据的多种尺度的特征提取结果的特征数据。
在得到图像数据后,也可以直接执行步骤S120,对图像数据进行特征提取,得到能够表征图像数据的多种尺度的特征提取结果的特征数据。
作为示例,可以使用卷积神经网络组件对图像数据进行特征提取,得到图像数据的多种尺度的特征提取结果,然后基于多种尺度的特征提取结果,得到特征数据。卷积神经网络组件可以使用多个卷积核对图像数据进行多层次卷积,得到多种尺度的特征提取结果(特征图),利用卷积神经网络对图像数据进行特征提取的技术为本领域成熟技术,此处不再赘述。
考虑到设备的计算能力有限,为了尽可能降低对设备的性能消耗,可以对卷积神经网络组件进行压缩处理和/或剪枝处理和/或网络量化处理,以尽可能设计超轻量网络结构的卷积神经网络组件,并使用处理后的卷积神经网络组件对图像数据进行特征提取。
在基于多种尺度的特征提取结果得到特征数据时,可以有选择性地从所有尺度的特征提取结果中选取若干个不同尺度的特征提取结果,如可以选择尺度排名靠前(尺度相对较大)的一个或多个特征提取结果以及尺度排名靠后(尺度相对较小)的一个多个特征提取结果,并基于选择的特征提取结果得到特征数据。也可以基于所有尺度的特征提取结果得到特征数据。
基于特征提取结果得到特征数据的过程,可以视为将多种尺度的特征提取结果进行合并以得到特征数据的过程。具体可以采用多种合并方式得到特征数据。例如,可以将不同尺度的特征提取结果进行拼接得到特征数据。再例如,也可以对多种尺度的特征提取结果进行上采样和/或下采样,以将多种尺度的特征提取结果转换为多个同一尺度的特征提取结果,然后将转换后的多个同一尺度的特征提取结果进行叠加,得到特征数据。
对多种尺度的特征提取结果进行上采样和/或下采样,可以是指从多种尺度中选取一个特征提取结果(如可以是尺度最大的特征提取结果),以该选取的特征提取结果的尺度为基准尺度,针对其他特征提取结果,根据其他特征提取结果的尺度与基准尺度之间的大小关系,对其他特征提取结果进行上采样或下采样,以将其他特征提取结果转换为基准尺度的特征提取结果。
对多种尺度的特征提取结果进行上采样和/或下采样,也可以是指预先设置一个标准尺度,针对每种尺度的特征提取结果,根据该特征提取结果的尺度与标准尺度之间的大小关系,对该特征提取结果进行上采样或下采样,以将该特征提取结果转换为标准尺度的特征提取结果。
特征提取结果可以视为一个特征矩阵,对特征提取结果进行上采样或下采样以将该特征提取结果转换为其他尺度的特征提取结果,可以是指对特征提取结果所表征的特征矩阵中的元素进行上采样和/或下采样,通过将特征矩阵转换为其他尺度的特征矩阵,实现将特征提取结果转换为其他尺度的特征提取结果。其中,上采样是用于将特征提取结果从当前尺度转换为大于当前尺度的其他尺度,下采样是用于将特征提取结果从当前尺度转换为小于当前尺度的其他尺度。
以将3×3尺度的特征矩阵(即特征提取结果)通过上采样转换为9×9尺度的特征矩阵为例,可以对特征矩阵中的每个元素进行上采样,将每个元素转换为一个3×3小矩阵,进而得到9×9尺度的特征矩阵,其中3×3小矩阵中的所有元素值可以相同,为用于上采样的元素值。其中,上采样还可以有其他实现方式,对此本公开不再赘述。
以将9×9尺度的特征矩阵(即特征提取结果)通过下采样转换为3×3尺度的特征矩阵为例,可以对特征矩阵中的多个元素(如3×3小矩阵中的元素)进行下采样,将这多个元素转换为一个元素(如可以计算这多个元素的均值的方式将这多个元素转换为一个元素),从而得到3×3尺度的特征矩阵。其中,下采样还可以有其他实现方式,对此本公开不再赘述。
图2示出了根据本公开一个实施例的特征提取流程示意图。
如图2所示,对于单个视频帧,可以使用卷积神经网络对视频帧进行多层卷积,得到多种不同尺度的特征图,如特征图1、特征图2…特征图n。其中,特征图1、特征图2…特征图n的尺度可以依次递减。
可以以特征图1的尺度为基准尺度,将特征图2…特征图n转换为基准尺度的特征图。然后将转换后的特征图进行叠加(即相加),以得到能够表征多种尺度的特征图的特征数据。
在步骤S130,基于特征数据,识别场景中用户的肢体动作。
可以将特征数据输入预先训练好的识别模型,由识别模型根据特征数据识别场景中用户的肢体动作。识别场景中用户的肢体动作,也即识别图像数据中用户的肢体动作。
为了支持用户使用动态的肢体动作(如画圈圈的手势动作、“挥手+点赞”的动作组合)与设备进行交互,本公开提出,获取的图像数据可以包括多帧连续图像中的至少两帧,可以将图像数据中各帧图像的特征数据进行融合,得到时序特征数据,将时序特征数据输入预先训练好的识别模型,得到识别模型输出的肢体动作的识别结果。时序特征数据是指在能够表征各帧图像数据本身具有的特征的基础上,还能够表征各帧图像数据本身具有的特征在时序上的关联关系的特征数据。
在将图像数据中各帧图像的特征数据进行融合得到时序特征数据时,需要考虑各帧图像的时间维度特征,对各帧图像数据的特征数据进行时序特征融合,得到时序特征数据。例如,可以使用3D卷积神经网络的方式对各帧图像数据的特征数据进行时序特征融合,得到时序特征数据。
然而,考虑到设备的计算能力有限,为了尽可能降低对设备的性能消耗,本公开提出,可以使用二维空间卷积组件以二维空间维度对图像数据中各帧图像的特征数据进行卷积,得到第一卷积结果;并使用一维时域卷积组件以一维时域维度对图像数据中各帧图像的特征数据进行卷积,得到第二卷积结果;然后基于第一卷积结果和二卷积结果,得到时序特征数据,如可以将第一卷积结果和二卷积结果进行拼接,得到时序特征数据。由此,与现有的2D卷积相比,相当于只多了一层一维时域卷积的步骤,使得在实现与3D卷积类似的效果的同时,可以大大降低算法工作量。
作为示例,可以将时序特征数据输入预先训练好的识别模型,得到识别模型输出的肢体动作的识别结果。由于时序特征数据来源于多帧图像(如多帧连续图像),使得识别模型可以被训练为支持对“在空中画圈圈”、“挥手+点赞”等动态肢体动作的识别。
为了使得识别模型能够达到速度与精度的平衡,本公开提出,识别模型可以包括第一神经网络分支组件和第二神经网络分支组件,第一神经网络分支组件用于将图像数据中各帧图像的特征数据进行融合得到时序特征数据,第二神经网络分支组件用于检测图像数据中用户的关键点运动轨迹,识别模型可以基于第一神经网络分支组件得到的时序特征以及第二神经网络分支组件得到的关键点运动轨迹检测结果,识别用户的肢体动作。
第一神经网络分支组件可以提供基于RGB时序序列的视频识别方案,第二神经网络分支组件可以提供如基于heatmap(热图)的关键点检测方案。由此,可以结合基于RGB时序序列的视频识别方案和关键点检测方案的优势,达到速度与精度的平衡。其中,关键点检测方案也可以由其他肢体动作检测、分类、姿态评估等方案替代。
以本公开用于支持用户通过手势与设备进行交互为例,第二神经网络分支组件可以具体用于检测手部关键点,识别模型可以具体用于识别用户的手势位置和手势类别。其中,第二神经网络分支组件可以根据手部关键点与人体其他部位之间的关联关系,检测图像数据中手部关键点的位置。
在步骤S140,控制设备执行与肢体动作的识别结果对应的操作。
可以预先设置一个或多个支持交互功能的肢体动作(为了便于区分,可以称为第一肢体动作),每个第一肢体动作对应一种交互操作。第一肢体动作可以包括但不限于挥手、在空中画圈圈等静态或动态的肢体动作。作为示例,可以将“挥手”这一肢体动作对应的交互操作设置为唤醒设备,如此用户通过挥手即可唤醒设备,唤醒成功后设备处于待命状态,等候人下一步的其他指令,并做出相应的回应。
在基于步骤S130得到场景中用户的肢体动作的识别结果后,可以基于肢体动作的识别结果判断是否存在与识别出的肢体动作匹配的第一肢体动作,若判定存在匹配的第一肢体动作,则控制设备执行与该第一肢体动作对应的交互操作。
图3示出了用户通过手势与设备进行交互的方法实现流程示意图
图4示出了图3所示方法的算法实现原理示意图。
图3、图4所示方法步骤可以用于智能音箱带屏系列产品、家电类智能设备、智能手机等设备,特别可以适用于计算能力有限的IoT(物联网)设备。下面结合图3、图4就用户通过手势与设备进行交互的实现流程进行示例性说明。
参见图3,在步骤S310,对设备进行初始化。如可以对设备的相机角度、分辨率、位置等进行设定。
在步骤S320,视频流获取。通过初始化,可以确保设备能够获取当前相机设置下的视频流,作为数据处理的输入。
在步骤S330,视频特征提取。
可以利用卷积神经网络组件实现基础特征的提取(对应于图1中的步骤S120、图4中的多尺度特征提取)。
卷积神经网络组件的作用在于对输入图像进行高维、抽象视觉特征提取。卷积神经网络组件可以将网络不同输出尺度的特征图进行融合,从而获得更精确、鲁棒的卷积特征(对应于上文述及的特征数据)。卷积神经网络组件可以采用经过设计的超轻量网络结构,并且可以进行必要的结构调整及压缩、剪枝及低比特量化,以使其适用于IoT设备。
在步骤S340,手势动作提取。
可以采用基于RGB时序序列的视频识别为主框架(对应于图4中的第一神经网络分支)、heatmap分支为辅框架(对应于图4中的第二神经网络分支)的识别模型。
对于由步骤S330提取得到的连续采样帧的特征数据,主框架可以使上文述及的时序特征数据的获取方式,对连续采样帧的特征数据进行时序特征融合,得到时序特征数据。
同时针对特定手势的识别,可以使用heatmap分支对指尖关键点进行多任务学***衡。
在步骤S350,手势动作定位与分类。通过上述两个神经网络分支,可以同时得到人手的位置和类别信息。
在步骤S360,根据手势动作定位与分类的结果,可以判断判断用户做出的动作是否挥手。如果识别结果为挥手,则可以执行步骤S370,对设备进行控制/唤醒。如果识别结果不是挥手,则可以返回步骤S320继续对获取的视频流进行挥手识别。
从造价角度,本公开天然适配普通RGB相机,不依赖深度传感器、雷达等特殊硬件,即可为用户提供基于肢体动作的设备交互控制服务,一处开发、处处适配,成本低廉、可扩展性强。
从算力角度,本公开设计上特别考量了IoT设备低存储、低计算能力的特点,进行了必要的结构调整及压缩、剪枝及低比特量化,对终端算力要求很低,不仅可应用于电脑、智能手机等算力较好的终端设备、也特别适用于智能音箱、智能厨具等算力较低的IoT边缘端设备,因此,应用范围来看,本公开可扩展性强。
本公开的交互控制方法还可以实现为一种交互控制装置。图5示出了根据本公开一个实施例的交互控制装置的结构示意图。图5所示的交互控制装置可以设置在设备端。交互控制装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图5所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就交互控制装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图5,交互控制装置500包括获取模块510、特征提取模块520、识别模块530以及控制模块540。
获取模块510用于获取设备所处场景的图像数据。特征提取模块520用于对图像数据进行特征提取,得到能够表征图像数据在一种或多种尺度下的特征提取结果的特征数据。识别模块530用于基于特征数据,识别场景中用户的肢体动作。控制模块540用于控制设备执行与肢体动作的识别结果对应的操作。
作为示例,特征提取模块520可以使用卷积神经网络组件对图像数据进行特征提取,得到图像数据的多种尺度的特征提取结果;基于多种尺度的特征提取结果,得到特征数据。
可选地,特征提取模块520可以对多种尺度的特征提取结果进行上采样和/或下采样,以将多种尺度的特征提取结果转换为多个同一尺度的特征提取结果;将转换后的多个同一尺度的特征提取结果进行叠加,得到特征数据。
可选地,交互控制装置500还可以包括处理模块,用于对卷积神经网络组件进行压缩处理和/或剪枝处理和/或网络量化处理,特征提取模块520可以使用经过处理后的卷积神经网络组件对图像数据进行特征提取。
作为示例,图像数据包括多帧连续图像中的至少两帧,识别模块530可以具体用于将图像数据中各帧图像的特征数据进行融合,得到时序特征数据,并将时序特征数据输入预先训练好的识别模型,得到识别模型输出的肢体动作的识别结果。
可选地,识别模块530可以具体用于使用二维空间卷积组件以二维空间维度对图像数据中各帧图像的特征数据进行卷积,得到第一卷积结果;使用一维时域卷积组件以一维时域维度对图像数据中各帧图像的特征数据进行卷积,得到第二卷积结果;基于第一卷积结果和二卷积结果,得到时序特征数据。
识别模型可以包括第一神经网络分支组件和第二神经网络分支组件,第一神经网络分支组件用于将图像数据中各帧图像的特征数据进行融合得到时序特征数据,第二神经网络分支组件用于检测图像数据中用户的关键点运动轨迹,识别模型用于基于第一神经网络分支组件得到的时序特征以及第二神经网络分支组件得到的关键点运动轨迹检测结果,识别用户的肢体动作。
作为示例,交互控制装置500还可以包括设置模块,用于预先设置一个或多个第一肢体动作,每个第一肢体动作对一种交互操作。控制模块540可以具体用于基于肢体动作的识别结果判断是否存在与识别出的肢体动作匹配的第一肢体动作,若判定存在匹配的第一肢体动作,则控制设备执行与第一肢体动作对应的交互操作。
图6示出了根据本公开一个实施例的智能设备的结构示意图。下面就智能设备可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图6,智能设备600可以包括图像采集模块610和处理器620。其中,图像采集模块610可以是普通的RGB相机,如分辨率在640*480以上(含640*480)的RGB相机。
图像采集模块610用于采集图像数据。处理器620用于对图像数据进行特征提取,得到能够表征图像数据在一种或多种尺度下的特征提取结果的特征数据,基于特征数据,识别场景中用户的肢体动作,并控制智能设备执行与肢体动作的识别结果对应的操作。
作为示例,处理器620可以使用卷积神经网络组件对图像数据进行特征提取,得到图像数据的多种尺度的特征提取结果;基于多种尺度的特征提取结果,得到特征数据。
可选地,处理器620可以对多种尺度的特征提取结果进行上采样和/或下采样,以将多种尺度的特征提取结果转换为多个同一尺度的特征提取结果;将转换后的多个同一尺度的特征提取结果进行叠加,得到特征数据。
可选地,处理器620还可以对卷积神经网络组件进行压缩处理和/或剪枝处理和/或网络量化处理,并使用经过处理后的卷积神经网络组件对图像数据进行特征提取。
作为示例,图像数据包括多帧连续图像中的至少两帧,处理器620可以具体用于将图像数据中各帧图像的特征数据进行融合,得到时序特征数据,并将时序特征数据输入预先训练好的识别模型,得到识别模型输出的肢体动作的识别结果。
可选地,处理器620可以具体用于使用二维空间卷积组件以二维空间维度对图像数据中各帧图像的特征数据进行卷积,得到第一卷积结果;使用一维时域卷积组件以一维时域维度对图像数据中各帧图像的特征数据进行卷积,得到第二卷积结果;基于第一卷积结果和二卷积结果,得到时序特征数据。
识别模型可以包括第一神经网络分支组件和第二神经网络分支组件,第一神经网络分支组件用于将图像数据中各帧图像的特征数据进行融合得到时序特征数据,第二神经网络分支组件用于检测图像数据中用户的关键点运动轨迹,识别模型用于基于第一神经网络分支组件得到的时序特征以及第二神经网络分支组件得到的关键点运动轨迹检测结果,识别用户的肢体动作。
作为示例,处理器620还可以预先设置一个或多个第一肢体动作,每个第一肢体动作对一种交互操作。处理器620可以具体用于基于肢体动作的识别结果判断是否存在与识别出的肢体动作匹配的第一肢体动作,若判定存在匹配的第一肢体动作,则控制智能设备执行与第一肢体动作对应的交互操作。
图7示出了根据本公开一实施例可用于实现上述交互控制方法的计算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器710可以包括各种类型的存储单元,例如***内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器710上存储有可执行代码,当可执行代码被处理器720处理时,可以使处理器720执行上文述及的交互控制方法。
上文中已经参考附图详细描述了根据本公开的交互控制方法、装置及设备。
此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本公开的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本公开的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (15)

1.一种交互控制方法,包括:
获取设备所处场景的图像数据;
对所述图像数据进行特征提取,得到能够表征所述图像数据的一种或多种尺度的特征提取结果的特征数据;
基于所述特征数据,识别所述场景中用户的肢体动作;以及
控制所述设备执行与所述肢体动作的识别结果对应的操作。
2.根据权利要求1所述的方法,其中,对所述图像数据进行特征提取的步骤包括:
使用卷积神经网络组件对所述图像数据进行特征提取,得到所述图像数据的多种尺度的特征提取结果;
基于所述多种尺度的特征提取结果,得到所述特征数据。
3.根据权利要2所述的方法,其中,基于所述多种尺度的特征提取结果得到所述特征数据的步骤包括:
对所述多种尺度的特征提取结果进行上采样和/或下采样,以将所述多种尺度的特征提取结果转换为多个同一尺度的特征提取结果;
将转换后的多个同一尺度的特征提取结果进行叠加,得到所述特征数据。
4.根据权利要求2所述的方法,还包括:
对所述卷积神经网络组件进行压缩处理和/或剪枝处理和/或网络量化处理,其中,使用卷积神经网络组件对所述图像数据进行特征提取的步骤包括:使用经过处理后的卷积神经网络组件对所述图像数据进行特征提取。
5.根据权利要求1所述的方法,其中,所述图像数据包括多帧连续图像中的至少两帧,基于所述特征数据识别所述场景中用户的肢体动作的步骤包括:
将所述图像数据中各帧图像的特征数据进行融合,得到时序特征数据;
将所述时序特征数据输入预先训练好的识别模型,得到所述识别模型输出的肢体动作的识别结果。
6.根据权利要求5所述的方法,其中,将所述图像数据中各帧图像的特征数据进行融合的步骤包括:
使用二维空间卷积组件以二维空间维度对所述图像数据中各帧图像的特征数据进行卷积,得到第一卷积结果;
使用一维时域卷积组件以一维时域维度对所述图像数据中各帧图像的特征数据进行卷积,得到第二卷积结果;
基于所述第一卷积结果和所述二卷积结果,得到所述时序特征数据。
7.根据权利要求5所述的方法,其中,所述识别模型包括第一神经网络分支组件和第二神经网络分支组件,
所述第一神经网络分支组件用于将所述图像数据中各帧图像的特征数据进行融合得到时序特征数据,
所述第二神经网络分支组件用于检测所述图像数据中用户的关键点运动轨迹,
所述识别模型用于基于所述第一神经网络分支组件得到的时序特征以及所述第二神经网络分支组件得到的关键点运动轨迹检测结果,识别用户的肢体动作。
8.根据权利要求7所述的方法,其中,
所述第二神经网络分支组件具体用于检测手部关键点,所述识别模型具体用于识别用户的手势位置和手势类别。
9.根据权利要求1所述的方法,还包括:预先设置一个或多个第一肢体动作,每个所述第一肢体动作对一种交互操作,其中,控制所述设备执行与所述肢体动作的识别结果对应的操作的步骤包括:
基于所述肢体动作的识别结果判断是否存在与识别出的肢体动作匹配的第一肢体动作;
若判定存在匹配的第一肢体动作,则控制所述设备执行与所述第一肢体动作对应的交互操作。
10.根据权利要求1所述的方法,其中,所述设备包括以下至少一项:智能电视;智能厨具;智能冰箱;智能洗衣机;智能集成灶;智能开关。
11.一种交互控制装置,包括:
获取模块,用于获取设备所处场景的图像数据;
特征提取模块,用于对所述图像数据进行特征提取,得到能够表征所述图像数据在一种或多种尺度下的特征提取结果的特征数据;
识别模块,用于基于所述特征数据,识别所述场景中用户的肢体动作;以及
控制模块,用于控制所述设备执行与所述肢体动作的识别结果对应的操作。
12.一种智能设备,包括:
图像采集模块,用于采集图像数据;
处理器,用于对所述图像数据进行特征提取,得到能够表征所述图像数据在一种或多种尺度下的特征提取结果的特征数据,基于所述特征数据,识别所述场景中用户的肢体动作,并控制所述智能设备执行与所述肢体动作的识别结果对应的操作。
13.根据权利要求12所述的智能家电设备,其中,所述智能家电设备包括以下至少一项:智能电视;智能厨具;智能冰箱;智能洗衣机;智能集成灶;智能开关。
14.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至10中任何一项所述的方法。
15.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至10中任何一项所述的方法。
CN202011581403.1A 2020-12-28 2020-12-28 交互控制方法、装置及设备 Pending CN114756115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581403.1A CN114756115A (zh) 2020-12-28 2020-12-28 交互控制方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581403.1A CN114756115A (zh) 2020-12-28 2020-12-28 交互控制方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114756115A true CN114756115A (zh) 2022-07-15

Family

ID=82324574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581403.1A Pending CN114756115A (zh) 2020-12-28 2020-12-28 交互控制方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114756115A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690000A (zh) * 2023-09-27 2024-03-12 中科迈航信息技术有限公司 一种基于人工智能的物联网数据交互方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547172A (zh) * 2010-12-22 2012-07-04 康佳集团股份有限公司 一种遥控电视机
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN109961005A (zh) * 2019-01-28 2019-07-02 山东大学 一种基于二维卷积网络的动态手势识别方法及***
CN110866489A (zh) * 2019-11-07 2020-03-06 腾讯科技(深圳)有限公司 图像识别方法、装置、设备及存储介质
US20200110928A1 (en) * 2018-10-09 2020-04-09 Midea Group Co., Ltd. System and method for controlling appliances using motion gestures
US20200387698A1 (en) * 2018-07-10 2020-12-10 Tencent Technology (Shenzhen) Company Limited Hand key point recognition model training method, hand key point recognition method and device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547172A (zh) * 2010-12-22 2012-07-04 康佳集团股份有限公司 一种遥控电视机
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
US20200387698A1 (en) * 2018-07-10 2020-12-10 Tencent Technology (Shenzhen) Company Limited Hand key point recognition model training method, hand key point recognition method and device
US20200110928A1 (en) * 2018-10-09 2020-04-09 Midea Group Co., Ltd. System and method for controlling appliances using motion gestures
CN109961005A (zh) * 2019-01-28 2019-07-02 山东大学 一种基于二维卷积网络的动态手势识别方法及***
CN110866489A (zh) * 2019-11-07 2020-03-06 腾讯科技(深圳)有限公司 图像识别方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690000A (zh) * 2023-09-27 2024-03-12 中科迈航信息技术有限公司 一种基于人工智能的物联网数据交互方法及***

Similar Documents

Publication Publication Date Title
US9965865B1 (en) Image data segmentation using depth data
CN105096377B (zh) 一种图像处理方法和装置
CN113095124B (zh) 一种人脸活体检测方法、装置以及电子设备
CN108256404B (zh) 行人检测方法和装置
US9875427B2 (en) Method for object localization and pose estimation for an object of interest
CN108009466B (zh) 行人检测方法和装置
CA2784554C (en) Head recognition method
KR102557561B1 (ko) 이미지의 깊이 정보를 결정하는 방법 및 시스템
US20160140384A1 (en) Gesture recognition method and gesture recognition apparatus using the same
WO2018076182A1 (zh) 一种图像拍摄方法及装置
Coşar et al. Human Re-identification with a robot thermal camera using entropy-based sampling
WO2012051747A1 (en) Method and apparatus for providing hand detection
US20220270262A1 (en) Adapted scanning window in image frame of sensor for object detection
CN111797670A (zh) 用于确定手是否与车辆的手动转向元件协作的方法和装置
CN112487844A (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
CN108875506B (zh) 人脸形状点跟踪方法、装置和***及存储介质
CN113838092A (zh) 一种行人跟踪方法及***
JP6103765B2 (ja) 行動認識装置、方法及びプログラム並びに認識器構築装置
CN114756115A (zh) 交互控制方法、装置及设备
CN107886093B (zh) 一种字符检测方法、***、设备及计算机存储介质
Monisha et al. A real-time embedded system for human action recognition using template matching
CN115993927A (zh) 基于手势识别的屏幕显示方法、装置、设备及存储介质
Jayanthi et al. Vision based Hand gesture pattern recognition enabled home automation system using Internet of Things
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
CN113553877B (zh) 深度手势识别方法及其***和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination