CN116311526A - 图像区域确定方法、装置、电子设备及存储介质 - Google Patents

图像区域确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116311526A
CN116311526A CN202310295271.3A CN202310295271A CN116311526A CN 116311526 A CN116311526 A CN 116311526A CN 202310295271 A CN202310295271 A CN 202310295271A CN 116311526 A CN116311526 A CN 116311526A
Authority
CN
China
Prior art keywords
gesture
operation area
determining
region
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310295271.3A
Other languages
English (en)
Inventor
刘永康
贺宇
李召
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xingtong Technology Co ltd
Original Assignee
Shenzhen Xingtong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xingtong Technology Co ltd filed Critical Shenzhen Xingtong Technology Co ltd
Priority to CN202310295271.3A priority Critical patent/CN116311526A/zh
Publication of CN116311526A publication Critical patent/CN116311526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供一种图像区域确定方法、装置、电子设备及存储介质,其中,方法包括:获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;确定至少一个候选操作区域,并提取各候选操作区域的候选操作区域特征信息;根据有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。本公开实施例能够结合具体执行手势操作时手势特征信息,来确定手势操作的具体操作区域,在保证操作区域识别精确度的情况下,提升了操作区域的确定的实用性和灵活度。

Description

图像区域确定方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种图像区域确定方法、装置、电子设备及存储介质。
背景技术
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,基于手势操作进行有关场景中的控制交互越发普遍。
相关技术中,在有关人机交互场景中,预先设置每个标准手势动作对应的预设交互事件,将获取到的手势动作与预设的标准手势动作进行匹配,将匹配成功的标准手势动作对应的预设事件作为当前手势动作对应的交互事件,比如,将匹配成功的标准手势动作对应的预设操作区域作为当前手势动作对应的操作区域。
然而这种预先设置标准手势动作及其对应的预设操作区域的方式,可以识别到的手势动作有限,要求用户的操作手势较为固定,而实际操作情况下用户的手势操作习惯多变,因此,影响操作区域确定的准确性。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种图像区域确定方法、装置、电子设备及存储介质,能够结合具体执行手势操作时手势特征信息,来确定手势操作的具体操作区域,在保证操作区域识别精确度的情况下,提升了操作区域的确定的实用性和灵活度。
根据本公开的一方面,提供了一种图像区域确定方法,包括:获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;确定至少一个候选操作区域,并提取各所述候选操作区域的候选操作区域特征信息;根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
根据本公开的另一方面,提供了一种图像区域确定装置,包括:第一提取模块,用于获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;第二提取模块,用于确定至少一个候选操作区域,并提取各所述候选操作区域的候选操作区域特征信息;确定模块,用于根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述图像区域确定方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述图像区域确定方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
获取包含手势操作的目标图像,提取目标图像的有效手势特征信息,确定至少一个候选操作区域,并提取各候选操作区域的候选操作区域特征信息,进而,根据有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。由此,本公开实施例能够结合具体执行手势操作时手势特征信息,来确定手势操作的具体操作区域,在保证操作区域识别精确度的情况下,提升了操作区域的确定的实用性和灵活度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开示例性实施例的一种图像区域的识别场景示意图;
图2示出了根据本公开示例性实施例的另一种图像区域的识别场景示意图;
图3示出了根据本公开示例性实施例的一种图像区域的确定方法的流程示意图;
图4示出了根据本公开示例性实施例的另一种图像区域的确定方法的流程示意图;
图5示出了根据本公开示例性实施例的一种图像区域的确定装置的示意性框图;
图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了解决上述技术问题,本公开提出了一种图像区域确定方法,在该方法中,不再以预设标准手势的匹配等预设的固定规则进行操作区域的确定,而是结合具体执行手势操作时手势特征信息,来确定手势操作的具体操作区域,因此,在保证操作区域识别精确度的情况下,提升了操作区域的确定的实用性和灵活度。
另外,本公开实施例中的操作区域可以为任意操作对象中的某个可以进行交互的区域,比如,可以当操作对象为文档时,则如图1所示,操作区域可以为文档中文字区域等,从而,识别到该文字区域后可以进行文字识别的交互等;比如,当操作对象为操作界面时,如图2所示,操作区域可以为操作界面中任意一个可交互的操作控件区域,从而,识别该控件区域可以进行控件功能的执行等。
以下参照附图描述本公开的图像区域确定方法、装置、电子设备及存储介质。
图3是根据本公开一个实施例的图像区域确定方法的流程图,如图3所示,该方法包括:
步骤301,获取包含手势操作的目标图像,提取目标图像的有效手势特征信息。
其中,目标图像是用户在对待识别对象执行手势操作时的图像,其中,待识别对象可以是任意包含多个操作区域的对象,包括但不限于上述实施例中提到的文档、操作界面等。
在本公开的一个实施例中,为了避免误识别,并不直接提取所有手势操作的手势特征信息,而是识别有效手势特征信息,即先确定手势操作为有效操作手势之后,才进一步提取有效手势特征信息,其中,在不同的应用场景中,有效操作手势不同,比如,有效操作手势为预设操作手指对应的有效操作手势,比如,有效操作手势还对应于操作手指为预设有效操作手指,即仅仅识别还可以根据目标图像识别操作手指,比如,识别当前操作的手指为“右手食指”等,在确定操作手势属于预设操作手势后,确定手势操作的手指属于预设有效手指后才根据目标图像识别有效手势特征信息,其中,预设有效手势可以是***标定的,也可以是用户根据个人习惯设置的等。
其中,有效手势特征信息包括以下至少一种:手势对应的手指名称、手指个数、指尖位置、手指关节位置、手指方向、指尖间距、手指关节位置之间的位置关系等任意在特征维度表示手势操作的信息。
在一些可能的实施例中,在确定操作手势后,可以将目标图像输入到预先训练的深度识别模型,其中,该手势识别模型可包含有效手势识别模块、手势特征提取模块,其中,有效手势识别模块,用于判断当前手势操作是否是有效操作手势,在实际执行过程中,该有效手势识别模块可包括有效手势检测子模块、手分类子模块等,其中,有效手势检测子模块用于识别当前操作手势是否为预设有效操作手势,手分类子模块,用于检测当前操作手指是否为预设有效操作手指等,另外,上述提到的手势特征提取模块同样使用深度学习的方法,利用深度卷积网络进行有效手势特征信息的提取。例如:可以将对应手指的四个手指关节的手指关节位置作为有效手势特征信息输出。
在本实施例中,以二维图像为识别基础进行有效手势特征信息的识别,操作简单且成本不高。
步骤302,确定至少一个候选操作区域,并提取各候选操作区域的候选操作区域特征信息。
在本公开的一个实施例中,初步根据目标图像确定候选操作区域,该候选操作区域指的是有可能手势操作对应的交互区域。
需要说明的是,在不同的应用场景中,根据目标图像确定候选操作区域的方式不同,示例如下:
在一些可能的示例中,根据目标图像,确定至少一个第一操作区域,其中,第一操作区域可以理解为目标图像中包含的待识别对象的所有可能被交互的操作区域,在一些可能的示例中,识别目标图像中包含的至少一个第二操作区域,比如,通过预先训练的深度学习模型对目标图像进行区域分割检测,以确定目标图像中包含的至少一个第二操作区域。比如,当目标图像为文档时,则基于区域分割检测可以确定文档中包含的文本区域、图表区域等作为第二操作区域。
进一步地,为了提高后续目标操作区域确定的精确度,还进一步对第二候选操作区域进行区域筛选,确定满足预设筛选条件的至少一个第二候选操作区域为至少一个第一操作区域。
在一些可选的实施例中,确定每个第二操作区域的区域置信度,其中,区域置信度越高表示对应的第二操作区域,越有可能是手势操作对应的目标操作区域,其中,区域置信度可以根据历史操作数据中,每个第二操作区域确定为目标操作区域的次数确定,或者,第二操作区域可以根据每个第二操作区域的区域类型与待识别对象的对象类型的匹配度来确定等,比如,在待识别对象为文档时,则区域类型为图标类型与文档的匹配度显然小于区域类型为文档类型与文档的匹配度,从而,图标类型的区域置信度小于文档类型的区域置信度等。
在确定了区域置信度后,在本实施例中,确定区域置信度大于预设置信度阈值的至少一个第二操作区域为至少一个第一操作区域。其中,区域置信度可以根据实验数据标定。
在确定了第一操作区域后,根据有效手势特征信息进一步对第一操作区域筛选以得到候选操作区域。
在一些可选的实施例中,根据指尖位置和/或手指方向,确定区域相对位置特征信息,确定与区域相对位置特征信息匹配的第一操作区域特征信息对应的第一操作区域,为候选操作区域。其中,第一操作区域特征信息与区域相对位置特征信息对应,该第一操作区域特征信息包括但不限于区域坐标信息、区域轮廓形状信息,或者是:识别每个候选操作区域的至少一个区域关键点的坐标信息作为第一操作区域特征信息,其中,区域关键点可以为第一操作区域的最边缘的四个坐标点,即确定第一操作区域最边缘的四个坐标点后,生成四个坐标点的最小矩形包围框作为第一区域特征信息等。比如,区域关键点可以是在第一操作区域中随机取样的多个采样点,确定多个采样点的坐标信息作为第一区域特征信息等。
其中,在一些可能的示例中,根据所述指尖位置和/或手指方向,确定区域相对位置特征信息,其中,当仅仅根据指间位置确定区域相对位置特征信息时,第一操作区域特征信息为第一操作区域的中心点、或者第一操作区域的区域边缘上的任意一个点,也可以为第一操作区域的区域边缘上距离手势关键点最近的一个点等的第二坐标信息。
在本实施例中,根据手指指间的第一坐标信息和第二坐标信息来确定每个第一操作区域与手势关键点的相对位置信息,其中,该相对位置信息包括距离信息、方位信息中的一种或多种,进而,确定与所述区域相对位置特征信息匹配的第一操作区域特征信息对应的第一操作区域为所述候选操作区域。即在本实施例中,考虑到手指关键点和想要操作的操作区域具有一定的相对位置关联关系,因此,基于每个第一操作区域与手指关键点的相对位置信息筛选出可能属于目标操作区域的候选操作区域。
其中,在不同的应用场景下,上述预设相对位置信息不同,在一些可选的实施例中,第一操作区域特征信息为对应的每个第一操作区域的区域中心点的第二坐标信息,则通常用户在手势操作时,目标操作区域不可能位于指间点的下侧,因此,预设的相对位置关系为手指指间的第一坐标信息,与每个第一操作区域的区域中心点的第二坐标信息之间,第一坐标信息位于第二坐标信息的下方,即第一坐标信息对应的纵坐标值要小于第二坐标信息的纵坐标值,若是第一坐标信息对应的纵坐标值要小于第二坐标信息的纵坐标值,则认为对应的第二候选操作区域为满足预设相对位置的候选操作区域。
在一些可选的实施例中,第一操作区域特征信息为对应的每个第一操作区域的区域边缘上,距离手势关键点最近的一个点的第二坐标信息,则考虑到通常在实际手势操作场景下,操作手指指间距离目标操作区域不会太远,因此,在本实施例中,预设的相对位置信息为操作手指指间与每个第一操作区域的区域边缘上,距离手势关键点最近的一个点的距离小于预设像素阈值,在本实施例中,确定第一坐标信息与第二坐标信息的最近距离,确定最近距离是否小于预设像素阈值,若是小于预设像素阈值,则将对应的每个第一操作区域作为满足预设相对位置的候选操作区域。
在一些可能的实施例中,可根据手指方向确定相对位置特征信息,第一操作区域特征信息为第一操作区域与手指方向的方向夹角等,则在本实施例中,相对位置信息与第一操作区域特征信息对应,为与第一操作区域的方向夹角等,则确定每个第一操作区域和手指方向的方向夹角,确定方向夹角小于预设夹角阈值的第一操作区域为候选操作区域。
当然,上述根据指间位置和根据手指方向确定候选操作区域的实施例之间可以单独执行,也可以结合执行,共同来确定第一操作区域中的候选操作区域等。
步骤303,根据有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
在本公开的一个实施例中,在确定至少一个候选操作区域后,确定每个候选操作区域的区域特征信息,以便于后续在特征维度进行目标操作区域的确定。
在本公开的一个实施例中,结合手势特征信息和区域特征信息,在至少一个候选操作区域中,确定手势操作对应的目标操作区域。该目标操作区域的确定过程:一方面,不再依赖于手势动作与标准手势动作的匹配,可对多种手势动作进行基于特征维度的识别,提升了手势操作的灵活性;另一方面,结合手势特征信息和区域特征信息进行目标区域的确定,不但考虑到手势特征,还考虑到了区域特征维度,二者的结合考虑进一步提升了目标操作区域的确定精确度。
进一步的,在确定了手势操作对应的目标操作区域后,执行目标操作区域对应的交互事件,比如,在文档识别场景下,确定目标操作区域的文字信息进行文字识别等。
需要说明的是,在不同的应用场景下,根据手势特征信息和区域特征信息,在至少一个候选操作区域中,确定手势操作对应的目标操作区域的方式不同,示例如下:
在一些可能的示例中,如图4所示,根据有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域,包括:
步骤401,根据有效手势特征信息和候选操作区域特征信息获取特征向量,其中,
特征向量包括以下至少一种:每个候选操作区域的多个区域边缘点的边缘点坐标向量、有效手势特征信息对应的指间坐标向量、指间坐标向量分别与多个区域边缘点组成的多个边缘线的多个边缘距离向量、多个边缘距离向量中每两个边缘距离信息的距离比值向量。
在本公开的一个实施例中,根据手势特征信息和候选区域特征信息获取特征向量,比如,预先训练生成特征提取模型,将手势特征信息和区域特征信息输入该特征提取模型以得到特征向量等。其中,候选区域特征向量可以为在任意维度描述候选操作区域的特征信息。
在一些可能的实施例中,根据有效手势操作特征信息和候选操作区域特征信息来获取特征向量,其中,该特征向量可以包括以下至少之一:手势特征向量(比如,手势是什么动作等、手势状态手指关键点坐标等手势位置)、每个候选操作区域的区域特征向量(例如,上述提到的候选操作区域的最小包围框的坐标位置、候选操作区域的中心点坐标等)、手势特征信息与每个候选操作区域的关联特征向量(关联特征向量可以为以下至少之一:例如,手势特征信息:操作手指的指尖点,分别与候选操作区域的最小包围框的上边沿、下边沿、左边沿、右边沿的交点的坐标位置信息;例如,手势特征信息:指尖点,分别与候选操作区域的最小包围框的上边沿、下边沿、左边沿、右边沿的交点的距离;例如,手势特征信息:指尖点,分别与候选操作区域的最小包围框的上边沿、下边沿、左边沿、右边沿的交点的方向向量;例如,同时将指尖点的指间坐标向量在候选操作区域的中最小包围框中上下左右边沿的距离比例,比如,指尖点的指间坐标向量在候选操作区域的中最小包围框中上边沿的距离与下边沿的距离比例、比如,指尖点的指间坐标向量在候选操作区域的中最小包围框中左边沿的距离与右边沿的距离比例等)。
需要强调的是,当上述特征向量,包括手势特征信息与每个候选操作区域的关联特征向量时,则在确定目标操作区域时,还考虑操作手指与候选操作区域的关联关系,进一步保证了目标操作区域的确定精确度。
例如,手势特征信息包括操作手指的指间坐标信息,每个候选操作区域的候选区域特征向量,包括:每个候选操作区域的多个区域边缘点的边缘点坐标信息,比如,可以为上述提到的每个候选操作区域对应的最小包围框的四个边缘线上距离操作指间最近的四个边缘点坐标信息,或者是每个候选操作区域对应的每个边缘线上距离操作指间最近的边缘点坐标信息等,则手势特征信息与每个候选操作区域的关联特征向量,包括:指间坐标信息分别与多个区域边缘点组成的多个边缘线的多个边缘距离信息、多个边缘距离信息中每两个边缘距离信息的距离比值信息等。例如,指间坐标信息分别与多个区域边缘点组成的多个边缘线的多个边缘距离信息为:分别与候选操作区域的最小包围框的上边沿、下边沿、左边沿、右边沿的交点的方向向量,多个边缘距离信息中每两个边缘距离信息的距离比值信息为:指尖点在候选操作区域的中最小包围框中左边沿的距离与右边沿的距离比例等。
步骤402,将特征向量输入预先训练的区域选择模型,根据区域选择模型的模型输出结果确定目标操作区域。
在本公开的一个实施例中,预先可以根据回归树(例如,梯度提升决策树算法(Gradient Boosting Decision Tree,GBTD))训练等算法,根据样本数据训练得到区域选择模型,将特征向量输入预先训练的区域选择模型,根据区域选择模型的模型输出结果确定目标操作区域,比如,若是区域选择模型输出的是每个候选操作区域属于目标操作区域的概率值,则将概率值最大的候选操作区域作为目标操作区域等。
由此,在本公开实施例中,基于手势操作以及待识别对象上对应候选操作区域的多种与目标操作区域的确定相关的特征维度,来确定目标操作区域,不再受限于具体的手势动作的识别来确定目标操作区域,且考虑手势操作与相关候选操作区域在特征维度的关联性,进行目标区域的确定,提升了目标区域的确定灵活性和准确性,且以二维的目标图像进行识别,识别成本较低,可操作性较强。
综上,本公开实施例的图像区域确定方法,获取包含手势操作的目标图像,提取目标图像的有效手势特征信息,确定至少一个候选操作区域,并提取各候选操作区域的候选操作区域特征信息,进而,根据有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。由此,本公开实施例能够结合具体执行手势操作时手势特征信息,来确定手势操作的具体操作区域,在保证操作区域识别精确度的情况下,提升了操作区域的确定的实用性和灵活度。
为了实现上述实施例,本公开还提出了一种图像区域的确定装置。
参考图5,示出了根据本公开示例性实施例的图像区域的确定装置的示意性框图,如图5所示,该装置包括:第一提取模块510、第二提取模块520、确定模块530,其中,
第一提取模块510,用于获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;
第二提取模块520,用于确定至少一个候选操作区域,并提取各所述候选操作区域的候选操作区域特征信息;
确定模块530,用于根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
一种可选的实施方式中,还包括:有效手势特征信息确定模块,用于:
提取所述目标图像的手势特征信息,所述手势特征信息包括以下信息中的至少一种:手势对应的手指名称、手指个数、指尖位置、手指关节位置、手指方向、指尖间距;
利用手识别模型基于所述手势特征信息,确定有效手势特征信息。
一种可选的实施方式中,第二提取模块520,具体用于:
根据所述目标图像,确定至少一个第一操作区域;
根据有效手势特征信息中的指尖位置和/或手指方向,以及所述至少一个第一操作区域对应的第一操作区域特征信息,得到所述候选操作区域。
一种可选的实施方式中,第二提取模块520,具体用于:
根据目标图像,确定至少一个第二操作区域;
对置信度低于第一预设值的至少一个所述第二操作区域进行过滤,获得至少一个第一操作区域。
一种可选的实施方式中,第二提取模块520,具体用于:
根据所述指尖位置和/或手指方向,确定区域相对位置特征信息;
确定与所述区域相对位置特征信息匹配的第一操作区域特征信息对应的第一操作区域,为所述候选操作区域。
一种可选的实施方式中,所述区域相对位置特征信息包括:与手势关键点的距离信息,和/或,与所述手势关键点的方位信息,其中,所述手势关键点包括以下至少一种:所述指间位置对应的指间关键点、所述手指方向上所述目标图像中的图像关键点。
一种可选的实施方式中,确定模块530,具体用于:
根据所述有效手势特征信息和所述候选操作区域特征信息获取特征向量,其中,
所述特征向量包括以下至少一种:每个所述候选操作区域的多个区域边缘点的边缘点坐标向量、所述有效手势特征信息对应的指间坐标向量、所述指间坐标向量分别与所述多个区域边缘点组成的多个边缘线的多个边缘距离向量、所述多个边缘距离向量中每两个边缘距离信息的距离比值向量;
将所述特征向量输入预先训练的区域选择模型,根据所述区域选择模型的模型输出结果确定所述目标操作区域。
本公开实施例所提供的手势操作区域的识别装置,可执行本公开实施例所提供的任意可应用于电脑、智能手机、服务器等电子设备的手势操作区域的识别方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元606加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元6606可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,手势操作区域的识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元606。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像区域确定方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (10)

1.一种图像区域确定方法,其特征在于,包括:
获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;
确定至少一个候选操作区域,并提取各所述候选操作区域的候选操作区域特征信息;
根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述目标图像的手势特征信息,所述手势特征信息包括以下信息中的至少一种:手势对应的手指名称、手指个数、指尖位置、手指关节位置、手指方向、指尖间距;
利用手识别模型基于所述手势特征信息,确定有效手势特征信息。
3.如权利要求1所述的方法,其特征在于,所述确定至少一个候选操作区域,包括:
根据所述目标图像,确定至少一个第一操作区域;
根据有效手势特征信息中的指尖位置和/或手指方向,以及所述至少一个第一操作区域对应的第一操作区域特征信息,得到所述候选操作区域。
4.如权利要求3所述的方法,其特征在于,根据所述目标图像,确定至少一个第一操作区域,包括:
根据目标图像,确定至少一个第二操作区域;
对置信度低于第一预设值的至少一个所述第二操作区域进行过滤,获得至少一个第一操作区域。
5.如权利要求3或4所述的方法,其特征在于,所述根据有效手势特征信息中的指尖位置和/或手指方向,以及所述至少一个第一操作区域对应的第一操作区域特征信息,得到所述候选操作区域,包括:
根据所述指尖位置和/或手指方向,确定区域相对位置特征信息;
确定与所述区域相对位置特征信息匹配的第一操作区域特征信息对应的第一操作区域,为所述候选操作区域。
6.如权利要求5所述的方法,其特征在于,
所述区域相对位置特征信息包括:与手势关键点的距离信息,和/或,与所述手势关键点的方位信息,其中,所述手势关键点包括以下至少一种:所述指间位置对应的指间关键点、所述手指方向上所述目标图像中的图像关键点。
7.如权利要求5所述的方法,其特征在于,所述根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域,包括:
根据所述有效手势特征信息和所述候选操作区域特征信息获取特征向量,其中,
所述特征向量包括以下至少一种:每个所述候选操作区域的多个区域边缘点的边缘点坐标向量、所述有效手势特征信息对应的指间坐标向量、所述指间坐标向量分别与所述多个区域边缘点组成的多个边缘线的多个边缘距离向量、所述多个边缘距离向量中每两个边缘距离信息的距离比值向量;
将所述特征向量输入预先训练的区域选择模型,根据所述区域选择模型的模型输出结果确定所述目标操作区域。
8.一种图像区域的确定装置,其特征在于,包括:
第一提取模块,用于获取包含手势操作的目标图像,提取目标图像的有效手势特征信息;
第二提取模块,用于确定至少一个候选操作区域,并提取各所述候选操作区域的候选操作区域特征信息;
确定模块,用于根据所述有效手势特征信息和至少一个候选操作区域特征信息,确定目标操作区域。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
CN202310295271.3A 2023-03-22 2023-03-22 图像区域确定方法、装置、电子设备及存储介质 Pending CN116311526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310295271.3A CN116311526A (zh) 2023-03-22 2023-03-22 图像区域确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310295271.3A CN116311526A (zh) 2023-03-22 2023-03-22 图像区域确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116311526A true CN116311526A (zh) 2023-06-23

Family

ID=86825512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310295271.3A Pending CN116311526A (zh) 2023-03-22 2023-03-22 图像区域确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116311526A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556781A (zh) * 2024-01-12 2024-02-13 杭州行芯科技有限公司 一种目标图形的确定方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556781A (zh) * 2024-01-12 2024-02-13 杭州行芯科技有限公司 一种目标图形的确定方法、装置、电子设备及存储介质
CN117556781B (zh) * 2024-01-12 2024-05-24 杭州行芯科技有限公司 一种目标图形的确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106484266B (zh) 一种文本处理方法及装置
Lahiani et al. Real time hand gesture recognition system for android devices
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN112990204B (zh) 目标检测方法、装置、电子设备及存储介质
US8965051B2 (en) Method and apparatus for providing hand detection
CN113313083B (zh) 文本检测方法及装置
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices
CN116311526A (zh) 图像区域确定方法、装置、电子设备及存储介质
CN111492407B (zh) 用于绘图美化的***和方法
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
US9342152B2 (en) Signal processing device and signal processing method
CN111598128A (zh) 用户界面的控件状态识别、控制方法、装置、设备及介质
US20170085784A1 (en) Method for image capturing and an electronic device using the method
US20140285426A1 (en) Signal processing device and signal processing method
CN114495173A (zh) 一种姿态识别方法、装置、电子设备及计算机可读介质
KR20190132885A (ko) 영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램
CN114821560B (zh) 文本识别方法和装置
CN112101368B (zh) 一种字符图像处理方法、装置、设备和介质
CN118053202A (zh) 指尖检测方法、装置、电子设备及存储介质
US12046019B2 (en) Surface automation in black box environments
CN116704614B (zh) 动作识别方法、装置、电子设备和存储介质
CN117079321A (zh) 一种人脸属性的识别方法、装置、电子设备及存储介质
CN117392754A (zh) 一种指读方法、装置、电子设备以及存储介质
CN114049638A (zh) 图像处理方法、装置、电子设备及存储介质
US10474886B2 (en) Motion input system, motion input method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination