CN112115791A - 图像识别方法、装置、电子设备和计算机可读存储介质 - Google Patents

图像识别方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112115791A
CN112115791A CN202010833673.0A CN202010833673A CN112115791A CN 112115791 A CN112115791 A CN 112115791A CN 202010833673 A CN202010833673 A CN 202010833673A CN 112115791 A CN112115791 A CN 112115791A
Authority
CN
China
Prior art keywords
image
target
recognition
dynamic
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010833673.0A
Other languages
English (en)
Inventor
林航东
张法朝
唐剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202010833673.0A priority Critical patent/CN112115791A/zh
Publication of CN112115791A publication Critical patent/CN112115791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图像识别方法、装置、电子设备和计算机可读存储介质,通过确定待处理图像对应的目标部位状态类别,并响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别,获取目标部位的运动轨迹,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别,由此,可以减小图像识别的计算量和功耗,提高图像识别效率。

Description

图像识别方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种图像识别方法、装置、电子设备和计算机可读存储介质。
背景技术
随着人工智能技术的快速发展,人机交互方式也从打字转换到为表情、语言、手势、体态等符合用户自然习惯的交互方式,大大提高了交互的便利性。现有的例如人机交互的手势识别,通常基于模版匹配、或者关键点识别的神经网络模型进行手势识别,计算量较大、速度较慢。
发明内容
有鉴于此,本发明实施例公开了一种图像识别方法、装置、电子设备和计算机可读存储介质,以减小图像识别的计算量和功耗,提高图像识别效率。
第一方面,本发明实施例提供一种图像识别方法,所述方法包括:
获取待处理图像;
确定所述待处理图像对应的目标部位状态类别;
响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别;
获取目标部位的运动轨迹;
将所述目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
可选的,获取目标部位的运动轨迹包括:
获取所述目标部位在运动过程中的多帧运动图像;
对多帧所述运动图像进行目标检测,确定各所述运动图像对应的目标区域;
根据各所述目标区域的中心点确定所述运动轨迹。
可选的,所述方法还包括:
响应于连续确定的多个目标部位状态类别的类别序列满足第二预定条件,结束动态图像识别操作。
可选的,所述第一预定条件为所述类别序列与预设的动态识别启动序列相同,所述第二预定条件为所述类别序列与预定的动态识别结束序列相同。
可选的,确定所述待处理图像对应的目标部位状态类别包括:
对所述待处理图像进行目标检测,确定所述待处理图像的目标区域;
将所述待处理图像的目标区域输入至静态识别模型进行处理,以确定所述目标部位状态类别。
可选的,所述方法还包括:
在对应的显示页面显示所述运动轨迹。
可选的,所述方法还包括:
根据所述目标动作类别确定对应的第一操作指令;
根据所述第一操作指令执行对应的操作。
可选的,所述方法还包括:
根据所述目标部位状态类别确定对应的第二操作指令;
根据所述第二操作指令执行对应的操作。
可选的,所述动态识别模型通过以下步骤训练:
获取各目标动作类别的运动轨迹;
对获取的各运动轨迹进行类别标注,获得第一样本数据;
根据所述第一样本数据训练获得所述动态识别模型。
可选的,所述静态识别模型通过以下步骤训练:
获取包括各目标部位状态类别的静态图像;
对各所述静态图像进行类别标注,获得第二样本数据;
根据所述第二样本数据训练获得所述静态识别模型。
第二方面,本发明实施例提供一种图像识别装置,所述装置包括:
图像获取单元,被配置为获取待处理图像;
第一类别确定单元,被配置为确定所述待处理图像对应的目标部位状态类别;
动态启动单元,被配置为响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别;
运动轨迹获取单元,被配置为获取目标部位的运动轨迹;
第二类别确定单元,被配置为将所述目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
可选的,运动轨迹获取单元包括:
图像获取子单元,被配置为获取所述目标部位在运动过程中的多帧运动图像;
第一目标区域确定子单元,被配置为对多帧所述运动图像进行目标检测,确定各所述运动图像对应的目标区域;
运动轨迹获取子单元,被配置为根据各所述目标区域的中心点确定所述运动轨迹。
可选的,所述装置还包括:
动态结束单元,被配置为响应于连续确定的多个目标部位状态类别的类别序列满足第二预定条件,结束动态图像识别操作。
可选的,所述第一预定条件为所述类别序列与预设的动态识别启动序列相同,所述第二预定条件为所述类别序列与预定的动态识别结束序列相同。
可选的,第一类别确定单元包括:
第二目标区域确定子单元,被配置为对所述待处理图像进行目标检测,确定所述待处理图像的目标区域;
第一类别确定子单元,被配置为将所述待处理图像的目标区域输入至静态识别模型进行处理,以确定所述目标部位状态类别。
可选的,所述装置还包括:
显示控制单元,被配置为在对应的显示页面显示所述运动轨迹。
可选的,所述装置还包括:
第一指令确定单元,被配置为根据所述目标动作类别确定对应的第一操作指令;
第一执行单元,被配置为根据所述第一操作指令执行对应的操作。
可选的,所述装置还包括:
第二指令确定单元,被配置为根据所述目标部位状态类别确定对应的第二操作指令;
第二执行单元,被配置为根据所述第二操作指令执行对应的操作。
可选的,所述装置还包括动态识别模型训练单元,所述动态识别模型训练单元包括:
第一获取子单元,被配置为获取各目标动作类别的运动轨迹;
第一样本数据获取子单元,被配置为对获取的各运动轨迹进行类别标注,获得第一样本数据;
第一训练子单元,被配置为根据所述第一样本数据训练获得所述动态识别模型。
可选的,所述装置还包括静态识别模型训练单元,所述静态识别模型训练单元包括:
第二获取子单元,被配置为获取包括各目标部位状态类别的静态图像;
第二样本数据获取子单元,被配置为对各所述静态图像进行类别标注,获得第二样本数据;
第二训练子单元,被配置为根据所述第二样本数据训练获得所述静态识别模型。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上所述的方法。
可选的,所述电子设备还包括采集装置,所述采集装置被配置为采集图像或视频。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时以实现如上所述的方法。
本发明实施例通过确定待处理图像对应的目标部位状态类别,并响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别,获取目标部位的运动轨迹,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别,由此,可以减小图像识别的计算量和功耗,提高图像识别效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的图像识别方法的流程图;
图2是本发明实施例的静态识别模型的训练方法的流程图;
图3是本发明实施例的运动轨迹确定方法的流程图;
图4是本发明实施例的运动轨迹确定过程的示意图;
图5是本发明实施例的动态识别模型的训练方法的示意图;
图6是本发明实施例的静动态图像识别过程的示意图;
图7是本发明实施例的图像识别装置的示意图;
图8是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在目前的人机交互中,通常采用表情、语言、手势、体态等符合用户自然习惯的交互方式,例如在车载环境中,为了确保车辆安全,司机通过采用语言、手势、体态等来进行人机交互来控制车载设备或终端设备。本发明实施例主要以通过手势识别实现人机交互为例进行描述,应理解,本发明实施例并不限于手势识别方式,其他基于图像识别的人机交互方式均可采用本发明实施例的图像识别方法。
在现有的基于神经网络的静动态手势识别中,通常采用关键点识别方式,关键点识别对于手势的各个关键点的细节特征要求较高,需要输入较为清晰的手势图像,同时为了满足手势细节信息的语义识别,神经网络结构通常需要较深的模型去学***台的算力较弱,内存较少,目前的静动态手势识别网络对嵌入式平台的算力会产生极大的压力。由此,本发明实施例提供一种图像识别方法,以减小图像识别的计算量和功耗,提高图像识别效率。
图1是本发明实施例的图像识别方法的流程图。如图1所示,本发明实施例的图像识别方法包括以下步骤:
步骤S110,获取待处理图像。可选的,通过图像采集设备采集获取包括目标部位动作的图像,或者接收目标部位动作的图像,例如手势图像、头部动作图像或其他部位动作的图像等。
步骤S120,确定待处理图像对应的目标部位状态类别。其中,目标部位状态类别也即目标部位当前的动作状态类别,例如手势类别等。
在一种可选的实现方式中,步骤S120具体可以包括:对待处理图像进行目标检测,确定待处理图像的目标区域,将待处理图像的目标区域输入至静态识别模型进行处理,确定对应的目标部位状态类别。可选的,采用目标检测模型对待处理图像进行处理,获取该待处理图像的目标区域。可选的,目标检测模型可以采用Faster R-CNN模型、SSD模型、或YOLO模型等,本实施例并不对此进行限制。
以手势为例,将包括手势的待处理图像输入至目标检测模型中进行处理,获取待处理图像中的手势区域,将该手势区域输入至静态识别模型中进行处理,得到对应的手势类别。可选的,手势类别可以包括剪刀、石头、布、OK、数字、点赞等手势。
图2是本发明实施例的静态识别模型的训练方法的流程图。在一种可选的实现方式中,如图2所示,本实施例的静态识别模型通过以下步骤训练获得:
步骤S210,获取包括各目标部位状态类别的静态图像。在一种可选的实现方式中,以手势为例,假设手势类别包括A、B、C、D、E、F、G七类。对于每类手势,采集获取对应的训练数据集,例如对于手势类别A,采集多个包括手势A的图像确定手势A对应的训练数据集。
步骤S220,对各静态图像进行类别标注,获得第二样本数据。在一种可选的实现方式中,采用独热编码(one-hot编码)方式对各静态图像进行编码。例如,对于上述A、B、C、D、E、F、G手势进行编码标注如下:手势A:1 0 0 0 0 0 0,手势B:0 1 0 0 0 0 0,手势C:0 0 10 0 0 0,手势D:0 0 0 1 0 0 0,手势E:0 0 0 0 1 0 0,手势F:0 0 0 0 0 1 0,手势B:0 00 0 0 0 1。应理解,本实施例并不对训练数据集中的标注方式进行限制,其他图像标注方式均可应用于本实施例中。
步骤S230,根据第二样本数据训练获得静态识别模型。可选的,将第二样本数据输入至静态识别模型中进行处理,根据对应的损失函数调节静态识别模型的参数,使得静态识别模型的输出与对应的类别标注尽可能保持一致(也即最小化损失函数)。
本发明实施例中的静态识别模型只需对训练数据集中的图像进行类别标注,无需对图像中目标部位(例如手势)的关键点进行标注,极大地减小了静态识别模型的复杂度以及图像标注所需要的人力物力,并且减小了静态识别模型处理待处理图像的计算量,提高了图像识别的效率。
步骤S130,响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别。可选的,响应于连续确定的多个目标部位状态类别的类别序列与预设的动态识别启动序列相同,启动动态图像识别。以手势为例,预先设置手势序列ABA为动态识别启动序列,也即在静态图像识别中,连续识别出手势A、手势B和手势A,则启动动态图像识别。应理解,本实施例并不对动态识别启动序列的长度和序列中的手势类别进行限制。
步骤S140,获取目标部位的运动轨迹。在本实施例中,在启动动态图像识别后,获取目标部位的运动轨迹,例如手部的运动轨迹。
图3是本发明实施例的运动轨迹确定方法的流程图。在一种可选的实现方式中,如图3所示,步骤S140具体可以包括:
步骤S141,获取目标部位在运动过程中的多帧运动图像。可选的,在目标部位运动过程中实时采集获取多帧运动图像,或者接收目标部位运动过程中的多帧运动图像。
步骤S142,对多帧运动图像进行目标检测,确定各运动图像对应的目标区域。可选的,采用目标检测模型对多帧运动图像进行处理,获取各帧运动图像的目标区域。可选的,目标检测模型可以采用Faster R-CNN模型、SSD模型、或YOLO模型等,本实施例并不对此进行限制。
步骤S143,根据各目标区域的中心点确定运动轨迹。也就是说,在本实施例中,将各目标区域的中心的轨迹确定为目标部位的运动轨迹。在一种可选的实现方式中,在用户端的显示页面显示该运动轨迹,以使得用户可以确定运动轨迹是否绘制准确。
图4是本发明实施例的运动轨迹确定过程的示意图。如图4所示,在启动动态图像识别后,获取手部在运动过程中的多帧运动图像X,对各帧运动图像X进行目标检测,确定各帧运动图像X的手部区域Y,并确定各手部区域Y的中心点c,根据各中心点c的位置变化确定手部的运动轨迹41。在一种可选的实现方式中,在手部运动时,将手部的运动轨迹显示在用户端的显示页面上,以使得用户可以确定运动轨迹是否绘制准确。
步骤S150,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
图5是本发明实施例的动态识别模型的训练方法的示意图。在一种可选的实现方式中,如图5所示,动态识别模型通过以下步骤训练:
步骤S310,获取各目标动作类别的运动轨迹。可选的,以手势动作为例,设置多种标准的手势动作,例如使用手部画“V”型或“√”型图案等,采集获取每类标准手势动作的多个视频,并通过步骤S141-S143的步骤获取每个标准手势动作的运动轨迹集。
步骤S320,对获取的各运动轨迹进行类别标注,获得第一样本数据。例如,对每类标准手势动作的运动轨迹集进行标注,以获取第一样本数据。
步骤S330,根据第一样本数据训练获得动态识别模型。可选的,将第二样本数据输入至静态识别模型中进行处理,根据对应的损失函数调节动态识别模型的参数,使得动态识别模型的输出与对应的类别标注尽可能保持一致(也即最小化损失函数)。
本发明实施例中的动态识别模型只需对训练数据集中的运动轨迹进行类别标注,无需对视频中的各帧图像的目标部位(例如手势)的关键点进行标注,极大地减小了动态识别模型的复杂度以及视频标注所需要的人力物力,并且减小了动态识别模型识别目标部位运动轨迹的计算量,提高了图像识别的效率。
在一种可选的实现方式中,本实施例还设置动态识别结束序列,以指示动态图像识别操作结束,并切换至静态识别操作。可选的,响应于连续确定的多个目标部位状态类别的类别序列满足第二预定条件,结束动态图像识别操作。可选的,响应于连续确定的多个目标部位状态类别的类别序列与预设的动态识别结束序列相同,结束动态图像识别操作。应理解,动态识别启动序列和动态识别结束序列可以相同也可以不同。以手势为例,可以预先设置手势序列ABA为动态识别结束序列,也即在图像识别过程中,连续识别出手势A、手势B和手势A,则结束动态图像识别操作。
本发明实施例通过确定待处理图像对应的目标部位状态类别,并响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别,获取目标部位的运动轨迹,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别,由此,可以减小图像识别的计算量和功耗,提高图像识别效率。
在一种可选的实现方式中,各类目标动作可对应不同的第一操作指令,由此,可以根据步骤S150获取的目标动作类别确定对应的第一操作指令,根据第一操作指令执行对应的操作。例如,假设“V”型动作对应的指令为解锁指令,则在动态图像识别过程中识别出“V”型动作时,控制对应的设备进行解锁。
在一种可选的实现方式中,各类目标部位状态可对应不同的第二操作指令,由此,在步骤S120获取的目标部位状态类别确定对应的第二操作指令,根据第二操作指令执行对应的操作。例如,假设“剪刀”手势对应的指令为音乐播放指令,则在静态图像识别过程中识别出“剪刀”手势时,控制对应的设备播放器播放音乐。可选的,在本实施例中,动态识别启动序列和动态识别结束序列中的目标部位状态类别不设置对应的第二操作指令,以避免在启动动态图像识别操作时,使得对应的设备误操作。例如,假设动态识别启动序列为手势ABA,则不对手势A和手势B设置对应的第二操作指令。
图6是本发明实施例的静动态图像识别过程的示意图。本实施例以目标部位为手部为例进行描述。如图6所示,获取待处理图像X1,对待处理图像X1进行目标检测,确定手势区域Y1,并将手势区域Y1输入至静态识别模型61中进行静态图像识别,确定待处理图像X1中的手势为“数字1”手势,获取“数字1”手势对应的第二操作指令,并根据第二操作指令控制对应的设备63执行对应的操作。
如图6所示,对之后获取的待处理图像X2、X3、X4进行目标检测,确定对应的手势区域Y2、Y3、Y4,分别将手势区域Y2、Y3、Y4输入至静态识别模型61中进行静态图像识别,确定待处理图像X2、X3、X4中的手势分别为“布”手势、“石头”手势、“布”手势,其与动态识别启动序列中的手势序列相同,因此启动动态图像识别。在启动动态图像识别后,获取连续的多帧运动图像X5,对连续的多帧运动图像X5进行目标检测,确定各帧运动图像X5对应的目标区域,根据各帧运动图像X5的目标区域的中心点确定运动轨迹64,将运动轨迹64输入至动态识别模型62中进行动态识别,确定多帧运动图像X5对应的手部动作为动作K,获取动作K对应的第一操作指令,并根据第一操作指令控制对应的设备63执行对应的操作。在一种可选的实现方式中,在动态图像识别过程中,将最后获取的几帧图像的目标区域输入至静态识别模型61中进行识别,以判断是否存在动态识别结束序列,在识别到动态识别结束序列时,控制结束动态图像识别操作,并切换至静态图像识别操作。
容易理解,在本实施例中,静态图像识别操作和动态图像识别操作可以通过设备63执行,也可以通过其他设置执行,待处理图像及连续多帧运动图像可以通过设备63的图像采集设备获取,也可以通过其他图像采集设备获取,本实施例并不对此进行限制。
本发明实施例通过确定待处理图像对应的目标部位状态类别,并响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别,获取目标部位的运动轨迹,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别,由此,可以减小图像识别的计算量和功耗,提高图像识别效率。
图7是本发明实施例的图像识别装置的示意图。如图7所示,本实施例的图像识别装置7包括图像获取单元71、第一类别确定单元72、动态启动单元73、运动轨迹获取单元74和第二类别确定单元75。
图像获取单元71被配置为获取待处理图像。第一类别确定单元72被配置为确定所述待处理图像对应的目标部位状态类别。动态启动单元73被配置为响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别。运动轨迹获取单元74被配置为获取目标部位的运动轨迹。第二类别确定单元75被配置为将所述目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
在一种可选的实现方式中,第一类别确定单元72包括第二目标区域确定子单元721和第一类别确定子单元722。第二目标区域确定子单元721被配置为对所述待处理图像进行目标检测,确定所述待处理图像的目标区域。第一类别确定子单元722被配置为将所述待处理图像的目标区域输入至静态识别模型进行处理,以确定所述目标部位状态类别。
在一种可选的实现方式中,运动轨迹获取单元74包括图像获取子单元741、第一目标区域确定子单元742和运动轨迹获取子单元743。图像获取子单元741被配置为获取所述目标部位在运动过程中的多帧运动图像。第一目标区域确定子单元742被配置为对多帧所述运动图像进行目标检测,确定各所述运动图像对应的目标区域。运动轨迹获取子单元743被配置为根据各所述目标区域的中心点确定所述运动轨迹。
在一种可选的实现方式中,图像识别装置7还包括动态结束单元76。动态结束单元76被配置为响应于连续确定的多个目标部位状态类别的类别序列满足第二预定条件,结束动态图像识别操作。可选的,所述第一预定条件为所述类别序列与预设的动态识别启动序列相同,所述第二预定条件为所述类别序列与预定的动态识别结束序列相同。
在一种可选的实现方式中,图像识别装置7还包括显示控制单元77。显示控制单元77被配置为在对应的显示页面显示所述运动轨迹。
在一种可选的实现方式中,图像识别装置7还包括第一指令确定单元78和第一执行单元79。第一指令确定单元78被配置为根据所述目标动作类别确定对应的第一操作指令。第一执行单元79被配置为根据所述第一操作指令执行对应的操作。
在一种可选的实现方式中,图像识别装置7还包括第二指令确定单元7A和第二执行单元7B。第二指令确定单元7A被配置为根据所述目标部位状态类别确定对应的第二操作指令。第二执行单元7B被配置为根据所述第二操作指令执行对应的操作。
在一种可选的实现方式中,图像识别装置7还包括动态识别模型训练单元7C,所述动态识别模型训练单元7C包括第一获取子单元7C1、第一样本数据获取子单元7C2和第一训练子单元7C3。第一获取子单元7C1被配置为获取各目标动作类别的运动轨迹。第一样本数据获取子单元7C2被配置为对获取的各运动轨迹进行类别标注,获得第一样本数据。第一训练子单元7C3被配置为根据所述第一样本数据训练获得所述动态识别模型。
在一种可选的实现方式中,图像识别装置7还包括静态识别模型训练单元7D,所述静态识别模型训练单元7D包括第二获取子单元7D1、第二样本数据获取子单元7D2和第二训练子单元7D3。第二获取子单元7D1被配置为获取包括各目标部位状态类别的静态图像。第二样本数据获取子单元7D2被配置为对各所述静态图像进行类别标注,获得第二样本数据。第二训练子单元7D3被配置为根据所述第二样本数据训练获得所述静态识别模型。
本发明实施例通过确定待处理图像对应的目标部位状态类别,并响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别,获取目标部位的运动轨迹,将目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别,由此,可以减小图像识别的计算量和功耗,提高图像识别效率。
图8是本发明实施例的电子设备的示意图。如图8所示,图8所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。可选的,电子设备8还包括显示控制器84、输入/输出(I/O)装置85、输入/输出(I/O)控制器86以及采集装置87。采集装置87用于采集图像或视频。其中,总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与***相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种图像识别方法,其特征在于,所述方法包括:
获取待处理图像;
确定所述待处理图像对应的目标部位状态类别;
响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别;
获取目标部位的运动轨迹;
将所述目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
2.根据权利要求1所述的方法,其特征在于,获取目标部位的运动轨迹包括:
获取所述目标部位在运动过程中的多帧运动图像;
对多帧所述运动图像进行目标检测,确定各所述运动图像对应的目标区域;
根据各所述目标区域的中心点确定所述运动轨迹。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于连续确定的多个目标部位状态类别的类别序列满足第二预定条件,结束动态图像识别操作。
4.根据权利要求1所述的方法,其特征在于,所述第一预定条件为所述类别序列与预设的动态识别启动序列相同,所述第二预定条件为所述类别序列与预定的动态识别结束序列相同。
5.根据权利要求1所述的方法,其特征在于,确定所述待处理图像对应的目标部位状态类别包括:
对所述待处理图像进行目标检测,确定所述待处理图像的目标区域;
将所述待处理图像的目标区域输入至静态识别模型进行处理,以确定所述目标部位状态类别。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在对应的显示页面显示所述运动轨迹。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标动作类别确定对应的第一操作指令;
根据所述第一操作指令执行对应的操作。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述目标部位状态类别确定对应的第二操作指令;
根据所述第二操作指令执行对应的操作。
9.根据权利要求1所述的方法,其特征在于,所述动态识别模型通过以下步骤训练:
获取各目标动作类别的运动轨迹;
对获取的各运动轨迹进行类别标注,获得第一样本数据;
根据所述第一样本数据训练获得所述动态识别模型。
10.根据权利要求5所述的方法,其特征在于,所述静态识别模型通过以下步骤训练:
获取包括各目标部位状态类别的静态图像;
对各所述静态图像进行类别标注,获得第二样本数据;
根据所述第二样本数据训练获得所述静态识别模型。
11.一种图像识别装置,其特征在于,所述装置包括:
图像获取单元,被配置为获取待处理图像;
第一类别确定单元,被配置为确定所述待处理图像对应的目标部位状态类别;
动态启动单元,被配置为响应于连续确定的多个目标部位状态类别的类别序列满足第一预定条件,启动动态图像识别;
运动轨迹获取单元,被配置为获取目标部位的运动轨迹;
第二类别确定单元,被配置为将所述目标部位的运动轨迹输入至动态识别模型进行处理,确定对应的目标动作类别。
12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10中任一项所述的方法。
13.根据权利要求12所述的电子设备,其特征在于,所述电子设备还包括采集装置,所述采集装置被配置为采集图像或视频。
14.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时以实现如权利要求1-10中任一项所述的方法。
CN202010833673.0A 2020-08-18 2020-08-18 图像识别方法、装置、电子设备和计算机可读存储介质 Pending CN112115791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833673.0A CN112115791A (zh) 2020-08-18 2020-08-18 图像识别方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833673.0A CN112115791A (zh) 2020-08-18 2020-08-18 图像识别方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112115791A true CN112115791A (zh) 2020-12-22

Family

ID=73804162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833673.0A Pending CN112115791A (zh) 2020-08-18 2020-08-18 图像识别方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112115791A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336967A (zh) * 2013-05-27 2013-10-02 东软集团股份有限公司 一种手部运动轨迹检测方法及装置
CN103390168A (zh) * 2013-07-18 2013-11-13 重庆邮电大学 基于Kinect深度信息的智能轮椅动态手势识别方法
CN104246668A (zh) * 2012-01-10 2014-12-24 马克西姆综合产品公司 利用手势激活电子装置的方法和设备
CN105787471A (zh) * 2016-03-25 2016-07-20 南京邮电大学 一种应用于助老助残移动服务机器人控制的手势识别方法
CN106557672A (zh) * 2015-09-29 2017-04-05 北京锤子数码科技有限公司 头戴式显示器的解锁控制方法及装置
CN107085469A (zh) * 2017-04-21 2017-08-22 深圳市茁壮网络股份有限公司 一种手势的识别方法及装置
CN107563286A (zh) * 2017-07-28 2018-01-09 南京邮电大学 一种基于Kinect深度信息的动态手势识别方法
CN108460313A (zh) * 2017-02-17 2018-08-28 鸿富锦精密工业(深圳)有限公司 一种手势识别装置以及人机互动***
CN108595003A (zh) * 2018-04-23 2018-09-28 Oppo广东移动通信有限公司 功能控制方法及相关设备
CN108921101A (zh) * 2018-07-04 2018-11-30 百度在线网络技术(北京)有限公司 基于手势识别控制指令的处理方法、设备及可读存储介质
CN109784421A (zh) * 2019-01-30 2019-05-21 北京朗镜科技有限责任公司 一种识别模型的构建方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104246668A (zh) * 2012-01-10 2014-12-24 马克西姆综合产品公司 利用手势激活电子装置的方法和设备
CN103336967A (zh) * 2013-05-27 2013-10-02 东软集团股份有限公司 一种手部运动轨迹检测方法及装置
CN103390168A (zh) * 2013-07-18 2013-11-13 重庆邮电大学 基于Kinect深度信息的智能轮椅动态手势识别方法
CN106557672A (zh) * 2015-09-29 2017-04-05 北京锤子数码科技有限公司 头戴式显示器的解锁控制方法及装置
CN105787471A (zh) * 2016-03-25 2016-07-20 南京邮电大学 一种应用于助老助残移动服务机器人控制的手势识别方法
CN108460313A (zh) * 2017-02-17 2018-08-28 鸿富锦精密工业(深圳)有限公司 一种手势识别装置以及人机互动***
CN107085469A (zh) * 2017-04-21 2017-08-22 深圳市茁壮网络股份有限公司 一种手势的识别方法及装置
CN107563286A (zh) * 2017-07-28 2018-01-09 南京邮电大学 一种基于Kinect深度信息的动态手势识别方法
CN108595003A (zh) * 2018-04-23 2018-09-28 Oppo广东移动通信有限公司 功能控制方法及相关设备
CN108921101A (zh) * 2018-07-04 2018-11-30 百度在线网络技术(北京)有限公司 基于手势识别控制指令的处理方法、设备及可读存储介质
CN109784421A (zh) * 2019-01-30 2019-05-21 北京朗镜科技有限责任公司 一种识别模型的构建方法及装置

Similar Documents

Publication Publication Date Title
CN1758205B (zh) 轻击手势
CN108197589B (zh) 动态人体姿态的语义理解方法、装置、设备和存储介质
JP4050055B2 (ja) 手書き文字一括変換装置、手書き文字一括変換方法およびプログラム
US8644556B2 (en) Image processing apparatus and method and program
US20090153468A1 (en) Virtual Interface System
KR101718837B1 (ko) 응용프로그램의 제어방법, 장치 및 전자장비
US20090042695A1 (en) Interactive rehabilitation method and system for movement of upper and lower extremities
JP7149202B2 (ja) 行動分析装置および行動分析方法
CN102456135A (zh) 图像处理设备、方法和程序
US20030214524A1 (en) Control apparatus and method by gesture recognition and recording medium therefor
WO2016084336A1 (ja) 追学習装置、追学習方法、および、記憶媒体
US9965041B2 (en) Input device, apparatus, input method, and recording medium
CN108536293B (zh) 人机交互***、方法、计算机可读存储介质及交互装置
KR101916675B1 (ko) 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템
WO2016140628A1 (en) Sketch misrecognition correction based on eye gaze monitoring
CN115756177A (zh) 用户评价方法、装置、设备及存储介质
CN106502416B (zh) 一种智能识别双手手势的模拟驾驶***及其控制方法
RU2552192C2 (ru) Способ и система для взаимодействия человек-машина, основанного на жестах, и машиночитаемый носитель для этого
CN110662587A (zh) 游戏程序、信息处理装置、信息处理***以及游戏处理方法
CN112115791A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
JP2002015282A (ja) 手書き文字認識装置及び手書き文字認識プログラム並びに手書き文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN104516566A (zh) 一种手写输入方法及装置
CN114610155A (zh) 手势控制方法、装置、显示终端及存储介质
CN115705754A (zh) 一种绘本识别方法和装置
CN115966016B (zh) 一种跳跃状态识别方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222

RJ01 Rejection of invention patent application after publication