CN108960192A - 动作识别方法及其神经网络生成方法、装置和电子设备 - Google Patents

动作识别方法及其神经网络生成方法、装置和电子设备 Download PDF

Info

Publication number
CN108960192A
CN108960192A CN201810815077.2A CN201810815077A CN108960192A CN 108960192 A CN108960192 A CN 108960192A CN 201810815077 A CN201810815077 A CN 201810815077A CN 108960192 A CN108960192 A CN 108960192A
Authority
CN
China
Prior art keywords
convolution kernel
human body
key point
body key
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810815077.2A
Other languages
English (en)
Other versions
CN108960192B (zh
Inventor
张弛
吴骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201810815077.2A priority Critical patent/CN108960192B/zh
Publication of CN108960192A publication Critical patent/CN108960192A/zh
Application granted granted Critical
Publication of CN108960192B publication Critical patent/CN108960192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种动作识别方法及其神经网络生成方法、装置和电子设备,涉及图像识别技术领域,用于动作识别的神经网络生成方法包括:对目标图像进行检测,得到人体关键点信息;根据所述人体关键点信息得到卷积核偏置信息;根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,解决了现有技术中存在的目前的图像识别神经网络对于动作识别的识别能力较低的技术问题。

Description

动作识别方法及其神经网络生成方法、装置和电子设备
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种动作识别方法及其神经网络生成方法、装置和电子设备。
背景技术
目前,动作识别作为视频自动分析的重要基础,将在智能监控,新零售、人机互动,教育教学等一系列应用场景中发挥重要的作用。
例如,在安防监控场景中,若能很好的识别出扒窃,撬锁,打斗等异常行为,能够起到减少人力监控成本、维护治安的重要功能;在新零售领域中,动作识别有助于更好的理解用户行为,自动分析顾客喜好,提升用户体验。
但是,目前的动作识别神经网络主要集中于长短期记忆网络(Long Short-TermMemory,简称LSTM)、时标网状图(time scalar network,简称TSN)等传统的图像识别神经网络方法,对于动作识别的识别能力较低。
发明内容
有鉴于此,本发明的目的在于提供一种动作识别方法及其神经网络生成方法、装置和电子设备,以解决现有技术中存在的目前的图像识别神经网络对于动作识别的识别能力较低的技术问题。
第一方面,本发明实施例提供了一种用于动作识别的神经网络生成方法,包括:
对目标图像进行检测,得到人体关键点信息;
根据所述人体关键点信息得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络(Convolutional NeuralNetwork,简称CNN)生成变形卷积神经网络。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对目标图像进行检测,得到人体关键点信息,具体包括:
通过人体姿态估计算法对目标图像进行检测,得到人体关键点信息;
其中,所述人体关键点信息人体关键点的位置信息和/或人体关键点之间的角度信息。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述人体关键点信息得到卷积核偏置信息,具体包括:
根据所述人体关键点信息生成特征向量;
根据所述特征向量基于初始卷积神经网络中的卷积核,得到与所述卷积核的维度相同的卷积核偏置信息。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核;
根据所述变形卷积核生成变形卷积神经网络。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述人体关键点信息得到卷积核偏置信息,具体包括:
根据所述人体关键点信息生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
第二方面,本发明实施例还提供一种动作识别方法,包括:
对目标图像进行检测,得到人体关键点信息;
根据所述人体关键点信息得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
第三方面,本发明实施例还提供一种用于动作识别的神经网络生成装置,包括:
提取模块,用于对目标图像进行检测,得到人体关键点信息;
获取模块,用于根据所述人体关键点信息得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
第四方面,本发明实施例还提供一种动作识别装置,包括:
提取模块,用于对目标图像进行检测,得到人体关键点信息;
获取模块,用于根据所述人体关键点信息得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
识别模块,用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
第五方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述如第一方面所述的方法的步骤。
第六方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如第一方面所述的方法。
本发明实施例提供的技术方案带来了以下有益效果:本发明实施例提供的动作识别方法及其神经网络生成方法、装置和电子设备中:首先,对目标图像进行检测从而得到人体关键点信息,然后,根据人体关键点信息得到卷积核偏置信息,之后,根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,通过检测到的目标图像中的人体关键点信息而得到卷积核偏置信息,使初始卷积神经网络通过卷积核的偏置而转换成变形卷积神经网络,从而获取到结合了人体关键点信息的变形卷积神经网络,能够更好的集中提取人体关键点信息,从而更有效的捕捉图像中的人体动作信息,使变形卷积神经网络更加适合动作的识别,实现了动作识别稳定性与准确性的增加,从而解决了现有技术中存在的图像识别神经网络对于动作识别能力较低的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一所提供的用于动作识别的神经网络生成方法的流程图;
图2示出了本发明实施例二所提供的用于动作识别的神经网络生成方法的流程图;
图3示出了本发明实施例三所提供的二维卷积核变形过程的示意图;
图4示出了本发明实施例五所提供的一种动作识别方法的流程图;
图5示出了本发明实施例六所提供的一种用于动作识别的神经网络生成装置的结构示意图;
图6示出了本发明实施例七所提供的一种动作识别装置的结构示意图;
图7示出了本发明实施例八所提供的一种电子设备的结构示意图。
图标:1-用于动作识别的神经网络生成装置;11-提取模块;12-获取模块;13-生成模块;2-动作识别装置;21-提取模块;22-获取模块;23-生成模块;24-识别模块;4-电子设备;41-存储器;42-处理器;43-总线;44-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,动作识别神经网络主要集中于长短期记忆网络、时标网状图等传统的图像识别神经网络方法,对于动作识别的识别能力较低,而且,对于图像识别,只有二维卷积的相关研究,没有在三维上拓展的相关研究,也没有在动作识别上的应用研究。
基于此,本发明实施例提供的一种动作识别方法及其神经网络生成方法、装置和电子设备,可以解决现有技术中存在的图像识别神经网络对于动作识别能力较低的技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种动作识别方法及其神经网络生成方法、装置和电子设备进行详细介绍。
实施例一:
本发明实施例提供的一种用于动作识别的神经网络生成方法,作为融合人体关键点信息的变卷积核用于动作识别的神经网络生成方法,如图1所示,该方法包括:
S11:对目标图像进行检测,得到人体关键点信息。
其中,目标图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等。人体关键点信息可以为人体关键点的位置信息和/或人体关键点之间的角度信息。
本实施例中,先对输入图像识别神经网络的目标图像进行检测、识别等,从而获得人体关键点的位置、人体关键点之间的角度等人体关键点信息。
S12:根据人体关键点信息得到卷积核偏置信息。
作为本实施例的优选实施方式,通过对人体关键点信息进行分析,得到可变卷积核的转换偏置。
S13:根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
需要说明的是,卷积神经网络(Convolutional Neural Network,简称CNN)是一种深度前馈人工神经网络,人工神经元可以响应周围单元,应用于图像识别,可以进行大型图像处理。本步骤中,根据步骤S12得到的卷积核偏置信息,基于初始卷积神经网络(CNN)的卷积核,得到变形卷积神经网络(CNN)。
在变形卷积神经网络中,由于变形卷积神经网络的卷积核本身是可变的,因此能更好的集中提取相对更加重要的信息。本实施例中,将人体关键点信息作为重要信息,通过结合人体关键点信息,使得卷积核的变换能够更加符合运动发生的分布和规律,因此,利用该融合人体关键点信息的变形卷积核神经网络而进行图像动作识别,识别出的动作信息能够更加准确、精确且稳定性更高。
本实施例中,将人体关键点信息融合进入卷积神经网络,有助于可变卷积核加快自身分布变化的学习。由于人体关键点处的信息较大程度的揭露了动作发生的区域及趋势,其所携带的信息将引导卷积核朝着响应相关动作发生区域和发生朝向的方向积极变化,从而增加***的鲁棒性。
实施例二:
本发明实施例提供的一种用于动作识别的神经网络生成方法,作为融合人体关键点信息的变卷积核用于动作识别的神经网络生成方法,如图2所示,该方法包括:
S21:通过人体姿态估计算法对目标图像进行检测,得到人体关键点信息。
其中,人体关键点信息包括人体关键点的位置信息和/或人体关键点之间的角度信息,可以是多个人体关键点的位置和/或多个人体关键点的角度信息。其中,人体关键点可以是人体关节部位点,也可以是肢体关键部位点。例如,人体关键点可以是:头顶、颈部、左肩、右肩、左肘、右肘、左手、右手、左髋、右髋、左膝、右膝、左脚及右脚十四个人体关节点等等。
作为一个优选方案,对于人体关键点的检测,可以使用姿态估计算法,例如目前常用的实时多人的姿态估计(Realtime Multi-Person Pose Estimation)识别方法。
本实施例中,先对输入图像识别神经网络的目标图像进行检测、识别等,从而获得人体关键点的位置、人体关键点之间的角度等人体关键点信息。通过姿态估计法检测识别出的人体关键点信息能够包括人体关键点的位置信息和/或人体关键点之间的角度信息,从而能够更准确有效的为后续的图像动作识别过程提供动作发生区域的分布。
S22:根据人体关键点信息生成特征向量。
本步骤中,基于多个人体关键点的位置、多个人体关键点之间的角度等人体关键点信息生成对应的多个特征向量,以实现通过向量的形式更好的表示出动作发生区域的分布。
S23:根据特征向量基于初始卷积神经网络中的卷积核,得到与卷积核的维度相同的卷积核偏置信息。
其中,初始卷积神经网络可以为动作识别神经网络等卷积神经网络,卷积神经网络是目前图像识别、视频分析中常用的一种网络,由若干层卷积、池化、全连接等构成。该初始卷积神经网络可以由多层卷积神经网络构成,也可以使用已经训练好的基础模型初始化,如:GoogleNet、VGG、ResNet等网络结构。
本步骤中,根据步骤S22得出的特征向量,基于初始卷积神经网络中的卷积核的维度,得到与该维度相同的卷积核偏置信息。优选的,对于卷积核偏置信息的获取过程,也可以通过基于人体关键点信息的卷积核偏置学习网络而生成。因此,通过对目标图像进行人体关键点信息分析,能够得到可变卷积核的转换偏置信息。其中,偏置信息可以由卷积核的偏移向量表示,以表示出卷积核的偏移值与偏移方向。
作为本实施例的另一种实施方式,除人体关键点信息外,可变卷积核的偏置信息也可以由其他各种不同的信息获取,例如,可以根据目标图像自身的特征图获取卷积核偏置信息,也可以根据目标图像中的人物服装折皱度信息、人物面部表情神态信息等生成卷积核偏置信息。
S24:根据卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核。
具体的,根据步骤S23得出的每个卷积核偏移向量对上述初始卷积神经网络中对应的至少一个卷积核进行偏移,从而得到变卷积核即变形卷积核。
因此,利用网络可变卷积核扩展方法,对每个人体关键点维度理解为对人体某一部位的响应,并据此生成该区域的卷积核偏置向量,从而实现对卷积核分布的变形更新,以更好的抓住人体关键点信息。
S25:根据变形卷积核生成变形卷积神经网络。
具体的,将基于人体关键点信息而生成的特征向量,叠加在步骤S23中的初始卷积神经网络的卷积核上,进而实现卷积核的偏置,偏置后的变形卷积核生成的变形卷积神经网络中,能够极大的提高卷积核偏置的学习效果,由于人体关键点信息的分布极大的提示了动作发生的可能区域,从而较快较好的将变形卷积神经网络的注意力集中在人体动作发生的区域。
在变形卷积神经网络的训练学习过程中,每一次训练得到的损失(loss)值,将对下次的训练过程进行调整,从而通过一次次的训练学习过程逐渐形成最终的变形卷积神经网络,使训练学习后最终得到的变形卷积神经网络更加符合人体动作发生特性。
实施例三:
本实施例提供一个基于上述用于动作识别的神经网络生成方法的应用实例,在一种实现方式中,初始卷积神经网络为二维卷积神经网络。
优选的,二维变形卷积核神经网络的动作识别方法可以包括:首先,对目标图像进行检测,得到人体关键点信息;之后根据人体关键点信息生成特征向量;然后,根据特征向量基于二维卷积神经网络中的二维卷积核,得到空间维度偏移向量以及时间维度偏移向量;之后,根据空间维度偏移向量,对二维卷积神经网络中的二维卷积核进行空间偏移,得到二维空间变形卷积核;然后根据二维空间变形卷积核生成变形卷积神经网络;最后,根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
具体的,利用网络可变卷积核扩展方法,对人体关键点维度理解为对人体某一部位的响应,并据此生成该区域的卷积核偏置向量,从而实现对人体关键点空间信息上的变卷积核分布的更新,以更好的抓住人体关键点的空间信息。
如图3所示,在二维卷积核的变形过程中,先对目标图像进行基于人体姿态估计技术的检测识别,得到人体关键点信息,然后,根据该人体关键点信息生成特征向量之后根据该特征向量得到二维的卷积核偏置信息。例如,需要进行偏置的卷积核为3×3卷积核,那么得到的卷积核偏置信息包括9个特征向量,分别对应3×3卷积核。这9个特征向量可以为多种方向,即9个卷积核的偏置向量可以为各种不同的方向,本实施例以x轴、y轴的方向为例进行说明,其各种不同的方向可以包括:向x轴正向方向偏置的向量,向y轴负向方向偏置的向量,向与x轴负向夹角为35°且与y轴正向夹角为55°的方向偏置的向量,等等多种方向的向量。最后,根据该二维卷积核偏置信息对初始卷积神经网络中的若干个卷积核进行偏移,例如通过9个不同方向的二维卷积核偏置向量对9个卷积核进行偏移,从而得到变形卷积核。
对于现有技术而言,用于识别图像动作的卷积神经网络是两层传统的固定不变的神经网络,且现有的卷积核具有固定的形状,一般是方形的且在整个网络的训练和测试阶段都不会发生形变,形成的感受野是N×N卷积核,如3×3卷积核。
通过若干层变卷积核组层生成的变形神经网络,形成的感受野与传统固定不变的神经网络形成的感受野完全不同,不再是固定不变的形状,而是变化的能够跨越图像空间区域的可分散的感受野。由于卷积核本身是空间可变的,且在整个网络的训练和测试阶段都能够逐渐发生形变,因此能够更好的集中提取重要的信息例如人体关键点信息。
实施例四:
本实施例提供一个基于上述用于动作识别的神经网络生成方法的应用实例,在另一种应用实例中,初始卷积神经网络为三维卷积神经网络。
需要说明的是,三维的可变卷积神经网络与二维变形卷积核神经网络的实现原理有相似的地方,不同的是三维的可变卷积神经网络能够提取跨越多张连续图像的变化的感受野。
进一步的是,三维变形卷积核神经网络的动作识别方法可以包括:首先,对目标图像进行检测,得到人体关键点信息;之后根据人体关键点信息生成特征向量;然后,根据特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量;之后,根据空间维度偏移向量,对三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;根据时间维度偏移向量,对三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;然后根据空间变形卷积核与时间变形卷积核,得到三维变形卷积核;之后根据三维变形卷积核生成变形卷积神经网络;最后,根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
需要说明的是,三维卷积核的扩展类似于二维卷积核扩展,首先由人体关键点信息获取与三维卷积核的维度相同的偏置量即三维卷积核偏置信息,然后在初始卷积神经网络中的至少一个三维卷积核上进行偏移、调整以及更新,从而得到三维变形卷积核。
其中,三维卷积核偏置信息可以为三维卷积核偏置矩阵,是一个与三维卷积核维度保持一致的向量即三维偏置向量,矩阵中每一个元素的内容是对应位置的卷积核偏置变化的向量。例如,(1,1,0)代表该位置上的卷积核在x维度与y维度上各向正方向移动一个位置而时间方向保持不变。再例如,(3,-2,5)代表该位置上的卷积核在x维度上向正方向移动三个位置,在y维度上向负方向移动两个位置,在时间方向上向正方向移动五个时间单位。
因此,更新的过程可以分为在x维度、y维度的二维空间以及时间维度而形成的三维维度的扩展。现有的二维扩展限制卷积核只能在空间维度上偏置变化,不能突破时间的维度,而三维扩展使卷积核可以在空间以及时间的维度上进行偏置,使三维变形卷积核信息更加全面,从而使生成的三维变形卷积神经网络的动作识别结果更加全面、准确、精确且稳定性更高。
在实际应用中,可变卷积的方法主要应用于物体检测和物体分割的任务当中,能够较好的捕捉物体的空间信息与时间信息,自适应的生成适合当前任务的变形卷积核。
现有的普通卷积核具有固定的形状,一般是方形的且在整个网络的训练和测试阶段都不会发生形变,再者,现有的动作识别方法主要集中在LSTM、TSN等传统的图像识别神经网络方法上,没有融合人体关键点信息的变卷积核神经网络动作识别方法,而且,可变卷积核更没有在三维卷积核和卷积核变换方法上进行应用。
本实施例中,结合人体关键点信息以及变形三维卷积神经网络,以增加动作识别的稳定性与准确性。具体的,本实施例提供的方法将三维可变卷积核结合人体关键点信息应用于动作识别方法中,一方面,可变卷积核自适应的学习人体发生的动作在空间以及时间的分布,通过三维可变卷积核能够自主学习卷积核在空间维度和时间维度上的分布变化,使三维变形卷积神经网络的动作识别过程更加全面、准确、精确、具针对性且稳定性更高。例如,三维变形卷积核趋向于密集分布在动作集中发生的空间区域和时间区段,而对背景等较为不重要信息的响应会减小,以使识别效果更加精确且具有针对性。
实施例五:
本发明实施例提供的一种动作识别方法,作为融合人体关键点信息的动作识别方法,如图4所示,该方法包括:
S31:对目标图像进行检测,得到人体关键点信息。
其中,目标图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等。人体关键点信息可以包括人体关键点的位置信息和/或人体关键点之间的角度信息。本实施例中,先对输入图像识别神经网络的目标图像进行检测、识别等,从而获得人体关键点的位置、人体关键点之间的角度等人体关键点信息。
S32:根据人体关键点信息得到卷积核偏置信息。
作为本实施例的优选实施方式,通过对人体关键点信息进行分析,得到可变卷积核的转换偏置。
S33:根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
在变形卷积神经网络中,由于变形卷积神经网络的卷积核本身是可变的,因此能更好的集中提取相对更加重要的信息。本实施例中,将人体关键点信息作为重要信息,通过结合人体关键点信息,使得卷积核的变换能够更加符合运动发生的分布和规律。
本实施例中,将人体关键点信息融合进入卷积神经网络,有助于可变卷积核加快自身分布变化的学习。由于人体关键点信息较大程度的揭露了动作发生的区域及趋势,其所携带的信息将引导卷积核朝着响应相关动作发生区域和发生朝向的方向积极变化,从而增加***的鲁棒性。
S34:根据变形卷积神经网络对目标图像进行识别,得到动作识别结果。
最后,利用步骤S31至S33训练学习得到的最终的变形卷积神经网络,对目标图像进行图像动作识别,从而得到更加符合人体动作发生特性更加精确且稳定性更高的动作识别结果。因此,该方法的实行网络可以分为两大主体网络,即执行步骤S31至S33的基于人体关键点信息的卷积核偏置学习网络以及执行步骤S34的动作识别网络。
因此,利用该融合人体关键点信息的变形卷积核神经网络而进行图像动作识别,识别出的动作信息能够更加准确、精确且稳定性更高,从而能够提高动作识别的准确度与效率。
实施例六:
本发明实施例提供的一种用于动作识别的神经网络生成装置,如图5所示,用于动作识别的神经网络生成装置1包括:提取模块11、获取模块12以及生成模块13。
作为一个优选方案,提取模块11用于对目标图像进行检测,得到人体关键点信息。获取模块12用于根据人体关键点信息得到卷积核偏置信息。生成模块13用于根据卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
本发明实施例提供的用于动作识别的神经网络生成装置,与上述实施例提供的用于动作识别的神经网络生成方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例七:
本发明实施例提供的一种动作识别装置,如图6所示,动作识别装置2包括:提取模块21、获取模块22、生成模块23以及识别模块24。
本实施例中,提取模块21用于对目标图像进行检测,得到人体关键点信息。获取模块22用于根据人体关键点信息得到卷积核偏置信息。生成模块23用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。识别模块24用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
本发明实施例提供的动作识别装置,与上述实施例提供的动作识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例八:
本发明实施例提供的一种电子设备,如图7所示,电子设备4包括存储器41、处理器42,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例一或实施例二提供的方法的步骤。
参见图7,电子设备还包括:总线43和通信接口44,处理器42、通信接口44和存储器41通过总线43连接;处理器42用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线43可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器42在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器42中,或者由处理器42实现。
处理器42可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器42读取存储器41中的信息,结合其硬件完成上述方法的步骤。
实施例九:
本发明实施例提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述实施例一或实施例二提提供的方法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例提供的具有处理器可执行的非易失的程序代码的计算机可读介质,与上述实施例提供的用于动作识别的神经网络生成方法、装置、动作识别方法、装置以及电子设备具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的进行用于动作识别的神经网络生成方法以及动作识别方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种用于动作识别的神经网络生成方法,其特征在于,包括:
对目标图像进行检测,得到人体关键点信息;
根据所述人体关键点信息得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
2.根据权利要求1所述的用于动作识别的神经网络生成方法,其特征在于,所述对目标图像进行检测,得到人体关键点信息,具体包括:
通过人体姿态估计算法对目标图像进行检测,得到人体关键点信息;
其中,所述人体关键点信息包括人体关键点的位置信息和/或人体关键点之间的角度信息。
3.根据权利要求2所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述人体关键点信息得到卷积核偏置信息,具体包括:
根据所述人体关键点信息生成特征向量;
根据所述特征向量基于初始卷积神经网络中的卷积核,得到与所述卷积核的维度相同的卷积核偏置信息。
4.根据权利要求3所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述卷积核偏置信息对初始卷积神经网络中的至少一个卷积核进行偏移,得到变形卷积核;
根据所述变形卷积核生成变形卷积神经网络。
5.根据权利要求2所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述人体关键点信息得到卷积核偏置信息,具体包括:
根据所述人体关键点信息生成特征向量;
根据所述特征向量基于三维卷积神经网络中的三维卷积核,得到空间维度偏移向量以及时间维度偏移向量。
6.根据权利要求5所述的用于动作识别的神经网络生成方法,其特征在于,所述根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络,具体包括:
根据所述空间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行空间偏移,得到空间变形卷积核;
根据所述时间维度偏移向量,对所述三维卷积神经网络中的三维卷积核进行时间偏移,得到时间变形卷积核;
根据所述空间变形卷积核与所述时间变形卷积核,得到三维变形卷积核;
根据所述三维变形卷积核生成变形卷积神经网络。
7.一种动作识别方法,其特征在于,包括:
对目标图像进行检测,得到人体关键点信息;
根据所述人体关键点信息得到卷积核偏置信息;
根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
8.一种用于动作识别的神经网络生成装置,其特征在于,包括:
提取模块,用于对目标图像进行检测,得到人体关键点信息;
获取模块,用于根据所述人体关键点信息得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络。
9.一种动作识别装置,其特征在于,包括:
提取模块,用于对目标图像进行检测,得到人体关键点信息;
获取模块,用于根据所述人体关键点信息得到卷积核偏置信息;
生成模块,用于根据所述卷积核偏置信息基于初始卷积神经网络生成变形卷积神经网络;
识别模块,用于根据所述变形卷积神经网络对所述目标图像进行识别,得到动作识别结果。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
11.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
CN201810815077.2A 2018-07-23 2018-07-23 动作识别方法及其神经网络生成方法、装置和电子设备 Active CN108960192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815077.2A CN108960192B (zh) 2018-07-23 2018-07-23 动作识别方法及其神经网络生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815077.2A CN108960192B (zh) 2018-07-23 2018-07-23 动作识别方法及其神经网络生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN108960192A true CN108960192A (zh) 2018-12-07
CN108960192B CN108960192B (zh) 2022-03-25

Family

ID=64464549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815077.2A Active CN108960192B (zh) 2018-07-23 2018-07-23 动作识别方法及其神经网络生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN108960192B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784347A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法
CN109815921A (zh) * 2019-01-29 2019-05-28 北京融链科技有限公司 加氢站中活动类别的预测方法及装置
CN110070036A (zh) * 2019-04-22 2019-07-30 北京迈格威科技有限公司 辅助运动动作训练的方法、装置及电子设备
CN110210429A (zh) * 2019-06-06 2019-09-06 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN110287350A (zh) * 2019-06-29 2019-09-27 北京字节跳动网络技术有限公司 图像检索方法、装置及电子设备
CN112115746A (zh) * 2019-06-21 2020-12-22 富士通株式会社 人体动作识别装置及方法、电子设备
CN112508776A (zh) * 2020-12-11 2021-03-16 网易(杭州)网络有限公司 动作迁移方法、装置和电子设备
CN112668359A (zh) * 2019-10-15 2021-04-16 富士通株式会社 动作识别方法、动作识别装置和电子设备
CN112733819A (zh) * 2021-03-30 2021-04-30 成都大学 一种基于深度学习图像处理的多模式安保监测方法
CN114973403A (zh) * 2022-05-06 2022-08-30 广州紫为云科技有限公司 一种基于时空双重维度特征深度网络的高效行为预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏军雄 等: "基于可变形卷积神经网络的手势识别方法", 《计算机与现代化》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784347B (zh) * 2018-12-17 2022-04-26 西北工业大学 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法
CN109784347A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法
CN109815921A (zh) * 2019-01-29 2019-05-28 北京融链科技有限公司 加氢站中活动类别的预测方法及装置
CN110070036A (zh) * 2019-04-22 2019-07-30 北京迈格威科技有限公司 辅助运动动作训练的方法、装置及电子设备
CN110210429A (zh) * 2019-06-06 2019-09-06 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN110210429B (zh) * 2019-06-06 2022-11-29 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN112115746A (zh) * 2019-06-21 2020-12-22 富士通株式会社 人体动作识别装置及方法、电子设备
CN110287350A (zh) * 2019-06-29 2019-09-27 北京字节跳动网络技术有限公司 图像检索方法、装置及电子设备
CN112668359A (zh) * 2019-10-15 2021-04-16 富士通株式会社 动作识别方法、动作识别装置和电子设备
CN112508776A (zh) * 2020-12-11 2021-03-16 网易(杭州)网络有限公司 动作迁移方法、装置和电子设备
CN112508776B (zh) * 2020-12-11 2024-02-27 网易(杭州)网络有限公司 动作迁移方法、装置和电子设备
CN112733819B (zh) * 2021-03-30 2021-06-18 成都大学 一种基于深度学习图像处理的多模式安保监测方法
CN112733819A (zh) * 2021-03-30 2021-04-30 成都大学 一种基于深度学习图像处理的多模式安保监测方法
CN114973403A (zh) * 2022-05-06 2022-08-30 广州紫为云科技有限公司 一种基于时空双重维度特征深度网络的高效行为预测方法
CN114973403B (zh) * 2022-05-06 2023-11-03 广州紫为云科技有限公司 一种基于时空双重维度特征深度网络的行为预测方法

Also Published As

Publication number Publication date
CN108960192B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN108960192A (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
EP3711024B1 (en) Event camera-based deformable object tracking
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
Simon et al. Hand keypoint detection in single images using multiview bootstrapping
Vieira et al. Stop: Space-time occupancy patterns for 3d action recognition from depth map sequences
US20200074165A1 (en) Image analysis using neural networks for pose and action identification
CN109101901A (zh) 人体动作识别及其神经网络生成方法、装置和电子设备
Vieira et al. On the improvement of human action recognition from depth map sequences using space–time occupancy patterns
Mariolis et al. Pose and category recognition of highly deformable objects using deep learning
CN108985443A (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
Zeng et al. View-invariant gait recognition via deterministic learning
CN109948497A (zh) 一种物体检测方法、装置及电子设备
CN106570480A (zh) 一种基于姿势识别的人体动作分类方法
CN112379773B (zh) 多人三维动作捕捉方法、存储介质及电子设备
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
CN111104930A (zh) 视频处理方法、装置、电子设备及存储介质
CN112861808B (zh) 动态手势识别方法、装置、计算机设备及可读存储介质
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和***
Liao et al. A two-stage method for hand-raising gesture recognition in classroom
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Yang et al. Self-supervised video pose representation learning for occlusion-robust action recognition
Chao et al. Adversarial refinement network for human motion prediction
CN113378799A (zh) 基于目标检测和姿态检测框架的行为识别方法及***
Ning et al. Dual path networks for multi-person human pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant