CN110472613B - 对象行为识别方法和装置 - Google Patents

对象行为识别方法和装置 Download PDF

Info

Publication number
CN110472613B
CN110472613B CN201910777053.7A CN201910777053A CN110472613B CN 110472613 B CN110472613 B CN 110472613B CN 201910777053 A CN201910777053 A CN 201910777053A CN 110472613 B CN110472613 B CN 110472613B
Authority
CN
China
Prior art keywords
frame
image
frame image
skeleton
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910777053.7A
Other languages
English (en)
Other versions
CN110472613A (zh
Inventor
张玉
高雪松
陈维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Co Ltd
Original Assignee
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Co Ltd filed Critical Hisense Co Ltd
Priority to CN201910777053.7A priority Critical patent/CN110472613B/zh
Publication of CN110472613A publication Critical patent/CN110472613A/zh
Application granted granted Critical
Publication of CN110472613B publication Critical patent/CN110472613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种对象行为识别方法和装置。该方法包括:获取目标视频中每一帧图像中每个对象的骨骼点信息。根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,索引编号用于唯一标识对应的对象,索引编号相同的对象为同一对象。将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定目标视频中每个索引编号对应的对象的行为信息。从而基于连续帧图像中每个对象之间的位置关系和/或姿态关系,实现对象的骨骼点追踪,提高了识别对象行为的准确率和速率。

Description

对象行为识别方法和装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种对象行为识别方法和装置。
背景技术
对象行为识别方法,可以在特定的时间、地点或者场合,识别出对象的行为信息,广泛应用于如智能视频监控、病人监护、人机交互、虚拟现实、智能家居、智能安防、运动员辅助训练、视频检索、智能图像压缩等各个领域中。其中,行为信息用于表示对象的活动状态或者行为动作,如走路、跑步、静止、上楼梯、下楼梯、睡觉或者打架等。
在单对象场景中,传统对象行为识别方法通过提取待识别的视频或者图像序列中单个对象的行为特征,可以识别出该对象的行为信息。然而,在多对象场景中,由于对象数量的不确定、对象行为的相互影响以及背景复杂多变等多个因素,导致传统对象行为识别方法提取到过多的行为特征,无法准确识别出对象的行为信息,使得识别准确率低下。
发明内容
本发明提供一种对象行为识别方法和装置,以解决由于传统对象行为识别方法在多对象场景中提取行为特征而无法准确识别出对象的行为信息的问题。
第一方面,本发明提供一种对象行为识别方法,包括:
获取目标视频中每一帧图像中每个对象的骨骼点信息;
根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象;
将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
第二方面,本发明提供一种对象行为识别装置,包括:
获取模块,用于获取目标视频中每一帧图像中每个对象的骨骼点信息;
确定模块,用于根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象;
处理模块,用于将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
本发明提供的对象行为识别方法和装置,通过获取目标视频中每一帧图像中每个对象的骨骼点信息。根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,其中,索引编号用于唯一标识对应的对象,索引编号相同的对象为同一对象。再将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定目标视频中每个索引编号对应的对象的行为信息。本发明中,根据人体运动具有连续性的特点,以及连续帧图像中运动位置和运动姿态不会发生很大的变化,可以通过连续帧图像中对象的位置关系和/姿态关系,对视频中每一帧图像中每个对象进行骨骼点跟踪,便可准确区分目标视频中的每个对象,解决了多对象场景中由于目标自遮挡、目标之间的相互遮挡以及背景对目标的遮挡等因素而造成跟丢或者错跟的情况,提高了对象分类的准确率和速率。再基于确定每一帧图像中每个对象以及根据每一帧图像中每个对象的骨骼点信息,无需记录人脸、着装、背景等数据,也无需传输影像视频数据,可以确定出对象的行为信息,不仅保障了用户的隐私需求,对识别对象不造成困扰,杜绝了数据在传输过程以及后期处理过程中被泄露的风险,还突破了场景中对象数量的限制,提高了对象行为识别的准确率。另外,本发明也无需携带硬件设备,摆脱了携带硬件设备的不便。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的对象行为识别方法的流程图;
图2为一种全部骨骼点的示意图;
图3为本发明提供的对象行为识别方法中连续8帧图像中两个对象的骨骼点信息的示意图;
图4为本发明提供的对象行为识别方法中连续8帧图像中每个对象的索引编号的示意图;
图5为本发明提供的对象行为识别方法的流程图;
图6为本发明提供的对象行为识别方法的流程图;
图7为本发明提供的对象行为识别方法中第n帧图像中一个对象的骨骼点信息以及第n+1帧图像中一个对象的骨骼点信息的示意图;
图8为本发明提供的对象行为识别方法中第n帧图像中一个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中一个对象的每个骨骼点各自对应的骨骼点包围框的示意图;
图9为本发明提供的对象行为识别方法的流程图;
图10为本发明提供的对象行为识别方法中第n帧图像中一个对象的骨架包围框以及第n+1帧图像中一个对象的骨架包围框的示意图;
图11为本发明提供的对象行为识别方法的流程图;
图12为本发明提供的对象行为识别装置的结构示意图;
图13为本发明提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种对象行为识别方法、装置、设备及存储介质,可适用于行为识别的单对象场景和多对象场景中,通过对视频中的每个对象进行骨骼点追踪,准确分割每个对象的行为特征,精准判断出视频中的连续帧图像中是否存在同一对象,还快速识别出每个对象的行为信息,能够满足如智能家居、智能工厂、智能医院等多个行业的不同需求。本实施例提供的对象行为识别方法可以由服务器执行,也可以由终端设备执行,本实施例对此不做限定。
下面,以服务器作为执行主体,通过具体实施例,对本实施例的对象行为识别方法的具体实现过程进行详细说明。
图1为本发明提供的对象行为识别方法的流程图,如图1所示,本实施例的对象行为识别方法可以包括:
S101、获取目标视频中每一帧图像中每个对象的骨骼点信息。
本实施例中,服务器可以通过服务器上的拍摄装置获取目标视频,也可以接收其他设备发送的目标视频。其中,本实施例对目标视频的格式、大小以及数量均不做限定。
进一步地,服务器可以利用传统技术或者新增技术,从目标视频中获取每一帧图像中每个对象的骨骼点信息,该骨骼点信息用于构成对应的对象的位置与姿态。其中,本实施例对骨骼点信息的具体内容不做限定。可选地,所述骨骼点信息包括:全部骨骼点的位置信息和全部骨骼点的姿态信息。
图2示出了人体骨骼点的结构图,本实施例的骨骼点可以如图2所示的18个人体骨骼点,分别为左眼关节点14、右眼关节点15、鼻子关节点0、左耳关节点16、右耳关节点17、颈部关节点1、左肩关节点2、右肩关节点5、左肘关节点3、右肘关节点6、左手关节点4、右手关节点7、左胯关节点8、右胯关节点11、左膝关节点9、右膝关节点12、左脚关节点10以及右脚关节点13。
另外,图2中,若任意两个骨骼点之间存在连接线,则表示这两个骨骼点具备连接关系。若任意两个骨骼点之间不存在连接线,则表示这两个骨骼点不具备连接关系。
需要说明的是,本实施例中的骨骼点不限于上述关节点。并且,服务器获取每个对象的骨骼点信息可以为上述全部关节点,也可以为上述部分关节点,本实施例对此不做限定。
下面,采用一种可行的实现方式对服务器获取目标视频中每一帧图像中每个对象的骨骼点信息的具体实现过程进行描述。
可选地,服务器基于视觉的姿态估计算法,可以分别获取目标视频中每一帧图像中每个骨骼点的位置信息以及目标视频中每一帧图像中每个对象的姿态信息,以确定每个对象的骨骼点信息。
例如,针对目标视频中的任意一帧图像,服务器基于openpose算法,通过VGG-19网络模型提取该帧图像的全部特征,将全部特征分别进入到骨骼点位置可信度网络和关节点间连接关系的部分亲和域分析网络中。
在骨骼点位置可信度网络中,通过计算局部可信度图确定每个骨骼点的多个关键点位置,再通过非极大值抑制方法,取每个骨骼点的多个关键点位置的平均值以获得每个骨骼点的位置信息。
其中,该位置信息可以表示为该骨骼点位于所在帧图像的横纵坐标信息,也可以为其他表示形式,本实施例对此不做限定。为了方便处理,目标视频中每一帧图像中的每个骨骼点的位置信息通常采用同一坐标系。
在关节点间连接关系的部分亲和域分析网络中,通过人体关键点部分亲和场网络进行偶匹配,将同一对象的关节点连接起来,实现人体姿态估计,可以获得每个对象的姿态信息。
其中,该姿态信息可以表示为同一帧图像中任意两个骨骼点之间的连接关系,用于确定在空间上对象的姿态。以任意一帧图像中的左眼关节点14分别与右眼关节点15和鼻子关节点0为例,如图2所示,该帧图像中的左眼关节点14的姿态信息可以表示为左眼关节点14与右眼关节点15不具备连接关系,左眼关节点14与鼻子关节点0具备连接关系。
另外,服务器还可以基于每个骨骼点的位置信息,将不同帧图像中相同类型的骨骼点连接起来,以丰富每个对象的姿态信息。其中,该姿态信息还可以表示为连续帧图像中全部骨骼点之间的连接关系,用于确定在时间上骨骼点的姿态。
以第2帧图像中的左眼关节点14和第1帧图像中的骨骼点为例,第2帧图像中的左眼关节点14的姿态信息还可以表示为第2帧图像中的左眼关节点14与第1帧图像中的左眼关节点14具备连接关系,第2帧图像中的左眼关节点14与第1帧图中的除了左眼关节点14之外的骨骼点不具备连接关系。
S102、根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象。
在传统对象行为识别方法中,服务器在获取到目标视频中每一帧图像中每个对象的骨骼点信息时,会直接将目标视频和每一帧图像中每个对象的骨骼点信息共同输入到卷积神经网络中,造成同一帧图像中对象数量过多而误识别增多的情况,使得识别对象行为的准确率下降。
考虑到每个对象的行为独特性,以及基于人体运动具有连续性的特点,连续帧图像中每个骨骼点的位置信息和姿态信息不会发生很大的变化,因此,本实施例中的服务器可以根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象的位置和/或姿态进行骨骼点追踪,以确定在连续帧图像中是否出现同一对象,从而得到每一帧图像中每个对象的索引编号,准确识别出目标视频中的每个对象,有利于提高多对象场景中行为识别以及对象跟踪等各种应用的准确率。
S103、将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
本实施例中,服务器可以将每一帧图像中每个对象的骨骼点信息和每个对象的索引编号输入到目标卷积神经网络。由于骨骼点信息不仅可以为全部骨骼点的位置信息,即表示空间信息,还可以为全部骨骼点的姿态信息(同一帧图像中任意两个骨骼点之间的连接关系以及连续帧图像中全部骨骼点之间的连接关系),即表示时间信息,因此,目标卷积神经网络可以沿着空间和时间两个维度对输入的信息进行整合,对每个对象的行为特征进行分类,识别出目标视频中每个索引编号对应的对象的行为信息。
其中,该行为信息可参照前述内容,此处不做赘述。该目标卷积神经网络可以为现有的卷积神经网络,也可以为用于识别对象的行为信息的时空图卷积神经网络,本实施例对此不做限定。
在一个具体的实施例中,用户A通过家中安装的摄像头,可以拍摄监控家中老人的活动情况,并可以将拍摄到的视频保存在云端服务器。云端服务器可以利用本实施例的对象行为识别方法,实时监控家中老人的活动情况。在用户A通过手机可以向云端服务器发送指令时,云端服务器可以通过手机告知用户A家中老人当前的活动情况,如告知家中老人在9点左右发生摔跤的情况,或者,家中老人在10点左右与其他人打架等行为动作。
为了便于说明,结合图3和图4,对云端服务器采用本实施例的对象行为识别方法,识别家中老人在10点左右与其他人(图3和图4中以一个对象进行举例)发生打架行为的过程进行描述。
云端服务器从视频中采集到了两个对象打架的连续8帧图像,并得到如图3所示的连续8帧图像中这两个对象的骨骼点信息。接着,云端服务器根据图3所示的连续8帧图像中这两个对象的骨骼点信息,分别对连续8帧图像中这两个对象进行骨骼点追踪,确定出如图4所示的连续8帧图像中每个对象的索引编号。其中,图4中以“1”和“2”分别表示这两个对象的索引编号,且图4中的8幅图与图3中的8副图一一对应。然后,云端服务器将连续8帧图像中这两个对象的骨骼点信息以及连续8帧图像中每个对象的索引编号输入到时空图卷积神经网络中,进行行为识别,可以确定出这两个对象发生打架行为。
需要说明的是,服务器在识别出目标视频中每个索引编号对应的对象的行为信息时,还可以利用人脸识别算法,确定具体对象的行为信息。其中,该人脸识别算法可以集成设置在目标卷积神经网络中,也可以独立设置成一个卷积神经网络,本实施例对此不做限定。
本实施例提供的对象行为识别方法,通过获取目标视频中每一帧图像中每个对象的骨骼点信息。根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,其中,索引编号用于唯一标识对应的对象,索引编号相同的对象为同一对象。再将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定目标视频中每个索引编号对应的对象的行为信息。本实施例中,根据人体运动具有连续性的特点,以及连续帧图像中运动位置和运动姿态不会发生很大的变化,可以通过连续帧图像中对象的位置关系和/姿态关系,对视频中每一帧图像中每个对象进行骨骼点跟踪,便可准确区分目标视频中的每个对象,解决了多对象场景中由于目标自遮挡、目标之间的相互遮挡以及背景对目标的遮挡等因素而造成跟丢或者错跟的情况,提高了对象分类的准确率和速率。再基于确定每一帧图像中每个对象以及根据每一帧图像中每个对象的骨骼点信息,无需记录人脸、着装、背景等数据,也无需传输影像视频数据,可以确定出对象的行为信息,不仅保障了用户的隐私需求,对识别对象不造成困扰,杜绝了数据在传输过程以及后期处理过程中被泄露的风险,还突破了场景中对象数量的限制,提高了对象行为识别的准确率。另外,本实施例也无需携带硬件设备,摆脱了携带硬件设备的不便。
在上述图1实施例的基础上,结合图5,对S102中服务器根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号的一种可行的实现方式进行描述。
图5为本发明提供的对象行为识别方法的流程图,如图5所示,本实施例的对象行为识别方法可以包括:
S201、获取目标视频中每一帧图像中每个对象的骨骼点信息。
其中,S201与图1实施例中的S101实现方式类似,本实施例此处不再赘述。
S2021、根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,其中,n取遍小于N+1的正整数,N为所述目标视频的总帧数,所述匹配重合比例用于表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度。
S2022、根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号。
基于人体运动具有连续性的特点,连续帧图像中对象的位置以及姿态均不会发生很大的变化,因此,本实施例中的服务器可以通过匹配目标视频中连续帧图像中的对象,准确且快速识别出连续帧图像中是否存在同一对象,从而确定每一帧图像中每个对象的索引编号。
本实施例中,服务器可以从第1帧图像开始,对第1帧图像中的每个对象进行索引编号,再根据第1帧图像中每个对象的全部骨骼点信息以及第2帧图像中每个对象的全部骨骼点信息,分别对第2帧图像中每个对象与第1帧图像中全部对象进行匹配,从而分别确定出第2帧图像中每个对象与第1帧图像中全部对象的匹配重合比例。
其中,对象的索引编号可以采用数字、字母、二级制数等各种表示形式,本实施例对此不做限定。另外,匹配重合比例可以采用分数、小数、标识等各种表示形式,本实施例对此不做限定。
由于匹配重合比例可以表示第2帧图像中每个对象与第1帧图像中全部对象之间的匹配程度,即该匹配重合比例可以表示出第2帧图像中每个对象与第1帧图像中全部对象之间的位置关系和/或姿态关系,因此,服务器可以根据第1帧图像中的全部对象的索引编号以及第2帧图像中每个对象与第1帧图像中全部对象的匹配重合比例,判断第2帧图像与第1帧图像中是否存在同一对象,从而确定出第2帧图像中每个对象的索引编号。
本实施例中,服务器在确定第2帧图像中全部对象的索引编号时,可以根据第2帧图像中每个对象的全部骨骼点信息以及第3帧图像中每个对象的全部骨骼点信息,分别对第3帧图像中每个对象与第2帧图像中全部对象进行匹配,从而分别确定第2帧图像中每个对象与第3帧图像中全部对象的匹配重合比例。
进一步地,服务器可以根据第2帧图像中全部对象的索引编号以及第2帧图像中每个对象与第3帧图像中全部对象的匹配重合比例,判断第3帧图像与第2帧图像中是否存在同一对象,从而确定出第3帧图像中每个对象的索引编号。
本实施例中,服务器可以继续确定第4帧图像中每个对象的索引编号,直至遍历目标视频中的第N帧图像(即最后一帧图像)为止,便可确定出目标视频中每一帧图像中每个对象的索引编号。
一方面,由于匹配重合比例不仅可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的位置关系,还可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的姿态关系,还可以同时表示上述两种关系,因此,服务器可以基于连续帧图像中每个对象的位置关系和/或姿态关系,实现S2021中根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例的过程。
下面,采用两种可行的实现方式,分别结合图6-图10,对服务器确定匹配重合比例的过程进行描述。
一种可行的实现方式中,服务器可以基于连续帧图像中每个对象的相同类型的骨骼点之间的重叠程度,判断连续帧图像中每个对象之间的姿态关系,以获得后一帧图像中每个对象与前一帧图像中全部对象的匹配重合比例,从而确定连续帧图像中是否出现同一对象。
下面,结合图6,对服务器确定匹配重合比例的具体过程进行描述。
图6为本发明提供的对象行为识别方法的流程图,如图6所示,本实施例的对象行为识别方法可以包括:
S301、根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框。
本实施例中,图7中的左图示出了第n帧图像中一个对象的骨骼点信息,图7中的右图示出了第n+1帧图像中一个对象的骨骼点信息(图7中对象的骨骼点以包括图2所示的全部关节点进行示意,骨骼点信息采用黑点表示)。服务器可以基于图7中左图所示的第n帧图像中全部骨骼点的位置信息,确定每个骨骼点对应的骨骼点包围框,也可以基于第n帧图像中的每个对象的全部骨骼点的位置信息,通过n帧图像中一个对象的全部骨骼点接着n帧图像中另一个对象的骨骼点,分别确定第n帧图像中每个对象的每个骨骼点各自的骨骼点包围框,如图8中的左图所示。其中,为了便于说明,图8中的一个矩形框代表一个骨骼点的骨骼点包围框。
其中,本实施例可以根据实际情况,对骨骼点的骨骼点包围框的大小和形状进行设置。例如,任意一个骨骼点的骨骼点包围框可以为以基于该骨骼点的横纵坐标各减去30像素后的横纵坐标作为该骨骼点的骨骼点包围框的左上角坐标,长宽均为60像素的矩形框。并且,骨骼点的骨骼点包围框可以采用如多个横纵坐标位置、一个坐标位置加上尺寸大小等表示方式,本实施例对此不做限定。
S302、根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框。
本实施例中,服务器根据图7中左图所示的第n+1帧图像中每个对象的全部骨骼点信息,可以确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,如图8中的右图所示,具体实现过程可参见S301的描述内容,此处不做赘述。
S303、根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
本实施例中,服务器在获得到第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框时,可以对连续帧图像中每个对象的对应的骨骼点的骨骼点包围框一一进行重叠比对,以便确定出后一帧图像中每个对象的全部骨骼点与前一帧图像中全部对象对应的骨骼点的骨骼点重合比例。
进一步地,服务器可以从第n+1帧图像中的第一个对象开始,对第n+1帧图像中的第一个对象的每个骨骼点各自对应的骨骼点包围框与第n帧图像中全部对象对应的骨骼点的骨骼点包围框进行重叠比对,得到第一个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例,直至第n+1帧图像中的最后一个对象为止,以便确定出第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
其中,骨骼点重合比例可以采用分数、小数、标识等各种表示形式,本实施例对此不做限定。
另外,服务器可以采用多种实现方式,实现根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的全部骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例的过程。
可选地,针对第n+1帧图像中任意一个对象(称为目标对象)的任意一个骨骼点(称为目标骨骼点),服务器可以基于第n+1帧图像中目标对象的目标骨骼点的骨骼点包围框与第n帧图像中全部对象的与目标骨骼点相同类型的骨骼点的骨骼点包围框,分别计算出第n+1帧图像中目标对象的目标骨骼点的骨骼点包围框与第n帧图像中全部对象的与目标骨骼点相同类型的骨骼点的骨骼点包围框之间的交集和并集之比。
例如,第n+1帧图像中包括对象1和对象2,对象1包括骨骼点1和骨骼点2,对象2包括骨骼点3。第n帧图像中包括对象3和对象4,对象3包括骨骼点2,对象4包括骨骼点1和骨骼点3。
针对第n+1帧图像中的对象1的骨骼点1,第n帧图像中对象3不存在骨骼点1,对象4存在骨骼点1。从而,服务器可以计算出第n+1帧图像中对象1的骨骼点1的骨骼点包围框与第n帧图像中对象4的骨骼点1的骨骼点包围框之间的交集和并集之比。
针对第n+1帧图像中的对象1的骨骼点2,第n帧图像中对象3存在骨骼点2,对象4不存在骨骼点2。从而,服务器可以计算出第n+1帧图像中对象1的骨骼点2的骨骼点包围框与第n帧图像中对象3的骨骼点2的骨骼点包围框之间的交集和并集之比。
针对第n+1帧图像中的对象2的骨骼点3,第n帧图像中对象3不存在骨骼点3,对象4存在骨骼点3。从而,服务器可以计算出第n+1帧图像中对象2的骨骼点3的骨骼点包围框与第n帧图像中对象4的骨骼点3的骨骼点包围框之间的交集和并集之比。
其中,该交集和并集之比可以为两个包围框的面积交集与这两个包围框的面积并集之间的比值,也可以为两个包围框的面积交集与一帧图像的面积之间的比值,本实施例对此不做限定。另外,该交集和并集之比可以采用分数、小数、标识等各种表示形式,本实施例对此也不做限定。
例如,包围框A和包围框B的交集和并集之比可以用重叠度(intersection overunion,IOU)表示,IOU的计算公式为IOU=A∩B/A∪B,确定出了包围框A和包围框B的重合程度。其中,IOU在理想情况下为1。
由于上述交集和并集之比可以表示出两个骨骼点包围框的重合程度,因此,服务器可以将第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框与第n帧图像中全部对象对应的骨骼点的骨骼点包围框之间的交集和并集之比确定为第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
S304、根据第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
由于骨骼点重合比例可以表示第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的重叠程度,因此,骨骼点重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的姿态关系。又由于匹配重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度,因此,本实施例中,服务器可以从第n+1帧图像中第一个对象开始,取第n+1帧图像中第一个对象的全部骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例的均值、最大值、最小值等形式,作为第n+1帧图像中第一个对象与第n帧图像中全部对象的匹配重合比例,直至第n+1帧图像中最后一个对象为止,以便确定出第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
本实施例中,根据人体运动具有连续性的特点,以及连续帧图像中运动位置和运动姿态不会发生很大的变化,不仅可以通过连续帧图像中对象的姿态关系,得到后一帧图像中每个对象与前一帧图像中全部对象的匹配重合比例,以快速且准确的判断出连续帧图像中是否存在同一对象。
另一种可行的实现方式中,服务器不仅可以基于连续帧图像中每个对象的相同类型的骨骼点之间的重叠程度,判断连续帧图像中每个对象之间的姿态关系,还可以基于连续帧图像中每个对象之间的整体重合程度,判断连续帧图像中每个对象之间的位置关系,以获得后一帧图像中每个对象与前一帧图像中全部对象的匹配重合比例,从而确定连续帧图像中是否出现同一对象。
下面,结合图9,对服务器确定匹配重合比例的具体过程进行描述。
图9为本发明提供的对象行为识别方法的流程图,如图9所示,本实施例的对象行为识别方法可以包括:
S401、根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n帧图像中每个对象的骨架包围框。
本实施例中,服务器基于图7中左图所示的第n帧图像中每个对象的位置信息,可以从第n帧图像中的第一个对象开始,将包围第一对象的范围确定为第n帧图像中第一对象的骨架包围框,直至第n帧图像中的最后一个对象为止,以便确定出第n帧图像中每个对象的骨架包围框,如图10中的左图所示。其中,为了便于说明,图10中的一个矩形框代表一个对象的骨架包围框。
其中,本实施例可以根据实际情况,对对象的骨架包围框的大小和形状进行设置。例如,任意一个对象的骨架包围框可以确定为包围第一对象的最小范围的矩形框。并且,对象的骨架包围框可以采用如多个横纵坐标位置、一个坐标位置加上尺寸大小等表示方式,本实施例对此不做限定。
其中,服务器确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框的具体实现过程与图6实施例中的S301实现方式类似,本实施例此处不再赘述。
S402、根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的骨架包围框。
其中,服务器确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框具体实现过程与图6实施例中的S302实现方式类似,本实施例此处不再赘述。并且,服务器基于图7中右图所示的第n+1帧图像中每个对象的全部骨骼点信息,可以确定第n+1帧图像中每个对象的骨架包围框,如图10中的右图所示,其具体实现过程可参见S401中确定第n帧图像中每个对象的骨架包围框的描述内容,此处不做赘述。
S403、根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
其中,S403与图6实施例中的S303实现方式类似,本实施例此处不再赘述。
S404、根据第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框,确定第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例。
本实施例中,服务器在获得到第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框时,可以对连续帧图像中每个对象的的骨架包围框一一进行重叠比对,以便确定出后一帧图像中每个对象与前一帧图像中全部对象的整体重合比例。
进一步地,服务器可以从第n+1帧图像中的第一个对象开始,对第n+1帧图像中的第一个对象的骨架包围框与第n帧图像中全部对象的骨架包围框进行重叠比对,得到第一个对象与第n帧图像中全部对象的整体重合比例,直至第n+1帧图像中的最后一个对象为止,以便确定出第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例。
其中,整体重合比例可以采用分数、小数、标识等各种表示形式,本实施例对此不做限定。
另外,服务器可以采用多种实现方式,实现根据第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框,确定第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例的过程。
可选地,针对第n+1帧图像中的任意一个对象(称为目标对象),服务器可以基于第n+1帧图像中目标对象的骨架包围框与第n帧图像中全部对象的骨架包围框,分别计算出第n+1帧图像中目标对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比。
其中,该交集和并集之比可参照图6中S303的描述,此处不做赘述。
由于上述交集和并集之比可以表示出两个包围框的重合程度,因此,服务器可以将第n+1帧图像中每个对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比确定为第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例。
S405、根据骨骼点重合比例和整体重合比例之间的权重关系,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
由于骨骼点重合比例可以表示第n+1帧图像中每个对象的全部骨骼点与第n帧图像中全部对象对应的骨骼点的重叠程度,整体重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象的重叠程度,因此,骨骼点重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的姿态关系,整体重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的位置关系。
又由于匹配重合比例可以表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度,因此,本实施例中,服务器可以从第n+1帧图像中第一个对象开始,基于骨骼点重合比例和整体重合比例之间的权重关系,根据第n+1帧图像中第一个对象的全部骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例的均值、最大值、最小值等形式,与第n+1帧图像中第一个对象的整体重合比例,计算得到第n+1帧图像中第一个对象与第n帧图像中全部对象的匹配重合比例,直至第n+1帧图像中最后一个对象为止,以便确定出第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
其中,基于骨骼点重合比例和整体重合比例之间的权重关系,可以通过公式MatchScore=w1×BoxScore+w2×PoseScore计算得到匹配重合比例,BoxScore代表骨骼点重合比例,PoseScore代表整体重合比例,MatchScore代表匹配重合比例,w1+w2=1,w1代表骨骼点重合比例的权重比例,w2代表整体重合比例的权重比例。
需要说明的是,在目标视频中出现空白帧图像(由于镜头遮挡或者处理过程中偶然出现的异常导致)时,可以将前一帧图像中每个对象的骨骼点信息作为该空白帧图像中的骨骼点信息。
另外,除了上述两种可行的实现方式之外,服务器还可以基于连续帧图像中每个对象之间的整体重合程度,判断连续帧图像中每个对象之间的位置关系,以获得后一帧图像中每个对象与前一帧图像中全部对象的匹配重合比例,从而确定连续帧图像中是否出现同一对象。
本实施例中,根据人体运动具有连续性的特点,以及连续帧图像中运动位置和运动姿态不会发生很大的变化,可以结合通过连续帧图像中对象的位置关系和姿态关系,得到后一帧图像中每个对象与前一帧图像中全部对象的匹配重合比例,确保了即使出现不同对象的位置相近但姿态不同的场景,仍可以快速且准确的判断出连续帧图像中是否存在同一对象。
另一方面,由于匹配重合比例可以表示第n+1帧图像中每个对象与第n帧图像中每个对象之间的匹配程度,因此,服务器可以基于第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,实现S2022中根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号的过程。
一种可行的实现方式中,图11为本发明提供的对象行为识别方法的流程图,如图11所示,本实施例的对象行为识别方法可以包括:
S501、从第n+1帧图像中的目标对象与第n帧图像中全部对象的匹配重合比例中,确定最大匹配重合比例,所述目标对象为第n+1帧图像中任意一个对象。
本实施例中,针对第n+1帧图像中的任意一个对象(称为目标对象),服务器可以从目标对象与第n帧图像中全部对象的匹配重合比例中,选择出最大值,确定出最大匹配重合比例。
进一步地,服务器可以判断最大匹配重合比例与预设阈值之间的大小关系。若判断出最大匹配重合比例大于或等于预设阈值,则执行S502。若判断出最大匹配重合比例小于预设阈值,则执行S503。
其中,预设阈值的大小可以根据实际经验值进行设置,本实施例对此不做限定。
S502、确定所述目标对象的索引编号为所述最大匹配重合比例对应的第n帧图像中对象的索引编号。
本实施例中,在最大匹配重合比例大于或等于预设阈值时,服务器可以确定目标对象与该最大匹配重合比例对应的第n帧图像中对象之间的匹配程度达到了判定者两个对象同为一个对象的条件,从而可以确定目标对象的索引编号为该最大匹配重合比例对应的第n帧图像中对象的索引编号。
例如,该最大匹配重合比例对应的第n帧图像中对象的索引编号为A11,则目标对象的索引编号为A11。
需要说明的是,在该最大匹配重合比例对应的第n帧图像中对象有多个时,可以随机选择其中一个对象的索引编号作为目标对象的索引编号。
S503、确定所述目标对象的索引编号为与第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象均不同的索引编号。
本实施例中,在最大匹配重合比例小于预设阈值时,服务器可以确定目标对象与该最大匹配重合比例对应的第n帧图像中对象之间的匹配程度未达到判定这两个对象同为一个对象的条件,这样,目标对象与第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象均不是同一对象,从而可以确定所述目标对象的索引编号为与第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象均不同的索引编号。
其中,目标对象的索引编号可以采用在第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象的索引编号中最大索引编号的基础上加1的计算方式,也可以采用其他计算方式,本实施例对此不做限定。例如,第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象的索引编号包括A11-A15,则目标对象的索引编号可以设置为A16。
需要说明的是,在最大匹配重合比例等于预设阈值时,服务器也可以执行S503,本实施例对此不做限定。
本实施例中,通过第n+1帧图像中的每个对象与第n帧图像中全部对象的匹配重合比例,确定出后一帧图像中每个对象与前一帧图像中全部对象的最大匹配重合比例,再通过预设阈值与最大匹配重合比例之间的比较,确定连续帧图像中是否出现同一对象,避免了两个对象之间的匹配程度较低而认定这两个对象为同一对象的情况,提高了识别对象的准确率。
S203、将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
其中,S203与图1实施例中的S103实现方式类似,本实施例此处不再赘述。
需要说明的是,输入到除了目标视频中每一帧图像中每个对象的全部骨架点信息每个对象的索引编号和之外,还可以包括:目标视频中每一帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框所在帧数、每个对象的骨架包围框所在帧数以及每个对象的骨架点分数,该骨架点分数用于表明该骨骼点为当前类型的概率大小。
本实施例中,通过获取目标视频中每一帧图像中每个对象的骨骼点信息。根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,其中,n取遍小于N+1的正整数,N为所述目标视频的总帧数,匹配重合比例用于表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度。再根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号。接着将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。本实施例中,根据人体运动具有连续性的特点,以及连续帧图像中运动位置和运动姿态不会发生很大的变化,可以通过连续帧图像中对象的位置关系和/姿态关系,对视频中每一帧图像中每个对象进行骨骼点跟踪,得到后一帧图像中每个对象与前一帧图像中全部对象之间的匹配重合比例,以判断出连续帧图像中是否出现同一对象,便可确定目标视频中每个对象之间的对应关系,解决了多对象场景中由于目标自遮挡、目标之间的相互遮挡以及背景对目标的遮挡等因素而造成跟丢或者错跟的情况,提高了对象分类的准确率和速率。再基于确定每一帧图像中每个对象以及根据每一帧图像中每个对象的骨骼点信息,无需记录人脸、着装、背景等数据,也无需传输影像视频数据,可以确定出对象的行为信息,不仅保障了用户的隐私需求,对识别对象不造成困扰,杜绝了数据在传输过程以及后期处理过程中被泄露的风险,还突破了场景中对象数量的限制,提高了对象行为识别的准确率。另外,本实施例也无需携带硬件设备,摆脱了携带硬件设备的不便。
在一个具体实施例中,采用本实施例的对象行为识别方法的详细过程可以包括:
步骤1、从目标视频中获取每一帧图像中每个对象的骨骼点信息。其中,该骨骼点信息包括:全部骨骼点的位置信息和全部骨骼点的姿态信息。
步骤2、基于每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,判断连续帧图像中是否存在同一对象,从而确定每一帧图像中每个对象的索引编号。
步骤21、建立第1帧图像中每个对象的索引编号,获取第1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框PoseScore以及每个对象的骨架包围框BoxScore。并记录第1帧图像中每个对象的全部骨架点信息、每个对象的索引编号、每个对象的每个骨骼点各自对应的骨骼点包围框PoseScore所在帧数、每个对象的骨架包围框BoxScore所在帧数以及每个对象的骨架点分数。
步骤22、获取第2帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框PoseScore以及每个对象的骨架包围框BoxScore。
步骤23、根据公式IOU=A∩B/A∪B,计算第2帧图像中每个对象与第1帧图像中全部对像的骨骼点重合比例PoseScore,以及计算第2帧图像中每个对象与第1帧图像中全部对像的整体重合比例BoxScore。
步骤24、根据公式MatchScore=w1×BoxScore+w2×PoseScore,计算第2帧图像中每个对象与第1帧图像中全部对像的匹配重合比例MatchScore。
步骤25、针对第2帧图像中任意一个对象,从第2帧图像中该对象与第1帧图像中全部对像的匹配重合比例MatchScore中,确定最大匹配重合比例Max_MatchScore。并比较最大匹配重合比例Max_MatchScore与预设阈值MactchThreshold。在最大匹配重合比例Max_MatchScore大于或者等于预设阈值MactchThreshold时,确定该对象的索引编号为最大匹配重合比例对应的第1帧图像中对象的索引编号。在最大匹配重合比例Max_MatchScore小于预设阈值MactchThreshold时,确定该对象的索引编号为新的索引编号,与第1帧图像和第2帧图像中全部对象的索引编号均不同。重复执行步骤25,直至第2帧图像中每个对象的索引编号均确定为止。并记录第2帧图像中每个对象的全部骨架点信息、每个对象的索引编号、每个对象的每个骨骼点各自对应的骨骼点包围框PoseScore所在帧数、每个对象的骨架包围框BoxScore所在帧数以及每个对象的骨架点分数。
步骤26、重复执行步骤21-步骤25,继续确定从第3帧到第N帧图像中每个对象的索引编号,其中,N为目标视频的总帧数。
步骤3、将目标视频中每一帧图像中每个对象的全部骨架点信息、每个对象的索引编号、每个对象的每个骨骼点各自对应的骨骼点包围框PoseScore所在帧数、每个对象的骨架包围框BoxScore所在帧数以及每个对象的骨架点分数输入到目标卷积神经网络进行行为识别,从而确定目标视频中每个索引编号对应的对象的行为信息。
图12为本发明提供的对象行为识别装置的结构示意图,如图12所示,本实施例的对象行为识别装置100可以包括:获取模块11、确定模块12和处理模块13。
获取模块11,用于获取目标视频中每一帧图像中每个对象的骨骼点信息;
确定模块12,用于根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象;
处理模块13,用于将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
可选地,所述确定模块12,用于根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,其中,n取遍小于N+1的正整数,N为所述目标视频的总帧数,所述匹配重合比例用于表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度;根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号。
可选地,确定模块12,具体用于根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框;根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框;根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例;根据第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
可选地,确定模块12,具体还用于根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n帧图像中每个对象的骨架包围框;根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的骨架包围框;根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例;根据第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框,确定第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例;根据骨骼点重合比例和整体重合比例之间的权重关系,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
可选地,确定模块12,具体还用于针对第n+1帧图像中目标对象的目标骨骼点,确定第n+1帧图像中目标对象的目标骨骼点的骨骼点包围框与第n帧图像中全部对象的与目标骨骼点相同类型的骨骼点的骨骼点包围框之间的交集和并集之比,目标对象为第n+1帧图像中任意一个对象,目标骨骼点为目标对象的任意一个骨骼点;将第n+1帧图像中每个对象的全部骨骼点的骨骼点包围框与第n帧图像中全部对象对应的骨骼点的骨骼点包围框之间的交集和并集之比确定为第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
可选地,确定模块12,具体还用于针对第n+1帧图像中的目标对象,确定第n+1帧图像中目标对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比,目标对象为第n+1帧图像中任意一个对象点;将第n+1帧图像中每个对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比确定为第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例。
可选地,确定模块12,具体还用于从第n+1帧图像中的目标对象与第n帧图像中全部对象的匹配重合比例中,确定最大匹配重合比例,所述目标对象为第n+1帧图像中任意一个对象;在所述最大匹配重合比例大于或等于预设阈值时,确定所述目标对象的索引编号为所述最大匹配重合比例对应的第n帧图像中对象的索引编号;在所述最大匹配重合比例小于预设阈值时,确定所述目标对象的索引编号为与第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象均不同的索引编号。
可选地,所述骨骼点信息包括:全部骨骼点的位置信息和姿态信息。
本实施例的对象行为识别装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例中可以根据上述方法示例对对象行为识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图13为本发明提供的电子设备的硬件结构示意图。如图13所示,该电子设备20,用于实现上述任一方法实施例中对应于服务器或终端设备的操作,本实施例的电子设备20可以包括:存储器21和处理器22;
存储器21,用于存储计算机程序;
处理器22,用于执行存储器存储的计算机程序,以实现上述实施例中的对象行为识别方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器21既可以是独立的,也可以跟处理器22集成在一起。
当存储器21是独立于处理器22之外的器件时,电子设备20还可以包括:
总线23,用于连接存储器21和处理器22。
可选地,本实施例还包括:通信接口24,该通信接口24可以通过总线23与处理器22连接。处理器22可以控制通信接口23来实现电子设备20的上述的接收和发送的功能。
本实施例提供的电子设备可用于执行上述的对象行为识别方法,其实现方式和技术效果类似,本实施例此处不再赘述。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机程序,计算机程序用于实现如上实施例中的对象行为识别方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种对象行为识别方法,其特征在于,包括:
获取目标视频中每一帧图像中每个对象的骨骼点信息;
根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象,所述骨骼点信息包括:全部骨骼点的位置信息和全部骨骼点的姿态信息;
将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
2.根据权利要求1所述的方法,其特征在于,所述根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,包括:
根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,其中,n取遍小于N+1的正整数,N为所述目标视频的总帧数,所述匹配重合比例用于表示第n+1帧图像中每个对象与第n帧图像中全部对象之间的匹配程度;
根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号。
3.根据权利要求2所述的方法,其特征在于,所述根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,包括:
根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框;
根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框;
根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例;
根据第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
4.根据权利要求2所述的方法,其特征在于,所述根据第n帧图像中每个对象的全部骨骼点信息以及第n+1帧图像中每个对象的全部骨骼点信息,分别确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,包括:
根据第n帧图像中每个对象的全部骨骼点信息,确定第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n帧图像中每个对象的骨架包围框;
根据第n+1帧图像中每个对象的全部骨骼点信息,确定第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的骨架包围框;
根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例;
根据第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框,确定第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例;
根据骨骼点重合比例和整体重合比例之间的权重关系,确定第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例。
5.根据权利要求3所述的方法,其特征在于,所述根据第n帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框以及第n+1帧图像中每个对象的每个骨骼点各自对应的骨骼点包围框,确定第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例,包括:
针对第n+1帧图像中目标对象的目标骨骼点,确定第n+1帧图像中目标对象的目标骨骼点的骨骼点包围框与第n帧图像中全部对象的与所述目标骨骼点相同类型的骨骼点的骨骼点包围框之间的交集和并集之比,所述目标对象为第n+1帧图像中任意一个对象,所述目标骨骼点为所述目标对象的任意一个骨骼点;
将第n+1帧图像中每个对象的全部骨骼点的骨骼点包围框与第n帧图像中全部对象对应的骨骼点的骨骼点包围框之间的交集和并集之比确定为第n+1帧图像中每个对象的每个骨骼点与第n帧图像中全部对象对应的骨骼点的骨骼点重合比例。
6.根据权利要求4所述的方法,其特征在于,所述根据第n帧图像中每个对象的骨架包围框以及第n+1帧图像中每个对象的骨架包围框,确定第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例,包括:
针对第n+1帧图像中的目标对象,确定第n+1帧图像中目标对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比,所述目标对象为第n+1帧图像中任意一个对象点;
将第n+1帧图像中每个对象的骨架包围框与第n帧图像中全部对象的骨架包围框之间的交集和并集之比确定为第n+1帧图像中每个对象与第n帧图像中全部对象的整体重合比例。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述根据第n帧图像中全部对象的索引编号以及第n+1帧图像中每个对象与第n帧图像中全部对象的匹配重合比例,确定第n+1帧图像中每个对象的索引编号,包括:
从第n+1帧图像中的目标对象与第n帧图像中全部对象的匹配重合比例中,确定最大匹配重合比例,所述目标对象为第n+1帧图像中任意一个对象;
在所述最大匹配重合比例大于或等于预设阈值时,确定所述目标对象的索引编号为所述最大匹配重合比例对应的第n帧图像中对象的索引编号;
在所述最大匹配重合比例小于预设阈值时,确定所述目标对象的索引编号为与第n帧图像中全部对象的索引编号以及第n+1帧图像中其余对象均不同的索引编号。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述骨骼点信息包括:全部骨骼点的位置信息和姿态信息。
9.一种对象行为识别装置,其特征在于,包括:
获取模块,用于获取目标视频中每一帧图像中每个对象的骨骼点信息;
确定模块,用于根据每一帧图像中每个对象的骨骼点信息,对每一帧图像中每个对象进行骨骼点追踪,确定每一帧图像中每个对象的索引编号,所述索引编号用于唯一标识对应的对象,所述索引编号相同的对象为同一对象,所述骨骼点信息包括:全部骨骼点的位置信息和全部骨骼点的姿态信息;
处理模块,用于将每一帧图像中每个对象的骨骼点信息和索引编号输入到目标卷积神经网络进行行为识别,确定所述目标视频中每个索引编号对应的对象的行为信息。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的对象行为识别方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的对象行为识别方法。
CN201910777053.7A 2019-08-22 2019-08-22 对象行为识别方法和装置 Active CN110472613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910777053.7A CN110472613B (zh) 2019-08-22 2019-08-22 对象行为识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910777053.7A CN110472613B (zh) 2019-08-22 2019-08-22 对象行为识别方法和装置

Publications (2)

Publication Number Publication Date
CN110472613A CN110472613A (zh) 2019-11-19
CN110472613B true CN110472613B (zh) 2022-05-10

Family

ID=68513295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910777053.7A Active CN110472613B (zh) 2019-08-22 2019-08-22 对象行为识别方法和装置

Country Status (1)

Country Link
CN (1) CN110472613B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160277A (zh) * 2019-12-31 2020-05-15 深圳中兴网信科技有限公司 行为识别分析方法和***、计算机可读存储介质
CN113255402B (zh) * 2020-02-10 2024-06-11 深圳绿米联创科技有限公司 动作识别方法、装置以及电子设备
CN113495490B (zh) * 2020-04-07 2024-06-28 深圳爱根斯通科技有限公司 设备控制方法、装置、电子设备及存储介质
CN113705284A (zh) * 2020-05-22 2021-11-26 杭州萤石软件有限公司 攀爬识别方法、装置及摄像机
CN112580552B (zh) * 2020-12-23 2023-12-12 中山大学 一种鼠类行为分析方法及装置
CN112926541B (zh) * 2021-04-09 2022-11-08 济南博观智能科技有限公司 一种睡岗检测方法、装置及相关设备
CN113486777B (zh) * 2021-07-02 2024-07-02 北京一维大成科技有限公司 一种目标对象的行为分析方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611157A (zh) * 2016-11-17 2017-05-03 中国石油大学(华东) 一种基于光流定位和滑动窗口检测的多人姿态识别方法
CN107909060A (zh) * 2017-12-05 2018-04-13 前海健匠智能科技(深圳)有限公司 基于深度学习的健身房健身动作识别方法及装置
CN108446585A (zh) * 2018-01-31 2018-08-24 深圳市阿西莫夫科技有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN109255296A (zh) * 2018-08-06 2019-01-22 广东工业大学 一种基于深度卷积神经网络的日常人体行为识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109949341A (zh) * 2019-03-08 2019-06-28 广东省智能制造研究所 一种基于人体骨架结构化特征的行人目标跟踪方法
CN110135277A (zh) * 2019-07-05 2019-08-16 南京邮电大学 一种基于卷积神经网络的人体行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611157A (zh) * 2016-11-17 2017-05-03 中国石油大学(华东) 一种基于光流定位和滑动窗口检测的多人姿态识别方法
CN107909060A (zh) * 2017-12-05 2018-04-13 前海健匠智能科技(深圳)有限公司 基于深度学习的健身房健身动作识别方法及装置
CN108446585A (zh) * 2018-01-31 2018-08-24 深圳市阿西莫夫科技有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN109255296A (zh) * 2018-08-06 2019-01-22 广东工业大学 一种基于深度卷积神经网络的日常人体行为识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109949341A (zh) * 2019-03-08 2019-06-28 广东省智能制造研究所 一种基于人体骨架结构化特征的行人目标跟踪方法
CN110135277A (zh) * 2019-07-05 2019-08-16 南京邮电大学 一种基于卷积神经网络的人体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"骨架关节点跟踪的人体行为识别方法";陈曦;《河南科技大学学报》;20150430(第2期);第43-48页 *

Also Published As

Publication number Publication date
CN110472613A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472613B (zh) 对象行为识别方法和装置
CN111815754B (zh) 一种三维信息确定方法、三维信息确定装置及终端设备
CN110472612B (zh) 人体行为识别方法及电子设备
CN111259751A (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
CN105518713A (zh) 活体人脸验证方法及***、计算机程序产品
CN110298306B (zh) 目标对象运动信息的确定方法、装置及设备
CN112149615B (zh) 人脸活体检测方法、装置、介质及电子设备
CN108108711B (zh) 人脸布控方法、电子设备及存储介质
CN111597910A (zh) 一种人脸识别方法、装置、终端设备及介质
CN105095853A (zh) 图像处理装置及图像处理方法
KR20200076267A (ko) 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템
CN111611871B (zh) 图像识别方法、装置、计算机设备和计算机可读存储介质
CN114187561A (zh) 异常行为的识别方法、装置、终端设备及存储介质
CN113947742A (zh) 一种基于人脸识别的人员轨迹追踪方法与装置
CN110651274A (zh) 可移动平台的控制方法、装置和可移动平台
CN109740511B (zh) 一种人脸表情匹配方法、装置、设备及存储介质
CN112258647B (zh) 地图重建方法及装置、计算机可读介质和电子设备
US11074696B2 (en) Image processing device, image processing method, and recording medium storing program
WO2018179119A1 (ja) 映像解析装置、映像解析方法および記録媒体
CN113723306B (zh) 俯卧撑检测方法、设备以及计算机可读介质
CN114387651A (zh) 一种人脸识别方法、装置、设备及存储介质
CN114463835A (zh) 行为识别方法、电子设备及计算机可读存储介质
CN113626726A (zh) 时空轨迹确定方法及相关产品
CN113095116A (zh) 身份识别方法及相关产品
CN114972419B (zh) 摔倒检测方法、装置、介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant