CN115578668A

CN115578668A - 目标行为识别方法、电子设备以及存储介质

Info

Publication number: CN115578668A
Application number: CN202211124689.XA
Authority: CN
Inventors: 程淑亚
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-06

Abstract

本申请公开了一种目标行为识别方法、电子设备以及存储介质，该目标行为识别方法包括：获取待识别视频；对待识别视频进行目标检测，得到每一视频帧对应的目标检测结果；基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果；基于形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果。通过上述方式，本申请可以准确识别目标行为。

Description

目标行为识别方法、电子设备以及存储介质

技术领域

本申请涉及目标识别技术领域，特别是涉及一种目标行为识别方法、电子设备以及存储介质。

背景技术

在人工智能背景下，目标行为识别在数据采集规模、样本数据形态和行为分析方法等方面发生了显著的变化，目标行为识别逐渐自动化、信息化、智能化。

但是不足之处在于，相关的目标行为识别还无法准确识别目标的行为。

发明内容

本申请主要解决的技术问题是提供一种目标行为识别方法、电子设备以及存储介质，可以准确识别目标的行为。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种目标行为识别方法，该方法包括：获取待识别视频；其中，待识别视频包括连续的视频帧；对待识别视频进行目标检测，得到每一视频帧对应的目标检测结果；基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果；基于形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果。

其中，基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果，包括：基于目标检测结果对每一视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果；对视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果；基于关键点检测结果、目标检测结果对视频帧进行目标形态检测，得到每一视频帧对应的形态检测结果；以及基于目标跟踪结果、关键点检测结果对视频帧进行目标属性检测，得到每一视频帧对应的属性检测结果；以及基于目标跟踪结果、目标检测结果对所有视频帧进行目标行为检测，得到每一视频帧对应的行为检测结果。

其中，目标跟踪结果包括轨迹信息，基于目标检测结果对每一视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果，包括：基于目标检测结果，从所有视频帧中确定目标视频帧；其中，目标视频帧至少包括一目标对象；基于目标视频帧中的目标对象与其余视频帧中的目标对象形成目标对象的轨迹信息。

其中，基于关键点检测结果、目标检测结果对视频帧进行目标形态检测，得到每一视频帧对应的形态检测结果，包括：基于目标检测结果确定出存在目标对象的目标视频帧；对每一目标视频帧对应的关键点检测结果中的关键点按照预设方式进行连接，形成目标对象的关键点图像；对关键点图像进行目标形态检测，得到每一目标视频帧对应的形态检测结果。

其中，目标跟踪结果包括轨迹信息，基于目标跟踪结果、关键点检测结果对视频帧进行目标属性检测，得到每一视频帧对应的属性检测结果，包括：基于目标跟踪结果确定出存在目标对象的目标视频帧；基于每一目标视频帧对应的轨迹信息以及关键点检测结果中的关键点对目标视频帧进行目标属性检测，确定出目标对象的属性检测结果，其中，属性检测结果包括背包、帽子和水壶中至少一种。

其中，基于目标跟踪结果、目标检测结果对所有视频帧进行目标行为检测，得到每一视频帧对应的行为检测结果，包括：基于目标跟踪结果、目标检测结果对所有视频帧进行事件分析，得到每一视频帧对应的目标事件；对目标事件进行分类，得到行为检测结果。

其中，目标跟踪结果包括轨迹信息，基于目标跟踪结果、目标检测结果对所有视频帧进行事件分析，得到每一视频帧对应的目标事件，包括：若待识别视频中的目标对象的轨迹信息在相邻两视频帧中发生异常，则将目标对象对应的目标事件作为重点事件。

其中，对视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果之前，包括：基于目标检测结果和目标跟踪结果对所有视频帧进行筛选，筛选出满足预设条件的视频帧；对视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果，包括：对满足预设条件的视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果。

其中，目标检测结果包括每一视频帧中的目标对象的头部信息、肩部信息、上半身信息、正面信息、侧面信息以及背面信息中至少一种，预设条件为头部信息、肩部信息、上半身信息、正面信息、侧面信息或背面信息的评分大于预设评分。

其中，筛选出满足预设条件的视频帧之后，包括：按照预设比例从满足预设条件的视频帧中进行挑选，得到挑选出的视频帧；对视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果，包括：对挑选出的视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括存储器和处理器，存储器用于存储程序数据，处理器用于执行程序数据以实现如上述的目标行为识别方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有程序数据，程序数据在被处理器执行时，用于实现如上述的目标行为识别方法。

本申请的有益效果是：区别于现有技术的情况，本申请通过对目标检测后的视频帧分别进行较为全面的目标形态检测、目标属性检测和目标行为检测，再根据形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果，增加了目标形态检测、目标属性检测等检测维度，能够提高对目标行为识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的目标行为识别方法第一实施例的流程示意图；

图2是本申请提供的关键点图像的结构示意图；

图3是本申请提供的目标行为识别方法完整实施例的流程示意图；

图4是本申请提供的电子设备一实施例的结构示意图；

图5是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请描述的目标行为识别方法可以包括：步骤100：获取待识别视频。步骤200：对待识别视频进行目标检测，得到每一视频帧对应的目标检测结果。步骤300：基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果。步骤400：基于形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果。

也就是说，本申请通过对待识别视频进行目标，得到每一视频帧对应的目标检测结果，再对目标检测后的视频帧分别进行较为全面的目标形态检测、目标属性检测和目标行为检测，根据形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果，增加了目标形态检测、目标属性检测等检测维度，能够提高对目标行为识别的准确性。

以下对本申请目标行为识别方法第一实施例进行详细描述。

步骤100：获取待识别视频。

其中，待识别视频包括连续的视频帧。

在一些实施例中，待识别视频可以是单目相机或者双目相机拍摄的。

步骤200：对待识别视频进行目标检测，得到每一视频帧对应的目标检测结果。

可选地，可以采用目标检测算法对待识别视频进行检测。其中，目标检测算法可以基于深度学习模型，具体采用哪种类型，本申请在此不做限定。

其中，目标检测是为了将图像中所有感兴趣的目标，比如说感兴趣的目标可以是人，可以是动物或者其他生物。进而可以确定目标的类别以及该目标在图像中的位置或者在世界坐标的位置。

在一些实施例中，目标检测除了确定目标的类别和位置外，还可能是检测目标的大小或者目标的各种不同的形状。

示例性地，假设检测的目标对象是人，则得到的目标检测结果可以包含有人体头部，人体肩部，人上半身，正面，侧面，背面等信息。

可选地，为了方便后续操作，利用目标检测结果，可以先将得到的目标检测结果采用检测数据集Ω_odj{odj₁，odj₂，…，odj_n}进行记录保存。

其中，检测数据集中的每一个数据元素代表每一视频帧对应的目标检测结果，比如说odj_n代表第n个视频帧对应的目标检测结果。

在一些实施例中，待识别视频可能存在多个目标，因此，在步骤200中，对待识别视频进行目标检测，可以确定出待识别视频中的多个目标的位置，比如说进行目标检测后得到的目标检测结果可以包括各个目标，如人体，物品等的位置关系。

在一些实施例中，可以采用边缘检测算法，确定待识别视频中的目标的位置。

步骤300：基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果。

可选地，可以采用多任务模型对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测。

示例性地，假设检测的目标对象是人，则目标形态检测可以是检测人体的形态，人体的形态可以是人体的肢体动作信息，可以理解成静态的动作表象，比如说待识别视频中的人是处于双手抱头还是举手、挥手、指向、人体倒地、人体坐地、人体趴着等等状态。

同样地，假设检测的目标对象是人，则目标属性检测可以是检测待识别视频中的人是否背着包包或者是否戴帽子等，也可以是检测待识别视频中的人的姿态，比如说正侧是双手交叉放在胸前、或者背面是弯腰驼背，或者是检测待识别视频中的人的衣着，比如说上衣是什么颜色，裤子是什么款式、发型等，并且可以通过人的衣着、发型和姿态等检测出人的性别。

一般来说，可以根据目标的形态大致判断人体的行为，但是，目标的形态表示的是每一视频帧独立呈现的状态，无法准确判断目标的行为。因此，需要根据目标的轨迹信息或者是不同目标之间的相互关系来检测出目标本质的行为，从而得到行为检测结果。

以人体的形态为例，人体的形态表现的可能是人目前所表现出来的一种外在状态，不一定代表人本质的行为。比如说，目标形态检测显示的是人趴着的状态信息；而目标行为检测由于是根据目标的轨迹信息或者是不同目标之间的相互关系来检测的，所以可以检测出此刻人趴着的前后状态的信息，比如说人趴着的前一个动作是站着的状态，后一个动作也是人站着的状态，根据人趴着的前后状态，可以推出人可能是摔倒后再站立的行为。

步骤400：基于形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果。

其中，需要注意的是，这里的目标行为识别结果与上一步骤提到的行为检测结果可以不同，该目标行为识别结果可以是包括了人体形态和人体属性。比如说，假设目标行为到的是目标摔倒后再站立的行为，目标属性结果是背着包包，则得到的待识别视频对应的目标行为识别结果可以是背着包包的女士摔倒后再站立的行为结果。

也可以说该目标行为识别结果是有意识的活动行为，包括了行为主体、行为客体、行为环境和行为手段。比如说，以学生在上课的场景为例，目标行为识别结果可以是学生趴在桌子、学生在认真听课、学生在玩手机。

其中，学生在玩手机，学生就是行为主体，手机就是行为客体，玩就是行为主体学生作用于客体手机时所使用的方法，上课可以是学生在玩手机的客观环境。

由于目标检测偏向于单帧下的物体定位识别，但是，由于周围环境时空信息等因素的影响，目标检测并不能准确地识别目标所在的位置，因此，为了更加高效的确定目标所在的位置，有些实施例会基于目标检测上，再对目标进一步地跟踪，并预测目标的轨迹信息。

具体的做法可以包括以下步骤：

步骤1：基于目标检测结果对每一视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果；

比如说，某一视频帧的目标检测结果可能是一个人站在操场上，对其进行目标跟踪后，可能得到的目标跟踪结果是两个人在操场上打球。

可选地，目标跟踪结果包括轨迹信息，幅度信息，多个目标之间的相互关系信息等等。

同样地，为了方便后续操作，利用目标跟踪结果，可以先将得到的目标跟踪结果采用跟踪数据集Ω_otj{otj₁，otj₂，…，otj_n}进行记录保存。

其中，跟踪数据集中的每一个数据元素代表每一视频帧对应的目标跟踪结果，比如说otj_n代表第n个视频帧对应的目标跟踪结果。

在一些实施例中，当目标跟踪结果包括轨迹信息时，基于目标检测结果对每一视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果，可以包括以下子步骤：

步骤11：基于目标检测结果，从所有视频帧中确定目标视频帧。

其中，目标视频帧至少包括一目标对象。

步骤12：基于目标视频帧中的目标对象与其余视频帧中的目标对象形成目标对象的轨迹信息。

比如说，目标对象在不同视频帧中的不同位置，或者是多个目标对象在不同视频帧中的关系。

具体地，假设目标检测可以检测到某一视频帧有两辆车，比如A车和B车，而目标跟踪可以根据这两辆车在其余视频帧中的位置关系，判断两辆车各自对应的轨迹信息，并准确区分出哪辆车是A车，哪辆车是B车。

通过对目标进行跟踪，可以充分利用目标视频帧之间的帧间信息、目标周围的环境信息等，获取目标的轨迹信息，从而更加高效准确的识别目标。

由于待识别视频包括很多连续的视频帧，因此，在对待识别视频进行目标检测和目标跟踪后，所得到的含有目标对象的视频帧的数量仍然有很多，而后续进行的目标形态检测、目标属性检测和目标行为检测都是对每一视频帧分别进行的。因此，为了提高检测的速度，有些实施例可以在对待识别视频进行目标检测和目标跟踪后，先对得到的含有目标对象的视频帧作初步的筛选，具体的筛选过程可以是基于目标检测结果和目标跟踪结果对所有视频帧进行筛选，筛选出满足预设条件的视频帧。预设条件可以根据目标检测结果和目标跟踪结果进行确定。如，可以根据是否存在目标检测结果和目标跟踪结果来对所有视频帧进行筛选。若视频帧对应的目标检测结果为无目标，则认为将该视频帧不满足预设条件。若视频帧对应的目标检测结果为有目标，则认为将该视频帧满足预设条件。

在一些实施例中，目标检测结果可以包括每一视频帧中的目标对象的头部信息、肩部信息、上半身信息、正面信息、侧面信息以及背面信息中至少一种。

预设条件可以为头部信息、肩部信息、上半身信息、正面信息、侧面信息或背面信息的评分大于预设评分。

比如说，可以采用人体优选算法，根据清晰程度，遮挡范围，姿势，角度等相关条件对目标检测结果中的人体部位进行打分，也可以根据轨迹完整性，轨迹清晰度对目标跟踪结果的轨迹信息进行打分，并根据得到的评分进行优选，得到目标优选结果。优选出来的视频帧则为满足预设条件的视频帧。

可选地，为了方便后续操作，利用目标优选结果，可以先将得到的目标优选结果采用优选数据集Ω_qej{qej₁，qej₂，…，qej_n}进行记录保存。

其中，优选数据集中的每一个数据元素代表每一视频帧对应的目标优选结果，比如说qej_n代表第n个视频帧对应的目标优选结果。

其中，在一些实施例中，打分机制可以根据标准比对库，或者是每个部位信息的权重等，提前训练网络，利用训练好的网络进行打分。

另外，在待识别视频包含的视频帧的数量非常多的情况下，虽然在对待识别视频进行目标检测和目标跟踪后，先对得到的含有目标对象的视频帧作初步的筛选，可以在一定程度上初步筛除掉一些视频帧，但是初步筛除后所得到的视频帧可能还很多，因此，在一些实施例中，可以在筛选出满足预设条件的视频帧之后，再做进一步的挑选，具体可以是：

按照预设比例从满足预设条件的视频帧中进行挑选，得到挑选出的视频帧。

比如说，可以将目标跟踪结果和目标优选结果进行合并，然后采用挑图算法分析进行挑选，以得到目标挑选结果。其中，目标优选结果包括上述满足预设条件的视频帧，而目标挑选结果可以是按照预设比例从目标优选结果中进一步挑选得到的结果。

可选地，为了方便后续操作，利用目标挑选结果，可以先将得到的目标挑选结果采用挑选数据集Ω_spi{spi₁，spi₂，…，spi_n}进行记录保存。

其中，挑选数据集中的每一个数据元素代表每一视频帧对应的目标挑选结果，比如说spi_n代表第n个视频帧对应的目标挑选结果。

其中，每一视频帧在做完相应的目标检测、目标跟踪、目标优选后，优选出的视频帧实质上也具备对应的目标检测结果和目标跟踪结果。

其中，预设比例可以是1∶100或者1∶1000等比例，也可以是采用帧率挑选。其中，如按照n/m的比例，其中，n和m为大于1的自然数，且n小于m，其中，m表示帧率。如m为30、60、90或120。具体的比例关系，本申请在此不做限定。

另外，为了更好地识别目标的形态和属性，可以对检测和跟踪后的目标进行关键点分析，也即步骤1：基于目标检测结果对每一视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果之后可以进行步骤2的操作。

其中，步骤2可以是对视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果。

其中，关键点可以是通过自顶向下或者自底向上的方法进行提取。

假设检测目标是人，则检测到的关键点可以是人体的各个部位和关节，比如鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右膝、左膝、右脚踝、左脚踝、颈部等。

在一些实施例中，也可以对满足预设条件的视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果。

或者，在一些实施例中，也可以是对挑选出的视频帧进行关键点检测，得到每一视频帧对应的关键点检测结果。

示例性地，可以根据目标检测结果、目标跟踪结果和目标挑图结果进行关键点算法分析，得到关键点检测结果，并且为了方便后续操作，利用关键点检测结果，可将得到的关键点检测结果采用关键点数据集Ω_kpi(kpi₁，kpi₂，…，kpi_n}进行记录保存。

其中，关键点数据集中的每一个数据元素代表每一视频帧对应的关键点检测结果，比如说kpi_n代表第n个视频帧对应的关键点检测结果。

通过上述对目标进行关键点检测之后，可以对目标进行形态检测、属性检测和行为检测，具体的检测方式可以参照以下步骤3、步骤4以及步骤5的内容。

比如，步骤3可以是基于关键点检测结果、目标检测结果对视频帧进行目标形态检测，得到每一视频帧对应的形态检测结果。

示例性地，可以将所有关键点进行连接后可以得到初步的形态图像，再将该初步的形态图像与预设的人物形态进行比对，结合目标检测结果，以确定出最终的目标形态。

可选地，为了方便后续操作，利用形态检测结果，可以先将得到的形态检测结果采用形态数据集Ω_bai{bai₁，bai₂，…，bai_n}进行记录保存。

其中，形态数据集中的每一个数据元素代表每一视频帧对应的形态检测结果，比如说bai_n代表第n个视频帧对应的形态检测结果。

由于关键点检测可以利用训练好的网络模型实现，比如说深度学习模型，因此，检测出关键点后可以获取到每个关键点对应的信息，例如根据关键点0，就可以得出该关键点对应的部位是鼻子等。因此，在一些实施例中，根据预设的方式将所有关键点进行连接，以得到目标形态。具体可以如下：

1)基于目标检测结果确定出存在目标对象的目标视频帧。

2)对每一目标视频帧对应的关键点检测结果中的关键点按照预设方式进行连接，形成目标对象的关键点图像。

其中，该预设方式可以是根据人物身体构造的特点进行结合。比如说，假设检测到的关键点结果是：″0″-″13″分别对应人体的鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右膝、左膝、颈部。则根据人体的构造将各个部位或者关节对应的数字进行连接，可得到如图2所示的关键点图像。

3)对关键点图像进行目标形态检测，得到每一目标视频帧对应的形态检测结果。

比如说对图2所示的关键点图像进行目标形态检测，通过与预设的形态进行比对，可以得出图2中关键点图像对应的是举手的形态。

步骤4：基于目标跟踪结果、关键点检测结果对视频帧进行目标属性检测，得到每一视频帧对应的属性检测结果。

其中，目标属性如背包，帽子、眼镜等可以根据目标跟踪结果和关键点的位置进行判断。比如，对某一视频帧进行目标跟踪后，发现该视频帧中的背包没有轨迹，一直是静止的，并且该背包位于人体关键点的对应部位比如手臂，则可确定该目标人体背着背包。

可选地，为了方便后续操作，利用属性检测结果，可以先将得到的属性检测结果采用属性数据集Ω_pedi{ped₁，ped₂，…，pedi_n}进行记录保存。

其中，属性数据集中的每一个数据元素代表每一视频帧对应的属性检测结果，比如说pedi_n代表第n个视频帧对应的属性检测结果。

可选地，在一些实施例中，可以根据目标的轨迹信息和关键点信息对目标视频帧进行目标属性检测，具体如下：

(1)基于目标跟踪结果确定出存在目标对象的目标视频帧。

(2)基于每一目标视频帧对应的轨迹信息以及关键点检测结果中的关键点对目标视频帧进行目标属性检测，确定出目标对象的属性检测结果，其中，属性检测结果包括背包、帽子和水壶中至少一种。

步骤5：基于目标跟踪结果、目标检测结果对所有视频帧进行目标行为检测，得到每一视频帧对应的行为检测结果。

可选地，在一些实施例中，可以基于目标跟踪结果、目标检测结果对所有视频帧先进行事件分析，得到每一视频帧对应的目标事件后，对目标事件进行分类，再得出行为检测结果。

其中，目标事件可以按偶然性、必然性等进行分类，或者根据环境对事件进行分类，比如说可以是突发事件，如自然灾害、或者公共卫生事件、社会安全事件等等。

关于目标事件具体如何分类，本申请在此不做限定。

由于资源的有限，对不同的事件类型所给予的关注度也是不同的。

在一些实施例中，可以将一些目标事件标志为不同程度的事件进行关注。

比如说，可以根据目标检测结果和目标跟踪结果，进行重点事件的分析，得到重点事件结果。同样地，为了方便后续操作，利用目标检测结果，可以先将得到的重点事件结果采用重点事件数据集Ω_iej{iej₁，iej₂，…，iej_n}进行记录保存。

其中，重点事件数据集中的每一个数据元素代表每一视频帧对应的重点事件结果，比如说iej_n代表第n个视频帧对应的目标检测结果。

其中，重点事件可以是意外受伤、生病以及晕倒等等，比如说iej₁可以代表意外受伤，iej₂可以代表生病等等。

同样地，为了提高检测的速度，有些实施例可以在对待识别视频进行目标检测和目标跟踪后，或者是对所有视频帧进行事件分析之前，可以先对得到的含有目标对象的视频帧进行筛选和挑选，再根据筛选和挑选出的结果进行重点事件的分析、行为分类算法的分析，以获取目标的行为检测结果。

其中，为了方便后续操作，利用行为检测结果，可以先将得到的行为检测结果采用行为数据集Ω_scj{scj₁，scj₂，…，scj_n}进行记录保存。

其中，行为数据集中的每一个数据元素代表每一视频帧对应的行为检测结果，比如说scj_n代表第n个视频帧对应的行为检测结果。

关于行为检测过程中涉及的目标筛选和挑选过程可以参考上述步骤的有关描述，本申请在这里不再赘述。

基于上述步骤3得到的形态检测结果、步骤4得到的属性检测结果和步骤5得到的行为检测结果，最终得到待识别视频对应的目标行为识别结果。同样地，目标行为识别结果可以采用识别数据集Ω_sci{Ω_sci1，Ω_sci2，…，Ω_scin}表示。

比如说，以检测对象为学生举例，其中，Ω_sci1可以表示学生趴桌子行为，Ω_sci2可以表示学生认真听课行为，Ω_sci3可以表示学生玩手机行为，Ω_sci4可以表示学生倒地行为，Ω_sci5可以表示学生坐地行为等等。

也就是说，通过增加目标形态检测、目标属性检测等检测维度，可以提高对目标行为识别的准确性。

结合上述实施例，下面对本申请比较完整的实施例进行描述，具体可以参阅图3，图3为本申请完整实施例的流程示意图，具体可以包括以下步骤：

(1)先获取待识别视频；

(2)对所获取到的待识别视频进行目标检测，得到每一视频帧对应的目标检测结果；

(3)对目标检测后的视频帧通过目标跟踪算法进行跟踪，得到目标跟踪结果；

(4)根据目标检测结果和目标跟踪结果，通过目标优选算法进行分析，得到目标优选结果；

(5)将目标跟踪结果和目标优选结果进行合并，再采用挑图算法进行挑选，得到目标挑选结果；

(6)根据目标检测结果和目标挑选结果，对视频帧进行关键点分析，得到关键点检测结果；

(7)根据目标检测结果和关键点检测结果，对视频帧进行人体形态分析，得到形态检测结果；

(8)根据目标跟踪结果和关键点检测结果，对视频帧进行人体属性分析，得到属性检测结果；

(9)将优选后的目标检测结果和目标跟踪结果先进行重点事件识别，得到重点事件结果，再将重点事件结果通过行为分类算法进行分析，得到行为检测结果；

(10)最后，根据形态检测结果、属性检测结果和行为检测结果，进行综合分析，得到目标行为识别结果。

参阅图4，图4是本申请提供的电子设备一实施例的结构示意图，该电子设备130包括存储器131和处理器132，存储器131用于存储程序数据，处理器132用于执行程序数据以实现如下的方法：

获取待识别视频；其中，待识别视频包括连续的视频帧；对待识别视频进行目标检测，得到每一视频帧对应的目标检测结果；基于目标检测结果对每一视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一视频帧对应的形态检测结果、属性检测结果以及行为检测结果；基于形态检测结果、属性检测结果以及行为检测结果得到待识别视频对应的目标行为识别结果。

可以理解，处理器132还用于执行程序数据以实现上述任一实施例的方法。

可选地，在一实施例中，该电子设备130可以是芯片、可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)、单片机等，其中的芯片可以是处理芯片，如CPU、GPU、MCU等，也可以是存储芯片，如DRAM、SRAM等。

参阅图5，图5是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质140存储有程序数据141，程序数据141在被处理器执行时，用于实现如下的方法：

可以理解，程序数据141在被处理器执行时，还用于实现上述任一实施例的方法。

本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标行为识别方法，其特征在于，所述方法包括：

获取待识别视频；其中，所述待识别视频包括连续的视频帧；

对所述待识别视频进行目标检测，得到每一所述视频帧对应的目标检测结果；

基于所述目标检测结果对每一所述视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一所述视频帧对应的形态检测结果、属性检测结果以及行为检测结果；

基于所述形态检测结果、所述属性检测结果以及所述行为检测结果得到所述待识别视频对应的目标行为识别结果。

2.根据权利要求1所述的方法，其特征在于，基于所述目标检测结果对每一所述视频帧分别进行目标形态检测、目标属性检测和目标行为检测，得到每一所述视频帧对应的形态检测结果、属性检测结果以及行为检测结果，包括：

基于所述目标检测结果对每一所述视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果；

对所述视频帧进行关键点检测，得到每一所述视频帧对应的关键点检测结果；

基于所述关键点检测结果、所述目标检测结果对所述视频帧进行目标形态检测，得到每一所述视频帧对应的所述形态检测结果；

以及基于所述目标跟踪结果、所述关键点检测结果对所述视频帧进行目标属性检测，得到每一所述视频帧对应的所述属性检测结果；

以及基于所述目标跟踪结果、所述目标检测结果对所有所述视频帧进行目标行为检测，得到每一所述视频帧对应的所述行为检测结果。

3.根据权利要求2所述的方法，其特征在于，所述目标跟踪结果包括轨迹信息，所述基于所述目标检测结果对每一所述视频帧进行目标跟踪，得到每一视频帧对应的目标跟踪结果，包括：

基于所述目标检测结果，从所有所述视频帧中确定目标视频帧；其中，所述目标视频帧至少包括一目标对象；

基于所述目标视频帧中的所述目标对象与其余视频帧中的所述目标对象形成所述目标对象的所述轨迹信息。

4.根据权利要求2所述的方法，其特征在于，所述基于所述关键点检测结果、所述目标检测结果对所述视频帧进行目标形态检测，得到每一所述视频帧对应的所述形态检测结果，包括：

基于所述目标检测结果确定出存在目标对象的目标视频帧；

对每一所述目标视频帧对应的所述关键点检测结果中的关键点按照预设方式进行连接，形成目标对象的关键点图像；

对所述关键点图像进行目标形态检测，得到每一所述目标视频帧对应的所述形态检测结果。

5.根据权利要求2所述的方法，其特征在于，所述目标跟踪结果包括轨迹信息，所述基于所述目标跟踪结果、所述关键点检测结果对所述视频帧进行目标属性检测，得到每一所述视频帧对应的所述属性检测结果，包括：

基于所述目标跟踪结果确定出存在目标对象的目标视频帧；

基于每一所述目标视频帧对应的轨迹信息以及所述关键点检测结果中的关键点对所述目标视频帧进行目标属性检测，确定出所述目标对象的属性检测结果，其中，所述属性检测结果包括背包、帽子和水壶中至少一种。

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标跟踪结果、所述目标检测结果对所有所述视频帧进行目标行为检测，得到每一所述视频帧对应的所述行为检测结果，包括：

基于所述目标跟踪结果、所述目标检测结果对所有所述视频帧进行事件分析，得到每一视频帧对应的目标事件；

对所述目标事件进行分类，得到所述行为检测结果。

7.根据权利要求6所述的方法，其特征在于，所述目标跟踪结果包括轨迹信息，所述基于所述目标跟踪结果、所述目标检测结果对所有所述视频帧进行事件分析，得到每一视频帧对应的目标事件，包括：

若所述待识别视频中的目标对象的轨迹信息在相邻两视频帧中发生异常，则将所述目标对象对应的目标事件作为重点事件。

8.根据权利要求2所述的方法，其特征在于，所述对所述视频帧进行关键点检测，得到每一所述视频帧对应的关键点检测结果之前，包括：

基于所述目标检测结果和所述目标跟踪结果对所有所述视频帧进行筛选，筛选出满足预设条件的视频帧；

所述对所述视频帧进行关键点检测，得到每一所述视频帧对应的关键点检测结果，包括：

对满足所述预设条件的所述视频帧进行关键点检测，得到每一所述视频帧对应的关键点检测结果。

9.根据权利要求8所述的方法，其特征在于，所述目标检测结果包括每一视频帧中的目标对象的头部信息、肩部信息、上半身信息、正面信息、侧面信息以及背面信息中至少一种，所述预设条件为所述头部信息、所述肩部信息、所述上半身信息、所述正面信息、所述侧面信息或所述背面信息的评分大于预设评分。

10.根据权利要求8所述的方法，其特征在于，所述筛选出满足预设条件的视频帧之后，包括：

按照预设比例从满足预设条件的视频帧中进行挑选，得到挑选出的所述视频帧；

对挑选出的所述视频帧进行关键点检测，得到每一所述视频帧对应的关键点检测结果。

11.一种电子设备，其特征在于，电子设备包括存储器和处理器，存储器用于存储程序数据，处理器用于执行程序数据以实现如权利要求1-10任一项的目标行为识别方法。

12.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有程序数据，程序数据在被处理器执行时，用于实现如权利要求1-10任一项的目标行为识别方法。