CN111753590A

CN111753590A - 一种行为识别方法、装置及电子设备

Info

Publication number: CN111753590A
Application number: CN201910245567.8A
Authority: CN
Inventors: 王轩瀚; 周纪强
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-09
Anticipated expiration: 2039-03-28
Also published as: CN111753590B

Abstract

本申请实施例提供了一种行为识别方法、装置及电子设备。其中，方法包括：针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征；基于所述全局图像特征，确定该视频帧中每个目标所处的图像区域；从所述全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征；基于所述目标特征，确定该目标的行为识别结果；对该视频帧中所有目标的行为识别结果进行一致性处理，得到该视频帧的行为识别结果；对所述多个视频帧的行为识别结果进行一致性处理，得到所述待分析视频的行为识别结果。可以有效降低行为识别所需要的计算量，更容易实现实时的行为识别。

Description

一种行为识别方法、装置及电子设备

技术领域

本申请涉及机器学习技术领域，特别是涉及一种行为识别方法、装置及电子设备。

背景技术

在一些应用场景中，为了确定视频中目标的行为，可以对视频进行行为分析。相关技术中，可以是基于视频的光流信息，通过对视频中的视频帧进行姿态估计，以实现对目标的关键点进行跟踪，得到多个连续视频帧中目标的姿态序列，基于该姿态序列确定目标的行为。

但是，该方法需要使用到视频的光流信息，而光流信息往往较为庞大，可能需要占用较多的计算资源，因而难以实现实时的行为识别。

发明内容

本申请实施例的目的在于提供一种行为识别方法，以降低实现行为识别所需要的计算量，进而实现实时的行为识别。具体技术方案如下：

在本申请实施例的第一方面，提供了一种行为识别方法，所述方法包括：

针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征；

基于所述全局图像特征，确定该视频帧中每个目标所处的图像区域；

从所述全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征；

基于所述目标特征，确定该目标的行为识别结果；

对该视频帧中所有目标的行为识别结果进行一致性处理，得到该视频帧的行为识别结果；

对所述多个视频帧的行为识别结果进行一致性处理，得到所述待分析视频的行为识别结果。

结合第一方面，在第一种可能的实现方式中，所述基于所述目标特征，确定该目标的行为识别结果，包括：

从所述目标特征中提取该目标的关键点特征；

对所述关键点特征进行回归，得到该目标的关键点热力图，所述热力图用于表示该目标所处图像区域内各像素点为关键点的概率；

将所述热力图与所述目标特征拼接，得到融合图像特征；

对所述融合图像特征进行回归，得到该目标的行为识别结果。

结合第一方面，在第二种可能的实现方式中，所述基于所述全局图像特征，确定该视频帧中每个目标所处的图像区域，包括：

对所述全局图像特征进行单次回归，确定该视频帧中每个目标所处的图像区域。

结合第一方面，在第三种可能的实现方式中，所述针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征，包括：

将所述待分析视频中的多个视频帧输入至行为识别网络中的全局特征子网络，得到所述全局特征子网络的输出，作为该视频帧的全局图像特征；

所述基于所述全局图像特征，确定该视频帧帧中每个目标所处的图像区域，包括：

将所述全局图像特征输入至所述行为识别网络中的目标检测子网络，得到所述目标检测子网络的输出，作为该视频帧中每个目标所处的图像区域；

所述从所述全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征，包括：

将所述全局图像特征和每个目标所处的图像区域，输入至所述行为识别网络中的区域特征子网络，得到所述区域特征子网络的输出，作为该目标的目标特征；

所述基于所述目标特征，确定该目标的行为识别结果，包括：

将所述目标特征输入至所述行为识别网络中的姿态估计子网络，得到所述姿态估计子网络的输出，作为该目标的姿态估计结果；

将所述目标特征和所述姿态估计结果输入至所述行为识别网络中的行为识别子网络，得到所述行为识别子网络的输出，作为该目标的行为识别结果。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述行为识别网络通过以下方式进行预先训练：

将标记有目标区域、目标姿态、目标行为的样本视频帧输入至所述行为识别网络，得到所述目标检测子网络的输出作为预估图像区域、并得到所述姿态估计子网络的输出作为预估姿态结果、并得到所述行为识别子网络的输出作为预估行为识别结果；

基于所述目标区域、所述目标姿态、所述目标行为、所述预估图像区域、所述预估姿态结果、预估行为识别结果，计算所述行为识别网络的损失；

基于所述损失，调整所述行为识别网络的网络参数。

在本申请实施例的第二方面，提供了一种行为识别装置，所述装置包括：

全局特征提取模块，用于针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征；

图像区域确定模块，用于基于所述全局图像特征，确定该视频帧中每个目标所处的图像区域；

区域特征提取模块，用于从所述全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征；

目标行为识别模块，用于基于所述目标特征，确定该目标的行为识别结果；

单帧行为识别模块，对该视频帧中所有目标的行为识别结果进行一致性处理，得到该视频帧的行为识别结果；

视频行为识别模块，对所述多个视频帧的行为识别结果进行一致性处理，得到所述待分析视频的行为识别结果。

结合第二方面，在第一种可能的实现方式中，所述目标行为识别模块，具体用于，从所述目标特征中提取该目标的关键点特征；

将所述热力图与所述目标特征拼接，得到融合图像特征；

结合第二方面，在第二种可能的实现方式中，所述图像区域确定模块具体用于，对所述去哪聚图像特征进行单次回归，确定该视频帧中每个目标所处的图像区域。

结合第二方面，在第三种可能的实现方式中，所述全局特征提取模块具体用于，将所述待分析视频中的多个视频帧输入至行为识别网络中的全局特征子网络，得到所述全局特征子网络的输出，作为该视频帧的全局图像特征；

所述图像区域确定模块具体用于，将所述全局图像特征输入至所述行为识别网络中的目标检测子网络，得到所述目标检测子网络的输出，作为该视频帧中每个目标所处的图像区域；

所述局域特征提取模块具体用于，将所述全局图像特征和每个目标所处的图像区域，输入至所述行为识别网络中的区域特征子网络，得到所述区域特征子网络的输出，作为该目标的目标特征；

所述目标行为识别模块，具体用于将所述目标特征输入至所述行为识别网络中的姿态估计子网络，得到所述姿态估计子网络的输出，作为该目标的姿态估计结果；

结合第二方面，在第四种可能的实现方式中，所述装置还包括网络训练模块，用于通过以下方式进行预先训练得到所述行为识别网络：

基于所述损失，调整所述行为识别网络的网络参数。

本申请实施例提供的行为识别方法、装置及电子设备，可以针对满足时空一致性的待分析视频，利用待分析视频的时空一致性的特性，通过对单个视频帧中所有目标进行一致性处理，以及待分析视频帧中的多个视频帧进行一致性处理，无需基于视频的光流信息对目标的关键点进行跟踪，可以有效降低行为识别所需要的计算量，更容易实现实时的行为识别。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的行为识别方法的一种流程示意图；

图2为本申请实施例提供的行为识别网络的一种结构示意图；

图3为本申请实施例提供的端到端的行为识别方法的一种流程示意图；

图4为本申请实施例提供的行为识别网络的另一种结构示意图；

图5为本申请实施例提供的行为识别网络的训练方法的一种流程示意图；

图6为本申请实施例提供的行为识别装置的一种结构示意图；

图7为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1所示为本申请实施例提供的行为识别方法的一种流程示意图，可以包括：

S101，针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征。

其中，多个视频帧可以是待分析视频中的部分视频帧，也可以是待分析视频中的所有视频帧。示例性的，可以是从待分析视频中按照预设筛选条件(如按照预设间隔帧数从待分析视频中读取)筛选出多个视频帧，也可以是将待分析视频帧中的所有视频帧作为多个视频帧。

S102，基于全局图像特征，确定该视频帧中每个目标所处的图像区域。

为讨论方便，在本实施例中，一个目标所处的图像区域的位置可以是以{x,y,w,h}的形式表示，其中，x为该目标所处图像区域中心点的水平像素坐标，y为该目标所处图像区域中心点的竖直像素坐标，w为该目标所处图像区域的像素宽度，h为该目标所处图像区域的像素高度，在其他可选的实施例中，一个目标所处图像区域的位置也可以是以其他形式表示的(例如可以使用该图像区域的顶点坐标表示)。

在一种可选的实施例中，可以是对全局图像特征进行回归，以在图像中确定出可能存在目标的候选区域，并再次进行回归，以对候选区域进行筛选，以确定目标所处的图像区域。在另一种可选的实施例中，也可以是对全局图像特征进行单次回归，直接确定图像中目标所处的图像区域，以降低确定图像中目标所处的图像区域所占用的计算资源和花费的时间成本。

S103，从全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征。

在本实施例中，可以是基于输入的图像区域的位置，通过区域池化(Region ofInterest Pooling)算法，从全局图像特征中提取图像区域的区域图像特征。

S104，基于目标特征，确定该目标的行为识别结果。

可以将目标特征输入至预先经过训练的分类器，以得到行为识别结果。在本实施例中，行为识别结果可以是以行为类表以及相应的置信度的形式表示的，示例性的，行为识别结果可以是{80％跳绳、10％拔河，10％跳高}，表示目标的行为可能是跳绳、拔河、跳高中的一种，并且目标的行为为跳绳的置信度为80％，目标的行为为拔河的置信度为10％，目标的行为为跳高的置信度为10％。

在一种可选的实施例中，可以是从目标特征中提取该目标的关键点特征，对关键点特征进行回归，得到该目标的关键点热力图，根据目标的不同，关键点可以不同。为讨论方便，以目标为人员为例，关键点可以包括人员的多个关节位置，如头、左肩点、右肩点、手、膝盖、脚等。热力图用于表示目标所处图像区域中各个像素点为关键点的概率，即用于表示关键点在图像区域中的概率分布情况。而人员多个关节位置的分布情况，可以表示该人员所处的姿态，因此关键点的热力图可以作为人员的姿态估计结果。将热力图与目标特征进行拼接，得到融合图像特征，再对得到的融合特征进行回归，得到该目标的行为识别结果。

S105，对该视频帧中所有目标的行为识别结果进行一致性处理，得到该视频帧的行为识别结果。

其中，一致性处理用于使得该视频帧中所有目标的行为识别结果保持一致，根据应用场景的不同，一致性处理可以不同。示例性的，可以是将该视频帧中所有目标的行为识别结果相加取平均，并将得到的平均值作为该视频帧的行为识别结果。在其他可选的实施例中，也可以是按照其他算法(如加权平均、取中值)，以使得该视频帧中所有目标的行为识别结果保持一致，本实施例对此不做限制。

根据实际应用场景的不同，待分析图像帧中可能包含一个或多个目标。如果待分析图像帧中只包括一个目标，则待分析图像帧的行为识别结果可以表示该目标的行为。如果待分析图像帧中包括多个目标，则待分析图像帧的行为识别结果，可以是用于表示该多个目标的群体行为(如游行、派对)。

可以理解的是，如果待分析视频是通过拍摄空间尺度小于预设空间尺度阈值的监控场景得到的，则可以认为该待分析视频中不同的目标的行为是相同的，即该待分析视频中目标的行为满足空间一致性，因此对所有目标行为识别结果进行一致性处理后，可以得到该视频帧的行为识别结果。

S106，对多个视频帧的行为识别结果进行一致性处理，得到待分析视频帧的行为识别结果。

关于一致性处理可以参见前述S105中的相关描述，在此不再赘述。示例性的，可以是对多个视频帧的行为识别结果相加取平均，将得到的平均值作为待分析视频帧的行为识别结果。

可以理解的是，如果待分析视频的时长小于预设时长阈值，则可以认为该待分析视频中同一个目标的行为的时间跨度较小，因此同一个目标的行为不会发生变化，即该待分析视频中目标的行为满足时间一致性。因此对多个视频帧的行为识别结果进行一致性处理后，可以得到该待分析视频的行为识别结果。

选用该实施例，可以针对满足时空一致性的待分析视频，利用待分析视频的时空一致性的特性，通过对单个视频帧中所有目标进行一致性处理，以及待分析视频帧中的多个视频帧进行一致性处理，无需基于视频的光流信息对目标的关键点进行跟踪，可以有效降低行为识别所需要的计算量，更容易实现实时的行为识别。

在一种可选的实施例中，可以是利用预先经过训练的行为识别网络实现视频帧中各个目标的行为识别。在其他可选的实施例中，也可以是基于其他的机器学习算法，实现对视频帧中各个目标的行为识别。

可以参见图2，图2所示为本申请实施例提供的行为识别网络的一种结构示意图，包括：

全局特征子网络110、目标检测子网络120、区域特征子网络130、姿态估计子网络140以及行为识别子网络150。其中，全局特征子网络110用于提取输入的图像帧的全局图像特征，并将提取到的全局图像特征输入至目标检测子网络120和区域特征子网络。

目标检测子网络120，用于基于输入的全局图像特征，确定图像中目标所处的图像区域，并将该图像区域的位置输入至区域特征子网络130。区域特征子网络130，用于从全局图像特征中提取图像区域的区域图像特征，并将区域图像特征输入至姿态估计子网络140和行为识别子网络150。姿态估计子网络140，用于对输入的区域图像特征进行回归，以得到目标的姿态估计结果，并将姿态估计结果输入至行为识别子网络150。在本实施例中，姿态估计结果可以是以关键点的热力图的形式表示的，在其他可选的实施例中，姿态估计结果也可以是以其他形式表示的(关键点的位置以及类别)。

行为识别子网络150，用于对输入的区域图像特征和姿态估计结果进行回归，得到输入的图像帧中每个目标的行为识别结果，并输出该行为识别结果。通过该行为识别网络进行端到端的行为识别的流程可以参见图3，图3所示为本申请实施例提供的端到端的行为识别方法的一种流程示意图，可以包括：

S301，获取待分析图像帧。

根据实际应用场景的不同，待分析图像帧可以是一个图像帧，也可以是多个图像帧。

S302，将待分析图像帧输入至行为识别网络，得到行为识别网络的输出，作为待分析图像帧的行为识别结果。

其中，行为识别网络包括全局特征子网络、目标检测子网络、区域特征子网络、姿态估计子网络以及行为识别子网络。各个子网络的原理，可以参见前述相关描述，在此不再赘述。

选用该实施例，可以通过全局特征子网络为目标检测子网络、姿态估计子网络以及行为识别子网络提取图像特征，不需要为目标检测子网络、姿态估计子网络以及行为识别子网络分别独立的设置特征提取子网络，因此可以有效降低行为识别网络的结构复杂度。

另一方面，由于全局特征子网络为目标检测子网络、姿态估计子网络以及行为识别子网络提取图像特征，因此全局特征子网络提取到的全局图像特征需要满足目标检测子网络、姿态估计子网络以及行为识别子网络的需求。而这三个子网络所需要的图像特征并不完全相同，例如，行为识别子网络所需要的部分图像特征，可能对于目标检测子网络是不需要的，而这些图像特征也被输入至了目标检测子网络，因此可以将这部分图像特征视为输入至目标检测子网络的噪声信号。

而相关技术中，由于目标检测网络、姿态估计网络、行为识别网路为三个彼此独立的神经网络，这三个神经网络中的特征提取子网络往往只会提取所属神经网络所需要的图像特征。因此相比于相关技术，本申请实施例中全局图像特征的信噪比较低，而较低的信噪比可以使得本申请实施例提供的行为识别网络在错误的行为类别上分配更多的概率，进而可以有效提高行为识别网络的泛化能力。

参见图4，图4所示为本申请实施例提供的行为识别网络的另一种结构示意图，全局特征子网络110包括浅层图像空间特征子网络111、第一中层图像空间特征子网络112、第二中层图像空间特征子网络113、第一深层图像语义特征网络114、第二深层图像语义特征子网络115。

其中，浅层图像空间特征子网络111，用于从输入的图像帧中提取浅层图像空间特征，并将浅层图像空间特征输入至第一中层图像空间特征子网络112。第一中层图像空间特征子网络112，用于从输入的浅层图像空间特征中进一步提取第一中层图像空间特征，并将提取到的第一中层图像空间特征输入至第二中层图像空间特征子网络113。第二中层图像空间特征子网络113，用于从输入的第一中层图像空间特征中进一步提取第二中层图像空间特征，并将提取到的第二中层图像空间特征输入至第一深层图像语义特征子网络114。第一深层图像语义特征子网络114，用于从输入的第二中层图像空间特征中进一步提取第一深层语义特征，并将提取到的第一深层语义特征输入至第二深层图像语义特征子网络115。第二深层图像语义特征子网络115，用于从输入的第一深图像语义特征中进一步提取第二深层语义特征。

可以理解的是，基于一个图像特征进一步提取到的另一个图像特征更为抽象，例如第二中层图像空间特征相比于第一中层图像空间特征更为抽象。在该实施例中，全局图像特征包括浅层图像空间特征、第一中层图像空间特征、第二中层图像空间特征、第一深层图像语义特征以及第二深层图像语义特征。其中，浅层图像空间特征、第一中层图像空间特征、第二中层图像空间特征用于表征输入的图像帧的纹理特征、颜色信息，第一深层图像语义特征和第二深层图像语义特征用于表征输入的图像帧中各个图像区域的语义特征。

目标检测子网络120可以为RPN(Region Proposal Network，区域检测网络)网络。根据实际需求的不同，目标检测子网络120的结构可以不同。示例性的，在一种可选的实施例中，目标检测子网络可以是从全局图像特征子网络上延伸出的一个或多个卷积层，用于通过对全局图像特征进行单次回归确定目标所处图像区域。

区域特征子网络130，包括第一区域特征提取器131、第二区域特征提取器132、第三区域特征提取器133以及第四区域特征提取器134。其中，第一区域特征提取器131，用于获取第一中层图像空间特征，并从第一中层图像空间特征中提取目标所处图像区域的区域图像特征。第二区域特征提取器132，用于获取第一中层图像空间特征，并从第一中层图像空间特征中提取目标所处图像区域的区域图像特征。第三区域特征提取器133，用于获取第一深层图像空间特征，并从第一深层图像语义特征中提取目标所处图像区域的区域图像特征。第四区域特征提取器134，用于获取第二深层图像语义特征，并从第二深层图像语义特征中提取目标所处图像区域的区域图像特征。在其他可选的实施例中，区域特征子网络所包括的区域特征提取器的数目可以根据实际需求的不同而不同，示例性的，在其他可选的实施例中，还可以包括用于获取浅层图像空间特征，并从浅层图像空间特征中提取目标所处图像区域的区域图像特征的区域特征提取器。

可以理解的是，由于区域特征提取器提取到的是目标所处图像区域的区域图像特征，因此这些区域图像特征可以视为目标的目标特征，以目标为行人为例，区域特征提取器提取到的区域图像特征可以视为行人特征。

姿态估计子网络140包括关键点特征子网络141和热力图估计子网络142，其中关键点特征子网络141，可以是从目标检测子网络120中延伸出的多个连续堆叠卷积层(根据实际应用场景的不同，卷积层的数目可以不同)，用于从区域图像特征中提取图像区域中的关键点特征。热力图估计子网络142，可以是从关键点特征子网络141中延伸出的多个反卷积层，用于对关键点特征进行回归，得到图像区域中关键点的热力图，作为目标的姿态估计结果。

行为识别子网络150包括行为分类子网络151、融合子网络152、视频行为识别子网络153。其中，行为分类子网络151，用于分别针对每个目标，将热力图估计子网络142输出的该目标的关键点的热力图与该目标的区域图像特征进行拼接，得到该目标的融合图像特征，并对得到的该目标的融合图像特征进行回归，得到该目标的行为识别结果。

融合子网络152，用于针对每个输入的视频帧，计算该视频帧中的每个目标的行为识别结果的平均值，作为该视频帧的行为识别结果。示例性的，假设一个视频帧中包括3个目标，分别记为人员A、人员B、人员C，人员A的行为识别结果为{80％行为类别1，10％行为类别2，10％行为类别3}，人员B的行为识别结果为{70％行为类别1，20％行为类别2，10％行为类别3}，人员C的行为识别结果为{90％行为类别1，0％行为类别2，10％行为类别3}，则该视频帧的行为识别结果可以为{80％行为类别1，10％行为类别2，10％行为类别3}。并计算所有视频帧的行为识别结果的平均值，作为该待分析视频的行为识别结果。

视频行为识别子网络153，用于基于待分析视频的行为识别结果，确定该待分析视频中目标的行为。在本实施例中，可以是基于将置信度最高的行为类别确定为该待分析视频中目标的行为。

参见图5，图5所示为本申请实施例提供的行为识别网络的训练方法的一种流程示意图，可以包括：

S501，将标记有目标区域、目标姿态、目标行为的样本图像帧输入至行为识别网络，获取目标检测子网络所确定的图像区域、姿态估计子网络输出的姿态估计结果、行为识别子网络输出的行为识别结果。

目标区域、目标姿态的表示方式，根据实际应用场景的不同可能不同。为讨论方便，假设目标区域的表示方式为{x,y,w,h}，目标姿态的表示方式为各个关键点的位置。

同理，图像区域、姿态估计结果、行为识别结果的表示方式，根据实际应用场景的不同可能不同。

S502，基于目标区域、目标姿态、目标行为、图像区域、姿态估计结果、行为估计结果，计算行为识别网络的损失。

可以理解的是，其中，目标区域、目标姿态以及目标行为可以视为真值，图像区域、姿态估计结果、行为估计结果可以视为行为识别网络的输出值，因此可以利用预设的目标函数，基于真值和输出值，计算行为识别网络的损失。在不同的应用场景可以选用不同的目标函数，本实施例对此不作限制。

示例性的，在一种可选的实施例中，目标函数可以如下所示：

L＝αL_loc+βL_cls+λL_kps+VL_act

其中，α、β、λ、v为预设的加权系数，t_i为第i个目标的目标区域，v_i为第i个目标的图像区域，D为样本图像帧的数目，p_j目标检测子网络输出的第d个样本图像帧中目标的目标类别为j的置信度，k为关键点的数目，

为姿态估计子网络输出的第j个关键点的热力图，C为行为类别总数，p_i为行为识别子网络对第i个行为类别估计的概率。

S503，基于损失，调整行为识别网络的网络参数。

可以理解的是，目标检测子网络、姿态估计子网络以及行为识别子网络所实现的任务是相互关联的，因此，可以将这三个子网络联合训练，相比于分别独立地训练这三个子网络，收敛速度更快。而相关技术中，目标检测网络、姿态估计网络以及行为识别网络为三个独立的神经网络，需要分别单独对这三个独立的神经网络进行训练。因此，选用该实施例，可以有效降低训练用于行为识别的神经网络的时间成本。

参见图6，图6所示为本申请实施例提供的行为识别装置的结构示意图，可以包括：

全局特征提取模块601，用于针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征；

图像区域确定模块602，用于基于全局图像特征，确定该视频帧中每个目标所处的图像区域；

区域特征提取模块603，用于从全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征；

目标行为识别模块604，用于基于目标特征，确定该目标的行为识别结果；

单帧行为识别模块605，对该视频帧中所有目标的行为识别结果进行一致性处理，得到该视频帧的行为识别结果；

视频行为识别模块606，对多个视频帧的行为识别结果进行一致性处理，得到待分析视频的行为识别结果。

在一种可选的实施例中，目标行为识别模块604，具体用于，从目标特征中提取该目标的关键点特征；

对关键点特征进行回归，得到该目标的关键点热力图，热力图用于表示该目标所处图像区域内各像素点为关键点的概率；

将热力图与目标特征拼接，得到融合图像特征；

对融合图像特征进行回归，得到该目标的行为识别结果。

在一种可选的实施例中，图像区域确定模块602具体用于，对去哪聚图像特征进行单次回归，确定该视频帧中每个目标所处的图像区域。

在一种可选的实施例中，全局特征提取模块601具体用于，将待分析视频中的多个视频帧输入至行为识别网络中的全局特征子网络，得到全局特征子网络的输出，作为该视频帧的全局图像特征；

图像区域确定模块602具体用于，将全局图像特征输入至行为识别网络中的目标检测子网络，得到目标检测子网络的输出，作为该视频帧中每个目标所处的图像区域；

局域特征提取模块603具体用于，将全局图像特征和每个目标所处的图像区域，输入至行为识别网络中的区域特征子网络，得到区域特征子网络的输出，作为该目标的目标特征；

目标行为识别模块604，具体用于将目标特征输入至行为识别网络中的姿态估计子网络，得到姿态估计子网络的输出，作为该目标的姿态估计结果；将目标特征和姿态估计结果输入至行为识别网络中的行为识别子网络，得到行为识别子网络的输出，作为该目标的行为识别结果。

在一种可选的实施例中，装置还包括网络训练模块，用于通过以下方式进行预先训练得到行为识别网络：

将标记有目标区域、目标姿态、目标行为的样本视频帧输入至行为识别网络，得到目标检测子网络的输出作为预估图像区域、并得到姿态估计子网络的输出作为预估姿态结果、并得到行为识别子网络的输出作为预估行为识别结果；

基于目标区域、目标姿态、目标行为、预估图像区域、预估姿态结果、预估行为识别结果，计算行为识别网络的损失；

基于损失，调整行为识别网络的网络参数。

本申请实施例还提供了一种电子设备，如图7所示，可以包括：

存储器701，用于存放计算机程序；

处理器702，用于执行存储器701上所存放的程序时，实现如下步骤：

基于全局图像特征，确定该视频帧中每个目标所处的图像区域；

从全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征；

基于目标特征，确定该目标的行为识别结果；

对多个视频帧的行为识别结果进行一致性处理，得到待分析视频的行为识别结果。

在一种可选的实施例中，基于目标特征，确定该目标的行为识别结果，包括：

从目标特征中提取该目标的关键点特征；

将热力图与目标特征拼接，得到融合图像特征；

对融合图像特征进行回归，得到该目标的行为识别结果。

在一种可选的实施例中，基于全局图像特征，确定该视频帧中每个目标所处的图像区域，包括：

对全局图像特征进行单次回归，确定该视频帧中每个目标所处的图像区域。

在一种可选的实施例中，针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征，包括：

将待分析视频中的多个视频帧输入至行为识别网络中的全局特征子网络，得到全局特征子网络的输出，作为该视频帧的全局图像特征；

基于全局图像特征，确定该视频帧帧中每个目标所处的图像区域，包括：

将全局图像特征输入至行为识别网络中的目标检测子网络，得到目标检测子网络的输出，作为该视频帧中每个目标所处的图像区域；

从全局图像特征中，提取每个目标所处图像区域的区域图像特征，作为该目标的目标特征，包括：

将全局图像特征和每个目标所处的图像区域，输入至行为识别网络中的区域特征子网络，得到区域特征子网络的输出，作为该目标的目标特征；

基于目标特征，确定该目标的行为识别结果，包括：

将目标特征输入至行为识别网络中的姿态估计子网络，得到姿态估计子网络的输出，作为该目标的姿态估计结果；

将目标特征和姿态估计结果输入至行为识别网络中的行为识别子网络，得到行为识别子网络的输出，作为该目标的行为识别结果。

在一种可选的实施例中，行为识别网络通过以下方式进行预先训练：

基于损失，调整行为识别网络的网络参数。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一行为识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一行为识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

基于所述目标特征，确定该目标的行为识别结果；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征，确定该目标的行为识别结果，包括：

从所述目标特征中提取该目标的关键点特征；

将所述热力图与所述目标特征拼接，得到融合图像特征；

3.根据权利要求1所述的方法，其特征在于，所述基于所述全局图像特征，确定该视频帧中每个目标所处的图像区域，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对待分析视频中的多个视频帧，获取该视频帧的全局图像特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述行为识别网络通过以下方式进行预先训练：

基于所述损失，调整所述行为识别网络的网络参数。

6.一种行为识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述目标行为识别模块，具体用于，从所述目标特征中提取该目标的关键点特征；

将所述热力图与所述目标特征拼接，得到融合图像特征；

8.根据权利要求6所述的装置，其特征在于，所述图像区域确定模块具体用于，对所述去哪聚图像特征进行单次回归，确定该视频帧中每个目标所处的图像区域。

9.根据权利要求6所述的装置，其特征在于，所述全局特征提取模块具体用于，将所述待分析视频中的多个视频帧输入至行为识别网络中的全局特征子网络，得到所述全局特征子网络的输出，作为该视频帧的全局图像特征；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括网络训练模块，用于通过以下方式进行预先训练得到所述行为识别网络：

基于所述损失，调整所述行为识别网络的网络参数。