CN114429608A

CN114429608A - 一种行为识别方法、装置、设备及存储介质

Info

Publication number: CN114429608A
Application number: CN202210101633.6A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-03

Abstract

本申请实施例提供一种行为识别方法、装置、设备及存储介质，其中，所述方法包括：获取包括待识别对象的视频帧序列；在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合；基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合；基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果。

Description

一种行为识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉领域，涉及但不限于一种行为识别方法、装置、设备及存储介质。

背景技术

针对以人为中心的视频行为识别，对输入视频序列进行全图的数据增强后送入到分类模型中进行预测。由于摄像头拍摄到的视频中往往包含更多的信息，覆盖的视野也更大。这样，行人的目标事件发生位置和人体尺度也具有随机性，影响行为识别的准确度。

发明内容

本申请实施例提供一种全景图更新技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种行为识别方法，所述方法包括：

获取包括待识别对象的视频帧序列；

在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合；

基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合；

基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，所述在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合，包括：对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；在所述每一视频帧的多个已调整区域中，确定所述第一图像区域集合。如此，通过对每一视频帧中多个检测框的面积进行调整后，在多个已调整区域中选择一部分作为该视频帧的第一图像区域，能够减少重复识别。

在一些实施例中，所述在所述每一视频帧的多个已调整区域中，确定所述第一图像区域集合，包括：在所述每一视频帧的多个已调整区域中，确定与参考已调整区域的重叠度大于预设重叠度阈值且面积小于预设面积阈值的目标已调整区域；在所述每一视频帧的多个已调整区域中，剔除所述目标已调整区域，得到所述每一视频帧的所述第一图像区域集合；其中，所述参考已调整区域为所述多个已调整区域中第一置信度大于第一置信度阈值的任一已调整区域。如此，能够降低在已调整区域中进行行为识别的计算量，以及利用质量较高的第一图像区域进行行为识别，能够提高识别的精准度。

在一些实施例中，所述基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合之前，所述方法还包括：从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述待识别对象的行为类别。如此，通过在视频帧序列中选择少量的目标视频帧进行对象行为的分类，能够降低进行行为分类的计算量。

在一些实施例中，所述基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合，包括：对所述行为类别相同的第一图像区域之间的特征距离进行减小和/或对所述行为类别不同的第一图像区域之间的特征距离进行增大，得到所述第二图像区域集合。如此，能够使得不同类别的第一图像区域之间的差异更大，便于对待识别对象的行为类别进行判别。

在一些实施例中，在所述视频序列中的视频帧包括至少一个第二图像区域的情况下，所述基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果，包括：确定所述视频帧中每一第二图像区域的行为类别为预设类别的第二置信度；在所述视频帧的至少一个第二图像区域中，确定所述第二置信度大于或等于第二置信度阈值的候选图像区域，得到候选图像区域集合；在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合；基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果。如此，利于提升后续基于剔除后的候选图像区域集合进行行为识别的性能。

在一些实施例中，所述在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合，包括：在所述候选图像区域集合中，确定所述第二置信度等于第二置信度阈值的候选图像区域子集合；在所述候选图像区域子集合中，确定任一候选图像区域与其他候选图像区域之间的空间距离；其中，所述其他候选图像区域为所述候选图像区域子集合中除所述任一候选图像区域之外的候选图像区域；确定所述空间距离大于预设空间距离阈值的待剔除候选图像区域；在所述候选图像区域集合中，剔除所述待剔除候选图像区域，得到所述剔除后的候选图像区域集合。如此，通过在候选图像区域集合中将离群的候选图像区域进行剔除，提高了候选图像区域的中心点一致性，而且使得多个剔除后的候选图像区域在空间上相互接近。

在一些实施例中，所述基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果，包括：基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列；在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。如此，能够使得行为识别网络更专注于识别待识别对象的行为，更关注于如何区分待识别对象不同的运动细节，而非待识别对象和无关对象的差异。

在一些实施例中，所述基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列，包括：

基于所述剔除后的候选图像区域集合，从所述至少一帧视频帧的每一视频帧中选择任一剔除后的候选图像区域；对选择的所述剔除后的图像区域进行合并，得到至少一个合并区域；在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。如此，按照合并区域在视频帧序列中进行区域抠取，得到与每一合并区域匹配的目标区域序列，能够使得目标区域序列中的画面内容更专注于待识别对象本身，提高实践的有效感受野。

在一些实施例中，所述在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果，包括：将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调目标区域序列；在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。如此，通过将目标区域序列中的目标区域的边长调整为统一的长度，便于进行后续的行为识别，能够提高行为识别的效率。

本申请实施例提供一种行为识别装置，所述装置包括：

第一获取模块，用于获取包括待识别对象的视频帧序列；

第一确定模块，用于在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合；

第一调整模块，用于基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合；

第一识别模块，用于基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果。

对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的行为识别方法。

本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的行为识别方法。

本申请实施例提供一种行为识别方法、装置、设备及存储介质，在视频流的视频帧序列中，首先确定待识别对象的在每一视频帧中的第一图像区域集合；然后，按照该第一图像区域集合中的待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，使得到的第二图像区域集合更利于后续进行行为识别；最后，通过视频帧中的第二图像区域集合对待识别对象的行为进行识别，得到识别结果；如此，基于调整特征距离后的第二图像区域对待识别对象的行为进行识别，能够提高识别网络的有效感受野，从而提高行为识别的准确度。

附图说明

图1为本申请实施例提供的行为识别方法的实现流程示意图；

图2为本申请实施例提供的行为识别方法的另一实现流程示意图；

图3为本申请实施例提供的行为识别方法的另一实现流程示意图；

图4为本申请实施例提供的行为识别方法的又一实现流程示意图；

图5为本申请实施例提供的行为识别方法的应用场景示意图；

图6为本申请实施例提供的行为识别方法的另一应用场景示意图；

图7为本申请实施例行为识别装置的结构组成示意图；

图8为本申请实施例电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)计算机视觉，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

2)非极大值抑制(Non-Maximum Suppression，NMS)，是搜素局部最大值，抑制极大值。以目标检测为例。目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。

3)离群值(outlier)，也称逸出值，是指在数据中有一个或几个数值与其他数值相比差异较大。如果一个数值偏离观测平均值的概率小于等于1/(2n)，则该数据应当舍弃(其中，n为观察例数，概率可以根据数据的分布进行估计)。在本申请实施例中，离群值可以表示与其他图像区域之间的空间距离较远的图像区域。

下面说明本申请实施例提供的行为识别设备的示例性应用，本申请实施例提供的设备可以实施为具有数据处理功能的笔记本电脑，平板电脑，台式计算机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于电子设备，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

本申请实施例提供一种行为识别方法，如图1所示，结合如图1所示步骤进行说明：

步骤S101，获取包括待识别对象的视频帧序列。

在一些实施例中，在包括待识别对象的视频流中，确定视频帧序列。视频流可以是在任一场景下采集到的视频数据，比如，在任一场景下通过该场景中的摄像头采集到的视频数据，或者，是接收到的其他设备发送的视频数据。待识别对象可以是该视频流所在场景下的可移动对象；待识别对象可以是一个或者多个，比如，视频流为针对行人采集得到的，那么待识别对象为行人。如果视频流为交通场景下采集到的，那么待识别对象可以是该交通场景下的车辆；如果视频流为在草原采集到的图像，那么待识别对象可以是草原上的牛羊等动物，

在一些可能的实现方式中，该视频流可以是所属场景下的摄像头采集到的短时间内的视频数据，比如，针对行人采集的3秒的视频流。该视频流的视频帧序列为通过对视频流进行采样得到的多个视频帧；比如，通过对3秒的视频流进行等间隔采样，得到8个视频帧，即视频帧序列；还可以是通过对3秒的视频流进行随机采样，得到多个视频帧。

步骤S102，在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合。

在该视频帧序列的每一视频帧中，确定待识别对象在该每一视频帧中所在的第一图像区域。该第一图像区域为通过对视频帧中待识别对象的检测框进行预处理得到的，该预处理的过程包括对检测框的尺寸进行外扩，以及对扩大后的检测框进行筛选。

在一些可能的实现方式中，首先，在视频帧序列的每一视频帧中，对待识别对象进行检测，得到该视频帧中每一待识别对象的检测框；如果视频帧中包括多个待识别对象，那么在该视频帧中对多个待识别对象进行检测，得到每一待识别对象的检测框，即多个检测框。然后，对每一检测框的长宽自适应外扩一定比例。最后，在每一视频帧中，对多个已扩大的检测框进行空间上的非极大值抑制，剔除冗余的已扩大的检测框。这样，通过对视频帧中待识别对象的检测框进行外扩后，筛选出画面质量更高的第一图像区域，能够剔除冗余的检测框，从而能够降低计算量。

步骤S103，基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合。

在一些实施例中，通过采用二分类模型，对每一第一图像区域的待识别对象的行为类别进行识别，以确定该待识别对象的行为是否异常；这样，待识别对象的行为类别包括异常和非异常。通过按照待识别对象的行为类别将第一图像区域集合分为多个子集合；比如，将行为类别相同的第一图像区域放在一个子集合中，行为类别不同的第一图像区域放在另一个子集合中。不同第一图像区域之间的特征距离可以是相同行为类别的第一图像区域之间的特征距离，还可以是不同行为类别的第一图像区域之间的特征距离。

在一些可能的实现方式中，将第一图像区域集合中，相同行为类别的第一图像区域之间的特征距离进行拉近，实现对相同行为类别的第一图像区域的正则化约束；同时，对不同行为类别的第一图像区域之间的特征距离进行推远，使得不同行为类别的第一图像区域更容易区分。这样，通过将对第一图像区域集合中的类内第一图像区域之间的特征距离进行拉近，类间第一图像区域之间的特征距离进行推远，得到特征距离调整后的第二图像区域集合，从而能够提升二分类模型的判别能力，使得到的第二图像区域集合更易于识别待识别对象的行为。

步骤S104，基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，可以是通过第二图像区域集合中全部第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。在一些可能的实现方式中，通过将得到的多个第二图像区域按照不同视频帧进行合并，从而能够基于合并后的区域对待识别对象的行为进行识别，得到该识别结果。识别结果中包括该待识别对象的行为所属的类别以及该待识别对象的具体行为内容(比如，所属的类别为异常行为，具体的行为内容为多人聚集)。对于包括第二图像区域的视频帧，在每一视频帧中任选一个第二图像区域，将多个视频帧中选择的第二图像区域在空间上进行合并，得到合并区域。基于该合并区域对待识别对象的行为进行识别，能够得到精准的识别结果。

在一些实施例中，还通过第二图像区域集合中的部分第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。在一些可能的实现方式中，通过在第二图像区域集合中筛选出行为类别属于预设行为类别的置信度较大的一些第二图像区域。即该待识别对象的行为属于预设行为的置信度较大。针对每一视频帧的第二图像区域，选择分类结果中预设行为对应类别的置信度大于一定阈值的第二图像区域。基于选择出的置信度较大的第二图像区域集合，对待识别对象的行为类别进行识别，以得到该识别结果。

在本申请实施例中，在视频流的视频帧序列中，首先确定待识别对象的在每一视频帧中的第一图像区域集合；然后，按照该第一图像区域集合中的待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，实现对第一图像区域集合的正则化约束，使得到的第二图像区域集合更利于后续进行行为识别；最后，通过视频帧中的第二图像区域集合对待识别对象的行为进行识别，得到识别结果；如此，基于调整特征距离后的第二图像区域对待识别对象的行为进行识别，能够提高识别网络的有效感受野，从而提高行为识别的准确度。

在一些实施例中，通过对待识别对象在视频帧中的检测框进行预处理，得到每一视频帧中的第一图像区域，即上述步骤S102可以通过以下步骤S121至S123(图示未示出)实现：

步骤S121，对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框。

在一些实施例中，该待识别对象为至少两个对象。在视频帧序列的每一视频帧中，对待识别对象进行检测，得到每一待识别对象的检测框，即多个检测框。

在一些可能的实现方式中，将视频帧序列输入到检测网络中对待识别对象进行检测，输出用检测框标记的检测结果。比如，待识别对象为多个行人，那么通过对每一视频帧中的多个行人进行检测，得到该视频帧中每一行人的检测框，这样每一视频帧中均包括至少一个检测框。

步骤S122，在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域。

在一些实施例中，按照该预设比例对每一检测框的长宽大小自适应外扩，以增大检测框的覆盖区域。比如，将每一检测框的长宽自适应外扩1.5倍，得到该检测框对应的已调整区域。在该检测框所在的视频帧中，对该检测框的边长外扩预设比例，得到该已调整区域。

步骤S123，在所述每一视频帧中的多个已调整区域中，确定所述至少一个第一图像区域。

在一些实施例中，在每一视频帧的多个已调整区域中选择部分已调整区域，作为该至少一个第一图像区域。比如，在该每一视频帧的多个已调整区域选择一个已调整区域作为该视频帧内的第一图像区域。或者，在每一视频帧中对多个已调整区域进行筛选，得到该视频帧内的至少一个第一图像区域。如此，通过对每一视频帧中多个检测框的面积进行调整后，在多个已调整区域中选择一部分作为该视频帧的第一图像区域，能够减少重复识别。

在一些实施例中，通过对每一视频帧的多个已调整区域进行空间上的非极大值抑制，以剔除至少一个已调整区域中冗余的区域，得到图像质量更高的第一图像区域，即上述步骤S123可以通过以下过程实现：

第一步，在所述每一视频帧的多个已调整区域中，确定与参考已调整区域的重叠度大于预设重叠度阈值且面积小于预设面积阈值的目标已调整区域。

在一些实施例中，所述参考已调整区域为所述多个已调整区域中第一置信度大于第一置信度阈值的任一已调整区域。参考已调整区域可以是多个已调整区域中信度最高的已调整区域。在该视频帧的多个已调整区域中，确定检测框的置信度最高的已调整区域，即参考已调整区域；这样得到的参考已调整区域为检测到待识别对象的置信度最高的区域，说明该参考已调整区域中检测到的待识别对象的清晰度和完整度最好。

在每一视频帧的多个已调整区域中，确定每一已调整区域与参考已调整区域之间的重叠度，从而确定出重叠度大于预设重叠度阈值的已调整区域，进一步在这些重叠度较大的已调整区域中确定面积小于预设面积阈值的已调整区域，即目标已调整区域。该目标已调整区域可以是一个或者多个。在一帧视频帧中，如果有5个已调整区域，通过确定其中四个已调整区域与参考已调整区域之间的重叠度，若其中两个已调整区域与参考已调整区域的重叠度大于预设重叠度阈值，那么在这两个已调整区域中进一步确定面积是否小于预设面积阈值的目标已调整区域。

第二步，在所述每一视频帧的多个已调整区域中，剔除所述目标已调整区域，得到所述每一视频帧的所述第一图像区域集合。

在一些实施例中，在该视频帧的多个已调整区域中删除，重叠度高且面积小的目标已调整区域，将剩余的已调整区域作为质量较高的第一图像区域集合。

在本申请实施例中，通过对每一视频帧中待识别对象的多个检测框进行扩大后筛选其中质量较高的已调整区域作为第一图像区域；从而能够降低在已调整区域中进行行为识别的计算量，以及利用质量较高的第一图像区域进行行为识别，能够提高识别的精准度。

在一些实施例中，通过在视频帧序列中选择少量的目标视频帧，进行待识别对象的行为分类，能够减少计算开销，即上述步骤S103之前，还包括可以通过以下步骤实现：

第一步，从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧。

在一些实施例中，预设帧数小于视频帧序列的总帧数，比如，设定预设帧数远小于总帧数。在视频帧序列中，选择少量的视频帧作为目标视频帧。在一些可能的实现方式中，确定视频帧序列中排列在预设位置的视频帧为目标视频帧，这样有几个预设位置即确定相同数量的目标视频帧。比如，预设位置为首位、中间位和末尾，那么目标视频帧包括首帧、中间帧和尾帧。

第二步，基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述待识别对象的行为类别。

在一些实施例中，将每一目标视频帧中的第一图像区域输入到行为分类的网络中，对待识别对象的行为进行分类，得到该目标视频帧中多个第一图像区域的分类结果。以目标视频帧包括首帧、中间帧和尾帧为例，将首帧中的多个第一图像区域输入到行为分类网络中，得到首帧中每一第一图像区域对应的分类结果；同时分别将中间帧和尾帧中的多个第一图像区域输入到行为分类网络中，得到中间帧中每一第一图像区域对应的分类结果，以及尾帧中每一第一图像区域对应的分类结果。

在一些可能的实现方式中，可以是基于每一目标视频帧中的第一图像区域，对待识别对象的行为是否为异常行为进行分类，那么分类结果为该第一图像区域中的待识别对象的行为属于异常行为的置信度，以及该第一图像区域中的待识别对象的行为属于非异常行为的置信度。如此，通过在视频帧序列中选择少量的目标视频帧进行对象行为的分类，能够降低进行行为分类的计算量。

在一些实施例中，通过按照待识别对象的行为类别，对不同第一图像区域之间的特征距离进行正则化约束，以提升二分类模型的判别能力，结合图2所示的步骤进行以下说明：

包括以下步骤S201：

步骤S201，对所述行为类别相同的第一图像区域之间的特征距离进行减小和/或对所述行为类别不同的第一图像区域之间的特征距离进行增大，得到所述第二图像区域集合。

在一些实施例中，在视频帧序列中，首先，通过对每一第一图像区域中待识别对象的行为类别进行粗预测，然后，通过对相同行为类别的第一图像区域的特征距离进行减小，或，对不同行为类别的第一图像区域的特征距离进行增大，或，在对相同行为类别的第一图像区域的特征距离进行减小的基础上，进一步对不同行为类别的第一图像区域的特征距离进行增大，或，在对不同行为类别的第一图像区域的特征距离进行增大的基础上，进一步对相同行为类别的第一图像区域的特征距离进行减小；这样，在得到的第二图像区域中同一类的特征拉近，不同类的特征推远，从而在第二图像区域的基础上，对待识别对象的行为类别进行识别，能够使得识别结果更加准确。

在一些可能的实现方式中，上述步骤S201可以通过以下两种方式实现，其中：

方式一：先对第一图像区域进行类内拉近，再进行类间推远，得到该第二图像区域集合，即上述步骤S201，可以通过以下步骤S211和S212(图示未示出)实现：

步骤S211，对所述行为类别相同的第一图像区域之间的特征距离进行减小，得到第一已约束区域集合。

在一些实施例中，将该第一图像区域集合按照行为类别进行划分。对于行为类别相同的第一图像区域，确定这些第一图像区域的特征向量之间的欧式距离或各特征向量间的均方距离；将相同行为类别的第一图像区域之间的特征距离进行减小，比如，拉近相同行为类别的第一图像区域之间的特征距离，可以是任意减小第一图像区域的特征向量之间的欧式距离或均方距离，或者，将该欧式距离或者均方距离降低为一定值。

在一些可能的实现方式中，如果行为类别包括异常和非异常两类，那么将行为类别同属于异常的第一图像区域之间的特征距离进行拉近，得到行为类别属于异常的多个第一已约束区域；同时也将行为类别同属于非异常的第一图像区域之间的特征距离进行拉近，得到行为类别属于非异常的多个第一已约束区域；从而得到第一已约束区域集合。

步骤S212，对所述行为类别不同的第一已约束区域之间的特征距离进行增大，得到所述第二图像区域集合。

在一些实施例中，对于行为类别不同的第一已约束区域，确定这些第一已约束区域的特征向量之间的欧式距离；将不同行为类别的第一已约束区域之间的特征距离进行增大，比如，推远不同行为类别的第一已约束区域之间的特征距离，可以是任意增大不同行为类别的第一已约束区域之间的欧式距离；比如，将该欧式距离增大到一定值。

在一些可能的实现方式中，在第一已约束区域集合的基础上，如果行为类别包括异常和非异常两类，那么将行为类别为异常的第一已约束区域和行为类别为非异常的第一已约束区域之间的特征距离进行推远，得到调整了两个第一已约束区域之间的特征距离后得到的第一已约束区域，从而得到第二图像区域集合。如此，通过拉近相同类别的第一图像区域之间的特征距离，推远不同类别的第一图像区域之间的特征距离，能够使得不同类别的第一图像区域之间的差异更大，便于二分类模型进行判别。

方式二：还可以是通过先对第一图像区域进行类间推远，再进行类内拉近，得到该第二图像区域集合，包括以下步骤S213和S214(图示未示出)：

步骤S213，对所述行为类别不同的第一图像区域之间的特征距离进行增大，得到第二已约束区域集合。

这里，步骤S213的实现过程与步骤S212类似，即通过适量增大行为类别不同的第一图像区域之间的欧式距离，以使得类别不同的第一图像区域之间的差异更大。

步骤S214，对所述行为类别相同的第二已约束区域之间的特征距离进行减小，得到所述第二图像区域集合。

这里，步骤S214的实现过程与步骤S211类似，即通过适量减小行为类别相同的第一图像区域之间的欧式距离，以使得类别相同的第一图像区域之间的差异更小。

在一些实施例中，在视频序列中的视频帧包括至少一个第二图像区域的情况下，通过从多帧视频帧的第二图像区域中选择置信度较大的候选图像区域，并剔除离群的候选图像区域，从而使得进行待识别对象行为识别的候选图像区域更加有效，即上述步骤S104可以通过图3所示的步骤实现：

步骤S301，确定所述视频帧中每一第二图像区域的行为类别为预设类别的第二置信度。

在一些实施例中，针对视频帧序列中的每一视频帧(该视频帧可以是视频帧序列中的目标视频帧，还可以是视频帧序列中的任一视频帧)，确定该视频帧内每一个第二图像区域的行为类别为预设类别的第二置信度。比如，视频帧内有三个第二图像区域，分别确定第三个第二图像区域的行为类别为预设类别的第二置信度。该预设类别是基于分类过程中包括的类别确定的，比如，分类的类别包括异常行为和非异常行为，那么预设类别可以是异常行为。在一个具体例子中，如果待识别对象为车辆，设定交通事故为异常行为，那么确定每一第二图像区域中车辆发生交通事故的置信度。如果待识别对象为行人，设定行人聚集为异常行为，那么确定每一第二图像区域中发生行人聚集的置信度。

步骤S302，在所述视频帧的至少一个第二图像区域中，确定所述第二置信度大于或等于第二置信度阈值的候选图像区域，得到候选图像区域集合。

在一些实施例中，所述第二置信度阈值大于或等于所述视频帧对应的最小的第二置信度，或者，自定义设定该第二置信度阈值为较大的值，比如，设定该第二置信度阈值为0.8。在该视频帧的至少一个第二图像区域中，将行为类别为预设类别的置信度大于预设置信度阈值的第二图像区域，作为候选图像区域；从而能够在每一视频帧中选择到至少一帧的置信度较高的候选图像区域。

在一些可能的实现方式中，以该视频帧为目标视频帧为例，用户自定义设定该第二置信度阈值；或者，在不同的目标视频帧可以设定不同的置信度阈值，该第二置信度阈值可以是基于目标视频帧的至少一个第二图像区域对应的最小的第二置信度设定的，比如，设定该置信度阈值大于或等于最小的第二置信度；这样，通过分析第二置信度，在每一目标视频帧的至少一个第二图像区域中均能够筛选出该目标视频帧内第二置信度较高的第二图像区域，将该第二置信度较高的第二图像区域作为候选图像区域；从而得到候选图像区域集合。如此，通过在目标视频帧中选择第二置信度较高的第二图像区域为候选图像区域，以便于提升后续基于候选图像区域进行行为识别的性能。

步骤S303，在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合。

在一些实施例中，预设条件为表作为候选图像区域集合的离群值的候选图像区域，比如，任一候选图像区域的从候选图像区域集合中，确定空间位置与其他候选图像区域所在的空间位置之间的空间距离大于一定阈值(比如，设定阈值大于或等于多个候选图像区域之间的平均距离)的候选图像区域作为离群值。在候选图像区域集合中，剔除离群的候选图像区域，即得到剔除后的候选图像区域集合。

在一些可能的实现方式中，通过在候选图像区域集合中，将与其他候选图像区域之间的空间距离较大的候选图像区域进行剔除，使得剔除后的候选图像区域集合中各个图像区域的中心点更为一致，即上述步骤S303可以通过以下步骤S331至S334(图示未示出)实现：

步骤S331，在所述候选图像区域集合中，确定所述第二置信度等于第二置信度阈值的候选图像区域子集合。

在一些实施例中，候选图像区域的第二置信度等于第二置信度阈值，表明该候选图像区域的行为类别是预设类别的可能性是不大的，或者说该候选图像区域的行为类别是最后可能为预设类别的。

在一些可能的实现方式中，从候选图像区域集合中筛选出第二置信度等于第二置信度阈值的候选图像区域，即得到候选图像区域子集合；还可以是视频帧序列的目标视频帧中，每一目标视频帧都会预测最后可能是候选图像区域的第二图像区域；这样基于多帧目标视频帧中即可以得到候选图像区域子集合。比如，有3帧目标视频帧，每一目标视频帧中预测一个最后可能是候选图像区域的第二图像区域，即可得到包括三个候选图像区域的候选图像区域子集合。

步骤S332，在所述候选图像区域子集合中，确定任一候选图像区域与其他候选图像区域之间的空间距离。

在一些实施例中，所述其他候选图像区域为所述候选图像区域子集合中除所述任一候选图像区域之外的候选图像区域。在候选图像区域子集合中，对于每一候选图像区域，确定该候选图像区域与多个其他候选图像区域的中心点在空间位置上的空间距离；或者，对于每一候选图像区域，确定该对于每一候选图像区域与每一个其他候选图像区域之间的空间距离的平均值，并将该平均值作为任一候选图像区域与其他候选图像区域之间的空间距离。通过该空间距离能够确定该候选图像区域是否远离剩余的其他候选图像区域。

步骤S333，确定所述空间距离大于预设空间距离阈值的待剔除候选图像区域。

在一些实施例中，该预设空间距离阈值可以是，基于候选图像区域子集合中多个候选图像区域之间的空间距离的平均距离设定的，比如，将预设空间距离阈值设置为大于或等于该平均距离。如果候选图像区域与其他候选图像区域的中心之间的空间距离大于预设空间距离阈值，说明该候选图像区域是候选图像区域子集合的离群值。在一个具体例子中，如果候选图像区域子集合中包括6个候选图像区域，其中一个候选图像区域与其他候选图像区域之间的空间距离大于预设空间距离阈值，那么说明该候选图像区域不在合理范围内，偏差比较大。

步骤S334，在所述候选图像区域集合中，剔除所述待剔除候选图像区域，得到所述剔除后的候选图像区域集合。

在一些实施例中，在候选图像区域集合中，将偏差较大的待剔除候选图像区域进行剔除，从而使得剔除后的候选图像区域集合的中心点具有一致性。在一个具体例子中，如果候选图像区域子集合中包括6个候选图像区域，且这6个候选图像区域都分散在不同的空间位置，那么能够包围该6个候选图像区域的最小包围框就会很大，达不到定位局部区域的目的，所以对候选图像区域子集合进行聚类，把偏离比较远的候选图像区域丢掉；比如，6个候选图像区域子集合有一半以上的候选图像区域都在一个合理空间范围内，只有极个别因为预测的不准导致偏差比较多，那最后在取最小包围框时候就把这些离群候选图像区域的丢掉，以提高剔除后的候选图像区域集合的准确性。如此，通过在候选图像区域集合中将离群的候选图像区域进行剔除，提高了候选图像区域的中心点一致性，而且使得多个剔除后的候选图像区域在空间上相互接近。

步骤S304，基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，通过从不同视频帧中任选一个剔除后的候选图像区域进行合并；通过合并后的区域对待识别对象的行为进行识别，以得到该待识别对象的识别结果。如此，通过在视频帧中选择第二置信度较高的第二图像区域为候选图像区域，并在候选图像区域集合中剔除离群的候选图像区域，从而利于提升后续基于剔除后的候选图像区域集合进行行为识别的性能。

在一些实施例中，在视频帧包括至少一帧的情况下，通过对不同视频帧中的任一第二图像区域进行合并，基于合并后的图像区域在原始的视频帧序列进行行为识别，以提升识别过程中对有效区域的感知，即上述步骤S304可以通过以下步骤S341和S342(图示未示出)实现：

步骤S341，基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列。

在一些实施例中，每一视频帧包括的剔除后的候选图像区域为至少一个。对不同视频帧的任一剔除后的候选图像区域在空间上进行合并，按照合并后的区域，在原始的视频帧序列进行区域抠取，得到目标区域序列。这样，基于多个合并后的区域，即可在视频帧序列中抠取多个目标区域序列。

在一些可能的实现方式中，以该至少一帧视频帧为至少一帧目标视频帧为例，通过对各目标视频帧内选择的一个剔除后的候选图像区域进行合并，按照合并后的区域在原始视频帧序列中进行区域抠取，得到目标区域序列；即上述步骤S341可以通过以下步骤实现：

第一步，基于所述剔除后的候选图像区域集合，从所述至少一帧视频帧的每一视频帧中选择任一剔除后的候选图像区域。

在一些实施例中，在每一帧视频帧中随机选择一个剔除后的候选图像区域，这样有几帧视频帧，即得到几个剔除后的候选图像区域。以目标视频帧为例，比如，目标视频帧包括首帧、中间帧和尾帧，那么分别在首帧、中间帧和尾帧中选择一个剔除后的候选图像区域，得到包括三个剔除后的候选图像区域的序列；如果首帧、中间帧和尾帧中均包括两个剔除后的候选图像区域，分别在首帧、中间帧和尾帧中任选一个剔除后的候选图像区域，那么可以得到四个剔除后的候选图像区域序列，每一剔除后的候选图像区域序列中包括三个剔除后的候选图像区域。

第二步，对选择的所述剔除后的图像区域进行合并，得到至少一个合并区域。

在一些实施例中，通过在每一视频帧中选择一个剔除后的图像区域，将选择的剔除后的图像区域进行合并，这样基于多个视频帧中的第二图像区域，能够得到多个合并区域。将每一个剔除后的图像区域序列中的多个剔除后的图像区域在空间上进行合并，得到该剔除后的图像区域序列对应的一个合并区域，这样合并区域的个数与集合数量相同。

在一些可能的实现方式中，可以是将一个剔除后的图像区域序列中的多个剔除后的图像区域围在一个框中，这个框所覆盖的区域即为合并区域。

第三步，在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

在一些实施例中，对于任一合并区域来说，按照合并区域在视频帧序列中进行抠图，以抠取与该合并区域对应的图像区域，从而得到一个目标区域序列；这样，有几个合并区域即可确定相同数量的目标区域序列。该目标区域序列能够表征待识别对象的行为轨迹。

在本申请实施例中，通过在每一视频帧中选择一个剔除后的图像区域，将选择的剔除后的图像区域进行合并，按照合并区域在视频帧序列中进行区域抠取，得到与每一合并区域匹配的目标区域序列，能够使得目标区域序列中的画面内容更专注于待识别对象本身，提高实践的有效感受野。

步骤S342，在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，由于目标区域序列中目标区域的画面是专注于待识别对象的，减少了画面中大多数无关信息的干扰，所以通过将多个目标区域序列输入到行为识别网络中，能够使得行为识别网络更专注于识别待识别对象的行为，更关注于如何区分待识别对象不同的运动细节，而非待识别对象和无关对象的差异。

在一些可能的实现方式中，通过对目标区域的边长进行调整，使得目标区域序列中目标区域的边长统一，便于对目标区域序列中待识别对象进行行为识别，即上述步骤S342可以通过以下步骤实现：

第一步，将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调目标区域序列。

在一些实施例中，采用预设边长对每一目标区域的边长进行调整，得到已调整目标区域。对于任一目标区域序列中的目标区域来说，将该目标区域的长和宽调整为预设边长，比如，将该目标区域的长和宽均调整为224，这样得到已调整目标区域序列中的已调整目标区域的尺寸为224×224。

第二步，在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，通过将每一个已调整目标区域序列输入到行为识别网络中进行行为识别，得到该待识别对象的行为是否为预设行为的置信度；如此，通过将目标区域序列中的目标区域的边长调整为统一的长度，便于进行后续的行为识别，能够提高行为识别的效率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以针对复杂场景下采集到的视频中，以该视频中的行人的预设行为进行识别例，进行说明。

视频中的异常检测是计算机视觉领域的一个重要问题，在视频管理领域有着广泛的应用，例如检测交通事故和一些不常见的事件等等。成千上万的视频采集摄像头在全世界范围内进行部署。然而，大多数的摄像头仅仅只是记录每刻的动态，而没有起到自动管理的能力(往往需要人员进行人工察看)。由于巨大的视频数量，仅靠人力去过滤视频中的内容显然是不太现实的。因此，需要利用计算机视觉和深度学习的技术来自动检测发生在视频中的异常事件。

在相关技术中，识别视频中的预设行为是极其困难的，比如，由于小概率事件导致标注数据的稀缺，类间/类内方差大，异常事件的主观定义差别，管理视频的低分辨率，等等。

对于视频场景下的预设行为检测，如何能在视频帧序列的整张画面(不同视角下)中准确定位到预设行为发生区域，从而以局部区域代替整张图输入到识别网络中进行行为分类，有助于提升机器对于目标事件的有效感知范围，减少画面中大多数无关信息的干扰，使得模型更关注于如何区分主体人不同的运动细节，而非目标人群和无关路人的差异。同时支持城市街道和轨交等室内外通用场景，使得视频内容中预设行为的自动分析为用户提供便捷服务。

在相关技术中，在进行行为识别的场景下，对输入视频序列进行全图的数据增强或其他预处理后送入到分类模型中进行预测，然而这种方式只适用于以人为中心的视频行为识别。对于摄像头拍摄的视频来说，往往包含更多的信息，覆盖的视野也更大。同时，预设行为发生位置和人体尺度也具有随机性。因此，简单地以全图作为模型输入显然是不合理的。如此，通过引入类别相关的先验信息进行区域的抠取，使得各帧的结果不稳定，易导致抠取的范围过大。

基于此，本申请实施例提供一行为识别方法，如图4所示，图4为本申请实施例提供的行为识别方法的又一实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S401，在视频帧序列中，提取每一视频帧中行人的检测框。

在一些实施例中，获取摄像头拍摄的视频数据，通过对视频数据进行采样，得到全图视频帧序列；通过调用上游结构化检测模型提取视频帧序列中行人的检测框，如图5中的行人检测501和502所示。

步骤S402，对每一检测框扩大m倍，得到每一检测框对应的已调整区域。

在一些实施例中，对每一检测框的长和宽均进行外扩m倍，以使该检测框的面积扩大，比如，m可以设置为1.5。这样，每一检测框对应的图像区域，即为对该检测框的长和宽均进行外扩m倍得到的区域；如图5所示，对行人检测框501进行扩大m倍得到的已调整区域511，以及对行人检测框502进行扩大m倍得到已调整区域521。

步骤S403，基于已调整区域的面积对每一已调整区域排序，得到排序结果。

在一些实施例中，通过按照已调整区域的面积对扩大后的检测框进行降序排列，得到该排序结果。

步骤S404，基于排序结果，对同一帧内的多个已调整区域进行空间上的非极大值抑制，得到同一帧内第一图像区域。

在一些实施例中，由于采集到的视频为针对行人采集得到的，这样同一帧图像中可能会存在挨着近的人，此时对应的已调整区域在空间上会有重叠。为了减少重复识别，进行已调整区域的非极大值抑制，根据已调整区域面积，对多个已调整区域进行降序排序，在同一帧内，将重叠度高且面积较小的已调整区域丢弃，得到该帧内第一图像区域。

步骤S405，对所述视频帧序列的首帧、中间帧和尾帧对应的多个第一图像区域进行二分类，基于分类结果，对多个第一图像区域进行类内特征距离拉近，类间特征距离推远。

在一些实施例中，将视频帧序列中的首帧、中间帧和尾帧对应的多个第一图像区域类内特征距离拉近，类间特征距离推远，将处理的首帧、中间帧和尾帧对应的多个第一图像区域输入二分类到模型中进行二分类，以确定该第一图像区域中的画面内容为异常类还是非异常类。该分类结果中包括每一第一图像区域属于异常类的置信度。这样，在训练过程中引入了类间图像区域特征距离推远，而类内图像区域特征距离拉近的正则化约束，能够提升二分类模型的判别能力。

步骤S406，基于分类结果，在特征距离调整后的多个第一图像区域中确定异常类置信度大于预设置信度阈值的第二图像区域，得到第二图像区域集合。

在一些实施例中，多个第一图像区域经过分类网络判别后，会输出每一第一图像区域属于异常类的分数，将首帧、中间帧和尾帧中每一帧内分数排在前一半的特征距离调整后的第一图像区域作为第二图像区域。如图6所示，第二图像区域结合包括第二图像区域61至68所示；其中，第二图像区域64为检测失败的图像区域，即在该图像区域中未检测到有效的行人。

步骤S407，对第二图像区域集合中离群值对应的第二图像区域进行剔除，得到第三图像区域集合，分别从首帧、中间帧和尾帧各取一个第三图像区域进行合并，得到多个合并区域。

在一些实施例中，在第二图像区域集合中，将离群的第二图像区域进行剔除，保留空间上相互接近的第二图像区域，即得到第三图像区域集合。在第三图像区域集合中，分别从首帧、中间帧和尾帧各取一个第三图像区域，对取的三个第三图像区域取并集，得到一个合并区域；以此类推，得到多个合并区域。如图6所示，通过将第二图像区域61至68中不同帧内的一个第三图像区域进行合并，得到合并区域601、合并区域602和合并区域603。

步骤S408，基于合并区域在视频帧序列中抠取对应的图像区域序列，得到多个目标区域序列。

在一些实施例中，对合并区域分别在原始的视频帧序列上抠取对应的区域，得到多个目标区域序列。

在一些可能的实现方式中，以确定第K个目标区域为例，对第K个目标区域是长边进行尺度放缩到224，对第K个目标区域的短边等比例缩放，对于该目标区域中不足224的区域上下补黑边，最终目标区域的大小为224×224。

步骤S409，基于多个目标区域序列，对画面中的行人的行为进行识别。

在一些实施例中，将多个目标区域序列输入到视频分类网络中，识别该多个目标区域中行人的行为是否异常。如图5所示，首先，将已调整区域511和已调整区域521进行空间上的非极大值抑制之后，将得到的第一图像区域输入到分类网络模型中，得到每一第一图像区域中包括行人的异常行为的得分；然后，将分类结果中得分大于预设阈值的第一图像区域作为第二图像区域，得到第二图像区域集合；通过对同一帧内的第二图像区域进行合并，以及基于合并区域在原始帧内进行图像区域的抠取；最后，将目标区域序列输入到网络模型503中识别该区域中是否包括行人的异常行为，得到每一目标区域序列包括行人的异常行为的得分512，得分大于预设阈值的目标区域输出在集合504；得分小于预设阈值的目标区域输出在集合505。如此，有效提升了网络模型对视频中目标区域的感知能力，大大减少了检索范围和计算量，使得网络模型对于不同异常行为标签的预处理估计结果更加稳定，提高事件的有效感受野，同时提升了预处理的召回率。

在本申请实施例中，基于行人检测框和可学习预处理的图像区域来确定目标区域，增大了模型的有效感知区域，减少了对无关背景的检索范围；而且以可学习的方式分别对首、尾、中间帧中经过非极大值抑制后的第一图像区域的图像特征距离进行类内拉近，类间推远，将处理后的图像区域输入到二分类模型中进行异常行为识别，能够提升模型在复杂密集场景下的区分和判别能力，进而提高识别精确度；以各帧预测出的分数较高的异常第二图像区域，并对第二图像区域集合内的离群图像区域进行剔除，提高中心点一致性和鲁棒性。将第三图像区域集合内的第三图像区域合并成对应的目标区域，对该目标区域分别进行行为的识别，能够提升第二图像区域的召回率以及网络模型对事件的有效感知区域。

本申请实施例提供一种行为识别装置，图7为本申请实施例行为识别装置的结构组成示意图，如图7所示，所述行为识别装置700包括：

第一获取模块701，用于获取包括待识别对象的视频帧序列；

第一确定模块702，用于在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合；

第一调整模块703，用于基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合；

第一识别模块704，用于基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，所述第一确定模块702，包括：

第一检测子模块，用于对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；

第一调整子模块，用于在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；

第一确定子模块，用于在所述每一视频帧的多个已调整区域中，确定所述第一图像区域集合。

在一些实施例中，所述第一确定子模块，包括：

第一确定单元，用于在所述每一视频帧的多个已调整区域中，确定与参考已调整区域的重叠度大于预设重叠度阈值且面积小于预设面积阈值的目标已调整区域；

第一剔除单元，用于在所述每一视频帧的多个已调整区域中，剔除所述目标已调整区域，得到所述每一视频帧的所述第一图像区域集合；

其中，所述参考已调整区域为所述多个已调整区域中第一置信度大于第一置信度阈值的任一已调整区域。

在一些实施例中，所述装置还包括：

第一选择模块，用于从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；

第一分类模块，用于基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述待识别对象的行为类别。

在一些实施例中，所述第一调整模块703，还用于：

对所述行为类别相同的第一图像区域之间的特征距离进行减小和/或对所述行为类别不同的第一图像区域之间的特征距离进行增大，得到所述第二图像区域集合。

在一些实施例中，在所述视频序列中的视频帧包括至少一个第二图像区域的情况下，所述第一识别模块704，包括：

第二确定子模块，用于确定所述视频帧中每一第二图像区域的行为类别为预设类别的第二置信度；

第二确定子模块，用于在所述视频帧的至少一个第二图像区域中，确定所述第二置信度大于或等于第二置信度阈值的候选图像区域，得到候选图像区域集合；

第一剔除子模块，用于在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合；

第一识别子模块，用于基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，所述第一剔除子模块，包括：

第二确定单元，用于在所述候选图像区域集合中，确定所述第二置信度等于第二置信度阈值的候选图像区域子集合；

第三确定单元，用于在所述候选图像区域子集合中，确定任一候选图像区域与其他候选图像区域之间的空间距离；其中，所述其他候选图像区域为所述候选图像区域子集合中除所述任一候选图像区域之外的候选图像区域；

第四确定单元，用于确定所述空间距离大于预设空间距离阈值的待剔除候选图像区域；

第二剔除单元，用于在所述候选图像区域集合中，剔除所述待剔除候选图像区域，得到所述剔除后的候选图像区域集合。

在一些实施例中，所述第一识别子模块，包括：

第五确定单元，用于基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列；

第一识别单元，用于在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，所述第五确定单元，包括：

第一选择子单元，用于基于所述剔除后的候选图像区域集合，从所述至少一帧视频帧的每一视频帧中选择任一剔除后的候选图像区域；

第一合并子单元，用于对选择的所述剔除后的图像区域进行合并，得到至少一个合并区域；

第一确定子单元，用于在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

在一些实施例中，所述第一识别单元，包括：

第一调整子单元，用于将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调目标区域序列；

第一识别子单元，用于在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的行为识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的行为识别方法中的步骤。

相应的，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的行为识别方法的步骤。

相应的，本申请实施例提供一种电子设备，图8为本申请实施例电子设备的组成结构示意图，如图8所示，所述电子设备800包括：一个处理器801、至少一个通信总线、通信接口802、至少一个外部通信接口和存储器803。其中，通信接口802配置为实现这些组件之间的连接通信。其中，通信接口802可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器801，配置为执行存储器中图像处理程序，以实现上述实施例提供的行为识别方法的步骤。

以上行为识别装置、电子设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请行为识别装置、电子设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

获取包括待识别对象的视频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述在所述视频帧序列中，确定所述待识别对象所在的第一图像区域集合，包括：

对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；

在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；

在所述每一视频帧的多个已调整区域中，确定所述第一图像区域集合。

3.根据权利要求2所述的方法，其特征在于，所述在所述每一视频帧的多个已调整区域中，确定所述第一图像区域集合，包括：

在所述每一视频帧的多个已调整区域中，确定与参考已调整区域的重叠度大于预设重叠度阈值且面积小于预设面积阈值的目标已调整区域；

在所述每一视频帧的多个已调整区域中，剔除所述目标已调整区域，得到所述每一视频帧的所述第一图像区域集合；

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合之前，所述方法还包括：

从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；

基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述待识别对象的行为类别。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述第一图像区域集合中所述待识别对象的行为类别，对不同第一图像区域之间的特征距离进行调整，得到第二图像区域集合，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述视频帧序列中的视频帧包括至少一个第二图像区域的情况下，所述基于所述第二图像区域集合，对所述待识别对象的行为进行识别，得到识别结果，包括：

确定所述视频帧中每一第二图像区域的行为类别为预设类别的第二置信度；

在所述视频帧的至少一个第二图像区域中，确定所述第二置信度大于或等于第二置信度阈值的候选图像区域，得到候选图像区域集合；

在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合；

基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果。

7.根据权利要求6所述的方法，其特征在于，所述在所述候选图像区域集合中，剔除与所述候选图像区域集合的空间距离满足预设条件的候选图像区域，得到剔除后的候选图像区域集合，包括：

在所述候选图像区域集合中，确定所述第二置信度等于第二置信度阈值的候选图像区域子集合；

在所述候选图像区域子集合中，确定任一候选图像区域与其他候选图像区域之间的空间距离；其中，所述其他候选图像区域为所述候选图像区域子集合中除所述任一候选图像区域之外的候选图像区域；

确定所述空间距离大于预设空间距离阈值的待剔除候选图像区域；

在所述候选图像区域集合中，剔除所述待剔除候选图像区域，得到所述剔除后的候选图像区域集合。

8.根据权利要求6或7所述的方法，其特征在于，所述基于所述视频帧中的所述剔除后的候选图像区域集合，对所述待识别对象的行为进行识别，得到所述识别结果，包括：

基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列；

在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

9.根据权利要求8所述的方法，其特征在于，所述基于至少一帧视频帧中的所述剔除后的候选图像区域集合，在所述视频帧序列中确定至少一个目标区域序列，包括：

基于所述剔除后的候选图像区域集合，从所述至少一帧视频帧的每一视频帧中选择任一剔除后的候选图像区域；

对选择的所述剔除后的图像区域进行合并，得到至少一个合并区域；

在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

10.根据权利要求8或9所述的方法，其特征在于，所述在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果，包括：

将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调目标区域序列；

在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

11.一种行为识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取包括待识别对象的视频帧序列；

12.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至10任一项所述的方法步骤。

13.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求1至10任一项所述的方法步骤。