CN114550049A

CN114550049A - 行为识别方法、装置、设备及存储介质

Info

Publication number: CN114550049A
Application number: CN202210166617.5A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本申请实施例提供一种行为识别方法、装置、设备及存储介质，其中，所述方法包括：在包括待识别对象的视频流中，确定视频帧序列；在所述视频帧序列中，确定所述待识别对象所在的至少一个第一图像区域；基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果；在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域；基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。

Description

行为识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉领域，涉及但不限于一种行为识别方法、装置、设备及存储介质。

背景技术

针对以人为中心的视频行为识别，对输入视频序列进行全图的数据增强后送入到分类模型中进行预测。由于摄像头拍摄到的视频中往往包含更多的信息，覆盖的视野也更大。这样，行人的目标事件发生位置和人体尺度也具有随机性，影响行为识别的准确度。

发明内容

本申请实施例提供一种行为识别技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种行为识别方法，所述方法包括：

在包括待识别对象的视频流中，确定视频帧序列；

在所述视频帧序列中，确定所述待识别对象所在的至少一个第一图像区域；

基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果；

在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域；

基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，所述在所述视频帧序列中，确定所述待识别对象对应的至少一个第一图像区域，包括：对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；在所述每一视频帧的多个已调整区域中，确定所述至少一个第一图像区域。如此，通过对每一视频帧中多个检测框的面积进行调整后，在多个已调整区域中选择一部分作为该视频帧的第一图像区域，能够减少重复识别。

在一些实施例中，所述在所述每一视频帧中的多个已调整区域中，确定所述至少一个第一图像区域，包括：在所述每一视频帧的多个已调整区域中，确定检测框的第一置信度最高的第一已调整区域；确定与所述第一已调整区域的重叠度大于预设重叠度阈值的第二已调整区域；在所述每一视频帧的多个已调整区域中剔除面积小于预设面积阈值的第二已调整区域，得到所述每一视频帧的所述至少一个第一图像区域。如此，能够降低在已调整区域中进行行为识别的计算量，以及利用质量较高的第一图像区域进行行为识别，能够提高识别的精准度。

在一些实施例中，所述基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果，包括：从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述分类结果。如此，通过在视频帧序列中选择少量的目标视频帧进行对象行为的分类，能够降低进行行为分类的计算量。

在一些实施例中，所述从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧，包括：从所述视频帧序列中，选择首帧视频帧、中间帧视频帧和尾帧视频帧作为所述目标视频帧。如此，从视频帧序列中选择首帧视频帧、中间帧视频帧和尾帧视频帧，三帧视频帧作为目标视频帧以用于后续的处理中，能够减少后续计算的复杂度。

在一些实施例中，在所述视频序列中的目标视频帧包括至少一个第一图像区域的情况下，所述在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域，包括：确定所述目标视频帧中每一第一图像区域的分类结果为预设类别的第二置信度；在所述目标视频帧中，确定所述第二置信度大于预设置信度阈值的第一图像区域为所述第二图像区域。如此，通过在目标视频帧中选择第二置信度较高的第一图像区域为第二图像区域，以便于提升后续基于第二图像区域进行行为识别的性能。

在一些实施例中，在所述目标视频帧为至少一帧的情况下，所述基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果，包括：基于所述至少一帧目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列；在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。如此，通过将多个目标区域序列输入到行为识别网络中，能够使得行为识别网络更专注于识别待识别对象的行为，更关注于如何区分待识别对象不同的运动细节。

在一些实施例中，所述基于所述至少一个目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列，包括：在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合；对每一第二图像区域集合中的第二图像区域进行合并，得到至少一个合并区域；在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。如此，能够使得目标区域序列中的画面内容更专注于待识别对象本身，提高实践的有效感受野。

在一些实施例中，在所述目标视频帧包括所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的情况下，所述在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合，包括：在所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的至少一个第二图像区域中，各选一个第二图像区域，得到所述至少一个第二图像区域集合。如此，通过得到多个第二图像区域集合，便于后续按照多个第二图像区域集合进行合并，丰富合并区域。

在一些实施例中，所述在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果，包括：将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调整目标区域序列；在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。如此，通过将目标区域序列中的目标区域的边长调整为统一的长度，便于进行后续的行为识别，能够提高行为识别的效率。

本申请实施例提供一种行为识别装置，所述装置包括：

第一确定模块，用于在包括待识别对象的视频流中，确定视频帧序列；

第二确定模块，用于在所述视频帧序列中，确定所述待识别对象所在的至少一个第一图像区域；

第一分类模块，用于基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果；

第一选择模块，用于在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域；

第一识别模块，用于基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。

对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的行为识别方法。

本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的行为识别方法。

本申请实施例提供一种行为识别方法、装置、设备及存储介质，在视频流的视频帧序列中，首先确定待识别对象的在每一视频帧中的第一图像区域；然后，对该第一图像区域中的待识别对象的行为进行分类，依据分类结果从每一帧的第一图像区域中选择满足预设条件的第二图像区域；这样，能够减少后续识别次数，降低计算量。最后，通过视频帧中的第二图像区域对待识别对象的行为进行识别，得到识别结果；如此，基于分类效果满足预设条件的第二图像区域对待识别对象的行为进行识别，能够提高识别网络的有效感受野，从而提高行为识别的准确度。

附图说明

图1为本申请实施例提供的行为识别方法的实现流程示意图；

图2为本申请实施例提供的行为识别方法的另一实现流程示意图；

图3为本申请实施例提供的行为识别方法的另一实现流程示意图；

图4为本申请实施例提供的行为识别方法的又一实现流程示意图；

图5为本申请实施例提供的行为识别方法的应用场景示意图；

图6为本申请实施例提供的行为识别方法的另一应用场景示意图；

图7为本申请实施例行为识别装置的结构组成示意图；

图8为本申请实施例电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)计算机视觉，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

2)非极大值抑制(Non-Maximum Suppression，NMS)，是搜素局部最大值，抑制极大值。以目标检测为例。目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。

下面说明本申请实施例提供的行为识别设备的示例性应用，本申请实施例提供的设备可以实施为具有数据处理功能的笔记本电脑，平板电脑，台式计算机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于电子设备，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

本申请实施例提供一种行为识别方法，如图1所示，结合如图1所示步骤进行说明：

步骤S101，在包括待识别对象的视频流中，确定视频帧序列。

在一些实施例中，视频流可以是在任一场景下采集到的视频数据，比如，在任一场景下通过该场景中的摄像头采集到的视频数据，或者，是接收到的其他设备发送的视频数据。待识别对象可以是该视频流所在场景下的可移动对象；待识别对象可以是一个或者多个，比如，视频流为针对行人采集得到的，那么待识别对象为行人。如果视频流为交通场景下采集到的，那么待识别对象可以是该交通场景下的车辆；如果视频流为在草原采集到的图像，那么待识别对象可以是草原上的牛羊等动物，

在一些可能的实现方式中，该视频流可以是所属场景下的摄像头采集到的短时间内的视频数据，比如，针对行人采集的3秒的视频流。该视频流的视频帧序列为通过对视频流进行采样得到的多个视频帧；比如，通过对3秒的视频流进行等间隔采样，得到8个视频帧，即视频帧序列；还可以是通过对3秒的视频流进行随机采样，得到多个视频帧。

步骤S102，在所述视频帧序列中，确定所述待识别对象所在的至少一个第一图像区域。

在一些实施例中，在该视频帧序列的每一视频帧中，确定待识别对象在该每一视频帧中所在的第一图像区域。该第一图像区域为通过对视频帧中待识别对象的检测框进行预处理得到的，该预处理的过程包括对检测框的尺寸进行外扩，以及对扩大后的检测框进行筛选。

在一些可能的实现方式中，首先，在视频帧序列的每一视频帧中，对待识别对象进行检测，得到该视频帧中每一待识别对象的检测框；如果视频帧中包括多个待识别对象，那么在该视频帧中对多个待识别对象进行检测，得到每一待识别对象的检测框，即多个检测框。然后，对每一检测框的长宽自适应外扩一定比例。最后，在每一视频帧中，对多个已扩大的检测框进行空间上的非极大值抑制，剔除冗余的已扩大的检测框。这样，通过对视频帧中待识别对象的检测框进行外扩后，筛选出画面质量更高的第一图像区域，能够剔除冗余的检测框，从而能够降低计算量。

步骤S103，基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果。

在一些实施例中，通过上述步骤S102可以得到每一视频帧中的第一图像区域。可以将每一视频帧中的第一图像区域输入到分类网络中，基于每一视频帧中的第一图像区域，对待识别对象的行为进行分类；还可以是在视频帧序列中选择处于预设位置的目标视频帧，将该目标视频帧中的第一图像区域输入到分类网络中，以对待识别对象的行为进行分类。

在一些可能的实现方式中，首先在视频帧序列中选择排列在预设位置的目标视频帧；然后将每一目标视频帧中的第一图像区域输入到分类网络中，得到该该每一目标视频帧中待识别对象的行为所属的类别。分类结果包括该待识别对象的行为属于每一类别的置信度，其中，分类的类别包括：预设行为和非预设行为。在一个具体例子中，如果待识别对象为车辆，那么预设行为可以是车辆发生交通事故的行为，比如，碰撞、碾压、刮擦等；非预设行为即为车辆发生交通事故之外的行为，比如正常行驶、正常停车等。如果待识别对象为多个行人，那么预设行为可以是多个行人是否存在斗殴行为；非预设行为即为斗殴之外的行为，比如，正常行走或多人正常结伴行走等。这样，在分类结果，能够得到待识别对象的行为属于预设行为的置信度。

步骤S104，在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域。

在一些实施例中，在进行行为分类的每一视频帧包括的第一图像区域中，选择分类结果满足预设条件的第二图像区域。比如，进行行为分类的视频帧有三帧，那么在这三帧的每一视频帧包括的第一图像区域中，选择分类结果满足预设条件的第二图像区域，这样能够得到每一视频帧中分类结果满足预设条件的第二图像区域。预设条件可以是，待识别对象的行为的分类结果中预设行为的置信度大于一定阈值，即该待识别对象的行为属于预设行为的置信度较大。针对每一视频帧的至少一个第一图像区域，选择分类结果中预设行为对应类别的置信度大于一定阈值的第一图像区域，得到该视频帧的第二图像区域。

在一些可能的实现方式中，如果将多个目标视频帧的第一图像区域输入到分类网络中，以对待识别对象的行为是否属于预设行为进行分类；那么在每一目标视频帧的至少一个第一图像区域中，选择属于预设行为的置信度大于一定阈值的第一图像区域作为第二图像区域，这样能够各帧目标视频帧对应的第二图像区域。在一个具体例子中，如果待识别对象为多个行人，预设行为是多人斗殴行为，通过对目标视频帧中每一第一图像区域的待识别对象的行为进行分类之后，将行为属于斗殴行为的置信度大于一定阈值的第一图像区域筛选出来，作为该目标视频帧的第二图像区域，这样能够从每一目标视频帧的第二图像区域。

步骤S105，基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，第二图像区域为至少一个，通过上述步骤S104得到每一视频帧中的第二图像区域。通过将得到的多个第二图像区域按照不同视频帧进行合并，从而能够基于合并后的区域对待识别对象的行为进行识别，得到该识别结果。识别结果中包括该待识别对象的行为所属的类别。

在一些可能的实现方式中，对于包括第二图像区域的视频帧，在每一视频帧中任选一个第二图像区域，将多个视频帧中选择的第二图像区域在空间上进行合并，得到合并区域。基于该合并区域对待识别对象的行为进行识别，能够得到精准的识别结果。

在本申请实施例中，在视频流的视频帧序列中，首先确定待识别对象的在每一视频帧中的第一图像区域；然后，对该第一图像区域中的待识别对象的行为进行分类，依据分类结果从每一帧的第一图像区域中选择满足预设条件的第二图像区域；这样，能够减少后续识别次数，降低计算量。最后，通过视频帧中的第二图像区域对待识别对象的行为进行识别，得到识别结果；如此，基于分类效果满足预设条件的第二图像区域对待识别对象的行为进行识别，能够提高识别网络的有效感受野，从而提高行为识别的准确度。

在一些实施例中，通过对待识别对象在视频帧中的检测框进行预处理，得到每一视频帧中的第一图像区域，即上述步骤S102可以通过图2所示的步骤实现：

步骤S201，对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框。

在一些实施例中，该待识别对象为至少两个对象。在视频帧序列的每一视频帧中，对待识别对象进行检测，得到每一待识别对象的检测框，即多个检测框。

在一些可能的实现方式中，将视频帧序列输入到检测网络中对待识别对象进行检测，输出用检测框标记的检测结果。比如，待识别对象为多个行人，那么通过对每一视频帧中的多个行人进行检测，得到该视频帧中每一行人的检测框，这样每一视频帧中均包括至少一个检测框。

步骤S202，在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域。

在一些实施例中，按照该预设比例对每一检测框的长宽大小自适应外扩，以增大检测框的覆盖区域。比如，将每一检测框的长宽自适应外扩1.5倍，得到该检测框对应的已调整区域。在该检测框所在的视频帧中，对该检测框的边长外扩预设比例，得到该已调整区域。

步骤S203，在所述每一视频帧中的多个已调整区域中，确定所述至少一个第一图像区域。

在一些实施例中，在每一视频帧的多个已调整区域中选择部分已调整区域，作为该至少一个第一图像区域。比如，在该每一视频帧的多个已调整区域选择一个已调整区域作为该视频帧内的第一图像区域。或者，在每一视频帧中对多个已调整区域进行筛选，得到该视频帧内的至少一个第一图像区域。如此，通过对每一视频帧中多个检测框的面积进行调整后，在多个已调整区域中选择一部分作为该视频帧的第一图像区域，能够减少重复识别。

在一些实施例中，通过对每一视频帧的多个已调整区域进行空间上的非极大值抑制，以剔除至少一个已调整区域中冗余的区域，得到图像质量更高的第一图像区域，即上述步骤S203可以通过以下步骤S231至S233(图示未示出)实现：

步骤S231，在所述每一视频帧的多个已调整区域中，确定置信度最高的第一已调整区域。

在一些实施例中，在该视频帧的多个已调整区域中，确定检测框的置信度最高的已调整区域，即第一已调整区域；这样得到的第一已调整区域为检测到待识别对象的置信度最高的区域，说明该第一已调整区域中检测到的待识别对象的清晰度和完整度最好。

步骤S232，确定与所述第一已调整区域的重叠度大于预设重叠度阈值的第二已调整区域。

在一些实施例中，在每一视频帧的多个已调整区域中，确定每一已调整区域与第一已调整区域之间的重叠度，从而确定出重叠度大于预设重叠度阈值的已调整区域，即第二已调整区域。该第二已调整区域可以是一个或者多个。在一帧视频帧中，如果有5个已调整区域，通过确定其中四个已调整区域与第一已调整区域之间的重叠度，若其中两个已调整区域与第一已调整区域的重叠度大于预设重叠度阈值，那么将这两个已调整区域作为该视频帧内的第二已调整区域。

步骤S233，在所述每一视频帧的多个已调整区域中，剔除面积小于预设面积阈值的第二已调整区域，得到所述每一视频帧的所述至少一个第一图像区域。

在一些实施例中，在该视频帧内的第二已调整区域中，选择面积小于预设面积阈值的第二已调整区域；在该视频帧的多个已调整区域中删除这样的第二已调整区域，将剩余的已调整区域作为质量较高的第一图像区域。

在本申请实施例中，通过对每一视频帧中待识别对象的多个检测框进行扩大后筛选其中质量较高的已调整区域作为第一图像区域；从而能够降低在已调整区域中进行行为识别的计算量，以及利用质量较高的第一图像区域进行行为识别，能够提高识别的精准度。

在一些实施例中，通过在视频帧序列中选择少量的目标视频帧，进行待识别对象的行为分类，能够减少计算开销，即上述步骤S103可以通过以下步骤S131和S132(图示未示出)实现：

步骤S131，从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧。

在一些实施例中，预设帧数小于视频帧序列的总帧数，比如，设定预设帧数远小于总帧数。在视频帧序列中，选择少量的视频帧作为目标视频帧。在一些可能的实现方式中，确定视频帧序列中排列在预设位置的视频帧为目标视频帧，这样有几个预设位置即确定相同数量的目标视频帧。比如，预设位置为首位、中间位和末尾，那么目标视频帧包括首帧、中间帧和尾帧。

步骤S132，基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述分类结果。

在一些实施例中，将每一目标视频帧中的第一图像区域输入到行为分类的网络中，对待识别对象的行为进行分类，得到该目标视频帧中多个第一图像区域的分类结果。以目标视频帧包括首帧、中间帧和尾帧为例，将首帧中的多个第一图像区域输入到行为分类网络中，得到首帧中每一第一图像区域对应的分类结果；同时分别将中间帧和尾帧中的多个第一图像区域输入到行为分类网络中，得到中间帧中每一第一图像区域对应的分类结果，以及尾帧中每一第一图像区域对应的分类结果。

在一些可能的实现方式中，可以是基于每一目标视频帧中的第一图像区域，对待识别对象的行为是否为异常行为进行分类，那么分类结果为该第一图像区域中的待识别对象的行为属于异常行为的置信度，以及该第一图像区域中的待识别对象的行为属于非异常行为的置信度。

在本申请实施例中，通过在视频帧序列中选择少量的目标视频帧进行对象行为的分类，能够降低进行行为分类的计算量。

在一些实施例中，在每一目标视频帧的至少一个第一图像区域中，按照分类结果从该至少一个第一图像区域中选择第二图像区域，即上述步骤S104可以通过以下步骤S141和S142(图示未示出)实现：

步骤S141，确定所述目标视频帧中每一第一图像区域的分类结果为预设类别的第二置信度。

在一些实施例中，针对视频帧序列中的每一目标视频帧，确定该目标视频帧内每一个第一图像区域的分类结果为预设类别的第二置信度。比如，目标视频帧内有三个第一图像区域，分别确定第三个第一图像区域的分类结果为预设类别的第二置信度。该预设类别是基于分类过程中包括的类别确定的，比如，分类的类别包括异常行为和非异常行为，那么预设类别可以是异常行为。在一个具体例子中，如果待识别对象为车辆，设定交通事故为异常行为，那么确定每一第一图像区域中车辆发生交通事故的置信度。

步骤S142，在所述目标视频帧中，确定所述第二置信度大于预设置信度阈值的第一图像区域为所述第二图像区域。

在一些实施例中，所述预设置信度阈值大于或等于所述目标视频帧对应的最小的第二置信度，或者，自定义设定该预设置信度阈值为较大的值，比如，设定该预设置信度阈值为0.8。在该目标视频帧的至少一个第一图像区域中，将分类结果为预设类别的置信度大于预设置信度阈值的第一图像区域，作为第二图像区域；从而能够在每一目标视频帧中选择到至少一帧的置信度较高的第二图像区域。

在一些可能的实现方式中，用户自定义设定该预设置信度阈值；或者，在不同的目标视频帧可以设定不同的置信度阈值，该置信度阈值可以是基于目标视频帧的至少一个第一图像区域对应的最小的第二置信度设定的，比如，设定该置信度阈值大于或等于最小的第二置信度；这样，通过分析第二置信度，在每一目标视频帧的至少一个第一图像区域中均能够筛选出该目标视频帧内第二置信度较高的第一图像区域，将该第二置信度较高的第一图像区域作为第二图像区域。如此，通过在目标视频帧中选择第二置信度较高的第一图像区域为第二图像区域，以便于提升后续基于第二图像区域进行行为识别的性能。

在一些实施例中，在目标视频帧包括至少一帧的情况下，通过对不同目标视频帧中的任一第二图像区域进行合并，基于合并后的图像区域在原始的视频帧序列进行行为识别，以提升识别过程中对有效区域的感知，即上述步骤S105可以通过图3所示的步骤实现：

步骤S301，基于所述至少一帧目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列。

在一些实施例中，每一目标视频帧包括的第二图像区域为至少一个。对不同目标视频帧的任一第二图像区域在空间上进行合并，按照合并后的区域，在原始的视频帧序列进行区域抠取，得到目标区域序列。这样，基于多个合并后的区域，即可在视频帧序列中抠取多个目标区域序列。

在一些可能的实现方式中，通过对各目标视频帧内选择的一个第二图像区域进行合并，按照合并后的区域在原始视频帧序列中进行区域抠取，得到目标区域序列，即上述步骤S301可以通过以下步骤S311至S313(图示未示出)实现：

步骤S311，在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合。

在一些实施例中，在每一帧目标视频帧中随机选择一个第二图像区域，这样有几帧目标视频帧，即得到几个第二图像区域。比如，目标视频帧包括首帧、中间帧和尾帧，那么分别在首帧、中间帧和尾帧中选择一个第二图像区域，得到一个第二图像区域集合，该第二图像区域集合中包括三个第二图像区域；在所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的至少一个第二图像区域中，各选一个第二图像区域，得到所述至少一个第二图像区域集合。比如，如果首帧、中间帧和尾帧中均包括两个第二图像区域，分别在首帧、中间帧和尾帧中任选一个第二图像区域，那么可以得到八个第二图像区域集合，每一第二图像区域集合中包括三个第二图像区域。这样，通过得到多个第二图像区域集合，便于后续按照多个第二图像区域集合进行合并，丰富合并区域。

步骤S312，对每一第二图像区域集合中的第二图像区域进行合并，得到至少一个合并区域。

在一些实施例中，通过在每一目标视频帧中选择一个第二图像区域，将选择的第二图像区域进行合并，这样基于多个目标视频帧中的第二图像区域，能够得到多个合并区域。将每一个第二图像区域集合中的多个第二图像区域在空间上进行合并，得到该第二图像区域集合对应的一个合并区域，这样合并区域的个数与集合数量相同。

在一些可能的实现方式中，可以是将一个第二图像区域集合中的多个第二图像区域围在一个框中，这个框所覆盖的区域即为合并区域。

步骤S313，在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

在一些实施例中，对于任一合并区域来说，按照合并区域在视频帧序列中进行抠图，以抠取与该合并区域对应的图像区域，从而得到一个目标区域序列；这样，有几个合并区域，即可确定相同数量的目标区域序列。该目标区域序列能够表征待识别对象的行为轨迹。

在本申请实施例中，通过在每一目标视频帧中选择一个第二图像区域，将选择的第二图像区域进行合并，按照合并区域在视频帧序列中进行区域抠取，得到与每一合并区域匹配的目标区域序列，能够使得目标区域序列中的画面内容更专注于待识别对象本身，提高实践的有效感受野。

步骤S302，在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，由于目标区域序列中目标区域的画面是专注于待识别对象的，减少了画面中大多数无关信息的干扰，所以通过将多个目标区域序列输入到行为识别网络中，能够使得行为识别网络更专注于识别待识别对象的行为，更关注于如何区分待识别对象不同的运动细节，而非待识别对象和无关对象的差异。

在一些可能的实现方式中，通过对目标区域的边长进行调整，使得目标区域序列中目标区域的边长统一，便于对目标区域序列中待识别对象进行行为识别，即上述步骤S302可以通过以下步骤S321和S322(图示未示出)实现：

步骤S321，将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调整目标区域序列。

在一些实施例中，采用预设边长对每一目标区域的边长进行调整，得到已调整目标区域。对于任一目标区域序列中的目标区域来说，将该目标区域的长和宽调整为预设边长，比如，将该目标区域的长和宽均调整为224，这样得到已调整目标区域序列中的已调整目标区域的尺寸为224×224。

步骤S322，在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，通过将每一个已调整目标区域序列输入到行为识别网络中进行行为识别，得到该待识别对象的行为是否为预设行为的置信度；如此，通过将目标区域序列中的目标区域的边长调整为统一的长度，便于进行后续的行为识别，能够提高行为识别的效率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以针对复杂场景下采集到的视频中，以该视频中的行人的预设行为进行识别例，进行说明。

视频中的异常检测是计算机视觉领域的一个重要问题，在视频管理领域有着广泛的应用，例如检测交通事故和一些不常见的事件等等。成千上万的视频采集摄像头在全世界范围内进行部署。然而，大多数的摄像头仅仅只是记录每刻的动态，而没有起到自动管理的能力(往往需要人员进行人工察看)。由于巨大的视频数量，仅靠人力去过滤视频中的内容显然是不太现实的。因此，需要利用计算机视觉和深度学习的技术来自动检测发生在视频中的异常事件。

在相关技术中，识别视频中的预设行为是极其困难的，比如，由于小概率事件导致标注数据的稀缺，类间/类内方差大，异常事件的主观定义差别，管理视频的低分辨率，等等。

对于视频场景下的预设行为检测，如何能在视频帧序列的整张画面(不同视角下)中准确定位到预设行为发生区域，从而以局部区域代替整张图输入到识别网络中进行行为分类，有助于提升机器对于目标事件的有效感知范围，减少画面中大多数无关信息的干扰，使得模型更关注于如何区分主体人不同的运动细节，而非目标人群和无关路人的差异。同时支持城市街道和轨交等室内外通用场景，使得视频内容中预设行为的自动分析为用户提供便捷服务。

在相关技术中，在进行行为识别的场景下，对输入视频序列进行全图的数据增强或其他预处理后送入到分类模型中进行预测，然而这种方式只适用于以人为中心的视频行为识别。对于摄像头拍摄的视频来说，往往包含更多的信息，覆盖的视野也更大。同时，预设行为发生位置和人体尺度也具有随机性。因此，简单地以全图作为模型输入显然是不合理的。如此，通过引入类别相关的先验信息进行区域的抠取，使得各帧的结果不稳定，易导致抠取的范围过大。

基于此，本申请实施例提供一行为识别方法，如图4所示，图4为本申请实施例提供的行为识别方法的又一实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S401，在视频帧序列中，提取每一视频帧中行人的检测框。

在一些实施例中，获取摄像头拍摄的视频数据，通过对视频数据进行采样，得到全图视频帧序列；通过调用上游结构化检测模型提取视频帧序列中行人的检测框，如图5中的行人检测501和502所示。

步骤S402，对每一检测框扩大m倍，得到每一检测框对应的已调整区域。

在一些实施例中，对每一检测框的长和宽均进行外扩m倍，以使该检测框的面积扩大，比如，m可以设置为1.5。这样，每一检测框对应的图像区域，即为对该检测框的长和宽均进行外扩m倍得到的区域；如图5所示，对行人检测框501进行扩大m倍得到的已调整区域511，以及对行人检测框502进行扩大m倍得到已调整区域521。

步骤S403，基于已调整区域的面积对每一已调整区域排序，得到排序结果。

在一些实施例中，通过按照已调整区域的面积对扩大后的检测框进行降序排列，得到该排序结果。

步骤S404，基于排序结果，对同一帧内的多个已调整区域进行空间上的非极大值抑制，得到同一帧内第一图像区域。

在一些实施例中，由于采集到的视频为针对行人采集得到的，这样同一帧图像中可能会存在挨着近的人，此时对应的已调整区域在空间上会有重叠。为了减少重复识别，进行已调整区域的非极大值抑制，根据已调整区域面积，对多个已调整区域进行降序排序，在同一帧内，将重叠度高且面积较小的已调整区域丢弃，得到该帧内第一图像区域。

步骤S405，对所述视频帧序列的首帧、中间帧和尾帧对应的多个第一图像区域进行二分类，得到分类结果。

在一些实施例中，将视频帧序列中的首帧、中间帧和尾帧对应的多个第一图像区域输入二分类到模型中进行二分类，以确定该第一图像区域中的画面内容为异常类还是非异常类。该分类结果中包括每一第一图像区域属于异常类的置信度。

步骤S406，基于分类结果，在多个第一图像区域中确定异常类置信度大于预设置信度阈值的第二图像区域，得到第二图像区域集合。

在一些实施例中，多个第一图像区域经过分类网络判别后，会输出每一第一图像区域属于异常类的分数，将首帧、中间帧和尾帧中每一帧内分数排在前一半的第一图像区域作为第二图像区域。如图6所示，第二图像区域集合包括第二图像区域61至68所示；其中，第二图像区域64为检测失败的图像区域，即在该图像区域中未检测到有效的行人。

步骤S407，分别从首帧、中间帧和尾帧各取一个第二图像区域进行合并，得到多个合并区域。

在一些实施例中，在第二图像区域集合中，分别从首帧、中间帧和尾帧各取一个第二图像区域进行合并，得到一个合并区域，以此类推，得到多个合并区域。如图6所示，通过将第二图像区域61至68中不同帧内的一个第二图像区域进行合并，得到合并区域601、合并区域602和合并区域603。

步骤S408，基于合并区域在视频帧序列中抠取对应的图像区域序列，得到多个目标区域序列。

在一些实施例中，对合并区域分别在原始的视频帧序列上抠取对应的区域，得到多个目标区域序列。

在一些可能的实现方式中，以确定第K个目标区域为例，对第K个目标区域是长边进行尺度放缩到224，对第K个目标区域的短边等比例缩放，对于该目标区域中不足224的区域上下补黑边，最终目标区域的大小为224×224。

步骤S409，基于多个目标区域序列，对画面中的行人的行为进行识别。

在一些实施例中，将多个目标区域序列输入到视频分类网络中，识别该多个目标区域中行人的行为是否异常。如图5所示，首先，将已调整区域511和已调整区域521进行空间上的非极大值抑制之后，将得到的第一图像区域输入到分类网络模型中，得到每一第一图像区域中包括行人的异常行为的得分；然后，将分类结果中得分大于预设阈值的第一图像区域作为第二图像区域，得到第二图像区域集合；通过对同一帧内的第二图像区域进行合并，以及基于合并区域在原始帧内进行图像区域的抠取；最后，将目标区域序列输入到网络模型503中识别该区域中是否包括行人的异常行为，得到每一目标区域序列包括行人的异常行为的得分512，得分大于预设阈值的目标区域输出在集合504；得分小于预设阈值的目标区域输出在集合505。如此，有效提升了网络模型对视频中目标区域的感知能力，大大减少了检索范围和计算量，使得网络模型对于不同异常行为标签的预处理估计结果更加稳定，提高事件的有效感受野，同时提升了预处理的召回率。

在本申请实施例中，基于行人检测框和可学习预处理的第二图像区域来确定目标区域，增大了模型的有效感知区域，减少了对无关背景的检索范围；而且以可学习的方式分别对首、尾、中间帧中经过非极大值抑制后的第一图像区域进行行为识别，能够提高识别精确度；以各帧预测出的分数较高的异常第二图像区域进行合并成对应的目标区域分别进行行为的识别，能够提升第二图像区域的召回率以及网络模型对事件的有效感知区域。

本申请实施例提供一种行为识别装置，图7为本申请实施例行为识别装置的结构组成示意图，如图7所示，所述行为识别装置700包括：

第一确定模块701，用于在包括待识别对象的视频流中，确定视频帧序列；

第二确定模块702，用于在所述视频帧序列中，确定所述待识别对象所在的至少一个第一图像区域；

第一分类模块703，用于基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果；

第一选择模块704，用于在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域；

第一识别模块705，用于基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果。

在一些实施例中，所述第二确定模块702，包括：

第一检测子模块，用于对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；

第二检测子模块，用于在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；

第一调整子模块，用于在所述每一视频帧的多个已调整区域中，确定所述至少一个第一图像区域。

在一些实施例中，所述第一调整子模块，包括：

第一确定单元，用于在所述每一视频帧的多个已调整区域中，确定检测框的第一置信度最高的第一已调整区域；

第二确定单元，用于确定与所述第一已调整区域的重叠度大于预设重叠度阈值的第二已调整区域；

第一调整单元，用于在所述每一视频帧的多个已调整区域中剔除面积小于预设面积阈值的第二已调整区域，得到所述每一视频帧的所述至少一个第一图像区域。

在一些实施例中，所述第一分类模块703，包括：

第一选择子模块，用于从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；

第一分类子模块，用于基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述分类结果。

在一些实施例中，所述第一选择子模块，还用于：从所述视频帧序列中，选择首帧视频帧、中间帧视频帧和尾帧视频帧作为所述目标视频帧。

在一些实施例中，在所述视频序列中的目标视频帧包括至少一个第一图像区域的情况下，所述第二确定模块702，包括：

第一确定子模块，用于确定所述目标视频帧中每一第一图像区域的分类结果为预设类别的第二置信度；

第二确定子模块，用于在所述目标视频帧中，确定所述第二置信度大于预设置信度阈值的第一图像区域为所述第二图像区域。

在一些实施例中，在所述目标视频帧为至少一帧的情况下，所述第一识别模块705，包括：

第三确定子模块，用于基于所述至少一帧目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列；

第一识别子模块，用于在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

在一些实施例中，所述第三确定子模块，包括：

第一选择单元，用于在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合；

第一合并单元，用于对每一第二图像区域集合中的第二图像区域进行合并，得到至少一个合并区域；

第三确定单元，用于在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

在一些实施例中，在所述目标视频帧包括所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的情况下，所述第一选择单元还用于：在所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的至少一个第二图像区域中，各选一个第二图像区域，得到所述至少一个第二图像区域集合。

在一些实施例中，所述第一识别子模块，包括：

第二调整单元，用于将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调整目标区域序列；

第一识别单元，用于在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的行为识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的行为识别方法中的步骤。

相应的，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的行为识别方法的步骤。

相应的，本申请实施例提供一种电子设备，图8为本申请实施例电子设备的组成结构示意图，如图8所示，所述电子设备800包括：一个处理器801、至少一个通信总线、通信接口802、至少一个外部通信接口和存储器803。其中，通信接口802配置为实现这些组件之间的连接通信。其中，通信接口802可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器801，配置为执行存储器中图像处理程序，以实现上述实施例提供的行为识别方法的步骤。

以上行为识别装置、电子设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请行为识别装置、电子设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

在包括待识别对象的视频流中，确定视频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述在所述视频帧序列中，确定所述待识别对象对应的至少一个第一图像区域，包括：

对每一视频帧中的所述待识别对象进行检测，得到所述待识别对象的多个检测框；

在所述每一视频帧中对所述多个检测框的面积进行调整，得到多个已调整区域；

在所述每一视频帧的多个已调整区域中，确定所述至少一个第一图像区域。

3.根据权利要求2所述的方法，其特征在于，所述在所述每一视频帧中的多个已调整区域中，确定所述至少一个第一图像区域，包括：

在所述每一视频帧的多个已调整区域中，确定检测框的第一置信度最高的第一已调整区域；

确定与所述第一已调整区域的重叠度大于预设重叠度阈值的第二已调整区域；

在所述每一视频帧的多个已调整区域中剔除面积小于预设面积阈值的第二已调整区域，得到所述每一视频帧的所述至少一个第一图像区域。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述至少一个第一图像区域，对所述待识别对象的行为进行分类，得到分类结果，包括：

从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧；

基于每一目标视频帧中的第一图像区域，对所述待识别对象的行为进行分类，得到所述分类结果。

5.根据权利要求4所述的方法，其特征在于，所述从所述视频帧序列中，选择小于预设帧数的视频帧作为目标视频帧，包括：

从所述视频帧序列中，选择首帧视频帧、中间帧视频帧和尾帧视频帧作为所述目标视频帧。

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述视频序列中的目标视频帧包括至少一个第一图像区域的情况下，所述在所述至少一个第一图像区域中，选择所述分类结果满足预设条件的第二图像区域，包括：

确定所述目标视频帧中每一第一图像区域的分类结果为预设类别的第二置信度；

在所述目标视频帧中，确定所述第二置信度大于预设置信度阈值的第一图像区域为所述第二图像区域。

7.根据权利要求4至6任一项所述的方法，其特征在于，在所述目标视频帧为至少一帧的情况下，所述基于所述第二图像区域，对所述待识别对象的行为进行识别，得到识别结果，包括：

基于所述至少一帧目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列；

在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

8.根据权利要求7所述的方法，其特征在于，所述基于所述至少一个目标视频帧中的所述第二图像区域，在所述视频帧序列中确定至少一个目标区域序列，包括：

在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合；

对每一第二图像区域集合中的第二图像区域进行合并，得到至少一个合并区域；

在所述视频帧序列中，确定与每一合并区域相匹配的目标区域序列，得到所述至少一个目标区域序列。

9.根据权利要求8所述的方法，其特征在于，在所述目标视频帧包括所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的情况下，所述在所述至少一个目标视频帧的每一目标视频帧的所述第二图像区域中选择任一第二图像区域，得到至少一个第二图像区域集合，包括：

在所述首帧视频帧、所述中间帧视频帧和所述尾帧视频帧的至少一个第二图像区域中，各选一个第二图像区域，得到所述至少一个第二图像区域集合。

10.根据权利要求7至9任一项所述的方法，其特征在于，所述在所述至少一个目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果，包括：

将每一目标区域序列中的目标区域的边长调整为预设边长，得到已调整目标区域序列；

在每一所述已调整目标区域序列中对所述待识别对象的行为进行识别，得到所述识别结果。

11.一种行为识别装置，其特征在于，所述装置包括：

12.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至10任一项所述的方法步骤。

13.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求1至10任一项所述的方法步骤。