CN111242068A

CN111242068A - 基于视频的行为识别方法、装置、电子设备和存储介质

Info

Publication number: CN111242068A
Application number: CN202010055549.6A
Authority: CN
Inventors: 金博伟; 许琢; 支洪平
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05
Anticipated expiration: 2040-01-17
Also published as: CN111242068B

Abstract

本发明实施例提供一种基于视频的行为识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别视频的图像序列；将图像序列输入至行为识别模型，得到行为识别模型输出的行为识别结果；行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，行为识别模型用于对图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别，时间特征和运动特征是基于连续图像的图像特征确定的。本发明实施例提供的方法、装置、电子设备和存储介质，在保证高精度的行为识别的同时，极大程度上减轻了时空特征编码的计算量，提高了行为识别效率。

Description

基于视频的行为识别方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于视频的行为识别方法、装置、电子设备和存储介质。

背景技术

随着计算机处理能力的增强，基于视频的行为识别技术应运而生，并且在视频监控、机器人等领域具有广阔的应用前景。

当前，基于视频的行为识别方法大多基于卷积神经网络(Convolutional NeuralNetworks，CNN)实现。其中，3D CNN能够从原始视频中学习中时空特征表达，但是时空特征表达的计算存在计算量大、推理时间长的问题，导致难以投入实际应用。

发明内容

本发明实施例提供一种基于视频的行为识别方法、装置、电子设备和存储介质，用以解决现有的基于视频的行为识别计算量大、推理时间长的问题。

第一方面，本发明实施例提供一种基于视频的行为识别方法，包括：

确定待识别视频的图像序列；

将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

其中，所述行为识别模型用于对所述图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别，所述时间特征和所述运动特征是基于所述连续图像的图像特征确定的。

优选地，所述行为识别模型包括多个串联的特征编码层，以及行为分类层；

所述将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果，具体包括：

将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到当前特征编码层输出的图像序列特征；

将末层特征编码层输出的图像序列特征输入至所述行为分类层，得到所述行为分类层输出的所述行为识别结果。

优选地，所述多个串联的特征编码层包括多个卷积特征编码层和若干个时空特征编码层；

任一时空特征编码层的上一特征编码层和下一特征编码层均为卷积特征编码层。

优选地，任一时空特征编码层包括时间编码层、运动编码层和时空编码层；

所述将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到当前特征编码层输出的图像序列特征，具体包括：

将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的时间编码层，得到所述时间编码层输出的每两帧连续图像的时间特征；

将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的运动编码层，得到所述运动编码层输出的每两帧连续图像的运动特征；

将上一卷积特征编码层输出的图像序列特征、每两帧连续图像的时间特征和运动特征输入至当前时空特征编码层的时空编码层，得到所述时空编码层输出的图像序列特征；所述时空编码层输出的图像序列特征中包含有每两帧连续图像的时空特征。

优选地，所述将上一卷积特征编码层输出的图像序列特征、每两帧连续图像的时间特征和运动特征输入至当前时空特征编码层的时空编码层，得到所述时空编码层输出的图像序列特征，具体包括：

将每两帧连续图像的时间特征和运动特征输入至时空编码层的注意力层，得到所述注意力层输出的每两帧连续图像的时间关联特征；

将上一卷积特征编码层输出的图像序列特征，以及每两帧连续图像的时间关联特征输入至所述时空编码层的时空结合层，得到所述时空结合层输出的图像序列特征。

优选地，所述将每两帧连续图像的时间特征和运动特征输入至时空编码层的注意力层，得到所述注意力层输出的每两帧连续图像的时间关联特征，具体包括：

基于每两帧连续图像的运动特征，以及所述图像序列的上下文特征，确定每两帧连续图像的注意力矩阵；其中，所述上下文特征是基于上一特征编码层输出的图像序列特征确定的；

基于所述注意力矩阵，处理每两帧连续图像的时间特征，得到每两帧连续图像的时间关联特征。

优选地，所述将上一卷积特征编码层输出的图像序列特征，以及每两帧连续图像的时间关联特征输入至所述时空编码层的时空结合层，得到所述时空结合层输出的图像序列特征，具体包括：

对上一卷积特征编码层输出的图像序列特征进行时间轴池化，得到所述图像序列的池化编码特征；

基于所述池化编码特征，以及每两帧连续图像的时间关联特征，确定所述当前时空特征编码层输出的图像序列特征。

优选地，所述将末层特征编码层输出的图像序列特征输入至所述行为分类层，得到所述行为分类层输出的所述行为识别结果，具体包括：

将末层特征编码层输出的图像序列特征输入至所述行为分类层的长期时域编码层，得到所述长期时域编码层输出的序列编码特征；

将所述序列编码特征输入至所述行为分类层的分类识别层中，得到所述分类识别层输出的所述行为识别结果。

优选地，所述将末层特征编码层输出的图像序列特征输入至所述行为分类层的长期时域编码层，得到所述长期时域编码层输出的序列编码特征，具体包括：

将末层特征编码层输出的图像序列特征输入至所述长期时域编码层的多个不同膨胀系数的时间卷积层中，得到所述多个不同膨胀系数的时间卷积层分别输出的时间卷积特征；

基于每一时间卷积特征，确定所述序列编码特征。

优选地，所述基于每一时间卷积特征，确定所述序列编码特征，具体包括：

基于每一时间卷积特征、末层特征编码层输出的图像序列特征，以及基于所述末层特征编码层输出的图像序列特征确定的上下文特征，确定所述序列编码特征。

第二方面，本发明实施例提供一种基于视频的行为识别装置，包括：

图像序列确定单元，用于确定待识别视频的图像序列；

行为识别单元，用于将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种基于视频的行为识别方法、装置、电子设备和存储介质，行为识别模型基于连续图像的图像特征得到连续图像的时间特征和运动特征，以此编码得到连续图像的时空特征进行行为识别，在保证高精度的行为识别的同时，仅需提取图像特征并以此得到时间特征和运动特征，从而实现时空特征的编码，极大程度上减轻了时空特征编码的计算量，提高了行为识别效率，降低了行为识别模型对硬件计算能力的需求，扩宽了基于视频的行为识别应用范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于视频的行为识别方法的流程示意图；

图2为本发明实施例提供的行为识别模型的运行流程示意图；

图3为本发明实施例提供的时空特征编码层的运行流程示意图；

图4为本发明实施例提供的时空编码层的运行流程示意图；

图5为本发明实施例提供的时空特征编码层的结构示意图；

图6为本发明实施例提供的行为分类层的运行流程示意图；

图7为本发明实施例提供的长期时域编码层的运行流程示意图；

图8为本发明实施例提供的行为分类层的结构示意图；

图9为本发明实施例提供的基于视频的行为识别装置的结构示意图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，基于视频的行为识别方法大多基于卷积神经网络CNN实现。其中，3D CNN能够从原始视频中学习中时空特征表达，但是时空特征表达的计算存在计算量大、推理时间长的问题，导致难以投入实际应用。对此，本发明实施例提供了一种基于视频的行为识别方法，在保证行为识别准确率的同时，尽量降低计算量，从而提高行为识别效率。

图1为本发明实施例提供的基于视频的行为识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别视频的图像序列。

具体地，待识别视频即需要进行行为识别的视频，此处待识别视频可以是预先拍摄并存储的视频，也可以是实时采集的视频流，本发明实施例对此不作具体限定。

图像序列是对待识别视频进行采样得到的，图像序列包含多帧图像，每帧图像均来源于待识别视频，且多帧图像按照待识别视频中的时间顺序排列，从而形成图像序列。需要说明的是，在对待识别视频进行采集时，通常是基于待识别视频的总帧数进行均匀的顺序采集，由此得到的每帧图像之间的时间间隔相等。

步骤120，将图像序列输入至行为识别模型，得到行为识别模型输出的行为识别结果；行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，行为识别模型用于对图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别；时间特征和运动特征是基于连续图像的图像特征确定的。

具体地，行为识别模型用于对输入的图像序列中的连续图像进行分析，得到每帧图像的图像特征，基于连续图像的图像特征确定连续图像之间的时间特征和运动特征，并对连续图像的图像特征、时间特征和运动特征进行编码，从而得到连续图像的时空特征，基于连续图像的时空特征进行行为识别，从而得到行为识别结果。此处，行为识别结果用于指示待识别视频中存在的行为，以及具体的行为类型。

其中，连续图像可以是两帧相邻的图像，也可以三帧或者更多帧连续的图像，本发明实施例对此不作具体限定。任一帧图像的图像特征用于表示该帧图像在空间层面上的特征，连续图像之间的时间特征用于表示多帧连续图像在时间轴的索引下在时间层面上体现的各图像特征之间的特征，连续图像之间的运动特征用于表征多帧连续特征在时间轴的索引下在时间层面上体现的各图像特征之间的差异特征。对连续图像的图像特征、时间特征和运动特征进行编码，可以得到结合空间层面和时间层面的时空特征。将时空特征应用于行为分类，即可实现高精度的行为识别。

在此过程中，每帧图像的图像特征仅需2D CNN或者其余神经网络即可提取得到，连续图像之间的时间特征和运动特征亦是基于连续图像的图像特征得到的，由此编码的时空特征相较于通过3D CNN得到的时空特征，能够极大程度上减轻计算量，提高计算效率。

在执行步骤120之前，还可以预先训练得到行为识别模型，具体可以通过如下方式训练得到行为识别模型：首先，收集大量样本视频，提取样本视频的样本图像序列，并通过人工标注得到样本视频的样本行为识别结果。随即，将样本视频的样本图像序列以及样本行为识别结果输入至初始模型进行训练，从而得到行为识别模型。

本发明实施例提供的方法，行为识别模型基于连续图像的图像特征得到连续图像的时间特征和运动特征，以此编码得到连续图像的时空特征进行行为识别，在保证高精度的行为识别的同时，仅需提取图像特征并以此得到时间特征和运动特征，从而实现时空特征的编码，极大程度上减轻了时空特征编码的计算量，提高了行为识别效率，降低了行为识别模型对硬件计算能力的需求，扩宽了基于视频的行为识别应用范围。

基于上述实施例，行为识别模型包括若干个串联的特征编码层，以及行为分类层。

具体地，特征编码层用于特征提取和编码。针对若干个串联的特征编码层，上一特征编码层的输入即为当前特征编码层的输入，当前编码层的输出即为下一特征编码层的输入。

行为分类层用于基于输入进行行为分类，行为分类层的输入即为对上述若干个串联的特征编码层中最末一层的特征编码层输出的特征，行为分类层的输出为行为识别结果。

基于上述任一实施例，图2为本发明实施例提供的行为识别模型的运行流程示意图，如图2所示，步骤120具体包括：

步骤121，将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到当前特征编码层输出的图像序列特征。

具体地，针对多个串联的特征编码层，每一特征编码层均可以作为当前特征编码层执行步骤121的操作。

假设当前特征编码层为多个串联的特征编码层中的任意一层，将上一特征编码层输出的图像序列特征输入至当前特征编码层，由当前特征编码层对图像序列特征进行进一步的特征提取和编码，并输出经过进一步的特征提取和编码的图像序列特征。此处，图像特征序列即特征编码层的输出，用于表征图像序列的具体特征，例如图像序列中每一图像的图像特征，图像序列中连续图像之间的时间特征、运动特征等，又例如图像序列中连续图像的时空特征，本发明实施例对此不作具体限定。

需要说明的是，当前特征编码层为首层特征编码层时，由于首层特征编码层不存在上一特征编码层，首层特征编码层的输入即为图像序列。

步骤122，将末层特征编码层输出的图像序列特征输入至行为分类层，得到行为分类层输出的行为识别结果。

具体地，末层特征编码层即多个串联的特征编码层中的最后一个特征编码层，末层特征编码层输出的图像序列特征必然包含有基于图像序列中连续图像的图像特征、时间特征和运动特征编码得到的连续图像的时空特征。

将末层特征编码层输出的图像序列特征输入至行为分类层，由行为分类层基于图像序列特征对待识别视频进行行为分类，即可输出行为识别结果。

本发明实施例提供的方法，通过多个串联的特征编码层进行时空特征编码，随即通过行为分类层进行行为分类，得到行为识别结果，实现了高精度、低计算量的行为识别。

基于上述任一实施例，多个串联的特征编码层包括多个卷积特征编码层和若干个时空特征编码层；任一时空特征编码层的上一特征编码层和下一特征编码层均为卷积特征编码层。

具体地，多个串联的特征编码层中，任一特征编码层为卷积特征编码层或时空特征编码层。若任一特征编码层为卷积特征编码层，则与该层相邻的上一特征编码层和下一特征编码层分别可以为卷积特征编码层或时空特征编码层；若任一特征编码层为时空特征编码层，则与该层相邻的上一特征编码层和下一特征编码层均为卷积特征编码层。

其中，卷积特征编码层可以视为2D卷积神经网络中的卷积层，用于实现特征的卷积编码，时空特征编码层的设置可以视为在传统2D卷积神经网络的任意两个串联卷积层之间***时空特征编码层，从而针对图像序列中连续图像的时空特征进行抽象编码。

基于上述任一实施例，时空特征编码层包括时间编码层、运动编码层和时空编码层。图3为本发明实施例提供的时空特征编码层的运行流程示意图，如图3所示，当前特征编码层为时空特征编码层时，步骤121具体包括：

步骤1211，将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的时间编码层，得到时间编码层输出的每两帧连续图像的时间特征。

具体地，当前特征编码层为时空特征编码层时，当前特征编码层的上一特征编码层为卷积特征编码层。若当前时空特征编码层为首个时空特征编码层，则上一卷积特征编码层输出的图像序列特征包括图像序列中每一图像的图像特征，若当前时空特征编码层非首个时空特征编码层，则上一卷积特征编码层输出的图像序列特征包括图像序列中连续图像的时空特征。

时间编码层用于根据输入的图像序列特征，编码图像序列中每两帧连续图像的时间特征。每两帧连续图像的划分，可以根据图像帧号的奇偶性进行。此处，针对于任意两帧连续图像，时间特征可以通过上一卷积特征编码层输出的图像序列特征中分别对应于该两帧连续图像的特征得到，例如可以体现为该两帧连续图像的特征在通道维度上的拼接特征。

步骤1212，将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的运动编码层，得到运动编码层输出的每两帧连续图像的运动特征。

具体地，运动编码层用于根据输入的图像序列特征，编码图像序列中每两帧连续图像的运动特征。每两帧连续图像的划分，可以根据图像帧号的奇偶性进行。此处，针对于任意两帧连续图像，运动特征可以通过上一卷积特征编码层输出的图像序列特征中分别对应于该两帧连续图像的特征得到，例如可以体现为该两帧连续图像的特征的差值。

步骤1213，将上一卷积特征编码层输出的图像序列特征、每两帧连续图像的时间特征和运动特征输入至当前时空特征编码层的时空编码层，得到时空编码层输出的图像序列特征；时空编码层输出的图像序列特征中包含有每两帧连续图像的时空特征。

具体地，时空编码层用于对输入的图像序列特征、每两帧连续图像的时间特征和运动特征进行编码，得到每两帧连续图像的时空特征，进而输出包含每两帧连续图像的时空特征的图像序列特征。

本发明实施例中，分别通过时间编码层和运动编码层编码时间特征和运动特征，从而得到时空特征，减小时空特征编码所需的计算量，提高行为识别计算效率。

基于上述任一实施例，时空编码层包括注意力层和时空结合层；图4为本发明实施例提供的时空编码层的运行流程示意图，如图4所示，步骤1213具体包括：

步骤1213-1，将每两帧连续图像的时间特征和运动特征输入至时空编码层的注意力层，得到注意力层输出的每两帧连续图像的时间关联特征。

具体地，注意力层将每两帧连续图像的时间特征通过基于每两帧图像的运动特征编码的注意力矩阵处理，输出每两帧连续图像的时间关联特征，此处的时间关联特征是对时间特征进行注意力变换得到的，时间关联特征相比于时间特征更能够体现每两帧连续图像中的运动信息，从而增强时间信息的特征表达能力。

步骤1213-2，将上一卷积特征编码层输出的图像序列特征，以及每两帧连续图像的时间关联特征输入至时空编码层的时空结合层，得到时空结合层输出的图像序列特征。

具体地，时空结合层将包含有空间层面上的图像特征的图像序列特征，与对应于时间层面上的时间关联特征相结合，从而得到包含有时空特征的图像序列特征。

本发明实施例中，将每两帧连续图像的时间特征和运动特征输入至时空编码层的注意力层进行编码，从而增强时间信息的特征表达能力。

基于上述任一实施例，步骤1213-1具体包括：基于每两帧连续图像的运动特征，以及图像序列的上下文特征，确定每两帧连续图像的注意力矩阵；其中，上下文特征是基于上一特征编码层输出的图像序列特征确定的；基于注意力矩阵，处理每两帧连续图像的时间特征，得到每两帧连续图像的时间关联特征。

具体地，图像序列的上下文特征可以是上一特征编码层输出的图像序列特征中针对于每一图像的特征的均值。注意力矩阵可以是对每两帧连续图像的运动特征，以及图像序列的上下文特征进行拼接得到的。

注意力层中，首先基于每两帧连续图像的运动特征，以及图像序列的上下文特征确定注意力矩阵，在得到注意力矩阵后，即可得到经过注意力矩阵处理后的每两帧连续图像的时间特征，进而得到每两帧连续图像的时间关联特征。

基于上述任一实施例，步骤1213-2具体包括：对上一卷积特征编码层输出的图像序列特征进行时间轴池化，得到图像序列的池化编码特征；基于池化编码特征，以及每两帧连续图像的时间关联特征，确定当前时空特征编码层输出的图像序列特征。

具体地，上一卷积特征编码层输出的图像序列特征中包含有对应于每帧图像的特征，按照每帧图像的时间轴排序，对每帧图像的特征进行时间轴池化，即可实现简单有效的时间信息编码，得到池化编码特征。

在此基础上，将池化编码特征与时间关联特征相结合，即可弥补池化编码特征表达能力不足的问题，从而得到具备强特征表达能力的时空特征。

基于上述任一实施例，图5为本发明实施例提供的时空特征编码层的结构示意图，如图5所示，时空特征编码层内部由两条通路组成：

其中，一条通路是时间轴池化操作temporal pooling，对上一卷积特征编码层输出的图像序列特征X_in进行时间轴池化，即可得到池化编码特征T_pool。此处，图像序列特征X_jn∈T×C×H×W，其中T表示图像帧数，C×H×W表示每帧图像对应的特征。图5给出的示例中，T＝32。

另一条通路是时间信息的关联性进行编码。为了降低计算量，图像序列特征X_in首先经过1×1的2D卷积、batch norm层归一化(conv_1×1，bn，relu)将通道维度降低为D(D＜C，图5中D＝128)，即图像序列特征X_in的维度被转变为X_d，X_d∈T×D×H×W。然后通过split操作将张量X_d根据时间轴索引的奇偶性划分为两个张量X_2t∈T/2×D×H×W和X_2t+1∈T/2×D×H×W，其中X_2t、X_2t+1分别对应于帧号为奇数的图像的特征以及帧号为偶数的图像的特征。将X_2t、X_2t+1通过时域差分diff操作，进行元素级的减法，得到由每两帧连续图像的特征之差构成的梯度图，即每两帧连续图像的运动特征。此外，张量X_d经过沿时间维度的平均值mean和广播broadcast操作计算出全局的上下文特征，然后将上下文特征和每两帧连续图像的运动特征经过沿通道维度拼接操作(concat，axis＝1)之后，得到X_cat∈T/2×D×H×W，随后经过卷积层、batch norm和sigmoid层(conv_1×1，bn，sigmoid)后获得注意力矩阵Gate∈T/2×1×H×W。每两帧连续图像的时间特征由X_2t、X_2t+1作为输入，首先将X_2t、X_2t+1由沿通道维度拼接(concat，axis＝1)操作转变为维度为T/2×2D×H×W的张量，然后经过1×1的2D卷积核(conv_1×1，bn，relu)输出时间特征T_pairs∈T/2×D×H×W。最后将时间特征T_pairs经过注意力矩阵Gate信号处理后，经2D卷积(conv_1×1)输出时间关联特征T_gate∈T/2×C×H×W。

最后，将两个通路的输出结果池化编码特征T_pool以及时间关联特征T_gate相结合，得到时空特征编码层的最终输出T_out∈T/2×C×H×W，具体可以表示为如下公式：

式中，

表示逐元素张量加法，

表示哈达玛乘积。时空特征编码层逐层加入2DCNN网络结构中，通过层级抽象短时域信息对图像序列进行编码。

基于上述任一实施例，行为分类层包括长期时域编码层和分类识别层；图6为本发明实施例提供的行为分类层的运行流程示意图，如图6所示，步骤122具体包括：

步骤1221，将末层特征编码层输出的图像序列特征输入至行为分类层的长期时域编码层，得到长期时域编码层输出的序列编码特征。

具体地，长期时域编码层用于对多个特征编码层输出的图像序列特征进行时间层面上的编码，并得到编码输出的序列编码特征。

步骤1222，将序列编码特征输入至行为分类层的分类识别层中，得到分类识别层输出的行为识别结果。

具体地，分类识别层基于输入的序列编码特征，对待识别视频中的行为进行识别分类，并输出行为识别结果。

基于上述任一实施例，图7为本发明实施例提供的长期时域编码层的运行流程示意图，如图7所示，步骤1221具体包括：

步骤1221-1，将末层特征编码层输出的图像序列特征输入至长期时域编码层的多个不同膨胀系数的时间卷积层中，得到多个不同膨胀系数的时间卷积层分别输出的时间卷积特征。

具体地，长期时域编码层中包含有多个时间卷积层，每一时间卷积层中的时间卷积核均对应于不同膨胀系数，基于不同的膨胀系数对图像序列特征进行时间卷积，能够针对不同时间间隔的图像序列中的特征进行编码，从而在时间层面上实现多尺度的卷积编码，以丰富时间层面上的信息。

步骤1221-2，基于每一时间卷积特征，确定序列编码特征。

具体地，在得到不同膨胀系数的时间卷积层分别输出的时间卷积特征后，可以结合不同膨胀系数所对应的时间卷积特征，确定序列编码特征。

本发明实施例中，通过多个不同膨胀系数的时间卷积层，实现多尺度的时间信息编码，从而进一步提高行为识别模型的表达能力。

基于上述任一实施例，步骤1221-1具体包括：基于每一时间卷积特征、末层特征编码层输出的图像序列特征，以及基于末层特征编码层输出的图像序列特征确定的上下文特征，确定序列编码特征。

具体地，上下文特征可以是末层特征编码层输出的图像序列特征中针对于每一图像的特征的均值。结合每一时间卷积特征和上下文特征，以及图像序列特征，实现了时间层面上的特征与全局时域的特征融合，从而得到序列编码特征。

基于上述任一实施例，图8为本发明实施例提供的行为分类层的结构示意图，如图8所示，行为分类层包括长期时域编码层和分类识别层。其中，长期时域编码层包括多个不同膨胀系数的时间卷积层。其中，输入张量即末层特征编码层输出的图像序列特征F_in∈2048×8×7×7，经过average pooling(avgpool_7×7)操作后，得到规约后的F_s∈2048×8，其中2048所在维度表示特征向量维度，8所在的维度表示时间维度，即8帧图像信息的时间编码。然后经过膨胀系数dilating rate分别设置为1、2和3的时间卷积层(conv_{d＝1，2，3}，bn，relu)得到覆盖不同时间尺度的时间卷积特征T₁、T₂、T₃∈256×8。此外还引入了时域全局的上下文特征作为补充，首先将F_s∈2048×8经过沿时间维度平均操作(mean，axis＝1)转变为维度为2048×1的张量，目的为将全局时域上的信息融合，然后再经过卷积操作(conv_d＝1，bn，relu)转变为256×1的张量，最后经过沿时间维度向量复制的操作(broadcast，axis＝1)输出时域全局的上下文特征T_g∈256×8。最后，融合不同时间尺度的时间卷积特征、上下文特征以及图像序列特征，得到序列编码特征T_out∈2048×8作为长期时域编码层的输出，具体可以表示为如下公式：

基于上述任一实施例，行为识别模型的训练指标包括行为分类精度和计算效率。此处，行为分类精度具体为在训练测试过程中识别正确的视频个数与参数训练测试的视频总数的比值，比值越高，则精度越高。计算效率具体为浮点运算次数FLOPs，FLOPs数值越低则运算量越小，计算效率越高。

将本发明实施例中的行为识别模型与现有技术中用于实现基于视频的行为识别模型相比，本发明实施例中的行为识别模型在行为分类精度和计算效率上得到了显著的提升。

基于上述任一实施例，图9为本发明实施例提供的基于视频的行为识别装置的结构示意图，如图9所示，该装置包括图像序列确定单元910和行为识别单元920；

其中，图像序列确定单元910用于确定待识别视频的图像序列；

行为识别单元920用于将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

本发明实施例提供的装置，行为识别模型基于连续图像的图像特征得到连续图像的时间特征和运动特征，以此编码得到连续图像的时空特征进行行为识别，在保证高精度的行为识别的同时，仅需提取图像特征并以此得到时间特征和运动特征，从而实现时空特征的编码，极大程度上减轻了时空特征编码的计算量，提高了行为识别效率，降低了行为识别模型对硬件计算能力的需求，扩宽了基于视频的行为识别应用范围。

基于上述任一实施例，所述行为识别模型包括多个串联的特征编码层，以及行为分类层；

所述行为识别单元包括：

特征编码单元，用于将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到当前特征编码层输出的图像序列特征；

行为分类单元，用于将末层特征编码层输出的图像序列特征输入至所述行为分类层，得到所述行为分类层输出的所述行为识别结果。

基于上述任一实施例，所述多个串联的特征编码层包括多个卷积特征编码层和若干个时空特征编码层；

基于上述任一实施例，任一时空特征编码层包括时间编码层、运动编码层和时空编码层；

所述特征编码单元包括：

时间编码子单元，用于将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的时间编码层，得到所述时间编码层输出的每两帧连续图像的时间特征；

运动编码子单元，用于将上一卷积特征编码层输出的图像序列特征输入至当前时空特征编码层的运动编码层，得到所述运动编码层输出的每两帧连续图像的运动特征；

时空编码子单元，用于将上一卷积特征编码层输出的图像序列特征、每两帧连续图像的时间特征和运动特征输入至当前时空特征编码层的时空编码层，得到所述时空编码层输出的图像序列特征；所述时空编码层输出的图像序列特征中包含有每两帧连续图像的时空特征。

基于上述任一实施例，时空编码子单元具体包括：

注意力模块，用于将每两帧连续图像的时间特征和运动特征输入至时空编码层的注意力层，得到所述注意力层输出的每两帧连续图像的时间关联特征；

时空结合模块，用于将上一卷积特征编码层输出的图像序列特征，以及每两帧连续图像的时间关联特征输入至所述时空编码层的时空结合层，得到所述时空结合层输出的图像序列特征。

基于上述任一实施例，所述注意力模块具体用于：

基于上述任一实施例，所述时空结合模块具体用于：

基于上述任一实施例，所述行为分类单元包括：

长期时域编码子单元，用于将末层特征编码层输出的图像序列特征输入至所述行为分类层的长期时域编码层，得到所述长期时域编码层输出的序列编码特征；

分类识别子单元，用于将所述序列编码特征输入至所述行为分类层的分类识别层中，得到所述分类识别层输出的所述行为识别结果。

基于上述任一实施例，所述长期时域编码子单元包括：

多尺度卷积模块，用于将末层特征编码层输出的图像序列特征输入至所述长期时域编码层的多个不同膨胀系数的时间卷积层中，得到所述多个不同膨胀系数的时间卷积层分别输出的时间卷积特征；

序列编码模块，用于基于每一时间卷积特征，确定所述序列编码特征。

基于上述任一实施例，所序列编码模块具体用于：

图10为本发明实施例提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑命令，以执行如下方法：确定待识别视频的图像序列；将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，所述行为识别模型用于对所述图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别，所述时间特征和所述运动特征是基于所述连续图像的图像特征确定的。

此外，上述的存储器1030中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待识别视频的图像序列；将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，所述行为识别模型用于对所述图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别，所述时间特征和所述运动特征是基于所述连续图像的图像特征确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频的行为识别方法，其特征在于，包括：

确定待识别视频的图像序列；

其中，所述行为识别模型用于对所述图像序列中连续图像的图像特征、时间特征和运动特征进行编码，得到连续图像的时空特征，并基于连续图像的时空特征进行行为识别；所述时间特征和所述运动特征是基于所述连续图像的图像特征确定的。

2.根据权利要求1所述的基于视频的行为识别方法，其特征在于，所述行为识别模型包括多个串联的特征编码层，以及行为分类层；

将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到所述当前特征编码层输出的图像序列特征；

3.根据权利要求2所述的基于视频的行为识别方法，其特征在于，所述多个串联的特征编码层包括多个卷积特征编码层和若干个时空特征编码层；

4.根据权利要求3所述的基于视频的行为识别方法，其特征在于，任一时空特征编码层包括时间编码层、运动编码层和时空编码层；

所述将上一特征编码层输出的图像序列特征输入至当前特征编码层，得到所述当前特征编码层输出的图像序列特征，具体包括：

5.根据权利要求4所述的基于视频的行为识别方法，其特征在于，所述将上一卷积特征编码层输出的图像序列特征、每两帧连续图像的时间特征和运动特征输入至当前时空特征编码层的时空编码层，得到所述时空编码层输出的图像序列特征，具体包括：

将每两帧连续图像的时间特征和运动特征输入至所述时空编码层的注意力层，得到所述注意力层输出的每两帧连续图像的时间关联特征；

6.根据权利要求5所述的基于视频的行为识别方法，其特征在于，所述将每两帧连续图像的时间特征和运动特征输入至所述时空编码层的注意力层，得到所述注意力层输出的每两帧连续图像的时间关联特征，具体包括：

基于所述注意力矩阵，处理所述每两帧连续图像的时间特征，得到每两帧连续图像的时间关联特征。

7.根据权利要求5所述的基于视频的行为识别方法，其特征在于，所述将上一卷积特征编码层输出的图像序列特征，以及每两帧连续图像的时间关联特征输入至所述时空编码层的时空结合层，得到所述时空结合层输出的图像序列特征，具体包括：

8.根据权利要求2至7中任一项所述的基于视频的行为识别方法，其特征在于，所述将末层特征编码层输出的图像序列特征输入至所述行为分类层，得到所述行为分类层输出的所述行为识别结果，具体包括：

9.根据权利要求8所述的基于视频的行为识别方法，其特征在于，所述将末层特征编码层输出的图像序列特征输入至所述行为分类层的长期时域编码层，得到所述长期时域编码层输出的序列编码特征，具体包括：

基于每一时间卷积特征，确定所述序列编码特征。

10.根据权利要求9所述的基于视频的行为识别方法，其特征在于，所述基于每一时间卷积特征，确定所述序列编码特征，具体包括：

11.一种基于视频的行为识别装置，其特征在于，包括：

图像序列确定单元，用于确定待识别视频的图像序列；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10中任一项所述的基于视频的行为识别方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至10中任一项所述的基于视频的行为识别方法的步骤。