CN110533053B

CN110533053B - 一种事件检测方法、装置及电子设备

Info

Publication number: CN110533053B
Application number: CN201810502656.1A
Authority: CN
Inventors: 程战战; 钮毅; 罗兵华
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2022-12-06
Anticipated expiration: 2038-05-23
Also published as: CN110533053A

Abstract

本发明实施例提供了一种事件检测方法、装置及电子设备，其中，事件检测方法包括：从待检测的多媒体流中，提取多媒体帧序列；对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图；将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列；基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。通过本方案，可以实现对通用事件的检测。

Description

一种事件检测方法、装置及电子设备

技术领域

本发明涉及多媒体技术领域，特别是涉及一种事件检测方法、装置及电子设备。

背景技术

事件检测是指通过对多媒体流进行分析、理解，确定多媒体流中的事件类型。传统的事件检测是通过人工检测的方式，对多媒体流中的事件进行识别，而随着场景越来越复杂、多媒体数据越来越庞大，人工检测的方式需要大量的劳动力，并且受人为因素影响，不可避免的存在效率低下、错误率高等问题。

为了应对上述问题，相应的事件检测方法中，通过将多媒体帧之间的运动点自适应地划为光流块，同一个目标的运动点将会划分到同一个光流块中，针对某些目标处于聚集状态的特殊事件，通过对光流块数目的判断，可以筛选出有效光流块群，再基于对有效光流块群中的主光流值进行分析，在主光流值大于一定程度时，可以确定该多媒体流中的事件类型。

但是，上述事件检测方法，仅能够检测出例如暴力事件等具有目标聚集、运动程度剧烈、冲突性大等特点的事件，而对于例如击剑、骑车、跑步等通用事件，无法检测出事件类型。

发明内容

本发明实施例的目的在于提供一种事件检测方法、装置及电子设备，以实现对通用事件的检测。具体技术方案如下：

第一方面，本发明实施例提供了一种事件检测方法，所述方法包括：

从待检测的多媒体流中，提取多媒体帧序列；

对所述多媒体帧序列进行光流分析，得到所述多媒体帧序列中各多媒体帧对应的光流图；

将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；

通过预先训练得到的时空循环神经网络，按照所述时序信息，对所述空间特征图序列进行递归运算，得到时空特征图序列；

基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型。

可选的，所述从待检测的多媒体流中，提取多媒体帧序列，包括：

按照预设间隔，对待检测的多媒体流进行预采样，得到多个多媒体帧；

采用预设滑动窗口机制，从所述多个多媒体帧中提取预设数量个多媒体帧，组成多媒体帧序列。

可选的，所述卷积神经网络为三维卷积神经网络；

所述通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列，包括：

针对融合后得到的图像序列中的各图像，通过预先训练得到的三维卷积神经网络中的多个卷积层和多个下采样层，对该图像进行交替运算，得到对应的空间特征图；

根据各多媒体帧的时序信息，在对应的空间特征图中填充所述时序信息，组成携带有所述时序信息的空间特征图序列。

可选的，所述时空循环神经网络为基于卷积运算的长短期记忆递归神经网络；

所述通过预先训练得到的时空循环神经网络，按照所述时序信息，对所述空间特征图序列进行递归运算，得到时空特征图序列，包括：

针对所述空间特征图序列中的各空间特征图，通过预先训练得到的基于卷积运算的长短期记忆递归神经网络，根据所述时序信息，按序将除该空间特征图自身以外的其他空间特征图融合至该空间特征图，得到对应的时空特征图；

由各空间特征图对应的时空特征图，组成时空特征图序列。

可选的，所述基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型，包括：

利用预设多分类器，根据特征空间与概率空间的映射关系，对所述时空特征图序列进行概率映射，确定所述多媒体流中的事件类型。

第二方面，本发明实施例提供了一种事件检测装置，所述装置包括：

提取模块，用于从待检测的多媒体流中，提取多媒体帧序列；

光流分析模块，用于对所述多媒体帧序列进行光流分析，得到所述多媒体帧序列中各多媒体帧对应的光流图；

空间特征图序列获取模块，用于将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；

时空特征图序列获取模块，用于通过预先训练得到的时空循环神经网络，按照所述时序信息，对所述空间特征图序列进行递归运算，得到时空特征图序列；

分类模块，用于基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型。

可选的，所述提取模块，具体用于：

可选的，所述卷积神经网络为三维卷积神经网络；

所述空间特征图序列获取模块，具体用于：

所述时空特征图序列获取模块，具体用于：

由各空间特征图对应的时空特征图，组成时空特征图序列。

可选的，所述分类模块，具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，其中，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本发明实施例第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面任一所述的方法步骤。

本发明实施例提供的一种事件检测方法、装置及电子设备，通过从待检测的多媒体流中，提取多媒体帧序列；对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图；将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列；基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。由于多媒体帧中融合了对应的光流图，即在融合后的图像序列中反映了目标的运动信息，并且通过卷积神经网络和时空循环神经网络，可以对携带有时序信息和运动信息的时空特征图序列进行提取，不需要对具体的目标数量、目标运动程度进行限定，即不限定于对某一类事件实现检测，因此，对于通用事件可以实现端到端的准确检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的事件检测方法的流程示意图；

图2为本发明实施例的滑动窗机制示意图；

图3为本发明实施例的从视频帧到特征序列的特征提取过程示意图；

图4为本发明实施例的时空循环神经网络示意图；

图5为本发明实施例的事件检测装置的结构示意图；

图6为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现对通用事件的检测，本发明实施例提供了一种事件检测方法、装置及电子设备。

本发明实施例中的术语解释如下：

卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的结构信息。

Two-Stream：指包含光流和RGB空间图的两种视频信息，前者强调视频流中的追踪信息，后者强调每帧图像中的空间信息。

时空建模：指依靠空间信息和时间维度上的信息进行的时空序列(如视频)建模。

下面，首先对本发明实施例所提供的一种事件检测方法进行介绍。

本发明实施例所提供的一种事件检测方法的执行主体可以为执行智能算法的电子设备，该电子设备可以为能够实现对监控场景进行实时事件检测的摄像机，也可以为远程分析处理设备，为了能够实现事件检测的目的，执行主体中至少包括搭载有核心处理芯片的处理器。实现本发明实施例所提供的一种事件检测方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种方式。

如图1所示，本发明实施例提供了一种事件检测方法，该事件检测方法可以包括如下步骤：

S101，从待检测的多媒体流中，提取多媒体帧序列。

多媒体是多种媒体的综合，一般包括文本、声音和图像等多种媒体形式；多媒体流是指流式的多媒体文件，例如视频、音频等。多媒体流是由一帧一帧的多媒体帧组成，多媒体帧序列为多媒体流中的多个多媒体帧组成的序列，多媒体帧序列中可以包括多媒体流中连续的多个多媒体帧，也可以包括对多媒体流进行非连续采样得到的多个多媒体帧。

可选的，S101具体可以为：按照预设间隔，对待检测的多媒体流进行预采样，得到多个多媒体帧；采用预设滑动窗口机制，从多个多媒体帧中提取预设数量个多媒体帧，组成多媒体帧序列。

对于待检测的多媒体流，尤其是视频，连续两、三个多媒体帧之间的差异普遍较小，因此，可以按照预设间隔，先对待检测的多媒体流进行预采样，预设间隔可以是两帧、三帧等，也就是说，可以每隔两帧进行一次多媒体帧采样、每隔三帧进行一次多媒体帧采样等，这样可以加快运算速度，减少对相似度极高的多媒体帧进行重复运算。

由于多媒体流中的多媒体帧数据往往较大，通过上述预采样后，得到的多媒体帧的数据量可能会很大，例如，预采样后得到的多媒体帧可能达到500帧，很难实现对500帧数据同时进行处理。因此，可以采用预设滑动窗口机制，从预采样得到的多媒体帧中提取预设数量个多媒体帧，预设数量与滑动窗口的长度有关，滑动窗口的长度越长，提取的多媒体帧的数量越多。如图2所示，利用滑动窗口机制，一次可以提取6个多媒体帧，则一次对6个多媒体帧进行事件检测，这里可以设定滑动步长为1，即每提取一次多媒体帧，滑动窗口向后移动一帧。当然，滑动步长还可以设定为任意值，通常情况下，滑动步长的长度小于滑动窗口的长度。

在提取得到多媒体帧序列后，为了进一步降低计算量，可以调整多媒体帧序列中各多媒体帧的大小，根据多媒体流所示场景中事件常发生的区域，对各多媒体帧进行裁剪，裁剪后参与事件检测的数据减少，从而降低了计算量。当然，图像裁剪的操作还可以在提取多媒体帧序列之前，直接对待检测的多媒体流中的各多媒体帧进行裁剪。

S102，对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图。

光流表示了目标的运动变化情况，光流图中包含了对应的多媒体帧中目标的运动信息。光流是由多媒体帧的亮度变化形成的，在目标运动时，形成了相应的图像运动场，进行光流分析的方式可以是将多媒体帧序列中的各多媒体帧输入光流网，光流网通过对形成的图像运动场中图像亮度变化进行分析(例如像素点的位移变化、幅度变化等)，即可得到各多媒体帧对应的光流图。

进行光流分析的方式，还可以是利用光流算法(例如LK(Lucas-Kanade)算法)对各多媒体帧进行光流计算。当然，由于光流图中包含的是对应的多媒体帧中目标的运动信息，在进行光流分析时，不仅限于上述输入光流网的方式，能够分析得到多媒体帧中目标的运动信息的光流分析方式均属于本发明实施例的保护范围，这里不再一一赘述。

S103，将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列。

在得到各多媒体帧对应的光流图后，可以将每一个多媒体帧与其对应的光流图进行融合，也就是令各多媒体帧中携带有该多媒体帧中各目标的运动信息，融合的方式可以是将多媒体帧与光流图中的像素点进行简单的叠放，也可以是按照预设的加权规则对像素点进行加权叠加。

卷积神经网络是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的结构信息。卷积神经网络可以是基于预先采集的事件样本进行训练得到的网络模型，通过该卷积神经网络可以提取得到融合后的图像序列中与样本事件相同的事件的特征所构成的空间特征图序列。由于输入卷积神经网络的是一组图像序列组成的三维数据，即包含了各多媒体帧的空间维度信息、时间维度信息和运动信息，因此，卷积神经网络可以为3D CNN(3D Convolutional Neural Netwoks，三维卷积神经网络)，通过3D CNN，基于空间维度对图像序列中的各图像进行运算，并且，得到的空间特征图序列中携带有时间维度信息(即时序信息)。例如，假如图像序列中有m个图像，针对每一帧图像，可以利用3D CNN实现特征的提取，因此可以得到m个空间特征图，m即为时间维度，每个特征图为空间维度卷积得到的结果。

可选的，卷积神经网络为三维卷积神经网络。

在S103中，通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列的步骤，具体可以为：针对融合后得到的图像序列中的各图像，通过预先训练得到的三维卷积神经网络中的多个卷积层和多个下采样层，对该图像进行交替运算，得到对应的空间特征图；根据各多媒体帧的时序信息，在对应的空间特征图中填充时序信息，组成携带有时序信息的空间特征图序列。

3D CNN由卷积层和下采样层交替出现堆叠而成，卷积层中存在多个卷积核，每个卷积核提取一种特征，卷积核越多生成的特征图就越多；下采样层在空间维度上对上一个卷积层的卷积结果进行下采样、合并卷积结果中临近特征。例如，3D CNN可以包含2个卷积层和2个下采样层，假定输入的图像序列中的包括50个帧图像，对于普通的RGB图像而言，图像存在三通道数据，而在本实施例中，由于将光流图融合到了各图像中，则图像序列中的图像实际存在的可以为大于三通道的多通道数据。图像的通道数据越多，得到的事件检测结果就越准确。

对于输入的图像，通过一个卷积层的卷积运算可以得到相对于原图尺寸更小的特征图，再进行池化层的池化运算，使得输入的维度大幅减小，再经过一次卷积层和池化层的运算，可以将维度进一步减少。在得到各图像的空间特征图后，可以将各空间特征图组成空间特征图序列，该空间特征图序列中携带了各图像的时序信息，并且由于图像序列中的各图像为多媒体帧与光流图的融合图像，空间特征图还反映了目标的运动信息。

以视频帧的特征提取为例，原视频帧与对应的光流图进行融合得到新的视频帧，如图3所示，为从视频帧到特征序列的特征提取过程，假定视频帧有m帧，针对每一帧，可以利用3D CNN技术实现特征的提取，因此可以获取m个特征向量，其中每个特征向量的维度设定为n。

S104，通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列。

在通过卷积神经网络得到空间特征图序列后，可以将空间特征图序列输入预先训练得到的时空循环神经网络，时空循环神经网络为基于时序信息对空间特征图像序列进行递归运算的神经网络，每次递归运算的结果是每帧图像上的目标特征都融合了其他图像上的目标特征。时空循环神经网络为基于卷积运算的循环神经网络，也就是说，时空循环神经网络中不仅基于时间维度信息进行卷积运算，还基于空间维度信息进行卷积运算。具体的，时空循环神经网络可以为ConvLSTM(Convolutional Long Short Term Memory Network，基于卷积运算的长短期记忆递归神经网络)，时空循环神经网络实际是就是在上述卷积神经网络提取的各帧图像空间信息基础上，获取了帧与帧之间的时间信息。

可选的，时空循环神经网络为基于卷积运算的长短期记忆递归神经网络。

S104具体可以为：针对空间特征图序列中的各空间特征图，通过预先训练得到的基于卷积运算的长短期记忆递归神经网络，根据时序信息，按序将除该空间特征图自身以外的其他空间特征图融合至该空间特征图，得到对应的时空特征图；由各空间特征图对应的时空特征图，组成时空特征图序列。

Spatial-Temporal(时空)循环神经网络可以完成图像序列在时间维度及空间维度上的特征提取，能够得到各帧图像之间的关联信息(上下文信息)，如图4所示，使用Spatial-Temporal循环神经网络ConvLSTM来加强上下文信息的建模。以视频帧为例，x1、x2和x3表示提取的视频帧序列，中间的方框表示隐层特征，y0、y1和y2等表示ConvLSTM建模后的特征序列。

在ConvLSTM之后还可以接同一个全连接层或者聚合层，全连接层或聚合层通过对所有的时空特征图进行平均操作，综合各个时间输出对于分类结果的影响。

目前，在事件检测方法中，通常利用光流信息对目标进行分析，这种方法的局限性较大；而传统的基于RGB图的目标识别方法，仅可以识别目标本身，对于目标的运动情况不能真实体现，也就是无法准确检测事件。尽管可以根据这两种方法，分别对源多媒体流中的多媒体帧进行光流分析、并进行目标识别，再融合两种方法的结果，相较于上述两种方法可以较为准确的检测事件，但是每一种方法的执行都需要占用存储空间，导致运算效率较低。而本实施例中，通过卷积神经网络的空间维度运算和时空循环神经网络的递归运算，减少了存储空间的占用量，从而可以提高运算效率。

S105，基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。

预设多分类器为能够实现对多种类型的事件进行分类的分类器，例如softmax分类器，多分类器中存储有特征空间与概率空间的映射关系，即某一种特征为某个事件目标的概率，通过映射即可确定多媒体流中的事件类型。

可选的，S105具体可以为：利用预设多分类器，根据特征空间与概率空间的映射关系，对时空特征图序列进行概率映射，确定多媒体流中的事件类型。

基于神经网络的特征输出，借助softmax分类器从特征空间到概率空间进行投射，特征空间与概率空间的映射关系可以为：

y＝softmax(a) (1)

其中，a为时空特征图序列中的特征，y为概率空间。

如果通过卷积神经网络得到的空间特征图序列中，第一张空间特征图为摩托车轮、最后一张空间特征图为人骑在摩托车上，由于各多媒体帧中融合了光流图，判断第一张空间特征图中的摩托车轮的运动方向为向右前方，而后续几张空间特征图中相同特征为向右前方移动，并且通过时空循环神经网络得到的时空特征图序列中，从最后一张时空特征图中可以看到第一张时空特征图的信息，因此可以准确判断出来在该多媒体流中存在人骑摩托车的事件发生。

应用本实施例，通过从待检测的多媒体流中，提取多媒体帧序列；对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图；将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列；基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。由于多媒体帧中融合了对应的光流图，即在融合后的图像序列中反映了目标的运动信息，并且通过卷积神经网络和时空循环神经网络，可以对携带有时序信息和运动信息的时空特征图序列进行提取，不需要对具体的目标数量、目标运动程度进行限定，即不限定于对某一类事件实现检测，因此，对于通用事件可以实现端到端的准确检测。

相应于上述方法实施例，本发明实施例提供了一种事件检测装置，如图5所示，该事件检测装置可以包括：

提取模块510，用于从待检测的多媒体流中，提取多媒体帧序列。

光流分析模块520，用于对所述多媒体帧序列进行光流分析，得到所述多媒体帧序列中各多媒体帧对应的光流图。

空间特征图序列获取模块530，用于将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列。

时空特征图序列获取模块540，用于通过预先训练得到的时空循环神经网络，按照所述时序信息，对所述空间特征图序列进行递归运算，得到时空特征图序列。

分类模块550，用于基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型。

可选的，所述提取模块510，具体可以用于：按照预设间隔，对待检测的多媒体流进行预采样，得到多个多媒体帧；采用预设滑动窗口机制，从所述多个多媒体帧中提取预设数量个多媒体帧，组成多媒体帧序列。

可选的，所述卷积神经网络为三维卷积神经网络。

所述空间特征图序列获取模块530，具体可以用于：针对融合后得到的图像序列中的各图像，通过预先训练得到的三维卷积神经网络中的多个卷积层和多个下采样层，对该图像进行交替运算，得到对应的空间特征图；根据各多媒体帧的时序信息，在对应的空间特征图中填充所述时序信息，组成携带有所述时序信息的空间特征图序列。

可选的，所述时空循环神经网络为基于卷积运算的长短期记忆递归神经网络。

所述时空特征图序列获取模块540，具体可以用于：针对所述空间特征图序列中的各空间特征图，通过预先训练得到的基于卷积运算的长短期记忆递归神经网络，根据所述时序信息，按序将除该空间特征图自身以外的其他空间特征图融合至该空间特征图，得到对应的时空特征图；由各空间特征图对应的时空特征图，组成时空特征图序列。

可选的，所述分类模块550，具体可以用于：利用预设多分类器，根据特征空间与概率空间的映射关系，对所述时空特征图序列进行概率映射，确定所述多媒体流中的事件类型。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601和存储器602，其中，

所述存储器602，用于存放计算机程序；

所述处理器601，用于执行所述存储器上所存放的程序时，实现上述事件检测方法的所有步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

电子设备中处理器601与存储器602之间可以通过有线连接、也可以通过无线连接，并且电子设备与外部设备可以通过通信接口进行数据通信，数据通信方式也可以为有线方式或者无线方式，这里不做限定。

本实施例中，该电子设备中的处理器通过读取存储器中存储的计算机程序，并通过运行该计算机程序，能够实现：通过从待检测的多媒体流中，提取多媒体帧序列；对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图；将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列；基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。由于多媒体帧中融合了对应的光流图，即在融合后的图像序列中反映了目标的运动信息，并且通过卷积神经网络和时空循环神经网络，可以对携带有时序信息和运动信息的时空特征图序列进行提取，不需要对具体的目标数量、目标运动程度进行限定，即不限定于对某一类事件实现检测，因此，对于通用事件可以实现端到端的准确检测。

另外，相应于上述实施例所提供的事件检测方法，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例提供的事件检测方法的所有步骤。

本实施例中，计算机可读存储介质存储有在运行时执行本发明实施例所提供的事件检测方法的应用程序，因此能够实现：通过从待检测的多媒体流中，提取多媒体帧序列；对多媒体帧序列进行光流分析，得到多媒体帧序列中各多媒体帧对应的光流图；将各多媒体帧与对应的光流图进行融合，并通过预先训练得到的卷积神经网络，对融合后得到的图像序列进行运算，得到携带有时序信息的空间特征图序列；通过预先训练得到的时空循环神经网络，按照时序信息，对空间特征图序列进行递归运算，得到时空特征图序列；基于时空特征图序列，利用预设多分类器，确定多媒体流中的事件类型。由于多媒体帧中融合了对应的光流图，即在融合后的图像序列中反映了目标的运动信息，并且通过卷积神经网络和时空循环神经网络，可以对携带有时序信息和运动信息的时空特征图序列进行提取，不需要对具体的目标数量、目标运动程度进行限定，即不限定于对某一类事件实现检测，因此，对于通用事件可以实现端到端的准确检测。

对于电子设备以及计算机可读存储介质实施例而言，由于其所涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备以及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种事件检测方法，其特征在于，所述方法包括：

从待检测的多媒体流中，提取多媒体帧序列；

基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型；

其中，所述时空循环神经网络为基于卷积运算的循环神经网络，每次递归运算的结果是每帧图像上的目标特征都融合了其他图像上的目标特征，所述时空循环神经网络是基于时间维度信息和空间维度信息进行卷积运算的；

所述从待检测的多媒体流中，提取多媒体帧序列，包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络为三维卷积神经网络；

3.根据权利要求1所述的方法，其特征在于，所述时空循环神经网络为基于卷积运算的长短期记忆递归神经网络；

由各空间特征图对应的时空特征图，组成时空特征图序列。

4.根据权利要求1所述的方法，其特征在于，所述基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型，包括：

5.一种事件检测装置，其特征在于，所述装置包括：

分类模块，用于基于所述时空特征图序列，利用预设多分类器，确定所述多媒体流中的事件类型；

所述提取模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述卷积神经网络为三维卷积神经网络；

所述空间特征图序列获取模块，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述时空循环神经网络为基于卷积运算的长短期记忆递归神经网络；

所述时空特征图序列获取模块，具体用于：

由各空间特征图对应的时空特征图，组成时空特征图序列。

8.根据权利要求5所述的装置，其特征在于，所述分类模块，具体用于：

9.一种电子设备，其特征在于，包括处理器和存储器，其中，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。