CN110287938A

CN110287938A - 基于关键片段检测的事件识别方法、***、设备及介质

Info

Publication number: CN110287938A
Application number: CN201910590924.4A
Authority: CN
Inventors: 王晓芳; 单东日; 林霏
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-09-27
Anticipated expiration: 2039-07-02
Also published as: CN110287938B

Abstract

本公开提供基于关键片段检测的事件识别方法、***、设备及介质，先将视频输入到一个关键片段序列检测模型，该模型将视频分割成固定长度的片段，再利用稀疏表示的方法计算视频各个片段的显著性，并选择给定数目显著性大的片段组成关键片段序列。然后，将关键片段序列及其显著性输入到深度学习事件识别模型，该模型利用3D CNN计算所有关键片段的类别分值，并利用片段的显著性对所有片段的类别分值进行选择获取视频的类别分值，最后根据视频类别分值判定事件的类别。本发明突出了包含事件的视频片段在事件识别中作用，抑制了无关信息的影响，有助于提高事件识别的性能和效率。

Description

基于关键片段检测的事件识别方法、***、设备及介质

技术领域

本公开涉及深度学习和视频识别技术领域，特别是涉及基于关键片段检测的事件识别方法、***、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

随着社会对安全防范需求的与日俱增，视频监控技术己经广泛地应用于银行、超市、公园、车站等公共场所。然而，目前的视频监控还主要由人工观察视频来实现，为了充分发挥视频监控的实时性和准确性，将人工智能和视频处理相结合实现智能视频监控，已逐渐成为未来监控技术的发展趋势。视频监控的目的通常是为了识别视频中事件，因此实现视频中事件识别是智能监控的一项核心任务。

现有技术存在以下问题需要解决：

视频事件识别的过程中，如何能够避免将视频所有帧均输入到识别模型中进行事件识别造成的时间上的浪费，因为一个完整的视频中往往只有很少一部分片段含有对事件识别有用的关键信息，如果不将这一小部分关键视频片段预先提取出来，而是将视频完整输入识别模型进行事件识别，造成的后果就是，严重浪费了检测时间。

发明内容

为了解决现有技术的不足，本公开提供了基于关键片段检测的事件识别方法、***、设备及介质；

第一方面，本公开提供了基于关键片段检测的事件识别方法；

基于关键片段检测的事件识别方法，包括：

获取待识别视频；基于视频片段的显著性，从待识别视频中提取关键片段序列；

将关键片段序列输入到预先训练好的深度学习事件识别模型中，输出待识别视频中的事件类别。

第二方面，本公开还提供了基于关键片段检测的事件识别***；

基于关键片段检测的事件识别***，包括：

关键片段序列提取模块，其被配置为获取待识别视频；基于视频片段的显著性，从待识别视频中提取关键片段序列；

事件类别识别模块，其被配置为将关键片段序列输入到预先训练好的深度学习事件识别模型中，输出待识别视频中的事件类别。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

先将视频输入到一个关键片段序列检测模型，该模型先将视频分割成固定长度的片段，再利用稀疏表示的方法计算视频各个片段的显著性，并选择给定数目显著性大的片段组成关键片段序列。然后，将关键片段序列及其显著性输入到一个深度学习事件识别模型，该模型利用3D CNN计算所有关键片段的类别分值，并利用片段的显著性对所有片段的类别分值进行选择获取视频的类别分值，最后根据视频类别分值判定事件的类别。

鉴于视频中包含事件的片段通常具有较高的显著性，本发明将基于稀疏表示的关键片段检测和基于3D CNN的深度学习事件识别相结合，在提取视频整体特征时突出包含事件的片段的作用，抑制了无关信息的影响，有助于提高事件识别性能和效率，对加速智能视频监控在实际中的应用有重要的意义。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一的方法总体流程图；

图2为本公开实施例一的关键片段检测流程图；

图3为本公开实施例一的块的显著性检测流程图；

图4为本公开实施例一的基于关键片段的深度学习事件识别流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

卷积神经网络(CNN)是近年兴起的一种源于生物学的深度学习模型，可以通过多个卷积层和池化层的堆叠由低层到高层提取视频的时空信息用于事件识别。但实际视频中通常存在大量和感兴趣事件无关的片段，对于事件识别来说它们的鉴别力较低，它们的存在降低了事件识别性能和效率。因此，如果先检测出视频的关键片段，再将其输入到卷积神经网络实现事件识别，将有助于提高事件识别性能和效率，对加速智能视频监控在实际中的应用有重要意义。

实施例一，本实施例提供了基于关键片段检测的事件识别方法；

如图1所示，基于关键片段检测的事件识别方法，包括：

S1：获取待识别视频；基于视频片段的显著性，从待识别视频中提取关键片段序列；

S2：将关键片段序列输入到预先训练好的深度学习事件识别模型中，输出待识别视频中的事件类别。

作为一个或多个实施例，基于视频片段的显著性，从待识别视频中提取关键片段序列；具体步骤包括：

先按照设定的比例缩小输入待识别视频的空域尺寸；然后将视频分割成若干个设定长度的片段；再基于每个片段的颜色信息和运动信息，利用稀疏表示算法计算每个片段的显著性；按照显著性从大到小对片段进行排序，最后选取排序靠前的若干个片段组成关键片段序列。

应理解的，所述空域尺寸，是指视频每一帧的长和宽。

如图2所示，作为一个或多个实施例，基于视频片段的显著性，从待识别视频中提取关键片段序列；具体步骤包括：

S11：按照设定的比例系数缩小输入视频V的空域尺寸得到视频V′；

S12：计算视频V′每一帧的光流得到视频每一帧每一个像素的运动特征；

S13：在时域，将视频V′分割成长度均为L的互不重叠的片段，将所有片段按时间顺序组成一个片段序列S′；

S14：对于片段序列S′中的每个片段，在空域将其分割成大小为s×s×L互不重叠的时空块，s×s为空域大小，L为时域长度；基于每个片段的运动特征和颜色特征，利用稀疏表示算法计算每一个时空块的显著性，通过求片段内所有时空块的显著性的均值得到当前片段的显著性；

S15：在时域，将输入视频V分割成长度为L的互不重叠的片段，所有片段按时间顺序组成一个片段序列S″；

S16：按照片段序列S′的所有片段显著性由大到小的顺序，从片段序列S″中取出对应的K个片段，按时间顺序将取出的片段组成关键片段序列S。

如图3所示，作为一个或多个实施例，S14中利用稀疏表示算法计算每一个时空块的显著性；具体步骤包括：

S141：将时空块内所有像素的光流向量化，得到运动向量；

将时空块内中间位置的帧所有像素的颜色值向量化，得到颜色向量；

将运动向量和颜色向量进行加权组合，得到时空块的信息向量；

S142：将除当前时空块(第i个块)之外的所有时空块的信息向量，按列排列成矩阵D，以D为字典求解目标函数，将当前时空块的信息向量x_i表示成其他时空块的信息向量的稀疏表示；所述其他时空块是指除当前时空块(第i个块)之外的所有时空块；

目标函数：

其中，α为稀疏表示的系数；λ为平衡稀疏度和重构误差参数,0<λ<1；

S143：利用稀疏表示的重构误差表示当前时空块的显著性

作为一个或多个实施例，所述时空块的信息向量获取方法为：

S1411：将时空块内所有像素的水平方向和竖直方向的光流排列形成运动向量m＝[u₁ v₁ u₂ v₂ … u_s×s v_s×s]；

S1412：将时空块内中间位置的帧由RGB空间转换到Lab颜色空间，将时空块内中间位置的帧内所有像素的Lab三个通道的值，按像素位置顺序排列构成颜色向量a＝[L₁ a₁ b₁L₂ a₂ b₂ … L_s×s×L a_s×s×L b_s×s×L]；

S1413：将运动向量乘以调节系数γ，颜色向量乘以调节系数(1-γ)，再级联形成时空块的信息向量x＝[γm(1-γ)a]^T，其中0<γ<1，用于调节运动向量和颜色向量在块的信息表示中的重要性。

如图4所示，作为一个或多个实施例，深度学习事件识别模型，利用3D CNN获取关键片段序列S中每个片段的类别分值，并利用片段的显著性对所有片段类别分值加权求和获取视频类别分值。

作为一个或多个实施例，深度学习事件识别模型，包括：

空域缩放模块：将关键片段序列S中的每个片段在空域缩放到长宽相等的固定大小W×W；

3D CNN：3D CNN包含依次连接的卷积层、池化层、全连接层和Softmax层，将关键片段序列中的每个片段输入到3D CNN，从Softmax层输出片段的类别分值；

两个Softmax函数模块：将关键片段序列中的每个片段的显著性输入到其中一个Softmax函数模块进行归一化；

以归一化后的显著性为权值对关键片段序列中所有片段的类别分值进行加权求和得到视频的类别分值；

将视频类别分值输入到另一个Softmax函数模块进行归一化，得到归一化的视频类别分值。

3D CNN包含8个卷积层、5个最大值池化层、2个全连接层和1个softmax层，具体结构为“卷积层1--池化层1--卷积层2--池化层2--卷积层3—卷积层4--池化层3--卷积层5--卷积层6--池化层4--卷积层7--卷积层8--池化层5--全连接层1--全连接层2--Softmax层”。各卷积层的卷积核个数依次为64，128，256，256，512，512，512，512；所有卷积层的卷积核大小为3×3×3，步长为[1,1,1]；第一个池化层的池化核大小为1×2×2，步长为[1,2,2]，其它池化层的池化核大小为2×2×2，步长为[2,2,2]；第一个全连接层神经元个数为4096，第二个全连接层神经元个数为事件总的类别数C。

将关键片段序列S中的每个片段输入到3D CNN，Softmax层输出片段的类别分值，第k个片段的各个类别的分值为[p_k,1,p_k,2,…,p_k,C]。

利用一个Softmax函数模块对关键片段序列中的所有片段的显著性进行归一化，得到片段序列归一化的显著性[h′₁,h′₂,…,h′_K]，其中第k个片段归一化的显著性为h_k为第k个片段归一化前的显著性。

以归一化后的显著性为权值对关键片段序列中所有片段的类别分值进行加权求和得到视频类别分值[P₁,P₂,…,P_C]，其中，视频第c个类别分值

视频类别分值输入到另一个Softmax函数模块进行归一化，得到归一化的类别分值。

将分值最大的那个类别判定为视频中的事件类别并输出，即

作为一个或多个实施例，预先训练好的深度学习事件识别模型，训练步骤包括：

构建深度学习事件识别模型；

利用已知事件类别的视频构建训练集，提取训练集中每个视频的关键片段序列；

训练过程采用采用多轮批量的方式，每一轮开始前利用随机的方法重新设置训练集中的视频顺序，每次从训练集中按序取一批视频，并将视频的关键片段序列输入到深度学习事件识别模型，利用交叉熵损失函数和随机梯度下降法修正模型参数，不断重复，直至训练数据集中所有视频都输入到模型，训练过程完成一轮；对模型进行一轮一轮的训练，直至达到预定的训练轮数为止，得到训练好的深度学习事件识别模型。

所述的交叉熵损失函数为其中，m是批量大小；y_i,c是当前批次中第i个视频的第c个类别的真实分值，如果视频中事件的真实类别为c，则y_i,c＝1，否则y_i,c＝0；P_i,c为深度学习事件识别模型输出的第i个视频的第c个类别的分值。

作为一个或多个实施例，将待识别视频的关键片段序列输入到预先训练好的深度学习事件识别模型中，得到视频的各个类别分值，并将分值最大的类别判定为视频中事件的类别。

实施例二，本实施例还提供了基于关键片段检测的事件识别***；

基于关键片段检测的事件识别***，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于关键片段检测的事件识别方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，基于视频片段的显著性，从待识别视频中提取关键片段序列；具体步骤包括：

先按照设定的比例缩小输入待识别视频的空域尺寸；然后将视频分割成若干个设定长度的片段；再基于每个片段的颜色信息和运动信息，利用稀疏表示算法计算每个片段的显著性，按照显著性从大到小对片段进行排序，最后选取排序靠前的若干个片段组成关键片段序列。

3.如权利要求1所述的方法，其特征是，基于视频片段的显著性，从待识别视频中提取关键片段序列；具体步骤包括：

S16：按照段序列S′的所有片段显著性由大到小的顺序，从片段序列S″中取出对应的设定数目的片段，按时间顺序将取出的片段组成关键片段序列S。

4.如权利要求3所述的方法，其特征是，S14中利用稀疏表示算法计算每一个时空块的显著性；具体步骤包括：

S141：将时空块内所有像素的光流向量化，得到运动向量；

S142：将除当前时空块之外的所有时空块的信息向量，按列排列成矩阵D，以D为字典求解目标函数，将当前时空块的信息向量x_i表示成其他时空块的信息向量的稀疏表示；所述其他时空块是指除当前时空块之外的所有时空块；

目标函数：

其中，α为稀疏表示的系数；λ为平衡稀疏度和重构误差参数；

S143：利用稀疏表示的重构误差表示当前时空块的显著性

5.如权利要求4所述的方法，其特征是，所述时空块的信息向量获取方法为：

S1411：将时空块内所有像素的水平方向和竖直方向的光流排列形成运动向量m＝[u₁v₁ u₂ v₂ … u_s×s v_s×s]；

S1412：将时空块内中间位置的帧由RGB空间转换到Lab颜色空间，将时空块内中间位置的帧内所有像素的Lab三个通道的值，按像素位置顺序排列构成颜色向量a＝[L₁ a₁ b₁ L₂a₂ b₂ … L_s×s×L a_s×s×L b_s×s×L]；

6.如权利要求1所述的方法，其特征是，深度学习事件识别模型，包括：

3D CNN：3D CNN包含依次连接的卷积层、池化层、全连接层和Softmax层，将显著片段序列中的每个片段输入到3D CNN，从Softmax层输出片段的类别分值；

两个Softmax函数模块：将关键片段序列中的所有片段的显著性输入到其中一个Softmax函数模块进行归一化；

7.如权利要求1所述的方法，其特征是，预先训练好的深度学习事件识别模型，训练步骤包括：

构建深度学习事件识别模型；

8.基于关键片段检测的事件识别***，其特征是，包括：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。