CN111860353A

CN111860353A - 基于双流神经网络的视频行为预测方法、装置及介质

Info

Publication number: CN111860353A
Application number: CN202010717243.2A
Authority: CN
Inventors: 刘圭圭; 李凡平; 石柱国
Original assignee: Anhui Issa Data Technology Co ltd; Beijing Yisa Technology Co ltd; Qingdao Yisa Data Technology Co Ltd
Current assignee: Anhui Issa Data Technology Co ltd; Beijing Yisa Technology Co ltd; Qingdao Yisa Data Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-30

Abstract

本发明实施例公开了一种基于双流神经网络的视频行为预测方法、装置及介质。方法包括：获取待处理的视频片段，分段以得到多个分段视频；根据分段视频得到RGB图片和光流图片；将RGB图片送入完成训练的双流神经网络模型的第一支路进行预测，以得到第一预测结果；同时将光流图片送入双流神经网络模型的第二支路进行预测，以得到第二预测结果；将第一预测结果和第二预测结果进行融合，以得到最终预测结果。本发明实施例只需要每段视频的部分图片信息，从而降低了视频数据的冗余性。且，送入双流神经网络模型的不仅包括RGB图片，还包括光流图片，既捕捉了静态图像也捕捉了动态图像特性，从而提高了双流神经网络模型对视频分类的准确性。

Description

基于双流神经网络的视频行为预测方法、装置及介质

技术领域

本发明涉及深度学习及人工智能技术领域，具体涉及一种基于双流神经网络的视频行为预测方法、装置及介质。

背景技术

视频分类是人工智能研究的重要方向之一，在实际生活中有着众多的应用。

当前，随着大数据时代的来临，视频分类/行为识别是计算机视觉领域中非常有挑战性的课题，因为其不仅仅要分析目标体的空间信息，还要分析时间维度上的信息。如何更好的提取出空间-时间特征是问题的关键。视频分类算法在近些年得到了长足的进步，有些算法使用三维卷积，LSTM的方式处理视频数据，但视频数据往往冗余性大，且物体变化特性很难捕捉。

发明内容

针对上述技术缺陷，本发明实施例的目的在于提供一种基于双流神经网络的视频行为预测方法、装置及可读存储介质。

为实现上述目的，第一方面，本发明实施例提供了一种基于双流神经网络的视频行为预测方法，包括：

获取待处理的视频片段，对待处理的视频片段按相等间隔进行分段以得到多个分段视频；

根据所述分段视频得到RGB图片和光流图片；

将所述RGB图片送入完成训练的双流神经网络模型的第一支路进行预测，以得到第一预测结果；

同时将所述光流图片送入双流神经网络模型的第二支路进行预测，以得到第二预测结果；

将所述第一预测结果和第二预测结果进行融合，以得到最终预测结果。

作为本申请一种具体的实施方式，所述第一支路或第二支路包括卷积层、池化层和输出层，所述卷积层用于对所述RGB图片或光流图片进行特征提取，以得到RGB图像特征或光流图像特征；所述池化层用于对所述RGB图像特征或光流图像特征进行特征降维和特征融合，以得到融合结果；所述输出层用于对所述融合进行行为预测，以得到所述第一预测结果或第二预测结果。

进一步地，所述方法还包括训练所述双流神经网络模型，具体为：

获取样本视频，按相等间隔对所述样本视频进行分段，以得到短片段；

根据所述短片段，采用前向传播计算误差方法和反向传播更新模型权重方法训练所述双流神经网络模型。

作为本申请一种具体的实施方式，采用前向传播计算误差方法和反向传播更新模型权重方法训练所述双流神经网络模型，具体包括：

S1：针对所述短片段进行建模：

Result＝H(G(F(T₁；W)，F(T₂；W)，...，F(T_k；W)))

其中F(T_k；W)函数代表采用W作为参数的卷积网络作用于短片段T_k，函数返回T_k相对于所有类别的得分；段共识函数G代表结合多个短片段的类别得分输出以获得他们之间关于类别假设的共识；基于该共识，预测函数H预测整段视频属于每个行为类别的概率；

S2：结合标准分类交叉熵损失，关于部分共识的最终损失函数L的形式为：

其中，C是行为总类别数，y_i是类别数目；共识函数G采用最简单的形式，即G_i＝g(F_i(T₁)，...，F_i(T_k))，采用用聚合函数g从所有片段中相同类别的得分中推断出某个类别分数G_i；聚合函数g采用均匀平均法来表示最终识别精度；

S3：用标准反向传播算法，利用多个短片段来联合优化模型参数W；在反向传播过程中，模型参数W关于损失值L的梯度为：

第二方面，本发明实施例提供了一种基于双流神经网络的视频行为预测装置，包括：

获取单元，用于获取待处理的视频片段；

分段单元，用于对待处理的视频片段按相等间隔进行分段以得到多个分段视频；

处理单元，用于根据所述分段视频得到RGB图片和光流图片；

输入单元，用于将所述RGB图片送入完成训练的双流神经网络模型的第一支路进行预测，以得到第一预测结果；

所述输入单元还用于同时将所述光流图片送入双流神经网络模型的第二支路进行预测，以得到第二预测结果；

融合输出单元，用于将所述第一预测结果和第二预测结果进行融合，以得到最终预测结果。

进一步地，所述装置包括训练单元，用于训练所述双流神经网络模型，具体为：

第三方面，本发明实施例提供了另一种基于双流神经网络的视频行为预测装置，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

实施本发明实施例，将待处理的视频片段分成多个分段视频，根据多个分段视频得到RGB图片和光流图片，并将RGB图片和光流图片输入训练好的双流神经网络模型进行预测，得到视频行为的预测结果。即，本发明实施例只需要每段视频的部分图片信息，从而降低了视频数据的冗余性。且，送入双流神经网络模型的不仅包括RGB图片，还包括光流图片，既捕捉了静态图像也捕捉了动态图像特性，从而提高了双流神经网络模型对视频分类的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的基于双流神经网络的视频行为预测方法的示意流程图；

图2是本发明第一实施例提供的基于双流神经网络的视频行为预测装置的结构示意图；

图3是本发明第二实施例提供的基于双流神经网络的视频行为预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的发明构思是：为了克服视频数据的冗余性，将视频切分成K段，取每一段中的部分图片放入双流神经网络中；为了捕捉物体的变化特性，双流神经网络中既输入RGB图片也输入光流图片。

本发明实施例中所用到的双流神经网络模型，是通过在VGG-16，RES-50网络模型基础上，将网络分成两条支路，一条用来处理RGB图像特征，一条用来处理光流特征，最终将两个支路的结果融合得到最终的预测结果。

请参考图1，本发明实施例提供的基于双流神经网络的视频行为预测方法可以包括以下步骤：

S101，训练双流神经网络模型。

本发明实施例中的双流神经网络模型包括第一支路和第二支路，每一支路均包括卷积层、池化层和SoftMax输出层。

卷积层用于底层视觉特征、高层语义信息提取；池化层用于特征融合、降低维度；输出层用于行为预测。

具体地，双流神经网络模型的训练过程如下：

根据所述短片段，采用前向传播计算误差方法和反向传播更新模型权重方法训练双流神经网络模型。

进一步地，训练过程具体包括：

步骤S1，给定一段视频V，把它按相等间隔分为K段{S₁，S₂，...，S_k}。接着，双流网络按如下方式对一系列片段进行建模：

Result＝H(G(F(T₁；W)，F(T₂；W)，...，F(T_k；W)))

其中F(T_k；W)函数代表采用W作为参数的卷积网络作用于短片段T_k，函数返回T_k相对于所有类别的得分。

共识函数G结合多个短片段的类别得分输出以获得他们之间关于类别假设的共识。

基于这个共识，预测函数H预测整段视频属于每个行为类别的概率。

步骤S2，结合标准分类交叉熵损失(cross-entropyloss)，关于部分共识的最终损失函数G的形式为：

其中，C是行为总类别数，yi是类别数目，实验中片段的数K。本工作中共识函数G采用最简单的形式，即G_i＝g(F_i(T₁)，...，F_i(T_k))，采用用聚合函数g从所有片段中相同类别的得分中推断出某个类别分数G_i。聚合函数g采用均匀平均法来表示最终识别精度。

步骤S3用标准反向传播算法，利用多个片段来联合优化模型参数W。在反向传播过程中，模型参数W关于损失值L的梯度为：

本领域技术人员应当理解，训练模型的过程实际上是对模型参数进行调整的过程，本实施在训练过程中采用了一种end-toend的训练方式，将原始视频切成K段，每段提取若干张图片，将提取出的若干张图片和光流图片一起送入网络中，训练包含双流的分类模型，通过前向传播计算误差，反向传播更新模型权重。

S102，获取待处理的视频片段，对待处理的视频片段按相等间隔进行分段以得到多个分段视频。

S103，根据所述分段视频得到RGB图片和光流图片。

具体地，从分段视频中提取出RGB图片，并基于分段视频的图片序列计算得到光流图片。

S104，将所述RGB图片送入完成训练的双流神经网络模型的第一支路进行预测，以得到第一预测结果。

S105，同时将所述光流图片送入双流神经网络模型的第二支路进行预测，以得到第二预测结果。

模型训练完毕后，采用卷积层对RGB图片或光流图片进行特征提取，以得到RGB图像特征或光流图像特征；接着，采用池化层对RGB图像特征或光流图像特征进行特征降维和特征融合，以得到融合结果；最后输出层用于对所述融合进行行为预测，以得到所述第一预测结果或第二预测结果。

S106，将第一预测结果和第二预测结果进行融合，以得到最终预测结果。

需要说明的是，最终预测结果指的是待处理的视频片段对应的行为分类标签的概率分布。

举例来说，比如我们要识别的行为有打排球，打乒乓球，打篮球。。。。模型训练的时候我们会搜集所有相关类别的视频片段并打上标签进行模型训练；模型训练好后，输入一个未知行为的视频片段，通过模型的前向传播推理就可以知道这段视频具体是什么行为，比如打排球。。。

可理解地，本发明实施例实际上是基于双流神经网络模型实现了视频行为预测，除此以外，上述双流神经网络模型及其算法还可用于视频分类。当用于视频分类时，在UCF101数据集上采用本实施例的网络模型和LSTM网络的实验结果如下：

表1 UCF101数据集实验结果

从表中可以看出，与传统的LSTM模型相比，双流网络模型在分类准确率上提高了4.36％。从而证明了双流网络模型在视频分类问题上的效果。

实施本发明实施例的预测方法，将待处理的视频片段分成多个分段视频，根据多个分段视频得到RGB图片和光流图片，并将RGB图片和光流图片输入训练好的双流神经网络模型进行预测，得到视频行为的预测结果。即，本发明实施例只需要每段视频的部分图片信息，从而降低了视频数据的冗余性。且，送入双流神经网络模型的不仅包括RGB图片，还包括光流图片，既捕捉了静态图像也捕捉了动态图像特性，从而提高了双流神经网络模型对视频分类的准确性。

基于相同的发明构思，本发明实施例提供了一种双流神经网络的视频行为预测装置。如图2所示，该装置包括：

训练单元10，用于训练双流神经网络模型；

获取单元20，用于获取待处理的视频片段；

分段单元30，用于对待处理的视频片段按相等间隔进行分段以得到多个分段视频；

处理单元40，用于根据所述分段视频得到RGB图片和光流图片；

输入单元50，用于将所述RGB图片送入完成训练的双流神经网络模型的第一支路进行预测，以得到第一预测结果；

所述输入单元50还用于同时将所述光流图片送入双流神经网络模型的第二支路进行预测，以得到第二预测结果；

融合输出单元60，用于将所述第一预测结果和第二预测结果进行融合，以得到最终预测结果。

进一步地，训练单元10具体用于：

在本发明的另一优选实施例中，如图3所示，该处理装置可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，深度学习显卡(如：华为NPU,英伟达GPU,谷歌TPU)该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于双流神经网络的视频行为预测方法的实施例中所描述的实现方式，在此不再赘述。

需要说明的是，本发明实施例中预测装置的具体工作流程及相关细节，请参考前述方法实施例部分，在此不再赘述。

进一步地，本发明实施例还提供了一种可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于双流神经网络的视频行为预测方法。

所述计算机可读存储介质可以是前述任一实施例所述的***的内部存储单元，例如***的硬盘或内存。所述计算机可读存储介质也可以是所述***的外部存储设备，例如所述***上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述***的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述***所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于双流神经网络的视频行为预测方法，其特征在于，包括：

根据所述分段视频得到RGB图片和光流图片；

2.如权利要求1所述的视频行为预测方法，其特征在于，所述第一支路或第二支路包括卷积层、池化层和输出层，所述卷积层用于对所述RGB图片或光流图片进行特征提取，以得到RGB图像特征或光流图像特征；所述池化层用于对所述RGB图像特征或光流图像特征进行特征降维和特征融合，以得到融合结果；所述输出层用于对所述融合进行行为预测，以得到所述第一预测结果或第二预测结果。

3.如权利要求2所述的视频行为检测方法，其特征在于，所述方法还包括训练所述双流神经网络模型，具体为：

4.如权利要求3所述的视频行为检测方法，其特征在于，采用前向传播计算误差方法和反向传播更新模型权重方法训练所述双流神经网络模型，具体包括：

S1：针对所述短片段进行建模：

Result＝H(G(F(T₁；W),F(T₂；W),…,F(T_k；W)))

S2：结合标准分类交叉熵损失，关于部分共识的最终损失函数L的形式为:

其中，C是行为总类别数，y_i是类别数目；共识函数G采用最简单的形式，即G_i＝g(F_i(T₁),…,F_i(T_k))，采用用聚合函数g从所有片段中相同类别的得分中推断出某个类别分数G_i；聚合函数g采用均匀平均法来表示最终识别精度；

5.一种基于双流神经网络的视频行为预测装置，其特征在于，包括：

获取单元，用于获取待处理的视频片段；

处理单元，用于根据所述分段视频得到RGB图片和光流图片；

6.如权利要求5所述的视频行为预测装置，其特征在于，所述第一支路或第二支路包括卷积层、池化层和输出层，所述卷积层用于对所述RGB图片或光流图片进行特征提取，以得到RGB图像特征或光流图像特征；所述池化层用于对所述RGB图像特征或光流图像特征进行特征降维和特征融合，以得到融合结果；所述输出层用于对所述融合结果进行行为预测，以得到所述第一预测结果或第二预测结果。

7.如权利要求5或6所述的视频行为预测装置，其特征在于，所述装置包括训练单元，用于训练所述双流神经网络模型，具体为：

8.一种基于双流神经网络的视频行为预测装置，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。