CN108805036A

CN108805036A - 一种新的非监督的视频语义提取方法

Info

Publication number: CN108805036A
Application number: CN201810496579.3A
Authority: CN
Inventors: 林劼; 王芷若; 马骏; 崔建鹏; 杜亚伟; 钟德建
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-13
Anticipated expiration: 2038-05-22
Also published as: CN108805036B

Abstract

本发明公开了一种新的非监督视频语义提取方法，包括构建三维卷积神经网络模型，使用视频数据库中带标签视频数据集训练三维卷积神经网络模型；使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据；使用该生成数据作为三维卷积神经网络模型的输入数据，取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征；使用该生成的视频段语义特征序列作为视频语义自编码器的输入，通过自编码器整合得到视频整体语义特征。本发明实施例通过结合三维卷积神经网络和循环自动编码器的方案，解决了非监督的视频语义分析与提取问题，提高了视频语义提取准确度。

Description

一种新的非监督的视频语义提取方法

技术领域

本发明涉及人工智能和模式识别技术领域，特别是涉及一种基于深度学习模型的非监督视频语义提取方法。

背景技术

“语义”这一概念起源于19世纪末，是虚拟数据所对应的现实世界中的事物所代表的含义的表现，以及这些含义之间的关系，是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的，当我们想用计算机来理解视频之中的“语义”时，计算机只能够识别诸如颜色、形状等底层特征。因此，我们需要采用一些方法将这些底层的特征联系起来，形成一些更高层的含义，从而将视频中所要展示的信息更好的表达出来。

视频数据通常是非结构化的，因此对视频的语义提取，需要从多方面进行考虑。从内容上，需要考虑视频含有的空间和时间属性。从语义上，需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次：帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征，如色彩、纹路和形态等；镜头是由若干连续帧组成的，其内容记录了连续帧中对象的运动特征，表现了对象的时间特性。在现实中，镜头是生成视频的基本单位，即是摄像机一次拍摄所得到的最小单位；场景由一系列语义内容相关并且时间上连续的镜头组成，其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件，其内容记录了整个视频的语义信息。

(1)基于关键帧的视频语义提取，通常的关键帧语义提取技术流程为：对视频的帧截图；对帧截图进行关键帧识别，对取得的关键帧进行语义分析；将视频中包含的语音数据通过语音识别转换成文本；对语音文本进行语义识别；将上述关键帧语义和语音语义结合在一起，就得到了这个视频的语义；也就是将视频的图像特征和声音mfcc特征转换为语义特征，然后结合字幕的识别，通过Neuro-Linguistic Programming处理字幕得到词向量和文档相似度。这个方法的优势在于对视频上的文字内容较多的视频有较好的提取效果，比如一些教育类的视频。劣势就是对其他类型的文字较少的视频，因为其关键帧中的字幕信息较少，很难从中获得有用的文本信息。

(2)基于视频文本信息关键词提取，这种方法是对纯文本的提取，且此方法对词本身的重要程度、词所在的位置要求比较高，前面的词比后面的词重要，词频，词的整体出现顺序，也需要综合起来。也就是说标题的内容需要非常切合视频语义，否则这种方法的准确率会非常低。这种方法的优势是计算复杂度较低，业内有成熟的文本处理算法，并且各种算法开源包都很方便。劣势：有一些网络用语其表达的意思与字面意思相差很大，对视频语义的提取会产生极大的干扰。

对于体育视频的语义分析，目前的方法很少考虑对无标签数据的语义提取，因此当测试数据不属于训练数据种类之一时会发生领域漂移问题，从而影响视频语义提取准确度。

发明内容

本发明的目的在于克服现有的技术不足，提供一种使用三维卷积神经网络模型和循环自编码器相结合的视频语义提取的方法，能够解决非监督的视频语义分析与提取问题，提高视频语义提取准确度。

具体的，一种新的非监督视频语义提取方法，其特征在于，包括以下步骤：

S1：构建三维卷积神经网络模型，使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络模型；

S2：使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据；

S3：使用S2步骤生成数据作为三维卷积神经网络模型的输入数据，取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征；

S4：使用S3步骤生成的视频段语义特征序列作为视频语义自编码器的输入，通过自编码器整合得到视频整体语义特征。

优选地，步骤S1包括下列子步骤：

S11：构建包含五层卷积层、池化层，两层全连接层和一层SOFTMAX层的三维卷积神经网络模型；

S12：在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前，需要对视频数据集视频预处理：将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集，对图片进行大小调整、噪声过滤的图像预处理，将图片转化为112*112的统一规格；

S13：经过预处理的UCF-101视频集训练视频对应数据形式为(X_n,L_n)：n为训练视频个数，其中X_n＝[x_n(1),x_n(2),x_n(3),...,x_n(m)]是视频X_n经过预处理后的视频图片集合，m为视频转化为图片帧的个数，本方法使用ffmpeg将视频按照每秒20帧转化为图片序列，L_n为视频X_n对应标签类型；

S14：基于三维卷积神经网络模型和学习算法，使用经过预处理的UCF-101视频数据集，训练一个具有高识别率的视频种类识别模型。

优选地，步骤S2包括下列子步骤：

S21：将测试数据中视频帧图片数量m不满足m＝kw的视频帧图片集进行补充处理，其中，k为任意整数，w为滑动窗口的大小，将视频最后一帧的图片进行复制操作直到满足m为w的倍数；

S22：使用滑动窗口对视频帧序列进行滑动读取帧图片，滑动步长为滑动窗口的一半，每滑动一次，获取的帧图片为三维卷积神经网络的一次输入；取滑动窗口大小w＝16，因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合，其中代表窗口滑动第k次滑动获得视频图片集。

优选地，步骤S3包括下列子步骤：

S31：使用S1中使用UCF-101视频集训练得到的三维卷积神经网络模型识别S2中处理后的测试视频数据

S32：将三维卷积神经网络的全连接层的输出固定为子动作种类个数；

S33：三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出 F_k＝[f₁,f₂,f₃,...,f₄₀₉₆]，其中F_k的维度4096为三维卷积神经网络第一层全连接层的输出维度；

S34：测试视频数据对应三维卷积神经网络输出为[F₁,F₂,F₃,...,F_k]其维度为4096*k维。

优选地，步骤S4包括下列子步骤：

S41：使用S3中三维卷积神经网络模型对测试视频数据语义特征提取结果[F₁,F₂,F₃,...,F_k]作为视频语义自编码器的输入提取视频整体语义特征；

S42：循环自编码器将输入特征序列[F₁,F₂,F₃,...,F_k]转化为特征对序列 [[F₁,F₂],[F₂,F₃],[F₃,F₄],...,[F_k-1,F_k]]，采取贪心算法思想，其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征，表示为：F_1,2＝f(W⁽¹⁾[F₁,F₂]+b⁽¹⁾)，其中W⁽¹⁾代表n*n的矩阵参数，b⁽¹⁾是一个偏置项，W⁽¹⁾与b⁽¹⁾是通过学习特征序列对得到的；F_1,2的重构过程为： [F₁',F₂']＝W⁽²⁾F_1,2+b⁽²⁾其中W⁽²⁾代表n*n的矩阵参数，b⁽²⁾是不同于b⁽¹⁾的偏置项，同样W⁽²⁾与b⁽²⁾是通过学习重构误差得到；自编码器的重构误差为：循环自编码器的目标函数为：其中A(x)表示输入序列[F₁,F₂,F₃,...,F_k]对应的语义树的所有可能，T(y)表示所有可能的特征对，循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对，将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列；

S43：重复S42的自编码过程，直到特征序列中特征向量个数为1；

S44：循环自编码器输出最终的特征向量作为视频X_n的语义特征向量。

本发明的有益效果在于：

本发明通过结合三维卷积神经网络和循环自动编码器的方案，解决了非监督的视频语义分析与提取问题，提高了视频语义提取准确度。

附图说明

图1是本发明提出的一种新的非监督视频语义提取方法的流程图。

图2是本发明构建的三维卷积神经网络模型的结构图。

图3是本发明方法中训练三维卷积神经网络模型的流程示意图。

图4是本发明方法中提取视频语义特征的流程示意图。

图5是本发明基于三维卷积神经网络与循环自编码器模型的架构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本发明提出的一种新的非监督视频语义提取方法实施例流程图如图1所示，包括以下步骤：

作为一种优选实施例，步骤S1包括下列子步骤：

S11：构建包含五层卷积层、池化层，两层全连接层和一层SOFTMAX层的三维卷积神经网络模型，所构建的三维卷积神经网络模型结构如图2所示；

S12：在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前，需要对视频数据集视频预处理：将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集，对图片进行大小调整、噪声过滤的图像预处理，将图片转化为112*112的统一规格；对图像进行预处理，是由于受到各种条件的限制和随机干扰，这些图片集往往不能直接使用，因而需要在图像处理的早期阶段对它们进行大小调整、噪声过滤等图像预处理；

其中，训练三维卷积神经网络模型的流程示意如图3所示。随机初始化三维卷积神经网络参数，并将UCF-101视频数据集进行数据预处理后使用BP算法训练模型，得到最优的视频动作种类识别模型。

作为一种优选实施例，步骤S2包括下列子步骤：

S21：将测试数据中视频帧图片数量m不满足m＝kw的视频帧图片集进行补充处理，其中， k为任意整数，w为滑动窗口的大小，将视频最后一帧的图片进行复制操作直到满足m为w 的倍数；

作为一种优选实施例，步骤S3包括下列子步骤：

作为一种优选实施例，步骤S4包括下列子步骤：

S42：循环自编码器将输入特征序列[F₁,F₂,F₃,...,F_k]转化为特征对序列 [[F₁,F₂],[F₂,F₃],[F₃,F₄],...,[F_k-1,F_k]]，采取贪心算法思想，其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征，表示为：F_1,2＝f(W⁽¹⁾[F₁,F₂]+b⁽¹⁾)，其中W⁽¹⁾代表n*n的矩阵参数，b⁽¹⁾是一个偏置项，W⁽¹⁾与b⁽¹⁾是通过学习特征序列对得到的；F_1,2的重构过程为：[F₁',F₂']＝W⁽²⁾F_1,2+b⁽²⁾其中W⁽²⁾代表n*n的矩阵参数，b⁽²⁾是不同于b⁽¹⁾的偏置项，同样W⁽²⁾与 b⁽²⁾是通过学习重构误差得到；自编码器的重构误差为：循环自编码器的目标函数为：其中A(x)表示输入序列 [F₁,F₂,F₃,...,F_k]对应的语义树的所有可能，T(y)表示所有可能的特征对，循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对，将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列；

图4是本发明实施例方法中提取视频语义特征的流程示意图，视频数据集通过数据预处理，再经过滑动窗口处理数据，使用训练好的三维卷积神经网络提取特征得到特征序列，最后通过循环自编码器整合特征序列得到语义特征。

图5是本发明实施例基于三维卷积神经网络与循环自编码器模型的架构图，可见，视频经处理得到视频帧序列，处理后的视频帧序列通过三维卷积神经网络提取帧特征，形成视频帧特征序列，再转换为编码特征序列经过循环自编码器得到视频语义特征。

本发明实施例通过结合三维卷积神经网络和循环自动编码器的方案，解决了非监督的视频语义分析与提取问题，提高了视频语义提取准确度。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、 ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种新的非监督视频语义提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种视频语义提取方法，其特征在于，步骤S1包括下列子步骤：

3.根据权利要求2所述的一种视频语义提取方法，其特征在于，步骤S2包括下列子步骤：

4.根据权利要求3所述的一种视频语义提取方法，其特征在于，步骤S3包括下列子步骤：

S33：三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出F_k＝[f₁,f₂,f₃,...,f₄₀₉₆]，其中F_k的维度4096为三维卷积神经网络第一层全连接层的输出维度；

5.根据权利要求4所述的一种视频语义提取方法，其特征在于，步骤S4包括下列子步骤：

S42：循环自编码器将输入特征序列[F₁,F₂,F₃,...,F_k]转化为特征对序列[[F₁,F₂],[F₂,F₃],[F₃,F₄],...,[F_k-1,F_k]]，采取贪心算法思想，其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征，表示为：F_1,2＝f(W⁽¹⁾[F₁,F₂]+b⁽¹⁾)，其中W⁽¹⁾代表n*n的矩阵参数，b⁽¹⁾是一个偏置项，W⁽¹⁾与b⁽¹⁾是通过学习特征序列对得到的；F_1,2的重构过程为：[F₁',F₂']＝W⁽²⁾F_1,2+b⁽²⁾其中W⁽²⁾代表n*n的矩阵参数，b⁽²⁾是不同于b⁽¹⁾的偏置项，同样W⁽²⁾与b⁽²⁾是通过学习重构误差得到；自编码器的重构误差为：循环自编码器的目标函数为：其中A(x)表示输入序列[F₁,F₂,F₃,...,F_k]对应的语义树的所有可能，T(y)表示所有可能的特征对，循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对，将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列；