CN104156464A

CN104156464A - 基于微视频特征数据库的微视频检索方法及装置

Info

Publication number: CN104156464A
Application number: CN201410416334.7A
Authority: CN
Inventors: 陈芋文; 张矩; 钟坤华; 刘磊锋
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2014-11-19
Anticipated expiration: 2034-08-20
Also published as: CN104156464B

Abstract

本发明提供一种基于微视频特征数据库的微视频检索方法及装置，主要用于实现海量微视频的快速检索，首先，对微视频进行预处理提取视频的关键帧，形成视频帧并标记每帧与微视频的关联；然后将视频帧作为自编码神经网络的输入通过深度网络学习进行特征提取，形成微视频每帧的二进制码库；最后基于汉明距离的K-近邻算法进行检索。相对于现有技术，本发明采用了深度学习技术避免了视频特征提取的人工干涉过程，能够快速有效的对微视频进行检索。

Description

基于微视频特征数据库的微视频检索方法及装置

技术领域

本发明涉及一种信息检索领域，主要是指数据库服务器的建立及数据库中的信息读取和排序，特别是涉及一种视频图像的检索方法及装置。

背景技术

随着移动通信技术以及终端硬件水平的不断提升，移动互联网得到快速发展，互联网刮起一阵改革的春风。在移动互联网和智能手机逐渐普及的背景下，微视频再度进入人们的视线，市场上开始出现各种相关产品，创业者和投资人们也渐渐将目光投向了这个领域。智能设备计算能力的提高已经使得在手机端拍摄、编辑和创造视频变成现实，微博和脸谱等社交产品也培养和激发了人们分享和交流的需求，因而产生了大量长度在30秒内的UGC(UserGenerated Content，也即是用户生成内容)微视频，面对这些海量的而且包含大量非结构化微视频数据进行快速检索成为迫切的需求。

近年来，在视频特征提取和检索方面研究者们提出了很多有意义的方法。虽然，这些研究方法在特征提取和检索中有一定的效果，但其计算过程一般较复杂，且特征提取需人工干涉，较复杂的特征提取方法也带来了检索的困难。另外，现有的视频特征提取和检索方法也未针对微视频的特有的特点进行特征提取及检索。

综上所述，如何进行更快速有效的微视频检索，已经成为基于内容信息检索研究领域中需要解决的重要课题之一。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于微视频特征数据库的微视频检索方法及装置，用于解决现有技术中无法针对微视频进行快速有效的检索的问题。

为实现上述目的及其他相关目的，本发明提供以下技术方案:

一种微视频特征数据库的建立方法，包括提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；归一化所述图像帧以得到归一化的图像数据；令所述图像数据作为输入进行自编码网络预训练，以得到所述自编码网络中每层网络的权值参数和偏置参数并予以展开连接成一个完成的自编码网络；采用BP神经网络对所述完成的自编码网络进行微调，将微调后的所述完成的自编码网络的中间层的输出数据转换成二进制码并予以存储。

优选地，在上述微视频特征数据库的建立方法中，所述图像帧包括以一预设间隔频率提取所述微视频一帧的多个图像集合，且所述多个图像集合与所述微视频以多对一的映射方式相关联。优选地，在上述微视频特征数据库的建立方法中，归一化所述图像帧的方法包括：令所述图像帧进行图片平滑处理，得到去噪图像；计算所述去噪图像的平均值；计算所述去噪图像的标准方差；令所述去噪图像减去所述去噪图像的所述平均值并再除以所述去噪图像的标准方差，得到归一化的图像数据。

优选地，在上述微视频特征数据库的建立方法中，令所述图像数据进行自编码网络预训练的方法为：令自编码网络第一层的输入为3027个可视节点单元，并令隐藏层为8192个隐藏节点单元；令所有剩余的连接于所述自编码网络各层的受限玻尔兹曼机的隐藏层隐藏节点单元为N个，并令可见层可视节点单元为2N个；初始化每一层的所述受限玻尔兹曼机权重为一随机实数，偏置为零；令所述图像数据在各层所述受限玻尔兹曼机中进行学习，且每层玻尔兹曼机的学习效率为0.001。

优选地，在上述微视频特征数据库的建立方法中，令BP神经网络对所述完成的自编码网络进行微调的方法为：利用前向计算网络对所述完成的自编码网络进行前馈，以得到所述完成的自编码网络的中间层输出的数据；并利用反馈修正网络对所述中间层输出的数据进行反馈，以修正所述中间层输出的数据；将进行前馈和反馈后的所述完成的自编码网的中间层输出的数据转换为二进制码；并将所述二进制码予以存储。

另外，本发明还提供了一种基于微视频特征数据库的微视频快速检索方法，所述检索方法包括：提取待检微视频的视频帧，并归一化所述视频帧以得到归一化的图像数据；令所述图像数据作为输入以进行所述自编码网络的深度学习，以提取出所述视频帧的二进制码；令所述视频帧的二进制码与微视频特征数据库中的二进制码进行汉明距离计算，并根据计算后的距离值对所述微视频特征数据库中的视频进行由小到大的排序并予以输出。

另外，本发明还提供了一种微视频快速检索装置，包括：视频帧提取模块，用于提取待检微视频的视频帧，并将所述视频帧与所述待检微视频相关联；视频帧预处理模块，用于归一化所述视频帧以得到归一化的图像数据；特征提取模块，用于令所述图像数据作为输入以进行自编码网络的深度学习，以提取出所述视频帧的二进制码；检索模块，用于计算所述视频帧的二进制码与微视频特征数据库中的二进制码的汉明距离，并根据计算后的距离值对所述微视频特征数据库中的视频进行由小到大的排序并予以输出。

最后，本发明还提供了一种微视频特征数据库的建立装置，包括：微视频图片提取模块，用于提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；图像帧预处理模块，用于归一化所述图像帧以得到归一化的图像数据；自编码预训练模块，用于令所述图像数据作为输入进行自编码网络预训练，以得到所述自编码网络中每层网络的权值参数和偏置参数并予以展开连接成一个完成的自编码网络；自编码网络微调模块，用于采用BP神经网络对所述完成的自编码网络进行微调，利用前向计算网络对所述完成的自编码网络进行前馈，以得到所述完成的自编码网络的中间层输出的数据；并利用反馈修正网络对所述中间层输出的数据进行反馈，以修正所述中间层输出的数据；自编码特征提取模块，用于将进行前馈和反馈后的所述完成的自编码网络的中间层输出的数据转换为二进制码；并将所述二进制码予以存储。

综上所述，本发明提供的基于微视频特征数据库的微视频检索方法及装置，主要用于实现海量微视频的快速检索。首先，对微视频进行预处理提取视频的关键帧，形成视频帧并标记每帧与微视频的关联；然后将视频帧作为自编码神经网络的输入通过深度网络学习进行特征提取，形成微视频每帧的二进制码库；最后基于汉明距离的K-近邻算法进行检索。相对于现有技术，本发明采用了深度学习技术避免了视频特征提取的人工干涉过程，能够快速有效的对微视频进行检索。

附图说明

图1显示为一种微视频特征数据库的建立方法的流程图。

图2为所述微视频特征数据库的建立方法中的网络预训示意图。

图3为所述微视频特征数据库的建立方法中的网络展开示意图。

图4为所述微视频特征数据库的建立方法中的网络微调示意图。

图5为一种基于所述微视频特征数据库的微视频快速检索方法的流程图。

图6为一种微视频特征数据库的建立装置的原理示意图。

图7为一种微视频快速检索装置的原理示意图。

附图标号说明

100 微视频特征数据库的建立装置

110 微视频图片提取模块

130 图像帧预处理模块

150 自编码预训练模块

170 自编码网络微调模块

190 自编码特征提取模块

200 微视频快速检索装置

210 视频帧提取模块

230 视频帧预处理模块

250 特征提取模块

270 检索模块

S10～S70 A B C 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

微视频的主要特点是“短”，一部UGC(User Generated Content，也即是用户生成内容)的微视频在30秒内，故其与一般的视频有一定差别。

另外，这里对实施例中的一些名词作适当的说明，以使本领域的技术人员能够更好地理解或实施本发明的技术方案。

自编码网络，是指一种无监督的学习方法，他利用反向传播算法，让目标值等于输入值。其实质是一种神经网络模型，在深度学习的术语中，自编码网络也被称作自编码神经网络。

受限玻尔兹曼机(Restricted Boltzmann Machine，简称RBM)是一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取{0，1}。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不会有边连接。在本发明中，受限玻尔兹曼机是用于实现自编码网络中层与层之间的连接。

为了能够实现快速而有效地微视频检索，其主要在于如何提供一个能够迅速而高效的视频特征数据库，这是因为，检索的过程就是将待检视频的特征与既有的视频或者数据库中的视频进行比对和排序，以从中找出与待检视频特征最接近的视频。所以，在本实施例中，首先给出了一种微视频特征数据库的建立方法，下面将详细阐述所述建立方法。

本发明提供了一种微视频特征数据库的建立方法，见图1，所述方法包括：

步骤S10，提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；

步骤S30，归一化所述图像帧以得到归一化的图像数据；

步骤S50，令所述图像数据作为输入进行自编码网络预训练，以得到所述自编码网络中每层网络的权值参数和偏置参数并予以展开连接成一个完成的自编码网络；

步骤S70，采用BP神经网络对所述完成的自编码网络进行微调，将微调后的所述完成的自编码网络的中间层的输出数据转换成二进制码并予以存储。

上述微视频特征数据库的建立方法首先对微视频进行预处理提取视频的图像帧，形成图像帧标记每帧与微视频的关联；然后将图像帧作为自编码神经网络的输入通过深度网络学习进行特征提取，形成微视频每帧的二进制码特征库。通过该方法可以快速而有效的建立微视频的特征数据库，为微视频的检索提供基础。

具体地，在所述步骤S10中，提取微视频图像帧的目的是对微视频进行学习重构，图像帧的信息量越大，学习的效果越好；若只提取关键帧，网络学习的信息偏少。因此，在上述方案中可对微视频流每间隔10帧就提取所述微视频的一帧，形成所述微视频的图像帧集合。而将所述图像帧与所述微视频相关联，可以令微视频和图像帧进行一对多的关联，图像帧的命名以微视频的名称为前缀加编号的形式命名。例如，以v_i表示第i部微视频，通过视频帧提取后的图像帧为(p_i1，p_i2……，p_in)形成自编码深度网络的训练样本，完成微视频的预处理。

进一步地，在所述步骤S30中，将微视频预处理后的图像数据归一化成32×32大小的图片，具体方法是：先令所述图像帧进行图片平滑处理，得到去噪图像，这里对图片进行平滑处理主要是去除图片的噪声；接着，计算所述去噪图像的平均值和计算所述去噪图像的标准方差；最后，令所述去噪图像减去所述去噪图像的所述平均值并再除以所述去噪图像的标准方差，即可得到归一化的图像数据。

进一步地，在所述步骤S50中，自编码网络第一层的输入为3072个可见单元，隐藏层设置为8192个单元。所有剩余的受限玻尔兹曼机层的隐藏层单元为N个，可见层单元为2N个。初始化每一层的受限玻尔兹曼机的权重为一个随机的小实数，偏置为零。每层玻尔兹曼机的学习效率为0.001，进行各层受限玻尔兹曼机网络学习。

通过上述的训练学习，主要是对图像数据进行自编码网络预训练，可参考图2，其中最后一层的输出即是图片数据的特征表示。经自编码网络预训练后，得到每层网络的权值参数和偏置参数，将网络展开，即可连接成一个完成的自编码网络，如图3。

进一步地，在所述步骤S70中，对所述自编码网络进行微调主要是采用BP网络算法对网络进行微调，如图4，在对所述自编码网络进行微调的前向计算网络时，将中间层(即特征层)输出数据强制转换为0和1的二进制码，在反馈修正网络时使用中间层的原输出结果进行反馈。

更进一步地，通过微调后，自编码网络可以重构图片。取微调后自编码网络的中间层提取微视频图像数据的特征数据，形成图片特征的二进制码并予以存储在数据库中。其中，将中间层转化成二进制码时，采用的是四舍五入的办法来进行二进制码转化。

通过上述方法即可实现微视频特征数据库的建立，从而利用所建立的微视频特征数据库可以实现微视频的快速检索，其具体的检索方法原理都是基于所述微视频特征数据库的，下面将对此予以详细说明。

另外，本发明还提供了一种基于所述微视频特征数据库的微视频快速检索方法，见图5，所述检索方法包括：

步骤A，提取待检微视频的视频帧，并归一化所述视频帧以得到归一化的图像数据；

步骤B，令所述图像数据作为输入以进行所述自编码网络的深度学习，以提取出所述视频帧的二进制码；

步骤C，令所述待检微视频帧经特征提取得到的二进制码与微视频特征数据库中的二进制码进行汉明距离计算，并根据计算后的距离值由小到大对所述微视频特征数据库中的视频进行排序并予以输出。

具体地，在步骤A和步骤B中，其所采用的方法和上述微视频特征数据库建立方法类似，故这里就不再予以赘述。

进一步地，在步骤C中，所述视频帧的二进制码与微视频特征数据库中的二进制码进行汉明距离计算所采用的方法是利用K-近邻算法进行检索，从而得到检索结果。

见图4，上述微视频快速检索方法和上述微视频特征数据库建立方法类似，即对待检微视频进行和微视频特征数据库建立方法一样的处理，以得到待检微视频特征数据的二进制码，然后将其与所述微视频特征数据库的二进制码进行对比计算，最后再将计算结果按照由小到大的进行排序并予以输出。应当理解，在得到计算结果后，可通过所述微视频特征数据库中二进制码和微视频之间的关联映射，将与待检微视频相近的微视频按排序结果予以输出。以上皆为检索技术的常规知识和技术手段，故这里就不再赘述。

另外，本发明还提供了一种微视频特征数据库的建立装置100，见图6，所述装置包括：

微视频图片提取模块110，用于提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；图像帧预处理模块130，用于归一化所述图像帧以得到归一化的图像数据；自编码预训练模块150，令所述图像数据进行自编码网络预训练，得到所述图像数据的权值矩阵和偏置量并予以输出；自编码网络微调模块170，用于采用BP神经网络对所述完成的自编码网络进行微调，利用前向计算网络对所述完成的自编码网络进行前馈，以得到所述完成的自编码网络的中间层输出的数据；并利用反馈修正网络对所述中间层输出的数据进行反馈，以修正所述中间层输出的数据；自编码特征提取模块190，用于将进行前馈和反馈后的所述完成的自编码网络的中间层输出的数据转换为二进制码；并将所述二进制码予以存储。

具体地，在对所述自编码网络进行微调的前向计算网络时，将中间层输出的数据以四舍五入的方法强制转换为二进制码，并在反馈修正网络时令中间层的原输出结果进行反馈，以取微调后的自编码网络的中间层得到所述图像数据的特征数据，形成所述图像帧的二进制特征码并予以存储。

另外，本发明还提供了一种微视频快速检索装置200，见图7，所述微视频快速检索装置200包括：视频帧提取模块210，用于提取待检微视频的视频帧，并将所述视频帧与所述待检微视频相关联；视频帧预处理模块230，用于归一化所述视频帧以得到归一化的图像数据；特征提取模块250，用于令所述图像数据作为输入以进行自编码网络的深度学习，以提取出所述视频帧的二进制码；检索模块270，用于计算所述视频帧的二进制码与微视频特征数据库中的二进制码的汉明距离，并根据计算后的距离值对所述微视频特征数据库中的视频进行由小到大的排序并予以输出。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种微视频特征数据库的建立方法，其特征在于：

提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；

归一化所述图像帧以得到归一化的图像数据；

令所述图像数据作为输入进行自编码网络预训练，以得到所述自编码网络中每层网络的权值参数和偏置参数并予以展开连接成一个完成的自编码网络；

采用BP神经网络对所述完成的自编码网络进行微调，将微调后的所述完成的自编码网络的中间层的输出数据转换成二进制码并予以存储。

2.根据权利要求1所述的微视频特征数据库的建立方法，其特征在于，所述图像帧包括以一预设间隔频率提取所述微视频一帧的多个图像集合，且所述多个图像集合与所述微视频以多对一的映射方式相关联。

3.根据权利要求1所述的微视频特征数据库的建立方法，其特征在于，归一化所述图像帧的方法为：

令所述图像帧进行图片平滑处理，得到去噪图像；

计算所述去噪图像的平均值；

计算所述去噪图像的标准方差；

令所述去噪图像减去所述去噪图像的所述平均值并再除以所述去噪图像的标准方差，得到归一化的图像数据。

4.根据权利要求1所述的微视频特征数据库的建立方法，其特征在于，令所述图像数据进行自编码网络预训练的方法为：

令自编码网络第一层的输入为3027个可视节点单元，并令隐藏层为8192个隐藏节点单元；

令所有剩余的连接于所述自编码网络各层的受限玻尔兹曼机的隐藏层隐藏节点单元为N个，并令可见层可视节点单元为2N个；

初始化每一层的所述受限玻尔兹曼机权重为一随机实数，偏置为零；

令所述图像数据在各层所述受限玻尔兹曼机中进行学习，且每层玻尔兹曼机的学习效率为0.001。

5.根据权利要求1所述的微视频特征数据库的建立方法，其特征在于，令BP神经网络对所述完成的自编码网络进行微调的方法为：

利用前向计算网络对所述完成的自编码网络进行前馈，以得到所述完成的自编码网络的中间层输出的数据；

并利用反馈修正网络对所述中间层输出的数据进行反馈，以修正所述中间层输出的数据；

将进行前馈和反馈后的所述完成的自编码网络的中间层输出的数据转换为二进制码；并将所述二进制码予以存储。

6.一种基于权利要求1至5所述的微视频特征数据库的建立方法的微视频快速检索方法，其特征在于，所述检索方法包括：

提取待检微视频的视频帧，并归一化所述视频帧以得到归一化的图像数据；

令所述图像数据作为输入以进行所述自编码网络的深度学习，以提取出所述视频帧的二进制码；

令所述视频帧的二进制码与微视频特征数据库中的二进制码进行汉明距离计算，并根据计算后的距离值对所述微视频特征数据库中的视频进行由小到大的排序并予以输出。

7.根据权利要求6所述的微视频快速检索方法，其特征在于，进行汉明距离计算所采用的方法为K-近邻算法。

8.一种微视频快速检索装置，其特征在于，包括：

视频帧提取模块，用于提取待检微视频的视频帧，并将所述视频帧与所述待检微视频相关联；

视频帧预处理模块，用于归一化所述视频帧以得到归一化的图像数据；

特征提取模块，用于令所述图像数据作为输入以进行自编码网络的深度学习，以提取出所述视频帧的二进制码；

检索模块，用于计算所述视频帧的二进制码与微视频特征数据库中的二进制码的汉明距离，并根据计算后的距离值对所述微视频特征数据库中的视频进行由小到大的排序并予以输出。

9.一种微视频特征数据库的建立装置，其特征在于，包括：

微视频图片提取模块，用于提取微视频中的图像帧，并将所述图像帧与所述微视频相关联；

图像帧预处理模块，用于归一化所述图像帧以得到归一化的图像数据；

自编码预训练模块，用于令所述图像数据作为输入进行自编码网络预训练，以得到所述自编码网络中每层网络的权值参数和偏置参数并予以展开连接成一个完成的自编码网络；

自编码网络微调模块，用于采用BP神经网络对所述完成的自编码网络进行微调，利用前向计算网络对所述完成的自编码网络进行前馈，以得到所述完成的自编码网络的中间层输出的数据；并利用反馈修正网络对所述中间层输出的数据进行反馈，以修正所述中间层输出的数据；

自编码特征提取模块，用于将进行前馈和反馈后的所述完成的自编码网络的中间层输出的数据转换为二进制码；并将所述二进制码予以存储。

10.根据权利要求9所述的微视频特征数据库的建立装置，其特征在于，采用四舍五入的方法对所述中间层输出的数据转换为二进制码。