CN104050247B

CN104050247B - 实现海量视频快速检索的方法

Info

Publication number: CN104050247B
Application number: CN201410245315.2A
Authority: CN
Inventors: 逯利军; 钱培专; 董建磊; 张树民; 曹晶; 李克民; 高瑞
Original assignee: Shanghai Certusnet Information Technology Co Ltd
Current assignee: Shanghai Certusnet Information Technology Co Ltd
Priority date: 2014-06-04
Filing date: 2014-06-04
Publication date: 2017-08-08
Anticipated expiration: 2034-06-04
Also published as: CN104050247A

Abstract

本发明涉及一种实现海量视频快速检索的方法，其中包括对视频库的视频流中各帧视频图像分别提取空间特征向量得到视频特征序列；在空间特征向量中提取关键特征向量；根据视频库中所有视频文件的关键特征向量建立分布式存储索引库；提取待检索视频的关键特征向量集并提取该待检索视频的视频索引文件；根据待检索视频的视频索引文件在分布式存储索引库中进行视频相似度检索并输出相似度大于***预设值的视频检索结果。采用该种结构的实现海量视频快速检索的方法，采用代表性的视觉单词代替关键帧，完整地代表了视频信息，既无大量冗余，又十分紧凑，加快检索速度，具有海量数据并发处理能力，具有更广泛的应用范围。

Description

实现海量视频快速检索的方法

技术领域

本发明涉及多媒体信息技术领域，尤其涉及多媒体信息检索、数据挖掘和视频处理领域，具体是指一种实现海量视频快速检索的方法。

背景技术

随着多媒体信息技术飞速发展，视频分享网站的出现，互联网视频数量迅速增长，且成几何级数上升。通过网络发布、分享和检索视频成为了人们的一种生活方式。面对海量的多媒体数据，如何快速的检索到相同或相似的视频成为了当前业界和学术界研究的热点。

传统的基于关键帧的视频检索方法主要倾向于视频检索的准确性，但计算复杂度极高，要花费若干分钟才能完成一次检索任务。面对海量的网路视频，传统的视频比对技术已不能胜任。当前面向互联网的视频检索技术，借鉴了传统文本搜索引擎的核心思想，把视频特征看作视频单词(visual word)，构建视频文件的倒排索引，实现对海量视频文件的快速索引。

成功的匹配有赖于检索视频和参考视频自身信息的丰富程度和自身信息被表达、描述的程度。面向互联网视频检索方法在提取关键帧的时候，往往不是按照传统的方法，先进行镜头切分，再提取镜头关键帧，因为提取关键帧的位置会受到视频帧率、分辨率等因素的影响，关键帧不能稳定、可靠的提取。更为简单可行方法是对视频每隔1秒做一次采样，作为关键帧。其实相当于增加了采样的频率，采样频率越高，原有信息表达的越充分，但计算量就会越大。通过增加采样频率来增加信息表达的程度，这样会导致，既有信息被过度表达产生冗余，又有信息没有被充分表达，导致信息丢失。而线性采样会使丢失的信息具有随机性，因为视频信息并不是线性表达的。随机丢失的信息会降低检索的准确性和稳定性。另外一方面，传统的关键帧提取方法，一般信息变化较小的地方提取较少的关键帧，在视频帧变过较大的地方提取较多的关键帧，会产生比较紧致而较完整的表达信息，其程度取决于聚类或分割的阈值。检索视频和参考视频往往会受到各种噪声干扰，比如视频分辨率变差，网络丢包，视频丢帧，低帧率，视频***，视频编辑等，会使原有的视频信息混有噪声，或导致部分信息丢失而不再完整。传统的视频关键帧提取方法过于理想化，a)未考虑外界干扰的复杂性，适当冗余度是必要的，b)其用于提取关键帧的特征并未针对海量检索任务而构建，相关的方法并不合适直接用来提取关键帧。如何选择恰当的检索特征，使得构建的关键帧序列的帧数量最少，视频镜头信息表达的相对完整而又有适当冗余，成为了面向海量数据检索技术丞待解决的关键问题。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够实现采用代表性的视觉单词代替关键帧、既无大量冗余、又十分紧凑、加快检索速度、具有海量数据并发处理能力、具有更广泛应用范围的实现海量视频快速检索的方法。

为了实现上述目的，本发明的实现海量视频快速检索的方法具有如下构成：

该实现海量视频快速检索的方法，其主要特点是，所述的方法包括以下步骤：

(1)对视频库的视频流中各帧视频图像分别提取空间特征向量得到视频特征序列；

(2)在所述的视频特征序列的空间特征向量中提取关键特征向量；

(3)根据视频库中所有视频文件的关键特征向量建立所有视频文件的分布式存储索引库；

(4)提取待检索视频的关键特征向量集并提取该待检索视频的视频索引文件；

(5)根据所述的待检索视频的视频索引文件在所述的分布式存储索引库中进行视频相似度检索并输出相似度大于***预设值的视频检索结果。

较佳地，所述的空间特征向量包括所对应帧图像的灰度空间分布特征和纹理空间分布特征，所述的对视频库的视频流中各帧视频图像分别提取空间特征向量，包括以下步骤：

(11)计算得到视频库的视频流中各帧视频图像的灰度图像和边缘纹理图像；

(12)计算各帧视频图像的灰度图像的中心空间特征和边界空间特征并得到由所述的中心空间特征和边界空间特征构成的该帧视频图像的灰度空间分布特征；

(13)计算各帧视频图像的边缘纹理图像的纹理空间分布特征。

更佳地，所述的计算得到视频库的视频流中各帧视频图像的灰度图像和边缘纹理图像，包括以下步骤：

(111)将视频库的视频流中的各帧视频图像划分成数个同样大小的子图像并计算各个子图像的灰度值和纹理边缘点数目；

(112)计算各帧视频图像的各个子图像的灰度值得到该帧视频图像的灰度图像；

(113)计算各帧视频图像的各个子图像的纹理边缘点数目得到该帧视频图像的边缘纹理图像。

更佳地，所述的计算各帧视频图像的灰度图像的中心空间特征和边界空间特征，具体为：

计算各帧视频图像的灰度图像的局部二值模式的中心空间特征和边界空间特征；

所述的计算各帧视频图像的边缘纹理图像的纹理空间分布特征，具体为：

计算各帧视频图像的边缘纹理图像的局部二值模式的纹理空间分布特征。

更佳地，所述的空间特征向量还包括颜色直方图特征，所述的对视频库的视频流中各帧视频图像分别提取空间特征向量，还包括以下步骤：

(14)计算各帧视频图像的颜色直方图特征。

较佳地，所述的在所述的视频特征序列的空间特征向量中提取关键特征向量，包括以下步骤：

(21)将所述的视频特征序列的第一个空间特征向量默认为关键特征向量；

(22)计算各个空间特征向量与前一关键特征向量的马氏距离；

(23)将大于***预设阈值的马氏距离所对应的空间特征向量提取为关键特征向量。

较佳地，所述的根据视频库中所有视频文件的关键特征向量建立所有视频文件的分布式存储索引库，包括以下步骤：

(31)建立所述的视频特征序列中关键特征向量的子空间投影直方图并记录各个关键特征向量在所对应视频中出现的频次；

(32)建立视频库的所有视频文件的倒排索引文件；

(33)建立视频库的所有视频文件的分布式索引数据库。

更佳地，所述的建立视频特征序列中关键特征向量的子空间投影直方图，具体为：

将视频特征序列中关键特征向量投影到灰度子空间、纹理子空间和颜色子空间中并获得各个关键特征向量的子空间投影直方图。

更进一步地，所述的记录各个关键特征向量在所对应视频中出现的频次，具体为：

记录各个关键特征向量所对应的子空间投影直方图中表示该关键特征向量在视频中出现频次的特征值。

更进一步地，所述的建立视频库的所有视频文件的倒排索引文件，包括以下步骤：

(321)统计视频库中各个视频文件所对应的关键特征向量集合并构成该视频库的统计关键特征向量库；

(322)建立所述的统计关键特征向量库中的各个关键特征向量对应的拥有该关键特征向量的文档集合；

(323)将关键特征向量集合的文档按照所含关键特征向量的数量从多到少进行排序；

(324)根据各个子空间建立视频库的所有视频文件的倒排索引文件。

再进一步地，所述的建立视频库的所有视频文件的分布式索引数据库，包括以下步骤：

(331)利用基于p-stable的局部敏感哈希算法将各个子空间的关键特征向量映射到一维空间；

(332)基于Hadoop分布式文件***架构采用name_node维护哈希表并采用data_node保存索引数据为所有视频文件的分布式索引数据库。

更佳地，所述的根据所述的待检索视频的视频索引文件在所述的分布式存储索引库中进行视频相似度检索，具体为：

(51)计算待检索视频子空间投影直方图和视频库中各个视频子空间投影直方图的交作为待检索视频和视频库中各个视频的相似度；

(52)根据待检索视频和视频库中各个视频的关键特征向量的时空结构一致性剔除不符合时空结构一致性要求的视频文件。

更进一步地，所述的输出相似度大于***预设值的视频检索结果，包括以下步骤：

(52)提取待检索视频的关键特征向量的各子空间投影直方图并将各个关键特征向量在各个子空间内映射为哈希值；

(53)通过所述的倒排索引文件选取分布式索引数据库中相似度符合***预设要求的视频文件作为输出；

(54)计算待检索视频和视频库中各个视频的关键特征向量的时空结构一致性并输出与所述的待检索视频的相似度大于***预设值的视频文件。

采用了该发明中的实现海量视频快速检索的方法，具有如下有益效果：

本发明主要针对构建视频索引信息的完整性和索引特征的选择问题，提出了一种基于视频指纹的子空间方法，解决当前面向海量数据的快速、鲁棒的检索问题。首先，本专利采用新颖的关键帧提取方法，用关键特征向量的提取代替关键帧提取，直接用代表性的视觉特征代替关键帧，相当于在特征空间对原始视频进行了编码，完整的表达了视频信息，既无大量冗余，又非常紧凑，并克服了当前关键帧提取参数选择问题。其次，把每一个视觉特征映射成一维哈希值，按照视觉特征的哈希值所在范围，选择合适的HDFS(HadoopDistributed File System，Hadoop分布式文件***)的name_node(名称节点)和data_node(数据节点)，即加快检索速度，又使之具有海量数据并发处理的能力，具有更广泛的应用范围。

附图说明

图1为本发明的实现海量视频快速检索的方法的流程图。

图2为本发明的实现海量视频快速检索的方法应用于具体实施例的流程图。

图3为本发明的将视频帧序列映射到视频特征序列的流程图。

图4为本发明的计算灰度空间分布特征的流程图。

图5为本发明的提取关键特征向量的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明公开了一种海量视频快速检索方法及***，其中该方法包括：把视频帧序列映射到空间特征向量组成的视频特征序列，提取其中具有代表性的特征作为视频特征序列的关键特征向量；通过哈希函数映射所述关键特征向量，根据映射得到的哈希值所在的哈希桶，构建分布式索引；根据待检索视频的关键特征向量集，计算各对应哈希值所在哈希桶编号，提取对应特征的视频索引文件，通过投票方式获取候选视频文件，计算待检索视频和候选视频文件的相似度，输出相似度大于一定阈值的作为检索结果。

如图1所示，本发明的实现海量视频快速检索的方法包括以下步骤：

在一种优选的实施方式中，所述的空间特征向量包括所对应帧图像的灰度空间分布特征和纹理空间分布特征，因此，所述的对视频库的视频流中各帧视频图像分别提取空间特征向量得到视频特征序列，包括以下步骤：

在一种优选的实施方式中，计算灰度图像和边缘纹理图像可以采用以下这种方式，即

所述的计算得到视频库的视频流中各帧视频图像的灰度图像和边缘纹理图像，包括以下步骤：

(12)计算各帧视频图像的灰度图像的中心空间特征和边界空间特征并得到由所述的中心空间特征和边界空间特征构成的该帧视频图像的灰度空间分布特征；其中中心空间特征和边界空间特征可以是基于局部二值模式的中心空间特征和边界空间特征。

(13)计算各帧视频图像的边缘纹理图像的纹理空间分布特征。

其中，纹理空间分布特征可以是基于局部二值模式的纹理空间分布特征。

在一种更优选的实施方式中，所述的空间特征向量还可以进一步包括颜色直方图特征，使得空间特征向量更能代表视频特征，即所述的对视频库的视频流中各帧视频图像分别提取空间特征向量，还包括以下步骤：

(14)计算各帧视频图像的颜色直方图特征。

在一种优选的实施方式中，提取关键特征向量包括以下步骤：

(22)计算各个空间特征向量与前一关键特征向量的马氏距离；

在一种优选的实施方式中，建立分布式存储索引库包括以下步骤：

更进一步地，子空间可以是灰度子空间和纹理子空间，还可以包括颜色子空间，因此所述的建立视频特征序列中关键特征向量的子空间投影直方图，具体为：

将视频特征序列中关键特征向量投影到灰度子空间、纹理子空间和颜色子空间中

并获得各个关键特征向量的子空间投影直方图。

(32)建立视频库的所有视频文件的倒排索引文件；

(33)建立视频库的所有视频文件的分布式索引数据库。

更进一步地，所述的建立视频库的所有视频文件的分布式索引数据库，包括以下步骤：

(4)提取待检索视频的关键特征向量集并提取该待检索视频的视频索引文件；在具体实施应用中，此处提取待检索视频的关键特征向量可以采用如步骤(1)和(2)中的关键特征向量提取方法。

在一种优选的实施方式中，所述的根据所述的待检索视频的视频索引文件在所述的分布式存储索引库中进行视频相似度检索，具体为：

在一种优选的实施方式中，所述的输出相似度大于***预设值的视频检索结果，包括以下步骤：

下面以一个具体实施例来进一步阐述本发明的实现海量视频快速检索的方法，如图2所示，在具体应用中，该方法包括以下步骤：

(1)视频空间特征编码，即将视频帧序列映射到视频特征序列；如图3所示，具体包括以下子步骤：

(11)从视频流读取一帧视频图像，把图像划分成MxN个同样大小的子图像，计算各子图像灰度值和纹理边缘点数目；

(12)计算灰度图像两种类型的LBP(Local binary pattern，局部二值模式)空间特征v_gray，如图4所示中心特征(f)和边界特征(g)，由中心特征和边界特征共同构成8位的视频帧的空间分布特征，见图4中的(h)；

(13)同上，计算边缘纹理图像的LBP空间分布特征v_texture，简单起见，可统计图像块内部边缘的个数作为纹理复杂度的度量值，其计算结果同上为一8位空间纹理分布特征；

(14)结合v_gray和v_texture特征，构造多元帧特征v＝(v_gray,v_texture)，我们把一个帧特征v称为一个帧视觉单词(visual word)；

(15)除计算图形的灰度和纹理LBP空间特征外，还可以添加其他帧特征，比如8或16bins的颜色直方图v_color_his_16，此时v＝(v_gray,v_texture,v_color_his_16)；该帧特征构成方式可以克服单个特征子空间不能很好表达视频帧的缺陷。

本专利不考虑时间特征，因为检索视频的时间特征受低帧率或缺帧等其他干扰因素的影响具有很大的不确定性，根据时间序列构造的帧的时空特征很有可能是错误的。而是在相似检索过程中验证时间顺序的一致性。

(2)视频关键特征提取，即提取其中具有代表性的特征作为视频特征序列的关键特征向量；如图5所示，具体包括以下子步骤：

(21)将视频特征序列的第一个空间特征向量作为默认关键特征向量；

(22)提取当前第n帧的空间特征向量v(n)，如果当前特征v(n)与前一关键特征向量(v(m),m)的马氏距离大于阈值thrsh，考虑到噪声因素，本文1<＝thrsh<＝2，则当前帧为关键特征向量，记为(v(n),n)。

两个不同的特征向量v1和v2表达了不同的视频内容。用具有代表性的关键特征向量key vecotor代替传统的关键帧向量，不但省去了关键帧提取这一步骤，而用源生特征来表达视频内容更加直接、准确。解决了视频索引信息的完整性和索引特征的选择问题。

我们把关键特征向量(key vector)，称为视觉单词(visual word)，visual word的集合称为视觉词汇表(visual vocabulary)。单个视频文件的特征向量集的直方图称为特征直方图(vector histogram或者visual word histogram)。为了使key vector具有丰富的表达能力和抽象概括能力，key vector由不同但独立的sub vector构成空间灰度分布特征Gray-LBP vector，空间纹理分布特征Texture-LBP vector和color vector组成，可简单表示为key vector＝{Gray-LBP,Texture-LBP,Color}。由不同的抽象特征概念空间共同构成乘性描述空间实现了key vector丰富的表达能力和抽象概括能力。

本专利与其他关键帧提取不同之处在于，本发明是直接在视频流中提取关键特征，而不是传统意义上的关键帧提取。

传统关键帧提取是利用关键帧提取算法提取关键帧，然后利用提取的关键帧再提取检索特征，提取关键帧所用的方法和提取关键帧后计算的检索特征并不完全等同，有时候差异很大，这样会导致描述不准确；这也是传统检索特征准确性不够高的原因之一。

(3)视频帧序列到视频视觉单词直方图的映射，具体包括以下子步骤：

(31)由于视觉单词可能具有很高的维度，比如(f_gray,f_texture,f_color_his_16)的维数(8,8,16)共32维，其内存需求近1GB，我们把32维空间分别再重投到f_gray8位子空间，f_texture8位子空间，f_color_his_16位子空间中，分别统计他们在子空间的直方图，其内存需求显著降低，不足70MB，单个视频文件的直方图大小几乎不超过10MB；

(32)子空间投影直方图的bin(某个子空间特征，比如8位LBP特征)的数值代表该特征在视频中出现的频次，为了保持同一个bin内部该特征在时间的分布，采用如下方式记录bin内容：

bin：(该特征出现的频率为n1+n2+…+nk的和，帧号T1，连续出现次数n1，T2,n2,…,Tk,nk)。

(4)建立视频文件倒排索引文件，具体包括以下几个子步骤：

(41)统计视频库中每一个视频对应的视觉单词集合，构成视频库的统计视觉词库VwSet。根据

Vw_i(在视觉词库中第i个视觉单词)建立拥有该视觉单词的文档集合{vf1,vf2,vf3,…,vfni}，ni为文档集合大小；

(42)视觉单词文档集合的文档按所含视觉单词的多少从大到小排序；

(43)由于高维视觉单词投影到低维特征子空间，根据各子空间建立倒排索引文件。

(5)建立分布式存储索引库，具体包括以下步骤：

(51)利用基于p-stable的局部敏感哈希算法(LSH)把子空间特征f_v，(比如f_colo_his_16)映射到一维空间[0-Range)；

(52)采用hadoop的HDFS文件***架构，用name_node维护LSH表，用data_node保存索引数据。

(6)视频相似度计算，具体包括以下步骤：

检索视频Vq子空间直方图为{Bin_q_1,Bin_q_2,…,Bin_q_M}，M为特征子空间大小，视频库视频Vi直方图为{Bin_i_1,Bin_i_2,…,Bin_i_M}，Bin_id_n中，id为视频唯一编号，n为直方图bin的序号，

Bin_id_n为该特征出现的次数；

(61)视频相似度为直方图的交，

(62)如果相似度大于阈值thrsh_sim，比较视觉单词的时间序列关系。直方图时间序列信息在步骤(32)已做记录，其算法如下：

按照检索视频视觉单词在时间的出现的顺序表示视频，比如{(Vq_vw1,Bin_k1),(Vq_vw2,Bin_k2),…,

(Vq_vwl,Bin_kl))},其中vw1为在时间上第一个出现的视觉单词，vw2是随后出现的，Bin_k1表示该视觉单词所在直方图Bin的序号为k1,kl直方图bin的总数目；

(63)如果检索视频中的视觉单词Vq_vw(x)出现的时间早于Vq_vw(y),x<y,则匹配的视频直方图对应的序号为Bin_kx的Bin所包含的相同视觉单词的所有序列号中，至少有一个小于Bin_ky对应的其中的一个序号；我们认为检索视觉单词出现的先后顺序应该和相似视频中同样的视觉单词出现的先后顺序一致，即相应的时空结构具有一致性，通过时间顺序可取去除大量疑似相似视频。

(7)对视频进行检索，具体采用以下方式：

提取检索视频视觉单词直方图，把视觉单词特征在各个子空间映射为哈希值，确定访问哈希桶所在的name_node和data_nodes，通过倒排索引视频文件，选取最为相似的前20％作为输出，然后计算时空结构的一致性，按相似度大小输出相似度大于0.7的所有被检索到的视频文件。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种实现海量视频快速检索的方法，其特征在于，所述的方法包括以下步骤：

(5)根据所述的待检索视频的视频索引文件在所述的分布式存储索引库中进行视频相似度检索并输出相似度大于***预设值的视频检索结果；

所述的空间特征向量包括所对应帧图像的灰度空间分布特征和纹理空间分布特征，所述的对视频库的视频流中各帧视频图像分别提取空间特征向量，包括以下步骤：

(13)计算各帧视频图像的边缘纹理图像的纹理空间分布特征。

2.根据权利要求1所述的实现海量视频快速检索的方法，其特征在于，所述的计算得到视频库的视频流中各帧视频图像的灰度图像和边缘纹理图像，包括以下步骤：

3.根据权利要求1所述的实现海量视频快速检索的方法，其特征在于，所述的计算各帧视频图像的灰度图像的中心空间特征和边界空间特征，具体为：

4.根据权利要求1所述的实现海量视频快速检索的方法，其特征在于，所述的空间特征向量还包括颜色直方图特征，所述的对视频库的视频流中各帧视频图像分别提取空间特征向量，还包括以下步骤：

(14)计算各帧视频图像的颜色直方图特征。

5.根据权利要求1所述的实现海量视频快速检索的方法，其特征在于，所述的在所述的视频特征序列的空间特征向量中提取关键特征向量，包括以下步骤：

(22)计算各个空间特征向量与前一关键特征向量的马氏距离；

6.根据权利要求1所述的实现海量视频快速检索的方法，其特征在于，所述的根据视频库中所有视频文件的关键特征向量建立所有视频文件的分布式存储索引库，包括以下步骤：

(32)建立视频库的所有视频文件的倒排索引文件；

(33)建立视频库的所有视频文件的分布式索引数据库。

7.根据权利要求6所述的实现海量视频快速检索的方法，其特征在于，所述的建立视频特征序列中关键特征向量的子空间投影直方图，具体为：

8.根据权利要求7所述的实现海量视频快速检索的方法，其特征在于，所述的记录各个关键特征向量在所对应视频中出现的频次，具体为：

9.根据权利要求7所述的实现海量视频快速检索的方法，其特征在于，所述的建立视频库的所有视频文件的倒排索引文件，包括以下步骤：

10.根据权利要求9所述的实现海量视频快速检索的方法，其特征在于，所述的建立视频库的所有视频文件的分布式索引数据库，包括以下步骤：

11.根据权利要求6所述的实现海量视频快速检索的方法，其特征在于，所述的根据所述的待检索视频的视频索引文件在所述的分布式存储索引库中进行视频相似度检索，具体为：

12.根据权利要求11所述的实现海量视频快速检索的方法，其特征在于，所述的输出相似度大于***预设值的视频检索结果，包括以下步骤：