CN103617233A

CN103617233A - 一种基于语义内容多层表示的重复视频检测方法与装置

Info

Publication number: CN103617233A
Application number: CN201310611187.4A
Authority: CN
Inventors: 刘大伟; 徐伟
Original assignee: Yantai Zhong Ke Network Technical Institute
Current assignee: Yantai Zhong Ke Network Technical Institute
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2014-03-05
Anticipated expiration: 2033-11-26
Also published as: CN103617233B

Abstract

本发明涉及一种基于语义内容多层表示的重复视频检测方法，包括以下步骤：根据索引视频的信息建立特征数据库；将待查询的查询视频进行镜头检测；对每个查询视频片段提取关键帧；对每个查询关键帧利用特征提取算法进行处理；将每个查询高维特征向量分别进行哈希处理；将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，在特征数据库中检索特征标签；对检索得到的每组相似特征标签进行特征过滤；对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。本发明能够避免造成性能瓶颈的高维特征向量的距离计算，在保证检测准确率的同时，有效的提高重复视频检测的处理速度。

Description

一种基于语义内容多层表示的重复视频检测方法与装置

技术领域

本发明涉及一种视频检测方法，特别涉及一种基于语义内容多层表示的重复视频检测方法及装置。

背景技术

随着网络数字视频应用的迅速发展,为了保护和管理视频内容,大规模重复视频检测成为研究关注的问题。重复视频检测方法主要分为两大类:数字水印和基于内容的重复检测。数字水印方法将隐藏的数据信息(即水印)嵌入到图像和视频中进行检测。而基于内容的方法釆用视频内容分析算法,生成视频签名或者关键帧特征进行检索,具有较高的处理效率和准确性。大多数研究关注基于内容的重复视频检索。

现有方法的通用处理过程可以分为如下三个步骤:

首先,视频通过镜头分割算法生成视频片段,每个视频片段提取一或多个关键帧;

然后,对每一个视频关键帧采用特征提取算法生成一组高维特征向量;

最后,用特征向量的时间和空间匹配算法定义视频的相似度用来进行检测。

首先是镜头分割和关键帧提取算法。镜头分割又称为镜头边缘检测(Shot Boundary Detection)。镜头是摄像机从开始到停止两个操作之间的一系列视频帧序列,现有的镜头分割算法一般分为两类:第一类是基于阈值的方法当两帧之间的相似度低于预先定义的阈值时,即判定为边缘。阈值可以是全局的,自适应的或者全局自适应结合的。第二类是基于统计学习的方法,其中包括督学习和非监督学习两类方法,监督学习分类的算法比如SVM,Adaboost和其他模型的方法,非监督学习的算法主要是聚类算法,比如K-means,fuzzy K-means。关键帧提取算法从用一个镜头中提取出最能代表镜头内容的帧作为关键帧,关注的特征包括颜色,边缘，形状,MPEG-7动作描述符等。主要包括两大类:帧序列比较的方法和全局比较的方法。

在经过镜头分割和关键帧提取的预处理之后,索引和检索的基本对象是关键帧的特征表示,即图像的特征表示,可以分为两类:全局特征和局部特征,分别对应于不同的视频内容表示算法和相似性度量的选取。Yeh等人提出一种全局的关键帧级别的16维分区描述符和一种对应的序列匹配算法。Chiu等人整合了全局和局部特征描述符并采用min-hashing和时空匹配来检测重复视频。Shang等人提出一种二进制全局时空特征并使用基于倒排文件的方法进行索引和快速检测。Pan等人提出一种釆用DCT分析的时空联合特征,并基于该特征设计了视频拷贝检测框架。Wu等人进一步考虑局部关键点的运动,抽象出一种轨迹行为特征,并釆用马尔可夫链模型进行表示和匹配。Liu等人提出了一种结合局部SIFT特征和局部敏感哈希(LSH)算法以及随机抽样一致性(RANSAC)算法的重复视频检测框架。Avrithis等人将局部特征表示成视觉单词并利用类似RANSAC匹配算法进行检测。

SURF是近年来提出的用于表示数字图像的基于近似Hessian的检测器，已经被实验证明在计算效率方面优于其他局部特征表示方法，如SIFT，PCA-SIFT等。本发明利用SURF的特征对索引进行相应优化：利用特征向量计算的中间结果Laplacian的符号，即Hessian矩阵迹来划分哈希索引生成的桶空间，并且利用兴趣点的位置来进行特征向量的过滤。

局部敏感哈希LSH算法是一种在高维空间进行近似最近邻查找的有效算法。LSH哈希函数族具有如下性质：距离相近的对象相比距离较远的对象有较高的概率碰撞。不同的LSH函数族对应不同的距离度量。

基于局部特征的方法相比基于全局特征的方法具有更好的鲁棒性,特别是应对颜色调整,裁剪,添加字幕,转码等经过变换的视频,但同时要付出更高的计算代价。

基于局部特征的方法，在基本的LSH算法的检索过程中，一个查询点经过哈希到几个不同的哈希表的对应桶中，然后计算桶内所有点与查询点的距离取出距离最近的若干特征向量作为检索结果。我们认为，检索过程中的高维特征向量（比如：64维SURF描述符）的欧式距离计算需要消耗大量时间作为代价，是现有基于LSH算法的性能瓶颈所在。由于网络的应用场景对实时性要求较高，同时，基于多层内容分析的重复视频检测需要处理海量的高维特征向量，所以，处理速度比“局部准确性”更重要。另外，相比于仅使用一个整合的高维向量来描述一个关键帧的基于全局特征的算法，基于局部特征的算法将每一个关键帧表示为几百个高维向量。因此，如何有效的过滤削减特征向量备选集和降低计算负载是关注的重点问题。

发明内容

本发明所要解决的技术问题是提供一种通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索、通过参数学***均特征向量数的基于语义内容多层表示的重复视频检测方法及装置。

本发明解决上述技术问题的技术方案如下：一种基于语义内容多层表示的重复视频检测方法，包括以下步骤：

步骤1：根据索引视频的信息建立特征数据库；

步骤2：将待查询的查询视频进行镜头检测，得到多个查询视频片段；所述查询视频设置有查询视频标识，每个查询视频片段分别设置有查询视频片段标识；

步骤3：对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；

步骤4：对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；

步骤5：将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；

步骤6：将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；

步骤7：根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；

步骤8：根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。

本发明的有益效果是：本发明对基于语义内容多层表示的重复视频检测进行研究，采用SURF描述符作为局部特征，设计一种新的基于LSH的索引结构，该索引结合了SURF描述符的内在特征，通过参数学习和自适应设置来减少检索时的计算消耗，同时保持了检索的可扩展性和鲁棒性。对检索得到的特征向量集合采用一种简单有效的过滤算法和两层匹配算法，进一步削减备选特征向量集合的数量并生成整个视频的相关分数，通过设置相关分数阈值进行重复视频检测；

该算法通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索，通过参数学***均特征向量数，从而避免了造成性能瓶颈的高维特征向量的距离计算，然后，经过特征过滤和两层匹配完成特征向量到关键帧和视频的多层匹配，得到相关分数作为检测结果，该算法能够在保证检测准确率的同时，有效的提高重复视频检测的处理速度，优于目前基于局部敏感哈希LSH的其他算法。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1具体包括以下步骤：

步骤1.1：将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；

步骤1.2：对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；

步骤1.3：对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；

步骤1.4：将每个高维特征向量分别进行哈希处理，得到一组特征标签；

步骤1.5：将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。

进一步，所述步骤5具体包括以下步骤：

步骤5.1：将每个查询高维特征向量利用如下符号函数表示：

其中，p为64维高维特征向量，Hessian矩阵为特征提取算法提取的中间结果；

步骤5.2：每个查询高维特征向量的哈希函数表示如下：

其中a为从一个2至稳定分布中独立选取的64维随机向量，b为一个从均匀分布[0,W]选取的实数，参数W随机选取4或者8中的一个作为最优值；

步骤5.3：将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶：

g_j(p)，j=1,...,L

每个桶的标签为一个k维向量，对应k个随机选取的哈希函数：

g_j(p)=(|h_1,j(p)|,...,|h_k,j(p)|)

步骤5.4：从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量，m对查询高维特征向量间平均碰撞的概率为：

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

步骤5.5：根据参数W，k，每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识；

步骤5.6：将每个查询高维特征向量经过L次关联，每个查询高维特征向量共生成L个k维的查询高维特征标识，分别用L个表存入特征数据库。

进一步，所述步骤7具体包括以下步骤：

步骤7.1：在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；

步骤7.2：将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；

步骤7.3：根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；

步骤7.4将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。

进一步，所述步骤8具体包括以下步骤：

步骤8.1：根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧：匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧；

步骤8.2：对于查询视频片段标识的每个关键帧

与匹配关键帧

的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

其中，N_m是与该匹配关键帧在一个桶内对应的特征向量个数，w_i,j是对应桶的权值，具体为w_i,j=1/N_bucket；

步骤8.3：查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}

其中，N_frame是查询视频提取的查询关键帧总数，如果一个索引视频与查询视频的相关分数score_c超过预定阈值S_t，则被作为一个重复视频。

进一步，一种基于语义内容多层表示的重复视频检测装置，包括建立模块，镜头检测模块，关键帧提取模块，特征提取模块，哈希处理模块，关联模块，特征过滤模块和相似度匹配模块；

所述建立模块，用于根据索引视频的信息建立特征数据库；

所述镜头检测模块，用于将待查询的查询视频进行镜头检测，得到多个查询视频片段，每个查询视频片段分别设置有查询视频片段标识，所述查询视频设置有查询视频标识；

所述关键帧提取模块，用于对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；

所述特征提取模块，用于对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；

所述哈希处理模块，用于将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；

所述关联模块，用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；

所述特征过滤模块，用于根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；

所述相似度匹配模块，用于根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。

进一步，所述建立模块进一步包括检测子模块，关键帧提取子模块，特征提取子模块，哈希子模块和关联子模块；

所述检测子模块，用于将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；

所述关键帧提取子模块，用于对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；

所述特征提取子模块，用于该对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；

所述哈希子模块，用于将每个高维特征向量分别进行哈希处理，得到一组特征标签；

所述关联子模块，用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。

进一步，所述哈希处理模块进一步包括高维向量子模块，哈希函数子模块，映射子模块，抽取子模块，多次哈希子模块和多次关联子模块；

所述高维向量子模块，用于将每个查询高维特征向量利用如下符号函数表示：

所述哈希函数子模块，用于每个查询高维特征向量的哈希函数表示如下：

所述映射子模块，用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶：

g_j(p)，j=1,...,L

g_j(p)=(|h_1,j(p)|,...,|h_k,j(p)|)

所述抽取子模块，用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量，m对查询高维特征向量间平均碰撞的概率为：

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

所述多次哈希子模块，用于根据参数W，k，每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识；

所述多次关联子模块，用于将每个查询高维特征向量经过L次关联，每个查询高维特征向量共生成L个k维的查询高维特征标识，分别用L个表存入特征数据库。

进一步，所述特征过滤模块进一步包括中间存储子模块，计算距离子模块，分类统计子模块和去除子模块；

所述中间存储子模块，用于在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；

所述计算距离子模块，用于将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；

所述分类统计子模块，用于根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；

所述去除子模块，用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。

进一步，所述相似度匹配模块进一步包括遍历子模块，相似度子模块和相关子模块；

所述遍历子模块，用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧：匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧；

所述相似度子模块，用于对于查询视频片段标识的每个关键帧与匹配关键帧的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

所述相关子模块，用于查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}

附图说明

图1为本发明方法步骤流程图；

图2为本发明装置结构图。

附图中，各标号所代表的部件列表如下：

1、建立模块，1-1、检测子模块，1-2、关键帧提取子模块，1-3、特征提取子模块，1-4、哈希子模块，1-5、关联子模块，2、镜头检测模块，3、关键帧提取模块，4、特征提取模块，5、哈希处理模块，5-1、高维向量子模块，5-2、哈希函数子模块，5-3、映射子模块，5-4、抽取子模块，5-5、多次哈希子模块，5-6、多次关联子模块，6、关联模块，7、特征过滤模块，7-1、中间存储子模块，7-2、计算距离子模块，7-3、分类统计子模块，7-4、去除子模块，8、相似度匹配模块，8-1、遍历子模块，8-2、相似度子模块，8-3、相关子模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明方法步骤流程图，图2为本发明装置结构图。

实施例1

一种基于语义内容多层表示的重复视频检测方法，包括以下步骤：

步骤1：根据索引视频的信息建立特征数据库；

所述步骤1具体包括以下步骤：

所述步骤5具体包括以下步骤：

步骤5.1：将每个查询高维特征向量利用如下符号函数表示：

步骤5.2：每个查询高维特征向量的哈希函数表示如下：

其中a为从一个2至稳定分布（对应欧式距离为高斯分布）中独立选取的64维随机向量，b为一个从均匀分布[0,W]选取的实数，参数W随机选取4或者8中的一个作为最优值；

g_j(p)，j=1,...,L

g_j(p)=(|h_1,j(p)|...,|h_k,j(p)|)

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

所述步骤7具体包括以下步骤：

所述步骤8具体包括以下步骤：

步骤8.2：对于查询视频片段标识的每个关键帧

与匹配关键帧

的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

步骤8.3：查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}

一种基于语义内容多层表示的重复视频检测装置，包括建立模块1，镜头检测模块2，关键帧提取模块3，特征提取模块4，哈希处理模块5，关联模块6，特征过滤模块7和相似度匹配模块8；

所述建立模块1，用于根据索引视频的信息建立特征数据库；

所述镜头检测模块2，用于将待查询的查询视频进行镜头检测，得到多个查询视频片段，每个查询视频片段分别设置有查询视频片段标识，所述查询视频设置有查询视频标识；

所述关键帧提取模块3，用于对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；

所述特征提取模块4，用于对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；

所述哈希处理模块5，用于将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；

所述关联模块6，用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；

所述特征过滤模块7，用于根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；

所述相似度匹配模块8，用于根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。

所述建立模块1进一步包括检测子模块1-1，关键帧提取子模块1-2，特征提取子模块1-3，哈希子模块1-4和关联子模块1-5；

所述检测子模块1-1，用于将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；

所述关键帧提取子模块1-2，用于对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；

所述特征提取子模块1-3，用于该对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；

所述哈希子模块1-4，用于将每个高维特征向量分别进行哈希处理，得到一组特征标签；

所述关联子模块1-5，用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。

所述哈希处理模块5进一步包括高维向量子模块5-1，哈希函数子模块5-2，映射子模块5-3，抽取子模块5-4，多次哈希子模块5-5和多次关联子模块5-6；

所述高维向量子模块5-1，用于将每个查询高维特征向量利用如下符号函数表示：

所述哈希函数子模块5-2，用于每个查询高维特征向量的哈希函数表示如下：

所述映射子模块5-3，用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶：

g_j(p)，j=1,...,L

g_j(p)=(|h_1,j(p)|,...,|h_k,j(p)|)

所述抽取子模块5-4，用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量，m对查询高维特征向量间平均碰撞的概率为：

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

所述多次哈希子模块5-5，用于根据参数W，k，每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识；

所述多次关联子模块5-6，用于将每个查询高维特征向量经过L次关联，每个查询高维特征向量共生成L个k维的查询高维特征标识，分别用L个表存入特征数据库。

所述特征过滤模块7进一步包括中间存储子模块7-1，计算距离子模块7-2，分类统计子模块7-3和去除子模块7-4；

所述中间存储子模块7-1，用于在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；

所述计算距离子模块7-2，用于将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；

所述分类统计子模块7-3，用于根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；

所述去除子模块7-4，用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。

所述相似度匹配模块8进一步包括遍历子模块8-1，相似度子模块8-2和相关子模块8-3；

所述遍历子模块8-1，用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧：匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧；

所述相似度子模块8-2，用于对于查询视频片段标识的每个关键帧

与匹配关键帧

的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

所述相关子模块8-3，用于查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}

在具体实施中，利用SURF描述符的性质为每一个索引特征向量p设计一个符号函数如下：

将该符号函数与原始LSH哈希函数结合得到ADLSH的哈希函数表示如下：

其中p是一个64维SURF特征向量。a为从一个2-稳定分布（对应欧式距离为高斯分布）中独立选取的64维随机向量，b为一个从均匀分布[0,W]选取的实数。每个哈希函数h_a,b(p)将一个64维的向量p映射为一个有符号的实数。为了构建索引结构，每个点p被映射到L个哈希表的L个桶：g_j(p)，j=1,...,L。每个桶的标签为一个k维向量，对应的k个随机选取的哈希函数：g_j(p)=(|h_1,j(p)|,...,|h_k,j(p)|)。在具体的实现中，我们使用哈希函数的绝对值|h_a,b(p)|来表示桶标签并将每个桶根据p的符号函数***为两个桶。这样，ADLSH算法生成的桶个数是原始LSH算法的大约2倍，相应的，哈希到每个桶内的向量个数平均减少为一半。

基于LSH的算法在实际应用中的一个重要问题是几个参数W,k,L的选取。现有的大部分算法都是在实验中设定，无法有效应对实际应用的需求。本发明的目标是在保证局部敏感性质的前提下，根据实际数据的具体情况，削减哈希到每个桶中的向量个数，达到可以取消桶内高维向量距离计算的效果。即对于一个查询向量q，我们取其哈希到的所有桶g₁(q),...,g_L(q)内的所有向量q作为备选向量集。尽可能减少备选向量集的数量同时保证向量q的任一欧式距离在R之内的邻居点v(||q-v||₂≤R）包含于备选向量集中。以下分析ADLSH算法中各个参数的相关约束关系，并提出一种自适应的参数学习设定的方法。

ADLSH算法可以以概率1-δ解决R近邻搜索的问题，δ为失败概率（在本发明的实现中我们取0.1%）。对于两个向量p₁,p₂，令其距离为c=||p₁-p₂||₂，则这两个向量经过一个哈希函数映射碰撞的概率为：

\begin{matrix} p (c) = \Pr_{a, b} [h_{a, b} (p_{1}) = h_{a, b} (p_{2})] = {&Integral;}_{0}^{w} \frac{1}{c} f_{2} (\frac{t}{c}) (1 - \frac{t}{W}) dt \\ = 1 - 2 Φ (- \frac{W}{c}) - \frac{2}{\sqrt{2 π} W / c} (1 - e^{- (W^{2} / 2 c^{2})}) \end{matrix} - - - (2)

其中f₂(t)为高斯分布正值部分的概率密度函数：

f_{2} (t) = \{\begin{matrix} \frac{2}{\sqrt{2 π}} e^{- t^{2} / 2} & ift &GreaterEqual; 0 \\ 0 & ift < 0 \end{matrix}

在R近邻查找问题中（不失一般性，我们假定R=1，任何数据集向量间的距离可以用适当的比率缩放或者扩展到这个假定的区域内，而不影响数据向量间的距离对应关系），为了检索到所有欧式距离c在R之内，即c<1的向量，必须满足以下条件：

p (c) &GreaterEqual; p (1) = 1 - 2 Φ (- W) - \frac{2}{\sqrt{2 π} W} (1 - e^{- (W^{2} / 2)}) - - - (3)

以上为单个哈希函数的概率条件，对于一个k维向量的桶标签，碰撞概率为：

\Pr_{g} [g (q) = g (p)] = Π_{i = 1}^{k} p_{i} (c) &GreaterEqual; p {(1)}^{k} - - - (4)

对于L个哈希表，一个查询向量q找到距离在1之内的近邻的概率为：

Pr_NN[||q-p||₂≤1]=1-(1-p(1)^k)^L≥1-δ (5)

对于固定的p(c)，参数W的最优值是c的函数，减小W会减小任意两个向量的碰撞概率p(c)。同样，增加k或者减小L会降低找到近邻的概率。通过进一步分析多个参数间的关系，设计了如下三个步骤来完成自适应参数设定：

1）W

经试验得出，对于一个实际应用中可行的L值（一般小于10³），最优的W值（一般取2的幂）不可以太小。在局部敏感哈希的性质保证下，所有的碰撞概率p(c)随距离c单调递减，为了使Ep(c)（下文中定义）有更显著的变化，最优的W值不可以太大。基于以上观察和分析，我们选取4或者8作为W的最优值。值得注意的是，W值的选取与实际数据集无关，不需要根据实际数据学习或者修正。

2）样本学习和估计

将算法应用到实际数据时，从索引视频提取的总数为n的SURF特征向量中随机抽取m对向量作为样本。估计该数据集合中向量之间距离的分布情况，用公式（6）表示估计的向量间平均碰撞概率：

ep(c)=p(c_e)，其中

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2} - - - (6)

注意Ep(c)中的c会随着数据集的变化而不同，并非满足c<1。我们用公式(7）估计每个桶中的向量个数：

N_bucket=Σ_np(c_e)^k≈n·Ep(c)^k (7)

3）k和L

我们的目标是尽可能减少一个查询向量哈希到的L个桶内所有向量的总个数N_bucket·L。用一个比率Ratio来根据具体应用要求设定个数的范围。对于一个总向量数为n的数据集，每个查询向量平均检索到的向量数不大于Raito·n（本发明中采用Ratio为0.1%）。则有如下约束式：

N_bucket·L=n·L·Ep(c)^k≤Raito·n （8）

根据式（5），可以将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})}

注意L(k)中的碰撞概率采用的是标准化后的p(1)，而非p(c)。根据式（3），对于固定的W值，p(1)为定值。在实际应用中，根据数据集的不同，通过步骤2）会得到不同的Ep(c)，Raito为预先设定的值，根据Raito确定一个最优的k值，进而确定最优的L(k)。

●特征过滤

经过ADLSH哈希算法的桶***和三步骤的自适应参数设定，对于每个查询特征向量，检索的过程中不需要经过桶内的高维距离计算就可以得到一个可预计平均数量的备选特征向量集合。由于基于欧式距离的SURF特征匹配并不能有效的应对视频关键帧图像的变换或者噪声。类似研究中一般采用一些空间的检验和过滤算法，比如RANSAC。本发明中，由于得到的备选向量集合相比其他研究已经大幅削减了数量，我们采用简单的基于距离的过滤方法去除一些明显错误的匹配特征向量。对于检索到的每对向量，我们利用SURF特征提取过程中的中间结果即特征点的位置信息，计算二维空间里的相对距离。得到两个对应关键帧图像里所有的特征点相对距离的平均值和标准差。将其中的超过均值远大于标准差的特征对作为噪声点去除。

本发明的ADLSH和特征过滤方法可以得到数量更少，匹配更准确的特征对。

●两层匹配方法

经过ADLSH和特征过滤得到的SURF特征向量，将进一步采用一个两层匹配方法得到对应视频的相关分数。在索引和检索的过程中，每个查询视频的SURF特征向量对应的匹配特征向量和不同哈希表的同一个桶中特征点的个数都将被记录。我们根据关键帧的标识将得到的每个匹配SURF特征向量进行再一次哈希，经过一个线性遍历查找到对应一个查询关键帧的匹配关键帧：匹配特征向量数超过一个预先设定的阈值的关键帧被视为匹配关键帧（大约每个关键帧生成100个SURF特征向量，我们选取阈值为60）。这样我们得到了关键帧级别的检测结果。为了得到视频级别的检测结果，对于查询视频的每个关键帧

与匹配关键帧

的相似度定义如下：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m} - - - (9)

其中N_d是查询视频的关键帧中提取的特征向量总数。N_m是与该匹配关键帧在一个桶内对应的特征向量个数。w_i,j是对应桶的权值，用来去除桶内向量数不同的影响，即降低向量数过大的桶对于相似度的影响，实际中可以简单的设定为：w_i,j=1/N_bucket。根据以上的结果，查询视频v_q与索引视频v_c间的相关分数定义如下：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}} - - - (10)

其中N_frame是查询视频提取的关键帧总数。如果一个索引视频与查询视频的相关分数score_c超过一个阈值S_t则被作为一个重复视频。实际应用中阈值S_t依赖于数据集并且需要在召回率和准确率之间折中进行设定。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义内容多层表示的重复视频检测方法，其特征在于，包括以下步骤：

步骤1：根据索引视频的信息建立特征数据库；

2.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求1或2所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.1：将每个查询高维特征向量利用如下符号函数表示：

步骤5.2：每个查询高维特征向量的哈希函数表示如下：

g_j(p)，j=1,...,L

g_j(p)=（|h_1,j(p)|,...,|h_k,j(p）|)

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

4.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤7具体包括以下步骤：

5.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤8具体包括以下步骤：

步骤8.2：对于查询视频片段标识的每个关键帧

与匹配关键帧

的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

步骤8.3：查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{Σ_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}

6.一种基于语义内容多层表示的重复视频检测装置，其特征在于：包括建立模块（1），镜头检测模块（2），关键帧提取模块（3），特征提取模块（4），哈希处理模块（5），关联模块（6），特征过滤模块（7）和相似度匹配模块（8）；

所述建立模块（1），用于根据索引视频的信息建立特征数据库；

所述镜头检测模块（2），用于将待查询的查询视频进行镜头检测，得到多个查询视频片段，每个查询视频片段分别设置有查询视频片段标识，所述查询视频设置有查询视频标识；

所述关键帧提取模块（3），用于对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；

所述特征提取模块（4），用于对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；

所述哈希处理模块（5），用于将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；

所述关联模块（6），用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；

所述特征过滤模块（7），用于根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；

所述相似度匹配模块（8），用于根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。

7.根据权利要求6所述的基于语义内容多层表示的重复视频检测方法，其特征在于：所述建立模块（1）进一步包括检测子模块（1-1），关键帧提取子模块（1-2），特征提取子模块（1-3），哈希子模块（1-4）和关联子模块（1-5）；

所述检测子模块（1-1），用于将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；

所述关键帧提取子模块（1-2），用于对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；

所述特征提取子模块（1-3），用于该对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；

所述哈希子模块（1-4），用于将每个高维特征向量分别进行哈希处理，得到一组特征标签；

所述关联子模块（1-5），用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。

8.根据权利要求6或7所述的基于语义内容多层表示的重复视频检测装置，其特征在于：所述哈希处理模块（5）进一步包括高维向量子模块（5-1），哈希函数子模块（5-2），映射子模块（5-3），抽取子模块（5-4），多次哈希子模块（5-5）和多次关联子模块（5-6）；

所述高维向量子模块（5-1），用于将每个查询高维特征向量利用如下符号函数表示：

所述哈希函数子模块（5-2），用于每个查询高维特征向量的哈希函数表示如下：

所述映射子模块（5-3），用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶：

g_j(p)，j=1,...,L

g_j(p)=(|h_1,j(p)|,...,|h_k,j(p)|)

所述抽取子模块（5-4），用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量，m对查询高维特征向量间平均碰撞的概率为：

Ep(c)=p(c_e)，

c_{e} = \frac{1}{m} Σ_{m} {| | p_{i} - p_{j} | |}_{2}

每个桶中的查询高维特征向量个数为：

N_bucket=∑_np(c_e)^k≈n·Ep(c)^k

其中，N_bucket·L=n·L·Ep(c)^k≤Raito·n，Ratio为0.1%；

将L表示为k的函数：

L (k) = \frac{\log δ}{\log (1 - p {(1)}^{k})},

求解得到唯一的k和L最优值；

所述多次哈希子模块（5-5），用于根据参数W，k，每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识；

所述多次关联子模块（5-6），用于将每个查询高维特征向量经过L次关联，每个查询高维特征向量共生成L个k维的查询高维特征标识，分别用L个表存入特征数据库。

9.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置，其特征在于：所述特征过滤模块（7）进一步包括中间存储子模块（7-1），计算距离子模块（7-2），分类统计子模块（7-3）和去除子模块（7-4）；

所述中间存储子模块（7-1），用于在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；

所述计算距离子模块（7-2），用于将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；

所述分类统计子模块（7-3），用于根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；

所述去除子模块（7-4），用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。

10.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置，其特征在于：所述相似度匹配模块（8）进一步包括遍历子模块（8-1），相似度子模块（8-2）和相关子模块（8-3）；

所述遍历子模块（8-1），用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧：匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧；

所述相似度子模块（8-2），用于对于查询视频片段标识的每个关键帧

与匹配关键帧

的相似度为：

sim (f_{i}^{q}, f_{j}^{c}) = \underset{N_{d}}{&Sum;} \underset{L}{&Sum;} w_{i, j} \cdot N_{m}

所述相关子模块（8-3），用于查询视频v_q与索引视频v_c间的相关分数为：

{score}_{c} = \frac{{&Sum;}_{N_{frame}} sim (f_{i}^{q}, f_{j}^{c})}{N_{frame}}