CN103617233A - 一种基于语义内容多层表示的重复视频检测方法与装置 - Google Patents

一种基于语义内容多层表示的重复视频检测方法与装置 Download PDF

Info

Publication number
CN103617233A
CN103617233A CN201310611187.4A CN201310611187A CN103617233A CN 103617233 A CN103617233 A CN 103617233A CN 201310611187 A CN201310611187 A CN 201310611187A CN 103617233 A CN103617233 A CN 103617233A
Authority
CN
China
Prior art keywords
inquiry
video
key frame
high dimensional
dimensional feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310611187.4A
Other languages
English (en)
Other versions
CN103617233B (zh
Inventor
刘大伟
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Zhong Ke Network Technical Institute
Original Assignee
Yantai Zhong Ke Network Technical Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Zhong Ke Network Technical Institute filed Critical Yantai Zhong Ke Network Technical Institute
Priority to CN201310611187.4A priority Critical patent/CN103617233B/zh
Publication of CN103617233A publication Critical patent/CN103617233A/zh
Application granted granted Critical
Publication of CN103617233B publication Critical patent/CN103617233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语义内容多层表示的重复视频检测方法,包括以下步骤:根据索引视频的信息建立特征数据库;将待查询的查询视频进行镜头检测;对每个查询视频片段提取关键帧;对每个查询关键帧利用特征提取算法进行处理;将每个查询高维特征向量分别进行哈希处理;将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,在特征数据库中检索特征标签;对检索得到的每组相似特征标签进行特征过滤;对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。本发明能够避免造成性能瓶颈的高维特征向量的距离计算,在保证检测准确率的同时,有效的提高重复视频检测的处理速度。

Description

一种基于语义内容多层表示的重复视频检测方法与装置
技术领域
本发明涉及一种视频检测方法,特别涉及一种基于语义内容多层表示的重复视频检测方法及装置。
背景技术
随着网络数字视频应用的迅速发展,为了保护和管理视频内容,大规模重复视频检测成为研究关注的问题。重复视频检测方法主要分为两大类:数字水印和基于内容的重复检测。数字水印方法将隐藏的数据信息(即水印)嵌入到图像和视频中进行检测。而基于内容的方法釆用视频内容分析算法,生成视频签名或者关键帧特征进行检索,具有较高的处理效率和准确性。大多数研究关注基于内容的重复视频检索。
现有方法的通用处理过程可以分为如下三个步骤:
首先,视频通过镜头分割算法生成视频片段,每个视频片段提取一或多个关键帧;
然后,对每一个视频关键帧采用特征提取算法生成一组高维特征向量;
最后,用特征向量的时间和空间匹配算法定义视频的相似度用来进行检测。
首先是镜头分割和关键帧提取算法。镜头分割又称为镜头边缘检测(Shot Boundary Detection)。镜头是摄像机从开始到停止两个操作之间的一系列视频帧序列,现有的镜头分割算法一般分为两类:第一类是基于阈值的方法当两帧之间的相似度低于预先定义的阈值时,即判定为边缘。阈值可以是全局的,自适应的或者全局自适应结合的。第二类是基于统计学习的方法,其中包括督学习和非监督学习两类方法,监督学习分类的算法比如SVM,Adaboost和其他模型的方法,非监督学习的算法主要是聚类算法,比如K-means,fuzzy K-means。关键帧提取算法从用一个镜头中提取出最能代表镜头内容的帧作为关键帧,关注的特征包括颜色,边缘,形状,MPEG-7动作描述符等。主要包括两大类:帧序列比较的方法和全局比较的方法。
在经过镜头分割和关键帧提取的预处理之后,索引和检索的基本对象是关键帧的特征表示,即图像的特征表示,可以分为两类:全局特征和局部特征,分别对应于不同的视频内容表示算法和相似性度量的选取。Yeh等人提出一种全局的关键帧级别的16维分区描述符和一种对应的序列匹配算法。Chiu等人整合了全局和局部特征描述符并采用min-hashing和时空匹配来检测重复视频。Shang等人提出一种二进制全局时空特征并使用基于倒排文件的方法进行索引和快速检测。Pan等人提出一种釆用DCT分析的时空联合特征,并基于该特征设计了视频拷贝检测框架。Wu等人进一步考虑局部关键点的运动,抽象出一种轨迹行为特征,并釆用马尔可夫链模型进行表示和匹配。Liu等人提出了一种结合局部SIFT特征和局部敏感哈希(LSH)算法以及随机抽样一致性(RANSAC)算法的重复视频检测框架。Avrithis等人将局部特征表示成视觉单词并利用类似RANSAC匹配算法进行检测。
SURF是近年来提出的用于表示数字图像的基于近似Hessian的检测器,已经被实验证明在计算效率方面优于其他局部特征表示方法,如SIFT,PCA-SIFT等。本发明利用SURF的特征对索引进行相应优化:利用特征向量计算的中间结果Laplacian的符号,即Hessian矩阵迹来划分哈希索引生成的桶空间,并且利用兴趣点的位置来进行特征向量的过滤。
局部敏感哈希LSH算法是一种在高维空间进行近似最近邻查找的有效算法。LSH哈希函数族具有如下性质:距离相近的对象相比距离较远的对象有较高的概率碰撞。不同的LSH函数族对应不同的距离度量。
基于局部特征的方法相比基于全局特征的方法具有更好的鲁棒性,特别是应对颜色调整,裁剪,添加字幕,转码等经过变换的视频,但同时要付出更高的计算代价。
基于局部特征的方法,在基本的LSH算法的检索过程中,一个查询点经过哈希到几个不同的哈希表的对应桶中,然后计算桶内所有点与查询点的距离取出距离最近的若干特征向量作为检索结果。我们认为,检索过程中的高维特征向量(比如:64维SURF描述符)的欧式距离计算需要消耗大量时间作为代价,是现有基于LSH算法的性能瓶颈所在。由于网络的应用场景对实时性要求较高,同时,基于多层内容分析的重复视频检测需要处理海量的高维特征向量,所以,处理速度比“局部准确性”更重要。另外,相比于仅使用一个整合的高维向量来描述一个关键帧的基于全局特征的算法,基于局部特征的算法将每一个关键帧表示为几百个高维向量。因此,如何有效的过滤削减特征向量备选集和降低计算负载是关注的重点问题。
发明内容
本发明所要解决的技术问题是提供一种通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索、通过参数学***均特征向量数的基于语义内容多层表示的重复视频检测方法及装置。
本发明解决上述技术问题的技术方案如下:一种基于语义内容多层表示的重复视频检测方法,包括以下步骤:
步骤1:根据索引视频的信息建立特征数据库;
步骤2:将待查询的查询视频进行镜头检测,得到多个查询视频片段;所述查询视频设置有查询视频标识,每个查询视频片段分别设置有查询视频片段标识;
步骤3:对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
步骤4:对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
步骤5:将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
步骤6:将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
步骤7:根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
步骤8:根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
本发明的有益效果是:本发明对基于语义内容多层表示的重复视频检测进行研究,采用SURF描述符作为局部特征,设计一种新的基于LSH的索引结构,该索引结合了SURF描述符的内在特征,通过参数学习和自适应设置来减少检索时的计算消耗,同时保持了检索的可扩展性和鲁棒性。对检索得到的特征向量集合采用一种简单有效的过滤算法和两层匹配算法,进一步削减备选特征向量集合的数量并生成整个视频的相关分数,通过设置相关分数阈值进行重复视频检测;
该算法通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索,通过参数学***均特征向量数,从而避免了造成性能瓶颈的高维特征向量的距离计算,然后,经过特征过滤和两层匹配完成特征向量到关键帧和视频的多层匹配,得到相关分数作为检测结果,该算法能够在保证检测准确率的同时,有效的提高重复视频检测的处理速度,优于目前基于局部敏感哈希LSH的其他算法。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1具体包括以下步骤:
步骤1.1:将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
步骤1.2:对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
步骤1.3:对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
步骤1.4:将每个高维特征向量分别进行哈希处理,得到一组特征标签;
步骤1.5:将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
进一步,所述步骤5具体包括以下步骤:
步骤5.1:将每个查询高维特征向量利用如下符号函数表示:
Figure BDA0000422963020000051
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
步骤5.2:每个查询高维特征向量的哈希函数表示如下:
Figure BDA0000422963020000052
其中a为从一个2至稳定分布中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
步骤5.3:将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|,...,|hk,j(p)|)
步骤5.4:从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m Σ m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log δ log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
步骤5.5:根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
步骤5.6:将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
进一步,所述步骤7具体包括以下步骤:
步骤7.1:在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
步骤7.2:将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
步骤7.3:根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
步骤7.4将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
进一步,所述步骤8具体包括以下步骤:
步骤8.1:根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
步骤8.2:对于查询视频片段标识的每个关键帧
Figure BDA0000422963020000071
与匹配关键帧
Figure BDA0000422963020000074
的相似度为:
sim ( f i q , f j c ) = ∑ N d ∑ L w i , j · N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
步骤8.3:查询视频vq与索引视频vc间的相关分数为:
score c = ∑ N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
进一步,一种基于语义内容多层表示的重复视频检测装置,包括建立模块,镜头检测模块,关键帧提取模块,特征提取模块,哈希处理模块,关联模块,特征过滤模块和相似度匹配模块;
所述建立模块,用于根据索引视频的信息建立特征数据库;
所述镜头检测模块,用于将待查询的查询视频进行镜头检测,得到多个查询视频片段,每个查询视频片段分别设置有查询视频片段标识,所述查询视频设置有查询视频标识;
所述关键帧提取模块,用于对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
所述特征提取模块,用于对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
所述哈希处理模块,用于将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
所述关联模块,用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
所述特征过滤模块,用于根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
所述相似度匹配模块,用于根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
进一步,所述建立模块进一步包括检测子模块,关键帧提取子模块,特征提取子模块,哈希子模块和关联子模块;
所述检测子模块,用于将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
所述关键帧提取子模块,用于对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
所述特征提取子模块,用于该对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
所述哈希子模块,用于将每个高维特征向量分别进行哈希处理,得到一组特征标签;
所述关联子模块,用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
进一步,所述哈希处理模块进一步包括高维向量子模块,哈希函数子模块,映射子模块,抽取子模块,多次哈希子模块和多次关联子模块;
所述高维向量子模块,用于将每个查询高维特征向量利用如下符号函数表示:
Figure BDA0000422963020000091
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
所述哈希函数子模块,用于每个查询高维特征向量的哈希函数表示如下:
Figure BDA0000422963020000092
其中a为从一个2至稳定分布中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
所述映射子模块,用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|,...,|hk,j(p)|)
所述抽取子模块,用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m Σ m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log δ log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
所述多次哈希子模块,用于根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
所述多次关联子模块,用于将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
进一步,所述特征过滤模块进一步包括中间存储子模块,计算距离子模块,分类统计子模块和去除子模块;
所述中间存储子模块,用于在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
所述计算距离子模块,用于将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
所述分类统计子模块,用于根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
所述去除子模块,用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
进一步,所述相似度匹配模块进一步包括遍历子模块,相似度子模块和相关子模块;
所述遍历子模块,用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
所述相似度子模块,用于对于查询视频片段标识的每个关键帧与匹配关键帧的相似度为:
sim ( f i q , f j c ) = ∑ N d ∑ L w i , j · N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
所述相关子模块,用于查询视频vq与索引视频vc间的相关分数为:
score c = ∑ N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图。
附图中,各标号所代表的部件列表如下:
1、建立模块,1-1、检测子模块,1-2、关键帧提取子模块,1-3、特征提取子模块,1-4、哈希子模块,1-5、关联子模块,2、镜头检测模块,3、关键帧提取模块,4、特征提取模块,5、哈希处理模块,5-1、高维向量子模块,5-2、哈希函数子模块,5-3、映射子模块,5-4、抽取子模块,5-5、多次哈希子模块,5-6、多次关联子模块,6、关联模块,7、特征过滤模块,7-1、中间存储子模块,7-2、计算距离子模块,7-3、分类统计子模块,7-4、去除子模块,8、相似度匹配模块,8-1、遍历子模块,8-2、相似度子模块,8-3、相关子模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图,图2为本发明装置结构图。
实施例1
一种基于语义内容多层表示的重复视频检测方法,包括以下步骤:
步骤1:根据索引视频的信息建立特征数据库;
步骤2:将待查询的查询视频进行镜头检测,得到多个查询视频片段;所述查询视频设置有查询视频标识,每个查询视频片段分别设置有查询视频片段标识;
步骤3:对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
步骤4:对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
步骤5:将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
步骤6:将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
步骤7:根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
步骤8:根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
所述步骤1具体包括以下步骤:
步骤1.1:将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
步骤1.2:对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
步骤1.3:对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
步骤1.4:将每个高维特征向量分别进行哈希处理,得到一组特征标签;
步骤1.5:将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
所述步骤5具体包括以下步骤:
步骤5.1:将每个查询高维特征向量利用如下符号函数表示:
Figure BDA0000422963020000131
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
步骤5.2:每个查询高维特征向量的哈希函数表示如下:
Figure BDA0000422963020000132
其中a为从一个2至稳定分布(对应欧式距离为高斯分布)中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
步骤5.3:将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|...,|hk,j(p)|)
步骤5.4:从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m Σ m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log δ log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
步骤5.5:根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
步骤5.6:将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
所述步骤7具体包括以下步骤:
步骤7.1:在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
步骤7.2:将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
步骤7.3:根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
步骤7.4将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
所述步骤8具体包括以下步骤:
步骤8.1:根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
步骤8.2:对于查询视频片段标识的每个关键帧
Figure BDA0000422963020000143
与匹配关键帧
Figure BDA0000422963020000144
的相似度为:
sim ( f i q , f j c ) = ∑ N d ∑ L w i , j · N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
步骤8.3:查询视频vq与索引视频vc间的相关分数为:
score c = ∑ N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
一种基于语义内容多层表示的重复视频检测装置,包括建立模块1,镜头检测模块2,关键帧提取模块3,特征提取模块4,哈希处理模块5,关联模块6,特征过滤模块7和相似度匹配模块8;
所述建立模块1,用于根据索引视频的信息建立特征数据库;
所述镜头检测模块2,用于将待查询的查询视频进行镜头检测,得到多个查询视频片段,每个查询视频片段分别设置有查询视频片段标识,所述查询视频设置有查询视频标识;
所述关键帧提取模块3,用于对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
所述特征提取模块4,用于对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
所述哈希处理模块5,用于将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
所述关联模块6,用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
所述特征过滤模块7,用于根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
所述相似度匹配模块8,用于根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
所述建立模块1进一步包括检测子模块1-1,关键帧提取子模块1-2,特征提取子模块1-3,哈希子模块1-4和关联子模块1-5;
所述检测子模块1-1,用于将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
所述关键帧提取子模块1-2,用于对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
所述特征提取子模块1-3,用于该对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
所述哈希子模块1-4,用于将每个高维特征向量分别进行哈希处理,得到一组特征标签;
所述关联子模块1-5,用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
所述哈希处理模块5进一步包括高维向量子模块5-1,哈希函数子模块5-2,映射子模块5-3,抽取子模块5-4,多次哈希子模块5-5和多次关联子模块5-6;
所述高维向量子模块5-1,用于将每个查询高维特征向量利用如下符号函数表示:
Figure BDA0000422963020000171
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
所述哈希函数子模块5-2,用于每个查询高维特征向量的哈希函数表示如下:
Figure BDA0000422963020000172
其中a为从一个2至稳定分布(对应欧式距离为高斯分布)中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
所述映射子模块5-3,用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|,...,|hk,j(p)|)
所述抽取子模块5-4,用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m Σ m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log δ log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
所述多次哈希子模块5-5,用于根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
所述多次关联子模块5-6,用于将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
所述特征过滤模块7进一步包括中间存储子模块7-1,计算距离子模块7-2,分类统计子模块7-3和去除子模块7-4;
所述中间存储子模块7-1,用于在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
所述计算距离子模块7-2,用于将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
所述分类统计子模块7-3,用于根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
所述去除子模块7-4,用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
所述相似度匹配模块8进一步包括遍历子模块8-1,相似度子模块8-2和相关子模块8-3;
所述遍历子模块8-1,用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
所述相似度子模块8-2,用于对于查询视频片段标识的每个关键帧
Figure BDA0000422963020000181
与匹配关键帧
Figure BDA0000422963020000182
的相似度为:
sim ( f i q , f j c ) = ∑ N d ∑ L w i , j · N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
所述相关子模块8-3,用于查询视频vq与索引视频vc间的相关分数为:
score c = ∑ N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
在具体实施中,利用SURF描述符的性质为每一个索引特征向量p设计一个符号函数如下:
Figure BDA0000422963020000193
将该符号函数与原始LSH哈希函数结合得到ADLSH的哈希函数表示如下:
Figure BDA0000422963020000194
其中p是一个64维SURF特征向量。a为从一个2-稳定分布(对应欧式距离为高斯分布)中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数。每个哈希函数ha,b(p)将一个64维的向量p映射为一个有符号的实数。为了构建索引结构,每个点p被映射到L个哈希表的L个桶:gj(p),j=1,...,L。每个桶的标签为一个k维向量,对应的k个随机选取的哈希函数:gj(p)=(|h1,j(p)|,...,|hk,j(p)|)。在具体的实现中,我们使用哈希函数的绝对值|ha,b(p)|来表示桶标签并将每个桶根据p的符号函数***为两个桶。这样,ADLSH算法生成的桶个数是原始LSH算法的大约2倍,相应的,哈希到每个桶内的向量个数平均减少为一半。
基于LSH的算法在实际应用中的一个重要问题是几个参数W,k,L的选取。现有的大部分算法都是在实验中设定,无法有效应对实际应用的需求。本发明的目标是在保证局部敏感性质的前提下,根据实际数据的具体情况,削减哈希到每个桶中的向量个数,达到可以取消桶内高维向量距离计算的效果。即对于一个查询向量q,我们取其哈希到的所有桶g1(q),...,gL(q)内的所有向量q作为备选向量集。尽可能减少备选向量集的数量同时保证向量q的任一欧式距离在R之内的邻居点v(||q-v||2≤R)包含于备选向量集中。以下分析ADLSH算法中各个参数的相关约束关系,并提出一种自适应的参数学习设定的方法。
ADLSH算法可以以概率1-δ解决R近邻搜索的问题,δ为失败概率(在本发明的实现中我们取0.1%)。对于两个向量p1,p2,令其距离为c=||p1-p2||2,则这两个向量经过一个哈希函数映射碰撞的概率为:
p ( c ) = Pr a , b [ h a , b ( p 1 ) = h a , b ( p 2 ) ] = ∫ 0 w 1 c f 2 ( t c ) ( 1 - t W ) dt = 1 - 2 Φ ( - W c ) - 2 2 π W / c ( 1 - e - ( W 2 / 2 c 2 ) ) - - - ( 2 )
其中f2(t)为高斯分布正值部分的概率密度函数:
f 2 ( t ) = 2 2 &pi; e - t 2 / 2 ift &GreaterEqual; 0 0 ift < 0
在R近邻查找问题中(不失一般性,我们假定R=1,任何数据集向量间的距离可以用适当的比率缩放或者扩展到这个假定的区域内,而不影响数据向量间的距离对应关系),为了检索到所有欧式距离c在R之内,即c<1的向量,必须满足以下条件:
p ( c ) &GreaterEqual; p ( 1 ) = 1 - 2 &Phi; ( - W ) - 2 2 &pi; W ( 1 - e - ( W 2 / 2 ) ) - - - ( 3 )
以上为单个哈希函数的概率条件,对于一个k维向量的桶标签,碰撞概率为:
Pr g [ g ( q ) = g ( p ) ] = &Pi; i = 1 k p i ( c ) &GreaterEqual; p ( 1 ) k - - - ( 4 )
对于L个哈希表,一个查询向量q找到距离在1之内的近邻的概率为:
PrNN[||q-p||2≤1]=1-(1-p(1)k)L≥1-δ   (5)
对于固定的p(c),参数W的最优值是c的函数,减小W会减小任意两个向量的碰撞概率p(c)。同样,增加k或者减小L会降低找到近邻的概率。通过进一步分析多个参数间的关系,设计了如下三个步骤来完成自适应参数设定:
1)W
经试验得出,对于一个实际应用中可行的L值(一般小于103),最优的W值(一般取2的幂)不可以太小。在局部敏感哈希的性质保证下,所有的碰撞概率p(c)随距离c单调递减,为了使Ep(c)(下文中定义)有更显著的变化,最优的W值不可以太大。基于以上观察和分析,我们选取4或者8作为W的最优值。值得注意的是,W值的选取与实际数据集无关,不需要根据实际数据学习或者修正。
2)样本学习和估计
将算法应用到实际数据时,从索引视频提取的总数为n的SURF特征向量中随机抽取m对向量作为样本。估计该数据集合中向量之间距离的分布情况,用公式(6)表示估计的向量间平均碰撞概率:
ep(c)=p(ce),其中 c e = 1 m &Sigma; m | | p i - p j | | 2 - - - ( 6 )
注意Ep(c)中的c会随着数据集的变化而不同,并非满足c<1。我们用公式(7)估计每个桶中的向量个数:
Nbucketnp(ce)k≈n·Ep(c)k   (7)
3)k和L
我们的目标是尽可能减少一个查询向量哈希到的L个桶内所有向量的总个数Nbucket·L。用一个比率Ratio来根据具体应用要求设定个数的范围。对于一个总向量数为n的数据集,每个查询向量平均检索到的向量数不大于Raito·n(本发明中采用Ratio为0.1%)。则有如下约束式:
Nbucket·L=n·L·Ep(c)k≤Raito·n   (8)
根据式(5),可以将L表示为k的函数:
L ( k ) = log &delta; log ( 1 - p ( 1 ) k )
注意L(k)中的碰撞概率采用的是标准化后的p(1),而非p(c)。根据式(3),对于固定的W值,p(1)为定值。在实际应用中,根据数据集的不同,通过步骤2)会得到不同的Ep(c),Raito为预先设定的值,根据Raito确定一个最优的k值,进而确定最优的L(k)。
●特征过滤
经过ADLSH哈希算法的桶***和三步骤的自适应参数设定,对于每个查询特征向量,检索的过程中不需要经过桶内的高维距离计算就可以得到一个可预计平均数量的备选特征向量集合。由于基于欧式距离的SURF特征匹配并不能有效的应对视频关键帧图像的变换或者噪声。类似研究中一般采用一些空间的检验和过滤算法,比如RANSAC。本发明中,由于得到的备选向量集合相比其他研究已经大幅削减了数量,我们采用简单的基于距离的过滤方法去除一些明显错误的匹配特征向量。对于检索到的每对向量,我们利用SURF特征提取过程中的中间结果即特征点的位置信息,计算二维空间里的相对距离。得到两个对应关键帧图像里所有的特征点相对距离的平均值和标准差。将其中的超过均值远大于标准差的特征对作为噪声点去除。
本发明的ADLSH和特征过滤方法可以得到数量更少,匹配更准确的特征对。
●两层匹配方法
经过ADLSH和特征过滤得到的SURF特征向量,将进一步采用一个两层匹配方法得到对应视频的相关分数。在索引和检索的过程中,每个查询视频的SURF特征向量对应的匹配特征向量和不同哈希表的同一个桶中特征点的个数都将被记录。我们根据关键帧的标识将得到的每个匹配SURF特征向量进行再一次哈希,经过一个线性遍历查找到对应一个查询关键帧的匹配关键帧:匹配特征向量数超过一个预先设定的阈值的关键帧被视为匹配关键帧(大约每个关键帧生成100个SURF特征向量,我们选取阈值为60)。这样我们得到了关键帧级别的检测结果。为了得到视频级别的检测结果,对于查询视频的每个关键帧
Figure BDA0000422963020000231
与匹配关键帧
Figure BDA0000422963020000232
的相似度定义如下:
sim ( f i q , f j c ) = &Sum; N d &Sum; L w i , j &CenterDot; N m - - - ( 9 )
其中Nd是查询视频的关键帧中提取的特征向量总数。Nm是与该匹配关键帧在一个桶内对应的特征向量个数。wi,j是对应桶的权值,用来去除桶内向量数不同的影响,即降低向量数过大的桶对于相似度的影响,实际中可以简单的设定为:wi,j=1/Nbucket。根据以上的结果,查询视频vq与索引视频vc间的相关分数定义如下:
score c = &Sum; N frame sim ( f i q , f j c ) N frame - - - ( 10 )
其中Nframe是查询视频提取的关键帧总数。如果一个索引视频与查询视频的相关分数scorec超过一个阈值St则被作为一个重复视频。实际应用中阈值St依赖于数据集并且需要在召回率和准确率之间折中进行设定。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语义内容多层表示的重复视频检测方法,其特征在于,包括以下步骤:
步骤1:根据索引视频的信息建立特征数据库;
步骤2:将待查询的查询视频进行镜头检测,得到多个查询视频片段;所述查询视频设置有查询视频标识,每个查询视频片段分别设置有查询视频片段标识;
步骤3:对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
步骤4:对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
步骤5:将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
步骤6:将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
步骤7:根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
步骤8:根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
2.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
步骤1.2:对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
步骤1.3:对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
步骤1.4:将每个高维特征向量分别进行哈希处理,得到一组特征标签;
步骤1.5:将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
3.根据权利要求1或2所述的基于语义内容多层表示的重复视频检测方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1:将每个查询高维特征向量利用如下符号函数表示:
Figure FDA0000422963010000021
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
步骤5.2:每个查询高维特征向量的哈希函数表示如下:
Figure FDA0000422963010000022
其中a为从一个2至稳定分布中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
步骤5.3:将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|,...,|hk,j(p)|)
步骤5.4:从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m &Sigma; m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log &delta; log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
步骤5.5:根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
步骤5.6:将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
4.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法,其特征在于,所述步骤7具体包括以下步骤:
步骤7.1:在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
步骤7.2:将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
步骤7.3:根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
步骤7.4将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
5.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法,其特征在于,所述步骤8具体包括以下步骤:
步骤8.1:根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
步骤8.2:对于查询视频片段标识的每个关键帧
Figure FDA0000422963010000041
与匹配关键帧
Figure FDA0000422963010000042
的相似度为:
sim ( f i q , f j c ) = &Sum; N d &Sum; L w i , j &CenterDot; N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
步骤8.3:查询视频vq与索引视频vc间的相关分数为:
score c = &Sigma; N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
6.一种基于语义内容多层表示的重复视频检测装置,其特征在于:包括建立模块(1),镜头检测模块(2),关键帧提取模块(3),特征提取模块(4),哈希处理模块(5),关联模块(6),特征过滤模块(7)和相似度匹配模块(8);
所述建立模块(1),用于根据索引视频的信息建立特征数据库;
所述镜头检测模块(2),用于将待查询的查询视频进行镜头检测,得到多个查询视频片段,每个查询视频片段分别设置有查询视频片段标识,所述查询视频设置有查询视频标识;
所述关键帧提取模块(3),用于对每个查询视频片段提取关键帧,得到多个查询关键帧,每个查询关键帧分别设置有查询关键帧标识;
所述特征提取模块(4),用于对每个查询关键帧利用特征提取算法进行处理,得到一组查询高维特征向量,每个查询高维特征向量均设置有查询高维特征向量标识;
所述哈希处理模块(5),用于将每个查询高维特征向量分别进行哈希处理,得到一组查询特征标签;
所述关联模块(6),用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联,并将上述标识作为每个查询特征标签的关联项,在特征数据库中检索查询特征标签及其关联项,得到多组相似特征标签;
所述特征过滤模块(7),用于根据每组特征标签的位置信息,对检索得到的每组相似特征标签进行特征过滤,得到包含有多个特征向量的备选特征向量集合;
所述相似度匹配模块(8),用于根据查询关键帧标识和查询视频片段标识,对每个备选特征向量集合中的特征向量进行相似度匹配,得到重复视频检测结果。
7.根据权利要求6所述的基于语义内容多层表示的重复视频检测方法,其特征在于:所述建立模块(1)进一步包括检测子模块(1-1),关键帧提取子模块(1-2),特征提取子模块(1-3),哈希子模块(1-4)和关联子模块(1-5);
所述检测子模块(1-1),用于将索引视频进行镜头检测,得到多个视频片段,每个视频片段分别设置有视频片段标识,所述索引视频设置有索引视频标识;
所述关键帧提取子模块(1-2),用于对每个视频片段提取关键帧,得到多个关键帧,每个关键帧分别设置有关键帧标识;
所述特征提取子模块(1-3),用于该对每个关键帧利用特征提取算法进行处理,得到一组高维特征向量,每个高维特征向量均设置有高维特征向量标识;
所述哈希子模块(1-4),用于将每个高维特征向量分别进行哈希处理,得到一组特征标签;
所述关联子模块(1-5),用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联,将关联后的所有特征标签存入特征数据库中。
8.根据权利要求6或7所述的基于语义内容多层表示的重复视频检测装置,其特征在于:所述哈希处理模块(5)进一步包括高维向量子模块(5-1),哈希函数子模块(5-2),映射子模块(5-3),抽取子模块(5-4),多次哈希子模块(5-5)和多次关联子模块(5-6);
所述高维向量子模块(5-1),用于将每个查询高维特征向量利用如下符号函数表示:
Figure FDA0000422963010000061
其中,p为64维高维特征向量,Hessian矩阵为特征提取算法提取的中间结果;
所述哈希函数子模块(5-2),用于每个查询高维特征向量的哈希函数表示如下:
Figure FDA0000422963010000062
其中a为从一个2至稳定分布中独立选取的64维随机向量,b为一个从均匀分布[0,W]选取的实数,参数W随机选取4或者8中的一个作为最优值;
所述映射子模块(5-3),用于将每个64维的查询高维特征向量p被映射到L个哈希表的L个桶:
gj(p),j=1,...,L
每个桶的标签为一个k维向量,对应k个随机选取的哈希函数:
gj(p)=(|h1,j(p)|,...,|hk,j(p)|)
所述抽取子模块(5-4),用于从查询视频中提取的查询高维特征向量中随机抽取m对查询高维特征向量,m对查询高维特征向量间平均碰撞的概率为:
Ep(c)=p(ce), c e = 1 m &Sigma; m | | p i - p j | | 2
每个桶中的查询高维特征向量个数为:
Nbucket=∑np(ce)k≈n·Ep(c)k
其中,Nbucket·L=n·L·Ep(c)k≤Raito·n,Ratio为0.1%;
将L表示为k的函数: L ( k ) = log &delta; log ( 1 - p ( 1 ) k ) ,
求解得到唯一的k和L最优值;
所述多次哈希子模块(5-5),用于根据参数W,k,每个查询高维特征向量经过k次哈希处理得到k维的查询高维特征向量标识;
所述多次关联子模块(5-6),用于将每个查询高维特征向量经过L次关联,每个查询高维特征向量共生成L个k维的查询高维特征标识,分别用L个表存入特征数据库。
9.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置,其特征在于:所述特征过滤模块(7)进一步包括中间存储子模块(7-1),计算距离子模块(7-2),分类统计子模块(7-3)和去除子模块(7-4);
所述中间存储子模块(7-1),用于在提取查询关键帧的过程中,存储中间结果作为每个特征点的位置信息;
所述计算距离子模块(7-2),用于将经过哈希处理得到的每个查询特征标签作为一个特征点,根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离;
所述分类统计子模块(7-3),用于根据查询关键帧标识进行分类统计,得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差;
所述去除子模块(7-4),用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
10.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置,其特征在于:所述相似度匹配模块(8)进一步包括遍历子模块(8-1),相似度子模块(8-2)和相关子模块(8-3);
所述遍历子模块(8-1),用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理,利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧;
所述相似度子模块(8-2),用于对于查询视频片段标识的每个关键帧
Figure FDA0000422963010000081
与匹配关键帧
Figure FDA0000422963010000082
的相似度为:
sim ( f i q , f j c ) = &Sum; N d &Sum; L w i , j &CenterDot; N m
其中,Nm是与该匹配关键帧在一个桶内对应的特征向量个数,wi,j是对应桶的权值,具体为wi,j=1/Nbucket
所述相关子模块(8-3),用于查询视频vq与索引视频vc间的相关分数为:
score c = &Sum; N frame sim ( f i q , f j c ) N frame
其中,Nframe是查询视频提取的查询关键帧总数,如果一个索引视频与查询视频的相关分数scorec超过预定阈值St,则被作为一个重复视频。
CN201310611187.4A 2013-11-26 2013-11-26 一种基于语义内容多层表示的重复视频检测方法与装置 Active CN103617233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310611187.4A CN103617233B (zh) 2013-11-26 2013-11-26 一种基于语义内容多层表示的重复视频检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310611187.4A CN103617233B (zh) 2013-11-26 2013-11-26 一种基于语义内容多层表示的重复视频检测方法与装置

Publications (2)

Publication Number Publication Date
CN103617233A true CN103617233A (zh) 2014-03-05
CN103617233B CN103617233B (zh) 2017-05-17

Family

ID=50167936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310611187.4A Active CN103617233B (zh) 2013-11-26 2013-11-26 一种基于语义内容多层表示的重复视频检测方法与装置

Country Status (1)

Country Link
CN (1) CN103617233B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870574A (zh) * 2014-03-18 2014-06-18 江苏物联网研究发展中心 基于h.264密文云视频存储的标签制作及索引方法
CN104008395A (zh) * 2014-05-20 2014-08-27 中国科学技术大学 一种基于人脸检索的不良视频智能检测方法
CN106375850A (zh) * 2015-07-23 2017-02-01 无锡天脉聚源传媒科技有限公司 一种匹配视频的判断方法及装置
CN106933861A (zh) * 2015-12-30 2017-07-07 北京大唐高鸿数据网络技术有限公司 一种支持特征自定义的跨镜头目标检索方法
CN107908647A (zh) * 2017-10-10 2018-04-13 天津大学 一种基于数字水印的分级视频检索方法
CN108259932A (zh) * 2018-03-15 2018-07-06 华南理工大学 基于时空域极坐标余弦变换的鲁棒哈希重复视频检测方法
CN108464007A (zh) * 2016-04-13 2018-08-28 谷歌有限责任公司 视频元数据关联推荐
CN108520047A (zh) * 2018-04-04 2018-09-11 南京信安融慧网络技术有限公司 一种视频特征信息检索方法
CN108566562A (zh) * 2018-05-02 2018-09-21 中广热点云科技有限公司 版权视频信息结构化整理完成样本封样的方法
CN108763295A (zh) * 2018-04-18 2018-11-06 复旦大学 一种基于深度学习的视频近似拷贝检索算法
CN108769731A (zh) * 2018-05-25 2018-11-06 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN109086830A (zh) * 2018-08-14 2018-12-25 江苏大学 基于样本惩罚的典型关联分析近重复视频检测方法
CN109189991A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 重复视频识别方法、装置、终端及计算机可读存储介质
CN110175267A (zh) * 2019-06-04 2019-08-27 黑龙江省七星农场 一种基于无人机遥感技术的农业物联网控制处理方法
CN110324660A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种重复视频的判断方法及装置
CN110377794A (zh) * 2019-06-12 2019-10-25 杭州当虹科技股份有限公司 一种视频特征描述与去重检索处理方法
CN110443007A (zh) * 2019-07-02 2019-11-12 北京瑞卓喜投科技发展有限公司 一种多媒体数据的溯源检测方法、装置及设备
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置
CN110796088A (zh) * 2019-10-30 2020-02-14 行吟信息科技(上海)有限公司 视频相似性判定方法及装置
CN110866563A (zh) * 2019-11-20 2020-03-06 咪咕文化科技有限公司 相似视频检测、推荐方法、电子设备和存储介质
CN111294613A (zh) * 2020-02-20 2020-06-16 北京奇艺世纪科技有限公司 一种视频处理方法、客户端、服务器
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111382620A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 视频标签添加方法、计算机存储介质和电子设备
CN111723692A (zh) * 2020-06-03 2020-09-29 西安交通大学 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
CN107515937B (zh) * 2017-08-29 2020-10-27 千寻位置网络有限公司 差分账户的归类方法及***、服务终端、存储器
CN112235599A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 一种视频处理方法及***
CN112839257A (zh) * 2020-12-31 2021-05-25 四川金熊猫新媒体有限公司 视频内容检测方法、装置、服务器及存储介质
CN112989114A (zh) * 2021-02-04 2021-06-18 有米科技股份有限公司 应用于视频筛选的视频信息生成方法及装置
CN113065025A (zh) * 2021-03-31 2021-07-02 厦门美图之家科技有限公司 视频查重方法、装置、设备及存储介质
CN113361313A (zh) * 2021-02-20 2021-09-07 温州大学 一种基于关联分析的多标签关系的视频检索方法
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
WO2021259019A1 (zh) * 2020-06-24 2021-12-30 北京金山云网络技术有限公司 视频处理方法、装置、电子设备和机器可读存储介质
CN116188815A (zh) * 2022-12-12 2023-05-30 北京数美时代科技有限公司 一种视频相似度检测方法、***、存储介质和电子设备
WO2024065692A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种向量检索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159834A (zh) * 2007-10-25 2008-04-09 中国科学院计算技术研究所 一种重复性视频音频节目片段的检测方法和***
CN103077203A (zh) * 2012-12-28 2013-05-01 青岛爱维互动信息技术有限公司 一种重复性音视频片段的检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159834A (zh) * 2007-10-25 2008-04-09 中国科学院计算技术研究所 一种重复性视频音频节目片段的检测方法和***
CN103077203A (zh) * 2012-12-28 2013-05-01 青岛爱维互动信息技术有限公司 一种重复性音视频片段的检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEXIS JOLY ETAL.: "Content-Based Copy Retrieval Using Distortion-Based Probabilistic Similarity Search", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
ZHU LIU ETAL.: "Effective and Scalable Video Copy Detection", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON MULTIMEDIA INFORMATION RETRIEVAL》 *
刘大伟 等: "一种重复视频的快速检测算法", 《小型微型计算机***》 *
刘大伟: "支持多层表示的海量视频快速检索及反馈学习", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 *
刘守群等: "一种基于内容相似性的重复视频片段检测方法", 《中国科学技术大学学报》 *
王洪峰等: "基于位置敏感哈希的网络视频重复检测", 《计算机应用研究》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870574A (zh) * 2014-03-18 2014-06-18 江苏物联网研究发展中心 基于h.264密文云视频存储的标签制作及索引方法
CN103870574B (zh) * 2014-03-18 2017-03-08 江苏物联网研究发展中心 基于h.264密文云视频存储的标签制作及索引方法
CN104008395A (zh) * 2014-05-20 2014-08-27 中国科学技术大学 一种基于人脸检索的不良视频智能检测方法
CN104008395B (zh) * 2014-05-20 2017-06-27 中国科学技术大学 一种基于人脸检索的不良视频智能检测方法
CN106375850A (zh) * 2015-07-23 2017-02-01 无锡天脉聚源传媒科技有限公司 一种匹配视频的判断方法及装置
CN106375850B (zh) * 2015-07-23 2019-09-13 无锡天脉聚源传媒科技有限公司 一种匹配视频的判断方法及装置
CN106933861A (zh) * 2015-12-30 2017-07-07 北京大唐高鸿数据网络技术有限公司 一种支持特征自定义的跨镜头目标检索方法
CN108464007A (zh) * 2016-04-13 2018-08-28 谷歌有限责任公司 视频元数据关联推荐
CN107515937B (zh) * 2017-08-29 2020-10-27 千寻位置网络有限公司 差分账户的归类方法及***、服务终端、存储器
CN107908647A (zh) * 2017-10-10 2018-04-13 天津大学 一种基于数字水印的分级视频检索方法
CN108259932B (zh) * 2018-03-15 2019-10-18 华南理工大学 基于时空域极坐标余弦变换的鲁棒哈希重复视频检测方法
CN108259932A (zh) * 2018-03-15 2018-07-06 华南理工大学 基于时空域极坐标余弦变换的鲁棒哈希重复视频检测方法
CN110324660B (zh) * 2018-03-29 2021-01-19 北京字节跳动网络技术有限公司 一种重复视频的判断方法及装置
CN110324660A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种重复视频的判断方法及装置
CN108520047B (zh) * 2018-04-04 2021-05-14 南京信安融慧网络技术有限公司 一种视频特征信息检索方法
CN108520047A (zh) * 2018-04-04 2018-09-11 南京信安融慧网络技术有限公司 一种视频特征信息检索方法
CN108763295B (zh) * 2018-04-18 2021-04-30 复旦大学 一种基于深度学习的视频近似拷贝检索算法
CN108763295A (zh) * 2018-04-18 2018-11-06 复旦大学 一种基于深度学习的视频近似拷贝检索算法
CN108566562B (zh) * 2018-05-02 2020-09-08 中广热点云科技有限公司 版权视频信息结构化整理完成样本封样的方法
CN108566562A (zh) * 2018-05-02 2018-09-21 中广热点云科技有限公司 版权视频信息结构化整理完成样本封样的方法
CN108769731B (zh) * 2018-05-25 2021-09-24 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN108769731A (zh) * 2018-05-25 2018-11-06 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN109086830B (zh) * 2018-08-14 2021-09-10 江苏大学 基于样本惩罚的典型关联分析近重复视频检测方法
CN109086830A (zh) * 2018-08-14 2018-12-25 江苏大学 基于样本惩罚的典型关联分析近重复视频检测方法
CN109189991A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 重复视频识别方法、装置、终端及计算机可读存储介质
CN109189991B (zh) * 2018-08-17 2021-06-08 百度在线网络技术(北京)有限公司 重复视频识别方法、装置、终端及计算机可读存储介质
CN111382620A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 视频标签添加方法、计算机存储介质和电子设备
CN111382620B (zh) * 2018-12-28 2023-06-09 阿里巴巴集团控股有限公司 视频标签添加方法、计算机存储介质和电子设备
CN110175267B (zh) * 2019-06-04 2020-07-07 黑龙江省七星农场 一种基于无人机遥感技术的农业物联网控制处理方法
CN110175267A (zh) * 2019-06-04 2019-08-27 黑龙江省七星农场 一种基于无人机遥感技术的农业物联网控制处理方法
CN110377794B (zh) * 2019-06-12 2022-04-01 杭州当虹科技股份有限公司 一种视频特征描述与去重检索处理方法
CN110377794A (zh) * 2019-06-12 2019-10-25 杭州当虹科技股份有限公司 一种视频特征描述与去重检索处理方法
CN110443007A (zh) * 2019-07-02 2019-11-12 北京瑞卓喜投科技发展有限公司 一种多媒体数据的溯源检测方法、装置及设备
CN110443007B (zh) * 2019-07-02 2021-07-30 北京瑞卓喜投科技发展有限公司 一种多媒体数据的溯源检测方法、装置及设备
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置
CN110796088A (zh) * 2019-10-30 2020-02-14 行吟信息科技(上海)有限公司 视频相似性判定方法及装置
CN110866563A (zh) * 2019-11-20 2020-03-06 咪咕文化科技有限公司 相似视频检测、推荐方法、电子设备和存储介质
CN110866563B (zh) * 2019-11-20 2022-04-29 咪咕文化科技有限公司 相似视频检测、推荐方法、电子设备和存储介质
CN111294613A (zh) * 2020-02-20 2020-06-16 北京奇艺世纪科技有限公司 一种视频处理方法、客户端、服务器
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111723692B (zh) * 2020-06-03 2022-08-09 西安交通大学 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
CN111723692A (zh) * 2020-06-03 2020-09-29 西安交通大学 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
WO2021259019A1 (zh) * 2020-06-24 2021-12-30 北京金山云网络技术有限公司 视频处理方法、装置、电子设备和机器可读存储介质
CN112235599A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 一种视频处理方法及***
CN112839257A (zh) * 2020-12-31 2021-05-25 四川金熊猫新媒体有限公司 视频内容检测方法、装置、服务器及存储介质
CN112839257B (zh) * 2020-12-31 2023-05-09 四川金熊猫新媒体有限公司 视频内容检测方法、装置、服务器及存储介质
CN112989114A (zh) * 2021-02-04 2021-06-18 有米科技股份有限公司 应用于视频筛选的视频信息生成方法及装置
CN112989114B (zh) * 2021-02-04 2023-08-29 有米科技股份有限公司 应用于视频筛选的视频信息生成方法及装置
CN113361313A (zh) * 2021-02-20 2021-09-07 温州大学 一种基于关联分析的多标签关系的视频检索方法
CN113065025A (zh) * 2021-03-31 2021-07-02 厦门美图之家科技有限公司 视频查重方法、装置、设备及存储介质
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
WO2024065692A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种向量检索方法及装置
CN116188815A (zh) * 2022-12-12 2023-05-30 北京数美时代科技有限公司 一种视频相似度检测方法、***、存储介质和电子设备

Also Published As

Publication number Publication date
CN103617233B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN103617233A (zh) 一种基于语义内容多层表示的重复视频检测方法与装置
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
CN110995508B (zh) 基于kpi突变的自适应无监督在线网络异常检测方法
CN107562742B (zh) 一种图像数据处理方法及装置
CN107169106B (zh) 视频检索方法、装置、存储介质及处理器
CN107180056B (zh) 视频中片段的匹配方法和装置
CN101467145A (zh) 用于自动注释图像的方法和装置
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
Thyagharajan et al. Pulse coupled neural network based near-duplicate detection of images (PCNN–NDD)
Asha et al. Content based video retrieval using SURF descriptor
Kuric et al. ANNOR: Efficient image annotation based on combining local and global features
JP2012022419A (ja) 学習データ作成装置、学習データ作成方法及びプログラム
CN104778234A (zh) 基于局部敏感哈希技术的多标记文件近邻查询方法
Kumar et al. Fusion of CNN-QCSO for Content Based Image Retrieval
Lv et al. Efficient large scale near-duplicate video detection base on spark
Bartolini et al. Imagination: exploiting link analysis for accurate image annotation
Bouker et al. Retrieval of images using mean-shift and gaussian mixtures based on weighted color histograms
CN112419238A (zh) 基于端到端深度神经网络的复制-粘贴伪造图像取证方法
Chiu et al. Efficient video segment matching for detecting temporal-based video copies
Allouche et al. Video fingerprinting: Past, present, and future
Barhoumi et al. Effective region-based relevance feedback for interactive content-based image retrieval
Doulamis et al. 3D modelling of cultural heritage objects from photos posted over the Twitter
Alfarrarjeh et al. Spatial aggregation of visual features for image data search in a large geo-tagged image dataset
da Silva et al. Near-duplicate video detection based on an approximate similarity self-join strategy
Chander et al. Shape based automatic annotation and fuzzy indexing of video sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant