CN1253822C

CN1253822C - 一种用于视频片段快速相似查询的k近邻方法

Info

Publication number: CN1253822C
Application number: CN 200310108129
Authority: CN
Inventors: 刘芳洁; 董道国; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2003-10-23
Filing date: 2003-10-23
Publication date: 2006-04-26
Anticipated expiration: 2023-10-23
Also published as: CN1538326A

Abstract

本发明为一种用于视频片段相似检索的快速k近邻查询方法。其基本步骤为：对待查询视频片段中的每一帧，用Ordered VA-File在视频数据库找出它的T×k个近邻，即T×k个相似的视频帧；然后，将所有查询结果按照它们在视频数据库中出现的先后位置关系排序，如果数据库中的一帧同时属于多个查询帧的T×k的近邻，记录下这些帧的帧序号；最后，对该序列进行窗口扫描，返回相似度最大的k个视频片段。本发明极大地减少了视频片段相似查询时磁盘访问代价和CPU计算代价，具有很高的查询效率和查询精度。

Description

一种用于视频片段快速相似查询的k近邻方法

技术领域

本发明属于多媒体信息检索、数据挖掘和聚类分析等数据处理领域，具体涉及一种利用高维索引结构实现视频片段快速相似查询k近邻方法。

背景技术

最近10年来，计算机和网络高速发展，数字化媒体信息大量涌现，为了实现对海量多媒体信息的高效访问，多媒体信息处理和检索工具的研制成为当务之急。

视频(video)是在时间上连续的一系列图像帧的集合，是一种没有结构的流数据，是集图像序列(image sequence)、图像(image)、文本(text)等为一体、已经获得广泛使用的一种综合性的媒体信息。如果把一个视频文件看作一本没有目录和索引的书，那么一帧图像就相当于视频“书”中的一页。由于视频这部书缺乏目录和索引信息，人们就无法对它进行高效浏览和检索，无法快速阅读。为寻找感兴趣的视频片段，人们只能采取“快进”和“快倒”这种耗时的阅读方式。

随着数字化视频数据量的迅速增加，传统耗时的浏览方式已远不能满足人们对视频内容的访问和查询需求。人们越来越希望能在海量视频库中快速找到自己感兴趣的视频片段，因此就需要为视频建立有效的目录结构。一般来说，按照视频内容粒度可以把视频分为多个层次，从高到低依次为：节目、场景、镜头和关键帧。

镜头是指摄像机从打开到关闭的全过程中记录下来的一组连续的图像帧序列。镜头边界是客观存在的，可以采用一定的方法自动检测镜头边界。在实际应用中，用户浏览一个镜头中所有图像帧是非常耗时的，因此常用关键帧技术实现快速浏览。关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的复杂程度，可以从一个镜头中提取一个或多个关键帧。为了在语义层建立视频结构模型，需要对视频进行场景划分。场景定义为语义上相关、时间上相邻的一组镜头，它们能够表达视频的高层次概念或故事等。镜头是组成视频的基本物理单位，而场景(又称故事)则是视频在语义层的单位，通常只有场景才能向观看者传达相对完整的语义。节目则是由时间上有序的场景组成，例如新闻节目、娱乐节目、体育节目、天气预报等。

视频信息检索是多媒体信息检索中最困难的一项研究课题，也是目前学术界的研究热点，利用图像和视频片段的底层物理特征实现视频片段检索是一个非常重要的研究方向，其基本步骤为：首先将视频数据库中的视频流划分为镜头，并从每个镜头中提取一个或多个关键帧，然后从每个关键帧提取特征矢量，用特征矢量表征所对应的镜头。在检索时对用户提交的查询视频作同样的处理。然后利用特征矢量进行视频片段之间相似度的计算实现相似性查询。根据用户提交的不同的查询需求类型，可以分为两类：视频镜头检索和视频片段检索。

镜头检索指用户提交的查询视频片段仅包含一个镜头，可利用该镜头所对应的关键帧的特征矢量实现快速的相似性检索，针对这一类检索方式，人们已经提出了大量的高维索引结构和相似性查询算法，如R-Tree[3]、X-Tree[4]和VA-File[5]等。视频片段检索则是指用户提交的查询视频可能由多个连续的镜头组成的描述同一语义的一段视频，对于这一类查询，首先需要对查询视频进行镜头分割，利用每个镜头的关键帧的特征矢量组成的具有一定时间顺序的特征矢量序列来表征用户的查询需求。度量两个视频片段之间的相似度往往基于各个关键帧的特征矢量之间的相似性程度[1][2]，如果不采用高效索引结构和快速检索算法，直接在原始数据库上进行检索，将花费高昂代价。

实现视频片段检索最简单和最直接的方法就是对原始视频数据库进行顺序扫描(SScan)，根据相似度模型依次计算查询视频片段与数据库中每一个视频片段之间的相似度，返回前k个相似度最大的视频片段为查询结果。当视频数据量较大时，整个视频数据库就必须存储在磁盘中，因此SScan就需要耗费大量磁盘I/O和CPU计算代价。为了加速查询速度和提高查询效率，最常用方法就是借助索引结构降低磁盘I/O和CPU的计算代价。

传统的高维索引结构(R-Tree、X-Tree、VA-File等)以及相似性检索算法，它们所考虑的查询仅仅用于单一的高维矢量，即仅支持镜头检索类型，因此它们不能支持查询对象为特征矢量序列的视频片段的检索。据已公开的文献，只有S²-Tree[7]是唯一支持特征矢量序列的高维索引结构。其主要思想在于：将所有的高维矢量数据编码，然后将顺序排列的高维矢量数据序列的检索转换成字符串匹配。该索引结构对于视频片段检索来说存在着很大局限：首先，因为它是建立在X-Tree的基础上，当特征矢量的维数超过20时，其查询效率将低于顺序扫描SScan，所以S²-tree适用20维以下的应用。而在视频检索应用中，提取一个关键帧所得到的特征矢量通常要远高于20维；其次，基于S²-Tree的检索算法要求所得到结果数据之间的顺序必须严格符合查询数据的顺序，但是在视频片段检索中，两段在内容上相似的视频其镜头，其顺序可能不一致，对于这样的情形，基于S²-Tree的检索算法将无能为力。

Ordered VA-File[9]是我们最近提出的一种有效的高维数据索引结构(已申请中国发明专利，申请号：03129687.4)，它通过对VA-File[5]中的近似矢量重新排序组织，并对得到的近似矢量文件进行分段，从而在查询过程中仅查询部分矢量，以实现快速的近似k近邻查询。实验结果表明：在获得比VA-File中VA-LOW算法[6]高达100倍的加速比时，Ordered VA-File能得到非常好的查询结果质量。

本发明的主要贡献是基于Ordered VA-File[9]提出了用于视频片段检索的快速、相似和k近邻的查询方法。

参考文献

1.Y.P，Kulkarni，S.R.，Ramadge，P.J.“A framework for measuring video similarity and itsapplication to video query by example”，Proceedings of IEEE International Conference onImage Processing，1999，2：106-110.

2.Dimitrova，N.，Abdel-Mottaled，M.“Content-based video retrieval by example video clip”，Proceedings of IS & T and SPIE Storage and Retrieval of Image and Video Databases VI，1998：184-196.

3.Guttman A.“R-Trees：A dynamic index structure for spatial searching”，Proc.ACMSIGMOD Int.Conf.on Management of Data，Boston，MA，1984：47-57.

4.Stefan Berchtold，Daniel A.Keim，and Hans-Peter Kriegel.“The X-Tree：An index structurefor high dimensional data”，Proc.of the 22^nd VLDB Conference，1996：28-39.

5.Roger Weber，Hans-J.Schek，Stephen Blott，“A Quantitative Analysis and PerformanceStudy for Similarity Search Methods in High-Dimensional Spaces，”Proc.of the 24^th VLDBConference，New York，USA，1998.

6.R.Weber，K.Bohm，“Trading Quality for Time with Nearest Neighbor Search”，Proc.Of the7^th Conf.On Extending Database Technology，Konstanz，Germany，March 2000.

7.Haixun Wang and Chang-Shing Perng.“The S2-Tree：An Index Structure for SubsequenceMatching of Spatial Objects”.in the 5th Pacific-Asic Conference on Knowledge Discoveryand Data Mining(PAKDD)，Hong Kong，2000.

8.Sen-ching Samson Cheung，Avideh Zakhor.“Efficient Video Similarity Measurement WithVideo Signature”.IEEE Trans.On CAS for Video Technology.Vol.13.No.1.Jan.2003.

9.一种高维矢量数据的快速相似检索方法获得，专利申请号：03129687.4。申请人：董道国，薛向阳(主要发明内容是提出一种高维索引结构，称之为Ordered VA-File)

10.Fangjie liu，Daoguo Dong，Xiangyang Xue.“A Fast Video Clip Retrieval Algorithm Basedon VA-File”.SPIE Electronic Imaging 2004：Storage and Retrieval for Media Database2004.To Be Published.

符号表(在本发明的全部文档中所采用符号的含义)

X，Y 代表两个任意的视频片断，用特征矢量序列描述

x，y，a，b 代表关键帧图象，用特征矢量描述

Q 代表查询视频片断，用特征矢量序列描述

q 代表查询关键帧图像，用特征矢量描述

DB 特征矢量数据库

T 查询控制参数，T越大，则所需查询的近似矢量数目越大

k 返回查询结果的数量

d(x，y) 距离函数，计算高维矢量x和y之间的距离

sim(x，y) 相似度函数，计算高维矢量x和y之间的相似度

sim(X，Y) 相似度函数，计算视频片断X和Y之间的相似度

d_i 根据关键帧在数据库中的位置所赋予的自然数id

s_i 和数据库中d_i帧相似的所有查询帧的集合

W_min，W_max 用户定义的返回结果视频片段的最小可能长度和最大可能

长度，单位是帧数

P_begin，P_end每次相似度计算从数据库中所选择视频片断的起始位置和

结束位置

R_temp 近似查询时保存当前所有可能查询结果的集合

V_temp 每次相似度计算从数据库中所选择的视频片断

sim_tempk 判断一个视频片断是否为可能的查询结果的相似度临界值

发明内容

本发明的目的在于提出一种能够对视频片段进行快速相似查询的k近邻方法，在几乎不影响查询结果质量的前提下缩短检索时间。

本发明提出的用于视频片段快速相似查询的k近邻方法，是基于Ordered VA-File实现的一种算法，它首先用Ordered VA-File为待查询视频片段中每一个关键帧，在视频数据库中找到与它相似的T×k个近邻，然后排序并扫描这些近邻的集合，找到与查询片段相似度最高的k个视频片段作为结果返回。由于不需要扫描全部视频数据库，因此极大提高了检索速度。

本发明的基本步骤如下：定义任意两个视频片段之间的相似度为“两段视频中所有相似帧的数目之和”与“两段视频长度之和”的比值；(1)首先为视频数据库中每一幅关键图像的对应的高维特征矢量建立索引结构，即Ordered VA-File。具体可为视频根据其在数据库中的排列顺序，为视频数据库中的每一特征矢量从1开始赋予连续的自然数id(在整个数据库中是唯一的)，利用Ordered VA-File为特征矢量建立索引，将得到的Ordered VA-File索引文件保存在磁盘上；(2)对于用户提交的查询视频片段中的每一帧，利用Ordered VA-File找出它的T×k近邻，其中T为查询控制参数；所有查询帧的T×k近邻都保存在主存中；(3)将所有查询帧的T×k近邻按照它们在视频数据库中的先后位置关系排序，如果数据库中的某一帧同时属于n个查询帧的T×k近邻，记录下这些帧的帧号；排序完成以后得到二元有序序列<d₀，s₀>，<d₁，s₁>......<d_n，s_n>，其中d_i表示该帧在数据库中的位置，s_i表示在查询片段中和d_i相似的所有帧的帧号；所有的排序工作都在主存中完成，不需要访问磁盘；(4)根据一定算法对该有序序列进行扫描，根据用户定义的查询结果的最大长度W_max和最小长度W_min，计算所有可能为k近邻的片段和查询片段之间的相似度，返回相似度最大的前k个片段。

本发明中，可以根据具体应用自适应调整参数：控制参数T和查询结果视频片段的最大长度W_max和最小长度W_min，通过调节这些参数，检索***在查询效率和查询质量之间取折中。通常情况下，T的取值范围为3-10。

本发明中，如果两个视频片段是相似的，并不要求两个视频片段有同样的帧数或同样的镜头数，也不要求视频片段中每个相似镜头有同样或类似的出现顺序。

上述方法中，由于序列长度远远小于数据库大小且扫描全部在主存中完成，所以大大减少了磁盘代价，提高了检索速度。

具体实施方式

本发明中，视频帧之间的相似度具体定义如下：设DB为特征矢量数据库，q为查询矢量，y为DB中的特征矢量，T为查询控制参数，

sim (q, y) = \{\begin{matrix} 1 & Σ_{x &Element; DB} (d (q, x) < d (q, y) ? 1 : 0) < T * k, \\ 0 & Σ_{x &Element; DB} (d (q, x) < d (q, y) ? 1 : 0) > T * k, \end{matrix}

如果两幅视频帧图像之间的相似度值等于1，则称它们互为相似帧。这种定义方式使得判断两帧是否相似仅仅和用户感兴趣的结果数量k相关，相比较于“定义一个绝对距离阈值来判断是否相似”这种做法具有更大的灵活性和可行性，因为在很多情形下用户是无法定义一个绝对阈值的。

本发明中，视频片段之间的相似度具体定义如下：令X、Y分别代表两段视频，对于X中的一帧，如果Y中至少有一帧和它相似，则称该帧为X中的Y相似帧，所有X中的Y相似帧数目可以标记为：∑_x∈X1_{{y∈Y:sim(x，y)＝1}}；同理，所有Y中的X相似帧数目可以标记为∑_y∈Y1_{{x∈X:sim(x，y)＝1}}；则X和Y之间的相似度计算公式为：

sim (X, Y) = \frac{Σ_{x &Element; X} 1_{{y &Element; Y : sim (x, y) = 1}} + Σ_{y &Element; Y} 1_{{x &Element; X : sim (x, y) = 1}}}{| X | + | Y |}

本发明中，利用Ordered VA-File为视频数据库建立索引的算法可参考我们已经提交的发明专利申请[9]。

本发明中，基于Ordered VA-File得到的近似k近邻的算法进一步描述如下：

设用户提交的查询视频片断为Q，用户要求返回的视频片断长度(即帧数)在W_min-W_max之间(W_min＜W_max)，以下为实现查询的详细步骤：

1)利用Ordered VA-File快速得到查询Q中的每一关键帧的T×k近邻，并根据上面的相似判断规则确定它们的相似关系；

2)将所有查询帧的T×k近邻按照它们在视频数据库中的先后位置关系排序，如果数据库中的一帧同时属于多个查询帧的T×k近邻，记录下这些帧的帧号；设所得到的有序序列表示为<+∞，0>，<d₀，s₀>，<d₁，s₁>......<d_n，s_n>，d_i＜d_j if i＜j。其中d_i表示该帧在数据库中的位置，s_i表示在查询片段中和d_i相似的所有帧的帧号。根据d和s以及相似度模型可以求得数据库中任意一段视频和查询视频的相似度，具体计算公式为：设数据库中的视频片断为[p，q]，p＜q，查询视频长度为L，如果[p，q]所包含的最长有序序列为<d_i，s_i>，<d_i+1，s_i+1>......<d_i+j，s_i+j>，则[p，q]与查询片断之间的相似度为

\frac{(j + 1) + | | \cup_{k = 0}^{j} s_{i + k} | |}{(q - p + 1) + L};

3)初始化P_end＝d₀，设近似结果集R_temp＝Ф；sim_tempk等于0；

4)扫描序列判断是否存在d_i，使得W_min＜P_end-d_i≤W_max并且P_end-d_i-1＞W_max；如果存在符合条件的d_i，转5)，否则转7)；

5)P_begin＝d_i。设V_temp＝{P_begin，P_end}，根据相似度模型计算V_temp与查询Q的相似度值sim(Q，V_temp)，如果该相似度大于当前k近邻相似度sim_tempk，转6)，否则转8)；

6)如果R_temp中所有序列和当前序列都没有重叠，那么R_temp＝R_temp+{V_temp}，否则比较R_temp中与当前序列有重叠的序列和当前序列的最大相似度，R_temp中只保留它们之中相似度最大的结果；如果R_temp中包含了当前序列并且sim(Q，V_temp)大于当前k近邻相似度sim_tempk并且R_temp中的元素个数大于k，sim_tempk＝sim(Q，V_temp)；如果R_temp中的元素个数等于k，sim_tempk等于R_temp所有元素的相似度的最小值。转8)；

7)如果P_end-W_min＞0，则P_begin＝P_end-W_min；否则P_begin＝1。设V_temp＝{P_begin，P_begin+W_min}，根据相似度模型计算V_temp与查询Q的相似度值sim(Q，V_temp)，如果该相似度大于当前k近邻相似度sim_tempk，转6)，否则转8)；

8)如果P_end≠d_n，则P_end＝d_i+1，转3)；否则退出并返回R_temp。

本发明中，有关参数的确定准则如下：

1)构建索引结构Ordered VA-File的参数设定准则在[9]中已有详细描述。

2)确定T的原则：T越大，对于单独的查询帧所需要查询的近邻个数越多，需要排序和查询的数据个数也越多，导致查询时间的增加；同时，对于每一帧得到的信息也更多，查询结果的精确度也更高。

总之，本发明提出了一种利用Ordered VA-File对视频片段进行快速、近似、k近邻检索的算法，并可根据用户的需求自适应调整查询速度和查询精度，具有极高的查询效率。

利用本发明方法，进行很多例子的实验验证，下面是一个实例子的结果。

实验数据来源于BBC电视，包括了新闻、体育等各种类型的节目。首先对视频进行镜头分割，然后从每个镜头中抽取一个关键帧，整个数据库一共包括50,000幅关键帧图像，对每一关键帧提取颜色直方图作为特征向量，维数为192。实验机器是PIII CPU 1G Hz，256M内存的PC，操作***为Windows 2000Server，编译环境为Borland C++Builder6.0。

在实验中，50000个特征矢量数据被分割成1000段，k近邻查询时统一查询其中50个矢量段，返回结果视频片断的最小长度和最大长度分别为查询视频片断长度和1.5倍查询视频片断长度。

在查询速度测试中，本算法和顺序扫描算法以及基于VA-File的片断检索算法进行了比较。相比较于顺序扫描算法，本算法的查询速度提高了30倍以上；相比较于基于VA-File的片断检索算法，查询速度亦提高了10倍以上。实验结果表明，在速度上本算法完全达到了视频片断实时查询的要求。

在查询精度测试中，本算法和顺序扫描算法以及文[10]中的算法进行了比较。由于OVA-File在k近邻查询时良好的结果质量，本算法在和顺序扫描算法比较时取得了非常优异的查询精度，其查询精度在90％以上；在和文[10]中的算法比较时，尽管文[10]中的算法采用了非常复杂的相似度模型来保证查询结果质量，而本算法采用的相似度模型相对计算简单，但是实验结果证明两者取得的查询结果集合质量相差无几，而两者的查询时间却相差了一个数量级。

实验表明，无论在查询速度还是查询精度上，本算法都获得了非常优异的结果，完全可以应用在成熟的多媒体信息检索***中实现实时的视频片断检索。

Claims

1、一种用于视频片段快速相似查询的k近邻检索方法，其特征在于基本步骤如下：(1)首先为视频数据库中每一幅关键帧图象所对应的高维特征矢量建立索引结构，即Ordered VA-File；(2)对于用户提交的查询视频片段中的每一帧，利用Ordered VA-File找出它们的T×k个近邻，其中T为查询控制参数；(3)将所有查询帧的T×k近邻按照它们在视频数据库中出现的先后位置关系排序，如果视频数据库中的某一帧同时属于n个查询帧的T×k近邻，记录下这些查询帧的帧号；排序完成以后得到二元有序序列<d₀，s₀>，<d₁，s₁>......<d_n，s_n>，其中d_i表示该帧在数据库中的位置，s_i表示在查询片段中和d_i相似的所有帧的帧号；(4)对该二元有序序列进行扫描，根据用户定义的查询结果的最大长度W_max和最小长度W_min，计算所有可能为k近邻的片段和待查询视频片段之间的相似度，返回相似度最大的前k个片段，其中：

判断两幅视频帧图像是否相似的规则如下：设DB为特征矢量数据库，q为查询矢量，y为DB中的特征矢量，T为查询控制参数，

sim (q, y) = \{\begin{matrix} 1 & Σ_{x &Element; DB} (d (q, x) < d (q, y) ? 1 : 0) < T * k, \\ 0 & Σ_{x &Element; DB} (d (q, x) < d (q, y) ? 1 : 0) > T * k, \end{matrix}

如果两幅视频帧图像之间的相似度值等于1，则称它们互为相似帧；

利用Ordered VA-File得到近似k近邻的算法如下：设用户提交的查询视频片段为Q，用户要求返回的视频片段长度在W_min-W_max之间，

1)利用Ordered VA-File快速得到查询Q中的每一关键帧的T×k近邻，并根据相似判断规则确定它们的相似关系；

2)将所有查询帧的T×k近邻按照它们在视频数据库中的先后位置关系排序，如果数据库中的一帧同时属于多个查询帧的T×k近邻，记录下这些帧的帧号；设所得到的有序序列表示为<+∞，0>，<d₀，s₀>，<d₁，s₁>......<d_n，s_n>，d_i＜d_i if i＜j；其中d_i表示该帧在数据库中的位置，s_i表示在查询片段中和d_i相似的所有帧的帧号，根据d和s以及相似度模型求得数据库中任意一段视频和查询视频的相似度，具体计算公式为：设数据库中的视频片段为[p，q]，p＜q，查询视频长度为L，如果[p，q]所包含的最长有序序列为<d_i，s_i>，<d_i+1，s_i+1>......<d_i+j，s_i+j>，则[p，q]与查询片段之间的相似度为

\frac{(j + 1) + | | \cup_{k = 0}^{j} s_{i + k} | |}{(q - p + 1) + L};

3)初始化P_end＝d₀，设近似结果集R_temp＝Φ；sim_tempk等于0；

5)P_begin＝d_i，设V_temp＝{P_begin，P_end}，根据相似度模型计算V_temp与查询Q的相似度值sim(Q，V_temp)，如果该相似度大于当前k近邻相似度sim_tempk，转6)，否则转8)；

6)如果R_temp中所有序列和当前序列都没有重叠，那么R_temp＝R_etmp+{V_temp}，否则比较R_temp中与当前序列有重叠的序列和当前序列的最大相似度，R_temp中只保留它们之中相似度最大的结果；如果R_temp中包含了当前序列并且sim(Q，V_temp)大于当前k近邻相似度sim_tempk并且R_temp中的元素个数大于k，sim_tempk＝sim(Q，V_temp)；如果R_temp中的元素个数等于k，sim_tempk等于R_temp所有元素的相似度的最小值，转8)；

7)如果P_end-W_min＞0，则P_begin＝P_end-W_min；否则P_begin＝1，设V_temp＝{P_begin，P_begin+W_min}，根据相似度模型计算V_temp与查询Q的相似度值sim(Q，V_temp)，如果该相似度大于当前k近邻相似度sim_tempk，转6)，否则转8)；

8)如果P_end≠d_n，则P_end＝d_i+1，转3)；否则退出并返回R_temp。