CN202306549U

CN202306549U - 一种基于光流方法的视频检索***

Info

Publication number: CN202306549U
Application number: CN2011204285596U
Authority: CN
Inventors: 陈颖; 杜耀刚; 李家
Original assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Current assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date: 2011-11-03
Filing date: 2011-11-03
Publication date: 2012-07-04
Anticipated expiration: 2021-11-03

Abstract

一种基于光流方法的视频检索***，其包括：视频镜头预处理装置，其对摄取的视频镜头进行帧分割，对每帧图像进行卷积平滑；光流特征提取器，其对每相邻的两帧图像计算像素点的光流值，进而得到光流的模长与幅角信息；视频图像帧分类器，其对视频镜头中的帧图像进行区分，将光流特征提取器提取的具有相似模长大小与幅角方向的图像帧归为一类；光流直方图矩阵计算装置，其对视频图像帧分类器分好的每一类图像帧构造基于模长与幅角的光流直方图，分别得到基于模长与幅角的视频镜头光流直方图矩阵；匹配检索装置，其基于光流直方图矩阵的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，检索出匹配图像；显示装置，显示匹配检索结果。

Description

一种基于光流方法的视频检索***

技术领域

本实用新型涉及计算机模式识别处理***，特别是涉及一种基于光流方法的视频检索***。

背景技术

基于内容的视频检索***一直是多媒体信息研究领域的热点问题。***的大致工作模式是把给定的原始视频依据图像帧之间的突变或是渐变方式分割成若干相关的独立单元镜头；然后，对每个被分割出来的镜头提取一定的特征作为该镜头的索引结构；最后，依据所建立的索引结构计算待测镜头与目标镜头之间的相似度，从而使得用户在提交了浏览或查询的请求时匹配出相应的结果。依据提取特征的不同，视频检索的现有***可以细分为基于颜色特征的***、基于域空间特征的***、基于形状特征的***、基于运动特征的***等。

基于颜色特征***的代表工作首先是由Ferman等人提出来的(参见A.M.Ferman，A.M.Tekalp，and R.Mehrotra.Robust Color HistogramDescriptors for Video Segment Retrieval and Identification.IEEETransaction on Image Processing，Vol.11，No.5，pp.497-508，2002)。他们综合考虑镜头中所有帧的颜色直方图信息，利用阿尔法裁剪颜色直方图的***去构造视频的镜头索引结构，对所有帧相应直方图量化分量上的值进行排序，然后根据排序计算出排序的中值，围绕中值选取相应的邻域求取均值，以此作为最后的直方图，当邻域选取为0时，阿尔法裁减平均算子退化为中值，当邻域选取可以覆盖镜头内所有的帧时，该算子退化为均值。然而，基于阿尔法裁剪颜色直方图的***具有两个缺点：首先，它丢弃了帧内的空间信息；第二，对于检索排序而言每一个直方图的系数分量都要进行计算，通常直方图的尺寸较大，这使得检索的过程极为费时。

对于一个镜头，我们还可以考虑其帧内的空间频率内容和帧间的统计信息，即域空间特征。空间频率的内容由离散余弦变换(DCT)获得，对于不同的频率系数，基于一定的概率统计模型去描述其在一个镜头内的信息。由于在DCT域中，低频分量具有更大信息。Lee等人提出了基于由粗至精级联结构的快速检索方案(参见H.C.Lee and S.D.Kim.Rate-driven Key FrameSelection Using Temporal Variation of Visual Content.ElectronicsLetters，Vol.38，No.5，pp.217-218，2002)，该方案仅根据首几个低频DCT系数便可去除大量的不相似的镜头，仅有少量的镜头就能够传至更精细的下一级进行细检，计算量因此被大大减少。域空间特征的缺点就是很多时候并不能真实反映视频的语义内容，因此就限制了只能在某些特殊的场合使用。

镜头的关键帧可以作为镜头内容的重要表示，一旦关键帧选定，研究的对象就从视频转化为图像，利用图像中物体或区域的形状特征是一个有效而重要的手段。现有的基于形状特征的视频检索方法主要有两种，一种是Zhang等人[9]使用的轮廓特征(参见D.S.Zhang and G.J.Lu.Generic FourierDescriptor for Shape-based Image Retrieval.IEEE InternationalConference on Multimedia and Expo，pp.425-428，2002)，采用物体边界的傅立叶变换作为其形状描述；一种是区域特征，主要用来描述物体上的每一点与其他点之间的联系程度，这方面的代表工作有Li等人使用的形状无关矩(参见Z.M.Li，J.Zhang，Y.J.Liu，and H.Li.The Curve-structureInvariant Moments for Shape Analysis and Recognition.NinthInternational Conference on Computer Aided Design and ComputerGraphics，pp.163-197，2005)、Cakmakov等人使用的旋转函数(参见D.Cakmakov and E.Celakoska.Shape Matching of Digital Curves.Proceedings of the 4th International Symposium on Image and SignalProcessing and Analysis，pp.457-461，2005)和Zhang等人使用的小波描述符(参见H.M.Zhang，Q.H.Wang，Y.X.Kan，J.H.Liu，and Y.W.Gong.Researches on Hierarchical Image Retrieval Model Based on WaveletDescriptor and Indexed by Half-Axes-Angle using R-Tree.InternationalConference on Machine Learning and Cybernetics，pp.3755-3759，2006)。注意到合适的形状特征必须满足对变换、旋转和缩放无关，这对形状相似度的计算带来了极大难度，所以无论是基于轮廓特征还是基于区域特征，都有其应用的局限性。

运动特征是视频的重要内容。运动特征又可以分为两类，一类是镜头的运动特征，主要是利用MPEG视频中的帧类型、宏块类型、运动矢量这些压缩参数信息建立索引，Haubold等人(参见A.Haubold and M.Naphade.Classification of Video Events using 4-dimensional time-compressedMotion Features.ACM International Conference on Image and VideoRetrieval，pp.178-185，2007)和Wang等人(参见F.Wang，Y.G.Jiang，C.W.Ngo.Event-based Semantic Detection Using Motion Relativity andVisual Relatedness.IEEE International Conference on Multimedia，pp.239-248，2008)在这方面都做出了不错的工作。这些***具有计算成本低的特点，但此类***的缺陷也是明显的，因为它们所表示的并不是视频内容中运动物体真实的运动情况，仅仅是镜头间的运动变化情况，而人的视觉***往往更容易被前者所作用和吸引。视频内容中运动物体的运动特征是第二类重要的特征，Tahayna等人(参见B.Tahayna，M.Belkhatir，and S.Alhashmi.Motion Information for Video Retrieval.IEEE international conferenceon Multimedia and Expo，pp.870-873，2009)和Feng等人(参见B.L.Feng，J.Cao，S.X.Lin，Y.D.Zhang，and K.Tao.Motion Region-based TrajectoryAnalysis and Re-ranking for Video Retrieval.IEEE internationalconference on Multimedia and Expo，pp.378-381，2009)在他们提出的***中关注于通过视频中运动物体的运动轨迹来检索，实验证明，使用运动轨迹在检索精度上和识别率上远优于使用镜头的运动特征，但运动轨迹的刻画也需要建立相应的模型，由此会比第一类运动特征增加较多的计算成本，花费较多的运行时间。

实用新型内容

本实用新型提供一种基于光流方法的视频检索***，该***通过对视频镜头的图像帧集合采取捕捉光流特征进行分类，并对每一类构造相应的光流直方图，通过比较不同直方图之间的距离匹配待检索的视频内容，其***框架参见图1。

一种基于光流方法的视频检索***，其特征在于包括：

视频摄取装置；

视频镜头预处理装置，其对摄取的视频镜头进行帧分割，对每帧图像进行卷积平滑；

光流特征提取器，其对视频镜头预处理装置平滑后的每相邻的两帧图像计算像素点的光流值，进而得到光流的模长与幅角信息；

视频图像帧分类器，其对视频镜头中的帧图像进行区分，将光流特征提取器提取的具有相似模长大小与幅角方向的图像帧归为一类；

光流直方图矩阵计算装置，其对视频图像帧分类器分好的每一类图像帧构造基于模长与幅角的光流直方图，分别得到基于模长与幅角的视频镜头光流直方图矩阵；

匹配检索装置，其基于光流直方图矩阵的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，检索出匹配图像；

显示装置，显示匹配检索结果。

基于内容的视频检索指的是能自动识别或理解视频序列的重要特征，根据视频和视频对象的内容及上下文联系在大规模视频数据库中检索出用户所需要的视频信息，其应用的现实性是迫切急需的。本实用新型提出了一种新颖的图像检索***，采用光流特征作为检索的依据，能很好的反映出视频本身的动态内容，快速地找出匹配镜头。本实用新型***明确，运行鲁棒，可以植入代理服务器的防火墙，通过管理员设置相应的安全级别，从而对相关视频的信息进行检索识别；还可以运行于主机托管的Web服务器上，通过在Web服务器上加装过滤监控软件，验证防止非法用户上传包含敏感信息视频的有效性。

附图说明

图1为本实用新型的***框架图；

图2为本实用新型的技术方案流程图；

图3为视频镜头预处理流程图；

图4为图像帧分类流程图；

图5为构造光流直方图流程图；

图6为匹配待检索视频流程图。

具体实施方式

一种基于光流方法的视频检索***，首先，将给出的视频镜头预处理，将其分割成图像帧，进行卷积平滑，计算相应的光流数据；然后，根据得到的光流信息将图像帧进行分类；接着，对每类图像构造光流的模长与幅角直方图，进而得到整个视频镜头的光流直方图矩阵；最后，基于光流直方图的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，完成检索过程。具体流程参见图2。

下面具体介绍关键的实现细节：

1.视频镜头预处理，流程如图3所示；

对于一个给定的视频镜头，我们将其分割成N+1个图像帧，图像帧的大小为X×Y，对于每个图像帧f_t(x，y)，其中1≤t≤N+1，0≤x≤X-1，0≤y≤Y-1，使用卷积函数h(x，y)，得到平滑后的图像g_t(x，y)，其中

g_t(x，y)＝h(x，y)*f_t(x，y)。 (1)

任意相邻的g_t(x，y)和g_t+1(x，y)(1≤t≤N)，可算得光流场(μ_t(x，y)，v_t(x，y))。从而我们可以构造出像素点的运动大小因子MOMP和运动方向因子DOMP，即

{MOMP}_{t} (x, y) = \frac{1}{{(2 l + 1)}^{2}} Σ_{x^{'} = x - l}^{x + l} Σ_{y^{'} = y - l}^{y + l} \sqrt{{μ_{t}}^{2} (x^{'}, y^{'}) + {v_{t}}^{2} (x^{'}, y^{'})} - - - (2)

{DOMP}_{t} (x, y) = \frac{1}{{(2 l + 1)}^{2}} Σ_{x^{'} = x - l}^{x + l} Σ_{y^{'} = y - l}^{y + l} \arg (μ_{t} (x^{'}, y^{'}), v_{t} (x^{'}, y^{'})), - - - (3)

其中，

是光流的模长，arg(．，．)∈[0，2π)是光流的幅角主值，而参数l控制图像模版窗口的尺寸大小。

2.图像帧的分类，流程如图4所示；

对于每帧图像g_t(x，y)，计算它的运动大小函数M(t)与运动方向函数D(t)，

M (t) = Σ_{x = 0}^{X - 1} Σ_{y = 0}^{Y - 1} {MOMP}_{t} (x, y), - - - (4)

D (t) = Σ_{x = 0}^{X - 1} Σ_{y = 0}^{Y - 1} {DOMP}_{t} (x, y) . - - - (5)

选取合适的参数I₁和I₂，定义基于运动大小的分类函数M′(t)和基于运动方向的分类函数D′(t)，如下

其中

表示不超过#的最大整数。这样，分别基于M′(t)和D′(t)，我们可以将任意的图像帧进行归类，即在同一类的任意两帧图像

和

必须满足

M′(t₁)＝M′(t₂)， (8)

或者

D′(t₁)＝D′(t₂) (9)

最后，基于运动大小我们可以将图像帧分为m类，而基于运动方向我们可以将图像帧分为d类。

3.构造光流直方图，流程如图5所示；

首先考察光流的运动大小信息，令M₀是在整个视频数据集中MOMP_t(x，y)的最大值，B_M是光流运动大小直方图的个数，对每一个依据M′(t)所得到的分类

(1≤i≤m)，每一个p∈{1，…，n(i)}定义如下的直方图k因子

其中，k∈{1，…，B_M}，而

δ (#) = \{\begin{matrix} 1 & # = 0 \\ 0 & # &NotEqual; 0 \end{matrix} . - - - (11)

对于给定的k，可以将所有

的值按着升序排列得到如下的不等式

h_{i_{p_{1} k}}^{M} \leq h_{i_{p_{2} k}}^{M} \leq . . . h_{i_{p_{n (i)} k}}^{M}, - - - (12)

其中(p₁，…，p_n(l))是(1，…，n(i))的一个置换排列。从而我们可以定义基于光流运动大小的直方图k指标为

其中0≤α≤0.5，是控制选取直方图k因子的参数。

其次考察光流的运动方向信息，令B_D是光流运动方向直方图的个数，对每一个依据D′(t)所得到的分类

(1≤j≤d)，每一个p∈{1，…，n(j)}定义如下的直方图k因子

其中，k∈{1，…，B_D}，而

λ_{p} (x, y) = \frac{{MOMP}_{j_{p}} (x, y)}{M_{0}} . - - - (15)

类似的，我们可以定义基于光流运动方向的直方图k指标

最后，对于一个给定的视频镜头，我们就得到了两个分别基于光流大小与方向的直方图矩阵，分别是

(\begin{matrix} H_{1}^{M} (1, α) & H_{1}^{M} (2, α) & . . . & H_{1}^{M} (B_{M}, α) \\ H_{2}^{M} (1, α) & H_{2}^{M} (2, α) & . . . & H_{2}^{M} (B_{M}, α) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ H_{m}^{M} (1, α) & H_{m}^{M} (2, α) & . . . & H_{m}^{M} (B_{M}, α) \end{matrix}) - - - (16)

和

(\begin{matrix} H_{1}^{D} (1, α) & H_{1}^{D} (2, α) & . . . & H_{1}^{D} (B_{D}, α) \\ H_{2}^{D} (1, α) & H_{2}^{D} (2, α) & . . . & H_{2}^{D} (B_{D}, α) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ H_{d}^{d} (1, α) & H_{d}^{D} (2, α) & . . . & H_{d}^{D} (B_{D}, α) \end{matrix}) . - - - (17)

4.定义光流直方图距离，匹配检索的视频镜头，流程如图6所示；

对于任意的两个视频镜头S和S′，基于光流大小的直方图矩阵距离可以如下定义

{Dist}_{(S, S^{'})} (H^{M}) = Σ_{i = 1}^{m} ω_{i}^{M} \frac{Σ_{k = 1}^{B_{M}} | H_{i}^{M} (k, α) (S) - H_{i}^{M} (k, α) (S^{'}) |}{Σ_{k =}^{B_{M}} (H_{i}^{M} (k, α) (S) + H_{i}^{M} (k, α) (S^{'}))}, - - - (18)

其中是用户指定的参数。

类似的，基于光流方向的直方图矩阵距离可以定义为

{Dist}_{(S, S^{'})} (H^{D}) = Σ_{j = 1}^{d} ω_{i}^{D} \frac{Σ_{k = 1}^{B_{D}} | H_{j}^{D} (k, α) (S) - H_{j}^{D} (k, α) (S^{'}) |}{Σ_{k = 1}^{B_{D}} (H_{j}^{D} (k, α) (S) + H_{j}^{D} (k, α) (S^{'}))} . - - - (19)

那么对于两个视频镜头S和S′，它们的距离Dist(S，S′)就可以定义为

Dist(S，S′)＝ωDist_(S，S′)(H^M)+(1-ω)Dist_(S，S′)(H^D)，(20)

这样，在视频数据库中和待检索视频镜头最匹配的镜头就是和待检索视频镜头具有最小距离函数的视频镜头，从而完成整个检索过程。