CN103020138A

CN103020138A - 一种视频检索的方法和装置

Info

Publication number: CN103020138A
Application number: CN2012104761657A
Authority: CN
Inventors: 宗竞
Original assignee: JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Priority date: 2012-11-22
Filing date: 2012-11-22
Publication date: 2013-04-03

Abstract

本发明提供了一种视频检索的方法和装置，所述视频检索方法包括下述步骤：获取压缩视频数据的纹理特征；获取压缩视频数据的运动特征；和根据获取的压缩视频数据的纹理特征和获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性。本发明基于压缩域特征进行视频检索，能够提高视频检索的处理效率。

Description

一种视频检索的方法和装置

技术领域

本发明涉及网络技术，尤其是一种视频检索的方法和装置。

背景技术

随着多媒体计算技术的迅猛发展和网络传输技术的不断提高，人们可以访问到的多媒体数据急剧增长。视频作为多媒体数据中最复杂的一种媒体形式，凭借其多样化的表现形式、丰富的语义内容以及便捷的记录方式得到了广泛地应用和发展。

视频检索就是要从大量的视频数据中找到所需的视频片断。根据给出例子或是特征描述自动地找到所需的视频片断点即实现基于内容的视频检索。

基于内容的视频分析和检索研究的目的是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取。它是根据视频的内容以及上下文关联，在大规模视频数据中进行检索。基于内容的视频检索包括很多技术，例如视频结构的分析(镜头检测技术)、视频数据的自动索引和视频聚类等。

目前，在基于内容的视频检索技术的研究方面，除了识别和描述图像的颜色，纹理，形状和空间关系外，其他主要集中在视频镜头分割，特征的提取和描述(包括：视觉特征，颜色，纹理和形状及运动信息和对象信息等)，关键帧提取和结构分析等方面。

根据提交视频内容的不同，视频检索一般分为镜头检索和片段检索。一般来说，片段的概念等价于场景的概念，也是由一连串语义相关的连续镜头构成，不同的是，片段可以是一段完整场景的部分或者全部。目前视频检索的多数研究还集中在镜头检索上。而片段检索方面的研究则刚刚开始。实际上，从用户的角度分析，他们对视频数据库的查询通常会是一个视频片段而很少会是单个的物理镜头。从信息量的角度分析，由几个镜头组成的视频片段有比单个镜头更多的语义，它可以表示用户感兴趣的事件，因此查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。

已有的视频检索***，在视频数据处理时，多是基于解压缩的数据。解压缩需要一定的运算时间和相应的运算量，导致视频检索***处理效率降低。

因此，需要一种基于压缩域特征的视频检索方法和装置以提高视频检索的处理效率。

发明内容

根据本发明的一个方面，提供了一种视频检索方法，包括下述步骤：获取压缩视频数据的纹理特征；获取压缩视频数据的运动特征；和根据获取的压缩视频数据的纹理特征和获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性。

其中，所述压缩视频数据是根据MPEG－2标准的压缩视频流。

其中，所述获取压缩视频数据的纹理特征的步骤包括提取所述压缩视频的关键帧并获取上述关键帧的纹理特征。

其中，所述获取压缩视频的运动特征包括从压缩视频数据中中提取运动矢量场和DCT残差系数矩阵并进行基于四参数模型的全局运动分析以获取镜头运动参数和可靠背景宏块，同时运动补偿以获得各宏块的绝对运动矢量。

根据本发明的另一方面，提供了一种视频检索装置，包括：第一特征获取模块，用于获取压缩视频数据的纹理特征；第二特征获取模块，获取压缩视频数据的运动特征；和判断模块，用于根据第一特征获取模块获取的压缩视频数据的纹理特征和第二特征获取模块获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性。

根据本发明的视频检索方法和装置基于压缩域特征进行视频检索，能够提高视频检索的处理效率。

附图说明

图1是根据本发明实施方式的视频检索方法的流程图；和

图2是根据本发明实施方式的移动支付方法的流程图。

具体实施方式

下面对参考附图对本发明的视频检索的方法和装置的优选实施例进行详细的描述，需要注意的是，下面的描述仅是示意性的，其中所涉及的内容并不构成对发明所涉及内容的限制，本领域技术人员在下面公开内容的基础上还可以有许多不同的变化方式，这些都属于本发明的保护范围。

考虑到现有视频检索技术中存在的处理效率问题，本发明的实施方式提供了一种一种基于内容的视频检索解决方案，首先直接提取压缩视频的纹理特征和运动特征，并对这些内容特征值进行分析，然后引入模糊判决理论实现特征融合并进行视频检索。

在对视频图象进行数字化时将生成大量的数字信息，例如一帧720X576点阵、16位色的数字图象占用1.35MB的存储空间，所以全活动（每秒25帧）图象所占用的带宽将达到每秒33.75MB。照此速度，常用的CD-R盘片只能存储16秒这种活动图象。因此，为了进入实际应用，必然需要对视频信号进行压缩。

视频压缩分为无损压缩与有损压缩。

无损压缩是指回放压缩文件时，能够准确无误地恢复原始数据。这常用于数据文件的压缩，例如ZIP文件。无损压缩常用的算法是Huffman方法和可变游程编码。Huffman统计码字出现的概率，按照频率高的码字分配较短编码位数这一编码原则，减小平均字长，达到压缩数据的效果。这种压缩算法需要预先统计图像中颜色值出现的概率，编码方案每幅图像都不相同，编码效率不高。可变游程编码使用一对参数，颜色和长度，来代替一连串连续存储的相同颜色值，从而减小相同颜色所占用的存储空间。这种压缩算法压缩黑白图片时非常有用，但是对活动的彩色图象压缩时并不实用，它受图象复杂度的影响太大，造成压缩率过低，很难超过3：1。

有损压缩算法靠丢掉大量冗余信息来降低数字图象所占的空间，回放时也不能完整地恢复原始图象，而将有选择地损失一些细节，损失多少信息由需要多高的压缩率决定。对同一种压缩算法来讲，所需压缩率越高，损失的图象信息越多。一般采用的算法为变换编码+运动检测。现在通用的变换编码有DCT（离散余弦变换）和小波变换，运动检测采用块搜索算法。还有其他一些编码算法：对象编码，基于模型的编码，分形编码等。现在所用的MPEG、H.263等压缩标准，都是基于变换编码+运动检测的方法，都属于有损算法。

MPEG系列是目前使用最多的压缩标准。MPEG(Moving Picture Expert Group)是在1988年由国际标准化组织(International Organization for Standardization，ISO)和国际电工委员会(International Electrotechnical Commission，IEC)联合成立的专家组，负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。

MPEG-2标准是MPEG系列标准中直接与数字电视广播有关的高质量图像和声音编码标准。MPEG-2是MPEG-1的扩充，因为其与MPEG-1的基本编码算法都相同，但MPEG-2增加了许多MPEG-1所没有的功能，例如运动向量的精确度提高到半个像素；由于关键帧里存在特殊向量，扩展了错误冗余；离散余弦变换中可选择精度；超前预测模式；质量伸缩性（在同一视频流中可容忍不同质量的图象）；支持VBR，提供了位速率的可变性能(scalability)功能；增加了隔行扫描电视的编码。

MPEG-2的***模型标准主要是用来定义电视图像数据、声音数据和其他数据的组合，把这些数据组合成一个或者多个适合于存储或者传输的基本数据流。数据流有两种形式，一种称为程序数据流(Program Stream，PS)，另一种称为传输数据流(Transport Stream，TS)。程序数据流是组合一个或者多个规格化的即包化基本数据流(Packetized Elementary Streams，PES)而生成的一种数据流，用在出现错误相对比较少的环境下，适合使用软件处理的应用；传输数据流也是组合一个或者多个PES而生成的一种数据流，它用在出现错误相对比较多的环境下，例如在有损失或者有噪声的传输***中。

下面将结合MPEG-2视频流的应用场合进一步说明根据本发明的视频检索方法即装置。

图1是根据本发明实施方式的视频检索方法的流程图。

如图1所示，根据本发明实施方式的视频检索方法在步骤S101获取压缩视频数据的纹理特征。

为了获取视频数据的纹理特征，首先要在压缩域提取视频关键帧。视频数据是无序的、非结构化的。关键帧提取技术可以实现对这种非结构化数据进行有效的组织、管理、索引与查询。传统的关键帧提取技术是在像素域进行的，满足不了本发明的需要。而压缩域关键帧提取技术具有处理速度快、资源占用少，时间效率高等特点，已成为视频结构化过程的首选技术。

现有技术中已经提出一些压缩域的关键帧提取技术。例如首先对MPEG压缩视频文件部分解码，读取码流信息，提取出I帧的亮度DC系数作为图像特征向量，用欧氏距离来表示相邻I帧间的特征向量的相似度，再通过算法中自适应阈值的判别，得到关键帧。

随后，获取上述关键帧的纹理特征。一幅图像的纹理是在图像计算中经过量化的图像特征。图像纹理描述图像或其中小块区域的空间颜色分布和光强分布。纹理特征的提取分为基于结构的方法和基于统计数据的方法。一个基于结构的纹理特征提取方法是将所要检测的纹理进行建模，在图像中搜索重复的模式。现有的纹理特征提取方法包括LBP法（Local binary patterns）和灰度共生矩阵法。

LBP法对LBP特征向量进行提取的步骤如下：首先将检测窗口划分为16×16的小区域（cell），对于每个cell中的一个像素，将其环形邻域内的8个点（也可以是环形邻域多个点，如图 3-4. 应用LBP算法的三个邻域示例所示）进行顺时针或逆时针的比较，如果中心像素值比该邻点大，则将邻点赋值为1，否则赋值为0，这样每个点都会获得一个8位二进制数（通常转换为十进制数）。然后计算每个cell的直方图，即每个数字（假定是十进制数）出现的频率（也就是一个关于每一个像素点是否比邻域内点大的一个二进制序列进行统计），然后对该直方图进行归一化处理。最后将得到的每个cell的统计直方图进行连接，就得到了整幅图的LBP纹理特征，然后便可利用SVM或者其他机器学习算法进行分类了。

灰度共生矩阵是另一种纹理特征提取方法，首先对于一幅图像定义一个方向（orientation）和一个以pixel为单位的步长(step)，灰度共生矩阵T（N×N），则定义M(i,j)为灰度级为i和j的像素同时出现在一个点和沿所定义的方向跨度步长的点上的频率。其中N是灰度级划分数目。由于共生矩阵有方向和步长的组合定义，而决定频率的一个因素是对矩阵有贡献的像素数目，而这个数目要比总共数目少，且随着步长的增加而减少。因此所得到的共生矩阵是一个稀疏矩阵，所以灰度级划分N常常减少到8级。如在水平方向上计算左右方向上像素的共生矩阵，则为对称共生矩阵。类似的，如果仅考虑当前像素单方向（左或右）上的像素，则称为非对称共生矩阵。

如图1所示，根据本发明实施方式的视频检索方法在步骤S102获取压缩视频数据的运动特征。运动对象的提取是进行视频分析的一个重要部分。传统的提取方法是在像素域中完成，将其用于以压缩形式存储的视频则需要耗费大量的时间先进行压缩码流的解码。为了提高速度，通过对MPEG码流的特性分析，现有技术中已经存在直接在压缩域中进行运动对象提取。例如，可以首先从压缩码流中提取运动矢量场和DCT残差系数矩阵。其次，进行基于四参数模型的全局运动分析，获取镜头运动参数和可靠背景宏块，同时运动补偿以获得各宏块的绝对运动矢量。接着，采用基于四阶矩的运动检测得到存在运动对象的候选区域，而后根据运动相关性特点定义宏块间的运动幅度和角度的相关性测度，扫描运动检测后的候选区域，对满足阈值条件的各宏块进行聚类分析并结合残差DCT系数修正聚类结果，以完成运动目标的分割。最后采用一定的后处理技术以进一步提高分割精度。

在步骤S103，根据本发明实施方式的视频检索方法根据步骤S101获取的压缩视频数据的纹理特征和步骤S102获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性。

随着图像融合技术的研究与发展，特征融合在图像相似度度量方面的优势逐渐明显起来。单一图像特征分别从不同角度反映图像的属性，特征融合能够利用多特征的有用信息，又在一定程度上消除主客观因素的干扰，是一个非常有价值的方案。可以对各个特征的权重进行设置，从而达到满意的检索效果。

图2是本发明的视频检索装置的框图。如图2所示，视频检索装置包括：第一特征获取模块201，用于获取压缩视频数据的纹理特征；第二特征获取模块202，用于获取压缩视频数据的运动特征特征；判断模块203，用于根据第一特征获取模块201获取的压缩视频数据的纹理特征和第二特征获取模块202获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性。

综上所述，根据本发明实施方式的移动支付***利用用户的生物特征进行安全认证，有效地避免了非授权人员对利用移动终端进行支付交易，从而大大地提到了移动支付的安全可靠性。

Claims

1.一种视频检索方法，其特征在于，包括下述步骤：

获取压缩视频数据的纹理特征（101）；

获取压缩视频数据的运动特征（S102）；和

根据获取的压缩视频数据的纹理特征和获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性（S204）。

2.如权利要求1所述的视频检索方法，其中，所述压缩视频数据是根据MPEG－2标准的压缩视频流。

3.如权利要求1或2所述的视频检索方法，其中，所述获取压缩视频数据的纹理特征的步骤包括提取所述压缩视频的关键帧并获取上述关键帧的纹理特征。

4.如权利要求1或2所述的视频检索方法，其中，所述获取压缩视频的运动特征包括从压缩视频数据中中提取运动矢量场和DCT残差系数矩阵并进行基于四参数模型的全局运动分析以获取镜头运动参数和可靠背景宏块，同时运动补偿以获得各宏块的绝对运动矢量。

5.一种视频检索装置，其特征在于，包括：

第一特征获取模块（201），用于获取压缩视频数据的纹理特征；

第二特征获取模块（202），获取压缩视频数据的运动特征；和

判断模块（203），用于根据第一特征获取模块（201）获取的压缩视频数据的纹理特征和第二特征获取模块（202）获取的压缩视频数据的运动特征的特征融合进行相似度度量以判断所述压缩视频数据的相关性（S204）。