CN103970885B

CN103970885B - 基于视频内容分析的3d视频搜索引擎的实现方法

Info

Publication number: CN103970885B
Application number: CN201410213424.6A
Authority: CN
Inventors: 苏生; 陈倬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2017-01-25
Anticipated expiration: 2034-05-20
Also published as: CN103970885A

Abstract

本发明公开了一种基于视频内容分析的3D视频搜索引擎的实现方法，该方法主要包括：通过网络爬虫视频网页，解析视频网页获取视频地址，下载视频样本；对所述步骤1下载的视频样本进行3D识别，若该视频样本为MVC编码格式，则保存该视频网页地址，进入步骤3；否则提取该视频的关键帧，分析该帧画面是否为3D格式，若为3D格式则进入步骤3，否则取出下一个视频样本再从头执行步骤2；将所述步骤2中被识别为3D视频的网页保存，并将视频按照相似度进行聚类，建立搜索引擎的索引。采用本发明所述方法能够有效判断出真正的3D视频，提高3D视频搜索引擎的精度。

Description

基于视频内容分析的3D视频搜索引擎的实现方法

技术领域

本发明属于视频检索技术领域，具体涉及一种基于视频内容分析的3D视频搜索引擎实现方法的设计。

背景技术

3D电影《阿凡达》的巨大成功，给3D视频领域带来了巨大的发展。3D显示技术日渐成熟，观影效果越来越好，3D视频得到了消费者广泛的认可。3D视频利用双眼视差原理，让观众的左眼和右眼获得独立的影像，从而获得三维的空间感。为了形成视差，3D视频至少包含两路影像。多视点编码(Multiview Video Coding,MVC)技术是3D视频编码的标准技术，2009年3月作为H.264标准扩展编码的附件H由联合视频编码组(JVT)正式提出。视频技术的推广是一个非常漫长的过程，需要考虑如何利用现有硬软件设备，再平滑过渡到新的技术实施标准。MVC技术的普及还需要一个漫长的过长，为了兼容现有软件***采，目前3D视频大都采用的普通视频的编码，通过将视频帧经过时间复用或空间复用的技术的处理来保存两路影像。

目前的视频搜索引擎是利用使用视频元数据(包括视频标题、标签和描述等结构化的文本信息)来检索视频，实质上使用的是文本检索技术，所以并不能识别出3D视觉特征。对于MVC编码的3D视频，可以通过编码分析很容易地识别出3D信息。但是对于普通编码的3D视频，目前还没有从视频内容上准确识别的方法。用普通视频搜索引擎或者全文搜索引擎来搜索3D视频，存在着两个缺陷。一是准确率低，对于视频搜索引擎来说，视频元数据包含“3D”或“立体”关键词的视频不一定是3D视频，对于全文搜索引擎来说，搜索结果中存在着大量非视频结果。二是召回率低，因为有的3D视频没有被人工添加“3D”相关的文本描述，则无法基于文本检索的搜索引擎检索。

发明内容

本发明所要解决的技术问题是提出一种基于视频内容分析的3D视频搜索引擎的实现方法，克服传统搜索引擎在3D视频搜索上的不足。

本发明解决其技术问题采用的技术方案是：基于视频内容分析的3D视频搜索引擎的实现方法，具体包括：

步骤1：通过网络爬虫获取视频网页，解析视频网页获取视频地址，下载视频样本；

步骤2：对所述步骤1下载的视频样本进行3D识别，若该视频样本为MVC编码格式，则保存该视频网页地址，进入步骤3；否则提取该视频的关键帧，分析该帧画面是否为3D格式，若为3D格式则进入步骤3，否则取出下一个视频样本再从头执行步骤2；

步骤3：将所述步骤2中被识别为3D视频的网页保存，并将视频按照相似度进行聚类，建立搜索引擎的索引。

进一步的，所述通过网络爬虫获取视频网页的具体过程为：利用HtmlUnit浏览器程序，模拟图形浏览器访问网页，运行网页的脚本代码，获取网页的动态数据，分析数据获取结果列表，模拟点击“下一页”获取搜索页面的下一页，如果页面不再包含“下一页”按钮，则认为本次搜索的结果已被找完。

进一步的，所述步骤2中分析关键帧画面是否为3D格式的具体过程中，该3D格式包括拼接格式和色差格式，所述拼接格式指将左右两路影像直接左右拼接或者上下拼接形成的3D视频格式，所述色差格式是指将左右两路影像分别存储于不同的RGB颜色通道形成的3D视频格式。

更进一步的，所述拼接格式的识别过程为：

步骤21：将帧图像分割为左右两部分，计算左右两部分的距离Dist 1，如果距离Dist 1小于阀值TH1，则判断该图像为左右拼接格式的图像，结束流程，否则进入步骤22；

其中，所述H表示一维直方图数组，L表示该数组的长度，k的取值范围为1～L，表示将整个图像明度划分为L阶后的第k阶明度，H₁(k)表示左半部分图像对应的直方图数组，H₂(k)表示表示右半部分图像对应的直方图数组；

步骤22：将帧图像分割为上下两部分，计算上下两部分的距离Dist 2，如果距离Dist 2小于阀值TH2，则判断该图像为上下拼接格式的图像，结束流程，否则进入步骤23；

其中，所述H₃(k)表示上半部分图像对应的直方图数组，H₄(k)表示下半部分图像对应的直方图数组；

步骤23：计算帧图像的边缘图像，在宽度为W的中央部分取出连续的W列像素，其中一列的黑色像素数目占该列像素总数的百分比δ以上，则认为存在垂直的拼缝，则判断该图像左右拼接格式的图像，结束流程，否则进入步骤24；

步骤24：计算帧图像的边缘图像，在宽度为W的中央部分取出连续的W行像素，其中一行的黑色像素数目占该列像素总数的百分比δ以上，则认为存在水平的拼缝，则判断该图像上下拼接格式的图像，否则认为是普通图像或其他3D格式的图像，结束流程。

更进一步的，所述色差格式的识别过程为：

将帧图像的红绿蓝三色通道分离出来形成三个通道图像，应用边缘提取或者二值化预处理三个通道图像，设其中两个图像I₁和I₂的宽为w，长为h，它们的边缘图像或者二值化图像为I₁’和I₂’，则I₁和I₂之间的距离Dist(I₁,I₂)定义为：

其中，I'₁(x,y)表示在图像I₁’中第y行第x列像素的明度值，I'₂(x,y)表示在图像I₂’

中第y行第x列像素的明度值；

对红青色差格式的评价值K_R定义为：

K_R＝1 if Dist(G,B)＝0

其中，R表示红色通道图像，G表示绿色通道图像，B蓝色通道图像；如果K_R大于1，则判断该图像为红青3D图像，否则进行绿靛色差格式的判断；

对绿靛色差格式的评价值K_G定义为：

K_G＝1 if Dist(B,R)＝0

如果K_G大于1，则判断该图像为绿靛3D图像，否则进行蓝黄色差格式的判断；

对蓝黄色差格式的评价值K_B定义为：

K_B＝1 if Dist(R,G)＝0

如果K_B大于1，则判断该图像为蓝黄3D图像，否则为普通格式图像。

本发明的有益效果是：本发明基于视频内容分析的3D视频搜索引擎实现方法通过利用3D视频分析方法，能够有效判断出真正的3D视频，提高3D视频搜索引擎的精度，利用分布式计算模式，能够快速分析3D视频样本，太高搜索引擎的及时性，准确及时的3D视频搜索引擎大大提升了3D视频搜索用户的体验，各种3D视频终端可以接入该搜索引擎使用3D视频搜索功能，高效准确地获取3D内容。

附图说明

图1所示为本发明具体实施方式的基于视频内容分析的3D视频搜索引擎实现方法的流程框图；

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的阐述。

如图1所示为本发明实施方式的基于视频内容分析的3D视频搜索引擎实现方法的流程框图，其具体包括：

本发明通过对视频内容的分析，建立3D视频数据库，克服了现有技术由关键字进行3D视频检索造成的准确率低的问题，并且实现的过程较为简单，检索正确率较高，为了本领域技术人员能够理解并且实施本发明技术方案，下面将对每个步骤进行详细说明：

所述步骤1中利用网络爬虫视频网页，解析视频网页获取视频地址的过程在现有技术中是较为成熟的网页获取技术，在本申请方案中不再做详细阐述。

本发明的关键技术在于对于普通编码的3D视频，通过分析视频内容来识别出3D格式，本发明将针对最为常见的拼接格式和色差格式做出详细的识别方案，其中所述拼接格式是指将左右两路影像直接左右拼接或者上下拼接形成的3D视频格式，色差格式是指将左右两路影像分别存储于不同的RGB颜色通道形成的3D视频格式。

为了本领域技术人员能够理解并且实施本发明技术方案，下面通过具体实施方式对拼接格式和色差格式的识别作进一步介绍。

所述拼接格式的识别过程为：

其中，所述H表示一维直方图数组，L表示该数组的长度，k的取值范围为1～L，表示将整个图像明度划分为L阶后的第k阶明度，比如把图像的明度划分为256阶，就可以对图像得到一个长度为256的直方图数组，H(k)就表示明度在k-1到k的像素的个数或者比例；H₁(k)表示左半部分图像对应的直方图数组，H₂(k)表示表示右半部分图像对应的直方图数组；所述阀值TH1的值可以根据具体情况进行设定；比如把明度划分为256阶，就可以对图像得到一个长度为256的直方图数组，H(k)就表示明度在k-1到k的像素的个数或者比例。

其中，所述H₃(k)表示上半部分图像对应的直方图数组，H₄(k)表示下半部分图像对应的直方图数组，所述阀值TH2的值可以根据具体情况进行设定；

步骤23：计算帧图像的边缘图像，在宽度为W的中央部分取出连续的W列像素，其中一列的黑色像素数目占该列像素总数的百分比δ1以上，则认为存在垂直的拼缝，则判断该图像左右拼接格式的图像，结束流程，否则进入步骤24；其中δ1的值可以根据具体的需求进行设定；

步骤24：计算帧图像的边缘图像，在宽度为W的中央部分取出连续的W行像素，其中一行的黑色像素数目占该列像素总数的百分比δ2以上，则认为存在水平的拼缝，则判断该图像上下拼接格式的图像，否则认为是普通图像或其他3D格式的图像，结束流程；其中δ2的值可以根据具体的需求进行设定。

下面以左右拼接为例，画面的左半部分存储左路影像，右半部分存储右路影像，左右两部分之间的关系是视频场景的左右眼视角的关系，有两种方法可以检测左右拼接格式，一是利用左右部分相似的特征，采用计算左右画面之间的距离来表征相似度的方法，即上述步骤S21的内容；二是利用拼接存在的明显拼缝的特征，采用图像边缘查找方法找出拼缝，即上述步骤S23的内容。

在介绍色差格式的识别的过程中，首先对色差格式进行说明：非色差格式图像的三个通道图像是完全重叠的图像，除了有明度差异以外，没有视角的差异，而色差格式图像的三个通道图像之中，有两个可以完成重叠，与另外一个有视角差异。利用这个原理，将帧图像的红绿蓝三色通道分离出来，形成三个通道图像，通过比较三个通道图像之间的距离，可以判断该图像是否为色差格式或是何种色差格式。

其具体过程为：将帧图像的红绿蓝三色通道分离出来形成三个通道图像，应用边缘提取或者二值化预处理三个通道图像，设其中两个图像I₁和I₂的宽为w，长为h，它们的边缘图像或者二值化图像为I₁’和I₂’，则I₁和I₂之间的距离Dist(I₁,I₂)定义为：

中第y行第x列像素的明度值；I(x,y)的含义，在这里将图像视为矩阵，也就是一个二维数组，比如一个宽320高240的图像可以视为一个240行320列的矩阵，元素的值就是明度值，I(x,y)就表示y行x列像素的明度值，RGB三色通道图像之间距离的计算公式和上面提到的直方图的计算公式是相似的，也是求差求绝对值再求和的步骤。

对红青色差格式的评价值K_R定义为：

K_R＝1 if Dist(G,B)＝0

对绿靛色差格式的评价值K_G定义为：

K_G＝1 if Dist(B,R)＝0

对蓝黄色差格式的评价值K_B定义为：

K_B＝1 if Dist(R,G)＝0

如果K_B大于1，则判断该图像为蓝黄3D图像，否则为普通格式图像。由于色差格式中，红青格式最多，应当首先判断是否为红青格式，其次再判断是否为绿靛格式和蓝黄格式。

所述步骤S3具体为：利用成熟的文本索引技术，对视频结构化的描述文本建立查询索引；利用现有的视频聚类算法，对视频进行聚类分析，并建立聚类索引以供聚类查询。本发明不涉及到视频聚类相关的内容，但是视频聚类需要在识别3D视频格式的基础上进行，针对不同格式取出3D视频的一路影像来进行聚类分析。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变，均被认为属于本发明的权利要求的保护范围。

Claims

1.基于视频内容分析的3D视频搜索引擎的实现方法，其特征在于，具体包括：

2.如权利要求1所述的基于视频内容分析的3D视频搜索引擎的实现方法，其特征在于，所述通过网络爬虫获取视频网页的具体过程为：利用HtmlUnit浏览器程序，模拟图形浏览器访问网页，运行网页的脚本代码，获取网页的动态数据，分析数据获取结果列表，模拟点击“下一页”获取搜索页面的下一页，如果页面不再包含“下一页”按钮，则认为本次搜索的结果已被找完。

3.如权利要求1所述的基于视频内容分析的3D视频搜索引擎的实现方法，其特征在于，所述步骤2中分析关键帧画面是否为3D格式的具体过程中，该3D格式包括拼接格式和色差格式，所述拼接格式指将左右两路影像直接左右拼接或者上下拼接形成的3D视频格式，所述色差格式是指将左右两路影像分别存储于不同的RGB颜色通道形成的3D视频格式。

4.如权利要求3所述的基于视频内容分析的3D视频搜索引擎的实现方法，其特征在于，所述拼接格式的识别过程为：

步骤22：将帧图像分割为上下两部分，计算上下两部分的距离Dist2，如果距离Dist2小于阀值TH2，则判断该图像为上下拼接格式的图像，结束流程，否则进入步骤23；

5.如权利要求4所述的基于视频内容分析的3D视频搜索引擎的实现方法，其特征在于，所述色差格式的识别过程为：

D i s t (I_{1}, I_{2}) = \frac{Σ_{x = 1, y = 1}^{w, h} | I_{1}^{'} (x, y) - I_{2}^{'} (x, y) |}{w \times h};

其中，I'₁(x,y)表示在图像I₁’中第y行第x列像素的明度值，I'₂(x,y)表示在图像I₂’中第y行第x列像素的明度值；

对红青色差格式的评价值K_R定义为：

K_{R} = \frac{D i s t (R, G) + D i s t (R, B)}{2 \times D i s t (G, B)} i f D i s t (G, B) &NotEqual; 0

K_R＝1if Dist(G,B)＝0

对绿靛色差格式的评价值K_G定义为：

K_{G} = \frac{D i s t (G, B) + D i s t (G, R)}{2 \times D i s t (B, R)} i f D i s t (B, R) &NotEqual; 0

K_G＝1if Dist(B,R)＝0

对蓝黄色差格式的评价值K_B定义为：

K_{B} = \frac{D i s t (B, R) + D i s t (B, G)}{2 \times D i s t (R, G)} i f D i s t (R, G) &NotEqual; 0

K_B＝1if Dist(R,G)＝0