CN102855317A

CN102855317A - 一种基于演示视频的多模式索引方法及***

Info

Publication number: CN102855317A
Application number: CN2012103201304A
Authority: CN
Inventors: 王晖
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2013-01-02
Anticipated expiration: 2032-08-31
Also published as: CN102855317B

Abstract

本发明涉及一种基于演示视频的多模式索引***，包括文本索引模块，人脸索引模块和图表索引模块，可以通过演示视频中的文本信息，如PPT上的文字或者讲解人说的话中的文字信息进行检索，也可以通过讲解人的面部特征进行索引，或者通过演示视频中的图表进行索引，通过上述索引方式，无需利用其他信息，只需要借助视频本身的信息就能进行检索，本发明所述的基于演示视频的多模式索引***有效避免了现有技术中仅使用文本信息进行检索，适用范围小的问题，是一种可以采用多种检索模式，仅依靠视频本身的信息进行检索的基于演示视频的多模式索引***。

Description

一种基于演示视频的多模式索引方法及***

技术领域

本发明涉及一种视频的搜索引擎方法，具体是一种基于演示视频的多模式索引方法和***，属于搜索引擎技术领域。

背景技术

随着互联网技术的日益发展，网络资源成为一种重要的数据资源，发挥起越来越重要的作用，视频数据以其形象、直接的方式备受青睐。演示视频是指PPT讲座、演讲以及讲授为主的视频，其主要用于电子课堂、远程教育、学术会议报告、讲座等场合。演示视频的特点是以讲授为主，一般有主要的演讲或讲授人，其通过PPT或者其他演示内容进行讲解或演讲。演示视频已经称为电子教学或者网络教学的主要形式。如斯坦福大学已经向所有公众开办了网络课堂，吸引了超过20万的学生参与。

当网络教学日益称为趋势，网络上的教学视频日益增长，学生也大幅增加时，不断增长的视频数据量也增加了阅读视频信息及获取所需视频数据的难度。如何在海量视频中快速检索出所需要的视频资料显得至关重要，有效的视频索引工具成为必需。视频名称、演讲者名字等标准信息可以作为关键词来进行搜索，但是众多的视频资源中，有很多视频信息在录入时并未存储这些信息，这就让这种检索方式能够检索出的视频信息受到限制。为此，研究人员提出了基于内容的视频检索技术。基于内容的视频检索技术是指从视频数据中提取出对象语义或者视觉信息、音频信息、运动信息等特征，再根据这些视频的特征在视频数据库中进行相关信息查询，从而找到具有相似内容的视频数据。

如中国专利文献CN101398854A中公开了一种视频片段检索方法和***，该方法包括以下步骤：对原始视频片段进行帧采样；对每个原始视频片段内选取的采样帧进行聚类，在每个聚类中选取一帧图像作为代表帧，并根据每个聚类内帧图像的数量计算该代表帧所占的比例值；依据所需比较的两个视频的代表帧建立一个加权二分图，加权二分图的权重由所述代表帧之间的相似度和该代表帧在相应聚类内的比例值确定；对加权比例二分图作最大权匹配，获得两个视频片段的相似度；通过视频片段的相似度分析，在数据库进行与输入的检索视频片段相似的视频片段检索。但是在该技术方案中，加权的权重根据代表帧之间的相似度来确定，此时权重的判断有一定的主观性，这就很难确保权重的准确性，从而导致在视频检索时的准确度下降。

在美国专利US2011081075A中也公开了一种基于演示视频的搜索方法和***，在该专利文献公开的搜索方法中，其仅仅使用文本进行索引，这些文本信息来自视频元数据和视频片段中，虽然该技术方案中也提到了人脸，但是仅仅使用人脸判断这些视频中是仅有幻灯片的信息还是也记录了演讲者或者讲授人的可视化信息。因此，在该公开的技术方案中，仅能使用文本信息进行检索，当无法获得文本信息时，则无法对其进行检索，使检索适用范围小，受到文本信息的限制。

发明内容

本发明所要解决的技术问题是现有技术中基于演示视频的检索准确度不高、检索方式受限、适用范围小的技术问题，从而提供一种可通过多种途径进行检索，具有较高精度的演示视频的多模式索引方法和***。

为解决上述技术问题，本发明提出一种基于演示视频的多模式索引方法及***。

一种基于演示视频的多模式索引***，包括至少如下一个模块：

文本索引模块，包括文本检测识别单元和文本匹配单元，所述文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库，文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较，识别出匹配的视频；

人脸索引模块，包括人脸识别单元和人脸匹配单元，人脸识别单元用于对视频库中视频中的演讲者进行面部识别，建立人脸特征库，然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较，识别出匹配的视频；

图表索引模块，包括图表识别单元和图表匹配单元，图表识别单元用于对视频库中视频中的图表进行识别，建立图表特征库；然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较，识别出匹配的视频。

本发明所述的基于演示视频的多模式索引***，包括文本索引模块、人脸索引模块和图表索引模块中的任意两个模块。

本发明所述的基于演示视频的多模式索引***，其特征在于：包括文本索引模块、人脸索引模块和图表索引模块。

一种基于演示视频的多模式索引方法，包括如下步骤中的一个或多个：

1）文本索引，文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库，文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较，识别出匹配的视频；

2）人脸索引，通过人脸识别单元对视频库中视频中的演讲者进行面部识别，建立人脸特征库，然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较，识别出匹配的视频；

3）图表索引，通过图表识别单元对视频库中视频中的图表进行识别，建立图表特征库；然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较，识别出匹配的视频。

本发明所述的基于演示视频的多模式索引方法，还包括步骤4），综合文本索引、人脸索引和图表索引的匹配结果，获得最优检索结果。

本发明所述的基于演示视频的多模式索引方法，所述文本索引信息、人脸索引信息和图表索引信息从索引视频中提取。

本发明所述的基于演示视频的多模式索引方法，所述文本检测识别单元从视频库的视频中提取文本信息时，包括

1）从视频的声道中提取声音信息，进行语音识别获得文本信息；

2）从视频的画面中提取文本信息，进行图像和字体识别获得文本信息。

本发明所述的基于演示视频的多模式索引方法，所述文本检测识别单元从视频的画面中提取文本信息的步骤如下：

a)对视频画面通过拉普拉斯变换进行高斯边缘检测，然后将相连的边缘进行分组，再进行基于几何学和边缘密度约束的区域修整；

b)通过积分直方图进行局部最优自适应二值化计算，获得文本的图像信息；

c)调用开源的OCR识别工具，进行文字识别；

d)经过文本标准化处理后的最终结果作为提取出的文本信息；

本发明所述的基于演示视频的多模式索引方法，所述人脸识别单元对视频库中视频中的演讲者进行面部识别的步骤包括：

a)结合标准人脸检测器和皮肤滤色器提取每一帧视频画面中的人脸特征；

b)从当前位置初始化追踪程序，

c)使用标准表述符号代表人脸区域；

d)运用分辨率、肤色的数量以及姿势在每次追踪中选择一个人脸；

e）与其他追踪相比较，最后为每个演讲者选中一个最接近的面部图像。

本发明所述的基于演示视频的多模式索引***，图表识别单元对对视频库中视频中的图表进行识别，包括如下步骤：

a)通过色彩饱和度估计量从视频画面中识别出各帧图像；

b)通过识别程序获取图表所在的位置；

c)结合视觉信息，根据实时平均连接算法汇集成图表区域；

d)在汇集过程中，选择最大的区域作为形成的图表区域；

e)调用灰度自动白平衡算法进行颜色矫正。

本发明的上述技术方案相比现有技术具有以下优点：

（1）本发明所述的基于演示视频的多模式索引***，包括文本索引模块，人脸索引模块和图表索引模块，可以通过演示视频中的文本信息，如PPT上的文字或者讲解人说的话中的文字信息进行检索，也可以通过讲解人的面部特征进行索引，或者通过演示视频中的图表进行索引，通过上述索引方式，无需利用其他信息，只需要借助视频本身的信息就能进行检索，本发明所述的基于演示视频的多模式索引***有效避免了现有技术中仅使用文本信息进行检索，适用范围小的问题，是一种可以采用多种检索模式，仅依靠视频本身的信息进行检索的基于演示视频的多模式索引***。在合适的情况下，也可以采用其中的一种或两种或三种进行索引，可以多种形式组合，根据检索的需要如时间需求和准确度需要来选择合适的索引方式，具有更好的灵活性。

（2）本发明所述的基于演示视频的多模式索引***，检索用的文本信息可以通过视频声道的声音来提取，也可以通过从视频画面中显示的文字信息进行文字识别来提取，这样根据语音中的文本信息和视频中的文字信息，都可以进行文本索引，进一步扩展了其可以检索的范围。

（3）本发明所述的基于演示视频的多模式索引***，从视频的画面中提取文本信息时通过边缘检测、连接以及修整，然后进行局部最优自适应计算，再调用OCR识别工具进行文字识别，然后进行标准化处理得到文本信息，通过该方法可以获得较好的画面中文本信息的识别，提高文本索引的准确度。

（4）本发明所述的基于演示视频的多模式索引***，对视频库中视频中的演讲者进行面部识别，结合标准人脸检测器和皮肤滤色器，进行人脸识别，获得最近进的人脸图像。

（5）本发明所述的基于演示视频的多模式索引***，视频中的图表进行识别，通过色彩饱和度来识别各帧图像，通过连接算法获得图表信息，将图表识别引入到演示视频中，由于演示视频中运用的图表较多，这样通过图表就可以检索到所需的视频信息，不仅扩展了检索的范围，也提高了检索精度。

（6）本发明所述的基于演示视频的多模式索引***，综合文本索引、人脸索引和图表索引的匹配结果，获得最优检索结果，采用单一的方法就可以获得相应的视频，当同时采用上述三种检索方式时，可以综合三个检索结果，有利于搜索到最优的结果，提高检索的准确度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，

图1是本发明所述基于演示视频的多模式索引***的结构示意图；

图2是本发明所述从视频的画面中提取文本信息的流程图；

图3是本发明所述对视频库中视频中的演讲者进行面部识别的流程图；

图4是本发明所述对视频库中视频中的图表进行识别的流程图。

具体实施方式

实施例1：

本发明所述的一种基于演示视频的多模式索引***，结构如图1所示，包括文本索引模块、人脸索引模块和图表索引模块，具体如下：

（A）文本索引模块，包括文本检测识别单元和文本匹配单元，所述文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库，文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较，识别出匹配的视频。

（B）人脸索引模块，包括人脸识别单元和人脸匹配单元，人脸识别单元用于对视频库中视频中的演讲者进行面部识别，建立人脸特征库，然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较，识别出匹配的视频。

（C）图表索引模块，包括图表识别单元和图表匹配单元，图表识别单元用于对视频库中视频中的图表进行识别，建立图表特征库；然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较，识别出匹配的视频。

上述三个模块中，文本索引模块从视频中提取文本信息，人脸索引模块从视频中获得演讲者的人脸特征，图表索引模块获得视频中的图表信息，这样，通过文本、人脸图像和图表这三种方式都可以对演示视频进行检索，根据用户使用的索引信息（如文本、人脸图像和图表）对视频库中的视频进行索引，获得匹配程度较高的演示视频，为用户提供参考，这样用户就可以通过这三种方式快捷的获得所需的视频信息。此处，用户使用的索引信息可以为索引视频，用户使用视频来检索视频，根据用户使用的索引视频，从该视频中提取出文本索引信息、人脸索引信息和图表索引信息，此时提取这些索引信息的方法与从视频库中提取特征建立文本特征库、人脸特征库和图表特征库的方法相似，因此其匹配时具有一致性。

上述文本索引、人脸索引、图表索引的方法和算法，可以采用现有技术中的方法。

本实施例中所述基于演示视频的多模式索引***对应的索引方法如下：

1）文本索引，文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库，文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较，识别出匹配的视频。

2）人脸索引，通过人脸识别单元对视频库中视频中的演讲者进行面部识别，建立人脸特征库，然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较，识别出匹配的视频。

4）综合文本索引、人脸索引和图表索引的匹配结果，获得最优检索结果。

作为可以变换的实施方式，所述基于演示视频的多模式索引***不需要全部同时包括上述三个模块，也可以选择仅仅包括（A）文本索引模块、（B）人脸索引模块、（C）图表索引模块中的一种或两种，选择合适的匹配方式进行匹配。

实施例2：

在实施例1的基础上，本发明所述的一种基于演示视频的多模式索引***包括文本索引模块、人脸索引模块和图表索引模块。

在文本索引模块中，从视频库的视频中提取文本信息时，采用的具体方法如下：

2）从视频的画面中提取文本信息，进行图像和字体识别获得文本信息，具体步骤如下，流程图如图2所示：

c)调用开源的OCR识别工具，进行文字识别；

在人脸索引模块中，所述对视频库中视频中的演讲者进行面部识别的步骤如下，流程图如图3所示，包括：

b)从当前位置初始化追踪程序，

c)使用标准表述符号代表人脸区域；

e)与其他追踪相比较，最后为每个演讲者选中一个最接近的面部图像。

对视频库中视频中的图表进行识别，包括如下步骤，如图4所示：

a)通过色彩饱和度估计量从视频画面中识别出各帧图像；

b)通过识别程序获取图表所在的位置；

c)结合视觉信息，根据实时平均连接算法汇集成图表区域；

d)在汇集过程中，选择最大的区域作为形成的图表区域；

e)调用灰度自动白平衡算法进行颜色矫正。

实施例3：

一种基于演示视频的多模式索引方法，包括如下过程：

一、预处理：

1、对视频数据库中的视频如演示视频（PPT等）进行处理，通过文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库；通过人脸识别单元用于对视频库中视频中的演讲者进行面部识别；通过图表识别单元用于对视频库中视频中的图表进行识别，建立图表特征库；

2、对索引视频进行预处理，与对视频数据库中的视频进行处理的方式类似，提取出文本索引信息、人脸索引信息和图表索引信息。

二、检索：

1）文本索引，文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较，识别出匹配的视频；

2）人脸索引，通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较，识别出匹配的视频；

3）图表索引，通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较，识别出匹配的视频。

综合文本索引、人脸索引和图表索引的索引结果，得到最优匹配的视频。

作为可以变换的实施方式，所述的基于演示视频的多模式索引***，可以通过单独采用文本索引、人脸索引以及图表索引的方式进行检索，还可以通过综合使用文本索引、人脸索引和图表索引中的至少两种检索方式进行检索，然后综合其匹配结果，这样可以获得跟好的检索结果，参考多种检索方式，获得最优结果。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于演示视频的多模式索引***，其特征在于，包括至少如下一个模块：

2.根据权利要求1所述的基于演示视频的多模式索引***，其特征在于：包括文本索引模块、人脸索引模块和图表索引模块中的任意两个模块。

3.根据权利要求1所述的基于演示视频的多模式索引***，其特征在于：包括文本索引模块、人脸索引模块和图表索引模块。

4.一种基于演示视频的多模式索引方法，其特征在于，包括如下步骤中的一个或多个：

5.根据权利要求4所述的基于演示视频的多模式索引方法，其特征在于：还包括步骤4），综合文本索引、人脸索引和图表索引的匹配结果，获得最优检索结果。

6.根据权利要求4或5中任一项所述的基于演示视频的多模式索引方法，其特征在于：所述文本索引信息、人脸索引信息和图表索引信息从索引视频中提取。

7.根据权利要求4-6中任一项所述的基于演示视频的多模式索引方法，其特征在于：所述文本检测识别单元从视频库的视频中提取文本信息时，包括

8.根据权利要求7所述的基于演示视频的多模式索引方法，其特征在于：

所述文本检测识别单元从视频的画面中提取文本信息的步骤如下：

c)调用开源的OCR识别工具，进行文字识别；

d)经过文本标准化处理后的最终结果作为提取出的文本信息。

9.根据权利要求4-8中任一项所述的基于演示视频的多模式索引方法，其特征在于：所述人脸识别单元对视频库中视频中的演讲者进行面部识别的步骤包括：

b)从当前位置初始化追踪程序，

c)使用标准表述符号代表人脸区域；

10.根据权利要求4-9中任一项所述的基于演示视频的多模式索引***，其特征在于：

图表识别单元对对视频库中视频中的图表进行识别，包括如下步骤：

a)通过色彩饱和度估计量从视频画面中识别出各帧图像；

b)通过识别程序获取图表所在的位置；

c)结合视觉信息，根据实时平均连接算法汇集成图表区域；

d)在汇集过程中，选择最大的区域作为形成的图表区域；

e)调用灰度自动白平衡算法进行颜色矫正。