CN104798068A

CN104798068A - 视频检索方法和装置

Info

Publication number: CN104798068A
Application number: CN201280076837.3A
Authority: CN
Inventors: 张岩峰; 章志刚; 许军
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2015-07-22
Also published as: KR20150091053A; US20150339380A1; JP2016502194A; EP2926269A1; WO2014082288A1; EP2926269A4

Abstract

本发明提出了一种用于视频检索的方法和装置。所述方法包括：提供用户界面，所述用户界面用于用户输入与被检索视频相关的文字查询条件；基于所述文字查询条件进行基于文字的图像搜索以提供与所述视频相关的多个图像；基于用户从所述多个图像中选择的一个图像进行基于实例的视频检索。

Description

视频检索方法和装置

技术领域

本发明涉及用于视频检索的方法和装置。

背景技术

传统视频检索***，例如***视频搜索、Youtube等，只依赖于用户输入的文字查询条件。基于用户输入的搜索文字(例如关键字)，传统视频检索***将通过对标题、注解或者周围文字(text surrounding)执行文字匹配来搜索相关视频材料。这种基于文字的方法存在两个缺陷。第一个缺陷是用户通常不愿意输入这种文字信息，特别是不愿意输入关于整个视频文件的详细描述。另外一个缺陷是输入的注解大部分只对视频进行非常简短的描述，其质量通常不高。

对于基于初级内容的视频检索已经存在许多研究活动，例如卡内基梅隆大学的Informedia数字视频图书馆项目(http://www.informedia.cs.cmu.edu/)。该项目试图获得对于视频和电影媒体的机器理解，包括搜索、检索、可视化和汇总的各个方面。开发的基础技术将语音、图像和自然语言理解进行结合以自动地抄写、分割和标记线形视频以进行智能搜索和图像检索。

基于实例的搜索方法得到了广泛的研究，用于在基于初级内容的多媒体检索中描述用户的搜索意图。例如，采用图像实例或者乐曲片断，可以从相应的多媒体数据库中检索出相似图片或者包含该乐曲片断的整个音乐。但是，在基于初级内容的多媒体检索中，用户很难描述其视频搜索意图。对人们而言最方便的方式是利用词语或句子来表示。另外，在很多现实应用中，很难找到实例来描述用户的信息需求。因此，对于基于初级内容的视频检索，在用户的意图描述与检索***的理解能力之间存在巨大的语义鸿沟(semantic gap)。用户大部分情况下偏好输入文字类型的查询要求，而基于内容的视频检索方法主要是基于输入的实例查询条件。用户很难产生或者找到适当的用于视频检索的查询条件实例。

为了桥接初级特征与用户的搜索意图之间的语义鸿沟，许多研究通过手动输入的注解或者通过自动内容识别来对多媒体进行注解。手动注解与基于文字的检索表现出相同的缺点。机器自动注解过于困难，短期内似乎很难解决。摘要关键字几乎不可能与图像内容相关联。

发明内容

根据本发明的一个方面，提出了一种用于视频检索的方法。所述方法包括：提供用户界面，所述用户界面用于用户输入与被检索视频相关的文字查询条件；基于所述文字查询条件进行基于文字的图像搜索以提供与所述视频相关的多个图像；基于用户从所述多个图像中选择的一个图像进行基于实例的视频检索。

根据本发明的另一个方面，提出了一种用于视频检索的装置。所述装置包括：用于提供用户界面的装置，所述用户界面用于用户输入与被检索视频相关的文字查询条件；基于所述文字查询条件在图像数据库中进行基于文字的图像搜索以提供与所述视频相关的多个图像的装置；基于用户从所述多个图像中选择的一个图像在视频数据库中进行基于实例的视频检索的装置。

可以理解，下述对本发明的详细说明将介绍本发明的更多方面和优势。

附图说明

附图与用于解释本发明原理的文字说明一起使本发明实施方式得到进一步的理解，本发明不局限于所述实施方式。

其中：

图1是根据本发明实施方式的用于视频检索的***的示意图；

图2是根据本发明实施方式的用于视频检索的方法的流程图；

图3是用于用户输入文字查询条件的视频查询条件对话框的示意图；

图4是Flickr中具有用于基于文字的图像搜索的元数据的照片实例；和

图5是根据本发明实施方式的用于视频检索的装置的框图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细说明。在下述说明中，出于简洁之目的，对已知功能和结构不再进行详细说明。

考虑到传统技术的上述问题，本发明的实施方式提供了一种用于视频检索的方法和装置。

根图1是根据本发明实施方式的用于视频检索的***的示意图。

入图1所示，根据本发明实施方式的视频检索***提议首先进行基于文字的搜索以提供与所述视频相关的多个图像，用户从所述多个图像中选择一个图像，基于该图像进行基于实例的视频检索以提供视频检索的输出。

下面将对本发明的实施方式进行详细说明。

图2是根据本发明实施方式的用于视频检索的方法的流程图。

如图2所示，根据本发明实施方式的用于视频检索的方法包括下述步骤：

S201：提供用户界面，所述用户界面用于用户输入与被检索视频相关的文字查询条件；

S202：基于所述文字查询条件进行基于文字的图像搜索以提供与所述视频相关的多个图像；

S203：基于用户从所述多个图像中选择的一个图像进行基于实例的视频检索。

下面将对根据本发明实施方式的用于视频检索的方法进行详细说明。

根据步骤S101，向进行视频检索的用户提供用户界面，使用户能够输入与被检索视频相关的文字查询条件。作为一个实施例，所述用户界面可以是视频查询条件对话框，用户利用该对话框可以输入与视频相关的文字查询条件。图3是用于用户输入文字查询条件的视频查询条件对话框的示意图。可以理解，还可以采用其他适当形式的用户界面。所述文字查询条件是所述视频内容的词语或句子形式的描述。利用文字查询条件的原因在于，用户在视频检索中表达他/她的意图的最方便的方式就是采用文字描述，而非准备图像实例或对目标进行描绘。

根据步骤S102，基于用户输入的所述文字查询条件进行基于文字的图像搜索以提供与所述视频相关的多个图像。可以在外部图像数据库上执行所述基于文字的图像搜索，所述外部图像数据库例如可以是图像共享社交网络和图像搜索引擎。也可以在内部图像数据库上执行所述基于文字的图像搜索，所述内部图像数据库例如可以是用户自己的图像实例图书馆。可以理解，当采用外部图像数据库时，需要使用数据库所要求的API(应用程序接口)。需要指出，此方面任何合适的技术都可以用于所述基于文字的图像搜索。

Flickr是能够用于所述基于文字的图像搜索的图像共享社交网络之一。当在步骤S102中使用Flickr时，例如可以通过根据由Flickr的照片提供者加入的图像注解的文字匹配执行所述基于文字的图像搜索。Flickr中的照片包含各种类型的元数据，范围可能包括技术细节至更主观的信息。初级方面，信息涉及照相机、快门速度、旋转等。在高级方面，向Flickr上载照片的用户可以加入标题和相关描述，标题和相关描述更可能从整体上描述该照片。图4是Flickr中具有用于基于文字的图像搜索的元数据的图像实例。图4中示出天鹅的照片，具有标题和照片的相关描述，这些有可能是由图像提供者加入的。在用户输入的文字查询条件与照片的标题和相关描述之间进行文字匹配以估计该照片中的图像是否与被检索的视频相关。

已知的图像搜索引擎例如包括Google Image Searching、Yahoo Image和Bing Image等。当在步骤S102中使用Google Image Searching时，例如可以通过由Google Image Searching搜索的周围文字进行基于文字的图像搜索。包含图像的网页中的文字是上述周围文字的一个实例。Google ImageSearching试图找到周围文字信息与所述用户输入的关键字检索条件相关的图像。

当在内部图像数据库上执行基于文字的图像搜索时，可以使用由所述内部图像数据库的创建者加入的文字注解和文字标签。使用标签可以让创建者利用简单的关键字组合来描述其认为与所述图像相关的内容。

从步骤S102的搜索结果(其可能包含多个图像)中可以选择一个相关图像作为下面的视频检索的输入。在此方面，因为某些图像共享社交网络和图像搜索引擎可以根据图像的相关性对基于文字的图像搜索提供评级机制，有可能自动地选择相关图像。但是，优选地，采用适当的用户界面将步骤S102的搜索结果显示给用户，从而用户可以浏览并选择最相关的图像，作为随后的视频检索的输入。本实施方式推荐由用户进行手动选择的原因在于，与用户相比，机器(图像共享社交网络和图像搜索引擎)依然很难完全理解检索意图并选择最相关的图像。

可以理解，如果用户对步骤S102的结果不满意，方法流程可以回到步骤S101，由用户修改文字查询条件或者输入新的文字查询条件。

随后在步骤S103，基于用户从所述多个图像中选择的一个图像进行基于实例的视频检索。

已经开发出某些方法进行基于实例的视频检索，例如包括语音文件检索(spoken document retrieval)、VOCR(视频光学字符识别)和图像相似性匹配等。

采用语音文件检索，可以通过自动语音识别获得视频中的音频内容的文字表示。但是语音文件检索的使用限制在于其需要视频材料中具有清晰并可识别的声音。

采用VOCR，通过读取视频图像中呈现的文字获得所述视频的文字表示。随后基于文字(关键字)进行检索。但是为了采用VOCR，在视频中需要存在某些可识别的文字信息。这是采用VOCR的一个限制条件。

图像相似性匹配是基于实例的图像检索方法，其被并入视频检索领域。图像相似性匹配的图像搜索引擎可以接受有意准备的图像实例并利用该实例来从图像数据库中寻找相似的图像。当此方法用于视频检索时，使用图像实例来寻找从视频中提取的相似关键帧。目前为止尚没有大规模和标准化的方法来估计两个图像的相似性。此处使用的大部分方法基于从图像像素中提取的诸如颜色、纹理和形状等特征。

可以理解，上述方法可以结合使用，以形成用于视频检索的更复杂的方法。

在本发明的实施方式中，由于视频检索的输入包含用户从步骤S102的搜索结果中选择的图像，对于基于实例的视频检索优选地采用图像相似性匹配。

下面，将根据图像相似性匹配对基于实例的视频检索进行详细说明。

已知的是，在将视频存储在数据库之前会对其进行视频结构解析，所述解析包括分割和关键帧检测。所述分割用于将所述视频划分为各个场景(scene)。每个场景包括一系列连续帧，其中在相同位置拍摄或者具有相同主题内容的帧被分为一组。所述关键帧检测用于从各个场景中找到代表帧作为索引图像(indexing image)。在这里可以使用传统的视频分割和关键帧检测算法。例如，镜头边界检测算法(shot boundary detection algorithm)能够根据视频帧中包含的视觉信息将视频分割为具有相似视觉内容的帧。在提取关键帧之后，将元数据加入每个关键帧。所述元数据呈现关键帧是从哪个视频中提取的以及所述关键帧在特定视频中的具***置。

然后利用匹配算法计算搜索查询条件(用户选择的图像)的特征与存储在数据库中的视频的关键帧的特征之间的相似度，此相似度决定了被检索视频的相似性等级。本技术领域中已经存在图像匹配算法。用于基于内容的图像检索的传统方法基于矢量模型。在这些方法中，一个图像由一组特征表示，并且两个图像之间的差别通过它们的特征矢量之间的距离(通常为欧几里得距离)来测量。此距离决定两个图像的相似度，还决定相应视频的等级。大多数图像检索***基于从图像像素中提取的诸如颜色、纹理和形状等特征。

在相似关键帧被找到并且分级之后，在视频结构解析阶段加入的元数据可以用来决定哪些视频应当被检索、每个视频的第一帧和每个视频与用户的检索条件之间的相似性。随后，将检索到的一系列视频文件呈现给用户，上述视频文件可以根据对应的等级进行设置。

图5是根据本发明实施方式的用于视频检索的装置的框图。

如图5所示，用于视频检索的装置500包括：用户界面提供单元501，用于向用户提供用户界面，所述用户界面用于用户输入与被检索视频相关的文字查询条件；图像搜索单元502，用于基于所述文字查询条件在图像数据库中进行基于文字的图像搜索以提供与所述视频相关的多个图像；和视频检索单元503，用于基于用户从所述多个图像中选择的一个图像在视频数据库中进行基于实例的视频检索。

作为一个实施例，用户界面提供单元501可以提供视频查询条件对话框，用于用户输入与视频相关的文字查询条件。

如在上述用于视频检索的方法中所述，所述图像数据库可以是内部图像数据库，例如可以是用户的图像实例图书馆。所述图像数据库可以是外部图像数据库，例如图像共享社交网络和图像搜索引擎。在采用外部图像数据库的情况下，需要使用外部图像数据库所要求的API。

视频检索单元503采用图像相似性匹配算法进行基于实例的视频检索。在这种情况下，视频数据库中的视频的关键帧需要具有元数据，所述元数据呈现哪个视频的关键帧被提取以及所述关键帧在特定视频中的具***置。所述元数据可以通过在将视频数据存储在数据库之前对其进行视频结构解析获得。

用于视频检索的装置500还可以包括显示单元，用于以适当方式向用户显示基于实例的视频检索的结果。可以根据所述结果中的视频的相关性等级将视频检索的结果显示给用户。

可以理解，本发明可以用硬件、软件、固件、专用处理器及其结合等多种形式来实施。

Claims

1.一种用于视频检索的方法，包括：

提供用户界面，所述用户界面用于用户输入与被检索视频相关的文字查询条件(S201)；

基于所述文字查询条件进行基于文字的图像搜索以提供与所述视频相关的多个图像(S202)；和

基于用户从所述多个图像中选择的一个图像进行基于实例的视频检索(S203)。

2.根据权利要求1所述方法，其中所述用户界面是视频查询条件对话框。

3.根据权利要求1所述方法，其中通过所述文字查询条件与图像的元数据之间的文字匹配进行所述基于文字的图像搜索。

4.根据权利要求3所述的方法，其中所述元数据包括图像的文字注解、周围文字和文字标签。

5.根据权利要求1所述的方法，其中通过由用户选择的所述图像的特征与视频的关键帧的特征之间的图像相似性匹配执行基于实例的视频检索。

6.根据权利要求5中所述的方法，其中所述特征包括从所述关键帧的图像像素提取的颜色、纹理和形状。

7.根据权利要求1所述的方法，还包括：

将所述基于实例的视频检索的结果根据所述结果中的视频的相关性级别呈现给用户。

8.一种用于视频检索的装置(500)，包括：

用于提供用户界面的装置(501)，所述用户界面用于用户输入与被检索视频相关的文字查询条件；

基于所述文字查询条件在图像数据库中进行基于文字的图像搜索以提供与所述视频相关的多个图像的装置(502)；和

基于用户从所述多个图像中选择的一个图像在视频数据库中进行基于实例的视频检索的装置(503)。

9.根据权利要求8所述的装置(500)，其中所述用户界面是视频查询条件对话框。

10.根据权利要求8所述的装置(500)，其中所述图像数据库是外部数据库，并且用于进行基于文字的图像搜索的装置(502)包括与所述图像数据库的应用程序接口。

11.根据权利要求8所述的装置(500)，其中用于执行基于实例的视频检索的装置(503)执行由用户选择的所述图像的特征与视频数据库中视频的关键帧的特征之间的图像相似性匹配。

12.根据权利要求11所述的装置(500)，其中通过由用户选择的图像的特征与视频的关键帧的特征之间的图像相似性匹配执行所述基于实例的视频检索。

13.根据权利要求12所述的装置(500)，其中所述特征包括从所述关键帧的图像像素提取的颜色、纹理和形状。

14.根据权利要求8所述的装置(500)，还包括将所述基于实例的视频检索的结果显示给用户的装置。