CN102057371A

CN102057371A - 用于图像的类似性搜索的***和方法

Info

Publication number: CN102057371A
Application number: CN2008801296710A
Authority: CN
Inventors: 张东清; 拉詹·乔希; 安娜·B·班尼兹; 罗英; 郭菊
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2011-05-11
Also published as: JP2011523137A; KR20150104646A; KR101622360B1; US20110085739A1; EP2300941A1; JP5774985B2; KR101582142B1; KR20110027666A; BRPI0822771A2; WO2009148422A1; CA2726037A1

Abstract

提供了用于利用分类结构对图像进行高效的语义类似性搜索的***和方法。该***和方法提供用于：针对多个图像构建语义分类搜索树(202)，该分类树包括至少两个图像类别，每个图像类别表示所述多个图像的子集；接收查询图像(204)；对查询图像分类以选择至少两个图像类别中的一个图像类别(206)；并且将利用查询图像对感兴趣图像的搜索限制于在至少两个图像类别中选择的一个图像类别(210)。

Description

用于图像的类似性搜索的***和方法

技术领域

本公开一般涉及计算机图形处理和显示***，并且更具体地涉及用于图像的类似搜索(similarity search)的***和方法。

背景技术

对与查询图像类似的图像的检测和检索在多种实际应用中是非常有用的。本公开描述的技术解决了查询图像数据库以寻找优选在语义层次上与查询图像类似的图像(即，包含有相同对象和背景但是可能具有一些变化的图像)的问题。该问题出现在多种应用中，例如用于移动设备的位置感知服务，其中，用户拍摄地标的图片并且然后移动设备可以告诉用户地标的位置和描述。在另一应用中，用户可以拍摄商店中一个或多个产品的图片，然后，移动设备可以返回具有对应价格的、由不同零售商提供的相同产品的网页。在版权侵权检测的背景中，可以通过在因特网上搜索对图像的未经授权使用来识别可能的版权侵犯。在多媒体内容管理中，检测图像的副本和近似副本可以帮助将多重来源视频中的故事、出版社和网页中的文章链接起来。

尽管本公开描述的技术可以应用于一般的图像或视频检索或搜索，然而本公开着重于语义层次的图像和视频搜索，而非基于色彩、纹理等之类的低层次特征的视觉搜索。基于低层次特征的图像或视频搜索已经得到很好地研究，并且高效的检索算法可供用于大规模数据库。语义层次的图像或视频搜索比低层次特征搜索难得多，因为其涉及到包含在图像或视频中的对象的比较。对于许多实际应用，例如上面讨论过的前述应用，基于低层次特征的搜索一般来说是不足够的，因为包含不同对象的图像可能具有类似的色彩或纹理。

语义层次的图像或视频搜索需要比较图像中的对象。就此方面定义的类似图像应当包含相同的对象和背景，但是可以具有一些变化，例如对象移动、照明改变等。由于计算机、计算设备等在语义层次理解图像或表示图像是非常难的，因此该问题是非常有挑战性的。已经存在一些针对在语义层次搜索图像和视频而进行的早期工作。例如，用于利用机器学习方法的精确近似副本检测和搜索的基于部分的类似性量度在2004年10月美国纽约市的ACM Multimedia中的D.Q.Zhang和S.F.Chang的“Detecting Image Near-Duplicate by Stochastic Attributed Relational Graph Matching with Learning”中有所描述。Zhang等人描述的类似性量度实际上是将获得了极高精确度结果的图像内的对象进行比较。然而，该方法与传统的使用低层次特征(例如，通过色彩直方图)的检索方法相比非常慢，并且不能应用于实际应用。

因此，存在对在语义层次上高效地搜索图像的技术的需要。此外，即使在图像类似性量度可用时也存在对加速图像搜索的需要。

发明内容

提供了用于利用分类结构对图像进行高效的语义类似性搜索的***和方法。该***和方法使得能够查询图像数据库以寻找在语义层次上与查询图像类似的图像，即，包含有与查询图像相同的对象和背景但可能具有一些变化的图像。本公开的技术将对图像的语义类似性搜索限制于某个类或类别，以使得类似性计算被极大地减少。首先，针对数据库中的所有图像建立分类搜索树。然后，对于每个进入的查询图像，将查询图像分类到一个或多个类别(通常为语义类别，例如人、室内、室外等)，类别表示整个图像空间(即图像的数据库)的子集。然后，将图像类似性计算限制在该子集内。

根据本公开的一个方面，提供了一种用于在多个图像中搜索感兴趣图像的方法。该方法包括：针对所述多个图像构建分类结构，所述分类结构包括至少两个图像类别，每个图像类别表示所述多个图像的子集；接收查询图像；对所述查询图像分类以选择所述至少两个图像类别中的一个图像类别；并且将对感兴趣图像的图像搜索限制于在所述至少两个图像类别中选择的一个图像类别。

根据另一方面，一种用于在多个图像中搜索感兴趣图像的***包括：数据库，该数据库包括被结构化为至少两个语义图像类别的多个图像，每个语义图像类别表示所述多个图像的子集；用于获取至少一个查询图像的装置；图像分类器模块，用于对所述查询图像分类以选择所述至少两个语义图像类别中的一个语义图像类别；以及图像搜索器模块，用于利用所述查询图像搜索感兴趣图像，其中，该搜索被限制于在所述至少两个语义图像类别中选择的一个语义图像类别。

根据又一方面，提供了一种可由机器读取的程序存储设备，该程序存储设备有形地包含有程序指令，所述程序指令可由机器运行来执行用于在多个图像中搜索感兴趣图像的方法步骤。该方法包括：针对所述多个图像构建分类结构，所述分类结构包括至少两个图像类别，每个图像类别表示所述多个图像的子集；接收查询图像；对所述查询图像分类以选择所述至少两个图像类别中的一个图像类别；以及将对感兴趣图像的搜索限制于在所述至少两个图像类别中选择的一个图像类别。

附图说明

将描述或者通过结合附图阅读下面对优选实施例的详细描述将清楚本公开的这些以及其它方面、特征和优点。

在附图中，遍及各个视图，相似的标号表示类似的元件；

图1是根据本公开一方面的用于对图像进行类似搜索的***的示例性图示；

图2是根据本公开一方面的用于对图像进行类似搜索的示例性方法的流程图；

图3图示出了根据本公开的分类搜索树；

图4图示出了在根据本公开的分类搜索树中执行的简单搜索；

图5图示出了在根据本公开的分类搜索树中执行的冗余搜索；

图6图示出了根据本公开一方面的用于构建或生成分类搜索树的方法；

图7图示出了具有被标记(tagged)关键字的图像的特征向量；以及

图8图示出了根据本公开一方面的用于将新图像添加到分类搜索数据库中的方法。

应当明白，(一个或多个)附图用于图示出本公开的概念，而不一定是用于图示出本公开的仅有的可能配置。

具体实施方式

应当了解，可以硬件、软件或其组合的各种形式来实现附图中示出的元件。优选地，在一个或多个经适当编程的通用设备上以硬件和软件的组合来实现这些元件，所述通用设备可包括处理器、存储器和输入/输出接口。

本说明书举例说明了本公开的原理。因此将会了解，本领域技术人员将能够作出虽然未在这里明确描述或示出但实现了本公开的原理且包括在其精神和范围内的各种配置。

这里记载的所有示例和条件语言是打算用于教导目的的，以辅助读者理解本公开的原理和发明人为了促进本技术而贡献的概念，并且这些示例和条件语言应被视为并不限于这些具体记载的示例和条件。

此外，这里记载了本公开的原理、各个方面和实施例及其具体示例的所有陈述意图包含本公开的结构和功能的等同物。另外，这些等同物意图包括当前已知的等同物以及以后开发出的等同物，即，无论为何种结构，所开发出来的执行相同功能的任何元件。

因此，例如，本领域技术人员将会了解，这里呈现的框图表示实现本发明原理的例示电路的示意图。类似地，将会了解，任何流程表、流程图、状态转换图、伪代码等表示实质上可用计算机可读介质表示并因而可由计算机或处理器执行的各种处理，而无论该计算机或处理器是否被明确示出。

可通过使用专用硬件以及与适当软件相关联的能够执行软件的硬件来提供附图中示出的各个元件的功能。当由处理器来提供功能时，这些功能可由单个专用处理器、单个共享处理器、或者多个单独处理器(其中的一些可被共享)来提供。此外，对术语“处理器”或“控制器”的明确使用不应当被理解为排他地指能够执行软件的硬件，而是可隐含地包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储装置。

还可包括传统和/或定制的其它硬件。类似地，附图中示出的任何开关仅仅是概念上的。它们的功能可通过操作程序逻辑、通过专用逻辑、通过程序控制和专用逻辑的交互、或者甚至手动地执行，如从上下文中更具体地了解到的，可由实现者来选择特定技术。

在这里的权利要求书中，被表达为用于执行指定功能的装置的任何元件意欲包含执行该功能的任何方式，例如包括a)执行该功能的电路元件的组合或者b)任何形式的软件(因而包括固件、微码等)与用于运行执行该功能的软件的适当电路的组合。由这些权利要求限定的本发明具备以下事实：由各个所记载的装置提供的功能被以权利要求所需要的方式来组合并结合在一起。因而认为，可提供那些功能性的任何装置等同于这里所示出的那些装置。

对与查询图像类似的图像的检测和检索在多种实际应用中是非常有用的。问题是要在语义层次上高效地寻找与查询图像类似的图像(即，这些图像是从同一场景拍摄的并且具有相同的对象)。一些先前的工作已提出了用于低速地进行语义图像搜索的高精确度算法。如果图像数据库较大，则效率问题尤其重要。通常，搜索图像数据库的时间与数据库的大小成线性地增长。本公开的***和方法通过利用图像数据库结构以及图像的语义含义来加速搜索。

提供了利用分层级处理来高效搜索图像或视频的***和方法。假设高质量图像或视频类似性算法或函数已经可获得，这些算法的速度比传统的基于特征的类似性计算算法慢的多。因此，本公开的***和方法提供了加速处理以加快图像或视频数据库中的语义搜索。为了简洁起见，本公开将着重于图像搜索，尽管相同的技术可以应用于视频，即，图像序列。本***和方法通过利用图像内容空间的结构来加速搜索算法。本公开的技术将图像的视觉类似性搜索限制在特定类或类别内，以使得类似性计算被极大地减少。首先，针对数据库中的所有图像建立分类结构，例如但不限于分类树。然后，对于每个进入的查询图像，将图像分类到一个或多个类别(通常是语义种类，例如人、室内、室外等)，类别表示整个图像空间的子集。然后，将图像类似性计算限制在该子集内。

现在参考附图，图1示出了根据本公开实施例的示例性***组件100。扫描设备103可被提供用于将例如相机的原始胶片底片之类的洗印胶片104扫描成数字格式，例如彩色转换格式或电影电视工程师协会(“SMPTE”)数字影像交换(“DPX”)的文件。扫描设备103例如可以包括电视电影装置(telecine)或者将从胶片生成视频输出的任何设备，例如具有视频输出的Arri LocPro^TM。替代地，可以直接使用来自后期制作过程或数字电影106的胶片(例如，已经是计算机可读形式的文件)。计算机可读文件的可能来源是AVID^TM编辑器、DPX文件、D5磁带等。

数字图像或经扫描的洗印胶片被输入到后期处理设备102，例如计算机。该计算机在各种已知的计算机平台中的任一种上实现，所述计算机平台具有如下硬件：一个或多个中央处理单元(CPU)、诸如随机存取存储器(RAM)和/或只读存储器(ROM)之类的存储器110以及诸如键盘、光标控制设备(例如鼠标或操纵杆)和显示设备之类的(一个或多个)输入/输出(I/O)用户接口112。该计算机平台还包括操作***和微指令代码。这里描述的各种处理和功能可以是经由操作***执行的该微指令代码的一部分或软件应用程序的一部分(或者它们的组合)。在一个实施例中，软件应用程序被有形地体现在程序存储设备上，其可被上载到诸如后期处理设备102之类的任何合适的机器中并由其执行。另外，各种其它***设备可以通过各种接口和总线结构(例如并行端口、串行端口或通用串行总线(USB))而被连接到该计算机平台。其它***设备可以包括附加存储设备124和打印机128。

替代地，已经为计算机可读形式的洗印文件/胶片106(例如，数字电影，例如其可被存储在外部硬盘驱动器124上)可以直接被输入计算机102。注意，这里使用的术语“胶片”可以指洗印胶片或数字电影。

软件程序包括存储在存储器110中的用于基于查询图像高效地搜索感兴趣图像的类似性搜索模块114。类似性搜索模块114还包括图像分类器模块116，被配置用于创建用于将查询图像分类到至少一个类别中的多个分类器和子分类器。特征提取器118被提供来从图像提取特征。特征提取器是本领域已知的，并且提取包括但不限于纹理、线条方向、边缘等在内的特征。在一个实施例中，分类器包括基于所提取的特征来分类查询图像的图案识别函数。

类似性搜索模块114还包括图像搜索器模块119，其包括各自被配置用于在图像数据库的图像子集122中进行搜索的多个图像搜索器。每个图像搜索器将采用类似性量度来根据查询图像确定感兴趣图像。

关键字标记器120被提供用于向数据库中的每个图像标记特征。在一个实施例中，关键字标记器120包括N个关键字的字典，并且关键字标记器120可用来根据关键字生成特征向量。标记的特征可用来将图像存储为多个子集。此外，在一个实施例中，图像分类器模块116使用关键字来创建分类器。

此外，类似性搜索模块114包括用于识别数据库的图像中的对象的对象识别器121。通过利用识别出的对象，图像分类器模块116可以学习这些对象，并且基于这些对象构建分类器。

图2是根据本公开一方面的用于利用分类数据结构(例如但不限于分类搜索树)对图像进行类似性搜索的示例性方法的流程图。首先，在步骤202，分类搜索树被构建，将在下面更详细描述。然后，在步骤204，后期处理设备102获取至少一个二维(2D)图像，例如查询图像。后期处理设备102可以通过例如经由消费级相机获取计算机可读形式的数字图像文件来获取查询图像。尽管本公开的技术是根据图像来描述的，然而图像序列(例如视频)也可以利用本公开的技术。可以通过利用数字相机捕获时间序列的运动图像来获取数字视频文件。替代地，视频序列可以通过传统的胶片类型相机来捕获。在此情形中，通过扫描设备103来扫描胶片。

在步骤206，查询图像由分类器进行分类，并且接下来在步骤208中，由子分类器进行分类，直到达到树的最低层次或者树的分支为止。在步骤210，由搜索器在数据库的图像子集122内执行类似性搜索，而不是针对整个图像空间或数据库执行类似性搜索。现在将描述构建或生成分类搜索树以及在树内执行搜索的细节。

本公开的***和方法采用基于树的搜索来将图像比较限制在数据库的小子集内。基于树的搜索是基于如下描述的图像分类的。分类树是自动构建的或者是通过向图像标记关键字而手动构建的。

本公开的***和方法通过将感兴趣图像的搜索限制为沿着分类搜索树的分支来加速搜索过程。在执行搜索时，假设可利用高精度类似性量度S(I_q，I_d)，其中，I_q是查询图像，I_d是数据库中的图像。类似性量度是指示两个图像多么类似的数字，例如，1.0意味着两个图像相同，0.0意味着两个图像完全不同。距离通常可被认为是类似性的反向。类似性的一个示例是两个图像的色彩直方图的反向距离。类似性量度是本领域已知的，并且还有可能针对某个图像类别“学习”这样的图像类似性量度，以使得在该类别内的类似性搜索被优化。还有可能针对特定图像类别手动地设计这样的类似性量度。对于任意情况，适应于图像类别C的类似性量度被表示为S_C(I_q，I_d)。

分类搜索树是这样的树，其中，树中的每个中间节点使用分类器来检测或分类图像中的一个或多个类别。树中的每个分支表示一个类别。然后，仅遍历树中被检测到的类别的分支。如图3所示，树中的每个叶节点302、304、306、308、310表示与具体类别相对应的图像。分类搜索树可以具有多层或多个层次。例如，图3中的树具有三个层次。此外，如从图3可见的，分类搜索树包括分类器和搜索器。

分类器用来将查询图像分类到类别中。在一个实施例中，分类器是基于例如色彩和纹理等之类的自动提取的特征的图案识别或机器学习算法或函数。分类的大体过程如下：首先从图像提取特征向量，然后，图案识别算法或函数取得该特征向量并输出具有可选的置信评分的一个或多个类标签(例如，类ID和评分)，所述类标签表示一个或多个特定图像类别。一般而言，图案识别算法是以特征向量为输入并输出指示类的ID的整数的函数；替代地，图案识别函数将提取出的向量与所存储向量相比较。其它图案识别算法或函数是本领域已知的。分类器还可以是二元的。在此情况中，分类器将输出分别指示图像是否属于某个类别的是或否标签。分类器可以手动地来设计或者可以根据示例数据被自动地构成。

搜索器是用来计算图像的类似性并且寻找与查询图像具有最大类似性的感兴趣图像的程序。

在简单分类搜索的情况中，查询图像被分类到每个层次中的一个且仅一个类别；假设叶类别是类别C。在进行了分类之后，即，查询图像到达分类搜索树的底部(叶层)之后，执行类似性量度S_C(I_q，I_d)计算以在与图像类别C相对应的数据库子集内搜索图像，如图4所示。在图4中，并且在其余附图中，在搜索期间遍历经过的分支或叶节点用实线指示，而未被遍历的分类器和搜索器用虚线示出。例如，在图4中，查询图像被接收并被提交给分类器0。在分类器0处，确定将要在分类器0.1(例如子分类器)处进一步对图像分类。查询图像从分类器0.1被提交给分类器0.1.1，在其中，确定使用搜索器0.1.1.2在图像子集0.1.1.2中搜索与查询图像类似的图像。将理解，通过将对感兴趣图像的搜索限制于图像子集0.1.1.2，将更高效更快速地执行搜索。

在此情况中，分类器的输出可以是二元的或者n元的。如果其是二元分类器，则分类器的输出指示查询图像是否属于一类别。相似地，如果其是n元分类器，则分类器的输出可以是指示查询图像属于哪个类别的整数值。如果分类搜索树中的所有分类器都是二元的，则该树是二元树；否则，该树是非二元分类搜索树。

简单分类搜索的一个问题在于，如果存在分类错误，则查询图像可能进入完全错误的类别，从而导致错误的搜索结果。该问题可以通过冗余搜索来解决，在冗余搜索中，多个类别而非一个类别被搜索。

参考图5，在冗余分类搜索情况中，查询图像被分类到多于一个叶类，例如分类器0.1和分类器0.2。在进行分类之后，即，查询图像到达分类搜索树的底部(叶层)中的若干类别，例如分类器0.1.1和分类器0.2.1。然后，执行类似性量度S_C(I_q，I_d)计算以在与所选图像类别C相对应的数据库子集内搜索图像；在图5的示例中，搜索器0.1.1.2将搜索图像子集0.1.1.2，搜索器0.2.1将搜索图像子集0.2.1。

为了实现冗余分类搜索，分类器的输出必须是类标签的列表并且是表示相应类别出现在查询图像中的置信度的浮点值。然后，阈值截取(thresholding)过程可被用来获得具有大于阈值的分类器输出的类别的列表。查询图像被确定为属于得到的类别的列表。在到达树的底层之后，将确定类别列表中的每个图像的类似性评分，并且然后将具有最大类似性评分的图像选为感兴趣图像。

为了实现对图像的高效搜索，将构建分类搜索树以结构化图像空间，因此，不必每次搜索所有的图像。参考图6，构建或生成分类搜索树包括两个阶段。在第一阶段，构建树的所有分支，包括构建所有分类器并将分类器组织为树，如果该分类搜索树具有多层的话。在第二阶段，数据库中的图像被分类到类别中以在数据库中形成图像的子集。此外，定义用于在每个图像子集内进行搜索的搜索器。

为了构建分类搜索树，首先必须构建树中的中间节点处的分类器。每个分类器对应于一个语义类(例如，室外场景、树木、人脸等)。语义类可以由人类手动确定或者利用聚类算法或函数自动确定。分类器(即，树结构)之间的关系可以由人类设计者来定义。

一旦定义了语义类，就必须为中间节点构建语义分类器，例如子分类器304、306、308、310。可以利用不同方法逐个地构建每个分类器或子分类器。在一个实施例中，“一般”分类器被提供，然后，该“一般”分类器学习每个图像类别的示例图像。这样的方法使得本公开的***和方法能够构建大量语义分类器而不用具体地设计每个分类器。这种类型的分类器称为基于学习的场景或对象识别器。R.Fergus、P.Perona和A.Zisserman在Proc.of the IEEE Conf on Computer Vision and Pattern Recognition 2003的″Object Class Recognition by Unsupervised Scale-Invariant Learning″中公开了示例性的基于学习的场景或对象识别器。在Fergus等人的论文中，描述了一种以尺寸不变的方式从未经标记且未经分段的杂乱场景中学习并识别对象类模型的方法。在该方法中，对象被建模为各个部分的灵活星座。概率表示被用于对象的所有方面：形状、外观、咬合状态以及相对尺寸。基于熵的特征检测器被用来选择图像内的区域及其尺寸。在学习时，尺寸不变的对象模型的参数被估计出。这是利用最大似然设置中的期望值最大化来实现的。在识别时，该模型以贝叶斯定理(Bayesian)的方式被用来对图像分类。

定义和构建分类器的另一方式是利用图像用户进行的“关键字标记”。对于“关键字标记”，图像用户将手动地向图像指派关键字，例如“树木”、“脸部”、“蓝天”等。这些手动标记的关键字可被当作是图像的特征的类型，因而可以用于分类目的。例如，关键字侦测(spot)分类器可被构建来在该分类器侦测到特定关键字时就将图像分类到特定类中。更具体地，标记的关键字可被当作一种类型的特征并且被转换为特征向量。这是通过在图像检索中使用的称为“术语向量”的技术来实现的。基本地，构建具有N个关键字的字典，并且对于标记有关键字的每个图像，N维的关键字特征向量将被指派给该图像。如果图像被标记有字典中的第i个关键字，那么1被指派给术语向量中的第i个元素，否则0被指派。结果，每个图像的术语向量被提供来表示该图像的语义含义。可将这样的术语向量与上面描述的常规特征向量相连接，以形成用于图像分类的新的特征向量，如图7所示的。

对于每个图像子集，手动地设计或者学习得到图像搜索器。图像搜索器被用来在数据库的子集内执行类似性搜索。

在定义并构建了分类器之后，数据库中的图像被分类成子集。构建图像子集的方式与分类搜索过程非常类似。当图像被输入数据库时，其在分类树中被自动分类，直到其到达分类树的底层为止，其中，该图像被输入与底层分类器之一相对应的图像池中，如图8所示。

潜在的问题在于图像可能包含多于两个语义对象，例如，图像包含人和树木。如果在分类树中存在两个语义类，例如“人”和“树木”，则将该图像分类到一个类中是含糊的。该问题可以通过上述的冗余分类来解决。即，进入图像可被分类到两个子集中。

虽然已经在这里详细示出和描述了包含本公开的教导的实施例，但是本领域技术人员可容易地设计出仍然包含这些教导的许多其它变形实施例。已经描述了用于利用分类搜索树对图像进行高效地语义类似性搜索的***和方法的优选实施例(其意图是例示性的而非限制性的)，但是应当注意，本领域技术人员根据以上教导可进行修改和变更。因此应当了解，可在所公开的本公开的特定实施例中进行落在由所附权利要求限定的本公开的范围和精神内的改变。

Claims

1.一种用于在多个图像中搜索感兴趣图像的方法，该方法包括以下步骤：

针对所述多个图像构建分类结构(202)，所述分类结构包括至少两个图像类别，每个图像类别表示所述多个图像的子集；

接收查询图像(204)；

对所述查询图像分类以选择所述至少两个图像类别中的一个图像类别(206)；以及

将对感兴趣图像的搜索限制于在所述至少两个图像类别中选择的一个图像类别(210)。

2.如权利要求1所述的方法，其中，所述分类结构是语义分类搜索树。

3.如权利要求1所述的方法，其中，对查询图像分类的步骤包括：

从所述查询图像提取特征；以及

基于所提取的特征来标识所述至少两个类别中的一个类别。

4.如权利要求1所述的方法，其中，对查询图像分类的步骤是通过图案识别函数执行的。

5.如权利要求1所述的方法，其中，构建分类结构的步骤包括：为每个图像类别确定分类器，其中，所述分类器将图像分类到所述至少两个类别中的一个类别。

6.如权利要求5所述的方法，其中，确定分类器的步骤是通过向所述多个图像应用聚类函数来执行的。

7.如权利要求5所述的方法，还包括为每个所确定的分类器确定至少一个子分类器的步骤。

8.如权利要求5所述的方法，还包括以下步骤：

基于所确定的分类器来对所述多个图像中的每个图像分类；以及

将所述多个图像中的每个图像存储到所述多个图像的至少一个子集中。

9.如权利要求1所述的方法，其中，构建分类结构的步骤包括：

向所述多个图像中的每个图像标记特征关键字；以及

基于所述特征关键字将所述多个图像中的每个图像存储到所述多个图像的至少一个子集中。

10.如权利要求9所述的方法，还包括基于所述特征关键字为每个图像类别确定分类器的步骤。

11.如权利要求1所述的方法，其中，构建分类结构的步骤还包括以下步骤：

从所述至少两个图像类别中的所述多个图像的每个图像中识别对象；以及

基于识别出的每个图像的对象确定用于每个图像类别的分类器，其中，所述分类器将图像分类到所述至少两个类别中的一个类别。

12.如权利要求1所述的方法，其中，搜索感兴趣图像是通过类似性量度来执行的。

13.如权利要求1所述的方法，还包括以下步骤：

将所述查询图像分类在所述至少两个图像类别中的至少两个类别中；

在所述至少两个图像类别中利用所述查询图像来搜索感兴趣图像；

为在至少两个类别的每个类别中找到的每个图像确定类似性评分；以及

将具有最高类似性评分的图像选为所述感兴趣图像。

14.一种用于在多个图像中搜索感兴趣图像的***(100)，该***包括：

数据库(122)，该数据库(122)包括被结构化为至少两个语义图像类别的多个图像，每个语义图像类别表示所述多个图像的子集；

用于获取至少一个查询图像的装置(103，104，106，124)；

图像分类器模块(116)，用于对所述查询图像分类以选择所述至少两个语义图像类别中的一个语义图像类别；以及

图像搜索器模块(119)，用于利用所述查询图像搜索感兴趣图像，其中，该搜索被限制于在所述至少两个语义图像类别中选择的一个语义图像类别。

15.如权利要求14所述的***(100)，还包括：特征提取器(118)，用于从所述查询图像提取特征，其中，所述图像分类器模块(116)基于提取出的特征来标识所述至少两个类别中的一个类别。

16.如权利要求14所述的***(100)，其中，所述图像分类器模块(116)包含图案识别函数。

17.如权利要求14所述的***(100)，还包括：用于构建包括用于每个图像类别的分类器的语义分类搜索树的装置，其中，所述分类器将图像分类到所述至少两个类别中的一个类别。

18.如权利要求17所述的***(100)，其中，所述图像分类器模块(116)通过向所述多个图像应用聚类函数来确定所述分类器。

19.如权利要求17所述的***(100)，其中，所述图像分类器模块(116)为每个所确定的分类器确定子分类器。

20.如权利要求17所述的***(100)，其中，所述图像分类器模块(116)基于所确定的分类器来对所述多个图像中的每个图像分类，并且将所述多个图像中的每个图像存储到所述数据库中的所述多个图像的子集中。

21.如权利要求17所述的***(100)，还包括：关键字标记器(120)，用于向所述多个图像中的每个图像标记特征关键字，并且基于所述特征关键字将所述多个图像中的每个图像存储到所述数据库中的所述多个图像的子集中。

22.如权利要求21所述的***(100)，其中，所述图像分类器模块(116)基于所述特征关键字为每个图像类别确定分类器。

23.如权利要求17所述的***(100)，还包括：对象识别器(121)，用于从所述至少两个图像类别中的所述多个图像的每个图像中识别对象，并且所述图像分类器模块(116)基于识别出的每个图像的对象确定用于每个图像类别的分类器。

24.如权利要求14所述的***(100)，其中，所述图像搜索器模块(119)包括类似性量度。

25.如权利要求14所述的***(100)，其中，所述图像分类器模块(116)将所述查询图像分类在所述至少两个图像类别中的至少两个类别中，并且所述图像搜索器模块(119)在所述至少两个图像类别中利用所述查询图像来搜索感兴趣图像，为在所述至少两个类别的每个类别中找到的每个图像确定类似性评分，并且将具有最高类似性评分的图像选为所述感兴趣图像。

26.一种可由机器读取的程序存储设备，该程序存储设备有形地包含有程序指令，所述程序指令可由所述机器运行来执行用于在多个图像中搜索感兴趣图像的方法步骤，该方法包括以下步骤：

接收查询图像(204)；