CN102339306A

CN102339306A - 基于草图的图像搜索

Info

Publication number: CN102339306A
Application number: CN201110266398XA
Authority: CN
Inventors: 王长虎; 李志伟; 张磊
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-08-31
Filing date: 2011-08-30
Publication date: 2012-02-01
Anticipated expiration: 2031-08-30
Also published as: WO2012030514A1; CN102339306B; EP2612263B1; US9449026B2; EP2612263A1; US20120054177A1; EP2612263A4

Abstract

基于草图的图像搜索可包括接收查询曲线作为草图查询输入以及基于该查询曲线来标识第一多个定向点。该第一多个定向点可被用来定位具有包括与该第一多个定向点中的至少一些相匹配的第二多个定向点的曲线的至少一个图像。各实现还包括通过标识每一图像中的至少一条曲线并生成包括作为索引项的多个定向点的索引来对多个图像进行索引。这些索引项基于图像中的所标识的曲线中的对应的定向点来与多个图像相关联。

Description

基于草图的图像搜索

技术领域

本发明涉及图像搜索，尤其涉及基于草图的图像搜索。

背景技术

随着电子成像设备和因特网的日益流行，数十亿数字图像已经变得可公开获得并且可在线搜索。对这样巨大数量的数据进行索引以使用户能够快速找到所需图像是巨大且困难的任务。例如，许多图像是在没有准确描述或标签的情况下张贴的，使得难以使用典型的关键字技术对这些图像进行索引。因此，在用户希望定位具有特定特征的复杂图像时，依赖于短文本查询的常规的基于文本的搜索引擎通常不能够以及时且高效的方式来定位所需图像。

另外，尽管已经密集地研究了图像数据库的基于草图的搜索，但在开发实用的大规模的基于草图的搜索技术方面作出的进展很少。在构造大规模的基于草图的搜索***方面的尝试因各种原因而没有成功。例如，一些所提出的技术缺少有效的边表示并且不能够快速且准确地将输入草图与经索引的图像进行比较。其他所提出的技术不能够实现可伸缩的索引解决方案，从而在被应用于数百万图像时造成具有不可管理的大小或复杂度的索引。

发明内容

提供本“发明内容”是为了以简化的形式介绍将在以下“具体实施方式”中进一步描述的一些概念。本“发明内容”并不旨在标识出所要求保护的主题的关键特征或必要特征；也不旨在用于确定或限制所要求保护的主题的范围。

本文的一些实现提供了用于使用查询曲线作为搜索查询来进行基于草图的图像搜索以准确地定位和检索图像的技术。此外，一些实现提供了用于高效地对巨量自然图像进行索引以便于基于草图的搜索的索引技术。

附图说明

参考附图来阐明“具体实施方式”。在附图中，附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用同一附图标记指示相似或相同的项或特征。

图1是根据一些实现的用于基于草图的搜索的框架的框图。

图2A-2C示出了根据一些实现的实时交互式的基于草图的搜索的示例。

图3是根据一些实现的用于基于草图的搜索的示例过程的流程图。

图4描绘了根据一些实现的距离图的示例。

图5是根据一些实现的用于基于草图的搜索的框架的框图。

图6是示出出错率和估计的存储器使用与图像分辨率的关系的图表。

图7A-7C示出了根据一些实现的边界检测和突出曲线标识的示例。

图8示出了根据一些实现的具有不同定向的各曲线部分的二进制图的示例。

图9示出了根据一些实现的结构敏感匹配的效果。

图10描绘了根据一些实现的索引结构的示例。

图11描绘了根据一些实现的用户界面的示例。

图12描绘了根据一些实现的具有文本输入的用户界面的示例。

图13描绘了根据一些实现的具有文本轮输入的用户界面的示例。

图14描绘了根据一些实现的具有色彩轮输入的用户界面的示例。

图15是根据一些实现的索引过程的示例的流程图。

图16是根据一些实现的用于基于草图、基于文本和/或基于色彩的搜索的示例过程的流程图。

图17是根据一些实现的用于基于草图的图像搜索的示例***的框图。

图18是根据一些实现的示例服务器计算设备的框图。

图19是根据一些实现的示例客户机计算设备的框图。

具体实施方式

基于草图的搜索

本文描述的技术一般针对用于基于草图的图像搜索的技术。一些实现采用突出曲线发现方案来检测自然图像中的主要或突出曲线以允许高效地对图像进行索引和表示。此外，一些实现应用原始的基于曲线的过程来计算查询草图输入与为自然图像生成的曲线图之间的相似度。此外，可以提供用户界面以允许用户使用草图输入、文本输入、和色彩选择输入的任何组合来灵活地制定查询。

为了对数百万图像进行索引并且为了能够对基于草图的查询进行实时响应，一些实现利用了被设计成考虑存储成本、图像检索准确度、以及计算效率的位置敏感曲线索引框架。本文公开的索引技术可被用来创建涵盖数百万图像的可管理和可搜索索引。在一些实现中，在标识图像中的突出曲线期间，图像的分辨率可被降低到最优分辨率以提供出错率与存储器空间之间的平衡。因此，本文的实现能够提供用于按草图查询的图像搜索的大规模索引框架和允许将草图查询与图像进行匹配的搜索引擎。

本文的一些实现提供了比常规技术要快得多且准确得多的用于基于草图的搜索的技术。在真实世界情况下，用户的搜索意图通常是复杂的并且可在搜索期间变化。因此，一些实现提供了交互式用户界面来帮助用户表达他们的意图并通过细化他们的草图查询以逐步的方式来找到所需图像。该用户界面可包括允许用户组成复杂查询的查询面板或窗口，如通过绘制草图、输入一个或多个关键词、以及指定主色。此外，具有触摸屏能力的设备的流行使得人机交互，尤其是草图绘制，比之前更加容易。

另外，还可以充分利用具有许多web图像的标签和文本的可用性来提高基于草图的图像搜索的准确度。在一些实现中，在草图本身不足以描述用户的查询意图时，可以结合草图查询来使用文本查询以桥接草图查询与自然图像之间的语义间隙。例如，如果用户绘制了圆圈作为他/她的查询来寻找月亮，则***可能返回包含许多圆形对象但不一定是月亮的图像。在这种情况下，结合草图查询提交的文本查询可帮助提高搜索结果的相关度。另外，本文的一些实现允许结合草图查询来指定色彩。例如，如果用户期望定位特定颜色的花的图像，则用户可以指定该特定颜色作为结合基于草图的查询和/或基于文本的查询来提交的基于色彩的查询。

本文的一些实现提取自然图像的代表性轮廓，该轮廓可被用来将图像与查询草图相匹配。因此，各个实现能够高效地且准确地将查询草图与自然图像中的轮廓相匹配。用户提交草图查询而非仅仅是文本查询指示了所得图像的形状或轮廓结构是优先的。因此，用户期望所得图像与他们的草图输入紧密匹配。大多数常规的按草图查询的技术具有可伸缩性问题，因为它们不具有加速草图-图像匹配的索引机制。本文的实现包括用于检测表示图像的一条或多条突出曲线的突出曲线标识方法。图像的突出曲线具有更紧密地匹配用户的草图输入的可能性。本文的实现还提供了用于计算查询草图与自然图像之间的相似度的基于原始曲线的算法。这一匹配算法适用于本文公开的索引策略并可被优化来改进用户体验。为了可伸缩到数百万图像，可以使用考虑索引大小、检索精度、以及检索效率的位置敏感曲线索引策略。在这一索引方案下，图像由一组视觉字(visual-word)来表示。每一视觉字可以表示一个像素，并且可被表示成定向(direction-oriented)点{x，y，θ}，其指示曲线从方向θ穿过图像的位置{x，y}。因此，θ提供到位置{x，y}的定向，这减少了可能的匹配的数量而同时提高了准确度。

各个实现使用本文公开的索引和匹配框架来提供实时的基于草图的图像搜索***。此外，为了提高检索精度和用户搜索体验，各个实现提供允许用户灵活地制定并交互式地细化他们的查询的交互式用户友好界面。除基于草图输入的搜索之外，一些实现包括以补充性方式执行的基于色彩或文本输入的搜索，如在其中一些视觉元素或语义意义不能由草图方便地呈现的情况下。

用于基于草图的搜索的示例框架

图1是根据本文的一些实现的用于交互式的基于草图的图像搜索框架100的示例的框图。框架100能够作为用于索引和搜索数百万图像的实时的基于草图的交互式图像搜索***来执行。框架100可以允许输入草图查询与诸如数据库、因特网等图像源中的一个或多个图像之间的精确匹配。框架100包括离线或索引阶段102和在线或搜索阶段104。索引阶段102包括图像106的一个或多个数据库或源。例如，图像106可以从任何合适的源获得，如通过爬行因特网网站、通过下载或上传图像数据库、通过将来自成像设备的图像存储到计算机存储介质，等等。在一些实现中，图像106可以是可在万维网上获得的数百万或甚至数十亿自然图像、照片等。索引阶段102还包括用于生成图像106的图像索引110的索引组件108。图像索引110可以是用于基于查询曲线输入来标识一个或多个图像的草图匹配图像索引。在一些实现中，索引组件108标识每一图像106中的一条或多条主要或突出曲线112，并基于这些突出曲线112来生成图像索引110。例如，每一突出曲线112可被表示成一群或一组定向点，并且可以基于不同的定向点来创建倒排索引结构。这些定向点用作组成索引的索引项或视觉字，并且基于它们是否具有包含特定视觉字的突出曲线来将图像标识符与特定视觉字相关联。

可以使得在索引阶段102期间生成的图像索引110可供搜索引擎114在搜索阶段104期间使用。搜索引擎114可以提供能够接收作为查询提交的草图输入118的用户界面组件116。在所示实现中，用户界面组件116与搜索引擎114一起提供。例如，该用户界面可以在web浏览器窗口中作为网页来呈现给用户。在其他实现中，用户界面组件116可被合并到用户计算机上的web浏览器或其他应用程序，可以是web浏览器的插件或升级，等等。搜索引擎114还包括被配置成接收草图输入118并执行匹配和排名功能以定位与草图输入118相对应的一个或多个图像106的匹配组件120。在一些实现中，匹配组件120至少使用基于草图输入118中标识的一条或多条曲线的单向数据库-查询匹配方案。此外，在其他实现中，匹配组件120可以使用包括数据库-查询匹配和查询-数据库匹配两者的双向索引和匹配方案或近似双向索引和匹配方案。匹配组件120标识与草图输入118相对应的一个或多个图像，并且用户界面组件116输出所标识的图像中的一个或多个来作为结果122。结果122可以作为反馈124来实时地显示给或以其他方式提供给用户。如果用户对结果122不满意，则该用户可以交互式地修改草图输入118，如通过向草图添加附加曲线、删除或擦除曲线或曲线的一部分，等等。

图2A-2C示出了根据本文的一些实现的可以使用框架100来执行的实时交互式搜索的示例。如图2A所示，用户可以在用户界面204中绘制第一草图202作为提交给框架100的草图输入118。提交第一草图202并且框架100可以显示多个图像206作为搜索结果的反馈。如图2B所示，如果响应于第一草图202所返回的图像206不满足用户的搜索意图，则该用户可以交互式地添加一条或多条附加直线或曲线和/或删除现有直线或曲线中的一些或全部。在所示示例中，用户在用户界面204中添加第二草图208，并且框架100作为响应基于作为草图输入查询的第一草图202和第二草图208来返回第二多个图像210。如果第二多个图像210仍然不满足用户的搜索意图，则该用户可以添加或删除附加草图线来进一步细化草图输入。如图2C所示，在该示例中，用户添加附加草图曲线212、214、216，并且框架100基于作为当作查询提交的草图输入的草图曲线202、208、212、214和216来返回第三多个图像218。因此，从以上示例可以看到，用户可以使用用户界面来实时地交互式地细化草图输入以定位与搜索意图相匹配的一个或多个图像。

图3是根据本文的一些实现的用于执行基于草图的搜索的示例过程300的流程图。在该流程图中，操作被概括成单独的框。操作可以用硬件或作为可由一个或多个处理器执行的处理器可执行指令(软件或固件)来执行。此外，过程300可以但不必使用图1的框架100来实现。

在框302，框架100生成多个图像的基于曲线的图像索引。例如，框架100可以检测每一图像中的一个或多个主要或突出曲线并基于每一检测到的突出曲线中所包含的各点的位置和定向来生成索引。

在框304，框架100接收草图作为草图查询输入。例如，用户可以向该框架所提供的或者由web浏览器或其他应用程序所提供的用户界面提交草图来作为草图查询输入。

在框306，该框架标识作为草图查询输入来提交的草图中的一条或多条曲线。

在框308，该框架定位具有与该一条或多条草图曲线相对应的曲线的一个或多个图像。例如，该框架可以使用图像索引来标识具有带有与在草图查询输入中提交的草图曲线的定向点相类似的定向点的突出曲线的一个或多个图像。该框架还可采用各种排名方案，如以下针对对所标识的图像进行排名而进一步讨论的。

在框310，返回定位的图像并将其作为反馈显示给用户。如果用户对搜索结果不满意，则该用户可以进一步交互式地实时地细化草图并且该过程返回到框304以处理作为查询输入的经细化的草图。用户可以继续交互式地细化草图，直至达到所需结果为止。

匹配技术

通过采用本文公开的基于草图的图像搜索技术的各个实现，用户可以在用户界面中简单地草拟一个或多个笔画来表示对象或场景的轮廓，并且该框架向用户返回一个或多个“匹配”图像。这些“匹配”图像是基于与草图输入的至少两个相似性条件来标识的，即相似形状和相似位置。因此，希望所得图像中的对象或场景的形状与用户的草图输入的形状相似。此外，希望匹配的对象或场景在所得图像中的位置定位在与输入草图中相类似的位置。

此处的草图可以由一条或多条曲线来表示，并且每一条曲线可被分解成多个相邻地定位的像素。类似地，为数据库中的图像所标识的突出曲线也可以由多个相邻地定位的像素来表示。为了实现相似性匹配，可采用许多相似性度量来供本文的各个实现使用。本文的一些实现利用斜面匹配(Chamfer Matching)技术，该技术例如由J.Shotton、A.Blake、以及R.Cipolla在2008年PAMI“Multiscale categorical object recognition using contour fragments(使用轮廓片段的多尺度分类对象识别)”中描述，但本文的其他实现可以使用替换匹配技术。

根据斜面匹配技术，可以使用一组点D来表示图像的曲线，其中点p∈D的位置由X_p＝(x_p，y_p)来表示。从查询草图Q到数据库图像D的基本斜面距离如下给出：

其中|Q|是查询草图曲线的像素的数量。斜面匹配可用来为查询草图的每一像素找出数据库图像D上的最接近像素。为了降低从O(|Q|×|D|)到O(|Q|)复杂度，可以在离线或索引阶段期间提前构造数据库图像D的距离图并由该框架来存储，以便用存储成本来代替在线搜索处理时间。

图4示出具有图像曲线402的数据库图像的曲线或距离图400的示例。距离图400被示为多个正方形404，其中每一个正方形404都表示一个像素。对组成图像曲线402的像素给予值“0”，并且对距该曲线某一距离的每一像素给予与该像素距离相对应的值。例如，对距该曲线一个像素的像素给予值“1”，对距该曲线两个像素的像素给予值“2”，以此类推。可将草图查询曲线406覆盖在距离图上以用于确定与图像曲线402的相似度。因此，如计算408所示，该距离等于像素距离的总和除以以像素为单位的曲线长度。对于所示示例，查询曲线406覆盖两个具有值“0”的像素、四个具有值“1”的像素、两个具有值“2”的像素、两个具有值“3”的像素、以及一个具有值“5”的像素。这些像素值相加到一起并除以查询曲线406的长度(“11”)以得到查询曲线406与图像曲线402之间的距离，在所示示例中该距离等于1.73。距离值越低，则查询曲线406与图像曲线402之间的匹配越接近。

另外，匹配准确度可以通过确定既考虑从查询曲线到图像曲线的距离又考虑从图像曲线到查询曲线的距离的对称斜面距离来提高。对称斜面距离由下式给出：

为了在匹配期间对曲线的定向信息进行编码，提出基本定向斜面匹配如下：

其中Θ是量化定向的集合。

然而，基本定向斜面匹配的缺点是缺少可伸缩性。例如，为了使用定向斜面匹配，必须将查询草图与数据库中的所有图像进行比较并存储对应的距离图以加速处理。为了说明这一成本，假定存在具有两百万个具有500×375像素的典型分辨率的图像的数据库。此外，假定从统计数据来看，使用边界检测器至少每30个像素产生一个边缘点，这意味着典型边缘图具有6250个点。因此，用于两百万个图像的存储接近58GB，这难以适合常规计算设备的存储器。此外，在定向斜面匹配的一些实现中，所使用的存储器可以是至少931GB以存储所有预先计算的距离图，具有8GB～32GB存储器的最常见服务器计算设备将不能处理。此外，即使存储器使用是可管理的，对于实时交互式搜索引擎而言，用于搜索这样大量的数据的搜索时间也将是远不能接受的。

为了避免以上问题，本文的一些实现提供图像的高效的轮廓表示以减小图像特征的大小，从而减少所使用的存储器存储。例如，本文公开了突出曲线发现方案并且其可用来从图像提取主要或突出曲线，这极大地降低了存储器成本。此外，一些实现还利用高效的匹配方案来降低计算搜索成本。例如，本文公开了提供突出曲线图与用户的草图查询之间的精确且高效的匹配的基于原始曲线的匹配过程。一些实现还可适用于用于加速检索过程的位置敏感曲线索引结构。此外，如上所述，一些实现在设计图像表示和匹配方案时还考虑索引解决方案以便确保整个框架是可伸缩的。因此，本文的一些实现能够实现两百万图像的索引以支持使用小于8GB存储器且具有小于2秒的实时响应的基于草图的搜索***。

示例索引和搜索框架

图5是示出根据一些实现的示例框架500的框图。框架500构建在上述框架100上，并且包括索引阶段102和搜索阶段104。在这些实现中，索引组件108可包括降采样组件502、边界曲线组件504、突出曲线组件506、色彩检测组件508、以及文本组件510。如以下另外描述的，降采样组件502被配置成减小图像106的大小以减少用于进行索引和匹配的突出曲线和其他数据的存储。边界曲线组件504被配置成识别边界曲线以作为本发明的用于确定图像106的突出曲线的技术的一部分。突出曲线组件506被配置成识别图像106的突出曲线，即，被认为最可能表示图像内容的那些曲线。色彩检测组件508被配置成创建标识与每一图像106相关联的一个或多个主色的色彩索引512。此外，文本组件510被配置成通过标识与图像106相关联的任何标签或文本来创建文本索引514。

在搜索阶段104，搜索引擎114，在这些实现中是匹配组件120，还被配置成在提供色彩或文本查询信息以便进一步标识相关图像以作为结果122和反馈124来呈现时访问色彩索引512和/或文本索引514。例如，并非仅仅提供草图作为输入，除了允许提交基于草图的查询以外，一些实现还允许提交基于文本的查询和/或基于色彩的查询。因此，草图/色彩/文本输入降采样组件可以提交给用户界面组件116，并且用户可以实时地交互式地调整或细化这些参数(即，草图、色彩、或文本)中的任一个来获得满意的搜索结果。

图像表示

用户易于绘制主要曲线作为草图查询并且通常期望所得图像包含相似的主要曲线。本文的发明人确定标识并保留自然图像的主要曲线并且移除不显眼或不重要的曲线不仅降低了用于对图像进行索引的存储器成本，还提高了匹配精度。因此，本文的一些实现提供了用于标识自然图像中的主要或突出曲线以便能够在图像的索引和查询匹配时使用该突出曲线的技术。本文公开的突出曲线标识技术可包括以下三个特征：1)在没有显著的突出曲线损失的情况下进行图像降采样，2)边界曲线提取，以及3)突出曲线提取。最终突出曲线表示不仅降低了存储器成本，而且往往还与用于可视化对象或场景的人类敏感机制紧密对应。

低分辨率图像表示

本文的发明人确定不必采用全分辨率或高分辨率图像来标识自然图像中的突出曲线。因此，可以对图像的分辨率进行降采样或以其他方式降低，而不影响本文的突出曲线标识技术。这可以降低本文的实现的总存储器使用，以便更好地管理所索引和搜索的巨量数据。

图6是示出本文的发明人研究的用于确定在没有显著的突出曲线损失的情况下图像分辨率可被降级到的最优水平的结果的图表600。“分辨率”表示图像的以像素为单位的最大长度(L)(即，对图像进行降采样直至图像的高度和宽度都小于L，而同时维持原始高-宽比)。“出错率”指示对每一分辨率而言突出曲线的结构不可识别的百分比。“存储器”表示在每一分辨率下用于允许搜索两百万个图像的估计的对应存储器使用。图表600示出对于L＝100的分辨率而言出错率是46％，而对于L＝200的分辨率而言出错率降至只有7％，且对于L＝300及以上的分辨率而言出错率基本上是0。因此，图表600示出将图像从例如L＝500降采样到L＝200提供了突出曲线损失与存储器成本之间的良好平衡。此外，在最大分辨率小于L＝256时，根据一些实现，可以只使用一个字节而不是两个字节来存储每一突出曲线坐标，这帮助显著地降低了存储器成本。因此，根据一些实现的最优分辨率可以是L＝200和L＝256之间。例如，通过采用L＝200的分辨率，本文的一些实现将存储器使用降到8GB或更少存储器以允许搜索2百万个图像，这对常规计算设备而言是可容忍的。

如以上参考图5所讨论的，降采样组件502可用于在索引阶段102期间使用任何合适的分辨率降低技术来对每一图像106进行降采样。因此，为准备突出曲线标识过程，降采样组件502可被配置成将每一图像的分辨率降低到预定最优分辨率。在一些实现中，具有大于L＝256个像素的分辨率的图像可以使它们的分辨率降到小于或等于256个像素的最大长度L。当然，对于已经具有小于预定最大长度L的图像而言，降采样是不必要的。在降采样之后，随后将较低分辨率图像提供给边界曲线组件504以检测对象边界，如接下来讨论的。

边界曲线表示

本文的一些实现采用自然边界检测器作为边界曲线组件504的一部分来从图像中提取对象的边缘或边界以用于标识该图像的突出曲线。通常，边界检测器使用亮度、色彩、以及纹理信息来准确地检测并定位对象曲线和边缘以辨别图像中的对象的最大边界。合适的边界检测器的示例由D.R.Martin、C.C.Fowlkes以及J.Malik在2004年PAMI“Learning to detect natural imageboundaries using local brightness，color，and texture cues(使用局部亮度、色彩、以及纹理线索来学习检测自然图像边界)”中描述，但本文的实现不限于用于检测图像中的对象边界的任何特定方法。

图7A-7C示出根据一些实现的边界曲线检测和突出曲线标识的示例。图7A描绘具有鹅702作为可识别对象的图像700。鹅702可从图像700的背景704中识别是因为色彩、亮度、以及纹理方面的差异，如位置706和708处所示。

图7B描绘图像700的边界曲线表示710，其可以使用边界曲线组件504使用上述边界检测器来生成。因此，边界曲线组件504接收图像并基于色彩、亮度、以及纹理方面的差异来检测该图像中的原始边界曲线。为了表达每一边界的形状信息，本文的各个实现还可包含边界曲线的局部定向信息，表示为θ∈Θ，其中Θ是量化定向的集合(在本文的一些示例中，每一曲线存在6个可能的定向，即每储存斗30度)。在所示示例中，边界曲线表示710包括表示边界704的多条曲线，并仍然维持鹅702的可识别表示，包括位置706和708。

突出曲线表示

因为用户通常想象他们正在搜索的对象的主要或突出轮廓，所以本文的一些实现通过标识每一图像的边界曲线表示内包含的突出曲线来进一步细化经处理的边界曲线表示710。因此，突出曲线组件506可以从边界曲线组件504接收每一图像的边界曲线表示710。突出曲线组件506随后标识图像中包含的突出曲线。因此，本文的一些实现假定每一图像的突出曲线包含在所标识的原始边界曲线中。

可以使用各种不同的技术来标识图像中的突出曲线。本文的一些实现采用修正连通图算法来从所标识的原始边界提取连续曲线作为突出曲线。这些实现与经典连通图算法之间的差异是在确定两点是否连通时，突出曲线组件不仅确定这两点是相邻的还确定这两点具有相似的局部定向(即，其中这两点的定向是相同的或相邻的)。这一算法所确定的连通顶点或点的集合是所谓的连续曲线。在各边界之中，长且连续的曲线通常属于较突出的对象。因此，本文的一些实现过滤出具有小于预定阈值的长度的短曲线。例如，可以设定阈值以消除具有小于预定阈值(例如，在一些实现中阈值是40个像素，但也可以使用其他合适的阈值)的长度“L”的曲线。

图7C描绘从图像700标识的突出曲线的突出曲线表示712。在图7C中，短边界曲线(即，小于预定阈值的那些)已被完全过滤出，如在由虚线圆圈714所涵盖的区域中示出的那些。从突出曲线表示712中显而易见，鹅702的主要曲线仍然得到表示，如在位置706和708处，而背景中的边界曲线大多数已被移除。这一突出曲线表示技术达到两个目的。第一，在可视化对象或场景时，它往往表示人的典型的认知机制。第二，它进一步减少了用于索引的点的数量。例如，在上述两百万个图像的示例中，用于索引的点的数量从28亿1900万减到10亿零100万，并且对应的存储器成本也因此降低。此外，在准备生成图像106的索引时所有以上操作可以离线处理，这造成高度响应的搜索***，因为响应于搜索查询执行的在线计算被最小化了。

草图匹配

使用上述所提出的突出曲线提取方案，每一图像106都可被转换成一组定向点D，其中该组定向点表示图像的突出曲线。每一像素或点p∈D都由{x_p，θ_p}来表示，其中X_p＝(x_p，y_p)是该点的坐标，并且θ_p是对应的曲线在X_p处的量化切线方向。作为草图查询输入接收到的草图可被实时地分析并由类似的一组定向点Q来表示，其中每一个点q∈Q由{x_q，θ_q}表示，其中X_q＝(x_q，y_q)。

局部稳健的斜面匹配

本文的一些实现采用局部稳健的斜面匹配方法来将草图查询输入与数据库图像中的突出曲线相匹配。这些实现能够考虑草图查询输入中的曲线的近似位置和形状，而不需要查询草图与同一位置的突出曲线完全匹配。例如，用户通常可以容忍与他们将其输入草图相对于图像的其余部分所放置的位置略微有错位，但他们确实关心结果一般要匹配他们输入草图的形状。因此，本文的一些实现被设计成通过采用容限半径r以提供曲线位置容限来允许一些局部错位。然而，在执行曲线形状匹配时，这些实现还可以确保各匹配点一般具有相同的定向。因此，对于点q∈Q，命中函数可以如下定义：

因此，这一等式确定在容限半径r内，草图查询中的各点是否与特定突出曲线中的各点相匹配。在一些实现中，容限半径r可被设定成合适的容限值，如在2和10像素之间，但也可以使用其他合适的容限半径来提供围绕该曲线的预定数量的定向点的容限区域或范围。

图8描绘生成曲线的距离图的示例，该距离图具有容限半径r＝2同时考虑定向θ。曲线图800包括作为第一曲线部分802的水平线和作为曲线806的第二曲线部分804的垂直线。因此，在曲线图800中，第一曲线部分802和第二曲线部分804彼此相邻但具有不同的定向，即不同的方向分量。因此，第一曲线部分802和第二曲线部分804在不同的方向或通道上影响容限半径内的邻近点。可以在与第一曲线部分802的定向相对应的第一通道中生成第一曲线部分802的第一二进制距离图808。类似地，可以在与第二曲线部分804的定向相对应的第二通道中生成第二曲线部分804的第二距离二进制图810。这些二进制图808、810具有在容限半径内的用“X”标记的重叠的多个像素或点812、814，即具有相同位置{x_q，y_q}但具有不同定向θ_q。例如，在第一二进制图808中，点812中的每一个具有与曲线部分802相同的定向或方向(即，水平或弧度等效)。此外，在第二二进制图810中，点814中的每一个具有与曲线部分804相同的定向(即，垂直或弧度等效)。因此，尽管点812、814具有相同的位置{x_q，y_q}，但这些点的定向是不同的，并且在匹配期间，这些点被当作不同的视觉字。因此，在第一二进制图808中表示的容限半径内的点816组成表达曲线806的定向点的第一子集，而在第二二进制图810中表示的点818组成表达曲线806的定向点的第二子集。此外，尽管图8的距离图是在查询曲线的上下文中描述的，但可类似地生成图像106中标识的曲线的距离图。

使用二进制图808、810使得本文的实现能够考虑各点在曲线上的方向定向以及绝对位置，从而提高匹配过程的准确度而胜过只匹配绝对位置。例如，距离图M^D具有N_θ个通道，并且每一通道都可被表示成二进制图。对于具有定向θ_q的点q∈Q，点q只影响通道

中的具有小于r的L₁距离的邻近点。容限半径r内的各点可被标记为“1”，而容限半径r外的各点可被标记为“0”。通过简单的广度优先搜索算法，能以时间复杂度Ω(|D|)来完成对距离图的生成。因此，通过将距离二进制化，斜面距离被转换成某种斜面相似度。因此，基于距离图M^D，本文的实现可以在线性时间内计算两条曲线之间的相似度，例如相似度_Q→D：

因此，对称局部稳健斜面相似度，即，既考虑从Q到D的相似度也考虑从D到Q的相似度，由下式给出：

结构敏感斜面相似度

在搜索图像时，用户可以绘制多个单独的笔画作为草图查询输入来期望找到具有多个对象的一些图像。通常图像数据库可能缺少完全匹配的结果，并且草图查询可被解释成应用于单个对象而非多个对象。

图9示出其中用户提交包括两个方框904、906的草图的草图查询902的示例。在一些实现中，本文的***可以响应于草图查询902返回图像A 908和图像B 910作为搜索结果的一部分。图像A的突出曲线图912示出图像A具有与草图查询902的方框904紧密匹配的一个部分，而图像B的突出曲线图914示出图像B具有与草图查询902相匹配、但具有与方框904和906都较低的相似度的两个部分。因此，图像A 908有可能在返回结果中排名比图像B 910更高。例如，图像A 908能以0.333的排名分数在结果中排名第二，而图像B 910能以0.259的排名分数在结果中排名第四。然而，从用户的观点看，图像B 910更符合用户提交草图查询902的期望。

为解决这一可能性，本文的一些实现使用全局视图来评估匹配相似度。在这些实现中，一个草图查询可被当作多个子查询，并且然后最终分数可以是来自所有多个子查询的相似度的组合。一开始，用户界面所记录的笔画信息能够提供将草图查询划分成各个子查询的自然向导，因为用户使用单个笔画很少绘出复杂形状或多个元素。例如，在草图查询902的情况下，方框904、906中的每一个被示为各自是使用至少四个分开的笔画来绘制的。因此，组成方框904、906的每一笔画都可被当作一子查询。

另外，在其中用户确实采用不间断绘制技术的情况下，本文的一些实现可以使用上述突出曲线标识过程将不间断草图划分成若干连续曲线。根据这些实现，具有大于预定阈值L_d的长度的每一条连续曲线被当作一个子查询，而具有小于这一阈值L_d的连续曲线将与下一曲线一起计算直至达到阈值为止。例如，如下所述，在本文的一些实现中，阈值L_d可以是用户界面的画布大小的一半，但也可使用其他合适的阈值。对于草图Q及其D个分量{Q₁，Q₂，…，Q_D}，从Q到D的结构敏感斜面匹配相似度由下式给出：

在图9的示例中，使用上述结构敏感匹配相似度的实现，可以看到，图像A的排名是具有0.188的排名分数的第13名，而图像B的排名被提高到第2名，具有0.258的排名分数。使用几何平均确保全局匹配程度比局部细节更占优势，并且作为最终结果返回的图像更接近用户期望。

可伸缩草图索引

本文的一些实现进行草图查询与数据库图像之间的双向匹配。本文的发明人确定执行将查询匹配到数据库并且还将数据库匹配到查询的双向匹配过程可以产生比单向匹配过程更准确的结果。对于高效的数据库-查询匹配，本文的一些实现使用查询曲线的距离图和数据库图像的所有边界特征。另一方面，对于查询-数据库匹配，本文的一些实现使用原始查询曲线和数据库图像的所有距离图，而其他实现执行更高效的近似查询-数据库匹配。

用于数据库-查询匹配的索引

图10示出根据一些实现的用于数据库-查询匹配的索引1000的索引方案的示例。根据这些实现，从突出曲线标识的定向点被认为是要在索引1000中进行匹配的视觉字。基于使用定向点(x，y，θ)作为视觉字1002来将索引1000生成为倒排列表，使得包含突出曲线中的特定定向点的图像通过图像标识符(ID)1004来与该特定定向点相关联。例如，假定用户界面提供用户可在其中绘制草图查询输入的200x200像素的面板。此外，假定在标识每一图像中的突出曲线之前，图像已被降采样成200x200的最大分辨率。因此，在该实现中，草图输入面板中存在40,000个像素，其中的每一个都具有一个定向或方向。此外，假定可能定向的数量被限于6个定向(例如，30度增量)。因此，在该示例中，数据库-查询匹配索引1000将具有240,000个可能的视觉字，即每一像素具有6个视觉字。数据库中的每一个图像都具有由多个定向点组成的一条或多条突出曲线。因此，在离线索引阶段期间，图像的每一突出曲线上的每一定向点可以匹配到索引1000中的视觉字1002之一。随后在索引1000中列出图像ID 1004作为与该视觉字相对应的图像之一。

在基于接收到的草图查询输入进行搜索时，可以基于草图查询曲线的不同定向或通道并考虑指定容限半径来为该草图输入创建多个距离图1002-1、1002-2、…、1002-N，如以上参考图8讨论的二进制图。因此，在接收到草图查询输入作为搜索任务时，草图查询距离图的所有非零定向点(即，x、y坐标与通道定向一起)组成视觉字的集合。该来自草图查询的视觉字的集合与用作索引1000中的索引项的视觉字1002相匹配。检索并且合并图像ID 1004的倒排列表以根据每一图像ID 1004的出现次数来生成排名列表。

在本文的一些实现中，对于210万个图像而言用于索引1000的存储器被发现是大约3.7GB，这对常规计算设备而言是可以接受的。例如，每一图像ID可以使用4个字节来存储，这允许超过40亿个不同的图像ID。此外，时间复杂度是Ω(P·L)，其中P是查询距离图的非零点的数量，且L是索引项的平均长度。在以上讨论的具有210万个图像的示例中，索引项的最大长度被发现是小于20000个项。因此，对于草图查询的距离图中的每一个点，各实现至多扫描20000个图像ID而非数据库中的所有210万个图像。在本文的一些实现中，在对草图查询进行匹配时，观察到典型的搜索操作处理时间小于1秒。本文描述的索引结构通过自动地避免数据库中的不匹配的点来固有地加速了搜索过程。

上述基于索引1000的单向斜面相似度匹配过程可能遭受到其中一些稀疏曲线图碰巧与查询区域中的曲线紧密匹配的问题。因此，所返回的对应图像因为曲线中的所有点将命中草图查询的距离图而可能排名很高，而草图查询输入中的其他曲线在所返回的图像中不存在，因为该图像是稀疏图像。因此，用户可能对这样的结果不满意，因为他们期望匹配草图查询曲线中的更多曲线。因此，根据本文的一些实现，可以通过还执行查询-数据库匹配来将这些不令人满意的结果过滤出去。

用于查询-数据库匹配的索引

对于查询-数据库匹配，本文的实现可以构造与所有数据库图像的距离图的索引1000相类似的索引。在容限半径r是8(这在实验中是可接受的容限值)的情况下，这样的索引的总存储成本大约是44.7GB，这不能由常见计算设备来处理。或者，如果只对数据库图像的突出曲线进行索引，并且每一图像的距离图是在接收到草图查询后在线生成的，则时间复杂度将是Ω(M·R)，其中M是来自所有距离图的点的总数，并且R是从曲线图到多个二进制距离图的平均展开因子(最大为2r+1)。通常，这一时间成本将大于100秒，并且因此在线计算距离图和将它们预先存储在存储器中都不是可以使用诸如单个服务器等常规计算设备来管理的。然而，尽管上述双向索引和匹配方案当前对许多常规计算设备而言是不可管理的，但其可以在特别设计的具有足够存储器和/或并行计算能力的计算设备上实现。因此，在获得从数据库-查询和查询-数据库匹配检索到的图像ID列表后，最终所得图像列表很容易根据等式(6)来计算。

用于近似匹配的高效索引

并非需要一个或多个专用计算设备来执行上述完全查询-数据库索引和匹配，本文的一些实现可以改为使用近似查询-数据库匹配。根据这些实现，一开始使用数据库-查询匹配来确定前N个候选图像。随后，在线生成该N个候选图像的距离图。随后可以使用等式(6)来对这N个候选图像进行排名。本文的发明人的实验示出这一方法产生令人满意的结果。因此，位置敏感曲线索引框架提供用于对照数百万图像来高效且精确地匹配草图查询的在线***。例如，对于上述210万图像的数据库的示例，总存储器成本包括两个主要部分，即，用于索引的3.7GB和包含用于在该近似查询-数据库匹配期间在线生成距离图的原始曲线特征的2.8GB，总共6.5GB。在该示例中，检索时间被发现是大约1秒。

多个索引

如以上参考图5所述，本文的一些实现提供了包括后端索引***和前端基于草图的搜索界面的交互式图像搜索***。此外，一些实现允许用户通过在查询输入中组合草图、文本、和色彩来搜索图像。因此，本文的实现的索引部分可以提供多个不同索引的组合。

除此处讨论的基于草图的搜索特征之外，各实现还可以从图像提取色彩特征和文本或标签特征并对其进行索引。如果图像具有与它们相关联的文本或标签，则利用这些文本或标签提供了用于克服草图输入与结果之间的语义间隙的方便手段。取决于被索引的图像的类型和图像的源，可用若干不同的方式来获取文本和标签。对于用户生成的图像，其大多数存在于照片论坛和照片共享网站中，摄影者可能使用一个或多个关键字来标记了这些照片。对于典型网页和其他在线源中的图像，可能通过解析该网页来提取周围的文本。因此，基于文本的索引可以是典型的关键字搜索索引，其中图像通过其图像ID与相关关键字相关联。

此外，对于生成基于色彩的索引，本文的实现可以从每一图像提取一个或多个主色。在一些实现中，通过在HSV(色调、饱和度、以及值)色彩空间中计算色彩直方图来检测每一图像的三个最主要的颜色，但本文的实现不限于任何特定色彩空间模型。色彩直方图表示色彩在图像中的分布，如通过表示具有跨图像的色彩空间的色彩范围的每一固定列表(即，可能色彩的集合)中的色彩的像素的数量。此外，在一些实现中，在构建图像的色彩直方图时，每一像素的权重可以由其到该图像的中心的距离来进行处罚。因此，可以创建色彩的索引，其中每一图像通过图像ID与索引中的至少一个色彩相关联。

因此，为了启用实时交互式图像搜索，本文的实现提供用于草图、文本、以及色彩特征中的每一个的高效的索引结构。因为所有图像特征，即草图、文本以及主色，都可以由离散的“字”来表示，所以本文的实现采用倒排文件来生成索引。给定一查询，其可包括三种可能查询类型中的一种或多种，本文的实现基于这三种索引中的每一种来计算分数，并可以线性地组合这三个单独的分数来获得最终分数。在上述具有210万个图像的示例中，包括这三种索引的***的总存储器成本被发现小于7GB。

用户界面

图11是根据一些实现的用户界面1100的示例。为了使得能够提交草图查询输入，用户界面1100可以支持多个图像元素作为草图查询，以使用户能够表达或细化它们的搜索意图。用户界面1100包括用于接收查询的查询窗口1102和用于向用户显示查询结果的结果窗口1104。查询窗口1102包括工具栏1106和查询输入界面1108。查询输入界面1108可包括画布或输入面板1110作为用户可在其中表达他们的想法的区域。在所示示例中，输入面板1110是用户可在其上直接绘图、将元素自由地拖到其上、或键入文本来构造最终查询的圆形界面。此外，尽管在该示例中示出了圆形输入面板，但输入面板1110不限于任何特定形状，并且可以是正方形、长方形等等。在一些实现中，输入界面1108可包括可用于选择要包括在查询中的色彩的内部***环状色彩轮1112。另外，在一些实现中，输入界面1108可包括包含可被拖到输入面板1110中以在搜索查询中包括一个或多个通常使用的或最近使用的关键字的各种文本标签或关键字1116的外部***环状文本轮1114。

工具栏1106可包括用于提交查询的各种工具，如绘图工具1118、擦除工具1120、文本工具1122、色彩工具1124、以及复位按钮1126。例如，用户可以选择绘图工具1118并使用鼠标指针1128来在输入面板1110上绘制一条或多条直线或曲线1130作为草图查询输入。用户随后可以点击输入界面1108的外部，如查询窗口1102中的任何位置以提交曲线1130作为草图查询。或者，并非使用鼠标指针，在其中触摸屏对用户可用的一些实现中，用户可以使用指尖或指示笔代替鼠标指针1128来执行此处描述的与用户界面的任何交互。另外，用户可以使用擦除工具1122来擦除所绘制的草图的一部分。文本工具1122可用来打开文本框窗口以将文本查询连同草图查询一起提交。色彩工具1124可被用来打开色彩轮以选择与草图查询一起提交的色彩，并且可以选择复位按钮1126来将输入界面1108复位成用于接收新输入的默认就绪位置。

结果窗口1104包括响应于查询来显示一个或多个图像1134-1、1134-2、…、1134-K作为结果的显示区域1132。例如，结果窗口可以显示被安排成一行或多行图像或图像缩略图或作为可由用户浏览的一个或多个页面的多个图像1134，其中在一个页面中所返回的图像的数量取决于图像1134的显示大小。通常，排名最高的图像按排名次序从左到右表示成第一个。在一些实现中，用户可以将图像1134之一从结果窗口拖到查询窗口来查看该图像的放大视图。为帮助用户导航，结果窗口可包括页面指示符1136和页面前进及页面后退控件1138。

图12示出其中可以使用用户界面1100来提交文本查询和草图查询两者的示例。在该示例中，用户可以使用鼠标指针1128来选择文本工具1122并在输入面板1110中生成文本输入框1202。用户随后可以在文本输入框1202中键入一个或多个所需关键字或文本标签并连同草图查询1130一起提交文本查询。根据本文的一些实现，输入的次序不会造成差异。例如，用户可以首先绘制一个或多个草图曲线1130并随后键入关键字，或者用户可以首先键入关键字并随后绘制曲线和/或选择色彩。作为另一示例，用户可以绘制一条或多条曲线1130，在文本输入框1202中输入关键字，并随后绘制一条或多条附加曲线，如用于响应于作为反馈显示在结果窗口1104中的结果来交互式地细化草图查询。

图13示出使用文本轮1114来输入一个或多个预定关键字作为文本查询。例如，如图13所示，文本轮1116可以向内扩展以显示围绕输入面板1110的中心放射状地排列的多个关键字1116。用户可以使用指针1128、手指等来选择关键字1116中的一个或多个并将其拖到输入面板1110上以提交关键字1116作为文本查询。例如，关键字1116可以是用户最近输入作为文本查询输入的关键字，和/或可以是从文本索引514选择的关键字或标签，如文本索引514中较常出现的文字中的一些，等等。在用户选择了关键字1116并将该关键字拖到输入面板1110上时，用户可以将文本轮折叠回它的原始配置并输入任何附加查询参数，如绘制草图查询和/或选择色彩查询。

图14示出根据一些实现的从色彩轮1112选择色彩来作为色彩查询提交的示例。例如，用户可以朝向输入面板1110的中心向内展开色彩轮1112以更完全地显示色彩轮1112。色彩轮可包括多个主色和合成色的典型HSV型连续色彩显示，即红、橙、黄、绿、蓝、紫，其中主色与合成色之间具有彩虹样式的色彩过渡区域。为了选择色彩，用户可以使用鼠标指针1128来在色彩轮1012的所需位置处点击色彩。用户随后可以将一点色彩1402拖到输入面板1110，以使所选择的用于色彩查询的色彩保持明显。如上所述，可以在诸如文本输入或草图输入等其他输入之前或之后选择色彩。此外，通过仅仅选择替换色彩并将其拖到输入面板1110就可以响应于结果来交互式地改变色彩。

示例索引过程

图15是根据本文的一些实现的索引过程的示例的流程图1500。在该流程图中，操作被概括成单独的框。操作可以用硬件或作为可由一个或多个处理器执行的处理器可执行指令(软件或固件)来执行。此外，过程1000可以(但不必)使用图5的框架来实现。

在框1502，对被索引的图像进行降采样以将该图像的分辨率降低至最大预定分辨率。根据一些实现，该图像可被降采样成具有小于256x 256像素的分辨率。例如，可以将图像降采样成具有如下分辨率：该图像的最大长度等于200个像素。在一些实现中，图像的最大分辨率可以与用户界面输入面板1110的分辨率相同或相关。

在框1504，标识图像的边界曲线。例如，可使用边界检测器来基于色彩、纹理、亮度等方面的差异来检测图像中的边界。

在框1506，从边界曲线中标识图像中的突出曲线。例如，可以基于修正连通图算法来标识突出曲线。在本文的修正连通图算法下，在两个点相邻并且还具有相似的局部定向或方向的情况下这两个点是连通的。连通顶点或点的集合是作为候选突出曲线的所谓的连续曲线。长且连续的曲线通常属于较突出的对象。因此，本文的一些实现过滤出具有小于预定阈值的长度的短曲线。例如，可以设定阈值以消除具有小于40个像素的长度“Ls”的曲线，但也可以使用其他合适的阈值。

在框1508，通过将图像的突出曲线中的定向点与作为索引中的视觉字来列出的定向点进行相关来生成用于数据库-查询匹配的图像索引。因此，对于图像中所表示的突出曲线中包含的每一定向点，将图像ID与索引中的该视觉字相关联。另外，在一些实现中，基于对每一图像所创建的用于查询-数据库匹配的一个或多个距离图来生成第二图像索引。

在框1510，生成图像的色彩索引。这一操作可以在生成草图匹配图像索引之前、期间、或之后执行。色彩索引是通过创建每一图像的色彩直方图并标识每一图像中的一个或多个主色来生成的。在一些实现中，可以使用在框1502生成的降采样图像来生成色彩索引。

在框1512，生成图像的文本索引。这一操作可以在生成草图匹配图像索引和/或色彩索引之前、期间、或之后执行。例如，文本索引是通过检测与图像一起提供的标签或通过检测与图像位于一起或与其相关联的文本(如在网页中)来生成的。

示例搜索过程

图16描绘了根据本文的一些实现的基于草图的图像搜索的示例的流程图。在该流程图中，操作被概括成单独的框。操作可以用硬件或作为可由一个或多个处理器执行的处理器可执行指令(软件或固件)来执行。此外，过程1600可以(但不必)使用图5的框架来实现。

在框1602，从用户接收查询输入。例如，该查询输入可包括草图查询输入、文本查询输入、和/或色彩查询输入的任何组合。

在框1604，标识草图查询中的一条或多条曲线并且生成一个或多个距离图。例如，可以生成多个二进制图以表示每一所标识的曲线的具有不同定向的不同部分。此外，二进制距离图可各自包括用于提供围绕该曲线的区域中的定向点的容限范围的指定容限半径或值。

在框1606，将一个或多个距离图中的定向点与图像索引进行匹配以执行数据库-查询匹配。例如，可以将距离图中的每一点与索引中的视觉字相匹配以标识具有相同点的对应图像。

在框1608，对数据库-查询匹配的结果执行近似查询-数据库匹配。例如，可以选择前N个结果并且对于这前N个图像，可以生成距离图。随后基于所生成的距离图使用以上阐明的等式(6)来计算对称局部稳健斜面相似度以确定前N个图像的排名。在其他实现中，对于每一图像，使用从距离图生成的第二图像索引来执行完全查询-数据库匹配。

在框1610，如果在框1602接收到的查询包括文本查询，则使用文本索引来对数据库中的图像执行基于文本的搜索。

在框1612，如果在框1602接收到的查询包括色彩查询，则使用色彩索引来对数据库中的图像执行基于色彩的搜索。

在框1614，组合草图查询、文本查询、以及色彩查询的结果的分数以生成每一定位的图像的总分数。在一些实现中，可以线性地组合三种不同查询类型的分数。

在框1616，返回具有最高分数的图像作为结果并将其作为反馈显示给提交查询的用户。如果用户对所显示的结果不满意，则用户可以通过将曲线添加到草图查询或从中移除曲线、修改文本查询、和/或修改色彩查询来交互式地细化查询。

因此，本文的实现提供具有高效曲线匹配和可伸缩索引的基于草图的图像搜索。本文的基于草图的图像搜索***启用实时交互式草图-图像匹配并且显著地胜过现有的基于草图的***。此外，本文的实现提供用于允许对巨量图像进行索引以用于基于草图的图像搜索的索引技术。本文的实现还支持多模态查询输入，包括草图、文本、以及色彩，使得用户可以更精确地制定他们的查询意图。对不同搜索任务的试验结果示出了所提出的框架的有效性和效率。

示例***

图17示出了根据本文的一些实现的用于执行基于草图的图像搜索的***1700的示例。为此，***1700包括通过网络1706或其他通信链路与多个客户机或用户计算设备1704通信的一个或多个服务器计算设备1702。在某些实现中，服务器计算设备1702作为数据中心、服务器场等的一部分存在，并且能用作用于提供商业搜索网站的组件。***1700可包括与任何数量的客户机计算设备1704通信的任何数量的服务器计算设备1702。例如，在一个实现中，网络1706包括在因特网上实现的万维网，包括多个数据库、服务器、个人计算机(PC)、工作站、终端、移动设备、以及遍及全球且能够彼此通信的其他计算设备。或者，在另一可能的实现中，网络1706可仅包括经由LAN(局域网)或WAN(广域网)与一个或多个客户机设备1704通信的单个服务器计算设备1702。因此，客户机计算设备1704可按各种组合，通过有线和/或无线网络1706，包括LAN、WAN或任何其他本领域中已知的联网技术，使用如在网际协议上运行的传输控制协议(TCP/IP)或其他合适的协议等一个或多个协议，来耦合到服务器计算设备1702。

在一些实现中，客户机计算设备1704是个人计算机、工作站、终端、移动计算设备、PDA(个人数字助理)、蜂窝电话、智能电话、膝上型计算机、平板计算设备、或具有数据处理能力的其他计算设备。此外，客户机计算设备1704可包括用于与服务器计算设备1702进行通信的浏览器1708，如用于向用户呈现本文的用户界面并用于将搜索查询提交给服务器计算设备1702。浏览器1708可以是任何合适类型的web浏览器，如Internet

或被配置成如此处公开的允许提交基于草图的搜索查询的其他类型的软件。

另外，服务器计算设备1702可包括用于对从客户机计算设备1704接收的基于草图的搜索查询做出响应的搜索引擎114。因此，在一些实现中，搜索引擎114可包括用户界面组件116和匹配组件120，如上所述，以用于接收基于草图的查询和/或文本查询和/或色彩查询。在一些实现中，用户界面组件116可以提供本文描述的用户界面来作为客户机计算设备能够通过浏览器1708查看并与其进行交互的网页。在其他实现中，浏览器1708可以具有用于生成本文描述的用户界面1100的插件或类似的用户界面组件。鉴于本发明，其他变型也将显而易见。

另外，可以提供具有索引组件108的一个或多个索引计算设备1710来执行此处公开的索引阶段102。在一些实现中，索引计算设备1710可以是与服务器计算设备1702相同的计算设备；然而，在其他实现中，索引计算设备1710可以是对因特网上可获得的图像进行索引的离线web爬行搜索设施的一部分。因此，在一些实现中，图像106被存储在因特网上的多个网站中。然而，在其他实现中，图像106存储在可由服务器计算设备1702和/或索引计算设备1708访问的数据库中。如上所述，索引组件108生成图像106的一个或多个索引1712，如用于图像106的基于草图的搜索的图像索引110、用于图像的基于文本的搜索的文本索引514、以及用于图像的基于色彩的搜索的色彩索引512。

此外，尽管在图17中示出了示例***体系结构，但也可使用其他合适的体系结构，并且本文的实现不限于任何特定体系结构。例如，在一些实现中，索引组件108可以位于服务器计算设备1702上，并且可以消除索引计算设备1710。其他变化鉴于本发明将对于本领域的技术人员显而易见。

示例服务器计算设备

图18示出根据本文的一些实现的用于服务器计算设备1702和/或索引计算设备1710的合适的计算***环境的示例配置。因此，尽管示出了服务器计算设备1702，但索引计算设备1710也可类似地配置。服务器计算设备1702可包括至少一个处理器1802、存储器1804、通信接口1806、和输入/输出接口。

处理器1802可以是单个处理单元或多个处理单元，它们都可包括单个或多个计算单元或多个核。处理器1802可被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器1802可被配置成取出并执行存储在存储器1804、大容量存储设备1812或其他计算机可读存储介质中的计算机可读指令或处理器可访问指令，以及其他能力。

存储器1804是用于存储由处理器1802执行以执行上述各种功能的指令的计算机可读存储介质的示例。例如，存储器1804一般可以包括易失性存储器和非易失性存储器两者(例如RAM、ROM等)。此外，存储器1804还可包括大容量存储设备，如硬盘驱动器；固态驱动器；包括外置和可移动驱动器、存储卡、闪存、软盘、光盘(例如，CD、DVD)、存储阵列、存储区域网、网络附连存储在内的可移动介质等等，或其任何组合。存储器1804能够存储计算机可读、处理器可执行程序指令，作为可在处理器1802上执行来作为被配置成实现此处的实现所描述的操作和功能的特定机器的计算机程序代码。

存储器1804可包括程序模块1810和数据1812。程序模块1810可包括搜索引擎114和其他模块1814，如操作***、驱动程序等。如上所述，搜索引擎114可包括用户界面组件116和匹配组件120，其可在处理器1802上执行以实现本文描述的功能。在一些实现中，存储器1804还可包括用于执行本文的索引功能的索引组件108，但在其他实现中，索引组件108是在单独的索引计算设备上执行的。另外，数据1812可包括索引1710，如图像索引110、色彩索引512、以及文本索引514。数据1812还可包括用于服务器操作的其他数据1816，如用于提供搜索网站的数据等。

如上所述，服务器计算设备1702还可包括用于诸如经由网络、直接连接等来与其他设备交换数据的一个或多个通信接口1806。通信接口1806可便于各种各样网络和协议类型内的通信，包括有线网络(例如，LAN、电缆等)和无线网络(例如，WLAN、蜂窝、卫星等)、因特网等等。

示例客户机计算设备

图19示出了根据本文的一些实现的客户机计算设备1704的合适计算***环境的示例配置。客户机计算设备1704可包括至少一个处理器1902、存储器1904、通信接口1906、显示设备1908、其他输入/输出(I/O)设备1910、以及一个或多个大容量存储设备1912，其所有都能够通过***总线1914或其他合适的连接来进行通信。

处理器1902可以是单个处理单元或多个处理单元，它们都可包括单个或多个计算单元或多个核。处理器1902可被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器1902可被配置成取出并执行存储在存储器1904、大容量存储设备1912或其他计算机可读存储介质中的计算机可读指令或处理器可访问指令，以及其他能力。

存储器1904和大容量存储设备1912是用于存储由处理器1902执行以执行上述各种功能的指令的计算机可读存储介质的示例。例如，存储器1904一般可以包括易失性存储器和非易失性存储器两者(例如RAM、ROM等)。此外，大容量存储介质1912一般可包括硬盘驱动器；固态驱动器；包括外置和可移动驱动器、存储卡、闪存、软盘、光盘(例如，CD、DVD)、存储阵列、存储区域网、网络附连存储在内的可移动介质等等，或其任何组合。存储器1904和大容量存储设备1912此处可被统称为存储器或计算机可读存储介质。存储器1904能够存储计算机可读、处理器可执行程序指令，作为可在处理器1902上执行来作为被配置成实现此处的实现所描述的操作和功能的特定机器的计算机程序代码。存储器1904可包括用于使用户能够提交基于草图的查询的浏览器1708。例如，如上所述，浏览器1708可以将用户界面1100显示成显示设备1908上的用于接收搜索查询的网页。或者，在其他实现中，存储器1904可包括用于在显示设备1908上生成用户界面1100的用户界面组件116的至少一部分。

如上所述，客户机计算设备1704还可包括用于诸如经由网络、直接连接等来与其他设备交换数据的一个或多个通信接口1906。通信接口1906可便于各种各样网络和协议类型内的通信，包括有线网络(例如，LAN、电缆等)和无线网络(例如，WLAN、蜂窝、卫星等)、因特网等等。

在一些实现中，可以包括诸如监视器、显示器、或触摸屏等用于向用户显示用户界面1918和/或输入图像的显示设备1918。I/O设备1910可包括从用户接收各种输入并向用户提供各种输出的设备，诸如键盘、遥控器、鼠标、照相机、音频设备等等。在其中显示设备1908是触摸屏的情况下，显示设备1908可以担当用于提交查询的输入设备以及用于显示结果的输出设备。

此处所描述的示例环境、***和计算设备只是适用于某些实现的的示例，而非旨在对可以实现此处所描述的过程、组件和特征的环境、体系结构和框架的使用范围或功能提出任何限制。因此，此处的实现可用于众多环境或应用，并且可以在通用或专用计算***或具有处理能力的其他设备中实现。

另外，可以在许多不同的环境和情形中采用此处的组件、框架和过程。一般而言，参考附图描述的任何功能都可使用软件、硬件(例如，固定逻辑电路)或这些实现的组合来实现。本文所使用的术语“引擎”、“机制”、或“组件”一般表示可被配置成实现规定功能的软件、硬件或软件和硬件的组合。例如，在软件实现的情况下，术语“引擎”、“机制”、或“组件”可表示当在一个或多个处理设备(例如，CPU或处理器)上执行时执行指定任务或操作的程序代码(和/或声明型指令)。程序代码可被储存在一个或多个计算机可读存储器设备或其他计算机可读存储设备或介质中。因此，此处所描述的过程、组件和模块可由计算机程序产品来实现。

虽然在图18中被示为存储在服务器计算设备1702的存储器1804中，但搜索引擎114和索引组件108或它们的各部分可以使用可由服务器计算设备1702和/或索引计算设备1710访问的任何形式的计算机可读介质来实现。计算机可读介质可以包括例如计算机存储介质和通信介质。计算机存储介质被配置成将数据存储在非瞬态有形介质上，而通信介质则不然。

“计算机存储介质”包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可用于存储信息以供计算设备访问的任何其他介质。

相反，通信介质通常用诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据。

此外，本发明提供了如在附图中描述和示出的各种示例实现。然而，本发明不限于此处所描述并示出的实现，而可扩展到其他实现，如本领域技术人员已知或将变得已知的。说明书中对“一个实现”、“该实现”、“这些实现”或“一些实现”的引用意味着所述特定特征、结构或特性被包括在至少一个实现中，并且这些短语在说明书各处的出现不一定都指代同一实现。

结论

本文的实现提供交互式的实时的基于草图的搜索***。此外，一些实现允许对巨量图像进行索引。另外，一些实现提供允许用户使用草图输入、文本输入、以及色彩选择输入的任何组合来灵活地制定查询的用户界面。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但所附权利要求书中定义的主题不限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明旨在覆盖所公开的实现的任一和所有改编或变型，并且所附权利要求书不应被解释为限于说明书中所公开的具体实现。相反，本文的范围完全由所附权利要求书以及这些权利要求所授权的等效技术方案的完整范围来确定。

Claims

1.一种方法，包括：

接收查询曲线作为草图查询输入(304)；

至少部分地基于所述查询曲线来标识第一多个定向点(306)；以及

由处理器使用所述第一多个定向点来定位具有包括与所述第一多个定向点中的至少一些相匹配的第二多个定向点的曲线的至少一个图像(308)。

2.如权利要求1所述的方法，其特征在于，基于所述第一多个定向点来定位多个图像，所述方法还包括：

生成所述多个图像中的每一图像中的各图像曲线的一个或多个距离图；

计算所述查询曲线与所生成的距离图之间的相似度；以及

至少部分地基于计算得到的相似度来对所述多个图像中的图像进行排名。

3.如权利要求1所述的方法，其特征在于，基于所述第一多个定向点来在图像数据库中定位第一多个图像，所述方法还包括：

将所述查询曲线与为所述图像数据库中的每一图像中标识的各图像曲线所生成的距离图进行匹配以获取第二多个图像；以及

从所述第一多个图像和所述第二多个图像中标识第三多个图像作为响应于所述草图查询输入的结果。

4.如权利要求1所述的方法，其特征在于，基于所述查询曲线来标识第一多个定向点还包括生成所述查询曲线的一个或多个距离图，每一距离图表示具有确定方向的曲线部分，所述距离图标识所述第一多个定向点中具有所述确定方向的子集，所述距离图包括所述曲线部分周围的区域中的用于标识所述曲线附近的包括在所述第一子集中的一组定向点的容限半径。

5.如权利要求1所述的方法，其特征在于，将所述查询曲线划分成多条子查询曲线，所述多条子查询曲线中的每一条被当作所述草图查询输入。

6.如权利要求5所述的方法，其特征在于，所述划分是至少部分地基于在绘制所述查询曲线时作出的可区分笔画的。

7.如权利要求5所述的方法，其特征在于，所述划分是至少部分地基于连续曲线长度的，使得超过预定长度的连续曲线被划分成子查询。

8.如权利要求1所述的方法，其特征在于，使用所述第一多个定向点来定位至少一个图像还包括使用包括作为索引项的所述第二多个定向点的索引，所述索引项基于图像包含具有对应定向点的曲线而与多个图像相关联。

9.如权利要求8所述的方法，其特征在于，还包括生成所述索引以包括所述第二多个定向点作为索引项，其中所述第二多个定向点与被配置成接收草图曲线作为所述曲线查询的用户界面的输入面板的分辨率的各点相对应。

10.如权利要求1所述的方法，其特征在于，还包括：

响应于所述草图查询输入，提供所述至少一个图像作为反馈；

接收对所述查询曲线的修改；

响应于对所述查询曲线的修改来提供至少一个不同的图像作为反馈。

11.一种***，包括：

与计算机可读存储介质(1804)通信的处理器(1802)；

在所述计算机可读存储介质中维护的索引(1710)，所述索引包括与检测到的多个图像(106)的图像曲线(806)相关联的定向点(1002)的第一集合，每一定向点指定一位置(x，y)和该位置处的曲线方向(Θ)；

用于接收查询曲线(1130)作为搜索查询输入(516)的用户界面组件(116)；以及

用于至少部分地基于所述查询曲线来将定向点(1008)的第二集合与所述索引进行匹配的匹配组件(120)，所述匹配组件在所述计算机可读存储介质中维护并且在所述处理器上执行，所述匹配组件至少部分地基于所述匹配来标识所述多个图像中的至少一个图像(122)。

12.如权利要求11所述的***，其特征在于，所述匹配组件生成所述查询曲线的至少一个距离图，所述距离图将所述查询曲线表示成定向点的所述第二集合。

13.如权利要求11所述的***，其特征在于，为所述查询曲线所生成的距离图包括指定在匹配中要使用的、所述查询曲线周围区域中的定向点的预定范围的容限值。

14.如权利要求11所述的***，其特征在于

所述用户界面组件被配置成结合所述查询曲线作为搜索查询输入来接收基于文本的查询或基于色彩的查询中的至少一个；

所述匹配组件被配置成基于所述基于文本的查询或所述基于色彩的查询中的至少一个来标识一个或多个附加图像，并且将所述一个或多个附加图像的排名分数与基于所述查询曲线来标识出的多个图像的排名分数进行组合以标识多个经排名的图像作为搜索结果。

15.一种方法，包括：

访问多个图像(1502)；

标识每一图像中的至少一条曲线(1504)；

将每一图像中的所述至少一条曲线表达成一组点，每一个点具有至少部分地基于所述曲线在该点处的方向的定向(1506)；以及

由处理器生成包括作为索引项的多个定向点的图像索引，所述索引项至少部分地基于为所述图像中的曲线所标识的各组点来与所述多个图像相关联(1508)。