CN104685501A

CN104685501A - 响应于可视化查询标识文本词汇

Info

Publication number: CN104685501A
Application number: CN201380051799.0A
Authority: CN
Inventors: S·本吉奥; D·佩特劳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-08-08
Filing date: 2013-07-31
Publication date: 2015-06-03
Anticipated expiration: 2033-07-31
Also published as: CN104685501B; WO2014025592A1; EP2883158B1; JP6240916B2; CN108959586A; US20140046935A1; US9372920B2; US8935246B2; US20150193528A1; CN108959586B; EP2883158A1; JP2015529908A

Abstract

提供了一种用于响应于可视化查询而标识文本词汇的方法、***和计算机可读存储介质。服务器***从客户端***接收可视化查询。对可视化查询做出响应如下。生成针对可视化查询的图像特征值集。图像特征值集被映射到多个文本词汇，从而包括针对多个文本词汇中的每个所述文本词汇的权重。依照文本词汇的权重对文本词汇进行排名。然后，依照对文本词汇的排名，向客户端***发送经排名的文本词汇中的一个或多个文本词汇。

Description

响应于可视化查询标识文本词汇

技术领域

所公开的实施例总体上涉及图像处理领域，并且具体涉及响应于可视化查询而确定一个或多个文本词汇。

背景技术

其中用户将词语或短语输入到搜索引擎中并且接收各种结果的基于文本或基于词汇的搜索是用于搜索的有用工具。基于词汇查询要求用户明确提供词语、短语和/或其它词汇形式的搜索词汇。有时，用户可能看到物理世界中的对象并且想查找与对象有关的信息，但是知道使用什么词汇用于搜索引擎中的基于词汇查询。据此，将期望可以接收诸如图像之类的可视化查询并且用它确定一个或多个词汇的***。

发明内容

根据一个实施例，在服务器***上执行方法，服务器***具有一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器。在该方法中，服务器***从客户端***接收可视化查询。服务器***通过以下操作对可视化查询做出响应：生成针对可视化查询的图像特征值集；将图像特征值集映射到多个文本词汇，从而包括针对多个文本词汇中的每个文本词汇的权重；依照文本词汇的权重对文本词汇进行排名；以及依照对文本词汇的排名，向客户端***发送经排名的文本词汇中的一个或多个文本词汇。

服务器***包括一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于从客户端***接收可视化查询、以及通过以下操作对可视化查询做出响应的指令：生成针对可视化查询的图像特征值集；将图像特征值集映射到多个文本词汇，从而包括针对多个文本词汇中的每个文本词汇的权重；依照文本词汇的权重对文本词汇进行排名；以及依照对文本词汇的排名，向客户端***发送经排名的文本词汇中的一个或多个文本词汇。

非瞬态计算机可读存储介质存储配置用于由计算机(诸如具有用于执行程序的一个或多个处理器的服务器***)执行的一个或多个程序。一个或多个程序包括用于从客户端***接收可视化查询、以及通过以下操作对可视化查询做出响应的指令：生成针对可视化查询的图像特征值集；将图像特征值集映射到多个文本词汇，从而包括针对多个文本词汇中的每个文本词汇的权重；依照文本词汇的权重对文本词汇进行排名；以及依照对文本词汇的排名，向客户端***发送经排名的文本词汇中的一个或多个文本词汇。

附图说明

图1是图示包括可视化查询服务器***的计算机网络的框图。

图2是图示依照一些实施例的客户端***的框图。

图3是图示依照一些实施例的前端可视化查询处理服务器***的框图。

图4是图示依照一些实施例的用于处理可视化查询的图像到词汇搜索***的框图。

图5是图示依照一些实施例的用于通过将图像特征映射到文本词汇来训练图像相关性模型的处理的流程图。

图6是图示依照一些实施例的用于通过将图像特征映射到文本词汇来训练图像相关性模型的示例性数据结构的框图。

图7A和图7B是图示依照一些实施例的用于响应于可视化查询而确定一个或多个文本词汇的处理的流程图。

图8图示依照一些实施例的具有示例性可视化查询的屏幕截图的客户端***。

图9图示依照一些实施例的与文本词汇列表同时显示的交互式结果文档和可视化查询的屏幕截图。

图10图示依照一些实施例的与对应图像同时显示的文本词汇列表的屏幕截图。

图11图示依照一些实施例的具有带标记的交互式结果文档的屏幕截图的客户端***。

贯穿附图，同样的附图标记指的是对应部分。

具体实施方式

现在将详细参照实施例，实施例的示例被图示在附图中。在以下详细描述中，阐述了众多具体细节，以便提供对实施例的透彻理解。然而，对于本领域普通技术人员容易理解的是，可以在没有这些具体细节的情况下实践各种实施例。在其它实例中，熟知的方法、过程、部件、电路和网络未被详细描述，以便不会不必要地模糊实施例的方面。

还应当理解的是，虽然术语第一、第二等可在本文中用于描述各种元件，但是这些元件不应该受这些术语的限制。这些术语仅用于将元件相互区别。例如，第一接触可被称为第二接触，并且相似地，第二接触可以被称为第一接触，而不改变描述的含义，只要“第一接触”的所有出现一致地重命名并且第二接触的所有出现一致地重命名。第一接触和第二接触都是接触，但它们不是相同的接触。

本文中在描述实施例中使用的术语仅是处于描述特定实施例的目的，并且不旨在于限制权利要求。如在描述实施例和所附权利要求中使用的，单数形式“一”、“一个”和“该”旨在于也包括复数形式，除非上下文清楚地另外指示。还应当理解，如本文中使用的术语“和/或”指的是并且包含关联列出项中的一个或多个项的任何和所有可能组合。将进一步理解的是，术语“包括”和/或“包含”在本说明书中使用时指定所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、部件、和/或它们的组。

如本文中使用的，术语“如果”根据上下文可被解释为意指“在……时”或“当……时”或“响应于确定”或“响应于检测到”。相似地，短语“如果确定”或“如果检测到(所述条件或事件)”根据上下文可被解释为意指“当确定时”或“响应于确定”或“当检测到(所述条件或事件)时”或“响应于检测到(所述条件或事件)”。

图1是图示根据一个实施例的包括可视化查询服务器***的计算机网络的框图。计算机网络100包括一个或多个客户端***102和可视化查询服务器***106。一个或多个通信网络104互连这些部件。通信网络104可以是多种网络中的任何网络，从而包括局域网(LAN)、广域网(WAN)、无线网络、有线网络、因特网、或者这些网络的组合。

客户端***102包括客户端应用108，客户端应用108由客户端***执行，以用于接收可视化查询(例如图8的可视化查询802)。可视化查询是向搜索引擎或搜索***提交作为查询的图像。可视化查询的示例包括而不限于照片、扫描的文档和图像、以及绘图。在一些实施例中，从由搜索应用、用于浏览器应用的搜索引擎插件以及用于浏览器应用的搜索引擎扩展组成的集中选择客户端应用108。在一些实施例中，客户端应用108是“杂食性”搜索框，其允许用户将任何格式的图像拖放到搜索框中以用作可视化查询。

客户端***102向可视化查询服务器***106发送查询并且从可视化查询服务器***106接收数据。客户端***102可以是有能力与可视化查询服务器***106通信的任何计算机或其它设备。示例包括而不限于台式和笔记本电脑、大型计算机、服务器计算机、诸如移动电话和个人数字助理之类的移动设备、网络终端、和机顶盒。

可视化查询服务器***106包括前端可视化查询处理服务器110。前端服务器110从客户端102接收可视化查询，并且向用于同时处理的多个并行搜索***112发送可视化查询。搜索***112各自实现相异可视化查询搜索处理，并且必要时访问它们的对应数据库114，以由它们的相异搜索处理来处理可视化查询。例如，面部识别搜索***112-A将访问面部图像数据库114-A以寻找与图像查询的面部匹配。如果可视化查询包含面部，则面部识别搜索***112-A将返回来自面部图像数据库114-A的一个或多个搜索结果(例如姓名、匹配的面部等)。在另一示例中，光学字符识别(OCR)搜索***112-B将可视化查询中的任何可识别文本转换成文本，以用于作为一个或多个搜索结果返回。在光学字符识别(OCR)搜索***112-B中，可以访问OCR数据库114-B，以识别特定字体或文本模式。

可以使用任何数量的并行搜索***112。一些示例包括面部识别搜索***112-A、OCR搜索***112-B、图像到词汇搜索***112-C(其可识别对象或对象类别)、产品识别搜索***(其可以被配置为识别诸如书皮和CD之类的2-D图像，并且还可以被配置为识别诸如家具之类的3-D图像)、条形码识别搜索***(其识别1D和2D类型的条形码)、命名实体识别搜索***、地标识别(其可以被配置为识别像埃菲尔铁塔那样的特定著名地标，并且还可以被配置为识别诸如广告牌之类的具体图像的语料库)、由客户端***102或移动电话网络中的GPS接收器提供的理位置信息辅助的地点识别、颜色识别搜索***、以及相似图像搜索***(其搜索并且标识与可视化查询相似的图像)。进一步的搜索***可被添加作为附加并行搜索***，在图1中由***112-N表示。除OCR搜索***之外的所有搜索***在本文中集体地定义为执行图像匹配处理的搜索***。包括OCR搜索***的所有搜索***统称为通过图像查询搜索***。在一些实施例中，可视化查询服务器***106包括面部识别搜索***112-A、OCR搜索***112-B、图像到词汇搜索***114-C、以及至少一个其它的通过图像查询搜索***112。

并行搜索***112各自单独处理可视化搜索查询，并且向前端服务器***110返回它们的结果。在一些实施例中，前端服务器100可以对搜索结果执行一个或多个分析，诸如以下分析中的一个或多个：将结果聚合成复合文档、选择结果子集来显示、以及对结果进行排名，如将关于图3更详细说明的。前端服务器110向客户端***102传达搜索结果。

客户端***102向用户呈现一个或多个搜索结果。结果可以在显示器上、通过音频扬声器、或者用于向用户传达信息的任何其它手段来呈现。用户可以以各种方式与搜索结果交互。在一些实施例中，用户的选择、注释以及与搜索结果的其它交互被传输到可视化查询服务器***106，并且连同可视化查询一起被记录在查询和注释数据库116中。查询和注释数据库中的信息可以用于改善可视化查询结果。在一些实施例中，来自查询和注释数据库116的信息被周期性地推送到并行搜索***112，并行搜索***112将信息的任何相关部分并入到它们的相应个体数据库114中。

计算机网络100可选地包括词汇查询服务器***118，以用于响应于词汇查询而执行搜索。与包含图像的可视化查询完全不同，词汇查询是包含一个或多个词汇的查询。词汇查询服务器***118可以用于生成补充由可视化查询服务器***106中的各种搜索引擎产生的信息的搜索结果。从词汇查询服务器***118返回的结果可以包括任何格式。词汇查询服务器***118可以包括文本文档、图像、视频等。尽管词汇查询服务器***118在图1中被示为分离***，但是可选地可视化查询服务器***106可以包括词汇查询服务器***118。

关于可视化查询服务器***106的操作的附加信息下面关于图5和图7中的流程图来提供。

图2是图示依照一些实施例的客户端***102的框图。客户端***102通常包括一个或多个处理单元(CPU)202、一个或多个网络或其它通信接口204、存储器212、以及用于互连这些部件的一条或多条通信总线214。通信总线214可选地包括互连和控制***部件之间的通信的电路***(有时称为芯片集)。客户端***102包括用户接口205。用户接口205包括显示设备206，并且可选地包括诸如键盘、鼠标或其它输入按钮之类的输入装置208。备选地或此外，显示设备206包括触敏表面209，在这种情况下，显示器206/209是触敏显示器。在具有触敏显示器206/209的客户端***中，物理键盘是可选的(例如，在需要键盘输入时，可以显示软键盘)。此外，一些客户端***使用麦克风和语音识别来补充或替换键盘。可选地，客户端102包括GPS(全球定位卫星)接收器、或者用于确定客户端***102的位置的其它位置检测装置207。在一些实施例中，提供可视化查询搜索服务，其要求客户端***102提供可视化查询服务器***以接收指示客户端***102的位置的位置信息。

客户端***102还包括诸如相机或扫描仪之类的图像捕获设备210。存储器212包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、快闪存储器设备或其它非易失性固态存储设备。存储器212可以可选地包括从CPU 202远程定位的一个或多个存储设备。存储器212或代替地存储器212内的非易失性存储器设备包括非瞬态计算机可读存储介质。在一些实施例中，存储器212或者存储器212的计算机可读存储介质存储以下程序、模块和数据结构、或它们的子集：

操作***216，其包括用于处理各种基本***服务和用于执行硬件相关的任务的过程；

网络通信模块218，其用于经由一个或多个通信网络接口204(有线或无线的)以及诸如因特网、其它广域网、局域网、城域网等之类的一个或多个通信网络，连接客户端***102与其它计算机；

图像捕获模块220，用于处理由图像捕获设备/相机210捕获的相应图像，其中相应图像可以作为可视化查询被发送(例如，通过客户端应用模块)到可视化查询服务器***；

一个或多个客户端应用模块222，用于处理通过图像查询的各个方面，一个或多个客户端应用模块222包括但不限于：通过图像查询提交模块224，用于向可视化查询服务器***提交可视化查询；可选地感兴趣区域选择模块225，其检测对图像中的感兴趣区域的选择(诸如触敏显示器206/209上的手势)并且将该感兴趣区域准备为可视化查询；结果浏览器226，用于显示可视化查询的结果；以及可选地注释模块228，其具有用于诸如填入表格之类的结构化注释文本输入230的可选模块或者用于可以接受各种格式的注释的自由形式注释文本输入232的可选模块，以及其允许用户选择图像的特定子部分以便注释的图像区域选择模块234(本文中有时称为结果选择模块)；

可选内容制作应用236，其允许用户通过创建或编辑图像而不是仅仅经由图像捕获设备210捕获图像来制作可视化查询；可选地，一个或这些应用236可以包括使得用户能够选择图像的子部分以用作可视化查询的指令；

可选本地图像分析模块238，其在将可视化查询发送到可视化查询服务器***之前对可视化查询进行预处理。本地图像分析可以识别图像或者图像内子区域的特定类型。可以由这样的模块238识别的图像类型的示例包括以下项中的一个或多个：面部类型(可视化查询内识别的面部图像)、条形码类型(可视化查询内识别的条形码)、以及文本类型(可视化查询内识别的文本)；以及

附加可选客户端应用240，诸如电子邮件应用、电话应用、浏览器应用、地图应用、即时消息收发应用、社交网络应用等。在一些实施例中，在选中可动作搜索结果时，可以启动或访问与适当可动作搜索结果对应的应用。

可选地，其允许用户选择图像的特定子部分以便注释的图像区域选择模块234还允许用户选定搜索结果作为“正确”命中，而不必要进一步对其注释。例如，可以向用户呈现前N个面部识别匹配，并且用户可以从该结果列表中选定正确的人。对于一些搜索查询，将呈现不止一种类型的结果，并且用户将选定结果类型。例如，图像查询可以包括站在树旁边的人，但是用户仅对关于人的结果感兴趣。因此，图像选择模块234允许用户指示哪种图像类型是“正确”类型——即，他感兴趣接收的类型。用户还可以希望通过使用注释文本输入模块230(用于填入表格)或者自由形式注释文本输入模块232添加个人评论或描述性词语来对搜索结果进行注释。

在一些实施例中，可选本地图像分析模块238是客户端应用(108，图1)的部分。此外，在一些实施例中可选本地图像分析模块238包括用于执行本地图像分析以对可视化查询或其部分进行预处理或分类的一个或多个程序。例如，客户端应用222可以在向搜索引擎提交可视化查询之前，识别图像包含条形码、面部或文本。在一些实施例中，在本地图像分析模块238检测到可视化查询包含特定类型的图像时，模块询问用户他们是否对对应类型的搜索结果感兴趣。例如，本地图像分析模块238可以基于它的一般特性(即，没有确定哪个人的面部)来检测面部，并且在将查询转送到可视化查询服务器***之前，向用户提供即时反馈。它可以返回像“已经检测到面部，你有兴趣得到针对这一面部的面部识别匹配吗？”的结果。这可以节省可视化查询服务器***(106，图1)的时间。对于一些可视化查询，前端可视化查询处理服务器(110，图1)仅向与本地图像分析模块238识别的图像类型对应的搜索***112发送可视化查询。在其它实施例中，向搜索***112的可视化查询可以向所有搜索***112A至112N发送可视化查询，但是将对来自与本地图像分析模块238识别的图像类型对应的搜索***112的结果进行排名。在一些实施例中，本地图像分析影响可视化查询服务器***的操作的方式依赖于客户端***的配置、或者与用户或者客户端***关联的配置或处理参数。此外，任何特定可视化查询的实际内容以及通过本地图像分析产生的结果可以造成不同的可视化查询在客户端***和可视化查询服务器***中的任一者或两者处被不同地处理。

在一些实施例中，条形码识别分两步执行，其中可视化查询是否包括条形码的分析在客户端***上在本地图像分析模块238处执行。然后，只有如果客户端确定可视化查询可能包括条形码，则可视化查询被传递到条形码搜索***。在其它实施例中，条形码搜索***处理每一个可视化查询。

图3是图示依照一些实施例的前端可视化查询处理服务器***110的框图。前端服务器110通常包括一个或多个处理单元(CPU)302、一个或多个网络或其它通信接口304、存储器312、以及用于互连这些部件的一条或多条通信总线314。通信总线314可选地包括互连和控制***部件之间的通信的电路***(有时称为芯片集)。存储器312包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其它随机存取固态存储器设备；并且可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、快闪存储器设备或其它非易失性固态存储设备。存储器312可以可选地包括从CPU302远程定位的一个或多个存储设备。存储器312或代替地存储器312内的非易失性存储器设备包括非瞬态计算机可读存储介质。在一些实施例中，存储器312或者存储器312的计算机可读存储介质存储以下程序、模块和数据结构、或它们的子集：

操作***316，其包括用于处理各种基本***服务和用于执行硬件相关的任务的过程；

网络通信模块318，其用于经由一个或多个通信网络接口304(有线或无线的)以及诸如因特网、其它广域网、局域网、城域网等之类的一个或多个通信网络，连接前端服务器***110与其它计算机；

查询管理器320，用于处理从客户端***102传入的可视化查询并且将它们发送到两个或更多并行搜索***；如在本文档中别处描述的，在一些特殊情况下，诸如在可视化查询包括客户端生成的指令(例如“仅面部识别搜索”)时，可视化查询可以被引导至仅仅搜索***之一；

结果过滤模块322，用于可选地过滤来自一个或多个并行搜索***的结果并且向客户端***102发送最优或“相关”结果以供呈现；

结果排名和格式化模块324，用于可选地对来自一个或多个并行搜索***的结果进行排名并且用于格式化结果以供呈现；

结果文档创建模块326，用于在适当的时候创建交互式搜索结果文档；模块326可以包括子模块，子模块包括但不限于边界框创建模块328和链接创建模块330；

标记创建模块331，用于创建标记，标记是可视化查询的相应子部分的可视化标识符。

注释模块332，用于从用户接收注释并且将它们发送到注释数据库116；

可动作搜索结果模块338，用于响应于可视化查询，生成一个或多个可动作搜索结果元素，每个可动作搜索结果元素被配置为启动客户端侧动作；可动作搜索结果元素的示例是按钮，该按钮用于发起电话呼叫、用于发起电子邮件消息、用于在地图上标出地址、用于预约餐馆、以及用于提供购买产品的选项；以及

查询和注释数据库116，其包括数据库本身334以及对数据库的索引336。

结果排名和格式化模块324对从一个或多个并行搜索***(112-A至112-N，图1)返回的结果进行排名。如上面已经指出的，对于一些可视化查询，仅来自一个搜索***的结果可以是相关的。在这样的实例中，仅来自那一个搜索***的相关搜索结果被排名。对于一些可视化查询，若干类型的搜索结果可以是相关的。在这些实例中，在一些实施例中，结果排名和格式化模块324将来自具有最相关结果(例如，具有最高相关性得分的结果)的搜索***的所有结果排名在不太相关的搜索***的结果之上。在其它实施例中，结果排名和格式化模块324将来自每个相关搜索***的最优结果排名在其余结果之上。在一些实施例中，结果排名和格式化模块324依照针对每个搜索结果计算的相关性得分来对结果进行排名。对于一些可视化查询，除了并行可视化搜索***上的搜索之外，还执行扩增文本查询。在一些实施例中，在还执行文本查询时，它们的结果以与可视化搜索***结果视觉上相异的方式来呈现。

结果排名和格式化模块324还格式化结果。在一些实施例中，以列表格式呈现结果。在一些实施例中，借助于交互式结果文档来呈现结果。在一些实施例中，结果的交互式结果文档和列表二者都被呈现。在一些实施例中，查询的类型指定了如何呈现结果。例如，如果在可视化查询中检测到不止一个可搜索主题，则产生交互式结果文档，而如果仅检测到一个可搜索主题，结果将仅以列表格式显示。

标记创建模块用于创建针对可视化查询中的一个或多个图像的标记。在一些实施例中，在确定一个或多个文本词汇与可视化查询中的一个或多个图像对应时，标记创建模块331使用词汇来标记可视化查询中的图像。在一些实施例中，在用户点击标记时，针对该词汇启动基于词汇查询。在其它实施例中，标记是到与标记的词汇关联的基于词汇查询的结果的链接。在这些实施例中，标记是下面说明的交互式结果文档的部分。

结果文档创建模块326用于创建交互式搜索结果文档(其示例示出在图11中)。交互式搜索结果文档可以具有一个或多个检测和搜索到的主题。边界框创建模块328在一个或多个搜索到的主题周围创建边界框。边界框可以是矩形框，或者可以描画主题的形状的轮廓。链接创建模块330创建到与它们在交互式搜索结果文档中的相应主题关联的搜索结果的链接。在一些实施例中，搜索到的主题关联于与可视化查询中的图像对应的一个或多个文本词汇。在一些实施例中，点击在边界框区域内激活由链接创建模块***的对应链接。

查询和注释数据库116包含可以用于改善可视化查询结果的信息。在一些实施例中，用户可以在可视化查询结果已被呈现之后给图像作注释。此外，在一些实施例中用户可以在将图像发送到可视化查询搜索***之前给图像作注释。通过聚焦结果、或者与可视化查询搜索并行地运行关于注释词语的基于文本搜索，预注释可以帮助可视化查询处理。在一些实施例中，可以使图片的注释版本公开(例如，在用户已经例如通过指定图像和注释为非私人的而给出公开许可时)，以便于作为潜在图像匹配命中被返回。例如，如果用户拍摄了花的图片，并且通过给出关于该花的详细属和种信息给图像作注释，则用户可以想着让该图像呈现给执行寻找该花的可视化查询调查的任何人。在一些实施例中，来自查询和注释数据库116的信息被周期性地推送到并行搜索***112，并行搜索***112将信息的相关部分(如果有的话)并入到它们的相应个体数据库114中。

图4是图示依照一些实施例的用于处理可视化查询的图像到词汇搜索***112-C的框图。在一些实施例中，图像到词汇搜索***识别可视化查询中的对象(实例识别)。在其它实施例中，图像到词汇搜索***识别可视化查询中的对象类别(类型识别)。在一些实施例中，图像到词汇***识别对象和对象类别二者。图像到词汇搜索***返回针对可视化查询中的图像的潜在词汇匹配。图像到词汇搜索***112-C通常包括一个或多个处理单元(CPU)402、一个或多个网络或其它通信接口404、存储器412、以及用于互连这些部件的一条或多条通信总线414。通信总线414可选地包括互连和控制***部件之间的通信的电路***(有时称为芯片集)。存储器412包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、快闪存储器设备或其它非易失性固态存储设备。存储器412可以可选地包括从CPU 402远程定位的一个或多个存储设备。存储器412或代替地存储器412内的非易失性存储器设备包括非瞬态计算机可读存储介质。在一些实施例中，存储器412或者存储器412的计算机可读存储介质存储以下程序、模块和数据结构、或它们的子集：

操作***416，其包括用于处理各种基本***服务和用于执行硬件相关的任务的过程；

网络通信模块418，其用于经由一个或多个通信网络接口404(有线或无线的)以及诸如因特网、其它广域网、局域网、城域网等之类的一个或多个通信网络，连接图像到词汇搜索***112-C与其它计算机；

图像特征标识符419，用于从可视化查询和其它图像提取图像特征值；

图像到词汇搜索应用420，其使用来自图像相关性模型数据库422的图像相关性模型，将来自可视化查询的图像特征值映射到一个或多个词汇；

图像相关性模型数据库422，用于存储用于文本查询的图像相关性模型，并且图像到词汇搜索应用420可以搜索图像相关性模型数据库422以找到与可视化查询相关的词汇；

结果排名和格式化模块424，用于对图像到词汇搜索应用420中标识的与可视化查询相关的词汇进行排名；

可选词汇到图像搜索应用425，用于响应于来自基于文本查询搜索引擎406的文本查询而针对图像进行搜索并且日志记录这样的搜索；以及

注释模块426，用于从注释数据库(116，图1)接收注释信息、确定注释信息中的任何注释信息是否与图像到词汇搜索***112-C相关、并且将任何确定的注释信息的相关部分存储到相应注释数据库428中。

比起作为本文中描述的实施例的结构示意，图2至图4更旨在作为一套计算机***中存在的各种特征的功能描述。在实践中，并且如本领域普通技术人员意识到的，单独示出的项可以被组合并且一些项可以分离。例如，这些图中单独示出的一些项可以在单个服务器上实现，并且单个项可以由一个或多个服务器来实现。用于实现可视化查询处理的***的实际数量以及特征如何在它们之中分配将在不同实施方式之间变化。

本文中描述的方法中的每种方法通常由指令来指导，指令被存储在非瞬态计算机可读存储介质中并且由一个或多个服务器或客户端的一个或多个处理器来执行。上面标识出的模块或程序(即，指令集)不需要实现为分离的软件程序、过程或模块，并且因而这些模块的各种子集可以在各种实施例中被组合或以其它方式重新布置。图5至图10中所示的操作中的每个操作可以对应于存储在计算机存储器或非瞬态计算机可读存储介质中的指令。

图5是图示依照一些实施例的用于通过将图像特征映射到文本词汇来训练图像相关性模型的处理的流程图。图5中所示的操作中的每个操作可以对应于存储在计算机存储器或计算机可读存储介质中的指令。

访问针对图像结果的文本查询的日志或记录(502)。图像到词汇服务器112-C访问针对图像的文本搜索的日志(例如，由词汇到图像搜索应用425生成的日志)。日志包括关于用于图像搜索的查询词汇以及针对每个查询词汇用户从搜索结果选择的图像的信息。

标识日志中的前N个查询词汇(504)。标识如操作502中访问的日志中文档记录的用在图像查询中的N个唯一查询词汇或者N个图像查询，其中N是整数。N一般大于100。在一些实施例中，N是在5,000至30,000范围内的整数。在一些实施例中，基于日志中的出现次数来标识N个查询词汇；如日志中文档记录的，所标识的N个查询词汇是在定义时间段(例如，三个月)的跨度内，在图像查询中最经常出现的词汇。

针对前N个查询词汇中的每个查询词汇，标识代表性图像(506)。在一些实施例中，针对相应查询词汇的代表性图像是使用相应查询词汇作为查询的针对图像的文本搜索的搜索结果中的预定义数量的最优图像(例如，基于与查询的相关性，排名最高的图像)。例如，在词汇到图像搜索应用425中执行使用相应查询词汇的针对图像的搜索，并且标识搜索结果的最优子集。在一些其它实施例中，如操作502中访问的日志中文档记录的，代表性图像是用户最经常从使用相应查询词汇的图像搜索的搜索结果中选择的图像。

针对每个代表性图像，提取相关图像特征值(508)。例如，图像特征标识符419可以提取相应代表性图像的图像特征值。在一些实施例中，图像特征值是图像部分的可视化特性。图像特征值的示例包括颜色直方图值、强度值、边缘统计、纹理值等。关于提取图像特征值的进一步细节公开在2009年7月17日提交的、代理人案卷号16113-1606001、题为“Image Relevance Model”的美国专利申请No.__________中，通过引用方式将其整体并入于此。

机器学习被应用于生成针对前N个查询词汇中的每个查询词汇的图像相关性模型(510)。在一些实施例中，图像相关性模型是表示对应图像特征与查询词汇的相对重要性的权重向量(512)。针对相应查询词汇，将机器学习应用于针对相应查询词汇的代表性图像的提取的图像特征值，以训练(和生成)针对相应查询词汇的图像相关性模型。在一些实施例中，图像相关性模型被实现为用于图像检索的被动攻击模型(PAMIR)，其示例公开在D.Grangier和S.Bengio的“A Discriminative Kernel-Based Model to Rank Images fromText Queries,”IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.30(2008),pp.1371-1384中，通过引用方式将其整体并入于此作为背景信息。关于训练和生成图像相关性模型的进一步细节公开在2009年7月17日提交的、代理人案卷号16113-1606001、题为“Image Relevance Model”的美国专利申请No.__________中，通过引用方式将其并入在上面。

针对前N个查询词汇的图像相关性模型被组合以产生用于将可视化查询的图像特征向量映射到N个(查询词汇，得分)对的矩阵(514)。针对相应查询词汇的每个图像相关性模型向量变为用于将可视化查询的图像特征向量映射到N个(查询词汇，得分)对的N行矩阵中的行。

图6是图示依照一些实施例的用于通过将图像特征映射到文本词汇来训练图像相关性模型的示例性数据结构的框图。针对查询词汇X 602，查询词汇到图像结果选择的日志601包括由用户选择的针对查询词汇X的图像搜索结果的一个或多个记录604。记录604包括图像的标识符和位置(例如，分别为图像的文件名和统一资源***)以及关于选择日期的数据。从记录604，标识针对查询词汇X602的若干代表性图像。

针对代表性图像，例如图像1 606，提取/标识图像特征值608，并且生成表示图像特征的向量605。

针对查询词汇X 602，生成和初始化具有图像特征权重612的图像相关性模型向量610。图像相关性模型向量610是使用针对查询词汇X 602的代表性图像的图像特征向量605训练的。

针对不同查询词汇的训练的图像相关性模型向量610被组合成图像相关性模型的矩阵614。如下面描述的，矩阵614用于响应于可视化查询而标识一个或多个文本词汇。

图7是图示依照一些实施例的用于响应于可视化查询而确定一个或多个文本词汇的处理700的流程图。图7中所示操作中的每个操作通常对应于存储在计算机存储器或非瞬态计算机可读存储介质中的指令。

可视化查询服务器***从客户端***接收可视化查询(702)。例如，客户端***可以是台式计算设备、移动设备或者另一相似设备，如参照图1说明的。示例客户端***上的示例可视化查询被示出在图8中。

可视化查询是任何适合格式的图像文档。例如，可视化查询可以是照片、屏幕截图、扫描的图像、或者多个视频帧的帧或序列。在一些实施例中，可视化查询是由内容制作程序(236，图2)产生的绘图。这样，在一些实施例中，用户“绘制”可视化查询，而在其它实施例中用户扫描或拍摄可视化查询。一些可视化查询使用诸如ADOBE ACROBAT、照片编辑程序、绘图程序或图像编辑程序之类的图像生成应用来创建。例如，可视化查询可以来自，用户在他的移动电话上拍摄他朋友的照片并且然后向服务器***提交照片作为可视化查询。可视化查询还可以来自，用户扫描杂志的页面或者取得台式电脑上的网页的屏幕截图并且然后向服务器***提交扫描或屏幕截图作为可视化查询。在一些实施例中，通过浏览器应用的搜索引擎扩展、通过浏览器应用的插件、或者通过客户端***102执行的搜索应用，向服务器***106提交可视化查询。可视化查询还可以通过支持或生成图像的其它应用程序(由客户端***执行)来提交，图像可以由客户端***传输到远程定位的服务器。

可视化查询可以是文本和非文本元素的组合。例如，查询可以是包含图像和文本(诸如人站在路标的旁边)的杂志页面的扫描。可视化查询可以包括人的面部的图像，无论是通过客户端***中嵌入的相机拍摄的还是通过客户端***扫描的或以其它方式接收的文档取得的。可视化查询还可以是仅包含文本的文档的扫描。可视化查询还可以是众多相异主题的图像，诸如森林中的几只鸟、人和物体(例如汽车、公园长椅等)、人和动物(例如宠物、家畜、蝴蝶等)。可视化查询可以具有两个或更多相异元素。例如，可视化查询可以包括产品包装上的条形码以及产品或产品名称的图像。例如，可视化查询可以是书皮的图片，其包括书的标题、封面画和条形码。在一些实例中，一个可视化查询将产生与可视化查询的不同部分对应的两个或更多相异搜索结果，如下面更详细讨论的。

可视化查询服务器***通过生成针对可视化查询的图像特征值集而对可视化查询做出响应(704)。可视化查询服务器***标识可视化查询中的图像特征集，并且生成针对可视化查询中的图像特征的值集。每个图像特征值表示可视化查询的相异图像特性。生成图像特征值的示例公开在2009年7月17日提交的、代理人案卷号16113-1606001、题为“Image Relevance Model”的美国专利申请No.__________中，通过引用方式将其并入在上面。在一些实施例中，图像特征值集包括颜色直方图值、强度值和边缘统计(706)。图像特征值的其它示例包括图像部分的纹理和其它特性。在一些实施例中，图像特征值集包括比上面描述的特征值更多的特征值或更少的特征值。

可视化查询服务器***将图像特征值集映射到多个文本词汇，从而包括针对多个文本词汇中的每个文本词汇的权重(708)。在一些实施例中，多个文本词汇是上面参照图5描述的前N个查询词汇或前N个图像查询。相应文本词汇是短语、多个词语、或单个词语。映射产生多个文本词汇中的每个文本词汇关于可视化查询的权重或得分。权重或得分是可视化查询与相应文本词汇的相关性量度。

在一些实施例中，映射利用图像相关性模型集，每个模型对应于预定义文本词汇(710)。针对文本词汇的图像相关性模型是表示在确定图像是否与文本词汇相关中使用的对应图像特征的相对重要性的权重向量。在一些实施例中，预定义文本词汇是前N个查询词汇，并且图像相关性模型集中的每个模型对应于相应前N个查询词汇。

在一些实施例中，针对可视化查询的图像特征值集包括图像特征值的图像特征向量；并且映射包括使图像特征向量乘以图像相关性模型的矩阵，矩阵的每行对应于预定义文本词汇(712)。换种方式来说，图像特征值集由值的向量来表示，并且图像特征值向量乘以图像相关性模型的矩阵，其中矩阵中的每行是与查询词汇对应的图像相关性模型向量，其示例上面参照图5至图6描述了。所得乘积是针对多个文本词汇中的每个文本词汇关于可视化查询的权重或得分集。

可视化查询服务器***依照文本词汇的权重对文本词汇进行排名(714)。例如，文本词汇按它们的权重排序。

可视化查询服务器***依照对文本词汇的排名向客户端***发送经排名的文本词汇中的一个或多个文本词汇(716)。在一些实施例中，依照从上面描述的映射计算的权重或得分，关于可视化查询权重或得分最高的文本词汇被发送到客户端***，以用于向用户显示，其示例描述在下面。

在一些实施例中，可视化查询服务器***向客户端***发送与发送到客户端***的经排名的文本词汇关联的一个或多个图像(718)。换种方式来说，连同经排名的词汇一起，可视化查询服务器***向客户端***发送与经排名的词汇关联的图像。在一些实施方式中，在客户端***处，文本词汇与从可视化查询服务器***接收的关联图像一起显示。在客户端***处的所得显示的示例参照图10描述在下面。

在一些情况下，与经排名的文本词汇关联的图像中的一个或多个图像具有与针对可视化查询标识的图像特征值相似的图像特征值(720)。例如，从使用经排名的文本词汇(例如，使用词汇到图像搜索应用425)的针对图像的搜索标识与经排名的文本词汇关联的图像。与经排名的文本词汇关联的最佳图像集由可视化查询服务器***依照在它们的图像特征值和可视化查询的图像特征值之间的相似性度量来选择。这样的相似性度量的一个示例是候选图像的图像特征值与可视化查询的图像特征值的点积。针对每个排名在前的文本词汇，选择具有最高相似性度量(例如点积)的一个或多个图像。

在一些实施例中，响应于用户选择经排名的文本词汇中的词汇，执行关于所选词汇的文本查询搜索(722)。例如，用户可以点击所显示的经排名的文本词汇之一，并且作为响应，执行(例如，由词汇查询服务器***118)使用所选文本词汇作为查询词汇的文本搜索。返回的搜索结果可以包括满足(例如，匹配或最佳匹配)文本词汇查询的网页、视频、新闻文章等

在一些实施例中，可视化查询服务器***向客户端***发送交互式结果文档，该交互式结果文档包括可视化查询的相应子部分的一个或多个可视化标识符，并且还包括针对可视化标识符的至少子集中的每个可视化标识符的至少一个用户可选择链接，用户可选择链接包括经排名的文本词汇的相应文本词汇(724)。例如，可视化查询服务器***向客户端发送具有覆盖在可视化查询图像上的特定子区域的可视化标识符的可视化查询图像。在一些实施方式中，可视化标识符中的一个或多个可视化标识符是显示为对应文本词汇的用户可选择链接。在用户选择用户可选择链接时，作为响应执行使用所选文本词汇作为查询词汇的文本搜索。具有可视化查询的相应子部分的可视化标识符的交互式结果文档的示例参照图11描述在下面。

图8图示依照一些实施例的具有示例性可视化查询802的屏幕截图的客户端***102。图8所示的客户端***102是诸如蜂窝电话、便携式音乐播放器或便携式收发电子邮件设备之类的移动设备。客户端***102包括显示器206以及如该图所示的按钮的一个或多个输入装置208。在一些实施例中，显示器206是触敏显示器209。在具有触敏显示器209的实施例中，显示器209上显示的软按钮可以可选地替换一些或所有的机电按钮208。如下面更详细说明的，触敏显示器在与可视化查询结果交互中也是有帮助的。客户端***102还包括诸如相机210之类的图像捕获机制。

图8图示可视化查询802，其是商店的货架上的包装的照片或视频帧。在这里描述的实施例中，可视化查询是二维图像，该二维图像具有在两个维度的每个维度上与可视化查询的像素尺寸对应的分辨率。本示例中的可视化查询802是三维对象的二维图像。可视化查询802包括背景元素、产品包装804、以及包装上的各种类型的实体，实体包括人的图像806、商标的图像808、产品的图像810、以及各种文本元素812。

如参照图7说明的，可视化查询802被发送到前端服务器110，前端服务器110向多个并行搜索***(112A至112N)发送可视化查询802、接收结果、并且创建交互式结果文档。

图9图示依照一些实施例的与文本词汇列表同时显示的交互式结果文档和可视化查询的屏幕截图。图9中的屏幕截图示出与可视化查询结果列表902同时显示的交互式结果文档900和原始可视化查询802。在一些实施例中，单独显示交互式结果文档900。在一些其它实施例中，交互式结果文档900与原始可视化查询同时显示，如图9所示。在一些实施例中，可视化查询结果的列表902连同原始可视化查询802和/或交互式结果文档900一起同时显示。客户端***的类型以及显示器206上的空间量可以确定结果列表902是否与交互式结果文档900同时显示。在一些实施例中，客户端***102接收(响应于提交到可视化查询服务器***的可视化查询)结果列表902和交互式结果文档900二者，但是在用户在交互式结果文档900下方滚动时，仅显示结果列表902。

在图9中，结果列表902包括文本词汇列表903。文本词汇列表903包括一个或多个文本词汇结果905。文本词汇905是依照上面参照图7A至图7B描述的处理针对可视化查询802标识的词汇。用户对文本词汇905的选择(例如，通过点击词汇)激活使用所选文本词汇905作为查询的文本搜索。

在一些实施例中，结果列表902还包括响应于可视化查询找到的其它搜索结果。响应于可视化查询显示的搜索结果的示例公开在2010年8月6日提交的、题为“Identifying Matching CanonicalDocuments in Response to a Visual Query”的美国专利申请No.12/852,189中，通过引用方式将其整体并入。

在一些实施例中，文本词汇列表903中的文本词汇905中的一个或多个文本词汇与一个或多个随附图像1002一起显示，如图10所示。在一些实施方式中，基于使用文本词汇作为查询的图像搜索，图像1002是对应于文本词汇905的最相关的图像。图像1002是与可视化查询802整体或者与可视化查询802的子部分关联的图像。文本词汇905和随附图像1002的配对向用户提供关于文本词汇905如何关联于可视化查询802以及可视化查询802的子部分的进一步上下文。

图11图示依照一些实施例的具有交互式结果文档1100的屏幕截图的客户端设备102，交互式结果文档1100具有标记1102，标记1102是图8的可视化查询802的相应子部分的可视化标识符。标记可视化标识符1102各自包括与子部分关联的文本词汇。标记可视化标识符1102还包括到使用文本词汇作为查询的文本搜索结果的用户可选择链接(用文本词汇作为锚文本)。

在图11中，标记1102被显示为定位在它们的交互式结果文档的相应子部分之上的具有文本的部分透明区域。在一些其它实施例中，相应标记的位置靠近它的交互式结果文档的相应子部分，但是不定位在它的交互式结果文档的相应子部分之上。在一些实施例中，通过在由标记1102的边缘或周边描画轮廓的空间内部的激活区域上轻击，用户激活与标记1102对应的文本搜索结果的显示。

出于说明的目的，已经参照具体实施例描述了前述描述。然而，上面的说明性讨论不旨在是穷举式的、或者将本发明限于所公开的精确形式。鉴于上面的教导，许多修改和变化是可能的。为了最好地说明本发明的原理及其实际应用，选择和描述了实施例，以从而使得本领域其他技术人员能够最好地利用本发明和各种实施例，其中设想适合于特定用途的各种修改。

Claims

1.一种用于响应于可视化查询而标识文本词汇的方法，包括：

在具有一个或多个处理器以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的服务器***上：

从客户端***接收可视化查询；

通过以下操作对所述可视化查询做出响应：

生成针对所述可视化查询的图像特征值集；

将所述图像特征值集映射到多个文本词汇，从而包括针对所述多个文本词汇中的每个所述文本词汇的权重；

依照所述文本词汇的所述权重对所述文本词汇进行排名；以及

依照对所述文本词汇的所述排名，向所述客户端***发送经排名的所述文本词汇中的一个或多个文本词汇。

2.根据权利要求1所述的方法，包括：

其中所述映射利用图像相关性模型集，每个模型对应于预定义文本词汇。

3.根据权利要求1或2所述的方法，其中：

针对所述可视化查询的所述图像特征值集包括所述图像特征值的图像特征向量；以及

所述映射包括使所述图像特征向量乘以图像相关性模型的矩阵，所述矩阵的每行对应于预定义文本词汇。

4.根据权利要求1至3中任一项所述的方法，其中所述图像特征值集包括：颜色直方图值、强度值和边缘统计。

5.根据权利要求1至4中任一项所述的方法，其中对所述可视化查询做出响应进一步包括：

向所述客户端***发送与经排名的所述文本词汇关联的一个或多个图像。

6.根据权利要求5所述的方法，其中与经排名的所述文本词汇关联的所述一个或多个图像具有与针对所述可视化查询标识的所述图像特征值相似的图像特征值。

7.根据权利要求6所述的方法，进一步包括：

响应于用户选择经排名的所述文本词汇中的词汇，执行关于选择的所述词汇的文本查询搜索。

8.根据权利要求1至7中任一项所述的方法，进一步包括：

向所述客户端***发送交互式结果文档，所述交互式结果文档包括所述可视化查询的相应子部分的一个或多个可视化标识符以及针对所述可视化标识符的至少子集中的每个可视化标识符的至少一个用户可选择链接，所述用户可选择链接包括经排名的所述文本词汇中的相应文本词汇。

9.一种服务器***，包括：

一个或多个处理器；以及

存储用于由所述一个或多个处理器执行的一个或多个程序的存储器；

所述一个或多个程序包括用于以下操作的指令：

从客户端***接收可视化查询；

通过以下操作对所述可视化查询做出响应：

生成针对所述可视化查询的图像特征值集；

10.根据权利要求9所述的服务器***，其中用于映射的指令包括用于利用图像相关性模型集的指令，每个模型对应于预定义文本词汇。

11.根据权利要求9所述的服务器***，其中：

用于映射的所述指令包括用于使所述图像特征向量乘以图像相关性模型的矩阵的指令，所述矩阵的每行对应于预定义文本词汇。

12.根据权利要求9至11中任一项所述的服务器***，其中所述图像特征值集包括：颜色直方图值、强度值和边缘统计。

13.根据权利要求9至12中任一项所述的服务器***，其中对所述可视化查询做出响应进一步包括用于以下操作的指令：

14.根据权利要求13所述的服务器***，其中与经排名的所述文本词汇关联的所述一个或多个图像具有与针对所述可视化查询标识的所述图像特征值相似的图像特征值。

15.根据权利要求9至14中任一项所述的服务器***，进一步包括用于以下操作的指令：

16.一种存储配置用于由计算机执行的一个或多个程序的非瞬态计算机可读存储介质，所述一个或多个程序包括用于以下操作的指令：

从客户端***接收可视化查询；

通过以下操作对所述可视化查询做出响应：

生成针对所述可视化查询的图像特征值集；

17.根据权利要求16所述的非瞬态计算机可读存储介质，其中用于映射的所述指令包括用于利用图像相关性模型集的指令，每个模型对应于预定义文本词汇。

18.根据权利要求16或17所述的非瞬态计算机可读存储介质，其中：

19.根据权利要求16至18中任一项所述的非瞬态计算机可读存储介质，其中所述图像特征值集包括：颜色直方图值、强度值和边缘统计。

20.根据权利要求16至19中任一项所述的非瞬态计算机可读存储介质，其中对所述可视化查询做出响应进一步包括用于以下操作的指令：

21.根据权利要求20所述的非瞬态计算机可读存储介质，其中与经排名的所述文本词汇关联的所述一个或多个图像具有与针对所述可视化查询标识的所述图像特征值相似的图像特征值。

22.根据权利要求16至21中任一项所述的非瞬态计算机可读存储介质，进一步包括用于以下操作的指令：