CN103959284A

CN103959284A - 使用置信图像样本进行重新排名

Info

Publication number: CN103959284A
Application number: CN201180075027.1A
Authority: CN
Inventors: J·王; S·李; N·莫里欧卡
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2014-07-30
Anticipated expiration: 2031-11-24
Also published as: CN103959284B; WO2013075310A1; US20140250109A1; US9384241B2; EP2783304B1; EP2783304A4; EP2783304A1

Abstract

本发明所述的技术确定与基于图像的搜索查询相关联的初始的一组经排名图像。基于初始的该组经排名的图像中的图像之间的视觉内容相似性，所述技术从初始的该组经排名的图像中选择置信图像样本。所述技术随后使用置信图像样本来对初始的该组经排名图像进行重新排名。因此，搜索引擎使用置信图像样本来提升很可能与搜索查询相关的图像，同时降低不太可能与搜索查询相关的图像。因此，搜索引擎可以提供针对基于图像的搜索查询的经改善的基于相关性的搜索结果。

Description

使用置信图像样本进行重新排名

背景

随着网上可用图像的数目持续扩张，基于图像的搜索引擎机制不断地追求经改善的响应于接收到搜索查询返回最相关图像的技术。通常，搜索引擎最初依赖于将与图像相关联的文本信息(例如图像标题、图像文字说明、URL等等)与搜索查询中所提供的文本元素(例如关键字)相匹配。最初的文本匹配标识出搜索查询的候选图像，并且根据基于文本匹配的相关性分数对所标识出的候选图像进行排名。

然而，文本信息不能捕捉和/或考虑图像的视觉内容。因此，基于文本的相关性评级是易错的，因为与图像相关联的文本信息常常不提供针对搜索查询的可靠的基于图像的结果。

发明内容

本文所描述的技术确定与基于图像的搜索查询相关联的初始的一组经排名图像。基于初始的该组经排名图像中的图像之间的视觉内容相似性，所述技术从初始的该组经排名图像中选择置信图像样本。所述技术随后使用置信图像样本来对初始的该组经排名图像在视觉上重新排名。因此，搜索引擎使用置信图像样本来提升很可能与搜索查询相关的图像，同时降低不太可能与搜索查询相关的图像。因此，搜索引擎可以提供针对基于图像的搜索查询的经改善的基于相关性的搜索结果。

提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的选择的概念。本发明内容不旨在标识所要求保护的主题的关键或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。例如术语“技术”可指代上述上下文和通篇文档中所准许的***、方法、计算机可读指令、模块、算法和/或方案。

附图说明

参考附图来给出具体实施方式。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。

图1示出根据本文所述的各个实施例的对图像在视觉上进行重新排名的示例性概况。

图2示出根据本文所述的各种实施例的选择置信图像样本的示例环境。

图3示出根据本文所述的各种实施例的选择置信图像样本的示例环境。

图4示出根据各种实施例的用于实现所述技术的示例体系结构。

图5示出根据本文所述的各个实施例的选择置信图像样本的示例过程。

图6示出根据各个实施例的使用所选择的置信图像样本来提供基于图像的搜索结果的示例性过程。

具体实施方式

概览

下面的描述阐述了用于响应于接收到基于图像的搜索查询对一组图像在视觉上进行重新排名的技术。本文所讨论的技术从根据文本信息来排名的图像的初始列表中确定和选择置信样本。随后，所述技术使用置信样本来对图像的初始列表进行重新排名，使得更有可能与基于图像的搜索查询相关的图像被排名更高，而更有可能与基于图像的搜索查询无关的图像被排名更低。

如本文所讨论的，所述技术确定一较小数目的置信图像样本。例如，响应于接收到基于图像的搜索查询，数以百计或千计的图像可能被标识作为图像的初始列表。因此，所述技术试图从图像的初始列表中选择一定数目的置信图像样本。例如，例如该数目可以为二、三、五、十或二十。

图1示出了从经排名的图像的初始列表中选择置信图像样本的技术的示例性概况。出于本文献的目的，使用术语“图像”来讨论基于图像的搜索和检索。然而，能够理解，在本文献的上下文中，图像可以对应于静态图像、视频、照片、文档或具有可被分析和/或提取的视觉内容特征的任何类型的电子信息。因此，如本文中所使用的，术语“图像”涵盖多种不同类型的电子可用的视觉信息。在102，所述技术接收具有一个或多个文本查询项的基于图像的搜索查询。在104，所述技术使用基于图像的搜索查询来从多个不同的图像源106中标识和访问多个不同图像。所述多个不同图像是一组M个图像，每个图像都包括和/或具有以某种程度与基于图像的搜索查询项相关联或匹配的文本信息。

在108，所述技术根据基于文本匹配的相关性分数对该组M个图像进行排名，由此提供初始的经排名的一组M个图像110。在各个实施例中，所述技术并发地执行由框104和108描绘的功能。

在112，所述技术从初始的经排名的该组M个图像110中检测和选择一个或多个置信图像样本114。在116，所述技术基于初始的经排名的该组M个图像110中的各个图像与所选择的置信图像样本114之间的视觉内容相似性的程度来对初始的经排名的该组M个图像110进行重新排名。随后，搜索引擎可响应于在102接收的搜索查询提供视觉上经重新排名的该组M个图像118。

图1中所示的置信图像选择是基于如下观察的：最有可能与基于图像的搜索查询相关的一组图像与同该搜索查询不相关的图像(例如不相关或离群图像)相比将更频繁地彼此共有不同的视觉内容特征和/或图案。换言之，一组相关图像与一组各种不相关图像相比往往是更相似和较少不同的，而不相关图像往往是不相似和较多不同的。因此，相关图像最有可能与另一相关图像具有高度视觉内容相似性，而不相关图像最有可能与相关图像和其他不相关图像二者都具有低度视觉内容相似性(例如由于是一组不同的离群图像)。

图2示出了从响应于指定“熊猫”的基于图像的搜索查询被标识出和访问的不同“熊猫”图像中确定和选择置信图像样本114的示例性环境。如参照图1所讨论的那样，图2中所描绘的图像每个都最初是通过与词语“熊猫”相关联的文本被标识出的，并且因此图2中所描绘的每个图像都可以包括在初始的经排名的该组M个图像110中。

在图2中，示例性图像202和204被确定为置信图像样本114，因为它们相对于初始的经排名的该组M个图像110中的大量不同熊猫图像206具有高度视觉内容相似性。

用于确定两个图像之间的视觉内容相似性程度的视觉特征和/或图案可包括但不限于与图像的颜色、图像的纹理、图像的形状、图像的空间分布等相关联的特征。有助于提取、导出以及比较图像的可视特征和/或图案的一些可视机制包括例如：注意力引导色彩签名、颜色小空间(color spatialet)、小波、比例不变的特征变换(SIFT)、多层旋转不变性、梯度直方图(HoG)、面貌特征等等。

因此，参照图2，置信图像样本202和204由于置信图像样本202和204与大量不同熊猫图像206之间的高度视觉内容相似性而被选择为大量不同熊猫图像206中的良好的代表性图像(例如最有可能为相关的)。此外，置信图形样本202和204与大量不同熊猫图像206之间的视觉内容相似性程度与示例性图像208与大量不同熊猫图像206之间的内容相似性程度相比更高。作为示例，视觉内容相似性程度可能对于置信图像样本202和204而言是更高的，因为这些图像是大熊猫的真实照片，其中每个都包括在大量不同熊猫图像206中更普遍的视觉特征和/或图案，而示例性图像208描绘了大熊猫的黑白卡通图像，所述卡通图像具有在大量不同熊猫图像206中可能没有那么流行的视觉特征和/或图案。类似地，置信图像样本202和204的视觉内容相似性的程度在与示例性图像210比较时最有可能更高，因为示例性图形210是大熊猫的爪子的图像，并且因此缺少其它与大量不同熊猫图像206共有的视觉特征和/或图案。

在图2，示例性图像212和214可以是称为“The Pandas”的小乐队的图像。图像212和214是离群图像，所述离群图像不太可能与用户的针对“熊猫”的基于图像的搜索查询相关，因为用户更有可能对接收大熊猫的图像结果感兴趣。相比之下，在用户搜索叫做“熊猫”的乐队的情况下，用户更有可能搜索“熊猫乐队”或“熊猫音乐”。然而，离群图像212和214由于单独的查询项“熊猫”与同离群图像212和214中的每一个相关联的文本信息之间的高度文本匹配而可能被标识出和访问。

如上所示，由于与图像相关联的文本信息未能捕捉图像的视觉内容，因此对于执行基于图像的搜索的搜索引擎常见的是在视觉上对初始的经排名的一组M个图像110进行重新排名。常见的视觉重新排名方法包括显式伪相关反馈(PRF)和隐式PRF。

显式PRF方法包括基于分类的和基于聚类的重新排名机制，所述机制使用来自初始的经排名的一组M个图像110的连续列出的最靠前的N个图像(例如10、20、100个图像)作为伪正面示例来训练被配置为训练分类器或导出对每个图像进行评分和重新排名的群集。然而，用在显式PRF方案中的伪正面示例常常是不可靠的，因为最靠前的N个图像常常包括很可能与搜索查询不相关的错误正面示例(例如离群图像212和214)。由于显式PRF方案在视觉上对图像进行重新排名时不知情地考虑和使用来自离群图形的视觉特征，因此显式PRF方案更容易提供不精确的基于相关性的搜索结果。

隐式PRF方法包括基于图形和贝叶斯视觉重新排名机制，该机制鼓励列表底部的相关图像在列表中向上移动并且被标识为用于视觉重新排名的伪正面示例。然而，类似于显式PRF方案，隐式PRF方案未能移除与搜索查询不相关的排名高的离群图像(例如图像212和214)以免被认为是伪正面示例。因此，显式PRF方法和隐式PRF方法都未被实现为避免在对图像视觉上进行排名时使用排名高的错误正面示例。这些错误正面示例妨碍了视觉重新排名的质量。

本文所描述的技术避免了在对初始经排名的一组M个图像110在视觉上进行重新排名时考虑错误正面示例，因为所述技术从初始经排名的一组M个图像110中确定和选择一个或多个置信图像样本114。如在此所讨论的那样，所述技术基于计算和/或运算选择置信图像样本114，所述计算和/或运算确定置信样本与初始的经排名的一组M个图像110中的所有图像之间的视觉内容相似性的程度。因此，所述技术标识和选择很可能与所接收的基于图像的搜索查询相关的可靠图像。置信图像样本114可能分布在初始的经排名的一组M个图像110中，并且因此置信图像样本114不一定需要连续地列出在初始的经排名的一组M个图像110内的最靠前的N个图像中。因此，本文所讨论的技术通过消除离群图像而不加以考虑并且在视觉重新排名过程中不实用离群图像来提供针对离群图像的可靠性。这改善了视觉重新排名过程，并且返回更好和更精确的基于图像的搜索结果。

图3示出了确定用于在视觉上对初始的经排名的一组M个图像进行重新排名的候选图像的示例性比较300。302中提供的加粗线框的图像的顺序和选择描绘了显式和隐式PRF方法中的候选图像的标识，如前面所讨论的那样。304中提供的加粗线框的图像的顺序和选择描绘了由本文所讨论的技术所提供的置信图像样本的检测和选择。如在302中所描绘的那样，最靠前的N个图像中的每个都由于它们在初始经排名一组图像110中的连续的经排序的最靠前的N个位置(例如在该示例中N为四)而被自动地被选择为伪正面图像。然而，302中的标识包括错误正面离群图像212和214，所述离群图像对于视觉重新排名是不可靠图像，因为它们未与大量不同熊猫图像206共有高度的视觉内容相似性。如前面所讨论的那样，离群图像212和214由于具有高度文本匹配而被包括在最靠前的N个图像中。

如304所描绘的那样，本文所讨论的技术选择可以被包括或不被包括在最靠前N个图像(例如在该示例中为四个)中的置信图像样本202和204。换言之，本文所讨论的技术放宽了显式和隐式PRF方法中的最靠前N个图像中的所有图像都与搜索查询相关这一假设。相反，置信图像样本不一定连续地位于在最靠前的N个图像中。这允许所述技术消除对错误正面示例的考虑和使用，并且保证很可能相关的图像被用于视觉重新排序。

因此，本文所讨论的技术使用新颖的稀疏性和排名约束的平方损失优化框架来自动找出置信图像样本114，该框架将在本文予以进一步讨论。此外，确定和选择用于视觉重新排名的置信图像样本的该自动过程是无人干预的(即不需要人工训练、人工选择或人工贴标签)。

说明性体系结构

图4示出了可采用所述技术的说明性体系结构400。为此，体系结构400包括一个或多个服务器计算设备402(1)…402(N)、一个或多个客户机计算设备404(1)…404(N)、以及一个或多个图像源106(1)…106(N)，它们各自耦合至网络406。在各个实施例中，服务器计算设备402(1)...402(N)可以托管基于图像的搜索功能，并且因此可以是诸如搜索引擎、搜索引擎、搜索引擎等等之类的一个或多个web搜索引擎。在各个实施例中，用户经由一个或多个客户机计算设备404(1)…404(N)处的web浏览器或其它应用提交包括一个或多个搜索项的基于图像的搜索查询。客户机计算设备404(1)…404(N)可包括能够连接至一个或多个网络406的一系列计算设备中的一个，如服务器计算机、客户机计算机、个人计算机、膝上型计算机、移动电话、个人数字助理(PDA)、平板、游戏控制台、机顶盒等。此外，用户提交的搜索查询包括例如通过图形用户界面(GUI)输入的一个或多个词语、术语、字符、数字、符号和/或文本串，其中用户意图是找到并接收与搜索查询相关的所期望的图像或一组所期望的图像。

在各个实施例中，体系结构400可以是包括遍布世界的众多PC、服务器和其他计算设备的万维网。服务器计算设备402(1)…402(N)、客户机计算设备402(1)…404(N)以及图像源106(1)…106(N)可通过包括LAN、WAN或任何其他本领域已知的联网和/或通信技术在内的有线和/或无线网络406按照各种组合彼此耦合。可以理解的是，在本文的上下文中，图像源106(1)…106(N)可包括但不限于配置成存储和维护可由搜索引擎响应于接收到查询来搜索的图像内容的任何实体。例如，图像源106(1)…106(N)可以是web服务器、文件传输服务器、图像数据库、社交媒体服务器、照片存储库等。

此外，服务器计算设备402(1)…402(N)包括存储器408和一个或多个处理器410。在各个实施例中，服务器计算设备402(1)…402(N)包括图像检索模块412、图像排名模块414、图像特征提取模块416、置信样本选择模块418、重新排名模块420、以及一个或多个网络接口422，它们各自将在本文中被进一步讨论。

处理器410可以是单个处理单元或多个单元，它们都可包括多个计算单元。处理器410可被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。在诸多功能中，处理器410尤其可被配置成取回并执行存储在存储器408中的计算机可读指令。

存储器408可包括计算机可读介质，计算机可读介质包括至少两种类型的计算机可读介质，即计算机存储介质和通信介质。

计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可用于存储信息以供计算或服务器设备访问的任何其他非传输介质。

相反，通信介质可在诸如载波之类的已调制数据信号或其它传输机制中体现计算机可读指令、数据结构、程序模块或其它数据。如本文所定义的，计算机存储介质不包括通信介质。

网络接口422实现网络通信，并且可包括用于将各个计算设备连接至网络406的一个或多个端口。网络接口422可便于使用各种各样网络和协议类型来进行通信，包括有线网络(例如，LAN、电缆等)和无线网络(例如，WLAN、蜂窝、卫星等)。例如，网络接口可通过网络406访问位于图像源106(1)…106(N)处的图像数据。在各种实施例中，服务器计算设备402(1)…402(N)可具有对一个或多个图像源106(1)…106(N)的本地访问。而且，在各个实施例中，存储在存储器408中的模块可被耦合到一个或多个图像源106(1)...106(N)、对其具有直接访问或对其具有网络访问。

可以理解，在本文的上下文中，由图像检索模块412、图像排名模块414、图像特征提取模块416、置信样本选择模块418、以及重新排名模块420所执行的功能可全部包括在响应于接收到搜索查询实现基于图像的搜索的单个服务器计算设备402(1)上，或分散在经由网络406彼此连接的多个服务器计算设备402(1)…402(N)中。例如，在一个示例中，由图像检索模块412执行的功能可分散在多个服务器计算设备中。在另一示例中，由图像检索模块412执行的功能可完全处于第一服务器计算设备上，而由置信样本选择模块418执行的功能可以处于不同的服务器计算设备上。

如前面参考图1所讨论的那样，图像检索模块412响应于接收到具有一个或多个查询项的搜索查询从一个或多个图像源106(1)...106(N)中标识和访问一组M个图像。一旦该组M个图像被标识出，则图像排名模块414就根据基于文本匹配的相关性分数对该组M个图像进行初始地排名。例如，图像排名模块414将查询项与同所存储图像相关联的文本元素(例如图像标题、图像文字说明、URL等等)相比较。

图像特征提取模块416被配置为从初始经排名的所标识出的该组M图像中提取视觉特征。如在此所讨论的那样，初始的经排名的该组M个图像被定义如下：

X＝[x₁，x₂，...，x_M]。 (2)

因此，等式(1)中的是响应于搜索查询被访问和标识出的初始的经排名的该组M个图像，并且等式(2)是由图像特征提取模块416针对中每个相应图像所提取的对应的一组视觉内容特征。置信样本选择模块418随后检测置信图像样本，这将在本文中予以进一步讨论。一旦置信样本选择模块418确定和选择置信图像样本，则重新排名模块420就返回定义如下的另一个经排名的列表：

r = f (X; \overset{&OverBar;}{r}) . - - - (3)

在此，f返回经排名的列表该列表被认为是考虑到初始经排名该组M个图像中明显的视觉内容特征的的完善版本。

为了从初始的经排名的该组M个图像中找出置信图像样本，置信样本选择模块418定义如下函数：

c = g (X; \overset{&OverBar;}{r}) . - - - (4)

在此，c是包括针对初始的经排名该组M个图像中的每个图像I_i的单独标签c_i的二进制矢量。当c_i被确定为针对图像I_i为1时，则图像I_i是用于对初始de经排名的该组M个图像进行重新排名的置信样本。当c_i被确定为针对图像I_i为0时，则图像I_i不是用于对初始的经排名的该组M个图像进行重新排名的置信样本。

置信样本检测基于如下观察：更有可能与搜索查询相关的图像与最有可能与搜索查询不相关的离群图像相比将更频繁地彼此共有视觉特征和/或图案。因此，针对初始的经排名的该组M个图像110中的每个图像I_i，置信样本检测模块418通过计算内核矩阵确定与经排名的该组中的所有其他图像的总相似性程度。K中的每个条目K_ij存储两个相应图像I_i和I_j的视觉特征x_i和x_j之间的相似性。例如，如果初始的经排名的该组M个图像110包括八个图像(八是为了理解本技术的小数字)，则置信样本选择模块418计算8乘8矩阵K。因此，K中的每行都包括多个相似性元素，所述相似性元素是针对单个图像I_i在分别与初始的经排名的该组M个图像中的所有其他图像I_j相比较时确定的。

在各个实施例中，置信样本选择模块418通过计算按如下方式比较的不同视觉特征(x_i和x_j)之间的余弦相似性来获得内核矩阵K：K＝X^TX-I。此外，K中的所有自相似性元素被设置为0(例如每行中的在图像I_i与其自己相比较之处的元素)。

接着，置信样本选择模块418针对每个图像I_i对K的每行中的相似性元素(例如条目)求和，以确定图像I_i与初始的经排名的该组M个图像中的所有其他图像的总相似性程度s_i。这产生列矢量s＝Ke，该列矢量包括初始的经排名的该组M个图像中的所有图像的每个相应总相似性程度条目s_i，其中e是全为1的矢量。

置信样本选择模块418随后确定哪些图像是对列矢量s的组成的主要贡献者。是对列矢量s的组成的主要贡献者的图像最有可能与初始的经排名的该组M个图像中的其他相关图像显著地相似，并且因此该主要贡献者是供选为置信图像样本的良好候选图像。

为了确定主要贡献者图像，置信样本选择模块418实施基于重建的方法，该方法尝试最小化s与Kc之间的误差，这将允许置信样本选择模块418选择具有高置信度的样本。因此，置信样本选择模块418按如下方式对c添加稀疏性约束：

\min_{c} {| | s - Kc | |}_{q}^{p} + αφ (\overset{&OverBar;}{r}, c) - - - (5)

s.t.c∈{0，1}^M。

此处，α是折衷参数，该折衷参数平衡由加号隔开的两项，并且φ(x)将当作输入之一，使得置信样本选择模块418除了考虑视觉内容相似性程度，还考虑基于偏好选择置信样本，其中偏好与基于文本匹配所确定的初始的经排名的该组M个图像内的位置相关联。此外，变量p和q定义等式(5)的左项的范数。在各个实施例中，p＝2并且q＝1。当p＝2且q＝1时，该范数与l₁平方损失优化框架相关联，该框架针对离群图像和含噪声数据是可靠的，这将在本文中予以进一步讨论。

尽管等式(5)提供了产生c的小数目的非零条目并且实现了低重建误差的可靠方案，但是等式(5)是通常为非确定性多项式－时间困难(NP困难)的二进制整数编程问题。因此，置信样本选择模块418引入两个放宽方案，使得等式(5)可以在基于图像的搜索功能内被高效和有效地求解。

第一放宽方案是非负最小平方方案。非负最小平方方案是稀疏性和排名约束的平方损失优化框架。第一放宽方案允许置信样本选择模块418在短时间段内求解等式(5)，这进而允许搜索引擎提供更快的基于图像的搜索结果。置信样本选择模块418引入了辅助非负实矢量，其按如下方式推断c：

C＝1_(z＞0) (6)

此处，1_(x)是按元素的指示符函数，其在z_i为正的情况下返回1，否则返回0。置信样本选择模块418用z替换等式(5)中的c，以按如下方式获得最小化问题：

\min_{z} {| | s - Kz | |}_{1}^{2} + αφ {| | Dz | |}_{1}^{2}, - - - (7)

s.t.z＞0。

置信样本选择模块418采用l₁平方损失来测量s与Kz之间的重建误差，因为与对离群图像敏感的l₂平方损失相比，l₁平方损失容许(例如避免考虑)不与其他图像共有视觉内容相似性的离群图像。此外，l₁范数(例如p＝2且q＝1)提供对z的稀疏性约束，并且置信样本选择模块418引入对角矩阵D，该对角矩阵D包括M个图像的初始排名(例如基于文本匹配)。D的每个对角线条目都充当c中的相应条目的权重。权重越低，则c的相应条目为非零(例如指示相应图像是置信样本)的机会就越高样本。因此，置信样本选择模块418引入D以偏向于选择在初始的经排名的该组M个图像中原始地排位较高的置信样本的偏好。

在各个实施例中，置信样本选择模块418引入另一约束s-Kz≥0，以避免s被Kz过度重建，其中s–Kz的一些条目可能是负的(例如被认为相关的置信样本不是真的相关)。因此，置信样本选择模块418可以进一步按如下方式定义等式(7)：

\min_{z} {| | [\begin{matrix} e^{T} s \\ 0 \end{matrix}] - [\begin{matrix} e^{T} K \\ \sqrt{α} e^{T} D \end{matrix}] z | |}_{2}^{2} - - - (8)

s.t.z≥0，

s.t.s-Kz≥0。

等式(8)是二次编程问题：置信样本选择模块418可以以多项式时间(例如通过标准二次编程解算器等等)求解。置信样本选择模块418随后选择与最优z的非零条目相对应的图像作为置信图像样本114，如上面参照图1和图2所讨论的那样。

第二放宽方案是基于等式(8)的有界变量最小平方方案。因此，有界变量最小平方方案也与稀疏性和排名约束的l₁平方损失优化框架相关联，并且也允许置信样本选择模块418在短时间段内求解等式(5)，这进而允许搜索引擎提供更快的基于图像的搜索结果。针对有界变量最小平方方案，置信样本选择模块418引入z的下界和上界二者，使得条目将处于0至1之间。下界和上界规定s-Kz≥0并且还按如下方式定义等式(8)：

\min_{z} {| | [\begin{matrix} e^{T} s \\ 0 \end{matrix}] - [\begin{matrix} e^{T} K \\ \sqrt{α} e^{T} D \end{matrix}] z | |}_{2}^{2} - - - (9)

s.t.0≤z≤1。

在各个实施例中，等式(9)改善了置信样本选择模块418适应于相关图像的重建的能力，同时使用l₁损失排除离群图像(例如不相关图像)。因此，有界变量最小平方方案进一步降低了将错误正面示例图像选择为置信样本的可能性。置信样本选择模块418然后选择与最优z的非零条目相对应的图像作为置信图像样本114，如上面参照图1和图2所讨论的那样。

因此，非负最小平方放宽方案和有界最小平方放宽方案二者都提供了对z的稀疏性和排名约束。稀疏性约束允许置信样本选择模块418发现小数目的相关图像，而排名约束将初始排名用作对z的附加约束，使得原始地在初始经排名的一组M个图像中排位较高的图像具有成为置信图像样本的偏好或更大概率。

如前面所讨论的那样，置信样本选择模块418引入矩阵D，并且将D与l₁范数中的z组合以实现该偏好。例如，在各个实施例中，置信样本选择模块418引入线性方法来设置D中的每个对角线条目D_ii。线性方案被定义如下：

D_ii＝η(i+v) (10)

此处，η是用于归一化的缩放常数，使得D的对角线条目之和为1，i是初始排名，并且v是用于初始排名的偏移量常数。

例如，在各个实施例中，置信样本选择模块418引入分步方法来设置D中的每个对角线条目D_ii。分步方法被定义如下：

此处，η是用于归一化的缩放常数，i是初始排名，v是用于初始排名的偏移量常数，并且是用于实现分步效果的除法常数。

例如，在各个实施例中，置信样本选择模块418引入收缩方法来设置D中的每个对角线条目D_ii。收缩方法被定义如下：

此处，η是用于归一化的缩放常数，i是初始排名，v是用于初始排名的偏移量常数，并且是用于通过最大值函数将值抑制为0的阈值常数。

如前面所讨论的那样，两个相关图像与相关图像和不相关图像相比更有可能彼此视觉上相似。因此，一旦置信样本选择模块418选择小数目的置信图像样本，则重新排名模块420就将所检测到的置信图像样本用作参考点以根据确定置信图像样本与M个图像中的其余图像之间的相似性的函数对初始的经排名的该组M个图像进行重新排名，该函数定义如下：

r＝h(X，c)。 (13)

因此，重新排名模块420为初始的经排名的该组M个图像中的每个图像计算视觉重新排名分数，并且根据该视觉重新排名分数对M个图像进行重新排名。在各个实施例中，重新排名模块420按如下方式为每个图像计算视觉重新排名分数：

r_{i} = Σ_{m = 1}^{M} 1_{(z_{m} > 0)} \exp (\frac{{| | x_{i} - x_{m} | |}^{2}}{{2 h}^{2}}) - - - (14)

等式(14)按照高斯内核和置信图像样本之和来对每个图像进行重新排名。

在其他实施例中，重新排名模块420不使用高斯内核，并且因此等式(14)可以概括化为如下：

r_{i} = Σ_{m = 1}^{M} 1_{(z_{m} > 0)} K (x_{i}, x_{m}) - - - (15)

在可用信息被限于之前讨论的内核矩阵K时，重新排名模块420可以根据等式(15)来对图像进行重新排名。因此，在各个实施例中，置信图像样本检测和图像重新排名过程可以与内核矩阵对应地直接工作。因此，重新排名过程可以称为自适应的基于内核的重新排名过程。

说明性过程

在此参照图5和图6描述示例操作。这些过程被示为逻辑流程图，这表示可用硬件、软件或其组合实现的一系列操作。在软件的上下文中，这些操作表示当由一个或多个处理器执行时完成所述操作的计算机可执行指令。一般而言，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序并不旨在解释为限制，并且任何数量的所述操作可以按任何次序和/或并行组合以实现该过程。

图5示出了检测和选择置信图像样本的示例性过程500。在操作502，图像检索模块412和图像排名模块414通过将查询项与同相应图像相关联的文本信息相匹配来确定初始的经排名的一组M个图像。

在操作504，图像特征提取模块416从初始的经排名的该组M个图像中的每个图像中提取各个视觉内容特征和/或图案。

在操作506，置信样本选择模块418使用所提取的各个视觉内容特征和/或图案来计算初始的经排名的该组M个图像中的每个图像配对之间的视觉内容相似性程度。

在操作508，置信样本选择模块418使用为每个图像配对计算的各个相应的视觉内容相似性程度来生成内核矩阵K。如前面所讨论的那样，K中的每行都包括多个相似性元素，所述相似性元素是针对单个图像I_i在分别与初始的经排名的该组M个图像中的所有其他图像I_j相比较时确定的。

在操作510，置信样本选择模块418获得列矢量s，该列矢量s包括每个图像与所有其他图像的总相似性程度。如前面所讨论的那样，为了获得每个图像的总相似性程度，置信样本选择模块418针对每个图像I_i对K的每行中的相似性元素进行求和。

在操作512，置信样本选择模块418如上面参考等式(5)所讨论的那样使用K和s来实施稀疏性和排名约束l₁平方损失优化框架。在各个实施例中，置信样本选择模块418如上面参考等式(6)、(7)和(8)所讨论的那样使用非负最小平方放宽方案。在各个实施例中，置信样本选择模块418如上面参考等式(6)、(7)、(8)和(9)所讨论的那样使用有界变量最小平方放宽方案。

在操作514，置信样本选择模块418基于实施操作512的结果选择置信图像样本。

图6示出了示例性过程600，该过程提供使用图5中所确定的置信图像样本在视觉上重新排名的基于图像的搜索结果。在操作602，搜索引擎接收基于图像的搜索查询。

在操作604，图像检索模块412和图像排名模块414通过将查询项与同相应图像相关联的文本信息相匹配来确定初始的经排名的一组M个图像。

在操作606，置信样本选择模块418根据图5中的示例性过程确定和选择一个或多个置信图像样本。

在操作608，重新排名模块420使用置信图像样本对初始的经排名的该组M个图像在视觉上进行重新排名。在各个实施例中，重新排名模块420使用等式(14)按照高斯内核和置信图像样本之和来对每个图像在视觉上进行重新排名。在各个实施例中，重新排名模块420使用与等式(15)相关联的自适应的基于内核的重新排名过程。视觉重新排名操作608提升了初始的经排名的一组M个图像中的相关图像，同时降低了不相关或离群图像。

在操作610，搜索引擎提供响应于基于图像的搜索查询的在视觉上经重新排名的图像。在各个实施例中，搜索引擎可以提供视觉上经重新排名的图像的一部分或子集(例如最靠前的50个图像)。

结语

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上文所描述的具体特征和动作是作为实现权利要求的示例形式来描述的。

Claims

1.一种方法，包括：

在计算设备的一个或多个处理器的控制下：

接收搜索查询；

确定与所述搜索查询相关联的初始的一组经排名图像；

确定初始的该组经排名图像中的每个图像相对于初始的该组经排名图像中的一个或多个其他图像的视觉内容相似性程度；

至少部分基于所述视觉内容相似性程度从初始的该组经排名图像中选择一个或多个置信图像样本；以及

使用所述一个或多个置信图像样本对初始的该组经排名图像进行重新排名。

2.如权利要求1所述的方法，其特征在于，还包括提供经重新排名的图像的至少一部分作为响应于接收到所述搜索查询的搜索结果。

3.如权利要求1所述的方法，其特征在于，对初始的该组经排名图像进行重新排名包括提升在视觉上与所述一个或多个置信图像样本相似的图像并且降低在视觉上不与所述一个或多个置信样本相似的图像。

4.如权利要求1所述的方法，其特征在于，还包括从初始的该组经排名图像中的各个图像中的每个提取视觉内容特征。

5.如权利要求4所述的方法，其特征在于，给定图像的视觉内容相似性程度是基于如下方式确定的：将所提取的与所述给定图像相关联的视觉内容特征与所提取的与初始的该组经排名图像中的其他图像相关联的视觉内容特征相比较。

6.如权利要求1所述的方法，其特征在于，还包括实施非负最小平方放宽来从初始的该组经排名图像中选择所述一个或多个置信图像样本。

7.如权利要求1所述的方法，其特征在于，还包括实施有界变量最小平方放宽来从初始的该组经排名图像中选择所述一个或多个置信图像样本。

8.如权利要求1所述的方法，其特征在于，还包括实施自适应的基于内核的重新排名过程来使用所述一个或多个置信图像样本对初始的该组经排名图像进行重新排名。

9.如权利要求1所述的方法，其特征在于，与所述搜索查询相关联的初始的该组经排名图像是至少部分基于将查询项与同每个图像相对应的文本信息进行匹配来确定的。

10.如权利要求1所述的方法，其特征在于，所述一个或多个置信图像样本在初始的该组经排名图像内未被连续排序。