CN104246760A

CN104246760A - 搜索方法

Info

Publication number: CN104246760A
Application number: CN201280072817.9A
Authority: CN
Inventors: S.戈兰; O.巴科尔
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2014-12-24
Also published as: GB2518988A; GB201418808D0; WO2014021824A1; DE112012006749T5; US20150134632A1

Abstract

本发明的实施例提供从数据集生成搜索结果的方法，该方法包括：基于第一查询来获得第一搜索结果，该搜索结果包括多个文档；将权值分配到第一搜索结果的一个或多个文档；至少部分地基于所分配的权值来计算存在于搜索结果的一个或多个文档中的用语的相关性；以及基于第二查询来获得第二搜索结果，其中第二查询包括具有最高的计算的相关性的一个或多个用语。

Description

搜索方法

背景技术

现代计算机网络促进大量数据的存储和访问。例如，许多网站（在更广阔的世界中）和数据储存(在企业中)包含能够经由通信网络而被访问的大量文本文集。由于以该方式存储的大量数据，通常难以定位与某一主题等相关的特定文档或多个文档。通常，这些站点和数据储存提供搜索工具性程序、或搜索引擎，以允许用户从所存储的文本文集中搜索有用或期望的信息。

然而，所提供的搜索引擎通常具有有限的功能并且所返回的结果可能对用户的需要而言不够。更近地，在提供更有能力的搜索工具方面已经有了进步，例如，其可以包括支持个性化搜索或基于上下文的查询丰富性。

虽然可能期望在现有的搜索引擎中包括此类功能，但这可能不总是实用的。例如，用户可能不具有远程提供的资源之上的控制，或者其可能难以修改传统***来包括新的功能。

附图说明

下文仅通过示例的方式参考附图进一步描述了本发明的实施例，在所述附图中：

图1图示适于实施本发明的实施例的***；

图2图示用于实现本发明的实施例的客户端装置；

图3图示根据实施例的获得关于数据库的统计量的方法；以及

图4图示根据实施例的生成搜索结果的方法。

具体实施方式

本发明的实施例本地地提供用于访问远程存储的信息全集的先进搜索功能。一种本地地实现更先进的搜索引擎的方法是将全集的整个数据库下载到本地服务器或服务器群中，对文档进行索引，以及对全集的本地拷贝运行改进的搜索。该方法要求巨大的存储器资源并且要求对所提供的搜索引擎之后的底层数据库的访问，这可能不总是可用的。当全集常规更新时出现进一步的复杂（这通常是真实世界示例中的情况），原因在于其然后变得必须确保下载的数据库和远程保存的原始拷贝之间的一致性。

图1图示适于实现本发明的实施例的***。该***包括耦合到网络102的客户端装置100。可以由服务器装置（未示出）提供的搜索引擎104也耦合到网络102，并且耦合到数据库或文档的文本全集。先进搜索模块108存在于客户端装置100上，并且其在经由搜索引擎104执行全集106的搜索时提供先进的搜索功能。

搜索引擎提供针对数据库的内容的搜索功能，从而响应于通过网络提供的搜索查询而返回存在于数据库中的一个或多个文档的列表。因而，为了实现全集的标准搜索，用户向客户端装置提交搜索查询，其经由网络102将查询传递给搜索引擎104。搜索引擎104识别与存在于数据库106中的查询相关的一个或多个文档，并且向客户端装置100提供所识别的文档。

对于利用先进搜索功能的搜索而言，先进搜索模块108接收由用户提交的搜索查询，并且经由搜索引擎104访问全集106以生成先进搜索结果，这如将在以下更详细地讨论的。

图2图示能够被用来实现本发明的实施例的客户端装置。客户端装置包括处理器200、存储器204、存储装置202、以及网络接口208。客户端装置100的组件耦合到总线210，以允许组件之间的以及经由网络接口与通信网络102的通信。用于先进搜索功能212的指令被存储在存储器204中，并且当在处理器200上执行时，这些指令使得处理器200提供如以下所描述的先进搜索。

本发明的实施例允许用户在客户端装置100处应用更先进的搜索准则，诸如以虑及个性化搜索或基于上下文的查询丰富性，而不要求搜索引擎104的功能方面的任何改变。特别地，面向全集用户相关搜索引擎（COURSE）可以在客户端装置100处使用标准搜索引擎104来模拟，以访问文本全集106。

为了提供增强的搜索能力，应该在对全集材料做出任何搜索之前获得与文本全集相关的一些统计量。例如，为了理解全集的上下文中的某些搜索用语的相对重要性，应该知道那些用语出现在全集中的频率。通常，这通过分析完整的全集来实现以测量针对用语的频率。然而，下载用于分析的整个全集可能是不实用的，特别是在非常大的远程存储的文集的情况下。

根据本发明的实施例，采样方法被用来获得针对用语出现在全集中的频率统计量。通过下载全集的文档的某一部分，并且分析下载文档，可能的是整体地估计针对用语在全集中的用语频率。例如，全集的文档的百分之一可能足以允许估计针对整个全集的频率统计量。对于每个用语而言，可以基于所下载的文档来估计逆文档频率（IDF）。

图3图示用于估计针对文本全集106的用语频率统计量的方法300。根据所图示的方法，在步骤302中文本全集的一部分被下载到客户端装置100。对于下载的每个文档而言，在步骤304处，文档中的用语针对所有的下载文档的内容被提取和比较，以估计针对该用语的IDF。为了确保所确定的统计量与文本全集在其随时间进行更新时保持一致；步骤302和304以常规的间隔进行重复。在步骤306处，该间隔可以基于对更新全集文档的速率的估计来确定。

如以上概述的，使用采样方法，可能的是任何初始生成的统计量可能不准确地反映全集的内容。然而，当重复步骤302和304时，全集的不同部分可以被视为通向随时间变得更准确的所生成的IDF估计。

图4图示使用标准搜索引擎104来模拟对所访问的文本全集106的COURSE搜索的方法400。根据方法400，在第一步骤402中，基于由用户在客户端装置100处所提供的搜索查询来从搜索引擎104获得第一组搜索结果。

由于客户端装置100不具有如由远程搜索引擎104所应用的搜索用语的加权之上的直接控制，搜索结果的排序可能与期望的不同。更重要地，由于在客户端装置100处仅***分结果，所以由搜索引擎104对搜索结构的排序可能忽略在客户端装置100处被视为重要的一些文档。由于该原因，客户端装置100从搜索引擎104请求比用于实现先进搜索所需的更多的结果。例如，客户端装置100可以请求四百个搜索结果，其中其仅期望使用一百个最相关的。

在方法400的步骤404中，从搜索引擎104接收到的每个文档的文本内容被提取。使用该信息来针对每个文档分配加权，从而考虑以下项中的一个或多个：

a. 在文档中找到的搜索用语的数目；

b. 由运行搜索的人所写的文档可以得到附加的提高；

c. 全集中的搜索用语的（估计）频率；以及

d. 在（例如标题、内容）中找到用语的字段。

接收到的搜索结果然后根据所分配的权值和最高加权部分来分类，例如，最高的一百个加权的文档被取为命中列表。假设不管从搜索引擎104接收到四百个搜索结果文档还是更多的，该命中列表都不动态地改变。换言之，假设最相关的结果也将具有被网站或数据储存所供应的搜索引擎104排名得高的高可能性。

在接下来的步骤406中，查询基于存在于命中列表的文档中的相关的用语而被扩展，即存在于与原始查询的用语具有高相关性的命中列表的文档中的用语被识别以提供对原始搜索查询的上下文感知扩展。下文讨论了识别高相关的用语的方法。

令D为以其加权被排序的所有文档的序列。令d_i为D中的第i个文档，并且w_i是其加权。假设对于命中列表之外的每个文档而言，加权是零（因此，w是所有文档的加权矢量）。对于每个用语t_j而言，令δ_j是矢量或相同的长度，其中δ_ij（δ_j中的第i个元素）是第j个用语是否出现在第i个文档中的指示符。我们现在计算用语和该组结果之间的加权相关性：

。

注意，为了计算以上表达式来确定每个术语和该组结果之间的加权相关性，我们仅需要用语t_j的频率、命中列表中的文档的加权、以及针对命中列表中的文档的δ_ij。使用根据图3中所图示的方法300而计算的采样统计量来估算频率。此外，由于假设命中列表之外的任何文档具有零加权，所以我们仅需要频率以用于和的计算。

还应该注意，存在于原始查询中的用语可能不必是第二、扩展的查询的一部分。将查询“java and class”取为示例，并且假设“and”不是停止词。在该情况下，词语“and”可能不与最高的结果强相关，并且因而将不出现在第二查询字符串中。

在分析存在于命中列表的文档中的用语之后，在步骤408中选择最相关的多个用语来构成第二、扩展的查询。例如，可以选择具有某一阈值以上的相关性的最高二十个用语或所有用语。

在步骤410处，从搜索引擎获得针对供应的搜索引擎104的第二查询和第二组搜索结果。

然后可以分析第二组搜索结果以提取文本内容并识别用语，并且然后如在步骤404中如应用于第一搜索结果的文档那样将权值分配给每个文档。相同的准则可以被用来将权值分配给第二搜索结果的文档，这如被用来将加权分配给第一搜索结果的文档那样。因而，包含具有高相关性的查询用语的文档将具有更高的加权。最后，对结果重新排名以便反映根据那些参数被分配给文档的加权。

重新排名后的文档然后可以作为上下文感知搜索的输出而被呈现给客户端终端100的用户。

根据一些实施例，该搜索针对用户被进一步个性化。为了执行个性化搜索，假设***知道用户的身份（例如，通过登录）。对于给定的查询而言，个人详细信息（例如，用户名）被添加为针对查询的附加用语；然后在所供应的搜索引擎中调用查询。添加个性化搜索结果的替代性方法提交两个单独的查询：具有原始用语的一个和要求结果包含用户名的第二个。来自两个查询的结果列表将如以上所描述的那样被连在一起并加权。

遍及本说明书的描述和权利要求，词语“包括”和“包含”以及它们的变形意指“包括但不限于”，并且它们不意在（并且不）排除其他部分、添加物、成分、整体或步骤。遍及本说明书的描述和权利要求，单数形式包含复数形式，除非上下文另有要求。特别地，在使用不定冠词的地方，说明书要被理解为考虑复数形式以及单数形式，除非上下文另有要求。

结合本发明的特定方面、实施例或示例所描述的特征、整体、特性、组成、化学部分或群组要被理解为适用于本文所描述的任何其他方面、实施例或示例，除非与其不兼容。在本说明书（包括任何所附权利要求书、摘要和附图）中所公开的所有特征和/或如此公开的任何方法或过程的所有步骤可以以任何组合来组合，除了其中至少一些此类特征和/或步骤是互斥的组合之外。本发明不限于任何前述实施例的细节。本发明扩展到在本说明书（包括任何所附权利要求书、摘要和附图）中所公开的特征中的任何新颖的一个或任何新颖的组合，或扩展到如此公开的任何方法或过程的步骤中的任何新颖的一个或任何新颖的组合。

读者的注意力针对结合本申请与本说明书同时提交的或在本说明书之前提交的并与本说明书一起公开于公众的所有文章和文档，并且所有此类文章或文档的内容通过引用被并入本文中。

Claims

1.一种从数据集生成搜索结果的方法，所述方法包括：

基于第一查询来获得第一搜索结果，所述搜索结果包括多个文档；

将权值分配给第一搜索结果的一个或多个文档；

至少部分地基于所分配的权值来计算存在于搜索结果的一个或多个文档中的用语的相关性；以及

基于第二查询来获得第二搜索结果，其中第二查询包括具有最高的所计算的相关性的一个或多个用语。

2.如权利要求1所述的方法，其中获得第一和第二搜索结果包括从远程搜索引擎获得第一和第二搜索结果。

3.如权利要求1或权利要求2所述的方法，进一步包括将权值分配给第二搜索结果的一个或多个文档，以及基于所分配的权值来对第二搜索结果进行排名。

4.如前述权利要求中的任一项所述的方法，其中第一搜索查询包括由用户提供的一个或多个搜索查询用语。

5.如前述权利要求中的任一项所述的方法，其中第一搜索查询包括启动所述搜索的用户的个人详细信息。

6.如前述权利要求中的任一项所述的方法，其中将权值分配给搜索结果中的一个或多个文档进一步包括基于以下中的一个或多个来分配权值：存在于文档中的查询的搜索用语的数目；与数据集中的搜索用语的频率相比的存在于文档中的搜索用语的频率；文档中的每个搜索用语的位置；以及文档的作者。

7.如前述权利要求中的任一项所述的方法，进一步包括估计数据集中的多个用语的每个的频率。

8.如权利要求7所述的方法，其中估计数据集中的多个用语的每个的频率包括：

获得数据集的第一部分，所述部分包括多个文档；

确定针对数据集的第一部分中的多个用语的每个的逆文档频率（IDF）；以及

基于针对数据集的第一部分中的每个用语的所确定的IDF来估计针对数据集中的每个用语的逆文档频率。

9.如权利要求8所述的方法，进一步包括：

在预定间隔之后，获得数据集的另一部分，所述另一部分包括多个文档，其包括不存在于数据集的第一部分中的至少一些文档；

确定针对数据集的另一部分中的多个用语的每个的逆文档频率（IDF）；以及

基于先前估计的IDF并基于针对数据集的另一部分中的每个用语的所确定的IDF来估计针对数据集中的每个用语的逆文档频率。

10.如权利要求9所述的方法，进一步包括基于数据集的更新速率来确定预定间隔的长度。

11.如前述权利要求中的任一项所述的方法，进一步包括：识别具有最高的所分配权值的第一搜索结果的部分以生成第一过滤搜索结果，其中所述计算用语的相关性针对所述第一过滤搜索结果的文档而被执行。

12.一种***，包括：

处理器；以及

包括指令的存储器，所述指令被配置成当在处理器上执行时使得所述***：

将权值分配给第一搜索结果的一个或多个文档；

基于第二查询来获得第二搜索结果，其中第二查询包括存在于具有最高的所计算的相关性的一个或多个文档中的一个或多个用语。

13.如权利要求12所述的***，进一步包括网络接口，并且其中所述指令被进一步配置成当在处理器上执行时使得所述***经由网络接口获得第一和第二搜索结果。

14.如权利要求12或权利要求13所述的***，进一步包括网络接口，并且所述指令被进一步配置成当在处理器上执行时使得所述***将权值分配给第二搜索结果的一个或多个文档，并且基于所分配的权值来对第二搜索结果进行排名。

15.一种包括计算机程序代码的计算机程序产品，所述计算机程序代码被适配成当在处理器上执行时执行如权利要求1至11中的任一项所述的步骤。