CN104246760A - 搜索方法 - Google Patents

搜索方法 Download PDF

Info

Publication number
CN104246760A
CN104246760A CN201280072817.9A CN201280072817A CN104246760A CN 104246760 A CN104246760 A CN 104246760A CN 201280072817 A CN201280072817 A CN 201280072817A CN 104246760 A CN104246760 A CN 104246760A
Authority
CN
China
Prior art keywords
search results
search
document
term
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280072817.9A
Other languages
English (en)
Inventor
S.戈兰
O.巴科尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104246760A publication Critical patent/CN104246760A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供从数据集生成搜索结果的方法,该方法包括:基于第一查询来获得第一搜索结果,该搜索结果包括多个文档;将权值分配到第一搜索结果的一个或多个文档;至少部分地基于所分配的权值来计算存在于搜索结果的一个或多个文档中的用语的相关性;以及基于第二查询来获得第二搜索结果,其中第二查询包括具有最高的计算的相关性的一个或多个用语。

Description

搜索方法
背景技术
现代计算机网络促进大量数据的存储和访问。例如,许多网站(在更广阔的世界中)和数据储存(在企业中)包含能够经由通信网络而被访问的大量文本文集。由于以该方式存储的大量数据,通常难以定位与某一主题等相关的特定文档或多个文档。通常,这些站点和数据储存提供搜索工具性程序、或搜索引擎,以允许用户从所存储的文本文集中搜索有用或期望的信息。
然而,所提供的搜索引擎通常具有有限的功能并且所返回的结果可能对用户的需要而言不够。更近地,在提供更有能力的搜索工具方面已经有了进步,例如,其可以包括支持个性化搜索或基于上下文的查询丰富性。
虽然可能期望在现有的搜索引擎中包括此类功能,但这可能不总是实用的。例如,用户可能不具有远程提供的资源之上的控制,或者其可能难以修改传统***来包括新的功能。
附图说明
下文仅通过示例的方式参考附图进一步描述了本发明的实施例,在所述附图中:
图1图示适于实施本发明的实施例的***;
图2图示用于实现本发明的实施例的客户端装置;
图3图示根据实施例的获得关于数据库的统计量的方法;以及
图4图示根据实施例的生成搜索结果的方法。
具体实施方式
本发明的实施例本地地提供用于访问远程存储的信息全集的先进搜索功能。一种本地地实现更先进的搜索引擎的方法是将全集的整个数据库下载到本地服务器或服务器群中,对文档进行索引,以及对全集的本地拷贝运行改进的搜索。该方法要求巨大的存储器资源并且要求对所提供的搜索引擎之后的底层数据库的访问,这可能不总是可用的。当全集常规更新时出现进一步的复杂(这通常是真实世界示例中的情况),原因在于其然后变得必须确保下载的数据库和远程保存的原始拷贝之间的一致性。
图1图示适于实现本发明的实施例的***。该***包括耦合到网络102的客户端装置100。可以由服务器装置(未示出)提供的搜索引擎104也耦合到网络102,并且耦合到数据库或文档的文本全集。先进搜索模块108存在于客户端装置100上,并且其在经由搜索引擎104执行全集106的搜索时提供先进的搜索功能。
搜索引擎提供针对数据库的内容的搜索功能,从而响应于通过网络提供的搜索查询而返回存在于数据库中的一个或多个文档的列表。因而,为了实现全集的标准搜索,用户向客户端装置提交搜索查询,其经由网络102将查询传递给搜索引擎104。搜索引擎104识别与存在于数据库106中的查询相关的一个或多个文档,并且向客户端装置100提供所识别的文档。
对于利用先进搜索功能的搜索而言,先进搜索模块108接收由用户提交的搜索查询,并且经由搜索引擎104访问全集106以生成先进搜索结果,这如将在以下更详细地讨论的。
图2图示能够被用来实现本发明的实施例的客户端装置。客户端装置包括处理器200、存储器204、存储装置202、以及网络接口208。客户端装置100的组件耦合到总线210,以允许组件之间的以及经由网络接口与通信网络102的通信。用于先进搜索功能212的指令被存储在存储器204中,并且当在处理器200上执行时,这些指令使得处理器200提供如以下所描述的先进搜索。
本发明的实施例允许用户在客户端装置100处应用更先进的搜索准则,诸如以虑及个性化搜索或基于上下文的查询丰富性,而不要求搜索引擎104的功能方面的任何改变。特别地,面向全集用户相关搜索引擎(COURSE)可以在客户端装置100处使用标准搜索引擎104来模拟,以访问文本全集106。
为了提供增强的搜索能力,应该在对全集材料做出任何搜索之前获得与文本全集相关的一些统计量。例如,为了理解全集的上下文中的某些搜索用语的相对重要性,应该知道那些用语出现在全集中的频率。通常,这通过分析完整的全集来实现以测量针对用语的频率。然而,下载用于分析的整个全集可能是不实用的,特别是在非常大的远程存储的文集的情况下。
根据本发明的实施例,采样方法被用来获得针对用语出现在全集中的频率统计量。通过下载全集的文档的某一部分,并且分析下载文档,可能的是整体地估计针对用语在全集中的用语频率。例如,全集的文档的百分之一可能足以允许估计针对整个全集的频率统计量。对于每个用语而言,可以基于所下载的文档来估计逆文档频率(IDF)。
图3图示用于估计针对文本全集106的用语频率统计量的方法300。根据所图示的方法,在步骤302中文本全集的一部分被下载到客户端装置100。对于下载的每个文档而言,在步骤304处,文档中的用语针对所有的下载文档的内容被提取和比较,以估计针对该用语的IDF。为了确保所确定的统计量与文本全集在其随时间进行更新时保持一致;步骤302和304以常规的间隔进行重复。在步骤306处,该间隔可以基于对更新全集文档的速率的估计来确定。
如以上概述的,使用采样方法,可能的是任何初始生成的统计量可能不准确地反映全集的内容。然而,当重复步骤302和304时,全集的不同部分可以被视为通向随时间变得更准确的所生成的IDF估计。
图4图示使用标准搜索引擎104来模拟对所访问的文本全集106的COURSE搜索的方法400。根据方法400,在第一步骤402中,基于由用户在客户端装置100处所提供的搜索查询来从搜索引擎104获得第一组搜索结果。
由于客户端装置100不具有如由远程搜索引擎104所应用的搜索用语的加权之上的直接控制,搜索结果的排序可能与期望的不同。更重要地,由于在客户端装置100处仅***分结果,所以由搜索引擎104对搜索结构的排序可能忽略在客户端装置100处被视为重要的一些文档。由于该原因,客户端装置100从搜索引擎104请求比用于实现先进搜索所需的更多的结果。例如,客户端装置100可以请求四百个搜索结果,其中其仅期望使用一百个最相关的。
在方法400的步骤404中,从搜索引擎104接收到的每个文档的文本内容被提取。使用该信息来针对每个文档分配加权,从而考虑以下项中的一个或多个:
a. 在文档中找到的搜索用语的数目;
b. 由运行搜索的人所写的文档可以得到附加的提高;
c. 全集中的搜索用语的(估计)频率;以及
d. 在(例如标题、内容)中找到用语的字段。
接收到的搜索结果然后根据所分配的权值和最高加权部分来分类,例如,最高的一百个加权的文档被取为命中列表。假设不管从搜索引擎104接收到四百个搜索结果文档还是更多的,该命中列表都不动态地改变。换言之,假设最相关的结果也将具有被网站或数据储存所供应的搜索引擎104排名得高的高可能性。
在接下来的步骤406中,查询基于存在于命中列表的文档中的相关的用语而被扩展,即存在于与原始查询的用语具有高相关性的命中列表的文档中的用语被识别以提供对原始搜索查询的上下文感知扩展。下文讨论了识别高相关的用语的方法。
令D为以其加权被排序的所有文档的序列。令di为D中的第i个文档,并且wi是其加权。假设对于命中列表之外的每个文档而言,加权是零(因此,w是所有文档的加权矢量)。对于每个用语tj而言,令δj是矢量或相同的长度,其中δij(δj中的第i个元素)是第j个用语是否出现在第i个文档中的指示符。我们现在计算用语和该组结果之间的加权相关性:
注意,为了计算以上表达式来确定每个术语和该组结果之间的加权相关性,我们仅需要用语tj的频率、命中列表中的文档的加权、以及针对命中列表中的文档的δij。使用根据图3中所图示的方法300而计算的采样统计量来估算频率。此外,由于假设命中列表之外的任何文档具有零加权,所以我们仅需要频率以用于的计算。
还应该注意,存在于原始查询中的用语可能不必是第二、扩展的查询的一部分。将查询“java and class”取为示例,并且假设“and”不是停止词。在该情况下,词语“and”可能不与最高的结果强相关,并且因而将不出现在第二查询字符串中。
在分析存在于命中列表的文档中的用语之后,在步骤408中选择最相关的多个用语来构成第二、扩展的查询。例如,可以选择具有某一阈值以上的相关性的最高二十个用语或所有用语。
在步骤410处,从搜索引擎获得针对供应的搜索引擎104的第二查询和第二组搜索结果。
然后可以分析第二组搜索结果以提取文本内容并识别用语,并且然后如在步骤404中如应用于第一搜索结果的文档那样将权值分配给每个文档。相同的准则可以被用来将权值分配给第二搜索结果的文档,这如被用来将加权分配给第一搜索结果的文档那样。因而,包含具有高相关性的查询用语的文档将具有更高的加权。最后,对结果重新排名以便反映根据那些参数被分配给文档的加权。
重新排名后的文档然后可以作为上下文感知搜索的输出而被呈现给客户端终端100的用户。
根据一些实施例,该搜索针对用户被进一步个性化。为了执行个性化搜索,假设***知道用户的身份(例如,通过登录)。对于给定的查询而言,个人详细信息(例如,用户名)被添加为针对查询的附加用语;然后在所供应的搜索引擎中调用查询。添加个性化搜索结果的替代性方法提交两个单独的查询:具有原始用语的一个和要求结果包含用户名的第二个。来自两个查询的结果列表将如以上所描述的那样被连在一起并加权。
遍及本说明书的描述和权利要求,词语“包括”和“包含”以及它们的变形意指“包括但不限于”,并且它们不意在(并且不)排除其他部分、添加物、成分、整体或步骤。遍及本说明书的描述和权利要求,单数形式包含复数形式,除非上下文另有要求。特别地,在使用不定冠词的地方,说明书要被理解为考虑复数形式以及单数形式,除非上下文另有要求。
结合本发明的特定方面、实施例或示例所描述的特征、整体、特性、组成、化学部分或群组要被理解为适用于本文所描述的任何其他方面、实施例或示例,除非与其不兼容。在本说明书(包括任何所附权利要求书、摘要和附图)中所公开的所有特征和/或如此公开的任何方法或过程的所有步骤可以以任何组合来组合,除了其中至少一些此类特征和/或步骤是互斥的组合之外。本发明不限于任何前述实施例的细节。本发明扩展到在本说明书(包括任何所附权利要求书、摘要和附图)中所公开的特征中的任何新颖的一个或任何新颖的组合,或扩展到如此公开的任何方法或过程的步骤中的任何新颖的一个或任何新颖的组合。
读者的注意力针对结合本申请与本说明书同时提交的或在本说明书之前提交的并与本说明书一起公开于公众的所有文章和文档,并且所有此类文章或文档的内容通过引用被并入本文中。

Claims (15)

1.一种从数据集生成搜索结果的方法,所述方法包括:
基于第一查询来获得第一搜索结果,所述搜索结果包括多个文档;
将权值分配给第一搜索结果的一个或多个文档;
至少部分地基于所分配的权值来计算存在于搜索结果的一个或多个文档中的用语的相关性;以及
基于第二查询来获得第二搜索结果,其中第二查询包括具有最高的所计算的相关性的一个或多个用语。
2.如权利要求1所述的方法,其中获得第一和第二搜索结果包括从远程搜索引擎获得第一和第二搜索结果。
3.如权利要求1或权利要求2所述的方法,进一步包括将权值分配给第二搜索结果的一个或多个文档,以及基于所分配的权值来对第二搜索结果进行排名。
4.如前述权利要求中的任一项所述的方法,其中第一搜索查询包括由用户提供的一个或多个搜索查询用语。
5.如前述权利要求中的任一项所述的方法,其中第一搜索查询包括启动所述搜索的用户的个人详细信息。
6.如前述权利要求中的任一项所述的方法,其中将权值分配给搜索结果中的一个或多个文档进一步包括基于以下中的一个或多个来分配权值:存在于文档中的查询的搜索用语的数目;与数据集中的搜索用语的频率相比的存在于文档中的搜索用语的频率;文档中的每个搜索用语的位置;以及文档的作者。
7.如前述权利要求中的任一项所述的方法,进一步包括估计数据集中的多个用语的每个的频率。
8.如权利要求7所述的方法,其中估计数据集中的多个用语的每个的频率包括:
获得数据集的第一部分,所述部分包括多个文档;
确定针对数据集的第一部分中的多个用语的每个的逆文档频率(IDF);以及
基于针对数据集的第一部分中的每个用语的所确定的IDF来估计针对数据集中的每个用语的逆文档频率。
9.如权利要求8所述的方法,进一步包括:
在预定间隔之后,获得数据集的另一部分,所述另一部分包括多个文档,其包括不存在于数据集的第一部分中的至少一些文档;
确定针对数据集的另一部分中的多个用语的每个的逆文档频率(IDF);以及
基于先前估计的IDF并基于针对数据集的另一部分中的每个用语的所确定的IDF来估计针对数据集中的每个用语的逆文档频率。
10.如权利要求9所述的方法,进一步包括基于数据集的更新速率来确定预定间隔的长度。
11.如前述权利要求中的任一项所述的方法,进一步包括:识别具有最高的所分配权值的第一搜索结果的部分以生成第一过滤搜索结果,其中所述计算用语的相关性针对所述第一过滤搜索结果的文档而被执行。
12.一种***,包括:
处理器;以及
包括指令的存储器,所述指令被配置成当在处理器上执行时使得所述***:
基于第一查询来获得第一搜索结果,所述搜索结果包括多个文档;
将权值分配给第一搜索结果的一个或多个文档;
至少部分地基于所分配的权值来计算存在于搜索结果的一个或多个文档中的用语的相关性;以及
基于第二查询来获得第二搜索结果,其中第二查询包括存在于具有最高的所计算的相关性的一个或多个文档中的一个或多个用语。
13.如权利要求12所述的***,进一步包括网络接口,并且其中所述指令被进一步配置成当在处理器上执行时使得所述***经由网络接口获得第一和第二搜索结果。
14.如权利要求12或权利要求13所述的***,进一步包括网络接口,并且所述指令被进一步配置成当在处理器上执行时使得所述***将权值分配给第二搜索结果的一个或多个文档,并且基于所分配的权值来对第二搜索结果进行排名。
15.一种包括计算机程序代码的计算机程序产品,所述计算机程序代码被适配成当在处理器上执行时执行如权利要求1至11中的任一项所述的步骤。
CN201280072817.9A 2012-07-30 2012-07-30 搜索方法 Pending CN104246760A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/048863 WO2014021824A1 (en) 2012-07-30 2012-07-30 Search method

Publications (1)

Publication Number Publication Date
CN104246760A true CN104246760A (zh) 2014-12-24

Family

ID=50028343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280072817.9A Pending CN104246760A (zh) 2012-07-30 2012-07-30 搜索方法

Country Status (5)

Country Link
US (1) US20150134632A1 (zh)
CN (1) CN104246760A (zh)
DE (1) DE112012006749T5 (zh)
GB (1) GB2518988A (zh)
WO (1) WO2014021824A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156179A (zh) * 2015-04-20 2016-11-23 阿里巴巴集团控股有限公司 一种信息检索方法及装置
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9846740B2 (en) * 2013-09-09 2017-12-19 Mimecast Services Ltd. Associative search systems and methods
US10114861B2 (en) * 2014-01-31 2018-10-30 Dell Products L.P. Expandable ad hoc domain specific query for system management

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US20040098385A1 (en) * 2002-02-26 2004-05-20 Mayfield James C. Method for indentifying term importance to sample text using reference text
US7096217B2 (en) * 2002-10-31 2006-08-22 International Business Machines Corporation Global query correlation attributes
US20060036599A1 (en) * 2004-08-09 2006-02-16 Glaser Howard J Apparatus, system, and method for identifying the content representation value of a set of terms
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
CN101216826B (zh) * 2007-01-05 2011-06-08 鸿富锦精密工业(深圳)有限公司 信息搜索***及方法
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8306974B2 (en) * 2010-11-11 2012-11-06 Sybase, Inc. Ranking database query results using an efficient method for N-ary summation
KR101229401B1 (ko) * 2010-12-23 2013-02-05 전남대학교산학협력단 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156179A (zh) * 2015-04-20 2016-11-23 阿里巴巴集团控股有限公司 一种信息检索方法及装置
CN106156179B (zh) * 2015-04-20 2020-01-07 阿里巴巴集团控股有限公司 一种信息检索方法及装置
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
CN108475266B (zh) * 2015-06-23 2022-05-13 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query

Also Published As

Publication number Publication date
GB2518988A (en) 2015-04-08
GB201418808D0 (en) 2014-12-03
WO2014021824A1 (en) 2014-02-06
DE112012006749T5 (de) 2015-10-01
US20150134632A1 (en) 2015-05-14

Similar Documents

Publication Publication Date Title
US9348924B2 (en) Almost online large scale collaborative filtering based recommendation system
US9535938B2 (en) Efficient and fault-tolerant distributed algorithm for learning latent factor models through matrix factorization
US20130110827A1 (en) Relevance of name and other search queries with social network feature
KR20050095230A (ko) 사용자 방문 유알엘 로그를 이용한 정보 서비스 및 정보검색 서비스 제공 방법 및 시스템
CN104246760A (zh) 搜索方法
CN105760443A (zh) 项目推荐***、项目推荐装置以及项目推荐方法
US20120233096A1 (en) Optimizing an index of web documents
CN105069077A (zh) 搜索方法及装置
CN104915426B (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN103534696A (zh) 针对口语语言理解中的域检测利用查询点击记录
Bayir et al. Smart miner: a new framework for mining large scale web usage data
CN110222894A (zh) 广告投放方法、装置及设备
Kritikopoulos et al. The Compass Filter: Search engine result personalization using Web communities
JP2014146218A (ja) 情報提供装置
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
US20120130967A1 (en) Classification of transactional queries based on identification of forms
Poornalatha et al. Web page prediction by clustering and integrated distance measure
Bhushan et al. Automatic recommendation of web pages for online users using web usage mining
EP2126817A1 (en) Using scenario-related metadata to direct advertising
CN115587197A (zh) 元搜索方法和装置
Khonsha et al. New hybrid web personalization framework
Zubi et al. Using web logs dataset via web mining for user behavior understanding
Joshi et al. A novel approach towards integration of semantic web mining with link analysis to improve the effectiveness of the personalized web
Prasanth et al. Semantic chameleon clustering analysis algorithm with recommendation rules for efficient web usage mining
Patel et al. Pattern classification based on web usage mining using neural network technique

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170122

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, L.P.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224