CN110413763B - 搜索排序器的自动选择 - Google Patents

搜索排序器的自动选择 Download PDF

Info

Publication number
CN110413763B
CN110413763B CN201910341352.6A CN201910341352A CN110413763B CN 110413763 B CN110413763 B CN 110413763B CN 201910341352 A CN201910341352 A CN 201910341352A CN 110413763 B CN110413763 B CN 110413763B
Authority
CN
China
Prior art keywords
search
ranker
queries
query
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910341352.6A
Other languages
English (en)
Other versions
CN110413763A (zh
Inventor
D·考赫恩
S·埃瑞拉
H·瑞特曼
B·维内尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110413763A publication Critical patent/CN110413763A/zh
Application granted granted Critical
Publication of CN110413763B publication Critical patent/CN110413763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及搜索排序器的自动选择。一种用于搜索结果排序器的自动选择的方法,包括:提供一组查询;对于每个所述查询,从搜索引擎接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述查询关联的所述多个相关性分数集合,计算每个所述查询相对于所述一组搜索查询中的所有其他查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。

Description

搜索排序器的自动选择
技术领域
本发明涉及计算机化信息检索(IR)的领域。
背景技术
许多信息检索任务涉及基于每个均在包含许多电子文档的语料库(corpora)中被搜索的多个搜索项来检索文档。
信息检索任务可以表述为:给定文档集或或语料库和搜索查询,从语料库中检索最可能与搜索查询相关的文档的排序列表。
选择正确的检索策略是一项具有挑战性的任务,它取决于文档语料库、搜索查询集和最终用户。许多IR***在响应用户的查询时,在检索性能上存在很大差异。即使对于通常完成良好的***,对于一些查询返回的结果的质量也较差,这会导致用户不满。
于是,在IR领域中,预先估计响应于查询而进行的搜索的有效性的能力是备受关注的。一些方法需要检索后的相关性判断,以训练用于受监督的排序器选择的决策模型。不过,在缺乏相关性判断的情况下,可以使用查询性能预测(QPP)方法来估计搜索质量,从而用于检索策略选择。
现有技术的上述例子及与之相关的限制是例证性的,而不是排他性的。当阅读说明书和研究附图时,对本领域的技术人员来说,现有技术的其他限制将变得明显。
发明内容
结合示例性和说明性的而不是对范围的限制的***、工具和方法,举例说明以下实施例及其各个方面。
按照实施例,提供一种用于搜索结果排序器的计算机化自动选择的方法,所述方法包括操作至少一个硬件处理器以提供一组计算机化搜索查询;对于每个所述搜索查询,从计算机化搜索引擎,接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
按照实施例,还提供一种用于搜索结果排序器的自动选择的计算机程序产品,所述计算机程序产品包括其中包含有程序代码的非临时性计算机可读存储介质,所述程序代码可由至少一个硬件处理器执行,以提供一组计算机化搜索查询;对于每个所述搜索查询,从计算机化搜索引擎,接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
按照实施例,还提供一种***,所述***包含至少一个硬件处理器,和保存有程序指令的非临时计算机可读存储介质,所述程序指令可由所述至少一个硬件处理器执行,以提供一组计算机化搜索查询;对于每个所述搜索查询,从计算机化搜索引擎,接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
在一些实施例中,难度分数和质量分数基于利用查询性能预测(QPP)方法的性能参数的估计。
在一些实施例中,QPP基于平均检索分数估计方法。
在一些实施例中,难度分数与所述性能参数逆向相关。
在一些实施例中,根据所述难度分数在所述一组计算机化搜索查询内的分布,调整质量分数的按照其关联的搜索查询的难度分数的加权。
在一些实施例中,质量分数的计算包括使确定每个所述搜索结果排序器的效用增益的效用函数取最大值。在一些实施例中,效用函数还包括查询敏感估计器和语料库敏感估计器至少之一。
除了上面说明的例证方面和实施例之外,参考附图并研究以下详细说明,更多的方面和实施例将变得明显。
附图说明
附图中图解说明了例证实施例。附图中所示的组件和特性的尺寸通常是为了呈现的方便和清楚而选择的,不一定按比例显示。下面列出各个附图。
图1是按照实施例的排序器选择函数的示意功能图;
图2是按照实施例的可由用于计算机化搜索结果排序器的自动选择的***采用的效用函数的示意图;
图3是按照实施例的用于自动排序器选择的***的示意方框图;
图4是按照实施例的用于排序器的自动选择的方法的流程图;
图5描述表示例证的查询难度分布的两个图表。
具体实施方式
本文中公开的是用于根据查询性能预测方法,自动选择计算机化搜索结果排序器的方法、***和计算机程序产品。
在信息检索(IR)的领域中,术语“排序器”或“排序函数”指的是按照相关性的顺序,从最相关到最不相关对计算机化搜索结果分类(sort)的算法。搜索结果的排序是IR中的基本任务之一。给定用户输入搜索引擎中的查询q和匹配所述查询的文档的集合D,排序问题是按照某种标准对D中的各个文档分类,以致最响应在查询中表示的信息需求的文档最先出现在显示给用户的结果列表中。搜索结果排序通常被表示成每个查询/文档对的数值分数。给定搜索查询和文档的语料库,取决于各个排序器采用的具体算法,不同的排序器会产生不同的基于相关性的结果。于是,搜索引擎有时包括不止一个排序器,其中每个排序器适合于不同的目的。例如,诸如Okapi BM25及其变体之类的一些排序器可利用‘最佳匹配’方法,其中文档是根据关键字频次排序的,而不考虑近似度。其他排序器可能包含短语近似度,其中考虑文档内的关键字位置。而其他排序器可能包含这两种方法和/或其他方法。
因而,在一些实施例中,本发明提供从所提供的排序器池中自动选择最佳排序器,来处理响应于查询的搜索结果。在一些实施例中,在给定一组搜索查询和电子文档的语料库的情况下,根据生成关于哪个排序器将产生最相关的搜索结果的预测,选择最佳排序器。图1是按照例证实施例的排序器选择函数的示意功能框图。给定文档语料库C,查询集合Q和排序器池M,排序器选择函数F评估利用池M中的各个排序器m,对于语料库C提交集合Q中的查询的结果,以自动选择最佳的排序器。
在一些变形例中,利用效用最大化框架进行排序器评估,所述效用最大化框架关于对于语料库C的一组查询Q,评估排序器性能。如图2中示意所示,可以采用效用函数使相关信息的提取最大化,如在每个排序器/查询组合的连接处的‘效用(utility)’标记所提及的那样。效用函数可关于对于文档语料库的集合Q中的各个查询,向池M中的各个排序器赋予分数,其中在整个查询集合Q内合计(aggregate)各个排序器的分数,并按照赋予集合Q中的各个查询的难度参数进行加权。随后选择得分最高的排序器,作为用于空间Q/C的最佳排序器。
在一些实施例中,本发明根据一种或多种查询性能预测方法评估和选择排序器。查询性能预测(QPP)是IR中的核心预测任务,其中性能评价是在缺乏关于结果的相关性判断的情况下进行的。
可以几种方式,在IR领域中应用预测搜索任务中的搜索查询的性能的能力。一个例子是选择性查询扩展:给定查询q及其扩展版本q',应使用哪一个来进行给定搜索?另一个例子是垂直(vertcial)选择:给定查询q和几个要搜索的可能语料库C1,…,Cn,选择最佳垂直来服务查询。在本上下文中,QPP可用于辅助排序器选择:给定查询q和每个都是通过利用一些底层排序器/检索策略Mi获得的一个或多个排序的结果列表D1,…,Dm,哪个排序器给出最佳、最相关的结果?
通过在进行搜索之前估计搜索结果的质量,可以基于预检索(pre-retrieval)地进行QPP。预检索方法可被分成语言方法和统计方法。语言方法应用自然语言处理(NLP)技术,利用外部语言资源来识别例如查询语句中的歧义和多义。统计方法分析查询项在文档集合内的分布。
检索后QPP方法旨在估计给定的检索结果列表D包含响应于查询q所表示的信息需求的信息的可能性。常见的检索后QPP方法基于平均检索分数估计。如上所述,搜索结果排序通常被表示成各个查询/文档对的数值分数,在将搜索结果呈现给用户之前,根据所述数值分数对搜索结果排序。在缺乏基于结果的相关性判断的情况下,检索分数的分析可提供查询性能的估计。具体地,结果的平均检索分数可以用作搜索有效性的度量。平均分数反映检索分数的分布的集中趋势。该趋势越高,观察到的检索分数就越被认为表示实际有效性。例证的增强平均检索分数估计QPP(EMRS-QPP)是由本发明的发明人提出的。参见Roitman,Haggai等;Enhanced Mean Retrieval Score Estimationfor Query PerformancePrediction;ICTIR’17,2017年10月1日,Amsterdam,Netherlands。按照EMRS-QPP,如果r表示相关性事件,目标是估计p(D|q,r),或者在结果列表D中找出查询q的相关信息的可能性。为了估计p(D|q,r),分析D中的文档的检索分数s(d)。具体地,该方法利用概率框架来得出p(D|q,r),而聚焦于平均检索分数E(s|D)。
参见图3,图3是按照实施例的根据查询性能预测用于自动选择排序器的例证***300的示意方框图。***300包括一个或多个硬件处理器301,硬件处理器301被配置成执行保存在例如非临时性计算机可读存储设备304上的处理器指令。排序器选择模块302包含当在硬件处理器301上执行时,确定排序器选择的处理器指令。***300还包括网络接口310和用户接口311。网络接口310被配置成允许接入计算机网络,从而访问网络附接的存储器320,和/或其他服务器330,比如信息检索***、计算机化搜索引擎等。
参见图4,图4是按照实施例的根据查询性能预测用于自动选择排序器的例证方法400的流程图。在402,提供查询集合Q、文档语料库C和搜索结果排序器池M。
在404,在给定Q中的各个查询q的相对难度的情况下,采用效用函数来选择使对于C的排序质量达到最高的排序器:
Figure BDA0002040801210000061
效用函数的详情如下:给定集合Q中的每个查询q的搜索结果的集合D:
Figure BDA0002040801210000062
其中集合D中的每个搜索结果是利用集合M中的不同排序器m检索的,效用函数的目的是使U(r|Q,C)取最大值,它被定义为U(r|q,C),或者通过利用各个排序器服务对于语料库C的查询q而获得的效用,其中p(q|Q)表示Q内的查询q的相对‘重要性’或难度。因而,对于Q中的每个给定查询q,假定从C一致地拉取(draw)M个可能的响应。在对于(Q,C)只能选择一个排序器的约束条件下的最佳排序器m选择那么会是:
Figure BDA0002040801210000071
其中假定
Figure BDA00020408012100000710
在/>
Figure BDA0002040801210000073
上是一致的。于是,假定以下边际效用函数:
Figure BDA0002040801210000074
其中效用被定义为在给定对于语料库C由响应D服务于的查询q的情况下,将获得相关信息的可能性。
在406,根据一种或多种QPP方法,比如上面讨论的EMRS-QPP,关于对于语料库C的集合Q中的每个查询q,评估每个排序器的性能。使对于空间Q/C的排序器的效用达到最大的函数可被定义为:
p(r|q,D,C)+p(r|q,D)·p(r|D,C),
其中
Figure BDA0002040801210000075
或者对于q检索的D包含相关信息的可能性;和
Figure BDA0002040801210000076
或者从语料库C检索的D包含相关信息的可能性。因而,最佳选择策略应按照下述选择最佳的排序器:
Figure BDA0002040801210000077
继续参考图4,在408,在一些实施例中,可以调整效用函数,以考虑在特定文档语料库C可能存在的两种可能偏差:查询敏感偏差和语料库敏感偏差。因而,本发明可包含考虑可能控制文档d’的检索质量的查询相关性质的查询敏感估计器。本发明从而可包含考虑语料库相关性质的语料库敏感估计器。例如根据Okapi-BM25分数,可如下得到查询敏感估计器:
Figure BDA0002040801210000078
Figure BDA0002040801210000079
其中K1=1.2,b=0.7。可如下得到语料库敏感变体:
Figure BDA0002040801210000081
Figure BDA0002040801210000082
其中
Figure BDA0002040801210000083
继续参考图4,在410,估计查询相对难度p(q|Q)。在简单情况下,所有查询都同样重要,即,
Figure BDA0002040801210000084
/>
然而,查询通常具有不同的难度,因而,效用函数可能偏向于将较高的分数赋予与对于容易的查询相比,对于困难的查询表现得更好的排序器。因而,应相对于Q中的查询的查询难度定义p(q|Q),并反映这样的难度分布。对于给定的查询q,难度参数
Figure BDA0002040801210000085
表示基于排序器m响应的检索后查询q性能。应注意的是可以通过任意基于查询的QPP,比如上面讨论的EMRS-QPP方法,估计查询的性能。现在可以利用如下的共识方法,估计Q中的查询q的相对难度:
Figure BDA0002040801210000086
应注意的是Q中的每个查询q应与其性能逆向被加权。换句话说,预测表现较差的查询q应获得更高的权重。另外,如图5中所示,应考虑Q中的查询难度分布,其中高度多样化集合(样例(panel)A)中的查询应比不太多样化集合(样例B)中的查询更有区别。随后按照
Figure BDA0002040801210000087
对Q中的查询进行分类,如下进行
p(qi|Q);1≤i≤|Q|,
的估计:
Figure BDA0002040801210000088
在412,根据按照在上面的410计算的各个查询q的相对难度加权的每个排序器对于查询集合Q的合计得分,选择最佳的排序器。
评估结果
下一节报告对于本发明的自动排序器选择方法进行的评估的结果。利用排序器池,对于(在每个图表的第一行列出的)几个语料库,提交各种查询集合。利用诸如平均精度均值(MAP)、Kendall-Tau相似性(KT corr)、秩偏重叠(RBO)、效用和/或提升度(lift)之类的指标,评估结果在一个例子中,可以使用基于MAP的以下评估指标假定:
Figure BDA0002040801210000091
表示在利用排序器池M中的排序器i而不是排序器j时在MAP方面的相对提升度,并假定排序器j*是MAP最高的排序器,那么排序器i的选择效用为:
Figure BDA0002040801210000092
因为
SU(·,j*)∈[1-m,1],
因此通过加上m-1,并除以m,它可被进一步归一化。预期的随机选择效用为:
Figure BDA0002040801210000093
假定与随机选择相比,选择排序器i,选择效用的提升度从而为:
Figure BDA0002040801210000094
/>
下表1-5列出了利用搜索结果排序器的各种集合,对于本发明的自动排序器选择方法进行的评估的结果。
对于关于最佳匹配(BM,比如OkapiBM25)、语言建模(LM)、词频逆向文档频率(TF-IDF)和偏离随机性(DFR)检索排序器的一般信息,例如参见Roelleke,T.,“InformationRetrieval Models:Foundations and Relationships”,Morgan&Claypool Publishers。对于关于相关性模型(RM)排序器的信息,参见Clinchant,S.等,“A Theoretical Analysisof Pseudo-Relevance Feedback Models”,International Conference on the Theoryof Information Retrieval,2013,Denmark.pp.6,2013。
对于基于信息(IB)的模型,参见Clinchant,S.等,“Information-based modelsfor ad hoc IR”,Proceeding of the 33rdinternational ACM SIGIR conference onResearch and development in information retrieval(SIGIR'10),ACM,New York,NY,USA,234-241。对于数据融合模型(比如combMNZ),参见Shengli Wu,“Data Fusion inInformation Retrieval”,Springer Publishing Company,Incorporated,2012,ISBN:3642288650 9783642288654。
表1表示Lucene相似性结果,利用了以下排序器BM25(1.2,0.7)、LM(Dir[1000])、LM(JM[0.9])、TF-IDF和DFR、IB。
表1
Figure BDA0002040801210000101
表2表示查询扩展结果(重新排序),利用了以下排序器:BM25(1.2,0.7)、LM(Dir[1000])、DFR、IB对RM1(LM[Dir]),RM3(LM[Dir])。
表2
Figure BDA0002040801210000102
Figure BDA0002040801210000111
表3表示查询扩展结果,利用了以下排序器:LM(Dir[1000])对RM1(LM[Dir])。
表3
Figure BDA0002040801210000112
表4表示融合结果,利用了以下排序器:BM25、DFR.、IB、LM(Dir[1000])对CombMNZ(LM,BM25)。
表4
Figure BDA0002040801210000113
Figure BDA0002040801210000121
表5表示排序器方差(噪声)结果,利用了以下排序器:BM25、LM[Dir]、DFR、IB对6种随机重新排序器(基本TF-IDF)。
表5
Figure BDA0002040801210000122
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。相反,计算机可读存储介质是非瞬态(即,非易失性)介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Java,Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明的各个实施例的说明是出于举例说明的目的给出的,并不是详尽的或者局限于公开的实施例。对本领域的普通技术人员来说,许多修改和变化将是明显的,而不脱离说明的实施例的范围和精神。为了最佳地说明实施例的原理,对于市场中存在的技术的实际应用或者技术改进,或者使本领域的其他普通技术人员能够理解本文中公开的实施例,选择了本文中使用的术语。

Claims (10)

1.一种用于搜索结果排序器的计算机化自动选择的方法,所述方法包括:
操作至少一个硬件处理器,以便:
提供一组计算机化搜索查询;
对于每个所述搜索查询,从计算机化搜索引擎接收多个相关性分数集合,其中每个所述相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;
根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;
根据与所述搜索结果排序器关联的所述多个相关性分数集合计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和
根据所述质量分数,选择所述搜索结果排序器之一。
2.按照权利要求1所述的方法,其中所述难度分数和所述质量分数基于利用查询性能预测QPP方法的性能参数的估计。
3.按照权利要求2所述的方法,其中所述QPP基于平均检索分数估计方法。
4.按照权利要求2所述的方法,其中所述难度分数与所述性能参数逆向相关。
5.按照权利要求1所述的方法,其中根据所述难度分数在所述一组计算机化搜索查询内的分布,调整所述加权。
6.按照权利要求1所述的方法,其中所述质量分数的所述计算包括使确定每个所述搜索结果排序器的效用增益的效用函数取最大值。
7.按照权利要求6所述的方法,其中所述效用函数还包括查询敏感估计器和语料库敏感估计器至少之一。
8.一种存储有用于搜索结果排序器的自动选择的程序代码的计算机可读存储介质,所述程序代码可由至少一个硬件处理器执行,以进行按照权利要求1-7任意之一所述的方法。
9.一种***,包括:
至少一个硬件处理器;和
保存有程序指令的非临时性计算机可读存储介质,所述程序指令可由所述至少一个硬件处理器执行,以进行按照权利要求1-7任意之一所述的方法。
10.一种用于搜索结果排序器的计算机化自动选择的***,所述***包括分别用于执行按照权利要求1-7任意之一所述的方法的步骤的模块。
CN201910341352.6A 2018-04-30 2019-04-26 搜索排序器的自动选择 Active CN110413763B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/966,018 2018-04-30
US15/966,018 US11093512B2 (en) 2018-04-30 2018-04-30 Automated selection of search ranker

Publications (2)

Publication Number Publication Date
CN110413763A CN110413763A (zh) 2019-11-05
CN110413763B true CN110413763B (zh) 2023-06-09

Family

ID=68292663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910341352.6A Active CN110413763B (zh) 2018-04-30 2019-04-26 搜索排序器的自动选择

Country Status (2)

Country Link
US (1) US11093512B2 (zh)
CN (1) CN110413763B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765492B (zh) * 2020-12-31 2021-08-10 浙江省方大标准信息有限公司 一种检验检测机构排序方法
CN113035350B (zh) * 2021-03-29 2022-09-27 北京大学深圳研究生院 一种基于知识抽取的医学决策支持方法和***

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US8301482B2 (en) * 2003-08-25 2012-10-30 Tom Reynolds Determining strategies for increasing loyalty of a population to an entity
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7406462B2 (en) * 2004-10-19 2008-07-29 International Business Machines Corporation Prediction of query difficulty for a generic search engine
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060212265A1 (en) * 2005-03-17 2006-09-21 International Business Machines Corporation Method and system for assessing quality of search engines
US7853603B2 (en) * 2007-05-23 2010-12-14 Microsoft Corporation User-defined relevance ranking for search
US8122015B2 (en) 2007-09-21 2012-02-21 Microsoft Corporation Multi-ranker for search
US8332411B2 (en) 2007-10-19 2012-12-11 Microsoft Corporation Boosting a ranker for improved ranking accuracy
US7831595B2 (en) * 2007-12-31 2010-11-09 Yahoo! Inc. Predicting and ranking search query results
US20100121840A1 (en) * 2008-11-12 2010-05-13 Yahoo! Inc. Query difficulty estimation
US9009146B1 (en) * 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US20150169589A1 (en) * 2009-04-29 2015-06-18 Google Inc. Adjusting Result Rankings For Broad Queries
US20100293175A1 (en) * 2009-05-12 2010-11-18 Srinivas Vadrevu Feature normalization and adaptation to build a universal ranking function
US8356047B2 (en) * 2009-10-01 2013-01-15 International Business Machines Corporation Intelligent event-based data mining of unstructured information
US20110270849A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Providing search results in response to a search query
US20120011112A1 (en) * 2010-07-06 2012-01-12 Yahoo! Inc. Ranking specialization for a search
WO2012047541A1 (en) * 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器
US20130031106A1 (en) * 2011-07-29 2013-01-31 Microsoft Corporation Social network powered query suggestions
US9361406B1 (en) * 2013-12-27 2016-06-07 Google Inc. Query completions
RU2608886C2 (ru) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Ранжиратор результатов поиска
US20170031916A1 (en) * 2015-07-31 2017-02-02 Comcast Cable Communications, Llc Methods and systems for searching for content items
US10303794B2 (en) 2015-09-14 2019-05-28 International Business Machines Corporation Query performance prediction
US11120351B2 (en) 2015-09-21 2021-09-14 International Business Machines Corporation Generic term weighting based on query performance prediction
US20170103129A1 (en) * 2015-10-12 2017-04-13 Google Inc. Scoring content within native applications
US10496720B2 (en) * 2016-08-04 2019-12-03 Facebook, Inc. Systems and methods for providing feed preference surveys in a social networking system

Also Published As

Publication number Publication date
US20190332682A1 (en) 2019-10-31
US11093512B2 (en) 2021-08-17
CN110413763A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
JP5247475B2 (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
US9104733B2 (en) Web search ranking
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US10108699B2 (en) Adaptive query suggestion
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US20170091670A1 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
CN105069103B (zh) App搜索引擎利用用户评论的方法及***
US20130282704A1 (en) Search system with query refinement
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
RU2744029C1 (ru) Система и способ формирования обучающего набора для алгоритма машинного обучения
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN109241243B (zh) 候选文档排序方法及装置
WO2014054052A2 (en) Context based co-operative learning system and method for representing thematic relationships
US11874882B2 (en) Extracting key phrase candidates from documents and producing topical authority ranking
US20150169576A1 (en) Dynamic Search Results
Makvana et al. A novel approach to personalize web search through user profiling and query reformulation
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
RU2733481C2 (ru) Способ и система генерирования признака для ранжирования документа
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20220358122A1 (en) Method and system for interactive keyword optimization for opaque search engines
JP4931111B2 (ja) 文書分類装置及びプログラム
CN110413763B (zh) 搜索排序器的自动选择
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
US11341138B2 (en) Method and system for query performance prediction
US20220019902A1 (en) Methods and systems for training a decision-tree based machine learning algorithm (mla)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant