CN105302898A - 一种基于点击模型的搜索排序方法及装置 - Google Patents

一种基于点击模型的搜索排序方法及装置 Download PDF

Info

Publication number
CN105302898A
CN105302898A CN201510697625.2A CN201510697625A CN105302898A CN 105302898 A CN105302898 A CN 105302898A CN 201510697625 A CN201510697625 A CN 201510697625A CN 105302898 A CN105302898 A CN 105302898A
Authority
CN
China
Prior art keywords
result
score value
sequence
order
result items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510697625.2A
Other languages
English (en)
Other versions
CN105302898B (zh
Inventor
姜国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Che Zhi interconnect (Beijing) Technology Co., Ltd.
Original Assignee
Tianjin Cheshijia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Cheshijia Technology Co Ltd filed Critical Tianjin Cheshijia Technology Co Ltd
Priority to CN201510697625.2A priority Critical patent/CN105302898B/zh
Publication of CN105302898A publication Critical patent/CN105302898A/zh
Application granted granted Critical
Publication of CN105302898B publication Critical patent/CN105302898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于点击模型的搜索排序方法,该方法包括步骤:获取关于查询的第一结果序列,第一结果序列中各结果项具有第一分值,且所有结果项按照第一分值从高到低的顺序排序,第一分值根据至少一个预定特征计算得到;利用点击模型确定第一结果序列中各结果项的第二分值;选取第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,得到第二结果序列。本发明还公开了一种基于点击模型的搜索排序装置。

Description

一种基于点击模型的搜索排序方法及装置
技术领域
本发明涉及搜索引擎,尤其是一种基于点击模型的搜索排序方法及装置。
背景技术
互联网对于经济社会的作用,正在从消减信息不对称,扩展至驱动大数据产生价值。在这个过程中,搜索始终是人们从互联网获取信息和数据的重要手段,因此成为互联网的重要入口。提升搜索引擎的检索相关性,是信息检索领域的一个重要研究方向。近年来,信息检索领域中的点击模型取得了长足发展。所谓点击模型,就是利用用户在使用搜索引擎时的点击数据,计算搜索结果与用户查询相关性的数学模型。它使搜索***在排序结果时,获得了使用以前用户点击信息的能力,从而能让相关性高的结果排得更靠前。
虽然利用点击模型进行点击调权具有很好的相关性查询结果,但点击调权并不适合单独决定搜索中的排序权重。首先,点击率高和相关性好并不完全是一回事;其次,理论上排序的本质是合理使用结果包含的信息量计算其相关性,而点击具有稀疏性的特点,即用户点击过结果的查询只是全部查询的一小部分,且在一个查询中用户点击过的结果只是这个查询结果的一小部分,故其能为计算相关性贡献的信息量是有限的。综上,点击调权应该与搜索引擎已有的其它特征一起使用,即须把它融入到已有的排序框架中。但是,点击调权参与排序,往往导致“正反馈”问题,即被点击调权排到前面的结果,往往会获得更高的点击,从而更容易被排到前面。
因此,如何将点击调权合理的融入已有的排序框架中,而不引起不良影响,是本发明要解决的问题。
发明内容
为此,本发明提供一种基于点击模型的搜索排序方法及装置,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种基于点击模型的搜索排序方法,该方法包括步骤:获取关于查询的第一结果序列,第一结果序列中各结果项具有第一分值,且所有结果项按照第一分值从高到低的顺序排序,第一分值根据至少一个预定特征计算得到;利用点击模型确定第一结果序列中各结果项的第二分值;选取第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,得到第二结果序列。
可选地,在根据本发明的基于点击模型的搜索排序方法中,预定特征包括观看量、发布时间和回帖数量中的一个或多个。
可选地,在根据本发明的基于点击模型的搜索排序方法中,点击模型是串联点击模型。
可选地,在根据本发明的基于点击模型的搜索排序方法中,基于第二分值调整所选取的结果项的顺序的步骤包括:对于第二分值大于阈值的结果项,按照第二分值从高到底的顺序排序;对于第二分值不大于阈值的结果项,保持顺序不变,并排在第二分值大于阈值的所有结果项之后。
可选地,在根据本发明的基于点击模型的搜索排序方法中,阈值为串联点击模型的值域均值。
可选地,在根据本发明的基于点击模型的搜索排序方法中,还包括步骤:将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值。
根据本发明的另一方面,提供了一种基于点击模型的搜索排序装置,该装置包括:获取单元,适于获取关于查询的第一结果序列,其中第一结果序列中各结果项具有第一分值;计算单元,适于根据至少一个预定特征计算得到第一分值、还适于利用点击模型确定所述第一结果序列中各结果项的第二分值;以及排序单元,适于将第一结果序列中所有结果项按照第一分值从高到低的顺序排序、还适于选取第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,以得到第二结果序列。
可选地,在根据本发明的基于点击模型的搜索排序装置中,预定特征包括观看量、发布时间和回帖数量中的一个或多个。
可选地,在根据本发明的基于点击模型的搜索排序装置中,点击模型是串联点击模型。
可选地,在根据本发明的基于点击模型的搜索排序装置中,排序单元还包括判断子单元,适于判断所选取的第二分值不为0的结果项中,第二分值是否大于阈值;排序单元还适于对第二分值大于阈值的结果项,按照第二分值从高到底的顺序排序;以及对于第二分值不大于阈值的结果项,保持顺序不变,并排在第二分值大于阈值的所有结果项之后。
可选地,在根据本发明的基于点击模型的搜索排序装置中,阈值为串联点击模型的值域均值。
可选地,在根据本发明的基于点击模型的搜索排序装置中,排序单元还适于将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值。
根据本发明的另一个方面,提供了一种信息搜索引擎***,包括:信息库,适于存储待投放的信息;如上所述的基于点击模型的搜索排序装置,适于对查询得到的结果序列进行排序;以及信息显示装置,适于按顺序显示查询结果。根据本发明的基于点击模型的搜索排序方案,在旧有排序序列的基础上,结合串联点击模型的模型特点,合理地将点击调权融入到搜索排序的框架中,改变结果项的位置和权值,使得查询结果的最终显示顺序,不仅反映了点击模型对相关性的正面作用,还避免了正反馈缺点。
另外,根据本发明的方案,保持了第二结果序列还是按照旧有排序的性质,使得搜索引擎中基于该性质的诸多操作,例如把这个序列与并行的其他搜索引擎的结果序列合并起来一同再次排序,在使用本方法后仍然有效。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的搜索引擎在其中运行的示例性环境100;
图2示出了根据本发明一个实施例的基于点击模型的搜索排序方法200的流程图;
图3示出了根据本发明一个实施例的点击模型原理图;
图4示出了根据本发明一个实施例的排序方法的示例性原理图;以及
图5示出了根据本发明一个实施例的基于点击模型的搜索排序装置500的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了搜索引擎可在其中运行的示例性环境100。环境100包括由网络130,例如因特网、广域网(WAN)或局域网(LAN)彼此连接的一个或多个客户端110和一个或多个服务器120(通常是“主机”)。网络130提供对诸如万维网(“web”)131的服务的访问。
Web131允许客户端110访问包含在例如由服务器120维护和服务的网页121(例如网页或其他文档)中的基于文本或多媒体内容的文档。通常,这是由在客户端110中执行的web浏览器应用程序114完成。每一个页面121的位置可以通过诸如输入到web浏览器应用程序114中以访问网页121。许多网页可以包括到其他网页121的超链接123。超链接123也可以是URL的形式的。虽然此处描述了关于页面的文档实现,但是应当理解环境100可以包括具有可以被表征的内容和连接性的任何链接数据对象。
本领域的技术人员将会意识到,一般来说,搜索引擎140对应于在一个或多个计算机和/或计算***中托管的在线服务,其中上述一个或多个计算机或计算***是在整个网络130中定位和/或分布的。该搜索引擎140接收并响应客户端110提交的搜索查询。特别地,响应于查询,该搜索引擎140获取与接收的搜索查询(由搜索查询的项定义)有关和/或相关的搜索结果信息,即结果集112。该结果集112包括搜索结果,即对从各种不同的网络位置可得到的有关和/或相关的内容的引用(典型地,以超链接的形式),其中上述网络位置包括诸如在整个网络130中定位的内容托管站点。
如本领域技术人员将会意识到的,内容托管站点托管或存储通过网络130对客户端110用户而言是可用和/或可访问的内容。通过使用抓爬用于内容的网络扫描的过程,搜索引擎140将会知道在整个网络130中定位的多个内容托管站点上托管的内容的至少一部分。一旦定位了内容,该搜索引擎140将会在内容仓库中,相当于信息库142,存储关于托管内容的信息。响应于查询,该搜索引擎140从信息库142中进行提取,返回满足查询的项(例如关键词)的结果集112。
由于搜索引擎140存储上百万的页面,尤其是当查询是松散地指定时,结果集112可以包括许多合格的页面。这些页面可以与用户的实际信息需求有关或无关。因此,向客户端110呈现的结果集112的顺序影响用户关于搜索引擎140的经验。
在一个实现中,排序过程可以作为搜索引擎140中的排序引擎144的一部分来实现,例如,本方案中的搜索排序装置500。在一些实现中,排序过程可以是基于点击日志的,以改进结果集112中页面的排序,这样可以更加精确地标识与特定话题相关的页面113。最后,通过信息显示装置146将结果集112中的页面按改进的排序呈现给用户。
已经发现用户更可能点击排名较高的页面,而不管该页面是否实际上与查询相关。这被称为位置偏差。试图解决位置偏差的一种点击模型是位置点击模型。该模型假设仅当用户实际浏览结果并得出结果与搜索相关的结论时才点击结果。也就是说,当用户浏览结果并认为它相关时,用户仅感知该结果是相关的,而不是确实知道。仅当用户实际点击结果并浏览页面或文档自身时,用户才能够了解结果是否实际相关。
另一种在结果的实际和感知相关性之间区分的一个模型是串联点击模型。对于一次查询,串联点击模型假设用户是按照顺序依次浏览结果,当用户被某个结果所吸引,用户就点击该结果进行查询,并且可以有一个概率结束查询不再浏览。
尽管上述点击模型解决了位置偏差问题,但是用户点击行为不能完全用点击信息量来解释。因此,本方案提出了一种基于点击模型的搜索排序方法,合理地将用户点击行为的信息量融入到搜索排序的框架中。
图2示出了根据本发明一个实施例的基于点击模型的搜索排序方法200的流程图。该方法始于步骤S210,当接收到用户查询时,获取关于用户查询的第一结果序列,并且在该第一结果序列中各结果项都具有第一分值,所有结果项按照第一分值从高到低的顺序排序。根据本发明的实施方式,第一分值是根据至少一个预定特征计算得到的,预定特征包括观看量、发布时间和回帖数量中的一个或多个。也就是说,第一分值是第一结果序列中结果项与用户搜索请求的相关性的度量。
另外,应当了解,第一分值也可以是基于其它衡量搜索结果相关性的特征计算得到,本发明对预定特征不作限制。
随后在步骤S220中,利用点击模型确定步骤S210中第一结果序列中各结果项的第二分值,这里的第二分值,也就是点击反馈特征值。这样,对于第一结果序列中的每个结果项,都具有一个第一分值和一个第二分值。根据本发明的实施方式,点击模型选择串联点击模型。
点击模型使用的点击结果,一般都来自近期搜索结果的前几页,这些结果在前一段时间的排序中能够排在前面,说明它们是当时排序算法认为的最相关结果。图3示出了串联点击模型的原理图,简单来讲,对于一次查询q和结果序列R(r1,r2,…,rn),串联点击模型假设用户是按照r1→r2→…→rn的顺序浏览所有结果的,并可以有一个概率γ结束查询不再浏览。浏览的过程中,如果用户被结果ri吸引,用户就会点击ri,这个行为的概率为ai。如果用户对点开的ri结果满意,用户就不会再浏览,从而结束这次查询,这个行为的概率为si。于是,每个结果的ai和si就构成了序列A(a1,a2,…,an)和S(s1,s2,…,sn),它们和上面提到的用户放弃搜索的概率γ一起,组成了一个概率数学模型,称为串联点击模型。
前文已经提到,串联点击模型可以通过获取用户点击信息的能力,让相关性高的结果排得更靠前,但不适合单独决定搜索中排序的权重。因此,在本发明的搜索排序方案中,要将传统的衡量相关性的特征与点击结果相融合,具体计算排序权重的方法见步骤S230。
随后在步骤S230中,选取第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,得到第二结果序列,向用户呈现查询结果。根据前文所述,由于点击行为具有稀疏性,会有很多结果并没有受到点击行为的影响,在本方法中,将此类没有受到影响的结果项的第二分值赋值为0。
举个例子,如果在当前,步骤S210的排序算法认为有一个结果r应该排在它们之前,一定说明r的一些特征在近期得到了提升,比如观看量增加了、文章特别新、帖子回复数增多等等,使得r具有更高的相关性,需要被排在前面。此时,如果按照点击模型的结果排序,r很有可能被排在点击模型影响的结果之后,这样就抹杀了这个相关性的提升,也就是说,排序产生正反馈,即以前点击过的结果会越来越靠前。所以,需要保留r的排序位置,进而保护其他特征(诸如观看量、发布时间、回帖数量等)对相关性提升的衡量,不会被点击模型所掩盖。故而,在本方法中,只选取点击模型会影响到的结果项,即第二分值不为0的结果项,对它们进行重新排序,而那些第二分值为0的结果项,保持它们在第一结果序列中的位置不变。
之后,对于所选取的结果项的排序,要用到点击模型的值域性质。对于点击模型的值域,一般以其中点为分界,向上为正向分,向下为负向分。正向分表明结果应该从当前位置往前排,负向分表明结果应该从当前位置往后排。在串联点击模型中,一个结果项的正向分越大,则它应该往前排得越多;但对负向分却没有相反的结论。负向分仅表示结果不适合排在当前位置,需要往后移,但后移的程度难以确定。
所以在本方法中,首先选取串联点击模型的值域均值作为阈值,大于值域均值的为正向分部分,剩下的为负向分部分,并且要保证第二分值为正向分的结果项排在负向分结果项之前;然后,对具有正向分的结果项按照第二分值从高到低的顺序排序,此时如果出现第二分值相同的情况,就按照第一分值排序;最后,对所有具有负向分的结果项保持顺序不变,这里的“保持顺序不变”指的是,按步骤S210中第一分值的顺序保持负向分结果项的相对顺序不变,这样就保证负向分的结果项不会因为被压制到很后面而得不到点击,从而再难再被排上来。
至此,就得到了对第一结果序列重新排序后的第二结果序列,这个时候,将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值。也就是说,在第二结果序列中,还是要保持第一分值是按从高到低的顺序呈现的。这样就保持了第二结果序列还是按照第一分值从大到小排序的性质,使得搜索引擎中基于该性质的诸多操作,例如把这个序列与并行的其他搜索引擎的结果序列合并起来一同再次排序,在使用本方法后仍然有效。
为了更加明确对于本方法200的说明,图4示出了根据本发明一个实施例的排序方法的示例性原理图。
其中最左侧的序列代表了根据第一分值排序的第一结果序列,第一结果序列中的每项都是一个包含<结果项序号,第一分值,第二分值>的三元组,并设第一分值和第二分值的值域都为[0,100],那么值域均值为50。从第一结果序列中选取出第二分值不为0的结果项,得到一个<结果项序号,第二分值>的二元组,如<2,11>、<3,99>……然后按上文所述,只改变第二分值大于值域均值50的结果项的顺序,而第二分值不大于50的结果项保持原顺序不变,并且保证第二分值大于50的结果项都排在不大于50的结果项的前面。例如,项2和项6的相对顺序就没有发生变化。最后,按照先后顺序,依次将上述结果项的结果项序号和第二分值放回到第一结果序列中第二分值不为0的结果项对应的位置中,而不变动第二分值为0的结果项的位置,得到右侧的第二结果序列。注意,第一结果序列和第二结果序列对应位置的结果项的第一分值相同,也就是说,它们的第一分值都保持了从高到低的排序。
利用本方法200,在原始排序序列(即第一排序序列)的基础上,结合串联点击模型的模型特点,合理地将点击调权融入到搜索排序的框架中,改变结果项的位置和权值,使得查询结果的最终显示顺序,不仅反映了点击模型对相关性的正面作用,还避免了正反馈缺点。
为检验本方法200的效果,在汽车之家的论坛搜索引擎中应用本方法,以DBN(dynamicbayesiannetwork,动态贝叶斯网络,一种串联型点击模型)为点击模型,计算了应用本方法之后几天的回访率。回访率是指使用过一次一个产品的用户,在一段时间内再来使用它的比例,一般用来衡量用户对该产品的粘性或喜爱程度。简单来说,搜索引擎排序更好,自然会获得更高的回访率;如果点击调权引起正反馈,使用户在前几页看到的始终是那些点击过的结果,回访率会转而下降,故更高的回访率表明正反馈问题更小。回访率的计算公式如下:
设用户在第0天使用了产品,则
第n天的回访率=
|((第1天的用户)∪(第2天的用户)…∪(第n天的用户))∩(第0天的用户)|÷|第0天的用户|
其中,∩是求交,∪是求并,|x|表示x的数量。
使用小流量数据做比较,连续前四天使用/不使用本方法的产品回访率比较如下:
使用本方法 不使用本方法 提升比例
8.4% 6.6% 27.3%
12.1% 9.6% 26.0%
19.1% 14.7% 29.9%
23.0% 17.7% 29.9%
可见,本方法对回访率的提升明显,说明本发明能够在不引起较大问题的前提下,有效提升搜索结果的相关性。
图5示出了根据本发明一个实施例的基于点击模型的搜索排序装置500的示意图。该装置包括:获取单元510、计算单元520、以及排序单元530。其中计算单元520分别与获取单元510和排序单元530相耦接。
获取单元510适于获取关于用户查询的第一结果序列,其中该第一结果序列中各结果项具有第一分值。该第一分值由计算单元520计算得出,计算单元520适于根据至少一个预定特征计算得到第一分值,根据本发明的实施方式,预定特征包括观看量、发布时间和回帖数量中的一个或多个。并且,排序单元530适于将第一结果序列中所有结果项按照第一分值从高到低的顺序排序。
而后,计算单元520还适于利用点击模型确定第一结果序列中各结果项的第二分值。根据本发明的一个实施例,点击模型是串联点击模型。
排序单元530还适于选取所述第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,以得到第二结果序列。具体地,排序单元530还包括适于判断所选取的第二分值不为0的结果项中,第二分值是否大于阈值的判断子单元532。根据本发明的实施方式,该阈值为串联点击模型的值域均值。继而排序单元530还适于对第二分值大于阈值的结果项,按照第二分值从高到底的顺序排序;以及对于第二分值不大于阈值的结果项,保持顺序不变,并排在第二分值大于阈值的所有结果项之后,这里的“保持顺序不变”指的是,按第一分值的顺序保持第二分值不大于阈值的结果项的相对顺序不变,这样做是为了保证负向分的结果项不会因为被压制到很后面而得不到点击,从而再难再被排上来。最后,排序单元530还适于将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值,这样做就保证了第二结果序列中第一分值也是按从大到小的顺序排序,使得搜索引擎中基于该排序性质的诸多操作,例如把这个序列与并行的其他搜索引擎的结果序列合并起来一同再次排序,在使用本方法后仍然有效。
关于排序的具体步骤以及实施例,在基于图4的描述中已经详细公开,此处不再赘述。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
A6、如A5所述的方法,其中还包括:将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值。
B11、如B10所述的装置,其中阈值为串联点击模型的值域均值。B12、如B11所述的装置,其中,排序单元还适于将第二结果序列中位置发生变化的结果项的第一分值,调整为该结果项现有位置对应的第一结果序列中结果项的第一分值。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于点击模型的搜索排序方法,所述方法包括步骤:
获取关于查询的第一结果序列,所述第一结果序列中各结果项具有第一分值,且所有结果项按照第一分值从高到低的顺序排序,所述第一分值根据至少一个预定特征计算得到;
利用点击模型确定所述第一结果序列中各结果项的第二分值;以及
选取所述第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,得到第二结果序列。
2.如权利要求1所述的方法,其中,所述预定特征包括观看量、发布时间和回帖数量中的一个或多个。
3.如权利要求1或2所述的方法,其中,所述点击模型是串联点击模型。
4.如权利要求3所述的方法,其中所述基于第二分值调整所选取的结果项的顺序的步骤包括:
对于第二分值大于阈值的结果项,按照第二分值从高到底的顺序排序;
对于第二分值不大于阈值的结果项,保持顺序不变,并排在第二分值大于阈值的所有结果项之后。
5.如权利要求4所述的方法,其中所述阈值为串联点击模型的值域均值。
6.一种基于点击模型的搜索排序装置,所述装置包括:
获取单元,适于获取关于查询的第一结果序列,其中所述第一结果序列中各结果项具有第一分值;
计算单元,适于根据至少一个预定特征计算得到第一分值、还适于利用点击模型确定所述第一结果序列中各结果项的第二分值;以及
排序单元,适于将所述第一结果序列中所有结果项按照第一分值从高到低的顺序排序、还适于选取所述第一结果序列中第二分值不为0的结果项,基于第二分值调整所选取的结果项的顺序,以得到第二结果序列。
7.如权利要求6所述的装置,其中,所述预定特征包括观看量、发布时间和回帖数量中的一个或多个。
8.如权利要求6或7所述的装置,其中所述点击模型是串联点击模型。
9.如权利要求8所述的装置,其中,
所述排序单元还包括判断子单元,适于判断所选取的第二分值不为0的结果项中,第二分值是否大于阈值;
所述排序单元还适于对第二分值大于阈值的结果项,按照第二分值从高到底的顺序排序;以及对于第二分值不大于阈值的结果项,保持顺序不变,并排在第二分值大于阈值的所有结果项之后。
10.一种信息搜索引擎***,包括:
信息库,适于存储待投放的信息;
如权利要求6-9中任一项所述的基于点击模型的搜索排序装置,适于对查询得到的结果序列进行排序;以及
信息显示装置,适于按顺序显示查询结果。
CN201510697625.2A 2015-10-23 2015-10-23 一种基于点击模型的搜索排序方法及装置 Active CN105302898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697625.2A CN105302898B (zh) 2015-10-23 2015-10-23 一种基于点击模型的搜索排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697625.2A CN105302898B (zh) 2015-10-23 2015-10-23 一种基于点击模型的搜索排序方法及装置

Publications (2)

Publication Number Publication Date
CN105302898A true CN105302898A (zh) 2016-02-03
CN105302898B CN105302898B (zh) 2019-02-19

Family

ID=55200168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697625.2A Active CN105302898B (zh) 2015-10-23 2015-10-23 一种基于点击模型的搜索排序方法及装置

Country Status (1)

Country Link
CN (1) CN105302898B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273112A (zh) * 2017-05-04 2017-10-20 武汉斗鱼网络科技有限公司 一种礼物榜单信息显示方法及装置
CN110598089A (zh) * 2018-05-25 2019-12-20 重庆好德译信息技术有限公司 一种基于环境信息处理的语音助手方法和***
CN110825939A (zh) * 2019-09-19 2020-02-21 五八有限公司 帖子的分数生成、排序方法、装置、电子设备及存储介质
CN111905378A (zh) * 2020-08-19 2020-11-10 上海莉莉丝网络科技有限公司 一种数据更新***、数据更新方法和服务器
CN113254810A (zh) * 2021-06-17 2021-08-13 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019036A1 (en) * 2007-07-10 2009-01-15 Asim Roy Systems and Related Methods of User-Guided Searching
CN101930438A (zh) * 2009-06-19 2010-12-29 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索***
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器
CN103593353A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 信息搜索方法、展示信息排序权重值确定方法及其装置
CN103970796A (zh) * 2013-02-04 2014-08-06 深圳市世纪光速信息技术有限公司 查询偏好排序方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019036A1 (en) * 2007-07-10 2009-01-15 Asim Roy Systems and Related Methods of User-Guided Searching
CN101930438A (zh) * 2009-06-19 2010-12-29 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索***
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器
CN103593353A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 信息搜索方法、展示信息排序权重值确定方法及其装置
CN103970796A (zh) * 2013-02-04 2014-08-06 深圳市世纪光速信息技术有限公司 查询偏好排序方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273112A (zh) * 2017-05-04 2017-10-20 武汉斗鱼网络科技有限公司 一种礼物榜单信息显示方法及装置
CN107273112B (zh) * 2017-05-04 2021-02-02 武汉斗鱼网络科技有限公司 一种礼物榜单信息显示方法及装置
CN110598089A (zh) * 2018-05-25 2019-12-20 重庆好德译信息技术有限公司 一种基于环境信息处理的语音助手方法和***
CN110825939A (zh) * 2019-09-19 2020-02-21 五八有限公司 帖子的分数生成、排序方法、装置、电子设备及存储介质
CN110825939B (zh) * 2019-09-19 2023-10-13 五八有限公司 帖子的分数生成、排序方法、装置、电子设备及存储介质
CN111905378A (zh) * 2020-08-19 2020-11-10 上海莉莉丝网络科技有限公司 一种数据更新***、数据更新方法和服务器
CN111905378B (zh) * 2020-08-19 2024-04-02 上海莉莉丝网络科技有限公司 一种数据更新***、数据更新方法和服务器
CN113254810A (zh) * 2021-06-17 2021-08-13 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质
WO2022262849A1 (zh) * 2021-06-17 2022-12-22 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN105302898B (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
AU2011202345B2 (en) Methods and systems for improving a search ranking using related queries
US8645390B1 (en) Reordering search query results in accordance with search context specific predicted performance functions
US10534781B2 (en) Website traffic optimization
US8515937B1 (en) Automated identification and assessment of keywords capable of driving traffic to particular sites
JP5328896B2 (ja) ソーシャルネットワークを活用したクエリーの絞込みおよび提案
CN105302898A (zh) 一种基于点击模型的搜索排序方法及装置
US8478746B2 (en) Operationalizing search engine optimization
CN101266620B (zh) 向用户提供目标信息的方法及设备
US20130179428A1 (en) Method and system for ranking results and providing lists of experts from social networks
US8195654B1 (en) Prediction of human ratings or rankings of information retrieval quality
US20070168342A1 (en) Recommended alerts
US9691083B2 (en) Opportunity identification and forecasting for search engine optimization
US9020922B2 (en) Search engine optimization at scale
AU2006332534A1 (en) Predicting ad quality
US8423554B2 (en) Content category scoring for nodes in a linked database
CN103309894B (zh) 基于用户属性的搜索实现方法及***
WO2013126598A1 (en) Determining search result rankings based on trust level values associated with sellers
US20140108376A1 (en) Enhanced detection of like resources
US20210191995A1 (en) Generating and implementing keyword clusters
US20090248655A1 (en) Method and Apparatus for Providing Sponsored Search Ads for an Esoteric Web Search Query
WO2016018467A1 (en) Behavior influenced search ranking
Karthikeyan et al. Page rank based design and implementation of search engine optimization
Jagithyala Recommending recipes based on ingredients and user reviews
Najafi et al. A New Hybrid Method for Web Pages Ranking in Search Engines
JP6100677B2 (ja) 情報推薦装置、情報推薦方法、および情報推薦プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180914

Address after: 100089 Beijing Haidian District Haidian District Dan Street 3 B block 11, 1110, 1111 rooms.

Applicant after: Che Zhi interconnect (Beijing) Technology Co., Ltd.

Address before: 300300 Tianjin Binhai New Area Airport International Logistics Area Second Street 1 Enterprise Service Center 311 room.

Applicant before: TIANJIN CHESHIJIA TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant