CN109144953B - 搜索文件的排序方法、装置、设备、存储介质及搜索*** - Google Patents

搜索文件的排序方法、装置、设备、存储介质及搜索*** Download PDF

Info

Publication number
CN109144953B
CN109144953B CN201810847629.8A CN201810847629A CN109144953B CN 109144953 B CN109144953 B CN 109144953B CN 201810847629 A CN201810847629 A CN 201810847629A CN 109144953 B CN109144953 B CN 109144953B
Authority
CN
China
Prior art keywords
search
field
authority
file
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810847629.8A
Other languages
English (en)
Other versions
CN109144953A (zh
Inventor
伍佳伽
魏锟亮
陈宏武
卓居超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810847629.8A priority Critical patent/CN109144953B/zh
Publication of CN109144953A publication Critical patent/CN109144953A/zh
Application granted granted Critical
Publication of CN109144953B publication Critical patent/CN109144953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种搜索文件的排序方法、装置、设备、存储介质及搜索***,本申请预先统计了发布对象在各领域的权威度,并确定了搜索请求匹配的搜索领域,进而针对召回的匹配文件确定其发布对象在搜索领域的权威度,该权威度可以表征匹配文件的质量,因此基于该权威度对各匹配文件进行排序,能够达到依据质量高低进行排序的目的。

Description

搜索文件的排序方法、装置、设备、存储介质及搜索***
技术领域
本申请涉及数据搜索技术领域,具体涉及搜索文件的排序方法、装置、设备、存储介质及搜索***。
背景技术
搜索排序是指的,当用户输入关键词进行搜索时,***会根据输入关键词在数据库中匹配召回的相关文件,并根据匹配度对召回文件进行搜索排序,进而展示给用户。可以理解的是,排序靠前的文件其质量越高,越容易命中用户的搜索需求。
对于网页搜索场景,现有技术通常按照网页的PageRank排名对其进行排序,PageRank排名是由搜索引擎根据网页之间相互的超链接计算的网页质量,并根据该网页质量进行的网页排名。而在非网页搜索的其它场景,如微信公众号搜索文章、微博搜索文章、多媒体应用中搜索视频、图片等场景下,由于搜索的文件缺少类似网页内的超链接的信息,因此无法按照现有网页PageRank排名技术进行搜索排序。
有鉴于此,现有技术亟需一种非网页搜索场景下,对搜索文件依据质量高低进行排序的方案。
发明内容
有鉴于此,本申请实施例提供一种排序方法、装置、设备、存储介质及搜索***,能够实现对非网页搜索场景下,搜索文件依据质量高低进行排序的目的。
为实现上述目的,本申请实施例提供如下技术方案:
一方面,本申请提供了一种搜索文件的排序方法,包括:
获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
另一方面,本申请提供了一种搜索文件的排序装置,包括:
文件获取单元,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
搜索领域确定单元,用于确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
搜索领域权威度确定单元,用于参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
排序调整单元,用于根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
另一方面,本申请还提供了一种搜索***,包括:客户端及服务端;
所述客户端,用于接收用户发起的搜索请求,将所述搜索请求转发至所述服务端;
所述服务端,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果,并返回至所述客户端;
所述客户端,还用于按照所述排序结果对各所述匹配文件进行展示。
另一方面,本申请还提供了一种搜索文件的排序设备,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,实现如上所述的搜索文件的排序方法的各个步骤。
另一方面,本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的搜索文件的排序方法的各个步骤。
基于上述技术方案,本申请实施例提供的搜索文件的排序方法,获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;确定与所述搜索请求匹配的搜索领域,该搜索领域为搜索请求发起方所意图搜索的文件所属领域;参考预置的发布对象在各领域的权威度,确定每一匹配文件对应的发布对象在所述搜索领域的权威度;根据每一匹配文件对应的发布对象在所述搜索领域的权威度,对各匹配文件进行排序,得到各匹配文件的排序结果。由此可见,本申请预先统计了发布对象在各领域的权威度,并确定了搜索请求匹配的搜索领域,进而针对召回的匹配文件确定其发布对象在搜索领域的权威度,该权威度可以表征匹配文件的质量,因此基于该权威度对各匹配文件进行排序,能够达到依据质量高低进行排序的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示例了本申请搜索文件排序方法所适用的一种场景的组成结构示意图;
图2为本申请实施例公开的一种搜索文件排序方法信令交互图;
图3为本申请实施例公开的一种搜索文件排序方法的应用示例图;
图4为本申请从服务端角度公开的一种搜索文件排序方法流程图;
图5示例了一种领域分布柱状图;
图6为本申请从服务端角度公开的另一种搜索文件排序方法流程图;
图7示例了一种权威度确定方法的微信搜索应用示例图;
图8为本申请从服务端角度公开的一种搜索文件排序装置结构示意图;
图9示例了排序设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请搜索文件的排序方法所适用的一种场景的组成结构示意图。
在图1的场景中包括:终端100和服务端200。
其中,终端100可以是移动电子设备如手机、IPAD等,也可以是非移动电子设备如电脑等。
终端100上运行有客户端,该客户端为提供有文件搜索功能的客户端,如微信应用、微博应用、知乎应用、多媒体应用、图片应用等等,客户端能够供用户输入搜索请求,并获取该搜索请求对应的排序后的匹配文件,进而展示。其中,匹配文件是指,基于搜索请求搜索得到的与该搜索请求匹配的文件。用户可以对展示的匹配文件进行点击等,浏览匹配文件。
可选的场景如,用户在微信搜一搜场景下搜索文章,或在微博搜文场景下搜索文章,或在多媒体应用搜索视频场景下,搜索注册用户上传的视频信息,或在图片应用搜索图片场景下,搜索注册用户上传的图片信息。
可选的,终端100可以支持客户端实现本地文件搜索和/或文件排序。
如客户端可以响应用户搜索请求在本地搜索匹配的文件。
再比如,客户端可以基于本地搜索得到的匹配文件,或者是服务端回传的匹配文件,对匹配文件进行排序,排序时首先确定搜索请求匹配的搜索领域,进而针对匹配文件确定其发布对象在搜索领域的权威度,基于该权威度对匹配文件进行排序。
进一步可选的,还可以由服务端200实现文件搜索和/或文件排序。
如客户端可以将用户的搜索请求转发给服务端,由服务端搜索匹配文件。
进一步地,服务器可以基于本地搜索的匹配文件或客户端上传的匹配文件,对匹配文件进行排序。排序的规则与前述相同,即首先确定搜索请求匹配的搜索领域,进而针对匹配文件确定其发布对象在搜索领域的权威度,基于该权威度对匹配文件进行排序。
一般性的,对于排序后的匹配文件,其可以通过终端100向用户展示。当然,各匹配文件的排序结果还可以由终端100或服务端200存储,以及向其它模块传递或供外部调用。
服务端200可以是与终端100上运行的客户端相对应的服务器,其可以是搜索服务器、查询服务器或其他专门设置的服务设备。以客户端为微信应用为例,则服务端200可以是微信服务器。
接下来,结合附图2示例的信令交互图,介绍本申请实施例搜索文件的排序方法的一种实现方式,在本实施例的实现方式中,以文件搜索及文件排序过程均在服务端200实现,文件展示在终端100展示为例进行说明,如图2所示,方法包括:
步骤S10、终端接收用户发起的搜索请求。
具体地,终端的客户端界面可以提供搜索界面,用户可以通过搜索界面输入搜索请求。搜索请求一般包括搜索词。
示例如,用户想要在微信搜一搜场景下,搜索“机械键盘”相关的科技测评文章。则可以在微信搜一搜界面提供的搜索输入框中,输入“机械键盘”作为搜索请求。
步骤S11、终端将搜索请求转发至服务端。
步骤S12、服务端获取基于搜索请求所召回的匹配文件,及每一匹配文件对应的发布对象。
具体地,服务端在收到搜索请求之后,可以基于搜索请求所包含的搜索词,在数据库中查找匹配文件,进而召回匹配文件,该匹配文件即为与搜索请求匹配的文件,更具体一点说,可以是与搜索请求包含的搜索词匹配的文件。在此基础上,服务端进一步获取到该匹配文件对应的发布对象。进一步地,服务端还可以获取匹配文件所属的领域。
其中,匹配文件对应的发布对象,即为发布该匹配文件的对象。发布对象可以是账号形式,如微信公众号、微博账号等。
本申请预先统计了各发布对象发布的文件,汇总得到文件所属领域的分类,如得到N种类型的领域。发布的每一文件都标注了所属的领域。如,发布对象在发布一份文件时,需要选定所发布文件的领域归属,或者自行标注所发布文件的领域。除此之外,本申请还可以根据匹配文件的内容,通过文本分析的方式确定其所属的领域。
步骤S13、服务端确定与搜索请求匹配的搜索领域。
其中,搜索领域为搜索请求发起方所意图搜索的文件所属领域。本实施例可以通过多种方式来确定与搜索请求匹配的搜索领域。如根据搜索请求所包含的内容来确定搜索领域,或者根据召回的匹配文件来确定搜索领域,等等。
步骤S14、服务端参考预置的发布对象在各领域的权威度,确定每一匹配文件对应的发布对象在搜索领域的权威度。
本实施例中预先获得了各个发布对象在各个领域的权威度。其中,发布对象i在第j个领域的权威度可以理解为,发布对象i发布的第j个领域的文件被第j个领域内对象普遍认可的程度。该权威度能够表征发布对象i所发布第j个领域的文件的质量,权威度越高,代表质量越高。
示例如,账号为3000286699,名称为“丁香妈妈”的发布对象,其发文涉及三个领域,分别为“育儿”、“健康”、“宠物”。在“育儿”领域内用户对其发布文件的认可程度极高,其权威度得分可以达到1,在“健康”领域内用户对其发布文件的认可程度较高,其权威度得分可以达到0.712043,在“宠物”领域内用户对其发布文件的认可程度一般,其权威度得分可以达到0.357508。在其它领域内,用户对其发布文件的认可程度为零,因此权威度得分为0。
各发布对象在各领域的权威度可以是以列表形式存储,或以其它形式存储。参见下表1示例了一种存储方式:
Figure BDA0001746948350000061
Figure BDA0001746948350000071
表1
基于预先获得的各个发布对象在各领域的权威度,确定每一个匹配文件对应发布对象在搜索领域的权威度。
仍以表1示例为例,假设搜索领域是领域2,匹配文件对应发布对象为账号1,则账号1在领域2的权威度为S12。
步骤S15、服务端根据每一匹配文件对应的发布对象在搜索领域的权威度,对各匹配文件进行排序,得到各匹配文件的排序结果。
具体地,前述步骤S12服务端获取基于搜索请求所召回的匹配文件,其可以是按照匹配程度做了初步排序的,在此基础上,本步骤中根据每一匹配文件对应发布对象在搜索领域的权威度,对各匹配文件进行排序。另一种情况下,步骤S12获取的匹配文件并未按照匹配度进行初步排序,则本步骤的排序过程可以理解为,根据每一匹配文件对应发布对象在搜索领域的权威度,对各匹配文件进行排序。
可以理解的是,匹配文件对应发布对象在搜索领域的权威度越高,表征该匹配文件质量越高,越容易成为用户所意图搜索的文件,因此该匹配文件的排序位置应该越靠前。
步骤S16、服务端将各匹配文件的排序结果返回至终端。
步骤S17、终端按照排序结果对各匹配文件进行展示。
本申请实施例提供的搜索文件的排序方法,服务端中预先存储了各发布对象在各领域的权威度,并确定了搜索请求匹配的搜索领域,进而针对召回的匹配文件确定其发布对象在搜索领域的权威度,该权威度可以表征匹配文件的质量,因此基于该权威度对各匹配文件进行排序,能够达到依据质量高低进行排序的目的,将匹配文件的排序结果返回给终端,终端按此顺序显示匹配文件,用户能够通过靠前显示的文件获得自己所意图搜索的文件,提高了点击转化率,提升了用户搜索体验。
结合图3所示,本申请实施例提供的搜索文件的排序方法的应用示例可以如下:
在进行文档搜索时,用户可在终端(如笔记本电脑、手机等)的搜索界面的搜索框中输入搜索词,用户点击搜索框的搜索按钮,终端可依据用户输入的搜索词生成搜索请求,并将搜索请求提交给服务器。
服务器预先可以存储各对象在各领域的权威度。根据终端发送的搜索请求,在数据库中查找匹配文档,以及匹配文档对应的发布对象。服务器确定与搜索请求匹配的搜索领域,确定每一匹配文档对应的发布对象在搜索领域的权威度。进一步,根据每一匹配文档对应的发布对象在搜索领域的权威度,对各匹配文档进行排序,得到各匹配文档的排序结果。
服务器将排序结果返回给终端,由终端在搜索展示界面上展示各匹配文档,如图3示例的排名前三的匹配文档分别为:文档1、文档2和文档3。
当然,除进行文档搜索的应用外,本申请实施例还可在其他文件搜索场景下应用,具体的应用方式可视实际情况调整。
接下来,本申请实施例从服务端一侧,对本申请的搜索文件的排序方法进行介绍。
如图4所示,该方法可以包括:
步骤S100、获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象。
具体地,服务端可以基于搜索请求,在数据库中查找匹配文件,进而召回匹配文件。在此基础上,服务端进一步获取到该匹配文件对应的发布对象。进一步地,服务端还可以获取匹配文件所属的领域。
其中,匹配文件对应的发布对象,即为发布该匹配文件的对象。发布对象可以是账号形式,如微信公众号、微博账号等。
本申请预先统计了各发布对象发布的文件,汇总得到文件所属领域的分类,如得到N种类型的领域。发布的每一文件都标注了所属的领域。如,发布对象在发布一份文件时,需要选定所发布文件的领域归属,或者自行标注所发布文件的领域。除此之外,本申请还可以根据匹配文件的内容,通过文本分析的方式确定其所属的领域。
步骤S110、确定与所述搜索请求匹配的搜索领域。
其中,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域。
本实施例可以通过多种方式来确定与搜索请求匹配的搜索领域。如根据搜索请求所包含的内容来确定搜索领域,或者根据召回的匹配文件来确定搜索领域,等。
步骤S120、参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度。
本实施例中预先获得了各个发布对象在各个领域的权威度。其中,发布对象i在第j个领域的权威度可以理解为,发布对象i发布的第j个领域的文件被第j个领域内对象普遍认可的程度。该权威度能够表征发布对象i所发布第j个领域的文件的质量,权威度越高,代表质量越高。
基于预先获得的各个发布对象在各领域的权威度,确定每一个匹配文件对应发布对象在搜索领域的权威度。
步骤S130、根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
可以理解的是,匹配文件对应发布对象在搜索领域的权威度越高,表征该匹配文件质量越高,越容易成为用户所意图搜索的文件,因此该匹配文件的排序位置应该越靠前。
具体实现过程,可以按照匹配文件对应的发布对象在搜索领域的权威度,确定匹配文件的排序权重,权威度越高对应的排序权重越大。
进一步,参考各匹配文件的排序权重,并基于排序权重越大对应排序位置越靠前的规则,对各所述匹配文件进行排序调整。
本申请实施例提供的搜索文件的排序方法,服务端中预先存储了各发布对象在各领域的权威度,并确定了搜索请求匹配的搜索领域,进而针对召回的匹配文件确定其发布对象在搜索领域的权威度,该权威度可以表征匹配文件的质量,因此基于该权威度对各匹配文件进行排序,能够达到依据质量高低进行排序的目的。
进一步地,由于本实施例中依据发布对象在搜索领域的权威度,对召回的匹配文件进行排序调整,避免了在搜索领域为当前热点领域时,某些非搜索领域的发布对象蹭热点发布搜索领域的文件,其文件虽然属于搜索领域但是限于发布对象的自身能力,发布的文件质量低下,按照现有技术有可能将其排序靠前,从而影响用户搜索体验的问题。
在本申请的另一个实施例中,对上述步骤S110,确定与所述搜索请求匹配的搜索领域的过程进行介绍。
本实施例介绍了两种实现方式,分别如下:
第一种,基于召回的匹配文件确定搜索领域。详细如下:
1)统计各所述匹配文件所属领域的分布情况。
具体地,每一匹配文件均存在对应所属的领域,可以基于召回的各匹配文件,统计所属领域的分布情况。
参见图5,示例了一种领域分布柱状图。
图5示例的情况下,通过对各匹配文件的领域归属进行统计,发现各匹配文件归属的领域共有三个,分别为:教育、健康、科技。各个领域的分布情况如图5所示,按照分布率有小到大的顺序分别为:健康-教育-科技。
需要说明的是,领域的分布情况还可以通过其它形式体现,图5仅仅示例了通过柱状图进行展示的一种情况。
2)根据所述分布情况,确定分布率最高的领域作为所述搜索请求匹配的搜索领域。
仍以图5示例的情况为例进行说明,分布率最高的领域为科技,因此可以确定搜索请求匹配的搜索领域为科技。
本实施例示例的确定搜索领域的方式,从基于搜索请求所召回的匹配文件的角度入手,通过分析匹配文件归属领域的分布情况,选取分布率最高的领域作为搜索领域。
接下来,介绍另一种确定搜索领域的方式。
第二种,基于搜索请求来确定搜索领域。详细如下:
1)基于搜索请求确定匹配的搜索意图。
具体地,搜索意图表明了用户通过该搜索请求所意图搜索的完整信息。该完整信息不仅仅包含了意图搜索的对象,还包括该对象的其它属性,如商品属性、科技属性等。
示例如,用户搜索请求包括搜索词“机械键盘”。用户真实的搜索意图是“想要查阅有关机械键盘的科技测评文章”。而单纯的搜索词“机械键盘”还可以对应其它搜索意图,如“机械键盘的售价”等。
本步骤中,基于搜索请求确定匹配的搜索意图,该匹配的搜索意图为搜索请求发起方所真实要表达的搜索意图。
具体实现过程中,还可以结合搜索请求发起方的个人画像数据,来准确的确定其搜索意图。
2)确定所述搜索意图对应的领域,作为所述搜索请求匹配的搜索领域。
具体地,不同的搜索意图可能对应不同的领域,本步骤中确定搜索意图对应的领域,作为搜索请求匹配的搜索领域。
具体实现过程,可以预先构建不同关键词与领域的对应关系,进而根据搜索意图包含的关键词,来确定对应的领域作为搜索意图对应的领域。示例如,关键词“科技测评”对应的领域为“科技”,关键词“身体”、“药品”对应的领域为“健康”,等。
本实施例示例的确定搜索领域的方式,从搜索请求的角度入手,通过分析搜索请求,确定匹配的搜索意图,进而根据搜索意图确定对应的领域,作为搜索领域。
在本申请的另一个实施例中,对本申请的搜索文件的排序方法进一步说明。结合图6所示,排序方法可以包括:
步骤S200、获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象。
步骤S210、确定与所述搜索请求匹配的搜索领域。
具体地,本实施例中步骤S200-S210与前述实施例中的步骤S100-S110一一对应,详细参见前述介绍,此处不再赘述。
步骤S220、根据各所述匹配文件所属的领域,与所述搜索领域的领域相似度,确定各所述匹配文件的初步排序。
具体地,每一匹配文件均存在所属的领域,本步骤中可以按照匹配文件所属领域,与搜索领域的领域相似度由高至低的顺序,对各所述匹配文件进行初步排序。
可以理解的是,匹配文件所属领域与搜索领域的领域相似度越高,对应匹配文件的初步排序越靠前。
可选的,不同领域之间的相似度可以预先标注,如通过文本相似度算法计算或人工标定。基于此,可以确定每一匹配文件所属领域与搜索领域间的相似度,进而按照相似度对各匹配文件进行初步排序。
可选的,步骤S220和步骤S230之间并无严格的顺序限制,二者可以任意先后或同步执行。
步骤S230、参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度。
步骤S240、根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序调整,得到各所述匹配文件的排序结果。
具体地,前述步骤S220中已经确定各所述匹配文件的初步排序,本步骤中,进一步根据匹配文件对应发布对象在搜索领域的权威度,对匹配文件的初步排序结果进行排序调整,其中权威度大的其排序位置可以向前调整,权威度小的排序位置可以后移,调整后得到匹配文件的排序结果。
本实施例提供的搜索文件的排序方法,在依据匹配文件所属领域与搜索领域相似度进行初步排序的基础上,进一步结合匹配文件对应的发布对象在搜索领域的权威度,对各匹配文件进行排序调整,使得排序结果更加合理。
在本申请的又一个实施例中,介绍发布对象在各领域的权威度的确定过程。
权威度的统计可以按照设定周期进行,如每隔一个统计时间段,根据该统计时间段内的搜索日志来确定发布对象在各领域的权威度。其中,统计时间段可以是一天、一个月或其他时长。
本申请实施例可以根据用户的点击特征来确定初始权威度,具体可以包括:
1)确定统计时间段内,被点击文件对应的N个目标发布对象。
具体地,根据搜索日志,可以确定在统计时间段内,被用户点击过的文件,进而确定这些被点击文件对应的目标发布对象,定义确定的目标发布对象有N个。
2)根据第i个目标发布对象发布的文件,被第j个领域的搜索请求所召回且被点击的次数,确定第i个目标发布对象在第j个领域的初始权威度。
这里,定义i取值[1,N],j取值[1,M],M为领域总个数。
针对第i个目标发布对象,其在第j个领域的初始权威度在确定时,可以结合第i个目标发布对象发布的文件,被第j个领域的搜索请求所召回且被点击的次数。
对应的初始权威度计算方式可以如下:
Scoreij=∑log(Xij)公式1
其中,Scoreij表示第i个目标发布对象在第j个领域的初始权威度得分。Xij表示第i个目标发布对象发布的文件,被第j个领域的搜索请求所召回且被点击的次数,其中第j个领域的搜索请求可以理解为属于第j个领域的搜索意图对应的搜索请求。
进一步地,考虑到前述1)中被点击文件可能并非基于强搜索意图对应搜索请求所召回的,这类的点击数量会对权威度确定结果带来负面影响,因此前述1)可以按照如下方式实现:
确定统计时间段内,被强搜索意图对应搜索请求所召回且被点击的文件对应的N个目标发布对象。
其中,所述强搜索意图为搜索意图得分超过预设意图得分的搜索意图。
在此基础上,上述2)可以按照如下方式实现:
根据第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,以及所述强搜索意图的得分,确定第i个目标发布对象在第j个领域的初始权威度。
对应的初始权威度计算方式可以如下:
Scoreij=∑(log(Xij)*Qj) 公式2
其中,Scoreij表示第i个目标发布对象在第j个领域的初始权威度得分。Xij表示第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,Qj表示第j个领域的强搜索意图的得分。公式∑加和的对象是每个j领域的强搜索意图。
进一步地,在上述示例的计算初始权威度的基础上,还可以增加依据热门搜索意图对应用户的点击特征来对初始权威度进行误差调整的过程。
其中,热门搜索意图是指根据上一统计时间段内统计的热度最高的topY个搜索意图。
具体地的调整过程可以包括:
结合以下示例的项目中的一个或多个,确定第i个目标发布对象在第j个领域的第一权威度调整值,其中项目可以包括:
第i个目标发布对象发布的文件,被第j个领域的热门搜索意图对应搜索请求所召回且被点击的次数、该次数(具体指,前述被第j个领域的热门搜索意图对应搜索请求所召回且被点击的次数)与第i个目标发布对象发布的文件被点击总次数的比值、所述热门搜索意图的得分。
具体地,可以按照上述公式1或公式2的方式,来确定第一权威度调整值,只需要将上述公式中的Xij表示为第i个目标发布对象发布的文件,被第j个领域的热门搜索意图对应搜索请求所召回且被点击的次数,或该次数与第i个目标发布对象发布的文件被点击总次数的比值,以及将Qj表示为第j个领域的热门搜索意图的得分。
在确定了第一权威度调整值之后,可以将第i个目标发布对象在第j个领域的初始权威度及第一权威度调整值加和,得到调整后的第i个目标发布对象在第j个领域的初始权威度。
再进一步地,在上述实施例的基础上,还可以增加依据发布对象的历史发文信息,来对初始权威度或调整后的初始权威度进行再次调整的过程。
首先,介绍从发文相似度角度确定初始权威度调整的过程,具体可以包括:
1)确定统计时间段内,第i个目标发布对象发布的文件,与第j个领域内初始权威度最高的设定数量(如topL)个发布对象发布的文件的相似度,作为第i个目标发布对象与第j个领域的相似度。
具体地,可以通过doc2vec模型将文件向量化,进而计算向量化后的文件间的相似度。
参见下表2,以微信公众号中的搜一搜场景为例,其示出了鸡汤领域内,初始权威度最高的若干个公众号的初始权威度得分。
Figure BDA0001746948350000141
Figure BDA0001746948350000151
表2
2)根据第i个目标发布对象与第j个领域的相似度,确定第i个目标发布对象在第j个领域的第二权威度调整值。
可以理解的是,第i个目标发布对象与第j个领域的相似度越高,表示第i个目标发布对象发布的第j个领域的文件的质量越高,对应的第i个目标发布对象在第j个领域的权威度应该越高,因此第二权威度调整值属于正数,且随相似度增大而增大。
3)将第i个目标发布对象在第j个领域的初始权威度及第二权威度调整值加和,得到调整后的权威度。
进一步,介绍从发文类别复杂度角度,确定初始权威度调整的过程,具体可以包括:
1)根据统计时间段内,第i个目标发布对象发布文件所属领域的种类复杂度,确定第i个目标发布对象在各个领域的第三权威度调整值。
可以理解的是,发布文件所属领域的种类复杂度越高,代表第i个目标发布对象发文越杂乱,领域也不够专一,因此需要对第i个目标发布对象在各个领域的权威度均进行惩罚,可以设置第三权威度为一个较小的值,如设置为负数。
2)将第i个目标发布对象在各个领域的初始权威度及第三权威度调整值加和,得到调整后的权威度。
再进一步,介绍从发文领域占比及发文影响力角度,确定初始权威度调整的过程,具体可以包括:
结合以下示例的项目中的一个或多个,确定第i个目标发布对象在第j个领域的第四权威度调整值,其中项目可以包括:
统计时间段内,第i个目标发布对象发布的文件中属于第j个领域的文件数占第i个目标发布对象发布总文件数的比值、第i个目标发布对象发布的文件中属于第j个领域且被点击数量超过预设数量阈值的文件数占第i个目标发布对象发布总文件数的比值、第i个目标发布对象发布的属于第j个领域的文件的影响力。
可以理解的是,属于第j个领域的文件数占第i个目标发布对象发布总文件数的比值越大,则第i个目标发布对象在第j个领域的第四权威度调整值越大。
其中,属于第j个领域且被点击数量超过预设数量阈值的文件可以理解为第j个领域的高点击量文件。可以理解的是,该高点击量文件数占第i个目标发布对象发布总文件数的比值越大,则第i个目标发布对象在第j个领域的第四权威度调整值越大。
其中,第i个目标发布对象发布的属于第j个领域的文件的影响力,可以通过点击数量、转发数量、点赞数量、评论数量等参量来确定。可以理解的是,第i个目标发布对象发布的属于第j个领域的文件的影响力越大,则第i个目标发布对象在第j个领域的第四权威度调整值越大。
基于上述确定的第i个目标发布对象在第j个领域的第四权威度调整值,可以将其与第i个目标发布对象在第j个领域的初始权威度值加和,得到调整后的权威度。
更进一步地,在上述实施例的基础上,还可以增加依据发布对象的静态质量及好友关系,来对初始权威度或调整后的初始权威度进行再次调整的过程。
具体实现过程可以包括:
1)根据第i个目标发布对象的静态质量及与其他发布对象的好友关系,确定第i个目标发布对象在各个领域的第五权威度调整值。
其中,第i个目标发布对象的静态质量可以根据其填写资料完善程度、发文数量、转发及被点赞数量、注册时长、日均发文数量、最大连续发文数量等参量来确定。
第i个目标发布对象与其他发布对象的好友关系可以是,第i个目标发布对象的粉丝数量,该数值与第五权威度调整值成正比。
2)将第i个目标发布对象在各个领域的初始权威度及第五权威度调整值加和,得到调整后的权威度。
综上所述,本申请实施例公开了第i个目标发布对象在第j个领域的初始权威度值的确定过程,以及第一至第五权威度调整值的确定过程,本申请可以将初始权威度值与第一至第五权威度调整值中的任意一项或多项加和,得到最终调整后的权威度值。
图7以公众号搜一搜场景为例,示出了权威度综合打分的整体方案。综上内容可知,可以划分为三个方向,即:基于用户点击特征确定公众号初始权威度、基于公众号历史发文信息确定权威度调整值、基于公众号质量特征确定权威度调整值。
其中,基于用户点击特征确定公众号初始权威度的过程,又可以划分为:基于公众号发文被任一领域请求召回且点击次数,确定初始权威度;以及,基于强搜索意图点击数对初始权威度误差调整。
其中,基于公众号历史发文信息确定权威度调整值的过程,可以划分为:基于公众号历史发文与头部公众号发文相似度确定权威度调整值、基于公众号历史发文分光镜结果确定权威度调整值。其中,历史发文分光镜结果可以包括:发文类别复杂度、任一领域发文占比、任一领域发布的高阅读文章占比、任一领域发布文章的影响力。
其中,基于公众号质量特征确定权威度调整值的过程可以包括:公众号静态质量及公众号粉丝数量。
参见表3,以微信公众号中的搜一搜场景为例,其示出了部分公众号不同领域权威度值。
Figure BDA0001746948350000171
表3
以公众号“马蜂窝自由行”为例,根据上表3可知,其在“Travel”领域的权威度值为0.834340,在“Food”领域的权威度值为0.201668,在“App”的权威度值为0.21520。
需要说明的是,上表3中,针对任意一个公众号,如果没有标注其在某一领域的权威度值,则说明在该领域的权威度值为0。
下面对本申请实施例提供的搜索文件的排序装置进行介绍,下文描述的搜索文件的排序装置可认为是,服务端为实现本申请实施例提供的搜索文件的排序装置,所需设置的程序模块。下文描述的搜索文件的排序装置内容,可与上文描述的搜索文件的排序方法内容相互对应参照。
图8为本申请实施例提供的搜索文件的排序装置的结构框图,该装置可应用于服务端,参照图8,该搜索文件的排序装置可以包括:
文件获取单元11,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
搜索领域确定单元12,用于确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
搜索领域权威度确定单元13,用于参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
排序单元14,用于根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
可选的,本申请实施例示例了两种可选的搜索领域确定单元得结构,分别如下:
第一种搜索领域确定单元可以包括:
分布情况统计单元,用于统计各所述匹配文件所属领域的分布情况;
分布率确定单元,用于根据所述分布情况,确定分布率最高的领域作为所述搜索请求匹配的搜索领域。
第二种搜索领域确定单元可以包括:
搜索意图确定单元,用于基于所述搜索请求确定匹配的搜索意图;
意图领域对应单元,用于确定所述搜索意图对应的领域,作为所述搜索请求匹配的搜索领域。
可选的,本申请的装置还可以包括:
初步排序单元,用于在对各所述匹配文件进行排序调整之前,根据各所述匹配文件所属的领域,与所述搜索领域的领域相似度,确定各所述匹配文件的初步排序。
可选的,所述初步排序单元可以包括:
相似度排序单元,用于按照各所述匹配文件所属的领域,与所述搜索领域的领域相似度由高至低的顺序,对各所述匹配文件进行初步排序。
可选的,所述排序调整单元可以包括:
排序权重确定单元,用于按照所述匹配文件对应的发布对象在所述搜索领域的权威度,确定所述匹配文件的排序权重,权威度越高对应的排序权重越大;
排序权重使用单元,用于参考各所述匹配文件的排序权重,并基于排序权重越大对应排序位置越靠前的规则,对各所述匹配文件进行排序调整。
可选的,本申请的装置还可以包括:权威度确定单元,用于确定各发布对象在各领域的权威度,权威度确定单元可以包括:
目标发布对象确定单元,用于确定统计时间段内,被点击文件对应的N个目标发布对象;
初始权威度确定单元,用于根据第i个目标发布对象发布的文件,被第j个领域的搜索请求所召回且被点击的次数,确定第i个目标发布对象在第j个领域的初始权威度,其中i取值[1,N],j取值[1,M],M为领域总个数。
可选的,所述目标发布对象确定单元可以包括:
第一目标发布对象确定子单元,用于确定统计时间段内,被强搜索意图对应搜索请求所召回且被点击的文件对应的N个目标发布对象;所述强搜索意图为搜索意图得分超过预设意图得分的搜索意图;
对应的,初始权威度确定单元可以包括:
第一初始权威度确定子单元,用于根据第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,以及所述强搜索意图的得分,确定第i个目标发布对象在第j个领域的初始权威度。
可选的,权威度确定单元还可以包括:
第一调整单元,用于根据第i个目标发布对象发布的文件,被第j个领域的热门搜索意图对应搜索请求所召回且被点击的次数、该次数与第i个目标发布对象发布的文件被点击总次数的比值,和/或所述热门搜索意图的得分,确定第i个目标发布对象在第j个领域的第一权威度调整值;将第i个目标发布对象在第j个领域的初始权威度及第一权威度调整值加和,得到调整后的权威度。
可选的,权威度确定单元还可以包括:
第二调整单元,用于确定统计时间段内,第i个目标发布对象发布的文件,与第j个领域内初始权威度最高的设定数量个发布对象发布的文件的相似度,作为第i个目标发布对象与第j个领域的相似度;根据第i个目标发布对象与第j个领域的相似度,确定第i个目标发布对象在第j个领域的第二权威度调整值;将第i个目标发布对象在第j个领域的初始权威度及第二权威度调整值加和,得到调整后的权威度。
可选的,权威度确定单元还可以包括:
第三调整单元,用于根据统计时间段内,第i个目标发布对象发布文件所属领域的种类复杂度,确定第i个目标发布对象在各个领域的第三权威度调整值;种类复杂度越高,第三权威度调整值越小;将第i个目标发布对象在各个领域的初始权威度及第三权威度调整值加和,得到调整后的权威度。
可选的,权威度确定单元还可以包括:
第四调整单元,用于根据统计时间段内,第i个目标发布对象发布的文件中属于第j个领域的文件数占第i个目标发布对象发布总文件数的比值、第i个目标发布对象发布的文件中属于第j个领域且被点击数量超过预设数量阈值的文件数占第i个目标发布对象发布总文件数的比值,和/或,第i个目标发布对象发布的属于第j个领域的文件的影响力,确定第i个目标发布对象在第j个领域的第四权威度调整值;将第i个目标发布对象在第j个领域的初始权威度及第四权威度调整值加和,得到调整后的权威度。
可选的,权威度确定单元还可以包括:
第五调整单元,用于根据第i个目标发布对象的静态质量及与其他发布对象的好友关系,确定第i个目标发布对象在各个领域的第五权威度调整值;将第i个目标发布对象在各个领域的初始权威度及第五权威度调整值加和,得到调整后的权威度。
本申请实施例提供的搜索文件的排序装置可应用于搜索文件的排序设备,如服务器等;可选的,图9示出了排序设备的硬件结构框图,参照图9,排序设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供了一种搜索***,包括:客户端及服务端;
所述客户端,用于接收用户发起的搜索请求,将所述搜索请求转发至所述服务端;
所述服务端,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件所属的领域以及对应的发布对象;确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序调整,得到各所述匹配文件的排序结果,并返回至所述客户端;
所述客户端,还用于按照所述排序结果对各所述匹配文件进行展示。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种搜索文件的排序方法,其特征在于,包括:
获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果;
所述发布对象在各领域的权威度的确定过程,包括:
确定统计时间段内,被强搜索意图对应搜索请求所召回且被点击的文件对应的N个目标发布对象;所述强搜索意图为搜索意图得分超过预设意图得分的搜索意图;
根据第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,以及所述强搜索意图的得分,确定第i个目标发布对象在第j个领域的初始权威度,其中i取值[1,N],j取值[1,M],M为领域总个数。
2.根据权利要求1所述的排序方法,其特征在于,所述确定与所述搜索请求匹配的搜索领域,包括:
统计各所述匹配文件所属领域的分布情况;
根据所述分布情况,确定分布率最高的领域作为所述搜索请求匹配的搜索领域。
3.根据权利要求1所述的排序方法,其特征在于,所述确定与所述搜索请求匹配的搜索领域,包括:
基于所述搜索请求确定匹配的搜索意图;
确定所述搜索意图对应的领域,作为所述搜索请求匹配的搜索领域。
4.根据权利要求1所述的排序方法,其特征在于,在所述对各所述匹配文件进行排序之前,该方法还包括:
根据各所述匹配文件所属的领域,与所述搜索领域的领域相似度,确定各所述匹配文件的初步排序。
5.根据权利要求1所述的排序方法,其特征在于,所述根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,包括:
按照所述匹配文件对应的发布对象在所述搜索领域的权威度,确定所述匹配文件的排序权重,权威度越高对应的排序权重越大;
参考各所述匹配文件的排序权重,并基于排序权重越大对应排序位置越靠前的规则,对各所述匹配文件进行排序。
6.根据权利要求1所述的排序方法,其特征在于,还包括:
根据第i个目标发布对象发布的文件,被第j个领域的热门搜索意图对应搜索请求所召回且被点击的次数、该次数与第i个目标发布对象发布的文件被点击总次数的比值,和/或所述热门搜索意图的得分,确定第i个目标发布对象在第j个领域的第一权威度调整值;
将第i个目标发布对象在第j个领域的初始权威度及第一权威度调整值加和,得到调整后的权威度。
7.根据权利要求1所述的排序方法,其特征在于,还包括:
确定统计时间段内,第i个目标发布对象发布的文件,与第j个领域内初始权威度最高的设定数量个发布对象发布的文件的相似度,作为第i个目标发布对象与第j个领域的相似度;
根据第i个目标发布对象与第j个领域的相似度,确定第i个目标发布对象在第j个领域的第二权威度调整值;
将第i个目标发布对象在第j个领域的初始权威度及第二权威度调整值加和,得到调整后的权威度。
8.根据权利要求1所述的排序方法,其特征在于,还包括:
根据统计时间段内,第i个目标发布对象发布文件所属领域的种类复杂度,确定第i个目标发布对象在各个领域的第三权威度调整值;种类复杂度越高,第三权威度调整值越小;
将第i个目标发布对象在各个领域的初始权威度及第三权威度调整值加和,得到调整后的权威度。
9.根据权利要求1所述的排序方法,其特征在于,还包括:
根据统计时间段内,第i个目标发布对象发布的文件中属于第j个领域的文件数占第i个目标发布对象发布总文件数的比值、第i个目标发布对象发布的文件中属于第j个领域且被点击数量超过预设数量阈值的文件数占第i个目标发布对象发布总文件数的比值,和/或,第i个目标发布对象发布的属于第j个领域的文件的影响力,确定第i个目标发布对象在第j个领域的第四权威度调整值;
将第i个目标发布对象在第j个领域的初始权威度及第四权威度调整值加和,得到调整后的权威度。
10.根据权利要求1所述的排序方法,其特征在于,还包括:
根据第i个目标发布对象的静态质量及与其他发布对象的好友关系,确定第i个目标发布对象在各个领域的第五权威度调整值;
将第i个目标发布对象在各个领域的初始权威度及第五权威度调整值加和,得到调整后的权威度。
11.一种搜索文件的排序装置,其特征在于,包括:
文件获取单元,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;
搜索领域确定单元,用于确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;
搜索领域权威度确定单元,用于参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;
排序单元,用于根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果;
所述发布对象在各领域的权威度的确定过程,包括:
确定统计时间段内,被强搜索意图对应搜索请求所召回且被点击的文件对应的N个目标发布对象;所述强搜索意图为搜索意图得分超过预设意图得分的搜索意图;
根据第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,以及所述强搜索意图的得分,确定第i个目标发布对象在第j个领域的初始权威度,其中i取值[1,N],j取值[1,M],M为领域总个数。
12.一种搜索***,其特征在于,包括:客户端及服务端;
所述客户端,用于接收用户发起的搜索请求,将所述搜索请求转发至所述服务端;
所述服务端,用于获取基于搜索请求所召回的匹配文件,及每一所述匹配文件对应的发布对象;确定与所述搜索请求匹配的搜索领域,所述搜索领域为所述搜索请求发起方所意图搜索的文件所属领域;参考预置的发布对象在各领域的权威度,确定每一所述匹配文件对应的发布对象在所述搜索领域的权威度;根据每一所述匹配文件对应的发布对象在所述搜索领域的权威度,对各所述匹配文件进行排序,得到各所述匹配文件的排序结果,并返回至所述客户端;
所述客户端,还用于按照所述排序结果对各所述匹配文件进行展示;
所述发布对象在各领域的权威度的确定过程,包括:
确定统计时间段内,被强搜索意图对应搜索请求所召回且被点击的文件对应的N个目标发布对象;所述强搜索意图为搜索意图得分超过预设意图得分的搜索意图;
根据第i个目标发布对象发布的文件,被第j个领域的强搜索意图对应搜索请求所召回且被点击的次数,以及所述强搜索意图的得分,确定第i个目标发布对象在第j个领域的初始权威度,其中i取值[1,N],j取值[1,M],M为领域总个数。
13.一种搜索文件的排序设备,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,实现如权利要求1-10任意一项所述的搜索文件的排序方法的各个步骤。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-10任一项所述的搜索文件的排序方法的各个步骤。
CN201810847629.8A 2018-07-27 2018-07-27 搜索文件的排序方法、装置、设备、存储介质及搜索*** Active CN109144953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810847629.8A CN109144953B (zh) 2018-07-27 2018-07-27 搜索文件的排序方法、装置、设备、存储介质及搜索***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810847629.8A CN109144953B (zh) 2018-07-27 2018-07-27 搜索文件的排序方法、装置、设备、存储介质及搜索***

Publications (2)

Publication Number Publication Date
CN109144953A CN109144953A (zh) 2019-01-04
CN109144953B true CN109144953B (zh) 2022-02-01

Family

ID=64799147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810847629.8A Active CN109144953B (zh) 2018-07-27 2018-07-27 搜索文件的排序方法、装置、设备、存储介质及搜索***

Country Status (1)

Country Link
CN (1) CN109144953B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259272B (zh) * 2020-01-14 2023-06-20 口口相传(北京)网络技术有限公司 搜索结果排序方法及装置
CN113656574B (zh) * 2021-10-19 2022-02-08 北京欧应信息技术有限公司 用于搜索结果排序的方法、计算设备和存储介质
CN114020990A (zh) * 2021-11-05 2022-02-08 山东库睿科技有限公司 一种数据排序方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布***和信息发布方法
CN101782920A (zh) * 2009-12-23 2010-07-21 中国科学院自动化研究所 面向综合集成研讨环境的信息推荐方法
CN102737090A (zh) * 2012-03-21 2012-10-17 袁行远 网页搜索结果排序方法及装置
CN102930029A (zh) * 2012-11-07 2013-02-13 北京网智天元科技有限公司 一种社会化的搜索引擎方法和***
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN107578285A (zh) * 2017-09-04 2018-01-12 腾讯科技(深圳)有限公司 推广信息的投放方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布***和信息发布方法
CN101782920A (zh) * 2009-12-23 2010-07-21 中国科学院自动化研究所 面向综合集成研讨环境的信息推荐方法
CN102737090A (zh) * 2012-03-21 2012-10-17 袁行远 网页搜索结果排序方法及装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN102930029A (zh) * 2012-11-07 2013-02-13 北京网智天元科技有限公司 一种社会化的搜索引擎方法和***
CN107578285A (zh) * 2017-09-04 2018-01-12 腾讯科技(深圳)有限公司 推广信息的投放方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于用户分析的个性化微博推荐技术研究;王梦阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160415;第I138-1534页 *
微博搜索的关键技术研究;段亚娟;《中国博士学位论文全文数据库 信息科技辑》;20140915;第I139-5页 *

Also Published As

Publication number Publication date
CN109144953A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN103246681B (zh) 一种搜索方法及装置
US8290927B2 (en) Method and apparatus for rating user generated content in search results
CN102799591B (zh) 一种提供推荐词的方法及装置
CN102622417B (zh) 对信息记录进行排序的方法和装置
CN103324645B (zh) 一种网页推荐方法和装置
US8549013B1 (en) Systems and methods for determining interest in an item or category of items
CN106708817B (zh) 信息搜索方法及装置
CN109144953B (zh) 搜索文件的排序方法、装置、设备、存储介质及搜索***
CN106651544B (zh) 最少用户交互的会话式推荐***
CN107808314B (zh) 用户推荐方法及装置
CN110175895B (zh) 一种物品推荐方法及装置
CN112084405A (zh) 一种搜索方法、装置及计算机存储介质
CN108648058B (zh) 产品排序方法及装置,电子设备、存储介质
US20210382609A1 (en) Method and device for displaying multimedia resource
JP5831204B2 (ja) 情報提供システム、情報提供方法及びプログラム
CN111310046B (zh) 对象推荐方法及装置
US20120259844A1 (en) Methods and systems for assessing excessive accessory listings in search results
US20170287041A1 (en) Information processing apparatus, information processing method, and information processing program
CN114820123A (zh) 团购商品推荐方法、装置、设备及存储介质
CN110781307A (zh) 目标物品关键词和标题生成方法、搜索方法以及相关设备
US8700648B2 (en) Context based networking
CN113077317A (zh) 基于用户数据的物品推荐方法、装置、设备及存储介质
CN107943910A (zh) 一种基于组合算法的个性化图书推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant