CN102004782A - 一种搜索结果排序方法和搜索结果排序器 - Google Patents
一种搜索结果排序方法和搜索结果排序器 Download PDFInfo
- Publication number
- CN102004782A CN102004782A CN 201010559233 CN201010559233A CN102004782A CN 102004782 A CN102004782 A CN 102004782A CN 201010559233 CN201010559233 CN 201010559233 CN 201010559233 A CN201010559233 A CN 201010559233A CN 102004782 A CN102004782 A CN 102004782A
- Authority
- CN
- China
- Prior art keywords
- search
- search results
- weight
- search engine
- ordering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种搜索结果排序方法和排序器,所述搜索结果来自于多个搜索引擎,所述方法包括:针对来自于多个搜索引擎的搜索结果进行基础排序;对该基础排序进行修正调整,得到搜索结果的最终排序。所述搜索结果排序器,包括:排序模块,针对来自于多个搜索引擎的搜索结果进行基础排序;调整模块,用于对基础排序进行修正调整,得到搜索结果的最终排序。本发明对搜索结果根据搜索引擎的权重及搜索引擎上的排序位置权重进行基础排序后,再根据共现信息等情况来对基础排序进行调整,得到二次排序的结果,使排序的依据更合理,以向用户提供更为精准的搜索结果,提高了搜索结果的质量,简化了用户的操作。
Description
技术领域
本发明涉及一种互联网信息搜索方法及工具,特别涉及一种搜索结果排序方法和搜索结果排序器。
背景技术
随着网络技术的发展,搜索引擎得到了不断的完善,通过搜索引擎可以从互联网上获取各种信息。搜索引擎是当前互联网帮助用户快速获取信息的主要途径之一。用户提交一个查询词(Query)给搜索引擎,搜索引擎返回给用户与该查询词相关的搜索结果,这些结果按与查询词相关的程度从高到低排列。
现有的搜索引擎技术包括使用网络爬虫从互联网抓取网页,建立索引,并为用户提供查询服务,以及对特定领域的数据进行抓取、索引和搜索,并为用户提供查询服务。例如,新闻、音乐、图片、视频、购物、地图等专业领域的搜索引擎。
传统的搜索引擎技术通常包括网页抓取、网页处理、搜索服务等几个部分。无论哪一家搜索引擎,都不可能去抓取互联网的全部内容,因此各家搜索引擎通常都是索引整个互联网的一个子集;另外,传统的网络爬虫基于网页之间的链接进行抓取,对于没有链接的页面难以抓取;最后,传统搜索引擎从抓取、建立索引、提供查询服务需要一定周期,对大部分内容无法做到实时更新。
同时,一种搜索引擎可能无法满足所有人或者一个人的所有搜索需求。在某些情况下,为了得到较为全面及准确的搜索结果,人们通常需要使用多个搜索引擎来进行搜索,通过对搜索结果进行比较和筛选来获取搜索结果,操作较为繁琐,降低了搜索效率,也提高了搜索的难度。
进一步地,每个搜索引擎会按照自定的方式对搜索结果进行排序,通常情况下会按照与搜索词的相关程度进行排序。但是因为不同的搜索引擎的侧重点不同,其搜索出的结果及对于相关程度的判定方式也会有所不同,因此不同的搜索引擎的排序方式可能会不同。当用户在不同的搜索引擎中对同一搜索词的搜索结果中的排序可能会出现较大的差别,用户需要对多个搜索引擎的结果进行比较再判断,较为不便。
发明内容
本发明所要解决的技术问题是提供一种搜索结果排序方法和搜索结果排序器,能够整合多个搜索引擎的搜索结果并对搜索结果进行排序。
为了解决上述问题,本发明公开了一种搜索结果排序方法,所述搜索结果来自于多个搜索引擎,包括以下步骤:针对来自于多个搜索引擎的搜索结果进行基础排序;对该基础排序进行修正调整,得到搜索结果的最终排序。
优选的,所述针对来自于多个搜索引擎的搜索结果进行基础排序包括:确定各搜索引擎的权重;确定搜索引擎上的排序位置权重;根据搜索引擎的权重和排序位置权重,针对来自于多个搜索引擎的搜索结果进行基础排序。
优选的,所述确定各搜索引擎的权重的步骤进一步包括:确定各搜索引擎的基本权重;分析用户所提交的查询词的类别,并根据分析结果,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
优选的,所述确定各搜索引擎的权重的步骤进一步包括:确定各搜索引擎的基本权重;依据查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
优选的,所述对该基础排序进行修正调整包括:根据搜索结果的共现信息,对该基础排序进行修正调整。
优选的,所述共现信息包括:在多个搜索引擎中出现具有相同网址的搜索结果项;和/或,在多个搜索引擎中出现相同或近似的标题和摘要的搜索结果项;和/或,在多个搜索引擎中出现属于同一站点的搜索结果项;和/或,在多个搜索引擎中出现属于同一域的搜索结果项。
优选的,所述对该基础排序进行修正调整还包括:执行滤重操作;所述滤重操作通过比对搜索结果的标题、和/或摘要的相似程度、和/或URL来进行。
优选的,所述修正调整还包括:识别并过滤低质量的搜索结果,所述过滤包括降权或删除。
优选的,所述搜索结果的质量通过对查询词的文本覆盖程度来评估。
优选的,所述方法还可以包括:将修正调整后的搜索结果排序信息发送至特定搜索引擎,用于改进特定搜索引擎的搜索结果排序。
依据本发明的另一实施例,还公开了一种搜索结果排序器,包括:
排序模块,针对来自于多个搜索引擎的搜索结果进行基础排序;
调整模块,用于对基础排序进行修正调整,得到搜索结果的最终排序。
优选的,所述搜索结果排序器还包括:
第一权重确定模块,用于确定各搜索引擎的权重;
第二权重确定模块,用于确定各搜索引擎上的排序位置权重,
所述排序模块根据搜索引擎的权重和排序位置权重,针对来自于多个搜索引擎的搜索结果进行基础排序。
优选的,所述第一权重确定模块具体包括:、基本权重获取模块,用于确定各搜索引擎的基本权重;
类别分析模块,用于分析用户所提交的查询词的类别,并根据分析结果,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
优选的,所述第一权重确定模块具体包括:
基本权重获取模块,用于确定各搜索引擎的基本权重;
相关度分析模块,用于依据查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
优选的,所述搜索结果排序器还包括判断模块,用于对搜索结果中的共现信息进行判断,并将判断的结果传送给调整模块。
优选的,所述共现信息包括:在多个搜索引擎中出现具有相同网址的搜索结果项;和/或,在多个搜索引擎中出现相同或近似的标题和摘要的搜索结果项;和/或,在多个搜索引擎中出现属于同一站点的搜索结果项;和/或,在多个搜索引擎中出现属于同一域的搜索结果项。
优选的,其特征在于,所述搜索结果排序器还包括:
滤重模块,用于对搜索结果进行滤重操作;所述滤重操作通过比对搜索结果的标题、和/或摘要的相似程度、和/或URL来进行。
优选的,所述搜索结果排序器还包括:
过滤模块,用于识别并过滤低质量的搜索结果,所述过滤包括降权或删除;所述搜索结果的质量通过对查询词的文本覆盖程度来评估。
优选的,所述搜索结果排序器还包括:
排序信息发送模块,用于将修正调整后的搜索结果排序信息发送至特定搜索引擎,用于改进特定搜索引擎的搜索结果排序。
与现有技术相比,本发明具有以下优点:
本发明的搜索结果排序方法和搜索结果排序器能够对多个搜索引擎的搜索结果进行整合和排序。本发明对搜索结果根据搜索引擎的权重及搜索引擎上的排序位置权重进行基础排序后,再根据共现信息等情况来对基础排序进行调整,得到二次排序的结果,使排序的依据更合理,以向用户提供更为精准的搜索结果,提高了搜索结果的质量,简化了用户的操作。
进一步,本发明还可以先针对各个搜索引擎确定基本权重,进而基于用户当前查询词的类别或者相关程度对搜索引擎的基本权重进行调整,以便得到针对当前查询更加准确的搜索引擎权重,从而可以向用户提供更为精准的整合搜索结果。
附图说明
图1是本发明的一种搜索结果排序方法实施例一的流程图;
图2是本发明的一种搜索结果排序方法实施例二的流程图;
图3是本发明的一种搜索结果排序器实施例一的示意图;
图4是本发明的一种搜索结果排序器实施例二的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的搜索结果排序方法,用于对来自多个搜索引擎的结果进行排序,以向用户提供更为精准的整合搜索结果。
参照图1,示出了本发明的一种搜索结果排序方法实施例一,可以包括以下步骤:
步骤101,对多个搜索引擎的搜索结果生成基础排序。
步骤102,对该基础排序进行修正调整,得到最终排序。
步骤102的目的就是基于搜索结果的可能情况,对基础排序进行调整,得到更加优化的排序结果,提供给用户。最简单的,例如,滤重、降权等操作。
生成基础排序的方式多种多样,例如,可以基于搜索引擎的基本质量作排序,百度>谷歌>搜狗>中搜等,依次将这些搜索引擎的结果排序。再或者,对搜索引擎进行分类,如果用户查询请求与搜索引擎的类别相同,则该搜索引擎的搜索结果排序靠前,例如,如果用户搜音乐,那么搜狗>百度>谷歌。总之,基础排序可以基于各种方式得到,本发明对此并不需要加以限制。后面的实施例给出了更为优选的实现方式。
再例如,基础排序还可以直接给予搜索结果进行,例如,依据关键词命中率(或者命中准确度)进行排序,将关键词全部命中准确的排序最靠前,其他的搜索结果按照搜索引擎顺序排序即可。
请参照图2,示出本发明的一种搜索结果排序方法实施例二,其比实施例1更为优选,具体可以包括以下步骤:
步骤1011,确定各搜索引擎的权重。
目前,搜索引擎的种类较多,不同的搜索引擎的搜索质量会有所不同,通过对不同的搜索引擎的搜索结果进行统计及评估,确定各搜索引擎的基本权重。
另外,除了通用的网页搜索引擎之外,还会有新闻、音乐、图片、视频、购物等搜索引擎,对于不同类别的查询词,各搜索引擎的搜索结果质量也会有所不同。有的搜索引擎对英文查询词的查询效果较好,而有的搜索引擎对购物类查询词的查询效果较好,有的搜索引擎对于字数较多的查询词的查询效果较好。例如,在购物类的搜索引擎上搜索某一产品时,可能会得到较好的查询效果,而若采用该搜索引擎搜索某一首歌时,效果则可能不佳。
因此,可以事先设定查询词类别表及确定各类别与搜索引擎的相关程度。在输入查询词后,对查询词进行文本分析,结合查询词类别表对查询词进行分类;然后根据查询词所述类别与搜索引擎的相关程度来对各搜索引擎的权重进行调整,得到搜索引擎的最终权重。
当然,需要说明的是,查询词的类别可以不止一个,比如,一个查询可能既是英文查询,又是一个长查询(字数比较多的查询)。则此时,对于该查询词的多个类别的各搜索引擎的相关程度进行权重叠加即可。
例如查询词有A、B两个类别,假设权重为40%和60%,在A类别,引擎1#0.8,引擎2#0.4,在B类别,引擎2#0.9,引擎1#0.6。
计算得到针对该查询词与各搜索引擎的相关程度为:
引擎1:0.8*40%+0.6*60%=0.68
引擎2:0.4*40%+0.9*60%=0.70
在本发明另外一些应用场景下,用户可能输入了多个查询词,那么本发明还需要对该多个查询词进行分词。分词后,可以先获取每个查询词与各搜索引擎的相关程度,然后再按照权重或其他方式累加得到各搜索引擎针对整体查询词的相关程度。具体计算过程与前述权重方式类似,属于本领域技术人员所熟知的,在此不再赘述。
在本发明的一个优选实施例中,还可以采用更为精准的引擎属性表,所述引擎属性表用于表征各查询词与各搜索引擎的相关程度;即比类别相关程度更精一步。
下面的表1给出了一个具体的例子。
表1
查询词 | 引擎1#相关程度 | 引擎2#相关程度 | … |
手机 | search.taobao.com#0.8 | so.youku.com#0.4 | … |
C++编程思想 | search.dangdang.com#0.7 | search.taobao.com#0.4 | … |
搜狗输入法 | www.gougou.com#0.7 | www.skycn.com#0.5 | … |
例如,“手机”查询词与淘宝搜索引擎的相关度较高,为0.8,与优酷搜索的相关度较低,为0.4。然后,依据当前查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
其中,上面的相关度参数可以通过统计信息获得,在具体实现时,可以首先统计获取各搜索引擎的查询词分布数据,再统计获取查询词在各搜索引擎的点击分布数据,基于这些统计信息就可以计算出各查询词与各搜索引擎相关程度的向量。例如,首先统计用户在www.taobao.com、www.gougou.com等所搜索的查询词情况,进而,在特定全文搜索引擎下,用户查询词与相应点击日志数据,比如,用户在www.sogou.com下查询“衣服”时,点击www.taobao.com站点下的网页链接。由此我们可以得到每个查询词在各目标搜索引擎下的查询分布统计信息,和在特定搜索引擎下的查询词与目标搜索引擎或站点下的点击分布统计信息。
其中,需要说明的是,www.gougou.com本身就是一搜索引擎,而www.taobao.com、www.skycn.com等是在其站点内拥有搜索引擎,在本发明中为了方便说明,直接采用www.taobao.com、www.skycn.com等表示搜索引擎,在此特别说明。
总结一下,首先,各个搜索源的搜索质量有高有低。搜索源的基本权重(SEBW,SE-Base-Weight)用于评估该搜索源质量的相对高低。搜索源的基本权重是通过一些评估搜索源质量的方法预先获得的,作为排序器的输入参数之一。
其次,搜索源返回的一系列搜索结果中,排在不同位置上的搜索结果的质量不同。从整体上看,排在较靠前的搜索结果的质量要比排在较靠后的搜索结果的质量高。排序位置的权重(RPW,Rank-Position-Weight)用于评估各个排序位置上的搜索结果的期望质量的相对高低。排序位置的权重是通过一些评估搜索结果质量的方法预先获得的,作为排序器的输入参数之一。
从上面的描述可以看出,这两个权重是和用户提交的当前具体查询词无关的。但是当应用本发明的优选实现时,则需要依据用户提交的当前具体查询词对搜索引擎的基本权重进行调整。参见图3,示出了本发明的一个设计思想图,即通过查询词以及各个搜索源的基本权重;排序位置权重,对所获得的各个搜索源的搜索结果进行整合,得到重新排序后的搜索结果,提供给用户。
步骤1012,确定搜索引擎上的排序位置权重。
因为各搜索引擎的侧重点不同,对于搜索结果的排序的考量则会有所区别。通常情况下,排在前面的搜索结果的质量高于排在后面的搜索结果。例如,购物类的搜索引擎会增加与产品相关的搜索结果的权重,而降低其他搜索结果的权重,则通过购物类的搜索引擎搜索到的搜索结果中,排在前面的通常会是与产品相关的搜索结果。因此,通过对各搜索引擎的搜索结果的排序进行统计和评估,来确定各搜索引擎上的排序位置权重。
例如,A搜索引擎的排序位置权重依次为:第1位#0.98;第2位#0.89;第3位#0.89;第4位#0.80;第5位#0.60;第6位#0.30;
B搜索引擎的排序位置权重依次为:第1位#0.98;第2位#0.96;第3位#0.90;第4位#0.85;第5位#0.85;第6位#0.85。
可以理解,各搜索引擎的基本权重及搜索引擎上的排序位置权重是通过事先对搜索引擎进行统计和评估而得出的,在后续操作时,无需重复统计和评估。
步骤1013,根据搜索引擎的权重和排序位置权重,生成基础排序。
各搜索引擎都会有搜索结果,并且会对搜索到的搜索结果进行排序,因此每个搜索结果项都会包括如下信息:来自哪一个搜索引擎及在该搜索引擎的搜索结果中的排序位置。根据前面步骤确定的搜索引擎的权重及各搜索引擎上的排序位置权重,可以对所有的搜索结果进行排列,得到基础排序。
步骤102,对该基础排序进行修正调整,得到最终排序。
步骤102的目的就是基于搜索结果的可能情况,对基础排序进行调整,得到更加优化的排序结果,提供给用户。
其中修正调整的方式多种多样,下面本发明给出几个可行的优选示例描述:基于共现信息的调整以及基于文本覆盖程度的调整。
多个搜索引擎的搜索结果中可能会出现相同的搜索结果项,在此,将此同时出现的信息定义为共现信息,可以利用这部分共现信息来调整排序位置。比如,相同的搜索结果项出现在两个或两个以上的搜索引擎中,可以相应的提高此搜索结果项的可靠度。
相同的搜索结果项可以采用以下多种方式中的一种或者几种组合来进行确定。
例如,若在多个搜索引擎中出现具有相同网址的搜索结果,则确定该搜索结果为共现项。或者,若在多个搜索引擎中出现相同或近似的标题和摘要的搜索结果,也可以确定该搜索结果为共现项。或者,若在多个搜索引擎中出现属于同一站点或者同一域的搜索结果,则也可以确定该搜索结果为共现项。根据搜索结果中的共现信息,调整各搜索结果项的分值,对搜索结果进行调整,重新排列,得到最终排序。
这些共现信息,从侧面提供了各个搜索结果可靠程度的信息。可以认为,与其他结果的共现信息越丰富,该搜索结果的质量的可靠性越高,对这样的结果,可以适当提高其分值。
本领域技术人员可以理解的是,将前面提到的各种共现信息结合起来使用,可以更好的提高排序的效果。
因为同一搜索结果在多个搜索引擎中出现时,这些相同的搜索结果会占据多个排序位置,又不能帮助用户获取信息,因此需要对其进行滤重,对于相同的内容的搜索结果通常只保留一条。通常,各个搜索源自身会对搜索结果进行滤重,此处主要针对的是来自不同搜索源的搜索结果进行滤重。
进一步地,为了提高搜索质量,本方法实施例中还包括,对搜索结果进行识别并过滤掉质量较低的部分。
通常情况下,搜索引擎会对搜索结果的标题和摘要中与用户查询词中的单词或者单字进行标注(例如,标红),可以借此来确定搜索结果对查询词的文本覆盖程度,从而来评判搜索质量的高度。对于文本覆盖程度较低的搜索结果,进行相应的降权和过滤。
进一步地,因为本发明对于某一查询词的搜索结果的排序是参照了多个搜索引擎而计算出的较佳的排序方式,因此在对于某一查询词的搜索结果进行排序后,可以将该查询词的搜索结果的排序信息发送给一个或者多个特定的搜索引擎使用。
当一个或者多个特定的搜索引擎基于用户请求进行搜索时,可以参照所接收的调整后的排序信息对自己的搜索结果进行调整,从而优化单一搜索引擎的搜索结果的排序,提高搜索质量。
下面结合具体的实例对上述方法进行详细的说明。
假设有M个搜索引擎,且该M个搜索引擎的基本权重SEBW通过一维数组表示如下:
SEBW=[se1=1.0,se2=1.15,se3=1.10,……,seM=1.0]
定义查询词的类别集合QueryClassSet为:
QueryClassSet={Class-A,Class-B,Class-C,……,Class-N}
假设查询词query,通过类别集合分析出其向量为:
ClassVector(query)=[0,0.6,0,……,0.4]
假设上述M个搜索引擎对查询词类别的适应矩阵CMM*N,即各搜索引擎对各个类别的擅长程度,为:
CMM*N={
1.0,1.5,1.2,……,1.0,
1.3,1.2,1.0,……,1.0,
1.0,1.1,1.0,……,1.2,
}
那么搜索引擎权重的调整权重SEAW向量为:
SEAW(query)=ClassVector(query)×CMM*N T
搜索引擎的最终权重SEW为基础权重和调整权重之和:
SEW=SEBW+SEAW
假设通过统计和评估得到M个搜索引擎的位置排序权重RPW为:
RPW=[1.0,0.95,0.92,0.90,0.88,0.86,……]
每条搜索结果包含的信息有:来自的搜索引擎(se);在该搜索引擎上的排序位置(rank_pos)。
那么,每条搜索结果的分值Score通过如下方式计算:
Score(Snippetse,rank_pos)=SEW[se]×RPW[rank_pos]
计算每条搜索结果的分值后,对每条搜索结果预计质量就给出了一个初步评估。根据分值的大小,将搜索结果从高到低排列,形成基础排序的序列。
假设某个网址(URL)的搜索结果同时出现在K个搜索引擎中,在各搜索引擎中的排序位置如下:
rank_posse1,rank_posse2,……,rank_posseK
这个URL的搜索结果的分值可以调整为,
Score(URL)=(∑rank_possei)/K+d
其中,d用来对搜索结果的可靠性加权,K越大,d也越大。对于多个具有相同URL的搜索结果通常只保留一条。计算出上述搜索结果的分值后,需要对所有的搜索结果进行调整,重新排列,得到二次排序的搜索结果。
另外,在一些情况下,还需要利用搜索结果的标题和摘要的文本信息对搜索结果进行合并滤重。假设有两个搜索结果,它们的标题和摘要如下:
Similarity(snippeta,snippetb)=(ED(titlea,titleb)×α+ED(summarya,summaryb)×β)×same_site_weight
其中,ED(texta,textb)表示texta和textb的编辑距离,归一化到[0,1]区间;same_site_weight是“是否同站点结果”的权重系数。α、β分别为标题相似性的权重和摘要相似性的权重。
当两个搜索结果的Similarity达到一定的阈值时,认为它们重复,可以选择删除其中一个,从而得到最终的搜索结果。
进一步地,还可以通过搜索结果对查询词的文本覆盖程度来评估搜索结果的质量,将质量较低的搜索结果进行降权和过滤,即将排序位置后移或者删除。通过对查询词的文本覆盖程度来评估一个搜索结果是否低质量,进行相应的降权(降低分值)和过滤;文本覆盖度越低,质量通常越差。
由于各个搜索源所索引的网页集合不同。对有些查询,某个搜索源可能基本上没有所有的包含相关信息的网页,整体的搜索质量很差。同时各个搜索源也可能因其排序算法的缺陷,对某些查询给出个别质量特别低的搜索结果。因此,对低质量的搜索结果进行识别和过滤,有助于提高搜索结果的整体效果。
搜索结果的标红信息,在一定程度上表征了查询词的文本覆盖程度,其可以为识别低质量结果提供一些依据。搜索结果的标红,指搜索引擎在搜索结果的标题和摘要中,通常用红色字体显示用户查询词(query)中的单词(term)。比如查“周杰伦的歌曲”,搜索结果的标题和摘要中如果出现“周杰伦”和“歌曲”这两个词,通常会显示为红色。
同时采用基于共现信息的调整以及基于文本覆盖程度的调整,可以得到较佳的排序准确度。
本发明还提供一种搜索结果排序器包括排序模块和调整模块,其中,排序模块可以对搜索结果进行排列,得到基础排序;调整模块用于根据其他的考量因素对搜索结果进行调整,得到最终排序。其他的考量的因素包括根据共现信息来提高相关搜索结果的权重等。
请参照图4,进一步地给出了本发明的搜索结果排序器的一个优选实施例,其可以包括搜索引擎权重确定模块10和搜索引擎排序位置权重确定模块20、排序模块30和调整模块40。
搜索引擎权重确定模块10,用于确定各搜索引擎的权重。在优选实现时,可以基于用户提交的查询词对搜索引擎的基本权重进行实时调整,得到各搜索引擎的权重。
搜索引擎的基本权重是根据对各搜索引擎的搜索结果质量进行统计和评估得出的,可以作为既定的参数输入搜索引擎权重确定模块中。搜索引擎权重确定模块10也可以根据用户查询词与各搜索引擎的相关度,重新计算出各搜索引擎的权重,即搜索引擎的最终权重。
搜索引擎排序位置权重确定模块20,用于确定各搜索引擎上的排序位置权重。各搜索引擎上的排序位置权重也是通过对各搜索引擎的搜索结果进行统计和评估得出,作为既定的参数输入在搜索引擎排序位置权重确定模块20中。
排序模块30根据各搜索引擎搜索到的每条搜索结果的属性信息中会包含其所来自的搜索引擎及在该搜索引擎上的排序位置,参照搜索引擎的最终权重和搜索引擎上的排序位置权重,对搜索结果进行排列,得到基础排序。
调整模块40,根据其他的考量因素对搜索结果进行调整,得到最终排序。其他的考量的因素包括根据共现信息来提高相关搜索结果的权重等。
在本发明的一些优选实施例中,搜索引擎权重确定模块10可以进一步包括:基本权重获取模块,用于确定各搜索引擎的基本权重;类别分析模块,用于分析用户所提交的查询词的类别,并根据分析结果,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
或者,搜索引擎权重确定模块10也可以进一步包括:基本权重获取模块,用于确定各搜索引擎的基本权重;相关度分析模块,用于依据查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。由于该部分相关内容在前面已经详细描述了,因此,在此不再赘述。
由于多个搜索引擎搜索时,会有具有共现信息的搜索结果出现在多个搜索引擎的情况,因此通常情况下,在搜索结果排序器100中还会增加判断模块,对同一个网址、站点、域的搜索结果或者具有相同或相似标题和摘要的搜索结果是否出现在多个搜索引擎中进行判断,并将判断信息传递给调整模块40。
进一步,由于具有共现信息的多个搜索结果会占用多个排序位置,且不能帮助用户获取信息,因此搜索结果排序器100还可以包括滤重模块。通过比对标题、摘要的文本相似程度及URL是否相同等操作对出现在多个搜索引擎中的相同搜索结果进行合并滤重操作,通常只保留一条。
在本发明的优选实施例中,搜索结果排序器100还可以包括过滤模块,用于识别并过滤低质量的搜索结果,所述过滤包括降权或删除;所述搜索结果的质量通过对查询词的文本覆盖程度来评估。
本发明的搜索结果排序方法和搜索结果排序器通过对多个搜索引擎的搜索结果进行整合和排序。对搜索结果根据搜索引擎的权重及搜索引擎上的排序位置权重进行基础排序后,再根据共现信息等权重来对基础排序进行调整,得到二次排序的结果,使排序的依据更合理,以向用户提供更为精准的搜索结果,提高了搜索结果的质量,简化了用户的操作。
进一步,本发明的搜索结果排序方法和搜索结果排序器可以服务器端实现,但是优选的,本发明在客户端上实现,其效果更加突出。
本发明在客户端的实现,即由客户端直接发起搜索请求,链接多个搜索引擎获取搜索结果以及排序调整等操作。
将复杂的排序计算和宽带资源占用转移到用户的操作终端,可以有效的利用用户的终端资源,减少对服务器端资源的占用,提高了搜索速度和效率。同时,由于服务器端存在用户查询请求并发数的限制,而本发明在客户端的处理过程,可以仅针对当前用户,即每个用户都是专用的,完全解决了并发数的问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明所提供的一种搜索结果的排序方法和搜索结果排序器,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种搜索结果排序方法,其特征在于,所述搜索结果来自于多个搜索引擎,包括以下步骤:
针对来自于多个搜索引擎的搜索结果进行基础排序;
对该基础排序进行修正调整,得到搜索结果的最终排序。
2.如权利要求1所述的方法,其特征在于,所述针对来自于多个搜索引擎的搜索结果进行基础排序包括:
确定各搜索引擎的权重;
确定搜索引擎上的排序位置权重;
根据搜索引擎的权重和排序位置权重,针对来自于多个搜索引擎的搜索结果进行基础排序。
3.如权利要求2所述的方法,其特征在于,所述确定各搜索引擎的权重的步骤进一步包括:
确定各搜索引擎的基本权重;
分析用户所提交的查询词的类别,并根据分析结果,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
4.如权利要求2所述的方法,其特征在于,所述确定各搜索引擎的权重的步骤进一步包括:
确定各搜索引擎的基本权重;
依据查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
5.如权利要求1所述的方法,其特征在于,所述对该基础排序进行修正调整包括:
根据搜索结果的共现信息,对该基础排序进行修正调整。
6.如权利要求5所述的方法,其特征在于,所述共现信息包括:
在多个搜索引擎中出现具有相同网址的搜索结果项;
和/或,在多个搜索引擎中出现相同或近似的标题和摘要的搜索结果项;
和/或,在多个搜索引擎中出现属于同一站点的搜索结果项;
和/或,在多个搜索引擎中出现属于同一域的搜索结果项。
7.如权利要求3至5任一项所述的方法,其特征在于,所述对该基础排序进行修正调整还包括:
执行滤重操作;所述滤重操作通过比对搜索结果的标题、和/或摘要的相似程度、和/或URL来进行。
8.如权利要求1所述的方法,其特征在于,所述修正调整还包括:
识别并过滤低质量的搜索结果,所述过滤包括降权或删除。
9.如权利要求8所述的方法,其特征在于,所述搜索结果的质量通过对查询词的文本覆盖程度来评估。
10.如权利要求1所述的方法,其特征在于,还包括:
将修正调整后的搜索结果排序信息发送至特定搜索引擎,用于改进特定搜索引擎的搜索结果排序。
11.一种搜索结果排序器,其特征在于,包括:
排序模块,针对来自于多个搜索引擎的搜索结果进行基础排序;
调整模块,用于对基础排序进行修正调整,得到搜索结果的最终排序。
12.如权利要求11所述的搜索结果排序器,其特征在于,所述搜索结果排序器还包括:
第一权重确定模块,用于确定各搜索引擎的权重;
第二权重确定模块,用于确定各搜索引擎上的排序位置权重,
所述排序模块根据搜索引擎的权重和排序位置权重,针对来自于多个搜索引擎的搜索结果进行基础排序。
13.如权利要求12所述的搜索结果排序器,其特征在于,所述第一权重确定模块具体包括:
基本权重获取模块,用于确定各搜索引擎的基本权重;
类别分析模块,用于分析用户所提交的查询词的类别,并根据分析结果,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
14.如权利要求12所述的方法,其特征在于,所述第一权重确定模块具体包括:
基本权重获取模块,用于确定各搜索引擎的基本权重;
相关度分析模块,用于依据查询词与各搜索引擎的相关程度,调整各搜索引擎的基本权重,得到各搜索引擎的权重。
15.如权利要求11所述的搜索结果排序器,其特征在于,所述搜索结果排序器还包括判断模块,用于对搜索结果中的共现信息进行判断,并将判断的结果传送给调整模块。
16.如权利要求15所述的搜索结果排序器,其特征在于,所述共现信息包括:
在多个搜索引擎中出现具有相同网址的搜索结果项;
和/或,在多个搜索引擎中出现相同或近似的标题和摘要的搜索结果项;
和/或,在多个搜索引擎中出现属于同一站点的搜索结果项;
和/或,在多个搜索引擎中出现属于同一域的搜索结果项。
17.如权利要求13至15任一项所述的搜索结果排序器,其特征在于,所述搜索结果排序器还包括:
滤重模块,用于对搜索结果进行滤重操作;所述滤重操作通过比对搜索结果的标题、和/或摘要的相似程度、和/或URL来进行。
18.如权利要求11所述的搜索结果排序器,其特征在于,所述搜索结果排序器还包括:
过滤模块,用于识别并过滤低质量的搜索结果,所述过滤包括降权或删除;所述搜索结果的质量通过对查询词的文本覆盖程度来评估。
19.如权利要求11所述的搜索结果排序器,其特征在于,还包括:
排序信息发送模块,用于将修正调整后的搜索结果排序信息发送至特定搜索引擎,用于改进特定搜索引擎的搜索结果排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010559233 CN102004782A (zh) | 2010-11-25 | 2010-11-25 | 一种搜索结果排序方法和搜索结果排序器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010559233 CN102004782A (zh) | 2010-11-25 | 2010-11-25 | 一种搜索结果排序方法和搜索结果排序器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102004782A true CN102004782A (zh) | 2011-04-06 |
Family
ID=43812144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010559233 Pending CN102004782A (zh) | 2010-11-25 | 2010-11-25 | 一种搜索结果排序方法和搜索结果排序器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102004782A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841904A (zh) * | 2011-06-24 | 2012-12-26 | 阿里巴巴集团控股有限公司 | 一种搜索方法及设备 |
CN102890725A (zh) * | 2012-11-02 | 2013-01-23 | 瑞庭网络技术(上海)有限公司 | 搜索引擎的结果排序方法 |
CN102902755A (zh) * | 2012-09-21 | 2013-01-30 | 北京百度网讯科技有限公司 | 一种对检索结果项的排序进行调整的方法及装置 |
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及*** |
CN103092839A (zh) * | 2011-10-28 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 记录历史信息的管理方法及装置 |
CN103870607A (zh) * | 2014-04-08 | 2014-06-18 | 北京奇虎科技有限公司 | 多搜索引擎搜索结果的排序方法及装置 |
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及*** |
CN104516887A (zh) * | 2013-09-27 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 一种网页数据搜索方法、装置和*** |
CN104572717A (zh) * | 2013-10-18 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 信息搜索方法和装置 |
CN104636383A (zh) * | 2013-11-14 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 一种实现对比搜索的方法和装置 |
CN105247517A (zh) * | 2013-04-23 | 2016-01-13 | 谷歌公司 | 混合语料库环境中的排名信号 |
CN105302898A (zh) * | 2015-10-23 | 2016-02-03 | 天津车之家科技有限公司 | 一种基于点击模型的搜索排序方法及装置 |
US9262513B2 (en) | 2011-06-24 | 2016-02-16 | Alibaba Group Holding Limited | Search method and apparatus |
CN105335373A (zh) * | 2014-06-17 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 信息搜索方法及装置 |
CN105849730A (zh) * | 2016-03-25 | 2016-08-10 | 马岩 | 数据抓取的方法及*** |
CN106294807A (zh) * | 2016-08-15 | 2017-01-04 | 马岩 | 局域网中大数据的搜索方法及*** |
CN106709353A (zh) * | 2016-10-27 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 搜索引擎的安全性检测方法及装置 |
WO2018027927A1 (zh) * | 2016-08-12 | 2018-02-15 | 深圳市博信诺达经贸咨询有限公司 | 网页数据的搜索方法及*** |
WO2018032246A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 局域网中大数据的搜索方法及*** |
WO2018032247A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 视频大数据的搜索方法及*** |
WO2018032254A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 可信视频在大数据中的抓取方法及*** |
WO2018032249A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 音频数据的抓取方法及*** |
WO2018032251A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 安全等级在大数据抓取中的应用方法及*** |
WO2018032253A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 图片大数据的安全搜索方法及*** |
CN108009235A (zh) * | 2017-11-29 | 2018-05-08 | 福建中金在线信息科技有限公司 | 数据获取方法及装置 |
CN108140029A (zh) * | 2015-09-18 | 2018-06-08 | 三星电子株式会社 | 自动堆叠深度查看卡 |
CN108334575A (zh) * | 2018-01-23 | 2018-07-27 | 北京三快在线科技有限公司 | 一种推荐结果排序修正方法及装置,电子设备 |
CN108573067A (zh) * | 2018-04-27 | 2018-09-25 | 福建江夏学院 | 一种商品信息的匹配搜索***与方法 |
CN109474832A (zh) * | 2018-11-28 | 2019-03-15 | 深圳市酷开网络科技有限公司 | 一种信息搜索排序方法、智能终端及存储介质 |
CN110413763A (zh) * | 2018-04-30 | 2019-11-05 | 国际商业机器公司 | 搜索排序器的自动选择 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101233513A (zh) * | 2005-07-29 | 2008-07-30 | 雅虎公司 | 对结果集进行重排序的***和方法 |
US20100153357A1 (en) * | 2003-06-27 | 2010-06-17 | At&T Intellectual Property I, L.P. | Rank-based estimate of relevance values |
CN101751434A (zh) * | 2008-12-16 | 2010-06-23 | 北大方正集团有限公司 | 一种元搜索引擎的排名方法及元搜索引擎 |
-
2010
- 2010-11-25 CN CN 201010559233 patent/CN102004782A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153357A1 (en) * | 2003-06-27 | 2010-06-17 | At&T Intellectual Property I, L.P. | Rank-based estimate of relevance values |
CN101233513A (zh) * | 2005-07-29 | 2008-07-30 | 雅虎公司 | 对结果集进行重排序的***和方法 |
CN101751434A (zh) * | 2008-12-16 | 2010-06-23 | 北大方正集团有限公司 | 一种元搜索引擎的排名方法及元搜索引擎 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841904A (zh) * | 2011-06-24 | 2012-12-26 | 阿里巴巴集团控股有限公司 | 一种搜索方法及设备 |
CN102841904B (zh) * | 2011-06-24 | 2016-05-04 | 阿里巴巴集团控股有限公司 | 一种搜索方法及设备 |
US9262513B2 (en) | 2011-06-24 | 2016-02-16 | Alibaba Group Holding Limited | Search method and apparatus |
CN103092839A (zh) * | 2011-10-28 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 记录历史信息的管理方法及装置 |
CN102902755A (zh) * | 2012-09-21 | 2013-01-30 | 北京百度网讯科技有限公司 | 一种对检索结果项的排序进行调整的方法及装置 |
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及*** |
CN102902806B (zh) * | 2012-10-17 | 2016-02-10 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及*** |
CN102890725B (zh) * | 2012-11-02 | 2015-08-19 | 瑞庭网络技术(上海)有限公司 | 搜索引擎的结果排序方法 |
CN102890725A (zh) * | 2012-11-02 | 2013-01-23 | 瑞庭网络技术(上海)有限公司 | 搜索引擎的结果排序方法 |
CN104077306B (zh) * | 2013-03-28 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及*** |
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及*** |
CN105247517A (zh) * | 2013-04-23 | 2016-01-13 | 谷歌公司 | 混合语料库环境中的排名信号 |
CN105247517B (zh) * | 2013-04-23 | 2019-05-14 | 谷歌有限责任公司 | 混合语料库环境中的排名信号 |
CN104516887B (zh) * | 2013-09-27 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种网页数据搜索方法、装置和*** |
CN104516887A (zh) * | 2013-09-27 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 一种网页数据搜索方法、装置和*** |
CN104572717A (zh) * | 2013-10-18 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 信息搜索方法和装置 |
CN104636383A (zh) * | 2013-11-14 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 一种实现对比搜索的方法和装置 |
CN104636383B (zh) * | 2013-11-14 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种实现对比搜索的方法和装置 |
WO2015154679A1 (zh) * | 2014-04-08 | 2015-10-15 | 北京奇虎科技有限公司 | 多搜索引擎搜索结果的排序方法及装置 |
CN103870607A (zh) * | 2014-04-08 | 2014-06-18 | 北京奇虎科技有限公司 | 多搜索引擎搜索结果的排序方法及装置 |
CN105335373A (zh) * | 2014-06-17 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 信息搜索方法及装置 |
CN108140029A (zh) * | 2015-09-18 | 2018-06-08 | 三星电子株式会社 | 自动堆叠深度查看卡 |
CN105302898A (zh) * | 2015-10-23 | 2016-02-03 | 天津车之家科技有限公司 | 一种基于点击模型的搜索排序方法及装置 |
CN105302898B (zh) * | 2015-10-23 | 2019-02-19 | 车智互联(北京)科技有限公司 | 一种基于点击模型的搜索排序方法及装置 |
CN105849730A (zh) * | 2016-03-25 | 2016-08-10 | 马岩 | 数据抓取的方法及*** |
WO2017161578A1 (zh) * | 2016-03-25 | 2017-09-28 | 马岩 | 数据抓取的方法及*** |
WO2018027927A1 (zh) * | 2016-08-12 | 2018-02-15 | 深圳市博信诺达经贸咨询有限公司 | 网页数据的搜索方法及*** |
WO2018032249A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 音频数据的抓取方法及*** |
WO2018032251A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 安全等级在大数据抓取中的应用方法及*** |
WO2018032253A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 图片大数据的安全搜索方法及*** |
WO2018032254A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 可信视频在大数据中的抓取方法及*** |
WO2018032247A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 视频大数据的搜索方法及*** |
WO2018032246A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 局域网中大数据的搜索方法及*** |
CN106294807A (zh) * | 2016-08-15 | 2017-01-04 | 马岩 | 局域网中大数据的搜索方法及*** |
CN106709353A (zh) * | 2016-10-27 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 搜索引擎的安全性检测方法及装置 |
CN108009235A (zh) * | 2017-11-29 | 2018-05-08 | 福建中金在线信息科技有限公司 | 数据获取方法及装置 |
CN108334575A (zh) * | 2018-01-23 | 2018-07-27 | 北京三快在线科技有限公司 | 一种推荐结果排序修正方法及装置,电子设备 |
CN108334575B (zh) * | 2018-01-23 | 2022-04-26 | 北京三快在线科技有限公司 | 一种推荐结果排序修正方法及装置,电子设备 |
CN108573067A (zh) * | 2018-04-27 | 2018-09-25 | 福建江夏学院 | 一种商品信息的匹配搜索***与方法 |
CN110413763A (zh) * | 2018-04-30 | 2019-11-05 | 国际商业机器公司 | 搜索排序器的自动选择 |
CN109474832A (zh) * | 2018-11-28 | 2019-03-15 | 深圳市酷开网络科技有限公司 | 一种信息搜索排序方法、智能终端及存储介质 |
CN109474832B (zh) * | 2018-11-28 | 2021-02-02 | 深圳市酷开网络科技有限公司 | 一种信息搜索排序方法、智能终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102004782A (zh) | 一种搜索结果排序方法和搜索结果排序器 | |
CN101079064B (zh) | 一种网页排序方法及装置 | |
WO2017121251A1 (zh) | 一种信息推送方法及装置 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
US8626768B2 (en) | Automated discovery aggregation and organization of subject area discussions | |
CN105912669B (zh) | 用于补全搜索词及建立个体兴趣模型的方法及装置 | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析*** | |
CN102043833A (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
US10691765B1 (en) | Personalized search results | |
CN101984420B (zh) | 一种基于拆词处理进行图片搜索的方法与设备 | |
CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
CN102999560A (zh) | 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性 | |
CN101551806A (zh) | 一种个性化网址导航的方法和*** | |
KR20150036117A (ko) | 쿼리 확장 | |
CN101441636A (zh) | 一种基于知识库的医院信息搜索引擎及*** | |
WO2005031614A1 (en) | Systems and methods for clustering search results | |
CN103064880B (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和*** | |
CN101401062A (zh) | 确定相关来源、查询及合并多个内容来源的结果的方法和*** | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
US7421416B2 (en) | Method of managing web sites registered in search engine and a system thereof | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN107122447A (zh) | 一种基于偏好的多数据源融合的网络搜索***及控制方法 | |
US20140317073A1 (en) | Ranking signals in mixed corpora environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110406 |