CN107122467A - 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 - Google Patents
一种搜索引擎的检索结果评价方法及装置、计算机可读介质 Download PDFInfo
- Publication number
- CN107122467A CN107122467A CN201710293371.7A CN201710293371A CN107122467A CN 107122467 A CN107122467 A CN 107122467A CN 201710293371 A CN201710293371 A CN 201710293371A CN 107122467 A CN107122467 A CN 107122467A
- Authority
- CN
- China
- Prior art keywords
- retrieval result
- search engine
- search
- quality index
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索引擎的检索结果评价方法及装置、计算机可读介质,旨在解决现有的搜索引擎的检索结果评价方法缺乏通用性和客观性的问题。该方法包括以下步骤:获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
Description
技术领域
本发明涉及网络通信技术领域,尤其涉及一种搜索引擎的检索结果评价方法及装置、计算机可读介质。
背景技术
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的***。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表搜索是Google,国内则有最大中文搜索百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
由于互联网信息检索技术的快速发展,各种搜索引擎层出不穷,一方面为用户检索信息提供了便利,另一方面也使许多用户感到无所适从,不知道如何选择合适的检索引擎,因而提出了评价搜索引擎的要求。通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展。现有主要的搜索引擎评价方法之一是Cranfield评价体系:Cranfield-like approach这个名称来源于英国CranfieldUniversity,因为在二十世纪五十年代该大学首先提出了这样一套评价***:由查询样例集、正确答案集、评测指标构成的完整评测方案,并从此确立了“评价”在信息检索研究中的核心地位。Cranfield评价***在各大搜索引擎公司内有广泛的应用。具体应用时,首先需要解决的问题是构造一个测试用查询词集合。常用的搜索引擎评价方法还包括Precision-Recall(准确率-召回率)方法、P@N方法、DCG(衡量搜索引擎质量指标)方法等。
但是,现有的搜索引擎搜索效果的在线评估,多和业务相关,即对在线用户进行某种规则的分流,将用户导向不同服务版本,并最终以和业务强相关的购买转化率、下载转化率、音乐播放转化率作为评价指标,来评估不同版本的搜索效果好坏,业务结合太紧密,不够通用。
同时,现有的搜索引擎搜索效果的DCG(衡量搜索引擎质量指标)评价算法多用于线下评价,且为为数不多的几个测试同事进行评价打分为主,主观性太强,导致线下搜索评价结果不理想、不客观。
发明内容
本发明的主要目的在于提出一种搜索引擎的检索结果评价方法及装置、计算机可读介质,旨在解决现有的搜索引擎的检索结果评价方法缺乏通用性和客观性的问题。
为实现上述目的,本发明提供的一种搜索引擎的检索结果评价方法,该方法包括以下步骤:
获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
进一步,所述搜索引擎的检索结果评价方法还包括从服务器日志文件、访客访问日志文件等中获取搜索行为数据。
进一步的,所述搜索引擎的检索结果评价方法还包括从搜索行为数据中获取同一检索词的所有独立访客对应的所述检索结果页。
进一步的,所述搜索引擎的检索结果评价方法还包括从搜索行为数据中获取前K项(TOPK)搜索排序结果。
前K项(TOPK)搜索排序结果通过TOPK算法获取,搜索引擎会通过日志文件把独立访客每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的独立访客越多,也就是越热门。),统计最热门的10个查询串,也即是这一搜索引擎中最热门的10个检索结果。
进一步的,所述搜索引擎的检索结果评价方法中,所述位置得分的计算过程如下:
每一独立访客的同一搜索词对应的检索结果页内容在同一检索结果内容位置的点击计数一次,对应检索结果内容不同位置的点击累加计数;
以点击率CTR为所述位置得分,所述CTR=点击次数/曝光次数;其中,曝光次数为检索结果页的数量,也即是同一搜索词对应的独立访客数量。
其中,UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
例如,a)一个UV,同一个搜索词结果list,允许点击多个不同检索结果的位置,但对于同一个检索结果的位置点击,只计数1次,不同检索结果的位置则对应位置计数+1;
b)以点击率CTR作为位置得分,CTR=点击次数/曝光次数;一次搜索行为,获得10个结果,独立访客A点击了位置2、3、5;另一个独立访客B,点击了位置1、2、3。那么位置1的点击率:1/2,位置2的点击率:2/2,位置3点击率:1/2,位置4点击率:0,位置5点击率:1/2。
进一步的,从搜索行为数据统计所有独立访客的所有搜索词对应的点击行为,所述前K项(TOPK)搜索排序结果按照点击位置对应的点击率为:
其中,i---表示检索结果位置数,k---表示独立访客数,CTR---点击率。
进一步的,根据所述前K项(TOPK)搜索排序结果,依照检索结果位置i进行log2的衰减,对应的衡量搜索引擎质量指标(DCG)总体评价分数计算公式为:
其中i---表示检索结果位置数,K---表示搜索排序前K条结果。
本发明的另一方面,为实现上述目的,本发明还提出一种搜索引擎的检索结果评价装置,该装置包括:
数据获取模块,用于获取所有独立访客的搜索行为数据,根据所述搜索行为数据获得前K项(TOPK)搜索排序结果,以及同一检索词的所有独立访客对应的检索结果页。
衡量搜索引擎质量指标(DCG)计算模块,用于根据检索结果页中对检索结果内容位置的点击数据获得对应所述检索结果内容位置的点击率为位置得分;并根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
同时,根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
进一步的,所述数据获取模块从服务器日志文件、访客访问日志文件等中获取独立访客的搜索行为数据。
此外,为实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有搜索引擎的检索结果评价程序,所述搜索引擎的检索结果评价程序被处理器执行时实现如上述搜索引擎的检索结果评价方法的步骤:
获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
本发明提出的搜索引擎的检索结果评价方法及装置、计算机可读介质将传统线下的搜索引擎通用搜索效果衡量搜索引擎质量指标(DCG)评价算法与在线用户搜索行为数据进行结合,优化得到在线搜索引擎评价模型,能够将用户点击率直接换成成搜索引擎衡量搜索引擎质量指标(DCG)得分,以真实用户的行为来最终评价检索结果的搜索效果。对所有用户的所有搜索词发生的搜索行为进行统计,并结合搜索引擎前K项(TOPK)搜索排序结果进行衡量搜索引擎质量指标(DCG)总体评价,得分越高说明结果越好。
附图说明
图1为实现本发明各个实施例的第一种搜索引擎的检索结果评价方法流程框图。
图2为实现本发明各个实施例的第二种搜索引擎的检索结果评价方法流程框图。
图3为实现本发明各个实施例的一种搜索引擎的检索结果评价装置结构框图。
图4为实现本发明各个实施例的DCG计算模块的结构框图。
图5为实现本发明各个实施例的搜索引擎的检索结果评价程序执行步骤框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,″模块″与″部件″可以混合地使用。
本发明涉及的衡量搜索引擎质量指标(DCG)评价方法的原理说明:
DCG是英文Discounted Cumulative Gain的简称,中文可翻译为“衡量搜索引擎质量指标”。衡量搜索引擎质量指标(DCG)方法的基本思想是:
1.每条结果的相关性分等级来衡量;
2.考虑结果所在的位置,位置越靠前的则重要程度越高;
3.等级高(即好结果)的结果位置越靠前则值应该越高,否则给予惩罚。
首先来看第一条:相关性分级。这里比计算Precision时简单统计“准确”或“不准确”要更为精细。
我们可以将结果细分为多个等级。
比如常用的3级:Good(好)、Fair(一般)、Bad(差)。对应的分值rel为:Good:3/Fair:2/Bad:1。
一些更为细致的评估使用5级分类法:Very Good(明显好)、Good(好)、Fair(一般)、Bad(差)、Very Bad(明显差),可以将对应分值rel设置为:Very Good:2/Good:1/Fair:0/Bad:-1/Very Bad:-2。
评判结果的标准可以根据具体的应用来确定,Very Good通常是指结果的主题完全相关,并且网页内容丰富、质量很高。而具体到每条
DCG的计算公式并不唯一,理论上只要求对数折扣因子的平滑性。例如下面的DCG公式更合理,强调了相关性,第1、2条结果的折扣系数也更合理:
此时DCG前4个位置上结果的折扣因子(Discount factor)数值如下表1所示为:
表1
i | log2(i+1) | 1/log2(i+1) |
1 | 1 | 1 |
2 | 1.59 | 0.63 |
3 | 2 | 0.5 |
4 | 2.32 | 0.43 |
取以2为底的log值也来自于经验公式,并不存在理论上的依据。实际上,Log的基数可以根据平滑的需求进行修改,当加大数值时(例如使用log5代替log2),折扣因子降低更为迅速,此时强调了前面结果的权重。
为了便于不同类型的query结果之间横向比较,以DCG为基础,一些评价***还对DCG进行了归一,这些方法统称为nDCG(即normalize DCG)。最常用的计算方法是通过除以每一个查询的理想值iDCG(ideal DCG)来进行归一,公式为:
求nDCG需要标定出理想情况的iDCG,实际操作的时候是异常困难的,因为每个人对“最好的结果”理解往往各不相同,从海量数据里选出最优结果是很困难的任务,但是比较两组结果哪个更好通常更容易,所以实践应用中,通常选择结果对比的方法进行评估。
实施例1
基于上述衡量搜索引擎质量指标(DCG)评价方法,提出本发明方法各个实施例。
如图1所示,本发明第一实施例提出一种搜索引擎的检索结果评价方法,该方法包括以下步骤:
S101、获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
S102、将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
S103、根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
上述评价方法中以独立访客搜索行为数据中的位置点击率作为衡量搜索引擎质量指标(DCG)评价中的测试同事打分:以独立访客点击行为为模型,独立访客对检索结果页内容进行点击时,表示对该位置检索结果满意;多数独立访客对同一个位置的点击率较高,认为该位置的检索结果质量较好;对排序靠下的资源,计算得分时予以得分衰减,因为排序越好的搜索引擎,前几位资源搜索质量越好;对所有独立访客的所有搜索词发生的搜索行为进行统计,并结合搜索引擎前K项(TOPK)搜索排序结果进行衡量搜索引擎质量指标(DCG)总体评价,得分越高说明结果越好。
如图2所示,本发明第一实施例提出第二种搜索引擎的检索结果评价方法,该方法包括以下步骤:
S201、从服务器日志文件、访客访问日志文件等中获取搜索行为数据;从搜索行为数据中获取同一检索词的所有独立访客对应的所述检索结果页和前K项(TOPK)搜索排序结果;
S202、获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
S203、将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
S204、根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
从服务器日志文件、访客访问日志文件等服务器数据库可以获取用于网络用户行为分析的用户操作行为数据,如用户使用了哪一些搜索词,获得了哪一些检索结果页内容,对检索结果页内容的哪一些位置的结果进行了点击,然后将所有用户的用户操作行为数据进行分析,能够获得前K项(TOPK)的检索结果,最为热门的检索词,针对某一检索词,如手机,应当包括所有包含手机的检索词,如智能手机,以及手机的近义词,不同译文等。
前K项(TOPK)搜索排序结果通过TOPK算法获取,搜索引擎会通过日志文件把独立访客每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),统计最热门的10个查询串,也即是这一搜索引擎中最热门的10个检索结果。
其中,所述位置得分的计算过程如下:
每一独立访客的同一搜索词对应的检索结果页内容在同一检索结果内容位置的点击计数一次,对应检索结果内容不同位置的点击累加计数;
以点击率CTR为所述位置得分,所述CTR=点击次数/曝光次数;其中,曝光次数为检索结果页的数量,也即是同一搜索词对应的独立访客数量。
其中,UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
例如,a)一个UV,同一个搜索词结果list,允许点击多个不同检索结果的位置,但对于同一个检索结果的位置点击,只计数1次,不同检索结果的位置则对应位置计数+1;
b)以点击率CTR作为位置得分,CTR=点击次数/曝光次数;一次搜索行为,获得10个结果,独立访客A点击了位置2、3、5;另一个独立访客B,点击了位置1、2、3。那么位置1的点击率:1/2,位置2的点击率:2/2,位置3点击率:1/2,位置4点击率:0,位置5点击率:1/2。
进一步的,从搜索行为数据统计所有独立访客的所有搜索词对应的点击行为,所述前K项(TOPK)搜索排序结果按照点击位置对应的点击率为:
其中,i---表示检索结果位置数,k---表示独立访客数,CTR---点击率。
例如,根据上述前K项(TOPK)搜索排序结果按照点击位置对应的位置点击率计算公式,如下表2所示的结果列表。
表2
位置i | CTR |
位置1 | 20% |
位置2 | 50% |
位置3 | |
位置4 | |
… | |
位置K |
其中,根据所述前K项(TOPK)搜索排序结果,依照检索结果位置i进行log2的衰减,对应的衡量搜索引擎质量指标(DCG)总体评价分数计算公式为:
其中i---表示检索结果位置数,K---表示搜索排序前K条结果。
实施例2
本发明的另一方面,为实现上述目的,如图3所示,本发明还提出一种搜索引擎的检索结果评价装置,该装置包括:
数据获取模块200,用于获取所有独立访客的搜索行为数据,根据所述搜索行为数据获得前K项(TOPK)搜索排序结果,以及同一检索词的所有独立访客对应的检索结果页。
衡量搜索引擎质量指标(DCG)计算模块300,用于根据检索结果页中对检索结果内容位置的点击数据获得对应所述检索结果内容位置的点击率为位置得分;并根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
同时,根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
其中,该装置还包括DCG分数输出模块400,用于将DCG计算模块300获得结果在线输出到操作界面,使得用户能够直观地获取搜索引擎的评价结果。
其中,所述数据获取模块200从服务器日志文件、用户访问日志文件等中获取用户的搜索行为数据,这些日志文件存放在服务器数据库100内,与网络用户操作行为分析***共同使用同一数据库。
如图4所示,衡量搜索引擎质量指标(DCG)计算模块300包括点击率计算单元310和DCG评价分数计算单元320,点击率计算单元310用于根据检索结果页中对检索结果内容位置的点击数据获得对应所述检索结果内容位置的点击率,DCG评价分数计算单元320用于根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
实施例3
此外,为实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有搜索引擎的检索结果评价程序,所述搜索引擎的检索结果评价程序被处理器执行时实现如上述搜索引擎的检索结果评价方法的步骤:
获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
将根据所述位置得分,通过衡量搜索引擎质量指标(DCG)评价模型获得每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;
根据搜索引擎的前K项(TOPK)搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标(DCG)评价分数;获得所述前K项(TOPK)搜索排序结果对应的衡量搜索引擎质量指标(DCG)总体评价分数。
具体地,如图5所示,所述搜索引擎在线通用评价程序执行过程如下:
搜索引擎的服务器实时采集独立访客的点击行为,获得用户搜索行为数据,以一定的时间周期存储这些用户搜索行为数据,如1天、1周或者1个月等。
以服务器的日志文件或者访客的日志文件存储在服务器数据库中,用户搜索行为数据的存储方式取决于服务器采集网络用户操作行为数据的方式。
从用户搜索行为数据中,可以获得每一独立访客对应的检索词、检索结果页面内容,用户在检索结果页面内容中的点击位置信息。基于同一检索词,包括近义词等同位词在内所对应的每一个检索结果页面内容,通过统计用户的点击位置信息,可以获得TOPK检索结果,也就是每一检索词对应排在前K条的检索结果。
根据点击位置,能够获得检索结果页面内容中的TOPK检索结果对应的位置点击率。
TOPK检索结果对应的位置点击率计算获得搜索引擎的DCG评价分数,当DCG评价分数越高,说明搜索引擎的检索结果准确性越高。
本发明提出的搜索引擎的检索结果评价方法及装置、计算机可读介质将传统线下的搜索引擎通用搜索效果衡量搜索引擎质量指标(DCG)评价算法与在线用户搜索行为数据进行结合,优化得到在线搜索引擎评价模型,能够将用户点击率直接换成成搜索引擎衡量搜索引擎质量指标(DCG)得分,以真实用户的行为来最终评价检索结果的搜索效果。对所有用户的所有搜索词发生的搜索行为进行统计,并结合搜索引擎前K项(TOPK)搜索排序结果进行衡量搜索引擎质量指标(DCG)总体评价,得分越高说明结果越好。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种搜索引擎的检索结果评价方法,其特征在于,所述方法包括以下步骤:
获取检索结果页中对检索结果内容位置的点击数据,并以对应所述检索结果内容位置的点击率为位置得分;
将根据所述位置得分,通过衡量搜索引擎质量指标评价模型获得每一检索结果页的衡量搜索引擎质量指标评价分数;
根据搜索引擎的前K项搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标评价分数;获得所述前K项搜索排序结果对应的衡量搜索引擎质量指标总体评价分数。
2.根据权利要求1所述的一种搜索引擎的检索结果评价方法,其特征在于,所述方法还包括从服务器日志文件、访客访问日志文件中获取搜索行为数据。
3.根据权利要求2所述的一种搜索引擎的检索结果评价方法,其特征在于,所述方法还包括从搜索行为数据中获取同一检索词的所有独立访客对应的所述检索结果页。
4.根据权利要求2所述的一种搜索引擎的检索结果评价方法,其特征在于,所述方法还包括从搜索行为数据中获取前K项搜索排序结果。
5.根据权利要求1所述的一种搜索引擎的检索结果评价方法,其特征在于,所述搜索引擎的检索结果评价方法中,所述位置得分的计算过程如下:
每一独立访客的同一搜索词对应的检索结果页内容在同一检索结果内容位置的点击计数一次,对应检索结果内容不同位置的点击累加计数;
以点击率CTR为所述位置得分,所述CTR=点击次数/曝光次数;其中,曝光次数为检索结果页的数量,也即是同一搜索词对应的独立访客数量。
6.根据权利要求5所述的一种搜索引擎的检索结果评价方法,其特征在于,从搜索行为数据统计所有独立访客的所有搜索词对应的点击行为,所述前K项搜索排序结果按照点击位置对应的点击率为:
其中,i---表示检索结果位置数,k---表示独立访客数,CTR---点击率。
7.根据权利要求6所述的一种搜索引擎的检索结果评价方法,其特征在于,根据所述前K项搜索排序结果,依照检索结果位置i进行log2的衰减,对应的衡量搜索引擎质量指标总体评价分数计算公式为:
其中i---表示检索结果位置数,K---表示搜索排序前K条结果。
8.一种搜索引擎的检索结果评价装置,其特征在于,所述装置包括:
数据获取模块,用于获取所有独立访客的搜索行为数据,根据所述搜索行为数据获得前K项搜索排序结果,以及同一检索词的所有独立访客对应的检索结果页;
衡量搜索引擎质量指标计算模块,用于根据检索结果页中对检索结果内容位置的点击数据获得对应所述检索结果内容位置的点击率为位置得分;并根据所述位置得分,通过衡量搜索引擎质量指标评价模型获得每一检索结果页的衡量搜索引擎质量指标评价分数;
同时,根据搜索引擎的前K项搜索排序结果,结合所述每一检索结果页的衡量搜索引擎质量指标评价分数;获得所述前K项搜索排序结果对应的衡量搜索引擎质量指标总体评价分数。
9.根据权利要求8所述的一种搜索引擎的检索结果评价装置,其特征在于,所述数据获取模块从服务器日志文件、访客访问日志文件中获取独立访客的搜索行为数据。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有搜索引擎的检索结果评价程序,所述搜索引擎的检索结果评价程序被处理器执行时实现如权利要求1-7任一项所述的搜索引擎的检索结果评价方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710293371.7A CN107122467B (zh) | 2017-04-26 | 2017-04-26 | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710293371.7A CN107122467B (zh) | 2017-04-26 | 2017-04-26 | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122467A true CN107122467A (zh) | 2017-09-01 |
CN107122467B CN107122467B (zh) | 2020-12-29 |
Family
ID=59726440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710293371.7A Active CN107122467B (zh) | 2017-04-26 | 2017-04-26 | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122467B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885857A (zh) * | 2017-11-17 | 2018-04-06 | 山东师范大学 | 一种搜索结果页用户行为模式挖掘方法、装置及*** |
CN108460085A (zh) * | 2018-01-19 | 2018-08-28 | 北京奇艺世纪科技有限公司 | 一种基于用户日志的视频搜索排序训练集构建方法及装置 |
CN109190129A (zh) * | 2018-08-31 | 2019-01-11 | 传神语联网网络科技股份有限公司 | 一种基于近义词知识图谱的多语言翻译质量评价引擎 |
CN110580322A (zh) * | 2019-09-18 | 2019-12-17 | 北京百度网讯科技有限公司 | 独立访客信息处理的方法、装置、电子设备及存储介质 |
CN110674400A (zh) * | 2019-09-18 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
CN110941786A (zh) * | 2018-09-21 | 2020-03-31 | 广州神马移动信息科技有限公司 | 搜索效果的监控方法和装置 |
CN111061942A (zh) * | 2018-10-17 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 搜索排序监控方法和*** |
CN111367778A (zh) * | 2020-03-13 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 评估搜索策略的数据分析方法和装置 |
CN111612658A (zh) * | 2020-05-29 | 2020-09-01 | 北京华宇元典信息服务有限公司 | 法律数据检索的评价方法、评价装置和电子设备 |
CN112749316A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 翻译质量的确定方法、装置、存储介质和处理器 |
CN113010776A (zh) * | 2021-03-03 | 2021-06-22 | 昆明理工大学 | 一种基于Monroe规则的元搜索排序Top-k聚合方法 |
CN113065065A (zh) * | 2021-03-30 | 2021-07-02 | 广联达科技股份有限公司 | 一种评价搜索性能的方法、装置、设备及可读存储介质 |
CN113220967A (zh) * | 2021-05-11 | 2021-08-06 | 北京百度网讯科技有限公司 | 互联网环境的生态健康程度衡量方法、装置和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924855A (zh) * | 2006-09-18 | 2007-03-07 | 浙江大学 | 图像搜索引擎中的排名方法 |
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN103064852A (zh) * | 2011-10-20 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 网站统计信息处理方法及*** |
CN103646092A (zh) * | 2013-12-18 | 2014-03-19 | 孙燕群 | 基于用户参与的搜索引擎排序方法 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及*** |
CN104636407A (zh) * | 2013-11-15 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 参数取值训练及搜索请求处理方法和装置 |
CN105808590A (zh) * | 2014-12-31 | 2016-07-27 | 中国电信股份有限公司 | 搜索引擎实现方法、搜索方法以及装置 |
US20170091189A1 (en) * | 2015-09-28 | 2017-03-30 | Yahoo! Inc. | Location-sensitive ranking for search and related techniques |
-
2017
- 2017-04-26 CN CN201710293371.7A patent/CN107122467B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924855A (zh) * | 2006-09-18 | 2007-03-07 | 浙江大学 | 图像搜索引擎中的排名方法 |
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN103064852A (zh) * | 2011-10-20 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 网站统计信息处理方法及*** |
CN104636407A (zh) * | 2013-11-15 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 参数取值训练及搜索请求处理方法和装置 |
CN103646092A (zh) * | 2013-12-18 | 2014-03-19 | 孙燕群 | 基于用户参与的搜索引擎排序方法 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及*** |
CN105808590A (zh) * | 2014-12-31 | 2016-07-27 | 中国电信股份有限公司 | 搜索引擎实现方法、搜索方法以及装置 |
US20170091189A1 (en) * | 2015-09-28 | 2017-03-30 | Yahoo! Inc. | Location-sensitive ranking for search and related techniques |
Non-Patent Citations (3)
Title |
---|
余锦秀: ""基于用户行为分析的搜索引擎自动评价技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
王果等: ""基于双向热点跟踪的搜索引擎优化模型"", 《计算机应用与软件》 * |
邓晓妹 等: ""基于点击日志的搜索引擎用户满意度评价研究"", 《计算机工程与应用》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885857B (zh) * | 2017-11-17 | 2019-02-12 | 山东师范大学 | 一种搜索结果页用户行为模式挖掘方法、装置及*** |
CN107885857A (zh) * | 2017-11-17 | 2018-04-06 | 山东师范大学 | 一种搜索结果页用户行为模式挖掘方法、装置及*** |
CN108460085A (zh) * | 2018-01-19 | 2018-08-28 | 北京奇艺世纪科技有限公司 | 一种基于用户日志的视频搜索排序训练集构建方法及装置 |
CN109190129A (zh) * | 2018-08-31 | 2019-01-11 | 传神语联网网络科技股份有限公司 | 一种基于近义词知识图谱的多语言翻译质量评价引擎 |
CN110941786A (zh) * | 2018-09-21 | 2020-03-31 | 广州神马移动信息科技有限公司 | 搜索效果的监控方法和装置 |
CN111061942A (zh) * | 2018-10-17 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 搜索排序监控方法和*** |
CN111061942B (zh) * | 2018-10-17 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 搜索排序监控方法和*** |
CN110674400B (zh) * | 2019-09-18 | 2022-05-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
CN110580322A (zh) * | 2019-09-18 | 2019-12-17 | 北京百度网讯科技有限公司 | 独立访客信息处理的方法、装置、电子设备及存储介质 |
CN110674400A (zh) * | 2019-09-18 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
CN112749316A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 翻译质量的确定方法、装置、存储介质和处理器 |
CN111367778A (zh) * | 2020-03-13 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 评估搜索策略的数据分析方法和装置 |
CN111367778B (zh) * | 2020-03-13 | 2023-07-07 | 百度在线网络技术(北京)有限公司 | 评估搜索策略的数据分析方法和装置 |
CN111612658A (zh) * | 2020-05-29 | 2020-09-01 | 北京华宇元典信息服务有限公司 | 法律数据检索的评价方法、评价装置和电子设备 |
CN113010776A (zh) * | 2021-03-03 | 2021-06-22 | 昆明理工大学 | 一种基于Monroe规则的元搜索排序Top-k聚合方法 |
CN113010776B (zh) * | 2021-03-03 | 2022-12-09 | 昆明理工大学 | 一种基于Monroe规则的元搜索排序Top-k聚合方法 |
CN113065065A (zh) * | 2021-03-30 | 2021-07-02 | 广联达科技股份有限公司 | 一种评价搜索性能的方法、装置、设备及可读存储介质 |
CN113220967A (zh) * | 2021-05-11 | 2021-08-06 | 北京百度网讯科技有限公司 | 互联网环境的生态健康程度衡量方法、装置和电子设备 |
CN113220967B (zh) * | 2021-05-11 | 2023-09-22 | 北京百度网讯科技有限公司 | 互联网环境的生态健康程度衡量方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107122467B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122467A (zh) | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 | |
CN105701216B (zh) | 一种信息推送方法及装置 | |
CN107391687B (zh) | 一种面向地方志网站的混合推荐*** | |
CN106372249B (zh) | 一种点击率预估方法、装置及电子设备 | |
CN102982153B (zh) | 一种信息检索方法及其装置 | |
US8161030B2 (en) | Method and system for aggregating reviews and searching within reviews for a product | |
CN105765573B (zh) | 网站通信量优化方面的改进 | |
CN107862022B (zh) | 文化资源推荐*** | |
CN109189904A (zh) | 个性化搜索方法及*** | |
CN101355457B (zh) | 测试方法及测试设备 | |
KR100863990B1 (ko) | 카테고리 광고 시스템 및 방법 | |
CN109190043A (zh) | 推荐方法及装置,存储介质,电子设备及推荐*** | |
CN108550068A (zh) | 一种基于用户行为分析的个性化商品推荐方法及*** | |
KR100930786B1 (ko) | 광고 리스트 생성 방법 및 시스템 | |
CN102841946A (zh) | 商品数据检索排序及商品推荐方法和*** | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
KR20090033989A (ko) | 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을수행하기 위한 시스템 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
CN106919575A (zh) | 应用程序搜索方法及装置 | |
CN111724238A (zh) | 产品推荐准确度评价方法、装置、设备及存储介质 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
KR20100021888A (ko) | 콘텐츠제공자 수익분배시스템 및 그 방법 | |
CN107153656A (zh) | 一种信息搜索方法和装置 | |
CN103729365A (zh) | 一种搜索方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |