CN103544307B - 一种不依赖文档库的多搜索引擎自动化对比评测方法 - Google Patents

一种不依赖文档库的多搜索引擎自动化对比评测方法 Download PDF

Info

Publication number
CN103544307B
CN103544307B CN201310538069.5A CN201310538069A CN103544307B CN 103544307 B CN103544307 B CN 103544307B CN 201310538069 A CN201310538069 A CN 201310538069A CN 103544307 B CN103544307 B CN 103544307B
Authority
CN
China
Prior art keywords
search
document
text
results
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310538069.5A
Other languages
English (en)
Other versions
CN103544307A (zh
Inventor
张鹏飞
赵毅强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Cloud Business Network Technology Co ltd
Original Assignee
Beijing Zhongsou Cloud Business Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Cloud Business Network Technology Co Ltd filed Critical Beijing Zhongsou Cloud Business Network Technology Co Ltd
Priority to CN201310538069.5A priority Critical patent/CN103544307B/zh
Publication of CN103544307A publication Critical patent/CN103544307A/zh
Application granted granted Critical
Publication of CN103544307B publication Critical patent/CN103544307B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下步骤:A.选择评测词;B.抓取搜索结果并保存为文档;C.提取文档正文;D.计算相关性;E.整合文档并按其相关性排序;F.计算DCG;G.按DCG结果进行排序,总结评测结果。通过本发明可以达到如下效果:自动化,无需人工参与,节省大量人工;快速,可短时间内获得评测结果;灵活,本发明的过程中,多处采用了可配置的模式,相关性计算等还可以自行调整,因此具有很高的灵活性;可应用于多种垂直搜索中,不只是单纯的网页搜索,也可用于新闻搜索,视频搜索等。

Description

一种不依赖文档库的多搜索引擎自动化对比评测方法
技术领域
本发明属于搜索引擎领域,具体涉及一种不依赖文档库的多搜索引擎自动化对比评测方法。
背景技术
如今的网络环境下,搜索引擎已成为网民必不可少的工具;在互联网中,存在许多搜索引擎。在对比各搜索引擎结果方面,主要有两种方法:一种是人工选择一些关键词在各搜索引擎上进行搜索,得到结果页面,将每条搜索结果进行打分,然后比对分数来评测出各搜索引擎间的优劣;另一种方法是依赖文档库的,按照准确率和召回率来进行各搜索引擎算法的评测。
人工评测搜索引擎的结果需要耗费大量的人力资源和时间。如果一个搜索引擎处于优化的状态中,需要频繁地进行评测,这无疑会给人工评测带来巨大的难题,使人工评测变得不现实。
依赖文档库的方法只能用于线下的搜索引擎,由于各搜索引擎间的文档库不同,其无法对线上运行的搜索引擎进行评测。
发明内容
为了克服上述现有技术的不足,本发明提供一种能够自动化地快速地将线上的搜索引擎进行评价的方法,通过该方法可以对比各搜索引擎间的结果差异,适合进行各搜索引擎间的定期对比评测和在优化搜索引擎时频繁地进行评测来查看优化的算法是否成功。
为了实现上述发明目的,本发明采取如下技术方案:
一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下步骤:
A.选择评测词;
B.抓取搜索结果并保存为文档;
C.提取文档正文;
D.计算相关性;
E.整合文档并按其相关性排序;
F.计算DCG;
G.按DCG结果进行排序,总结评测结果。
优选地,所述评测词包括:网页搜索中的页面搜索关键词、视频搜索中的影片名称或演员姓名。
优选地,其特征在于,所述抓取包括两次抓取过程;
第一次抓取包括:根据关键词生成搜索引擎的搜索结果链接,进行第一次抓取,用模板从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息的链接,并保存;所述模板为包括搜索条件的正则表达式;
第二次抓取包括:根据第一次抓取中取得的结果页面详细信息的链接抓取相应页面,并按顺序分别保存为文档。
优选地,所述正文的提取方法包括:基于DOM树的HTML提取方法、文本最长串的正文提取法;
所述基于DOM树的HTML提取方法包括:将HTML文本转化成一个DOM树,然后根据DOM树的节点分析来提取正文相关的内容,以除去页面中无关信息;该无关信息包括:页面噪音和HTML标签;
所述文本最长串的正文提取法包括:在HTML页面内容中找到最长的文本串,然后再前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。
优选地,所述相关性的计算方法包括:词频比例法;该方法的表达式为:相关性=词频在本文档中所占比例*词频在所有抓取结果中所占比例。
优选地,所述按相关性排序包括:将所述文档平分为若干等级,并为每个等级设定相应的相关系数分数。
优选地,所述计算DCG如下式表达:
式中,s为文档总篇数,i为该文档所在等级的序数,reli为该文档所在等级的相关系数分数。
优选地,将所述步骤F中所得计算结果进行排序并分析,得出多种输出结果,生成报表;所述输出结果包括:步骤F中所得计算结果的平均DCG分数排名,总DCG分数排名,所有关键词中搜索结果优劣个数排名。
与现有技术相比,本发明的有益效果在于:
1)自动化,无需人工参与,节省大量人工;
2)快速,可短时间内获得评测结果;
3)灵活,本发明的过程中,多处采用了可配置的模式,相关性计算等还可以自行调整,因此具有很高的灵活性;
4)整套方法可应用于多种垂直搜索中,不只是单纯的网页搜索,也可用于新闻搜索,视频搜索等。
附图说明
图1是本发明评测过程流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
根据对各搜索引擎的分析以及用户使用搜索引擎的调研等,可以确认用户对搜索引擎的关注大多在准确性和排序两方面,准确性是为了确保搜索结果显示出的内容是用户想要的,排序时为了把越贴近用户需求的结果排在前面,让用户不需要下拉或者翻页就能直接找到想要的内容,因此本发明主要以这两方面作为出发点来实现各搜索引擎的结果的评测。
具体步骤如下:
1)选择评测词
评测词的选取的好坏直接决定着评测结果和实际效果的契合度,是为了使评测能覆盖更多的搜索数量,本发明默认选取3000个搜索引擎结果中的高频词作为评测样本,这些词可以从用户的搜索排行中进行提取。在词语的范围选择和数量选择上,都可以根据实际情况进行变更,如果是评测网页搜索,则选取页面搜索关键词,如果是视频搜索,则选取高频搜索的影片名称或演员等。
2)抓取各搜索引擎搜索结果
对用户行为的研究结果表明,大多数用户只关心搜索结果的前2页,也就是大概40个,因此本发明默认抓取搜索结果中的前40条数据来进行研究分析(数据条数可根据需求自行配置)。对于搜索引擎中的返回结果,大多数会返回源地址的链接以及摘要,由于是不完全结果,本发明要进行二次抓取,去源地址抓取完整的结果页面,用于计算该页面与搜索词之间的相关度。
这两次抓取的具体过程是,先根据关键词生成搜索引擎的搜索结果链接,进行第一次抓取,用正则表达式的模板从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息的链接,并保存起来,此连接用于第二次的抓取。
第二次抓取是从第一次抓取的结果中取得结果页面详细信息的链接,并抓取相应页面,按顺序保存起来,提供给步骤3使用。
3)正文提取
从源地址抓取来的结果页面,大多会有广告等噪音,因此在计算结果的相关性之前我们要对结果页的正文内容进行抽取,以免这些噪音对计算结果造成影响。
在正文提取方法上可以采用基于DOM树的HTML提取方法或文本最长串的正文提取法等常用方法来取得结果页面中的正文,并依此来计算该篇文章与搜索关键词之间的相关性。
DOM树的HTML提取方法首先将HTML文本转换成一个DOM树,然后根据DOM树的节点分析来提取正文相关的内容,除去页面噪音和HTML标签等无关信息;本方法的重点是当DOM树不完整时如何正确修复DOM树。
文本最长串的提取方法适用于正文是长文本的页面;先在HTML内容中找到最长的文本串,然后再前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。
4)计算相关性
相关性的计算是本发明流程中的关键一环,之前的步骤2和步骤3都是为了计算相关性而准备的,只有正确地计算每个搜索结果和搜索关键词的相关性,才能保证最终评价结果的正确性。
在相关性计算规则的选取上,也会根据不同的垂直搜索而有所改变:如果是网页搜索,则更注重内容匹配度,如果是新闻搜索,则需要同时关注内容匹配与时间,如果是视频搜索,则更关注标题和注释等。
在本发明中,相关性的算法是可以灵活调整的,可以以少部分的人工评测的结果为样本,通过机器学习的方法来动态调整相关性计算所需的权值,也可以直接采用一些成型的相关性算法。
例如,在新闻搜索的测试中,采用了词频比例方法来计算纯文本的相关性,具体算法是相关性=词频在本文档中所占比例*词频在所有抓取结果中所占比例,即:
其中,
将其开3次方是为了平衡与P(D)之间的权重;
式中,n为切词后词语数量,N(i)为词语i出现的次数,L(i)为词语i的长度,L(T)为全文长度;
式中,T(i)为词语i在所有搜索引擎的所有搜索结果中出现的次数;
时间的相关性采用了倒数曲线的方式,为
式中,T(n)为当前时间,T(t)为布时间,分子W为权重值,用来平衡P(M)和P(T)之间的权重;
最终的相关性采用了两者的调和平均数来计算,
这样可以提高相关性低的那一项的权重,使结果更趋向于实际情况。
5)整合并按相关性排序
步骤4为每一篇结果文档算出相关性,这里将单一搜索关键词在所有搜索引擎上返回的所有结果文档进行整合,按照相关性进行排序,然后将结果平均分为优-中-差三类(此处可按不同需求分为多类,为自动化操作),并给每一类相应的相关系数分数设定为3—1分(如果是N类,则分数为N—1)来提供给DCG计算公式,让它来计算最终的DCG分数。
6)计算DCG
DCG是一种验证排序优劣的评测方法,相关性高的文档排在结果页的前面,分数就会高,否则,相关性低的排在前面,分数就会低。s篇文档的DCG计算公式为:
步骤5已将单个搜索关键词的搜索结果进行了排序,并为每篇文档分配了相应的相关系数分数,也就是公式中的reli。然后将该关键词所有结果按搜索引擎分组,在单一搜索引擎组中,根据所有结果在其搜索引擎中的排名i来用公式计算出该关键词在该搜索引擎中的DCG总分数,以此计算所有组就得到了该关键词在各搜索引擎中的DCG分数。
在DCG的计算过程中,有以下几种情况:
1.搜索引擎A的结果普遍优于搜索引擎B,但排序没有B好,此时由于relA普遍高于relB,所以DCG的结果是A高于B,符合逻辑。
2.搜索引擎A的结果和搜索引擎B的结果相关性差不多,但A的排序更好,此时分数高的relB会被排名靠后的排序算法1/log2i拉低,导致B的整体DCG低于A的,符合逻辑。
3.搜索引擎A的结果优于搜索引擎B,排序还比B好,则A的DCG肯定高于B,符合逻辑。
这3种情况都证明了在本发明的实现过程中,DCG的结果可以用来作为评测搜索引擎结果好坏的标准。
7)按DCG结果进行排序,总结评测结果
将步骤6中所得结果进行排序并进行详细地分析,可以获得多种输出结果,如所有结果的平均DCG分数排名,总DCG分数排名,所有关键词中搜索结果优劣个数排名等,生成报表,以便直观地对比查看。
采用本发明的方法能简单快捷地获得评测结果,完全避免了人工评测所带来的大量时间和人力消耗。以垂直搜索中的新闻搜索来进行测试,选取3000个新闻热词,百度,搜狗,中搜,雅虎4个搜索引擎(谷歌因经常屏蔽等问题未加入评测目标),每个搜索引擎选取40个搜索结果,评测时间大约为2小时(瓶颈为网页抓取);将所得结果和人工评测的结果对比后发现,本发明的评测结果与人工评测的结果差别在5%以内。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下步骤:
A.选择评测词;
B.抓取搜索结果并保存为文档;
C.提取文档正文;
D.计算相关性;
E.整合文档并按其相关性排序;
F.计算DCG;
G.按DCG结果进行排序,总结评测结果;
所述评测词为选取的3000个搜索引擎结果中的高频词;
所述相关性的计算方法包括:词频比例法;该方法的表达式为:相关性=词频在本文档中所占比例*词频在所有抓取结果中所占比例;
所述正文的提取方法包括:基于DOM树的HTML提取方法、文本最长串的正文提取法;
所述基于DOM树的HTML提取方法包括:将HTML文本转化成一个DOM树,然后根据DOM树的节点分析来提取正文相关的内容,以除去页面中无关信息;该无关信息包括:页面噪音和HTML标签;
所述文本最长串的正文提取法包括:在HTML页面内容中找到最长的文本串,然后再前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。
2.如权利要求1所述的评测方法,其特征在于,所述评测词包括:网页搜索中的页面搜索关键词、视频搜索中的影片名称或演员姓名。
3.如权利要求1所述的评测方法,其特征在于,所述抓取包括两次抓取过程;
第一次抓取包括:根据关键词生成搜索引擎的搜索结果链接,进行第一次抓取,用模板从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息的链接,并保存;所述模板为包括搜索条件的正则表达式;
第二次抓取包括:根据第一次抓取中取得的结果页面详细信息的链接抓取相应页面,并按顺序分别保存为文档。
4.如权利要求1所述的评测方法,其特征在于,所述按相关性排序包括:将所述文档平分为若干等级,并为每个等级设定相应的相关系数分数。
5.如权利要求1所述的评测方法,其特征在于,所述计算DCG如下式表达:
式中,s为文档总篇数,i为该文档所在等级的序数,reli为该文档所在等级的相关系数分数。
6.如权利要求1所述的评测方法,其特征在于:将所述步骤F中所得计算结果进行排序并分析,得出多种输出结果,生成报表;所述输出结果包括:步骤F中所得计算结果的平均DCG分数排名,总DCG分数排名,所有关键词中搜索结果优劣个数排名。
CN201310538069.5A 2013-11-04 2013-11-04 一种不依赖文档库的多搜索引擎自动化对比评测方法 Expired - Fee Related CN103544307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538069.5A CN103544307B (zh) 2013-11-04 2013-11-04 一种不依赖文档库的多搜索引擎自动化对比评测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538069.5A CN103544307B (zh) 2013-11-04 2013-11-04 一种不依赖文档库的多搜索引擎自动化对比评测方法

Publications (2)

Publication Number Publication Date
CN103544307A CN103544307A (zh) 2014-01-29
CN103544307B true CN103544307B (zh) 2017-08-08

Family

ID=49967759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538069.5A Expired - Fee Related CN103544307B (zh) 2013-11-04 2013-11-04 一种不依赖文档库的多搜索引擎自动化对比评测方法

Country Status (1)

Country Link
CN (1) CN103544307B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808601B (zh) * 2014-12-31 2019-07-23 北京奇虎科技有限公司 评估搜索引擎资源收录损失的计算方法及装置
CN104699825B (zh) * 2015-03-30 2016-10-05 北京奇虎科技有限公司 搜索引擎性能的衡量方法和装置
CN104699830B (zh) * 2015-03-30 2017-04-12 北京奇虎科技有限公司 衡量搜索引擎排序算法有效性的方法和装置
CN106227762B (zh) * 2016-07-15 2019-06-28 苏群 一种基于用户协助的垂直搜索方法和***
CN107704467B (zh) * 2016-08-09 2021-08-24 百度在线网络技术(北京)有限公司 搜索质量评估方法及装置
CN106776299A (zh) * 2016-11-30 2017-05-31 努比亚技术有限公司 搜索引擎测试装置及方法
WO2018187949A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的透视分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079033A (zh) * 2006-06-30 2007-11-28 腾讯科技(深圳)有限公司 一种综合搜索结果的排序***及方法
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720870B2 (en) * 2007-12-18 2010-05-18 Yahoo! Inc. Method and system for quantifying the quality of search results based on cohesion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079033A (zh) * 2006-06-30 2007-11-28 腾讯科技(深圳)有限公司 一种综合搜索结果的排序***及方法
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫***

Also Published As

Publication number Publication date
CN103544307A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN108415902A (zh) 一种基于搜索引擎的命名实体链接方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN105095187A (zh) 一种搜索意图识别方法及装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
WO2008007379A2 (en) Text categorization using external knowledge
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
CN110309446A (zh) 文本内容快速去重方法、装置、计算机设备及存储介质
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN104361037B (zh) 微博分类方法及装置
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN103116635A (zh) 面向领域的暗网资源采集方法和***
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN110555154A (zh) 一种面向主题的信息检索方法
CN111222031A (zh) 一种网站判别方法及***
CN105468780B (zh) 一种微博文本中产品名实体的规范化方法及装置
CN112328469B (zh) 一种基于嵌入技术的函数级缺陷定位方法
Qi et al. Measuring similarity to detect qualified links
Yuan et al. A mathematical information retrieval system based on RankBoost
CN108764972A (zh) 一种影片票房预测方法及装置
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN103823847A (zh) 一种关键词的扩充方法及装置
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170427

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170808

Termination date: 20211104