CN102662957B - 用于优化浏览器的搜索结果页面的装置及方法 - Google Patents

用于优化浏览器的搜索结果页面的装置及方法 Download PDF

Info

Publication number
CN102662957B
CN102662957B CN201210054359.8A CN201210054359A CN102662957B CN 102662957 B CN102662957 B CN 102662957B CN 201210054359 A CN201210054359 A CN 201210054359A CN 102662957 B CN102662957 B CN 102662957B
Authority
CN
China
Prior art keywords
information
result
search
item
page searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210054359.8A
Other languages
English (en)
Other versions
CN102662957A (zh
Inventor
阮星华
高亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210054359.8A priority Critical patent/CN102662957B/zh
Publication of CN102662957A publication Critical patent/CN102662957A/zh
Application granted granted Critical
Publication of CN102662957B publication Critical patent/CN102662957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种用于优化浏览器的搜索结果页面的装置及方法,其中该装置包括:提取模块,用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;判断模块,用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及自动反馈模块,用于将搜索坏点自动反馈给后台服务器。根据本发明实施例的装置,一方面可以挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面可以利用搜索引擎客户端的空闲资源进行搜索结果页面分析,节约资源,在用户使用搜索引擎时同步实现搜索结果页面分析,无需单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。

Description

用于优化浏览器的搜索结果页面的装置及方法
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于优化浏览器的搜索结果页面的装置及方法。
背景技术
互联网的搜索引擎面向数以亿万计的各种各样的网页,虽然现有的搜索技术和相应的搜索算法已取得了巨大的改进及飞跃,但是在处理海量的形形色色的网页时难免出现搜索结果效果不理想的情况,例如,搜索结果的相关性不好、搜索结果的展现效果不好、死链、乱码、搜索结果重复、标题摘要不准确等现象,我们统称这些现象为Bad Case,及时发现这些Bad Case并进行相应的进行搜索算法的改进,对于互联网的搜索引擎异常重要。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种可以在用户使用搜索引擎的同时自动对搜索结果进行分析进而挖掘出搜索坏点并自动向后台服务器反馈以用于搜索引擎改进的用于优化浏览器的搜索结果页面的装置。
本发明的另一目的在于提出一种用于优化浏览器的搜索结果页面的方法。
为了实现上述目的,根据本发明的第一方面实施例的用于优化浏览器的搜索结果页面的装置包括:提取模块,所述提取模块用于提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息;判断模块,所述判断模块用于根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点;以及自动反馈模块,所述自动反馈模块用于将所述搜索坏点自动反馈给后台服务器。
根据本发明实施例的用于优化浏览器的搜索结果页面的装置,一方面通过提取模块和判断模块可以实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
为了实现上述目的,根据本发明的第二方面实施例的用于优化浏览器的搜索结果页面的方法包括以下步骤:提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息;根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点;以及将所述搜索坏点自动反馈给后台服务器。
根据本发明实施例的用于优化浏览器的搜索结果页面的方法,一方面通过提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息,对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;
图2是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;
图3是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;
图4是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图;
图5是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图;以及
图6是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考说明书附图描述根据本发明实施例的用于优化浏览器的搜索结果页面的装置。
一种用于优化浏览器的搜索结果页面的装置,包括:提取模块,提取模块用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;判断模块,判断模块用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及自动反馈模块,自动反馈模块用于将搜索坏点自动反馈给后台服务器。
图1为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。
如图1所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括:提取模块100、判断模块200和自动反馈模块300。
具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。
在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。
在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。
在本发明的一个实施例中,提取模块100的功能可以使用JavaScript进行定义,例如定义一个batOverlay.js文件,该batOverlay.js文件里面定义了一个类bat(可执行文件)及相关的方法以用于初始化,同时在该batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P:1,AS:5,AL:1,AS:3},其中,P:1表示一个品牌广告位于第一个位置,AS:5表示5个普通结果,位置在一个品牌广告的后面,AL:1表示1个Aladdin结果,位置在5个普通结果的后面,AS:3表示3个普通结果,位置在1个Aladdin结果的后面。
判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。
具体地,判断模块200根据结构信息判断搜索结果页面中是否存在搜索坏点。首先设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断模块200判断该搜索结果页面中存在搜索坏点。
判断模块200还可以根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点。例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断模块200判断该第一信息项是搜索坏点。
在本发明的一个实施例中,判断模块200的功能也可以使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat.linkcheck(type)、Bat.is_equal()、Bat.piaohong()等。例如,使用函数Bat.linkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type=all表示对搜索结果页面中的所有信息项进行死链检查,当参数type=top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type=random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat.is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat.piaohong()可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat.title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1:{0,0,0},A2:{0,1,0},…,A10:{0,0,0}},表示共展现了10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为1,表示摘要有异常。
自动反馈模块300用于将搜索坏点自动反馈给后台服务器。
在本发明的一个实施例中,自动反馈模块300通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300将判断模块200所判断的存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中,其中,自动反馈模块300可以将上述功能封装起来,当判断模块200判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。
根据本发明实施例的用于优化浏览器的搜索结果页面的装置,一方面通过提取模块和判断模块可以实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
图2为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。
如图2所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括:提取模块100、判断模块200、自动反馈模块300和手动反馈模块400。
具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。自动反馈模块300用于将搜索坏点自动反馈给后台服务器。手动反馈模块400提供接口从而用户能够使用接口来向后台服务器反馈对搜索结果的意见。
在本发明的一个实施例中,自动反馈模块300或手动反馈模块400通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300或手动反馈模块400将判断模块200所判断的存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中。其中,自动反馈模块300可以将上述功能封装起来,当判断模块200判断存在搜索坏点时将搜索坏点自动反馈给后台服务器,手动反馈模块400可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。
根据本发明实施例的用于优化浏览器的搜索结果页面的装置,当用户认为搜索结果效果不好时可以通过手动反馈模块快捷地反馈向后台服务器尽心反馈,通过用户加速搜索坏点的发现,提高效率,同时将手动反馈模块包装成接口,用户通过简单的功能按钮即可方便及时地反馈搜索坏点,降低用户参与测试的成本。
图3为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。
如图3所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括:提取模块100、判断模块200、设置单元210、比较单元220、确定单元230和自动反馈模块300。
具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。
判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。在本发明的一个实施例中,判断模块200包括设置单元210、比较单元220和确定单元230。
更具体地,设置单元210用于根据搜索关键字设置搜索结果页面的结构信息的阈值。例如,在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果数目阈值为1。
比较单元220用于将结构信息与阈值比较。具体地,比较单元将提取模块100提取的结构信息与设置单元210设置的结构信息的阈值相比较。
确定单元230用于根据比较单元220的比较结果或者根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。
在本发明的一个实施例中,确定单元230用于根据比较单元220的比较结果确定搜索结果页面中是否存在搜索坏点,例如如果根据比较单元220的比较结果,一个搜索结果页面中的广告信息项的数目为2或者Aladdin结果的数目为3,超过设置的阈值,则确定单元230确定搜索结果页面中存在搜索坏点。
在本发明的一个实施例中,确定单元230还用于根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则确定单元230确定该第一信息项是搜索坏点。
在本发明的一个实施例中,确定单元230根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点的功能也可以使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat.linkcheck(type)、Bat.is_equal()、Bat.piaohong()等。例如,使用函数Bat.linkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type=all表示对搜索结果页面中的所有信息项进行死链检查,当参数type=top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type=random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat.is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat.piaohong()可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat.title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1:{0,0,0},A2:{0,1,0},…,A10:{0,0,0}},表示共展现了10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为1,表示摘要有异常。
自动反馈模块300用于将搜索坏点自动反馈给后台服务器。
手动反馈模块400提供接口从而用户能够使用接口来向后台服务器反馈对搜索结果的意见。
在本发明的一个实施例中,自动反馈模块300或手动反馈模块400通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300或手动反馈模块400将确定单元230所确定的存在搜索坏点的结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果回传到数据库中,其中,自动反馈模块300可以将上述功能封装起来,当确定单元230确定存在搜索坏点时将搜索坏点自动反馈给后台服务器,手动反馈模块400可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷地向后台服务器反馈。
根据本发明实施例的用于优化浏览器的搜索结果页面的装置,通过提取模块提取搜索结果页面的结构信息及搜索结果页面中每条信息项的信息,再通过设置单元、比较单元和确定单元实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
下面参考说明书附图描述根据本发明实施例的用于优化浏览器的搜索结果页面的方法。
一种用于优化浏览器的搜索结果页面的方法,包括以下步骤:提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及将搜索坏点自动反馈给后台服务器。
图4为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
如图4所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。
步骤S101,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。
在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。
在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。
在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以使用JavaScript进行定义,例如定义一个batOverlay.js文件,该batOverlay.js文件里面定义了一个类bat(可执行文件)及相关的方法以用于初始化,同时在该batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P:1,AS:5,AL:1,AS:3},其中,P:1表示一个品牌广告位于第一个位置,AS:5表示5个普通结果,位置在一个品牌广告的后面,AL:1表示1个Aladdin结果,位置在5个普通结果的后面,AS:3表示3个普通结果,位置在1个Aladdin结果的后面。
步骤S102,根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。
具体地,根据结构信息判断搜索结果页面中是否存在搜索坏点首先需要设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断搜索结果页面中存在搜索坏点。
根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点主要通过特定的现象实现,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断该第一信息项是搜索坏点。
在本发明的一个实施例中,根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点的功能可以利用batOverlay.js文件里面定义的各种搜索结果分析的函数。例如,使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat.linkcheck(type)、Bat.is_equal()、Bat.piaohong()等。例如,使用函数Bat.linkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type=all表示对搜索结果页面中的所有信息项进行死链检查,当参数type=top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type=random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat.is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat.piaohong()可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat.title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1:{0,0,0},A2:{0,1,0},…,A10:{0,0,0}},表示共展现了10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为1,表示摘要有异常。
步骤S103,将搜索坏点自动反馈给后台服务器。
在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。
根据本发明实施例的用于优化浏览器的搜索结果页面的方法,一方面通过提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息,对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
图5为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
如图5所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。
步骤S201,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。
在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。
在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。
在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以使用JavaScript进行定义,例如定义一个batOverlay.js文件,该batOverlay.js文件里面定义了一个类bat(可执行文件)及相关的方法以用于初始化,同时在该batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P:1,AS:5,AL:1,AS:3},其中,P:1表示一个品牌广告位于第一个位置,AS:5表示5个普通结果,位置在一个品牌广告的后面,AL:1表示1个Aladdin结果,位置在5个普通结果的后面,AS:3表示3个普通结果,位置在1个Aladdin结果的后面。
步骤S202,根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。
具体地,根据结构信息判断搜索结果页面中是否存在搜索坏点首先需要设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断搜索结果页面中存在搜索坏点。
根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点主要通过特定的现象实现,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断该第一信息项是搜索坏点。
在本发明的一个实施例中,根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点的功能可以利用batOverlay.js文件里面定义的各种搜索结果分析的函数。例如,使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat.linkcheck(type)、Bat.is_equal()、Bat.piaohong()等。例如,使用函数Bat.linkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type=all表示对搜索结果页面中的所有信息项进行死链检查,当参数type=top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type=random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat.is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat.piaohong()可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat.title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1:{0,0,0},A2:{0,1,0},…,A10:{0,0,0}},表示共展现了10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为1,表示摘要有异常。
步骤S203,将搜索坏点自动反馈给后台服务器。
在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。
步骤S204,提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。
在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中,通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中。其中,可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。
根据本发明实施例的用于优化浏览器的搜索结果页面的方法,当用户认为搜索结果效果不好时可以通过提供的接口快捷地向后台服务器反馈,通过用户加速搜索坏点的发现,提高效率,同时将手动反馈包装成接口,用户通过简单的功能按钮即可方便及时地反馈搜索坏点,降低用户参与测试的成本。
图6为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
如图6所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。
步骤S301,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。
在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。
在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。
在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以用JavaScript进行定义,如定义了一个batOverlay.js文件,该batOverlay.js文件里面定义了一个类bat(可执行文件)及相关的方法以用于初始化,同时在该batOverlay.js里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P:1,AS:5,AL:1,AS:3},其中,P:1表示一个品牌广告位于第一个位置,AS:5表示5个普通结果,位置在一个品牌广告的后面,AL:1表示1个Aladdin结果,位置在5个普通结果的后面,AS:3表示3个普通结果,位置在1个Aladdin结果的后面。
步骤S302,根据搜索关键字设置搜索结果页面的结构信息的阈值。
例如,在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果数目阈值为1。
步骤S303,将结构信息与阈值比较。
具体地,将步骤S301所提取到的结构信息与步骤S302所设置的结构信息的阈值相比较。
步骤S304,根据比较结果或者根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。
在本发明的一个实施例中,根据比较结果确定搜索结果页面中是否存在搜索坏点。例如,将结构信息与阈值比较,一个搜索结果页面中的广告信息项的数目为2或者Aladdin结果的数目为3,超过设置的阈值,则确定单元230确定搜索结果页面中存在搜索坏点。
在本发明的一个实施例中,还可以根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则确定该第一信息项是搜索坏点。
其中,根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点的功能也可以使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat.linkcheck(type)、Bat.is_equal()、Bat.piaohong()等。例如,使用函数Bat.linkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type=all表示对搜索结果页面中的所有信息项进行死链检查,当参数type=top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type=random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat.is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat.piaohong()可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat.title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1:{0,0,0},A2:{0,1,0},…,A10:{0,0,0}},表示共展现了10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为1,表示摘要有异常。
步骤S305,将搜索坏点自动反馈给后台服务器。
在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。
步骤S306,提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。
在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以json(JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db.php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中,通过插件经由XmlHttpRequest请求该write_db.php对应的php页面将结果上传到数据库中。其中,可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。
根据本发明实施例的用于优化浏览器的搜索结果页面的方法,通过提取搜索结果页面的结构信息及搜索结果页面中每条信息项的信息,再通过对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (8)

1.一种用于优化浏览器的搜索结果页面的装置,其特征在于,包括:
提取模块,所述提取模块用于提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息,其中,所述结构信息包括所述搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置,所述每条信息项的信息包括所述每条信息项包括的链接、标题、摘要和搜索关键字;
判断模块,所述判断模块用于根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点,其中,判断模块包括:
设置单元,所述设置单元用于根据搜索关键字设置搜索结果页面的结构信息的阈值;
比较单元,所述比较单元用于将所述结构信息与所述阈值比较;以及
确定单元,所述确定单元用于根据所述比较单元的比较结果或者根据所述每条信息项的信息确定所述搜索结果页面中是否存在搜索坏点;以及
自动反馈模块,所述自动反馈模块用于将所述搜索坏点自动反馈给后台服务器。
2.根据权利要求1所述的装置,其特征在于,进一步包括:
手动反馈模块,所述手动反馈模块提供接口从而用户能够使用所述接口来向后台服务器反馈对搜索结果的意见。
3.根据权利要求1所述的装置,其特征在于,如果所述每条信息项中的第一信息项包括的链接是无法打开的链接,或者所述第一信息项不包括摘要,或者所述第一信息项包括的标题和/或摘要重复,或者所述第一信息项包括的标题或摘要中不包含搜索关键字,则所述确定单元确定所述第一信息项是搜索坏点。
4.根据权利要求2所述的装置,其特征在于,所述自动反馈模块或所述手动反馈模块通过使用HTTP请求向后台服务器进行反馈。
5.一种用于优化浏览器的搜索结果页面的方法,其特征在于,包括以下步骤:
提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息,其中,所述结构信息包括所述搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置,所述每条信息项的信息包括所述每条信息项包括的链接、标题、摘要和搜索关键字;
根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点,其中,根据搜索关键字设置搜索结果页面的结构信息的阈值,并将所述结构信息与所述阈值比较,以及根据所述比较结果或者根据所述每条信息项的信息确定所述搜索结果页面中是否存在搜索坏点;以及
将所述搜索坏点自动反馈给后台服务器。
6.根据权利要求5所述的方法,其特征在于,进一步包括步骤:
提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。
7.根据权利要求5所述的方法,其特征在于,如果所述每条信息项中的第一信息项包括的链接是无法打开的链接,或者所述第一信息项不包括摘要,或者所述第一信息项包括的标题和/或摘要重复,或者所述第一信息项包括的标题或摘要中不包含搜索关键字,则确定所述第一信息项是搜索坏点。
8.根据权利要求5或6所述的方法,其特征在于,通过使用HTTP请求向后台服务器进行反馈。
CN201210054359.8A 2012-03-02 2012-03-02 用于优化浏览器的搜索结果页面的装置及方法 Active CN102662957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210054359.8A CN102662957B (zh) 2012-03-02 2012-03-02 用于优化浏览器的搜索结果页面的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210054359.8A CN102662957B (zh) 2012-03-02 2012-03-02 用于优化浏览器的搜索结果页面的装置及方法

Publications (2)

Publication Number Publication Date
CN102662957A CN102662957A (zh) 2012-09-12
CN102662957B true CN102662957B (zh) 2015-02-18

Family

ID=46772448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210054359.8A Active CN102662957B (zh) 2012-03-02 2012-03-02 用于优化浏览器的搜索结果页面的装置及方法

Country Status (1)

Country Link
CN (1) CN102662957B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158697B (zh) * 2013-10-18 2017-07-21 深圳信息职业技术学院 一种死链检测方法及装置
CN106649407A (zh) * 2015-11-04 2017-05-10 阿里巴巴集团控股有限公司 获取检索结果的方法及装置
CN106484841B (zh) * 2016-09-30 2019-09-24 北京奇付通科技有限公司 基于搜索结果提供答案项的搜索方法及装置
CN108153663B (zh) * 2016-12-02 2022-02-18 阿里巴巴集团控股有限公司 页面数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668823B2 (en) * 2007-04-03 2010-02-23 Google Inc. Identifying inadequate search content
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN102214185A (zh) * 2010-04-07 2011-10-12 腾讯科技(深圳)有限公司 网页搜索方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456286C (zh) * 2005-01-17 2009-01-28 马岩 一种通用的文件搜索***及方法
CN101071422B (zh) * 2006-06-15 2010-10-13 腾讯科技(深圳)有限公司 一种音乐文件搜索处理***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668823B2 (en) * 2007-04-03 2010-02-23 Google Inc. Identifying inadequate search content
CN102214185A (zh) * 2010-04-07 2011-10-12 腾讯科技(深圳)有限公司 网页搜索方法及***
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端

Also Published As

Publication number Publication date
CN102662957A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
WO2019196274A1 (zh) 网页页面测试方法、装置、电子设备和介质
CN102662957B (zh) 用于优化浏览器的搜索结果页面的装置及方法
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
CN109510737A (zh) 协议接口测试方法、装置、计算机设备和存储介质
US10175954B2 (en) Method of processing big data, including arranging icons in a workflow GUI by a user, checking process availability and syntax, converting the workflow into execution code, monitoring the workflow, and displaying associated information
WO2014000576A1 (zh) 一种网络搜索方法及网络搜索***
CN109451147B (zh) 一种信息展示方法及装置
US10311120B2 (en) Method and apparatus for identifying webpage type
CN103942279A (zh) 搜索结果的展现方法和装置
US20150106663A1 (en) Hash labeling of logging messages
CN102541937A (zh) 一种网页信息探测方法及***
CN110768977B (zh) 一种安全漏洞信息的抓取方法及***
CA2783492A1 (en) Associative memory visual evaluation tool
CN102663060A (zh) 一种识别被篡改网页的方法及装置
CN111858834B (zh) 基于ai的案件争议焦点确定方法、装置、设备及介质
CN103207906A (zh) 搜索结果的提供方法和搜索引擎
Altenburger et al. Is Yelp actually cleaning up the restaurant industry? A re-analysis on the relative usefulness of consumer reviews
Qu Research on password detection technology of iot equipment based on wide area network
CN111932413B (zh) 案件要素提取方法、装置、设备及介质
JP5040718B2 (ja) スパム・イベント検出装置及び方法並びにプログラム
US8090990B2 (en) Abnormal pattern detection program for function call in source program
CN106055688A (zh) 搜索结果的展现方法、装置和移动终端
CN103186672B (zh) 文件排序方法及其装置
CN102981938B (zh) 输入法测试方法、生成测试用例的方法及电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant