CN103258005B - 一种用于对搜索结果进行处理的方法和装置 - Google Patents

一种用于对搜索结果进行处理的方法和装置 Download PDF

Info

Publication number
CN103258005B
CN103258005B CN201310126422.9A CN201310126422A CN103258005B CN 103258005 B CN103258005 B CN 103258005B CN 201310126422 A CN201310126422 A CN 201310126422A CN 103258005 B CN103258005 B CN 103258005B
Authority
CN
China
Prior art keywords
address
result
information
web page
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310126422.9A
Other languages
English (en)
Other versions
CN103258005A (zh
Inventor
刘伟
田丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310126422.9A priority Critical patent/CN103258005B/zh
Publication of CN103258005A publication Critical patent/CN103258005A/zh
Application granted granted Critical
Publication of CN103258005B publication Critical patent/CN103258005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的在于提供一种用于对搜索结果进行处理的方法和装置。根据本发明的方法包括:获取搜索结果中的一个或多个结果地址;对所获得的各个结果地址,模拟移动设备对所述各个结果地址信息发起访问请求,以获取与所述各个结果地址分别对应的、并基于该移动设备进行适配转换后的网页相关信息。本发明的优点在于,能够去除搜索结果中存在的大量重复的搜索内容,从而在不影响搜索结果的全面性的情况下,精简搜索结果,并且,能够减少用户设备的网络流量负担。

Description

一种用于对搜索结果进行处理的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于对搜索结果进行处理的方法和装置。
背景技术
在现有技术所获得的搜索结果中往往包含了许多重复的网页地址信息,尤其是在当前用户终端日趋多样化的情况下,许多网站为了方便用户在不同用户终端上的浏览体验,会针对不同的用户终端提供与该用户终端相适应的网页,这些网页在搜索结果中可能表现为不同的网页地址链接,但其指向的网页内容则可能非常相似。现有的搜索结果仅能将所有搜索到的内容均呈现给用户,看似搜索到的结果较多,实际上可能包含了大量的重复内容。
发明内容
本发明的目的在于提供一种用于对搜索结果进行处理的方法和装置。
根据本发明的一个方面,提供一种用于对搜索结果进行处理的方法,其中,所述搜索结果包括至少一个结果地址信息,其中,所述方法包括以下步骤:
a 获取搜索结果中的一个或多个结果地址;
b 对所获得的各个结果地址,模拟移动设备对所述各个结果地址信息发起访问请求,以获取与所述各个结果地址分别对应的、并基于该移动设备进行适配转换后的网页相关信息。
根据本发明的一个方面,提供一种用于对搜索结果进行处理的搜索处理装置,其中,所述搜索结果包括至少一个结果地址信息,其中,所述搜索处理装置包括:
第一获取装置,用于获取搜索结果中的一个或多个结果地址;
第二获取装置,用于对所获得的各个结果地址,模拟移动设备对所述各个结果地址信息发起访问请求,以获取与所述各个结果地址分别对应的、并基于该移动设备进行适配转换后的网页相关信息。
本发明的优点在于,能够去除搜索结果中存在的大量重复的搜索内容,从而在不影响搜索结果的全面性的情况下,精简搜索结果,并且,能够减少用户设备的网络流量负担。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明的一个方面的用于对搜索结果进行处理的方法流程图;
图2为根据本发明的一个方面的用于对搜索结果进行处理的搜索处理装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一个方面的用于对搜索结果进行处理的方法流程图。其中,所述搜索结果包括至少一个结果地址信息。根据本发明的方法包括步骤S1和步骤S2。
其中,根据本发明的方法通过可联网的用户设备实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
根据本发明的计算机设备可模拟移动设备发起访问请求,其中,所述移动设备包括但不限于何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的手持式电子产品。优选地,所述移动设备包括但不限于平板电脑、智能手机、PDA、游戏机等。
优选地,所述计算机设备通过发送移动设备的设备相关信息来模拟移动设备发起请求。其中,所述设备相关信息包括但不限于以下任一项信息:
1)移动设备型号;例如,Nokia N90、iPhone 4s,又例如,iPad 2、iPad mini等。
2)移动设备所采用的操作***;例如,iOS、Android等。
3)移动设备发起访问请求所采用的浏览器;例如,safari,Opera,百度浏览器等。
需要说明的是,所述计算机设备、移动设备以及网络仅为举例,其他现有的或今后可能出现的用户设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图1,在步骤S1中,计算机设备获取搜索结果中的一个或多个结果地址。
具体地,所述计算机设备根据预定获取规则,获取搜索结果中的一个或多个结果地址。其中,所述结果地址包括用于定位网页的链接地址信息,优选地,所述结果地址包括同一资源定位符(URL,Universal Resource Location)。
其中,所述预定获取规则包括但不限于以下任一项:
1)按照搜索结果中的结果地址的排序来预定个数的结果地址;
例如,预定每次获取排名前N的结果地址,其中,本领域技术人员可根据实际情况和需求来确定N的数值。
2)根据搜索结果的呈现方式,获取一个搜索结果网页上呈现的多个结果地址。
例如,搜索结果页中每页展示20个结果地址,则计算机设备获取20个结果地址。
3)随机获取预定个数的结果地址等。
接着,在步骤S2中,计算机设备对所获得的各个结果地址,模拟移动设备对所述各个结果地址信息发起访问请求,以接收与所述各个结果地址分别对应的、并与该移动设备相适应的网页相关信息。
其中,所述网页相关信息包括但不限于以下任一项;
1)网页地址信息;例如,URL等;
2)网页内容信息,例如,所述结果地址对应的网页中所包含的文本内容信息等。
具体地,所述计算机设备对各个结果地址,模拟移动设备对各个结果地址发起访问请求;则各个结果地址所对应的第三方网站根据所述移动设备,对各个结果地址执行相应的适配转换操作,以向所述计算机设备提供与其模拟的该移动设备相适应的网页相关信息。
根据本发明的第一示例,计算机设备对步骤S1中所获得的结果地址www.sohu.com,模拟iPhone手机,对该结果地址发起访问请求;则该结果地址所属的第三方网站自动对该结果地址执行适配转换操作,并反馈与iPhone手机相适应的网络链接地址m.sohu.com,则计算机设备接收与所模拟的iPhone手机相适应的网络链接地址“m.sohu.com”。
根据本发明的一个优选实施例,根据本发明的方法还包括步骤S3(图未示)。
在步骤S3中,计算机设备根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,对所述搜索结果执行去重操作。
具体地,所述计算机设备根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,确定搜索结果中包含的与各个结果地址对应的重复信息,并去除所述重复信息。
作为本实施例的一个优选方案,在根据本实施例的步骤S2中,计算机设备对所获得的各个结果地址,分别模拟不同类型的移动设备对所述各个结果地址发起访问请求,以获取与所述各个结果地址分别对应的、并基于该类型的移动设备进行适配转换后的网页相关信息。
其中,所述移动设备的类型基于以下任一种信息来确定:
1)移动设备型号;
2)移动设备所采用的操作***;
3)移动设备发起访问请求所采用的浏览器。
接着,在根据本实施例的步骤S3中,计算机设备根据所述一个或多个结果地址信息以及与各个结果地址分别对应的、并基于不同类型的移动设备进行适配转换后获得的至少一个网页相关信息,对所述搜索结果执行去重操作。
根据本实施例的又一优选方案,所述网页相关信息包括网页地址信息,其中,所述步骤S3进一步包括步骤S301(图未示)和步骤S302(图未示)。
在步骤S301中,计算机设备根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表,其中,所述地址对应表包含至少一个结果地址及其对应的网页地址信息。
其中,所述地址对应表中包含一组或多组地址信息,其中,各组地址信息中分别包含多个指向相同或相似网页的地址信息。
继续对前述第一示例进行说明,计算机设备根据所获得的与结果地址“www.sohu.com”对应的网页地址信息“m.sohu.com”,在地址对应表中分别查询结果地址“www.sohu.com”以及网页地址信息“m.sohu.com”,并获得包含结果地址“www.sohu.com”的一组地址信息如下表1所示:
表1
序号 地址信息
1 www.sohu.com
2 wap.sohu.com
则计算机设备将与结果地址“www.sohu.com”对应的网页地址信息“m.sohu.com”添加至该组地址信息中,以获得更新后的该组地址信息如下表2所示:
表2
序号 地址信息
1 www.sohu.com
2 wap.sohu.com
3 m.sohu.com
接着,在步骤S302中,计算机设备基于所述地址对应表,对所述搜索结果执行去重操作。
具体地,计算机设备将搜索结果中的各个结果地址与地址对应表中的各组地址信息进行比较,当搜索结果中包含多个属于同一组地址信息的结果地址时,保留该多个结果地址中的一个结果地址,并由搜索结果中去除该多个结果地址中的其他结果地址。
继续对前述第一示例进行说明,计算机设备将表2中的各个地址信息与搜索结果中的各个结果地址进行比较,并确定搜索结果中包含结果地址“www.sohu.com”和结果地址信息“m.sohu.com”,则计算机设备保留最先匹配到的结果地址“www.sohu.com”,并去除搜索结果中的另一结果地址“m.sohu.com”。
优选地,根据本实施例的方案,在步骤S302之前还包括步骤S4(图未示)和步骤S5(图未示)。
在步骤S4中,计算机设备检测所述地址对应表中的各个结果地址是否有效。
接着,在步骤S5中,当所检测的结果地址无效时,计算机设备将该结果地址从所述地址对应表中删除。
继续对前述第一示例进行说明,当计算机设备获得表2后,检测地址对应表中的各个地址信息是否有效,并确定表2中的地址信息“wap.sohu.com”已经失效,则计算机设备将该地址信息从表2中删除,则检测后的该组地址信息如下表3所示:
表3
序号 地址信息
1 www.sohu.com
2 m.sohu.com
根据本实施例的又一个优选方案,所述网页相关信息包括网页内容信息,其中,所述步骤S3进一步包括步骤S301′(图未示)和步骤S302′(图未示)。
在步骤S301′中,计算机设备将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得包含一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址。
具体地,计算机设备将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得包含一组或多组结果地址的方式包括但不限于以下任一种:
1)计算机设备直接将所获得的网页内容信息两两进行比对。
2)计算机设备根据与所述一个或多个结果地址分别对应的网页内容信息,获取各个网页内容信息所对应的特征信息;接着,计算机设备将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得所对应的网页内容信息相似的多个结果地址。
其中,所述特征信息包括但不限于各个网页内容信息中所包含的一个或多个关键词。优选地,所述特征信息中还包括与各个关键词对应的权重信息。
其中,计算机设备获取各个网页内容信息所对应的特征信息的方式包括但不限于以下任一种:
i)对所获得的各个网页内容信息分别进行切词以获得多个关键词,并计算各个关键词在其所属网页内容信息中的权重信息,并将所获得的关键词及其权重信息作为相应的网页内容信息的特征信息。
优选地,所述权重信息根据关键词在其所述的网页内容信息中的出现频次来确定。例如,将关键词在其所述的网页内容信息中的词频逆文档频率(TF-IDF,termfrequency-inverse document frequency)值作为权重值的方式等。
ii)通过预建立的主题模型获取与各个网页内容信息对应的特征信息。其中,本领域技术人员应能根据实际情况与需求来确定所采用的主题模型,此处不再赘述。
其中,计算机设备将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得所对应的网页内容信息相似的多个结果地址的方式包括但不限于:采用向量计算等方式来获取两个网页内容信息之间的相似度,并当相似度满足预定阈值条件时,确定该两个网页内容信息相似。
例如,计算机设备在步骤S1中获得20个结果地址URL_1至URL_2,并且,计算机设备在步骤S2中模拟移动设备对该20个结果地址分别发起访问请求,以分别接收各个结果地址对应的网页的网页内容信息;接着,计算机设备通过预定的主题模型,获得与该20个结果地址分别对应的特征信息,并且,将结果地址URL_1对应的特征信息分别与URL_2,URL_3,URL_4,...,URL_20这19个其余的结果地址各自对应的特征信息进行比较以获得所有与URL_1相似的结果地址,接着,将URL_2与URL_3,URL_4,...,URL_20这18个余下的结果地址各自对应的特征信息进行比较,以获得所有与URL_2相似的结果地址,如此重复,直至所有结果地址之间均两两进行了比较,并根据比较确定,确定URL1、URL3、URL5、URL6为相似的结果地址,URL2、URL4为相似的结果地址。
接着,在步骤S302′中,计算机设备根据所获得的一组或多组结果地址来对所述搜索结果执行去重操作。
具体地,计算机设备根据所获得的一组或多组结果地址来对所述搜索结果执行去重操作的方式包括但不限于以下任一种:
1)计算机设备将搜索结果中的各个结果地址与根据步骤S301′中确定的一组或多组结果地址进行比较,当搜索结果中包含多个属于同一组的结果地址时,保留该多个结果地址中的一个结果地址,并由搜索结果中去除该多个结果地址中的其他结果地址。
2)计算机设备根据所获得的一组或多组结果地址来更新内容对应表,其中,所述内容对应表中包含至少一组所对应的网页内容信息相似的结果地址;接着,计算机设备根据所述内容对应表,对所述搜索结果执行去重操作。
其中,所述计算机设备根据所获得的一组或多组结果地址来更新内容对应表的方式与前述计算机设备根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表的方式相同或相似,此处不再赘述。
其中,计算机设备根据所述内容对应表,对所述搜索结果执行去重操作的方式与前述计算机设备基于所述地址对应表,对所述搜索结果执行去重操作的方式相同或相似,此处不再赘述。
优选地,根据本实施例的方法还包括步骤S6(图未示)和步骤S7(图未示)。
在步骤S6中,计算机设备检测所述内容对应表中的各个结果地址是否有效。
接着,在步骤S7中,当所检测的结果地址无效时,计算机设备将该结果地址从所述内容对应表中删除。
需要说明的是,所述步骤S6和步骤S7在计算机设备根据所述内容对应表,对所述搜索结果执行去重操作之前执行。
根据本发明的方法,能够有效地去除搜索结果中所包含的重复的结果地址,从而在保证搜索结果全面性的前提下,精简了搜索结果的内容,并且,减少了用户设备的流量负担。
图2示意出了根据本发明的一个方面的用于对搜索结果进行处理的搜索处理装置的结构示意图。其中,所述搜索结果包括至少一个结果地址信息。根据本发明的方法包括第一获取装置1和第二获取装置2。
根据本发明的搜索处理装置可模拟移动设备发起访问请求,其中,所述移动设备包括但不限于何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的手持式电子产品。优选地,所述移动设备包括但不限于平板电脑、智能手机、PDA、游戏机等。
优选地,所述计算机设备通过发送移动设备的设备相关信息来模拟移动设备发起请求。其中,所述设备相关信息包括但不限于以下任一项信息:
1)移动设备型号;例如,Nokia N90、iPhone 4s,又例如,iPad 2、iPad mini等。
2)移动设备所采用的操作***;例如,iOS、Android等。
3)移动设备发起访问请求所采用的浏览器;例如,safari,Opera,百度浏览器等。
需要说明的是,所述计算机设备、移动设备以及网络仅为举例,其他现有的或今后可能出现的用户设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图2,第一获取装置1获取搜索结果中的一个或多个结果地址。
具体地,第一获取装置1根据预定获取规则,获取搜索结果中的一个或多个结果地址。其中,所述结果地址包括用于定位网页的链接地址信息,优选地,所述结果地址包括同一资源定位符(URL,Universal Resource Location)。
其中,所述预定获取规则包括但不限于以下任一项:
1)按照搜索结果中的结果地址的排序来预定个数的结果地址;
例如,预定每次获取排名前N的结果地址,其中,本领域技术人员可根据实际情况和需求来确定N的数值。
2)根据搜索结果的呈现方式,获取一个搜索结果网页上呈现的多个结果地址。
例如,搜索结果页中每页展示20个结果地址,则计算机设备获取20个结果地址。
3)随机获取预定个数的结果地址等。
接着,第二获取装置2对所获得的各个结果地址,模拟移动设备对所述各个结果地址信息发起访问请求,以接收与所述各个结果地址分别对应的、并与该移动设备相适应的网页相关信息。
其中,所述网页相关信息包括但不限于以下任一项;
1)网页地址信息;例如,URL等;
2)网页内容信息,例如,所述结果地址对应的网页中所包含的文本内容信息等。
具体地,第二获取装置2对各个结果地址,模拟移动设备对各个结果地址发起访问请求;则各个结果地址所对应的第三方网站根据所述移动设备,对各个结果地址执行相应的适配转换操作,以向第二获取装置2提供与其模拟的该移动设备相适应的网页相关信息。
根据本发明的第一示例,第一获取装置1获得结果地址www.sohu.com,则第二获取装置2模拟iPhone手机,对该结果地址发起访问请求;该结果地址所属的第三方网站自动对该结果地址执行适配转换操作,并反馈与iPhone手机相适应的网络链接地址m.sohu.com,则第二获取装置2接收与所模拟的iPhone手机相适应的网络链接地址“m.sohu.com”。
根据本发明的一个优选实施例,根据本实施例的搜索处理装置还包括去重装置(图未示)。
去重装置根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,对所述搜索结果执行去重操作。
具体地,所述去重装置根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,确定搜索结果中包含的与各个结果地址对应的重复信息,并去除所述重复信息。
作为本实施例的一个优选方案,在根据本实施例第二获取装置2对所获得的各个结果地址,分别模拟不同类型的移动设备对所述各个结果地址发起访问请求,以获取与所述各个结果地址分别对应的、并基于该类型的移动设备进行适配转换后的网页相关信息。
其中,所述移动设备的类型基于以下任一种信息来确定:
1)移动设备型号;
2)移动设备所采用的操作***;
3)移动设备发起访问请求所采用的浏览器。
接着,根本实施例的去重装置根据所述一个或多个结果地址信息以及与各个结果地址分别对应的、并基于不同类型的移动设备进行适配转换后获得的至少一个网页相关信息,对所述搜索结果执行去重操作。
根据本实施例的又一优选方案,所述网页相关信息包括网页地址信息,其中,所述去重装置进一步包括第一更新装置(图未示)和第一子去重装置(图未示)。
第一更新装置根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表,其中,所述地址对应表包含至少一个结果地址及其对应的网页地址信息。
其中,所述地址对应表中包含一组或多组地址信息,其中,各组地址信息中分别包含多个指向相同或相似网页的地址信息。
继续对前述第一示例进行说明,第一更新装置根据所获得的与结果地址“www.sohu.com”对应的网页地址信息“m.sohu.com”,在地址对应表中分别查询结果地址“www.sohu.com”以及网页地址信息“m.sohu.com”,并获得包含结果地址“www.sohu.com”的一组地址信息如下表4所示:
表4
序号 地址信息
1 www.sohu.com
2 wap.sohu.com
则第一更新装置将与结果地址“www.sohu.com”对应的网页地址信息“m.sohu.com”添加至该组地址信息中,以获得更新后的该组地址信息如下表5所示:
表5
序号 地址信息
1 www.sohu.com
2 wap.sohu.com
3 m.sohu.com
接着,第一子去重装置基于所述地址对应表,对所述搜索结果执行去重操作。
具体地,第一子去重装置将搜索结果中的各个结果地址与地址对应表中的各组地址信息进行比较,当搜索结果中包含多个属于同一组地址信息的结果地址时,保留该多个结果地址中的一个结果地址,并由搜索结果中去除该多个结果地址中的其他结果地址。
继续对前述第一示例进行说明,第一子去重装置将表2中的各个地址信息与搜索结果中的各个结果地址进行比较,并确定搜索结果中包含结果地址“www.sohu.com”和结果地址信息“m.sohu.com”,则第一子去重装置保留最先匹配到的结果地址“www.sohu.com”,并去除搜索结果中的另一结果地址“m.sohu.com”。
优选地,根据本实施例的搜索处理装置还包括第一检测装置(图未示)和第一删除装置(图未示)。
第一检测装置检测所述地址对应表中的各个结果地址是否有效。
接着,当所检测的结果地址无效时,第一删除装置将该结果地址从所述地址对应表中删除。
继续对前述第一示例进行说明,第一检测装置检测地址对应表中的各个地址信息是否有效,并确定表2中的地址信息“wap.sohu.com”已经失效,则第一删除装置将该地址信息从表2中删除,则检测后的该组地址信息如下表6所示:
表6
序号 地址信息
1 www.sohu.com
2 m.sohu.com
需要说明的是,第一检测装置和第一删除装置在第一子去重装置之前执行操作。
根据本实施例的又一个优选方案,所述网页相关信息包括网页内容信息,其中,所述去重装置进一步包括第三获取装置(图未示)和第二子去重装置(图未示)。
第三获取装置将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得包含一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址。
具体地,第三获取装置将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得包含一组或多组结果地址的方式包括但不限于以下任一种:
1)第三获取装置直接将所获得的网页内容信息两两进行比对。
2)第三获取装置中的第一子获取装置(图未示)根据与所述一个或多个结果地址分别对应的网页内容信息,获取各个网页内容信息所对应的特征信息;接着,第三获取装置中的第二子获取装置(图未示)将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得所对应的网页内容信息相似的多个结果地址。
其中,所述特征信息包括但不限于各个网页内容信息中所包含的一个或多个关键词。优选地,所述特征信息中还包括与各个关键词对应的权重信息。
其中,第一子获取装置获取各个网页内容信息所对应的特征信息的方式包括但不限于以下任一种:
i)对所获得的各个网页内容信息分别进行切词以获得多个关键词,并计算各个关键词在其所属网页内容信息中的权重信息,并将所获得的关键词及其权重信息作为相应的网页内容信息的特征信息。
优选地,所述权重信息根据关键词在其所述的网页内容信息中的出现频次来确定。例如,将关键词在其所述的网页内容信息中的词频逆文档频率(TF-IDF,termfrequency-inverse document frequency)值作为权重值的方式等。
ii)通过预建立的主题模型获取与各个网页内容信息对应的特征信息。其中,本领域技术人员应能根据实际情况与需求来确定所采用的主题模型,此处不再赘述。
其中,第一子获取装置将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得所对应的网页内容信息相似的多个结果地址的方式包括但不限于:通过计算特征信息的向量夹角等方式来获取两个网页内容信息之间的相似度,并当相似度满足预定阈值条件时,确定该两个网页内容信息相似。
例如,第一获取装置1获得20个结果地址URL_1至URL_2,第二获取装置2模拟移动设备对该20个结果地址分别发起访问请求,以分别接收各个结果地址对应的网页的网页内容信息;接着,第一子获取装置通过预定的主题模型,获得与该20个结果地址分别对应的特征信息,并且,第二子获取装置将结果地址URL_1对应的特征信息分别与URL_2,URL_3,URL_4,...,URL_20这19个其余的结果地址各自对应的特征信息进行比较以获得所有与URL_1相似的结果地址,接着,将URL_2与URL_3,URL_4,...,URL_20这18个余下的结果地址各自对应的特征信息进行比较,以获得所有与URL_2相似的结果地址,如此重复,直至所有结果地址之间均两两进行了比较,并根据比较确定,确定URL1、URL3、URL5、URL6为相似的结果地址,URL2、URL4为相似的结果地址。
接着,第二子去重装置根据所获得的一组或多组结果地址来对所述搜索结果执行去重操作。
具体地,第二子去重装置根据所获得的一组或多组结果地址来对所述搜索结果执行去重操作的方式包括但不限于以下任一种:
1)计算机设备将搜索结果中的各个结果地址与第三获取装置所获得的一组或多组结果地址进行比较,当搜索结果中包含多个属于同一组的结果地址时,保留该多个结果地址中的一个结果地址,并由搜索结果中去除该多个结果地址中的其他结果地址。
2)第二子去重装置中的第二更新装置(图未示)根据所获得的一组或多组结果地址来更新内容对应表,其中,所述内容对应表中包含至少一组所对应的网页内容信息相似的结果地址;接着,第二子去重装置中的第三子去重装置(图未示)根据所述内容对应表,对所述搜索结果执行去重操作。
其中,所述第二更新装置根据所获得的一组或多组结果地址来更新内容对应表的方式与前述第一更新装置根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表的方式相同或相似,此处不再赘述。
其中,第三子去重装置根据所述内容对应表,对所述搜索结果执行去重操作的方式与前述第一子去重装置基于所述地址对应表,对所述搜索结果执行去重操作的方式相同或相似,此处不再赘述。
优选地,根据本实施例的搜索处理装置还包括第二检测装置(图未示)和第二删除装置(图未示)。
第二检测装置检测所述内容对应表中的各个结果地址是否有效。
接着,当所检测的结果地址无效时,第二删除装置将该结果地址从所述内容对应表中删除。
需要说明的是,所述第二检测装置和第二删除装置在第三子去重装置之前执行操作。
根据本发明的方案,能够有效地去除搜索结果中所包含的重复的结果地址,从而在保证搜索结果全面性的前提下,精简了搜索结果的内容,并且,减少了用户设备的流量负担。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种用于对搜索结果进行处理的方法,其中,所述搜索结果包括至少一个结果地址信息,其中,所述方法包括以下步骤:
a获取搜索结果中的一个或多个结果地址;
b对所获得的各个结果地址,分别模拟不同类型的移动设备对所述各个结果地址发起访问请求,以获取与所述各个结果地址分别对应的、并基于该类型的移动设备进行适配转换后的网页相关信息;
其中,所述方法还包括以下步骤:
m根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,对所述搜索结果执行去重操作。
2.根据权利要求1所述的方法,其中,所述步骤m包括以下步骤:
-根据所述一个或多个结果地址信息以及与各个结果地址分别对应的、并基于不同类型的移动设备进行适配转换后获得的至少一个网页相关信息,对所述搜索结果执行去重操作。
3.根据权利要求1或2所述的方法,其中,所述网页相关信息包括网页地址信息,所述步骤m包括以下步骤:
m1根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表,其中,所述地址对应表包含至少一个结果地址及其对应的网页地址信息;
m2基于所述地址对应表,对所述搜索结果执行去重操作。
4.根据权利要求3所述的方法,其中,所述方法还包括以下步骤:
-检测所述地址对应表中的各个结果地址是否有效;
-当所检测的结果地址无效时,将该结果地址从所述地址对应表中删除。
5.根据权利要求1或2所述的方法,其中,所述网页相关信息包括网页内容信息,所述步骤m包括以下步骤:
m1’将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得包含一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址;
m2’根据所获得的多个结果地址来对所述搜索结果执行去重操作。
6.根据权利要求5所述的方法,其中,所述步骤m1’包括以下步骤:
-根据与所述一个或多个结果地址分别对应的网页内容信息,获取各个网页内容信息所对应的特征信息;
-将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得包含一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址。
7.根据权利要求5所述的方法,其中,所述步骤m2’包括以下步骤:
-根据所获得的一组或多组结果地址来更新内容对应表,其中,所述内容对应表中包含至少一组所对应的网页内容信息相似的结果地址;
-根据所述内容对应表,对所述搜索结果执行去重操作。
8.根据权利要求7所述的方法,其中,所述方法还包括以下步骤:
-检测所述内容对应表中的各个结果地址是否有效;
-当所检测的地址信息无效时,将该结果地址从所述内容对应表中删除。
9.一种用于对搜索结果进行处理的搜索处理装置,其中,所述搜索结果包括至少一个结果地址信息,其中,所述搜索处理装置包括:
第一获取装置,用于获取搜索结果中的一个或多个结果地址;
第二获取装置,用于对所获得的各个结果地址,分别模拟不同类型的移动设备对所述各个结果地址发起访问请求,以获取与所述各个结果地址分别对应的、并基于该类型的移动设备进行适配转换后的网页相关信息;
其中,所述搜索处理装置还包括:
去重装置,用于根据所述一个或多个结果地址,以及所获得的、与各个结果地址信息对应的网页相关信息,对所述搜索结果执行去重操作。
10.根据权利要求9所述的搜索处理装置,其中,所述去重装置用于:
-根据所述一个或多个结果地址信息以及与各个结果地址分别对应的、并基于不同类型的移动设备进行适配转换后获得的至少一个网页相关信息,对所述搜索结果执行去重操作。
11.根据权利要求9或10所述的搜索处理装置,其中,所述网页相关信息包括网页地址信息,所述去重装置包括:
第一更新装置,用于根据所述一个或多个结果地址,以及所获得的与各个结果地址信息分别对应的网页地址信息,来更新地址对应表,其中,所述地址对应表包含至少一个结果地址及其对应的网页地址信息;
第一子去重装置,用于基于所述地址对应表,对所述搜索结果执行去重操作。
12.根据权利要求11所述的搜索处理装置,其中,所述搜索处理装置还包括:
第一检测装置,用于检测所述地址对应表中的各个结果地址是否有效;
第一删除装置,用于当所检测的结果地址无效时,将该结果地址从所述地址对应表中删除。
13.根据权利要求9或10所述的搜索处理装置,其中,所述网页相关信息包括网页内容信息,所述去重装置包括:
第三获取装置,用于将所述一个或多个结果地址分别对应的网页内容信息进行两两比较,以获得一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址;
第二子去重装置,用于根据所获得的多个结果地址来对所述搜索结果执行去重操作。
14.根据权利要求13所述的搜索处理装置,其中,所述第三获取装置包括:
第一子获取装置,用于根据与所述一个或多个结果地址分别对应的网页内容信息,获取各个网页内容信息所对应的特征信息;
第二子获取装置,用于将与所述一个或多个结果地址分别对应的网页内容信息的特征信息进行两两比较,以获得一组或多组结果地址,其中,各组结果地址中分别包含多个网页内容信息相似的结果地址。
15.根据权利要求13所述的搜索处理装置,其中,所述第二子去重装置包括:
第二更新装置,用于根据所获得的一组或多组结果地址来更新内容对应表,其中,所述内容对应表中包含至少一组所对应的网页内容信息相似的结果地址;
第三子去重装置,用于根据所述内容对应表,对所述搜索结果执行去重操作。
16.根据权利要求15所述的搜索处理装置,其中,所述搜索处理装置还包括:
第二检测装置,用于检测所述内容对应表中的各个结果地址是否有效;
第二删除装置,用于当所检测的地址信息无效时,将该结果地址从所述内容对应表中删除。
CN201310126422.9A 2013-04-12 2013-04-12 一种用于对搜索结果进行处理的方法和装置 Active CN103258005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310126422.9A CN103258005B (zh) 2013-04-12 2013-04-12 一种用于对搜索结果进行处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310126422.9A CN103258005B (zh) 2013-04-12 2013-04-12 一种用于对搜索结果进行处理的方法和装置

Publications (2)

Publication Number Publication Date
CN103258005A CN103258005A (zh) 2013-08-21
CN103258005B true CN103258005B (zh) 2017-02-08

Family

ID=48961923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310126422.9A Active CN103258005B (zh) 2013-04-12 2013-04-12 一种用于对搜索结果进行处理的方法和装置

Country Status (1)

Country Link
CN (1) CN103258005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302202B (zh) * 2015-05-15 2020-07-28 阿里巴巴集团控股有限公司 数据限流方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072935B2 (en) * 2000-04-28 2006-07-04 Agilent Technologies, Inc. Filtering web proxy for recording web-based transactions that supports secure HTTP steps
CN101233510A (zh) * 2005-07-26 2008-07-30 泰普有限公司 处理并基于无线网络将搜索结果发送到移动设备
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备
US8285702B2 (en) * 2008-08-07 2012-10-09 International Business Machines Corporation Content analysis simulator for improving site findability in information retrieval systems

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779013B2 (en) * 2005-11-04 2010-08-17 Xerox Corporation System and method for determining a quantitative measure of search efficiency of related web pages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072935B2 (en) * 2000-04-28 2006-07-04 Agilent Technologies, Inc. Filtering web proxy for recording web-based transactions that supports secure HTTP steps
CN101233510A (zh) * 2005-07-26 2008-07-30 泰普有限公司 处理并基于无线网络将搜索结果发送到移动设备
US8285702B2 (en) * 2008-08-07 2012-10-09 International Business Machines Corporation Content analysis simulator for improving site findability in information retrieval systems
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备

Also Published As

Publication number Publication date
CN103258005A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
US20140195893A1 (en) Method and Apparatus for Generating Webpage Content
CN104471582B (zh) 对搜索引擎跟踪的防御
CN108460148B (zh) 一种获取商品附加信息的方法及相关设备
CN103207892B (zh) 一种用于经由网络分享文档的方法和装置
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CA2612895A1 (en) Systems and methods for providing search results
CN105956161A (zh) 一种信息推荐方法和装置
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN102436563A (zh) 一种检测页面篡改的方法及装置
CN107508984A (zh) 消息显示方法、***、电子设备及计算机可读存储介质
CN107239566A (zh) 用户日志生成方法、电子设备及计算机存储介质
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN106603490A (zh) 一种钓鱼网站的检测方法和***
CN102402535A (zh) 一种建设产品库的方法及***
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN103365842A (zh) 一种页面浏览推荐方法及装置
CN103365932A (zh) 一种网页搜索方法和装置
CN105095260B (zh) 针对搜索引擎优化的网页处理方法及装置
CN106168968A (zh) 一种网站分类方法及装置
CN104158697B (zh) 一种死链检测方法及装置
CN105653550A (zh) 网页过滤方法和装置
CN103258005B (zh) 一种用于对搜索结果进行处理的方法和装置
CN104933099A (zh) 一种为用户提供目标搜索结果的方法与装置
CN103258004B (zh) 一种用于对搜索结果进行处理的方法和装置
US10282482B2 (en) Data provision device, data provision method, and data provision program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant