CN103678311A - 基于中转模式的网页访问方法及***、抓取路径服务器 - Google Patents

基于中转模式的网页访问方法及***、抓取路径服务器 Download PDF

Info

Publication number
CN103678311A
CN103678311A CN201210319292.6A CN201210319292A CN103678311A CN 103678311 A CN103678311 A CN 103678311A CN 201210319292 A CN201210319292 A CN 201210319292A CN 103678311 A CN103678311 A CN 103678311A
Authority
CN
China
Prior art keywords
server
access
network speed
crawl
targeted website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210319292.6A
Other languages
English (en)
Other versions
CN103678311B (zh
Inventor
李�瑞
徐羽
陈德贤
钭伟雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210319292.6A priority Critical patent/CN103678311B/zh
Priority to SG11201404293XA priority patent/SG11201404293XA/en
Priority to PCT/CN2013/082342 priority patent/WO2014032563A1/en
Priority to US14/102,840 priority patent/US9503506B2/en
Publication of CN103678311A publication Critical patent/CN103678311A/zh
Application granted granted Critical
Publication of CN103678311B publication Critical patent/CN103678311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/04Protocols specially adapted for terminals or networks with limited capabilities; specially adapted for terminal portability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/121Shortest path evaluation by minimising delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/563Data redirection of data network streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于中转模式的网页访问方法及***、抓取路径服务器,属于计算机技术领域。所述方法包括:接收客户端发送的网页访问请求,网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。本发明实施例的技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,为客户端提供了访问目标网站的最佳路径即网速最快的路径,本发明实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。

Description

基于中转模式的网页访问方法及***、抓取路径服务器
技术领域
本发明涉及计算机技术领域,特别涉及一种基于中转模式的网页访问方法及***、抓取路径服务器。
背景技术
随着移动互联网的飞速发展以及手机普及率的快速增长,使用手机的浏览器客户端进行搜索、网上冲浪的用户越来越多,需求也越来越大。
目前的手机的浏览器客户端访问网页的方式主要有两种:直连模式和中转模式。所谓直连模式就是手机的浏览器客户端采用超文本传送协议(hypertexttransport protocol;http)通过移动网络直接与要访问的目标网站建立传输控制协议(t ransmission control protocol;tcp)连接进行数据的交互。而中转模式则是手机的浏览器客户端采用http协议或者其他协议与中转服务器建立tcp连接,而后中转服务器采用代理的方式将手机的浏览器客户端发送的http请求发送到目标网站服务器,并在收到目标网站服务器返回的响应后再转发给手机的浏览器客户端。中转模式相对于直连模式可以借助多种方式减少网络流量的消耗,同时可以更快地响应用户的请求,给用户更好的体验。且现有市场占大半份额的低端手机内存小、中央处理器(Central Processing Unit;CPU)能力弱,手机浏览器客户端也无法执行JavaScript(简称js)和渲染页面,因此采用中转模式访问网页是最佳的方案。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有的网络机制下,一个网站中可能部署有多个网络环境,而现有技术的中转模式下,中转服务器仅采用代理的方式将手机的浏览器客户端发送的http请求发送到目标网站服务器,而中转服务器和目标网站服务器有可能属于不同的网络环境,导致访问网速较慢,访问效率较低。
发明内容
为了解决上述技术问题,本发明实施例提供了一种基于中转模式的网页访问方法及***、抓取路径服务器。所述技术方案如下:
一方面,提供了一种基于中转模式的网页访问方法,所述方法包括:
接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
可选地,如上所述的方法中,所述至少一个抓取服务器分别对应不同的网络服务提供商。
可选地,如上所述的方法中,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接时间的倒数获取的;
存储所述抓取服务器上一次访问所述目标网站的网速。
可选地,如上所述的方法中,存储所述抓取服务器上一次访问所述目标网站的网速之后,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器,包括:
从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
可选地,如上所述的方法中,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
可选地,如上所述的方法中,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;
Figure BDA00002084534800033
表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
可选地,如上所述的方法中,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
定期检测所述至少一个抓取服务器访问所述目标网站的网速。
另一方面,提供了一种抓取路径服务器,包括:
接收模块,用于接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
获取模块,用于从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
发送模块,用于向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
可选地,如上所述的抓取路径服务器中,所述至少一个抓取服务器分别对应不同的网络服务提供商。
可选地,如上所述的抓取路径服务器中,还包括存储模块;
所述接收模块,还用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接时间的倒数获取的;
所述存储模块,用于存储所述接收模块接收的所述抓取服务器上一次访问所述目标网站的网速。
可选地,如上所述的抓取路径服务器中,还包括计算模块;
所述计算模块,用于在所述存储模块存储所述抓取服务器上一次访问所述目标网站的网速之后,所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的所述目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
所述获取模块,具体用于从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
可选地,如上所述的抓取路径服务器中,
所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
可选地,如上所述的抓取路径服务器中,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;
Figure BDA00002084534800052
表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
可选地,如上所述的抓取路径服务器中,还包括:
检测模块,用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测所述至少一个抓取服务器访问所述目标网站的网速。
再一方面,提供了一种基于中转模式的网页访问***,包括客户端、至少一个抓取服务器和如上任一所述的抓取路径服务器。
本发明实施例提供的基于中转模式的网页访问方法及***、抓取路径服务器,通过接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本发明实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本发明实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的基于中转模式的网页访问方法的流程图。
图2为本发明实施例二提供的基于中转模式的网页访问方法的信令图。
图3为本发明实施例三提供的抓取路径服务器的结构示意图。
图4为本发明实施例四提供的抓取路径服务器的结构示意图,
图5为本发明实施例五提供的基于中转模式的网页访问***的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
图1为本发明实施例一提供的基于中转模式的网页访问方法的流程图。如图1所示,本实施例的基于中转模式的网页访问方法的执行主体为抓取路径服务器(Crawler Route Server)。如图1所示,本实施例的基于中转模式的网页访问方法,具体可以包括如下步骤:
100、接收客户端发送的网页访问请求,该网页访问请求中携带要访问的目标网站的标识;
例如目标网站的标识可以为目标网站的统一资源定位符(Uniform/Universal Resource Locator;URL),即目标网站的网址。
需要说明的是,本实施例中接收客户端发送的网页访问请求具体还可以为接收接入服务器转发的客户端发送的网页访问请求。此时对应的,在网络中还存在接入服务器,该接入服务器用于接收客户端的访问请求,并将该访问请求转发给抓取路径服务器。
101、从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;
例如,本发明实施例的技术方案中,根据互联网服务提供商(InternetService Provider;ISP)的不同,一个网络环境下可以部署多个抓取服务器(Crawler Server),每一个抓取服务器对应一个ISP,从而可以将抓取服务器部署在电信、移动、联通和教育网中,可以分别命名为电信抓取服务器CrawlerTelServer、移动抓取服务器CrawlerMobileServer、联通抓取服务器CrawlerUnicomServer、教育抓取服务器CrawlerEduServer。
在网络访问中,跨网络访问网站会带来很大的网络时延,导致访问网速较慢。比如从电信机房的机器去访问部署在联通机房的某个网站,那么跨网带来的时延可能由ms级别上升到s级。即使是从电信的机房去访问部署在其他电信机房的网站,如果选择的IP不合适同样有可能造成耗时增高。由此可知,跨网络访问通常会导致访问网速较慢。因此,可选地,在本发明实施例中,访问目标网站的网速最快的目标抓取服务器应该与目标网站属于相同的ISP,使得从该目标抓取服务器访问该目标网站不属于跨网访问,相对于其他的相对于目标网站属于跨网的抓取服务器而言,具有较快的访问网速。
102、向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
需要说明的是,本实施例中,客户端通过目标抓取服务器访问目标网站的实现过程与现有技术中手机的浏览器客户端通过中转服务器访问目标网站的实现机制相类似。本实施例的抓取服务器类似于中转服务器的功能。具体地,目标抓取服务器可以先根据目标网站的域名解析获取目标网站的IP,然后根据目标网站的IP访问目标网站,详细可以参考相关现有技术,在此不再赘述。
本实施例的基于中转模式的网页访问方法适用于通过手机之类的移动终端访问网页的场景,其中本发明实施例中的客户端具体可以为移动终端上的浏览器客户端。
本实施例的基于中转模式的网页访问方法,通过接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
可选地,在上述图1所示实施例的技术方案的基础上,在步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”之前,还可以包括:对于至少一个抓取服务器中的每一个抓取服务器,接收抓取服务器上报的上一次访问目标网站的网速;其中该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站的过程中,抓取服务器与目标网站的连接时间的倒数获取的;并存储抓取服务器上一次访问目标网站的网速。进一步可选地,该步骤也可以在步骤100之前进行。
由于连接时间越长表示网络状况越差,访问的网速越慢,连接时间越短表示网络状况越好,访问网速越快。因此本发明实施例中,该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站的过程中,抓取服务器与目标网站的连接时间的倒数获取的,具体地,访问网速可以等于连接时间的倒数乘以一个常数,该常数可以根据实际情况确定。
需要说明的是,实际应用中,反应网络状况的数据有很多,比如耗时、丢包率等等。抓取服务器作为HTTP代理服务器,可以精确的获取到HTTP请求处理的各个阶段耗时:连接时间、发送请求时间、等待响应时间、接收数据时间。其中连接时间最能准确反应抓取出口到网站WebServer的网络状况,其耗时越短说明网络状况越好。因此本发明实施例中的网速正是来源于连接时间。可选地,查看A机器到B机器的网络好坏最常用的方法就是Ping,因此需要将连接时间与Ping的结果进行对比,以此来判断连接时间作为网速值的可靠度有多大。为此选择了一些访问量大的网站进行测试,例如表1所示,具体的Ping的结果和连接时间如表1所示。通过表1可以看出,连接时间与Ping值几乎完全吻合,因此连接时间是可以准确反应网络状况的。因此本发明实施例中可以利用连接时间的倒数大小来确定访问网速的大小。连接时间越长,表示网络状态越不好,访问网速越小;连接时间越短,表示网络状态越好,访问网速越大。
表1
Figure BDA00002084534800081
且上述实施例的技术方案中,由于各抓取服务器均有可能访问该目标网站,对于每一个抓取服务器,在其访问目标网站之后,需要其向抓取路径服务器上报访问该目标网站的网速。按照类似的实现机制,可以设置任意一个抓取服务器访问任何一个网站之后,都需要向抓取路径服务器上报访问该网站的网速。对应的在抓取路径服务器一侧,在每一个抓取服务器访问网站结束之后,需要接收每一个抓取服务器上报的访问网站的网速。具体地,在抓取路径服务器中,可以采用哪个如下数据结构来保存每一个抓取服务器上报的访问网站的网速数据,具体的数据结构如下:
Figure BDA00002084534800091
其中CrawlerNode表示抓取服务器;节点名称sNodeName表示抓取服务器的名称;节点网速nSpeed表示该抓取服务器访问目标网站的网速;最近一次上报时间点iReportTime为该抓取服务器最后一次上报访问该目标网站的网速的时间点。
Figure BDA00002084534800092
其中CrawlerRouteDbStruct表示抓取路径服务器的数据结构;sDomain表示要访问的目标网站的域名,在该数据结构中,采用域名表示目标网站;抓取节点vCrawlerNodes表示该网络中部署的多个抓取服务器;返回节点sRtnnode表示抓取路径服务器从多个抓取服务器中获取的访问目标网站网速最快的目标抓取服务器,也是返回给客户端的抓取服务器,因此也可以称之为返回节点。
进一步地,在该数据结构中还定义了人工节点sManualnode,该人工节点为抓取路径服务器强制指定的抓取服务器。例如当抓取路径服务器确定当前目标节点为网络提供商,可以强制指定属于同一网络提供商的抓取服务器作为人工节点。由于同一网络提供商的抓取服务器访问属于同一网络提供商的目标网站的网速,相对于抓取服务器访问不属于同一网络提供商的目标网站的网速会更快一些,从而可以保证网络访问网速较快。
而且进一步地如果抓取路径服务器总强制指定人工节点,或者从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器总是其中一个抓取服务器,而其他抓取服务器一直没有工作,可能会造成没有及时更新其他的抓取服务器的访问目标网站的网速。因此还可以定期(如周期性的)测试其他访问目标网站的网速较慢的抓取服务器(节点)访问目标网站的网速,其中iUpdateTime即表示最近一次更新其他网速慢的节点的时间点。进一步可选地,在上述实施例的技术方案的基础上,“存储抓取服务器上一次访问目标网站的网速”之后,步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”,还可以包括如下步骤:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速。
此时对应的步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”,具体可以包括:从至少一个抓取服务器中获取访问目标网站的有效网速最快的抓取服务器作为目标抓去服务器。
需要说明的是,“对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速”,具体可以包括:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,采用如下公式计算抓取服务器访问目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报访问目标网站的网速。
上述计算方法实现简单,计算量很小,但是存在下面这种问题:比如CrawlTelServer的网速一直是最快的,其他抓取对象的网速相对较慢。但是在很短时间里CrawlTelServer出现了一点波动导致网速值突然变很大,那么计算的结果就是会切换到其他抓取对象,这就是一种误判行为。因此这种方法很难抵抗网络波动导致的误判。
为了有效地解决上述方法很难抵抗网络波动导致的误判的缺陷,“对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速”,具体还可以包括:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速和一常量参数,采用如下公式计算抓取服务器访问目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报的访问目标网站的网速;表示抓取服务器所有次访问目标网站的平均网速;a为常量参数。该计算方法中,通过增加了标准差
Figure BDA00002084534800113
作为计算网速值的一个较小的权重,以此来去除网络波动导致的误判,从而有效地提高了计算抓取服务器访问目标网站的有效网速的计算精度。
进一步可选地,在上述实施例的技术方案的基础上,对于至少一个抓取服务器中的访问过目标网站的抓取服务器,会向抓取路径服务器上报访网速。当抓取路径服务器从至少一个抓取服务器中获取访问目标网站网速最快的目标抓取服务器总是其中一个抓取服务器,而其他抓取服务器一直没有工作,也没有及时更新并上报访问目标网站的网速。由于网络的原因,其他的抓取服务器访问目标网站的网速未必一直小于之前选择的抓取服务访问目标网站的网速,为了避免这种情形发生,步骤101之前,还可以包括:抓取路径服务器还可以定期检测至少一个抓取服务器访问目标网站的网速。尤其是检测其他的近期没有被选择的抓取路径服务器的网速,其检测方式也就是让要检测的抓取服务器访问目标网站,从而得到该检测的抓取服务器访问目标网站的网速。
需要说明的是,“定期检测至少一个抓取服务器访问目标网站的网速”的方法可以和上述至少一个抓取服务器在访问目标网站之后上报访问目标网站网速的方法同时进行。当抓取路径服务器从至少一个抓取服务器中获取访问目标网站网速最快的目标抓取服务器总是其中一个抓取服务器的时候,此时优选地,抓取路径服务器也可以定期检测至少一个抓取服务器中除了被选择的抓取服务器之外的其他抓取路径服务器访问目标网站的网速。
可选地,在上述实施例的技术方案的基础上,当抓取路径服务器还可以根据网络服务器提供商选择目标抓取服务器,由于同一网络提供商的抓取服务器访问属于同一网络提供商的目标网站的网速,相对于抓取服务器访问不属于同一网络提供商的目标网站的网速会更快一些,可以根据目标网站的网络服务器提供商的类型确定访问该目标网站的抓取服务器,具体地,选择与目标网站属于同一网络服务提供商的抓取服务器,例如目标网站为电信网络的网站,目标抓取服务器选择电信抓取服务器CrawlerTelServer;目标网站为移动网络的网站,目标抓取服务器选择移动抓取服务器CrawlerMobileServer;目标网站为联通网络的网站,目标抓取服务器选择联通抓取服务器CrawlerUnicomServer;目标网站为教育网络的网站,目标抓取服务器选择教育抓取服务器CrawlerEduServer。
上述实施例的基于中转模式的网页访问方法中的所有可选技术方案,可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
本实施例的抓取路径服务器,以包括上述所有可选技术方案为例介绍本发明的技术方案,实际应用中,上述所有可选技术方案可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
通过采用上述实施例的技术方案,每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例二
图2为本发明实施例二提供的基于中转模式的网页访问方法的信令图。如图2所示,本实施例的基于中转模式的网页访问方法,具体可以包括如下步骤:
200-203、分别为电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(Crawl erEduServer)在每次抓取返回时,向抓取路径服务器CrawlerRoute Server异步上报访问网站的网速;
本实施例中以至少一个抓取服务器包括电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)、教育抓取服务器(CrawlerEduServer)为例描述本发明的技术方案。本实施例中的每次抓取返回时指的是抓取服务器访问任何一个网站返回时;此时均需要上报访问的网速。本实施例中各抓取服务器上报的访问网站的网速,也可以根据抓取服务器与目标网站的连接时间的倒数获取的,详细亦可以参考上述实施例的相关技术,在此不再赘述。
204、手机浏览器客户端向抓取路径服务器发送访问请求,该访问请求中携带目标网站的标识;
本实施例中以客户端具体为手机浏览器客户端为例描述本发明的技术方案。本实施例中手机浏览器客户端向抓取路径服务器发送的访问请求具体也可以称之为http请求。
205、抓取路径服务器根据记录的电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的网速,分别计算电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的有效网速;
本实施例中计算电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的有效网速详细可以参考上述相关实施例的记载,在此不再赘述。
206、抓取路径服务器从电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)中获取有效网速最大的电信抓取服务器(CrawlerTelServer)作为目标抓取服务器;
本实施例中以电信抓取服务器CrawlerTelServer访问目标网站的有效网速最大为例介绍本发明实施例的技术方案。实际应用中也可以为其他抓取服务器访问目标网站的有效网速最大,在此不再一一举例赘述。
207、抓取路径服务器向客户端返回获取的目标抓取服务器即电信抓取服务器(CrawlerTelServer)的标识;
208、手机浏览器客户端采用电信抓取服务器(CrawlerTelServer)访问目标网站;
即本实施例中手机浏览器客户端调用电信抓取服务器(CrawlerTelServer)访问目标网站。
209、目标网站向电信抓取服务器(CrawlerTelServer)返回访问响应;
210、电信抓取服务器(CrawlerTelServer)向客户端返回访问响应;
211、电信抓取服务器(CrawlerTelServer)向抓取异步路径服务器异步上报此次访问目标网站的网速。
同理,电信抓取服务器(CrawlerTelServer)上报的此次访问目标网站的网速,也可以根据抓取服务器与目标网站的连接时间的倒数获取的,详细亦可以参考上述实施例的相关技术,在此不再赘述。该步骤上报的此次访问目标网站的网速是为了便于有客户端下次访问该目标网站时,根据电信抓取服务器(CrawlerTelServer)所有次访问该目标网站的网速计算该电信抓取服务器(CrawlerTelServer)访问该目标网站的有效网速,详细可以参考上述步骤205的记载,在此不再赘述。
通过采用本实施例的基于中转模式的网页访问方法,每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例三
图3为本发明实施例三提供的抓取路径服务器的结构示意图。如图3所示,本实施例的抓取路径服务器,具体可以包括:接收模块10、获取模块11和发送模块12。
其中接收模块10接收客户端发送的网页访问请求,该页访问请求中携带要访问的目标网站的标识;获取模块11与接收模块10连接,获取模块11用于从至少一个抓取服务器中获取访问接收模块10接收的目标网站的标识对应的目标网站网速最快的目标抓取服务器;发送模块12与获取模块11连接,发送模块12用于向客户端返回获取模块11获取的目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
本实施例的抓取路径服务器,通过采用上述模块实现基于中转模式的网页访与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的抓取路径服务器,通过采用上述模实现接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例四
图4为本发明实施例四提供的抓取路径服务器的结构示意图,如图4所示,本实施例的抓取路径服务器在上述图3所示实施例的基础上,进一步还可以包括如下技术方案。
本实施例中,至少一个抓取服务器分别对应不同的网络服务提供商ISP。
如图4所示,本实施例的抓取路径服务器中还包括存储模块13。此时对应的接收模块10还用于在获取模块11从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于至少一个抓取服务器中的每一个抓取服务器,接收抓取服务器上报的上一次访问目标网站的网速;该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站的过程中,抓取服务器与目标网站的连接时间的倒数获取的。存储模块13与接收模块10连接,存储模块13用于存储接收模块10接收的抓取服务器上一次访问目标网站的网速。
可选地,如图4所示,本实施例的抓取路径服务器中还包括计算模块14;该计算模块14与存储模块13连接,计算模块14用于在存储模块13存储抓取服务器上一次访问目标网站的网速之后,获取模块11从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速;获取模块11还与计算模块14连接,获取模块11具体用于根据计算模块14的计算结果,从至少一个抓取服务器中获取访问目标网站的有效网速最快的抓取服务器作为目标抓去服务器。
进一步可选地,上述实施例中的计算模块14具体用于对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速,采用如下公式计算抓取服务器访问目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报访问目标网站的网速。
或者进一步可选地,上述实施例中的计算模块14具体用于对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速和一常量参数,采用如下公式计算抓取服务器访问目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报的访问目标网站的网速;
Figure BDA00002084534800163
表示抓取服务器所有次访问目标网站的平均网速;a为常量参数。
或者可选地,本实施例的抓取服务器还可以包括检测模块(图中未示出)。该检测模块与获取模块11连接,检测模块用于在获取模块11从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测至少一个抓取服务器访问目标网站的网速。这样获取模块11可以根据检测模块获取的至少一个抓取服务器访问目标网站的网速,从从至少一个抓取服务器中获取访问所述目标网站网速最快的目标抓取服务器。
本实施例的抓取路径服务器,以包括上述所有可选技术方案为例介绍本发明的技术方案,实际应用中,上述所有可选技术方案可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
本实施例的抓取路径服务器,通过采用上述模块实现基于中转模式的网页访与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的抓取路径服务器,通过采用上述模块能够实现客户端的每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例五
图5为本发明实施例五提供的基于中转模式的网页访问***的结构示意图。如图5所示,本实施例的基于中转模式的网页访问***,具体可以包括客户端20、至少一个抓取服务器30和抓取路径服务器40。
其中客户端20与抓取路径服务器40连接,客户端20用于向抓取路径服务器40发送网页访问请求,该网页访问请求中携带要访问的目标网站的标识;抓取路径服务器40用于从至少一个抓取服务器30中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;抓取路径服务器40用于向客户端20返回目标抓取服务器的标识,以供客户端20通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
本实施例的客户端具体可以为移动终端的浏览器客户端如手机浏览器客户端。本实施例中,客户端20还可以与至少一个抓取服务器30中每个抓取服务器30连接,以供客户端20通过抓取服务器访问目标网站。至少一个抓取服务器30还分别与抓取路径服务器40连接,以向抓取路径服务器40上报访问网站的网速。
本实施例中的抓取路径服务器具体可以采用上述图3或者图4所示实施例的抓取路径服务器。且具体可以采用上述图1或者图2所示实施例的方法实现基于中转模式的网页访问,详细可以参考上述实施例的相关记载在此不再赘述。
本实施例中的抓取路径服务器,通过采用上述至少一个抓取服务器和抓取路径服务器,能够实现抓取路径服务器接收客户端发送的网页访问请求,该网页访问请求中携带要访问的目标网站的标识;抓取路径服务器从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;抓取路径服务器向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
需要说明的是:上述实施例提供的抓取路径服务器在实现基于中转模式的网页访问时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的抓取路径服务器与基于中转模式的网页访问方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种基于中转模式的网页访问方法,其特征在于,所述方法包括:
接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
2.根据权利要求1所述的方法,其特征在于,所述至少一个抓取服务器分别对应不同的网络服务提供商。
3.根据权利要求1所述的方法,其特征在于,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接时间的倒数获取的;
存储所述抓取服务器上一次访问所述目标网站的网速。
4.根据权利要求3所述的方法,其特征在于,存储所述抓取服务器上一次访问所述目标网站的网速之后,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器,包括:
从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
5.根据权利要求4所述的方法,其特征在于,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
6.根据权利要求4所述的方法,其特征在于,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;
Figure FDA00002084534700023
表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
7.根据权利要求1-6任一所述的方法,其特征在于,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
定期检测所述至少一个抓取服务器访问所述目标网站的网速。
8.一种抓取路径服务器,其特征在于,包括:
接收模块,用于接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
获取模块,用于从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
发送模块,用于向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
9.根据权利要求8所述的抓取路径服务器,其特征在于,所述至少一个抓取服务器分别对应不同的网络服务提供商。
10.根据权利要求8所述的抓取路径服务器,其特征在于,还包括存储模块;
所述接收模块,还用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接时间的倒数获取的;
所述存储模块,用于存储所述接收模块接收的所述抓取服务器上一次访问所述目标网站的网速。
11.根据权利要求10所述的抓取路径服务器,其特征在于,还包括计算模块;
所述计算模块,用于在所述存储模块存储所述抓取服务器上一次访问所述目标网站的网速之后,所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的所述目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
所述获取模块,具体用于从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
12.根据权利要求11所述的抓取路径服务器,其特征在于,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = Σ i = 1 n s i / n
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
13.根据权利要求11所述的抓取路径服务器,其特征在于,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S = s ‾ + 1 a 1 n Σ i = 1 n ( s i - s ‾ ) 2
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;
Figure FDA00002084534700042
表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
14.根据权利要求8-13任一所述的抓取路径服务器,其特征在于,还包括:
检测模块,用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测所述至少一个抓取服务器访问所述目标网站的网速。
15.一种基于中转模式的网页访问***,其特征在于,包括客户端、至少一个抓取服务器和如上权利要求8-14任一所述的抓取路径服务器。
CN201210319292.6A 2012-08-31 2012-08-31 基于中转模式的网页访问方法及***、抓取路径服务器 Active CN103678311B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210319292.6A CN103678311B (zh) 2012-08-31 2012-08-31 基于中转模式的网页访问方法及***、抓取路径服务器
SG11201404293XA SG11201404293XA (en) 2012-08-31 2013-08-27 Transit-mode-based webpage accessing method, system, and crawler route server
PCT/CN2013/082342 WO2014032563A1 (en) 2012-08-31 2013-08-27 Transit-mode-based webpage accessing method, system, and crawler route server
US14/102,840 US9503506B2 (en) 2012-08-31 2013-12-11 Transit-mode-based webpage accessing method, system, and crawler route server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210319292.6A CN103678311B (zh) 2012-08-31 2012-08-31 基于中转模式的网页访问方法及***、抓取路径服务器

Publications (2)

Publication Number Publication Date
CN103678311A true CN103678311A (zh) 2014-03-26
CN103678311B CN103678311B (zh) 2018-11-13

Family

ID=50182503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210319292.6A Active CN103678311B (zh) 2012-08-31 2012-08-31 基于中转模式的网页访问方法及***、抓取路径服务器

Country Status (4)

Country Link
US (1) US9503506B2 (zh)
CN (1) CN103678311B (zh)
SG (1) SG11201404293XA (zh)
WO (1) WO2014032563A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN110808905A (zh) * 2019-10-15 2020-02-18 深圳市高德信通信股份有限公司 一种多路由互联网接入控制***
CN111641664A (zh) * 2019-03-01 2020-09-08 北京京东尚科信息技术有限公司 一种爬虫设备业务请求方法、装置和***
CN116842299A (zh) * 2023-08-28 2023-10-03 国网四川省电力公司信息通信公司 动态数据访问风险控制***与方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN107846437B (zh) * 2016-09-20 2021-11-02 北京京东尚科信息技术有限公司 选择流量出口机房的方法、***和装置
CN109657119A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种基于访问日志ip分析的网络爬虫检测方法
CN110781366A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 网页数据处理方法、装置、计算机设备和存储介质
CN114330466A (zh) * 2020-09-30 2022-04-12 北京达佳互联信息技术有限公司 行为识别方法及装置
US11910053B2 (en) * 2021-12-16 2024-02-20 Nbcuniversal Media, Llc Spread channel multi-CDN streaming

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829638B1 (en) * 2000-08-03 2004-12-07 International Business Machines Corporation System and method for managing multiple proxy servers
US20080183889A1 (en) * 2007-01-31 2008-07-31 Dmitry Andreev Method and system for preventing web crawling detection
CN101931635A (zh) * 2009-06-18 2010-12-29 北京搜狗科技发展有限公司 网络资源访问方法及代理装置
CN102137168A (zh) * 2011-05-05 2011-07-27 中国联合网络通信集团有限公司 支持双浏览模式客户端、移动互联网浏览***及浏览方法
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及***
CN102624920A (zh) * 2012-03-31 2012-08-01 奇智软件(北京)有限公司 一种通过代理服务器进行访问的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185619B1 (en) * 1996-12-09 2001-02-06 Genuity Inc. Method and apparatus for balancing the process load on network servers according to network and serve based policies
US6760775B1 (en) * 1999-03-05 2004-07-06 At&T Corp. System, method and apparatus for network service load and reliability management
US6810411B1 (en) * 1999-09-13 2004-10-26 Intel Corporation Method and system for selecting a host in a communications network
EP1388073B1 (en) * 2001-03-01 2018-01-10 Akamai Technologies, Inc. Optimal route selection in a content delivery network
US6816890B2 (en) * 2001-05-28 2004-11-09 Hitachi, Ltd. Gateway apparatus with LAC function
US7007089B2 (en) * 2001-06-06 2006-02-28 Akarnai Technologies, Inc. Content delivery network map generation using passive measurement data
US7343399B2 (en) * 2001-06-25 2008-03-11 Nortel Networks Limited Apparatus and method for managing internet resource requests
US20030174648A1 (en) * 2001-10-17 2003-09-18 Mea Wang Content delivery network by-pass system
US20080279222A1 (en) * 2001-10-18 2008-11-13 Level 3 Communications Llc Distribution of traffic across a computer network
US7720997B1 (en) * 2001-12-19 2010-05-18 Cisco Technology, Inc. Path selection system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829638B1 (en) * 2000-08-03 2004-12-07 International Business Machines Corporation System and method for managing multiple proxy servers
US20080183889A1 (en) * 2007-01-31 2008-07-31 Dmitry Andreev Method and system for preventing web crawling detection
US7953868B2 (en) * 2007-01-31 2011-05-31 International Business Machines Corporation Method and system for preventing web crawling detection
CN101931635A (zh) * 2009-06-18 2010-12-29 北京搜狗科技发展有限公司 网络资源访问方法及代理装置
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及***
CN102137168A (zh) * 2011-05-05 2011-07-27 中国联合网络通信集团有限公司 支持双浏览模式客户端、移动互联网浏览***及浏览方法
CN102624920A (zh) * 2012-03-31 2012-08-01 奇智软件(北京)有限公司 一种通过代理服务器进行访问的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN111641664A (zh) * 2019-03-01 2020-09-08 北京京东尚科信息技术有限公司 一种爬虫设备业务请求方法、装置和***
CN111641664B (zh) * 2019-03-01 2023-12-05 北京京东尚科信息技术有限公司 一种爬虫设备业务请求方法、装置、***和存储介质
CN110808905A (zh) * 2019-10-15 2020-02-18 深圳市高德信通信股份有限公司 一种多路由互联网接入控制***
CN116842299A (zh) * 2023-08-28 2023-10-03 国网四川省电力公司信息通信公司 动态数据访问风险控制***与方法
CN116842299B (zh) * 2023-08-28 2023-11-03 国网四川省电力公司信息通信公司 动态数据访问风险控制***与方法

Also Published As

Publication number Publication date
CN103678311B (zh) 2018-11-13
SG11201404293XA (en) 2014-08-28
US20140101294A1 (en) 2014-04-10
WO2014032563A1 (en) 2014-03-06
US9503506B2 (en) 2016-11-22

Similar Documents

Publication Publication Date Title
CN103678311A (zh) 基于中转模式的网页访问方法及***、抓取路径服务器
US10778554B2 (en) Latency measurement in resource requests
CN102752792B (zh) 监测移动终端上网业务质量的方法、设备及***
US8452870B2 (en) Monitoring domain allocation performance
CN103780714B (zh) 一种dns服务器的探测方法及装置
CN103067214B (zh) 用于测试网站性能的方法、客户端、服务器和***
CN110096659A (zh) 一种页面显示方法、装置、设备及可读存储介质
JP2002091936A (ja) 負荷分散装置及び負荷見積もり方法
CN109981805A (zh) 一种域名解析的方法及装置
JP2002007232A (ja) Wwwサーバーの性能試験方法およびサーバー試験装置
US9559915B2 (en) System and method for dynamically testing networked target systems
CN103605689B (zh) 一种获取访问停留时间的方法及装置
CN102045403A (zh) 分布式网络数据处理方法和装置及***
CN106921537A (zh) 网站访问质量测试方法、服务器和***
CN105393247A (zh) 一种网页优化的设备及方法
CN106487906A (zh) 一种情境感知的移动Web应用协议切换方法
CN102123063B (zh) 一种链路带宽的检测方法和设备
CN103401861A (zh) 代理上网识别方法及装置
US10965543B2 (en) Prediction of a performance indicator
Kamiyama et al. Analyzing effect of edge computing on reduction of web response time
CN102684925A (zh) 互联网访问来源信息的获取方法和装置
CN102647463B (zh) 网址导航的生成方法、无线路由终端及***
Olshefski et al. ksniffer: Determining the Remote Client Perceived Response Time from Live Packet Streams.
CN106972986B (zh) Idc机房网络质量的检测方法及其***
CN102918527B (zh) Web应用托管的调查方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221129

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2 East 403 room, SEG science and technology garden, Futian District, Guangdong, Shenzhen 518000, China

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.