CN111756850B - 一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** - Google Patents
一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** Download PDFInfo
- Publication number
- CN111756850B CN111756850B CN202010604567.5A CN202010604567A CN111756850B CN 111756850 B CN111756850 B CN 111756850B CN 202010604567 A CN202010604567 A CN 202010604567A CN 111756850 B CN111756850 B CN 111756850B
- Authority
- CN
- China
- Prior art keywords
- time
- proxy
- level
- agent
- interval time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/62—Establishing a time schedule for servicing the requests
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间。本发明的技术方案可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。
Description
技术领域
本发明数据检索领域,特别涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法。
背景技术
在互联网数据采集技术中,搭建IP代理池并使用不同的代理IP轮流进行爬取为常见技术。然而,公网代理具有不稳定和时效性差的特性,因此有必要对代理的使用进行优先级排序。CN 107957999 A,主要目的在于保证大部分使用的代理IP有效并多次利用,并在已有的代理IP失效时,通过动态获取新的代理IP,进行筛选替换失效的代理IP,但是其无法控制不同优劣程度的代理IP的请求访问频率,无法在代理可用状态下最大限度使用代理。
发明内容
为了解决本发明所提出的技术问题,本发明一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率,提高单位时间内优质代理的使用率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。
本发明另外一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整***,所述***配配置为:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。本发明的有益效果在于,可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。
附图说明
图1.快速达到极限间隔时间示意图;
图2.自动频率调整流程图。
具体实施方式
在一些服务于互联网数据采集的代理IP请求频率自动调整方法的实施例中,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间t来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率f;
其中,间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;代理IP的请求访问频率f与间隔时间T的关系满足:f=1/T。
在一些实施例中,代理IP属性包括但不限于等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种。
等级名称level_name根据代理的下载时间划分;等级level是等级名称的数字表示,比如1、2、3、4、5;间隔时间wait_time是代理的实时等待时间;最后访问时间last_time是代理最新的使用时间,该代理下次使用时间大于等于last_time+wait_time;代理类型proxy_type分为公网代理和稳定代理;网站名websit是代理对应的网站名称;原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间,在一些实施例中,所述原始间隔时间为常量,根据本发明的构思选择的计算该常量的算法均在本发明的保护范围之内。
在一些实施例中,当实时等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间,n表示原始间隔时间,L表示根据当前的下载时间t划分的等级数值(为大于1的自然数,其中数字越小等级越高)。当前等待时间N,是当前代理的实时等待时间,用N表示。
在另外一些实施例中,代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
在这些实施例中,当实时等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:
其中,N表示实时等待时间,s为系数且0<s<1,优选的为0.1,C表示当前等级次数。
下面一些实施例进一步对本发明进行说明。
在这些实施例中,先明确两个时间:1.间隔时间,是代理从上次使用完毕到下次使用开始的中间时间。2.下载时间,是代理实际发出一个请求到接受返回结果的时间。本发明实施例中调整请求频率的目的之一是将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用。这样做的目的是从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。
在这些实施例中,为了达到实时控制代理IP的间隔时间T的目的,需要给代理IP添加如下所示属性,如表1所示:
表1代理IP添加的属性列表
level_name | 等级名称 |
level | 等级 |
level_count | 等级计数 |
wait_time | 间隔时间 |
last_time | 最后访问时间 |
proxy_type | 代理类型 |
websit | 网站名 |
origin_wait_time | 原始间隔时间 |
其中,【等级名称】根据代理的【下载时间】划分;【等级】是等级名称的数字表示;【等级计数】是当前等级下的连续访问次数;【间隔时间】是代理的实时【等待时间】;【最后访问时间】是代理最新的使用时间;【代理类型】分为公网代理和稳定代理;【网站名】是代理对应的网站名称;【原始间隔时间】是《网站访问频率测试》得到的最佳【等待时间】。
在这些实施例中,根据代理IP的属性,通过监控代理IP当前的【下载时间】来实时调整其【间隔时间】,从而控制不同优劣程度的代理的请求访问频率。计算方式如表2所示:
表2:计算方式
等级 | 等级数值L | 等级对应下载时间 | 极限间隔时间 | 当前间隔时间 | 当前等级次数 | 时间增加减少幅度 |
正常 | 1 | 0s-1s | n+(L-1)^2 | N | C | (0.1*C^2)s or 0s or 无穷大 |
稍慢 | 2 | 1s-2s | n+(L-1)^2 | N | C | (0.1*C^2)s or 0s or 无穷大 |
慢 | 3 | 2s-4s | n+(L-1)^2 | N | C | (0.1*C^2)s or 0s or 无穷大 |
很慢 | 4 | 4s-8s | n+(L-1)^2 | N | C | (0.1*C^2)s or 0s or 无穷大 |
失效 | 5 | 8s-失败 | 无限大 | N | C | 无穷大 |
参考表2可知,字段组成含义如下:
等级,分为正常、稍慢、慢、慢和失效;
等级数值L,对应等级分别用1、2、3、4、5表示,变量设为L。
等级对应下载时间,0s-1s、1s-2s、2s-4s、4s-8s、8s-失败。
极限间隔时间,是指每个等级的最大间隔时间,假设原始间隔时间是n,则当前等级的最大间隔时间为n+(L-1)2,如果等级是失效,则间隔时间设置为无限大。
当前间隔时间,是当前代理的等待时间,用N表示。
当前等级次数,是在当前的等级下,连续请求的次数,等级改变则重新计数。
时间增加减少幅度,是根据每次下载时间和当前等级次数计算的频率调整幅度。调整包括如下情况:
(1)代理IP可用并且未达到极限间隔时间:代理IP的【等待时间】调整为N+0.1s*C2。
(2)代理IP可用并且等级升高:代理IP的【等待时间】调整为N+0.1s*C2。
(3)代理IP可用并且等级降低:代理IP的【等待时间】调整为N-0.1s*C2。
(4)代理IP可用并且间隔时间等于极限讲个时间:代理IP的【等待时间】不变
(5)代理IP不可用:代理IP的【等待时间】设置为无穷大。
在这些实施例中,频率调整涉及两个计算公式仅以解释如下。
1.极限间隔时间=n+(L-1)2
因为代理IP是循环高频率使用的,因此过多的使用低下载率的代理IP会对整体的下载速度产生不好的影响。随着下载时间的递增,对速度的影响也越来越大。一次在设置间隔时间的时候使用指数递增的方式,如此尽量较少对低质量代理IP的使用,而又能在IP不足的情况下有效的利用低质量代理IP。
2.间隔时间调整幅度=0.1s*C2
设置0.1s的基数是防止间隔时间剧烈波动,同时使用指数相乘的方式,根据变量C的变化情况(连续次数)。能确保不同等级间波动幅度较小,同一等级中却可以快速达到极限值。
其中,参考图1所示,基于本发明实施例的方法的自动频率调整流程可以包括多种形式,下面示例流程并不作为对本发明的保护范围的限定。如图2所示,服务器开始后,请求频率测试结果设置各个代理的原始间隔时间,初始化代理,生成代理库;客户端从代理库获得代理,客户端使用代理后请求反馈代理使用情况(包括下载时间等),根据反馈的信息,计算代理频率(包括更新代理等级、间隔时间等),判断代理等级是否是失效,如果失效则丢弃,否则返回代理库。
本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。
作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。
Claims (7)
1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;
所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种;所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。
2.如权利要求1所述的方法,其特征在于,当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间;n表示原始间隔时间;L表示等级数值,为大于1的自然数,其中数字越小等级越高。
3.如权利要求2所述的方法,其特征在于,所述代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
5.一种服务于互联网数据采集的代理IP请求频率自动调整***,其特征在于,所述***包括至少一个处理器;以及存储器,其存储有指令,当通过至少一个处理器来执行该指令时,所述***被配置为:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;
所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种;
所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。
6.如权利要求5所述的***,其特征在于,所述***被配置为:
当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间;n表示原始间隔时间;L表示等级数值,为大于1的自然数,其中数字越小等级越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604567.5A CN111756850B (zh) | 2020-06-29 | 2020-06-29 | 一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604567.5A CN111756850B (zh) | 2020-06-29 | 2020-06-29 | 一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111756850A CN111756850A (zh) | 2020-10-09 |
CN111756850B true CN111756850B (zh) | 2022-01-18 |
Family
ID=72677951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010604567.5A Active CN111756850B (zh) | 2020-06-29 | 2020-06-29 | 一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111756850B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1816203A (zh) * | 2005-02-01 | 2006-08-09 | 华为技术有限公司 | 移动网络中均衡家乡代理负载的实现方法 |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
CN102968719A (zh) * | 2012-11-07 | 2013-03-13 | 东莞宇龙通信科技有限公司 | 支付服务器、终端和支付通道接入方法 |
CN107832355A (zh) * | 2017-10-23 | 2018-03-23 | 北京金堤科技有限公司 | 一种爬虫程序的代理获取的方法及装置 |
CN108712503A (zh) * | 2018-05-30 | 2018-10-26 | 南京邮电大学 | 一种网络负载均衡的多代理分布式爬虫***和方法 |
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109905472A (zh) * | 2019-02-21 | 2019-06-18 | 上海富数科技有限公司 | 自适应网络代理***及基于神经网络进行权值调整的方法 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
CN110637464A (zh) * | 2017-05-17 | 2019-12-31 | 谷歌有限责任公司 | 至少部分地基于图像数据来确定用于执行动作的代理 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8230093B2 (en) * | 2004-02-18 | 2012-07-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for reliable broadcast |
CN101014947A (zh) * | 2004-04-30 | 2007-08-08 | 移动网络有限公司 | 一种关于流内容的自适应速率切换的装置、***和方法 |
CN101399707A (zh) * | 2008-11-20 | 2009-04-01 | 北京邮电大学 | 一种基于信誉度选择互联网服务的方法及装置 |
CN102867252B (zh) * | 2012-09-14 | 2016-05-04 | 东莞宇龙通信科技有限公司 | 支付服务器和支付通道获取方法 |
CN114845351A (zh) * | 2015-06-02 | 2022-08-02 | 利维帕尔森有限公司 | 动态通信路由的方法、***和计算机程序产品 |
CN105872094B (zh) * | 2016-05-31 | 2019-01-01 | 山东大学 | 一种基于soa的服务机器人云平台接口***及方法 |
US10154431B2 (en) * | 2016-09-27 | 2018-12-11 | Verizon Patent And Licensing Inc. | Congestion mitigation based on user device and base station condition information |
CN108075934B (zh) * | 2016-11-15 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 一种网络质量监控方法、装置及*** |
CN109729044B (zh) * | 2017-10-30 | 2022-01-14 | 北京宸瑞科技股份有限公司 | 一种通用的互联网数据采集反反爬***及方法 |
CN108512929B (zh) * | 2018-04-11 | 2021-10-22 | 维沃移动通信有限公司 | 一种代理服务器设置方法及移动终端 |
-
2020
- 2020-06-29 CN CN202010604567.5A patent/CN111756850B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1816203A (zh) * | 2005-02-01 | 2006-08-09 | 华为技术有限公司 | 移动网络中均衡家乡代理负载的实现方法 |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
CN102968719A (zh) * | 2012-11-07 | 2013-03-13 | 东莞宇龙通信科技有限公司 | 支付服务器、终端和支付通道接入方法 |
CN110637464A (zh) * | 2017-05-17 | 2019-12-31 | 谷歌有限责任公司 | 至少部分地基于图像数据来确定用于执行动作的代理 |
CN107832355A (zh) * | 2017-10-23 | 2018-03-23 | 北京金堤科技有限公司 | 一种爬虫程序的代理获取的方法及装置 |
CN108712503A (zh) * | 2018-05-30 | 2018-10-26 | 南京邮电大学 | 一种网络负载均衡的多代理分布式爬虫***和方法 |
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109905472A (zh) * | 2019-02-21 | 2019-06-18 | 上海富数科技有限公司 | 自适应网络代理***及基于神经网络进行权值调整的方法 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111756850A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8510374B2 (en) | Polling protocol for automatic load limiting | |
CN110365765B (zh) | 一种缓存服务器的带宽调度方法及装置 | |
CN113110933B (zh) | 一种具有Nginx负载均衡技术的*** | |
CN109190070A (zh) | 一种数据处理方法、装置、***及应用服务器 | |
US9893973B2 (en) | Real-time, low memory estimation of unique client computers communicating with a server computer | |
CN106648456A (zh) | 基于用户访问量以及预测机制的动态副本文件访问方法 | |
CN113472852A (zh) | 一种cdn节点的回源方法、装置及设备 | |
US9875040B2 (en) | Assigning read requests based on busyness of devices | |
US10579676B2 (en) | Highly scalable fine grained rate limiting | |
CN111756850B (zh) | 一种服务于互联网数据采集的代理ip请求频率自动调整方法及*** | |
CN113094392A (zh) | 数据缓存的方法和装置 | |
CN112835740A (zh) | 用于管理数据备份的方法、电子设备和计算机程序产品 | |
CN106612329B (zh) | 一种缓存方法及装置 | |
CN117376133A (zh) | 基于机器学***台 | |
CN112631963A (zh) | 缓存数据管理方法、装置、设备及存储介质 | |
CN113268329A (zh) | 一种请求调度方法、装置及存储介质 | |
US10320874B2 (en) | Site-based server selection | |
KR20210139431A (ko) | 복수 개의 콘텐츠 전송 네트워크와 통신할 수 있는 클라이언트 디바이스에 의하여 데이터 세그멘트를 획득하기 위한 방법 | |
CN115515188A (zh) | 流量控制方法、装置、电子设备及存储介质 | |
CN109120480B (zh) | 基于数据中心的链路优化方法及装置 | |
CN111865722B (zh) | 一种节点健康状态检测及处理方法 | |
CN111193760B (zh) | 一种信息发送方法、装置及存储介质 | |
CN106790578A (zh) | 基于权重因子的Hadoop HDFS数据块分布优化算法 | |
CN109672900B (zh) | 一种热点内容列表的生成方法及装置 | |
WO2021036989A1 (zh) | 一种数据访问的方法、装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |