CN105610728A - 一种基于时间窗口的网络爬虫流量控制自动降级方法 - Google Patents
一种基于时间窗口的网络爬虫流量控制自动降级方法 Download PDFInfo
- Publication number
- CN105610728A CN105610728A CN201510995484.2A CN201510995484A CN105610728A CN 105610728 A CN105610728 A CN 105610728A CN 201510995484 A CN201510995484 A CN 201510995484A CN 105610728 A CN105610728 A CN 105610728A
- Authority
- CN
- China
- Prior art keywords
- data
- flow
- delay
- control
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及网络流量控制技术领域,特别是一种基于时间窗口的网络爬虫流量控制自动降级方法,包括以下步骤,步骤S101:数据接收,接收网络爬虫数据,并对爬虫数据的接收通过消息中间件进行解耦;步骤S102:数据处理优先级确定,通过记录网络爬虫数据的原始时间和当前时间的延迟,生成延迟时间的正太分布图,根据不同分位的延迟度量值来决定数据的优先级;步骤S103:流量控制,将流控***的信息处理速度与阈值对比,优先处理易于延迟度量值的数据,处理速度允许则同时处理暂存数据,控制暂存数据的处理速度;步骤S104:处理完成。采用上述方法后,通过动态调整处理速度,保证***的稳定;根据当前的速度调整处理消息的延迟时间窗,保证***的稳定运行。
Description
技术领域
本发明涉及网络流量控制技术领域,特别是一种基于时间窗口的网络爬虫流量控制自动降级方法。
背景技术
网络爬虫***在抓取数据时,会因为偶尔的突发情况导致抓取的消息数猛增,并且主要由历史数据组成,使得***处于峰值状态,甚至超过***的处理能力,使得***无法有效的处理有价值的实时数据,从甚至导致的整个***的崩溃,无法提供服务。
中国发明专利申请CN103107948A公开了一种流量控制方法,包括:在应用服务器拦截用户端的请求:根据所述请求获得用户信息组合;将所述用户信息组合,与黑名单中的用户信息组合进行匹配,如果匹配,则进行过滤;起哄,所述黑名单通过如下步骤生成:根据所述请求对应用户信息组合的记录日志,统计所述用户请求对应的用户信息组合的访问次数;针对所述访问次数,依据流量控制规则生成所述用户信息组合的黑名单。虽然此发明能够降低服务器***开销,更准确的对用户端的请求进行过滤,有效的提高***的过滤效率;但是,此发明无法解决网络爬虫的历史数据和实时数据的优先处理问题。
发明内容
本发明需要解决的技术问题提供一种网络爬虫数据优先级处理的流量控制方法。
为解决上述的技术问题,本发明的一种基于时间窗口的网络爬虫流量控制自动降级方法,包括以下步骤,
步骤S101:数据接收,接收网络爬虫数据,并对爬虫数据的接收通过消息中间件进行解耦;
步骤S102:数据处理优先级确定,通过记录网络爬虫数据的原始时间和当前时间的延迟,生成延迟时间的正态分布图,根据不同分位的延迟度量值来决定数据的优先级;
步骤S103:流量控制,将流控***的信息处理速度与阈值对比,优先处理易于延迟度量值的数据,处理速度允许则同时处理暂存数据,控制暂存数据的处理速度;
步骤S104:处理完成。
进一步的,所述步骤S102数据处理优先级确定具体包括以下步骤,
步骤S21:延迟时间记录,记录网络爬虫数据的原始时间和当前时间的延迟;
步骤S22:流量控制开启判断,判断是否开启流量控制,如果是,则进入步骤S24;如果否,则进入步骤S23;
步骤S23:暂存数据接收,接收暂存数据,并且调整暂存数据的接收速度,进入步骤S103流量控制;
步骤S24:数据延迟量判断,判断数据延迟量是否大于延迟度量值,如果否,则进入步骤S103;如果是,则发往暂存主题,进入步骤S104。
更进一步的,所述步骤S23中暂存数据的接收速度与当前的信息处理速度之和小于阈值。
更进一步的,所述步骤S103流量控制具体包括以下步骤,
步骤S31:信息处理速度判断,判断流控***的信息处理速度是否达到阈值,如果是,则进入步骤S32;如果否,则进入步骤S34;
步骤S32:流量控制开启;
步骤S33:延迟度量值调整,降低延迟度量值,进入步骤S104;
步骤S34:信息数据处理,优先数据处理的同时处理暂存数据,并且动态调整暂存数据的处理速度。
更进一步的,所述步骤S34中暂存数据的处理速度小于或等于阈值减去优先数据的处理速度。
采用上述方法后,本发明***会根据消息的处理速度,周期性的动态调整延迟度量值,如果速度超过阈值,则会不断下调延迟值,意味着优先处理更新的消息。当***恢复之后,消息处理速度降到阈值之下后,***会自动接收之前暂存的消息,并且动态调整处理速度,从而保证***的稳定。另外,在整个服务降级的过程中,***无需人为干预,根据当前的速度智能调整处理消息的延迟时间窗,保证***的稳定运行。
附图说明
下面将结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种基于时间窗口的网络爬虫流量控制自动降级方法的流程图。
具体实施方式
如图1所示,本发明的一种基于时间窗口的网络爬虫流量控制自动降级方法,包括以下步骤,
步骤S101:数据接收,接收网络爬虫数据,并对爬虫数据的接收通过消息中间件进行解耦。
步骤S102:数据处理优先级确定,通过记录网络爬虫数据的原始时间和当前时间的延迟,生成延迟时间的正态分布图,根据不同分位的延迟度量值来决定数据的优先级。具体包括以下步骤,
步骤S21:延迟时间记录,记录网络爬虫数据的原始时间和当前时间的延迟;***运行时,会记录一段时间内每条数据的实际时间和当前时间的一个延迟值,并通过正态分布图的方式统计整体的延迟情况。
步骤S22:流量控制开启判断,判断是否开启流量控制,如果是,则进入步骤S24;如果否,则进入步骤S23。
步骤S23:暂存数据接收,接收暂存数据,并且调整暂存数据的接收速度,进入步骤S103流量控制;这里暂存数据的接收速度与当前的信息处理速度之和小于阈值。
步骤S24:数据延迟量判断,判断数据延迟量是否大于延迟度量值,如果否,则进入步骤S103;如果是,则发往暂存主题,进入步骤S104。
步骤S103:流量控制,将流控***的信息处理速度与阈值对比,优先处理易于延迟度量值的数据,处理速度允许则同时处理暂存数据,控制暂存数据的处理速度。具体包括以下步骤,
步骤S31:信息处理速度判断,判断流控***的信息处理速度是否达到阈值,如果是,则进入步骤S32;如果否,则进入步骤S34。
步骤S32:流量控制开启。
步骤S33:延迟度量值调整,当***开启流量控制之后,会下调延迟度量值,即缩短时间窗口,优先处理延迟值更低的数据。这样通过动态调整时间窗口的大小,来达到控制消息数的目的,从而避免因为大量历史数据拖垮后续***。
步骤S34:信息数据处理,优先数据处理的同时处理暂存数据,并且动态调整暂存数据的处理速度。这里暂存数据的处理速度小于或等于阈值减去优先数据的处理速度。
步骤S104:处理完成。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。
Claims (5)
1.一种基于时间窗口的网络爬虫流量控制自动降级方法,其特征在于,包括以下步骤,
步骤S101:数据接收,接收网络爬虫数据,并对爬虫数据的接收通过消息中间件进行解耦;
步骤S102:数据处理优先级确定,通过记录网络爬虫数据的原始时间和当前时间的延迟,生成延迟时间的正态分布图,根据不同分位的延迟度量值来决定数据的优先级;
步骤S103:流量控制,将流控***的信息处理速度与阈值对比,优先处理易于延迟度量值的数据,处理速度允许则同时处理暂存数据,控制暂存数据的处理速度;
步骤S104:处理完成。
2.按照权利要求1所述的一种基于时间窗口的网络爬虫流量控制自动降级方法,其特征在于,所述步骤S102数据处理优先级确定具体包括以下步骤,
步骤S21:延迟时间记录,记录网络爬虫数据的原始时间和当前时间的延迟;
步骤S22:流量控制开启判断,判断是否开启流量控制,如果是,则进入步骤S24;如果否,则进入步骤S23;
步骤S23:暂存数据接收,接收暂存数据,并且调整暂存数据的接收速度,进入步骤S103流量控制;
步骤S24:数据延迟量判断,判断数据延迟量是否大于延迟度量值,如果否,则进入步骤S103;如果是,进入步骤S25;
步骤S25:发往暂存主题,进入步骤S104。
3.按照权利要求2所述的一种基于时间窗口的网络爬虫流量控制自动降级方法,其特征在于:所述步骤S23中暂存数据的接收速度与当前的信息处理速度之和小于阈值。
4.按照权利要求1-3中任一项所述的一种基于时间窗口的网络爬虫流量控制自动降级方法,其特征在于,所述步骤S103流量控制具体包括以下步骤,
步骤S31:信息处理速度判断,判断流控***的信息处理速度是否达到阈值,如果是,则进入步骤S32;如果否,则进入步骤S34;
步骤S32:流量控制开启;
步骤S33:延迟度量值调整,降低延迟度量值,进入步骤S104;
步骤S34:信息数据处理,优先数据处理的同时处理暂存数据,并且动态调整暂存数据的处理速度。
5.按照权利要求4所述的一种基于时间窗口的网络爬虫流量控制自动降级方法,其特征在于:所述步骤S34中暂存数据的处理速度小于或等于阈值减去优先数据的处理速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995484.2A CN105610728B (zh) | 2015-12-28 | 2015-12-28 | 一种基于时间窗口的网络爬虫流量控制自动降级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995484.2A CN105610728B (zh) | 2015-12-28 | 2015-12-28 | 一种基于时间窗口的网络爬虫流量控制自动降级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105610728A true CN105610728A (zh) | 2016-05-25 |
CN105610728B CN105610728B (zh) | 2018-09-14 |
Family
ID=55990270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510995484.2A Active CN105610728B (zh) | 2015-12-28 | 2015-12-28 | 一种基于时间窗口的网络爬虫流量控制自动降级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105610728B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656840A (zh) * | 2016-11-25 | 2017-05-10 | 杭州安恒信息技术有限公司 | 一种应用于网络爬虫的动态流量控制方法 |
CN110995618A (zh) * | 2019-10-30 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种消息处理方法、装置、电子设备及可读存储介质 |
CN111162930A (zh) * | 2019-12-09 | 2020-05-15 | 杭州安恒信息技术股份有限公司 | 延迟响应控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101068222A (zh) * | 2007-01-15 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 一种处理消息的方法及装置 |
CN101534245A (zh) * | 2009-04-09 | 2009-09-16 | 国电南瑞科技股份有限公司 | 一种实时监控***数据处理的传输控制方法 |
US20120060169A1 (en) * | 2009-03-11 | 2012-03-08 | Synopsys, Inc. | Systems and methods for resource controlling |
CN102420769A (zh) * | 2011-12-27 | 2012-04-18 | 汉柏科技有限公司 | 一种Ipsec转发的方法 |
-
2015
- 2015-12-28 CN CN201510995484.2A patent/CN105610728B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101068222A (zh) * | 2007-01-15 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 一种处理消息的方法及装置 |
US20120060169A1 (en) * | 2009-03-11 | 2012-03-08 | Synopsys, Inc. | Systems and methods for resource controlling |
CN101534245A (zh) * | 2009-04-09 | 2009-09-16 | 国电南瑞科技股份有限公司 | 一种实时监控***数据处理的传输控制方法 |
CN102420769A (zh) * | 2011-12-27 | 2012-04-18 | 汉柏科技有限公司 | 一种Ipsec转发的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656840A (zh) * | 2016-11-25 | 2017-05-10 | 杭州安恒信息技术有限公司 | 一种应用于网络爬虫的动态流量控制方法 |
CN106656840B (zh) * | 2016-11-25 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 一种应用于网络爬虫的动态流量控制方法 |
CN110995618A (zh) * | 2019-10-30 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种消息处理方法、装置、电子设备及可读存储介质 |
CN111162930A (zh) * | 2019-12-09 | 2020-05-15 | 杭州安恒信息技术股份有限公司 | 延迟响应控制方法 |
CN111162930B (zh) * | 2019-12-09 | 2022-11-11 | 杭州安恒信息技术股份有限公司 | 延迟响应控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105610728B (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10833997B2 (en) | System and method of adaptive congestion management | |
US10020948B2 (en) | Charging in a software defined network | |
JP5716090B2 (ja) | データ送信オーバヘッドを減少させる方法及び装置 | |
CN107920031B (zh) | 接入带宽自适应调整方法和装置 | |
US7929436B2 (en) | Network communication control methods and systems | |
CN105610728A (zh) | 一种基于时间窗口的网络爬虫流量控制自动降级方法 | |
CN105262699A (zh) | 一种网络自适应编码调整方法及装置 | |
CN104348887A (zh) | 云管理平台中的资源分配方法与装置 | |
CN109995668B (zh) | 流量控制方法及装置、存储介质 | |
CN109525447B (zh) | 一种调整网络传输带宽的方法、装置及电子设备 | |
US20160294569A1 (en) | Quota control policy | |
CN102970250A (zh) | 分布式路由器***中的带宽分配方法和装置、网络设备 | |
US20220321486A1 (en) | Controlling data rate based on domain and radio usage history | |
CN105915453A (zh) | 网络服务质量策略的调整方法和装置 | |
JP5588001B2 (ja) | メディアデータの転送時間をスケジューリングするための装置及び方法 | |
CN102111888A (zh) | 一种信道配置方法、装置及*** | |
CN104902570B (zh) | 一种信道动态配置方法和装置 | |
CN102201887A (zh) | 控制套接字传输速率的方法和装置 | |
CN106961398B (zh) | 一种分布式文件***的带宽控制方法及装置 | |
CN102088403B (zh) | 用于网络流量控制的网络链路动态带宽获取方法及*** | |
ATE348468T1 (de) | Verfahren und system zur dienstqualitätsoptimierung in einem datennetzwerk | |
CN110190976A (zh) | 共享网络通信中带宽检测的方法 | |
CN108737957A (zh) | 缓存配置信息处理方法及*** | |
CN101453377B (zh) | 抑制接入节点控制协议的冗余交互的方法、装置和*** | |
CN104796274A (zh) | 运维操作的匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 410013 Hunan Changsha high tech Development Zone, 27 A4, N, unit 6, 605. Patentee after: Hunan ant software Limited by Share Ltd Address before: 410003 room 607, building A4, Lugu Business Plaza, Changsha hi tech Zone, Hunan. Patentee before: Hunan Yi Fang softcom limited |
|
CP03 | Change of name, title or address |