CN111158847A - 一种开源信息采集虚拟主机资源调度方法和*** - Google Patents

一种开源信息采集虚拟主机资源调度方法和*** Download PDF

Info

Publication number
CN111158847A
CN111158847A CN201911162089.0A CN201911162089A CN111158847A CN 111158847 A CN111158847 A CN 111158847A CN 201911162089 A CN201911162089 A CN 201911162089A CN 111158847 A CN111158847 A CN 111158847A
Authority
CN
China
Prior art keywords
virtual host
acquisition
collection
resource
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911162089.0A
Other languages
English (en)
Inventor
张麒
魏刚
蒲存伟
谭雪刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Rongwei Software Service Co ltd
Original Assignee
Chengdu Rongwei Software Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Rongwei Software Service Co ltd filed Critical Chengdu Rongwei Software Service Co ltd
Priority to CN201911162089.0A priority Critical patent/CN111158847A/zh
Publication of CN111158847A publication Critical patent/CN111158847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种开源信息采集虚拟主机资源调度方法和***,其中方法包括:对可调度的各种采集处理运算按***处理响应时间进行统一的资源耗费量化评估;采集虚拟主机每次初始化时对自身可用计算资源进行初始量化评估;获取用户录入的采集任务,按照所述可以调度的采集处理运算类型将该任务分解成子任务;按每项子任务的资源耗费估值,以及各采集虚拟主机当前的可用计算资源估值,确定将该子任务由哪个采集虚拟主机执行;采集虚拟主机根据执行的各项子任务的资源耗费估值,实时更新其可用计算资源估值。本公开基于采集处理任务的细分和资源耗费统一评估,实现对CVH计算资源的小粒度高效调度,显著提升了开源情报采集虚拟主机的资源利用率。

Description

一种开源信息采集虚拟主机资源调度方法和***
技术领域
本公开涉及计算机领域,尤其涉及计算机网络资源调度管理技术,具体为一种开源信息采集虚拟主机资源的调度方法和***。
背景技术
目前,互联网开源信息采集***多由大量虚拟主机分布在境内外互联网上,为满足采集目标数量不断增长和采集信息时效性要求高的需求,仅通过不断追加投入采集虚拟主机(CVH,Collection Virtual Host)的方式迎对几何级增长的计算和带宽资源要求,并不能很好地满足实际要求,主要因为:由于目标站点对外服务质量和采集目标数量的不确定性,造成了采集处理资源不可控,采集访问带宽不断变化,同时由于目标数据结构不一,造成页面解析耗时差异化等特点,最终导致分布在互联网的各CVH存在资源利用率低的现状。
以往的大多数开源信息采集***的目标是以互联网新闻站点和社交媒体为主,对采集节点资源调度的策略多针对在HTTP请求操作上,但目前开源情报数据来源并不仅限于新闻站点和社交媒体,还包括百科、智库、等各领域知识库采集,数据结构比传统信息采集更多元化,页面解析也更困难,不可避免地要耗费资源,例如,针对复杂页面进行正则表达式提取等。
发明内容
本公开的目的在于克服现有技术的不足,提供一种基于采集处理任务的细分和资源耗费统一评估的开源信息采集虚拟主机资源调度方法和***,以提高CVH资源利用率,进而提升整个***的采集效率。
本公开的一方面提供一种开源信息采集虚拟主机资源调度方法,包括以下步骤:
对可调度的各种采集处理运算按***处理响应时间进行统一的资源耗费量化评估;
采集虚拟主机每次初始化时对自身可用计算资源进行初始量化评估;
获取用户录入的采集任务,按照所述可以调度的采集处理运算类型将该任务分解成子任务;
按每项子任务的资源耗费估值,以及各采集虚拟主机当前的可用计算资源估值,确定将该子任务由哪个采集虚拟主机执行;
采集虚拟主机根据执行的各项子任务的资源耗费估值,实时更新其可用计算资源估值。
进一步地,所述可调度的采集运算处理种类包括:一般解析计算,HTTP请求,翻页解析,XPath元素提取,CSS元素提取,特殊时间字符串计算,正则表达式计算。
进一步地,所述进行统一资源耗费量化评估的方法为:
把“一般解析计算”的处理响应时间作为消耗处理运算资源的基础值,约定为资源耗费基本单位;
将其他种类的采集处理运算,根据在CVH初始化阶段实测的处理响应时间,相对于所述资源耗费基本单位,进行资源耗费情况的统一度量。
进一步地,还包括步骤:
当采集虚拟主机的可用计算资源小于等于初始量化估值的一定比例时,发出预警,告知用户。
进一步地,当采集虚拟主机的可用计算资源小于等于初始量化估值的20%时,发出预警。
本公开的另一方面提供一种采用上述资源调度方法的开源信息采集虚拟主机资源调度***,包括:
调度模块,运行于数据采集中心节点,用于将用户录入的采集任务分解为所述可调度的采集处理运算子任务,并查询各项子任务的所述资源耗费估值,向采集虚拟主机发布和分配;
采集模块,运行于采集虚拟主机中,用于执行所分配的采集处理运算子任务,并反馈执行结果;并根据所执行的子任务的资源耗费估值,实时更新所在采集虚拟主机的可用计算资源估值,当可用计算资源估值低于阈值时向所述调度模块发出预警。
进一步地,所述调度模块和采集模块通过消息总线进行消息传送,并进行待处理的采集处理运算子任务以及采集虚拟主机可用计算资源估值的共享。
进一步地,所述数据采集中心节点还包括:
录入模块,用于录入用户的采集任务,并传送给所述调度模块;
存储模块,用于接收并存储所述采集模块反馈的采集处理运算执行结果。
可见,本公开的开源信息采集虚拟主机资源调度方法,综合考虑采集处理行为的差异性,按采集处理响应时间对采集过程中的各种处理运算进行合理分类,提出资源占用评估的全新计量方式,实现对CVH计算资源的小粒度高效调度,显著提升了开源情报采集虚拟主机的资源利用率,进而提升整个***的采集效率,节约了成本。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本发明所欲主张的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。
图1为根据示例性实施例的开源信息采集虚拟主机资源调度方法流程图;
图2为根据示例性实施例的开源信息采集虚拟主机资源调度***组成示意图;
图3为根据示例性实施例的开源信息采集虚拟主机资源调度***的调度模块工作流程图;
图4为根据示例性实施例的开源信息采集虚拟主机资源调度***的采集模块工作流程图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了根据示例性实施例的开源信息采集虚拟主机资源调度方法流程图,包括以下步骤:
步骤1:对可调度的各种采集处理运算按***处理响应时间进行统一的资源耗费量化评估。
现有技术中对采集节点资源调度的策略多针对在HTTP请求操作上,但本公开充分考虑了目前开源情报采集的现实需求,包括在各种页面解析、正则表达式提取等方面对***资源的耗费,因此将这些目前常见的采集处理运算作为调度对象,对其资源耗费情况进行统一的量化评估,作为调度的依据,将会大大细化和提高调度策略对CVH计算资源的利用率。
作为优选方案,可调度的采集运算处理种类包括:一般解析计算,HTTP请求,翻页解析,XPath元素提取,CSS元素提取,特殊时间字符串计算,正则表达式计算。
作为优选方案,进行统一资源耗费量化评估的方法为:
把“一般解析计算”的处理响应时间,平均耗时50ms,作为消耗处理运算资源的基础值,约定为资源耗费基本单位(RCU,Resource Consumption Unit);这里“一般解析计算”包含字符串计算、时间计算等。
将其他种类的采集处理运算,根据在CVH初始化阶段,实测的处理响应时间,相对于所述资源耗费基本单位,进行资源耗费情况的统一度量。
例如,CVH配置为:X86体系架构机型,配置20线程CPU,32GB内存和80GB磁盘,安装CentOS 7操作***,其运算资源耗费表如表1所示。
表1采集处理运算资源耗费参照表
Figure BDA0002286370430000051
Figure BDA0002286370430000061
步骤2:采集虚拟主机每次初始化时对自身可用计算资源进行初始量化评估。
根据虚拟主机的***配置,对自身可用计算资源的初始量化评估,作为后续进行任务分配的基础。此处的量化评估与步骤1中的资源耗费评估采用统一标准。
步骤3:获取用户录入的采集任务,按照所述可调度的采集处理运算类型将该任务分解成子任务。
用户录入的采集任务描述了采集目标站点的URL、需结构化的页面要素及解析规则、翻页规则以及采集频率等其他参数。将这些采集任务分解成小粒度的、可以调度的采集处理子任务,便于后续充分利用CVH的计算资源。
步骤4:按每项子任务的资源耗费估值,以及各采集虚拟主机当前的可用计算资源估值,确定将该子任务由哪个采集虚拟主机执行。
这一步骤可以采用现有的各种具体的调度方法,包括既可以根据采集虚拟主机的可用资源情况向其指派任务,也可以由采集虚拟主机在闲时主动提出执行某项子任务。但其依据均是每项子任务的资源耗费估值,以及各采集虚拟主机当前可用的计算资源估值。
步骤5:采集虚拟主机根据执行的各项子任务的资源耗费估值,实时更新其可用计算资源估值。
包括:在开始执行一项子任务时要将可用计算资源中减去该子任务的资源耗费估值;以及在执行完成时要将该资源释放为可用资源。
作为优选方案,示例性的开源信息采集虚拟主机资源调度方法还包括步骤:当采集虚拟主机的可用计算资源小于等于初始量化估值的一定比例时,发出预警,告知用户。
用户可以根据采集虚拟主机预警频次,判断是否需要增加采集虚拟主机,避免盲目增加,浪费成本。
作为优选方案,当采集虚拟主机的可用计算资源小于等于初始量化估值的20%时,发出预警。
本公开的另一方面提供了一种采用上述调度方法的开源信息采集虚拟主机资源调度***,如图2所示,根据示例性实施例的开源信息采集虚拟主机资源调度***包括:
调度模块,运行于开源信息采集***的数据采集中心节点,用于将用户录入的采集任务分解为所述可调度的采集处理运算子任务,并查询各项子任务的所述资源耗费估值,向采集虚拟主机发布和分配;
采集模块,运行于采集虚拟主机中,用于执行所分配的采集处理运算子任务,并反馈执行结果;并根据所执行的子任务的资源耗费估值,实时更新所在采集虚拟主机的可用计算资源估值,当可用计算资源估值低于阈值时向所述调度模块发出预警。
作为优选方案,所述调度模块和采集模块之间通过消息总线(MB,Message Bus)进行消息传送,并进行待处理的采集处理运算子任务、以及采集虚拟主机当前可用计算资源估值的共享。
示例性的调度模块工作流程图如图3所示。调度模块负责把分解后的采集任务封装成为可调度的采集处理运算,并查询每个采集处理运算的资源耗费值,以子任务的形式派发到MB中;同时,调度模块从MB接收采集模块回写的资源耗费情况和资源预警信息。
示例性的采集模块工作流程图如图4所示。采集模块通过消息总线MB获取子任务信息,与当前可用计算资源估值比对计算后确定是否处理该任务;采集处理运算完成后,采集模块再把处理结果回写到MB;在执行一项子任务前后实时更新当前可用计算资源情况,回写到MB,实现与调度模块之间的状态共享。
实验环境采用5台CVH,选用主流X86体系架构机型,配置10线程CPU,32GB内存和80GB磁盘,安装CentOS 7操作***,其上部署5个采集模块。初始化该服务器最大采集负荷为100000RCU,按80%安全载荷折算为80000RCU,剩余20%作为备用载荷。
另外,所述数据采集中心节点还可以包括:
录入模块,用于录入用户的采集任务,并传送给所述调度模块;
存储模块,用于接收并存储所述采集模块反馈的采集处理运算执行结果。
以上所述仅为本发明示意性的具体实施方式,在不脱离本发明的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本发明保护的范围。

Claims (8)

1.一种开源信息采集虚拟主机资源调度方法,其特征在于,包括以下步骤:
对可调度的各种采集处理运算按***处理响应时间进行统一的资源耗费量化评估;
采集虚拟主机每次初始化时对自身可用计算资源进行初始量化评估;
获取用户录入的采集任务,按照所述可以调度的采集处理运算类型将该任务分解成子任务;
按每项子任务的资源耗费估值,以及各采集虚拟主机当前的可用计算资源估值,确定将该子任务由哪个采集虚拟主机执行;
采集虚拟主机根据执行的各项子任务的资源耗费估值,实时更新其可用计算资源估值。
2.根据权利要求1所述的开源信息采集虚拟主机资源调度方法,其特征在于,所述可调度的采集运算处理种类包括:一般解析计算,HTTP请求,翻页解析,XPath元素提取,CSS元素提取,特殊时间字符串计算,正则表达式计算。
3.根据权利要求1所述的开源信息采集虚拟主机资源调度方法,其特征在于,所述进行统一资源耗费量化评估的方法为:
把“一般解析计算”的处理响应时间作为消耗处理运算资源的基础值,约定为资源耗费基本单位;
将其他种类的采集处理运算,根据在CHV初始化阶段实测的处理响应时间,相对于所述资源耗费基本单位,进行资源耗费情况的统一度量。
4.根据权利要求1所述的开源信息采集虚拟主机资源调度方法,其特征在于,还包括步骤:
当采集虚拟主机的可用计算资源小于等于初始量化估值的一定比例时,发出预警,告知用户。
5.根据权利要求4所述的开源信息采集虚拟主机资源调度方法,其特征在于,当采集虚拟主机的可用计算资源小于等于初始量化估值的20%时,发出预警。
6.一种采用权利要求1到5中任一项所述资源调度方法的开源信息采集虚拟主机资源调度***,其特征在于,包括:
调度模块,运行于数据采集中心节点,用于将用户录入的采集任务分解为所述可调度的采集处理运算子任务,并查询各项子任务的所述资源耗费估值,向采集虚拟主机发布和分配;
采集模块,运行于采集虚拟主机中,用于执行所分配的采集处理运算子任务,并反馈执行结果;并根据所执行的子任务的资源耗费估值,实时更新所在采集虚拟主机的可用计算资源估值,当可用计算资源估值低于阈值时向所述调度模块发出预警。
7.根据权利要求6所述的开源信息采集虚拟主机资源调度***,其特征在于,所述调度模块和采集模块通过消息总线进行消息传送,并进行待处理的采集处理运算子任务以及采集虚拟主机可用计算资源估值的共享。
8.根据权利要求6所述的开源信息采集虚拟主机资源调度***,其特征在于,所述数据采集中心节点还包括:
录入模块,用于录入用户的采集任务,并传送给所述调度模块;
存储模块,用于接收并存储所述采集模块反馈的采集处理运算执行结果。
CN201911162089.0A 2019-11-25 2019-11-25 一种开源信息采集虚拟主机资源调度方法和*** Pending CN111158847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911162089.0A CN111158847A (zh) 2019-11-25 2019-11-25 一种开源信息采集虚拟主机资源调度方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911162089.0A CN111158847A (zh) 2019-11-25 2019-11-25 一种开源信息采集虚拟主机资源调度方法和***

Publications (1)

Publication Number Publication Date
CN111158847A true CN111158847A (zh) 2020-05-15

Family

ID=70556083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911162089.0A Pending CN111158847A (zh) 2019-11-25 2019-11-25 一种开源信息采集虚拟主机资源调度方法和***

Country Status (1)

Country Link
CN (1) CN111158847A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113741788A (zh) * 2020-05-27 2021-12-03 华为技术有限公司 分配运算任务量的方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957780A (zh) * 2010-08-17 2011-01-26 中国电子科技集团公司第二十八研究所 一种基于资源状态信息的网格任务调度处理器及方法
CN103078764A (zh) * 2012-12-28 2013-05-01 国家计算机网络与信息安全管理中心 基于虚拟计算任务的运行监测***及方法
CN105718479A (zh) * 2014-12-04 2016-06-29 中国电信股份有限公司 跨idc大数处理架构下执行策略生成方法、装置
CN105893158A (zh) * 2016-06-08 2016-08-24 北京工业大学 私有云条件下的大数据混合调度模型
CN107479945A (zh) * 2017-08-15 2017-12-15 爱普(福建)科技有限公司 一种虚拟机资源调度方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957780A (zh) * 2010-08-17 2011-01-26 中国电子科技集团公司第二十八研究所 一种基于资源状态信息的网格任务调度处理器及方法
CN103078764A (zh) * 2012-12-28 2013-05-01 国家计算机网络与信息安全管理中心 基于虚拟计算任务的运行监测***及方法
CN105718479A (zh) * 2014-12-04 2016-06-29 中国电信股份有限公司 跨idc大数处理架构下执行策略生成方法、装置
CN105893158A (zh) * 2016-06-08 2016-08-24 北京工业大学 私有云条件下的大数据混合调度模型
CN107479945A (zh) * 2017-08-15 2017-12-15 爱普(福建)科技有限公司 一种虚拟机资源调度方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113741788A (zh) * 2020-05-27 2021-12-03 华为技术有限公司 分配运算任务量的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107038069B (zh) Hadoop平台下动态标签匹配DLMS调度方法
US10474504B2 (en) Distributed node intra-group task scheduling method and system
CN101652750B (zh) 数据处理装置、分散处理***、数据处理方法
CN103067524A (zh) 一种基于云计算环境的蚁群优化计算资源分配方法
CN104317658A (zh) 一种基于MapReduce的负载自适应任务调度方法
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及***
CN111813545A (zh) 一种资源配置方法、装置、介质和设备
CN105718479A (zh) 跨idc大数处理架构下执行策略生成方法、装置
CN109257399B (zh) 云平台应用程序管理方法及管理平台、存储介质
CN108920153A (zh) 一种基于负载预测的Docker容器动态调度方法
CN113946431B (zh) 一种资源调度方法、***、介质及计算设备
US11422858B2 (en) Linked workload-processor-resource-schedule/processing-system—operating-parameter workload performance system
US8819239B2 (en) Distributed resource management systems and methods for resource management thereof
CN108574600B (zh) 云计算服务器的功耗和资源竞争协同控制的服务质量保障方法
WO2016084327A1 (ja) 資源予測装置、資源予測方法、資源予測プログラムおよび分散処理システム
CN111158847A (zh) 一种开源信息采集虚拟主机资源调度方法和***
CN113760638A (zh) 一种基于kubernetes集群的日志服务方法和装置
US12028269B2 (en) Method for optimal resource selection based on available GPU resource analysis in large-scale container platform
CN103685066A (zh) 一种动态分布式调度方法和***
CN115952054A (zh) 一种仿真任务资源管理方法、装置、设备及介质
Cao et al. Online cost-rejection rate scheduling for resource requests in hybrid clouds
CN114090201A (zh) 资源调度方法、装置、设备及存储介质
CN114090256A (zh) 一种基于云计算的应用交付负载管理方法及其***
CN113176941A (zh) 一种在/离线服务混合部署的方法、集群***及电子设备
CN108009074B (zh) 一种基于模型和动态分析的多核***实时性评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication