CN108595666A - 动态计算新闻采集服务资源的方法、信息数据处理终端 - Google Patents
动态计算新闻采集服务资源的方法、信息数据处理终端 Download PDFInfo
- Publication number
- CN108595666A CN108595666A CN201810402356.6A CN201810402356A CN108595666A CN 108595666 A CN108595666 A CN 108595666A CN 201810402356 A CN201810402356 A CN 201810402356A CN 108595666 A CN108595666 A CN 108595666A
- Authority
- CN
- China
- Prior art keywords
- website
- dynamic
- calculates
- acquisition
- collection service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明属于计算机软件技术领域,公开了一种动态计算新闻采集服务资源的方法、信息数据处理终端,通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,降低采集资源。通过历史数据,实时采集量,突发时间预警,人为因素调节等多个因子对要采集的目标动态调整服务器资源和带宽等资源,在采集目标增量时增加服务器和带宽等资源,确认对采集目标及时准确采集,在采集目标减量时,释放不必要的资源,节约成本。本发明的服务器可以释放10‑20%的cpu资源,节约10‑15%的内存。特别是针对流量计费的带宽效果更明显,减少30%‑40%的网络带宽消耗。本发明属于国内外的技术空白,对于推动业内的发展具有重大的意义。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种动态计算新闻采集服务资源的方法、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:新闻网站每天更新数据频繁,站点数量众多,需要大量的服务器/带宽/ip资源进行采集,每一项都会涉及大量的成本;对新闻网站采集频率低,容易遗漏采集新闻;采集频率高,需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理ip进行采集。现有采集***一般会按单一频率采集,优秀的***会采用分级管理,对网站进行简单分类,针对每一类进行固定频率采集。
综上所述,现有技术存在的问题是:
(1)在目标网站发布新闻低的时候,还需要占用大量的服务器/带宽资源,造成了资源浪费。
(2)在出现突发新闻事件/新闻发布频率加快的时候,在既定的采集频率下,采集新闻实效慢&容易丢失新闻。
(3)固定采集频率,需要在以采集优先和资源节约两个策略中选择,无论选择那种的固定采集频率方案都有技术缺陷,固定采集频率采用单一频率采集,而目标网站数据量随时间发布不同,所以固定采集频率无法彻底解决采集效率和服务器资源节约,受限于技术方案无法彻底解决。
解决上述技术问题的难度和意义:如何用最少的资源获得满意的采集效果,是本发明需要解决的。本发明通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。
发明内容
针对现有技术存在的问题,本发明提供了一种动态计算新闻采集服务资源的方法、信息数据处理终端。
本发明是这样实现的,一种动态计算新闻采集服务资源的方法,根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源。
进一步,所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过***动态计算网站采集数量,作为参数提供;
步骤五,调节***的敏感度,遇到新闻突发,人为调节,增大***的敏感性;
步骤六,调节***的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,***变量设为s。
所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对***不影响,大于1则提高网站的重要性,小于1则降低网站重要性。
所述步骤六进一步包括:
其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:
S=s1*a/λn-1;
a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;
如果S>=2则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1;
分析动态计算网站采集频率:
根据F的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
本发明的另一目的在于提供一种所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的***,所述动态计算新闻采集服务资源的***包括:
历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;
网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;
网站现有采集频率模块,默认网站的采集频率,初始值;
网站单位时间采集数量模块,通过***动态计算网站采集数量,作为参数提供;
人为调节因子模块,人为的调节***的敏感度;
自动调节因子模块,自动调节***的敏感度。
本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的计算机程序。
本发明的另一目的在于提供一种实现所述动态计算新闻采集服务资源的方法的信息数据处理终端,所述信息数据处理终端为论坛采集***、社交媒体采集***。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的动态计算新闻采集服务资源的方法。
综上所述,本发明的优点及积极效果为:服务器平均可以释放10-20%的cpu资源,节约10-15%的内存。特别是带宽效果更明显,可以减少30%-40%的网络带宽消耗。
采集服务器资源 | 固定采集频率 | 动态调整采集频率 |
空闲时cpu | 40-50% | 10%-15% |
繁忙时cpu | 40-60% | 40-50% |
空闲时内存 | 50-60% | 20-40% |
繁忙时内存 | 50-60% | 50%-60% |
空闲时带宽 | 3-4兆 | 1-2兆 |
繁忙时带宽 | 4-5兆 | 5-6兆 |
本发明的技术方案弥补了国内外的技术空白,国内外没有相关资料,对于推动业内的发展具有重大的意义。本技术方案需要在大规模采集***部署情况下进行研究,需要有足够多的历史大数据(Tb级别),采集长期的历史数据(数年)作为研究技术,技术研究基础门槛高,一般公司没有足够多数据和资源进行研究。采集服务器资源少,对***采用此算法,效果不如大规模数据服务器明显,单台服务器性能提高性价比不高,因为本算法需要投入一定服务器计算资源,只有在大规模服务器部署情况下才会取得良好效果。
附图说明
图1是本发明实施例提供的动态计算新闻采集服务资源的方法流程图。
图2是本发明实施例提供的动态计算新闻采集服务资源的***结构示意图;
图中:1、历史记录模块;2、网站权重模块;3、网站现有采集频率模块;4、网站单位时间采集数量模块;5、人为调节因子模块;6、自动调节因子模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供的动态计算新闻采集服务资源的方法包括以下步骤:
S101:计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
S102:根据网站的重要性,给不同的网站设定不同的权重;
S103:默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
S104:通过***动态计算网站采集数量,作为参数提供;
S105:调节***的敏感度,遇到新闻突发,人为调节,增大***的敏感性;
S106:调节***的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。***变量设为s。
如图2所示,本发明实施例提供的本发明实施例提供的动态计算新闻采集服务资源的***包括:
历史记录模块1,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量(如一小时,或者15分钟,数值越小精度越高,但是消耗***计算资源),作为横向对比数值,以上一年的历史量为准。变量设为h。
网站权重模块2,根据网站的重要性,给不同的网站设定不同的权重,重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低。权重变量为w。w1-w5取值范围为0-2之间。如为1,则表示对***不影响,大于1则提高网站的重要性,小于1则降低网站重要性。实际应用中可以根据不同的类型网站进行调整。
网站现有采集频率模块3,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响。默认情况情况下,网站初始值为网站最低采集频率。频率变量设为f,***根据采集***模式,可以分为多档采集频率,如f1,f2,f3,f4,f5。f1为频率最低,f5为频率最高。
网站单位时间采集数量模块4,通过***动态计算网站采集数量,作为参数提供。采集变量设为c。时间单位需要跟历史记录采用时间相对应,比如历史按小时统计,则网站也要按小时进行统计,为提高精度可以提高单位间隔,如从1小时提升到15分钟。按我们调研需要评估,1小时的时间间隔可以满足***需求。
人为调节因子模块5,调节***的敏感度,如果不调节调节因子设为1,表示完全依赖***调节,没有人为干预。如果遇到可能会有新闻突发,如国内两会期间,***期间等可以结合历史情况预测网站新闻会增长,可以认为调节,增大***的敏感性。也可以结合历史情况,在通新闻量少期间降低敏感性,减少服务器资源消耗。参数变量设为p(0<p<2)。P>1表示提高***敏感度,p<1,表示降低***敏感度。例如***期间可以提高p的值,增大***敏感性。
自动调节因子模块6,调节***的敏感度,如果不调节调节因子设为1。自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1。***变量设为s。
其中λ按斐波那列数列取值(斐波那契数列指的是这样一个数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和。);k从历史数据最早时刻取值,取到最新一年的数据。
S=s1*a/λn-1;
a为经验值取值范围为0-1之间,主要是调节系数,控制历史数据影响力。
如果S>=2,则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1。
分析动态计算网站采集频率:
根据F的值,调节是否提升采集频率。根据服务器的配置不同,采集能力不同,可以评估出单位频率下的采集量。低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种动态计算新闻采集服务资源的方法,其特征在于,所述动态计算新闻采集服务资源的方法根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源。
2.如权利要求1所述的动态计算新闻采集服务资源的方法,其特征在于,所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过***动态计算网站采集数量,作为参数提供;
步骤五,调节***的敏感度,遇到新闻突发,人为调节,增大***的敏感性;
步骤六,调节***的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,***变量设为s。
3.如权利要求2所述的动态计算新闻采集服务资源的方法,其特征在于,所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对***不影响,大于1则提高网站的重要性,小于1则降低网站重要性。
4.如权利要求2所述的动态计算新闻采集服务资源的方法,其特征在于,所述步骤六进一步包括:
其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:
S=s1*a/λn-1;
a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;
如果S>=2则意味网站采集量异常率比较高,S取1;
如果1<S<2取值正常可以代入公式,网站资讯量在增长;
如果0<S<1网站资讯量在下滑,取值正常;
如果S<0人为网站采集量时刻超范围,S取1;
分析动态计算网站采集频率:
根据F的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量;低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
5.一种如权利要求1所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的***,其特征在于,所述动态计算新闻采集服务资源的***包括:
历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;
网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;
网站现有采集频率模块,默认网站的采集频率,初始值;
网站单位时间采集数量模块,通过***动态计算网站采集数量,作为参数提供;
人为调节因子模块,人为的调节***的敏感度;
自动调节因子模块,自动调节***的敏感度。
6.一种实现权利要求1~4任意一项所述动态计算新闻采集服务资源的方法的计算机程序。
7.一种实现权利要求1~4任意一项所述动态计算新闻采集服务资源的方法的信息数据处理终端,其特征在于,所述信息数据处理终端为论坛采集***、社交媒体采集***。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的动态计算新闻采集服务资源的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402356.6A CN108595666B (zh) | 2018-04-28 | 2018-04-28 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402356.6A CN108595666B (zh) | 2018-04-28 | 2018-04-28 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595666A true CN108595666A (zh) | 2018-09-28 |
CN108595666B CN108595666B (zh) | 2022-03-29 |
Family
ID=63619274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810402356.6A Active CN108595666B (zh) | 2018-04-28 | 2018-04-28 | 动态计算新闻采集服务资源的方法、信息数据处理终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595666B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325104A (zh) * | 2018-10-30 | 2019-02-12 | 中译语通科技股份有限公司 | 一种动态计算新闻采集服务资源的方法 |
CN113111439A (zh) * | 2021-04-21 | 2021-07-13 | 江南造船(集团)有限责任公司 | 基于通信网络的船舶焊接管控***及方法 |
CN113312526A (zh) * | 2021-06-29 | 2021-08-27 | 平安资产管理有限责任公司 | 网络信息动态采集方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160180297A1 (en) * | 2014-12-18 | 2016-06-23 | International Business Machines Corporation | Generating a visitation schedule |
CN105786962A (zh) * | 2016-01-15 | 2016-07-20 | 优品财富管理有限公司 | 基于新闻传播力的大数据指数分析方法及*** |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及*** |
US20170251102A1 (en) * | 2002-08-08 | 2017-08-31 | Global Tel*Link Corporation | Telecommunication call management and monitoring system with voiceprint verification |
CN107566550A (zh) * | 2017-10-13 | 2018-01-09 | 北京中教在线科技有限公司 | 一种网站url动态生成方法 |
-
2018
- 2018-04-28 CN CN201810402356.6A patent/CN108595666B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170251102A1 (en) * | 2002-08-08 | 2017-08-31 | Global Tel*Link Corporation | Telecommunication call management and monitoring system with voiceprint verification |
US20160180297A1 (en) * | 2014-12-18 | 2016-06-23 | International Business Machines Corporation | Generating a visitation schedule |
CN105786962A (zh) * | 2016-01-15 | 2016-07-20 | 优品财富管理有限公司 | 基于新闻传播力的大数据指数分析方法及*** |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及*** |
CN107566550A (zh) * | 2017-10-13 | 2018-01-09 | 北京中教在线科技有限公司 | 一种网站url动态生成方法 |
Non-Patent Citations (1)
Title |
---|
陈翰: "突发事件网络舆情数据采集与抽取技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325104A (zh) * | 2018-10-30 | 2019-02-12 | 中译语通科技股份有限公司 | 一种动态计算新闻采集服务资源的方法 |
CN109325104B (zh) * | 2018-10-30 | 2021-11-19 | 中译语通科技股份有限公司 | 一种动态计算新闻采集服务资源的方法 |
CN113111439A (zh) * | 2021-04-21 | 2021-07-13 | 江南造船(集团)有限责任公司 | 基于通信网络的船舶焊接管控***及方法 |
CN113111439B (zh) * | 2021-04-21 | 2022-10-21 | 江南造船(集团)有限责任公司 | 基于通信网络的船舶焊接管控***及方法 |
CN113312526A (zh) * | 2021-06-29 | 2021-08-27 | 平安资产管理有限责任公司 | 网络信息动态采集方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108595666B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595666A (zh) | 动态计算新闻采集服务资源的方法、信息数据处理终端 | |
CN104182801B (zh) | 一种预测网站访问量的方法及设备 | |
CN110505650B (zh) | 随机异构分层网容量智能评估方法及装置 | |
CN111785392B (zh) | 人口数量的预警方法、装置、电子设备及计算机可读介质 | |
CN109391950B (zh) | 终端分布的预测方法、装置、设备及介质 | |
CN102955719B (zh) | 疑似内存泄漏的确定方法及装置 | |
Kanamura et al. | On transition probabilities of regime switching in electricity prices | |
CN108770017B (zh) | 一种无线资源动态均衡方法及*** | |
CN102298440A (zh) | 经由动态存储器操作状态的存储器功率管理 | |
CN103051701B (zh) | 一种缓存准入方法及装置 | |
CN103024762A (zh) | 基于业务特征的通信业务预测方法 | |
US11157194B2 (en) | Automated predictive tiered storage system | |
EP3640802A1 (en) | Io performance evaluation method and device for cache server | |
CN110677854A (zh) | 载频容量调整的方法、装置、设备和介质 | |
CN108777870B (zh) | 基于皮尔森系数的lte高负荷小区甄别方法及*** | |
WO2017054422A1 (zh) | 小区忙时段管理方法、装置及自组织网络网元 | |
CN108243429B (zh) | 一种用于室内分布***的网络覆盖检测方法及*** | |
CN104375621A (zh) | 一种云计算中基于自适应阈值的动态加权负载评估方法 | |
US11381635B2 (en) | Method of operating a server apparatus for delivering website content, server apparatus and device in communication with server apparatus | |
CN103002495A (zh) | 无线网络结构的评估方法及装置 | |
CN104768171A (zh) | 一种网络优化方法及装置 | |
CN113835626B (zh) | 一种确定磁盘可使用时长的方法及装置 | |
CN111800807A (zh) | 一种基站用户数量告警的方法及装置 | |
CN113222245A (zh) | 居民用户月度电量电费异常核查方法及***、存储介质 | |
CN109982375A (zh) | 一种服务小区的负荷均衡调整方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |