CN109325104B - 一种动态计算新闻采集服务资源的方法 - Google Patents

一种动态计算新闻采集服务资源的方法 Download PDF

Info

Publication number
CN109325104B
CN109325104B CN201811274611.XA CN201811274611A CN109325104B CN 109325104 B CN109325104 B CN 109325104B CN 201811274611 A CN201811274611 A CN 201811274611A CN 109325104 B CN109325104 B CN 109325104B
Authority
CN
China
Prior art keywords
data
website
acquisition
frequency
acquisition frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811274611.XA
Other languages
English (en)
Other versions
CN109325104A (zh
Inventor
詹咏松
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN201811274611.XA priority Critical patent/CN109325104B/zh
Publication of CN109325104A publication Critical patent/CN109325104A/zh
Application granted granted Critical
Publication of CN109325104B publication Critical patent/CN109325104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种动态计算新闻采集服务资源的方法。所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。

Description

一种动态计算新闻采集服务资源的方法
技术领域
本发明属于数据分析技术领域,具体涉及一种动态计算新闻采集服务资源的方法。
背景技术
新闻网站每天更新数据频繁,站点数量众多,对于从事于网站数据挖掘分析的企业而言,需要大量的服务器/带宽/IP资源,来对新闻网站的数据资源进行采集,每一类资源的使用都会涉及大量的成本。对新闻网站采集频率过低,容易遗漏采集新闻;采集频率高,则需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理IP进行采集。
现有采集***一般会按单一频率采集网站数据资源,部分优秀的采集***会采用分级管理,对网站进行简单分类,针对每一类采用固定频率进行数据资源采集。这些方法,难以合理配置对新闻网站的采集频率,无法避免前述的漏采集或者过高采集成本的问题。
逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。
在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。但是对于逻辑回归,定义域可以是连续的[-∞, +∞],但值域一般是离散的,即只有有限多个输出值。例如,其值域可以只有两个值{0, 1},这两个值可以表示对样本的某种分类,比如高/低、患病/健康、阴性/阳性等,这就是最常见的二分类逻辑回归。因此,从整体上来说,通过逻辑回归模型,我们将在整个实数范围上的x映射到了有限个点上,这样就实现了对x的分类。因为每次拿过来一个x,经过逻辑回归分析,就可以将它归入某一类y中。
逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,都具有 ax+b,其中a和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将ax+b作为因变量,即y = ax+b,而logistic回归则通过函数S将ax+b对应到一个隐状态p,p = S(ax+b),然后根据p与1-p的大小决定因变量的值。这里的函数S就是Sigmoid函数
Figure 538738DEST_PATH_IMAGE002
(1)
将t换成ax+b,可以得到逻辑回归模型的参数形式:
Figure 721458DEST_PATH_IMAGE004
(2)
如何用最少的计算、存储和网络资源获得满意的数据资源采集效果,是本发明需要解决的问题。本发明通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。
发明内容
为了解决现有数据采集***静态设置数据采集频率,导致数据采集不全、漏采重要数据,或者浪费计算、存储和网络资源,导致采集成本过高等问题,本发明提供一种动态计算新闻采集服务资源的方法,所述方法以历史数据为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定了对特定网站进行数据采集所需要投入的采集资源,如计算、存储、网络资源等。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。
为实现上述目标,本发明采用以下技术方案:
一种动态计算新闻采集服务资源的方法,所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。
一种动态计算新闻采集服务资源的方法,所述方法包括以下步骤:
1)选择输入数据;
2)抽取输入数据特征;
3)对输入数据的每个特征值进行归一化处理;
4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;
5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;
6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集;
7)选用逻辑回归算法作为分类算法;
8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;
9)将采集频率分成若干类,由低到高,分别记为f1、f2、…fn;
10)为每个新闻网站分配一个初始采集频率,设置一个累加器;
11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一个分类值;
12)若分类值为1,则增加该网站的采集频率到上一个等级,若已达最高采集频率fn,则维持采集频率为fn不变,将网站对应的累加器清零;若分类值为0,则维持该网站的采集频率不变,同时在累加器中加1,若累加器的值达到规定的阈值,则选择降低该网站的采集频率,若已达该网站的初始采集频率fi,则维持采集频率为fi不变;
13)以新的采集频率对各新闻网站进行数据采集,并以新获取的数据特征作为反馈信息,对该网站的逻辑回归分类模型进行修正优化,以保证针对该网站的采集频率处在合理位置,既不过低,导致数据丢失,也不过高,导致资源浪费,增加采集成本。
优选的,所述步骤9)中,将采集频率分为5等,分别记为f1、f2、f3、f4、f5。
优选的,所述步骤10)中,一般选择f1作为各网站的初始采集频率,对于一些重要的网站,可以采用其他高于f1的频率作为初始采集频率,以保证数据采集质量。
优选的,所述步骤12)中,阈值设置为2,即如果某网站连续两次分类值为0,则调低该网站的采集频率。
本发明的优点和有益效果为:本发明基于网站过往的采集数据质量和采集资源投入量,对分类算法进行训练,得到训练模型,已经该模型确定采集资源的投入量,并将实际的数据采集质量和资源投入量作为反馈信息不断修正优化分类模型,从而保证了采集资源投入量的动态合理性,既不会由于采集资源投入过低,导致数据丢失,也不会由于采集资源投入过高,导致资源浪费,增加采集成本。同时,对于重要的网站,本发明通过抬高初始频率的方式,提供资源保障,确保重要资源的采集质量。
具体实施方式
下面结合实施例对本发明作进一步说明。
实施例
一种动态计算新闻采集服务资源的方法,按照以下步骤执行:
1)选择输入数据;
2)抽取输入数据特征;
3)对输入数据的每个特征值进行归一化处理;
4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;
5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;
6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集,其中训练数据集占80%,测试数据集占20%;
7)选用逻辑回归算法作为分类算法;
8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;
9)将采集频率分成5类,由低到高,分别记为f1、f2、f3、f4、f5;
10)为每个新闻网站分配一个初始采集频率f1,设置一个累加器,对于个别重要的网站设置初始采集频率为f3;
11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一个分类值;
12)若分类值为1,则增加该网站的采集频率到上一个等级,若已达最高采集频率f5,则维持采集频率为f5不变,将网站对应的累加器清零;若分类值为0,则维持该网站的采集频率不变,同时在累加器中加1,若累加器的值达到2,则选择降低该网站的采集频率,若已达该网站的初始采集频率f1或f3,则维持采集频率为f1或f3不变;
13)以新的采集频率对各新闻网站进行数据采集,并以新获取的数据特征作为反馈信息,对该网站的逻辑回归分类模型进行修正优化,以保证针对该网站的采集频率处在合理位置,既不过低,导致数据丢失,也不过高,导致资源浪费,增加采集成本。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims (4)

1.一种动态计算新闻采集服务资源的方法,其特征在于:所述方法以过往所采集的新闻数据质量和为采集数据所投入的采集资源量为基础数据、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,实现对采集频率的动态修正和优化;
其中,所述方法包括以下步骤:
1)选择输入数据;
2)抽取输入数据特征;
3)对输入数据的每个特征值进行归一化处理;
4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;
5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;
6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集;
7)选用逻辑回归算法作为分类算法;
8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;
9)将采集频率分成若干类,由低到高,分别记为f1、f2、…fn;
10)为每个新闻网站分配一个初始采集频率,设置一个累加器;
11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一个分类值;
12)若分类值为1,则增加该网站的采集频率到上一个等级,若已达最高采集频率fn,则维持采集频率为fn不变,将网站对应的累加器清零;若分类值为0,则维持该网站的采集频率不变,同时在累加器中加1,若累加器的值达到规定的阈值,则选择降低该网站的采集频率,若已达该网站的初始采集频率fi,则维持采集频率为fi不变;
13)以新的采集频率对各新闻网站进行数据采集,并以新获取的数据特征作为反馈信息,对该网站的逻辑回归分类模型进行修正优化,以保证针对该网站的采集频率处在合理位置,既不过低,导致数据丢失,也不过高,导致资源浪费,增加采集成本。
2.根据权利要求1所述的一种动态计算新闻采集服务资源的方法,其特征在于:所述步骤9)中,将采集频率分为5等,分别记为f1、f2、f3、f4、f5。
3.根据权利要求1所述的一种动态计算新闻采集服务资源的方法,其特征在于:所述步骤10)中,选择f1作为各网站的初始采集频率,对于一些预设的网站,采用其他高于f1的频率作为初始采集频率,以保证数据采集质量。
4.根据权利要求1所述的一种动态计算新闻采集服务资源的方法,其特征在于:所述步骤12)中,阈值设置为2,即如果某网站连续两次分类值为0,则调低该网站的采集频率。
CN201811274611.XA 2018-10-30 2018-10-30 一种动态计算新闻采集服务资源的方法 Active CN109325104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811274611.XA CN109325104B (zh) 2018-10-30 2018-10-30 一种动态计算新闻采集服务资源的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811274611.XA CN109325104B (zh) 2018-10-30 2018-10-30 一种动态计算新闻采集服务资源的方法

Publications (2)

Publication Number Publication Date
CN109325104A CN109325104A (zh) 2019-02-12
CN109325104B true CN109325104B (zh) 2021-11-19

Family

ID=65259700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811274611.XA Active CN109325104B (zh) 2018-10-30 2018-10-30 一种动态计算新闻采集服务资源的方法

Country Status (1)

Country Link
CN (1) CN109325104B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357875B (zh) * 2021-12-27 2022-09-02 广州龙数科技有限公司 基于机器学习的智能数据处理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158906A (ja) * 2006-12-25 2008-07-10 Nec Corp リソース監視における収集間隔調整システム、その方法およびプログラム
CN104486166A (zh) * 2014-12-31 2015-04-01 北京理工大学 一种基于QoS的网络化控制***采样周期调整方法
CN107203623A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 网络爬虫***的负载均衡调节方法
CN108549595A (zh) * 2018-04-18 2018-09-18 江苏物联网研究发展中心 一种计算***状态信息动态采集方法及***
CN108595666A (zh) * 2018-04-28 2018-09-28 中译语通科技股份有限公司 动态计算新闻采集服务资源的方法、信息数据处理终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158906A (ja) * 2006-12-25 2008-07-10 Nec Corp リソース監視における収集間隔調整システム、その方法およびプログラム
CN104486166A (zh) * 2014-12-31 2015-04-01 北京理工大学 一种基于QoS的网络化控制***采样周期调整方法
CN107203623A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 网络爬虫***的负载均衡调节方法
CN108549595A (zh) * 2018-04-18 2018-09-18 江苏物联网研究发展中心 一种计算***状态信息动态采集方法及***
CN108595666A (zh) * 2018-04-28 2018-09-28 中译语通科技股份有限公司 动态计算新闻采集服务资源的方法、信息数据处理终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Informing the curious negotiator: Automatic news extraction from the Internet;Zhang, D;Simoff, SJ;《Lecture Notes in Artificial Intelligence》;20061231;全文 *
智能新闻采集处理***的设计与实现;张建林;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170930;全文 *

Also Published As

Publication number Publication date
CN109325104A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN106649831B (zh) 一种数据过滤方法及装置
CN109471847B (zh) 一种i/o拥塞控制方法及控制***
CN112529204A (zh) 模型训练方法、装置及***
CN111489188B (zh) 一种居民可调负荷潜力挖掘方法及***
CN109800220B (zh) 一种大数据清洗方法、***及相关装置
CN111026738A (zh) 区域人口监控方法、***、电子设备及存储介质
CN117493921B (zh) 基于大数据的人工智能节能管理方法及***
CN108777870B (zh) 基于皮尔森系数的lte高负荷小区甄别方法及***
CN113688490A (zh) 网络共建共享处理方法、装置、设备及存储介质
CN109325104B (zh) 一种动态计算新闻采集服务资源的方法
US20230034061A1 (en) Method for managing proper operation of base station and system applying the method
CN114912720A (zh) 基于记忆网络电力负荷预测方法、装置、终端及存储介质
CN115622867A (zh) 一种工控***安全事件预警分类方法及***
CN112925964A (zh) 基于云计算服务的大数据采集方法及大数据采集服务***
CN116484166B (zh) 一种基于大气污染浓度变化率的突出值站点识别方法
CN104182470A (zh) 一种基于svm的移动终端应用分类***和方法
CN116502802A (zh) 一种基于大数据与无线传感技术的数据管理***
CN112613521B (zh) 基于数据转换的多层次数据分析***及方法
WO2022062777A1 (zh) 数据管理方法、数据管理装置及存储介质
CN115115107A (zh) 光伏功率的预测方法、预测装置和计算机设备
CN111709611A (zh) 一种农业大数据处理方法和装置
CN110401727B (zh) 一种ip地址分析方法和装置
CN115514621B (zh) 故障监测方法、电子设备及存储介质
CN111741083B (zh) 基于边缘计算和物联网的通信数据处理方法及云服务器
CN111191669B (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant