CN108920617A - 一种数据采集的判定***及方法、信息数据处理终端 - Google Patents

一种数据采集的判定***及方法、信息数据处理终端 Download PDF

Info

Publication number
CN108920617A
CN108920617A CN201810690116.0A CN201810690116A CN108920617A CN 108920617 A CN108920617 A CN 108920617A CN 201810690116 A CN201810690116 A CN 201810690116A CN 108920617 A CN108920617 A CN 108920617A
Authority
CN
China
Prior art keywords
website
acquisition
value
text
determination method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810690116.0A
Other languages
English (en)
Other versions
CN108920617B (zh
Inventor
宋俊平
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN201810690116.0A priority Critical patent/CN108920617B/zh
Publication of CN108920617A publication Critical patent/CN108920617A/zh
Application granted granted Critical
Publication of CN108920617B publication Critical patent/CN108920617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种网站数据采集的判定***及方法、信息数据处理终端,所述网站数据采集的判定方法抽样采集网站内容;计算各影响因素的值;根据各影响因素的值计算网站采集价值;根据网站采集价值确定是否对进行持续采集。本发明从多方面评估一个网站的采集价值,包括所属领域、文章质量、文章更新频率、原创内容占比等;提供了各因素评测值的量化方法,基于扎实的工程经验,方便有效且易于操作。同时给出了基于各评测值的网站采集价值计算方法,能够自动、快速的对网站的采集价值进行评估。试验表明,本发明的准确度高于99%,可以应用于实际***。

Description

一种数据采集的判定***及方法、信息数据处理终端
技术领域
本发明属于计算机软件技术领域,尤其涉及一种网站数据采集的判定***及方法、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:随着大数据挖掘、人工智能技术的兴起,数据和内容的重要性越来越被公众所认可。在大规模数据采集***中,如何及时发现新的、有价值网站,进而持续对这些网站内容进行爬取,是当前数据采集***急需解决的问题。在数据采集***中,通过抽取页面上的链接,并对链接进行处理来自动发现新网站的网址。之后,需要对新网站的采集价值进行判定,例如是否某一领域的网站、网站发布的内容质量如何等。采集价值高的网站才会被添加到采集列表,从而定期爬取新发布的内容。一般来讲,不同用户对数据采集价值的定义不同,会综合考虑多种因素来判定一个网站是否值的长期采集。
综上所述,现有技术存在的问题是:
(1)网站的采集价值如何评估。
(2)影响网站采集价值的影响因素有哪些。
(3)如何对这些因素进行量化分析。
解决上述技术问题的难度和意义:通过解决以上问题,能够实现自动化的网站发现及网站采集价值判定,提升信息获取速度及质量,帮助用户以更快的速度获取更多更好的数据。
发明内容
针对现有技术存在的问题,本发明提供了一种网站数据采集的判定***及方法、信息数据处理终端。
本发明是这样实现的,一种网站数据采集的判定方法,所述网站数据采集的判定方法为:抽样采集网站内容;计算各影响因素的值;根据各影响因素的值计算网站采集价值;根据网站采集价值确定是否对进行持续采集。
进一步,所述抽样采集网站内容采用广度优先算法采集数万篇文章。
进一步,所述影响因素量为:
(1)文本类型A,用于判定网站发布的内容是否属于用户感兴趣的领域;
(2)文本质量评估Q,文本数据中是否有乱码文本、JS代码文本、标题内容不一致、灌水文本;
(3)文章更新频率F,用网站平均每天的新增篇章数量来指代文章更新频率;
(4)原创内容占比O,用原创内容在所有新闻中所占比例表示。
进一步,所述文本类型采用有监督的机器学习方法,准备领域内和领域外的文章各一批,利用机器学习或深度学习技术训练一个二分类的分类器,利用已经训练好的分类器对网站采样文本的类型进行判定,统计采样文本中领域内篇章的占比,如果该占比高于指定阈值,则判定该网站发布内容与用户需求一致,记为A=1,否则记为A=0;
所述文本质量评估Q采用基于深度表征的文本质量评估方法对每个篇章的质量进行评分,并取采样文本的质量平均分作为网站文本质量分;由于原始质量分值取值范围为[0,100],为了归一化,Q的取值在原始文本质量分数的基础上除以100;
所述文章更新频率F,对更新频率F进行归一化处理:
其中Fmin、Fmax为统计大量网站所得结果。
进一步,所述网站采集价值计算公式:
V=A*(α*Q+β*F+γ*O);
其中α、β、γ分别为三个影响因素文本质量评估、文章更新频率、原创内容占比的权重,且α+β+γ=1;文本类型记为A,文本质量评估记为Q,文章更新频率记为F,原创内容占比记为O。
进一步,所述采集判定当网站采集价值V大于指定阈值,则将网站加入定期采集列表,否则不加入。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的网站数据采集的判定***,所述网站数据采集的判定***包括:
抽样模块,用于抽样采集网站内容;
计算模块,用于计算各影响因素的值;
网站采样价值模块,用于根据各影响因素的值计算网站采集价值;
判定模块,用于根据网站采集价值确定是否对其进行持续采集。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的计算机程序。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的网站数据采集的判定方法。
综上所述,本发明的优点及积极效果为:从多方面评估一个网站的采集价值,包括所属领域、文章质量、文章更新频率、原创内容占比等;提供了各因素评测值的量化方法,基于扎实的工程经验,方便有效且易于操作。同时给出了基于各评测值的网站采集价值计算方法,能够自动、快速的对网站的采集价值进行评估。试验表明,本发明的准确度高于99%,可以应用于实际***。
附图说明
图1是本发明实施例提供的网站数据采集的判定***结构示意图;
图中:1、抽样模块;2、计算模块;3、网站采样价值模块;4、判定模块。
图2是本发明实施例提供的网站数据采集的判定方法流程图。
图3是本发明实施例提供的网站数据采集的判定方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明多方面评估一个网站的采集价值,包括所属领域、文章质量、文章更新频率、原创内容占比等;提供了各因素评测值的量化方法,基于扎实的工程经验,方便有效且易于操作。
如图1所示,本发明实施例提供的网站数据采集的判定***包括:
抽样模块1,用于抽样采集网站内容;
计算模块2,用于计算各影响因素的值;
网站采样价值模块3,用于根据各影响因素的值计算网站采集价值;
判定模块4,用于根据网站采集价值确定是否对其进行持续采集。
如图2所示,本发明实施例提供的网站数据采集的判定方法包括以下步骤:
S201:抽样采集网站内容;
S202:计算各影响因素的值;
S203:根据各影响因素的值计算网站采集价值;
S204:根据网站采集价值确定是否对其进行持续采集。
如图3所示,本发明实施例提供的网站数据采集的判定方法具体包括以下步骤:
步骤一,网站采样
爬取部分网站篇章用于网站采集价值的计算。本发明建议采用广度优先算法采集数万篇文章。
步骤二,影响因素量化分析
如图3所示,网站采集价值主要受四方面因素影响:文本内容是否属于指定领域、文本质量如何、文章更新频率以及原创内容占比。
(1)文本类型
文本类型主要用于判定网站发布的内容是否属于用户感兴趣的领域,例如是否属于新闻、是否属于科技或财经领域等,如果不是则不采集。
文本类型(A)的判定主要利用文本分类技术实现。本发明采用有监督的方法,首先准备领域内和领域外的文章各一批,然后利用机器学习或深度学习技术训练一个二分类的分类器。利用已经训练好的分类器对网站采样文本的类型进行判定。最后统计采样文本中领域内篇章的占比,如果占比高于指定阈值(建议95%以上)则认为该网站发布内容与用户需求一致,即A=1,否则A=0。
(2)文本质量
文本质量(Q)主要评估文本数据中是否有乱码文本、JS代码文本、标题内容不一致、灌水文本等现象,采用一种基于深度表征的文本质量评估方法(申请号:201810028932.5)对每个篇章的质量进行评分,并取采样文本的质量平均分作为网站文本质量分。由于原始质量分值取值范围为[0,100],为了归一化,Q的取值在原始文本质量分数的基础上除以100。
(3)文章更新频率
网站更新内容的速度是其采集价值的重要指标,一个长久不更新的网站没有持续采集的必要。为了提高实用性,本发明不采用跟踪网页变化过程的检测方法,而是统计网站采样文本的时间分布,用网站平均每天的新增篇章数量来指代文章更新频率。此外,为了数据处理的一致性,对更新频率(F)进行归一化处理,即:
其中Fmin、Fmax为采集***统计大量网站所得结果。
(4)原创内容占比
原创内容高的网站采集价值更高。为了计算原创内容占比,首先需要辨别哪些是原创内容。
本发明采用规则方法,通过两个因素判定文章为转载还是原创:1、“来源”等标明文章出处的标签。文章页面中通常会包含“来源”等标签来标明文章的出处,因此首先遍历网页标签,如果包含该类标签,且标签内容与当前网站不符,则标记为“转载”,否则标记为“原创”。2、原创文章通常会在文章末尾标记“本报记者XXX”,因此通过关键词匹配技术,若文章末尾包含该类关键词则标记为“原创”;3、若页面中以上两个因素都不存在,则篇章默认为“原创”。
原创内容占比(O)的计算方法为统计采样文本中每天新增篇章中原创内容的比例并取平均值。
步骤三,网站采集价值
利用以上四个评测值来计算网站的采集价值,计算公式如下:
V=A*(α*Q+β*F+γ*O);
其中α、β、γ分别为三个影响因素文本质量评估、文章更新频率、原创内容占比的权重,且α+β+γ=1;文本类型记为A,文本质量评估记为Q,文章更新频率记为F,原创内容占比记为O。
步骤四,采集判定
当网站采集价值V大于指定阈值,则将网站加入定期采集列表,否则不加入。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据采集的判定方法,其特征在于,该方法包括:
抽样采集网站内容;
计算各影响因素的值;
根据各影响因素的值计算网站采集价值;
根据网站采集价值确定是否对进行持续采集。
2.如权利要求1所述的数据采集的判定方法,其特征在于,所述抽样采集网站内容采用广度优先算法采集数万篇文章。
3.如权利要求1所述的数据采集的判定方法,其特征在于,所述影响因素量为:
(1)文本类型用于判定网站发布的内容是否属于用户感兴趣的领域;
(2)文本质量评估文本数据中是否有乱码文本、JS代码文本、标题内容不一致、灌水文本;
(3)文章更新频率用网站平均每天的新增篇章数量来指代文章更新频率;
(4)原创内容占比辨别原创内容。
4.如权利要求3所述的数据采集的判定方法,其特征在于,所述文本类型采用有监督,准备领域内和领域外的文章各一批;利用机器学习或深度学习技术训练一个二分类的分类器;利用已经训练好的分类器对网站采样文本的类型进行判定;统计采样文本中领域内篇章的占比;
所述文本质量采用基于深度表征的文本质量评估方法对每个篇章的质量进行评分,并取采样文本的质量平均分作为网站文本质量分;由于原始质量分值取值范围为[0,100],为了归一化,Q的取值在原始文本质量分数的基础上除以100;
所述文章更新频率,对更新频率F进行归一化处理:
其中Fmin、Fmax为统计大量网站所得结果。
5.如权利要求1所述的数据采集的判定方法,其特征在于,所述网站采集价值计算公式:
V=A*(α*Q+β*F+γ*O);
其中α、β、γ为三个影响因素的权重,且α+β+γ=1。
6.如权利要求1所述的数据采集的判定方法,其特征在于,所述采集判定当网站采集价值V大于指定阈值,则将网站加入定期采集列表,否则不加入。
7.一种实现权利要求1所述数据采集的判定方法的数据采集的判定***,其特征在于,所述网站数据采集的判定***包括:
抽样模块,用于抽样采集网站内容;
计算模块,用于计算各影响因素的值;
网站采样价值模块,用于根据各影响因素的值计算网站采集价值;
判定模块,用于根据网站采集价值确定是否对其进行持续采集。
8.一种实现权利要求1~6任意一项所述数据采集的判定方法的计算机程序。
9.一种实现权利要求1~6任意一项所述数据采集的判定方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的数据采集的判定方法。
CN201810690116.0A 2018-06-28 2018-06-28 一种数据采集的判定***及方法、信息数据处理终端 Active CN108920617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810690116.0A CN108920617B (zh) 2018-06-28 2018-06-28 一种数据采集的判定***及方法、信息数据处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810690116.0A CN108920617B (zh) 2018-06-28 2018-06-28 一种数据采集的判定***及方法、信息数据处理终端

Publications (2)

Publication Number Publication Date
CN108920617A true CN108920617A (zh) 2018-11-30
CN108920617B CN108920617B (zh) 2022-07-12

Family

ID=64422052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810690116.0A Active CN108920617B (zh) 2018-06-28 2018-06-28 一种数据采集的判定***及方法、信息数据处理终端

Country Status (1)

Country Link
CN (1) CN108920617B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872181A (zh) * 2019-01-08 2019-06-11 博拉网络股份有限公司 一种商业信息处理方法、装置及存储介质
CN110427577A (zh) * 2019-06-26 2019-11-08 五八有限公司 内容的影响评估方法、装置、电子设备和存储介质
CN110852718A (zh) * 2019-11-12 2020-02-28 江苏税软软件科技有限公司 一种对取证计算机进行***预判的方法
CN111680203A (zh) * 2020-05-07 2020-09-18 支付宝(杭州)信息技术有限公司 数据采集方法、装置和电子设备
CN113343064A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185619A1 (en) * 2009-01-22 2010-07-22 Alibaba Group Holding Limited Sampling analysis of search queries
CN105117501A (zh) * 2015-10-09 2015-12-02 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫***
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105824806A (zh) * 2016-06-13 2016-08-03 腾讯科技(深圳)有限公司 一种公众账号的质量评价方法和装置
CN106649871A (zh) * 2017-01-03 2017-05-10 广州爱九游信息技术有限公司 文章重复度的检测方法、装置及计算设备
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185619A1 (en) * 2009-01-22 2010-07-22 Alibaba Group Holding Limited Sampling analysis of search queries
CN105117501A (zh) * 2015-10-09 2015-12-02 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫***
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105824806A (zh) * 2016-06-13 2016-08-03 腾讯科技(深圳)有限公司 一种公众账号的质量评价方法和装置
CN106649871A (zh) * 2017-01-03 2017-05-10 广州爱九游信息技术有限公司 文章重复度的检测方法、装置及计算设备
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872181A (zh) * 2019-01-08 2019-06-11 博拉网络股份有限公司 一种商业信息处理方法、装置及存储介质
CN109872181B (zh) * 2019-01-08 2024-01-19 博拉网络股份有限公司 一种商业信息处理方法、装置及存储介质
CN110427577A (zh) * 2019-06-26 2019-11-08 五八有限公司 内容的影响评估方法、装置、电子设备和存储介质
CN110852718A (zh) * 2019-11-12 2020-02-28 江苏税软软件科技有限公司 一种对取证计算机进行***预判的方法
CN111680203A (zh) * 2020-05-07 2020-09-18 支付宝(杭州)信息技术有限公司 数据采集方法、装置和电子设备
CN111680203B (zh) * 2020-05-07 2023-04-18 支付宝(杭州)信息技术有限公司 数据采集方法、装置和电子设备
CN113343064A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品
CN113343064B (zh) * 2021-06-18 2023-07-28 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品

Also Published As

Publication number Publication date
CN108920617B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN108920617A (zh) 一种数据采集的判定***及方法、信息数据处理终端
CN109697522B (zh) 一种数据预测的方法和装置
CN109471783B (zh) 预测任务运行参数的方法和装置
CN109145215A (zh) 网络舆情分析方法、装置及存储介质
CN109325165A (zh) 网络舆情分析方法、装置及存储介质
CN107464141B (zh) 用于信息推广的方法、装置、电子设备及计算机可读介质
CN105894183B (zh) 项目评价方法及装置
WO2019061989A1 (zh) 贷款风险控制方法、电子装置及可读存储介质
WO2015085154A1 (en) Trend identification and reporting
US11586739B2 (en) System and method for identifying cyberthreats from unstructured social media content
US10073839B2 (en) Electronically based thesaurus querying documents while leveraging context sensitivity
US11809505B2 (en) Method for pushing information, electronic device
CN104111925A (zh) 项目推荐方法和装置
CN104598539A (zh) 一种互联网事件热度计算方法及终端
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
CN105376311B (zh) 一种基于终端访问的页面停留时长确定方法及装置
CN113032671B (zh) 内容处理方法、装置、电子设备和存储介质
CN113554350A (zh) 活跃度评估方法、装置、电子设备及计算机可读存储介质
CN110852105A (zh) 时间数据的归一化方法、装置、介质及电子设备
CN110827101B (zh) 一种店铺推荐的方法和装置
CN110610267B (zh) 人才信息的处理方法及装置、计算机存储介质、电子设备
CN112784050A (zh) 主题分类数据集生成方法、装置、设备和介质
EP4246365A1 (en) Webpage identification method and apparatus, electronic device, and medium
CN104063422B (zh) 社交网络中领域的特征词库迭代更新方法和装置
US20220318253A1 (en) Search Method, Apparatus, Electronic Device, Storage Medium and Program Product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant