CN111259220B

CN111259220B - 一种基于大数据的数据采集方法和***

Info

Publication number: CN111259220B
Application number: CN202010028465.3A
Authority: CN
Inventors: 罗水芳; 邵州华; 楼未吉
Original assignee: Hangzhou Sebe Intellectual Property Service Co ltd
Current assignee: Hangzhou Sebe Intellectual Property Service Co ltd
Priority date: 2020-01-11
Filing date: 2020-01-11
Publication date: 2021-03-02
Anticipated expiration: 2040-01-11
Also published as: CN111259220A

Abstract

本发明给出了一种基于大数据的数据采集方法和***，包括利用网络爬虫抓取待采集的数据源的URL集合，获取URL对应的网页；基于PageRank算法与HITS算法分别计算网页的评分，获得网页的总价值分并按总价值分排序；按网页的总价值分的优先级解析并获取网页中的图片和/或文字，获取网页中包含的关键词；计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。利用该方法建立关键词与网页的映射，采集到的数据更加的精准且更加具有关联性和共识性。

Description

一种基于大数据的数据采集方法和***

技术领域

本发明涉及数据采集领域，尤其是一种基于大数据的数据采集方法和***。

背景技术

随着科学、技术和工程的迅猛发展，近20年来，许多领域(如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供应链***)都产生了海量的数据(更恰当的描述或许是“无限”的数据，例如，在光学观测和监控等应用中，数据都是源源不断而来的，形成了“数据灾难”)，大数据的概念也随之再次引起重视。与传统的数据相比，除了大容量等表象特点，大数据还具有其他独特的特点，例如大数据通常是无结构的，并且需要得到实时分析，因此大数据的发展需要全新的体系架构，用于处理大规模数据的获取、传输、存储和分析。

大数据的概念自2008年提出以来就受到各行各业的重视。经过近10年的发展，大数据已经从一个模糊的概念逐渐演变为实际生产力。尤其在金融预警、舆情监控以及互联网用户偏好分析等以数据为中心的情报分析领域，其日常的情报活动产生的海量数据，蕴含着该领域的特殊活动规律，这些规律可用于分析相应领域的数据—信息—情报的演化过程中，促进支撑决策的情报产生。因此，利用海量数据挖掘方法，对历史数据和信息进行分析，并以此指导未来的决策活动，已逐渐成为目前各应用领域情报学研究和工作的重点之一。然而，目前大数据虽然已步入实际应用阶段，但情报学界对这一概念的***性的认识其实并不充分。其具体的定义、构成、核心的方法与技术等在不同的应用场合之间并不确定，还没有形成共识。

本质上，大数据不仅意味着数据的大容量，还体现了一些区别于“海量数据”和“非常大的数据”的特点。随着大数据的流行，大数据的定义呈现多样化的趋势，达成共识非常困难。

发明内容

为了解决现有技术中大数据的多样化导致数据的采集困难、效率低、资源占用率过高以及数据的采集难以达成共识的技术问题，本发明提出了一种基于大数据的数据采集方法和***，用以解决大数据的采集困难、复杂以及难以达成共识等问题。

在一个方面，本发明提出了一种基于大数据的数据采集方法，包括以下步骤：

S1：利用网络爬虫抓取待采集的数据源的URL集合，获取URL对应的网页；

S2：基于PageRank算法与HITS算法分别计算网页的评分，并对计算结果进行加权，获得网页的总价值分并按总价值分排序；

S3：响应于总价值分大于预定的第一阈值，按网页的总价值分的优先级解析并获取网页中的图片和/或文字，基于文本信息抽取方法获取网页中包含的关键词；

S4：计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。

优选的，步骤S1中还包括利用布隆过滤器对URL去重。布隆过滤器在空间和时间方面都有巨大的优势，布隆过滤器存储空间和***/查询时间都是常数，Hash函数相互之间没有关系，方便由硬件并行实现，并且布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。

优选的，步骤S2中PageRank算法的计算公式具体为：

其中，PR_j表示第j个网页的PageRank值、N表示网页数、I_i，j是零一变量(若网页i引用了网页j，则其值为1，反之为0)、n_i表示网页i中链向其它页面的链接数量、d为衰减因子。

优选的，步骤S2中HITS算法的计算公式具体为：

其中，网页i的Authority值为A_i，Hub值为H_i，E表示网页j指向网页i的链接。

优选的，PageRank算法和HITS算法的权重值相同且均为50％。利用两种算法的加权计算获得的结果更加准确。

优选的，步骤S3中的文本信息抽取方法包括基于语言规则模板的信息抽取方法、基于统计方法的信息抽取方法、基于统计机器学习的信息抽取方法和基于图的信息抽取方法。不同的文本信息抽取方法具有不同的适用场景和优缺点，可以满足不同要求的提取需要。

进一步优选的，步骤S3中关键词的获取方式具体为：利用基于语言规则模板的信息抽取方法、基于统计方法的信息抽取方法、基于统计机器学习的信息抽取方法和基于图的信息抽取方法分别确定网页的关键词，并将结果相同的关键词确定为网页的关键词。通过不同抽取方法获得的关键词综合判断，最终获得的关键词能够更准确的代表网页的信息。

进一步优选的，基于统计方法的信息抽取方法包括IF-IDF特征计算方法和KF-IDF特征计算方法。

优选的，步骤S4还包括将网页、相关度、总价值分及其排序结果存储至数据库中。将网页、相关度、总价值分及其排序结果存储至数据库中可以方便利用关键词调用对应的网页、相关度、总价值分及其排序结果。

进一步优选的，步骤S4中相关度大于预设的第二阈值且共识程度大于预设的第三阈值具体表现为：在区块链的分布式网络中多个共识节点分别对关键词进行不同的相关度运算，基于拜占庭容错共识机制，当共识节点对关键词计算的相关度大于第二阈值的共识结果超过三分之二时，达成共识并将关键词写入区块链中。

优选的，步骤S4的相关度的具体计算方式为：

其中，R_n＝TF_tn*TR_tn，TF_tn为词项t在当前文本中的词项频率，TR_tn表示t在当前关键词集合中的权重，n为关键词个数。

根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有一或多个计算机程序，该一或多个计算机程序被计算机处理器执行时实施上述方法。

根据本发明的第三方面，提出了一种基于大数据的数据采集***，该***包括：

网页获取单元：配置用于利用网络爬虫抓取待采集的数据源的URL链接集合，获取URL对应的网页；

评估单元：配置用于基于PageRank算法与HITS算法分别计算网页的评分，并对计算结果进行加权，获得网页的总价值分并按总价值分排序；

文本识别单元：配置用于响应于总价值分大于预定的第一阈值，按网页的总价值分的优先级解析并获取网页中的图片和/或文字，基于文本信息抽取方法获取网页中包含的关键词；

数据映射单元：配置用于计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。

本发明提出了一种基于大数据的数据采集方法和***，该方法基于网络爬虫技术抓取待获取URL对应的网页，通过计算获得网页的总价值分并按网页的总价值分的优先级解析并获取网页，基于文本信息抽取方法获取网页中包含的关键词；通过计算关键词与关键词对应的网页的相关度，利用区块链技术的共识机制，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。该方法有效地解决了目前因大数据的定义呈现多样化的趋势造成的难以达成共识，将网页数据以关键词的形式进行数据的采集，减少了数据的采集工作，通过映射的方式可以很快的调用到关键词对应的相关网页的所有信息，降低了资源占用率，采集到的数据也更加具有价值。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构图；

图2是本申请的一个实施例的一种基于大数据的数据采集方法的流程图；

图3是本申请的一个实施例的一种基于大数据的数据采集***的框架图；

图4是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的基于大数据的数据采集方法的示例性***架构100。

如图1所示，***架构100可以包括数据服务器101，网络102和主服务器103。网络102用以在数据服务器101和主服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

主服务器103可以是提供各种服务的服务器，例如对数据服务器101上传的信息进行处理的数据处理服务器。数据处理服务器可以进行基于大数据的数据采集。

需要说明的是，本申请实施例所提供的基于大数据的数据采集方法一般由主服务器103执行，相应地，基于大数据的数据采集方法的装置一般设置于主服务器103中。

需要说明的是，数据服务器和主服务器可以是硬件，也可以是软件。当为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。

应该理解，图1中的数据服务器、网络和主服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

根据本申请的一个实施例的基于大数据的数据采集方法，图2示出了根据本申请的实施例的基于大数据的数据采集方法的流程图。如图2所示，该方法包括以下步骤：

S201：利用网络爬虫抓取待采集的数据源的URL集合，获取URL对应的网页。

在具体的实施例中，网络爬虫需要提供起始抓取的URL链接的集合，作为爬虫访问的地址来源，爬虫在访问网页中收集新的URL链接，作为新的访问地址源，加入URL集合中。爬虫的抓取一般由多个工作线程同时执行，每个工作线程从URL集合中获取新的访问地址，并将它从URL集合中移除，向新的地址发起HTTP请求，下载HTML文件。一个URL绝对路径以一个scheme类型起头(例如http)，决定了下载使用的网络协议。爬虫抓取的是HTTP链接，每个下载文档都有关联的MIME类型。基于HTTP协议，下载HTML文档。HTML页面中的图片链接，交给图片下载线程负责下载。

在具体的实施例中，对于提取的URL链接，需要过滤已经抓取过的链接，网页的路径链接构成一张大的连通图，访问重复的URL将在路径上产生死循环，因此需要避免重复的路径访问，利用布隆过滤器实现URL的去重，布隆过滤器利用一个很长的二进制向量和一些列随机映射方法，减少了URL地址的空间占用和比对时间。可替代的，除了布隆过滤器之外，还可以采用其他的去重方式，例如直接将URL地址保存在文件或数据库中，对待过滤的URL进行查询比对；或者散列化URL地址，采用特定Hash函数，减少URL集合的占用空间，同样可以实现本发明的技术效果。

在优选的实施例中，还可以对页面内容进行去重，避免因爬虫抓取的过程存在的抓取了重复的页面，对于同一个多次下载的页面，为每个页面生成一个指纹(例如MD5值)，当两个文档的指纹相同时即为同一篇文档，进行去重。避免占据大量的存储空间。

S202：基于PageRank算法与HITS算法分别计算网页的评分，并对计算结果进行加权，获得网页的总价值分并按总价值分排序。

在具体的实施例中，PageRank算法以前就是Google的网页排序算法。PageRank算法，对每个目标网页进行附上权值，权值大的就靠前显示，权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。如果一个网页被很多其他网页链接到的话,说明这个网页比较重要，也就是PageRank值会相对较高；如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。PageRank算法不单单是按照“被索引数”来给网页付权值的，用PR值表示每个网页被PageRank算法附加的权值。PageRank算法的计算公式具体为：

在具体的实施例中，HIST算法是子集传播算法的代表算法。在HIST算法中，分为Hub页面和Authority页面，Authority页面是指与某个领域或者某个话题相关的高质量页面，Hub页面则是包含很多指向高质量Authority页面链接的网页。按照HITS算法，用户输入关键词后，算法对返回的匹配页面计算两种值，一种是枢纽值(Hub Scores)，另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值，指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。HITS算法的计算公式具体为：

在优选的实施例中，PageRank算法和HITS算法的权重值相同且均为50％，利用两种算法的权重求和获得的网页的最终价值分，更加具有代表性和准确性。可替代的，PageRank算法和HITS算法的权重值也可以设置为不同的比重，例如40％和60％，具体根据实际的应用要求来设置权重值，使得价值分的结果更加准确。

S203：响应于总价值分大于预定的第一阈值，按网页的总价值分的优先级解析并获取网页中的图片和/或文字，基于文本信息抽取方法获取网页中包含的关键词。凭借总价值分的排序，可以获得网页的价值排序，利用第一阈值可以过滤掉一些无意义的网页，避免无意义的数据采集，提高数据采集的效率和数据采集的质量。

在具体的实施例中，文本信息抽取方法具体包括有：基于自然语言处理的规则模板方法、基于传统统计方法、基于统计机器学习方法和基于图的方法。基于自然语言处理的信息抽取方法是通过上下文词性分析、句法分析以及依存关系分析来抽取和总结频繁发生的规则模式实现信息抽取。该方法经历了基于“名词”、“复合性名词术语”、“文本结构加权术语”等判断重要概念的过程。基于统计方法的信息抽取，采用统计的方法来获取文本概念，是基于术语共现理论，实施的基础是发现相近术语在统计特征上的不同区别。基于机器学习的信息抽取是融合上下文语境，将实体关系的抽取看成一个语义分类问题，这种语义关系由等级关系扩展到非等级关系。基于图的信息抽取方法通常用图的节点来表示概念，用图的边来表示概念间的关系，采用概念间的边数来衡量概念间的距离。基于图的信息抽取融合了多种信息抽取方法，从整体上获取文本中概念及其关系的布局，是一种更加融合和完整的信息抽取思维。

在具体的实施例中，基于统计方法的信息抽取可以为TF-IDF特征计算的方法。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。可替代的，还可以采用KF-IDF特征计算方法，同样可以实现本发明的技术效果。

S204：计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。整个过程中不存在中心化的环节，保证了数据的安全性。

在具体的实施例中，相关度的计算利用相关度函数relevance将以Query集作为主题描述集计算当前HTML与主题的相关度。词项频率和词项权重是评价文本权重的重要因素，TF-IDF模型以IDF(逆文档频率)作为单词区分权重，文档频率小的词汇具有更高的区分度。以TextRank值作为单个单词在主题相关文档集的权重。在提取文档中的HTML标签、链接、元数据信息后，词项频率

N_t表示词项t在当前文档中的出现频率，N_d表示当前文档的总单词数，TF_t即词项t在当前文档中的词项频率。TR_t表示t在当前Query中的权重，TF_t*TR_t将作为文档在t方向上的大小，对Query中的关键词T₁，T₂，…，T_k中的第i个关键词Ti，在该方向上都有一个坐标大小R_i＝TF_ti*TR_ti，故每个文档将拥有一个评分向量RT＝(R₁、R₂，…，R_k)，R的长度||R||将作为文档的相关度权重，||R||

＝RTR，即对于当前的文档doc和关键词集Q，相关度的具体计算方式为：

在具体的实施例中，相关度大于预设的第二阈值且共识程度大于预设的第三阈值具体表现为：在区块链的分布式网络中多个共识节点分别对关键词进行不同的相关度运算，基于拜占庭容错共识机制，当共识节点对关键词计算的相关度大于第二阈值的共识结果超过三分之二时，达成共识并将关键词写入区块链中。利用拜占庭容错的共识机制，节点达成一致的速度更快，延迟更低，带来的全网吞吐量的大幅提升，无需使用工作量证明的耗电模式，因此更加节能环保。可替代的，共识机制还可以为除了拜占庭容错的共识机制之外的其他机制，例如该共识机制可以是工作量证明机制、权益证明机制、委托权益证明机制或者投票机制等等，同样可以实现本发明的技术效果。

在优选的实施例中，还包括将网页、相关度、总价值分及其排序结果存储至数据库中。利用关键词与网页的映射关系，可以调取网页、相关度、总价值分及其排序结果的所有数据，使得数据更加具有关联性，采集获得的数据更有价值，利用了区块链的共识节点技术，在整个过程中不存在中心化的环节，保证了数据的安全性。

继续参考图3，图3示出了根据本发明的实施例的基于大数据的数据采集***。该***具体包括网页获取单元301、评估单元302、文本识别单元303和数据映射单元304。

在具体的实施例中，网页获取单元301：配置用于利用网络爬虫抓取待采集的数据源的URL链接集合，获取URL对应的网页；评估单元302：配置用于基于PageRank算法与HITS算法分别计算网页的评分，并对计算结果进行加权，获得网页的总价值分并按总价值分排序；文本识别单元303：配置用于响应于总价值分大于预定的第一阈值，按网页的总价值分的优先级解析并获取网页中的图片和/或文字，基于文本信息抽取方法获取网页中包含的关键词；数据映射单元304：配置用于计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。

下面参考图4，其示出了适于用来实现本申请实施例的电子设备的计算机***400的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机***400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：利用网络爬虫抓取待采集的数据源的URL集合，获取URL对应的网页；基于PageRank算法与HITS算法分别计算网页的评分，并对计算结果进行加权，获得网页的总价值分并按总价值分排序；响应于总价值分大于预定的第一阈值，按网页的总价值分的优先级解析并获取网页中的图片和/或文字，基于文本信息抽取方法获取网页中包含的关键词；计算关键词与关键词对应的网页的相关度，并基于相关度向共识节点发送共识请求，响应于相关度大于预设的第二阈值且共识程度大于预设的第三阈值，将关键词存储至对应类别的区块链中，网页存储至设置于区块链的节点上的数据库中，并建立网页与关键词映射关系。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于大数据的数据采集方法，其特征在于，包括以下步骤：

S1：利用网络爬虫抓取待采集的数据源的URL集合，获取所述URL对应的网页；

S2：基于PageRank算法与HITS算法分别计算所述网页的评分，并对计算结果进行加权，获得所述网页的总价值分并按所述总价值分排序；

S3：响应于所述总价值分大于预定的第一阈值，按所述网页的所述总价值分的优先级解析并获取所述网页中的图片和/或文字，基于文本信息抽取方法获取所述网页中包含的关键词；

S4：计算所述关键词与所述关键词对应的网页的相关度，并基于所述相关度向共识节点发送共识请求，响应于所述相关度大于预设的第二阈值且共识程度大于预设的第三阈值，在区块链的分布式网络中多个共识节点分别对所述关键词进行不同的相关度运算，基于拜占庭容错共识机制，当所述共识节点对所述关键词计算的所述相关度大于所述第二阈值的共识结果超过三分之二时，达成共识并将所述关键词写入所述区块链中，所述网页存储至设置于所述区块链的节点上的数据库中，并建立所述网页与所述关键词映射关系。

2.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述步骤S1中还包括利用布隆过滤器对所述URL去重。

3.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述步骤S2中PageRank算法的计算公式具体为：

其中，PR_j表示第j个网页的PageRank值、N表示网页数、I_i，j是零一变量，若网页i引用了网页j，则其值为1，反之为0、n_i表示网页i中链向其它页面的链接数量、d为衰减因子；HITS算法的计算公式具体为：

其中，网页i的权威度Authority值为A_i，中心度Hub值为H_i，E表示网页j指向网页i的链接，所述PageRank算法和所述HITS算法的权重值相同且均为50％。

4.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述步骤S3中的文本信息抽取方法包括基于语言规则模板的信息抽取方法、基于统计方法的信息抽取方法、基于统计机器学习的信息抽取方法和基于图的信息抽取方法。

5.根据权利要求4所述的基于大数据的数据采集方法，其特征在于，所述步骤S3中所述关键词的获取方式具体为：利用所述基于语言规则模板的信息抽取方法、所述基于统计方法的信息抽取方法、所述基于统计机器学习的信息抽取方法和所述基于图的信息抽取方法分别确定所述网页的关键词，并将结果相同的关键词确定为所述网页的关键词，所述基于统计方法的信息抽取方法包括IF-IDF特征计算方法和KF-IDF特征计算方法。

6.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述数据库包括Redis数据库、MongoDB数据库和分布式文件存储***HDFS中的一个或组合，所述步骤S4还包括将所述网页、所述相关度、所述总价值分及其排序结果存储至所述数据库中。

7.根据权利要求1所述的基于大数据的数据采集方法，其特征在于，所述步骤S4的相关度的具体计算方式为：

8.一种计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，该一或多个计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。

9.一种基于大数据的数据采集***，其特征在于，所述***包括：

网页获取单元：配置用于利用网络爬虫抓取待采集的数据源的URL链接集合，获取所述URL对应的网页；

评估单元：配置用于基于PageRank算法与HITS算法分别计算所述网页的评分，并对计算结果进行加权，获得所述网页的总价值分并按所述总价值分排序；

文本识别单元：配置用于响应于所述总价值分大于预定的第一阈值，按所述网页的所述总价值分的优先级解析并获取所述网页中的图片和/或文字，基于文本信息抽取方法获取所述网页中包含的关键词；

数据映射单元：配置用于计算所述关键词与所述关键词对应的网页的相关度，并基于所述相关度向共识节点发送共识请求，响应于所述相关度大于预设的第二阈值且共识程度大于预设的第三阈值，在区块链的分布式网络中多个共识节点分别对所述关键词进行不同的相关度运算，基于拜占庭容错共识机制，当所述共识节点对所述关键词计算的所述相关度大于所述第二阈值的共识结果超过三分之二时，达成共识并将所述关键词写入所述区块链中，所述网页存储至设置于所述区块链的节点上的数据库中，并建立所述网页与所述关键词映射关系。