CN111078635A

CN111078635A - 基于Hadoop的数据采集优先级判定及处理方法

Info

Publication number: CN111078635A
Application number: CN201911253880.2A
Authority: CN
Inventors: 林森; 唐宁; 马娜
Original assignee: Beijing Adview Technology Co ltd
Current assignee: Tianjin kuaiyou Century Technology Co., Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-28
Anticipated expiration: 2039-12-09
Also published as: CN111078635B

Abstract

本发明公开了一种基于Hadoop的数据采集优先级判定及处理方法，该方法利用Hadoop分布式文件***来处理海量数据，所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点，所述的用户节点包括JAVA虚拟机，所述的JAVA虚拟机包括Hadoop用户端，该Hadoop用户端分别与分布式文件子***和数据输出流交互；所述命名节点储存调用频率检测信息，调用频率检测信息包括各调用子节点的频率次数，所述命名节点根据所述子节点的频率次数依次将所述子节点进行优先权划分，所述子节点的频率次数越高，优先权越大。

Description

基于Hadoop的数据采集优先级判定及处理方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于Hadoop的数据采集优先级判定及处理方法。

背景技术

Hadoop是一个由Apache基金会所开发的分布式***基础架构。Hadoop实现了一个分布式文件***，有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。Hadoop分布式文件***可以以流的形式访问(streamingaccess)文件***中的数据。

Hadoop由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google FileSystem(GFS)的启发。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

Hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性，正是这些设计上与生俱来的优点，才使得Hadoop一出现就受到众多大公司的青睐，同时也引起了研究界的普遍关注。到目前为止，Hadoop技术在互联网领域已经得到了广泛的运用，例如，Yahoo使用4000个节点的Hadoop集群来支持广告***和Web搜索的研究；Facebook使用1000个节点的集群运行Hadoop，存储日志数据，支持其上的数据分析和机器学习；百度用Hadoop处理每周200TB的数据，从而进行搜索日志分析和网页数据挖掘工作；***研究院基于Hadoop开发了“大云”(Big Cloud)***，不但用于相关数据分析，还对外提供服务；淘宝的Hadoop***用于存储并处理电子商务交易的相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、***高可用性和安全性方面进行研究，相关研究成果多以开源形式贡献给Hadoop社区。

现有技术中Hadoop分布式文件***的文件是一次写入的，并且在任何时候都只有一个写入器。也就是说，Hadoop分布式文件***的文件支持一次写入多次读取，这意味着一旦写入信息，就无法修改，但可以多次读取。

发明内容

为了克服现有技术中存在的问题，本发明提供一种基于Hadoop的数据采集优先级判定及处理方法，该方法利用Hadoop分布式文件***来处理海量数据，所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点，所述的用户节点包括JAVA虚拟机，所述的JAVA虚拟机包括Hadoop用户端，该Hadoop用户端分别与分布式文件子***和数据输出流交互；所述命名节点储存调用频率检测信息，调用频率检测信息包括各调用子节点的频率次数，命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分，各子节点的频率次数越高，优先权越大；

所述处理分析方法还包括优先域，所述命名节点从用户端获取调用信息并对命名节点的优先权划分信息生成后，所述命名节点对各所述子节点进行重新命名；所述优先域部分子节点划分到所述优先块内，同时，所述优先域将信息发送给所述命名节点，所述命名节点将所述优先域中的节点信息命名为优先节点；所述扫描模块优先扫描所述优先域中的所述优先节点。

进一步地，当所述子节点认定为二类或三类优先权时，所述优先域将所述子节点划分到所述优先块内，同时，所述优先域将信息发送到所述命名节点，所述命名节点将所述优先域外的节点信息命名为优先节点；所述扫描模块优先扫描所述优先域外的优先节点。

进一步地，优先权包括一类优先权、二类优先权和三类优先权，优先权的判定方式包括：在预定时间内全部子节点的调用频率为P，当子节点在预定时间内的被调用次数超过P/2，所述子节点认定具有一类优先权，当子节点在预定时间内的被调用次数超过P/4，所述子节点认定具有二类优先权，其它子节点认定具有三类优先权。

进一步地，当所述子节点在预定时间内的调用频率大于任意四个其它所述子节点被调用的频率之和时，所述字节点认定为具有一类优先权，当所述子节点在预定时间内的调用频率大于任意两个其它所述子节点被调用的频率，所述字节点认定为具有二类优先权。

进一步地，所述命名节点在收到附加命令后将生成的优先权判定类型信息发送到所述扫描模块，所述扫描模块接收到优先权判定类型后开始对各扫描节点进行扫描工作；所述扫描模块在初次接收到优先权判定类型后依然开始逐个对各所述子节点进行扫描，以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点；在所述扫描模块进行初次扫描后，所述命名节点生成优先块规则，优先块规则包括将所有一类优先权子节点标记的第一优先扫描块；将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块；所述扫描模块接下来的扫描程序中，依次对所述第一优先扫描块、所述第二优先扫描块和所述第三优先扫描块进行扫描，并扫寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充所述元数据。

进一步地，所述的命名节点用定位块数据结构响应Hadoop用户端，该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符，Hadoop用户端通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点，直接请求所识别的数据节点将数据块附加到现有文件。

进一步地，接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据，以将数据写入所访问的块。

进一步地，所述的文件放置优化模块用于调整能够存储在单个数据节点或单个服务器上的数据量。

进一步地，所述的块扫描模块扫描数据节点以寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充元数据，从而使元数据反映块的位置和副本的数量，所述的块扫描模块从单个数据节点返回连续的块文件的位置，以向Hadoop用户端提供该块文件被放置的错觉。

进一步地，所述的块扫描模块获得数据节点的名称和数据块的地址，创建数据块的块ID并将该块ID存储在元数据中，命名节点使用从块扫描模块接收的信息来更新块列表和每个块的每个副本的位置。

与现有技术相比，本发明具有如下优点：本发明所述的基于Hadoop的数据采集优先级判定及处理方法与现有技术相比，采用Hadoop分布式文件***来处理海量数据，通过Hadoop用户端向命名节点发送附加命令，该附加命令具有标识要附加的现有文件的名称和要追加的数据的参数。本发明使用附加来写入文件，克服了现有技术中Hadoop分布式文件***一旦写入信息就无法修改的问题。

进一步地，命名节点中储存调用频率检测信息，调用频率检测信息包括各调用子节点的频率次数，命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分，各子节点的频率次数越高，优先权越大，以提高各子节点的调用效率。

附图说明

图1为本发明所述的服务器的一种实施例整体结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

参阅图1所示，本发明提供一种基于Hadoop的数据采集优先级判定及处理方法，该方法利用Hadoop分布式文件***来处理海量数据，Hadoop分布式文件***包括用户节点261、命名节点301、块扫描模块560和子节点(图1所示的实施例包括多个子节点，即第一子节点311、第二子节点312……第n子节点31n),用户节点261包括JAVA虚拟机401，JAVA虚拟机401包括Hadoop用户端221，该Hadoop用户端221分别与分布式文件子***402和数据输出流403交互；子节点包括数据节点(第一子节点311包括第一数据节点341、第二子节点312包括第二数据节点342……第n子节点31n包括第n数据节点34n)；用户端221在调用个子节点时，命名节点301储存调用频率检测信息，调用频率检测信息包括各调用子节点的频率次数，命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分，各子节点的频率次数越高，优先权越大。

具体而言，优先块302用于调整能够存储在单个数据节点或单个服务器上的数据量，块扫描模块560扫描数据节点341-34n以寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充元数据530，从而使元数据反映块的位置和副本的数量；块扫描模块560获得数据节点的名称和数据块的地址，创建数据块的块ID并将该块ID存储在元数据530中。块扫描模块560从单个数据节点返回连续的块文件的位置，以向Hadoop用户端221提供该块文件被放置的错觉。命名节点301使用从块扫描模块560接收的信息来更新块列表和每个块的每个副本的位置。

具体而言，优先权包括一类优先权、二类优先权和三类优先权，优先权的设定用以缩短调用程序；在本发明的一些实施例中，优先权的判定方式包括：在预定时间内全部子节点的调用频率为P，若有子节点在预定时间内的被调用次数超过P/2，则该子节点被认定具有一类优先权，若有子节点在预定时间内的被调用次数超过P/4，则该子节点被认定具有二类优先权，其它剩余子节点被认定具有三类优先权。

在本发明的另一些实施例中，若存在一个或多个子节点，且这些子节点在预定时间内被调用的频率大于任意四个其它子节点被调用的频率之和，则这些字节点被认定为具有一类优先权，若这些子节点在预定时间内被调用的频率大于任意两个其它子节点被调用的频率，则这些字节点被认定为具有二类优先权。

具体而言，命名节点可接受用户端发送的附加命令发出的附加命令，该附加命令用于确定P的设置或者选用优先权判定类型。

具体而言，命名节点在收到附加命令后将生成的优先权判定类型信息发送到扫描模块560，扫描模块560接收到优先权判定类型后开始对各扫描节点进行扫描工作。

在本发明的一些实施例中，扫描模块560在初次接收到优先权判定类型后依然开始逐个对各子节点进行扫描，以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点；同时，扫描模块560寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充元数据530，从而使元数据反映块的位置和副本的数量；在扫描模块560进行初次扫描后，生成优先块规则，优先块规则包括将所有一类优先权子节点标记的第一优先扫描块；将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块；扫描模块560在除第一次以后的扫描程序中，依次对第一优先扫描块、第二优先扫描块和第三优先扫描块进行扫描，并扫寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充元数据530。

在本发明的另一些实施例中，还包括优先域302，命名节点301从用户端获取调用信息并对命名节点的优先权划分信息生成后，命名节点301对各子节点进行重新命名；例如，第一子节点311、第二子节点312认定为一类优先权，优先域302将第一子节点311和第二子节点312划分到该优先块内，同时，优先域302将信息发送给命名节点301，命名节点301将优先域302中的节点信息命名为优先节点311和优先节点312；扫描模块560优先扫描优先域302中的优先节点，在扫描完优先节点后，扫描模块560继续对剩余子节点进行扫描；再例如：第一子节点311、第二子节点312认定为二类或三类优先权，优先域302将第一子节点311和第二子节点312划分到该优先块内，同时，优先域302将信息发送给命名节点301，命名节点301将优先域302中的外节点信息命名为优先节点；扫描模块560优先扫描优先节点，在扫描完优先节点后，扫描模块560继续对剩余子节点进行扫描。

具体而言，用户端221向命名节点301发送具有参数的打开命令，该参数标识要读取的文件的名称；命名节点301使用定位块数据结构响应Hadoop用户端，该定位块数据结构包括存储的文件的所有命名节点的标识符和文件中所有块的块ID；Hadoop用户端通过为每个请求的块发送包含所请求块的块ID，从所识别的数据节点直接请求文件的块；接收请求的数据节点使用所请求块的块ID来访问它正在存储的相应块之一，并用所访问块的数据响应Hadoop用户端；Hadoop用户端向命名节点指示想要将数据块附加到现有文件；命名节点接收Hadoop用户端发送的附加命令，该附加命令具有标识要附加的现有文件的名称和要追加的数据的参数。

具体而言，所述的命名节点301用定位块数据结构响应Hadoop用户端221，该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符，Hadoop用户端221通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点，直接请求所识别的数据节点将数据块附加到现有文件。

具体而言，接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据，以将数据写入所访问的块。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于Hadoop的数据采集优先级判定及处理方法，其特征在于，该方法利用Hadoop分布式文件***来处理海量数据，所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点，所述的用户节点包括JAVA虚拟机，所述的JAVA虚拟机包括Hadoop用户端，该Hadoop用户端分别与分布式文件子***和数据输出流交互；所述命名节点储存调用频率检测信息，调用频率检测信息包括各调用子节点的频率次数，所述命名节点根据所述子节点的频率次数依次将所述子节点进行优先权划分，所述子节点的频率次数越高，优先权越大；

2.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，当所述子节点认定为二类或三类优先权时，所述优先域将所述子节点划分到所述优先块内，同时，所述优先域将信息发送到所述命名节点，所述命名节点将所述优先域外的节点信息命名为优先节点；所述扫描模块优先扫描所述优先域外的优先节点。

3.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，优先权包括一类优先权、二类优先权和三类优先权，优先权的判定方式包括：在预定时间内全部子节点的调用频率为P，当子节点在预定时间内的被调用次数超过P/2，所述子节点认定具有一类优先权，当子节点在预定时间内的被调用次数超过P/4，所述子节点认定具有二类优先权，其它子节点认定具有三类优先权。

4.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，当所述子节点在预定时间内的调用频率大于任意四个其它所述子节点被调用的频率之和时，所述字节点认定为具有一类优先权，当所述子节点在预定时间内的调用频率大于任意两个其它所述子节点被调用的频率，所述字节点认定为具有二类优先权。

5.根据权利要求3或4任一项所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，所述命名节点在收到附加命令后将生成的优先权判定类型信息发送到所述扫描模块，所述扫描模块接收到优先权判定类型后开始对各扫描节点进行扫描工作；所述扫描模块在初次接收到优先权判定类型后依然开始逐个对各所述子节点进行扫描，以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点；在所述扫描模块进行初次扫描后，所述命名节点生成优先块规则，优先块规则包括将所有一类优先权子节点标记的第一优先扫描块；将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块；所述扫描模块接下来的扫描程序中，依次对所述第一优先扫描块、所述第二优先扫描块和所述第三优先扫描块进行扫描，并扫寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充所述元数据。

6.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，所述的命名节点用定位块数据结构响应Hadoop用户端，该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符，Hadoop用户端通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点，直接请求所识别的数据节点将数据块附加到现有文件。

7.根据权利要求6所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据，以将数据写入所访问的块。

8.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，所述的文件放置优化模块用于调整能够存储在单个数据节点或单个服务器上的数据量。

9.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，所述的块扫描模块扫描数据节点以寻找需要的文件，获得文件块的块位置，然后根据扫描内容填充元数据，从而使元数据反映块的位置和副本的数量，所述的块扫描模块从单个数据节点返回连续的块文件的位置，以向Hadoop用户端提供该块文件被放置的错觉。

10.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法，其特征在于，所述的块扫描模块获得数据节点的名称和数据块的地址，创建数据块的块ID并将该块ID存储在元数据中，命名节点使用从块扫描模块接收的信息来更新块列表和每个块的每个副本的位置。