CN105512201A

CN105512201A - 数据收集和加工方法及装置

Info

Publication number: CN105512201A
Application number: CN201510843845.1A
Authority: CN
Inventors: 汤奇峰; 汤余
Original assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Current assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date: 2015-11-26
Filing date: 2015-11-26
Publication date: 2016-04-20

Abstract

一种数据收集和加工方法及装置，所述数据收集和加工方法包括：根据样例数据和所述样例数据的格式，定义数据格式；采集第一数据；根据所述数据格式将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据；存储所述第二数据；提取所述第二数据并按照业务逻辑进行数据处理。所述数据收集和加工方法及装置通过定义数据格式，采集数据后并根据所述数据格式进行处理，扩大了数据收集的适用范围；通过将所述第一数据进行过滤和清洗，剔除脏数据，提高了数据收集的有效性和数据处理的效率。

Description

数据收集和加工方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据收集和加工方法及装置。

背景技术

在计算机技术领域中，为了对用户的网络行为进行分析和预测，需要将用户的访问数据以日志文件的方式保存下来。日志文件中的数据具有多样性和复杂性的特点，建立一个能对各种日志数据都能支持的***是极其复杂的。在大数据领域中，为了提供一个统一的数据分析平台首先要做的就是能让用户把各种各样的数据通过某些方式接入数据分析平台。

现有技术中，对数据的收集方法有以下几种：通过WEB服务器将日志数据保存下来生成日志文件，然后将日志文件通过上传存储在分布式文件***(HadoopDistributedFileSystem,HDFS)，HDFS***具备高度容错性的特点；还可以将数据以流的形式往消息队列推送，如分布式发布订阅消息***Kafka消息队列，然后使用消费模式将消息队列的数据上传。其中，在不同的网络环境中，生产网和数据服务所在的网络通常是隔离的，跨网络传输数据通常是将安全外壳协议(SecureShell,SSH)的免密码登陆打通，然后通过Linux***中的远程同步工具RSYNC或者远程拷贝文件工具SCP等传输，或者搭建一个超文本传输协议、FTP服务器通过客户端上传文件。

但是，现有技术中的数据收集方法在数据收集的过程中，会收集脏数据和垃圾数据，降低了数据收集的有效性和准确性；且数据收集方法针对的数据类型单一，适用范围小。

发明内容

本发明解决的技术问题是如何提高数据收集的有效性，扩大数据收集的适用范围。

为解决上述技术问题，本发明实施例提供一种数据收集和加工方法，所述数据收集和加工方法包括：

根据样例数据和所述样例数据的格式，定义数据格式；

采集第一数据；

根据所述数据格式将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据；

存储所述第二数据；

提取所述第二数据并按照业务逻辑进行数据处理。

可选的，所述提取所述第二数据并按照业务逻辑进行数据处理后，还包括：将所述第二数据进行数据转换；读取转换后的所述第二数据。

可选的，通过HDFS和OLAP方式中至少一种方式读取转换后的所述第二数据。

可选的，所述根据所述数据格式采集第一数据包括以下一种或多种：在上传的用户数据文件中，根据所述数据格式采集所述第一数据；根据上传的FTP地址，拉取所述用户数据文件，并根据所述数据格式采集所述第一数据；基于数据库连接、开放数据库互连、超文本传输协议、thrift、远程过程调用协议接收用户数据，并根据所述数据格式采集所述第一数据。

可选的，所述将所述数据进行过滤和清洗，剔除脏数据包括：通过转换时间戳格式、转换字符类型、Host标准化或正则匹配过滤，修改、删除所述第一数据。

可选的，所述存储所述第二数据包括：将所述第二数据封装为事件，并通过内存存储、文件存储、数据库存储或Kafka存储方式，存储所述事件。

可选的，所述第二数据通过数据流或基于文件级的方式进行传输和存储。

为解决上述技术问题，本发明实施例还公开了一种数据收集和加工装置，所述数据收集和加工装置包括数据收集节点、至少一个数据处理节点和消费节点；所述数据收集节点包括：

数据格式定义单元，适于根据上传的样例数据和所述样例数据的格式，定义数据格式；

数据采集单元，适于采集第一数据；

清洗单元，适于根据所述数据格式将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据；

存储单元，适于存储所述第二数据；

处理单元，适于提取所述第二数据并按照业务逻辑进行数据处理。

可选的，所述数据处理节点适于将所述第二数据进行数据转换；所述消费节点适于读取转换后的所述第二数据。

可选的，所述数据处理节点采用并联或串联的方式进行连接。

可选的，所述消费节点通过HDFS和OLAP方式中至少一种方式读取转换后的所述第二数据。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例根据样例数据和所述样例数据的格式，定义数据格式，根据所述数据格式采集第一数据，将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据，存储所述第二数据后提取所述第二数据并按照业务逻辑进行数据处理。本发明实施例通过定义数据格式，采集数据后并根据所述数据格式进行处理，使得数据收集节点、数据处理节点和消费节点易于扩展、易于监控，便于出现问题时进行调整，扩大了数据收集的适用范围；通过将所述第一数据进行过滤和清洗，剔除脏数据，提高了数据收集的有效性和跨网络的数据传输的便捷性。

进一步，所述第二数据通过数据流或基于文件级的方式进行传输和存储，使得源文件按照原始格式保存而不必打乱源文件的数据，保证了数据的准确性；使用数据流的方式让数据收集和加工的各个节点可以灵活组织、配置和部署，扩大了数据收集的适用范围。

附图说明

图1是本发明实施例一种数据收集节点结构示意图；

图2是本发明实施例一种数据处理节点结构示意图；

图3是本发明实施例一种消费节点结构示意图；

图4是本发明实施例另一种消费节点结构示意图；

图5是本发明实施例一种数据收集和加工装置结构示意图；

图6是本发明实施例另一种数据收集和加工装置结构示意图；

图7是本发明实施例一种数据收集和加工方法流程图。

具体实施方式

如背景技术中所述，现有技术中的数据收集方法在数据收集的过程中，会收集脏数据和垃圾数据，降低了数据收集的有效性和准确性；且数据收集方法针对的数据类型单一，适用范围小。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种数据收集节点结构示意图。

请参照图1，所述数据收集节点10包括：

数据格式定义单元101，适于根据上传的样例数据和所述样例数据的格式，定义数据格式。

本实施例中，客户端通过超文本传输协议(HyperTextTransferProtocol,HTTP)接口上传样例数据及数据对应的格式，数据格式定义单元101定义数据格式，将定义的数据格式返回给客户端确认，经过客户端确认后，一种数据格式已定义完成。

数据采集单元102，适于采集第一数据。

本实施例中，客户端上传数据文件在上传的用户数据文件中，根据所述数据格式采集所述第一数据。

本实施例中，数据的采集也可以采用提供对应的文件传输协议(FileTransferProtocol,FTP)地址的方式，根据所述FTP地址，拉取所述用户数据文件，根据所述数据格式采集所述第一数据。如果是FTP地址，数据采集单元102将会启动一个线程在后台从FTP地址拉取文件。数据的采集还可以通过设置外接接口的方式，采用超文本传输协议(HyperTextTransferProtocol,HTTP)协议、远程过程调用协议(RemoteProcedureCallProtocol,RPC)接收其他***或装置的数据传输，并根据所述数据格式采集第一数据。

可以理解的是，数据的采集还可以基于数据库连接(JavaDataBaseConnectivity,java,JDBC)，开放数据库互连(OpenDatabaseConnectivity，ODBC)，thrift等协议进行采集；还可以基于数据流进行数据的实时采集，可以实现随数据采集、处理和消费的实时性，本发明实施例对此不做限制。

清洗单元103，适于根据所述数据格式将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据。

本实施例中，数据采集单元102采集到第一数据后，清洗单元103根据配置文件定义的所述数据格式，通过过滤器、***对数据进行过滤和清洗。清洗单元103通过Interceptor***进行过滤，Interceptor***在第一数据传输过程中进行拦截，来加入需要的业务逻辑；还可以通过转换时间戳格式、转换字符类型、Host标准化或正则匹配过滤，修改、删除所述第一数据，使其符合数据格式定义单元101定义的所述数据格式，得到第二数据，实现数据的动态识别和采集。

具体实施中，清洗单元103为过滤器和***配置对应数据项，并将过滤器和***打包成Jar包以插件的形式放入对应的数据项目录，清洗单元103通过热加载的方式自动加载包和配置。

具体实施中，清洗单元103支持配置任意可实施数量的清洗***以形成一个处理链，并按照配置的顺序执行。

存储单元104，适于存储所述第二数据。

本实施例中，存储单元104用于存储第二数据；所述第二数据被封装为事件(Event)，并通过内存存储、文件存储、数据库存储或Kafka存储方式，存储所述事件。存储第二数据是将数据存储到缓存，以供后面的步骤进行消费。

处理单元105，适于提取所述第二数据并按照业务逻辑进行数据处理。

本实施例中，处理单元105根据特定的业务逻辑进行配置，处理单元105支持数据流和单个文件消费的方式。

具体实施中，使用多线程模式来加快消费的速度时，可以在配置文件中配置至少一个同样的处理单元105，并采用不同的命名。

本实施例中，所述第二数据通过数据流或基于文件级的方式进行传输和存储。其中，数据流的方式是基本的传输方式，第二数据以无状态模式往消息队列推送，处理单元105接收到第二数据后，将其按照统一的方式处理；基于文件级的方式是以单个文件的方式处理，文件处理完成后执行后置程序。数据处理之后还需要进行装载。基于文件级的操作方式方便将源文件按照原始格式保存而不必打乱源文件的数据。

图2是本发明实施例一种数据处理节点结构示意图。

请参照图2，所述数据处理节点20包括：数据接收单元201、数据存储单元202和数据处理单元203。

本实施例中，数据接收单元(Source)201用于接收第二数据，将接收到的第二数据封装成事件；其中，Event表示一个数据单元，带有一个可选的消息头，键值放到事件的消息头中，消息内容放到消息体中。

本实施例中，数据接收单元201将Event推送到数据存储单元(Channel)202中，存储单元202用于数据缓存，中转Event的一个临时存储，并通过内存存储、文件存储、数据库存储或Kafka存储方式，存储Event。

具体实施中，Kafka是一种高吞吐量的分布式发布订阅消息***，处理消费者规模的网站中的动作流数据。Kafka通过Hadoop的并行加载机制来统一线上和离线的消息处理，提供实时消费。

数据处理单元(Sink)203，从存储单元202中读取并移除Event，然后进行数据转换，最后加载到后置节点的接口。

本实施例中，在数据准备好之后，把原有数据表清空，再把数据装载进去；还可以直接往表里追加数据，当一个输入记录与已经存在记录重复时，需要定义时丢弃还是***一条新的记录；如果输入记录的主键与一条已经存在的记录的键互相匹配，就对匹配的目标记录进行更新；如果输入记录的主键与已有记录的键匹配，那么就保留已有的记录加入输入的记录。

本实施例中，所述数据处理节点20可以与Morphline工具集成，提供ETL处理链，处理复杂的ETL(Extract-Transform-Load)过程。ETL过程是指将数据从来源端经过抽取、转换、加载至目的端的过程。Morphline是一种ETL工具。

本实施例中，ETL流程结束后，存储最终的处理结果数据，存储方式包括内存存储和持久化存储，其中，持久化存储用于在重启或者恢复时重新加载数据，保证存储的数据不会丢失。

图3是本发明实施例一种消费节点结构示意图。

请参照图3，所述消费节点30为分布式文件***(HadoopDistributedFileSystem,HDFS)消费节点，包括：数据接收单元(Source)301、数据存储单元(Channel)302和HDFS处理单元(Sink)303。

具体实施中，HDFS适合运行在通用硬件(CommodityHardware)。HDFS是一种高度容错性的***，能提供高吞吐量的数据访问，适合应用于大规模数据集，实现读取流式文件数据的目的。

本实施例中，HDFS消费节点30接收文件和数据流形式的数据，将数据以原始文件存储在HDFS，或者按某种规则将数据流形成以时间、大小等规则分片的文件。

数据接收单元301用于接收数据，将接收到的数据封装成事件，一些键值对放到事件的消息头中，消息内容放到消息体中。

数据存储单元302用于数据的缓存。

HDFS处理单元303消费数据存储单元302中的事件，包括用户传输的原始文件或者传输数据流，并通过HDFS客户端以原始文件或者分片文件上传到HDFS。

图4是本发明实施例另一种消费节点结构示意图。

请参照图4，所述消费节点40为联机分析处理***(OnlineAnalyticalProcessing,OLAP)消费节点，包括：数据接收单元(Source)401、数据存储单元(Channel)402和OLAP处理单元(Sink)403。

具体实施中，OLAP通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入观察。决策数据是多维数据，多维数据就是决策的主要内容。OLAP用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点。

数据接收单元401用于接收文件或者数据流数据，将接收到的数据封装成事件，一些键值对放到事件的消息头中，消息内容放到消息体中。

数据存储单元402用于数据的缓存。

OLAP处理单元403消费数据存储单元402中的事件。数据文件将通过OLAP自身的加载数据文件的方式导入到OLAP；数据流形式的数据将按照时间、大小等规则分片生成文件后再进行加载。OLAP处理单元403在加载完数据后通知后置处理程序。

本实施例中，OLAP消费节点与HDFS消费节点不同在于，OLAP处理单元403是用数据入库等工具将数据传输到OLAP。

需要说明的是，本发明实施例可以通过OLAP与HDFS的数据处理方式，也可以采用其他任意可实施的处理方式的消费节点，以适应不同应用环境下的业务需求，本发明实施例对此不做限制。

具体实施方式可参考前述相应实施例，此处不再赘述。

图5是本发明实施例一种数据收集和加工装置结构示意图。

请参照图5，所述数据收集和加工装置包括：数据收集节点10、数据处理节点20、HDFS消费节点30和OLAP消费节点40。

数据收集节点10定义数据格式，采集数据，以插件形式配置过滤器或者***，按照数据格式对采集到的数据进行过滤和清洗。

数据处理节点20对过滤后的数据进行转换处理，并传送至相应的消费节点。

本实施例中，HDFS消费节点30读取转换后的所述数据。因HDFS中的环境与其他环境的隔离性，HDFS消费节点30可以提供单独的节点，实现跨网络的数据传输，支持多种上传协议。

本实施例中，OLAP消费节点40读取转换后的所述数据。OLAP消费节点40可以实现跨网络的数据传输，支持多种上传协议。

本实施例中，数据处理节点20和HDFS消费节点30和OLAP消费节点40一一对应，不同的消费节点连接不同的数据处理节点。数据处理节点20采用并联的方式进行连接。

本发明实施例中，数据收集节点10、数据处理节点20、HDFS消费节点30和OLAP消费节点40可以根据实际应用需求定义，节点与节点之间通过接口进行连接。每个节点定义接收端接口，上一节点的处理单元向下一个节点的接收接口推送数据。通过统一的功能逻辑划分和统一的接口类型，每个节点完成特定的功能逻辑，传输数据经过预先定义格式，使得节点与节点之间可以自由连接和组合。

具体实施中，通过定义节点的数据流向(DataFlow)，以自由组合方式将节点按照工作流的方式组合，参照实际使用的网络环境及各个节点的应用场景进行部署。数据处理节点20可以自由组合或者不使用数据处理节点20。

本发明实施例还可以提供一种Java管理扩展(JavaManagementExtensions,JMX)功能，支持Ganglia、Grafana等UI监控工具对整个装置中数据收集节点10、数据处理节点20、HDFS消费节点30和OLAP消费节点40的监控，实现数据收集、过滤、加工等步骤的监控，便于出现问题时进行调整。

可以理解的是，所述数据收集和加工装置中数据处理节点20、HDFS消费节点30和OLAP消费节点40的数量可以根据实际应用环境做适应性的调整。

本发明实施例通过不同节点部署后的加工和装载，提高了数据传输的便捷性。

图6是本发明实施例另一种数据收集和加工装置结构示意图。

请参照图6，所述数据收集和加工装置包括：数据收集节点10、数据处理节点20、HDFS消费节点30和OLAP消费节点40。

本实施例中，HDFS消费节点30和OLAP消费节点40采用相同的数据处理节点2。数据处理节点20采用串联的方式进行连接。

具体实施方式可参考前述相应实施例，此处不再赘述。

本发明实施例的数据收集和加工装置在数据收集节点、数据处理节点和消费节点都设置有存储单元，用于传输数据的保存，以使上述节点在由于外界因素导致的重新启动时，可以自动的找回启动前的数据，保证了数据传输过程中的数据安全性。此外，即使在网络正常的情况下，也会保证在各个传输阶段的数据传输不会中断和丢失。

图7是本发明实施例一种数据收集和加工方法流程图。

请参照图7，所述数据收集和加工方法包括：步骤S701，根据样例数据和所述样例数据的格式，定义数据格式。

步骤S702，采集第一数据。

步骤S703，根据所述数据格式将所述第一数据进行过滤和清洗，剔除脏数据，得到第二数据。

步骤S704，存储所述第二数据。

步骤S705，提取所述第二数据并按照业务逻辑进行数据处理。

所述数据收集和加工方法还包括，将所述第二数据进行数据转换；读取转换后的所述第二数据。通过HDFS和OLAP方式中至少一种方式读取转换后的所述第二数据。

具体实施方式可参考前述相应实施例，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数据收集和加工方法，其特征在于，包括：

根据样例数据和所述样例数据的格式，定义数据格式；

采集第一数据；

存储所述第二数据；

提取所述第二数据并按照业务逻辑进行数据处理。

2.根据权利要求1所述的数据收集和加工方法，其特征在于，提取所述第二数据并按照所述业务逻辑进行数据处理后，还包括：将所述第二数据进行数据转换；读取转换后的所述第二数据。

3.根据权利要求2所述的数据收集和加工方法，其特征在于，通过HDFS和OLAP方式中至少一种方式读取转换后的所述第二数据。

4.根据权利要求1所述的数据收集和加工方法，其特征在于，根据所述数据格式采集第一数据包括以下一种或多种：在上传的用户数据文件中，根据所述数据格式采集所述第一数据；根据上传的FTP地址，拉取所述用户数据文件，并根据所述数据格式采集所述第一数据；基于数据库连接、开放数据库互连、超文本传输协议、thrift、远程过程调用协议接收用户数据，并根据所述数据格式采集所述第一数据。

5.根据权利要求1所述的数据收集和加工方法，其特征在于，将所述数据进行过滤和清洗，剔除脏数据包括：通过转换时间戳格式、转换字符类型、Host标准化或正则匹配过滤，修改、删除所述第一数据。

6.根据权利要求1所述的数据收集和加工方法，其特征在于，存储所述第二数据包括：将所述第二数据封装为事件，并通过内存存储、文件存储、数据库存储或Kafka存储方式，存储所述事件。

7.根据权利要求1所述的数据收集和加工方法，其特征在于，所述第二数据通过数据流或基于文件级的方式进行传输和存储。

8.一种数据收集和加工装置，其特征在于，包括数据收集节点、至少一个数据处理节点和消费节点；所述数据收集节点包括：

数据采集单元，适于采集第一数据；

存储单元，适于存储所述第二数据；

9.根据权利要求8所述的数据收集和加工装置，其特征在于，所述数据处理节点适于将所述第二数据进行数据转换；所述消费节点适于读取转换后的所述第二数据。

10.根据权利要求9所述的数据收集和加工装置，其特征在于，所述数据处理节点采用并联或串联的方式进行连接。

11.根据权利要求9所述的数据收集和加工装置，其特征在于，所述消费节点通过HDFS和OLAP方式中至少一种方式读取转换后的所述第二数据。