CN111881153A

CN111881153A - 数据处理方法、装置、电子设备和机器可读存储介质

Info

Publication number: CN111881153A
Application number: CN202010727480.7A
Authority: CN
Inventors: 赵宇; 徐寅斐; 柴瑜轩; 侯雪峰
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-03

Abstract

本发明提供了一种数据处理方法、装置、电子设备和机器可读存储介质，在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；当达到定时时长时，输出聚合结果至数据分析***。该方式中，在数据输入至数据分析***之前，对数据进行聚合处理，并通过定时的方式周期性地将聚合结果输出至数据分析***，通过对数据进行聚合，可以降低数据分析***接收数据的数据量，降低了***的负载承受压力，同时也降低了传输网络的数据传输压力。

Description

数据处理方法、装置、电子设备和机器可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种数据处理方法、装置、电子设备和机器可读存储介质。

背景技术

大数据平台主要用于数据分析；大数据平台需要通过数据采集***从数据源采集数据，大数据平台再对采集到的数据进行分析和存储。相关技术中的数据采集***，通常将从数据源采集到的数据完整地传输至大数据平台，或者对采集到的数据进行简单处理，如过滤、格式化等，然后将简单处理后的数据传输至大数据平台；这种方式易导致大数据平台的负载承受压力较大，同时对传输网络的数据传输压力也较大。

发明内容

有鉴于此，本发明的目的在于提供一种数据处理方法、装置、电子设备和机器可读存储介质，以降低大数据平台的负载承受压力，同时降低传输网络的数据传输压力。

第一方面，本发明实施例提供了一种数据处理方法，该方法应用于运行有数据采集***的电子设备，或应用于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；电子设备与运行有数据分析***的电子设备通信连接；方法包括：在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；当达到定时时长时，输出聚合结果至数据分析***。

进一步的，从目标数据源的初始数据中提取指定数据的步骤，包括：从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，通过聚合算法将指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果。

进一步的，指定数据包括至少一个关键字，以及每个关键字对应的关键字值；通过聚合算法将指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果的步骤，包括：针对每个关键字，将指定数据中的该关键字对应的关键字值，与存储空间中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值；将每个关键字和关键字对应的聚合值，确定为聚合结果。

进一步的，从目标数据源的初始数据中提取指定数据的步骤，包括：从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，将指定数据存入指定的存储空间中；输出聚合结果至数据分析***的步骤之前，方法还包括：当达到定时时长时，通过聚合算法对存储空间中的指定数据进行聚合处理，得到聚合结果。

进一步的，指定数据包括至少一个关键字，以及每个关键字对应的关键字值；通过聚合算法对存储空间中的指定数据进行聚合处理，得到聚合结果的步骤，包括：针对每个关键字，将存储空间中的该关键字对应的关键字值，进行聚合处理，得到该关键字对应的聚合值；将每个关键字和关键字对应的聚合值，确定为聚合结果。

进一步的，输出聚合结果至数据分析***的步骤之后，方法还包括：当达到定时时长时，清空存储空间中的数据。

进一步的，目标数据源预先配置有配置文件；配置文件包括：目标数据源对应的插件的插件标识；插件包括顺序连接的数据采集插件、数据聚合插件和数据输出插件；其中，数据采集插件用于：从目标数据源中读取初始数据；数据聚合插件用于：从初始数据中提取指定数据，通过聚合算法对指定数据进行聚合处理，得到聚合结果；数据输出插件用于：输出聚合结果至数据分析***。

进一步的，配置文件还包括插件的插件参数；其中，数据采集插件的插件参数包括：目标数据源的源标识和每条初始数据的分隔标识符；数据聚合插件的插件参数包括：定时时长、指定数据的关键字、关键字的关键字值对应的聚合算法；数据输出插件的插件参数包括：数据分析***的地址信息。

进一步的，配置文件还包括：相连接的插件之间的数据中转队列的队列标识。

第二方面，本发明实施例提供了一种数据处理装置，该装置设置于运行有数据采集***的电子设备；或设置于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；电子设备与运行有数据分析***的电子设备通信连接；装置包括：提取模块，用于在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；输出模块，用于当达到定时时长时，输出聚合结果至数据分析***。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现第一方面任一项的数据处理方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现第一方面任一项的数据处理方法。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种数据处理方法、装置、电子设备和机器可读存储介质，在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；当达到定时时长时，输出聚合结果至数据分析***。该方式中，在数据输入至数据分析***之前，对数据进行聚合处理，并通过定时的方式周期性地将聚合结果输出至数据分析***，通过对数据进行聚合，可以降低数据分析***接收数据的数据量，降低了***的负载承受压力，同时也降低了传输网络的数据传输压力。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据采集程序的结构示意图；

图2为本发明实施例提供的另一种数据采集程序的结构示意图；

图3为本发明实施例提供的一种数据处理方法的示意图；

图4为本发明实施例提供的另一种数据处理方法的示意图；

图5为本发明实施例提供的另一种数据处理方法的示意图；

图6为本发明实施例提供的一种数据流转方向示意图；

图7为本发明实施例提供的一种具体的数据处理方法的示意图；

图8为本发明实施例提供的一种数据处理装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

大数据平台的数据接入需要支持多数据源、多格式、分布式的数据采集***。目前比较成熟的开源数据采集***包括Flume(日志收集***)：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的***，Flume支持在日志***中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。另外还有LOGSTASH(数据处理管道)等数据采集***，基本实现与flume类似。如图1所示，现有技术中一个数据采集程序，主要分为三个部分，数据接收、数据格式化、数据发送；其中的数据格式化的主要作用是对数据简单处理，如过滤、格式化等；然后将简单处理后的数据传输至大数据平台；这种方式易导致大数据平台的负载承受压力较大，同时对传输网络要求比较高。

基于此，本发明实施例提供了一种数据处理方法、装置、电子设备和机器可读存储介质，该技术可以应用于具有数据处理功能的电子设备中。为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据处理方法进行详细介绍。

首先，本发明实施例提供了一种数据处理方法，该方法用于运行有数据采集***的电子设备，或应用于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；电子设备与运行有数据分析***的电子设备通信连接。

上述运行有数据采集***的电子设备可以是专用于数据采集的电子设备；也可以将数据采集***运行在数据源电子设备中；如图2所示该电子设备可以包括数据接收、聚合计算、数据发送三个模块；该电子设备可以是计算机、服务器、也可以是终端设备等；相对于目前的现有技术，本发明增强了数据格式化模块的功能，支持数据流进入可以在此模块进行过滤和格式化的基础上实现聚合计算。

具体的，大数据平台的数据源可以是多种多样的，可以从HTTP(Hyper TextTransfer Protocol，超文本传输协议，)、TCP(Transmission Control Protocol，传输控制协议)、FTP(File Transfer Protocol，文件传输协议)等网络接收，也可以从文件、磁盘中读取，还可以从其他软件的输出中接收，比如Kafka(Apache Kafka，一种开源流处理平台)、MQ(Message Queue，消息队列)等软件；再有数据源可能分布在很多电子设备上，比如分布式集群的日志分布在不同机器上；因此，大数据平台的数据接入需要支持多数据源、多格式、分布式的数据采集***。

如图3所示，该方法包括如下步骤：

步骤S302，在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；

上述预设的定时时长可以是通过定时器进行定时的，该定时器可以是周期性定时器，可以根据实际的数据采集需要设置定时时长，比如，该定时时长可以是三十秒、一分钟、两分钟等；上述目标数据源可以包括多种格式的数据源，比如，文本、paquet、json、xml等格式的数据源；电子设备需要提取哪些类型的数据源数据可以是提前配置好的；上述初始数据通常是指数据源中的原始数据，初始数据中可能会包括一些无效数据，比如非法字段、格式错误、不匹配值等；通常在提取指定数据时，可以将数据中的无效数据进行过滤，同时可以将不同格式的数据进行格式上的统一；上述指定数据可以包括初始数据中的指定字段，以及该字段对应的数据，比如，日志数据中字段为时间的数据、字段为IP(InternetProtocol，网际互连协议)的数据，文本数据中字段为年龄的数据等；电子设备从数据源中的初始数据提取什么指定数据也可以是提前配置好的；上述聚合算法可以是对一组值执行计算，并返回单个值的运算，该运算可以包括计算指定数据的和、均值、最大值、最小值等；还可以是按照一定时间周期对指定数据进行数据统计处理，比如，统计日志数据的行数等；上述聚合算法可以减少流入大数据平台的数据量；电子设备对提取到的指定数据进行哪种聚合算法也可以是提前配置好的。

实际实现时，根据预设的定时时长，在该定时周期内，可以根据预先设置的字段，从目标数据源的初始数据中提取指定数据，该指定数据可以存入内存，也可以进行缓存，等待定时器时钟的触发，到达预设的定时时长后，可以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；或者，在定时周期内，可以根据预先设置的字段，逐条从目标数据源的初始数据中提取指定数据，通过预设的聚合算法对提取的每条指定数据进行聚合处理，得到聚合结果。该聚合结果相对于初始数据，数据量较少。

需要说明的是，上述电子设备提取指定数据是流式实时数据采集为主，非实时(离线)数据采集天然支持。

步骤S304，当达到定时时长时，输出聚合结果至数据分析***。

上述数据分析***可以包括大数据平台，其中，大数据平台中部署有各种大数据组件以接收聚合结果，比如输出聚合结果至Kafak中，对接收到的聚合结果进行数据分析；电子设备将聚合结果输出至数据分析***中的哪个存储地址，可以提前配置。具体的，每当到达预设的定时时长时，会将该时间段内计算得到的聚合结果输出至预先配置好的地址中；或者，每当到达预设的定时时长时，会将该时间段内接收到的指定数据进行聚合处理，将计算得到的聚合结果输出至预先配置好的地址中；其中，输出聚合结果时，可以是将格式化的聚合结果输出至数据分析***。

本发明实施例提供了一种数据处理方法，在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；当达到定时时长时，输出聚合结果至数据分析***。该方式中，在数据输入至数据分析***之前，对数据进行聚合处理，并通过定时的方式周期性地将聚合结果输出至数据分析***，通过对数据进行聚合，可以降低数据分析***接收数据的数据量，降低了***的负载承受压力，同时也降低了传输网络的数据传输压力。

本发明实施例提供了另一种数据处理方法，该方法在上述实施例方法的基础上实现；本实施例重点描述从目标数据源的初始数据中提取指定数据的步骤的实现过程(通过步骤S402-S404实现)；如图4所示，该方法包括如下步骤：

步骤S402，在预设的定时时长内，从目标数据源中逐条读取初始数据；

运行有数据采集***的电子设备，在预设的定时时长内，可以通过数据接收模块从目标数据源中逐条读取初始数据。

步骤S404，针对每条初始数据，从该条初始数据中提取指定数据，通过聚合算法将指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果；

上述初始数据中可以包含多个字段的数据，比如，电子设备中的日志数据，每条初始数据包含有访问时间、访问地址等字段信息；上述预设的存储空间可以存储各种形式的数据，比如map、json等形式；上述预设的存储空间中的数据可以是在预设的定时时长内，从初始数据中提取的指定数据，或者已经进行聚合处理后的数据。比如，在定时时长内，可以逐条接收初始数据，初始状态时，根据预先设置的提取字段，从接收到的第一条初始数据中，提取第一条指定数据；同时将该条指定数据以预先设置好的存储形式，保存至存储空间中；当读取到下一条初始数据时，再次根据预先设置好的提取字段，提取第二条指定数据，并通过预先设定好的聚合算法将该条指定数据与存储空间中的第一条指定数据进行聚合处理，得到第一条聚合结果，同时将该第一条聚合结果存储至存储空间中，并删除第一条和第二条指定数据；继续读取第三条初始数据，根据预先设置好的提取字段，提取第三条指定数据，并通过预先设定好的聚合算法将该第三条指定数据与存储空间中的第一条聚合结果进行聚合处理，得到第二条聚合结果，同时将该第二条聚合结果存储至存储空间中，并删除第一条聚合结果；直到到达定时时长。在预设的定时时长内通常会读取多条初始数据，最后到达定时时长后，得到最终的聚合结果。这种方式中，存储空间中的数据较少，可以节约内存。

上述指定数据包括至少一个关键字，以及每个关键字对应的关键字值；针对上述步骤S404，一种优选的实施方式：

步骤A1，针对每个关键字，将指定数据中的该关键字对应的关键字值，与存储空间中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值；

上述关键字可以理解为初始数据中的字段，以及上述关键字值可以理解为初始数据中该字段对应的字段信息；比如，日志数据中关键字可以为时间，关键字值可以为时间对应的具体时间值；再如，文本数据中关键字可以为年龄，关键字值可以为年龄对应的具体年龄值。具体的，从指定数据中提取需要聚合计算的关键字和该关键字对应的关键字值，比如，可以以key1、key2、key3为关键字，以value1、value2、value3为关键字值，将该关键字和该关键字值存入存储空间中，如果下一条指定数据包括的关键字与该关键字相同，则把该条指定数据中该关键字对应的关键字值与存储空间中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值。

步骤A2，将每个关键字和关键字对应的聚合值，确定为聚合结果。

由于指定数据中包括至少一个关键字，因此上述步骤A1中聚合处理后计算得到的关键字对应的聚合值，可以是多个关键字对应的多个聚合值；因此，上述聚合结果可以包括多个关键字，以及该多个关键字对应的多个聚合值。

步骤S406，当达到定时时长时，输出聚合结果至数据分析***。

该方式中，从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，通过聚合算法将指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果；当到达定时时长时，输出聚合结果至数据分析***。与初始数据相比，采用本实施例的数据处理方法处理后的数据量大大减少，从而降低了大数据平台的负载承受压力，同时降低了传输网络的数据传输压力。

本发明实施例提供了另一种数据处理方法，该方法在上述实施例方法的基础上实现；本实施例重点描述从目标数据源的初始数据中提取指定数据的步骤的实现过程(通过步骤S502实现)；以及输出聚合结果至数据分析***的步骤之前的步骤(通过步骤S504实现)；以及输出聚合结果至数据分析***的步骤之后的步骤(通过步骤S508实现)；如图5所示，该方法包括如下步骤：

步骤S502，在预设的定时时长内，从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，将指定数据存入指定的存储空间中；

运行有数据采集***的电子设备，在预设的定时时长内，可以通过数据接收模块从目标数据源中逐条读取初始数据；对于读取的每条初始数据可以包含多个字段的数据，比如，电子设备中的日志数据，每条初始数据包含有访问时间、访问地址等字段信息；上述指定的存储空间可以存储各种形式的数据，比如map、json等。实际实现时，可以从逐条接收到初始数据中，根据预先设置好的提取字段，提取指定数据；同时将该指定数据以预先设置好的存储形式，保存至存储空间中；比如，按照预先设置好的字段，以及该字段对应的字段信息，分别将提取的指定数据存入指定的存储空间中。

步骤S504，当达到定时时长时，通过聚合算法对存储空间中的指定数据进行聚合处理，得到聚合结果；

在定时时长内，通常会提取多个指定数据；当达到定时时长时，可以先通过预先设置的聚合算法，对存储空间中所有的指定数据中每个字段对应的字段信息，进行聚合运算，得到多个字段对应的聚合结果。

上述指定数据包括至少一个关键字，以及每个关键字对应的关键字值；针对上述步骤S504，一种优选的实施方式：

步骤B1，针对每个关键字，将存储空间中的该关键字对应的关键字值，进行聚合处理，得到该关键字对应的聚合值；

上述关键字可以理解为初始数据中的字段，以及上述关键字值可以理解为初始数据中字段对应的字段信息；比如，日志数据中关键字可以为时间，关键字值可以为时间对应的具体时间值；再如，文本数据中关键字可以为年龄，关键字值可以为年龄对应的具体年龄值。具体的，由于指定数据包括至少一个关键字，因此，当达到定时时长时，可以针对至少一个关键字，将定时时长内存储空间中保存的指定数据中的关键字对应的关键字值，进行聚合处理，得到多个关键字对应的多个聚合值；上述聚合处理可以是根据指定数据的特性提前设置的。

步骤B2，将每个关键字和关键字对应的聚合值，确定为聚合结果。

上述步骤B1中聚合处理后计算得到的关键字对应的聚合值，可以是多个关键字对应的多个聚合值；因此，上述聚合结果可以包括多个关键字，以及该多个关键字对应的多个聚合值。

步骤S506，输出聚合结果至数据分析***；

步骤S508，清空存储空间中的数据。

由于聚合计算模块内采集数据是根据定时周期，在该定时周期内采集数据并进行聚合计算，计算得到聚合结果后，将聚合结果输出至数据分析***，同时清空存储空间中的数据；以便在下一周期存储采集的指定数据。

该方式中，从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，将指定数据存入指定的存储空间中；当达到定时时长时，通过聚合算法对存储空间中的指定数据进行聚合处理，得到聚合结果；输出聚合结果至数据分析***；清空存储空间中的数据；该实现方式支持采集时进行聚合计算、多数据源采集、分布式部署、多日志格式，且支持数据采集过程中先进行计算，再将结果进行传输，降低了数据分析***的负载承受压力，以及大数据平台的计算和存储的压力，同时也降低了传输网络的数据传输压力。

进一步的，上述目标数据源预先配置有配置文件；该配置文件包括：目标数据源对应的插件的插件标识；插件包括顺序连接的数据采集插件、数据聚合插件和数据输出插件；其中，数据采集插件用于：从目标数据源中读取初始数据；数据聚合插件用于：从初始数据中提取指定数据，通过聚合算法对指定数据进行聚合处理，得到聚合结果；数据输出插件用于：输出聚合结果至数据分析***。

上述配置文件是一种计算机文件，可以为一些计算机程序配置参数和初始设置，该配置文件可以是json、xml、yml等语言格式。本发明中利用配置文件对目标数据源预先配置了对应的插件；通过上述插件标识可以识别目标数据源对应的插件，分别包括数据采集插件、数据聚合插件和数据输出插件。上述数据采集插件可以根据采集的目标数据源的种类进行设置，以得到不同的数据采集插件，比如采集TCP(Transmission ControlProtocol，传输控制协议)数据可以设置数据采集插件为TCP_INPUT_PLUGIN，采集文本数据可以设置数据采集插件为FILE_INPUT_PLUGIN，还可以根据业务要求开发不同的数据采集插件；上述数据聚合插件同样可以根据目标数据源的特性，以及业务要求设置不同的数据聚合插件，比如以五分钟为定时时长，按照指定字段进行聚合计算的数据聚合插件AGG_COMPUTE_PLUGIN，当然还可以按照不同的要求自定义数据聚合插件；上述数据输出插件可以根据数据输出的不同地址，以及输出的数据特性，设置不同的数据输出插件，比如文件数据输出FILE_OUTOUT_PLUGIN，输出至Kafak中的数据输出插件KFAKA_OUTPUT_PLUGIN。

另外，上述各个插件之间为顺序连接；例如图6所示的顺序连接的插件中数据流转方向；插件之间的关联是由采集程序内核和配置文件生成的，配置文件注明了插件的上下游关系；比如，数据采集插件可以从文件格式的目标数据源中读取初始数据(文件的内容是ip\t\当前时间，其中“\t”为分隔符)；数据输出插件可以是输出聚合结果至数据分析***的Kafka中；数据聚合插件可以是计算每一分钟每个ip的访问次数；本实施例以配置文件为toml(Tom's Obvious,Minimal Language)的语言格式为例，上述各个配置文件包括的插件可以通过下述代码实现：

[FILE_INPUT_PLUGIN]

file＝"/data/iponline.log"

split＝”\t”

[AGG_COMPUTE_PLUGIN]

interval＝”60s”

sum_value＝count(*)

sum_key＝ip

[KAFKA_OUTPUT_PLUGIN]

address＝”127.0.0.1:9200”

上述代码表示整个配置文件中数据采集的数据流转过程，即input、compute、output以及每一步的参数配置，比如数据采集插件是文件以“\t”分隔收集初始数据，数据聚合插件计算每60秒计算一下ip出现的次数；最后数据输出插件设置了kafka的地址。

上述配置文件还包括插件的插件参数；其中，数据采集插件的插件参数包括：目标数据源的源标识和每条初始数据的分隔标识符；数据聚合插件的插件参数包括：定时时长、指定数据的关键字、关键字的关键字值对应的聚合算法；数据输出插件的插件参数包括：数据分析***的地址信息。

其中，数据采集插件的插件参数可以根据目标数据源的种类、数据特性、数据格式等进行设置；通常包括目标数据源的源标识和每条初始数据的分隔标识符，其中，源标识通常是指目标数据源的名称，比如，读取文件格式的数据，该源标识可以为file＝"/data/iponline.log"；每条初始数据的分隔标识符可以将读取到的每条初始数据进行分隔，比如，数据采集插件是以“\t”分隔符收集每条初始数据。

数据聚合插件的插件参数同样可以根据采集到的初始数据的特性、初始数据的字段、业务要求等进行设置，通常包括定时时长、指定数据的关键字、关键字的关键字值对应的聚合算法；其中，这些数据聚合插件的插件参数值，具体可以根据实际的业务要求设置，比如，要求每60秒计算一次ip出现的次数，这时定时时长设置为60秒，即interval＝”60s”；指定数据的关键字为ip，sum_key＝ip；关键字的关键字值对应的聚合算法为计算ip出现的次数sum_value＝count(*)。

数据输出插件的插件参数可以根据业务要求中需要输出至哪个地址进行设置，通常包括数据分析***的地址信息；其中，该地址信息可以为数据分析***中部署的数据处理平台的地址；比如，要求输入至数据分析***中的Kafak中，即address＝”127.0.0.1:9200”。

上述配置文件还包括：相连接的插件之间的数据中转队列的队列标识。其中，插件之间数据消息流转不限于现在直接发送，可以增加缓存队列或者其他消息中转机制；因此可以利用上述队列标识选择插件之间数据消息流转的方式。

需要说明的是，插件的实现是可以是以JAVA反射机制实现的，即数据采集***会根据插件名，比如FILE_INPUT_PLUGIN，反射出具体的类，只要这个类实现了数据采集***的各种处理方法就可以使用。另外，利用插件的方式，一个数据接收模块的下游可以不限于设计成一个聚合计算模块，也就是说模块与模块之间可以多对多，实现消息源多出口。

该方式中，通过插件的方式实现数据采集、数据聚合和数据输出，且支持插件可插拔，因此，在数据处理中对接一个新的目标数据源或者对接一种新的聚合计算方法都是非常快捷便利的；另外，插件可以自定义配置文件，因此在完成一些新任务时，可以根据任务需求直接开发新的插件，可以在无需重启主程序的情况下，动态的安装插件，使得数据采集、计算、输出的过程更加方便快捷。

本实施例提供了一种具体的实现方式，参见图7所示，运行有数据采集***的电子设备中的聚合计算模块，首先可从配置文件包括的数据聚合模块的插件参数中获取需要作为key的关键字，然后开始逐条接收初始数据，从每条初始数据中提取需要计算的key和需要进行聚合计算的关键字值value，若关键字包括有三个，即可以以key1、key2、key3为key，以value1、value2、value3为value的map形式存入内存(一种把键对象和值对象进行关联的容器)；如果接收到的下一条的关键字与上述key相同，则把该关键字对应的关键字值分别加入到内存的value中，与内存中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值，将每个关键字和关键字对应的聚合值，确定为聚合结果；判断是否达到定时时长，如果没有到达，即图中的N，则继续接收下一条初始数据；如果到达，即图中的Y，则将计算的聚合结果输出，同时清空内存；其中还可以将计算的聚合结果格式化输出。

对应上述的数据处理方法实施例，本发明实施例提供了一种数据处理装置，如图8所示，该装置于运行有数据采集***的电子设备，或设置于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；该电子设备与运行有数据分析***的电子设备通信连接；该装置包括：

提取模块81，用于在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；

输出模块82，用于当达到定时时长时，输出聚合结果至数据分析***。

本发明实施例提供了一种数据处理装置，在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对指定数据进行聚合处理，得到聚合结果；当达到定时时长时，输出聚合结果至数据分析***。该方式中，在数据输入至数据分析***之前，对数据进行聚合处理，并通过定时的方式周期性地将聚合结果输出至数据分析***，通过对数据进行聚合，可以降低数据分析***接收数据的数据量，降低了***的负载承受压力，同时也降低了传输网络的数据传输压力。

进一步的，上述提取模块还用于：从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，通过聚合算法将指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果。

进一步的，上述指定数据包括至少一个关键字，以及每个关键字对应的关键字值；上述提取模块还用于：针对每个关键字，将指定数据中的该关键字对应的关键字值，与存储空间中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值；将每个关键字和关键字对应的聚合值，确定为聚合结果。

进一步的，上述提取模块还用于：从目标数据源中逐条读取初始数据；针对每条初始数据，从该条初始数据中提取指定数据，将指定数据存入指定的存储空间中；上述装置还用于：当达到定时时长时，通过聚合算法对存储空间中的指定数据进行聚合处理，得到聚合结果。

进一步的，上述指定数据包括至少一个关键字，以及每个关键字对应的关键字值；上述提取模块还用于：针对每个关键字，将存储空间中的该关键字对应的关键字值，进行聚合处理，得到该关键字对应的聚合值；将每个关键字和关键字对应的聚合值，确定为聚合结果。

进一步的，上述装置还用于：当达到定时时长时，清空存储空间中的数据。

进一步的，上述目标数据源预先配置有配置文件；配置文件包括：目标数据源对应的插件的插件标识；插件包括顺序连接的数据采集插件、数据聚合插件和数据输出插件；其中，数据采集插件用于：从目标数据源中读取初始数据；数据聚合插件用于：从初始数据中提取指定数据，通过聚合算法对指定数据进行聚合处理，得到聚合结果；数据输出插件用于：输出聚合结果至数据分析***。

进一步的，上述配置文件还包括插件的插件参数；其中，数据采集插件的插件参数包括：目标数据源的源标识和每条初始数据的分隔标识符；数据聚合插件的插件参数包括：定时时长、指定数据的关键字、关键字的关键字值对应的聚合算法；数据输出插件的插件参数包括：数据分析***的地址信息。

进一步的，上述配置文件还包括：相连接的插件之间的数据中转队列的队列标识。

本发明实施例提供的数据处理装置，与上述实施例提供的数据处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供了一种电子设备，参见图9所示，该电子设备包括处理器90和存储器91，该存储器91存储有能够被处理器90执行的机器可执行指令，该处理器90执行机器可执行指令以实现上述数据处理方法。

进一步地，图9所示的电子设备还包括总线92和通信接口93，处理器90、通信接口93和存储器91通过总线92连接。

其中，存储器91可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口93(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线92可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器90可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器90中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器90可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器91，处理器90读取存储器91中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述数据处理方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的数据处理方法、装置、电子设备和机器可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于运行有数据采集***的电子设备，或应用于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；所述电子设备与运行有数据分析***的电子设备通信连接；所述方法包括：

在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对所述指定数据进行聚合处理，得到聚合结果；

当达到所述定时时长时，输出所述聚合结果至所述数据分析***。

2.根据权利要求1所述的方法，其特征在于，所述从目标数据源的初始数据中提取指定数据的步骤，包括：

从所述目标数据源中逐条读取初始数据；

针对每条所述初始数据，从该条初始数据中提取指定数据，通过所述聚合算法将所述指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果。

3.根据权利要求2所述的方法，其特征在于，所述指定数据包括至少一个关键字，以及每个所述关键字对应的关键字值；

所述通过所述聚合算法将所述指定数据与预设的存储空间中的数据进行聚合处理，得到聚合结果的步骤，包括：

针对每个所述关键字，将所述指定数据中的该关键字对应的关键字值，与所述存储空间中该关键字对应的关键字值进行聚合处理，得到该关键字对应的聚合值；

将每个所述关键字和所述关键字对应的聚合值，确定为聚合结果。

4.根据权利要求1所述的方法，其特征在于，所述从目标数据源的初始数据中提取指定数据的步骤，包括：从所述目标数据源中逐条读取初始数据；针对每条所述初始数据，从该条初始数据中提取指定数据，将所述指定数据存入指定的存储空间中；

所述输出所述聚合结果至所述数据分析***的步骤之前，所述方法还包括：当达到所述定时时长时，通过所述聚合算法对所述存储空间中的指定数据进行聚合处理，得到聚合结果。

5.根据权利要求4所述的方法，其特征在于，所述指定数据包括至少一个关键字，以及每个所述关键字对应的关键字值；

所述通过所述聚合算法对所述存储空间中的指定数据进行聚合处理，得到聚合结果的步骤，包括：

针对每个所述关键字，将所述存储空间中的该关键字对应的关键字值，进行聚合处理，得到该关键字对应的聚合值；

6.根据权利要求2-5任一项所述的方法，其特征在于，输出所述聚合结果至所述数据分析***的步骤之后，所述方法还包括：清空所述存储空间中的数据。

7.根据权利要求1所述的方法，其特征在于，所述目标数据源预先配置有配置文件；所述配置文件包括：所述目标数据源对应的插件的插件标识；所述插件包括顺序连接的数据采集插件、数据聚合插件和数据输出插件；

其中，所述数据采集插件用于：从所述目标数据源中读取初始数据；

所述数据聚合插件用于：从所述初始数据中提取指定数据，通过所述聚合算法对所述指定数据进行聚合处理，得到聚合结果；

所述数据输出插件用于：输出所述聚合结果至所述数据分析***。

8.根据权利要求7所述的方法，其特征在于，所述配置文件还包括所述插件的插件参数；

其中，所述数据采集插件的插件参数包括：所述目标数据源的源标识和每条所述初始数据的分隔标识符；

所述数据聚合插件的插件参数包括：所述定时时长、所述指定数据的关键字、所述关键字的关键字值对应的聚合算法；

所述数据输出插件的插件参数包括：所述数据分析***的地址信息。

9.根据权利要求7或8所述的方法，其特征在于，所述配置文件还包括：相连接的所述插件之间的数据中转队列的队列标识。

10.一种数据处理装置，其特征在于，所述装置设置于运行有数据采集***的电子设备，或设置于与运行有数据采集***的电子设备的数据输出端通信连接的电子设备；所述电子设备与运行有数据分析***的电子设备通信连接；所述装置包括：

提取模块，用于在预设的定时时长内，从目标数据源的初始数据中提取指定数据，以通过预设的聚合算法对所述指定数据进行聚合处理，得到聚合结果；

输出模块，用于当达到所述定时时长时，输出所述聚合结果至所述数据分析***。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至9任一项所述的数据处理方法。

12.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1至9任一项所述的数据处理方法。