CN105912588A

CN105912588A - 一种基于内存计算的大数据可视化处理方法及***

Info

Publication number: CN105912588A
Application number: CN201610203223.7A
Authority: CN
Inventors: 赵维平; 刘龙; 王鑫毅; 钟新斌; 于雪龙
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-31

Abstract

本发明公开了一种基于内存计算的大数据可视化处理方法，包括：获取用于数据处理的节点；依据数据处理需求连接所述节点，设置所述节点参数，形成工作流；触发执行引擎运行所述工作流，输出处理结果。本发明将传统数据分析过程进行封装，使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作，将计算过程和结果放置在内存中，为用户提供了更敏捷、易用的使用体验。本发明还公开了一种基于内存计算的大数据可视化处理***。

Description

一种基于内存计算的大数据可视化处理方法及***

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于内存计算的大数据可视化处理方法及***。

背景技术

在互联网的浪潮下，金融行业也进入大数据时代。面对迅速增长的数据量，如何从积累的数据中发掘有用的信息，进而利用其进行进一步的辅助经营、客户营销、欺诈检测、降低成本等成为金融行业面临的挑战和问题。

目前，在对数据进行处理的过程中，用户需要编写程序代码进行处理和分析数据的操作，对用户要求门槛较高，且人工编写程序容易出错，时间成本较高，程序很难复用，对于程序或者参数进行调整后，需要在整个原始数据上执行，不能对一些可复用的中间数据结果进行复用。

发明内容

本发明提供了一种基于内存计算的大数据可视化处理方法，将传统数据分析过程进行封装，使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作，将计算过程和结果放置在内存中，为用户提供了更敏捷、易用的使用体验。

本发明提供了一种基于内存计算的大数据可视化处理方法，包括：

获取用于数据处理的节点；

依据数据处理需求连接所述节点，设置所述节点参数，形成工作流；

触发执行引擎运行所述工作流，输出处理结果。

优选地，所述获取用于数据处理的节点具体为：

添加和/或删除用于数据处理的节点。

优选地，所述依据数据处理需求连接节点包括：

获取触发第一节点至第二节点的运行轨迹；

依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。

优选地，所述设置所述节点参数包括：

设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。

优选地，所述触发执行引擎运行所述工作流，输出处理结果包括：

解析所述工作流，根据节点的连接顺序定义节点间相互依赖关系；

依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码；

将所述代码分发到内存计算集群中进行执行，输出执行结果。

一种基于内存计算的大数据可视化处理***，包括：

第一获取单元，用于获取用于数据处理的节点；

形成单元，用于依据数据处理需求连接所述节点，设置所述节点参数，形成工作流；

触发单元，用于触发执行引擎运行所述工作流，输出处理结果。

优选地，所述第一获取单元具体用于添加和/或删除用于数据处理的节点。

优选地，所述形成单元包括：

第二获取单元，用于获取触发第一节点至第二节点的运行轨迹；

第一生成单元，依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。

优选地，所述形成单元还包括：

设置单元，用于设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。

优选地，所述触发单元包括：

解析单元，用于解析所述工作流，根据节点的连接顺序定义节点间相互依赖关系；

第二生成单元，用于依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码；

执行单元，用于将所述代码分发到内存计算集群中进行执行，输出执行结果。

由上述方案可知，本发明提供的一种基于内存计算的大数据可视化处理方法，通过获取用于数据处理的节点，并根据数据处理的需求连接节点，设置节点参数，生成工作流，然后触发执行引擎运行生成的工作流，输出数据处理结果，使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作，通过执行引擎将计算过程和结果放置在内存中，为用户提供了更敏捷、易用的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一公开的一种基于内存计算的大数据可视化处理方法的流程图；

图2为本发明实施例二公开的一种基于内存计算的大数据可视化处理方法的流程图；

图3为本发明实施例一公开的一种基于内存计算的大数据可视化处理***的结构示意图；

图4为本发明实施例二公开的一种基于内存计算的大数据可视化处理***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例一公开的一种基于内存计算的大数据可视化处理方法，包括：

S101、获取用于数据处理的节点；

当需要对大数据进行数据处理时，根据数据处理的需求选择相应的节点，获取的每个节点都承担着数据处理任务，每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型，包括每条记录的每类的名字，每列的角色，以及每列的数据类型。节点保存着一个标志位，标志其所对应的数据集是否为最新和有效的。

节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中：输入输出节点定义数据的来源以及要导出的位置，支持多种存储编码、格式和方式。

基本处理节点包括Filter节点、Union节点、Map节点、FlapMap节点、ReduceByKey节点、Join节点、Sample节点。

Filter节点实现按照用户定义的条件进行过滤，结果为满足特定条件的数据集。

Union节点对两个结构一致的数据集进行联合操作，结果为两个输入数据集的合集。

Map节点对输入数据集中的每个元素都执行一个特定的函数来产生一个新的数据集。任何原数据集中的元素在新数据集中都有且只有一个元素与之对应。

FlatMap节点与Map节点类似，输入数据集中的一个元素经FlatMap处理后可生成多个元素来构建新的数据集，可用于宽表拆分等操作。

ReduceByKey节点对应一个二元操作，对由(键，值)对形式的元素组成的数据集进行操作，将键相同的元素的值传入输入函数，同时产生一个新的值，新产生的值与数据集中下一个元素再进行相同操作，直到一个键只有一个值为止。

Join节点提供两个数据集的自然连接操作。

Sample节点按照用户设定的采用比例，进行有放回的或无放回的随机采样，输出为采用的结果数据集。

数据挖掘节点包括K-Means、Naive Bayes等实现数据挖掘算法的节点。

S102、依据数据处理需求连接节点，设置节点参数，形成工作流；

获取到用于数据处理的节点后，依据数据处理的需求对节点进行连接，不同的节点连接表示不同的数据处理过程，同时对获取的节点依据节点的属性进行相应的参数设置，形成工作流。工作流是一个有向无环图，由节点和带箭头的连线组成，每条连线连接着两个不同的节点。

S103、触发执行引擎运行工作流，输出处理结果。

形成工作流后，基于内存计算触发执行引擎对工作流进行运行，最终输出数据处理结果。

综上所述，在上述实施例中，通过获取用于数据处理的节点，并根据数据处理的需求连接节点，设置节点参数，生成工作流，然后触发执行引擎运行生成的工作流，输出数据处理结果，使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作，通过执行引擎将计算过程和结果放置在内存中，为用户提供了更敏捷、易用的使用体验。

如图2所示，为本发明实施例二公开的一种基于内存计算的大数据可视化处理方法，包括：

S201、添加和/或删除用于数据处理的节点；

当需要对大数据进行数据处理时，根据数据处理的需求，通过添加和/或删除的方式选择相应的节点。获取的每个节点都承担着数据处理任务，每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型，包括每条记录的每类的名字，每列的角色，以及每列的数据类型。节点保存着一个标志位，标志其所对应的数据集是否为最新和有效的。

Join节点提供两个数据集的自然连接操作。

S202、获取触发第一节点至第二节点的运行轨迹；

获取到用于数据处理的节点后，用户根据数据处理的需求，通过托拽的可视化的编辑界面定义节点之间的连线，即获取触发第一节点至第二节点的运行轨迹。

S203、依据运行轨迹生成第一节点至所述第二节点的单向箭头；

依据用户托拽的运行轨迹生成第一节点至第二节点的单向箭头。

S204、设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数，形成工作流；

然后对每个节点的形状的描述、颜色、位置、路径、元信息和数据挖掘算法进行参数设置，形成数据处理的工作流。在实现中，工作流是JSON格式的数据，每个节点和带箭头的连线都有一个id，连线中记录着所连接的两个节点的id。

S205、解析工作流，根据节点的连接顺序定义节点间相互依赖关系；

形成工作流后，执行引擎第一步完成从工作流的逻辑模型到可执行代码的转换。首先对工作流进行解析，根据节点的连接顺序定义节点间的相互依赖关系。

S206、依据节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码；

然后根据节点的依赖关系、节点的元信息和用户定义的节点参数，生成内存计算框架可执行的代码。

S207、将代码分发到内存计算集群中进行执行，输出执行结果。

执行引擎第二步将之前生成的代码分发到内存计算集群中进行实际执行，每个节点对于的临时结果作为整个执行流程的中间结果，会根据需要或者用户设置存储在内存中，以便加速下次处理。

在实际的数据处理过程中，用户可通过对工作流进行修改，实现快速调整数据处理和分析流程，具体可通过添加、删除节点或改变节点连接，来改变工作流的拓扑结构，或修改节点参数，或修改输入数据，标志节点有效性的标志位同时改变，执行引擎执行时，根据内存中中间临时结果的有效性，选择性的执行和更新中间临时结果，对于没有受到修改工作流影响的节点，执行引擎直接引用之前结果而不会再次执行。

综上所述，在上述实施例中，以浏览器作为用户操作的载体，不需要额外安装客户端软件，易于在用户间推广。将编写代码处理数据方式进行了抽象和提升，提供可视化的、通过拖拽形成工作流的方式，极大提升了易用性，降低数据分析的门槛。基于内存计算，每个节点对应的中间数据结果都缓存在内存中，对分析过程调整时可迅速得到结果。可对工作流节点进行扩充，支持更多的数据操作和算法，顺应大数据处理和互联网金融的趋势。

如图3所示，为本发明实施例一公开的一种基于内存计算的大数据可视化处理***，包括：

第一获取单元301，用于获取用于数据处理的节点；

节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中，输入输出节点定义数据的来源以及要导出的位置，支持多种存储编码、格式和方式。

Join节点提供两个数据集的自然连接操作。

形成单元302，用于依据数据处理需求连接节点，设置节点参数，形成工作流；

触发单元303，用于触发执行引擎运行工作流，输出处理结果。

如图4所示，为本发明实施例二公开的一种基于内存计算的大数据可视化处理***，包括：

第一获取单元401，用于添加和/或删除用于数据处理的节点；

Join节点提供两个数据集的自然连接操作。

第二获取单元402，用于获取触发第一节点至第二节点的运行轨迹；

第一生成单元403，用于依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头；

设置单元404，用于设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数，形成工作流；

解析单元405，用于解析所述工作流，根据节点的连接顺序定义节点间相互依赖关系；

第二生成单元406，用于依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码；

执行单元407，用于将所述代码分发到内存计算集群中进行执行，输出执行结果。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于内存计算的大数据可视化处理方法，其特征在于，包括：

获取用于数据处理的节点；

触发执行引擎运行所述工作流，输出处理结果。

2.根据权利要求1所述的方法，其特征在于，所述获取用于数据处理的节点具体为：

添加和/或删除用于数据处理的节点。

3.根据权利要求2所述的方法，其特征在于，所述依据数据处理需求连接节点包括：

获取触发第一节点至第二节点的运行轨迹；

4.根据权利要求3所述的方法，其特征在于，所述设置所述节点参数包括：

5.根据权利要求4所述的方法，其特征在于，所述触发执行引擎运行所述工作流，输出处理结果包括：

6.一种基于内存计算的大数据可视化处理***，其特征在于，包括：

第一获取单元，用于获取用于数据处理的节点；

7.根据权利要求6所述的***，其特征在于，所述第一获取单元具体用于添加和/或删除用于数据处理的节点。

8.根据权利要求7所述的***，其特征在于，所述形成单元包括：

第一生成单元，用于依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。

9.根据权利要求8所述的***，其特征在于，所述形成单元还包括：

10.根据权利要求9所述的***，其特征在于，所述触发单元包括：