CN105912588A - 一种基于内存计算的大数据可视化处理方法及*** - Google Patents

一种基于内存计算的大数据可视化处理方法及*** Download PDF

Info

Publication number
CN105912588A
CN105912588A CN201610203223.7A CN201610203223A CN105912588A CN 105912588 A CN105912588 A CN 105912588A CN 201610203223 A CN201610203223 A CN 201610203223A CN 105912588 A CN105912588 A CN 105912588A
Authority
CN
China
Prior art keywords
node
data
parameter
workflow
internal memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610203223.7A
Other languages
English (en)
Inventor
赵维平
刘龙
王鑫毅
钟新斌
于雪龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201610203223.7A priority Critical patent/CN105912588A/zh
Publication of CN105912588A publication Critical patent/CN105912588A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于内存计算的大数据可视化处理方法,包括:获取用于数据处理的节点;依据数据处理需求连接所述节点,设置所述节点参数,形成工作流;触发执行引擎运行所述工作流,输出处理结果。本发明将传统数据分析过程进行封装,使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作,将计算过程和结果放置在内存中,为用户提供了更敏捷、易用的使用体验。本发明还公开了一种基于内存计算的大数据可视化处理***。

Description

一种基于内存计算的大数据可视化处理方法及***
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于内存计算的大数据可视化处理方法及***。
背景技术
在互联网的浪潮下,金融行业也进入大数据时代。面对迅速增长的数据量,如何从积累的数据中发掘有用的信息,进而利用其进行进一步的辅助经营、客户营销、欺诈检测、降低成本等成为金融行业面临的挑战和问题。
目前,在对数据进行处理的过程中,用户需要编写程序代码进行处理和分析数据的操作,对用户要求门槛较高,且人工编写程序容易出错,时间成本较高,程序很难复用,对于程序或者参数进行调整后,需要在整个原始数据上执行,不能对一些可复用的中间数据结果进行复用。
发明内容
本发明提供了一种基于内存计算的大数据可视化处理方法,将传统数据分析过程进行封装,使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作,将计算过程和结果放置在内存中,为用户提供了更敏捷、易用的使用体验。
本发明提供了一种基于内存计算的大数据可视化处理方法,包括:
获取用于数据处理的节点;
依据数据处理需求连接所述节点,设置所述节点参数,形成工作流;
触发执行引擎运行所述工作流,输出处理结果。
优选地,所述获取用于数据处理的节点具体为:
添加和/或删除用于数据处理的节点。
优选地,所述依据数据处理需求连接节点包括:
获取触发第一节点至第二节点的运行轨迹;
依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。
优选地,所述设置所述节点参数包括:
设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。
优选地,所述触发执行引擎运行所述工作流,输出处理结果包括:
解析所述工作流,根据节点的连接顺序定义节点间相互依赖关系;
依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
将所述代码分发到内存计算集群中进行执行,输出执行结果。
一种基于内存计算的大数据可视化处理***,包括:
第一获取单元,用于获取用于数据处理的节点;
形成单元,用于依据数据处理需求连接所述节点,设置所述节点参数,形成工作流;
触发单元,用于触发执行引擎运行所述工作流,输出处理结果。
优选地,所述第一获取单元具体用于添加和/或删除用于数据处理的节点。
优选地,所述形成单元包括:
第二获取单元,用于获取触发第一节点至第二节点的运行轨迹;
第一生成单元,依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。
优选地,所述形成单元还包括:
设置单元,用于设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。
优选地,所述触发单元包括:
解析单元,用于解析所述工作流,根据节点的连接顺序定义节点间相互依赖关系;
第二生成单元,用于依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
执行单元,用于将所述代码分发到内存计算集群中进行执行,输出执行结果。
由上述方案可知,本发明提供的一种基于内存计算的大数据可视化处理方法,通过获取用于数据处理的节点,并根据数据处理的需求连接节点,设置节点参数,生成工作流,然后触发执行引擎运行生成的工作流,输出数据处理结果,使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作,通过执行引擎将计算过程和结果放置在内存中,为用户提供了更敏捷、易用的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一公开的一种基于内存计算的大数据可视化处理方法的流程图;
图2为本发明实施例二公开的一种基于内存计算的大数据可视化处理方法的流程图;
图3为本发明实施例一公开的一种基于内存计算的大数据可视化处理***的结构示意图;
图4为本发明实施例二公开的一种基于内存计算的大数据可视化处理***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一公开的一种基于内存计算的大数据可视化处理方法,包括:
S101、获取用于数据处理的节点;
当需要对大数据进行数据处理时,根据数据处理的需求选择相应的节点,获取的每个节点都承担着数据处理任务,每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型,包括每条记录的每类的名字,每列的角色,以及每列的数据类型。节点保存着一个标志位,标志其所对应的数据集是否为最新和有效的。
节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中:输入输出节点定义数据的来源以及要导出的位置,支持多种存储编码、格式和方式。
基本处理节点包括Filter节点、Union节点、Map节点、FlapMap节点、ReduceByKey节点、Join节点、Sample节点。
Filter节点实现按照用户定义的条件进行过滤,结果为满足特定条件的数据集。
Union节点对两个结构一致的数据集进行联合操作,结果为两个输入数据集的合集。
Map节点对输入数据集中的每个元素都执行一个特定的函数来产生一个新的数据集。任何原数据集中的元素在新数据集中都有且只有一个元素与之对应。
FlatMap节点与Map节点类似,输入数据集中的一个元素经FlatMap处理后可生成多个元素来构建新的数据集,可用于宽表拆分等操作。
ReduceByKey节点对应一个二元操作,对由(键,值)对形式的元素组成的数据集进行操作,将键相同的元素的值传入输入函数,同时产生一个新的值,新产生的值与数据集中下一个元素再进行相同操作,直到一个键只有一个值为止。
Join节点提供两个数据集的自然连接操作。
Sample节点按照用户设定的采用比例,进行有放回的或无放回的随机采样,输出为采用的结果数据集。
数据挖掘节点包括K-Means、Naive Bayes等实现数据挖掘算法的节点。
S102、依据数据处理需求连接节点,设置节点参数,形成工作流;
获取到用于数据处理的节点后,依据数据处理的需求对节点进行连接,不同的节点连接表示不同的数据处理过程,同时对获取的节点依据节点的属性进行相应的参数设置,形成工作流。工作流是一个有向无环图,由节点和带箭头的连线组成,每条连线连接着两个不同的节点。
S103、触发执行引擎运行工作流,输出处理结果。
形成工作流后,基于内存计算触发执行引擎对工作流进行运行,最终输出数据处理结果。
综上所述,在上述实施例中,通过获取用于数据处理的节点,并根据数据处理的需求连接节点,设置节点参数,生成工作流,然后触发执行引擎运行生成的工作流,输出数据处理结果,使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作,通过执行引擎将计算过程和结果放置在内存中,为用户提供了更敏捷、易用的使用体验。
如图2所示,为本发明实施例二公开的一种基于内存计算的大数据可视化处理方法,包括:
S201、添加和/或删除用于数据处理的节点;
当需要对大数据进行数据处理时,根据数据处理的需求,通过添加和/或删除的方式选择相应的节点。获取的每个节点都承担着数据处理任务,每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型,包括每条记录的每类的名字,每列的角色,以及每列的数据类型。节点保存着一个标志位,标志其所对应的数据集是否为最新和有效的。
节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中:输入输出节点定义数据的来源以及要导出的位置,支持多种存储编码、格式和方式。
基本处理节点包括Filter节点、Union节点、Map节点、FlapMap节点、ReduceByKey节点、Join节点、Sample节点。
Filter节点实现按照用户定义的条件进行过滤,结果为满足特定条件的数据集。
Union节点对两个结构一致的数据集进行联合操作,结果为两个输入数据集的合集。
Map节点对输入数据集中的每个元素都执行一个特定的函数来产生一个新的数据集。任何原数据集中的元素在新数据集中都有且只有一个元素与之对应。
FlatMap节点与Map节点类似,输入数据集中的一个元素经FlatMap处理后可生成多个元素来构建新的数据集,可用于宽表拆分等操作。
ReduceByKey节点对应一个二元操作,对由(键,值)对形式的元素组成的数据集进行操作,将键相同的元素的值传入输入函数,同时产生一个新的值,新产生的值与数据集中下一个元素再进行相同操作,直到一个键只有一个值为止。
Join节点提供两个数据集的自然连接操作。
Sample节点按照用户设定的采用比例,进行有放回的或无放回的随机采样,输出为采用的结果数据集。
数据挖掘节点包括K-Means、Naive Bayes等实现数据挖掘算法的节点。
S202、获取触发第一节点至第二节点的运行轨迹;
获取到用于数据处理的节点后,用户根据数据处理的需求,通过托拽的可视化的编辑界面定义节点之间的连线,即获取触发第一节点至第二节点的运行轨迹。
S203、依据运行轨迹生成第一节点至所述第二节点的单向箭头;
依据用户托拽的运行轨迹生成第一节点至第二节点的单向箭头。
S204、设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数,形成工作流;
然后对每个节点的形状的描述、颜色、位置、路径、元信息和数据挖掘算法进行参数设置,形成数据处理的工作流。在实现中,工作流是JSON格式的数据,每个节点和带箭头的连线都有一个id,连线中记录着所连接的两个节点的id。
S205、解析工作流,根据节点的连接顺序定义节点间相互依赖关系;
形成工作流后,执行引擎第一步完成从工作流的逻辑模型到可执行代码的转换。首先对工作流进行解析,根据节点的连接顺序定义节点间的相互依赖关系。
S206、依据节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
然后根据节点的依赖关系、节点的元信息和用户定义的节点参数,生成内存计算框架可执行的代码。
S207、将代码分发到内存计算集群中进行执行,输出执行结果。
执行引擎第二步将之前生成的代码分发到内存计算集群中进行实际执行,每个节点对于的临时结果作为整个执行流程的中间结果,会根据需要或者用户设置存储在内存中,以便加速下次处理。
在实际的数据处理过程中,用户可通过对工作流进行修改,实现快速调整数据处理和分析流程,具体可通过添加、删除节点或改变节点连接,来改变工作流的拓扑结构,或修改节点参数,或修改输入数据,标志节点有效性的标志位同时改变,执行引擎执行时,根据内存中中间临时结果的有效性,选择性的执行和更新中间临时结果,对于没有受到修改工作流影响的节点,执行引擎直接引用之前结果而不会再次执行。
综上所述,在上述实施例中,以浏览器作为用户操作的载体,不需要额外安装客户端软件,易于在用户间推广。将编写代码处理数据方式进行了抽象和提升,提供可视化的、通过拖拽形成工作流的方式,极大提升了易用性,降低数据分析的门槛。基于内存计算,每个节点对应的中间数据结果都缓存在内存中,对分析过程调整时可迅速得到结果。可对工作流节点进行扩充,支持更多的数据操作和算法,顺应大数据处理和互联网金融的趋势。
如图3所示,为本发明实施例一公开的一种基于内存计算的大数据可视化处理***,包括:
第一获取单元301,用于获取用于数据处理的节点;
当需要对大数据进行数据处理时,根据数据处理的需求选择相应的节点,获取的每个节点都承担着数据处理任务,每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型,包括每条记录的每类的名字,每列的角色,以及每列的数据类型。节点保存着一个标志位,标志其所对应的数据集是否为最新和有效的。
节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中,输入输出节点定义数据的来源以及要导出的位置,支持多种存储编码、格式和方式。
基本处理节点包括Filter节点、Union节点、Map节点、FlapMap节点、ReduceByKey节点、Join节点、Sample节点。
Filter节点实现按照用户定义的条件进行过滤,结果为满足特定条件的数据集。
Union节点对两个结构一致的数据集进行联合操作,结果为两个输入数据集的合集。
Map节点对输入数据集中的每个元素都执行一个特定的函数来产生一个新的数据集。任何原数据集中的元素在新数据集中都有且只有一个元素与之对应。
FlatMap节点与Map节点类似,输入数据集中的一个元素经FlatMap处理后可生成多个元素来构建新的数据集,可用于宽表拆分等操作。
ReduceByKey节点对应一个二元操作,对由(键,值)对形式的元素组成的数据集进行操作,将键相同的元素的值传入输入函数,同时产生一个新的值,新产生的值与数据集中下一个元素再进行相同操作,直到一个键只有一个值为止。
Join节点提供两个数据集的自然连接操作。
Sample节点按照用户设定的采用比例,进行有放回的或无放回的随机采样,输出为采用的结果数据集。
数据挖掘节点包括K-Means、Naive Bayes等实现数据挖掘算法的节点。
形成单元302,用于依据数据处理需求连接节点,设置节点参数,形成工作流;
获取到用于数据处理的节点后,依据数据处理的需求对节点进行连接,不同的节点连接表示不同的数据处理过程,同时对获取的节点依据节点的属性进行相应的参数设置,形成工作流。工作流是一个有向无环图,由节点和带箭头的连线组成,每条连线连接着两个不同的节点。
触发单元303,用于触发执行引擎运行工作流,输出处理结果。
形成工作流后,基于内存计算触发执行引擎对工作流进行运行,最终输出数据处理结果。
综上所述,在上述实施例中,通过获取用于数据处理的节点,并根据数据处理的需求连接节点,设置节点参数,生成工作流,然后触发执行引擎运行生成的工作流,输出数据处理结果,使用可视化的可拖拽编辑的工作流进行数据处理和挖掘工作,通过执行引擎将计算过程和结果放置在内存中,为用户提供了更敏捷、易用的使用体验。
如图4所示,为本发明实施例二公开的一种基于内存计算的大数据可视化处理***,包括:
第一获取单元401,用于添加和/或删除用于数据处理的节点;
当需要对大数据进行数据处理时,根据数据处理的需求,通过添加和/或删除的方式选择相应的节点。获取的每个节点都承担着数据处理任务,每个节点都存储着其对应的输出数据集的元信息。元信息保存数据的数据结构和类型,包括每条记录的每类的名字,每列的角色,以及每列的数据类型。节点保存着一个标志位,标志其所对应的数据集是否为最新和有效的。
节点按功能可分为输入输出节点、基本处理节点和数据挖掘节点。其中,输入输出节点定义数据的来源以及要导出的位置,支持多种存储编码、格式和方式。
基本处理节点包括Filter节点、Union节点、Map节点、FlapMap节点、ReduceByKey节点、Join节点、Sample节点。
Filter节点实现按照用户定义的条件进行过滤,结果为满足特定条件的数据集。
Union节点对两个结构一致的数据集进行联合操作,结果为两个输入数据集的合集。
Map节点对输入数据集中的每个元素都执行一个特定的函数来产生一个新的数据集。任何原数据集中的元素在新数据集中都有且只有一个元素与之对应。
FlatMap节点与Map节点类似,输入数据集中的一个元素经FlatMap处理后可生成多个元素来构建新的数据集,可用于宽表拆分等操作。
ReduceByKey节点对应一个二元操作,对由(键,值)对形式的元素组成的数据集进行操作,将键相同的元素的值传入输入函数,同时产生一个新的值,新产生的值与数据集中下一个元素再进行相同操作,直到一个键只有一个值为止。
Join节点提供两个数据集的自然连接操作。
Sample节点按照用户设定的采用比例,进行有放回的或无放回的随机采样,输出为采用的结果数据集。
数据挖掘节点包括K-Means、Naive Bayes等实现数据挖掘算法的节点。
第二获取单元402,用于获取触发第一节点至第二节点的运行轨迹;
获取到用于数据处理的节点后,用户根据数据处理的需求,通过托拽的可视化的编辑界面定义节点之间的连线,即获取触发第一节点至第二节点的运行轨迹。
第一生成单元403,用于依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头;
依据用户托拽的运行轨迹生成第一节点至第二节点的单向箭头。
设置单元404,用于设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数,形成工作流;
然后对每个节点的形状的描述、颜色、位置、路径、元信息和数据挖掘算法进行参数设置,形成数据处理的工作流。在实现中,工作流是JSON格式的数据,每个节点和带箭头的连线都有一个id,连线中记录着所连接的两个节点的id。
解析单元405,用于解析所述工作流,根据节点的连接顺序定义节点间相互依赖关系;
形成工作流后,执行引擎第一步完成从工作流的逻辑模型到可执行代码的转换。首先对工作流进行解析,根据节点的连接顺序定义节点间的相互依赖关系。
第二生成单元406,用于依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
然后根据节点的依赖关系、节点的元信息和用户定义的节点参数,生成内存计算框架可执行的代码。
执行单元407,用于将所述代码分发到内存计算集群中进行执行,输出执行结果。
执行引擎第二步将之前生成的代码分发到内存计算集群中进行实际执行,每个节点对于的临时结果作为整个执行流程的中间结果,会根据需要或者用户设置存储在内存中,以便加速下次处理。
在实际的数据处理过程中,用户可通过对工作流进行修改,实现快速调整数据处理和分析流程,具体可通过添加、删除节点或改变节点连接,来改变工作流的拓扑结构,或修改节点参数,或修改输入数据,标志节点有效性的标志位同时改变,执行引擎执行时,根据内存中中间临时结果的有效性,选择性的执行和更新中间临时结果,对于没有受到修改工作流影响的节点,执行引擎直接引用之前结果而不会再次执行。
综上所述,在上述实施例中,以浏览器作为用户操作的载体,不需要额外安装客户端软件,易于在用户间推广。将编写代码处理数据方式进行了抽象和提升,提供可视化的、通过拖拽形成工作流的方式,极大提升了易用性,降低数据分析的门槛。基于内存计算,每个节点对应的中间数据结果都缓存在内存中,对分析过程调整时可迅速得到结果。可对工作流节点进行扩充,支持更多的数据操作和算法,顺应大数据处理和互联网金融的趋势。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于内存计算的大数据可视化处理方法,其特征在于,包括:
获取用于数据处理的节点;
依据数据处理需求连接所述节点,设置所述节点参数,形成工作流;
触发执行引擎运行所述工作流,输出处理结果。
2.根据权利要求1所述的方法,其特征在于,所述获取用于数据处理的节点具体为:
添加和/或删除用于数据处理的节点。
3.根据权利要求2所述的方法,其特征在于,所述依据数据处理需求连接节点包括:
获取触发第一节点至第二节点的运行轨迹;
依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。
4.根据权利要求3所述的方法,其特征在于,所述设置所述节点参数包括:
设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。
5.根据权利要求4所述的方法,其特征在于,所述触发执行引擎运行所述工作流,输出处理结果包括:
解析所述工作流,根据节点的连接顺序定义节点间相互依赖关系;
依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
将所述代码分发到内存计算集群中进行执行,输出执行结果。
6.一种基于内存计算的大数据可视化处理***,其特征在于,包括:
第一获取单元,用于获取用于数据处理的节点;
形成单元,用于依据数据处理需求连接所述节点,设置所述节点参数,形成工作流;
触发单元,用于触发执行引擎运行所述工作流,输出处理结果。
7.根据权利要求6所述的***,其特征在于,所述第一获取单元具体用于添加和/或删除用于数据处理的节点。
8.根据权利要求7所述的***,其特征在于,所述形成单元包括:
第二获取单元,用于获取触发第一节点至第二节点的运行轨迹;
第一生成单元,用于依据所述运行轨迹生成所述第一节点至所述第二节点的单向箭头。
9.根据权利要求8所述的***,其特征在于,所述形成单元还包括:
设置单元,用于设置节点形状的描述参数、颜色参数、位置参数、路径参数、元信息参数和数据挖掘算法参数。
10.根据权利要求9所述的***,其特征在于,所述触发单元包括:
解析单元,用于解析所述工作流,根据节点的连接顺序定义节点间相互依赖关系;
第二生成单元,用于依据所述节点依赖关系、节点元信息和节点参数生成内存计算框架可执行的代码;
执行单元,用于将所述代码分发到内存计算集群中进行执行,输出执行结果。
CN201610203223.7A 2016-03-31 2016-03-31 一种基于内存计算的大数据可视化处理方法及*** Pending CN105912588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610203223.7A CN105912588A (zh) 2016-03-31 2016-03-31 一种基于内存计算的大数据可视化处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610203223.7A CN105912588A (zh) 2016-03-31 2016-03-31 一种基于内存计算的大数据可视化处理方法及***

Publications (1)

Publication Number Publication Date
CN105912588A true CN105912588A (zh) 2016-08-31

Family

ID=56745106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610203223.7A Pending CN105912588A (zh) 2016-03-31 2016-03-31 一种基于内存计算的大数据可视化处理方法及***

Country Status (1)

Country Link
CN (1) CN105912588A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451663A (zh) * 2017-07-06 2017-12-08 阿里巴巴集团控股有限公司 算法组件化、基于算法组件建模方法、装置以及电子设备
CN107967359A (zh) * 2017-12-21 2018-04-27 百度在线网络技术(北京)有限公司 数据可视分析方法、***、终端和计算机可读存储介质
CN108874487A (zh) * 2018-06-13 2018-11-23 北京九章云极科技有限公司 基于工作流的数据分析处理方法及***
CN109743202A (zh) * 2018-12-26 2019-05-10 中国联合网络通信集团有限公司 数据的管理方法、装置、设备及可读存储介质
CN109992249A (zh) * 2019-03-06 2019-07-09 北京国舜科技股份有限公司 一种流式数据流程操作方法及***
CN110727729A (zh) * 2018-06-29 2020-01-24 贵州白山云科技股份有限公司 一种实现智能运算的方法及装置
CN116302513A (zh) * 2023-02-28 2023-06-23 易方达基金管理有限公司 量化因子的处理方法、装置、计算机设备和可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN102279888A (zh) * 2011-08-24 2011-12-14 北京新媒传信科技有限公司 一种任务调度方法和***
CN103064875A (zh) * 2012-10-30 2013-04-24 中国标准化研究院 一种服务化空间数据分布式查询方法
CN103440553A (zh) * 2013-08-28 2013-12-11 复旦大学 面向蛋白质组学数据分析的基于provenance的工作流匹配和发现***
CN103647834A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种用于处理多阶段分布式任务调度的***及方法
CN103778201A (zh) * 2014-01-10 2014-05-07 国网信通亿力科技有限责任公司 基于流程模型配置的大屏可视化展示***及方法
CN104679482A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 基于osgi的etl处理装置及方法
CN104834995A (zh) * 2015-04-20 2015-08-12 安徽师范大学 基于云计算的工作流双向调度方法
CN105260237A (zh) * 2015-09-29 2016-01-20 中南大学 异构多核平台的任务调度***及其调度方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN102279888A (zh) * 2011-08-24 2011-12-14 北京新媒传信科技有限公司 一种任务调度方法和***
CN103064875A (zh) * 2012-10-30 2013-04-24 中国标准化研究院 一种服务化空间数据分布式查询方法
CN103440553A (zh) * 2013-08-28 2013-12-11 复旦大学 面向蛋白质组学数据分析的基于provenance的工作流匹配和发现***
CN104679482A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 基于osgi的etl处理装置及方法
CN103647834A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种用于处理多阶段分布式任务调度的***及方法
CN103778201A (zh) * 2014-01-10 2014-05-07 国网信通亿力科技有限责任公司 基于流程模型配置的大屏可视化展示***及方法
CN104834995A (zh) * 2015-04-20 2015-08-12 安徽师范大学 基于云计算的工作流双向调度方法
CN105260237A (zh) * 2015-09-29 2016-01-20 中南大学 异构多核平台的任务调度***及其调度方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451663A (zh) * 2017-07-06 2017-12-08 阿里巴巴集团控股有限公司 算法组件化、基于算法组件建模方法、装置以及电子设备
CN107967359A (zh) * 2017-12-21 2018-04-27 百度在线网络技术(北京)有限公司 数据可视分析方法、***、终端和计算机可读存储介质
US11216353B2 (en) 2017-12-21 2022-01-04 Baidu Online Network Technology (Beijing) Co., Ltd. Data visual analysis method, system and terminal and computer readable storage medium
CN108874487A (zh) * 2018-06-13 2018-11-23 北京九章云极科技有限公司 基于工作流的数据分析处理方法及***
CN110727729A (zh) * 2018-06-29 2020-01-24 贵州白山云科技股份有限公司 一种实现智能运算的方法及装置
CN109743202A (zh) * 2018-12-26 2019-05-10 中国联合网络通信集团有限公司 数据的管理方法、装置、设备及可读存储介质
CN109992249A (zh) * 2019-03-06 2019-07-09 北京国舜科技股份有限公司 一种流式数据流程操作方法及***
CN116302513A (zh) * 2023-02-28 2023-06-23 易方达基金管理有限公司 量化因子的处理方法、装置、计算机设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN105912588A (zh) 一种基于内存计算的大数据可视化处理方法及***
US11979433B2 (en) Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds
CN102239458B (zh) 可视化数据元素之间的关系
CN103853821B (zh) 一种面向多用户协作的数据挖掘平台的构建方法
CN104573063A (zh) 一种基于大数据的数据分析方法
TW202326537A (zh) 反欺詐風險評估方法、訓練方法、裝置及可讀存儲介質
CN102693317B (zh) 数据挖掘流程生成方法及装置
CN112749194A (zh) 可视化的数据处理方法、装置、电子设备及可读存储介质
CN112199086A (zh) 自动编程控制***、方法、装置、电子设备及存储介质
CN114598631B (zh) 面向神经网络计算的分布式数据路由的建模方法和装置
CA2884365A1 (en) Graphically representing programming attributes
CN104102702A (zh) 一种实现软硬件结合的面向应用的大数据***及方法
CN105988933A (zh) 界面可操作节点识别方法、应用测试方法、装置及***
CN105335368A (zh) 一种产品聚类方法及装置
US20150294050A1 (en) Method, Apparatus and System for Improved Groundwater Modeling
CN110968620A (zh) 一种敏捷数据分析方法
CN113722564A (zh) 基于空间图卷积能源物资供应链的可视化方法及装置
CN113297300A (zh) 数据表布局视图生成方法和装置,数据表输出方法和装置
CN114359484A (zh) 模型目录树重组方法、装置、计算机设备和存储介质
WO2010132986A1 (en) Method, apparatus and system for improved groundwater modeling
WO2020005274A1 (en) Tracking a topology optimization to construct an editable topology
CN108520006A (zh) 一种基于管道筛选的数据挖掘方法
CN107704565A (zh) 一种等值体生成方法、装置及***
Baker et al. Computational advances and data analytics to reduce subsurface uncertainty
CN105101475A (zh) 一种识别无线局域网wlan***的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831

RJ01 Rejection of invention patent application after publication