CN111625218B - 一种自定义库开发的大数据处理方法及*** - Google Patents
一种自定义库开发的大数据处理方法及*** Download PDFInfo
- Publication number
- CN111625218B CN111625218B CN202010407340.1A CN202010407340A CN111625218B CN 111625218 B CN111625218 B CN 111625218B CN 202010407340 A CN202010407340 A CN 202010407340A CN 111625218 B CN111625218 B CN 111625218B
- Authority
- CN
- China
- Prior art keywords
- data processing
- data
- custom
- custom library
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011161 development Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004891 communication Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000005242 forging Methods 0.000 claims 1
- 238000003032 molecular docking Methods 0.000 claims 1
- 208000022417 sinus histiocytosis with massive lymphadenopathy Diseases 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种自定义库开发的大数据处理方法及***,该方法包括:搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,定义自定义库开发的接口;进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。
Description
技术领域
本发明涉及数据处理技术领域,具体是一种自定义库开发的大数据处理方法及***。
背景技术
移动互联网、社交网络和电子商务极大的扩展了互联网应用的疆界和领域,随着互联网应用的高速发展以及业务持续增长和延伸,我们可收集获取的数据规模在不断增长,这些数据具有数据总量大,数据结构多样化,数据增长率高等特点,是典型的大数据。另一方面,用户在使用这些互联网应用时会持续不断地向服务器请求服务,过程中会产生一系列实时的流式数据。如何高效的处理历史存量大数据和实时增量流式数据,成为现阶段大数据处理领域新的研究方向。
现有技术在处理存量或增量数据时,采用并行云计算开发的ETL工具、基于MapReduce开发的流式数据处理框架、通过实现开源计算框架底层计算原理开发的大数据处理***等,这些都会带来开发难度大,工作量大,技术门槛高等一系列问题。同时基于MapReduce技术框架开发的数据处理***存在性能不高、处理效率低等问题。
而且,现有技术中对于大数据环境中两类数据:存量数据和增量数据是单独一套***来处理,没有进行整合,导致相同数据处理业务逻辑需要针对两类数据场景需要进行重复开发;不支持动态配置数据处理逻辑,存在扩展难,复用率低等问题。
发明内容
针对上述现有技术中的一项或多项问题,本发明提供一种自定义库开发的大数据处理方法及***,支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。
为实现上述目的,本发明提供一种自定义库开发的大数据处理方法,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。
进一步优选的,步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方***之间的数据接入方式;
对于批处理计算,通过SparkContext对接本机文件***或分布式文件***HDFS。
进一步优选的,步骤2具体包括:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
进一步优选的,步骤4具体包括:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
进一步优选的,步骤5中,所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。
为实现上述目的,本发明还提供一种自定义库开发的大数据处理***,包括:
数据接入模块,用于从第三方***或分布式文件***中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块,与数据接入模块通信相连,,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块,与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块,与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块,与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他***。
本发明提供的一种自定义库开发的大数据处理方法及***具有如下有益效果:
1.处理效率高:本发明中的自定义库开发的大数据处理方法及***基于开源计算框架Spark搭建,处理效率和性能方面更优;
2.兼容性高:本发明中的自定义库开发的大数据处理方法及***能兼容大数据环境中的两类数据即存量数据和增量数据,做到统一处理;
3.拓展性强:本发明中的自定义库开发的大数据处理方法及***支持动态配置和开发自定义库,实现对相同数据处理业务逻辑的自定义库的复用,以及通过多个自定义库的组合形成数据处理作业线,减少了开发人员工作量,增强了***的扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例中自定义库开发的大数据处理***的结构示意图;
图2为本发明实施例中自定义库开发的大数据处理方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示为本实施例公开的一种自定义库开发的大数据处理***,其包括数据接入模块、数据预处理模块、自定义库管理模块、数据处理模块与数据输出模块,具体的:
数据接入模块用于从第三方***或分布式文件***中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块与数据接入模块通信相连,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他***,如消息中间件(Kafka)、关系型数据库(MySQL、Oracle)、非关系型数据库(HBase、Redis)、分布式文件***(HDFS)等。
基于图1所示的自定义库开发的大数据处理***,本实施例还公开了一种自定义库开发的大数据处理方法,参考图2,其具体包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口,其具体实现过程如下:
步骤1.1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
步骤1.1.1,初始化SparkConf,设置相关基础参数;
步骤1.1.2,传入SparkConf,创建Spark应用程序的入口SparkContext;
步骤1.1.3,对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与Kafka、Flume等第三方***之间的数据接入方式,接入的数据结构为Discretized Streams(DStreams),它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDDs表示,RDD是Spark对不可变的分布式数据集的抽象;
步骤1.1.4,对于批处理计算,通过SparkContext对接本机文件***或分布式文件***HDFS等,接入的数据结构同样为RDD。
步骤1.2,定义自定义开发库接口,实现开发出的自定义库能兼容流式计算和批处理计算两种计算类型。由于流式计算和批处理计算接入的数据结构都是RDD,因此,定义自定义开发库接口的传入参数为RDD,返回参数类型也为RDD。
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包,其具体实现过程如下:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名,具体的:
先分析此数据处理应用中的数据处理业务逻辑,根据现有开发的自定义库分解成一个个细粒度的处理任务,如果之前没有开发的,回到步骤2,待开发完再回到步骤3。每个细粒度的处理任务其实就对应于每个开发的自定义库,也就是步骤2中输出的Jar包,在配置自定义库信息时,需要配置两个信息,一是该库在这个应用场景的数据处理中的先后顺序,如果是第一个进行处理则配置序号1,以此类推;二是该库在步骤2中实现接口协议的类的全类名即包名+类名。这些配置信息可以存储在关系型数据库中,也可以以文件方式存储在服务器中等。
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点,其具体实现过程如下:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。例如,该工程打成Jar包的文件名为data_process.jar,并且应用的入口即全类名为com.data.process.MainSpark,此应用在步骤4中配置了多个自定义库,库文件名为a_def.jar、b_def.jar等,spark-submit提交命令为:
spark-submit--deploy-mode yarn-cluster--jars a_def.jar,b_def.jar--class com.data.process.MainSparkdata_process.jar
上述spark-submit提交命令的几个参数是必须的,其他性能参数可根据需要添加但不是必须的。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (3)
1.一种自定义库开发的大数据处理方法,其特征在于,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务;
步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方***之间的数据接入方式,接入的数据结构为Discretized Streams,它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流;在内部,DStream由一系列连续的RDDs表示;
对于批处理计算,通过SparkContext对接本机文件***或分布式文件***HDFS,接入的数据结构同样为RDD;
定义自定义开发库接口,实现开发出的自定义库能兼容流式计算和批处理计算两种计算类型,由于流式计算和批处理计算接入的数据结构都是RDD,因此,定义自定义开发库接口的传入参数为RDD,返回参数类型也为RDD;
步骤2具体包括:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包;
步骤3具体包括:
先分析此数据处理应用中的数据处理业务逻辑,根据现有开发的自定义库分解成一个个细粒度的处理任务,如果之前没有开发的,回到步骤2,待开发完再回到步骤3;每个细粒度的处理任务其实就对应于每个开发的自定义库,也就是步骤2中输出的Jar包,在配置自定义库信息时,需要配置两个信息,一是该自定义库在这个应用场景的数据处理中的先后顺序,如果是第一个进行处理则配置序号1,以此类推;二是该自定义库在步骤2中实现接口协议的类的全类名即包名+类名;
步骤4具体包括:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
2.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤5中,所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。
3.一种自定义库开发的大数据处理***,其特征在于,用于权利要求1或2所述的自定义库开发的大数据处理方法,所述***包括:
数据接入模块,用于从第三方***或分布式文件***中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块,与数据接入模块通信相连,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块,与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块,与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块,与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407340.1A CN111625218B (zh) | 2020-05-14 | 2020-05-14 | 一种自定义库开发的大数据处理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407340.1A CN111625218B (zh) | 2020-05-14 | 2020-05-14 | 一种自定义库开发的大数据处理方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625218A CN111625218A (zh) | 2020-09-04 |
CN111625218B true CN111625218B (zh) | 2024-01-09 |
Family
ID=72271923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010407340.1A Active CN111625218B (zh) | 2020-05-14 | 2020-05-14 | 一种自定义库开发的大数据处理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625218B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527885A (zh) * | 2020-12-23 | 2021-03-19 | 民生科技有限责任公司 | 一种etl中基于规则配置的数据处理的***和方法 |
WO2022155920A1 (zh) * | 2021-01-22 | 2022-07-28 | Oppo广东移动通信有限公司 | 信息传输方法、装置、设备及存储介质 |
CN116578281B (zh) * | 2023-07-13 | 2023-11-24 | 江西金发金融信息服务有限公司 | 基于代码包的网页开发方法、***、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
WO2017096940A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种基于spark-SQL大数据处理平台的数据导入方法 |
CN106874016A (zh) * | 2017-03-07 | 2017-06-20 | 长江大学 | 一种新型可定制的大数据平台架构方法 |
CN108874982A (zh) * | 2018-06-11 | 2018-11-23 | 华南理工大学 | 一种基于Spark大数据框架离线实时处理数据的方法 |
CN109684377A (zh) * | 2018-12-13 | 2019-04-26 | 深圳市思迪信息技术股份有限公司 | 通用大数据实时处理开发平台及其数据处理方法 |
CN109829009A (zh) * | 2018-12-28 | 2019-05-31 | 北京邮电大学 | 可配置的异构数据实时同步并可视化的***及方法 |
CN109933306A (zh) * | 2019-02-11 | 2019-06-25 | 山东大学 | 混合计算框架生成、数据处理方法、装置及混合计算框架 |
CN110245175A (zh) * | 2019-06-19 | 2019-09-17 | 山东浪潮商用***有限公司 | 一种基于大数据的可视化加工处理***及方法 |
CN110675254A (zh) * | 2019-08-21 | 2020-01-10 | 武汉华夏航程信息技术有限公司 | 一种基于大数据的智慧金融交易*** |
CN110705891A (zh) * | 2019-10-11 | 2020-01-17 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于高可配可变更的数据处理方法 |
CN110989983A (zh) * | 2019-11-28 | 2020-04-10 | 深圳航天智慧城市***技术研究院有限公司 | 一种零编码的应用软件快速构建*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9092244B2 (en) * | 2012-06-07 | 2015-07-28 | Dell Products, Lp | System for developing custom data transformations for system integration application programs |
US10515097B2 (en) * | 2015-04-06 | 2019-12-24 | EMC IP Holding Company LLC | Analytics platform for scalable distributed computations |
US10394532B2 (en) * | 2015-12-22 | 2019-08-27 | Opera Solutions U.S.A., Llc | System and method for rapid development and deployment of reusable analytic code for use in computerized data modeling and analysis |
US10430167B2 (en) * | 2017-03-22 | 2019-10-01 | Sap Se | Redistribution of data processing tasks |
-
2020
- 2020-05-14 CN CN202010407340.1A patent/CN111625218B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017096940A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种基于spark-SQL大数据处理平台的数据导入方法 |
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
CN106874016A (zh) * | 2017-03-07 | 2017-06-20 | 长江大学 | 一种新型可定制的大数据平台架构方法 |
CN108874982A (zh) * | 2018-06-11 | 2018-11-23 | 华南理工大学 | 一种基于Spark大数据框架离线实时处理数据的方法 |
CN109684377A (zh) * | 2018-12-13 | 2019-04-26 | 深圳市思迪信息技术股份有限公司 | 通用大数据实时处理开发平台及其数据处理方法 |
CN109829009A (zh) * | 2018-12-28 | 2019-05-31 | 北京邮电大学 | 可配置的异构数据实时同步并可视化的***及方法 |
CN109933306A (zh) * | 2019-02-11 | 2019-06-25 | 山东大学 | 混合计算框架生成、数据处理方法、装置及混合计算框架 |
CN110245175A (zh) * | 2019-06-19 | 2019-09-17 | 山东浪潮商用***有限公司 | 一种基于大数据的可视化加工处理***及方法 |
CN110675254A (zh) * | 2019-08-21 | 2020-01-10 | 武汉华夏航程信息技术有限公司 | 一种基于大数据的智慧金融交易*** |
CN110705891A (zh) * | 2019-10-11 | 2020-01-17 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于高可配可变更的数据处理方法 |
CN110989983A (zh) * | 2019-11-28 | 2020-04-10 | 深圳航天智慧城市***技术研究院有限公司 | 一种零编码的应用软件快速构建*** |
Also Published As
Publication number | Publication date |
---|---|
CN111625218A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625218B (zh) | 一种自定义库开发的大数据处理方法及*** | |
CN109074377B (zh) | 用于实时处理数据流的受管理功能执行 | |
CN109716320B (zh) | 用于事件处理的图生成的方法、***、介质和应用处理引擎 | |
Ouyang et al. | Communication optimization strategies for distributed deep neural network training: A survey | |
US11210277B2 (en) | Distributing and processing streams over one or more networks for on-the-fly schema evolution | |
CN104572290A (zh) | 消息处理线程的控制方法及装置 | |
CN111367681B (zh) | 面向云计算集群的高负载状态下的桥梁设计*** | |
WO2015094269A1 (en) | Hybrid flows containing a continuous flow | |
CN103701635A (zh) | 一种在线配置Hadoop参数的方法和装置 | |
CN106227397A (zh) | 基于应用虚拟化技术的计算集群作业管理***及方法 | |
Wang et al. | Transformer: a new paradigm for building data-parallel programming models | |
CN101604323B (zh) | 一种地理空间模型整合与共享的方法及其*** | |
CN117278661B (zh) | 一种工业物联网多协议解析方法及*** | |
CN113177088A (zh) | 一种材料辐照损伤多尺度模拟大数据管理*** | |
CN115774573A (zh) | 应用集成方法、装置、电子设备和存储介质 | |
CN112307270B (zh) | 一种图数据库中图计算方法及装置 | |
Ogboada et al. | A model for optimizing the runtime of GraphQL queries | |
KR20150089693A (ko) | 빅 데이터 플랫폼 기반 데이터 저장 시스템 확장 장치 및 방법 | |
CN100464303C (zh) | 构件化软件***中实现分布式业务逻辑计算的方法 | |
CN114254735A (zh) | 一种基于分布式的僵尸网络模型构建方法和装置 | |
CN113965608A (zh) | 一种数控设备数据收集及指令下发*** | |
CN105975434A (zh) | 面向异构***的数据传输优化方法 | |
Zhang et al. | Enabling multi-physics coupled simulations within the PGAS programming framework | |
Zhang et al. | Xpressspace: a programming framework for coupling partitioned global address space simulation codes | |
Gorton et al. | Reliable parallel software construction using PARSE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |