CN114817390A - 一种基于Sqoop程序的数据处理方法及装置 - Google Patents

一种基于Sqoop程序的数据处理方法及装置 Download PDF

Info

Publication number
CN114817390A
CN114817390A CN202210453776.3A CN202210453776A CN114817390A CN 114817390 A CN114817390 A CN 114817390A CN 202210453776 A CN202210453776 A CN 202210453776A CN 114817390 A CN114817390 A CN 114817390A
Authority
CN
China
Prior art keywords
data table
source data
sqoop
program
map task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210453776.3A
Other languages
English (en)
Inventor
许吉来
罗晓峰
李瑞晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210453776.3A priority Critical patent/CN114817390A/zh
Publication of CN114817390A publication Critical patent/CN114817390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于Sqoop程序的数据处理方法及装置,包括:获取源数据表的参数以及***参数;其中,源数据表的参数包括:源数据表记录数、源数据表字段数;***参数用于指示调用Sqoop程序的***能力;根据源数据表的参数和***参数,确定抽取源数据表时需要配置的Map任务并发数;根据Map任务并发数确定用于抽取源数据表的Map任务,通过Map任务以并发的方式将源数据表中的数据抽取至目标数据表中。可见,本申请通过对Map任务并发数进行调优,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。

Description

一种基于Sqoop程序的数据处理方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种基于Sqoop程序的数据处理方法及装置。
背景技术
Sqoop,是一种在Hadoop大数据技术与关系型数据库之间传输数据的工具。Sqoop启用多个Map任务将数据从关系型数据库管理***(RDBMS)导入Hadoop分布式文件***(HDFS),或者从Hadoop分布式文件***导出数据到关系型数据库。
由于Hadoop与关系型数据库之间传递的数据量大,为缩短数据流转时间,需要提升Sqoop的数据流传效率。在现有技术中,通常在使用Sqoop进行数据抽取时,对Map任务并发数设置为某一固定值,数据抽取效率受到很大限制。因此,如何有效提升Hadoop分布式文件***和关系型数据库之间数据流传效率是一项亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种基于Sqoop程序的数据处理方法及装置,用以实现对Map任务并发数进行调优,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。
其技术方案如下:
第一方面,本申请提供了一种基于Sqoop程序的数据处理方法,包括:
获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;
根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;
根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
优选地,所述***参数,包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
优选地,所述根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数,包括:
通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
Figure BDA0003619886120000021
Figure BDA0003619886120000022
其中,
Figure BDA0003619886120000023
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数,F为Map任务并发数。
优选地,所述根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,包括:
将所述Map任务并发数输入至所述Sqoop程序的参数配置中;
所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
第二方面,本申请提供了一种基于Sqoop程序的数据处理装置,包括:
所述通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中之前,所述方法还包括:
将所述Map任务并发数输入至所述Sqoop程序的参数配置中。
优选地,所述***参数,包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
优选地,所述Map任务并发数计算模块,具体用于通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
Figure BDA0003619886120000024
Figure BDA0003619886120000025
其中,
Figure BDA0003619886120000026
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数。
优选地,所述Sqoop数据抽取模块,具体用于将所述Map任务并发数输入至所述Sqoop程序的参数配置中;所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;当所述一个或多个程序被所述处理器执行时,实现以上任意一项所述方法。
第四方面,本申请提供了一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现以上任意一项所述方法。
上述技术方案具有如下有益效果:
本申请实施例提供的一种基于Sqoop程序的数据处理方法及装置,所述方法包括:获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
可见,本申请实施例中通过对Map任务并发数进行调优,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于Sqoop程序的数据处理方法的流程图;
图2为本发明实施例提供的Sqoop程序数据抽取语句示例示意图;
图3为本发明实施例提供的一种基于Sqoop程序的数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,申请人对本申请实施例中的Sqoop程序和Hadoop分布式文件***进行描述。
Hadoop:Hadoop是一个由Apache基金会所开发的分布式***基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的性能进行高速运算和存储。
Hive(数据仓库工具):Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
HDFS(分布式文件***):Hadoop分布式文件***(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件***(Distributed File System)。
Sqoop:是一种在Hadoop大数据技术与关系型数据库之间传输数据的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
在现有技术中,对于拟抽取的数据表,Map任务并发数均设置为同一静态值,并不考虑该数据表的记录数和字段数,例如,将Map任务并发数固定设置为12,小型数据表进行数据抽取时,数据抽取并未有明显缩短,大型数据表进行数据抽取时,资源相对较长,因此数据抽取时间明显变长,Hadoop资源整体利用率不高,即在现有技术中,通常在使用Sqoop进行数据抽取时,对Map任务并发数设置为某一固定值,数据抽取效率受到很大限制,而且,在实际应用中,Map任务并发数并不是设置的越大越好,这是因为Map任务的启动和销毁也会消耗资源,从而对Hadoop本身也会造成压力。
为了克服上述技术问题,本申请实施例提供了一种基于Sqoop程序的数据处理方法,请参阅图1,为本申请实施例提供的一种基于Sqoop程序的数据处理方法的流程图,该方法可以包括:
步骤S101:获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力。
本申请实施例中,由Sqoop程序获取源数据表的参数以及***参数;其中,源数据表的参数可以包括:源数据表记录数、源数据表字段数;***参数用于指示调用所述Sqoop程序的***能力。
需要说明的是,本申请实施例中源数据表可以来自关系型数据库,也可以来自Hadoop的HDFS。
作为一种优选的实施方式,所述***参数可以包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
需要说明的是,Sqoop程序的并行执行数与关系型数据库所在的服务器的CPU内核数保持一致。例如,在8C 16G的服务器组成的关系型数据库中,Sqoop程序的并行执行数设定为8;在16C 32G的服务器组成的关系型数据库中,Sqoop程序的并行执行数设定为16。
步骤S102:根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数。
本申请实施例中,根据步骤S101获取的源数据表的参数以及***参数,从而确定出抽取源数据表时所需要配置的Map任务并发数。
作为一种优选的实施方式,根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数,可以包括:通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
(1)
Figure BDA0003619886120000051
(2)
Figure BDA0003619886120000061
其中,
Figure BDA0003619886120000062
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数,F为Map任务并发数。
本申请实施例中,首先根据第一个公式
Figure BDA0003619886120000063
计算得出Map任务并发数初始值,然后根据第二个公式
Figure BDA0003619886120000064
对Map任务并发数进行修正。
例如:当源数据表为小型数据表时,假设源数据表记录数为50万,源数据字段表为15,通过公式(1)计算得出Map任务并发数初始值为0.15,然后根据公式(2)将Map任务并发数修正为2。
当源数据表为中型数据表时,假设源数据表记录数为500万,源数据字段表为30,通过公式(1)计算得出Map任务并发数初始值为3,Yarn集群CPU内核总数为483,Sqoop程序的并行执行数为16,Yarn集群节点总数为23,通过公式(2),计算得到Map任务并发数为15,此时,Map任务并发数初始值3满足大于等于2小于等于15,Map任务并发数最后结果为3。
当源数据表为大型数据表时,假设源数据表记录数为5000万,源数据字段表为30,通过公式(1)计算得出Map任务并发数初始值为30,Yarn集群CPU内核总数为483,Sqoop程序的并行执行数为16,Yarn集群节点总数为23,通过公式(2),计算得到Map任务并发数为15,此时Map任务并发数初值需要满足大于等于2小于等于15,Map任务并发数最后结果为15。
本申请实施例中,通过对Map任务并发数进行调优,从而避免出现Map任务并发数过低或者过高的情况,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。
步骤S103:根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
本申请实施例中,根据Map任务并发数确定出Sqoop程序抽取源数据表的Map任务,通过该Map任务以并发的方式将源数据表中的数据抽取至目标数据表中。
需要说明的是,目标数据表中可以来自关系型数据库,也可以来自Hadoop的HDFS。当源数据表来自关系型数据库,则目标数据表来自Hadoop的HDFS,当源数据表来自Hadoop的HDFS,则目标数据表来自关系型数据库。
作为一种优选的实施方式,所述根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,可以包括:将所述Map任务并发数输入至所述Sqoop程序的参数配置中;所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
本申请实施例中,将计算得到的Map任务并发数输入到Sqoop程序的参数配置中,并通过该参数配置确定出抽取源数据表的Map任务。
如图2所示,为Sqoop程序数据抽取语句示例示意图。
从上述技术方案可以看出,本申请实施例提供的一种基于Sqoop程序的数据处理方法及装置,所述方法包括:获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
可见,本申请实施例通过对Map任务并发数进行调优,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。
与上述方法相对应,本发明实施例还提供了一种基于Sqoop程序的数据处理装置,请参阅图3,示出了该装置的结构示意图,可以包括:参数获取模块100,Map任务并发数计算模块200,Sqoop数据抽取模块300。
参数获取模块100,用于获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;
Map任务并发数计算模块200,用于根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;
Sqoop数据抽取模块300,用于根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
可选地,所述***参数,可以包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
可选地,在上述任一实施例的基础上,所述Map任务并发数计算模块,具体用于通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
Figure BDA0003619886120000081
Figure BDA0003619886120000082
其中,
Figure BDA0003619886120000083
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数,F为Map任务并发数。
可选地,在上述任一实施例的基础上,所述Sqoop数据抽取模块,具体用于将所述Map任务并发数输入至所述Sqoop程序的参数配置中;所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
本申请实施例提供了一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;当所述一个或多个程序被所述处理器执行时,实现上述实施例中所述的基于Sqoop程序的数据处理方法。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例中所述的基于Sqoop程序的数据处理方法。
从上述技术方案可以看出,本申请实施例提供的一种基于Sqoop程序的数据处理方法及装置,所述方法包括:获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
可见,本申请实施例通过对Map任务并发数进行调优,缩短了Sqoop程序抽取数据的时间,从而提升了Sqoop程序的抽取数据的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本领域技术人员可以理解,图所示的流程图仅是本申请的实施方式可以在其中得以实现的一个示例,本申请实施方式的适用范围不受到该流程图任何方面的限制。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于Sqoop程序的数据处理方法,其特征在于,所述方法包括:
获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;
根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;
根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
2.根据权利要求1所述的方法,其特征在于,所述***参数,包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数,包括:
通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
Figure FDA0003619886110000011
Figure FDA0003619886110000012
其中,
Figure FDA0003619886110000013
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数,F为Map任务并发数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,包括:
将所述Map任务并发数输入至所述Sqoop程序的参数配置中;
所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
5.一种基于Sqoop程序的数据处理装置,其特征在于,所述装置包括:
参数获取模块,用于获取源数据表的参数以及***参数;其中,所述源数据表的参数包括:源数据表记录数、源数据表字段数;所述***参数用于指示调用所述Sqoop程序的***能力;
Map任务并发数计算模块,用于根据所述源数据表的参数和所述***参数,确定抽取所述源数据表时需要配置的Map任务并发数;
Sqoop数据抽取模块,用于根据所述Map任务并发数确定用于抽取所述源数据表的Map任务,通过所述Map任务以并发的方式将所述源数据表中的数据抽取至目标数据表中。
6.根据权利要求5所述的装置,其特征在于,所述***参数,包括:Yarn集群CPU内核总数、Sqoop程序的并行执行数、Yarn集群节点总数。
7.根据权利要求6所述的装置,其特征在于,所述Map任务并发数计算模块,具体用于通过如下公式,计算得到抽取所述源数据表时需要配置的Map任务并发数:
Figure FDA0003619886110000021
Figure FDA0003619886110000022
其中,
Figure FDA0003619886110000023
符号表示向下取整数,A为源数据表记录数,B为源数据表字段数,X1为单个Map任务的数据处理能力,C为Yarn集群CPU内核总数,X2为Yarn集群运行的组件的并行度,D为Sqoop程序的并行执行数,E为Yarn集群节点总数,F为Map任务并发数。
8.根据权利要求5所述的装置,其特征在于,所述Sqoop数据抽取模块,具体用于将所述Map任务并发数输入至所述Sqoop程序的参数配置中;所述Sqoop程序通过所述参数配置确定用于抽取所述源数据表的Map任务。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-4中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有程序,所述程序被处理器执行时实现权利要求1至4中任一项所述方法。
CN202210453776.3A 2022-04-27 2022-04-27 一种基于Sqoop程序的数据处理方法及装置 Pending CN114817390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210453776.3A CN114817390A (zh) 2022-04-27 2022-04-27 一种基于Sqoop程序的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210453776.3A CN114817390A (zh) 2022-04-27 2022-04-27 一种基于Sqoop程序的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN114817390A true CN114817390A (zh) 2022-07-29

Family

ID=82509846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210453776.3A Pending CN114817390A (zh) 2022-04-27 2022-04-27 一种基于Sqoop程序的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN114817390A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
US20160188638A1 (en) * 2014-12-30 2016-06-30 Teradata Us, Inc. Apparatus and method for managing usage of a database system resources by concurrent database users of a database system
WO2017097124A1 (zh) * 2015-12-07 2017-06-15 阿里巴巴集团控股有限公司 基于分库分表的任务传输方法、装置及***
CN106970921A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 一种数据迁移方法及装置
CN110135184A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 一种静态数据脱敏的方法、装置、设备及存储介质
CN110399209A (zh) * 2019-07-26 2019-11-01 中国工商银行股份有限公司 数据处理方法、***、电子设备和存储介质
WO2020238597A1 (zh) * 2019-05-27 2020-12-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、***及介质
US11144363B1 (en) * 2017-09-18 2021-10-12 Amazon Technologies, Inc. Workflow management system
CN113779151A (zh) * 2021-09-14 2021-12-10 中国农业银行股份有限公司 一种大数据流转方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
US20160188638A1 (en) * 2014-12-30 2016-06-30 Teradata Us, Inc. Apparatus and method for managing usage of a database system resources by concurrent database users of a database system
WO2017097124A1 (zh) * 2015-12-07 2017-06-15 阿里巴巴集团控股有限公司 基于分库分表的任务传输方法、装置及***
CN106970921A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 一种数据迁移方法及装置
US11144363B1 (en) * 2017-09-18 2021-10-12 Amazon Technologies, Inc. Workflow management system
CN110135184A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 一种静态数据脱敏的方法、装置、设备及存储介质
WO2020238597A1 (zh) * 2019-05-27 2020-12-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、***及介质
CN110399209A (zh) * 2019-07-26 2019-11-01 中国工商银行股份有限公司 数据处理方法、***、电子设备和存储介质
CN113779151A (zh) * 2021-09-14 2021-12-10 中国农业银行股份有限公司 一种大数据流转方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨彬;: "Sqoop数据收集与入库***的应用", 电子制作, 1 November 2017 (2017-11-01) *

Similar Documents

Publication Publication Date Title
US20210374610A1 (en) Efficient duplicate detection for machine learning data sets
JP6617117B2 (ja) 半構造データのためのスケーラブルな分析プラットフォーム
CN103748579B (zh) 在映射化简框架中处理数据
CN106897322B (zh) 一种数据库和文件***的访问方法和装置
US10339465B2 (en) Optimized decision tree based models
US10318882B2 (en) Optimized training of linear machine learning models
US20180285418A1 (en) Executing queries for structured data and not-structured data
US11182691B1 (en) Category-based sampling of machine learning data
Slagter et al. An improved partitioning mechanism for optimizing massive data analysis using MapReduce
US9348677B2 (en) System and method for batch evaluation programs
CN108536761A (zh) 报表数据查询方法及服务器
EP3828723A1 (en) Transparent discovery of semi-structured data schema
Lin et al. Full-text indexing for optimizing selection operations in large-scale data analytics
US20120130942A1 (en) OLAP Execution Model Using Relational Operations
CN107729423B (zh) 一种大数据处理方法及装置
CN110442602B (zh) 数据查询方法、装置、服务器及存储介质
US9600559B2 (en) Data processing for database aggregation operation
Gao et al. Handling data skew in MapReduce cluster by using partition tuning
CN111492344A (zh) 用于监测结构化查询语言(sql)查询的执行的***和方法
CN113297458A (zh) 一种分页查询方法、装置和设备
CN106599253A (zh) 一种采用NoSQL数据库实现分布式计算的方法
CN110704472A (zh) 数据查询统计方法及装置
WO2023197865A1 (zh) 一种信息存储方法及装置
Näsholm Extracting data from nosql databases-a step towards interactive visual analysis of nosql data
CN114817390A (zh) 一种基于Sqoop程序的数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination