CN110209662A - 一种自动化加载数据的方法和装置 - Google Patents

一种自动化加载数据的方法和装置 Download PDF

Info

Publication number
CN110209662A
CN110209662A CN201810149117.4A CN201810149117A CN110209662A CN 110209662 A CN110209662 A CN 110209662A CN 201810149117 A CN201810149117 A CN 201810149117A CN 110209662 A CN110209662 A CN 110209662A
Authority
CN
China
Prior art keywords
data
object table
interim
database
indication field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810149117.4A
Other languages
English (en)
Inventor
任文治
袁建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810149117.4A priority Critical patent/CN110209662A/zh
Publication of CN110209662A publication Critical patent/CN110209662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了自动化加载数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取数据源,以导入数据库中的临时表;读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;根据所述标示字段,将所述临时表中的数据写入目标表中。该实施方式能够解决现有技术中加载数据时效性无法保证,数据准确性和安全性差的问题。

Description

一种自动化加载数据的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种自动化加载数据的方法和装置。
背景技术
目前,在流量数据解析中有很多业务数据无法从***中直接拿到,需要手动处理后再人工添加到文件***中。具体地,新的流量数据需要手动整理成hive(是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。)表格式的数据集,然后备份仓库中表数据,并且需要手动删除备份仓库中hdfs(Hadoop Distributed File System分布式文件***)下的数据,且需要手动把最新数据put到hdfs路径下。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
在加载业务数据过程中由于采用的都是人工处理,所以很多时候无法保证时效性,也影响数据准确性和安全性。
发明内容
有鉴于此,本发明实施例提供一种自动化加载数据的方法和装置,可以解决现有技术中加载业务数据时效性无法保证,数据准确性和安全性差的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种自动化加载数据的方法,包括:获取数据源,以导入数据库中的临时表;读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;根据所述标示字段,将所述临时表中的数据写入目标表中。
可选地,所述获取数据源,以导入数据库中的临时表,包括:读取外部数据源,对不同格式的数据源进行解析;将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。
可选地,对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。
可选地,所述读取所述分区数据对应数据源中预设的标示字段之前,还包括:缓存当前数据库的目标表文件大小;
所述对执行相应操作的数据库中目标表进行校验,包括:比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
可选地,根据所述标示字段,将所述临时表中的数据写入目标表中,包括:如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;
如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
可选地,根据所述标示字段,将所述临时表中的数据写入目标表中,包括:如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
另外,根据本发明实施例的一个方面,提供了一种自动化加载数据的装置,包括导入模块,用于获取数据源,以导入数据库中的临时表;读取模块,用于读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;执行模块,用于根据所述标示字段,将所述临时表中的数据写入目标表中。
可选地,所述导入模块获取数据源,以导入数据库中的临时表时,包括:读取外部数据源,对不同格式的数据源进行解析;将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。
可选地,所述执行模块,还用于:对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。
可选地,所述读取模块读取所述分区数据对应数据源中预设的标示字段之前,还包括:缓存当前数据库的目标表文件大小;
所述执行模块对执行相应操作的数据库中目标表进行校验,包括:比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
可选地,所述执行模块根据所述标示字段,将所述临时表中的数据写入目标表中,包括:如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
可选地,所述执行模块根据所述标示字段,将所述临时表中的数据写入目标表中,包括:如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一自动化加载数据的实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一自动化加载数据的实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用了获取数据源,以导入数据库中的临时表;读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;根据所述标示字段,将所述临时表中的数据写入目标表中的技术手段,所以避免了在业务数据加载过程中数据的暴露,且实现了自动化业务数据的加载。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的自动化加载数据的方法的主要流程的示意图;
图2是根据本发明可参考实施例的自动化加载数据的方法的主要流程的示意图;
图3是根据本发明实施例的自动化加载数据的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性***架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的自动化加载数据的方法,如图1所示,所述自动化加载数据的方法包括:
步骤S101,获取数据源,以导入数据库中的临时表。
在实施例中,可以读取外部数据源,对不同格式的数据源进行解析。然后将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。较佳地,读取外部数据源之后可以经过不同数据接口对不同数据源的格式进行数据解析,把数据处理成数据库可读取格式。
步骤S102,读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段。
较佳地,预设时间内可以设定为当天,当然也可以是其他时间段。
另外,在获取的数据源中,每条数据都预设有标示字段,所述标示字段记录该条数据进行的操作种类。
步骤S103,根据所述标示字段,将所述临时表中的数据写入目标表中。具体的实施过程包括:
如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
作为本发明的另一个实施例,在执行完步骤S103后,还可以对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。具体的实施过程包括:
在执行步骤S102读取所述分区数据对应数据源中预设的标示字段之前缓存当前数据库的目标表文件大小,而在执行完步骤S103后,比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
根据上面的各种实施例,可以看出所述的自动化加载数据的方法,数据不直接面向技术人员,且不会对外公开、暴露,保证了数据的安全性,同时实现了自动化的数据上传、更新,保证了其准确性,另外为了更精准,还对加载后的数据进行校验。
图2是根据本发明可参考实施例的自动化加载数据的方法的主要流程的示意图,以应用于HDFS文件***为例(当然不仅限于HDFS文件***,可以应用于各种架构中例如Storm、MapReduce、Spark等等,在此只是举例说明),所述自动化加载数据的方法可以包括:
步骤S201,获取外部数据源,以导入数据库的临时表中。
在实施例中,可以通过数据读取装置读取外部数据源,对不同格式的数据源进行解析,可以将不同格式的数据处理成数据库可读取的格式。较佳地,读取外部数据源之后可以经过不同数据接口对不同数据源的格式进行数据解析,把数据处理成数据库可读取格式。
需要说明的是,对于数据源提供多种类型:CSV(Comma-Separated Values,逗号分隔值文件格式)、TXT(是一种文本文档)、XML(是一种用于标记电子文件使其具有结构性的标记语言)、SQL(Structured Query Language,结构化查询语言)语句格式,不同格式的加载方式也不相同,即将不同格式的数据处理成数据库可读取的格式具体的包括:
a)CSV和TXT格式以Tab键为分割符然后导入数据库的临时表中。
b)XML格式先进行解析,然后读取解析后的XML文件拼接成以Tab键为分割符的文件,然后Load导入数据库的临时表中。
c)对于SQL语句,则直接通过sql引擎执行SQL语句以***数据到数据库的临时表中。
步骤S202,读取temp(临时)表,判断HDFS文件***中是否存在预设时间内需要处理的分区数据。若存在则进行步骤S203,否则进行步骤S204。
较佳地,预设时间内可以设定为当天,当然也可以是其他时间段。
优选地,在判断HDFS文件***中是否存在预设时间内需要处理的分区数据时可以通过程序返回值Flag进行判断,若程序返回值Flag为0则不存在需要处理的分区数据,若程序返回值Flag为1则存在需要处理的分区数据。
步骤S203,缓存目标表当前文件大小,然后执行步骤S205。
步骤S204,退出该流程,并在日志中记录退出原因。
步骤S205,读取所述分区数据对应的数据源中预设的标示字段。
在实施例中,定义在数据源中最后一个字段(isUpdate)用来标识是数据新增还是数据更新。
步骤S206,根据所述标示字段的返回值,将所述临时表中的数据写入目标表中。
较佳地,通过程序读取标示字段,返回值是1代表数据新增操作,返回值是0代表数据更新操作。
进一步地,如果最后一个字段(isUpdate)的返回值为1,则代表数据新增操作,具体的实施过程包括:
步骤一:读取temp表中每条数据的主键。
步骤二:判断在目标表中是否有与temp表相同主键的数据。
步骤三:根据判断结果,如果有就代表上报数据有问题,即数据上报重复,则进入到异常处理阶段(优选地,异常处理可以是发送邮件把相关信息通知业务方。业务方通指下游数据使用者,可以通过数据来进行分析,出报表,或者是要用所述数据做产品支撑等等)。
如果没有发生主键重复,则说明上报数据正确,把temp表中的数据和目标表中数据进行合并,然后重写回目标表。
另一个进一步地实施例,如果最后一个字段(isUpdate)的返回值为0,则代表数据更新操作,具体的实施过程包括:
步骤一:读取temp表中数据,得到每条数据的主键。
步骤二:删除目标表中具有相同主键的数据。
步骤三:把temp表中的数据和目标表中数据进行合并,然后重写回目标表。
步骤S207,对执行完操作的目标表进行校验。
作为实施例,对比目标表前后数据文件大小,如果目标表文件小于执行操作之前缓存的目标表文件大小,则进入异常处理模块,发邮件通知业务方;如果大于则为正常,可安全退出该流程。
另外,在本发明可参考实施例中所述自动化加载数据的方法的具体实施内容,在上面所述自动化加载数据的方法中已经详细说明了,故在此重复内容不再说明。
图3是根据本发明实施例的自动化加载数据的装置,如图3所示,所述自动化加载数据的装置300包括导入模块301、读取模块302以及执行模块303。其中,导入模块301获取数据源,以导入数据库中的临时表。然后读取模块302读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段。执行模块303根据所述标示字段,将所述临时表中的数据写入目标表中。
较佳地,导入模块301可以读取外部数据源,对不同格式的数据源进行解析。然后将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。进一步地,读取外部数据源之后可以经过不同数据接口对不同数据源的格式进行数据解析,把数据处理成数据库可读取格式。
在另一个实施例中,读取模块302在根据所述标示字段,将所述临时表中的数据写入目标表中时,如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
作为本发明的另一个实施例,执行模块303还可以对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。具体的实施过程包括:
读取模块302读取所述分区数据对应数据源中预设的标示字段之前缓存当前数据库的目标表文件大小,而执行模块303在对数据库中的目标表执行相应操作后,比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
需要说明的是,在本发明所述自动化加载数据的装置的具体实施内容,在上面所述自动化加载数据的方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的自动化加载数据的方法或自动化加载数据的装置的示例性***架构400。或者图4示出了可以应用本发明实施例的自动化加载数据的方法或自动化加载数据的装置的示例性***架构400。
如图4所示,***架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的自动化加载数据的方法一般由服务器405执行,相应地,自动化加载数据的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机***600的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括导入模块、读取模块以及执行模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取数据源,以导入数据库中的临时表;读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;根据所述标示字段,将所述临时表中的数据写入目标表中的技术手段,所以避免了在业务数据加载过程中数据的暴露,且实现了自动化业务数据的加载。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种自动化加载数据的方法,其特征在于,包括:
获取数据源,以导入数据库中的临时表;
读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;
根据所述标示字段,将所述临时表中的数据写入目标表中。
2.根据权利要求1所述的方法,其特征在于,所述获取数据源,以导入数据库中的临时表,包括:
读取外部数据源,对不同格式的数据源进行解析;
将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。
3.根据权利要求1所述的方法,其特征在于,还包括:
对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。
4.根据权利要求3所述的方法,其特征在于,所述读取所述分区数据对应数据源中预设的标示字段之前,还包括:
缓存当前数据库的目标表文件大小;
所述对执行相应操作的数据库中目标表进行校验,包括:
比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
5.根据权利要求1所述的方法,其特征在于,根据所述标示字段,将所述临时表中的数据写入目标表中,包括:
如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;
如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
6.根据权利要求1所述的方法,其特征在于,根据所述标示字段,将所述临时表中的数据写入目标表中,包括:
如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;
把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
7.一种自动化加载数据的装置,其特征在于,包括:
导入模块,用于获取数据源,以导入数据库中的临时表;
读取模块,用于读取所述临时表,如果存在预设时间内需要处理的分区数据,则读取所述分区数据对应数据源中预设的标示字段;
执行模块,用于根据所述标示字段,将所述临时表中的数据写入目标表中。
8.根据权利要求7所述的装置,其特征在于,所述导入模块获取数据源,以导入数据库中的临时表时,包括:
读取外部数据源,对不同格式的数据源进行解析;
将解析后的不同格式数据处理成数据库可读取的格式,以导入数据库中的临时表。
9.根据权利要求7所述的装置,其特征在于,所述执行模块,还用于:
对执行相应操作的数据库中目标表进行校验,以判断数据加载是否正常。
10.根据权利要求9所述的装置,其特征在于,所述读取模块读取所述分区数据对应数据源中预设的标示字段之前,还包括:
缓存当前数据库的目标表文件大小;
所述执行模块对执行相应操作的数据库中目标表进行校验,包括:
比对目标表执行相应操作前后的文件大小,如果执行相应操作后的目标表文件大小大于执行相应操作前的目标表文件大小则数据加载正常。
11.根据权利要求7所述的装置,其特征在于,所述执行模块根据所述标示字段,将所述临时表中的数据写入目标表中,包括:
如果所述标示字段为新增操作,则获取临时表中每条数据的主键,判断在目标表中是否有与临时表相同主键的数据;
如果没有与临时表相同主键的数据,则将临时表中的数据和目标表中数据进行合并,然后重写回目标表。
12.根据权利要求7所述的装置,其特征在于,所述执行模块根据所述标示字段,将所述临时表中的数据写入目标表中,包括:
如果所述标示字段为更新操作,则获取临时表中每条数据的主键,删除目标表中具有相同主键的数据;
把临时表中的数据和目标表中数据进行合并,然后重写回目标表。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810149117.4A 2018-02-13 2018-02-13 一种自动化加载数据的方法和装置 Pending CN110209662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810149117.4A CN110209662A (zh) 2018-02-13 2018-02-13 一种自动化加载数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810149117.4A CN110209662A (zh) 2018-02-13 2018-02-13 一种自动化加载数据的方法和装置

Publications (1)

Publication Number Publication Date
CN110209662A true CN110209662A (zh) 2019-09-06

Family

ID=67778583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810149117.4A Pending CN110209662A (zh) 2018-02-13 2018-02-13 一种自动化加载数据的方法和装置

Country Status (1)

Country Link
CN (1) CN110209662A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104527A (zh) * 2019-12-18 2020-05-05 写逸网络科技(上海)有限公司 一种富媒体文件解析方法
CN111367987A (zh) * 2020-03-31 2020-07-03 西安震有信通科技有限公司 适应多种数据库类型的数据导入方法、***及装置
CN111930349A (zh) * 2020-08-04 2020-11-13 中国建设银行股份有限公司 一种程序包生成方法、装置、电子设备及存储介质
CN112256775A (zh) * 2020-09-27 2021-01-22 建信金融科技有限责任公司 一种Oracle数据库的数据定时加载的方法及装置
CN112579673A (zh) * 2020-12-25 2021-03-30 中国建设银行股份有限公司 一种多源数据处理方法及装置
CN113807054A (zh) * 2021-09-16 2021-12-17 北京沃东天骏信息技术有限公司 处理数据的方法、装置、设备和计算机可读介质
CN113849548A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据抽取方法、装置、设备和介质
CN115544027A (zh) * 2022-12-05 2022-12-30 北京滴普科技有限公司 一种面向olap分析引擎的数据导入方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120304A1 (en) * 2006-11-21 2008-05-22 Calio Robert J Method and system for providing high performance data modification of relational database tables
CN101504664A (zh) * 2009-03-18 2009-08-12 中国工商银行股份有限公司 对全量源数据进行抽取转换加载的装置及方法
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及***
CN105094852A (zh) * 2015-09-07 2015-11-25 浪潮软件集团有限公司 一种数据excel导入和导出的工具
CN105260485A (zh) * 2015-11-20 2016-01-20 杭州数梦工场科技有限公司 一种数据加载的方法和装置
CN106325933A (zh) * 2016-08-24 2017-01-11 明算科技(北京)股份有限公司 批量数据同步方法和装置
CN106339274A (zh) * 2015-07-14 2017-01-18 阿里巴巴集团控股有限公司 一种数据快照获取的方法及***
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120304A1 (en) * 2006-11-21 2008-05-22 Calio Robert J Method and system for providing high performance data modification of relational database tables
CN101504664A (zh) * 2009-03-18 2009-08-12 中国工商银行股份有限公司 对全量源数据进行抽取转换加载的装置及方法
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及***
CN106339274A (zh) * 2015-07-14 2017-01-18 阿里巴巴集团控股有限公司 一种数据快照获取的方法及***
CN105094852A (zh) * 2015-09-07 2015-11-25 浪潮软件集团有限公司 一种数据excel导入和导出的工具
CN105260485A (zh) * 2015-11-20 2016-01-20 杭州数梦工场科技有限公司 一种数据加载的方法和装置
CN106325933A (zh) * 2016-08-24 2017-01-11 明算科技(北京)股份有限公司 批量数据同步方法和装置
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104527A (zh) * 2019-12-18 2020-05-05 写逸网络科技(上海)有限公司 一种富媒体文件解析方法
CN111104527B (zh) * 2019-12-18 2023-06-23 写逸网络科技(上海)有限公司 一种富媒体文件解析方法
CN111367987A (zh) * 2020-03-31 2020-07-03 西安震有信通科技有限公司 适应多种数据库类型的数据导入方法、***及装置
CN111930349A (zh) * 2020-08-04 2020-11-13 中国建设银行股份有限公司 一种程序包生成方法、装置、电子设备及存储介质
CN112256775A (zh) * 2020-09-27 2021-01-22 建信金融科技有限责任公司 一种Oracle数据库的数据定时加载的方法及装置
CN112579673A (zh) * 2020-12-25 2021-03-30 中国建设银行股份有限公司 一种多源数据处理方法及装置
CN113807054A (zh) * 2021-09-16 2021-12-17 北京沃东天骏信息技术有限公司 处理数据的方法、装置、设备和计算机可读介质
CN113849548A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据抽取方法、装置、设备和介质
CN115544027A (zh) * 2022-12-05 2022-12-30 北京滴普科技有限公司 一种面向olap分析引擎的数据导入方法和***

Similar Documents

Publication Publication Date Title
CN110209662A (zh) 一种自动化加载数据的方法和装置
CN110807067B (zh) 关系型数据库和数据仓库的数据同步方法、装置及设备
CN110472207A (zh) 表单生成方法和装置
CN109542445A (zh) 一种Android插件化开发的方法和装置
US20200286014A1 (en) Information updating method and device
CN109522341A (zh) 实现基于sql的流式数据处理引擎的方法、装置、设备
CN110389762A (zh) 在Android工程中处理AAR包的方法和装置
CN110427304A (zh) 用于银行***的运维方法、装置、电子设备以及介质
CN113760722A (zh) 测试***和测试方法
CN111125064A (zh) 一种生成数据库模式定义语句的方法和装置
CN112988583A (zh) 数据库语法兼容性测试的方法和装置
CN109960212A (zh) 任务发送方法和装置
CN112765102B (zh) 一种文件***管理方法和装置
CN108694172B (zh) 信息输出方法和装置
CN113900944A (zh) 一种应用于Flink SQL的逻辑验证方法和装置
CN113760969A (zh) 一种基于ElasticSearch的数据查询方法和装置
CN110109912A (zh) 一种标识符生成方法和装置
CN109901934B (zh) 生成接口帮助文档的方法和装置
CN111858621B (zh) 监控业务流程的方法、装置、设备和计算机可读介质
CN110110032B (zh) 用于更新索引文件的方法和装置
CN110399187A (zh) 一种语言资源的处理方法和装置
CN115794637A (zh) 自动化测试的方法、装置、设备和计算机可读介质
CN110688355A (zh) 变更容器状态的方法和装置
CN115658127A (zh) 数据处理的方法、装置、电子设备和存储介质
CN113312053A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination