CN107092700A - 一种基于大数据量下批量导入数据的方法及装置 - Google Patents

一种基于大数据量下批量导入数据的方法及装置 Download PDF

Info

Publication number
CN107092700A
CN107092700A CN201710302167.7A CN201710302167A CN107092700A CN 107092700 A CN107092700 A CN 107092700A CN 201710302167 A CN201710302167 A CN 201710302167A CN 107092700 A CN107092700 A CN 107092700A
Authority
CN
China
Prior art keywords
metadata
data
major key
data table
field major
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710302167.7A
Other languages
English (en)
Inventor
***
左斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Genersoft Information Technology Co Ltd
Original Assignee
Shandong Inspur Genersoft Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Genersoft Information Technology Co Ltd filed Critical Shandong Inspur Genersoft Information Technology Co Ltd
Priority to CN201710302167.7A priority Critical patent/CN107092700A/zh
Publication of CN107092700A publication Critical patent/CN107092700A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据量下批量导入数据的方法及装置,其中,该方法包括:预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;获取待处理数据文件,其中,待处理数据文件包括至少两条待处理数据;根据每一条待处理数据包括的至少一个元数据,以及每一个元数据分别对应的参考数据节点,生成临时数据表;校验临时数据表中的每一个元数据是否合格;当临时数据表中存在至少一个目标元数据不合格时,对临时数据表中不合格的各个目标元数据进行删除处理;根据对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下。通过本发明的技术方案,可提高数据导入效率。

Description

一种基于大数据量下批量导入数据的方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于大数据量下批量导入数据的方法及装置。
背景技术
大数据时代下,随着信息***的广泛应用,数据量日趋增加,通常需要将大量的数据导入至数据库的目标数据库表中。
目前,进行大批量数据导入时,通常需要将待处理数据文件中的大量待处理数据逐一导入目标数据库表中,每将一条待处理数据导入到目标数据库表之后,还需要对导入目标数据库表的该条待处理数据中的各个元数据进行校验,以确定导入到目标数据库表中的各个元数据是否合格,然后对目标数据库表中不合格的元数据进行删除,从而实现将待处理数据文件中的各个待处理数据导入到目标数据库表。
上述技术方案中,每一个待处理数据的各个元数据需要逐一导入到目标数据库表,同时,还需要访问导入目标数据库表的每一个元数据以校验每一个元数据是否合格。可见,通过上述技术方案实现将大批量数据导入目标数据库表时,需要频繁访问目标数据库表所对应的数据库,可能影响目标数据库表所对应的数据库的响应速度,进而影响数据导入效率。
发明内容
本发明实施例提供了一种基于大数据量下批量导入数据的方法及装置,可提要数据导入效率。
第一方面,本发明提供了一种基于大数据量下批量导入数据的方法,包括:
预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;
获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
校验所述临时数据表中的每一个所述元数据是否合格;
当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
优选地,
所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
优选地,
在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据所属的待处理数据的各个元数据均不合格。
优选地,
在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
优选地,
所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
第二方面,本发明实施例提供了一种基于大数据量下批量导入数据的装置,包括:
设置模块,用于预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;
数据获取模块,用于获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
表格构建模块,用于根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
校验模块,用于校验所述临时数据表中的每一个所述元数据是否合格;
删除处理模块,用于当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
导入处理模块,用于根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
优选地,
所述校验模块,包括:第一校验单元和第一确定单元;其中,
所述第一校验单元,用于针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
所述第一确定单元,用于在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
优选地,
还包括:第一确定模块;其中,
所述第一确定模块,用于确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验模块,包括:第二校验单元和第二确定单元;其中,
所述第二校验单元,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第二确定单元,用于在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据所属的待处理数据的各个元数据均不合格。
优选地,
还包括:第二确定模块;其中,
所述第二确定模块,用于确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验模块,包括:第三确定单元、第三校验单元和第四确定单元;其中,
所述第三确定单元,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第三校验单元,用于校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
所述第四确定单元,用于在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
优选地,
所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
本发明实施例提供了一种基于大数据量下批量导入数据的方法及装置,该方法中,一方面,通过生成临时数据表的方式,在临时数据表中对各条待处理数据的每一个元数据进行校验,以将不合格的元数据删除,从而确保被导入到目标数据表中的全部元数据均为合格的元数据,可降低访问目标数据库表所对应的数据库的访问频次;另一方面,根据预先设置的对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下,不再向目标数据库表逐一导入各个元数据,可进一步降频数据库访问频次。综上所述,本发明实施例提供的技术方案在将大批量数据导入到目标数据库表时,可降低访问目标数据库表所对应的数据库的访问频次,不会影响数据库响应速度,从而提高数据导入效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种基于大数据量下批量导入数据的方法的流程图;
图2是本发明一实施例提供的另一种基于大数据量下批量导入数据的方法的流程图;
图3是本发明一实施例提供的一种基于大数据量下批量导入数据的装置的结构示意图;
图4是本发明一实施例提供的另一种基于大数据量下批量导入数据的装置的结构示意图;
图5是本发明一实施例提供的又一种基于大数据量下批量导入数据的装置的结构示意图;
图6是本发明一实施例提供的再一种基于大数据量下批量导入数据的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于大数据量下批量导入数据的方法,包括:
步骤101,预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;
步骤102,获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
步骤103,根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
步骤104,校验所述临时数据表中的每一个所述元数据是否合格;
步骤105,当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
步骤106,根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
本发明上述实施例提供的方法,一方面,通过生成临时数据表的方式,在临时数据表中对各条待处理数据的每一个元数据进行校验,以将不合格的元数据删除,从而确保被导入到目标数据表中的全部元数据均为合格的元数据,可降低访问目标数据库表所对应的数据库的访问频次;另一方面,根据预先设置的对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下,不再向目标数据库表逐一导入各个元数据,可进一步降频数据库访问频次。综上所述,本发明实施例提供的技术方案在将大批量数据导入到目标数据库表时,可降低访问目标数据库表所对应的数据库的访问频次,不会影响数据库响应速度,从而提高数据导入效率。
进一步的,由于各个待处理数据中可能携带一部分并不需要被导入到数据库表的元数据,为了实现去除各个待处理数据中并不需要被导入到目标数据库表的各个元数据,本发明一个实施例中,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
举例来说,两条待处理数据为企业员工A和员工B在火车票售票***进行购票后产生的两条车票购买记录a和车票购买记录b,车票购买记录a和b分别包括3个元数据,各个元数据分别对应的数据节点包括:姓名、性别和票价;当企业财务***需要根据车票购买记录对员工A和B的车票进行报销时,则可以从火车票售票***获取到车票购买记录a和车票购买记录b,由于企业财务***仅需要从该条记录中提取到员工A和员工B的姓名及票价即可实现对员工A和员工B的车票进行报销,因此,并不需要将数据节点“性别”所对应的各个元数据导入到企业财务***的数据库中,那么,该数据库的目标数据库表中,仅需要设置“员工姓名”和“报销金额”两个字段主键,设置对应关系为:字段主键“报销金额”对应数据节点“票价”、字段主键“员工姓名”对应数据节点“姓名”,如此,临时数据表中对应数据节点“性别”的各个元数据均可被确定为不合格的目标元数据。
由于数据文件中可能存在一部分并不需要被导入到数据库表的待处理数据,即部分待处理数据下的全部元数据均不需要被导入到目标数据库表中,为了实现去除并不需要被导入到目标数据库表的各个待处理数据,本发明一个实施例中,在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据所属的待处理数据的各个元数据均不合格。
举例来说,两条待处理数据为用户A和用户B在火车票售票***进行购票后产生的两条车票购买记录a和车票购买记录b,车票购买记录a和b分别包括3个元数据,各个元数据分别对应的数据节点包括:姓名、性别和票价;当用户A属于企业C的员工,而用户B并不属于企业C的员工,且企业C的财务***需要根据车票购买记录对员工A的车票进行报销时,在目标数据库表中,仅需要设置“员工姓名”和“报销金额”两个字段主键,设置对应关系为:字段主键“报销金额”对应数据节点“票价”、字段主键“员工姓名”对应数据节点“姓名”,且设置字段主键“员工姓名”所对应的至少一个参考元数据包括用户A的姓名;当待处理数据文件包括车票购买记录a和车票购买记录b时,则可确定出车票购买记录b中对应数据节点“姓名”的元数据(用户B的姓名)并不包括在字段主键“员工姓名”所对应的至少一个参考元数据中,可在临时数据表中将车票购买记录b的各个元数据确定为不合格的目标元数据。
进一步的,为了确保目标数据库表存储的各个元数据的准确性,本发明一个实施例中,在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
相应的,本发明一个实施例中,所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
本发明上述实施例中,由于目标数据库表的各个字段主键下可以分别导入具备不同数据类型、数据长度及数据阈值的元数据,通过在临时数据表中数据类型、数据长度及数据阈值不合格的各个目标元数据进行删除处理,可确保被导入到目标数据库表的各个字段主键下的元数据的准确性。
需要说明的是,在针对临时数据表中不合格的目标元数据进行删除处理时,还可以产生对应于各个目标元数据的提示信息,使得用户可根据提示信息进行相应的处理。比如,修改相应目标元数据的数据类型或数据长度之后重新导入目标数据库表。
为了更加清楚的说明本发明的技术方案及优点,下面具体以实现企业财务部门根据火车票售票***提供的待处理数据文件对企业内员工购买的车票进行报销为例,如图2所示,具体可以包括如下各个步骤:
步骤201,在数据库中构建目标数据库表。
其中,所述目标数据库表包括“员工姓名”和“报销金额”两个字段主键。
步骤202,设置至少两个数据节点与该目标数据库表的至少两个字段主键之间的对应关系。
举例来说,火车票售票***可提供包括多条车票购买记录的待处理数据文件,各条车票购买记录中包括三个元数据,三个元数据分别对应的数据节点为:姓名、性别和票价。那么,则可构建对应关系为:字段主键“员工姓名”对应于数据节点“姓名”、字段主键“报销金额”对应于数据节点“票价”。
步骤203,确定字段主键“员工姓名”所对应的至少一个参考元数据。
本发明实施例以由用户预先设置字段主键“员工姓名”所对应的至少一个参考元数据包括A和B为例。
步骤204,设置字段主键“报销金额”所对应的约束条件为整数型数据类型。
步骤205,获取火车票售票***提供的待处理数据文件。
本发明实施例中,具体以该待处理数据文件包括用户A、B、C购买车票时产生的购买记录,每一条购买记录包括三个元数据,本发明实施例中具体以待处理数据文件包括如下三条待处理数据为例:
A:[姓名:A,性别:女,票价188]
B:[姓名:B,性别:男,票价188.00]
C:[姓名:C,性别:男,票价188]。
步骤206,根据每一条待处理数据包括的至少一个元数据,以及每一个元数据分别对应的参考数据节点,生成临时数据表。
本发明实施例中,可生成如下如下表1所示的临时数据表:
表1
姓名 性别 票价
A 188
B 188.00
C 188
步骤207,针对于临时数据表中的每一个元数据,校验至少一个数据节点是否包括当前元数据所对应的参考数据节点;在至少一个数据节点不包括当前元数据所对应的参考数据节点时,确定当前元数据不合格。
本发明实施例中,可确定出设置的至少一个数据节点中并不包括参考数据节点“性别”,因此,可确定出临时数据表中参考数据节点“性别”所对应的各个元数据“女”、“男”、“男”均为不合格元数据。
步骤208,针对于临时数据表中的每一个元数据,确定对应当前元数据的参考数据节点所对应的目标字段主键,在确定的目标字段主键所对应的至少一个参考元数据不包括当前元数据时,确定当前元数据所属的待处理数据的各个元数据均不合格。
举例来说,可确定出临时数据表中的对应元数据C的参考数据节点“姓名”所对应的目标字段主键为“员工姓名”,而目标字段主键为“员工姓名”所对应的至少一个参考元数据仅包括A和B,因此,可确定元数据C所属的待处理数据的各个元数据均不合格。
步骤209,针对于临时数据表中的每一个元数据,确定对应当前元数据的参考数据节点所对应的目标字段主键,校验当前元数据是否符合目标字段主键所对应的约束条件,在当前元数据不符合所述目标字段主键所对应的约束条件时,确定当前元数据不合格。
举例来说,可确定出对应元数据188.00的参考元数据“票价”所对应的目标字段主键为“报销金额”,并确定出目标字段主键所对应的约束条件为整数型数据类型,而元数据188.00为浮点型数据类型,因此,元数据188.88则可被确定为不合格。
步骤210,删除临时数据表中被确定为不合格的各个元数据。
具体地,针对临时数据表中不合格的各个元数据进行删除处理后,可形成如下表2所示的临时数据表:
表2
姓名 性别 票价
A 188
B
步骤211,根据预先设置的对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下。
具体地,这里可以在.NET平台下实现将临时数据表中的各个元数据批量导入到目标数据库表。同时,也可以通过预先设置一个与目标数据库表的数据结构相似的初始数据表,在.NET平台下实现将各个待处理数据中的全部元数据批量导入到初始数据表以形成临时数据表。
本发明实施例中,在针对临时数据表中不合格的目标元数据进行删除处理时,还可以产生对应于各个目标元数据的提示信息,使得用户可根据提示信息进行相应的处理。比如,修改相应浮点型目标元数据188.88的修改为整形数据188之后重新导入目标数据库表。
综上可见,本发明实施例提供的技术方案中,一方面,通过生成临时数据表的方式,在临时数据表中对各条待处理数据的每一个元数据进行校验,以将不合格的元数据删除,从而确保被导入到目标数据表中的全部元数据均为合格的元数据,可降低访问目标数据库表所对应的数据库的访问频次;另一方面,根据预先设置的对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下,不再向目标数据库表逐一导入各个元数据,可进一步降频数据库访问频次。综上所述,本发明实施例提供的技术方案在将大批量数据导入到目标数据库表时,可降低访问目标数据库表所对应的数据库的访问频次,不会影响数据库响应速度,从而提高数据导入效率
如图3所示,本发明实施例提供了一种基于大数据量下批量导入数据的装置,包括:
设置模块301,用于预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;
数据获取模块302,用于获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
表格构建模块303,用于根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
校验模块304,用于校验所述临时数据表中的每一个所述元数据是否合格;
删除处理模块305,用于当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
导入处理模块306,用于根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
如图4所示,本发明一个优选实施例中,所述校验模块304,包括:第一校验单元3041和第一确定单元3042;其中,
所述第一校验单元3041,用于针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
所述第一确定单元3042,用于在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
如图5所示,本发明一个优选实施例中,还包括:第一确定模块501;其中,
所述第一确定模块501,用于确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验模块304,包括:第二校验单元3043和第二确定单元3044;其中,
所述第二校验单元3043,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第二确定单元3044,用于在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据不合格。
如图6所示,本发明一个优选实施例中,还包括:第二确定模块601;其中,
所述第二确定模块601,用于确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验模块304,包括:第三确定单元3045、第三校验单元3046和第四确定单元3047;其中,
所述第三确定单元3045,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第三校验单元3046,用于校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
所述第四确定单元3047,用于在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
本发明一个优选实施例中,所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明任意一个实施例中提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线连接;
所述存储器,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明任意一个实施例中提供的方法。
综上所述,本发明各个实施例至少具有如下有益效果:
1、本发明一实施例提供的方法中,一方面,通过生成临时数据表的方式,在临时数据表中对各条待处理数据的每一个元数据进行校验,以将不合格的元数据删除,从而确保被导入到目标数据表中的全部元数据均为合格的元数据,可降低访问目标数据库表所对应的数据库的访问频次;另一方面,根据预先设置的对应关系,将处理后的临时数据表中的各个元数据批量导入到目标数据库表的各个字段主键下,不再向目标数据库表逐一导入各个元数据,可进一步降频数据库访问频次。综上所述,本发明实施例提供的技术方案在将大批量数据导入到目标数据库表时,可降低访问目标数据库表所对应的数据库的访问频次,不会影响数据库响应速度,从而提高数据导入效率。
2、本发明一实施例中,由于目标数据库表的各个字段主键下可以分别导入具备不同数据类型、数据长度及数据阈值的元数据,通过在临时数据表中数据类型、数据长度及数据阈值不合格的各个目标元数据进行删除处理,可确保被导入到目标数据库表的各个字段主键下的元数据的准确性。
3、本发明一实施例中,在针对临时数据表中不合格的目标元数据进行删除处理时,还可以产生对应于各个目标元数据的提示信息,使得用户可根据提示信息进行相应的处理。比如,修改相应目标元数据的数据类型或数据长度之后重新导入目标数据库表
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于大数据量下批量导入数据的方法,其特征在于,包括:
预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系,还包括:
获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
校验所述临时数据表中的每一个所述元数据是否合格;
当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
2.根据权利要求1所述的方法,其特征在于,
所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
3.根据权利要求1所述的方法,其特征在于,
在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据所属的待处理数据的各个元数据均不合格。
4.根据权利要求1所述的方法,其特征在于,
在所述校验所述临时数据表中的每一个所述元数据是否合格之前,还包括:确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验所述临时数据表中的每一个所述元数据是否合格,包括:
针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
5.根据权利要求4所述的方法,其特征在于,
所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
6.一种基于大数据量下批量导入数据的装置,其特征在于,包括:
设置模块,用于预先设置目标数据库表的至少一个字段主键与至少一个数据节点之间的对应关系;
数据获取模块,用于获取待处理数据文件,其中,所述待处理数据文件包括至少两条待处理数据,每一条所述待处理数据包括至少一个元数据,每一条所述待处理数据的每一个所述元数据分别对应有一个参考数据节点;
表格构建模块,用于根据每一条所述待处理数据包括的至少一个元数据,以及每一个所述元数据分别对应的参考数据节点,生成临时数据表;
校验模块,用于校验所述临时数据表中的每一个所述元数据是否合格;
删除处理模块,用于当所述临时数据表中存在至少一个目标元数据不合格时,对所述临时数据表中不合格的各个所述目标元数据进行删除处理;
导入处理模块,用于根据所述对应关系,将处理后的所述临时数据表中的各个所述元数据批量导入到所述目标数据库表的各个所述字段主键下。
7.根据权利要求6所述的装置,其特征在于,
所述校验模块,包括:第一校验单元和第一确定单元;其中,
所述第一校验单元,用于针对于所述临时数据表中的每一个所述元数据,校验所述至少一个数据节点是否包括当前所述元数据所对应的参考数据节点;
所述第一确定单元,用于在所述至少一个数据节点不包括当前所述元数据所对应的参考数据节点时,确定当前所述元数据不合格。
8.根据权利要求6所述的装置,其特征在于,
还包括:第一确定模块;其中,
所述第一确定模块,用于确定至少一个所述字段主键所分别对应的至少一个参考元数据;
则,所述校验模块,包括:第二校验单元和第二确定单元;其中,
所述第二校验单元,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第二确定单元,用于在确定的所述目标字段主键所对应的至少一个参考元数据不包括当前所述元数据时,确定当前所述元数据所属的待处理数据的各个元数据均不合格。
9.根据权利要求6所述的装置,其特征在于,
还包括:第二确定模块;其中,
所述第二确定模块,用于确定所述目标数据库表的每一个所述字段主键所分别对应的字符约束条件;
则,所述校验模块,包括:第三确定单元、第三校验单元和第四确定单元;其中,
所述第三确定单元,用于针对于所述临时数据表中的每一个所述元数据,确定对应当前所述元数据的参考数据节点所对应的目标字段主键;
所述第三校验单元,用于校验当前所述元数据是否符合所述目标字段主键所对应的约束条件;
所述第四确定单元,用于在当前所述元数据不符合所述目标字段主键所对应的约束条件时,确定当前所述元数据不合格。
10.根据权利要求9所述的装置,其特征在于,
所述约束条件包括:数据类型、数据长度及数据阈值中的任意一种或多种。
CN201710302167.7A 2017-05-02 2017-05-02 一种基于大数据量下批量导入数据的方法及装置 Pending CN107092700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710302167.7A CN107092700A (zh) 2017-05-02 2017-05-02 一种基于大数据量下批量导入数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302167.7A CN107092700A (zh) 2017-05-02 2017-05-02 一种基于大数据量下批量导入数据的方法及装置

Publications (1)

Publication Number Publication Date
CN107092700A true CN107092700A (zh) 2017-08-25

Family

ID=59637242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302167.7A Pending CN107092700A (zh) 2017-05-02 2017-05-02 一种基于大数据量下批量导入数据的方法及装置

Country Status (1)

Country Link
CN (1) CN107092700A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597812A (zh) * 2018-11-27 2019-04-09 平安科技(深圳)有限公司 会议室批量上线方法、装置、计算机设备及存储介质
CN111580862A (zh) * 2020-05-15 2020-08-25 中国邮政储蓄银行股份有限公司 数据移植的方法和装置
CN112579591A (zh) * 2019-09-30 2021-03-30 重庆小雨点小额贷款有限公司 数据校验方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
EP2849091A1 (en) * 2013-09-16 2015-03-18 Siemens Aktiengesellschaft Method and system for merging data into a database table
CN106325933A (zh) * 2016-08-24 2017-01-11 明算科技(北京)股份有限公司 批量数据同步方法和装置
CN106326222A (zh) * 2015-06-16 2017-01-11 阿里巴巴集团控股有限公司 一种数据处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
EP2849091A1 (en) * 2013-09-16 2015-03-18 Siemens Aktiengesellschaft Method and system for merging data into a database table
CN106326222A (zh) * 2015-06-16 2017-01-11 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN106325933A (zh) * 2016-08-24 2017-01-11 明算科技(北京)股份有限公司 批量数据同步方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597812A (zh) * 2018-11-27 2019-04-09 平安科技(深圳)有限公司 会议室批量上线方法、装置、计算机设备及存储介质
CN109597812B (zh) * 2018-11-27 2023-04-21 平安科技(深圳)有限公司 会议室批量上线方法、装置、计算机设备及存储介质
CN112579591A (zh) * 2019-09-30 2021-03-30 重庆小雨点小额贷款有限公司 数据校验方法、装置、电子设备及计算机可读存储介质
CN112579591B (zh) * 2019-09-30 2023-06-16 重庆小雨点小额贷款有限公司 数据校验方法、装置、电子设备及计算机可读存储介质
CN111580862A (zh) * 2020-05-15 2020-08-25 中国邮政储蓄银行股份有限公司 数据移植的方法和装置

Similar Documents

Publication Publication Date Title
Rechester et al. Fourier-space paths applied to the calculation of diffusion for the Chirikov-Taylor model
EP3779760B1 (en) Blockchain-based data processing method and apparatus, and electronic device
CN107395430A (zh) 一种云平台动态风险访问控制方法
CN103902702B (zh) 一种数据存储***和存储方法
Esole et al. Mordell-Weil torsion, anomalies, and phase transitions
CN107092700A (zh) 一种基于大数据量下批量导入数据的方法及装置
CN105989129A (zh) 实时数据统计方法和装置
CN103793422A (zh) 基于增强星型模型的立方体元数据及查询语句生成
CN107895311A (zh) 一种订单匹配分发的方法和装置
CN106815366A (zh) 一种批量生成数据的方法及***
CN105354272B (zh) 一种基于维度组合的指标计算方法和***
CN107169869A (zh) 信息处理方法和信息处理装置
CN107977504B (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN109583731A (zh) 一种风险识别方法、装置及设备
CN106844312A (zh) 一种数据表转换方法、装置、可读介质及存储控制器
CN105389404A (zh) 一种向数据库关联表导入数据的方法和装置
CN107609011A (zh) 一种数据库记录的维护方法和装置
CN109472680A (zh) 一种账务处理方法及***
CN105224321A (zh) 实体双边匹配方法及***
CN107133163A (zh) 一种验证描述类api的方法与设备
CN107103543A (zh) 协议数据处理方法和***
CN106682980A (zh) 一种设计概率发生器的方法
CN110297835A (zh) 一种针对表单的关系数据库表创建方法
CN1987855A (zh) 数据处理方法及***
CN104965923A (zh) 一种用于生成现金流量表的云计算应用平台构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170825

RJ01 Rejection of invention patent application after publication