CN104239580B - 基于值‑列映射的通用单字段拆分数据抽取方法和装置 - Google Patents

基于值‑列映射的通用单字段拆分数据抽取方法和装置 Download PDF

Info

Publication number
CN104239580B
CN104239580B CN201410536559.6A CN201410536559A CN104239580B CN 104239580 B CN104239580 B CN 104239580B CN 201410536559 A CN201410536559 A CN 201410536559A CN 104239580 B CN104239580 B CN 104239580B
Authority
CN
China
Prior art keywords
data
field
value
row
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410536559.6A
Other languages
English (en)
Other versions
CN104239580A (zh
Inventor
徐武平
徐爱萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201410536559.6A priority Critical patent/CN104239580B/zh
Publication of CN104239580A publication Critical patent/CN104239580A/zh
Application granted granted Critical
Publication of CN104239580B publication Critical patent/CN104239580B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于值‑列映射的通用单字段拆分数据抽取方法和装置,利用OLEDB通用数据访问技术,将源表中的单一字段的数据经过转换算法处理后分别按照映射关系抽取到目的表中的多个字段中,实现了单字段的拆分抽取。本发明能够适用于规定情形下的从单字段到多字段的数据抽取过程,具有极强的通用性,在未来基于数据仓库数据抽取研究领域有着广阔的应用前景。

Description

基于值-列映射的通用单字段拆分数据抽取方法和装置
技术领域
本发明涉及计算机数据仓库领域ETL技术,尤其涉及一种基于值-列映射的通用单字段拆分数据抽取方法和装置。
背景技术
当今的信息技术在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存大量的数据供分析使用。企业的数据处理大致分为两类:一类是操作型处理,也称为联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。另一类是分析型处理,一般针对某些主题的历史数据进行分析,支持管理决策。
数据仓库是为企业的决策制定过程提供支持的所有类型数据的战略集合。为了实现管理决策任务,会将操作型数据转化为分析型数据。这种把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再以一定的数据模型存放到数据仓库内的技术称为数据抽取技术。在数据仓库领域中对各种不同数据存储方式的访问、抽取能力是数据抽取工具的关键技术。
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。本发明尤其涉及一种通用的数据抽取、单字段拆分转换技术。
ETL实质上是一类数据转换器,提供一种从源到目标***转换数据的方法。即从操作型***提取、清洗并转换数据,然后将数据载入决策支持***的操作型数据存储、数据仓库或数据集市中。具体功能针对不同的数据源编写不同的数据抽取、转换和加载程序处理,完成数据集成的大部分工作。
ETL在数据仓库和业务***之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库;其中最复杂之处在于其涉及到大量的业务逻辑和异构环境,因此在一般数据仓库项目中ETL部分是一难度较大的环节,其主要难点在于数据的清洗转换,包括:字段映射、映射的自动匹配、字段的拆分、多字段的混合运算、记录间合并或计算、记录拆分等等。
发明内容
本发明提出了一种基于值-列映射的通用单字段拆分抽取技术,能够将源数据表中某个行字段的数据拆分到目的表的若干个列字段中。
本发明的技术方案是:基于值-列映射的通用单字段拆分数据抽取方法,包括如下步骤:
步骤1:构建拆分配置表;
步骤1.1对字段拆分适用对象进行配置;
步骤1.11选择配置表的源数据库DBS和源数据表S;
步骤1.12分别设置源数据表S的描述字段F1、F2、F3、…、拆分字段V、数据说明字段K;
步骤1.13选择配置表的目的数据库DBD和目的表D;
步骤1.14设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
步骤1.2对值-列映射关系的数据结构进行配置;将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;
步骤2:读取配置表中的配置信息完成数据的抽取与转换;
步骤2.1按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
步骤2.2按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
步骤2.3从配置表中读取拆分值-列映射关系集合M;
步骤2.4对被抽取数据集合R中的每一行r执行如下操作:
2.41在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
2.42在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行。
2.43如果2.42的查询结果为空,则执行2.44***新数据,否则执行2.45更新原有数据;
2.44在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
2.45在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
2.46检查当前行是否是集合R的最后一行,如不是则取下一行转2.42,否则转步骤3结束;
步骤3结束。
基于值-列映射的通用单字段拆分数据抽取装置,包括如下模块:
构建拆分配置表模块:
用于对字段拆分适用对象进行配置;
包括用于选择配置表的源数据库DBS和源数据表S;
包括用于分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明字段K;
包括用于选择配置表的目的数据库DBD和目的表D;
包括用于设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
用于对值-列映射关系的数据结构进行配置;
还包括用于将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;
抽取与转换模块:用于读取配置表中的配置信息完成数据的抽取与转换;
包括用于按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
包括用于按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
包括用于从配置表中读取拆分值-列映射关系集合M;
还包括用于对被抽取数据集合R中的每一行r执行如下操作的模块:
查找模块:用于在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
查询模块:用于在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行;
更新模块:用于如果查询模块的查询结果为空,则进入***模块***新数据,否则执行匹配模块更新原有数据;
***模块:用于在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
匹配模块:用于在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
转换模块:用于检查当前行是否是集合R的最后一行,如不是则取下一行转进入查询模块处理,否则结束。
本发明的有益效果是:基于值-列映射的通用单字段拆分数据抽取方法和装置,该技术基于值-列转换映射表,利用OLEDB通用数据访问技术,将源表中的单一字段V的数据经过转换算法处理后分别按照映射关系抽取到目的表中的多个字段(V1、V1、V3、…)中,实现了单字段的拆分抽取。本发明能够适用于规定情形下的从单字段到多字段的数据抽取过程,具有极强的通用性,这是该方法的最大优点;另外由于OLEDB通用数据访问技术,可以兼容目前绝大多数类型的数据库,典型类型包括:MS SQL Server、Oracle、DB2、MySQL、Access、dBase(dbf)、Excel等,兼容性是其另外一个主要优点。在未来基于数据仓库数据抽取研究领域有着广阔的应用前景。
附图说明
图1是本发明的流程图。
具体实施方式
本发明的主要应用场景如下:设源数据库DBS中有源数据表S,目的数据库DBD中有目的数据表D。源数据表S的字段包含三部分:第一部分为描述信息,由若干字段组成,其值通常表示时间、地点等信息,设为F1、F1、F3、…;第二部分为数据说明信息,只有一个字段,其值通常为数据指标的代码,设为K;第三部分为数据值信息,也只有一个字段,是K中对应代码的实际数值,设为字段V(称为拆分字段)。而目的数据表D的字段结构与源数据表S有所不同,只要两个部分:第一部分与源数据表S相同为描述信息,由若干字段组成,其值通常表示时间、地点等信息,设为X1、X1、X3、…,且F1和X1对应、F2和X2对应、…、依次类推;第二部分为一系列的数据值字段,每个字段分别与源数据表S中字段K中的代码相对应,设为V1、V1、V3、…。
如果需要将源数据表S的数据抽取到目的数据表D中必须解决一个转换问题,即将源数据表S的字段V中的数据根据对应字段K的值(代码),分别存放到目的数据表D的字段V1、V1、V3、…中。对于具体的两个表S和D,当他们的字段结构是确定的时候,编写一个拆分字段V的处理程序并不困难,但如果要将这种转换做成一种ETL工具,使得这一工具针对任意的表S和D都有效的话则不是一件简单的事情。
为了使抽取方法具有通用性,必须知道当前操作的对象和拆分规则。为此我们提供了构建规则的人机交互信息,由用户指定字段拆分的对象和规则,将这些信息以一种固定的结构保存起来,保存的字段拆分对象和拆分规则称为拆分配置表。当字段拆分模块运行时,先读取拆分配置表,按照配置表给定的对象和拆分规则来完成拆分处理过程。因此,只要给定的配置表不同,字段拆分模块就可以对不同的对象执行不同的拆分操作,其具有较高的通用型。
拆分配置表的结构如下:
1)拆分对象的数据结构为一八元组,包括:源数据库DBS,源数据表S,源表描述字段序列F1、F1、F3、…,拆分字段V,数据说明(代码)字段K,目的数据库DBD,目的数据表D,目的表描述字段序列X1、X1、X3、…;
2)拆分规则的数据结构为值-列映射表,其描述源数据表S中字段K中的数值(代码)与目的数据表D中相关字段(V1、V1、V3、…)的对应关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的数据表D中的第j个字段(列),故称为值-列映射。
如图1,基于值-列映射的通用单字段拆分数据抽取方法,包括如下步骤:
步骤1:构建拆分配置表;
步骤1.1对字段拆分适用对象进行配置;
步骤1.11选择配置表的源数据库DBS和源数据表S;
步骤1.12分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明(代码)字段K;
步骤1.13选择配置表的目的数据库DBD和目的表D;
步骤1.14设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
步骤1.2对值-列映射关系的数据结构进行配置;将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段(列);
步骤2:读取配置表中的配置信息完成数据的抽取与转换;
步骤2.1按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
步骤2.2按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
步骤2.3从配置表中读取拆分值-列映射关系集合M;
步骤2.4对被抽取数据集合R中的每一行r执行如下操作:
2.41在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
2.42在目的数据库DBD的目的数据表D中查询描述字段(X1、X2、X3、…)和表S中描述字段(F1、F2、F3、…)具有相同数值的数据行。
2.43如果2.42的查询结果为空(即没有当前数据),则执行2.44***新数据,否则执行2.45更新原有数据;
2.44在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段(X1、X2、X3、…)的值依次等于源数据表S中各描述字段(F1、F2、F3、…)的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
2.45在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
2.46检查当前行是否是集合R的最后一行,如不是则取下一行转2.42,否则转步骤3结束;
步骤3结束。
基于值-列映射的通用单字段拆分数据抽取装置,包括如下模块:
构建拆分配置表模块:
用于对字段拆分适用对象进行配置;
包括用于选择配置表的源数据库DBS和源数据表S;
包括用于分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明(代码)字段K;
包括用于选择配置表的目的数据库DBD和目的表D;
包括用于设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
用于对值-列映射关系的数据结构进行配置;
还包括用于将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段(列);
抽取与转换模块:用于读取配置表中的配置信息完成数据的抽取与转换;
包括用于按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
包括用于按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
包括用于从配置表中读取拆分值-列映射关系集合M;
还包括用于对被抽取数据集合R中的每一行r执行如下操作的模块:
查找模块:用于在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
查询模块:用于在目的数据库DBD的目的数据表D中查询描述字段(X1、X2、X3、…)和表S中描述字段(F1、F2、F3、…)具有相同数值的数据行;
更新模块:用于如果查询模块的查询结果为空(即没有当前数据),则进入***模块***新数据,否则执行匹配模块更新原有数据;
***模块:用于在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段(X1、X2、X3、…)的值依次等于源数据表S中各描述字段(F1、F2、F3、…)的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
匹配模块:用于在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
转换模块:用于检查当前行是否是集合R的最后一行,如不是则取下一行转进入查询模块处理,否则结束。

Claims (2)

1.基于值-列映射的通用单字段拆分数据抽取方法,其特征在于,包括如下步骤:
步骤1:构建拆分配置表;
步骤1.1对字段拆分适用对象进行配置;
步骤1.11选择配置表的源数据库DBS和源数据表S;
步骤1.12分别设置源数据表S的描述字段F1、F2、F3、…、拆分字段V、数据说明字段K;
步骤1.13选择配置表的目的数据库DBD和目的表D;
步骤1.14设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
步骤1.2对值-列映射关系的数据结构进行配置;将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;
步骤2:读取配置表中的配置信息完成数据的抽取与转换;
步骤2.1按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
步骤2.2按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
步骤2.3从配置表中读取拆分值-列映射关系集合M;
步骤2.4对被抽取数据集合R中的每一行r执行如下操作:
2.41在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
2.42在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行;
2.43如果2.42的查询结果为空,则执行2.44***新数据,否则执行2.45更新原有数据;
2.44在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
2.45在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
2.46检查当前行是否是集合R的最后一行,如不是则取下一行转2.42,否则转步骤3结束;
步骤3结束。
2.基于值-列映射的通用单字段拆分数据抽取装置,其特征在于,包括如下模块:
构建拆分配置表模块:
用于对字段拆分适用对象进行配置;
包括用于选择配置表的源数据库DBS和源数据表S;
包括用于分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明字段K;
包括用于选择配置表的目的数据库DBD和目的表D;
包括用于设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;
用于对值-列映射关系的数据结构进行配置;
还包括用于将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;
抽取与转换模块:用于读取配置表中的配置信息完成数据的抽取与转换;
包括用于按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;
包括用于按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD
包括用于从配置表中读取拆分值-列映射关系集合M;
还包括用于对被抽取数据集合R中的每一行r执行如下操作的模块:
查找模块:用于在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj
查询模块:用于在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行;
更新模块:用于如果查询模块的查询结果为空,则进入***模块***新数据,否则执行匹配模块更新原有数据;
***模块:用于在目的数据库DBD的目的数据表D中执行***新数据行,令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;
匹配模块:用于在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;
转换模块:用于检查当前行是否是集合R的最后一行,如不是则取下一行转进入查询模块处理,否则结束。
CN201410536559.6A 2014-10-13 2014-10-13 基于值‑列映射的通用单字段拆分数据抽取方法和装置 Expired - Fee Related CN104239580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410536559.6A CN104239580B (zh) 2014-10-13 2014-10-13 基于值‑列映射的通用单字段拆分数据抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410536559.6A CN104239580B (zh) 2014-10-13 2014-10-13 基于值‑列映射的通用单字段拆分数据抽取方法和装置

Publications (2)

Publication Number Publication Date
CN104239580A CN104239580A (zh) 2014-12-24
CN104239580B true CN104239580B (zh) 2017-06-27

Family

ID=52227639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410536559.6A Expired - Fee Related CN104239580B (zh) 2014-10-13 2014-10-13 基于值‑列映射的通用单字段拆分数据抽取方法和装置

Country Status (1)

Country Link
CN (1) CN104239580B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589968A (zh) * 2015-12-25 2016-05-18 ***股份有限公司 数据汇总***及方法
CN105678523A (zh) * 2016-02-17 2016-06-15 绵阳佳联印染有限责任公司 一种tpm信息管理***提案方法
CN107451206A (zh) * 2017-07-11 2017-12-08 成都优易数据有限公司 一种利用数据结构控制数据准备过程的方法
CN108255984A (zh) * 2017-12-28 2018-07-06 浪潮通用软件有限公司 一种数据解析方法和装置
CN111352983A (zh) * 2018-12-24 2020-06-30 深圳市优必选科技有限公司 业务属性动态扩展方法、装置、计算机设备及存储介质
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360371A (zh) * 2011-09-29 2012-02-22 畅捷通信息技术股份有限公司 数据处理装置和数据处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411864B2 (en) * 2008-08-26 2016-08-09 Zeewise, Inc. Systems and methods for collection and consolidation of heterogeneous remote business data using dynamic data handling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360371A (zh) * 2011-09-29 2012-02-22 畅捷通信息技术股份有限公司 数据处理装置和数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETL在期货CRM数据中心中的应用研究;杨胜利;《中国优秀硕士论文全文数据库 信息科技辑》;20130331(第3期);全文 *
基于CWM的ETL元数据库***模型的设计;周静等;《中国期刊全文数据库 现代图书情报技术》;20110131(第201期);全文 *

Also Published As

Publication number Publication date
CN104239580A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239580B (zh) 基于值‑列映射的通用单字段拆分数据抽取方法和装置
CN109977110B (zh) 数据清洗方法、装置及设备
CN104866576B (zh) 一种Data Vault模型数据仓库自动构建的方法及装置
US9870382B2 (en) Data encoding and corresponding data structure
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN111597243B (zh) 基于数据仓库抽象数据加载的方法及***
US20140101167A1 (en) Creation of Inverted Index System, and Data Processing Method and Apparatus
CN106649503A (zh) 一种基于sql的查询方法及***
Rodzi et al. Significance of data integration and ETL in business intelligence framework for higher education
Guimaraes et al. A study of genomic data provenance in NoSQL document-oriented database systems
CN102402615A (zh) 一种基于结构化查询语言语句的源信息追踪方法
Raasveldt et al. Deep Integration of Machine Learning Into Column Stores.
CN109657803A (zh) 机器学习模型的构建
CN105843899A (zh) 一种可简化编程的大数据自动化解析方法及***
CN109308607A (zh) 分类记录事件的方法及装置
US9881055B1 (en) Language conversion based on S-expression tabular structure
CN110147396B (zh) 一种映射关系生成方法及装置
Jemal et al. MapReduce-DBMS: an integration model for big data management and optimization
Asghari et al. A semi-automatic system for data management and cleaning
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN111090636B (zh) 一种基于一物一码的高效追溯方法
CN107301239A (zh) 一种数据库转换器及转换方法
Hadzhiev et al. Overview and analysis of methods and models for data structuring, storage and processing in the Internet
Khanchouch et al. Adapting a multi-SOM clustering algorithm to large banking data
Shanti et al. Knowledge data map—A framework for the field of data mining and knowledge discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170627

Termination date: 20181013

CF01 Termination of patent right due to non-payment of annual fee