CN104239580B

CN104239580B - 基于值‑列映射的通用单字段拆分数据抽取方法和装置

Info

Publication number: CN104239580B
Application number: CN201410536559.6A
Authority: CN
Inventors: 徐武平; 徐爱萍
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2017-06-27
Anticipated expiration: 2034-10-13
Also published as: CN104239580A

Abstract

本发明提出了一种基于值‑列映射的通用单字段拆分数据抽取方法和装置，利用OLEDB通用数据访问技术，将源表中的单一字段的数据经过转换算法处理后分别按照映射关系抽取到目的表中的多个字段中，实现了单字段的拆分抽取。本发明能够适用于规定情形下的从单字段到多字段的数据抽取过程，具有极强的通用性，在未来基于数据仓库数据抽取研究领域有着广阔的应用前景。

Description

基于值-列映射的通用单字段拆分数据抽取方法和装置

技术领域

本发明涉及计算机数据仓库领域ETL技术，尤其涉及一种基于值-列映射的通用单字段拆分数据抽取方法和装置。

背景技术

当今的信息技术在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源，可以保存大量的数据供分析使用。企业的数据处理大致分为两类：一类是操作型处理，也称为联机事务处理，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。另一类是分析型处理，一般针对某些主题的历史数据进行分析，支持管理决策。

数据仓库是为企业的决策制定过程提供支持的所有类型数据的战略集合。为了实现管理决策任务，会将操作型数据转化为分析型数据。这种把数据从各种各样的存储方式中拿出来，进行必要的转化、整理，再以一定的数据模型存放到数据仓库内的技术称为数据抽取技术。在数据仓库领域中对各种不同数据存储方式的访问、抽取能力是数据抽取工具的关键技术。

ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。本发明尤其涉及一种通用的数据抽取、单字段拆分转换技术。

ETL实质上是一类数据转换器，提供一种从源到目标***转换数据的方法。即从操作型***提取、清洗并转换数据，然后将数据载入决策支持***的操作型数据存储、数据仓库或数据集市中。具体功能针对不同的数据源编写不同的数据抽取、转换和加载程序处理，完成数据集成的大部分工作。

ETL在数据仓库和业务***之间搭建起一座桥梁，确保新的业务数据源源不断地进入数据仓库；其中最复杂之处在于其涉及到大量的业务逻辑和异构环境，因此在一般数据仓库项目中ETL部分是一难度较大的环节，其主要难点在于数据的清洗转换，包括：字段映射、映射的自动匹配、字段的拆分、多字段的混合运算、记录间合并或计算、记录拆分等等。

发明内容

本发明提出了一种基于值-列映射的通用单字段拆分抽取技术，能够将源数据表中某个行字段的数据拆分到目的表的若干个列字段中。

本发明的技术方案是：基于值-列映射的通用单字段拆分数据抽取方法，包括如下步骤：

步骤1：构建拆分配置表；

步骤1.1对字段拆分适用对象进行配置；

步骤1.11选择配置表的源数据库DB_S和源数据表S；

步骤1.12分别设置源数据表S的描述字段F1、F2、F3、…、拆分字段V、数据说明字段K；

步骤1.13选择配置表的目的数据库DB_D和目的表D；

步骤1.14设置目的表描述字段序列X1、X2、X3、…，及其与源数据表S的描述字段F1、F2、F3、…的对应关系；

步骤1.2对值-列映射关系的数据结构进行配置；将源数据表S中字段K的所有取值K₁，K₂，K₃，…，K_i与目的表D中的数据字段V₁、V₂、V₃、…、V_j之间建立一一映射关系，表示为M＝{(Ki,Vj)}，其中Ki表示字段K中的第i个数值，Vj表示目的表D中的第j个字段；

步骤2：读取配置表中的配置信息完成数据的抽取与转换；

步骤2.1按照配置表中定义的源数据库DB_S和源数据表S，连接数据库DB_S，并从源数据表S中抽取所有数据行，设为数据集R；

步骤2.2按照配置表中定义的目的数据库DB_D和目的数据表D，连接数据库DB_D；

步骤2.3从配置表中读取拆分值-列映射关系集合M；

步骤2.4对被抽取数据集合R中的每一行r执行如下操作：

2.41在值-列映射集合M中查找K_i等于r行字段K当前数值的值-列映射V_j；

2.42在目的数据库DB_D的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行。

2.43如果2.42的查询结果为空，则执行2.44***新数据，否则执行2.45更新原有数据；

2.44在目的数据库DB_D的目的数据表D中执行***新数据行，令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值，并且字段V_j的值等于表S中行r的拆分字段V的值；

2.45在目的数据库DB_D的目的数据表D中执行更新数据行语句，令该行的字段V_j的值等于源数据表S中行r的拆分字段V的值；

2.46检查当前行是否是集合R的最后一行，如不是则取下一行转2.42，否则转步骤3结束；

步骤3结束。

基于值-列映射的通用单字段拆分数据抽取装置，包括如下模块：

构建拆分配置表模块：

用于对字段拆分适用对象进行配置；

包括用于选择配置表的源数据库DB_S和源数据表S；

包括用于分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明字段K；

包括用于选择配置表的目的数据库DB_D和目的表D；

包括用于设置目的表描述字段序列X1、X2、X3、…，及其与源数据表S的描述字段F1、F2、F3、…的对应关系；

用于对值-列映射关系的数据结构进行配置；

还包括用于将源数据表S中字段K的所有取值K₁，K₂，K₃，…，K_i与目的表D中的数据字段V₁、V₂、V₃、…、V_j之间建立一一映射关系，表示为M＝{(Ki,Vj)}，其中Ki表示字段K中的第i个数值，Vj表示目的表D中的第j个字段；

抽取与转换模块：用于读取配置表中的配置信息完成数据的抽取与转换；

包括用于按照配置表中定义的源数据库DB_S和源数据表S，连接数据库DB_S，并从源数据表S中抽取所有数据行，设为数据集R；

包括用于按照配置表中定义的目的数据库DB_D和目的数据表D，连接数据库DB_D；

包括用于从配置表中读取拆分值-列映射关系集合M；

还包括用于对被抽取数据集合R中的每一行r执行如下操作的模块：

查找模块：用于在值-列映射集合M中查找K_i等于r行字段K当前数值的值-列映射V_j；

查询模块：用于在目的数据库DB_D的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行；

更新模块：用于如果查询模块的查询结果为空，则进入***模块***新数据，否则执行匹配模块更新原有数据；

***模块：用于在目的数据库DB_D的目的数据表D中执行***新数据行，令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值，并且字段V_j的值等于表S中行r的拆分字段V的值；

匹配模块：用于在目的数据库DB_D的目的数据表D中执行更新数据行语句，令该行的字段V_j的值等于源数据表S中行r的拆分字段V的值；

转换模块：用于检查当前行是否是集合R的最后一行，如不是则取下一行转进入查询模块处理，否则结束。

本发明的有益效果是：基于值-列映射的通用单字段拆分数据抽取方法和装置，该技术基于值-列转换映射表，利用OLEDB通用数据访问技术，将源表中的单一字段V的数据经过转换算法处理后分别按照映射关系抽取到目的表中的多个字段(V1、V1、V3、…)中，实现了单字段的拆分抽取。本发明能够适用于规定情形下的从单字段到多字段的数据抽取过程，具有极强的通用性，这是该方法的最大优点；另外由于OLEDB通用数据访问技术，可以兼容目前绝大多数类型的数据库，典型类型包括：MS SQL Server、Oracle、DB2、MySQL、Access、dBase(dbf)、Excel等，兼容性是其另外一个主要优点。在未来基于数据仓库数据抽取研究领域有着广阔的应用前景。

附图说明

图1是本发明的流程图。

具体实施方式

本发明的主要应用场景如下：设源数据库DB_S中有源数据表S，目的数据库DB_D中有目的数据表D。源数据表S的字段包含三部分：第一部分为描述信息，由若干字段组成，其值通常表示时间、地点等信息，设为F1、F1、F3、…；第二部分为数据说明信息，只有一个字段，其值通常为数据指标的代码，设为K；第三部分为数据值信息，也只有一个字段，是K中对应代码的实际数值，设为字段V(称为拆分字段)。而目的数据表D的字段结构与源数据表S有所不同，只要两个部分：第一部分与源数据表S相同为描述信息，由若干字段组成，其值通常表示时间、地点等信息，设为X1、X1、X3、…，且F1和X1对应、F2和X2对应、…、依次类推；第二部分为一系列的数据值字段，每个字段分别与源数据表S中字段K中的代码相对应，设为V1、V1、V3、…。

如果需要将源数据表S的数据抽取到目的数据表D中必须解决一个转换问题，即将源数据表S的字段V中的数据根据对应字段K的值(代码)，分别存放到目的数据表D的字段V1、V1、V3、…中。对于具体的两个表S和D，当他们的字段结构是确定的时候，编写一个拆分字段V的处理程序并不困难，但如果要将这种转换做成一种ETL工具，使得这一工具针对任意的表S和D都有效的话则不是一件简单的事情。

为了使抽取方法具有通用性，必须知道当前操作的对象和拆分规则。为此我们提供了构建规则的人机交互信息，由用户指定字段拆分的对象和规则，将这些信息以一种固定的结构保存起来，保存的字段拆分对象和拆分规则称为拆分配置表。当字段拆分模块运行时，先读取拆分配置表，按照配置表给定的对象和拆分规则来完成拆分处理过程。因此，只要给定的配置表不同，字段拆分模块就可以对不同的对象执行不同的拆分操作，其具有较高的通用型。

拆分配置表的结构如下：

1)拆分对象的数据结构为一八元组，包括：源数据库DB_S，源数据表S，源表描述字段序列F1、F1、F3、…，拆分字段V，数据说明(代码)字段K，目的数据库DB_D，目的数据表D，目的表描述字段序列X1、X1、X3、…；

2)拆分规则的数据结构为值-列映射表，其描述源数据表S中字段K中的数值(代码)与目的数据表D中相关字段(V1、V1、V3、…)的对应关系,表示为M＝{(K_i,V_j)}，其中K_i表示字段K中的第i个数值，V_j表示目的数据表D中的第j个字段(列)，故称为值-列映射。

如图1，基于值-列映射的通用单字段拆分数据抽取方法，包括如下步骤：

步骤1：构建拆分配置表；

步骤1.1对字段拆分适用对象进行配置；

步骤1.11选择配置表的源数据库DB_S和源数据表S；

步骤1.12分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明(代码)字段K；

步骤1.13选择配置表的目的数据库DB_D和目的表D；

步骤1.2对值-列映射关系的数据结构进行配置；将源数据表S中字段K的所有取值K₁，K₂，K₃，…，K_i与目的表D中的数据字段V₁、V₂、V₃、…、V_j之间建立一一映射关系，表示为M＝{(Ki,Vj)}，其中Ki表示字段K中的第i个数值，Vj表示目的表D中的第j个字段(列)；

步骤2：读取配置表中的配置信息完成数据的抽取与转换；

步骤2.3从配置表中读取拆分值-列映射关系集合M；

步骤2.4对被抽取数据集合R中的每一行r执行如下操作：

2.42在目的数据库DB_D的目的数据表D中查询描述字段(X1、X2、X3、…)和表S中描述字段(F1、F2、F3、…)具有相同数值的数据行。

2.43如果2.42的查询结果为空(即没有当前数据)，则执行2.44***新数据，否则执行2.45更新原有数据；

2.44在目的数据库DB_D的目的数据表D中执行***新数据行，令新数据行的描述字段(X1、X2、X3、…)的值依次等于源数据表S中各描述字段(F1、F2、F3、…)的值，并且字段V_j的值等于表S中行r的拆分字段V的值；

步骤3结束。

构建拆分配置表模块：

用于对字段拆分适用对象进行配置；

包括用于选择配置表的源数据库DB_S和源数据表S；

包括用于分别设置源数据表S的描述字段F1、F1、F3、…、拆分字段V、数据说明(代码)字段K；

包括用于选择配置表的目的数据库DB_D和目的表D；

用于对值-列映射关系的数据结构进行配置；

还包括用于将源数据表S中字段K的所有取值K₁，K₂，K₃，…，K_i与目的表D中的数据字段V₁、V₂、V₃、…、V_j之间建立一一映射关系，表示为M＝{(Ki,Vj)}，其中Ki表示字段K中的第i个数值，Vj表示目的表D中的第j个字段(列)；

包括用于从配置表中读取拆分值-列映射关系集合M；

查询模块：用于在目的数据库DB_D的目的数据表D中查询描述字段(X1、X2、X3、…)和表S中描述字段(F1、F2、F3、…)具有相同数值的数据行；

更新模块：用于如果查询模块的查询结果为空(即没有当前数据)，则进入***模块***新数据，否则执行匹配模块更新原有数据；

***模块：用于在目的数据库DB_D的目的数据表D中执行***新数据行，令新数据行的描述字段(X1、X2、X3、…)的值依次等于源数据表S中各描述字段(F1、F2、F3、…)的值，并且字段V_j的值等于表S中行r的拆分字段V的值；

Claims

1.基于值-列映射的通用单字段拆分数据抽取方法，其特征在于，包括如下步骤：

步骤1：构建拆分配置表；

步骤1.1对字段拆分适用对象进行配置；

步骤1.11选择配置表的源数据库DB_S和源数据表S；

步骤1.13选择配置表的目的数据库DB_D和目的表D；

步骤2：读取配置表中的配置信息完成数据的抽取与转换；

步骤2.3从配置表中读取拆分值-列映射关系集合M；

步骤2.4对被抽取数据集合R中的每一行r执行如下操作：

2.42在目的数据库DB_D的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行；

步骤3结束。

2.基于值-列映射的通用单字段拆分数据抽取装置，其特征在于，包括如下模块：

构建拆分配置表模块：

用于对字段拆分适用对象进行配置；

包括用于选择配置表的源数据库DB_S和源数据表S；

包括用于选择配置表的目的数据库DB_D和目的表D；

用于对值-列映射关系的数据结构进行配置；

包括用于从配置表中读取拆分值-列映射关系集合M；