CN111125229A

CN111125229A - 数据血缘生成方法、装置、电子设备

Info

Publication number: CN111125229A
Application number: CN201911376186.XA
Authority: CN
Inventors: 元庚; 周万; 甘长华
Original assignee: Hangzhou Dt Dream Technology Co Ltd
Current assignee: Hangzhou Dt Dream Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111125229B

Abstract

公开一种数据血缘生成方法、装置、电子设备及机器可读存储介质。在本申请中，从对接的业务***获取源数据并保存在本地；其中，所述源数据为基于数据库的表数据；生成与所述源数据对应的目标数据；其中，所述目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识，从而实现了对数据血缘关系基于行级数据的精准构建，提高了数据血缘溯源效率和精准度。

Description

数据血缘生成方法、装置、电子设备

技术领域

本申请一个或多个实施例涉及计算机应用技术领域，尤其涉及数据血缘生成方法、装置、电子设备及机器可读存储介质。

背景技术

数据仓库(Data Warehouse，可简写为DW或DWH)，一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。例如，在实际应用中，通常数据仓库被广泛应用于企业的管理决策的支持，提供与该管理决策相关的所有类型数据的数据集合。

数据仓库主要包括四个特点：“面向主题”、“集成性”、“随时间变化”、“数据仓库的数据不可更新”；其中，“面向主题”，是指数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将被排除掉；“集成性”，是指从不同的源数据采集数据到生成目标数据的过程，需要进行基于ETL(Extract-Transform-Load、抽取转换加载)技术进行数据处理；“随时间变化”，是指数据隐式或显式的基于时间变化；“数据仓库的数据不可更新”，是指数据执行ETL的装入(Load)后，通常只能进行数据查询操作，没有传统数据库的增删改操作。

数据仓库的数据，是基于OLAP(Online Analytical Processing，联机分析处理)的数据，其反映的是一段相当长的时间内历史数据的内容，是不同时点的数据库快照的集合，以及基于这些快照进行统计、综合和重组的导出数据，而传统数据库的数据是基于OLTP(On-Line Transaction Processing，联机事务处理)的数据。

发明内容

本申请提供一种数据血缘生成方法，所述方法应用于数据仓库管理***，所述方法包括：

从对接的业务***获取源数据并保存在本地；其中，所述源数据为基于数据库的表数据；

生成与所述源数据对应的目标数据；其中，所述目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识。

可选的，所述目标数据还包括唯一表征所述目标数据的每行数据的索引标识；

所述生成与所述源数据对应的目标数据，包括：

生成所述源数据的加工数据；其中，所述加工数据为所述源数据与所述目标数据之间的过程数据，所述加工数据至少包括唯一表征所述加工数据的每行数据的数据来源的第二血缘标识；

基于所述索引标识及所述加工数据，生成与所述源数据对应的目标数据。

可选的，所述生成所述源数据的加工数据，包括：

生成所述源数据的第一加工数据；其中，所述第一加工数据至少包括所述源数据、唯一表征所述加工数据的每行数据对应来自所述源数据的数据来源的第二血缘标识；

生成所述第一加工数据的第二加工数据；其中，所述第二加工数据至少包括所述第一加工数据、唯一表征所述第二加工数据的每行数据对应来自所述第一加工数据的数据来源的第二血缘标识；

迭代生成第二加工数据的加工数据，直到得到最终的第三加工数据。

可选的，所述基于所述索引标识及所述加工数据，生成与所述源数据对应的目标数据，包括：

将所述索引标识及所述加工数据作为所述目标数据的表数据，生成与所述源数据对应的目标数据。

可选的，当需要对所述目标数据进行数据血缘溯源时，还包括：

构建用于所述目标数据的数据血缘查询指令，并基于所述数据血缘查询指令查询所述目标数据，得到所述目标数据追溯至所述源数据的数据血缘。

可选的，所述第三加工数据还包括唯一表征所述第三加工数据的每行数据的索引标识，所述第三加工数据的索引标识为基于所述第三加工数据的表标识和唯一标识算法生成的唯一标识组合得到；所述第一血缘标识指向所述第三加工数据的索引标识。

可选的，所述源数据还包括唯一表征所述源数据的每行数据的索引标识，所述第一加工数据还包括唯一表征所述第一加工数据的每行数据的索引标识，所述第二加工数据还包括唯一表征所述第二加工数据的每行数据的索引标识；

所述第二血缘标识指向所述源数据的索引标识，或者，所述第二血缘标识指向所述第一加工数据的索引标识；或者，所述第二血缘标识指向所述第二加工数据的索引标识。

可选的，所述唯一标识算法为UUID算法或哈希算法。

本申请还提供一种数据血缘生成装置，所述装置应用于数据仓库管理***，所述装置包括：

获取模块，从对接的业务***获取源数据并保存在本地；其中，所述源数据为基于数据库的表数据；

生成模块，生成与所述源数据对应的目标数据；其中，所述目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识。

所述生成模块进一步：

可选的，所述生成模块进一步：

生成所述源数据的第一加工数据；其中，其中，所述第一加工数据至少包括所述源数据、唯一表征所述加工数据的每行数据对应来自所述源数据的数据来源的第二血缘标识；

可选的，所述生成模块进一步：

溯源模块，构建用于所述目标数据的数据血缘查询指令，并基于所述数据血缘查询指令查询所述目标数据，得到所述目标数据追溯至所述源数据的数据血缘。

可选的，所述唯一标识算法为UUID算法或哈希算法。

本申请还提供一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行上述的方法。

通过以上实施例，从对接的业务***获取源数据并保存在本地；以及，生成与源数据对应的包含血缘标识的目标数据，从而实现了对数据血缘关系基于行级数据的精准构建，提高了数据血缘溯源效率和精准度。

附图说明

图1是一示例性实施例提供的一种数据仓储管理***进行ETL数据处理的示意图；

图2是一示例性实施例提供的一种数据血缘生成方法的流程图；

图3是一示例性实施例提供的一种电子设备的硬件结构图；

图4是一示例性实施例提供的一种数据血缘生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好地理解本说明书实施例中的技术方案，下面先对本说明书实施例涉及的数据血缘生成的相关技术，进行简要说明。

请参见图1，图1是本说明书一实施例提供的一种数据仓储管理***进行ETL数据处理的示意图。

如图1所示，数据仓储管理***为基于集群方式进行部署，数据仓储管理***包括控制节点和由控制节点管理一个或者多个工作节点，并对管理的工作节点进行任务调度，由工作节点对源数据进行ETL数据处理，得到ETL数据处理后的目标数据。

在以上示出的组网架构的基础上，本申请旨在提出一种，基于为目标数据的每行数据生成表征其从源数据的数据来源的血缘标识，从而实现了数据血缘生成的技术方案。

在实现时，数据仓库管理***从对接的业务***获取源数据并保存在本地；其中，该源数据为基于数据库的表数据；进一步地，数据仓库管理***生成与该源数据对应的目标数据；其中，该目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识。

在以上方案中，从对接的业务***获取源数据并保存在本地；以及，生成与源数据对应的包含血缘标识的目标数据，从而实现了对数据血缘关系基于行级数据的精准构建，提高了数据血缘溯源效率和精准度。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图2，图2是本申请一实施例提供的一种数据血缘生成方法的流程图，所述方法应用于数据仓库管理***，上述方法执行以下步骤：

步骤202、从对接的业务***获取源数据并保存在本地；其中，所述源数据为基于数据库的表数据。

步骤204、生成与所述源数据对应的目标数据；其中，所述目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识。

在本说明书中，上述数据仓库管理***，是指对数据进行ETL数据处理的机器或机器集群。

例如，上述数据仓库管理***可以为如图1所示的包括控制节点和若干工作节点的、可以进行ETL数据处理的机器或机器集群。

为了方便理解，这里简单介绍ETL数据处理。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。例如，在实际应用中，基于ETL数据处理，数据仓库管理***可以将分布的、异构数据源中的源数据库的数据(比如：源数据库中的各种数据表)等抽取到临时中间层后进行数据清洗、转换、集成，最后加载到数据仓库的目标数据库中，成为数据仓库进行联机分析处理及进一步数据挖掘的基础。

在本说明书中，上述业务***，是指与上述数据仓库管理***对接的任何业务形式的业务***。

例如，在实际应用中，上述业务***可以包括与上述数据仓库管理***对接的云计算业务***；上述业务***还可以与上述数据仓库管理***对接的大数据业务***；上述业务***还可以与上述数据仓库管理***对接的安全业务的业务***。

在本说明书中，上述源数据，是指上述业务***中的基于数据库的表数据。

例如，在实际应用中，上述源数据可以包括基于关系数据库(比如：mysql、Pgsql)的一个或多个数据表的表数据。

在本说明书中，上述数据仓库管理***从上述业务***获取上述源数据并保存在本地。

以上述业务***为大数据业务***进行举例，上述数据仓库管理***从大数据业务***获取上述源数据并保存在本地的源端数据库中，以便于基于对该源端数据库后续进行ETL数据处理；保存在上述数据仓库管理***本地的上述源数据，比如包括两个数据表：源表ta、源表tb；其中，源表ta请参见如下表1所示，源表tb请参见如下表2所示。

id_card	name	age
			ID00001	甲	20
ID00002	乙	21
			ID00003	丙	22
ID00004	丁	23
			ID00001	甲	20

表1

id_card	degree	graduation
			ID00001	本科	2018-06-06
ID00003	博士	2018-06-07

表2

如表1所示的顶部各个字段(id_card、name、age)、如表2所示的顶部各个字段(id_card、degree、graduation)，为每个表的表字段；如表1及表2所示的除顶部各个字段以外的每行数据为为每个表的行数据。

在本说明书中，上述目标数据，是指上述源数据经上述数据仓库管理***进行ETL数据处理得到的、与上述源数据存在数据血缘关系的数据。

为了方便理解，这里简单介绍下数据血缘关系。数据血缘关系，是指数据在产生、处理、流转到消亡过程中，最终得到的数据与其来自的源头数据之间形成的一种类似于人类社会血缘关系的继承关系。

在本说明书中，上述第一血缘标识为上述目标数据包括的、唯一表征上述目标数据的每行数据的数据来源的标识。

在实现时，上述第一血缘标识可以为上述目标数据包括、唯一表征上述目标数据的数据表中的每行数据的数据来源的一个表字段。

接着以上示例继续举例，如图1及图2所示的源表ta、源表tb，经上述数据仓库管理***进行ETL数据处理得到的目标数据可以为目标表ta、目标表tb；其中，目标表ta与源表ta、目标表tb与源表tb的关系，请参见如下表3所示：

源表	目标表
		源表ta	目标表ta＝ETL处理后的源表ta+srckey
源表tb	目标表tb＝ETL处理后的源表tb+srckey

表3

如表3所示，目标表ta可以包括ETL处理后的源表ta和srckey表字段；其中，srckey为唯一表征目标表ta的每行数据的数据来源的第一血缘标识。类似地，目标表tb可以包括ETL处理后的源表tb和srckey表字段；其中，srckey为唯一表征目标表tb的每行数据的数据来源的第一血缘标识。

在示出的一种实施方中，上述目标数据除了包括上述第一血缘标识外，还包括唯一表征上述目标数据的每行数据的索引标识。

接着以上示例继续举例，目标表ta和目标表tb，所包括的内容，请参见如下表4所示：

目标表	目标表的内容
		目标表ta	rowkey+ETL处理后的源表ta+srckey
目标表tb	rowkey+ETL处理后的源表tb+srckey

表4

如表4所示，目标表ta可以除了包括srckey表字段(第一血缘标识)外，还包括唯一表征目标表ta的每行数据的索引标识rowkey。类似地，目标表tb可以除了包括srckey表字段(第一血缘标识)外，还包括唯一表征目标表tb的每行数据的索引标识rowkey。

在本说明书中，上述加工数据，为上述数据仓库管理***对上述源数据进行ETL数据处理得到上述目标数据过程中的过程数据。

例如，在实际应用中，上述数据仓库管理***可以对上述源数据进行ETL数据处理，得到对应的加工数据；进一步地，可以对该加工数据再进行ETL数据处理，得到多次ETL数据处理的加工数据。

在本说明书中，上述加工数据至少包括唯一表征上述加工数据的每行数据的数据来源的第二血缘标识；其中，上述第二血缘标识为上述加工数据包括的、唯一表征上述加工数据的每行数据的数据来源的标识。

在实现时，上述第二血缘标识可以为上述加工数据包括、唯一表征上述加工数据的数据表中的每行数据的数据来源的一个表字段。

例如，与源表ta对应的加工数据为加工表ta，与源表tb对应的加工数据为加工表tb；加工表ta与源表ta、加工表tb与源表tb的关系，请参见如下表5所示：

源表	加工表
		源表ta	加工表ta＝ETL处理后的源表ta+srckey1
源表tb	加工表tb＝ETL处理后的源表tb+srckey1

表5

如表5所示，加工表ta可以包括ETL处理后的源表ta和srckey1表字段；其中，srckey1为唯一表征加工表ta的每行数据的数据来源的第二血缘标识。类似地，加工表tb可以包括ETL处理后的源表tb和srckey1表字段；其中，srckey1为唯一表征加工表tb的每行数据的数据来源的第二血缘标识。

在本说明书中，上述数据仓库管理***生成与上述源数据对应的包括第一血缘标识的目标数据。

在示出的一种实施方式中，在生成与上述源数据对应的包括第一血缘标识的目标数据的过程中，上述数据仓库管理***生成上述源数据的上述加工数据。

为了方便理解，上述数据仓库管理***对上述源数据进行ETL数据处理后得到对应的上述加工数据；以及，对上述加工数据进行迭代ETL数据处理，得到对应的目标数据的过程，以下通过一个具体实施例来详细描述。

在示出的一种实施方式中，在生成上述源数据的上述加工数据的过程中，上述数据仓库管理***生成上述源数据的第一加工数据；其中，上述第一加工数据至少包括上述源数据、唯一表征上述加工数据的每行数据对应来自上述源数据的数据来源的第二血缘标识。

接着以上示例继续举例，与源表ta对应的第一加工数据为第一加工表ta，与源表tb对应的第一加工数据为第一加工表tb；第一加工表ta与源表ta、第一加工表tb与源表tb的关系，请参见如下表6所示：

源表	第一加工表
		源表ta	第一加工表ta＝源表ta+srckey1-A
源表tb	第一加工表tb＝源表tb+srckey1-A

表6

如表6所示，第一加工表ta可以包括ETL处理后的源表ta和srckey1-A表字段；其中，srckey1-A为唯一表征第一加工表ta的每行数据对应来自源表ta的数据来源的第二血缘标识。类似地，第一加工表tb可以包括ETL处理后的源表tb和srckey1-A表字段；其中，srckey1-A为唯一表征第一加工表tb的每行数据对应来自源表tb的数据来源的第二血缘标识。

在本说明书中，进一步地，上述数据仓库管理***生成上述第一加工数据的第二加工数据；其中，上述第二加工数据至少包括上述第一加工数据、唯一表征上述第二加工数据的每行数据对应来自上述第一加工数据的数据来源的第二血缘标识。

接着以上示例继续举例，与第一加工表ta(第一加工数据)对应的第二加工数据为第二加工表ta，与第一加工表tb(第一加工数据)对应的第二加工数据为第二加工表tb；第二加工表ta与第一加工表ta、第二加工表tb与第一加工表tb的关系，请参见如下表7所示：

表7

如表7所示，第二加工表ta可以包括第一加工表ta和srckey1-B表字段；其中，srckey1-B为唯一表征第二加工表ta的每行数据对应来自第一加工表ta的数据来源的第二血缘标识。类似地，第二加工表tb可以包括第二加工表tb和srckey1-B表字段；其中，srckey1-B为唯一表征第二加工表tb的每行数据对应来自第一加工表tb的数据来源的第二血缘标识。

在本说明书中，进一步地，上述数据仓库管理***迭代生成上述第二加工数据的加工数据，直到得到最终的第三加工数据；其中，上述第三加工数据为上述目标数据进行ETL数据处理前对应的加工数据。

接着以上示例继续举例，上述数据仓库管理***可以对上述第二加工数据进行1次或多次迭代ETL数据处理，直到得到最终的第三加工数据。为了方便描述和理解，以上述数据仓库管理***对上述第二加工数据再进行1次ETL数据处理，直到得到上述第二加工数据的加工数据：上述第三加工数据；其中，上述第三加工数据为上述目标数据进行ETL数据处理前对应的加工数据；

其中，与第二加工表ta(第二加工数据)对应的第三加工数据为第三加工表ta，与第二加工表tb(第二加工数据)对应的第三加工数据为第三加工表tb；第三加工表ta与第二加工表ta、第三加工表tb与第二加工表tb的关系，请参见如下表8所示：

表8

如表8所示，第三加工表ta可以包括第二加工表ta和srckey1-C表字段；其中，srckey1-C为唯一表征第三加工表ta的每行数据对应来自第二加工表ta的数据来源的第二血缘标识。类似地，第三加工表tb可以包括第二加工表tb和srckey1-C表字段；其中，srckey1-C为唯一表征第三加工表tb的每行数据对应来自第二加工表tb的数据来源的第二血缘标识。

在示出的一种实施方式中，上述第三加工数据还包括唯一表征上述第三加工数据的每行数据的索引标识，上述第三加工数据的索引标识为基于上述第三加工数据的表标识和唯一标识算法生成的唯一标识组合得到；其中，该表标识为上述第三加工数据的表名和唯一标识算法生成的唯一标识组合得到；该唯一标识算法为UUID算法或哈希算法；上述第一血缘标识指向上述第三加工数据的索引标识。

接着以上示例继续举例，第三加工数据(如表8所示的第三加工表ta、第三加工表tb)还包括唯一表征该第三加工数据的每行数据的索引标识(比如：第三加工表ta的主键、第三加工表tb的主键)；其中，第三加工数据的索引标识(第三加工表ta的主键rowkey3、第三加工表tb的主键rowkey3)为基于第三加工数据的表标识(比如：第三加工表ta的表名、第三加工表tb的表名)和唯一标识算法生成的唯一标识(UIDn，UIDm；其中；n、m为自然数)组合得到，比如：第三加工表ta的每行数据对应的主键为“第三加工表ta的表名称#唯一标识UIDn”；第三加工表tb的每行数据对应的主键为“第三加工表tb的表名称#唯一标识UIDm”。

如表4所示的目标数据(目标表ta、目标表tb)中各自对应的第一血缘标识：srckey，分别指向第三加工数据(如表8所示的第三加工表ta、第三加工表tb)的索引标识(第三加工表ta的主键rowkey3、第三加工表tb的主键rowkey3)，也即，目标数据(目标表ta、目标表tb)中各自对应的第一血缘标识：srckey，保存了与第三加工数据(如表8所示的第三加工表ta、第三加工表tb)的索引标识(第三加工表ta的主键rowkey3、第三加工表tb的主键rowkey3)的值相同的索引标识副本。

需要说明的是，在实际应用中，上述数据仓库管理***还可以在基于上述第三加工数据的表标识和上述唯一标识算法生成的唯一标识进行其它方式组合得到上述第三加工数据的索引标识，得到上述第三加工数据的索引标识的组合方式，在本说明书中不作具体限定。

在示出的一种实施方式中，上述源数据还包括唯一表征上述源数据的每行数据的索引标识，上述第一加工数据还包括唯一表征上述第一加工数据的每行数据的索引标识，上述第二加工数据还包括唯一表征上述第二加工数据的每行数据的索引标识。

在实现时，上述源数据、上述第一加工数据及上述第二加工数据各自的索引标识可以为上述源数据、上述第一加工数据及上述第二加工数据各自的主键。

接着以上示例继续举例，源数据(如表1所示的源表ta、如表2所示的源表tb)的索引标识为表1所示的“id_card”，表2所示的“id_card”。类似地，第一加工数据(如表6所示的第一加工表ta、第一加工表tb)的索引标识简称为rowkey1，第二加工数据(如表7所示的第二加工表ta、第二加工表tb)的索引标识简称为rowkey2。需要说明的是，rowkey1及rowkey2的生成方式与rowkey3的生成方式类似，也即，可以基于：当前表的表名称#上述唯一标识算法(比如：UUID算法或哈希算法)生成的唯一标识，生成rowkey1及rowkey2，具体过程这里不再赘述。

在示出的一种实施方式中，上述第二血缘标识指向上述源数据的索引标识。

接着以上示例继续举例，如表6所示的第一加工数据(第一加工表ta、第一加工表tb)中各自对应的第二血缘标识：srckey1-A，分别指向源数据(如表6所示的源表ta、源表tb)的索引标识(表1所示的“id_card”，表2所示的“id_card”)，也即，第一加工数据(第一加工表ta、第一加工表tb)中各自对应的第一血缘标识：srckey1-A，保存了与源数据(源表ta、源表tb)的索引标识(表1所示的“id_card”，表2所示的“id_card”)的值相同的索引标识副本。

在示出的另一种实施方式中，上述第二血缘标识指向上述第一加工数据的索引标识。

接着以上示例继续举例，如表7所示的第二加工数据(第二加工表ta、第二加工表tb)中各自对应的第二血缘标识：srckey1-B，分别指向第一加工数据(如表7所示的第一加工表ta、第一加工表tb)的索引标识(第一加工表ta的主键rowkey1、第二加工表ta的主键rowkey1)，也即，第二加工数据(第二加工表ta、第二加工表tb)中各自对应的第二血缘标识：srckey1-B，保存了与第一加工数据(第一加工表ta、第一加工表tb)的索引标识(第一加工表ta的主键rowkey1、第一加工表ta的主键rowkey1)的值相同的索引标识副本。

在示出的再一种实施方式中，上述第二血缘标识指向上述第二加工数据的索引标识。

接着以上示例继续举例，如表8所示的第二加工数据(第三加工表ta、第三加工表tb)中各自对应的第二血缘标识：srckey1-C，分别指向第二加工数据(如表8所示的第二加工表ta、第二加工表tb)的索引标识(第二加工表ta的主键rowkey2、第二加工表ta的主键rowkey2)，也即，第三加工数据(第三加工表ta、第三加工表tb)中各自对应的第二血缘标识：srckey1-C，保存了与第二加工数据(第二加工表ta、第二加工表tb)的索引标识(第二加工表ta的主键rowkey2、第二加工表ta的主键rowkey2)的值相同的索引标识副本。

需要说明的是，在以上表6至表8对应的描述上述数据仓库管理***生成上述源数据的上述加工数据的示例过程中，上述数据仓库管理***上述源数据进行了3次ETL数据处理：源数据->第一加工数据->第二加工数据->第三加工数据；其中，第三加工数据为得到上述目标数据的最终加工数据。在实际应用中，上述数据仓库管理***对上述源数据进行ETL数据处理得到加工数据的处理次数，在本说明书中不作具体限定，比如：上述数据仓库管理***可以仅上述源数据进行1次ETL数据处理，得到第一加工数据，而该第一加工数据就是上述目标数据；或者，上述数据仓库管理***可以对上述源数据进行2次或超过3次以上的ETL数据处理。

在本说明书中，在生成上述源数据的上述加工数据后，上述数据仓库管理***基于上述索引标识及上述加工数据，生成与上述源数据对应的目标数据。

接着以上示例继续举例，上述索引标识比如为如表4所示的rowkey，上述加工数据比如为第三加工数据，第三加工数据包括：如表8中所示的第三加工表ta、第三加工表tb；上述数据仓库管理***将rowkey(索引标识)及第三加工数据(第三加工表ta、第三加工表tb)作为目标数据的表数据，生成与源数据(源表ta、源表tb)对应的目标数据(目标表ta和目标表tb)；

其中，目标表ta和目标表tb，所包括的内容，在表4的基础上进行变化，请参见如下表9所示：

目标表	目标表的内容
		目标表ta	rowkey+第三加工表ta+srckey
目标表tb	rowkey+第三加工表tb+srckey

表9

如表9所示，目标表ta包括：rowkey、第三加工表ta、srckey；其中，rowkey为唯一指示目标表ta的每行数据的索引标识，srckey为唯一表征目标表ta的每行数据的来自于第三加工表ta的数据来源的第一血缘标识。

类似地，目标表tb包括：rowkey、第三加工表tb、srckey；其中，rowkey为唯一指示目标表tb的每行数据的索引标识，srckey为唯一表征目标表tb的每行数据的来自于第三加工表tb的数据来源的第一血缘标识。

需要说明的是，在以上表6至表9对应的描述的上述数据仓库管理***生成上述源数据对应的上述目标数据的示例过程中，经过如下数据处理：源数据->第一加工数据->第二加工数据->第三加工数据->目标数据，得到目标数据；分别将源数据、第一加工数据、第二加工数据及第三加工数据，代入到目标数据中，得到的目标数据，请参见如下表10所示：

表10

如表10所示，srckey(第一血缘标识)指向rowkey3，srckey1-C(第二血缘标识)指向rowkey2，srckey1-B(第二血缘标识)指向rowkey1，srckey1-A(第二血缘标识)指向源表(源表ta、源表tb)的索引标识(源表的主键)。

需要说明的是，通过以上描述的技术方案，上述数据仓库管理***通过迭代生成多级血缘标识，可以实现数据血缘的快速溯源和精准溯源(可以溯源上述源数据的行级数据)。

在示出的一种实施方式中，在生成上述目标数据后，当需要对上述目标数据进行数据血缘溯源时，上述数据仓库管理***构建用于上述目标数据的数据血缘查询指令，并基于上述数据血缘查询指令查询上述目标数据，得到上述目标数据追溯至上述源数据的数据血缘。

接着以上示例继续举例，当需要对目标数据(如表10所示的目标表ta、目标表tb)进行数据血缘溯源时，比如：追溯目标表ta或目标表tb中的某行数据的数据来源(比如：经过几次ETL数据处理，加工过程中的加工数据有哪些加工表，以及，该行数据对应来自源数据中的目标表和目标行)，上述数据仓库管理***可以基于SQL(Structured QueryLanguage，结构化查询语言)构建用于该目标数据的数据血缘查询指令；

其中，该数据血缘查询指令中可以包括与目标数据中的待进行数据血缘溯源数据对应的血缘标识，比如：

该血缘标识为如表10所示的srckey、srckey1-C、srckey1-B、srckey1-A的多级血缘标识。

进一步地，上述数据仓库管理***可以通过该多级血缘标识，从目标数据到加工数据到源数据，层层追溯进行数据血缘追溯，直至追溯至源数据的目标行数据；其中，数据血缘追溯顺序如下所示：

srckey->rowkey3->srckey1-C->rowkey2->srckey1-B->srckey1-A->源表的索引标识(源表的主键)。

需要说明的是，上述数据仓库管理***执行基于SQL的上述数据血缘查询指令的数据库的类型，在本说明书中不作具体限定。

在以上技术方案中，从对接的业务***获取源数据并保存在本地；以及，生成与源数据对应的包含血缘标识的目标数据，从而实现了对数据血缘关系基于行级数据的精准构建，提高了数据血缘溯源效率和精准度。

与上述方法实施例相对应，本申请还提供了数据血缘生成装置的实施例。

与上述方法实施例相对应，本说明书还提供了一种数据血缘生成装置的实施例。本说明书的数据血缘生成装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书的数据血缘生成装置所在电子设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

图4是本说明书一示例性实施例示出的一种数据血缘生成装置的框图。

请参考图4，所述数据血缘生成装置40可以应用在前述图3所示的电子设备中，所述装置应用于数据仓库管理***，所述装置包括：

获取模块401，从对接的业务***获取源数据并保存在本地；其中，所述源数据为基于数据库的表数据；

生成模块402，生成与所述源数据对应的目标数据；其中，所述目标数据至少包括唯一表征所述目标数据的每行数据的数据来源的第一血缘标识。

在本实施例中，所述目标数据还包括唯一表征所述目标数据的每行数据的索引标识；

所述生成模块402进一步：

在本实施例中，所述生成模块402进一步：

在本实施例中，当需要对所述目标数据进行数据血缘溯源时，还包括：

溯源模块403，构建用于所述目标数据的数据血缘查询指令，并基于所述数据血缘查询指令查询所述目标数据，得到所述目标数据追溯至所述源数据的数据血缘。

在本实施例中，所述第三加工数据还包括唯一表征所述第三加工数据的每行数据的索引标识，所述第三加工数据的索引标识为基于所述第三加工数据的表标识和唯一标识算法生成的唯一标识组合得到；所述第一血缘标识指向所述第三加工数据的索引标识。

在本实施例中，所述源数据还包括唯一表征所述源数据的每行数据的索引标识，所述第一加工数据还包括唯一表征所述第一加工数据的每行数据的索引标识，所述第二加工数据还包括唯一表征所述第二加工数据的每行数据的索引标识；

在本实施例中，所述唯一标识算法为UUID算法或哈希算法。

上述实施例阐明的装置、装置、模块或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与上述方法实施例相对应，本说明书还提供了一种电子设备的实施例。所述电子设备可以应用于数据仓库管理***；该电子设备包括：处理器以及用于存储机器可执行指令的存储器；其中，处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与数据血缘生成的控制逻辑对应的机器可执行指令，所述处理器被促使：

在本实施例中，所述目标数据还包括唯一表征所述目标数据的每行数据的索引标识；通过读取并执行所述存储器存储的与数据血缘生成的控制逻辑对应的机器可执行指令，所述处理器被促使：

在本实施例中，当需要对所述目标数据进行数据血缘溯源时，通过读取并执行所述存储器存储的与数据血缘生成的控制逻辑对应的机器可执行指令，所述处理器被促使：

在本实施例中，所述唯一标识算法为UUID算法或哈希算法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种数据血缘生成方法，所述方法应用于数据仓库管理***，所述方法包括：

2.根据权利要求1所述的方法，所述目标数据还包括唯一表征所述目标数据的每行数据的索引标识；

所述生成与所述源数据对应的目标数据，包括：

3.根据权利要求2所述的方法，所述生成所述源数据的加工数据，包括：

4.根据权利要求2所述的方法，所述基于所述索引标识及所述加工数据，生成与所述源数据对应的目标数据，包括：

5.根据权利要求1所述的方法，当需要对所述目标数据进行数据血缘溯源时，还包括：

6.根据权利要求3所述的方法，所述第三加工数据还包括唯一表征所述第三加工数据的每行数据的索引标识，所述第三加工数据的索引标识为基于所述第三加工数据的表标识和唯一标识算法生成的唯一标识组合得到；所述第一血缘标识指向所述第三加工数据的索引标识。

7.根据权利要求3所述的方法，所述源数据还包括唯一表征所述源数据的每行数据的索引标识，所述第一加工数据还包括唯一表征所述第一加工数据的每行数据的索引标识，所述第二加工数据还包括唯一表征所述第二加工数据的每行数据的索引标识；

8.根据权利要求6或7所述的方法，所述唯一标识算法为UUID算法或哈希算法。

9.一种数据血缘生成装置，所述装置应用于数据仓库管理***，所述装置包括：

10.一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行如权利要求1至8任一项所述的方法。

11.一种机器可读存储介质，所述机器可读存储介质存储有机器可读指令，所述机器可读指令在被处理器调用和执行时，实现权利要求1至8任一项所述的方法。