CN107766376A

CN107766376A - 数据对齐方法及装置

Info

Publication number: CN107766376A
Application number: CN201610698012.5A
Authority: CN
Inventors: 耿杰; 张旭
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2018-03-06

Abstract

本发明公开了一种数据对齐方法及装置，属于计算机技术领域。该方法包括：获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合；确定业务数据库和基线数据库的表相似度和字段相似度；对业务数据库和基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度；基于融合字段相似度，建立第一数据表集合中的每一个数据表的每一个字段与基线数据库中相应的字段的映射关系；显示该映射关系。本发明通过将业务数据映射到基线数据库，从而将业务数据的数据格式和存储方式进行统一，降低了人力，还提高了开发出的应用的可复制能力。

Description

数据对齐方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种数据对齐方法及装置。

背景技术

为了便于向用户提供更便捷的服务，以及提高用户体验，运营商可以通过在多个不同的地点分别设置业务设备来为用户提供业务，也即是，运营商可能会设置多个业务设备，且该多个业务设备位于不同的地点。当为该运营商提供的业务开发对应的应用时，需要获取各个业务设备产生的业务数据，比如，对于电信运营商来说，电信运营商可能会设置多个不同的电信局点来提供电信业务，当为电信业务开发应用时，需要获取各个电信局点产生的业务数据。

以电信业务为例，当获取各个电信局点产生的业务数据时，需要对各个电信局点的业务数据进行单独的数据采集和数据整理。然而，目前来说，这种数据采集和数据整理都是通过手工方式完成的，耗费大量的人力，并且每个电信局点整理出的数据格式、存储方式均不同，从而导致开发出的应用的可复制能力较差，无法应用到各个电信局点中。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种数据对齐方法及装置。所述技术方案如下：

第一方面，提供了一种数据对齐方法，所述方法包括：

获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合，所述第一数据表集合中的每一个数据表包括多个字段，所述第二数据表集合中的每一个数据表包括多个字段。需要说明的是，业务数据库中包括的第一数据表集合可以用于存储同一业务设备产生的业务数据，当然，也可以用于存储提供不同业务设备产生的业务数据，优选地，为了提高数据映射的准确率，以及应用开发的效率，该业务数据库中包括的第一数据表集合用于存储同一业务设备产生的业务数据，且每张数据表对应不同的业务类型。

另外，基线数据库为在数据对齐***的本地设置的数据库，且为了提高数据映射的准确率，基线数据库中包括的第二数据表集合也可以对应不同的业务类型。再者，由于本发明实施例是为了将业务数据库中的业务数据映射到基线数据库中，因此，基线数据库中包括的第二数据表集合可以为空表，也即是，每一个数据表中的多个字段下可以无需存储数据。当然，也可以存储数据，本发明实施例对此不做具体限定。

值得注意的是，业务数据库中还可以存储第一数据表集合中每一个数据表的表名和表描述信息，以及每一个数据表中多个字段的字段名和字段数据，表描述信息用于对数据表进行描述，该字段数据为字段下存储的业务数据，当然业务数据库中还可以存储其他的信息，本发明实施例对此不做具体限定。

同理，基线数据库中还可以存储第二数据表集合中每一个数据表的表名和表描述信息，以及每一个数据表中多个字段的字段名，并且在第二数据表集合中的每一个数据表中的多个字段下存储有数据时，该基线数据库中还可以存储每一个字段的字段数据，当然基线数据库中还可以存储其他的信息，本发明实施例同样对此不做具体限定。

确定所述业务数据库和所述基线数据库的表相似度和字段相似度；其中，所述业务数据库和所述基线数据库的表相似度为所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的相似度；所述业务数据库和所述基线数据库的字段相似度为所述第一数据表集合中的每一个数据表的每一个字段与所述第二数据表集合中的每一个数据表的每一个字段之间的相似度；其中，业务数据库和基线数据库的表相似度可以基于第一数据表集合中的每一个数据表的特征信息和第二数据表集合中的每一个数据表的特征信息计算得到。同理，业务数据库和基线数据库的字段相似度可以基于第一数据表集合中的每一个数据表的每一个字段的特征信息和第二数据表集合中的每一个数据表的每一个字段的特征信息计算得到。

对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度；在本发明实施例中，通过将业务数据表和基线数据库的表相似度和字段相似度进行融合运算，不仅可以实现通过数据表对字段产生影响，当然也可以通过字段对数据表产生影响，进而通过两者共同作用来确定需要映射业务数据的字段，提高数据映射的准确率。

基于所述融合字段相似度，建立所述第二数据表集合中的每一个数据表的每一个字段与所述业务数据库中相应的字段的映射关系，并显示所述映射关系。

需要说明的是，在本发明实施例中，可以直接显示该映射关系，然后由用户从基线数据库中，为第一数据表集合中的数据选择需要映射的字段，当然，也可以直接基于该融合字段相似度，从基线数据库中选择与第一数据表集合中每一个数据表的每一个字段之间的融合字段相似度最大的字段，并在显示该映射关系时，将选择的字段也进行显示，以推荐给用户。实际应用中，还可以通过其他的方式从基线数据库中选择第一数据表集合中数据对应的字段，本发明实施例对此不做具体限定。

在一种可能的设计中，所述显示所述映射关系之后，还包括：

基于所述映射关系接收指示消息，所述指示消息用于指示在所述基线数据库中所述第一数据表集合中的数据所映射的字段；

需要说明的是，该指示消息可以由用户触发，也即是，当用户从基线数据库中，为第一数据表集合中的数据选择需要映射的字段时，该用户可以触发该指示消息，并通过该指示消息来指示第一数据表集合中的数据所映射的字段。

基于所述指示消息和所述映射关系，将所述第一数据表集合中每一个数据表中的数据映射到所述基线数据库中。

其中，在本发明实施例中，基于该映射关系，将第一数据表集合中的数据映射到基线数据库，也即是，将第一数据表集合中的数据进行数据格式和存储方式的统一，不仅可以节省人力，还可以保证开发出的应用的可复制能力较高，可以应用到其他业务设备中。

在一种可能的设计中，所述确定所述业务数据库和所述基线数据库的表相似度，具体为：

获取所述业务数据库包括的第一数据表集合中的每一个数据表的表名和表描述信息；基于所述第一数据表集合中的每一个数据表的表名和表描述信息，确定所述第一数据表集合中的每一个数据表的特征向量；其中，在具体实现时，可以提取第一数据表集合中的每一个数据表的表名的特征信息，以及第一数据表集合中每一个数据表的表描述信息的特征信息，进而通过提取的特征信息来生成第一数据表集合中的每一个数据表的特征向量。

获取所述基线数据库包括的第二数据表集合中的每一个数据表的表名和表描述信息；基于所述第二数据表集合中的每一个数据表的表名和表描述信息，确定所述第二数据表集合中的每一个数据表的特征向量；其中，在具体实现时，可以提取第二数据表集合中的每一个数据表的表名的特征信息，以及第二数据表集合中的每一个数据表的表描述信息的特征信息，进而通过提取的特征信息来生成第二数据表集合中的每一个数据表的特征向量。

基于所述第一数据表集合中的每一个数据表的特征向量和所述第二数据表集合中的每一个数据表的特征向量，确定所述业务数据库和所述基线数据库的表相似度。当通过第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度时，可以按照距离公式来计算，而距离公式可以参考相关技术，本发明实施例对此不做具体限定。

在一种可能的设计中，所述确定所述业务数据库和所述基线数据库的字段相似度，具体为：

获取所述业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据；其中，所述字段数据为存储在相应字段下的业务数据；基于所述第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定所述第一数据表集合中的每一个数据表的每一个字段的特征向量；其中，在具体实现时，可以提取业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名的特征信息，以及业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段数据的特征信息，进而通过提取的特征信息来生成业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的特征向量。

获取所述基线数据库包括的第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据；基于所述第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定所述第二数据表集合中的每一个数据表的每一个字段的特征向量；其中，在具体实现时，可以提取第一数据表集合中的每一个数据表的每一个字段的字段名的特征信息，以及第一数据表集合中的每一个数据表的每一个字段的字段数据的特征信息，进而通过提取的特征信息来生成第一数据表集合中的每一个数据表的每一个字段的特征向量。

基于所述第一数据表集合中的每一个数据表的每一个字段的特征向量和所述第二数据表集合中的每一个数据表的每一个字段的特征向量，确定所述业务数据库和所述基线数据库的字段相似度。当通过第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度时，可以按照距离公式来计算，而距离公式可以参考相关技术，本发明实施例对此不做具体限定。

在一种可能的设计中，所述对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度，具体为：

步骤A：基于所述业务数据库和所述基线数据库的表相似度，生成表相似度矩阵；基于所述业务数据库和所述基线数据库的字段相似度，生成字段相似度矩阵；其中，可以将业务数据库和基线数据库的表相似度，按照矩阵生成规则，填充到空白的矩阵中，得到表相似度矩阵，并将业务数据库和基线数据库的字段相似度，按照矩阵生成规则，填充的空白的矩阵中，得到字段相似度矩阵。

步骤B：基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵；

步骤C：基于所述字段相似度融合矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵；其中，该加权匹配关系矩阵是通过表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵来生成，也即是，该加权匹配关系矩阵可以反映数据表与字段之间相互的作用关系。

步骤D：基于所述加权匹配关系矩阵和所述初始化融合权重矩阵，生成业务融合权重矩阵；

步骤E：将所述初始化融合权重矩阵设置为所述业务融合权重矩阵，重复执行步骤B、C和D，直至所述业务融合权重矩阵收敛，执行步骤F；

步骤F：将通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵中包括的字段相似度确定为所述融合字段相似度。

通过本发明实施例提供的迭代方式，对业务融合权重矩阵进行训练，从而在业务融合权重矩阵收敛时，可以确定收敛的业务融合权重矩阵能够准确反映数据表与字段之间的作用关系。因此，将通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵包括的多个字段相似度确定为所述多个字段相似度，从而可以提高确定字段相似度的准确率，进而为业务数据的映射提供可靠的基础。

在一种可能的设计中，所述基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵，包括：

基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵，按照如下任一相似度融合公式，生成字段相似度融合矩阵；

所述相似度融合公式包括如下公式中的任一个：

其中，在上述相似度融合公式中，所述为所述第一数据表集合中的数据表i中的字段a与所述第二数据表集合中的数据表j中的字段b之间的字段相似度；所述为所述第一数据表集合中的数据表i中的字段a与所述第二数据表集合中的数据表j中的字段b之间融合后的字段相似度，所述w_i,j为所述第一数据表集合中的数据表i与所述第二数据表集合中的数据表j之间的融合权重，所述为所述第一数据表集合中的数据表i与所述第二数据表集合中的数据表j之间的表相似度，所述α、β、γ分别为预设值。

需要说明的是，本发明实施例仅以上述三个相似度融合公式为例进行说明，实际应用中，相似度融合公式还可以为其他的形式，本发明实施例对此不做具体限定。

在一种可能的设计中，所述基于所述字段相似度融合矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵，具体为：

将所述字段相似度融合矩阵中的每列字段相似度按照从大到小的顺序进行排序，得到所述每列字段相似度的排列顺序；

其中，将字段相似度融合矩阵中的每列字段相似度按照从大到小的顺序进行排序，也即是，基于字段相似度从大到小的顺序，将字段相似度融合矩阵中字段相似度按列进行排序。

需要说明的是，当同一列字段相似度中存在至少两个相同的字段相似度时，可以将该至少两个相同的字段相似度进行随机排放，本发明实施例对此不做具体限定。

按照所述每列字段相似度的排列顺序，从所述每列字段相似度中选择排序靠前的N个字段相似度；其中，N为正整数；需要说明的是，N可以事先设置，比如，N可以为3、5等等，本发明实施例对此不做具体限定。

基于从所述每列字段相似度中选择的N个字段相似度，生成业务表序号矩阵；具体地，确定每列字段相似度中选择的字段相似度在第一数据表集合中所属的数据表，进而将确定的数据表的表号，按照选择的字段相似度在所属列中的顺序，生成业务表序号矩阵。

基于所述业务表序号矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵。

在一种可能的设计中，所述基于所述业务表序号矩阵，生成所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系矩阵，包括：

基于所述业务表序号矩阵，确定从所述第一数据表集合的每一个数据表中针对所述第二数据表集合中的每一个数据表所选择的字段的总数；其中，当基于业务表序号矩阵，确定从第一数据表集合中的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数时，可以从业务表序号中第二数据表集合中每一个数据表所在列中确定第一数据表集合中每一个数据表的表序号的个数，将确定的个数确定为从第一数据表集合中的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数。

确定所述针对所述第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置；由于业务表序号是基于字段相似度融合矩阵中每列字段相似度排序后确定得到，因此，业务表序号中的每列序号也存在一定的顺序关系，因此，可以确定从第一数据表集合中的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置。

基于所述针对所述第二数据表集合中的每一个数据表所选择的字段的总数、所述针对所述第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置和所述N，按照如下加权匹配公式确定所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系；

基于所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系，生成所述加权匹配关系矩阵；由于加权匹配关系矩阵是由各个加权匹配关系确定得到，因此，当确定第一数据表集合中每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系之后，可以生成加权匹配关系矩阵。

其中，所述加权匹配公式为所述v_i,j为第一数据表集合中的数据表i与第二数据表集合中的数据表j之间的加权匹配关系，所述K为所述针对所述第二数据表集合中的每一个数据表所选择的字段的总数，所述为从所述第一数据表集合中的数据表i中针对所述第二数据表集合中的数据表j所选择的第k个字段在所述业务表序号矩阵中对应列所处的排序位置。

在一种可能的设计中，所述基于所述加权匹配关系矩阵和所述初始化融合权重矩阵，生成业务融合权重矩阵，包括：

对所述加权匹配关系矩阵进行归一化处理，得到归一化矩阵；由于一般情况下，权重都是大于或等于0且小于或等于1的数值，因此，在确定得到加权匹配关系矩阵之后，可以对该加权匹配关系矩阵进行归一化处理。

基于所述初始化融合权重矩阵和所述归一化矩阵，按照如下权重融合公式生成业务融合权重矩阵；

所述权重融合公式为：

其中，在上述权重融合公式中，所述w'_i,j为所述业务融合权重矩阵，所述w_i,j为初始化融合权重矩阵，所述f为预设的反馈权重且大于0，所述为所述归一化矩阵。

第二方面，提供了一种数据对齐装置，所述数据对齐装置具有实现上述第一方面中数据对齐装置行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一种可能的设计中，所述数据对齐装置的结构中包括处理器和存储器，所述存储器用于存储支持数据对齐装置执行上述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述数据对齐装置还可以包括通信接口，用于所述数据对齐装置与其他装置或通信网络通信。

第三方面，本发明实施例提供了一种计算机存储介质，用于储存为上述数据对齐装置所用的计算机软件指令，其包含用于执行上述方面为数据对齐装置所设计的程序。

相较于现有技术，在本发明实施例中，由于业务数据库和基线数据库的表相似度是基于业务数据库包括的第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的相似度确定得到，业务数据库和基线数据库的字段相似度是基于第一数据表集合中每一个数据表的每一个字段与第二数据表集合中每一个数据表的每一个字段之间的相似度确定得到，因此，通过业务数据库和基线数据库的表相似度和字段相似度进行融合运算之后，得到融合字段相似度，并基于该融合字段相似度，建立第一数据表集合中的每一个数据表的每一个字段与基线数据库中相应的字段的映射关系，并显示该映射关系，也即是，通过该映射关系可以将第一数据表集合中的数据格式和存储方式进行统一，并且还降低了人力，还可以提高开发出的应用的可复制能力。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。

图1A是现有技术提供的一种应用开发流程的示意图；

图1B是本发明实施例提供的一种应用开发流程的示意图；

图1C是本发明实施例提供的一种基线数据库和业务数据库的结构示意图；

图1D是本发明实施例提供的一种数据对齐***的结构示意图；

图2是本发明实施例提供的一种计算机设备的结构示意图；

图3是本发明实施例提供的一种数据对齐方法的流程图；

图4是本发明实施例提供的一种数据对齐装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的应用场景予以介绍。

由于对运营商提供的业务开发应用时，需要对各个业务设备产生的业务数据进行单独的数据采集和数据整理，且一般来说，这种数据采集和数据整理都是通过手工方式完成的，耗费大量的人力，并且每一个业务设备整理出的数据格式、存储方式均不同，从而导致开发出的应用的可复制能力较差，无法应用到各个业务设备中，因此，为了降低人力，以及提高应用的可复制能力，本发明实施例提供了一种能够自动进行数据整理的数据对齐***，通过该数据对齐***可以将不同业务设备的业务数据映射到基线数据库中。由于基线数据库是本地化定制的，具有统一的数据格式和存储方式，因此，基于基线数据库开发的应用可以以低廉的成本扩展到多个业务设备中。

示例地，以电信业务来说，如图1A所示，该电信业务部署在电信局点A、电信局点B和电信局点C上，当为电信业务开发应用时，可以对电信局点A的业务数据进行数据采集，并对采集的业务数据进行数据整理，对电信局点B的业务数据进行数据采集，并对采集的业务数据进行数据整理，以及对电信局点C的业务数据进行数据采集，并对采集的业务数据进行数据整理，也即是，对各个电信局点的业务数据单独进行数据采集和数据整理，之后，基于各个电信局点的业务数据进行应用开发。而在本发明实施例中，如图1B所示，可以在对各个电信局点的业务数据单独进行数据采集之后，通过数据对齐***可以将各个电信局点的业务数据映射到基线数据库中，由于基线数据库具有统一的数据格式和存储方式，也即是数据对齐***的目的是将多个电信局点的数据映射到统一的基线数据库中。在这个过程中，绝大多数的数据映射规则是自动完成的，仅需要少量的人工进行最终的确认和纠错。因此，基于映射后的各个电信局点的业务数据开发应用时，极大降低了现场人力，预计平均每一个电信局点可将人力成本降低至四十分之一。

业务数据主要的组织形式如图1C所示，是以“表-字段-数据”的方式构成。图1C中所示的是基线数据库和业务数据库的数据组织形式。可以看到，两者拥有相同的结构，都是由若干张表构成。通常每张表代表一种业务类型，如产品订购表、用户信息表等。表通常拥有表名和表描述信息等。且从图1C中所示的每张具体的表中的组织形式中可以看到每张表是由若干字段及字段下的数据构成，字段和数据描述的是每一个业务中具体的内容，如“product_id”、“user_name”、“city_code”等。

数据对齐的最终目的是要将业务设备产生的业务数据导入到基线数据库中，也即是，将业务数据按照基线数据库中的数据格式和存储方式进行映射。由于业务数据是存储在字段下的，因此最终要利用的是字段匹配对齐的结果。不过在数据对齐过程中，不仅要考虑字段与字段的相似度，同时也要考虑表与表的相似度。否则某些拥有相同字段的表就无法区分开来，从而降低了字段匹配的准确性。

因此整个数据对齐过程主要可以分为表对齐和字段对齐两个层面。表对齐主要通过对表名和表描述信息计算表相似度，字段对齐主要通过对字段名和字段数据计算字段相似度。这两种对齐都有可能存在一对一、一对多和多对一的情况。尽管两种对齐是分别计算的，但是表相似度和字段相似度是高度统一的整体。这意味着任何一方的相似度都会对另一方的相似度产生影响。

基于上述情况，参见图1D，图1D是本发明实施例提供了一种数据对齐***的结构示意图，该数据对齐***包括特征提取引擎110、特征变换引擎120、相似度计算引擎130、相似度迭代对齐引擎140和用户界面展示模块150。

当需要对业务数据库包括的业务数据映射到基线数据库时，可以获取业务数据库中包括的第一数据表集合，以及基线数据库包括的第二数据表集合，且第一数据表集合中的每一个数据表中均包括多个字段，第二数据表集合中的每一个数据表中均包括多个字段，因此，特征提取引擎110可以确定第一数据表集合中的每一个数据表的特征向量，第一数据表集合中的每一个数据表的每一个字段的特征向量，第二数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量。可选地，特征变换引擎120可以将特征提取引擎110提取的各个特征向量进行空间变换，得到变换后的各个特征向量。之后，相似度计算引擎130可以基于变换后的第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度，并基于变换后的第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度。相似度迭代对齐引擎140可以业务数据库和基线数据库的表相似度和字段相似度进行迭代融合运算，得到融合字段相似度，基于融合字段相似度，建立第二数据表集合中的每一个数据表的每一个字段与业务数据库中相应的字段的映射关系，之后，用户界面展示模块150可以将该映射关系进行显示，由用户基于显示的映射关系，选择需要将业务数据库中的业务数据所映射到的字段，以实现将业务数据映射到基线数据库。

需要说明的是，为了便于理解，在图1D中画出两组特征提取引擎110、特征变换引擎120和相似度计算引擎130，但是实际应用中，这两组特征提取引擎110、特征变换引擎120和相似度计算引擎130应该是相同的引擎。

具体地，将数据对齐***包括的多个模块各自的功能阐述如下：

特征提取引擎110，用于基于第一数据表集合中的每一个数据表的表名和表描述信息，分别确定第一数据表集合中的每一个数据表的特征向量，基于第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，分别确定第一数据表集合中的每一个数据表的每一个字段的特征向量，以及基于第二数据表集合中的每一个数据表的表名和表描述信息，分别确定第二数据表集合中的每一个数据表的特征向量，基于第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，分别确定第二数据表集合中的每一个数据表的每一个字段的特征向量。

特征变换引擎120，用于将特征提取引擎110提取的各个特征向量进行空间变换，得到变换后的各个特征向量。其中，空间变换主要分为升维和降维两部分，升维的目的是提高特征的区分性，降维的目的是降低特征冗余。

需要说明的是，在本发明实施例中，特征变换引擎120是一个可选模块，也即是，该数据对齐***中可以包括特征变换引擎120，当然也可以不包括，本发明实施例对此不做具体限定。

相似度计算引擎130，用于基于变换后的第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，按照距离公式确定业务数据库和基线数据库的表相似度，并基于变换后的第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，按照距离公式确定业务数据库和基线数据库的字段相似度。其中，按照距离公式确定相似度的方法可以参考相关技术，本发明实施例对此不做具体限定。

相似度迭代对齐引擎140，用于基于业务数据库和基线数据库的表相似度和字段相似度进行融合运算，生成业务融合权重矩阵，然后基于生成的业务融合权重矩阵，进行迭代运算，直至该业务融合权重矩阵收敛为止，之后，通过收敛的业务融合权重矩阵确定得到融合字段相似度。

其中，相似度迭代对齐引擎140包括相似度融合模块和基于排序的反馈模块，相似度融合模块用于基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵。基于排序的反馈模块用于基于字段相似度融合矩阵，生成第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的加权匹配关系矩阵；基于加权匹配关系矩阵和初始化融合权重矩阵，生成业务融合权重矩阵，并令初始化融合权重矩阵为业务融合权重矩阵，重新返回本模块，直至业务融合权重矩阵收敛为止。基于通过收敛的业务融合权重矩阵确定的字段相似度融合矩阵中的字段相似度，建立第二数据表集合中的每一个数据表的每一个字段与业务数据库中相应的字段的映射关系。

用户界面展示模块150，用于将该映射关系进行显示，由用户基于显示的映射关系，选择需要将业务数据库中的业务数据所映射到的字段，进而将业务数据映射到对应的字段中，以实现将业务数据映射到基线数据库。

图2是本发明实施例提供的一种计算机设备的结构示意图。图1D中的数据对齐***可以通过图2所示的计算机设备来实现。参见图2，该计算机设备包括至少一个处理器201，通信总线202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器203可以是独立存在，通过通信总线202与处理器201相连接。存储器203也可以和处理器201集成在一起。

通信接口204，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图2中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图2中所示的处理器201和处理器208。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD),发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接收用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(PersonalDigital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本发明实施例不限定计算机设备的类型。

其中，存储器203用于存储执行本发明方案的程序代码，并由处理器201来控制执行。处理器201用于执行存储器203中存储的程序代码210。程序代码210中可以包括一个或多个软件模块(例如：特征提取引擎、特征变换引擎、相似度计算引擎、相似度迭代对齐引擎和用户界面展示模块等)。图1D中所示的数据对齐***可以通过处理器201以及存储器203中的程序代码210中的一个或多个软件模块，来确定用于开发应用的数据。

图3是本发明实施例提供的一种数据对齐方法的流程图，该方法用于数据对齐***中。参见图3，该方法包括：

步骤301：获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合，第一数据表集合中的每一个数据表包括多个字段，第二数据表集合中的每一个数据表包括多个字段。

当为业务开发应用时，由于多个业务设备的业务数据的数据格式和存储方式均不同，当基于一个业务数据的业务数据开发出应用之后，该应用很难适用于其他的业务设备，导致应用的可复制能力较差，增加了开发成本，因此，本发明实施例提供了一种基线数据库，该基线数据库具有统一的数据格式和存储方，将业务数据映射到基线数据库之后，可以将多个业务设备的业务数据设置为统一的数据格式和存储方式，进而通过映射后的业务数据开发出的应用也可以适用于其他的业务设备，提高了应用的可复制能力，进而降低了应用开发成本。然而，在将业务数据映射到基线数据库时，需要先获取业务数据库包括的第一数据表集合和基线数据库包括的第二数据表集合。

需要说明的是，业务数据库用于存储业务设备产生的业务数据，业务数据库中包括的第一数据表集合可以用于存储同一业务设备产生的业务数据，当然，也可以用于存储提供不同业务设备产生的业务数据，优选地，为了提高数据映射的准确率，以及应用开发的效率，该业务数据库中包括的第一数据表集合用于存储同一业务设备产生的业务数据，且第一数据表集合中的每一个数据表对应不同的业务类型。

另外，基线数据库为在数据对齐***的本地设置的数据库，且为了提高数据映射的准确率，基线数据库中包括的第二数据表集合也可以对应不同的业务类型。再者，由于本发明实施例是为了将业务数据库中的业务数据映射到基线数据库中，因此，基线数据库中包括的第二数据表集合可以为空表，也即是，第二数据表集合中的每一个数据表的多个字段下可以无需存储数据。当然，也可以存储数据，本发明实施例对此不做具体限定。

值得注意的是，业务数据库中还可以存储第一数据表集合中的每一个数据表的表名和表描述信息，以及第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，表描述信息用于对数据表进行描述，字段数据为字段下存储的业务数据，当然业务数据库中还可以存储其他的信息，本发明实施例对此不做具体限定。

同理，基线数据库中还可以存储第二数据表集合中的每一个数据表的表名和表描述信息，以及第二数据表集合中的每一个数据表的每一个字段的字段名，并且在第二数据表集合中的每一个数据表的每一个字段下存储有数据时，该基线数据库中还可以存储第二数据表集合中的每一个数据表的每一个字段的字段数据，当然基线数据库中还可以存储其他的信息，本发明实施例同样对此不做具体限定。

步骤302：确定业务数据库和基线数据库的表相似度和字段相似度，业务数据库和基线数据库的表相似度为第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的表相似度，业务数据库和基线数据库的字段相似度为第一数据表集合中的每一个数据表的每一个字段与第二数据表集合中的每一个数据表的每一个字段之间的相似度。

其中，确定业务数据库和基线数据库的表相似度的具体实现过程可以包括：获取业务数据库包括的第一数据表集合中的每一个数据表的表名和表描述信息；基于第一数据表集合中的每一个数据表的表名和表描述信息，确定第一数据表集合中的每一个数据表的特征向量；获取基线数据库包括的第二数据表集合中的每一个数据表的表名和表描述信息；基于第二数据表集合中的每一个数据表的表名和表描述信息，确定第二数据表集合中的每一个数据表的特征向量；基于第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度。

其中，当基于第一数据表集合中的每一个数据表的表名和表描述信息，确定第一数据表集合中的每一个数据表的特征向量时，可以提取第一数据表集合中的每一个数据表的表名中的特征信息，以及第一数据表集合中的每一个数据表的表描述信息的特征信息，并将提取的特征信息组成第一数据表集合中的每一个数据表的特征向量。同理，当基于第二数据表集合中的每一个数据表的表名和表描述信息，确定第二数据表集合中的每一个数据表的特征向量时，可以提取第二数据表集合中的每一个数据表的表名中的特征信息，以及第二数据表集合中的每一个数据表的表描述信息的特征信息，并将提取的特征信息组成第二数据表集合中的每一个数据表的特征向量。

基于第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度的操作可以为：基于第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，按照距离公式，确定第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的表相似度，并将第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的表相似度确定为业务数据库和基线数据库的表相似度。其中，距离公式可以为相关技术中的公式，本发明实施例对此不做具体限定。

可选地，基于第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度之前，还可以对第一数据表集合中的每一个数据表的特征向量进行空间变换，以及对第二数据表集合中的每一个数据表的特征向量进行空间变换，该空间变换主要包括升维和降维两部分，升维的目的是提高特征的区分性，降维的目的是降低特征冗余。其中，空间变换的具体实现过程可以参考相关技术，本发明实施例对此不做详细阐述。

需要说明的是，上述特征向量的生成过程可以由数据对齐***中的特征提取引擎来实现，确定业务数据库和基线数据库的表相似度的过程可以由数据对齐***中的相似度计算引擎来实现，对特征向量进行空间变换的过程可以由数据对齐***中的特征变换引擎来实现。

其中，确定业务数据库和基线数据库的字段相似度的具体实现过程可以包括：获取业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据；其中，字段数据为存储在相应字段下的业务数据；基于第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第一数据表集合中的每一个数据表的每一个字段的特征向量；获取基线数据库包括的第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据；基于第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第二数据表集合中的每一个数据表的每一个字段的特征向量；基于第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度。

其中，当基于第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第一数据表集合中的每一个数据表的每一个字段的特征向量时，可以提取第一数据表集合中的每一个数据表的每一个字段的字段名中的特征信息，以及第一数据表集合中的每一个数据表的每一个字段的字段数据的特征信息，并将提取的特征信息组成第一数据表集合中的每一个数据表的每一个字段的特征向量。同理，当基于第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第二数据表集合中的每一个数据表的每一个字段的特征向量时，可以提取第二数据表集合中的每一个数据表的每一个字段的字段名中的特征信息，以及第二数据表集合中的每一个数据表的每一个字段的字段数据的特征信息，并将提取的特征信息组成第二数据表集合中的每一个数据表的每一个字段的特征向量。

需要说明的是，当第二数据表集合中的每一个数据表的任一个字段下未存储字段数据时，可以直接基于该字段的字段名，确定该字段的特征向量。

其中，基于第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度的操作可以为：基于第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，按照距离公式，确定第一数据表集合中的每一个数据表的每一个字段与第二数据表集合中的每一个数据表的每一个字段之间的字段相似度，并将确定的字段相似度确定为业务数据库和基线数据库的字段相似度。其中，距离公式可以为相关技术中的公式，本发明实施例对此不做具体限定。

可选地，基于第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度之前，还可以对第一数据表集合中的每一个数据表的每一个字段的特征向量进行空间变换，以及对第二数据表集合中的每一个数据表的每一个字段的特征向量进行空间变换。

需要说明的是，上述特征向量的生成过程可以由数据对齐***中的特征提取引擎来实现，确定业务数据库和基线数据库的字段相似度的过程可以由数据对齐***中的相似度计算引擎来实现，对特征向量进行空间变换的过程可以由数据对齐***中的特征变换引擎来实现。

步骤303：基于业务数据库和基线数据库表相似度，生成表相似度矩阵，基于业务数据库和基线数据库字段相似度，生成字段相似度矩阵。

具体地，可以将业务数据库和基线数据库表相似度，按照矩阵生成规则，填充到空白的矩阵中，得到表相似度矩阵，并将业务数据库和基线数据库字段相似度，按照矩阵生成规则，填充的空白的矩阵中，得到字段相似度矩阵。

比如，业务数据库中包括数据表0和数据表1，基线数据库中包括的数据表2和数据表3，且数据表0与数据表2之间的表相似度为0.2，数据表0与数据表3之间的表相似度为0.8，数据表1与数据表2之间的表相似度为0.7，数据表1与数据表3之间的表相似度为0.3，因此，基于业务数据库和基线数据库的表相似度，生成的表相似度矩阵可以为

同理，数据表0中包括字段0和字段1，数据表1中包括字段2和字段3，数据表2中包括字段4和字段5，数据表3中包括字段6、字段7和字段8。字段0与字段4之间的字段相似度为0.2，字段0与字段5之间的字段相似度为0.4，字段0与字段6之间的字段相似度为0.6，字段0与字段7之间的字段相似度为0.9，字段0与字段8之间的字段相似度为0.2；字段1与字段4之间的字段相似度为0.7，字段1与字段5之间的字段相似度为0.6，字段1与字段6之间的字段相似度为0.7，字段1与字段7之间的字段相似度为0.3，字段1与字段8之间的字段相似度为0.7；字段2与字段4之间的字段相似度为0.3，字段2与字段5之间的字段相似度为0.8，字段2与字段6之间的字段相似度为0.2，字段2与字段7之间的字段相似度为0.8，字段2与字段8之间的字段相似度为0.1；字段3与字段4之间的字段相似度为0.1，字段3与字段5之间的字段相似度为0.3，字段3与字段6之间的字段相似度为0.9，字段3与字段7之间的字段相似度为0.2，字段3与字段8之间的字段相似度为0.6，因此，基于该多个字段相似度，生成的字段相似度矩阵可以为

步骤304：基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵，基于字段相似度融合矩阵，生成该第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系矩阵。

具体地，本步骤可以通过如下(1)-(5)的步骤实现，包括：

(1)、基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，按照如下任一相似度融合公式，生成字段相似度融合矩阵。

其中，相似度融合公式包括如下公式中的任一个：

其中，在上述相似度融合公式中，为第一数据表集合中的数据表i中的字段a与第二数据表集合中的数据表j中的字段b之间的字段相似度；为第一数据表集合中的数据表i中的字段a与第二数据表集合中的数据表j中的字段b之间融合后的字段相似度，w_i,j为第一数据表集合中的数据表i与第二数据表集合中的数据表j之间的融合权重，为第一数据表集合中的数据表i与第二数据表集合中的数据表j之间的表相似度，α、β、γ分别为预设值。

另外，初始化融合权重矩阵中的初始化融合权重均相同，且初始化融合权重为预设的，比如，0.5，0.6等等，本发明实施例对此不做具体限定。

比如，初始化融合权重矩阵为2×2的矩阵，假如初始化融合权重为0.5，基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，按照相似度融合公式生成的字段相似度融合矩阵为

(2)、将字段相似度融合矩阵中的每列字段相似度按照从大到小的顺序进行排序，得到每列字段相似度的排列顺序。

比如，将字段相似度融合矩阵中的第一列字段相似度按照从大到小的顺序进行排序，得到第一列字段相似度的排列顺序为0.4、0.33、0.23、0.15，第二列字段相似度的排列顺序为0.58、0.35、0.33、0.25，第三列字段相似度的排列顺序为0.55、0.53、0.5、0.18，第四列字段相似度的排列顺序为0.65、0.48、0.35、0.18，第五列字段相似度的排列顺序为0.55、0.38、0.3、0.13。

(3)、按照每列字段相似度的排列顺序，从每列字段相似度中选择排序靠前的N个字段相似度，其中，N为正整数。

需要说明的是，N可以事先设置，比如，N可以为3、5等等，本发明实施例对此不做具体限定。

比如，N为3，那么，从第一列字段相似度中选择排序靠前的3个字段相似度为0.4、0.33、0.23，从第二列字段相似度中选择排序靠前的3个字段相似度为0.58、0.35、0.33，从第三列字段相似度中选择排序靠前的3个字段相似度为0.55、0.53、0.5，从第四列字段相似度中选择排序靠前的3个字段相似度为0.65、0.48、0.35，从第五列字段相似度中选择排序靠前的3个字段相似度为0.55、0.38、0.3，假如将选择后的字段相似度按照矩阵的形式进行表示的话，那么，该矩阵可以为

(4)、基于从每列字段相似度中选择的N个字段相似度，生成业务表序号矩阵。

具体地，确定从每列字段相似度中选择的N个字段相似度在第一数据表集合中所属的数据表，进而将确定的数据表的表号，按照选择的字段相似度在所属列中的顺序，生成业务表序号矩阵。

比如，从第一列字段相似度中选择的字段相似度0.4属于数据表0，字段相似度0.33和0.23均属于数据表1，从第二列字段相似度中选择的字段相似度0.35属于数据表0，字段相似度0.58和0.33属于数据表1，从第三列字段相似度中选择的字段相似度0.55和0.5均属于数据表1，字段相似度0.53属于数据表0，从第四列字段相似度中选择的字段相似度0.65和0.35均属于数据表1，字段相似度0.48属于数据表0，从第五列字段相似度中选择字段相似度0.55和0.3均属于数据表0，字段相似度0.38属于数据表1，因此，生成的业务表序号矩阵可以为

(5)、基于业务表序号矩阵，生成该第一数据表集合中每一个数据表与该第二数据表集合中每一个数据表之间的加权匹配关系矩阵。

具体地，基于业务表序号矩阵，确定从第一数据表集合的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数；确定针对第二数据表集合中的每一个数据表所选择的字段在业务表序号矩阵中对应列所处的排序位置；基于针对第二数据表集合中的每一个数据表所选择的字段的总数、针对第二数据表集合中的每一个数据表所选择的字段在业务表序号矩阵中对应列所处的排序位置和所述N，按照如下加权匹配公式确定第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系；基于第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的加权匹配关系，生成加权匹配关系矩阵；

其中，加权匹配公式为v_i,j为第一数据表集合中的数据表i与第二数据表集合中的数据表j之间的加权匹配关系，K为针对第二数据表集合中的每一个数据表所选择的字段的总数，为从第一数据表集合中的数据表i中针对第二数据表集合中的数据表j所选择的第k个字段在业务表序号矩阵中对应列所处的排序位置。

其中，当基于业务表序号矩阵，确定从第一数据表集合的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数时，可以从业务表序号中第二数据表集合中的每一个数据表所在列中确定属于第一数据表集合中的每一个数据表的表序号的个数，将确定的个数确定为从第一数据表集合的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数。

比如，上述业务表序号矩阵中的前两列为数据表2与第一数据表集合中的每一个数据表之间的关系，因此，从前两列中确定数据表0的表序号的个数为2，那么可以确定从数据表0中针对数据表2所选择的字段的总数为2个，从前两列中确定数据表1的表序号的个数为4，那么可以确定从数据表1中针对与数据表2所选择的字段的总数为4个。

依次类推，可以确定从数据表0中针对数据表3所选择的字段的总数为6个，从数据表1中针对数据表3所选择的字段的总数为3个。

并且，从数据表0中针对数据表2所选择的2个字段分别位于第一位和第二位，因此，数据表0与数据表2之间的加权匹配关系为1*3+1*2＝5；从数据表1中针对数据表2所选择的4个字段中，一个位于第一位，一个位于第二位，两个位于第三位，因此，数据表1与数据表2之间的加权匹配关系为1*3+1*2+2*1＝7；从数据表0中针对数据表3所选择的6个字段中，三个位于第一位，三个位于第三位，因此，数据表0与数据表3之间的加权匹配关系为3*3+3*1＝12，从数据表1中针对数据表3所选择的3个字段均位于第二位，因此，数据表1与数据表3之间的加权匹配关系为3*2＝6。

因此，基于该第一数据表集合中每一个数据表与该第二数据表集合中每一个数据表之间的加权匹配关系，生成的加权匹配关系矩阵可以为

步骤305：基于加权匹配关系矩阵和初始化融合权重矩阵，生成业务融合权重矩阵，并将初始化融合权重矩阵设置为该业务融合权重矩阵，重复执行步骤304，直至业务融合权重矩阵收敛为止，执行步骤306。

其中，基于加权匹配关系矩阵和初始化融合权重矩阵，生成业务融合权重矩阵，包括：对加权匹配关系矩阵进行归一化处理，得到归一化矩阵；基于初始化融合权重矩阵和归一化矩阵，按照如下权重融合公式生成业务融合权重矩阵；

权重融合公式为：

其中，在上述权重融合公式中，w’_i,j为业务融合权重矩阵，w_i,j为初始化融合权重矩阵，f为预设的反馈权重，且大于0，为归一化矩阵。

比如，将加权匹配关系矩阵进行归一化处理之后，得到的归一化矩阵为假如f为0.7，那么基于初始化融合权重矩阵和归一化矩阵，按照上述权重融合公式生成的业务融合权重矩阵可以为

需要说明的是，业务融合权重矩阵收敛是指多次迭代计算得到的业务融合权重矩阵相同，且该多次可以事先设置，比如，2次、3次、4次等等。

另外，预设的反馈权重f用于指示业务融合权重矩阵的反馈能力，也即是，当f比较大时，会倾向于使用反馈回的业务融合权重矩阵，即反馈能力较强；当f比较小时，会倾向于使用初始化融合权重矩阵，即反馈能力较弱。

步骤306：将通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵中包括的字段相似度确定为融合字段相似度。

其中，由于收敛的业务融合权重矩阵是通过多次迭代运算得到，因此，通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵中的字段相似度是基于表对齐和字段对齐两种结果确定得到，因此，可以将该字段相似度融合矩阵包括的字段相似度确定为融合字段相似度，且该融合字段相似度可以准确反映第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的映射关系。

需要说明的是，上述步骤303至306可以由数据对齐***中的相似度迭代对齐引擎来实现。

步骤307：基于融合字段相似度，建立第二数据表集合中的每一个数据表的每一个字段与业务数据库中相应的字段的映射关系，显示该映射关系。

需要说明的是，在本发明实施例中，可以直接显示该映射关系，然后由用户从基线数据库中，为第一数据表集合中的数据选择需要映射的字段，当然，也可以直接基于该融合字段相似度，从基线数据库中选择与第一数据表集合中每一个数据表的每一个字段之间的融合字段相似度最大的的字段，并在显示该映射关系时，将选择的字段也进行显示，以推荐给用户。实际应用中，还可以通过其他的方式从基线数据库中选择第一数据表集合中的数据对应的字段，本发明实施例对此不做具体限定。

需要说明的是，当显示该映射关系时，可以通过数据对齐***中的用户界面展示模块进行显示。

步骤308：基于该映射关系接收指示消息，并基于该指示消息和该映射关系，将第一数据表集合中的数据映射到基线数据库中。

在本发明实施例中，由于业务数据库和基线数据库的表相似度是基于业务数据库包括的第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的相似度确定得到，业务数据库和基线数据库的字段相似度是基于第一数据表集合中每一个数据表的每一个字段与第二数据表集合中每一个数据表的每一个字段之间的相似度确定得到，因此，通过业务数据库和基线数据库的表相似度和字段相似度进行融合运算之后，得到融合字段相似度，并基于该融合字段相似度，建立第二数据表集合中的每一个数据表的每一个字段与业务数据库中相应的字段的映射关系，并显示该映射关系，也即是，通过该映射关系可以将第一数据表集合中的数据格式和存储方式进行统一，并且还降低了人力，还可以提高开发出的应用的可复制能力。另外，由于基线数据库中存储的第二数据表集合中的每一个数据表对应不同的业务类型，因此，通过本发明实施例提供的数据对齐***可以将表与表进行一一对齐，即将业务数据库中的数据表映射到基线数据库中的数据表中，从而可以提高数据映射的准确率。

图4是本发明实施例提供的一种与上述方法实施例属于同一发明构思下的数据对齐装置的结构示意图，参见图4，该数据对齐装置的结构用于执行上述图3所示的方法实施例中数据对齐***的功能，包括：获取单元401、确定单元402、融合运算单元403、建立单元404和显示单元405。

获取单元401，用于获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合，第一数据表集合中的每一个数据表包括多个字段，第二数据表集合中的每一个数据表包括多个字段；

确定单元402，用于确定业务数据库和基线数据库的表相似度和字段相似度；其中，业务数据库和基线数据库的表相似度为第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的相似度；业务数据库和基线数据库的字段相似度为第一数据表集合中的每一个数据表的每一个字段与第二数据表集合中的每一个数据表的每一个字段之间的相似度；

融合运算单元403，用于对业务数据库和基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度；

建立单元404，用于基于融合字段相似度，建立第二数据表集合中的每一个数据表的每一个字段与业务数据库中相应的字段的映射关系；

显示单元405，用于显示映射关系。

可选地，该装置还包括：

接收单元，用于基于该映射关系接收指示消息，该指示消息用于指示在基线数据库中第一数据表集合中的数据所映射的字段；

映射单元，用于基于该指示消息和映射关系，将第一数据表集合中的数据映射到基线数据库中。

可选地，确定单元402，用于确定业务数据库和基线数据库的表相似度，具体为：

获取业务数据库包括的第一数据表集合中的每一个数据表的表名和表描述信息；

基于第一数据表集合中的每一个数据表的表名和表描述信息，确定第一数据表集合中的每一个数据表的特征向量；

获取基线数据库包括的第二数据表集合中的每一个数据表的表名和表描述信息；

基于第二数据表集合中的每一个数据表的表名和表描述信息，确定第二数据表集合中的每一个数据表的特征向量；

基于第一数据表集合中的每一个数据表的特征向量和第二数据表集合中的每一个数据表的特征向量，确定业务数据库和基线数据库的表相似度。

可选地，确定单元403，用于确定业务数据库和基线数据库的字段相似度，具体为：

获取业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据；其中，字段数据为存储在相应字段下的业务数据；

基于第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第一数据表集合中的每一个数据表的每一个字段的特征向量；

获取基线数据库包括的第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据；

基于第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定第二数据表集合中的每一个数据表的每一个字段的特征向量；

基于第一数据表集合中的每一个数据表的每一个字段的特征向量和第二数据表集合中的每一个数据表的每一个字段的特征向量，确定业务数据库和基线数据库的字段相似度。

可选地，融合运算单元403，用于对业务数据库和基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度，具体为：

步骤A：基于业务数据库和基线数据库的表相似度，生成表相似度矩阵；基于业务数据库和基线数据库的字段相似度，生成字段相似度矩阵；

步骤B：基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵；

步骤C：基于字段相似度融合矩阵，生成第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系矩阵；

步骤D：基于加权匹配关系矩阵和初始化融合权重矩阵，生成业务融合权重矩阵；

步骤E：将初始化融合权重矩阵设置为业务融合权重矩阵，重复执行步骤B、C和D，直至业务融合权重矩阵收敛，执行步骤F；

步骤F：将通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵中包括的字段相似度确定为融合字段相似度。

可选地，融合运算单元403，用于基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵，具体为：

基于表相似度矩阵、字段相似度矩阵和初始化融合权重矩阵，按照如下任一相似度融合公式，生成字段相似度融合矩阵；

相似度融合公式包括如下公式中的任一个：

可选地，融合运算单元403，用于基于字段相似度融合矩阵，生成第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系矩阵，具体为：

将字段相似度融合矩阵中的每列字段相似度按照从大到小的顺序进行排序，得到每列字段相似度的排列顺序；

按照每列字段相似度的排列顺序，从每列字段相似度中选择排序靠前的N个字段相似度；其中，N为正整数；

基于从每列字段相似度中选择的N个字段相似度，生成业务表序号矩阵；

基于业务表序号矩阵，生成第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系矩阵。

可选地，融合运算单元403，用于基于业务表序号矩阵，生成第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的加权匹配关系矩阵，具体为：

基于业务表序号矩阵，确定从第一数据表集合的每一个数据表中针对第二数据表集合中的每一个数据表所选择的字段的总数；

确定针对第二数据表集合中的每一个数据表所选择的字段在业务表序号矩阵中对应列所处的排序位置；

基于针对第二数据表集合中的每一个数据表所选择的字段的总数、针对第二数据表集合中的每一个数据表所选择的字段在业务表序号矩阵中对应列所处的排序位置和N，按照如下加权匹配公式确定第一数据表集合中的每一个数据表与第二数据表集合中的每一个数据表之间的加权匹配关系；

基于第一数据表集合中每一个数据表与第二数据表集合中每一个数据表之间的加权匹配关系，生成加权匹配关系矩阵；

可选地，融合运算单元403，用于基于加权匹配关系矩阵和初始化融合权重矩阵，生成业务融合权重矩阵，具体为：

对加权匹配关系矩阵进行归一化处理，得到归一化矩阵；

基于初始化融合权重矩阵和归一化矩阵，按照如下权重融合公式生成业务融合权重矩阵；

权重融合公式为：

其中，在上述权重融合公式中，w'_i,j为业务融合权重矩阵，w_i,j为初始化融合权重矩阵，f为预设的反馈权重且大于0，为归一化矩阵。

在本发明实施例中，数据对齐装置是以功能单元的形式来呈现。这里的“单元”可以指ASIC，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到数据对齐装置可以采用图2所示的形式。获取单元401，确定单元402，融合运算单元403、建立单元404和显示单元405可以通过图2的处理器和存储器来实现，具体地，获取单元401可以通过处理器执行特征提取引擎来实现，确定单元402可以通过处理器执行相似度计算引擎来实现，融合运算单元403和建立单元404可以通过处理器执行相似度迭代对齐引擎来实现，显示单元405可以通过处理器执行用户界面展示模块来实现。

需要说明的是：上述实施例提供的数据对齐装置在获取数据时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以基于需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据对齐装置与数据对齐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种计算机存储介质，用于储存实现上述图4所示的数据对齐装置的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现获取开发应用所需的业务数据。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

本领域技术人员应明白，本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中，与其它硬件一起提供或作为硬件的一部分，也可以采用其他分布形式，如通过Internet或其它有线或无线电信***。

本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本发明进行了描述，显而易见的，在不脱离本发明的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明，且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据对齐方法，其特征在于，所述方法包括：

获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合，所述第一数据表集合中的每一个数据表包括多个字段，所述第二数据表集合中的每一个数据表包括多个字段；

确定所述业务数据库和所述基线数据库的表相似度和字段相似度；其中，所述业务数据库和所述基线数据库的表相似度为所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的相似度；所述业务数据库和所述基线数据库的字段相似度为所述第一数据表集合中的每一个数据表的每一个字段与所述第二数据表集合中的每一个数据表的每一个字段之间的相似度；

对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度；

基于所述融合字段相似度，建立所述第二数据表集合中的每一个数据表的每一个字段与所述业务数据库中相应的字段的映射关系；

显示所述映射关系。

2.如权利要求1所述的方法，其特征在于，所述显示所述映射关系之后，还包括：

接收指示消息，所述指示消息用于指示在所述基线数据库中所述第一数据表集合中的数据所映射的字段；

基于所述指示消息和所述映射关系，将所述第一数据表集合中的数据映射到所述基线数据库中。

3.如权利要求1所述的方法，其特征在于，所述确定所述业务数据库和所述基线数据库的表相似度，具体为：

获取所述业务数据库包括的第一数据表集合中的每一个数据表的表名和表描述信息；

基于所述第一数据表集合中的每一个数据表的表名和表描述信息，确定所述第一数据表集合中的每一个数据表的特征向量；

获取所述基线数据库包括的第二数据表集合中的每一个数据表的表名和表描述信息；

基于所述第二数据表集合中的每一个数据表的表名和表描述信息，确定所述第二数据表集合中的每一个数据表的特征向量；

基于所述第一数据表集合中的每一个数据表的特征向量和所述第二数据表集合中的每一个数据表的特征向量，确定所述业务数据库和所述基线数据库的表相似度。

4.如权利要求1所述的方法，其特征在于，所述确定所述业务数据库和所述基线数据库的字段相似度，具体为：

获取所述业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据；其中，所述字段数据为存储在相应字段下的业务数据；

基于所述第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定所述第一数据表集合中的每一个数据表的每一个字段的特征向量；

获取所述基线数据库包括的第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据；

基于所述第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据，确定所述第二数据表集合中的每一个数据表的每一个字段的特征向量；

基于所述第一数据表集合中的每一个数据表的每一个字段的特征向量和所述第二数据表集合中的每一个数据表的每一个字段的特征向量，确定所述业务数据库和所述基线数据库的字段相似度。

5.如权利要求1-4任一所述的方法，其特征在于，所述对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度，具体为：

步骤A：基于所述业务数据库和所述基线数据库的表相似度，生成表相似度矩阵；基于所述业务数据库和所述基线数据库的字段相似度，生成字段相似度矩阵；

步骤C：基于所述字段相似度融合矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵；

6.如权利要求5所述的方法，其特征在于，所述基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵，包括：

所述相似度融合公式包括如下公式中的任一个：

<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>j</mi> <mi>b</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>c</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>i</mi> <mi>b</mi> </mrow> <mi>c</mi> </msubsup> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>j</mi> <mi>b</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>c</mi> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>i</mi> <mi>b</mi> </mrow> <mi>c</mi> </msubsup> <mo>&times;</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow>

<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>j</mi> <mi>b</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>c</mi> </mrow> </msubsup> <mo>=</mo> <mi>&alpha;</mi> <mo>&times;</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> <mo>,</mo> <mi>i</mi> <mi>b</mi> </mrow> <mi>c</mi> </msubsup> <mo>+</mo> <mi>&beta;</mi> <mo>&times;</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>&gamma;</mi> <mo>&times;</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> </mrow>

7.如权利要求5或6所述的方法，其特征在于，所述基于所述字段相似度融合矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵，具体为：

按照所述每列字段相似度的排列顺序，从所述每列字段相似度中选择排序靠前的N个字段相似度；其中，N为正整数；

基于从所述每列字段相似度中选择的N个字段相似度，生成业务表序号矩阵；

8.如权利要求7所述的方法，其特征在于，所述基于所述业务表序号矩阵，生成所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系矩阵，包括：

基于所述业务表序号矩阵，确定从所述第一数据表集合的每一个数据表中针对所述第二数据表集合中的每一个数据表所选择的字段的总数；

确定所述针对所述第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置；

基于所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系，生成所述加权匹配关系矩阵；

9.如权利要求5-8任一所述的方法，其特征在于，所述基于所述加权匹配关系矩阵和所述初始化融合权重矩阵，生成业务融合权重矩阵，包括：

对所述加权匹配关系矩阵进行归一化处理，得到归一化矩阵；

所述权重融合公式为：

其中，在上述权重融合公式中，所述w′_i,j为所述业务融合权重矩阵，所述w_i,j为初始化融合权重矩阵，所述f为预设的反馈权重且大于0，所述为所述归一化矩阵。

10.一种数据对齐装置，其特征在于，所述装置包括：

获取单元，用于获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合，所述第一数据表集合中的每一个数据表包括多个字段，所述第二数据表集合中的每一个数据表包括多个字段；

确定单元，用于确定所述业务数据库和所述基线数据库的表相似度和字段相似度；其中，所述业务数据库和所述基线数据库的表相似度为所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的相似度；所述业务数据库和所述基线数据库的字段相似度为所述第一数据表集合中的每一个数据表的每一个字段与所述第二数据表集合中的每一个数据表的每一个字段之间的相似度；

融合运算单元，用于对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度；

建立单元，用于基于所述融合字段相似度，建立所述第二数据表集合中的每一个数据表的每一个字段与所述业务数据库中相应的字段的映射关系；

显示单元，用于显示所述映射关系。

11.如权利要求10所述的装置，其特征在于，所述装置还包括：

接收单元，用于基于所述映射关系接收指示消息，所述指示消息用于指示在所述基线数据库中所述第一数据表集合中的数据所映射的字段；

映射单元，用于基于所述指示消息和所述映射关系，将所述第一数据表集合中的数据映射到所述基线数据库中。

12.如权利要求10所述的装置，其特征在于，

所述确定单元，用于确定所述业务数据库和所述基线数据库的表相似度，具体为：

13.如权利要求10所述的装置，其特征在于，

所述确定单元，用于确定所述业务数据库和所述基线数据库的字段相似度，具体为：

14.如权利要求10-13任一所述的装置，其特征在于，

所述融合运算单元，用于对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算，得到融合字段相似度，具体为：

15.如权利要求14所述的装置，其特征在于，

所述融合运算单元，用于基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵，生成字段相似度融合矩阵，具体为：

所述相似度融合公式包括如下公式中的任一个：

16.如权利要求14或15所述的装置，其特征在于，

所述融合运算单元，用于基于所述字段相似度融合矩阵，生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵，具体为：

17.如权利要求16所述的装置，其特征在于，

所述融合运算单元，用于基于所述业务表序号矩阵，生成所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系矩阵，具体为：

18.如权利要求14-17任一所述的装置，其特征在于，

所述融合运算单元，用于基于所述加权匹配关系矩阵和所述初始化融合权重矩阵，生成业务融合权重矩阵，具体为：

所述权重融合公式为：

19.一种数据对齐装置，其特征在于，所述装置包括：

处理器和存储器；

其中，所述存储器中存有计算机可读程序；

所述处理器通过运行所述存储器中的程序，以用于完成权利要求1-9所述的方法。