CN111767325A

CN111767325A - 基于深度学习的多源数据深度融合方法

Info

Publication number: CN111767325A
Application number: CN202010914905.5A
Authority: CN
Inventors: 李国良; 柴成亮; 李熊; 李飞飞; 叶翔; 裘炜浩; 丁麒; 杨世旺; 金王英; 章晓明; 李舜
Original assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-10-13
Anticipated expiration: 2040-09-03
Also published as: CN111767325B

Abstract

本申请实施例提出基于深度学习的多源数据深度融合方法，包括获取待融合关系型数据表；构建深度学习模型，导入训练数据对待融合关系型数据表中的内容进行词向量化处理，对处理后的数据进行模式匹配；基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样，将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理，得到训练后的数据分桶模型，基于数据分桶模型进行基于实体的数据分桶处理；对每个桶中的数据进行是否指代同一实体的判断，将指代同一实体的数据进行数据融合，得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模，该方法可以同时对字符串的文本和语义进行建模，提高对脏数据的容忍度。

Description

基于深度学习的多源数据深度融合方法

技术领域

本申请属于数据处理领域，尤其涉及基于深度学习的多源数据深度融合方法。

背景技术

多源数据深度融合指的是利用深度学习的方法，将多源结构化数据进行融合，方便数据科学家进行分析。在本申请中，融合指的是对于多源数据中指代现实世界的同一实体（其中表中每一条元组指代一个实体）进行发现，亦称实体匹配。例如同一款手机的不同表达方式，是数据科学领域的重要课题之一。利用深度学习，可以对多源较脏的数据进行快速而准确的预测，挖掘其中价值，较好地解决了大数据的4V（规模性（Volume）、高速性（Velocity）、多样性（Variety）和价值性（Value））挑战。

现实世界的数据往往是比较脏的，例如 “清华大学”可能有多种表示方法，“Tsinghua University”、“Tsinghua Univ.”等等。脏数据的存在大大影响了机器对于数据的处理精度，导致处理性能的下降。

发明内容

为了解决现有技术中存在的缺点和不足，本申请实施例提出了基于深度学习的多源数据深度融合方法，面对多源较脏数据，该方法可以在结构和语义两方面进行数据融合，方便数据科学家对数据进行进一步分析。

具体的，本申请实施例提出了基于深度学习的多源数据深度融合方法，包括：

获取包括第一数据表和第二数据表在内的待融合关系型数据表；

构建深度学习模型，向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理，对处理后的数据进行模式匹配；

基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样，将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理，得到训练后的数据分桶模型，基于数据分桶模型进行基于实体的数据分桶处理；

对每个桶中的数据进行是否指代同一实体的判断，将指代同一实体的数据进行数据融合，得到由融合后数据构成的数据表。

可选的，所述构建深度学习模型，向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理，对处理后的数据进行模式匹配，包括：

对待融合关系型数据表进行基于数据标注，得到包含数据是否匹配的标注数据集；

对标注数据集进行重编码，完成标注数据集的词向量化处理；

将词向量化处理后的词向量导入深度学习模型，基于属性、属性值和主题三个方面进行相似度计算，基于计算结果进行数据匹配。

可选的，所述对待融合关系型数据表进行基于数据标注，得到包含数据是否匹配的标注数据集，包括：

利用公开数据集的标注，模式匹配的标注数据为

；其中

, 代表关系表

中第j个元组的第i个属性值，

是待标注的数据, 0代表匹配，1代表不匹配。

可选的，所述对标注数据集进行重编码，完成标注数据集的词向量化处理，包括：

将

以及

中的属性值编码成一个d维向量，即

和

；

对于词表中未出现的单词用UNK来代替。

可选的，所述将词向量化处理后的词向量导入深度学习模型，基于属性、属性值和主题三个方面进行相似度计算，基于计算结果进行数据匹配，包括：

采用主题模型根据属性值挖掘每一列的主题向量，将根据属性、属性值和主题三个方面的相似度做出预测；

将两属性以及对应的值进行向量化，然后根据学习到的参数进行分类，计算两个属性相匹配的概率；

最终在第一数据表和第二数据表之间找到匹配使其概率最大的匹配组合作为最终的匹配结果。

可选的，所述基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样，将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理，得到训练后的数据分桶模型，基于数据分桶模型进行基于实体的数据分桶处理，包括：

获取全部实体之间相似度构成的相似度区间，对得到的相似度区间进行分段，在得到的每个分段内抽取预设数量的实体对，对得到实体对进行标注；

分别从第一数据表、第二数据表中选取样本数据，获取每个样本数据的哈希编码，计算两个哈希编码的相似度，计算分桶后的损失值，将损失值最小的数据划分至同一分桶。

可选的，所述方法还包括：

对计算相似度过程中数据类型的权重进行调整。

可选的，所述对每个桶中的数据进行是否指代同一实体的判断，将指代同一实体的数据进行数据融合，得到由融合后数据构成的数据表，包括：

根据桶中每个数据中的实体名称判断多个数据是否属于同一实体；

将属于同一实体的数据按相同属性进行融合，得到融合后的数据表。

本申请提供的技术方案带来的有益效果是：

采用词向量（Word Embedding）的方式对字符串数据建模，该方法可以同时对字符串的文本和语义进行建模，提高对脏数据的容忍度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所述的基于深度学习的多源数据深度融合方法的流程示意图；

图2为本申请所述的步骤12的详细流程示意图；

图3为本申请所述的步骤13的详细流程示意图；

图4为本申请所述的双塔结构模型的模型训练结构图。

具体实施方式

为使本申请的结构和优点更加清楚，下面将结合附图对本申请的结构作进一步地描述。

实施例一

具体的，本申请实施例提出了基于深度学习的多源数据深度融合方法，如图1所示，包括：

11、获取包括第一数据表和第二数据表在内的待融合关系型数据表；

12、构建深度学习模型，向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理，对处理后的数据进行模式匹配；

13、基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样，将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理，得到训练后的数据分桶模型，基于数据分桶模型进行基于实体的数据分桶处理；

14、对每个桶中的数据进行是否指代同一实体的判断，将指代同一实体的数据进行数据融合，得到由融合后数据构成的数据表。

在实施中，具体来讲，多源数据融合涉及以下几个步骤：

第一步是模式匹配（Schema Matching），不同源数据的模式（属性）的名称可能是有差异的，例如一个论文发表相关数据源有属性“题目”，另一个数据源有属性“论文名称”，这两个属性虽然名字不同但是指的是相同的模式，而数据融合需要先将属性进行对齐。

第二步是数据分桶（Blocking）,若有N条数据需要匹配，那么实体匹配的复杂度是N ²，这对于大数据来说是不可接受的，因此本申请利用深度学习的方法对数据进行分桶，仅对桶内数据进行实体匹配，大幅降低了匹配的复杂度。

第三步是实体匹配，模式匹配和数据分桶之后，现有方法通常利用规则或者传统机器学习方法来解决实体匹配问题，这些方法往往不具有普适性且不能很好地处理脏数据，因此本申请通过深度学习的方法对实体对进行建模，进而匹配指代现实世界同一实体的实体对。

针对脏数据，本申请采用词向量（Word Embedding）的方式对字符串数据建模，该方法可以同时对字符串的文本和语义进行建模，提高对脏数据的容忍度。进而在模式（属性）匹配中，仅仅考虑属性本身是不够的，还要考虑属性列中的内容。利用词向量对多个数据源的属性及内容统一建模。在数据分桶中，传统方法通常采用规则的方法，不具备普适性，且面对脏数据效果不佳。本申请则使用深度学习来端到端的对分桶进行学习。而在实体匹配过程中同样存在脏数据效果不佳的问题，本申请利用深度学习来解决这一问题。

可选的，如图2所示，步骤12具体包括：

121、对待融合关系型数据表进行基于数据标注，得到包含数据是否匹配的标注数据集；

122、对标注数据集进行重编码，完成标注数据集的词向量化处理；

123、将词向量化处理后的词向量导入深度学习模型，基于属性、属性值和主题三个方面进行相似度计算，基于计算结果进行数据匹配。

在实施中，步骤121的具体内容为准备训练数据过程。

由于要训练一个深度学习模型，训练数据是必不可少的。训练数据的获得方式有两种，一种是利用现有公开数据集的标注，模式匹配的标注数据为

，其中

, 代表关系表

中第j个元组的第i个属性值。

是待标注的数据, 0代表匹配，1代表不匹配。另一种是在没有真值的情况下借助标注工人来获得，即获得模式匹配的标注y。

当数据量较小时，可以请求若干专家进行标注。当数据量较大时，寻找专家的代价也较大，则可以利用众包的方法获得数据标注。众包指的是利用互联网力量来进行数据标注等计算机很难自动解决的问题。通常采用多数投票的方式确定标注结果。具体来说是将一个标注问题分给多个标注工人去回答，比如说5个，返回的答案如果多数是1则该对属性是匹配的，反之是不匹配的。

步骤122的具体内容为词向量化处理过程。

词向量是自然语言领域建模的基本工具。其将一个单词或者短语从一个词表中映射到一组实数，产生词向量的方式有很多，包括神经网络、PCA降维、概率模型等等。本步骤中，对于

以及

,中的属性值，都可以将之编码成一个d维向量，即

和

。需要特别指出的是，对于词表中未出现的单词（OOV）,通常用UNK来代替。

词嵌入（Embedding）既可以词为单位，也可以更加细粒度地以字符为单位。此时，模型的输入就不是一个一个的单词。而是对于每个单词，以其字符作为输入，经过神经网络，产生一个d维向量。该方法的优点是可以捕捉到单词内部的特征，尤其是一些复合单词，例如“kindness”是有“kind”和“ness”组成。另外，以字符为单位也可以很好地解决OOV问题。

此外，使用预训练的模型还是重新训练词向量也是不同的选择方案。预训练包含词级别的模型（word2vec、Glove）和字符级别的模型（fastTest）。预训练模型有以下两个优点。首先可以大幅缩短训练时间，其次是这些模型已经在大语料库上训练过，鲁棒性较强。本申请可以由使用者自由决定使用词级别向量还是字符级别向量，以及使用预训练模型还是从头开始训练。

步骤123的具体内容为搭建模型训练过程。

本申请使用深度神经网络来搭建训练模型。

首先网络的输入是待匹配两列数据的词向量，包含属性信息以及属性值信息，即

，

和

。其中

和

描述了属性的文本和语义信息，

描述了属性值的文本和语义信息，本申请利用双塔模型来对这些信息进行建模。

另外，属性对应的主题也对属性的匹配至关重要。因此，本申请亦采用主题模型（Topic Model）来根据属性值挖掘每一列的主题向量，被表示为

。模型将根据属性、属性值和主题三个方面的相似度做出预测。

预测值和真实值y之间将以交叉熵为损失函数，进行反向传播、随机梯度下降来训练模型。

具体地，本申请将之相加形成一个新的向量，与属性向量

和主题向量

相连接形成一组新的特征。其中主体向量

将根据属性值通过LDA模型自动求解。

接着两个属性对应的新特征开始交互，在相似度计算层计算两者之间的相似度，这里可以选择固定的距离函数比如余弦相似度或者欧氏距离。

通过一个全连接层到分类层进行计算损失，将之反向传播更新神经网络的参数。预测的时候即按照正向传播的途径，先将两属性以及对应的值进行向量化，然后根据学习到的参数进行分类，得到两个属性相匹配的概率。最终在第一数据表和第二数据表之间找到匹配使其概率最大的匹配组合作为最终的匹配结果。

可选的，步骤13的具体内容，如图3所示，包括：

131、获取全部实体之间相似度构成的相似度区间，对得到的相似度区间进行分段，在得到的每个分段内抽取预设数量的实体对，对得到实体对进行标注；

132、分别从第一数据表、第二数据表中选取样本数据，获取每个样本数据的哈希编码，计算两个哈希编码的相似度，计算分桶后的损失值，将损失值最小的数据划分至同一分桶。

在实施中，要进行数据分桶的原因为：

（1）离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展。

（2）离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为200 的也不会对模型造成很大的干扰。

（3）LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合。

（4）离散后特征可以进行特征交叉，提升表达能力，由 M+N 个变量编程 M*N 个变量，进一步引入非线形，提升了表达能力。

（5）特征离散后模型更稳定，如用户年龄区间，不会因为用户年龄长了一岁就变化。

（6）可以将缺失作为独立的一类带入模型。

（7）将所有的变量变换到相似的尺度上。

分桶方法分为无监督分桶和有监督分桶。常用的无监督分桶方法有等频分桶、等距分桶和聚类分桶。有监督分桶主要有best-ks分桶和卡方分桶。

步骤13给出了基于深度学习进行数据分桶的解决方案。

步骤131：准备训练数据。对于数据表

，假设其含有N条元组

；另一个表

，假设其含有M条元组

；每个元组均含有m个属性，且两表之间的属性是对齐的。数据分桶或者数据融合的特点是训练数据中匹配的实体对较少，不匹配的实体对极多，因此会产生样本不均衡的问题，使得训练的效果出现偏差。因此如何挑选训练数据是本申请关注的重点之一。具体地，本申请可以根据实体之间的相似度进行分层抽样，以达到训练集平衡的目的。通常情况，不匹配实体对较多的原因亦是相似度较低的实体很多。因此可以计算所有相似实体的相似度（在[0,1]区间内）分数。然后将[0,1]区间分段，比如说10段，在每个分段内抽取一定数量的实体对。对于挑选出来的实体对，如果是公开的标准数据集，则直接使用前文所示的公开标注或人工标注方式完成，此处不在赘述。

步骤131：搭建模型训练。同样采用了一个双塔结构模型，如图4所示。此时的模型输入是不同的实体

，需要将

进行编码变成

。需要注意的是，每个

包含多个属性，每个属性对应的词向量可以用步骤122中方法得到，接着需要将各个属性的词向量进行整合，得到整个实体的词向量表示。这其中有很多常用的方法可以选择，本申请可以提供多种现有常用的自然语言处理技术相关的方法，例如向量直接加和、LSTM等循环神经网络方法以及带有注意力机制的方法。得到了每个实体的特征之后，为了方便分桶，将特征向量连接一个哈希层，即一个由0和1组成的向量。这样做的原因是方便分桶，即每个相同的哈希串代表一个桶，希望相匹配的元组都分到一个桶中，不匹配的实体都在不同的桶中，且比较相似的实体之间的哈希编码距离较近。因此，构造一个相似度计算层计算两个哈希编码的相似度，其后接一个分类层计算损失函数，以满足模型的功能。当模型训练好后，对于新到来的实体，通过网络正向传播，相匹配的实体对将被分到一个桶中。

可选的，所述方法还包括：

对计算相似度过程中数据类型的权重进行调整。

在实施中，在进行步骤133的分桶操作时，如果数据分桶对于召回率要求较高，即不匹配的实体也可以适量的出现在一个桶中，但是相匹配的实体一定要在一个桶中。因此在模型训练的过程中，将加大匹配训练标签的权重。

可选的，步骤14的具体内容包括：

在实施中，在模式匹配和数据分桶完成后，对于同一个桶中的实体对，需要判断它们是否指代同一实体。本申请依旧采用深度神经网络来解决实体匹配问题。

搭建模型训练及预测。将每个实体的各个属性元组编码为向量，然后采用双塔模型搭建网络，利用向量直接加和或者LSTM等循环神经网络方法整合不同属性对应的向量，构建相似度计算层，最后计算分类的损失。

其中相似度计算层之前与数据分桶的网络结构十分类似，因此本申请采用迁移学习的思想复用这一结构，加速训练。对于样本的获取和抽样，同样可以采用前述方法进行。

算法示例：

输入：关系型数据表

和

，分别带有m个属性

和

，同时分别包含若干实体

和

。

输出：融合后的数据表

。

1）构造待匹配的属性对；

2）获取属性对的标注数据；

3）对于属性和该列属性值进行向量化编码，生成

，

和

；

4）基于属性值计算主题模型，生成主题向量

；

5）构建模式匹配模型进行训练；

6）抽样产生实体对训练数据；

7）对于实体对进行向量化编码生成

；

7）训练数据分桶模型；

8）训练实体匹配模型；

9）对于

和

利用训练好的模式匹配模型进行对齐；

10）利用数据分桶模型对

和

之间的实体分桶；

11）利用数据融合模型进行数据融合；

12）返回融合后的数据表

。

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。