CN111767325A - 基于深度学习的多源数据深度融合方法 - Google Patents

基于深度学习的多源数据深度融合方法 Download PDF

Info

Publication number
CN111767325A
CN111767325A CN202010914905.5A CN202010914905A CN111767325A CN 111767325 A CN111767325 A CN 111767325A CN 202010914905 A CN202010914905 A CN 202010914905A CN 111767325 A CN111767325 A CN 111767325A
Authority
CN
China
Prior art keywords
data
model
deep learning
fused
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010914905.5A
Other languages
English (en)
Other versions
CN111767325B (zh
Inventor
李国良
柴成亮
李熊
李飞飞
叶翔
裘炜浩
丁麒
杨世旺
金王英
章晓明
李舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Zhejiang Electric Power Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202010914905.5A priority Critical patent/CN111767325B/zh
Publication of CN111767325A publication Critical patent/CN111767325A/zh
Application granted granted Critical
Publication of CN111767325B publication Critical patent/CN111767325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提出基于深度学习的多源数据深度融合方法,包括获取待融合关系型数据表;构建深度学习模型,导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。

Description

基于深度学习的多源数据深度融合方法
技术领域
本申请属于数据处理领域,尤其涉及基于深度学习的多源数据深度融合方法。
背景技术
多源数据深度融合指的是利用深度学习的方法,将多源结构化数据进行融合,方便数据科学家进行分析。在本申请中,融合指的是对于多源数据中指代现实世界的同一实体(其中表中每一条元组指代一个实体)进行发现,亦称实体匹配。例如同一款手机的不同表达方式,是数据科学领域的重要课题之一。利用深度学习,可以对多源较脏的数据进行快速而准确的预测,挖掘其中价值,较好地解决了大数据的4V(规模性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value))挑战。
现实世界的数据往往是比较脏的,例如 “清华大学”可能有多种表示方法,“Tsinghua University”、“Tsinghua Univ.”等等。脏数据的存在大大影响了机器对于数据的处理精度,导致处理性能的下降。
发明内容
为了解决现有技术中存在的缺点和不足,本申请实施例提出了基于深度学习的多源数据深度融合方法,面对多源较脏数据,该方法可以在结构和语义两方面进行数据融合,方便数据科学家对数据进行进一步分析。
具体的,本申请实施例提出了基于深度学习的多源数据深度融合方法,包括:
获取包括第一数据表和第二数据表在内的待融合关系型数据表;
构建深度学习模型,向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;
基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;
对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。
可选的,所述构建深度学习模型,向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配,包括:
对待融合关系型数据表进行基于数据标注,得到包含数据是否匹配的标注数据集;
对标注数据集进行重编码,完成标注数据集的词向量化处理;
将词向量化处理后的词向量导入深度学习模型,基于属性、属性值和主题三个方面进行相似度计算,基于计算结果进行数据匹配。
可选的,所述对待融合关系型数据表进行基于数据标注,得到包含数据是否匹配的标注数据集,包括:
利用公开数据集的标注,模式匹配的标注数据为
Figure 100002_DEST_PATH_IMAGE001
;其中
Figure DEST_PATH_IMAGE002
, 代表关系表
Figure 100002_DEST_PATH_IMAGE003
中第j个元组的第i个属性值,
Figure DEST_PATH_IMAGE004
是待标注 的数据, 0代表匹配,1代表不匹配。
可选的,所述对标注数据集进行重编码,完成标注数据集的词向量化处理,包括:
Figure 100002_DEST_PATH_IMAGE005
以及
Figure DEST_PATH_IMAGE006
中的属性值编码成一个d维向量,即
Figure 100002_DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
对于词表中未出现的单词用UNK来代替。
可选的,所述将词向量化处理后的词向量导入深度学习模型,基于属性、属性值和主题三个方面进行相似度计算,基于计算结果进行数据匹配,包括:
采用主题模型根据属性值挖掘每一列的主题向量,将根据属性、属性值和主题三个方面的相似度做出预测;
将两属性以及对应的值进行向量化,然后根据学习到的参数进行分类,计算两个属性相匹配的概率;
最终在第一数据表和第二数据表之间找到匹配使其概率最大的匹配组合作为最终的匹配结果。
可选的,所述基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理,包括:
获取全部实体之间相似度构成的相似度区间,对得到的相似度区间进行分段,在得到的每个分段内抽取预设数量的实体对,对得到实体对进行标注;
分别从第一数据表、第二数据表中选取样本数据,获取每个样本数据的哈希编码,计算两个哈希编码的相似度,计算分桶后的损失值,将损失值最小的数据划分至同一分桶。
可选的,所述方法还包括:
对计算相似度过程中数据类型的权重进行调整。
可选的,所述对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表,包括:
根据桶中每个数据中的实体名称判断多个数据是否属于同一实体;
将属于同一实体的数据按相同属性进行融合,得到融合后的数据表。
本申请提供的技术方案带来的有益效果是:
采用词向量(Word Embedding)的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所述的基于深度学习的多源数据深度融合方法的流程示意图;
图2为本申请所述的步骤12的详细流程示意图;
图3为本申请所述的步骤13的详细流程示意图;
图4为本申请所述的双塔结构模型的模型训练结构图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
实施例一
具体的,本申请实施例提出了基于深度学习的多源数据深度融合方法,如图1所示,包括:
11、获取包括第一数据表和第二数据表在内的待融合关系型数据表;
12、构建深度学习模型,向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;
13、基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;
14、对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。
在实施中,具体来讲,多源数据融合涉及以下几个步骤:
第一步是模式匹配(Schema Matching),不同源数据的模式(属性)的名称可能是有差异的,例如一个论文发表相关数据源有属性“题目”,另一个数据源有属性“论文名称”,这两个属性虽然名字不同但是指的是相同的模式,而数据融合需要先将属性进行对齐。
第二步是数据分桶(Blocking),若有N条数据需要匹配,那么实体匹配的复杂度是N 2 ,这对于大数据来说是不可接受的,因此本申请利用深度学习的方法对数据进行分桶,仅对桶内数据进行实体匹配,大幅降低了匹配的复杂度。
第三步是实体匹配,模式匹配和数据分桶之后,现有方法通常利用规则或者传统机器学习方法来解决实体匹配问题,这些方法往往不具有普适性且不能很好地处理脏数据,因此本申请通过深度学习的方法对实体对进行建模,进而匹配指代现实世界同一实体的实体对。
针对脏数据,本申请采用词向量(Word Embedding)的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。进而在模式(属性)匹配中,仅仅考虑属性本身是不够的,还要考虑属性列中的内容。利用词向量对多个数据源的属性及内容统一建模。在数据分桶中,传统方法通常采用规则的方法,不具备普适性,且面对脏数据效果不佳。本申请则使用深度学习来端到端的对分桶进行学习。而在实体匹配过程中同样存在脏数据效果不佳的问题,本申请利用深度学习来解决这一问题。
可选的,如图2所示,步骤12具体包括:
121、对待融合关系型数据表进行基于数据标注,得到包含数据是否匹配的标注数据集;
122、对标注数据集进行重编码,完成标注数据集的词向量化处理;
123、将词向量化处理后的词向量导入深度学习模型,基于属性、属性值和主题三个方面进行相似度计算,基于计算结果进行数据匹配。
在实施中,步骤121的具体内容为准备训练数据过程。
由于要训练一个深度学习模型,训练数据是必不可少的。训练数据的获得方式有 两种,一种是利用现有公开数据集的标注,模式匹配的标注数据为
Figure DEST_PATH_IMAGE009
, 其中
Figure DEST_PATH_IMAGE010
, 代表关系表
Figure 717129DEST_PATH_IMAGE003
中第j个元组的第i个属性值。
Figure DEST_PATH_IMAGE011
是 待标注的数据, 0代表匹配,1代表不匹配。另一种是在没有真值的情况下借助标注工人来 获得,即获得模式匹配的标注y。
当数据量较小时,可以请求若干专家进行标注。当数据量较大时,寻找专家的代价也较大,则可以利用众包的方法获得数据标注。众包指的是利用互联网力量来进行数据标注等计算机很难自动解决的问题。通常采用多数投票的方式确定标注结果。具体来说是将一个标注问题分给多个标注工人去回答,比如说5个,返回的答案如果多数是1则该对属性是匹配的,反之是不匹配的。
步骤122的具体内容为词向量化处理过程。
词向量是自然语言领域建模的基本工具。其将一个单词或者短语从一个词表中映 射到一组实数,产生词向量的方式有很多,包括神经网络、PCA降维、概率模型等等。本步骤 中,对于
Figure DEST_PATH_IMAGE012
以及
Figure DEST_PATH_IMAGE013
,中的属性值, 都可以将之编码成一个d维向量,即
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
。 需要特别指出的是,对于词表中未出现的单词(OOV),通常 用UNK来代替。
词嵌入(Embedding)既可以词为单位,也可以更加细粒度地以字符为单位。此时,模型的输入就不是一个一个的单词。而是对于每个单词,以其字符作为输入,经过神经网络,产生一个d维向量。该方法的优点是可以捕捉到单词内部的特征,尤其是一些复合单词,例如“kindness”是有“kind”和“ness”组成。另外,以字符为单位也可以很好地解决OOV问题。
此外,使用预训练的模型还是重新训练词向量也是不同的选择方案。预训练包含词级别的模型(word2vec、Glove)和字符级别的模型(fastTest)。预训练模型有以下两个优点。首先可以大幅缩短训练时间,其次是这些模型已经在大语料库上训练过,鲁棒性较强。本申请可以由使用者自由决定使用词级别向量还是字符级别向量,以及使用预训练模型还是从头开始训练。
步骤123的具体内容为搭建模型训练过程。
本申请使用深度神经网络来搭建训练模型。
首先网络的输入是待匹配两列数据的词向量,包含属性信息以及属性值信息,即
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
。其中
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
描述了属性的文本和语义信息,
Figure DEST_PATH_IMAGE021
描述了属性值的文本和语义信息,本申请利用双塔模型来对这些信息进行建模。
另外,属性对应的主题也对属性的匹配至关重要。因此,本申请亦采用主题模型 (Topic Model)来根据属性值挖掘每一列的主题向量,被表示为
Figure DEST_PATH_IMAGE022
。模型将根据属性、 属性值和主题三个方面的相似度做出预测。
预测值和真实值y之间将以交叉熵为损失函数,进行反向传播、随机梯度下降来训练模型。
具体地,本申请将之相加形成一个新的向量,与属性向量
Figure DEST_PATH_IMAGE023
和主题向量
Figure DEST_PATH_IMAGE024
相连 接形成一组新的特征。其中主体向量
Figure DEST_PATH_IMAGE025
将根据属性值通过LDA模型自动求解。
接着两个属性对应的新特征开始交互,在相似度计算层计算两者之间的相似度,这里可以选择固定的距离函数比如余弦相似度或者欧氏距离。
通过一个全连接层到分类层进行计算损失,将之反向传播更新神经网络的参数。预测的时候即按照正向传播的途径,先将两属性以及对应的值进行向量化,然后根据学习到的参数进行分类,得到两个属性相匹配的概率。最终在第一数据表和第二数据表之间找到匹配使其概率最大的匹配组合作为最终的匹配结果。
可选的,步骤13的具体内容,如图3所示,包括:
131、获取全部实体之间相似度构成的相似度区间,对得到的相似度区间进行分段,在得到的每个分段内抽取预设数量的实体对,对得到实体对进行标注;
132、分别从第一数据表、第二数据表中选取样本数据,获取每个样本数据的哈希编码,计算两个哈希编码的相似度,计算分桶后的损失值,将损失值最小的数据划分至同一分桶。
在实施中,要进行数据分桶的原因为:
(1)离散后稀疏向量内积乘法运算速度更快,计算结果也方便存储,容易扩展。
(2)离散后的特征对异常值更具鲁棒性,如 age>30 为 1 否则为 0,对于年龄为200 的也不会对模型造成很大的干扰。
(3)LR 属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这相当于引入了非线性,能够提升模型的表达能力,加大拟合。
(4)离散后特征可以进行特征交叉,提升表达能力,由 M+N 个变量编程 M*N 个变量,进一步引入非线形,提升了表达能力。
(5)特征离散后模型更稳定,如用户年龄区间,不会因为用户年龄长了一岁就变化。
(6)可以将缺失作为独立的一类带入模型。
(7)将所有的变量变换到相似的尺度上。
分桶方法分为无监督分桶和有监督分桶。常用的无监督分桶方法有等频分桶、等距分桶和聚类分桶。 有监督分桶主要有best-ks分桶和卡方分桶。
步骤13给出了基于深度学习进行数据分桶的解决方案。
步骤131:准备训练数据。对于数据表
Figure DEST_PATH_IMAGE026
,假设其含有N条元组
Figure 460701DEST_PATH_IMAGE027
;另一个 表
Figure DEST_PATH_IMAGE028
,假设其含有M条元组
Figure 568334DEST_PATH_IMAGE029
;每个元组均含有m个属性,且两表之间的属性是对 齐的。数据分桶或者数据融合的特点是训练数据中匹配的实体对较少,不匹配的实体对极 多,因此会产生样本不均衡的问题,使得训练的效果出现偏差。因此如何挑选训练数据是本 申请关注的重点之一。具体地,本申请可以根据实体之间的相似度进行分层抽样,以达到训 练集平衡的目的。通常情况,不匹配实体对较多的原因亦是相似度较低的实体很多。因此可 以计算所有相似实体的相似度(在[0,1]区间内)分数。然后将[0,1]区间分段,比如说10段, 在每个分段内抽取一定数量的实体对。对于挑选出来的实体对,如果是公开的标准数据集, 则直接使用前文所示的公开标注或人工标注方式完成,此处不在赘述。
步骤131:搭建模型训练。同样采用了一个双塔结构模型,如图4所示。此时的模型 输入是不同的实体
Figure DEST_PATH_IMAGE030
,需要将
Figure DEST_PATH_IMAGE031
进行编码变成
Figure DEST_PATH_IMAGE032
。需要注意的是,每个
Figure 511013DEST_PATH_IMAGE033
包含多个属性, 每个属性对应的词向量可以用步骤122中方法得到,接着需要将各个属性的词向量进行整 合,得到整个实体的词向量表示。这其中有很多常用的方法可以选择,本申请可以提供多种 现有常用的自然语言处理技术相关的方法,例如向量直接加和、LSTM等循环神经网络方法 以及带有注意力机制的方法。得到了每个实体的特征之后,为了方便分桶,将特征向量连接 一个哈希层,即一个由0和1组成的向量。这样做的原因是方便分桶,即每个相同的哈希串代 表一个桶,希望相匹配的元组都分到一个桶中,不匹配的实体都在不同的桶中,且比较相似 的实体之间的哈希编码距离较近。因此,构造一个相似度计算层计算两个哈希编码的相似 度,其后接一个分类层计算损失函数,以满足模型的功能。当模型训练好后,对于新到来的 实体,通过网络正向传播,相匹配的实体对将被分到一个桶中。
可选的,所述方法还包括:
对计算相似度过程中数据类型的权重进行调整。
在实施中,在进行步骤133的分桶操作时,如果数据分桶对于召回率要求较高,即不匹配的实体也可以适量的出现在一个桶中,但是相匹配的实体一定要在一个桶中。因此在模型训练的过程中,将加大匹配训练标签的权重。
可选的,步骤14的具体内容包括:
根据桶中每个数据中的实体名称判断多个数据是否属于同一实体;
将属于同一实体的数据按相同属性进行融合,得到融合后的数据表。
在实施中,在模式匹配和数据分桶完成后,对于同一个桶中的实体对,需要判断它们是否指代同一实体。本申请依旧采用深度神经网络来解决实体匹配问题。
搭建模型训练及预测。将每个实体的各个属性元组编码为向量,然后采用双塔模型搭建网络,利用向量直接加和或者LSTM等循环神经网络方法整合不同属性对应的向量,构建相似度计算层,最后计算分类的损失。
其中相似度计算层之前与数据分桶的网络结构十分类似,因此本申请采用迁移学习的思想复用这一结构,加速训练。对于样本的获取和抽样,同样可以采用前述方法进行。
算法示例:
输入:关系型数据表
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
,分别带有m个属性
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
, 同时分别包含若干实体
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
输出:融合后的数据表
Figure DEST_PATH_IMAGE040
1)构造待匹配的属性对;
2)获取属性对的标注数据;
3)对于属性和该列属性值进行向量化编码,生成
Figure 27183DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
Figure 928274DEST_PATH_IMAGE043
4)基于属性值计算主题模型,生成主题向量
Figure DEST_PATH_IMAGE044
5) 构建模式匹配模型进行训练;
6)抽样产生实体对训练数据;
7)对于实体对进行向量化编码生成
Figure DEST_PATH_IMAGE045
7)训练数据分桶模型;
8)训练实体匹配模型;
9)对于
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
利用训练好的模式匹配模型进行对齐;
10) 利用数据分桶模型对
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
之间的实体分桶;
11)利用数据融合模型进行数据融合;
12) 返回融合后的数据表
Figure DEST_PATH_IMAGE050
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.基于深度学习的多源数据深度融合方法,其特征在于,所述多源数据深度融合方法包括:
获取包括第一数据表和第二数据表在内的待融合关系型数据表;
构建深度学习模型,向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;
基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;
对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。
2.根据权利要求1所述的基于深度学习的多源数据深度融合方法,其特征在于,所述构建深度学习模型,向深度学习模型中导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配,包括:
对待融合关系型数据表进行基于数据标注,得到包含数据是否匹配的标注数据集;
对标注数据集进行重编码,完成标注数据集的词向量化处理;
将词向量化处理后的词向量导入深度学习模型,基于属性、属性值和主题三个方面进行相似度计算,基于计算结果进行数据匹配。
3.根据权利要求2所述的基于深度学习的多源数据深度融合方法,其特征在于,所述对待融合关系型数据表进行基于数据标注,得到包含数据是否匹配的标注数据集,包括:
利用公开数据集的标注,模式匹配的标注数据为
Figure DEST_PATH_IMAGE001
;其中
Figure 83660DEST_PATH_IMAGE002
, 代表关系表D中第j个元组的第i个属性值,
Figure DEST_PATH_IMAGE003
是 待标注的数据, 0代表匹配,1代表不匹配。
4.根据权利要求2所述的基于深度学习的多源数据深度融合方法,其特征在于,所述对标注数据集进行重编码,完成标注数据集的词向量化处理,包括:
Figure 610588DEST_PATH_IMAGE004
以及
Figure DEST_PATH_IMAGE005
中的属性值编码成一个d维向量,即
Figure 859166DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
对于词表中未出现的单词用UNK来代替。
5.根据权利要求2所述的基于深度学习的多源数据深度融合方法,其特征在于,所述将词向量化处理后的词向量导入深度学习模型,基于属性、属性值和主题三个方面进行相似度计算,基于计算结果进行数据匹配,包括:
采用主题模型根据属性值挖掘每一列的主题向量,将根据属性、属性值和主题三个方面的相似度做出预测;
将两属性以及对应的值进行向量化,然后根据学习到的参数进行分类,计算两个属性相匹配的概率;
最终在第一数据表和第二数据表之间找到匹配使其概率最大的匹配组合作为最终的匹配结果。
6.根据权利要求1所述的基于深度学习的多源数据深度融合方法,其特征在于,所述基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理,包括:
获取全部实体之间相似度构成的相似度区间,对得到的相似度区间进行分段,在得到的每个分段内抽取预设数量的实体对,对得到实体对进行标注;
分别从第一数据表、第二数据表中选取样本数据,获取每个样本数据的哈希编码,计算两个哈希编码的相似度,计算分桶后的损失值,将损失值最小的数据划分至同一分桶。
7.根据权利要求3所述的基于深度学习的多源数据深度融合方法,其特征在于,所述方法还包括:
对计算相似度过程中数据类型的权重进行调整。
8.根据权利要求1所述的基于深度学习的多源数据深度融合方法,其特征在于,所述对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表,包括:
根据桶中每个数据中的实体名称判断多个数据是否属于同一实体;
将属于同一实体的数据按相同属性进行融合,得到融合后的数据表。
CN202010914905.5A 2020-09-03 2020-09-03 基于深度学习的多源数据深度融合方法 Active CN111767325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010914905.5A CN111767325B (zh) 2020-09-03 2020-09-03 基于深度学习的多源数据深度融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010914905.5A CN111767325B (zh) 2020-09-03 2020-09-03 基于深度学习的多源数据深度融合方法

Publications (2)

Publication Number Publication Date
CN111767325A true CN111767325A (zh) 2020-10-13
CN111767325B CN111767325B (zh) 2020-11-24

Family

ID=72729245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010914905.5A Active CN111767325B (zh) 2020-09-03 2020-09-03 基于深度学习的多源数据深度融合方法

Country Status (1)

Country Link
CN (1) CN111767325B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254641A (zh) * 2021-05-27 2021-08-13 中国电子科技集团公司第十五研究所 一种情报数据融合方法与装置
CN113609715A (zh) * 2021-10-11 2021-11-05 深圳奥雅设计股份有限公司 一种数字孪生背景下的多元模型数据融合方法及***
CN114153839A (zh) * 2021-10-29 2022-03-08 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质
CN114997419A (zh) * 2022-07-18 2022-09-02 北京芯盾时代科技有限公司 评分卡模型的更新方法、装置、电子设备及存储介质
CN116303392A (zh) * 2023-03-02 2023-06-23 重庆市规划和自然资源信息中心 关于不动产登记数据的多源数据表管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341220A (zh) * 2017-06-28 2017-11-10 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN109308311A (zh) * 2018-09-05 2019-02-05 广州小楠科技有限公司 一种多源异构数据融合***
CN110110082A (zh) * 2019-04-12 2019-08-09 黄红梅 多源异构数据融合优化方法
CN110515926A (zh) * 2019-08-28 2019-11-29 国网天津市电力公司 基于分词和语义依存分析的异构数据源海量数据梳理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341220A (zh) * 2017-06-28 2017-11-10 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN109308311A (zh) * 2018-09-05 2019-02-05 广州小楠科技有限公司 一种多源异构数据融合***
CN110110082A (zh) * 2019-04-12 2019-08-09 黄红梅 多源异构数据融合优化方法
CN110515926A (zh) * 2019-08-28 2019-11-29 国网天津市电力公司 基于分词和语义依存分析的异构数据源海量数据梳理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254641A (zh) * 2021-05-27 2021-08-13 中国电子科技集团公司第十五研究所 一种情报数据融合方法与装置
CN113254641B (zh) * 2021-05-27 2021-11-16 中国电子科技集团公司第十五研究所 一种情报数据融合方法与装置
CN113609715A (zh) * 2021-10-11 2021-11-05 深圳奥雅设计股份有限公司 一种数字孪生背景下的多元模型数据融合方法及***
CN113609715B (zh) * 2021-10-11 2022-02-22 深圳奥雅设计股份有限公司 一种数字孪生背景下的多元模型数据融合方法及***
CN114153839A (zh) * 2021-10-29 2022-03-08 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质
CN114997419A (zh) * 2022-07-18 2022-09-02 北京芯盾时代科技有限公司 评分卡模型的更新方法、装置、电子设备及存储介质
CN116303392A (zh) * 2023-03-02 2023-06-23 重庆市规划和自然资源信息中心 关于不动产登记数据的多源数据表管理方法
CN116303392B (zh) * 2023-03-02 2023-09-01 重庆市规划和自然资源信息中心 关于不动产登记数据的多源数据表管理方法

Also Published As

Publication number Publication date
CN111767325B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN103336852B (zh) 跨语言本体构建方法及装置
CN112632250A (zh) 一种多文档场景下问答方法及***
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN112364132A (zh) 基于依存句法的相似度计算模型和***及搭建***的方法
CN113157885A (zh) 一种面向人工智能领域知识的高效智能问答***
Başarslan et al. Sentiment analysis on social media reviews datasets with deep learning approach
CN116127090A (zh) 基于融合和半监督信息抽取的航空***知识图谱构建方法
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及***
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN117973519A (zh) 一种基于知识图谱的数据处理方法
Suresh et al. Data mining and text mining—a survey
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN114626367A (zh) 基于新闻文章内容的情感分析方法、***、设备及介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN115795060A (zh) 一种基于知识增强的实体对齐方法
CN113886535B (zh) 基于知识图谱的问答方法、装置、存储介质及电子设备
Bao et al. HTRM: a hybrid neural network algorithm based on tag-aware
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant