CN109783582A - 一种知识库对齐方法、装置、计算机设备及存储介质 - Google Patents

一种知识库对齐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109783582A
CN109783582A CN201811474699.XA CN201811474699A CN109783582A CN 109783582 A CN109783582 A CN 109783582A CN 201811474699 A CN201811474699 A CN 201811474699A CN 109783582 A CN109783582 A CN 109783582A
Authority
CN
China
Prior art keywords
knowledge
entity
similarity
cluster
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811474699.XA
Other languages
English (en)
Other versions
CN109783582B (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811474699.XA priority Critical patent/CN109783582B/zh
Publication of CN109783582A publication Critical patent/CN109783582A/zh
Priority to PCT/CN2019/103487 priority patent/WO2020114022A1/zh
Application granted granted Critical
Publication of CN109783582B publication Critical patent/CN109783582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种知识库对齐的方法、装置、计算机设备及存储介质,其中方法包括下述步骤:获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。两个知识实体相似度的比较限于同一类实体中,大大减少了计算量,聚类时,通过人工智能技术实现,使聚类结果更符合预期,相似度的计算综合了实体的属性相似度和向量相似度,使相似度的计算更合理,可以更有效的发现和去除冗余信息。

Description

一种知识库对齐方法、装置、计算机设备及存储介质
技术领域
本发明涉及知识库处理技术领域,尤其涉及一种知识库对齐方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,各个领域构建了越来越多的知识库,这些知识库也被广泛的应用于搜索服务、自动问答等互联网应用中。知识库对信息的共享和传播具有积极意义。然而,单个知识库的信息有限,在一些情况下不能满足用户的需求;且通常知识库是持续扩充的,占用的存储资源的规模也持续扩大,但持续扩充到知识库中的数据可能存在冗余,这种冗余造成存储资源的浪费,同时,也使搜索计算量增大,搜索结果信息重复,给用户带来不便。
知识库对齐(Knowledge Base Alignment)指对于不同来源的各个实体,找出属于现实中同一事物的实体。这里实体指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念、关系。因此知识库对齐,即抽取实体信息,去除冗余,是构建高质量知识库的关键问题。
知识库对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐,由于不同实体数据属于用户原创内容(User Generated Content,UGC)类型,不同用户编辑的数据质量参差不齐,仅通过用户编辑的实体属性信息难以准确判定是否为同一实体。
发明内容
本发明提供一种知识库对齐方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明提出一种知识库对齐方法,包括如下步骤:
获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;
将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;
根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;
当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
可选地,在所述获取知识实体向量集的步骤之前,还包括下述步骤:
获取待对齐的知识库中的知识实体;
将所述知识实体基于IF-IDF算法向量化,得到所述知识实体向量集。
可选地,所述预先设定的知识实体聚类模型采用DBSCAN密度聚类算法。
可选地,所述预先设定的知识实体聚类模型采用基于卷积神经网络的聚类模型,所述基于卷积神经网络的聚类模型的训练包含下述步骤:
获取标记有聚类判断信息的训练样本,所述训练样本的聚类判断信息为样本知识实体的类别;
将所述训练样本输入卷积神经网络模型获取所述训练样本的模型聚类参照信息;
通过损失函数比对所述训练样本内不同样本的模型聚类参照信息与所述聚类判断信息是否一致;
当所述模型聚类参照信息与所述聚类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述模型聚类参照信息与所述聚类判断信息一致时结束。
可选地,在所述根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度的步骤具体包括下述步骤:
获取所述两个知识实体的属性,其中,所述知识实体的属性为描述对应知识实体的数据;
计算所述两个知识实体的属性相似度和向量相似度;
按照以下公式计算所述两个知识实体的属性相似度和向量相似度的加权和,得到所述两个知识实体之间的相似度,即:
S=aX+bY
其中,S为所述两个知识实体之间的相似度,X为所述属性相似度,Y为所述向量相似度,a、b分别为所述属性相似度和所述向量相似度的权重。
可选地,在所述当所述相似度大于设定的第一阈值时,将所述两个知识实体合并的步骤中,还包括下述步骤:
当所述相似度大于设定的第二阈值时,其中,所述第二阈值大于所述第一阈值,从待对齐的知识库中删除所述两个知识实体中的任意一个。
可选地,在所述当所述相似度大于设定的第一阈值时,将所述两个知识实体合并的步骤中,还包括下述步骤:
a.将所述两个知识实体分割成若干个子实体;
b.选择所述若干个子实体中的任意两个子实体,计算所述两个子实体之间的相似度;
c.当所述两个子实体之间的相似度大于预设的第三阈值时,删除所述两个子实体中的任意一个,其中,所述第三阈值大于所述第一阈值;
d.重复步骤b和步骤c,直到保留的子实体中任意两个子实体之间的相似度都小于或等于预设的第三阈值;
e.将所述保留的子实体合并作为所述两个知识实体的对齐实体。
为解决上述问题,本发明还提供一种知识库对齐装置,包括:
获取模块,用于获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;
处理模块,用于将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;
计算模块,用于根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;
执行模块,用于当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
可选地,所述知识库对齐装置还包括:
第一获取子模块,用于获取待对齐的知识库中的知识实体;
第一处理子模块,用于将所述知识实体基于IF-IDF算法向量化,得到所述知识实体向量集。
可选地,所述知识库对齐装置中预先设定的知识实体聚类模型采用DBSCAN密度聚类算法。
可选地,所述知识库对齐装置中预先设定的知识实体聚类模型采用基于卷积神经网络的聚类模型。
可选地,所述计算模块包括:
第二获取子模块,用于获取所述两个知识实体的属性,其中,所述知识实体的属性为描述对应知识实体的数据;
第一计算子模块,用于计算所述两个知识实体的属性相似度和向量相似度;
第二计算子模块,用于按照以下公式计算所述两个知识实体的属性相似度和向量相似度的加权和,得到所述两个知识实体之间的相似度,即:
S=aX+bY
其中,S为所述两个知识实体之间的相似度,X为所述属性相似度,Y为所述向量相似度,a、b分别为所述属性相似度和所述向量相似度的权重。
可选地,所述执行模块包括:
第一执行子模块,用于当所述相似度大于设定的第二阈值时,其中,所述第二阈值大于所述第一阈值,从待对齐的知识库中删除所述两个知识实体中的任意一个。
可选地,所述执行模块包括:
第一分割子模块,用于将所述两个知识实体分割成若干个子实体;
第三计算子模块,用于选择所述若干个子实体中的任意两个子实体,计算所述两个子实体之间的相似度;
第二执行子模块,用于当所述两个子实体之间的相似度大于预设的第三阈值时,删除所述两个子实体中的任意一个,其中,所述第三阈值大于所述第一阈值;
第一循环子模块,用于使第三计算子模块和第二执行子模块重复运行,直到保留的子实体中任意两个子实体之间的相似度都小于或等于预设的第三阈值;
第三执行子模块,用于将所述保留的子实体合并作为所述两个知识实体的对齐实体。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述知识库对齐方法的步骤。
为解决上述技术问题,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行上述所述知识库对齐方法的步骤。
本发明实施例的有益效果为:通过获取知识实体向量集,将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果,根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度,当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。两个知识实体相似度的比较限于同一类实体中,大大减少了计算量,其中,相似度的计算综合了实体的属性相似度和向量相似度,使相似度的计算更合理,可以更有效的发现和去除冗余信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图
图1为本发明实施例一种知识库对齐方法基本流程示意图;
图2为本发明实施例基于IF-IDF算法对知识实体向量化的示意图;
图3为本发明实施例基于卷积神经网络的聚类模型训练流程示意图;
图4为本发明实施例知识实体相似度计算流程示意图;
图5为本发明实施例知识实体合并流程示意图;
图6为本发明实施例一种知识库对齐装置基本结构框图;
图7为本发明实施计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile InternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的终端即为上述的终端。
具体地,请参阅图1,图1为本实施例一种知识库对齐方法的基本流程示意图。
如图1所示,一种知识库对齐方法,包括下述步骤:
S101、获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;
保存在知识库中的知识实体通常为文本或图片,在对知识实体进行对齐时,通常需要计算知识实体间的相似度,为了方便计算机处理和理解,需要用将知识实体转化为向量。例如文本的向量化表示通过向量空间模型也称为词袋模型(bag of words)实现,其中最简单的模式是基于词的独热编码(one-hotencoding),用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。
S102、将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;
将表示知识实体的向量集输入到预先设定的知识实体聚类模型。其中知识实体的聚类模型采用基于密度的聚类算法,基于密度的聚类算法不需要事先确定簇类的数据,可以发现任意形状的簇类,能够识别出噪声点,对离群点有较好的鲁棒性,可以检测离群点。DBSCAN是该类方法中最典型的代表算法之一,其核心思想就是先发现密度较高的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇。具体的算法实现:对每个数据点为圆心,以eps为半径画个圈(称为邻域eps-neigbourhood),然后数有多少个点在这个圈内,这个数就是该点密度值。然后选取一个密度阈值MinPts,如圈内点数小于MinPts的圆心点为低密度的点,而大于或等于MinPts的圆心点高密度的点(称为核心点Corepoint)。如果有一个高密度的点在另一个高密度的点的圈内,我们就把这两个点连接起来,这样我们可以把好多点不断地串联出来。之后,如果有低密度的点也在高密度的点的圈内,把它也连到最近的高密度点上,称之为边界点。这样所有能连到一起的点就成一了个簇,而不在任何高密度点的圈内的低密度点就是异常点。
在一些实施方式中,采用经过训练的卷积神经网络模型来实现聚类,通过对卷积神经网络进行训练学习人工对训练样本聚类的特征,使卷积神经网络模型可以按照预期对知识实体进行聚类。
S103、根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;
通过步骤S102,对知识库中的知识实体进行了聚类,再在同一类中,通过计算任意两个知识实体的相似度,来判断是否存在冗余的实体,这样缩小了知识实体比较的范围,减小了计算量,提高了判断是否存在冗余实体的效率。
两个知识实体的相似度通过计算表示两个知识实体的向量之间的相似度来得出。两个向量之间的相似度可以是余弦相似度。余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度对于任何维度的向量空间都适用,且常用于高维正空间,所以适合用于文本文件的比较。
也可以通过计算向量之间的欧氏距离来衡量两个向量之间的相似度。为了避免尺度的影响,先对向量进行归一化,再按照以下公式求向量空间中两个点X1,X2之间的距离:
其中x1i,x2i为X1,X2归一化后各维度的值。
S104、当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
预先设定一个阈值,这里称之为第一阈值,当两个知识实体的相似度大于设定的第一阈值时,认为两个知识实体部分内容重复,将两个知识实体合并为一个实体。
如图2所示,在S101之前,还包括步骤:
S111、获取待对齐的知识库中的知识实体;
通过访问知识库所在服务器获取知识实体,知识实体可以属于同一知识所库,也可以来源于多个知识库。
S112、将所述知识实体基于IF-IDF算法向量化,得到所述知识实体向量集。
将知识实体向量化,除了前述的基于词袋模型向量化外,还可以在基于基于IF-IDF算法对知识实体向量化。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是:TF*IDF,TF(Term Frequency,词频),IDF(Inverse Document Frequency,逆向文件频率)。TF表示词条在文档d中出现的频率。使用TF-IDF对文本向量化,同样构建一个词典,用每个词的TF-IDF值作为该词的权重。
如图3所示,所述基于卷积神经网络的聚类模型的训练,包括下述步骤:
S121、获取标记有聚类判断信息的训练样本,所述训练样本的聚类判断信息为样本知识实体的类别;
本发明实施例中,卷积神经网络的训练目标是识别知识实体所属的类别,卷积神经网络模型通过训练学习样本中人工标注类别的特征,实现对知识实体聚类的功能。
S122、将所述训练样本输入卷积神经网络模型获取所述训练样本的模型聚类参照信息;
卷积神经网络模型由:卷积层、池化层、全连接和分类层组成。其中,卷积层被用于对知识实体向量局部进行感知,且卷积层通常以级联的方式进行连接,级联中位置越靠后的卷积层能够感知越全局化的信息。
全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接层连接在卷积层输出位置,能够感知知识实体向量的全局化特征。
将训练样本输入到卷积神经网络模型中,获取卷积神经网络模型输入聚类参照信息。
S123、通过损失函数比对所述训练样本内不同样本的模型聚类参照信息与所述聚类判断信息是否一致;
通过损失函数比对聚类参照信息和样本标注的聚类判断信息是否一致,本发明实施例中使用softmax交叉熵损失函数,具体为:
假设共有N个训练样本,针对网络最后分层第i个样本的输入特征为Xi,其对应的标记为Yi是最终的分类结果,h=(h1,h2,...,hc)为网络的最终输出,即样本i的预测结果。其中C是最后所有分类的数量。
S124、当所述模型聚类参照信息与所述聚类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述模型聚类参照信息与所述聚类判断信息一致时结束。
在训练过程中,调整卷积神经网络模型中各节点的权重,使Softmax交叉熵损失函数尽可能收敛,也就是说继续调整权重,得到的损失函数的值不再缩小,反而增大时,认为卷积神经网络训练可以结束。各节点权重的调整采用梯度下降法,梯度下降法是一个最优化算法,用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。
通过训练后的卷积神经网络模型对知识实体进行聚类,可以使聚类结果更接近用户的预期。
如图4所示,步骤S103还包括下述步骤:
S131、获取所述两个知识实体的属性,其中,所述知识实体的属性为描述对应知识实体的数据;
在一些情况下,虽然两个知识实体从内容来看相似度不高,但是两个知识实体都对应现实中的一个实体,也就是说,两个知识实体分别描述了现实中某个实体的两部分信息,为了使用的方便,也有必要将这两部分信息合在一起。所以,这里引入属性相似度。先获取知识实体的属性,属性是用来描述知识实体的数据,也可以称为标签。
S132、计算所述两个知识实体的属性相似度和向量相似度;
属性相似度,本发明实施例中采用编辑距离来衡量两个知识实体之间的相似度。编辑距离,是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。字符操作包括:删除一个字符、修改一个字符、***一个字符。在这里设置每次操作的代价为1,属性相似度可以通过以下公式计算:
属性相似度=(1-编辑距离)/两个属性字符串的最大长度
向量相似度,即前述的衡量两个知识实体向量相似度的余弦相似度或欧氏距离。
S133、按照以下公式计算所述两个知识实体的属性相似度和向量相似度的加权和,得到所述两个知识实体之间的相似度,即:
S=aX+bY
其中,S为所述两个知识实体之间的相似度,X为所述属性相似度,Y为所述向量相似度,a、b分别为所述属性相似度和所述向量相似度的权重。
综合属性相似度和向量相似度,可以在内容相似度不高的情况下,发现描述同一现实实体的两个知识实体,并对描述同一现实实体的知识实体进行合并,方便用户的使用和知识库的维护。
步骤S104还包括下述步骤:
S141、当所述相似度大于设定的第二阈值时,其中,所述第二阈值大于所述第一阈值,从待对齐的知识库中删除所述两个知识实体中的任意一个。
当两个知识实体的相似度非常高,这里我们设定第二阈值,第二阈值大于前述的第一阈值,例如设定的第二阈值为0.95,即认为两个知识实体基本相同,这时,从知识库中删除任意一个知识实体就是有效的去除冗余的方法。
如图5所示,步骤S104还包括下述步骤:
S151、将所述两个知识实体分割成若干个子实体;
当两个知识实体的相似度大于预设的第一阈值时,认为两个知识实体部分内容重复,为了将重复的内容剔出,可以先将两个知识实体按照一定的规则分割成若干个子实体,例如按照内容段落分割。
S152、选择所述若干个子实体中的任意两个子实体,计算所述两个子实体之间的相似度;
选择分割后的任意两个子实体,计算两个子实体间的相似度,即如前面所述,先将子实体向量化,然后计算表示子实体的向量之间的相似度,可以是余弦相似度、也可以是欧氏距离。
S153、当所述两个子实体之间的相似度大于预设的第三阈值时,删除所述两个子实体中的任意一个,其中,所述第三阈值大于所述第一阈值;
当两个子实体之间的相似度大于预设的阈值时,这里称为第三阈值,认为两个子实体内容基本重复,删除其中任意一个。为避免删除过多的内容,第三阈值要求大于前述的第一阈值。
S154、重复步骤S152和步骤S153,直到保留的子实体中任意两个子实体之间的相似度都小于或等于预设的第三阈值;
重复进行子实体之间相似度的比较,删除重合度高的子实体,使保留的子实体中任意两个子实体的相似度都小于或等于预设的第三阈值。
S155、将所述保留的子实体合并作为所述两个知识实体的对齐实体。
将保留的子实体合并作为之前待对齐的两个知识实体的对齐结果。
为解决上述技术问题本发明实施例还提供一种知识库对齐装置。具体请参阅图6,图6为本实施例知识库对齐装置的基本结构框图。
如图6所示,一种知识库对齐装置,包括:获取模块210、处理模块220、计算模块230和执行模块240。其中,获取模块210,用于获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;处理模块220,用于将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;计算模块230,用于根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;执行模块240,用于当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
本发明实施例通过获取知识实体向量集,将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果,根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度,当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。两个知识实体相似度的比较限于同一类实体中,大大减少了计算量,其中,相似度的计算综合了实体的属性相似度和向量相似度,使相似度的计算更合理,可以更有效的发现和去除冗余信息。
在一些实施方式中,所述知识库对齐装置还包括:第一获取子模块和第一处理子模块。其中,第一获取子模块,用于获取待对齐的知识库中的知识实体;第一处理子模块,用于将所述知识实体基于IF-IDF算法向量化,得到所述知识实体向量集。
在一些实施方式中,所述知识库对齐装置中预先设定的知识实体聚类模型采用DBSCAN密度聚类算法。
在一些实施方式中,所述知识库对齐装置中预先设定的知识实体聚类模型采用基于卷积神经网络的聚类模型。
在一些实施方式中,所述计算模块230包括:第二获取子模块、第一计算子模块和第二计算子模块。其中,第二获取子模块,用于获取所述两个知识实体的属性,其中,所述知识实体的属性为描述对应知识实体的数据;第一计算子模块,用于计算所述两个知识实体的属性相似度和向量相似度;第二计算子模块,用于按照以下公式计算所述两个知识实体的属性相似度和向量相似度的加权和,得到所述两个知识实体之间的相似度,即:
S=aX+bY
其中,S为所述两个知识实体之间的相似度,X为所述属性相似度,Y为所述向量相似度,a、b分别为所述属性相似度和所述向量相似度的权重。
在一些实施方式中,所述执行模块240包括:第一执行子模块,用于当所述相似度大于设定的第二阈值时,其中,所述第二阈值大于所述第一阈值,从待对齐的知识库中删除所述两个知识实体中的任意一个。
在一些实施方式中,所述执行模块240包括:第一分割子模块、第三计算子模块、第二执行子模块、第一循环子模块和第三执行子模块。其中,第一分割子模块,用于将所述两个知识实体分割成若干个子实体;第三计算子模块,用于选择所述若干个子实体中的任意两个子实体,计算所述两个子实体之间的相似度;第二执行子模块,用于当所述两个子实体之间的相似度大于预设的第三阈值时,删除所述两个子实体中的任意一个,其中,所述第三阈值大于所述第一阈值;第一循环子模块,用于使第三计算子模块和第二执行子模块重复运行,直到保留的子实体中任意两个子实体之间的相似度都小于或等于预设的第三阈值;第三执行子模块,用于将所述保留的子实体合并作为所述两个知识实体的对齐实体。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
如图7所示,计算机设备的内部结构示意图。如图7所示,该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种知识库对齐的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种知识库对齐的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中获取模块210、处理模块220、计算模块230和执行模块240的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有知识库对齐方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过获取知识实体向量集,将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果,根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度,当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。两个知识实体相似度的比较限于同一类实体中,大大减少了计算量,其中,相似度的计算综合了实体的属性相似度和向量相似度,使相似度的计算更合理,可以更有效的发现和去除冗余信息。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述知识库对齐方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种知识库对齐方法,其特征在于,包括下述步骤:
获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;
将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;
根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;
当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
2.根据权利要求1所述的知识库对齐方法,其特征在于,在所述获取知识实体向量集的步骤之前,还包括下述步骤:
获取待对齐的知识库中的知识实体;
将所述知识实体基于IF-IDF算法向量化,得到所述知识实体向量集。
3.根据权利要求1所述的知识库对齐方法,其特征在于,所述预先设定的知识实体聚类模型采用DBSCAN密度聚类算法。
4.根据权利要求1所述的知识库对齐方法,其特征在于,所述预先设定的知识实体聚类模型采用基于卷积神经网络的聚类模型,所述基于卷积神经网络的聚类模型的训练包含下述步骤:
获取标记有聚类判断信息的训练样本,所述训练样本的聚类判断信息为样本知识实体的类别;
将所述训练样本输入卷积神经网络模型获取所述训练样本的模型聚类参照信息;
通过损失函数比对所述训练样本内不同样本的模型聚类参照信息与所述聚类判断信息是否一致;
当所述模型聚类参照信息与所述聚类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述模型聚类参照信息与所述聚类判断信息一致时结束。
5.根据权利要求1所述的知识库对齐方法,其特征在于,在所述根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度的步骤具体包括下述步骤:
获取所述两个知识实体的属性,其中,所述知识实体的属性为描述对应知识实体的数据;
计算所述两个知识实体的属性相似度和向量相似度;
按照以下公式计算所述两个知识实体的属性相似度和向量相似度的加权和,得到所述两个知识实体之间的相似度,即:
S=aX+bY
其中,S为所述两个知识实体之间的相似度,X为所述属性相似度,Y为所述向量相似度,a、b分别为所述属性相似度和所述向量相似度的权重。
6.根据权利要求1所述的知识库对齐方法,其特征在于,在所述当所述相似度大于设定的第一阈值时,将所述两个知识实体合并的步骤中,还包括下述步骤:
当所述相似度大于设定的第二阈值时,其中,所述第二阈值大于所述第一阈值,从待对齐的知识库中删除所述两个知识实体中的任意一个。
7.根据权利要求1所述的知识库对齐方法,其特征在于,在所述当所述相似度大于设定的第一阈值时,将所述两个知识实体合并的步骤中,还包括下述步骤:
a.将所述两个知识实体分割成若干个子实体;
b.选择所述若干个子实体中的任意两个子实体,计算所述两个子实体之间的相似度;
c.当所述两个子实体之间的相似度大于预设的第三阈值时,删除所述两个子实体中的任意一个,其中,所述第三阈值大于所述第一阈值;
d.重复步骤b和步骤c,直到保留的子实体中任意两个子实体之间的相似度都小于或等于预设的第三阈值;
e.将所述保留的子实体合并作为所述两个知识实体的对齐实体。
8.一种知识库对齐装置,其特征在于,包括:
获取模块,用于获取知识实体向量集,其中,所述知识实体向量集是待对齐的知识库中知识实体的向量化表示;
处理模块,用于将所述知识实体向量集输入到预先设定的知识实体聚类模型,得到所述待对齐知识库中知识实体的聚类结果;
计算模块,用于根据所述聚类结果,选择属于同一类的任意两个知识实体,计算所述两个知识实体之间的相似度;
执行模块,用于当所述相似度大于设定的第一阈值时,将所述两个知识实体合并。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述知识库对齐方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项权利要求所述知识库对齐方法的步骤。
CN201811474699.XA 2018-12-04 2018-12-04 一种知识库对齐方法、装置、计算机设备及存储介质 Active CN109783582B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811474699.XA CN109783582B (zh) 2018-12-04 2018-12-04 一种知识库对齐方法、装置、计算机设备及存储介质
PCT/CN2019/103487 WO2020114022A1 (zh) 2018-12-04 2019-08-30 一种知识库对齐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811474699.XA CN109783582B (zh) 2018-12-04 2018-12-04 一种知识库对齐方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109783582A true CN109783582A (zh) 2019-05-21
CN109783582B CN109783582B (zh) 2023-08-15

Family

ID=66496644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811474699.XA Active CN109783582B (zh) 2018-12-04 2018-12-04 一种知识库对齐方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109783582B (zh)
WO (1) WO2020114022A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377906A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 实体对齐方法、存储介质和电子设备
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN111026865A (zh) * 2019-10-18 2020-04-17 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111159420A (zh) * 2019-12-12 2020-05-15 西安交通大学 一种基于属性计算与知识模板的实体优化方法
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN112541054A (zh) * 2020-12-15 2021-03-23 平安科技(深圳)有限公司 知识库的标问标答的治理方法、装置、设备及存储介质
CN112579770A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 知识图谱的生成方法,装置,存储介质及设备
CN112699909A (zh) * 2019-10-23 2021-04-23 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN113536796A (zh) * 2021-07-15 2021-10-22 北京明略昭辉科技有限公司 一种实体对齐辅助方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417163B (zh) * 2020-11-13 2024-07-09 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置
CN112445876B (zh) * 2020-11-25 2023-12-26 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和***
CN112541360A (zh) * 2020-12-07 2021-03-23 国泰君安证券股份有限公司 利用超参自适用dbscan聚类的跨平台异常识别转译方法、装置、处理器及存储介质
CN113095948B (zh) * 2021-03-24 2023-06-06 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法
CN113361263B (zh) * 2021-06-04 2023-10-20 中国人民解放军战略支援部队信息工程大学 基于属性值分布的人物实体属性对齐方法及***
CN113886659A (zh) * 2021-10-08 2022-01-04 科大讯飞股份有限公司 数据融合方法、相关设备及可读存储介质
CN114329003B (zh) * 2021-12-27 2024-08-13 北京达佳互联信息技术有限公司 媒体资源数据处理方法、装置、电子设备及存储介质
CN114676267A (zh) * 2022-04-01 2022-06-28 北京明略软件***有限公司 用于实体对齐的方法及装置、电子设备
CN115563350A (zh) * 2022-10-22 2023-01-03 山东浪潮新基建科技有限公司 多源异构电网设备数据的对齐和补全方法及***
CN118170927B (zh) * 2024-05-10 2024-08-23 山东圣剑医学研究有限公司 一种用于ai数字人的科研资料知识图谱构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430738B1 (en) * 2012-02-08 2016-08-30 Mashwork, Inc. Automated emotional clustering of social media conversations
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN109783582B (zh) * 2018-12-04 2023-08-15 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
CN110377906A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 实体对齐方法、存储介质和电子设备
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN112579770A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 知识图谱的生成方法,装置,存储介质及设备
WO2021072891A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111026865A (zh) * 2019-10-18 2020-04-17 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111026865B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN112699909A (zh) * 2019-10-23 2021-04-23 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN112699909B (zh) * 2019-10-23 2024-03-19 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN111159420A (zh) * 2019-12-12 2020-05-15 西安交通大学 一种基于属性计算与知识模板的实体优化方法
CN111159420B (zh) * 2019-12-12 2023-04-28 西安交通大学 一种基于属性计算与知识模板的实体优化方法
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN112541054A (zh) * 2020-12-15 2021-03-23 平安科技(深圳)有限公司 知识库的标问标答的治理方法、装置、设备及存储介质
CN112541054B (zh) * 2020-12-15 2023-08-29 平安科技(深圳)有限公司 知识库的标问标答的治理方法、装置、设备及存储介质
CN113536796A (zh) * 2021-07-15 2021-10-22 北京明略昭辉科技有限公司 一种实体对齐辅助方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2020114022A1 (zh) 2020-06-11
CN109783582B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109783582A (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
US9542454B2 (en) Object-based information storage, search and mining system
CN113127632B (zh) 基于异质图的文本摘要方法及装置、存储介质和终端
US20100088342A1 (en) Incremental feature indexing for scalable location recognition
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN110222709A (zh) 一种多标签智能打标方法及***
CN108269275A (zh) 一种基于非局部神经网络的非局部建模方法
CN112199600A (zh) 目标对象识别方法和装置
CN116703531B (zh) 物品数据处理方法、装置、计算机设备和存储介质
CN114065048A (zh) 基于多异构图图神经网络的物品推荐方法
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN115600017A (zh) 特征编码模型训练方法及装置、媒体对象推荐方法及装置
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114706987A (zh) 文本类目预测方法、装置、设备、存储介质和程序产品
CN104484365A (zh) 一种多源异构网络中社会关系的预测方法与***
CN112765481A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN110442681A (zh) 一种机器阅读理解的方法、电子设备及可读存储介质
Vrigkas et al. Active privileged learning of human activities from weakly labeled samples
Sun et al. REMIT: reinforced multi-interest transfer for cross-domain recommendation
CN114093447A (zh) 数据资产推荐方法、装置、计算机设备及存储介质
CN110688508B (zh) 图文数据扩充方法、装置及电子设备
Fushimi et al. Accelerating Greedy K-Medoids Clustering Algorithm with Distance by Pivot Generation
JP4963341B2 (ja) 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant