CN113051408B - 一种基于信息增强的稀疏知识图谱推理方法 - Google Patents
一种基于信息增强的稀疏知识图谱推理方法 Download PDFInfo
- Publication number
- CN113051408B CN113051408B CN202110338086.9A CN202110338086A CN113051408B CN 113051408 B CN113051408 B CN 113051408B CN 202110338086 A CN202110338086 A CN 202110338086A CN 113051408 B CN113051408 B CN 113051408B
- Authority
- CN
- China
- Prior art keywords
- information
- knowledge graph
- entity
- graph
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于信息增强的稀疏知识图谱推理方法,该方法包括:对待补全的稀疏知识图谱进行加载,在确定头尾目标实体之后,利用实体链接算法和外接的知识库来引入额外的信息,以此来对稀疏知识图谱进行信息增强;利用实体链接算法和外接的知识库来引入额外的信息,利用图卷积神经网络来获取外部知识图谱中的信息特征,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在对融合之后的特征进行评分,将分值最高的候选结果作为最终结果进行输出。
Description
技术领域
本发明涉及稀疏知识图谱推理补全领域,尤其涉及一种基于信息增强的稀疏知识图谱推理方法。
背景技术
现在公布和接触到的知识图谱大部分都是或者说是公司构建和完善的知识图谱,这样的知识图谱有的在各个领域拥有较全面的知识和信息,而有的是在部分领域拥有比较完善的信息和知识结构。本文所改进的算法也主要是在解决知识图谱从建立到完善阶段使用到的知识图谱推理补全技术。重点是在研究知识图谱中缺失关系部分的问题,在缺失实体部分的问题未提出有效的解决方案。
但在研究的过程中发现,知识图谱永远都是不完整的这个特点是不变的,但是知识图谱也是逐渐丰富的过程。如果知识图谱的完整度划分出等级,那么在知识图谱构建的初期,其完整度是最低的,相应的稀疏程度是最高的。
知识图谱在一定程度上可以说是存储某一领域知识的数据库,而数据库在大多时候只能保存某而信息,无法存储所有信息;这和知识图谱的不完整性是同一的。而知识图谱因为其创建的时间的长短和创建是采集到信息的完整性,使得知识图谱中还存在很多的稀疏知识图谱。稀疏知识图谱本身因为缺少很多的关系,所以在推理时只能收集到目标头实体和尾实体的信息,而不能到更多的与头尾实体相关联的语义信息,这使得在推理过程中语义信息的收集变得困难;另一方面,由于其稀疏性图谱中边相对较少,并且这样使得能够在目标实体头尾节点周获取到的结构信息也变少,对图谱结构信息的提取方面也造成困难。
因此,本发明设计了一种基于信息增强的稀疏知识图谱推理方法,在确定头尾目标实体之后,利用实体链接算法和外接的知识库来引入额外的信息。与已有的知识图谱三元组关系预测推理不同的是,在使用评分函数进行评分之前,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在进行特征融合之后进行评分。以此来解决稀疏知识图谱推理补全的中的关系预测问题。
发明内容
知识图谱推理关系预测主要包含五个步骤:知识图谱加载、目标头尾节点选定、图谱信息获取并计算候选关系、关系结果评分的确定推理结果。本发明主要针对稀疏图谱在信息获取过程自身信息量较少的问题,提出一种基于信息增强的稀疏知识图谱推理方法。该方法基于图神经网络和外接知识图谱来提供额外信息,以此来对稀疏知识图谱进行信息增强。利用实体链接算法和外接的知识库来引入额外的信息,利用图卷积神经网络来获取外部知识图谱中的信息特征,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在对融合之后的特征进行评分,关系预测结果。法步骤如下:
(1)首先对稀疏知识图谱进行加载,将知识图谱的语义信息采用向量嵌入的方式加载,结构信息转变为向量之间的关系;
(2)对知识图谱中的目标预测关系的头实体和尾实体进行选定,计算目标节点周围注意力参数信息;
(3)利用LSTM文本信息提取对目标节点头尾实体进行特征计算,获得特征结果,作为特征结果1;
(4)在确定目标头尾实体后,同时利用实体链接算法确定外接知识库的目标实体;
(5)使用图卷积神经网络在外接知识库中获取增强信息特征结果,作为特征结果2;
(6)使用双注意力机制对特征结果1和特征结果2进行融合,得到融合特征结果;
(7)将不同的融合特征与候选关系进行结合,计算得到每个候选关系的阶段性值。
(8)最后通过评分函数对阶段性值进行计算,得到最终的评分值,得到最终的推理预测关系结果。
附图和附表说明
图1为本发明的主要算法结构图。
图2为本发明的LSTM文本特征提取示意图。
图3为本发明的实体链接算法的流程。
图4为本发明的稀疏知识图谱信息增强部分算法流程图。
图5为本发明的注意力机制特征信息融合算法流程。
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图1所示,本发明主要针对稀疏知识图谱信息量较少的问题,提出了信息增强的方法。信息增强采用外部知识图谱提供增强信息,利用实体链接算法对外部知识图中的目标实体进行定位,利用图卷积神经网络对外部知识图谱的信息进行聚合,最终得到增强特征。利用增强特征来解决稀疏知识图谱关系推理准确度较低的问题。具体实体方式如下:
步骤一:利用LSTM文本信息提取对目标节点头尾实体进行特征计算
如图2所示,需要对实体文本进行特征提取。双向语义特征提取中在经过词向量的嵌入之后,可获得对应序列中的每个词的词向量xi。在双向LSTM网络中,由正向和负向两个网络同时进行文本语义层和结构层信息,具体的双向计算方式如公式(1)和公式(2)所示。
公式(1)和公式(2)中的分别是t时刻的正向隐藏状态和负向隐藏状态,和分别是t-1时刻的隐藏状态,最后将通过和获得一个词向量的最终状态ht。而LSTM网络提取到的短文本的最终特征可由每个词向量的最终状态表示,如公式(3)所示。
H=(h1,h2,…,hn) (3)
公式(3)中H∈Rn×2u,n代表词向量的数目,u代表的是每个词向量嵌入的维度大小。
最终的输出特征作为特征结果1。
步骤二:实体链接算法确定外接知识库的目标实体
实体链接的主要任务是将输入的纯文本中的实体链向特定知识库中的相应实体或数据条目过程。而这个过程根据处理的不同阶段又主要分为实体识别和实体消歧两个子任务。实体链接模型一般经过纯文本输入、实体识别、转化为实体标签文本、实体消歧、实体文本链接到知识库等几个步骤。
如图3所示,本发明采用的实体链接算法的实体识别中主要包含两个步骤:实体识别——主要是区分输入文本中的使用到的实体;实体消歧——针对识别的实体和提及的实体预测相应的实体。而实体消歧又分为两个步骤;候选实体生成——找出涉及到的实体之外的可能的其他实体;实体排序——通过上下文信息计算候选实体的分数然后进行排序。
步骤三:图卷积神经网络在外接知识库中获取增强信息特征结果
如图4所示,具体的稀疏知识图谱信息增强算法需要使用到图神经网络对目标节点周围的信息进行特征获取。首先对于包含多重关系的知识图谱进行建模,用G=(V,ε,R)表示整个知识图谱,其中实体向量vi∈V,关系类型R包含多种关系r∈R,有两个不同实体和一种关系组成了三元组关系对(vi,r,vj)∈ε。
图神经网络是基于热力学传播转化而来的可微的信息传播模型。进行知识图谱链接推理的图神经网络是基础的图神经网络GCNs的一种变体,GCNs中的消息传播模型如公式(4)所示。
其中是实体变量vi在隐藏层中的第l层的值,并且是d维的空间中的变量,即公式(4)表示隐层的下一层结果由这一层的隐藏值进行两两线性变换θm得来的,θm一般采用权重矩阵W来进行线性变换,如公式(5)。σ(·)而则是神经网络中使用的激活函数,如ReLU。
在GCN基础上,定义了在多重关系图中的关于实体变量vi的信息传递模型,如公式(6)所示。
步骤五:双注意力机制特征融合
如图5所示,将特征结果1和特征结果2进行主要力机制的融合。根据注意力机制理论,在使用自注意力机制的情况下的计算方法如公式(7)所示。
而在知识图谱中抽取到增强信息,采用公式(8)的累计注意力机制方法。
文本中的抽取信息的注意力计算方式如公式(9)所示
公式(8)和公式(9)中ν是超参数,W是权重矩阵。
使用双注意力机制模型后需要将两个注意力αi和βi合一,计算方式如公式(10)所示。
步骤六:通过评分函数得到最终的评分值
为链接预测是预测知识图谱G=(V,ε,R)中本来不存在的边,在进行卷积计算后,通过与原有的实体对应的变化后的实体进行遍历匹配关系后的可能存在的关系(s,r,o)进行评分得到最终的推理关系结果。
稀疏知识图谱推理关系预测使用的评分函数如公式(11)所示。
最后对评分值进行排序,将评分值最高的候选关系作为稀疏知识图谱中未知关系预测的结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种基于信息增强的稀疏知识图谱推理方法,该方法目标是对稀疏知识图谱中未知关系进行推理预测,方法的步骤如下:
步骤1:首先对稀疏知识图谱进行加载,将知识图谱的语义信息采用向量嵌入的方式加载,结构信息转变为向量之间的关系;
步骤2:对知识图谱中的目标预测关系的头实体和尾实体进行选定,计算目标节点周围注意力参数信息;
步骤3:利用LSTM文本信息提取对目标节点头尾实体进行特征计算,获得特征结果,作为特征结果1;
步骤4:在确定目标头尾实体后,同时利用实体链接算法确定外接知识库的目标实体;
步骤5:使用图卷积神经网络在外接知识库中获取增强信息特征结果,作为特征结果2;
步骤6:使用双注意力机制对特征结果1和特征结果2进行融合,得到融合特征结果;
步骤7:将不同的融合特征与候选关系进行结合,计算得到每个候选关系的阶段性值;
步骤8:最后通过评分函数对阶段性值进行计算,得到最终的评分值,得到最终的推理预测关系结果。
2.根据权利要求1所述的一种基于信息增强的稀疏知识图谱推理方法,其特征在于所述步骤3中对知识图谱进行文本实体特征抽取的具体方法为:
需实体文本进行特征提取;双向语义特征提取中在经过词向量的嵌入之后,可获得对应序列中的每个词的词向量xi;在双向LSTM网络中,由正向和负向两个网络同时进行文本语义层和结构层信息,具体的双向计算方式如公式(1)和公式(2)所示;
公式(1)和公式(2)中的分别是t时刻的正向隐藏状态和负向隐藏状态,和分别是t-1时刻的正向隐藏状态和负向隐藏状态,最后将通过和获得一个词向量的最终状态ht;而LSTM网络提取到的短文本的最终特征可由每个词向量的最终状态表示,如公式(3)所示;
H=(h1,h2,…,hn) (3)
公式(3)中H∈Rn×2u,n代表词向量的数目,u代表的是每个词向量嵌入的维度大小;
最终的输出特征作为特征结果1。
3.根据权利要求1所述的一种基于信息增强的稀疏知识图谱推理方法,其特征在于所述步骤4中对目标头尾实体链接到外部知识图谱实体链接方法具体为:
实体识别——主要是区分输入文本中的使用到的实体,实体消歧——针对识别的实体和提及的实体预测相应的实体;而实体消歧又分为两个步骤:候选实体生成——找出涉及到的实体之外的可能的其他实体,实体排序——通过上下文信息计算候选实体的分数然后进行排序。
4.根据权利要求1所述的一种基于信息增强的稀疏知识图谱推理方法,其特征在于所述步骤5中利用图神经网络获得增强特征的过程具体指:
稀疏知识图谱信息增强算法需要使用到图神经网络对目标节点周围的信息进行特征获取;首先对于包含多重关系的知识图谱进行建模,用G=(V,ε,R)表示整个知识图谱,其中实体向量vi∈V,关系类型R包含多种关系r∈R,有两个不同实体和一种关系组成了三元组关系对(vi,r,vj)∈ε;
图神经网络是基于热力学传播转化而来的可微的信息传播模型;进行知识图谱链接推理的图神经网络是基础的图神经网络GCNs的一种变体,GCNs中的消息传播模型如公式(4)所示;
其中是实体变量vi在隐藏层中的第l层的值,并且是d维的空间中的变量,即公式(4)表示隐层的下一层结果由这一层的隐藏值进行两两线性变换θm得来的,θm采用权重矩阵W来进行线性变换,如公式(5);σ(·)而则是神经网络中使用的激活函数,如ReLU;
在GCN基础上,定义了在多重关系图中的关于实体变量vi的信息传递模型,如公式(6)所示;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338086.9A CN113051408B (zh) | 2021-03-30 | 2021-03-30 | 一种基于信息增强的稀疏知识图谱推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338086.9A CN113051408B (zh) | 2021-03-30 | 2021-03-30 | 一种基于信息增强的稀疏知识图谱推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051408A CN113051408A (zh) | 2021-06-29 |
CN113051408B true CN113051408B (zh) | 2023-02-14 |
Family
ID=76516160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110338086.9A Active CN113051408B (zh) | 2021-03-30 | 2021-03-30 | 一种基于信息增强的稀疏知识图谱推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051408B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251583B (zh) * | 2023-11-20 | 2024-01-26 | 湖北大学 | 基于局部图结构的文本增强知识图谱表示学习方法及*** |
CN118014076B (zh) * | 2024-04-09 | 2024-07-09 | 中国人民解放军总医院 | 医学知识抽取方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112199961A (zh) * | 2020-12-07 | 2021-01-08 | 浙江万维空间信息技术有限公司 | 一种基于深度学习的知识图谱获取方法 |
CN112347268A (zh) * | 2020-11-06 | 2021-02-09 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200065668A1 (en) * | 2018-08-27 | 2020-02-27 | NEC Laboratories Europe GmbH | Method and system for learning sequence encoders for temporal knowledge graph completion |
CN111428047B (zh) * | 2020-03-19 | 2023-04-21 | 东南大学 | 一种基于ucl语义标引的知识图谱构建方法及装置 |
-
2021
- 2021-03-30 CN CN202110338086.9A patent/CN113051408B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112347268A (zh) * | 2020-11-06 | 2021-02-09 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112199961A (zh) * | 2020-12-07 | 2021-01-08 | 浙江万维空间信息技术有限公司 | 一种基于深度学习的知识图谱获取方法 |
Non-Patent Citations (7)
Title |
---|
"Knowledge graph completion via complete attention between knowledge graph and entity descriptions";M Zhao 等;《https://doi.org/10.1145/3331453.3362056》;20191022;1-6 * |
"公共安全领域知识图谱的知识融合技术研究";李攀成;《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》;20200115;G110-4 * |
"基于深度学习的实体关系抽取和知识图谱补全方法的研究";姚娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200615;I138-1320 * |
"基于深度学习的知识图谱补全技术研究";倪立旺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;I138-1478 * |
"面向金融领域的知识图谱构建及补全研究";张德亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210115;I138-2446 * |
基于神经网络的知识推理研究综述;张仲伟等;《计算机工程与应用》;20190325(第12期);8-19 * |
结合自底向上注意力机制和记忆网络的视觉问答模型;闫茹玉等;《中国图象图形学报》;20200516(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113051408A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920720B (zh) | 基于深度哈希和gpu加速的大规模图像检索方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN109299257B (zh) | 一种基于lstm和知识图谱的英文期刊推荐方法 | |
CN113051408B (zh) | 一种基于信息增强的稀疏知识图谱推理方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN114065048B (zh) | 基于多异构图图神经网络的物品推荐方法 | |
CN111914895A (zh) | 基于多层注意力机制并融合图谱的水利门户信息推荐方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测***及其方法 | |
CN112434024A (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN108470025A (zh) | 局部话题概率生成正则化自编码文本嵌入表示方法 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及*** | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及*** | |
CN110209772A (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
CN116993043A (zh) | 一种电力设备故障溯源方法及装置 | |
CN113159976B (zh) | 一种微博网络重要用户的识别方法 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
CN113343710A (zh) | 一种基于Ising模型的无监督词嵌入表示学习方法 | |
CN113987170A (zh) | 基于卷积神经网络的多标签文本分类方法 | |
CN113239219A (zh) | 一种基于多模态查询的图像检索方法、***、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |