CN111581326A - 一种基于异构外部知识源图结构抽取答案信息的方法 - Google Patents

一种基于异构外部知识源图结构抽取答案信息的方法 Download PDF

Info

Publication number
CN111581326A
CN111581326A CN202010238159.2A CN202010238159A CN111581326A CN 111581326 A CN111581326 A CN 111581326A CN 202010238159 A CN202010238159 A CN 202010238159A CN 111581326 A CN111581326 A CN 111581326A
Authority
CN
China
Prior art keywords
knowledge
graph
node
answers
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010238159.2A
Other languages
English (en)
Other versions
CN111581326B (zh
Inventor
虎嵩林
吕尚文
朱福庆
周薇
韩冀中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010238159.2A priority Critical patent/CN111581326B/zh
Publication of CN111581326A publication Critical patent/CN111581326A/zh
Application granted granted Critical
Publication of CN111581326B publication Critical patent/CN111581326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于异构外部知识源图结构抽取答案信息的方法,属于自然语言处理领域,为了提升问答返回的答案质量,本方法结合使用结构化知识和非结构化知识这两种异构的知识源,在获得相应的知识以后,使用结构化技术对知识进行建图处理,并结合图卷积网络技术学习图的表示,结合文本和图的信息来对从后台文本数据中返回能够正确回答用户问题的答案。本方法能够根据问题和答案的匹配程度对答案进行重排,将用户关心和期待的答案展示在最前面,使搜索结果更具针对性,使用户能够在更短的查询时间内得到更想要的答案。

Description

一种基于异构外部知识源图结构抽取答案信息的方法
技术领域
本发明属于自然语言处理领域,提出一种基于异构外部知识源图结构抽取答案信息的方法。
背景技术
问答***旨在通过对用户输入的查询进行理解,从海量的后台文本数据库中检索出能够回答问题的答案并返回给用户。例如在常用的百度搜索引擎中输入特定的查询,百度搜索引擎会从后台文本数据库中检索出查询所对应的答案,从而为用户检索相关知识以及了解互联网提供了入口。此外,问答***在特定领域诸如银行***问答、电商服务问答等具有重要的应用价值。通常,问答***根据收到的用户查询,从后台海量文本数据中检索出一批与查询较为相关的答案并对答案进行排序进行返回,使得与用户查询更相关的能够排在查询结果的前面,从而能够更快满足用户对于查询的期望。例如,在使用百度搜索引擎时用户期望自己关心的答案能够在尽量靠前的页数和位置展现出来。
在问答***中,主要使用TFIDF、BM25等传统手工特征方法或者深度学习匹配模型来对结果进行返回,并且将匹配度较高的答案放在靠前的位置。返回的结果对于最终答案的排序起着至关重要的作用。
在深度学习领域,应用到问答***的文本匹配和检索等相关技术日臻成熟,根据文本中词语的出现概率分布来对结果进行预测在许多任务上取得了许多重要性成果。近一年,预训练语言模型比如BERT、XLNet等在各大自然语言处理任务上取得了很多的成果,许多任务上的表现甚至超过了人类。这主要得益于其强大的先验知识与表示学习能力。
然而,现有的匹配模型大多数基于文本的概率分布来对文本进行表示学习,对于稀疏性问题以及常识性问题等很难得到很好的解决。主要原因在于对于常识性问题不仅仅需要考虑当前给出的文本提供的信息,还要根据日常生活的经验从中选择有价值的信息来对推理提供相应的决策依据。这就对现有的文本匹配和检索模型方法带来了新的挑战。
发明内容
鉴于现有技术存在的问题和不足,为了提升问答***返回的答案质量,本发明提出一种基于异构外部知识源图结构抽取答案信息的方法,结合使用结构化知识和非结构化知识这两种异构的知识源,在获得相应的知识以后,使用结构化技术对知识进行建图处理,并且结合图卷积网络技术学习图的表示,最终结合文本和图的信息来对从后台文本数据中返回能够正确回答用户问题的答案。本方法能够根据问题和答案的匹配程度对答案进行重排,将用户关心和期待的答案展示在最前面,使搜索结果更具针对性,使用户能够在更短的查询时间内得到想要的答案。
为解决上述问题,本发明采用下述技术方案:
一种基于异构外部知识源图结构抽取答案信息的方法,其步骤包括:
(1)根据用户查询输入的问题,从结构化知识库(例如ConceptNet、WordNet等)中抽取问题到答案的相关路径知识,并且从非结构化知识库(例如英文***等)中抽取与问题和答案表述相近的相关句子:
(2)将抽取的相关路径知识、相关句子与用户的查询输入拼接到一起,输入到预训练语言模型中,得到整个的语义表示<cls>;<cls>在诸多预训练语言模型如BERT、XLNet、RoBERTa等具有重要的含义,它代表了整个输入的向量表示;例如,在分类任务中,可以使用cls的向量表示作为句子的表示来进行分类输出;本方法使用cls经过一层线性网络,来表示查询和返回结果的匹配程度;
(3)对抽取的相关路径知识(如Concept等)和句子(如英文***等)分别建立图来利用结构化知识;
(4)使用图卷积网络对建立的两个图进行表示学习得到每个节点的向量表示;由于构建的图邻居节点之间的相连关系可以为节点的语义表示提供更多的信息,所以本方法使用图网络表示学习的方法来利用图上的结构化信息;
(5)使用<cls>与图中的每个节点进行相似度匹配,得到图中每个节点的attention权重,并且通过权重与节点向量的加权和得到最终表示(最终的匹配向量):
(6)使用(5)中得到的最终表示经过一层或多层线性变换网络,对得到的最终表示进行相关度打分,得到各个答案的相关度分数,按照分数从高到低对答案进行排序,得分越高,答案与用户的查询输入的匹配程度越高,与用户想要的答案越相关,排的位置会越靠前,用户能够得到更想要的答案。
进一步地,从结构化知识库中抽取知识时,首先识别出来问题和答案中的实体(人物、地点、组织机构等),然后找出问题实体到答案实体所经过的中间实体,最后将问题实体、中间实体和答案实体共同组成相关路径知识。
进一步地,从非结构化知识库中抽取知识时,首先使用工具对整个语料库进行分句并且建立索引,然后将问题和答案拼接作为输入,从整个语料库中筛选出来相似度最高的前K个句子;具体使用词频-逆向文档频率(TF-IDF)衡量相似度,词语覆盖度较高的文档具有更大的相似度。
进一步地,从结构化知识库中抽取的相关路径知识表示成自然语言语句,原始的相关路径知识是用<e1,r1,e2>三元组结构化表示,现将其转换为e1,r1,e2的句子表示;同时,将非结构化知识库中抽取的句子也挨个拼接起来;随后,将问题与答案拼接起来,将其送入到预训练语言模型中得到整体的表示<cls>。
进一步地,对于结构化知识库抽取的相关路径知识,每个三元组为一个节点,如果节点之间有公共的实体则在节点间添加一条边,建立图。
进一步地,对于非结构化知识库抽取的句子,首先使用语义角色标注(SemanticRole Labeling)工具抽取出其中的谓词和谓元,并以其中的每个谓词和谓元分别为图中的一个节点建立图,如果两个节点之间满足一定的重合度则在两个节点之间添加一条边。
进一步地,图中的节点可以为一个词语或者一个短语,节点的表示为每个词语的向量的平均值。
进一步地,使用图卷积网络时,将节点的向量表示和节点的连接关系作为参考项。
进一步地,使用无向图网络对节点向量进行表示。
进一步地,在图网络进行表示时,由于有向图可能存在过拟合的特点,使用了图网络的无向图版本来对节点向量进行表示。
附图说明
图1为实施例中的基于异构外部知识源图结构抽取答案信息的方法的整体流程图;
图2为实施例中的使用图卷积网络对图进行表示并且得到最终结果的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明做进一步的说明。
在计算查询以及检索答案的匹配程度时,外部知识扮演至关重要的作用。例如在百度中搜索“小明的妻子的身高”时,传统搜索引擎根据文本匹配会从包含“小明”“妻子”“身高”等关键词的文档检索答案,通常很难返回准确答案。本发明利用外部结构化知识图谱中的知识,识别出来“小明”是实体,然后识别出来“小明”的妻子是“小丽”,最后再从外部知识图谱中找到“小丽”的身高属性作为答案进行返回。可以看到结构化知识提供了高质量的知识,但也存在着覆盖率较低的问题。而非结构化知识的覆盖率广,为结构化知识提供了良好的补充。比如在搜索“人们在弹吉他时通常会做什么事情”时,实际答案应该是“唱歌”,但是现有技术由于只是基于文本匹配的方法,很难得到用户想要的答案。相关的知识在非结构化知识中得到很好的答案。在使用结构化知识时,建立图来对知识进行表示然后进行推理。在使用非结构知识时,使用相应的文本匹配技术来对知识进行利用。但是二者均无法同时有效利用结构化知识和非结构化知识的信息。本发明利用二者来对传统问答方法进行改进,提出了一种基于异构外部知识源图结构抽取答案信息的方法,使得其具有利用外部知识进行推理返回答案的能力,以下通过一个实施例加以说明。
本实施例提供一种基于异构外部知识源图结构抽取答案信息的方法,如图1所示,该方法由两个部分组成,即异构知识抽取与基于图网络的推理;
(1)异构知识抽取包含了从结构化知识以及非结构化知识中抽取,其中结构化知识采用了ConceptNet,非结构化知识采用了Wikipedia。
(1-1)从ConceptNet中抽取知识时,首先识别出来问题和答案中的实体,然后从ConceptNet图中选择出来问题实体到答案实体中的路径作为知识;
(1-2)从Wikipedia中抽取知识时,首先使用工具对整个语料库进行分句并且建立索引,然后将问题和答案拼接作为输入从整个语料库中筛选出来相似度较高的K个句子。
(1-3)根据(1-1)抽取的知识,对ConceptNet知识进行结构化处理得到图,对于ConceptNet,每个三元组为一个节点,如果节点之间有公共的实体则在节点间添加一条边;
(1-4)根据(1-2)抽取的知识,对Wikipedia知识首先使用语义角色标注(SemanticRole Labeling)工具抽取出其中的谓词和谓元,并以其中的每个谓词和谓元分别为图中的一个节点建立图,如果两个节点之间满足一定的重合度则在两个节点之间添加一条边。
(1-5)根据(1-3)和(1-4)建立图结构,使用图卷积网络得到表示并且输出最终答案。
(2)参照图2,使用图卷积网络对图进行表示并且得到最终结果的方法,具体包括:
(2-1)使用图卷积网络对建立的两个图进行表示学习得到每个节点的向量表示;
(2-2)图中的节点可能为一个词语或者一个短语,节点的表示为每个词语的向量的平均值;
(2-3)在图网络进行表示时,由于有向图可能存在过拟合的特点,使用了其无向图版本来对节点向量进行表示。
(2-4)根据(2-2)和(2-3),使用<cls>与图中的每个节点做attention,得到图中每个节点的权重,并且使用权重与向量的加权和得到最终的表示:
(2-5)根据(2-4),使用多层线性网络对得到的最终表示进行相关度打分,得到某个答案的相关度分数,最终选择答案中分数最高的答案。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。

Claims (10)

1.一种基于异构外部知识源图结构抽取答案信息的方法,其特征在于,包括以下步骤:
根据用户查询输入的问题,从结构化知识库中抽取问题到答案的相关路径知识,从非结构化知识库中抽取与问题和答案相似度最高的相关句子;
将抽取的相关路径知识、相关句子与查询输入的信息拼接到一起,输入到预训练语言模型中,得到整个的语义表示<cls>;
对抽取的相关路径知识和相关句子分别建立图,使用图卷积网络对建立的两个图进行表示学习,得到每个节点的向量表示;
使用<cls>与图中的每个节点进行相似度匹配,得到图中每个节点的attention权重,使用该权重与节点向量的加权和,得到最终的表示;
使用线性变换网络对最终的表示进行相关度打分,得到各个答案的相关度分数,对各个答案按照相关度分数从高到低进行先后排序。
2.如权利要求1所述的方法,其特征在于,抽取相关路径知识的方法为:识别出问题和答案中的实体,找出问题实体到答案实体所经过的中间实体,将问题实体、中间实体和答案实体共同组成相关路径知识。
3.如权利要求1所述的方法,其特征在于,将抽取的相关路径知识的三元组表示转换成自然语言语句。
4.如权利要求1所述的方法,其特征在于,对于抽取的相关路径知识,每个三元组为一个节点,如果节点之间有公共的实体,则在节点间添加一条边。
5.如权利要求1所述的方法,其特征在于,抽取相关句子的方法为:对非结构化知识库中的整个语料库进行分句并且建立索引,将问题和答案拼接作为输入,从整个语料库中筛选出TF-IDF最高的前K个句子,作为相关句子。
6.如权利要求1所述的方法,其特征在于,对于抽取的相关句子,使用语义角色标注工具抽取出其中的谓词和谓元,将每个谓词和谓元分别为图中的一个节点建立图,如果两个节点之间满足预设的重合度,则在两个节点之间添加一条边。
7.如权利要求1所述的方法,其特征在于,图中的每个节点为一个词语或者短语,节点的表示为每个词语的向量的平均值。
8.如权利要求1所述的方法,其特征在于,使用图卷积网络时,将节点的向量表示和节点的连接关系作为参考项。
9.如权利要求1所述的方法,其特征在于,使用无向图网络对节点向量进行表示。
10.如权利要求1所述的方法,其特征在于,结构化知识库包括ConceptNet、WordNet,非结构化知识库包括***,预训练语言模型包括BERT、XLNet、RoBERTa。
CN202010238159.2A 2020-03-30 2020-03-30 一种基于异构外部知识源图结构抽取答案信息的方法 Active CN111581326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010238159.2A CN111581326B (zh) 2020-03-30 2020-03-30 一种基于异构外部知识源图结构抽取答案信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238159.2A CN111581326B (zh) 2020-03-30 2020-03-30 一种基于异构外部知识源图结构抽取答案信息的方法

Publications (2)

Publication Number Publication Date
CN111581326A true CN111581326A (zh) 2020-08-25
CN111581326B CN111581326B (zh) 2022-05-31

Family

ID=72113555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238159.2A Active CN111581326B (zh) 2020-03-30 2020-03-30 一种基于异构外部知识源图结构抽取答案信息的方法

Country Status (1)

Country Link
CN (1) CN111581326B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、***、电子装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077383A1 (en) * 2015-11-04 2017-05-11 EDUCATION4SIGHT GmbH Systems and methods for instrumentation of education processes
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077383A1 (en) * 2015-11-04 2017-05-11 EDUCATION4SIGHT GmbH Systems and methods for instrumentation of education processes
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHANGWEN LV, WANHUI QIAN, LONGTAO HUANG, JIZHONG HAN, SONGLIN HU: "Integrating Event-Level and Chain-Level Attentions to Predict What Happens Next", 《AAAI 2019》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、***、电子装置和存储介质
CN113536795B (zh) * 2021-07-05 2022-02-15 杭州远传新业科技有限公司 实体关系抽取的方法、***、电子装置和存储介质

Also Published As

Publication number Publication date
CN111581326B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
WO2022095573A1 (zh) 一种结合主动学习的社区问答网站答案排序方法及***
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
KR20190015797A (ko) 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법
Van de Camp et al. The socialist network
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN117312499A (zh) 一种基于语义的大数据分析***及方法
CN111581364A (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN118093829A (zh) 一种基于知识图谱增强的法律咨询方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN117609517A (zh) 一种基于知识图谱的海洋数据检索平台及检索方法
CN111581326B (zh) 一种基于异构外部知识源图结构抽取答案信息的方法
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
CN112084312A (zh) 一种基于知识图构建的智能客服***
CN116562280A (zh) 一种基于通用信息抽取的文献分析***及方法
Gupta et al. Document summarisation based on sentence ranking using vector space model
Niranjan et al. Question answering system for agriculture domain using machine learning techniques: literature survey and challenges
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
Song et al. Research on intelligent question answering system based on college enrollment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant