CN113590779A - 一种空管领域知识图谱的智能问答***构建方法 - Google Patents
一种空管领域知识图谱的智能问答***构建方法 Download PDFInfo
- Publication number
- CN113590779A CN113590779A CN202110743414.3A CN202110743414A CN113590779A CN 113590779 A CN113590779 A CN 113590779A CN 202110743414 A CN202110743414 A CN 202110743414A CN 113590779 A CN113590779 A CN 113590779A
- Authority
- CN
- China
- Prior art keywords
- entity
- question
- knowledge graph
- traffic control
- air traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种空管领域知识图谱的智能问答***构建方法,第一步,实体识别,用于识别自然语言问句中出现的实体名。第二步,实体链接,通过判断问句中与知识图谱中两个实体语义相似度,建立问句中实体到知识图谱中实体的链接关系。第三步:采用编码器‑解码器模型预测问句中实体与答案实体之间的关系,并且利用实体类型的额外信息进一步提高模型关系预测精度。第四步:利用预测出的关系,进一步修正实体链接结果。第五步:利用实体ID和预测出的关系在空管知识图谱中检索出对应的答案实体。该问答***基于知识图谱且不同于问题与答案之间进行模板匹配的方式,因此答案具有更高的可靠性。
Description
技术领域
本发明具体涉及一种空管领域知识图谱的智能问答***构建方法。
背景技术
谷歌公司在2012年提出知识图谱这个概念,用于增强其搜索引擎的功能。传统的搜索引擎根据用户输入的字符进行筛选和排序网页,由于其方式缺乏语义关系,在目前互联网知识***性增长的情况下,越来越不能满足用户的需求,知识图谱的出现为解决这一难题提供了可行的方案。知识图谱本质上是一种由具有属性的实体通过关系链接而成的语义网络。根据面向的领域,知识图谱被分为通用知识图谱与领域知识图谱,通用知识图谱包含大量常识,覆盖面极广。领域知识图谱基于行业数据构建,通常有着严格而丰富的数据模式,对该领域知识的深度、准确性有着更高的要求。
问答***是信息检索的一种高级形式,其简答、准确的互动方式使得问答***成为人工智能应用领域的研究热点。问答***通过自然语言对话的形式帮助人们从知识库中获取知识,是知识图谱的核心应用之一。与传统的搜索引擎不同,问答***通过对用户输入的自然语言进行处理,从知识图谱中查找出用户问题的准确回答。
目前,随着国民经济的快速发展,空中交通管理领域的信息数据持续快速增长,空管信息使用方式趋于复杂,在这中情况下,传统的空管信息检索方式往往不能满足用户要求。因此,建立基于知识图谱的空管领域问答***,能有效提高空管信息的使用效率,对推动空管信息智能化处理具有重要意义。
本专利提出了一种空管领域知识图谱的智能问答***构建方法,来为空管领域的知识检索与查询建立起专业且高效的问答***。输入是自然语言式的问句,输出是空管领域知识实体数据。
发明内容
本部分的目的在于概述本发明的实施例的一些方面及简要介绍一些较佳实施例。在本部分及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明数摘要和发明名称的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有技术中存在的问题,提出了本发明。
因此,本发明其中一个目的是提供一种空管领域知识图谱的智能问答***构建方法。
一种空管领域知识图谱的智能问答***构建方法,包括:
步骤1:实体识别,识别出自然语言问句中出现的实体名;
步骤2:实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3:关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,并利用步骤2中实体类型的额外信息进一步提高模型的关系预测精度;
步骤4:重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果;
步骤5:答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
进一步的,步骤1实体识别,方法包括构建空管领域实体数据集、建立实体识别数据集(包含:训练集、验证集与测试集)。
进一步的,抽取出空管领域知识图谱中所有实体,整理形成空管领域实体数据集。
进一步的,根据已有的实体数据集,然后采用BIO序列标注方法对自然语言问句进行标注,最后建立起实体识别数据集。
进一步的,采用双向长短期记忆网络+条件随机场BiLSTM+CRF深度学习模型识别问句中出现的实体。
进一步的,步骤2采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,其中定义一个相似度阈值(如:0.7),大于或等于阈值则建立链接反之则不建立。
进一步的,步骤2根据链接到知识图谱的实体,查询出该实体在知识图谱中具体实体 ID与实体类型。
进一步的,步骤3采用2层自注意力机制模块堆叠形成Encoder模块,采用3层自注意力机制模块堆叠形成Decoder模块。
进一步的,步骤3将实体类型作为辅助特征信息送入到Decoder模块,进一步提高模型预测精度。
进一步的,步骤4采用最终得分进行实体链接重排名,排名公式如下,其中sim表示问句中与知识图谱中的实体字符串相似度,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数。
Score=α*sim+β*e
进一步的,步骤5采用SPARQL查询语言,将实体ID和步骤3中预测关系整合为SPARQL语句,随后在空管知识图谱中检索出答案实体。
一种空管领域知识图谱的自动化构建***,包括:
实体识别模块:用于识别出自然语言问句中出现的实体名;
实体链接模块:用于建立问句中实体到知识图谱中实体的链接关系,同时找出知识图谱中该实体ID与类型。
关系预测模块:采用Encoder-Decoder模型预测问句中实体与答案实体之间的关系;
重排名模块:利用步骤3预测出的具体关系,进一步修正实体链接结果;
答案检索模块:根据步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
本发明搭建的空管领域知识图谱的智能问答***,能够加速知识数据在人与机器之间的交互速度,文本式的自然语言问句通过深度学习手段让机器理解人类的语言,使得人们在获取空管领域知识图谱中的相应的知识时更加高效与便捷,同时该问答***知识检索的方式同样适用于空管机器人(如:智能管制员)获取知识的方式,专业的知识图谱以及智能高效的知识获取为智能管制员的构建奠定基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明的一种空管领域知识图谱的智能问答***构建方法流程图;
图2为本发明的实体识别模块的深度学习模型架构图;
图3为本发明的关系预测模块的深度学习模型架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种空管领域知识图谱的智能问答***构建方法,如图1所示,实现该方法的具体步骤如下:
步骤1.实体识别,识别出自然语言问句中出现的实体名;
步骤2.实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3.关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,并利用步骤2中实体类型的额外信息进一步提高模型关系预测精度;
步骤4.重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果;
步骤5.答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
其中,实体识别,首先需要在空管领域的知识图谱中抽取出实体,然后形成一个实体数据集,随后对照实体数据集对自然语言问句利用BIO命名标注法进行标注,最后形成模型所需要的问句数据集。
其中,上述模型我们采用的是双向长短期记忆网络+条件随机场BiLSTM+CRF模型,该方法属于序列标注问题。首先采用BIO标注法将数据中出现的已知空管领域实体(如:机场名称、航空器名称、具体规则等)一一标注,随之整理出训练集、验证集和测试集。然后将文本数据集送入双向长短期记忆网络+条件随机场BiLSTM+CRF模型中,其中包含:第一步将文本送入嵌入层Embedding层进行词嵌入得到词向量,第二步将词向量送入双向长短期记忆网络BiLSTM层对中每个词提取特征得到特征向量,第三步将特征向量送入条件随机场CRF层进行序列标注与校正得到序列标注信息。最后根据BIO标注规则,从模型得到的序列标注信息中整理出相应的实体。具体的模型架构如图2所示。
实体链接中,采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,此外定义一个相似度阈值,如果大于或等于阈值表示2个实体是同一个实体,最后建立链接反之则不建立。
关系预测中,Encoder模块采用2层自注意力机制模块堆叠而形成,Encoder模块主要作用是将自然语言问句映射到一个低维空间,并抽取句间关系以及语义特征最终形成一个包含语义的张量编码。
Decoder模块采用3层自注意力机制模块堆叠而形成,Decoder模块主要负责将Encoder模块抽取出的语义编码进行解码,最终通过一个SoftMax层预测出对应的关系。其中,可以将问句中实体类型信息编码并送入Decoder模块,该操作可以辅助Decoder模块更准确预测出对应的关系。关系预测具体的模型架构图如图3所示。
同一实体名在不同语境可能表示不同含义,因此为了进一步修正实体链接的结果,定义了一个重拍排名规则。其中sim表示问句中与知识图谱中的实体字符串相似度,即Levenshtein Distance给出的相似度值,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数,可根据实际应用场景调节。Score越大则表明该实体链接越准确,我们选取得分最大的实体。
Score=α*sim+β*e
答案检索采用SPARQL查询语言,由于我们空管领域的知识图谱中的知识是按照RDF 三元组形式表示的,因此利用用SPARQL查询一个答案实体,需要问句中实体ID和关系整合为SPARQL语句,随后在空管知识图谱中才能检索出答案实体。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (8)
1.一种空管领域知识图谱的智能问答***构建方法,其特征在于,包括:
步骤1:实体识别,识别出自然语言问句中出现的实体名;
步骤2:实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3:关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,并利用步骤2中实体类型的额外信息进一步提高模型关系预测精度;
步骤4:重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果;
步骤5:答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
2.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤1实体识别,所述方法包括构建空管领域实体数据集、建立实体识别数据集(包含:训练集、验证集与测试集)。
3.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤1中利用双向长短期记忆网络+条件随机场BiLSTM+CRF模型进行命名实体识别。
4.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤2中采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,其中定义一个相似度阈值(如:0.7),大于或等于阈值则建立链接反之则不建立。
5.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤3中采用2层自注意力机制模块堆叠形成Encoder模块,采用3层自注意力机制模块堆叠形成Decoder模块,将步骤2中得到的实体类型送入到Decoder模块进一步提高模型预测精度。
6.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤4中采用最终Score进行实体链接排名,排名公式如下,其中sim表示问句中与知识图谱中的实体字符串相似度,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数,
Score=α*sim+β*e。
7.根据权利要求1所述的一种空管领域知识图谱的智能问答***构建方法,其特征在于,步骤5中采用SPARQL查询语言,将实体ID和步骤3中预测关系整合为SPARQL语句,随后在空管知识图谱中检索出答案实体。
8.一种空管领域知识图谱的智能问答***构建方法,其特征在于,包含:
实体识别模块:用于识别出自然语言问句中出现的实体名;
实体链接模块:用于建立问句中实体到知识图谱中实体的链接关系,同时找出知识图谱中该实体ID与类型;
关系预测模块:采用Encoder-Decoder模型预测问句中实体与答案实体之间的关系;
重排名模块:利用步骤3预测出的具体关系,进一步修正实体链接结果;
答案检索模块:根据步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110743414.3A CN113590779B (zh) | 2021-06-30 | 2021-06-30 | 一种空管领域知识图谱的智能问答***构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110743414.3A CN113590779B (zh) | 2021-06-30 | 2021-06-30 | 一种空管领域知识图谱的智能问答***构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590779A true CN113590779A (zh) | 2021-11-02 |
CN113590779B CN113590779B (zh) | 2023-04-25 |
Family
ID=78245581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110743414.3A Active CN113590779B (zh) | 2021-06-30 | 2021-06-30 | 一种空管领域知识图谱的智能问答***构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590779B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115577091A (zh) * | 2022-12-08 | 2023-01-06 | 成都晓多科技有限公司 | 基于知识图谱的复杂条件问题作答方法及*** |
CN115827844A (zh) * | 2022-12-12 | 2023-03-21 | 之江实验室 | 一种基于Sparql语句生成的知识图谱问答方法和*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取***及方法 |
CN112035645A (zh) * | 2020-09-01 | 2020-12-04 | 平安科技(深圳)有限公司 | 数据查询方法以及*** |
CN112069328A (zh) * | 2020-09-08 | 2020-12-11 | 中国人民解放军国防科技大学 | 一种基于多标签分类的实体关系联合抽取模型的建立方法 |
CN112948546A (zh) * | 2021-01-15 | 2021-06-11 | 中国科学院空天信息创新研究院 | 面向多源异构数据源的智能问答方法及装置 |
-
2021
- 2021-06-30 CN CN202110743414.3A patent/CN113590779B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取***及方法 |
CN112035645A (zh) * | 2020-09-01 | 2020-12-04 | 平安科技(深圳)有限公司 | 数据查询方法以及*** |
CN112069328A (zh) * | 2020-09-08 | 2020-12-11 | 中国人民解放军国防科技大学 | 一种基于多标签分类的实体关系联合抽取模型的建立方法 |
CN112948546A (zh) * | 2021-01-15 | 2021-06-11 | 中国科学院空天信息创新研究院 | 面向多源异构数据源的智能问答方法及装置 |
Non-Patent Citations (3)
Title |
---|
MENG WANG等: "Self attention driven adversarial similarity learning network" * |
张森: "面向知识库问答的实体链接及关系预测研究" * |
晁朝辉: "面向Simple Question的自动问答方法研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115577091A (zh) * | 2022-12-08 | 2023-01-06 | 成都晓多科技有限公司 | 基于知识图谱的复杂条件问题作答方法及*** |
CN115827844A (zh) * | 2022-12-12 | 2023-03-21 | 之江实验室 | 一种基于Sparql语句生成的知识图谱问答方法和*** |
CN115827844B (zh) * | 2022-12-12 | 2023-08-08 | 之江实验室 | 一种基于Sparql语句生成的知识图谱问答方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113590779B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN109684448B (zh) | 一种智能问答方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和*** | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
KR20050036541A (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN112328800A (zh) | 自动生成编程规范问题答案的***及方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113590779B (zh) | 一种空管领域知识图谱的智能问答***构建方法 | |
CN112307182B (zh) | 一种基于问答***的伪相关反馈的扩展查询方法 | |
CN113032568A (zh) | 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN113486645A (zh) | 一种基于深度学习的文本相似度检测方法 | |
CN117573894B (zh) | 一种基于知识图谱的资源推荐***及方法 | |
CN114780740A (zh) | 一种茶叶知识图谱的构建方法 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及*** | |
CN117094390A (zh) | 一种面向海洋工程领域的知识图谱构建及智能搜索方法 | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN115186073A (zh) | 一种基于混合检索的开放域表格文本问答方法 | |
CN113516209A (zh) | 一种用于少样本意图识别的对比任务适应学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |