CN115599899B - 基于飞行器知识图谱的智能问答方法、***、设备及介质 - Google Patents

基于飞行器知识图谱的智能问答方法、***、设备及介质 Download PDF

Info

Publication number
CN115599899B
CN115599899B CN202211388973.8A CN202211388973A CN115599899B CN 115599899 B CN115599899 B CN 115599899B CN 202211388973 A CN202211388973 A CN 202211388973A CN 115599899 B CN115599899 B CN 115599899B
Authority
CN
China
Prior art keywords
entity
question
aircraft
attribute
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211388973.8A
Other languages
English (en)
Other versions
CN115599899A (zh
Inventor
董康生
胡伟波
徐明兴
刘林锋
沈雁鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Original Assignee
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computational Aerodynamics Institute of China Aerodynamics Research and Development Center filed Critical Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority to CN202211388973.8A priority Critical patent/CN115599899B/zh
Publication of CN115599899A publication Critical patent/CN115599899A/zh
Application granted granted Critical
Publication of CN115599899B publication Critical patent/CN115599899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能问答技术领域,公开了一种基于飞行器知识图谱的智能问答方法、***、设备及介质,该方法包括:对用户问题进行语义分析,产生查询数据;在预先构建的飞行器知识图谱中检索获得与查询数据对应的三元组;根据检索获得的三元组,输出问题答案;针对用户对问题答案的满意度评价,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。这样通过语义分析预处理、三元组检索、问题答案输出和知识更新这四个步骤完成智能问答和在线更新,过程中检索的信息来源于知识图谱数据库,可以实现一次构建,后续信息能够快速检索查询,减小了后续问答过程中的计算量,提高了问答***的速度和效率。

Description

基于飞行器知识图谱的智能问答方法、***、设备及介质
技术领域
本发明涉及人工智能问答技术领域,特别是涉及一种基于飞行器知识图谱的智能问答方法、***、设备及介质。
背景技术
飞行器所涉及的航空航天领域,由于学科本身的复杂性和专业性,对非专业人员存在较大的技术壁垒,在获取相关飞行器专业知识时存在一定困难和障碍。智能问答***作为一种实现人与机器自主交互问答的工具,可以提供实时信息检索、深度数据挖掘等信息服务,正在成为一种主流的信息获取方式。
目前,传统的基于非结构化自由文本阅读理解的问答模型主要存在三个问题:一是飞行器数据分布广泛,需要对各个网站、图书和文献资料的多源数据进行在线匹配、抽取、融合和分析,数据量大且处理速度较慢,影响问答效率;二是飞行器部分专业术语往往存在较长的说明性语言,传统基于正则匹配方法的模型,只能按照特定的规则进行文本字符的匹配,无法根据文本意义进行匹配,对于多义词、近似词等情形处理效果不佳,因此这种方式虽然较为简单,但所得答案精度较低;三是对于存在多个候选答案的复杂问题,如“F-35战斗机的载油量为多少”这一问题,由于不同型号的F-35载油量不同,因此需要针对每个型号逐一作答,而传统的问答模型往往是通过对候选答案进行简单排序,筛选出一个最终答案,没有充分考虑这些候选答案本身之间的关联信息,因而所得答案可能不够全面。
因此,如何解决现有问答模型存在的效率低、精度低等问题,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于飞行器知识图谱的智能问答方法、***、设备及介质,可以减小问答过程中的计算量,提高反应速度和效率,提升所得答案的精度。其具体方案如下:
一种基于飞行器知识图谱的智能问答方法,包括:
对用户问题进行语义分析,产生查询数据;
在预先构建的飞行器知识图谱中检索获得与所述查询数据对应的三元组;
根据检索获得的所述三元组,输出问题答案;
针对用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,所述对用户问题进行语义分析,产生查询数据,包括:
对用户问题进行分词和实体识别,获得对应的实体识别结果;
根据所述实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型;
根据所述实体识别结果和得到的所述问题类型,产生对应的查询数据。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,所述对用户问题进行分词和实体识别,包括:
采用预先训练的BERT模型对用户问题进行分词和语义编码;
采用BiLSTM-CRF模型进行深度解码,以完成实体识别。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,所述根据所述实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型,包括:
从所述实体识别结果中得到识别出的实体数量,判断出问题类型为单实体问题或多实体问题;
当为单实体问题时,从所述实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为单实体多属性问题、单实体单属性问题或单实体是非类问题;
当为多实体问题时,从所述实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为多实体多属性问题、多实体单属性问题、多实体是非类问题或多实体比较类问题。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,所述在预先构建的飞行器知识图谱中检索获得与所述查询数据对应的三元组,包括:
根据所述查询数据中的实体词,在预先构建的飞行器知识图谱的三元组数据库中寻找相同的实体词,并链接到正确的实体;
将所述查询数据中的实体属性词与预先构建的模板属性词进行对比匹配;若匹配成功,则返回与所述模板属性词对应的所述飞行器知识图谱的三元组数据库中实体属性词。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,在所述将所述查询数据中的实体属性词与预先构建的模板属性词进行对比匹配之后,还包括:
若匹配失败,则采用Manhattan LSTM模型进行实体和实体属性链接的建立;所述Manhattan LSTM模型是以隐藏层作为最终层,并以所述隐藏层最后一个时间序列的状态为相似性系数计算的输入参数。
优选地,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,所述根据检索获得的所述三元组,输出问题答案,包括:
根据检索获得的所述三元组,提取所述三元组的属性值;
利用提取的所述属性值结合得到的所述问题类型,组合出问题答案并进行输出。
本发明实施例还提供了一种基于飞行器知识图谱的智能问答***,包括:
数据库模块,用于将预先构建的飞行器知识图谱保存在存储介质上;
后端处理模块,用于执行智能问答;所述后端处理模块包括预处理单元、检索单元、输出单元和更新单元;其中,
所述预处理单元,用于对用户问题进行语义分析,产生查询数据;
所述检索单元,用于在所述飞行器知识图谱中检索获得与所述查询数据对应的三元组;
所述输出单元,用于根据检索获得的所述三元组,输出问题答案;
所述更新单元,用于根据用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新;
前端显示模块,用于显示用户问题和所述后端处理模块输出的问题答案。
本发明实施例还提供了一种基于飞行器知识图谱的智能问答设备,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如本发明实施例提供的上述基于飞行器知识图谱的智能问答方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述基于飞行器知识图谱的智能问答方法。
从上述技术方案可以看出,本发明所提供的一种基于飞行器知识图谱的智能问答方法,包括:对用户问题进行语义分析,产生查询数据;在预先构建的飞行器知识图谱中检索获得与查询数据对应的三元组;根据检索获得的三元组,输出问题答案;针对用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。
本发明提供的上述基于飞行器知识图谱的智能问答方法,通过语义分析预处理、三元组检索、问题答案输出和知识更新这四个步骤完成智能问答和在线更新,过程中检索的信息来源于知识图谱数据库,可以实现一次构建,后续信息能够快速准确检索查询,减小了后续问答过程中的计算量,大大提高了问答***的速度和效率,所得答案的精度也较高。
此外,本发明还针对基于飞行器知识图谱的智能问答方法提供了相应的***、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该***、设备及计算机可读存储介质具有相应的优点。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的基于飞行器知识图谱的智能问答方法的流程图;
图2为本发明实施例提供的基于飞行器知识图谱的智能问答方法中各步骤的框架示意图;
图3为本发明实施例提供的BERT模型结合BiLSTM-CRF模型进行实体识别的流程示意图;
图4为本发明实施例提供的Manhattan LSTM模型的计算流程示意图;
图5为本发明实施例提供的基于飞行器知识图谱的智能问答***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于飞行器知识图谱的智能问答方法,如图1所示,包括以下步骤:
S101、对用户问题进行语义分析,产生查询数据;
需要说明的是,步骤S101是对用户问题的预处理阶段。由于用户提出的问题通常是以自然语言的形式出现的,需要将其转化成计算机可以理解的形式化语言,即所需要的查询数据。该步骤可由预处理单元来完成用户问题的语义分析,并产生查询数据。
S102、在预先构建的飞行器知识图谱中检索获得与查询数据对应的三元组;
可以理解的是,知识图谱本质上是一种语义网络,包含实体和实体关系/属性。实体关系代表的是实体和实体之间的关联,知识图谱中的属性代表的是实体具有的某个特征,其描述了实体的相关信息。知识图谱的主要表示形式是三元组,包括属性三元组和关系三元组。步骤S102是在知识图谱中进行三元组的检索阶段,可由检索单元主要负责接收查询数据,根据查询数据在预先构建的知识图谱中检索获得匹配的三元组,即实体链接过程。
S103、根据检索获得的三元组,输出问题答案。
具体地,步骤S103是问题答案输出阶段,可由输出单元通过提取三元组属性信息,获取问题答案并输出。
S104、针对用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。
需要指出的是,随着飞行器问答***的不断运行,其所积累的专业问答知识会愈发丰富,存储于其中的问答记录规模也随之提升,专业领域知识库可以利用获得的问答记录进行在线更新。具体地,在每次问答结束设置了问答满意度评价,用户可以对答***性进行打分,如果得分高于设定的采纳值,就将过程中获得的问题属性词添加进入模板属性词(如果该属性词尚未在模板属性词中出现),以提高后续问答的效率和准确度。如果问题中出现了新的实体,如新的飞行器研制成功,将问题中出现的新实体添加进图谱库中,并根据知识推理和补全,自动关联新实体和已有属性词,同时利用爬虫等技术从公开资料中抽取相应的属性值,构建新的图谱节点。问答***使用过程中,还可以根据图谱库的更新情况,如数据库累计更新条目超过设定值,就利用新的数据库进行模型再训练,使问答模型也得以实时更新,以提高***的答题速度和准确性。
在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,通过语义分析预处理、三元组检索、问题答案输出和知识更新这四个步骤完成智能问答和在线更新,过程简单,并且检索的信息来源于知识图谱数据库,可以实现一次构建,后续信息能够快速准确检索查询,减小了后续问答过程中的计算量,大大提高了问答***的速度和效率,所得答案的精度也较高。
在实际应用中,上述基于飞行器知识图谱的智能问答方法,对于实现航空航天领域各类从业人员可以方便快速地获取相关飞行器的全景信息,减小信息壁垒,提升和普及民众的空天飞行器知识具有重要的现实意义,同时也能为其它垂直领域的智能问答***构建提供有益参考。
进一步地,在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,步骤S101对用户问题进行语义分析,产生查询数据,可以包括:
首先,对用户问题进行分词和实体识别,获得对应的实体识别结果;该实体识别结果可以包括实体、实体属性词、实体数量等;
然后,根据实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型;
最后,根据实体识别结果和得到的问题类型,产生对应的查询数据。
如图2所示,步骤S101主要完成分词和实体识别以及问题类型判断,最终获得用户问题的分词序列,提取出用户问题中的实体和实体属性词,并根据问题类型产生查询数据。以问题“猛禽战斗机的生产数量是多少”为例,需要对用户问题进行分词,并进行实体识别,以识别出用户问题中的实体“猛禽战斗机”和实体属性“生产数量”,进而产生所需要的查询数据。
在具体实施时,上述步骤中对用户问题进行分词和实体识别,可以包括:采用预先训练的BERT(Bidirectional Encoder Representations from Transformer)模型对用户问题进行分词和语义编码;采用BiLSTM-CRF模型进行深度解码,以完成实体识别。
如图3所示,BERT模型在进行实体识别的具体实现主要分为两步,即预训练(pre-training)和微调(fine-tuning)。预训练相当于词嵌入,利用没有任何标记的语料训练一个模型,本发明中采用BertChinese预训练模型。微调过程利用训练好的模型,根据不同的任务(如本发明中的实体识别),设置特定的输入和输出部分,完成相关的任务。在进行实体识别时,BERT模型的微调过程主要用来进行语义编码Encoder过程,代替传统的词嵌入步骤,由于微调过程基于预训练的模型,因此可以采用更小的数据集,并能快速完成训练,获得良好的性能和结果。部分情况下经过微调后,已经可以获得较好的实体识别结果。为达到更好的效果,在Bert后再利用BiLSTM模型和CRF模型进行深度解码,以提高实体识别准确度。采用这种人工智能方法,能够提高分词和实体识别的准确性。其中,BiLSTM(Bidirectional Long-Short Term Memory)为双向长短时记忆网络,可借助模型的存储单元结构来保存较长的关联关系(该关联关系能够体现飞行器文本中的上下文信息),根据隐藏层状态传递的时间顺序可以分为前向LSTM和后向LSTM,对应的隐藏层状态分别为(k=1,2,3,4…)。CRF(Conditional Random Fields)层为条件随机场,能够考虑语句级别的实体序列标注。将BiLSTM和CRF结合起来可以保证在提取足够上下文信息的同时,还能有效地进行实体序列标注,进而获得实体标签,如B(代表实体关键字的开始),O(代表非实体关键字),I(代表实体的非首字)。
在具体实施时,上述步骤中根据实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型,可以包括:从实体识别结果中得到识别出的实体数量,判断出问题类型为单实体问题或多实体问题;当为单实体问题时,从实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为单实体多属性问题、单实体单属性问题或单实体是非类问题;当为多实体问题时,从实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为多实体多属性问题、多实体单属性问题、多实体是非类问题或多实体比较类问题。
首先可以根据实体识别结果得到的实体数量判断问题大类,若识别出的实体数量为一个,则得到的问题类型为单实体问题;若识别出的实体数量超过一个,则得到的问题类型为多实体问题。其次采用关键词匹配法判断具体问题类型,即在问句中搜索标志问题类型的关键词。若用户问题中存在多个属性词,且存在的关键词可以包括“多少”或“什么”,则得到的问题类型为单实体多属性问题或多实体多属性问题;若用户问题中存在单一属性词,且存在的关键词可以包括“多少”或“什么”,则得到的问题类型为单实体单属性问题或多实体单属性问题;若用户问题中存在单一属性词且同时存在属性值,且/或存在的关键词可以包括“吗”,则得到的问题类型为单实体是非类问题或多实体是非类问题;若用户问题中存在多个实体和单一属性词的同时,且存在的关键词可以包括“比”或“更”,则得到的问题类型为多实体比较类。
具体地,获得实体识别结果以后进行问题类型的判断。常见的用户问题根据实体数量和问题类型可以分为七种,分别为单实体单属性、单实体多属性、单实体是非类、多实体单属性、多实体多属性、多实体是非类、多实体比较类,如表一所示。
表一 飞行器知识问题类型分类
最后根据实体识别结果和问题类型,产生对应的查询数据。如果是单实体单属性类问题,则将实体和实体属性词作为查询数据;如果是单实体是非类问题,则将实体、实体属性词和属性值作为查询数据。如果是多实体比较类问题,需要将多个实体及其对应的实体属性词作为查询数据。
进一步地,在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,步骤S102在预先构建的飞行器知识图谱中检索获得与查询数据对应的三元组,可以包括:根据查询数据中的实体词,在预先构建的飞行器知识图谱的三元组数据库中寻找相同的实体词,并链接到正确的实体;将查询数据中的实体属性词与预先构建的模板属性词进行对比匹配;若匹配成功,则返回与模板属性词对应的飞行器知识图谱的三元组数据库中实体属性词。这样可以实现多源信息的抽取、融合和加工,进一步显著提高问答***的精度。
具体地,在上述过程中,使用匹配和深度学习相结合的方法。首先采用匹配的方法进行链接,根据查询阶段产生的实体词,在知识图谱的三元组数据库中寻找相同的实体词,链接到正确的实体;然后将提交的实体属性词与预先构建的模板属性词进行对比匹配,如果属性查询数据中的实体属性词存在于模板属性词内,则返回与之对应的知识图谱库实体属性词。其中模板属性词根据语料词典人工构建。部分模板属性词如表二。
表二 部分问题模板词匹配模板
模板词匹配方法虽然速度快,准确率高,但是用户问题不确定性高,人工定义的模板词库经常无法与真实的用户问题相匹配,如“F-35的主要使用场景是什么”,该问题类似与询问F-35的类型,但很难用模板进行匹配。由于用户提问的不确定性,很难穷尽所有模板词,因此,在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,在执行上述步骤中将查询数据中的实体属性词与预先构建的模板属性词进行对比匹配之后,还可以包括:若匹配失败,即未在模板词库中找到匹配词时,则采用Manhattan LSTM(简称MaLSTM)模型进行实体和实体属性链接的建立,以保证问答***的鲁棒性。
常规的LSTM包含隐藏层和细胞层,输入层依次经过隐藏层和细胞层,而MaLSTM的实现过程稍有不同,需要经过以下几个计算步骤,以隐藏层为最终层:
其中,代表时刻 t位置的隐藏层状态,表示时刻 t的遗忘门, σ表示sigmoid函数,表示遗忘门的权重矩阵, x t 表示当前时刻网络的输入状态, b f 表示遗忘门的偏置项, i t 表示时刻 t的输入门,表示输入门的权重矩阵, b i 表示输入门的偏置项, c t 表示当前时刻的单元状态,表示当前时刻的记忆态,表示记忆态的权重矩阵, b c 表示记忆态的偏置项, o t 表示时刻 t的输出门, W 0表示输出门的权重矩阵, b o 表示输出门的偏置项。得到隐藏层后,取最后一个时间序列的状态为相似性系数计算的输入参数。
图4示出了MaLSTM模型的计算流程示意图。整个处理过程分为a,b两个网络LSTM(a)和LSTM(b)。以LSTM(a)网络为例,首先将问句分词后的词向量(k=1,2,3,…n)作为输入层,发送到LSTM网络a中,获得各个时刻的隐藏层状态(k=1,2,3,..n);采用相同的方法处理网络LSTM(b),将知识图谱中的三元组作为词向量输入,即(k=1,2,3,…n)作为输入,发送到LSTM(b)网络中,得到各个时刻的隐藏层状态(k=1,2,3,..n)。最后将两个网络中最后时刻 n的隐藏层状态提取出来,然后利用公式得到相似性系数,其中。将得到的相似性系数大小进行排序,取数值最高的知识图谱三元组,并将该值与设定的阈值相比较,大于或等于阈值则建立实体和实体属性链接,否则不建立。
对于比较类问题,则需要找到对应的三元组,链接到多个图谱实体。
这样采用模板匹配和基于深度学习的相似性计算技术进行实体链接,在保证问答效率的同时提高了***的鲁棒性,同时***可以实时补充问答数据库,实现对一些特殊问题的准确作答,提高问答满意度。
进一步地,在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答方法中,如图2所示,步骤S103根据检索获得的三元组,输出问题答案,可以包括:根据检索获得的三元组,提取三元组的属性信息;利用提取的属性信息结合得到的问题类型,组合出问题答案并进行输出。
具体地,在执行步骤S103时,根据检索获得的三元组群,抽取三元组群的属性,根据问题类型组合成答案并进行输出。如问题“F-35的代号是什么”,链接到三元组为“F-35—别名—猛禽”,则通过组合问句中的实体和属性词以及三元组中的属性词,并添加辅助词,生成答案“F-35的代号为猛禽”,输出到用户终端上。
基于同一发明构思,本发明实施例还提供了一种基于飞行器知识图谱的智能问答***,由于该***解决问题的原理与前述一种基于飞行器知识图谱的智能问答方法相似,因此该***的实施可以参见基于飞行器知识图谱的智能问答方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的基于飞行器知识图谱的智能问答***,如图5所示,具体可以包括:
数据库模块1,用于将预先构建的飞行器知识图谱保存在存储介质上;具体地,该飞行器知识图谱是基于资源描述框架(Resource Description Framework,RDF)的飞行器知识图谱,以SQL数据库格式保存在存储介质上,存储介质有配套的处理器可以执行指令;
后端处理模块2,用于执行整个智能问答,可以采用python等面向对象的语言进行编写;后端处理模块可以包括预处理单元21、检索单元22、输出单元23和更新单元24;其中,
预处理单元21,用于对用户问题进行语义分析,产生查询数据;
检索单元22,用于在飞行器知识图谱中检索获得与查询数据对应的三元组;
输出单元23,用于根据检索获得的三元组,输出问题答案;
更新单元24,用于根据用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新;
前端显示模块3,用于显示用户问题和后端处理模块输出的问题答案。前端显示模块3具体可以负责***的可视化,包括用户输入问题和展示后端处理得到的问题答案,可以采用javascript等语言编写,利用网页进行展示,并采用主流的微服务设计构架,使前后端模块实现松耦合,方便后续的维护、扩展和更新。
在本发明实施例提供的上述基于飞行器知识图谱的智能问答***中,可以通过上述三个模块的相互结合完成智能问答和在线更新,过程简单,并且检索的信息来源于知识图谱数据库,可以实现一次构建,后续信息能够快速准确检索查询,减小了后续问答过程中的计算量,大大提高了问答***的速度和效率,所得答案的精度也较高。
在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答***中,预处理单元21,具体用于对用户问题进行分词和实体识别,获得对应的实体识别结果;根据实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型;根据实体识别结果和得到的问题类型,产生对应的查询数据。
在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答***中,检索单元22,具体用于根据查询数据中的实体词,在预先构建的飞行器知识图谱的三元组数据库中寻找相同的实体词,并链接到正确的实体;将查询数据中的实体属性词与预先构建的模板属性词进行对比匹配;若匹配成功,则返回与模板属性词对应的飞行器知识图谱的三元组数据库中实体属性词;若匹配失败,则采用Manhattan LSTM模型进行实体和实体属性链接的建立;Manhattan LSTM是以隐藏层作为最终层,并以隐藏层最后一个时间序列的状态为相似性系数计算的输入参数。
随着飞行器问答***的不断运行,其所积累的专业问答知识愈发丰富,存储于其中的问答记录规模也随之提升,专业领域知识库得以持续更新,可以实时更新智能问答的训练模型。
在具体实施时,在本发明实施例提供的上述基于飞行器知识图谱的智能问答***中,输出单元23,具体用于根据检索获得的三元组,提取三元组的属性值;利用提取的属性值结合得到的问题类型,组合出问题答案并进行输出。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应地,本发明实施例还公开了一种基于飞行器知识图谱的智能问答设备,包括处理器和存储器;其中,处理器执行存储器中存储的计算机程序时实现前述实施例公开的基于飞行器知识图谱的智能问答方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步地,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的基于飞行器知识图谱的智能问答方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的***、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
综上,本发明实施例提供的一种基于飞行器知识图谱的智能问答方法,包括:对用户问题进行语义分析,产生查询数据;在预先构建的飞行器知识图谱中检索获得与查询数据对应的三元组;根据检索获得的三元组,输出问题答案;针对用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。上述智能问答方法通过语义分析预处理、三元组检索、问题答案输出和知识更新这四个步骤来完成智能问答和在线更新,过程简单,并且检索的信息来源于知识图谱数据库,可以实现一次构建,后续信息能够快速准确检索查询,减小了后续问答过程中的计算量,大大提高了反应速度和效率,所得答案的精度也较高。此外,本发明还针对上述智能问答方法提供了相应的***、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该***、设备及计算机可读存储介质具有相应的优点。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的基于飞行器知识图谱的智能问答方法、***、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于飞行器知识图谱的智能问答方法,其特征在于,包括:
采用预先训练的BERT模型对用户问题进行分词和语义编码;
采用BiLSTM-CRF模型进行深度解码,以完成实体识别,获得对应的实体识别结果;
根据所述实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型;
根据所述实体识别结果和得到的所述问题类型,产生对应的查询数据;
在预先构建的飞行器知识图谱中检索获得与所述查询数据对应的三元组,包括:根据所述查询数据中的实体词,在预先构建的飞行器知识图谱的三元组数据库中寻找相同的实体词,并链接到正确的实体;将所述查询数据中的实体属性词与预先构建的模板属性词进行对比匹配;若匹配成功,则返回与所述模板属性词对应的所述飞行器知识图谱的三元组数据库中实体属性词;若匹配失败,则采用Manhattan LSTM模型进行实体和实体属性链接的建立;所述Manhattan LSTM模型是以隐藏层作为最终层,并以所述隐藏层最后一个时间序列的状态为相似性系数计算的输入参数;
根据检索获得的所述三元组,输出问题答案;
针对用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新。
2.根据权利要求1所述的基于飞行器知识图谱的智能问答方法,其特征在于,所述根据所述实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型,包括:
从所述实体识别结果中得到识别出的实体数量,判断出问题类型为单实体问题或多实体问题;
当为单实体问题时,从所述实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为单实体多属性问题、单实体单属性问题或单实体是非类问题;
当为多实体问题时,从所述实体识别结果中得到用户问题中存在的属性词数量以及存在的关键词,通过关键词匹配方法判断出问题类型为多实体多属性问题、多实体单属性问题、多实体是非类问题或多实体比较类问题。
3.根据权利要求2所述的基于飞行器知识图谱的智能问答方法,其特征在于,所述根据检索获得的所述三元组,输出问题答案,包括:
根据检索获得的所述三元组,提取所述三元组的属性值;
利用提取的所述属性值结合得到的所述问题类型,组合出问题答案并进行输出。
4.一种基于飞行器知识图谱的智能问答***,其特征在于,包括:
数据库模块,用于将预先构建的飞行器知识图谱保存在存储介质上;
后端处理模块,用于执行智能问答;所述后端处理模块包括预处理单元、检索单元、输出单元和更新单元;其中,
所述预处理单元,用于采用预先训练的BERT模型对用户问题进行分词和语义编码;采用BiLSTM-CRF模型进行深度解码,以完成实体识别,获得对应的实体识别结果;根据所述实体识别结果和关键词匹配方法进行问题类型判断,得到对应的问题类型;根据所述实体识别结果和得到的所述问题类型,产生对应的查询数据;
所述检索单元,用于在所述飞行器知识图谱中检索获得与所述查询数据对应的三元组,包括:根据所述查询数据中的实体词,在预先构建的飞行器知识图谱的三元组数据库中寻找相同的实体词,并链接到正确的实体;将所述查询数据中的实体属性词与预先构建的模板属性词进行对比匹配;若匹配成功,则返回与所述模板属性词对应的所述飞行器知识图谱的三元组数据库中实体属性词;若匹配失败,则采用Manhattan LSTM模型进行实体和实体属性链接的建立;所述Manhattan LSTM模型是以隐藏层作为最终层,并以所述隐藏层最后一个时间序列的状态为相似性系数计算的输入参数;
所述输出单元,用于根据检索获得的所述三元组,输出问题答案;
所述更新单元,用于根据用户对问题答案的满意度评价或用户问题中的新实体,将可能出现的新属性词或实体加入***模板库或飞行器知识图谱库,对图谱库和问答模型进行实时更新;
前端显示模块,用于显示用户问题和所述后端处理模块输出的问题答案。
5.一种基于飞行器知识图谱的智能问答设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至3任一项所述的基于飞行器知识图谱的智能问答方法。
6.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于飞行器知识图谱的智能问答方法。
CN202211388973.8A 2022-11-08 2022-11-08 基于飞行器知识图谱的智能问答方法、***、设备及介质 Active CN115599899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388973.8A CN115599899B (zh) 2022-11-08 2022-11-08 基于飞行器知识图谱的智能问答方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388973.8A CN115599899B (zh) 2022-11-08 2022-11-08 基于飞行器知识图谱的智能问答方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN115599899A CN115599899A (zh) 2023-01-13
CN115599899B true CN115599899B (zh) 2023-04-07

Family

ID=84852999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388973.8A Active CN115599899B (zh) 2022-11-08 2022-11-08 基于飞行器知识图谱的智能问答方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN115599899B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738572B (zh) * 2023-06-19 2024-03-01 北京知元创通信息技术有限公司 飞行器构型模块化装配方法及***
CN117093679B (zh) * 2023-06-19 2024-04-02 ***科技(杭州)有限公司 一种大语言模型智能问诊对话方法、***、设备及介质
CN116595339A (zh) * 2023-07-19 2023-08-15 东方空间技术(山东)有限公司 一种航天数据的智能处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919655B (zh) * 2017-01-24 2020-05-19 网易(杭州)网络有限公司 一种***方法和装置
CN110457442B (zh) * 2019-08-09 2022-04-26 国家电网有限公司 面向智能电网客服问答的知识图谱构建方法
CN113312500B (zh) * 2021-06-24 2022-05-03 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN113535917A (zh) * 2021-06-30 2021-10-22 山东师范大学 基于旅游知识图谱的智能问答方法及***
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答***构建方法及***
CN114416939A (zh) * 2021-12-28 2022-04-29 广州市瑞行科技有限公司 智能问答方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈晓军等.企业风险知识图谱的构建及应用.《计算机科学》.2022,第第47卷卷(第第47卷期),第237-243页. *

Also Published As

Publication number Publication date
CN115599899A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN115599899B (zh) 基于飞行器知识图谱的智能问答方法、***、设备及介质
CN112989005B (zh) 一种基于分阶段查询的知识图谱常识问答方法及***
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN111639171A (zh) 一种知识图谱问答方法及装置
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及***
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
CN112380325A (zh) 基于联合知识嵌入模型和事实记忆网络的知识图谱问答***
CN113569023A (zh) 一种基于知识图谱的中文医药问答***及方法
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化***构建方法
CN110688489A (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN115269899A (zh) 基于遥感知识图谱的遥感影像统筹***
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及***
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph
CN112579666A (zh) 智能问答***和方法及相关设备
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及***
CN116737911A (zh) 基于深度学习的高血压问答方法及***
CN117786052A (zh) 一种基于领域知识图谱的电网智能问答***
CN116383354A (zh) 一种基于知识图谱的图可视化自动问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant