CN111414465A - 基于知识图谱的问答***中的处理方法和装置 - Google Patents

基于知识图谱的问答***中的处理方法和装置 Download PDF

Info

Publication number
CN111414465A
CN111414465A CN202010182500.7A CN202010182500A CN111414465A CN 111414465 A CN111414465 A CN 111414465A CN 202010182500 A CN202010182500 A CN 202010182500A CN 111414465 A CN111414465 A CN 111414465A
Authority
CN
China
Prior art keywords
candidate
main entity
entity
main
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010182500.7A
Other languages
English (en)
Other versions
CN111414465B (zh
Inventor
张文剑
牟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010182500.7A priority Critical patent/CN111414465B/zh
Publication of CN111414465A publication Critical patent/CN111414465A/zh
Application granted granted Critical
Publication of CN111414465B publication Critical patent/CN111414465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于知识图谱的问答***中的处理方法和装置。所述方法包括:在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;从所述主实体中选择至少两个候选主实体;以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;从所述候选主实体的候选路径中得到所述主实体的最终选择路径;确定所述最终选择路径对应的文本信息,作为所述问句的答案。

Description

基于知识图谱的问答***中的处理方法和装置
技术领域
本申请实施例涉及信息处理领域,尤指一种基于知识图谱的问答***中的处理方法和装置。
背景技术
问答***是一种信息检索***的高级形式。基于知识图谱的问答(Knowledge-based Question Answering,KBQA,下称“知识问答”)是通过自然语言对话的形式帮助人们从知识库中获取知识。知识问答依托一个大型知识库(如知识图谱或结构化数据库等),将用户的自然语言问句转换成结构化查询语句(如SPARQL、SQL等),直接从知识库中导出用户所需的答案。
知识库以RDF(Resource Description Framework,资源描述框架)的格式存储知识,每条知识被表示成一个三元组,即主体(Subject)、客体(Object)和述语(Predicate)。其中主体(Subject)、客体(Object)大多数时候为主实体,客体有时也会是属性值;述语(Predicate)是描述主体和客体之间的关系。所有的这样的三元组构成一个语义网络,即知识图谱。从图的角度来看,知识图谱由节点和边构成,对于任何一个三元组,主体和客体是节点,述语是连接这两个节点的边。
随着知识图谱的日益发展和应用,知识问答显得尤为重要。知识问答主要应用于智能对话***、智能客服和智能助理等,能帮助人们快速、准确地获取知识,是一种人机交互的自然形式。在知识问答中,相关技术中基于知识图谱的问答方法大致分为两大类,即基于语义解析的问答方法和基于信息抽取的问答方法。
相关技术中面临着两大困难,一个困难是现有的自然语言理解技术在处理自然语言的歧义性和复杂性方面还显得比较薄弱。例如,有时候一句话***可以理解,但换一个说法就不能理解了;另一个困难是知识问答***需要大量的领域知识来理解自然语言问题,而这需要大量的人工成本。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种基于知识图谱的问答***中的处理方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种基于知识图谱的问答***中的处理方法,包括:
在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
从所述主实体中选择至少两个候选主实体;
以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;
从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
确定所述最终选择路径对应的文本信息,作为所述问句的答案。
一种基于知识图谱的问答***中的处理装置,包括:
第一获取模块,用于在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
第一选择模块,用于从所述主实体中选择至少两个候选主实体;
搜索模块,用于以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
计算模块,用于计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
第二选择模块,用于选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;
第二获取模块,用于从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
确定模块,用于确定所述最终选择路径对应的文本信息,作为所述问句的答案。
本申请实施例提供的方案,在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体,从所述主实体中选择至少两个候选主实体,以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径,计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度,并选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径,从所述候选主实体的候选路径中得到所述主实体的最终选择路径,确定所述最终选择路径对应的文本信息,作为所述问句的答案,提高问句答***性,降低人工维护成本。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的基于知识图谱的问答***中的处理方法的流程图;
图2为本申请实施例提供的基于知识图谱的问答方法的示意图;
图3为本申请实施例提供的基于知识图谱的问答***中的处理装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在实现本申请的方案过程中,发明人发现相关技术中存在如下问题,具体分析如下:
相关技术中基于语义解析的知识库问答方法是通过对自然语言问句的语法分析,将问句转换成逻辑表达式,然后利用知识库的语义信息将逻辑表达式转换成知识库查询语言,最终通过查询知识库得到结果。经发明人分析,由于基于语义解析的方法的关键在于将自然语言查询转化成逻辑表达式,且该转化成逻辑表达式的操作需要用监督学习方法来训练一个语法分析器模型。训练语法分析器需要大量的标注数据,且由于中文词义表达的多样性,在转换成逻辑表达式后还需要大量的从文本中抽取表示知识库中关系的词语,导致人工成本高且局限性明显。
相关技术中基于信息抽取的知识库问答方法是模仿人类的思维,首先识别出自然语言问句的主题词,然后在知识库中找到与该主题词对应的主实体,以该主实体为节点,在知识库中通过该节点的相邻边来搜索出候选答案,每个候选答案都对应一条候选路径。通过计算所有候选路径与问句的相似度,将相似度最大的候选路径作为最终获取问句答案的路径。经发明人分析,基于信息抽取的方法当是利用深度学习模型来识别问句中的主实体以及计算问句与路径间的相似度,因此对训练语料极其依赖。随着知识库的增大,深度学习模型容易遗漏掉主实体且难以通过有限的训练集将最符合问句的那个候选路径筛选出来,从而导致***返回给用户的答案不符合用户的实际需求。
基于上述分析,本申请实施例提供一种融合深度学习模型和规则的基于知识图谱的问答方法,该方法以信息抽取的方式为主体流程,不需要对问句进行语法解析,而是直接将问句代入深度学习模型进行特征提取和计算,避免了昂贵的人工成本;并在多个流程中利用规则的方式对答案进一步筛选,通过融入规则的方法进行辅助筛选,使得最终返回给用户的答案尽可能合理,减少了由于知识库三元组数量的巨大对深度学习模型所造成的干扰。
图1为本申请实施例提供的基于知识图谱的问答***中的处理方法的流程图。如图1所示,图1所示方法包括:
步骤101、在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
在一个示例性实施例中,知识库中的三元组包括主体、述语和客体;例如,问句的内容是张三住在哪,主实体为张三;述语为住在;客体为哪(表示地址信息)。
步骤102、从所述主实体中选择至少两个候选主实体;
在一个示例性实施例中,可以确定的候选住主实体为演员张三;或者,医生张三;或者,教师张三。
步骤103、以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
步骤104、计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
在一个示例性实施例中,可以利用预先训练的文本匹配模型计算相似度。
步骤105、选择所述相似度符合预先设置的最高相似度判断条件的路径作为的候选路径;
步骤106、从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
步骤107、确定所述最终选择路径对应的文本信息,作为所述问句的答案。
本申请实施例提供的方法,在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体,从所述主实体中选择至少两个候选主实体,以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径,计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度,并选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径,从所述候选主实体的候选路径中得到所述主实体的最终选择路径,确定所述最终选择路径对应的文本信息,作为所述问句的答案,提高问句答***性,降低人工维护成本。
下面对本申请实施例提供的方法进行说明:
在一个示例性实施例中,所述获取所述问句在预先设置的知识库中对应的主实体,包括:
利用预先获取的主实体词典识别所述问句中的主实体提及,得到第一识别结果,其中所述主实体词典包括所述知识库中所有的主体和客体;以及,利用预先获取的主题词识别的深度学习模型,识别所述问句中的主实体提及,得到第二识别结果;
将所述第一识别结果和所述第二识别结果合并为最终的识别结果;
在预先设置的链接词典中存储的主实体提及与知识库中主实体的对应关系,查找所述识别结果中的每个主实体提及对应的知识库中的主实体。
该主题词识别的深度学习模型可以为BERT-CRF(融合条件随机场的双向编码器表示)模型。
利用主实体词典能够尽可能的保证问句中的主题词不被遗漏,而深度学习模型能够比较精准地抓住主题词,同时也能减少问句中主题词的遗漏;通过主实体词典和深度学习模型识别出问句中的主实体提及,能够提取出问句中所有可能成为主题词的那些片段,再通过一个链接词典将所有识别出的主实体提及转换成知识库中的主实体,结合上述两种方式识别主实体提及,减少主实体提及识别的遗漏,提高识别的准确度。
在一个示例性实施例中,所述从所述主实体中选择至少两个候选主实体,包括:
确定每个主实体的至少两个特征信息;
通过对同一个主实体的特征信息进行识别,得到每个主实体的得分信息;
根据每个主实体的得分信息,选择至少两个候选主实体。
其中,主实体的特征包括主实体提及的长度、主实体与问句的重叠字数及语义相似度、主实体所有相邻边与问句的重叠字数、主实体在知识库中出现的次数中的至少一个。
通过对主实体的特征信息的分析,达到对主实体信息的准确识别,为筛选主实体提供操作依据,提高选择的准确度。
在一个示例性实施例中,所述从所述候选主实体的候选路径中得到所述主实体的最终选择路径,包括:
判断所述候选路径的相似度之间的差值是否大于或等于预设的阈值;
如果所述差值小于所述阈值,则获取所述候选路径对应的文本信息与所述问句的重叠字数,选择重叠字数最多的路径为最终选择路径;
如果所述差值大于或等于所述阈值,则选择所述候选路径中相似度最高的路径为最终选择路径。
通过相似度差值的计算来确定选择最终选择路径所使用的方式;如果所述差值大于或等于所述阈值,则表示候选路径间的文本语义信息相差较大,则直接采用相似度最高的路径即可,如果所述差值小于所述阈值,则表示候选路径间的文本语义信息相差较小,利用文本内容的重复的字数进行答案的筛选。
在一个示例性实施例中,在所述问句中包括n个主实体时,选择所述n个主实体中一个主实体作为目标主实体,在确定目标主实体的候选主实体后,确定所述目标主实体的目标候选主实体;
其中所述目标候选主实体的候选路径是通过如下方式得到的,包括:
在以每个目标候选主实体为根节点进行相邻边和相邻节点的搜索过程中,在对所述相邻节点在下一层的相邻边和相邻节点的搜索时,利用所述n个主实体中的剩余的(n-1)个主实体进行路径的筛选,得到所述目标候选主实体的候选路径,其中n为大于等于2的整数
如果问句为张三和李四住在哪,则主实体包括张三和李四,在得到张三的路径(张三,住址,荷塘区)后,利用相邻节点”荷塘区”可以搜索到三元组(李四,住址,荷塘区),从而桥接到一条双主实体路径。
综上可以看出,本申请提出一种基于知识图谱的问答方法,该方法包括主实体提及识别、主实体链接、候选路径筛选、主实体桥接和答案生成。通过识别问句中的主实体,计算每个主实体的特征,并将每个主实体的特征代入多层感知机模型得到每个主实体的得分,最后选出得分最高的至少两个作为候选主实体。再执行候选路径筛选的步骤,包括将候选主实体作为根节点在知识图谱中搜寻相邻边以及相邻节点,并通过相邻节点搜索更深一层的边,从而生成由根节点和边所构成的路径。然后将这些路径与问句一起代入BERT(双向编码器表示)文本匹配模型得到它们的相似度,并结合其它特征以及一些规则方式筛选出最有可能符合问句答案的候选路径。答案生成是通过最终筛选出来的路径在知识库中找到回答该问句的答案。
另外,主实体桥接主要用于解决问句中包含多个主实体的情形,通过其中一个候选主实体在深层路径中桥接到另一个候选主实体,通过与上一步骤中筛选出来的路径进行特征比较从而得到最终的路径。
图2为本申请实施例提供的基于知识图谱的问答方法的示意图。如图2所示,图2所示方法包括:
步骤1:对于用户输入的自然语言问句,经过主实体词典和BERT-CRF(融合条件随机场的双向编码器表示)识别出问句中所有的主实体提及。
主实体词典是将知识库中所有的主体(subject)和客体(object)聚合在一起建立的词典。通过对问句进行切片,提取出现在主实体词典中的片段,并过滤掉部分被包含在更长片段中那些片段,剩下的片段作为通过主实体词典提取出来的主实体提及。主实体词典能够尽可能的保证问句中的主题词不被遗漏,而BERT-CRF(融合条件随机场的双向编码器表示)深度学习模型能够比较精准地抓住主题词,同时也能减少问句中主题词的遗漏。最后将两种方式提取出来的主实体提及合并。
步骤2:对于步骤1所得到的所有主实体提及,首先通过链接词典将这些主实体提及转换成知识库中的主实体,然后确定每个主实体的特征,再将每个主实体的特征代入由训练语料训练好的多层感知机模型得到每个主实体的得分,最后选出得分最高的5个作为候选主实体。
其中,主实体的特征包括主实体提及的长度、主实体与问句的重叠字数及语义相似度、主实体所有相邻边与问句的重叠字数、主实体在知识库中出现的次数等。
其中,链接词典一般是由人工来抓取或创建,它能将自然语言问句中的主题词与知识库中的主实体对齐,同时对于同一个主实体提及,在知识库中可能对应多个主实体。例如主实体提及“张三”可能对应影视剧中的演员以及某个医院的医生等。
步骤3:以步骤2得到的5个候选主实体为根节点,在知识图谱中搜索其相邻边以及相邻节点,并通过相邻节点搜索更深一层的边,从而生成由根节点和边所构成的路径。然后将这些路径与问句一起代入由训练语料训练好的BERT(双向编码器表示)文本匹配模型得到它们的相似度,选出相似度最高的3个作为候选路径。对于这3个候选路径,以重叠字数来进行进一步的筛选。当候选路径与问句的相似度得分相差不高于一个阈值a时,取与问句的重叠字数最多的那个路径作为该步骤的最终选择路径,否则取相似度最高的那个路径。其中阈值a通过人工调参得到。
步骤4:对于步骤2所得到5个候选主实体,以它们为根节点搜索相邻边,得到以根节点和相邻边构成的路径。将这些路径与问句一起代入步骤3中使用过的的BERT(双向编码器表示)文本匹配模型计算相似度,取相似度最高的20个路径,并通过这20个路径的节点搜索更深一层的三元组,若更深一层的三元组中包含其它候选主实体,则桥接到一条双主实体的路径。
例如,问句“张三和李四共同出演的电视剧有哪些?”,包含主实体“张三”和“李四”,通过路径(张三,主演,“客体”)中的“客体”进行更深一层的搜索可以得到(李四,主演,“客体”),从而得到双主实体路径:张三->主演->?<-主演<-李四。
对于桥接到的所有双主实体路径通过主实体不能和关系一样、关系中不包含特殊关系如其他名称和中文名等、两个主实体在问句中所对应的提及不能重叠等规则进行过滤,再计算过滤后的双主实体路径与步骤4最终筛选出来的路径的特征如与问句的重叠字数、BERT(双向编码器表示)文本匹配模型相似度得分等,最终选出最符合问句答案的路径。通过对双主实体进行规则过滤,极大地避免双主实体路径地干扰,同时采用文本匹配模型进行最终筛选也融入语义特征。
步骤5:根据步骤4得到的最终路径,在知识库中搜索获取问句的答案并返回给用户。
本发明的基于知识图谱的问答算法以信息抽取的方式为主要流程,在多个流程中融入规则的方式进行筛选。即保留了信息抽取方式对于语义计算的泛化性优势和较低的人工成本优势,又通过规则的方式避免了信息抽取方式中使用深度学习模型所带来的不确定性影响,较大的提升回答自然语言问答的能力。
步骤2中的技术方案中使用的深度学习模型不局限于BERT(双向编码器表示),使用其它深度学习模型如RNN(循环神经网络)、CNN(卷积神经网络)等也能得到接近的技术效果。同时步骤2中各步骤中所设定的规则过滤方法可以通过先验知识和数据实验来制定,不局限于上述所提到过的一些规则过滤方式。
本发明的关键点是在沿用信息抽取方式的知识问答方法的同时加入了较多的规则方式对问句答案进行筛选过滤,这些规则通常需要根据具体的知识库以及应用场景并结合人类的智慧来制定。
图3为本申请实施例提供的基于知识图谱的问答***中的处理方法的结构图。如图3所示,图3所示装置包括:
第一获取模块,用于在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
第一选择模块,用于从所述主实体中选择至少两个候选主实体;
搜索模块,用于以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
计算模块,用于计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
第二选择模块,用于选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;
第二获取模块,用于从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
确定模块,用于确定所述最终选择路径对应的文本信息,作为所述问句的答案。
在一个示例性实施例中,所述获取模块包括:
识别单元,用于利用预先获取的主实体词典识别所述问句中的主实体提及,得到第一识别结果,其中所述主实体词典包括所述知识库中所有的主体和客体;以及,利用预先获取的主题词识别的深度学习模型,识别所述问句中的主实体提及,得到第二识别结果;
合并单元,用于将所述第一识别结果和所述第二识别结果合并为最终的识别结果;
查找单元,用于在预先设置的链接词典中存储的主实体提及与知识库中主实体的对应关系,查找所述识别结果中的每个主实体提及对应的知识库中的主实体。
在一个示例性实施例中,所述第一选择模块包括:
确定单元,用于确定每个主实体的至少两个特征信息;
处理单元,用于通过对同一个主实体的特征信息进行识别,得到每个主实体的得分信息;
选择单元,用于根据每个主实体的得分信息,选择至少两个候选主实体。
在一个示例性实施例中,所述第二选择模块包括:
判断单元,用于判断所述候选路径的相似度之间的差值是否大于或等于预设的阈值;
获取单元,用于如果所述差值大于或等于所述阈值,则选择所述候选路径中相似度最高的路径为最终选择路径;如果所述差值小于所述阈值,则获取所述候选路径对应的文本信息与所述问句的重叠字数,选择重叠字数最多的路径为最终选择路径。
在一个示例性实施例中,所述搜索模块,用于在所述问句中包括n个主实体时,选择所述n个主实体中一个主实体作为目标主实体,在确定目标主实体的候选主实体后,确定所述目标主实体的目标候选主实体;
其中所述目标候选主实体的候选路径是通过如下方式得到的,包括:
在以每个目标候选主实体为根节点进行相邻边和相邻节点的搜索过程中,在对所述相邻节点在下一层的相邻边和相邻节点的搜索时,利用所述n个主实体中的剩余的(n-1)个主实体进行路径的筛选,得到所述目标候选主实体的候选路径,其中n为大于等于2的整数。本申请实施例提供的装置,在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体,从所述主实体中选择至少两个候选主实体,以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径,计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度,并选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径,从所述候选主实体的候选路径中得到所述主实体的最终选择路径,确定所述最终选择路径对应的文本信息,作为所述问句的答案,提高问句答***性,降低人工维护成本。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种基于知识图谱的问答***中的处理方法,其特征在于,包括:
在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
从所述主实体中选择至少两个候选主实体;
以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;
从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
确定所述最终选择路径对应的文本信息,作为所述问句的答案。
2.根据权利要求1所述的方法,其特征在于,所述获取所述问句在预先设置的知识库中对应的主实体,包括:
利用预先获取的主实体词典识别所述问句中的主实体提及,得到第一识别结果,其中所述主实体词典包括所述知识库中所有的主体和客体;以及,利用预先获取的主题词识别的深度学习模型,识别所述问句中的主实体提及,得到第二识别结果;
将所述第一识别结果和所述第二识别结果合并为最终的识别结果;
在预先设置的链接词典中存储的主实体提及与知识库中主实体的对应关系,查找所述识别结果中的每个主实体提及对应的知识库中的主实体。
3.根据权利要求1所述的方法,其特征在于,所述从所述主实体中选择至少两个候选主实体,包括:
确定每个主实体的至少两个特征信息;
通过对同一个主实体的特征信息进行识别,得到每个主实体的得分信息;
根据每个主实体的得分信息,选择至少两个候选主实体。
4.根据权利要求1所述的方法,其特征在于,所述从所述候选主实体的候选路径中得到所述主实体的最终选择路径,包括:
判断所述候选路径的相似度之间的差值是否大于或等于预设的阈值;
如果所述差值大于或等于所述阈值,则选择所述候选路径中相似度最高的路径为最终选择路径;
如果所述差值小于所述阈值,则获取所述候选路径对应的文本信息与所述问句的重叠字数,选择重叠字数最多的路径为最终选择路径。
5.根据权利要求1所述的方法,其特征在于:
在所述问句中包括n个主实体时,选择所述n个主实体中一个主实体作为目标主实体,在确定目标主实体的候选主实体后,确定所述目标主实体的目标候选主实体;
其中所述目标候选主实体的候选路径是通过如下方式得到的,包括:
在以每个目标候选主实体为根节点进行相邻边和相邻节点的搜索过程中,在对所述相邻节点在下一层的相邻边和相邻节点的搜索时,利用所述n个主实体中的剩余的(n-1)个主实体进行路径的筛选,得到所述目标候选主实体的候选路径,其中n为大于等于2的整数。
6.一种基于知识图谱的问答***中的处理装置,其特征在于,包括:
第一获取模块,用于在接收到问句后,获取所述问句在预先设置的知识库中对应的主实体;
第一选择模块,用于从所述主实体中选择至少两个候选主实体;
搜索模块,用于以每个候选主实体为根节点,在预先存储的知识图谱中搜索所述根节点的相邻边以及相邻节点,并通过相邻节点搜索所述相邻节点在下一层的相邻边和相邻节点,以此类推,直到搜索到最后一层的节点,得到每个候选主实体对应的路径;
计算模块,用于计算每个候选主实体的路径所对应的文本信息与所述问句的文本信息的相似度;
第二选择模块,用于选择所述相似度符合预先设置的最高相似度判断条件的路径作为候选主实体的候选路径;
第二获取模块,用于从所述候选主实体的候选路径中得到所述主实体的最终选择路径;
确定模块,用于确定所述最终选择路径对应的文本信息,作为所述问句的答案。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
识别单元,用于利用预先获取的主实体词典识别所述问句中的主实体提及,得到第一识别结果,其中所述主实体词典包括所述知识库中所有的主体和客体;以及,利用预先获取的主题词识别的深度学习模型,识别所述问句中的主实体提及,得到第二识别结果;
合并单元,用于将所述第一识别结果和所述第二识别结果合并为最终的识别结果;
查找单元,用于在预先设置的链接词典中存储的主实体提及与知识库中主实体的对应关系,查找所述识别结果中的每个主实体提及对应的知识库中的主实体。
8.根据权利要求6所述的装置,其特征在于,所述第一选择模块包括:
确定单元,用于确定每个主实体的至少两个特征信息;
处理单元,用于通过对同一个主实体的特征信息进行识别,得到每个主实体的得分信息;
选择单元,用于根据每个主实体的得分信息,选择至少两个候选主实体。
9.根据权利要求6所述的装置,其特征在于,所述第二选择模块包括:
判断单元,用于判断所述候选路径的相似度之间的差值是否大于或等于预设的阈值;
获取单元,用于如果所述差值大于或等于所述阈值,则选择所述候选路径中相似度最高的路径为最终选择路径;如果所述差值小于所述阈值,则获取所述候选路径对应的文本信息与所述问句的重叠字数,选择重叠字数最多的路径为最终选择路径。
10.根据权利要求6所述的装置,其特征在:
所述搜索模块,用于在所述问句中包括n个主实体时,选择所述n个主实体中一个主实体作为目标主实体,在确定目标主实体的候选主实体后,确定所述目标主实体的目标候选主实体;
其中所述目标候选主实体的候选路径是通过如下方式得到的,包括:
在以每个目标候选主实体为根节点进行相邻边和相邻节点的搜索过程中,在对所述相邻节点在下一层的相邻边和相邻节点的搜索时,利用所述n个主实体中的剩余的(n-1)个主实体进行路径的筛选,得到所述目标候选主实体的候选路径,其中n为大于等于2的整数。
CN202010182500.7A 2020-03-16 2020-03-16 基于知识图谱的问答***中的处理方法和装置 Active CN111414465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182500.7A CN111414465B (zh) 2020-03-16 2020-03-16 基于知识图谱的问答***中的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182500.7A CN111414465B (zh) 2020-03-16 2020-03-16 基于知识图谱的问答***中的处理方法和装置

Publications (2)

Publication Number Publication Date
CN111414465A true CN111414465A (zh) 2020-07-14
CN111414465B CN111414465B (zh) 2023-09-01

Family

ID=71491208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182500.7A Active CN111414465B (zh) 2020-03-16 2020-03-16 基于知识图谱的问答***中的处理方法和装置

Country Status (1)

Country Link
CN (1) CN111414465B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966834A (zh) * 2020-07-29 2020-11-20 深圳市元征科技股份有限公司 一种文件生成方法、文件生成装置及服务器
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和***
CN112199473A (zh) * 2020-10-16 2021-01-08 上海明略人工智能(集团)有限公司 一种知识问答***中的多轮对话方法与装置
CN112579600A (zh) * 2020-12-21 2021-03-30 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置
CN112632226A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112818675A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 一种基于知识库问答的实体抽取方法及装置
CN112860862A (zh) * 2021-02-01 2021-05-28 北京邮电大学 人机对话中智能体对话语句的生成方法和装置
CN113033210A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于社交媒体数据分析的药物潜在副作用挖掘方法
CN113157861A (zh) * 2021-04-12 2021-07-23 山东新一代信息产业技术研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113204628A (zh) * 2021-05-17 2021-08-03 上海明略人工智能(集团)有限公司 用于获取问句答案的方法、装置、电子设备及可读存储介质
WO2021189956A1 (zh) * 2020-09-18 2021-09-30 平安科技(深圳)有限公司 基于知识图谱的智能客服方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400442A1 (en) * 2000-02-25 2001-08-30 Yet Mui Method for enterprise workforce planning
CN109344238A (zh) * 2018-09-18 2019-02-15 阿里巴巴集团控股有限公司 用户问句的补词方法和装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答***构建方法
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400442A1 (en) * 2000-02-25 2001-08-30 Yet Mui Method for enterprise workforce planning
CN109344238A (zh) * 2018-09-18 2019-02-15 阿里巴巴集团控股有限公司 用户问句的补词方法和装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答***构建方法
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966834A (zh) * 2020-07-29 2020-11-20 深圳市元征科技股份有限公司 一种文件生成方法、文件生成装置及服务器
WO2021189956A1 (zh) * 2020-09-18 2021-09-30 平安科技(深圳)有限公司 基于知识图谱的智能客服方法、装置、设备及存储介质
CN112199473A (zh) * 2020-10-16 2021-01-08 上海明略人工智能(集团)有限公司 一种知识问答***中的多轮对话方法与装置
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和***
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和***
CN112579600A (zh) * 2020-12-21 2021-03-30 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置
CN112579600B (zh) * 2020-12-21 2024-07-19 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置
CN112632226A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112632226B (zh) * 2020-12-29 2021-10-26 天津汇智星源信息技术有限公司 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112860862B (zh) * 2021-02-01 2022-11-11 北京邮电大学 人机对话中智能体对话语句的生成方法和装置
CN112818675A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 一种基于知识库问答的实体抽取方法及装置
CN112860862A (zh) * 2021-02-01 2021-05-28 北京邮电大学 人机对话中智能体对话语句的生成方法和装置
CN113157861A (zh) * 2021-04-12 2021-07-23 山东新一代信息产业技术研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113157861B (zh) * 2021-04-12 2022-05-24 山东浪潮科学研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113204628A (zh) * 2021-05-17 2021-08-03 上海明略人工智能(集团)有限公司 用于获取问句答案的方法、装置、电子设备及可读存储介质
CN113033210A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于社交媒体数据分析的药物潜在副作用挖掘方法

Also Published As

Publication number Publication date
CN111414465B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111414465B (zh) 基于知识图谱的问答***中的处理方法和装置
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答***
CN111046132B (zh) 一种检索多轮对话的客服问答处理方法及其***
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
CN112241626B (zh) 一种语义匹配、语义相似度模型训练方法及装置
CN112163077B (zh) 一种面向领域问答的知识图谱构建方法
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及***
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20060053000A1 (en) Natural language question answering system and method utilizing multi-modal logic
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN107301164B (zh) 数学公式的语义解析方法及装置
CN110647618A (zh) 对话查询应答***
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
US20120183935A1 (en) Learning device, determination device, learning method, determination method, and computer program product
CN110209832A (zh) 上下位关系的判别方法、***和计算机设备
CN110888943A (zh) 基于微模板的法院裁判文书辅助生成的方法和***
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN111858962A (zh) 数据处理方法、装置及计算机可读存储介质
CN111104503A (zh) 一种建筑工程质量验收规范问答***及其构建方法
CN112579600B (zh) 一种基于车载问答的数据处理方法和装置
CN111639187A (zh) 一种基于知识图谱的知识问答验证码生成***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant