CN115455169A - 一种基于词汇知识和语义依存的知识图谱问答方法和*** - Google Patents

一种基于词汇知识和语义依存的知识图谱问答方法和*** Download PDF

Info

Publication number
CN115455169A
CN115455169A CN202211342154.XA CN202211342154A CN115455169A CN 115455169 A CN115455169 A CN 115455169A CN 202211342154 A CN202211342154 A CN 202211342154A CN 115455169 A CN115455169 A CN 115455169A
Authority
CN
China
Prior art keywords
feature vector
query entity
entity set
question text
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211342154.XA
Other languages
English (en)
Other versions
CN115455169B (zh
Inventor
嵇望
安毫亿
陈默
张羽
梁青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan Xinye Technology Co ltd filed Critical Hangzhou Yuanchuan Xinye Technology Co ltd
Priority to CN202211342154.XA priority Critical patent/CN115455169B/zh
Publication of CN115455169A publication Critical patent/CN115455169A/zh
Application granted granted Critical
Publication of CN115455169B publication Critical patent/CN115455169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于词汇知识和语义依存的知识图谱问答方法和***,其中,该方法包括:对目标问句文本进行分词和编码,得到问句文本特征向量;对目标问句文本进行命名实体识别、关键词抽取和编码,得到查询实体集的查询实体集特征向量;再对目标问句文本进行句法解析和编码,得到查询实体集的句法依存特征向量;基于查询实体集从知识图谱中抽取候选答案集的子图并编码,得到子图特征向量;根据上述四种特征向量从知识图谱中得出目标问句文本的答案。通过本申请,解决了现有基于问句查询实体集的知识图谱问答存在精准度低的问题,实现了结合问句中的实体词汇知识和句法信息,进行多特征向量的融合,基于融合特征提高知识图谱问答的精准度。

Description

一种基于词汇知识和语义依存的知识图谱问答方法和***
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种基于词汇知识和语义依存的知识图谱问答方法和***。
背景技术
随着大数据时代的来临,如何帮助用户在海量信息中快速找到想要的信息变得尤为重要,知识图谱(knowledge graph,KG)以三元组的形式结构化存储海量信息。知识图谱问答(KBQA)利用知识图谱丰富的语义关联信息,能够深入理解用户问题并给出答案,近年来吸引了学术界和工业界的广泛关注。基于知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。
现有的知识图谱问答大多基于命名实体获取查询实体集,没有充分挖掘利用问题中的关键短语来扩充实体集,容易造成实体缺失,导致通过查询实体集获取正确答案的精准度不高。
目前针对相关技术中现有基于问句查询实体集的知识图谱问答存在精准度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于词汇知识和语义依存的知识图谱问答方法和***,以至少解决相关技术中现有基于问句查询实体集的知识图谱问答存在精准度低的问题。
第一方面,本申请实施例提供了一种基于词汇知识和语义依存的知识图谱问答方法,所述方法包括:
对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量;
对所述目标问句文本进行命名实体识别和关键词抽取,获得所述目标问句文本中的查询实体集,并基于所述查询实体集,计算得到查询实体集特征向量;
采用句法分析工具对所述目标问句文本进行句法解析,得到所述查询实体集的句法依存关系,并对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量;
基于所述查询实体集从知识图谱中抽取候选答案集的子图,并对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量;
将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
基于所述最终特征向量从所述知识图谱中得出所述目标问句文本的答案。
在其中一些实施例中,基于所述查询实体集,计算得到查询实体集特征向量包括:
对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量;
从预设常识知识库中获取所述查询实体集的基本单元类别,并对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量;
对所述嵌入特征向量和所述类别特征向量进行基于注意力机制的特征融合,得到查询实体集特征向量。
在其中一些实施例中,将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量包括:
将所述子图特征向量与所述问句文本特征向量进行基于注意力机制的特征融合,得到第一融合特征向量;
将所述子图特征向量与所述句法依存特征向量进行基于注意力机制的特征融合,得到第二融合特征向量;
将所述子图特征向量与所述查询实体集特征向量进行基于注意力机制的特征融合,得到第三融合特征向量;
基于加权平均,将所述第一融合特征向量、所述第二融合特征向量和所述第三融合特征向量进行融合,得到最终特征向量。
在其中一些实施例中,对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量包括:
并通过GCN图卷积神经网络对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量。
在其中一些实施例中,对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量包括:
通过BiGRU网络对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量。
在其中一些实施例中,对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量包括:
通过R-GCN关系图卷积神经网络对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量。
在其中一些实施例中,对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量包括:
通过TransE向量化工具对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量。
在其中一些实施例中,从预设常识知识库中获取所述查询实体集的基本单元类别,并对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量包括:
从Hownet常识知识库中获取所述查询实体集的基本单元类别;
通过PCA主成分分析和独热编码工具对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量。
在其中一些实施例中,对所述嵌入特征向量和所述类别特征向量进行基于注意力机制的特征融合,得到查询实体集特征向量包括:
采用Concat Attention机制对所述嵌入特征向量和所述类别特征向量进行特征融合,得到查询实体集特征向量。
第二方面,本申请实施例提供了一种基于词汇知识和语义依存的知识图谱问答***,所述***包括第一分支模块、第二分支模块、第三分支模块、分支融合模块和预测判断模块;
所述第一分支模块,用于对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量;
所述第二分支模块,用于对所述目标问句文本进行命名实体识别和关键词抽取,获得所述目标问句文本中的查询实体集,并基于所述查询实体集,计算得到查询实体集特征向量;
所述第三分支模块,用于采用句法分析工具对所述目标问句文本进行句法解析,得到所述查询实体集的句法依存关系,并对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量;
所述分支融合模块,用于基于所述查询实体集从知识图谱中抽取候选答案集的子图,并对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量;
将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
所述预测判断模块,用于根据所述最终特征向量从所述知识图谱中得出所述目标问句文本的答案。
相比于相关技术,本申请实施例提供的一种基于词汇知识和语义依存的知识图谱问答方法和***,该方法通过对目标问句文本进行分词和编码,得到目标问句文本的问句文本特征向量;对目标问句文本进行命名实体识别和关键词抽取,获得目标问句文本中的查询实体集,并基于查询实体集,计算得到查询实体集特征向量;采用句法分析工具对目标问句文本进行句法解析,得到查询实体集的句法依存关系,并对句法依存关系进行编码,得到查询实体集的句法依存特征向量;基于查询实体集从知识图谱中抽取候选答案集的子图,并对候选答案集的子图进行编码,得到候选答案集的子图特征向量;将子图特征向量分别与问句文本特征向量、句法依存特征向量、查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;基于最终特征向量从知识图谱中得出目标问句文本的答案,解决了现有基于问句查询实体集的知识图谱问答存在精准度低的问题,实现了结合问句中的实体词汇知识和句法信息,进行多特征向量的融合,基于融合特征提高知识图谱问答的精准度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于词汇知识和语义依存的知识图谱问答方法的步骤流程图;
图2是根据本申请实施例的知识图谱问答模型的结构示意图;
图3是根据本申请实施例的基于词汇知识和语义依存的知识图谱问答***的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
附图说明:31、第一分支模块;32、第二分支模块;33、第三分支模块;34、分支融合模块;35、预测判断模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种基于词汇知识和语义依存的知识图谱问答方法,图1是根据本申请实施例的基于词汇知识和语义依存的知识图谱问答方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,对目标问句文本进行分词和编码,得到目标问句文本的问句文本特征向量;
具体地,通过BiGRU网络对目标问句文本进行分词和编码,得到目标问句文本的问句文本特征向量。
优选地,对目标问句文本Q = (w 1w 2,…,w M)分词,并采用BiGRU网络进行编码,得到目标问句文本词语级的问句文本特征向量a = (a 1a 2,…,a N),编码过程公式如下:
Figure 330014DEST_PATH_IMAGE001
步骤S104,对目标问句文本进行命名实体识别和关键词抽取,获得目标问句文本中的查询实体集,并基于查询实体集,计算得到查询实体集特征向量;
具体地,步骤S104还包括以下步骤:
步骤S41,对目标问句文本进行命名实体识别和关键词抽取,然后合并和去重,获得目标问句文本中的查询实体集L = (e 1e 2,…,e N),
步骤S42,对查询实体集进行编码,得到查询实体集的嵌入特征向量;
步骤S43,从预设常识知识库中获取查询实体集的基本单元类别,并对基本单元类别进行编码,得到查询实体集的类别特征向量;
步骤S44,对嵌入特征向量和类别特征向量进行基于注意力机制的特征融合,得到查询实体集特征向量。
步骤S42优选地,通过TransE向量化工具(Translating Embedding)对查询实体集进行编码,得到查询实体集的嵌入特征向量b = (b 1b 2,…,b N)。
步骤S43优选地,从Hownet常识知识库中获取查询实体集的基本单元类别(如万物、部件、 属性、时间、空间、属性值、事件等);通过PCA主成分分析和独热编码工具(onehot encoding)对基本单元类别进行编码,得到查询实体集的类别特征向量c = (c 1c 2,…,c N)。
步骤S44优选地,采用Concat Attention机制对嵌入特征向量和类别特征向量进行特征融合,得到查询实体集特征向量u = (u 1u 2,…,u N),融合过程公式如下:
Figure 825324DEST_PATH_IMAGE002
需要说明的是,融合过程公式中的
Figure 41191DEST_PATH_IMAGE003
为注意力打分 函数,该注意力打分函数采用的是加性模型的形式,除此之外,还可以采用点积模型、缩放 点积模型、双线性模型等形式,在此便不详细阐述。
步骤S104利用Hownet常识知识库将查询实体集的基本单元类别特征补充进来进行模型构建,充分挖掘问句的深度特征,丰富了查询实体之间特征信息,提高了从候选实体集中获取正确答案的精准度,进一步提升了用户体验。
步骤S106,采用句法分析工具对目标问句文本进行句法解析,得到查询实体集的句法依存关系,并对句法依存关系进行编码,得到查询实体集的句法依存特征向量;
优选地,步骤S106还包括以下步骤:
步骤S61,采用开源的句法分析工具对目标问句文本进行句法解析,定义无向图G = (vε)是句子目标问句文本Q = (w 1w 2,…,w M)的依存语法树,V = (v 1v 2,…,v M)和ε是图对应的节点集和边集,在句法树中每个节点v p代表句子中的一个单词w q,如果一条边(v pv q)属于ε,则代表单词v pv q存在有向句法弧;进而得到查询实体集的句法依存关系。
步骤S62,并通过GCN图卷积神经网络(Graph Convolutional Network)对句法依存关系进行编码,得到查询实体集的句法依存特征向量d = (d 1d 2,…,d T),其中,在GCN图卷积神经网络的第r层,节点v的卷积向量可表示为:
Figure 429142DEST_PATH_IMAGE004
Wb是对应的权重和偏差,N(v)是v对应的领域集且包含vf为激活函数。
步骤S106利用查询实体集的句法依存特征向量补充进来进行模型构建,充分挖掘问句的深度特征,丰富了查询实体之间特征信息,提高了从候选实体集中获取正确答案的精准度,进一步提升了用户体验。
步骤S108,基于查询实体集从知识图谱中抽取候选答案集的子图,并对候选答案集的子图进行编码,得到候选答案集的子图特征向量;
优选地,步骤S108还包括以下步骤:
步骤S81,基于查询实体集从知识图谱中抽取候选答案集的子图。
步骤S82,通过R-GCN关系图卷积神经网络(Relational- Graph ConvolutionalNetwork)对候选答案集的子图进行编码,得到候选答案集的子图特征向量,其中,对于知识图谱(候选答案集的子图)中的某个实体,该实体在知识图谱中的关系网络可以表示为G =(VεR),其中实体v i属于V,关系 (v irv j)属于εr属于R代表关系类型,则实体(节点)v i的R-GCN卷积向量表示为:
Figure 38590DEST_PATH_IMAGE005
Figure 440271DEST_PATH_IMAGE006
表示节点v i包含在关系集R的所有邻居节点,c i,r表示可自定义或者学习的归一 化超参,
Figure 166655DEST_PATH_IMAGE007
表示激活函数(如Relu等)。
步骤S110,将子图特征向量分别与问句文本特征向量、句法依存特征向量、查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
优选地,步骤S110还包括以下步骤:
步骤S1101,将子图特征向量与问句文本特征向量进行基于注意力机制的特征融 合,得到第一融合特征向量
Figure 302888DEST_PATH_IMAGE008
,注意力机制的公式如下:
Figure 851113DEST_PATH_IMAGE009
步骤S1102,将子图特征向量与句法依存特征向量进行基于注意力机制的特征融 合,得到第二融合特征向量
Figure 809098DEST_PATH_IMAGE010
,注意力机制的公式如下:
Figure 673760DEST_PATH_IMAGE011
步骤S1103,将子图特征向量与查询实体集特征向量进行基于注意力机制的特征 融合,得到第三融合特征向量
Figure 500552DEST_PATH_IMAGE012
,注意力机制的公式如下:
Figure 61589DEST_PATH_IMAGE013
步骤S1104,基于加权平均,将第一融合特征向量、第二融合特征向量和第三融合 特征向量进行融合,得到最终特征向量
Figure 927609DEST_PATH_IMAGE014
步骤S110利用注意力机制将模型构建聚焦到问句文本特征向量、句法依存特征向量、查询实体集特征向量等重要特征上来,缩短了模型获取问句答案的时间,提高了知识图谱问答的效率。
步骤S112,基于最终特征向量从知识图谱中得出目标问句文本的答案。
需要说明的是,图2是根据本申请实施例的知识图谱问答模型的结构示意图,如图2所示,该知识图谱问答模型基于上述步骤S102至步骤S112,该模型具有训练阶段和应用阶段,其中,训练阶段优选使用负对数似然函数来作为损失函数,并选择在开发集上F1指标最好的模型进行保存,该模型能够精确的从知识图谱中找到答案回复给用户。
通过本申请实施例中的步骤S102至步骤S112,解决了现有基于问句查询实体集的知识图谱问答存在精准度低的问题,实现了结合问句中的实体词汇知识和句法信息,进行多特征向量的融合,基于融合特征提高知识图谱问答的精准度。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种基于词汇知识和语义依存的知识图谱问答***,图3是根据本申请实施例的基于词汇知识和语义依存的知识图谱问答***的结构框图,如图3所示,该***包括第一分支模块31、第二分支模块32、第三分支模块33、分支融合模块34和预测判断模块35;
第一分支模块31,用于对目标问句文本进行分词和编码,得到目标问句文本的问句文本特征向量;
第二分支模块32,用于对目标问句文本进行命名实体识别和关键词抽取,获得目标问句文本中的查询实体集,并基于查询实体集,计算得到查询实体集特征向量;
第三分支模块33,用于采用句法分析工具对目标问句文本进行句法解析,得到查询实体集的句法依存关系,并对句法依存关系进行编码,得到查询实体集的句法依存特征向量;
分支融合模块34,用于基于查询实体集从知识图谱中抽取候选答案集的子图,并对候选答案集的子图进行编码,得到候选答案集的子图特征向量;
将子图特征向量分别与问句文本特征向量、句法依存特征向量、查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
预测判断模块35,用于根据最终特征向量从知识图谱中得出目标问句文本的答案。
通过本申请实施例中的第一分支模块31、第二分支模块32、第三分支模块33、分支融合模块34和预测判断模块35,解决了现有基于问句查询实体集的知识图谱问答存在精准度低的问题,实现了结合问句中的实体词汇知识和句法信息,进行多特征向量的融合,基于融合特征提高知识图谱问答的精准度。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的基于词汇知识和语义依存的知识图谱问答方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于词汇知识和语义依存的知识图谱问答方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于词汇知识和语义依存的知识图谱问答方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作***、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作***和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于词汇知识和语义依存的知识图谱问答方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于词汇知识和语义依存的知识图谱问答方法,其特征在于,所述方法包括:
对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量;
对所述目标问句文本进行命名实体识别和关键词抽取,获得所述目标问句文本中的查询实体集,并基于所述查询实体集,计算得到查询实体集特征向量;
采用句法分析工具对所述目标问句文本进行句法解析,得到所述查询实体集的句法依存关系,并对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量;
基于所述查询实体集从知识图谱中抽取候选答案集的子图,并对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量;
将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
基于所述最终特征向量从所述知识图谱中得出所述目标问句文本的答案。
2.根据权利要求1所述的方法,其特征在于,基于所述查询实体集,计算得到查询实体集特征向量包括:
对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量;
从预设常识知识库中获取所述查询实体集的基本单元类别,并对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量;
对所述嵌入特征向量和所述类别特征向量进行基于注意力机制的特征融合,得到查询实体集特征向量。
3.根据权利要求1所述的方法,其特征在于,将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量包括:
将所述子图特征向量与所述问句文本特征向量进行基于注意力机制的特征融合,得到第一融合特征向量;
将所述子图特征向量与所述句法依存特征向量进行基于注意力机制的特征融合,得到第二融合特征向量;
将所述子图特征向量与所述查询实体集特征向量进行基于注意力机制的特征融合,得到第三融合特征向量;
基于加权平均,将所述第一融合特征向量、所述第二融合特征向量和所述第三融合特征向量进行融合,得到最终特征向量。
4.根据权利要求1所述的方法,其特征在于,对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量包括:
并通过GCN图卷积神经网络对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量。
5.根据权利要求1所述的方法,其特征在于,对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量包括:
通过BiGRU网络对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量。
6.根据权利要求1所述的方法,其特征在于,对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量包括:
通过R-GCN关系图卷积神经网络对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量。
7.根据权利要求2所述的方法,其特征在于,对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量包括:
通过TransE向量化工具对所述查询实体集进行编码,得到所述查询实体集的嵌入特征向量。
8.根据权利要求2所述的方法,其特征在于,从预设常识知识库中获取所述查询实体集的基本单元类别,并对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量包括:
从Hownet常识知识库中获取所述查询实体集的基本单元类别;
通过PCA主成分分析和独热编码工具对所述基本单元类别进行编码,得到所述查询实体集的类别特征向量。
9.根据权利要求2所述的方法,其特征在于,对所述嵌入特征向量和所述类别特征向量进行基于注意力机制的特征融合,得到查询实体集特征向量包括:
采用Concat Attention机制对所述嵌入特征向量和所述类别特征向量进行特征融合,得到查询实体集特征向量。
10.一种基于词汇知识和语义依存的知识图谱问答***,其特征在于,所述***包括第一分支模块、第二分支模块、第三分支模块、分支融合模块和预测判断模块;
所述第一分支模块,用于对目标问句文本进行分词和编码,得到所述目标问句文本的问句文本特征向量;
所述第二分支模块,用于对所述目标问句文本进行命名实体识别和关键词抽取,获得所述目标问句文本中的查询实体集,并基于所述查询实体集,计算得到查询实体集特征向量;
所述第三分支模块,用于采用句法分析工具对所述目标问句文本进行句法解析,得到所述查询实体集的句法依存关系,并对所述句法依存关系进行编码,得到所述查询实体集的句法依存特征向量;
所述分支融合模块,用于基于所述查询实体集从知识图谱中抽取候选答案集的子图,并对所述候选答案集的子图进行编码,得到所述候选答案集的子图特征向量;
将所述子图特征向量分别与所述问句文本特征向量、所述句法依存特征向量、所述查询实体集特征向量进行基于注意力机制的特征融合,进而得到最终特征向量;
所述预测判断模块,用于根据所述最终特征向量从所述知识图谱中得出所述目标问句文本的答案。
CN202211342154.XA 2022-10-31 2022-10-31 一种基于词汇知识和语义依存的知识图谱问答方法和*** Active CN115455169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211342154.XA CN115455169B (zh) 2022-10-31 2022-10-31 一种基于词汇知识和语义依存的知识图谱问答方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211342154.XA CN115455169B (zh) 2022-10-31 2022-10-31 一种基于词汇知识和语义依存的知识图谱问答方法和***

Publications (2)

Publication Number Publication Date
CN115455169A true CN115455169A (zh) 2022-12-09
CN115455169B CN115455169B (zh) 2023-04-18

Family

ID=84310971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211342154.XA Active CN115455169B (zh) 2022-10-31 2022-10-31 一种基于词汇知识和语义依存的知识图谱问答方法和***

Country Status (1)

Country Link
CN (1) CN115455169B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659058A (zh) * 2022-12-30 2023-01-31 杭州远传新业科技股份有限公司 问题生成的方法和装置
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457431A (zh) * 2019-07-03 2019-11-15 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN112364132A (zh) * 2020-11-12 2021-02-12 苏州大学 基于依存句法的相似度计算模型和***及搭建***的方法
CN113254659A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于知识图谱技术的档案研判方法及***
CN114090748A (zh) * 2021-11-04 2022-02-25 海信电子科技(武汉)有限公司 问答结果显示方法、装置、设备及存储介质
US20220198154A1 (en) * 2020-04-03 2022-06-23 Tencent Technology (Shenzhen) Company Limited Intelligent question answering method, apparatus, and device, and computer-readable storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457431A (zh) * 2019-07-03 2019-11-15 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
US20220198154A1 (en) * 2020-04-03 2022-06-23 Tencent Technology (Shenzhen) Company Limited Intelligent question answering method, apparatus, and device, and computer-readable storage medium
CN112364132A (zh) * 2020-11-12 2021-02-12 苏州大学 基于依存句法的相似度计算模型和***及搭建***的方法
CN113254659A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于知识图谱技术的档案研判方法及***
CN114090748A (zh) * 2021-11-04 2022-02-25 海信电子科技(武汉)有限公司 问答结果显示方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG, Y ET AL.: "MKGN: A Multi-Dimensional Knowledge Enhanced Graph Network for Multi-Hop Question and Answering", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 *
刘峰等: "基于Multi-head Attention和Bi-LSTM的实体关系分类", 《计算机***应用》 *
张翠等: "融合句法依存树注意力的关系抽取研究", 《广东通信技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659058A (zh) * 2022-12-30 2023-01-31 杭州远传新业科技股份有限公司 问题生成的方法和装置
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理***

Also Published As

Publication number Publication date
CN115455169B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN115455169B (zh) 一种基于词汇知识和语义依存的知识图谱问答方法和***
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN112149400B (zh) 一种数据处理方法、装置、设备及存储介质
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN115292457B (zh) 知识问答方法、装置、计算机可读介质及电子设备
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
US11170169B2 (en) System and method for language-independent contextual embedding
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN111177404A (zh) 家装知识的知识图谱构建方法、装置、计算机设备
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN115145980B (zh) 对话回复生成方法和装置、电子设备及存储介质
CN116467412A (zh) 一种基于知识图谱的问答方法、***和存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
CN114238715A (zh) 基于社会救助的问答***、构建方法、计算机设备及介质
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质
CN105808522A (zh) 一种语义联想的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant