CN113127623A - 一种基于混合专家模型和联合学习的知识库问题生成方法 - Google Patents

一种基于混合专家模型和联合学习的知识库问题生成方法 Download PDF

Info

Publication number
CN113127623A
CN113127623A CN202110490812.9A CN202110490812A CN113127623A CN 113127623 A CN113127623 A CN 113127623A CN 202110490812 A CN202110490812 A CN 202110490812A CN 113127623 A CN113127623 A CN 113127623A
Authority
CN
China
Prior art keywords
complex
question
relation
node
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110490812.9A
Other languages
English (en)
Inventor
陈佳敏
毕胜
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110490812.9A priority Critical patent/CN113127623A/zh
Publication of CN113127623A publication Critical patent/CN113127623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于混合专家模型和联合学习的知识库问题生成方法,主要用于给定知识图谱三元组子图、答案和复杂关系信息的情况下生成与给定三元组子图相关的,可被答案回答的,并且对应给定关系信息的、多样化的复杂自然语言表述问题。本发明使用图神经网络对输入三元组子图进行编码,得到输入子图的向量表示。使用Transformer网络进行解码,生成问题。在解码过程中结合复杂问题场景,使用隐变量建模有效表示关系的结构信息。此外使用混合专家模型,指导问题生成,提升生成问题的多样性。最后使用知识图谱问答任务与知识图谱问题生成任务联合训练,用于约束问题生成过程,使生成的问题包含期望的复杂关系信息,实现生成复杂问题的目的。

Description

一种基于混合专家模型和联合学习的知识库问题生成方法
技术领域
本发明属于自然语言处理领域,涉及一种基于混合专家模型和联合学习的知识库问题生成方法。
背景技术
近年来,随着人工智能的快速发展,自然语言处理技术得到了越来越广泛的关注。而问题生成(Question Generation,QG)作为自然语言理解的子任务,是自然语言处理更深层次的研究,对于人工智能技术发展有着重要推动作用。问题生成作为问答(QuestionAnswering,QA)任务的对偶任务,可以为QA任务生成高质量的训练数据集,实现FAQ(Frequently Asked Questions,常见问题解答)文档自动生成、自动辅导***(automatictutoring systems)实现。
问题生成任务根据给定的事实源输入(如文本、图片、知识库)和答案,生成自然语言表述的问题。知识图谱问题生成(Question Generation over Knowledge Base,KBQG)与一般 QG任务主要区别在于输入从知识库来的事实一般以三元组<主语,关系谓词,宾语>形式表示,根据给定答案生成自然语言表述的问题。如对于给定三元组<中国,首都,北京>,可以生成问题“中国的首都是哪个城市?”。知识图谱问题生成处理的结构化三元组信息,在搜索***中广泛使用,对比基于文本的问题生成任务有着更大的应用价值。
传统的问题生成方法通过使用规则、模板和人工标注等方式实现,这类方法需要大量的人力物力,需要一定的语言功底,无法用于大规模数据生成实现,而且通过模板生成的问题多样性不足,无法贴近真实应用场景。而随着深度学习技术的进步,特别是RNN等序列网络结构在机器翻译、文本摘要等序列到序列(sequence to sequence,seq2seq)任务取得优异表现,给问题生成方法带来很多思路启发。使用深度学习方法实现自动问题生成可以有效提高生成问题的多样性,因为不需要过多的人工参与,可以满足大规模使用。目前基于编码解码器框架的端到端深度学习模型在简单问题生成上已经取得了较好的效果,但是无法有效处理知识图谱问题生成涉及的复杂多跳关系场景。但是在知识图谱问题生成任务中,多跳问题十分普遍,如问题“中国首都的简称?”就涉及三元组<中国,首都,北京>和<北京,简称,京>,生成该问题,逻辑上需要考虑关系“首都”和“简称”。对于这种涉及多个三元组信息的多跳复杂问题生成,现有方法无法有效编码输入三元组子图信息,更重要的是无法约束问题生成过程,确保生成问题包含期望的多跳复杂关系。
基于现有知识图谱复杂问题生成方法存在的问题,本发明公开了一种基于混合专家模型的知识图谱复杂问题生成和问答联合学习方法,主要用于给定知识图谱三元组子图、答案和复杂关系信息的情况下生成与给定三元组子图相关的,可被答案回答的,并且对应给定关系信息的、多样化的复杂自然语言表述问题。
发明内容
技术问题:本发明要解决的技术问题在于针对知识图谱复杂问题生成的研究,难以有效生成包含复杂关系信息的问题,提供一种基于混合专家模型和联合学习的知识库问题生成方法。
技术方案:本发明解决其技术问题所采用的技术方案是:一种基于混合专家模型和联合学习的知识库问题生成方法。该方法使用知识图谱问答约束知识图谱问题生成过程,提升知识图谱问题生成获取复杂关系信息的能力,完成复杂问题生成的过程。知识图谱问题生成与问答都通过编码解码框架实现,其中问答的编码器、解码器都使用Transformer网络,而问题生成的编码器使用GraphTransformer网络。在解码过程中,结合混合专家模型,每一步模型都会先预测专家分布,再考虑到多跳复杂问题的关系之间的关系,综合预测生成问题或者进行关系预测。联合学习过程,方法认为针对同一条数据,在问答或者问题生成的过程中,参考人类逻辑思考的过程,两个任务涉及的关系信息应该是相同的,回到方法中就是两个任务解码过程应该经过类似的专家完成生成过程。而混合专家模型的使用,模型能够实现生成不同类型的问题,提升问题生成的多样性。
本发明的基于混合专家模型和联合学习的知识库问题生成方法分为三个模块,包括如下步骤:
a.知识图谱复杂问题生成模块
1)通过对输入三元组子图进行重构,实现从输入中编码得到复杂问题生成所需的复杂关系信息;
2)使用图神经网络GraphTransformer方法对重构后的输入三元组子图进行编码;
3)使用混合专家模型,预测专家选择不同的生成结果,提升生成问题的多样性;
4)使用隐变量建模关系的结构信息,实现对复杂关系的编码,指导复杂问题的生成;
5)使用Transformer网络,在关系结构编码信息和选择专家的指导下对编码结果进行解码,生成问题;
b.知识图谱复杂问题问答(KBQA)模块
6)使用Transformer对输入复杂问题进行编码;
7)使用混合专家模型选择不同的专家,指导完成问答的过程;
8)预测关系的层级依存关系,完成对复杂问题的复杂关系编码解析;
9)使用Transformer网络预测复杂问题对应的关系序列,完成问答过程;
c.联合学习模块
10)通过联合学习,知识图谱问答实现对知识图谱问题生成的约束,提升生成问题包含的复杂关系准确性,生成高质量的复杂问题。
进一步地,所述步骤1)的具体方法是:
对于输入三元组构成一个子图
Figure BDA0003052496640000031
其中V是实体节点集合,E是关系边集合,而该子图为带边权值图,对该带边权值图的子图进行重构,将带属性的关系边扩展成节点,然后通过无权置边链接实体节点和新扩展的关系节点,将该带边权值图子图重构为无权值边子图;更具体的,对于每一个关系边,扩展成两个节点,分别表示该关系的正向关系和逆向关系,然后通过正向有向边联通三元组的头实体节点、正向关系节点和尾实体节点,通过逆向有向边联通三元组的尾实体节点、逆向关系节点和头实体节点,同时额外增加一个全局节点,并与所有关系节点连接。
进一步地,所述步骤3)的具体方法是:
自定义有K个专家,问题生成的目标为最大化下式:
Figure BDA0003052496640000032
其中zq∈{1,…,K}表示模型选择的专家,G是输入子图,θq是知识图谱复杂问题生成模块模型参数,Q是目标生成的问题,p(.)表示括号内部分的概率。
进一步地,所述步骤4)中,
在解码器生成问题时使用隐变量
Figure BDA0003052496640000033
来表示时间步t生成词语是否属于一个新的短句,隐变量
Figure BDA0003052496640000034
计算式如下:
Figure BDA0003052496640000035
Figure BDA0003052496640000036
其中e0和e1是两个可训练的embedding表示,分别表示当前词语与上一个词属于一个文本短句,或者当前词语新起一个新的文本短句,
Figure BDA0003052496640000037
是选择步骤3)中选择专家 zq的向量表示,
Figure BDA0003052496640000038
是时间步t的隐藏状态,σ是sigmod激活函数,fc是全连接层Fully connectedlayer,v是经过编码器得到的解码器初始状态向量。
进一步地,所述步骤7)的具体方法是:自定义有K个专家,知识图谱复杂问题问答的目标为最大化下式:
Figure BDA0003052496640000041
其中zr∈{1,…,K}表示模型选择的专家,Q是输入复杂问题,θr是知识图谱复杂问题问答模块模型参数,R是目标得到的关系序列。
进一步地,所述步骤8)中,
预处理编码每一个问题涉及关系的树形依存关系,额外添加起始节点<h>和答案节点<a>,对所有节点编号;然后在复杂问题关系预测过程,引入隐变量表示每一个关系在树形结构中的父节点,计算公式如下:
Figure BDA0003052496640000042
其中
Figure BDA0003052496640000043
是步骤7)中选择专家zr的向量表示,
Figure BDA0003052496640000044
是时间步t的隐藏状态,σ是sigmod激活函数,
Figure BDA0003052496640000045
表示时间步t预测关系的父节点是编号为k的节点。
进一步地,所述步骤10)中,
知识图谱复杂问题生成中的专家zq和知识图谱复杂问题问答中对应的专家zr分别表示两个任务的复杂关系信息,表示向量相同,添加联合学习任务,最小化如下算式:
Figure BDA0003052496640000046
其中
Figure BDA0003052496640000047
Figure BDA0003052496640000048
分别为专家zr和zq的向量表示,JS是J-S散度(Jensen–ShannonDivergence)用以衡量两个分布之间的差异,此处用来度量
Figure BDA0003052496640000049
Figure BDA00030524966400000410
的差异;
综合步骤5)计算得到的知识图谱复杂问题问答任务损失
Figure BDA00030524966400000411
和步骤9)中知识图谱复杂问题生成任务损失
Figure BDA00030524966400000412
得到最终目标最小化如下损失函数:
Figure BDA00030524966400000413
通过最小化上述损失函数,通过知识图谱问答约束知识图谱问题生成包含复杂关系的复杂问题,通过隐变量对关系信息的编码保证复杂关系信息在两个任务交互,而混合专家模型的引入有效提升生成问题的多样性。
有益效果:本发明与现有技术相比,具有以下优点:
相比于其他的知识图谱问题生成方法,本方法考虑到了针对复杂问题情况,设计了一个联合学习方法,确保生成多关系复杂问题。另外,通过隐向量建模不同关系之间的层级关系,提高对复杂关系的解析与编码。最后,采用混合专家模型关系选择不同的专家指导问题的生成,确保了生成问题的多样性。
经过实验分析证明,本方法提出的联合学习方法和使用隐变量模型对关系的编码,有效提高的问题生成对复杂问题的处理能力,有效保证了生成问题的复杂性。另外,本方法使用混合专家模型,有效提高了生成问题的多样性,使方法在生成复杂问题时有更高的鲁棒性。
附图说明
图1是本发明的对顺序关系复杂问题实施示例;
图2是本发明中输入三元组子图重构示例;
图3是本发明中对树形关系复杂问题实施示例;
图4是本发明的模型框架图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于混合专家模型和联合学习的知识库问题生成方法,分为三个模块,包括以下几个步骤:
a.知识图谱复杂问题生成(KBQG)模块
1)通过对输入三元组子图进行重构,更有效的实现从输入中编码得到复杂问题生成所需的多跳关系信息;
如图1所示,输入子图是由多个三元组构成,每个三元组可以表示为 <subject,predicate,object>,分别表示主语、谓语、宾语,如图1示例所示,包含三元组<edith_craig,parents,edward_william_godwin>和<edward_william_godwin, profession,architect>。输入三元组主语和宾语作为实体(entity)节点,而关系(谓语)作为边链接实体节点,构成一个子图
Figure BDA0003052496640000051
其中V是实体节点集合,E是关系边集合。
本方法解决的复杂问题,包含多个关系,涉及的子图会比较复杂,以往基于 RNN网络和Transformer编码的方法将所有三元组拼接成一个序列进行编码处理,无法有效保留子图不同三元组之间的拓扑结构关系,不能有效应对知识图谱复杂问题场景。本方法采用图神经网络对三元组子图G进行编码,而图神经网络无法处理带边权值图,以往的方法通常是将关系边扩展成节点,这样子图的边就是无权值边。
而考虑到关系信息的可逆传递,加速图节点信息的传递,本方法将关系节点扩展为一对节点,分别表示正逆关系。此外,本方法需要有效对复杂关系进行编码,为此引入一个全局节点链接所有关系节点,一方面进一步加速不同节点之间信息交换,另一方面聚集关系信息,作为编码层的输入,能有效让模型学习到对复杂问题最重要的关系信息,不会过多受实体节点信息影响。
子图重构的示例图如图2所示,对于三元组<V1,R12,V2>和<V2,R23,V3>,V1、 V2和V3都是实体节点,R12和R23是链接实体节点的关系边,原始如2左侧所示。重构后的子图如图2右侧所示,g是新添加的全局关系节点,R21是关系R12的逆关系,R32同理。重构后的子图联通所有节点,V1节点的信息可以通过正向关系传递到V3,V3节点的信息也可以通过逆向关系传递到V1。同时全局节点g联通所有节点,能够加速信息的交互。
2)使用图神经网络GraphTransformer方法对重构后的输入三元组子图进行编码;
重构后的子图可以表示为
Figure BDA0003052496640000061
其中V={v1,v2,…,vN},N是节点的数目,V1是全局关系节点。
Figure BDA0003052496640000062
是邻接矩阵,记录子图N个节点之间的联通关系。此外输入给定答案a是节点列表中节点,通过one-hot处理可以得到答案向量,节点列表V经过embedding层得到向量表示与答案向量 embedding表示相加得到节点表示
Figure BDA0003052496640000063
然后通过一个多层 GraphTransformer编码,每一个节点向量表示迭代过程如下所示:
Figure BDA0003052496640000064
Figure BDA0003052496640000065
其中i表示第i个节点,l表示经过第l层图神经网络后得到的向量表示,
Figure BDA0003052496640000066
是节点vi的邻居节点集合,这个可以通过邻接矩阵E得到,W是一个可训练的变量,a是注意力机制计算函数,本方法通过线性层实现。
最终经过图神经网络GraphTransformer编码后的N个节点表示为 H={h1,h2,…,hN},本方法将聚集了整个子图所有信息,特别是关系信息的全局节点表示h1作为后续解码层的初始状态输入v=h1
3)使用混合专家模型,预测专家选择不同的生成结果,提升生成问题的多样性;
问题生成的目标是生成问句Q=(q1,…,qTq),其中Tq是问句的长度,解码器生成问句的目标是最大化如下概率分布:
Figure BDA0003052496640000071
其中θq是模型的参数,混合专家模型假设预测过程有一个隐藏专家进行指导,不同的专家有着自己的偏好,如有的更倾向于生成多跳复杂问题,有的倾向于生成简单问题。方法自定义有K个专家,那么方法的目标从式(1)转变为最大化下式:
Figure BDA0003052496640000072
模型选择一个专家zq∈{1,…,K},并在zq的指导下生成问题Q。
计算公式如下:
p(zq∣G;θq)=softmax(fc(v))(3)
其中fc是全连接层(Fully connected layer),v是经过编码器得到的解码器初始状态向量,softmax是激活函数。
4)使用隐变量建模关系的结构信息,实现对复杂关系的编码,指导复杂问题的生成;
问题生成解码过程逐词预测直至生成完整的句子,如图1中的示例,解码过程线预测生成“what”,再根据这个结果预测下一个词“is”。在解码过程中,复杂关系对应的生成词之间有明显的跳转,“occupation of”和“father of”可以看作两个文本范围,这种两个文本范围之间的跳转本方法通过使用隐变量
Figure BDA0003052496640000073
来计算:
Figure BDA0003052496640000074
Figure BDA0003052496640000075
其中e0和e1是两个可训练的embedding表示,分别表示当前词语与上一个词属于一个文本整体,或者当前词语新起一个新的文本范围,
Figure BDA0003052496640000076
是选择专家zq的向量表示,
Figure BDA0003052496640000077
是时间步t的隐藏状态,其中初始状态为编码器得到的全局关系节点表示
Figure BDA0003052496640000078
σ是sigmod激活函数。
5)使用Transformer网络,在关系结构编码信息和选择专家的指导下对编码结果进行解码,生成问题。
如步骤3)中所说,问题生成的目标就是最大化算式(2),其中p(zq∣G;θq) 如算式(3)过程计算得到,而另一部分通过如下算式计算:
Figure BDA0003052496640000081
最终模型的目标就是最小化如下损失函数:
Figure BDA0003052496640000082
b.知识图谱复杂问题问答(KBQA)模块
知识图谱复杂问题问答回答给定问题得出结果,一般包括命名实体识别、实体链接、关系抽取和排序打分等过程,而其中关系抽取在整个任务起着主导作用,复杂问题场景,复杂性主要体现在多关系上,所以本方法将知识图谱问答任务简化成关系抽取任务,而这种处理在相关的领域中有多个工作使用。
6)使用Transformer对输入复杂问题进行编码;
输入问题文本q=(q1,…,qTq),其中Tq是问句的长度,经过embedding表示得到问题表示Q={h1,h2,…,hTq},Transformer网络包括multi-head层、 self-attention层、FFN层,对问题编码过程公式如下所示:
首先通过Multi-head层:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中WO是可训练变量,K=V=Q,
Figure BDA0003052496640000083
而Attention函数就是self-attention层:
Figure BDA0003052496640000084
其中dk是向量K的维度。
通过self-attention层后,得到问题的向量表示h,再通过FFN层:
FFN(h)=max(0,hW1+b1)W2+b2
W1和W2是可训练矩阵变量,b1和b2可训练偏置。
7)使用混合专家模型选择不同的专家,指导完成问答的过程;
知识图谱复杂问题问答简化成关系抽取任务,该任务目标预测得到关系序列R=(r1,r2,…,rTr),其中1<Tr≤nr
Figure BDA0003052496640000091
nr是关系数目。
类似于步骤3),使用混合专家模型假设预测过程有一个隐藏专家进行指导,不同的专家有着自己的偏好,定义专家个数为K,知识图谱复杂问题问答任务的目标就是最大化下式:
Figure BDA0003052496640000092
模型选择一个专家zr∈{1,…,K},并在zr的指导下预测关系R。
计算公式如下:
p(zr∣Q;θr)=softmax(fc(h))
其中fc是全连接层(Fully connected layer),h是问题Q经过编码器得到的向量表示,softmax是激活函数。
8)预测关系的层级依存关系,完成对复杂问题的复杂关系编码解析;
不同关系存在一定的依存关系,如图1和图3,预测关系结果分别为 [parents,profession]和[form_of_government,administrative_divisions],如图1 中P1所示,两个关系为在逻辑上为顺序链式关系,而图3中示例两个关系如 P2所示,为并列关系。本方法预处理编码关系的树形依存关系,额外添加起始节点<h>和答案节点<a>,对所有节点编号。然后在复杂问题关系预测过程,引入隐变量表示每一个关系在树形结构中的父节点,计算公式如下:
Figure BDA0003052496640000093
其中
Figure BDA0003052496640000094
是选择专家zr的向量表示,
Figure BDA0003052496640000095
是时间步t的隐藏状态,σ是sigmod 激活函数,
Figure BDA0003052496640000096
表示时间步t预测关系的父节点是编号为k的节点。
9)使用Transformer网络预测复杂问题对应的关系序列,完成问答过程。
在每个时间步,在专家zr指导下对问题Q进行关系抽取得到关系rt,目标最小化如下损失函数:
Figure BDA0003052496640000097
其中
Figure BDA0003052496640000098
的计算如步骤8)中(5)式,
Figure BDA0003052496640000099
表示时间步t预测的关系rt的父节点是否为编码为i的节点,θr是模型参数。
c.联合学习模块
10)通过联合学习,知识图谱问答实现对知识图谱问题生成的约束,提升生成问题包含的复杂关系准确性,生成高质量的复杂问题。
方法认为知识图谱复杂问题生成中的专家zq和知识图谱复杂问题问答中对应的专家zr对于同一个问题的思考逻辑是一致的,向量表示相同,为此,联合学习过程需要最小化如下算式:
Figure BDA0003052496640000101
其中
Figure BDA0003052496640000102
Figure BDA0003052496640000103
分别为专家zr和zq的向量表示,JS是J-S散度 (Jensen–ShannonDivergence)用以衡量两个分布之间的差异,此处用来度量
Figure BDA0003052496640000104
Figure BDA0003052496640000105
的差异。
最终综合步骤5)中(4)式和步骤9)中(6)式,方法目标最小化如下损失函数:
Figure BDA0003052496640000106
通过最小化上述损失函数,可以通过知识图谱问答约束知识图谱问题生成包含复杂关系的复杂问题,通过隐变量对关系信息的编码保证复杂关系信息在两个任务交互,而混合专家模型的引入有效提升生成问题的多样性。相比于其他的知识图谱问题生成方法,本方法考虑到了针对复杂问题情况,设计了一个联合学习方法,确保生成多关系复杂问题。另外,通过隐向量建模不同关系之间的层级关系,提高对复杂关系的解析与编码。最后,采用混合专家模型关系选择不同的专家指导问题的生成,确保了生成问题的多样性。
经过实验分析证明,本方法提出的联合学习方法和使用隐变量模型对关系的编码,有效提高的问题生成对复杂问题的处理能力,有效保证了生成问题的复杂性。另外,本方法使用混合专家模型,有效提高了生成问题的多样性,使方法在生成复杂问题时有更高的鲁棒性。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (7)

1.一种基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,该方法分为三个模块,包括如下步骤:
a.知识图谱复杂问题生成模块
1)通过对输入三元组子图进行重构,实现从输入中编码得到复杂问题生成所需的复杂关系信息;
2)使用图神经网络GraphTransformer方法对重构后的输入三元组子图进行编码;
3)使用混合专家模型,预测专家选择不同的生成结果,提升生成问题的多样性;
4)使用隐变量建模关系的结构信息,实现对复杂关系的编码,指导复杂问题的生成;
5)使用Transformer网络,在关系结构编码信息和选择专家的指导下对编码结果进行解码,生成问题;
b.知识图谱复杂问题问答(KBQA)模块
6)使用Transformer对输入复杂问题进行编码;
7)使用混合专家模型选择不同的专家,指导完成问答的过程;
8)预测关系的层级依存关系,完成对复杂问题的复杂关系编码解析;
9)使用Transformer网络预测复杂问题对应的关系序列,完成问答过程;
c.联合学习模块
10)通过联合学习,知识图谱问答实现对知识图谱问题生成的约束,提升生成问题包含的复杂关系准确性,生成高质量的复杂问题。
2.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤1)的具体方法是:
对于输入三元组构成一个子图
Figure FDA0003052496630000011
其中V是实体节点集合,E是关系边集合,而该子图为带边权值图,对该带边权值图的子图进行重构,将带属性的关系边扩展成节点,然后通过无权置边链接实体节点和新扩展的关系节点,将该带边权值图子图重构为无权值边子图;更具体的,对于每一个关系边,扩展成两个节点,分别表示该关系的正向关系和逆向关系,然后通过正向有向边联通三元组的头实体节点、正向关系节点和尾实体节点,通过逆向有向边联通三元组的尾实体节点、逆向关系节点和头实体节点,同时额外增加一个全局节点,并与所有关系节点连接。
3.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤3)的具体方法是:
自定义有K个专家,问题生成的目标为最大化下式:
Figure FDA0003052496630000021
其中zq∈{1,…,K}表示模型选择的专家,G是输入子图,θq是知识图谱复杂问题生成模块模型参数,Q是目标生成的问题,p(.)表示括号内部分的概率。
4.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤4)中,
在解码器生成问题时使用隐变量
Figure FDA0003052496630000022
来表示时间步t生成词语是否属于一个新的短句,隐变量
Figure FDA0003052496630000023
计算式如下:
Figure FDA0003052496630000024
Figure FDA0003052496630000025
其中e0和e1是两个可训练的embedding表示,分别表示当前词语与上一个词属于一个文本短句,或者当前词语新起一个新的文本短句,
Figure FDA0003052496630000026
是选择步骤3)中选择专家zq的向量表示,
Figure FDA0003052496630000027
是时间步t的隐藏状态,σ是sigmod激活函数,fc是全连接层Fully connected layer,v是经过编码器得到的解码器初始状态向量。
5.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤7)的具体方法是:自定义有K个专家,知识图谱复杂问题问答的目标为最大化下式:
Figure FDA0003052496630000028
其中zr∈{1,…,K}表示模型选择的专家,Q是输入复杂问题,θr是知识图谱复杂问题问答模块模型参数,R是目标得到的关系序列。
6.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤8)中,
预处理编码每一个问题涉及关系的树形依存关系,额外添加起始节点<h>和答案节点<a>,对所有节点编号;然后在复杂问题关系预测过程,引入隐变量表示每一个关系在树形结构中的父节点,计算公式如下:
Figure FDA0003052496630000029
其中
Figure FDA0003052496630000031
是步骤7)中选择专家zr的向量表示,
Figure FDA0003052496630000032
是时间步t的隐藏状态,σ是sigmod激活函数,
Figure FDA0003052496630000033
表示时间步t预测关系的父节点是编号为k的节点。
7.根据权利要求书1所述的基于混合专家模型和联合学习的知识库问题生成方法,其特征在于,所述步骤10)中,
知识图谱复杂问题生成中的专家zq和知识图谱复杂问题问答中对应的专家zr分别表示两个任务的复杂关系信息,表示向量相同,添加联合学习任务,最小化如下算式:
Figure FDA0003052496630000034
其中
Figure FDA0003052496630000035
Figure FDA0003052496630000036
分别为专家zr和zq的向量表示,JS是J-S散度(Jensen–ShannonDivergence)用以衡量两个分布之间的差异,此处用来度量
Figure FDA0003052496630000037
Figure FDA0003052496630000038
的差异;
综合步骤5)计算得到的知识图谱复杂问题问答任务损失
Figure FDA0003052496630000039
和步骤9)中知识图谱复杂问题生成任务损失
Figure FDA00030524966300000310
得到最终目标最小化如下损失函数:
Figure FDA00030524966300000311
通过最小化上述损失函数,通过知识图谱问答约束知识图谱问题生成包含复杂关系的复杂问题,通过隐变量对关系信息的编码保证复杂关系信息在两个任务交互,而混合专家模型的引入有效提升生成问题的多样性。
CN202110490812.9A 2021-05-06 2021-05-06 一种基于混合专家模型和联合学习的知识库问题生成方法 Pending CN113127623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110490812.9A CN113127623A (zh) 2021-05-06 2021-05-06 一种基于混合专家模型和联合学习的知识库问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110490812.9A CN113127623A (zh) 2021-05-06 2021-05-06 一种基于混合专家模型和联合学习的知识库问题生成方法

Publications (1)

Publication Number Publication Date
CN113127623A true CN113127623A (zh) 2021-07-16

Family

ID=76781392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110490812.9A Pending CN113127623A (zh) 2021-05-06 2021-05-06 一种基于混合专家模型和联合学习的知识库问题生成方法

Country Status (1)

Country Link
CN (1) CN113127623A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590782A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
CN113590844A (zh) * 2021-08-09 2021-11-02 北京智源人工智能研究院 一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质
CN115034221A (zh) * 2022-05-27 2022-09-09 重庆邮电大学 基于BiLSTM结合全局指针的重叠关系抽取***
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115829033A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 数学应用题知识构建与解答方法、***、设备及存储介质
WO2024119831A1 (zh) * 2022-12-08 2024-06-13 浙江极氪智能科技有限公司 问题生成方法、生成装置及计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125333A (zh) * 2019-06-06 2020-05-08 北京理工大学 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质
KR102194837B1 (ko) * 2020-06-30 2020-12-23 건국대학교 산학협력단 지식기반 질문 응답 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125333A (zh) * 2019-06-06 2020-05-08 北京理工大学 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
KR102194837B1 (ko) * 2020-06-30 2020-12-23 건국대학교 산학협력단 지식기반 질문 응답 방법 및 장치
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔振浩 等: "基于问题生成的知识图谱问答方法", 智能计算机与应用, vol. 10, no. 5, 1 May 2020 (2020-05-01), pages 1 - 5 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590782A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
CN113590782B (zh) * 2021-07-28 2024-02-09 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
CN113590844A (zh) * 2021-08-09 2021-11-02 北京智源人工智能研究院 一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质
CN115034221A (zh) * 2022-05-27 2022-09-09 重庆邮电大学 基于BiLSTM结合全局指针的重叠关系抽取***
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115269807B (zh) * 2022-08-17 2023-06-30 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
WO2024119831A1 (zh) * 2022-12-08 2024-06-13 浙江极氪智能科技有限公司 问题生成方法、生成装置及计算机设备和存储介质
CN115829033A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 数学应用题知识构建与解答方法、***、设备及存储介质
CN115829033B (zh) * 2023-02-02 2023-06-20 中国科学技术大学 数学应用题知识构建与解答方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113127623A (zh) 一种基于混合专家模型和联合学习的知识库问题生成方法
Hong et al. Cogvideo: Large-scale pretraining for text-to-video generation via transformers
CN111538848B (zh) 一种融合多源信息的知识表示学习方法
CN112288091A (zh) 基于多模态知识图谱的知识推理方法
CN111930906A (zh) 基于语义块的知识图谱问答方法及装置
Cai et al. Learning path recommendation based on knowledge tracing model and reinforcement learning
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
CN115687638A (zh) 基于三元组森林的实体关系联合抽取方法及***
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
CN111507070A (zh) 自然语言生成方法和装置
Zhang et al. Curriculum learning for vision-and-language navigation
Zou et al. A survey on VQA: Datasets and approaches
CN115964459B (zh) 基于食品安全认知图谱的多跳推理问答方法及***
CN116821294A (zh) 一种基于隐式知识反刍的问答推理方法和装置
CN115762659A (zh) 融合smiles序列和分子图的分子预训练表示方法及***
CN113887471B (zh) 基于特征解耦和交叉对比的视频时序定位方法
CN114398500A (zh) 一种基于图增强预训练模型的事件预测方法
Zhang et al. From what to why: Improving relation extraction with rationale graph
CN111831829A (zh) 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111382871A (zh) 基于数据扩充一致性的领域泛化和领域自适应学习方法
Zheng et al. Relevant CommonSense Subgraphs for" What if..." Procedural Reasoning
CN115564049A (zh) 一种双向编码的知识图谱嵌入方法
CN114840679A (zh) 一种基于乐理知识图谱推理的机器人智能导学方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Bi Sheng

Inventor after: Chen Jiamin

Inventor after: Lu Gui Lin

Inventor before: Chen Jiamin

Inventor before: Bi Sheng

Inventor before: Lu Gui Lin

CB03 Change of inventor or designer information