CN106934012B - 一种基于知识图谱的自然语言问答实现方法和*** - Google Patents

一种基于知识图谱的自然语言问答实现方法和*** Download PDF

Info

Publication number
CN106934012B
CN106934012B CN201710139458.9A CN201710139458A CN106934012B CN 106934012 B CN106934012 B CN 106934012B CN 201710139458 A CN201710139458 A CN 201710139458A CN 106934012 B CN106934012 B CN 106934012B
Authority
CN
China
Prior art keywords
probability
template
value
entity
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710139458.9A
Other languages
English (en)
Other versions
CN106934012A (zh
Inventor
崔万云
梁家卿
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuyan Technology Development Co ltd
Original Assignee
Shanghai Shuyan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuyan Technology Development Co ltd filed Critical Shanghai Shuyan Technology Development Co ltd
Priority to CN201710139458.9A priority Critical patent/CN106934012B/zh
Publication of CN106934012A publication Critical patent/CN106934012A/zh
Application granted granted Critical
Publication of CN106934012B publication Critical patent/CN106934012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的自然语言问题实现方法和***,包括:在线部分模块,其中,所述在线部分模块,包括:复杂问题解析单元,用于接受用户提出自然语言问题,并对问题进行解析,如果问题是复杂性问题,则将其分解为一系列的二元事实型问题;概率推导单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率;知识图谱查询单元,用于从从预先训练的知识图谱中找到并返回答案。本发明以知识图谱为知识来源,以问题模板为表示问题、理解问题的基本单元,可以直线快速、准确的自然语言问题回答。

Description

一种基于知识图谱的自然语言问答实现方法和***
技术领域
本发明属于一种基于知识图谱的自然语言问答实现方法和***。
背景技术
用于回答自然语言问题的问答(QA)***已经在信息检索和自然语言领域吸引了大量的研究。QA***通常被设计成能够回答一类特定问题的***。例如,回答事实型问题是一个相对更容易实现的目标,也因此吸引了研究者的更多精力。事实型的问题是询问与客观事实相关的实体信息。一个典型的事实型问题的例子是二元事实型问题,如“how manypeople are there in Honolulu?”。二元事实型问题在询问一个实体(例如,Honolulu)中一个属性(例如,population)的值。二元事实型问题是很重要的,因为掌握二元事实型问题是回答更多复杂问题的第一步。很多的复杂事实型问题,如:1、)排名问题:“which cityhas the 3rd largest population?”;2、)比较问题:“which city has more people,Honolulu or New Jersey?”;3、)列举问题:“list the top 10 cities ordered”等,这些问题都只有在二元事实型问答得以解决后才能进行回答。因此,二元事实型问题的问答将是本问题的核心。
事实型问题也常被表述成更为复杂的形式,如“when was Barack Obama’s wifeborn?”。我们将这些问题归为复杂事实型问题(简称复杂问题)。如果我们能回答分别回答“Barack Obama’s wife”和“when was$e was born?”,那么我们也能回答刚才所说的问题。进一步说,一个复杂问题能够被分解成一系列的二元事实型问题。复杂问题也是我们关注的焦点。
一个QA***相当依赖于资料库的质量。过去的QA***都是构建于并未结构化的文本数据。最近几年诞生了许多大规模结构化的知识库,如谷歌的Knowledge Graph,Freebase,和YAGO2。大多数的此类知识库采用了RDF作为知识的表示形式。换而言之,他们包含了数以百万级甚至亿级的SPO三元组(S、P、O分别表示subject,predicate和object)。比如说下图表示一个迷你知识库,包含了(a;name;Barack Obama),(a;marriage;b),(b;person;c)等知识。
发明内容
本发明所要解决的技术问题是提供一种基于知识图谱的自然语言问答实现***和方法。
本发明解决上述技术问题所采取的技术方案如下:
一种基于知识图谱的自然语言问答实现***,包括:在线部分模块,其中,所述在线部分模块,包括:
复杂问题解析单元,用于接受用户提出自然语言问题,并对问题进行解析,如果问题是复杂性问题,则将其分解为一系列的二元事实型问题;
概率推导单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率;
知识图谱查询单元,用于从从预先训练的知识图谱中找到并返回答案。
优选的是,还包括:离线部分模块,所述离线部分模块,具体包括:
知识图谱属性扩展单元,用于将知识图谱中的属性做扩展,以学习到更为复杂的属性形式;
模板抽取和属性学习单元,用于学习从问题模板到属性的转移概率,即P(P|T),计算概率最大的属性;
实体与值识别单元,用于对QA语料中的qa对提取其实体和值。
优选的是,知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性和噪声。
优选的是,所述概率推到单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率,具体包括:
给定一个知识图谱K和一个新问题q,我们的目标是找到该问题最有可能的值v,即:
argmaxvP(V=v|Q=q)
其中。大写字母来表示随机变量,小写字母表示随机变量的具体取值;
其中,给定问题,它从问题中解析出实体e,这被表示为P(e|q);
它使用实体和问题来产生模板,这一概率被表示为P(t|q,e);
模板产生器对应属性P(p|t);
最终,给定实体e和属性p,KBQA就可以得到对应值的概率P(v|e,p),并且返回概率最大的v作为答案a。
优选的是,还包括:
给定问题q,首先识别其q,具体通过目前世界领先的entity identification工具stanford NER来进行这一过程,
在这一过程之后,得以得到q的实体集合E(q)={e1,e2,…,en},每一个ei都有一致的概率分布,也就是说,
Figure GDA0002333245420000031
将利用问题和实体转化为模板T,这一过程的概率表示为P(T|Q,E),具体包括:给定实体E=e和问题Q=q,利用上下文相关的概念化工具得到其category分布P(C|E=e)。一个模板的概率也就等同于实体e它对应的categoryc的概率:
P(t|q,e)=P(c|q,e);
通过P(E|Q)和P(T|Q,E),将q转换到一个模板上;
最终,得到问题的实体E和属性P,这样我们通过概率P(V|E,P)来最终确定返回值V。
优选的是,给定E=e和P=p,借助知识图谱,我们可以找到值v使得(e,p,v)∈K,我们将这些和条件的v称为V(e,p);
如果V(e,p)只有一个值,则显然所有的概率都应该分配到这个值上面。而如果V(e,p)有多个值的时候,也就是说这个属性并不是一个唯一属性的时候,我们给所有这些值相同的概率,更严格的,设V(e,p)={v|(e,p,v)∈K},则有
Figure GDA0002333245420000041
根据以上的概率分析和概率图,我们现在已经可以计算P(V|Q=q):
Figure GDA0002333245420000042
优选的是,从Yahoo!Answers的问答数据中学习概率图模型中的转移概率。
优选的是,P(P|T)的概率学习具体包括:
步骤一:entity-value抽取:首先,我们从答案中抽取有用的答案信息value,而忽略那些无用的单词。我们只考虑和问题中的实体在知识图谱中存在关联的value,即对于问答对(qi,ai),它的entity-value集合为:
Figure GDA0002333245420000043
这里的
Figure GDA0002333245420000047
表示字符串子串;
步骤二:似然函数:现在计算对于概率,观测到这些问答对的概率:
Figure GDA0002333245420000044
,这里
Figure GDA0002333245420000045
被考虑为一个常数,对于P(P|T)的估计,本质上是在最大化这个似然函数。
步骤三:最大似然估计:我们将P(P|T)作为参数θ,它的对应的似然函数值为L(θ),这样我们估计θ为:
Figure GDA0002333245420000046
步骤四:EM算法:我们构建Q-function如下。这里$h(\theta^{(s)})$是第s轮估计中的参数值:
Figure GDA0002333245420000051
已经证明Q-function是L(θ)的下界,我们通过迭代的EM算法最大化Q(θ;θ(s))来最大化L(θ)。
EM算法包括E步骤和M步骤,在E步骤中,计算Q(θ;θ(s))的每个值如下:
Figure GDA0002333245420000052
在M步骤中,通过拉格朗日乘数法最大化$\theta_{pt}^{(s+1)}$如下:
Figure GDA0002333245420000053
一种基于知识图谱的自然语言问答实现方法,包括:
步骤1)接受用户提出自然语言问题;
步骤2)对于复杂问题,转化为一系列二元简单问题;
步骤3)将问题转化为问题模板,包括:将问题中的实体转化为对应概念;
步骤4)利用离线部分学习到的问题模板到属性的转移概率P(P|T),计算概率最大的属性;
步骤5)在知识图谱中,识别该实体(Honolulu)和属性(population)对应的值,并将该值反馈给用户。
本发明是针对自然语言自动问答***,利用知识图谱作为答案来源,提出一种基于问题模板的自然语言问答方法,并利用现有的问答语料对属性进行模板抽取工作,以解决问题理解和回答中的挑战。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明的基于知识图谱的自然语言问答实现***的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明是针对自然语言自动问答***,利用知识图谱作为答案来源,提出一种基于问题模板的自然语言问答方法,并利用现有的问答语料对属性进行模板抽取工作,以解决问题理解和回答中的挑战。
首先,为了方便说明,我们在下表中列出了一些本专利用到的标记。
Figure GDA0002333245420000061
Figure GDA0002333245420000071
二元事实型问题我们主要精力集中在二元事实型问题上。所以二元事实型问题,指的是一个问题是在问某一实体的具体属性值。我们将问题q中实体表示为E(q)。例如,对于问题q=”WhenwasBarackObamaborn?”,我们有E(q)={a},表示图1中的实体”BarackObma”。为了简单起见,我们假设每个实体只有一个名字,用
Figure GDA0002333245420000072
表示。这种表示可以很容易的扩展到一个实体有多个名字的情况。
RDF型知识图谱给定一个问题,我们在RDF型知识图谱中寻找它的答案。一个RDF型知识图谱K是一系列(s,p,o)三元组的集合,spo分别表示subject(主语),predicte(谓词),object(宾语)。我们可以通过一个带标记的有向图来表示该RDF知识图谱。每个(s,p,o)被表示为一条从s到o的有向边,边标记为p。对于一个简单的RDF知识图谱的表示。,有一条从a伸向1961的边,标记为dob(dateofbirth,出生日期)。这条边表示了奥巴马的出生日期是1961年。
QA语料我们从QA语料中学习问题模板。该QA语料从Yahoo!Answer爬取得来。我们将该语料表示为QA={(q1,a1),(q2,a2),...,(qn,an)},这里qi是一个问题而ai是该问题的答案。
Template(模板)我们从一个问题q中提取其模板t。提取的方式是将问题的实体$e\inE(q)$用e的一个categoryc取代。我们将之表示为$t=q.R(\bar{e},c)$。当然一个实体可能有多个category,所以一个问题也可能对应多个模板。例如在图1中,a有两个category:C(a)={$Person,$Politician},这样问题”WhenwasBarackObamaborn?”的两个模板就是”Whenwas$Person born?”和”Whenwas$Politicianborn?”。
如图1,我们将***整体分为了两部分:在线部分和离线部分。
在线部分:当一个问题到来时,我们首先对问题进行解析。如果问题是复杂性问题,则将其分解为一系列的二元事实型问题。然后对于每一个二元事实型问题,我们用概率推算的方法来找到它的值。该概率推算过程用到了P(P|T),即已知template,对应predicate的概率。
离线部分:离线部分的主要目标就是学习从模板到属性的映射,即P(P|T)。而在此之前呢,我们首先会做两件事。首先,我们将知识图谱中的属性做扩展,这样我们可以学习到更为复杂的属性形式(例如,marriage-person-name在图1中表示属性“配偶”)。第二,我们对QA语料中的qa对提取其实体和值。
具体来说,一种基于知识图谱的自然语言问答实现***,包括:在线部分模块,其中,所述在线部分模块,包括:
复杂问题解析单元,用于接受用户提出自然语言问题,并对问题进行解析,如果问题是复杂性问题,则将其分解为一系列的二元事实型问题;
概率推导单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率;
知识图谱查询单元,用于从从预先训练的知识图谱中找到并返回答案。
基于知识图谱的自然语言问答实现***还包括:离线部分模块,所述离线部分模块,具体包括:
知识图谱属性扩展单元,用于将知识图谱中的属性做扩展,以学习到更为复杂的属性形式;
模板抽取和属性学习单元,用于学习从问题模板到属性的转移概率,即P(P|T),计算概率最大的属性;
实体与值识别单元,用于对QA语料中的qa对提取其实体和值。
接下来我们讲解***每一部分的具体实施方式。
概率推算
首先,我们讲解概率推算部分,即上表中的Probabilistic Inferencing部分。这一部分主要是推算一个给定问题在知识图谱中对应的值。我们知道,知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性、噪声等。所以我们用概率来表示这一问题。
问题定义一:给定一个知识图谱K和一个新问题q,我们的目标是找到该问题最有可能的值v,即
argmaxvP(V=v|Q=q)
这里,我们用大写字母来表示随机变量,用小写字母表示随机变量的具体取值。本文的其它部分也都会如此。
为了解决问题一,我们的***使用了生成模型来描述一个问答对是如何产生的,其概率图如上表示。首先,给定问题,它从问题中解析出实体e,这被表示为P(e|q)。第二,它使用实体和问题来产生模板,这一概率被表示为P(t|q,e)。第三,模板产生器对应属性P(p|t)。最终,给定实体e和属性p,KBQA就可以得到对应值的概率P(v|e,p),并且返回概率最大的v作为答案a。这样就是一套完整的QA对产生过程。
下面对每一概率模块作具体说明。
P(E|Q)
给定问题q,***首先识别其q。我们使用目前世界领先的entity identification工具stanford NER来进行这一过程。在这一过程之后,我们得以得到q的实体集合E(q)={e1,e2,…,en}。每一个ei都有一致的概率分布,也就是说,
Figure GDA0002333245420000101
P(T|Q,E)
***将利用问题和实体转化为模板T,这一过程的概率表示为P(T|Q,E)。给定实体E=e和问题Q=q,我们可以利用上下文相关的概念化工具得到其category分布P(C|E=e)。一个模板的概率也就等同于实体e它对应的category c的概率
P(t|q,e)=P(c|q,e)
P(P|T)
通过P(E|Q)和P(T|Q,E),我们已经将q转换到一个模板上。这一概率的计算将在下面的EM算法中说明。
P(V|E,P)
最终,我们得到了问题的实体E和属性P,这样我们通过概率P(V|E,P)来最终确定返回值V。
给定E=e和P=p,借助知识图谱,我们可以找到值v使得(e,p,v)∈K,我们将这些和条件的v称为V(e,p)。如果V(e,p)只有一个值,则显然所有的概率都应该分配到这个值上面。而如果V(e,p)有多个值的时候,也就是说这个属性并不是一个唯一属性的时候,我们给所有这些值相同的概率。更严格的,设V(e,p)={v|(e,p,v)∈K},则有
Figure GDA0002333245420000102
根据以上的概率分析和概率图,我们现在已经可以计算P(V|Q=q)了:
Figure GDA0002333245420000103
P(P|T)
我们从Yahoo!Answers的问答数据中学习概率图模型中的转移概率。由上面的讨论中,其它概率转换已经可以被直接计算,只剩下P(P|T)。现在讲详细描述P(P|T)的概率学习。
步骤一:entity-value抽取:首先,我们从答案中抽取有用的答案信息value,而忽略那些无用的单词。我们只考虑和问题中的实体在知识图谱中存在关联的value,即对于问答对(qi,ai),它的entity-value集合为:
Figure GDA0002333245420000111
这里的
Figure GDA0002333245420000116
表示字符串子串。
更进一步的,我们只考虑那些和问题类型一致的value。例如当问题在询问地点,则只考虑地点作为value。
步骤二:似然函数:现在计算对于概率,观测到这些问答对的概率。
Figure GDA0002333245420000112
,这里
Figure GDA0002333245420000113
被考虑为一个常数。对于P(P|T)的估计,本质上是在最大化这个似然函数。
步骤三:最大似然估计:我们将P(P|T)作为参数θ,它的对应的似然函数值为L(θ),这样我们估计θ为:
Figure GDA0002333245420000114
步骤四:EM算法:我们构建Q-function如下。这里$h(\theta^{(s)})$是第s轮估计中的参数值。
Figure GDA0002333245420000115
已经证明Q-function是L(θ)的下界。我们通过迭代的EM算法最大化Q(θ;θ(s))来最大化L(θ)。
EM算法包括E步骤和M步骤。在E步骤中,计算Q(θ;θ(s))的每个值如下:
Figure GDA0002333245420000121
在M步骤中,通过拉格朗日乘数法最大化$\theta_{pt}^{(s+1)}$如下:
Figure GDA0002333245420000122
属性扩展
实际上,知识图谱中有许多的事实并不是由直接的一条边表示的,而是由一条路径。例如,从Barack Obama到Michelle Obama这样的“配偶”属性,是由marriage→person→name表示的。我们将在这种路径构成的属性称之为扩展属性(expanded predicate)。而建立问题与扩展属性的关系,是提高问答***的覆盖率的关键。
我们依然使用上述概率推算部分的过程来计算从问题到扩展属性的映射。所不同的是,我们在计算的时候,用(s,p+,o)三元组来代替(s,p,o)三元组。这样我们就可以学到从问题模板到扩展属性的映射了,也就是P(P+|T)。
所以在此,我们重点说明如何这些(s,p+,o)三元组是如何产生的。
我们的知识图谱有1.1TB大小。为了能够扩展如此巨大的知识图谱,我们使用了一个基于硬盘的多源宽度优先搜索。我们的方法不需要在内存中存储整个RDF知识图谱,我们只是对它在硬盘上做k次扫描。在第一次扫描之前,我们将所有在QA对中出现过的实体读入内存中。这里我们将这些实体集合称为Es。这样在第一轮中,我们就可以得到所有(s,p+,o)满足p+.length=1。这些恰好即为从Es出发的(s,p,o)三元组。在第二轮迭代之前,我们将所有这些三元组再存入内存。这样第二轮的时候,我们对这些二元组再做扩展,于是我们也得到了(s,p+,o)满足p+.length=2。可以看到,实际上每一轮的迭代都是RDF图的一次join操作。这样,我们可以重复迭代k此,最终得到所有{(s,p+,o)|p+.length≤k,s∈Es}。
下面结合附图和实力对本发明做进一步阐述。
在线部分实施方式:
考虑问题“When was Barack Obama born?”。
(1)在这句话中的唯一可能实体是“Barack Obama”,所以P(E=Barack Obama|Q=when was barack Obama born)=1
(2)假设BarackObama的类型分布如表4所示,根据P(T|Q,E)的公式,我们可以得到表5所示的模板分布。
Figure GDA0002333245420000131
表4,P(C|E)
Figure GDA0002333245420000132
表5,P(T|Q,E)
(3)假设模板到属性的映射关系如表6所示,根据$P(P|Q_{new})$的计算公式,我们可以计算其分布,这一值可以见表7。这样,表格中的“dob”属性具有最高的概率。所以我们可以选择“dob”,这样我们就正确的找到了问题“When was Barack Obama born?”的属性。
Figure GDA0002333245420000133
表6,P(P|T)
Figure GDA0002333245420000141
表7,P(P|Q)
(4)根据图1和P(V|E,P)的计算公式,我们可以计算得到P(V|E,P)的分布,展示在表8中。
Figure GDA0002333245420000142
表8,P(V|E,P)
(5)这样我们就可以计算P(V|Q)了,其结果见表9。
Figure GDA0002333245420000143
表9,P(V|Q)
效果说明
表10为我们的***KBQA在QALD-5数据集上的结果以及与其他***的比较,包括处理问题数(#pro)、正确回答数(#ri)、部分回答数(#par)、召回率(R)、部分召回率(R*)、准确率(P)、部分准确率(P*),二元事实型问答的召回率(RBFQ)、部分召回率(R*BFQ)。
Figure GDA0002333245420000151
表10
表11为我们的***KBQA在TREC2007数据及上的结果以及与其他***的比较。
Figure GDA0002333245420000152
表11
表12为我们的***KBQA在不同知识图谱上学到的模板数和属性数。
Figure GDA0002333245420000153
表12
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于知识图谱的自然语言问答实现***,包括:在线部分模块,其中,所述在线部分模块,包括:
复杂问题解析单元,用于接受用户提出自然语言问题,并对问题进行解析,如果问题是复杂性问题,则将其分解为一系列的二元事实型问题;
概率推导单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率;
知识图谱查询单元,用于从预先训练的知识图谱中找到并返回答案;
所述概率推导单元,用于对每一个二元事实型问题,用概率推算的方法来找它的值,其中,该概率推算过程用到了P(P|T),即已知模板(template),对应谓语(predicate)的实体和值概率,具体包括:
给定一个知识图谱K和一个新问题q,我们的目标是找到该问题最有可能的值v,即:
argmaxvP(V=v|Q=q)
其中,大写字母来表示随机变量,小写字母表示随机变量的具体取值;
其中,给定问题,它从问题中解析出实体e,这被表示为P(e|q);
它使用实体和问题来产生模板,这一概率被表示为P(t|q,e);
模板产生器对应属性P(p|t);
最终,给定实体e和属性p,KBQA就可以得到对应值的概率P(v|e,p),并且返回概率最大的v作为答案a。
2.根据权利要求1所述的基于知识图谱的自然语言问答实现***,其特征在于,还包括:离线部分模块,所述离线部分模块,具体包括:
知识图谱属性扩展单元,用于将知识图谱中的属性做扩展,以学习到更为复杂的属性形式;
模板抽取和属性学习单元,用于学习从问题模板到属性的转移概率,即P(P|T),计算概率最大的属性;
实体与值识别单元,用于对QA语料中的qa对提取其实体和值。
3.根据权利要求1所述的基于知识图谱的自然语言问答实现***,其特征在于,知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性和噪声。
CN201710139458.9A 2017-03-10 2017-03-10 一种基于知识图谱的自然语言问答实现方法和*** Active CN106934012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710139458.9A CN106934012B (zh) 2017-03-10 2017-03-10 一种基于知识图谱的自然语言问答实现方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710139458.9A CN106934012B (zh) 2017-03-10 2017-03-10 一种基于知识图谱的自然语言问答实现方法和***

Publications (2)

Publication Number Publication Date
CN106934012A CN106934012A (zh) 2017-07-07
CN106934012B true CN106934012B (zh) 2020-05-08

Family

ID=59433605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710139458.9A Active CN106934012B (zh) 2017-03-10 2017-03-10 一种基于知识图谱的自然语言问答实现方法和***

Country Status (1)

Country Link
CN (1) CN106934012B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868716B2 (en) 2021-08-31 2024-01-09 International Business Machines Corporation Knowledge base question answering

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451240B (zh) * 2017-07-26 2019-12-13 北京大学 一种基于交互的知识图谱问答q/a***检索提升方法和装置
CN107633060B (zh) * 2017-09-20 2020-05-26 联想(北京)有限公司 一种信息处理方法及电子设备
CN107729493A (zh) * 2017-09-29 2018-02-23 北京创鑫旅程网络技术有限公司 旅行知识图谱的构建方法、装置及旅行问答方法、装置
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
US11256866B2 (en) * 2017-10-25 2022-02-22 Google Llc Natural language processing with an N-gram machine
CN108052547B (zh) * 2017-11-27 2019-09-27 华中科技大学 基于问句和知识图结构分析的自然语言问答方法及***
CN108256065B (zh) * 2018-01-16 2021-11-09 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN108491421B (zh) * 2018-02-07 2021-04-16 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
CN108519998B (zh) * 2018-03-07 2021-05-14 云知声智能科技股份有限公司 基于知识图谱的问题引导方法及装置
CN110309273A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 问答方法和装置
CN108717441B (zh) * 2018-05-16 2023-01-17 腾讯科技(深圳)有限公司 问题模板所对应的谓词的确定方法及装置
CN109033305B (zh) * 2018-07-16 2022-04-01 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN108959613B (zh) * 2018-07-17 2021-09-03 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109241291B (zh) * 2018-07-18 2022-02-15 华南师范大学 基于深度强化学习的知识图谱最优路径查询***及其方法
US11151117B2 (en) 2018-07-30 2021-10-19 International Business Machines Corporation Increasing the accuracy of a statement by analyzing the relationships between entities in a knowledge graph
CN110866093A (zh) * 2018-08-10 2020-03-06 珠海格力电器股份有限公司 机器问答方法及装置
CN109344240B (zh) * 2018-09-21 2022-11-22 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
US11727243B2 (en) * 2019-01-30 2023-08-15 Baidu Usa Llc Knowledge-graph-embedding-based question answering
CN110019687B (zh) * 2019-04-11 2021-03-23 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别***、方法、设备及介质
CN110399457B (zh) * 2019-07-01 2023-02-03 吉林大学 一种智能问答方法和***
CN110532397B (zh) * 2019-07-19 2023-06-09 平安科技(深圳)有限公司 基于人工智能的问答方法、装置、计算机设备及存储介质
CN110991183B (zh) * 2019-12-06 2023-07-04 北京百度网讯科技有限公司 问题的谓词确定方法、装置、设备及存储介质
CN113535144A (zh) * 2021-06-15 2021-10-22 北京彩彻区明科技有限公司 自然语言编程方法、装置、设备及存储介质
CN113505206B (zh) * 2021-07-01 2023-04-18 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN113901151B (zh) * 2021-09-30 2023-07-04 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114841170B (zh) * 2022-03-23 2024-06-18 昆明理工大学 融合事实文本的问句分解式语义解析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330432A (zh) * 2007-06-18 2008-12-24 阿里巴巴集团控股有限公司 一种实现在线问答的***和方法
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330432A (zh) * 2007-06-18 2008-12-24 阿里巴巴集团控股有限公司 一种实现在线问答的***和方法
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868716B2 (en) 2021-08-31 2024-01-09 International Business Machines Corporation Knowledge base question answering

Also Published As

Publication number Publication date
CN106934012A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN106934012B (zh) 一种基于知识图谱的自然语言问答实现方法和***
KR102640564B1 (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
Guu et al. Traversing knowledge graphs in vector space
WO2017092380A1 (zh) 用于人机对话的方法、神经网络***和用户设备
CN111506714A (zh) 基于知识图嵌入的问题回答
KR102259390B1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
Mulwad et al. A domain independent framework for extracting linked semantic data from tables
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
Ahmed et al. Named entity recognition by using maximum entropy
CN115204156A (zh) 关键词提取方法及装置
Hao et al. A subgraph-representation-based method for answering complex questions over knowledge bases
Zhan et al. PathReasoner: Explainable reasoning paths for commonsense question answering
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
US20200097759A1 (en) Table Header Detection Using Global Machine Learning Features from Orthogonal Rows and Columns
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
Yan et al. Relation extraction with temporal reasoning based on memory augmented distant supervision
CN117216221A (zh) 一种基于知识图谱的智能问答***及构建方法
Tilak et al. Visual entity linking
Ciravegna et al. LODIE: Linked Open Data for Web-scale Information Extraction.
CN117786052A (zh) 一种基于领域知识图谱的电网智能问答***
Bikeyev Synthetic ontologies: A hypothesis
Ajees et al. A named entity recognition system for Malayalam using conditional random fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant