CN106934012B

CN106934012B - 一种基于知识图谱的自然语言问答实现方法和***

Info

Publication number: CN106934012B
Application number: CN201710139458.9A
Authority: CN
Inventors: 崔万云; 梁家卿; 肖仰华
Original assignee: Shanghai Shuyan Technology Development Co ltd
Current assignee: Shanghai Shuyan Technology Development Co ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2020-05-08
Anticipated expiration: 2037-03-10
Also published as: CN106934012A

Abstract

本发明公开了一种基于知识图谱的自然语言问题实现方法和***，包括：在线部分模块，其中，所述在线部分模块，包括：复杂问题解析单元，用于接受用户提出自然语言问题，并对问题进行解析，如果问题是复杂性问题，则将其分解为一系列的二元事实型问题；概率推导单元，用于对每一个二元事实型问题，用概率推算的方法来找它的值，其中，该概率推算过程用到了P(P|T)，即已知模板(template)，对应谓语(predicate)的实体和值概率；知识图谱查询单元，用于从从预先训练的知识图谱中找到并返回答案。本发明以知识图谱为知识来源，以问题模板为表示问题、理解问题的基本单元，可以直线快速、准确的自然语言问题回答。

Description

一种基于知识图谱的自然语言问答实现方法和***

技术领域

本发明属于一种基于知识图谱的自然语言问答实现方法和***。

背景技术

用于回答自然语言问题的问答(QA)***已经在信息检索和自然语言领域吸引了大量的研究。QA***通常被设计成能够回答一类特定问题的***。例如，回答事实型问题是一个相对更容易实现的目标，也因此吸引了研究者的更多精力。事实型的问题是询问与客观事实相关的实体信息。一个典型的事实型问题的例子是二元事实型问题，如“how manypeople are there in Honolulu？”。二元事实型问题在询问一个实体(例如，Honolulu)中一个属性(例如，population)的值。二元事实型问题是很重要的，因为掌握二元事实型问题是回答更多复杂问题的第一步。很多的复杂事实型问题，如：1、)排名问题：“which cityhas the 3rd largest population？”；2、)比较问题：“which city has more people,Honolulu or New Jersey？”；3、)列举问题：“list the top 10 cities ordered”等，这些问题都只有在二元事实型问答得以解决后才能进行回答。因此，二元事实型问题的问答将是本问题的核心。

事实型问题也常被表述成更为复杂的形式，如“when was Barack Obama’s wifeborn？”。我们将这些问题归为复杂事实型问题(简称复杂问题)。如果我们能回答分别回答“Barack Obama’s wife”和“when was$e was born？”，那么我们也能回答刚才所说的问题。进一步说，一个复杂问题能够被分解成一系列的二元事实型问题。复杂问题也是我们关注的焦点。

一个QA***相当依赖于资料库的质量。过去的QA***都是构建于并未结构化的文本数据。最近几年诞生了许多大规模结构化的知识库，如谷歌的Knowledge Graph，Freebase，和YAGO2。大多数的此类知识库采用了RDF作为知识的表示形式。换而言之，他们包含了数以百万级甚至亿级的SPO三元组(S、P、O分别表示subject，predicate和object)。比如说下图表示一个迷你知识库，包含了(a；name；Barack Obama),(a；marriage；b),(b；person；c)等知识。

发明内容

本发明所要解决的技术问题是提供一种基于知识图谱的自然语言问答实现***和方法。

本发明解决上述技术问题所采取的技术方案如下：

一种基于知识图谱的自然语言问答实现***，包括：在线部分模块，其中，所述在线部分模块，包括：

复杂问题解析单元，用于接受用户提出自然语言问题，并对问题进行解析，如果问题是复杂性问题，则将其分解为一系列的二元事实型问题；

概率推导单元，用于对每一个二元事实型问题，用概率推算的方法来找它的值，其中，该概率推算过程用到了P(P|T)，即已知模板(template)，对应谓语(predicate)的实体和值概率；

知识图谱查询单元，用于从从预先训练的知识图谱中找到并返回答案。

优选的是，还包括：离线部分模块，所述离线部分模块，具体包括：

知识图谱属性扩展单元，用于将知识图谱中的属性做扩展，以学习到更为复杂的属性形式；

模板抽取和属性学习单元，用于学习从问题模板到属性的转移概率，即P(P|T)，计算概率最大的属性；

实体与值识别单元，用于对QA语料中的qa对提取其实体和值。

优选的是，知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性和噪声。

优选的是，所述概率推到单元，用于对每一个二元事实型问题，用概率推算的方法来找它的值，其中，该概率推算过程用到了P(P|T)，即已知模板(template)，对应谓语(predicate)的实体和值概率，具体包括：

给定一个知识图谱K和一个新问题q，我们的目标是找到该问题最有可能的值v，即：

argmax_vP(V＝v|Q＝q)

其中。大写字母来表示随机变量，小写字母表示随机变量的具体取值；

其中，给定问题，它从问题中解析出实体e，这被表示为P(e|q)；

它使用实体和问题来产生模板，这一概率被表示为P(t|q,e)；

模板产生器对应属性P(p|t)；

最终，给定实体e和属性p，KBQA就可以得到对应值的概率P(v|e,p)，并且返回概率最大的v作为答案a。

优选的是，还包括：

给定问题q，首先识别其q，具体通过目前世界领先的entity identification工具stanford NER来进行这一过程，

在这一过程之后，得以得到q的实体集合E(q)＝{e1,e2,…,en}，每一个ei都有一致的概率分布，也就是说，

将利用问题和实体转化为模板T，这一过程的概率表示为P(T|Q,E)，具体包括：给定实体E＝e和问题Q＝q，利用上下文相关的概念化工具得到其category分布P(C|E＝e)。一个模板的概率也就等同于实体e它对应的categoryc的概率：

P(t|q,e)＝P(c|q,e)；

通过P(E|Q)和P(T|Q,E)，将q转换到一个模板上；

最终，得到问题的实体E和属性P，这样我们通过概率P(V|E,P)来最终确定返回值V。

优选的是，给定E＝e和P＝p，借助知识图谱，我们可以找到值v使得(e,p,v)∈K，我们将这些和条件的v称为V(e,p)；

如果V(e,p)只有一个值，则显然所有的概率都应该分配到这个值上面。而如果V(e,p)有多个值的时候，也就是说这个属性并不是一个唯一属性的时候，我们给所有这些值相同的概率，更严格的，设V(e,p)＝{v|(e,p,v)∈K}，则有

根据以上的概率分析和概率图，我们现在已经可以计算P(V|Q＝q)：

优选的是，从Yahoo！Answers的问答数据中学习概率图模型中的转移概率。

优选的是，P(P|T)的概率学习具体包括：

步骤一：entity-value抽取：首先，我们从答案中抽取有用的答案信息value，而忽略那些无用的单词。我们只考虑和问题中的实体在知识图谱中存在关联的value，即对于问答对(qi,ai)，它的entity-value集合为：

这里的

表示字符串子串；

步骤二：似然函数：现在计算对于概率，观测到这些问答对的概率：

，这里

被考虑为一个常数，对于P(P|T)的估计，本质上是在最大化这个似然函数。

步骤三：最大似然估计：我们将P(P|T)作为参数θ，它的对应的似然函数值为L(θ)，这样我们估计θ为：

步骤四：EM算法：我们构建Q-function如下。这里$h(\theta^{(s)})$是第s轮估计中的参数值：

已经证明Q-function是L(θ)的下界，我们通过迭代的EM算法最大化Q(θ；θ^(s))来最大化L(θ)。

EM算法包括E步骤和M步骤，在E步骤中，计算Q(θ；θ^(s))的每个值如下：

在M步骤中，通过拉格朗日乘数法最大化$\theta_{pt}^{(s+1)}$如下：

一种基于知识图谱的自然语言问答实现方法，包括：

步骤1)接受用户提出自然语言问题；

步骤2)对于复杂问题，转化为一系列二元简单问题；

步骤3)将问题转化为问题模板，包括：将问题中的实体转化为对应概念；

步骤4)利用离线部分学习到的问题模板到属性的转移概率P(P|T)，计算概率最大的属性；

步骤5)在知识图谱中，识别该实体(Honolulu)和属性(population)对应的值，并将该值反馈给用户。

本发明是针对自然语言自动问答***，利用知识图谱作为答案来源，提出一种基于问题模板的自然语言问答方法，并利用现有的问答语料对属性进行模板抽取工作，以解决问题理解和回答中的挑战。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明的基于知识图谱的自然语言问答实现***的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

首先，为了方便说明，我们在下表中列出了一些本专利用到的标记。

二元事实型问题我们主要精力集中在二元事实型问题上。所以二元事实型问题，指的是一个问题是在问某一实体的具体属性值。我们将问题q中实体表示为E(q)。例如，对于问题q＝”WhenwasBarackObamaborn？”，我们有E(q)＝{a}，表示图1中的实体”BarackObma”。为了简单起见，我们假设每个实体只有一个名字，用

表示。这种表示可以很容易的扩展到一个实体有多个名字的情况。

RDF型知识图谱给定一个问题，我们在RDF型知识图谱中寻找它的答案。一个RDF型知识图谱K是一系列(s,p,o)三元组的集合，spo分别表示subject(主语)，predicte(谓词)，object(宾语)。我们可以通过一个带标记的有向图来表示该RDF知识图谱。每个(s,p,o)被表示为一条从s到o的有向边，边标记为p。对于一个简单的RDF知识图谱的表示。，有一条从a伸向1961的边，标记为dob(dateofbirth，出生日期)。这条边表示了奥巴马的出生日期是1961年。

QA语料我们从QA语料中学习问题模板。该QA语料从Yahoo！Answer爬取得来。我们将该语料表示为QA＝{(q₁,a₁),(q₂,a₂),...,(q_n,a_n)}，这里q_i是一个问题而a_i是该问题的答案。

Template(模板)我们从一个问题q中提取其模板t。提取的方式是将问题的实体$e\inE(q)$用e的一个categoryc取代。我们将之表示为$t＝q.R(\bar{e},c)$。当然一个实体可能有多个category，所以一个问题也可能对应多个模板。例如在图1中，a有两个category：C(a)＝{$Person,$Politician}，这样问题”WhenwasBarackObamaborn？”的两个模板就是”Whenwas$Person born？”和”Whenwas$Politicianborn？”。

如图1，我们将***整体分为了两部分：在线部分和离线部分。

在线部分：当一个问题到来时，我们首先对问题进行解析。如果问题是复杂性问题，则将其分解为一系列的二元事实型问题。然后对于每一个二元事实型问题，我们用概率推算的方法来找到它的值。该概率推算过程用到了P(P|T)，即已知template，对应predicate的概率。

离线部分：离线部分的主要目标就是学习从模板到属性的映射，即P(P|T)。而在此之前呢，我们首先会做两件事。首先，我们将知识图谱中的属性做扩展，这样我们可以学习到更为复杂的属性形式(例如，marriage-person-name在图1中表示属性“配偶”)。第二，我们对QA语料中的qa对提取其实体和值。

具体来说，一种基于知识图谱的自然语言问答实现***，包括：在线部分模块，其中，所述在线部分模块，包括：

基于知识图谱的自然语言问答实现***还包括：离线部分模块，所述离线部分模块，具体包括：

实体与值识别单元，用于对QA语料中的qa对提取其实体和值。

接下来我们讲解***每一部分的具体实施方式。

概率推算

首先，我们讲解概率推算部分，即上表中的Probabilistic Inferencing部分。这一部分主要是推算一个给定问题在知识图谱中对应的值。我们知道，知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性、噪声等。所以我们用概率来表示这一问题。

问题定义一：给定一个知识图谱K和一个新问题q，我们的目标是找到该问题最有可能的值v，即

argmax_vP(V＝v|Q＝q)

这里，我们用大写字母来表示随机变量，用小写字母表示随机变量的具体取值。本文的其它部分也都会如此。

为了解决问题一，我们的***使用了生成模型来描述一个问答对是如何产生的，其概率图如上表示。首先，给定问题，它从问题中解析出实体e，这被表示为P(e|q)。第二，它使用实体和问题来产生模板，这一概率被表示为P(t|q,e)。第三，模板产生器对应属性P(p|t)。最终，给定实体e和属性p，KBQA就可以得到对应值的概率P(v|e,p)，并且返回概率最大的v作为答案a。这样就是一套完整的QA对产生过程。

下面对每一概率模块作具体说明。

P(E|Q)

给定问题q，***首先识别其q。我们使用目前世界领先的entity identification工具stanford NER来进行这一过程。在这一过程之后，我们得以得到q的实体集合E(q)＝{e1,e2,…,en}。每一个ei都有一致的概率分布，也就是说，

P(T|Q,E)

***将利用问题和实体转化为模板T，这一过程的概率表示为P(T|Q,E)。给定实体E＝e和问题Q＝q，我们可以利用上下文相关的概念化工具得到其category分布P(C|E＝e)。一个模板的概率也就等同于实体e它对应的category c的概率

P(t|q,e)＝P(c|q,e)

P(P|T)

通过P(E|Q)和P(T|Q,E)，我们已经将q转换到一个模板上。这一概率的计算将在下面的EM算法中说明。

P(V|E,P)

最终，我们得到了问题的实体E和属性P，这样我们通过概率P(V|E,P)来最终确定返回值V。

给定E＝e和P＝p，借助知识图谱，我们可以找到值v使得(e,p,v)∈K，我们将这些和条件的v称为V(e,p)。如果V(e,p)只有一个值，则显然所有的概率都应该分配到这个值上面。而如果V(e,p)有多个值的时候，也就是说这个属性并不是一个唯一属性的时候，我们给所有这些值相同的概率。更严格的，设V(e,p)＝{v|(e,p,v)∈K}，则有

根据以上的概率分析和概率图，我们现在已经可以计算P(V|Q＝q)了：

P(P|T)

我们从Yahoo！Answers的问答数据中学习概率图模型中的转移概率。由上面的讨论中，其它概率转换已经可以被直接计算，只剩下P(P|T)。现在讲详细描述P(P|T)的概率学习。

这里的

表示字符串子串。

更进一步的，我们只考虑那些和问题类型一致的value。例如当问题在询问地点，则只考虑地点作为value。

步骤二：似然函数：现在计算对于概率，观测到这些问答对的概率。

，这里

被考虑为一个常数。对于P(P|T)的估计，本质上是在最大化这个似然函数。

步骤四：EM算法：我们构建Q-function如下。这里$h(\theta^{(s)})$是第s轮估计中的参数值。

已经证明Q-function是L(θ)的下界。我们通过迭代的EM算法最大化Q(θ；θ^(s))来最大化L(θ)。

EM算法包括E步骤和M步骤。在E步骤中，计算Q(θ；θ^(s))的每个值如下：

属性扩展

实际上，知识图谱中有许多的事实并不是由直接的一条边表示的，而是由一条路径。例如，从Barack Obama到Michelle Obama这样的“配偶”属性，是由marriage→person→name表示的。我们将在这种路径构成的属性称之为扩展属性(expanded predicate)。而建立问题与扩展属性的关系，是提高问答***的覆盖率的关键。

我们依然使用上述概率推算部分的过程来计算从问题到扩展属性的映射。所不同的是，我们在计算的时候，用(s,p⁺,o)三元组来代替(s,p,o)三元组。这样我们就可以学到从问题模板到扩展属性的映射了，也就是P(P⁺|T)。

所以在此，我们重点说明如何这些(s,p⁺,o)三元组是如何产生的。

我们的知识图谱有1.1TB大小。为了能够扩展如此巨大的知识图谱，我们使用了一个基于硬盘的多源宽度优先搜索。我们的方法不需要在内存中存储整个RDF知识图谱，我们只是对它在硬盘上做k次扫描。在第一次扫描之前，我们将所有在QA对中出现过的实体读入内存中。这里我们将这些实体集合称为E_s。这样在第一轮中，我们就可以得到所有(s,p⁺,o)满足p⁺.length＝1。这些恰好即为从E_s出发的(s,p,o)三元组。在第二轮迭代之前，我们将所有这些三元组再存入内存。这样第二轮的时候，我们对这些二元组再做扩展，于是我们也得到了(s,p⁺,o)满足p⁺.length＝2。可以看到，实际上每一轮的迭代都是RDF图的一次join操作。这样，我们可以重复迭代k此，最终得到所有{(s,p⁺,o)|p⁺.length≤k,s∈E_s}。

下面结合附图和实力对本发明做进一步阐述。

在线部分实施方式：

考虑问题“When was Barack Obama born？”。

(1)在这句话中的唯一可能实体是“Barack Obama”，所以P(E＝Barack Obama|Q＝when was barack Obama born)＝1

(2)假设BarackObama的类型分布如表4所示，根据P(T|Q,E)的公式，我们可以得到表5所示的模板分布。

表4，P(C|E)

表5，P(T|Q,E)

(3)假设模板到属性的映射关系如表6所示，根据$P(P|Q_{new})$的计算公式，我们可以计算其分布，这一值可以见表7。这样，表格中的“dob”属性具有最高的概率。所以我们可以选择“dob”，这样我们就正确的找到了问题“When was Barack Obama born？”的属性。

表6，P(P|T)

表7，P(P|Q)

(4)根据图1和P(V|E,P)的计算公式，我们可以计算得到P(V|E,P)的分布，展示在表8中。

表8，P(V|E,P)

(5)这样我们就可以计算P(V|Q)了，其结果见表9。

表9，P(V|Q)

效果说明

表10为我们的***KBQA在QALD-5数据集上的结果以及与其他***的比较，包括处理问题数(#pro)、正确回答数(#ri)、部分回答数(#par)、召回率(R)、部分召回率(R*)、准确率(P)、部分准确率(P*)，二元事实型问答的召回率(R_BFQ)、部分召回率(R*_BFQ)。

表10

表11为我们的***KBQA在TREC2007数据及上的结果以及与其他***的比较。

表11

表12为我们的***KBQA在不同知识图谱上学到的模板数和属性数。

表12

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的自然语言问答实现***，包括：在线部分模块，其中，所述在线部分模块，包括：

知识图谱查询单元，用于从预先训练的知识图谱中找到并返回答案；

所述概率推导单元，用于对每一个二元事实型问题，用概率推算的方法来找它的值，其中，该概率推算过程用到了P(P|T)，即已知模板(template)，对应谓语(predicate)的实体和值概率，具体包括：

argmax_vP(V＝v|Q＝q)

其中，大写字母来表示随机变量，小写字母表示随机变量的具体取值；

它使用实体和问题来产生模板，这一概率被表示为P(t|q,e)；

模板产生器对应属性P(p|t)；

2.根据权利要求1所述的基于知识图谱的自然语言问答实现***，其特征在于，还包括：离线部分模块，所述离线部分模块，具体包括：

实体与值识别单元，用于对QA语料中的qa对提取其实体和值。

3.根据权利要求1所述的基于知识图谱的自然语言问答实现***，其特征在于，知识图谱中的事实和QA语料中的问题大都可能有不确定性、不完整性和噪声。