CN104820694B

CN104820694B - 基于多知识库和整数线性规划ilp的自动问答方法和***

Info

Publication number: CN104820694B
Application number: CN201510208978.1A
Authority: CN
Inventors: 刘康; 赵军; 徐立恒; 张元哲
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-04-28
Filing date: 2015-04-28
Publication date: 2019-03-15
Anticipated expiration: 2035-04-28
Also published as: CN104820694A

Abstract

本发明提供一种基于多知识库和整数线性规划ILP的自动问答方法和***，所述方法包括：创建用于索引多个知识库的实体和/或关系的资源字典；在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源；对各候选资源执行转换，获得对应的多个模板；将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图；根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。本发明所述方法能够对自然语句在多知识库中进行较精确的查询。

Description

基于多知识库和整数线性规划ILP的自动问答方法和***

技术领域

本发明属于自然语言处理技术领域，尤其涉及基于多知识库和整数线性规划ILP的自动问答方法和***。

背景技术

随着语义网和链接数据的不断发展，知识库的数量也不断增长。如何使人们方便地使用这些知识成为了研究热点。尽管这些知识库通常提供了特定的查询语言，例如SPARQL，但是，利用这种方式来查询知识库，用户不仅需要掌握查询语言的词汇和语法，同时也要了解所查询知识库的内在结构，而这对于普通用户来说是非常困难的。另一方面，使用关键词的问答***虽然易用，但是仅仅使用关键词并不能够充分表达用户的查询需要。作为对比，如果使用自然语言作为接口，不但可以充分表达用户的信息需求，而且允许用户用自己的语言提问。基于知识库的问答***正是使用自然语言作为知识库的接口，因此得到了广泛的关注和研究。基于知识库的问答的目标是给定一个自然语言问句，在知识库中找到答案。这个问题的难点是将自然语言问句转化为规范的无歧义的语义表达，这样的语义表达可以很容易地转化为知识库的查询语言。

随着知识库数量的快速增长，能够在多个知识库上进行问答的***在最近几年得到了更多的研究。问答***需要找到相关的知识库来回答问题，并且需要把问句映射到相应知识库的语义资源上。另外一种更加复杂的情况是，一个问题需要联合多个知识库才能给出答案，其中每个知识库只能给出答案的一部分，这些不完整的答案需要整合在一起得到最终的结果。这个问题需要解决两个方面的挑战：第一，由于知识库的增加，自然语言问句中的词或短语就可能对应更多的知识库资源，即资源歧义问题变得更加严峻；第二，不同的知识库之间是异质的，结构和实体的表达方式各不相同，要组成一个统一的查询语句需要探索和理解各个知识库之间的已有连接，得到知识库之间的对应关系。

现有的技术都采用管道式的结构，资源映射的结果用来建立查询，而查询构建的过程不能对资源映射产生影响。这就可能导致一种错误，即资源映射步骤得到的资源，在查询构建步骤中用不到。

发明内容

本发明提供一种基于多知识库和整数线性规划(Integer Linear Planning，ILP)的自动问答方法和***，以实现根据自然语言问句在多知识库中获取查询结果。

本发明的第一个方面是提供一种基于多知识库和整数线性规划ILP的自动问答方法，包括：

创建用于索引多个知识库的实体和/或关系的资源字典；

在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源；

对各候选资源执行转换，获得对应的多个模板；

将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图；

根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。

本发明的第二个方面是提供一种基于多知识库和整数线性规划ILP的自动问答***，包括：

多知识库索引模块，用于创建用于索引多个知识库的实体和/或关系的资源字典；

文本映射模块，用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源；

资源转换模块，用于对各候选资源执行转换，获得对应的多个模板；

图生成模块，用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图；

ILP模块，用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。

本发明的有益效果为：

本发明基于多知识库和整数线性规划ILP的自动问答方法通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理，即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化，能够获得较精确的规范查询语句，从而使最终在多知识库中进行规范查询的结果更加准确。

附图说明

图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图；

图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的架构图；

图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的结构框图。

具体实施方式

图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图，图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的示意图，如图1和图2所示，本发明基于多知识库和整数线性规划ILP的自动问答方法包括：

S101、创建用于索引多个知识库的实体和/或关系的资源字典；

优选的，所述创建用于索引多个知识库的实体和关系的资源字典包括：

对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签，以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系；

S102、在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源；

优选的，所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括：

S1021、在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度；

S1022、若所述相似度高于第一阈值，则将所述实体或关系作为候选资源，同时保留对应的文本片段；

S103、对各候选资源执行转换，获得对应的多个模板；

优选的，所述对各候选资源执行转换，获得对应的多个模板包括根据启发式规则进行转换，获得三元组模板，包括：

对一个关系候选资源执行启发式转换，获得一个包含第一变量、关系候选资源和第二变量的实体变量三元组模板；

对一个实体候选资源和一个关系候选资源执行启发式转换，获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板，如表1所示：

表1

S104、将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图；

优选的，所述将各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图，其中，流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度P_E和关系候选资源的流行度P_R：

关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源(EE类型)的关联度R_EE、关系关系候选资源(RR类型)的关联度R_RR和实体关系候选资源(ER类型)的关联度R_ER：

R_EE＝(#sharedRelArg1(r1,r2)+#sharedRelArg2(r1,r2))×pop^-1(r1)×pop^-1(r2) (3)；

R_RR＝(#sharedEntArg1(r1,r2)+#sharedEntArg2(r1,r2))×pop^-1(r1)×pop^-1(r2) (4)；

R_ER＝#cooccurrence(r1,r2)×pop^-1(r1)×pop^-1(r2) (5)；

组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度R_RR、关系候选资源的组合度R_ER和实体关系关系候选资源的组合度R_ERR：

R_RR＝confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6)；

R_ER＝relatedness(e1,r1)×relatedness(e2,r2)×confidence(e1)×confidence(r1) (7)；

×confidence(e2)×confidence(r2)×pop(e1)×pop(r1)×pop(e2)×pop(r2)

R_ERR＝relatedness(e,r2)×confidence(r1)×confidence(r2) (8)；

×confidence(r1)×pop(r1)×pop(r2)×pop(e)

其中、InDegree(r)表示资源r的入度，OutDegree(r)表示资源r的出度，Frequency(r)表示资源r在其知识库中出现的频率，r'和KB表示r’表示任意一个资源，KB表示知识库(Knowledge Base)；sharedRelArg1(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系，sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系，sharedEntArg1(r1,r2)表示关系r1和r2所共享的第一变量，sharedEntArg1(r1,r2)表示关系r1和r2所共享的第二变量；cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数，pop(r1)表示关系1的流行度，confidence(r1)表示资源r1的置信度，relatedness(e,r2)表示实体e和关系r2的关联程度；

流行度、关联度和组合度的计算如表2a)、2b)和2c)所示：

表2a)

表2b)

表2c)；

S105、根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句；

优选的，所述根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)～l)下、最大化目标函数以推理选取至少一个待查询模板(也即三元组模板)来生成规范查询语句：

a)如果文本片段f_i选中，那么映射边M_i-必须被选中：

F_i≤∑_jM_ij；

b)一个文本片段至多被映射到一个候选资源：

c)如果映射边M_ij被选中，那么相应的文本片段f_i和候选资源r_j必须被选中：

d)如果候选资源r_k和候选资源r_l同时被选中，即R_kl＝1，那么相应的文本片段一定要映射到r_k和r_l上：

R_kl≤∑_iM_ik and R_kl≤∑_jM_jl；

e)如果两个文本片段有重叠，那么它们不能同时被选中：

f)如果转换边T_km被选中，那么相应的候选资源r_k和模板p_m必须被选中：

T_km≤∑_iR_ki+∑_jR_jk，

T_km≤∑_iP_im+∑_jP_mj；

g)如果R_mn被选中，那么转换边T_m-和T_n-也要被选中：

R_mn≤∑_kT_mkand R_mn≤∑_kT_nk；

h)如果P_uv被选中，那么转换边T_-u和T_-v也要被选中：

P_uv≤∑_mT_mu and P_uv≤∑_mT_mv；

i)如果一个ER类型三元组模板被选中，那么相应的转换边要被选中：

j)为了确保能得到一个结果，至少一个P_uv要被选中，而且如果只有一个模板P_uv被选中，那么它的类型必须是ER：

∑_u,vP_uv≥1,Type(p_u)＝ER or Type(p_v＝ER)；

k)只有任何两个模板之间没有联系时，才允许P_uv＝1,u＝v，这表示这模板p_u被选中：

∑_u,vP_uv·∑_m,nP_mn＝0,u＝v,m≠n；

l)如果P_uv＝1,u＝v，那么不能有其它的P_mn＝1,m＝n，因为模板p_u和p_m之间没有联系，否则P_um＝1；

目标函数为：

优选的，在所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后，还包括：

S106、在多知识库中对所述规范查询语句执行查询来获得最终查询结果。

通过下面实验来说明本发明基于多知识库和整数线性规划ILP的自动问答方法的性能：

1)测试语料

我们在三个数据集上进行实验，一个是内部关联知识库上问答的基准数据集，一个是QALD-4任务2的数据集和一个中文多源知识库问答测试集。内部关联知识库上的问答基准数据集是由Shekarpour et al.[2013]创建的。它包含25个问题，是第一个在链接数据上进行联合查询的数据集。它依赖三个知识库，Drugbank(描述FDA批准的药物的活性成分)、Sider(描述药物和它们的副作用)和Diseasome(描述疾病和基因缺陷)。基于链接数据的问答4(Question Answering over Linked Data 4,QALD-4)是链接数据上问答的第四届评测。它的第二个任务是在关联的知识库上进行问答，训练集和测试集各有25个问题。中文知识库有人工创建得到。为了使问题具有多样性，我们请5个人独立提问。这些问题基于三个知识库。MOVIE是一个关于电影领域的知识库，MUSIC是音乐领域的知识库，GENERAL提供一些常用知识，例如人物之间的关系。所有知识库中的事实都是从相关的网站抽取的，分别是Mtime、Douban Music和Baidu Baike。

2)基于多知识库和整数线性规划ILP的自动问答方法的提高

通过对比其它已有方法的结果来说明本方法的有效性，基于多知识库和整数线性规划ILP的自动问答方法和其它方法结果的对比结果如表3：

表3

对于基准数据集，作为比较的***是SINA，对于QALD-4任务2数据集，我们和所有参加评测的***比较：GFMed、POMELO和RO_FII。对于中文数据集，我们发现SINA***只需要把切割问句部分改进成适用中文就可以应用。以上所有提到的***均采用管道式结构。Ours是本方法不采用多知识库链接所得到的结果，Ours为本方法的最终实验结果。

从上述实验结果可以看到，使用基于整数线性规划的针对多知识库的自动问答方法在多知识库问答任务中取得了不错的效果。这个方法被证明是有效的。

本发明基于多知识库和整数线性规划ILP的自动问答方法采用联合模型来解决多源知识库问答问题，把资源映射和查询构建放在一个统一的框架完成。这使得资源映射和查询构建过程可以互相影响。资源映射过程可以为查询构建过程提供必要的资源，同时查询构建过程可以避免资源映射过程产生错误的资源，减少了管道式方法造成的错误积累。经过实验表明，对于多知识库问答的F值在多个数据集上均有提升。也就是说，通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理，即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化，能够获得较精确的规范查询语句，从而使最终在多知识库中进行规范查询的结果更加准确。

图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的架构图，如图3所示，本发明基于多知识库和整数线性规划ILP的自动问答***包括：

多知识库索引模块21，用于创建用于索引多个知识库的实体和/或关系的资源字典；

文本映射模块22，用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源；

资源转换模块23，用于对各候选资源执行转换，获得对应的多个模板；

图生成模块24，用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图；

ILP模块25，用于根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，包括：

创建用于索引多个知识库的实体和/或关系的资源字典；

对一个关系候选资源执行启发式转换，获得一个包含第一变量、关系候选资源和第二变量的实体关系三元组模板；

对一个实体候选资源和一个关系候选资源执行启发式转换，获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板；

2.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，所述创建用于索引多个知识库的实体和关系的资源字典包括：

对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签，以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系。

3.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括：

在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度；

若所述相似度高于第一阈值，则将所述实体或关系作为候选资源，同时保留对应的文本片段。

4.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图，其中，流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度P_E和关系候选资源的流行度P_R：

关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源的关联度R_EE、关系关系候选资源的关联度R_RR和实体关系候选资源的关联度R_ER：

R_EE＝(#sharedRelArgl(r1,r2)+#sharedRelArg2(r1,r2))×pop^-1(r1)×pop^-1(r2) (3)

R_RR＝(#sharedEntArgl(r1,r2)+#sharedEntArg2(r1,r2))×pop^-1(r1)×pop^-1(r2) (4)

R_ER＝#cooccurrence(r1,r2)×pop^-1(r1)×pop^-1(r2) (5)

组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度R_RR、实体关系候选资源的组合度R_ER和实体关系关系候选资源的组合度R_ERR：

R_RR＝confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6)

其中，InDegree(r)表示资源r的入度，OutDegree(r)表示资源r的出度，Frequency(r)表示资源r在其知识库中出现的频率，r'和KB表示r'表示任意一个资源，KB表示知识库；sharedRelArgl(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系，sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系，sharedEntArgl(r1,r2)表示关系r1和r2所共享的第一变量，sharedEntArg2(r1,r2)表示关系r1和r2所共享的第二变量；cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数，

pop(r1)表示关系1的流行度，confidence(r1)表示资源r1的置信度，

relatedness(e,r2)表示实体e和关系r2的关联程度，InDegree(r')表示资源r'的入度；OutDegree(r')表示资源r'的出度，Frequency(r')表示资源r'在其知识库中出现的频率，实体实体候选资源的关联度R_EE表示不同的实体作为候选资源之间的关联度，关系关系候选资源的关联度R_RR表示不同的关系作为候选资源之间的关联度，实体实体候选资源的组合度R_RR表示两种实体可组合的程度，实体关系关系候选资源的组合度R_ERR表示实体以及实体关系的可组合程度，实体关系候选资源的组合度R_ER表示实体和关系的可组合程度，pop^-1(r2)表示关系r2的流行度的倒数、confidence(r2)表示资源r2的置信度；pop(r2)表示关系r2的流行度；relatedness(e1,r1)表示实体e1和关系r1的关联程度；relatedness(e2,r2)表示实体e2和关系r2的关联程度，confidence(e1)、confidence(e2)分别表示实体e1、e2的置信度；pop(e1)、pop(e2)、pop(r2)、pop(e)分别表示实体e1的流行度、实体e2的流行度、关系r2的流行度以及实体e的流行度。

5.根据权利要求4所述的基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)～l)下、最大化目标函数以推理选取至少一个待查询模板来生成规范查询语句：

a)如果文本片段f_i选中，那么映射边M_i-必须被选中：

F_i≤∑_jM_ij；

b)一个文本片段至多被映射到一个候选资源：

R_kl≤∑_iM_ik and R_kl≤∑_jM_jl；

e)如果两个文本片段有重叠，那么它们不能同时被选中：

T_km≤∑_iR_ki+∑_jR_jk，

T_km≤∑_iR_im+∑_jR_mj；

g)如果R_mm被选中，那么转换边T_m-和T_n-也要被选中：

R_mm≤∑_kT_mk and R_mm≤∑_kT_nk；

h)如果P_uv被选中，那么转换边T_-u和T_-v也要被选中：

P_uv≤∑_mT_mu and P_uv≤∑_mT_mv；

i)如果一个实体关系三元组模板被选中，那么相应的转换边要被选中：

∑_u,vP_uv≥1,Type(p_u)＝ER or Type(p_v)＝ER；

k)只有任何两个模板之间没有联系时，才允许P_uv＝1，u＝v这表示这模板p_u被选中：

∑_u,vP_uvg∑_m,nP_mn＝0,u＝v,m≠n；

l)如果P_uv＝1，u＝v，那么不能有其它的P_mn＝1,m＝n，因为模板P_u和P_m之间没有联系，否则P_um＝1；

目标函数为：

其中，Type(p_u)表示模板p_u的类型、ER表示实体关系、Type(p_v)＝ER表示模板p_v的类型为实体关系类型，α、β_、γ分别表示ILP的权重，s_ij、w_kl、c_uv分别表示M_ij、R_kl、P_uv下标对应的置信度，length(f_i)表示文本片段的长度，length(question)表示问句的长度。

6.一种基于多知识库和整数线性规划ILP的自动问答方法，其特征在于，在根据ILP对消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后，还包括：

在多知识库中对所述规范查询语句执行查询来获得最终查询结果。

7.一种基于多知识库和整数线性规划ILP的自动问答***，其特征在于，包括：