CN104820694B - 基于多知识库和整数线性规划ilp的自动问答方法和*** - Google Patents

基于多知识库和整数线性规划ilp的自动问答方法和*** Download PDF

Info

Publication number
CN104820694B
CN104820694B CN201510208978.1A CN201510208978A CN104820694B CN 104820694 B CN104820694 B CN 104820694B CN 201510208978 A CN201510208978 A CN 201510208978A CN 104820694 B CN104820694 B CN 104820694B
Authority
CN
China
Prior art keywords
relationship
resource
entity
candidate resource
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510208978.1A
Other languages
English (en)
Other versions
CN104820694A (zh
Inventor
刘康
赵军
徐立恒
张元哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510208978.1A priority Critical patent/CN104820694B/zh
Publication of CN104820694A publication Critical patent/CN104820694A/zh
Application granted granted Critical
Publication of CN104820694B publication Critical patent/CN104820694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多知识库和整数线性规划ILP的自动问答方法和***,所述方法包括:创建用于索引多个知识库的实体和/或关系的资源字典;在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;对各候选资源执行转换,获得对应的多个模板;将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。本发明所述方法能够对自然语句在多知识库中进行较精确的查询。

Description

基于多知识库和整数线性规划ILP的自动问答方法和***
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于多知识库和整数线性规划ILP的自动问答方法和***。
背景技术
随着语义网和链接数据的不断发展,知识库的数量也不断增长。如何使人们方便地使用这些知识成为了研究热点。尽管这些知识库通常提供了特定的查询语言,例如SPARQL,但是,利用这种方式来查询知识库,用户不仅需要掌握查询语言的词汇和语法,同时也要了解所查询知识库的内在结构,而这对于普通用户来说是非常困难的。另一方面,使用关键词的问答***虽然易用,但是仅仅使用关键词并不能够充分表达用户的查询需要。作为对比,如果使用自然语言作为接口,不但可以充分表达用户的信息需求,而且允许用户用自己的语言提问。基于知识库的问答***正是使用自然语言作为知识库的接口,因此得到了广泛的关注和研究。基于知识库的问答的目标是给定一个自然语言问句,在知识库中找到答案。这个问题的难点是将自然语言问句转化为规范的无歧义的语义表达,这样的语义表达可以很容易地转化为知识库的查询语言。
随着知识库数量的快速增长,能够在多个知识库上进行问答的***在最近几年得到了更多的研究。问答***需要找到相关的知识库来回答问题,并且需要把问句映射到相应知识库的语义资源上。另外一种更加复杂的情况是,一个问题需要联合多个知识库才能给出答案,其中每个知识库只能给出答案的一部分,这些不完整的答案需要整合在一起得到最终的结果。这个问题需要解决两个方面的挑战:第一,由于知识库的增加,自然语言问句中的词或短语就可能对应更多的知识库资源,即资源歧义问题变得更加严峻;第二,不同的知识库之间是异质的,结构和实体的表达方式各不相同,要组成一个统一的查询语句需要探索和理解各个知识库之间的已有连接,得到知识库之间的对应关系。
现有的技术都采用管道式的结构,资源映射的结果用来建立查询,而查询构建的过程不能对资源映射产生影响。这就可能导致一种错误,即资源映射步骤得到的资源,在查询构建步骤中用不到。
发明内容
本发明提供一种基于多知识库和整数线性规划(Integer Linear Planning,ILP)的自动问答方法和***,以实现根据自然语言问句在多知识库中获取查询结果。
本发明的第一个方面是提供一种基于多知识库和整数线性规划ILP的自动问答方法,包括:
创建用于索引多个知识库的实体和/或关系的资源字典;
在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
对各候选资源执行转换,获得对应的多个模板;
将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
本发明的第二个方面是提供一种基于多知识库和整数线性规划ILP的自动问答***,包括:
多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
本发明的有益效果为:
本发明基于多知识库和整数线性规划ILP的自动问答方法通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理,即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化,能够获得较精确的规范查询语句,从而使最终在多知识库中进行规范查询的结果更加准确。
附图说明
图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图;
图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的架构图;
图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的结构框图。
具体实施方式
图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图,图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的示意图,如图1和图2所示,本发明基于多知识库和整数线性规划ILP的自动问答方法包括:
S101、创建用于索引多个知识库的实体和/或关系的资源字典;
优选的,所述创建用于索引多个知识库的实体和关系的资源字典包括:
对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签,以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系;
S102、在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
优选的,所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括:
S1021、在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度;
S1022、若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保留对应的文本片段;
S103、对各候选资源执行转换,获得对应的多个模板;
优选的,所述对各候选资源执行转换,获得对应的多个模板包括根据启发式规则进行转换,获得三元组模板,包括:
对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和第二变量的实体变量三元组模板;
对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板,如表1所示:
表1
S104、将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
优选的,所述将各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图,其中,流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度PE和关系候选资源的流行度PR
关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源(EE类型)的关联度REE、关系关系候选资源(RR类型)的关联度RRR和实体关系候选资源(ER类型)的关联度RER
REE=(#sharedRelArg1(r1,r2)+#sharedRelArg2(r1,r2))×pop-1(r1)×pop-1(r2) (3);
RRR=(#sharedEntArg1(r1,r2)+#sharedEntArg2(r1,r2))×pop-1(r1)×pop-1(r2) (4);
RER=#cooccurrence(r1,r2)×pop-1(r1)×pop-1(r2) (5);
组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度RRR、关系候选资源的组合度RER和实体关系关系候选资源的组合度RERR
RRR=confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6);
RER=relatedness(e1,r1)×relatedness(e2,r2)×confidence(e1)×confidence(r1) (7);
×confidence(e2)×confidence(r2)×pop(e1)×pop(r1)×pop(e2)×pop(r2)
RERR=relatedness(e,r2)×confidence(r1)×confidence(r2) (8);
×confidence(r1)×pop(r1)×pop(r2)×pop(e)
其中、InDegree(r)表示资源r的入度,OutDegree(r)表示资源r的出度,Frequency(r)表示资源r在其知识库中出现的频率,r'和KB表示r’表示任意一个资源,KB表示知识库(Knowledge Base);sharedRelArg1(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系,sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第一变量,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第二变量;cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数,pop(r1)表示关系1的流行度,confidence(r1)表示资源r1的置信度,relatedness(e,r2)表示实体e和关系r2的关联程度;
流行度、关联度和组合度的计算如表2a)、2b)和2c)所示:
表2a)
表2b)
表2c);
S105、根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句;
优选的,所述根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)~l)下、最大化目标函数以推理选取至少一个待查询模板(也即三元组模板)来生成规范查询语句:
a)如果文本片段fi选中,那么映射边Mi-必须被选中:
Fi≤∑jMij
b)一个文本片段至多被映射到一个候选资源:
c)如果映射边Mij被选中,那么相应的文本片段fi和候选资源rj必须被选中:
d)如果候选资源rk和候选资源rl同时被选中,即Rkl=1,那么相应的文本片段一定要映射到rk和rl上:
Rkl≤∑iMik and Rkl≤∑jMjl
e)如果两个文本片段有重叠,那么它们不能同时被选中:
f)如果转换边Tkm被选中,那么相应的候选资源rk和模板pm必须被选中:
Tkm≤∑iRki+∑jRjk
Tkm≤∑iPim+∑jPmj
g)如果Rmn被选中,那么转换边Tm-和Tn-也要被选中:
Rmn≤∑kTmkand Rmn≤∑kTnk
h)如果Puv被选中,那么转换边T-u和T-v也要被选中:
Puv≤∑mTmu and Puv≤∑mTmv
i)如果一个ER类型三元组模板被选中,那么相应的转换边要被选中:
j)为了确保能得到一个结果,至少一个Puv要被选中,而且如果只有一个模板Puv被选中,那么它的类型必须是ER:
u,vPuv≥1,Type(pu)=ER or Type(pv=ER);
k)只有任何两个模板之间没有联系时,才允许Puv=1,u=v,这表示这模板pu被选中:
u,vPuv·∑m,nPmn=0,u=v,m≠n;
l)如果Puv=1,u=v,那么不能有其它的Pmn=1,m=n,因为模板pu和pm之间没有联系,否则Pum=1;
目标函数为:
优选的,在所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后,还包括:
S106、在多知识库中对所述规范查询语句执行查询来获得最终查询结果。
通过下面实验来说明本发明基于多知识库和整数线性规划ILP的自动问答方法的性能:
1)测试语料
我们在三个数据集上进行实验,一个是内部关联知识库上问答的基准数据集,一个是QALD-4任务2的数据集和一个中文多源知识库问答测试集。内部关联知识库上的问答基准数据集是由Shekarpour et al.[2013]创建的。它包含25个问题,是第一个在链接数据上进行联合查询的数据集。它依赖三个知识库,Drugbank(描述FDA批准的药物的活性成分)、Sider(描述药物和它们的副作用)和Diseasome(描述疾病和基因缺陷)。基于链接数据的问答4(Question Answering over Linked Data 4,QALD-4)是链接数据上问答的第四届评测。它的第二个任务是在关联的知识库上进行问答,训练集和测试集各有25个问题。中文知识库有人工创建得到。为了使问题具有多样性,我们请5个人独立提问。这些问题基于三个知识库。MOVIE是一个关于电影领域的知识库,MUSIC是音乐领域的知识库,GENERAL提供一些常用知识,例如人物之间的关系。所有知识库中的事实都是从相关的网站抽取的,分别是Mtime、Douban Music和Baidu Baike。
2)基于多知识库和整数线性规划ILP的自动问答方法的提高
通过对比其它已有方法的结果来说明本方法的有效性,基于多知识库和整数线性规划ILP的自动问答方法和其它方法结果的对比结果如表3:
表3
对于基准数据集,作为比较的***是SINA,对于QALD-4任务2数据集,我们和所有参加评测的***比较:GFMed、POMELO和RO_FII。对于中文数据集,我们发现SINA***只需要把切割问句部分改进成适用中文就可以应用。以上所有提到的***均采用管道式结构。Ours是本方法不采用多知识库链接所得到的结果,Ours为本方法的最终实验结果。
从上述实验结果可以看到,使用基于整数线性规划的针对多知识库的自动问答方法在多知识库问答任务中取得了不错的效果。这个方法被证明是有效的。
本发明基于多知识库和整数线性规划ILP的自动问答方法采用联合模型来解决多源知识库问答问题,把资源映射和查询构建放在一个统一的框架完成。这使得资源映射和查询构建过程可以互相影响。资源映射过程可以为查询构建过程提供必要的资源,同时查询构建过程可以避免资源映射过程产生错误的资源,减少了管道式方法造成的错误积累。经过实验表明,对于多知识库问答的F值在多个数据集上均有提升。也就是说,通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理,即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化,能够获得较精确的规范查询语句,从而使最终在多知识库中进行规范查询的结果更加准确。
图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的架构图,如图3所示,本发明基于多知识库和整数线性规划ILP的自动问答***包括:
多知识库索引模块21,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块22,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块23,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块24,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块25,用于根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,包括:
创建用于索引多个知识库的实体和/或关系的资源字典;
在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和第二变量的实体关系三元组模板;
对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板;
将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
2.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述创建用于索引多个知识库的实体和关系的资源字典包括:
对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签,以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系。
3.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括:
在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度;
若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保留对应的文本片段。
4.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图,其中,流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度PE和关系候选资源的流行度PR
关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源的关联度REE、关系关系候选资源的关联度RRR和实体关系候选资源的关联度RER
REE=(#sharedRelArgl(r1,r2)+#sharedRelArg2(r1,r2))×pop-1(r1)×pop-1(r2) (3)
RRR=(#sharedEntArgl(r1,r2)+#sharedEntArg2(r1,r2))×pop-1(r1)×pop-1(r2) (4)
RER=#cooccurrence(r1,r2)×pop-1(r1)×pop-1(r2) (5)
组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度RRR、实体关系候选资源的组合度RER和实体关系关系候选资源的组合度RERR
RRR=confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6)
其中,InDegree(r)表示资源r的入度,OutDegree(r)表示资源r的出度,Frequency(r)表示资源r在其知识库中出现的频率,r'和KB表示r'表示任意一个资源,KB表示知识库;sharedRelArgl(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系,sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系,sharedEntArgl(r1,r2)表示关系r1和r2所共享的第一变量,sharedEntArg2(r1,r2)表示关系r1和r2所共享的第二变量;cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数,
pop(r1)表示关系1的流行度,confidence(r1)表示资源r1的置信度,
relatedness(e,r2)表示实体e和关系r2的关联程度,InDegree(r')表示资源r'的入度;OutDegree(r')表示资源r'的出度,Frequency(r')表示资源r'在其知识库中出现的频率,实体实体候选资源的关联度REE表示不同的实体作为候选资源之间的关联度,关系关系候选资源的关联度RRR表示不同的关系作为候选资源之间的关联度,实体实体候选资源的组合度RRR表示两种实体可组合的程度,实体关系关系候选资源的组合度RERR表示实体以及实体关系的可组合程度,实体关系候选资源的组合度RER表示实体和关系的可组合程度,pop-1(r2)表示关系r2的流行度的倒数、confidence(r2)表示资源r2的置信度;pop(r2)表示关系r2的流行度;relatedness(e1,r1)表示实体e1和关系r1的关联程度;relatedness(e2,r2)表示实体e2和关系r2的关联程度,confidence(e1)、confidence(e2)分别表示实体e1、e2的置信度;pop(e1)、pop(e2)、pop(r2)、pop(e)分别表示实体e1的流行度、实体e2的流行度、关系r2的流行度以及实体e的流行度。
5.根据权利要求4所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)~l)下、最大化目标函数以推理选取至少一个待查询模板来生成规范查询语句:
a)如果文本片段fi选中,那么映射边Mi-必须被选中:
Fi≤∑jMij
b)一个文本片段至多被映射到一个候选资源:
c)如果映射边Mij被选中,那么相应的文本片段fi和候选资源rj必须被选中:
d)如果候选资源rk和候选资源rl同时被选中,即Rkl=1,那么相应的文本片段一定要映射到rk和rl上:
Rkl≤∑iMik and Rkl≤∑jMjl
e)如果两个文本片段有重叠,那么它们不能同时被选中:
f)如果转换边Tkm被选中,那么相应的候选资源rk和模板pm必须被选中:
Tkm≤∑iRki+∑jRjk
Tkm≤∑iRim+∑jRmj
g)如果Rmm被选中,那么转换边Tm-和Tn-也要被选中:
Rmm≤∑kTmk and Rmm≤∑kTnk
h)如果Puv被选中,那么转换边T-u和T-v也要被选中:
Puv≤∑mTmu and Puv≤∑mTmv
i)如果一个实体关系三元组模板被选中,那么相应的转换边要被选中:
j)为了确保能得到一个结果,至少一个Puv要被选中,而且如果只有一个模板Puv被选中,那么它的类型必须是ER:
u,vPuv≥1,Type(pu)=ER or Type(pv)=ER;
k)只有任何两个模板之间没有联系时,才允许Puv=1,u=v这表示这模板pu被选中:
u,vPuvg∑m,nPmn=0,u=v,m≠n;
l)如果Puv=1,u=v,那么不能有其它的Pmn=1,m=n,因为模板Pu和Pm之间没有联系,否则Pum=1;
目标函数为:
其中,Type(pu)表示模板pu的类型、ER表示实体关系、Type(pv)=ER表示模板pv的类型为实体关系类型,α、βγ分别表示ILP的权重,sij、wkl、cuv分别表示Mij、Rkl、Puv下标对应的置信度,length(fi)表示文本片段的长度,length(question)表示问句的长度。
6.一种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,在根据ILP对消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后,还包括:
在多知识库中对所述规范查询语句执行查询来获得最终查询结果。
7.一种基于多知识库和整数线性规划ILP的自动问答***,其特征在于,包括:
多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
CN201510208978.1A 2015-04-28 2015-04-28 基于多知识库和整数线性规划ilp的自动问答方法和*** Active CN104820694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510208978.1A CN104820694B (zh) 2015-04-28 2015-04-28 基于多知识库和整数线性规划ilp的自动问答方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510208978.1A CN104820694B (zh) 2015-04-28 2015-04-28 基于多知识库和整数线性规划ilp的自动问答方法和***

Publications (2)

Publication Number Publication Date
CN104820694A CN104820694A (zh) 2015-08-05
CN104820694B true CN104820694B (zh) 2019-03-15

Family

ID=53730989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510208978.1A Active CN104820694B (zh) 2015-04-28 2015-04-28 基于多知识库和整数线性规划ilp的自动问答方法和***

Country Status (1)

Country Link
CN (1) CN104820694B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570138B (zh) * 2016-11-03 2020-03-03 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN107451240B (zh) * 2017-07-26 2019-12-13 北京大学 一种基于交互的知识图谱问答q/a***检索提升方法和装置
CN107992528B (zh) * 2017-11-13 2022-07-05 清华大学 利用可解释推理网络的多关系问答***
CN108664465B (zh) * 2018-03-07 2023-06-27 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN108920488B (zh) * 2018-05-14 2021-09-28 平安科技(深圳)有限公司 多***相结合的自然语言处理方法及装置
CN109376298B (zh) * 2018-09-14 2022-01-25 阿里巴巴(中国)有限公司 数据处理方法、装置、终端设备及计算机存储介质
CN109656952B (zh) * 2018-10-31 2021-04-13 北京百度网讯科技有限公司 查询处理方法、装置及电子设备
CN112256847B (zh) * 2020-09-30 2023-04-07 昆明理工大学 融合事实文本的知识库问答方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330432A (zh) * 2007-06-18 2008-12-24 阿里巴巴集团控股有限公司 一种实现在线问答的***和方法
CN102789496A (zh) * 2012-07-13 2012-11-21 携程计算机技术(上海)有限公司 智能应答的实现方法及***
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答***及构建问答实例库的方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330432A (zh) * 2007-06-18 2008-12-24 阿里巴巴集团控股有限公司 一种实现在线问答的***和方法
CN102789496A (zh) * 2012-07-13 2012-11-21 携程计算机技术(上海)有限公司 智能应答的实现方法及***
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答***及构建问答实例库的方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Natural Language Questions for the Web of Data;Mohamed Yahya etal;《Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning》;20120714;第379-390页 *
Phrase-Based Translation Model for Question Retrieval in Community Question Answer Archives;Guangyou Zhou etal;《Meeting of the Association for Computational Linguistics: Human Language Technologies》;20110624;第653-662页 *
Template-based Question Answering over RDF Data;C Unger etal;《International Conference on World Wide Web》;20121231;第639-648页 *
面向知识库的中文自然语言问句的语义理解;许坤 等;《北京大学学报(自然科学版)》;20140131;第50卷(第1期);第85-92页 *

Also Published As

Publication number Publication date
CN104820694A (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
CN104820694B (zh) 基于多知识库和整数线性规划ilp的自动问答方法和***
Khot et al. Scitail: A textual entailment dataset from science question answering
US10956464B2 (en) Natural language question answering method and apparatus
CN106934012B (zh) 一种基于知识图谱的自然语言问答实现方法和***
Bhutani et al. Learning to answer complex questions over knowledge bases with query composition
Do et al. Developing a BERT based triple classification model using knowledge graph embedding for question answering system
Yang et al. Schemaless and structureless graph querying
CN102262634B (zh) 一种自动问答方法及***
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和***
Faria et al. OAEI 2016 results of AML
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
US20160378853A1 (en) Systems and methods for reducing search-ability of problem statement text
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
Hakkani-Tür et al. Using a knowledge graph and query click logs for unsupervised learning of relation detection
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN107301164B (zh) 数学公式的语义解析方法及装置
Ferrara et al. Automatic wrapper adaptation by tree edit distance matching
US10740401B2 (en) System for the automated semantic analysis processing of query strings
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN104915438B (zh) 一种获取特定话题微博中pcu关联数据的方法
Yan et al. Response selection from unstructured documents for human-computer conversation systems
CN113971394A (zh) 文本复述改写***
Ramar et al. Technical review on ontology mapping techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant