CN104820694A - 基于多知识库和整数线性规划ilp的自动问答方法和*** - Google Patents
基于多知识库和整数线性规划ilp的自动问答方法和*** Download PDFInfo
- Publication number
- CN104820694A CN104820694A CN201510208978.1A CN201510208978A CN104820694A CN 104820694 A CN104820694 A CN 104820694A CN 201510208978 A CN201510208978 A CN 201510208978A CN 104820694 A CN104820694 A CN 104820694A
- Authority
- CN
- China
- Prior art keywords
- resource
- entity
- relation
- candidate resource
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000012634 fragment Substances 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 240000000037 Prosopis spicigera Species 0.000 claims description 2
- 235000006629 Prosopis spicigera Nutrition 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 240000000560 Citrus x paradisi Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 229920001897 terpolymer Polymers 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于多知识库和整数线性规划ILP的自动问答方法和***,所述方法包括:创建用于索引多个知识库的实体和/或关系的资源字典;在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;对各候选资源执行转换,获得对应的多个模板;将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。本发明所述方法能够对自然语句在多知识库中进行较精确的查询。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于多知识库和整数线性规划ILP的自动问答方法和***。
背景技术
随着语义网和链接数据的不断发展,知识库的数量也不断增长。如何使人们方便地使用这些知识成为了研究热点。尽管这些知识库通常提供了特定的查询语言,例如SPARQL,但是,利用这种方式来查询知识库,用户不仅需要掌握查询语言的词汇和语法,同时也要了解所查询知识库的内在结构,而这对于普通用户来说是非常困难的。另一方面,使用关键词的问答***虽然易用,但是仅仅使用关键词并不能够充分表达用户的查询需要。作为对比,如果使用自然语言作为接口,不但可以充分表达用户的信息需求,而且允许用户用自己的语言提问。基于知识库的问答***正是使用自然语言作为知识库的接口,因此得到了广泛的关注和研究。基于知识库的问答的目标是给定一个自然语言问句,在知识库中找到答案。这个问题的难点是将自然语言问句转化为规范的无歧义的语义表达,这样的语义表达可以很容易地转化为知识库的查询语言。
随着知识库数量的快速增长,能够在多个知识库上进行问答的***在最近几年得到了更多的研究。问答***需要找到相关的知识库来回答问题,并且需要把问句映射到相应知识库的语义资源上。另外一种更加复杂的情况是,一个问题需要联合多个知识库才能给出答案,其中每个知识库只能给出答案的一部分,这些不完整的答案需要整合在一起得到最终的结果。这个问题需要解决两个方面的挑战:第一,由于知识库的增加,自然语言问句中的词或短语就可能对应更多的知识库资源,即资源歧义问题变得更加严峻;第二,不同的知识库之间是异质的,结构和实体的表达方式各不相同,要组成一个统一的查询语句需要探索和理解各个知识库之间的已有连接,得到知识库之间的对应关系。
现有的技术都采用管道式的结构,资源映射的结果用来建立查询,而查询构建的过程不能对资源映射产生影响。这就可能导致一种错误,即资源映射步骤得到的资源,在查询构建步骤中用不到。
发明内容
本发明提供一种基于多知识库和整数线性规划(Integer LinearPlanning,ILP)的自动问答方法和***,以实现根据自然语言问句在多知识库中获取查询结果。
本发明的第一个方面是提供一种基于多知识库和整数线性规划ILP的自动问答方法,包括:
创建用于索引多个知识库的实体和/或关系的资源字典;
在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
对各候选资源执行转换,获得对应的多个模板;
将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
本发明的第二个方面是提供一种基于多知识库和整数线性规划ILP的自动问答***,包括:
多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
本发明的有益效果为:
本发明基于多知识库和整数线性规划ILP的自动问答方法通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理,即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化,能够获得较精确的规范查询语句,从而使最终在多知识库中进行规范查询的结果更加准确。
附图说明
图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图;
图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的架构图;
图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的结构框图。
具体实施方式
图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程图,图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的示意图,如图1和图2所示,本发明基于多知识库和整数线性规划ILP的自动问答方法包括:
S101、创建用于索引多个知识库的实体和/或关系的资源字典;
优选的,所述创建用于索引多个知识库的实体和关系的资源字典包括:
对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签,以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系;
S102、在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
优选的,所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括:
S1021、在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度;
S1022、若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保留对应的文本片段;
S103、对各候选资源执行转换,获得对应的多个模板;
优选的,所述对各候选资源执行转换,获得对应的多个模板包括根据启发式规则进行转换,获得三元组模板,包括:
对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和第二变量的实体变量三元组模板;
对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板,如表1所示:
表1
S104、将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
优选的,所述将各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图,其中,流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度PE和关系候选资源的流行度PR:
关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源(EE类型)的关联度REE、关系关系候选资源(RR类型)的关联度RRR和实体关系候选资源(ER类型)的关联度RER:
REE=(#sharedRelArg1(r1,r2)+#sharedRelArg2(r1,r2))×pop-1(r1)×pop-1(r2) (3);
RRR=(#sharedEntArg1(r1,r2)+#sharedEntArg2(r1,r2))×pop-1(r1)×pop-1(r2) (4);
RER=#cooccurrence(r1,r2)×pop-1(r1)×pop-1(r2) (5);
组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度RRR、关系候选资源的组合度RER和实体关系关系候选资源的组合度RERR:
RRR=confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6);
RER=relatedness(e1,r1)×relatedness(e2,r2)×confidence(e1)×confidence(r1) (7);
×confidence(e2)×confidence(r2)×pop(e1)×pop(r1)×pop(e2)×pop(r2)
RERR=relatedness(e,r2)×confidence(r1)×confidence(r2) (8);
×confidence(r1)×pop(r1)×pop(r2)×pop(e)
其中、InDegree(r)表示资源r的入度,OutDegree(r)表示资源r的出度,Frequency(r)表示资源r在其知识库中出现的频率,r'和KB表示r’表示任意一个资源,KB表示知识库(Knowledge Base);sharedRelArg1(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系,sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第一变量,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第二变量;cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数,pop(r1)表示关系1的流行度,confidence(r1)表示资源r1的置信度,relatedness(e,r2)表示实体e和关系r2的关联程度;
流行度、关联度和组合度的计算如表2a)、2b)和2c)所示:
表2a)
表2b)
表2c);
S105、根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句;
优选的,所述根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)~l)下、最大化目标函数以推理选取至少一个待查询模板(也即三元组模板)来生成规范查询语句:
a)如果文本片段fi选中,那么映射边Mi-必须被选中:
Fi≤∑jMij;
b)一个文本片段至多被映射到一个候选资源:
c)如果映射边Mij被选中,那么相应的文本片段fi和候选资源rj必须被选中:
d)如果候选资源rk和候选资源rl同时被选中,即Rkl=1,那么相应的文本片段一定要映射到rk和rl上:
Rkl≤∑iMik and Rkl≤∑jMjl;
e)如果两个文本片段有重叠,那么它们不能同时被选中:
f)如果转换边Tkm被选中,那么相应的候选资源rk和模板pm必须被选中:
Tkm≤∑iRki+∑jRjk,
Tkm≤∑iPim+∑jPmj;
g)如果Rmn被选中,那么转换边Tm-和Tn-也要被选中:
Rmn≤∑kTmkand Rmn≤∑kTnk;
h)如果Puv被选中,那么转换边T-u和T-v也要被选中:
Puv≤∑mTmu and Puv≤∑mTmv;
i)如果一个ER类型三元组模板被选中,那么相应的转换边要被选中:
j)为了确保能得到一个结果,至少一个Puv要被选中,而且如果只有一个模板Puv被选中,那么它的类型必须是ER:
∑u,vPuv≥1,Type(pu)=ER or Type(pv=ER);
k)只有任何两个模板之间没有联系时,才允许Puv=1,u=v,这表示这模板pu被选中:
∑u,vPuv·∑m,nPmn=0,u=v,m≠n;
l)如果Puv=1,u=v,那么不能有其它的Pmn=1,m=n,因为模板pu和pm之间没有联系,否则Pum=1;
目标函数为:
优选的,在所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后,还包括:
S106、在多知识库中对所述规范查询语句执行查询来获得最终查询结果。
通过下面实验来说明本发明基于多知识库和整数线性规划ILP的自动问答方法的性能:
1)测试语料
我们在三个数据集上进行实验,一个是内部关联知识库上问答的基准数据集,一个是QALD-4任务2的数据集和一个中文多源知识库问答测试集。内部关联知识库上的问答基准数据集是由Shekarpour et al.[2013]创建的。它包含25个问题,是第一个在链接数据上进行联合查询的数据集。它依赖三个知识库,Drugbank(描述FDA批准的药物的活性成分)、Sider(描述药物和它们的副作用)和Diseasome(描述疾病和基因缺陷)。基于链接数据的问答4(Question Answering over Linked Data 4,QALD-4)是链接数据上问答的第四届评测。它的第二个任务是在关联的知识库上进行问答,训练集和测试集各有25个问题。中文知识库有人工创建得到。为了使问题具有多样性,我们请5个人独立提问。这些问题基于三个知识库。MOVIE是一个关于电影领域的知识库,MUSIC是音乐领域的知识库,GENERAL提供一些常用知识,例如人物之间的关系。所有知识库中的事实都是从相关的网站抽取的,分别是Mtime、Douban Music和Baidu Baike。
2)基于多知识库和整数线性规划ILP的自动问答方法的提高
通过对比其它已有方法的结果来说明本方法的有效性,基于多知识库和整数线性规划ILP的自动问答方法和其它方法结果的对比结果如表3:
表3
对于基准数据集,作为比较的***是SINA,对于QALD-4任务2数据集,我们和所有参加评测的***比较:GFMed、POMELO和RO_FII。对于中文数据集,我们发现SINA***只需要把切割问句部分改进成适用中文就可以应用。以上所有提到的***均采用管道式结构。Ours是本方法不采用多知识库链接所得到的结果,Ours为本方法的最终实验结果。
从上述实验结果可以看到,使用基于整数线性规划的针对多知识库的自动问答方法在多知识库问答任务中取得了不错的效果。这个方法被证明是有效的。
本发明基于多知识库和整数线性规划ILP的自动问答方法采用联合模型来解决多源知识库问答问题,把资源映射和查询构建放在一个统一的框架完成。这使得资源映射和查询构建过程可以互相影响。资源映射过程可以为查询构建过程提供必要的资源,同时查询构建过程可以避免资源映射过程产生错误的资源,减少了管道式方法造成的错误积累。经过实验表明,对于多知识库问答的F值在多个数据集上均有提升。也就是说,通过在查询构建时对文本片段映射得到的资源以及转换后的三元组模板进行联合推理,即同时针对自然语言的文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化,能够获得较精确的规范查询语句,从而使最终在多知识库中进行规范查询的结果更加准确。
图3为本发明基于多知识库和整数线性规划ILP的自动问答***实施例一的架构图,如图3所示,本发明基于多知识库和整数线性规划ILP的自动问答***包括:
多知识库索引模块21,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块22,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块23,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块24,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块25,用于根据整数线性规划ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,包括:
创建用于索引多个知识库的实体和/或关系的资源字典;
在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
对各候选资源执行转换,获得对应的多个模板;
将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
2.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述创建用于索引多个知识库的实体和关系的资源字典包括:
对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签,以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实体或关系。
3.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源包括:
在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系与文本片段的相似度;
若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保留对应的文本片段。
4.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述对各候选资源执行转换,获得对应的多个模板包括根据启发式规则进行转换,获得三元组模板,包括:
对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和第二变量的实体关系三元组模板;
对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变量或第二变量、关系候选资源和实体候选资源的三元组模板。
5.根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述将各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的流行度、关联度和组合度组合成消歧图,其中,流行度的计算为分别根据公式(1)和(2)计算实体候选资源的流行度PE和关系候选资源的流行度PR:
关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源的关联度REE、关系关系候选资源的关联度RRR和实体关系候选资源的关联度RER:
REE=(#sharedRelArg1(r1,r2)+#sharedRelArg2(r1,r2))×pop-1(r1)×pop-1(r2) (3);
RRR=(#sharedEntArg1(r1,r2)+#sharedEntArg2(r1,r2))×pop-1(r1)×pop-1(r2) (4);
RER=#cooccurrence(r1,r2)×pop-1(r1)×pop-1(r2) (5);
组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度RRR、关系候选资源的组合度RER和实体关系关系候选资源的组合度RERR:
RRR=confidence(r1)×confidence(r2)×pop(r1)×pop(r2) (6);
其中、InDegree(r)表示资源r的入度,OutDegree(r)表示资源r的出度,Frequency(r)表示资源r在其知识库中出现的频率,r'和KB表示r’表示任意一个资源,KB表示知识库;sharedRelArg1(r1,r2)表示实体r1和r2同时作为第一变量所共享的关系,sharedRelArg2(r1,r2)表示实体r1和r2同时作为第二变量所共享的关系,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第一变量,sharedEntArg1(r1,r2)表示关系r1和r2所共享的第二变量;cooccurrence(r1,r2)表示资源r1和r2共同出现在一个三元组的次数,pop(r1)表示关系1的流行度,confidence(r1)表示资源r1的置信度,relatedness(e,r2)表示实体e和关系r2的关联程度。
6.根据权利要求5所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句包括在ILP限制条件a)~l)下、最大化目标函数以推理选取至少一个待查询模板来生成规范查询语句:
a)如果文本片段fi选中,那么映射边Mi-必须被选中:
Fi≤∑jMij;
b)一个文本片段至多被映射到一个候选资源:
c)如果映射边Mij被选中,那么相应的文本片段fi和候选资源rj必须被选中:
d)如果候选资源rk和候选资源rl同时被选中,即Rkl=1,那么相应的文本片段一定要映射到rk和rl上:
e)如果两个文本片段有重叠,那么它们不能同时被选中:
f)如果转换边Tkm被选中,那么相应的候选资源rk和模板pm必须被选中:
Tkm≤∑iRki+∑jRjk,
Tkm≤∑iPim+∑jPmj;
g)如果Rmn被选中,那么转换边Tm-和Tn-也要被选中:
Rmn≤∑kTmkand Rmn≤∑kTnk;
h)如果Puv被选中,那么转换边T-u和T-v也要被选中:
Puv≤∑mTmu and Puv≤∑mTmv;
i)如果一个实体关系三元组模板被选中,那么相应的转换边要被选中:
j)为了确保能得到一个结果,至少一个Puv要被选中,而且如果只有一个模板Puv被选中,那么它的类型必须是ER:
∑u,vPuv≥1,Type(pu)=ER or Type(pv=ER);
k)只有任何两个模板之间没有联系时,才允许Puv=1,u=v,这表示这模板pu被选中:
∑u,vPuv·∑m,nPmn=0,u=v,m≠n;
l)如果Puv=1,u=v,那么不能有其它的Pmn=1,m=n,因为模板pu和pm之间没有联系,否则Pum=1;
目标函数为:
7.一种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,在所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后,还包括:
在多知识库中对所述规范查询语句执行查询来获得最终查询结果。
8.一种基于多知识库和整数线性规划ILP的自动问答***,其特征在于,包括:
多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字典;
文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;
资源转换模块,用于对各候选资源执行转换,获得对应的多个模板;
图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510208978.1A CN104820694B (zh) | 2015-04-28 | 2015-04-28 | 基于多知识库和整数线性规划ilp的自动问答方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510208978.1A CN104820694B (zh) | 2015-04-28 | 2015-04-28 | 基于多知识库和整数线性规划ilp的自动问答方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104820694A true CN104820694A (zh) | 2015-08-05 |
CN104820694B CN104820694B (zh) | 2019-03-15 |
Family
ID=53730989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510208978.1A Active CN104820694B (zh) | 2015-04-28 | 2015-04-28 | 基于多知识库和整数线性规划ilp的自动问答方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820694B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570138A (zh) * | 2016-11-03 | 2017-04-19 | 北京百度网讯科技有限公司 | 基于人工智能的信息搜索方法和装置 |
CN107992528A (zh) * | 2017-11-13 | 2018-05-04 | 清华大学 | 利用可解释推理网络的多关系问答*** |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
CN108920488A (zh) * | 2018-05-14 | 2018-11-30 | 平安科技(深圳)有限公司 | 多***相结合的自然语言处理方法及装置 |
CN109376298A (zh) * | 2018-09-14 | 2019-02-22 | 广州神马移动信息科技有限公司 | 数据处理方法、装置、终端设备及计算机存储介质 |
CN109656952A (zh) * | 2018-10-31 | 2019-04-19 | 北京百度网讯科技有限公司 | 查询处理方法、装置及电子设备 |
CN107451240B (zh) * | 2017-07-26 | 2019-12-13 | 北京大学 | 一种基于交互的知识图谱问答q/a***检索提升方法和装置 |
CN112256847A (zh) * | 2020-09-30 | 2021-01-22 | 昆明理工大学 | 融合事实文本的知识库问答方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101330432A (zh) * | 2007-06-18 | 2008-12-24 | 阿里巴巴集团控股有限公司 | 一种实现在线问答的***和方法 |
CN102789496A (zh) * | 2012-07-13 | 2012-11-21 | 携程计算机技术(上海)有限公司 | 智能应答的实现方法及*** |
CN103049433A (zh) * | 2012-12-11 | 2013-04-17 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答***及构建问答实例库的方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104361127A (zh) * | 2014-12-05 | 2015-02-18 | 广西师范大学 | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 |
-
2015
- 2015-04-28 CN CN201510208978.1A patent/CN104820694B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101330432A (zh) * | 2007-06-18 | 2008-12-24 | 阿里巴巴集团控股有限公司 | 一种实现在线问答的***和方法 |
CN102789496A (zh) * | 2012-07-13 | 2012-11-21 | 携程计算机技术(上海)有限公司 | 智能应答的实现方法及*** |
CN103049433A (zh) * | 2012-12-11 | 2013-04-17 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答***及构建问答实例库的方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104361127A (zh) * | 2014-12-05 | 2015-02-18 | 广西师范大学 | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 |
Non-Patent Citations (4)
Title |
---|
C UNGER ETAL: "Template-based Question Answering over RDF Data", 《INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
GUANGYOU ZHOU ETAL: "Phrase-Based Translation Model for Question Retrieval in Community Question Answer Archives", 《MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES》 * |
MOHAMED YAHYA ETAL: "Natural Language Questions for the Web of Data", 《JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL NATURAL LANGUAGE LEARNING》 * |
许坤 等: "面向知识库的中文自然语言问句的语义理解", 《北京大学学报(自然科学版)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570138A (zh) * | 2016-11-03 | 2017-04-19 | 北京百度网讯科技有限公司 | 基于人工智能的信息搜索方法和装置 |
CN106570138B (zh) * | 2016-11-03 | 2020-03-03 | 北京百度网讯科技有限公司 | 基于人工智能的信息搜索方法和装置 |
CN107451240B (zh) * | 2017-07-26 | 2019-12-13 | 北京大学 | 一种基于交互的知识图谱问答q/a***检索提升方法和装置 |
CN107992528A (zh) * | 2017-11-13 | 2018-05-04 | 清华大学 | 利用可解释推理网络的多关系问答*** |
CN107992528B (zh) * | 2017-11-13 | 2022-07-05 | 清华大学 | 利用可解释推理网络的多关系问答*** |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
CN108920488A (zh) * | 2018-05-14 | 2018-11-30 | 平安科技(深圳)有限公司 | 多***相结合的自然语言处理方法及装置 |
CN108920488B (zh) * | 2018-05-14 | 2021-09-28 | 平安科技(深圳)有限公司 | 多***相结合的自然语言处理方法及装置 |
CN109376298A (zh) * | 2018-09-14 | 2019-02-22 | 广州神马移动信息科技有限公司 | 数据处理方法、装置、终端设备及计算机存储介质 |
CN109656952A (zh) * | 2018-10-31 | 2019-04-19 | 北京百度网讯科技有限公司 | 查询处理方法、装置及电子设备 |
CN109656952B (zh) * | 2018-10-31 | 2021-04-13 | 北京百度网讯科技有限公司 | 查询处理方法、装置及电子设备 |
CN112256847A (zh) * | 2020-09-30 | 2021-01-22 | 昆明理工大学 | 融合事实文本的知识库问答方法 |
CN112256847B (zh) * | 2020-09-30 | 2023-04-07 | 昆明理工大学 | 融合事实文本的知识库问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104820694B (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820694A (zh) | 基于多知识库和整数线性规划ilp的自动问答方法和*** | |
Khot et al. | Scitail: A textual entailment dataset from science question answering | |
US11640515B2 (en) | Method and neural network system for human-computer interaction, and user equipment | |
Nguyen et al. | Codewebs: scalable homework search for massive open online programming courses | |
US10769552B2 (en) | Justifying passage machine learning for question and answer systems | |
Aizawa et al. | NTCIR-11 Math-2 Task Overview. | |
Aizawa et al. | NTCIR-10 Math Pilot Task Overview. | |
CN102262634B (zh) | 一种自动问答方法及*** | |
US9305083B2 (en) | Author disambiguation | |
WO2021213314A1 (zh) | 数据处理方法、装置及计算机可读存储介质 | |
US20150261859A1 (en) | Answer Confidence Output Mechanism for Question and Answer Systems | |
US20160378853A1 (en) | Systems and methods for reducing search-ability of problem statement text | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
Giordani et al. | Semantic mapping between natural language questions and SQL queries via syntactic pairing | |
CN110427471B (zh) | 一种基于知识图谱的自然语言问答方法及*** | |
CN101261602A (zh) | 一种基于语法树的程序正确性验证方法 | |
Risse et al. | The ARCOMEM architecture for social-and semantic-driven web archiving | |
CN108520038B (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
Zheng et al. | Question answering over knowledge graphs via structural query patterns | |
CN114780740A (zh) | 一种茶叶知识图谱的构建方法 | |
Toti | AQUEOS: a system for question answering over semantic data | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
Waltinger et al. | Usi answers: Natural language question answering over (semi-) structured industry data | |
CN116860991A (zh) | 面向api推荐的基于知识图谱驱动路径优化的意图澄清方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |