CN104933031A

CN104933031A - 一种基于语义网无监督的自动问答方法

Info

Publication number: CN104933031A
Application number: CN201510363362.1A
Authority: CN
Inventors: 杨燕; 杜泽宇; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-09-23
Anticipated expiration: 2035-06-29
Also published as: CN104933031B

Abstract

本发明公开了一种基于语义网无监督的自动问答方法，该方法需要基于语义网的数据上实现，首先通过对用户问题进行同义转换和词干化，并利用语义网资源内部的数据进行三元组抽取，并找到语义网数据中最相关的实体和属性，生成对应的SPARQL语句查询，最终在支持语义网的用户终端中进行查询，本发明是在一个对基于语义网的自动问答的实现方案，无需复杂的训练预料和复杂的语义分析，只对语义网的文件自学习并利用同义词典进行同义转换，就能对跨领域的语义网知识库进行问答；其客观可行，并较之传统的问答方法能够回答复杂的知识问题。

Description

一种基于语义网无监督的自动问答方法

技术领域

本发明涉及自动问答（QA）的技术领域，具体地说是基于语义网的无监督自动问答的方法。

背景技术

互联网的数据增长迅速，如今已经有很多基于语义网的知识库，（如DBpedia，Freebase，Yoga）。提高这些数据的质与量对互联网向语义网的跨越发展极为重要。同样，随着语义网数据不断完善，如何友好地查询和使用语义网也成为研究的焦点。提供用户友好的自然语言接口，是解决查询语义网问题的关键。而引入语义网技术来进行自动问答并不是依靠单一的算法解决的，而是通过一系列的技术合并完成。现有的语义网标准，提供了在语义网标注的网络数据，利用庞大的语义网知识库，可以获得其背后丰富的语义解释。虽然语义网的技术提供了丰富的语义知识，但基于语义网的自动问答***仍然面临着两大难题：（1）用户和语义网之间转换存在困难：从自动问答的终端用户的角度来说，理解基于逻辑的复杂语义网非常的困难。必须能够允许传统的用户从表达丰富的信息需求的同时能够屏蔽语义网结构的复杂性。（2）语义网数据量大，增长快，异构性增强；现有的方法需要不断的完善来应对不断增长的异构知识数据。因此，在语义网基础上的自动问答***亟需能够提供用户友好的接口以及能够支撑大量分布式的异构数据。最近几年，随着Google知识图谱概念和Siri知识搜索的应用，基于语义网的自动问答***成为了最新最热的研究范畴。

传统的问答***主要分为三种：(1) 基于文本的问答***，即对于查询相关的文档进行检索，并从文档中提取出问题的答案。(2) 基于协同的问答***，这类问答***通常通过找到与用户提问最相似的问题，并检索答案，比如Yahoo！Answer and Quora。 (3)基于结构化数据的问答***，这类问答***通过搜索知识库而不是直接使用纯文本的语料，并将自然语言翻译成结构化的查询语言，比如SQL，SPARQL，以及其它的语言，而其中通过自然语言转换成SPARQL是现阶段最主流的基于语义网自动问答的研究范畴。

发明内容

本发明的目的是提供一种基于语义网无监督的自动问答方法，该方法是在一个对基于语义网的自动问答的实现方案，无需复杂的训练预料和复杂的语义分析，只对语义网的文件自学习并利用同义词典进行同义转换，就能对跨领域的语义网知识库进行问答。

本发明的目的是这样实现的：

一种基于语义网无监督的自动问答方法，该方法需要基于语义网的数据上实现，通过查询处理模块对用户问题进行同义转换和词干化，通过查询生成模块，生成对应的SPARQL语句查询，并在支持语义网的用户终端中进行查询，具体操作步骤：

第一步：用户询问分词，提取词主干，并利用同义词典和语义网中的同义属性进行同义转换；

第二步：查询语义网中与用户询问存在相关的三元组；

第三步：利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体；

第四步：查询语义网中与匹配到的实体词有连接的数据；

第五步：对于第二步至第四步生成的三元组组合成查询，并计算出与原始问题匹配值最高的sparql查询；具体为：

第二步至第四步生成的三元组集合<H>，任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi)，Wi表示原查询中的词，W是数据中的匹配词，Common(Wi,W)是两着的匹配字数，len(Wi)是查询词的长度，simi(Wi,Pi)，是查询词与同义词的相似度（由词典直接给出）。并依据上述公式计算出原始问题匹配值最高的sparql查询；

第六步：利用Jena工具构建sparql查询终端，执行查询；

第七步：结束。

本发明进一步特征在于第一步和第五步，使用监督的方法，仅利用语义网本身的数据进行学习。

与背景技术相比，本发明有以下优点：

⑴、易行性：不需要大量训练预料。传统的问答***需要大量的问答预料，而本方法只需要整理好的语义网数据（如：owl，rdf）就可以进行问答。

⑵、简单性：本方法利用了同义词典进行同意转换，利用Jena进行Sparql查询，而方法也非常容易重现，而语义网的数据也非常容易获取和构建，完成问答该方法的成本很低。

⑶、实时性：本方法是针对小规模的语义网数据能够高效的问答，满足问答***实时性的要求。

⑷、智能性：本方法仅采用了少量的自然语言词干化和同义转换，充分挖掘了语义网本身的结构特征，并利用Jena工具的推理工具执行查询，可以回答知识类问题。

附图说明

图1是本发明的流程图。

具体实施方式

现结合附图详细说明本发明的技术方案。

实施例

本发明需要基于语义网的数据上实现，首先通过对用户问题进行同义转换和词干化，并利用语义网资源内部的数据进行三元组抽取，并找到语义网数据中最相关的实体和属性，生成对应的SPARQL语句查询，最终在支持语义网的用户终端中进行查询，具体操作步骤：

对于问题：“北京的法国菜餐馆有哪些？”

利用Protégé工具和整理好的餐馆数据构建，语义网的数据库餐馆.owl数据文件。

Owl片段如下：

<owl:DatatypeProperty rdf:ID="foodType">

<rdfs:domain rdf:resource="#餐馆"/>

<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>

<ginseng:ignore rdf:value="id text"/>

<ginseng:phrase rdf:value="食品种类"/>

<ginseng:phrase rdf:value="种类"/>

<ginseng:interrogative rdf:value="有哪些种类的吃的"/>

</owl:DatatypeProperty>

….

<owl:DatatypeProperty rdf:ID="位置">

<rdfs:domain rdf:resource="#餐馆"/>

<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>

<ginseng:phrase rdf:value="地址"/>

<ginseng:phrase rdf:value="位置"/>

<ginseng:phrase rdf:value="地点"/>

<ginseng:phrase rdf:value="的"/>

<ginseng:phrase rdf:value="在"/>

<ginseng:interrogative rdf:value="哪儿？"/>

</owl:DatatypeProperty>

….

<label>北京西餐大饭店</label>

<位于>rdf:resource="#北京" />

<菜种类>法国菜</菜种类>

<位置>北京王府井大街<位置>

<评分>好</评分>

</Restaurant>

对于问题“北京的法国菜的饭店有哪些？”，首先进行分词得到“北京的法国菜餐馆有哪些？”，接着识别问题类别，根据关键词有哪些识别问题类别为0（list）类别。利用owl中的数据将问句中的词识别到owl中的数据资源:

北京-> rdf:resource="#北京"

饭店-> rdf:resource="#餐馆"

的-> rdf:resource="#位置"

第二步：查询语义网中与用户询问存在相关的三元组。

查询owl中的三元组库获得如下：

rdf:ID="ID_北京西餐大饭店" owl:is_A rdf:resource="#餐馆"

rdf:ID="ID_北京西餐大饭店" 菜种类法国菜

rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京"

的：位置（= 位置，地点….）

rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京" Ranting 1

rdf:ID="ID_北京西餐大饭店" 位置北京王府井大街 Ranting 1

第四步：查询语义网中与匹配到的实体词有连接的数据；

获得动词数据：位置，菜类别，位于，等；

如：

XX餐馆->#菜种类->’法国菜’

XX餐馆->#位于->北京

找到查询中实体（北京-和-法国菜存在链接）。

第五步：对于第二步至第四步生成的三元组集合<H>，任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi)，Wi表示原查询中的词，W是数据中的匹配词，Common(Wi,W)是两着的匹配字数，len(Wi)是查询词的长度，simi(Wi,Pi)，是查询词与同义词的相似度（由词典直接给出）。并依据上述公式计算出原始问题匹配值最高的sparql查询:

如下面两种查询

1. SELECT distinct * WHERE {

?Restaurant <#菜种类> ‘法国菜’

} Ranting = 0.1*1/3*1 + 0.1*2/3*1 = 0.1

2.SELECT distinct * WHERE {

?Restaurant <#菜种类> ‘法国菜’ .

?Restaurant <#位于> ?City .

?City <#label> ‘北京’ .

?Restaurant <#type> <#Restaurant> .

} Ranting = 0.1*1/3*1 + 0.1*2/3*1 + 0.1*2/2*1 = 0.2

3,

第六步：利用Jena构建sparql查询终端，执行评分最高的查询。

第七步：结束。

Claims

1.一种基于语义网无监督的自动问答方法，其特征在于该方法需要基于语义网的数据上实现，首先通过对用户问题进行同义转换和词干化，并利用语义网资源内部的数据进行三元组抽取，并找到语义网数据中最相关的实体和属性，生成对应的SPARQL语句查询，最终在支持语义网的用户终端中进行查询，具体操作步骤：

第二步：查询语义网中与用户询问存在相关的三元组；

第四步：查询语义网中与匹配到的实体词有连接的数据；

第五步：对于第二步至第四步生成的三元组组合成查询，并计算出与原始问题匹配值最高的sparql查询；

第六步：利用Jena工具构建sparql查询终端，执行查询；

第七步：结束。