CN104933031A - 一种基于语义网无监督的自动问答方法 - Google Patents
一种基于语义网无监督的自动问答方法 Download PDFInfo
- Publication number
- CN104933031A CN104933031A CN201510363362.1A CN201510363362A CN104933031A CN 104933031 A CN104933031 A CN 104933031A CN 201510363362 A CN201510363362 A CN 201510363362A CN 104933031 A CN104933031 A CN 104933031A
- Authority
- CN
- China
- Prior art keywords
- semantic
- data
- semantic web
- net
- semantic net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,本发明是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答;其客观可行,并较之传统的问答方法能够回答复杂的知识问题。
Description
技术领域
本发明涉及自动问答(QA)的技术领域,具体地说是基于语义网的无监督自动问答的方法。
背景技术
互联网的数据增长迅速,如今已经有很多基于语义网的知识库,(如DBpedia,Freebase,Yoga)。提高这些数据的质与量对互联网向语义网的跨越发展极为重要。同样,随着语义网数据不断完善,如何友好地查询和使用语义网也成为研究的焦点。提供用户友好的自然语言接口,是解决查询语义网问题的关键。而引入语义网技术来进行自动问答并不是依靠单一的算法解决的,而是通过一系列的技术合并完成。现有的语义网标准,提供了在语义网标注的网络数据,利用庞大的语义网知识库,可以获得其背后丰富的语义解释。虽然语义网的技术提供了丰富的语义知识,但基于语义网的自动问答***仍然面临着两大难题:(1)用户和语义网之间转换存在困难:从自动问答的终端用户的角度来说,理解基于逻辑的复杂语义网非常的困难。必须能够允许传统的用户从表达丰富的信息需求的同时能够屏蔽语义网结构的复杂性。(2)语义网数据量大,增长快,异构性增强;现有的方法需要不断的完善来应对不断增长的异构知识数据。因此,在语义网基础上的自动问答***亟需能够提供用户友好的接口以及能够支撑大量分布式的异构数据。最近几年,随着Google知识图谱概念和Siri知识搜索的应用,基于语义网的自动问答***成为了最新最热的研究范畴。
传统的问答***主要分为三种:(1) 基于文本的问答***,即对于查询相关的文档进行检索,并从文档中提取出问题的答案。(2) 基于协同的问答***,这类问答***通常通过找到与用户提问最相似的问题,并检索答案,比如Yahoo!Answer and Quora。 (3)基于结构化数据的问答***,这类问答***通过搜索知识库而不是直接使用纯文本的语料,并将自然语言翻译成结构化的查询语言,比如SQL,SPARQL,以及其它的语言,而其中通过自然语言转换成SPARQL是现阶段最主流的基于语义网自动问答的研究范畴。
发明内容
本发明的目的是提供一种基于语义网无监督的自动问答方法,该方法是在一个对基于语义网的自动问答的实现方案,无需复杂的训练预料和复杂的语义分析,只对语义网的文件自学习并利用同义词典进行同义转换,就能对跨领域的语义网知识库进行问答。
本发明的目的是这样实现的:
一种基于语义网无监督的自动问答方法,该方法需要基于语义网的数据上实现,通过查询处理模块对用户问题进行同义转换和词干化,通过查询生成模块,生成对应的SPARQL语句查询,并在支持语义网的用户终端中进行查询,具体操作步骤:
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
第二步:查询语义网中与用户询问存在相关的三元组;
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
第四步:查询语义网中与匹配到的实体词有连接的数据;
第五步:对于第二步至第四步生成的三元组组合成查询,并计算出与原始问题匹配值最高的sparql查询;具体为:
第二步至第四步生成的三元组集合<H>,任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi),Wi表示原查询中的词,W是数据中的匹配词,Common(Wi,W)是两着的匹配字数,len(Wi)是查询词的长度,simi(Wi,Pi),是查询词与同义词的相似度(由词典直接给出)。并依据上述公式计算出原始问题匹配值最高的sparql查询;
第六步:利用Jena工具构建sparql查询终端,执行查询;
第七步:结束。
本发明进一步特征在于第一步和第五步,使用监督的方法,仅利用语义网本身的数据进行学习。
与背景技术相比,本发明有以下优点:
⑴、易行性:不需要大量训练预料。传统的问答***需要大量的问答预料,而本方法只需要整理好的语义网数据(如:owl,rdf)就可以进行问答。
⑵、简单性:本方法利用了同义词典进行同意转换,利用Jena进行Sparql查询,而方法也非常容易重现,而语义网的数据也非常容易获取和构建,完成问答该方法的成本很低。
⑶、实时性:本方法是针对小规模的语义网数据能够高效的问答,满足问答***实时性的要求。
⑷、智能性:本方法仅采用了少量的自然语言词干化和同义转换,充分挖掘了语义网本身的结构特征,并利用Jena工具的推理工具执行查询,可以回答知识类问题。
附图说明
图1是本发明的流程图。
具体实施方式
现结合附图详细说明本发明的技术方案。
实施例
本发明需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,具体操作步骤:
对于问题:“北京的法国菜餐馆有哪些?”
利用Protégé工具和整理好的餐馆数据构建,语义网的数据库餐馆.owl数据文件。
Owl片段如下:
<owl:DatatypeProperty rdf:ID="foodType">
<rdfs:domain rdf:resource="#餐馆"/>
<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
<ginseng:ignore rdf:value="id text"/>
<ginseng:phrase rdf:value="食品种类"/>
<ginseng:phrase rdf:value="种类"/>
<ginseng:interrogative rdf:value="有哪些种类的吃的"/>
</owl:DatatypeProperty>
….
<owl:DatatypeProperty rdf:ID="位置">
<rdfs:domain rdf:resource="#餐馆"/>
<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
<ginseng:phrase rdf:value="地址"/>
<ginseng:phrase rdf:value="位置"/>
<ginseng:phrase rdf:value="地点"/>
<ginseng:phrase rdf:value="的"/>
<ginseng:phrase rdf:value="在"/>
<ginseng:interrogative rdf:value="哪儿?"/>
</owl:DatatypeProperty>
….
<Restaurant rdf:ID="ID_北京西餐大饭店">
<label>北京西餐大饭店</label>
<位于>rdf:resource="#北京" />
<菜种类>法国菜</菜种类>
<位置>北京王府井大街<位置>
<rating rdf:datatype="http://www.w3.org/2001/XMLSchema#float">4.7</rating>
<评分>好</评分>
</Restaurant>
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
对于问题“北京的法国菜的饭店有哪些?”,首先进行分词得到“北京 的 法国菜 餐馆 有 哪些?”,接着识别问题类别,根据关键词有哪些识别问题类别为0(list)类别。利用owl中的数据将问句中的词识别到owl中的数据资源:
北京-> rdf:resource="#北京"
饭店-> rdf:resource="#餐馆"
的-> rdf:resource="#位置"
第二步:查询语义网中与用户询问存在相关的三元组。
查询owl中的三元组库获得如下:
rdf:ID="ID_北京西餐大饭店" owl:is_A rdf:resource="#餐馆"
rdf:ID="ID_北京西餐大饭店" 菜种类 法国菜
rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京"
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
的:位置(= 位置,地点….)
rdf:ID="ID_北京西餐大饭店" 位于 rdf:resource="#北京" Ranting 1
rdf:ID="ID_北京西餐大饭店" 位置 北京王府井大街 Ranting 1
第四步:查询语义网中与匹配到的实体词有连接的数据;
获得动词数据: 位置,菜类别,位于,等;
如:
XX餐馆->#菜种类->’法国菜’
XX餐馆->#位于->北京
找到 查询中 实体(北京-和-法国菜存在链接)。
第五步:对于第二步至第四步生成的三元组集合<H>,任选K个三元组组合成如下所示查询Select distinct * {where P 属于<H> .}并计依据:Ranting=∑0.1*(Common(Pi,W)/len(Wi)) *sim(Wi,Pi),Wi表示原查询中的词,W是数据中的匹配词,Common(Wi,W)是两着的匹配字数,len(Wi)是查询词的长度,simi(Wi,Pi),是查询词与同义词的相似度(由词典直接给出)。并依据上述公式计算出原始问题匹配值最高的sparql查询:
如下面两种查询
1. SELECT distinct * WHERE {
?Restaurant <#菜种类> ‘法国菜’
} Ranting = 0.1*1/3*1 + 0.1*2/3*1 = 0.1
2.SELECT distinct * WHERE {
?Restaurant <#菜种类> ‘法国菜’ .
?Restaurant <#位于> ?City .
?City <#label> ‘北京’ .
?Restaurant <#type> <#Restaurant> .
} Ranting = 0.1*1/3*1 + 0.1*2/3*1 + 0.1*2/2*1 = 0.2
3,
第六步:利用Jena构建sparql查询终端,执行评分最高的查询。
第七步:结束。
Claims (1)
1.一种基于语义网无监督的自动问答方法,其特征在于该方法需要基于语义网的数据上实现,首先通过对用户问题进行同义转换和词干化,并利用语义网资源内部的数据进行三元组抽取,并找到语义网数据中最相关的实体和属性,生成对应的SPARQL语句查询,最终在支持语义网的用户终端中进行查询,具体操作步骤:
第一步:用户询问分词,提取词主干,并利用同义词典和语义网中的同义属性进行同义转换;
第二步:查询语义网中与用户询问存在相关的三元组;
第三步:利用字符相似度和同义词找出语义网中与问题中的词相似度高的实体;
第四步:查询语义网中与匹配到的实体词有连接的数据;
第五步:对于第二步至第四步生成的三元组组合成查询,并计算出与原始问题匹配值最高的sparql查询;
第六步:利用Jena工具构建sparql查询终端,执行查询;
第七步:结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510363362.1A CN104933031B (zh) | 2015-06-29 | 2015-06-29 | 一种基于语义网无监督的自动问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510363362.1A CN104933031B (zh) | 2015-06-29 | 2015-06-29 | 一种基于语义网无监督的自动问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933031A true CN104933031A (zh) | 2015-09-23 |
CN104933031B CN104933031B (zh) | 2018-11-06 |
Family
ID=54120200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510363362.1A Active CN104933031B (zh) | 2015-06-29 | 2015-06-29 | 一种基于语义网无监督的自动问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933031B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912575A (zh) * | 2016-03-31 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 文字信息推送方法和装置 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106997399A (zh) * | 2017-05-24 | 2017-08-01 | 海南大学 | 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法 |
CN107992608A (zh) * | 2017-12-15 | 2018-05-04 | 南开大学 | 一种基于关键字上下文的sparql查询语句自动生成方法 |
CN108073587A (zh) * | 2016-11-09 | 2018-05-25 | 阿里巴巴集团控股有限公司 | 一种自动问答方法、装置及电子设备 |
CN108959467A (zh) * | 2018-06-20 | 2018-12-07 | 华东师范大学 | 一种基于强化学习的问句和答案句相关度的计算方法 |
CN113468255A (zh) * | 2021-06-25 | 2021-10-01 | 西安电子科技大学 | 基于知识图谱的社会治安综合治理领域数据融合方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101030267A (zh) * | 2006-02-28 | 2007-09-05 | 腾讯科技(深圳)有限公司 | 自动问答方法及*** |
US20090204605A1 (en) * | 2008-02-07 | 2009-08-13 | Nec Laboratories America, Inc. | Semantic Search Via Role Labeling |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN102789496A (zh) * | 2012-07-13 | 2012-11-21 | 携程计算机技术(上海)有限公司 | 智能应答的实现方法及*** |
US20140229163A1 (en) * | 2013-02-12 | 2014-08-14 | International Business Machines Corporation | Latent semantic analysis for application in a question answer system |
US8935277B2 (en) * | 2012-03-30 | 2015-01-13 | Sap Se | Context-aware question answering system |
CN104572618A (zh) * | 2014-12-31 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种问答***中基于语义的相似度分析方法、***及应用 |
-
2015
- 2015-06-29 CN CN201510363362.1A patent/CN104933031B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030267A (zh) * | 2006-02-28 | 2007-09-05 | 腾讯科技(深圳)有限公司 | 自动问答方法及*** |
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
US20090204605A1 (en) * | 2008-02-07 | 2009-08-13 | Nec Laboratories America, Inc. | Semantic Search Via Role Labeling |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
US8935277B2 (en) * | 2012-03-30 | 2015-01-13 | Sap Se | Context-aware question answering system |
CN102789496A (zh) * | 2012-07-13 | 2012-11-21 | 携程计算机技术(上海)有限公司 | 智能应答的实现方法及*** |
US20140229163A1 (en) * | 2013-02-12 | 2014-08-14 | International Business Machines Corporation | Latent semantic analysis for application in a question answer system |
CN104572618A (zh) * | 2014-12-31 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种问答***中基于语义的相似度分析方法、***及应用 |
Non-Patent Citations (3)
Title |
---|
ESTHER KAUFMANN 等: "NLP-Reduce: A "Naive" but Domain-independent", 《4TH EUROPEAN SEMANTIC WEB CONFERENCE》 * |
张宗仁: "基于自然语言理解的本体语义信息检索", 《中国优秀硕士学位论文全文数据就 信息科技辑》 * |
许德山 等: "基于本体的中文语义检索***", 《情报理论与实践》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912575A (zh) * | 2016-03-31 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 文字信息推送方法和装置 |
CN105912575B (zh) * | 2016-03-31 | 2020-05-15 | 百度在线网络技术(北京)有限公司 | 文字信息推送方法和装置 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106446018B (zh) * | 2016-08-29 | 2020-02-04 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN108073587A (zh) * | 2016-11-09 | 2018-05-25 | 阿里巴巴集团控股有限公司 | 一种自动问答方法、装置及电子设备 |
CN108073587B (zh) * | 2016-11-09 | 2022-05-27 | 阿里巴巴集团控股有限公司 | 一种自动问答方法、装置及电子设备 |
CN106997399A (zh) * | 2017-05-24 | 2017-08-01 | 海南大学 | 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法 |
CN107992608A (zh) * | 2017-12-15 | 2018-05-04 | 南开大学 | 一种基于关键字上下文的sparql查询语句自动生成方法 |
CN107992608B (zh) * | 2017-12-15 | 2021-07-02 | 南开大学 | 一种基于关键字上下文的sparql查询语句自动生成方法 |
CN108959467A (zh) * | 2018-06-20 | 2018-12-07 | 华东师范大学 | 一种基于强化学习的问句和答案句相关度的计算方法 |
CN108959467B (zh) * | 2018-06-20 | 2021-10-15 | 华东师范大学 | 一种基于强化学习的问句和答案句相关度的计算方法 |
CN113468255A (zh) * | 2021-06-25 | 2021-10-01 | 西安电子科技大学 | 基于知识图谱的社会治安综合治理领域数据融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104933031B (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933031A (zh) | 一种基于语义网无监督的自动问答方法 | |
CN105868313B (zh) | 一种基于模板匹配技术的知识图谱问答***及方法 | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
US10585924B2 (en) | Processing natural-language documents and queries | |
Augenstein et al. | Lodifier: Generating linked data from unstructured text | |
CN103646032B (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
CN104572970B (zh) | 一种基于本体库内容的sparql查询语句生成*** | |
US10467256B2 (en) | Automatic query pattern generation | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN104021198B (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成***及方法 | |
CN107992608B (zh) | 一种基于关键字上下文的sparql查询语句自动生成方法 | |
CN103577548B (zh) | 近音文字匹配方法及装置 | |
CN106874422A (zh) | 一种面向关系型数据库的图查询方法 | |
CN107943919B (zh) | 一种面向会话式实体搜索的查询扩展方法 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
US10380248B1 (en) | Acronym identification in domain names | |
WO2017161749A1 (zh) | 一种信息匹配方法及装置 | |
JP2015088064A (ja) | テキスト要約装置、方法、及びプログラム | |
KR20180093157A (ko) | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 | |
CN109271560A (zh) | 一种基于树模板的链接数据关键词查询方法 | |
CN106021306A (zh) | 基于本体匹配的案例搜索*** | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
Yao et al. | An automatic semantic extraction method for web data interchange | |
Qiu et al. | Review of development and construction of Uyghur knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |