CN101566988A - 一种模糊语义搜索方法、***及设备 - Google Patents

一种模糊语义搜索方法、***及设备 Download PDF

Info

Publication number
CN101566988A
CN101566988A CNA2008100939692A CN200810093969A CN101566988A CN 101566988 A CN101566988 A CN 101566988A CN A2008100939692 A CNA2008100939692 A CN A2008100939692A CN 200810093969 A CN200810093969 A CN 200810093969A CN 101566988 A CN101566988 A CN 101566988A
Authority
CN
China
Prior art keywords
fuzzy
interval
search
node
reasoning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100939692A
Other languages
English (en)
Inventor
文坤梅
李瑞轩
孙小林
张翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Huazhong University of Science and Technology
Original Assignee
Huawei Technologies Co Ltd
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Huazhong University of Science and Technology filed Critical Huawei Technologies Co Ltd
Priority to CNA2008100939692A priority Critical patent/CN101566988A/zh
Publication of CN101566988A publication Critical patent/CN101566988A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模糊语义搜索方法,包括以下步骤:对用户输入的代表模糊概念的关键词以及代表语气算子的关键词,利用所述模糊本体知识库进行推理计算,并将推理计算产生的关键词组合作为扩展后的查询条件;根据所述扩展后的查询条件,在所述资源索引库中检索出符合条件的查询结果。同时,本发明还公开了一种模糊语义搜索方法及设备。本发明通过基于本体的关键词解析,可将关键词扩展为其相等概念、子概念等,并能够在一定程度上处理模糊关键词,从而提高了查全率。

Description

一种模糊语义搜索方法、***及设备
技术领域
本发明涉及通信技术领域,尤其涉及一种模糊语义搜索方法、***及设备。
背景技术
Web(网络)搜索技术已经得到了普及应用,但查全率和精确度仍然不能满足用户的需求。目前已有的搜索引擎大部分是基于关键词或者基于文本内容的检索,并不能充分表达语义信息。语义搜索技术可改善当前搜索引擎的搜索效果,包括查全率和查准率,作为未来语义Web的最主要应用之一,语义搜索将对人们的生活产生重大的影响。
融合本体技术可实现一定程度上的语义搜索,但基于经典描述逻辑的本体知识库却带来了新的问题,即无法对模糊信息进行描述和推理。虽然描述逻辑描述能力很强,本体应用也十分广泛,但描述逻辑无法处理模糊信息中的模糊概念,如“精彩”、“年轻”等。因此对描述逻辑进行模糊扩展,实现基于模糊领域本体的模糊语义搜索具有很强的实用意义。
另外,传统的信息检索(IR)技术大多数基于文档中关键词出现的次数。虽然XML检索***也考虑到将结构查询与内容检索的结合,但其数据模型结构相对语义网要简单,已有方法不能完全满足语义网检索。当前越来越多的Web信息资源进行了语义标注,并以符合RDF(Resource DescriptionFramework,资源描述框架)或XML(EXtensible Markup Language,可扩展置标语言)语法的语义网语言进行描述。面对大量的语义网信息,如何提供比传统信息检索更有效的访问和更合理的检索结果成为语义搜索所面临的重要问题之一。
目前绝大部分基于描述逻辑的***都是采用经典描述逻辑,包括其知识表示以及知识推理。随着OWL(本体描述语言)的推广,目前大部分本体***也都采用经典描述逻辑作为其基础的逻辑支撑。然而正如上文所言,经典描述逻辑面对模糊信息具有难以克服的缺陷,因此对描述逻辑的模糊扩展也渐渐成为研究热点。然而,模糊描述逻辑也仅仅停留在研究阶段,还从未得以实施。此外,针对描述逻辑模糊扩展的研究还仅仅限于描述逻辑的1-型模糊扩展,即使用确定的隶属度值来描述模糊性,并不能很好的应用于现实应用。
在实现本发明的过程中,发明人发现:
现有搜索引擎在查全、查准率上仍有较大的提升空间,同时,基于关键词的传统查询无法实现复杂的约束查询,且无法实现资源间的复杂关系查询,导致用户语义搜索的查全率低。
发明内容
本发明实施例提供了一种模糊语义搜索方法、***及设备,以提高用户语义搜索的查全率。
本发明实施例提供了一种模糊语义搜索方法,包括以下步骤:
对用户输入的代表模糊概念的关键词以及代表语气算子的关键词,利用所述模糊本体知识库进行推理计算,并将推理计算产生的关键词组合作为扩展后的查询条件;
根据所述扩展后的查询条件,在所述资源索引库中检索出符合条件的查询结果。
本发明实施例提供了一种模糊语义搜索***,包括语义搜索节点、至少一个资源网站及内部网络,所述语义搜索节点具体包括:
本体知识库节点,用于存储模糊领域本体,所述领域本体用OWL文件实现;
爬行器节点,用于负责集中式爬行内部网资源,获取资源内容并建立索引,维护URL信息及设置爬行范围;
搜索节点,用于用户自行选择查询方式;
推理节点,用于推理实现语义搜索推理服务,并返回推理结果提交给传统搜索引擎或者直接返回给用户。
本发明实施例提供了一种语义搜索节点,包括:
本体知识库节点,用于存储模糊领域本体,所述领域本体用本体描述语言OWL文件实现;
爬行器节点,用于负责集中式爬行内部网资源,获取资源内容并建立索引,维护通用资源定位符URL信息及设置爬行范围;
搜索节点,用于用户自行选择查询方式;
推理节点,用于推理实现语义搜索推理服务,并返回推理结果提交给传统搜索引擎或者直接返回给用户。
本发明实施例中,通过基于本体的关键词解析,可将关键词扩展为其相等概念、子概念等,并能够在一定程度上处理模糊关键词,从而提高了查全率。
附图说明
图1是本发明实施例中语义搜索***结构图;
图2是本发明实施例中爬行流程示意图;
图3是本发明实施例中模糊语义搜索方法流程图;
图4是本发明实施例中推理方法流程图;
图5是本发明实施例中图形化定制语义查询过程流程图;
图6a是本发明实施例中概念检索结果生成页面示意图;
图6b是本发明实施例中模糊概念检索结果生成页面示意图;
图7是本发明实施例中图形化定制概念示意图;
图8是本发明实施例中图形化定制数据属性示意图;
图9是本发明实施例中图形化定制对象属性示意图。
具体实施方式
本发明实施例提供了一种基于领域的模糊语义搜索方法,将语义Web技术、模糊逻辑、与搜索引擎技术有机的结合在一起,有效、准确地获取用户所需的信息。本发明实施例以解决描述逻辑局限性为切入点,提出了OWL的支撑描述逻辑SHOIN(D)的2-型模糊扩展方法。虽然基于描述逻辑本体由于其强大的描述能力与成熟的推理算法被广泛应用,然而经典描述逻辑局限于处理确定的概念和关系,从而导致描述逻辑很难处理类似语义网等大型本体***中的模糊知识。虽然1-型模糊集可以一定程度上减轻不确定性带来的影响,但是其采用确定的隶属度值来决定模糊度的方法式不够精准的。与之相比,基于2-型模糊集的***能够利用隶属度区间更加精确地描述模糊信息。
以此为基础,本发明实施例利用基于模糊逻辑的表示与推理,当用户不清楚提交查询的具体细节时,可设置并提交模糊查询请求。结合本体中的模糊概念,通过模糊推理生成的带有模糊信息的三元组集合可以向用户提交带有一定模糊程度的搜索服务,从而在减少语义丢失的情况下实现查全率和查准率的提高。
由于模糊查询语句定制复杂,有时还需要语气算子等附加条件,因此采用关键词的方法来实现模糊查询效果不佳。因此本发明实施例还利用图形化方式定制语义查询,用户可设置复杂的约束条件查询,利用图形化方式实现用户可定制查询语句,从而准确获取语义信息,达到提高查准率的目的。
本发明实施例提供了支撑描述逻辑SHOIN(D)的2-型模糊扩展方法即Type-2Fuzzy SHOIN(D)(2-FSHOIN(D))。
2-FSHOIN(D)定义A,C与R为原子模糊概念,复杂模糊概念以及模糊角色关系集合。可得出
Figure A20081009396900091
Figure A20081009396900092
是模糊概念。2-FSHOIN(D)中的映射关系可以表示为I=(ΔI,·I),其中·I是将模糊概念和关系映射到隶属值区间的映射函数:CI=ΔI→[a,b]与RI=ΔI×ΔI→[a,b],其中a,b满足0≤a≤b≤1。2-FSHOIN(D)的映射·I必须满足以下等式:
对于任意实例d∈ΔI有:
Figure A20081009396900093
I(d)=[0,0]
CI(d)=[μL(C(d)),μU(C(d))]
Figure A20081009396900094
Figure A20081009396900095
⫬ C I ( d ) = [ 1 - μ U ( C ( d ) ) , 1 - μ L ( C ( d ) ) ]
( ∀ R . C ) I ( d ) = inf d , ∈ Δ I [ S { 1 - μ U ( R ( d , d , ) ) , μ L ( C ( d , ) ) } , S { 1 - μ L ( R ( d , d , ) ) ,
μ U ( C ( d , ) ) } ]
( ∃ R . C ) I ( d ) = sup d , ∈ Δ I [ T { μ L ( R ( d , d , ) ) , μ L ( C ( d , ) ) } , T { μ U ( R ( d , d , ) ) ,
μ U ( C ( d , ) ) } ]
其中(di≠dj):
Figure A20081009396900107
( ≤ nR ) I ( d ) = ⫬ ( ≥ n + 1 R ) I ( d )
Figure A20081009396900109
( ≤ nR . C ) I ( d ) = ⫬ ( ≥ n + 1 R . C ) I ( d )
其中T,S称为模糊集中的三角模运算,在模糊集论中,模糊集的运算只能用其隶属函数来确定,而不同定义的运算会产生出不同的结果。因此建立模糊集的各种不同运算可以适应不同的模糊现象,模运算是模糊集运算的最一般形式。
映射I称为三角模,如果满足条件:
(1)I(0,0)=0,I(1,1)=1
(2) a ≤ c , b ≥ d ⇒ I ( a , b ) ≤ I ( c , d )
(3)I(a,b)=I(b,a)
(4)I(I(a,b),c)=I(a,I(b,c))
当三角模满足I(a,1)=a(a∈[0,1]),称为T模;当三角模满足I(0,a)=a(a∈[0,1]),称为S模。
以此为基础,本发明实施例提供了一种基于模糊领域本体的模糊语义搜索方法。语义搜索并不是对所有Internet上的资源网站进行搜索,而是对某一领域内的资源网站进行搜索。本发明实施例所述的基于模糊领域本体的模糊语义搜索方法,包含如下步骤:
步骤101,建立可更新的领域模糊本体知识库。
步骤102,爬行器对内部资源网站建立资源索引库。
步骤103,接收用户提出的查询请求。
步骤104,推理引擎对用户提出的查询请求进行分析,完成必要的本体知识库推理,并将推理结果作为扩展后的查询条件返回给搜索程序。
步骤105,根据推理引擎返回的扩展条件,在索引库中检索出符合条件的查询结果。
步骤106,对搜索结果重新排序,结合推理结果组合成完整的结果页面并提交给用户。
本发明实施例提供了一种基于模糊领域本体的模糊语义搜索***,如图1所示,包括语义搜索节点、资源网站(可为任意多个)及内部网络三大部分。其中语义搜索节点包括:本体知识库节点101、爬行器节点102、搜索节点104和推理节点103。
其中,本体知识库节点101,用于存储模糊领域本体,领域本体用OWL文件实现,本体文件为该领域内确定本体。为了高效的操作OWL本体,采用SQLServer作为本体的持久化存储工具。由于每次从OWL文件里读取并解析推理出RDF图结构信息十分浪费资源,将OWL图结构存储到SQLServer数据库后台的接口(Jena API只提供MySQL,Oracle的数据库接口),这样在应用时直接从数据库中读取本体模型就可节约时间和资源。
建立模糊本体知识库具体有以下几个步骤:首先,建立经典本体K,采用半自动的本体构建方法;然后,向本体K的Tbox中添加模糊概念,并设置原子模糊概念的隶属度。隶属度定义为:实例对概念的隶属程度,2-FSHOIN(D)使用[0,1]之间的区间来描述模糊隶属度;最后,增添K中模糊概念的实例,并计算实例属性值,得出或设置实例对模糊概念的隶属区间,完成模糊本体的构建,使经典本体知识库K扩展为模糊本体知识库K’。
爬行器节点102,用于负责集中式爬行内部网资源,获取资源内容并建立索引,维护URL(通用资源定位符)信息及设置爬行范围。工作流程如图2所示,具体步骤如下:
①获得开始资源节点URL信息。
②获取该网站host并设置爬行范围,此处设置为内部网范围内爬行。
③爬行网页并建立索引。
④定时执行①-③更新搜索节点服务器端索引文件。
推理节点103,用于推理实现语义搜索推理服务,并返回推理结果提交给传统搜索引擎或者直接返回给用户。应该能够实现概念查询和实例查询,提供较强大的推理功能。
由于采用模糊本体进行推理服务,对传统的推理算法进行了改进。推理的实现基于已提出的Tableau算法,假设概念描述为C与D,Tableaux算法使用求反而非直接判断二者的包含关系: C ⊆ D 当且仅当是不可满足的,从而将概念包容关系转化为可满足关系。在运用Tableaux算法之前,使用德·摩根定律等对概念表达式中进行变换,使得所有否定只出现在概念名之前。设E是的否定范式,如果Tableaux算法试图证明E是可满足的,那么必须构造一个解释I使得
Figure A20081009396900124
即在ΔI中必须存在个体是EI的一个元素。
描述逻辑在基础的tableau算法执行过程中需要执行六条规则,并判断是否生成底层概念⊥,而模糊本体的推理生成的底层概念除了⊥还有模糊度区间小于阈值的模糊概念。模糊本体为了处理模糊信息定义了模糊概念类,推理算法为了确定模糊隶属区间,通过模糊概念类各个子类定义的隶属区间计算规则,推导出实例隶属模糊概念的模糊值。***使用范围在[0,1]中的一个区间来描述实例的模糊隶属区间。具体模糊推理算法流程如下:
(1)提取模糊概念并根据设置的模糊阈值检索属于该模糊概念的实例集合A;
(2)找到除去模糊概念的关键词对应的概念以及与此概念相关的父概念、相等概念及子概念对应的实例集合B;
(3)取集合C=A∩B并保存。假设实例d对模糊概念对应的模糊词D的隶属区间为[μL D(d),μU D(d)],则d对缀上语气算子的模糊词E的隶属度μE,(d)=[μL D(d)t,μU D(d)t]。当t>1称为集中化语气算子,反之称为散漫化语气算子。根据语气算子对应的t值,对C中的实例进行隶属度的计算;
(4)根据隶属度阈值对计算后的实例进行过滤,即隶属区间小于阈值的实例从实例集合C中剔除。其中区间和数值的比较采用以下规则:对于区间[a,b]与数值t,如果a>t则称区间大于阈值;如果b<t,则称区间小于阈值;否则区间与阈值无法比较;
(5)按照区间由大至小顺序返回实例集合C,区间之间的比较规则如下:对于区间C1=[a,b],C2=[c,d],有 h 1 = ( a + b ) 2 , h 2 = ( c + d ) 2 , 如果h1<h2则称区间C1<C2;反之如果h1>h2称C1>C2;如果h1=h2则如果(a+b)<(c+d)则称C1<C2;反之如果(a+b)>(c+d)则称C1>C2;如果(a+b)=(c+d)则称C1=C2
搜索节点104,用于用户自行选择三种不同的查询方式:基于关键词的查询、概念查询及通过图形化方式自定义模糊查询。
用户提交查询条件(如关键词等),查询被发送到推理引擎,推理引擎在知识库支持下,对查询关键词进行扩展,实现基于本体的关键词解析,关键词和解析之后的关键词被一起发送至搜索程序,搜索程序在索引文件中检索出符合查询条件的链接,并将排序后的结果返回给用户。
用户提交概念查询,查询被发送到推理引擎,推理引擎在知识库支持下,获得与此概念相关的概念树,同时推理出属于该概念的所有实例。将实例作为查询关键词发送至搜索程序,搜索程序在索引文件中检索出符合查询条件的链接,并将排序后的结果与推理结果组合成查询结果页面一起返回给用户。
用户也可通过图形化方式定制图形化语义查询,将定制好的语义查询提交给推理引擎,由推理引擎确定用户需要查询且满足约束条件的实例。用户采用图形化方式定制模糊查询,搜索***首先设置模糊阈值,其含义为:当实例对模糊概念的隶属度大于该模糊阈值时,认为该实例能够作为搜索结果返回,否则认为该实例的隶属度不足以使其成为搜索结果。用户使用时首先选中模糊本体中的模糊概念,然后选择适合查询请求程度的语气算子,如“很”、“非常”、“略”等。用户提交查询后,***首先判断语气算子,并根据语气算子改变***设置的模糊阈值(集中式语气算子增大模糊阈值,散漫式语气算子减小模糊阈值),然后将实例隶属度和改变后的模糊阈值进行比较,返回隶属度大于模糊阈值的实例列表。
本发明实施例具体实施方案:参阅图3,用户使用该搜索方法时按照如下步骤进行处理:(本体知识库应改为模糊本体知识库)
301,用户选择基于关键词的查询方式;
302,用户选择概念查询方式;
303,用户选择图形化方式定制约束模糊查询方式;
304,用户输入搜索关键词;
305,用户选择或者输入被检索概念;
306,用户通过图形化方式定制完整的约束模糊查询;
307,将处理后的查询请求提交给推理引擎;
308,提交推理结果产生的扩展关键词集到关键词检索;
309,将推理结果提交给结果页面生成模块;
310,符合关键词检索的记录被提交到结果排序模块;
311,排序后的结果提交给结果页面生成模块;
312,用户通过访问界面访问生成的搜索结果。
推理实施方案,推理服务器节点从搜索节点中接受用户提交的关键词查询,推理服务器节点首先视其为概念,进行概念推理,若存在此概念,则返回其相等概念、子概念及父概念,然后进行实例推理,检索出属于这些概念的所有实例;若此概念不存在,推理服务器节点将其视为实例,进行实例推理,检索出与之相等的实例。推理服务器将推理所得的实例结果返回给用户,同时也将其提交给传统搜索引擎。若此概念在知识库中也不存在,则直接将该关键词提交至文本检索。本发明的推理流程如图4所示。
推理服务器通过调用pellet API实现本体知识库的推理。
导入pellet.jar开源开发包:定义org.semanticweb.OWL.model.OWLOntology的实例ontology,org.mindswap.pellet.OWLapi.Reasoner的实例reasoner。使用ontology读入OWL的URI:
ontology=OntologyHelper.getOntology(URI.create(uri))(其中uri为本体文件的地址)。然后将本体加载至推理机:reasoner.setOntology(ontology)。然后对本体进行一致性检测:reasoner.isConsistent()(返回布尔值)。该过程通过Tableau算法实现,在内存中生成了相关的三元组集合,然后调用API对三元组进行读取,例如。
列举所有的类:Set classSet=reasoner.getClasses();
列举所有的实例:Set individuaSet=reasoner.getIndividuals();
根据节点的type属性判断节点属于概念还是实例,具体地说,如果type属性只有OWL:Class即为类,如果type属性包含其他类,则为实例。至于类的相关类的获取,首先将父类,子类,相等类界定为相关类。获取相关类即可以通过以下API实现:
OWLCLASS class;
Set sup=reasoner.getSuperClass(class);(获取父类)
Set sub=reasoner.getSubClass(class);(获取子类)
Set equipment=reasoner.getEquipmentClass(class);(获取相等类)
获取类的实例:
Set inds=reasoner.getIndividuals(class);(获取实例)
除去这些API之外,reasoner还可以兼容RDQL语句,通过方法:
ResultSet set=reasoner.excuteQuery(RDQL语句);
可以实现对OWL三元组进行查询,以及实现以上提到的各个方法。除此之外,执行“Select?a,?b,?c where(?a,?b,?c)”可以得到本体所有的三元组集合,将此集合写入指定数据库,以此为基础可以实现本体的持久化。
若用户通过图形化方式自定义约束查询,定制方法如下:首先本体中的概念被选择,所有与此概念相关的属性被给出,以供扩展。然后点击选中的属性扩展查询图来限制该属性,选择该属性的值域概念,依此类推直到查询定制结束,最后设定需要查询的概念。图形化定制过程如图5所示。
以下通过具体实施例来说明语义搜索过程。建立实验室本体文件idc_onto.OWL。
建立片断如下:
<?xml version=″1.0″?>
<rdf:RDF
     xmlns:rdf=″http://www.w3.org/1999/02/22-rdf-syntax-ns#″
           xmlns:rdfs=″http://www.w3.org/2000/01/rdf-schema#″
           xmlns:OWL=″http://www.w3.org/2002/07/OWL#″
           xmlns=″http://www.OWL-ontologies.com/unnamed.OWL#″
         xml:base=″http://www.OWL-ontologies.com/unnamed.OWL″>
         <OWL:Ontology rdf:about=″″/>
         <OWL:Class rdf:ID=″二级研究领域″>
           <rdfs:subClassOf>
             <OWL:Class rdf:ID=″研究领域″/>
           </rdfs:subClassOf>
         </OWL:Class>
         <OWL:Class rdf:ID=″硕士″>
           <rdfs:subClassOf>
             <OWL:Class rdf:ID=″学生″/>
          </rdfs:subClassOf>
        </OWL:Class>
        …
    <OWL:Class rdf:ID=″FuzzyConcept″>
      <rdfs:subClassof>
        <OWL:Class rdf:about=″#Resource″/>
      </rdfs:subClassof>
      <OWL:Restriction>
           <OWL:onProperty>
             <OWL:DatatypeProperty rdf:about=fuzzy:lower_degree/>
           </OWL:onProperty>
           <OWL:maxCardinality
rdf:datatype=″http://www.w3.org/2001/XMLSchema#int″
           >1</OWL:maxCardinality>
          <OWL:onProperty>
              <OWL:DatatypeProperty rdf:about=fuzzy:upper_degree/>
           </OWL:onProperty>
           <OWL:maxCardinality
rdf:datatype=″http://www.w3.org/2001/XMLSchema#int″
           >1</OWL:maxCardinality>
    </OWL:Restriction>
     </OWL:Class>
<OWL:Class rdf:ID=″年轻″>
  <rdfs:subClassof>
   <OWL:Class rdf:about=″#FuzzyConcept″/>
  </rdfs:subClassof>
<博士生rdf:ID=″小孙″>
  <hasAge>27</hasAge>
用户最终获取的结果页面是由推理结果和检索结果组合而成,假设在学术领域已经建立上述实验室本体,并存在对应实例集合。
若输入基于关键词的查询,如输入计算机,推理服务器首先认为该词为概念,通过本体知识库推理知电脑是该词的相等概念,则将计算机和电脑同时返回给搜索器,在索引中检索满足条件的结果。
若输入博士生作为概念检索,则推理服务器检索出与此概念相关的父概念、相等概念及子概念。该推理结果在页面的右上方显示出来。同时推理服务器还需进一步检索出博士生这一概念所对应的所有实例,并将所有的实例作为检索关键词返回给搜索器,搜索器在索引中检索满足条件的结果。最终结果页面的结构如图6a所示。在下例中,博士生的实例包含了小唐、小孙和小余等,同时搜索器将小唐、小孙和小余等作为关键词到索引中查询,将满足条件的链接显示在对应的实例下。同时,在页面的右下方给出所有实例的简要说明,这些基本信息来源于本体知识库。
如果输入的是带有语气算子的模糊概念例如“很年轻的博士生”,则推理服务器分离出模糊概念“年轻”以及语气算子“很”,仍然以“博士生”作为关键词按照以上提到的步骤进行推理。然后找到并返回模糊概念“年轻”以及与此概念相关的父概念、相等概念及子概念对应的实例集合。假设设置模糊隶属度区间阈值为0.2,即***认为隶属度区间小于0.2的实例(即区间上限μU<0.2)不再属于该模糊类。根据语气算子“很”对应t=2,对C中的实例进行隶属度的计算,假设实例小孙隶属于“年轻”的隶属度区间为[0.35,0.43],则有:
μU ″很年轻″,(孙小林)=[μU ″年轻″,(孙小林)]2=(0.43)2≈0.185
μL ″很年轻″,(孙小林)=[μL ″年轻″,(孙小林)]2=(0.35)2≈0.123
则实例小孙隶属于“很年轻”的隶属度区间为[0.123,0.185]由于0.185<0.2则可以得到实例“小孙”不应该属于“很年轻的博士生”,则从集合C中剔出该实例。遍历C中所有实例进行过滤,返回过滤后的结果集并根据集合C中剩下实例具有不同的隶属度区间,在排序中将按照隶属度区间的比较方法由大至小进行排序。最终页面如6b所示。
若用户需要查询“研究方向为数据库且籍贯为湖北武汉的教师”,则可通过图形化定制查询方式实现。首先,用户选定概念“教师”,并将此概念利用图形化技术显示在页面上供用户进一步对该图进行操作,如图7所示,用户可通过选择子类别对查询概念进行限定。
显示教师的所有属性,如图8所示,用户可选择对任意属性进行约束,在该例中,可对“研究方向”和“籍贯”这两个数据属性进行约束。
除此之外也可对“发表著作”这样的对象属性进行约束,如图9所示。约束完成之后,最后确认需要查询的概念。推理服务器根据提交的约束查询在知识库中推理出满足条件的实例,并显示给用户,其结果的显示结构与概念查询相同(也与模糊查询流程相同)。
查全率的提高。通过基于本体的关键词解析,可将关键词扩展为其相等概念、子概念等,并能够在一定程度上处理模糊关键词,从而提高了查全率。通过概念查询包括模糊概念查询,可通过推理精确检索出属于相关概念集的所有实例或者满足隶属度阈值的实例。通过图形化方式定制语义搜索,可充分识别并保持用户查询中的语义信息,从而达到提高查准率的目的。经典的描述逻辑虽然能够增加搜索引擎返回结果的语义要素,但是对于模糊的搜索请求却无法准确理解并找到结果。1-型模糊集虽然能够利用隶属度值的大小一定程度上处理模糊问题,但是由于使用确定值来描述模糊性带来的局限性使得1-型模糊集的模糊表达能力有所欠缺。因此将结合2-型模糊集与经典描述逻辑而提出的2-FSHOIN(D)运用到搜索引擎可以更加准确地处理模糊问题,并由于描述逻辑强大的描述能力能够给予语义搜索引擎强大的语义支持。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以可借助软件加必要的通用硬件平台的方式来实现基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (13)

1、一种模糊语义搜索方法,其特征在于,包括以下步骤:
对用户输入的代表模糊概念的关键词以及代表语气算子的关键词,利用所述模糊本体知识库进行推理计算,并将推理计算产生的关键词组合作为扩展后的查询条件;
根据所述扩展后的查询条件,在所述资源索引库中检索出符合条件的查询结果。
2、权利要求1所述模糊语义搜索方法,其特征在于,所述建立模糊本体知识库具体包括:
向经典本体中的概念添加模糊词,使所述概念转换成模糊概念,并设置原子模糊词的隶属区间;
增加所述模糊概念的实例,并根据所述模糊概念的隶属区间计算实例属性值,得出或设置实例对所述模糊概念的隶属区间。
3、权利要求1所述模糊语义搜索方法,其特征在于,所述对用户输入的代表模糊概念的关键词以及代表语气算子的关键词,利用所述模糊本体知识库进行推理计算,并将推理计算产生的关键词组合作为扩展后的查询条件具体步骤为:
从模糊本体知识库中提取模糊概念,并根据设置的模糊阈值检索属于所述模糊概念的实例集合A;
找到除去所述模糊概念的关键词对应的概念以及与所述概念相关的父概念、相等概念及子概念对应的实例集合B;
取集合C=A∩B;
根据预设的隶属度阈值对本体知识库中的实例进行比较,将隶属区间小于阈值的实例从实例集合C中剔除;
按照区间由大至小顺序返回实例集合C。
4、权利要求3所述模糊语义搜索方法,其特征在于,所述根据预设的隶属度阈值对本体知识库中的实例进行比较具体包括:
对于隶属区间[a,b]与阈值为t的实例,如果a>t则称区间大于阈值;如果b<t,则称区间小于阈值。
5、权利要求3所述模糊语义搜索方法,其特征在于,所述按照区间由大至小顺序返回实例集合C具体包括:
对于区间C1=[a,b],C2=[c,d],有 h 1 = ( a + b ) 2 , h 2 = ( c + d ) 2 , 如果h1<h2则称区间C1<C2;反之如果h1>h2称C1>C2;如果h1=h2则如果(a+b)<(c+d)则称C1<C2;反之如果(a+b)>(c+d)则称C1>C2;如果(a+b)=(c+d)则称C1=C2
6、权利要求1所述模糊语义搜索方法,其特征在于,所述关键词由图形化方式替代,利用所述图形化方式定制语义查询,用户设置复杂的约束条件查询,实现用户可定制查询语句。
7、一种模糊语义搜索***,包括语义搜索节点、至少一个资源网站及内部网络,其特征在于,所述语义搜索节点具体包括:
本体知识库节点,用于存储模糊领域本体,所述领域本体用本体描述语言OWL文件实现;
爬行器节点,用于负责集中式爬行内部网资源,获取资源内容并建立索引,维护通用资源定位符URL信息及设置爬行范围;
搜索节点,用于用户自行选择查询方式;
推理节点,用于推理实现语义搜索推理服务,并返回推理结果提交给传统搜索引擎或者直接返回给用户。
8、如权利要求7所述模糊语义搜索***,其特征在于,所述本体知识库节点具体包括:
经典本体建立单元,用于采用半自动的本体构建方法建立经典本体;
模糊概念添加单元,用于向本体中添加模糊概念,并设置原子模糊概念的隶属度;
模糊本体知识库生成单元,用于在所述经典本体中添加模糊概念的实例,并计算实例属性值,得出或设置实例对模糊概念的隶属区间,完成模糊本体的构建,使经典本体知识库扩展为模糊本体知识库。
9、如权利要求7所述模糊语义搜索***,其特征在于,所述爬行器节点具体包括:
地址信息获取单元,用于获得开始资源节点通用资源定位符URL信息;
范围获取单元,用于获取该网站内部网并设置爬行范围;
索引建立单元,用于爬行网页并建立索引;
更新单元,用于更新搜索节点服务器端索引文件。
10、如权利要求7所述模糊语义搜索***,其特征在于,所述搜索节点具体包括:
查询条件接收单元,用于接收用户提交的查询条件,并将所述查询条件发送到推理引擎;
推理引擎,用于在知识库支持下,对查询条件进行扩展,实现基于本体的查询解析,查询条件和解析之后的查询条件被一起发送至搜索程序;
搜索程序,用于在索引文件中检索出符合查询条件的链接,并将排序后的结果返回给用户。
11、如权利要求10所述模糊语义搜索***,其特征在于,所述查询条件包括关键词或图形化实例。
12、如权利要求7所述模糊语义搜索***,其特征在于,所述推理节点具体包括:
集合获取单元,用于从模糊本体知识库中提取模糊概念,并根据设置的模糊阈值检索属于所述模糊概念的实例集合A;找到除去所述模糊概念的关键词对应的概念以及与所述概念相关的父概念、相等概念及子概念对应的实例集合B;取实例集合A和实例集合B的交集获得实例集合C C=A∩B;
比较单元,用于根据预设的隶属度阈值对本体知识库中的实例进行比较,将隶属区间小于阈值的实例从实例集合C中剔除;
返回单元,用于按照区间由大至小顺序返回实例集合C。
13、一种语义搜索节点,其特征在于,包括:
本体知识库节点,用于存储模糊领域本体,所述领域本体用本体描述语言OWL文件实现;
爬行器节点,用于负责集中式爬行内部网资源,获取资源内容并建立索引,维护通用资源定位符URL信息及设置爬行范围;
搜索节点,用于用户自行选择查询方式;
推理节点,用于推理实现语义搜索推理服务,并返回推理结果提交给传统搜索引擎或者直接返回给用户。
CNA2008100939692A 2008-04-24 2008-04-24 一种模糊语义搜索方法、***及设备 Pending CN101566988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100939692A CN101566988A (zh) 2008-04-24 2008-04-24 一种模糊语义搜索方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100939692A CN101566988A (zh) 2008-04-24 2008-04-24 一种模糊语义搜索方法、***及设备

Publications (1)

Publication Number Publication Date
CN101566988A true CN101566988A (zh) 2009-10-28

Family

ID=41283143

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100939692A Pending CN101566988A (zh) 2008-04-24 2008-04-24 一种模糊语义搜索方法、***及设备

Country Status (1)

Country Link
CN (1) CN101566988A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和***
CN102622920A (zh) * 2011-10-19 2012-08-01 北京中科希望软件股份有限公司 一种基于技能学习的智能解答方法与***
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN103177124A (zh) * 2013-04-15 2013-06-26 昆明理工大学 一种介电常数数据库检索方法及***
CN104008097A (zh) * 2013-02-21 2014-08-27 日电(中国)有限公司 实现查询理解的方法及装置
WO2014134796A1 (en) * 2013-03-06 2014-09-12 Empire Technology Development Llc Identifying relationships among words in semantic web
CN104166670A (zh) * 2014-06-17 2014-11-26 青岛农业大学 一种基于语义网的信息查询方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
WO2015139490A1 (zh) * 2014-03-17 2015-09-24 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
CN103886099B (zh) * 2014-04-09 2017-02-15 中国人民大学 一种模糊概念的语义检索***及方法
CN107004158A (zh) * 2014-11-27 2017-08-01 爱克发医疗保健公司 数据存储库查询方法
CN107408156A (zh) * 2015-03-09 2017-11-28 皇家飞利浦有限公司 用于从临床文档进行语义搜索和提取相关概念的***和方法
CN107656965A (zh) * 2017-08-22 2018-02-02 北京京东尚科信息技术有限公司 订单查询的方法和装置
WO2018205892A1 (en) * 2017-05-12 2018-11-15 Huawei Technologies Co., Ltd. Incremental graph computations for querying large graphs
WO2019041197A1 (zh) * 2017-08-30 2019-03-07 深圳市云中飞网络科技有限公司 应用资源处理方法及相关产品
CN110059164A (zh) * 2018-01-11 2019-07-26 国际商业机器公司 用于对话***的语义表示和实现
CN112559597A (zh) * 2020-12-16 2021-03-26 浪潮云信息技术股份公司 针对模糊条件进行查询的方法及装置
CN112816240A (zh) * 2021-02-20 2021-05-18 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质
CN112860940A (zh) * 2021-02-05 2021-05-28 陕西师范大学 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
US11797609B2 (en) 2018-01-11 2023-10-24 Intenrational Business Machines Corporation Semantic representation and realization for conversational systems

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和***
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102622920A (zh) * 2011-10-19 2012-08-01 北京中科希望软件股份有限公司 一种基于技能学习的智能解答方法与***
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN102880645B (zh) * 2012-08-24 2015-12-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN104008097A (zh) * 2013-02-21 2014-08-27 日电(中国)有限公司 实现查询理解的方法及装置
WO2014134796A1 (en) * 2013-03-06 2014-09-12 Empire Technology Development Llc Identifying relationships among words in semantic web
US9390164B2 (en) 2013-03-06 2016-07-12 Empire Technology Development Llc Identifying relationships among words in semantic web
CN103177124B (zh) * 2013-04-15 2016-03-30 昆明理工大学 一种介电常数数据库检索方法及***
CN103177124A (zh) * 2013-04-15 2013-06-26 昆明理工大学 一种介电常数数据库检索方法及***
WO2015139490A1 (zh) * 2014-03-17 2015-09-24 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
CN103886099B (zh) * 2014-04-09 2017-02-15 中国人民大学 一种模糊概念的语义检索***及方法
CN104166670A (zh) * 2014-06-17 2014-11-26 青岛农业大学 一种基于语义网的信息查询方法
CN104239513B (zh) * 2014-09-16 2019-03-08 西安电子科技大学 一种面向领域数据的语义检索方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN107004158A (zh) * 2014-11-27 2017-08-01 爱克发医疗保健公司 数据存储库查询方法
CN107408156A (zh) * 2015-03-09 2017-11-28 皇家飞利浦有限公司 用于从临床文档进行语义搜索和提取相关概念的***和方法
US10885118B2 (en) 2017-05-12 2021-01-05 Futurewei Technologies, Inc. Incremental graph computations for querying large graphs
WO2018205892A1 (en) * 2017-05-12 2018-11-15 Huawei Technologies Co., Ltd. Incremental graph computations for querying large graphs
CN107656965A (zh) * 2017-08-22 2018-02-02 北京京东尚科信息技术有限公司 订单查询的方法和装置
WO2019041197A1 (zh) * 2017-08-30 2019-03-07 深圳市云中飞网络科技有限公司 应用资源处理方法及相关产品
CN110059164A (zh) * 2018-01-11 2019-07-26 国际商业机器公司 用于对话***的语义表示和实现
CN110059164B (zh) * 2018-01-11 2023-06-06 国际商业机器公司 用于呈现对话***的用户界面的方法和***
US11797609B2 (en) 2018-01-11 2023-10-24 Intenrational Business Machines Corporation Semantic representation and realization for conversational systems
CN112559597A (zh) * 2020-12-16 2021-03-26 浪潮云信息技术股份公司 针对模糊条件进行查询的方法及装置
CN112860940A (zh) * 2021-02-05 2021-05-28 陕西师范大学 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
CN112860940B (zh) * 2021-02-05 2022-11-25 陕西师范大学 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
CN112816240A (zh) * 2021-02-20 2021-05-18 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质
CN112816240B (zh) * 2021-02-20 2023-08-15 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN101566988A (zh) 一种模糊语义搜索方法、***及设备
US8566347B1 (en) Method and apparatus for storing ontologies in a relational database
Haav A Semi-automatic Method to Ontology Design by Using FCA.
CN104239513A (zh) 一种面向领域数据的语义检索方法
Dong et al. A survey in semantic search technologies
Stojanovic et al. A reverse engineering approach for migrating data-intensive web sites to the Semantic Web
Mustafa et al. Ontology based semantic information retrieval
Vaneková et al. Fuzzy RDF in the semantic web: Deduction and induction
Gunaratna et al. Alignment and dataset identification of linked data in semantic web
Behkamal et al. Publishing Persian linked data; challenges and lessons learned
Suryanarayana et al. Stepping towards a semantic web search engine for accurate outcomes in favor of user queries: Using RDF and ontology technologies
Zhang et al. Semantic web and geospatial unique features based geospatial data integration
Toch et al. Automatically grounding semantically-enriched conceptual models to concrete web services
Patil et al. Semantic search using ontology and RDBMS for cricket
Gorenjak et al. A question answering system on domain specific knowledge with semantic web support
Zhang et al. Storing fuzzy description logic ontology knowledge bases in fuzzy relational databases
Alam et al. Towards a semantic web stack applicable for both RDF and topic maps: a survey
Priya et al. Design and development of an ontology based personal web search engine
Medina et al. OntOAIr: a method to construct lightweight ontologies from document collections
Haase et al. Personalized information retrieval in bibster, a semantics-based bibliographic peer-to-peer system
Pham An improvement method for semantic mapping database to ontology
Gertz et al. A Model and Architecture for Conceptualized Data Annotations
Chantrapornchai et al. Semantic image search: case study for western region tourism in Thailand
Zhang et al. Semantic-Based geospatial data integration with unique
Rahman et al. Machine understandable information representation of geographic related data to the administrative structure of bangladesh

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091028