CN102081668A - 基于领域本体的信息检索优化方法 - Google Patents

基于领域本体的信息检索优化方法 Download PDF

Info

Publication number
CN102081668A
CN102081668A CN 201110025219 CN201110025219A CN102081668A CN 102081668 A CN102081668 A CN 102081668A CN 201110025219 CN201110025219 CN 201110025219 CN 201110025219 A CN201110025219 A CN 201110025219A CN 102081668 A CN102081668 A CN 102081668A
Authority
CN
China
Prior art keywords
notion
inquiry
abstract
formula
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110025219
Other languages
English (en)
Other versions
CN102081668B (zh
Inventor
熊晶
王爱民
徐建良
王继鹏
张长青
郭涛
梁燕军
孙华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2011100252193A priority Critical patent/CN102081668B/zh
Publication of CN102081668A publication Critical patent/CN102081668A/zh
Application granted granted Critical
Publication of CN102081668B publication Critical patent/CN102081668B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于领域本体的信息检索优化方法,通过检索***的检索界面,获取用户提交的查询关键字;在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过领域本体推理进行语义扩展,得到一组或多组新的查询字符串;将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;对各搜索引擎的返回结果进行去重和重排序整合;将最终结果通过检索界面显示给用户。本发明是利用领域本体的语义优势,提高领域相关的信息检索的效率。

Description

基于领域本体的信息检索优化方法
技术领域
本发明涉及一种网络技术,具体来说是基于搜索引擎的信息检索方法。
背景技术
人们从网络上获取信息的主要手段是使用搜索工具,如Google、百度、雅虎等。搜索引擎的工作原理基本包括三个过程:(1)从互联网上搜集信息,通过用网络蜘蛛定期对互联网上所有网站网页的信息进行抓取。(2)整理信息并建立索引数据库由分析索引***程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。(3)在索引数据库中搜索排序、接受查询当用户在搜索引擎的界面输入关键词搜索后,由搜索***程序从网页索引数据库中找到符合该关键词的所有相关网页,按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成***将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户。
目前的搜索引擎大多是基于关键字匹配的搜索引擎。然而,这些搜索引擎很少具有语义推理能力。Google虽然采用了一些自然语言处理技术,例如,同义词扩展,但是它并不能解析概念之间的语义关系,这样在一定程度上导致了查准率的降低,使得查询返回结果并不是用户所满意的信息。另一方面,用户的查询很大程度上依赖于某个专业领域,如海洋领域。例如,假定用户想搜索海洋领域有关“DIP(Dissolved inorganic phosphorus溶解无机磷)”的信息,其查询结果如图4所示,通常会获得大量其它领域的“DIP”信息,如微电子领域的“Dual Inline Package”,即双列直插式封装技术。由于这些是与用户的目的不相关的无用信息,用户对这样的结果显然是不满意的。
“本体(Ontology)”作为“共享概念模型的明确的形式化规范说明”,是通过抽象出客观世界中一些现象的相关概念而得到的模型,概念模型表现的含义独立于具体的环境状态。本体体现的是共同认可的知识,反映的是相关领域内公认的概念集,因此本体提供了对领域知识的共同理解与描述,可以更好地用于共享、交流和重用。构成本体的概念及其之间的关系是经过精确定义的,运用本体可以消除一词多义、多词一义和词义含糊等现象,从而完成对领域知识清晰、确切、完整的定义与描述。本体研究的目标是获取一个知识表达方法,使得机器可以像人类一样共享和处理信息。目前,本体技术被大量应用于知识表示、信息检索等领域。
发明内容
为了克服现有搜索引擎在语义检索上的不足,本发明提供了一种基于领域本体的信息检索优化方法。
本发明的技术方案为:一种基于领域本体的信息检索优化方法,其步骤如下:
(1)通过检索***的检索界面,获取用户提交的查询关键字;
(2)在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过本体推理进行语义扩展,得到一组或多组新的查询字符串;
(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;
(4)对各搜索引擎的返回结果进行去重、排序整合;
(5)将最终结果通过检索界面显示给用户。
上述步骤(2)中基于领域本体的语义扩展方式包括如下方式中的一种、两种或全部:
①基于is-a关系的优化方法
Is-a关系(继承关系)显示了概念的分类,即父概念的实例等于子概念实例的总和。在子概念上添加了一些约束,因此子概念也称为父概念的特殊化。一个概念与其直接父概念或子概念在同一个文档中出现的几率是较高的。因此,当搜索关于某个概念A的文档时,可以利用A的父概念P或子概念C作为约束来提高搜索的查准率。于是,可以将一个概念优化成概念本身和它的父概念或子概念的查询对。
②基于part-of关系的优化方法
Part-of表示整体-部分关系,用来描述一个概念与其部分概念之间的相互关系。一个概念的组成部分也与此概念所属的领域紧密相关。因此,与部分概念相匹配的文档通常也同其整体概念相关联。于是,可以将一个概念优化成概念本身及其部分概念的查询对。
③基于equivalent-class关系的优化方法
Equivalent-class(等价类)关系用于处理领域知识中的同义词现象。利用equivalent-class关系,用户查询中的概念可以映射成与其等价的同义词。这样,可以提高信息检索的查准率。而且,equivalent-class关系通常作为前两种优化方法的辅助方法。
所述查询对内的概念之间为“与”或者“或”的逻辑关系,“与”可以提高查询准确率,“或”能够提高查全率。
上述步骤(4)中,对各搜索引擎的返回结果进行去重、排序整合,可以采用的算法如下:
(1)对搜索结果的URL进行处理,截取“#”之前的URL字符串作为最终的链接地址;若存在MD5(URLA)=MD5(URLB),则认为URLA及URLB对应的页面为重复页面,去重;
(2)排序算法考虑两个方面:
①查询字符串中各概念的语义距离Dist(Ci,Cj),其中Ci与Cj为查询字符串中的两个概念,
Dist ( C i , C j ) = Σ k = 1 n ω e k + N C i + N C j N C i + N C j + 2 × N LCA × ϵ 式1
式1中,
Figure BSA00000424876200042
表示本体树中连接结点Ci、Cj的最短路径中各边的加权距离之和;
Figure BSA00000424876200043
分别表示结点Ci和Cj到最低共同祖先结点的加权距离;NLCA表示最低共同祖先到根结点的加权距离;ε为一常数,根据加权系数确定。
概念之间不同关系的语义权重参照表1。
表1语义距离权重表
Figure BSA00000424876200051
表1中,
Figure BSA00000424876200052
表示空操作,其与列的组合表示单次操作;e表示equivalent-class关系;g表示is-a关系,方向由子概念指向父概念;s表示is-a关系,方向由父概念指向子概念;p表示part-of关系。
由于概念语义相似度与概念的语义距离互为反函数,当语义距离为0时,语义相似度为1。因此可以将Ci,Cj两者之间的相似度简化为:
Sim ( C i , C j ) = 1 Dist ( C i , C j ) + 1 式2
②查询字符串与搜索结果记录的相关度Rank(Query,Abstract)。
Rank ( Query , Abstract ) = Σ i = 1 n Rank ( C i , Abstract ) 式3
式3中,Rank(Ci,Abstract)为查询字符串Query中各概念与搜索结果摘要Abstract之间的相关度,n为Query中概念的个数。
Rank ( C i , Abstract ) = m × Σ j = 1 m ln len ( Abstract ) Index ( C i , j , Abstract ) 式4
式4中,m=Time(Ci,Abstract)为概念Ci在摘要Abstract中出现的次数;len(Abstract)表示摘要Abstract的长度;Index(Ci,j,Abstract)为概念Ci在摘要Abstract中第j次出现的位置。
③对原始查询关键字Ki及扩展的查询字符串Query,分别求出Ki与Query中各概念的语义相似度
Figure BSA00000424876200061
则可计算检索结果的匹配度R。
R=α·Sim(Ki,Cj)+β·Rank(Query,Abstract)    式5
式5中,α与β为常数,分别表示扩展关键字的语义相关度及其摘要相关度的权重。其中α∈(0,1),β∈(0,1),且α+β=1。
④按照R数值递减的顺序完成检索结果的排序。
本发明是利用本体的语义优势提高领域相关的信息检索的查全率和查准率。在此方法的基础上,可以将用户的查询关键字利用领域本体进行语义扩展,得到一组或多组新的查询串,然后将其提交给Web搜索引擎,并将搜索结果进行排序和整理,最终显示给用户。由于这些新的查询串考虑了领域概念之间的关系,如上位词、下位词、同义词等,可以提高检索的查全率;同时,由于本体是领域相关的,使得检索结果限定在所属领域的范围之内,可以筛除大量的与领域无关的信息,从而提高检索的查准率。
附图说明
图1为海洋生态领域本体片段;
图2为本发明基于领域本体的优化信息检索***OASIS工作流程图;
图3为本发明OASIS的检索界面;
图4为在Google中检索“DIP”获得的搜索结果首页截图;
图5为以“InorganicNutrient+DIP”为例计算的摘要相关度;
图6为在本发明OASIS中检索“DIP”获得的搜索结果截图。
具体实施方式
下面通过一个海洋生态领域具体实施例对本发明作进一步详细描述。
本发明提出一种基于领域本体的信息检索优化方法,以海洋生态领域为例,结合附图,具体描述如下。
本发明关键步骤的工作流程图如图2所示,以海洋生态领域为例,当用户提交查询“DIP”时,具体实施步骤为:
1.服务器建立一个海洋生态本体(Ontology),以ocean.ont格式存储,其本体片段如图1所示;
2.在用户端通过图3所示的检索界面,提交查询关键字“DIP”进行查询(Portal);
3.服务器获取用户提交的查询关键字,对ocean.ont本体利用HozoAPI进行语义推理实现优化(Query Optimizer),针对概念“DIP”,能够获取到与其相关的概念有:基于is-a关系的概念InorganicNutrient、基于part-of关系的概念Phytoplankton、Seawater。由这些概念及概念之间的关系得到三组新的查询字符串“InorganicNutrient+DIP”、“DIP+Phytoplankton”和“DIP+Seawater”;
4.将这三组字符串分别发送给Web搜索引擎(Web SearchEngine),从万维网(World Wide Web)得到三组检索结果集,取各检索结果的前30条记录,分别得到结果集Result_1,Result_2和Result_3;
5.服务器将Result_1,Result_2和Result_3进行合并,完成去重操作后重新排序,得到最终结果集Result。主要算法如下:
(1)对搜索结果的URL进行处理,截取“#”之前的URL字符串作为最终的链接地址。若存在MD5(URLA)=MD5(URLB),则认为URLA及URLB对应的页面为重复页面。
(2)排序算法考虑两个方面:
①查询字符串中各概念的语义距离Dist(Ci,Cj),其中Ci与Cj为查询字符串中的两个概念。
利用式1:
Figure BSA00000424876200081
计算Ci与Cj的语义距离,并由式2:计算Ci与Cj的语义相似度。
②利用式3:
Figure BSA00000424876200083
计算查询字符串与搜索结果记录的相关度。
③对原始查询关键字Ki及扩展的查询字符串Query,分别求出Ki与Query中各概念的语义相似度
Figure BSA00000424876200084
并利用式5:R=α·Sim(Ki,Cj)+β·Rank(Query,Abstract)计算匹配度,按其结果的递减顺序完成检索结果的排序。
现以查询字符串“InorganicNutrient+DIP”为例说明进行说明。两个概念分别以CIN和CDIP表示。
由图1结合表1可知
Figure BSA00000424876200091
Figure BSA00000424876200092
Figure BSA00000424876200093
NLCA=2,取ε=1。则由式1计算得
由式2计算得 Sim ( C IN , C DIP ) = 1 Dist ( C IN , C DIP ) + 1 = 0.27
计算Rank(Query,Abstract)的相关参数如图5所示。
利用式5,取α=0.6,β=0.4得:
R URL 1 = 0.6 × 0.27 + 0.4 × 4.192 = 1.839
R URL 2 = 0.6 × 0.27 + 0.4 × 1.253 = 0.663
因此
Figure BSA00000424876200098
排在前列。
6.将Result通过检索界面显示给用户。如图6所示。
上述过程是以一个默认为海洋生态领域专用检索***OASIS和界面3的专业检索优化方法。对于其他领域也可采用这种专业检索***,但要采用相关领域本体。当然对于综合性搜索引擎,则可以在检索界面上增加由用户输入的领域关键词栏,以根据用户输入的领域关键词确定用户期望检索的领域,对于用户对领域划分陌生的情况,搜索引擎的搜索界面上可以预选相关领域由用户检索时进行选择,以确定领域本体和进行相关领域的词义扩展。对于不选择或不输入领域关键词的,确定领域本体时则采用所有领域本体。

Claims (8)

1.一种基于领域本体的信息检索优化方法,其步骤如下:
(1)通过检索***的检索界面,获取用户提交的查询关键字;
(2)在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过领域本体推理进行语义扩展,得到一组或多组新的查询字符串;
(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;
(4)对各搜索引擎的返回结果进行去重和排序整合;
(5)将最终结果通过检索界面显示给用户。
2.如权利要求1所述的方法,其特征在于所述的通过本体推理进行语义扩展,是采用下述方法中的一种或两种或全部:
①基于is-a关系优化方法
基于所述查询关键字获得的概念A的父概念P或子概念C,优化成概念A本身和它的父概念P的查询对,或概念A本身和它的子概念C的查询对;
②基于part-of关系的优化方法
将基于查询关键字获得的概念优化成该概念本身和其部分概念构成的查询对;
③基于equivalent-class关系的优化
将基于查询关键字获得的概念优化成该概念和与其等价的同义词构成的查询对。
3.如权利要求2所述的方法,其特征在于所述查询对内的概念之间为“与”或者“或”的逻辑关系。
4.如权利要求1至3中之一所述的方法,其特征在于:所述去重是指对于搜索结果URL进行处理,截取“#”之前的URL字符串作为最终的链接地址,对于URLA和URLB若存在MD5(URLA)=MD5(URLB),则认为URLA及URLB对应的页面为重复页面,去掉其中一个链接地址。
5.如权利要求4所述的方法,其特征在于:所述排序是利用概念的语义相似度结合摘要排序算法,对去重后的结果进行排序。
6.如权利要求5所述的方法,其特征在于所述排序方法包括:
①按式1计算查询字符串中各概念的语义距离Dist(Ci,Cj),
Dist ( C i , C j ) = Σ k = 1 n ω e k + N C i + N C j N C i + N C j + 2 × N LCA × ϵ 式1
其中Ci与Cj为查询字符串中的两个概念,表示本体树中连接结点Ci、Cj的最短路径中各边的加权距离之和;
Figure FSA00000424876100024
分别表示结点Ci和Cj到最低共同祖先结点的加权距离;NLCA表示最低共同祖先到根结点的加权距离;ε为一常数,根据加权系数确定,
当语义距离为0时,语义相似度为1,将Ci,Cj两者之间的相似度简化为式2:
Sim ( C i , C j ) = 1 Dist ( C i , C j ) + 1 式2
②按式3确定查询字符串与搜索结果记录的相关度Rank(Query,Abstract)
Rank ( Query , Abstract ) = Σ i = 1 n Rank ( C i , Abstract ) 式3
式3中,Rank(Ci,Abstract)为查询字符串Query中各概念与搜索结果摘要Abstract之间的相关度,n为Query中概念的个数
Rank ( C i , Abstract ) = m × Σ j = 1 m ln len ( Abstract ) Index ( C i , j , Abstract ) 式4
式4中,m=Time(Ci,Abstract)为概念Ci在摘要Abstract中出现的次数;len(Abstract)表示摘要Abstract的长度;Index(Ci,j,Abstract)为概念Ci在摘要Abstract中第j次出现的位置,
③对原始查询关键字Ki及扩展的查询字符串Query,分别求出Ki与Query中各概念的语义相似度按式5计算检索结果的匹配度R。
R=α·Sim(Ki,Cj)+β·Rank(Query,Abstract)    式5
式5中,α与β为常数,分别表示扩展关键字的语义相关度及其摘要相关度的权重,其中α∈(0,1),β∈(0,1),且α+β=1,
④按照R数值递减的顺序完成检索结果的排序。
7.如权利要求1至3中之一所述的方法,其特征在于:所述检索界面为针对某一领域的专用界面。
8.如权利要求1至3中之一所述的方法,其特征在于:所述检索界面有领域选项或领域关键字填写区域,在所述步骤(2)中根据用户选定的领域选项或领域关键字,加载相应的领域本体进行语义扩展。
CN2011100252193A 2011-01-24 2011-01-24 基于领域本体的信息检索优化方法 Expired - Fee Related CN102081668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100252193A CN102081668B (zh) 2011-01-24 2011-01-24 基于领域本体的信息检索优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100252193A CN102081668B (zh) 2011-01-24 2011-01-24 基于领域本体的信息检索优化方法

Publications (2)

Publication Number Publication Date
CN102081668A true CN102081668A (zh) 2011-06-01
CN102081668B CN102081668B (zh) 2012-07-25

Family

ID=44087629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100252193A Expired - Fee Related CN102081668B (zh) 2011-01-24 2011-01-24 基于领域本体的信息检索优化方法

Country Status (1)

Country Link
CN (1) CN102081668B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN102799677A (zh) * 2012-07-20 2012-11-28 河海大学 一种基于语义的水利领域信息检索***及方法
CN103324644A (zh) * 2012-03-23 2013-09-25 日电(中国)有限公司 一种查询结果多样化方法及装置
CN103577581A (zh) * 2013-11-08 2014-02-12 南京绿色科技研究院有限公司 农产品价格趋势预测方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及***
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN104933159A (zh) * 2015-06-26 2015-09-23 南京邮电大学 一种基于药品本体库的语义查询方法
WO2015154679A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 多搜索引擎搜索结果的排序方法及装置
CN105631007A (zh) * 2015-12-29 2016-06-01 云南电网有限责任公司电力科学研究院 一种行业技术信息搜集方法及***
CN106033428A (zh) * 2015-03-11 2016-10-19 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN109740947A (zh) * 2019-01-08 2019-05-10 上海市研发公共服务平台管理中心 基于专利数据的专家挖掘方法、***、存储介质及电子终端
CN110457490A (zh) * 2019-08-15 2019-11-15 桂林电子科技大学 一种基于领域本体的语义工作流索引构造及检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《情报学报》 20100228 朱恒民等 基于领域本体实现全网信息的智能搜索方法研究 9~15 1-4,7,8 第29卷, 第1期 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324644B (zh) * 2012-03-23 2016-05-11 日电(中国)有限公司 一种查询结果多样化方法及装置
CN103324644A (zh) * 2012-03-23 2013-09-25 日电(中国)有限公司 一种查询结果多样化方法及装置
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN102779161B (zh) * 2012-06-14 2015-03-04 杜小勇 基于rdf知识库的语义标注方法
CN102799677B (zh) * 2012-07-20 2014-11-12 河海大学 一种基于语义的水利领域信息检索***及方法
CN102799677A (zh) * 2012-07-20 2012-11-28 河海大学 一种基于语义的水利领域信息检索***及方法
CN103577581B (zh) * 2013-11-08 2016-09-28 南京绿色科技研究院有限公司 农产品价格趋势预测方法
CN103577581A (zh) * 2013-11-08 2014-02-12 南京绿色科技研究院有限公司 农产品价格趋势预测方法
WO2015154679A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 多搜索引擎搜索结果的排序方法及装置
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及***
CN103927358B (zh) * 2014-04-15 2017-02-15 清华大学 文本检索方法及***
CN104239513B (zh) * 2014-09-16 2019-03-08 西安电子科技大学 一种面向领域数据的语义检索方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN106033428A (zh) * 2015-03-11 2016-10-19 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
CN106033428B (zh) * 2015-03-11 2019-08-30 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
CN104933159A (zh) * 2015-06-26 2015-09-23 南京邮电大学 一种基于药品本体库的语义查询方法
CN104933159B (zh) * 2015-06-26 2019-01-18 南京邮电大学 一种基于药品本体库的语义查询方法
CN105631007A (zh) * 2015-12-29 2016-06-01 云南电网有限责任公司电力科学研究院 一种行业技术信息搜集方法及***
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN109740947A (zh) * 2019-01-08 2019-05-10 上海市研发公共服务平台管理中心 基于专利数据的专家挖掘方法、***、存储介质及电子终端
CN110457490A (zh) * 2019-08-15 2019-11-15 桂林电子科技大学 一种基于领域本体的语义工作流索引构造及检索方法
CN110457490B (zh) * 2019-08-15 2021-06-18 桂林电子科技大学 一种基于领域本体的语义工作流索引构造及检索方法

Also Published As

Publication number Publication date
CN102081668B (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102081668B (zh) 基于领域本体的信息检索优化方法
CN103838833B (zh) 基于相关词语语义分析的全文检索***
Jindal et al. A review of ranking approaches for semantic search on web
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及***
CN103886099B (zh) 一种模糊概念的语义检索***及方法
CN103425687A (zh) 一种基于关键词的检索方法和***
CN103823906A (zh) 一种基于微博数据的多维度检索排序优化算法和工具
CN102799677A (zh) 一种基于语义的水利领域信息检索***及方法
US8700624B1 (en) Collaborative search apps platform for web search
CN104636403B (zh) 处理查询请求的方法及装置
CN101814085A (zh) 基于wdb特征和用户查询请求的web数据库选择方法
Sharma et al. Web search result optimization by mining the search engine query logs
Murugudu et al. Efficiently harvesting deep web interfaces based on adaptive learning using two-phase data crawler framework
Kataria et al. Distributed representations for content-based and personalized tag recommendation
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search
Kumar et al. Smart information retrieval using query transformation based on ontology and semantic-association
Kataria et al. A novel approach for rank optimization using search engine transaction logs
Zeraatkar et al. Improvement of Page Ranking Algorithm by Negative Score of Spam Pages.
CN102651014A (zh) 基于概念关系的领域数据语义的处理方法和检索方法
Puspitaningrum et al. Wiki-MetaSemantik: A Wikipedia-derived query expansion approach based on network properties
Bama et al. Improved pagerank algorithm for web structure mining
AnigboguKenechukwu et al. A Cohesive Page Ranking and Depth-First Crawling Scheme For Improved Search Results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20170124

CF01 Termination of patent right due to non-payment of annual fee