CN103886099A - 一种模糊概念的语义检索***及方法 - Google Patents
一种模糊概念的语义检索***及方法 Download PDFInfo
- Publication number
- CN103886099A CN103886099A CN201410140317.5A CN201410140317A CN103886099A CN 103886099 A CN103886099 A CN 103886099A CN 201410140317 A CN201410140317 A CN 201410140317A CN 103886099 A CN103886099 A CN 103886099A
- Authority
- CN
- China
- Prior art keywords
- concept
- expansion
- retrieval
- semantic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种模糊概念的语义检索***及方法,其特征在于:它包括由人机交互界面构成的应用层、由预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块构成的业务逻辑层以及由若干索引信息库构成的数据层;用户通过人机交互界面将查询请求提交给预处理模块进行预处理后,生成一原始的检索词集并提交给查询转换模块;查询转换模块对接收到的检索词集进行模糊概念转换,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并分别提交给查询处理模块和定制处理模块;查询处理模块对索引信息库进行检索并将检索结果提交给定制处理模块;定制处理模块对检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面。
Description
技术领域
本发明涉及一种检索***及方法,特别是关于一种模糊概念的语义检索***及方法。
背景技术
随着网络技术的普及和应用,网络信息发布变得简单快捷。如何从大量的网络信息中快速定位用户所需资源,是一件令人头痛的事情。为了解决此类问题,网络检索技术随之产生,并得到迅速地发展。目前,现有的大部分网络搜索引擎都是基于关键字或者基于文本内容的检索,虽然它们的查全率在一定程度上能得到保证,但查准率还是不能满足用户的需求,且这些网络搜索引擎都存在一个致命的缺陷就是缺少对检索内容的语义分析,不能充分表达语义信息。基于语义的检索方法能大大地改进传统网络搜索引擎的搜索效果,提高检索性能,其中包括提高查准率和查全率。这也是语义网的主要应用之一。语义检索将进一步改善人们对网络查询的观感,并改变人们的检索习惯。
由于自然语言中常存在一词多义和多词一义的现象,人们往往难以用一个检索词来表达自己的需求,且在一些专业化较强的领域中,用户不具备该领域知识,导致检索效果差,无法检索到用户想要的资源。传统的关键字机械匹配检索技术是基于文档中关键词出现的频率而实现的,导致了“忠实表达”、“表达差异”和“词汇孤岛”等问题。因此,可通过本体技术对检索词进行模糊概念变换、概念扩展,实现一定程度上的语义检索,达到用户的需求。
目前,通过概念进行语义检索的方法主要有基于概念的中文搜索引擎,其核心是一个知识库和一种用来计算HTML标签权重的加权算法,使用这两种技术不仅能够数据库索引的正确度,也能够提高用户查询的精度;以文本的自然段作为检索的最小单位,从企业文本中抽取信息而建立本体描述符的信息检索模型;自动构建语义库和相关性查询扩展的方法,该方法利用关联规则挖掘技术,自动从文档中导出概念/词语之间相关性及层次关系,构建关联库,再通过关联库,对查询请求进行相关性扩展以实现概念检索。同时,本体构建是一项费时费力的工程,且构建好的本体的概念及概念间关系就被固定。由于新概念、新知识在各个领域中的大量涌现,导致本体内容在时间上存在一定的滞后,不利于本体的后续应用。面对大量的语义网新资源,如何组织新资源所产生的新概念与已有本体概念之间的语义关系、扩充由已有本体生成的概念语义网络空间,并将它们编码到检索模型中,是模糊概念语义检索所面临的一个重要问题。现有的检索***在查准率、查全率和精度上仍有较大的改善空间,同时,对中文已有本体的扩展研究在国内还是处于一个较为初步的阶段,没有***的体系结构和***。
发明内容
针对上述问题,本发明的目的是提供一种模糊概念的语义检索***及方法,该***能够解决现有网络检索***由机械式关键词匹配技术带来的“词汇孤岛”、“表达差异”和“忠实表达”问题,进一步提高网络检索***的精确度,并在检索过程中,半自动化的将未登录词和新概念添加到语义检索***中,更新检索***的词库。
为实现上述目的,本发明采取以下技术方案:一种模糊概念的语义检索***,其特征在于:它包括应用层、业务逻辑层和数据层;所述应用层包括人机交互界面;所述业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;所述数据层包括若干索引信息库;用户通过所述人机交互界面将查询请求提交给所述预处理模块;所述预处理模块对查询请求进行预处理后生成一原始的检索词集,并将该检索词集提交给所述查询转换模块;所述查询转换模块通过由所述本体扩展器支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,所述查询转换模块将扩展后的同义检索词集提交给所述查询处理模块,并将可供选择的语义相关检索词集提交给所述定制处理模块;根据扩展后的同义检索词集,所述查询处理模块对所述索引信息库进行检索,检索结果返回所述查询处理模块;所述查询处理模块将返回的检索结果提交给所述定制处理模块;所述定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给所述人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
所述预处理模块包括分词词集和自然语言处理模块;所述分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给所述自然语言处理模块;所述自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成原始的检索词集。
所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索***的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
所述本体扩展器包括文档收集器、文本预处理器、候选概念生成器、扩展概念生成器、外部资源库、扩展概念添加器和本体扩展评价;所述文档收集器通过概念间的语义匹配约束,过滤与已有种子本体概念无关的内容,从网络中收集与已有种子本体概念相关的文本并提交给所述文本预处理器;所述文本预处理器通过加入分词词集支持对收集到的文本进行文本预处理操作,经文本预处理操作后的文本提交给所述候选概念生成器;所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,并将其作为候选概念提交给所述扩展概念生成器;所述外部资源库为用户提供种子本体,并将种子本体提交给所述扩展概念生成器;所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,并提交给所述扩展概念添加器;所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念添加至种子本体中,更新种子本体的内容,完成种子本体的扩展;更新后的种子本体传输至所述文档收集器和文本预处理器中并参与下一个本体扩展过程,扩展后本体提交给所述本体扩展评价器,由所述本体扩展评价器对扩展后本体进行评价。
所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,其实现过程为:1)给定种子本体中的任一概念C,获取与概念C相关的领域文本集,并对领域文本集中的每个文本进行文本预处理操作,构造领域文档集D;2)在概念C的领域文本集D中,寻找与概念C在领域文本集D的任一文本的句子中距离范围不超过五的共现词CoWord(C),其具体包括:①构建概念C的共现词集CoWordSet(C):
CoWordSet(C)={Wi|Wi∈CoWord(C)},
式中,Wi为共现词;②统计每一个共现词Wi在领域文本集D中的词共现频率CoFreq(Wi)以及绝对词频AFreq(Wi);③对共现词Wi进行拼接,丢弃以及CoFreq(Wi)<5的共现词;④利用相对重要性RI(C)和熵Entropy(C)的计算公式,在领域文本集D中分别计算共现词集CoWordSet(C)中每个共现词Wi的相对重要性RI(Wi)和熵Entropy(Wi);相对重要性RI和熵Entropy的计算公式为:
式中,tf(C)是概念C在领域文本集D中出现的频率,df(C)是概念C的文档频率,N为领域文本集D的文档总数,p(C)概念C在领域文本集D的某一文档中出现的概率;⑤选择共现词集CoWordSet(C)中相对重要性RI值较大的前l个共现词Wi以及熵Entropy值较大的前k个共现词Wi的交集,组成给定概念C的候选概念集CandidateCpt(C)。
所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,其实现过程为:首先,通过Jaccard指数公式计算候选概念集CandidateCpt(C)中各候选概念CCi与种子本体中本体概念C之间的Jaccard指数,并分析其相关性;其次,通过将Jaccard指数和预设的阈值进行比较,完成对候选概念CCi中与本体概念C密切相关概念的选取;最后,根据概念选取结果,生成与本体概念C密切相关的扩展概念集ExtendedCpt(C)。
所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念集ExtendedCpt(C)中的扩展概念ECi添加至种子本体中,更新种子本体的内容,完成种子本体的扩展,扩展后的本体通过Web本体语言OWL描述,具体添加方式及位置为:输入:待扩展概念集ExtendedCpt(C),种子本体O;输出:扩展后本体O1;①对待扩展概念集ExtendedCpt(C)中的任一待扩展概念ECi,计算其与种子本体O中所有本体概念的语义关联性Relatedness(ECi,C)=Jaccard(ECi,C),其中C为种子本体0中的某一本体概念;②通过语义关联性Relatedness(ECi,C)的值来确定待扩展概念ECi和本体概念C之间的关系,其具体包括:ⅰ)若语义关联性Relatedness(ECi,C)的值最大且等于1,则认为待扩展概念ECi和本体概念C之间存在同义关系,并将待扩展概念ECi合并到本体概念C的同义词集中,作为本体概念C的非正式叙词;否则转向步骤ⅱ);ⅱ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Relatedness(ECi,C)<1和P(C|ECi)>0.8以及P(C|ECi)<1,则认为待扩展概念ECi和本体概念C之间存在层级关系,且待扩展概念ECi是本体概念C的下位词,并将待扩展概念ECi添加到本体概念C的下位词集中;否则,转向步骤ⅲ);ⅲ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Rleatednes(siE,C<),C1则认为待扩展概念ECi和本体概念C之间存在相关关系,并将待扩展概念ECi添加到本体概念C的下位词集中;③重复步骤①和步骤②,直至将待扩展概念集ExtendedCpt(C)中的所有待扩展概念添加到种子本体O中,得到扩展本体O1。
所述本体扩展评价器通过计算扩展后本体与“黄金标准”本体间的相似性来判断两个本体之间的重合程度,所述本体扩展评价器中的“黄金标准”本体由现有的领域主题词表来充当,分别用元素层和结构层的相似性评价扩展后本体概念以及概念间关系的准确性,用整体相似性判断扩展后本体的质量。
一种基于所述检索***的模糊概念的语义检索方法,其包括以下步骤:1)构建一包括应用层、业务逻辑层和数据层的模糊语义检索***;应用层包括人机交互界面;业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;数据层包括若干索引信息库;2)在预处理模块中设置分词词集和自然语言处理模块,用户通过人机交互界面将查询请求提交给预处理模块,预处理模块中的分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块;自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成一个原始的检索词集,并将该检索词集提交给查询转换模块;3)在查询转化模块中,建立一用Web本体语言OWL描述的本体库和一检索扩展优化模块;构建一半自动化本体扩展器,本体扩展器对本体库进行扩展更新,并生成更新的有效的本体库,新生成的本体库将接收到的检索词集中的检索词传输给检索扩展优化模块,检索扩展优化模块对接收到的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展完成检索***的语义扩展或者缩小检索,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并将扩展后的同义检索词集提交给查询处理模块,并将可供选择的语义相关检索词集提交给定制处理模块;4)查询处理模块对索引信息库进行检索,检索结果返回查询处理模块,查询处理模块将返回的检索结果提交给定制处理模块;5)定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
本发明由于采取以上技术方案,其具有以下优点:1、本发明由于在应用层设置人机交互界面;在业务逻辑层设置预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;在数据层设置若干索引信息库;用户通过人机交互界面将查询请求提交给预处理模块进行预处理后生成一原始的检索词集,并提交给查询转换模块;查询转换模块通过由本体扩展器支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,查询转换模块将扩展后的同义检索词集提交给查询处理模块,并将可供选择的语义相关检索词集提交给定制处理模块;根据扩展后的同义检索词集,查询处理模块对索引信息库进行检索,检索结果返回查询处理模块;查询处理模块将返回的检索结果提交给定制处理模块;定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索,因此本发明能够解决现有网络检索***中的“词汇孤岛”、“表达差异”和“忠实表达”问题,在不影响***性能的前提下,进一步提高检索***的查全率和查准率,从而达到提升***精确度的目的。2、本发明由于在业务逻辑层设置预处理模块,预处理模块中的分词词集对接收到的用户查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块;自然语言处理模块使用停用词过滤等技术处理分词后的检索词,生成原始的检索词集,因此本发明能够构造规范的检索表达式,提高检索***的精确度。3、本发明由于在检索过程中,通过本体扩展器从网络页面中收集检索***中不存在的新概念和未登录词,实时更新检索***的词集,因此本发明能够使检索***在一定程度上与网络页面词汇保持同步,进一步提升检索***的精确度。基于以上优点,本发明可以广泛应用于网络语义检索中。
附图说明
图1为本发明模糊概念的语义检索***结构示意图;
图2为本发明的本体扩展器结构示意图。
具体实施方式
下面结合附图和实施例对本发明的进行详细的描述。
如图1所示,本发明的模糊概念的语义检索***包括应用层1、业务逻辑层2和数据层3。其中,应用层1包括人机交互界面11;业务逻辑层2包括预处理模块21、查询转换模块22、本体扩展器23、查询处理模块24和定制处理模块25;数据层3包括若干索引信息库31。
用户通过人机交互界面11与业务逻辑层2进行信息交互,用户通过人机交互界面11将查询请求提交给预处理模块21;预处理模块21对查询请求进行分词、停用词过滤等预处理后生成一原始的检索词集,并将该检索词集提交给查询转换模块22;查询转换模块22通过由本体扩展器23支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,查询转换模块22将扩展后的同义检索词集提交给查询处理模块24,并将可供选择的语义相关检索词集提交给定制处理模块25;根据扩展后的同义检索词集,查询处理模块24对索引信息库31进行检索,检索结果返回查询处理模块24;查询处理模块24将返回的检索结果提交给定制处理模块25;定制处理模块25对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面11,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
上述实施例中,预处理模块21包括分词词集211和自然语言处理模块212。分词词集211对接收到的查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块212;自然语言处理模块212使用停用词过滤等技术处理分词后的检索词,生成原始的检索词集。
上述实施例中,查询转换模块22包括本体库221和检索扩展优化模块222。检索扩展优化模块222通过本体库221将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索***的语义扩展或者缩小检索。同时,本体扩展器25对本体库221起着支撑和实时更新作用,主要通过获取网络页面文本,将本体库221中没有的新概念和未登录词源源不断地添加到本体库221中,并实时更新本体库221,使其在一定程度上保持与网页词汇的同步。
上述实施例中,如图2所示,本体扩展器23用于对种子本体进行半自动化扩展,更新本体内容,以及构建本体,从而更新本体库,并进一步构建概念网络语义空间;其包括文档收集器230、文本预处理器231、候选概念生成器232、扩展概念生成器233、外部资源库234、扩展概念添加器235和本体扩展评价器236。文档收集器230通过概念间的语义匹配约束,过滤与已有种子本体概念无关的内容,从网络中收集与已有种子本体概念相关的文本并提交给文本预处理器231;文本预处理器231通过加入分词词集支持对收集到的文本进行文本预处理操作,其中,文本预处理操作包括分词、词性标注,提供用户添加其所使用的词典的接口等;经文本预处理操作后的文本提交给候选概念生成器232;候选概念生成器232从预处理后的文本中抽取与种子本体概念紧密相关的概念,并将其作为候选概念提交给扩展概念生成器233;外部资源库234为用户提供种子本体,并将种子本体提交给扩展概念生成器233;扩展概念生成器233通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,并提交给扩展概念添加器235;扩展概念添加器235通过改进的包含分析和本体扩展规则将接收到的扩展概念添加至种子本体中,更新种子本体的内容,完成种子本体的扩展;更新后的种子本体传输至文档收集器230和文本预处理器231并参与下一个本体扩展过程,扩展后本体提交给本体扩展评价器236,由本体扩展评价器236对扩展后本体进行评价。
上述实施例中,候选概念生成器232从预处理后的文本中抽取与种子本体概念紧密相关的概念,其实现过程为:
1)给定种子本体中的任一概念C,获取与概念C相关的领域文本集,并对领域文本集中的每个文本进行分词、词性标注等文本预处理操作,构造领域文档集D。
2)在概念C的领域文本集D中,寻找概念C的共现词CoWord(C);其中,共现词指与概念C在领域文本集D的任一文本的句子中距离范围不超过五的词,其具体包括:
①构建概念C的共现词集CoWordSet(C):
CoWordSet(C)={Wi|Wi∈CoWord(C)} (1)
式中,Wi为共现词。
②统计每一个共现词Wi在领域文本集D中的词共现频率CoFreq(Wi)以及绝对词频AFreq(Wi)。其中,词共现频率CoFreq(Wi)指共现词Wi与概念C同时出现的频率,绝对词频AFreq(Wi)指共现词Wi在领域文本集D中出现的频率。
④利用相对重要性RI(C)和熵Entropy(C)的计算公式,在领域文本集D中分别计算共现词集CoWordSet(C)中每个共现词Wi的相对重要性RI(Wi)和熵Entropy(Wi)。
相对重要性RI和熵Entropy的计算公式为:
式中,tf(C)是概念C在领域文本集D中出现的频率,df(C)是概念C的文档频率,N为领域文本集D的文档总数,p(C)概念C在领域文本集D的某一文档中出现的概率。
⑤选择共现词集CoWordSet(C)中相对重要性RI值较大的前l个共现词Wi以及熵Entropy值较大的前k个共现词Wi的交集,组成给定概念C的候选概念集CandidateCpt(C)。
上述实施例中,扩展概念生成器233通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,其实现过程为:
首先,通过Jaccard指数公式计算候选概念集CandidateCpt(C)中各候选概念CCi与种子本体中本体概念C之间的Jaccard指数,并分析其相关性;
其中,Jaccard指数公式为:
其次,通过将Jaccard指数和预设的阈值进行比较,完成对候选概念CCi中与本体概念C密切相关概念的选取;
最后,根据概念选取结果,生成与本体概念C密切相关的扩展概念集ExtendedCpt(C)。
上述实施例中,扩展概念添加器235通过改进的包含分析和本体扩展规则将接收到的扩展概念集ExtendedCpt(C)中的扩展概念ECi添加至种子本体中,更新种子本体的内容,完成种子本体的扩展。其中,本体扩展规则包括:
规则一:当待扩展概念ECi与本体概念C两者之间的语义关联性值等于1或近似为1时,此处语义关联性值通过Jaccard指数值表示,则说明待扩展概念ECi与本体概念C之间的语义关系是等价的,或者是互为同义词,即待扩展概念ECi与本体概念C间存在同义关系。因此,将待扩展概念ECi***到本体概念C的同义属性中。
规则二:若待扩展概念ECi和本体概念C两者之间的语义关联性值最大,且不满足规则一时,则用改进的包含分析确定待扩展概念ECi与本体概念C之间的语义关系,其中改进的包含分析为:P(X|Y)≥0.8且P(Y|X)<1,其中X和Y分别表示两个概念,若改进的包含分析条件成立,则说明概念X是比概念Y更一般的概念,概念X包含概念Y,概念X和概念Y之间存在层级关系,且概念Y是概念X的下位概念。
规则三:若待扩展概念ECi与本体概念C两者之间的语义关联性值最大,且不满足规则一和规则二时,则将这类关***一定义为相关关系。
通过上述三种规则得到的同义、上下位以及相关关系将待扩展概念添加至种子本体中,更新本体内容,完成本体扩展,扩展后的本体主要通过Web本体语言OWL描述,具体添加方式及位置如下所述:
输入:待扩展概念集ExtendedCpt(C),种子本体O;
输出:扩展后本体O1;
①对待扩展概念集ExtendedCpt(C)中的任一待扩展概念ECi,计算其与种子本体O中所有本体概念的语义关联性Relatedness(ECi,C)=Jaccard(ECi,C),其中C为种子本体0中的某一本体概念;
②通过语义关联性Relatedness(ECi,C)的值来确定待扩展概念ECi和本体概念C之间的关系,其具体包括:
ⅰ)若语义关联性Relatedness(ECi,C)的值最大且等于1,则认为待扩展概念ECi和本体概念C之间存在同义关系,并将待扩展概念ECi合并到本体概念C的同义词集中,作为本体概念C的非正式叙词;否则转向步骤ⅱ);
ⅱ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Relatedness(ECi,C)<1和P(C|ECi)>0.8以及P(C|ECi)<1,则认为待扩展概念ECi和本体概念C之间存在层级关系,且待扩展概念ECi是本体概念C的下位词,并将待扩展概念ECi添加到本体概念C的下位词集中;否则,转向步骤ⅲ);
ⅲ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Relatedness(ECi,C)<1,则认为待扩展概念ECi和本体概念C之间存在相关关系,并将待扩展概念ECi添加到本体概念C的下位词集中。
③重复步骤①和步骤②,直至将待扩展概念集ExtendedCpt(C)中的所有待扩展概念添加到种子本体O中,得到扩展本体O1。
上述实施例中,本体扩展评价器236通过计算扩展后本体与“黄金标准”本体间的相似性来判断两个本体之间的重合程度,本体扩展评价器236中的“黄金标准”本体由现有的领域主题词表来充当,分别用元素层和结构层的相似性评价扩展后本体概念以及概念间关系的准确性,用整体相似性判断扩展后本体的质量,其中元素层相似性指的是两个本体的概念间相似性,结构层相似性指的是两个本体的概念关系间的相似性,而整体相似性通过权衡元素层和结构层的相似性来描述。
基于本发明检索***的模糊概念语义检索方法,其包括以下步骤:
1)构建一包括应用层1、业务逻辑层2和数据层3的模糊语义检索***;其中,应用层1包括人机交互界面11;业务逻辑层2包括预处理模块21、查询转换模块22、本体扩展器23、查询处理模块24和定制处理模块25;数据层3包括若干索引信息库31。
2)在预处理模块21中设置分词词集211和自然语言处理模块212,用户通过人机交互界面11将查询请求提交给预处理模块21,预处理模块21中的分词词集211对接收到的查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块212;自然语言处理模块212使用停用词过滤等技术处理分词后的检索词,生成一个原始的检索词集,并将该检索词集提交给查询转换模块22。
3)在查询转化模块22中,建立一用Web本体语言OWL(Web Ontology Language,网络本体语言)描述的本体库221和一检索扩展优化模块222;构建一半自动化本体扩展器23,本体扩展器23对本体库221进行扩展更新,并生成更新的有效的本体库221,新生成的本体库221将接收到的检索词集中的检索词传输给检索扩展优化模块222,检索扩展优化模块222对接收到的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展完成检索***的语义扩展或者缩小检索,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并将扩展后的同义检索词集提交给查询处理模块24,并将可供选择的语义相关检索词集提交给定制处理模块25。
4)查询处理模块24对索引信息库31进行检索,检索结果返回查询处理模块24。查询处理模块24将返回的检索结果提交给定制处理模块25。
5)定制处理模块25对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面11,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和方法步骤等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (10)
1.一种模糊概念的语义检索***,其特征在于:它包括应用层、业务逻辑层和数据层;所述应用层包括人机交互界面;所述业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;所述数据层包括若干索引信息库;用户通过所述人机交互界面将查询请求提交给所述预处理模块;
所述预处理模块对查询请求进行预处理后生成一原始的检索词集,并将该检索词集提交给所述查询转换模块;所述查询转换模块通过由所述本体扩展器支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,所述查询转换模块将扩展后的同义检索词集提交给所述查询处理模块,并将可供选择的语义相关检索词集提交给所述定制处理模块;根据扩展后的同义检索词集,所述查询处理模块对所述索引信息库进行检索,检索结果返回所述查询处理模块;所述查询处理模块将返回的检索结果提交给所述定制处理模块;所述定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给所述人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
2.如权利要求1所述的一种模糊概念的语义检索***,其特征在于:所述预处理模块包括分词词集和自然语言处理模块;所述分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给所述自然语言处理模块;所述自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成原始的检索词集。
3.如权利要求1所述的一种模糊概念的语义检索***,其特征在于:所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索***的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
4.如权利要求2所述的一种模糊概念的语义检索***,其特征在于:所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索***的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
5.如权利要求1或2或3或4所述的一种模糊概念的语义检索***,其特征在于:所述本体扩展器包括文档收集器、文本预处理器、候选概念生成器、扩展概念生成器、外部资源库、扩展概念添加器和本体扩展评价;所述文档收集器通过概念间的语义匹配约束,过滤与已有种子本体概念无关的内容,从网络中收集与已有种子本体概念相关的文本并提交给所述文本预处理器;所述文本预处理器通过加入分词词集支持对收集到的文本进行文本预处理操作,经文本预处理操作后的文本提交给所述候选概念生成器;所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,并将其作为候选概念提交给所述扩展概念生成器;所述外部资源库为用户提供种子本体,并将种子本体提交给所述扩展概念生成器;所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,并提交给所述扩展概念添加器;所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念添加至种子本体中,更新种子本体的内容,完成种子本体的扩展;更新后的种子本体传输至所述文档收集器和文本预处理器中并参与下一个本体扩展过程,扩展后本体提交给所述本体扩展评价器,由所述本体扩展评价器对扩展后本体进行评价。
6.如权利要求5所述的一种模糊概念的语义检索***,其特征在于:所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,其实现过程为:
1)给定种子本体中的任一概念C,获取与概念C相关的领域文本集,并对领域文本集中的每个文本进行文本预处理操作,构造领域文档集D;
2)在概念C的领域文本集D中,寻找与概念C在领域文本集D的任一文本的句子中距离范围不超过五的共现词CoWord(C),其具体包括:
①构建概念C的共现词集CoWordSet(C):
CoWordSet(C)={Wi|Wi∈CoWord(C)},
式中,Wi为共现词;
②统计每一个共现词Wi在领域文本集D中的词共现频率CoFreq(Wi)以及绝对词频AFreq(Wi);
④利用相对重要性RI(C)和熵Entropy(C)的计算公式,在领域文本集D中分别计算共现词集CoWordSet(C)中每个共现词Wi的相对重要性RI(Wi)和熵Entropy(Wi);
相对重要性RI和熵Entropy的计算公式为:
式中,tf(C)是概念C在领域文本集D中出现的频率,df(C)是概念C的文档频率,N为领域文本集D的文档总数,p(C)概念C在领域文本集D的某一文档中出现的概率;
⑤选择共现词集CoWordSet(C)中相对重要性RI值较大的前l个共现词Wi以及熵Entropy值较大的前k个共现词Wi的交集,组成给定概念C的候选概念集CandidateCpt(C)。
7.如权利要求5所述的一种模糊概念的语义检索***,其特征在于:所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,其实现过程为:
首先,通过Jaccard指数公式计算候选概念集CandidateCpt(C)中各候选概念CCi与种子本体中本体概念C之间的Jaccard指数,并分析其相关性;
其次,通过将Jaccard指数和预设的阈值进行比较,完成对候选概念CCi中与本体概念C密切相关概念的选取;
最后,根据概念选取结果,生成与本体概念C密切相关的扩展概念集ExtendedCpt(C)。
8.如权利要求5所述的一种模糊概念的语义检索***,其特征在于:所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念集ExtendedCpt(C)中的扩展概念ECi添加至种子本体中,更新种子本体的内容,完成种子本体的扩展,扩展后的本体通过Web本体语言OWL描述,具体添加方式及位置为:
输入:待扩展概念集ExtendedCpt(C),种子本体O;
输出:扩展后本体O1;
①对待扩展概念集ExtendedCpt(C)中的任一待扩展概念ECi,计算其与种子本体O中所有本体概念的语义关联性Relatedness(ECi,C)=Jaccard(ECi,C),其中C为种子本体0中的某一本体概念;
②通过语义关联性Relatedness(ECi,C)的值来确定待扩展概念ECi和本体概念C之间的关系,其具体包括:
ⅰ)若语义关联性Relatedness(ECi,C)的值最大且等于1,则认为待扩展概念ECi和本体概念C之间存在同义关系,并将待扩展概念ECi合并到本体概念C的同义词集中,作为本体概念C的非正式叙词;否则转向步骤ⅱ);
ⅱ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Relatedness(ECi,C)<1和P(C|ECi)>0.8以及P(C|ECi)<1,则认为待扩展概念ECi和本体概念C之间存在层级关系,且待扩展概念ECi是本体概念C的下位词,并将待扩展概念ECi添加到本体概念C的下位词集中;否则,转向步骤ⅲ);
ⅲ)若语义关联性Relatedness(ECi,C)的值最大,且满足0.6<Relatedness(ECi,C)<1,则认为待扩展概念ECi和本体概念C之间存在相关关系,并将待扩展概念ECi添加到本体概念C的下位词集中;
③重复步骤①和步骤②,直至将待扩展概念集ExtendedCpt(C)中的所有待扩展概念添加到种子本体O中,得到扩展本体O1。
9.如权利要求5所述的一种模糊概念的语义检索***,其特征在于:所述本体扩展评价器通过计算扩展后本体与“黄金标准”本体间的相似性来判断两个本体之间的重合程度,所述本体扩展评价器中的“黄金标准”本体由现有的领域主题词表来充当,分别用元素层和结构层的相似性评价扩展后本体概念以及概念间关系的准确性,用整体相似性判断扩展后本体的质量。
10.一种基于权利要求1~9任一项所述检索***的模糊概念的语义检索方法,其包括以下步骤:
1)构建一包括应用层、业务逻辑层和数据层的模糊语义检索***;应用层包括人机交互界面;业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;数据层包括若干索引信息库;
2)在预处理模块中设置分词词集和自然语言处理模块,用户通过人机交互界面将查询请求提交给预处理模块,预处理模块中的分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块;自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成一个原始的检索词集,并将该检索词集提交给查询转换模块;
3)在查询转化模块中,建立一用Web本体语言OWL描述的本体库和一检索扩展优化模块;构建一半自动化本体扩展器,本体扩展器对本体库进行扩展更新,并生成更新的有效的本体库,新生成的本体库将接收到的检索词集中的检索词传输给检索扩展优化模块,检索扩展优化模块对接收到的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展完成检索***的语义扩展或者缩小检索,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并将扩展后的同义检索词集提交给查询处理模块,并将可供选择的语义相关检索词集提交给定制处理模块;
4)查询处理模块对索引信息库进行检索,检索结果返回查询处理模块,查询处理模块将返回的检索结果提交给定制处理模块;
5)定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410140317.5A CN103886099B (zh) | 2014-04-09 | 2014-04-09 | 一种模糊概念的语义检索***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410140317.5A CN103886099B (zh) | 2014-04-09 | 2014-04-09 | 一种模糊概念的语义检索***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886099A true CN103886099A (zh) | 2014-06-25 |
CN103886099B CN103886099B (zh) | 2017-02-15 |
Family
ID=50954991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410140317.5A Expired - Fee Related CN103886099B (zh) | 2014-04-09 | 2014-04-09 | 一种模糊概念的语义检索***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886099B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090958A (zh) * | 2014-07-04 | 2014-10-08 | 许昌学院 | 一种基于领域本体的语义信息检索***及方法 |
CN104468785A (zh) * | 2014-12-08 | 2015-03-25 | 上海斐讯数据通信技术有限公司 | 电子设备、服务器设备、数据请求提交方法及处理方法 |
CN105005620A (zh) * | 2015-07-23 | 2015-10-28 | 武汉大学 | 基于查询扩展的有限数据源数据获取方法 |
CN105320674A (zh) * | 2014-07-03 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
CN105550217A (zh) * | 2015-12-03 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 场景音乐搜索方法及场景音乐搜索装置 |
CN105630907A (zh) * | 2015-12-21 | 2016-06-01 | 北京大学 | 一种基于应用内容的安卓应用组装方法 |
CN109522396A (zh) * | 2018-10-22 | 2019-03-26 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及*** |
CN110168521A (zh) * | 2016-10-20 | 2019-08-23 | 日本电信电话株式会社 | 数据处理装置及数据处理方法 |
CN110377700A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种专业知识语义检索*** |
CN116737915A (zh) * | 2023-08-16 | 2023-09-12 | 中移信息***集成有限公司 | 基于知识图谱的语义检索方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169780A (zh) * | 2006-10-25 | 2008-04-30 | 华为技术有限公司 | 一种基于语义本体的检索***和方法 |
CN100517330C (zh) * | 2007-06-06 | 2009-07-22 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
CN101566988A (zh) * | 2008-04-24 | 2009-10-28 | 华为技术有限公司 | 一种模糊语义搜索方法、***及设备 |
-
2014
- 2014-04-09 CN CN201410140317.5A patent/CN103886099B/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
苏丹,杨小平: "面向语义检索的本体建模及算法研究", 《信息***协会中国分会第一届学术年会》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320674A (zh) * | 2014-07-03 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
CN105320674B (zh) * | 2014-07-03 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
CN104090958A (zh) * | 2014-07-04 | 2014-10-08 | 许昌学院 | 一种基于领域本体的语义信息检索***及方法 |
CN104468785A (zh) * | 2014-12-08 | 2015-03-25 | 上海斐讯数据通信技术有限公司 | 电子设备、服务器设备、数据请求提交方法及处理方法 |
CN105005620A (zh) * | 2015-07-23 | 2015-10-28 | 武汉大学 | 基于查询扩展的有限数据源数据获取方法 |
CN105005620B (zh) * | 2015-07-23 | 2018-04-20 | 武汉大学 | 基于查询扩展的有限数据源数据获取方法 |
CN105550217A (zh) * | 2015-12-03 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 场景音乐搜索方法及场景音乐搜索装置 |
CN105630907B (zh) * | 2015-12-21 | 2019-05-07 | 北京大学 | 一种基于应用内容的安卓应用组装方法 |
CN105630907A (zh) * | 2015-12-21 | 2016-06-01 | 北京大学 | 一种基于应用内容的安卓应用组装方法 |
CN110168521A (zh) * | 2016-10-20 | 2019-08-23 | 日本电信电话株式会社 | 数据处理装置及数据处理方法 |
CN110168521B (zh) * | 2016-10-20 | 2023-08-22 | 日本电信电话株式会社 | 数据处理装置及数据处理方法 |
CN109522396A (zh) * | 2018-10-22 | 2019-03-26 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及*** |
CN109522396B (zh) * | 2018-10-22 | 2020-12-25 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及*** |
CN110377700A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种专业知识语义检索*** |
CN116737915A (zh) * | 2023-08-16 | 2023-09-12 | 中移信息***集成有限公司 | 基于知识图谱的语义检索方法、装置、设备及存储介质 |
CN116737915B (zh) * | 2023-08-16 | 2023-11-21 | 中移信息***集成有限公司 | 基于知识图谱的语义检索方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103886099B (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及*** | |
CN103886099A (zh) | 一种模糊概念的语义检索***及方法 | |
Wei et al. | A survey of faceted search | |
Vicient et al. | An automatic approach for ontology-based feature extraction from heterogeneous textualresources | |
Haav | A Semi-automatic Method to Ontology Design by Using FCA. | |
US20110047166A1 (en) | System and methods of relating trademarks and patent documents | |
Trillo et al. | Using semantic techniques to access web data | |
WO2016003954A1 (en) | Constructing a graph that facilitates provision of exploratory suggestions | |
CN104298776A (zh) | 基于lda模型的搜索引擎结果优化*** | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
Wang et al. | Multi-source knowledge integration based on machine learning algorithms for domain ontology | |
Minkov et al. | Improving graph-walk-based similarity with reranking: Case studies for personal information management | |
Rajasurya et al. | Semantic information retrieval using ontology in university domain | |
Yusuf et al. | Query expansion method for quran search using semantic search and lucene ranking | |
Alrehamy et al. | Exploiting extensible background knowledge for clustering-based automatic keyphrase extraction | |
WO2012091541A1 (en) | A semantic web constructor system and a method thereof | |
Khin et al. | Query classification based information retrieval system | |
Zhao et al. | Expanding approach to information retrieval using semantic similarity analysis based on WordNet and Wikipedia | |
Kanwal et al. | Adaptively intelligent meta-search engine with minimum edit distance | |
Duong et al. | Personalized semantic search using ODP: a study case in academic domain | |
CN102495844B (zh) | 用于构建用户模型的改进的GuTao法 | |
Goyal et al. | Query representation through lexical association for information retrieval | |
Priya et al. | Design and development of an ontology based personal web search engine | |
Sahu et al. | Analytical study on intelligent information retrieval system using semantic network | |
Gupta et al. | Ontology driven pre and post ranking based information retrieval in web search engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170215 Termination date: 20200409 |
|
CF01 | Termination of patent right due to non-payment of annual fee |