CN107193873A - 一种基于语义网技术的网络搜索方法 - Google Patents

一种基于语义网技术的网络搜索方法 Download PDF

Info

Publication number
CN107193873A
CN107193873A CN201710248027.6A CN201710248027A CN107193873A CN 107193873 A CN107193873 A CN 107193873A CN 201710248027 A CN201710248027 A CN 201710248027A CN 107193873 A CN107193873 A CN 107193873A
Authority
CN
China
Prior art keywords
concept
search
user
target
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710248027.6A
Other languages
English (en)
Inventor
杨峰
王朝勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Teachers Institute of Engineering and Technology
Original Assignee
Jilin Teachers Institute of Engineering and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Teachers Institute of Engineering and Technology filed Critical Jilin Teachers Institute of Engineering and Technology
Priority to CN201710248027.6A priority Critical patent/CN107193873A/zh
Publication of CN107193873A publication Critical patent/CN107193873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了局域网搜索引擎的设计与开发技术领域的一种基于语义网技术的网络搜索方法,该基于语义网技术的网络搜索方法的具体步骤如下:S1:构建用户情境模型;S2:将情境模型与搜索引擎集成在一起;S3:计算关键词向量和概念关键词向量的相似度;S4:对目标概念进行匹配,得到目标概念集;S5:对候选关键词的频度进行限定;S6:将目标概念进行聚类,本发明将用户情境模型与搜索引擎集成在一起,大大加强了信息检索服务中对用户情境信息的分析与利用,采用语义网技术,能够很好的使计算机和人类合作完成工作,对用户情境信息的结构和特征进行形式化的描述,将其转化为计算机可理解的形式,并为搜索引擎所使用。

Description

一种基于语义网技术的网络搜索方法
技术领域
本发明涉及局域网搜索引擎的设计与开发技术领域,具体为一种基于语义网技术的网络搜索方法。
背景技术
目前用户在互联网上查询信息主要的工具是搜索引擎。直观的说,搜索引擎是一套在互联网上运行的软件***,它根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织与处理后,将与用户检索的相关信息通过特定的用户界面展示给用户。
现如今,信息技术的飞速发展,为人们提供了更广阔的共享平台,网络检索已经成为人们获取信息的常用渠道,人们通过信息检索工具来检索相关的信息,这在一定程度上解决了资源的分类和检索的问题。然而传统的基于关键词的检索方式,由于忽略了关键词本身所蕴含的语义信息,而得到较低的查全率和查准率,变得越来越不适应检索的需求。为此,我们提出了一种基于语义网技术的网络搜索方法投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种基于语义网技术的网络搜索方法,以解决上述背景技术中提出的传统的基于关键词的检索方式,由于忽略了关键词本身所蕴含的语义信息,而得到较低的查全率和查准率,变得越来越不适应检索的需求的问题。
为实现上述目的,本发明提供如下技术方案:一种基于语义网技术的网络搜索方法,该基于语义网技术的网络搜索方法的具体步骤如下:
S1:收集用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业和创作方面的基础信息,构建用户情境模型;
S2:将用户情境模块与现有的搜索引擎集成在一起,确定搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定和搜索结果的定量定性;
S3:通过网络代理节点将用户输入的搜索请求传输到代理节点的邻居节点中,并通过本体映射计算用户输入的关键词向量和概念关键词向量间的相似度;
S4:由搜索引擎将用户输入的关键词向量发送给语义本体中,采用各领域本体模块并行推理的方式,对目标概念进行匹配,得到目标概念集;
S5:对目标概念集中各概念,若用户输入的一些关键词没有出现在该概念的关键词向量中,则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1,当某候选关键词的频度达到界限值时,将被加入到该概念的关键词向量中;
S6:将目标概念进行聚类,将聚类结果上传至语义库中,并反馈给用户,便于用户快速查找到感兴趣的文件。
优选的,所述步骤S1中,用户情境模型能够分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,并对其进行存储、表示和描述。
优选的,所述步骤S4中,目标概念为关键词向量和概念关键词向量间的相似度值最大的概念,并通过目标概念的其他关键词进行扩展搜索或利用和目标概念语义距离较近的概念的关键词进行扩展搜索。
优选的,所述步骤S5中,关键词的频度界限值记为3。
优选的,所述步骤S6中,在目标概念的聚类过程中,由目标概念找到各祖先概念,将同一概念下的文档聚成一个大类,并根据概念的共同祖先概念或共同属于同一概念聚成一个更大的类别,形成多层聚类的结果。
与现有技术相比,本发明的有益效果是:本发明将用户情境模型与搜索引擎集成在一起,大大加强了信息检索服务中对用户情境信息的分析与利用,从而使得搜索引擎的搜索结果从目前输出项的千篇一律向多样化转变,使搜索起点从共用大型抓取数据库向复杂分类数据库和搜索过程数据库转变,采用语义网技术,能够很好的使计算机和人类合作完成工作,应用语义网和本体技术对所收集到的用户情境信息进行处理,对用户情境信息的结构和特征进行形式化的描述,将其转化为计算机可理解的形式,并为搜索引擎所使用,同时也便于各实体间对情境信息达成共同的语义理解,从而利用已存在的本体对情境信息进行推理。
附图说明
图1为本发明工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于语义网技术的网络搜索方法,该基于语义网技术的网络搜索方法的具体步骤如下:
S1:收集用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业和创作方面的基础信息,构建用户情境模型,用户情境模型能够分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,并对其进行存储、表示和描述;
S2:将用户情境模块与现有的搜索引擎集成在一起,确定搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定和搜索结果的定量定性;
S3:通过网络代理节点将用户输入的搜索请求传输到代理节点的邻居节点中,并通过本体映射计算用户输入的关键词向量和概念关键词向量间的相似度;
S4:由搜索引擎将用户输入的关键词向量发送给语义本体中,采用各领域本体模块并行推理的方式,对目标概念进行匹配,得到目标概念集,目标概念为关键词向量和概念关键词向量间的相似度值最大的概念,并通过目标概念的其他关键词进行扩展搜索或利用和目标概念语义距离较近的概念的关键词进行扩展搜索;
S5:对目标概念集中各概念,若用户输入的一些关键词没有出现在该概念的关键词向量中,则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1,当某候选关键词的频度达到界限值时,将被加入到该概念的关键词向量中,关键词的频度界限值记为3;
S6:将目标概念进行聚类,将聚类结果上传至语义库中,并反馈给用户,便于用户快速查找到感兴趣的文件,在目标概念的聚类过程中,由目标概念找到各祖先概念,将同一概念下的文档聚成一个大类,并根据概念的共同祖先概念或共同属于同一概念聚成一个更大的类别,形成多层聚类的结果。
一般的认为,一个本体映射的过程应当包括如下几个部分:⑴本体标准化;⑵相似度的提取;⑶语义映射;⑷执行映射;⑸映射后处理,其中相似度的提取是本体映射过程中一个至关重要的步骤,主要就是进行相似度的计算,在本发明中将基于实例的方法和利用启发式规则的方法结合在一起取长补短,并给两种方法设定相应的权值。实例计算相似度的方法是利用一定量的实例在两个概念中出现的联合分布概率来计算两个概念的相似度,对于一个实例,利用Jaccard系数来计算相似度,该系数的计算公式为用具体实例来计算概念C1和C2的相似度,记为Siminstance(C1,C2),则计算公式为本体中的概念是分层的,本体也可看成一颗概念树,树中的每个节点代表一个概念,启发式规则可以以概念树的一些性质、一些领域公理和领域专家所定义的一些规则为依据而制定,计算所得的相似度记为Simrule(C1,C2)。将基于实例的相似度和基于规则的相似度按相应的权重予以合并,则概念C1和概念C2间的语义相似度可用如下公式表示Simsemantic(C1,C2)=WinstanceSiminstance(C1,C2)+WruleSimrule(C1,C2),其中Winstance+Wrule=1。由于本体的多样性和易构性,要想完成信息交流的任务必须在本体之间架起语义映射的桥梁,本体映射现在已经是语义网发展过程中存在的一个重要问题,在本发明中提出的本体映射的方法综合改进了映射相似度量方面的多种方法,有很好的效率和准确度,其权重一般是根据已有的经验给出。本发明在语义网络平台上,将检索需求定位到合适的数据源中执行检索服务,从而进一步的提高查准率和查全率,以实现网络资源精确搜索,有效的利用网络信息资源,消除网络资源孤岛。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于语义网技术的网络搜索方法,其特征在于:该基于语义网技术的网络搜索方法的具体步骤如下:
S1:收集用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业和创作方面的基础信息,构建用户情境模型;
S2:将用户情境模块与现有的搜索引擎集成在一起,确定搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定和搜索结果的定量定性;
S3:通过网络代理节点将用户输入的搜索请求传输到代理节点的邻居节点中,并通过本体映射计算用户输入的关键词向量和概念关键词向量间的相似度;
S4:由搜索引擎将用户输入的关键词向量发送给语义本体中,采用各领域本体模块并行推理的方式,对目标概念进行匹配,得到目标概念集;
S5:对目标概念集中各概念,若用户输入的一些关键词没有出现在该概念的关键词向量中,则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1,当某候选关键词的频度达到界限值时,将被加入到该概念的关键词向量中;
S6:将目标概念进行聚类,将聚类结果上传至语义库中,并反馈给用户,便于用户快速查找到感兴趣的文件。
2.根据权利要求1所述的一种基于语义网技术的网络搜索方法,其特征在于:所述步骤S1中,用户情境模型能够分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,并对其进行存储、表示和描述。
3.根据权利要求1所述的一种基于语义网技术的网络搜索方法,其特征在于:所述步骤S4中,目标概念为关键词向量和概念关键词向量间的相似度值最大的概念,并通过目标概念的其他关键词进行扩展搜索或利用和目标概念语义距离较近的概念的关键词进行扩展搜索。
4.根据权利要求1所述的一种基于语义网技术的网络搜索方法,其特征在于:所述步骤S5中,关键词的频度界限值记为3。
5.根据权利要求1所述的一种基于语义网技术的网络搜索方法,其特征在于:所述步骤S6中,在目标概念的聚类过程中,由目标概念找到各祖先概念,将同一概念下的文档聚成一个大类,并根据概念的共同祖先概念或共同属于同一概念聚成一个更大的类别,形成多层聚类的结果。
CN201710248027.6A 2017-04-17 2017-04-17 一种基于语义网技术的网络搜索方法 Pending CN107193873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710248027.6A CN107193873A (zh) 2017-04-17 2017-04-17 一种基于语义网技术的网络搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710248027.6A CN107193873A (zh) 2017-04-17 2017-04-17 一种基于语义网技术的网络搜索方法

Publications (1)

Publication Number Publication Date
CN107193873A true CN107193873A (zh) 2017-09-22

Family

ID=59872003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710248027.6A Pending CN107193873A (zh) 2017-04-17 2017-04-17 一种基于语义网技术的网络搜索方法

Country Status (1)

Country Link
CN (1) CN107193873A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033372A (zh) * 2018-07-27 2018-12-18 北京未来媒体科技股份有限公司 一种基于人工智能的内容信息检索方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007085528A1 (en) * 2006-01-26 2007-08-02 International Business Machines Corporation Knowledge management system, program product and method
KR20090033149A (ko) * 2007-09-27 2009-04-01 주식회사 시맨틱스 시맨틱 웹 기반 인덱스 방법 및 이를 이용한 검색엔진
CN103064945A (zh) * 2012-12-26 2013-04-24 吉林大学 基于本体的情境搜索方法
CN104050243A (zh) * 2014-05-28 2014-09-17 黄斌 一种将搜索与社交相结合的网络搜索方法及其***
CN104090958A (zh) * 2014-07-04 2014-10-08 许昌学院 一种基于领域本体的语义信息检索***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007085528A1 (en) * 2006-01-26 2007-08-02 International Business Machines Corporation Knowledge management system, program product and method
KR20090033149A (ko) * 2007-09-27 2009-04-01 주식회사 시맨틱스 시맨틱 웹 기반 인덱스 방법 및 이를 이용한 검색엔진
CN103064945A (zh) * 2012-12-26 2013-04-24 吉林大学 基于本体的情境搜索方法
CN104050243A (zh) * 2014-05-28 2014-09-17 黄斌 一种将搜索与社交相结合的网络搜索方法及其***
CN104090958A (zh) * 2014-07-04 2014-10-08 许昌学院 一种基于领域本体的语义信息检索***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史斌: "面向语义网的语义搜索引擎关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
吴芳: "基于用户情境及语义网技术的个性化搜索引擎", 《江西图书馆学刊》 *
李春苗: "语义网中基于相似度计算的本体映射研究_李春苗", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033372A (zh) * 2018-07-27 2018-12-18 北京未来媒体科技股份有限公司 一种基于人工智能的内容信息检索方法及***

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
Abbas et al. A literature review on the state-of-the-art in patent analysis
Otero-Cerdeira et al. Ontology matching: A literature review
US8341159B2 (en) Creating taxonomies and training data for document categorization
CN103838833A (zh) 基于相关词语语义分析的全文检索***
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
US20030212663A1 (en) Neural network feedback for enhancing text search
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN112559684A (zh) 一种关键词提取及信息检索方法
Ahmadov et al. Towards a hybrid imputation approach using web tables
KR20120092756A (ko) 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN113064999B (zh) 基于it设备运维的知识图谱构建算法、***、设备及介质
Vijaya et al. LionRank: lion algorithm-based metasearch engines for re-ranking of webpages
CN107193873A (zh) 一种基于语义网技术的网络搜索方法
Saravanan et al. Realizing social-media-based analytics for smart agriculture
CN111666420B (zh) 基于学科知识图谱集中抽取专家的方法
Wu et al. Subject event extraction from Chinese court verdict case via frame-filling
Wang et al. Research on discovering deep web entries
Lu et al. Influence model of paper citation networks with integrated pagerank and HITS
Meng et al. Personalized Semantic Retrieval System based on Statistical Language Model
Liu et al. Research on learning video recommendation system based on DBSCAN clustering algorithm
Tang et al. An Agricultural Information Recommendation Method Based on Matrix Decomposition Knowledge Graph Algorithm
Wu et al. A personalized intelligent web retrieval system based on the knowledge-base concept and latent semantic indexing model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922

RJ01 Rejection of invention patent application after publication