CN104281693A - 一种语义搜索方法及*** - Google Patents
一种语义搜索方法及*** Download PDFInfo
- Publication number
- CN104281693A CN104281693A CN201410537867.0A CN201410537867A CN104281693A CN 104281693 A CN104281693 A CN 104281693A CN 201410537867 A CN201410537867 A CN 201410537867A CN 104281693 A CN104281693 A CN 104281693A
- Authority
- CN
- China
- Prior art keywords
- semantic
- industry
- concept
- ontology
- storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语义搜索方法及***,该方法包括以下步骤:建立语义本体库;根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;根据语义本体库进行行业相关数据探测和抓取。本发明通过网络探针技术,自动发现内容相似度高的网站;通过提取网页正文,对每段文本编码,可准确判断一篇文章重复度。
Description
技术领域
本发明涉及数据网络技术领域,尤其涉及一种语义搜索方法及***。
背景技术
目前互联网上信息转载率很高,再加上百度、***等搜索引擎为了搜索的查全率,导致通用搜索的搜索结果重复度非常高,不利于企业快速发现有价值的内容。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种语义搜索方法及***,通过网络探针技术,自动发现内容相似度高的网站;通过提取网页正文,对每段文本编码,可准确判断一篇文章重复度。
本发明提出的一种语义搜索方法,包括以下步骤:
建立语义本体库;
根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
根据语义本体库进行行业相关数据探测和抓取。
优选地,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
优选地,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
优选地,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
优选地,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
本发明提出的一种语义搜索***,包括:
建立模块,用于建立语义本体库;
分析模块,与所述建立模块连接,用于根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
探测和抓取模块,与所述分析模块连接,用于根据语义本体库进行行业相关数据探测和抓取。
优选地,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
优选地,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
优选地,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
优选地,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
本发明中,通过分析句子,得到句子的名词性概念、动作概念和倾向性、语句的语义描述,然后统计分析段落主要语义指代,利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储,以支持语义搜索和情报分析。并且可以利用企业搜索需求所关注的一般为针对性强的行业内信息的特点,结合业已相当丰富的互联网资源,快速构建适合本项目所提出的语义搜索模型中所需要的本体,然后利用本体语义信息丰富的特点,实现了实用的、语义层面的行业定制搜索引擎。
附图说明
图1为本发明实施例提出的一种语义搜索方法流程图;
图2为本发明实施例提出的一种语义搜索***结构图。
具体实施方式
如图1所示,本发明实施例提出了一种语义搜索方法及***,包括以下步骤:
步骤101,建立语义本体库。其中,语义本体库描述的要点包括行业概念体系、概念之间语义关系、词语与概念之间的关系等。构建该语义本体库,需要利用数据挖掘和互联网资源相互对照实现概念体系和语义关系等,并提供可视化人工修整工具,大大缩减构建成本。语义本体库主要为两套,一套是行业无关的内置本体库,可描述一般性、行业无关的词汇和语言概念,并且用户可以通过***自动更新来更新该本体库;一套是描述行业相关的行业本体库,主要描述行业概念以及概念之间的关系。
步骤102,根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储,以支持语义搜索和情报分析。
步骤103,根据语义本体库进行行业相关数据探测和抓取。采用网络行业信息(deep web)探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格等对深度网络进行挖掘,以找潜在数据源。由于deep web很多是结构化良好的数据,便于分析,且往往在通用搜索引擎下无法搜索得到,对客户有巨大价值。这种策略在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。
其中,采用网络行业信息探针,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
其中,Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。Web页面解析即通过分析标签,解析HTML页面,并提取出正文内容,利用HTML规范和基于视觉页面分块技术,提取页面的元信息(如标题、关键字等)和正文文本,有效避免无关信息的干扰。
在本发明实验中,同一站点的Deep web资源返回页面结构差别很小,利用此特点,分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。提取到正确的数据后,通知管理员配置数据格式,完成Deep Web站点发现和采集。
本发明中,利用语义分析技术,对篇章每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数(如400字)为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。搜索结果的文档摘要实现上不同之处在于增加搜索词(包括概念接近词)的密度这个约束条件。
文档的概念化索引基于上文描述的文档语义表示技术,将文档的语义描述(语义本体空间),然后把这些概念以及概念的权重等其他附加语义信息作为索引对象,存储为倒排索引索引文件。搜索词的概念化重写指的是将用户的搜索词也映射到本体所定义的语义空间中。语义搜索技术在本***中还是其他若干模块(如重点推荐情报,情报漫游等)的底层支持。实现上将用户高频度搜索词与最近搜索词进行排序,并验证最近采集到的数据与之匹配程度,来估算用户对其感兴趣的程度,作为推荐情报和浏览排序的重要参考依据。
如图2所示,本发明实施例提出了一种语义搜索***,包括:建立模块10,用于建立语义本体库;分析模块20,与所述建立模块10连接,用于根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;探测和抓取模块30,与所述分析模块20连接,用于根据语义本体库进行行业相关数据探测和抓取。
所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
Claims (10)
1.一种语义搜索方法,其特征在于,包括以下步骤:
建立语义本体库;
根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
根据语义本体库进行行业相关数据探测和抓取。
2.根据权利要求1所述的语义搜索方法,其特征在于,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
3.根据权利要求1所述的语义搜索方法,其特征在于,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
4.根据权利要求1所述的语义搜索方法,其特征在于,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
5.根据权利要求4所述的语义搜索方法,其特征在于,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
6.一种语义搜索***,其特征在于,包括:
建立模块,用于建立语义本体库;
分析模块,与所述建立模块连接,用于根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
探测和抓取模块,与所述分析模块连接,用于根据语义本体库进行行业相关数据探测和抓取。
7.根据权利要求6所述的语义搜索***,其特征在于,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
8.根据权利要求6所述的语义搜索***,其特征在于,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
9.根据权利要求6所述的语义搜索***,其特征在于,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
10.根据权利要求9所述的语义搜索***,其特征在于,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537867.0A CN104281693A (zh) | 2014-10-13 | 2014-10-13 | 一种语义搜索方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537867.0A CN104281693A (zh) | 2014-10-13 | 2014-10-13 | 一种语义搜索方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104281693A true CN104281693A (zh) | 2015-01-14 |
Family
ID=52256566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410537867.0A Pending CN104281693A (zh) | 2014-10-13 | 2014-10-13 | 一种语义搜索方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281693A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843791A (zh) * | 2015-01-15 | 2016-08-10 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的语义网络模型构建方法 |
CN106021339A (zh) * | 2016-05-09 | 2016-10-12 | 中国联合网络通信集团有限公司 | 面向资源树的语义查询方法及*** |
US10678820B2 (en) | 2018-04-12 | 2020-06-09 | Abel BROWARNIK | System and method for computerized semantic indexing and searching |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5781879A (en) * | 1996-01-26 | 1998-07-14 | Qpl Llc | Semantic analysis and modification methodology |
CN101004760A (zh) * | 2007-01-10 | 2007-07-25 | 苏州大学 | 基于视觉特征的页面查询接口抽取方法 |
CN101639840A (zh) * | 2008-07-29 | 2010-02-03 | 华天清 | 网络信息语义结构识别方法和装置 |
CN101655862A (zh) * | 2009-08-11 | 2010-02-24 | 华天清 | 信息对象搜索的方法和装置 |
CN103116635A (zh) * | 2013-02-07 | 2013-05-22 | 中国科学院计算技术研究所 | 面向领域的暗网资源采集方法和*** |
CN103389998A (zh) * | 2012-05-11 | 2013-11-13 | 安徽华贞信息科技有限公司 | 一种基于云服务的新型互联网商业情报语义分析技术 |
-
2014
- 2014-10-13 CN CN201410537867.0A patent/CN104281693A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5781879A (en) * | 1996-01-26 | 1998-07-14 | Qpl Llc | Semantic analysis and modification methodology |
CN101004760A (zh) * | 2007-01-10 | 2007-07-25 | 苏州大学 | 基于视觉特征的页面查询接口抽取方法 |
CN101639840A (zh) * | 2008-07-29 | 2010-02-03 | 华天清 | 网络信息语义结构识别方法和装置 |
CN101655862A (zh) * | 2009-08-11 | 2010-02-24 | 华天清 | 信息对象搜索的方法和装置 |
CN103389998A (zh) * | 2012-05-11 | 2013-11-13 | 安徽华贞信息科技有限公司 | 一种基于云服务的新型互联网商业情报语义分析技术 |
CN103116635A (zh) * | 2013-02-07 | 2013-05-22 | 中国科学院计算技术研究所 | 面向领域的暗网资源采集方法和*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843791A (zh) * | 2015-01-15 | 2016-08-10 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的语义网络模型构建方法 |
CN105843791B (zh) * | 2015-01-15 | 2018-08-03 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的语义网络模型构建方法 |
CN106021339A (zh) * | 2016-05-09 | 2016-10-12 | 中国联合网络通信集团有限公司 | 面向资源树的语义查询方法及*** |
CN106021339B (zh) * | 2016-05-09 | 2019-07-26 | 中国联合网络通信集团有限公司 | 面向资源树的语义查询方法及*** |
US10678820B2 (en) | 2018-04-12 | 2020-06-09 | Abel BROWARNIK | System and method for computerized semantic indexing and searching |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049575B (zh) | 一种主题自适应的学术会议搜索*** | |
CN103365924B (zh) | 一种互联网信息搜索的方法、装置和终端 | |
EP2057557B1 (en) | Joint optimization of wrapper generation and template detection | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN107423391B (zh) | 网页结构化数据的信息提取方法 | |
CN104182412A (zh) | 一种网页爬取方法及*** | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN104899273A (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105159930A (zh) | 搜索关键词的推送方法和装置 | |
CN103530429B (zh) | 一种网页正文抽取的方法 | |
CN104715064A (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
CN106844640A (zh) | 一种网页数据分析处理方法 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN103838732A (zh) | 一种生活服务领域垂直搜索引擎 | |
US11263062B2 (en) | API mashup exploration and recommendation | |
CN103559234A (zh) | RESTful Web服务的自动化语义标注***和方法 | |
US20220292160A1 (en) | Automated system and method for creating structured data objects for a media-based electronic document | |
CN104317845A (zh) | 一种深度网络数据自动抽取方法及*** | |
CN103838862A (zh) | 一种视频搜索的方法、装置及终端 | |
CN116775972A (zh) | 基于信息技术的远端资源整理服务方法和*** | |
CN105528357A (zh) | 一种基于url和网页文档结构的相似性的网页内容提取方法 | |
CN112000929A (zh) | 一种跨平台数据分析方法、***、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150114 |