CN108959576A - 一种基于党校科研工作主题的网络爬虫***和方法 - Google Patents
一种基于党校科研工作主题的网络爬虫***和方法 Download PDFInfo
- Publication number
- CN108959576A CN108959576A CN201810736630.3A CN201810736630A CN108959576A CN 108959576 A CN108959576 A CN 108959576A CN 201810736630 A CN201810736630 A CN 201810736630A CN 108959576 A CN108959576 A CN 108959576A
- Authority
- CN
- China
- Prior art keywords
- module
- theme
- crawler
- webpage
- research work
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于党校科研工作主题的网络爬虫***和方法,涉及互联网搜索引擎技术领域。本发明的网络爬虫***包括初始种子模块、爬行模块、数据库、主题相关度分析模块、排序模块、主题确立模块;网络爬虫工作方法包括:1、爬虫模块取回网页;2、调用相关度分析模块对网页进行相关度分析;3、爬行模块根据分析的结果进行网页剔除或保留动作;4、爬行模块从数据库中取出等待处理的URL;5、排序模块对网页的重要程度进行排序;6、爬行模块判断数据库中是否有新的URL。本发明通过建立一个党校科研工作主题的搜索引擎,利用主题相关度分析模块进行主题优化和网页过滤,提高了党校科研工作网页搜索的相关度和搜索信息的精准度。
Description
技术领域
本发明属于互联网搜索引擎技术领域,特别是涉及一种基于党校科研工作主题的网络爬虫***和方法。
背景技术
传统的通用的搜索引擎正面临着巨大的挑战:一是Web信息资源呈几何级数增长,搜索引擎无法索引所有的页面;二是不同领域的用户有不同的搜索需求,“广而泛”的通用搜索引擎不能满足专业用户“专而精”的搜索需求。面对这些挑战,各类针对特定人群的“主题搜索引擎”应运而生。
与此同时,随着我国党校科研工作的不断发展,党校科研工作资源已经超过了TB级,但却没有建立起一条有效的信息检索途径,如针对中共中央党校网站(http://www.ccps.gov.cn/)使用百度搜索“***主义的当代价值”,查询的结果为0,针对党校科研工作领域亟需建立自己的主题搜索引擎,因此针对以上问题,提供一种基于党校科研工作主题的网络爬虫***和方法具有重要意义。
发明内容
本发明的目的在于提供一种基于党校科研工作主题的网络爬虫***和方法,通过在Shark-Search算法的基础上,针对党校科研工作特点对其进行改进,建立一个党校科研工作主题的搜索引擎,通过采用关键词来确立主题,每个关键词拥有指定的不同的权值,利用主题相关度分析模块进行主题优化和网页过滤,解决了现有的党校科研工作主题搜索网页的搜索相关度低,搜索信息精准度低的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明的一种基于党校科研工作主题的网络爬虫***,包括HTML文档、初始种子模块、爬行模块、数据库、主题相关度分析模块、排序模块、主题确立模块;
所述主题确立模块用于确立爬虫面向的主题;
所述主题相关度分析模块用于进行网页主题相关度的计算;
所述初始种子模块用于生成面向特定主题的较好的种子站点,使爬行模块能够顺利展开爬行工作;
所述HTML文档、初始种子模块、数据库、相关度分析模块分别与爬行模块实时相联;所述排序模块与数据库实时相联;所述主题确立模块与相关度分析模块实时相联。
进一步地,所述主题确立模块采用关键词集来确定主题,其中每个关键词具有指定的不同的权值,所述权值采用特征提取方法。
进一步地,所述主题相关度分析模块用于保证爬虫获取的网页尽可能的向主题靠拢,对爬行模块抓取的网页进行过滤,将主题相关度较低的网页剔除,所述主题相关度分析模块采用的主题相关度计算方法为向量空间模型算法。
进一步地,所述排序模块用于对网页的重要程度进行排序,把价值高的网页排列到前面,以便更容易的被选择到,所述排序模块采用的排序方法为PageRank算法。
一种基于党校科研工作主题的网络爬虫方法包括网络爬虫工作方法、特征提取方法、向量空间模型算法、数据库中主题词收录方法;
所述网络爬虫工作方法包括以下步骤:
S01:所述爬虫模块取回网页;
S02:所述调用相关度分析模块对网页进行相关度分析;
S03:所述爬行模块根据分析的不同结果进行网页剔除或保留动作;
S04:所述爬行模块从数据库中取出等待处理的URL;
S05:所述排序模块对网页的重要程度进行排序;
S06:所述爬行模块判断数据库中是否有新的URL;
若是,则返回至步骤S01进行循环;
若否,则结束。
进一步地,所述特征提取方法采用给定一个跟主题相关的网页集合,由程序自动提取这些网页中共同的特征,并根据频率确定权值。
进一步地,所述向量空间模型算法包括如下步骤:
P01:把关键词的个数n作为向量空间的维数,每个关键词的权值wi作为每一维分量的大小,则主题用向量表示为:
α=(a1,a2,...,an),i=1,2,3...,n,ai=wi;
P02:对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率xi,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
β=(x1w1,x2w2,...,xnwn),i=1,2,...,n,
用两个向量夹角的余弦表示页面的主题相关度:
P03:指定一个阀值r r,当cos<α,β≥r时可以认为该页面与主题是比较相关的,r的取值需要根据经验和实际要求确定
进一步地,所述数据库中主题词收录方法包括如下步骤:
T01:建立党校科研工作页面URL的常见词词库
Wurl=(the communist party,party school,party history......),收录部分权威党校科研站点的host名及常见词,设词条个数为d;
T02:将URL以“/”和“.”进行拆分后去除http、com等标记符,提取有意义的词组(word1,word2,...wordn);
T03:根据URL计算的相关性得分RURL为
其中:
本发明具有以下有益效果:
本发明通过在Shark-Search算法的基础上,针对党校科研工作特点对其进行改进,建立一个党校科研工作主题的搜索引擎,通过采用关键词来确立主题,每个关键词拥有指定的不同的权值,利用主题相关度分析模块进行主题优化和网页过滤,提高了党校科研工作网页搜索的相关度和搜索信息的精准度,有利于推动我国党校科研工作信息化的建设。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于党校科研工作主题的网络爬虫***结构示意图;
图2为本发明的一种基于党校科研工作主题的网络爬虫的工作方法步骤图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明的一种基于党校科研工作主题的网络爬虫***,包括HTML文档、初始种子模块、爬行模块、数据库、主题相关度分析模块、排序模块、主题确立模块;
主题确立模块用于确立爬虫面向的主题;
主题相关度分析模块用于进行网页主题相关度的计算;
初始种子模块用于生成面向特定主题的较好的种子站点,使爬行模块能够顺利展开爬行工作;
HTML文档、初始种子模块、数据库、相关度分析模块分别与爬行模块实时相联;排序模块与数据库实时相联;主题确立模块与相关度分析模块实时相联。
其中,主题确立模块采用关键词集来确定主题,其中每个关键词具有指定的不同的权值,权值采用特征提取方法。
其中,主题相关度分析模块用于保证爬虫获取的网页尽可能的向主题靠拢,对爬行模块抓取的网页进行过滤,将主题相关度较低的网页剔除,所述主题相关度分析模块采用的主题相关度计算方法为向量空间模型算法。
其中,排序模块用于对网页的重要程度进行排序,把价值高的网页排列到前面,以便更容易的被选择到,排序模块采用的排序方法为PageRank算法。
如图2所示,一种基于党校科研工作主题的网络爬虫方法,包括网络爬虫工作方法、特征提取方法、向量空间模型算法、数据库中主题词收录方法;
网络爬虫工作方法包括以下步骤:
S01:爬虫模块取回网页;
S02:调用相关度分析模块对网页进行相关度分析;
S03:爬行模块根据分析的不同结果进行网页剔除或保留动作;
S04:爬行模块从数据库中取出等待处理的URL;
S05:排序模块对网页的重要程度进行排序;
S06:爬行模块判断数据库中是否有新的URL;
若是,则返回至步骤S01进行循环;
若否,则结束。
其中,特征提取方法采用给定一个跟主题相关的网页集合,由程序自动提取这些网页中共同的特征,并根据频率确定权值。
其中,向量空间模型算法包括如下步骤:
P01:把关键词的个数n作为向量空间的维数,每个关键词的权值wi作为每一维分量的大小,则主题用向量表示为:
α=(a1,a2,...,an),i=1,2,3...,n,ai=wi;
P02:对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率xi,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
β=(x1w1,x2w2,...,xnwn),i=1,2,...,n,
用两个向量夹角的余弦表示页面的主题相关度:
P03:指定一个阀值r r,当cos<α,β≥r时可以认为该页面与主题是比较相关的,r的取值需要根据经验和实际要求确定
其中,数据库中主题词收录方法包括如下步骤:
T01:建立党校科研工作页面URL的常见词词库
Wurl=(the communist party,party school,party history......),收录部分权威党校科研站点的host名及常见词,设词条个数为d;
T02:将URL以“/”和“.”进行拆分后去除http、com等标记符,提取有意义的词组(word1,word2,...wordn);
T03:根据URL计算的相关性得分RURL为
其中:
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于党校科研工作主题的网络爬虫***,其特征在于,包括HTML文档、初始种子模块、爬行模块、数据库、主题相关度分析模块、排序模块、主题确立模块;
所述主题确立模块用于确立爬虫面向的主题;
所述主题相关度分析模块用于进行网页主题相关度的计算;
所述初始种子模块用于生成面向特定主题的较好的种子站点,使爬行模块能够顺利展开爬行工作;
所述HTML文档、初始种子模块、数据库、相关度分析模块分别与爬行模块实时相联;所述排序模块与数据库实时相联;所述主题确立模块与相关度分析模块实时相联。
2.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫***,其特征在于,所述主题确立模块采用关键词集来确定主题,其中每个关键词具有指定的不同的权值,所述权值采用特征提取方法。
3.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫***,其特征在于,所述主题相关度分析模块用于保证爬虫获取的网页尽可能的向主题靠拢,对爬行模块抓取的网页进行过滤,将主题相关度较低的网页剔除,所述主题相关度分析模块采用的主题相关度计算方法为向量空间模型算法。
4.根据权利要求1所述的一种基于党校科研工作主题的网络爬虫***,其特征在于,所述排序模块用于对网页的重要程度进行排序,把价值高的网页排列到前面,以便更容易的被选择到,所述排序模块采用的排序方法为PageRank算法。
5.如权利要求1至4任一所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,包括网络爬虫工作方法、特征提取方法、向量空间模型算法、数据库中主题词收录方法;
所述网络爬虫工作方法包括以下步骤:
S01:所述爬虫模块取回网页;
S02:所述调用相关度分析模块对网页进行相关度分析;
S03:所述爬行模块根据分析的不同结果进行网页剔除或保留动作;
S04:所述爬行模块从数据库中取出等待处理的URL;
S05:所述排序模块对网页的重要程度进行排序;
S06:所述爬行模块判断数据库中是否有新的URL;
若是,则返回至步骤S01进行循环;
若否,则结束。
6.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述特征提取方法采用给定一个跟主题相关的网页集合,由程序自动提取这些网页中共同的特征,并根据频率确定权值。
7.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述向量空间模型算法包括如下步骤:
P01:把关键词的个数n作为向量空间的维数,每个关键词的权值wi作为每一维分量的大小,则主题用向量表示为:
α=(a1,a2,...,an),i=1,2,3...,n,ai=wi;
P02:对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率xi,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
β=(x1w1,x2w2,...,xnwn),i=1,2,...,n,
用两个向量夹角的余弦表示页面的主题相关度:
P03:指定一个阀值r r,当cos<α,β≥r时可以认为该页面与主题是比较相关的,r的取值需要根据经验和实际要求确定
8.根据权利要求5所述的一种基于党校科研工作主题的网络爬虫方法,其特征在于,所述数据库中主题词收录方法包括如下步骤:
T01:建立党校科研工作页面URL的常见词词库
Wurl=(the communist party,party school,party history......),收录部分权威党校科研站点的host名及常见词,设词条个数为d;
T02:将URL以“/”和“.”进行拆分后去除http、com等标记符,提取有意义的词组(word1,word2,...wordn);
T03:根据URL计算的相关性得分RURL为
其中:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810736630.3A CN108959576A (zh) | 2018-07-06 | 2018-07-06 | 一种基于党校科研工作主题的网络爬虫***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810736630.3A CN108959576A (zh) | 2018-07-06 | 2018-07-06 | 一种基于党校科研工作主题的网络爬虫***和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959576A true CN108959576A (zh) | 2018-12-07 |
Family
ID=64482204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810736630.3A Withdrawn CN108959576A (zh) | 2018-07-06 | 2018-07-06 | 一种基于党校科研工作主题的网络爬虫***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959576A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059235A (zh) * | 2018-12-19 | 2019-07-26 | 远光软件股份有限公司 | 一种党建信息资源抓取、分发、推送方法和*** |
CN110309246A (zh) * | 2019-05-24 | 2019-10-08 | 中国地质调查局发展研究中心 | 一种互联网地质数据检索与获取的方法及其装置 |
-
2018
- 2018-07-06 CN CN201810736630.3A patent/CN108959576A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059235A (zh) * | 2018-12-19 | 2019-07-26 | 远光软件股份有限公司 | 一种党建信息资源抓取、分发、推送方法和*** |
CN110309246A (zh) * | 2019-05-24 | 2019-10-08 | 中国地质调查局发展研究中心 | 一种互联网地质数据检索与获取的方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Extracting content structure for web pages based on visual representation | |
CN101630327A (zh) | 一种主题网络爬虫***的设计方法 | |
CN101231661B (zh) | 对象级知识挖掘的方法和*** | |
Yu et al. | Summary of web crawler technology research | |
CN102722558A (zh) | 一种为用户推荐提问的方法和装置 | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
Selvan et al. | Survey on web page ranking algorithms | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
Prajapati | A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining | |
CN110012122A (zh) | 一种基于词嵌入技术的域名相似性分析方法 | |
CN108959576A (zh) | 一种基于党校科研工作主题的网络爬虫***和方法 | |
CN103177122B (zh) | 一种基于同义词的个人桌面文件搜索方法 | |
Jalal | Exploring web link analysis of websites of Indian institute of technology | |
Nithya | Link Analysis Algorithm for Web Structure Mining | |
Srinath | Page ranking algorithms–a comparison | |
Yuan et al. | Improvement of pagerank for focused crawler | |
Shettar et al. | A vertical search engine–based on domain classifier | |
Sharma et al. | A survey: Static and dynamic ranking | |
Ma et al. | Searching Tourism Information by Using Vertical Search Engine Based on Nutch and Solr | |
Zhang et al. | Research and implementation of keyword extraction algorithm based on professional background knowledge | |
Chaudhary et al. | A new contrive to evaluate web page ranking | |
Fernández et al. | Novelty detection using local context analysis | |
Amin et al. | A score based web page ranking algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181207 |
|
WW01 | Invention patent application withdrawn after publication |