CN107908698B

CN107908698B - 一种主题网络爬虫方法、电子设备、存储介质、***

Info

Publication number: CN107908698B
Application number: CN201711071026.5A
Authority: CN
Inventors: 石忠民; 徐叶强; 钟力; 殷长涛
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: Jiaxing Xiaoda Intelligent Technology Co.,Ltd.
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-04-13
Anticipated expiration: 2037-11-03
Also published as: CN107908698A

Abstract

本发明提供一种主题网络爬虫方法，包括步骤获取主题爬虫的起始URL，将起始URL加载入种子任务队列，主题爬虫从任务队列中依次获取起始URL进行爬取，将起始URL对应的网络文档下载至本地，对网络文档进行主题相关性分类，获得主题相关文本，将主题相关文本结构化存储至数据仓库；本发明涉及电子设备与可读存储介质，用于执行一种主题网络爬虫方法；本发明还涉及一种主题网络爬虫***；本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量，采用PCA主成分分析算法对词向量进行降维，采用LSTM模型对降维的词向量进行分类，通过对爬取文档先进行分类，然后针对特定主题有选择性的对文档进行存储，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。

Description

一种主题网络爬虫方法、电子设备、存储介质、***

技术领域

本发明涉及网络爬虫技术领域，尤其涉及一种主题网络爬虫方法、电子设备、存储介质、***。

背景技术

网络规模的迅速增长给人们带来极其丰富信息的同时，也给对信息的检索带来很大的挑战，网络爬虫是一种“自动化浏览网络”的程序，或者说是一种网络机器人，目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站，其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容，使得用户能够更快的通过网络爬虫检索到需要的信息，并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理，以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前，即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50％，检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。

为解决上述问题，根据在信息检索时用户只对某一主题信息感兴趣的特点，本发明通过使用文本分类的方法，针对特定主题网页，提出一种主题网络爬虫方法。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种主题网络爬虫方法，通过对爬取文档进行分类，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。

本发明的目的之一采用以下技术方案实现：

一种主题网络爬虫方法，包括以下步骤：

初始化主题爬虫，获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列；

文档内容爬取，所述主题爬虫从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地；

文本分类，对所述网络文档进行主题相关性分类，获得主题相关文本；

文本存储，将所述主题相关文本结构化存储至数据仓库。

进一步地，所述步骤文本分类包括以下步骤：

文档预处理，对所述网络文档进行分词和去除停用词处理；

文本数据转换，采用word2vec的CBOW模型将分词后的文本数据转换为词向量；

词向量降维，采用PCA主成分分析算法对所述词向量进行降维，获得降维词向量；

文本分类，采用LSTM模型对所述降维词向量进行分类，获得所述分类结果。

进一步地，在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集，获取所述网络文档的URL，当所述网络文档的URL未爬取时，将未爬取的URL加入所述种子任务队列。

进一步地，所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行上述一种主题网络爬虫方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述一种主题网络爬虫方法。

一种主题网络爬虫***，包括初始化模块、文档爬取模块、文本分类模块、文本存储模块，所述初始化模块获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列，并维护所述种子任务队列的爬取顺序；所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地，所述文本分类模块对所述网络文档进行主题相关性分类，获得主题相关文本，所述文本存储模块将所述主题相关文本结构化存储至数据仓库。

进一步地，所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块，所述文档预处理模块对所述网络文档进行分词和去除停用词处理；所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量；所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维，获得降维词向量；所述文本分类模块采用LSTM模型对所述降维词向量进行分类，获得所述分类结果。

进一步地，还包括未爬取URL收集模块，所述未爬取URL收集模块获取所述网络文档的URL，将未爬取的URL加入所述种子任务队列。

进一步地，所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。

相比现有技术，本发明的有益效果在于：

本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量，采用PCA主成分分析算法对词向量进行降维，采用LSTM模型对降维的词向量进行分类，通过对爬取文档先进行分类，然后针对特定主题有选择性的对文档进行存储，提高主题与爬取文档的相关程度，在全面爬取主题相关文档和对文档内容结构化提取后，进一步提取文档中与主题相关的未爬取URL，并将未爬取URL传入种子任务队列，增加搜索引擎覆盖率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种主题网络爬虫方法流程图；

图2为本发明实施例的文本分类流程图；

图3为本发明实施例的LSTM模型示意图；

图4为本发明的一种主题网络爬虫***结构框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

一种主题网络爬虫方法，如图1所示，包括以下步骤：

初始化主题爬虫，采用传统爬虫对互联网上与主题相关的导航类页面内容进行收集，获取大量URL作为主题爬虫的起始URL，获取主题爬虫的起始URL，将起始URL加载入种子任务队列；优选地，步骤初始化主题爬虫还包括根据爬虫需求将单个起始URL弹出种子任务队列，种子任务队列主要对种子URL进行维护，包括初始化加载URL，爬取时对单个URL的出队列操作，单文档爬取后提取的URL入队列操作。

在一实施例中，文档内容爬取，主题爬虫从任务队列中依次获取起始URL进行爬取，将起始URL对应的网络文档下载至本地，本实施例中采用顺序爬取种子任务队列中的URL，爬取种子任务队列中当前URL对应网络文档，并将网络文档下载至本地，对当前URL对应的网络文档进行下述未爬取URL收集、文本分类和数据存储处理，获取种子任务队列中下一URL，重复上述步骤，直至爬取完种子任务队列中全部URL。

在一实施例中，优选地，在步骤文档内容爬取和步骤文本分类之间还包括步骤未爬取URL收集，获取网络文档的URL，当网络文档的URL未爬取时，将未爬取的URL加入种子任务队列，增加搜索引擎覆盖率。

文本分类，对网络文档进行主题相关性分类，获得主题相关文本。如图2所示，优选地，步骤文本分类包括以下步骤：

文档预处理，对网络文档进行分词和去除停用词处理；优选地，步骤文档预处理具体为采用sougou语料的正向最大匹配算法和CRF分词算法结合的中文分词算法对网络文档进行分词，去除停用词处理主要包括取出文档中被广泛使用和频繁地出现在文档所有的类，如“哦”，“啊”，“嗯”，“而且”，“但是”，“这个”等，停用词主要包括语气副词，助词，连词，介词等词性的词。

文本数据转换，采用word2vec的CBOW模型将分词后的文本数据转换为词向量；CBOW模型是一种利用周围词预测中间词的概率模型，对于中间词Wt，利用周围的2K个词Wt-k,Wt-k+1,……,Wt-1+k,Wt+k计算Wt属于词典中某一个词的概率。对于语句S利用CBOW模型，其为自然语言概率为：

其中P(S)表示S为自然语言的概率，T为字典的大小，P(W1,…,Wt)表示文本中单词的联合概率，对于整个文本构建如下模型：

使P(S)的值尽可能的大，得到模型的目标函数：

对于整个文本的模型，其目标函数为：

求上述目标函数的最大值为CBOW模型训练目标。采用基于层次结构的训练策略，具体为采用层次Softmax算法，在输出层加入哈夫曼编码，构建一颗哈夫曼树，哈夫曼树的叶子节点都有唯一的编码，表示语料库的词语。哈夫曼树的非叶子节点代表单词的类别，输入层为上下文单词的词向量，隐藏层对输入层的词向量做向量加和运算，隐藏层的输出与输出哈夫曼树的每一个非叶子节点连接，每条连接都有对应的权值。

词向量降维，采用PCA主成分分析算法对词向量进行降维，获得降维词向量；对采用CBOW模型获得的文本分词词向量采用PCA主成分分析算法进行降维，对于矩阵A＝{a_ij}(i＝1，…，m，j＝1，…，n)进行降维的过程如下：

计算矩阵A每行的均值a_i(i＝1,2,…,n)；

计算调整过的矩阵B＝{b_ik}，其中b_ik＝a_jk-a_k(j＝1,…,m)；

计算协方差矩阵S＝{s_ik}；

计算S矩阵的特征值λ和特征向量e。

将特征值λ按从大到小的顺序进行排列(λ₁≥λ₂≥…≥λ_n)，并依次选择对应的特征向量e构造特征向量矩阵，该特征向量矩阵中的所有行向量即表示每一个文档。

文本分类，采用引入注意力模型的LSTM模型对降维词向量进行分类，获得分类结果，在词向量编码阶段使用注意力模型，文本的输入序列x₁,x₂,…,x_T为历史节点，对历史节点输入向量求累加求均值，得到文本总体的输入向量X＇，X＇为词向量编码阶段的最后输入，h₁,h₂,h₃,…,h_t对应输入序列x₁,x₂,…,x_T的隐藏层状态值，H_k对应输入的X＇的隐藏层状态值，模型结构示意图如图3所示，图3中a_ik为历史节点对于最后节点的注意力概率，x₁,x₂,…,x_T为文本的词语，X＇为文章总体的输入向量。为减少非关键词对整个文本的语义影响，计算x₁,x₂,…,x_T对文章的总体的影响力权重，具体计算过程如下：

计算注意力分布概率的语义编码：

e_ki＝v tanh(Wh_k+Uh_i+b)

a_ki为节点i对于节点k的注意力概率权重，T为输入序列的元素数目，v,W,U为权重矩阵，h_k为最后输入对应的隐藏层状态，h_i为输入序列第i个元素对应的隐藏层状态值；

计算注意力分布概率的语义编码和特征向量：

H_k′＝H(C，h_k，X′)

最终的语义编码是将含有历史节点的注意力概率分布语义编码和文本总体向量作为传统LSTM模块的输入，最后节点的隐藏层状态值H_k为最终的特征向量，通过上述步骤，实现针对获取文档进行所需主题的分类，从而判别文档是否属于某一主题。

文本存储，将主题相关文本结构化存储至数据仓库，由于文档数据结构不统一，采用NoSql数据库存储主题相关文本。

一种电子设备，包括：处理器；存储器；以及程序，其中程序被存储在存储器中，并且被配置成由处理器执行，程序包括用于执行上述一种主题网络爬虫方法；一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行上述一种主题网络爬虫方法。

一种主题网络爬虫***，如图4所示，包括初始化模块、文档爬取模块、文本分类模块、文本存储模块，初始化模块获取主题爬虫的起始URL，将起始URL加载入种子任务队列，并维护任务队列的爬取顺序；种子任务队列主要对种子URL进行维护，包括初始化加载URL，爬取时对单个URL的出队列操作，单文档爬取后提取的URL入队列操作；文档爬取模块从任务队列中依次获取起始URL进行爬取，将起始URL对应的网络文档下载至本地，此处网络文本为非结构化文本，文本分类模块对网络文档进行主题相关性分类，获得主题相关文本，文本存储模块将主题相关文本结构化存储至数据仓库，如采用NoSql数据库存储主题相关文本。

在一实施例中，优选地，文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块，文档预处理模块对网络文档进行分词和去除停用词处理；进一步地，文档预处理模块采用sougou语料的正向最大匹配算法和CRF分词算法对网络文档进行分词。文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量；词向量降维模块采用PCA主成分分析算法对词向量进行降维，获得降维词向量；文本分类模块采用LSTM模型对降维词向量进行分类，获得分类结果。

在一实施例中，优选地，还包括未爬取URL收集模块，未爬取URL收集模块获取网络文档的URL，将未爬取的URL加入种子任务队列。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种主题网络爬虫方法，其特征在于包括以下步骤：

未爬取URL收集，获取所述网络文档的URL，当所述网络文档的URL未爬取时，将未爬取的URL加入所述种子任务队列；

文本存储，将所述主题相关文本结构化存储至数据仓库；

所述步骤文本分类包括以下步骤：

文档预处理，对所述网络文档进行分词和去除停用词处理；

2.如权利要求1所述的一种主题网络爬虫方法，其特征在于：所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。

3.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-2任意一项所述的方法。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-2任意一项所述的方法。

5.一种主题网络爬虫***，其特征在于：包括初始化模块、文档爬取模块、文本分类模块、文本存储模块，所述初始化模块获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列，并维护所述种子任务队列的爬取顺序；所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地，所述文本分类模块对所述网络文档进行主题相关性分类，获得主题相关文本，所述文本存储模块将所述主题相关文本结构化存储至数据仓库；还包括未爬取URL收集模块，所述未爬取URL收集模块获取所述网络文档的URL，将未爬取的URL加入所述种子任务队列；

所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块，所述文档预处理模块对所述网络文档进行分词和去除停用词处理；所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量；所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维，获得降维词向量；所述文本分类模块采用LSTM模型对所述降维词向量进行分类，获得所述分类结果。

6.如权利要求5所述的一种主题网络爬虫***，其特征在于：所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。