CN110532452B

CN110532452B - 一种基于gru神经网络的新闻网站通用爬虫设计方法

Info

Publication number: CN110532452B
Application number: CN201910630664.9A
Authority: CN
Inventors: 范建存; 廖励坤
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-04-22
Anticipated expiration: 2039-07-12
Also published as: CN110532452A

Abstract

本发明公开了一种基于GRU神经网络的新闻网站通用爬虫设计方法，对HTML页面内容进行HTML数据预处理，构建目标数据并标记字符，构建字符字典，HTML内容转换为数字向量，最后填充batch；搭建GRU神经网络，使用Cross Entropy作为损失函数，Embedding层使用预训练的字符向量，对GRU神经网络进行训练和预测；基于Scrapy爬虫框架，构建全站爬取爬虫。本发明在爬虫爬取任意新闻页面的HTML内容后，将其传入使用本发明设计的神经网络算法训练好的模型中，能自动提取新闻正文，节省定制的时间与人力。

Description

一种基于GRU神经网络的新闻网站通用爬虫设计方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于GRU神经网络的新闻网站通用爬虫设计方法。

背景技术

公众舆情，也叫做社会舆情，是指在一定的时间和范围内，社会民众对社会出现的特定事件或现象的发生、发展和变化过程所展现的社会政治态度、信念价值观和想法的集合。通俗地讲，公众舆情是社会民众群体思想、心理、情绪和需求的集中反映，代表了当前社会的民情和民意。传统公众舆情除了通过报纸、广播、电视等载体传播外，更多的是蕴藏在民众间街头巷尾的议论中，因此需要通过社会走访、民意调查等方式来获取舆情，效率低下且覆盖面小，难以真正代表舆情。

目前，互联网成为舆情的主要载体，了解舆论动向，引导舆论发展，是舆情控制的主要策略。这些工作围绕着舆情监控展开，构建良好的舆情监控***对建立和谐、健康的舆论环境有着重要的意义。随着互联网用户数量的快速增长，网络越来越成为人们获取与发布信息的主要渠道，特别是社交网络(如Twitter、Facebook、微博等)的出现，使得人们获取和发布信息更加快速和方便。与此同时，网络上也产生大量对各行各业的舆论信息，这些信息可能包括正面评论，也有可能包含负面议论，有可能会对个人、企业甚至是整个社会产生重要的影响。

虽然已经有一些舆情***的实现，但是这些舆情***都是只针对固定几个新闻网站进行监控，难以做到真正的舆情实时掌控，而且这些***若要增大监控的范围，需要对新增的网站定制爬虫，花费不少人力与时间。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于GRU神经网络的新闻网站通用爬虫设计方法，对不同样式的网页自动提取正文内容，有效节省人力和时间。

本发明采用以下技术方案：

一种基于GRU神经网络的新闻网站通用爬虫设计方法，包括以下步骤：

S1、对HTML页面内容进行HTML数据预处理，构建目标数据并标记字符，构建字符字典，HTML内容转换为数字向量，最后填充batch；

S2、搭建GRU神经网络，GRU神经网络框架为：Embedding层->Droupout层->MaxPool层-GRU层->全连接层->Softmax层，使用Cross Entropy作为损失函数，Embedding层使用预训练的字符向量，对GRU神经网络进行训练和预测；

S3、基于Scrapy爬虫框架，构建全站爬取爬虫。

具体的，步骤S1中，HTML数据预处理具体为：去除无意义或者有噪音的标签；去除所有标签的属性；去掉标签内的纯空格内容。

具体的，步骤S1中，构建目标数据并标记字符具体为：构建与样本长度相同的字符串，根据爬取的对应正文内容，将HTML内容中，对应的正文内容字符位置的字符值设为1，其余字符设为2，将整个提取任务转化为对单个字符级的三分类任务。

具体的，步骤S1中，构建字符字典具体为：对训练集的字符构建字符级字典，每个字符的value从0开始依次递增，字符字典默认包含四个特殊符号{～}、{^}、{$}和{#}，分别代表填充符号、开始符号、结束符号和未知词符号；再将key-value对反转获得反转字符字典。

具体的，步骤S1中，HTML内容转换为数字向量具体为：将每条样本数据中的每个字符和特殊字符，根据字符字典，转化为一条数字向量。

具体的，步骤S1中，填充batch具体为：先获得batch中最长数据的长度，然后使用填充符号“{～}”对该batch中长度小于最长长度的数据填充至最长长度，并将一个batch中的数据按照真实长度从大到下排列。

具体的，步骤S2中，Embedding层加载预训练好的300维字符向量，Droupout层中droupout比例为0.5；GRU层中隐向量维度为300维；层数为10层；全连接层中的节点数为3，代表三分类任务；MaxPool层使用一维MaxPool池化，kenerl_size为4。

进一步的，在进入GRU层前，使用Xavier初始化隐向量h₀，其目标是每一层输出的方差相等，把参数初始化成如下均匀分布：

交叉熵描述了两个概率分布之间的距离如下：

其中，概率分布p为期望输出，概率分布q为实际输出。

具体的，步骤S2中，在时间t时的隐状态h_t计算如下：

其中，z_t为更新门，r_t为重置门：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，g为激活函数tanh，W为输入x_t的权重矩阵，U为隐状态h_t-1的权重矩阵，b为偏置项，σ为激活函数sigmod；

当重置门的结果趋近于0时，隐状态忽略前一个隐状态，只用当前输入的值来重置；更新门控制前一个隐状态中的信息有多少能传递给当前隐状态；每个隐层神经元都有独立的重置门和更新门，学习捕捉短期依赖的单元会频繁激活重置门；学习捕捉长期依赖的单元会频繁激活更新门。

具体的，步骤S3具体为：

S301、使用正则判断网页是否为正文页，正则表达式为：[_-][0-9]{4,}；

S302、将需要的信息存入数据库，然后将本页HTML内容写入文件，全部数据爬取完成后，读取HTML内容文件，使用步骤S2搭建的GRU神经网络模型批量提取正文；

S303、爬取时使用Scrapy提供的URL指纹函数对URL进行去重。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于GRU神经网络的新闻网站通用爬虫设计方法，通过使用整个方法，可以训练出一个适用于HTML内容正文提取任务的神经网络模型，该模型输入为新闻网页HTML内容，输出为正文提取的结果，不需要对每个新闻网站定制单独的爬虫，只需要更改初始url，即可在任意新闻网站爬取其中新闻的正文内容。

进一步的，通过对爬取的HTML数据进行数据预处理，去除包含汉字的无用标签如<script>、<style>等，既能减少噪音提升正文提取效果，又能减少正文长度加快模型训练速度。

进一步的，通过构建目标数据并标记字符，将正文提取任务转化为了针对数据中每个字符的三分类任务，简化了算法目标的复杂度。

进一步的，通过构建字符字典，可以根据字符字典将每条HTML内容数据转化为数字向量，也能将模型预测的向量结果转回字符形式便于人工读取。

进一步的，通过将HTML内容转化为数字向量形式，使得数据能够传入神经网络模型，且使得计算机能够识别字符和字符间的联系与区别。

进一步的，通过设置batch中数据按照真实长度从大到小排列，便于后续一个batch传入网络后，进行训练时忽略填充字符对模型参数的影响，提升模型准确度。

进一步的，设置Embedding层能够将不同的字符映射到多维空间中，使得计算机能够发现字符和字符间的区别与联系；设置Droupout层的好处是有部分数据的隐层节点不激活，防止过拟合；设置MaxPool层对数据进行采样，降低数据长度，能加快模型训练速度，同时由于数据占用空间变少，能增加一个bacth中数据的数量，提升bacth设置的效果；设置10层GRU层使模型能更好的发现数据中的潜在模式；设置全连接层使模型综合模型发现的各种特征，对输入的字符数据属于每类的可能性进行打分；设置Softmax层将输入的字符数据属于每类的可能性得分转化为样本属于各个类的概率。

进一步的，引入更新门和重置门以解决标准RNN网络中无法捕捉序列中长期依赖的问题。

进一步的，通过使用URL指纹，可以防止爬虫在多次运行中，对已经爬取过的页面进行重复爬取。

综上所述，本发明在爬虫爬取任意新闻页面的HTML内容后，将其传入使用本发明设计的神经网络算法训练好的模型中，能自动提取新闻正文，节省定制的时间与人力。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为神经网络架构图；

图2为GRU神经单元结构图；

图3为通用爬虫流程；

图4为未使用MaxPool采样的模型训练的Loss变化图；

图5为使用MaxPool采样的模型训练的Loss变化图。

具体实施方式

本发明提供了一种基于GRU神经网络的新闻网站通用爬虫设计方法，基于GRU神经网络算法针对不同样式HTML页面提取其正文，然后构建全站爬取爬虫，爬取网页内容并使用设计的神经网络提取正文。

本发明一种基于GRU神经网络的新闻网站通用爬虫设计方法，包括以下步骤：

S1、对HTML页面内容进行预处理，依次进行HTML数据预处理，构建目标数据并标记字符，构建字符字典，HTML内容转换为数字向量，最后填充batch；

HTML数据预处理具体为：

去除一些无意义或者可能有噪音的标签，如<SCRIPT>、<style>等；去除所有标签的属性；去掉标签内的纯空格内容如“<p></p>”。

构建目标数据并标记字符具体为：

构建与样本长度相同的字符串，根据爬取的对应正文内容，将HTML内容中，对应的正文内容字符位置的字符值设为“1”，其余字符设为“2”，这样将整个提取任务转化为对单个字符级的三分类任务(还有一类为后面的填充字符)。

构建字符字典具体为：

对训练集的字符构建字符级字典，每个字符的value从0开始依次递增。字符字典默认包含四个特殊符号“{～}”、“{^}”、“{$}”和“{#}”，分别代表填充符号、开始符号、结束符号和未知词符号；再将key-value对反转获得反转字符字典。

HTML内容转换为数字向量具体为：

将每条样本数据(即HTML内容)中的每个字符和特殊字符，根据字符字典，转化为一条数字向量。

填充batch具体为：

由于数据是以mini-batch形式喂入神经网络的，而每条数据的长度都不同，因此需要先获得该batch中最长数据的长度，然后使用填充符号“{～}”对该batch中长度小于最长长度的数据填充至最长长度，并将一个batch中的数据按照真实长度从大到下排列。

S2、建立GRU神经网络，使用Cross Entropy作为其损失函数，Embedding层使用预训练的字符向量；

请参阅图2，GRU神经网络单元具体为：

GRU神经网络是RNN的改进方案，RNN是一种用于处理序列数据的神经网络，它能够捕捉并记录序列内数据间的依赖关系，RNN是通过隐状态传递之前的信息的：

h_t＝g(Wx_t+Uh_t-1+b)

其中，x_t为在时间t时的输入向量(假设该向量大小为m×1)，h_t为在时间t时的隐状态(假设该向量大小为n×1)，g为非线性激活函数，W(大小为n×m)、U(大小为n×n)和b(大小为n×1)为权重向量。从公式中可以看出，每个隐状态由本次时间步的输入和上一时间步的隐状态决定。

GRU神经网络引入两种门信号，更新门和重置门；由于RNN会遭遇梯度消失或梯度***的问题，无法捕捉序列内的长期依赖关系。GRU是解决该问题的方案之一。

h_t的计算如下：

其中，z_t为更新门，r_t为重置门：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，g为激活函数tanh，W为输入x_t的权重矩阵，U为隐状态h_t-1的权重矩阵，b为偏置项，σ为激活函数sigmod。

当重置门r_t的结果趋近于0时，隐状态忽略前一个隐状态，只用当前输入的值来重置；更新门控制前一个隐状态中的信息有多少能传递给当前隐状态。每个隐层神经元都有独立的重置门和更新门，要学习捕捉短期依赖的单元，会频繁激活重置门；要学习捕捉长期依赖的单元，会频繁激活更新门。

请参阅图1，GRU神经网络框架为：Embedding层->Droupout层->MaxPool层->GRU层->全连接层->Softmax层，Embedding层加载预训练好的300维字符向量，Droupout层中droupout比例为0.5；GRU层中隐向量维度为300维；层数为10层；全连接层中的节点数为3，代表三分类任务；MaxPool层使用一维MaxPool池化，kenerl_size为4。

在进入GRU层前，使用Xavier初始化隐向量h₀，其目标是使得每一层输出的方差应该尽量相等，具体方法为把参数初始化成下面范围内的均匀分布：

使用的损失函数为交叉熵Cross Entropy，交叉熵描述了两个概率分布之间的距离，当交叉熵越小说明二者之间越接近：

其中，概率分布p为期望输出，概率分布q为实际输出。

S3、基于Scrapy爬虫框架，构建全站爬取爬虫，如图3所示。

S301、爬取时先使用正则判断网页是否为正文页，由于大部分新闻网站新闻页面的URL中以两个时间戳相连形式命名，因此使用正则表达式“[_-][0-9]{4,}”判断页面是否为新闻页面；

S302、将需要的其他信息先存入数据库，然后将本页HTML内容写入文件，全部数据爬取完成后，读取HTML内容文件，使用训练的神经网络模型批量提取正文；

S303、爬取时使用Scrapy提供的URL指纹函数对URL进行去重。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

神经网络算法具体实现：

(1)、数据准备；

对40个主流新闻及政府网站，爬取网页HTML数据和新闻正文数据，大约有4000条新闻数据，其中训练集3000条，测试集1000条。

(2)、经过一些列数据预处理，获得字符字典和反向字符字典，将样本数据转换为数字向量同时构建了目标数据，将任务转化为三分类任务；

(3)、神经网络搭建，包括训练过程和预测过程。

训练过程如下：

经过数据预处理后，取一个batch size为16的mini-batch输入数据input，input为max_len×4的矩阵向量；先经过Embedding层，获得每个字符对应的字符向量，input变为max_len×4×300的矩阵向量；经过Droupout层后，有50％的数据的隐层节点不激活，防止过拟合；经过MaxPool层后，数据每4位进行一次采样，input变为max_len×4×75的矩阵向量；在进入GRU层前，使用Xavier初始化隐向量h₀。

将input和h₀同时传入GRU层，经过10层GRU层，获得输出向量output和最终时刻隐向量h_t；output经过全连接层，根据之前网络学习到的每维特征的重要程度、对最终分数的影响程度，通过对特征加权打分，得到该样本属于每个分类的分数，通过Softmax层后将分数映射为概率值。

计算出Cross Entropy损失值，将其沿网络反向传播，网络调整各参数值。

重复上述过程，直到网络收敛。

请参阅图4和图5，展示了未使用MaxPool采样的训练集和测试集随epoch增加，loss的变化趋势。图5展示了使用MaxPool采样的训练集和测试集随epoch增加，loss的变化趋势，其中，虚线代表训练集，实线代表测试集。比较两图可以看出，未使用MaxPool采样的模型大约在8个epoch后达到收敛，而使用MaxPool采用的模型在2个epoch后就已经收敛，收敛速度远快于未使用MaxPool采样的模型。且由于使用MaxPool采样的模型中一个batch的样本数更多，所需的训练时间也更短。

预测过程如下：

重复训练过程前几步到获得输出向量output后，output大小为max_len×batch_size×2，将其转变成大小为max_len×batch_size的矩阵向量，即保留最后的2维中数值较大的index(0、1、2分别代表填充字符、正文字符和非正文字符)，再进行转置变为大小为batch_size×max_len的矩阵向量。将中值为1的字符，根据其行index和反向字符字典，变为对应的字符，并连接成正文，获得预测结果。

整个过程使用Pytorch框架搭建神经网络，使用GPU加速训练。经试验，经过2个epoch后，Cross Entropy稳定在0.002左右，实际预测效果准确度很高，提取后缺失的字符最多在5个左右。

通用爬虫设计如下：

基于Scrapy框架的CrawlSpider类爬虫，构建对于每个网站的全站爬虫：给定初始首页url后，将爬取过程中碰到的本站域名的url添加进任务队列，依次从任务队列中取url进行爬取任务；

获得页面响应后，需要先判断该页面是否为新闻页面；

若页面为新闻页面，获取需要的信息存入数据库，获取该页面的整个HTML内容存入文件；

所有网站爬取完成后，读入存储的HTML内容文件，经过预处理后，使用mini-batch传入神经网络进行正文提取，存入数据库；

为避免重复爬取，使用Scrapy中提供的URL指纹对爬取的URL进行过滤，每次爬取前先将该URL转换为URL指纹，在指纹文件中比对，若出现重复指纹，则跳过该页面。

通过使用本发明设计的爬虫，不需要对每个新闻网站定制单独的爬虫，只需要更改初始url，在爬虫爬取任意新闻页面的HTML内容后，只需要将其传入使用上述神经网络算法训练好的模型中，就能自动提取新闻正文，节省定制的时间与人力。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，包括以下步骤：

填充batch具体为：先获得batch中最长数据的长度，然后使用填充符号“{～}”对该batch中长度小于最长长度的数据填充至最长长度，并将一个batch中的数据按照真实长度从大到下排列；

S2、搭建GRU神经网络，GRU神经网络框架为：Embedding层->Droupout层->MaxPool层-GRU层->全连接层->Softmax层，使用Cross Entropy作为损失函数，Embedding层使用预训练的字符向量，对GRU神经网络进行训练和预测，Embedding层加载预训练好的300维字符向量，Droupout层中droupout比例为0.5；GRU层中隐向量维度为300维；层数为10层；全连接层中的节点数为3，代表三分类任务；MaxPool层使用一维MaxPool池化，kenerl_size为4，在时间t时的隐状态h_t计算如下：

其中，z_t为更新门，r_t为重置门：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

当重置门的结果趋近于0时，隐状态忽略前一个隐状态，只用当前输入的值来重置；更新门控制前一个隐状态中的信息有多少能传递给当前隐状态；每个隐层神经元都有独立的重置门和更新门，学习捕捉短期依赖的单元会频繁激活重置门；学习捕捉长期依赖的单元会频繁激活更新门，在进入GRU层前，使用Xavier初始化隐向量h₀，其目标是每一层输出的方差相等，把参数初始化成如下均匀分布：

交叉熵描述了两个概率分布之间的距离如下：

其中，概率分布p为期望输出，概率分布q为实际输出；

S3、基于Scrapy爬虫框架，构建全站爬取爬虫。

2.根据权利要求1所述的基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，步骤S1中，HTML数据预处理具体为：去除无意义或者有噪音的标签；去除所有标签的属性；去掉标签内的纯空格内容。

3.根据权利要求1所述的基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，步骤S1中，构建目标数据并标记字符具体为：构建与样本长度相同的字符串，根据爬取的对应正文内容，将HTML内容中，对应的正文内容字符位置的字符值设为1，其余字符设为2，将整个提取任务转化为对单个字符级的三分类任务。

4.根据权利要求1所述的基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，步骤S1中，构建字符字典具体为：对训练集的字符构建字符级字典，每个字符的value从0开始依次递增，字符字典默认包含四个特殊符号{～}、{^}、{$}和{#}，分别代表填充符号、开始符号、结束符号和未知词符号；再将key-value对反转获得反转字符字典。

5.根据权利要求1所述的基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，步骤S1中，HTML内容转换为数字向量具体为：将每条样本数据中的每个字符和特殊字符，根据字符字典，转化为一条数字向量。

6.根据权利要求1所述的基于GRU神经网络的新闻网站通用爬虫设计方法，其特征在于，步骤S3具体为：

S303、爬取时使用Scrapy提供的URL指纹函数对URL进行去重。