CN113569044B

CN113569044B - 一种基于自然语言处理技术的网页文本内容的分类方法

Info

Publication number: CN113569044B
Application number: CN202110718603.5A
Authority: CN
Inventors: 李俊; 严骅; 刘晓涛; 申富饶
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-07-18
Anticipated expiration: 2041-06-28
Also published as: CN113569044A

Abstract

本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法，包括：步骤1，探测网页中包含的所有链接；步骤2，对获取的网页进行依次访问；步骤3，判别对应的网页是否属于对任务有用；步骤4，对网址的模式进行分析，并将其进行归类(有用或者无用)；步骤5，对剩余的网址先进行网址模式的匹配，如果已经有类似模式，则按照相应类别的标签进行处理，如果没有发现过类似的模式，则重复步骤2、3、4；步骤6，当所有网址都已经探查完成，返回对任务有益的网址结果表以及探查过的网址模式表。

Description

一种基于自然语言处理技术的网页文本内容的分类方法

技术领域

本发明涉及一种基于自然语言处理技术的网页文本内容的分类方法。

背景技术

近年来，由于自然语言处理技术、计算机科学与技术和互联网技术的迅速发展，越来越多的学者投入到相关领域的研究中。尤其是互联网技术的发展，推动了由数据驱动的深度学习大行其道。这其中也衍生出了很多的基于数据的需求：如数据积累、信息过滤等。其中，无论是数据积累或是信息过滤都涉及到的一个关键问题是，如何从海量的数据网页中快速获取有效或者是更高质量的数据。

以往的数据积累的方法，均是针对某一个网站，手动设计一个数据采集器，其中的方式包括：

1.对于较为严谨的网站，按照某个固定访问方式按照步骤访问，

a)得到一个初始页面

b)获取初始页面固定区域的所有链接(通过css\xpath等方式进行定位)

c)***，获取对应页面中对应位置的信息

d)如果是嵌套多层的网页，则不断进行b)中的链接区域的定位操作，直到到达所需网页的前一层。

2.对于较为宽松的网站，直接分析出最终数据所在页面的网页id生成方式，不断生成相应的网址进行获取。

a)获取网页发出的所有请求

b)从请求中获取相关的API

c)分析API的构成，确定API中的哪个参数可以控制得到不同的数据。

上述方法在针对某个固定网站的时候确实是一种高效的方式，但是，当所需数据来源于不同的多个网站时，上述方法都存在一个问题——需要针对每一个网站都设计一个特定的数据采集器，这是十分耗时耗力的。

为了解决上面的问题，可以采用通用采集器来解决，但是通用采集器的难点在于以下两个方面：

1.每个网站的页面结构几乎完全不同，普通的办法完全不能够在每个网站上甚至只能在一两个网站上较为精确的定位到有用的网页元素

2.每个网页的跳转标签都是<a>标签来确定的，这提供了一种解决1中问题的办法，但是，每个网页都存在这非常大量的标签，甚至有些首页跳转标签是不断出现的。这将导致网页分析的速度非常慢甚至陷入死循环中。

上述的难点如果2可以解决，那么1自然被规避。本发明创新，针对的即是2所面对的问题。

发明内容

发明目的：克服当前特殊设计的数据采集器不能通用、通用数据采集器运行速度慢的问题，提升通用采集器的采集效率。利用自然语言处理技术和正则表达式相结合的方式，对网页中所有的链接进行归档操作，对见过的网页采用一种高速的判别方式进行筛选。

为了解决上述技术问题，本发明公开了一种基于自然语言处理技术的网页文本内容的分类方法，该方法可以用于在通用数据采集时，快速过滤类似网站，达到提升数据采集效率的目的。包括以下步骤：

步骤1，探测网页中包含的所有链接；

步骤2，对获取的网页进行依次访问；

步骤3，判别对应的网页是否属于对任务有用；

步骤4，对网址的模式进行分析，并将其进行归类(有用或者无用)；

步骤5，对剩余的网址先进行网址模式的匹配，如果已经有类似模式，则按照相应类别的标签进行处理，如果没有发现过类似的模式，则重复步骤2、3、4。

步骤6，所有网址都探查完成之后，过程结束，返回对任务有益的网址结果表，以及探查发现的网址模式。

步骤1中，每个链接的呈现形式不一样，需要经过类似于***域名和网络协议、去除相对路径等方法获得完整的规范化的链接。

步骤2中，依次获取网页页面的链接并且访问，同时规避反爬虫等手段。

步骤3中，获取页面的内容，并且利用正则表达式，构建规则去除无关的HTML网页标签、CSS样式控制语句、JS逻辑实现语句。由于网页排布的特殊性，每一块相似的内容基本都有一个统一的列表进行集中呈现，因此需要将这个列表的内容进行抓取，并用于判断该页面所代表的列表内容是否为所需要的内容。除此之外，网页中还含有大量的无关内容，譬如关心的是列表呈现的内容，而不是其余部分内容，本发明中，利用每个元素的位置信息，去除了无关元素。不仅如此，列表内容中依旧存在很多噪音，对此采用自适应的方式建立停用词表(stopwords)，建立停用词表的方法为，在每获取到一个网页的内容的时候，更新每个词出现在每个网页中的频率和每个词本身出现的频率，然后采用文字频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)表示的方法对每个词计算一个权重，当权重低于α(通过统计分析，α＝0.1,效果较好，但该结果还可以继续调整，本任务仅是大致选取了一个值作为判断标准)时，将该词放入到停用词表stopwords里面，同时将获取到的词权重作为词的一维特征也放入到后文所提的基于Transformer的双向编码表征(BERT,Bidirectional Encoder Representations from Transformer)的文本分类模型中进行训练；对剩余的网页内容经过自然语言处理中的话题模型提取关键词后也放入到该模型中进行处理(本创新内容采用基于Transformer的双向编码表征(BERT,BidirectionalEncoder Representations from Transformer))，得到一个有效的分类结果(目前的分类结果可以达到85％)，并根据结果将其归类。

步骤3中，文字频率以及逆文档频率的计算方式如下：

其中ω_i代表第i个词，代表ω_i出现的次数，/>代表总的文档数，|D_i|为含有ω_i的文档数。且由于对于一个任务而言，与任务相关的词应该出现频率是比较高的，因此，将词进行表征(此处采用Word2Vec算法)，并且和任务所述的关键词进行相似度比较，将与任务所述相似度较高的词从停用词中去除。其中，本任务为挖掘和培训相关的招标采购信息，因此从培训、调训、招标出发，依据同义词和近义词表，扩充并且获得了任务相关的关键词表。最终，人为确定当词和关键词表中的词相似度有达到0.7以上的，则将其从停用词表中去除。

步骤3中，所述对剩余的网页内容利用自然语言处理中的文本分类技术进行处理，得到一个有效的分类结果，具体包括：

设定文章的主题为X₁个，每个主题根据荻利克雷分布采样X₂个最高概率的词，取前X₃个作为主题代表，以此作为整个页面的主题词集，将所述主题词集输入到BERT模型中，得到带有上下文信息的词义表征，将词义表征输入到一个全连接层，映射到1×N的空间中，其中N为词嵌入的维度，最后输入到Softmax进行分类，得到一个二分类的结果，数学表示如下：

r＝Bert(ω)

r′＝tanh(W₁r+b)

outputs＝Softmax(W₂r′)

其中ω＝{ω₁,ω₂,…,ω_n}为输入的主题词集，ω_n表示第n个词，且i取值为1～n；tanh是一个非线性的双曲正切函数，Softmax为分类决策函数，r表示文本序列通过Bert之后获得的表示矩阵，r′表示通过非线性变换后的表示矩阵，W₁表示r的权重矩阵，b表示偏置向量，W₂表示r′的权重矩阵，/>表示词表大小为/>的词空间，且该空间的每一个词表示都是采用onehot进行。

步骤4中，对网址的模式进行拆分，分为两个部分，一个是对网址的大结构进行分析，利用链接的固定组成方式和固定的分割符“/”，自动化地分析出链接的各个关键组成部分：协议、域名、子目录、网页名；另一个是对每一个小结构进行模式重构：针对子目录和网页命名规则进行名字自动化重构，重构方式分为两步，第一步识别出名字中是否含有有意义的数字、有意义的英文单词、哈希后的字符串，第二步按照分析出的部分，以相同的命名规则进行泛化，得到命名的模式。

步骤5中，针对网页中剩余<a/>标签所包含的每个网址，将它们与每个已经探查过的网址模式进行匹配，如果已经存在于模式中，则按照模式对应的类别进行归档，否则，重复2、3、4步骤。

步骤6中，当所有的网址都已经探查完成之后，返回网页分类为正类的网址结果表和已经探查过的网址模式表。

有益效果：本发明在多个网站上进行测试，与普通的通用信息采集器相比，本文中所述的基于自然语言处理的网址模式重构技术，可以极大的加快采集器的效率，类似的网址近乎只需要访问一次就可以得到相关模式，同时极大地减少了对某个网站地访问。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明的示例网站截图，本发明所述都可以在该网站或其余网站上进行重现。

图2为本发明进行网址重构的流程图。

图3为本发明中如何判定网页内容为有益内容的流程图。

图4和图5为本发明的网页判定与网址重构的示意图。

具体实施方式

图1是本发明的示例网站，为中国政府采购网的首页截图，其网址为http://www.ccgp.gov.cn/。

图2为本发明的实施步骤流程图，总共有6个步骤。分别如下：

在第一个步骤中，探测网页中包含的所有链接，其中每个链接存在的形式不一样，需要对每个不同形式的网址进行还原，得到最原始的网址链接。根据所测试的网站，将不同形式的网址归结如下：

(1)相对网址，此时需要将域名和协议进行补全；

(2)完整网址，不做操作直接获取；

(3)通过js代码拼接的网址，有两种方式：

(a)通过模拟点击操作，得到相关页面后，返回其拼接后的网址；

(b)通过执行js代码，直接得到拼接后的网址；

(4)通过后台跳转的网址，采用(3)中的(a)方法进行解决。

在第二个步骤中，对获取的网页进行依次访问。

在第三个步骤中，其需要对网页的内容进行判定，其过程简述如下：获取页面的内容，并且去除无关的HTML网页标签、CSS样式控制语句、JS逻辑实现语句，除此之外还去除了与任务无关部分的文本内容。对剩余的网页内容利用自然语言处理中的文本分类技术进行处理，得到一个有效的分类结果，并根据结果将其归类。其流程如图3所示。

其中图3中的定位方法为定位网页元素是否靠近一个网页布局的中间。获取主体内容即去除了非主体部分的无关信息，提高判别的准确性。由于每个网页的内容太多，如果把所以内容都放进文本分类的模型中，则会导致文本输入过长，使得模型的训练难度增加，会出现诸如梯度消失的问题，而且会让模型难以捕获到上下文信息。为此，本发明对网页的内容进行采样，采样的方法是利用话题模型(Topic Model)对文本进行关键词抽取，此处假定，在具有类似的目的(如展示所有的招标信息)的展示网页中，其相关的关键词(如招标)出现的概率会更高，基于此，采用TF-IDF的方式自适应性的构建出停用词表，以此提高Topic Model的准确性。此处Topic Model采用经典的LDA模型对其进行分析，设定的文章主题为10个，每个主题根据荻利克雷分布采样10个最高概率的词，取前几个作为主题代表，以此作为整个页面的主题词集，从LDA的结果中发现，与任务相关的词如“招标”、“采购”等被抽取出来的概率有大幅提升，且类似于“公司”等的词出现的概率大幅下降。将所述主题词集输入到Bidirectional Encoder Representations from Transformers(BERT)模型中，得到带有上下文信息的词义表征，将所述词义表征输入到一个全连接层，映射到1×N的空间中，其中N为词嵌入(word embedding)的维度，最后输入到Softmax进行分类，得到一个二分类的结果。

其数学表示如下：

r＝Bert(ω)

r′＝tanh(W₁r+b)

outputs＝Softmax(W₂r′)

在第四个步骤中，对网址的模式进行拆分，主要分为两个部分，一个是对网址的大结构进行分析，分析出链接的各个关键组成部分：协议、域名、子目录、网页名；另一个是对每一个小结构进行模式重构：针对子目录和网页命名规则进行名字重构，每一部分的名字都需要根据它们的是否具有明显分隔符(_,-等)进行更精细的控制，从而更好地分析出它们的命名规则。

例如：对下述网址进行分析http://www.ccgp.gov.cn/cggg/dfgg/gkzb/202010/t20201005_15186753.htm

其大结构可以拆分如下：

表1

其小结构的构成可以重构如下：

表2

其中，在子页面栏目中，为了避免错误重构导致的大多数网址都变成无效或者有效的网址而不能达到过滤的目的，做出如下规定：

(1)对于纯字母的，将重构的长度与其限制成同样的长度；

(2)对于纯数字的，将重构的数字长度限制成与原模式同样的长度；

(3)对于靠近域名地子栏目，采用探索与利用相结合的方式进行，每次生成一个随机数β，当它大于∈时，保留其本身，当它小于∈将之进行泛化。其中，为了体现出每个越靠近域名，要越可能保留其本身，这是因为越靠近域名的子栏目，其所涵盖的范围越大，改动这个部分造成的影响越大。将∈设置为其中i表示距离域名的距离，如https://***.com/xxx中，xxx与域名的距离为1，依次类推。

基于以上规定，对小结构的分析调整如下：

表3

在第五个步骤中，针对剩余的每个网址将之与每个已经探查过的网址模式进行匹配，如果已经存在于模式中，则按照模式对应的类别进行归档，否则，重复2、3、4步骤。

在第六个步骤中，当所有的网址都已经探查完成之后，返回对任务有益的网址结果表和已经探查过的网址模式表。

实施例

为了验证方法的有效性，不同的网站上进行实例验证。其中网站涉及政府类网站、企业类网站以及其余类别网站等。

以中国政府采购网为例，对于网站中涉及的所有链接，按照以下步骤判断链接是否有效，并且对其进行重构：

1、获取网站中所有的链接。对不同的网址进行判定，如果其跳转链接为完整的即形如：https://host_name/subitem1/subitem2/.../subitem3的网址，不做操作直接获取；如果其跳转链接为形如：/subitem1/subitem2/…/subitem3的网址，进行域名和协议不全；如果其跳转链接形如：about:blank的网址，定位其元素，通过模拟人为点击，获取其真实网页，从而获得其网址。

2、依次获取网页页面的链接并且访问。

3、获取页面的内容，并且去除无关的HTML网页标签、CSS样式控制语句、JS逻辑实现语句，对剩余的网页内容利用自然语言处理中的文本分类技术进行处理，处理过程包括利用上千个网页的内容更新停用词表用以修正Topic Model的结果，利用Topic Model(LDA)获取网页的关键词，最后将获得的关键词序列进行表征并且使用上文所提模型进行文本分类，并根据结果将其归类。如图4和图5的左侧截图所示，为两个从首页图1中所获得网页，通过文本分类技术，可以对其正确的分类。

4、对网址的模式进行分析，并将其进行归类(有用或者无用)。如图4中，所出现的网址：https://ccgp.gov.cn/zcdt/202006/t20200601_14386517.htm,其大结构拆分如表4.小结构重组如表5。

表4

表5

最终重构成的网页模式为：https://ccgq.gov.cn/(\w{4}|acdt)/\d{8}/\w\d{8}_\d{8}.htm.

5、针对剩余的每个网址将之与每个已经探查过的网址模式进行匹配，如果已经存在于模式中，则按照模式对应的类别进行归档，否则，重复2、3、4步骤。

6、当所有的网址都已经探查完成之后，返回对任务有益的网址结果表和已经探查过的网址模式表。图4和图5为本发明的网页判定与网址重构的示意图。

经过在多个网站上的验证可以表明，本发明在保持了相当准确度的情况下，在速度上有了极大的提升，通过观察分析，可以发现，大部分网站的网址模式通过分析其首页就可以获得绝大部分的网址构成模式，使得在递归分析其网站时，可以减少很多不必要的链接访问。

本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于自然语言处理技术的网页文本内容的分类方法，其特征在于，包括如下步骤：

步骤1，探测网页中包含的所有链接；

步骤2，对获取的网页进行依次访问；

步骤3，判别对应的网页是否属于对任务有用；

步骤4，对网址的模式进行分析，并将其进行归类；

步骤5，对剩余的网址先进行网址模式的匹配，如果已经有类似模式，则按照相应类别的标签进行处理，如果没有发现过类似模式，则重复步骤2～步骤4；

步骤6，所有网址都探查完成之后，过程结束，返回对任务有益的网址结果表，以及探查发现的网址模式；

步骤3中，获取页面的内容，并且利用正则表达式，构建规则去除无关的HTML网页标签、CSS样式控制语句、JS逻辑实现语句；对于列表内容中存在的噪音，采用自适应的方式建立停用词表stopwords，建立停用词表的方法为，在每获取到一个网页的内容的时候，更新每个词出现在每个网页中的频率和每个词本身出现的频率，然后采用文字频率-逆文档频率表示的方法对每个词计算一个权重，当权重低于α时，将该词放入到停用词表stopwords里面，同时将获取到的词权重作为词的一维特征也放入到文本分类模型中进行训练；对剩余的网页内容经过自然语言处理中的话题模型提取关键词后也放入到该模型中进行处理，得到一个有效的分类结果，并根据结果将其归类；

步骤3中，文字频率以及逆文档频率的计算方式如下：

其中ω_i代表第i个词，代表ω_i出现的次数，/>代表总的文档数，|D_i|为含有ω_i的文档数；将词进行表征，并且和任务所述的关键词进行相似度比较，将与任务所述相似度较高的词从停用词中去除；

r＝Bert(ω)

r′＝tanh(W₁r+b)

outputs＝Softmax(W₂r′)

其中ω＝{ω₁,ω₂,…,ω_n}为输入的主题词集，ω_n表示第n个词，且i取值为1～n；tanh是一个非线性的双曲正切函数，Softmax为分类决策函数，r表示文本序列通过Bert之后获得的表示矩阵，r′表示通过非线性变换后的表示矩阵，W₁表示r的权重矩阵，b表示偏置向量，W₂表示r′的权重矩阵，/>表示词表大小为/>的词空间，且该空间的每一个词表示都是采用onehot进行；

步骤4中，对网址的模式进行拆分，分为两个部分，一个是对网址的大结构进行分析，利用链接的固定组成方式和固定的分割符/，自动化地分析出链接的各个关键组成部分：协议、域名、子目录、网页名；另一个是对每一个小结构进行模式重构：针对子目录和网页命名规则进行名字自动化重构，重构方式分为两步，第一步识别出名字中是否含有有意义的数字、有意义的英文单词、哈希后的字符串，第二步按照分析出的部分，以相同的命名规则进行泛化，得到命名的模式。

2.根据权利要求1所述的方法，其特征在于，步骤1中，通过***域名和网络协议、去除相对路径的方法获得完整的规范化的链接。

3.根据权利要求2所述的方法，其特征在于，步骤2中，依次获取网页页面的链接并且访问，同时规避反爬虫手段。

4.根据权利要求3所述的方法，其特征在于，步骤5中，针对网页中剩余<a/>标签所包含的每个网址，将它们与每个已经探查过的网址模式进行匹配，如果已经存在于模式中，则按照模式对应的类别进行归档，否则，重复步骤2～步骤4。

5.根据权利要求4所述的方法，其特征在于，步骤6中，当所有的网址都已经探查完成之后，返回网页分类为正类的网址结果表和已经探查过的网址模式表。