CN110457579B

CN110457579B - 基于模板和分类器协同工作的网页去噪方法及***

Info

Publication number: CN110457579B
Application number: CN201910694087.XA
Authority: CN
Inventors: 王运锋; 严金承
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-03-22
Anticipated expiration: 2039-07-30
Also published as: CN110457579A

Abstract

本发明公开了一种基于模板和分类器协同工作的网页去噪方法及***，其中，所述去噪方法包括：解析获取到的原始的HTML文档，删除无关标签节点，生成符合要求的简化DOM树；计算目标网页的DOM树中的每个块级节点特征，得到原始节点集合；将原始节点集合加入对应网站的缓存节点集合，当缓存节点集合中元素个数达到预设阈值时，触发模板生成算法，更新对应网站的模板节点集合；利用目标网页所属网站的模板节点集合对目标网页的原始节点集合进行过滤处理得到已过滤目标网页节点集合；用训练好的分类器对已过滤目标网页节点集合进行分类，保留分类结果为主体内容的节点，从中提取主体内容文本。本发明人工干预少，效率高，适用于各种主题型网页去噪。

Description

基于模板和分类器协同工作的网页去噪方法及***

技术领域

本发明涉及网页去噪技术领域，特别是一种基于模板和分类器协同工作的网页去噪方法及***。

背景技术

随着互联网技术的不断发展，互联网中的信息量愈来愈大，呈***式增长。海量的web网页信息是互联网信息的主要体现，是许多其他研究领域的天然数据矿场，这些研究领域包括：搜索引擎，舆情分析，自然语言处理等。但web网页中除主要内容外，还附带一些商业广告，导航栏，版权信息，公告消息等与主要内容无关的其他信息，这些信息可以称作网页噪声，如何去除网页中的噪声内容，提取网页主要内容供上述领域分析使用，具有重要的研究意义和实用价值。

目前，网页去噪的主要方法有基于规则的去噪方法、基于模板的去噪方法、基于视觉内容的去噪方法等。基于规则的方法是预先制定一些启发式规则，筛选出满足规则的那些文本内容，该方法只适用于某些简单网页，对于结构复杂的网页需要复杂的启发式规则，有其局限性。基于模板的方法去噪速度快，但往往需要人工构造适用于特定网站网页的模板，不能作为一个通用的网页去噪器，2010年李立文等人在论文《基于HTML树和模板的文献信息提取方法研究》中采用网页相似度计算将不同网页分类，对每个类构造相应的模板，该模板利用了主体内容的位置信息，当主体内容分散到多个文档对象模型DOM(DocumentObject Model，文档对象模型)节点时，选取包含这些主体内容的最近父节点为模板，提出来的主体信息可能含有大量噪声，对去噪效果有较大影响。基于视觉内容的去噪方法先将网页分为不同的块，利用人工标注并通过神经网络和支持向量机来对网页块的重要程度进行预测，最后选取重要程度最高的网页块，但该方法计算量大，效率不高。

发明内容

本发明所要解决的技术问题是提供一种基于模板和分类器协同工作的网页去噪方法及***，能自动生成去噪模板进行预处理，协同分类器对DOM节点进行分类判断，最后提取主体信息；本发明人工干预少，效率高，适用于各种主题型网页去噪。

为解决上述技术问题，本发明采用的技术方案是：

一种基于模板和分类器协同工作的网页去噪方法，包括以下步骤：

步骤1：下载目标网页，获取原始的HTML文档；

步骤2：解析原始的HTML文档，删除无关标签节点，修正DOM树，生成符合要求的简化DOM树；

步骤3：计算目标网页的DOM树中的每个块级节点特征，得到该目标网页的原始节点集合；

步骤4：生成模板，即将原始节点集合加入对应网站的缓存节点集合，当缓存节点集合中元素个数达到预设阈值时，触发模板生成算法，更新对应网站的模板节点集合；

步骤5：利用目标网页所属网站的模板节点集合对目标网页的原始节点集合进行过滤处理，输出已过滤目标网页节点集合；

步骤6：训练分类器，即预先将一些节点标记为噪声和主体两类，用标记好的节点作为训练样本训练分类器，直到分类器达到预定的分类效果；

步骤7：用训练好的分类器对已过滤目标网页节点集合进行分类，保留分类结果为主体内容的节点，从中提取主体内容文本。

进一步的，所述步骤1具体为：包括网页下载和网页发现；网页下载负责下载目标网页并按目标网页的域名地址的不同，分类存入数据库中，网页发现负责发现符合要求的新网页地址，并将其添加到待爬取列表。

进一步的，所述步骤2具体为：包括预处理和修正；预处理负责删除不包含文本内容的标签，包括注释、脚本和样式，修正即是修正DOM树的可修正错误，包括“<>”匹配错误、标签对匹配错误。

进一步的，所述步骤3中，节点特征包括：节点文本内容长度与文档文本内容长度比值、节点文本内容长度、节点文本内容标点符号长度与节点文本内容长度比值、节点链接标签个数与文档链接标签个数比值、节点图片标签个数与文档图片标签个数比值、节点权重分数、节点内链接字符与文本内容长度比值、节点内链接标签个数加图片标签个数与节点文本内容长度比值。

进一步的，在步骤6中，所述分类器采用的分类器模型为支持向量机(SVM，SupportVector Machine)或分类回归树(CART，Classification And Regression Tree)。

一种基于模板和分类器协同工作的网页去噪***，包括网页爬虫模块、HTML预处理模块、DOM树特征向量计算模块、模板生成模块、模板预处理模块、分类器训练模块和分类器预测模块；

所述网页爬虫模块用于下载目标网页，获取原始的HTML文档；

所述HTML预处理模块用于解析原始的HTML文档，删除无关标签节点，修正DOM树，生成符合要求的简化DOM树；

所述DOM树特征向量计算模块用于计算目标网页的DOM树中的每个块级节点特征，得到该目标网页的原始节点集合；

所述模板生成模块用于将原始节点集合加入对应网站的缓存节点集合，当缓存节点集合中元素个数达到预设阈值时，触发模板生成算法，更新对应网站的模板节点集合；

所述模板预处理模块用于利用目标网页所属网站的模板节点集合对目标网页的原始节点集合进行过滤处理，输出已过滤目标网页节点集合；

所述分类器训练模块用于分类器的训练，即预先将一些节点标记为噪声和主体两类，用标记好的节点作为训练样本训练分类器，直到分类器达到预定的分类效果；

所述分类器预测模块用于用训练好的分类器对已过滤目标网页节点集合进行分类，保留分类结果为主体内容的节点，从中提取主体内容文本。

与现有技术相比，本发明的有益效果是：使用模板和分类器协同工作，分两阶段进行去噪处理，去噪效果好。在第一阶段中，能自动识别目标网站的公有噪声信息作为模板对目标网页进行噪声过滤；第二阶段中，将网页去噪问题看作一个分类问题，利用分类器筛选出主体信息。本发明第一阶段处理速度快，且不需要人工干预，由于过滤了部分噪声信息，大大减轻了第二阶段的处理负担。本发明具有广泛的适应性，是一个通用的主题型网页去噪方法。

附图说明

图1为本发明方法实施流程图。

图2为本发明***结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明去噪方法包括以下步骤：

一、通过网页爬虫技术获取原始的HTML文档，包括网页下载、网页发现。其中，网页下载负责下载目标网页并按目标网页的域名地址的不同，分类存入数据库中；网页发现负责发现符合要求的新网页地址，并将其添加到待爬取列表。

二、对原始的HTML文档进行处理，包括预处理和修正。其中，预处理负责删除不包含文本内容的标签，比如注释，脚本，样式等；修正即是修正DOM树的可修正错误，包括“<>”匹配错误，标签对匹配错误等。通过处理后，输出符合要求的简化DOM树。

三、对DOM树中的每个块级节点进行特征计算，并保存在节点结构中，输出该DOM树对应的原始节点集合OriginNodes。涉及的特征包括：节点文本内容长度与文档文本内容长度比值、节点文本内容长度、节点文本内容标点符号长度与节点文本内容长度比值、节点链接标签个数与文档链接标签个数比值、节点图片标签个数与文档图片标签个数比值、节点权重分数、节点内链接字符与文本内容长度比值、节点内链接标签个数加图片标签个数与节点文本内容长度比值。在统计计算上述特征的时候，应排除该块级节点下子块级节点的内容，由下自顶的计算每个块级节点的特征向量。

四、自动生成某一站点网页的模板，该模块对每个网站维护一个模板节点集合PatternNodes和缓存节点集合TempNodes，将目标网站的原始节点集合OriginNodes加入对应站点的缓存节点集合TempNodes中，一旦缓存节点集合TempNodes中元素个数超过某一设定阈值时，对缓存节点集合TempNodes中每个节点计数，那些文本重复频率较高的节点通常是携带该网站版权信息，重复广告等噪声内容的节点，将这些节点加入模板节点集合PatternNodes中，该集合即为该网站的模板，记录了该网站下各网页的共同噪声信息。

五、通过模板节点集合PatternNodes过滤掉目标网页中的部分噪声信息，输出已过滤目标网页节点集合PreNodes，PreNodes＝OriginNodes-PatternNodes。

六、训练SVM或CART分类器。预先将一些节点标记为噪声和主体两类，用标记好的节点作为训练样本训练分类器，当分类器达到预定的分类效果即可停止训练，输出一个训练好的分类器classfer。

七、利用分类器classfer对已过滤目标网页节点集合PreNodes中的节点进行分类，分为噪声节点集合和主体内容节点集合RstNodes，最后输出主体内容节点集合RstNodes中的文本。

如图2所示，本方法***包括：网页爬虫模块101、网页预处理模块102、DOM树特征向量计算模块103、模板生成模块104、数据库***105、模板预处理模块106、分类器训练模块107、分类器预测模块108。

网页爬虫模块101：负责循环不间断的抓取新的符合要求的目标网页；

预处理模块102：其与模块101相连，对目标网页进行无关标签删除，对错误标签对进行修正，输出简化DOM树；

DOM树特征向量计算模块103：其与模块102相连，对简化DOM树进行特征向量计算并输出目标网页的原始节点集合OriginNodes；

模板生成模块104：其与模块103相连，对原始节点集合OriginNodes进行模板生成处理，生成模板节点集合PatternNodes；

数据库105，其与模块104相连，对生成的模板节点集合PatternNodes，进行持久化；

模板预处理模块106，其与模块103相连，获取模块103生成的原始节点集合OriginNodes，同时，模板预处理模块106还与数据库105相连，查询目标网页所属网站的模板节点集合PatternNodes。输出已过滤目标网页节点集合PreNodes；

分类器训练模块107：负责训练分类器classfer；

分类器预测模块108，其与模块106相连，接收模块106输出的已过滤目标网页节点集合PreNodes。同时，分类器预测模块108与模块107相连，接收107模块提供的分类器classfer。利用分类器classfer将该集合划分为噪声和主体内容两个集合，输出主体内容。

以下通过具体实例验证验证本发明技术效果。

步骤S201：从待爬取队列中取出一个URL(Uniform Resource Locator，统一资源定位符)，下载该网页，筛选该网页内满足条件的URL，将其加入待爬取队列并转到步骤S201，以实现不间断获取网页。同时对该网页进行预处理，包括：删除无关标签，修正错误的标签对。随后解析该网页为DOM树，以并行的方式转到S202；

步骤S202：对步骤S201输出的DOM树由下自顶的对每个块级节点计算特征向量。特征分量包括：节点文本内容长度与文档文本内容长度比值、节点文本内容长度、节点文本内容标点符号长度与节点文本内容长度比值、节点链接标签个数与文档链接标签个数比值、节点图片标签个数与文档图片标签个数比值、节点权重分数、节点内链接字符与文本内容长度比值、节点内链接标签个数加图片标签个数与节点文本内容长度比值。在统计计算上述特征的时候，子孙块节点的内容不计入该节点，每个特征向量存入节点中，则整个DOM树可以得到一个原始节点集合OriginNodes，转到步骤S203。若要将原始节点集合OriginNodes用于分类器训练，则采用并行的方式转到S204；

步骤S203：将步骤S202输出的原始节点集合OriginNodes添加到为目标网页所属网站维护的缓存区，一旦缓存区元素数量达到设定阈值，则进行公用噪声信息提取，将提取结果加入模板节点集合PatterNodes集合，转到步骤S205；否则，直接转到S205。

步骤S204：需人工标注原始节点集合OriginNodes，用于分类器classfer训练，一旦分类器classfer达到满足***要求的效果，即可停止。该步骤并不是必须的，除非当前分类器classfer不满足***要求，需要训练新的分类器。分类器classfer训练结束后，转到S206更新当前分类器classfer。

步骤S205：利用模板节点集合PatterNodes对原始节点集合OriginNodes进行过滤处理，其效果等价于过滤了目标网页部分噪声信息，这些信息往往是目标网站的公有噪声信息，包括：网站版权信息，部分广告，网站网页结构信息等，过滤后的节点集合为已过滤目标网页节点集合PreNodes，转到S206。

步骤S206：利用当前的分类器classfer对已过滤目标网页节点集合PreNodes进行分类，输出分类结果为主体内容节点中的内容。

通过上述方式，对参考消息、***、四川日报、华西都市报、腾讯新闻、搜狐新闻、新浪新闻、今日头条、凤凰网、光明网、环球网、四川省人民政府、成都市人民政府等网站获取主体型网页24334篇，并进行去噪处理。多次随机抽样2000篇进行检查，去噪平均准确率为98.64％，平均召回率为93.46％。将该方法应用于某舆情分析***，改善了该***的语料质量，对舆情分析***的准确性提升有较大意义。

Claims

1.一种基于模板和分类器协同工作的网页去噪方法，其特征在于，包括以下步骤：

步骤1：下载目标网页，获取原始的HTML文档；

步骤3：计算目标网页的DOM树中的每个块级节点特征，得到该目标网页的原始节点集合；所述节点特征包括：节点文本内容长度与文档文本内容长度比值、节点文本内容长度、节点文本内容标点符号长度与节点文本内容长度比值、节点链接标签个数与文档链接标签个数比值、节点图片标签个数与文档图片标签个数比值、节点权重分数、节点内链接字符与文本内容长度比值、节点内链接标签个数加图片标签个数与节点文本内容长度比值；在统计计算上述特征的时候，排除该块级节点下子块级节点的内容，由下自顶的计算每个块级节点的特征向量；

步骤4：生成模板，即自动生成某一站点网页的模板，对每个网站维护一个模板节点集合和缓存节点集合，将原始节点集合加入对应网站的缓存节点集合，当缓存节点集合中元素个数达到预设阈值时，触发模板生成算法，即对缓存节点集合中每个节点计数，将文本重复频率超过设定值的节点加入对应网站的模板节点集合，以更新对应网站的模板节点集合；

步骤6：训练分类器，即预先将一些节点标记为噪声和主体两类，并加入已标记节点集合，用该集合中的节点作为训练样本训练分类器，直到分类器达到预定的分类效果；

步骤7：用训练好的分类器对已过滤目标网页节点集合中的节点进行分类，保留分类结果为主体内容的节点，从中提取主体内容文本。

2.如权利要求1所述的基于模板和分类器协同工作的网页去噪方法，其特征在于，所述步骤1具体为：包括网页下载和网页发现；网页下载负责下载目标网页并按目标网页的域名地址的不同，分类存入数据库中，网页发现负责发现符合要求的新网页地址，并将其添加到待爬取列表。

3.如权利要求1所述的基于模板和分类器协同工作的网页去噪方法，其特征在于，所述步骤2具体为：包括预处理和修正；预处理负责删除不包含文本内容的标签，包括注释、脚本和样式，修正即是修正DOM树的可修正错误，包括“< >”匹配错误、标签对匹配错误。

4.如权利要求1所述的基于模板和分类器协同工作的网页去噪方法，其特征在于，在步骤6中，所述分类器采用的分类器模型为支持向量机或分类回归树。

5.一种基于模板和分类器协同工作的网页去噪***，其特征在于，包括网页爬虫模块、HTML预处理模块、DOM树特征向量计算模块、模板生成模块、模板预处理模块、分类器训练模块和分类器预测模块；

所述网页爬虫模块用于下载目标网页，获取原始的HTML文档；

所述节点特征包括：节点文本内容长度与文档文本内容长度比值、节点文本内容长度、节点文本内容标点符号长度与节点文本内容长度比值、节点链接标签个数与文档链接标签个数比值、节点图片标签个数与文档图片标签个数比值、节点权重分数、节点内链接字符与文本内容长度比值、节点内链接标签个数加图片标签个数与节点文本内容长度比值；在统计计算上述特征的时候，排除该块级节点下子块级节点的内容，由下自顶的计算每个块级节点的特征向量；

所述模板生成模块用于将原始节点集合加入对应网站的缓存节点集合，当缓存节点集合中元素个数达到预设阈值时，触发模板生成算法，即对缓存节点集合中每个节点计数，将文本重复频率超过设定值的节点加入对应网站的模板节点集合，以更新对应网站的模板节点集合；

所述分类器预测模块用于用训练好的分类器对已过滤目标网页节点集合中的节点进行分类，保留分类结果为主体内容的节点，从中提取主体内容文本。