CN110020312B

CN110020312B - 提取网页正文的方法和装置

Info

Publication number: CN110020312B
Application number: CN201711306108.3A
Authority: CN
Inventors: 贾宝玉; 李�杰; 周旭
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2022-09-06
Anticipated expiration: 2037-12-11
Also published as: CN110020312A

Abstract

本发明公开了一种提取网页正文的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据待提取网页构建访问模型；计算主体部分的各单位区域与特征部分的相似值；根据相似值和各单位区域的第一指标值，从访问模型中筛选单位正文区域；根据单位正文区域确定待提取网页的正文的开头和结尾，以得到待提取网页的完整正文。该实施方式能够准确完整的提取出网页正文，降低了人工成本，提高了提取网页正文的效率。

Description

提取网页正文的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种提取网页正文的方法和装置。

背景技术

随着社会的快速发展，互联网逐渐成为信息发布和获取的主要平台，其上数据一直呈几何级数增长。互联网数据已覆盖经济、政治、文化等现实世界的各个领域，构成很多应用的重要信息来源。但是网页的内容除了人们需要的正文外，还有版权信息、广告、导航栏、装饰信息等与正文无关的内容，称为噪音信息。如何屏蔽噪音信息，将网页中的正文提取出来，已经成为当前研究的一个热点。

目前提取网页正文的方法有如下三大类：一、基于模板的网页正文提取的方法；二、基于块文本密度提取正文的方法；三、基于视觉网页分割提取正文的方法。其中，基于模板的网页正文提取的方法中，需要人工维护一个模板信息，然后根据模板信息提取正文内容；基于块文本密度提取正文的方法中，首先根据每行的行内文本比率得到行块分布函数，然后计算超过阈值的文本比率高的行块，从而确定正文内容；基于视觉网页分割提取正文的方法中，首先根据视觉信息将网页分割为多个页面块，然后利用HTML标签中的分隔线将页面块合并，从而得到网页正文。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：一、基于模板提取网页正文，需要人工参与，工作量大，而且网页结构变化时需要重新配置模板；二、基于块文本密度提取正文，很难确定正文的开头和结尾，完整率不高；三、基于视觉网页分割提取正文的方法需要javascript等引擎，复杂度高，非常耗时；四、现有技术没有一种方法适用于所有类型的网页正文提取。

发明内容

有鉴于此，本发明实施例提供一种提取网页正文的方法和装置，能够准确完整的提取出网页正文，降低了人工成本，提高了提取网页正文的效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种提取网页正文的方法。

本发明实施例的一种提取网页正文的方法包括：根据待提取网页构建访问模型，所述访问模型包括：特征部分和主体部分；计算所述主体部分的各单位区域与所述特征部分的相似值；根据所述相似值和各单位区域的第一指标值，从所述访问模型中筛选单位正文区域；根据所述单位正文区域确定所述待提取网页的正文的开头和结尾，以得到所述待提取网页的完整正文。

可选地，在根据待提取网页构建访问模型之前，所述方法还包括：将所述待提取网页的源码进行标准化处理。

可选地，计算所述主体部分的各单位区域与所述特征部分的相似值包括：计算所述特征部分的第二指标值以及所述主体部分的各单位区域的第二指标值；利用所述特征部分的第二指标值以及所述各单位区域的第二指标值，计算所述特征部分与所述各单位区域的相似值。

可选地，根据所述相似值和各单位区域的第一指标值，从所述访问模型中筛选单位正文区域包括：根据所述第一指标值，从所述访问模型中选出疑似文本区域；利用所述相似值从所述疑似文本区域中筛选所述单位正文区域。

可选地，利用所述相似值从所述疑似文本区域中筛选所述单位正文区域包括：比较所述疑似文本区域中各单位区域的相似值的大小，选取相似值最大的单位区域作为单位正文区域。

可选地，根据所述单位正文区域确定所述待提取网页的正文的开头和结尾包括：以所述单位正文区域为中心进行向上和向下单位区域的迭代遍历，判断每一个单位区域是否符合预设正文条件，若不符合预设正文条件，则停止迭代，从而确定所述待提取网页的正文的开头和结尾。

可选地，判断每一个单位区域是否符合预设正文条件包括：判断每一个单位区域的相似值是否大于预设相似性阈值，若大于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的链接比是否小于预设链接比阈值，若小于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的符号比是否大于预设符号比阈值，若大于，则确定所述单位区域符合预设正文条件。

可选地，在根据所述单位正文区域确定所述待提取网页的正文的开头和结尾之后，所述方法还包括：获取所述待提取网页的正文附加信息，其中，所述正文附加信息包括如下至少一种：正文标题、作者、日期和来源。

可选地，所述访问模型为文本对象模型。

可选地，所述各单位区域以行为单位。

可选地，所述第一指标值用于表示各单位区域的属性信息，包括：各单位区域的单位密度。

可选地，所述第二指标值用于表示网页中某区域的属性信息，包括：特征向量值。

为实现上述目的，根据本发明实施例的另一方面，提供了一种提取网页正文的装置。

本发明实施例的一种提取网页正文的装置，包括：构建模块，用于根据待提取网页构建访问模型，所述访问模型包括：特征部分和主体部分；计算模块，用于计算所述主体部分的各单位区域与所述特征部分的相似值；筛选模块，用于根据所述相似值和各单位区域的第一指标值，从所述访问模型中筛选单位正文区域；确定模块，用于根据所述单位正文区域确定所述待提取网页的正文的开头和结尾，以得到所述待提取网页的完整正文。

可选地，所述构建模块还用于：在根据待提取网页构建访问模型之前，将所述待提取网页的源码进行标准化处理。

可选地，所述计算模块还用于：计算所述特征部分的第二指标值以及所述主体部分的各单位区域的第二指标值；利用所述特征部分的第二指标值以及所述各单位区域的第二指标值，计算所述特征部分与所述各单位区域的相似值。

可选地，所述筛选模块还用于：根据所述第一指标值，从所述访问模型中选出疑似文本区域；利用所述相似值从所述疑似文本区域中筛选所述单位正文区域。

可选地，所述筛选模块还用于：比较所述疑似文本区域中各单位区域的相似值的大小，选取相似值最大的单位区域作为单位正文区域。

可选地，所述确定模块还用于：以所述单位正文区域为中心进行向上和向下单位区域的迭代遍历，判断每一个单位区域是否符合预设正文条件，若不符合预设正文条件，则停止迭代，从而确定所述待提取网页的正文的开头和结尾。

可选地，所述确定模块还用于：判断每一个单位区域的相似值是否大于预设相似性阈值，若大于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的链接比是否小于预设链接比阈值，若小于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的符号比是否大于预设符号比阈值，若大于，则确定所述单位区域符合预设正文条件。

可选地，所述确定模块还用于：获取所述待提取网页的正文附加信息，其中所述正文附加信息包括如下至少一种：正文标题、作者、日期和来源。

可选地，所述访问模型为文本对象模型。

可选地，所述各单位区域以行为单位。

为实现上述目的，根据本发明实施例的再一方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的提取网页正文的方法。

为实现上述目的，根据本发明实施例的又一方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本发明实施例的提取网页正文的方法。

上述发明中的一个实施例具有如下优点或有益效果：能够确定网页正文的开头和结尾，从而可以智能化的提取出网页的完整正文，降低了人工成本，提高了提取网页正文的效率；本发明实施例中对待提取网页的源码进行标准化处理，从而有利于根据标准化的源码构建访问模型，减少提取网页正文的时间，并且使得本发明实施例的方法可以适用于各种类型的网页的正文提取；本发明实施例中通过计算特征部分的第二指标值以及主体部分的各单位区域的第二指标值，从而可以方便地利用第二指标值计算特征部分与各单位区域的相似值；本发明实施例中通过各单位区域的第一指标值选出疑似文本区域，从而可以缩小正文的选取范围，提高网页正文的提取效率；本发明实施例中通过比较疑似文本区域中各单位区域的相似值，从而可以将相似值最大的单位区域作为单位正文区域，提高了正文提取的准确率；本发明实施例中以单位正文区域为中心进行向上和向下单位区域的迭代遍历，从而可以确定正文的开头和结尾，确保提取出网页的完整正文；本发明实施例中，从相似值、链接比和/或符号比等多个角度判断每一个单位区域是否符合预设正文条件，从而可以进一步提高正文提取的准确率；本发明实施例中获取待提取网页的正文附加信息，提高了正文的完整性；本发明实施例中第一指标值可以包括各单位区域的单位密度，从而可以借助单位密度这个属性信息选出疑似文本区域；本发明实施例中第二指标值可以包括特征向量值，从而可以借助特征向量值计算相似值。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的提取网页正文的方法的主要步骤的示意图；

图2是根据本发明实施例的提取网页正文的方法的主要流程的示意图；

图3是标准化的源码和其对应的dom树的示意图；

图4是根据本发明实施例的提取网页正文的方法的计算各行文本与特征信息的相似值的主要步骤的示意图；

图5是根据本发明实施例的提取网页正文的方法的筛选出正文行的主要步骤的示意图；

图6是根据本发明实施例的提取网页正文的方法的获取的行密度函数的示意图；

图7是根据本发明实施例的提取网页正文的方法的确定正文的开头和结尾的主要步骤的示意图；

图8是根据本发明实施例的提取网页正文的装置的主要模块的示意图；

图9是本发明实施例可以应用于其中的示例性***架构图；

图10是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

当前提取网页正文的方法没有达到人们期望的程度，本发明从目前网页正文的各种特点出发，结合现有技术的优缺点，设计了一种智能提取网页正文的方法，能够准确完整的提取出网页正文，降低了人工成本，提高了提取网页正文的效率。其中，网页正文的特点可以包括：正文的句子长、正文的句子数目多、标题与正文有一定的相关性、正文在网页的中间位置、超链接在正文中的比率不大、正文中的标点符号比其他模块多。

图1是根据本发明实施例的提取网页正文的方法的主要步骤的示意图，如图1所示，本发明实施例的提取网页正文的方法主要包括以下步骤：

步骤S101：根据待提取网页构建访问模型。其中，本发明中访问模型可以包括：特征部分和主体部分。特征部分可以存储网页的特征信息，比如，标题、关键词和摘要等信息。主体部分可以存储网页的正文信息。

步骤S102：计算主体部分的各单位区域与特征部分的相似值。本发明实施例中，可以将访问模型的主体部分划分为多个单位区域，然后计算每个单位区域与特征部分的相似值。

步骤S103：根据相似值和各单位区域的第一指标值，从访问模型中筛选单位正文区域。本发明实施例中，通过步骤S102获取每个单位区域与特征部分的相似值，并结合每个单位区域的第一指标值，判断每个单位区域是否是单位正文区域。

步骤S104：根据单位正文区域确定待提取网页的正文的开头和结尾，以得到待提取网页的完整正文。

本发明实施例中，在根据待提取网页构建访问模型之前，提取网页正文的方法还可以包括：将待提取网页的源码进行标准化处理。本发明实施例中，标准化处理包括：去除脚本语言、特殊字符转化。为了满足用户的视觉体验，网页源码中会嵌入大量的JS(即JavaScript，是一种属于网络的脚本语言，用来为网页添加各式各样的动态功能，为用户提供更流畅美观的浏览效果)和CSS(即Cascading Style Sheets，一种文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化)等脚本语言，这些脚本语言的作用是修饰网页，与网页正文内容无关，而且这些脚本语言为提取正文带来很大干扰，因此可以将与正文无关的脚本语言去除。另外，为了后续处理，可以将源码中的特殊字符转化为常规形式，比如，将&lt转化为<、将&gt转化为>等。

本发明实施例中，计算主体部分的各单位区域与特征部分的相似值可以包括：计算特征部分的第二指标值以及主体部分的各单位区域的第二指标值；利用特征部分的第二指标值以及各单位区域的第二指标值，计算特征部分与各单位区域的相似值。本发明实施例中，特征部分可以存储网页的特征信息，比如，标题、关键词和摘要等信息，因此可以根据这些特征信息，生成特征部分的第二指标值作为第二指标模型值。然后，利用第二指标模型值以及各单位区域的第二指标值，计算特征部分与各单位区域的相似值。本发明实施例中，可以通过余弦定理公式，计算第二指标模型值与每个单位区域的第二指标值的余弦值作为特征部分与各单位区域的相似值，其中余弦值越趋近于1说明相似度越高。当然，本发明实施例中也可以通过其他算法获取特征部分与各单位区域的相似值，对此不作限定。

本发明实施例中，根据相似值和各单位区域的第一指标值，从访问模型中筛选单位正文区域可以包括：根据第一指标值，从访问模型中选出疑似文本区域；利用相似值从疑似文本区域中筛选单位正文区域。其中，疑似文本区域可以为一个或多个，单位正文区域可以为一个或多个单位区域。

本发明实施例中，利用相似值从疑似文本区域中筛选单位正文区域可以包括：比较疑似文本区域中各单位区域的相似值的大小，选取相似值最大的单位区域作为单位正文区域。若疑似文本区域中，相似值最大的单位区域有多个，则多个相似值最大的单位区域可以均是单位正文区域，也可以选择多个相似值最大的单位区域中任意一个单位区域作为单位正文区域，当然也可以通过其他方法选择，本发明对此不作限定。

本发明实施例中，根据单位正文区域确定待提取网页的正文的开头和结尾可以包括：以单位正文区域为中心进行向上和向下单位区域的迭代遍历，判断每一个单位区域是否符合预设正文条件，若不符合预设正文条件，则停止迭代，从而确定待提取网页的正文的开头和结尾。在步骤S103中筛选出单位正文区域之后，然后以单位正文区域为中心进行向上单位区域的迭代遍历。首先判断单位正文区域的向上一个单位区域是否符号预设条件，若符合预设条件，则说明属于网页正文，并继续向上迭代，若不符合，则说明不属于网页正文，即确定了网页的开头。同理，可以采用同样的方法，以单位正文区域为中心进行向下单位区域的迭代遍历，确定网页正文的结尾。

本发明实施例中，判断每一个单位区域是否符合预设正文条件可以包括：判断每一个单位区域的相似值是否大于预设相似性阈值，若大于，则确定单位区域符合预设正文条件；和/或，判断每一个单位区域的链接比是否小于预设链接比阈值，若小于，则确定单位区域符合预设正文条件；和/或，判断每一个单位区域的符号比是否大于预设符号比阈值，若大于，则确定单位区域符合预设正文条件。其中，预设相似性阈值可以通过计算各单位区域的相似值的算数平均值获取，也可以通过其他方法计算获取。链接比可以是链接数与字符数的比值，符号比可以是符号数与字符数的比值。

本发明实施例中，在根据单位正文区域确定待提取网页的正文的开头和结尾之后，提取网页正文的方法还可以包括：获取待提取网页的正文附加信息。其中，正文附加信息可以包括如下至少一种：正文标题、作者、日期和来源。本发明实施例中，可以通过特征部分的特征信息，从主体部分中查找正文标题。本发明实施例中，确定了正文标题和正文的位置之后，可以通过正则表达式(又称规则表达式，计算机科学的一个概念，通常被用来检索、替换那些符合某个规则的文本)提取出作者、日期和来源等信息。其中，正文的日期一般位于标题与正文内容的中间，并以规则的模式存放，因此可以采用正则表达式提取。正文的来源和作者等信息一般位于标题与正文内容的中间，或者正文下面的位置，并以规则的模式存放，因此可以采用正则表达式提取。

本发明实施例中，访问模型可以为文本对象模型，比如dom(文档对象模型Document Object Model，简称DOM，是万维网组织推荐的处理可扩展标志语言的标准编程接口)树。

本发明实施例中，各单位区域可以以行为单位。当然，本发明实施例中也可以选择其他单位。

本发明实施例中，第一指标值用于表示各单位区域的属性信息，可以包括：各单位区域的单位密度。为了方便理解，以单位区域为行进行计算单位密度，将“单位密度”取为“行密度”进行详细说明，当然“行”并不用来对本发明技术方案的保护范围进行限定，本发明中“行密度”可以根据具体业务场景进行适应性调整。本发明实施例中，单位密度可以通过如下计算方法获取。首先，获取每一行的行块，以第1行为例说明，向下取k行，k为根据具体情况设定，取k为3的时候，则第1行的行块为“第1行到第4行的文本”。然后，计算每一行的行块长度，以第1行的行块为例说明，去除第1行的行块的空白字符之后，统计第1行的行块的字符总数，然后加上(第1行的标点符号数*k)。考虑到网页中的正文有标点符号，其他地方没有标点符号，(标点符号数*k)相当于是加权。最后，得到每一行的行密度为：行块长度/(k+1)。本发明中，也可以选择其他方法计算单位密度，对此不作限定。

本发明实施例中，第二指标值用于表示网页中某区域的属性信息，可以包括：特征向量值。本发明中，可以利用特征部分的特征向量值以及各单位区域的特征向量值，计算特征部分与各单位区域的相似值。

为了方便理解，图2到图7以行为单位对本发明实施例进行描述，将“访问模型”取为“dom树”、“第一指标值”取为“行密度”、“第二指标值”取为“特征向量值”进行详细说明，当然“以行为单位”并不用来对本发明技术方案的保护范围进行限定，本发明中“dom树”、“行密度”、“特征向量值”可以根据具体业务场景进行适应性调整。

图2是根据本发明实施例的提取网页正文的方法的主要流程的示意图，如图2所示，本发明实施例的提取网页正文的方法主要包括以下流程：步骤S201，加载待提取网页的源码，并对源码进行标准化处理；步骤S202，根据标准化的源码构建文本dom树；步骤S203，根据dom树提取网页的特征信息，并确定网页正文的标题信息；步骤S204，计算各行文本与特征信息的相似值以及各行文本的行密度；步骤S205，根据相似值和行密度选出疑似文本块，然后从疑似文本块中筛选出正文行；步骤S206，对正文行进行向上和向下行的迭代遍历，确定正文的开头和结尾；步骤S207，确定正文的附加信息。

步骤S201是加载待提取网页的源码，并对源码进行标准化处理，具体过程可以包括：借助Jsoup(用于解析网页内容的软件包)加载待提取网页的源码；分析源码，转化加载的源码的格式；去除JS和CSS等脚本语言；对特殊字符进行处理。

步骤S202是根据标准化的源码构建文本dom树。图3是标准化的源码和其对应的dom树的示意图。本发明中，可以借助Jsoup构建dom树，然后将dom树以文本信息对应节点标签组的形式存放，形成一个文本列表，将每一行做一个对象进行处理，一行是一个文本，对应一个标签，同时该行在页面中的顺序、该行的链接数、标点数、字符数均保存在文本列表中。其中，图3的dom树对应的“文本信息对应节点标签组的形式”可以如下所示：

“HTML Tree”：html→head→title→text；

“你好！”：html→body→table→tr→td→text；

“这是一棵HTML树。”：html→body→table→tr→td→text。其中，文本信息“你好！”和“这是一棵HTML树。”对应的节点标签组是相同的。

步骤S203是根据dom树提取网页的特征信息，并确定网页正文的标题信息。其中，dom树显示了网页的特征信息和主题信息，dom树的head标签对应的是网页的特征信息，例如，标题内容、关键词和摘要，而网页的正文信息对应在body标签中。根据dom树，通过html→head→title→text这样的标签提取标题内容、关键词和摘要等文本信息。根据提取的标题内容，可以找到标题内容在body标签中的位置。

步骤S204是计算各行文本与特征信息的相似值以及各行文本的行密度。在步骤S203中，获取网页的特征信息，即标题内容、关键词以及摘要等信息，网页正文与这些信息是有一定的相关性的。

图4是根据本发明实施例的提取网页正文的方法的计算各行文本与特征信息的相似值的主要步骤的示意图。如图4所示，计算各行文本与特征信息的相似值的主要步骤可以包括：步骤S401，对特征信息进行去停用词和分词处理得到n个特征词，并统计这些特征词的词频，其中停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据之前或之后会自动过滤掉某些字或词；步骤S402，根据TF-IDF算法计算出每个特征词的TF-IDF值，其中，TF-IDF即term frequency–inverse document frequency是一种用于信息检索与数据挖掘的常用加权技术，根据TF-IDF算法可以计算出一个词的TF-IDF值，某个词对文章的重要性越高，它的TF-IDF值就越大；步骤S403，得到一组特征向量作为待提取网页的模型特征向量值D＝D(W₁,W₂,…,W_n)，其中，W₁为第1个特征词的词频*第1个特征词的TF-IDF值；步骤S404，遍历每一行文本并进行分词，计算每一行的特征向量值；步骤S405，计算每一行的特征向量值与模型特征向量值的余弦值作为每一行文本与特征信息的相似值，其中余弦定理公式表示为：

其中Sim(D,D_i)代表第i行文本与特征向量的相似值，D_i＝D(W_i1,W_i2,…,W_in)代表第i行的特征向量值。

步骤S205是根据相似值和行密度选出疑似文本块，然后从疑似文本块中筛选出正文行。图5是根据本发明实施例的提取网页正文的方法的筛选出正文行的主要步骤的示意图。如图5所示，筛选出正文行的主要步骤可以包括：步骤S501，通过各行文本的行密度得到一个行密度函数；步骤S502，通过行密度函数的骤升骤降区域，获得疑似文本块；步骤S503，遍历疑似文本块找出相似性最大的那个文本行作为正文行。

图6是根据本发明实施例的提取网页正文的方法的获取的行密度函数的示意图。图6中，横轴为每一行的行号，纵轴为每一个行的行密度。通过此行密度函数的骤升骤降会得到疑似正文的各个块位置。例如，横轴的点为X1……Xn,纵轴的点为Y(X1)……Y(Xn)，需要确定的是正文的起始位置Xstart和结束位置Xend，具体确定疑似正文块的算法可以如下：

(1)确定骤升点Xstart(Y(Xstart)-Y(X(start-1))>Y(Xt)*30％)，其中Y(Xt)是行密度的最大值；

(2)为了避免噪音，有Y(X(start+1))≠0；

(3)Y(Xend)＝0，即骤降点为0，表示结束；

(4)保证在Xstart与Xend之间存在行密度最大值的百分之八十，即Y(Xt)*80％。

通过上述算法，可以得到图6中49行至73行以及91行至97行就是疑似文本块。当然，本发明实施例中，也可以选择其他方法获取疑似文本块，本发明对此不作限定。

步骤S206是对正文行进行向上和向下行的迭代遍历，确定正文的开头和结尾。图7是根据本发明实施例的提取网页正文的方法的确定正文的开头和结尾的主要步骤的示意图。如图7所示，根据本发明实施例确定正文的开头和结尾的主要步骤可以包括：步骤S701，通过正文行可以确定正文行对应的节点标签组；步骤S702，确定节点标签组在dom树上的位置，并对该节点标签组提取文本；步骤S703，以该节点标签组为中心进行向上行和向下行的迭代遍历；步骤S704，判断每一行的相似值是否大于预设相似性阈值；步骤S705，若大于，则对该文本行对应的节点标签组提取文本并继续迭代；步骤S706，若不大于，则停止迭代，确定待提取网页的正文的开头和结尾。

本发明实施例中，是通过比较每一行的相似值与相似性阈值的大小来确定该行是否符合预设正文条件，当然，本发明中也可以利用每一行链接比或者每一行的符号比来确定该行是否符合预设正文条件。

步骤S207是确定正文的附加信息。其中，附加信息可以包括：作者、日期和来源。上述步骤中找到标题内容和正文在dom树中的位置，因此可以通过正则表达式提取出作者、日期和来源等信息。

根据本发明实施例的提取网页正文的技术方案可以看出，能够确定网页正文的开头和结尾，从而可以智能化的提取出网页的完整正文，降低了人工成本，提高了提取网页正文的效率；本发明实施例中对待提取网页的源码进行标准化处理，从而有利于根据标准化的源码构建访问模型，减少提取网页正文的时间，并且使得本发明实施例的方法可以适用于各种类型的网页的正文提取；本发明实施例中通过计算特征部分的第二指标值以及主体部分的各单位区域的第二指标值，从而可以方便地利用第二指标值计算特征部分与各单位区域的相似值；本发明实施例中通过各单位区域的第一指标值选出疑似文本区域，从而可以缩小正文的选取范围，提高网页正文的提取效率；本发明实施例中通过比较疑似文本区域中各单位区域的相似值，从而可以将相似值最大的单位区域作为单位正文区域，提高了正文提取的准确率；本发明实施例中以单位正文区域为中心进行向上和向下单位区域的迭代遍历，从而可以确定正文的开头和结尾，确保提取出网页的完整正文；本发明实施例中，从相似值、链接比和/或符号比等多个角度判断每一个单位区域是否符合预设正文条件，从而可以进一步提高正文提取的准确率；本发明实施例中获取待提取网页的正文附加信息，提高了正文的完整性；本发明实施例中第一指标值可以包括各单位区域的单位密度，从而可以借助单位密度这个属性信息选出疑似文本区域；本发明实施例中第二指标值可以包括特征向量值，从而可以借助特征向量值计算相似值。

图8是根据本发明实施例的提取网页正文的装置的主要模块的示意图。如图8所示，本发明的提取网页正文的装置800主要包括如下模块：构建模块801、计算模块802、筛选模块803和确定模块804。

其中，构建模块801可用于：根据待提取网页构建访问模型。访问模型可以包括：特征部分和主体部分。计算模块802可用于：计算主体部分的各单位区域与特征部分的相似值。筛选模块803可用于：根据相似值和各单位区域的第一指标值，从访问模型中筛选单位正文区域。确定模块804可用于：根据单位正文区域确定待提取网页的正文的开头和结尾，以得到待提取网页的完整正文。

本发明实施例中，构建模块801还可用于：在根据待提取网页构建访问模型之前，将待提取网页的源码进行标准化处理。

本发明实施例中，计算模块802还可用于：计算述特征部分的第二指标值以及主体部分的各单位区域的第二指标值；利用特征部分的第二指标值以及各单位区域的第二指标值，计算特征部分与各单位区域的相似值。

本发明实施例中，筛选模块803还可用于：根据第一指标值，从访问模型中选出疑似文本区域；利用相似值从疑似文本区域中筛选单位正文区域。

本发明实施例中，筛选模块803还可用于：比较疑似文本区域中各单位区域的相似值的大小，选取相似值最大的单位区域作为单位正文区域。

本发明实施例中，确定模块804还可用于：以单位正文区域为中心进行向上和向下单位区域的迭代遍历，判断每一个单位区域是否符合预设正文条件，若不符合预设正文条件，则停止迭代，从而确定待提取网页的正文的开头和结尾。

本发明实施例中，确定模块804还可用于：判断每一个单位区域的相似值是否大于预设相似性阈值，若大于，则确定单位区域符合预设正文条件；和/或，判断每一个单位区域的链接比是否小于预设链接比阈值，若小于，则确定单位区域符合预设正文条件；和/或，判断每一个单位区域的符号比是否大于预设符号比阈值，若大于，则确定单位区域符合预设正文条件。

本发明实施例中，确定模块804还可用于：获取待提取网页的正文附加信息。其中，正文附加信息可以包括如下至少一种：正文标题、作者、日期和来源。

本发明实施例中，访问模型可以为文本对象模型。

本发明实施例中，各单位区域可以以行为单位。

本发明实施例中，第一指标值可以用于表示各单位区域的属性信息，包括：各单位区域的单位密度。

本发明实施例中，第二指标值可以用于表示网页中某区域的属性信息，包括：特征向量值。

从以上描述可以看出，能够确定网页正文的开头和结尾，从而可以智能化的提取出网页的完整正文，降低了人工成本，提高了提取网页正文的效率；本发明实施例中对待提取网页的源码进行标准化处理，从而有利于根据标准化的源码构建访问模型，减少提取网页正文的时间，并且使得本发明实施例的方法可以适用于各种类型的网页的正文提取；本发明实施例中通过计算特征部分的第二指标值以及主体部分的各单位区域的第二指标值，从而可以方便地利用第二指标值计算特征部分与各单位区域的相似值；本发明实施例中通过各单位区域的第一指标值选出疑似文本区域，从而可以缩小正文的选取范围，提高网页正文的提取效率；本发明实施例中通过比较疑似文本区域中各单位区域的相似值，从而可以将相似值最大的单位区域作为单位正文区域，提高了正文提取的准确率；本发明实施例中以单位正文区域为中心进行向上和向下单位区域的迭代遍历，从而可以确定正文的开头和结尾，确保提取出网页的完整正文；本发明实施例中，从相似值、链接比和/或符号比等多个角度判断每一个单位区域是否符合预设正文条件，从而可以进一步提高正文提取的准确率；本发明实施例中获取待提取网页的正文附加信息，提高了正文的完整性；本发明实施例中第一指标值可以包括各单位区域的单位密度，从而可以借助单位密度这个属性信息选出疑似文本区域；本发明实施例中第二指标值可以包括特征向量值，从而可以借助特征向量值计算相似值。

图9示出了可以应用本发明实施例的提取网页正文的方法或提取网页正文的装置的示例性***架构900。

如图9所示，***架构900可以包括终端设备901、902、903，网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备901、902、903通过网络904与服务器905交互，以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器905可以是提供各种服务的服务器，例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的提取网页正文的方法一般由服务器905执行，相应地，提取网页正文的装置一般设置于服务器905中。

应该理解，图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图10，其示出了适于用来实现本发明实施例的终端设备的计算机***1000的结构示意图。图10示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机***1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有***1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括构建模块、计算模块、筛选模块和确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，构建模块还可以被描述为“根据待提取网页构建访问模型的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据待提取网页构建访问模型；计算主体部分的各单位区域与特征部分的相似值；根据相似值和各单位区域的第一指标值，从访问模型中筛选单位正文区域；根据单位正文区域确定待提取网页的正文的开头和结尾，以得到待提取网页的完整正文。

根据本发明实施例的技术方案，能够确定网页正文的开头和结尾，从而可以智能化的提取出网页的完整正文，降低了人工成本，提高了提取网页正文的效率；本发明实施例中对待提取网页的源码进行标准化处理，从而有利于根据标准化的源码构建访问模型，减少提取网页正文的时间，并且使得本发明实施例的方法可以适用于各种类型的网页的正文提取；本发明实施例中通过计算特征部分的第二指标值以及主体部分的各单位区域的第二指标值，从而可以方便地利用第二指标值计算特征部分与各单位区域的相似值；本发明实施例中通过各单位区域的第一指标值选出疑似文本区域，从而可以缩小正文的选取范围，提高网页正文的提取效率；本发明实施例中通过比较疑似文本区域中各单位区域的相似值，从而可以将相似值最大的单位区域作为单位正文区域，提高了正文提取的准确率；本发明实施例中以单位正文区域为中心进行向上和向下单位区域的迭代遍历，从而可以确定正文的开头和结尾，确保提取出网页的完整正文；本发明实施例中，从相似值、链接比和/或符号比等多个角度判断每一个单位区域是否符合预设正文条件，从而可以进一步提高正文提取的准确率；本发明实施例中获取待提取网页的正文附加信息，提高了正文的完整性；本发明实施例中第一指标值可以包括各单位区域的单位密度，从而可以借助单位密度这个属性信息选出疑似文本区域；本发明实施例中第二指标值可以包括特征向量值，从而可以借助特征向量值计算相似值。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种提取网页正文的方法，其特征在于，包括：

根据待提取网页构建访问模型，所述访问模型包括：特征部分和主体部分；

计算所述主体部分的各单位区域与所述特征部分的相似值；其中，计算所述特征部分的第二指标值以及所述主体部分的各单位区域的第二指标值；利用所述特征部分的第二指标值以及所述各单位区域的第二指标值，计算所述特征部分与所述各单位区域的相似值；其中，所述特征部分包括待提取网页的特征信息，所述第二指标值是根据所述特征信息生成的；

根据所述相似值和各单位区域的第一指标值，从所述访问模型中筛选单位正文区域；其中，

根据所述各单位区域的第一指标值，从所述访问模型中选出疑似文本区域，利用所述相似值从所述疑似文本区域中筛选所述单位正文区域；

根据所述单位正文区域确定所述待提取网页的正文的开头和结尾，以得到所述待提取网页的完整正文；其中，

所述根据所述单位正文区域确定所述待提取网页的正文的开头和结尾包括：以所述单位正文区域为中心进行向上和向下单位区域的迭代遍历，判断每一个单位区域是否符合预设正文条件，若不符合预设正文条件，则停止迭代，从而确定所述待提取网页的正文的开头和结尾；

所述判断每一个单位区域是否符合预设正文条件包括：判断每一个单位区域的相似值是否大于预设相似性阈值，若大于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的链接比是否小于预设链接比阈值，若小于，则确定所述单位区域符合预设正文条件；和/或，判断每一个单位区域的符号比是否大于预设符号比阈值，若大于，则确定所述单位区域符合预设正文条件。

2.根据权利要求1所述的方法，其特征在于，在根据待提取网页构建访问模型之前，所述方法还包括：将所述待提取网页的源码进行标准化处理。

3.根据权利要求1所述的方法，其特征在于，利用所述相似值从所述疑似文本区域中筛选所述单位正文区域包括：

比较所述疑似文本区域中各单位区域的相似值的大小，选取相似值最大的单位区域作为单位正文区域。

4.根据权利要求1所述的方法，其特征在于，在根据所述单位正文区域确定所述待提取网页的正文的开头和结尾之后，所述方法还包括：获取所述待提取网页的正文附加信息，其中，所述正文附加信息包括如下至少一种：正文标题、作者、日期和来源。

5.根据权利要求1所述的方法，其特征在于，所述访问模型为文本对象模型。

6.根据权利要求1所述的方法，其特征在于，所述各单位区域以行为单位。

7.根据权利要求1所述的方法，其特征在于，所述第一指标值用于表示各单位区域的属性信息，包括：各单位区域的单位密度。

8.根据权利要求1所述的方法，其特征在于，所述第二指标值用于表示网页中某区域的属性信息，包括：特征向量值。

9.一种提取网页正文的装置，其特征在于，包括：

构建模块，用于根据待提取网页构建访问模型，所述访问模型包括：特征部分和主体部分；

计算模块，用于计算所述主体部分的各单位区域与所述特征部分的相似值；其中，所述计算模块还用于计算所述特征部分的第二指标值以及所述主体部分的各单位区域的第二指标值；利用所述特征部分的第二指标值以及所述各单位区域的第二指标值，计算所述特征部分与所述各单位区域的相似值；其中，所述特征部分包括待提取网页的特征信息，所述第二指标值是根据所述特征信息生成的；

筛选模块，用于根据所述相似值和各单位区域的第一指标值，从所述访问模型中筛选单位正文区域；其中，

确定模块，用于根据所述单位正文区域确定所述待提取网页的正文的开头和结尾，以得到所述待提取网页的完整正文；其中，

10.根据权利要求9所述的装置，其特征在于，所述构建模块还用于：在根据待提取网页构建访问模型之前，将所述待提取网页的源码进行标准化处理。

11.根据权利要求9所述的装置，其特征在于，所述筛选模块还用于：

12.根据权利要求9所述的装置，其特征在于，所述确定模块还用于：获取所述待提取网页的正文附加信息，其中所述正文附加信息包括如下至少一种：正文标题、作者、日期和来源。

13.根据权利要求9所述的装置，其特征在于，所述访问模型为文本对象模型。

14.根据权利要求9所述的装置，其特征在于，所述各单位区域以行为单位。

15.根据权利要求9所述的装置，其特征在于，所述第一指标值用于表示各单位区域的属性信息，包括：各单位区域的单位密度。

16.根据权利要求9所述的装置，其特征在于，所述第二指标值用于表示网页中某区域的属性信息，包括：特征向量值。

17.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。