CN102270206A

CN102270206A - 一种有效网页内容的抓取方法及装置

Info

Publication number: CN102270206A
Application number: CN2010101963643A
Authority: CN
Inventors: 贾海禄
Original assignee: BEIJING XUNJIE YINGXIANG NETWORK TECHNOLOGY Co Ltd
Current assignee: BEIJING XUNJIE YINGXIANG NETWORK TECHNOLOGY Co Ltd
Priority date: 2010-06-03
Filing date: 2010-06-03
Publication date: 2011-12-07
Also published as: US20110302486A1

Abstract

本发明公开了一种有效网页内容的抓取方法及装置，所述方法包括以下步骤：步骤S1：导入超文本链接标示语言HTML网页；步骤S2：将所述HTML网页转换成相应的文档树结构；步骤S3：根据所述文档树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；步骤S4：在所述文档树结构的<body>标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签，然后将所述正文文本标签的文本内容作为正文。本发明能够简单、方便地实现对通用的HTML结构网页进行有效信息的抽取。

Description

一种有效网页内容的抓取方法及装置

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种有效网页内容的抓取方法及装置。

背景技术

目前互联网上存有目前人类所知的最大的信息库，其中绝大部分信息都是以HTML(Hyper Text Mark-up Lanugage，超文本链接标记语言)格式网页存在。HTML被用来结构化信息——例如标题、段落和列表，能够丰富的表现文本，图片以及其他多媒体信息。结合HTML阅读工具“浏览器”人们能够很方便地查看在HTML结构中的信息。但是从信息记录方面，HTML网页包含了大量的用来结构化信息的标签，同时网页中可能包含很多无用的信息。并且，随着各种移动终端的蓬勃发展，移动终端对上网的需求越来越高，若直接通过移动终端访问HTML页面时，由于移动终端设备本身的性能限制，会使每次访问HTML的连接时间较长，速度较慢，并且由于大量无用信息的存在会导致数据传输流量较大，使用户获取网页的时间和费用都会较高，因而如何把有用信息从HTML格式网页中准确快速地抽取出来对移动终端设备来说变得非常重要。

目前的文本信息抽取技术只能通过HTML标签信息对特定HTML标签内的内容进行获取，针对于目标处理网页需要事先考察网页HTML标签结构，事先定制抽取模板。而对于事先无法获知HTML结构的网页，文本信息抽取将无法进行。

发明内容

为了解决上述问题，本发明主要目的是提供一种有效网页内容的抓取方法及装置，使其能够简单、方便地实现对通用HTML结构的网页进行有效信息的抽取。

为了实现上述目的，本发明提供了一种有效网页内容的抓取方法，所述方法包括以下步骤：

步骤S1：导入超文本标示语言HTML网页；

步骤S2：将所述HTML网页转换成相应的文档树结构；

步骤S3：根据所述文档树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；

步骤S4：在所述文档树结构的<body>标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签，然后将所述正文文本标签的文本内容作为正文。

根据本发明的一个实施例，在所述步骤S2中，所述生成相应的文档树只包括与所述有效网页内容有关的标签，将其它无关的标签删除。

根据本发明的一个实施例，所述步骤S3可具体为：

在所述文档树结构中找出<title>标签；

在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容，若查找到，则将所述文本内容确定为标题，否则，在所述<title>标签中查找距离所述<body>标签最近的有效文本标签，将所述有效文本标签内的文本作为标题；

其中所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号，其中所述预定字体号优选为5号，并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值，其中所述另一预定值优选为5个字。

根据本发明的一个实施例，在步骤S3中找出<title>标签之后，还包括过滤处理步骤：对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理，将其中的广告词或者不是标题的其它信息过滤掉。

根据本发明的另一个实施例，所述步骤S4还包括过滤步骤S41：在查找文本标签过程中，将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉，然后再查找下个文本标签。其中所述与正文有关的特定字符优选包括<p>、<br>、<div>或<table>等，所述预定长度优选为50个字。

根据本发明的另一个实施例，所述步骤S4还包括步骤S42：在查找文本标签过程中，根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文，若所述占比大于0并小于1，则直接判断该文本标签内的文本内容为正文；否则判断所述文本标签内的文本内容不是正文。

根据本发明的另一个实施例，所述在步骤S3和S4之间还包括时间抽取步骤S31：首先定义时间信息的正则表达式：根据步骤S3中已经获得的标题标签，查找距离所述标题标签最近的符合所述时间信息正则表达式的标签，将查找到的所述标签中的内容作为时间。

根据本发明的再一个实施例，在步骤S4之后包括图片抽取步骤S5：将步骤S4中获得正文标签中的孩子标签进行排序，记录第一个孩子标签和最后一个孩子标签；在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签，将查找到的<img>标签中的内容作为有效内容的图片。

本发明还提供一种有效网页内容的抓取装置，所述装置包括：

导入模块，用于导入超文本链接标示语言HTML网页；

生成模块，用于将所述HTML网页生成相应的文档树结构；

标题抽取模块，用于根据所述文档树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；

文本抽取模块，用于在所述文档树结构的<body>标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签，然后将所述正文文本标签的文本内容作为正文。

进一步地，所述标题抽取模块包括：

Title标签查找单元：用于在所述文档树结构中找出<title>标签；

标题确定单元，用于在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容，若查找到，则将所述文本内容确定为标题，否则，在所述<title>标签中查找距离所述<body>标签最近的有效文本标签，将所述有效文本标签内的文本作为新闻标题。

其中在所述标题确定单元中的所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号，并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。

进一步地，在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块，用于对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理，将其中的广告词或者不是标题的其它信息过滤掉。

进一步地，所述文本抽取模块还包括过滤模块，用于在查找文本标签过程中，将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉，然后再查找下个文本标签。

进一步地，所述文本抽取模块还包括占比判断单元，用于在查找文本标签过程中，根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文，若所述占比大于0并小于1，则直接判断该文本标签内的文本内容为正文；否则判断所述文本标签内的文本内容不是正文。

进一步地，所述装置还包括时间抽取模块，用于先定义时间信息的正则表达式，再根据所述标题抽取模块中已经获得的标题标签，查找距离所述标题标签最近的符合所述时间信息正则表达式的标签，将查找到的所述标签中的内容作为时间。

进一步地，所述装置还包括图片抽取模块，用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序，并记录第一个孩子标签和最后一个孩子标签，在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签，将查找到的<img>标签中的内容作为有效内容的图片。

本发明通过上述步骤处理，能够自动的从HTML新闻网页中抽取出文章标题、文章时间、文章正文、文章图片链接等信息。能够避免目前抽取技术所需要的对于每种网页进行预先模板设置的步骤。提高了对HTML网页抽取的自动化程度。

附图说明

图1为本发明的一种有效网页内容的抓取方法流程示意图；

图2为本发明的一种HTML文档树的示意性组织结构图；

图3为本发明的一种HTML文档树中标签距离示意图；

图4为根据本发明的一种实施例的抓取新闻网页的示意性流程图；

图5为本发明的一种有效网页内容的抓取装置结构示意图。

具体实施方式

下面将详细描述本发明的具体实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。

本发明针对所要抽取的有效内容网页的整体结构入手考察各种文本实体在网页中的位置信息，特有结果信息以及标签信息，能够实现网页文本实体的自动提取功能。由于网页文件符合HTML DOM(Document ObjectModel)树状结构。对于一个具有有效内容的网页，比如说新闻网页，网页中有许多种类的标签，从逻辑意义上一般分为，页面功能标签，广告标签，新闻内容标签。网页信息抽取就是需要从网页中抽取出有效内容如新网内容标签。仅从HTML标签名称和标签属性上无法判断标签的功能，需要借助其他信息判断标签功能。因而本发明从标签中文本标签文本长度以及标签在整个HTML的文档DOM树(Document Object Model)的位置判断标签的逻辑功能，从而实现通用的网页有效内容文本的抽取功能。本发明适用于新闻网页以及blog网页等具有有效内容网页的抽取，并可过滤掉广告或者其他无用的文本内容。

如图1所示，本发明采用如下步骤进行有效内容网页抽取：

步骤S1：导入HTML网页；

步骤S2：将所述导入的HTML网页生成相应的HTML DOM树结构；

步骤S3：根据所述HTML DOM树结构找出有效内容的标题标签，将找出的标题标签内的文本内容作为标题；

下面结合附图将详细描述上述各个步骤。

在步骤S1中，首先要导入HTML网页，由于本发明是帮助移动设备处理互联网上的HTML网页信息，以使提高诸如手机之类的移动终端上网速度和快捷获取所需要信息的能力，因此，本发明需要对输入到移动终端之前的网页做一次筛选处理，过滤掉广告等无用信息，获取所需要的有效内容，比如说新闻网页。

在步骤S2中，将所述导入的HTML网页生成相应的HTML DOM树结构。由于HTML是一种格式化的语言，其中文本信息需要被放在HTML标签中，由标签提供对信息位置、显示方式等修饰。HTML格式文件中，标签由顶向下组成树状DOM结构。根据W3C DOM规范对HTML标签和文本内容有如下的规定：

●整个文档是一个文档节点

●每个HTML标签是一个元素节点

●包含在HTML元素中的文本是文本节点

●每一个HTML属性是一个属性节点

如图2所示，HTML的DOM结构是由文本节点和标签节点组成一个树状组织结构，在根标签下还具有<head>、<body>以及<table>等标签。其中在一对<head>标签中一般存放关于网页标题、关键字的内容，比如在如下所示的html样例图中，一对<head>标签中还具有一对<title>标签，在<title>标签中存放的内容就是有效内容的标题，如新闻网页的标题。其中在一对<body>标签下存放的是有效内容的正文或图片等。

以下是一个HTML标签样例图：

<html>

<head>

<title>

标题文本

</title>

</head>

<body>

超链接文本

</a>

<h1>

正文文本

</h1>

</body>

</html>

在生成HTML DOM树结构时，可以针对性的构建DOM树，如，如果只是新闻网页范围内内容的抽取，只需考虑和新闻内容有关的标签，而其他跟新闻内容无关的标签都可直接舍弃掉。

在生成HTML DOM树之后，进行步骤S3来抽取有效内容的标题，也即在上述HTML DOM树结构找出<title>标签，将找出的标题标签内的文本内容作为标题。

具体地，在找出<title>标签之后，可以对<title>标签内的文本标签(h1或h2)进行过滤处理，因为正规的新闻网页会在<title>标签会存在新闻标题字符串，有些网站会用中用h1或h2子标签对新闻标题字符串进行修饰，可以对<title>标签中的文字进行处理以获得新闻标题。比如说进行连字符拆分和/或停用词处理将其中的广告词或者不是标题的其它信息过滤掉。例如网页http://news.xinhuanet.com/world/2010-04/26/c_1255760.html中，<title>标签中的字符串为“世博服务能经受住7000万人次考验吗？_国际频道_新华网”。其中“世博服务能经受住7000万人次考验吗？”为所要新闻；连字符为“_”下划线；停用词为“国际频道”和“新华网”。然后在<title>标签内寻找与<body>文本标签中相同或者编辑距离相近的文本内容，将其确定为标题。这里需要解释说明的是，所谓的编辑距离是两个字符串之间相似度的度量。是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。两个字符串的编辑距离越小，两个字符串越相似。

如果上述在<title>标签内寻找匹配失败，则还可以另一种方法来获取标题，该方法为寻找距离<body>标签具有最近标签距离的有效文本标签，该有效文本标签内的文本作为新闻标题。

由于在HTML网页中文本标签是文字信息最主要的载体，在网页的展示意义上看来，文本信息的最主要的表现形式包括不间断的文本段的长度和文字展示的字体大小，因此这里所述有效文本标签需要满足下述任一条件：1)在非<a>超链接标签中的文本内容中，其不间断文本超过一预定值，如25个字(汉字或者外文单词)；2)标签为<h1>、<h2>或者其标签内的文本内容字体大于5号，并且这些标签内嵌套的孩子文本标签中不间断文本超过另一预定值，比如5个字(汉字或者外文单词)。

在计算有效文本标签与其它标签的标签距离时，要基于它们在DOM树结构中的展示位置关系来进行，而两个标签之间的位置关系可分为下述三种情况，如图3和表1所示：

情况1：其中一个标签为孩子节点标签，另一个标签为父节点标签，孩子节点标签与其父节点标签之间的标签距离为0，如标签A和B之间的距离为0；

情况2：同层的两标签，其具有相同的父节点，它们的标签距离等于其在相同的父节点的孩子节点列表中顺序的差值，如标签C和D，其标签距离为-1；

情况3：拥有不同父节点的两标签，其之间的标签距离等于其在相同层次祖先的标签距离。比如说A和D的标签距离等于其父字节B和E之间的标签距离，而B和E之间的标签距离等于-1，因此A和D的标签距离也为-1。

表1

开始标签	结束标签	标签距离	应用规则
				标签A	标签B	0	情况1
标签B	标签A	0	情况1
				标签A	标签A	0	情况2
标签C	标签D	-1	情况2
				标签D	标签C	1	情况2
标签A	标签E	-1	情况3
				标签E	标签A	1	情况3
标签A	标签D	-1	情况3
				标签D	标签A	1	情况3

在上述寻找距离<body>标签具有最近标签距离的有效文本标签时，就采用上述三种情况计算出的标签距离进行比较，判断出哪个有效文本标签距离<body>标签最短，那么这个有效文本标签内的文本就作为标题内容。

接下来，在步骤S4中，进行有效内容的正文文本的抽取，在所述HTMLDOM树结构的<body>标签中，按照与所述标题标签由小到大的标签距离依次查找文本标签，将包含有特定字符和其标签内具有大于一定长度(比如为50字)的文本长度的文本标签作为正文文本标签，然后将该正文文本标签内的文本内容作为正文。

其中在步骤S4中，所述特定字符可为<p>、<br>、<div>或<table>等，这些特定字符内的内容都与正文文本有关。而在步骤S4中还可包括有关广告信息的过滤步骤S41，在步骤S41中，如果在寻找到的有效文本标签中具有另一些特定字符而不包括上述特定字符，那么可以直接判断该有效文本标签内的内容为广告信息，然后将其删除掉，进行下个有效标签内容的判定。比如，在某个有效文本标签中包含有<a>，同时又不包含<br>，该有效文本标签中的内容可以直接判断为广告信息，因而将其删除掉。由于在这个过程中删除掉了涉及到广告信息的标签，从而在接下来的寻找判断正文过程中避免了对该广告信息的再次判断，加快了正文抽取的过程。

在步骤S4中还采用了另一种判断方法用于正文文本判断。该判断方法为通过链接文本长度和非链接文本长度的占比来判断该有效文本标签内的文本内容是否为正文，若该占比很小(大于0并小于1)，表明文本中的非链接文本远多于链接文本，则可以直接判断该有效文本标签内的文本内容为正文，若该占比很大(大于1)，表明文本中的非链接文本远少于链接文本，则直接判断该有效文本标签内的文本内容不是正文。

在本发明中，除了可以进行有效内容的标题和正文的抽取之外，还可进行有效内容时间的抽取和图片的抽取。

如，在步骤S3和S4之间还包括时间抽取步骤S31，在该时间抽取步骤S31中，首先定义时间信息的正则表达式，根据步骤S3中已经获得的标题标签，查找距离所述标题标签最近的符合所述时间信息正则表达式的标签，将寻找到的该标签中的内容作为时间。若如果没有确定的标题标签，查找距离<body>标签最近的符合时间信息正则表达式定义的文本标签为新闻时间标签，然后将该标签中的内容作为时间。

还可在步骤S4之后包括图片抽取步骤S5，在步骤S5中，将步骤S4中获得有效正文标签中的孩子标签进行排序，记录第一个孩子标签和最后一个孩子标签，在该第一孩子标签和该最后一个孩子标签中寻找<img>标签，将查找到的<img>标签中的内容作为有效内容的图片。

下面以抓取新闻内容为例来更清楚地说明本发明所述的方法，如图4所示，首先导入门户网站HTML网页，然后将所述HTML网页转换成相应的DOM树结构，然后再进行新闻标题和新闻正文的抽取，由于对于新闻来说，时效性是非常重要的，因而，在抽取过程中还需包括新闻时间的抽取，并且在新闻中一般都是图文并茂的形式来说明时事，因而还包括对新闻图片的抽取，下面将具体描述对新闻内容各部分抽取的具体方法。

1、新闻标题抽取方法

1)判断网页<title>标签。如果<title>标签内的文本标签经过连字符拆分处理，并且经过停用词处理后能够在<body>正文标签中找到相同或者编辑距离相近的文本标签则确定为新闻标题。

2)如果规则1)匹配失败，寻找距离<body>标签具有最近标签距离的有效文本标签。有效文本标签内的文本作为新闻标题

2、新闻时间抽取方法

1)定义时间信息的正则表达式表示。

2)如果已经得到新闻标题标签，查找距离新闻标题标签距离最近的符合时间信息正则表达式定义的文本标签为新闻时间标签。

3)如果没有确定的新闻标题标签，查找距离<body>标签最近的符合时间信息正则表达式定义的文本标签为新闻时间标签。

3、新闻正文抽取方法

1)在<body>标签中找到层次深度距离有效文本标签最近并且标签有效文本估计值大于50的标签作为新闻正文根标签。

2)抽取新闻正文根标签中的所有的文本标签中的文本内容，为新闻正文。

4、新闻图片抽取方法

1)对新闻正文根标签的孩子有效文本标签进行排序，记录开始有效文本标签和结束有效文本标签。

2)寻找开始有效文本标签和结束有效文本标签之间的<img>标签，即为有效的新闻图片。

经过上述步骤，可以对所有的新闻网页进行信息抽取，不需要提前针对每一种网页结构设置信息抓取模板设计，提高了网页信息抓取的自动化程度，减少了网页信息抓取工程的开发工作量。

导入模块，用于导入超文本链接标示语言HTML网页；

生成模块，用于将所述HTML网页生成相应的文档树结构；

进一步地，所述标题抽取模块包括：

进一步地，所述文本抽取模块还包括占比判断模块，用于在查找文本标签过程中，根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文，若所述占比大于0并小于1，则直接判断该文本标签内的文本内容为正文；否则判断所述文本标签内的文本内容不是正文。

虽然已参照几个典型实施例描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种有效网页内容的抓取方法，其特征在于，所述方法包括以下步骤：

步骤S1：导入超文本链接标示语言HTML网页；

步骤S2：将所述HTML网页转换成相应的文档树结构；

2.根据权利要求1所述的抓取方法，其特征在于，所述步骤S2中，所述生成相应的文档树包括与所述有效网页内容有关的标签，将其它无关的标签删除。

3.根据权利要求1所述的抓取方法，其特征在于，所述步骤S3具体为：

在所述文档树结构中找出<title>标签；

在所述<title>标签中查找与所述文档树中<body>标签中文本相同或者编辑距离相近的文本内容，若查找到，则将所述文本内容确定为标题，否则，在所述<title>标签中查找距离所述<body>标签最近的有效文本标签，将所述有效文本标签内的文本作为标题；

其中所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号，并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。

4.根据权利要求3所述的抓取方法，其特征在于，所述预定字体号为5号，所述另一预定值为5个字。

5.根据权利要求3所述的抓取方法，其特征在于，在找出<title>标签之后，还包括过滤处理步骤：

对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理，将其中的广告词或者不是标题的其它信息过滤掉。

6.根据权利要求1所述的抓取方法，其特征在于，所述步骤S4还包括过滤步骤S41：在查找文本标签过程中，将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉，然后再查找下个文本标签。

7.根据权利要求1所述的抓取方法，其特征在于，步骤S4中，所述与正文有关的特定字符包括<p>、<br>、<div>或<table>，所述预定长度为50个字。

8.根据权利要求1所述的抓取方法，其特征在于，所述步骤S4还包括步骤S42：在查找文本标签过程中，根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文，若所述占比大于0并小于1，则直接判断该文本标签内的文本内容为正文；否则判断所述文本标签内的文本内容不是正文。

9.根据权利要求1所述的抓取方法，其特征在于，在所述步骤S3和S4之间还包括时间抽取步骤S31：首先定义时间信息的正则表达式：根据步骤S3中已经获得的标题标签，查找距离所述标题标签最近的符合所述时间信息的正则表达式的标签，将查找到的所述标签中的内容作为时间。

10.根据权利要求1所述的抓取方法，其特征在于，在步骤S4之后包括图片抽取步骤S5：将步骤S4中获得正文标签中的孩子标签进行排序，记录第一个孩子标签和最后一个孩子标签；在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签，将查找到的<img>标签中的内容作为有效内容的图片。

11.一种有效网页内容的抓取装置，其特征在于，所述装置包括：

导入模块，用于导入超文本链接标示语言HTML网页；

生成模块，用于将所述HTML网页生成相应的文档树结构；

12.根据权利要求11所述的抓取装置，其特征在于，所述标题抽取模块包括：

13.根据权利要求12所述的抓取装置，其特征在于，在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块，用于对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理，将其中的广告词或者不是标题的其它信息过滤掉。

14.根据权利要求11所述的抓取装置，其特征在于，所述文本抽取模块还包括过滤模块，用于在查找文本标签过程中，将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉，然后再查找下个文本标签。

15.根据权利要求11所述的抓取装置，其特征在于，所述文本抽取模块还包括占比判断单元，用于在查找文本标签过程中，根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文，若所述占比大于0并小于1，则直接判断该文本标签内的文本内容为正文；否则判断所述文本标签内的文本内容不是正文。

16.根据权利要求11所述的抓取装置，其特征在于，所述装置还包括时间抽取模块，用于先定义时间信息的正则表达式，再根据所述标题抽取模块中已经获得的标题标签，查找距离所述标题标签最近的符合所述时间信息正则表达式的标签，将查找到的所述标签中的内容作为时间。

17.根据权利要求11所述的抓取方法，其特征在于，所述装置还包括图片抽取模块，用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序，并记录第一个孩子标签和最后一个孩子标签，在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签，将查找到的<img>标签中的内容作为有效内容的图片。