CN103186532B

CN103186532B - 网页中关键图片的抓取方法和装置

Info

Publication number: CN103186532B
Application number: CN201110443869.XA
Authority: CN
Inventors: 李晓明; 刘臻; 蒋有星
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2019-05-10
Anticipated expiration: 2031-12-27
Also published as: CN103186532A

Abstract

本发明公开了一种网页中关键图片的抓取方法和装置，方法包括：A、根据网页地址获取网页的DOM结构；B、根据网页的DOM结构定位网页的中心节点；C、正则匹配所述中心节点及其兄弟节点处的图片，按照预设的过滤条件对正则匹配出的图片进行过滤，输出符合过滤条件的图片；D、将步骤C输出的图片作为抓取到的所述网页的关键图片。所述装置包括对应的DOM结构获取模块、节点确定模块、正则匹配模块、过滤器、以及关键图片确定模块。利用本发明，可以提高所抓取网页的关键图片与网页主题内容的符合程度，降低人机交互次数，简化操作。

Description

网页中关键图片的抓取方法和装置

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种网络页面(简称网页)中关键图片的抓取方法和装置。

背景技术

目前出现了互联网内容的分享功能，例如某些微博平台可以提供分享接口，第三方网站可以接入该分享接口来将本网站的网页内容分享到微博***中，从而提升了用户体验。目前的分享接口所分享的网页内容主要包括：网页的链接、简要内容文字介绍、以及网页中的图片。具体过程是：用户点击分享按钮后，分享接口会抓取该网页的链接地址、主题内容、以及图片等信息，将该这些信息分享到目标***中，例如分享到微博中。利用分享接口，用户可以将喜欢的或有价值的网页分享给他在微博***中的粉丝、听众或好友，从而增加了对该网页的访问流量。目前这种分享接口已经被广泛地利用在了第三方网站上。

现有的这种分享接口技术在分享网页中的图片时，需要进行多步操作：首先，将网页中的所有图片提取出来显示给用户，由用户人工点击选择出其中的关键图片；其次，当收到用户的选择指令后再确认最终所分享的图片；最后直到用户点击确定分享后才将图片分享到目标***(如微博平台)中。

一个网站页面可能要表述一个或者一个以上个主题内容，而形象描述(或补充)这些主题内容的图片就是关键图片，例如：新闻页面的新闻附属图片。

但是现有技术在分享网页中的图片时，存在如下缺点：

无法做到智能化抓取网页中的关键图片，用户和互联网机器侧的人机交互次数过多，操作复杂；并且其选择出的图片往往与网页的主题内容的符合程度低，不是关键图片，尤其是在网页中存在大量图片和图标时，更是无法快速智能地找到其中的关键图片，往往选出的是无关的图片，用户在分享图片时操作更为复杂，选择等待的时间更长。

发明内容

有鉴于此，本发明的主要目的在于提供一种网络页面中关键图片的抓取方法和装置，以提高所抓取网页的关键图片与网页主题内容的符合程度，降低人机交互次数，简化操作。

本发明的技术方案是这样实现的：

一种网页中关键图片的抓取方法，包括：

A、根据网页地址获取网页的文档对象模型(DOM，Document Object Model)结构；

B、根据网页的DOM结构定位网页的中心节点；

C、正则匹配所述中心节点及其兄弟节点处的图片，按照预设的过滤条件对正则匹配出的图片进行过滤，输出符合过滤条件的图片；

D、将步骤C输出的图片作为抓取到的所述网页的关键图片。

一种网页中关键图片的抓取装置，其特征在于，该装置包括：

DOM结构获取模块，用于根据网页地址获取网页的DOM结构；

节点确定模块，用于根据所述网页的DOM结构定位网页的中心节点，将中心节点输入到正则匹配模块；

正则匹配模块，用于正则匹配所输入的节点及其兄弟节点处的图片，输出匹配出的图片到过滤器；

过滤器，用于按照预设的过滤条件对输入的图片进行过滤，输出符合过滤条件的图片；

关键图片确定模块，用于将所述过滤器输出的图片作为抓取到的所述网页的关键图片。

与现有技术相比，本发明利用网页的DOM结构定位网页的中心节点，然后正则匹配所述中心节点及其兄弟节点处的图片，并按照预设的过滤条件进行过滤，将过滤后的图片作为网页的关键图片。所述中心节点及其兄弟节点与网页主题内容符合程度较高，且图片经过过滤条件的过滤，最终可以提高所抓取的关键图片与网页主题内容的符合程度，同时本发明的关键图片的抓取步骤完全可以由计算机执行，用户只需人工触发一下流程即可，减少了人机交互次数，简化了操作，节约了相应的计算资源和带宽资源。

附图说明

图1为本发明所述网页中关键图片抓取方法的一种流程图；

图2为一种网页DOM结构(也称为DOM树)节点的权重示意图；

图3为本发明所述方法的一种具体实施例的流程图；

图4为本发明所述网页中关键图片抓取装置的一种组成示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。DOM是表示和处理一个超文本标记语言(HTML)或可扩展标记语言(XML)文档的常用方法。而目前的网页都是基于HTML或XML文档，因此本发明基于网页的DOM结构分析与主题内容符合程度最高的中心节点。

图1为本发明所述网页中关键图片抓取方法的一种流程图；参见图1，本发明的方法包括：

步骤101、根据网页地址获取网页的DOM结构。

所述的网页地址一般是统一资源***(URL，Universal Resource Locator)地址，URL地址是用于完整地描述因特网(Internet)上网页和其他资源的地址的一种标识方法。本发明在实际应用中往往和网页分享技术同时使用，用户分享网页时分享接口会获取到该网页的URL地址，本步骤101可以利用分享接口获取到的URL地址。获取DOM结构的具体方法可以采用现有公知技术，此处不再赘述。

步骤102、根据网页的DOM结构定位网页的中心节点。

此处具体的定位方法可以根据DOM结构中的H标签确定，所述H标签标识了网页节点的权重，其中H1标签节点权重最高，H2标签节点权重次之，H3标签节点权重又次之，以此类推。本步骤中，可以根据所述H标签依照权重由高到低的顺序定位一个或一个以上的中心节点；对于同一权重等级的H标签的多个节点，可以依据网页结构顺序对这些节点进行排序。

步骤103、正则匹配所述中心节点及其兄弟节点处的图片，按照预设的过滤条件对正则匹配出的图片进行过滤，输出符合过滤条件的图片。

本步骤103还可以有多种实施方式，在下述实施例中具体介绍。

步骤104、将步骤103输出的图片作为抓取到的所述网页的关键图片。

图2为一种网页DOM结构(也称为DOM树)节点的权重示意图。参见图2，H1标签节点和H2标签节点(由于篇幅有限，图2中仅仅标出了H1标签节点)的节点内容一般是网页的主题信息(符合w3c规范和SEO优化标准)，而关键图片往往是在H1标签节点或者H2标签节点附近，即距离H1标签节点，H2标签节点越近的节点图片权重越高，所述距离可以根据DOM结构中的路径长度(path length)确定。

图3为本发明所述方法的一种具体实施例的流程图。该实施例以图2所示的DOM结构网页为例进行说明。参见图2和图3，该流程包括：

步骤301、分享接口监测到用户点击了一键分享按键，传入所分享网页的URL地址，根据该URL地址获取页面DOM，建立DOM树，即得到了网页的DOM结构。

步骤302、根据所述网页的DOM结构定位网页的中心节点，假设此实施例中定位了两个中心节点(H1节点，H2节点)，H1节点的权重最高。并且定义全局数组find_imgarr存储抓取出的关键图片。

步骤303、正则匹配所述中心节点即H1节点及其兄弟节点处的图片。具体的方式为：查找中心节点即H1节点的父节点(H1-＞parent)，遍历H1-＞parent节点的子节点(即H1节点的兄弟节点)，正则匹配H1节点及其兄弟节点处的图片，将匹配出的图片返回到一图片数组all_imgarr。

步骤304～步骤307、判断all_imgarr数组是否为空，即上一步骤是否正则匹配出了H1节点及其兄弟节点处的图片，如果不为空，则将all_imgarr数组中的图片输入过滤器进行过滤，返回符合过滤条件的图片(即通过过滤器的图片)到find_imgarr数组；并判断find_imgarr数组是否为空，如果不为空，则判定找到了关键图片，输出findi数组作为所述分享网页的关键图片，结束本流程。

如果所述alli数组为空(即没有正则匹配出H1节点及其兄弟节点处的图片)，或者所述findi数组为空(即经过所述过滤处理后过滤掉了所有图片)，则执行步骤308。

步骤308、根据所述网页的DOM结构确定所述中心节点H1节点的父节点，正则匹配该父节点及其兄弟节点处的图片。具体是根据所述网页的DOM结构查找中心节点H1的父节点的父节点(H1-＞parent-＞parent)，遍历H1-＞parent-＞parent的子节点(H1父节点的兄弟节点)，正则匹配H1节点及其兄弟节点处的图片，将匹配出的图片返回到数组all_imgarr。

步骤309～步骤312、判断all_imgarr数组是否为空，即上一步骤是否正则匹配出了H1节点父节点及其兄弟节点处的图片，如果不为空，则将all_imgarr数组中的图片输入过滤器进行过滤，返回符合过滤条件的图片(即通过过滤器的图片)到find_imgarr数组；并判断find_imgarr数组是否为空，如果不为空，则判定找到了关键图片，输出findi数组作为所述分享网页的关键图片，结束本流程。

如果所述alli数组为空(即没有正则匹配出H1节点父节点及其兄弟节点处的图片)，或者所述findi数组为空(即经过所述过滤处理后过滤掉了所有图片)，则执行步骤313。

本实施例中，如果找不到关键图片，仅对所述中心节点和其父节点两层结构做了所述正则匹配和过滤处理。在另外的实施例中，如果该父节点及其兄弟节点匹配不出图片或匹配出的图片被全部过滤掉，还可以进一步确定该父节点的上一层父节点，并重复执行上述的正则匹配和过滤过程。以此类推，还可以再进一步确定上一层的父节点，具体的层次数量可以根据需要进行预先设定。

步骤313、判断是否正则匹配过所有的中心节点(本实施例中定位了两个中心节点H1和H2，也可能定位了两个以上节点)、或者正则匹配过的中心节点数是否达到预设的阈值(如果定位的中心节点数过多，则会设置阈值，超过阈值则不再进行上述步骤的操作)，如果是则执行步骤315，否则执行步骤314。

步骤314、根据所述网页的DOM结构确定下一中心节点即H2节点，针对该H2节点，重新返回步骤303执行所述步骤303至步骤313。

在上述步骤中，一旦找到了网页的关键图片，则向分享接口返回关键图片进行后续的分享操作，并结束本流程。

但是，在正则匹配过所有的中心节点后、或者正则匹配过的中心节点数达到预设的阈值后，如果没有匹配出图片、或者经过所述过滤处理后过滤掉了所有的图片，则进一步执行下述步骤：

步骤315、正则匹配所述网页的全局DOM结构的图片，将匹配出的图片返回到数组all_imgarr。

步骤316～步骤319、判断all_imgarr数组是否为空，即上一步骤是否正则匹配出了图片，如果不为空，则将all_imgarr数组中的图片输入过滤器进行过滤，返回符合过滤条件的图片(即通过过滤器的图片)到find_imgarr数组；并判断find_imgarr数组是否为空，如果不为空，则判定找到了关键图片，输出findi数组作为所述分享网页的关键图片，结束本流程。

如果所述alli数组为空(即没有正则匹配出H1节点父节点及其兄弟节点处的图片)，或者所述findi数组为空(即经过所述过滤处理后过滤掉了所有图片)，则执行步骤320。

步骤320、返回空值，即判定没有抓取到所述网页的关键图片。

上述过程中，所述过滤器对输入的图片进行过滤的方法具体为：

首先进行格式过滤，选出符合指定格式，本实施例中主要是PNG和JPG格式的图片；

其次进行属性过滤，选出符合指定高度和宽度的图片。所述指定高度和宽度的条件例如可以是：图片的高大于139px且高宽同时大于99px，或者图片的宽大于139px且高宽同时大于99px。

在进一步的实施例中，所述对图片进行过滤的方法中进一步包括：

根据alt属性和title属性对所述经过格式过滤和属性过滤选出的图片进行加权，选出权重最高的图片；根据所述网页的DOM结构，确定与所述权重最高的图片连续的若干图片(由于正文附图即关键图片一般是连续的)，对所述若干图片重新进行所述格式过滤和属性过滤，输出通过过滤的图片和所述权重最高的图片作为过滤器的输出返回到findi数组中。

或者，所述对图片进行过滤的方法中还可以进一步包括：

从所述经过格式过滤和属性过滤选出的图片中选择面积最大的图片；根据所述网页的DOM结构，确定与所述面积最大的图片连续的若干图片，对所述若干图片重新进行所述格式过滤和属性过滤，输出通过过滤的图片和所述面积最大的图片作为过滤器的输出返回到findi数组中。

基于上述方法，本发明还公开了一种网页中关键图片的抓取装置，该抓取装置可以执行上述的网页中关键图片的抓取方法。图4为本发明所述网页中关键图片抓取装置的一种组成示意图。参见图4，该抓取装置400包括：

DOM结构获取模块401，用于根据网页地址获取网页的DOM结构。

节点确定模块402，用于根据所述网页的DOM结构定位网页的中心节点，将中心节点输入到正则匹配模块。在进一步的实施例中该节点确定模块402还可以根据正则匹配模块403和过滤器的反馈结果确定中心节点的各级父节点输入到所述正则匹配模块403，或者确定下一个中心节点输入到所述正则匹配模块403，具体过程如上述方法所述。

正则匹配模块403，用于正则匹配所输入的节点及其兄弟节点处的图片，输出匹配出的图片到过滤器；所输入的节点包括中心节点和其各级父节点。

过滤器404，用于按照预设的过滤条件对输入的图片进行过滤，输出符合过滤条件的图片。

关键图片确定模块405，用于将所述过滤器输出的图片作为抓取到的所述网页的关键图片。

其中，所述过滤器具体包括：

格式过滤模块，用于选出符合指定格式(本实施例中主要是PNG和JPG格式的图片)的图片；

属性过滤模块，用于选出符合指定高度和宽度的图片。

在一种具体实施例中，所述过滤器进一步包括：

加权选择模块，用于根据alt属性和title属性对所述经过格式过滤和属性过滤选出的图片进行加权，选出权重最高的图片，输入第一重选模块；

第一重选模块，用于根据所述网页的DOM结构，确定与所述权重最高的图片连续的若干图片，将所述若干图片输入到格式过滤模块和属性过滤模块重新进行格式过滤和属性过滤，输出通过过滤的图片和所述权重最高的图片。

在另一种具体实施例中，所述过滤器进一步包括：

面积选择模块，用于从所述经过格式过滤和属性过滤选出的图片中选择面积最大的图片，输入第二重选模块；

第二重选模块，用于根据所述网页的DOM结构，确定与所述面积最大的图片连续的若干图片，将所述若干图片输入到格式过滤模块和属性过滤模块重新进行格式过滤和属性过滤，输出通过过滤的图片和所述面积最大的图片。

利用本发明，可以实现智能抓取匹配主题内容的关键图片，全程一键式操作，不但以提高所抓取网页的关键图片与网页主题内容的符合程度，还可以减少用户分享图片时的人机操作次数，提高了用户体验，节约了过多人机操作造成的计算资源和带宽资源的浪费。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种网页中关键图片的抓取方法，其特征在于，包括：

A、分享网页时，分享接口获取该网页的网页地址，根据网页地址获取网页的文档对象模型DOM结构；

B、根据网页的DOM结构定位网页的中心节点，其中包括：根据H标签依照权重由高到低的顺序定位一个以上的中心节点，对于同一权重等级的H标签的多个节点，依据网页结构顺序对所述多个节点进行排序以定位所述中心节点；先针对权重最高的中心节点执行步骤C和D；

C、正则匹配所述中心节点及其兄弟节点处的图片，按照预设的过滤条件对正则匹配出的图片进行过滤，输出符合过滤条件的图片；所述中心节点的兄弟节点为：该中心节点的父节点的遍历子节点；

D、将步骤C输出的图片作为抓取到的所述网页的关键图片，向所述分享接口返回所述关键图片，其中，所述关键图片指描述或补充所述网页的主题内容的图片；

如果所述权重最高的中心节点进行步骤C和D没有抓取到所述网页的关键图片，则根据权重顺序选择下一个中心节点，针对该中心节点执行所述步骤C和D。

2.根据权利要求1所述的方法，其特征在于，所述步骤C中，如果没有正则匹配出所述中心节点及其兄弟节点处的图片、或者如果经过所述过滤处理后过滤掉了所有图片，则进一步包括：根据所述网页的DOM结构确定所述中心节点的父节点，正则匹配该父节点及其兄弟节点处的图片，按照预设的过滤条件对正则匹配出的所述父节点及其兄弟节点处的图片进行过滤，输出符合过滤条件的图片。

3.根据权利要求2所述的方法，其特征在于，所述步骤C中，如果没有正则匹配出所述父节点及其兄弟节点处的图片、或者如果对正则匹配出的所述父节点及其兄弟节点的图片进行过滤处理后过滤掉了所有的图片，则进一步包括：根据所述网页的DOM结构确定下一中心节点，重新执行本步骤C。

4.根据权利要求3所述的方法，其特征在于，步骤C中，在正则匹配过所有的中心节点后、或者正则匹配过的中心节点数达到预设的阈值后，如果没有匹配出图片、或者经过所述过滤处理后过滤掉了所有的图片，则进一步包括：

正则匹配所述网页的全局DOM结构的图片，根据预设的过滤条件对所述正则匹配出的图片进行过滤，输出符合过滤条件的图片。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述对图片进行过滤的方法具体为：

进行格式过滤，选出符合指定格式的图片；

进行属性过滤，选出符合指定高度和宽度的图片。

6.根据权利要求5所述的方法，其特征在于，所述对图片进行过滤的方法中进一步包括：

根据alt属性和title属性对所述经过格式过滤和属性过滤选出的图片进行加权，选出权重最高的图片；

根据所述网页的DOM结构，确定与所述权重最高的图片连续的若干图片，对所述若干图片重新进行所述格式过滤和属性过滤，输出通过过滤的图片和所述权重最高的图片。

7.根据权利要求5所述的方法，其特征在于，所述对图片进行过滤的方法中进一步包括：

从所述经过格式过滤和属性过滤选出的图片中选择面积最大的图片；

根据所述网页的DOM结构，确定与所述面积最大的图片连续的若干图片，对所述若干图片重新进行所述格式过滤和属性过滤，输出通过过滤的图片和所述面积最大的图片。

8.根据权利要求5所述的方法，其特征在于，所述格式过滤中所述的指定格式的图片为JPG图片和PNG图片。

9.一种网页中关键图片的抓取装置，其特征在于，该装置包括：

DOM结构获取模块，用于根据网页地址获取网页的DOM结构；其中，分享网页时，分享接口获取该网页的网页地址；

节点确定模块，用于根据所述网页的DOM结构定位网页的中心节点，其中包括：根据H标签依照权重由高到低的顺序定位一个以上的中心节点，对于同一权重等级的H标签的多个节点，依据网页结构顺序对所述多个节点进行排序以定位所述中心节点；先将权重最高的中心节点输入到正则匹配模块，如果针对所述权重最高的中心节点没有抓取到所述网页的关键图片，则根据权重顺序选择下一个中心节点，将该中心节点输入到正则匹配模块，其中，所述关键图片指描述或补充所述网页的主题内容的图片；

正则匹配模块，用于正则匹配所输入的节点及其兄弟节点处的图片，输出匹配出的图片到过滤器；所述所输入节点的兄弟节点为：该所输入节点的父节点的遍历子节点；

关键图片确定模块，用于将所述过滤器输出的图片作为抓取到的所述网页的关键图片，向所述分享接口返回所述关键图片。

10.根据权利要求9所述的抓取装置，其特征在于，所述过滤器具体包括：

格式过滤模块，用于选出符合指定格式的图片；

属性过滤模块，用于选出符合指定高度和宽度的图片。

11.根据权利要求10所述的抓取装置，其特征在于，所述过滤器进一步包括：

12.根据权利要求10所述的抓取装置，其特征在于，所述过滤器进一步包括：