CN105279272A

CN105279272A - 一种基于分布式网络爬虫的内容聚合方法

Info

Publication number: CN105279272A
Application number: CN201510724024.6A
Authority: CN
Inventors: 黄韬; 魏亮; 魏静波; 邓晓涛; 周洪利
Original assignee: NANJING FUTURE NETWORKS INDUSTRY INNOVATION Co Ltd
Current assignee: NANJING FUTURE NETWORKS INDUSTRY INNOVATION Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-01-27

Abstract

本发明提供一种基于分布式网络爬虫的内容聚合方法，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；将所述爬取得到的网络信息进行处理，基于实时数据库中的数据传递及转换方法结合局部敏感哈希（LSH）方法，结合局部敏感哈希（LSH）方法，进行相似度检测从而降低信息的冗余度；***对筛选过的信息按类别、热度、关键字进行分类排序，并展示在用户设备上。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果，与现有技术中采用传统的整条数据查重方式得到的对比结果，其计算速度更快、相似度对比更精确。

Description

一种基于分布式网络爬虫的内容聚合方法

技术领域

本发明涉及网页爬虫相关技术领域，特别涉及一种基于分布式网络爬虫的内容聚合方法。

背景技术

随着互联网的不断发展，大数据时代迎面而来，海量数据的价值也将得到更多体现。由于海量流媒体视频资源及丰富的网页内容等互联网信息的日益递增，让特定用户在有限的碎片时间段通过手持设备很难准确有效获取自身所需的网络数据。而现有的内容聚合技术大多以基于上层架构的方式进行仿真模拟证明其内容聚合***的优越性，缺少对真实网络环境及目标用户群对应的特定信息进行实现应用。

传统的内容聚合方法所选择的过滤条件过于广泛，并且无法进行大批量定制化获取信息，难以保证信息的及时性与主题的相关性。对获取信息端规则的快速无规律变化无法适应，造成信息来源渠道的短暂性，无法长时间进行信息获取。对互联网上多个来源不同的相同信息无法区分，造成信息的重复性及冗余性，降低了目标用户获取信息的高效性。因此对于如何提高内容聚合平台的信息获取持久化、信息的去冗余度、信息的聚合分类等值得研究。

发明内容

本发明实现了一种基于分布式网络爬虫的内容聚合方法，目的在于解决现有技术中网络爬虫技术不能有效对定制化大批量的网络信息进行聚合分类的问题。

本发明提供的一种基于分布式网络爬虫的内容聚合方法，该方法包括以下过程：

步骤一，抓取目标信息，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；

步骤二，爬取内容信息相似度检测，将所述爬取得到的网络信息进行处理，基于实时数据库中的数据传递及其转换方法结合局部敏感哈希（LSH）方法，进行相似度检测从而降低信息的冗余度；

步骤三，爬取信息聚合分类，在步骤二的基础上，***对筛选过的信息按类别、热度、关键字进行分类排序，并展示在用户设备上。

在所述步骤一中，对于爬取平台的设置还包括以下步骤：

在任务开始前对爬虫平台进行部署，并配置爬虫属性，通过网页分析算法过滤与用户检索无关的链接，保留有用的链接放到待抓取的队列中，在过滤过程中，后台服务器首先将网页内容转化成文本形式并通过基于文本的网页分析算法从队列中选择下一步要抓取的url，，重复以上步骤，遍历整个页面，直到满足程序的停止条件。

所述对爬虫进行部署包括对爬虫的服务配置和任务配置。

所述步骤一具体包括：

步骤1.1，将根地址url按照其业务类别分为若干大类，选择与目标信息所对应的某一大类进行信息爬取；

步骤1.2，根据所述目标信息对应的大类url配置爬取目标地址，进入各个页面获取详细标签，爬取具体内容。

所述步骤一还包括步骤1.3，进行到所述步骤1.2时，如果所述目标地址页面内对信息设置有更详细的分类，进入各小类页面获取详细标签，爬取具体内容，且重复步骤1.3，直到爬取到携带具体内容为止。

所述步骤二具体包括：

步骤2.1，将所述爬取得到的网络信息进行处理，替换信息中的空白串及多媒体元素，将信息中所含的图片及视频资源提取出来并替换成对应的文本语言；

步骤2.2，将文本中的任意长度为k的子串定义为k-shingle，则每条信息可以表示成在文本中出现一次或者多次的k-shingle集合；需要将所述集合替换成以较小规模的签名表示的小集合，通过比较信息的签名集合估计实际集合的相似度；

步骤2.3，对信息进行多次局部敏感哈希处理，使得相似项会比不相似项更可能哈希到同一桶中，将至少有一次哈希到同一桶的信息对作为是候选对，仅对这些候选对进行相似度检测，将相似度达到设定阈值的信息进行筛选删除，降低信息的冗余度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明实施例所提供的方法，在获取到所用信息后进行相似度对比，提出冗余信息，获得所述冗余度较低的信息数据。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果，与现有技术中采用传统的整条数据查重方式得到的对比结果，其计算速度更快、相似度对比更精确。

附图说明

以下将结合附图对本发明作进一步说明：

图1为本发明所提供的网页爬虫爬取规则的流程图；

图2为本发明所提供的爬取内容信息相似度检测过程的流程图；

图3为本发明所提供的爬取信息聚合分类过程的流程图；

图4为本发明所提供的爬虫分布式部署方法的流程图；

图5为本发明所提供的爬虫分布式部署***结构示意图；

图6为本发明所提供的基于分布式网络爬虫的内容聚合***的结构示意图。

具体实施方式

本发明提供一种基于分布式网络爬虫的内容聚合方法，为使本发明的目的，技术方案及效果更加清楚，明确，以及参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施仅用以解释本发明，并不用于限定本发明。

本发明提供的内容聚合***结构示意图如图6所示，该***包括：

用户界面：用户通过图形用户界面对***进行管理和任务调度，调度服务由各个节点爬虫负责，主要提供包括爬虫任务启动、任务停止及任务状态服务；图形用户界面为内容聚合平台提供给用户的可视化操作界面，爬虫任务管理平台；

该界面通过调用底层的服务接口，作为管理爬虫节点任务的属性状态及日志的一个中心平台，使得***管理人员提供易用、直观的控制平台。

内容聚合分类模块：通过内容聚合分类模块提供爬虫任务相关命令，控制爬虫任务具体状态。根据定制化具体要求，详细设定爬取范围，动态跟踪爬取状态，提供爬虫任务相关的数据的写入、更新服务获取爬取具体内容。用于在所述信息获取指令模块获取到所需的数据后，从数据库抓取获得的数据信息，成为待处理数据。

信息相似度检测模块：在获取到所用信息后进行相似度对比，剔除冗余信息，获得所述冗余度较低的信息数据。该模块将底层节点爬虫的信息进行查重处理，使得内容聚合***中的信息冗余度降低。

信息预处理模块：在上述所述信息相似度检测之后，深入研究网页内容，通过基于文本的网页分析算法，截取网页文本信息，聚合平台会根据文本内容自动获取对应信息，诸如标题，正文部分等，从而填充对应空白框架，由后台传输实现手持端对应展示。

基于上述***，本发明所提供的一种基于分布式网络爬虫的内容聚合方法包括以下过程：

步骤二，爬取内容信息相似度检测，将所述爬取得到的网络信息进行处理，基于数据库数据传递进行改进，结合局部敏感哈希（LSH）方法，进行相似度检测从而降低信息的冗余度；

在开始任务前，首先对爬虫的部署与配置进行介绍，本发明指出的爬虫分布式部署如图4所示，该过程具体包括：

分布式爬虫配置包括爬虫服务配置和爬虫任务配置；爬虫服务配置，保障服务依赖的资源能够正确获取，保障任务的正常运行；爬虫服务配置对任务属性进行配置，如页面下载间隔时间、任务线程数，任务执行频次等。

分布式爬虫部署，具体的，以web服务为主进行部署，需安装Tomcat容器，最终发布为war包，每个war部署后地理提供服务。在实际部署中，一台物理设备部署一个爬虫节点，为测试方便以及资源充分利用，可在一个物理服务器上部署多个容器，分配不同端口提供服务。IP地址和端口唯一确定一个爬虫节点。

任务集中管理平台，其主要包含任务调度方式，及上述爬虫聚合管理***，其连接各个爬虫边缘节点，进行***任务调度，控制各个节点状态，对任务进行管理和控制。

更加具体的，爬虫分布式部署***结构示意图如图5所示：

该示意图呈现爬虫分布式部署***结构，其中任务集中管理平台就是上述所说的内容聚合管理平台，它连接各个爬虫边缘节点，可实现对爬虫***的任务调度，控制各个节点状态，管理者可选择对应工作节点，对任务进行管理和控制。

爬虫边缘节点代表部署在不同设备上的爬虫***，体现分布式部署。不同的设备代表不同的爬取任务，同时节点上的任务分配也可交叉实现。由于每个设备之间的任务是独立的，相互间没有一定依赖，这就充分利用有限资源，提高任务执行速率。

开始任务时，第一步抓取目标信息的流程图如图1所示，具体流程如下：

步骤101：爬虫向爬取的网络信息源站端发送请求；

步骤102：根据各个源站的不同业务类别配置相应爬取规则，该规则基于webmagic框架，互联网中本身就存在众多网络信息源站，即爬取根地址（初始url）。以爬取网页url为根url，基于webmagic框架，根据网页源代码从源站获取得到各类有效信息，进行相关配置。如图片类，则详细解析网页格式，将图片按标签排序并作记号，通过后续步骤将图片按记号顺序展示在内容聚合平台的页面上；视频类，根据网页格式，获取视频跳转url及最终播放页面，***内容聚合平台页面，进行最终展示等。可以动态根据源站的变动进行爬取规则的调整与适应，若修改爬虫规则，则爬虫将在下一次获取信息时，按照更新后的爬取规则进行爬取。

例如，客户检索了即时新闻、热点等感兴趣的信息，其归纳为资讯类，首先根据各资讯url配置爬取目标地址，再进入各个资讯页面获取详细标签，爬取具体内容。如视频，音频类，首先进入各视频网站首页url，对应各个视频分类，在此特针对电影、电视剧、综艺三大类，获取各页面详细播放地址，再从播放页面取得各视频信息。

根地址可根据自身业务分类为不同类别，如资讯类、视频类、软件类等；在此基础上，可对不同源站配置相应的爬取规则，爬虫规则具有可控性，从而提高信息的有效性及可读性。现有网络爬虫技术，是从当前页面提取url，将其放入队列中，直至满足程序的停止条件。但源站信息是不断变动的，该技术存在无法长期准确获取该源站信息的难点。本发明根据该情况，动态配置爬取规则进行自适应爬取。诸如资讯类，包括即时新闻、热点新闻，在开始任务时，配置爬取项（此处与第四步分布式部署及任务管理相关联），通过基于网页内容的网页分析算法过滤与资讯（资讯网站源url）无关的链接（与第二步相关联），保留有用的链接（爬行的范围是受控的）放到待抓取的队列中，通过一定的搜索策略从队列中选择下一步要抓取的url（最终页面url），重复以上步骤，直到满足程序的停止条件。

该过程能够动态地适应信息来源端的变化，自适应的获取目标群所感兴趣的信息，与现有技术中的大批量无定制短暂性的爬取方法相比，其爬取得到的信息有效性更高，信息来源时间性更久。

爬取内容信息相似度检测过程如图2所示，具体流程如下：

步骤201：将所述爬取得到的网络信息进行处理，替换信息中的空白串及多媒体元素，将信息中所含的图片及视频资源提取出来并替换成对应的文本语言，使得含有多元素的网络信息最终以文本信息进行存储；

步骤202：选择某个k值，对每条信息构建其k-shingle集合，将这些k-shingle映射成更短的桶编号；

步骤203：选择最小哈希签名的长度n，计算出每条信息的最小哈希签名；

步骤204：设置一个阈值t来定义应该达到的相似程度，并且使之被看做是相似对。选择行条数b和每个行条中的行数r，使得br=n，而阈值t近似等于。需要选择合适的b和r以产生小于t的阈值来避免伪反例的产生，同时也要兼顾相似度比较的计算速度。选取合适的b和r后采用LSH技术来构建候选对，检查每个候选对的签名，确定它们一致性的比例是否大于t，若大于t，则删除其中一条信息避免信息的重复。

本发明实施例所提供的方法，在获取到所用信息后进行相似度对比，剔除冗余信息，获得所述冗余度较低的信息数据。该方法根据实际网络中获取得到的数据信息进行LSH进行相似度对比得到对比结果，与现有技术中采用传统的整条数据查重方式得到的对比结果，其计算速度更快、相似度对比更精确。

爬取信息聚合分类过程如图3所示，具体流程包括：

步骤301：聚合平台用于提供爬虫任务相关命令，控制爬虫任务具体状态。根据定制化具体要求，详细设定爬取范围，动态跟踪爬取状态。

具体地，爬虫信息聚合管理平台依赖于网络中各个爬虫节点的物理连接以及消息通讯，以及与数据库的互通。管理平台与爬虫节点是通过http服务实现，端口依赖于容器开启的端口。爬虫节点写入状态等信息到数据库，管理平台从数据库获得数据，因此，他们需要与数据库进行通信，建立连接。

爬虫信息局和管理平台：管理爬虫，控制爬虫状态；

节点：各个爬取项分布式部署位置；

数据库：存储爬取信息；

界面：展示爬取信息。

步骤302：将步骤301所获取的数据进行预处理。根据用户定制项，聚合平台从数据库获得首轮数据。根据爬取时间，及爬虫任务状态对所爬取的内容进行页面模糊展示，为聚合管理页面提供数据。

步骤303：聚合数据成为最终待处理数据。本文中所谓聚合即数据被综合处理后的数据形式，为一种常规的数据处理，在上述所述步骤之后对爬取的数据进行整合并能够以集中管理方式进行成功展示的数据形式。

步骤304：将上述303所获得的待处理数据以可视化的方式呈现给用户，用户也可根据页面选项定制所需信息。

最终，结果展示模块分为PC端及手持客户端两种展示项。PC端输入项目对应访问地址，用户登录，进行具体定制化操作，定制化要求通过步骤301传送，更新爬虫状态，与数据库相连接，通过步骤303返回数据成功展示。传统网页内容分析无法规则展示信息，通过深入研究网页内容，基于数据所呈现信息多样化、主题多变性的特点，对获取内容进行整合，实现同类型源网页信息深度平行搜索、按关键字搜索等功能，根据潜在语义将所涉及相关内容归类，同时可以根据信息时效性对数据进行精确排序。手持设备原理与PC端相同。结果展示还包括页面优化功能，用户可选择热点或更新时间为所定制内容进行展示页面排序。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于分布式网络爬虫的内容聚合方法，其特征在于，该方法包括以下过程：

2.根据权利要求1所述的一种基于分布式网络爬虫的内容聚合方法，其特征在于，

在所述步骤一中，对于爬取平台的设置还包括以下步骤：

3.根据权利要求1所述的一种基于分布式网络爬虫的内容聚合方法，其特征在于，所述对爬虫进行部署包括对爬虫的服务配置和任务配置。

4.根据权利要求1所述的一种基于分布式网络爬虫的内容聚合方法，其特征在于，

所述步骤一具体包括：

5.根据权利要求3所述的一种基于分布式网络爬虫的内容聚合方法，其特征在于，所述步骤一还包括步骤1.3，进行到所述步骤1.2时，如果所述目标地址页面内对信息设置有更详细的分类，进入各小类页面获取详细标签，爬取具体内容，且重复步骤1.3，直到爬取到携带具体内容为止。

6.根据权利要求3所述的一种基于分布式网络爬虫的内容聚合方法，其特征在于，

所述步骤二具体包括：