CN111488508A

CN111488508A - 一种支持多协议分布式高并发的互联网信息采集***及方法

Info

Publication number: CN111488508A
Application number: CN202010276673.5A
Authority: CN
Inventors: 焦健; 张沛轩; 吕恒; 张立华
Original assignee: Changchun Boli Electronic Technology Co ltd
Current assignee: Changchun Boli Electronic Technology Co ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-04

Abstract

本发明公开了一种支持多协议分布式高并发的互联网信息采集***，包括：包括：客户端，其为B/S风格，所述客户端中预存多个网站信息采集模板；主机服务器，其包括前端程序和后端程序；主采集服务器，其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配，并且所述主采集服务器具有反反爬安全机制；缓存服务器，其具有缓存数据库Redis，所述缓存服务器接收所述初始URL数据；从采集服务器，其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果；数据存储服务器，其包括持久化数据库和文件***，用于对所述爬取结果进行保存。本发明还提供一种支持多协议分布式高并发的互联网信息采集方法，能够控制采集调度，快速准确的获取信息。

Description

一种支持多协议分布式高并发的互联网信息采集***及方法

技术领域

本发明属于互联网信息采集技术领域，特别涉及一种支持多协议分布式高并发的互联网信息采集***及方法。

背景技术

随着互联网行业的高速发展，网络开始走进千家万户，每时每刻都有着海量数据产生，但是我们浏览的网页通常不会仅仅只提供我们需要的数据，其中还夹杂着更多的干扰信息，会干扰我们对数据的获取与理解，因此如何安全快速地根据需求获取数据信息成为了新时代互联网行业的最大问题。

现有技术中，用户获取数据一般通过网页爬取技术，即根据给定的统一资源定位符(URL)自动加载网页，获取相关数据的一种技术，一般通过给定的URL列表或者范围进行爬取信息操作，通过爬取技术加载网页，并通过广告过滤去除一定的冗余数据，对得到的数据进行保存，然后在获取到海量数据后通过相关的分析算法进行分析，根据分析结果将数据进行分类，并根据相应的数据结构将数据存入数据库，最后客户端通过提取数据库中的信息，按照预存模板进行展示，或对数据流执行导出操作。

但是现有技术存在着很多的缺点，第一，服务器压力大，随着爬取的量加大，单个服务器的压力逐渐增大，会极大的影响效率；第二，安全性较差，容易在爬取过程中受到攻击或反向爬取，从而丢失数据；第三，没有自定义模板功能，现有技术大多有对知名网站的爬取预存模板，但是面对不太常用的网址没有自定义模板功能。

因此，如何在快速获取海量准确信息的同时，保障服务器的安全，正是亟需考虑和研究的。

发明内容

本发明提供了一种支持多协议分布式高并发的互联网信息采集***，解决现有技术存在的问题，通过分布式高并发主采集服务器和从采集服务器，减小了高并发模式下单一服务器的运行压力，更好地解决高并发模式下的效率低下问题。

本发明还提供一种支持多协议分布式高并发的互联网信息采集方法，通过对URL数据的处理，能够实现对指定网站执行信息抓取，并对重复冗余信息进行过滤，对经过过滤的信息进行分析处理，并将信息规整入相关的数据库中，控制采集调度，快速准确的获取信息。

本发明提供的技术方案为：

一种支持多协议分布式高并发的互联网信息采集***，包括：

客户端，其为B/S风格，所述客户端中预存多个网站信息采集模板；

主机服务器，其包括前端程序和后端程序；

其中，所述前端程序包括：页面样式渲染工具、数据处理工具和输出工具，并且所述前端程序通过互联网与所述客户端进行交互；所述后端程序为所述前端程序提供数据访问API；

主采集服务器，其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配，并且所述主采集服务器具有反反爬安全机制；

缓存服务器，其具有缓存数据库Redis，所述缓存服务器接收所述初始URL数据；

其中，所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据；

从采集服务器，其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果；

其中，所述主机服务器能够调用所述从采集服务器中的数据；

数据存储服务器，其包括持久化数据库和文件***，用于对所述爬取结果进行保存，并且所述数据存储服务器将数据结果返回给所述机服务器。

优选的是，所述抓取结果包括：

文本信息，其存储于所述持久化数据库中；

图片信息，其存储于所述文件***中。

优选的是，所述抓取包括：

非结构化抓取，根据字符出现的规律进行动态匹配完成非结构化数据的提取；

结构化抓取，通过针对各种规律的分析工具进行结构化数据的提取。

优选的是，所述非结构化数据，其数据的内容整体没有固定的格式和语法规范；

结构化数据，其数据的内容有固定的语法规范，按照固定的结构进行组织管理。

优选的是，所述页面样式渲染工具为Semantic，所述数据处理工具和输出工具为React，所述后端程序通过express架构为所述前端程序提供数据访问API。

优选的是，所述反反爬安全机制包括：cookie池、代理池、验证码、时间间隔。

优选的是，在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用，用户能够根据需求自由定制并保存自定义模板。

一种支持多协议分布式高并发的互联网信息采集方法，包括如下步骤：

步骤1、引擎打开一个网站，找到处理所述网站的爬虫；

步骤2、所述爬虫通过所述引擎向调度器请求初始URL；

步骤3、所述调度器将初始URL作为请求进行排序和入队处理；

步骤4、所述引擎向所述调度器请求待爬取URL，

步骤5、所述调度器返回待爬取URL给所述引擎；

步骤6、所述引擎将待爬取URL通过下载中间器发送给下载器；

步骤7、所述下载器向互联网发送请求，页面下载完毕后，所述下载器生成页面的响应；

步骤8、所述引擎从所述下载器中接收响应，并通过爬虫中间器发送给所述爬虫；

步骤9、所述爬虫处理响应，并提取项目经过引擎交给项目管道保存；

步骤10、重复步骤2-步骤8，直至所述调度器中没有待处理的请求，所述引擎关闭。

本发明的有益效果是：

本发明提供的支持多协议分布式高并发的互联网信息采集***，采集引擎采用了分布式高并发主从策略，并根据固定的抓取策略、更新策略、抽取策略和抓取频率向协议处理器分配URL，减少了高并发模式下单一服务器的运行压力，更好地解决高并发模式下的效率低下问题；

本发明提供的支持多协议分布式高并发的互联网信息采集***还执行了反反爬机制，能够防止别的信息抓取网站对本***的信息爬取，保证数据安全，因此本***能够提供相对安全、快速的互联网信息采集服务；

本发明提供的支持多协议分布式高并发的互联网信息采集***的客户端支持用户自定义模板，方便用户对非常用网站的信息采集；

本发明提供的支持多协议分布式高并发的互联网信息采集方法，通过对URL数据的处理，能够实现对指定网站执行信息抓取，并对重复冗余信息进行过滤，对经过过滤的信息进行分析处理，将信息规整入相关的数据库中。

附图说明

图1为本发明所述支持多协议分布式高并发的互联网信息采集***的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了一种支持多协议分布式高并发的互联网信息采集***，解决了服务器压力过大，造成效率下降的问题；并且实现了对爬取结果进行过滤和分析，将相关的数据分类存储，从而避免了目标网页可能存在的大量干扰信息。

如图1所示，为本发明提供的支持多协议分布式高并发的互联网信息采集***，包括：客户端110、主机服务器(图中未标出)、主采集服务器140、缓存服务器150、从采集服务器160和数据存储服务器(图中未标出)。

其中，客户端110采用B/S风格，主要用于PC端，通过互联网与主机服务器进行交互，能够完整地支持使用者对整个爬取过程的控制。

客户端110中预存了一些相对知名度较高的网站信息采集模板，同时可根据需求自由定制并保存自定义模板，通过控制台进入我的应用列表或者首页创建自定义应用，用户可自定义开发爬取应用，配置数据参数。

主机服务器部署在机房，主机服务器的项目采取前后分离模式，即包括前端程序(客户端界面)120和后端程序(服务端接口)130，所述前端程序120包括：页面样式渲染工具、数据处理工具和输出工具，并且所述前端程序120通过互联网与所述客户端110进行交互；所述后端程序130为所述前端程序120提供数据访问API。

在本实施例中，前端程序120中使用Semantic作为页面样式渲染工具，React作为数据处理和输出工具，通过互联网与客户端110进行交互，为客户端110提供界面服务。后端程序130使用express架构，为前端程序120提供数据访问API。

采集服务器(采集引擎)使用分布式高并发主从策略：

主采集服务器140通过互联网与主机服务器和缓存服务器交互，从主机服务器接收指令，利用Scrapy框架对相关URL实行提取与管理，控制采集调度，根据固定的策略向协议处理器分配URL，同时通过cookie池、代理池、验证码、时间间隔实现反反爬安全机制。

其中，固定的策略主要包括以下4种策略：

(1)抓取策略：使用URL的正则特征实现定向抓取，即通过网站URL的特征(正则)，降低抓取数量；

(2)更新策略：主要包括定期批量更新和按更新周期更新，定期批量更新指对一批URL，按照失效时间定期去刷新，按周期更新指的是按照页面更新变化频率而修正更新频率，更新越频繁的网页更新也就越快，因此让平均age(抓取的网页过期的时间)越小，freshness(抓取到的网页是否已经被修改)越高；

(3)抽取策略：通过XPATH定位网页的任意一个位置，能够精准的抽取页面上的任意位置；

(4)抓取频率：抓取的频率不能过度频繁，抓取网站同时不对对方网站造成压力，在robot.txt协议里面定义Crawl-delay来确定抓取的频率是一种网站的通用的做法，本发明的互联网信息采集***在10到20秒抓取一次。

缓存服务器150为缓存数据库Redis，通过数据库操作对送入的URL数据进行排序与去重。

其中，排序与去重的过程为：将爬取的链接存入redis，将即将请求的url判断是否已经爬取，如果redis数据库中没有一条url数据则会一直将整站的page抓取，但如果是在某个时间点我们已经爬取完了数据，继续启动程序爬取增加的数据是会去判断每个url是否已经爬取，当url有重复时parse_page不会回调parse_item(url去重)，程序会跳出，循环结束。

从采集服务器160自动从Redis中抓取待采集的URL，进行页面解析，对网页上的数据进行获取，提取有价值的数据；从采集服务器160在执行抓取任务的同时执行反反爬机制。

其中，从采集服务器160是通过主机服务器启动的，主机服务器通过服务端接口130能够对从采集服务器160中的数据进行调用。

对于不同结构数据使用不同方法对数据进行抓取：

a、非结构化数据：数据的内容整体没有固定的格式和语法规范，智能根据字符出现的规律进行动态匹配的方式来完成数据的提取。

非结构化数据包括：用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、商品名称等等。

非结构化数据的抓取方法为：正则表达式。

b、结构化数据：数据的内容有固定的语法规范，按照一定的结构进行组织管理，可以通过针对这些规律的分析工具进行数据的提取

结构化数据包括：HTML网页文档、XML网页文档、JSON等等。

结构化数据由于数据本身存在一定的规律性，因此结构化数据的抓取方法为：正则表达式、Xpath、BeautifulSoup4、select、css等等。

数据存储服务器，其包括持久化数据库171和文件***172，用于对所述爬取结果进行保存，所述数据存储服务器将数据结果返回给主机服务器进行渲染。

其中，从采集服务器160将抓取的文本信息存储到持久化数据库MongoDB171中，将抓取的图片信息存储到文件***172中。

实施例

用户注册/登录进入客户端110网页，首页列举了官方提供模板的采集应用列表，点击某一种模板，将会显示采集应用的示例详情；用户也可以在创建自定义采集应用中创建自定义的采集模板，并在列表中管理自定义模板。

自定义模板过程为：通过控制台进入我的应用列表或者首页创建自定义应用，用户可自定义开发爬取应用，配置数据参数。

在相关模板中选择获取爬虫，开始管理对应的数据采集进程，点击启动爬虫，应用将根据模板对相应的URL进行信息采集，在接收到采集命令后，主机服务器向主采集服务器发送URL，主采集服务器的URL处理器开始运行，控制URL的调度，并将调度结果存入缓存服务器的数据库Redis中，同时主采集服务器执行反反爬机制，保障数据安全，缓存服务器数据库Redis对URL进行排序去重等过滤处理，从采集服务器自动从Redis中获取URL并对页面进行解析，通过信息抓取算法获取相关目标数据，对数据进行分析，根据分析结果，将抓取的文本信息存储到持久化数据库MongoDB中，将抓取的图片信息存储到文件***，采集结束后可浏览采集结果，通过采集日志可以寻找异常采集，可将采集结果导出到文件。

客户端110通过主机服务器对抓取结果进行调用，将数据预览呈现给使用者，使用者还可使用客户端110的云市场、浏览帮助文档、查看个人信息和国际化的服务。

本发明提供的一种支持多协议分布式高并发的互联网信息采集***，通过建立网页资源库，结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等，提供和定制可视化通用性较强的互联网信息采集***，***能定期自动跟踪相关网站或网页，进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。

本发明还提供一种支持多协议分布式高并发的互联网信息采集方法，包括如下步骤：

步骤1、引擎(ScrapyEngine)打开一个网站，找到处理该网站的爬虫(Spider)；

其中，ScrapyEngine控制数据流在***的所有组件中流动，并在相应动作发生时触发事件，是整个爬虫的调度中心；

步骤2、Spider通过ScrapyEngine向调度器(Schedule)请求第一个(批)要爬取的url(s)，并加入到Schedule作为请求(request)以备调度；

其中，Schedule接收从引擎发过来的requests，并将他们入队，初始爬取url和后续在页面里爬到的待爬取url放入Schedule中，等待被爬取；

步骤3、ScrapyEngine向Schedule请求下一个要爬取的url；

步骤4、Schedule返回下一个要爬取的url给ScrapyEngine；

步骤5、ScrapyEngine通过下载中间器(DownloaderMiddlewares)将url转发给下载器(Downloader)；

其中，DownloaderMiddlewares是在ScrapyEngine和Downloader之间的特定钩子(specific hook)，处理它们之间的request和响应(response)，提供了一个简单的机制，通过***自定义代码来扩展Scrapy功能，通过设置DownloaderMiddlewares来实现爬虫自动更换user-agent，IP等。

Downloader获取页面数据，并提供给ScrapyEngine，而后提供给spider；

步骤6、Downloader向互联网发送请求进行下载，页面下载完毕后，Downloader生成一个页面的response，通过DownloaderMiddlewares发送给ScrapyEngine；

步骤7、ScrapyEngine从Downloader中接收到Response，将Response通过爬虫中间器(SpiderMiddlewares)发送给Spider处理；

步骤8、Spider处理Response并返回提取到的项目(Item)以及新的Request给ScrapyEngine；

步骤9、ScrapyEngine将Spider返回的Item交给项目管道(ItemPipeline)进行保存；

用户编写用于分析response并提取item和额外跟进的url，将额外跟进的url提交给ScrapyEngine，加入到Schedule中，每个spider负责处理一个特定(或一些)网站；

ItemPipeline处理被spider提取出来的item：当页面被爬虫解析所需的数据存入Item后，将被发送到Pipeline，并经过设置好次序；在本实施例中ItemPipeline为缓存服务器；

步骤10、重复步骤2-步骤9，直到Schedule中没有待处理的Request，ScrapyEngine关闭。

本发明提供的一种支持多协议分布式高并发的互联网信息采集***和方法，通过建立网页资源库，结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等，提供和定制可视化通用性较强的互联网信息采集***，***能定期自动跟踪相关网站或网页，进行比较分析、抽取、规整入库、分类等，从互联网上获取所需信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种支持多协议分布式高并发的互联网信息采集***，其特征在于，包括：

主机服务器，其包括前端程序和后端程序；

数据存储服务器，其包括持久化数据库和文件***，用于对所述爬取结果进行保存，并且所述数据存储服务器将数据结果返回给所述主机服务器。

2.根据权利要求1所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，所述抓取结果包括：

文本信息，其存储于所述持久化数据库中；

图片信息，其存储于所述文件***中。

3.根据权利要求2所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，所述抓取包括：

4.根据权利要求3所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，所述非结构化数据，其数据的内容整体没有固定的格式和语法规范；

5.根据权利要求4所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，所述页面样式渲染工具为Semantic，所述数据处理工具和输出工具为React，所述后端程序通过express架构为所述前端程序提供数据访问API。

6.根据权利要求5所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，所述反反爬安全机制包括：cookie池、代理池、验证码、时间间隔。

7.根据权利要求6所述的支持多协议分布式高并发的互联网信息采集***，其特征在于，在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用，用户能够根据需求自由定制并保存自定义模板。