CN110417873B

CN110417873B - 一种实现记录网页交互操作的网络信息提取***

Info

Publication number: CN110417873B
Application number: CN201910608155.6A
Authority: CN
Inventors: 罗永秀; 张华�
Original assignee: Shanghai Hongyi Software Technology Co ltd
Current assignee: Shanghai Hongyi Software Technology Co ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-04-02
Anticipated expiration: 2039-07-08
Also published as: CN110417873A

Abstract

本发明涉及一种实现记录网页交互操作的网络信息提取***，包括浏览器插件和服务端。***控制模块控制***的启动关闭。任务管理模块使用户可以根据自己的需求，创建一个或者多个网络信息提取任务，每个网络信息提取任务可以根据用户需求配置不同的功能。交互操作录制模块，记录用户在当前浏览器中的操作，包括访问的网站地址及交互信息。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。

Description

一种实现记录网页交互操作的网络信息提取***

技术领域

本发明涉及互联网技术领域，为一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***。

背景技术

随着互联网时代的到来，互联网信息数据正以极快的速度增长。随着大数据的发展，也迫切的需要一种快速、大量、稳定获取互联网信息的方法，因此网络信息提取***有着非常广泛的应用前景。传统的网络信息提取方法大多是基于页面的静态分析，提取页面中的链接标签，从而获取其他页面的链接。这些网络信息提取***主要针对企业级用户，功能单一，且不够灵活易用。基于分布式网络的网络信息提取***的稳定性也较差，***工作依赖于主节点，一旦主节点异常，整个网络提取***就会瘫痪。而且由于每个从节点都要与主节点进行通信，资源分配的方式是按顺序分配，缺乏统一的资源调度，导致***性能较差。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***。

为达到上述技术方案的效果，本发明的技术方案为：一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***，包含以下：一种实现记录网页交互操作的网络信息提取***，其特征在于，包括浏览器插件(A)、服务端(B)、网络模块(C)；浏览器插件(A)，包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3)，服务端(B)，包括服务器模块(4)、数据存储模块(5)；

浏览器插件(A)与服务端(B)通过网络模块(C)进行通信，浏览器插件(A) 将***自定义的配置信息，包括：网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度；并通过网络模块(C)，发送到服务端(B)；服务端(B)根据配置信息提取网络信息；当网络信息提取完成时，服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成，用户通过浏览器插件(A)的任务管理模块(2)，查看信息提取结果报告和访问任务所提取的数据；其中信息提取结果报告包括：本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序，并以不同的格式批量导出；

用户通过***控制模块(1)，供用户的个人信息及***级的配置信息，控制网络信息提取***的开启和关闭，当任务管理模块(2)创建的某一任务完成时，服务端(B)，通过网络模块(C)将结果信息发送至***控制模块(1)配置的邮箱中；查看每个网络信息提取任务的状态及结果；

任务管理模块(2)，用户根据自己的需求，创建一个或者多个网络信息提取任务，每个网络信息提取任务根据用户需求配置不同的功能；任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4)；

种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息；当用户选择URL时，指定一个或者多个URL地址。当用户选择关键字时，指定一个或者多个关键字，当用户选择网页交互信息录制时，将启动交互操作录制模块(3)进行交互操作录制；当任务管理模块(2)的任务启动时，将种子信息配置模块(2-1)配置的种子信息，通过网络模块(C) 发送至服务端(B)；

智能匹配设置模块(2-2)基于N-Gram模糊匹配算法；在没有智能匹配的模式下，只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息；在智能匹配模式下，将根据所给的种子信息，智能匹配相关信息，实现信息的抓取；

通过任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量；并发送至服务端(B)，服务端(B)将根据信息执行网络信息抓取任务；

抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态，包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率；并查看已完成任务的结果报告，本次任务中所提取的数据；其中信息提取结果报告包括：本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；抓取数据按文件类型、文件大小、与主题相关度进行排序，并以不同的格式批量导出；

交互操作录制模块(3)，记录用户在当前浏览器中的操作，包括访问的网站地址，交互信息，请求的html页面、JavaScript文件、监听到的触发的事件；将其通过网络模块(C)发送至服务端(B)；

服务器模块(4)，包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)，连接数据存储模块(5)；

负载均衡服务器(4-1)，采用加权轮询方法实现对网络信息抓取服务器(4-2) 的负载均衡控制；负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2)，并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重；按负载权重有小到大的顺序更新服务器状态队列，当有新任务到来时，优先分配给排在队列前面的信息抓取服务器，即当前负载较少的服务器；

网络信息抓取服务器(4-2)，接收负载均衡服务器(4-1)的调度，根据浏览器插件(A)提供的种子信息及任务配置信息，执行网络信息抓取任务，并将结果保存至数据存储模块(5)，同时向浏览器插件(A)发送任务完成或者异常信息；网络信息抓取服务器(4-2)，基于无头浏览器Headless Chrome；当接收到的种子信息为URL时，通过调用浏览器内核的API，访问种子URL，获取页面的DOM信息及请求的JavaScript文件；然后基于进行深度优先遍历，扫描DOM信息中的所有链接，及绑定的事件，根据绑定事件列表扫描JavaScript文件，并依次触发，重复上述步骤，获得所有URL链接，然后对URL进行去重，并按照网站信用评价数据表中存储的网站信用分数，将信用分数低于30的URL去除，剩余URL按照信用分数，依次进行信息提取；当接收到的种子信息为关键字时，启动关键字搜索引擎，将搜索结果作为种子URL，然后执行URL为原始种子的信息抓取步骤；当接收到的种子信息为交互操作录制模块(3)录制的交互信息时，将启动无头浏览器Headless Chrome，执行录制的交互信息，抓取过程中所有的数据；网络信息抓取服务器(4-2)接收智能匹配设置模块(2-2)的控制，根据智能匹配的程度动态抓取与种子信息相关的数据；数据存储模块(5)接收由网络信息抓取服务器(4-2)抓取的网络信息，当抓取任务完成时用户通过浏览器插件(A)，访问数据存储模块(5)中的所有数据。

附图说明

图 1 为本申请实施例提供的使用浏览器插件技术实现记录网页交互操作的网络信息提取***。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例1：下面将对一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***的应用场景举例如下：

如图 1 所示，一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***，包含浏览器插件(A)、服务端(B)、网络模块(C)，其特征在于，所述浏览器插件(A)，包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3)，所述服务端(B)，包括服务器模块(4)、数据存储模块(5)；

浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信，所述浏览器插件(A)将***的自定义配置信息，包括：网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度，通过所述网络模块(C)，发送到所述服务端(B)；所述服务端(B)根据配置信息提取网络信息；当网络信息提取完成时，所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成，用户可以通过所述浏览器插件(A)的所述任务管理模块(2)，查看信息提取结果报告，访问该任务所提取的数据；其中信息提取结果报告包括：该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；提取数据可以按文件类型、文件大小、与主题相关度进行排序，并能以不同的格式批量导出；

***控制模块(1)，用户通过该模块，供用户的个人信息及***级的配置信息，控制网络信息提取***的开启和关闭，当所述任务管理模块(2)创建的某一任务完成时，所述服务端(B)，通过所述网络模块(C)将结果信息发送至所述***控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果；

任务管理模块(2)，用户可以根据自己的需求，创建一个或者多个网络信息提取任务，每个网络信息提取任务可以根据用户需求配置不同的功能；所述任务管理模块(2)，包括：种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4)；

种子信息配置模块(2-1)，该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息；当用户选择URL时，可以指定一个或者多个URL地址。当用户选择关键字时，可以指定一个或者多个关键字，当用户选择网页交互信息录制时，将启动所述交互操作录制模块(3)进行交互操作录制；当所述任务管理模块(2)的任务启动时，将所述种子信息配置模块(2-1)配置的种子信息，通过所述网络模块(C)发送至所述服务端(B)；

智能匹配设置模块(2-2)，基于N-Gram模糊匹配算法。在没有智能匹配的模式下，该***只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息；在智能匹配模式下，将根据所给的种子信息，智能匹配相关信息，实现相关信息的抓取；

任务目标设置模块(2-3)，通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量；并发送至所述服务端(B)，所述服务端(B)将根据该信息执行网络信息抓取任务；

抓取结果管理模块(2-4)，该模块实时显示服务器端(B)返回的任务状态，包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率；并可以查看已完成任务的结果报告，该次任务中所提取的数据；其中信息提取结果报告包括：该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；抓取数据可以按文件类型、文件大小、与主题相关度进行排序，并能以不同的格式批量导出；

交互操作录制模块(3)，记录用户在当前浏览器中的操作，包括访问的网站地址，及交互信息；将其通过所述网络模块(C)发送至所述服务端(B)；

负载均衡服务器(4-1)，采用加权轮询方法，实现对所述网络信息抓取服务器 (4-2)的负载均衡控制；所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2)，并根据当前所述网络信息抓取服务器(4-2) 的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重；按负载权重有小到大的顺序更新服务器状态队列，当有新任务到来时，优先分配给排在队列前面的信息抓取服务器，即当前负载较少的服务器；

网络信息抓取服务器(4-2)，接收所述负载均衡服务器(4-1)的调度，根据所述浏览器插件(A)提供的种子信息及任务配置信息，执行网络信息抓取任务，并将结果保存至所述数据存储模块(5)，同时向所述浏览器插件(A)发送任务完成或者异常信息；所述网络信息抓取服务器(4-2)，基于无头浏览器Headless Chrome；当接收到的种子信息为URL时，通过调用浏览器内核的API，访问种子 URL，获取该页面的DOM信息及请求的JavaScript文件；然后基于进行深度优先遍历，扫描DOM信息中的所有链接，及绑定的事件，根据绑定事件列表扫描 JavaScript文件，并依次触发，重复上述步骤，获得所有URL链接，然后对URL 进行去重，并按照网站信用评价数据表中存储的网站信用分数，将信用分数低于 30的URL去除，剩余URL按照信用分数，依次进行信息提取；当接收到的种子信息为关键字时，启动关键字搜索引擎，将搜索结果作为种子URL，然后执行URL 为原始种子的信息抓取步骤；当接收到的种子信息为所述交互操作录制模块(3) 录制的交互信息时，将启动无头浏览器HeadlessChrome，执行录制的交互信息，抓取该过程中所有的数据；所述网络信息抓取服务器(4-2)，也接收所述智能匹配设置模块(2-2)的控制，根据智能匹配的程度，动态抓取与种子信息相关的数据；

数据存储模块(5)，接收由所述网络信息抓取服务器(4-2)抓取的网络信息，当抓取任务完成时，用户可以通过任务完成时发送的链接，访问该模块中的所有数据；

浏览器插件(A)，包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3)，服务端(B)，包括服务器模块(4)、数据存储模块(5)；

浏览器插件(A)与服务端(B)通过网络模块(C)进行通信，浏览器插件(A) 将***的自定义配置信息，包括：网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度，通过网络模块(C)，发送到服务端(B)；服务端(B)根据配置信息提取网络信息；当网络信息提取完成时，服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成，用户可以通过浏览器插件(A)的任务管理模块(2)，查看信息提取结果报告，访问该任务所提取的数据；其中信息提取结果报告包括：该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；提取数据可以按文件类型、文件大小、与主题相关度进行排序，并能以不同的格式批量导出；

***控制模块(1)，用户通过该模块，供用户的个人信息及***级的配置信息，控制网络信息提取***的开启和关闭，当任务管理模块(2)创建的某一任务完成时，服务端(B)，通过网络模块(C)将结果信息发送至***控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果；

任务管理模块(2)，用户可以根据自己的需求，创建一个或者多个网络信息提取任务，每个网络信息提取任务可以根据用户需求配置不同的功能；任务管理模块(2)，包括：种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4)；

种子信息配置模块(2-1)，该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息；当用户选择URL时，可以指定一个或者多个URL地址。当用户选择关键字时，可以指定一个或者多个关键字，当用户选择网页交互信息录制时，将启动交互操作录制模块(3)进行交互操作录制；当任务管理模块(2)的任务启动时，将种子信息配置模块(2-1)配置的种子信息，通过网络模块(C)发送至服务端(B)；

智能匹配设置模块(2-2)，基于N-Gram模糊匹配算法。在没有智能匹配的模式下，该***只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息；在智能匹配模式下，将根据所给的种子信息，智能匹配相关信息，实现相关信息的抓取；

任务目标设置模块(2-3)，通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量；并发送至服务端(B)，服务端(B)将根据该信息执行网络信息抓取任务；

交互操作录制模块(3)，记录用户在当前浏览器中的操作，包括访问的网站地址，及交互信息；将其通过网络模块(C)发送至服务端(B)；

负载均衡服务器(4-1)，采用加权轮询方法，实现对网络信息抓取服务器(4-2) 的负载均衡控制；负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2)，并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重；按负载权重有小到大的顺序更新服务器状态队列，当有新任务到来时，优先分配给排在队列前面的信息抓取服务器，即当前负载较少的服务器；

网络信息抓取服务器(4-2)，接收负载均衡服务器(4-1)的调度，根据浏览器插件(A)提供的种子信息及任务配置信息，执行网络信息抓取任务，并将结果保存至数据存储模块(5)，同时向浏览器插件(A)发送任务完成或者异常信息；网络信息抓取服务器(4-2)，基于无头浏览器Headless Chrome；当接收到的种子信息为URL时，通过调用浏览器内核的API，访问种子URL，获取该页面的DOM 信息及请求的JavaScript文件；然后基于进行深度优先遍历，扫描DOM信息中的所有链接，及绑定的事件，根据绑定事件列表扫描JavaScript文件，并依次触发，重复上述步骤，获得所有URL链接，然后对URL进行去重，并按照网站信用评价数据表中存储的网站信用分数，将信用分数低于30的URL去除，剩余URL按照信用分数，依次进行信息提取；当接收到的种子信息为关键字时，启动关键字搜索引擎，将搜索结果作为种子URL，然后执行URL为原始种子的信息抓取步骤；当接收到的种子信息为交互操作录制模块(3)录制的交互信息时，将启动无头浏览器Headless Chrome，执行录制的交互信息，抓取该过程中所有的数据；网络信息抓取服务器(4-2)，也接收智能匹配设置模块(2-2)的控制，根据智能匹配的程度，动态抓取与种子信息相关的数据；

数据存储模块(5)，接收由网络信息抓取服务器(4-2)抓取的网络信息，当抓取任务完成时，用户可以通过任务完成时发送的链接，访问该模块中的所有数据；

本发明的有益成果为：本发明提供了一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***，基于浏览器插件，提供了多种灵活的种子信息配置方案及任务管理方案，尤其提供了一种简单快速的基于网页信息交互操作的种子信息设置方案。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。

以上仅为本发明之较佳实施例，并非用以限定本发明的权利要求保护范围。同时以上说明，对于相关技术领域的技术人员应可以理解及实施，因此其他基于本发明所揭示内容所完成的等同改变，均应包含在本权利要求书的涵盖范围内。

Claims

1.一种实现记录网页交互操作的网络信息提取***，其特征在于，包括浏览器插件(A)、服务端(B)、网络模块(C)；所述浏览器插件(A)，包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3)，所述服务端(B)，包括服务器模块(4)、数据存储模块(5)；

所述浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信，所述浏览器插件(A)将***自定义的配置信息，包括：网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度；并通过所述网络模块(C)，发送到所述服务端(B)；所述服务端(B)根据配置信息提取网络信息；当网络信息提取完成时，所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成，用户通过所述浏览器插件(A)的所述任务管理模块(2)，查看信息提取结果报告和访问任务所提取的数据；其中信息提取结果报告包括：本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序，并以不同的格式批量导出；

用户通过所述***控制模块(1)，供用户的个人信息及***级的配置信息，控制网络信息提取***的开启和关闭，当所述任务管理模块(2)创建的某一任务完成时，所述服务端(B)，通过所述网络模块(C)将结果信息发送至所述***控制模块(1)配置的邮箱中；查看每个网络信息提取任务的状态及结果；

所述任务管理模块(2)，用户根据自己的需求，创建一个或者多个网络信息提取任务，每个网络信息提取任务根据用户需求配置不同的功能；所述任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4)；

所述种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息；当用户选择URL时，指定一个或者多个URL地址；当用户选择关键字时，指定一个或者多个关键字，当用户选择网页交互信息录制时，将启动所述交互操作录制模块(3)进行交互操作录制；当所述任务管理模块(2)的任务启动时，将所述种子信息配置模块(2-1)配置的种子信息，通过所述网络模块(C)发送至所述服务端(B)；

所述智能匹配设置模块(2-2)基于N-Gram模糊匹配算法；在没有智能匹配的模式下，只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息；在智能匹配模式下，将根据所给的种子信息，智能匹配相关信息，实现信息的抓取；

通过所述任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量；并发送至所述服务端(B)，所述服务端(B)将根据信息执行网络信息抓取任务；

所述抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态，包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率；并查看已完成任务的结果报告，本次任务中所提取的数据；其中信息提取结果报告包括：本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表；抓取数据按文件类型、文件大小、与主题相关度进行排序，并以不同的格式批量导出；

所述交互操作录制模块(3)，记录用户在当前浏览器中的操作，包括访问的网站地址，交互信息，请求的html页面、JavaScript文件、监听到的触发的事件；将其通过所述网络模块(C)发送至所述服务端(B)；

所述服务器模块(4)，包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)；

所述负载均衡服务器(4-1)，采用加权轮询方法实现对所述网络信息抓取服务器(4-2)的负载均衡控制；所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2)，并根据当前所述网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重；按负载权重从小到大的顺序更新服务器状态队列，当有新任务到来时，优先分配给排在队列前面的信息抓取服务器，即当前负载较少的服务器；

所述网络信息抓取服务器(4-2)，接收所述负载均衡服务器(4-1)的调度，根据所述浏览器插件(A)提供的种子信息及任务配置信息，执行网络信息抓取任务，并将结果保存至所述数据存储模块(5)，同时向所述浏览器插件(A)发送任务完成或者异常信息；所述网络信息抓取服务器(4-2)，基于无头浏览器Headless Chrome；当接收到的种子信息为URL时，通过调用浏览器内核的API，访问种子URL，获取页面的DOM信息及请求的JavaScript文件；然后基于进行深度优先遍历，扫描DOM信息中的所有链接，及绑定的事件，根据绑定事件列表扫描JavaScript文件，并依次触发，重复上述步骤，获得所有URL链接，然后对URL进行去重，并按照网站信用评价数据表中存储的网站信用分数，将信用分数低于30的URL去除，剩余URL按照信用分数，依次进行信息提取；当接收到的种子信息为关键字时，启动关键字搜索引擎，将搜索结果作为种子URL，然后执行URL为原始种子的信息抓取步骤；当接收到的种子信息为所述交互操作录制模块(3)录制的交互信息时，将启动无头浏览器HeadlessChrome，执行录制的交互信息，抓取过程中所有的数据；所述网络信息抓取服务器(4-2)接收所述智能匹配设置模块(2-2)的控制，根据智能匹配的程度动态抓取与种子信息相关的数据；所述数据存储模块(5)接收由所述网络信息抓取服务器(4-2)抓取的网络信息，当抓取任务完成时用户通过所述浏览器插件(A)，访问所述数据存储模块(5)中的所有数据。