CN111488508A - 一种支持多协议分布式高并发的互联网信息采集***及方法 - Google Patents

一种支持多协议分布式高并发的互联网信息采集***及方法 Download PDF

Info

Publication number
CN111488508A
CN111488508A CN202010276673.5A CN202010276673A CN111488508A CN 111488508 A CN111488508 A CN 111488508A CN 202010276673 A CN202010276673 A CN 202010276673A CN 111488508 A CN111488508 A CN 111488508A
Authority
CN
China
Prior art keywords
data
server
end program
engine
crawled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010276673.5A
Other languages
English (en)
Inventor
焦健
张沛轩
吕恒
张立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Boli Electronic Technology Co ltd
Original Assignee
Changchun Boli Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Boli Electronic Technology Co ltd filed Critical Changchun Boli Electronic Technology Co ltd
Priority to CN202010276673.5A priority Critical patent/CN111488508A/zh
Publication of CN111488508A publication Critical patent/CN111488508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种支持多协议分布式高并发的互联网信息采集***,包括:包括:客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;主机服务器,其包括前端程序和后端程序;主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;数据存储服务器,其包括持久化数据库和文件***,用于对所述爬取结果进行保存。本发明还提供一种支持多协议分布式高并发的互联网信息采集方法,能够控制采集调度,快速准确的获取信息。

Description

一种支持多协议分布式高并发的互联网信息采集***及方法
技术领域
本发明属于互联网信息采集技术领域,特别涉及一种支持多协议分布式高并发的互联网信息采集***及方法。
背景技术
随着互联网行业的高速发展,网络开始走进千家万户,每时每刻都有着海量数据产生,但是我们浏览的网页通常不会仅仅只提供我们需要的数据,其中还夹杂着更多的干扰信息,会干扰我们对数据的获取与理解,因此如何安全快速地根据需求获取数据信息成为了新时代互联网行业的最大问题。
现有技术中,用户获取数据一般通过网页爬取技术,即根据给定的统一资源定位符(URL)自动加载网页,获取相关数据的一种技术,一般通过给定的URL列表或者范围进行爬取信息操作,通过爬取技术加载网页,并通过广告过滤去除一定的冗余数据,对得到的数据进行保存,然后在获取到海量数据后通过相关的分析算法进行分析,根据分析结果将数据进行分类,并根据相应的数据结构将数据存入数据库,最后客户端通过提取数据库中的信息,按照预存模板进行展示,或对数据流执行导出操作。
但是现有技术存在着很多的缺点,第一,服务器压力大,随着爬取的量加大,单个服务器的压力逐渐增大,会极大的影响效率;第二,安全性较差,容易在爬取过程中受到攻击或反向爬取,从而丢失数据;第三,没有自定义模板功能,现有技术大多有对知名网站的爬取预存模板,但是面对不太常用的网址没有自定义模板功能。
因此,如何在快速获取海量准确信息的同时,保障服务器的安全,正是亟需考虑和研究的。
发明内容
本发明提供了一种支持多协议分布式高并发的互联网信息采集***,解决现有技术存在的问题,通过分布式高并发主采集服务器和从采集服务器,减小了高并发模式下单一服务器的运行压力,更好地解决高并发模式下的效率低下问题。
本发明还提供一种支持多协议分布式高并发的互联网信息采集方法,通过对URL数据的处理,能够实现对指定网站执行信息抓取,并对重复冗余信息进行过滤,对经过过滤的信息进行分析处理,并将信息规整入相关的数据库中,控制采集调度,快速准确的获取信息。
本发明提供的技术方案为:
一种支持多协议分布式高并发的互联网信息采集***,包括:
客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;
主机服务器,其包括前端程序和后端程序;
其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;
主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;
缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;
其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;
从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;
其中,所述主机服务器能够调用所述从采集服务器中的数据;
数据存储服务器,其包括持久化数据库和文件***,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述机服务器。
优选的是,所述抓取结果包括:
文本信息,其存储于所述持久化数据库中;
图片信息,其存储于所述文件***中。
优选的是,所述抓取包括:
非结构化抓取,根据字符出现的规律进行动态匹配完成非结构化数据的提取;
结构化抓取,通过针对各种规律的分析工具进行结构化数据的提取。
优选的是,所述非结构化数据,其数据的内容整体没有固定的格式和语法规范;
结构化数据,其数据的内容有固定的语法规范,按照固定的结构进行组织管理。
优选的是,所述页面样式渲染工具为Semantic,所述数据处理工具和输出工具为React,所述后端程序通过express架构为所述前端程序提供数据访问API。
优选的是,所述反反爬安全机制包括:cookie池、代理池、验证码、时间间隔。
优选的是,在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用,用户能够根据需求自由定制并保存自定义模板。
一种支持多协议分布式高并发的互联网信息采集方法,包括如下步骤:
步骤1、引擎打开一个网站,找到处理所述网站的爬虫;
步骤2、所述爬虫通过所述引擎向调度器请求初始URL;
步骤3、所述调度器将初始URL作为请求进行排序和入队处理;
步骤4、所述引擎向所述调度器请求待爬取URL,
步骤5、所述调度器返回待爬取URL给所述引擎;
步骤6、所述引擎将待爬取URL通过下载中间器发送给下载器;
步骤7、所述下载器向互联网发送请求,页面下载完毕后,所述下载器生成页面的响应;
步骤8、所述引擎从所述下载器中接收响应,并通过爬虫中间器发送给所述爬虫;
步骤9、所述爬虫处理响应,并提取项目经过引擎交给项目管道保存;
步骤10、重复步骤2-步骤8,直至所述调度器中没有待处理的请求,所述引擎关闭。
本发明的有益效果是:
本发明提供的支持多协议分布式高并发的互联网信息采集***,采集引擎采用了分布式高并发主从策略,并根据固定的抓取策略、更新策略、抽取策略和抓取频率向协议处理器分配URL,减少了高并发模式下单一服务器的运行压力,更好地解决高并发模式下的效率低下问题;
本发明提供的支持多协议分布式高并发的互联网信息采集***还执行了反反爬机制,能够防止别的信息抓取网站对本***的信息爬取,保证数据安全,因此本***能够提供相对安全、快速的互联网信息采集服务;
本发明提供的支持多协议分布式高并发的互联网信息采集***的客户端支持用户自定义模板,方便用户对非常用网站的信息采集;
本发明提供的支持多协议分布式高并发的互联网信息采集方法,通过对URL数据的处理,能够实现对指定网站执行信息抓取,并对重复冗余信息进行过滤,对经过过滤的信息进行分析处理,将信息规整入相关的数据库中。
附图说明
图1为本发明所述支持多协议分布式高并发的互联网信息采集***的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了一种支持多协议分布式高并发的互联网信息采集***,解决了服务器压力过大,造成效率下降的问题;并且实现了对爬取结果进行过滤和分析,将相关的数据分类存储,从而避免了目标网页可能存在的大量干扰信息。
如图1所示,为本发明提供的支持多协议分布式高并发的互联网信息采集***,包括:客户端110、主机服务器(图中未标出)、主采集服务器140、缓存服务器150、从采集服务器160和数据存储服务器(图中未标出)。
其中,客户端110采用B/S风格,主要用于PC端,通过互联网与主机服务器进行交互,能够完整地支持使用者对整个爬取过程的控制。
客户端110中预存了一些相对知名度较高的网站信息采集模板,同时可根据需求自由定制并保存自定义模板,通过控制台进入我的应用列表或者首页创建自定义应用,用户可自定义开发爬取应用,配置数据参数。
主机服务器部署在机房,主机服务器的项目采取前后分离模式,即包括前端程序(客户端界面)120和后端程序(服务端接口)130,所述前端程序120包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序120通过互联网与所述客户端110进行交互;所述后端程序130为所述前端程序120提供数据访问API。
在本实施例中,前端程序120中使用Semantic作为页面样式渲染工具,React作为数据处理和输出工具,通过互联网与客户端110进行交互,为客户端110提供界面服务。后端程序130使用express架构,为前端程序120提供数据访问API。
采集服务器(采集引擎)使用分布式高并发主从策略:
主采集服务器140通过互联网与主机服务器和缓存服务器交互,从主机服务器接收指令,利用Scrapy框架对相关URL实行提取与管理,控制采集调度,根据固定的策略向协议处理器分配URL,同时通过cookie池、代理池、验证码、时间间隔实现反反爬安全机制。
其中,固定的策略主要包括以下4种策略:
(1)抓取策略:使用URL的正则特征实现定向抓取,即通过网站URL的特征(正则),降低抓取数量;
(2)更新策略:主要包括定期批量更新和按更新周期更新,定期批量更新指对一批URL,按照失效时间定期去刷新,按周期更新指的是按照页面更新变化频率而修正更新频率,更新越频繁的网页更新也就越快,因此让平均age(抓取的网页过期的时间)越小,freshness(抓取到的网页是否已经被修改)越高;
(3)抽取策略:通过XPATH定位网页的任意一个位置,能够精准的抽取页面上的任意位置;
(4)抓取频率:抓取的频率不能过度频繁,抓取网站同时不对对方网站造成压力,在robot.txt协议里面定义Crawl-delay来确定抓取的频率是一种网站的通用的做法,本发明的互联网信息采集***在10到20秒抓取一次。
缓存服务器150为缓存数据库Redis,通过数据库操作对送入的URL数据进行排序与去重。
其中,排序与去重的过程为:将爬取的链接存入redis,将即将请求的url判断是否已经爬取,如果redis数据库中没有一条url数据则会一直将整站的page抓取,但如果是在某个时间点我们已经爬取完了数据,继续启动程序爬取增加的数据是会去判断每个url是否已经爬取,当url有重复时parse_page不会回调parse_item(url去重),程序会跳出,循环结束。
从采集服务器160自动从Redis中抓取待采集的URL,进行页面解析,对网页上的数据进行获取,提取有价值的数据;从采集服务器160在执行抓取任务的同时执行反反爬机制。
其中,从采集服务器160是通过主机服务器启动的,主机服务器通过服务端接口130能够对从采集服务器160中的数据进行调用。
对于不同结构数据使用不同方法对数据进行抓取:
a、非结构化数据:数据的内容整体没有固定的格式和语法规范,智能根据字符出现的规律进行动态匹配的方式来完成数据的提取。
非结构化数据包括:用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、商品名称等等。
非结构化数据的抓取方法为:正则表达式。
b、结构化数据:数据的内容有固定的语法规范,按照一定的结构进行组织管理,可以通过针对这些规律的分析工具进行数据的提取
结构化数据包括:HTML网页文档、XML网页文档、JSON等等。
结构化数据由于数据本身存在一定的规律性,因此结构化数据的抓取方法为:正则表达式、Xpath、BeautifulSoup4、select、css等等。
数据存储服务器,其包括持久化数据库171和文件***172,用于对所述爬取结果进行保存,所述数据存储服务器将数据结果返回给主机服务器进行渲染。
其中,从采集服务器160将抓取的文本信息存储到持久化数据库MongoDB171中,将抓取的图片信息存储到文件***172中。
实施例
用户注册/登录进入客户端110网页,首页列举了官方提供模板的采集应用列表,点击某一种模板,将会显示采集应用的示例详情;用户也可以在创建自定义采集应用中创建自定义的采集模板,并在列表中管理自定义模板。
自定义模板过程为:通过控制台进入我的应用列表或者首页创建自定义应用,用户可自定义开发爬取应用,配置数据参数。
在相关模板中选择获取爬虫,开始管理对应的数据采集进程,点击启动爬虫,应用将根据模板对相应的URL进行信息采集,在接收到采集命令后,主机服务器向主采集服务器发送URL,主采集服务器的URL处理器开始运行,控制URL的调度,并将调度结果存入缓存服务器的数据库Redis中,同时主采集服务器执行反反爬机制,保障数据安全,缓存服务器数据库Redis对URL进行排序去重等过滤处理,从采集服务器自动从Redis中获取URL并对页面进行解析,通过信息抓取算法获取相关目标数据,对数据进行分析,根据分析结果,将抓取的文本信息存储到持久化数据库MongoDB中,将抓取的图片信息存储到文件***,采集结束后可浏览采集结果,通过采集日志可以寻找异常采集,可将采集结果导出到文件。
客户端110通过主机服务器对抓取结果进行调用,将数据预览呈现给使用者,使用者还可使用客户端110的云市场、浏览帮助文档、查看个人信息和国际化的服务。
本发明提供的一种支持多协议分布式高并发的互联网信息采集***,通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集***,***能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。
本发明还提供一种支持多协议分布式高并发的互联网信息采集方法,包括如下步骤:
步骤1、引擎(ScrapyEngine)打开一个网站,找到处理该网站的爬虫(Spider);
其中,ScrapyEngine控制数据流在***的所有组件中流动,并在相应动作发生时触发事件,是整个爬虫的调度中心;
步骤2、Spider通过ScrapyEngine向调度器(Schedule)请求第一个(批)要爬取的url(s),并加入到Schedule作为请求(request)以备调度;
其中,Schedule接收从引擎发过来的requests,并将他们入队,初始爬取url和后续在页面里爬到的待爬取url放入Schedule中,等待被爬取;
步骤3、ScrapyEngine向Schedule请求下一个要爬取的url;
步骤4、Schedule返回下一个要爬取的url给ScrapyEngine;
步骤5、ScrapyEngine通过下载中间器(DownloaderMiddlewares)将url转发给下载器(Downloader);
其中,DownloaderMiddlewares是在ScrapyEngine和Downloader之间的特定钩子(specific hook),处理它们之间的request和响应(response),提供了一个简单的机制,通过***自定义代码来扩展Scrapy功能,通过设置DownloaderMiddlewares来实现爬虫自动更换user-agent,IP等。
Downloader获取页面数据,并提供给ScrapyEngine,而后提供给spider;
步骤6、Downloader向互联网发送请求进行下载,页面下载完毕后,Downloader生成一个页面的response,通过DownloaderMiddlewares发送给ScrapyEngine;
步骤7、ScrapyEngine从Downloader中接收到Response,将Response通过爬虫中间器(SpiderMiddlewares)发送给Spider处理;
步骤8、Spider处理Response并返回提取到的项目(Item)以及新的Request给ScrapyEngine;
步骤9、ScrapyEngine将Spider返回的Item交给项目管道(ItemPipeline)进行保存;
用户编写用于分析response并提取item和额外跟进的url,将额外跟进的url提交给ScrapyEngine,加入到Schedule中,每个spider负责处理一个特定(或一些)网站;
ItemPipeline处理被spider提取出来的item:当页面被爬虫解析所需的数据存入Item后,将被发送到Pipeline,并经过设置好次序;在本实施例中ItemPipeline为缓存服务器;
步骤10、重复步骤2-步骤9,直到Schedule中没有待处理的Request,ScrapyEngine关闭。
本发明提供的一种支持多协议分布式高并发的互联网信息采集***和方法,通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集***,***能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (8)

1.一种支持多协议分布式高并发的互联网信息采集***,其特征在于,包括:
客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;
主机服务器,其包括前端程序和后端程序;
其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;
主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;
缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;
其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;
从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;
其中,所述主机服务器能够调用所述从采集服务器中的数据;
数据存储服务器,其包括持久化数据库和文件***,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述主机服务器。
2.根据权利要求1所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,所述抓取结果包括:
文本信息,其存储于所述持久化数据库中;
图片信息,其存储于所述文件***中。
3.根据权利要求2所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,所述抓取包括:
非结构化抓取,根据字符出现的规律进行动态匹配完成非结构化数据的提取;
结构化抓取,通过针对各种规律的分析工具进行结构化数据的提取。
4.根据权利要求3所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,所述非结构化数据,其数据的内容整体没有固定的格式和语法规范;
结构化数据,其数据的内容有固定的语法规范,按照固定的结构进行组织管理。
5.根据权利要求4所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,所述页面样式渲染工具为Semantic,所述数据处理工具和输出工具为React,所述后端程序通过express架构为所述前端程序提供数据访问API。
6.根据权利要求5所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,所述反反爬安全机制包括:cookie池、代理池、验证码、时间间隔。
7.根据权利要求6所述的支持多协议分布式高并发的互联网信息采集***,其特征在于,在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用,用户能够根据需求自由定制并保存自定义模板。
8.一种支持多协议分布式高并发的互联网信息采集方法,其特征在于,包括如下步骤:
步骤1、引擎打开一个网站,找到处理所述网站的爬虫;
步骤2、所述爬虫通过所述引擎向调度器请求初始URL;
步骤3、所述调度器将初始URL作为请求进行排序和入队处理;
步骤4、所述引擎向所述调度器请求待爬取URL,
步骤5、所述调度器返回待爬取URL给所述引擎;
步骤6、所述引擎将待爬取URL通过下载中间器发送给下载器;
步骤7、所述下载器向互联网发送请求,页面下载完毕后,所述下载器生成页面的响应;
步骤8、所述引擎从所述下载器中接收响应,并通过爬虫中间器发送给所述爬虫;
步骤9、所述爬虫处理响应,并提取项目经过引擎交给项目管道保存;
步骤10、重复步骤2-步骤8,直至所述调度器中没有待处理的请求,所述引擎关闭。
CN202010276673.5A 2020-04-10 2020-04-10 一种支持多协议分布式高并发的互联网信息采集***及方法 Pending CN111488508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010276673.5A CN111488508A (zh) 2020-04-10 2020-04-10 一种支持多协议分布式高并发的互联网信息采集***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010276673.5A CN111488508A (zh) 2020-04-10 2020-04-10 一种支持多协议分布式高并发的互联网信息采集***及方法

Publications (1)

Publication Number Publication Date
CN111488508A true CN111488508A (zh) 2020-08-04

Family

ID=71810959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010276673.5A Pending CN111488508A (zh) 2020-04-10 2020-04-10 一种支持多协议分布式高并发的互联网信息采集***及方法

Country Status (1)

Country Link
CN (1) CN111488508A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966880A (zh) * 2020-08-17 2020-11-20 江苏百达智慧网络科技有限公司 可视化网站内容采集方法和***
CN112231534A (zh) * 2020-10-14 2021-01-15 上海蜜度信息技术有限公司 一种配置爬虫的方法与设备
CN112347330A (zh) * 2020-11-05 2021-02-09 江苏电力信息技术有限公司 一种面向城市大数据的分布式并行获取方法
CN112597373A (zh) * 2020-12-29 2021-04-02 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN113094568A (zh) * 2021-04-15 2021-07-09 安徽鹿鼎科技有限公司 一种基于数据爬虫技术的数据提取方法
CN113660312A (zh) * 2021-07-23 2021-11-16 中建材(合肥)粉体科技装备有限公司 一种水泥厂设备数据采集***及方法
CN117633326A (zh) * 2023-12-04 2024-03-01 北京曜志科技有限公司 一种用于互联网海量数据的数据监测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999549A (zh) * 2012-09-25 2013-03-27 金博 一种实现网络爬虫任务的方法
CN104050037A (zh) * 2014-06-13 2014-09-17 淮阴工学院 一种基于指定电子商务网站的定向爬虫的实现方法
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储***的网络爬虫***
CN105096181A (zh) * 2015-07-23 2015-11-25 浪潮软件集团有限公司 一种大数据的电商交易方法及电商交易***
CN106484886A (zh) * 2016-10-17 2017-03-08 金蝶软件(中国)有限公司 一种数据采集的方法及其相关设备
CN107087001A (zh) * 2017-05-15 2017-08-22 华中科技大学 一种分布式的互联网重要地址空间检索***
CN206728054U (zh) * 2017-05-26 2017-12-08 山东省科学院情报研究所 保密单位网络信息采集分析***
CN107590188A (zh) * 2017-08-08 2018-01-16 杭州灵皓科技有限公司 一种自动化垂直细分领域的爬虫爬取方法及其管理***
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及***
CN109446441A (zh) * 2018-09-26 2019-03-08 北京邮电大学 一种通用的网络社区可信分布式采集存储***
CN110866166A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 面向海量数据采集的分布式网络爬虫性能优化***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999549A (zh) * 2012-09-25 2013-03-27 金博 一种实现网络爬虫任务的方法
CN104050037A (zh) * 2014-06-13 2014-09-17 淮阴工学院 一种基于指定电子商务网站的定向爬虫的实现方法
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储***的网络爬虫***
CN105096181A (zh) * 2015-07-23 2015-11-25 浪潮软件集团有限公司 一种大数据的电商交易方法及电商交易***
CN106484886A (zh) * 2016-10-17 2017-03-08 金蝶软件(中国)有限公司 一种数据采集的方法及其相关设备
CN107087001A (zh) * 2017-05-15 2017-08-22 华中科技大学 一种分布式的互联网重要地址空间检索***
CN206728054U (zh) * 2017-05-26 2017-12-08 山东省科学院情报研究所 保密单位网络信息采集分析***
CN107590188A (zh) * 2017-08-08 2018-01-16 杭州灵皓科技有限公司 一种自动化垂直细分领域的爬虫爬取方法及其管理***
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及***
CN109446441A (zh) * 2018-09-26 2019-03-08 北京邮电大学 一种通用的网络社区可信分布式采集存储***
CN110866166A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 面向海量数据采集的分布式网络爬虫性能优化***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966880A (zh) * 2020-08-17 2020-11-20 江苏百达智慧网络科技有限公司 可视化网站内容采集方法和***
CN112231534A (zh) * 2020-10-14 2021-01-15 上海蜜度信息技术有限公司 一种配置爬虫的方法与设备
CN112347330A (zh) * 2020-11-05 2021-02-09 江苏电力信息技术有限公司 一种面向城市大数据的分布式并行获取方法
CN112597373A (zh) * 2020-12-29 2021-04-02 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN112597373B (zh) * 2020-12-29 2023-09-15 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN113094568A (zh) * 2021-04-15 2021-07-09 安徽鹿鼎科技有限公司 一种基于数据爬虫技术的数据提取方法
CN113660312A (zh) * 2021-07-23 2021-11-16 中建材(合肥)粉体科技装备有限公司 一种水泥厂设备数据采集***及方法
CN117633326A (zh) * 2023-12-04 2024-03-01 北京曜志科技有限公司 一种用于互联网海量数据的数据监测方法

Similar Documents

Publication Publication Date Title
CN111488508A (zh) 一种支持多协议分布式高并发的互联网信息采集***及方法
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及***
CN107590188B (zh) 一种自动化垂直细分领域的爬虫爬取方法及其管理***
US11477298B2 (en) Offline client replay and sync
TWI537755B (zh) Web page information acquisition method and capture system
EP3063674B1 (en) Determining web page processing state
EP2664998B1 (en) Microblog message processing method and device thereof
CN103927314B (zh) 一种数据批量处理的方法和装置
CN102007495B (zh) 用于转换对于修改关于发布/订阅主题串的订阅的集合的自然语言请求的方法、装置和软件
CN109600385B (zh) 一种访问控制方法及装置
CN106599270B (zh) 网络数据抓取方法和爬虫
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN103458065A (zh) 一种HTML5标准下基于Webkit内核的视频地址提取方法
CN115454629A (zh) 基于云原生技术的ai算法与微服务调度方法及其装置
CN103593396A (zh) 基于浏览器的网络资源的提取方法及装置
CN111221744B (zh) 数据采集方法、装置及电子设备
CN105095070B (zh) 基于浏览器测试组件的qq群数据获取方法与***
WO2019000897A1 (zh) 一种数据获取方法及设备
US11500945B2 (en) System and method of crawling wide area computer network for retrieving contextual information
CN114443927A (zh) 一种高效网络爬取方法及装置
CN103617224B (zh) 一种网页收藏方法、装置及***
CN108664646B (zh) 一种基于关键字的音视频自动下载***
US9563668B2 (en) Executing a batch process on a repository of information based on an analysis of the information in the repository
CN112333560A (zh) 网页视频解析播放方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804