CN111753169A - 一种基于互联网的数据采集*** - Google Patents
一种基于互联网的数据采集*** Download PDFInfo
- Publication number
- CN111753169A CN111753169A CN202010604543.XA CN202010604543A CN111753169A CN 111753169 A CN111753169 A CN 111753169A CN 202010604543 A CN202010604543 A CN 202010604543A CN 111753169 A CN111753169 A CN 111753169A
- Authority
- CN
- China
- Prior art keywords
- module
- configuration
- acquisition
- task
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 2
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000003306 harvesting Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种基于互联网的数据采集***,包括采集服务器、采集客户端,所述采集客户端包括若干采集组件、若干池组件和若干接口组件;所述采集组件包括配置解析器、任务调度器、流程控制器、流程执行器、流程返回器;所述池组件包括采集任务池、配置池、采集线程资源池;所述接口组件包括获取采集任务接口、获取配置接口、数据返回接口;其中至少一个所述采集组件通过至少一个所述接口组件调用至少一个所述池组件。本发明提供了基于互联网的数据采集***具有较好松耦合性能及较高的鲁棒性、采集数据流转速度快、实现方法简单等技术问题,在金融、制造业等多个领域均取得了良好的应用。
Description
技术领域
本发明属于从网上采集检索的数据库领域,特别涉及一种基于互联网的数据采集***。
背景技术
已知的数据采集***包括采集客户端和服务端,构建数据采集***时,由于采集***的功能、数据流转及主要实现方法的不同,会导致数据采集***的性能具有较大的差异,这些已知数据采集***至少存在采集性能鲁棒性较低、采集数据流转速度慢、实现方法复杂、水平扩展能力差、采集配置技术门槛高等技术问题。
发明内容
为了解决上述问题,本发明提供了基于互联网的数据采集***,包括采集服务器、采集客户端,所述采集客户端包括若干采集组件、若干池组件和若干接口组件;所述采集组件包括配置解析器、任务调度器、流程控制器、流程执行器、流程返回器;所述池组件包括采集任务池、配置池、采集线程资源池;所述接口组件包括获取采集任务接口、获取配置接口、数据返回接口;其中至少一个所述采集组件通过至少一个所述接口组件调用至少一个所述池组件。
本发明的有益效果在于,本发明提供了基于互联网的数据采集***具有较好松耦合性能及较高的鲁棒性、采集数据流转速度快、实现方法简单等技术问题,在金融、制造业等多个领域均取得了良好的应用。
附图说明
图1.***体系架构示意图;
图2.采集任务执行管理示意图;
图3.获取采集任务示意图;
图4.获取配置示意图;
图5.数据返回配置示意图;
图6.获取代理配置示意图;
图7.打码配置示意图。
具体实施方式
本发明的基于互联网的数据采集***的***体系架构可以有多种实现方式,下面示例性的给出的***体系架构不应作为本发明保护范围的具体限定。在这些实施例中,参考图1所示,数据采集***的***体系架构包括DB存储层(SDB\Postgre SQL、SDB API)、MYSQL,业务逻辑层包括(任务队列、任务调度、任务生成器、二次任务创建、数据清洗、代理管理、日志管理、验证码调度、采集客户端更新、采集客户端状态管理、采集返回数据接收)、用户管理(采集配置、任务管理、任务监控、采集客户端管理)、第三方组件(ActiveMQTM、Couchbase);接口层(Mina(实时连接)WebService(调用返回式));Client(服务端采集点(Python)、Windows采集客户端软件(jave、C#))、IE浏览器插件(C#)。
本发明的基于互联网的数据采集***的一些实施例中,包括采集服务器、采集客户端,所述采集客户端包括若干采集组件、若干池组件和若干接口组件;所述采集组件包括配置解析器、任务调度器、流程控制器、流程执行器、流程返回器;所述池组件包括采集任务池、配置池、采集线程资源池;所述接口组件包括获取采集任务接口、获取配置接口、数据返回接口;其中至少一个所述采集组件通过至少一个所述接口组件调用至少一个所述池组件。
在本发明的一些实施例中,参考图2所示,所述采集客户端执行采集任务时,所述采集组件按照如下方式配置:
所述配置解析器即配置解析主模块,所述配置解析主模块的二级模块包括配置实例化模块、配置版本比对模块、生成配置池模块,其中配置实例化模块被配置为将配置以文件格式实例化到本地磁盘,以JSON格式文件存储(配置包含任务执行需要的配置参数,如:请求方法、请求头、URL模板、是否需要验证码、数据抽取规则、流程节点等);所述配置版本比对模块被配置为从采集服务器返回的任务进行配置比对,所述生成配置池模块被配置为将未执行的任务配置放入配置池;
所述任务调度器即任务调度主模块,所述任务调度主模块被配置为:采集线程通过任务调度主模块,从所述配置池中取得对应任务的采集配置和流程配置,放入所述采集线程资源池,并启动流程控制器;所述任务调度主模块的二级模块包括调度算法模块、启动采集线程模块、获取任务接口模块、生成采集线程资源池模块、清空采集线程资源池模块、清除采集任务池模块和清除配置池模块;
所述流程控制器即流程控制器主模块,所述流程控制器主模块被配置为:从采集线程资源池中取得流程配置,根据所述流程配置中的执行顺序,通知流程执行器调用执行节点流程的先后执行,执行结果发生异常时根据流程配置的异常处理情况,进行相应处理;所述流程控制器主模块的二级模块包括流程节点执行模块、配置版本比对模块、生成配置池模块;
所述流程执行器即流程执行器主模块,所述流程执行器主模块被配置为:执行节点业务、将执行结果发送给所述流程控制器,所述节点业务包括但不限于登录、取页面、标准化处理、抽取;所述流程执行器主模块的二级模块包括流程节点执行模块、获取代理模块、打码模块、登录模块、取页面模块、标准化模块、数字提取模块,其中,所述流程节点执行模块被配置为,输入流程节点配置以及上一流程节点返回值,执行节点定义的代码逻辑,输出当前流程节点返回值;
所述流程返回器即流程返回主模块,所述流程返回主模块被配置为:接收流程控制器发来的最后节点信息,将流程结束信息发送给所述任务调度器;所述流程返回主模块的二级模块包括生成返回数据模块、调用数据返回接口模块。
在本发明的一些实施例中,所述配置解析器的配置被执行时:调用获取配置接口,获取任务需要配置后优先与本地的配置文件进行比对,如过本地配置版本与流程配置版本相同,则将本地配置放入配置池,如版本不同则从采集服务器下载相应配置后,将配置放入配置池;所述配置文件包括但不限于:采集客户端ID、采集客户端版本、最大取任务数、采集任务池中的任务数量阈值、允许的最大线程数量、采集客户端计算机配置信息。
在本发明的一些实施例中,所述任务调度器的配置中,包括但不限于配置任务最晚执行时间(绝对值)(本发明的多数实施例中任务的执行是有失效期的,比如包含会话认证信息的任务,通常30分钟失效,在有效内执行才有意义)、任务优先级、网站采集频率、采集客户端允许的最大线程数;所述调度算法模块被配置为:执行输入则调度考虑因素和采集任务池、执行输出则需要执行的任务ID;所述获取任务接口模块被配置为,执行输入则获取采集客户端ID,执行输出则需要执行的任务队列;所述生产采集线程资源池模块被配置为,从配置池中读取本次采集任务对应的配置信息,并生成采集线程资源池。
在本发明的一些实施例中,所述流程控制器的配置中,需要根据返回执行情况判断是否需要异常处理,如果需要异常处理则执行异常处理调度,如果不需要异常处理再判断是否为最后节点;在执行异常处理调度过程中,如果是部分失败则与执行正常按序调度结果一起发送到流程执行器,如果是完全失败则送到流程返回器;在执行判断是否为最后节点的过程中,如果是最后节点则通知所述流程返回器,如果不是最后节点则进行正常按序调度;
所述流程节点执行模块被执行时,执行输入则流程异常配置、上一流程节点返回值、执行输出则下个节点名称;所述配置版本比对模块被执行时,则对从采集服务器返回的任务配置进行比对,如有更新,则更新任务配置;所述生成配置池模块被执行时,则将未执行的任务配置放入配置池。
在本发明的一些实施例中,所述流程执行器执行过程中,所述流程执行器是对各个流程节点内程序的执行,程序所需业务资源全部在采集线程资源池中预先定义,处理结果写入采集线程资源池;采集客户端包含的流程节点包括但不限于:登录、获取页面、标准化处理、数据抽取,其中每个流程节点定义不同的入口地址,执行不同的代码块。
在本发明的一些实施例中,所述采集客户端在每次执行完采集任务时,所述接口组件按照如下方式配置:
获取采集任务接口被配置为:判断采集任务池中的任务数量,当少于配置某一阈值时,执行获取任务函数调用获取采集任务接口;返回任务的数量由采集服务器端设定;
所述池组件按照如下方式配置:
所述采集任务池被配置为:储存从采集服务器获取的未采集的任务;
所述配置池被配置为:储存未采集任务的所有配置,包括采集配置和流程配置;
所述采集线程资源池被配置为:存储采集所需的所有资源,采集任务从中读取所需内容,同时也将结果写入;单个采集任务开始前所述采集线程资源池被初始化。
在本发明的一些实施例中,所述采集服务器包括服务器任务调度主模块、服务器采集返回数据处理主模块、服务器代理验证主模块、服务器打码服务主模块和若干服务器接口组件;
至少一个服务器接口被配置为:获取采集任务,参见图3,配置过程为:获取采集任务、解析接口数据(采集客户端ID)、读取采集客户端配置(采集客户端配置:采集客户端ID、采集客户端版本、最大取任务数、采集任务池中的人数数量阈值、允许的最大线程数量、采集客户端计算机配置信息)、任务调度(影响调度的因素:任务绝对时间、是否指定采集客户端、优先级、采集客户端取任务数量)、组装返回数据和接口返回(任务格式和接口格式)、回写任务状态;
至少一个服务器接口被配置为:如图4所示,获取配置:获取配置、解析接口数据(配置ID、任务GUID)、读取配置表、组装返回数据和接口返回(任务格式和接口格式);
至少一个服务器接口被配置为:如图5所示,数据返回配置:数据返回、解析接口数据、采集数据入库、(如成功)子任务生成(采集配置、列表子任务、明细子任务);
至少一个服务器接口被配置为:如图6所示,获取代理配置:获取代理、解析接口数据、取代理、组装返回数据和接口返回、代理信息更新;
至少一个服务器接口被配置为:如图7所示,打码配置:扫码、解析接口数据、调用打码接口(打码类型)、组装返回数据或接口返回、记录打码信息(打码信息、时间、任务id、打码类型、打码图片、返回值)。
在本发明的一些实施例中,所述服务器任务调度主模块被配置为:对采集客户端采集任务的整体控制,调度依据任务的最晚执行时间、是否绑定采集客户端、优先级、采集客户端最大执行数量;所述服务器任务调度主模块的二级模块包括调度算法模块、获得采集客户端配置模块、回写任务状态模块,所述获得采集客户端配置模块被执行时,采集客户端配置中包含返回任务数量;
所述服务器采集返回数据处理主模块被配置为:采集客户端采集到数据后会将结果返回给采集服务器,采集服务器在接收到数据后在此功能进行处理,可将数据入库也可根据情况生成子任务;所述服务器采集返回数据处理主模块的二级模块包括采集数据解析模块、子任务生成模块、子任务存储模块、采集数据入库模块、异常数据入库模块;其中,所述采集数据解析模块被执行时,则采集结果数据包括成功失败以及成功数据类型,子任务生成模块被执行时,则根据配置文件内的信息,子任务为列表任务或明细任务,异常数据入库模块被执行,则当采集数据入库失败后将此条数据放入异常库。
在本发明的一些实施例中,所述服务器代理验证主模块被配置为:在此模块对代理的有效性进行验证,去除无效代理。所述代理维护主模块的二级模块包括代理验证、代理删除和代理信息变更,其中,代理验证模块被执行时,执行输入则代理,执行输出则有效/无效,代理删除被执行时,去除无效代理,代理信息变更模块被执行时,对代理被那些任务使用过进行记录;
所述服务器打码服务主模块被配置为:打码服务调用外部接口,对采集客户端上传的验证码进行处理,所述打码服务主模块的二级模块包括打码类型定义模块、调用外部接口模块、对打码信息进行保存模块,其中,调用外部接口模块被执行时,去除无效代理,对打码信息进行保存模块被执行时,任务guid、验证码图片、打码结果;
所述服务器数据更新主模块被配置为:根据在互联网上不定期更新的数据,定期更新采集数据,更新分为轻度更新和完全更新,其中,轻度更新仅对url进行比对(速度较快),完全更新对制定网站的数据进行重新抓去;所述服务器数据更新主模块的二级模块包括定时器模块、轻度更新模块和完整更新模块,其中,定时器被执行时,定时执行更新操作,轻度更新模块被执行时,仅对URL进行比对,完整更新被执行时,对网站数据重新采集。
在本发明的一些实施例中,所述接口组件被配置为:
获取任务
采集客户端从此接口从采集服务器获取采集任务;
采集客户端发送参数:采集客户端ID;
采集服务器返回参数:任务数量、任务集合;
数据返回
采集客户端采集到的数据通过这个接口返回给采集服务器;
发送参数:任务guid、返回标识、数据包(json)、源文件、源文件名、文件名、文件类型;
获取配置
所有配置信息从此接口获得,包含登录配置、采集配置(采集配置中包含流程配置);
采集客户端发送参数:配置guid、配置类型(登录or采集);
采集服务器返回参数:配置guid、配置内容、配置类型;
获取代理
采集客户端发送参数:采集客户端ID、任务GUID;
采集服务器返回参数:代理类型、代理ip、端口、用户名、密码;
打码请求
采集客户端发送参数:任务id、打码类型、打码图片;
采集服务器返回参数:任务id、打码值。
本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。
作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。
计算机程序(还可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)可以以任意形式的编程语言而被写出,包括编译语言或者解释语言或者声明性语言或过程式语言,并且计算机程序可以以任意形式展开,包括作为独立程序或者作为模块、组件、子程序或者适于在计算环境中使用的其他单元。计算机程序可以但不必须对应于文件***中的文件。程序可以被存储在保存其他程序或者数据的文件的一部分中,例如,存储在如下中的一个或多个脚本:在标记语言文档中;在专用于相关程序的单个文件中;或者在多个协同文件中,例如,存储一个或多个模块、子程序或者代码部分的文件。计算机程序可以被展开为执行在一个计算机或者多个计算机上,所述计算机位于一处,或者分布至多个场所并且通过通信网络而互相连接。
为了发送与用户的交互,本说明书中描述的主题的实施方式可以被实施在计算机上,该计算机具有:显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器)监控器,用于向用户显示信息;以及键盘和例如鼠标或者追踪球这样的定位装置,用户利用它们可以将输入发送到计算机。其他种类的装置也可以用于发送与用户的交互;例如,提供给用户的反馈可以是任意形式的传感反馈,例如,视觉反馈、听觉反馈或者触觉反馈;以及来自用户的输入可以以任意形式接收到,包括声响输入、语音输入或者触觉输入。另外,计算机可以通过将文档发送至由用户使用的装置并且接收来自该装置的文档而与用户交互;例如,通过响应于接收到的来自网络浏览器的请求,而将网页发送到用户的采集客户端装置上的网络浏览器。
本说明书中描述的主题的实施方式可以在计算***中实施,该计算***包括例如数据采集服务器这样的后端组件,或者包括例如应用采集服务器这样的中间组件,或者包括例如采集客户端计算机这样的前端组件,该采集客户端计算机具有图形用户界面或者网络浏览器,用户可以通过图形用户界面或者网络浏览器而与本说明书中描述的主题的实施进行交互,或者该计算机***包括一个或多个这种后端组件、中间组件或者前端组件的任意组合。***中的组件可以通过例如通信网络的任意形式或介质的数字数据通信而互相连接。通信网络的实例包括局域网络(“LAN”)和广域网络(“WAN”),例如,因特网。__计算***可以包括采集客户端和采集服务器。采集客户端和采集服务器通常彼此远离,并且通常通过通信网络而交互。采集客户端与采集服务器之间的关系利用在各自的计算机上运行并且具有彼此之间的采集客户端-采集服务器关系的计算机程序而产生。
Claims (10)
1.一种基于互联网的数据采集***,包括采集服务器、采集客户端,其特征在于,所述采集客户端包括若干采集组件、若干池组件和若干接口组件;所述采集组件包括配置解析器、任务调度器、流程控制器、流程执行器、流程返回器;所述池组件包括采集任务池、配置池、采集线程资源池;所述接口组件包括获取采集任务接口、获取配置接口、数据返回接口;其中至少一个所述采集组件通过至少一个所述接口组件调用至少一个所述池组件。
2.如权利要求1所述的***,其特征在于,所述采集客户端执行采集任务时,所述采集组件按照如下方式配置:
所述配置解析器即配置解析主模块,所述配置解析主模块的二级模块包括配置实例化模块、配置版本比对模块、生成配置池模块,其中配置实例化模块被配置为将配置以文件格式实例化到本地磁盘,以JSON格式文件存;所述配置版本比对模块被配置为从采集服务器返回的任务进行配置比对,所述生成配置池模块被配置为将未执行的任务配置放入配置池;
所述任务调度器即任务调度主模块,所述任务调度主模块被配置为:采集线程通过任务调度主模块,从所述配置池中取得对应任务的采集配置和流程配置,放入所述采集线程资源池,并启动流程控制器;所述任务调度主模块的二级模块包括调度算法模块、启动采集线程模块、获取任务接口模块、生成采集线程资源池模块、清空采集线程资源池模块、清除采集任务池模块和清除配置池模块;
所述流程控制器即流程控制器主模块,所述流程控制器主模块被配置为:从采集线程资源池中取得流程配置,根据所述流程配置中的执行顺序,通知流程执行器调用执行节点流程的先后执行,执行结果发生异常时根据流程配置的异常处理情况,进行相应处理;所述流程控制器主模块的二级模块包括流程节点执行模块、配置版本比对模块、生成配置池模块;
所述流程执行器即流程执行器主模块,所述流程执行器主模块被配置为:执行节点业务、将执行结果发送给所述流程控制器,所述节点业务包括但不限于登录、取页面、标准化处理、抽取;所述流程执行器主模块的二级模块包括流程节点执行模块、获取代理模块、打码模块、登录模块、取页面模块、标准化模块、数字提取模块,其中,所述流程节点执行模块被配置为,输入流程节点配置以及上一流程节点返回值,执行节点定义的代码逻辑,输出当前流程节点返回值;
所述流程返回器即流程返回主模块,所述流程返回主模块被配置为:接收流程控制器发来的最后节点信息,将流程结束信息发送给所述任务调度器;所述流程返回主模块的二级模块包括生成返回数据模块、调用数据返回接口模块。
3.如权利要求1所述的***,其特征在于,所述配置解析器的配置被执行时:调用获取配置接口,获取任务需要配置后优先与本地的配置文件进行比对,如过本地配置版本与流程配置版本相同,则将本地配置放入配置池,如版本不同则从采集服务器下载相应配置后,将配置放入配置池;所述配置文件包括但不限于:采集客户端ID、采集客户端版本、最大取任务数、采集任务池中的任务数量阈值、允许的最大线程数量、采集客户端计算机配置信息。
4.如权利要求1所述的***,其特征在于,所述任务调度器的配置中,包括但不限于配置任务最晚执行时间(绝对值)(本发明的多数实施例中任务的执行是有失效期的,比如包含会话认证信息的任务,通常30分钟失效,在有效内执行才有意义)、任务优先级、网站采集频率、采集客户端允许的最大线程数;所述调度算法模块被配置为:执行输入则调度考虑因素和采集任务池、执行输出则需要执行的任务ID;所述获取任务接口模块被配置为,执行输入则获取采集客户端ID,执行输出则需要执行的任务队列;所述生产采集线程资源池模块被配置为,从配置池中读取本次采集任务对应的配置信息,并生成采集线程资源池。
5.如权利要求1所述的***,其特征在于,所述流程控制器的配置中,需要根据返回执行情况判断是否需要异常处理,如果需要异常处理则执行异常处理调度,如果不需要异常处理再判断是否为最后节点;在执行异常处理调度过程中,如果是部分失败则与执行正常按序调度结果一起发送到流程执行器,如果是完全失败则送到流程返回器;在执行判断是否为最后节点的过程中,如果是最后节点则通知所述流程返回器,如果不是最后节点则进行正常按序调度;
所述流程节点执行模块被执行时,执行输入则流程异常配置、上一流程节点返回值、执行输出则下个节点名称;所述配置版本比对模块被执行时,则对从采集服务器返回的任务配置进行比对,如有更新,则更新任务配置;所述生成配置池模块被执行时,则将未执行的任务配置放入配置池。
6.如权利要求1所述的***,其特征在于,所述流程执行器执行过程中,所述流程执行器是对各个流程节点内程序的执行,程序所需业务资源全部在采集线程资源池中预先定义,处理结果写入采集线程资源池;采集客户端包含的流程节点包括但不限于:登录、获取页面、标准化处理、数据抽取,其中每个流程节点定义不同的入口地址,执行不同的代码块。
7.如权利要求1所述的***,其特征在于,所述采集客户端在每次执行完采集任务时,所述接口组件按照如下方式配置:
获取采集任务接口被配置为:判断采集任务池中的任务数量,当少于配置某一阈值时,执行获取任务函数调用获取采集任务接口;返回任务的数量由采集服务器端设定;
所述池组件按照如下方式配置:
所述采集任务池被配置为:储存从采集服务器获取的未采集的任务;
所述配置池被配置为:储存未采集任务的所有配置,包括采集配置和流程配置;
所述采集线程资源池被配置为:存储采集所需的所有资源,采集任务从中读取所需内容,同时也将结果写入;单个采集任务开始前所述采集线程资源池被初始化。
8.如权利要求1所述的***,其特征在于,所述采集服务器包括服务器任务调度主模块、服务器采集返回数据处理主模块、服务器代理验证主模块、服务器打码服务主模块和若干服务器接口组件;
至少一个服务器接口被配置为:获取采集任务,参见图3,配置过程为:获取采集任务、解析接口数据(采集客户端ID)、读取采集客户端配置(采集客户端配置:采集客户端ID、采集客户端版本、最大取任务数、采集任务池中的人数数量阈值、允许的最大线程数量、采集客户端计算机配置信息)、任务调度(影响调度的因素:任务绝对时间、是否指定采集客户端、优先级、采集客户端取任务数量)、组装返回数据和接口返回(任务格式和接口格式)、回写任务状态;
至少一个服务器接口被配置为:如图4所示,获取配置:获取配置、解析接口数据(配置ID、任务GUID)、读取配置表、组装返回数据和接口返回(任务格式和接口格式);
至少一个服务器接口被配置为:如图5所示,数据返回配置:数据返回、解析接口数据、采集数据入库、(如成功)子任务生成(采集配置、列表子任务、明细子任务);
至少一个服务器接口被配置为:如图6所示,获取代理配置:获取代理、解析接口数据、取代理、组装返回数据和接口返回、代理信息更新;
至少一个服务器接口被配置为:如图7所示,打码配置:扫码、解析接口数据、调用打码接口(打码类型)、组装返回数据或接口返回、记录打码信息(打码信息、时间、任务id、打码类型、打码图片、返回值)。
9.如权利要求1所述的***,其特征在于,所述服务器任务调度主模块被配置为:对采集客户端采集任务的整体控制,调度依据任务的最晚执行时间、是否绑定采集客户端、优先级、采集客户端最大执行数量;所述服务器任务调度主模块的二级模块包括调度算法模块、获得采集客户端配置模块、回写任务状态模块,所述获得采集客户端配置模块被执行时,采集客户端配置中包含返回任务数量;
所述服务器采集返回数据处理主模块被配置为:采集客户端采集到数据后会将结果返回给采集服务器,采集服务器在接收到数据后在此功能进行处理,可将数据入库也可根据情况生成子任务;所述服务器采集返回数据处理主模块的二级模块包括采集数据解析模块、子任务生成模块、子任务存储模块、采集数据入库模块、异常数据入库模块;其中,所述采集数据解析模块被执行时,则采集结果数据包括成功失败以及成功数据类型,子任务生成模块被执行时,则根据配置文件内的信息,子任务为列表任务或明细任务,异常数据入库模块被执行,则当采集数据入库失败后将此条数据放入异常库。
10.如权利要求1所述的***,其特征在于,所述服务器代理验证主模块被配置为:在此模块对代理的有效性进行验证,去除无效代理。所述代理维护主模块的二级模块包括代理验证、代理删除和代理信息变更,其中,代理验证模块被执行时,执行输入则代理,执行输出则有效/无效,代理删除被执行时,去除无效代理,代理信息变更模块被执行时,对代理被那些任务使用过进行记录;
所述服务器打码服务主模块被配置为:打码服务调用外部接口,对采集客户端上传的验证码进行处理,所述打码服务主模块的二级模块包括打码类型定义模块、调用外部接口模块、对打码信息进行保存模块,其中,调用外部接口模块被执行时,去除无效代理,对打码信息进行保存模块被执行时,任务guid、验证码图片、打码结果;
所述服务器数据更新主模块被配置为:根据在互联网上不定期更新的数据,定期更新采集数据,更新分为轻度更新和完全更新,其中,轻度更新仅对url进行比对(速度较快),完全更新对制定网站的数据进行重新抓去;所述服务器数据更新主模块的二级模块包括定时器模块、轻度更新模块和完整更新模块,其中,定时器被执行时,定时执行更新操作,轻度更新模块被执行时,仅对URL进行比对,完整更新被执行时,对网站数据重新采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604543.XA CN111753169B (zh) | 2020-06-29 | 2020-06-29 | 一种基于互联网的数据采集*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604543.XA CN111753169B (zh) | 2020-06-29 | 2020-06-29 | 一种基于互联网的数据采集*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753169A true CN111753169A (zh) | 2020-10-09 |
CN111753169B CN111753169B (zh) | 2021-10-19 |
Family
ID=72677950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010604543.XA Active CN111753169B (zh) | 2020-06-29 | 2020-06-29 | 一种基于互联网的数据采集*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753169B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381503A (zh) * | 2020-11-06 | 2021-02-19 | 上海瀚银信息技术有限公司 | 一种项目上线优化管理***及方法 |
CN113132383A (zh) * | 2021-04-19 | 2021-07-16 | 烟台中科网络技术研究所 | 一种网络数据采集方法及*** |
CN114567621A (zh) * | 2022-04-29 | 2022-05-31 | 成都瑞华康源科技有限公司 | 一种客户端自适应的响应内容控制***、方法及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2503733A1 (en) * | 2009-12-30 | 2012-09-26 | ZTE Corporation | Data collecting method, data collecting apparatus and network management device |
CN104063756A (zh) * | 2014-05-23 | 2014-09-24 | 国网辽宁省电力有限公司本溪供电公司 | 远程用电信息控制*** |
CN104298550A (zh) * | 2014-10-09 | 2015-01-21 | 南通大学 | 一种面向Hadoop的动态调度方法 |
CN104468212A (zh) * | 2014-12-03 | 2015-03-25 | 中国科学院计算技术研究所 | 一种云计算数据中心网络智能联动配置方法及*** |
CN104683390A (zh) * | 2013-11-27 | 2015-06-03 | 上海墨芋电子科技有限公司 | 新技术的云计算技术提高房地产行业资源共享技术 |
CN105447088A (zh) * | 2015-11-06 | 2016-03-30 | 杭州掘数科技有限公司 | 一种基于志愿者计算的多租户专业云爬虫 |
CN106936660A (zh) * | 2015-12-31 | 2017-07-07 | 华为软件技术有限公司 | 数据采集方法和装置 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN107239558A (zh) * | 2017-06-09 | 2017-10-10 | 成都布林特信息技术有限公司 | 通用互联网数据采集方法 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109299069A (zh) * | 2018-09-07 | 2019-02-01 | 安徽恒科信息技术有限公司 | 一种基于互联网数据采集的大数据采集管理平台 |
CN110765337A (zh) * | 2019-11-15 | 2020-02-07 | 中科院计算技术研究所大数据研究院 | 一种基于互联网大数据的服务提供方法 |
-
2020
- 2020-06-29 CN CN202010604543.XA patent/CN111753169B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2503733A1 (en) * | 2009-12-30 | 2012-09-26 | ZTE Corporation | Data collecting method, data collecting apparatus and network management device |
US20120297393A1 (en) * | 2009-12-30 | 2012-11-22 | Zte Corporation | Data Collecting Method, Data Collecting Apparatus and Network Management Device |
CN104683390A (zh) * | 2013-11-27 | 2015-06-03 | 上海墨芋电子科技有限公司 | 新技术的云计算技术提高房地产行业资源共享技术 |
CN104063756A (zh) * | 2014-05-23 | 2014-09-24 | 国网辽宁省电力有限公司本溪供电公司 | 远程用电信息控制*** |
CN104298550A (zh) * | 2014-10-09 | 2015-01-21 | 南通大学 | 一种面向Hadoop的动态调度方法 |
CN104468212A (zh) * | 2014-12-03 | 2015-03-25 | 中国科学院计算技术研究所 | 一种云计算数据中心网络智能联动配置方法及*** |
CN105447088A (zh) * | 2015-11-06 | 2016-03-30 | 杭州掘数科技有限公司 | 一种基于志愿者计算的多租户专业云爬虫 |
CN106936660A (zh) * | 2015-12-31 | 2017-07-07 | 华为软件技术有限公司 | 数据采集方法和装置 |
CN107239558A (zh) * | 2017-06-09 | 2017-10-10 | 成都布林特信息技术有限公司 | 通用互联网数据采集方法 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109299069A (zh) * | 2018-09-07 | 2019-02-01 | 安徽恒科信息技术有限公司 | 一种基于互联网数据采集的大数据采集管理平台 |
CN110765337A (zh) * | 2019-11-15 | 2020-02-07 | 中科院计算技术研究所大数据研究院 | 一种基于互联网大数据的服务提供方法 |
Non-Patent Citations (1)
Title |
---|
王正宏: "区域医疗数据采集方法优化", 《电子技术与软件工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381503A (zh) * | 2020-11-06 | 2021-02-19 | 上海瀚银信息技术有限公司 | 一种项目上线优化管理***及方法 |
CN113132383A (zh) * | 2021-04-19 | 2021-07-16 | 烟台中科网络技术研究所 | 一种网络数据采集方法及*** |
CN113132383B (zh) * | 2021-04-19 | 2022-03-25 | 烟台中科网络技术研究所 | 一种网络数据采集方法及*** |
CN114567621A (zh) * | 2022-04-29 | 2022-05-31 | 成都瑞华康源科技有限公司 | 一种客户端自适应的响应内容控制***、方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111753169B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7197675B2 (ja) | データストリームのリアルタイム処理のためのシステムおよび方法 | |
CN111753169B (zh) | 一种基于互联网的数据采集*** | |
US9077610B2 (en) | Performing call stack sampling | |
US11734008B1 (en) | Reusable sets of instructions for responding to incidents in information technology environments | |
US20230168955A1 (en) | Method and system for processing a stream of incoming messages sent from a specific input message source and validating each incoming message of that stream before sending them to a specific target system | |
US10552293B2 (en) | Logging as a service | |
US11030384B2 (en) | Identification of sequential browsing operations | |
US20150088772A1 (en) | Enhancing it service management ontology using crowdsourcing | |
CN112416708B (zh) | 异步调用链路监控方法及*** | |
US10372572B1 (en) | Prediction model testing framework | |
US20230331266A1 (en) | Automated positive train control event data extraction and analysis engine and method therefor | |
US20230259647A1 (en) | Systems and methods for automated discovery and analysis of privileged access across multiple computing platforms | |
WO2023150567A9 (en) | Systems and methods for automated discovery and analysis of privileged access across multiple computing platforms | |
CN112084179A (zh) | 一种数据处理的方法、装置、设备及存储介质 | |
US20130138801A1 (en) | System and method for adaptive data monitoring | |
US20220398239A1 (en) | Intelligent support bundle collection | |
US11829283B2 (en) | REST Api validation | |
CN117271584A (zh) | 数据处理方法及装置、计算机可读存储介质和电子设备 | |
US20230229659A1 (en) | Estimating query execution performance using a sampled counter | |
CN114172749B (zh) | 一种试卷下载方法、装置、设备以及存储介质 | |
WO2023230797A1 (zh) | 一种跨***测试方法及装置 | |
US20230138805A1 (en) | System and Method For Telemetry Data Based Event Occurrence Analysis With Rule Engine | |
US20230091903A1 (en) | Iterative generation of hypertext transfer protocol traffic | |
CN116614470A (zh) | 一种域名修改的方法、***、电子设备及存储介质 | |
CN118349448A (zh) | 用于对应用程序编程接口进行测试的方法以及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231017 Address after: Rooms 205-37, 2nd Floor, Building 2, No.1 and No.3, Qinglong Hutong A, Dongcheng District, Beijing, 100007 Patentee after: Beijing Zhongfa zhitou Technology Co.,Ltd. Address before: 100000 floor 21, building a, Chaowai SOHO, No. 6, Chaowai Street, Chaoyang District, Beijing Patentee before: 3GOLDEN (BEIJING) INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |