CN110147362A - 一种基于事件驱动的公文数据采集和处理***及其方法 - Google Patents

一种基于事件驱动的公文数据采集和处理***及其方法 Download PDF

Info

Publication number
CN110147362A
CN110147362A CN201910271964.2A CN201910271964A CN110147362A CN 110147362 A CN110147362 A CN 110147362A CN 201910271964 A CN201910271964 A CN 201910271964A CN 110147362 A CN110147362 A CN 110147362A
Authority
CN
China
Prior art keywords
data
service module
acquisition
doc
message body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910271964.2A
Other languages
English (en)
Inventor
马新凡
王鹏
刘福强
李泽松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201910271964.2A priority Critical patent/CN110147362A/zh
Publication of CN110147362A publication Critical patent/CN110147362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于事件驱动的公文数据采集和处理***及其方法,属于大数据技术领域,包括:数据采集服务模块,数据清洗服务模块,数据抽取计算服务模块,数据索引服务模块,日志模块;其采集和处理方法包括:分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,发送给数据采集服务模块处理,在通过数据抽取计算服务模块进行抽取计算,然后通过数据索引服务模块入库存放于数据库中,日志模块记录整个采集与处理过程。本发明采用分布式爬虫进行各个公文发布网站进行抓取,有效解决海量多源异构公文数据的采集和处理时效问题。

Description

一种基于事件驱动的公文数据采集和处理***及其方法
技术领域
本发明属于大数据技术领域,尤其涉及一种基于事件驱动的公文数据采集和处理***及其方法。
背景技术
21世纪中国大规模信息化,互联网带来了政府信息公开的大变革,越来越d多的政府组织把***息通过互联网发布,海量的公文数据如何高效的采集和处理给现有信息***架构带来了挑战。最近几年微服务架构越来越受欢迎,其利用微小拆分的方式将原有复杂***进行解耦,带来的业务流程的解放,这种小单元架构模式能够以比较高的配合度完成复杂功能。数据采集中,目前针对互联网数据采集具有短时量大的特点,以定时任务的方式无法及时有效对公文数据进行清洗和计算,另外大量半结构化的文本数据增加了清洗的复杂度,如何做到增量清洗和计算也是目前面临的问题。
综上所述,传统的基于定时任务的数据采集和处理方式已不能满足复杂业务场景下的数据采集和处理,主要面临的问题有:
1、多源异构的互联网爬虫数据具有短时量大的特点,现有采集和处理模式无法快速对数据进行采集和处理。
2、数据采集场景多变,各个处理流程复杂,无法做到无等待情况下的任务执行,导致部分流程出错后,计算和清洗耗费***资源;
3、公文数据涉及到采集,清洗,抽取和训练等一系列复杂流程,针对部分数据易失效的特点,无法及时更新此对应的业务***最新数据。
发明内容
本发明的目的在于:针对上述存在的问题,本发明提供一种能够解决公文数据采集和处理中的效率问题和自动化问题的基于事件驱动的公文数据采集和处理***及其方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于事件驱动的公文数据采集和处理***,包括:
数据采集服务模块,用于采集多源异构的公文数据进行采集并存储,同时发出清洗指令;
数据清洗服务模块,用于接收数据采集服务模块发出的清洗指令并进行解析,判断清洗需求为增量清洗还是全量清洗,并发出计算消息体;
数据抽取计算服务模块,用于接收数据清洗服务发出的计算消息体并进行分析,对数据进行抽取计算,并给予反馈,同时发送数据索引消息体;
数据索引服务模块,用于接收数据抽取计算服务模块发出数据索引消息体并进行解析,判断是增量入库还是全量入库;
日志模块,用于记录经过上述各个模块对公文数据的采集与处理整个过程。
进一步的,所述数据采集服务模块采用分布式爬虫对公文数据进行采集。
进一步的,所述数据采集模块在采集过程中通过公文数据的标题,URL和发布时间建立唯一索引。
进一步的,所述数据采集模块在采集公文数据过程中还生成临时表Crawler TMP,用于存储增量数据。
进一步的,所述计算清洗服务模块完成工作后生成临时表Clean TMP用于存储增量清洗的数据。
进一步的,所述抽取计算服务模块完成之后会生成Calculate TMP将增量数据进行存储。
一种基于事件驱动的公文数据采集和处理方法,包括以下步骤:
S1、数据采集服务模块通过分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,并存储分布式非结构化数据库,再通过标题、URL和发布的时间建立唯一索引,同时对已抓取过的URL进行布隆过滤器记录,并对抓取到的公文数据存储于临时表Crawler TMP中,在分布式爬虫周期性抓取事件结束之后的增加数据所在的数据库和集合消息体或者构建全量数据清洗消息体,形成清洗指令并发送;采用布隆过滤器记录,布隆过滤器可以用于检索一个元素是否在一个集合中,解决大规模重复抓取带来的网络带宽消耗
S2、数据清洗服务模块接收步骤S1的清洗指令,对清洗指令进行解析,判断清洗需求是全量清洗还是增量清洗;清洗事件完成之后,同时发送相应的计算消息体;
S3、数据抽取计算服务模块接收步骤S2发送的计算消息体进行解析,判断抽取计算是全量计算还是增量计算,最后发送数据索引消息体;
S4、数据索引服务模块接收步骤S3中发送的数据索引服务消息体进行解析,判断是增量入库还是全量入库,存储于Elasticsearch索引数据库中;
S5、将步骤S1-S5过程产生的一系列事件以日志的形式记录存储在日志模块中。
进一步的,所述步骤S2中的数据清洗服务模块处理数据具体步骤为:
①、增量清洗:解析数据库和集合消息体清洗指令,触发增量数据清洗服务,增量清洗完成后,将原分布式爬虫数据所在分布式非关系形数据中的临时表Crawler TMP数据删除,同时回复分布式爬虫微服务消息已完成消费;遇到清洗出错,则不删除临时表Crawler TMP中的数据,同时回复分布式爬虫重新发送清洗消息;最后将增量清洗的数据存储在临时表Clean TMP中,最后发送计算消息体给步骤S3;
②、全量清洗,解析全量数据清洗消息体清洗指令,触发全量数据清洗服务,最后把计算消息体发送给步骤S3;
进一步的,所述步骤S3数据抽取计算服务模块处理数据的具体步骤为:
a、抽取计算服务模块收到一条全量抽取计算消息体后,首先对该消息进行消费,触发抽取计算:
如果抽取的字段不涉及到检索服务,则直接发送数据索引消息体,对数据进行索引入库,同时发送反馈消息给数据清洗服务模块;
如果抽取的字段涉及到检索服务,则不发送数据索引消息体,进行抽取计算,直到抽取计算完成之后再发送全量数据索引消息体给步骤S4;
b、抽取计算服务模块收到一条增量抽取计算消息体后,首先对该消息进行解析,获取增量数据所在的数据库和集合名称,触发抽取计算;
在抽取计算过程中如果遇到异常,则反馈给数据清洗服务重新发送抽取计算消息,抽取计算服务完成之后会将增量数据进行Calculate TMP存储,并删除步骤①中产生的Clean TMP表,最后发送增量数据索引消息体给步骤S4。
进一步的,所述步骤S4数据索引服务模块中的具体服务步骤为:
A、增量入库,解析消息体中的增量数据所在数据库和集合,在原索引上进行数据***或者更新,在完成数据索引之后,删除步骤b中产生的临时Calculate TMP。
B、全量入库,解析消息体中的全量数据清洗指令,创建新的索引,对数据进行全量索引。
本发明的基本工作原理为:
基于事件驱动,通过互联网爬虫对国内各公文发布网站进行自动抓取,通过利用分布式爬虫,采取公文中的相关字段,文本,图片和附件,利用布隆过滤器做到增量更新;通过利用分布式非结构化数据库MongoDB做到定向去重和海量存储;通过利用分布式消息,解决实时处理和计算的问题;通过利用图数据库和分布式搜索引擎,搜索和展示功能内容。
本发明的有益效果在于:
1.本发明采用分布式爬虫进行各个公文发布网站进行抓取,有效解决海量多源异构公文数据的采集和处理时效问题。
2.本发明中及时的清理在文件采集与处理中生成的各种临时数据表格,解决因采集或者处理流程中因未知异常导致***问题,服务器资源浪费,数据读脏等问题。
3.本发明有效解决公文数据及时有效入库的问题。
附图说明
图1是本发明中基于事件驱动的公文数据采集和处理***结构示意图。
图2为本发明中工作流程图。
图3为本发明中详细工作流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
实施例1:
如图1所示,一种基于事件驱动的公文数据采集和处理***,包括:
数据采集服务模块,用于采集多源异构的公文数据进行采集并存储,同时发出清洗指令;
数据清洗服务模块,用于接收数据采集服务模块发出的清洗指令并进行解析,判断清洗需求为增量清洗还是全量清洗,并发出计算消息体;
数据抽取计算服务模块,用于接收数据清洗服务发出的计算消息体并进行分析,对数据进行抽取计算,并给予反馈,同时发送数据索引消息体;
数据索引服务模块,用于接收数据抽取计算服务模块发出数据索引消息体并进行解析,判断是增量入库还是全量入库;
日志模块,用于记录经过上述各个模块对公文数据的采集与处理整个过程。
所述数据采集服务模块采用分布式爬虫对公文数据进行采集。
所述数据采集模块在采集过程中通过公文数据的标题,URL和发布时间建立唯一索引。
所述数据采集模块在采集公文数据过程中还生成临时表Crawler TMP,用于存储增量数据。
所述计算清洗服务模块完成工作后生成临时表Clean TMP用于存储增量清洗的数据。
所述抽取计算服务模块完成之后会生成Calculate TMP将增量数据进行存储。
如图2所示,一种基于事件驱动的公文数据采集和处理方法,包括以下步骤:
S1、数据采集服务模块通过分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,并存储分布式非结构化数据库,再通过标题、URL和发布的时间建立唯一索引,同时对已抓取过的URL进行布隆过滤器记录,并对抓取到的公文数据存储于临时表Crawler TMP中,在分布式爬虫周期性抓取事件结束之后的增加数据所在的数据库和集合消息体或者构建全量数据清洗消息体,形成清洗指令并发送;采用布隆过滤器记录,布隆过滤器可以用于检索一个元素是否在一个集合中,解决大规模重复抓取带来的网络带宽消耗。
S2、数据清洗服务模块接收步骤S1的清洗指令,对清洗指令进行解析,判断清洗需求是全量清洗还是增量清洗;清洗事件完成之后,同时发送相应的计算消息体;
S3、数据抽取计算服务模块接收步骤S2发送的计算消息体进行解析,判断抽取计算是全量计算还是增量计算,最后发送数据索引消息体;
S4、数据索引服务模块接收步骤S3中发送的数据索引服务消息体进行解析,判断是增量入库还是全量入库,存储于Elasticsearch索引数据库中;
S5、将步骤S1-S5过程产生的一系列事件以日志的形式记录存储在日志模块中。
所述步骤S2中的数据清洗服务模块处理数据具体步骤为:
①、增量清洗:解析数据库和集合消息体清洗指令,触发增量数据清洗服务,增量清洗完成后,将原分布式爬虫数据所在分布式非关系形数据中的临时表Crawler TMP数据删除,同时回复分布式爬虫微服务消息已完成消费;遇到清洗出错,则不删除临时表Crawler TMP中的数据,同时回复分布式爬虫重新发送清洗消息;最后将增量清洗的数据存储在临时表Clean TMP中,最后发送计算消息体给步骤S3;
②、全量清洗,解析全量数据清洗消息体清洗指令,触发全量数据清洗服务,最后把计算消息体发送给步骤S3;
所述步骤S3数据抽取计算服务模块处理数据的具体步骤为:
a、抽取计算服务模块收到一条全量抽取计算消息体后,首先对该消息进行消费,触发抽取计算:
如果抽取的字段不涉及到检索服务,则直接发送数据索引消息体,对数据进行索引入库,同时发送反馈消息给数据清洗服务模块;
如果抽取的字段涉及到检索服务,则不发送数据索引消息体,进行抽取计算,直到抽取计算完成之后再发送全量数据索引消息体给步骤S4;
b、抽取计算服务模块收到一条增量抽取计算消息体后,首先对该消息进行解析,获取增量数据所在的数据库和集合名称,触发抽取计算;
在抽取计算过程中如果遇到异常,则反馈给数据清洗服务重新发送抽取计算消息,抽取计算服务完成之后会将增量数据进行Calculate TMP存储,并删除步骤①中产生的Clean TMP表,最后发送增量数据索引消息体给步骤S4。
所述步骤S4数据索引服务模块中的具体服务步骤为:
A、增量入库,解析消息体中的增量数据所在数据库和集合,在原索引上进行数据***或者更新,在完成数据索引之后,删除步骤b中产生的临时Calculate TMP。
B、全量入库,解析消息体中的全量数据清洗指令,创建新的索引,对数据进行全量索引。
本实施例的工作原理为:基于事件驱动,通过互联网爬虫对国内各公文发布网站进行自动抓取,通过利用分布式爬虫,采取公文中的相关字段,文本,图片和附件,利用布隆过滤器做到增量更新;通过利用分布式非结构化数据库MongoDB做到定向去重和海量存储;通过利用分布式消息,解决实时处理和计算的问题;通过利用图数据库和分布式搜索引擎,搜索和展示功能内容。

Claims (10)

1.一种基于事件驱动的公文数据采集和处理***,其特征在于,包括:
数据采集服务模块,用于采集多源异构的公文数据进行采集并存储,同时发出清洗指令;
数据清洗服务模块,用于接收数据采集服务模块发出的清洗指令并进行解析,判断清洗需求为增量清洗还是全量清洗,并发出计算消息体;
数据抽取计算服务模块,用于接收数据清洗服务发出的计算消息体并进行分析,对数据进行抽取计算,并给予反馈,同时发送数据索引消息体;
数据索引服务模块,用于接收数据抽取计算服务模块发出数据索引消息体并进行解析,判断是增量入库还是全量入库;
日志模块,用于记录经过上述各个模块对公文数据的采集与处理整个过程。
2.根据权利要求1所述的一种基于事件驱动的公文数据采集和处理***,其特征在于:所述数据采集服务模块采用分布式爬虫对公文数据进行采集。
3.根据权利要求1所述的一种基于事件驱动的公文数据采集和处理***,其特征在于:所述数据采集模块在采集过程中通过公文数据的标题,URL和发布时间建立唯一索引。
4.根据权利要求1所述的一种基于事件驱动的公文数据采集和处理***,其特征在于:所述数据采集模块在采集公文数据过程中还生成临时表Crawler TMP,用于存储增量数据。
5.根据权利要求1所述的一种基于事件驱动的公文数据采集和处理***,其特征在于:所述计算清洗服务模块完成工作后生成临时表Clean TMP用于存储增量清洗的数据。
6.根据权利要求1所述的一种基于事件驱动的公文数据采集和处理***,其特征在于:所述抽取计算服务模块完成之后会生成Calculate TMP将增量数据进行存储。
7.一种基于权利要求1所述基于事件驱动的公文数据采集和处理方法,其特征在于,包括以下步骤:
S1、数据采集服务模块通过分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,并存储分布式非结构化数据库,再通过标题、URL和发布的时间建立唯一索引,同时对已抓取过的URL进行布隆过滤器记录,并对抓取到的公文数据存储于临时表CrawlerTMP中,在分布式爬虫周期性抓取事件结束之后的增加数据所在的数据库和集合消息体或者构建全量数据清洗消息体,形成清洗指令并发送;
S2、数据清洗服务模块接收步骤S1的清洗指令,对清洗指令进行解析,判断清洗需求是全量清洗还是增量清洗;清洗事件完成之后,同时发送相应的计算消息体;
S3、数据抽取计算服务模块接收步骤S2发送的计算消息体进行解析,判断抽取计算是全量计算还是增量计算,最后发送数据索引消息体;
S4、数据索引服务模块接收步骤S3中发送的数据索引服务消息体进行解析,判断是增量入库还是全量入库,存储于Elasticsearch索引数据库中;
S5、将步骤S1-S5过程产生的一系列事件以日志的形式记录存储在日志模块中。
8.根据权利要求7所述的一种公文数据采集和处理方法,其特征在于,所述步骤S2中的数据清洗服务模块处理数据具体步骤为:
①、增量清洗:解析数据库和集合消息体清洗指令,触发增量数据清洗服务,增量清洗完成后,将原分布式爬虫数据所在分布式非关系形数据中的临时表Crawler TMP数据删除,同时回复分布式爬虫微服务消息已完成消费;遇到清洗出错,则不删除临时表Crawler TMP中的数据,同时回复分布式爬虫重新发送清洗消息;最后将增量清洗的数据存储在临时表Clean TMP中,最后发送计算消息体给步骤S3;
②、全量清洗,解析全量数据清洗消息体清洗指令,触发全量数据清洗服务,最后把计算消息体发送给步骤S3。
9.根据权利要求8所述的一种公文数据采集和处理方法,其特征在于,所述步骤S3数据抽取计算服务模块处理数据的具体步骤为:
a、抽取计算服务模块收到一条全量抽取计算消息体后,首先对该消息进行消费,触发抽取计算:
如果抽取的字段不涉及到检索服务,则直接发送数据索引消息体,对数据进行索引入库,同时发送反馈消息给数据清洗服务模块;
如果抽取的字段涉及到检索服务,则不发送数据索引消息体,进行抽取计算,直到抽取计算完成之后再发送全量数据数据索引消息体给步骤S4;
b、抽取计算服务模块收到一条增量抽取计算消息体后,首先对该消息进行解析,获取增量数据所在的数据库和集合名称,触发抽取计算;
在抽取计算过程中如果遇到异常,则反馈给数据清洗服务重新发送抽取计算消息,抽取计算服务完成之后会将增量数据进行Calculate TMP存储,并删除步骤①中产生的CleanTMP表,最后发送增量数据索引消息体给步骤S4。
10.根据权利要求9所述的一种公文数据采集和处理方法,其特征在于,所述步骤S4数据索引服务模块中的具体服务步骤为:
A、增量入库,解析消息体中的增量数据所在数据库和集合,在原索引上进行数据***或者更新,在完成数据索引之后,删除步骤b中产生的临时Calculate TMP。
B、全量入库,解析消息体中的全量数据清洗指令,创建新的索引,对数据进行全量索引。
CN201910271964.2A 2019-04-04 2019-04-04 一种基于事件驱动的公文数据采集和处理***及其方法 Pending CN110147362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910271964.2A CN110147362A (zh) 2019-04-04 2019-04-04 一种基于事件驱动的公文数据采集和处理***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910271964.2A CN110147362A (zh) 2019-04-04 2019-04-04 一种基于事件驱动的公文数据采集和处理***及其方法

Publications (1)

Publication Number Publication Date
CN110147362A true CN110147362A (zh) 2019-08-20

Family

ID=67589343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910271964.2A Pending CN110147362A (zh) 2019-04-04 2019-04-04 一种基于事件驱动的公文数据采集和处理***及其方法

Country Status (1)

Country Link
CN (1) CN110147362A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650865A (zh) * 2021-01-27 2021-04-13 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411569A (zh) * 2010-09-20 2012-04-11 上海众融信息技术有限公司 一种数据库转换与清洗信息处理方法
CN103617174A (zh) * 2013-11-04 2014-03-05 同济大学 一种基于云计算的分布式搜索方法
CN104102737A (zh) * 2014-07-28 2014-10-15 中国农业银行股份有限公司 一种历史数据存储方法和***
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及***
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用***有限公司 一种基于数据建模及实现数据增量的数据抽取工具
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN107103067A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种基于搜索引擎的数据同步方法及***
CN107480858A (zh) * 2017-07-10 2017-12-15 武汉楚鼎信息技术有限公司 一种基于股票大数据分析的智能辅助决策***及方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及***
CN107943991A (zh) * 2017-12-01 2018-04-20 成都嗨翻屋文化传播有限公司 一种基于内存数据库的分布式爬虫框架及实现方法
CN108121706A (zh) * 2016-11-28 2018-06-05 央视国际网络无锡有限公司 一种分布式爬虫的优化方法
CN108228815A (zh) * 2017-12-29 2018-06-29 安徽迈普德康信息科技有限公司 一种不动产数据整合***及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411569A (zh) * 2010-09-20 2012-04-11 上海众融信息技术有限公司 一种数据库转换与清洗信息处理方法
CN103617174A (zh) * 2013-11-04 2014-03-05 同济大学 一种基于云计算的分布式搜索方法
CN104102737A (zh) * 2014-07-28 2014-10-15 中国农业银行股份有限公司 一种历史数据存储方法和***
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及***
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN108121706A (zh) * 2016-11-28 2018-06-05 央视国际网络无锡有限公司 一种分布式爬虫的优化方法
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用***有限公司 一种基于数据建模及实现数据增量的数据抽取工具
CN107103067A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种基于搜索引擎的数据同步方法及***
CN107480858A (zh) * 2017-07-10 2017-12-15 武汉楚鼎信息技术有限公司 一种基于股票大数据分析的智能辅助决策***及方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及***
CN107943991A (zh) * 2017-12-01 2018-04-20 成都嗨翻屋文化传播有限公司 一种基于内存数据库的分布式爬虫框架及实现方法
CN108228815A (zh) * 2017-12-29 2018-06-29 安徽迈普德康信息科技有限公司 一种不动产数据整合***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650865A (zh) * 2021-01-27 2021-04-13 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及***
CN112650865B (zh) * 2021-01-27 2021-11-09 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及***

Similar Documents

Publication Publication Date Title
CN109543086B (zh) 一种面向多数据源的网络数据采集与展示方法
CN103294732B (zh) 网页抓取方法及爬虫
CN100471121C (zh) 一种解码方法和解码器
CN105824744B (zh) 一种基于b2b平台的实时日志采集分析方法
Gehrke et al. Overview of the 2003 KDD Cup
SalahEldeen et al. Losing my revolution: How many resources shared on social media have been lost?
US9552435B2 (en) Method and system for incremental collection of forum replies
CN107895009A (zh) 一种基于分布式的互联网数据采集方法及***
CN102760151B (zh) 开源软件获取与搜索***的实现方法
CN105956175A (zh) 网页内容爬取的方法和装置
CN103177380A (zh) 结合用户群与预投放的广告投放效果的优化方法和装置
CN101727486A (zh) 一种Web论坛信息抽取***
CN108924199A (zh) 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备
CN108133041A (zh) 基于网络爬虫和数据转移技术的数据采集***及方法
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及***
CN109150585A (zh) 一种网络运维故障解决方法、***、装置和存储介质
CN110781368A (zh) 一种针对指定专家的信息爬取***及方法
CN108846072A (zh) 一种基于可视化分析的数据实现封装技术
CN107784113A (zh) Html网页数据采集方法、装置和计算机可读存储介质
CN110147362A (zh) 一种基于事件驱动的公文数据采集和处理***及其方法
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
CN105825399A (zh) 一种互联网采集b2b电商信息方法
JP6286559B2 (ja) 対話式アプリケーションにおいて標識アイコンを追加するための方法およびデバイス
CN103475546B (zh) 一种检测业务员重复登录的方法及***
CN103136225B (zh) 一种互联网图片转换的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820

RJ01 Rejection of invention patent application after publication