CN109101521A - 基于大数据的数据自动抽取*** - Google Patents

基于大数据的数据自动抽取*** Download PDF

Info

Publication number
CN109101521A
CN109101521A CN201810603056.4A CN201810603056A CN109101521A CN 109101521 A CN109101521 A CN 109101521A CN 201810603056 A CN201810603056 A CN 201810603056A CN 109101521 A CN109101521 A CN 109101521A
Authority
CN
China
Prior art keywords
data
server
module
pick
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810603056.4A
Other languages
English (en)
Inventor
陈华
郁东风
吴途
毛晨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KAITUO INFORMATION SYSTEMS CO Ltd
Original Assignee
KAITUO INFORMATION SYSTEMS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KAITUO INFORMATION SYSTEMS CO Ltd filed Critical KAITUO INFORMATION SYSTEMS CO Ltd
Priority to CN201810603056.4A priority Critical patent/CN109101521A/zh
Publication of CN109101521A publication Critical patent/CN109101521A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的数据自动抽取***,包括用于存储待抽取数据的数据源服务器;用于提供可视化配置界面的客户端;包括有配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块的数据抽取服务器用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中的日志存储模;用于存储抽取之后的结果数据的数据存储服务器。采用上述技术方案后,配置存储模块实现了一次配置可以多次使用。日志存储模解决了无法自动记录日志的问题。数据对比模块保证了抽取完成后能够自动验证数据量的准确性。

Description

基于大数据的数据自动抽取***
技术领域
本发明涉及数据抽取技术领域,尤其涉及一种基于大数据的数据自动抽取***。
背景技术
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。据不完全统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而数据抽取则是主要的一个技术手段。
目前常见的数据抽取过程主要还是需要手动编写shell脚本,设置数据源连接、创建数据库以及建表等操作都需手动完成,这种数据抽取的方式是非常浪费时间和人力成本的。如:目前已有的数据抽取方案为ETL工具,ETL工具实质上仍为一类数据转换器,提供一种从源到目标***转换数据的方法。即从操作型***提取、清洗并转换数据,然后将数据载入决策支持***的操作型数据存储、数据仓库或数据集市中。具体功能针对不同的数据源编写不同的数据抽取、转换和加载程序处理,这完成了数据集成的大部分工作。总的来说,ETL 工具提供了一种数据处理的通用解决方案。
ELT工具的最复杂点在于其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中ETL部分往往也是牵扯精力最多的,因此其主要的难点在于数据的清晰转换功能:字段映射;映射的自动匹配;字段的拆分;多字段的混合运算;跨异构数据库的关联;自定义函数;多数据类型支持;复杂条件过滤;支持脏读;数据的批量装载;时间类型的转换;对各种码表的支持;环境变量是否可以动态修改;去重复记录;抽取断点;记录间合并或计算;记录拆分;抽取的字段是否可以动态修改;行、列变换;排序;统计;度量衡等常用的转换函数;代理主键的生成;调试功能;抽取远程数据;增量抽取的处理方式;制造样品数据;在转换过程中是否支持数据比较的功能;数据预览;性能监控;数据清洗及标准化;按行、按列的分组聚合等。
上述数据抽取方式存在如下缺陷:1、现有的数据抽取技术通常是需要在数据抽取之前编写shell脚本,将数据源连接、建表等操作写在脚本中,如果是对多个数据源进行抽取的话会产生大量重复性的工作。而且脚本编写好之后还需要对这些shell脚本进行管理;2、在抽取过程中无法对抽取过程进行监控,且无法自动记录日志;3、抽取完成后无法自动验证数据量的准确性。
发明内容
为了解决现有技术存在的问题,本发明提供一种基于大数据的数据自动抽取***。
为了实现上述目的,本发明采用的技术方案是:一种基于大数据的数据自动抽取***,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器;数据源服务器,用于存储待抽取数据;客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置;数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务;全量抓取模块,根据客户端的配置要求每次将数据源服务器中的数据全部抽取到数据存储服务器中,每次抽取的数据结果会直接覆盖在数据存储服务器的数据表中;增量抓取模块,根据客户端的配置要求每次将数据源服务器中的新增、修改、删除的数据抽取到数据存储服务器中,每次抽取的数据结果会直接添加在数据存储服务器的数据表中;数据对比模块,比对抽取前后的数据量;日志存储模块,用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中;数据存储服务器,用于存储抽取之后的结果数据。
采用本申请的技术方案后,借助于用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取 POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务的配置存储模块;解决了现有技术存在的多个数据源进行抽取的话会产生大量重复性的工作,而且脚本编写好之后还需要对这些shell脚本进行管理的问题。借助于用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中的日志存储模块,实现了对抽取过程进行监控,并能将信息储存在日志存储模块内。借助于比对抽取前后的数据量的数据对比模块,解决了抽取完成后无法自动验证数据量的准确性的问题。
附图说明
图1是基于大数据的数据自动抽取***的原理框图。
具体实施方式
下面结合附图对本发明优先的方案做进一步的阐述。
一种基于大数据的数据自动抽取***,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器。
数据源服务器,用于存储待抽取数据。
客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置。
数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务;全量抓取模块,根据客户端的配置要求每次将数据源服务器中的数据全部抽取到数据存储服务器中,每次抽取的数据结果会直接覆盖在数据存储服务器的数据表中;增量抓取模块,根据客户端的配置要求每次将数据源服务器中的新增、修改、删除的数据抽取到数据存储服务器中,每次抽取的数据结果会直接添加在数据存储服务器的数据表中;数据对比模块,比对抽取前后的数据量;日志存储模块,用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中。
数据存储服务器,用于存储抽取之后的结果数据。
数据源服务器内设有时间戳生成模块,用于源表数据更新时,该时间戳生成模块将会默认赋值为当前***时间,并在日志中增加了一个字段进行保存;数据源服务器更新修改表数据的时候,同时修改时间戳字段的值。
数据抽取服务器还包括临时数据存储模块,抽取服务器将从数据源服务器抽取的数据存入到临时数据库中;进行数据抽取时,数据存储模块通过比较数据源服务器的***时间与时间戳字段的值来决定抽取哪些数据。
数据抽取服务器还包括数据抽取过程针对异常情况进行自动化处理的异常自动处理模块。数据抽取服务器还包括将数据抽取过程出现的异常报错之后进行异常反馈给指定接收人的邮件发送模块。异常自动处理模块将抽取任务会循环执行三次,当第一次执行成功的时候则跳过后两次循环,如果第一次执行错误则会去判断是否是字段类型不匹配的错误,此方式是先读取源库字段类型,然后比对结果库字段类型,如有不正确的地方则自动修改结果库字段类型,然后继续执行抽取任务,并将异常原因和处理结果邮件发送给指定接收人,如果第二次任务仍然失败,那么第三次执行的时候会针对源库连接失败的可能性来自动修正,方式是以更换备用的源库登录名密码的形式来实现的。
为了更好地对本技术方案进行说明,现就对本发明的数据采集原理描述。
如图1所示,数据(DATA)包括多种数据源,可以是互联网上的海量数据,也可以是已经存储在本地其它数据库内的离线数据。首先通过客户在配置好数据抽取规则。数据的采集分发:多种数据源的数据通过数据抽取服务器上的 Kafka进行数据采集后进入***,Streaming是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳,而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。在Streaming的作用下,流式数据转向Redis进行直接处理。其它类型的数据通过Flume存入hbase或hive进行存储。流式数据:Redis需要准备数据通过JDBC等jdbc、reset、http方式存入内存中,流式数据过来后通过内存技术快速处理,处理后的数据可再次使用或通过jdbc、reset、http方式提供数据服务。离线数据:通过Flume存入hive或hbase后可以通过spark、MR、Impala 等方式进行数据处理,可通过jdbc、reset、http的方式提供对外数据服务。
以上实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所做的等效变化或修饰,都应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于大数据的数据自动抽取***,其特征在于,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器;数据源服务器,用于存储待抽取数据;客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置;数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务;全量抓取模块,根据客户端的配置要求每次将数据源服务器中的数据全部抽取到数据存储服务器中,每次抽取的数据结果会直接覆盖在数据存储服务器的数据表中;增量抓取模块,根据客户端的配置要求每次将数据源服务器中的新增、修改、删除的数据抽取到数据存储服务器中,每次抽取的数据结果会直接添加在数据存储服务器的数据表中;数据对比模块,比对抽取前后的数据量;日志存储模块,用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中;数据存储服务器,用于存储抽取之后的结果数据。
2.根据权利要求1所述的基于大数据的数据自动抽取***,其特征在于,数据源服务器内设有时间戳生成模块,用于源表数据更新时,该时间戳生成模块将会默认赋值为当前***时间,并在日志中增加了一个字段进行保存;数据源服务器更新修改表数据的时候,同时修改时间戳字段的值。
3.根据权利要求2所述的基于大数据的数据自动抽取***,其特征在于,数据抽取服务器还包括临时数据存储模块,抽取服务器将从数据源服务器抽取的数据存入到临时数据库中;进行数据抽取时,数据存储模块通过比较数据源服务器的***时间与时间戳字段的值来决定抽取哪些数据。
4.根据权利要求2所述的基于大数据的数据自动抽取***,其特征在于,数据抽取服务器还包括数据抽取过程针对异常情况进行自动化处理的异常自动处理模块。
5.根据权利要求4所述的基于大数据的数据自动抽取***,其特征在于,数据抽取服务器还包括将数据抽取过程出现的异常报错之后进行异常反馈给指定接收人的邮件发送模块。
6.根据权利要求5所述的基于大数据的数据自动抽取***,其特征在于,异常自动处理模块将抽取任务会循环执行三次,当第一次执行成功的时候则跳过后两次循环,如果第一次执行错误则会去判断是否是字段类型不匹配的错误,此方式是先读取源库字段类型,然后比对结果库字段类型,如有不正确的地方则自动修改结果库字段类型,然后继续执行抽取任务,并将异常原因和处理结果邮件发送给指定接收人,如果第二次任务仍然失败,那么第三次执行的时候会针对源库连接失败的可能性来自动修正,方式是以更换备用的源库登录名密码的形式来实现的。
CN201810603056.4A 2018-06-12 2018-06-12 基于大数据的数据自动抽取*** Pending CN109101521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810603056.4A CN109101521A (zh) 2018-06-12 2018-06-12 基于大数据的数据自动抽取***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810603056.4A CN109101521A (zh) 2018-06-12 2018-06-12 基于大数据的数据自动抽取***

Publications (1)

Publication Number Publication Date
CN109101521A true CN109101521A (zh) 2018-12-28

Family

ID=64796872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810603056.4A Pending CN109101521A (zh) 2018-06-12 2018-06-12 基于大数据的数据自动抽取***

Country Status (1)

Country Link
CN (1) CN109101521A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032594A (zh) * 2019-03-21 2019-07-19 厦门市美亚柏科信息股份有限公司 可定制化的多源数据库的数据抽取方法、装置及存储介质
CN110442770A (zh) * 2019-08-08 2019-11-12 深圳市今天国际物流技术股份有限公司 一种数据抓取及保存方法、装置、计算机设备及存储介质
CN110569274A (zh) * 2019-08-02 2019-12-13 福建星网智慧软件有限公司 一种分布式实时日志分析方法和计算机可读存储介质
CN111460512A (zh) * 2020-04-21 2020-07-28 重庆忽米网络科技有限公司 一种自动脱敏的数据采集分发***及方法
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN113190603A (zh) * 2021-04-28 2021-07-30 中国邮政储蓄银行股份有限公司 数据处理方法、装置、计算机可读存储介质及处理器
CN113688157A (zh) * 2021-08-29 2021-11-23 中盾创新档案管理(北京)有限公司 一种基于中间表的数据抽取的***和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375891A (zh) * 2011-11-15 2012-03-14 山东浪潮金融信息***有限公司 一种增量数据卸载和装载的实施工具
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫***
CN103617585A (zh) * 2013-11-06 2014-03-05 梧州学院 一种基于共享数据平台的数据处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375891A (zh) * 2011-11-15 2012-03-14 山东浪潮金融信息***有限公司 一种增量数据卸载和装载的实施工具
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫***
CN103617585A (zh) * 2013-11-06 2014-03-05 梧州学院 一种基于共享数据平台的数据处理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032594A (zh) * 2019-03-21 2019-07-19 厦门市美亚柏科信息股份有限公司 可定制化的多源数据库的数据抽取方法、装置及存储介质
CN110032594B (zh) * 2019-03-21 2022-04-29 厦门市美亚柏科信息股份有限公司 可定制化的多源数据库的数据抽取方法、装置及存储介质
CN110569274A (zh) * 2019-08-02 2019-12-13 福建星网智慧软件有限公司 一种分布式实时日志分析方法和计算机可读存储介质
CN110442770A (zh) * 2019-08-08 2019-11-12 深圳市今天国际物流技术股份有限公司 一种数据抓取及保存方法、装置、计算机设备及存储介质
CN111460512A (zh) * 2020-04-21 2020-07-28 重庆忽米网络科技有限公司 一种自动脱敏的数据采集分发***及方法
CN111460512B (zh) * 2020-04-21 2023-03-21 重庆忽米网络科技有限公司 一种自动脱敏的数据采集分发***及方法
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN113190603A (zh) * 2021-04-28 2021-07-30 中国邮政储蓄银行股份有限公司 数据处理方法、装置、计算机可读存储介质及处理器
CN113688157A (zh) * 2021-08-29 2021-11-23 中盾创新档案管理(北京)有限公司 一种基于中间表的数据抽取的***和方法
CN113688157B (zh) * 2021-08-29 2023-12-05 中盾创新数字科技(北京)有限公司 一种基于中间表的数据抽取的***和方法

Similar Documents

Publication Publication Date Title
CN109101521A (zh) 基于大数据的数据自动抽取***
CN109376166B (zh) 脚本转换方法、装置、计算机设备及存储介质
US9891971B1 (en) Automating the production of runbook workflows
US20060005098A1 (en) Interface workbench for high volume data buffering and connectivity
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及***
US20100199132A1 (en) Systems, methods and computer program products for remote error resolution reporting
CN107832217A (zh) 一种自动化测试方法及装置
US6708185B2 (en) SQL execution analysis
CN107230032B (zh) 一种电子器件管理大数据分析***
CN107092632A (zh) 数据处理方法及装置
CN107528751A (zh) 一种动态分发Zabbix监控数据的***及其管理方法
US20060112189A1 (en) Method for tracking transport requests and computer system with trackable transport requests
CN110806966A (zh) 日志管理方法、装置、电子设备及计算机存储介质
CN109213736B (zh) 日志的压缩方法和装置
CN103616856A (zh) 一种基于数据库的汽车仪表装配流水线操作控制方法
WO2024149368A1 (zh) 一种提高相似物流单号识别精度的算法和物流查询***
US7451145B1 (en) Method and apparatus for recursively analyzing log file data in a network
CN112068981B (zh) Linux操作***中基于知识库的故障扫描恢复方法及***
CN106487591A (zh) 一种服务器自动上架统计装置及其***
CN115757479A (zh) 数据库的查询优化方法、机器可读存储介质与计算机设备
US7203707B2 (en) System and method for knowledge asset acquisition and management
CN110955710B (zh) 一种数据交换作业中脏数据的处理方法及装置
CN113468076A (zh) 应用程序的异常测试方法、装置、设备及存储介质
CN113468155B (zh) 问题数据处理方法和装置
CN114490785B (zh) 一种多子星机型信息检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228

RJ01 Rejection of invention patent application after publication