CN104361031B - 一种政务大数据预处理***及处理方法 - Google Patents

一种政务大数据预处理***及处理方法 Download PDF

Info

Publication number
CN104361031B
CN104361031B CN201410578565.8A CN201410578565A CN104361031B CN 104361031 B CN104361031 B CN 104361031B CN 201410578565 A CN201410578565 A CN 201410578565A CN 104361031 B CN104361031 B CN 104361031B
Authority
CN
China
Prior art keywords
data
unit
unified
processing
distributed scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410578565.8A
Other languages
English (en)
Other versions
CN104361031A (zh
Inventor
王茜
史晨昱
白峰
李安颖
刘守仓
杜威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Following International Information Ltd Co
Original Assignee
Xi'an Following International Information Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Following International Information Ltd Co filed Critical Xi'an Following International Information Ltd Co
Priority to CN201410578565.8A priority Critical patent/CN104361031B/zh
Publication of CN104361031A publication Critical patent/CN104361031A/zh
Application granted granted Critical
Publication of CN104361031B publication Critical patent/CN104361031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种政务大数据预处理***,包括数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接。本发明一种政务大数据预处理***,解决了现有预处理***面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。本发明还提供了一种政务大数据处理的方法,解决了现有预处理***面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。

Description

一种政务大数据预处理***及处理方法
技术领域
本发明属于大数据处理技术领域,涉及一种政务大数据预处理***,本发明还涉及一种政务大数据预处理的方法。
背景技术
随着信息技术的飞速发展,人类已经进入了以深度挖掘数据价值为核心的大数据时代。人们可以利用大数据技术对数据间的关系进行分析做出科学的决策,改变过去依靠经验和直觉做决策的方式。政府拥有海量的、权威的信息资源优势,如果借助大数据发展,可以进一步推动电子政务建设,为社会提供更好的服务和公共产品。大数据从数据源经过分析挖掘到最终获得价值一般经过几个主要环节,包括数据预处理、数据存储与管理、计算处理(批处理、流处理、交互分析)、数据挖掘与分析、分布式检索、数据交付等几部分。数据预处理作为后续处理的前端处理,在应用大数据时,如果不对数据进行预处理,单纯依赖服务器的计算能力,无法满足大数据场景下对处理速度、处理精确性等的要求,且会增加大数据处理***的压力。
数据预处理***是指在主要的处理以前对数据进行的一些处理,目标是将获得的低质量的数据转换成高质量便于存储、处理的数据集。
目前,政务活动产生的数据主要存储在关系型数据库中,利用大数据技术对政务数据进行深度挖掘分析,首先应该将这些不同数据库的数据导入到一个集中的大型分布式数据库,或者分布式存储集群。从不同数据库抽取出的数据存在各种缺陷不利于后期的挖掘分析,比如数据源格式不同、数据叠加了噪声、数据有冗余和重复、数据有错误等,低质量的数据处理后得不到高质量的结果。所以我们应该在导入的基础上做一些清洗和预处理工作。在数据导入和预处理的过程中最大的特点和挑战主要是导入的数据量大,每秒钟的导入经常会达到百兆甚至千兆级别。因此,基于大数据种类多样、数据量大、处理速度要求高的特点,需要一种能够协调各种预处理操作以保证快速高效处理大批量数据的***。
发明内容
本发明提供了一种政务大数据预处理***,解决了现有预处理***面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。
本发明还提供了一种政务大数据处理的方法,解决了现有预处理***面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。
本发明所采用的一种技术方案是,一种政务大数据预处理***,包括结构化数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接。
本发明一种技术方案的特点还在于,
数据预处理模块包括数据检验单元、数据转换单元、数据合并单元、数据压缩单元、数据去重单元和数据写入单元。
分布式调度框架由客户端、分布式调度***和处理端组成。
管理控制台包括数据源管理单元、任务调度管理单元、信息统计单元、数据校验单元和故障回退控制单元。
本发明所采用的另一种技术方案是,一种政务大数据处理方法,利用上述的政务大数据预处理***,其结构为:
包括结构化数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接;
数据预处理模块包括数据检验单元、数据转换单元、数据合并单元、数据压缩单元、数据去重单元和数据写入单元;
分布式调度框架由客户端、分布式调度***和处理端组成;
管理控制台包括数据源管理单元、任务调度管理单元、信息统计单元、数据校验单元和故障回退控制单元;
采用上述预处理***的大数据处理方法,具体按照以下步骤实施:
步骤1,***根据客户需求,通过源数据管理单元向后台处理***发送数据抽取请求,后台处理***根据接收到的数据抽取请求从结构化数据库或非结构化数据库中抽取数据,所述数据抽取请求包括结构化数据抽取请求和非结构化数据抽取请求;
步骤2,判断抽取的数据是否为统一的数据格式,如果抽取的数据是统一的数据格式,则执行步骤3;如果抽取的数据不是统一的数据格式,则将抽取的数据按照***需求统一格式后并执行步骤3;
步骤3,判断统一格式后的数据是否符合分析要求,如果统一格式后的数据符合分析要求,则将统一格式后的通过数据写入单元存储到大数据存储与管理***;如果统一格式后的数据不符合分析要求,则将统一格式后的数据发送给分布式调度框架,并执行步骤4;
步骤4,分布式调度框架对统一格式后的数据进行判断,并将其发送给数据预处理模块进行处理;
步骤5,数据写入单元将步骤4中经过处理的数据存储到大数据存储与管理***中。
本发明另一种技术方案的特点还在于,
步骤4具体按照以下步骤实施:
步骤4.1,分布式调度框架判断统一格式后的数据是否需要去重,如果有去重需要,则将统一格式后的数据发送给数据去重单元对其进行去重;如果没有去重需要,则执行步骤4.2;
步骤4.2,分布式调度框架判断去重后的数据是否需要合并,如果有合并需要,则将去重后的数据进行合并,并执行步骤4.3;如果没有合并需要,则执行步骤4.3;
步骤4.3,分布式调度框架将合并后的数据与处理前的数据进行比较,检查其是否有错误、残缺和遗漏,如果没有错误、残缺和遗漏则将合并后的数据存储到大数据存储与管理***中;如果有错误、残缺和遗漏,则重新执行步骤4.1~步骤4.3。
本发明的有益效果是,
(1)该***能够在不影响其他处理任务的前提下通过元数据管理模块及任务分发框架来协调多个处理任务,实现负载均衡。
(2)该***的并行工作能力强,保证任务的快速处理。
(3)能够实现政务大数据从无序状态到有序状态转换的过程,其过程是动态的、连续的,可监控度量的,转换的结果将直接写入大数据存储***中,供大数据处理分析使用。
(4)使用分布式任务调度***,使得在不增加硬件设备的条件下,将CPU使用率较低的服务器充分利用起来,实现服务器的最大价值。
附图说明
图1是本发明一种政务大数据预处理***的架构示意图;
图2是本发明中分布式调度框架的结构示意图;
图3是本发明一种政务大数据处理方法的流程示意图;
图4是本发明一种政务大数据处理方法中进行分布式任务调度的流程示意图。
图中,1. 结构化数据抽取模块,2.非结构化数据抽取模块,3.数据检验单元,4.数据转换单元,5. 数据合并单元,6. 数据压缩单元,7. 数据去重单元,8. 数据写入单元,9. 客户端,10. 分布式调度***,11. 处理端,12. 数据源管理单元,13. 任务调度管理单元,14. 信息统计单元,15. 数据校验单元,16. 故障回退控制单元。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种政务大数据预处理***,如图1所示,包括结构化数据抽取模块1、非结构化数据抽取模块2、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块1和非结构化数据抽取模块2均与分布式调度框架连接。
数据预处理模块包括数据预处理模块包括数据检验单元3、数据转换单元4、数据合并单元5、数据压缩单元6、数据去重单元7和数据写入单元8。
管理控制台包括数据源管理单元12、任务调度管理单元13、信息统计单元14、数据校验单元15和故障回退控制单元16。
如图2所示,分布式调度框架由客户端9、分布式调度***10和处理端11组成。
管理控制台作为整个预处理***的UI前端,该控制台提供友好的人机交互界面,提供的主要功能包括对数据源的管理(数据抽取/入库控制)、任务调度管理(任务状态监测/任务调度控制)、信息统计(对特定关键字的信息查看并统计)、数据校验、故障回退控制。
其中,结构化数据抽取模块1从政务结构化数据库中抽取要处理的数据,或非结构化数据抽取模块2从政务非结构化数据库中抽取要处理的数据,结构化数据抽取模块1和非结构化数据抽取模块2将抽取的数据发送给分布式调度框架,分布式调度框架接收到要处理的数据之后,对其进行判断并分发到合适的处理节点做实际的处理操作;
数据检验单元3实现对处理前后数据的一致性和完整性检验;
数据转换单元4实现对数据格式的转换,将其转换为符合挖掘和分析要求的数据类型;
数据合并单元5完成不同数据源的合并操作;
数据压缩单元6实现对大数据量的冗余压缩;
数据去重单元7完成对非必须数据的过滤和去重;
数据写入单元8实现将预处理之后的数据加载到目标存储区,即大数据存储与管理***,该***实现对与处理过的数据的持久化存储和管理。
本发明一种政务大数据处理方法,如图3所示,具体为:
首先,***根据客户的需求,通过数据源管理单元12向后台处理***发送数据抽取请求,后台处理***根据接收到的数据抽取请求从结构化数据库1或非结构化数据库2中抽取数据;
然后,任务调度管理单元13监测任务状态和任务调度控制,将抽取后的数据通过分布式调度框架发送到数据预处理模块;数据预处理模块根据接收到的任务做相应的处理;
其中,数据预处理模块做相应的处理具体为:
在数据转换单元4上运行能够实现对数据库抽取的数据的修订,完成数据格式的转化;对于格式化的数据,如有去重需要,则进一步将去重后的数据导入到数据去重单元7,通过去重功能程序过滤掉重复的数据项;如不需要,则跳过此步操作;对于经过格式化/去重之后的数据,如果需要合并某些数据单元,则将其导入到数据合并单元5,通过运行数据合并功能的程序实现对数据项的内容的合并;如不需要,则跳过此步操作;对数据格式化/去重复值/合并之后,在将数据加载到大数据存储与管理***之前需要对处理前后的数据的某些关键值作比对,检查其是否有错误、残缺、遗漏问题,确保数据的真实性、有效性和完整性,如果有错去、残缺和遗漏问题,则放弃预处理的数据重新进行预处理;对于有些需要在不同节点之间传输的大数据流,考虑到网络带宽等因素,需要将其压缩后再传输,此时需要将这些数据导入到数据压缩单元6,通过运行数据压缩程序实现对数据的压缩。
最后,将经过预处理的数据通过数据写入单元8加载到目标存储区,即大数据存储与管理***。
在整个政务大数据处理的流程中最重要的模块是分布式调度框架,该框架是一个分布式过程通信的***,它提供了一个通用的应用程序框架,主要负责具体任务的分发和监控,能够保证大批量数据的高效处理。如图4所示,该框架包括三个组成部分,一是客户端,二是分布式调度***,三是处理端。 客户端的作用是提出一个任务并将其交给分布式调度***。分布式调度***会去寻找一个合适的处理端来完成这项任务。处理端执行由客户端经任务调度框架发送过来的任务,并且将结果通过分布式调度框架返回给客户端。分布式调度***提供了客户端和处理端的API,便于使用任意语言编写客户端和处理端程序。

Claims (1)

1.一种政务大数据处理方法,其特征在于,利用政务大数据预处理***,其结构为:
包括结构化数据抽取模块(1)、非结构化数据抽取模块(2)、数据预处理模块、分布式调度框架和管理控制台,所述结构化数据抽取模块(1)和所述非结构化数据抽取模块(2)均与分布式调度框架连接;
所述数据预处理模块包括数据检验单元(3)、数据转换单元(4)、数据合并单元(5)、数据压缩单元(6)、数据去重单元(7)和数据写入单元(8);
所述分布式调度框架由客户端(9)、分布式调度***(10)和处理端(11)组成;
所述管理控制台包括数据源管理单元(12)、任务调度管理单元(13)、信息统计单元(14)、数据校验单元(15)和故障回退控制单元(16);
具体按照以下步骤实施:
步骤1,***根据客户需求,通过数据源管理单元向后台处理***发送数据抽取请求,后台处理***根据接收到的数据抽取请求后,利用结构化数据抽取模块(1)、非结构化数据抽取模块(2)从结构化数据库或非结构化数据库中抽取数据,所述数据抽取请求包括结构化数据抽取请求和非结构化数据抽取请求;
步骤2,判断抽取的数据是否为统一的数据格式,如果抽取的数据是统一的数据格式,则执行步骤3;如果抽取的数据不是统一的数据格式,则将抽取的数据按照***需求统一格式后并执行步骤3;
步骤3,判断统一格式后的数据是否符合分析要求,如果统一格式后的数据符合分析要求,则将统一格式后的数据通过数据写入单元存储到大数据存储与管理***;如果统一格式后的数据不符合分析要求,则将统一格式后的数据发送给分布式调度框架,并执行步骤4;
步骤4,分布式调度框架对统一格式后的数据进行判断,并将其发送给数据预处理模块进行处理;具体按照以下步骤实施:
步骤4.1,分布式调度框架判断统一格式后的数据是否需要去重,如果有去重需要,则将统一格式后的数据发送给数据去重单元对其进行去重;如果没有去重需要,则执行步骤4.2;
步骤4.2,分布式调度框架判断步骤4.1得到的数据是否需要合并,如果有合并需要,则将数据进行合并,并执行步骤4.3;如果没有合并需要,则执行步骤4.3;
步骤4.3,分布式调度框架将步骤4.2处理得到的数据与处理前的数据进行比较,检查其是否有错误、残缺和遗漏,如果没有错误、残缺和遗漏则将步骤4.2处理得到的数据存储到大数据存储与管理***中;如果有错误、残缺和遗漏,则重新执行步骤4.1~步骤4.3;
步骤5,数据写入单元将步骤4中经过处理的数据存储到大数据存储与管理***中。
CN201410578565.8A 2014-10-24 2014-10-24 一种政务大数据预处理***及处理方法 Active CN104361031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410578565.8A CN104361031B (zh) 2014-10-24 2014-10-24 一种政务大数据预处理***及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410578565.8A CN104361031B (zh) 2014-10-24 2014-10-24 一种政务大数据预处理***及处理方法

Publications (2)

Publication Number Publication Date
CN104361031A CN104361031A (zh) 2015-02-18
CN104361031B true CN104361031B (zh) 2018-06-19

Family

ID=52528293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410578565.8A Active CN104361031B (zh) 2014-10-24 2014-10-24 一种政务大数据预处理***及处理方法

Country Status (1)

Country Link
CN (1) CN104361031B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426493A (zh) * 2015-11-24 2016-03-23 北京中电普华信息技术有限公司 一种应用于分布式存储***的数据处理***及方法
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及***

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295087B (zh) * 2017-06-29 2020-06-02 人民法院信息技术服务中心 一种实现网系间数据聚合的***及方法
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN108710644A (zh) * 2018-04-23 2018-10-26 江苏达科信息科技有限公司 一种关于政务大数据处理方法
CN110609834B (zh) * 2018-05-29 2023-04-18 西安电子科技大学 基于Agent的多源异构政务数据抽取***
CN110471956A (zh) * 2019-08-13 2019-11-19 浪潮云信息技术有限公司 一种适用于政务应用的统计展示***及方法
CN111382579A (zh) * 2020-01-13 2020-07-07 中船第九设计研究院工程有限公司 一种船舶管道制造执行***的数据预处理校验平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和***
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理***及处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069853B2 (en) * 2007-03-30 2015-06-30 Innography, Inc. System and method of goal-oriented searching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和***
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理***及处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Teradata数据仓库在邮政金融客户管理***中的设计与实现;王夕萌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215(第S2期);第5.3.2节,第6.1.1节,第8.2节 *
面向大数据的ETL设计与实现;王晓伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615(第06期);第1.1节,第2.2-2.4节 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426493A (zh) * 2015-11-24 2016-03-23 北京中电普华信息技术有限公司 一种应用于分布式存储***的数据处理***及方法
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及***

Also Published As

Publication number Publication date
CN104361031A (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
CN104361031B (zh) 一种政务大数据预处理***及处理方法
CN109034993B (zh) 对账方法、设备、***及计算机可读存储介质
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
CN104125163B (zh) 一种数据处理方法、装置及终端
CN105631026A (zh) 一种安全数据分析***
CN104516989B (zh) 增量数据推送***和方法
CN105677615B (zh) 一种基于weka接口的分布式机器学习方法
CN109614412B (zh) 基于电力行业的云上数据发布服务两级共享缓存分析方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN108573029B (zh) 一种获取网络访问关系数据的方法、装置及存储介质
CN113242157B (zh) 一种分布式处理环境下的集中式数据质量监测方法
Pääkkönen Feasibility analysis of AsterixDB and Spark streaming with Cassandra for stream-based processing
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN103117878A (zh) 一种基于Nagios的分布式监控***的设计方法
CN112100227A (zh) 一种基于多级异构数据存储的大数据处理方法
CN101751297A (zh) 一种可承受大量用户登录的信息***及实现方法
CN111506672B (zh) 实时分析环保监测数据的方法、装置、设备及存储介质
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN107391374A (zh) 中间件自动化检查方法
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
CN106528795B (zh) 一种数据挖掘方法及装置
CN112860812B (zh) 在大数据中无侵入确定数据字段级关联关系的方法和装置
CN105590224A (zh) 确定交易流程中失效节点的方法
US8214846B1 (en) Method and system for threshold management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Qian

Inventor after: Shi Chenyu

Inventor after: Bai Feng

Inventor after: Li Anying

Inventor after: Liu Shoucang

Inventor after: Du Wei

Inventor before: Wang Qian

Inventor before: Shi Chenyu

Inventor before: Li Anying

Inventor before: Ge Xin

Inventor before: Liang Xiaojiang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant