CN109063063B - 基于多源数据的数据处理方法及装置 - Google Patents

基于多源数据的数据处理方法及装置 Download PDF

Info

Publication number
CN109063063B
CN109063063B CN201810805070.2A CN201810805070A CN109063063B CN 109063063 B CN109063063 B CN 109063063B CN 201810805070 A CN201810805070 A CN 201810805070A CN 109063063 B CN109063063 B CN 109063063B
Authority
CN
China
Prior art keywords
data
source
library
target
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810805070.2A
Other languages
English (en)
Other versions
CN109063063A (zh
Inventor
韩志平
郑其荣
艾永健
李鹏
李文杰
王德奎
赵海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taihua Wisdom Industry Group Co Ltd
Original Assignee
Taihua Wisdom Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taihua Wisdom Industry Group Co Ltd filed Critical Taihua Wisdom Industry Group Co Ltd
Priority to CN201810805070.2A priority Critical patent/CN109063063B/zh
Publication of CN109063063A publication Critical patent/CN109063063A/zh
Application granted granted Critical
Publication of CN109063063B publication Critical patent/CN109063063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多源数据的数据处理方法及装置,该方法包括:获取包括目标专题数据的所有数据源,对各数据源按照完整度由大到小的顺序进行排序;将完整度最大的数据源作为优选数据源,并将该数据源中的目标专题数据输入到中间库;将数据源集合中其他数据源的目标专题数据分别与优选目标专题数据比较,得到补充数据源和新增数据源;将补充目标专题数据输入到中间库中并删除与优选目标专题数据相同的数据,将新增目标专题数据输入到中间库中;筛选中间库中的原始数据中存在的问题数据,将中间库中剩余数据输入到业务库中;将业务库中的数据删除历史数据之后输入过程库;将过程库中的所有数据发送到结果库。本发明可以提高数据的归集效率。

Description

基于多源数据的数据处理方法及装置
技术领域
本发明涉及数据处理领域,更具体地,涉及一种基于多源数据的数据处理方法及装置。
背景技术
信息是现代社会的重要资源,是管理部门运用科学管理、决策分析的基础。目前,需要花费大量的资金和时间来构建联机事务处理OLTP的业务***和办公自动化***,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的社会价值,而管理部门所关注的通常只占在总数据量的2%~4%左右。因此,我们仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键政策的最佳契机。于是,如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其办事效率的主要瓶颈。ETL是构建智慧城市的重要数据归集技术,用户从数据源抽取所需的数据,经过数据清洗,最终按照预先定义的数据仓库模型,将数据加载到数据仓库中去,都通过ETL来执行。但是,目前常用的ETL存在抽取数据单一、抽取质量差、数据处理效率低的缺点。
因此,亟待发明一种数据处理效率高的数据处理方法。
发明内容
有鉴于此,本发明提供了一种基于多源数据的数据处理方法及装置。已解决现有技术中数据处理效率低的问题。
为了解决上述问题,本发明提供了一种基于多源数据的数据处理方法,包括以下步骤:
获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个所述数据源包括若干条数据,每一条数据包括若干字段;
对所述数据源集合中各所述数据源,按照完整度由大到小的顺序进行排序,其中,所述完整度包括所述数据源所包含的数据的量、数据的种类以及数据的准确度;
将完整度最大的所述数据源作为优选数据源,其中,所述优选数据源中的所述目标专题数据为优选目标专题数据;
将所述优选目标专题数据以及所述优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;
将所述数据源集合中除所述优选数据源之外的其他数据源中的目标专题数据分别与所述优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,所述补充数据源中的所述目标专题数据为补充目标专题数据,所述新增数据源中的所述目标专题数据为新增目标专题数据,所述补充目标专题数据与所述优选目标专题数据部分重合,所述优选目标专题数据不与所述新增目标专题数据重合;
将所述补充目标专题数据以及所述补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期;
将所述新增目标专题数据以及所述新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
筛选所述中间库中的原始数据中存在的问题数据,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中,同时将所述问题数据输入到问题库中;
将所述预处理数据删除历史数据之后作为最终数据输入过程库中;
根据所述最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将所述数据来源追溯表保存在数据来源追溯库中;
在对所述最终数据进行变更时,通过所述最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将所述数据变更追溯表保存在数据变更追溯库中;
将所述过程库中的所有所述最终数据定期发送到结果库中。
进一步的,所述删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据包括:
通过KETTLE工具中的去重组件,将所述中间库中与所述优选目标专题数据相同的补充目标专题数据删除。
进一步的,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:
通过KETTLE工具中的值映射组件将所述中间库中的所有所述原始数据的不同格式统一映射为同一种格式的数据。
进一步的,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:
通过KETTLE工具中的字符串替换组件将所述中间库中的所有所述原始数据中不能识别的字符串替换为可识别的字符串。
进一步的,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:
通过KETTLE工具中的字段值替换组件将所述中间库中的所有所述原始数据中的不同格式的字段值替换为同一种格式的字段值。
进一步的,所述方法还包括:
对于所述中间库中的所有所述原始数据,对于多条所述原始数据中包含的同一个实体的原始数据设置相同的编码,所述编码为唯一的字符串。
为了解决上述问题,本发明提供了一种基于多源数据的数据处理装置,包括:
数据源获取模块,用于获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个所述数据源包括若干条数据,每一条数据包括若干字段;
数据源排序模块,用于对所述数据源集合中各所述数据源,按照完整度由大到小的顺序进行排序,其中,所述完整度包括所述数据源所包含的数据的量、数据的种类以及数据的准确度;
第一数据源确定模块,用于将完整度最大的所述数据源作为优选数据源,其中,所述优选数据源中的所述目标专题数据为优选目标专题数据;
第一数据处理模块,用于将所述优选目标专题数据以及所述优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;
第二数据源确定模块,用于将所述数据源集合中除所述优选数据源之外的其他数据源中的目标专题数据分别与所述优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,所述补充数据源中的所述目标专题数据为补充目标专题数据,所述新增数据源中的所述目标专题数据为新增目标专题数据,所述补充目标专题数据与所述优选目标专题数据部分重合,所述优选目标专题数据不与所述新增目标专题数据重合;
第二数据处理模块,用于将所述补充目标专题数据以及所述补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中,删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期,将所述新增目标专题数据以及所述新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
问题数据处理模块,用于筛选所述中间库中的原始数据中存在的问题数据,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中,同时将从所述问题数据输入到问题库中,将所述预处理数据删除历史数据之后作为最终数据输入过程库中;
数据来源追溯模块,用于根据所述最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将所述数据来源追溯表保存在数据来源追溯库中;
数据变更追溯模块,用于在对所述最终数据进行变更时,通过所述最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将所述数据变更追溯表保存在数据变更追溯库中;
数据发送模块,用于将所述过程库中的所有所述最终数据定期发送到结果库中。
进一步的,所述第二数据处理模块在删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据时,具体执行的步骤包括:
通过KETTLE工具中的去重组件,将所述中间库中与所述优选目标专题数据相同的补充目标专题数据删除。
进一步的,所述装置还包括格式统一模块,用于在将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的值映射组件将所述中间库中的所有所述原始数据的不同格式统一映射为同一种格式的数据。
进一步的,所述装置还包括字符串替换模块,用于在将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的字符串替换组件将所述中间库中的所有所述原始数据中不能识别的字符串替换为可识别的字符串。
与现有技术相比,本发明提供的基于多源数据的数据处理方法及装置,至少实现了如下的有益效果:
一、本发明对目标专题数据的多个来源按照完整度进行排序,优先抽取完整度最高的数据源中的数据,以其他数据源中的数据作为补充,相比于现有技术中直接抽取所有数据源中数据的方法,本发明提供的方法可以大大减少数据处理量,提高数据处理的速度;
二、本发明将原始数据依次输入中间库、业务库、过程库和结果库,并且将中间库中筛选出来的有问题的原始数据单独保存在问题库中,方便用户查看;同时根据过程库中的最终数据建立数据变更追溯表和数据来源追溯表,方便用户单独对数据的来源和变更记录进行查看。
三、本发明在将原始数据保存在中间库时,通过值映射组件、去重组件、字符串替换组件和字段替换组件对原始数据进行处理,使原始数据中的数据不存在重复的情况,并且使原始数据中的数据格式统一,便于对原始数据的分析和应用;
四、本发明对多条数据中的同一个实体采用唯一的编码进行标记,使数据在后续的传输过程中,可以迅速的识别出数据中的实体信息。
当然,实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是基于多源数据的数据处理方法流程图;
图2是基于多源数据的数据处理方法中数据流动流程图;
图3是另一种基于多源数据的数据处理方法流程图;
图4是基于多源数据的数据处理装置的***框图。
301、数据源获取模块;302、数据源排序模块;303、第一数据源确定模块;304、第一数据处理模块;305、第二数据源确定模块;306、第二数据处理模块;307、问题数据处理模块;308、数据来源追溯模块;309、数据变更追溯模块;310、数据发送模块;311、格式统一模块;312、字符串替换模块。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1:
本实施例提供了一种基于多源数据的数据处理方法,可以在采集不同数据源的数据时,提高数据的采集效率。如图1所示为基于多源数据的数据处理方法的流程图,图2是基于多源数据的数据处理方法中数据流动流程图。参照图1和图2所示,该方法包括以下步骤:
S101:获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个数据源包括若干条数据,每一条数据包括若干字段;
目标专题数据为需要选取的专题数据,将数据按照类别可以分为若干个专题,例如文化专题、经济专题、教育专题等等,也可以按照更小的类别划分专题。用户根据需求选择一个专题的数据作为目标专题数据,在抽取数据时,往往多个数据源都包含有目标专题数据,数据源是指数据的来源,例如数据源可以为A部门的数据、B单位的数据等等。在获取目标专题数据之前,将包含目标专题的所有数据源归纳为数据源集合,每个数据源都包含若干条数据。
S102:对数据源集合中各数据源,按照完整度由大到小的顺序进行排序,其中,完整度包括数据源所包含的数据的量、数据的种类以及数据的准确度;
例如对于目标专题数据共有三个数据源A1、A2和A3,根据每一个数据源中数据的完整度进行排序,得到A1>A2>A3,即数据源A1中的目标专题数据的数据量最大,准确度最高,种类最多,在具体进行排序时,可以首先将数据源所包含的数据的量、数据的种类以及数据的准确度进行归一化处理,然后对各参数设置合适的权重,计算各参数归一化处理后的值与对应权重的乘积之和,即可得到数据源的完整度。
S103:将完整度最大的数据源作为优选数据源,其中,优选数据源中的目标专题数据为优选目标专题数据;也即将完整度最高的数据源中的目标专题数据作为优选的数据,定义为优选目标专题数据。
S104:将优选目标专题数据以及优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;
数据源中的每一条数据都具有数据来源、数据编号和数据的生成日期这些信息。在将数据源中的优选目标专题数据输入到中间库的同时,需要将优选目标专题数据和优选目标专题数据的数据来源、数据编号以及生成日期全部作为原始数据输入到中间库中,便于后期对优选目标专题数据中的每一条数据追溯其来源和生成日期。
S105:将数据源集合中除优选数据源之外的其他数据源中的目标专题数据分别与优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,补充数据源中的目标专题数据为补充目标专题数据,新增数据源中的目标专题数据为新增目标专题数据,补充目标专题数据与优选目标专题数据部分重合,优选目标专题数据不与新增目标专题数据重合;
例如对于步骤S102中的举例,A1为优选数据源,将数据源A2和A3中的目标专题数据分别与A1中的目标专题数据进行对比,假如数据源A2中的目标专题数据中有一部分与数据源A1中的目标专题数据重复,也即数据源A2中存在部分目标专题数据是数据源A1中所没有的目标专题数据,那么就将数据源A2定义为补充数据源;假设数据源A3中的所有目标专题数据在数据源A1中均没有,也即数据源A3中的目标专题数据与数据源A1中的目标专题数据不发生重合,那么将数据源A3定义为新增数据源。
S106:将补充目标专题数据以及补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
S107:删除中间库中的与优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期;
由于补充目标专题数据中有些数据是优选数据源中本身就有的目标专题数据,因此需要将补充目标专题数据中与优选数据源中的目标专题数据重复的部分删掉,同时对应的数据来源、数据编号和生成日期也删掉,只保留优选数据源中所没有的目标专题数据。
S108:将新增目标专题数据以及新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
由于新增数目标专题数据中的所有数据都是优选数据源中所没有的目标专题数据,因此可以将新增目标专题数据以及新增目标专题数据的数据来源、数据编号以及生成日期全部作为原始数据输入到中间库中,并且中间库中的数据不会存在重复的情况。
S109:筛选中间库中的原始数据中存在的问题数据,将中间库中去除问题数据的原始数据作为预处理数据输入到业务库中,同时将问题数据输入到问题库中;
中间库中的所有原始数据中可能存在一些有问题数据,问题数据包括是数据信息有错误的数据和无法识别的数据,本步骤对中间库中的所有原始数据进行筛选,将没有问题的原始数据作为预处理数据,并将问题数据单独保存在问题库中,便于用户对问题数据进行单独查看。
S110:将预处理数据删除历史数据之后作为最终数据输入过程库中;预处理数据中的数据会存在一些历史数据,例如对于某企业的某位员工A,历史数据包括员工A在入职该企业之前的工作经历,例如在5年之前员工A的工作单位,4年前员工A的工作单位等信息。在删除这些历史数据之后将预处理数据中剩余的数据作为最终数据输入过程库中,删除历史数据之后的最终数据包括的数据均是描述当前状态或信息的数据。
S111:根据最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中;
最终数据同样是由若干个字段组成,由于每一个字段都有其来源和生成日期,为了便于用户对最终数据的每一个字段的来源和生成日期进行查看,对每一个数据的来源和生成日期单独建立一个数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中。
S112:在对最终数据进行变更时,通过最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将数据变更追溯表保存在数据变更追溯库中;
其中,原值是指用户在对字段进行变更之前该字段的值,现值是指用户在对字段变更之后该字段的值,用户可以在数据变更追溯库中查看所有数据变更追溯表,并在数据变更追溯表中查看每一个被变更过的数据的变更记录。
S113:将过程库中的所有最终数据定期发送到结果库中。
结果库中保存有若干个结果表,用于保存最终数据。
本实施例提供的基于多源数据的数据处理方法,对目标专题数据的多个来源按照完整度进行排序,优先抽取完整度最高的数据源中的数据,以其他数据源中的数据作为补充,相比于现有技术中直接抽取所有数据源中数据的方法,本发明提供的方法可以大大减少数据处理量,提高数据处理的速度。
实施例2:
本实施例在实施例1的基础上,提供了一种优选的基于多源数据的数据处理方法,如图2是基于多源数据的数据处理方法中数据流动流程图,如图3所示为另一种基于多源数据的数据处理方法流程图。
该方法包括以下步骤:
S201:获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个数据源包括若干条数据,每一条数据包括若干字段;
目标专题数据为需要选取的专题数据,将数据按照类别可以分为若干个专题,例如文化专题、经济专题、教育专题等等,也可以按照更小的类别划分专题。用户根据需求选择一个专题的数据作为目标专题数据,在抽取数据时,往往多个数据源都包含有目标专题数据,数据源是指数据的来源,例如数据源可以为A部门的数据、B单位的数据等等。在获取目标专题数据之前,将包含目标专题的所有数据源归纳为数据源集合,每个数据源都包含若干条数据。
S202:对数据源集合中各数据源,按照完整度由大到小的顺序进行排序,其中,完整度包括数据源所包含的数据的量、数据的种类以及数据的准确度;
例如对于目标专题数据共有三个数据源A1、A2和A3,根据每一个数据源中数据的完整度进行排序,得到A1>A2>A3,即数据源A1中的目标专题数据的数据量最大,准确度最高,种类最多。在具体进行排序时,可以首先将数据源所包含的数据的量、数据的种类以及数据的准确度进行归一化处理,然后对各参数设置合适的权重,计算各参数归一化处理后的值与对应权重的乘积之和,即可得到数据源的完整度。
S203:将完整度最大的数据源作为优选数据源,其中,优选数据源中的目标专题数据为优选目标专题数据;也即将完整度最高的数据源中的目标专题数据作为优选的数据。
S204:将优选目标专题数据以及优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;
数据源中的每一条数据都具有数据来源、数据编号和数据的生成日期这些信息。在将数据源中的优选目标专题数据输入到中间库的同时,需要将优选目标专题数据和优选目标专题数据的数据来源、数据编号以及生成日期全部作为原始数据输入到中间库中,便于后期对优选目标专题数据中的每一条数据追溯其来源和生成日期。
S205:将数据源集合中除优选数据源之外的其他数据源中的目标专题数据分别与优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,补充数据源中的目标专题数据为补充目标专题数据,新增数据源中的目标专题数据为新增目标专题数据,补充目标专题数据与优选目标专题数据部分重合,优选目标专题数据不与新增目标专题数据重合;
例如对于步骤S102中的举例,A1为优选数据源,将数据源A2和A3中的目标专题数据分别与A1中的目标专题数据进行对比,假如数据源A2中的目标专题数据中有一部分与数据源A1中的目标专题数据重复,也即数据源A2中存在部分目标专题数据是数据源A1中所没有的目标专题数据,那么就将数据源A2定义为补充数据源;假设数据源A3中的所有目标专题数据在数据源A1中均没有,也即数据源A3中的目标专题数据与数据源A1中的目标专题数据不发生重合,那么将数据源A3定义为新增数据源。
S206:将补充目标专题数据以及补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
S207:通过KETTLE工具中的去重组件,将中间库中与优选目标专题数据相同的补充目标专题数据删除,同时删除对应的数据来源、数据编号和生成日期;
由于补充目标专题数据中有些数据是优选数据源中本身就有的目标专题数据,因此需要将补充目标专题数据中与优选数据源中的目标专题数据重复的部分删掉,同时对应的数据来源、数据编号和生成日期也删掉,只保留优选数据源中所没有的目标专题数据,KETTLE工具中的去重组件可以自动将补充目标专题数据中与优选数据源中的目标专题数据重复的部分删除,减少数据处理量。
S208:将新增目标专题数据以及新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
由于新增数目标专题数据中的所有数据都是优选数据源中所没有的目标专题数据,因此可以将新增目标专题数据以及新增目标专题数据的数据来源、数据编号以及生成日期全部作为原始数据输入到中间库中,并且中间库中的数据不会存在重复的情况。
S209:通过KETTLE工具中的值映射组件将中间库中的所有原始数据的不同格式统一映射为同一种格式的数据。
在原始数据中可能存在多种不同格式的数据,例如对“是”和“否”,在A数据源中可能直接通过是或否来表示,在B数据源中可能通过YES或NO来表示,在C数据源中也可能通过Y或N来表示,值映射组件可以针对所有不同格式的数据统一映射为同一种格式的数据,比如需要统一用“是”或“否”来表示,那么值映射组件可以将B数据源中的所有“YES”映射为“是”,所有“NO”统一映射为“否”;对于其他数据源中的数据也采取相同原理的操作,使中间库中的所有原始数据格式统一。
S210:通过KETTLE工具中的字符串替换组件将中间库中的所有原始数据中不能识别的字符串替换为可识别的字符串。
在原始数据中可能存在一些计算机无法识别的字符串,KETTLE工具中的字符串替换组件可以将计算机无法识别的字符串替换为可识别的字符串。避免原始数据在后续处理过程中出现无法识别的现象。
S211:通过KETTLE工具中的字段值替换组件将中间库中的所有原始数据中的不同格式的字段值替换为同一种格式的字段值。
在原始数据中对于同一个字段的值可能存在多种格式的数据,例如对于数字的值可能存在罗马字体和希腊字体的数据,也可能存在汉字或***数字的数据,KETTLE工具中的字段值替换组件可以将不同格式的字段值统一替换成同一种格式的字段值,使中间库中的原始数据在格式上更加统一和规范。
S212:对于中间库中的所有原始数据,对于多条原始数据中包含的同一个实体的原始数据设置相同的编码。编码为唯一的字符串。
在所有原始数据中,有些原始数据中会有一些实体信息,实体信息由一条或多条数据记录,对原始数据中包含同一个实体信息的多条数据设置相同的编码,无论原始数据在后续流入业务库、过程库、问题库或结果库,都可以迅速的判断出原始数据中的实体。具体的,采用JavaScript代码组件来创建统一编码,编码为唯一的字符串。
S213:筛选中间库中的原始数据中存在的问题数据,将中间库中去除问题数据的原始数据作为预处理数据输入到业务库中,同时将从问题数据输入到问题库中;
中间库中的所有原始数据中可能存在一些有问题数据,问题数据包括数据信息有错误的数据和无法识别的数据,本步骤对中间库中的所有原始数据进行筛选,将没有问题的原始数据作为预处理数据,并将问题数据单独保存在问题库中,便于用户对问题数据进行单独查看。
S214:将预处理数据删除历史数据之后作为最终数据输入过程库中;预处理数据中的数据会存在一些历史数据,例如对于某企业的某位员工A,历史数据包括员工A在入职该企业之前的工作经历,例如在5年之前员工A的工作单位,4年前员工A的工作单位等信息。在删除这些历史数据之后将预处理数据中剩余的数据作为最终数据输入过程库中。删除历史数据之后的最终数据包括的数据均是描述当前状态或信息的数据。
S215:根据最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中;
最终数据同样是由若干个字段组成,由于每一个字段都有其来源和生成日期,为了便于用户对最终数据的每一个字段的来源和生成日期进行查看,对每一个数据的来源和生成日期单独建立一个数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中。
S216:在对最终数据进行变更时,通过最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将数据变更追溯表保存在数据变更追溯库中;
其中,原值是指用户在对字段进行变更之前该字段的值,现值是指用户在对字段变更之后该字段的值,用户可以在数据变更追溯库中查看所有数据变更追溯表,并在数据变更追溯表中查看每一个被变更过的数据的变更记录。
S217:将过程库中的所有最终数据定期发送到结果库中。
结果库中保存有若干个结果表,用于保存最终数据。
通过本实施例提供的基于多源数据的数据处理方法,至少实现了如下的有益效果:
一、本实施例提供的基于多源数据的数据处理方法,在将原始数据保存在中间库时,通过KETTLE工具中的值映射组件、去重组件、字符串替换组件和字段替换组件对原始数据进行处理,使原始数据中的数据不存在重复的情况,并且使原始数据中的数据格式统一,便于对原始数据的分析和应用;
二、本实施例提供的基于多源数据的数据处理方法,对多条数据中的同一个实体采用唯一的编码进行标记,使数据在后续的传输过程中,可以迅速的识别出数据中的实体信息。
实施例3:
本实施例在实施例1和实施例2的基础上,提供了一种基于多源数据的数据处理装置。如图2是基于多源数据的数据处理方法中数据流动流程图,图4所示为基于多源数据的数据处理装置的框图。该装置包括:
数据源获取模块301,用于获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个数据源包括若干条数据,每一条数据包括若干字段;数据源即为提供所需数据的单位,比如需要获取交通数据,数据源可以为A部门的数据、B单位的数据。有些数据可能在很多数据源中都有,因此将所有包含所需要数据的数据源组成数据源集合。
数据源排序模块302,用于对数据源集合中各数据源,按照完整度由大到小的顺序进行排序,其中,完整度包括数据源所包含的数据的量、数据的种类以及数据的准确度;
例如对于目标专题数据共有三个数据源A1、A2和A3,根据每一个数据源中数据的完整度进行排序,得到A1>A2>A3,即数据源A1中的目标专题数据的数据量最大,准确度最高,种类最多。在具体进行排序时,可以首先将数据源所包含的数据的量、数据的种类以及数据的准确度进行归一化处理,然后对各参数设置合适的权重,计算各参数归一化处理后的值与对应权重的乘积之和,即可得到数据源的完整度。
第一数据源确定模块303,用于将完整度最大的数据源作为优选数据源,其中,优选数据源中的目标专题数据为优选目标专题数据;例如A1的完整度最大,那么将A1作为优选数据源,代表A1中所包含的目标专题数据的数量最多,准确度最高,种类最多。
第一数据处理模块304,用于将优选目标专题数据以及优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;
第二数据源确定模块305,用于将数据源集合中除优选数据源之外的其他数据源中的目标专题数据分别与优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,补充数据源中的目标专题数据为补充目标专题数据,新增数据源中的目标专题数据为新增目标专题数据,补充目标专题数据与优选目标专题数据部分重合,优选目标专题数据不与新增目标专题数据重合;
例如对于数据源A1、A2和A3,根据每一个数据源中数据的完整度进行排序,得到A1>A2>A3,那么A1为优选数据源,此步骤用于将数据源A2以及A3分别与数据源A1中的数据进行比较。假如数据源A2中的目标专题数据中有一部分与数据源A1中的目标专题数据重复,也即数据源A2中存在部分目标专题数据是数据源A1中所没有的目标专题数据,那么就将数据源A2定义为补充数据源;假设数据源A3中的所有目标专题数据为数据源A1中所没有的目标专题数据,也即数据源A3中的目标专题数据与数据源A1中的目标专题数据不发生重合,那么将数据源A3定义为新增数据源。
第二数据处理模块306,用于将补充目标专题数据以及补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中,删除中间库中的与优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期,将新增目标专题数据以及新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;
具体的,第二数据处理模块306通过KETTLE工具中的去重组件,将中间库中与优选目标专题数据相同的补充目标专题数据删除。
由于补充目标专题数据中有些数据是优选数据源中本身就有的目标专题数据,因此需要将补充目标专题数据中与优选数据源中的目标专题数据重复的部分删掉,同时对应的数据来源、数据编号和生成日期也删掉,只保留优选数据源中所没有的目标专题数据,KETTLE工具中的去重组件可以自动将补充目标专题数据中与优选数据源中的目标专题数据重复的部分删除,减少数据处理量。
问题数据处理模块307,用于筛选中间库中的原始数据中存在的问题数据,将中间库中去除问题数据的原始数据作为预处理数据输入到业务库中,同时将从问题数据输入到问题库中,将预处理数据删除历史数据之后作为最终数据输入过程库中;
中间库中的所有原始数据中可能存在一些有问题数据,问题数据包括数据信息有错误的数据和无法识别的数据,本步骤对中间库中的所有原始数据进行筛选,将没有问题的原始数据作为预处理数据,并将问题数据单独保存在问题库中,便于用户对问题数据进行单独查看。同时问题数据处理模块307在将问题数据保存到问题库中时,还负责对预处理数据删除历史记录,将删除历史记录的预处理数据输入到过程库中。
数据来源追溯模块308,用于根据最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中;
最终数据是由若干个字段组成,由于每一个字段都有其来源和生成日期,为了便于用户对最终数据的每一个字段的来源和生成日期进行查看,对每一个数据的来源和生成日期单独建立一个数据来源追溯表,并将数据来源追溯表保存在数据来源追溯库中。
数据变更追溯模块309,用于在对最终数据进行变更时,通过最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将数据变更追溯表保存在数据变更追溯库中;
其中,原值是指用户在对字段进行变更之前该字段的值,现值是指用户在对字段变更之后该字段的值,用户可以在数据变更追溯库中查看所有数据变更追溯表,并在数据变更追溯表中查看每一个被变更过的数据的变更记录。
数据发送模块310,用于将过程库中的所有最终数据定期发送到结果库中。
格式统一模块311,用于在将中间库中去除问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的值映射组件将中间库中的所有原始数据的不同格式统一映射为同一种格式的数据。
在原始数据中可能存在多种不同格式的数据,例如对“是”和“否”,在A数据源中可能直接通过是或否来表示,在B数据源中可能通过YES或NO来表示,在C数据源中也可能通过Y或N来表示,值映射组件可以针对所有不同格式的数据统一映射为同一种格式的数据,比如需要统一用“是”或“否”,那么值映射组件可以将B数据源中的所有“YES”映射为“是”,所有“NO”统一映射为“否”;对于其他数据源中的数据也采取相同原理的操作,使中间库中的所有原始数据格式统一。
字符串替换模块312,用于在将中间库中去除问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的字符串替换组件将中间库中的所有原始数据中不能识别的字符串替换为可识别的字符串。
在原始数据中可能存在一些计算机无法识别的字符串,KETTLE工具中的字符串替换组件可以将计算机无法识别的字符串替换为可识别的字符串。避免原始数据在后续处理过程中出现无法识别的现象。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于多源数据的数据处理方法,其特征在于,包括:获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个所述数据源包括若干条数据,每一条数据包括若干字段;对所述数据源集合中各所述数据源,按照完整度由大到小的顺序进行排序,其中,所述完整度包括所述数据源所包含的数据的量、数据的种类以及数据的准确度;将完整度最大的所述数据源作为优选数据源,其中,所述优选数据源中的所述目标专题数据为优选目标专题数据;将所述优选目标专题数据以及所述优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;将所述数据源集合中除所述优选数据源之外的其他数据源中的目标专题数据分别与所述优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,所述补充数据源中的所述目标专题数据为补充目标专题数据,所述新增数据源中的所述目标专题数据为新增目标专题数据,所述补充目标专题数据与所述优选目标专题数据部分重合,所述优选目标专题数据不与所述新增目标专题数据重合;将所述补充目标专题数据以及所述补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期;将所述新增目标专题数据以及所述新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;筛选所述中间库中的原始数据中存在的问题数据,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中,同时将所述问题数据输入到问题库中;将所述预处理数据删除历史数据之后作为最终数据输入过程库中;根据所述最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将所述数据来源追溯表保存在数据来源追溯库中;在对所述最终数据进行变更时,通过所述最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将所述数据变更追溯表保存在数据变更追溯库中;将所述过程库中的所有所述最终数据定期发送到结果库中。
2.根据权利要求1所述的基于多源数据的数据处理方法,其特征在于,所述删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据包括:通过KETTLE工具中的去重组件,将所述中间库中与所述优选目标专题数据相同的补充目标专题数据删除。
3.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的值映射组件将所述中间库中的所有所述原始数据的不同格式统一映射为同一种格式的数据。
4.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的字符串替换组件将所述中间库中的所有所述原始数据中不能识别的字符串替换为可识别的字符串。
5.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的字段值替换组件将所述中间库中的所有所述原始数据中的不同格式的字段值替换为同一种格式的字段值。
6.根据权利要求1所述的基于多源数据的数据处理方法,其特征在于,所述方法还包括:对于所述中间库中的所有所述原始数据,对于多条所述原始数据中包含的同一个实体的原始数据设置相同的编码,所述编码为唯一的字符串。
7.一种基于多源数据的数据处理装置,其特征在于,包括:数据源获取模块,用于获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个所述数据源包括若干条数据,每一条数据包括若干字段;数据源排序模块,用于对所述数据源集合中各所述数据源,按照完整度由大到小的顺序进行排序,其中,所述完整度包括所述数据源所包含的数据的量、数据的种类以及数据的准确度;第一数据源确定模块,用于将完整度最大的所述数据源作为优选数据源,其中,所述优选数据源中的所述目标专题数据为优选目标专题数据;第一数据处理模块,用于将所述优选目标专题数据以及所述优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;第二数据源确定模块,用于将所述数据源集合中除所述优选数据源之外的其他数据源中的目标专题数据分别与所述优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,所述补充数据源中的所述目标专题数据为补充目标专题数据,所述新增数据源中的所述目标专题数据为新增目标专题数据,所述补充目标专题数据与所述优选目标专题数据部分重合,所述优选目标专题数据不与所述新增目标专题数据重合;第二数据处理模块,用于将所述补充目标专题数据以及所述补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中,删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期,将所述新增目标专题数据以及所述新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;问题数据处理模块,用于筛选所述中间库中的原始数据中存在的问题数据,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中,同时将从所述问题数据输入到问题库中,将所述预处理数据删除历史数据之后作为最终数据输入过程库中;数据来源追溯模块,用于根据所述最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将所述数据来源追溯表保存在数据来源追溯库中;数据变更追溯模块,用于在对所述最终数据进行变更时,通过所述最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将所述数据变更追溯表保存在数据变更追溯库中;数据发送模块,用于将所述过程库中的所有所述最终数据定期发送到结果库中。
8.根据权利要求7所述的基于多源数据的数据处理装置,其特征在于,所述第二数据处理模块在删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据时,具体执行的步骤包括:通过KETTLE工具中的去重组件,将所述中间库中与所述优选目标专题数据相同的补充目标专题数据删除。
9.根据权利要求8所述的基于多源数据的数据处理装置,其特征在于,所述装置还包括格式统一模块,用于在将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的值映射组件将所述中间库中的所有所述原始数据的不同格式统一映射为同一种格式的数据。
10.根据权利要求8所述的基于多源数据的数据处理装置,其特征在于,所述装置还包括字符串替换模块,用于在将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,通过KETTLE工具中的字符串替换组件将所述中间库中的所有所述原始数据中不能识别的字符串替换为可识别的字符串。
CN201810805070.2A 2018-07-20 2018-07-20 基于多源数据的数据处理方法及装置 Active CN109063063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810805070.2A CN109063063B (zh) 2018-07-20 2018-07-20 基于多源数据的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810805070.2A CN109063063B (zh) 2018-07-20 2018-07-20 基于多源数据的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN109063063A CN109063063A (zh) 2018-12-21
CN109063063B true CN109063063B (zh) 2020-06-23

Family

ID=64834936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810805070.2A Active CN109063063B (zh) 2018-07-20 2018-07-20 基于多源数据的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN109063063B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263229B (zh) * 2019-06-27 2020-06-02 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110489475B (zh) * 2019-08-14 2021-01-26 广东电网有限责任公司 一种多源异构数据处理方法、***及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2534535A (en) * 2014-10-08 2016-08-03 Lancaster Univ Business Entpr Ltd Data structuring and searching methods and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109063063A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
US20160196332A1 (en) Method and system for disambiguating informational objects
CN105701176A (zh) 一种数据整合的方法及装置
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
Hamad et al. An enhanced technique to clean data in the data warehouse
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN109063063B (zh) 基于多源数据的数据处理方法及装置
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与***
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
CN101178721A (zh) 一种对论坛中有用帖子信息进行分类并整理的方法
CN102467544A (zh) 基于空间模糊编码的信息智能搜索方法及***
CN108228787A (zh) 按照多级类目处理信息的方法和装置
US20170220665A1 (en) Systems and methods for merging electronic data collections
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及***
CN111125045B (zh) 一种轻量级etl处理平台
CN107004002A (zh) 根据结构化数据项的集合生成非结构化搜索查询
CN111241176A (zh) 一种数据治理管理***
CN116226108A (zh) 可实现不同治理程度的数据治理方法及***
CN112860653A (zh) 一种政务信息资源目录管理方法和***
CN115774717A (zh) 数据搜索方法、装置、电子设备及计算机可读存储介质
US11016978B2 (en) Joiner for distributed databases
CN115098585A (zh) 一种基于大数据的法律法规数据自动处理方法及***
CN114004575A (zh) 一种个性化招聘***及实现招聘***个性化的方法
CN115062023A (zh) 宽表优化方法、装置、电子设备及计算机可读存储介质
CN115409297B (zh) 一种政务服务流程优化方法、***及电子设备
CN109766439A (zh) 统计查询软件的无限树状分类定义与指派方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant