CN109344145B - 一种基于数据标准规范的数据清洗方法、装置和*** - Google Patents
一种基于数据标准规范的数据清洗方法、装置和*** Download PDFInfo
- Publication number
- CN109344145B CN109344145B CN201811040620.2A CN201811040620A CN109344145B CN 109344145 B CN109344145 B CN 109344145B CN 201811040620 A CN201811040620 A CN 201811040620A CN 109344145 B CN109344145 B CN 109344145B
- Authority
- CN
- China
- Prior art keywords
- data
- work order
- problem report
- report work
- standard specification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据标准规范的数据清洗方法、装置和***,该方法包括以下步骤:获取数据标准规范信息和数据源;根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号;当问题报告工单被处理后,将已处理的问题报告工单存入知识库中。本发明基于标准数据规范信息,对需要清洗的数据源进行质量检测,并生成问题报告工单发送至相关的处理账号,当处理人完成对问题报告工单的处理后,将问题报告工单存储到知识库中,以便于后续数据清洗过程中处理人借鉴已经完成处理的问题报告工单的解决方案,从而提升数据清洗的效率。本发明可以广泛应用于数据处理领域。
Description
技术领域
本发明涉及数据处理领域,尤其是一种基于数据标准规范的数据清洗方法、装置和***。
背景技术
随着社会的迅速进步,手机电脑等产生的数据以每日数亿条增长,应运而生的数据清洗技术的应用也愈加广泛,所以有效地从海量的数据中获取有用的信息是至关重要的。
数据清洗(Data cleaning)在字面意思上就是把“脏数据”清洗掉,数据清洗是指发现并纠正数据文件中可识别的错误数据的最后一道程序,而“脏数据”主要分为数据缺失、数据重复、数据错误和数据不可用四大类。然而目前针对不同类型的数据存在不同的清洗方式,因而需要采用不同的数据标准规范。
现有数据清洗方法中并没有对问题报告工单进行归整,导致后续的清洗过程中无法重复利用问题报告工单中的问题现象以及解决方案,在一定程度上,现有技术效率仍然有改进空间。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种能够提升效率的基于标准规范的数据清洗方法、装置和***。
本发明所采取的第一种技术方案是:
一种基于数据标准规范的数据清洗方法,包括以下步骤:
获取数据标准规范信息和数据源;
根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号;
当问题报告工单被处理后,将已处理的问题报告工单存入知识库中。
进一步,所述根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号,这一步骤具体包括:
根据数据标准规范信息配置数据源中各字段的数据标准规范;
添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。
进一步,还包括以下步骤:
根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。
进一步,还包括以下步骤:
获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。
本发明所采取的第二种技术方案是:
一种基于数据标准规范的数据清洗装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种基于数据标准规范的数据清洗方法。
本发明所采取的第三种技术方案是:
一种基于数据标准规范的数据清洗***,包括:
获取模块,用于获取数据源;
数据标准规范信息管理模块,用于添加、修改和删除数据标准规范信息;
质量检测模块,用于根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号;
问题报告工单处理模块,用于处理问题报告工单;
知识库,用于查询和存储已经处理的问题报告工单。
进一步,所述质量检测模块包括:
映射配置单元,用于根据数据标准规范信息配置数据源中各字段的数据标准规范;
任务执行调度单元,用于添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
工单管理单元,用于根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。
进一步,还包括:
查询模块,用于根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。
进一步,还包括:
搜索模块,用于获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。
进一步,所述工单管理单元还用于:
获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号;
或者
获取用户输入的第三信息,将问题报告工单发送至设定的外部***。
本发明的有益效果是:本发明基于标准数据规范信息,对需要清洗的数据源进行质量检测,并生成问题报告工单发送至相关的处理账号,当处理人完成对问题报告工单的处理后,将问题报告工单存储到知识库中,以便于后续数据清洗过程中处理人借鉴已经完成处理的问题报告工单的解决方案,从而提升数据清洗的效率。
附图说明
图1为本发明一种具体实施例的基于数据标准规范的数据清洗方法的流程图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
参照图1,一种基于数据标准规范的数据清洗方法,该方法可以通过计算机实现。
所述方法包括以下步骤:
S1、获取数据标准规范信息和数据源。所述数据标准规范信息可以包含多条规则,处理人可以根据实际需要对数据标准规范信息中的规则进行增加、删除和修改。
S2、根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号。在对数据源进行质量检测的过程中,会发现数据源存在的问题,即发现数据源不符合数据标准规范信息中的规则的情况,问题报告工单会记录数据源所存在的问题,例如记录第N字段的第M个数据有问题。然后记录了数据源的数据问题的问题报告工单会传输到处理人的账号,即第一处理账号,所述第一处理账号可以是固定的,也可以是在每次数据清洗过程中设定的。
S3、当问题报告工单被处理后,将已处理的问题报告工单存入知识库中。其中,已处理的问题报告工单中会记录处理人的解决方案。例如,第N个字段的第M个数据存在问题,针对该问题的解决方案是对该数据进行删除、合并、替换或者是其他操作。这样,如果在后续的数据清洗过程中,处理人遇到类似的问题,可以查找到之前的解决方案,有助于提升数据清洗的效率。
作为优选的实施例,所述步骤S2具体包括:
S21、根据数据标准规范信息配置数据源中各字段的数据标准规范;将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联。
S22、添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;本实施例中的方法可以同时执行多个数据清洗任务,因此需要增设任务调度的功能。
S23、根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。本实施例中,问题报告工单中包含每个字段存在的数据问题。
作为优选的实施例,为了方便处理人借鉴过往问题报告工单的解决方案,本实施例还包括以下步骤:
S4、根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。本实施例可以根据处理人所选择的数据标准规范信息,自动从知识库中匹配采用了相同数据标准规范的案例,并向用户呈现。使得用户可以很方便地找到相关案例的解决方案,从而提升数据清洗的效率。
作为优选的实施例,还包括以下步骤:
S5、获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。本实施例中,用户可以通过输入第一信息进行搜索,所述第一信息可以是相关字段的名称或者所处理数据的格式等等,本实施例可以在过往不存在使用相同的数据标准规范的数据清洗案例的情况下,利用关键词在已处理的问题报告工单中查找近似的数据清洗方案,以便于处理人借鉴过往数据清洗案例的解决方案,以提升数据清洗的效率。
一种基于数据标准规范的数据清洗装置,包括:
存储器,用于存储程序;所述存储器可以是U盘、硬盘或者光盘等存储设备。
处理器,用于加载所述程序以执行上述任一种实施例的基于数据标准规范的数据清洗方法。
本实施例公开了一种基于数据标准规范的数据清洗***,包括:
获取模块,用于获取数据源;所述数据源可以来源于外部***的数据接口、本地的数据库或者存储介质。
数据标准规范信息管理模块,用于添加、修改和删除数据标准规范信息;所述数据标准规范信息可以包含多条规则,处理人可以根据实际需要对数据标准规范信息中的规则进行增加、删除和修改。
质量检测模块,用于根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号。在对数据源进行质量检测的过程中,会发现数据源存在的问题,即发现数据源不符合数据标准规范信息中的规则的情况,问题报告工单会记录数据源所存在的问题,例如记录第N字段的第M个数据有问题。然后记录了数据源的数据问题的问题报告工单会传输到处理人的账号,即第一处理账号,所述第一处理账号可以是固定的,也可以是在每次数据清洗过程中设定的。
问题报告工单处理模块,用于处理问题报告工单;在本模块中,处理人可以登录自己的账号,并对问题报告工单进行处理,例如,针对问题报告工单中指出的问题,可以通过删除、增加和修改等方式进行处理。最后的解决方案会随着问题报告工单存储在知识库中。
知识库,用于查询和存储已经处理的问题报告工单。处理人可以在知识库中查找过去存在类似情况的问题报告工单的解决方案,以提升数据清洗的效率。
本***能够便于处理人管理数据标准规范信息,提升了数据清洗的灵活度,并且可以充分利用已有的问题报告工单作为借鉴的案例,提升数据清洗的效率。
作为优选的实施例,所述质量检测模块包括:
映射配置单元,用于根据数据标准规范信息配置数据源中各字段的数据标准规范。映射配置单元将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联。
任务执行调度单元,用于添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;本实施例中的***可以同时执行多个数据清洗任务,因此需要增设任务调度的功能。
工单管理单元,用于根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。本实施例中,问题报告工单中包含每个字段存在的数据问题。
作为优选的实施例,为了方便处理人借鉴过往问题报告工单的解决方案,本实施例还包括:
查询模块,用于根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。本实施例可以根据处理人所选择的数据标准规范信息,自动从知识库中匹配采用了相同数据标准规范的案例,并向用户呈现。使得用户可以很方便地找到相关案例的解决方案,从而提升数据清洗的效率。
作为优选的实施例,还包括:
搜索模块,用于获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。本实施例中,用户可以通过输入第一信息进行搜索,所述第一信息可以是相关字段的名称或者所处理数据的格式等等,本实施例可以在过往不存在使用相同的数据标准规范的数据清洗案例的情况下,利用关键词在已处理的问题报告工单中查找近似的数据清洗方案,以便于处理人借鉴过往数据清洗案例的解决方案,以提升数据清洗的效率。
作为优选的实施例,为了便于将问题报告工单转处理,所述工单管理单元还用于:
获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号;
或者
获取用户输入的第三信息,将问题报告工单发送至设定的外部***。
本实施例可以灵活地分配问题报告工单到不同的处理人以进行处理,也可以将问题报告工单发送到外部***。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (3)
1.一种基于数据标准规范的数据清洗方法,其特征在于:包括以下步骤:
获取数据标准规范信息和数据源;
根据数据标准规范信息配置数据源中各字段的数据标准规范,其中,将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联;
添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号,其中,所述问题报告工单包括数据源中每个字段存在的数据问题;
获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号;或者获取用户输入的第三信息,将问题报告工单发送至设定的外部***;
当问题报告工单被处理后,将已处理的问题报告工单存入知识库中,其中,已处理的问题报告工单中记录第一处理账号的处理人的解决方案;
根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单;
获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单,其中,所述第一信息为字段名称或者数据格式。
2.一种基于数据标准规范的数据清洗装置,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1所述的一种基于数据标准规范的数据清洗方法。
3.一种基于数据标准规范的数据清洗***,其特征在于:包括:
获取模块,用于获取数据源;
数据标准规范信息管理模块,用于添加、修改和删除数据标准规范信息,其中,将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联;
映射配置单元,用于根据数据标准规范信息配置数据源中各字段的数据标准规范;
任务执行调度单元,用于添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
工单管理单元,用于根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号;用于获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号,或者获取用户输入的第三信息,将问题报告工单发送至设定的外部***,其中,所述问题报告工单包括数据源中每个字段存在的数据问题;
问题报告工单处理模块,用于处理问题报告工单,其中,已处理的问题报告工单中记录第一处理账号的处理人的解决方案;
知识库,用于查询和存储已经处理的问题报告工单;
查询模块,用于根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单;
搜索模块,用于获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单,其中,所述第一信息为字段名称或者数据格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811040620.2A CN109344145B (zh) | 2018-09-07 | 2018-09-07 | 一种基于数据标准规范的数据清洗方法、装置和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811040620.2A CN109344145B (zh) | 2018-09-07 | 2018-09-07 | 一种基于数据标准规范的数据清洗方法、装置和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344145A CN109344145A (zh) | 2019-02-15 |
CN109344145B true CN109344145B (zh) | 2022-12-27 |
Family
ID=65304922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811040620.2A Active CN109344145B (zh) | 2018-09-07 | 2018-09-07 | 一种基于数据标准规范的数据清洗方法、装置和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344145B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032669A (zh) * | 2021-03-09 | 2021-06-25 | 国轩高科美国研究院 | 一种产品问题处理方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739618A (zh) * | 2009-12-21 | 2010-06-16 | 北京世纪互联宽带数据中心有限公司 | 综合业务处理*** |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
CN102394885A (zh) * | 2011-11-09 | 2012-03-28 | 中国人民解放军信息工程大学 | 基于数据流的信息分类防护自动化核查方法 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN103902731A (zh) * | 2014-04-16 | 2014-07-02 | 国家电网公司 | 一种基于知识库查询的智能化信息检修方法 |
CN105808939A (zh) * | 2016-03-04 | 2016-07-27 | 新博卓畅技术(北京)有限公司 | 一种数据规则引擎***和方法 |
CN106777227A (zh) * | 2016-12-26 | 2017-05-31 | 河南信安通信技术股份有限公司 | 基于云平台的多维数据融合分析***及方法 |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN108169621A (zh) * | 2017-12-05 | 2018-06-15 | 国电南瑞科技股份有限公司 | 基于支持向量机的台区停电事件补全方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080288889A1 (en) * | 2004-02-20 | 2008-11-20 | Herbert Dennis Hunt | Data visualization application |
US7590619B2 (en) * | 2004-03-22 | 2009-09-15 | Microsoft Corporation | Search system using user behavior data |
US20120179564A1 (en) * | 2005-09-14 | 2012-07-12 | Adam Soroca | System for retrieving mobile communication facility user data from a plurality of providers |
KR20090087026A (ko) * | 2006-11-03 | 2009-08-14 | 김영애 | 유무선 통신을 기반으로 하는 자판기의 관리, 이 자판기를 이용한 정보제공 및 정보획득 시스템 그리고 이 시스템을 이용한 자판기의 관리, 정보제공 및 정보획득 방법 |
CN106294492A (zh) * | 2015-06-08 | 2017-01-04 | 深圳中兴网信科技有限公司 | 数据清洗方法及清洗引擎 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询*** |
CN106611053B (zh) * | 2016-12-26 | 2020-05-01 | 河南信安通信技术股份有限公司 | 一种数据清理、索引方法 |
CN106951315B (zh) * | 2017-03-17 | 2020-05-22 | 北京搜狐新媒体信息技术有限公司 | 一种基于etl的数据任务调度方法及*** |
-
2018
- 2018-09-07 CN CN201811040620.2A patent/CN109344145B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739618A (zh) * | 2009-12-21 | 2010-06-16 | 北京世纪互联宽带数据中心有限公司 | 综合业务处理*** |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
CN102394885A (zh) * | 2011-11-09 | 2012-03-28 | 中国人民解放军信息工程大学 | 基于数据流的信息分类防护自动化核查方法 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN103902731A (zh) * | 2014-04-16 | 2014-07-02 | 国家电网公司 | 一种基于知识库查询的智能化信息检修方法 |
CN105808939A (zh) * | 2016-03-04 | 2016-07-27 | 新博卓畅技术(北京)有限公司 | 一种数据规则引擎***和方法 |
CN106777227A (zh) * | 2016-12-26 | 2017-05-31 | 河南信安通信技术股份有限公司 | 基于云平台的多维数据融合分析***及方法 |
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN108169621A (zh) * | 2017-12-05 | 2018-06-15 | 国电南瑞科技股份有限公司 | 基于支持向量机的台区停电事件补全方法 |
Non-Patent Citations (2)
Title |
---|
"HADCLEAN: A hybrid approach to data cleaning in data warehouses";Arindam Paul;《2012 International Conference on Information Retrieval & Knowledge Management》;20120528;第136-142页 * |
"数据清洗研究综述";王曰芬 等;《现代图书情报技术》;20071225;第50-56页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109344145A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Konda | Magellan: Toward building entity matching management systems | |
US7971231B2 (en) | Configuration management database (CMDB) which establishes policy artifacts and automatic tagging of the same | |
US7406477B2 (en) | Database system with methodology for automated determination and selection of optimal indexes | |
US8463811B2 (en) | Automated correlation discovery for semi-structured processes | |
US20200007588A1 (en) | Method and System for Automated Cybersecurity Incident and Artifact Visualization and Correlation for Security Operation Centers and Computer Emergency Response Teams | |
JP2010524060A (ja) | 分散コンピューティングにおけるデータマージング | |
US9706005B2 (en) | Providing automatable units for infrastructure support | |
US20090083221A1 (en) | System and Method for Estimating and Storing Skills for Reuse | |
CN109344145B (zh) | 一种基于数据标准规范的数据清洗方法、装置和*** | |
CN110704417A (zh) | 一种元数据管理方法、设备及存储介质 | |
US20110082839A1 (en) | Generating intellectual property intelligence using a patent search engine | |
US20220114516A1 (en) | Systems and methods for discovery of automation opportunities | |
US20150006578A1 (en) | Dynamic search system | |
CN115291994A (zh) | 功能菜单展示方法及装置 | |
CN111178028B (zh) | 一种财务数据的清洗方法、设备及存储介质 | |
CN114546999A (zh) | 一种数据清理方法、装置、电子设备及存储介质 | |
CN115577078B (zh) | 一种工程造价审计信息检索方法、***、设备及存储介质 | |
KR101113690B1 (ko) | 활동 정보 분석 장치 및 그 방법 | |
US11663542B2 (en) | Electronic knowledge creation and management visual transformation tool | |
US20230141506A1 (en) | Pre-constructed query recommendations for data analytics | |
Gupta et al. | Provenance in context of Hadoop as a Service (HaaS)-State of the Art and Research Directions | |
US20230100289A1 (en) | Searchable data processing operation documentation associated with data processing of raw data | |
CN108363617B (zh) | 一种ssr上的离线清单异步导入方法 | |
CN101655945B (zh) | 一种业务信息管理***中的业务记录处理方法和装置 | |
CN116450317A (zh) | 基于数据统计的定时任务管理方法、***及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |