CN117951128A - 一种基于人工智能的数据质量稽查方法 - Google Patents
一种基于人工智能的数据质量稽查方法 Download PDFInfo
- Publication number
- CN117951128A CN117951128A CN202410132137.6A CN202410132137A CN117951128A CN 117951128 A CN117951128 A CN 117951128A CN 202410132137 A CN202410132137 A CN 202410132137A CN 117951128 A CN117951128 A CN 117951128A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- abnormal
- rules
- checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000007689 inspection Methods 0.000 title claims abstract description 39
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 27
- 230000005856 abnormality Effects 0.000 claims abstract description 21
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 238000003326 Quality management system Methods 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013441 quality evaluation Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000007726 management method Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 7
- 230000008439 repair process Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 230000002411 adverse Effects 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 4
- 230000003442 weekly effect Effects 0.000 claims description 4
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000008713 feedback mechanism Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 230000008263 repair mechanism Effects 0.000 claims description 3
- 238000013523 data management Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- General Factory Administration (AREA)
Abstract
本发明公开了一种基于人工智能的数据质量稽查方法,包括以下步骤:步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建。本发明自动化程度高,可以自动地进行数据质量评估和异常检测,减少了人工干预和提高了工作效率,更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。
Description
技术领域
本发明涉及数据治理稽查的技术领域,尤其涉及一种基于人工智能的数据质量稽查方法。
背景技术
数据作为国家战略资源的重要性,凸显了其在推动数字经济进步中的核心作用。在这一背景下,对于现代企业而言,数据已经成为企业的一项重要资产,数据的真实性、准确性和完整性对于企业的决策和发展至关重要。然而,由于数据来源的多样性、数据产生方式的复杂性和数据存储的分散性等特点,数据质量问题一直困扰着企业。而由传统的数据质量稽查有以下缺陷:
1、效率低下:数据质量稽查通常需要大量的人力,耗时且容易出错。
2、主观性强:稽查人员的经验、技能和判断会影响稽查结果,导致结果的不准确。
3、实时性差:人工稽查通常按周期进行,无法及时发现和处理问题。
4、一致性差:由于人员更替和标准理解的不同,导致前后稽查结果不一致。
为了解决这些问题,基于人工智能的数据质量稽查技术逐渐成为研究热点,基于人工智能的数据质量稽查技术主要依赖于机器学习、深度学习等人工智能技术,通过构建智能化的数据质量评估模型和异常检测算法,对企业的数据进行全面、快速、准确的质量评估和异常检测,这种技术可以自动化地发现数据中的异常和错误,为企业提供数据治理和数据质量提升的依据,为此,我们提出一种基于人工智能的数据质量稽查方法来解决上述提出的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于人工智能的数据质量稽查方法存在的问题,提出了本发明。
因此,本发明目的是提供一种基于人工智能的数据质量稽查方法,其自动化程度高,可以自动地进行数据质量评估和异常检测,减少了人工干预和提高了工作效率,更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。
为解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的数据质量稽查方法,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练***识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在***里,形成问题工单;
B2:异常分类:用机器学习模型,训练***识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让***学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,***通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在***中;
B8:监控和反馈:***监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,***能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;所述支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和。
本发明的有益效果:
1、自动化程度高:可以自动地进行数据质量评估和异常检测,大大减少了人工干预和提高了工作效率。
2、准确性高:通过机器学习和深度学习等技术,可以对数据进行多维度、多层次的质量评估和异常检测,提高了检测的准确性和可靠性。
3、实时性和响应性高:可以更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。
4、可扩展性强:可以针对不同行业、不同业务场景的数据进行定制化开发,满足企业的个性化需求,继续拓展到更多的行业和应用场景。
5、自主学习和自适应能力强:可以通过不断学习和优化算法,适应新的数据和环境,实现更加智能和灵活的功能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于人工智能的数据质量稽查方法的数据质量稽查功能架构图。
图2为本发明基于人工智能的数据质量稽查方法的数据质量稽查管理流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
参照图1-2,提供了一种基于人工智能的数据质量稽查方法,其特征在于,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
其中,数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则。质量核查规则是用于评估和确保数据质量的一组定义,它们定义了数据应该满足的标准和条件。这些规则通常涵盖数据的准确性、完整性、一致性、时效性、唯一性和有效性等方面。质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性等方面的约束。提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建,步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
进一步的,确定质量核查规则后,需按照需求建立核查任务,核查任务管理是数据质量管理中的一个至关重要的环节。其核心职责在于按照事先制定的核查规则,对数据对象的质量进行全面检查。此模块包括质量核查任务和任务执行监控等业务。根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,可根据数据集的特性和变化进行调整。通过监控业务模块实时查看核查任务的执行结果,包括任务完成情况、发现的问题和异常情况等。这些监控结果可用于及时调整核查规则、优化任务执行计划,确保数据质量得到有效提升,步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
其中,在对数据进行质量核查后,可能会有大量数据质量问题的存在。这些问题可能会对进一步的数据分析和应用产生不良影响。本发明提供了异常管理模块,异常模块采用了机器学习和大数据技术进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景等信息,并识别出问题的来源和原因。有助于开发人员快速定位问题,并及时采取修复措施。同时,异常管理模块还可以记录问题发生的历史数据,以便进行长期的趋势分析和预测。异常管理模块分为异常通知和异常处理两部分。异常通知有两种方式:一种是查看稽核问题报告,另一种是异常告警短信。
步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练***识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在***里,形成问题工单;
B2:异常分类:用机器学习模型,训练***识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让***学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,***通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在***中;
B8:监控和反馈:***监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
具体的,采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,***能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
其中,步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
更进一步的,步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和;
具体的,针对简单重复的并且容错率比较高的数据质量比对和评估操作,可以直接利用流程机器人RPA进行替代处理,为避免治理产生的二次数据质量问题,以分区为单位进行备份,对备份数据使用RPA比对,RPA找到所有的问题数据所在位置,对备份数据进行纠正,并对纠正后的位置进行指出,由审核人员进行审核,审核成功后方可由专门人员走单子,对真实分区进行修改,保留修改的sql语句和sql运行日志,该分区的备份数据、修改后的数据、修改的sql代码、导出的sql运行日志这四个文件需要放在同一个目录,进行留存。
其中,对于一些验证规则缺乏的数据,需要先把验证规则进行补全,才能使用RPA进行数据治理;而对于非结构化数据和半结构化数据,需要先将数据结构化,再结合规则用RPA进行辅助治理。
另外,对于一些容错率比较低,且对***运行影响比较大的字段数据,则不宜采用RPA治理,还是需要人工亲自核对治理。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于人工智能的数据质量稽查方法,其特征在于,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
2.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
3.根据权利要求2所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
4.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练***识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在***里,形成问题工单;
B2:异常分类:用机器学习模型,训练***识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让***学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,***通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在***中;
B8:监控和反馈:***监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
5.根据权利要求4所述的基于人工智能的数据质量稽查方法,其特征在于:所述采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,***能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
6.根据权利要求5所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;所述支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
7.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132137.6A CN117951128A (zh) | 2024-01-31 | 2024-01-31 | 一种基于人工智能的数据质量稽查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132137.6A CN117951128A (zh) | 2024-01-31 | 2024-01-31 | 一种基于人工智能的数据质量稽查方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117951128A true CN117951128A (zh) | 2024-04-30 |
Family
ID=90801034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410132137.6A Pending CN117951128A (zh) | 2024-01-31 | 2024-01-31 | 一种基于人工智能的数据质量稽查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117951128A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647523A (zh) * | 2019-09-09 | 2020-01-03 | 平安证券股份有限公司 | 数据质量的分析方法及装置、存储介质、电子设备 |
CN111143334A (zh) * | 2019-11-13 | 2020-05-12 | 深圳市华傲数据技术有限公司 | 一种数据质量闭环控制方法 |
CN113377758A (zh) * | 2021-06-30 | 2021-09-10 | 数字郑州科技有限公司 | 一种数据质量稽核引擎及其稽核方法 |
CN113762735A (zh) * | 2021-08-18 | 2021-12-07 | 江苏电力信息技术有限公司 | 一种基于规则库的数据质量治理***及方法 |
CN116126846A (zh) * | 2023-02-07 | 2023-05-16 | 浪潮卓数大数据产业发展有限公司 | 一种数据质量检测方法、设备及介质 |
CN117234785A (zh) * | 2023-11-09 | 2023-12-15 | 华能澜沧江水电股份有限公司 | 基于人工智能自查询的集控平台错误分析*** |
-
2024
- 2024-01-31 CN CN202410132137.6A patent/CN117951128A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647523A (zh) * | 2019-09-09 | 2020-01-03 | 平安证券股份有限公司 | 数据质量的分析方法及装置、存储介质、电子设备 |
CN111143334A (zh) * | 2019-11-13 | 2020-05-12 | 深圳市华傲数据技术有限公司 | 一种数据质量闭环控制方法 |
CN113377758A (zh) * | 2021-06-30 | 2021-09-10 | 数字郑州科技有限公司 | 一种数据质量稽核引擎及其稽核方法 |
CN113762735A (zh) * | 2021-08-18 | 2021-12-07 | 江苏电力信息技术有限公司 | 一种基于规则库的数据质量治理***及方法 |
CN116126846A (zh) * | 2023-02-07 | 2023-05-16 | 浪潮卓数大数据产业发展有限公司 | 一种数据质量检测方法、设备及介质 |
CN117234785A (zh) * | 2023-11-09 | 2023-12-15 | 华能澜沧江水电股份有限公司 | 基于人工智能自查询的集控平台错误分析*** |
Non-Patent Citations (1)
Title |
---|
张晓春: "《面向城市交通治理的大数据计算平台TransPaaS》", 30 November 2021, 同济大学出版社, pages: 106 - 108 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3798846B1 (en) | Operation and maintenance system and method | |
US11093519B2 (en) | Artificial intelligence (AI) based automatic data remediation | |
CN109711659B (zh) | 一种工业生产的良率提升管理***和方法 | |
US11829365B2 (en) | Systems and methods for data quality monitoring | |
US20090327208A1 (en) | Discovering transformations applied to a source table to generate a target table | |
CN113221960B (zh) | 一种高质量漏洞数据收集模型的构建方法及收集方法 | |
CN113064873B (zh) | 一种高召回率的日志异常检测方法 | |
CN115657890A (zh) | 一种pra机器人可定制方法 | |
CN109886434B (zh) | 一种智能钻井平台维护保养***及方法 | |
CN117591594A (zh) | 一种站控层监控信息表规范化审查及比对校验方法及工具 | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN117951128A (zh) | 一种基于人工智能的数据质量稽查方法 | |
CN114817171B (zh) | 一种埋点数据质量治理方法 | |
CN116069628A (zh) | 一种智能处置的软件自动化回归测试方法、***及设备 | |
CN115982213A (zh) | Bi数据分析方法、***及存储介质 | |
CN113641573A (zh) | 基于修订日志的程序分析软件自动化测试方法及*** | |
CN114969074A (zh) | 一种基于互联网ai外呼的数据库更新方法、***及装置 | |
Ramler et al. | Noise in bug report data and the impact on defect prediction results | |
CN107402920A (zh) | 确定关系数据库表关联复杂度的方法和装置 | |
TWI230349B (en) | Method and apparatus for analyzing manufacturing data | |
CN115576958B (zh) | 一种生产设备监管报表的数据校验方法、设备及介质 | |
CN118011990B (zh) | 基于人工智能的工业数据品质监控与提升*** | |
CN117076454B (zh) | 一种工程质量验收表单数据结构化存储方法及*** | |
CN117472641B (zh) | 数据质量的检测方法、装置、电子设备及存储介质 | |
CN113378907A (zh) | 增强数据预处理过程的自动化软件可追踪性恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |