CN116627958A - 大数据质量校验方法、装置、设备及存储介质 - Google Patents
大数据质量校验方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116627958A CN116627958A CN202310901493.5A CN202310901493A CN116627958A CN 116627958 A CN116627958 A CN 116627958A CN 202310901493 A CN202310901493 A CN 202310901493A CN 116627958 A CN116627958 A CN 116627958A
- Authority
- CN
- China
- Prior art keywords
- data
- check
- verification
- quality
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012795 verification Methods 0.000 claims abstract description 149
- 238000010276 construction Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000007726 management method Methods 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 11
- 238000013524 data verification Methods 0.000 claims description 9
- 238000012800 visualization Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013496 data integrity verification Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 241000282813 Aepyceros melampus Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及数据检测技术领域,并公开了一种大数据质量校验方法、装置、设备及存储介质,该方法包括:对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务;按照编排顺序依次调用airflow平台查询DAG任务的执行状态,并基于执行状态依次执行DAG任务,得到执行结果数据;基于预设校验规则对执行结果数据进行校验,得到校验结果数据;将校验结果数据进行可视化处理,得到质量校验报告并向用户展示。本发明基于数据构造后的大数据编排DAG任务得到执行结果数据,并基于预设校验规则对执行结果数据进行校验,得到大数据质量校验报告并向用户展示,从而实现了快速准确地对大数据进行质量校验。
Description
技术领域
本发明涉及数据检测技术领域,尤其涉及一种大数据质量校验方法、装置、设备及存储介质。
背景技术
如今,随着大数据技术的不断发展和企业数字化转型的推进,金融机构越来越依赖于数据分析和挖掘,需要从海量数据中筛选出有价值的信息以辅助业务决策、营销获客和风险管控。其中,大数据的质量显得尤为重要,它直接关系到数据分析和挖掘的准确性和有效性。因此,对大数据进行质量校验成为金融行业内不可或缺的一个环节。
现有的大数据质量校验方法通常是对待校验大数据进行简单地数据筛选后再通过校验工程师进行人工校验和分析来实现,然而这种方法往往需要耗费大量的时间成本和人力成本。此外,由于金融行业所涵盖的数据不仅数量庞大而且种类繁多,因此即使是经验丰富的校验工程师也无法保证校验结果的准确性。基于此,目前行业内亟需一种能够快速准确地对大数据进行质量校验的方法。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种大数据质量校验方法、装置、设备及存储介质,旨在解决现有技术无法快速准确地对大数据进行质量校验的技术问题。
为实现上述目的,本发明提供了一种大数据质量校验方法,所述方法包括以下步骤:
对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务;
按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据;
基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;
将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
可选地,所述对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务的步骤,包括:
对待校验大数据所需的数据源进行数据构造,得到数据构造后的大数据,所述数据构造包括数据收集、数据清洗、数据转换和数据标注;
根据所述数据构造后的大数据对应的校验要求确定需要调用的DAG任务,并根据所述DAG任务之间的依赖关系对所述DAG任务进行流水线编排以控制所述DAG任务的执行顺序。
可选地,所述按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据的步骤,包括:
按照编排顺序依次调用airflow平台的REST API接口查询所述DAG任务的执行状态;
若当前DAG任务的执行状态为执行成功,则自动触发下一个DAG任务的执行进程,得到执行结果数据;
若当前DAG任务的执行状态为执行失败,则终止所有DAG任务;
若当前DAG任务的执行状态为执行中,则等待预设时间后再次对所述当前DAG任务的执行状态进行查询,直至所述当前DAG任务的执行状态为执行成功或执行失败。
可选地,所述基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据的步骤,包括:
根据所述待校验大数据对应的校验要求对初始校验规则进行更新,得到预设校验规则;
基于预设校验规则对所述执行结果数据进行数据规范性校验、数据一致性校验、数据完整性校验和数据准确性校验,得到校验结果数据;
其中,所述数据规范性校验包括长度校验、精度校验、格式校验、空值率校验和唯一率校验,所述数据一致性校验包括总数一致性校验和明细一致性校验,所述数据完整性校验包括空值校验和空字符串校验,所述数据准确性校验包括值域校验和枚举校验。
可选地,所述基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据的步骤,还包括:
判断所述执行结果数据中是否同时包含离线数据和实时数据,所述离线数据为HIVE数据,所述实时数据为Hbase数据和/或Aerospike数据;
若包含,则通过第一查询工具查询出所述执行结果数据中所有HIVE数据并整合成HIVE数据集,通过第二查询工具查询出所述执行结果数据中所有Hbase数据并整合成Hbase数据集和/或通过第三查询工具查询出所述执行结果数据中所有Aerospike数据并整合成Aerospike数据集;
将所述HIVE数据集与所述Hbase数据集和/或所述Aerospike数据集进行对比,基于对比结果得到校验结果数据。
可选地,所述将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示的步骤,包括:
将所述校验结果数据进行可视化处理,得到大数据质量校验报告,所述大数据质量校验报告中包括统计结果和差异明细,所述统计结果包括比对总数、空值率、唯一率和一致率;
将所述大数据质量校验报告传输至可视化交互页面,并通过所述可视化交互页面向用户展示所述大数据质量校验报告。
可选地,所述将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示的步骤之后,还包括:
将所述预设校验规则、所述DAG任务、所述执行结果数据、所述校验结果数据和所述大数据质量校验报告存储至数据库管理***中;
基于所述数据库管理***中的数据对下一批待校验大数据进行质量校验。
此外,为实现上述目的,本发明还提出一种大数据质量校验装置,所述大数据质量校验装置包括:
数据构造模块,用于对待校验大数据所需的数据源进行数据构造;
流水线编排模块,用于基于数据构造后的大数据编排DAG任务;
任务执行模块,用于按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据;
数据校验模块,用于基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;
数据展示模块,用于将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
此外,为实现上述目的,本发明还提出一种大数据质量校验设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据质量校验程序,所述大数据质量校验程序配置为实现如上文所述的大数据质量校验方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有大数据质量校验程序,所述大数据质量校验程序被处理器执行时实现如上文所述的大数据质量校验方法的步骤。
本发明对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务;按照编排顺序依次调用airflow平台查询DAG任务的执行状态,并基于执行状态依次执行DAG任务,得到执行结果数据;基于预设校验规则对执行结果数据进行校验,得到校验结果数据,预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;将校验结果数据进行可视化处理,得到待校验大数据对应的质量校验报告并向用户展示。相比于现有的大数据质量校验方法对待校验大数据进行简单地数据筛选后再通过校验工程师进行人工校验和分析,由于本发明上述方法根据对待校验大数据所需的数据源进行数据构造后得到的DAG任务得到执行结果数据,并基于预设校验规则对执行结果数据进行校验,从而得到待校验大数据对应的质量校验报告并向用户展示,进而实现了快速准确地对大数据进行质量校验。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的大数据质量校验设备的结构示意图;
图2为本发明大数据质量校验方法第一实施例的流程示意图;
图3为本发明大数据质量校验方法第二实施例的流程示意图;
图4为本发明大数据质量校验方法第三实施例的流程示意图;
图5为本发明大数据质量校验装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的大数据质量校验设备结构示意图。
如图1所示,该大数据质量校验设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对大数据质量校验设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及大数据质量校验程序。
在图1所示的大数据质量校验设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明大数据质量校验设备中的处理器1001、存储器1005可以设置在大数据质量校验设备中,所述大数据质量校验设备通过处理器1001调用存储器1005中存储的大数据质量校验程序,并执行本发明实施例提供的大数据质量校验方法。
本发明实施例提供了一种大数据质量校验方法,参照图2,图2为本发明大数据质量校验方法第一实施例的流程示意图。
本实施例中,所述大数据质量校验方法包括以下步骤:
步骤S10:对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务。
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通讯以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,还可以是能够实现相同或相似功能的其他电子设备,本实施例对此不加以限制。此处将以大数据质量校验设备(以下简称校验设备)为例对本发明大数据质量校验方法的各项实施例进行说明。
可理解的是,上述待校验大数据可以是金融行业中任意类型的数据,例如授信、提现、计提、出账、逾期、核销、销户等金融操作过程中所产生的数据,本实施例对此不加以限制。
应理解的是,上述DAG(Directed Acyclic Graph,有向无环图)任务是指一组具有依赖关系的任务,这些任务按顺序执行,并且不存在循环依赖关系。
在具体实现中,可以根据各DAG任务的输入和输出来进行编排。示例性地,假设DAG任务1为查询所有账户中目前存在逾期的账户对应的用户群体A,即DAG任务1的输入为所有账户的逾期情况、输出为用户群体A。与此同时,假设DAG任务2为查询当前存在逾期行为用户的历史逾期次数及时长,即DAG任务2的输入为当前存在逾期行为用户(即上述用户群体A),输出为历史逾期次数及时长。可见,DAG任务1的输出可以作为DAG任务2的输入,因此在编排时可以将DAG任务1排在DAG任务2之前,从而在执行完DAG任务1后再执行DAG任务2,进而节省了DAG任务2的执行时长(即省去重复执行一次DAG任务1的步骤),提升了本实施例大数据质量校验方法的校验效率。
步骤S20:按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据。
需要说明的是,上述airflow平台可以是一个开源的任务调度和工作流程管理平台,用于编排、调度和监控上述所有DAG任务。
应理解的是,由于上述DAG任务之间存在依赖关系,因此需要严格按照编排的顺序来依次执行上述DAG任务。
在具体实现中,可以在每次执行当前DAG任务之前都调用airflow平台来查询当前DAG任务对应的上一个DAG任务的执行状态来确定如何执行当前DAG任务,从而得到上述执行结果数据。
步骤S30:基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则。
需要说明的是,上述预设校验规则可以是用于判断上述执行结果数据对应的待校验大数据的质量是否合格的规则。
在具体实现中,可以基于上述预设校验规则生成若干验数SQL脚本,然后在每次校验开始前选择好与当前执行结果数据对应的验数SQL脚本来对当前执行结果数据进行校验,从而得到校验结果数据。
步骤S40:将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
应理解的是,上述可视化处理可以是将上述校验数据以图形或图表的形式展示出来,从而更加直观地理解数据和发现数据中的模式、关系和趋势。其中,这些图形或图表的形式可以是条形图、折线图、散点图、饼图、热力图或其他能够对上述校验结果数据进行可视化处理的图形或图表,本实施例对此不加以限制。
在具体实现中,可以通过将上述待校验大数据对应的质量校验报告传输至用户终端对应的数据传输端口,并通过该数据传输端口将质量校验报告上传至用户与该终端进行交互的页面,从而实现向用户展示质量校验报告。
进一步地,在本实施例中,为了避免无效数据对DAG任务编排的影响,从而提升编排效率,所述步骤S10,可以包括:
步骤S101:对待校验大数据所需的数据源进行数据构造,得到数据构造后的大数据,所述数据构造包括数据收集、数据清洗、数据转换和数据标注。
在具体实现中,为了避免待校验大数据被恶意篡改从而影响校验结果的准确性,可以直接从金融机构使用的数据库中下载待校验大数据并存储至区块链中实现上述数据收集。为了确保待校验大数据的质量和准确性,可以通过消除或纠正待校验大数据中的错误、缺失、重复、不一致和异常值等问题数据来实现上述数据清洗。由于待校验大数据采集于不同的数据***,因此它们各自的编码格式可能存在差异,因此为了确保待校验大数据的编码格式一致从而提升工作效率,可以通过数据转换将上述待检验大数据转换为一致的编码格式。由于金融数据种类繁多,因此为了区分不同的数据种类从而提升数据查询效率(即在数据查询时只需在对应的数据种类中进行查询而无需对全部数据进行查询),可以通过数据标注对上述待检验大数据进行标注,并基于标注结果对待检验大数据进行分类。
步骤S102:根据所述数据构造后的大数据对应的校验要求确定需要调用的DAG任务,并根据所述DAG任务之间的依赖关系对所述DAG任务进行流水线编排以控制所述DAG任务的执行顺序。
本实施例对待校验大数据所需的数据源进行数据构造,得到数据构造后的大数据,数据构造包括数据收集、数据清洗、数据转换和数据标注;根据数据构造后的大数据对应的校验要求确定需要调用的DAG任务,并根据DAG任务之间的依赖关系对DAG任务进行流水线编排以控制DAG任务的执行顺序;按照编排顺序依次调用airflow平台查询DAG任务的执行状态,并基于执行状态依次执行DAG任务,得到执行结果数据;基于预设校验规则对执行结果数据进行校验,得到校验结果数据,预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;将校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。相比于现有的大数据质量校验方法对待校验大数据进行简单地数据筛选后再通过校验工程师进行人工校验和分析,由于本实施例上述方法根据对待校验大数据所需的数据源进行数据构造(包括数据收集、数据清洗、数据转换和数据标注)后得到的DAG任务得到执行结果数据,并基于预设校验规则对执行结果数据进行校验,从而得到待校验大数据对应的质量校验报告并向用户展示,进而实现了快速准确地对大数据进行质量校验。
参考图3,图3为本发明大数据质量校验方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,为了确保DAG任务按照编排顺序执行,从而保证执行结果数据的准确性,所述步骤S20可以包括:
步骤S201:按照编排顺序依次调用airflow平台的REST API接口查询所述DAG任务的执行状态。
步骤S202:若当前DAG任务的执行状态为执行成功,则自动触发下一个DAG任务的执行进程,得到执行结果数据。
在具体实现中,若当前DAG任务的执行状态为执行成功,则表明当前DAG任务已经执行完成并产生输出数据,此时可以将当前DAG任务的输出数据作为下一个DAG任务的输入数据,从而触发下一个DAG任务的执行进程,得到执行结果数据。
步骤S203:若当前DAG任务的执行状态为执行失败,则终止所有DAG任务。
在具体实现中,若当前DAG任务的执行状态为执行失败,表明当前DAG任务无法产生输出数据,这也表明下一个DAG任务将会由于没有输入数据而无法正常执行。因此此时可以不对后续所有的DAG任务进行处理,从而避免无效的DAG任务导致的DAG任务处理进程被搁浅,影响后续待检测大数据的执行校验效率。
步骤S204:若当前DAG任务的执行状态为执行中,则等待预设时间后再次对所述当前DAG任务的执行状态进行查询,直至所述当前DAG任务的执行状态为执行成功或执行失败。
在具体实现中,若当前DAG任务的执行状态为执行中,由于无法预知当前DAG任务的执行时长,因此可以等待预设时间后再次对当前DAG任务的执行状态进行查询,直至当前DAG任务的执行状态为执行成功或执行失败,从而最小化等待时长对整体效率的影响,所述预设时间可以是1分钟也可以是30秒,本实施例对此不加以限制。
基于上述第一实施例,在本实施例中,为了进一步提升校验结果数据的准确性,所述步骤S30,可以包括:
步骤S301:根据所述待校验大数据对应的校验要求对初始校验规则进行更新,得到预设校验规则。
在具体实现中,上述初始校验规则可以存储在mariaDB数据库中,因此可以根据上述待校验大数据对应的校验要求对初始校验规则进行增、删、改、查来实现更新,从而得到上述预设校验规则。
步骤S302:基于预设校验规则对所述执行结果数据进行数据规范性校验、数据一致性校验、数据完整性校验和数据准确性校验,得到校验结果数据。
在具体实现中,上述数据规范性校验可以包括长度校验、精度校验、格式校验、空值率校验和唯一率校验,上述数据一致性校验可以包括总数一致性校验和明细一致性校验,上述数据完整性校验可以包括空值校验和空字符串校验,上述数据准确性校验可以包括值域校验和枚举校验。
进一步地,在本实施例中,为了实现对离线数据和实时数据的对比,从而扩宽本实施例的适用场景,所述步骤S30,还可以包括:
步骤S303:判断所述执行结果数据中是否同时包含离线数据和实时数据,所述离线数据为HIVE数据,所述实时数据为Hbase数据和/或Aerospike数据。
需要说明的是,上述HIVE数据可以是存储在HIVE数据库中的离线数据,上述Hbase数据可以是存储在Hbase数据库中的实时数据,上述Aerospike数据可以是存储在Aerospike数据库中的实时数据。
在具体实现中,可以通过IMPALA引擎来对上述HIVE数据进行查询,同时可以通过Happybase数据库所配置的rowkey(行键)来对上述Hbase数据进行查询,或通过aerospike.jar(客户端库)所配置的PK列(Primary Key Column,主键列)来对上述Aerospike数据进行查询,并基于上述查询结果判断上述执行结果数据中是否同时包含离线数据和实时数据。
步骤S304:若包含,则通过第一查询工具查询出所述执行结果数据中所有HIVE数据并整合成HIVE数据集,通过第二查询工具查询出所述执行结果数据中所有Hbase数据并整合成Hbase数据集和/或通过第三查询工具查询出所述执行结果数据中所有Aerospike数据并整合成Aerospike数据集。
步骤S305:将所述HIVE数据集与所述Hbase数据集和/或所述Aerospike数据集进行对比,基于对比结果得到校验结果数据。
应理解的是,可以通过计算上述HIVE数据集与上述Hbase数据集和/或上述Aerospike数据集之间的相似性度量来实现对比,也可以通过计算上述HIVE数据集与上述Hbase数据集和/或上述Aerospike数据集之间的差异性度量来实现对比,本实施例对此不加以限制。此外,本实施例提及的大数据质量校验方法还可以对上述HIVE数据集中任意两条HIVE数据进行对比。
本实施例按照编排顺序依次调用airflow平台的REST API接口查询DAG任务的执行状态;若当前DAG任务的执行状态为执行成功,则自动触发下一个DAG任务的执行进程,得到执行结果数据;若当前DAG任务的执行状态为执行失败,则终止所有DAG任务;若当前DAG任务的执行状态为执行中,则等待预设时间后再次对当前DAG任务的执行状态进行查询,直至当前DAG任务的执行状态为执行成功或执行失败;根据待校验大数据对应的校验要求对初始校验规则进行更新,得到预设校验规则;基于预设校验规则对执行结果数据进行数据规范性校验、数据一致性校验、数据完整性校验和数据准确性校验,得到校验结果数据;其中,数据规范性校验包括长度校验、精度校验、格式校验、空值率校验和唯一率校验,数据一致性校验包括总数一致性校验和明细一致性校验,数据完整性校验包括空值校验和空字符串校验,数据准确性校验包括值域校验和枚举校验;判断执行结果数据中是否同时包含离线数据和实时数据,离线数据为HIVE数据,实时数据为Hbase数据和/或Aerospike数据;若包含,则通过第一查询工具查询出执行结果数据中所有HIVE数据并整合成HIVE数据集,通过第二查询工具查询出执行结果数据中所有Hbase数据并整合成Hbase数据集和/或通过第三查询工具查询出执行结果数据中所有Aerospike数据并整合成Aerospike数据集;将HIVE数据集与Hbase数据集和/或Aerospike数据集进行对比,基于对比结果得到校验结果数据。相较于现有的大数据质量校验方法,本实施例上述方法确保了DAG任务按照编排顺序执行,从而能够保证校验结果数据的可信度;同时通过对离线数据和实时数据进行对比,扩宽了本实施例大数据质量校验方法的适用场景。
参考图4,图4为本发明大数据质量校验方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,为了使得用户能够更为直观地获得待校验大数据对应的校验报告,所述步骤S40,可以包括:
步骤S401:将所述校验结果数据进行可视化处理,得到大数据质量校验报告,所述大数据质量校验报告中包括统计结果和差异明细,所述统计结果包括比对总数、空值率、唯一率和一致率。
在具体实现中,可以通过将上述统计结果和差异明细以图表的形式展现并进行排版,最后将排版后的统计结果和差异明细呈现在上述大数据质量校验报告中,从而实现可视化处理。
步骤S402:将所述大数据质量校验报告传输至可视化交互页面,并通过所述可视化交互页面向用户展示所述大数据质量校验报告。
基于上述各实施例,在本实施例中,为了对大数据校验过程中的相关数据进行存储,从而提升后续大数据校验的校验效率,在所述步骤S40之后,还可以包括:
步骤S50:将所述预设校验规则、所述DAG任务、所述执行结果数据、所述校验结果数据和所述大数据质量校验报告存储至数据库管理***中。
可理解的是,上述数据库管理***可以基于区块链构建,从而使得数据库管理***中的数据不可被恶意篡改,保证数据的真实性和有效性,进而提升后续大数据质量校验的校验准确率。
步骤S60:基于所述数据库管理***中的数据对下一批待校验大数据进行质量校验。
本实施例将校验结果数据进行可视化处理,得到大数据质量校验报告,大数据质量校验报告中包括统计结果和差异明细,统计结果包括比对总数、空值率、唯一率和一致率;将大数据质量校验报告传输至可视化交互页面,并通过可视化交互页面向用户展示大数据质量校验报告;将预设校验规则、DAG任务、执行结果数据、校验结果数据和大数据质量校验报告存储至数据库管理***中;基于数据库管理***中的数据对下一批待校验大数据进行质量校验。相较于现有的大数据质量校验方法,本实施例上述方法通过对校验结果数据进行可视化处理从而使得用户更为直观地获得待校验大数据对应的校验报告;同时通过对大数据校验过程中的相关数据进行存储,从而提升后续大数据校验的校验效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有大数据质量校验程序,所述大数据质量校验程序被处理器执行时实现如上文所述的大数据质量校验方法的步骤。
参照图5,图5为本发明大数据质量校验装置第一实施例的结构框图。
如图5所示,本发明实施例提出的大数据质量校验装置包括:
数据构造模块501,用于对待校验大数据所需的数据源进行数据构造;
流水线编排模块502,用于基于数据构造后的大数据编排DAG任务;
任务执行模块503,用于按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据;
数据校验模块504,用于基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;
数据展示模块505,用于将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
本实施例对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务;按照编排顺序依次调用airflow平台查询DAG任务的执行状态,并基于执行状态依次执行DAG任务,得到执行结果数据;基于预设校验规则对执行结果数据进行校验,得到校验结果数据,预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;将校验结果数据进行可视化处理,得到待校验大数据对应的质量校验报告并向用户展示。相比于现有的大数据质量校验方法对待校验大数据进行简单地数据筛选后再通过校验工程师进行人工校验和分析,由于本实施例上述方法根据对待校验大数据所需的数据源进行数据构造后得到的DAG任务得到执行结果数据,并基于预设校验规则对执行结果数据进行校验,从而得到待校验大数据对应的质量校验报告并向用户展示,进而实现了快速准确地对大数据进行质量校验。
基于本发明上述大数据质量校验装置的第一实施例,提出本发明大数据质量校验装置的第二实施例。
在本实施例中,所述数据构造模块501,还用于对待校验大数据所需的数据源进行数据构造,得到数据构造后的大数据,所述数据构造包括数据收集、数据清洗、数据转换和数据标注;根据所述数据构造后的大数据对应的校验要求确定需要调用的DAG任务,并根据所述DAG任务之间的依赖关系对所述DAG任务进行流水线编排以控制所述DAG任务的执行顺序。
进一步地,所述任务执行模块503,还用于按照编排顺序依次调用airflow平台的REST API接口查询所述DAG任务的执行状态;若当前DAG任务的执行状态为执行成功,则自动触发下一个DAG任务的执行进程,得到执行结果数据;若当前DAG任务的执行状态为执行失败,则终止所有DAG任务;若当前DAG任务的执行状态为执行中,则等待预设时间后再次对所述当前DAG任务的执行状态进行查询,直至所述当前DAG任务的执行状态为执行成功或执行失败。
进一步地,所述数据校验模块504,还用于根据所述待校验大数据对应的校验要求对初始校验规则进行更新,得到预设校验规则;基于预设校验规则对所述执行结果数据进行数据规范性校验、数据一致性校验、数据完整性校验和数据准确性校验,得到校验结果数据;其中,所述数据规范性校验包括长度校验、精度校验、格式校验、空值率校验和唯一率校验,所述数据一致性校验包括总数一致性校验和明细一致性校验,所述数据完整性校验包括空值校验和空字符串校验,所述数据准确性校验包括值域校验和枚举校验。
进一步地,所述数据校验模块504,还用于判断所述执行结果数据中是否同时包含离线数据和实时数据,所述离线数据为HIVE数据,所述实时数据为Hbase数据和/或Aerospike数据;若包含,则通过第一查询工具查询出所述执行结果数据中所有HIVE数据并整合成HIVE数据集,通过第二查询工具查询出所述执行结果数据中所有Hbase数据并整合成Hbase数据集和/或通过第三查询工具查询出所述执行结果数据中所有Aerospike数据并整合成Aerospike数据集;将所述HIVE数据集与所述Hbase数据集和/或所述Aerospike数据集进行对比,基于对比结果得到校验结果数据。
进一步地,所述数据展示模块505,还用于将所述校验结果数据进行可视化处理,得到大数据质量校验报告,所述大数据质量校验报告中包括统计结果和差异明细,所述统计结果包括比对总数、空值率、唯一率和一致率;将所述大数据质量校验报告传输至可视化交互页面,并通过所述可视化交互页面向用户展示所述大数据质量校验报告。
进一步地,所述数据展示模块505,还用于将所述预设校验规则、所述DAG任务、所述执行结果数据、所述校验结果数据和所述大数据质量校验报告存储至数据库管理***中;基于所述数据库管理***中的数据对下一批待校验大数据进行质量校验。
本发明大数据质量校验装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种大数据质量校验方法,其特征在于,所述方法包括以下步骤:
对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务;
按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据;
基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;
将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
2.如权利要求1所述的大数据质量校验方法,其特征在于,所述对待校验大数据所需的数据源进行数据构造,并基于数据构造后的大数据编排DAG任务的步骤,包括:
对待校验大数据所需的数据源进行数据构造,得到数据构造后的大数据,所述数据构造包括数据收集、数据清洗、数据转换和数据标注;
根据所述数据构造后的大数据对应的校验要求确定需要调用的DAG任务,并根据所述DAG任务之间的依赖关系对所述DAG任务进行流水线编排以控制所述DAG任务的执行顺序。
3.如权利要求1所述的大数据质量校验方法,其特征在于,所述按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据的步骤,包括:
按照编排顺序依次调用airflow平台的REST API接口查询所述DAG任务的执行状态;
若当前DAG任务的执行状态为执行成功,则自动触发下一个DAG任务的执行进程,得到执行结果数据;
若当前DAG任务的执行状态为执行失败,则终止所有DAG任务;
若当前DAG任务的执行状态为执行中,则等待预设时间后再次对所述当前DAG任务的执行状态进行查询,直至所述当前DAG任务的执行状态为执行成功或执行失败。
4.如权利要求3所述的大数据质量校验方法,其特征在于,所述基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据的步骤,包括:
根据所述待校验大数据对应的校验要求对初始校验规则进行更新,得到预设校验规则;
基于预设校验规则对所述执行结果数据进行数据规范性校验、数据一致性校验、数据完整性校验和数据准确性校验,得到校验结果数据;
其中,所述数据规范性校验包括长度校验、精度校验、格式校验、空值率校验和唯一率校验,所述数据一致性校验包括总数一致性校验和明细一致性校验,所述数据完整性校验包括空值校验和空字符串校验,所述数据准确性校验包括值域校验和枚举校验。
5.如权利要求1所述的大数据质量校验方法,其特征在于,所述基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据的步骤,还包括:
判断所述执行结果数据中是否同时包含离线数据和实时数据,所述离线数据为HIVE数据,所述实时数据为Hbase数据和/或Aerospike数据;
若包含,则通过第一查询工具查询出所述执行结果数据中所有HIVE数据并整合成HIVE数据集,通过第二查询工具查询出所述执行结果数据中所有Hbase数据并整合成Hbase数据集和/或通过第三查询工具查询出所述执行结果数据中所有Aerospike数据并整合成Aerospike数据集;
将所述HIVE数据集与所述Hbase数据集和/或所述Aerospike数据集进行对比,基于对比结果得到校验结果数据。
6.如权利要求1所述的大数据质量校验方法,其特征在于,所述将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示的步骤,包括:
将所述校验结果数据进行可视化处理,得到大数据质量校验报告,所述大数据质量校验报告中包括统计结果和差异明细,所述统计结果包括比对总数、空值率、唯一率和一致率;
将所述大数据质量校验报告传输至可视化交互页面,并通过所述可视化交互页面向用户展示所述大数据质量校验报告。
7.如权利要求1所述的大数据质量校验方法,其特征在于,所述将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示的步骤之后,还包括:
将所述预设校验规则、所述DAG任务、所述执行结果数据、所述校验结果数据和所述大数据质量校验报告存储至数据库管理***中;
基于所述数据库管理***中的数据对下一批待校验大数据进行质量校验。
8.一种大数据质量校验装置,其特征在于,所述大数据质量校验装置包括:
数据构造模块,用于对待校验大数据所需的数据源进行数据构造;
流水线编排模块,用于基于数据构造后的大数据编排DAG任务;
任务执行模块,用于按照编排顺序依次调用airflow平台查询所述DAG任务的执行状态,并基于所述执行状态依次执行所述DAG任务,得到执行结果数据;
数据校验模块,用于基于预设校验规则对所述执行结果数据进行校验,得到校验结果数据,所述预设校验规则包括数据规范性校验规则、数据一致性校验规则、数据完整性校验规则和数据准确性校验规则;
数据展示模块,用于将所述校验结果数据进行可视化处理,得到所述待校验大数据对应的质量校验报告并向用户展示。
9.一种大数据质量校验设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据质量校验程序,所述大数据质量校验程序配置为实现如权利要求1至7中任一项所述的大数据质量校验方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有大数据质量校验程序,所述大数据质量校验程序被处理器执行时实现如权利要求1至7中任一项所述的大数据质量校验方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901493.5A CN116627958A (zh) | 2023-07-21 | 2023-07-21 | 大数据质量校验方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901493.5A CN116627958A (zh) | 2023-07-21 | 2023-07-21 | 大数据质量校验方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116627958A true CN116627958A (zh) | 2023-08-22 |
Family
ID=87602920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310901493.5A Pending CN116627958A (zh) | 2023-07-21 | 2023-07-21 | 大数据质量校验方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116627958A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491254A (zh) * | 2018-02-07 | 2018-09-04 | 链家网(北京)科技有限公司 | 一种数据仓库的调度方法及装置 |
CN113641628A (zh) * | 2021-08-13 | 2021-11-12 | 中国联合网络通信集团有限公司 | 数据质量检测方法、装置、设备及存储介质 |
CN115809228A (zh) * | 2022-12-20 | 2023-03-17 | 北京京东振世信息技术有限公司 | 数据比对方法、装置、存储介质及电子设备 |
CN115858213A (zh) * | 2022-11-28 | 2023-03-28 | 中国工商银行股份有限公司 | 任务排程检查方法、装置、计算机设备和存储介质 |
-
2023
- 2023-07-21 CN CN202310901493.5A patent/CN116627958A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491254A (zh) * | 2018-02-07 | 2018-09-04 | 链家网(北京)科技有限公司 | 一种数据仓库的调度方法及装置 |
CN113641628A (zh) * | 2021-08-13 | 2021-11-12 | 中国联合网络通信集团有限公司 | 数据质量检测方法、装置、设备及存储介质 |
CN115858213A (zh) * | 2022-11-28 | 2023-03-28 | 中国工商银行股份有限公司 | 任务排程检查方法、装置、计算机设备和存储介质 |
CN115809228A (zh) * | 2022-12-20 | 2023-03-17 | 北京京东振世信息技术有限公司 | 数据比对方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
刘隽良等: "《数据安全实践指南》", pages: 100 - 101 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9436535B2 (en) | Integration based anomaly detection service | |
CN113489713B (zh) | 网络攻击的检测方法、装置、设备及存储介质 | |
CN109446837B (zh) | 基于敏感信息的文本审核方法、设备及可读存储介质 | |
CN112395177A (zh) | 业务数据的交互处理方法、装置、设备及存储介质 | |
CN111522711A (zh) | 一种数据监控处理***、方法、执行端、监控端及电子设备 | |
CN109783385B (zh) | 一种产品测试方法和装置 | |
CN112184003A (zh) | 银行柜面工作量评估方法、装置、存储介质及电子设备 | |
CN115204733A (zh) | 数据审计方法、装置、电子设备及存储介质 | |
CN108650123B (zh) | 故障信息记录方法、装置、设备和存储介质 | |
US11663547B2 (en) | Evolutionary software prioritization protocol for digital systems | |
CN113535577A (zh) | 基于知识图谱的应用测试方法、装置、电子设备和介质 | |
CN112612706A (zh) | 自动化测试方法、计算机设备及存储介质 | |
US20090112917A1 (en) | Method and computer program product for using data mining tools to automatically compare an investigated unit and a benchmark unit | |
CN111061637A (zh) | 接口测试方法、接口测试装置及存储介质 | |
CN113672429B (zh) | 代码异常推送方法、装置、设备及存储介质 | |
CN116627958A (zh) | 大数据质量校验方法、装置、设备及存储介质 | |
CN115391655A (zh) | 信息查询方法及装置、电子设备和计算机可读存储介质 | |
CN114693116A (zh) | 代码评审有效性的检测方法及装置、电子设备 | |
CN113918525A (zh) | 数据交换调度方法、***、电子设备、介质及程序产品 | |
CN114462030A (zh) | 隐私政策的处理、取证方法、装置、设备及存储介质 | |
CN114115628A (zh) | 应用于u盾测试的u盾显示信息获取方法、装置、设备、介质及程序产品 | |
CN113157583A (zh) | 一种测试方法、装置及设备 | |
CN112632247A (zh) | 工时报告检测方法、装置、计算机设备及存储介质 | |
CN114371866A (zh) | 业务***的版本重构测试方法、装置和设备 | |
CN112328450A (zh) | 数据监控方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |