CN110837458B - 一种数据平衡验证的方法、设备、及存储介质 - Google Patents

一种数据平衡验证的方法、设备、及存储介质 Download PDF

Info

Publication number
CN110837458B
CN110837458B CN201911090453.7A CN201911090453A CN110837458B CN 110837458 B CN110837458 B CN 110837458B CN 201911090453 A CN201911090453 A CN 201911090453A CN 110837458 B CN110837458 B CN 110837458B
Authority
CN
China
Prior art keywords
hive
data
comparison
check
comparison value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911090453.7A
Other languages
English (en)
Other versions
CN110837458A (zh
Inventor
王国彬
徐晓波
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tubatu Group Co Ltd
Original Assignee
Tubatu Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tubatu Group Co Ltd filed Critical Tubatu Group Co Ltd
Priority to CN201911090453.7A priority Critical patent/CN110837458B/zh
Publication of CN110837458A publication Critical patent/CN110837458A/zh
Application granted granted Critical
Publication of CN110837458B publication Critical patent/CN110837458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据平衡验证的方法、设备、及存储介质。所述方法包括:在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;根据所述Hive表的生成情况,生成与之对应的Check表;将所述Check表和所述对应的Hive表进行比对,获取比对值;当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。本发明公开的一种数据平衡验证的方法在数据平衡验证时速度快、效率高、减少对***资源的占用。

Description

一种数据平衡验证的方法、设备、及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据平衡验证的方法、设备、及存储介质。
背景技术
Hadoop和Hive是目前业界广泛使用的数据存储以及查询的分布式解决方案。Hive,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql(Structured Query Language,结构化查询语言)查询功能,可以将sql语句转换为MapReduce(映射化简)任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
HDFS,亦即,Hadoop分布式文件***,其被设计成适合运行在通用硬件(commodityhardware)上的分布式文件***。它和现有的分布式文件***有很多共同点。但同时,它和其他的分布式文件***的区别也是很明显的。HDFS是一个高度容错性的***,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX(Portable Operating System Interface,可移植操作***接口)标准的约束,来实现流式读取文件***数据的目的。
现有的数据平衡验证方法将写入两张表中的数据进行比对,判断原始数据与最终数据是否平衡,类似于统计表的原始数据与统计数据是否平衡,之后的数据更新时又要重新写入表中进行比对,速度慢、效率低,这样一来,高峰期时,生成的大量表会占用很多***资源,所以频繁的统计操作有可能会影响服务器的性能,严重的时候有可能影响服务器的正常业务。
发明内容
本发明的主要目的是提供一种数据平衡验证的方法、设备及存储介质,旨在解决现有技术数据平衡验证时数据慢、效率低、大量占用***资源。
为实现上述目的,本发明提供一种数据平衡验证的方法,包括:在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;
根据所述Hive表的生成情况,生成与之对应的Check表;
将所述Check表和所述对应的Hive表进行比对,获取比对值;
当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。
优选地,将所述Check表和所述对应的Hive表进行比对,获取比对值的步骤,包括:
获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者
获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。
优选地,比对值是根据以下公式进行的:
其中,CH表示Check表与对应的Hive表的比对值的结果,Ci表示Check表中第i个Check表的文件大小值,Hi表示Hive表中第i个Hive表的文件大小值。
优选地,当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息的步骤,包括:
获取每一个Check表与对应的Hive表的比对值结果CH,判断所述多个比对值结果CH是否处于预设的阈值,将比对值结果CH不处于预设的阈值对应的Check表和Hive表生成比对表,发出预警信息。
优选地,当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息的步骤之后,所述方法还包括:
当所述比对值处于预设的阈值时,将对应的Check表作为验数模板;
将所述验数模板存入验数模板数据库中。
优选地,当所述比对值处于预设的阈值时,将对应的Check表作为验数模板的步骤之后,所述方法还包括:
在Hive表中将唯一地标识表中一条记录的数据作为主键,并将所述唯一地标识表中一条记录的数据作为对应的验数模板的外键。
优选地,还包括步骤:
根据所述Hive表的更新情况,从所述验数模板数据库中调用对应的验数模板;
将所述对应的验数模板进行更新;
将所述更新后的验数模板与对应的Hive表进行比对,获取比对值;
当所述比对值处于预设的阈值时,保存更新后的验数模板并存入验数模板数据库中。
优选地,当所述比对值不处于预设的阈值时,则生成比对表的步骤,还包括:
提供一可视化界面,显示所述生成比对表;
响应用户的操作,停止进行后续跑数和导出流程。
本发明还提供一种数据平衡验证设备,包括存储器,处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的数据平衡验证的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的数据平衡验证的方法。
在本发明上述方案至少包括以下有益效果:
在本发明的具体实施例中,首先在预设配置数据库中配置Hive表,并从Hive的源数据库获取Hive表的生成情况;再根据所述Hive表的生成情况,生成与之对应的Check表;然后将所述Check表和所述对应的Hive表进行比对,获取比对值;当所述比对值不处于预设的阈值时,则生成比对表,最后发出预警信息。本发明公开的一种数据平衡验证的方法在数据平衡验证时速度快、效率高、减少对***资源的占用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提供的一种数据平衡验证的方法流程示意图;
图2为本发明提供的一种数据平衡验证的方法中生成Hive表1的示意图;
图3为本发明提供的一种数据平衡验证的方法中生成与Hive表1对应的Check表1的示意图;
图4为本发明提供的一种数据平衡验证的方法中生成Check表1与Hive表1的比对表示意图;
图5为本发明提供的一种数据平衡验证的方法中生成与Hive表1对应的Check表1的另一示意图;
图6为本发明提供的一种数据平衡验证的方法中更新验数模板的流程示意图;
图7为本发明提供的一种数据平衡验证的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,本发明的具体实施例提供了一种数据平衡验证的方法,该数据平衡验证的方法包括:
步骤10:在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;
其中,在本发明的具体实施例中,为了对数据仓库进行监控,在预设配置数据库中配置Hive表,用于记录从贴源数据区STG的多个主题域获取的数据,并将所述的数据转换到各个应用集市DM,从Hive的元数据库获取Hive表的生成情况,所述生成情况包括但不局限于记录数据、文件大小、生成方式。
例如,请结合如图2所示,将贴源数据区STG的多个主题域获取的数据其中一个主题域数据建立了“Hive表1(学生表)”,从所示表中可以很清楚的了解到其中的数据,以及文件的大小。
值得一提的是,将贴源数据区STG的多个主题域获取的数据生成表格记录,将不同的主题域分类统计,清楚明了,在之后的数据平衡验证过程中加快验证的速度和提高效率,能够及时的对数据转换之后是否平衡做出判断。
步骤20:根据所述Hive表的生成情况,生成与之对应的Check表;
其中,在本发明的具体实施例中,获取Hive表的生成情况,所述生成情况还包括记录数据、文件大小、生成方式等,当得知Hive表将贴源数据区STG的多个主题域获取的数据其中一个主题域数据生成成功了之后,再将贴源数据区STG转换到应用集市DM对应的数据生成与Hive表对应的Check表,其中,所述Check表就是核对、检查表。
例如,请结合图2和图3所示,当将贴源数据区STG的多个主题域获取的数据其中一个主题域数据生成了“Hive表1(学生表)”,再将贴源数据区STG转换到应用集市DM对应的数据生成与“Hive表1(学生表)”对应的“Check表1(学生表)”。
值得一提的是,通过将贴源数据区STG的多个主题域获取的数据和转换到应用集市DM对应的数据,分别生成Hive表和对应的Check表,在之后的数据平衡验证过程中加快验证的速度和提高效率,能够及时的对数据转换之后是否平衡做出验证,更清楚明了的显示出比对结果。
步骤30:将所述Check表和所述对应的Hive表进行比对,获取比对值;
其中,在本发明的具体实施例中,将数据生成了Hive表和所述对应的Check表,当对数据仓库进行监控时,验证从贴源数据区STG与各个应用集市DM数据转换是否平衡,只需要将生成的Hive表和所述对应的Check表就行比对就能判断从贴源数据区STG与各个应用集市DM数据转换是否平衡。
步骤40:当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。
其中,在本发明的具体实施例中,将生成的Hive表和所述对应的Check表就行比对,会得到一个比对值,也就是比对结果,可以设置一个预设的阈值,可以理解的是,当将生成的Hive表和所述对应的Check表就行比对得到的比对值不处于预设的阈值时,则确定从贴源数据区STG与各个应用集市DM数据转换不平衡,此时,则生成一个比对表,将生成的Hive表和所述对应的Check表的区别之处记录在所述比对表上,再将其比对表发给用户,让用户更早的知晓从贴源数据区STG与各个应用集市DM数据转换不平衡的情况,可以更早的解决其问题。
例如,请结合图2-图4所示,从“Hive表1(九(5)班学生表)”和“Check表1(九(5)班学生表)”比对中很清楚的确定了生成的对应的“Check表1(九(5)班学生表)”中发生变化的数据,据此,如图4所示,将所述变化的数据记录在Check表1与Hive表1比对表(九(5)班学生表)中,再将此表以邮件、短信等方式发送至用户,让用户更早的知晓从贴源数据区STG与各个应用集市DM数据转换不平衡的情况,可以更早的解决其问题。
其中,在本发明的具体实施例中,上述步骤30:将所述Check表和所述对应的Hive表进行比对,获取比对值的步骤,包括:
获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者
获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。
其中,在本发明的具体实施例中,通过获取获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者,获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。可以理解的是,无论是记录数据还是文件大小这些都是可以用来进行比较的,还可以通过别的方式来将Hive表和对应的Check表进行数据验证。
例如,请再次结合图2-图3,通过图2的所示的表中,很清楚的可以看到有数据:姓名、性别、班级、爱好、年龄、男、女、足球等数据,还有文件大小为900kb;通过图3所示的表中,很清楚的可以看到有数据:姓名、性别、班级、爱好、年龄、男、女、足球等数据,还有文件大小为850kb;在将所述Check表和所述对应的Hive表进行比对时,就可以通过这些数据或者文件大小来进行比对。
其中,在本发明的具体实施例中,上述步骤30的比对值是根据以下公式进行的:
其中,CH表示Check表与对应的Hive表的比对值的结果,Ci表示Check表中第i个Check表的文件大小值,Hi表示Hive表中第i个Hive表的文件大小值。
从而,根据上述公式,能够根据文件的大小或者记录数据将每一个Hive表和对应的Check表进行比对,根据相对应的比对值准确地找出从贴源数据区STG与各个应用集市DM转换不平衡的数据对应的Hive表和对应的Check表。提高数据平衡验证的效率,速度快。
其中,在本发明的具体实施例中,上述步骤40:当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息的步骤,包括:
获取每一个Check表与对应的Hive表的比对值结果CH,判断所述多个比对值结果CH是否处于预设的阈值,将比对值结果CH不处于预设的阈值对应的Check表和Hive表生成比对表,发出预警信息。
其中,在本发明的具体实施例中,服务器以获取的Hive表和Check表中的记录数据或者文件大小作为依据将Hive表和对应Check表进行比对,以记录数据来进行比对,则要遍历Hive表和对应Check表中的所有数据,一一对比,以文件大小进行比对,直接将文件大小值进行比对,根据上述每一个Check表与对应的Hive表比对的结果CH,判断所述多个比对值结果CH是否处于预设的阈值,可以理解的是,所述预设的阈值可以由服务器设定的,也可以是用户根据自己的需求设定的,当有比对值结果CH不处于预设的阈值时,将比对值结果CH不处于预设的阈值对应的Check表和Hive表生成比对表,发用户出预警信息。
其中,在本发明的具体实施例中,上述步骤40:当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息的步骤之后,所述方法还包括:
步骤一:当所述比对值处于预设的阈值时,将对应的Check表作为验数模板;
步骤二:将所述验数模板存入验数模板数据库中。
其中,在本发明的具体实施例中,通过上述公式将计算出Check表与对应的Hive表的比对值,当所述比对值处于预设的阈值时,可以理解的是,当所述比对值处于预设的阈值时,则Hive表和对应的Check表的中的记录数据以及文件大小没有发生变化,即贴源数据区STG的多个主题域获取的数据和转换到应用集市DM对应的数据保持平衡,没有发生变化,此时,可以将对应的Check表作为验数模板,并存入验数模板数据库中。
例如,如图5所示,该“Check表1(九(5)班学生表)”与“Hive表1(九(5)班学生表)”的比对值在预设的阈值内,则将该“Check表1(九(5)班学生表)”作为验数模板存入验数模板数据库中。在之后的贴源数据区STG有关(九(5)班学生表)的数据更新时,调用之前存在验数模板数据库中作为验数模板的“Check表1(九(5)班学生表)”,更新有变化的数据即可。
值得一提的是,将比对成功的Check表作为验数模板,并存入验数模板数据库中,再之后的贴源数据区STG的多个主题域获取的数据发生变化时,要更新对应的Hive表和对应的Check表时,直接从验数模板数据库调用对应Check表验数模板,只需更新数据就行,不需要重新生成,在数据平衡验证时速度快、效率高、减少对***资源的占用。
其中,在本发明的具体实施例中,上述步骤一:当所述比对值处于预设的阈值时,将对应的Check表作为验数模板的步骤之后,所述方法还包括:
在Hive表中将唯一地标识表中一条记录的数据作为主键,并将所述唯一地标识表中一条记录的数据作为对应的验数模板的外键。
其中,在本发明的具体实施例中,主键是能确定一条记录的唯一标识,比如,一条记录包括身份证号,姓名,年龄。身份证号是唯一能确定你这个人的,其他都可能有重复,所以,身份证号是主键。外键用于与另一张表的关联。是能确定另一张表记录的字段,用于保持数据的一致性。比如,A表中的一个字段,是B表的主键,那他就可以是A表的外键。
值得一提的是,主键保证的是数据的唯一性,外键保证的是数据的完整性。主键约束了外键所在表中不能存在主键类之外的值;外键约束了主键所在表中的记录不能在外键表中存在对应记录的情况下删除,除非使用级联删除;修改同理。
如图6所示,其中,在本发明的具体实施例中,还包括步骤:
61:根据所述Hive表的更新情况,从所述验数模板数据库中调用对应的验数模板;
62:将所述对应的验数模板进行更新;
其中,在本发明的具体实施例中,当贴源数据区STG的多个主题域获取的数据发生变化时,对应的Hive表和Check表也要对应更新时,就能直接从验数模板数据库中调用对应的验数模板,更新要变化的数据就行,省时省力,在针对不同的情况直接调用验数模板。
63:将所述更新后的验数模板与对应的Hive表进行比对,获取比对值;
64:当所述比对值处于预设的阈值时,保存更新后的验数模板并存入验数模板数据库中。
其中,在本发明的具体实施例中,将所述更新后的验数模板与对应的Hive表进行比对,获取比对值;当所述比对值处于预设的阈值时,则更新后的验数模板与对应的Hive表数据没有发生变化,保存更新后的验数模板并存入验数模板数据库中,再之后的贴源数据区STG的多个主题域获取的数据发生变化时,要更新对应的Hive表和对应的Check表时,直接从验数模板数据库调用对应Check表验数模板,只需更新数据就行,不需要重新生成,在数据平衡验证时速度快、效率高、减少对***资源的占用。
其中,在本发明的具体实施例中,上述步骤40:当所述比对值不处于预设的阈值时,则生成比对表的步骤,还包括:
步骤一:提供一可视化界面,显示所述生成比对表;
步骤二:响应用户的操作,停止进行后续跑数和导出流程。
其中,在本发明的具体实施例中,则生成一个比对表,将生成的Hive表和所述对应的Check表的区别之处记录在所述比对表上,再将其比对表显示在可视化界面,让用户更早的知晓从贴源数据区STG与各个应用集市DM数据转换不平衡的情况,可以更早的解决其问题。当数据转化不平衡时,停止进行后续跑数和导出流程,防止出现更多的数据转化不平衡。
如图7所示,本发明还提供一种数据平衡验证设备,包括存储器71,处理器73以及存储在存储器71上并可在处理器73上运行的计算机程序72,该处理器73执行计算机程序72时实现上述的数据平衡验证的方法的步骤。
具体的,在本发明的具体实施例中,处理器73执行计算机程序72时实现以下步骤:在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;根据所述Hive表的生成情况,生成与之对应的Check表;将所述Check表和所述对应的Hive表进行比对,获取比对值;当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。
可选的,处理器73执行计算机程序72时实现以下步骤:获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。
可选的,处理器73执行计算机程序72时实现以下步骤:
其中,CH表示Check表与对应的Hive表的比对值的结果,Ci表示Check表中第i个Check表的文件大小值,Hi表示Hive表中第i个Hive表的文件大小值。
可选的,处理器73执行计算机程序72时实现以下步骤:获取每一个Check表与对应的Hive表的比对值结果CH,判断所述多个比对值结果CH是否处于预设的阈值,将比对值结果CH不处于预设的阈值对应的Check表和Hive表生成比对表,发出预警信息。
可选的,处理器73执行计算机程序72时实现以下步骤:当所述比对值处于预设的阈值时,将对应的Check表作为验数模板;将所述验数模板存入验数模板数据库中。
可选的,处理器73执行计算机程序72时实现以下步骤:在Hive表中将唯一地标识表中一条记录的数据作为主键,并将所述唯一地标识表中一条记录的数据作为对应的验数模板的外键。
可选的,处理器73执行计算机程序72时实现以下步骤:根据所述Hive表的更新情况,从所述验数模板数据库中调用对应的验数模板;将所述对应的验数模板进行更新;将所述更新后的验数模板与对应的Hive表进行比对,获取比对值;当所述比对值处于预设的阈值时,保存更新后的验数模板并存入验数模板数据库中。
可选的,处理器73执行计算机程序72时实现以下步骤:提供一可视化界面,显示所述生成比对表;响应用户的操作,停止进行后续跑数和导出流程。
即,在本发明具体实施例中,数据平衡验证设备7的处理器73执行计算机程序72时实现上述数据平衡验证方法的步骤。通过在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;根据所述Hive表的生成情况,生成与之对应的Check表;将所述Check表和所述对应的Hive表进行比对,获取比对值;当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。
需要说明的是,由于数据平衡验证设备7的处理器73执行计算机72时实现上述基于数据平衡验证方法的步骤,因此上述数据平衡验证方法的所有实施例均适用于该数据平衡验证设备7,且均能达到相同或相似的有益效果。
此外,本发明的具体实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的数据平衡验证方法的步骤。
具体的,计算机程序被处理器执行时实现以下步骤:在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;根据所述Hive表的生成情况,生成与之对应的Check表;将所述Check表和所述对应的Hive表进行比对,获取比对值;当所述比对值不处于预设的阈值时,则生成比对表,发出预警信息。
可选的,计算机程序被处理器执行时实现以下步骤:获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。
可选的,计算机程序被处理器执行时实现以下步骤:
其中,CH表示Check表与对应的Hive表的比对值的结果,Ci表示Check表中第i个Check表的文件大小值,Hi表示Hive表中第i个Hive表的文件大小值。
可选的,计算机程序被处理器执行时实现以下步骤:获取每一个Check表与对应的Hive表的比对值结果CH,判断所述多个比对值结果CH是否处于预设的阈值,将比对值结果CH不处于预设的阈值对应的Check表和Hive表生成比对表,发出预警信息。
可选的,计算机程序被处理器执行时实现以下步骤:当所述比对值处于预设的阈值时,将对应的Check表作为验数模板;将所述验数模板存入验数模板数据库中。
可选的,计算机程序被处理器执行时实现以下步骤:在Hive表中将唯一地标识表中一条记录的数据作为主键,并将所述唯一地标识表中一条记录的数据作为对应的验数模板的外键。
可选的,计算机程序被处理器执行时实现以下步骤:根据所述Hive表的更新情况,从所述验数模板数据库中调用对应的验数模板;将所述对应的验数模板进行更新;将所述更新后的验数模板与对应的Hive表进行比对,获取比对值;当所述比对值处于预设的阈值时,保存更新后的验数模板并存入验数模板数据库中。
可选的,计算机程序被处理器执行时实现以下步骤:提供一可视化界面,显示所述生成比对表;响应用户的操作,停止进行后续跑数和导出流程。
即,在本发明的具体实施例中,计算机程序被处理器执行时实现上述数据平衡验证方法的步骤,能准确验证数据转换后是否平衡。
需要说明的是,由于计算机程序被处理器执行时实现上述数据平衡验证方法的步骤,因此上述数据平衡验证方法的所有实施例均适用于该计算机可读存储介质,且均能达到相同或相似的有益效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是智能音箱,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (8)

1.一种数据平衡验证的方法,其特征在于,包括:
在预设配置数据库中配置Hive表,从Hive的元数据库获取Hive表的生成情况;
根据所述Hive表的生成情况,生成与之对应的Check表;
将所述Check表和所述对应的Hive表进行比对,获取比对值;
当所述比对值不等于预设的阈值时,则生成比对表,发出预警信息;
当所述比对值等于预设的阈值时,将对应的Check表作为验数模板;
将所述验数模板存入验数模板数据库中;
根据所述Hive表的更新情况,从所述验数模板数据库中调用对应的验数模板;
更新所述对应的验数模板中要变化的数据;
将更新后的验数模板与对应的Hive表进行比对,获取更新后的比对值;
当所述更新后的比对值等于预设的阈值时,保存更新后的验数模板并存入验数模板数据库中。
2.根据权利要求1所述的方法,其特征在于,所述将所述Check表和所述对应的Hive表进行比对,获取比对值的步骤,包括:
获取所述Check表的记录数据和所述对应的Hive表的记录数据,将所述Check表的记录数据和所述对应的Hive表的记录数据进行比对,获取比对值,或者
获取所述Check表的文件大小和所述对应的Hive表的文件大小,将所述Check表的文件大小和所述对应的Hive表的文件大小进行比对,获取比对值。
3.根据权利要求2所述的方法,其特征在于,所述比对值是根据以下公式获取的:
其中,CH表示Check表与对应的Hive表的比对值的结果,Ci表示Check表中第i个Check表的文件大小值,Hi表示Hive表中第i个Hive表的文件大小值。
4.根据权利要求3所述的方法,其特征在于,所述当所述比对值不等于预设的阈值时,则生成比对表,发出预警信息的步骤,包括:
获取每一个Check表与对应的Hive表的比对值结果CH,判断多个比对值结果CH是否等于预设的阈值,将比对值结果CH不等于预设的阈值对应的Check表和Hive表生成比对表,发出预警信息。
5.根据权利要求1所述的方法,其特征在于,所述当所述比对值等于预设的阈值时,将对应的Check表作为验数模板的步骤之后,所述方法还包括:
在Hive表中将唯一地标识表中一条记录的数据作为主键,并将所述唯一地标识表中一条记录的数据作为对应的验数模板的外键。
6.根据权利要求1所述的方法,其特征在于,所述当所述比对值不等于预设的阈值时,则生成比对表的步骤,还包括:
提供一可视化界面,显示所述生成比对表;
响应用户的操作,停止进行后续跑数和导出流程。
7.一种数据平衡验证设备,包括存储器,处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的数据平衡验证的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据平衡验证的方法。
CN201911090453.7A 2019-11-08 2019-11-08 一种数据平衡验证的方法、设备、及存储介质 Active CN110837458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090453.7A CN110837458B (zh) 2019-11-08 2019-11-08 一种数据平衡验证的方法、设备、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090453.7A CN110837458B (zh) 2019-11-08 2019-11-08 一种数据平衡验证的方法、设备、及存储介质

Publications (2)

Publication Number Publication Date
CN110837458A CN110837458A (zh) 2020-02-25
CN110837458B true CN110837458B (zh) 2024-03-29

Family

ID=69575003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090453.7A Active CN110837458B (zh) 2019-11-08 2019-11-08 一种数据平衡验证的方法、设备、及存储介质

Country Status (1)

Country Link
CN (1) CN110837458B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和***
CN105095056A (zh) * 2015-08-14 2015-11-25 焦点科技股份有限公司 一种数据仓库数据监控的方法
CN108304413A (zh) * 2017-01-13 2018-07-20 北京京东尚科信息技术有限公司 分布式数据仓库监控方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和***
CN105095056A (zh) * 2015-08-14 2015-11-25 焦点科技股份有限公司 一种数据仓库数据监控的方法
CN108304413A (zh) * 2017-01-13 2018-07-20 北京京东尚科信息技术有限公司 分布式数据仓库监控方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110837458A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN108228814B (zh) 数据同步方法及装置
US11343103B2 (en) Sending cross-chain authenticatable messages
CN111104392B (zh) 一种数据库迁移方法、装置、电子设备及存储介质
CN106059825A (zh) 一种分布式***及配置方法
CN110659206B (zh) 基于微服务的模拟架构建立方法、装置、介质及电子设备
CN110661662B (zh) 一种轻量级的微服务配置方法
CN110445765B (zh) 基于区块链的数据共享方法、终端设备及介质
CN105022815A (zh) 信息拦截方法及装置
CN112256318B (zh) 一种用于依赖产品的构建方法及设备
WO2023131058A1 (zh) 一种企业数字中台中资源服务应用的调度***和方法
CA3065729A1 (en) Business rules processing framework
CN114422592A (zh) 报文转换方法、装置、计算机设备及计算机可读存储介质
CN112105026A (zh) 一种授权控制的方法、装置以及存储介质
US20120290679A1 (en) Rest interface interaction with expectation management
CN110837458B (zh) 一种数据平衡验证的方法、设备、及存储介质
CN111625528A (zh) 配置管理数据库的校验方法、装置及可读存储介质
CN111737351A (zh) 分布式管理***事务管理方法及装置
CN103164532A (zh) 电网模型数据的分类分块抽取方法及***
CN115982133A (zh) 数据处理方法及装置
CN112364121B (zh) 问卷pdf的自动创建方法、装置、存储介质及计算机设备
CN110493326B (zh) 基于zookeeper管理集群配置文件的***和方法
CN115526586A (zh) 一种基于智能运算的业务流程处理方法
CN108400901A (zh) 应用的测试方法、终端设备及计算机可读存储介质
US7542930B1 (en) Rules based scenario management
CN110515923B (zh) 一种分布式数据库之间的数据迁移方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 R & D building 3501, block a, building 7, Vanke Cloud City Phase I, Xingke 1st Street, Xili community, Xili street, Nanshan, Shenzhen, Guangdong

Applicant after: Tubatu Group Co.,Ltd.

Address before: 1001-a, 10th floor, bike technology building, No.9, Keke Road, high tech Zone, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: SHENZHEN BINCENT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant