CN117453743A - 基于大数据多表数据联合分析方法、***、设备及介质 - Google Patents

基于大数据多表数据联合分析方法、***、设备及介质 Download PDF

Info

Publication number
CN117453743A
CN117453743A CN202311494062.8A CN202311494062A CN117453743A CN 117453743 A CN117453743 A CN 117453743A CN 202311494062 A CN202311494062 A CN 202311494062A CN 117453743 A CN117453743 A CN 117453743A
Authority
CN
China
Prior art keywords
data
characteristic information
acquiring
source
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311494062.8A
Other languages
English (en)
Inventor
刘斌华
曾志锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jishan Guangdong Technology Co ltd
Original Assignee
Jishan Guangdong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jishan Guangdong Technology Co ltd filed Critical Jishan Guangdong Technology Co ltd
Priority to CN202311494062.8A priority Critical patent/CN117453743A/zh
Publication of CN117453743A publication Critical patent/CN117453743A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理的技术领域,尤其涉及一种基于大数据多表数据联合分析方法、***、设备及介质,基于大数据多表数据联合分析方法包括步骤:在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;基于多个所述数据源表中的数据获取第一数据特征信息;基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果;根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。本申请具有提高数据分析过程的效率,同时对多个数据源表进行分析的效果。

Description

基于大数据多表数据联合分析方法、***、设备及介质
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种基于大数据多表数据联合分析方法、***、设备及介质。
背景技术
随着社会的不断发展,互联信息化技术的普及,大数据概念的兴起,大数据在推进市域基层社会治理现代化的过程中扮演着重要角色,给市域基层社会治理带来深刻影响和变革,对于提升市域基层社会治理现代化建设效能起到了一定的促进作用。
目前,对市域基层社会治理的大数据分析方法包括抽样分析,但是抽样分析方法对数据的覆盖率小,容易存在大数据漏分析的隐患,但是市域基层社会治理的大数据存在数据量量级大,字段多、内容长、数据表种类多,对大数据的分析时间过长,进而导致数据分析效率低,因此,存在一定的改进空间。
发明内容
为了提高数据分析过程的效率,同时对多个数据源表进行分析,本申请提供一种基于大数据多表数据联合分析方法、***、设备及介质。
本申请的上述发明目的一是通过以下技术方案得以实现的:
一种大数据多表数据联合分析方法,所述基于大数据多表数据联合分析方法包括步骤:
在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
基于多个所述数据源表中的数据获取第一数据特征信息;
基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
通过采用上述技术方案,在对市域基层社会治理的大数据进行分析时,在预构建的数据库内获取多个数据源表,数据源表包括初始数据表、中间数据表和应用数据表,分别对初始数据表、中间数据表和应用数据表进行数据分析,得到第一数据特征信息,利用第一数据特征信息对初始数据表、中间数据表和应用数据表进行联合处理,将多个数据源表内发现重复的数据去除,形成联合数据表,能够避免对重复数据进行重复分析,对联合数据表内的数据进行分析,得到第二数据特征信息,通过对第一数据特征信息和第二数据特征信息进行比对,根据比对结果判断联合数据表的数据内容是否与多个数据源表内的数据内容是否一致,进而完成数据分析过程,采用多个数据源表联合处理后在进行数据分析,降低大数据的数据分析花费时间,提高数据分析效率。
本申请在一较佳示例中可以进一步配置为:所述在预设的数据库获取多个数据源表各自的数据,具体包括:
获取预设的数据库内的初始源数据,将所述初始源数据整理集合,形成初始数据表;
对所述初始源数据进行聚合处理,得到聚合数据,基于所述聚合数据集合形成中间数据表;
基于所述聚合数据获取数据类型信息,根据所述数据类型信息进行数据分类,形成应用数据表。
通过采用上述技术方案,对数据库内的数据进行整理集合,得到初始数据表,对初始数据表内的初始数据进行聚合处理,形成聚合数据,将一些重复数据形成中间数据,能够减少对重复数据进行重复加工的工作,有效提高数据分析的效率,将聚合数据集合形成中间数据表,对中间数据表内的聚合数据进行数据分类,将同类型的聚合数据整理集合形成应用数据表,对数据库内的数据形成初始数据表、中间数据表和应用数据表的数据层结构,便于对数据库内的海量大数据进行存储,进而便于对多个数据源表进行数据分析。
本申请在一较佳示例中可以进一步配置为:所述基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息,具体包括:
根据所述第一数据特征信息获取第一数据内容信息,基于所述第一数据内容信息获取重复数据集合;
根据所述重复数据集合获取内容信息重复数据,合并所述内容信息重复数据,将合并内容信息重复数据后的数据以及其他数据形成联合数据,基于所述联合数据集合得到联合数据表;
对所述联合数据进行数据特征提取,得到第二数据特征信息。
通过采用上述技术方案,通过对第一数据特征信息分析,得到多个数据源表的数据内容信息,根据数据内容信息提取出内容信息重复的数据,将内容信息重复的数据合并,只留下一条内容信息重复的数据,将合并后的内容信息重复数据以及其他数据整理集合形成联合数据,以联合数据为基础集合形成联合数据表,实现对多个数据源表联合功能,对联合数据表内的联合数据进行数据分析,提取得到第二数据特征信息,通过利用第二数据特征信息以便于对多个数据源表进行联合数据分析。
本申请在一较佳示例中可以进一步配置为:所述将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,具体包括:
基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量;
比较所述第一数据总量与第二数据总量是否相同,根据所述比较结果形成数据对比结果。
通过采用上述技术方案,通过对第一数据特征信息分析得到多个数据源表中单个数据源表的数据总量,利用第二数据特征信息分析得到数据联合表内数据的数据总量,比较判断多个数据源表联合后形成的联合数据表的数据总量与多个数据源表内的数据的数据总量是否一致,利用数据总量的比较结果,实现对数据分析功能。
本申请在一较佳示例中可以进一步配置为:所述基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量,具体包括:
根据所述第一数据特征信息获取多个第一数据特征段,统计所述第一数据特征段的数量,基于所述第一数据特征段获取第一数据内容,将所述第一数据内容以及第一数据特征段数量并作为第一数据总量;
根据所述第二数据特征信息获取多个第二数据特征段,统计所述第二数据特征段的数量,基于所述第二数据特征段获取第二数据内容,将所述第二数据内容以及第二数据特征段数量并作为第二数据总量。
通过采用上述技术方案,通过对第一数据特征信息进行分析,得到多个第一数据特征段,统计第一数据特征段的数量,同时通过第一数据特征段识别出第一数据内容,以第一数据特征段数量以及第一数据内容形成第一数据总量,实现对多个数据源表的数据计算统计功能,通过对第二数据特征信息进行分析,得到多个第二数据特征段,统计第二数据特征段的数量,同时通过第二数据特征段识别出第二数据内容,以第二数据特征段数量以及第二数据内容形成第二数据总量,实现对联合数据表的数据计算统计功能。
本申请在一较佳示例中可以进一步配置为:所述基于大数据多表数据联合分析方法还包括步骤:
获取与多个所述数据源表相同数据源的第二数据源表,基于所述第二数据源表内获取第三数据特征信息;
将所述第一数据特征信息与第三数据特征信息进行对比,根据所述对比结果,判断所述第二数据源表的数据与多个数据源表的数据是否一致。
通过采用上述技术方案,在对大数据进行数据迁移或者转移到第二终端设备过程中,获取与多个数据源表相同数据源的第二数据源表,对第二数据源表内的数据进行整理分析,得到第三数据特征信息,利用第三数据特征信息与第一数据特征信息进行对比,判断第二数据源表的数据与多个数据源表的数据是否一致,实现在数据迁移过程中对数据进行验证功能。
本申请在一较佳示例中可以进一步配置为:所述基于大数据多表数据联合分析方法还包括步骤:
获取修改源数据,基于所述修改源数据获取修改数据特征,根据所述修改数据特征获取初始源数据位置信息;
将所述修改源数据存入至初始源数据位置信息内,并删除初始源数据。
通过采用上述技术方案,当对数据源表进行数据修改时,获取修改源数据,修改源数据是指对数据源表内的数据的修改内容信息,根据修改源数据获取相对应的修改数据特征,根据修改数据特征获取数据源表内的初始源数据位置信息,初始源数据位置信息是指初始源数据在数据源表内的存储位置,将修改源数据覆盖掉初始源数据,并将初始源数据删除,实现对数据源表内的初始源数据进行修改,同时,数据源表内至保存修改后最新的源数据,减少初始源数据对数据源表的存储空间的占用。
本申请的上述发明目的二是通过以下技术方案得以实现的:
一种大数据多表数据联合校验装置,所述大数据多表数据联合校验装置包括:
数据源表模块,用于在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
第一数据特征信息获取模块,用于基于多个所述数据源表中的数据获取第一数据特征信息;
多表联合模块,用于基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
数据校验模块,用于将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
通过采用上述技术方案,在对市域基层社会治理的大数据进行分析时,在预构建的数据库内获取多个数据源表,数据源表包括初始数据表、中间数据表和应用数据表,分别对初始数据表、中间数据表和应用数据表进行数据分析,得到第一数据特征信息,利用第一数据特征信息对初始数据表、中间数据表和应用数据表进行联合处理,将多个数据源表内发现重复的数据去除,形成联合数据表,能够避免对重复数据进行重复分析,对联合数据表内的数据进行分析,得到第二数据特征信息,通过对第一数据特征信息和第二数据特征信息进行比对,根据比对结果判断联合数据表的数据内容是否与多个数据源表内的数据内容是否一致,进而完成数据分析过程,采用多个数据源表联合处理后在进行数据分析,降低大数据的数据分析花费时间,提高数据分析效率。
本申请的上述目的三是通过以下技术方案得以实现的:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据多表数据联合分析方法的步骤。
本申请的上述目的四是通过以下技术方案得以实现的:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据多表数据联合分析方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1、对初始数据表、中间数据表和应用数据表进行联合处理,将多个数据源表内发现重复的数据去除,形成联合数据表,能够避免对重复数据进行重复分析,采用多个数据源表联合处理后在进行数据分析,降低大数据的数据分析花费时间,提高数据分析效率;
2、对数据库内的数据进行整理集合,得到初始数据表,对初始数据表内的初始数据进行聚合处理,形成聚合数据,将一些重复数据形成中间数据,能够减少对重复数据进行重复加工的工作,有效提高数据分析的效率,将聚合数据集合形成中间数据表,对中间数据表内的聚合数据进行数据分类,将同类型的聚合数据整理集合形成应用数据表,对数据库内的数据形成初始数据表、中间数据表和应用数据表的数据层结构,便于对数据库内的海量大数据进行存储,进而便于对多个数据源表进行数据分析;
3、在对大数据进行数据迁移或者转移到第二终端设备过程中,获取与多个数据源表相同数据源的第二数据源表,对第二数据源表内的数据进行整理分析,得到第三数据特征信息,利用第三数据特征信息与第一数据特征信息进行对比,判断第二数据源表的数据与多个数据源表的数据是否一致,实现在数据迁移过程中对数据进行验证析功能。
附图说明
图1是本申请一实施例中一种基于大数据多表数据联合分析方法的一流程图;
图2是本申请一实施例中一种基于大数据多表数据联合分析方法中步骤S10的实现流程图;
图3是本申请一实施例中一种基于大数据多表数据联合分析方法中步骤S30的实现流程图;
图4是本申请一实施例中一种基于大数据多表数据联合分析方法中步骤S40的实现流程图;
图5是本申请一实施例中一种基于大数据多表数据联合分析方法中步骤S41的实现流程图;
图6是本申请一实施例中一种基于大数据多表数据联合分析方法的另一实现流程图;
图7是本申请一实施例中一种基于大数据多表数据联合分析方法的另一实现流程图;
图8是本申请一实施例中一种基于大数据多表数据联合分析***的一原理框图;
图9是本申请一实施例中的计算机设备示意图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
在一实施例中,如图1所示,本申请公开了一种基于大数据多表数据联合分析方法,具体包括如下步骤:
S10:在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表。
在本实施例中,多个数据源表是指初始数据表(ODS层表)、中间数据表(DW层表)和应用数据表(ADS层表)。
具体的,在大数据的数据库内,将初始源数据存放至初始数据表内,利用初始数据表内的初始源数据进行处理,将处理后的数据存放在中间数据表内,对中间数据表内数据分类整理,将同类型的数据存放在应用数据表内。
S20:基于多个所述数据源表中的数据获取第一数据特征信息。
在本实施例中,第一数据特征信息是指每个数据源表内的数据内容以及数据量信息。
具体的,分别对初始数据表、中间数据表和应用数据表内的数据进行分析整理,得到每个数据表内的数据内容以及数据量信息。
S30:基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息。
在本实施例中,联合处理是指对重复数据进行合并去除处理,联合数据表是指留有一条重复数据以及其他数据的数据集合表,第二数据特征信息是指联合数据表内数据的数据内容以及数据量信息。
具体的,通过对第一数据特征信息分析,得到多个数据源表的数据内容信息,根据数据内容信息提取出内容信息重复的数据,将内容信息重复的数据合并,只留下一条内容信息重复的数据以及其他数据,形成留有一条重复数据以及其他数据的数据集合表,对联合数据表内的数据进行分析整理,得到联合数据表内数据的数据内容以及数据量信息。
S40:将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
具体的,通过对初始数据表、中间数据表和应用数据表内的数据的数据内容以及数据量信息分别与联合数据表内数据的数据内容以及数据量信息进行比对判断,根据比对结果判断联合数据表的数据内容是否与多个数据源表内的数据内容是否一致,进而完成数据分析过程。
在本实施例中,在对市域基层社会治理的大数据进行分析时,在预构建的数据库内获取多个数据源表,数据源表包括初始数据表、中间数据表和应用数据表,分别对初始数据表、中间数据表和应用数据表进行数据分析,得到第一数据特征信息,利用第一数据特征信息对初始数据表、中间数据表和应用数据表进行联合处理,将多个数据源表内发现重复的数据去除,形成联合数据表,能够避免对重复数据进行重复分析,对联合数据表内的数据进行分析,得到第二数据特征信息,通过对第一数据特征信息和第二数据特征信息进行比对,根据比对结果判断联合数据表的数据内容是否与多个数据源表内的数据内容是否一致,进而完成数据分析过程,采用多个数据源表联合处理后在进行数据分析,降低大数据的数据分析花费时间,提高数据分析效率。
在一实施例中,如图2所示,在步骤S10中,即在预设的数据库获取多个数据源表各自的数据,具体包括:
S11:获取预设的数据库内的初始源数据,将所述初始源数据整理集合,形成初始数据表。
在本实施例中,初始源数据是指大数据中的基础数据。
具体的,对数据库内的基础数据进行整理,集合形成一个初始数据表。
S12:对所述初始源数据进行聚合处理,得到聚合数据,基于所述聚合数据集合形成中间数据表。
在本实施例中,聚合处理是指将一些重复数据形成中间数据,聚合数据是指对基础数据进行聚合处理后的数据。
具体的,对初始数据表内的基础数据进行分析,将基础数据内的重复数据形成一个中间数据,对基础数据进行去除空数据、脏数据、离群值,形成聚合数据,能够减少对重复数据进行重复加工的工作,有效提高数据分析的效率,将聚合数据集合形成中间数据表。
S13:基于所述聚合数据获取数据类型信息,根据所述数据类型信息进行数据分类,形成应用数据表。
在本实施例中,数据类型信息是指数据应用方向信息。
具体的,对基础数据进行聚合处理后的数据根据该数据应用方向信息整理,按照数据不同的应用方向信息整理成一个应用数据表,便于技术人员直接调取应用数据。
进一步地,对数据库内的数据形成初始数据表、中间数据表和应用数据表的数据层结构,便于对数据库内的海量大数据进行存储,进而便于对多个数据源表进行数据分析。
在一实施例中,如图3所示,在步骤S30中,即基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息,具体包括:
S31:根据所述第一数据特征信息获取第一数据内容信息,基于所述第一数据内容信息获取重复数据集合。
在本实施例中,第一数据内容信息是指多个数据源表内的数据内容,重复数据集合是指数据内容相同的数据。
具体的,对每个数据源表内的数据进行分析,提取多个数据源表内的数据内容,根据多个数据源表内的数据内容整理出数据内容相同的数据,形成一个重复数据集合。
S32:根据所述重复数据集合获取内容信息重复数据,合并所述内容信息重复数据,将合并内容信息重复数据后的数据以及其他数据形成联合数据,基于所述联合数据集合得到联合数据表。
具体的,根据数据内容信息提取出内容信息重复的数据,将内容信息重复的数据合并,只留下一条内容信息重复的数据,将合并后的内容信息重复数据以及其他数据整理集合形成联合数据,以联合数据为基础集合形成联合数据表。
S33:对所述联合数据进行数据特征提取,得到第二数据特征信息。
具体的,对联合数据表内的联合数据进行数据分析,提取到联合数据表内数据的数据内容以及数据量信息。
在一实施例中,如图4所示,在步骤S40中,即将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,具体包括:
S41:基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量。
在本实施例中,第一数据总量是指多个数据源表内数据的数据量以及数据类别,第二数据总量是指联合数据表内数据的数据量以及数据类别。
具体的,对第一数据特征信息分析得到多个数据源表内数据的数据量以及数据类别,利用第二数据特征信息分析得到联合数据表内数据的数据量以及数据类别。
S42:比较所述第一数据总量与第二数据总量是否相同,根据所述比较结果形成数据对比结果。
具体的,通过比对多个数据源表内数据的数据量以及数据类别和联合数据表内数据的数据量以及数据类别是否完全一致,实现对数据分析功能。
在一实施例中,如图5所示,在步骤S41中,即基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量,具体包括:
S411:根据所述第一数据特征信息获取多个第一数据特征段,统计所述第一数据特征段的数量,基于所述第一数据特征段获取第一数据内容,将所述第一数据内容以及第一数据特征段数量并作为第一数据总量。
具体的,对第一数据特征信息进行分析,得到多个第一数据特征段,统计第一数据特征段的数量,同时通过第一数据特征段识别出第一数据内容,以第一数据特征段数量以及第一数据内容形成第一数据总量。
S412:根据所述第二数据特征信息获取多个第二数据特征段,统计所述第二数据特征段的数量,基于所述第二数据特征段获取第二数据内容,将所述第二数据内容以及第二数据特征段数量并作为第二数据总量。
具体的,对第二数据特征信息进行分析,得到多个第二数据特征段,统计第二数据特征段的数量,同时通过第二数据特征段识别出第二数据内容,以第二数据特征段数量以及第二数据内容形成第二数据总量,实现对联合数据表的数据计算统计功能。
在一实施例中,如图6所示,基于大数据多表数据联合分析方法还包括步骤:
S50:获取与多个所述数据源表相同数据源的第二数据源表,基于所述第二数据源表内获取第三数据特征信息。
在本实施例中,第二数据源表是指数据迁移过程中产生的数据源表的副本,第三数据特征信息是指数据源表的副本内数据的数据内容以及数据量信息。
具体的,在对大数据进行数据迁移或者转移到第二终端设备过程中,将多个数据源表复制备份形成数据源表的副本,对数据源表的副本进行数据分析,得到数据源表的副本内数据的数据内容以及数据量信息,以便于将数据源表的副本与多个数据源表进行数据分析。
S60:将所述第一数据特征信息与第三数据特征信息进行对比,根据所述对比结果,判断所述第二数据源表的数据与多个数据源表的数据是否一致。
具体的,利用数据源表的副本内数据的数据内容以及数据量信息与每个数据源表内的数据内容以及数据量信息进行对比,判断数据源表的副本的数据与多个数据源表的数据是否一致,实现在数据迁移过程中对数据进行验证功能。
在一实施例中,如图7所示,基于大数据多表数据联合分析方法还包括步骤:
S70:获取修改源数据,基于所述修改源数据获取修改数据特征,根据所述修改数据特征获取初始源数据位置信息。
S80:将所述修改源数据存入至初始源数据位置信息内,并删除初始源数据。
具体的,当对数据源表进行数据修改时,获取修改源数据,修改源数据是指对数据源表内的数据的修改内容信息,根据修改源数据获取相对应的修改数据特征,根据修改数据特征获取数据源表内的初始源数据位置信息,初始源数据位置信息是指初始源数据在数据源表内的存储位置,将修改源数据覆盖掉初始源数据,并将初始源数据删除,实现对数据源表内的初始源数据进行修改,同时,数据源表内至保存修改后最新的源数据,减少初始源数据对数据源表的存储空间的占用。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种大数据多表数据联合校验装置,该大数据多表数据联合校验装置与上述实施例中基于大数据多表数据联合分析方法一一对应。如图8所示,该大数据多表数据联合校验装置包括数据源表模块、第一数据特征信息获取模块、多表联合模块和数据校验模块。各功能模块详细说明如下:
数据源表模块,用于在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
第一数据特征信息获取模块,用于基于多个所述数据源表中的数据获取第一数据特征信息;
多表联合模块,用于基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
数据校验模块,用于将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
关于大数据多表数据联合校验装置的具体限定可以参见上文中对于基于大数据多表数据联合分析方法的限定,在此不再赘述。上述大数据多表数据联合校验装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储多个数据源表、联合数据表、第一数据特征信息和第二数据特征信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据多表数据联合分析方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
一种基于大数据多表数据联合分析方法,所述基于大数据多表数据联合分析方法包括步骤:
在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
基于多个所述数据源表中的数据获取第一数据特征信息;
基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
一种基于大数据多表数据联合分析方法,所述基于大数据多表数据联合分析方法包括步骤:
在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
基于多个所述数据源表中的数据获取第一数据特征信息;
基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于大数据多表数据联合分析方法,其特征在于,所述基于大数据多表数据联合分析方法包括步骤:
在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
基于多个所述数据源表中的数据获取第一数据特征信息;
基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
2.根据权利要求1所述的一种基于大数据多表数据联合分析方法,其特征在于,所述在预设的数据库获取多个数据源表各自的数据,具体包括:
获取预设的数据库内的初始源数据,将所述初始源数据整理集合,形成初始数据表;
对所述初始源数据进行聚合处理,得到聚合数据,基于所述聚合数据集合形成中间数据表;
基于所述聚合数据获取数据类型信息,根据所述数据类型信息进行数据分类,形成应用数据表。
3.根据权利要求1所述的一种基于大数据多表数据联合分析方法,其特征在于,所述基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息,具体包括:
根据所述第一数据特征信息获取第一数据内容信息,基于所述第一数据内容信息获取重复数据集合;
根据所述重复数据集合获取内容信息重复数据,合并所述内容信息重复数据,将合并内容信息重复数据后的数据以及其他数据形成联合数据,基于所述联合数据集合得到联合数据表;
对所述联合数据进行数据特征提取,得到第二数据特征信息。
4.根据权利要求1所述的一种基于大数据多表数据联合分析方法,其特征在于,所述将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,具体包括:
基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量;
比较所述第一数据总量与第二数据总量是否相同,根据所述比较结果形成数据对比结果。
5.根据权利要求4所述的一种基于大数据多表数据联合分析方法,其特征在于,所述基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量,具体包括:
根据所述第一数据特征信息获取多个第一数据特征段,统计所述第一数据特征段的数量,基于所述第一数据特征段获取第一数据内容,将所述第一数据内容以及第一数据特征段数量并作为第一数据总量;
根据所述第二数据特征信息获取多个第二数据特征段,统计所述第二数据特征段的数量,基于所述第二数据特征段获取第二数据内容,将所述第二数据内容以及第二数据特征段数量并作为第二数据总量。
6.根据权利要求1所述的一种基于大数据多表数据联合分析方法,其特征在于,所述基于大数据多表数据联合分析方法还包括步骤:
获取与多个所述数据源表相同数据源的第二数据源表,基于所述第二数据源表内获取第三数据特征信息;
将所述第一数据特征信息与第三数据特征信息进行对比,根据所述对比结果,判断所述第二数据源表的数据与多个数据源表的数据是否一致。
7.根据权利要求1所述的一种基于大数据多表数据联合分析方法,其特征在于,所述基于大数据多表数据联合分析方法还包括步骤:
获取修改源数据,基于所述修改源数据获取修改数据特征,根据所述修改数据特征获取初始源数据位置信息;
将所述修改源数据存入至初始源数据位置信息内,并删除初始源数据。
8.一种基于大数据多表数据联合分析***,其特征在于,所述基于大数据多表数据联合分析***包括:
数据源表模块,用于在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;
第一数据特征信息获取模块,用于基于多个所述数据源表中的数据获取第一数据特征信息;
多表联合模块,用于基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;
数据校验模块,用于将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述一种基于大数据多表数据联合分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于大数据多表数据联合分析方法的步骤。
CN202311494062.8A 2023-11-09 2023-11-09 基于大数据多表数据联合分析方法、***、设备及介质 Pending CN117453743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311494062.8A CN117453743A (zh) 2023-11-09 2023-11-09 基于大数据多表数据联合分析方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311494062.8A CN117453743A (zh) 2023-11-09 2023-11-09 基于大数据多表数据联合分析方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN117453743A true CN117453743A (zh) 2024-01-26

Family

ID=89590795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311494062.8A Pending CN117453743A (zh) 2023-11-09 2023-11-09 基于大数据多表数据联合分析方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN117453743A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858625A (zh) * 2022-12-19 2023-03-28 企知道网络技术有限公司 一种大数据多表数据联合校验方法、***、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858625A (zh) * 2022-12-19 2023-03-28 企知道网络技术有限公司 一种大数据多表数据联合校验方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN108197306B (zh) Sql语句处理方法、装置、计算机设备和存储介质
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN110209650A (zh) 数据规整迁移方法、装置、计算机设备和存储介质
CN110956269A (zh) 数据模型的生成方法、装置、设备以及计算机存储介质
CN110134738B (zh) 分布式存储***资源预估方法、装置
CN110471945B (zh) 活跃数据的处理方法、***、计算机设备和存储介质
CN111475517A (zh) 数据更新方法、装置、计算机设备及存储介质
CN112750027A (zh) 批量业务处理方法、装置、计算机设备和存储介质
CN111488323A (zh) 一种数据处理方法、装置及电子设备
CN115858625A (zh) 一种大数据多表数据联合校验方法、***、设备及介质
CN110516123A (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN113535563A (zh) 测试用例去重方法、装置、计算机设备及存储介质
CN117453743A (zh) 基于大数据多表数据联合分析方法、***、设备及介质
CN112527786A (zh) 数据表分区新增方法、装置、计算机设备及存储介质
CN112528832A (zh) 对pdf格式的继电保护定值单进行处理的方法和***
CN109542947B (zh) 数据统计方法、装置、计算机设备和存储介质
CN115757411A (zh) 一种股市信息数据管理方法、***、设备及存储介质
CN115393128A (zh) 知识产权的全景分析方法、装置、计算机设备及介质
CN111339210A (zh) 数据聚类方法及装置
CN114971926A (zh) 保费计算模型测试方法、***、设备及存储介质
CN112732819A (zh) 基于etl的数据处理方法、装置、设备和存储介质
CN117608495A (zh) 一种固态硬盘数据存储管理方法、***、设备及介质
CN111651531A (zh) 数据导入方法、装置、设备及计算机存储介质
WO2024093253A1 (zh) 一种数据采样方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination