CN117609362A - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents

一种数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117609362A
CN117609362A CN202311368971.7A CN202311368971A CN117609362A CN 117609362 A CN117609362 A CN 117609362A CN 202311368971 A CN202311368971 A CN 202311368971A CN 117609362 A CN117609362 A CN 117609362A
Authority
CN
China
Prior art keywords
data
target
aggregation
source
aggregate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311368971.7A
Other languages
English (en)
Inventor
徐浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ziroom Information Technology Co Ltd
Original Assignee
Beijing Ziroom Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ziroom Information Technology Co Ltd filed Critical Beijing Ziroom Information Technology Co Ltd
Priority to CN202311368971.7A priority Critical patent/CN117609362A/zh
Publication of CN117609362A publication Critical patent/CN117609362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种数据处理方法、装置、电子设备及存储介质,方法包括:获取当前时间周期内生成的数据表,其中,数据表中包括当前时间周期内未加工的源数据;对数据表中的源数据进行聚合操作,得到目标聚合数据;遍历数据总表确定目标聚合数据在数据总表内的目标分区,并将目标聚合数据写入目标分区,其中,数据总表用于存储各个时间周期内的聚合数据;将目标分区中的目标聚合数据导出至目标数据表。本申请实施例采用大数据异步导数的方式,对源数据库进行解耦;提高了数据处理的灵活性,同时可以对数据进行多次多维度的处理聚合,以及通过将聚合数据导出能够支持不同数据库类型之间的数据交互。

Description

一种数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
现在比较常见的将原数据库中的数据同步至目标数据库中的方法:基于Oracle数据库的业务***。为了方便不同数据库实例同步数据,采用定时的方式从其他数据库实例中查询数据并同步到物化视图中。这种方式仅能适用于初期或是规模较小的业务。但随着业务的发展,各个业务开始进行服务的拆分和微服务的改造。在改造的过程中数据库的成本上升和资源消耗大会导致效率急剧下降,对原数据库造成很大的影响,进而有些应用需要去除资源消耗较高的Oracle数据库,采用资源消耗较低的Mysql数据库。这时Oracle物化视图同步这种耦合度很高的数据同步方式已经不能满足业务发展的需要。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质,以解决较大规模业务服务拆分和微服务改造中数据同步资源浪费和数据耦合度较高的问题。
第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取当前时间周期内生成的数据表,其中,所述数据表中包括当前时间周期内未加工的源数据;
对所述数据表中的源数据进行聚合操作,得到目标聚合数据;
遍历数据总表确定所述目标聚合数据在数据总表内的目标分区,并将所述目标聚合数据写入所述目标分区,其中,所述数据总表用于存储各个时间周期内的聚合数据;
将所述目标分区中的目标聚合数据导出至目标数据表。
可选的,所述获取当前时间周期内生成的数据表,包括:
基于所述当前时间周期,查询至少一个源数据库中未加工的源数据,其中,所述源数据存储于所述源数据库内的源数据表;
将所述源数据存储至分布式文件***;
利用预设查询语句将所述分布式文件***中的源数据映射为所述数据表,其中,所述数据表的表结构与所述源数据对应源数据表的表结构一致。
可选的,所述对所述数据表中的源数据进行聚合操作,得到目标聚合数据,包括:
获取所述源数据对应的数据属性;
确定所述数据属性对应的聚合方式;
按照所述聚合方式对所述源数据进行聚合操作,得到所述目标聚合数据。
可选的,在对所述数据表中的源数据进行聚合操作,得到目标聚合数据之后,所述方法还包括:
检测所述数据表中源数据对应的数据量;
在所述数据量大于或等于预设阈值的情况下,从所述聚合总表中获取所述目标分区的相邻分区;
对比所述相邻分区的聚合数据与所述目标聚合数据,得到增量数据;
将所述增量数据存储至增量数据表。
可选的,在基于所述目标分区将所述聚合数据导出至目标数据表之后,所述方法还包括:
检测所述目标数据表的数据量是否满足预设要求;
在所述数据量不满足预设要求的情况下,生成告警信息。
可选的,所述方法还包括:
在所述数据量满足预设要求的情况下,对比所述目标数据表中的目标聚合数据与业务数据库中的业务数据,得到对比结果;
根据所述对比结果执行相应的处理操作。
可选的,所述根据所述对比结果执行相应的处理操作,包括:
在所述对比结果为所述业务数据库中不存在所述目标聚合数据的情况下,将所述目标聚合数据***所述业务数据库;
在所述对比结果为所述业务数据与所述目标聚合数据不一致的情况下,利用所述目标聚合数据对所述业务数据库进行更新。
第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取当前时间周期内生成的数据表,其中,所述数据表中包括当前时间周期内未加工的源数据;
聚合模块,用于对所述数据表中的源数据进行聚合操作,得到目标聚合数据;
存储模块,用于遍历数据总表确定所述聚合数据在数据总表内的目标分区,并将所述聚合数据写入所述目标分区,其中,所述数据总表用于存储各个各个时间周期内的聚合数据;
导出模块,用于基于所述目标分区将所述聚合数据导出至目标数据表。
第三方面,本发明实施例提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。
本申请实施例提供的方法具有以下有益效果:
本申请实施例采用大数据异步导数的方式,对源数据库进行解耦;提高了数据处理的灵活性,同时可以对数据进行多次多维度的处理聚合,以及通过将聚合数据导出能够支持不同数据库类型之间的数据交互。
具体的,本申请实施例通过获取当前时间周期内生成的数据表,实现了定时生成数据表,从而对当前时间周期内的源数据进行聚合和导出的自动化处理,减少了手动操作的工作量和错误的可能性。同时还可以及时处理最新的数据,确保聚合和导出的数据是基于最新的源数据,并且在数据总表中存储最新的聚合数据。通过遍历数据总表确定目标聚合数据在数据总表内的目标分区,并将目标聚合数据写入目标分区,可以灵活地根据需要选择目标分区进行数据存储和管理。
另外,通过在数据总表中存储各个时间周期内的聚合数据,可以保留历史数据并支持历史查询。以此可以方便地追溯和分析各个时间周期内的聚合结果,为决策和分析提供依据。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一些实施例的数据处理方法的流程示意图;
图2是根据本发明实施例的数据处理装置的结构框图;
图3是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种数据处理方法、装置、电子设备及存储介质,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种数据处理方法,可用于上述的移动终端,如手机、平板电脑等,图1是根据本发明实施例的数据处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S11,获取当前时间周期内生成的数据表,其中,数据表中包括当前时间周期内未加工的源数据。
本申请实施例提供的方法应用于大数据平台,大数据平台可以是AirFlow,AirFlow是一个用于管理、调度和监控数据流程的开源平台。它提供了一个跨多个任务和数据源的统一接口,使用户能够轻松地编写、调度和监控复杂的数据流程。AirFlow主要由三个核心组件组成:调度器(Scheduler):负责根据预定的时间表调度和执行任务。执行器(Executor):负责在分布式环境中执行任务。元数据库(Metadata Database):用于存储任务调度、执行和监控相关的元数据。
在本申请实施例中,获取当前时间周期内生成的数据表,包括以下步骤A1-A3:
步骤A1,基于当前时间周期,查询至少一个源数据库中未加工的源数据,其中,源数据存储于源数据库内的源数据表。
在本申请实施例中,当前时间周期可以是1天,1周或者N个小时,具体时间周期可以预先在调度器上进行配置。
在本申请实施例中,源数据库为部署在大数据平台外部的数据库,源数据库可以是Oracle、Mysql数据库,源数据库用于存储相关应用的应用数据,相关应用可以是房屋租赁应用,应用数据可以是房源的浏览量、收藏量、成交量等等。相关应用还可以是家具维修,应用数据可以是家具维修类型,维修次数等等。
步骤A2,将源数据存储至分布式文件***。
在本申请实施例中,分布式文件***HDFS(Hadoop Distributed File System)Hadoop分布式文件***,用于存储从结构型数据库(Oracle/MySql)导入的全量表数据,及聚合后的中间数据。
步骤A3,利用预设查询语句将分布式文件***中的源数据映射为数据表,其中,数据表的表结构与源数据对应源数据表的表结构一致。
作为一个示例,假设有一个Oracle数据库表,要在Hive中创建一个与该表结构相同的表,可以使用Hive表定义一个包含与源数据表相同字段的表。因为Hive表的结构与源数据表相同,使用Hive的SQL语句来查询和处理数据可以方便地进行数据转换、处理和交互操作,如执行聚合查询、连接其他表等。
步骤S12,对数据表中的源数据进行聚合操作,得到目标聚合数据。
在本申请实施例中,对数据表中的源数据进行聚合操作,得到目标聚合数据,包括以下步骤B1-B3:
步骤B1,获取源数据对应的数据属性;
在本申请实施例中,获取的源数据可能包括以下对应的属性:
标称属性:标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性。这些值不必具有有意义的序,并且不是定量的。例如,产品的类型可以区分为多种:日用品、食品等。
二元属性:一种标称属性,只有两个类别或状态:0或1,其中0常表示不出现,1表示出现。如果将0和1对应于false和true,二元属性则为布尔属性。例如,产品处于已出售状态或是未出售状态,只有已出售和未出售两种状态的属性。
序数属性:序数属性可用于记录不能客观度量的主观质量评估。因此,序数属性常用于等级评定调查。如某销售部门客户服务质量的评估,0表示很不满意,1不太满意,2表示中性,3表示满意,4表示非常满意。
在本申请实施例中,数据属性还可以是交易类数据,例如:销售额、成交量等等,还可以是服务类数据,例如:用户评价数据、售后数据、用户行为数据等等。
这样获取源数据对应的数据属性的方式有利于选择更合适的方式进行聚合加工,避免出现过多的数据耦合。
步骤B2,确定数据属性对应的聚合方式;
在本申请实施例中,聚合加工可以包括以下方式:
合并:将多个源数据中的记录合并为一个整体,通常是按照某种共同的标识或键将记录进行匹配、关联或者聚合。例如,将同一产品的销售数据从不同渠道的数据源中合并成一个整体的销售数据集。
计算:对多个源数据进行数学计算或者统计分析,得到一个计算结果。例如,对多个地区的销售数据进行求和、平均值、最大值或者最小值等计算操作,得到整体的销售总额、平均销售额或者最高销售额等指标。
汇总:将多个源数据的某些特定维度进行汇总,得到一个综合的总结结果。例如,将多个产品的销售数据按照月份进行汇总,得到每月的销售总额或者销售量。
这样的聚合操作可以帮助我们从原始的、分散的数据中提取出有用的信息,形成更高层次的数据视图或者分析结果。
步骤B3,按照聚合方式对源数据进行聚合操作,得到目标聚合数据。
作为一个示例,假设有一张名为"sales_data"的总表,用来存储所有销售数据。每天都会进行数据聚合操作,将当天的销售数据按照不同的维度进行汇总,生成一个聚合结果。这个聚合结果可以作为总表的一个分区,存储在总表中,并且可以根据日期进行区分。
本申请实施例提供的方法可以方便地进行历史数据的查询和分析。每次聚合操作都会生成一个新的分区,可以根据不同的时间范围或其他维度来查询特定的聚合结果,而不需要每次都对整个总表进行计算和汇总。通过将每次聚合操作的结果作为总表的一个分区,可以有效地管理和组织聚合数据,提高数据查询和分析的效率。
在本申请实施例中,在对数据表中的源数据进行聚合操作,得到目标聚合数据之后,方法还包括:检测数据表中源数据对应的数据量;在数据量大于或等于预设阈值的情况下,从聚合总表中获取目标分区的相邻分区;对比相邻分区的聚合数据与目标聚合数据,得到增量数据;将增量数据存储至增量数据表。
作为一个示例,ource_data表示源数据表,包含以下字段:
date:日期,category:产品分类,value:数据值
aggregated_data表示聚合总表,包含以下字段:
date:日期,category:产品分类,total_value:聚合数据值
incremental_data表示增量数据表,将用于存储增量数据,包含以下字段:
date:日期,category:产品分类,incremental_value:增量数据值
首先,检测源数据表的数据量,如果数据量大于或等于预设阈值,则执行后续操作。然后,从聚合总表中获取目标分区的相邻分区日期。具体可以使用SQL查询语句来获取目标分区日期前一天和后一天的日期。根据相邻分区的日期,分别从聚合总表中获取目标聚合数据和相邻分区的聚合数据。对比目标聚合数据和相邻分区的聚合数据,得到增量数据。最后,将增量数据存储至增量数据表中,具体可以使用pandas的to_sql函数将数据存储到增量数据表中。
需要说明的是,对于数据量较大的表,可能每次进行完整的聚合操作的时候会比较耗费时间和资源。为了提高效率,可以只处理最近两个分区的数据,即将最新的分区与上一个分区进行比较。
本申请实施例通过比较最近两个分区的数据,可以找出在新分区中新增、更新或删除的数据。这三种操作类型是指在新分区中出现的数据可能是全新添加的、已存在但发生了更新的或者被删除的数据。同时,将根据新增、更新、删除操作类型提取出来的增量数据保存在另一个聚合数据表中,这个表专门用于存储增量数据。可以根据需要添加相应的字段,记录操作类型或者其他属性信息。
通过这个过程,可以将数据聚合和增量数据处理分开,提高处理效率和灵活性。聚合数据表保存了完整的聚合结果,而增量数据表则专门保存了每次聚合操作后的变动数据,方便之后的增量更新或其他处理。
步骤S13,遍历数据总表确定目标聚合数据在数据总表内的目标分区,并将目标聚合数据写入目标分区,其中,数据总表用于存储各个时间周期内的聚合数据。
在本申请实施例中,数据总表是基于时间周期进行分区的,目标聚合数据是源数据聚合加工而来的,具有时间属性,根据目标聚合数据的所处时间可以找到数据总表对应的目标分区,将目标聚合数据写入该数据总表分区内。例如:如果目标聚合数据属于前一天的时间周期,那么首先遍历数据总表,确定前一天的目标分区,将目标聚合数据写入前一天的目标分区内。
步骤S14,将目标分区中的目标聚合数据导出至目标数据表。
在本申请实施例中,将增量数据表作为单个数据表导出的目的是:可以使数据更加便捷地可用和可访问。这样,用户无需每次都进行数据聚合操作,只需直接访问单个数据表即可获取所需数据。另外,导出单个的数据表后,还可以方便地与其他***共享数据。不同组织或***可能对不同的数据表感兴趣,因此导出单个的数据表可以更好地满足数据共享的需求。
本申请实施例采用大数据异步导数的方式,对源数据库进行解耦;提高了数据处理的灵活性,同时可以对数据进行多次多维度的处理聚合,以及通过将聚合数据导出能够支持不同数据库类型之间的数据交互。
具体的,本申请实施例通过获取当前时间周期内生成的数据表,实现了定时生成数据表,从而对当前时间周期内的源数据进行聚合和导出的自动化处理,减少了手动操作的工作量和错误的可能性。同时还可以及时处理最新的数据,确保聚合和导出的数据是基于最新的源数据,并且在数据总表中存储最新的聚合数据。通过遍历数据总表确定目标聚合数据在数据总表内的目标分区,并将目标聚合数据写入目标分区,可以灵活地根据需要选择目标分区进行数据存储和管理。
另外,通过在数据总表中存储各个时间周期内的聚合数据,可以保留历史数据并支持历史查询。以此可以方便地追溯和分析各个时间周期内的聚合结果,为决策和分析提供依据。
在本申请实施例中,在基于目标分区将聚合数据导出至目标数据表之后,方法还包括:检测目标数据表的数据量是否满足预设要求。在数据量不满足预设要求的情况下,生成告警信息。
通过定时调度工具,定时查询目标数据库中是否有当次聚合数据的表以及表中的数据量是否满足要求。如果没有表或者数据达不到要求,如数据量为空或数据量未超过规定阈值,则通过邮件、企业微信进行告警,并延时重新执行。
在本申请实施例中,方法还包括:在数据量满足预设要求的情况下,对比目标数据表中的目标聚合数据与业务数据库中的业务数据,得到对比结果;
在本申请实施例中,根据对比结果执行相应的处理操作,包括:
在对比结果为业务数据库中不存在目标聚合数据的情况下,将目标聚合数据***业务数据库;
作为一个示例,如果业务数据库中用户信息中不存在客户的消费偏好,比如客户对于相关产品的历史浏览量,但是目标聚合数据中存在相应的数据,那么目标数据库中的有关于客户的消费偏好的数据将会***业务数据库中。
在对比结果为业务数据与目标聚合数据不一致的情况下,利用目标聚合数据对业务数据库进行更新。
作为一个示例,如果业务数据库中某一产品销售量与目标聚合数据中同一产品的销售量不一致时,将利用目标数据库中数据对于业务数据库相应数据进行更新。
在本实施例中还提供了一种数据处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种数据处理装置,如图2所示,包括:
获取模块21,用于获取当前时间周期内生成的数据表,其中,数据表中包括当前时间周期内未加工的源数据;
聚合模块22,用于对数据表中的源数据进行聚合操作,得到目标聚合数据;
存储模块23,用于遍历数据总表确定聚合数据在数据总表内的目标分区,并将聚合数据写入目标分区,其中,数据总表用于存储各个各个时间周期内的聚合数据;
导出模块24,用于基于目标分区将聚合数据导出至目标数据表。
在本申请实施例中,获取模块,用于基于当前时间周期,查询至少一个源数据库中未加工的源数据,其中,源数据存储于源数据库内的源数据表;将源数据存储至分布式文件***;利用预设查询语句将分布式文件***中的源数据映射为数据表,其中,数据表的表结构与源数据对应源数据表的表结构一致。
在本申请实施例中,聚合模块,用于获取源数据对应的数据属性;确定数据属性对应的聚合方式;按照聚合方式对源数据进行聚合操作,得到目标聚合数据。
在本申请实施例中,装置还包括:对比模块,用于检测数据表中源数据对应的数据量;在数据量大于或等于预设阈值的情况下,从聚合总表中获取目标分区的相邻分区;对比相邻分区的聚合数据与目标聚合数据,得到增量数据;将增量数据存储至增量数据表。
在本申请实施例中,装置还包括:检测模块,用于检测目标数据表的数据量是否满足预设要求;在数据量不满足预设要求的情况下,生成告警信息。
在本申请实施例中,装置还包括:执行模块,用于在数据量满足预设要求的情况下,对比目标数据表中的目标聚合数据与业务数据库中的业务数据,得到对比结果;根据对比结果执行相应的处理操作。
在本申请实施例中,执行模块,具体用于在对比结果为业务数据库中不存在目标聚合数据的情况下,将目标聚合数据***业务数据库;在对比结果为业务数据与目标聚合数据不一致的情况下,利用目标聚合数据对业务数据库进行更新。
请参阅图3,图3是本发明可选实施例提供的一种计算机设备的结构示意图,如图3所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取当前时间周期内生成的数据表,其中,所述数据表中包括当前时间周期内未加工的源数据;
对所述数据表中的源数据进行聚合操作,得到目标聚合数据;
遍历数据总表确定所述目标聚合数据在数据总表内的目标分区,并将所述目标聚合数据写入所述目标分区,其中,所述数据总表用于存储各个时间周期内的聚合数据;
将所述目标分区中的目标聚合数据导出至目标数据表。
2.根据权利要求1所述的方法,其特征在于,所述获取当前时间周期内生成的数据表,包括:
基于所述当前时间周期,查询至少一个源数据库中未加工的源数据,其中,所述源数据存储于所述源数据库内的源数据表;
将所述源数据存储至分布式文件***;
利用预设查询语句将所述分布式文件***中的源数据映射为所述数据表,其中,所述数据表的表结构与所述源数据对应源数据表的表结构一致。
3.根据权利要求1所述的方法,其特征在于,所述对所述数据表中的源数据进行聚合操作,得到目标聚合数据,包括:
获取所述源数据对应的数据属性;
确定所述数据属性对应的聚合方式;
按照所述聚合方式对所述源数据进行聚合操作,得到所述目标聚合数据。
4.根据权利要求3所述的方法,其特征在于,在对所述数据表中的源数据进行聚合操作,得到目标聚合数据之后,所述方法还包括:
检测所述数据表中源数据对应的数据量;
在所述数据量大于或等于预设阈值的情况下,从所述聚合总表中获取所述目标分区的相邻分区;
对比所述相邻分区的聚合数据与所述目标聚合数据,得到增量数据;
将所述增量数据存储至增量数据表。
5.根据权利要求1所述的方法,其特征在于,在基于所述目标分区将所述聚合数据导出至目标数据表之后,所述方法还包括:
检测所述目标数据表的数据量是否满足预设要求;
在所述数据量不满足预设要求的情况下,生成告警信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述数据量满足预设要求的情况下,对比所述目标数据表中的目标聚合数据与业务数据库中的业务数据,得到对比结果;
根据所述对比结果执行相应的处理操作。
7.根据权利要求6所述的方法,其特征在于,所述根据所述对比结果执行相应的处理操作,包括:
在所述对比结果为所述业务数据库中不存在所述目标聚合数据的情况下,将所述目标聚合数据***所述业务数据库;
在所述对比结果为所述业务数据与所述目标聚合数据不一致的情况下,利用所述目标聚合数据对所述业务数据库进行更新。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取当前时间周期内生成的数据表,其中,所述数据表中包括当前时间周期内未加工的源数据;
聚合模块,用于对所述数据表中的源数据进行聚合操作,得到目标聚合数据;
存储模块,用于遍历数据总表确定所述聚合数据在数据总表内的目标分区,并将所述聚合数据写入所述目标分区,其中,所述数据总表用于存储各个各个时间周期内的聚合数据;
导出模块,用于基于所述目标分区将所述聚合数据导出至目标数据表。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
CN202311368971.7A 2023-10-20 2023-10-20 一种数据处理方法、装置、计算机设备及存储介质 Pending CN117609362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311368971.7A CN117609362A (zh) 2023-10-20 2023-10-20 一种数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311368971.7A CN117609362A (zh) 2023-10-20 2023-10-20 一种数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117609362A true CN117609362A (zh) 2024-02-27

Family

ID=89954997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311368971.7A Pending CN117609362A (zh) 2023-10-20 2023-10-20 一种数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117609362A (zh)

Similar Documents

Publication Publication Date Title
EP2577507B1 (en) Data mart automation
WO2018051096A1 (en) System for importing data into a data repository
CN112199433A (zh) 一种用于城市级数据中台的数据治理***
US10133779B2 (en) Query hint management for a database management system
US11615076B2 (en) Monolith database to distributed database transformation
CN112527783A (zh) 一种基于Hadoop的数据质量探查***
CN114595294B (zh) 一种数据仓库建模和抽取方法及***
CN115408381A (zh) 数据处理方法及相关设备
CN115552392A (zh) 执行时间动态范围分区变换
CN115640300A (zh) 一种大数据管理方法、***、电子设备和存储介质
US9727666B2 (en) Data store query
CN111125045B (zh) 一种轻量级etl处理平台
CN111309712A (zh) 基于数据仓库的优化任务调度方法、装置、设备及介质
US20140074792A1 (en) Automated database optimization
CN116362212A (zh) 报表生成方法、装置、设备及存储介质
CN116257594A (zh) 一种数据重构方法及***
CN115510289A (zh) 一种数据立方体配置方法、装置、电子设备及存储介质
CN117609362A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN109033196A (zh) 一种分布式数据调度***及方法
CN114860759A (zh) 一种数据处理方法、装置、设备及可读存储介质
CN114428813A (zh) 基于报表平台的数据统计方法、装置、设备及存储介质
US8589444B2 (en) Presenting information from heterogeneous and distributed data sources with real time updates
Aydin et al. Data modelling for large-scale social media analytics: design challenges and lessons learned
CN111143322A (zh) 一种数据标准治理***及方法
EP4404117A1 (en) Method for automatically identifying change contributors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination