CN114238286B - 一种数据仓库数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据仓库数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114238286B
CN114238286B CN202210184591.7A CN202210184591A CN114238286B CN 114238286 B CN114238286 B CN 114238286B CN 202210184591 A CN202210184591 A CN 202210184591A CN 114238286 B CN114238286 B CN 114238286B
Authority
CN
China
Prior art keywords
data
historical
task
history
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210184591.7A
Other languages
English (en)
Other versions
CN114238286A (zh
Inventor
林晶晶
甘红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianlian Hangzhou Information Technology Co ltd
Original Assignee
Lianlian Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianlian Hangzhou Information Technology Co ltd filed Critical Lianlian Hangzhou Information Technology Co ltd
Priority to CN202210184591.7A priority Critical patent/CN114238286B/zh
Publication of CN114238286A publication Critical patent/CN114238286A/zh
Application granted granted Critical
Publication of CN114238286B publication Critical patent/CN114238286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种数据仓库数据处理方法、装置、电子设备和存储介质,方法包括:接收任务请求;任务请求携带有任务标识;基于任务标识解析目标任务;目标任务包含当前执行文件;当前执行文件包括执行描述信息和数据处理语句;基于执行描述信息,从当前数据集中确定待处理数据;当前数据集基于多个历史数据集确定;根据数据处理语句对待处理数据进行处理,得到目标数据;发送目标数据。通过本申请实施例的一种数据仓库数据处理方法,可以基于优化的处理任务进行数据处理,提高数据仓库任务的处理效率。

Description

一种数据仓库数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据仓库数据处理方法、装置、***及存储介质。
背景技术
随着大数据时代的到来,数据呈爆发式增长,越来越多的业务需要借助大数据能力进行数据分析,数仓的任务越来越多,链路越来越复杂。数据仓库中存储有大量的冗余数据,并且数据处理任务往往需要调用大量的数据,在数据处理业务需要越来越大的同时,对数据仓库的数据处理效率的需求也逐渐提高。
目前的数据仓库模型普遍从相同的数据源重复调用数据,或者进行重复多次相同数据处理,甚至存在多个任务从大量的数据源重复多次调用数据的情况,导致数据仓库模型处理任务效率低,占用大量链路。数据仓库的数据源和相应的处理任务都需要进行优化,以提高数据仓库任务的处理效率。
发明内容
针对现有技术存在的缺陷,本公开实施例提供一种数据仓库数据处理方法、装置、***及存储介质,可以基于优化的处理任务进行数据处理,提高数据仓库任务的处理效率。
本申请实施例提供一种数据仓库数据处理方法,方法包括:接收任务请求;任务请求携带有任务标识;基于任务标识解析目标任务;目标任务包含当前执行文件;当前执行文件包括执行描述信息和数据处理语句;基于执行描述信息,从当前数据集中确定待处理数据;当前数据集基于多个历史数据集确定;根据数据处理语句对待处理数据进行处理,得到目标数据;发送目标数据。
具体地,基于执行描述信息,从当前数据集中确定待处理数据包括:从执行描述信息中获取当前数据集标识和待处理数据标识;基于当前数据集标识从数据仓库中确定出当前数据集;基于待处理数据标识从当前数据集中确定待处理数据。
具体地,在若检测到任务请求,基于任务请求中携带的任务标识,读取任务标识对应的任务之前,方法还包括:获取历史任务集;历史任务集中每个历史任务包括历史执行文件;历史执行文件包括历史描述信息和历史处理语句;若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识;基于历史数据集标识确定出多个历史数据集;基于多个历史数据集和历史处理语句生成当前数据集。
具体地,方法还包括:基于历史处理语句生成当前数据集对应的数据处理语句;将历史描述信息当作执行描述信息;基于执行描述信息和数据处理语句生成当前执行文件;根据当前执行文件确定关联任务标识的目标任务。
具体地,若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识包括:若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,获取每个历史任务的历史处理语句;若每个历史任务的历史处理语句相同,从多个历史任务中的历史描述信息中确定历史数据集标识。
具体地,历史任务和任务标识相关联,且历史任务的优先级低于目标任务的优先级。
具体地,基于任务标识解析目标任务包括:基于任务标识确定关联的目标任务和历史任务;若预设时长内,目标任务被解析的次数小于等于预设阈值,基于任务标识解析目标任务。
相应地,本申请实施例提供一种数据仓库数据处理装置,装置包括:接收模块,用于接收任务请求;任务请求携带有任务标识;解析模块,用于基于任务标识解析目标任务;目标任务包含当前执行文件;当前执行文件包括执行描述信息和数据处理语句;确定模块,用于基于执行描述信息,从当前数据集中确定待处理数据;当前数据集基于多个历史数据集确定;处理模块,用于根据数据处理语句对待处理数据进行处理,得到目标数据;发送模块,用于发送目标数据。
具体地,基于执行描述信息,从当前数据集中确定待处理数据包括:从执行描述信息中获取当前数据集标识和待处理数据标识;基于当前数据集标识从数据仓库中确定出当前数据集;基于待处理数据标识从当前数据集中确定待处理数据。
具体地,装置还包括预处理模块,预处理模块用于:获取历史任务集;历史任务集中每个历史任务包括历史执行文件;历史执行文件包括历史描述信息和历史处理语句;若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识;基于历史数据集标识确定出多个历史数据集;基于多个历史数据集和历史处理语句生成当前数据集。
具体地,预处理模块还用于:基于历史处理语句生成当前数据集对应的数据处理语句;将历史描述信息当作执行描述信息;基于执行描述信息和数据处理语句生成当前执行文件;根据当前执行文件确定关联任务标识的目标任务。
具体地,若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识包括:若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,获取每个历史任务的历史处理语句;若每个历史任务的历史处理语句相同,从多个历史任务中的历史描述信息中确定历史数据集标识。
具体地,历史任务和任务标识相关联,且历史任务的优先级低于目标任务的优先级。
具体地,基于任务标识解析目标任务包括:基于任务标识确定关联的目标任务和历史任务;若预设时长内,目标任务被解析的次数小于等于预设阈值,基于任务标识解析目标任务。
相应地,本公开实施例提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据仓库数据处理方法。
相应地,本公开实施例提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据仓库数据处理方法。
本申请实施例具有如下有益效果:
(1)通过调用预处理得到的数据集,减少任务执行过程中需要调用数据源的数量,从而减少链路的占用;
(2)通过执行简化的数据处理语句,提高数据仓库的处理效率;
(3)根据目标任务被解析的次数确定解析目标任务或者历史任务,可以在数据仓库任务处理量较大的情况下最大程度地利用现有的数据,通过多个数据处理通路进行任务的处理,实现处理效率的最大化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例所提供的一种数据仓库数据处理方法的应用场景示意图;
图2是本申请实施例所提供的一种数据仓库数据处理方法的第一流程示意图;
图3是本申请实施例所提供的一种数据仓库数据处理方法的第二流程示意图;
图4是本申请实施例所提供的一种数据仓库数据处理方法的第三流程示意图;
图5是本申请实施例所提供的一种数据仓库数据处理装置的结构示意图;
图6是本申请实施例所提供的一种数据仓库数据处理方法的服务器的硬件结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一个实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置/***或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外,术语“包括”和“具有”/“为”以及他们/其的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元/模块的过程、方法、***/装置、产品或设备不必限于清楚地列出的那些步骤或单元/模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元/模块。
下面介绍本申请提供的一种数据仓库数据处理方法的具体实施例。请参阅图1,图1是本申请实施例所提供的一种数据仓库数据处理的应用场景示意图。如图1所示,包括服务器101和终端102。可选的,服务器101和终端102可以通过无线链路连接,也可以通过有线链路连接,本公开在此不做限定。
在一个可选的实施例中,服务器101可以接收任务请求,并基于任务请求中的任务标识,从数据仓库中调用并解析目标任务。终端102可以向服务101发送任务请求,也可以接收服务器101发送的目标数据。服务器101还可以用于管理数据处理任务的内部***,该内部***可以基于预设的时间或者频率发起任务请求,以在数据仓库中定期分析得到需要的目标数据。具体的,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的,该服务器101上运行的操作***可以包括但是不限于IOS、Linux、Windows、Unix、Android ***等。
在一个可选的实施例中,终端102可以在对目标数据存在需求的时候,与服务器101通信,向服务器发送任务请求,以使服务器101基于任务请求解析目标任务并执行,并向终端102发送目标数据。执行的目标任务可以是对数据仓库中的数据表进行处理。具体的,终端102可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的数据仓库数据处理方法的一种应用环境,在实际应用中,还可以包括其他应用环境,例如服务器101可以通过内部***发送任务请求,通过数据处理***接收任务请求并执行目标任务,然后发送目标数据至内部***或者其他客户端102。
下面介绍本申请提供的一种数据仓库数据处理方法的示例性流程。图2是本申请实施例提供的一种数据仓库数据处理方法的第一流程示意图,本说明书提供了如实施例或流程图所示的方法或者流程操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式,不代表唯一的执行顺序,在实际执行时,可以按照实施例或者附图所示的方法或者流程顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法包括:
步骤S201:接收任务请求。
具体地,任务请求可以携带有任务标识。该任务请求可以是客户端或者其他终端发送至数据仓库平台的,也可以是数据仓库的内部***基于预设时间点或者预设频率生成的,如定期生成内部统计报告。
步骤S202:基于任务标识解析目标任务。
在一种具体的实施方式中,任务标识可以和目标任务一一对应。目标任务可以包括数据仓库中的数据处理任务。目标任务可以包含当前执行文件,其中,该当前执行文件可以包括执行描述信息和数据处理语句。当前执行文件可以包括一个或者多个。
在目标任务的任务描述为生成年度视频投放报告的实施例中,该目标任务可以包含多个当前执行文件,多个当前执行文件可以分别用于确定近半年播放趋势分析趋势图、播放分区排名和最高播放视频信息。在目标任务的任务描述为用户人气排名的实施例中,该目标任务可以包含一个当前执行文件,该当前执行文件可以用于确定用户人气排名。
在目标任务的任务描述为统计三相不平衡的用电节点的实施例中,该目标任务可以包含一个当前执行文件,该当前执行文件可以用于确定多个用电节点中三相不平衡度大于预设阈值的用电节点。
步骤S203:基于执行描述信息,从当前数据集中确定待处理数据。
具体地,执行描述信息可以用于指示当前数据集中哪些数据可以作为待处理数据来获取。对于相同的执行描述信息,在不同时间点执行步骤S203可以获取不同的待处理数据。在一种具体的实施方式中,执行描述信息可以是当月订单交易额,基于此,在不同的月份获取的待处理数据对应于不同的时间段。
下面结合图3进一步阐述步骤S203。图3是本申请实施例所提供的一种数据仓库数据处理方法的第二流程示意图。如图3所图示,示例性流程包括:
步骤S301:从执行描述信息中获取当前数据集标识和待处理数据标识。
在一种具体的实施方式中,在目标任务的任务描述为近半年播放趋势分析的实施例中,当前数据集标识可以是月度播放数据集,该数据集可以以数据表的形式呈现;也就是说,该数据集标识可以对应于数据仓库中的月度播放数据表。在另一种具体的实施方式中,当前数据集标识可以是播放数据,该当前数据集标识可以对应于数据仓库中的月度播放数据表以及视频日播放数据表,其中月度播放数据表的优先级高于视频日播放数据表,在后续基于当前数据集标识确定当前数据集的过程中,可以优先确定月度播放数据表为当前数据集。
在一种具体的实施方式中,待处理数据标识可以是最近六个月的编号,该待处理数据标识可以对应于月度播放数据表中的子表名或者字段名。在另一种具体的实施方式中,待处理数据标识可以是近半年,当月的月数可以是6月,在此基础上,基于该待处理数据标识和当月的月数,可以确定从月度播放数据表中获取的数据月数分别为1月、2月、3月、4月、5月和6月。
在一种具体的实施方式中,在目标任务的任务描述为统计三相不平衡的用电节点的实施例中,当前数据集标识可以对应于电力三相不平衡度表,待处理数据标识可以对应于表中的三相不平衡度数据。
步骤S302:基于当前数据集标识从数据仓库中确定出当前数据集。
当前数据集标识和数据仓库中的一个或者多个数据集可以是对应的关系。具体地,数据集标识可以为月度播放数据,也可以是月度播放数据表对应的标识编号;可以基于该数据集标识,从数据仓库中确定月度播放数据表,作为当前数据集。
具体地,当前数据集可以基于多个历史数据集确定。历史数据集的数据可以是以历史表格的形式呈现的。
步骤S303:基于待处理数据标识从当前数据集中确定待处理数据。
待处理数据标识可以和当前数据集中的至少一张字表或者至少一个字段对应。具体地,待处理数据标识可以是最近六个月的月数,或者最近六个月的编号;可以基于该待处理标识,从当前数据集,即月度播放数据表中取出近六个月对应的六张子表或者近六个月对应的字段的数据,作为待处理数据。
下面继续基于图2对本申请实施例的数据仓库数据处理方法进行阐述:
步骤S204:根据数据处理语句对待处理数据进行处理,得到目标数据。
具体地,目标数据可以是基于待处理数据进行计算的计算结果,或者将待处理数据输入训练好的模型的输出结果。在另一种具体的实施方式中,目标数据还可以是基于待处理数据得到的可视化图形或者分析结果图表。
在一种具体的实施方式中,数据处理语句可以用于基于近六个月的月度播放数据,生成月度播放量折线图。在另一种具体的实施方式中,数据处理语句还可以用于从所有节点的三相不平衡度数据确定出三相不平衡度大于预设阈值的节点。
步骤S205:发送目标数据。
具体地,目标数据可以发送至发出任务请求的客户端或者数据仓库内部***。
下面结合图4进一步阐述本申请实施例提供的一种数据仓库数据处理方法。图4是本申请实施例所提供的一种数据仓库数据处理方法的第三流程示意图。在步骤S201之前,方法还可以包括步骤S401-S408,通过执行步骤S401-S408可以实现对历史执行文件进行预处理,得到当前执行文件;并且对历史数据集进行预处理,得到当前数据集。本申请实施例提供的方法可以包括步骤S401-步骤S404,以及步骤S405-步骤S408,其中,上述步骤可以基于执行指令执行,也可以由数据仓库的预处理***定期执行。可以具体地如图4所图示,示例性流程包括:
步骤S401:获取历史任务集。
具体地,历史任务集中每个历史任务可以包括历史执行文件。历史执行文件可以包括历史描述信息和历史处理语句。历史执行文件可以包括一个或者多个。历史执行文件可以包括一个或者多个。在历史任务的任务描述为生成年度视频投放报告的实施例中,该目标任务可以包含多个当前执行文件,多个当前执行文件可以分别用于确定近半年播放趋势分析趋势图、播放分区排名和最高播放视频信息。在历史任务的任务描述为用户人气排名的实施例中,该目标任务可以包含一个当前执行文件,该当前执行文件可以用于确定用户人气排名。
在一种具体的实施方式中,历史任务可以和任务标识相关联,且历史任务的优先级低于目标任务的优先级。其中,同一个任务标识对应的历史任务和当前任务可以对应于相同的任务描述;并且,历史任务的历史描述信息和当前任务的执行描述信息可以是相同或者不同的,历史任务的历史处理语句和当前任务的数据处理语句也可以是不同的。具体而言,在步骤S202中,接收到任务标识之后,在基于任务标识解析任务标识对应的任务的过程中,可以基于任务标识确定该任务标识对应的目标任务和历史任务;并且,基于目标任务的优先级高于历史任务的优先级,从目标任务和历史任务中优先解析目标任务。在此实施方式中,步骤S202还可以包括:基于任务标识确定关联的目标任务和历史任务;若预设时长内,目标任务被解析的次数小于等于预设阈值,基于任务标识解析目标任务;若预设时长内,目标任务被解析的次数大于预设阈值,基于任务标识解析历史任务。
在本申请实施例中,根据目标任务被解析的次数确定解析目标任务或者历史任务,可以在数据仓库任务处理量较大的情况下最大程度地利用现有的数据,通过多个数据处理通路进行任务的处理,实现处理效率的最大化。
步骤S402:若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识。
具体地,可以通过解析历史任务集,得到多个历史任务,并获取多个历史任务的历史描述信息和历史处理语句。历史任务集可以对应于数据仓库任务,历史任务可以使数据仓库任务中的任务子模块。
在一种具体的实施方式中,若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,则将相同的历史数据集标识确定为历史数据集标识。
在另一种具体的实施方式中,若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,获取每个历史任务的历史处理语句;若每个历史任务的历史处理语句相同,从多个历史任务中的历史描述信息中确定历史数据集标识。
具体地,每个历史任务的历史描述信息中包含的历史数据集标识可以均对应于视频日播放数据,每个历史任务的历史处理语句可以均为基于日播放量计算月播放量,则可以确定历史数据集标识为视频日播放数据。在一种具体的实施方式中,历史数据集标识可以对应于多个节点的三相电力数据,历史处理语句可以基于三相电力数据计算三相不平衡度,则可以确定历史数据集标识为多个节点的三相电力数据。
在另一种具体的实施方式中,若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含相同的历史数据集标识,获取每个历史任务的历史处理语句;从每个历史任务的历史处理语句中,统计相同的历史数据集标识对应的历史处理语句的条数;若条数大于预设条数,则将相同的历史数据集标识确定历史数据集标识。
具体地,每个历史任务的历史描述信息中可以包含的相同的历史数据集标识可以对应于视频日播放数据,可以统计对视频日播放数据进行处理的历史处理语句的条数,若条数大于预设条数,则可以确定历史数据集标识为视频日播放数据。
具体地,在上述确定历史数据集标识的实施例中,该历史数据集标识对应的多个历史数据集可以存在有关联关系。关联关系可以指两个数据集中存在相同字段信息,例如在两个数据集分别为订单详情表和用户信息表的实施例中,订单详情表和用户信息表中存在相同的字段,该字段可以是用户id字段信息。在数据集为数据表的情况下,两张表中相同字段对应的列中的数据或者信息可以是一致的。
在本申请实施例中,通过将任务中总是成对出现使用的数据集或者数据表确定出来,从而进行预处理或者合并处理得到新表,即当前数据集,可以在更新的任务中调用当前数据集,从而避免数据处理过程中大量的重复运算。
步骤S403:基于历史数据集标识确定出多个历史数据集。
历史数据集标识和数据仓库中的一个或者多个数据集可以是对应的关系。具体地,数据集标识可以包括每个视频的单个视频日播放数据,也可以包括每个单个视频日播放数据对应的标识编号;可以基于该数据集标识,从数据仓库中确定多个视频日播放数据表,作为当前数据集。
步骤S404:基于多个历史数据集和历史处理语句生成当前数据集。
具体地,可以基于历史处理语句对多个历史数据集中的数据进行处理,得到处理结果;基于该处理结果生成当前数据集。
在一种具体的实施方式中,多个历史数据集可以是多个视频日播放数据表,历史处理语句可以包括用于基于日播放量计算月播放量的语句,该语句也是相同的历史数据集标识,即单个视频日播放数据对应的历史处理语句。可以基于历史处理语句对多个视频日播放数据表的数据进行处理,得到所有视频合计的月播放数据,并基于得到的月播放数据,生成月度播放数据表,作为当前数据集。
在另一种具体的实施方式中,可以从获取多个历史数据集的关联关系,关联关系包括主副表关系,即从多个历史数据集中确定主表和副表。可以基于多个历史数据集,将其中的副表合并至主表,合并后的宽表可以作为当前数据集。
具体地,当前数据集的优先级可以高于多个历史数据集。
在本申请实施例中,通过对多个历史数据集进行预处理或者合并处理得到当前数据集,可以避免执行数据仓库任务的时候对多个历史数据集的数据进行重复多次的计算,避免导致算力的浪费,增大数据处理的效率。
步骤S405:基于历史处理语句生成当前数据集对应的数据处理语句。
在一种具体的实施方式中,当前数据集为月度播放数据表,可以将历史处理语句中相同的历史数据集标识对应的语句删除。历史处理语句可以包括用于基于日播放量计算月播放量的语句,也可以包括基于月播放量生成以月为单位的播放量折线图的语句;在步骤S405中可以将用于基于日播放量计算月播放量的语句删去。
在另一种具体的实施方式中,可以在步骤S404中当前数据集可以由多个历史数据集进行合并得到,在此实施例中,则可以基于当前数据集,将多个历史数据集对应的语句修改为当前数据集对应的语句。多个历史数据集对应的语句可以包括基于多个视频日播放数据表中的每个视频的日播放量计算总月播放量的语句,修改后的当前数据集对应的数据处理语句可以包括基于当前数据集中的每个视频的日播放量计算月播放量的语句。
步骤S406:将历史描述信息当作执行描述信息。
在一种具体的实施方式中,历史描述信息中的历史数据集标识可以是播放数据,历史描述信息中的历史待处理数据标识可以是近半年。在此实施例中,可以将历史描述信息当作执行描述信息。历史数据集标识可以同时对应于历史数据集和当前数据集,并且在执行步骤S203,即基于执行描述信息,从当前数据集中确定待处理数据的过程中,可以基于当前数据集的优先级,从数据仓库中读取当前数据集。
在另一种具体的实施方式中,历史描述信息中的历史数据集标识可以是每个视频的视频日播放数据,历史描述信息中的历史待处理数据标识可以是1月1日至6月31日。在此实施例中,可以基于当前数据集对历史描述信息进行更新,得到执行描述信息。基于当前数据集为月度播放数据表,可以将历史描述信息更新为月度播放数据,作为执行描述信息的当前描述信息;将历史待处理数据标识更新为1月、2月、3月、4月、5月、6月,作为执行描述信息的待处理数据标识。
步骤S407:基于执行描述信息和数据处理语句生成当前执行文件。
具体地,当前执行文件的数据处理语句可以包括步骤S405中的当前数据集对应的数据处理语句。
步骤S408:根据当前执行文件确定关联任务标识的目标任务。
在一种具体的实施方式中,目标任务可以基于当前执行文件生成。历史任务关联的任务标识可以同时和目标任务相关联。具体地,历史任务的优先级可以低于目标任务的优先级。
步骤S401-S408可以在步骤S201之前执行,可以实现对历史执行文件进行预处理,得到当前执行文件;并且对历史数据集进行预处理,得到当前数据集。
在本申请实施例中,可以对历史执行文件进行优化,得到当前执行文件,并在接收到任务请求时执行当前执行文件。在这个过程中,可以通过调用新生成的数据集,减少任务执行过程中需要调用数据源的数量,从而减少链路的占用;并且,可以通过执行简化的数据处理语句,提高数据仓库的处理效率。需要注意的是,本申请不对数据仓库任务处理的数据类型或者数据方法作限定,目标任务的任务描述不限于上文中阐述的描述,在其他一些可选的实施方式中,本申请的数据仓库数据处理方法可以基于预处理得到的当前数据集和当前执行文件,实现对其他类型数据的高效处理。
相应地,本申请提供一种数据仓库数据处理装置。图5是本申请实施例所提供的一种数据仓库数据处理装置的结构示意图。如图5所图示,数据仓库数据处理装置500可以包括:
接收模块501,用于接收任务请求;任务请求携带有任务标识;
解析模块502,用于基于任务标识解析目标任务;目标任务包含当前执行文件;当前执行文件包括执行描述信息和数据处理语句;
确定模块503,用于基于执行描述信息,从当前数据集中确定待处理数据;当前数据集基于多个历史数据集确定;
处理模块504,用于根据数据处理语句对待处理数据进行处理,得到目标数据;
发送模块505,用于发送目标数据。
具体地,基于执行描述信息,从当前数据集中确定待处理数据包括:从执行描述信息中获取当前数据集标识和待处理数据标识;基于当前数据集标识从数据仓库中确定出当前数据集;基于待处理数据标识从当前数据集中确定待处理数据。
具体地,装置还可以包括预处理模块,预处理模块用于:获取历史任务集;历史任务集中每个历史任务包括历史执行文件;历史执行文件包括历史描述信息和历史处理语句;若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识;基于历史数据集标识确定出多个历史数据集;基于多个历史数据集和历史处理语句生成当前数据集。
具体地,预处理模块还可以用于:基于历史处理语句生成当前数据集对应的数据处理语句;将历史描述信息当作执行描述信息;基于执行描述信息和数据处理语句生成当前执行文件;根据当前执行文件确定关联任务标识的目标任务。
具体地,若历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从多个历史任务中的历史描述信息中确定历史数据集标识包括:若历史任务集中存在多个历史任务,且多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,获取每个历史任务的历史处理语句;若每个历史任务的历史处理语句相同,从多个历史任务中的历史描述信息中确定历史数据集标识。
具体地,历史任务和任务标识相关联,且历史任务的优先级低于目标任务的优先级。
具体地,基于任务标识解析目标任务可以包括:基于任务标识确定关联的目标任务和历史任务;若预设时长内,目标任务被解析的次数小于等于预设阈值,基于任务标识解析目标任务。
本申请的装置实施例和方法实施例可以基于相同的构思。
相应地,本公开实施例还提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据仓库数据处理方法。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图6是本申请实施例提供的数据仓库数据处理方法的服务器的硬件结构框图。如图6所示,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,CPU)610(中央处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630,一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中,存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器610可以设置为与存储介质620通信,在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口640,和/或,一个或一个以上操作***621,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中,输入输出接口640包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口640可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器600还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
本申请实施提供一种存储介质,存储介质可设置于服务器之中以保存用于实现方法实施例中数据仓库数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述数据仓库数据处理方法。
具体地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于包括:U盘、只读存储器(ROM,Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的相连或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是:上述本申请实施例的先后顺序仅仅为了描述,不代表实施例的优劣,且上述本说明书对特定的实施例进行了描述,其他实施例也在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果,在某些实施方式中,多任务并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的均为与其他实施例的不同之处。尤其,对于装置/***的实施例而言,由于其基于相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种数据仓库数据处理方法,其特征在于,所述方法包括:
获取历史任务集;所述历史任务集中每个历史任务包括历史执行文件;所述历史执行文件包括历史描述信息和历史处理语句;
若所述历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从所述多个历史任务中的历史描述信息中确定历史数据集标识;
基于所述历史数据集标识确定出多个历史数据集;
基于所述多个历史数据集和所述历史处理语句生成当前数据集;
接收任务请求;所述任务请求携带有任务标识;
基于所述任务标识解析目标任务;所述目标任务包含当前执行文件;所述当前执行文件包括执行描述信息和数据处理语句;
基于所述执行描述信息,从所述当前数据集中确定待处理数据;
根据所述数据处理语句对所述待处理数据进行处理,得到目标数据;
发送所述目标数据;
其中,所述多个历史数据集在单个历史任务中被处理,且在历史任务集中存在有多个所述单个历史任务。
2.根据权利要求1所述的一种数据仓库数据处理方法,其特征在于,所述基于所述执行描述信息,从当前数据集中确定待处理数据包括:
从所述执行描述信息中获取当前数据集标识和待处理数据标识;
基于所述当前数据集标识从数据仓库中确定出所述当前数据集;
基于所述待处理数据标识从所述当前数据集中确定所述待处理数据。
3.根据权利要求1所述的一种数据仓库数据处理方法,其特征在于,在所述基于所述多个历史数据集和所述历史处理语句生成所述当前数据集之后,所述方法还包括:
基于所述历史处理语句生成所述当前数据集对应的所述数据处理语句;
将所述历史描述信息当作所述执行描述信息;
基于所述执行描述信息和所述数据处理语句生成所述当前执行文件;
根据所述当前执行文件确定关联所述任务标识的所述目标任务。
4.根据权利要求1所述的一种数据仓库数据处理方法,所述若所述历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从所述多个历史任务中的历史描述信息中确定历史数据集标识包括:
若所述历史任务集中存在多个历史任务,且所述多个历史任务中每个历史任务的历史描述信息中包含的历史数据集标识相同,获取所述每个历史任务的历史处理语句;
若所述每个历史任务的历史处理语句相同,从所述多个历史任务中的历史描述信息中确定历史数据集标识。
5.根据权利要求1所述的一种数据仓库数据处理方法,所述历史任务和所述任务标识相关联,且所述历史任务的优先级低于所述目标任务的优先级。
6.根据权利要求5所述的一种数据仓库数据处理方法,所述基于所述任务标识解析目标任务包括:
基于所述任务标识确定关联的所述目标任务和所述历史任务;
若预设时长内,所述目标任务被解析的次数小于等于预设阈值,基于所述任务标识解析所述目标任务。
7.一种数据仓库数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取历史任务集;所述历史任务集中每个历史任务包括历史执行文件;所述历史执行文件包括历史描述信息和历史处理语句;
标识确定模块,用于若所述历史任务集中存在多个历史任务中的历史描述信息和历史处理语句满足预设条件,从所述多个历史任务中的历史描述信息中确定历史数据集标识;
历史数据集确定模块,用于基于所述历史数据集标识确定出多个历史数据集;
当前数据集生成模块,用于基于所述多个历史数据集和所述历史处理语句生成当前数据集;
接收模块,用于接收任务请求;所述任务请求携带有任务标识;
解析模块,用于基于所述任务标识解析目标任务;所述目标任务包含当前执行文件;所述当前执行文件包括执行描述信息和数据处理语句;
确定模块,用于基于所述执行描述信息,从当前数据集中确定待处理数据;所述当前数据集基于多个历史数据集确定;
处理模块,用于根据所述数据处理语句对所述待处理数据进行处理,得到目标数据;
发送模块,用于发送所述目标数据。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-6任意一项所述的数据仓库数据处理方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现权利要求1-6任意一项所述的数据仓库数据处理方法。
CN202210184591.7A 2022-02-28 2022-02-28 一种数据仓库数据处理方法、装置、电子设备及存储介质 Active CN114238286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210184591.7A CN114238286B (zh) 2022-02-28 2022-02-28 一种数据仓库数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210184591.7A CN114238286B (zh) 2022-02-28 2022-02-28 一种数据仓库数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114238286A CN114238286A (zh) 2022-03-25
CN114238286B true CN114238286B (zh) 2022-08-05

Family

ID=80748225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210184591.7A Active CN114238286B (zh) 2022-02-28 2022-02-28 一种数据仓库数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114238286B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695432B (zh) * 2023-01-04 2023-04-07 河北华通科技股份有限公司 一种负载均衡方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038218A (zh) * 2017-03-17 2017-08-11 腾讯科技(深圳)有限公司 报表处理方法和***
CN107665233A (zh) * 2017-07-24 2018-02-06 上海壹账通金融科技有限公司 数据库数据处理方法、装置、计算机设备和存储介质
CN109388637A (zh) * 2018-09-21 2019-02-26 北京京东金融科技控股有限公司 数据仓库信息处理方法、装置、***、介质
CN111190932A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 一种隐私集群查询方法、装置及电子设备
CN111475534A (zh) * 2020-05-12 2020-07-31 北京爱笔科技有限公司 一种数据查询方法及相关设备
CN111831464A (zh) * 2019-04-22 2020-10-27 阿里巴巴集团控股有限公司 数据操作的控制方法及装置
CN112434195A (zh) * 2020-11-30 2021-03-02 天津狮拓信息技术有限公司 数据解析方法、装置、电子设备及计算机可读存储介质
CN112860727A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN112965982A (zh) * 2021-03-16 2021-06-15 中国平安财产保险股份有限公司 表格处理方法、装置、设备及存储介质
CN113420051A (zh) * 2021-06-30 2021-09-21 网易(杭州)网络有限公司 一种数据查询方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542428B (zh) * 2018-10-16 2024-06-11 北京神州数码云科信息技术有限公司 业务处理方法、装置、计算机设备和存储介质
GB201818997D0 (en) * 2018-11-22 2019-01-09 Palantir Technologies Inc Providing external access to a prcoessing platform
CN110119310A (zh) * 2019-04-12 2019-08-13 深圳壹账通智能科技有限公司 ***资源分配方法、装置、计算机可读存储介质及服务器
CN111563101B (zh) * 2020-07-11 2020-12-29 阿里云计算有限公司 执行计划优化方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038218A (zh) * 2017-03-17 2017-08-11 腾讯科技(深圳)有限公司 报表处理方法和***
CN107665233A (zh) * 2017-07-24 2018-02-06 上海壹账通金融科技有限公司 数据库数据处理方法、装置、计算机设备和存储介质
CN109388637A (zh) * 2018-09-21 2019-02-26 北京京东金融科技控股有限公司 数据仓库信息处理方法、装置、***、介质
CN111831464A (zh) * 2019-04-22 2020-10-27 阿里巴巴集团控股有限公司 数据操作的控制方法及装置
CN111190932A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 一种隐私集群查询方法、装置及电子设备
CN111475534A (zh) * 2020-05-12 2020-07-31 北京爱笔科技有限公司 一种数据查询方法及相关设备
CN112434195A (zh) * 2020-11-30 2021-03-02 天津狮拓信息技术有限公司 数据解析方法、装置、电子设备及计算机可读存储介质
CN112860727A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN112965982A (zh) * 2021-03-16 2021-06-15 中国平安财产保险股份有限公司 表格处理方法、装置、设备及存储介质
CN113420051A (zh) * 2021-06-30 2021-09-21 网易(杭州)网络有限公司 一种数据查询方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN114238286A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
CN114417408B (zh) 数据处理方法、装置、设备以及存储介质
CN112148693A (zh) 一种数据处理方法、装置及存储介质
CN114238286B (zh) 一种数据仓库数据处理方法、装置、电子设备及存储介质
CN110689268A (zh) 一种提取指标的方法和装置
CN112732663A (zh) 一种日志信息处理方法及装置
CN112528067A (zh) 图数据库的存储方法、读取方法、装置及设备
CN114461611A (zh) 一种数据比对方法、装置、电子设备及存储介质
CN114398520A (zh) 数据检索方法、***、装置、电子设备及存储介质
US20140214826A1 (en) Ranking method and system
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN112579422A (zh) 一种方案测试方法、装置、服务器及存储介质
CN115330540A (zh) 一种处理交易数据的方法和装置
CN110909072A (zh) 一种数据表建立方法、装置及设备
CN114896347A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114817003A (zh) 一种测试信息处理方法、装置、设备及存储介质
CN113961797A (zh) 资源推荐方法、装置、电子设备和可读存储介质
CN115794806A (zh) 金融数据的网格化处理***及方法、装置、计算设备
CN112579673A (zh) 一种多源数据处理方法及装置
CN113760484A (zh) 数据处理的方法和装置
CN111552674A (zh) 日志处理方法及设备
CN116909816B (zh) 数据库恢复方法和装置、存储介质及电子设备
CN114490095B (zh) 请求结果的确定方法和装置、存储介质及电子装置
CN116303811A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant