CN112131220B - 数据报表处理方法及装置 - Google Patents

数据报表处理方法及装置 Download PDF

Info

Publication number
CN112131220B
CN112131220B CN202010970178.4A CN202010970178A CN112131220B CN 112131220 B CN112131220 B CN 112131220B CN 202010970178 A CN202010970178 A CN 202010970178A CN 112131220 B CN112131220 B CN 112131220B
Authority
CN
China
Prior art keywords
report
data
simplified
dimension
appointed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010970178.4A
Other languages
English (en)
Other versions
CN112131220A (zh
Inventor
段效晨
秦占明
康林
赵艳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010970178.4A priority Critical patent/CN112131220B/zh
Publication of CN112131220A publication Critical patent/CN112131220A/zh
Application granted granted Critical
Publication of CN112131220B publication Critical patent/CN112131220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据报表处理方法及装置,方法包括:获取指定的数据报表,以及所述指定的数据报表中指定的N个维度字段;获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表。本申请用以解决大数据报表数据量、计算量大,无法实现实时查询与统计,且接口开发以及计算复杂的问题。

Description

数据报表处理方法及装置
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据报表处理方法及装置。
背景技术
当前,互联网已经成为人们生活中不可或缺的组成部分,随着用户量与使用频率的迅猛增长,业务、用户行为等数据的量级也在不断增长,从而为大数据统计带来了极大挑战。为了更好支撑业务发展,对于高性能大数据实时统计与分析的需求十分强烈。
维度可以认为是大数据报表的筛选项,如果报表的维度组合很多就会导致报表的数据量很大。例如,假设一个报表有上传入口(1000+个取值)、内容等级(6个取值)、用户来源类型(6个取值)、用户行业(30+个取值)、视频版权类型(8个取值)、视频类型(4个取值)等筛选项,那么维度的组合数就有3400万+(即1000×6×6×30×8×4),如果使用MySQL数据库对报表数据进行存储,单日的报表数据就有3400万条记录,如果存储一个月的报表数据,MySQL数据库是无法支持的,需要选用其他数据库存储。
目前,大数据报表主要存在以下问题:
第一,由于报表所涉及的数据量和计算量巨大,无法提供高性能实时数据查询与统计,只能以离线计算、分钟级查询等方式实现。
第二,一些基于预计算的大数据报表,需要开发人员通过基于多进程的并发计算模型(例如MR、Spark)等技术实现大数据计算任务。
发明内容
本申请提供了一种数据报表处理方法及装置,用以解决大数据报表数据量、计算量大,无法实现实时查询与统计,且接口开发以及计算复杂的问题。
第一方面,本申请提供了一种数据报表处理方法,包括:
获取指定的数据报表以及指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表。
可选地,所述获取所述指定的数据报表以及指定的N个维度字段之前,所述方法还包括:
获取通过网页配置界面输入的配置信息,其中,所述配置信息中包括所述指定的数据报表的标识、所述指定的N个维度字段、所述指定的指标字段和所述简化报表的结构。
可选地,所述分别对所述M个组合中的每一个进行以下处理,包括:
创建按照设定周期启动的定时任务,每次在所述定时任务的定时时间到达时,重复所述分别对所述M个组合中的每一个进行以下处理的过程,其中,所述过程中的所述指标字段数据为:当前周期对应的时间段内产生的数据。
可选地,所述存储所述简化报表之前,所述方法还包括:
在首次生成所述简化报表后,统计所述简化报表包含的数据条数,判断所述数据条数是否超过预设条数;
若是,确定所述简化报表存储的目的数据库为第一数据库,在所述第一数据库中创建所述简化报表以及所述简化报表的索引;
否则,确定所述简化报表存储的目的数据库为第二数据库,在所述第二数据库中创建所述简化报表以及所述简化报表的索引。
可选地,所述存储所述简化报表之后,所述方法还包括:
按照所述指定的N个维度字段生成筛选条件选择列表,并在网页界面显示;
通过所述网页界面显示的所述筛选条件选择列表,获取当前选中的维度字段,查询存储的所述简化报表,获得与所述当前选中的维度字段相匹配的简化报表。
第二方面,本申请提供了一种数据报表处理装置,包括:
第一获取模块,用于获取指定的数据报表以及指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
第二获取模块,用于获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
处理模块,用于分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表。
可选地,还包括第三获取模块,用于:
获取通过网页配置界面输入的配置信息,其中,所述配置信息中包括所述指定的数据报表的标识、所述指定的N个维度字段、所述指定的指标字段和所述简化报表的结构。
可选地,所述处理模块具体用于:
创建按照设定周期启动的定时任务,每次在所述定时任务的定时时间到达时,重复所述分别对所述M个组合中的每一个进行以下处理的过程,其中,所述过程中的所述指标字段数据为:当前周期对应的时间段内产生的数据。
可选地,所述处理模块还用于:
在所述存储所述简化报表之前,在首次生成所述简化报表后,统计所述简化报表包含的数据条数,判断所述数据条数是否超过预设条数;
若是,确定所述简化报表存储的目的数据库为第一数据库,在所述第一数据库中创建所述简化报表以及所述简化报表的索引;
否则,确定所述简化报表存储的目的数据库为第二数据库,在所述第二数据库中创建所述简化报表以及所述简化报表的索引。
可选地,所述处理模块还用于:
在所述存储所述简化报表之后,按照所述指定的N个维度字段生成筛选条件选择列表,并在网页界面显示;
通过所述网页界面显示的所述筛选条件选择列表,获取当前选中的维度字段,查询存储的所述简化报表,获得与所述当前选中的维度字段相匹配的简化报表。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的数据报表处理方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据报表处理方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过获取数据报表中N个维度字段各枚举值所有可能的M种组合方式,按照该M种组合方式从数据报表中提取用户指定的指标字段数据,并对提取到各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,生成简化报表,存储该简化报表。通过维度分解组合,生成每个组合各自对应的简化报表,采用存储的简化报表取代大数据报表,用于实时查询和统计,提高了查询效率和统计效率,并且由于维度分解后按照组合查询,相对于每个维度进行查询的接口开发难度以及计算难度降低,简化过程中不需要使用多进程的并发计算模型。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例中数据报表处理的方法流程示意图;
图2为本申请实施例中定制简化报表的过程示意图;
图3为本申请实施例中数据报表处理装置的结构示意图;
图4为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例中,为了解决大数据报表数据量、计算量大,无法实现实时查询与统计,且接口开发以及计算复杂的问题,提供了一种数据报表处理方法,该方法可以应用于大数据统计及分析的服务器等设备中。该方法的主要思想为:通过对大数据报表进行预计算,基于预计算的结果报表进行后续的实时查询和统计,相对于直接基于大数据报表的海量数据进行聚合和查询的方式,提高了查询的实时性与统计效率,并且降低了接口开发以及计算复杂度。
如图1所示,进行数据报表处理的具体过程主要包括:
步骤101,获取指定的数据报表以及指定的N个维度字段,其中该指定的数据报表共包含S个维度字段,N小于S,N和S分别为大于1的整数。
其中,指定的数据报表即为大数据报表,维度字段用于指示指标字段的各个获取维度,例如,数据流量这一指标字段可能会对应设备类型、时间段等数据流量来源相关的维度字段。
其中,一个维度字段可以包括至少一个枚举值,例如,设备类型这一维度字段可能会包括:手机、pad、电视、电脑、影院等枚举值,性别这个维度字段可能会包括男性、女性这两个枚举值。
步骤102,获取N个维度字段各枚举值所有可能的M种组合方式,得到M个组合。
其中,一个组合中可以包括一个维度字段中的一个枚举值或多个枚举值,一个组合中包括的枚举值可以来自于N个维度字段中的一部分,例如,在N等于5时,一个组合中可以包括3个枚举值,这3个枚举值来自于3个不同的维度字段,或者,来自于2个不同的维度字段。
步骤103,分别对该M个组合中的每一个进行以下处理:将该组合作为筛选条件,从指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为筛选条件的同一维度字段下、不同枚举值的指标字段数据进行合并处理,得到该组合对应的简化报表,并存储该简化报表,其中,一个组合对应得到一个简化报表。
一个具体实施例中,依次对该M个组合中的每一个进行以下处理,具体地,判断i是否小于M,若是,更新i=i+1,将第i个组合作为筛选条件,从指定的数据报表中,提取各指标字段数据,并进行合并处理,得到简化报表,返回重复执行判断步骤;若否,结束简化报表的处理过程。其中,i的初始值为零。
其中,合并处理是对未作为筛选条件、且属于同一维度字段的不同的枚举值的指标字段数据进行求和处理。
例如,假设设备类型这一维度字段包括电脑端、电视端和手机端三个枚举值,该三个枚举值均对应同一个指标字段为播放量,假设还有另一个维度字段为地区,该维度字段有华北地区、东北地区、西北地区等枚举值,其中一个组合中包括地区这一维度字段中的华北地区,则将华北地区作为筛选条件,从指定大数据报表中提取流量值这一指标字段的数据之后,将提取设备类型各枚举值对应的流量值进行累计后,得到华北地区对应的流量值,即得到简化报表。
即,对华北地区对应的电脑端、电视端和手机端的各流量值进行求和运算,将所得的和值作为简化报表中华北地区对应的流量值这一指标字段的合并数据。
一个具体实施例中,在获取指定的数据报表之前,获取通过网页(Web)配置界面输入的配置信息,其中,该配置信息中包括该指定的数据报表的标识、指定的N个维度字段、指定的指标字段和简化报表的结构。以便于能够根据该配置信息,获得数据报表简化处理所需的配置数据,通过提供网页配置界面,方便用户根据需求进行简化报表的定制,不需要针对每个报表需求定制前端界面和后端统计接口。
具体地,通过Web配置界面向用户提供报表基础信息的配置入口,获取用户通过该配置入口配置的包括但不限于以下配置信息:
信息一,指定的数据报表的中文名称、英文名称等信息,以获取该指定的数据报表。
信息二,配置的数据模型,该数据模型中包括表名、字段名、字段类型、字段中文名称、字段是否为维度字段、字段是否为指标字段等,如果配置的字段是维度字段,即为指定的维度字段,如果配置的字段是指标字段,即为指定的指标字段。
信息三,对于指标字段,还可以进一步配置求和(sum)、求平均(avg)等聚合方式,用于满足用户前端展现指标字段中数据的形式(如图表形式、表格形式等)。
信息四,配置用于简化报表计算的预计算任务,主要包括:指定数据源信息,如<Hive、MySQL>,指定的数据报表(如表名),预计算任务的运算语句(如SQL语句),定时任务时间。
其中,预计算任务中的运算语句,主要是从指定的数据报表中查询指定的维度字段所对应的指定的指标字段,并通过预计算,生成简化报表,即步骤102至步骤103所描述的计算过程,该运算语句运算结果的结构与最终的简化报表的表结构一致。
其中,在预计算任务中设置的定时任务时间,主要作用在于设置按照该定时任务时间,周期性启动该预计算任务。具体地,创建按照设定周期启动的定时任务,每次在该定时任务的定时时间到达时,重复执行步骤102至步骤103的过程,其中,该过程中提取的指标字段数据为:当前周期对应的时间段内产生的数据;
例如,调用Gear SDK创建定时任务,定时提交预计算任务。该预计算任务可以是基于Spark SQL实现,Spark SQL能够屏蔽不同数据源之间的差异,只需要将所用到的数据源中的数据表,即指定的数据表配置进来,通过编写SQL语句即可实现报表数据的预计算。
信息五,前端配置的运算语句(如SQL语句),用于配置生成简化报表后,为了用户查询该简化报表,配置前端界面中维度字段的筛选条件选择列表。
其中,在获取用户通过配置界面输入的配置信息,以及获取用户的提交指示后,将该配置信息保存至数据库中,例如保存至MySQL数据库中。
一个具体实施例中,在存储简化报表之前,在首次生成简化报表后,例如,对指定的数据报表单日生成的数据,试运行计算任务生成简化报表,统计该简化报表包含的数据条数,判断该数据条数是否超过预设条数;若是,确定简化报表存储的目的数据库为第一数据库,在第一数据库中创建该简化报表以及该简化报表的索引;否则,确定该简化报表存储的目的数据库为第二数据库,在第二数据库中创建简化报表以及该简化报表的索引。其中,第一数据库的数据容量大于第二数据库的存储容量,第一数据库对大数据的实时查询性能优于第二数据库对大数据的实时查询性能,且第二数据库对少量数据的实时查询性能优于第一数据库。
具体地,试运行计算任务,计算单日简化报表的数据量,若该数据量少于5000条,则保存至MySQL数据库中,若不少于5000条,则创建Druid datasource数据库,从而实现对多维报表的支持。需要说明的是,这里的5000条仅是举例说明,根据需要可以配置用于数据库选择的数据条数阈值。这里在简化报表的数据量较少时,使用MySQL数据库进行存储,能够利用MySQL数据库对少量数据查询性能优的特点,保证对简化报表的查询性能。而在数据量较多时,使用能够支持海量数据的Druid datasource数据库,以利用该Druiddatasource数据库数据容量大,对大数据的实时查询性能优的特点,从而保证对简化报表的查询性能。
一个具体实施例中,存储简化报表之后,按照指定的N个维度字段生成筛选条件选择列表,并在Web界面显示;通过该Web界面显示的筛选条件选择列表,获取当前选中的维度字段,查询存储的简化报表,获得与当前选中的维度字段相匹配的简化报表。从而满足不同的报表查询需求,不需要针对单个需求开发前端展现界面和后端统计接口。
一个具体实施例中,如图2所示,定制简化报表的具体过程如下:
步骤201,开始web报表定制;
步骤202,调用报表定制接口;
步骤203,通过报表定制接口获取配置信息并保存到MySQL数据库;
步骤204,解析配置信息中的数据模型配置后,分别执行步骤205和步骤207;
步骤205,创建用于临时存储简化报表的MySQL表;
步骤206,按照数据模型配置生成简化报表后,计算简化报表运行一日后在MySQL表中的数据条数,若少于5000条,则采用该MySQL数据库进行存储,若不少于5000条,将简化报表存储至Druid datasource数据库;
步骤207,解析数据计算配置;
步骤208,创建Gear定时任务;
步骤209,计算大数据平台任务提交接口,将定位任务提交给大数据平台,由大数据平台定时提交定制所需的大数据报表的数据内容,将获取的数据内容保存至MySQL或Druid datasource数据库;
步骤210,通过web查询MySQL或Druid datasource数据库中存储的简化报表。
本申请实施例提供的该方法,通过获取数据报表中N个维度字段各枚举值所有可能的M种组合方式,按照该M种组合方式从数据报表中提取用户指定的指标字段数据,并对提取到各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,生成每个组合各自对应的简化报表,采用存储的简化报表取代大数据报表,用于实时查询和统计,提高了查询效率和统计效率,并且由于维度分解后按照组合查询,相对于每个维度进行查询的接口开发难度以及计算难度降低,简化过程中不需要使用多进程的并发计算模型。
基于同一构思,本申请实施例中提供了一种数据报表处理装置,该装置的具体实施可参见方法实施例的描述,重复之处不在赘述。如图3所示,该装置主要包括:
第一获取模块301,用于获取指定的数据报表,以及所述指定的数据报表中指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
第二获取模块302,用于获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
处理模块303,用于分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表。
一个具体实施例中,该装置还包括第三获取模块304,用于:
获取通过网页配置界面输入的配置信息,其中,所述配置信息中包括所述指定的数据报表的标识、所述指定的N个维度字段、所述指定的指标字段和所述简化报表的结构。
一个具体实施例中,所述处理模块303具体用于:
创建按照设定周期启动的定时任务,每次在所述定时任务的定时时间到达时,重复所述分别对所述M个组合中的每一个进行以下处理的过程,其中,所述过程中的所述指标字段数据为:当前周期对应的时间段内产生的数据。
一个具体实施例中,所述处理模块303还用于:
在所述存储所述简化报表之前,在首次生成所述简化报表后,统计所述简化报表包含的数据条数,判断所述数据条数是否超过预设条数;
若是,确定所述简化报表存储的目的数据库为第一数据库,在所述第一数据库中创建所述简化报表以及所述简化报表的索引;
否则,确定所述简化报表存储的目的数据库为第二数据库,所述第一数据库的存储,在所述第二数据库中创建所述简化报表以及所述简化报表的索引。
一个具体实施例中,所述处理模块303还用于:
在所述存储所述简化报表之后,按照所述指定的N个维度字段生成筛选条件选择列表,并在Web界面显示;
在所述存储所述简化报表之后,按照所述指定的N个维度字段生成筛选条件选择列表,并在网页界面显示;
通过所述网页界面显示的所述筛选条件选择列表,获取当前选中的维度字段,查询存储的所述简化报表,获得与所述当前选中的维度字段相匹配的简化报表。
本申请实施例提供的该装置,第二获取模块302通过获取数据报表中N个维度字段所有可能的M种组合方式,处理模块303从数据报表中提取用户指定的指标字段数据,并对提取到各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,生成该组合对应的简化报表,存储该简化报表。通过维度分解组合,生成简化报表,采用存储的简化报表取代大数据报表,用于实时查询和统计,提高了查询效率和统计效率,并且由于维度分解后按照组合查询,相对于每个维度进行查询的接口开发难度以及计算难度降低,简化过程中不需要使用多进程的并发计算模型。
基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信。其中,存储器403中存储有可被至处理器401执行的程序,处理器401执行存储器403中存储的程序,实现如下步骤:获取指定的数据报表以及指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表。
上述电子设备中提到的通信总线404可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器403可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的数据报表处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种数据报表处理方法,其特征在于,包括:
获取指定的数据报表以及指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表;
其中,所述获取所述指定的数据报表以及指定的N个维度字段之前,所述方法还包括:获取通过网页配置界面输入的配置信息,其中,所述配置信息中包括所述指定的数据报表的标识、所述指定的N个维度字段、所述指定的指标字段和所述简化报表的结构,所述指标字段配置有聚合方式,以用于指示前端展示所述指标字段中的数据的形式,所述形式包括图表形式或表格形式;
其中,所述分别对所述M个组合中的每一个进行以下处理,包括:创建按照设定周期启动的定时任务,每次在所述定时任务的定时时间到达时,重复所述分别对所述M个组合中的每一个进行以下处理的过程,其中,所述过程中的所述指标字段数据为:当前周期对应的时间段内产生的数据。
2.根据权利要求1所述的数据报表处理方法,其特征在于,所述存储所述简化报表之前,所述方法还包括:
在首次生成所述简化报表后,统计所述简化报表包含的数据条数,判断所述数据条数是否超过预设条数;
若是,确定所述简化报表存储的目的数据库为第一数据库,在所述第一数据库中创建所述简化报表以及所述简化报表的索引;
否则,确定所述简化报表存储的目的数据库为第二数据库,在所述第二数据库中创建所述简化报表以及所述简化报表的索引。
3.根据权利要求1所述的数据报表处理方法,其特征在于,所述存储所述简化报表之后,所述方法还包括:
按照所述指定的N个维度字段生成筛选条件选择列表,并在网页界面显示;
通过所述网页界面显示的所述筛选条件选择列表,获取当前选中的维度字段,查询存储的所述简化报表,获得与所述当前选中的维度字段相匹配的简化报表。
4.一种数据报表处理装置,其特征在于,包括:
第一获取模块,用于获取指定的数据报表以及指定的N个维度字段,其中所述指定的数据报表共包含S个维度字段,所述N小于所述S,所述N和所述S分别为大于1的整数;
第二获取模块,用于获取所述N个维度字段各枚举值所有可能的M种组合方式,得到M个组合;
处理模块,用于分别对所述M个组合中的每一个进行以下处理:将所述组合作为筛选条件,从所述指定的数据报表中,提取各指定的指标字段数据,对提取到的各指标字段数据中,未作为所述筛选条件的同一所述维度字段下、不同枚举值的指标字段数据进行合并处理,得到所述组合对应的简化报表,并存储所述简化报表,其中,一个所述组合对应得到一个所述简化报表;
第三获取模块,用于获取通过网页配置界面输入的配置信息,其中,所述配置信息中包括所述指定的数据报表的标识、所述指定的N个维度字段、所述指定的指标字段和所述简化报表的结构,所述指标字段配置有聚合方式,以用于指示前端展示所述指标字段中的数据的形式,所述形式包括图表形式或表格形式;
其中,所述处理模块具体用于:创建按照设定周期启动的定时任务,每次在所述定时任务的定时时间到达时,重复所述分别对所述M个组合中的每一个进行以下处理的过程,其中,所述过程中的所述指标字段数据为:当前周期对应的时间段内产生的数据。
5.根据权利要求4所述的数据报表处理装置,其特征在于,所述处理模块还用于:
在所述存储所述简化报表之前,在首次生成所述简化报表后,统计所述简化报表包含的数据条数,判断所述数据条数是否超过预设条数;
若是,确定所述简化报表存储的目的数据库为第一数据库,在所述第一数据库中创建所述简化报表以及所述简化报表的索引;
否则,确定所述简化报表存储的目的数据库为第二数据库,在所述第二数据库中创建所述简化报表以及所述简化报表的索引。
6.根据权利要求4所述的数据报表处理装置,其特征在于,所述处理模块还用于:
在所述存储所述简化报表之后,按照所述指定的N个维度字段生成筛选条件选择列表,并在网页界面显示;
通过所述网页界面显示的所述筛选条件选择列表,获取当前选中的维度字段,查询存储的所述简化报表,获得与所述当前选中的维度字段相匹配的简化报表。
CN202010970178.4A 2020-09-15 2020-09-15 数据报表处理方法及装置 Active CN112131220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010970178.4A CN112131220B (zh) 2020-09-15 2020-09-15 数据报表处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010970178.4A CN112131220B (zh) 2020-09-15 2020-09-15 数据报表处理方法及装置

Publications (2)

Publication Number Publication Date
CN112131220A CN112131220A (zh) 2020-12-25
CN112131220B true CN112131220B (zh) 2024-03-15

Family

ID=73846748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010970178.4A Active CN112131220B (zh) 2020-09-15 2020-09-15 数据报表处理方法及装置

Country Status (1)

Country Link
CN (1) CN112131220B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379551A (zh) * 2021-07-02 2021-09-10 华青融天(北京)软件股份有限公司 交易数据分析方法、装置及电子设备
CN113642300A (zh) * 2021-07-30 2021-11-12 南京星云数字技术有限公司 一种报表生成方法、装置、电子设备及计算机可读介质
CN113986931B (zh) * 2021-12-27 2022-10-11 畅捷通信息技术股份有限公司 报表分页的方法、装置、存储介质及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197091A (zh) * 2016-12-08 2018-06-22 腾讯科技(深圳)有限公司 一种创建数据表的方法、***及相关设备
CN108572963A (zh) * 2017-03-09 2018-09-25 北京京东尚科信息技术有限公司 信息获取方法和装置
CN109558578A (zh) * 2018-11-26 2019-04-02 成都四方伟业软件股份有限公司 报表转换方法及装置
CN109657214A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 报表生成方法、装置、终端及存储介质
CN109977547A (zh) * 2019-03-27 2019-07-05 北京金和网络股份有限公司 基于动态建模的大数据简报生成方法
CN111159183A (zh) * 2019-12-20 2020-05-15 中国平安人寿保险股份有限公司 报表生成方法、电子装置及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814052B2 (en) * 2006-11-03 2010-10-12 Salesforce.Com, Inc. Implementing formulas for custom fields in an on-demand database
US20100169135A1 (en) * 2008-12-31 2010-07-01 Verizon Patent And Licensing Inc. System and method for asset billing reconciliation management
US8819041B2 (en) * 2009-12-22 2014-08-26 Business Objects Software Limited Analyzing data within a data report
US8745099B2 (en) * 2011-11-11 2014-06-03 Håkan Wolgé Dimension limits in information mining and analysis
CN103020158B (zh) * 2012-11-26 2016-09-07 中兴通讯股份有限公司 一种报表创建方法、装置和***
US10997213B2 (en) * 2018-08-09 2021-05-04 Sap Se Database queries using dynamically calculated dimensions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197091A (zh) * 2016-12-08 2018-06-22 腾讯科技(深圳)有限公司 一种创建数据表的方法、***及相关设备
CN108572963A (zh) * 2017-03-09 2018-09-25 北京京东尚科信息技术有限公司 信息获取方法和装置
CN109657214A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 报表生成方法、装置、终端及存储介质
CN109558578A (zh) * 2018-11-26 2019-04-02 成都四方伟业软件股份有限公司 报表转换方法及装置
CN109977547A (zh) * 2019-03-27 2019-07-05 北京金和网络股份有限公司 基于动态建模的大数据简报生成方法
CN111159183A (zh) * 2019-12-20 2020-05-15 中国平安人寿保险股份有限公司 报表生成方法、电子装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SQL的OLAP多维数据分析;徐义峰,徐云青,诸葛理绣;微机发展(07);全文 *

Also Published As

Publication number Publication date
CN112131220A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112131220B (zh) 数据报表处理方法及装置
CN109918594B (zh) 一种信息显示方法及装置
CN111125344B (zh) 相关词推荐方法和装置
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
CN113986933A (zh) 物化视图的创建方法、装置、存储介质及电子设备
CN113268500B (zh) 业务处理方法、装置及电子设备
CN111241123A (zh) 视图数据查询方法、装置、服务器及存储介质
CN112434115B (zh) 一种数据处理方法、装置、电子设备及可读存储介质
CN111476013A (zh) 信息收集方法、装置、介质及电子设备
CN112162905A (zh) 一种日志处理方法、装置、电子设备及存储介质
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN111143398B (zh) 基于扩展sql函数的超大集合查询方法及装置
CN115544081A (zh) 数据查询方法、装置、电子设备及存储介质
CN111125264B (zh) 基于扩展olap模型的超大集合分析方法及装置
CN114416772A (zh) 一种数据查询方法、装置、电子设备以及存储介质
CN114443634A (zh) 数据质量检核方法、装置、设备及存储介质
CN112035581A (zh) 基于模型的任务处理方法、装置、设备和介质
CN112685388B (zh) 数据模型表构建方法、装置、电子设备和计算机可读介质
CN111078727A (zh) 一种简要描述生成方法、装置及计算机可读存储介质
CN111737571A (zh) 搜索方法、装置和电子设备
CN110852077A (zh) 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN114817299B (zh) 一种基于udaf的数据分析方法及装置
CN113760834B (zh) 文件分类方法、装置、设备及介质
CN111079391B (zh) 一种报表的生成方法及装置
CN115878642A (zh) 一种基于数据湖的批流一体的数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant