CN109241048A - 用于数据统计的数据处理方法、服务器及存储介质 - Google Patents
用于数据统计的数据处理方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN109241048A CN109241048A CN201810711225.6A CN201810711225A CN109241048A CN 109241048 A CN109241048 A CN 109241048A CN 201810711225 A CN201810711225 A CN 201810711225A CN 109241048 A CN109241048 A CN 109241048A
- Authority
- CN
- China
- Prior art keywords
- index
- code
- data
- dimension
- dimension code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了提供一种数据统计的数据处理方法、服务器及存储介质。所述方法包括:从事件日志中提取用户行为属性,根据所述用户行为属性定义对应的维度属性;根据所述维度属性,设置维度代码,并形成维度属性表;预设指标分类,设置指标分类代码,形成指标分类表;将维度代码和指标分类代码进行组合,形成指标维度关系,根据所述指标维度关系形成指标维度关系表,根据所述指标维度关系表形成指标维度结果表,并生成数据进行存储。本发明通过用户对对指标分类和维度属性设置代码,并按一定规则进行组合形成指标维度关系,降低了直接对指标分类和维度属性的关系定义的难度,同时,将维度结果表生成数据存储,避免多次重复计算。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种用于数据统计的数据处理方法、服务器及存储介质。
背景技术
随着移动网络的发展,传统的性能统计对象,已经不能满足企业用户进行精细化运营的要求,应运而生的用户行为分析成为企业用户的关注目标和提高赢利能力的基础。用户行为分析可以通过对用户的事件日志和媒体报文内容进行统计,这些事件日志和媒体报文所包含的内容远远超过传统的性能统计对象,在事件日志和媒体报文的基础上进行统计和分析,能够对***性能、用户行为等一系列指标进行深层分析,获得更有价值的信息。
在用户行为的分析应用中,企业用户需要能够从多个维度或组合维度、多指标对用户行为进行分析。
现有技术中以维度属性与指标分类直接进行组合,形成指标维度关系,维度中形成的说明数据与指标分类中形成的分类数据是较为庞大的,需要用时才提取出来进行计算,不仅拖慢了统计速度,而且导致分析效率低。
发明内容
本发明的目的是针对上述现有技术存在的缺陷,提供一种用于数据统计的数据处理方法、服务器及存储介质。
本发明采用的技术方案是,首先提供一种用于数据统计的数据处理方法,所述方法包括:
从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表;
根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表;
按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表;
顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表;
提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表;
根据所述指标维度关系表形成指标维度结果表,并生成对应数据进行存储。
优选的,从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表包括:
从事件日志中提取用户某一时间段内的行为属性,根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级;
根据用户行为属性的优先级,将用户行为属性定义为对应优先级的维度属性;
将所述维度属性优先级形成维度属性表,并生成对应所述维度属性表的说明数据;
将所述维度属性表的说明数据存储到数据仓库。
从事件日志中提取用户某一时间段内的行为属性,可以使所述用户行为属性定义的维度属性更加精确,通过对所述用户的行为属性配置优先级,使所述维度属性也被配置优先级。
优选的,所述根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表还包括:
根据所述维度代码表生成对应所述维度代码表的维度代码数据;
将所述维度代码数据存储到数据集市;
建立所述维度代码数据与所述维度属性表的说明数据间的映射路径。所述维度代码是根据所述维度属性的优先级进行设置,所以所述维度代码也被配置了优先级,使得形成相应优先级的维度属性表更加有序。
优选的,所述维度属性表中包括粒度子表,所述粒度子表根据粒度的优先级进行设置。所述粒度子表用于说明所述指标在所述维度下的分布情况。
优选的,所述按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表还包括:
根据所述指标分类表生成对应所述指标分类表的指标分类数据;
将所述指标分类数据存储到数据仓库;
根据所述指标分类代码表生成对应所述指标分类代码表的指标分类代码数据;
将所述指标分类代码数据存储到数据集市;
建立所述指标分类代码数据与所述指标分类数据间的映射路径。设置指标分类代码,便于与所述维度代码进行组合配对,构建指标分类代码索引目录,便于对所述分类代码进行索引提取。
优选的,所述按优先级预设指标分类,形成指标分类表包括:
根据指标数据类型在数据仓库中被提取的热度设置优先级,并按优先级顺序对指标分类设置相应的代码。通过热度设置优先级,符合用户的使用习惯。
优选的,所述顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表包括:
对所述维度代码和指标分类代码进行按优先级顺序进行遍历组合,形成指标维度代码组合;
根据所述指标维度代码组合,形成指标维度代码表,并生成指标维度代码数据,存储在数据集市中。所述维度代码和所述指标分类代码进行遍历组合,不会对所述维度代码和所述指标分类代码产生遗漏。
优选的,所述提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表包括:
所述指标维度代码组合包括:由指标分类代码组成的指标代码位及由维度代码组成的维度代码位,所述维度代码按优先级进行顺序设置,所述指标分类代码按优先级进行顺序设置;
根据所述指标维度代码组合中维度代码位的维度代码,映射到所述相关联的所述维度属性表中获取对应的维度属性;
根据所述指标维度代码组合中指标代码位的指标分类代码,映射到所述相关联的所述指标分类表中获取对应的指标分类;
将所述维度属性与所述指标分类进行组合,形成指标维度关系;
根据所述指标维度关系,形成指标维度关系表,并生成指标维度关系数据存储在数据仓库中。
将所述维度代码按优先级进行顺序设置,所述指标分类代码按优先级进行顺序设置,可以使所述维度代码和所述指标分类代码更加方便进行遍历组合,也可以使形成的所述指标维度代码存在有序性。
其次,还提供一种服务器,所述服务器包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的用于数据统计的数据处理方法。
最后还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的用于数据统计的数据处理方法。
与现有技术相比,本发明至少具有以下有益效果:本发明通过用户对对指标分类和维度属性设置代码,并按一定规则进行组合形成指标维度关系并进行预设,降低了直接对指标分类和维度属性的关系定义的难度,提高了指标维度关系定义的效率,降低了存储压力,同时,将得到的指标维度结果表生成数据进行存储,避免了多次重复计算。
附图说明
图1为本发明实施例的实施环境示意图;
图2为本发明实施例的方法流程图;
图3为本发明实施例的定义维度属性方法流程图;
图4为本发明实施例的维度代码表形成示意图;
图5为本发明实施例的指标分类表形成示意图;
图6为本发明实施例的维度关系形成示意图;
图7为本发明实施例的遍历组合方法示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图1所示,本发明首先提供一种用于数据统计的数据处理方法,为更好的说明本发明的发明意图,设计一种适于所述指标维度关系定义方法的实施环境,所述实施环境包括:终端,所述终端可以是智能手机、智能机器人、平板及电脑等智能设备,但需要说明的是,所述终端并不限制于以上的智能手机、智能机器人、平板及电脑等智能设备。除了终端外,所述实施环境还包括提供数据基础的数据仓库1b,基于所述数据仓库1b中的数据形成的数据集市2b,用于请求数据和计算数据的应用层3b及用于展示数据的展示层4b。
为进一步的示意本发明实施例的发明意图,所述实施环境可以具体为企业报表展示,部门人员向上级展示报表时,可以通过所述终端(比如手机)上进行展示。所述终端可以通过企业设置的数据仓库1b提取相关数据,根据维度及指标的数据构建表格,并在终端上将所述表格进行展示。
做为一种可能实施的环境,所述终端还可以通过云数据库5b提取相关数据做为数据源,根据提取的数据源构建企业数据仓库1b,再根据所述数据仓库1b中的数据构建数据集市2b。
如图2所示,所述用于数据统计的数据处理方法包括步骤:
S11、从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表;进一步的,对提取出的所述用户行为属性进行分析,为使分析出的结果更符合用户的行为习惯,可以对所述用户行为属性中的制表或者向所述数据仓库申请的表进行分析,确定所述用户行为中的制表或申请的表中某个维度次数的占比,从而得出对应的维度属性。
在一些可能的实施例中,用户会周期性地产生同一类事件的日志,比如用户在每周一会制做各种报表,或者是向所述数据仓库申请特定的报表,这样就会产生事件日志,用户的行为属性为制做或申请报表,而这些报表中的维度属性可以被提取出来,并根据报表制做或申请的时间进行一个优先级的配置。
S12、根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表;进一步的,所述维度代码在数据仓库层面可以为二进制代码,便于所述维度代码数据的存储和读取。需要说明的是,所述维度代码代表着所述维度的属性,不同的维度属性,拥有不同的维度代码,也就是说一个维度代码代表着一个维度的属性。
在一些可能的实施例中,所述维度代码在展示层面上可以是十进制代码,大多数做企业报表的人员并非编程人员,而十进制代码符合用户对于代码编制的习惯,使所述维度代码的定义更加直观。
更进一步的,所述维度代码在所述数据仓库中被写入维度表中,所述维度表中存储有对指标的说明数据。
在一些可能的实施例中,为了使所述维度表索引读取的速度更快,所述维度代码可以单独设置为维度代码表,并通过一映射关系与所述维度表映射,从而对所述维度表中的说明数据进行编码,使所述维度表中的说明数据也有代码进行外部区别。
S13、按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表;进一步的,所述指标分类在所述数据仓库中是通过指标数据类型进行分类,所述指标分类代码在数据仓库层面为二进制代码,便于所述指标分类代码数据的存储和读取,需要说明的是,所述指标中包括度量信息,所述度量信息可分为绝对度量及相对度量,所述度量信息可以分为绝对数度量和相对数度量,所述绝对数度量反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数度量主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。也可以说,指标分为绝对数指标和相对数指标,所述绝对数指标为聚合数据,比如人口数、GDP、收入、用户数在时间、地点、范围的聚合数据,所述相对数指标为在绝对数指标的聚合数据基础上的再加工聚合得到,比如利润率、留存率、覆盖率等,在一个利润率公式:利润率=利润÷成本×100%中,利润为一个绝对数指标,成本也为一个绝对数指标,利润率数据为利润数据与成本数据的聚合。
在一些可能的实施例中,所述指标分类代码在展示层面上可以是十进制代码,大多数做企业报表的人员并非编程人员,而十进制代码符合用户对于代码编制的习惯,使所述指标分类代码的定义更加直观。
更进一步的,所述指标分类代码在所述数据仓库中被写入指标事实表中,所述指标事实表中存储有对指标的事实数据。
在一些可能的实施例中,为了使所述指标分类表索引读取的速度更快,所述指标分类代码可以单独设置为指标分类代码表,并通过一映射关系与所述指标事实表映射,从而对所述指标事实表中的说明数据进行编码,使所述指标事实表中的事实数据也有代码进行外部区别。
S14、顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表。
进一步的,通过所述维度代码与所述指标分类代码的优先级进行顺序关联,可以得到具有相应优先级的指标维度代码,比如说,优先级为1的维度代码与优先级为1的指标分类代码,可以组合得到优先级为1的指标维度代码,通过指标维度代码的优先级,可以关联得到指标维度关系的优先级。
S15、提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表。
进一步的,所述将维度代码和指标分类代码进行组合,首先形成一个指标维度代码表,所述指标维度代码表中存储指标维度代码,所述指标维度代码由所述维度代码与所述指标分类代码组合而成;其次,通过所述维度代码和所述指标分类代码的组合,相应的维度和指标也得到组合,可形成指标维度关系;再次,将所述指标维度关系与所述指标维度代码表进行关联,使每一个指标维度关系对应一个指标维度代码表中的指标维度代码,将所述指标维度关系数据化,从而便于存储所述指标维度关系;最后,根据所述指标维度关系形成指标维度关系表,并将所述指标维度关系存储在所述指标维度关系表中,为所述指标维度关系表配置索引目录。
在一些可能的实施例中,所述索引目录可以是单独配置于所述指标维度关系表中,也可以是以所述指标维度代码表做为所述指标维度关系表的索引目录,在以所述指标维度代码表做为所述指标维度关系表的索引目录时,所述指标维度代码表与所述指标维度关系表进行关联,通过索引所述指标维度代码表,就可以找到所述指标维度关系表中的指标维度关系,以所述指标维度代码表替代指标维度关系表,可省去制成指标维度关系表时产生的大量说明数据,降低了指标维度关系的存储量。
S16、根据所述指标维度关系表形成指标维度结果表,并生成对应数据进行存储。
需要说明的是,根据所述指标维度结果表生成的数据为所述指标维度结果表预设数据,在需要所述指标维度结果表时,可以直接对所述指标维度结果表进行申请提取。
为了提高所述指标维度结果表的提取速度,所述生成的数据可以存储在数据集市中,所述指标维度结果表通过所述指标维度关系表与所述指标维度代码表关联。
如图3所示,在本发明实施例中,所述从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表包括步骤:
S21、从事件日志中提取用户某一时间段内的行为属性,根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级;
所述从事件日志中提取用户某一时间段内的行为属性的步骤具体为:设置从事件日志中提取行为属性的提取时间区间,所述时间区间应该是当时往前延续的一段时间,比如一个月内,当然,所述时间区间可以由用户在终端上进行选择设置。
在一些可能的实施例中,为了使提取的范围更小,降低分析的工作量,可以从事件日志中指定提取某一时间点的用户行为属性,比如,提取周一的用户行为属性进行分析。
在另一些可能的实施例中,为了使提取的范围更小,降低分析工作量的同时,还要保证分析工作的精准度,可以将某个时间点放置在某个时间段中,从事件日志中指定提取多个某一时间点的用户行为属性,比如,提取上个季度每个周一的用户行为属性进行分析。
所述根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级的步骤具体包括:所述用户的行为属性发生的次数越多,为其配置的优先级就越高,比如,在某个月内用户的行为属性中,制做或申请时间表的次数为六次,制做或申请地区表的次数为五次,那么为用户制做或申请时间表的行为配置一个高于制做或申请地区表的优先级。
当然,并不排除所述用户的行为属性发生的次数越多,为其配置的优先级就越低的情况,做为一种实施例,这两种配置优先级的方式可以通过设置正序和倒序来进行选择。
S22、根据用户行为属性的优先级,将用户行为属性定义为对应优先级的维度属性。具体的,对提取出的所述用户行为属性进行分析,为使分析出的结果更符合用户的行为习惯,可以对所述用户行为属性中的制表或者向所述数据仓库申请的表进行分析,确定所述用户行为中的制表或申请的表中某个维度次数的占比,从而得出对应的维度属性;另外,所述从事件日志中提取用户某一时间段内的行为属性的步骤具体为:设置从事件日志中提取行为属性的提取时间区间,所述时间区间应该是当时往前延续的一段时间,比如一个月内,当然,所述时间区间可以由用户在终端上进行选择设置;所述根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级的步骤具体包括:所述用户的行为属性发生的次数越多,为其配置的优先级就越高,比如,在某个月内用户的行为属性中,制做或申请时间表的次数为六次,制做或申请地区表的次数为五次,那么为用户制做或申请时间表的行为配置一个高于制做或申请地区表的优先级;通过得到的所述维度属性与用户行为属性相关联,使所述用户行为属性的优先级可以对所述维度属性的优先级进行定义。
从事件日志中提取用户某一时间段内的行为属性,可以使所述用户行为属性定义的维度属性更加精确,通过对所述用户的行为属性配置优先级,使所述维度属性也被配置优先级。
S23、将所述维度属性优先级形成维度属性表,并生成对应所述维度属性表的说明数据。需要说明的是,所述维度属性表的说明数据,用于在数据仓库中对所述维度属性表进行说明,方便对所述维度属性表的存储。
S24、将所述维度属性表的说明数据存储到数据仓库。数据仓库的存储容量优于数据集市的存储容量,所述维度属性表的说明数据字符较多,将所述维度属性表的说明数据存储到数据仓库中,使存储空间得到优化。
如图4所示,在本发明实施例中,所述根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表还包括步骤:
S31、根据所述维度代码表生成对应所述维度代码表的维度代码数据。所述维度代码是根据所述维度属性的优先级进行设置,所以所述维度代码也被配置了优先级,使得形成相应优先级的维度属性表更加有序。
进一步的,所述维度属性与所述维度代码相关联,所述维度属性的优先级可以对所述维度代码的优先级进行定义,更进一步的,所述维度代码在数据仓库层面可以为二进制代码,便于所述维度代码数据的存储和读取。需要说明的是,所述维度代码代表着所述维度的属性,不同的维度属性,拥有不同的维度代码。
在一些可能的实施例中,所述维度代码在展示层面上可以是十进制代码,大多数做企业报表的人员并非编程人员,而十进制代码符合用户对于代码编制的习惯,使所述维度代码的定义更加直观。
比如,以十进制为例,所述维度代码可以是按优先级顺序可以是最高优先级为1、第二优先级为2等排序;又以二进制为例,所述维度代码可以是按优先级顺序进行排序,比如可以是最高优先级为01、第二优先级为10、第三优先级为11等排序。
S32、将所述维度代码数据存储到数据集市。数据集市是基于数据仓库设置的数据中转层,在数据集市的针对性较高,在提取数据时具有查找快、提取快的优点。
S33、建立所述维度代码数据与所述维度属性表的说明数据间的映射路径。具体的,所述维度代码数据存储于数据集市,所述维度属性表的说明数据存储于数据仓库,在数据集市中设置一索引目录,所述索引目录链接于数据仓库,将数据集市中的所述维度代码数据配置于索引目录中,并添加相应于数据仓库中的所述维度属性的说明的链接。
在本发明实施例中,所述维度属性表中包括粒度子表,所述粒度子表根据粒度的优先级进行设置。所述粒度子表用于说明所述指标在所述维度下的分布情况。需要说明的是,粒度是维度下的一个数据计算单位,数据的粒度主要针对指标数据的计算范围,以地点维度为例,如人口这个数据项在统计部门是以街区范围还是一个社区为范围统计的。人口数据细化程度越高,粒度级就越小,比如以社区为粒度对人口数据进行统计的范围就大于以居民楼为粒度对人口数据进行统计的范围;相反,细化程度越低,粒度级就越大。
具体的,对提取出的所述用户行为属性进行分析,为使分析出的结果更符合用户的行为习惯,可以对所述用户行为属性中的制表或者向所述数据仓库申请的表进行分析,确定所述用户行为中的制表或申请的表中某个粒度次数的占比,从而得出对应的粒度属性;另外,所述从事件日志中提取用户某一时间段内的行为属性的步骤具体为:设置从事件日志中提取行为属性的提取时间区间,所述时间区间应该是当时往前延续的一段时间,比如一个月内,当然,所述时间区间可以由用户在终端上进行选择设置;所述根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级的步骤具体包括:所述用户的行为属性发生的次数越多,为其配置的优先级就越高,比如,在某个月内用户的行为属性中,制做或申请时间表的次数为六次,制做或申请地区表的次数为五次,那么为用户制做或申请时间表的行为配置一个高于制做或申请地区表的优先级;通过得到的所述粒度属性与用户行为属性相关联,使所述用户行为属性的优先级可以对所述粒度属性的优先级进行定义。
如图5所示,在本发明实施例中,所述按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表还包括步骤:
S41、根据所述指标分类表生成对应所述指标分类表的指标分类数据;需要说明的是,所述指标分类数据用于在数据仓库中对所述指标分类表进行说明,方便对所述指标分类表进行分类存储。
还需要说明的是,所述指标分类表是在数据仓库中的原始指标分类数据中提取出来各个指标分类组合而成,其具有较强的针对性。
做为一种可能的实施例,在所述指标分类数据存储时,为降低数据仓库的存储压力,可以不用生成指标分类表,而是在原始指标分类数据中进行标引,使原始指标分类数据中的相应指标分类得到对应的指标分类代码的同时,使用原始指标分类数据对指标分类进行说明。
S42、将所述指标分类数据存储到数据仓库。需要说明的是设置指标分类代码,便于与所述维度代码进行组合配对,构建指标分类代码索引目录,便于对所述分类代码进行索引提取。数据仓库的存储容量优于数据集市的存储容量,所述指标分类数据字符较多,将所述维度属性表的说明数据存储到数据仓库中,使存储空间得到优化。
进一步的,对所述指标按优先级进行分类,所述指标分类与所述指标分类代码相关联,所述指标分类的优先级可以对所述指标分类代码的优先级进行定义,更进一步的,所述指标分类代码在数据仓库层面可以为二进制代码,便于所述指标分类代码数据的存储和读取。需要说明的是,所述指标分类代码代表着所述指标的数据类型,不同的指标分类,拥有不同的指标分类代码。
在一些可能的实施例中,所述指标分类代码在展示层面上可以是十进制代码,大多数做企业报表的人员并非编程人员,而十进制代码符合用户对于代码编制的习惯,使所述指标分类代码的定义更加直观。
比如,以十进制为例,所述指标分类代码可以是按优先级顺序可以是最高优先级为1、第二优先级为2等排序;又以二进制为例,所述指标分类代码可以是按优先级顺序可以是最高优先级为01、第二优先级为10、第三优先级为11等排序。
S43、根据所述指标分类代码表生成对应所述指标分类代码表的指标分类代码数据。需要说明的是所述指标分类代码数据用于在数据仓库中对所述指标分类代码表进行说明。
S44、将所述指标分类代码数据存储到数据集市。数据集市是基于数据仓库设置的数据中转层,在数据集市的针对性较高,在提取数据时具有查找快、提取快的优点。
S45、建立所述指标分类代码数据与所述指标分类数据间的映射路径。
具体的,所述指标分类代码数据存储于数据集市,所述指标分类表的说明数据存储于数据仓库,在数据集市中设置一索引目录,所述索引目录链接于数据仓库,将数据集市中的所述指标分类代码数据配置于索引目录中,并添加相应于数据仓库中的所述指标分类的说明的链接。
在本发明实施例中,所述按优先级预设指标分类,形成指标分类表包括步骤:
根据指标数据类型在数据仓库中被提取的热度设置优先级,并按优先级顺序对指标分类设置相应的代码。通过热度设置优先级,符合用户的使用习惯。
具体的,根据所述数据仓库中的所述指标数据类型被提取的热度为所述指标配置优先级,并将所述指标的优先级配置到所述指标分类代码上,使所述指标分类代码也具有优先级区分。
在一些可能实施例中,为了使数据提取的速度更快,可以设置数据集市做为数据的中转站,可以所述数据集市中对所述数据类型被提取的热度进行分析,并配置相应的优先级,同样也可以将所述指标的优先级配置到所述指标分类代码上。
如图6所示,在本发明实施例中,所述顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表包括步骤:
S51、对所述维度代码和指标分类代码进行按优先级顺序进行遍历组合,形成指标维度代码组合;所述维度代码和所述指标分类代码进行遍历组合,不会对所述维度代码和所述指标分类代码产生遗漏。
S52、根据所述指标维度代码组合,形成指标维度代码表,并生成指标维度代码数据,存储在数据集市中。
进一步的,所述将维度代码和指标分类代码进行遍历组合,首先形成一个指标维度代码表,所述指标维度代码表中存储指标维度代码,所述指标维度代码由所述维度代码与所述指标分类代码组合而成;其次,通过所述维度代码和所述指标分类代码的组合,相应的维度和指标也得到组合,形成指标维度关系;再次,将所述指标维度关系与所述指标维度代码表进行关联,使每一个指标维度关系对应一个指标维度代码表中的指标维度代码,将所述指标维度关系数据化,从而便于存储所述指标维度关系;最后,根据所述指标维度关系形成指标维度关系表,并将所述指标维度关系存储在所述指标维度关系表中,为所述指标维度关系表配置索引目录。
在一些可能的实施例中,所述索引目录可以是单独配置于所述指标维度关系表中,也可以是以所述指标维度代码表做为所述指标维度关系表的索引目录,在以所述指标维度代码表做为所述指标维度关系表的索引目录时,所述指标维度代码表与所述指标维度关系表进行关联,通过索引所述指标维度代码表,就可以找到所述指标维度关系表中的指标维度关系。
如图7所示,在本发明实施例中,所述提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表包括步骤:
S61、所述指标维度代码组合包括:由指标分类代码组成的指标代码位及由维度代码组成的维度代码位,所述维度代码按优先级进行顺序设置,所述指标分类代码按优先级进行顺序设置;进一步的,所述指标维度代码可以由所述维度代码按优先级对所述指标分类代码进行遍历组合。
当然,做为一种可能的实施例,所述指标维度代码也可以由所述指标分类代码按优先级对所述维度代码进行遍历组合。
S62、根据所述指标维度代码组合中维度代码位的维度代码,映射到所述相关联的所述维度属性表中获取对应的维度属性;具体来说,所述指标维度代码包括至少两个部分,其中一个部分为所述指标分类代码,其中另一个部分为所述维度代码。
进一步的,为更好的区分所述指标分类代码与所述维度代码,所述所述指标维度代码中还可以包括一分隔字符。
进一步的,所述指标维度代码在数据仓库层面可以为二进制代码,便于所述指标维度代码数据的存储和读取。需要说明的是,所述指标维度代码代表着所述指标维度的关系,不同的指标维度关系,对应不同的指标维度代码。
在一些可能的实施例中,所述指标维度代码在展示层面上可以是十进制代码,大多数做企业报表的人员并非编程人员,而十进制代码符合用户对于代码编制的习惯,使所述指标维度代码的定义更加直观。
比如,以十进制为例,所述指标维度代码可以是按优先级顺序可以定义为最高优先级为1、第二优先级为2等排序;又以二进制为例,所述指标维度代码可以是按优先级顺序进行排序,比如可以是最高优先级为01、第二优先级为10、第三优先级为11等排序。
更具体的例子,所述维度代码按优先级设置为1、2、3、4……,所述指标分类代码按优先级设置为1、2、3、4……,所述分隔符为“-”,以所述维度代码按优先级对所述指标分类代码进行遍历组合为例,所述指标维度代码遍历组合为1-1、1-2、1-3、1-4……,2-1、2-2、2-3、2-4……,3-1、3-2、3-3、3-4……,4-1、4-2、4-3、4-4……;其中,所述1-1代表一个指标维度代码。
S63、根据所述指标维度代码组合中指标代码位的指标分类代码,映射到所述相关联的所述指标分类表中获取对应的指标分类。具体的以前例为例,在指标维度代码1-1中,所述指标维度代码与指标分类代码之和为1+1=2,以2A定义所述指标维度代码优先级,在指标维度代码1-2、2-1中,1+2=3、2+1=3,以3A定义所述指标维度代码优先级,在指标维度代码1-3、2-2、3-1中,1+3=4、2+2=4、3+1=4,以4A定义所述指标维度代码优先级,在指标维度代码1-4、2-3、3-2、4-1中,求和得5,以5A定义所述指标维度代码优先级,如此可得到所述指标维度代码优先级,因为所述维度代码与所述指标分类代码都是通过一定规则顺序对优先级进行配置,所述所述指标维度代码的优先级也会是遵循一定规则的。
将所述维度代码按优先级进行顺序设置,所述指标分类代码按优先级进行顺序设置,可以使所述维度代码和所述指标分类代码更加方便进行遍历组合,也可以使形成的所述指标维度代码存在有序性。
S64、将所述维度属性与所述指标分类进行组合,形成指标维度关系。
进一步的,通过数据集市中的指标维度代码数据,映射到数据仓库中的指标维度关系数据。具体的,在数据集市中获取指标分类代码与维度代码,通过数据集市与数据仓库的映射路径,在数据仓库中获取指标分类与维度属性的相关数据,形成指标维度关系。比如,假定指标分类代码A001为人口指标,维度代码B001为时间维度,要想获得人口时间关系,可以先分析人口时间代码为A001-B001,指标分类代码在数据集市中为A001的数据,通过映射路径,在数据仓库为人口指标的数据,维度代码在数据集市中为B001的数据,通过映射路径,在数据仓库为时间维度的说明数据,那么通过指标维度代码组合A001-B001就可以获取存储在数据仓库中的人口时间关系数据。
S65、根据所述指标维度关系,形成指标维度关系表,并生成指标维度关系数据存储在数据仓库中。需要说明的是,所述指标维度关系数据用于在数据仓库中对所述指标维度关系表进行说明。
做为一种可能的实施例,在形成所述指标维度关系表及存储所述指标维度关系数据后,为了降低数据仓库的存储压力,可以将过程中形成的维度属性的说明数据及指标分类数据进行删除,需要说明的是,在过程中形成的维度属性的说明数据及指标分类数据是基于原始维度属性的说明数据及原始指标分类数据形成的,将之删除不会引起数据缺失。当然,在删除过程中形成的维度属性的说明数据及指标分类数据的前提是,建立指标维度关系表与指标维度关系代码的映射路径。
其次,还提供一种服务器,所述服务器包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项实施例所述的用于数据统计的数据处理方法。
所述服务器中的处理器可以是计算芯片,用以计算处理数据库中的维度数据和指标数据的聚合,所述存储器可以是:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的存储装置。
最后还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项实施例所述的用于数据统计的数据处理方法。
所述计算机可读存储介质包括:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例仅用于说明本发明的具体实施方式。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和变化,这些变形和变化都应属于本发明的保护范围。
Claims (10)
1.一种用于数据统计的数据处理方法,其特征在于,用于预设维度指标结果表,所述方法包括:
从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表;
根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表;
按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表;
顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表;
提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表;
根据所述指标维度关系表形成指标维度结果表,并生成对应数据进行存储。
2.如权利要求1所述的用于数据统计的数据处理方法,其特征在于,所述从用户事件日志中提取用户行为属性,根据所述用户行为属性获取维度属性,将所述维度属性按优先级形成维度属性表包括:
从事件日志中提取用户某一时间段内的行为属性,根据时间段内用户的行为属性的发生的次数为用户的行为属性配置优先级;
根据用户行为属性的优先级,将用户行为属性定义为对应优先级的维度属性;
将所述维度属性优先级形成维度属性表,并生成对应所述维度属性表的说明数据;
将所述维度属性表的说明数据存储到数据仓库。
3.如权利要求2所述的用于数据统计的数据处理方法,其特征在于,所述根据所述维度属性表中的各个维度的优先级顺序,定义相应的维度代码,形成维度代码表,关联所述维度属性表与所述维度代码表还包括:
根据所述维度代码表生成对应所述维度代码表的维度代码数据;
将所述维度代码数据存储到数据集市;
建立所述维度代码数据与所述维度属性表的说明数据间的映射路径。
4.如权利要求3所述的用于数据统计的数据处理方法,其特征在于,所述维度属性表中包括粒度子表,所述粒度子表根据粒度的优先级进行设置。
5.如权利要求1-4任一所述的用于数据统计的数据处理方法,其特征在于,所述按优先级预设指标分类,形成指标分类表,根据所述指标分类表中的各个指标的优先级顺序,定义相应的指标分类代码,形成指标分类代码表,关联所述指标分类表与所述指标分类代码表还包括:
根据所述指标分类表生成对应所述指标分类表的指标分类数据;
将所述指标分类数据存储到数据仓库;
根据所述指标分类代码表生成对应所述指标分类代码表的指标分类代码数据;
将所述指标分类代码数据存储到数据集市;
建立所述指标分类代码数据与所述指标分类数据间的映射路径。
6.如权利要求5所述的用于数据统计的数据处理方法,其特征在于,所述按优先级预设指标分类,形成指标分类表包括:
根据指标数据类型在数据仓库中被提取的热度设置优先级,并按优先级顺序对指标分类设置相应的代码。
7.如权利要求6所述的用于数据统计的数据处理方法,其特征在于,所述顺序关联所述维度代码表中的维度代码与所述指标分类代码表的指标分类代码,形成指标维度代码表包括:
对所述维度代码和指标分类代码进行按优先级顺序进行遍历组合,形成指标维度代码组合;
根据所述指标维度代码组合,形成指标维度代码表,并生成指标维度代码数据,存储在数据集市中。
8.如权利要求7所述的用于数据统计的数据处理方法,其特征在于,所述提取所述指标维度代码表中指标维度代码组合,分别映射到相关联的所述维度属性表与所述指标分类表中,获取指标维度关系,并形成指标维度关系表包括:
所述指标维度代码组合包括:由指标分类代码组成的指标代码位及由维度代码组成的维度代码位,所述维度代码按优先级进行顺序设置,所述指标分类代码按优先级进行顺序设置;
根据所述指标维度代码组合中维度代码位的维度代码,映射到所述相关联的所述维度属性表中获取对应的维度属性;
根据所述指标维度代码组合中指标代码位的指标分类代码,映射到所述相关联的所述指标分类表中获取对应的指标分类;
将所述维度属性与所述指标分类进行组合,形成指标维度关系;
根据所述指标维度关系,形成指标维度关系表,并生成指标维度关系数据存储在数据仓库中。
9.一种服务器,其特征在于,包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的用于数据统计的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的用于数据统计的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810711225.6A CN109241048A (zh) | 2018-06-29 | 2018-06-29 | 用于数据统计的数据处理方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810711225.6A CN109241048A (zh) | 2018-06-29 | 2018-06-29 | 用于数据统计的数据处理方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241048A true CN109241048A (zh) | 2019-01-18 |
Family
ID=65071642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810711225.6A Pending CN109241048A (zh) | 2018-06-29 | 2018-06-29 | 用于数据统计的数据处理方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241048A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716965A (zh) * | 2019-09-25 | 2020-01-21 | 支付宝(杭州)信息技术有限公司 | 一种块链式账本中的查询方法、装置及设备 |
CN117312319A (zh) * | 2023-10-09 | 2023-12-29 | 中科院成都信息技术股份有限公司 | 基于元数据的数据存储方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070130107A1 (en) * | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Missing index analysis and index useage statistics |
CN102663021A (zh) * | 2012-03-21 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种数据的识别处理方法 |
CN104408179A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 数据表中数据处理方法和装置 |
CN104424339A (zh) * | 2013-09-11 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 数据分析的方法、装置及*** |
CN104615608A (zh) * | 2014-04-28 | 2015-05-13 | 腾讯科技(深圳)有限公司 | 一种数据挖掘处理***及方法 |
CN106210151A (zh) * | 2016-09-27 | 2016-12-07 | 深圳市彬讯科技有限公司 | 一种zedis分布式缓存及服务器集群监控方法 |
-
2018
- 2018-06-29 CN CN201810711225.6A patent/CN109241048A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070130107A1 (en) * | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Missing index analysis and index useage statistics |
CN102663021A (zh) * | 2012-03-21 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种数据的识别处理方法 |
CN104424339A (zh) * | 2013-09-11 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 数据分析的方法、装置及*** |
CN104615608A (zh) * | 2014-04-28 | 2015-05-13 | 腾讯科技(深圳)有限公司 | 一种数据挖掘处理***及方法 |
CN104408179A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 数据表中数据处理方法和装置 |
CN106210151A (zh) * | 2016-09-27 | 2016-12-07 | 深圳市彬讯科技有限公司 | 一种zedis分布式缓存及服务器集群监控方法 |
Non-Patent Citations (1)
Title |
---|
戴浩: "基于业务元数据的多维建模***设计与实现", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716965A (zh) * | 2019-09-25 | 2020-01-21 | 支付宝(杭州)信息技术有限公司 | 一种块链式账本中的查询方法、装置及设备 |
CN117312319A (zh) * | 2023-10-09 | 2023-12-29 | 中科院成都信息技术股份有限公司 | 基于元数据的数据存储方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963541B2 (en) | Systems, methods, and apparatuses for implementing a related command with a predictive query interface | |
CA2712569C (en) | Adaptive analytics multidimensional processing system | |
EP2273431B1 (en) | Model determination system | |
US9135280B2 (en) | Grouping interdependent fields | |
WO2015041714A1 (en) | Interest-driven business intelligence systems including event-oriented data | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
US20080133573A1 (en) | Relational Compressed Database Images (for Accelerated Querying of Databases) | |
US10303705B2 (en) | Organization categorization system and method | |
CN109189861A (zh) | 基于指标的数据流统计方法、服务器及存储介质 | |
US9153051B2 (en) | Visualization of parallel co-ordinates | |
CN111127105A (zh) | 用户分层模型构建方法及***、运营分析方法及*** | |
US10394772B2 (en) | Database capacity estimation for database sizing | |
EP3701480B1 (en) | Systems and methods for intelligently grouping financial product users into cohesive cohorts | |
CN109325648A (zh) | 基于指标的多维度数据流统计方法、服务器及存储介质 | |
CN106605222A (zh) | 有指导的数据探索 | |
CN109241048A (zh) | 用于数据统计的数据处理方法、服务器及存储介质 | |
Picado et al. | Survivability of cloud databases-factors and prediction | |
US11809694B2 (en) | Intellectual-property landscaping platform with interactive graphical element | |
US12014436B2 (en) | Intellectual-property landscaping platform | |
CN112836960A (zh) | 基于bi技术的工业生产数据调度*** | |
CN117131055A (zh) | 多维数据的数据分析方法、数据分析装置和数据分析*** | |
US20130124484A1 (en) | Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization | |
Djamaluddin et al. | Real-Time Drilling Operation Activity Analysis Data Modelling with Multidimensional Approach and Column-Oriented Storage | |
CN109086309A (zh) | 一种指标维度关系定义方法、服务器及存储介质 | |
CN109145059A (zh) | 用于数据统计的数据处理方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220401 |