CN104424231A - 多维数据的处理方法及装置 - Google Patents

多维数据的处理方法及装置 Download PDF

Info

Publication number
CN104424231A
CN104424231A CN201310376349.0A CN201310376349A CN104424231A CN 104424231 A CN104424231 A CN 104424231A CN 201310376349 A CN201310376349 A CN 201310376349A CN 104424231 A CN104424231 A CN 104424231A
Authority
CN
China
Prior art keywords
attribute
attributes
combinations
recursion
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310376349.0A
Other languages
English (en)
Other versions
CN104424231B (zh
Inventor
李�浩
武磊
曾伟纪
蔡馥晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310376349.0A priority Critical patent/CN104424231B/zh
Priority to PCT/CN2014/084506 priority patent/WO2015027831A1/en
Publication of CN104424231A publication Critical patent/CN104424231A/zh
Application granted granted Critical
Publication of CN104424231B publication Critical patent/CN104424231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)

Abstract

本发明实施例公开了一种多维数据的处理方法及装置,涉及计算机技术领域,解决了当前反复从整个流水数据中获取各种维度属性组合下的指标数据,运算复杂度高的问题。所述方法包括:获取数据业务的维度信息、维度信息中的属性信息及各属性的层级关系信息;根据维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性;根据该最细粒度属性,形成顶层属性组合;根据顶层属性组合和各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径;接收查询请求,并根据递推路径和预先获取到的属性组合对应的指标数据,递推查询请求中的属性组合所对应的指标数据。本发明适用于多维数据分析中。

Description

多维数据的处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多维数据的处理方法及装置。
背景技术
目前,随着互联网及计算机技术的发展,多维数据分析在各种数据分析平台上得到了广泛的应用。多维数据分析源于联机分析处理OLAP(On-LineAnalytical Processing,简称OLAP)技术,是OLAP技术的核心,目的是从多个维度来观察和分析指标的变化,以突出展示一些通过筛选重要维度而获得的指标。
当前应用多维数据分析的网站很多,例如一些购物平台,自助分析平台等均需要进行多维数据分析。例如如图1所示,在某一购物平台上,为了分析各年龄段购买某一产品的成交人数,通过从流水数据中设置年龄条件进行筛选,得到了各年龄段所对应的成交人数,其中,年龄即为维度属性,而具体的成交人数即为指标数据。从图1中可见,该购物平台上展示的数据分析结果仅具有一个年龄维度属性,若还要展示其他维度的数据以从多个维度属性进行分析,例如需要展示各个城市的各年龄的成交人数、各省份的各年龄的成交人数、各省份各年龄组的成交人数等,则需要先从整个流水数据中进行筛选,以获取到需要的各维度属性组合下的指标数据。一般的筛选过程是先以一个维度属性为基础,在整个流水数据中获取到满足该维度属性的数据,再根据维度属性组合中的其他维度属性,在已经获得的数据中依次进行筛选,最终得到满足整个维度组合下的指标数据。
当存在的维度以及维度属性较多时,反复从整个流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高。
发明内容
本发明的实施例提供一种多维数据的处理方法及装置,能够解决现有技术中由于在维度以及维度属性较多时,反复从整个流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高的问题。
为达到上述目的,本发明采用如下技术方案:
一种多维数据的处理方法,包括:
获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息;
根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性;
根据所述最细粒度属性,形成顶层属性组合;
根据所述顶层属性组合和所述各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径;
接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
一种多维数据的处理装置,包括:
获取单元,用于获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息;
所述获取单元,还用于根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性;
生成单元,用于根据所述获取单元获取的所述最细粒度属性,形成顶层属性组合;
所述生成单元,还用于根据所述顶层属性组合和所述各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径;
所述获取单元,还用于根据所述生成单元生成的所述递推拓扑及所述获取单元获取的所述流水数据,获取所述递推拓扑中的属性组合对应的指标数据;
递推单元,用于接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
本发明实施例提供的多维数据的处理方法及装置,由于根据顶层属性组合和所述各属性层级关系生成了递推拓扑,其中所述递推拓扑包括属性组合及各属性组合之间的递推路径,从而在接收到查询请求时,能够根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。而现有技术中,在需要获取属性组合所对应的指标数据时,需要从流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高。因此,本发明能够通过递推拓扑以及已预先获取的属性组合对应的指标数据,来获取未知的属性组合所对应的指标数据,降低了运算复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的数据分析的界面示意图;
图2为本发明实施例提供的多维数据的处理方法的流程图;
图3为本发明又一实施例提供的多维数据的处理方法的流程图;
图4为本发明实施例中的流水数据中各字段与指标和维度的映射关系的示意图;
图5为本发明实施例中的多维数据的处理的数据变化示意图;
图6为本发明实施例中的递推拓扑的示意图一;
图7为本发明实施例中的递推拓扑的示意图二;
图8为本发明实施例提供的多维数据的处理装置的结构示意图一;
图9为本发明实施例提供的多维数据的处理装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
如图2所示,本发明实施例提供的多维数据的处理方法,包括:
101、获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息。
此外,还需要获取数据业务的流水数据,所述数据业务的流水数据是在网站、应用程序、网络游戏等被应用时记录在流水日志中的数据,该流水日志一般保存于数据库中。所述维度信息中的各维度表示用于分析数据的视角,例如某一应用程序被应用,那么应用该应用程序的用户所在地域、用户的年龄等即为维度信息中的维度。所述维度中的属性信息是在同一维度下,描述该维度的不同粒度,例如时间维度包括日、周、月、年等属性。所述各属性的层级关系信息中包括各种属性的层级关系,例如时间维度中的7个日等于1周、12个月等于1年,又例如在地域维度中,一个省份包括多个城市,例如深圳市、广州市属于广东省,而广东省又属于中国。
102、根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性。
所述最细粒度属性在同一维度的属性信息中,粒度最小的一个属性,例如在一个时间维度中,属性信息包括的属性有年、月、日、时,则属性时即为时间维度的最细粒度属性。
103、根据所述最细粒度属性,形成顶层属性组合。
通过上述步骤102获取到一个或多个最细粒度属性之后,由一个或多个最细粒度属性形成该顶层属性组合,所述顶层属性组合是直接从流水数据中得出的属性组合。例如获取到的多个最细粒度属性分别为城市、年龄数、一级来源,则形成的顶层属性组合即由城市、年龄数、一级来源组成。所述一级来源属于来源维度,来源维度中可以包括一级来源、二级来源,其中所述一级来源可以是具体的数据来源,例如具体的网站,而二级来源可以是上述各网站的集合,例如上述各网站属于社交渠道。
104、根据所述顶层属性组合和所述各属性层级关系生成递推拓扑。
其中,所述递推拓扑包括属性组合及各属性组合之间的递推路径。
在多维数据处理中,一般通过对属性组合进行上卷操作来得到下一层属性组合。其中进行上卷操作的方式有两种,其中一种方式是直接去掉属性组合中的一个属性,从而得到下一层属性组合,例如上述的由城市、年龄数、一级来源组成的属性组合,在进行上卷时,可以去掉一级来源,从而形成下一层属性组合,由城市、年龄数组成。此外,另一种方式是通过各属性层级关系将属性组合中的属性粒度***,例如上述的由城市、年龄数、一级来源组成的属性组合,由于城市属于地域维度,该地域维度的属性包括国家、省份、城市,则在进行上卷时,可以将属性组合中的城市替换为省份,从而使属性粒度加粗,生成了省份、年龄数、一级来源组成的属性组合。之后,通过上面两种上卷操作的方式,对各个属性组合进行上卷,最终形成一个总览属性,即没有属性组合的限制。
105、接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
在递推拓扑建立后,可以预先获取递推拓扑中的一部分属性组合对应的指标数据。所述查询请求中带有需要分析的属性组合,则在接收到查询请求后,能够根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。例如,预先获取到了由城市、年龄数、一级来源组成的属性组合所对应的登录次数数据,则根据递推路径,获知到下一层属性组合为由城市、年龄数组成的属性组合,则可得到由城市、年龄数组成的属性组合对应的登录次数数据。
值得说明的是,本发明实施例提供的多维数据的处理方法的执行主体可以是一种多维数据的处理装置,所述多维数据的处理装置可以运行于计算机、网络服务器等电子设备中,但不仅局限于此。
本发明实施例提供的多维数据的处理方法,由于根据顶层属性组合和所述各属性层级关系生成了递推拓扑,其中所述递推拓扑包括属性组合及各属性组合之间的递推路径,从而在接收到查询请求时,能够根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。而现有技术中,在需要获取属性组合所对应的指标数据时,需要从流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高。因此,本发明能够通过递推拓扑以及已预先获取的属性组合对应的指标数据,来获取未知的属性组合所对应的指标数据,降低了运算复杂度。
下面列举一个更为具体的实施例,如图3所示,本发明又一实施例提供的多维数据的处理方法,包括:
201、获取数据业务的流水数据、数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息。
所述数据业务的流水数据是在网站、应用程序、网络游戏等被应用时记录在流水日志中的数据,该流水日志一般保存于数据库中,在所述流水数据中可以带有用户身份标识、所登录的网站网址、所进行的操作对应的数据等。所述维度信息中的各维度表示用于分析数据的视角,例如某一应用程序被应用,那么应用该应用程序的用户所在地域、用户的年龄等即为维度信息中的维度。所述维度中的属性信息是在同一维度下,描述该维度的不同粒度,例如时间维度包括日、周、月、年等属性。所述各属性的层级关系信息中包括各种属性的层级关系,例如时间维度中的7个日等于1周、12个月等于1年,又例如在地域维度中,一个省份包括多个城市,例如深圳市、广州市属于广东省,而广东省又属于中国。
在获取到流水数据后,需要建立流水数据中各字段与指标和维度的映射关系。例如,在流水数据中的用户身份标识中的某一字段可以对应地域维度、年龄维度等,又例如在流水数据中的网站地址字段可以对应来源维度等,但不仅局限于此。例如,如图4所示,列举了一种流水数据中各字段与指标和维度的映射关系的示意图。其中,用户身份标识对应了地域维度和年龄维度,所述地域维度的属性包括城市、城市级别、省份、国家;所述年龄维度的属性包括了年龄数和年龄段;此外,网站地址对应了来源维度,所述来源维度包括一级来源和二级来源。其中所述一级来源可以是具体的数据来源,例如具体的网站,而二级来源可以是上述各网站的集合,例如上述各网站属于社交渠道。
202、根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性。
所述最细粒度属性在同一维度的属性信息中,粒度最小的一个属性,例如在一个时间维度中,属性信息包括的属性有年、月、日、时,则属性时即为时间维度的最细粒度属性。
203、根据所述最细粒度属性,形成顶层属性组合。
通过上述步骤202获取到一个或多个最细粒度属性之后,由一个或多个最细粒度属性形成该顶层属性组合,所述顶层属性组合是直接从流水数据中得出的属性组合。例如获取到的多个最细粒度属性分别为城市、年龄数、一级来源,则形成的顶层属性组合即由城市、年龄数、一级来源组成。
204、遍历属性组合,判断需要上卷的属性组合是否是总览属性。
若判断到所述属性组合是总览属性,执行步骤205。
若判断到所述属性组合不是总览属性,执行步骤206。
此处被遍历的属性组合不仅局限于顶层属性组合,在通过步骤201至步骤214后,可以逐渐生成各种属性组合,因此需要遍历属性组合,从而逐渐生成递推拓扑。所述总览属性是由于属性组合不断上卷,属性组合中的属性不断减少、粒度***,最后形成一个总览属性,即没有属性组合的限制。例如要获取某一网站的登录次数,在由城市、年龄数组成的属性组合下,将获取各城市与各年龄下的登录次数数据,而由于进行上卷,最终的总览属性中已经没有地域维度和年龄维度,因此该登录次数数据是该网站的登录次数总和。
205、确定该属性组合无法进行上卷。之后返回步骤204。
当判断到所述属性组合是总览属性时,该属性组合不能去掉属性组合中的一个属性,也不能将属性组合中的属性粒度***,因此无法进行上卷。
206、遍历需要上卷的属性组合中的各个属性。
207、判断所述属性组合所对应的指标是否需要全局去重。
若判断到所述属性组合所对应的指标需要全局去重,执行步骤208。
若判断到所述属性组合所对应的指标不需要全局去重,执行步骤209。
所述属性组合所对应的指标是根据所述属性组合需要分析的指标,一般是通过流水数据能够分析到的指标,例如,如图5所示,流水数据中记载了用户身份标识和每个身份标识所访问的网站地址,则通过上述流水数据,可以分析获知的指标为登录次数、登录人数等。而有些指标不能通过流水数据中的条目简单进行叠加,例如登录人数指标,可能存在同一用户身份标识的用户登录多次,但登录人数上只能加1,因此需要进行全局去重。
208、判断所述属性组合中的一个属性是否满足递推条件。
若判断到所述属性组合中的一个属性满足所述递推条件,执行步骤209。
若判断到所述属性组合中的一个属性不满足所述递推条件,执行步骤210。
具体的,所述属性满足递推条件是指需要全局去重的指标所依赖的流水数据元素在该属性下有唯一的一个属性取值,例如上述的登录人数指标,其所依赖的流水数据元素为用户身份标识,即通过分析流水数据中出现的用户身份标识可以确定登录人数。若属性为城市,则一个用户身份标识可以仅对应一个城市,例如图5所示,用户身份标识250708仅对应深圳,347516仅对应广州,则该城市属性能够满足递推条件。否则,若需要全局去重的指标所依赖的流水数据元素在一个属性下的属性取值不唯一,则不满足递推条件。
209、根据所述各属性层级关系,判断所述各个属性中的一个父属性是否存在子属性。
若判断到该父属性存在子属性,执行步骤211。
若判断到该父属性不存在子属性,执行步骤212。
例如在地域维度中,国家由多个省份组成,省份由多个城市组成等,城市为父属性,省份为城市属性的子属性,国家为省份属性的子属性。而若父属性为城市,且在所述属性层级关系中,城市属性为最细粒度属性,则城市属性没有子属性。
210、确定所述属性组合不根据所述属性进行上卷。
在步骤210之后,返回步骤206。
此处,若判断到所述属性组合中的一个属性不满足所述递推条件,则无法根据该属性进行上卷,因为若需要全局去重的指标所依赖的流水数据元素在一个属性下的取值不唯一,则若采用去掉该属性,形成下一层属性组合的方式,可能造成无法对下一层属性组合所对应的指标数据进行去重累加。
211、确定所述上卷策略为第一策略。
其中,所述第一策略用于指示将所述父属性替换为所述子属性,并将所述子属性与所述属性组合中的其他属性组合形成所述下一层属性组合。之后继续执行步骤213。
212、确定所述上卷策略为第二策略。
其中,所述第二策略用于指示将所述父属性删除,将所述属性组合中的其他属性组合形成所述下一层属性组合。之后继续执行步骤214。
213、将所述父属性替换为所述子属性,并将所述子属性与所述属性组合中的其他属性组合形成所述下一层属性组合。在步骤213之后可以返回执行步骤204。
214、将所述父属性删除,将所述属性组合中的其他属性组合形成所述下一层属性组合。在步骤213之后可以返回执行步骤204。
例如,如图5所示,顶层属性组合由城市、年龄数和一级来源组成,从而得到了这三个属性下的登陆次数。在进行第一次上卷后,将一级来源属性删除,并将城市和年龄数属性组合形成新的属性组合,得到了城市和年龄数属性下的登录次数。在进行第二次上卷后,将城市属性替换为省份属性,则将省份和年龄数属性组合形成新的属性组合,得到了省份和年龄数属性下的登录次数。
通过上述步骤201-214,最终可以形成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径。具体可以在多个节点上根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,所述节点与所述顶层属性组合一一对应。
在后续接收到查询请求时,根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
如图6所示,列举一种对于可直接累加指标生成递推拓扑的示意图,例如所述可直接累加指标为登录次数,其中,生成递推拓扑的顶层属性组合是根据流水数据中的用户身份标识和用户登录的网站地址来确定的。其中待分析的维度有地域维度,包括城市(为了方便描述,之后以A1表示)、省份(为了方便描述,之后以A2表示),还有年龄维度,包括年龄数(为了方便描述,之后以B1表示),还有来源维度,包括一级来源(为了方便描述,之后以C1表示)。在生成递推拓扑的过程中,若通过不同属性组合得到相同的下一层属性组合,则需要对下一层属性组合进行去重。具体的,顶层属性组合为A1B1C1,通过上卷操作,可以得到的属性组合为A2B1C1、A1B1、A1C1、B1C1,之后A2B1C1继续上卷,可以得到B1C1、A2B1、A2C1。同样的,通过A1B1上卷可以得到A2B1、A1、B1;通过A1C1上卷可以得到A2C1、A1、C1;通过B1C1上卷可以得到B1、C1。之后通过A2B1或者A2C1上卷可以得到A2,通过A1上卷可以得到A2或者总览属性ALL,通过B1上卷可以得到ALL,通过C1上卷可以得到ALL。之后通过A2上卷也可以得到ALL。可见,若预先获取到某些属性组合的指标数据,例如预先获取到A1B1所对应的指标数据,则可通过A1B1的指标数据,直接递推出A1、B1等对应的指标数据。
此外,如图7所示,列举一种对于需要全局去重累加指标生成递推拓扑的示意图,例如所述需要全局去重累加指标为登录人数,其中,生成递推拓扑的顶层属性组合是根据流水数据中的用户身份标识和用户登录的网站地址来确定的。其中待分析的维度有地域维度,包括城市(为了方便描述,之后以A1表示)、省份(为了方便描述,之后以A2表示),还有年龄维度,包括年龄数(为了方便描述,之后以B1表示),还有来源维度,包括一级来源(为了方便描述,之后以C1表示),其中在一级来源影响下获取的登录人数不能简单累加,因为同一个用户身份标识对应的用户可以登录不同的一级来源属性下的网站地址,即在该一级来源属性下的用户身份标识对应了不同的一级来源属性,则不能通过C1属性来生成递推拓扑。在生成递推拓扑的过程中,若通过不同属性组合得到相同的下一层属性组合,则需要对下一层属性组合进行去重。具体的,顶层属性组合为A1B1C1,通过上卷操作,可以得到的属性组合为A2B1C1、A1C1、B1C1,之后A2B1C1继续上卷,可以得到B1C1、A2C1。而由于不能通过C1属性来生成递推拓扑,则A1B1属性需要从流水数据中获取得到,则通过A1B1上卷可以得到A2B1、A1、B1;通过A1C1上卷可以得到A2C1、C1;通过B1C1上卷可以得到C1。之后通过A2B1上卷可以得到A2,通过A1上卷可以得到A2或者总览属性ALL,通过B1上卷可以得到ALL,通过C1上卷可以得到ALL。之后通过A2上卷也可以得到ALL。可见,若预先获取到某些属性组合的指标数据,例如预先获取到A1B1所对应的指标数据,则可通过A1B1的指标数据,直接递推出A1、B1等对应的指标数据。如图7所示,其中A1B1C1和A1B1是两个顶层属性组合,可以在两个节点上生成A1B1C1和A1B1下的递推拓扑,在该两个节点上分别维护两个递推拓扑,如果顶层属性组合中的属性过多,则同一个递推拓扑子树也可以***在几个节点上进行生成维护。
值得说明的是,本发明又一实施例提供的多维数据的处理方法的执行主体可以是一种多维数据的处理装置,所述多维数据的处理装置可以运行于计算机、网络服务器等电子设备中,但不仅局限于此。
本发明又一实施例提供的多维数据的处理方法,由于根据顶层属性组合和所述各属性层级关系生成了递推拓扑,其中所述递推拓扑包括属性组合及各属性组合之间的递推路径,从而在接收到查询请求时,能够根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。而现有技术中,在需要获取属性组合所对应的指标数据时,需要从流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高。因此,本发明能够通过递推拓扑以及已预先获取的属性组合对应的指标数据,来获取未知的属性组合所对应的指标数据,降低了运算复杂度。
对应于图2和图3所示的多维数据的处理方法的实施例,如图8所示,本发明实施例提供的多维数据的处理装置,包括:
获取单元31,用于获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息。
所述获取单元31,还用于根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性。
生成单元32,用于根据所述获取单元31获取的所述最细粒度属性,形成顶层属性组合。
所述生成单元32,还用于根据所述顶层属性组合和所述各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径。
递推单元33,用于接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
具体的,如图9所示,所述生成单元32,包括:
判断模块321,用于判断所述属性组合是否是总览属性。
生成模块322,用于在所述属性组合不是所述总览属性时,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
具体的,如图9所示,所述生成模块322,包括:
遍历子模块3221,用于遍历各属性组合中的各个属性。
获取子模块3222,用于获取所述各个属性所满足的条件。
确定子模块3223,用于根据所述各个属性所满足的条件,确定所述属性组合的上卷策略。
生成子模块3224,用于根据所述上卷策略,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
具体的,所述获取子模块3222,用于:
判断所述属性组合所对应的指标是否需要全局去重。
进一步的,如图9所示,所述获取子模块3222,还用于:
若判断到所述指标需要全局去重,判断所述属性组合中的一个属性是否满足递推条件。
具体的,如图9所示,所述确定子模块3223,用于:
若判断到所述属性组合中的属性不满足所述递推条件,确定所述属性组合不根据所述属性进行上卷。
进一步的,如图9所示,所述获取子模块3222,还用于:
若判断到所述指标不需要全局去重,或者判断到所述属性组合中的属性满足所述递推条件,根据所述各属性层级关系,判断所述各个属性中的一个父属性是否存在子属性。
进一步的,如图9所示,所述确定子模块3223,还用于:
若判断到所述父属性存在子属性,确定所述上卷策略为第一策略;所述第一策略用于将所述父属性替换为所述子属性,并将所述子属性与所述属性组合中的其他属性组合形成所述下一层属性组合。
若判断到所述父属性不存在子属性,确定所述上卷策略为第二策略;所述第二策略用于将所述父属性删除,将所述属性组合中的其他属性组合形成所述下一层属性组合。
具体的,如图9所示,所述生成单元32,用于:
在多个节点上根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,所述节点与所述顶层属性组合一一对应。
本发明实施例提供的多维数据的处理装置,由于根据顶层属性组合和所述各属性层级关系生成了递推拓扑,其中所述递推拓扑包括属性组合及各属性组合之间的递推路径,从而在接收到查询请求时,能够根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。而现有技术中,在需要获取属性组合所对应的指标数据时,需要从流水数据中获取各种维度属性组合下的指标数据,运算复杂度较高。因此,本发明能够通过递推拓扑以及已预先获取的属性组合对应的指标数据,来获取未知的属性组合所对应的指标数据,降低了运算复杂度。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (18)

1.一种多维数据的处理方法,其特征在于,包括:
获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息;
根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性;
根据所述最细粒度属性,形成顶层属性组合;
根据所述顶层属性组合和所述各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径;
接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
2.根据权利要求1所述的多维数据的处理方法,其特征在于,所述根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,包括:
判断所述属性组合是否是总览属性;
若所述属性组合不是所述总览属性,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
3.根据权利要求2所述的多维数据的处理方法,其特征在于,所述将所述属性组合进行上卷,生成所述属性组合的下一层属性组合,包括:
遍历各属性组合中的各个属性;
获取所述各个属性所满足的条件;
根据所述各个属性所满足的条件,确定所述属性组合的上卷策略;
根据所述上卷策略,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
4.根据权利要求3所述的多维数据的处理方法,其特征在于,所述获取所述各个属性所满足的条件,包括:
判断所述属性组合所对应的指标是否需要全局去重。
5.根据权利要求4所述的多维数据的处理方法,其特征在于,所述获取所述各个属性所满足的条件,还包括:
若判断到所述指标需要全局去重,判断所述属性组合中的一个属性是否满足递推条件。
6.根据权利要求5所述的多维数据的处理方法,其特征在于,所述根据所述各个属性所满足的条件,确定所述属性组合的上卷策略,包括:
若判断到所述属性组合中的属性不满足所述递推条件,确定所述属性组合不根据所述属性进行上卷。
7.根据权利要求5所述的多维数据的处理方法,其特征在于,所述获取所述各个属性所满足的条件,还包括:
若判断到所述指标不需要全局去重,或者判断到所述属性组合中的属性满足所述递推条件,根据所述各属性层级关系,判断所述各个属性中的一个父属性是否存在子属性。
8.根据权利要求6所述的多维数据的处理方法,其特征在于,所述根据所述各个属性所满足的条件,确定所述属性组合的上卷策略,还包括:
若判断到所述父属性存在子属性,确定所述上卷策略为第一策略;所述第一策略用于指示将所述父属性替换为所述子属性,并将所述子属性与所述属性组合中的其他属性组合形成所述下一层属性组合;
若判断到所述父属性不存在子属性,确定所述上卷策略为第二策略;所述第二策略用于指示将所述父属性删除,将所述属性组合中的其他属性组合形成所述下一层属性组合。
9.根据权利要求1-8任一项所述的多维数据的处理方法,其特征在于,所述根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,包括:
在多个节点上根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,所述节点与所述顶层属性组合一一对应。
10.一种多维数据的处理装置,其特征在于,包括:
获取单元,用于获取数据业务中的维度信息、所述维度信息中的属性信息及各属性的层级关系信息;
所述获取单元,还用于根据所述维度信息、维度信息中的属性信息及各属性层级关系信息,获取各维度的最细粒度属性;
生成单元,用于根据所述获取单元获取的所述最细粒度属性,形成顶层属性组合;
所述生成单元,还用于根据所述顶层属性组合和所述各属性层级关系生成递推拓扑;所述递推拓扑包括属性组合及各属性组合之间的递推路径;
递推单元,用于接收查询请求,并根据所述递推路径和预先获取到的属性组合对应的指标数据,递推所述查询请求中的属性组合所对应的指标数据。
11.根据权利要求10所述的多维数据的处理装置,其特征在于,所述生成单元,包括:
判断模块,用于判断所述属性组合是否是总览属性;
生成模块,用于在所述属性组合不是所述总览属性时,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
12.根据权利要求11所述的多维数据的处理装置,其特征在于,所述生成模块,包括:
遍历子模块,用于遍历各属性组合中的各个属性;
获取子模块,用于获取所述各个属性所满足的条件;
确定子模块,用于根据所述各个属性所满足的条件,确定所述属性组合的上卷策略;
生成子模块,用于根据所述上卷策略,将所述属性组合进行上卷,生成所述属性组合的下一层属性组合。
13.根据权利要求12所述的多维数据的处理装置,其特征在于,所述获取子模块,用于:
判断所述属性组合所对应的指标是否需要全局去重。
14.根据权利要求13所述的多维数据的处理装置,其特征在于,所述获取子模块,还用于:
若判断到所述指标需要全局去重,判断所述属性组合中的一个属性是否满足递推条件。
15.根据权利要求14所述的多维数据的处理装置,其特征在于,所述确定子模块,用于:
若判断到所述属性组合中的属性不满足所述递推条件,确定所述属性组合不根据所述属性进行上卷。
16.根据权利要求14所述的多维数据的处理装置,其特征在于,所述获取子模块,还用于:
若判断到所述指标不需要全局去重,或者判断到所述属性组合中的属性满足所述递推条件,根据所述各属性层级关系,判断所述各个属性中的一个父属性是否存在子属性。
17.根据权利要求15所述的多维数据的处理装置,其特征在于,所述确定子模块,还用于:
若判断到所述父属性存在子属性,确定所述上卷策略为第一策略;所述第一策略用于将所述父属性替换为所述子属性,并将所述子属性与所述属性组合中的其他属性组合形成所述下一层属性组合;
若判断到所述父属性不存在子属性,确定所述上卷策略为第二策略;所述第二策略用于将所述父属性删除,将所述属性组合中的其他属性组合形成所述下一层属性组合。
18.根据权利要求10-17任一项所述的多维数据的处理装置,其特征在于,所述生成单元,用于:
在多个节点上根据所述顶层属性组合和所述各属性层级关系生成递推拓扑,所述节点与所述顶层属性组合一一对应。
CN201310376349.0A 2013-08-26 2013-08-26 多维数据的处理方法及装置 Active CN104424231B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310376349.0A CN104424231B (zh) 2013-08-26 2013-08-26 多维数据的处理方法及装置
PCT/CN2014/084506 WO2015027831A1 (en) 2013-08-26 2014-08-15 Multidimensional data processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310376349.0A CN104424231B (zh) 2013-08-26 2013-08-26 多维数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104424231A true CN104424231A (zh) 2015-03-18
CN104424231B CN104424231B (zh) 2019-07-16

Family

ID=52585550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310376349.0A Active CN104424231B (zh) 2013-08-26 2013-08-26 多维数据的处理方法及装置

Country Status (2)

Country Link
CN (1) CN104424231B (zh)
WO (1) WO2015027831A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445934A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN106557498A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 数据存储方法和装置以及数据查询方法和装置
CN107025542A (zh) * 2016-10-27 2017-08-08 阿里巴巴集团控股有限公司 提供渠道组合的集成能力的方法和装置
CN107527070A (zh) * 2017-08-25 2017-12-29 江苏赛睿信息科技股份有限公司 维度数据和指标数据的识别方法、存储介质及服务器
CN107562893A (zh) * 2017-09-06 2018-01-09 叶进蓉 一种用于网络日志文件中的多维度数据去重方法及***
TWI613559B (zh) * 2016-04-28 2018-02-01 美信網路技術有限公司 一種記錄資訊傳播的方法
CN109710610A (zh) * 2018-12-17 2019-05-03 北京三快在线科技有限公司 数据处理方法、装置及计算设备
CN109739940A (zh) * 2018-12-29 2019-05-10 东软集团股份有限公司 联机分析处理方法、装置、存储介质及电子设备
CN110019425A (zh) * 2017-08-22 2019-07-16 北京京东尚科信息技术有限公司 一种数据展示的方法和装置
CN110601866A (zh) * 2018-06-13 2019-12-20 阿里巴巴集团控股有限公司 一种流量分析***、数据采集装置、数据处理装置及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451142B (zh) * 2016-05-31 2022-05-27 北京京东尚科信息技术有限公司 在数据库中写入和查询数据的方法与装置及其管理***和计算机可读存储介质
CN113761036A (zh) * 2021-09-07 2021-12-07 国网福建省电力有限公司经济技术研究院 一种电网统计专业指标多维关联组表查询展示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10035043A1 (de) * 1999-07-23 2001-03-01 Ibm Mehrdimensionale Indexierungsstruktur zur Verwendung mit linearen Optimierungsanfragen
CN101853283A (zh) * 2010-05-21 2010-10-06 南京邮电大学 面向多维数据的语义索引对等网络的构建方法
CN102467559A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 多层次多维度的数据属性分析方法及装置
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940818A (en) * 1997-06-30 1999-08-17 International Business Machines Corporation Attribute-based access for multi-dimensional databases
US7287022B2 (en) * 2002-07-19 2007-10-23 Microsoft Corporation System and method for analytically modeling data organized according to related attributes
US7698257B2 (en) * 2006-05-16 2010-04-13 Business Objects Software Ltd. Apparatus and method for recursively rationalizing data source queries
US20120005228A1 (en) * 2010-06-30 2012-01-05 Himanshu Singh Method and system for navigating and displaying multi dimensional data
EP2748732A4 (en) * 2011-08-26 2015-09-23 Hewlett Packard Development Co MULTIDIMENSIONAL CLUSTERS FOR DATA PARTITIONING
CN102982103A (zh) * 2012-11-06 2013-03-20 东南大学 一种olap海量多维数据维存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10035043A1 (de) * 1999-07-23 2001-03-01 Ibm Mehrdimensionale Indexierungsstruktur zur Verwendung mit linearen Optimierungsanfragen
CN101853283A (zh) * 2010-05-21 2010-10-06 南京邮电大学 面向多维数据的语义索引对等网络的构建方法
CN102467559A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 多层次多维度的数据属性分析方法及装置
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445934A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN106557498A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 数据存储方法和装置以及数据查询方法和装置
TWI613559B (zh) * 2016-04-28 2018-02-01 美信網路技術有限公司 一種記錄資訊傳播的方法
CN107025542A (zh) * 2016-10-27 2017-08-08 阿里巴巴集团控股有限公司 提供渠道组合的集成能力的方法和装置
CN110019425A (zh) * 2017-08-22 2019-07-16 北京京东尚科信息技术有限公司 一种数据展示的方法和装置
CN107527070A (zh) * 2017-08-25 2017-12-29 江苏赛睿信息科技股份有限公司 维度数据和指标数据的识别方法、存储介质及服务器
CN107527070B (zh) * 2017-08-25 2020-03-24 南京小睿软件有限公司 维度数据和指标数据的识别方法、存储介质及服务器
CN107562893A (zh) * 2017-09-06 2018-01-09 叶进蓉 一种用于网络日志文件中的多维度数据去重方法及***
CN110601866A (zh) * 2018-06-13 2019-12-20 阿里巴巴集团控股有限公司 一种流量分析***、数据采集装置、数据处理装置及方法
CN110601866B (zh) * 2018-06-13 2023-01-24 阿里巴巴集团控股有限公司 一种流量分析***、数据采集装置、数据处理装置及方法
CN109710610A (zh) * 2018-12-17 2019-05-03 北京三快在线科技有限公司 数据处理方法、装置及计算设备
CN109739940A (zh) * 2018-12-29 2019-05-10 东软集团股份有限公司 联机分析处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN104424231B (zh) 2019-07-16
WO2015027831A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
CN104424231A (zh) 多维数据的处理方法及装置
US10725981B1 (en) Analyzing big data
CN104394118B (zh) 一种用户身份识别方法及***
Brandes et al. Network analysis of collaboration structure in Wikipedia
Dourisboure et al. Extraction and classification of dense communities in the web
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN113010506A (zh) 一种多源异构水环境大数据管理***
TW201937429A (zh) 一種判定行銷方案的方法、裝置及電子設備
US7542970B2 (en) System and method for selecting a sub-domain for a specified domain of the web
CN111159184B (zh) 元数据追溯方法、装置及服务器
CN109635276B (zh) 一种信息匹配方法及终端
Fair et al. Shouting into the void: A database of the alternative social media platform gab
CN107292463A (zh) 一种对应用程序进行项目评估的方法及***
JP2009528639A (ja) ソーシャルメディアにおける会話を分析するためのソーシャル分析システムおよび方法
CN112906826B (zh) 基于多维度的知识图谱的融合方法、装置及计算机设备
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
Anitha A new web usage mining approach for next page access prediction
Ali et al. A framework to implement data cleaning in enterprise data warehouse for robust data quality
DE112011101293T5 (de) Dynamische Echtzeit-Berichte basierend auf sozialen Netzwerken
CN111382181A (zh) 一种基于股权穿透的指定企业派系归属分析方法及***
CN106776703A (zh) 一种虚拟化环境下的多元数据清洗技术
CN111597178A (zh) 一种清洗重复数据的方法、***、设备及介质
Kalczynski et al. Predicting on-line task completion with clickstream complexity measures: A graph-based approach
Mitsyuk et al. Process model repair by detecting unfitting fragments?
Kong et al. Recommending code reviewers for proprietary software projects: A large scale study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230707

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right