CN112667627B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN112667627B
CN112667627B CN201910983940.XA CN201910983940A CN112667627B CN 112667627 B CN112667627 B CN 112667627B CN 201910983940 A CN201910983940 A CN 201910983940A CN 112667627 B CN112667627 B CN 112667627B
Authority
CN
China
Prior art keywords
data
dimension
dimensions
summarizing
use request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910983940.XA
Other languages
English (en)
Other versions
CN112667627A (zh
Inventor
张舜
张彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN201910983940.XA priority Critical patent/CN112667627B/zh
Publication of CN112667627A publication Critical patent/CN112667627A/zh
Application granted granted Critical
Publication of CN112667627B publication Critical patent/CN112667627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,涉及计算机技术领域。该方法的一具体实施方式包括:确定汇总方式,汇总方式指示了数据的多个第一数据维度以及多个第一数据维度之间的计算关系;根据汇总方式,对具有多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及汇总方式对应的索引,其中,第二数据维度是根据汇总方式指示的计算关系,基于多个第一数据维度而生成的;接收数据使用请求,数据使用请求指示了待使用数据的数据维度;当第二数据维度中存在数据使用请求所指示的数据维度时,根据索引,提取与数据使用请求所指示的数据维度相对应的汇总数据。该实施方式提高了数据处理效率,减少了数据的反馈延迟。

Description

一种数据处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着计算机技术的发展,数据处理平台需要处理的数据量越来越大。
用户在数据处理平台上使用基于数据维度的数据时,通常会需要同时提取多个数据维度的数据,例如,用户在统计某个地区的产品总量时,需要数据处理平台根据地域、产品种类和数量这三个数据维度的数据,汇总出产品总量。而由于数据处理平台所处理的数据量较大,其根据用户的使用请求实时汇总多个数据维度的数据,将降低数据处理的效率,从而导致数据的反馈延迟。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法及装置,能够提高数据处理效率,减少数据的反馈延迟。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法。
本发明实施例的一种数据处理方法包括:
确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;
根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;
接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;
当所述第二数据维度中存在所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
可选地,
所述根据汇总方式,对具有所述多个第一数据维度的数据进行汇总,包括:
对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总。
可选地,
所述对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总,包括:
根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序;
根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
可选地,
所述根据所述多个第一数据维度分别对应的属性值的数量,对所述多个第一数据维度进行排序,包括:
分别对所述多个第一数据维度进行唯一化处理,并根据唯一化处理后的第一数据维度的属性值数量,对所述多个第一数据维度进行排序。
可选地,该方法还包括:
当所述第二数据维度中不存在与所述数据使用请求所指示的数据维度相对应的数据维度时,提取与所述数据使用请求所指示的数据维度相对应的数据。
为实现上述目的,根据本发明实施例的又一方面,提供了一种数据处理装置。
本发明实施例的一种数据处理装置包括:规则确定模块、数据汇总模块、请求接收模块和数据提取模块;其中,
所述规则确定模块,用于确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;
所述数据汇总模块,用于根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;
所述请求接收模块,用于接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;
所述数据提取模块,用于当所述第二数据维度中存在与所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
可选地,
所述数据汇总模块,用于对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总。
可选地,
所述数据汇总模块,用于根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序;根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
为实现上述目的,根据本发明实施例的又一方面,提供了一种用于数据处理的电子设备。
本发明实施例的一种用于数据处理的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种用于数据处理方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读存储介质。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种用于数据处理方法。
上述发明中的一个实施例具有如下优点或有益效果:通过在接收数据使用请求之前,预先根据汇总方式,对具有多个第一数据维度的数据进行汇总,形成具有第二数据维度的汇总数据以及相应的索引。则在接收到数据使用请求时,可根据索引提取与数据使用请求所指示的数据维度相对应的汇总数据,而无需在接收到数据使用请求之后,再根据数据使用请求指示的待使用数据的数据维度,对相应数据进行实时计算。其中,数据汇总过程可在数据处理装置空闲时进行,由此可提高数据处理效率,在接收到用户输入的数据使用请求之后,能根据索引快速确定出相应的汇总数据,并直接向用户反馈相应的汇总数据,从而避免了数据的反馈延迟。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据处理方法的主要步骤的示意图;
图2是根据本发明实施例的数据处理装置的主要模块的示意图;
图3是本发明实施例可以应用于其中的示例性***架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例的数据处理方法的主要步骤的示意图。
如图1所示,本发明实施例的数据处理方法主要包括以下步骤:
步骤S101:确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系。
汇总方式与实际业务场景有关,例如,在涉及产品物流或零售的业务场景中,汇总方式所指示的第一数据维度可以为地域、产品、数量、单价和物料等。汇总方式除了指示第一数据维度外,还指示多个第一数据维度之间的计算关系,例如,汇总方式可指示数量和单价分别对应的第一数据维度之间的计算关系为乘积关系,则根据该汇总方式对数量和单价分别对应的第一数据维度进行汇总后,得到的第二数据维度对应于销售额。
步骤S102:根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的。
在进行数据汇总前,首先获取到的未经任何处理的待加工数据,根据待加工数据可形成数据模型的待加工模型层,然后,可对待加工模型层的待加工数据进行数据清洗等预处理操作。
在对数据进行预处理时,可分别对所述多个第一数据维度进行唯一化处理,并根据唯一化处理后的第一数据维度的属性值数量,对所述多个第一数据维度进行排序。其中,第一数据维度的属性值为第一数据维度下的具体参数,例如,当第一数据维度为地域时,其属性值可为华东、华北和华中等。当同一个第一数据维度下具有多个相同的属性值时,根据具体的业务场景不同,可利用去重或者求和的方式对同一个第一数据维度下的多个相同属性值进行唯一化处理,以使得同一个第一数据维度下的多个属性值各不相同,以便于后期数据汇总。预处理后的数据可形成明细模型层。在进行数据汇总时,则主要针对明细模型层的数据进行汇总。
在对数据预处理后,可根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序,然后根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
例如,第一数据维度dim1表示地域,其对应的属性值为华中和华北,第一数据维度dim2表示产品,其对应的属性值为A和B,相应的数据结构可如表1所示:
表1
dim1 dim2
华中 A
华中 B
华北 A
可根据上表1中的数据结构,分别确定dim1和dim2分别的属性值数量,具体地,由于dim1下有两个相同的属性值(华中),这两个想属性值需进行唯一化处理,则dim1对应的属性值为2,同理,dim2对应的属性值也为2。
由于当数据量过大时,数据汇总后的数据量仍然很大,此时由于数据汇总产生的数据加速处理效果较小,因此,为了减少数据汇总量,提升数据汇总效率,对这部分数据仍保留明细数据,而不进行数据汇总。换句话说,在进行数据汇总时,仅对具有多个第一数据维度且数据量小于汇总阈值的数据进行汇总。
基于此,在数据汇总时,可根据确定出的第一数据维度对应的属性值数量,对多个第一数据维度进行排序,此处以由小到大排序为例,排序结果为dim1、dim2、dim3……dimy,其中,第一数据维度dim1对应的属性值数量为D1,dim2对应的属性值数量为D2,以此类推,dimy对应的属性值数量为Dy。为了便于确定数据组合量,可确定多个第一数据维度对应的直方图,该直方图的横坐标为第一数据维度的标识,纵坐标为第一数据维度对应的属性值,例如,上述y个第一数据维度的直方图为D:{‘dim1’:D1,‘dim2’:D2……‘dimy’:Dy}。则根据各个第一数据维度的直方图以及数据组合原理,这y个第一数据维度的最大数据组合量T为假设汇总阈值为K,当/>时,则直接将y个第一数据维度均作为第三数据维度,也就是说,这y个第一数据维度对应的数据均可被汇总。
若最大数据组合量T>K时,则先去掉属性值数量最大的第一数据维度,然后再确定数据组合量是否不大于汇总阈值,也就是判断是否不大于K,若此时/>仍大于K,则继续去掉y-1个第一数据维度中属性值数量最大的第一数据维度,然后再判断/>是否不大于K,以此循环,直至/>然后将排序结果中属性值数量不大于第n个第一数据维度的属性值数量的第一数据维度作为第三数据维度,在此例中,也就是将dim1、dim2、dim3……dimn作为第三数据维度,由此,剔除数据量较大的数据维度,以便更好的对数据进行汇总处理。其中,汇总阈值可根据实际需求设置,例如,将汇总阈值设置为100W。
确定出第三数据维度之后,可对具有多个第三数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及汇总方式对应的索引,第二数据维度即为基于第三数据维度生成的汇总后的数据维度。其中,汇总后的第二数据维度的规则描述可如表2所示,相应的索引的规则描述可如表3所示,则根据相应的第二数据维度的规则描述和索引的规则描述,汇总后的数据可形成数据模型的汇总层,汇总层的数据存储格式可如表4所示。在实际应用时,指定第一数据维度的汇总方式适用性广,按全维度汇总的方式通常在hadoop等平台使用。
表2
表3
表4
可以理解的是,在存储汇总数据(汇总层)时,可以不再存储数据维的数据,而仅存储索引与具体的汇总数据,也就是说,汇总层的数据存储格式还可如表5所示,在提取汇总数据时,可直接根据索引提取相关的汇总数据。
表5
步骤S103:接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度。
步骤S104:当所述第二数据维度中存在所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
当接收到数据使用请求时,可根据表4或表5中的索引,确定与数据使用请求所指示的数据维度相对应的第二数据维度,然后提取相应的汇总数据。
而当数据使用请求指示的数据维度未被汇总时,也就是说,当所述第二数据维度中不存在与所述数据使用请求所指示的数据维度相对应的数据维度时,提取与所述数据使用请求所指示的数据维度相对应的数据。换句话说,当数据使用请求指示的数据维度未被汇总时,可直接从数据模型的明细模型层提取相应数据。
也就是说,当接收到数据使用请求时,可根据索引确定出是否存在与数据使用请求指示的数据维度的汇总数据,如果存在,则从数据模型的汇总层提取数据,若不存在,则从数据模型的明细层提取数据,由此减少数据提取量,并减少数据提取过程中的数据计算量,从而提高数据处理效率。
根据本发明实施例的数据处理方法可以看出,通过在接收数据使用请求之前,预先根据汇总方式,对具有多个第一数据维度的数据进行汇总,形成具有第二数据维度的汇总数据以及相应的索引。则在接收到数据使用请求时,可根据索引提取与数据使用请求所指示的数据维度相对应的汇总数据,而无需在接收到数据使用请求之后,再根据数据使用请求指示的待使用数据的数据维度,对相应数据进行实时计算。其中,数据汇总过程可在数据处理装置空闲时进行,由此可提高数据处理效率,在接收到用户输入的数据使用请求之后,能根据索引快速确定出相应的汇总数据,并直接向用户反馈相应的汇总数据,从而避免了数据的反馈延迟。
图2是根据本发明实施例的数据处理装置的主要模块的示意图。
如图2所示,本发明实施例的数据处理装置200包括:规则确定模块201、数据汇总模块202、请求接收模块203和数据提取模块204;其中,
所述规则确定模块201,用于确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;
所述数据汇总模块202,用于根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;
所述请求接收模块203,用于接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;
所述数据提取模块204,用于当所述第二数据维度中存在与所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
在本发明一个实施例中,所述数据汇总模块202,用于对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总。
在本发明一个实施例中,所述数据汇总模块202,用于根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序;根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
本发明实施例还提供给了一种用于数据处理的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种用于数据处理方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种用于数据处理方法。
根据本发明实施例的数据处理装置可以看出,通过在接收数据使用请求之前,预先根据汇总方式,对具有多个第一数据维度的数据进行汇总,形成具有第二数据维度的汇总数据以及相应的索引。则在接收到数据使用请求时,可根据索引提取与数据使用请求所指示的数据维度相对应的汇总数据,而无需在接收到数据使用请求之后,再根据数据使用请求指示的待使用数据的数据维度,对相应数据进行实时计算。其中,数据汇总过程可在数据处理装置空闲时进行,由此可提高数据处理效率,在接收到用户输入的数据使用请求之后,能根据索引快速确定出相应的汇总数据,并直接向用户反馈相应的汇总数据,从而避免了数据的反馈延迟。
图3示出了可以应用本发明实施例的数据处理方法或数据处理装置的示例性***架构300。
如图3所示,***架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的数据处理方法一般由服务器305执行,相应地,数据处理装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备的计算机***400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括规则确定模块、数据汇总模块、请求接收模块和数据提取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,规则确定模块还可以被描述为“确定汇总方式的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;当所述第二数据维度中存在所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
根据本发明实施例的技术方案,通过在接收数据使用请求之前,预先根据汇总方式,对具有多个第一数据维度的数据进行汇总,形成具有第二数据维度的汇总数据以及相应的索引。则在接收到数据使用请求时,可根据索引提取与数据使用请求所指示的数据维度相对应的汇总数据,而无需在接收到数据使用请求之后,再根据数据使用请求指示的待使用数据的数据维度,对相应数据进行实时计算。其中,数据汇总过程可在数据处理装置空闲时进行,由此可提高数据处理效率,在接收到用户输入的数据使用请求之后,能根据索引快速确定出相应的汇总数据,并直接向用户反馈相应的汇总数据,从而避免了数据的反馈延迟。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;
根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;
接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;
当所述第二数据维度中存在所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
2.根据权利要求1所述的方法,其特征在于,所述根据汇总方式,对具有所述多个第一数据维度的数据进行汇总,包括:
对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总。
3.根据权利要求2所述的方法,其特征在于,所述对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总,包括:
根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序;
根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第一数据维度分别对应的属性值的数量,对所述多个第一数据维度进行排序,包括:
分别对所述多个第一数据维度进行唯一化处理,并根据唯一化处理后的第一数据维度的属性值数量,对所述多个第一数据维度进行排序。
5.根据权利要求1所述的方法,其特征在于,还包括:
当所述第二数据维度中不存在与所述数据使用请求所指示的数据维度相对应的数据维度时,提取与所述数据使用请求所指示的数据维度相对应的数据。
6.一种数据处理装置,其特征在于,包括:规则确定模块、数据汇总模块、请求接收模块和数据提取模块;其中,
所述规则确定模块,用于确定汇总方式,所述汇总方式指示了数据的多个第一数据维度以及所述多个第一数据维度之间的计算关系;
所述数据汇总模块,用于根据所述汇总方式,对具有所述多个第一数据维度的数据进行汇总,以形成具有第二数据维度的汇总数据以及所述汇总方式对应的索引,其中,所述第二数据维度是根据所述汇总方式指示的计算关系,基于所述多个第一数据维度而生成的;
所述请求接收模块,用于接收数据使用请求,所述数据使用请求指示了待使用数据的数据维度;
所述数据提取模块,用于当所述第二数据维度中存在与所述数据使用请求所指示的数据维度时,根据所述索引,提取与所述数据使用请求所指示的数据维度相对应的汇总数据。
7.根据权利要求6所述的装置,其特征在于,
所述数据汇总模块,用于对具有所述多个第一数据维度、以及数据量小于汇总阈值的数据进行汇总。
8.根据权利要求7所述的装置,其特征在于,
所述数据汇总模块,用于根据所述多个第一数据维度分别对应的属性值数量,对所述多个第一数据维度进行排序;根据排序结果以及下述公式,确定第三数据维度,所述第三数据维度的属性值数量不大于所述排序结果中的第n个第一数据维度的属性值数量,并对具有所述第三数据维度的数据进行汇总;
其中,Di表征第i个第一数据维度的属性值数量,K表征所述汇总阈值。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201910983940.XA 2019-10-16 2019-10-16 一种数据处理方法及装置 Active CN112667627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910983940.XA CN112667627B (zh) 2019-10-16 2019-10-16 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910983940.XA CN112667627B (zh) 2019-10-16 2019-10-16 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112667627A CN112667627A (zh) 2021-04-16
CN112667627B true CN112667627B (zh) 2023-11-03

Family

ID=75400391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910983940.XA Active CN112667627B (zh) 2019-10-16 2019-10-16 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112667627B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257365A (en) * 1990-03-16 1993-10-26 Powers Frederick A Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records
CN109872015A (zh) * 2017-12-01 2019-06-11 北京京东尚科信息技术有限公司 用于行为数据评估的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257365A (en) * 1990-03-16 1993-10-26 Powers Frederick A Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records
CN109872015A (zh) * 2017-12-01 2019-06-11 北京京东尚科信息技术有限公司 用于行为数据评估的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MDD的OLAP数据膨胀问题研究;许建;罗永强;;清远职业技术学院学报(03);全文 *

Also Published As

Publication number Publication date
CN112667627A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109614402B (zh) 多维数据查询方法和装置
US20190354398A1 (en) Context aware prioritization in a distributed environment using tiered queue allocation
CN107480205B (zh) 一种进行数据分区的方法和装置
CN112527649A (zh) 一种测试用例的生成方法和装置
CN108595448B (zh) 信息推送方法和装置
CN107908662B (zh) 搜索***的实现方法和实现装置
CN111695840A (zh) 一种实现流程控制的方法和装置
CN110866040A (zh) 用户画像生成方法、装置和***
CN111858706A (zh) 一种数据处理的方法和装置
CN111753019B (zh) 一种应用于数据仓库的数据分区方法和装置
CN113761565B (zh) 数据脱敏方法和装置
CN112667627B (zh) 一种数据处理方法及装置
CN113590447B (zh) 埋点处理方法和装置
CN113722593B (zh) 事件数据处理方法、装置、电子设备和介质
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN107920100B (zh) 信息推送方法和装置
CN115423030A (zh) 一种设备识别的方法和装置
CN112887426B (zh) 信息流的推送方法、装置、电子设备以及存储介质
CN113590322A (zh) 一种数据处理方法和装置
CN110020211B (zh) 用户属性影响力的评估方法和装置
CN112862554A (zh) 一种订单数据的处理方法和装置
CN112184370A (zh) 一种推送产品的方法和装置
CN111127077A (zh) 一种基于流计算的推荐方法和装置
CN112131287A (zh) 一种读取数据的方法和装置
CN112395510A (zh) 基于活跃度确定目标用户的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant