CN106202092A

CN106202092A - 数据处理的方法及***

Info

Publication number: CN106202092A
Application number: CN201510222356.4A
Authority: CN
Inventors: 韩旻
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-05-04
Filing date: 2015-05-04
Publication date: 2016-12-07
Anticipated expiration: 2035-05-04
Also published as: WO2016177279A1; JP2018515844A; SG11201708917SA; KR102134952B1; PL3293641T3; CN106202092B; US20200192882A1; EP3293641B1; EP3293641A4; US20180046658A1; US10592491B2; JP6779231B2; US10872070B2; KR20180002758A; ES2808948T3; EP3293641A1

Abstract

本申请公开了一种数据处理的方法及其***。该方法包括以下步骤：根据筛选规则，从待处理的键值对中选择部分作为热点键值对；对热点键值对执行映射处理，得到与热点键值对对应的中间结果键值对；对中间结果键值对执行归约处理，生成供调用的最终结果键值对；其中，键值对包括表征属性的键值和表征属性内容的键值。在该方法及其对应的***中，数据处理***将热点键值对预先处理以便业务***调用，而非热点键值对在业务***调用时才进行处理，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

Description

数据处理的方法及***

技术领域

本申请涉及大数据技术领域，尤其涉及一种数据处理的方法及***。

背景技术

随着计算机技术的发展，计算机需要处理的数据量也越来越大，单台计算机已经不能处理一些大规模的数据，因此发展出将多台计算机联合起来构成计算机群以并行处理大规模数据的技术。

Hadoop分布式集群***架构即是这样的***架构。Hadoop***可以使用大量廉价的计算机构成计算机集群，通过该集群取代昂贵的高运算速度的计算机进行高速运算和存储。Hadoop***主要包括分布式文件***和映射(Map)归约(Reduce)***。其中，分布式文件***进行数据管理和数据存储。映射归约***实现对分布式文件***输入的数据进行运算处理，主要包括：将待处理数据集分解为多个数据块；分别对每个数据块中的每个原始键值对数据执行Map处理，得到与每个原始键值对数据对应的中间结果键值对数据；在得到与所有原始键值对数据对应的中间结果键值对数据后，再对所有中间结果键值对数据进行相应的归约(Reduce)处理，得到相应的最终结果键值对数据。

通过上述处理方式，可以将一个大的任务拆成较大数量的小任务并由处于分布式***中的较大数量的计算机(也称为任务执行者)来执行。这样可以完成对海量数据的快速处理。这种处理方式仍然没有减少总的计算资源，而是将需要的大量计算资源分配给了大量的计算机，从而可以大大压缩需要的处理时间。对于对时间敏感度不高的离线场景来说，这种处理方式较为适合。对于在线业务场景，例如即时通讯场景，一般要求在短时间内完成海量数据处理并输出结果，因此对时间较为敏感。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

对时间较为敏感的在线业务场景中，仍然是占用大量计算机资源对海量数据完成处理，即处理的数据量仍然是巨大的。因此，Hadoop***处理数据过程消耗的时间冗长，造成业务***调用Hadoop***对数据处理结果的等待时间长，执行效率低，不能满足具体的业务顺畅的诉求，进而导致用户体验差。

因此，发明人在对现有的数据处理的方法进行研究的基础上，提供一种执行效率高、用户体验好的数据处理的方法及***。

发明内容

本申请实施例提供一种执行效率高、用户体验好的数据处理的方法，具体的，一种数据处理的方法，包括以下步骤：

根据筛选规则，从待处理的键值对中选择部分作为热点键值对；

对热点键值对执行映射处理，得到与热点键值对对应的中间结果键值对；

对中间结果键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征数值的键值。

本申请实施例还提供一种数据处理的方法，包括以下步骤：

对待处理的键值对执行映射处理，得到与待处理的键值对对应的中间结果键值对；

根据筛选规则，从中间结果键值对中选择部分作为热点键值对；

对热点键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征属性内容的键值。

本申请实施例还提供一种数据处理的***，包括：

筛选模块，用于根据筛选规则，从待处理的键值对中选择部分作为热点键值对；

映射模块，用于对热点键值对执行映射处理，得到与热点键值对对应的中间结果键值对；

归约模块，用于对中间结果键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征数值的键值。

本申请实施例还提供一种数据处理的***，包括：

映射模块，用于对待处理的键值对执行映射处理，得到与待处理的键值对对应的中间结果键值对；

筛选模块，用于根据筛选规则，从中间结果键值对中选择部分作为热点键值对；

归约模块，用于对热点键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征属性内容的键值。

本申请实施例提供的数据处理的方法和***，至少具有如下有益效果：

数据处理***将热点键值对预先处理以便业务***调用，而非热点键值对在业务***调用时才进行处理，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的数据处理的方法的流程图。

图2为本申请实施例提供的从映射键值对中选择部分作为热点键值对的流程图。

图3为本申请实施例提供的数据处理的***的结构示意图。

具体实施方式

为了解决现有的数据处理的方法的数据处理时间长、执行效率低，不能满足具体的业务顺畅的诉求，进而导致用户体验差的技术问题，本申请实施例提供了一种数据处理的方法及其对应***。在该方法及其对应的***中，数据处理***将热点键值对预先处理以便业务***调用，而非热点键值对在业务***调用时才进行处理，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Hadoop***可以包括：

客户端JobClient，用于提交Map-Reduce工作；

工作调度器JobTracker，其为一个Java进程，用于协调整个工作的运行；

任务调度器TaskTracker，其为一个Java进程，运行此工作的任务；

分布式文件***(Hadoop Distributed File System，HDFS)，用于在各个进程间共享工作相关的文件。

Hadoop***的工作流程可以包括：

一、任务提交。

客户端向工作调度器请求一个新的工作代码，创建一个新的工作实例，调用submitJob函数。

二、任务初始化。

当工作调度器收到submitJob函数调用的时候，获取并初始化任务。工作调度器创建任务，并分配任务代码。

三、任务分配。

工作调度器给任务调度器分配任务。

四、任务执行。

任务调度器被分配了一个任务后，开始运行此任务。映射过程中，任务调度器调用map函数处理任务，也即处理原始键值对生成中间结果键值对，并将中间结果键值对按照键值的顺序输出。然后，任务调度器调用reduce函数处理中间结果键值对生成最终结果键值对。

五、任务结束

工作调度器获得任务调度器的所有任务运行成功的报告后，结束工作。

图1为本申请实施例提供的数据处理的方法的流程图，具体包括以下步骤：

S100：根据筛选规则，从待处理的键值对中选择部分作为热点键值对。

数据体现为描述数据性质的属性及数值，也就是通常讲的键值对。键值对包括表征属性的键值和表征属性内容的键值。属性内容包括但不限于列表list、哈希表hash map、字符串、数值、布尔值、有序列表array、null值等。例如，{“姓名”：“王小二”}表示人物的“姓名”为“王小二”的数据。

在一个具体实施例中，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：可以随机选择若干待处理的键值对作为热点键值对。实际上，判断待处理的键值对是否是热点键值对是一个复杂的过程，尤其是待处理键值对的数量级在百万，甚至上亿的情形下。在本申请实施例中，数据处理***随机选择若干待处理键值对作为热点键值对，从而可以简化待处理键值对是否是热点键值对的判断过程，提高使用该方法的数据处理效率。

将热点键值对预先处理供业务***调用，而非热点键值对在业务***调用时才进行处理，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

在又一个具体实施例中，请参照图2，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：

S101：随机选择第一数量的待处理的键值对作为待选键值对；

S102：统计待选键值对中每一键值对被调用的频度；

S103：按照频度排列待选键值对；

S104：从待选键值对中选择第二数量的、调用的频度位于前列的键值对作为热点键值对；

其中，第一数量大于第二数量。

在本申请实施例中，首先，数据处理***随机选择第一数量的映射键值对作为待选键值对。第一数量通常与具体的业务相对应。该第一数量的数值可以是根据历史经验设定的固定值，也可以是计算机动态调整变化生成的数值。

然后，数据处理***统计待选键值对中每一键值对被调用的频度，按照频度排列待选键值对。在具体的业务活动中，往往需要调取一定数量的键值对来对业务***进行支持。此时，数据处理***对每一键值对被调用的频度——一段时间内被调用的次数——进行追踪记录。进一步的，数据处理***还可以按照被调用的频度从大到小排列键值对。

接着，数据处理***从待选键值对中选择第二数量的、调用的频度位于前列的键值对作为热点键值对。其中，第一数量大于第二数量。同样，该第二数量的数值可以是根据历史经验设定的固定值，也可以是数据处理***动态调整变化生成的数值。选择出来的热点键值对相对于其他的待选键值对被调用的频度大。数据处理***预先将热点键值对处理，而不是对其他的待选键值对进行预先处理。预先处理过的键值对被调用的概率大于其他键值对被调用的概率。从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

进一步的，在本申请实施例中，从映射键值对中选择部分作为热点键值对，还包括：

在随机选择第一数量的待处理的键值对作为待选键值对的步骤之前，设定待选键值对的业务类别条件集；

选择符合业务类别条件集的待处理的键值对。

在本申请实施例中，业务类别条件集可以根据历史经验设定的固定，也可以动态调整变化生成。实际上，一种业务活动的业务***调用的键值对往往带有一些特有的性质以区别于其他业务活动。例如，推送信息的业务***调用的键值对，相较于支付的业务***调用的键值对，有其特有的性质。推送信息的业务***，可以与表示接收者年龄的键值对相关。例如，婚庆商品的推送信息对于年龄在16岁以下的接收者通常属于垃圾信息。推送信息的业务***的业务类别条件集包含表示年龄的键值对时，可以取得较好的推送效果。

因此，设定待处理的键值对的业务类别条件集，数据处理***经过业务类别条件集的判断可以过滤掉大量的待处理的键值对，提高热点键值对的选择精确度，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

在本申请的又一个具体实施例中，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：

设定热点键值对的调用频度阈值；

当键值对被调用的频度大于调用频度阈值时，将该键值对设置为热点键值对。

在本申请实施例中，设定键值对的调用频度阈值，当键值对的被调用的频度大于调用频度阈值时，数据处理***将该键值对设置为热点键值对。数据处理***预先将热点键值对处理，而不是对其他的键值对进行预先处理。预先处理过的键值对被调用的概率大于其他键值对被调用的概率。从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

S200：对热点键值对执行映射处理，得到与热点键值对对应的中间结果键值对。

在本申请提供的一个实施例中，客户端JobClient向工作调度器提交Map-Reduce工作，创建一个新的工作实例，调用submitJob函数。当工作调度器收到submitJob函数调用的时候，获取并初始化任务。工作调度器创建一个任务，并分配一个任务代码。工作调度器给任务调度器分配任务。任务调度器被分配了一个任务后，开始运行此任务。映射过程中，任务调度器调用map函数处理任务，也即处理原始键值对生成中间结果键值对，并将中间结果键值对按照键值的顺序输出。

S300：对中间结果键值对执行归约处理，生成供调用的最终结果键值对。

在本步骤中，任务调度器调用reduce函数处理中间结果键值对生成最终结果键值对。工作调度器获得任务调度器的所有任务运行成功的报告后，将最终结果键值对存入分布式文件***，并结束工作。

在本申请实施例中，数据处理***将热点键值对预先处理以便业务***调用，而非热点键值对在业务***调用时才进行处理，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

在本申请提供的一个实施例中，方法还包括：

使用机器学习模型，优化对筛选规则。

机器学习模型，涉及人工智能。在本申请实施例中，使用机器学习模型对筛选规则进行优化。数据处理***运行一段时间后，热点键值对和非热点键值对判断的准确性可以显著提高。从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

使用何种机器学习模型，根据具体的业务***来进行选择，下面简单介绍一种机器学习模型对筛选规则的优化。

具体的，使用机器学习模型中的聚类算法，统计键值对被调用的频度随单一属性的分布状况；

根据键值对被调用的频度随单一属性的分布状况，选择键值对被调用的频度不小于预设频度阈值的属性内容的键值的区间；

设定所述属性内容的键值的区间为筛选规则的规则条件。

仍以上面的推送信息的业务***为例来说明。假设，业务***统计出推送信息的业务超出某一预设比例，例如50％，调用表示接收者年龄的键值对。机器学习模型通过K-means聚类算法对筛选规则进行优化。

假设要把样本集(表示接收者年龄的键值对及其被调用的频度)分为m个类别(频度段)，算法描述如下：

(1)适当选择m个类别(频度段)的初始中心(频度)；

(2)在第k次迭代中，对任意一个样本(表示接收者年龄的键值对及其被调用的频度)，求其到m个中心的距离(频度差)，将该样本(表示接收者年龄的键值对及其被调用的频度)归到距离最短的中心所在的类别(频度段)；

(3)利用均值方法更新该类别(频度段)的中心值(频度)；

(4)对于所有的m个中心值(频度)，如果利用(2)(3)的迭代法更新后，值保持不变，则迭代结束，否则继续迭代；

(5)针对m个类别(频度段)中的每一个类别(频度段)适当选择n个类别(年龄段)的初始中心(年龄)；

(6)在第k次迭代中，对任意一个样本(表示接收者年龄的键值对及其被调用的频度)，求其到n个中心的距离(年龄差)，将该样本(表示接收者年龄的键值对及其被调用的频度)归到距离最短的中心所在的类别(年龄段)；

(7)利用均值方法更新该类别(年龄段)的中心值(年龄)；

(8)对于所有的n个中心值(年龄)，如果利用(6)(7)的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

通过该算法，可以计算出调用的频度大的待处理的键值对随年龄的聚类规律。将接收者年龄位于某个类别(年龄段)作为筛选规则的规则条件，例如，将表示接收者年龄位于12-18岁作为待处理的键值对是热点键值对的规则条件。业务***通过机器学习模型对筛选规则优化后，则根据优化后的筛选规则，将热点键值对从待处理的键值对中筛选出。

在本申请提供的实施例中，规则优化模块，还用于：

当一个属性的键值对和另一属性的键值对被具有同一业务代码的业务***调用时，将这两个属性的键值对的属性内容的键值的区间的并集设定为筛选规则的规则条件。

假设，机器学习模型完成接收者年龄这一维度对筛选规则的优化后，还完成了接收者职业这一维度对筛选规则的优化。

数据处理***计算出接收者处于某一年龄段的待处理的键值对和接收者属于某一职业的待处理的键值对，与推送信息高度相关。例如，某待处理的键值对表示接收者处于20-30年龄段，某待处理的键值对表示接收者处于计算机行业，业务***推送信息时，对同时具有这两个维度特征的接收者能获得良好的业务推广效果。则，机器学习模型将表示接收者处于20-30年龄段的待处理的键值对，和表示接收者处于计算机行业的待处理的键值对进行关联形成热点键值对数据组。

数据处理***通过机器学习模型进一步对热点键值对数据组被调用的频度进行排序，将热点键值对数据组区分为热点数据组和非热点数据组。热点数据组的一种动态调整模式为：设定热点数据组的调用的频度阈值，当数据组中键值对被调用的频度大于频度阈值时，将该数据组设定为热点数据组。

在本申请实施例中，设定数据组处理优先级值。该优先级值由待处理的键值对的加权和值算得。根据该优先级值，动态调整数据组的处理优先级。当数据组中某一键值对被调用一次，数据组的优先级值增加一个单位。当某一数据组的优先级值超过其前一个数据组的优先级值时，数据处理***将该数据组前置一位。经过机器学习模型对筛选规则的优化，数据处理***从待处理的键值对中选择出的热点键值对是被调用频度位于前列的映射键值对，其中由键值对关联形成的热点数据组是被调用频度位于前列的数据组，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

在本申请提供的一个实施例中，方法还包括：

当非热点键值对被调用时，使用归约函数处理非热点键值对生成供调用的数据。

在本申请实施例中，热点键值对由数据处理***使用归约函数预先处理生成供业务***调用的数据；非热点键值对在被业务***调用时，由数据处理***使用归约函数即时处理，生成供业务***调用的数据。从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

在本申请实施例的一种替代方式中，数据处理的方法，包括以下步骤：

其中，键值对包括表征属性的键值和表征属性内容的键值。

需要指出的是，与前面提供的具体实施例的差别在于：选择部分作为热点键值对的步骤，设置于映射处理步骤之后。在本申请实施例中，降低了归约处理的键值对的数据量，可以在一定程度上解决数据量巨大的问题，从而，减少了为业务***提供后台服务的数据处理***需要即时处理的数据量，提高数据处理执行效率，减少了业务***获得数据处理结果的等待时间，业务处理顺畅，进而用户体验好。

以上是本申请实施例提供的数据处理的方法，基于同样的思路，请参照图3，本申请还提供一种数据处理的***1，包括：

筛选模块10，用于根据筛选规则，从待处理的键值对中选择部分作为热点键值对；

映射模块20，用于对热点键值对执行映射处理，得到与热点键值对对应的中间结果键值对；

归约模块30，用于对中间结果键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征数值的键值。

进一步的，筛选模块10，用于从待处理的键值对中选择部分作为热点键值对，具体用于：

随机选择若干待处理的键值对作为热点键值对。

随机选择第一数量的待处理的键值对作为待选键值对；

统计待选键值对中每一键值对被调用的频度；

按照频度排列待选键值对；

从待选键值对中选择第二数量的、调用的频度位于前列的键值对作为热点键值对；

其中，第一数量大于第二数量。

进一步的，筛选模块10，用于从映射键值对中选择部分作为热点键值对，具体还用于：

选择符合业务类别条件集的待处理的键值对。

设定热点键值对的调用频度阈值；

进一步的，***还包括规则优化模块40，用于：

使用机器学习模型，优化对筛选规则。

进一步的，映射模块20，用于：

当非热点键值对被调用时，对非热点键值对执行映射处理，得到与非热点键值对对应的中间结果键值对。

进一步的，一种数据处理的***1，包括：

映射模块20，用于对待处理的键值对执行映射处理，得到与待处理的键值对对应的中间结果键值对；

筛选模块10，用于根据筛选规则，从中间结果键值对中选择部分作为热点键值对；

归约模块30，用于对热点键值对执行归约处理，生成供调用的最终结果键值对；

其中，键值对包括表征属性的键值和表征属性内容的键值。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数值处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数值处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数值处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数值处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数值结构、程序的模块或其他数值。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数值信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括以下步骤：

其中，键值对包括表征属性的键值和表征属性内容的键值。

2.如权利要求1所述的方法，其特征在于，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：

随机选择若干待处理的键值对作为热点键值对。

3.如权利要求1所述的方法，其特征在于，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：

随机选择第一数量的待处理的键值对作为待选键值对；

统计待选键值对中每一键值对被调用的频度；

按照频度排列待选键值对；

从待选键值对中按照调用频度由高到低的顺序选择第二数量的键值对作为热点键值对；

其中，第一数量大于第二数量。

4.如权利要求3所述的方法，其特征在于，所述根据筛选规则，从映射键值对中选择部分作为热点键值对，还包括：

选择符合业务类别条件集的待处理的键值对。

5.如权利要求1所述的方法，其特征在于，根据筛选规则，从待处理的键值对中选择部分作为热点键值对，具体包括：

设定热点键值对的调用频度阈值；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

使用机器学习模型，优化筛选规则。

7.如权利要求6所述的方法，其特征在于，使用机器学习模型，优化筛选规则，具体包括：

使用机器学习模型中的聚类算法，统计键值对被调用的频度随单一属性的分布状况；

设定所述属性内容的键值的区间为筛选规则的规则条件。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种数据处理的方法，其特征在于，包括以下步骤：

其中，键值对包括表征属性的键值和表征属性内容的键值。

11.一种数据处理的***，其特征在于，包括：

其中，键值对包括表征属性的键值和表征数值的键值。

12.如权利要求11所述的***，其特征在于，所述筛选模块，用于从待处理的键值对中选择部分作为热点键值对，具体用于：

随机选择若干待处理的键值对作为热点键值对。

13.如权利要求11所述的***，其特征在于，所述筛选模块，用于从待处理的键值对中选择部分作为热点键值对，具体用于：

随机选择第一数量的待处理的键值对作为待选键值对；

统计待选键值对中每一键值对被调用的频度；

按照频度排列待选键值对；

其中，第一数量大于第二数量。

14.如权利要求13所述的***，其特征在于，所述筛选模块，用于从映射键值对中选择部分作为热点键值对，具体还用于：

选择符合业务类别条件集的待处理的键值对。

15.如权利要求11所述的***，其特征在于，所述筛选模块，用于从待处理的键值对中选择部分作为热点键值对，具体用于：

设定热点键值对的调用频度阈值；

16.如权利要求11所述的***，其特征在于，所述***还包括规则优化模块，用于：

使用机器学习模型，优化对筛选规则。

17.如权利要求16所述的***，其特征在于，所述规则优化模块，用于：

设定所述属性内容的键值的区间为筛选规则的规则条件。

18.如权利要求17所述的***，其特征在于，所述规则优化模块，还用于：

19.如权利要求18所述的***，其特征在于，当非热点键值对被调用时，所述映射模块，用于：

对非热点键值对执行映射处理，得到与非热点键值对对应的中间结果键值对。

20.一种数据处理的***，其特征在于，包括：

其中，键值对包括表征属性的键值和表征属性内容的键值。