CN118170737A

CN118170737A - 数据处理方法、装置及相关设备

Info

Publication number: CN118170737A
Application number: CN202410579112.0A
Authority: CN
Inventors: 姜康
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2024-05-11
Filing date: 2024-05-11
Publication date: 2024-06-11

Abstract

本申请提供一种数据处理方法、装置及相关设备，该方法包括：获取多个待写入数据以及多个集群所对应的多个状态信息；根据所述多个状态信息和所述多个待写入数据生成缓存信息；基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置。本申请通过确定出多个集群所对应的多个状态信息后，基于多个状态信息为多个待写入数据分配对应的缓存信息，从而为每个待写入数据精准分配进行存储的集群，提高了数据的处理效率。

Description

数据处理方法、装置及相关设备

技术领域

本申请实施例涉及云计算领域，尤其涉及一种数据处理方法、装置及相关设备。

背景技术

ElasticSearch是业界一款优秀的搜索引擎工具，通常被用在日志场景中对日志的写入、存储、搜索。然而 ElasticSearch 由于其自身架构设计，当单一集群分片数量达到数万，数据节点达到数百的情况下，经常会出现节点脱离，导致集群网络毛刺，并发查询、聚合、Scroll 等场景下查询性能明显降低，严重时会甚至会影响数据的正常接入，集群的维护成本明显上升，由此，在数据写入时经常出现数据写入错误或者速度较慢的问题，从而导致出现了数据处理效率较低的问题。

发明内容

本申请实施例提供一种数据处理方法、装置及相关设备，以解决现有技术中数据写入效率较低的问题。

为解决上述问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态；

根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群；

基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；

在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。

可选的，所述根据所述多个状态信息和所述多个待写入数据生成缓存信息，包括：

根据负载动态评估算法对所述多个状态信息和所述多个待写入数据进行计算，得到第一计算结果，所述第一计算结果用于指示所述待写入数据对应的第一存储位置；

根据所述第一计算结果确定第二计算结果，所述第二计算结果用于指示所述待写入数据对应的写入时间点；

根据所述第一计算结果和所述第二计算结果生成所述缓存信息。

可选的，所述基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

基于所述缓存信息确定多个目标时间点，所述多个目标时间点与所述多个待写入数据一一对应，所述多个目标时间点为对应的待写入数据写入集群的时间点；

根据所述多个目标时间点生成时间轮，所述时间轮包括按照时间顺序依次进行排列的所述多个目标时间点；

根据所述时间轮和所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置。

可选的，所述根据所述时间轮和所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

基于所述多个集群和所述缓存信息生成多个元数据映射表，所述多个元数据映射表与所述多个集群一一对应，所述元数据映射表用于指示所对应的集群所存储内容的位置和存储时间；

根据所述时间轮和所述多个元数据映射表息，将每个所述待写入数据存储于所对应的第一存储位置。

可选的，所述根据所述时间轮和所述多个元数据映射表息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

在所述目标数据所对应的索引为预设索引之外的其他索引的情况下，在所述多个集群中确定第一集群，所述第一集群为所述多个集群中当前负载最低的集群；

根据所述时间轮和所述多个元数据映射表息将所述目标数据写入至所述第一集群；

在所述目标数据所对应的索引为预设索引且所述目标集群的负载指数大于预设阈值的情况下，将所述时间轮进行更新，得到目标时间轮；

根据所述目标时间轮和所述多个元数据映射表将所述目标数据存储于所对应的第一存储位置；

在所述目标数据所对应的索引为预设索引的情况且所述目标集群的负载指数小于预设阈值的情况下，在所述多个集群中确定第二集群，所述第二集群为所述多个集群中当前负载最低的集群；

根据所述时间轮和所述多个元数据映射表息将所述目标数据写入至所述第二集群进行存储。

可选的，所述在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置之后，所述方法还包括：

获取数据查询请求，所述数据查询请求用于在所述多个集群中查询第一数据；

在所述多个集群中获取存储信息，所述存储信息用于指示所述第一数据在所述多个集群中的至少一个存储位置；

根据预设条件对所述至少一个存储位置进行筛选，确定目标存储位置，所述预设条件包括以下至少一项：所述存储位置是否在所述预设时长内、所述存储位置是否位于所述第一存储位置、所述存储位置是否位于所述第二存储位置；

根据所述目标存储位置获取所述第一数据。

第二方面，本申请实施例还提供一种数据处理装置，所述装置包括：

获取模块，用于获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态；

生成模块，用于根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群；

写入模块，用于基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；

迁移模块，用于在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。

第三方面，本申请实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。

第四方面，本申请实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。

第五方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品被存储在存储介质中，所述计算机程序产品被至少一个处理器执行以实现如第一方面所述方法中的步骤。

本申请提供一种数据处理方法、装置及相关设备，该方法包括：获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态；根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群；基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。本申请通过确定出多个集群所对应的多个状态信息后，基于多个状态信息为多个待写入数据分配对应的缓存信息，从而为每个待写入数据精准分配进行存储的集群，提高了数据的处理效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的流程示意图；

图2是本申请实施例提供服务器的结构示意图之一；

图3是本申请实施例提供数据写入流程示意图之一；

图4是本申请实施例提供数据写入流程示意图之二；

图5是本申请实施例提供数据查询流程示意图；

图6是本申请实施例提供服务器的结构示意图之二；

图7是本申请实施例提供的数据处理装置的结构示意图；

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

参见图1，图1是本申请实施例提供的数据处理方法的流程示意图。图1所示的数据处理方法可以由服务器执行。

如图1所示，所述数据处理方法可以包括以下步骤：

步骤101、获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态。

在本实施例中，本申请所使用的数据方法可以应用于ElasticSearch搜索引擎，其中ElasticSearch是业界一款优秀的搜索引擎工具，通常被用在日志场景中对日志的写入、存储、搜索。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤，首先用户将数据提交到Elasticsearch 数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。

具体地，如图2所示，图2为本实施例中服务器的结构示意图，ElasticSearch包括多个集群，从客户端写入的数据会先写入到分布式缓存队列之中，借助多集群控制器中的定向路由、动态负载评估等能力实现写入流量根据集群、节点、分片的承载能力动态均衡的进行分发。并通过对ElasticSearch 自身的生命周期管理能力数据的管理、控制，实现索引数据的精确管理。

其中，不同集群所存储的数据可以不同，例如集群1分别对应索引为A3、B1和C2的数据，而集群2对应索引为A2的数据，集群3对应索引为A1、B2、C3、B3和C1的数据，需要进行说明的是，不同集群中均包括了冷节点和热节点，其中，冷节点的查询性能低于热节点的查询性能。因此，一般将查询次数较多的数据存储在热节点中，将查询次数较少的数据存储在冷节点中。

多个集群对应的状态信息用于指示多个集群其中的负载状态，例如负载状态越高时，集群写入数据的压力越大，负载状态越低时，集群写入数据的压力越小。

步骤102、根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群。

在本实施例中，通过多个状态信息和多个待写入数据对应的索引信息生成缓存信息，其中，缓存信息指示了每个待写入数据存储在集群中的存储信息。具体地，每个待写入数据存在某个集群的第一存储位置和存入某个集群的时间点均包括在了存储信息中，由此生成多个存储信息，并通过多个存储信息整体生成缓存信息，通过缓存信息指示多个待写入数据的存储路径。

需要进行说明的是，在本实施例中定义目标数据，目标数据为多个待写入数据中的任意一个，其中将目标数据写入与目标数据对应的目标集群中，其中，目标集群为与目标数据匹配程度最高的集群，其中匹配程度可以为目标数据与目标集群的索引相同，并且目标集群当前负载状态不高，可以写入数据。

步骤103、基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置。

在本实施例中，通过确定出的缓存信息，将每个待写入数据存储于所对应集群的第一存储位置中，其中，第一存储位置为热节点，因此，一般将新写入的数据均优先保存在热节点中。

步骤104、在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。

在本实施例中，预设时长为数据存储的生命周期，第二存储位置为冷节点。在数据的存储达到生命周期后，会默认数据的查询次数变低，因此将数据从热节点移动的冷节点中。具体地，冷热集群架构方案即冷热数据分离。本质是针对不同访问频率的数据做分离存储，让访问量高的数据存放在性能更好的磁盘中，以实现更合理的资源分配和调度。生命周期主要用于类似日志***之类的业务需求，存储的数据会随着时间逐渐降低检索需求，需要对早期的数据进行压缩、删除，ElasticSearch生命管理针对此类场景提供了超时数据的管理手段。

本申请提供一种数据处理方法，该方法包括：获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态；根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群；基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。本申请通过确定出多个集群所对应的多个状态信息后，基于多个状态信息为多个待写入数据分配对应的缓存信息，从而为每个待写入数据精准分配进行存储的集群，提高了数据的处理效率。

在一些可行的实施方式中，可选的，所述根据所述多个状态信息和所述多个待写入数据生成缓存信息，包括：

在本实施例中，如图3所示，图3为本申请中数据写入的流程图，具体地，以索引为维度，将数据写入到消息的缓存队列中。通过分析采集的集群整体的运行情况指标，包括集群可用性、JVM、CPU、内存、分片数量、写入流量、线程池、节点状态、节点类型等信息。使用负载动态评估算法计算出当前索引推荐写入的集群、节点与分片，即第一计算结果。另外计算出推荐写入的集群时间，得到第二计算结果。

需要进行说明的是，负载动态评估算法通过对热节点的CPU核数、JVM 使用量、分片数量、写入量、写入线程、磁盘使用率等指标做加权离差标准化，把特征值转换映射成[0-1]之间的值，方便在时间轮分配时做阈值的比较：

其中，cur为采集当前时间记录的数据，min为初始化数据，max为当前指标最大理论允许值。例如，磁盘集群初始化值为0.05，最大峰值可以设置为0.85，当超过0.85时会触发ElasticSearch对磁盘的管理限制。由此，通过对各个指标赋予一个加权值，并对各个参数进行计算，最终得到一个数据用于时间轮分配前的阈值比较。

在本实施例中，对获得优先级的写入线程分配时间轮，其中，时间段包括了多个待写入数据的写入时间点，即目标时间点。由此，在时间轮内的写入任务从消息缓存队列中周期性低读取数据。写入数据到指定的集群、节点与分片位置直至分配的时间轮过期。并在元数据映射表中记录元数据信息，包括时间范围、集群、节点、分片、生命周期阶段等信息；对写入失败的数据，根据日志数据的产生时间执行消费重放，并根据元数据映射表写入到执行的目标位置分片与索引；在一个时间轮周期结束后，进行下一执行时间轮周期判断。

在本实施例中，元数据映射表信息的基本组成逻辑是多链表结构，每个集群的元数据信息由一个链表存储，链表按照时间段顺序记录每个索引的元数据 Map 指针，Map 中以索引名称为 Key，索引所在的集群、节点、分片、生命周期等信息。

需要进行说明的是，上述设计的数据结构可以很高效的完成写入数据的寻址和管理：多个集群的元数据信息存储集中管理，不会产生信息的同步与不一致问题；当新获得时间轮写入优先级的索引，会在链表头部***一个信息位，实现数据的快速的记录；当有数据需要重放的时候，可以顺序遍历链表，找到对应时间，查询Map中对应的写入位置记录，实现数据的时序写入；当数据进入删除周期后，可以根据多集群管理数据中保存的生命周期策略，可以直接删除Map中的索引信息，如果链表节点的整个时间段不存在需要保留的数据，则删除整个节点信息。

在本实施例中，在目标数据写入目标集群的情况下，需要判断目标数据是否为预设索引，其中，预设索引为当前服务器已包括的索引，由此，如图4所示，判断是否是新索引；如果是新索引，直接分配时间轮，并选择负载最低的集群、节点、分片进行写入；如果是存量索引，则优先判断当前写入的目标位置的负载是否超出；如果超出负载，则重新分配时间轮，修改路由写入至新的目标位置；如果未超出负载，则自动延长一个时间轮，继续写入到原有目标位置；重复以上步骤，直至写入任务结束。

根据所述目标存储位置获取所述第一数据。

在本实施例中，针对多集群场景的性能优化算法，该算法通过元数据映射表中记录的信息来剪枝请求，裁剪不必要的查询请求链路，提升整个多个集群链路的利用效率，针对冷数据通常不会被改动的特性，合理设置缓存，提升冷节点的查询命中率。此外，对跨节点、跨集群场景设置外置的处理引擎，减少ElasticSearch协调节点的压力。

具体地，如图5所示，在进行查询数据查询时，对高负载、不可用的目标节点直接进行剪枝，请求不会再往此类节点位置遍历；根据元数据映射表中的时间范围记录，如果查询时间存在则继续执行查询；根据元数据映射表中的索引记录，判断请求是否跨集群；如果请求跨集群，则把请求进行分发搜索；如果请求在集群内进行，则根据时间范围与当前索引的生命周期进行匹配，判断请求是否落在热节点区间内；如果请求落在热区间内，则把请求分发至热节点进行搜索；如果请求落在冷区间内，则查询冷节点历史查询缓存，增加请求的响应效率；经过以上步骤过滤后的，剩余的请求为跨生命周期节点与跨集群此类影响范围较大的请求，如果判断集群负载较高，可以选择在外置引擎中执行结果合并、去重、排序操作，避免ElasticSearch集群出现查询拒绝服务。

需要进行说明的是，多集群管理的目的是让多个ElasticSearch集群在使用者的视角下如同单个集群，这样可以降低集群的使用与学习成本。通过在 ElasticSearch 多集群加上一个前置多集群控制器，统一封装为对外暴露的控制器地址。此外，多集群控制器还负责集群的路由规则制定与分发、生命周期策略管理与分发、元数据映射信息、数据采集策略的管理。

如图6所示，图6为本申请实现数据处理方法的结构示意图，其中可以具体分为写入控制层、查询控制层、存储控制层和管理控制层四个模块，具体地，存储控制层，包含监控数据、元数据、分布式缓存队列。其中监控数据中存储了各个ElasticSearch集群的JVM、I/O、内存、磁盘容量、索引写入流量、查询并发、存储了集群节点状态、ElasticSearch节点状态、分片等信息，用于多集群并发写入分配时间轮的决策依据；元数据映射表，存储了生命周期策略、集群的状态、路由规则、索引与时间片映射关系等信息；分布式缓存队列，用于写入流量的缓冲，防止瞬时数据的过载、获得时间轮的任务消费数据写入到对应路由的集群、写入失败的数据重放。

写入控制层，通过分析当前索引历史监控数据，判断集群写入的负载预期，根据时间轮算法实现不同集群的流量错位写入，并与生命周期策略无缝衔接，保证集群写入动态负载均衡，实现状态最优。与此同时，通过使用元数据中保存的索引与时间片映射关系表，实现对写入失败日志的实现缓存数据重放，按时间写入到指定集群的索引之中，保证日志的时序特征。

查询控制层，包含时间窗口过滤、慢查询剪枝、外置处理引擎三个管理模块，在日志场景中，通常使用冷热架构来分层存储数据，通过设置生命周期策略，来实现历史数据从热节点迁移到冷节点存储。针对多集群的管理，提出了使用多个链表分别按时间范围进行管理串联，方便时序日志的接入。通过元数据中管理的节点、索引、分片、生命周期策略等维度来剪枝查询，把查询范围固定在特定范围，避免查询请求覆盖全量节点，增加整体集群的负载，从而影响集群读写能力。此外，当数据进入到冷节点后，数据基本上不会再变化，此时命中在冷节点上的查询请求可以进行全量缓存，当下一次查询条件命中时，可以直接从缓存读取。当查询请求跨越热节点、冷节点乃至集群，可以可选的通过外置的处理引擎执行搜索结果的合并、去重、排序，避免协调节点负载过高，影响整体请求并发执行效率。

管理控制层，包含规则定义、统一入口、生命周期策略分发三个部分，规则定义负责定义写入、查询、索引路由定义；统一入口，用于对外暴露地址的统一封装；生命周期策略分发，控制策略的统一分发、修改、删除，包含生命周期策略、路由策略、数据采集策略等。

在本申请中，在ElasticSearch生命周期、冷热架构的基础上建立了多集群管理方案，写入端通引入负载动态评估算法与时间轮错位的索引写入方法，保证数据同步、并发、交叉链路复用写入的同时，增加缓存队列重放机制，保障日志数据写入的一致性与时序性。并通过对生命周期、索引写入目标位置的元数据记录，可以观测到整体集群的数据分布情况。在查询端，提出针对多集群场景的剪枝、缓存、外置处理引擎技术，限制每次请求的覆盖范围，降低单次请求的资源消耗，从而整体提升多集群的并发查询性能与能力。最后基于以上方案设计了完备的多集群***管理方案与***。

另外，本申请产品已实施上线，目前在云端产品中应用了该技术方案，在互联网公司日志场景中托管了约200+多集群节点。在某些业务领域，有多集群的上线需求，预计一期接入180TB数据，目前资源池已经建设完毕，即将进入业务接入期。在移动外部也有商机接入，例如：某国内头部车企的商机，本申请的多集群能力可以协助云日志管理能力（底层调用ES）从30TB扩展至500TB。

本申请通过确定出多个集群所对应的多个状态信息后，基于多个状态信息为多个待写入数据分配对应的缓存信息，从而为每个待写入数据精准分配进行存储的集群，提高了数据的处理效率。

参见图7，图7是本申请实施例提供的数据处理装置的结构图。如图7所示，数据处理装置700包括：

获取模块710，用于获取多个待写入数据以及多个集群所对应的多个状态信息，所述多个集群与所述多个状态信息一一对应，所述状态信息用于指示所对应的集群的当前负载状态；

生成模块720，用于根据所述多个状态信息和所述多个待写入数据生成缓存信息，其中，所述缓存信息用于指示所述多个待写入数据中每个待写入数据的存储信息，目标数据的存储信息包括：所述目标数据写入目标集群的时间点和所述目标数据写入所述目标集群的第一存储位置，所述目标数据为所述多个待写入数据中的任意一个，所述目标集群为所述多个集群中与所述目标数据匹配程度最高的集群；

写入模块730，用于基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置；

迁移模块740，用于在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置，其中，所述目标数据对应的第一存储位置的查询性能高于所述目标数据对应的第二存储位置的查询性能。

可选的，生成模块720包括：

计算子模块，用于根据负载动态评估算法对所述多个状态信息和所述多个待写入数据进行计算，得到第一计算结果，所述第一计算结果用于指示所述待写入数据对应的第一存储位置；

第一确定子模块，用于根据所述第一计算结果确定第二计算结果，所述第二计算结果用于指示所述待写入数据对应的写入时间点；

第一生成子模块，用于根据所述第一计算结果和所述第二计算结果生成所述缓存信息。

可选的，写入模块730包括：

第二确定子模块，用于基于所述缓存信息确定多个目标时间点，所述多个目标时间点与所述多个待写入数据一一对应，所述多个目标时间点为对应的待写入数据写入集群的时间点；

第二生成子模块，用于根据所述多个目标时间点生成时间轮，所述时间轮包括按照时间顺序依次进行排列的所述多个目标时间点；

写入子模块，用于根据所述时间轮和所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置。

可选的，写入子模块包括：

生成单元，用于基于所述多个集群和所述缓存信息生成多个元数据映射表，所述多个元数据映射表与所述多个集群一一对应，所述元数据映射表用于指示所对应的集群所存储内容的位置和存储时间；

写入单元，用于根据所述时间轮和所述多个元数据映射表息，将每个所述待写入数据存储于所对应的第一存储位置。

可选的，写入单元还用于：

可选的，还包括：

查询模块，用于获取数据查询请求，所述数据查询请求用于在所述多个集群中查询第一数据；

信息获取模块，在所述多个集群中获取存储信息，所述存储信息用于指示所述第一数据在所述多个集群中的至少一个存储位置；

筛选模块，用于根据预设条件对所述至少一个存储位置进行筛选，确定目标存储位置，所述预设条件包括以下至少一项：所述存储位置是否在所述预设时长内、所述存储位置是否位于所述第一存储位置、所述存储位置是否位于所述第二存储位置；

数据获取模块，用于根据所述目标存储位置获取所述第一数据。

本申请实施例还提供一种电子设备。请参见图8，电子设备可以包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的程序8021。

程序8021被处理器801执行时可实现图1对应的方法实施例中的任意步骤：

根据所述目标存储位置获取所述第一数据。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

本申请实施例另提供了一种计算机程序产品，所述计算机程序产品被存储在存储介质中，所述计算机程序产品被至少一个处理器执行以实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个状态信息和所述多个待写入数据生成缓存信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述时间轮和所述缓存信息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述时间轮和所述多个元数据映射表息，将每个所述待写入数据存储于所对应的第一存储位置，包括：

6.根据权利要求1所述的方法，其特征在于，所述在所述待写入数据存储于对应的第一存储位置的存储时长超过预设时长的情况下，将所述待写入数据由第一存储位置迁移对应的第二存储位置之后，所述方法还包括：

根据所述目标存储位置获取所述第一数据。

7.一种数据处理装置，其特征在于，所述装置包括：

8.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至6中任一项所述的数据处理方法中的步骤。

9.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至6中任一项所述的数据处理方法中的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品被存储在存储介质中，所述计算机程序产品被至少一个处理器执行以实现如权利要求1至6中任一项所述的数据处理方法中的步骤。