CN115981562A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN115981562A
CN115981562A CN202211697070.8A CN202211697070A CN115981562A CN 115981562 A CN115981562 A CN 115981562A CN 202211697070 A CN202211697070 A CN 202211697070A CN 115981562 A CN115981562 A CN 115981562A
Authority
CN
China
Prior art keywords
storage medium
homing
mapping
probability
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211697070.8A
Other languages
English (en)
Inventor
卫宣光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202211697070.8A priority Critical patent/CN115981562A/zh
Publication of CN115981562A publication Critical patent/CN115981562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,包括:获取待处理数据;基于第一模型从各归置组中确定与待处理数据映射的第一归置组;其中,任一归置组具有归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;根据第一归置组的映射关系,从各存储介质中确定第一存储介质;将待处理数据映射至第一存储介质。基于第一模型降低随机因素,实现高频小数据量的数据分布;基于第二模型,通过低频大数据量的调整方式实现更新归置组的映射关系,进而提高数据处理的均衡性、灵活性及效率。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着计算机网络技术的发展,数据量在逐渐的增加。为了更好的管理数据,需要将数据存储至物理硬盘、分布式数据库、云服务器等存储介质中。
目前,数据处理的方式一般是通过预设算法计算待存储数据,得到计算结果;根据计算结果确定目标归置组,进而将待存储数据映射至目标归置组;然后根据目标归置组的映射规则,确定出目标存储介质,进而将待存储数据映射到目标存储介质。
在上述方法中,根据预设算法得到的计算结果具有随机因素;例如预设算法为求余算法,导致多个待存储数据的计算结果相同;再如不同的计算结果指向相同的归置组;进而使得多个数据会指向同一个归置组,造成数据分配不均衡,导致数据处理不均衡。根据归置组的映射规则确定目标存储介质的方式灵活性较差,无法灵活的更新归置组的映射规则,使得存储介质的负载均衡性较差,存储介质处理数据的均衡性差,进而影响数据处理的效率。
发明内容
本发明实施例提供一种数据处理方法及装置,用于提高数据处理的均衡性、效率以及灵活性。
第一方面,本发明实施例提供一种数据处理的方法,包括:
获取待处理数据;
基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组;任一归置组具有所述归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;
根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质;
将所述待处理数据映射至所述第一存储介质。
上述技术方案中,第一模型是强化学***衡各归置组的负载、平衡各存储介质的负载、降低数据处理的响应时间、因归置组的映射关系更新导致的数据均衡、自定义目标等。
通过将待处理数据及各存储介质的状态信息输入第一模型,由第一模型输出与待处理数据映射的第一归置组,进而通过第一模型确定出与待处理数据映射的第一归置组。其中,各存储介质的状态信息可以是实时采集的,也可以是周期性采集的历史状态数据。
基于第一模型实现不再根据预设算法确定与待处理数据映射的归置组,因为第一模型的输入包括各存储介质的状态信息,因此基于第一模型实现高频小数据量的数据分布方式可以减少随机因素、提高数据分配的均匀性以及效率,进而提高数据处理的均衡性及效率。
另外,任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的,以此实现灵活的更新归置组的映射关系,且通过低频大数据量调整的方式保证存储介质的负载均衡性、存储介质处理数据的均衡性,进而提高数据处理的均衡性及效率。
可选的,所述方法还包括:
采集当前时刻的各存储介质的状态信息;
将所述当前时刻的各存储介质的状态信息输入所述第二模型,得到所述各归置组的更新概率、所述各存储介质的映射概率以及迁移概率;
根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系。
在上述技术方案中,第二模型为强化学习模型;第二模型是基于归置组与存储介质之间的映射关系以及预设优化目标训练后得到的。第二模型用于根据当前时刻的各存储介质的状态信息输出归置组需要更新映射关系的概率,进而实现灵活的更新归置组的映射关系,通过低频大数据量调整的方式保证存储介质的负载均衡性、存储介质处理数据的均衡性,进而提高数据处理的均衡性及效率。
可选的,根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系,包括:
在所述迁移概率大于迁移阈值时,根据所述各归置组的更新概率确定第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系。
可选的,根据所述各归置组的更新概率确定第二归置组,包括:
将所述更新概率最大的归置组确定为第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系,包括:
按照从小到大的规则,根据所述各存储介质的映射概率确定第二存储介质;
根据所述第二存储介质确定所述第二归置组更新后的映射关系。
第二方面,本发明实施例提供一种数据处理装置,包括:
获取模块,用于获取待处理数据;
处理模块,用于基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组;任一归置组具有所述归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;
根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质;
将所述待处理数据映射至所述第一存储介质。
可选的,所述处理模块还用于:
采集当前时刻的各存储介质的状态信息;
将所述当前时刻的各存储介质的状态信息输入所述第二模型,得到所述各归置组的更新概率、所述各存储介质的映射概率以及迁移概率;其中,存储介质的映射概率与存储介质的负载成反比;
根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系。
可选的,所述处理模块具体用于:
在所述迁移概率大于迁移阈值时,根据所述各归置组的更新概率确定第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系。
可选的,所述处理模块具体用于:
将所述更新概率最大的归置组确定为第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系,包括:
按照从小到大的规则,根据所述各存储介质的映射概率确定第二存储介质;
根据所述第二存储介质确定所述第二归置组更新后的映射关系。
第三方面,本发明实施例还提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据处理方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种***架构示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的一种数据处理方法的示意图;
图4为本发明实施例提供的一种更新归置组映射关系的示意图;
图5为本发明实施例提供的一种数据处理方法的示意图;
图6为本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在大数据环境下,数据规模和复杂度的增加一般较为迅速。为了满足大规模数据存储的需要,保证数据存储的安全性,需要将数据分散存储在多个存储介质上。
目前,基于分布式存储***可以实现将数据分散存储,使得数据分布在多个物理硬盘、存储服务器、云存储空间等存储介质。实现各硬盘、存储服务器承担集群负载,不因单个硬盘、存储服务器承受压力过大而成为集群存储性能的瓶颈,并实现集群扩容、缩容等功能。
为了保证数据的处理效率,处理均衡性,需要设计数据处理方式,使数据均衡的映射到多个存储介质中。
在一些实施例中,通过预设算法计算待存储数据,得到计算结果;根据计算结果确定目标归置组,进而将待存储数据映射至目标归置组;然后根据目标归置组的映射规则,确定出目标存储介质,进而将待存储数据映射到目标存储介质。
举例来说,预设算法为一致性哈希算法。一致性哈希算法中的存储空间可以抽象为一个环,在该环均衡的划分为多个区间;其中,多个区间相当于多个归置组。针对任一区间,可以设置映射规则,表示该区间对应的存储介质。
在获取待处理数据之后,将待处理数据进行哈希运算,得到哈希值。按照顺时针的方式将哈希值映射到该换上的某一区间上,进而将该区间确定为待处理数据的目标归置组。然后将该区间对应的存储介质作为待处理数据的目标存储介质,进而将待存储数据映射到目标存储介质。
再次举例,预设算法为求余算法。预先设置多个归置组,且任一归置组设置有映射规则。在获取待处理数据之后,将待处理数据进行哈希运算,得到哈希值。按照多个归置组的数量对哈希值进行求余计算,得到求余结果。根据求余结果在多个归置组中确定目标归置组。然后根据目标归置组的映射规则确定目标存储介质,进而将待存储数据映射到目标存储介质。
但在上述方法中,根据预设算法得到的计算结果具有随机因素。基于上述实施例进行解释,假设多个数据经过一致性哈希算法之后,指向同一个区间,则表示多个数据均映射至该区间对应的存储介质中。假设多个数据的求余结果相同,则表示多个数据指向相同的归置组,需要将多个数据均映射至该归置组对应的存储介质中。
也就是说,因为预设算法具有随机因素,导致待处理数据分配至归置组时均衡性差,进而导致待处理数据映射的存储介质的均衡性差,使得数据分配不均衡,数据处理不均衡。另外,当扩容或缩容的过程中,也会造成大量不必要的数据迁移,影响数据处理的效率。
另外,任一归置组的映射规则是预先设定的,无法在数据映射过程中灵活的更新映射规则。容易导致多个存储介质中,一部分存储介质负载较大、另一部分的存储介质负载较小,即导致存储介质的负载均衡性较差,存储介质处理数据的均衡性差,进而影响数据处理的均衡性及效率。
因此,现亟需一种数据处理方法,来提高数据处理的均衡性、效率以及灵活性。
图1示例性的示出了本发明实施例所适用的一种***架构,该***架构包括服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。
其中,通信接口120用于获取用户写入的待处理数据。
处理器110是服务器100的控制中心,利用各种接口和路线连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种数据处理方法的流程示意图,该流程可由数据处理装置执行。
如图2所示,该流程具体包括:
步骤210,获取待处理数据。
在本发明实施例中,待处理数据可以为数据块、数据流、字节等方式;具体的,待处理数据可以为图像数据、声音数据、文本、报文、表格等数据,在此不作具体限定。
步骤220,基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组。
在本发明实施例中,任一归置组具有归置组与存储介质之间的映射关系;例如,归置组g1与存储介质c1、存储介质c2和存储介质c3之间具有的映射关系。
在一些实施例中,第一模型的输入参数包括待处理数据以及各存储介质的状态数据。其中,存储介质的状态信息包括存储介质的数量、各存储介质的负载情况、各存储介质的类型、各存储介质的容量、各存储介质的CPU(central processing unit,中央处理器)核数等。
因为任一归置组具有归置组与存储介质之间的映射关系,当第一模型的输入参数包括各存储介质的状态信息时,第一模型会将与状态信息较好(如负载较低、效率较高等)的存储介质具有映射关系的归置组作为输出结果。
举例来说,归置组g1与存储介质c1、存储介质c2和存储介质c3之间具有的映射关系;归置组g2与存储介质c2、存储介质c3和存储介质c4之间具有的映射关系;其中,存储介质c4的状态信息优于存储介质c1的状态信息(如存储介质c4负载小于存储介质c1等)。
将待处理数据及各存储介质(存储介质c1、存储介质c2、存储介质c3和存储介质c4)的状态信息输入第一模型之后,第一模型的输出结果为归置组g2,即归置组g2为与待处理数据映射的第一归置组。
需要说明的是,各存储介质的状态信息比较在此不作具体限定,可以包括负载、内存、处理速度、带宽等一种数据和/或多种数据相结合的比较方式。
基于上述描述,通过将待处理数据及各存储介质的状态信息输入第一模型,得到第一模型输出的归置组标识;然后通过归置组标识确定与待处理数据映射的第一归置组,实现不再根据预设算法确定与待处理数据映射的归置组。基于第一模型实现高频小数据量的数据分布方式减少随机因素、提高数据分配的均匀性以及效率,进而提高数据处理的均衡性及效率。
在一些实施例中,确定与待处理数据映射的第一归置组之后,将待处理数据映射至第一归置组。
步骤230,根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质。
在本发明实施例中,第一归置组的映射关系会基于第二模型进行更新,以此实现灵活性的改变第一归置组与各存储介质的映射关系。例如,第一归置组的映射关系更新之前,第一归置组与存储介质c2、存储介质c3和存储介质c4之间具有的映射关系。第一归置组的映射关系更新之后,第一归置组与存储介质c6、存储介质c7和存储介质c8之间具有的映射关系。
步骤240,将所述待处理数据映射至所述第一存储介质。
在本发明实施例中,因为步骤220中的待处理数据映射至第一归置组,因此通过将第一归置组中的数据映射至第一存储介质,实现将待处理数据映射至第一存储介质。
在一些实施例中,第一模型和第二模型包括但不限于具有以下参数信息;其中,以下参数信息包括存储介质的状态信息。
硬件参数:各存储介质的硬件参数。包括但不限于如存储介质的CPU核数、CPU频率、内存大小、带宽速率、硬件类型、容量等。
负载参数:各存储介质的负载信息。包括但不限于如存储介质的CPU利用率,内存使用量,预设时间段(如24小时)所使用的流量均值、内存剩余容量、预设时间段(如24小时)内的IOPS(Input/Output Operations Per Second,每秒进行读写操作的次数)、带宽均值、处理时延等。
归置组参数:包括但不限于预设归置组数量、当前所使用的归置组数量。各归置组与存储介质的映射关系、任一归置组的容量。
历史参数:设定历史时段(如当前时刻的前一周或前一个月)的历史数据处理记录,用于作为第一模型和第二模型的训练样本。
在本发明实施例中,第一模型和第二模型均为强化学习模型;其中,强化学习指的是基于环境的反馈而做出行动,通过不断与环境进行交互、试错,完成学习目标或使行动得到预设优化目标中的最大优化目标。
进一步的,强化学习训练的主体就是Agent(智能体)。强化学习训练还包括训练环境(Environment)、当前训练环境与智能体所处的状态、当前状态智能体所能实现的行动、当前状态下智能体采取任一行动所得到的反馈。
在本发明实施例中,第一模型和第二模型作为强化学习模型的智能体。
针对第一模型,第一模型的训练环境为确定待处理数据对应的第一归置组;当前训练环境与智能体所处的状态为:第一模型是否被输入待处理数据以及各存储介质的状态信息。
进一步的,假设当前状态为:第一模型被输入待处理数据以及各存储介质的状态信息,则当前状态智能体所能实现的行动为:第一模型选择各归置组作为第一归置组;当前状态下智能体采取任一行动所得到的反馈为:第一模型选择各归置组作为第一归置组,得到训练环境对应反馈的各第一反馈结果。第一反馈结果表示确定第一归置组之后,各存储介质、各归置组的状态、负载情况等信息。
针对第二模型,第二模型的训练环境为确定任一归置组与存储介质的映射关系;当前训练环境与智能体所处的状态为:第二模型确定是否被输入各存储介质的状态信息。
进一步的,假设当前状态为:第二模型被输入各存储介质的状态信息,则当前状态智能体所能实现的行动为:第二模型选择各归置组作为需要更新映射关系的第二归置组,并确定第二归置组更新后的映射关系;当前状态下智能体采取任一行动所得到的反馈为:第二模型选择各归置组作为第二归置组,得到训练环境对应反馈的各第二反馈结果。第二反馈结果表示确定第二归置组,且更新第二归置组的映射关系之后,各存储介质、各归置组的状态、负载情况等信息。
基于上述描述,第一模型基于上述描述的参数信息以及历史数据作为训练样本进行训练,基于预设优化目标进行模型收敛。第二模型基于上述参数信息(如归置组的数量,与各归置组的映射关系等)作为训练样本进行训练,基于预设优化目标进行模型收敛。
在本发明实施例中,第一模型和第二模型的预设优化目标一致,包括但不限于以下预设优化目标:
平衡各归置组的负载、平衡各存储介质的负载、降低数据处理的响应时间、因归置组的映射关系更新导致的数据均衡、自定义目标等。
其中,平衡各归置组的负载可以根据各归置组所映射的数据数量的方差进行表示。方差与优化效果成反比。即方差越大,优化效果越差(即奖励越少)。
平衡各存储介质的负载可以根据各预设指标的方差表示各归置组、各存储介质的负载;例如,各存储介质的CPU利用率的方差、各存储介质已使用内存占可用内存比例的方差等;其中,方差与优化效果成反比。即方差越大,优化效果越差(即奖励越少)。
降低数据处理的响应时间可以根据数据处理的响应时间聚合值表示。其中,聚合值与优化效果成反比。即聚合值越小,优化效果越好(即奖励越多)。
自定义目标可以包括服务器故障时,用于帮助故障服务器恢复数据的数量。数量与优化效果成正比。即数量越大,优化效果越好(即奖励越多)。
在本发明实施例中,第一模型和第二模型在模型收敛时,可以对预设优化目标设置权重,以此增加第一模型和第二模型的训练灵活性和准确性。例如,设置平衡各归置组的负载的权重为1.3,设置平衡各存储介质的负载的权重为1.5等。
在本发明实施例中,第一模型和第二模型在模型训练时,采用模仿学习,如使用数据归置方法进行训练,进而避免不必要的智能体训练,节省训练时间。
在一些可实时的方式中,可以通过采集其他存储集群的数据作为训练样本或用DaDiSi等工具模拟存储集群的工作负载生成训练样本,以此增加训练样本的数据量,提高第一模型和第二模型的训练准确率。
在另一些可实时的方式中,第一模型和第二模型训练时,对智能体的行动选择性做剪枝,进而减少执行结果较差的决策,提高第一模型和第二模型的训练效率,减少第一模型和第二模型的训练错误率。如拒绝将数据副本放到数据量较大的归置组中,避免存储集群陷入故障。
在又一些可实时的方式中,第一模型的训练样本数量一般多于第二模型的训练样本数量,因此在模型训练时,使第二模型中提取参数特征的网络层与第一模型中提取参数特征的网络层保持一致,一方面减少第二模型的训练量,另一方面增加第二模型的训练准确率。
为了更好的阐述上述技术方案,图3示例性示出了一种数据处理方法的示意图,如图3所示,归置组包括归置组g1、归置组g2、归置组g3。存储介质包括存储介质c1、存储介质c2、存储介质c3、存储介质c4。
获取待处理的数据块k之后,将数据块k输入第一模型,得到归置组标识;如归置组标识为g1,进而将归置组g1确定为与数据块k映射的第一归置组。然后将数据块k映射至归置组g1。
如图3所示,与归置组g1具有映射关系的存储介质包括存储介质c1、存储介质c2、存储介质c3,因此将存储介质c1、存储介质c2、存储介质c3确定为第一存储介质。然后将归置组g1中的数据块k映射至存储介质c1、存储介质c2、存储介质c3。
需要说明的是,图3仅作为示例,本发明实施例不对归置组的数量、存储介质的数量以及与归置组具有映射关系的存储介质的数量进行限定。
在一些实施例中,任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的。通过第二模型可以周期性的更新归置组的映射关系,进而保证数据处理的均衡性和灵活性。
具体的,采集当前时刻的各存储介质的状态信息;将当前时刻的各存储介质的状态信息输入第二模型,得到各归置组的更新概率、各存储介质的映射概率以及迁移概率;根据各归置组的更新概率、各存储介质的映射概率以及迁移概率更新归置组的映射关系。
其中,各归置组的更新概率用于在归置组中确定待更新的第二归置组;各存储介质的映射概率用于作为第二归置组更新后的映射关系;迁移概率用于确定是否对第二归置组的映射关系进行更新。
进一步的,在迁移概率大于迁移阈值时,根据各归置组的更新概率确定第二归置组;根据各存储介质的映射概率更新第二归置组的映射关系。
举例来说,假设迁移阈值为90%,若迁移概率大于90%时,则表示需要对归置组更新映射关系,进而确定出待更新的第二归置组,然后根据各存储介质的映射概率更新第二归置组的映射关系。需要说明得是,迁移阈值可以是根据经验预设的值,如90%、85%等,在此不作具体限定。
在一些可实施的方式中,按照预设规则,根据各归置组的更新概率确定第二归置组。例如,预设规则为从大到小的顺序,则按照更新概率从大到小的顺序,将更新概率最大、更新概率第二大、更新概率第三大的三个归置组确定为第二归置组。在本发明实施例中,将更新概率最大的归置组确定为第二归置组。
在一些可实施的方式中,可以按照预设规则,根据各存储介质的映射概率确定第二存储介质。在本发明实施中,按照从小到大的规则,根据各存储介质的映射概率确定第二存储介质。例如,将映射概率最大、映射概率第二大、映射概率第三大的三个归置组确定为第二归置组。在一些实施例中,存储介质的映射概率可以一定程度上的反映出存储介质的性能情况,如映射概率较大的存储介质的负载较小、映射概率较大的存储介质的内存较大等性能情况。
基于上述图3,图4示例性示出了一种更新归置组映射关系的示意图,如图4所示,采集当前时刻存储介质c1、存储介质c2、存储介质c3、存储介质c4的状态信息;该状态信息用于表示各存储介质的负载。
将存储介质c1、存储介质c2、存储介质c3、存储介质c4的状态信息输入第二模型,得到映射参数。
其中,映射参数包括各归置组的更新概率、各存储介质的映射概率以及迁移概率;假设归置组g1的更新概率为87%、归置组g2的更新概率为68%、归置组g3的更新概率为57%;存储介质c1的映射概率为91%、存储介质c2的映射概率为62%、存储介质c3的映射概率为78%、存储介质c4的映射概率为87%;迁移概率为91%。
确定迁移概率(91%)>90%(迁移阈值),将更新概率最大的归置组g1作为待更新的第一归置组。
将映射概率最大的存储介质c1、映射概率第二大的存储介质c3、映射概率第三大的存储介质c4作为第二存储介质。确定映射关系更新后的归置组g1与存储介质c1、存储介质c3、存储介质c4具有映射关系。
基于上述图3,图5示例性示出了一种数据处理方法的示意图。如图5所示,获取待处理的数据块k+1之后,将数据块k+1输入第一模型,得到归置组标识;如归置组标识为g1,进而将归置组g1确定为与数据块k+1映射第一归置组,然后将数据块k+1映射至归置组g1。
如图5所示,此时与归置组g1具有映射关系的存储介质包括存储介质c1、存储介质c3、存储介质c4,因此将存储介质c1、存储介质c3、存储介质c4确定为第一存储介质。然后将归置组g1中的数据块k+1映射至存储介质c1、存储介质c3、存储介质c4。
由上述图3可知,更新前的归置组g1与存储介质c1、存储介质c2、存储介质c3具有映射关系。由图5可知,更新后的归置组g1与存储介质c1、存储介质c3、存储介质c4具有映射关系。
在一些实施例中,映射概率可以一定程度上的反映出存储介质的性能情况,即映射概率越大,存储介质的性能越高;其中,存储介质的性能包括多种因素,如负载、内存大小,已占内存大小、空闲内存大小等,在此不作具体限定。
因此基于映射概率灵活的更新归置组的映射关系,保证存储介质的负载均衡性、存储介质处理数据的均衡性,进而提高数据处理的均衡性及效率。
基于相同的技术构思,图6示例性的示出了本发明实施例提供的一种数据处理装置的结构示意图,该装置可以执行数据处理方法的流程。
如图6所示,该装置具体包括:
获取模块610,用于获取待处理数据;
处理模块620,用于基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组;任一归置组具有所述归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;
根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质;
将所述待处理数据映射至所述第一存储介质。
可选的,所述处理模块620还用于:
采集当前时刻的各存储介质的状态信息;
将所述当前时刻的各存储介质的状态信息输入所述第二模型,得到所述各归置组的更新概率、所述各存储介质的映射概率以及迁移概率;
根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系。
可选的,所述处理模块620具体用于:
在所述迁移概率大于迁移阈值时,根据所述各归置组的更新概率确定第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系。
可选的,所述处理模块620具体用于:
将所述更新概率最大的归置组确定为第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系,包括:
按照从小到大的规则,根据所述各存储介质的映射概率确定第二存储介质;
根据所述第二存储介质确定所述第二归置组更新后的映射关系。
基于相同的技术构思,本发明实施例还提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据处理方法。
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
获取待处理数据;
基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组;任一归置组具有所述归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;
根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质;
将所述待处理数据映射至所述第一存储介质。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
采集当前时刻的各存储介质的状态信息;
将所述当前时刻的各存储介质的状态信息输入所述第二模型,得到所述各归置组的更新概率、所述各存储介质的映射概率以及迁移概率;
根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系。
3.如权利要求2所述的方法,其特征在于,根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系,包括:
在所述迁移概率大于迁移阈值时,根据所述各归置组的更新概率确定第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系。
4.如权利要求3所述的方法,其特征在于,根据所述各归置组的更新概率确定第二归置组,包括:
将所述更新概率最大的归置组确定为第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系,包括:
按照从小到大的规则,根据所述各存储介质的映射概率确定第二存储介质;
根据所述第二存储介质确定所述第二归置组更新后的映射关系。
5.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据;
处理模块,用于基于第一模型从各归置组中确定与所述待处理数据映射的第一归置组;任一归置组具有所述归置组与存储介质之间的映射关系;任一归置组的映射关系是基于第二模型以及各存储介质的状态信息周期性确定的;
根据所述第一归置组的映射关系,从所述各存储介质中确定第一存储介质;
将所述待处理数据映射至所述第一存储介质。
6.如权利要求5所述的装置,其特征在于,所述处理模块还用于:
采集当前时刻的各存储介质的状态信息;
将所述当前时刻的各存储介质的状态信息输入所述第二模型,得到所述各归置组的更新概率、所述各存储介质的映射概率以及迁移概率;
根据所述各归置组的更新概率、所述各存储介质的映射概率以及所述迁移概率更新归置组的映射关系。
7.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
在所述迁移概率大于迁移阈值时,根据所述各归置组的更新概率确定第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系。
8.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将所述更新概率最大的归置组确定为第二归置组;
根据所述各存储介质的映射概率更新所述第二归置组的映射关系,包括:
按照从小到大的规则,根据所述各存储介质的映射概率确定第二存储介质;
根据所述第二存储介质确定所述第二归置组更新后的映射关系。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至4任一项所述的方法。
CN202211697070.8A 2022-12-28 2022-12-28 一种数据处理方法及装置 Pending CN115981562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211697070.8A CN115981562A (zh) 2022-12-28 2022-12-28 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211697070.8A CN115981562A (zh) 2022-12-28 2022-12-28 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN115981562A true CN115981562A (zh) 2023-04-18

Family

ID=85962221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211697070.8A Pending CN115981562A (zh) 2022-12-28 2022-12-28 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN115981562A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453148A (zh) * 2023-12-22 2024-01-26 柏科数据技术(深圳)股份有限公司 基于神经网络的数据平衡方法、装置、终端及存储介质
CN117609195A (zh) * 2024-01-24 2024-02-27 济南浪潮数据技术有限公司 一种分布式存储***的对象管理方法、装置及设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453148A (zh) * 2023-12-22 2024-01-26 柏科数据技术(深圳)股份有限公司 基于神经网络的数据平衡方法、装置、终端及存储介质
CN117453148B (zh) * 2023-12-22 2024-04-02 柏科数据技术(深圳)股份有限公司 基于神经网络的数据平衡方法、装置、终端及存储介质
CN117609195A (zh) * 2024-01-24 2024-02-27 济南浪潮数据技术有限公司 一种分布式存储***的对象管理方法、装置及设备和介质

Similar Documents

Publication Publication Date Title
CN115981562A (zh) 一种数据处理方法及装置
CN108810115B (zh) 一种适用于分布式数据库的负载均衡方法、装置及服务器
WO2016113153A1 (en) Distributed map reduce network
CN107450855B (zh) 一种用于分布式存储的模型可变的数据分布方法及***
CN102947796A (zh) 用于在数据中心环境中移动虚拟资源的方法和装置
CN115237580B (zh) 面向智能计算的流水并行训练自适应调整***、方法
WO2023066084A1 (zh) 算力分配方法、装置及算力服务器
WO2013174451A1 (en) Method for executing processes on a worker machine of a distributed computing system and a distributed computing system
CN112685153A (zh) 微服务调度方法、装置以及电子设备
CN112636982A (zh) 网络对抗环境配置方法及用于网络对抗的实验云平台***
CN109976901A (zh) 一种资源调度方法、装置、服务器及可读存储介质
CN110414569A (zh) 聚类实现方法及装置
CN106973091B (zh) 分布式内存数据重分布方法及***、主控服务器
CN109960579A (zh) 一种调整业务容器的方法及装置
CN108833592A (zh) 云主机调度器优化方法、装置、设备及存储介质
CN111124673A (zh) 数据采集***及方法
CN116663639B (zh) 一种梯度数据同步方法、***、装置及介质
CN112213956B (zh) 一种自动驾驶仿真任务调度方法、装置、设备及可读介质
CN109285015B (zh) 一种虚拟资源的分配方法及***
CN110928676B (zh) 一种基于性能评估的电力cps负荷分配方法
CN112286623B (zh) 一种信息处理方法及装置、存储介质
CN112631994A (zh) 数据迁移方法及***
CN113535346A (zh) 线程数量调整的方法、装置、设备及计算机存储介质
CN115879543A (zh) 一种模型训练方法、装置、设备、介质及***
CN111857988B (zh) 一种基于任务管理***的容器任务调度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination