CN115190135B

CN115190135B - 一种分布式存储***及其副本选择方法

Info

Publication number: CN115190135B
Application number: CN202210768871.2A
Authority: CN
Inventors: 党曼玉; 洪旺; 施展; 廖子逸; 李一泠; 张望
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-05-14
Anticipated expiration: 2042-06-30
Also published as: CN115190135A

Abstract

本发明公开了一种分布式存储***及其副本选择方法，属于分布式存储技术领域，在每个边缘服务器中设置Actor网络来快速计算每个边缘服务器的评分，在云端部署Critic网络以综合考虑所有Actor网络的信息进行联合的动作评价；且Actor网络基于对应的Critic网络输出的评价结果进行训练，Critic网络基于从经验池中随机采样得到的数据进行训练；Actor网络和Critic网络的训练过程相互独立且持续进行，从而能够在每一时刻均对各边缘服务器的服务质量进行准确评分，并通过在服务器之间维护一份服务器排名并分发给客户端的方式，使得副本选择具有完整的服务器状态信息且没有转发延迟开销，能够更好地适应边缘环境中的副本选择，降低边缘环境中请求处理延迟，实现性能和可靠性的兼顾。

Description

一种分布式存储***及其副本选择方法

技术领域

本发明属于分布式存储技术领域，更具体地，涉及一种分布式存储***及其副本选择方法。

背景技术

随着手机、可穿戴设备和各种传感器的普及，物联网设备的数量迅速增加。根据爱立信2021年的移动报告显示，全球2021年建立的物联网连接有146亿个，预计到2027年这一数字将增加到302亿个。这些设备被用来支持各种应用，包括道路安全服务、实时视频分析、游戏、增强现实和虚拟现实等应用。然而由于计算、存储和能量的限制，这些应用程序只能收集数据，然后将其转移到具有强大处理能力的云数据中心进行处理。在云计算的支持下，用户可以通过使用功能不太强大的设备来运行这些应用。

但是在云计算模式中，数据经过多次跳转从边缘发送到云端，将导致请求处理产生巨大的延迟。并且如此多的物联网设备，每时每刻都产生着大量的数据，所有的数据都转发到云端进行处理，将占用大量的网络带宽。为此，出现了一种新的计算模式边缘计算。边缘计算通过在网络边缘部署边缘服务器来提供计算和存储服务，从而能够在边缘直接处理用户数据，降低请求的延迟并节省边缘和云之间的网络带宽。此外，随着传输路径的缩短，传输的可靠性也得到了提高。

在边缘部署存储服务允许终端设备高速访问数据，降低数据访问的响应延迟，这对于普遍延迟敏感的应用非常重要。但是受许多可变性来源的影响，分布式存储***各节点常常会出现性能波动，从而影响***服务质量。并且在边缘环境中，由于用户的位置变化以及时变的动态网络都会导致***服务质量出现变化。副本选择策略，作为一种广泛使用的为提高***服务质量的请求调度方法，通过为请求选择延迟最低的边缘服务器，能够有效降低每个请求的处理时延。与其他方法相比(例如，冗余请求、重新发出请求等)，副本选择不会增加***的负载。并且副本选择是分布式存储***中不可缺少的一环(当一个请求到达时，总需要为其选择一个服务器提供服务)。因此，在边缘环境中研究副本选择策略来保障***的服务质量十分必要。但是，当前传统的副本选择策略往往设置在客户端，无法快速适应边缘服务器状态的变化。为了解决上述问题，现有的副本选择策略多设置在服务器端，以感知服务器的性能，主要包括基于客户端的副本选择策略和基于中心节点的副本选择策略；其中，基于客户端的副本选择策略因其缺少完整的服务器状态信息导致对服务器延迟估计不准确，且多选择节点难以协调容易出现负载振荡，这些都会导致请求延迟升高；而基于中心节点的副本选择策略通过额外的中心节点为所有客户端执行副本选择任务，在边缘场景中使用云数据中心作为副本选择节点，将请求发送到一个云数据中心，在云数据中心中为每个请求选择服务能力最好的边缘服务器，存在请求转发，将引入额外的响应延迟，且在边缘这种地理分布的环境中，请求转发产生的延迟将更大。

为了降低边缘环境中请求处理延迟，保障***的服务质量，实现性能和可靠性的兼顾，如何设计便于副本选择的分布式存储***，以及在分布式存储***中对副本选择方法进行优化成为一个亟需解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种分布式存储***及其副本选择方法，用于解决现有技术响应延迟较高的技术问题。

为实现上述目的，第一方面，本发明提供了一种分布式存储***，包括：云端和服务器端；其中，服务器端包括：多个分布式分布的边缘服务器；每个边缘服务器中均部署有一个Actor网络；云端部署有多个Critic网络，其数量与边缘服务器的数量相同，一个Critic网络对应一个Actor网络；

上述分布式存储***的运行过程包括：

在每一时刻t，每一个边缘服务器均执行以下操作：边缘服务器采集其所在网络环境的当前状态数据作为其状态信息，并输入到其内部的用于进行边缘服务器服务质量评分的Actor网络中，得到其评分；边缘服务器将其状态信息和所有边缘服务器的评分发送至云端中对应的Critic网络中得到其评价结果后，以最大化评价结果为目标，对其内部的Actor网络进行训练；

在每一时刻t，云端执行以下操作：收集所有边缘服务器发送过来的信息，并在收集完t时刻下所有边缘服务器发送过来的信息后，计算t-1时刻的奖励值r_t-1，并将对应的元组信息存入经验池中；当经验池存满数据时，从经验池中随机采样元组信息数据对每一个Critic网络同时进行训练；其中，上述元组信息包括：t-1时刻所有边缘服务器的状态信息、t-1时刻所有边缘服务器的评分、t-1时刻的奖励值和t时刻所有边缘服务器的状态信息。

进一步优选地，上述t-1时刻的奖励值r_t-1为：

其中，N为边缘服务器的数量；为第i个边缘服务器的平均延迟；/>为所有边缘服务器的平均延迟的平均值；/>为第i个边缘服务器处理的请求数；/>为第i个边缘服务器处理的请求数的平均值。

进一步优选地，云端在每一时刻t下执行操作的过程中，在经验池未存满数据或者Critic网络训练完成后，判断从时刻t开始所经过的时长是否大于预设时间周期，若是，则从经验池中获取不同时刻下各边缘服务器的评分，计算得到每一个边缘服务器的评分平均值；以各边缘服务器的评分平均值的中位数为划分点，将边缘服务器划分为低延迟边缘服务器和高延迟边缘服务器；其中，低延迟边缘服务器的评分平均值大于或等于划分点，高延迟边缘服务器的评分平均值小于划分点；分别采用两个根桶结构对边缘服务器进行分区，分别记为Low桶和High桶；将个低延迟边缘服务器放置在Low桶中，将N/2个的高延迟边缘服务器放置在High桶中；在Low桶中选择/>个低延迟边缘服务器、在High桶中选择M/2高延迟边缘服务器放置副本；否则，云端在该时刻t下的操作结束；其中，N为边缘服务器的数量；M为副本数量。

进一步优选地，上述Actor网络包括：Actor在线网络和Actor目标网络；Critic网络包括Critic在线网络和Critic目标网络；

上述分布式存储***的运行过程包括：

在每一时刻t，每一个边缘服务器均执行以下操作：边缘服务器采集其所在网络环境的当前状态数据作为其状态信息，并分别输入到其内部的Actor在线网络和Actor目标网络中，得到Actor在线网络输出的评分和Actor目标网络输出的评分；边缘服务器将其状态信息和所有边缘服务器的Actor在线网络输出的评分发送至云端中对应的Critic在线网络中得到其评价结果后，以最大化评价结果为目标，对其内部的Actor在线网络进行训练；且每训练若干轮后，基于Actor在线网络的参数对Actor目标网络进行更新；

在每一时刻t，云端执行以下操作：收集所有边缘服务器发送过来的信息，并在收集完t时刻下所有边缘服务器发送过来的信息后，计算t-1时刻的奖励值，并将对应的元组信息存入经验池中；当经验池存满数据时，从经验池中随机采样元组信息数据对各Critic网络同时进行训练；上述元组信息包括：t-1时刻所有边缘服务器的状态信息s_t-1、t-1时刻所有边缘服务器的Actor在线网络输出的评分a_t-1、t-1时刻的奖励值r_t-1、t时刻所有边缘服务器的状态信息s_t以及t时刻所有边缘服务器的Actor目标网络输出的评分a′_t；其中，为t-1时刻下第i个边缘服务器的状态信息；/>为t-1时刻下第i个边缘服务器的Actor在线网络输出的评分；/>为t时刻下第i个边缘服务器的状态信息；/>为t时刻下第i个边缘服务器的Actor目标网络输出的评分；N为边缘服务器的数量。

进一步优选地，从经验池中随机采样元组信息数据对各Critic网络进行训练的方法，包括：

记采样得到的第j个元组信息数据为(s_b,a_b,r_b,s_b+1,a'_b+1)；其中，为b时刻下第i个边缘服务器的状态信息；/>为b时刻下第i个边缘服务器的Actor在线网络输出的评分；/>为b+1时刻下第i个边缘服务器的Actor目标网络输出的评分；

基于采样得到的元组信息数据获取每一个边缘服务器的评价结果和对应的评价标签；其中，基于第j个元组信息数据得到的第i个边缘服务器的评价结果为将和a_b输入至第i个Critic在线网络所得的评价结果；基于第j个元组信息数据得到的第i个边缘服务器的评价标签/>r_b为b时刻的奖励值；γ为奖励折扣率；/>为将/>和a′_b+1输入至第i个Critic目标网络所得的评价结果；

通过最小化每一个边缘服务器的评价结果与对应的评价标签之间的差异，对各Critic在线网络进行训练；且每训练若干轮后，基于Critic在线网络的参数对对应的Critic目标网络进行更新。

第二方面，本发明提供了一种基于上述分布式存储***的副本选择方法，包括：在分布式存储***的运行过程中，当服务器端接收到副本访问请求时，基于边缘服务器的评分对各边缘服务器进行排名，选择排名最高、且存在数据副本的边缘服务器作为副本选择的节点进行数据访问。

进一步优选地，分布式存储***中的所有边缘服务器构成一个Ceph***；Ceph***对每一个存在数据副本的边缘服务器的评分进行归一化后，作为边缘服务器所对应的affinity-primary参数值，并基于affinity-primary参数值选择进行数据访问的边缘服务器。

进一步优选地，Ceph***采用max-min归一化方法对每一个存在数据副本的边缘服务器的评分进行归一化。

第三方面，本发明提供了一种副本选择***，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明第二方面所提供的副本选择方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第二方面所提供的副本选择方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种分布式存储***，在云端和边缘服务器端部署不同的网络结构；由于边缘到云端具有较大的延迟，且针对边缘环境中存在多种影响***服务质量的因素，同时考虑到边缘服务器的评分值是一个连续的数值，本发明在每个边缘服务器中设置Actor网络来快速计算每个边缘服务器的评分(排名)，而不是通过云端统一计算评分再分发；另外在云端部署Critic网络以综合考虑所有Actor网络的信息进行联合的动作评价；且Actor网络基于对应的Critic网络输出的评价结果进行训练，Critic网络基于从经验池中随机采样得到的数据进行训练，Actor网络和Critic网络的训练过程相互独立且持续进行，从而能够在每一时刻均对各边缘服务器的服务质量进行准确评分，并通过在服务器之间维护一份服务器排名并分发给客户端的方式，使得副本选择具有完整的服务器状态信息且没有转发延迟开销，大大减少了云边数据的传输开销，能够更好地适应边缘环境中的副本选择，降低边缘环境中请求处理延迟，实现性能和可靠性的兼顾。

2、本发明所提供的分布式存储***，其中，Actor网络和Critic网络均为双网络结构，大大提高了学习的稳定性，进而提高了副本选择的准确性。

3、本发明所提供的分布式存储***，考虑到数据存取服务是状态的数据存取服务，数据访问请求只能在存在数据副本的服务器之间进行副本选择，副本的放置位置将会影响到副本选择策略的有效性，本发明根据服务器排名的期望，通过双根桶结构来调整副本的放置位置，从而使得请求能够选择更低延迟的服务器，进而降低了请求处理时延。

4、由于侵入***去修改副本的选择将会涉及到大量的***内部既有机制，想要完美的将副本选择机制嵌入进现有的***非常困难，本发明所提供的副本选择方法针对Ceph***已有的内部机制设计额外的处理流程来改变副本的选择，每得到一次边缘服务器的评分后，对边缘服务器的评分进行归一化，作为该边缘服务器的OSD节点的affinity-primary参数值，Ceph***将会基于affinity-primary参数值选择其主OSD节点作为副本选择的节点进行数据访问，即排名最高、且存在数据副本的边缘服务器。

附图说明

图1为本发明实施例1提供的一种分布式存储***的结构示意图；

图2为本发明实施例1提供的Actor网络结构示意图；

图3为本发明实施例1提供的Critic网络结构图；

图4为本发明实施例1提供的边缘环境下多代理强化学习数据流图；

图5为本发明实施例1提供的双“根桶”结构示意图；

图6为本发明实施例1提供的双“根桶”结构中的规则实现；

图7为本发明实施例2提供的在Read-only、Read-heavy和Update-heavy三种负载下不同副本选择策略的平均延迟结果示意图；

图8为本发明实施例2提供的在Read-only负载下使用3种不同策略各节点在每个时刻的平均响应延迟结果示意图；

图9为本发明实施例2提供的在Read-only负载下不同客户端数量对三种副本选择策略的延迟影响示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种分布式存储***，如图1所示，包括：云端和服务器端；其中，服务器端包括：多个分布式分布的边缘服务器；每个边缘服务器中均部署有一个Actor网络；云端部署有多个Critic网络，其数量与边缘服务器的数量相同，一个Critic网络对应一个Actor网络；

上述分布式存储***的运行过程包括：

服务器端的运行过程：

需要说明的是，每一个边缘服务器运行一个OSD进程，包含一个OSD节点。所有的边缘服务器构成一个Ceph***，对边缘服务器的评分进行归一化后，作为每一个边缘服务器的OSD节点的affinity-primary参数值，Ceph***可以基于affinity-primary参数值选择其主OSD节点作为副本选择的节点进行数据访问，即排名最高、且存在数据副本的边缘服务器。具体地，可以采用tanh归一化、sigmoid归一化、max-min归一化等归一化方法。优选地，采用max-min归一化方法对边缘服务器的评分进行归一化，相比于其他归一化方法(如tanh归一化、sigmoid归一化)能够更完整的保留原始的数据信息。

在一种可选实施方式下，边缘服务器主要包括Ceph***模块、信息采集模块、评分模块和适配器模块；

评分模块：评分模块主要由深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)强化学习中的Actor网络组成，它根据边缘服务器单独采集到的信息为边缘服务器输出动作(评分)，并将一组状态信息、动作和性能等信息发送给云端。

适配器模块：因为侵入***根据评分改变副本选择将涉及到大量的***内部流程，这个模块专门用于对接具体***，根据具体***将评分转变成可以改变副本选择的机制。具体地，针对Ceph***已有的内部机制设计额外的处理流程来改变副本的选择，由于Ceph***中对象放置的OSD节点是直接通过CRUSH算法计算出来的，并且对象的读写操作都是通过主OSD节点来完成的，主OSD承载着***很多的处理逻辑。如果直接根据评分(排名)侵入***去改变请求的目标OSD节点，将牵扯到大量的***内部既有机制。因此，本发明考虑从主OSD节点的选取入手，通过改变对象对应的主OSD节点来改变副本选择的节点。在Ceph中通过“抽签算法”来进行OSD节点的选取，从所有节点中选出签最长的三个OSD节点(三副本)作为数据的放置节点。在这最初始的OSD顺序中，主OSD节点就是签最长的节点。随后，为了更多的动态性还对主OSD节点的选取设计了处理流程，Ceph***提供了Affinity-Primary参数来控制每个OSD节点成为主OSD节点的概率。在Ceph***中Affinity-Primary的区间范围设置为[0,1]，而通过神经网络输出的评分值显然是超过这个范围的，因此需要将神经网络输出的值映射到这个区间内。本实施例中考虑使用max-min归一化方法进行映射。相比于其他归一化方法(如tanh归一化、sigmoid归一化)能够更完整的保留原始的数据信息，如公式所示为：

云端的运行过程：

本实施例中，上述t-1时刻的奖励值r_t-1为：

在一种可选实施方式下，云端主要包括奖励计算模块、经验池模块、评价模块和副本放置优化模块。

奖励计算模块：奖励计算模块需要维护上一次的状态和动作信息，并接收本次的状态和动作信息，以及计算上一轮的***整体奖励值，并将<上次状态，上次动作，奖励值，本次状态，Actor目标网络本次输出的动作>元组信息存入经验池中。需要说明的是，奖励计算模块需要维护t-1时刻的所有信息(即t-1时刻的状态s_t-1和动作信息a_t-1)，并收集t时刻所有边缘服务器的信息(即t时刻的状态s_t和动作信息a'_t)。之后可以通过t时刻的信息计算出t-1时刻的奖励值r_t-1，并将元组(s_t-1,a_t-1,r_t-1,s_t,a'_t)信息存储到经验池中。具体地，奖励值如何计算对于强化学***均延迟小于整体平均延迟/>时，请求数具有一个正奖励反馈，t时刻每个节点处理的请求数定义为/>同时考虑到延迟越低的节点处理请求应该获得越多的奖励，因此不同节点的请求数应具有不同的奖励权重。拥有权重信息，那么将不再是所有请求都具有奖励反馈，而是每个节点处理的请求数/>与均值/>的差才具有奖励反馈，代表多处理或少处理请求的奖励反馈(基于每个节点处理请求数相等考虑)。每个节点具有奖励反馈的请求数定义如公式所示：/>由于每个节点奖励权重与延迟/>相关，考虑直接使用每个节点的平均延迟与整体平均延迟/>的差来表示权重参数，如公式所示：/>那么最后奖励值的计算定义如公式所示：/>

评价模块：评价模块由DDPG强化学习中的Critic网络组成，它对Actor网络的动作信息进行评价。Critic网络输出的评价值将作为Actor网络学习的“监督信息”，并从经验池中采样历史数据对自身进行训练学习。

副本放置优化模块：考虑到存储***提供的是有状态的数据存取服务，副本的放置位置将影响到选择策略的可选节点。考虑对数据进行迁移，优化副本的放置位置，从而更好的进行副本选择。

需要说明的是，Actor网络的输入为每个边缘服务器观测到的自身状态信息定义为s，输出为评分(动作)定义为a。在一种可选实施方式下，Actor网络的具体实现结构如图2所示，整个Actor网络由两个全连接层(Linear Layer)和一个Relu激活层组成。考虑到边缘服务器资源有限，为了更少的计算开销，MARLRS将全连接层的输出(或输入)即中间的隐藏层定义为50维。Actor网络两个全连接层的权重矩阵分别定义为w_a1，w_a2，权重矩阵的维度分别为len(s)×50、50×1，其中len(s)为状态的维度。那么Actor网络表示的计算公式为：a＝Relu(s*w_a1)*w_a2。

Critic网络的作用是对Actor网络的计算结果进行评价，即Critic网络的输出就是Actor网络学习的“监督信息”。Actor网络的结果越好，则Critic网络的输出结果为正值且越大；Actor网络的结果越差，则Critic网络的输出结果为负值且越小。Critic网络的作用是对Actor网络的计算结果进行评价，即Critic网络的输出就是Actor网络学习的“监督信息”。Actor网络的结果越好，则Critic网络的输出结果为正值且越大；Actor网络的结果越差，则Critic网络的输出结果为负值且越小。Critic网络需要同时输入Actor网络的输入s和Actor网络的输出a。在一种可选实施方式下，Critic网络的具体实现结构如图3所示，输入的s和a都分别使用一个全连接层计算出中间结果分别定义为mid_s和mid_a，两个全连接层的权重矩阵分别定义为w_cs和w_ca，矩阵维度分别定义为len(s)×200和N×200，N为边缘服务器数量。mid_s和mid_a的计算分别为mid_s＝s*wc_s和mid_a＝a*w_ca。则网络的中间输出结果根据以下所示进行线性求和计算，具体为：mid＝mid_s+mid_a+b；其中b为噪声矩阵。然后和Actor网络一样经过一个激活函数和全连接层计算出评价结果q。定义最后一个全连接层的权重矩阵为wc，那么Critic网络表示的计算公式如公式所示：q＝Relu(mid)*w_c。

进一步地，由于边缘到云端具有较大的延迟，本发明在每个边缘服务器中设置Actor网络来快速计算每个节点评分(排名)，而不是通过云端统一计算评分再分发。而Critic网络需要综合考虑所有Actor网络的信息进行联合的动作评价，且为了更好的训练网络需要从经验池中随机采样一批数据同时进行学习，在云端部署所有的Critic网络(其中一个Actor网络对应一个Critic网络，即第i个Actor网络对应第i个Critic网络，i＝1,2,…,N)。并且为了提高学习的稳定性，在一种可选实施方式下，Actor网络和Critic网络都采用双网络设置。具体地，上述Actor网络包括：Actor在线网络和Actor目标网络；Critic网络包括Critic在线网络和Critic目标网络；通过Critic在线网络每个时刻对Actor在线网络的动作进行评价。

上述分布式存储***的运行过程包括：

具体地，从经验池中随机采样元组信息数据对Critic网络进行训练的方法，包括：

经验池中采样得到的元组信息数据的总数量为B；记采样得到的第j个元组信息数据为(s_b,a_b,r_b,s_b+1,a'_b+1)；其中，为b时刻下第i个边缘服务器的状态信息；/>为b时刻下第i个边缘服务器的Actor在线网络输出的评分；/>为b+1时刻下第i个边缘服务器的Actor目标网络输出的评分；

需要说明的是，在Actor和Critic的双网络结构中，在线网络和目标网络具有相同的网络模型设置，只是网络间的权重参数不同；具体地，Actor在线网络和Actor目标网络的结构相同，均同上述Actor网络的结构，这里不做赘述。Critic在线网络和Critic目标网络的结构相同，均同上述Critic网络的结构，这里不做赘述。在线网络权重实时更新(单步)，目标网络权重则是在在线网络更新n步之后，根据在线网络权重进行网络参数的更新。

具体地，分别记Actor在线网络、Actor目标网络、Critic在线网络和Critic目标网络的神经网络计算过程分别定义为函数μ⁽ⁱ⁾、μ'⁽ⁱ⁾、Q⁽ⁱ⁾和Q'⁽ⁱ⁾，神经网络的整体参数分别定义为和/>，其中i表示边缘服务器的编号。为了进一步说明上述分布式存储***的运行过程，下面以图4所示的边缘环境下多代理强化学习数据流图为例来说明边缘环境中Actor网络和Critic网络完整的数据流过程：

1)首先，边缘服务器之间具有时钟同步处理。到时刻t时，所有边缘服务器都观测获得自身的环境状态信息，状态信息定义为

2)然后，将状态信息作为Actor在线网络的输入，经过神经网络计算得出t时刻的动作/>公式定义为/>然后每个边缘服务器直接执行动作/>

3)将元组信息和额外的奖励值计算信息发送到云端的奖励计算模块。考虑到Critic目标网络的输入依赖于Actor目标网络的输出，因此在此阶段将/>输入Actor目标网络进行计算，网络输出定义为/>公式定义为/>如果不在此阶段将/>信息计算出来，那么每次Critic目标网络执行计算时，都需要从云端发送数据到边缘，由边缘的Actor目标网络计算后再将相应数据发送到云端，这种做法将产生额外的开销。在此阶段完成相应的计算可以节省不必要的开销。

4)奖励计算模块汇总所有边缘服务器信息且维护着t-1时刻的信息。因此能够根据t时刻的信息计算出t-1时刻的***全局奖励r_t-1。然后将元组(s_t-1,a_t-1,r_t-1,s_t,a'_t)信息存入经验池中，以供Critic网络进行随机采样学习。

5)Critic网络从经验池中随机采样B个元组数据。如阶段4)中元组信息所示；具体地，记采样得到的第j个元组信息数据为(s_b,a_b,r_b,s_b+1,a'_b+1)。

6)与阶段5)是完全平行的过程，互不干扰。用相应的Critic在线网络对t时刻Actor在线网络的行为进行评价，评价结果定义为公式定义为/>输入Critic在线网络的信息为对应Actor在线网络的状态/>和联合动作/>

7)将第j个元组信息数据中的和a′_b+1输入至输入Critic目标网络获得/>公式定义为/>利用奖励值r_b和/>计算出Critic在线网络学习所需的“监督信息”(与监督式学习的标签存在区别，Critic在线网络的标签依赖于***中本身正在学习的Critic目标网络)，基于第j个元组信息数据得到的第i个边缘服务器的评价标签为：

其中γ为奖励折扣率。

8)在线网络进行前向传播并计算梯度，是在线网络训练学习过程的第一步。Actor和Critic网络都执行这一个过程，但并不是同时的(在不同的机器上)且针对的训练数据也不同。在最原始的DDPG网络设计中，Actor网络和Critic网络都是使用同一批采样的数据进行训练学习，但是现在Actor网络和Critic网络分属不同的机器上，且经验池放在云端。如果再使用原模型的做法，将产生额外的开销(且具有时延性)。因此，本发明让Actor网络只是针对t时刻的数据进行学习，而Critic网络则是从经验池中随机采样b大小的数据同时进行训练学习。

9)此阶段计算相应网络的损失值，对在线网络参数进行反向传播更新。Critic在线网络使用阶段中前向传播，将第j个元组信息数据中的和a_b输入至第i个Critic在线网络所得的评价结果记为/>其中/>与标签/>计算损失值/>公式如公式所示：

其中，B为批采样数据的大小。

进一步地，Actor在线网络则直接使用Critic在线网络的评价信息作为行为好坏的评判标准，/>越大说明Actor网络做出的决策越好，因此Actor在线网络要朝着更有可能获得更大/>的方向修改网络的权重参数。定义Actor在线网络的损失函数如公式所示：

然后进行反向传播分别更新Actor在线网络和Critic在线网络的参数μ⁽ⁱ⁾和Q⁽ⁱ⁾。

10)在在线网络实时更新n步之后，需要依赖在线网络的权重信息对目标网络的网络权重进行更新。但并不是直接将在线网络权重参数信息进行完整复制，而是定义一个学习率τ，目标网络每次从在线网络学习一部分内容，这一过程被称为软更新(Soft Update)。目标网络参数更新公式分别如公式所示：

进一步地，在一种可选实施方式下，云端在每一时刻t下执行操作的过程中，在经验池未存满数据或者Critic网络训练完成后，判断从时刻t开始所经过的时长是否大于预设时间周期(本实施方式下取值为600s)，若是，则从经验池中获取不同时刻下各边缘服务器的评分，计算得到每一个边缘服务器的评分平均值；以各边缘服务器的评分平均值的中位数为划分点，将边缘服务器划分为低延迟边缘服务器和高延迟边缘服务器；其中，低延迟边缘服务器的评分平均值大于或等于划分点，高延迟边缘服务器的评分平均值小于划分点；分别采用两个根桶结构对边缘服务器进行分区，分别记为Low桶和High桶；将个低延迟边缘服务器放置在Low桶中，将N/2个的高延迟边缘服务器放置在High桶中；在Low桶中选择/>个低延迟边缘服务器、在High桶中选择M/2高延迟边缘服务器放置副本；否则，云端在该时刻t下的操作结束；其中，N为边缘服务器的数量；M为副本数量。

具体地，在上述可选实施方式下，上述分布式存储***的整体流程包括：

边缘部分：在每个时刻t，边缘服务器开始采集当前的状态数据，之后使用Actor网络计算出动作。然后将动作进行适配操作并执行适配动作，同时将状态、动作和性能等信息发送到云端。最后等待云端的评价结果对Actor网络进行训练学习。

云端部分：云端收集完所有t时刻边缘服务器的信息后，开始计算t-1时刻的奖励值，并将相应的元组信息存入经验池以供Critic网络采样学习。接着，云端使用Critic网络对所有边缘服务器的行为进行评价。然后将评价结果发送给每个边缘服务器，同时判断经验池是否存满数据了。若有足够的数据，Critic网络将从经验池中随机采样数据，对Critic网络进行训练学习。若没有足够数据，则直接判断是否经过了副本放置调整的时间周期。是则直接开始从经验池中获取评分数据，计算每个服务器的服务性能期望。最后根据期望值对服务器进行分区，改变副本的放置位置。否则结束流程。

需要说明的是，存储***提供的是一个有状态的数据存取服务，这意味着数据访问请求只能在存在数据副本的边缘服务器之间进行选择，因此副本的放置将会影响到选择的决策。然而数据的放置是随机，因此在时刻t时可能出现有的数据的副本都在延迟较高的服务器上，访问这一部分数据的请求都将具有较高的延迟开销，并且只通过副本选择策略无法很好的优化这一部分请求的响应延迟。如假设现在有8个边缘服务器，每个边缘服务器的响应延迟按2～9ms进行设置，并且现在有8个文件要放入存储***中。假设存储***使用3副本策略，那么每个边缘服务器将存储3个文件(考虑数据均匀分布)，如果对数据进行随机放置，那么将可能出现有的数据的副本都存储在响应延迟较高的服务器中。为了解决上述问题，在一种方式下可以直接将文件进行交换保证所有数据在响应延迟较低的边缘服务器中，再通过副本选择策略，以保证所有数据的访问请求都能获得较低的响应延迟；然而，数据迁移是存在开销的且需要一定的时间来完成，并且在边缘场景下服务器之间存在着传输延迟，需要更多的时间来完成数据迁移任务。因此，副本的放置不能像副本的选择一样实时更新策略，副本放置应该比副本选择有着更大的策略更新时间周期，而如何衡量一段长时间周期内服务器的性能是一件比较困难的事。

针对可能会出现这种数据放置的情况，本发明设计了一种基于排名期望的副本放置优化策略(记为RDRP)，对数据进行迁移，以优化副本的放置，将相应的数据迁移放置到延迟更低的服务器中。考虑到本发明在每个时刻t都对边缘服务器进行过一次排名，且RDRP的目的就是为了更好的进行副本选择，因此，RDRP使用这段时间周期内服务器排名的期望来衡量副本放置优化时各边缘服务器能提供的性能排名。每个时刻t各服务器的评分为Actor网络的输出定义一段长时间周期总共包含m个时刻，则每个服务器的排名期望如公式所示：

同时考虑到将数据的副本都放置在排名最高的节点，不仅会导致数据失衡而且该节点会遭受过多的请求导致响应延迟升高，从而打破这种数据放置策略的目的。因此，RDRP根据排名期望将边缘服务器分为延迟较低和延迟较高两部分，保证所有数据在延迟较低的边缘服务器中均衡的放置至少一份副本。具体地，结合Ceph***的内置规则来设计RDRP具体的实现过程，Ceph***为了实现更灵活的放置方式，在集群拓扑中设计了桶与规则的结构，通过桶与规则结合的方式可以实现各种各样灵活的数据放置策略。

本发明根据较低延迟与较高延迟的分区设计，需要定义两个桶来分别放置不同预测评分的OSD节点，然而这只解决的是OSD节点的分区问题，具体的数据放置位置选择由规则进行控制。本发明通过设计两个“根桶”的方式并定义相应的规则流程来实现这一目标。在Ceph***中通过桶与规则结合的方式以不侵入***的方式改变数据的放置位置。设计两个“根桶”的方式，如图5所示，双“根桶”分别定义为Low桶和High桶，其中Low桶放置具有较低延迟的节点，High桶则放置较高延迟的节点。Low桶中放置个数量的Host(即边缘服务器)，High桶中则放置N/2个数量的Host。定义数据的副本数量为M，则选择规则在Low桶中将选择/>个Host，在High桶中选择M/2个Host，从而可以保证每个数据在较低延迟的节点中都存在着副本。

本实施例以3副本和5个OSD节点来展示具体的桶结构和规则定义的实现。表1展示了具体的桶结构详情。

表1

如表1所示，其中包含7个桶的实现，首个字段表示桶的类型。剩下4个类型的字段为桶的具体定义信息，其中id表示桶的唯一标识号(在Ceph中桶从-1开始往下编号，OSD节点从0开始往上编号)；alg表示桶中子桶或OSD节点的放置选择算法(在放置算法的选择中，本发明考虑到需要改变桶结构对数据进行迁移，使用升级版的“抽签算法”straw2减少数据迁移量)；hash表示在计算过程中用到的哈希函数(0代表默认函数jenkins1)；item表示桶中放置的子桶或OSD节点。

如图6所示。其中ruleset代表在规则集中的唯一标识；type代表保存多副本的方式(复制或纠删码)；最后的step则代表着具体的选择流程。在step中有三种类型的操作，分别是take、choose和emit。其中take表示获得一个“根桶”；choose表示选择子桶或OSD节点，emit则是结束一个“根桶”的选择。在choose类型的操作中，第一个参数为选择的方式，本文使用的是firstn(深度优先遍历)方法；第二个参数为选择的个数；第三个参数为类别标识符；第四个参数则是具体类别(可以是桶或OSD)。

在***运行时改变桶结构能够改变副本的放置位置，算法1为桶替换算法的伪代码，如表2所示。算法首先清空Low和High两个“根桶”，然后根据期望排名分别往“根桶”中加入相应的Host桶。

表2

综上所述，本发明通过在服务器之间维护一份服务器排名并分发给客户端的方式，使副本选择具有完整的服务器状态信息且没有转发延迟开销。然后，针对边缘环境中存在多种影响***服务质量的因素，研究使用神经网络建立高维的性能模型，设计了一种基于多代理强化学习的性能建模方法。并通过对基础模型的结构和数据流进行调整，从而能够在云和边缘部署不同的网络结构加速副本选择策略的调整，且减少云边数据的传输开销。最后，考虑到副本放置位置将影响副本的选择，设计了一种基于排名期望的副本放置优化方法。根据服务器排名的期望，调整副本放置位置，从而使得请求能够选择更低延迟的服务器，降低请求处理时延。本发明能够更好适应边缘环境中的副本选择，实现性能和可靠性的兼顾。

实施例2、

一种基于实施例1所述分布式存储***的副本选择方法，包括：

在分布式存储***的运行过程中，当服务器端接收到副本访问请求时，基于边缘服务器的评分对各边缘服务器进行排名，选择排名最高、且存在数据副本的边缘服务器作为副本选择的节点进行数据访问。

优选地，分布式存储***中的所有边缘服务器构成一个Ceph***；Ceph***对每一个存在数据副本的边缘服务器的评分进行归一化后，作为边缘服务器所对应的affinity-primary参数值，并基于affinity-primary参数值选择进行数据访问的边缘服务器。

相关技术方案同实施例1，这里不做赘述。

为了说明本发明所提供的副本选择方法的性能，分别对三种副本选择方法在三种负载中进行性能测试实验，其中，客户端数量设置为10。如图7所示为在Read-only、Read-heavy和Update-heavy三种负载下不同副本选择策略的平均延迟结果，其中，横坐标表示具体的副本选择策略，纵坐标为相应的性能指标(平均延迟，以ms计算)；其中，MARLRS为本发明所提供的副本选择策略，集中的On-off和分散的DRS-RT为现有的两种副本选择策略。从图7可以看出，集中的DRS-RT方法比分散的On-Off方法平均延迟更高，这是因为在边缘环境下(节点之间存在传输延迟)，DRS-RT方法存在着较高的请求转发的延迟开销。而本发明所提供的MARLRS方法因为使用多代理强化学***均延迟降低比例最低，这是因为写操作具有同步开销，而MARLRS对同步复制节点的选取不可控。

进一步地，表3展示了在三种负载下，本发明所提供的MARLRS相比于其他两种方法的平均延迟降低比例。具体来说，与On-Off方法相比，平均延迟分别降低了8.89％、8.55％和2.47％。与DRS-RT方法相比，平均延迟分别降低了11.78％、13.72％和10.07％。

表3

进一步地，由于多种因素影响，分布式存储***的性能是不稳定的，各节点处理请求的响应延迟不同。并且在边缘由于用户移动性，不同请求使用不同服务器也将获得不同的响应延迟。本发明通过一段长时间的采集每个时刻***的平均响应延迟来观测***服务的稳定性，验证本发明所提供的MARLRS的有效性。其中每个时刻间隔时长为1秒。具体地，如图8所示为在Read-only负载下使用3种不同策略各节点在每个时刻的平均响应延迟。其中，从上往下分别代表MARLRS、On-Off和DRS-RT三种方法；横坐标表示一个个时刻；本发明总共采集了1000个时刻的***平均延迟数据，纵坐标表示延迟(以ms计)。从图中可以看出On-Off方法存在较多的负载振荡时刻，这是因为使用客户端作为选择节点的方法只有局部视图且多选择节点难以协调策略从而容易造成振荡。从每个子图的整体趋势可以看到使用On-Off和DRS-RT方法***整体平均延迟波动较大，说明这两者的方法没有很好的分配请求，本发明所提供的MARLRS方法虽然也会出现波动，但是相比于其他两种方法整体趋势都更加平稳。经过一段长时间的观测，可以看到MARLRS相比于On-Off和DRS-RT方法的副本选择策略都更加的有效，能够使***响应延迟更加的稳定，提供更稳定的服务质量。

进一步地，通过增加客户端的数量(增加***整体负载)来观察不同副本选择策略的平均延迟变化。设置客户端的数量分别为10、20、30、40、50。测试在Read-only工作负载下各副本选择策略的平均延迟。如图9所示为在Read-only负载下不同客户端数量对三种副本选择策略的延迟影响，从图中可以看出，虽然随着客户端数量的增多(***负载加大)三种策略的平均响应延迟均呈现上升趋势，但是与On-Off方法相比，随着客户端数量的增加，本发明所提供的MARLRS的平均延迟分别降低了8.89％、10.02％、11.34％、12.76％、14.43％；与DRS-RT方法相比，随着客户端数量的增加，MARLRS的平均延迟分别降低了11.78％、12.04％、12.12％、12.15％、11.88％。具体地，Read-only负载下MARLRS在不同客户端数量的平均延迟降低比例如表4所示：

表4

从表4中的数据可以看出，随着客户端数量的增加，本发明所提供的MARLRS相比于On-Off有着更大的延迟降低效果。这说明了On-Off方法随着客户端数量的增多(并发数增大)，On-Off的开关策略会降低选择效率，且更加难以协调决策降低负载振荡，从而导致较高的延迟。甚至在40个客户端数量时就超过的使用转发机制的DRS-RT方法。同时，表中数据显示MARLRS相比于DRS-RT方法的延迟降低效果没有太大的变化，这是因为MARLRS与DRS-RT都是集中式决策。随着并发数的增加，MARLRS这种每隔一个时刻决策的方法可能会出时刻内较高并发出现延迟升高的情况，但DRS-RT也面临单点集中决策的并发量问题，导致出现较高的延迟。总的来说，随着客户端数量的增加MARLRS方法的平均响应延迟优于其他两种方法。

综上所述，本发明公开了一种分布式存储***的副本选择方法，通过在服务器之间维护一份服务器排名并分发给客户端的方式，使副本选择具有完整的服务器状态信息且没有转发延迟开销。然后，针对边缘环境中存在多种影响***服务质量的因素，研究使用神经网络建立高维的性能模型，设计了一种基于多代理强化学习的性能建模方法。并通过对基础模型的结构和数据流进行调整，从而能够在云和边缘部署不同的网络结构加速副本选择策略的调整，且减少云边数据的传输开销。最后，考虑到副本放置位置将影响副本的选择，设计了一种基于排名期望的副本放置优化方法。根据服务器排名的期望，调整副本放置位置，从而使得请求能够选择更低延迟的服务器，降低请求处理时延。本发明能够更好适应边缘环境中的副本选择，实现性能和可靠性的兼顾。

实施例3、

一种副本选择***，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明实施例2所提供的副本选择方法。

相关技术方案同实施例2，这里不做赘述。

实施例4、

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例2所提供的副本选择方法。

相关技术方案同实施例2，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式存储***，其特征在于，包括：云端和服务器端；所述服务器端包括：多个分布式分布的边缘服务器；每个边缘服务器中均部署有一个Actor网络；所述云端部署有多个Critic网络，其数量与所述边缘服务器的数量相同，一个Critic网络对应一个Actor网络；

所述分布式存储***的运行过程包括：

在每一时刻t，云端执行以下操作：收集所有边缘服务器发送过来的信息，并在收集完t时刻下所有边缘服务器发送过来的信息后，计算t-1时刻的奖励值r_t-1，并将对应的元组信息存入经验池中；当经验池存满数据时，从经验池中随机采样元组信息数据对Critic网络进行训练；其中，所述元组信息包括：t-1时刻所有边缘服务器的状态信息、t-1时刻所有边缘服务器的评分、t-1时刻的奖励值和t时刻所有边缘服务器的状态信息；

云端在每一时刻t下执行操作的过程中，在经验池未存满数据或者Critic网络训练完成后，判断从时刻t开始所经过的时长是否大于预设时间周期，若是，则从经验池中获取不同时刻下各边缘服务器的评分，计算得到每一个边缘服务器的评分平均值；以各边缘服务器的评分平均值的中位数为划分点，将边缘服务器划分为低延迟边缘服务器和高延迟边缘服务器；其中，所述低延迟边缘服务器的评分平均值大于或等于划分点，所述高延迟边缘服务器的评分平均值小于划分点；分别采用两个根桶结构对边缘服务器进行分区，分别记为Low桶和High桶；将个低延迟边缘服务器放置在所述Low桶中，将N/2个的高延迟边缘服务器放置在所述High桶中；在所述Low桶中选择/>个低延迟边缘服务器、在所述High桶中选择M/2高延迟边缘服务器放置副本；否则，云端在该时刻t下的操作结束；其中，N为边缘服务器的数量；M为副本数量。

2.根据权利要求1所述的分布式存储***，其特征在于，所述t-1时刻的奖励值r_t-1为：

3.根据权利要求1-2任意一项所述的分布式存储***，其特征在于，所述Actor网络包括：Actor在线网络和Actor目标网络；所述Critic网络包括Critic在线网络和Critic目标网络；

所述分布式存储***的运行过程包括：

在每一时刻t，云端执行以下操作：收集所有边缘服务器发送过来的信息，并在收集完t时刻下所有边缘服务器发送过来的信息后，计算t-1时刻的奖励值，并将对应的元组信息存入经验池中；当经验池存满数据时，从经验池中随机采样元组信息数据对各Critic网络进行训练；所述元组信息包括：t-1时刻所有边缘服务器的状态信息s_t-1、t-1时刻所有边缘服务器的Actor在线网络输出的评分a_t-1、t-1时刻的奖励值r_t-1、t时刻所有边缘服务器的状态信息s_t以及t时刻所有边缘服务器的Actor目标网络输出的评分a′_t；其中，为t-1时刻下第i个边缘服务器的状态信息；/>为t-1时刻下第i个边缘服务器的Actor在线网络输出的评分；/>为t时刻下第i个边缘服务器的状态信息；/>为t时刻下第i个边缘服务器的Actor目标网络输出的评分；N为边缘服务器的数量。

4.根据权利要求3所述的分布式存储***，其特征在于，从所述经验池中随机采样元组信息数据对Critic网络进行训练的方法，包括：

基于采样得到的元组信息数据获取每一个边缘服务器的评价结果和对应的评价标签；其中，基于第j个元组信息数据得到的第i个边缘服务器的评价结果为将和a_b输入至第i个Critic在线网络所得的评价结果；基于第j个元组信息数据得到的第i个边缘服务器的评价标签/>r_b为b时刻的奖励值；γ为奖励折扣率；/>为将/>和a'_b+1输入至第i个Critic目标网络所得的评价结果；

5.一种基于权利要求1-4任意一项所述分布式存储***的副本选择方法，其特征在于，包括：在所述分布式存储***的运行过程中，当服务器端接收到副本访问请求时，基于边缘服务器的评分对各边缘服务器进行排名，选择排名最高、且存在数据副本的边缘服务器作为副本选择的节点进行数据访问。

6.根据权利要求5所述的副本选择方法，其特征在于，所述分布式存储***中的所有边缘服务器构成一个Ceph***；所述Ceph***对每一个存在数据副本的边缘服务器的评分进行归一化后，作为边缘服务器所对应的affinity-primary参数值，并基于affinity-primary参数值选择进行数据访问的边缘服务器。

7.根据权利要求6所述的副本选择方法，其特征在于，所述Ceph***采用max-min归一化方法对每一个存在数据副本的边缘服务器的评分进行归一化。

8.一种副本选择***，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行权利要求5-7任意一项所述的副本选择方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求5-7任意一项所述的副本选择方法。