CN106453546B - 分布式存储调度的方法 - Google Patents

分布式存储调度的方法 Download PDF

Info

Publication number
CN106453546B
CN106453546B CN201610875745.1A CN201610875745A CN106453546B CN 106453546 B CN106453546 B CN 106453546B CN 201610875745 A CN201610875745 A CN 201610875745A CN 106453546 B CN106453546 B CN 106453546B
Authority
CN
China
Prior art keywords
evaluation
memory node
matrix
factor
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610875745.1A
Other languages
English (en)
Other versions
CN106453546A (zh
Inventor
张栗粽
殷光强
罗光春
田玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610875745.1A priority Critical patent/CN106453546B/zh
Publication of CN106453546A publication Critical patent/CN106453546A/zh
Application granted granted Critical
Publication of CN106453546B publication Critical patent/CN106453546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/122Shortest path evaluation by minimising distances, e.g. by selecting a route with minimum of number of hops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及分布式存储调度的方法,包括:a.建立评价指标:获得与m个存储节点相关的评价矩阵;b.数据标准化处理:对评价矩阵中的各数据消除量纲效应后,得到评价指标值矩阵;c.利用三角模糊数进行两两比较:得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量和加权评价矩阵,以及每个评价因素的权值;d.求得正负理想值:求得正负理想值和得各存储节点到理想值的距离,对各存储节点进行排序,选出最优的存储节点。本发明的方法,能够对调度过程中的各种影响因素进行综合分析,从而选择出最优选的存储节点进行响应,极大程度提高了网络远程分布式存储的数据传输性能和存储效率,明显改善了分布式存储的存储质量。

Description

分布式存储调度的方法
技术领域
本发明涉及云存储中的分布式存储方法,具体的讲是在云存储中进行分布式存储调度的方法。
背景技术
在分布式存储的领域中,Cinder是一种应用极为广泛的分布式存储架构,它的调度分为两个阶段,分别是filtering和weighting。当一个存储请求到来时,首先是filtering阶段将符合要求的存储节点筛选出来,在筛选中每个存储节点只有符合或不符合两种结果,符合要求则进入待weighting的队列,不符合要求则将其淘汰;之后执行weighting阶段,对符合要求的存储节点进行排序,选取最为合适的存储节点,由该存储节点为请求提供存储服务。当前filtering过程检验存储节点是否符合要求的标准是该存储节点是否有足够的存储空间能够执行该次的存储请求,如果有就将其放入队列以便之后的weighting过程使用,反之则不予考虑。之后的weighting过程基于剩余存储空间对合格存储节点进行排序,选取剩余存储空间最大的存储节点来提供服务。经过以上两步,一个发送到Cinder的请求的调度过程结束。
Cinder的调度方法在分布式存储的服务质量中起着关键的作用,但是当前的Cinder调度存在以下的问题:当前以剩余存储空间为唯一调度目标的调度方法并不能保证云存储的服务质量。例如,当某个存储节点的网络拥塞较严重但其剩余的存储空间是最大的时候,Cinder并不会意识到这一点,它还是会选取该存储节点来处理存储请求。但此时由于网络拥塞的影响显然该存储节点并不是最为理想的服务节点。进一步来说,Cinder这种只考虑存储节点剩余存储空间的调度方法并没有达到调度的综合性能最优。存储节点中影响服务质量的因素除剩余空间外还包括其它多种因素,只有将影响服务质量的多种因素综合考虑进来实现多维调度才能达到最佳的调度效果。
发明内容
本发明提供了一种分布式存储调度的方法,以克服目前单目标调度不能调度到性能最佳服务节点的缺陷,使对存储节点的选择方式更加全面,提高存储效率和质量。
本发明分布式存储调度的方法,包括步骤有:
a.建立评价指标:根据调度请求,收集对调度有影响的评价因素,然后分析出各所述评价因素和调度的相关性,获得与m个存储节点相关的评价矩阵,其中m为自然数;
b.数据标准化处理:对数据标准化是数据处理中常用的一种方式。本方法中是通过标准化公式对所述评价矩阵中的各数据消除量纲效应后,得到标准化之后的评价指标值矩阵;
c.利用三角模糊数进行两两比较:通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较,例如对于两个存储节点m和n之间的比较可以用rmn=(a,b,c)来表示,中值b表示重要程度,两个边界值a和c则用来表示模糊程度,当b减去a的差值越大时说明两个节点比较的模糊性越高,如果差值为0则说明该比较是非模糊的。同样的道理,表示节点n相对于节点m的重要度。然后得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量,并得到加权评价矩阵,对所述权重向量做归一化处理得到每个评价因素的权值;
d.求得正负理想值:在所述加权评价矩阵上求得正负理想值,通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离,再使用接近度来定义综合性能,计算出各存储节点的综合评价值,根据各存储节点的综合评价值对各存储节点进行排序,选出综合评价值最小的存储节点作为调度请求的响应存储节点。
其中建立评价指标是进行分析的基础,影响调度的因素可以从调度请求发出到调度请求被某一存储节点处理这一全过程来进行分析。在这一过程中首先涉及到发出请求的客户端的因素,其次是传送请求的网络的因素,最后是处理请求的服务节点的因素。因此可以将所述的评价因素判断为包括有客户端因素、网络因素和服务端因素。
具体来看,客户端因素包括有客户端距服务端的路由跳数,也就是客户端到存储节点的距离因素;网络因素包括有网络传输过程中的丢包率、网络是否畅通等;服务端因素包括有处理器负载、内存使用率和存储空间占用率等。因此,路由跳数、丢包率、处理器负载、内存使用率和存储空间占用率这5个主要因素共同决定了存储的质量。
一种可选的方式为,步骤a中通过皮尔逊积矩相关系数分析出各所述评价因素和调度的相关性,可以得到调度相关性其中代表测试样本x的均值,同理代表y的均值,n代表样本容量,r的值介于负1到正1之间,为正值时说明具有正相关性,为负值时说明具有负相关性。
进一步的,步骤b中,根据评价矩阵中的各数据的优越程度与数据值大小的对应关系,采用不同的标准化公式进行量纲效应消除处理。例如对于数据值越大优越程度越优的数据p(i,j)可以采用标准化公式:p(i,j)=n(i,j)/[nmax(i)+nmin(i)];对于数据值越小优越程度越优的数据p(i,j)可以采用标准化公式:p(i,j)=[nmax(i)+nmin(i)-n(i,j)]/[nmax(i)+nmin(i)],其中n(i,j)表示评价矩阵N中的节点,nmax(i)表示第i个评价因素的最大值,nmin(i)表示第i个评价因素的最小值。
优选的,步骤d中通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离。可以用表示存储节点i到正理想值的距离,用表示存储节点i到负理想值的距离。值的大小表明了存储节点i与正理想值直接的距离,该值越小则表明该存储节点越是接近正理想值;同理表明了存储节点i与负理想值之间的距离。例如当备选存储节点的计算参数设置为客户端距离服务端路由跳数、网络丢包率、CPU负载、内存使用率和剩余存储容量时,这些参数显然都是越小越好,所以这时最优节点就是离负理想值最近的存储节点。
本发明的分布式存储调度的方法,能够对调度过程中的各种影响因素进行综合分析,从而选择出最优选的存储节点进行响应,极大程度提高了网络远程分布式存储的数据传输性能和存储效率,明显改善了分布式存储的存储质量。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明分布式存储调度的方法的流程图。
具体实施方式
如图1所示本发明分布式存储调度的方法,步骤有:
a.建立评价指标:根据调度请求,收集对调度有影响的评价因素。根据调度的全过程,将评价因素分为发出请求的客户端的因素、传送请求的网络的因素、处理请求的服务节点的因素。其中客户端因素包括有客户端距服务端的路由跳数,网络因素包括有网络传输过程中的丢包率和网络是否畅通,服务端因素包括有处理器负载、内存使用率和存储空间占用率。
以这5个评价因素为基础,通过皮尔逊积矩相关系数分析各个影响因素和调度的相关性:
其中代表测试样本x的均值,同理代表y的均值,n代表样本容量,r的值介于负1到正1之间,为正值时说明具有正相关性,为负值时说明具有负相关性。
评价对象是实际存储卷的m个物理存储节点,可以表示为ki∈K,其中i∈{1,2,3,…,m}。对于每个存储节点都有5个影响调度的因素要考虑,则可以建立m×5的评价矩阵N:
b.数据标准化处理:通过标准化公式对所述评价矩阵中的各数据消除量纲效应。根据评价矩阵中的各数据的优越程度与数据值大小的对应关系,采用不同的标准化公式进行量纲效应消除处理,例如“传输延迟”的优越程度是越小越好。对于数据值越大优越程度越优的数据p(i,j)可以采用标准化公式:p(i,j)=n(i,j)/[nmax(i)+nmin(i)];对于数据值越小优越程度越优的数据p(i,j)可以采用标准化公式:p(i,j)=[nmax(i)+nmin(i)-n(i,j)]/[nmax(i)+nmin(i)],其中n(i,j)表示评价矩阵N中的节点,nmax(i)表示第i个评价因素的最大值,nmin(i)表示第i个评价因素的最小值。
然后得到标准化之后的评价指标值矩阵N·
c.利用三角模糊数进行两两比较:通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较,共比较m(m-1)/2次。然后得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量,并得到加权矩阵T,对所述权重向量做归一化处理得到每个评价因素的权值。
例如有5个备选的存储节点,得到的加权矩阵T为:
对上述加权矩阵T变换为小数形式并求评价指标平均值之和得:
对判断矩阵使用计算模糊综合程度公式:i=1,2,…,n,其中是判断矩阵中所计算的对应项的求和结果,是待求解项的权重。本实施例中是对5个评价指标进行计算,因此n=5进而得到每个评价指标相对于其它评价指标的重要程度:
对于两个存储节点m和n之间的比较可以用rmn=(a,b,c)来表示,中值b为a和c的中值,表示重要程度,两个边界值a和c则用来表示模糊程度,当b减去a的差值越大时说明两个节点比较的模糊性越高,如果差值为0则说明该比较是非模糊的。同理,表示节点n相对于节点m的重要度。通过公式:
可以计算每个评价指标与其它评价指标相比的测度:同理可得:V(S1≥S5)=0.417,V(S2≥S3)=0.235,V(S2≥S4)=0.228,V(S2≥S5)=0.762,V(S5≥S3)=0.396,V(S5≥S4)=0.391,其余各比较值均为1。
再利用公式:
d(P)=minV(P≥Px),x=1,2,…,n;P≠Pi,可以得到每个评价因素的权重向量d(Ci):
d(C1)=V(S1≥S2,S3,S4,S5)=min(0.65,1,1,0.417)=0.417
d(C2)=V(S2≥S1,S3,S4,S5)=min(1,0.235,0.228,0.762)=0.228
d(C3)=V(S3≥S1,S2,S4,S5)=min(1,1,1,1)=1
d(C4)=V(S4≥S1,S2,S3,S5)=min(1,1,1,1)=1
d(C5)=V(S5≥S1,S2,S3,S4)=min(1,1,0.396,0.391)=0.391
其中P表示概率公式中随机事件发生可能性大小的量,Pn为对应的Sn的概率。
对各个权值做检验有:
d′(C1)+d′(C2)+d′(C3)+d′(C4)+d′(C5)=0.137+0.075+0.329+0.329+0.13=1
其中d′(Ci)为d(C1)~d(C5)的计算数值除以它们的总和的值。
根据上式求得的客户端到各个存储节点的路由跳数、网络丢包率、CPU负载,内存使用率和磁盘空间使用量5个参数求解之后得到权值向量A:
A=(a1,a2,a3,a4,a5)=(0.137,0.075,0.329,0,329,0.13)
用权值向量A代替三角模糊数判断矩阵R中的(r1,r2,r3,r4,r5),得到加权评价矩阵Z。
d.求得正负理想值:在所述加权评价矩阵Z上求得正负理想值,可以在矩阵Z上使用TOPSIS算法为存储节点进行排序,分别用Z+和Z-表示,其中Z+由加权评价矩阵Z中各评价指标的最大值组成,Z-则由加权评价矩阵Z中各评价指标的最小值组成:
然后通过加权的曼哈顿距离公式分别算出各个存储节点到正负理想值的距离:
其中i=1,2,…,m,其中aj是评价指标权值,xij是第i个存储节点的第j个评价指标的值,分别为第j个评价指标到正、负理想值的距离,是存储节点i到正理想值的距离,是存储节点i到负理想值的距离,值的大小表明了存储节点i与正理想值直接的距离,该值越小则表明该存储节点越是接近正理想值,同理表明了存储节点i与负理想值之间直接的距离。
再使用接近度来定义综合性能,计算出各存储节点的综合评价值C:存储节点的综合性能与Ci的值负相关,由于本实施例中各存储节点的计算参数设置为客户端距离服务端路由跳数、网络丢包率、CPU负载、内存使用率和剩余存储容量,这些参数显然都是越小越好,所以这时最优的存储节点就是离负理想值Di -最近的存储节点,因此当Ci取到0的时候,也就是与负理想值的距离为0的存储节点为最优的节点。因此根据各存储节点的Ci值,对各存储节点进行排序,选出Ci值最小的存储节点作为调度请求的响应存储节点。

Claims (5)

1.分布式存储调度的方法,其特征包括:
a.建立评价指标:根据调度请求,收集对调度有影响的评价因素,然后分析出各所述评价因素和调度的相关性,获得与m个存储节点相关的评价矩阵,其中m为自然数;
b.数据标准化处理:通过标准化公式对所述评价矩阵中的各数据消除量纲效应后,得到标准化之后的评价指标值矩阵;
c.利用三角模糊数进行两两比较:通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较后,得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量,并得到加权评价矩阵,对所述权重向量做归一化处理得到每个评价因素的权值;
d.求得正负理想值:在所述加权评价矩阵上求得正负理想值,通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离,再使用接近度来定义综合性能,计算出各存储节点的综合评价值,根据各存储节点的综合评价值对各存储节点进行排序,选出综合评价值最小的存储节点作为调度请求的响应存储节点。
2.如权利要求1所述的分布式存储调度的方法,其特征为:所述的评价因素包括客户端因素、网络因素和服务端因素。
3.如权利要求2所述的分布式存储调度的方法,其特征为:客户端因素包括客户端距服务端的路由跳数;网络因素包括网络传输过程中的丢包率和网络是否畅通;服务端因素包括处理器负载、内存使用率和存储空间占用率。
4.如权利要求1至3之一所述的分布式存储调度的方法,其特征为:步骤a中通过皮尔逊积矩相关系数分析出各所述评价因素和调度的相关性。
5.如权利要求1至3之一所述的分布式存储调度的方法,其特征为:步骤b中,根据评价矩阵中的各数据的优越程度与数据值大小的对应关系,采用不同的标准化公式进行量纲效应消除处理。
CN201610875745.1A 2016-10-08 2016-10-08 分布式存储调度的方法 Active CN106453546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875745.1A CN106453546B (zh) 2016-10-08 2016-10-08 分布式存储调度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875745.1A CN106453546B (zh) 2016-10-08 2016-10-08 分布式存储调度的方法

Publications (2)

Publication Number Publication Date
CN106453546A CN106453546A (zh) 2017-02-22
CN106453546B true CN106453546B (zh) 2019-05-07

Family

ID=58172006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875745.1A Active CN106453546B (zh) 2016-10-08 2016-10-08 分布式存储调度的方法

Country Status (1)

Country Link
CN (1) CN106453546B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172189A (zh) * 2017-06-14 2017-09-15 郑州云海信息技术有限公司 一种多并发图片存储方法
CN109800076B (zh) * 2017-11-16 2021-09-10 航天信息股份有限公司 存储调度方法及装置
CN111144701B (zh) * 2019-12-04 2022-03-22 中国电子科技集团公司第三十研究所 一种分布式环境下etl作业调度资源分类评估的方法
CN112491862B (zh) * 2020-11-23 2022-08-02 中国联合网络通信集团有限公司 分布式加密方法和装置
CN113064554B (zh) * 2021-04-08 2022-08-30 易联众信息技术股份有限公司 基于分布式存储的最优存储节点匹配方法、装置及介质
CN114531365B (zh) * 2022-04-24 2022-07-15 北京华创方舟科技集团有限公司 多云环境下云资源自动化运维的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731528A (zh) * 2015-03-17 2015-06-24 清华大学 一种云计算块存储服务的构建方法及***
CN104933505A (zh) * 2015-04-22 2015-09-23 国家电网公司 一种基于模糊评估的智能配电网群决策评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731528A (zh) * 2015-03-17 2015-06-24 清华大学 一种云计算块存储服务的构建方法及***
CN104933505A (zh) * 2015-04-22 2015-09-23 国家电网公司 一种基于模糊评估的智能配电网群决策评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Genetic Algorithm for the Project Scheduling Problem with Fuzzy Time Parameters";Yilun Huang,etc al.,;《2011 IEEE International Conference on Industrial Engineering and Engineering Management》;20111209;689-693 *
"基于改进层次分析法的大面积停电事故抢修后模糊综合评价";尹洪等,;《华东电力》;20120831;第40卷(第8期);1341-1345 *

Also Published As

Publication number Publication date
CN106453546A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106453546B (zh) 分布式存储调度的方法
CN110287245B (zh) 用于分布式etl任务调度执行的方法及***
CN105718479B (zh) 跨idc大数据处理架构下执行策略生成方法、装置
CN108681973A (zh) 电力用户的分类方法、装置、计算机设备和存储介质
CN104102700A (zh) 一种面向因特网不平衡应用流的分类方法
CN113837311B (zh) 一种基于需求响应数据的居民客户聚类方法及装置
CN109885397A (zh) 一种边缘计算环境中时延优化的负载任务迁移算法
CN116501711A (zh) 一种基于“存算分离”架构的算力网络任务调度方法
CN106612511A (zh) 一种基于支持向量机的无线网络吞吐量的评估方法及装置
CN111260288B (zh) 订单管理方法、装置、介质及电子设备
CN110334157A (zh) 一种云计算管理***
CN115442242A (zh) 一种基于重要性排序的工作流编排***及其方法
CN116701979A (zh) 基于受限k-均值的社交网络数据分析方法及***
CN110766043A (zh) 基于电网信息数据的K-means聚类算法
CN107066328A (zh) 大规模数据处理平台的构建方法
CN105825311B (zh) 一种套餐确定方法及***
CN107193940A (zh) 大数据优化分析方法
Huang et al. Effective scheduling function design in SDN through deep reinforcement learning
Shi et al. A multipopulation coevolutionary strategy for multiobjective immune algorithm
CN104698838B (zh) 基于论域动态划分和学习的模糊调度规则挖掘方法
Tomaszek et al. On performance improvement of the soma swarm based algorithm and its complex network duality
CN115665157A (zh) 一种基于应用资源类型的均衡调度方法和***
CN115660730A (zh) 基于分类算法的流失用户分析方法及***
Nadaf et al. Data mining in telecommunication
Lotfi et al. A new method for complex decision making based on TOPSIS for complex decision making problems with fuzzy data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant