CN105868414B

CN105868414B - 一种聚类分离的分布式索引方法

Info

Publication number: CN105868414B
Application number: CN201610287204.7A
Authority: CN
Inventors: 袁鑫攀; 汪灿飞; 何频捷; 梁圣; 满君丰; 向平; 向一平
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2016-05-03
Filing date: 2016-05-03
Publication date: 2019-03-26
Anticipated expiration: 2036-05-03
Also published as: CN105868414A

Abstract

本发明提出了一种聚类分离的分布式索引方法，简称CS‑Chord（Clustering separation‑Chord）。在M‑Chord分布式索引中，聚类的边缘向量一般比较稀少，这些稀少的向量使得每个聚类的半径变得很大。在范围查询的时候，半径越大的聚类越容易与范围查找的区域相交，从而使得候选查找的区域增多。而聚类的边缘向量又通常是高访问量的向量，性能进一步降低。本发明所述的CS‑Chord将聚类边缘的稀疏向量分离出来并集中存储在独立的服务器上，将稠密向量存储在Chord环中，查找时一方面高频的查询集中在独立服务器的向量，另一方面也减少了Chord环上的搜索范围，从而提高检索效率。

Description

一种聚类分离的分布式索引方法

技术领域

本发明涉及分布式索引领域，更具体地，涉及一种聚类分离的分布式索引方法。

背景技术

P2P对等网络不依赖专用的集中式服务器，网络内所有的节点都是平等的，自由互联的。它们通过交换来共享计算机的资源与服务。P2P分布式索引结构充分的利用了网络节点中各个节点的性能，具有可扩展性好，资源利用率高等优点。近年来，分布式的索引已经逐渐成为了研究的热点。NOVAK.D等人提出的M-Chord是一种基于P2P网络的高维向量相似性检索的分布式索引算法。该算法将IDistance算法与Chord协议结合，IDistance算法负责高维向量降维，Chord协议负责分布式的向量存储与检索。

Chord是一种结构化的分布式查找协议，通过DHT技术来在P2P网络中迅速地定位资源。为了实现快速的资源查找，每个在Chord环上的节点都需要维护O(log₂ ⁿ)(n为Chord环中的节点总数目)长度的路由表。在Chord协议中，节点和数据都会通过映射得到同一片空间中的m位标识符，通过引入虚拟节点使每个节点存储大致相等的数据，即Chord协议是负载均衡的。节点路由表是分散的，每个节点只需要知道整个***中少数节点的路由信息通过不断跳转查询就可以获得查询路径信息。一次查询的操作只需要在环中产生O(log₂ ⁿ)条消息。

分布式哈希(DHT)是按一定的方式为网络中的各个节点分配一个唯一的标识符。在Chord协议里，数据资源也按同样的规则分配一个唯一的标识符。Chord协议采用一致性哈希算法(Consistent Hash)来计算节点以及资源，映射的结果通过对2^m取模获取一个m位的标识符，范围在[0，2^m-1]。对于节点，IP地址是唯一的，一致性哈希通过对节点的IP地址哈希得到节点标识符。对于数据，通过关键值哈希就可以获得数据的标识符。m＝2，N₄的Chord环如图1(a)所示，Ni为节点，Ki为资源。

资源的迅速定位主要依赖的各个节点所保存的路由信息。每个节点的数据结构中有一张路由表，保存了部分节点的数据和地址信息，如图1(b)所示。

Chord的查找可分为以下步骤：

(1)某个节点N收到待查关键值key，首先搜索该节点N的本地资源中是否存有该关键值，若节点N存有该关键值，则查找结束并返回节点资源，否则转向步骤(2)。

(2)查看被请求节点的指针表，找到小于关键值映射的标识符且距离最近的节点，然后把查找请求发送到该节点上，重复步骤(1)。

IDistance是一种基于度量空间的高维向量索引方法。它的索引建立的基本思想是：在整个数据空间内选取若干个锚点，每个锚点对应着一个聚类子集。数据空间的每个数据点都划分到离该数据点最近的锚点的聚类子集中。然后把高维向量通过与锚点的距离转化为一个可以度量的一维的关键值iDist，利用B⁺-Tree组织管理所有高维向量的关键值iDist，关键值iDist的计算公式为：iDist(x)＝dist(p_i,x)+i*c。如图2所示，P₀、P₁、P₂为锚点；C_i为P_i的数据子集中离P_i最远的某个数据点的距离，即P_i的数据子集的半径；c是一个常量，大于所有的C_i。

设全集为D，给定一个相似度范围查询Range(q,r)，即检索与数据点q距离小于半径r的数据点集合：Range(q,r)＝{x∈D,dist(q,x)＜r}，其中，函数dist(q,x)表示向量q到数据点x的距离。

IDistance的检索过程为：

(1)通过和各个锚点P_i的距离来测算：q的搜索圆是否与该锚点P_i的数据子集相交。

相交的判断公式为：dist(q,P_i)<C_i+r

不相交的判断公式为：dist(q,P_i)>C_i+r

(2)若不相交则该锚点的数据子集中无检索目标点；若相交，则确定搜索的环体范围。搜索的环体范围为：

{x∈P_i,max(dist(P_i,q)-r,0)＜dist(P_i,x)＜min(dist(P_i,q)+r,C_i)}

(3)确定一维关键值iDist的搜索范围，从而在B+树上进行快速的查找，找到的数据点进入候选集。一维关键值iDist的搜索范围：

{x∈P_i,i*c+max(dist(P_i,q)-r,0)＜iDist(P_i,x)＜i*c+min(dist(P_i,q)+r,C_i)}

(4)分别对候选集中的每个数据点与q进行距离计算，若距离小于r，则进入最终的检索结果集。

IDistance将高维向量的索引问题，通过选取锚点的方式巧妙的降低到一维上，将一维索引通过B+树进行组织，具有搜索快的特点，节约了大量的距离计算。

NOVAK.D等人提出的M-Chord(M表示Metric)是一种度量空间下分布式索引算法，不仅仅在分布式p2p网络下能定位资源(相等查找)，还扩展相似性搜索(范围查找)。该算法将IDistance算法与Chord协议结合，IDistance算法负责高维向量的降维，Chord协议负责分布式的数据存储，成功地实现了高维向量在分布式环境下的相似性查找。M-Chord算法将IDistance与Chord相结合，通过IDistance将高维向量转化为一维关键值，通过哈希函数将一维关键值映射到Chord的标识符空间中去，通过Chord环来***和检索数据，如图3所示。

M-Chord算法的某个节点收到一个范围检索Range(Q，r)过程如下，其中Q为待查向量，r为查询范围半径。

(1)通过IDistance计算出范围检索Range(Q，r)与聚类的相交区域，映射为多个关键值区间[xi，yi]。

(2)通过位置保持哈希函数h对xi，yi哈希，生成Chord环中的关键值范围[h(xi)，h(yi)]。通过查询路由表定位关键值h(xi)所在的节点，如果h(yi)大于节点中所存数据的关键值最大值Key_max，则将范围[Key_max，h(yi)]发送到该节点的后继节点。如果h(yi)比后继节点的Key_max还要大，则继续往它的后继节点发送查询信息。

(4)每一个节点(包括服务器和Chord环中的节点)接收到查询请求，在此节点的B⁺-Tree中检索关键值范围中是否有向量存在，若存在向量则与待查向量Q进行距离计算，若距离小于r，返回到最初发送请求的节点。

M-Chord的聚类中的边缘向量一般比较稀少，这些稀少的向量使得每个聚类的半径变得很大。在范围查询的时候，半径越大越容易与范围查找的区域相交，从而使得查找的区域增多。这就意味着只要范围查找的区域与每一个聚类相交，不管相交区域数据的多少，就必须在Chord环中定位一次数据。这些极少量的数据在Chord环中的定位资源的次数大大增加，因此降低了M-Chord的性能。

图4为68040幅图像的颜色直方图的特征数据通过Kmeans聚类的数据分布图。从图中可以看出这个聚类的半径长度为0.62，但是绝大部分数据分布在0.09-0.35之间。由于极少数的边缘数据导致聚类的半径增加了将近一倍。

图5为在随机的1000个范围查找下该聚类空间中的数据访问频率图。由于范围查询的时候，并不知道查询范围内是否有数据，所以没有数据的区间在检索中也会去访问。图4和图5的对比中可以看出边缘向量稀少，但是这些向量被访问的频度却相当高，基本上大于80％。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种聚类分离的分布式索引方法CS-Chord(Clustering separation-Chord)，该索引方法减少了Chord环上的搜索范围，提高检索效率。

为解决上述技术问题，本发明的技术方案如下：

一种聚类分离的分布式索引方法，包括以下步骤：

步骤一：分离边缘稀疏向量，并使用独立的服务器集中存储边缘稀疏向量；

步骤二：建立分布式索引，计算需要加入Chord环的边缘稀疏向量S的一维关键值Key(s)，并将该向量***到分布式索引，向量***的具体过程为；

(21)如果Key(S)≥n*C，其中n为聚类子空间的个数，C是一个常量，其值大于IDistance索引结构中环体内的向量映射到一维轴上的所有值，则将关键值Key(s)和向量S发送到独立的服务器上，然后将向量S***到该独立服务器的B⁺-Tree索引中，则该新向量***完成；若Key(s)<n*C转向步骤(22)；

(22)通过位置保持哈希函数对Key(s)进行哈希，生成分配到Chord环上的关键值Key_Chord，利用Chord定位算法，查找关键值Key_Chord应存储的节点IP地址，将Key_Chord和该向量S发送到该节点上，然后将向量S***到节点的B⁺-Tree索引中，索引建立完成；

步骤三：基于所构建的索引进行范围查询，设聚类分离的分布式索引方法CS-Chord的范围查询Range(Q，r)，其中Q为待查向量，r为查询范围半径，步骤如下：

(31)通过IDistance计算出范围查询Range(Q，r)与聚类的相交区域，映射为多个关键值区间[xi，yi]；

(32)如果xi≥n*C，则将步骤(31)计算范围查询Range(Q，r)与聚类的相交区域发送到独立服务器上，转步骤(34)，如果xi＜n*C则转向步骤(33)；

(33)生成Chord环中的关键值范围[h(xi)，h(yi)]，通过查询路由表定位关键值h(xi)所在的节点，如果h(yi)大于节点中所存数据的关键值最大值Key_max，则将范围[Key_max，h(yi)]发送到该节点的后继节点，如果h(yi)仍比后继节点的Key_max大，则继续往它的后继节点发送查询信息，

(34)每一个节点接收到查询请求，在此节点的B⁺-Tree(B⁺-Tree中存储的是满足条件的各种S向量)中检索关键值范围中是否有向量存在，若存在向量Z则与待查向量Q进行距离计算，当距离小于查询半径r，则将向量Z返回到最初发送请求的节点，若距离大于或等于查询半径r时，则返回空值。若不存在向量，也返回空值。

优选地，上述步骤一分离边缘稀疏向量，并使用独立的服务器集中存储边缘稀疏向量数据的具体过程为：

设聚类的稠密向量与边缘稀疏向量的分界点记为R_b，聚类的半径为R，则离聚类中心点的距离[0，R_b]之间的区域为稠密向量区，[R_b，R]的区域为稀疏向量区；

在n个聚类空间，对于稀疏向量区关键值Key(S)的计算在原来的基础上增加n*C的距离，设向量S为一个需要加入Chord环的向量，P为向量S点所在聚类的中心点，则向量S的关键值Key(S)的计算公式如下：

其中0≤i＜n；

通过公式(1)，将稀疏向量分离，并使用独立的服务器集中存储稀疏数据；则当查询向量S的关键值Key(S)≥n*C时，直接访问集中存储的服务器查询。

优选地，上述步骤二中，位置保持哈希函数h的定义如下：

对于数据区间[X_min，X_max]，要将其映射到区间[Y_min，Y_max]且保持数据的一致性，假设X_i∈[X_min，X_max]，通过函数h映射后值为Y_i，Y_i∈[Y_min，Y_max]，则该哈希函数定义为：

其中，因CS-Chord的索引关键值的区间为[0，K_max]，Chord环的标识符空间范围为[0，2^m-1]，故可将X_min＝0,X_max＝K_max,Y_min＝0,Y_max＝2^m-1代入式(2)，可得：

需要说明的是，位置保持哈希函数的存在原因在于：通常的映射方法时先对数据点的关键值哈希，然后再对2^m取模后的值就为Chord环的关键值。但是这种做法将原本相邻的数据点映射到了不同的节点上。对于IDistance这种需要连续查找的索引算法来说是不可取的，因此需要一种位置保持的哈希函数，使得保持数据顺序的一致性。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出了一种聚类分离的分布式索引方法，简称CS-Chord(Clusteringseparation-Chord)。在M-Chord分布式索引中，聚类的边缘向量一般比较稀少，这些稀少的向量使得每个聚类的半径变得很大。在范围查询的时候，半径越大的聚类越容易与范围查找的区域相交，从而使得候选查找的区域增多。而聚类的边缘向量又通常是高访问量的向量，性能进一步降低。本发明所述的CS-Chord将聚类边缘的稀疏向量分离出来并集中存储在独立的服务器上，将稠密向量存储在Chord环中，查找时一方面高频的查询集中在独立服务器的向量，另一方面也减少了Chord环上的搜索范围，从而提高检索效率。

附图说明

图1是Chord示意图。

图2是IDistance的示意图。

图3是M-Chord的示意图。

图4是某聚类空间数据分布图。

图5是某个随机聚类的访问频率图。

图6是二维空间聚类边缘分离示意图。

图7是CS-Chord索引示意图。

图8是CS-Chord范围查找示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

本发明所述的一种聚类分离的分布式索引方法(CS-Chord)将聚类边缘的稀疏向量分离出来并集中存储在独立的服务器上，将稠密向量存储在Chord环中，查找时一方面高频的查询集中在独立服务器的稠密向量，另一方面也减少了Chord环上的搜索范围，从而提高检索效率。其具体步骤如下：

步骤一：边缘稀疏向量分离

边缘数据稀疏且访问频率高，应该集中式存储，省却了Chord环中资源定位的时间。为了达到这个目的，首先要。

设聚类的稠密向量与稀疏向量的分界点，记为R_b。设聚类的半径为R。则离聚类中心点的距离[0，R_b]之间的区域为数据稠密区。[R_b，R]的区域为数据稀疏区。如图6所示，二维空间的数据划分为三个聚类空间，聚类的深灰色部分数据稠密区，浅灰色部分为数据稀疏区。稠密区的数据分布在[0，3C]。稀疏区的数据分布在[3C，6C]之间。

假设共有n个聚类空间，对于数据稀疏区关键值(Key)的计算在原来的基础上增加n*C的距离。假设向量S为一个需要加入Chord环的向量，P为向量S点所在聚类的中心点(锚点)。则向量S的关键值Key(S)的计算公式如下：

其中0≤i＜n。

通过公式(1)，就可以将稀疏数据分离，并且放入到一段连续的区域中。因此即使将这些数据都放入Chord环，也不会导致大量的资源定位操作。但是，由于稀疏数据的访问频率高，所以本专利使用独立的服务器集中存储稀疏数据。这样查询范围的Key(S)≥n*C时，直接访问集中存储的服务器查询。

步骤二：建立分布式索引

某个节点通过公式(1)，计算向量S的一维关键值Key，要将该向量***到分布式索引的过程为：

(21)如果Key≥n*C，则将关键值Key和向量S的信息发送到独立的服务器上，然后将其***到服务器的B⁺-Tree索引中，则该新向量***完成。若Key＜n*C转向步骤(22)。

(22)通过位置保持哈希函数对Key进行哈希，生成分配到Chord环上的关键值Key_Chord。利用Chord定位算法，查找关键值Key_Chord应该存储的节点IP。则将数据点的信息发送到该节点上，然后***到该节点数据的B⁺-Tree索引中，索引建立完成。

其中，位置保持哈希函数h的定义如下：

对于数据区间[X_min，X_max]，要将其映射到区间[Y_min，Y_max]且保持数据的一致性。假设X_i∈[X_min，X_max]，通过函数h映射后值为Y_i，Y_i∈[Y_min，Y_max]。则该哈希函数可以定义为：

图7为二维空间中CS-Chord分布式索引建立过程的示意图。

步骤三：范围查询

如图8所示为CS-Chord的范围查询Range(Q，r)的示意图，其中Q为待查向量，r为查询范围半径，步骤如下：

(31)通过IDistance计算出范围查询Range(Q，r)与聚类的相交区域，映射为多个关键值区间[xi，yi]。

(32)如果xi≥n*C，则将步骤(31)计算的信息发送到独立服务器上，转步骤(34)。如果xi＜n*C转向步骤(33)。

(33)生成Chord环中的关键值范围[h(xi)，h(yi)]。通过查询路由表定位关键值h(xi)所在的节点，如果h(yi)大于节点中所存数据的关键值最大值Key_max，则将范围[Key_max，h(yi)]发送到该节点的后继节点。如果h(yi)比后继节点的Key_max还要大，则继续往它的后继节点发送查询信息。

(34)每一个节点(包括服务器和Chord环中的节点)接收到查询请求，在此节点的B⁺-Tree中检索关键值范围中是否有向量存在，若存在向量则与待查向量Q进行距离计算，若距离小于r，返回到最初发送请求的节点。

如图8中所示，该查询Q与聚类P0稠密区，稀疏区都相交，与聚类P1稀疏区相交。映射的一维关键值范围为[x1，y1]，[x2，y2][x3，y3]。[x1，y1]区间送往Chord环中检索，[x2，y2][x3，y3]区间送往服务器中检索。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种聚类分离的分布式索引方法，其特征在于，包括以下步骤：

位置保持哈希函数h的定义如下：

(34)每一个节点接收到查询请求，在此节点的B⁺-Tree中检索关键值范围中是否有向量存在，若存在向量Z则与待查向量Q进行距离计算，当距离小于查询半径r，则将向量Z返回到最初发送请求的节点，若距离大于或等于查询半径r时，则返回空值，若不存在向量，也返回空值。

2.根据权利要求1所述的聚类分离的分布式索引方法，其特征在于，上述步骤一分离边缘稀疏向量，并使用独立的服务器集中存储边缘稀疏向量数据的具体过程为：

其中0≤i＜n；