CN102306187A

CN102306187A - 二维表hash排序方法

Info

Publication number: CN102306187A
Application number: CN201110254893A
Authority: CN
Inventors: 蒋云良; 范婧; 刘勇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2012-01-04

Abstract

本发明提供了一种二维表hash排序方法，它是一种高效的二维表排序方法，且此方法不会改变二维表中属性值完全相同的记录的相对顺序，即此二维表排序方法具有稳定性。本发明包括以下步骤：(1)二维表初始化为链表而建立初始划分块；(2)在当前属性上将划分块中的元素hash到hash-cube中；(3)遍历hash-cube重构划分块；(4)检查是否所有元素个数大于1的划分块均被重构和在所有属性上是否完成元素个数大于1的划分块被重构操作，若是则终止，若否则在下一划分块或者下一属性上进行步骤(2)、(3)、(4)。

Description

二维表hash排序方法

技术领域

本发明涉及一种二维表排序的方法，尤其涉及一种二维离散属性表的hash排序方法。

背景技术

二维表是信息的主要表达形式之一，用于信息处理的数据集表示为一张由多个属性特征进行描述的二维表，每一维属性上取值为离散的数值或字符(对于连续型数据可以先进行离散化预处理为离散型数据)，二维表中的一行为一条记录，对这类二维表进行排序是指对数据集的多个属性字段按照一定的优先级别进行排序操作，如升序、降序排列等。在计算机的许多领域中常常需要二维表排序操作，例如，在典型商业数据处理中数据项是记录，并且记录按照关键字进行排序，排序大大简化了查找或更新一个记录的过程，对于分类问题，对样本进行二维排序也是一项非常有益和必要的预处理过程。二维表排序是许多数据处理算法的重要步骤，先对记录集在指定的属性集上排序，再求此属性集对论域划分生成的等价类，能降低计算上下近似集、属性约简、核的复杂度。

现有的典型的二维表排序方法是二维表快速排序法，但是此方法依赖于数据的分布情况，当大部分数据呈倒序排列时，性能下降很快，而且不具有稳定性。另一方面，随着信息技术的飞速发展，数据***性增长，处理大数据集越来越普遍，此方法在数据规模非常大时性能不够理想。探寻高效的适应大数据集的二维表排序方法是非常有必要的。

发明内容

本发明所要解决的技术问题是提供一种二维表hash排序方法，它是一种高效的二维表排序方法，且此方法不会改变二维表中属性值完全相同的记录的相对顺序，即此二维表排序方法具有稳定性。为此，本发明采用以下技术方案：

二维表hash排序方法，包括以下步骤：

(1)、二维表初始化为链表而建立初始划分块；

(2)、在当前属性上将划分块中的元素hash到hash-cube中；

(3)、遍历hash-cube重构划分块；

(4)、检查是否所有元素个数大于1的划分块均被重构和在所有属性上是否完成元素个数大于1的划分块被重构操作，若是则终止，若否则在下一划分块或者下一属性上进行步骤(2)、(3)、(4)。

在采用上述技术方案的基础上，本发明还可采用以下进一步的技术方案：

在步骤(1)中，将二维表记录存放在链表中，链表节点包括：二维表中记录的初始地址；指向下一个划分块的指针；指向同一划分块中下一个元素的指针。

在步骤(2)中，使用的hash方法步骤为：查找在当前属性上划分块中的最小和最大元素a_min，a_max；计算hash-cube的平面矩阵的维度d，即行和列的大小，

计算划分块中每一个数据元素在hash-cube中的位置，构建划分块的hash-cube。

在hash-cube中，使用i、j、k分别表示hash-cube的行、列、层坐标，d为hash-cube的平面矩阵维度，x为划分块中待排序的数据元素，a_min、a_max分别为在当前属性上划分块中的最小、最大元素，数据元素为记录在当前属性上的属性值，[]表示向上取整。

计算每一个数据元素在hash-cube中的位置包括以下步骤：根据公式i＝[(x-a_min)/d]计算元素x在hash-cube中的行坐标值；根据公式j＝(x-a_min)％d计算元素x在hash-cube中的列坐标值；每一实数对(i，j)对应一个计数器k_ij，初始值为0，若(i，j)已经出现过，则k_ij＝k_ij+1，k_ij为层坐标值。k_ij实质上标识了hash-cube中的平面矩阵层次，每一层平面矩阵除了层次标识不同，行数和列数都是相同的，平面矩阵中的行数据元素按照由左至右的顺序增大，列数据元素按照由上至下的顺序增大，且任一数据元素大于所有列坐标比它小的数据元素。每一层矩阵平面中的一个方格只存放一个数据元素，且所有方格中的数据元素不重复，划分块中所有不重复的元素都能在一个这样的矩阵平面中找到相应的位置。Hash-cube中以第0层矩阵平面为基准，划分块中的所有不重复元素都映射到此矩阵平面上，而重复的元素依次映射到下一层矩阵平面上。

在步骤(3)中重构划分块包括：按照层、行、列的顺序遍历hash-cube；坐标i和坐标j相同，只有坐标k不同的元素属于同一划分块；划分块之间的顺序由坐标i和坐标j标识；i、j、k分别表示hash-cube的行、列、层坐标。

Hash表是由数组、表和特定数学方法相结合，构造的一种能够有效支持动态数据存储和提取的结构，在数据存储和信息安全领域有重要应用，通过构造合适的hash函数可在线性时间内完成大量数据的存取映射操作，本发明中利用这一特性构造排序方法，实现一个线性时间复杂度的二维离散数据表hash排序方法，效率优于目前普遍使用的基于快速排序方法的二维表排序方法。二维表hash排序方法平均时间复杂度可降为O(m×n)(m是二维表的关键字个数，n是二维表的记录数)，且在数据分布非均匀的情况下也能取得较好的计算效率，在数据饱合度变化的情况下，性能不受影响。该方法具有稳定性，适用于带有时序性的数据挖掘和序列机器学习等问题和海量数据处理中的排序问题研究。

本发明方法中，将划分块中的元素hash到一个hash-cube中，按照一定的次序遍历hash-cube即得到排好序的数据序列，此方法既适合于二维表排序也适合一维数据序列。Hash-cube为多层矩阵平面叠加的立方体，每一层矩阵平面由行和列划分成的方格存放数据元素，用i，j表示元素的行坐标和列坐标，k表示矩阵层次，(i，j，k)唯一标示了数据元素在hash-cube中的位置。Hash-cube中的元素是按照一定的次序存放的，通过hash-cube实现了从无序数据序列到有序数据序列的变换，按照层、行、列的顺序遍历hash-cube将立方体中的数据元素变换成有序的数据序列。

二维属性表排序等同于一个信息***在全部属性集上的有序划分过程。本发明方法采用广度优先和划分的思想，对每一维属性采用一维Hash排序进行处理，每调用一次一维Hash排序，数据集合被分割为更小的块，然后在每一块上分别在下一属性上调用一维Hash排序，直到在最后一个属性上排序完毕或者当前所有划分块中只有一个元素。排序时需要频繁的对划分的每一块进行Hash，本发明方法中排序时使用静态链表存放记录的属性数据，记录之间的次序由指针指示。Hash后形成的划分块是有序的，为了保存这种有序性，链表节点包含三个元素：每一条记录的初始地址；指向下一个划分块的指针；指向同一划分块中下一个元素的指针。

struct Node{

int*element； //值域中存放的是记录在内存中的地址

Node*next_Category； //指向下一划分块的的指针

Node*next_element； //指向同一划分块中下一个元素的指针

附图说明

图1是本发明实施例中将划分块中的元素hash到hash-cube中的方法流程图。

图2是本发明实施例中待排序序列的hash-cube示意图。

图3是本发明实施例中的二维hash排序方法流程图。

图4是本发明实施例中二维表初始化为链表而建立初始划分块的示意图。

图5至图7是本发明实施例中二维表在每个属性上的排序结果示意图。

具体实施方式

为了使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作具体详细的说明。应当理解，此处所述的具体实施例仅用于解释本发明，并不用于限定本发明。

二维表排序是一维排序的引申，在二维表hash排序方法中需要递归调用一维hash排序方法，一维hash排序的待排序序列等同于二维表hash排序方法中划分块的元素序列，现将本发明实施例中的hash方法介绍如下。

参照图1，是本发明实施例中将划分块中的元素hash到hash-cube中的方法流程图。

步骤101，查找在当前属性上划分块中的最小和最大元素a_min，a_max。

在当前属性上划分块中的所有元素介于最小和最大元素之间(包括最小、最大元素)，若无重复数据，所有元素可以按照一定的顺序映射到方阵中，在行和列划分成的方格中存放数据。

步骤102，计算hash-cube的平面方阵的维度d。

方阵所能容纳的元素数量为最大和最小元素之间(包括最小、最大元素)的所有无重复数据，方阵的维度d即为hash-cube的行和列的大小，

(

为向上取整)

步骤103，计算划分块中每一个数据元素在hash-cube中的位置，构建划分块的hash-cube。

一般情况下在当前属性上划分块中的元素有重复，若将划分块中的元素映射到平面方阵中，并不是一一映射，而是多对一映射。在hash-cube中，重复的元素存放在下一层平面方阵中，划分块中的元素可以唯一的hash到确定位置。需要进行hash的元素x在hash-cube中的坐标(i，j，k)为，i＝[(x-a_min)/d]，j＝(x-a_min)％d，k＝k_ij+1(k_ij初始值为0，若(i，j)已经出现过，k_ij自增1)。

举个例子，一个序列A＝{5，5，3，4，5，4}，每一元素在hash-cube中的坐标如表1，由序列A构成的hash-cube如附图2。

序列A中的元素	Hash-cube中的坐标
		5	(1，0，0)
5	(1，0，1)
		3	(0，0，0)
4	(0，1，0)
		5	(1，0，2)
4	(0，1，1)

表1

参照图3，是本发明实施例中二维表hash排序方法流程图。

二维表Hash排序方法为：

1、初始化链表L、r_i，L初始化为只有一个划分的链表，r_i＝r₀。

2、遍历链表L。

2.1若划分块中元素个数大于1，扫描此划分块中的元素，得到r_imax，r_imin并计算d值，否则转到2.4。

2.2对划分块中的每一个元素执行以下步骤，映射到hash-cube，用数组a[d][d][n]表示。

2.2.1初始化计数数组count[d][d]＝0(count数组存放元素的k坐标)

2.2.2计算出映射的行列i，j，i＝r/d，j＝r％d.

2.2.3count[i][j]++

2.2.4把存储当前元素的节点放到a[i][j][count[i][j]-1](存放链表节点为了重构链表)

2.3重构链表。遍历数组count[d][d]，并根据数组count[d][d]的计数遍历hash-cube。

2.3.1当count[i][j]！＝0时，执行如下操作，否则不执行。

2.3.2如果count[i][j]＝1，把a[i][j][0]作为下一划分块***到链表中，如果count[i][j]＞1，a[i][j][0]作为下一划分块***到链表L中，a[i][j][1]至a[i][j][cout[i][j]-1]作为同一划分块的下一元素***到链表中。

2.4对下一划分块重复步骤2.1、2.2、2.3，直到处理完所有划分块。

3、对下一属性r_i+1重复步骤2，直到按照属性r_m排序完毕或者每一个划分块中只有一个元素。

步骤301，二维表初始化为链表而建立初始划分块。

本发明实施例中，初始化时将待排序二维表中的所有记录划分为一个等价类，即所有记录之间的顺序是没有区分的，按照他们在二维表中的顺序放置在链表中。链表节点包括二维表中记录的初始地址；指向下一个划分块的指针；指向同一划分块中下一个元素的指针。链表节点的值域存放的是记录在内存中的地址，这样可以在排序时更快的查找到记录，初始化时，所有节点的next_Category为NULL，使用next_element指针将二维表中的记录构成一个链表。为了更好的阐述二维表hash排序方法，举一个简单的例子进行说明，表2是一个具有3个属性8条记录的二维表，所有属性均为int类型，图4中的401至408为8条记录在内存中的存放位置，411为初始化后的链表。下面以记录x₁为例说明在某一属性上排序时如何定位记录属性值，变量r中存放的是偏移量，初始值为0，即图4中的410，节点409中的值域存放的是记录x₁在内存中的地址4000，4000+0×2是内存中记录x₁第一个属性的位置，当要在第二个属性上排序时，变量r中的偏移量值加1，通过节点409值域的值和偏移量可以计算出内存中记录x₁第二个属性的位置，为4000+1×2。

记录	r₀	r₁	r₂
				x₁	4	2	5
x₂	4	2	5
				x₃	3	5	2
x₄	3	5	4
				x₅	5	4	3
x₆	2	2	4
				x₇	3	4	2
x₈	5	3	5

表2

步骤302，检查划分块中的元素个数是否大于1。

如果划分块中的元素个数为1，表示此划分块中只有一条记录，不需要与其它记录进行比较、排序，只有划分块中的元素多于1个，才需要在下一属性上将无法区分顺序的记录进行排序。图5是在属性r₀上的排序结果，其中划分块501、502、503中的元素个数多于1，即这三个划分块中记录的r₀属性值分别相等，无法区分顺序，需要在r₁属性上再进行排序，同理，图6中的划分块601、602需要在属性r₂上在进行排序。

步骤303，在当前属性上将划分块中的元素hash到hash-cube中。

此步骤采用一维hash方法，首先对待排序记录的当前属性值由公式计算出它在hash-cube中的坐标，然后把记录hash到hash-cube中，hash-cube与图2所示的hash-cube结构相同。

步骤304，遍历hash-cube重构划分块。

重构划分块时，坐标i和坐标j相同只有坐标k不同的元素属于同一划分块，否则不属于同一划分块，划分块之间的顺序由坐标i和坐标j标识。

步骤305，下移一个划分块，并检查最后一个划分块是否已经重构。

如果是则在当前属性上对所有划分块的工作结束，否则循环对划分块进行步骤302、303、304。

步骤306，后移一个属性，并检查在最后一个属性上是否已经完成划分块重构。

如果是则排序结束，否则在下一属性上循环对划分块进行步骤302、303、304、305。图5、6、7分别为在属性r₀、r₁、r₂上的排序结果示意图。

Claims

1.二维表hash排序方法，其特征在于，它包括以下步骤：

(1)、二维表初始化为链表而建立初始划分块；

(2)、在当前属性上将划分块中的元素hash到hash-cube中；

(3)、遍历hash-cube重构划分块；

2.根据权利要求1所述的方法，其特征在于，链表节点包括：

二维表中记录的初始地址；

指向下一个划分块的指针；

指向同一划分块中下一个元素的指针。

3.根据权利要求1所述的方法，其特征在于，在步骤(2)中，使用的hash方法步骤为：

查找在当前属性上划分块中的最小和最大元素a_min、a_max；

计算hash-cube的平面矩阵的维度d，即行和列的大小，

4.根据权利要求3所述的方法，其特征在于，所述“计算划分块中每一个数据元素在hash-cube中的位置”包括以下步骤：

根据公式i＝[(x-a_min)/d]计算元素x在hash-cube中的行坐标值；

根据公式j＝(x-a_min)％d计算元素x在hash-cube中的列坐标值；

每一实数对(i，j)对应一个计数器k_ij，初始值为0，若(i，j)已经出现过，则k_ij＝k_ij+1，k_ij为层坐标值；

i、j、k分别表示hash-cube的行、列、层坐标，d为hash-cube的平面矩阵维度，x为划分块中待排序的数据元素，a_min、a_max分别为当前属性上划分块中的最小、最大元素，[]表示向上取整。

5.根据权利要求1所述的方法，其特征在于，重构划分块包括：

按照层、行、列的顺序遍历hash-cube；

坐标i和坐标j相同，只有坐标k不同的元素属于同一划分块；

划分块之间的顺序由坐标i和坐标j标识；

i、j、k分别表示hash-cube的行、列、层坐标。