CN114996522A

CN114996522A - 一种时空大数据存储的查询索引方法

Info

Publication number: CN114996522A
Application number: CN202210553596.2A
Authority: CN
Inventors: 吴青娥; 韩振宇; 周林涛; 鲁迎波; 陈虎; 余遥; 王文静; 吴楠鹏; 常帅帅; 宋智超; 万国梁; 宗涛; 李朋磊; 李勇; 马志远; 安紫明
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-09-02

Abstract

本发明公开了一种时空大数据存储的查询索引方法，包括如下步骤：(1)根据分类分割算法对数据进行初级分类，给出索引指标，再对同一索引指标类的数据进行分割，给出坐标位置和特征索引指标；(2)给出服务队长计算，通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中；(3)根据数据重构方法索引原数据的每个切片，对读取的数据切片做分割映射的逆映射，按重构方法把数据重构出来；(4)给出评估方法，把得到的重构数据与原数据作比较；该时空大数据存储的查询索引方法在使用时能够快速、准确地存储与查询，满足海量的时空大数据处理，也会直接推动计算机技术的进步以及人工智能的快速发展。

Description

一种时空大数据存储的查询索引方法

技术领域

本发明涉及大数据领域数据存储与查询索引方向领域，尤其涉及一种时空大数据存储的查询索引方法。

背景技术

在大数据时代，人们对大数据的存取和应用已经具备有较为成熟的解决方案，并在学术界对大数据的分析和应用已经十分普遍。然而随着互联网技术的高速发展，物联网的发展成为了现实，各行各业的人们无时无刻不在利用物联网产生各种数据，物联网时代产生的数据是海量的时空数据，并呈爆发式的增长，时空数据是同时具有时间属性和空间属性的数据。能否高效、便捷的分析应用所产生的时空大数据将是一个物联网***是否完善的标志。而传统的大数据分析处理速度较慢且精度无法达到使用标准，将会直接影响计算机技术以及人工智能的快速发展。

发明内容

本发明的目的是解决上述问题而提供的一种在使用时能够快速、准确地存储与查询，满足海量的时空大数据处理，也会直接推动计算机技术的进步以及人工智能的快速发展的时空大数据存储的查询索引方法。

为实现上述目的，本发明的技术方案为：一种时空大数据存储的查询索引方法，包括如下步骤：

(1)根据分类分割算法对数据进行初级分类，给出索引指标，再对同一索引指标类的数据进行分割，给出坐标位置和特征索引指标；

(2)给出服务队长计算，通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中；

(3)根据数据重构方法索引原数据的每个切片，对读取的数据切片做分割映射的逆映射，按重构方法把数据重构出来；

(4)给出评估方法，把得到的重构数据与原数据作比较。

优选的，所述步骤(1)中分类分割算法包括选取函数ψ_a,b(t)与数据目标，所述选取函数ψ_a,b(t)与数据目标进行内积得到目标数据在不同方向上的值，可分解成不同的层数，对数据进行分解后有不同的特征谱值，得一个特征向量 c₁，作为数据切片索引指标，在数据分类训练时，取不同的a、b值，得到数据切片的不同属性μ_j(c_i)，当满足下列条件P(μ_j(c_i))＞δ_j，j＝1,2,…,m时，固定a、 b值，标记此类c_i及其属性μ_j(c_i)作为索引指标，存储该类数据切片，数据分类分割划分停止，其中P(μ_j(c_i))是属性μ_j(c_i)的概率值，δ_j是给定的阈值。

优选的，对已经做了索引指标的类别数据切片分配储存空间时，若某类数据尺寸大于存储空间，则就对该类数据c_i进行更高一级的属性划分切片，即在 a、b固定下，可进行i+1级特征分解，划分更小尺寸数据切片，直到能满足条件为止；为了找出最佳分类分割切片数，使用数据集之间的相关性，即隶属度来判断分类的有效性。定义第k类和第l类数据的关联关系R_ij为

其中α_ij是数据类c_i与数据类c_j间的相关属性值；μ_k(α_ij)是属性α_ij属于第k类数据的隶属度值，v_k由第k类数据密度均值算法得到，则可进一步得到第k类和第l类数据的关联隶属度为：

假定U是分类集上的隶属度集，定义n类数据间相关联的有效性判断函数如下：

此时，若Ω_n是有效分类的有限集，如果(U^*,n^*)满足

那么(U^*,n^*)是最优分类，并且n^*是最优的分类数。

优选的，所述步骤(2)中，当存储请求到达时，不需要等待立即接受服务，因此***不会出现排队现象，假定请求按参数λ(＞0)的Poisson流到达，每个请求所需的服务时间独立、服从相同参数μ(＞0)的负指数分布，***容量为无穷大，即***中有足够多服务器，每个服务器是并行独立进行服务的，而且到达与服务是彼此独立的，该请求响应服务过程属于M/M/∞排队***；假定N(t)表示在时刻t***中的请求数，此时也表示***中正在忙的服务器个数，设间隔时间为Δt内有j个请求的概率为：

通过计算可得队长概率分布为：

根据队长概率分布计算，对于 M/M/∞排队***，平均队长

因为有足够多的服务台，所以，平均等待队长为

平均等待时间为

逗留时间也就是服务时间。所以可以根据平均队长

来计算存储数据的时间。

优选的，所述步骤(3)中，数据重构方法对任何一个指标值y，有K个属性值，即y＝<μ₁(y),μ₂(y),…,μ_K(y)>，需要从数据服务器存储里索引某类数据与之匹配，设待索引的c_i类数据为c_i＝<μ₁(c_i),μ₂(c_i),…,μ_m(c_i)>，其中μ_p(c_i)表示数据 c_i的第p个属性值，p＝1,2,…,m。通过定义两数据间属性值的关联度来索引到数据c_i。对于y的第k个属性值，与数据c_i之间的关联度为：

当满足d_ki＞ε_ki成立的有l_i个，共有K个时，那么定义第k个属性接近第i类数据的概率为：

其中ε_ki为给定的阈值，0≤P_i≤1，定义y的k个属性与数据类c₁,c₂,…,c_n最接近的类别关联度为：

如果只存一个i₀使d_ki＞ε_ki成立，则索引数据

类；如果有多于一个i₀成立，那么索引又满足下式(10)成立的数据

类：

k＝1,2,…,K成立的数据

类，给定一个指标y，就能从数据中服务器中读取数据类

完成数据索引，再利用基本函数的逆变换对索引的数据进行恢复，即重构，对于任何数据f和在f的连续点t∈R，数据恢复公式为：

其主要对数据特征例如图像在局部边缘垂直方向上取初始响应的局部极大值点的位置为边缘点，然后再选取模板函数ψ(t)使

与对这个局部边缘作内积，进行细化、平滑，连接间断边缘点、消除假边缘点和边缘小分枝等处理，获得单一、连续、平滑的边缘输出，从而得出无限接近原数据的重构数据。

优选的，所述步骤(4)中，对得到的重构数据与原数据进行比较，实现重构数据原数据间的差异性最小，其评估方法如下：即假定满足d_ki＞ε_ki成立的有l_i个，共有K个属性值比较，那么重构的第k个属性接近第i类数据的概率为

其中n是类别号，定义重构是否最优的熵如下：

假设原始数据的熵是H₀，具有重构概率η的样本数据的熵为H_η，相对熵损耗定义如下：

概率η越大，σ_η越大。

本发明公开的一种时空大数据存储的查询索引方法，包括如下步骤：

(1)根据分类分割算法对数据进行初级分类，给出索引指标，再对同一索引指标类的数据进行分割，给出坐标位置和特征索引指标；(2)给出服务队长计算，通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中；(3)根据数据重构方法索引原数据的每个切片，对读取的数据切片做分割映射的逆映射，按重构方法把数据重构出来；(4)给出评估方法，把得到的重构数据与原数据作比较；该时空大数据存储的查询索引方法在使用时能够快速、准确地存储与查询，满足海量的时空大数据处理，也会直接推动计算机技术的进步以及人工智能的快速发展。

具体实施方式

本发明的技术方案为：一种时空大数据存储的查询索引方法，包括如下步骤：

在本发明方案步骤(1)中分类分割算法包括选取函数ψ_a,b(t)与数据目标，所述选取函数ψ_a,b(t)与数据目标进行内积得到目标数据在不同方向上的值，可分解成不同的层数，对数据进行分解后有不同的特征谱值，得一个特征向量 c₁，作为数据切片索引指标。按照同样的方法，假定得到有n个类别为c₁,c₂,…,c_n的切片集合，每类切片有标明类别的样本N_i个，i＝1,2,…,n。设样本的指标，即属性参数有m个，则对每个切片类别c_i，有m个属性μ_j(c_i)，j＝1,2,…,m，记作 c_i＝<μ₁(c_i),μ₂(c_i),…,μ_m(c_i)>，在数据分类训练时，取不同的a、b值，得到数据切片的不同属性μ_j(c_i)，当满足下列条件

P(μ_j(c_i))＞δ_j，j＝1,2,…,m (1)

时，固定a、b值，标记此类c_i及其属性μ_j(c_i)作为索引指标，存储该类数据切片，数据分类分割划分停止，其中P(μ_j(c_i))是属性μ_j(c_i)的概率值，δ_j是给定的阈值，这里取零，j＝1,2,…,m。

在本发明方案中，对已经做了索引指标的类别数据切片分配储存空间时，若某类数据尺寸大于存储空间，则就对该类数据c_i进行更高一级的属性划分切片，即在a、b固定下，可进行i+1级特征分解，划分更小尺寸数据切片，直到能满足条件为止；为了找出最佳分类分割切片数，使用数据集之间的相关性，即隶属度来判断分类的有效性。定义第k类和第l类数据的关联关系R_ij为：

其中α_ij是数据类c_i与数据类c_j间的相关属性值；μ_k(α_ij)是属性α_ij属于第k类数据的隶属度值，由式(1)进行实验获取，也可由专家***给出；v_k由第k类数据密度均值算法得到，则可进一步得到第k类和第l类数据的关联隶属度为：

此时，若Ω_n是有效分类的有限集，如果(U^*,n^*)满足

那么(U^*,n^*)是最优分类，并且n^*是最优的分类数。

(2)给出服务队长计算，通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中。

在本发明方案步骤(2)中，对于大数据的存取，一般有足够多个服务器独立地并行服务，当存储请求到达时，不需要等待立即接受服务，因此***不会出现排队现象，假定请求按参数λ(＞0)的Poisson流到达，每个请求所需的服务时间独立、服从相同参数μ(＞0)的负指数分布，***容量为无穷大，即***中有足够多服务器，每个服务器是并行独立进行服务的，而且到达与服务是彼此独立的，该请求响应服务过程属于M/M/∞排队***；假定N(t)表示在时刻t***中的请求数，此时也表示***中正在忙的服务器个数，设间隔时间为Δt内有j个请求的概率为：

p_ij(Δt)＝P{N(t+Δt)＝j|_N(t)＝i},i,j＝0,1,2,…, (5)

通过计算可得队长概率分布为：

根据队长概率分布计算，对于M/M/∞排队***，平均队长

因为有足够多的服务台，所以，平均等待队长为

平均等待时间为

逗留时间也就是服务时间。所以可以根据平均队长

来计算存储数据的时间。

(3)根据数据重构方法索引原数据的每个切片，对读取的数据切片做分割映射的逆映射，按重构方法把数据重构出来。

在本发明方案步骤(3)中，数据重构方法对任何一个指标值y，有K个属性值，即y＝<μ₁(y),μ₂(y),…,μ_K(y)>，需要从数据服务器存储里索引某类数据与之匹配，设待索引的c_i类数据为c_i＝<μ₁(c_i),μ₂(c_i),…,μ_m(c_i)>，其中μ_p(c_i)表示数据 c_i的第p个属性值，p＝1,2,…,m。通过定义两数据间属性值的关联度来索引到数据c_i。对于y的第k个属性值，与数据c_i之间的关联度为：

如果只存一个i₀使d_ki＞ε_ki成立，则索引数据

类；如果有多于一个i₀成立，那么索引又满足下式成立的数据

类：

给定一个指标y，就能通过式(9)和(10)从数据中服务器中读取数据类

由式(11)对数据的恢复，主要对数据特征例如图像在局部边缘垂直方向上取初始响应的局部极大值点的位置为边缘点，然后再选取模板函数ψ(t)使

(4)给出评估方法，把得到的重构数据与原数据作比较。

在本发明方案述步骤(4)中，对得到的重构数据与原数据进行比较，实现重构数据原数据间的差异性最小，其评估方法如下：信息损失可以通过相对熵损失来测量。由式(8)定义的P_i，即假定满足d_ki＞ε_ki成立的有l_i个，共有K个属性值比较，那么重构的第k个属性接近第i类数据的概率为

其中n是类别号，定义重构是否最优的熵如下：

概率η越大，σ_η越大，说明数据重构复原的越好，故式(13)为有效评判准则。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种时空大数据存储的查询索引方法，其特征在于，包括如下步骤：

(4)给出评估方法，把得到的重构数据与原数据作比较。

2.根据权利要求1所述的时空大数据存储的查询索引方法，其特征在于，所述步骤(1)中分类分割算法包括选取函数ψ_a,b(t)与数据目标，所述选取函数ψ_a,b(t)与数据目标进行内积得到目标数据在不同方向上的值，可分解成不同的层数，对数据进行分解后有不同的特征谱值，得一个特征向量c₁，作为数据切片索引指标，在数据分类训练时，取不同的a、b值，得到数据切片的不同属性μ_j(c_i)，当满足下列条件P(μ_j(c_i))＞δ_j，j＝1,2,…,m时，固定a、b值，标记此类c_i及其属性μ_j(c_i)作为索引指标，存储该类数据切片，数据分类分割划分停止，其中P(μ_j(c_i))是属性μ_j(c_i)的概率值，δ_j是给定的阈值。

3.根据权利要求2所述的时空大数据存储的查询索引方法，其特征在于，对已经做了索引指标的类别数据切片分配储存空间时，若某类数据尺寸大于存储空间，则就对该类数据c_i进行更高一级的属性划分切片，即在a、b固定下，可进行i+1级特征分解，划分更小尺寸数据切片，直到能满足条件为止；为了找出最佳分类分割切片数，使用数据集之间的相关性，即隶属度来判断分类的有效性；定义第k类和第l类数据的关联关系R_ij为

此时，若Ω_n是有效分类的有限集，如果(U^*,n^*)满足

那么(U^*,n^*)是最优分类，并且n^*是最优的分类数。

4.根据权利要求1所述的时空大数据存储的查询索引方法，其特征在于，所述步骤(2)中，当存储请求到达时，不需要等待立即接受服务，因此***不会出现排队现象，假定请求按参数λ(＞0)的Poisson流到达，每个请求所需的服务时间独立、服从相同参数μ(＞0)的负指数分布，***容量为无穷大，即***中有足够多服务器，每个服务器是并行独立进行服务的，而且到达与服务是彼此独立的，该请求响应服务过程属于M/M/∞排队***；假定N(t)表示在时刻t***中的请求数，此时也表示***中正在忙的服务器个数，设间隔时间为Δt内有j个请求的概率为：p_ij(Δt)＝P{N(t+Δt)＝j|_N(t)＝i},i,j＝0,1,2,…,，通过计算可得队长概率分布为：

根据队长概率分布计算，对于M/M/∞排队***，平均队长

因为有足够多的服务台，所以平均等待队长为

平均等待时间为

逗留时间也就是服务时间，所以可以根据平均队长

来计算存储数据的时间。

5.根据权利要求1所述的时空大数据存储的查询索引方法，其特征在于，所述步骤(3)中，数据重构方法对任何一个指标值y，有K个属性值，即y＝<μ₁(y),μ₂(y),…,μ_K(y)>，需要从数据服务器存储里索引某类数据与之匹配，设待索引的c_i类数据为c_i＝<μ₁(c_i),μ₂(c_i),…,μ_m(c_i)>，其中μ_p(c_i)表示数据c_i的第p个属性值，p＝1,2,…,m，通过定义两数据间属性值的关联度来索引到数据c_i；对于y的第k个属性值，与数据c_i之间的关联度为：