CN114996522A - 一种时空大数据存储的查询索引方法 - Google Patents

一种时空大数据存储的查询索引方法 Download PDF

Info

Publication number
CN114996522A
CN114996522A CN202210553596.2A CN202210553596A CN114996522A CN 114996522 A CN114996522 A CN 114996522A CN 202210553596 A CN202210553596 A CN 202210553596A CN 114996522 A CN114996522 A CN 114996522A
Authority
CN
China
Prior art keywords
data
class
index
attribute
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210553596.2A
Other languages
English (en)
Inventor
吴青娥
韩振宇
周林涛
鲁迎波
陈虎
余遥
王文静
吴楠鹏
常帅帅
宋智超
万国梁
宗涛
李朋磊
李勇
马志远
安紫明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210553596.2A priority Critical patent/CN114996522A/zh
Publication of CN114996522A publication Critical patent/CN114996522A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时空大数据存储的查询索引方法,包括如下步骤:(1)根据分类分割算法对数据进行初级分类,给出索引指标,再对同一索引指标类的数据进行分割,给出坐标位置和特征索引指标;(2)给出服务队长计算,通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中;(3)根据数据重构方法索引原数据的每个切片,对读取的数据切片做分割映射的逆映射,按重构方法把数据重构出来;(4)给出评估方法,把得到的重构数据与原数据作比较;该时空大数据存储的查询索引方法在使用时能够快速、准确地存储与查询,满足海量的时空大数据处理,也会直接推动计算机技术的进步以及人工智能的快速发展。

Description

一种时空大数据存储的查询索引方法
技术领域
本发明涉及大数据领域数据存储与查询索引方向领域,尤其涉及一种时空大数据存储的查询索引方法。
背景技术
在大数据时代,人们对大数据的存取和应用已经具备有较为成熟的解决方案,并在学术界对大数据的分析和应用已经十分普遍。然而随着互联网技术的高速发展,物联网的发展成为了现实,各行各业的人们无时无刻不在利用物联网产生各种数据,物联网时代产生的数据是海量的时空数据,并呈爆发式的增长,时空数据是同时具有时间属性和空间属性的数据。能否高效、便捷的分析应用所产生的时空大数据将是一个物联网***是否完善的标志。而传统的大数据分析处理速度较慢且精度无法达到使用标准,将会直接影响计算机技术以及人工智能的快速发展。
发明内容
本发明的目的是解决上述问题而提供的一种在使用时能够快速、准确地存储与查询,满足海量的时空大数据处理,也会直接推动计算机技术的进步以及人工智能的快速发展的时空大数据存储的查询索引方法。
为实现上述目的,本发明的技术方案为:一种时空大数据存储的查询索引方法,包括如下步骤:
(1)根据分类分割算法对数据进行初级分类,给出索引指标,再对同一索引指标类的数据进行分割,给出坐标位置和特征索引指标;
(2)给出服务队长计算,通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中;
(3)根据数据重构方法索引原数据的每个切片,对读取的数据切片做分割映射的逆映射,按重构方法把数据重构出来;
(4)给出评估方法,把得到的重构数据与原数据作比较。
优选的,所述步骤(1)中分类分割算法包括选取函数ψa,b(t)与数据目标,所述选取函数ψa,b(t)与数据目标进行内积得到目标数据在不同方向上的值,可分解成不同的层数,对数据进行分解后有不同的特征谱值,得一个特征向量 c1,作为数据切片索引指标,在数据分类训练时,取不同的a、b值,得到数据切片的不同属性μj(ci),当满足下列条件P(μj(ci))>δj,j=1,2,…,m时,固定a、 b值,标记此类ci及其属性μj(ci)作为索引指标,存储该类数据切片,数据分类分割划分停止,其中P(μj(ci))是属性μj(ci)的概率值,δj是给定的阈值。
优选的,对已经做了索引指标的类别数据切片分配储存空间时,若某类数据尺寸大于存储空间,则就对该类数据ci进行更高一级的属性划分切片,即在 a、b固定下,可进行i+1级特征分解,划分更小尺寸数据切片,直到能满足条件为止;为了找出最佳分类分割切片数,使用数据集之间的相关性,即隶属度来判断分类的有效性。定义第k类和第l类数据的关联关系Rij
Figure RE-GDA0003744940400000021
其中αij是数据类ci与数据类cj间的相关属性值;μkij)是属性αij属于第k类数据的隶属度值,vk由第k类数据密度均值算法得到,则可进一步得到第k类和第l类数据的关联隶属度为:
Figure RE-GDA0003744940400000022
假定U是分类集上的隶属度集,定义n类数据间相关联的有效性判断函数如下:
Figure RE-GDA0003744940400000023
此时,若Ωn是有效分类的有限集,如果(U*,n*)满足
Figure RE-GDA0003744940400000024
那么(U*,n*)是最优分类,并且n*是最优的分类数。
优选的,所述步骤(2)中,当存储请求到达时,不需要等待立即接受服务,因此***不会出现排队现象,假定请求按参数λ(>0)的Poisson流到达,每个请求所需的服务时间独立、服从相同参数μ(>0)的负指数分布,***容量为无穷大,即***中有足够多服务器,每个服务器是并行独立进行服务的,而且到达与服务是彼此独立的,该请求响应服务过程属于M/M/∞排队***;假定N(t)表示在时刻t***中的请求数,此时也表示***中正在忙的服务器个数,设间隔时间为Δt内有j个请求的概率为:
Figure RE-GDA0003744940400000031
通过计算可得队长概率分布为:
Figure RE-GDA0003744940400000032
根据队长概率分布计算,对于 M/M/∞排队***,平均队长
Figure RE-GDA0003744940400000033
因为有足够多的服务台,所以,平均等待队长为
Figure RE-GDA0003744940400000034
平均等待时间为
Figure RE-GDA0003744940400000035
逗留时间也就是服务时间。所以可以根据平均队长
Figure RE-GDA0003744940400000036
来计算存储数据的时间。
优选的,所述步骤(3)中,数据重构方法对任何一个指标值y,有K个属性值,即y=<μ1(y),μ2(y),…,μK(y)>,需要从数据服务器存储里索引某类数据与之匹配,设待索引的ci类数据为ci=<μ1(ci),μ2(ci),…,μm(ci)>,其中μp(ci)表示数据 ci的第p个属性值,p=1,2,…,m。通过定义两数据间属性值的关联度来索引到数据ci。对于y的第k个属性值,与数据ci之间的关联度为:
Figure RE-GDA0003744940400000037
当满足dki>εki成立的有li个,共有K个时,那么定义第k个属性接近第i类数据的概率为:
Figure RE-GDA0003744940400000038
其中εki为给定的阈值,0≤Pi≤1,定义y的k个属性与数据类c1,c2,…,cn最接近的类别关联度为:
Figure RE-GDA0003744940400000039
如果只存一个i0使dki>εki成立,则索引数据
Figure RE-GDA00037449404000000310
类;如果有多于一个i0成立,那么索引又满足下式(10)成立的数据
Figure RE-GDA00037449404000000311
类:
Figure RE-GDA00037449404000000313
k=1,2,…,K成立的数据
Figure RE-GDA00037449404000000312
类,给定一个指标y,就能从数据中服务器中读取数据类
Figure RE-GDA0003744940400000041
完成数据索引,再利用基本函数的逆变换对索引的数据进行恢复,即重构,对于任何数据f和在f的连续点t∈R,数据恢复公式为:
Figure RE-GDA0003744940400000042
其主要对数据特征例如图像在局部边缘垂直方向上取初始响应的局部极大值点的位置为边缘点,然后再选取模板函数ψ(t)使
Figure RE-GDA0003744940400000043
与对这个局部边缘作内积,进行细化、平滑,连接间断边缘点、消除假边缘点和边缘小分枝等处理,获得单一、连续、平滑的边缘输出,从而得出无限接近原数据的重构数据。
优选的,所述步骤(4)中,对得到的重构数据与原数据进行比较,实现重构数据原数据间的差异性最小,其评估方法如下:即假定满足dki>εki成立的有li个,共有K个属性值比较,那么重构的第k个属性接近第i类数据的概率为
Figure RE-GDA0003744940400000044
其中n是类别号,定义重构是否最优的熵如下:
Figure RE-GDA0003744940400000045
假设原始数据的熵是H0,具有重构概率η的样本数据的熵为Hη,相对熵损耗定义如下:
Figure RE-GDA0003744940400000046
概率η越大,ση越大。
本发明公开的一种时空大数据存储的查询索引方法,包括如下步骤:
(1)根据分类分割算法对数据进行初级分类,给出索引指标,再对同一索引指标类的数据进行分割,给出坐标位置和特征索引指标;(2)给出服务队长计算,通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中;(3)根据数据重构方法索引原数据的每个切片,对读取的数据切片做分割映射的逆映射,按重构方法把数据重构出来;(4)给出评估方法,把得到的重构数据与原数据作比较;该时空大数据存储的查询索引方法在使用时能够快速、准确地存储与查询,满足海量的时空大数据处理,也会直接推动计算机技术的进步以及人工智能的快速发展。
具体实施方式
本发明的技术方案为:一种时空大数据存储的查询索引方法,包括如下步骤:
(1)根据分类分割算法对数据进行初级分类,给出索引指标,再对同一索引指标类的数据进行分割,给出坐标位置和特征索引指标;
在本发明方案步骤(1)中分类分割算法包括选取函数ψa,b(t)与数据目标,所述选取函数ψa,b(t)与数据目标进行内积得到目标数据在不同方向上的值,可分解成不同的层数,对数据进行分解后有不同的特征谱值,得一个特征向量 c1,作为数据切片索引指标。按照同样的方法,假定得到有n个类别为c1,c2,…,cn的切片集合,每类切片有标明类别的样本Ni个,i=1,2,…,n。设样本的指标,即属性参数有m个,则对每个切片类别ci,有m个属性μj(ci),j=1,2,…,m,记作 ci=<μ1(ci),μ2(ci),…,μm(ci)>,在数据分类训练时,取不同的a、b值,得到数据切片的不同属性μj(ci),当满足下列条件
P(μj(ci))>δj,j=1,2,…,m (1)
时,固定a、b值,标记此类ci及其属性μj(ci)作为索引指标,存储该类数据切片,数据分类分割划分停止,其中P(μj(ci))是属性μj(ci)的概率值,δj是给定的阈值,这里取零,j=1,2,…,m。
在本发明方案中,对已经做了索引指标的类别数据切片分配储存空间时,若某类数据尺寸大于存储空间,则就对该类数据ci进行更高一级的属性划分切片,即在a、b固定下,可进行i+1级特征分解,划分更小尺寸数据切片,直到能满足条件为止;为了找出最佳分类分割切片数,使用数据集之间的相关性,即隶属度来判断分类的有效性。定义第k类和第l类数据的关联关系Rij为:
Figure RE-GDA0003744940400000051
其中αij是数据类ci与数据类cj间的相关属性值;μkij)是属性αij属于第k类数据的隶属度值,由式(1)进行实验获取,也可由专家***给出;vk由第k类数据密度均值算法得到,则可进一步得到第k类和第l类数据的关联隶属度为:
Figure RE-GDA0003744940400000061
假定U是分类集上的隶属度集,定义n类数据间相关联的有效性判断函数如下:
Figure RE-GDA0003744940400000062
此时,若Ωn是有效分类的有限集,如果(U*,n*)满足
Figure RE-GDA0003744940400000063
那么(U*,n*)是最优分类,并且n*是最优的分类数。
(2)给出服务队长计算,通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中。
在本发明方案步骤(2)中,对于大数据的存取,一般有足够多个服务器独立地并行服务,当存储请求到达时,不需要等待立即接受服务,因此***不会出现排队现象,假定请求按参数λ(>0)的Poisson流到达,每个请求所需的服务时间独立、服从相同参数μ(>0)的负指数分布,***容量为无穷大,即***中有足够多服务器,每个服务器是并行独立进行服务的,而且到达与服务是彼此独立的,该请求响应服务过程属于M/M/∞排队***;假定N(t)表示在时刻t***中的请求数,此时也表示***中正在忙的服务器个数,设间隔时间为Δt内有j个请求的概率为:
pij(Δt)=P{N(t+Δt)=j|N(t)=i},i,j=0,1,2,…, (5)
通过计算可得队长概率分布为:
Figure RE-GDA0003744940400000064
根据队长概率分布计算,对于M/M/∞排队***,平均队长
Figure RE-GDA0003744940400000065
因为有足够多的服务台,所以,平均等待队长为
Figure RE-GDA0003744940400000071
平均等待时间为
Figure RE-GDA0003744940400000072
逗留时间也就是服务时间。所以可以根据平均队长
Figure RE-GDA0003744940400000073
来计算存储数据的时间。
(3)根据数据重构方法索引原数据的每个切片,对读取的数据切片做分割映射的逆映射,按重构方法把数据重构出来。
在本发明方案步骤(3)中,数据重构方法对任何一个指标值y,有K个属性值,即y=<μ1(y),μ2(y),…,μK(y)>,需要从数据服务器存储里索引某类数据与之匹配,设待索引的ci类数据为ci=<μ1(ci),μ2(ci),…,μm(ci)>,其中μp(ci)表示数据 ci的第p个属性值,p=1,2,…,m。通过定义两数据间属性值的关联度来索引到数据ci。对于y的第k个属性值,与数据ci之间的关联度为:
Figure RE-GDA0003744940400000074
当满足dki>εki成立的有li个,共有K个时,那么定义第k个属性接近第i类数据的概率为:
Figure RE-GDA0003744940400000075
其中εki为给定的阈值,0≤Pi≤1,定义y的k个属性与数据类c1,c2,…,cn最接近的类别关联度为:
Figure RE-GDA0003744940400000076
如果只存一个i0使dki>εki成立,则索引数据
Figure RE-GDA00037449404000000710
类;如果有多于一个i0成立,那么索引又满足下式成立的数据
Figure RE-GDA0003744940400000077
类:
Figure RE-GDA0003744940400000078
给定一个指标y,就能通过式(9)和(10)从数据中服务器中读取数据类
Figure RE-GDA0003744940400000079
完成数据索引,再利用基本函数的逆变换对索引的数据进行恢复,即重构,对于任何数据f和在f的连续点t∈R,数据恢复公式为:
Figure RE-GDA0003744940400000081
由式(11)对数据的恢复,主要对数据特征例如图像在局部边缘垂直方向上取初始响应的局部极大值点的位置为边缘点,然后再选取模板函数ψ(t)使
Figure RE-GDA0003744940400000082
与对这个局部边缘作内积,进行细化、平滑,连接间断边缘点、消除假边缘点和边缘小分枝等处理,获得单一、连续、平滑的边缘输出,从而得出无限接近原数据的重构数据。
(4)给出评估方法,把得到的重构数据与原数据作比较。
在本发明方案述步骤(4)中,对得到的重构数据与原数据进行比较,实现重构数据原数据间的差异性最小,其评估方法如下:信息损失可以通过相对熵损失来测量。由式(8)定义的Pi,即假定满足dki>εki成立的有li个,共有K个属性值比较,那么重构的第k个属性接近第i类数据的概率为
Figure RE-GDA0003744940400000083
Figure RE-GDA0003744940400000084
其中n是类别号,定义重构是否最优的熵如下:
Figure RE-GDA0003744940400000085
假设原始数据的熵是H0,具有重构概率η的样本数据的熵为Hη,相对熵损耗定义如下:
Figure RE-GDA0003744940400000086
概率η越大,ση越大,说明数据重构复原的越好,故式(13)为有效评判准则。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.一种时空大数据存储的查询索引方法,其特征在于,包括如下步骤:
(1)根据分类分割算法对数据进行初级分类,给出索引指标,再对同一索引指标类的数据进行分割,给出坐标位置和特征索引指标;
(2)给出服务队长计算,通过计算优选服务时间最少或服务队长最短的来实现快速将切片存储于数据服务器中;
(3)根据数据重构方法索引原数据的每个切片,对读取的数据切片做分割映射的逆映射,按重构方法把数据重构出来;
(4)给出评估方法,把得到的重构数据与原数据作比较。
2.根据权利要求1所述的时空大数据存储的查询索引方法,其特征在于,所述步骤(1)中分类分割算法包括选取函数ψa,b(t)与数据目标,所述选取函数ψa,b(t)与数据目标进行内积得到目标数据在不同方向上的值,可分解成不同的层数,对数据进行分解后有不同的特征谱值,得一个特征向量c1,作为数据切片索引指标,在数据分类训练时,取不同的a、b值,得到数据切片的不同属性μj(ci),当满足下列条件P(μj(ci))>δj,j=1,2,…,m时,固定a、b值,标记此类ci及其属性μj(ci)作为索引指标,存储该类数据切片,数据分类分割划分停止,其中P(μj(ci))是属性μj(ci)的概率值,δj是给定的阈值。
3.根据权利要求2所述的时空大数据存储的查询索引方法,其特征在于,对已经做了索引指标的类别数据切片分配储存空间时,若某类数据尺寸大于存储空间,则就对该类数据ci进行更高一级的属性划分切片,即在a、b固定下,可进行i+1级特征分解,划分更小尺寸数据切片,直到能满足条件为止;为了找出最佳分类分割切片数,使用数据集之间的相关性,即隶属度来判断分类的有效性;定义第k类和第l类数据的关联关系Rij
Figure FDA0003654004210000011
其中αij是数据类ci与数据类cj间的相关属性值;μkij)是属性αij属于第k类数据的隶属度值,vk由第k类数据密度均值算法得到,则可进一步得到第k类和第l类数据的关联隶属度为:
Figure FDA0003654004210000021
假定U是分类集上的隶属度集,定义n类数据间相关联的有效性判断函数如下:
Figure FDA0003654004210000022
此时,若Ωn是有效分类的有限集,如果(U*,n*)满足
Figure FDA0003654004210000023
那么(U*,n*)是最优分类,并且n*是最优的分类数。
4.根据权利要求1所述的时空大数据存储的查询索引方法,其特征在于,所述步骤(2)中,当存储请求到达时,不需要等待立即接受服务,因此***不会出现排队现象,假定请求按参数λ(>0)的Poisson流到达,每个请求所需的服务时间独立、服从相同参数μ(>0)的负指数分布,***容量为无穷大,即***中有足够多服务器,每个服务器是并行独立进行服务的,而且到达与服务是彼此独立的,该请求响应服务过程属于M/M/∞排队***;假定N(t)表示在时刻t***中的请求数,此时也表示***中正在忙的服务器个数,设间隔时间为Δt内有j个请求的概率为:pij(Δt)=P{N(t+Δt)=j|N(t)=i},i,j=0,1,2,…,,通过计算可得队长概率分布为:
Figure FDA0003654004210000024
根据队长概率分布计算,对于M/M/∞排队***,平均队长
Figure FDA0003654004210000025
因为有足够多的服务台,所以平均等待队长为
Figure FDA0003654004210000026
平均等待时间为
Figure FDA0003654004210000027
逗留时间也就是服务时间,所以可以根据平均队长
Figure FDA0003654004210000028
来计算存储数据的时间。
5.根据权利要求1所述的时空大数据存储的查询索引方法,其特征在于,所述步骤(3)中,数据重构方法对任何一个指标值y,有K个属性值,即y=<μ1(y),μ2(y),…,μK(y)>,需要从数据服务器存储里索引某类数据与之匹配,设待索引的ci类数据为ci=<μ1(ci),μ2(ci),…,μm(ci)>,其中μp(ci)表示数据ci的第p个属性值,p=1,2,…,m,通过定义两数据间属性值的关联度来索引到数据ci;对于y的第k个属性值,与数据ci之间的关联度为:
Figure FDA0003654004210000031
k=1,2,…,K,i=1,2,…,n;当满足dki>εki成立的有li个,共有K个时,那么定义第k个属性接近第i类数据的概率为:
Figure FDA0003654004210000032
其中εki为给定的阈值,0≤Pi≤1,定义y的k个属性与数据类c1,c2,…,cn最接近的类别关联度为:
Figure FDA0003654004210000033
如果只存一个i0使dki>εki成立,则索引数据
Figure FDA0003654004210000034
类;如果有多于一个i0成立,那么索引又满足下式(10)成立的数据
Figure FDA0003654004210000035
类:
Figure FDA0003654004210000036
成立的数据
Figure FDA0003654004210000037
类,给定一个指标y,就能从数据中服务器中读取数据类
Figure FDA0003654004210000038
完成数据索引,再利用基本函数的逆变换对索引的数据进行恢复,即重构,对于任何数据f和在f的连续点t∈R,数据恢复公式为:
Figure FDA0003654004210000039
其主要对数据特征例如图像在局部边缘垂直方向上取初始响应的局部极大值点的位置为边缘点,然后再选取模板函数ψ(t)使
Figure FDA00036540042100000310
与对这个局部边缘作内积,进行细化、平滑,连接间断边缘点、消除假边缘点和边缘小分枝等处理,获得单一、连续、平滑的边缘输出,从而得出无限接近原数据的重构数据。
6.根据权利要求1所述的时空大数据存储的查询索引方法,其特征在于,所述步骤(4)中,对得到的重构数据与原数据进行比较,实现重构数据原数据间的差异性最小,其评估方法如下:即假定满足dki>εki成立的有li个,共有K个属性值比较,那么重构的第k个属性接近第i类数据的概率为
Figure FDA00036540042100000311
Figure FDA00036540042100000312
其中n是类别号,定义重构是否最优的熵如下:
Figure FDA0003654004210000041
假设原始数据的熵是H0,具有重构概率η的样本数据的熵为Hη,相对熵损耗定义如下:
Figure FDA0003654004210000042
概率η越大,ση越大。
CN202210553596.2A 2022-05-20 2022-05-20 一种时空大数据存储的查询索引方法 Pending CN114996522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210553596.2A CN114996522A (zh) 2022-05-20 2022-05-20 一种时空大数据存储的查询索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210553596.2A CN114996522A (zh) 2022-05-20 2022-05-20 一种时空大数据存储的查询索引方法

Publications (1)

Publication Number Publication Date
CN114996522A true CN114996522A (zh) 2022-09-02

Family

ID=83027654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210553596.2A Pending CN114996522A (zh) 2022-05-20 2022-05-20 一种时空大数据存储的查询索引方法

Country Status (1)

Country Link
CN (1) CN114996522A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821559A (zh) * 2023-07-07 2023-09-29 中国人民解放军海军工程大学 用于快速获取一组大数据集中趋势的方法、***及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821559A (zh) * 2023-07-07 2023-09-29 中国人民解放军海军工程大学 用于快速获取一组大数据集中趋势的方法、***及终端
CN116821559B (zh) * 2023-07-07 2024-02-23 中国人民解放军海军工程大学 用于快速获取一组大数据集中趋势的方法、***及终端

Similar Documents

Publication Publication Date Title
CN106446959B (zh) 一种云计算资源动态匹配方法及装置
CN110796667B (zh) 基于改进小波聚类的彩色图像分割方法
Zakariya et al. Combining visual features of an image at different precision value of unsupervised content based image retrieval
CN108629783B (zh) 基于图像特征密度峰值搜索的图像分割方法、***及介质
CN110837870A (zh) 基于主动学习的声呐图像目标识别方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
JP2002319024A (ja) 色と質感との組み合わせに基づく映像検索方法
CN108846404B (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
CN109635140B (zh) 一种基于深度学习和密度峰值聚类的图像检索方法
Zhang et al. A multiple instance learning approach for content based image retrieval using one-class support vector machine
CN114996522A (zh) 一种时空大数据存储的查询索引方法
CN114693923A (zh) 一种基于上下文和注意力的三维点云语义分割方法
CN110765364A (zh) 基于局部优化降维和聚类的协同过滤方法
Pedronette et al. Unsupervised effectiveness estimation for image retrieval using reciprocal rank information
CN116664854A (zh) 目标检测方法、装置、电子设备及机器可读存储介质
CN116229330A (zh) 一种视频有效帧的确定方法、***、电子设备及存储介质
CN113779287B (zh) 基于多阶段分类器网络的跨域多视角目标检索方法及装置
CN111914108A (zh) 基于语义保持的离散监督跨模态哈希检索方法
Zhang et al. An effective bag-of-visual-word scheme for object recognition
CN113139556B (zh) 基于自适应构图的流形多视图图像聚类方法及***
Danesh et al. Data clustering based on an efficient hybrid of K-harmonic means, PSO and GA
CN115100406A (zh) 一种基于超像素处理的权重信息熵模糊c均值聚类方法
CN114093055A (zh) 一种路谱生成的方法、装置、电子设备及介质
CN108090182B (zh) 一种大规模高维数据的分布式索引方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination