CN116226468A - 基于网格化终端业务数据存储管理方法 - Google Patents
基于网格化终端业务数据存储管理方法 Download PDFInfo
- Publication number
- CN116226468A CN116226468A CN202310498983.5A CN202310498983A CN116226468A CN 116226468 A CN116226468 A CN 116226468A CN 202310498983 A CN202310498983 A CN 202310498983A CN 116226468 A CN116226468 A CN 116226468A
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- segmentation
- point
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电数字数据处理技术领域,具体涉及一种基于网格化终端业务数据存储管理方法。该方法包括获取终端业务数据,分类得到维度数据;确定两个维度数据间的维度相似性;确定待测数据的分割优选系数;根据所有维度数据的分割优选系数确定最优分割维度数据;生成至少一个数据结构树,确定数据结构树的最短搜索路径对应的搜索回溯次数,根据搜索回溯次数确定最优分割点;根据最优分割维度数据和最优分割点对终端业务数据进行分割,得到网格化数据,对网格化数据进行存储分配,综上,本发明能够有效增强对终端业务数据的多维分割效果,进而提升终端业务数据的存储管理效果。
Description
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于网格化终端业务数据存储管理方法。
背景技术
网格化管理是一种在数据分类、储存等任务处理过程中常用的管理策略,网格化管理通常是依据一定标准将各类型数据划分成单元网格的形式,对单元网格中的数据实施检测、存储、清洗等具体管理过程。
相关技术中,一般使用k-d树算法对终端业务数据进行网格化划分,由于终端业务数据的数据种类多样,且数据量较大,而k-d树算法在确定终端业务数据的切分维度时,是基于维度中所有数据点的方差选择切分维度,这种方式下,终端业务数据的复杂性和数据量大的特点会导致切分维度的选择效果较差;同时在对分割点的选择过程中,相关技术是使用中位数作为初始分割点,这种方式下,由于中位数可能为多个,不同中位数所对应分割效果可能不同,随机选取其中一个可能会导致所选择的分割点并非最优分割点,因此,相关技术在对终端业务数据进行分割时的多维分割效果较差,进而导致终端业务数据的存储管理效果较差。
发明内容
为了解决相关技术在对终端业务数据进行分割时的分割效果较差,进而对终端业务数据的存储管理效果较差的技术问题,本发明提供一种基于网格化终端业务数据存储管理方法,所采用的技术方案具体如下:
本发明提出了一种基于网格化终端业务数据存储管理方法,方法包括:
获取终端业务数据,根据数据类型对所述终端业务数据进行分类得到维度数据,其中,每个维度数据包括至少一个数据点;根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定所述两个维度数据间的维度相似性;
任选某一维度数据作为待测数据,根据所述待测数据分别与其他所有维度数据间的维度相似性和所述待测数据中每个数据点的局部密度,确定所述待测数据的分割优选系数;根据所有所述维度数据的分割优选系数确定最优分割维度数据;
从所述最优分割维度数据中数据点中确定至少一个初始分割点,将初始分割点作为根节点,得到每个初始分割点对应的数据结构树,确定所述数据结构树的最短搜索路径对应的搜索回溯次数,根据所述搜索回溯次数,从所述初始分割点中确定最优分割点;
根据所述最优分割维度数据和所述最优分割点,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据,根据每个空间网格的分布密度对所述网格化数据进行存储分配。
进一步地,所述根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定所述两个维度数据间的维度相似性,包括:
计算每个数据点在预设数量个近邻数据点中的最大值和最小值间的差值作为近邻差值,根据近邻差值计算得到每个数据点的局部密度,其中,所述近邻差值和所述局部密度成负相关关系;
根据每个维度数据中数据点的局部密度得到每个维度数据所分别对应的密度序列,计算两个维度数据所分别对应密度序列间的皮尔森相关系数作为相似性权值;
根据所述相似性权值和两个维度数据的预设重要程度的差异,得到维度相似性,其中,所述维度相似性与相似性权值成正相关关系,与预设重要程度的差异成负相关关系,所述维度相似性的取值为归一化后的数值。
进一步地,所述根据所述待测数据分别与其他所有维度数据间的维度相似性和所述待测数据中每个数据点的局部密度,确定所述待测数据的分割优选系数,包括:
计算所述待测数据中所有数据点的局部密度的方差作为第一优选因子;
将所述待测数据分别与其他所有维度数据间的维度相似性作为待测相似性;将待测相似性的最小值作为最小相似性,计算所述待测相似性与最小相似性的差值作为待测差值,计算所有待测差值的和值作为第二优选因子;
根据所述第一优选因子和所述第二优选因子,获得分割优选系数,其中,所述分割优选系数与第一优选因子成正相关关系,与第二优选因子成负相关关系。
进一步地,所述根据所有所述维度数据的分割优选系数确定最优分割维度数据,包括:
将所述分割优选系数的最大值所对应的维度数据作为最优分割维度数据。
进一步地,所述从所述最优分割维度数据中数据点中确定至少一个初始分割点,包括:
将所述最优分割维度数据中数据点数值的中位数对应数据点作为初始分割点。
进一步地,所述将初始分割点作为根节点,得到每个初始分割点对应的数据结构树,包括:
将初始分割点作为根节点,使用k-d树算法构建每个初始分割点对应的数据结构树。
进一步地,所述确定所述数据结构树的最短搜索路径对应的搜索回溯次数,包括:
基于IDDFS算法分别获取每个数据结构树的最短搜索路径,遍历每个数据结构树中所有的叶子节点,统计回溯操作的次数作为最短搜索路径对应的搜索回溯次数。
进一步地,所述根据所述搜索回溯次数,从所述初始分割点中确定最优分割点,包括:
根据所述搜索回溯次数确定初始分割点的优选率,其中,所述优选率和所述搜索回溯次数成负相关关系;选择所述优选率最大的初始分割点作为最优分割点。
进一步地,所述根据所述最优分割维度数据和所述最优分割点,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据,包括:
基于所述最优分割维度数据和所述最优分割点,使用k-d树算法在多维数据空间中对所述终端业务数据进行数据分割,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据。
进一步地,所述根据每个空间网格的分布密度对所述网格化数据进行存储分配,包括:
将每个空间网格的中心点作为所述空间网格的代表点,将与某一空间网格相邻的所有其他空间网格作为相邻网格,计算所述空间网格的代表点与所有相邻网格的代表点间的欧式距离的和值作为所述空间网格的分布密度,其中,所述空间网格的分布密度与所述空间网格所被分配的存储容量成正相关关系。
本发明具有如下有益效果:
本发明通过两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定两个维度数据间的维度相似性,维度相似性能够有效表征两个维度数据间的相似程度,便于根据维度相似性和待测数据中每个数据点的局部密度确定待测数据的分割优选系数,可以理解的是,通过维度相似性和局部密度确定分割优选系数,并获得最优分割维度数据,相较于现有技术中基于方差确定最优分割维度数据的方式,能够结合数据分布密度和维度相似情况,从而有效提升最优分割维度的确定准确性,同时避免对每个分割维度中数据的方差进行计算,从而提升最优分割维度的获取效率;而后确定初始分割点,根据每个初始分割点对应的搜索回溯次数确定最优分割点,能够有效对最优分割点进行确定,从而避免随机选择分割点导致分割效果较差;之后根据每个空间网格的分布密度对网格化数据进行存储分配,从而能够在最优分割情况下对网格化数据进行存储分配,提升分配效果的同时保证后续在进行数据搜索时的搜索效率,提升终端业务数据的存储管理效果。综上,本发明能够有效增强对终端业务数据的多维分割效果,进而提升终端业务数据的存储管理效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于网格化终端业务数据存储管理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于网格化终端业务数据存储管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于网格化终端业务数据存储管理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于网格化终端业务数据存储管理方法流程图,该方法包括:
S101:获取终端业务数据,根据数据类型对终端业务数据进行分类得到维度数据,其中,每个维度数据包括至少一个数据点;根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定两个维度数据间的维度相似性。
其中,终端业务数据,为数据终端所得到的业务数据,举例而言,终端业务数据可以具体例如为电力业务数据、智慧城市业务数据、零售业务数据等多种,对此不做限制。
则本发明的一种应用场景可以具体例如为:获取零售业务数据,并对零售业务数据进行网格化划分,根据网格化划分对零售业务数据进行存储,当然,本发明的基于网格化终端业务数据存储管理方法还可以应用于多种其他相关的应用场景中,对此不做限制。
可以理解的是,由于终端数据来源多样,则对应的终端业务数据的数据类型较多,因此,可以根据数据类型对终端业务数据进行分类得到维度数据,举例而言,电网业务数据中包括电力生产数据、电负荷曲线数据、电力费用波动数据等;在零售业务数据中包括营运数据、销售数据、服务数据等,则可以根据对应的数据类型将终端业务数据划分为多种维度数据。
本发明实施例中,每个维度数据包括至少一个数据点,其中,每个数据点可以为某一时刻所采集的维度数据,或者,也可以为某一地点所采集的维度数据,具体根据数据类型进行分析,举例而言,在电力生产数据中,周期性采集不同时刻的电力生产数据作为对应的维度数据,则数据点则表示某一时刻所采集的电力生产数据。
进一步地,本发明实施例中,根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定两个维度数据间的维度相似性,包括:计算每个数据点在预设数量个近邻数据点中的最大值和最小值间的差值作为近邻差值,根据近邻差值计算得到每个数据点的局部密度,其中,近邻差值和局部密度成负相关关系;根据每个维度数据中数据点的局部密度得到每个维度数据所分别对应的密度序列,计算两个维度数据所分别对应密度序列间的皮尔森相关系数作为相似性权值;根据相似性权值和两个维度数据的预设重要程度的差异,得到维度相似性,其中,维度相似性与相似性权值成正相关关系,与预设重要程度的差异成负相关关系,维度相似性的取值为归一化后的数值。
其中,预设数量,为预先设置的k近邻的k值,k近邻为本领域所熟知的技术,预设数量可以为10个,当然,预设数量也可以根据维度数据中数据点的数量进行调整,对此不做限制。
其中,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体关系可以为相乘关系、相加关系、指数函数的幂等,由实际应用进行确定;负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,可以为相减关系、相除关系等,由实际应用进行确定。
其中,局部密度计算公式可以具体例如为:
式中,表示第个维度数据中第个数据点的局部密度,表示近邻数据点中
的最大值,表示近邻数据点中的最小值,表示近邻差值,表示第一调
参因子,为防止分母为0所设置的常数,的大小可以取经验值0.01,对此不做限制。
本发明的一些实施例中,可以根据近邻数据点的区间长度计算得到对应的局部密度,将区间长度作为近邻差值,也即是说,在预设数量固定时,近邻数据点的区间长度越长,则可以表示对应数据点与近邻数据点间的分布密度越小,也即数据点的局部密度越小。
在确定数据点的局部密度之后,可以根据每个维度数据中数据点的局部密度得到每个维度数据所分别对应的密度序列,也即是说,将每个维度数据中数据点的局部密度按照对应数据点在维度数据中顺序进行排序,生成每个维度数据所分别对应的密度序列,则该密度序列可以表征每个维度数据中数据点的局部密度分布情况。
则进一步地,计算两个维度数据所分别对应密度序列间的皮尔森相关系数作为相似性权值,其中,皮尔森相关系数,为用来反映两个变量线性相关程度的统计量,则本发明实施例中,将两个密度序列作为两个变量,计算对应的皮尔森相关系数作为相似性权值。
当然,在本发明的另一些实施例中,还可以基于其他计算方式获得相似性权值,如斯皮尔曼(spearman)相关系数等,对此不做限制。
其中,预设重要程度,为预设的不同维度数据的重要程度,举例而言,在零售业务数据中对用户购买习惯进行统计时,对应的维度数据可以包括购买次数、浏览次数、回购次数等,则可以将购买次数的预设重要程度设置为3,浏览次数的预设重要程度设置为1,当然,还可以根据维度数据的实际情况进行调整,对此不做限制。
在确定相似性权值之后,可以结合相似性权值和两个维度数据的预设重要程度的差异,得到维度相似性,对应的计算公式为:
式中,表示第个维度数据和第个维度数据间的维度相似性,和均表示对应
维度数据的索引,,表示第个维度数据的密度序列,表示第个维度数据的密度
序列,表示第个维度数据的密度序列和第个维度数据的密度序列间的相似性权
值,表示第个维度数据的重要程度,表示第个维度数据的重要程度,表示取绝对
值,表示第个维度数据和第个维度数据间预设重要程度的差异,表示第二调
参因子,为防止分母为0所设置的常数,的大小可以取经验值0.01,对此不做限制,表
示取归一化,在本发明的一个实施例中,归一化处理可以具体例如为最大最小值归一化处
理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的其他实施例
中可以根据数值具体范围选择其他归一化方法,对此不再赘述。
本发明实施例中,维度相似性能够有效表征两个维度数据的相关性程度,两个维度数据的密度序列间的皮尔森相关系数越大,也即两个维度数据间的相关性越大,两个维度数据在数据点分布上越相似,也即维度相似性越大,而预设重要程度的差异越大,越可以表示两个维度数据间的重要性差别越大,也即两个维度数据间的相关性越低,维度相似性越小。
S102:任选某一维度数据作为待测数据,根据待测数据分别与其他所有维度数据间的维度相似性和待测数据中每个数据点的局部密度,确定待测数据的分割优选系数;根据所有维度数据的分割优选系数确定最优分割维度数据。
进一步地,本发明实施例中,根据待测数据分别与其他所有维度数据间的维度相似性和待测数据中每个数据点的局部密度,确定待测数据的分割优选系数,包括:计算待测数据中所有数据点的局部密度的方差作为第一优选因子;将待测数据分别与其他所有维度数据间的维度相似性作为待测相似性;将待测相似性的最小值作为最小相似性,计算待测相似性与最小相似性的差值作为待测差值,计算所有待测差值的和值作为第二优选因子;根据第一优选因子和第二优选因子,获得分割优选系数,其中,分割优选系数与第一优选因子成正相关关系,与第二优选因子成负相关关系。在本发明的一些实施例中,对应的计算公式具体例如为:
式中,表示待测数据的分割优选系数,和均表示维度数据的索引,将第个维
度数据作为待测数据,表示第个维度数据的密度序列,表示第一优选因子,表示
所有维度数据的总类型数量,表示第个维度数据和第个维度数据间的待测相似性,表示所有待测相似性间的最小相似性,表示第个维度数据和第个维度
数据间的待测差值,表示第二优选因子,表示第三调参因子,为防止
分母为0所设置的常数,的大小可以取经验值0.01,对此不做限制。
可以理解的是,在待测数据中数据点的分布越分散,则进行分割时的分割效果越优,也即维度数据中每个数据点的局部密度的方差较大,分割优选系数越大,第一优选因子与分割优选系数成正相关关系,同理,待测数据与其他维度数据间的相似性差距越小,可以表示待测数据与所有其他维度数据的相似程度越大,在分割时能够考虑所有维度数据的总体相似情况,分割优选系数越大,相似性差距越小,第二优选因子越小,第二优选因子与分割优选系数成负相关关系。
进一步地,本发明实施例中,根据所有维度数据的分割优选系数确定最优分割维度数据,包括:将分割优选系数的最大值所对应的维度数据作为最优分割维度数据。
可以理解的是,由于分割优选系数越大,则可以表示所对应维度数据的分割效果越优,则本发明实施例可以将分割优选系数的最大值所对应的维度数据作为最优分割维度数据。
S103:从最优分割维度数据中数据点中确定至少一个初始分割点,将初始分割点作为根节点,得到每个初始分割点对应的数据结构树,确定数据结构树的最短搜索路径对应的搜索回溯次数,根据搜索回溯次数,从初始分割点中确定最优分割点。
进一步地,本发明实施例中,从最优分割维度数据中数据点中确定至少一个初始分割点,包括:将最优分割维度数据中数据点数值的中位数对应数据点作为初始分割点。
本发明实施例中,可以将最优分割维度数据中数据点所有的中位数作为初始分割点,也即是说,在中位数为1个时,直接将该中位数所对应的数据点作为初始分割点,在中位数为两个或两个以上时,则可以将所有的中位数所对应的数据点作为初始分割点,而后,对每个初始分割点进行分析,从而确定最优分割点。
则对每个初始分割点进行分析的过程包括:
将初始分割点作为根节点,使用k-d树算法构建每个初始分割点对应的数据结构树。
本发明在确定最优分割维度数据之后,可以基于最优分割维度数据对终端业务数据进行分割,本发明实施例中,分割过程可以具体使用k-d树算法中的分割方式,k-d树算法为本领域技术人员所熟知的技术,在k-d树算法中,需要将最优分割维度数据的中位数作为根节点,但是由于中位数的数量可能为多个,或者多个数据点均可以作为初始分割点,则对应的对最终的分割点的选择至关重要。
进一步地,本发明实施例中,确定数据结构树的最短搜索路径对应的搜索回溯次数,包括:基于IDDFS算法分别获取每个数据结构树的最短搜索路径,遍历每个数据结构树中所有的叶子节点,统计回溯操作的次数作为最短搜索路径对应的搜索回溯次数。
其中,迭代深化深度优先搜索(Iteratlve Deepening Depth First Search,IDDFS)算法,是基于深度优选搜索对节点进行遍历的一种搜索方式,IDDFS算法为本领域所熟知的算法,对此不再赘述,其中,回溯是深度优先搜索的主要手段,通过对某一支线中的节点遍历之后,进行回溯处理直至出现未被搜索的节点,由此,能够对所有节点进行有效遍历。
本发明将数据结构树中的叶子节点作为IDDFS算法需要搜索的节点,则可以理解的是,不同的初始分割点进行分割得到不同的数据结构树在遍历所有叶子节点时,所用的时间可能不同,因此本发明通过回溯次数来表征遍历数据结构树所有叶子节点的效率,也即是说,基于IDDFS算法分别获取每个数据结构树的最短搜索路径,其中,该最短搜索路径即为遍历所有叶子节点所需的最短的路径,而后,统计最短搜索路径中进行回溯处理的次数,并将其作为对应初始分割点的搜索回溯次数。
进一步地,本发明实施例中,根据搜索回溯次数,从初始分割点中确定最优分割点,包括:根据搜索回溯次数确定初始分割点的优选率,其中,优选率和搜索回溯次数成负相关关系;选择优选率最大的初始分割点作为最优分割点。
可以理解的是,搜索回溯次数越少,在进行数据搜索过程中,所对应遍历数据结构树的效率越高,也即是说,搜索回溯次数和初始分割点的优选率成反相关关系,在优选率最大时,可以表征对应初始分割点的搜索回溯次数最少,也即将优选率最大的初始分割点作为最优分割点。
S104:根据最优分割维度数据和最优分割点,将终端业务数据分割至对应的数据空间网格中,得到网格化数据,根据每个空间网格的分布密度对网格化数据进行存储分配。
进一步地,本发明实施例中,根据最优分割维度数据和最优分割点,将终端业务数据分割至对应的数据空间网格中,得到网格化数据,包括:基于最优分割维度数据和最优分割点,使用k-d树算法在多维数据空间中对终端业务数据进行数据分割,将终端业务数据分割至对应的数据空间网格中,得到网格化数据。
本发明实施例中,可以预先构建多维数据空间,其中多维数据空间中的每一维度均对应一个维度数据,也即是说,在终端业务数据中包含多少个维度,则得到对应维度数量的多维数据空间,本发明实施例中,可以通过超平面的方式对数据进行分割,多维空间的分割也为本领域所熟知的技术,在此不再赘述。
将最优分割维度数据作为第一次进行分割时所对应的分割维度,而后,以最优分割维度中的最优分割点为基准生成超平面,以对终端业务数据进行数据分割,从而得到对应的空间网格,并将终端业务数据划分为对应的网格化数据。
可以理解的是,k-d树算法所对应的分割过程为本领域所熟知的技术,在此不再进一步赘述。
进一步地,本发明实施例中,根据每个空间网格的分布密度对网格化数据进行存储分配,包括:将每个空间网格的中心点作为空间网格的代表点,将与某一空间网格相邻的所有其他空间网格作为相邻网格,计算空间网格的代表点与所有相邻网格的代表点间的欧式距离的和值作为空间网格的分布密度,其中,空间网格的分布密度与空间网格所被分配的存储容量成正相关关系。
本发明实施例中,可以将每个空间网格在多维数据空间中的中心点作为该空间网格对应的代表点,则可以将与某一空间网格相邻的所有其他空间网格作为该空间网格的相邻网格,也即是说,将某一空间网格记为空间网格A,则与空间网格A相邻的所有空间网格作为空间网格A的相邻网格,而后,计算空间网格A的代表点与所有相邻网格的代表点间的欧式距离的和值作为空间网格A的分布密度。
可以理解的是,代表点到所有相邻网格的代表点之间欧式距离之和越大,说明该空间网格到相邻网格之间的距离较远,该空间网格中的业务数据量越大,终端应该分配更多的内存用于存储该空间网格中的数据;空间网格到相邻网格之间的欧式距离之和越小,说明网格中的业务数据量越小,终端可以分配更小的内存用于存储该空间网格中的数据。也即是说,空间网格的分布密度与空间网格所被分配的存储容量成正相关关系。
本发明通过两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定两个维度数据间的维度相似性,维度相似性能够有效表征两个维度数据间的相似程度,便于根据维度相似性和待测数据中每个数据点的局部密度确定待测数据的分割优选系数,可以理解的是,通过维度相似性和局部密度确定分割优选系数,并获得最优分割维度数据,相较于现有技术中基于方差确定最优分割维度数据的方式,能够结合数据分布密度和维度相似情况,从而有效提升最优分割维度的确定准确性,同时避免对每个分割维度中数据的方差进行计算,从而提升最优分割维度的获取效率;而后确定初始分割点,根据每个初始分割点对应的搜索回溯次数确定最优分割点,能够有效对最优分割点进行确定,从而避免随机选择分割点导致分割效果较差;之后根据每个空间网格的分布密度对网格化数据进行存储分配,从而能够在最优分割情况下对网格化数据进行存储分配,提升分配效果的同时保证后续在进行数据搜索时的搜索效率,提升终端业务数据的存储管理效果。综上,本发明能够有效增强对终端业务数据的多维分割效果,进而提升终端业务数据的存储管理效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种基于网格化终端业务数据存储管理方法,其特征在于,所述方法包括:
获取终端业务数据,根据数据类型对所述终端业务数据进行分类得到维度数据,其中,每个维度数据包括至少一个数据点;根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定所述两个维度数据间的维度相似性;
任选某一维度数据作为待测数据,根据所述待测数据分别与其他所有维度数据间的维度相似性和所述待测数据中每个数据点的局部密度,确定所述待测数据的分割优选系数;根据所有所述维度数据的分割优选系数确定最优分割维度数据;
从所述最优分割维度数据中数据点中确定至少一个初始分割点,将初始分割点作为根节点,得到每个初始分割点对应的数据结构树,确定所述数据结构树的最短搜索路径对应的搜索回溯次数,根据所述搜索回溯次数,从所述初始分割点中确定最优分割点;
根据所述最优分割维度数据和所述最优分割点,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据,根据每个空间网格的分布密度对所述网格化数据进行存储分配。
2.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据任意两个维度数据的预设重要程度和两个维度数据中每个数据点的局部密度,确定所述两个维度数据间的维度相似性,包括:
计算每个数据点在预设数量个近邻数据点中的最大值和最小值间的差值作为近邻差值,根据近邻差值计算得到每个数据点的局部密度,其中,所述近邻差值和所述局部密度成负相关关系;
根据每个维度数据中数据点的局部密度得到每个维度数据所分别对应的密度序列,计算两个维度数据所分别对应密度序列间的皮尔森相关系数作为相似性权值;
根据所述相似性权值和两个维度数据的预设重要程度的差异,得到维度相似性,其中,所述维度相似性与相似性权值成正相关关系,与预设重要程度的差异成负相关关系,所述维度相似性的取值为归一化后的数值。
3.如权利要求2所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据所述待测数据分别与其他所有维度数据间的维度相似性和所述待测数据中每个数据点的局部密度,确定所述待测数据的分割优选系数,包括:
计算所述待测数据中所有数据点的局部密度的方差作为第一优选因子;
将所述待测数据分别与其他所有维度数据间的维度相似性作为待测相似性;将待测相似性的最小值作为最小相似性,计算所述待测相似性与最小相似性的差值作为待测差值,计算所有待测差值的和值作为第二优选因子;
根据所述第一优选因子和所述第二优选因子,获得分割优选系数,其中,所述分割优选系数与第一优选因子成正相关关系,与第二优选因子成负相关关系。
4.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据所有所述维度数据的分割优选系数确定最优分割维度数据,包括:
将所述分割优选系数的最大值所对应的维度数据作为最优分割维度数据。
5.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述从所述最优分割维度数据中数据点中确定至少一个初始分割点,包括:
将所述最优分割维度数据中数据点数值的中位数对应数据点作为初始分割点。
6.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述将初始分割点作为根节点,得到每个初始分割点对应的数据结构树,包括:
将初始分割点作为根节点,使用k-d树算法构建每个初始分割点对应的数据结构树。
7.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述确定所述数据结构树的最短搜索路径对应的搜索回溯次数,包括:
基于IDDFS算法分别获取每个数据结构树的最短搜索路径,遍历每个数据结构树中所有的叶子节点,统计回溯操作的次数作为最短搜索路径对应的搜索回溯次数。
8.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据所述搜索回溯次数,从所述初始分割点中确定最优分割点,包括:
根据所述搜索回溯次数确定初始分割点的优选率,其中,所述优选率和所述搜索回溯次数成负相关关系;选择所述优选率最大的初始分割点作为最优分割点。
9.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据所述最优分割维度数据和所述最优分割点,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据,包括:
基于所述最优分割维度数据和所述最优分割点,使用k-d树算法在多维数据空间中对所述终端业务数据进行数据分割,将所述终端业务数据分割至对应的数据空间网格中,得到网格化数据。
10.如权利要求1所述的一种基于网格化终端业务数据存储管理方法,其特征在于,所述根据每个空间网格的分布密度对所述网格化数据进行存储分配,包括:
将每个空间网格的中心点作为所述空间网格的代表点,将与某一空间网格相邻的所有其他空间网格作为相邻网格,计算所述空间网格的代表点与所有相邻网格的代表点间的欧式距离的和值作为所述空间网格的分布密度,其中,所述空间网格的分布密度与所述空间网格所被分配的存储容量成正相关关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498983.5A CN116226468B (zh) | 2023-05-06 | 2023-05-06 | 基于网格化终端业务数据存储管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498983.5A CN116226468B (zh) | 2023-05-06 | 2023-05-06 | 基于网格化终端业务数据存储管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226468A true CN116226468A (zh) | 2023-06-06 |
CN116226468B CN116226468B (zh) | 2023-07-18 |
Family
ID=86569787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310498983.5A Active CN116226468B (zh) | 2023-05-06 | 2023-05-06 | 基于网格化终端业务数据存储管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226468B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892231A (zh) * | 2024-03-18 | 2024-04-16 | 天津戎军航空科技发展有限公司 | 一种碳纤维弹匣生产数据智能管理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265815A1 (en) * | 2006-05-15 | 2007-11-15 | Benoit Couet | Method for optimal gridding in reservoir simulation |
FR2930420A1 (fr) * | 2008-04-24 | 2009-10-30 | Centre Nat Rech Scient | Procede et systeme non invasif de detection et d'evaluation de l'activite electrophysiologique neuronale |
CN109712138A (zh) * | 2018-12-29 | 2019-05-03 | 苏州大学 | 基于外观字典学习和形状稀疏表示的图像分割方法 |
CN110069467A (zh) * | 2019-04-16 | 2019-07-30 | 沈阳工业大学 | 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 |
CN112100177A (zh) * | 2020-09-04 | 2020-12-18 | 北京三快在线科技有限公司 | 数据存储方法、装置、计算机设备及存储介质 |
-
2023
- 2023-05-06 CN CN202310498983.5A patent/CN116226468B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265815A1 (en) * | 2006-05-15 | 2007-11-15 | Benoit Couet | Method for optimal gridding in reservoir simulation |
FR2930420A1 (fr) * | 2008-04-24 | 2009-10-30 | Centre Nat Rech Scient | Procede et systeme non invasif de detection et d'evaluation de l'activite electrophysiologique neuronale |
CN109712138A (zh) * | 2018-12-29 | 2019-05-03 | 苏州大学 | 基于外观字典学习和形状稀疏表示的图像分割方法 |
CN110069467A (zh) * | 2019-04-16 | 2019-07-30 | 沈阳工业大学 | 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 |
CN112100177A (zh) * | 2020-09-04 | 2020-12-18 | 北京三快在线科技有限公司 | 数据存储方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨洁;王国胤;王飞;: "基于密度峰值的网格聚类算法", 计算机应用, no. 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892231A (zh) * | 2024-03-18 | 2024-04-16 | 天津戎军航空科技发展有限公司 | 一种碳纤维弹匣生产数据智能管理方法 |
CN117892231B (zh) * | 2024-03-18 | 2024-05-28 | 天津戎军航空科技发展有限公司 | 一种碳纤维弹匣生产数据智能管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116226468B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102609441B (zh) | 基于分布熵的局部敏感哈希高维索引方法 | |
CN103116639B (zh) | 基于用户-物品二分图模型的物品推荐方法及*** | |
Yagoubi et al. | Dpisax: Massively distributed partitioned isax | |
KR20160019897A (ko) | 시계열의 고속 그룹화 기법 | |
CN112286953A (zh) | 多维数据查询方法、装置和电子设备 | |
CN104933156A (zh) | 一种基于共享近邻聚类的协同过滤方法 | |
CN116226468B (zh) | 基于网格化终端业务数据存储管理方法 | |
CN111143685B (zh) | 一种商品推荐方法及装置 | |
CN107766406A (zh) | 一种采用时间优先搜索的轨迹相似性连接查询方法 | |
CN108549696B (zh) | 一种基于内存计算的时间序列数据相似性查询方法 | |
KR20100045682A (ko) | 다차원 데이터 스트림을 위한 클러스터링 방법 및 시스템 | |
CN103336771A (zh) | 基于滑动窗口的数据相似检测方法 | |
CN114610706A (zh) | 基于过采样和改进随机森林的窃电检测方法、***及装置 | |
CN108764307A (zh) | 自然最近邻优化的密度峰值聚类方法 | |
CN116805785A (zh) | 基于随机聚类的电力负荷层次时间序列预测方法 | |
CN117828002B (zh) | 一种土地资源信息数据智能管理方法及*** | |
CN110287237B (zh) | 一种基于社会网络结构分析社团数据挖掘方法 | |
CN105843907A (zh) | 一种内存索引结构-距离树的构建及基于距离树的相似性连接算法 | |
CN114065819A (zh) | 基于多特征融合与改进谱聚类的用电行为分析方法及*** | |
CN112182026A (zh) | 一种考虑流形排序算法的电网截面数据检索方法 | |
Wang et al. | Stull: Unbiased online sampling for visual exploration of large spatiotemporal data | |
CN113127464A (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN113343565B (zh) | 顾及空间异质性的邻域效应模式构建与ca模拟方法及*** | |
CN116304950A (zh) | 一种配电网多源异构数据融合方法、装置及存储介质 | |
CN115146141A (zh) | 基于数据特征的索引推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |