CN115630065B

CN115630065B - 一种基于多压缩模式子分区表的存储和查询方法

Info

Publication number: CN115630065B
Application number: CN202211272183.3A
Authority: CN
Inventors: 周勇亮; 贾宗秀; 赵冬伟; 李晓鹏; 关旭; 蒋旭; 姬涛涛; 刘勇生; 张昕尧
Original assignee: TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD
Current assignee: TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-08-22
Anticipated expiration: 2042-10-18
Also published as: CN115630065A

Abstract

本发明提出一种基于多压缩模式子分区表的存储和查询方法，包括：步骤S1、接收一系列按照预定格式流传输的块数据；步骤S2、基于预定格式进行解析，获取所述块数据中的数据组成；步骤S3、分析数据组成的不同部分，对应的采用不同压缩模式对数据块进行压缩；步骤S4、基于所采用的压缩模式，在第一查找表中匹配对应的分区号段，在压缩数据中单独设置的索引分区类型字段，将所述匹配到的索引分区号段作为附加数据；步骤S5、基于所述的分区号标志，存储到对应的子分区表中，并记录对应数据的索引和压缩模式字段；步骤S6、在数据存储过程中，对不同的子分区表，分配不同大小的连续空间进行存储；步骤S7、用户基于数据压缩模式或数据格式类型，在对应的索引存储表中进行检索。

Description

一种基于多压缩模式子分区表的存储和查询方法

技术领域

本发明涉及计算机数据库技术领域，尤其是一种基于多压缩模式子分区表的存储和查询方法。

背景技术

随着互联网大数据的发展，越来越多的海量数据需要存储，这些数据来自各种地方，数据格式千差万别，对于数据库而言，所有的数据都按照既定的存储过程进行存储，虽然存储过程较为快捷，但是检索过程非常缓慢，尤其是数据量特别大的情况下，检索读取磁盘频繁，容易导致磁盘寿命降低。另外，在工程仪器数据调试、以及实际测量中，对于测试仪器的数据存取非常频繁，每天都会产生大量的测试数据，这些数据日积月累杂乱的存储在硬盘上，数据量非常大，而且由于像日志式的记录信息不规则，无法有效的组织和管理，给日后检索查询带来不便。

发明内容

为了解决上述技术问题，本发明提出一种基于多压缩模式子分区表的存储和查询方法，能够针对不同类型的数据采用多压缩模式，设置不同的索引结构进行存储，在不同压缩模式的数据存储在不同的磁盘分区位置，在检索时能够基于数据类型特征，实现快速检索，提高检索存储效率。

本发明的技术方案为：一种基于多压缩模式子分区表的存储和查询方法，包括如下步骤：

步骤S1、接收一系列按照预定格式流传输的块数据；

步骤S2、基于预定格式进行解析，获取所述块数据中的数据组成；

步骤S3、分析数据组成的不同部分，按照预先设定的规则，对应的采用不同压缩模式对数据块的进行压缩；

步骤S4、基于所采用的压缩模式，在第一查找表中匹配对应的分区号段，在压缩数据中单独设置的索引分区类型字段，将所述匹配到的索引分区号段作为附加数据，填入到压缩数据中，得到带有索引分区号标志的压缩数据；

步骤S5、基于所述的分区号标志，存储到对应的子分区表中，并记录对应数据的索引和压缩模式字段；

步骤S6、在数据存储过程中，对不同的子分区表，分配不同大小的连续空间进行存储；

步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型，基于数据压缩模式或数据格式类型，在对应的索引存储表中进行检索。

进一步的，所述步骤S1、接收一系列按照预定格式流传输的块数据，所述的预定格式是指：

单纯短控制字串格式，其中的字符都是控制字符串，不带有数据格式，字符串长度小于第一阈值；

单纯复杂控制字串格式，其中的字符都是控制字符串，不带有数据格式，字符串长度大于第一阈值；

单纯字串连接数据内容格式，包括控制字串格式和数据内容，其中控制字串格式位于数据内容的前面；

短数据内容格式，仅仅包括数据内容，且长度小于第三阈值；

长数据内容格式，仅仅包括数据内容，且长度大于第三阈值。

进一步的，所述步骤S2、基于预定格式进行解析，获取所述块数据中的数据组成；

对于单纯短控制字串格式，直接提取控制字符串；

对于单纯复杂控制字串格式，提取字符串，且计算该字符串的长度数值；以及提取出该字符串中的部分关键词；

对于单纯字串连接数据内容格式，基于控制字串格式，确定数据内容的位置和长度，基于位置和长度数据，提取数据内容；

对于短数据内容格式，直接提取数据内容；

对于长数据内容格式，直接提取数据内容，统计数据字符长度。

进一步的，所述步骤S3、分析数据组成的不同部分，按照预先设定的规则，对应的采用不同压缩模式对数据块的进行压缩；具体包括：

对于单纯短控制字串格式，直接提取控制字符串后，直接以第一格式，即原始字符存储，并在在原始字符前面增加日期、命令格式类型；

对于短数据内容格式，直接提取数据内容，直接按照第二格式，即原始数值存储；并在在原始字符前面增加日期、命令格式类型；

对于单纯复杂控制字串格式以第三格式进行存储，并在在原始字符前面增加日期、命令格式类型、关键词，字符串长度；所述的关键词是前面提取出的关键词；

对于长数据内容格式以第四格式进行压缩存储，并且在前面增加日期、命令格式类型；

对于单纯字串连接数据内容格式，前半部分保留原始数据，后半半部分基于第五格式压缩存储或者按照原数据存储，并且在前面增加日期、命令格式类型，关键词。

进一步的，所述步骤S4、基于所采用的压缩模式，在第一查找表中匹配对应的分区号段，在压缩数据中单独设置的索引分区类型字段，将所述匹配到的索引分段区号段作为附加数据，填入到压缩数据中，得到带有索引分区号标志的压缩数据；

其中，不同的压缩模式对应有不同的分区号段，第一～第五压缩模式对应第一～第五分区号段，每个分区号段依次减小，且各个分区号段之间保留预留的间隙号段；

获取每个分区号段，将该值附加到结果第一～第五格式压缩后数据的预定位置，作为分区字段。

进一步的，所述步骤S5、基于所述的分区号标志，存储到对应的子分区表中，并记录对应数据的索引和压缩模式字段；

磁盘按照号段进行分区，号段的宽度与磁盘分配的空间成比例关系，且实施统计当前号段的数据量和磁盘空间占用量，进行动态调节，每个分区对应一个压缩模式。

进一步的，所述步骤S6、在数据存储过程中，对不同的子分区表，分配不同大小的连续空间进行存储。

进一步的，所述步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型，基于数据压缩模式或数据格式类型，在对应的索引存储表中进行检索。

进一步的，在查询时，用户在输入端输入条件：日期，以及关键词、以及命令格式类型为B，在数据库中定位到该格式对应的号段分区进行查询，并且检索存储表中的日期，以及关键词对应的条目。

有益效果

本发明能够针对不同设备的大量不同命令格式的数据进行分析处理，针对数据特征采用不同的数据特征提取、压缩方式，并针对不同的格式数据，以格式类型区分不同数据的存储区，以数据存储区的索引作为字段添加到处理后的压缩数据中进行存储，并且针对部分带有命令信息的数据，提取关键词内容，便于快速查询，还为各数据特别加入了区段范围信息，便于快速查询，从而能够对海量、不同格式数据进行快速存储和查询。

附图说明

图1：为本发明的主机与多台测试设备连接进行数据测试保存示意图；

图2：本发明的方法流程图；

图3：为设备测试多种数据格式示意图；

图4：本发明针对多种数据格式对应采用不同压缩模式以及对应存储分区示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，一台主机1通过数据线缆连接到多种类型的仪器设备进行工业测试，所示的主机1为台式机电脑或膝上电脑、pad、移动终端等，所示的数据线缆例如是GPIB工业控制总线，或者LAN网线等，该主机1同时与多种类型的仪器设备2连接，例如，频谱分析仪，电压电流表、频率计数器、矢量网络分析仪等，通过主机1控制仪器设备2开展测试，并将测试数据存储到本地或者与之连接的存储器3中。在测试样品数量比较多的情况下，会产生大量的各类测试数据，另外，在仪器联调调试时，也会产生各种命令读写数据、日志记录数据等，这些数据的存储方式，对于日后调用和检索查询的读取速度有非常大的影响。由于每天都产生大量的各类测试数据，如果不经过高效组织和加工，则后续检索查询效率非常低，非常耽误时间。

根据本发明的实施例，提出一种基于多压缩模式子分区表的存储和查询方法，如图2所示，包括如下步骤：

步骤S1、接收一系列按照预定格式流传输的块数据；

进一步的，如图3所示，所述步骤S1、接收一系列按照预定格式流传输的块数据，所述的预定格式是指：

单纯短控制字串格式，即A1格式，其中的字符都是控制字符串，不带有数据格式，字符串长度小于第一阈值；例如，图3中的第一行的CETC3572，就属于此类字串格式，或者例如*IDN？等命令，也属于此类格式；该字符串长度通常较短，例如在10个字符以内；

单纯复杂控制字串格式，即A2格式，其中的字符都是控制字符串，或者是应答字符串，不带有数据格式，字符串长度大于第一阈值；例如，图3中的第二行，Continue；sense:window dislay；caculat：format Degree？属于此类，但是该字符串的长度略长，通常大于10个字符；

单纯字串连接数据内容格式，即B格式，包括控制字串格式和数据内容，其中控制字串格式位于数据内容的前面；例如，图3中的第三行，“Sense：frequency：start：100000000”，该数据条目包括控制字串格式“Sense：frequency：start：”和数据内容“100000000”；

短数据内容格式，即C1格式，仅仅包括数据内容，且长度小于第三阈值；例如，图3中的第四行，“300”，通常该数据的字符长度较短，例如小于10个字符；

长数据内容格式，即C2格式，仅仅包括数据内容，且长度大于第三阈值。例如图3中的第五行：

“1.1283433E-8,1.12823E-8,1.2283433E-8,1.34533E-8,1.5289433E-8,1.3383433E-8,1.4283433E-9”,该段数据表示一条曲线上的多个点的幅值，由于一条曲线有很多点，因此，该数据可能非常长，例如，几千个字节。

对于单纯短控制字串格式，直接提取控制字符串；例如对于CETC3572，直接提取字符串CETC3572即可，可选的，该字符串也提取作为关键词，在后续的数据处理中附在原字符前。

对于单纯复杂控制字串格式，提取字符串，且计算该字符串的长度数值；以及提取出该字符串中的部分关键词；例如对于Continue；sense:window dislay；caculat：formatDegree？，计算器数值长度为：51，提取的关键词为各段分号中的词语，例如：continue，window display，format Degree等，一般提取最末级的词汇；

对于单纯字串连接数据内容格式，基于控制字串格式，确定数据内容的位置和长度，基于位置和长度数据，提取数据内容。例如，对于Sense：frequency：start：100000000，提取字符串部分为Sense：frequency：start，数据部分为100000000，并进一步提取关键词start；

对于短数据内容格式，直接提取数据内容；例如对于第三行数据，直接提取300；

对于长数据内容格式，直接提取数据内容，统计数据字符长度，并按照数组进行分组或可不分组。

进一步的，所述步骤S3、分析数据组成的不同部分，按照预先设定的规则，对应的采用不同压缩模式对数据块的进行压缩处理；具体包括：

对于单纯短控制字串格式A1，直接提取控制字符串后，直接以第一格式，即原始字符存储，并在在原始字符前面增加日期、命令格式类型，命令格式类型是指前面的A1、A2、B、C1、C2；

对于长数据内容格式以第四格式进行压缩存储，并且在前面增加日期、命令格式类型，所述的压缩方式可以是预测编码、变换编码等方式。

进一步的，所述步骤S4、基于所采用的压缩模式(也即等同与前面的数据格式)，在第一查找表中匹配对应的分区号段，在压缩数据中单独设置的索引分区类型字段，将所述匹配到的索引分段区号段作为附加数据，填入到压缩处理后的数据中，得到带有索引分区号段标志的压缩数据；例如：

B格式对应的分区段位：0xHH011000……0xHH014010

Date:20220910；Type:B；Scale:11000to14010；Key:frequecy,set；length201,data……XXXXX XXXX；其中，增加了Scale:11000to14010；

其中，不同的压缩模式对应有不同的分区号段，第一～第五压缩模式对应第一～第五分区号段，每个分区号段的大小能够根据数据量的大小进行调整，且各个分区号段之间保留预留的间隙号段；例如，在A1区段与A2区段之间保留预定的间隙，防止数据过快增长导致的范围溢出：

进一步的，所述步骤S5、基于所述的分区号标志，存储到对应的子分区表中，并记录对应数据的索引和压缩模式字段

进一步的，所述步骤S6、在数据存储过程中，对不同的子分区表，分配不同大小的连续空间进行存储；本发明中的子分区表是传统的磁盘分区表，是在常规的分区表上设置的子分区表，为了实现基于上述压缩模式的存储，而对应划分不同的子分区。

例如，用户如果需要查询2021年9月5号，某一条有关查询频率范围的命令，则用户在输入端输入条件：2021.09.05，以及关键词frequency，以及命令格式类型为B，则能够迅速在数据库中定位到B格式对应的号段分区进行查询，并且检索存储表中的日期，在所有日期为2021.09.05的条目中，查询关键词frequency，从而实现了快速的查询，而无需从所有数据中遍历满足该条件的数据，至少能够减少80％的数据存取量。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多压缩模式子分区表的存储和查询方法，其特征在于，包括如下步骤：

步骤S1、接收一系列按照预定格式流传输的块数据；所述步骤S1、接收一系列按照预定格式流传输的块数据，所述的预定格式是指：

长数据内容格式，仅仅包括数据内容，且长度大于第三阈值；

步骤S2、基于预定格式进行解析，获取所述块数据中的数据组成；所述步骤S2、基于预定格式进行解析，获取所述块数据中的数据组成；

对于单纯短控制字串格式，直接提取控制字符串；

对于短数据内容格式，直接提取数据内容；

对于长数据内容格式，直接提取数据内容，统计数据字符长度；

步骤S3、分析数据组成的不同部分，按照预先设定的规则，对应的采用不同压缩模式对数据块进行压缩；所述步骤S3、分析数据组成的不同部分，按照预先设定的规则，对应的采用不同压缩模式对数据块进行压缩；具体包括：

对于单纯字串连接数据内容格式，前半部分保留原始数据，后半部分基于第五格式压缩存储或者按照原数据存储，并且在前面增加日期、命令格式类型，关键词；

步骤S5、基于所述分区号标志，存储到对应的分区表中，并记录对应数据的索引和压缩模式字段；

步骤S6、在数据存储过程中，对不同的分区表，分配不同大小的连续空间进行存储；

2.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法，其特征在于，所述步骤S4、基于所采用的压缩模式，在第一查找表中匹配对应的分区号段，在压缩数据中单独设置的索引分区类型字段，将所述匹配到的索引分段区号段作为附加数据，填入到压缩数据中，得到带有索引分区号标志的压缩数据；

获取每个分区号段，将该分区号段附加到结果第一～第五格式压缩后数据的预定位置，作为分区字段。

3.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法，其特征在于，所述步骤S5、基于所述的分区号标志，存储到对应的分区表中，并记录对应数据的索引和压缩模式字段；

4.根据权利要求3所述的一种基于多压缩模式子分区表的存储和查询方法，

在查询时，用户在输入端输入条件：日期，以及关键词、以及命令格式类型为B，在数据库中定位到该格式对应的号段分区进行查询，并且检索存储表中的日期，以及关键词对应的条目。