CN115630065B - 一种基于多压缩模式子分区表的存储和查询方法 - Google Patents

一种基于多压缩模式子分区表的存储和查询方法 Download PDF

Info

Publication number
CN115630065B
CN115630065B CN202211272183.3A CN202211272183A CN115630065B CN 115630065 B CN115630065 B CN 115630065B CN 202211272183 A CN202211272183 A CN 202211272183A CN 115630065 B CN115630065 B CN 115630065B
Authority
CN
China
Prior art keywords
data
format
partition
string
compression mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211272183.3A
Other languages
English (en)
Other versions
CN115630065A (zh
Inventor
周勇亮
贾宗秀
赵冬伟
李晓鹏
关旭
蒋旭
姬涛涛
刘勇生
张昕尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD
Original Assignee
TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD filed Critical TIANJIN SHENZHOU GENERAL DATA TECHNOLOGY CO LTD
Priority to CN202211272183.3A priority Critical patent/CN115630065B/zh
Publication of CN115630065A publication Critical patent/CN115630065A/zh
Application granted granted Critical
Publication of CN115630065B publication Critical patent/CN115630065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • G06F3/0676Magnetic disk device
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于多压缩模式子分区表的存储和查询方法,包括:步骤S1、接收一系列按照预定格式流传输的块数据;步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;步骤S3、分析数据组成的不同部分,对应的采用不同压缩模式对数据块进行压缩;步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据;步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;步骤S7、用户基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。

Description

一种基于多压缩模式子分区表的存储和查询方法
技术领域
本发明涉及计算机数据库技术领域,尤其是一种基于多压缩模式子分区表的存储和查询方法。
背景技术
随着互联网大数据的发展,越来越多的海量数据需要存储,这些数据来自各种地方,数据格式千差万别,对于数据库而言,所有的数据都按照既定的存储过程进行存储,虽然存储过程较为快捷,但是检索过程非常缓慢,尤其是数据量特别大的情况下,检索读取磁盘频繁,容易导致磁盘寿命降低。另外,在工程仪器数据调试、以及实际测量中,对于测试仪器的数据存取非常频繁,每天都会产生大量的测试数据,这些数据日积月累杂乱的存储在硬盘上,数据量非常大,而且由于像日志式的记录信息不规则,无法有效的组织和管理,给日后检索查询带来不便。
发明内容
为了解决上述技术问题,本发明提出一种基于多压缩模式子分区表的存储和查询方法,能够针对不同类型的数据采用多压缩模式,设置不同的索引结构进行存储,在不同压缩模式的数据存储在不同的磁盘分区位置,在检索时能够基于数据类型特征,实现快速检索,提高检索存储效率。
本发明的技术方案为:一种基于多压缩模式子分区表的存储和查询方法,包括如下步骤:
步骤S1、接收一系列按照预定格式流传输的块数据;
步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;
步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;
步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;
步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
进一步的,所述步骤S1、接收一系列按照预定格式流传输的块数据,所述的预定格式是指:
单纯短控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度小于第一阈值;
单纯复杂控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度大于第一阈值;
单纯字串连接数据内容格式,包括控制字串格式和数据内容,其中控制字串格式位于数据内容的前面;
短数据内容格式,仅仅包括数据内容,且长度小于第三阈值;
长数据内容格式,仅仅包括数据内容,且长度大于第三阈值。
进一步的,所述步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
对于单纯短控制字串格式,直接提取控制字符串;
对于单纯复杂控制字串格式,提取字符串,且计算该字符串的长度数值;以及提取出该字符串中的部分关键词;
对于单纯字串连接数据内容格式,基于控制字串格式,确定数据内容的位置和长度,基于位置和长度数据,提取数据内容;
对于短数据内容格式,直接提取数据内容;
对于长数据内容格式,直接提取数据内容,统计数据字符长度。
进一步的,所述步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;具体包括:
对于单纯短控制字串格式,直接提取控制字符串后,直接以第一格式,即原始字符存储,并在在原始字符前面增加日期、命令格式类型;
对于短数据内容格式,直接提取数据内容,直接按照第二格式,即原始数值存储;并在在原始字符前面增加日期、命令格式类型;
对于单纯复杂控制字串格式以第三格式进行存储,并在在原始字符前面增加日期、命令格式类型、关键词,字符串长度;所述的关键词是前面提取出的关键词;
对于长数据内容格式以第四格式进行压缩存储,并且在前面增加日期、命令格式类型;
对于单纯字串连接数据内容格式,前半部分保留原始数据,后半半部分基于第五格式压缩存储或者按照原数据存储,并且在前面增加日期、命令格式类型,关键词。
进一步的,所述步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分段区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
其中,不同的压缩模式对应有不同的分区号段,第一~第五压缩模式对应第一~第五分区号段,每个分区号段依次减小,且各个分区号段之间保留预留的间隙号段;
获取每个分区号段,将该值附加到结果第一~第五格式压缩后数据的预定位置,作为分区字段。
进一步的,所述步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;
磁盘按照号段进行分区,号段的宽度与磁盘分配的空间成比例关系,且实施统计当前号段的数据量和磁盘空间占用量,进行动态调节,每个分区对应一个压缩模式。
进一步的,所述步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储。
进一步的,所述步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
进一步的,在查询时,用户在输入端输入条件:日期,以及关键词、以及命令格式类型为B,在数据库中定位到该格式对应的号段分区进行查询,并且检索存储表中的日期,以及关键词对应的条目。
有益效果
本发明能够针对不同设备的大量不同命令格式的数据进行分析处理,针对数据特征采用不同的数据特征提取、压缩方式,并针对不同的格式数据,以格式类型区分不同数据的存储区,以数据存储区的索引作为字段添加到处理后的压缩数据中进行存储,并且针对部分带有命令信息的数据,提取关键词内容,便于快速查询,还为各数据特别加入了区段范围信息,便于快速查询,从而能够对海量、不同格式数据进行快速存储和查询。
附图说明
图1:为本发明的主机与多台测试设备连接进行数据测试保存示意图;
图2:本发明的方法流程图;
图3:为设备测试多种数据格式示意图;
图4:本发明针对多种数据格式对应采用不同压缩模式以及对应存储分区示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,一台主机1通过数据线缆连接到多种类型的仪器设备进行工业测试,所示的主机1为台式机电脑或膝上电脑、pad、移动终端等,所示的数据线缆例如是GPIB工业控制总线,或者LAN网线等,该主机1同时与多种类型的仪器设备2连接,例如,频谱分析仪,电压电流表、频率计数器、矢量网络分析仪等,通过主机1控制仪器设备2开展测试,并将测试数据存储到本地或者与之连接的存储器3中。在测试样品数量比较多的情况下,会产生大量的各类测试数据,另外,在仪器联调调试时,也会产生各种命令读写数据、日志记录数据等,这些数据的存储方式,对于日后调用和检索查询的读取速度有非常大的影响。由于每天都产生大量的各类测试数据,如果不经过高效组织和加工,则后续检索查询效率非常低,非常耽误时间。
根据本发明的实施例,提出一种基于多压缩模式子分区表的存储和查询方法,如图2所示,包括如下步骤:
步骤S1、接收一系列按照预定格式流传输的块数据;
步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;
步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;
步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;
步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
进一步的,如图3所示,所述步骤S1、接收一系列按照预定格式流传输的块数据,所述的预定格式是指:
单纯短控制字串格式,即A1格式,其中的字符都是控制字符串,不带有数据格式,字符串长度小于第一阈值;例如,图3中的第一行的CETC3572,就属于此类字串格式,或者例如*IDN?等命令,也属于此类格式;该字符串长度通常较短,例如在10个字符以内;
单纯复杂控制字串格式,即A2格式,其中的字符都是控制字符串,或者是应答字符串,不带有数据格式,字符串长度大于第一阈值;例如,图3中的第二行,Continue;sense:window dislay;caculat:format Degree?属于此类,但是该字符串的长度略长,通常大于10个字符;
单纯字串连接数据内容格式,即B格式,包括控制字串格式和数据内容,其中控制字串格式位于数据内容的前面;例如,图3中的第三行,“Sense:frequency:start:100000000”,该数据条目包括控制字串格式“Sense:frequency:start:”和数据内容“100000000”;
短数据内容格式,即C1格式,仅仅包括数据内容,且长度小于第三阈值;例如,图3中的第四行,“300”,通常该数据的字符长度较短,例如小于10个字符;
长数据内容格式,即C2格式,仅仅包括数据内容,且长度大于第三阈值。例如图3中的第五行:
“1.1283433E-8,1.12823E-8,1.2283433E-8,1.34533E-8,1.5289433E-8,1.3383433E-8,1.4283433E-9”,该段数据表示一条曲线上的多个点的幅值,由于一条曲线有很多点,因此,该数据可能非常长,例如,几千个字节。
进一步的,所述步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
对于单纯短控制字串格式,直接提取控制字符串;例如对于CETC3572,直接提取字符串CETC3572即可,可选的,该字符串也提取作为关键词,在后续的数据处理中附在原字符前。
对于单纯复杂控制字串格式,提取字符串,且计算该字符串的长度数值;以及提取出该字符串中的部分关键词;例如对于Continue;sense:window dislay;caculat:formatDegree?,计算器数值长度为:51,提取的关键词为各段分号中的词语,例如:continue,window display,format Degree等,一般提取最末级的词汇;
对于单纯字串连接数据内容格式,基于控制字串格式,确定数据内容的位置和长度,基于位置和长度数据,提取数据内容。例如,对于Sense:frequency:start:100000000,提取字符串部分为Sense:frequency:start,数据部分为100000000,并进一步提取关键词start;
对于短数据内容格式,直接提取数据内容;例如对于第三行数据,直接提取300;
对于长数据内容格式,直接提取数据内容,统计数据字符长度,并按照数组进行分组或可不分组。
进一步的,所述步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩处理;具体包括:
对于单纯短控制字串格式A1,直接提取控制字符串后,直接以第一格式,即原始字符存储,并在在原始字符前面增加日期、命令格式类型,命令格式类型是指前面的A1、A2、B、C1、C2;
对于短数据内容格式,直接提取数据内容,直接按照第二格式,即原始数值存储;并在在原始字符前面增加日期、命令格式类型;
对于单纯复杂控制字串格式以第三格式进行存储,并在在原始字符前面增加日期、命令格式类型、关键词,字符串长度;所述的关键词是前面提取出的关键词;
对于长数据内容格式以第四格式进行压缩存储,并且在前面增加日期、命令格式类型,所述的压缩方式可以是预测编码、变换编码等方式。
对于单纯字串连接数据内容格式,前半部分保留原始数据,后半半部分基于第五格式压缩存储或者按照原数据存储,并且在前面增加日期、命令格式类型,关键词。
进一步的,所述步骤S4、基于所采用的压缩模式(也即等同与前面的数据格式),在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分段区号段作为附加数据,填入到压缩处理后的数据中,得到带有索引分区号段标志的压缩数据;例如:
B格式对应的分区段位:0xHH011000……0xHH014010
Date:20220910;Type:B;Scale:11000to14010;Key:frequecy,set;length201,data……XXXXX XXXX;其中,增加了Scale:11000to14010;
其中,不同的压缩模式对应有不同的分区号段,第一~第五压缩模式对应第一~第五分区号段,每个分区号段的大小能够根据数据量的大小进行调整,且各个分区号段之间保留预留的间隙号段;例如,在A1区段与A2区段之间保留预定的间隙,防止数据过快增长导致的范围溢出:
获取每个分区号段,将该值附加到结果第一~第五格式压缩后数据的预定位置,作为分区字段。
进一步的,所述步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段
磁盘按照号段进行分区,号段的宽度与磁盘分配的空间成比例关系,且实施统计当前号段的数据量和磁盘空间占用量,进行动态调节,每个分区对应一个压缩模式。
进一步的,所述步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;本发明中的子分区表是传统的磁盘分区表,是在常规的分区表上设置的子分区表,为了实现基于上述压缩模式的存储,而对应划分不同的子分区。
进一步的,所述步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
例如,用户如果需要查询2021年9月5号,某一条有关查询频率范围的命令,则用户在输入端输入条件:2021.09.05,以及关键词frequency,以及命令格式类型为B,则能够迅速在数据库中定位到B格式对应的号段分区进行查询,并且检索存储表中的日期,在所有日期为2021.09.05的条目中,查询关键词frequency,从而实现了快速的查询,而无需从所有数据中遍历满足该条件的数据,至少能够减少80%的数据存取量。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于多压缩模式子分区表的存储和查询方法,其特征在于,包括如下步骤:
步骤S1、接收一系列按照预定格式流传输的块数据;所述步骤S1、接收一系列按照预定格式流传输的块数据,所述的预定格式是指:
单纯短控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度小于第一阈值;
单纯复杂控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度大于第一阈值;
单纯字串连接数据内容格式,包括控制字串格式和数据内容,其中控制字串格式位于数据内容的前面;
短数据内容格式,仅仅包括数据内容,且长度小于第三阈值;
长数据内容格式,仅仅包括数据内容,且长度大于第三阈值;
步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;所述步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
对于单纯短控制字串格式,直接提取控制字符串;
对于单纯复杂控制字串格式,提取字符串,且计算该字符串的长度数值;以及提取出该字符串中的部分关键词;
对于单纯字串连接数据内容格式,基于控制字串格式,确定数据内容的位置和长度,基于位置和长度数据,提取数据内容;
对于短数据内容格式,直接提取数据内容;
对于长数据内容格式,直接提取数据内容,统计数据字符长度;
步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块进行压缩;所述步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块进行压缩;具体包括:
对于单纯短控制字串格式,直接提取控制字符串后,直接以第一格式,即原始字符存储,并在在原始字符前面增加日期、命令格式类型;
对于短数据内容格式,直接提取数据内容,直接按照第二格式,即原始数值存储;并在在原始字符前面增加日期、命令格式类型;
对于单纯复杂控制字串格式以第三格式进行存储,并在在原始字符前面增加日期、命令格式类型、关键词,字符串长度;所述的关键词是前面提取出的关键词;
对于长数据内容格式以第四格式进行压缩存储,并且在前面增加日期、命令格式类型;
对于单纯字串连接数据内容格式,前半部分保留原始数据,后半部分基于第五格式压缩存储或者按照原数据存储,并且在前面增加日期、命令格式类型,关键词;
步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
步骤S5、基于所述分区号标志,存储到对应的分区表中,并记录对应数据的索引和压缩模式字段;
步骤S6、在数据存储过程中,对不同的分区表,分配不同大小的连续空间进行存储;
步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
2.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法,其特征在于,所述步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分段区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
其中,不同的压缩模式对应有不同的分区号段,第一~第五压缩模式对应第一~第五分区号段,每个分区号段依次减小,且各个分区号段之间保留预留的间隙号段;
获取每个分区号段,将该分区号段附加到结果第一~第五格式压缩后数据的预定位置,作为分区字段。
3.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法,其特征在于,所述步骤S5、基于所述的分区号标志,存储到对应的分区表中,并记录对应数据的索引和压缩模式字段;
磁盘按照号段进行分区,号段的宽度与磁盘分配的空间成比例关系,且实施统计当前号段的数据量和磁盘空间占用量,进行动态调节,每个分区对应一个压缩模式。
4.根据权利要求3所述的一种基于多压缩模式子分区表的存储和查询方法,
在查询时,用户在输入端输入条件:日期,以及关键词、以及命令格式类型为B,在数据库中定位到该格式对应的号段分区进行查询,并且检索存储表中的日期,以及关键词对应的条目。
CN202211272183.3A 2022-10-18 2022-10-18 一种基于多压缩模式子分区表的存储和查询方法 Active CN115630065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211272183.3A CN115630065B (zh) 2022-10-18 2022-10-18 一种基于多压缩模式子分区表的存储和查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211272183.3A CN115630065B (zh) 2022-10-18 2022-10-18 一种基于多压缩模式子分区表的存储和查询方法

Publications (2)

Publication Number Publication Date
CN115630065A CN115630065A (zh) 2023-01-20
CN115630065B true CN115630065B (zh) 2023-08-22

Family

ID=84906757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211272183.3A Active CN115630065B (zh) 2022-10-18 2022-10-18 一种基于多压缩模式子分区表的存储和查询方法

Country Status (1)

Country Link
CN (1) CN115630065B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5229768A (en) * 1992-01-29 1993-07-20 Traveling Software, Inc. Adaptive data compression system
US5854597A (en) * 1996-03-19 1998-12-29 Fujitsu Limited Document managing apparatus, data compressing method, and data decompressing method
CN101800556A (zh) * 2001-02-13 2010-08-11 莫塞德技术股份有限公司 适合数据压缩的方法和设置
CN109101504A (zh) * 2017-06-20 2018-12-28 恒为科技(上海)股份有限公司 一种高效的日志压缩和索引方法
CN112118010A (zh) * 2020-08-25 2020-12-22 ***用服务有限公司 一种字符串的压缩处理方法、装置和存储介质
CN112632129A (zh) * 2020-12-31 2021-04-09 联想未来通信科技(重庆)有限公司 一种码流数据管理方法、装置及存储介质
CN114374392A (zh) * 2021-12-17 2022-04-19 深圳市优必选科技股份有限公司 一种数据压缩存储方法、装置、终端设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163758B2 (en) * 2016-09-26 2021-11-02 Splunk Inc. External dataset capability compensation
US20210109974A1 (en) * 2019-10-13 2021-04-15 Thoughtspot, Inc. Query Execution On Compressed In-Memory Data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5229768A (en) * 1992-01-29 1993-07-20 Traveling Software, Inc. Adaptive data compression system
US5854597A (en) * 1996-03-19 1998-12-29 Fujitsu Limited Document managing apparatus, data compressing method, and data decompressing method
CN101800556A (zh) * 2001-02-13 2010-08-11 莫塞德技术股份有限公司 适合数据压缩的方法和设置
CN109101504A (zh) * 2017-06-20 2018-12-28 恒为科技(上海)股份有限公司 一种高效的日志压缩和索引方法
CN112118010A (zh) * 2020-08-25 2020-12-22 ***用服务有限公司 一种字符串的压缩处理方法、装置和存储介质
CN112632129A (zh) * 2020-12-31 2021-04-09 联想未来通信科技(重庆)有限公司 一种码流数据管理方法、装置及存储介质
CN114374392A (zh) * 2021-12-17 2022-04-19 深圳市优必选科技股份有限公司 一种数据压缩存储方法、装置、终端设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于嵌入式实时操作***Vxworks下的数据压缩技术;王江泉等;《数字技术与应用》(第03期);第70-71页 *

Also Published As

Publication number Publication date
CN115630065A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
US11995086B2 (en) Methods for enhancing rapid data analysis
US6546394B1 (en) Database system having logical row identifiers
US7853598B2 (en) Compressed storage of documents using inverted indexes
US5799184A (en) System and method for identifying data records using solution bitmasks
CN107577436B (zh) 一种数据存储方法及装置
Wu et al. Breaking the curse of cardinality on bitmap indexes
US10452676B2 (en) Managing database with counting bloom filters
CN109994131B (zh) 一种基于索引的工频录波文件压缩存储方法及***
CN111324750A (zh) 一种大规模文本相似度计算及文本查重方法
US7499927B2 (en) Techniques for improving memory access patterns in tree-based data index structures
CN112597345B (zh) 一种实验室数据自动采集与匹配方法
CN111813849A (zh) 数据抽取方法、装置及设备、存储介质
US8234270B2 (en) System for enhancing decoding performance of text indexes
CN115630065B (zh) 一种基于多压缩模式子分区表的存储和查询方法
JP2006323575A (ja) 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体
CN112434085A (zh) 基于Roaring Bitmap的用户数据统计方法
CN112765960B (zh) 一种文本匹配方法、装置及计算机设备
CN115794861A (zh) 基于特征摘要的离线数据查询复用方法及其应用
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN114995880A (zh) 一种基于SimHash的二进制代码相似性比对方法
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN100386996C (zh) 一种阈值表达式解析方法
US20050256823A1 (en) Memory, method, and program product for organizing data using a compressed trie table
Navarro et al. An optimal index for pat arrays
CN112559521A (zh) 话单查找方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant