CN112118010A - 一种字符串的压缩处理方法、装置和存储介质 - Google Patents

一种字符串的压缩处理方法、装置和存储介质 Download PDF

Info

Publication number
CN112118010A
CN112118010A CN202010866288.6A CN202010866288A CN112118010A CN 112118010 A CN112118010 A CN 112118010A CN 202010866288 A CN202010866288 A CN 202010866288A CN 112118010 A CN112118010 A CN 112118010A
Authority
CN
China
Prior art keywords
character string
regular
type
string
compressed data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010866288.6A
Other languages
English (en)
Inventor
毛晨斌
邹龙泉
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Service Co ltd
Original Assignee
China Telecom Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Service Co ltd filed Critical China Telecom Service Co ltd
Priority to CN202010866288.6A priority Critical patent/CN112118010A/zh
Publication of CN112118010A publication Critical patent/CN112118010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种字符串的压缩处理方法、装置和存储介质。该方法包括:将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。通过采用本申请所提供的技术方案,可以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。

Description

一种字符串的压缩处理方法、装置和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种字符串的压缩处理方法、装置和存储介质。
背景技术
随着科学技术的发展,字符串存储检索匹配算法广泛应用于基于快速包检测的网络设备,例如入侵检测***以及流量监控等。一般的数据库表结构设计时,会设计业务主键字段被用来判断数据的唯一性,但有时也会存在外部数据要么没有业务主键,要么其字符串非常长索引效率低等问题。归结起来,就是海量数据的存储、索引和检索需求越来越多,其存在占用空间大、检索速度慢等现实问题。
现有技术中,使用各种分库分表等分布式存储技术,但该技术本身并没有减少数据存储空间,也没有办法提升单一节点检索性能问题。
发明内容
本发明实施例提供一种字符串的压缩处理方法、装置和存储介质,可以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。
第一方面,本发明实施例提供了一种字符串的压缩处理方法,该方法包括:
将完整字符串拆分成至少一个规律字符串;
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
进一步的,若所述规律字符串的类型为重复型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段;
若是,则以所述哈希表中所述重复字符分段的统一编码代替该重复字符分段;
对规律字符串中所有重复字符分段进行代替操作,以得到规律字符串的压缩数据。
进一步的,在读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段之后,所述方法还包括:
若否,则确定所述重复字符分段的新增编码,并将所述重复字符分段与新增编码添加至所述哈希表中。
进一步的,所述方法还包括:
判断所述哈希表中的键值对数量是否达到预设数量;
若是,则根据所述哈希表中键值对的使用热度,对所述哈希表中的键值对使用热度低于预设阈值的,存储至磁盘存储空间。
进一步的,若所述规律字符串的类型为时间型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的时间数据与基准时间的时间差值;
将所述时间差值代替为所述规律字符串的压缩数据。
进一步的,若所述规律字符串的类型为数字型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的数字字节数;
根据所述数字字节数,确定与所述规律字符串的数字内容相对应的二进制数字,作为规律字符串的压缩数据。
进一步的,若所述规律字符串的类型为有限枚举型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定所述规律字符串的有限枚举数据在结构化数据中的数字取值;
以所述有限枚举数据在该结构化数据的数字取值作为所述规律字符串的压缩数据。
进一步的,在遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果之后,所述方法还包括:
若检测到压缩数据检索指令,将所述检索指令的检索内容按照所述预设压缩方式转化为检索字符;
通过所述检索字符与压缩数据的对比结果,确定检索结果。
第二方面,本发明实施例还提供了一种在线字符串的压缩处理装置,该装置包括:
规律字符串拆分模块,用于将完整字符串拆分成至少一个规律字符串;
压缩方式确定模块,用于根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
压缩处理模块,用于采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
压缩结果输出模块,用于遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的字符串的压缩处理方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的字符串的压缩处理方法。
本申请实施例所提供的技术方案,将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。通过采用本申请所提供的技术方案,可以针对不同类型的规律字符串,采用不同的方式进行压缩,以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。
附图说明
图1是本发明实施例一提供的字符串的压缩处理方法的流程图;
图2是本发明实施例二提供的字符串的压缩处理装置的结构示意图;
图3是本申请实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的字符串的压缩处理方法的流程图,本实施例可适用于数据压缩和检索的情况,该方法可以由本发明实施例所提供的字符串的压缩处理装置来执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于数据压缩的电子设备中。
如图1所示,所述字符串的压缩处理方法包括:
S110、将完整字符串拆分成至少一个规律字符串。
其中,完整字符串即为被压缩数据的完整内容。规律字符串,可以是特征明显的数据段,例如地址字符串,时间字符串等等。
在本实施例中,可以把外部接收到的完整字符串拆分成若干个特征明显的数据段,并针对每个特征明显的子字符串的特殊性采用针对性的压缩算法,大幅减少了数据存储空间,并加快了数据检索性能。
其中,特征可以是根据预先确定的规律字符串的起始字符,结束字符,以及,规律字符串在完整字符串中的位置,以及,规律字符串表达的释义等方式,进行识别的。
S120、根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种。
规律字符串可以是具有一定的规律的字符串,例如该字符串表达一个关系、一个地点、一个时间点,一个数字以及一个枚举内容等。可以直观的理解为规律字符串具有一定的客观规律在内,例如时间的表达形式,空间分布情况,或者表达一个事件的发生,以及其他规律性的字符串内容。
所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种。对于重复型,可以是包含地理位置、双方关系以及多重关系递进的类型。例如某国某省某市某大学某办公楼,签订合约关系的甲方和乙方,以及某公司的某业务员的业务单号,等等。只要对象为重复出现,或者高频次出现的字符串,都可以认为是重复型规律字符串。
具体的,由于字符串的重复出现的频次可以是高于设定阈值,并且数据量在百万级或者以下的词汇。例如某一字符串,在每个单位时间,如1天内出现的频次高达数万次或者更多,则可以针对该字符串设置固定的压缩方式,以达到对其进行高效率以及高压缩比例的进行压缩目的。
对于时间型,可以是某年某月某日某时某分某秒某毫秒。
对于数字型,则可以是任意一串数字,如255,23761,269468775135等。
对于有限枚举型,可以是性别,学历,颜色,民族以及重要程度等,具体的,性别可以有限枚举为男和女,学历可以有限枚举为小学、初中、高中、本科、硕士研究生、博士研究生以及博士后等。
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式,其中,由于规律字符串类型的不同,所采用的压缩方式也不同。例如时间型和数字型,可以采用不同的方式进行压缩,这样既能够保留该类型的数据特征,又能够实现压缩方式的差异化设计,使得压缩结果节省空间的最大化。
S130、采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据。
其中,可以采用与规律字符串对应的预设压缩方式,进行压缩处理,以得到规律字符串的压缩数据,例如完整字符串包括三个规律字符串,分别为时间型,数字型和有限枚举型。时间型规律字符串采用相应的预设压缩方式,得到压缩数据为0313,数字型规律字符串采用相应的预设压缩方式,得到压缩数据为00110101,有限枚举型规律字符串采用相应的预设压缩方式,得到压缩数据为123。
在本技术方案中,可选的,若所述规律字符串的类型为重复型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段;
若是,则以所述哈希表中所述重复字符分段的统一编码代替该重复字符分段;
对规律字符串中所有重复字符分段进行代替操作,以得到规律字符串的压缩数据。
哈希表中可以是以键值对的形式,存储重复与统一编码之间的对应关系。规律字符串中可以包括一个重复字符分段,如北京市,还可以包括多个重复字符分段,如天津市东丽区,可以对不同的重复字符分段确定不同的统一编码。可以理解的,在实际压缩的过程中,如果重复字符分段是已编码分段,则可以以该统一编码作为重复字符分段的压缩结果。进而可以对整个规律字符串的各个重复字符分段确定统一编码,并将统一编码进行拼接,得到规律字符串的压缩结果。本方案通过这样的设置,可以实现快速并且准确的对重复型规律字符串进行压缩,节省字符串的占用空间。
在上述技术方案中,可选的,在读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段之后,所述方法还包括:
若否,则确定所述重复字符分段的新增编码,并将所述重复字符分段与新增编码添加至所述哈希表中。
在一个可行的实施例中,如果发现重复字符分段并没有被编码过,例如前面编码的都是北京市和天津市,首次发现上海市,该字符串并没有被编码过,因此可以为该重复字符分段确定新增编码,并将该重复字符分段与新增编码添加至哈希表中。通过这样的设置,可以实现扩大本技术方案的适用范围,针对任何使用场景都可以实现高压缩比例的字符串压缩。
可以理解的,本方案中,重复型可以是一种示例,并不代表仅对重复型适用,针对其他类型的数据,只要存在一定的规律,如家具物品分类,桌子、椅子以及沙发等等,都可以采用这种方式进行压缩。
在上述技术方案中,可选的,所述方法还包括:
判断所述哈希表中的键值对数量是否达到预设数量;
若是,则根据所述哈希表中键值对的使用热度,对所述哈希表中的键值对使用热度低于预设阈值的,存储至磁盘存储空间。
其中,预设数量可以是一个比较大的数量,比如200万个键值对,当哈希表中所有的键值对的数量超过了这个预设数量,则可以针对哈希表中的使用热度进行划分,对热度较高的键值对存储在缓存中,对热度较低的键值对存储在磁盘存储空间中。其中,热度的预设阈值,可以是根据总访问数量,访问频次等数据来确定的。
具体的,可以采用类似字典压缩,为每一个唯一的字符串分配一个统一编码,利用哈希表作为词条存储结构,哈希表的键就是字符串,值就是统一编码。为了支持比较大量的数据,具体实现可以分为持久化KV存储和动态智能有限内存缓存的二级方式哈希表。
在本技术方案中,可选的,若所述规律字符串的类型为时间型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的时间数据与基准时间的时间差值;
将所述时间差值代替为所述规律字符串的压缩数据。
本方案中,时间型的规律字符串,可以是带有日期和时间的字符串,如2008年6月30日19:30:00时刻0000毫秒,可以将其与基准时间做差,从而得到与基准时间的时间差值,如基准时间为2000年1月1日19:30:00时刻0000毫秒,则可以做差得到一个单位为秒的时间差值。并将该时间差值进行保存。通过这样的处理,可以大大减少时间型的规律字符串的占用空间,提高压缩比例。
在上述技术方案中,可选的,若所述规律字符串的类型为数字型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的数字字节数;
根据所述数字字节数,确定与所述规律字符串的数字内容相对应的二进制数字,作为规律字符串的压缩数据。
其中,数字字节数可以是由数字的数量决定的,也可以是由数字的大小决定的。本方案中由于需要考虑二进制数字的大小,所以可以以数字的大小决定所压缩的程度。例如254占用三个字节,可以将其转化为二进制数,进而可以通过一个字节来存储。
具体的,如果数字在0到255之间,则可以把三个字节的数字转化为二进制数字,采用一个字节来表示;如果数字的大小在0到65535之间,则可以把五个字节的数字转化为二进制数字,采用两个字节来表示;如果数字在的大小在0到16777215之间,则可以把八个字节的数字转化为二进制数字,采用三个字节来表示;以此类推,可以得到数字型的规律字符串的压缩数据。
在上述技术方案中,可选的,若所述规律字符串的类型为有限枚举型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定所述规律字符串的有限枚举数据在结构化数据中的数字取值;
以所述有限枚举数据在该结构化数据的数字取值作为所述规律字符串的压缩数据。
有限枚举型的规律字符串,可以是包括性别,颜色,严重程度以及年龄等数据,可以分别对不同的有限枚举数据进行编码,如:
性别取值:0男1女2未知;
颜色取值:0红 1橙2黄3绿 4青5蓝 6紫;
严重级别取值:0轻微 1一般 2重要 3严重 4致命;
则字符串“女”“黄”“严重”存储至少要用8个字节;
压缩后得到123;
这样就可以得到一个字节的数字“123”。
通过这种压缩方式,可以提高有限枚举型数据的压缩比例,达到快速并高压缩率的数据存储的目的。
S140、遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
可以理解的,在分段之后,如果分段结果为规律字符串,则可以采用相应的压缩方式进行压缩。如果分段结果不是规律字符串,则可以保留该分段的字符串内容,以便于对数据的完整性和准确性的保存。
其中,在接收到压缩数据检索指令之后,可以获取检索内容,并对检索内容按照预设压缩方式进行压缩,从而得到检索字符。进而,可以根据压缩数据与该检索字符的对比结果,确定检索目标,并返回相应的目标数据,完成压缩数据的检索处理。通过这样的设置,可以在对压缩数据进行检索的过程中,无需解压数据,避免了数据解压带来的内存消耗和时间消耗,实现快速并轻量检索的目的。
在上述技术方案的基础上,可选的,在在遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果之后,所述方法还包括:
若检测到压缩数据检索指令,将所述检索指令的检索内容按照所述预设压缩方式转化为检索字符;
通过所述检索字符与压缩数据的对比结果,确定检索结果。
在接收到检索指令之后,可以根据检索内容,确定检索内容所属的规律字符串类型,并对检索内容进行与数据压缩相同的压缩方式,即根据检索内容所述的规律字符串类型,进行压缩,以得到压缩后的检索字符。对该检索字符进行与压缩数据进行对比,这样就从多字节的检索转换成少字节的检索,不仅可以提高检索效率,还能够降低检索所需的计算数据量,降低内存开销。
本发明充分利用数据的规律性和重复性特点通过压缩存储,再利用自主研发的索引模块,就可以实现一种高效压缩并且无需解压就可检索查询的方式,通过更低的成本、更高效的检索、更简单的***就可以支持海量数据的存储和检索。
本申请实施例所提供的技术方案,将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。通过采用本申请所提供的技术方案,可以针对不同类型的规律字符串,采用不同的方式进行压缩,以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。
实施例二
图2是本发明实施例二提供的字符串的压缩处理装置的结构示意图。如图2所示,所述字符串的压缩处理装置,包括:
规律字符串拆分模块210,用于将完整字符串拆分成至少一个规律字符串;
压缩方式确定模块220,用于根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
压缩处理模块230,用于采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
压缩结果输出模块240,用于遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例三
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种字符串的压缩处理方法,该方法包括:
将完整字符串拆分成至少一个规律字符串;
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机***存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机***中,或者可以位于不同的第二计算机***中,第二计算机***通过网络(诸如因特网)连接到计算机***。第二计算机***可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机***中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的在线字符串的压缩处理操作,还可以执行本申请任意实施例所提供的字符串的压缩处理方法中的相关操作。
实施例四
本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的图像的排版装置。图3是本申请实施例四提供的一种电子设备的结构示意图。如图3所示,本实施例提供了一种电子设备300,其包括:一个或多个处理器320;存储装置310,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器320运行,使得所述一个或多个处理器320实现本申请实施例所提供的图像的排版方法,该方法包括:
将完整字符串拆分成至少一个规律字符串;
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
当然,本领域技术人员可以理解,处理器320还可以实现本申请任意实施例所提供的图像的排版方法的技术方案。
图3显示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,该电子设备300包括处理器320、存储装置310、输入装置330和输出装置340;电子设备中处理器320的数量可以是一个或多个,图3中以一个处理器320为例;电子设备中的处理器320、存储装置310、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线350连接为例。
存储装置310作为一种计算机可读存储介质,可用于存储软件程序、计算机可运行程序以及模块单元,如本申请实施例中的图像的排版方法对应的程序指令。
存储装置310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置310可进一步包括相对于处理器320远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。
上述实施例中提供的图像的排版装置、介质及设备可运行本申请任意实施例所提供的图像的排版方法,具备运行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的图像的排版方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种字符串的压缩处理方法,其特征在于,包括:
将完整字符串拆分成至少一个规律字符串;
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
2.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为重复型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段;
若是,则以所述哈希表中所述重复字符分段的统一编码代替该重复字符分段;
对规律字符串中所有重复字符分段进行代替操作,以得到规律字符串的压缩数据。
3.根据权利要求2所述的方法,其特征在于,在读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段之后,所述方法还包括:
若否,则确定所述重复字符分段的新增编码,并将所述重复字符分段与新增编码添加至所述哈希表中。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
判断所述哈希表中的键值对数量是否达到预设数量;
若是,则根据所述哈希表中键值对的使用热度,对所述哈希表中的键值对使用热度低于预设阈值的,存储至磁盘存储空间。
5.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为时间型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的时间数据与基准时间的时间差值;
将所述时间差值代替为所述规律字符串的压缩数据。
6.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为数字型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的数字字节数;
根据所述数字字节数,确定与所述规律字符串的数字内容相对应的二进制数字,作为规律字符串的压缩数据。
7.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为有限枚举型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定所述规律字符串的有限枚举数据在结构化数据中的数字取值;
以所述有限枚举数据在该结构化数据的数字取值作为所述规律字符串的压缩数据。
8.根据权利要求1所述的方法,其特征在于,在遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果之后,所述方法还包括:
若检测到压缩数据检索指令,将所述检索指令的检索内容按照所述预设压缩方式转化为检索字符;
通过所述检索字符与压缩数据的对比结果,确定检索结果。
9.一种字符串的压缩处理装置,其特征在于,包括:
规律字符串拆分模块,用于将完整字符串拆分成至少一个规律字符串;
压缩方式确定模块,用于根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
压缩处理模块,用于采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
压缩结果输出模块,用于遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的字符串的压缩处理方法。
CN202010866288.6A 2020-08-25 2020-08-25 一种字符串的压缩处理方法、装置和存储介质 Pending CN112118010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010866288.6A CN112118010A (zh) 2020-08-25 2020-08-25 一种字符串的压缩处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010866288.6A CN112118010A (zh) 2020-08-25 2020-08-25 一种字符串的压缩处理方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112118010A true CN112118010A (zh) 2020-12-22

Family

ID=73804500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010866288.6A Pending CN112118010A (zh) 2020-08-25 2020-08-25 一种字符串的压缩处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112118010A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868206A (zh) * 2021-10-08 2021-12-31 八十一赞科技发展(重庆)有限公司 一种数据压缩方法、解压缩方法、装置及存储介质
CN114040028A (zh) * 2021-10-29 2022-02-11 深圳智慧林网络科技有限公司 一种基于三种模式的数据压缩方法和数据解压方法
CN114040027A (zh) * 2021-10-29 2022-02-11 深圳智慧林网络科技有限公司 一种基于双模式的数据压缩方法、装置和数据解压方法
CN115099193A (zh) * 2022-08-22 2022-09-23 北京永洪商智科技有限公司 一种分布式数据压缩存储方法及***
CN115630065A (zh) * 2022-10-18 2023-01-20 天津神舟通用数据技术有限公司 一种基于多压缩模式子分区表的存储和查询方法
CN117973317A (zh) * 2024-03-29 2024-05-03 恒生电子股份有限公司 字符串信息处理方法、装置、电子设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868206A (zh) * 2021-10-08 2021-12-31 八十一赞科技发展(重庆)有限公司 一种数据压缩方法、解压缩方法、装置及存储介质
CN114040028A (zh) * 2021-10-29 2022-02-11 深圳智慧林网络科技有限公司 一种基于三种模式的数据压缩方法和数据解压方法
CN114040027A (zh) * 2021-10-29 2022-02-11 深圳智慧林网络科技有限公司 一种基于双模式的数据压缩方法、装置和数据解压方法
CN114040028B (zh) * 2021-10-29 2023-11-24 深圳智慧林网络科技有限公司 一种基于三种模式的数据压缩方法和数据解压方法
CN114040027B (zh) * 2021-10-29 2023-11-24 深圳智慧林网络科技有限公司 一种基于双模式的数据压缩方法、装置和数据解压方法
CN115099193A (zh) * 2022-08-22 2022-09-23 北京永洪商智科技有限公司 一种分布式数据压缩存储方法及***
CN115630065A (zh) * 2022-10-18 2023-01-20 天津神舟通用数据技术有限公司 一种基于多压缩模式子分区表的存储和查询方法
CN115630065B (zh) * 2022-10-18 2023-08-22 天津神舟通用数据技术有限公司 一种基于多压缩模式子分区表的存储和查询方法
CN117973317A (zh) * 2024-03-29 2024-05-03 恒生电子股份有限公司 字符串信息处理方法、装置、电子设备及存储介质
CN117973317B (zh) * 2024-03-29 2024-06-07 恒生电子股份有限公司 字符串信息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112118010A (zh) 一种字符串的压缩处理方法、装置和存储介质
US9025892B1 (en) Data record compression with progressive and/or selective decomposition
US8301650B1 (en) Bloom filter compaction
US10671586B2 (en) Optimal sort key compression and index rebuilding
US10783163B2 (en) Instance-based distributed data recovery method and apparatus
CN111949710A (zh) 数据存储方法、装置、服务器及存储介质
JP7153420B2 (ja) データベース中にグラフ情報を記憶するためのb木使用
CN114925101A (zh) 数据处理方法、装置、存储介质及电子设备
CN110647423B (zh) 一种基于应用创建存储卷镜像的方法、设备及可读介质
CN107506394B (zh) 一种消除大数据规范关系连接冗余的优化方法
US20160357792A1 (en) Row, table, and index compression
CN112182021A (zh) 一种用户数据查询方法、装置和***
CN116301656A (zh) 基于日志结构合并树的数据存储方法、***及设备
CN111723007B (zh) 一种测试用例的合并方法、***、设备以及介质
CN114490521A (zh) 一种数据缓存方法、装置、电子设备及存储介质
US12032578B1 (en) Data compression, store, and search system
CN115129899B (zh) 文档标签信息生成方法、装置、设备、介质和程序产品
US11829398B2 (en) Three-dimensional probabilistic data structure
CN116821428B (zh) 基于数据中台的业务数据智能存储方法及***
CN114579573B (zh) 信息检索方法、装置、电子设备以及存储介质
US20240168929A1 (en) Optimizing storage of data in row-oriented data storages
CN116991885A (zh) 表格连接方法及相关产品
CN116541137A (zh) 事务处理方法、装置、计算机设备、存储介质和程序产品
CN118260330A (zh) 业务数据存储方法、装置、计算机设备以及存储介质
CN118193518A (zh) 数据存储方法、数据查询方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination