CN115858476B

CN115858476B - 用于web开发***中自定义表单获取数据的高效存储方法

Info

Publication number: CN115858476B
Application number: CN202211682595.4A
Authority: CN
Inventors: 文星; 陈侦
Original assignee: Guangdong Do1 Information Technology Co ltd; Guangdong South Electric Power Communication Co ltd
Current assignee: Guangdong Do1 Information Technology Co ltd; Guangdong South Electric Power Communication Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-12-12
Anticipated expiration: 2042-12-27
Also published as: CN115858476A

Abstract

本发明涉及数据压缩技术领域，具体涉及一种用于web开发***中自定义表单获取数据的高效存储方法，该方法包括：获取web开发***中的数据并进行编码得到待更新数据；获取待更新数据的整体波动区间，得到至少两个压缩周期；获取当前压缩周期内的不同类型数据，并获取每个长度的字符串的收益值，以得到对应类型数据的稳定长度；基于每个类型数据的稳定长度得到毗邻压缩周期中的待更新字符串，获取每个待更新字符串的奖励系数和惩罚系数，进而根据奖励系数和惩罚系数得到更新系数；基于更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据，保证了压缩效果的同时提高了压缩效率。

Description

用于web开发***中自定义表单获取数据的高效存储方法

技术领域

本发明涉及数据压缩技术领域，具体涉及一种用于web开发***中自定义表单获取数据的高效存储方法。

背景技术

在基于Web项目的开发中，常常利用自定义表单对数据进行采集，通俗来讲是一种可以由用户输入并提交给服务器端的一个图像界面数据采集的环节，其所收集的信息基本为英文与数字等文本形式的用户信息；而对于一个热门的网站来说，其表单需要收集不同来源的许多用户的信息数据，大量的信息数据在进行存储时十分的占用存储资源。

对web开发***中的自定义表单所收集到的用户信息在服务器端进行存储时，现有存储方式一般是对获取到的数据进行压缩然后再进行存储，以节省存储资源，常用的压缩算法有很多，例如LZW压缩算法，该算法是一种基于字典匹配的压缩算法，在对文本类型的数据进行压缩时的压缩率较大，能够提供较好的压缩效果；但是利用LZW算法进行压缩时，常常因为字典的冗余导致压缩的效率较低，现有为了提高压缩效率的解决方法是直接对字典进行清除，虽然节省了压缩时间，但是同样也会导致压缩效果变差。

发明内容

为了解决现有直接清除导致压缩效果差的问题，本发明的目的在于提供一种用于web开发***中自定义表单获取数据的高效存储方法，所采用的技术方案具体如下：

本发明一个实施例提供了一种用于web开发***中自定义表单获取数据的高效存储方法，该方法包括以下步骤：

获取web开发***中的数据并进行编码得到待更新数据；

获取待更新数据的整体波动区间，根据所述整体波动区间将待更新数据划分为至少两个压缩周期；

获取当前压缩周期内的不同类型数据，根据任意类型数据中每个长度的字符串的出现次数获取字符串对应的收益值，基于所述收益值得到对应类型数据的稳定长度；

将当前压缩周期的下一压缩周期记为毗邻压缩周期，并基于每个类型数据的稳定长度得到所述毗邻压缩周期中的待更新字符串，根据所述毗邻压缩周期中每个待更新字符串的长度以及出现次数获取对应待更新字符串的奖励系数和惩罚系数；

根据所述惩罚系数以及所述奖励系数得到对应待更新字符串的更新系数；

基于所述更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据，对所述压缩数据进行存储。

优选的，所述获取待更新数据的整体波动区间的步骤，包括：

获取待更新数据中所有数据的平均值；将待更新数据中大于所述平均值的数据记为第一数据，待更新数据中小于所述平均值的数据记为第二数据；

获取待更新数据中所有第一数据与所述平均值之间的差值绝对值的平均值并向上取整作为上基准参数；获取待更新数据中所有第二数据与所述平均值之间的差值绝对值的平均值并向上取整作为下基准参数；

根据所述上基准参数和所述下基准参数分别作为区间上限和区间下限得到整体波动区间；

若所述上基准参数与所述下基准参数相等，设定预设变量，将所述上基准参数与所述预设变量相加得到区间上限，将所述下基准系数与所述预设变量相减得到区间下限，以构建整体波动区间。

优选的，所述根据所述整体波动区间将待更新数据划分为至少两个压缩周期的步骤，包括：

选取待更新数据中预设数量的数据作为第一局部数据，获取所述第一局部数据的局部波动区间，判断所述局部波动区间与所述整体波动区间是否相同，若相同，第一局部数据构成第一压缩周期；若不相同，将待更新数据中所述第一局部数据后的数据补充入所述第一局部数据，直至数据补充后的第一局部数据的局部波动区间与整体波动区间相同得到第一压缩周期；

以待更新数据中第一压缩周期后的数据再次构建预设数量的数据的第二局部数据，根据局部波动区间与整体波动区间相同时的第二局部数据得到第二压缩周期，以此类推，将待压缩周期中的数据划分完毕得到至少两个压缩周期。

优选的，所述根据任意类型数据中每个长度的字符串的出现次数获取字符串对应的收益值的步骤，包括：

获取当前压缩周期之前的每个压缩周期，将当前压缩周期及其之前的每个压缩周期记为历史压缩周期；

所述收益值的计算为：

其中，表示当前压缩周期中第g个类型数据的长度为s_g的字符串的收益值；m′表示历史压缩周期的数量，m^′∈[2,M]；s_g表示字符串的长度；q_m表示第g个类型数据的长度为s_g的字符串在第m个历史压缩周期中的出现次数，m∈[1,m′]；M表示待更新数据中所有压缩周期的数量；I表示待更新数据中所有数据的数量；/>表示第m′个压缩周期中第g个类型数据的长度为s_g的字符串在所有历史压缩周期中出现次数的方差；exp表示以自然常数e为底的指数函数。

优选的，所述基于所述收益值得到对应类型数据的稳定长度的步骤，包括：

获取每个类型数据中收益值最大时的字符串的长度，以收益值最大时的字符串的长度作为对应类型数据的稳定长度。

优选的，所述基于每个类型数据的稳定长度得到所述毗邻压缩周期中的待更新字符串的步骤，包括：

获取所述毗邻压缩周期中不同的类型数据，选取每个类型数据中长度大于对应的稳定长度的字符串为待更新字符串。

优选的，所述奖励系数的计算方法为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的奖励系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q_s′,g表示第g个类型数据中长度为s^′ _g的待更新字符串在毗邻压缩周期中的出现次数；/>表示第g′个类型数据中长度为s′_g的待更新字符串在毗邻压缩周期中的出现次数，g′≠g；G表示毗邻压缩周期中所有类型数据的数量，g^′∈[1,G]，g∈[1,G]；/>表示毗邻压缩周期中第g个类型数据的长度为s″_g的字符串的出现次数，s″_g≠s′_g；S表示毗邻压缩周期中第g个类型数据的字符串的最大长度，s″_g∈[1,S]，s′_g∈[1,S]。

优选的，所述惩罚系数的计算方法为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的惩罚系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q′_s′,g表示第g个类型数据中长度为s^′ _g的待更新字符串在K′个区间中的出现次数；表示第g′个类型数据中长度为s^′ _g的待更新字符串在K′个区间中的出现次数，g′≠g；G表示毗邻压缩周期中所有类型数据的数量；K′表示毗邻压缩周期中数据以长度s′_g进行分割的分割次数，一个分割次数对应一个区间，/>J_m′+1表示毗邻压缩周期中所有数据的数量。

优选的，所述根据所述惩罚系数以及所述奖励系数得到对应待更新字符串的更新系数的步骤，包括：

所述更新系数的计算为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的更新系数；/>表示毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的奖励系数；表示毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的惩罚系数；J_m′+1表示毗邻压缩周期中所有数据的数量；s_g ^′表示待更新字符串的长度；/>表示在毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的出现次数。

优选的，所述基于所述更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据的步骤，包括：

对所述毗邻周期中所有待更新字符串的更新系数进行归一化，选取归一化后更新系数小于预设更新阈值的待更新字符串为更新字符串；

对所述毗邻压缩周期的下一压缩周期中对应的更新字符串进行更新，所述更新为清除更新字符串；

对于所述毗邻压缩周期的下一压缩周期之后的每个压缩周期：获取压缩周期中每个类型数据的稳定长度，基于所述稳定长度得到压缩周期的毗邻压缩周期中的待更新字符串，根据待更新字符串的更新系数得到更新字符串，对压缩周期的毗邻压缩周期的下一压缩周期中的更新字符串进行更新，直至将待更新数据中所有压缩周期的更新字符串更新完毕得到压缩数据。

本发明具有如下有益效果：

本发明实施例中首先对待更新数据的整体波动区间进行获取，根据整体波动区间对待更新数据进行压缩周期的划分，以每个压缩周期内的数据进行分析，以避免全部待更新数据一同分析的数据杂乱和不直观的问题；对每个压缩周期中不同类型数据的不同长度的字符串进行分析，通过每个字符串的长度和对应在压缩周期中的出现次数反映收益值，以收益值得到当前压缩周期内每个类型数据的稳定长度，划分不同类型数据进行分析，使得对待更新数据的分析更加细致，并且通过稳定长度反映对应类型数据的适宜长度，从而根据稳定长度选取毗邻压缩周期中的待更新字符串，进而根据毗邻压缩周期中每个待更新字符串的出现次数和长度获取对应的惩罚系数和奖励系数，结合当前压缩周期的毗邻周期进行分析，使得对每个待更新字符串被使用的情况分析的更加全面且实时性更好，从而使得得到的惩罚系数和奖励系数更加具有参考性；通过惩罚系数与奖励系数的结合得到更新系数判断更新字符串，避免了盲目更新字符串的问题，对更新字符串的选取更加合理且具有说服力，减少了待更新数据的压缩时间，提高了压缩效率的同时还保证了待更新数据的压缩效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种用于web开发***中自定义表单获取数据的高效存储方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于web开发***中自定义表单获取数据的高效存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于web开发***中自定义表单获取数据的高效存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于web开发***中自定义表单获取数据的高效存储方法流程图，该方法包括以下步骤：

步骤S100，获取web开发***中的数据并进行编码得到待更新数据。

Web开发***中自定义表单在获取数据之后需要对获取的文本数据进行存储，但是由于数据量较大，因此在存储时往往需要对数据进行压缩；常用的LZW压缩算法对获取到的数据进行压缩时，会因为字典的冗余导致压缩时间过长，效率较低；如果对字典进行整体清除会影响到压缩的压缩率，压缩效果不好；因此对web开发***中的数据进行动态更新，在确保压缩效果的同时减少压缩时间。

具体的，首先利用web开发***中的自定义表单对数据进行获取，具体是对web开发***中的自定义表单使用用户填写的数据进行缓存，缓存下的数据由于形式较为多样化，例如英文以及数据等不同的形式，不便于后续的压缩处理，因此对缓存下的数据进行编码，本发明实施例中采用ASCII编码方法对缓存下的数据进行十进制编码处理，得到形式统一的待更新数据；ASCII编码为现有技术，不再赘述。

步骤S200，获取待更新数据的整体波动区间，根据整体波动区间将待更新数据划分为至少两个压缩周期。

LZW压缩算法在对待更新数据进行压缩处理时，从压缩开始需要建立一个可扩充的字典，然后利用压缩过程中读取到的数据对字典进行丰富以及扩充，进而利用字典内的字符串对数据进行压缩，且字典的丰富、扩充以及压缩均是LZW算法中同时进行的，LZW算法为现有公知技术，不作详细说明；但是在对数据压缩的整体经验中，大多数重复的数据相对而言位置是比较接近的，因此对于前期字典中所录入的字符串在后期的压缩过程中大概率是使用不到的，但是在压缩过程中需要对整个字典进行遍历查找，从而会对压缩的时间造成一定的冗余，因此对待更新数据中的各个字符串进行分析更新，以减少压缩过程中的数据量，提高压缩的效率。

根据待更新数据中数据的重复情况对待更新数据的压缩周期进行获取，基于每个压缩周期进行分析，压缩周期的具体获取方法为：

在利用已经建立的LZW字典的待更新数据进行数据压缩时，处于较前的位置构建的压缩字典对于较为靠后的数据参考性不大，与某个数据重复的数据较大概率会出现在该数据的附近，因此初始构建的压缩字典对于靠后的数据中压缩量较少，压缩的收益较低且增加检索的成本；获取待更新数据中所有数据的平均值；将待更新数据中大于平均值的数据记为第一数据，待更新数据中小于平均值的数据记为第二数据；获取待更新数据中所有第一数据与平均值之间的差值绝对值的平均值并向上取整作为上基准参数；获取待更新数据中所有第二数据与平均值之间的差值绝对值的平均值并向上取整作为下基准参数；根据上基准参数和下基准参数分别作为区间上限和区间下限得到整体波动区间；若上基准参数与下基准参数相等，设定预设变量，将上基准参数与预设变量相加得到区间上限，将下基准系数与预设变量相减得到区间下限，以构建整体波动区间。

具体的，在实际对待更新数据进行分析时，首先对整体的待更新数据的整体波动区间进行量化，获取待更新数据中所有数据的平均值，根据平均值进行整体波动区间的获取；

整体波动区间的上基准参数的计算为：

其中，ε_U表示整体波动区间的上基准参数；表示待更新数据中所有数据的平均值；N_i′ ⁺表示待更新数据中大于平均值/>的第i^′个数据，i^′∈[1,I′]；I^′表示待更新数据中大于平均值/>的数据的数量；/>表示向上取整运算。

待更新数据中所有数据的平均值I表示待更新数据中所有数据的数量，也即是待更新数据中所有十进制数据的数量，N_i表示待更新数据中第i个数据，i∈[1,I]；将待更新数据中大于平均值/>的数据记为第一数据，/>表示每个第一数据与平均值之间的差值绝对值，/>表示所有第一数据与平均值之间的差值绝对值的平均值，取值越大，整体波动区间的上基准参数越大。

相应的，整体波动区间的下基准参数的计算为：

其中，ε_D表示整体波动区间的下基准参数；表示待更新数据中所有数据的平均值；N_i″ ^-表示待更新数据中小于平均值/>的第i″个数据，i″∈[1,I″]；I″表示待更新数据中小于平均值/>的数据的数量；/>表示向上取整运算。

将待更新数据中小于平均值的数据记为第二数据，/>表示第二数据与平均值之间的差值绝对值，/>表示所有第二数据与平均值之间的差值绝对值的平均值，取值越大，整体波动区间的下基准参数越大。

因为待更新数据在经过十进制编码处理后均为十进制数据，因此获取的待更新数据的平均值反映了待更新数据的整体聚集趋势，将待更新数据中大于平均值的第一数据进行整体波动区间的上基准参数计算，用于反映整体数据中大于平均值的数据的上行波动性；同理，将待更新数据中小于平均值的第二数据进行整体波动区间的下基准参数计算，用于反映整体数据中小于平均值的数据的下行波动性，由此可基于待更新数据获得的上基准参数与下基准参数得到整体波动区间为[ε_U,ε_D]或者[ε_D,ε_U]，具体的整体波动区间取决于上基准参数和下基准参数的取值大小，若上基准参数大于下基准参数，则整体波动区间为[ε_D,ε_U]；若此时计算出的上基准参数与下基准参数恰好相等，本发明实施例中设定预设变量为常数1，则分别将上基准参数的取值加1，下基准参数的取值减1，得到整体波动区间[ε_D-1,ε_U+1]；在其他实施例中实施者可自行设定预设变量的大小，但预设变量的取值应该不大于下基准参数，以避免整体波动区间的区间下限取值为负数。

需要说明的是，本实施例中不考虑待更新数据中存在异常数据的情况，异常数据一般是指数值过大或者过小的数据，其对整体待更新数据的平均值的取值存在偶然性，而本实施例中的待更新数据是通过ASCII编码处理后的数据，因此待更新数据中不存在异常数据的出现。

进一步的，基于待更新数据的整体波动区间对待更新数据进行压缩周期的自适应获取，首先选取待更新数据中预设数量的数据作为第一局部数据进行局部波动区间的计算，作为优选，本实施例中设置预设数量取经验值J′＝128，也即是根据待更新数据中前128个数据作为第一局部数据进行局部波动区间的计算，局部波动区间的获取方法与待更新数据的整体波动区间的获取方法一致；判断此时的局部波动区间与整体波动区间是否一致，若局部波动区间与整体波动区间不一致，则对第一局部数据进行数据补充，也即是在待更新数据的第128个数据之后在选取j个数据，j取正整数，由实施者自行设定；则对补充数据之后的第一局部数据J^′＝128+j继续进行局部波动区间的获取，若此时的第一局部数据的局部波动区间与整体波动区间仍然不一致，则继续对第一局部数据进行数据补充，利用再次补充数据之后的第一局部数据J^′＝128+2j进行局部波动区间的计算，直至第一局部数据中所有数据的局部波动区间与整体波动区间一致，此时的第一局部数据中所有的数据作为第一压缩周期的数据。

由于整体波动区间的获取是基于上基准参数和下基准参数得到，且上基准参数和下基准参数的计算中均包含向上取整运算，也即是整体波动区间存在一定的容错性，因此基于整体波动区间对待更新数据进行压缩周期的获取时，一定会出现较多数量的压缩周期。

假设此时获取的第一压缩周期中最后第一数据为待更新数据中的第J个数据，则以待更新数据中的第J+1个数据继续进行第二局部数据的划分，基于第二局部数据的局部波动区间得到待更新数据中的第二压缩周期，以此类推，直至将待更新数据中所有的数据划分完毕得到多个压缩周期，将压缩周期的数量记为M，每个压缩周期内的数据的数量记为J；由于每个压缩周期是根据待更新数据中的数据进行自适应获取，因此每个压缩周期内的数据的数量J取值会存在一定的差异；根据待更新数据的整体波动区间的范围进行压缩周期的自适应确定，能够使得同一个压缩周期内的相同数据最大化且波动性不超过待更新数据整体的波动性。

步骤S300，获取当前压缩周期内的不同类型数据，根据任意类型数据中每个长度的字符串的出现次数获取字符串对应的收益值，基于收益值得到对应类型数据的稳定长度。

在LZW算法的字典中，同一个类型数据中的不同长度的字符串在整个压缩过程中的缓存成本以及检索成本是不同的，则其对于数据压缩的收益也是不同的；本发明实施例中同一类型的重复数据是指具有相同重复数据且存在规律的数据，例如A、AB、ABC、ABCD为同一类型的数据，A、AC、ACF、ACFG、ACFGK也为同一类型的数据；同一类型数据在LZW的字典中是不断变长的，长度越长，在字典中缓存占比相应的也就越大，则进行字典压缩时匹配的干扰力就越强，但是对于重复数据压缩的效率较高。

考虑到在前一个压缩周期中建立的LZW压缩字典中的长字符串数据在后续压缩周期中被使用的几率很小，从而导致字典匹配成本与压缩收益不成正比，而对于同一类型的字符串较短的字典数据，在后续的压缩周期中被使用的几率也较低，但其对应的缓存成本以及查找成本较低，因此对每个压缩周期对应的LZW字典内每个类型数据进行分析，通过分析每个压缩周期内不同长度的字符串获取对应字符串的收益值，以便于后续对部分数据进行清除。

具体的，将当前压缩周期记为第m′个压缩周期，根据当前压缩周期之前的所有压缩周期对当前压缩周期内的字符串进行收益分析，将第一个压缩周期直到当前第m′个压缩周期记为历史压缩周期，获取当前压缩周期中每个类型数据中每个长度的字符串的出现次数，也即是在当前压缩周期内的出现次数，基于不同长度的字符串在历史压缩周期中的出现次数进行收益值的获取；以第m′个压缩周期中第g个类型数据的长度为s_g的字符串为例，其对应的收益值为：

其中，表示当前压缩周期中第g个类型数据的长度为s_g的字符串的收益值；m′表示历史压缩周期的数量，也即是第一个压缩周期至当前压缩周期的压缩周期数量，当前压缩周期也即是第m′个压缩周期，m^′∈[2,M]；s_g表示字符串的长度；q_m表示第g个类型数据的长度为s_g的字符串在第m个历史压缩周期中的出现次数，m∈[1,m′]；M表示待更新数据中所有压缩周期的数量；I表示待更新数据中所有数据的数量；/>表示第m′个压缩周期中第g个类型数据的长度为s_g的字符串在所有历史压缩周期中出现次数的方差，方差的获取为公知手段，不作详细说明；exp表示以自然常数e为底的指数函数。

表示第g个类型数据的长度为s_g的字符串在所有历史压缩周期中的出现次数与对应长度的乘积的平均值，将出现次数与对应长度的乘积记为压缩量，每个历史压缩周期中的出现次数越多，该项取值越大，说明该长度的字符串的压缩量在历史压缩周期中的占比的平均值越大，也即是该长度的字符串在已经压缩的历史压缩周期中的收益越高；/>用于表示待更新数据中每个压缩周期的平均数据，由于每个压缩周期内数据的数量不同，因此通过每个压缩周期的平均数据进行辅助判定，利用/>反映历史压缩周期中该长度的字符串的平均压缩量在所有压缩数据中的占比，取值越大，对应的收益值越大；第m′个压缩周期中第g个类型数据的长度为s_g的字符串在所有历史压缩周期中出现次数的方差/>表示波动程度，方差的取值越大，表明该长度的字符串在所有历史压缩周期中的出现次数越不规律，也即表明该长度的字符串在后续的压缩周期中的出现次数不规律，其对应的收益值越低，因此方差/>越大，指数函数的负相关映射/>的取值越小，其对应的收益值越低。

基于上述获取第m′个压缩周期中第g个类型数据的长度为s_g的字符串的收益值的相同方法，获取当前压缩周期内每个类型数据中每个长度的字符串对应的收益值，收益值越大，表明其在历史压缩周期中的出现次数越多，且出现次数的规律越均匀，则对于该类型数据中该长度的字符串越不应该进行更新，本发明实施例中对字符串数据更新也即是进行清除；由此可根据当前压缩周期内每个类型数据中所有长度的字符串的收益值进行稳定长度的获取，基于该类型数据中的稳定长度对是否需要更新的字符串进行选取。

每个类型数据的稳定长度获取为：选取当前压缩周期内第g个类型数据中收益值最大的字符串的长度，收益值最大的字符串的长度为第g个类型数据的稳定长度；以此类推，获取当前压缩周期中每个类型数据对应的稳定长度；根据每个类型数据对应的稳定长度对需要更新的字符串进行判定。

步骤S400，将当前压缩周期的下一压缩周期记为毗邻压缩周期，并基于每个类型数据的稳定长度得到毗邻压缩周期中的待更新字符串，根据毗邻压缩周期中每个待更新字符串的长度以及出现次数获取对应待更新字符串的奖励系数和惩罚系数。

由步骤S300中得到的当前压缩周期中每个类型数据的稳定长度进行待更新字符串的选取，将当前压缩周期的下一压缩周期记为毗邻压缩周期，选取毗邻压缩周期中每个类型数据的字符串长度大于其对应的稳定长度的字符串，也即是选取在毗邻压缩周期中第g个类型数据内，字符串长度大于第g个类型数据对应的稳定长度的字符串，将选取出的字符串记为待更新字符串；反之，对长度不大于对应稳定长度的字符串不进行更新，因为对不大于对应稳定长度的字符串进行更新时，后续字典需要录入新的字符串，会增大相应的计算量；由此可根据当前压缩周期中每个类型数据的稳定长度得到毗邻压缩周期中的待更新字符串。

对于每个待更新字符串，若其在某一个压缩周期中被多次使用，则对其给予一定的奖励，以避免该待更新字符串被过早的更新掉，因此通过毗邻压缩周期内每个待更新字符串的长度以及频次信息进行奖励系数的获取，以毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串为例，其对应的奖励系数为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的奖励系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q_s′,g表示第g个类型数据中长度为s′_g的待更新字符串在毗邻压缩周期中的出现次数；/>表示第g′个类型数据中长度为s′_g的待更新字符串在毗邻压缩周期中的出现次数，g′≠g；G表示毗邻压缩周期中所有类型数据的数量，g^′∈[1,G]，g∈[1,G]；/>表示毗邻压缩周期中第g个类型数据的长度为s″_g的字符串的出现次数，s″_g≠s′_g；S表示毗邻压缩周期中第g个类型数据的字符串的最大长度，s″_g∈[1,S]，s′_g∈[1,S]。

表示待更新字符串的长度与稳定长度之间的差值，差值越大，说明该待更新字符串的长度与对应的稳定长度之间的偏离越大，也即是待更新字符串的长度越长，待更新字符串的长度越长，对其进行缓存和查找的代价越大，则对其进行更新的期望也越大，则奖励的程度应该越小，因此/>的取值越小，对应的奖励系数越小；/>表示其他类型数据中长度为s′_g′的待更新字符串在毗邻压缩周期中的平均出现次数；/>表示第g个类型数据中其他长度的字符串的平均出现次数，以其他类型数据和其他长度的字符串的平均出现次数作为辅助判断，因此可将/>视为辅助判断系数；而当前分析的待更新字符串的出现次数越多，其越应该被奖励，因此/>的取值越大，对应的的值越大，则待更新字符串的奖励系数越大。

对于每个待更新字符串，若其在某一个压缩周期中被使用频次很少，则对其给予一定的惩罚，以使得该待更新字符串能够被较早的更新掉，因此对毗邻压缩周期内每个待更新字符串的惩罚系数进行获取，仍然以毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串为例，其对应的惩罚系数为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的惩罚系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q′_s′,g表示第g个类型数据中长度为s′_g的待更新字符串在K′个区间中的出现次数，其取值大于q_s′,g，因为长度为s′_g的待更新字符串可能横跨两个区间，则在两个区间内分别进行一次出现次数的统计；/>表示第g′个类型数据中长度为s′_g的待更新字符串在K′个区间中的出现次数；G表示毗邻压缩周期中所有类型数据的数量；K′表示毗邻压缩周期中数据以长度s′_g进行分割的分割次数，每个分割次数对应一个得到一个区间，分割次数的计算J_m′+1表示毗邻压缩周期中所有数据的数量，也即是第m^′+1个压缩周期中数据的数量。

表示待更新字符串的长度与稳定长度之间的差值，差值越大，说明该待更新字符串的长度与对应的稳定长度之间的偏离越大，也即是待更新字符串的长度越长，待更新字符串的长度越长，对其进行缓存和查找的代价越大，则对应的惩罚系数越大，也即是的取值越大，/>越大，惩罚系数越大；/>实际为/> 是利用第g个类型的长度为s^′ _g的待更新字符串在K′个区间中的出现次数与K′个区间进行比值，用于反映长度为s^′ _g的待更新字符串的密度，该密度越大，说明待更新字符串的出现次数越多，则其对应的惩罚系数越小；/>表示其他非第g个类型的第g′个类型的长度为s^′ _g的待更新字符串在K′个区间中出现的次数与K′个区间进行比值获得长度为s^′ _g的待更新字符串被使用的平均密度；以两个密度的比值/>反映第g个类型数据中长度为s^′ _g的待更新字符串的惩罚系数，比值越大，说明在相同长度s^′ _g下的待更新字符串在毗邻压缩周期中越不稳定，出现次数越小，对应的惩罚系数越大。

基于获取毗邻压缩周期中第g个类型数据中长度为s^′ _g的待更新字符串的惩罚系数和奖励系数相同的方法，获取毗邻压缩周期中每个待更新字符串的惩罚系数和奖励系数。

步骤S500，根据惩罚系数以及奖励系数得到对应待更新字符串的更新系数。

由步骤S400中得到的毗邻压缩周期中每个类型数据中不同长度的待更新字符串的奖励系数以及惩罚数据对每个待更新字符串是否进行更新进行确定，基于每个待更新字符串的奖励系数以及惩罚系数获取对应的更新系数，以毗邻压缩周期中第g个类型数据的长度为s′_g的待更新字符串为例，其对应的更新系数为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的更新系数；/>表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的奖励系数；表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的惩罚系数；J_m′+1表示毗邻压缩周期中所有数据的数量，也即是第m′+1个压缩周期中数据的数量；s′_g表示待更新字符串的长度；/>表示在毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的出现次数，也即是第m′+1个压缩周期中第g个类型数据的长度为s′_g的待更新字符串的出现次数。

该待更新字符串对应的奖励系数的取值越大，将该待更新字符串进行越晚更新，而待更新字符串对应的惩罚系数/>的取值越大，该待更新字符串越早进行更新；表示在毗邻压缩周期中待更新字符串的频次信息，取值越大表明待更新字符串在毗邻压缩周期中的出现次数越大，则越应该较晚更新；/>中奖励系数的取值越大且惩罚系数的取值越小时，对应的更新系数越大，且惩罚系数和奖励系数均被归一化为0-1的取值，因此更新系数/>是一个相对值，是长度为s′_g的待更新字符串在毗邻压缩周期中的相对压缩量，也即是在第m′+1个压缩周期中的相对压缩量，更新系数越大，表明对该待更新字符串进行更新的更新时间越应该延长，反之，更新系数越小，表明该待更新字符串进行更新的更新时间越应该缩短，越需要尽早更新。

步骤S600，基于更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据，对压缩数据进行存储。

由步骤S500中得到毗邻压缩周期中每个待更新字符串的更新系数，获取毗邻压缩周期中所有待更新字符串的更新系数之后，基于待更新字符串的更新系数进行更新字符串的确定，将毗邻压缩周期中所有待更新字符串的更新系数进行归一化，选取归一化后更新系数小于预设的更新阈值的待更新字符串为更新字符串；由于惩罚系数和奖励系数是基于同一类型数据中同一长度的待更新字符串进行获取的，因此更新字符串对应的即为对应类型数据中对应长度的字符串。

作为优选，本发明实施例中设定预设的更新阈值为0.55，即毗邻压缩周期中归一化后的更新系数小于0.55的待更新字符串为更新字符串，则对于获取出的所有的更新字符串，在第m^′+2个压缩周期中进行更新，也即是在第m^′+2个压缩周期中被清除。

至此，通过第m^′个压缩周期获取每个类型数据的稳定长度得到第m^′+1个压缩周期中的待更新字符串，并获取第m^′+1个压缩周期中每个待更新字符串的更新系数，进而根据更新系数对第m^′+2个压缩周期中的更新字符串进行更新；基于同样的方法，对第m^′+3个压缩周期中每个类型数据的稳定长度进行获取，然后基于第m^′+3个压缩周期中每个类型数据的稳定长度得到第m^′+4个压缩周期中的待更新字符串，进而对第m^′+5个压缩周期中的更新字符串进行更新，由于不同压缩周期中的数据不同，则对不同压缩周期分析的结果不同，对待更新数据中所有的压缩周期依次进行更新字符串的获取，然后基于每次获取的不同的更新字符串对相对应的压缩周期中的数据进行更新，直至将待更新数据中所有的压缩周期中的数据进行更新。以此方法可以对第m个周期LZW字典中的字符串进行更新来获得Web开发***中的自定义表单获取到的数据的高效压缩，其中m≥3且m∈[1,M]，特殊的对于m<3的情况，其对应的LZW字典是一个建立的过程，对应的字符串的数据量是很少的，对于缓存成本以及查找成本的影响较小，可以不进行更新。

通过对待更新数据中所有的压缩周期内的数据进行更新，实现web开发***中的自定义表单获取到的数据的高效压缩，基于高效压缩后的web开发***中的自定义表单获取数据对应的压缩数据进行存储。

综上所述，本发明实施例中通过获取web开发***中的数据并进行编码得到待更新数据；获取待更新数据的整体波动区间，根据整体波动区间将待更新数据划分为至少两个压缩周期；获取当前压缩周期内的不同类型数据，根据任意类型数据中每个长度的字符串的出现次数获取字符串对应的收益值，基于收益值得到对应类型数据的稳定长度；将当前压缩周期的下一压缩周期记为毗邻压缩周期，并基于每个类型数据的稳定长度得到毗邻压缩周期中的待更新字符串，根据毗邻压缩周期中每个待更新字符串的长度以及出现次数获取对应待更新字符串的奖励系数和惩罚系数；根据惩罚系数以及奖励系数得到对应待更新字符串的更新系数；基于更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据；在保证压缩效果的同时减少了压缩的时间，提高了压缩效率；并且本发明实施例中对LZW字典中字符串的更新是一个实时的过程，并非是一次性删除，相较于直接对字符串的清除而言，压缩效果较好。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，该方法包括以下步骤：

获取web开发***中的数据并进行编码得到待更新数据；

2.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述获取待更新数据的整体波动区间的步骤，包括：

若所述上基准参数与所述下基准参数相等，设定预设变量，将所述上基准参数与所述预设变量相加得到区间上限，将所述下基准参数与所述预设变量相减得到区间下限，以构建整体波动区间。

3.根据权利要求2所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述根据所述整体波动区间将待更新数据划分为至少两个压缩周期的步骤，包括：

4.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述根据任意类型数据中每个长度的字符串的出现次数获取字符串对应的收益值的步骤，包括：

所述收益值的计算为：

5.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述基于所述收益值得到对应类型数据的稳定长度的步骤，包括：

6.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述基于每个类型数据的稳定长度得到所述毗邻压缩周期中的待更新字符串的步骤，包括：

7.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述奖励系数的计算方法为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的奖励系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q_s′g表示第g个类型数据中长度为s′_g的待更新字符串在毗邻压缩周期中的出现次数；表示第g′个类型数据中长度为s′_g的待更新字符串在毗邻压缩周期中的出现次数，g′≠g；G表示毗邻压缩周期中所有类型数据的数量，g′∈[1,G]，g∈[1,G]；/>表示毗邻压缩周期中第g个类型数据的长度为s″_g的字符串的出现次数，s″_g≠s′_g；S表示毗邻压缩周期中第g个类型数据的字符串的最大长度，s″_g∈[1,S]，s′_g∈[1,S]。

8.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述惩罚系数的计算方法为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的惩罚系数；s′_g表示待更新字符串的长度，且/> 为当前压缩周期中第g个类型数据的稳定长度；q′_s′g表示第g个类型数据中长度为s′_g的待更新字符串在K′个区间中的出现次数；表示第g′个类型数据中长度为s′_g的待更新字符串在K′个区间中的出现次数，g′≠g；G表示毗邻压缩周期中所有类型数据的数量；K′表示毗邻压缩周期中数据以长度s′_g进行分割的分割次数，一个分割次数对应一个区间，/>J_m′+1表示毗邻压缩周期中所有数据的数量。

9.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述根据所述惩罚系数以及所述奖励系数得到对应待更新字符串的更新系数的步骤，包括：

所述更新系数的计算为：

其中，表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的更新系数；/>表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的奖励系数；/>表示毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的惩罚系数；J_m′+1表示毗邻压缩周期中所有数据的数量；s′_g表示待更新字符串的长度；/>表示在毗邻压缩周期中第g个类型数据中长度为s′_g的待更新字符串的出现次数。

10.根据权利要求1所述的一种用于web开发***中自定义表单获取数据的高效存储方法，其特征在于，所述基于所述更新系数获取更新字符串，对所有压缩周期中的更新字符串进行更新得到待更新数据对应的压缩数据的步骤，包括：

对所述毗邻压缩周期中所有待更新字符串的更新系数进行归一化，选取归一化后更新系数小于预设更新阈值的待更新字符串为更新字符串；