CN110442489A

CN110442489A - 数据处理的方法和存储介质

Info

Publication number: CN110442489A
Application number: CN201810410873.8A
Authority: CN
Inventors: 朱成生; 俞飞江
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2019-11-12
Anticipated expiration: 2038-05-02
Also published as: CN110442489B

Abstract

本申请公开了一种数据处理的方法和存储介质。其中，该方法包括：从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储。本发明解决了由于采用普通压缩技术，导致的压缩后的数据对存储空间的需求仍旧很大的技术问题。

Description

数据处理的方法和存储介质

技术领域

本申请涉及互联网技术应用领域，具体而言，涉及一种数据处理的方法和存储介质。

背景技术

在互联网行业的延伸过程中，越来越多的行业与互联网相联系，随之而来的是大量数据的产生，尤其是企业级别的，日常业务的产生、执行、存档均会带来大量的数据，而用于调用数据的数据库以及用于存储数据的存储空间在生成日志的时候，均采用SQL语句作为调用指令或管理日志，但是SQL语句占用的字节多，需要占用的存储空间大的问题，也越来越困扰企业数据的运维人员。

现有的解决方案中，同过冷数据存储的方式，即，以普通的压缩技术对待存储数据进行压缩，以使得减小待存储数据对存储空间的需求，以便后续存储过程中存储压缩后的数据。但是该现有技术的问题在于，对于待存数据的大量产生，即使数据被压缩，压缩后的数据对存储空间的需求仍旧很大，这就给有限的实际存储空间造成很大的存储压力。

针对上述由于采用普通压缩技术，导致的压缩后的数据对存储空间的需求仍旧很大的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理的方法和存储介质，以至少解决由于采用普通压缩技术，导致的压缩后的数据对存储空间的需求仍旧很大的技术问题。

根据本申请实施例的一个方面，提供了一种数据处理的方法，包括：从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储。

可选的，高热度文本块为热度大于预设指标热度的文本块，其中，预设指标热度为同组指标的平均引用次数。

可选的，从待压缩的数据文件中获取高热度文本块包括：对待压缩的数据文件进行数据分析，并通过预设算法计算待压缩的数据文件中预设热度排名的文本块；将预设热度排名的文本块确定为高热度文本块。

进一步地，可选的，通过预设算法计算待压缩的数据文件中预设热度排名的文本块包括：在待压缩的数据文件为日志数据表的情况下，从日志数据表中根据预设分词条件进行分词，得到分词后的日志；对分词后的日志进行向量化，将日志转成高维度向量空间；通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合；根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志；通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块；根据字典库格式化编码，还原待压缩的数据文件，得到高热度文本块。

可选的，通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合包括：在预设聚类算法为K均值聚类算法的情况下，通过K均值聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合。

可选的，根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志包括：对日志相似类集合中的各分词进行词频统计，得到字典库；根据字典库与日志相似类集合进行映射，得到数字日志，其中，数字日志用于卷积求和，卷积求和用于确定相似文本块的跨度。

可选的，通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块包括：依据预设跨度，计算不同跨度卷积求和；依据不同跨度和预设跨度对应卷积和在数字日志中出现次数乘积，得到预设排名的高压缩率跨度；依据预设排名的高压缩率跨度计算不同跨度的卷积块，并根据预设排名的高压缩率跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块。

可选的，将高热度文本块替换待压缩的数据文件进行存储包括：依据预设模型对高热度文本块进行编码，得到编码后的高热度文本块；将编码后的高热度文本块替换待压缩的数据文件进行存储。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行：从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储。

根据本申请实施例的又一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行：从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储。

根据本申请实施例的再一方面，还提供了一种数据处理的方法，包括：获取目标数据对象，其中，目标数据对象存储在目标数据地址；从目标数据对象中，获取热度大于预设阈值的文本块,其中，预设阈值包括引用次数或引用频率；将文本块存储在目标数据地址。

在本申请实施例中，通过从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储，达到了根据每份不同的日志中高热度文本块进行编码压缩的目的，从而实现了减少存储空间的技术效果，进而解决了由于采用普通压缩技术，导致的压缩后的数据对存储空间的需求仍旧很大的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种数据处理的方法的计算机终端的硬件结构框图；

图2是根据本申请实施例一的数据处理的方法的流程图；

图3是根据本申请实施例一的一种数据处理的方法的流程图；

图4是根据本申请实施例一的数据处理的方法中计算高热度文本块的流程图；

图5是根据本申请实施例二的数据处理的方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请涉及的技术名词：

数据压缩：是指在不丢失有用信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率，或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间的一种技术方法。

分词：对文本进行拆分成单个或多个词。

快速卷积：根据各个起始点和跨度，计算卷积和。

聚合方法：常见的聚合方法有计数、去重计数、求和、最大值、最小值等。

实施例1

根据本申请实施例，还提供了一种数据处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本申请实施例的一种数据处理的方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据处理的方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据处理的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的数据处理的方法。图2是根据本申请实施例一的数据处理的方法的流程图。

步骤S202，从待压缩的数据文件中获取高热度文本块；

本申请上述步骤S202，本申请提供的数据处理的方法从待压缩的数据文件中选出存储量大的日志数据表，并对日志数据表的格式进行数据分析，然后通过计算法模型，计算出待压缩的数据文件中预设排名的文本块，其中该预设排名的文本块可以为待压缩的数据文件中TOP N的文本块，N为整数，例如，1,2,3,4,5,6,7,8,9,10，……，N。而本申请提供的高热度文本块，即，待压缩的数据文件中TOP N的文本块。

其中，在获取高热度文本块的过程中，可以通过数据分析探查，查找日志内容的部分规律，通过构造的算法模型，找出高热度文本块。

这里在计算文本块热度的过程中，可以通过文本块的引用次数得到，其中，本申请将指标热度定义为同组指标的平均引用次数：假设一个样本文件中有n行日志文本串，文本块i_m的引用次数为r_m，则样本中文本块的热度都为

本申请提供的数据处理的方法区别于现有技术中基于普通压缩技术后的存储，克服了无法对每份不同的日志中高热度文本块进行编码压缩，步骤S202就是在对待压缩的数据文件获取高热度文本块，进而有目的的进行压缩存储，存储步骤见步骤S204。

步骤S204，将高热度文本块替换待压缩的数据文件进行存储。

本申请上述步骤S204，基于步骤S202得到的高热度文本块，通过数据模型计算高热度文本块，进而重新编码，并将重新编码后的高热度文本块替换步骤S202中的待压缩的数据文件进行存储。

具体的，如图3所示，图3是根据本申请实施例一的一种数据处理的方法的流程图。结合步骤S202至步骤S204，本申请提供的数据处理的方法可以适用于数据库日志，这类日志里面的SQL语句占用了大量的字节，但SQL语句相似度非常高，有大量热度很高的文本块，这部分文本块可以通过重编码减少数据的存储空间，因此本申请提供的数据处理的方法就是基于对高热度文本块通过重编码的方式进行压缩存储，从而达到减少对存储空间的需求的技术效果。

参照图4可知，图4是根据本申请实施例一的数据处理的方法中计算高热度文本块的流程图。计算高热度文本块具体如下：

可选的，步骤S202中从待压缩的数据文件中获取高热度文本块包括：

步骤S2021，对待压缩的数据文件进行数据分析，并通过预设算法计算待压缩的数据文件中预设热度排名的文本块；

步骤S2022，将预设热度排名的文本块确定为高热度文本块。

具体的，结合步骤S2021和步骤S2022，本申请提供的数据处理的方法中根据业务数据，在待压缩的数据文件中选出存储量大的日志数据表，并对日志数据表的格式进行数据分析，然后通过预设计算模型，计算出日志文件中TOP的文本块，进而得到本申请提供的高热度文本块。

进一步地，可选的，步骤S2021中通过预设算法计算待压缩的数据文件中预设热度排名的文本块包括：

步骤S20211，在待压缩的数据文件为日志数据表的情况下，从日志数据表中根据预设分词条件进行分词，得到分词后的日志；

本申请上述步骤S20211中，本申请从日志数据表中根据预设分词条件进行分词的过程中，分词方法可以包括如下两种：

以TXXX_CHN和INTERNET_CHN为例进行说明，将一个句子转成以空格分割的单词，两种分词方式比较类似，其中，前者嵌入了淘系相关的分词词汇，同时也可以按照定义的分词标准，这样更加灵活。

步骤S20212，对分词后的日志进行向量化，将日志转成高维度向量空间；

本申请上述步骤S20212中，基于步骤S20211中得到的分词后的日志，通过向量化，将日志转成高维度向量空间。

其中，词向量化主要有两种：

CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量；

Skip-Gram模型和CBOW的思路是逆向的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。

本申请在词向量的基础上应用DOC2VEC(句子向量)模型，该模型也存在两种方法：分配内存Distributed Memory(简称，DM)和分配词袋Distributed Bag of Words(简称，DBOW)。DM试图在给定上下文和段落向量的情况下预测单词的概率。在一个句子或者文档的训练过程中，段落ID保持不变，共享着同一个段落向量。DBOW则在仅给定段落向量的情况下预测段落中一组随机单词的概率。

例如：输入“这是一个句子”，分词后：“这是”，“一个”，“句子”；

执行句子向量化方式：比如DM、100维输出

doc_id ver1 ver2 … ver100

1 0.1 0.2 … 0.5

步骤S20213，通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合；

其中，通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合包括：

步骤S202131，在预设聚类算法为K均值聚类算法的情况下，通过K均值聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合。

基于步骤S20212中得到的高维度向量空间，通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合。其中，在现有的聚类算法中，包括如下三种：

K-Means：一维的分群，用‘距离’概念计算；

Kohonen：利用类神经自我组织的模型做二维度分群；

2-Step：可自动找出最适合的分群数；

尽管2-Step训练快速，但在本申请中K-Means的优势在于可以指定聚类的数量，不同的日志量需要聚类量也是不同的，排除自动成N个聚类的不可控性，更灵活，所以本申请以K-Means算法作为优选示例进行说明，以实现本申请提供的数据处理的方法为准，具体不做限定。

步骤S20214，根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志；

其中，根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志包括：

步骤S202141，对日志相似类集合中的各分词进行词频统计，得到字典库；

步骤S202142，根据字典库与日志相似类集合进行映射，得到数字日志，其中，数字日志用于卷积求和，卷积求和用于确定相似文本块的跨度。

本申请上述步骤S20214中，针对相似类进行词频统计形成字典库，并映射成可以卷积求和的数字日志；

其中，卷积求和的作用在于快速确定相似文本块的跨度；

例如：

W_conv1＝tf.ones([j,1,1,1])

conv＝tf.nn.conv2d(x_image,W_conv1,strides＝[1,1,1,1],padding＝'VALID')

只用tenseorflow函数支持并发GPU计算，更高效。

步骤S20215，通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块；

其中，通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块包括：

步骤S202151，依据预设跨度，计算不同跨度卷积求和；

步骤S202152，依据不同跨度和预设跨度对应卷积和在数字日志中出现次数乘积，得到预设排名的高压缩率跨度；

步骤S202153，依据预设排名的高压缩率跨度计算不同跨度的卷积块，并根据预设排名的高压缩率跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块。

需要说明的是，卷积求和相同文本块并不一定相同，有可能是顺序调换，卷积求和相同，但其实不是同一个文本块，所以这里只能求得相似的跨度，后续还是需要根据跨度取截取日志块进行完全匹配。

具体的，以按照跨度为2-n为例，快速计算不同跨度卷积求和，按照不同跨度及该跨度对应卷积和在日志文件出现次数乘积，选择TOPN高压缩率跨度；按照确定的TOPN高压缩率跨度，重新计算不同跨度的卷积块，并根据TOPN高压缩率跨度与在日志文件中出现次数的乘积，确定TOPN的高压缩率卷积块。

步骤S20216，根据字典库格式化编码，还原待压缩的数据文件，得到高热度文本块。

可选的，步骤S204中将高热度文本块替换待压缩的数据文件进行存储包括：

步骤S2041，依据预设模型对高热度文本块进行编码，得到编码后的高热度文本块；将编码后的高热度文本块替换待压缩的数据文件进行存储。

其中，预设模型包括：句子向量化、聚类、深度学习卷积等多算法模型。

综上，如图4所示，本申请提供的数据处理的方法中，计算高热度文本块的优选示例具体如下：

(1),抽取日志并分词(图4中的步骤1)；

进行日志文件标准化(替代TAB、换行符为空格)及按空格进行分词；

(2),将日志分词后的日志进行向量化(图4中的步骤2)；

通过向量化，将日志转成高维向量空间；

(3),聚类(图4中的步骤3-4)；

日志转成高维向量空间后，通过普通K均值聚类，相似的日志会聚集在一起；

(4),针对相似类进行格式化(图4中的步骤5-8)；

针对相似类进行词频统计形成字典库，并映射成可以卷积求和的数字日志；

(5),快速卷积和跨度选择(图4中的步骤9-12)；

按照跨度为2-n，快速计算不同跨度卷积求和；

按照不同跨度及该跨度对应卷积和在日志文件出现次数乘积，选择TOPN高压缩率跨度；

(6),卷积切词及压缩率评估(图4中的步骤13-15)；

按照前面确定的跨度，重新计算不同跨度的卷积块，并根据跨度与在日志文件中出现次数的乘积，确定TOPN的高压缩率卷积块；

(7),格式化编码(图4中的步骤16)；

根据字典库格式化编码，还原实际日志文本块内容,得到热度文本块。

本申请提供的数据处理的方法通过将日志类大数据进行分词处理，找到高热度文本块，并对高热度文本块进行编码压缩，以编码压缩后的高热度文本块替代原待存储数据文件，达到减少了对存储空间的需求，提升了存储空间的利用率，以及降低了后期维护时的维护压力。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

本申请提供了如图5所示的数据处理的方法。图5是根据本申请实施例二的数据处理的方法的流程图。

步骤S502，获取目标数据对象，其中，目标数据对象存储在目标数据地址；

本申请上述步骤S502中，本申请提供的数据处理的方法在目标数据地址上获取存储的目标数据对象，该目标数据对象可以包括待压缩的数据文件，该数据文件可以包括：数据库中存储的调用数据的函数文件、对数据处理的运行程序文件或对数据进行加解密的加解密程序文件，本申请提供的数据处理的方法仅以上述示例为例进行说明，具体不做限定。

步骤S504，从目标数据对象中，获取热度大于预设阈值的文本块,其中，预设阈值包括引用次数或引用频率；

本申请上述步骤S504中，基于步骤S502中得到的目标数据对象，本申请提供的数据处理的方法从目标数据对象中选出存储量大的日志数据表，并对日志数据表的格式进行数据分析，然后通过计算法模型，计算出目标数据对象中预设排名的文本块，其中该预设排名的文本块可以为目标数据对象中TOP N的文本块，N为整数，例如，1,2,3,4,5,6,7,8,9,10，……，N。而本申请提供的文本块，即，目标数据对象中TOP N的文本块，即，可以是TOP3的文本块为热度大于预设阈值的文本块。

其中，在获取热度大于预设阈值的文本块的过程中，可以通过数据分析探查，查找日志内容的部分规律，通过构造的算法模型，找出热度大于预设阈值的文本块。

步骤S506，将文本块存储在目标数据地址。

本申请提供的数据处理的方法区别于现有技术中基于普通压缩技术后的存储，克服了无法对每份不同的日志中高热度文本块进行编码压缩的问题，在对目标数据对象获取热度大于预设阈值的文本块，进而有目的的进行压缩存储，进而通过存储热度大于预设阈值的文本块替换原有目标数据对象，节约存储空间。

在本申请实施例中，通过获取目标数据对象，其中，目标数据对象存储在目标数据地址；从目标数据对象中，获取热度大于预设阈值的文本块,其中，预设阈值包括引用次数或引用频率；将文本块存储在目标数据地址，达到了根据每份不同的日志中高热度文本块进行编码压缩的目的，从而实现了减少存储空间的技术效果，进而解决了由于采用普通压缩技术，导致的压缩后的数据对存储空间的需求仍旧很大的技术问题。

实施例3

实施例4

实施例5

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理的方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从待压缩的数据文件中获取高热度文本块；将高热度文本块替换待压缩的数据文件进行存储。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：高热度文本块为热度大于预设指标热度的文本块，其中，预设指标热度为同组指标的平均引用次数。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从待压缩的数据文件中获取高热度文本块包括：对待压缩的数据文件进行数据分析，并通过预设算法计算待压缩的数据文件中预设热度排名的文本块；将预设热度排名的文本块确定为高热度文本块。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设算法计算待压缩的数据文件中预设热度排名的文本块包括：在待压缩的数据文件为日志数据表的情况下，从日志数据表中根据预设分词条件进行分词，得到分词后的日志；对分词后的日志进行向量化，将日志转成高维度向量空间；通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合；根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志；通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块；根据字典库格式化编码，还原待压缩的数据文件，得到高热度文本块。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合包括：在预设聚类算法为K均值聚类算法的情况下，通过K均值聚类算法，对至少一个高维度向量空间进行聚类，得到日志相似类集合。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据日志相似类集合生成字典库，并根据字典库与日志相似类集合生成数字日志包括：对日志相似类集合中的各分词进行词频统计，得到字典库；根据字典库与日志相似类集合进行映射，得到数字日志，其中，数字日志用于卷积求和，卷积求和用于确定相似文本块的跨度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设跨度计算不同跨度的卷积块，并根据预设跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块包括：依据预设跨度，计算不同跨度卷积求和；依据不同跨度和预设跨度对应卷积和在数字日志中出现次数乘积，得到预设排名的高压缩率跨度；依据预设排名的高压缩率跨度计算不同跨度的卷积块，并根据预设排名的高压缩率跨度与在数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将高热度文本块替换待压缩的数据文件进行存储包括：依据预设模型对高热度文本块进行编码，得到编码后的高热度文本块；将编码后的高热度文本块替换待压缩的数据文件进行存储。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理的方法，其特征在于，包括：

从待压缩的数据文件中获取高热度文本块；

将所述高热度文本块替换所述待压缩的数据文件进行存储。

2.根据权利要求1所述的数据处理的方法，其特征在于，所述高热度文本块为热度大于预设指标热度的文本块，其中，预设指标热度为同组指标的平均引用次数。

3.根据权利要求1所述的数据处理的方法，其特征在于，所述从待压缩的数据文件中获取高热度文本块包括：

对所述待压缩的数据文件进行数据分析，并通过预设算法计算所述待压缩的数据文件中预设热度排名的文本块；

将所述预设热度排名的文本块确定为所述高热度文本块。

4.根据权利要求3所述的数据处理的方法，其特征在于，所述通过预设算法计算所述待压缩的数据文件中预设热度排名的文本块包括：

在所述待压缩的数据文件为日志数据表的情况下，从所述日志数据表中根据预设分词条件进行分词，得到分词后的日志；

对所述分词后的日志进行向量化，将日志转成高维度向量空间；

通过预设聚类算法，对至少一个所述高维度向量空间进行聚类，得到日志相似类集合；

根据所述日志相似类集合生成字典库，并根据所述字典库与所述日志相似类集合生成数字日志；

通过预设跨度计算不同跨度的卷积块，并根据所述预设跨度与在所述数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块；

根据所述字典库格式化编码，还原所述待压缩的数据文件，得到所述高热度文本块。

5.根据权利要求4所述的数据处理的方法，其特征在于，所述通过预设聚类算法，对至少一个所述高维度向量空间进行聚类，得到日志相似类集合包括：

在所述预设聚类算法为K均值聚类算法的情况下，通过所述K均值聚类算法，对至少一个所述高维度向量空间进行聚类，得到日志相似类集合。

6.根据权利要求4所述的数据处理的方法，其特征在于，所述根据所述日志相似类集合生成字典库，并根据所述字典库与所述日志相似类集合生成数字日志包括：

对所述日志相似类集合中的各分词进行词频统计，得到所述字典库；

根据所述字典库与所述日志相似类集合进行映射，得到所述数字日志，其中，所述数字日志用于卷积求和，所述卷积求和用于确定相似文本块的跨度。

7.根据权利要求4或6所述的数据处理的方法，其特征在于，通过预设跨度计算不同跨度的卷积块，并根据所述预设跨度与在所述数字日志中出现次数的乘积，确定预设排名的高压缩率卷积块包括：

依据预设跨度，计算不同跨度卷积求和；

依据所述不同跨度和所述预设跨度对应卷积和在所述数字日志中出现次数乘积，得到预设排名的高压缩率跨度；

依据所述预设排名的高压缩率跨度计算不同跨度的卷积块，并根据所述预设排名的高压缩率跨度与在所述数字日志中出现次数的乘积，确定所述预设排名的高压缩率卷积块。

8.根据权利要求1所述的数据处理的方法，其特征在于，所述将所述高热度文本块替换所述待压缩的数据文件进行存储包括：

依据预设模型对所述高热度文本块进行编码，得到编码后的高热度文本块；

将所述编码后的高热度文本块替换所述待压缩的数据文件进行存储。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行：从待压缩的数据文件中获取高热度文本块；将所述高热度文本块替换所述待压缩的数据文件进行存储。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行：从待压缩的数据文件中获取高热度文本块；将所述高热度文本块替换所述待压缩的数据文件进行存储。

11.一种数据处理的方法，其特征在于，包括：

获取目标数据对象，其中，所述目标数据对象存储在目标数据地址；

从所述目标数据对象中，获取热度大于预设阈值的文本块，其中，所述预设阈值包括引用次数或引用频率；

将所述文本块存储在所述目标数据地址。