CN105718478A

CN105718478A - 数据存储的方法和装置

Info

Publication number: CN105718478A
Application number: CN201410729329.1A
Authority: CN
Inventors: 王�锋
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2016-06-29

Abstract

本申请公开了一种数据存储的方法和装置，属于通信技术领域。所述方法包括：Cassandra***的存储节点接收预存储的数据，识别所述预存储的数据的数据类型；所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储。所述装置包括：第一接收模块、识别模块和第一存储模块。本发明可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

Description

数据存储的方法和装置

技术领域

本申请涉及通信技术领域，具体涉及一种数据存储的方法和装置。

背景技术

Cassandra是一个混合型的非关系的数据库，以Amazon(亚马逊)专有的完全分布式的Dynamo为基础，结合了GoogleBigTable基于列族(ColumnFamily)的数据模型、采用去中心化的存储架构。Cassandra是依赖DHT(DistributedHashTable，分布式哈希表)技术实现的一种典型的无中心节点(每个节点都既作为接入节点，又作为数据节点而存在)的环形结构的分布式存储***。Cassandra数据存储空间可以抽象为一个环形结构，数据就是通过Hash分散在这个环形存储空间上。Cassandra的每个节点负责管理这个环形存储空间上的某一块连续的范围(也叫Range)，落在此Range空间上的数据就存储在这个节点上。

现有Cassandra中数据存储的方法是，当数据被发送到数据节点进行存储时，首先调用gzip(压缩程序)压缩算法对预存储的数据进行压缩，然后将压缩后的数据存储到磁盘文件中。

现有数据存储的方法，对每个预存储的数据都执行压缩，当数据类型是文本文件类型时具有较大的压缩比，但当数据类型是二进制文件类型时压缩比很小。当需要存储大量的二进制文件类型的数据时，会导致压缩率极低，甚至产生严重的压缩膨胀，使得在产生大量的CPU开销的同时，却并未节省大量的存储空间，浪费CPU和存储空间的资源。

发明内容

本申请所要解决的技术问题在于现有技术在产生大量的CPU开销的同时，却并未节省大量的存储空间，浪费CPU和存储空间的资源。为了解决该技术问题，本发明提供了一种数据存储的方法和装置，可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

为了解决上述问题，本申请公开了一种数据存储的方法，所述方法包括：

Cassandra***的存储节点接收预存储的数据，识别所述预存储的数据的数据类型；

所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储。

为了解决上述问题，本申请还公开了一种数据存储的方法，所述方法包括：

Cassandra***的存储节点接收预存储的数据，获取所述预存储的数据中携带的存储方式信息；

所述Cassandra***的存储节点根据所述存储方式信息选定压缩算法，根据选定的压缩算法对所述预存储的数据进行压缩后存储。

为了解决上述问题，本申请公开了一种数据存储的装置，所述装置包括：

第一接收模块，用于接收预存储的数据；

识别模块，用于识别所述预存储的数据的数据类型；

第一存储模块，用于根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储。

为了解决上述问题，本申请还公开了一种数据存储的装置，所述装置包括：

第二接收模块，用于接收预存储的数据；

获取模块，用于获取所述预存储的数据中携带的存储方式信息；

验证模块，用于根据所述存储方式信息选定压缩算法；

第三存储模块，用于根据选定的压缩算法对所述预存储的数据进行压缩后存储。

与现有技术相比，本申请可以获得包括以下技术效果：

可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。例如，当数据类型是文本文件类型时具有较大的压缩比，对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，不对预存储的数据进行压缩，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

当然，实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例一提供的一种数据存储的方法流程图；

图2是本申请实施例一提供的一种数据存储的过程示意图；

图3是本申请实施例二提供的一种数据存储的方法流程图；

图4是本申请实施例二提供的一种数据存储的过程示意图；

图5是本申请实施例三提供的第一种数据存储的装置结构示意图；

图6是本申请实施例三提供的第二种数据存储的装置结构示意图；

图7是本申请实施例三提供的第三种数据存储的装置结构示意图；

图8是本申请实施例三提供的第四种数据存储的装置结构示意图；

图9是本申请实施例四提供的第一种数据存储的装置结构示意图；

图10是本申请实施例四提供的第二种数据存储的装置结构示意图；

图11是本申请实施例四提供的第三种数据存储的装置结构示意图；

图12是本申请实施例四提供的第四种数据存储的装置结构示意图；

图13是本申请实施例四提供的第五种数据存储的装置结构示意图；

图14是本申请实施例四提供的第六种数据存储的装置结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

实施例一

参见图1，本申请实施例提供了一种数据存储的方法，该方法包括：

步骤S101：Cassandra***的存储节点接收预存储的数据。

示例性地，用户使用分布式存储平台后，需要将预存储的数据上传到自己专属的存储区域；具体地，对于Cassandra方式，当数据被发送到Cassandra的存储节点进行存储时，Cassandra***的存储节点，即存储服务器接收到预存储的数据。

步骤S102：Cassandra***的存储节点识别预存储的数据的数据类型。

如果预存储的数据中未携带数据类型信息，则需要分析所述预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出所述预存储的数据的数据类型。

如果预存储的数据中携带了数据类型信息，则获取所述预存储的数据中携带的数据类型信息，直接就可以识别所述预存储的数据的数据类型。

步骤S103：Cassandra***的存储节点根据预存储的数据的数据类型，判定对、预存储的数据进行压缩后存储，或判定对预存储的数据直接存储。

具体地，Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储，包括：

Cassandra***的存储节点根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法，对所述预存储的数据进行压缩后存储；其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

具体地，Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据直接存储，包括：

Cassandra***的存储节点根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法为空值，直接存储所述预存储的数据；其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

具体地，需要维护一数据压缩映射表。数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。根据数据压缩映射表判断对所述预存储的数据的数据类型是否进行压缩存储。

这种对应关系是事先设置好的。比如预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。对于任一数据类型，适用的压缩算法必然有很多，这些压缩算法也都计算出了权重，从中选取权重大于一门限且权重最高的压缩算法，从而建立数据类型和压缩算法对应关系。

需要说明的是，对于任一数据类型，如果支持的压缩算法的权重都未大于所述门限，说明这些压缩算法对于所述任一数据类型的压缩收益较低或者会造成压缩膨胀，因此对于所述任一数据类型，对应的压缩算法为空值(即没有对应的压缩算法)。另外，对于任一数据类型，权重大于一门限且权重最高可能并列的有多个压缩算法，对于这种就将这符合情况的多个压缩算法都列上；之后根据数据类型遍历时将对应的多个压缩算法全部给出，至于选用哪个可以提示给用户选择，也可以根据***自身具备的压缩引擎的情况选取，或者随机选取，本申请并不限于此。

根据预存储的数据的数据类型，在数据压缩映射表中找出了对应的压缩算法，进而做出决策选择合适的压缩算法后压缩存储(CompressedWrite)，如果在数据压缩映射表中未找出了对应的压缩算法(即返回空值)，则不对数据压缩，而直接存储(UncompressedWrite)。

例如，如果预存储的数据的数据类型为文本文件类型，则根据数据压缩映射表找到与文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma(Lempel-Ziv-Markovchain-Algorithm)算法和lzo(Lempel-Ziv)算法；根据上述压缩算法对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中；如果预存储的数据的数据类型为二进制文件类型时，则根据数据压缩映射表找到对应的压缩算法为空值，不对预存储的数据进行压缩，将预存储的数据直接存储到磁盘文件中。

因为，当数据类型是文本文件类型时具有较大的压缩比，如果预存储的数据的数据类型为文本文件类型，则确定对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，如果预存储的数据的数据类型为二进制文件类型，则确定不对预存储的数据进行压缩，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

具体地，参见图2，可以为本实施例的方法设置一个对应的API(ApplicationProgrammingInterface，应用程序编程接口)接口，将预存储的数据直接发送到该API接口，通过该API接口实现对预存储的数按照本实施例的方法进行存储。其中，该API接口也可以称为自适应存储(AdaptiveWrite)接口。具体过程如下：将预存储的数据通过API接口上传到***；API接口将预存储的数据发送到决策模块，通过决策模块识别预存储的数据的数据类型，并根据预存储的数据的数据类型，结合数据压缩映射表，判定将预存储的数据进行压缩后存储(根据数据压缩映射表还同时确定了具体采用哪种压缩算法进行压缩)，或确定将预存储的数据直接存储。调用预设的压缩算法对预存储的数据进行压缩后存储，或对预存储的数据进行直接存储。当读取数据时，如果预读取的数据是压缩后存储，则对压缩后的数据根据压缩时使用的压缩算法再进行解压缩，通过与压缩后存储的路径相反的路径，将预读取的数据发送到API接口；如果预读取的数据是直接存储，则通过与直接存储的路径相反的路径，将预读取的数据直接发送到API接口读取。

本实施例所述的数据存储的方法，可以根据预存储的数据的数据类型区分预存储的数据是否值得压缩，可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。例如，当数据类型是文本文件类型时具有较大的压缩比，对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

实施例二

参见图3，本申请实施例提供了一种数据存储的方法，该方法包括：

步骤S201：Cassandra***的存储节点接收预存储的数据。

步骤S202：Cassandra***的存储节点获取预存储的数据中携带的存储方式信息。

具体地，用户在提交预存储的数据时，提供明确的存储方式信息，并将存储方式信息携带在预存储的数据中。

步骤S203：Cassandra***的存储节点根据存储方式信息选定压缩算法。

这里可以直接将存储方式信息对应的存储方式直接作为选定的存储方式，并进行后续步骤的执行，所述存储方式信息，包括：指示具体压缩算法的信息(压缩存储)，或者指示压缩算法为空值的信息(直接存储)。

但是，更为优选的方案是，用户指定的存储方式信息可能存在错误，或者存在更优方案，因此可以对用户指定的存储方式信息进行验证。

Cassandra***的存储节点识别预存储的数据的数据类型，分析出与预存储的数据的数据类型对应的压缩算法；Cassandra***的存储节点识别所述存储方式信息中的压缩标识，查询到与所述压缩标识对应的压缩算；Cassandra***的存储节点将分析出的与预存储的数据的数据类型对应的压缩算法，与查询到的与所述压缩标识对应的压缩算法进行比较，根据比较结果选定压缩算法。如果比较结果显示二者一致，说明验证结果与用户指定的方式是一致的，则将所述存储方式信息对应的压缩算法作为所述选定的压缩算法；如果比较结果显示二者不一致，说明验证结果与用户指定的方式是不一致的，可能会有更优的方式(例如用户指示了一种压缩算法，但是发现还有其他压缩算法，应该判别下哪种压缩算法更适合)或者用户指定的方式有错误(例如用户指示直接存储不需要压缩，即压缩算法为空值，但是其实可以压缩并且有适合的压缩算法)，这时可以把验证到的方式和用户指定的方式都提示给用户，当然为了用户更好地选择还可以将分别使用二者压缩预存储的数据的压缩率和/或压缩开销也一并提示给用户选择，并根据接收到的用户的选定指令选中二者中的一个作为所述选定的压缩算法。

识别预存储的数据的数据类型的方式可以有两种：如果预存储的数据中未携带数据类型信息，则需要分析预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出预存储的数据的数据类型。如果预存储的数据中携带了数据类型信息，则获取预存储的数据中携带的数据类型信息，直接就可以识别预存储的数据的数据类型。

识别预存储的数据的数据类型分析出的对应的存储方式，可以依靠以下方式：

具体地，需要维护一数据压缩映射表。数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。识别预存储的数据的数据类型，结合数据压缩映射表可以分析出与预存储的数据的数据类型对应的支持的压缩算法。根据所分析出的与预存储的数据的数据类型对应的压缩算法，与查询到的所述压缩标识对应的压缩算法进行比较，根据比较结果选定压缩算法。

需要说明的是，对于任一数据类型，如果支持的压缩算法的权重都未大于所述门限，说明这些压缩算法对于所述任一数据类型的压缩收益较低或者会造成压缩膨胀，因此对于所述任一数据类型，对应的压缩算法为空值(即没有对应的压缩算法)。另外，对于任一数据类型，权重大于一门限且权重最高可能并列的有多个压缩算法，对于这种就将这符合情况的多个压缩算法都列上。

步骤S204：Cassandra***的存储节点根据选定的压缩算法对预存储的数据进行存储，其中，当选定的压缩算法为空值时，对预存储的数据直接存储。

具体地，参见图4，可以为本实施例的方法设置一个对应的API接口，将预存储的数据直接发送到该API接口，通过该API接口实现对预存储的数按照本实施例的方法进行存储。具体过程如下：将预存储的数据发送到API接口，API接口接收预存储的数据，其中，预存储的数据中携带存储方式信息；API接口根据存储方式信息选定压缩算法(如实施例二中所述，这里最终选择不一定是存储方式信息指定的压缩算法，***要自主验证后选定)，根据选定的压缩算法(compressionalgorithm)将预存储的数据进行压缩存储，或将预存储的数据直接存储。

当读取数据时，如果预读取的数据是压缩后存储，则对压缩后的数据通过所述选定的压缩算法进行解压缩，再通过与压缩后存储的路径相反的路径，将预读取的数据发送到API接口；如果预读取的数据是直接存储，则通过与直接存储的路径相反的路径，将预读取的数据直接发送到API接口进行读取。

本实施例所述的数据存储的方法，可以根据预存储的数据的数据类型，设置存储方式信息，区分预存储的数据是否值得压缩，可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。例如，当数据类型是文本文件类型时具有较大的压缩比，对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

实施例三

参见图5，本申请实施例提供了一种数据存储的装置，该装置包括：

第一接收模块301，用于接收预存储的数据；

识别模块302，用于识别预存储的数据的数据类型；

第一存储模块303，用于根据预存储的数据的数据类型，判定对预存储的数据进行压缩后存储。

具体来说，所述识别模块302，进一步用于分析预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出预存储的数据的数据类型；或者，用于获取预存储的数据中携带的数据类型信息，识别预存储的数据的数据类型。

参见图6，本申请实施例所提供的数据存储的装置，还包括：数据压缩映射表304。

数据压缩映射表304，保存有预先收集的数据类型及其支持的压缩算法的对应关系；

第一存储模块303，用于根据预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与预存储的数据的数据类型对应的压缩算法，对预存储的数据进行压缩后存储。

需要说明的是，所述数据压缩映射表304中，任一数据类型支持的压缩算法，为适用于所述任一数据类型的权重大于一门限且权重最高的压缩算法；其中，预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。当预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法；当预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法为空值。

参见图7，本申请实施例所提供的数据存储的装置，还包括：第二存储模块305，用于根据预存储的数据的数据类型，判定对预存储的数据直接存储。

进一步地，参见图8，还包括：数据压缩映射表304；

第二存储模块305，用于根据预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与预存储的数据的数据类型对应的压缩算法为空值，直接存储预存储的数据。

本实施例所述的数据存储的装置与实施例一的特征相互对应，不足之处请参见实施例一的描述。

本实施例所述的数据存储的装置，可以根据预存储的数据的数据类型区分预存储的数据是否值得压缩，可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。例如，当数据类型是文本文件类型时具有较大的压缩比，对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源

实施例四

参见图9，本申请实施例提供了一种数据存储的装置，该装置包括：

第二接收模块401，用于接收预存储的数据；

获取模块402，用于获取预存储的数据中携带的存储方式信息；

验证模块403，用于根据所述存储方式信息选定压缩算法；

第三存储模块404，用于根据选定的压缩算法对预存储的数据进行压缩后存储。

参见图10，本申请实施例所提供的数据存储的装置，还包括：识别模块405和查询模块406。

识别模块405，用于识别预存储的数据的数据类型，分析出与预存储的数据的数据类型对应的压缩算法；

查询模块406，用于识别所述存储方式信息中的压缩标识，查询到与所述压缩标识对应的压缩算法；

验证模块403，用于将分析出的与预存储的数据的数据类型对应的压缩算法，与查询到的所述压缩标识对应的压缩算法进行比较，根据比较结果选定压缩算法。

具体来说，识别模块405，用于分析预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出预存储的数据的数据类型；或者，获取模块402，用于获取预存储的数据中携带的数据类型信息；识别模块405，用于根据预存储的数据中携带的数据类型信息识别预存储的数据的数据类型。

验证模块403，在判定比较结果显示二者一致时，将所述存储方式信息对应的压缩算法作为所述选定的压缩算法；在判定比较结果显示二者不一致，将分别使用二者压缩预存储的数据的压缩率和/或压缩开销进行提示，并根据接收到的指令选中二者中的一个作为所述选定的压缩算法。

参见图11，本申请实施例所提供的数据存储的装置，还包括：数据压缩映射表407。

数据压缩映射表407，保存有预先收集的数据类型及其支持的压缩算法的对应关系；

验证模块403，用于根据识别出的预存储的数据的数据类型，在数据压缩映射表进行遍历，找到与预存储的数据的数据类型对应的压缩算法。

需要说明的是，所述数据压缩映射表407中，任一数据类型支持的压缩算法，为适用于所述任一数据类型的权重大于一门限且权重最高的压缩算法；其中，预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。当预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法；当预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法为空值。

参见图12，本申请实施例所提供的数据存储的装置，还包括：压缩标识算法映射表408；

压缩标识算法映射表408，保存有预先设置的压缩标识及压缩算法的对应关系；

查询模块406，用于根据识别出的所述压缩标识，查询所述压缩标识算法映射表，得到与所述压缩标识对应的压缩算法。

参见图13，本申请实施例所提供的数据存储的装置，还包括：：

第四存储模块409，用于当识别所述存储方式信息包括指示压缩算法为空值的信息时，对预存储的数据进行直接存储。

进一步地，参见图14，还包括：数据压缩映射表407；

验证模块403，用于根据识别出的预存储的数据的数据类型，在所述数据压缩映射表进行遍历，找到与预存储的数据的数据类型对应的压缩算法为空值，其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

本实施例所述的数据存储的装置与实施例二的特征相互对应，不足之处请参见实施例二的描述。

本实施例所述的数据存储的装置，可以根据预存储的数据的数据类型，设置存储方式信息，区分预存储的数据是否值得压缩，可以避免对一些数据类型进行存储时，导致压缩率极低，甚至产生严重的压缩膨胀，避免在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。例如，当数据类型是文本文件类型时具有较大的压缩比，对预存储的数据进行压缩，将压缩后的数据存储到磁盘文件中，可以节省大量的存储空间。当数据类型是二进制文件类型时压缩比很小，将预存储的数据直接存储到磁盘文件中，避免导致压缩率极低，甚至产生严重的压缩膨胀，不会在产生大量的CPU开销的同时，却并未节省大量的存储空间，避免浪费CPU和存储空间的资源。

a1、一种数据存储的方法，其特征在于，所述方法包括：

a2、如权利要求a1所述的方法，其特征在于，所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储，包括：

所述Cassandra***的存储节点根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法，对所述预存储的数据进行压缩后存储；

其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

a3、如权利要求a2所述的方法，其特征在于，当所述预存储的数据的数据类型为文本文件类型时，所述数据压缩映射表中与所述文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法。

a4、如权利要求a1所述的方法，其特征在于，所述方法还包括：所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据直接存储。

a5、如权利要求a4所述的方法，其特征在于，所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据直接存储，包括：

所述Cassandra***的存储节点根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法为空值，直接存储所述预存储的数据；

a6、如权利要求a5所述的方法，其特征在于，当所述预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法为空值。

a7、如权利要求a2-a3、a5-a6任一权利要求所述的方法，其特征在于，

所述数据压缩映射表中，任一数据类型支持的压缩算法，为适用于所述任一数据类型的权重大于一门限且权重最高的压缩算法；

其中，预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。

a8、如权利要求a1-a6任一权利要求所述的方法，其特征在于，识别所述预存储的数据的数据类型，进一步包括：

分析所述预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出所述预存储的数据的数据类型；或者，

获取所述预存储的数据中携带的数据类型信息，识别所述预存储的数据的数据类型。

b9、一种数据存储的方法，其特征在于，所述方法包括：

b10、如权利要求b9所述的方法，其特征在于，所述Cassandra***的存储节点根据所述存储方式信息选定压缩算法，进一步包括：

所述Cassandra***的存储节点识别所述预存储的数据的数据类型，分析出与所述预存储的数据的数据类型对应的压缩算法；

所述Cassandra***的存储节点识别所述存储方式信息中的压缩标识，查询到与所述压缩标识对应的压缩算法；

所述Cassandra***的存储节点将分析出的与所述预存储的数据的数据类型对应的压缩算法，与查询到的与所述压缩标识对应的压缩算法进行比较，根据比较结果选定压缩算法。

b11、如权利要求b10所述的方法，其特征在于，根据比较结果选定压缩算法，进一步包括：

如果比较结果显示二者一致，则将所述存储方式信息对应的压缩算法作为所述选定的压缩算法；

如果比较结果显示二者不一致，则将分别使用二者压缩所述预存储的数据的压缩率和/或压缩开销进行提示，并根据接收到的选定指令选中二者中的一个作为所述选定的压缩算法。

b12、如权利要求b10所述的方法，其特征在于，分析出与所述预存储的数据的数据类型对应的压缩算法，进一步包括：

根据识别出的所述预存储的数据的数据类型，在数据压缩映射表进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法，其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

b13、如权利要求b12所述的方法，其特征在于，

当所述预存储的数据的数据类型为文本文件类型时，所述数据压缩映射表中与所述文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法。

b14、如权利要求b10所述的方法，其特征在于，查询到与所述压缩标识对应的压缩算法，进一步包括：

根据识别出的所述压缩标识，查询预设的压缩标识算法映射表，得到与所述压缩标识对应的压缩算法；其中，预设的压缩标识算法映射表中保存有预先设置的压缩标识及压缩算法的对应关系。

b15、如权利要求b10-b11任一权利要求所述的方法，其特征在于，根据选定的压缩算法对所述预存储的数据进行压缩后存储包括：

当识别所述存储方式信息包括指示压缩算法为空值的信息时，对所述预存储的数据进行直接存储。

b16、如权利要求b15所述的方法，其特征在于，分析出与所述预存储的数据的数据类型对应的压缩算法，进一步包括：

根据识别出的所述预存储的数据的数据类型，在数据压缩映射表进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法为空值，其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

b17、如权利要求b16所述的方法，其特征在于，

当所述预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法为空值。

b18、如权利要求b12或b16所述的方法，其特征在于，

预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。

b19、如权利要求b10所述的方法，其特征在于，识别所述预存储的数据的数据类型，进一步包括：

c20、一种数据存储的装置，其特征在于，所述装置包括：

第一接收模块，用于接收预存储的数据；

识别模块，用于识别所述预存储的数据的数据类型；

c21、如权利要求c20所述的装置，其特征在于，还包括：数据压缩映射表；

所述数据压缩映射表，保存有预先收集的数据类型及其支持的压缩算法的对应关系；

所述第一存储模块，用于根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法，对所述预存储的数据进行压缩后存储。

c22、如权利要求c21所述的装置，其特征在于，当所述预存储的数据的数据类型为文本文件类型时，所述数据压缩映射表中与所述文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法。

c23、如权利要求c20所述的装置，其特征在于，所述装置还包括：第二存储模块，用于根据所述预存储的数据的数据类型，判定对所述预存储的数据直接存储。

c24、如权利要求c23所述的装置，其特征在于，还包括：数据压缩映射表；

所述第二存储模块，用于根据所述预存储的数据的数据类型，在数据压缩映射表中进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法为空值，直接存储所述预存储的数据。

c25、如权利要求c24所述的装置，其特征在于，当所述预存储的数据的数据类型为二进制文件类型时，所述数据压缩映射表中与所述二进制文件类型对应的压缩算法为空值。

c26、如权利要求c21-c22、c24-c25任一所述的装置，其特征在于，

所述数据压缩映射表中，任一数据类型支持的压缩算法，为适用于所述任一数据类型的权重大于一门限且权重最高的压缩算法；其中，预先模拟通过各压缩算法对所述任一数据类型进行压缩，根据各压缩算法的压缩率和压缩开销的加权对各压缩算法分别设置权重。

c27、如权利要求c20-c25任一权利要求所述的装置，其特征在于，

所述识别模块，用于分析所述预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出所述预存储的数据的数据类型；或者，用于获取所述预存储的数据中携带的数据类型信息，识别所述预存储的数据的数据类型。

d28、一种数据存储的装置，其特征在于，所述装置包括：

第二接收模块，用于接收预存储的数据；

验证模块，用于根据所述存储方式信息选定压缩算法；

d29、如权利要求d28所述的装置，其特征在于，还包括：识别模块和查询模块；

所述识别模块，用于识别所述预存储的数据的数据类型，分析出与所述预存储的数据的数据类型对应的压缩算法；

所述查询模块，用于识别所述存储方式信息中的压缩标识，查询到与所述压缩标识对应的压缩算法；

所述验证模块，用于将分析出的与所述预存储的数据的数据类型对应的压缩算法，与查询到的所述压缩标识对应的压缩算法进行比较，根据比较结果选定压缩算法。

d30、如权利要求d29所述的装置，其特征在于，

所述验证模块，用于在判定比较结果显示二者一致时，将所述存储方式信息对应的压缩算法作为所述选定的压缩算法；在判定比较结果显示二者不一致，将分别使用二者压缩所述预存储的数据的压缩率和/或压缩开销进行提示，并根据接收到的选定指令选中二者中的一个作为所述选定的压缩算法。

d31、如权利要求d29所述的装置，其特征在于，还包括：数据压缩映射表；

所述验证模块，用于根据识别出的所述预存储的数据的数据类型，在所述数据压缩映射表进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法。

d32、如权利要求d31所述的装置，其特征在于，

d33、如权利要求d29所述的装置，其特征在于，所述装置还包括：压缩标识算法映射表；

所述压缩标识算法映射表，保存有预先设置的压缩标识及压缩算法的对应关系；

所述查询模块，用于根据识别出的所述压缩标识，查询所述压缩标识算法映射表，得到与所述压缩标识对应的压缩算法。

d34、如权利要求d28-d29任一权利要求所述的装置，其特征在于，所述装置还包括：

第四存储模块，用于当识别所述存储方式信息包括指示压缩算法为空值的信息时，对所述预存储的数据进行直接存储。

d35、如权利要求d34所述的装置，其特征在于，还包括：数据压缩映射表；

所述验证模块，用于根据识别出的所述预存储的数据的数据类型，在所述数据压缩映射表进行遍历，找到与所述预存储的数据的数据类型对应的压缩算法为空值，其中，所述数据压缩映射表中保存有预先收集的数据类型及其支持的压缩算法的对应关系。

d36、如权利要求d35所述的装置，其特征在于，

d37、如权利要求d31或d35所述的装置，其特征在于，

d38、如权利要求d28所述的装置，其特征在于，

所述识别模块，进一步用于分析所述预存储的数据的头文件的编码格式和/或编解码信息，根据编码格式和/或编解码信息识别出所述预存储的数据的数据类型；或者，

所述获取模块，还用于获取所述预存储的数据中携带的数据类型信息；

所述识别模块，进一步用于根据所述预存储的数据中携带的数据类型信息识别所述预存储的数据的数据类型。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种数据存储的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述Cassandra***的存储节点根据所述预存储的数据的数据类型，判定对所述预存储的数据进行压缩后存储，包括：

3.如权利要求2所述的方法，其特征在于，当所述预存储的数据的数据类型为文本文件类型时，所述数据压缩映射表中与所述文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法。

4.一种数据存储的方法，其特征在于，所述方法包括：

5.如权利要求4所述的方法，其特征在于，所述Cassandra***的存储节点根据所述存储方式信息选定压缩算法，进一步包括：

6.一种数据存储的装置，其特征在于，所述装置包括：

第一接收模块，用于接收预存储的数据；

识别模块，用于识别所述预存储的数据的数据类型；

7.如权利要求6所述的装置，其特征在于，还包括：数据压缩映射表；

8.如权利要求7所述的装置，其特征在于，当所述预存储的数据的数据类型为文本文件类型时，所述数据压缩映射表中与所述文本文件类型对应的压缩算法至少包括下面的一种：gzip算法、lzma算法和lzo算法。

9.一种数据存储的装置，其特征在于，所述装置包括：

第二接收模块，用于接收预存储的数据；

验证模块，用于根据所述存储方式信息选定压缩算法；

10.如权利要求9所述的装置，其特征在于，还包括：识别模块和查询模块；