CN107707600B - 一种数据存储方法及装置 - Google Patents

一种数据存储方法及装置 Download PDF

Info

Publication number
CN107707600B
CN107707600B CN201710386030.4A CN201710386030A CN107707600B CN 107707600 B CN107707600 B CN 107707600B CN 201710386030 A CN201710386030 A CN 201710386030A CN 107707600 B CN107707600 B CN 107707600B
Authority
CN
China
Prior art keywords
file
grouping
file identification
storage
uploaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710386030.4A
Other languages
English (en)
Other versions
CN107707600A (zh
Inventor
张炎泼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Baishan cloud Polytron Technologies Inc
Original Assignee
Guizhou White Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou White Cloud Technology Co Ltd filed Critical Guizhou White Cloud Technology Co Ltd
Priority to CN201710386030.4A priority Critical patent/CN107707600B/zh
Publication of CN107707600A publication Critical patent/CN107707600A/zh
Priority to PCT/CN2018/087991 priority patent/WO2018214905A1/zh
Application granted granted Critical
Publication of CN107707600B publication Critical patent/CN107707600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储方法及装置,此方法包括:对文件存储区域进行分组,设置每个分组的存储容量;接收客户端发送的文件上传请求,文件上传请求包括待上传文件的文件标识和根据预设算法计算出的所述待上传文件的校验块;确定待上传文件的信息,包括所述待上传文件的文件标识、所述待上传文件的原始数据和所述校验块;确定目标分组,包括:确定各分组的文件标识范围,根据所述待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含所述待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;将所述待上传文件的信息存储至所述目标分组。本发明可以提高文件管理科学性,提高存储速度。

Description

一种数据存储方法及装置
技术领域
本发明涉及云存储领域,尤其涉及一种数据存储的方法及装置。
背景技术
现有的分布式数据存储***一般采用固定的数据副本(如2副本或3副本),其主要缺点是对于数据存储区域中存储的访问次数较少的冷数据,需要同样占用多副本存储空间,使得无法腾出较多的存储空间给数据存储节点中存储的访问次数较多的热点数据使用,造成存储空间的有效利用率较低。
为了节省冷数据占用的存储空间,现有技术中,利用纠删码(Erasure Coding)算法对文件内容进行编码,当文件内容损坏时,可以利用该编码将文件内容回复,这样减少了冷数据因存储副本占用的存储空间。
当用户下载文件时,需要在存储空间中逐个查找存储的文件,导致***资源被长时间占用,这样会对***正常的操作产生一定的影响和干扰。
发明内容
本发明旨在解决上面描述的问题。本发明的目的是提供解决以上问题的一种数据存储的方法及装置。
本发明提供的数据存储的方法,包括:
步骤1,对文件存储区域进行分组,设置每个分组的存储容量;
步骤2,接收客户端发送的文件上传请求,所述文件上传请求包括待上传文件的文件标识和根据预设算法计算出的所述待上传文件的校验块;确定所述待上传文件的信息,包括所述待上传文件的文件标识、所述待上传文件的原始数据和所述校验块;
步骤3,确定目标分组,包括:确定各分组的文件标识范围,根据所述待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含所述待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;
步骤4,将所述待上传文件的信息存储至所述目标分组。
上述方法还具有以下特点:
所述确定各分组的文件标识范围包括:确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围。
上述方法还具有以下特点:
所述步骤3还包括:在所述文件标识范围不是所述最大范围的分组中,如果各分组的所述文件标识范围均不涵盖所述待上传文件的文件标识,或者只有一个分组内的所述文件标识范围涵盖所述待上传文件的文件标识且该分组的剩余存储量小于所述待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量不小于所述待上传文件信息占用的存储量的分组作为所述目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于所述待上传文件信息占用的存储量,则将未存储文件信息的分组作为所述目标分组。
上述方法还具有以下特点:
所述步骤3还包括:如果所述分组中有多个分组中的文件标识范围均涵盖所述待上传文件的文件标识且不是所述最大范围,且所述多个分组中的每一个的剩余存储量均小于所述待上传文件信息占用的存储量,新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组。
上述方法还具有以下特点:
所述步骤4还包括:当将多个分组中的文件信息和所述待上传文件的文件信息一起存入多个目标分组时,将待存入所述多个目标分组的文件信息根据预设的文件标识的排序方式依次存入所述多个目标分组中,将所述多个分组中存储的文件信息删除;
当所述目标分组的总存储量小于待存入的文件信息总的占用的存储量时,按所述步骤3中确定目标分组的方法重新确定存储无法存入所述目标分组的文件信息的目标分组。
上述方法还具有以下特点:
所述方法还包括:按预设的时间周期定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用所述校验块将所述损坏的文件的原始数据恢复。
上述方法还具有以下特点:
所述按预设的时间周期定时检查文件存储区内是否存在损坏的文件包括:按预设的时间周期定时地根据所述文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的所述文件标识与存储的文件标识不一致,则判断此文件损坏。
上述方法还具有以下特点:
所述方法还包括:接收客户端发送的文件下载请求,所述文件下载请求包括待下载文件的文件标识,在所述文件标识范围涵盖所述待下载文件的文件标识的分组中查找与所述待下载文件的文件标识相同的文件标识,如果不存在与所述待下载文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待下载文件的文件标识相同的文件标识,将与所述待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
上述方法还具有以下特点:
所述方法还包括:接收客户端发送的文件删除请求,所述文件删除请求包括待删除文件的文件标识,在所述文件标识范围涵盖所述待删除文件的文件标识的分组中查找与所述待删除文件的文件标识相同的文件标识,如果不存在与所述待删除文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待删除文件的文件标识相同的文件标识,将与所述待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,所述文件属性包括所述文件标识,还包括但不限于以下信息中至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
上述方法还具有以下特点:
所述文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识。
本发明还提供了一种数据存储的装置,所述装置包括:
分组模块,用于对文件存储区域进行分组,设置每个分组的存储容量;
上传请求接收模块,用于接收客户端发送的文件上传请求,所述文件上传请求包括待上传文件的文件标识和根据预设算法计算出的所述待上传文件的校验块;
文件信息确定模块,用于确定所述待上传文件的信息,包括所述待上传文件的文件标识、所述待上传文件的原始数据和所述校验块;
目标分组确定模块,用于确定目标分组,包括:确定各分组的文件标识范围,根据所述待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含所述待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;
上传文件管理模块,用于将所述待上传文件的信息存储至所述目标分组。
上述装置还具有以下特点:
所述目标分组确定模块包括文件标识范围确定单元,用于确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围。
上述装置还具有以下特点:
所述目标分组确定模块,还用于在所述文件标识范围不是所述最大范围的分组中,各分组的所述文件标识范围均不涵盖所述待上传文件的文件标识,或者只有一个分组内的所述文件标识范围涵盖所述待上传文件的文件标识且该分组的剩余存储量小于所述待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量不小于所述待上传文件信息占用的存储量的分组作为所述目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于所述待上传文件信息占用的存储量,则将未存储文件信息的分组作为所述目标分组。
上述装置还具有以下特点:
所述目标分组确定模块,还用于在所述分组中有多个分组中的文件标识范围均涵盖所述待上传文件的文件标识且不是所述最大范围且所述多个分组中的每一个的剩余存储量均小于所述待上传文件信息占用的存储量时,新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组。
上述装置还具有以下特点:
所述上传文件管理模块,还用于当将多个分组中的文件信息和所述待上传文件的文件信息一起存入多个目标分组时,将待存入所述多个目标分组的文件信息根据预设的文件标识的排序方式依次存入所述多个目标分组中,将所述多个分组中存储的文件信息删除;
当所述目标分组的总存储量小于待存入的文件信息总的占用的存储量时,目标分组确定模块重新确定存储无法存入所述目标分组的文件信息的目标分组。
上述装置还具有以下特点:
所述装置还包括检查模块,用于按预设的时间周期定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用所述校验块将所述损坏的文件的原始数据恢复。
上述装置还具有以下特点:
所述检查模块包括计算单元,用于按预设的时间周期定时地根据所述文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的所述文件标识与存储的文件标识不一致,则判断此文件损坏。
上述装置还具有以下特点:
所述装置还包括下载管理模块,用于接收客户端发送的文件下载请求,所述文件下载请求包括待下载文件的文件标识,在所述文件标识范围涵盖所述待下载文件的文件标识的分组中查找与所述待下载文件的文件标识相同的文件标识,如果不存在与所述待下载文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待下载文件的文件标识相同的文件标识,将与所述待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
上述装置还具有以下特点:
所述装置还包括删除管理模块,用于接收客户端发送的文件删除请求,所述文件删除请求包括待删除文件的文件标识,在所述文件标识范围涵盖所述待删除文件的文件标识的分组中查找与所述待删除文件的文件标识相同的文件标识,如果不存在与所述待删除文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待删除文件的文件标识相同的文件标识,将与所述待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,所述文件属性包括所述文件标识,还包括但不限于以下信息中至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
上述装置还具有以下特点:
所述文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识。
本发明可以提高文件管理科学性,提高存储速度。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例一提供的数据存储方法的流程图;
图2是实施例二提供的数据存储装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
下面结合附图详细描述本发明的示例性实施例数据存储方法及装置。
实施例一
图1是示出根据本发明实施例一的数据存储方法的流程图。此方法典型的应用于用于存储的服务器,参照图1,所述方法包括:
步骤101,对文件存储区域进行分组,设置每个分组的存储容量;
步骤102,接收客户端发送的文件上传请求,文件上传请求包括待上传文件的文件标识和根据预设算法计算出的待上传文件的校验块;确定待上传文件的信息,包括待上传文件的文件标识、待上传文件的原始数据和校验块;
步骤103,确定目标分组,包括:确定各分组的文件标识范围,根据待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;
步骤104,将待上传文件的信息存储至目标分组。
上述数据存储方法中所述的文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识,例如,采用安全哈希算法(SHA1)对文件原始数据内容进行计算得到的SHA1值为文件的唯一标识。
上述步骤103中,确定各分组的文件标识范围包括:确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围。
例如,某分组中存储的文件标识中,最小的文件标识为aaa,最大的文件标识为bbb,则该分组的文件标识范围为aaa~bbb,将没有存储任何文件信息和只存储了一个文件标识的分组的文件标识范围标记为MAX。
上述步骤103还包括:在文件标识范围不是最大范围的分组中,如果各分组的文件标识范围均不涵盖待上传文件的文件标识,或者只有一个分组内的文件标识范围涵盖待上传文件的文件标识且该分组的剩余存储量小于待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于待上传文件信息占用的存储量,则将未存储文件信息的分组作为目标分组。
上述步骤103还包括:如果分组中有多个分组中的文件标识范围均涵盖待上传文件的文件标识且不是最大范围,且多个分组中的每一个的剩余存储量均小于待上传文件信息占用的存储量新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组。
上述步骤104还包括:当将多个分组中的文件信息和待上传文件的文件信息一起存入多个目标分组时,将待存入多个目标分组的文件信息根据预设的文件标识的排序方式依次存入多个目标分组中,将多个分组中存储的文件信息删除;
当多个目标分组的总存储量小于待存入的文件信息总的占用的存储量时,按步骤103中确定目标分组的方法重新确定存储无法存入多个目标分组的文件信息的目标分组。
例如,待上传文件的文件标识为abc123,该文件的文件信息占用的存储量为100MB,第一分组的文件标识范围为abc000~abc300,第二分组的文件标识范围为abc100~abc400,这两个分组的文件标识范围有重叠部分且均能够涵盖待上传文件的文件标识,并且这两个分组的剩余存储量均小于100MB,则在未存储任何文件信息的分组中确定两个分组作为存储第一分组和第二分组中的全部文件信息和待上传文件的文件信息的目标分组。
预设文件标识的排序方式为从小到大,将第一分组中的文件信息、第二分组中的文件信息和待上传文件的文件信息按文件标识从小到大的顺序依次存入两个目标分组中,此时,两个目标分组的文件标识范围没有了重叠部分,如果两个目标分组无法容纳所有的待存入的文件信息,则按上述步骤103重新确定存储剩余的未存入这两个目标分组的文件信息的目标分组。
当确定目标分组的时候,可以以轮循的方式查询各分组,也可以按预设的分组编号选择,分组的编号顺序代表向各分组存储文件时的优先级别,当多个分组均满足目标分组的条件时,向优先级别最高的分组中存储文件信息。
上述数据存储方法还包括:按预设的时间周期(此时间周期的值可以是***默认的固定值也可以是可人工设置的变量值)定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用校验块将损坏的文件的原始数据恢复。
上述按预设的时间周期定时检查文件存储区内是否存在损坏的文件包括:按预设的时间周期定时地根据文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的文件标识与存储的文件标识不一致,则判断此文件损坏。
例如,设置每个月第一天的零点检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,按预设的算法根据校验块将损坏的文件原始数据恢复。
上述数据存储方法还包括:接收客户端发送的文件下载请求,文件下载请求包括待下载文件的文件标识,在文件标识范围涵盖待下载文件的文件标识的分组中查找与待下载文件的文件标识相同的文件标识,如果不存在与待下载文件的文件标识相同的文件标识,则在其余的分组中查找与待下载文件的文件标识相同的文件标识,将与待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
上述数据存储方法还包括:接收客户端发送的文件删除请求,文件删除请求包括待删除文件的文件标识,在文件标识范围涵盖待删除文件的文件标识的分组中查找与待删除文件的文件标识相同的文件标识,如果不存在与待删除文件的文件标识相同的文件标识,则在其余的分组中查找与待删除文件的文件标识相同的文件标识,将与待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,文件属性包括文件标识,还包括但不限于以下信息的至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
实施例二
图2是示出根据本发明实施例二的数据存储装置的结构示意图。参照图2,所述装置包括:
分组模块201,用于对文件存储区域进行分组,设置每个分组的存储容量;
上传请求接收模块202,用于接收客户端发送的文件上传请求,文件上传请求包括待上传文件的文件标识和根据预设算法计算出的待上传文件的校验块;
文件信息确定模块203,用于确定待上传文件的信息,包括待上传文件的文件标识、待上传文件的原始数据和校验块;
目标分组确定模块204,用于确定目标分组,包括:确定各分组的文件标识范围,根据待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含待上传文件的文件标识的分组并且剩余存储量大于待上传文件信息占用的存储量的分组作为目标分组;
上传文件管理模块205,用于将待上传文件的信息存储至目标分组。
目标分组确定模块204包括文件标识范围确定单元2041,用于确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围。
目标分组确定模块204,还用于在文件标识范围不是最大范围的分组中,如果各分组的文件标识范围均不涵盖待上传文件的文件标识,或者只有一个分组内的文件标识范围涵盖待上传文件的文件标识且该分组的剩余存储量小于待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量大于待上传文件信息占用的存储量的分组作为目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于待上传文件信息占用的存储量,则将未存储文件信息的分组作为目标分组。
目标分组确定模块204,还用于在分组中有多个分组中的文件标识范围均涵盖待上传文件的文件标识且不是最大范围且多个分组中的每一个的剩余存储量均小于待上传文件信息占用的存储量时,新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组。
上传文件管理模块205,还用于当将多个分组中的文件信息和待上传文件的文件信息一起存入多个目标分组时,将待存入多个目标分组的文件信息根据预设的文件标识的排序方式依次存入多个目标分组中,将多个分组中存储的文件信息删除;
当目标分组的总存储量小于待存入的文件信息总的占用的存储量时,目标分组确定模块204重新确定存储无法存入目标分组的文件信息的目标分组。
上述装置还包括检查模块206,用于按预设的时间周期定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用校验块将损坏的文件的原始数据恢复。
检查模块206包括计算单元2061,用于按预设的时间周期定时地根据文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的文件标识与存储的文件标识不一致,则判断此文件损坏。
上述装置还包括下载管理模块207,用于接收客户端发送的文件下载请求,文件下载请求包括待下载文件的文件标识,在文件标识范围涵盖待下载文件的文件标识的分组中查找与待下载文件的文件标识相同的文件标识,如果不存在与待下载文件的文件标识相同的文件标识,则在其余的分组中查找与待下载文件的文件标识相同的文件标识,将与待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
上述装置还包括删除管理模块208,用于接收客户端发送的文件删除请求,文件删除请求包括待删除文件的文件标识,在文件标识范围涵盖待删除文件的文件标识的分组中查找与待删除文件的文件标识相同的文件标识,如果不存在与待删除文件的文件标识相同的文件标识,则在其余的分组中查找与待删除文件的文件标识相同的文件标识,将与待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,文件属性包括文件标识,还包括但不限于以下信息中至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
上述文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识。
本发明提供的数据存储方法及装置,以分组的方式管理文件存储空间,当需要从各分组中查找文件时,根据分组的文件标识范围确定目标文件的位置,而利用本发明提供的方法及装置,在将文件上传至存储空间之前,可以消除多个分组的文件标识范围的重叠部分,缩小了查找的范围,提高了查找的效率。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各装置/单元可以采用硬件的形式实现,也可以采用软件功能装置的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (16)

1.一种数据存储的方法,其特征在于,所述方法包括:
步骤1,对文件存储区域进行分组,设置每个分组的存储容量;
步骤2,接收客户端发送的文件上传请求,所述文件上传请求包括待上传文件的文件标识和根据预设算法计算出的所述待上传文件的校验块;确定所述待上传文件的信息,包括所述待上传文件的文件标识、所述待上传文件的原始数据和所述校验块;
步骤3,确定目标分组,包括:确定各分组的文件标识范围,根据所述待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含所述待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;所述确定各分组的文件标识范围包括:确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围;
所述步骤3还包括:如果所述分组中有多个分组中的文件标识范围均涵盖所述待上传文件的文件标识且不是所述最大范围,且所述多个分组中的每一个的剩余存储量均小于所述待上传文件信息占用的存储量,新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组;
步骤4,将所述待上传文件的信息存储至所述目标分组。
2.如权利要求1所述的方法,其特征在于,
所述步骤3还包括:在所述文件标识范围不是所述最大范围的分组中,如果各分组的所述文件标识范围均不涵盖所述待上传文件的文件标识,或者只有一个分组内的所述文件标识范围涵盖所述待上传文件的文件标识且该分组的剩余存储量小于所述待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量不小于所述待上传文件信息占用的存储量的分组作为所述目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于所述待上传文件信息占用的存储量,则将未存储文件信息的分组作为所述目标分组。
3.如权利要求1所述的方法,其特征在于,
所述步骤4还包括:当将多个分组中的文件信息和所述待上传文件的文件信息一起存入多个目标分组时,将待存入所述多个目标分组的文件信息根据预设的文件标识的排序方式依次存入所述多个目标分组中,将所述多个分组中存储的文件信息删除;
当所述目标分组的总存储量小于待存入的文件信息总的占用的存储量时,按所述步骤3中确定目标分组的方法重新确定存储无法存入所述目标分组的文件信息的目标分组。
4.如权利要求1所述的方法,其特征在于,
所述方法还包括:按预设的时间周期定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用所述校验块将所述损坏的文件的原始数据恢复。
5.如权利要求4所述的方法,其特征在于,
所述按预设的时间周期定时检查文件存储区内是否存在损坏的文件包括:按预设的时间周期定时地根据所述文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的所述文件标识与存储的文件标识不一致,则判断此文件损坏。
6.如权利要求1所述的方法,其特征在于,
所述方法还包括:接收客户端发送的文件下载请求,所述文件下载请求包括待下载文件的文件标识,在所述文件标识范围涵盖所述待下载文件的文件标识的分组中查找与所述待下载文件的文件标识相同的文件标识,如果不存在与所述待下载文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待下载文件的文件标识相同的文件标识,将与所述待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
7.如权利要求1所述的方法,其特征在于,
所述方法还包括:接收客户端发送的文件删除请求,所述文件删除请求包括待删除文件的文件标识,在所述文件标识范围涵盖所述待删除文件的文件标识的分组中查找与所述待删除文件的文件标识相同的文件标识,如果不存在与所述待删除文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待删除文件的文件标识相同的文件标识,将与所述待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,所述文件属性包括所述文件标识,还包括但不限于以下信息中至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
8.如权利要求1~7中任一项所述的方法,其特征在于,
所述文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识。
9.一种数据存储的装置,其特征在于,所述装置包括:
分组模块,用于对文件存储区域进行分组,设置每个分组的存储容量;
上传请求接收模块,用于接收客户端发送的文件上传请求,所述文件上传请求包括待上传文件的文件标识和根据预设算法计算出的所述待上传文件的校验块;
文件信息确定模块,用于确定所述待上传文件的信息,包括所述待上传文件的文件标识、所述待上传文件的原始数据和所述校验块;
目标分组确定模块,用于确定目标分组,包括:确定各分组的文件标识范围,根据所述待上传文件的文件标识和各分组的文件标识范围,将文件标识范围包含所述待上传文件的文件标识的分组并且剩余存储量不小于待上传文件信息占用的存储量的分组作为目标分组;
上传文件管理模块,用于将所述待上传文件的信息存储至所述目标分组;所述目标分组确定模块包括文件标识范围确定单元,用于确定各分组中包含的所有文件标识的涵盖范围,未存入任何信息的分组的文件标识范围和只存入一个文件标识的分组的文件标识范围为最大范围;
其中,所述目标分组确定模块,还用于在所述分组中有多个分组中的文件标识范围均涵盖所述待上传文件的文件标识且不是所述最大范围且所述多个分组中的每一个的剩余存储量均小于所述待上传文件信息占用的存储量时,新建与此多个分组的总数量相同的新的分组,将原多个分组中已存储的各文件和待上传文件按文件标识依次排序后确定待上传文件的位置所对应的分组,将此分组作为目标分组,并原多个分组中已存储的各文件存储到新的分组,删除原多个分组。
10.如权利要求9所述的装置,其特征在于,
所述目标分组确定模块,还用于在所述文件标识范围不是所述最大范围的分组中,各分组的所述文件标识范围均不涵盖所述待上传文件的文件标识,或者只有一个分组内的所述文件标识范围涵盖所述待上传文件的文件标识且该分组的剩余存储量小于所述待上传文件信息占用的存储量,则将已存储文件信息且剩余存储量不小于所述待上传文件信息占用的存储量的分组作为所述目标分组;
如果已存储文件信息的每个分组的剩余存储量均小于所述待上传文件信息占用的存储量,则将未存储文件信息的分组作为所述目标分组。
11.如权利要求9所述的装置,其特征在于,
所述上传文件管理模块,还用于当将多个分组中的文件信息和所述待上传文件的文件信息一起存入多个目标分组时,将待存入所述多个目标分组的文件信息根据预设的文件标识的排序方式依次存入所述多个目标分组中,将所述多个分组中存储的文件信息删除;
当所述目标分组的总存储量小于待存入的文件信息总的占用的存储量时,目标分组确定模块重新确定存储无法存入所述目标分组的文件信息的目标分组。
12.如权利要求9所述的装置,其特征在于,
所述装置还包括检查模块,用于按预设的时间周期定时检查文件存储区内是否存在损坏的文件,如果存在损坏的文件,则根据预设的算法,利用所述校验块将所述损坏的文件的原始数据恢复。
13.如权利要求12所述的装置,其特征在于,
所述检查模块包括计算单元,用于按预设的时间周期定时地根据所述文件存储区内所有的文件的原始数据计算对应的文件标识,如果计算得到的所述文件标识与存储的文件标识不一致,则判断此文件损坏。
14.如权利要求9所述的装置,其特征在于,
所述装置还包括下载管理模块,用于接收客户端发送的文件下载请求,所述文件下载请求包括待下载文件的文件标识,在所述文件标识范围涵盖所述待下载文件的文件标识的分组中查找与所述待下载文件的文件标识相同的文件标识,如果不存在与所述待下载文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待下载文件的文件标识相同的文件标识,将与所述待下载文件的文件标识相同的文件标识对应的文件的原始数据发送至客户端。
15.如权利要求9所述的装置,其特征在于,
所述装置还包括删除管理模块,用于接收客户端发送的文件删除请求,所述文件删除请求包括待删除文件的文件标识,在所述文件标识范围涵盖所述待删除文件的文件标识的分组中查找与所述待删除文件的文件标识相同的文件标识,如果不存在与所述待删除文件的文件标识相同的文件标识,则在其余的所述分组中查找与所述待删除文件的文件标识相同的文件标识,将与所述待删除文件的文件标识相同的文件标识对应的文件信息删除,记录删除的文件属性,所述文件属性包括所述文件标识,还包括但不限于以下信息中至少一种:文件名、文件删除时间、文件上传时间和文件存储地址。
16.如权利要求9~15中任一项所述的装置,其特征在于,
所述文件标识为利用预设的加密算法对文件原始数据进行计算得到的文件的唯一标识。
CN201710386030.4A 2017-05-26 2017-05-26 一种数据存储方法及装置 Active CN107707600B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710386030.4A CN107707600B (zh) 2017-05-26 2017-05-26 一种数据存储方法及装置
PCT/CN2018/087991 WO2018214905A1 (zh) 2017-05-26 2018-05-23 一种数据存储的方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710386030.4A CN107707600B (zh) 2017-05-26 2017-05-26 一种数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN107707600A CN107707600A (zh) 2018-02-16
CN107707600B true CN107707600B (zh) 2018-09-18

Family

ID=61169628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710386030.4A Active CN107707600B (zh) 2017-05-26 2017-05-26 一种数据存储方法及装置

Country Status (2)

Country Link
CN (1) CN107707600B (zh)
WO (1) WO2018214905A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707600B (zh) * 2017-05-26 2018-09-18 贵州白山云科技有限公司 一种数据存储方法及装置
CN108830102B (zh) * 2018-06-14 2021-07-02 平安科技(深圳)有限公司 文件安全管理方法、装置、计算机设备及存储介质
CN111106840A (zh) * 2018-10-25 2020-05-05 贵州白山云科技股份有限公司 一种纠删码解码加速的方法、***、介质及计算机设备
CN110262752B (zh) * 2019-05-16 2020-08-11 罗普特科技集团股份有限公司 一种用于存储流媒体数据的方法、装置、存储介质
CN112286540A (zh) * 2020-10-30 2021-01-29 青岛海信传媒网络技术有限公司 应用软件安装方法、终端及显示设备
CN112685753B (zh) * 2020-12-25 2023-11-28 上海焜耀网络科技有限公司 一种用于加密数据存储的方法及设备
CN112804312B (zh) * 2020-12-31 2023-06-30 上海掌门科技有限公司 文件上传方法、设备以及计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546836A (zh) * 2012-03-09 2012-07-04 腾讯科技(深圳)有限公司 一种上传文件的方法、终端、服务器及***
CN103077166A (zh) * 2011-10-25 2013-05-01 深圳市快播科技有限公司 小文件存储的空间复用方法和装置
CN103873504A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据分块存储至分布式服务器的***及方法
CN104679830A (zh) * 2015-01-30 2015-06-03 乐视网信息技术(北京)股份有限公司 一种文件处理方法和装置
CN106294352A (zh) * 2015-05-13 2017-01-04 姚猛 一种文件处理方法、装置和文件***
CN106649721A (zh) * 2016-12-22 2017-05-10 创新科存储技术有限公司 一种文件排重方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027692A1 (en) * 2003-07-29 2005-02-03 International Business Machines Corporation. Method, system, and program for accessing data in a database table
CN103797770B (zh) * 2012-12-31 2015-12-02 华为技术有限公司 一种共享存储资源的方法和***
CN106294421B (zh) * 2015-05-25 2020-02-04 阿里巴巴集团控股有限公司 一种数据写入、读取方法及装置
CN107707600B (zh) * 2017-05-26 2018-09-18 贵州白山云科技有限公司 一种数据存储方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077166A (zh) * 2011-10-25 2013-05-01 深圳市快播科技有限公司 小文件存储的空间复用方法和装置
CN102546836A (zh) * 2012-03-09 2012-07-04 腾讯科技(深圳)有限公司 一种上传文件的方法、终端、服务器及***
CN103873504A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据分块存储至分布式服务器的***及方法
CN104679830A (zh) * 2015-01-30 2015-06-03 乐视网信息技术(北京)股份有限公司 一种文件处理方法和装置
CN106294352A (zh) * 2015-05-13 2017-01-04 姚猛 一种文件处理方法、装置和文件***
CN106649721A (zh) * 2016-12-22 2017-05-10 创新科存储技术有限公司 一种文件排重方法和装置

Also Published As

Publication number Publication date
WO2018214905A1 (zh) 2018-11-29
CN107707600A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107707600B (zh) 一种数据存储方法及装置
KR102307957B1 (ko) 다중-스트림 저장 장치를 위한 스트림 선택
CN106096023B (zh) 数据读取方法、数据写入方法及数据服务器
CN101796492B (zh) 使用细分段的集群存储
CN105100146B (zh) 数据存储方法、装置及***
KR20190111124A (ko) Kvs 트리
US8271456B2 (en) Efficient backup data retrieval
US20160188227A1 (en) Method and apparatus for writing data into solid state disk
US20190026042A1 (en) Deduplication-Aware Load Balancing in Distributed Storage Systems
CN107506447A (zh) 一种基于本地文件***的小文件读写方法及***
KR20190117001A (ko) 유지관리 동작들을 위한 병합 트리 수정들
CN103514210B (zh) 小文件处理方法及装置
CN107045531A (zh) 一种优化hdfs小文件存取的***及方法
CN103581331B (zh) 虚拟机在线迁移方法与***
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN101539950A (zh) 数据存取方法和装置
US9355121B1 (en) Segregating data and metadata in a file system
CN110401724A (zh) 文件管理方法、文件传输协议服务器及存储介质
CN106294352A (zh) 一种文件处理方法、装置和文件***
CN103502957A (zh) 数据处理方法及装置
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
CN104750432B (zh) 一种数据存储方法及装置
CN104021223B (zh) 一种集群数据库测点的访问方法及装置
CN104956313A (zh) 用于基于数据分类将数据存储至固态存储设备的方法和装置
CN102253985B (zh) 一种文件***数据的管理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee after: Guizhou Baishan cloud Polytron Technologies Inc

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee before: Guizhou white cloud Technology Co., Ltd.