CN114840488B - 一种基于超融合结构的分布式存储方法、***及存储介质 - Google Patents

一种基于超融合结构的分布式存储方法、***及存储介质 Download PDF

Info

Publication number
CN114840488B
CN114840488B CN202210778538.XA CN202210778538A CN114840488B CN 114840488 B CN114840488 B CN 114840488B CN 202210778538 A CN202210778538 A CN 202210778538A CN 114840488 B CN114840488 B CN 114840488B
Authority
CN
China
Prior art keywords
file
resource pool
uniform resource
statistical information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210778538.XA
Other languages
English (en)
Other versions
CN114840488A (zh
Inventor
刘江
龚立义
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baike Data Technology Shenzhen Co ltd
Original Assignee
Baike Data Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baike Data Technology Shenzhen Co ltd filed Critical Baike Data Technology Shenzhen Co ltd
Priority to CN202210778538.XA priority Critical patent/CN114840488B/zh
Publication of CN114840488A publication Critical patent/CN114840488A/zh
Application granted granted Critical
Publication of CN114840488B publication Critical patent/CN114840488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于超融合结构的分布式存储方法、***及存储介质,方法包括:获取待存储数据,并根据待存储数据生成日志统计信息;根据日志统计信息,确定预设的统一资源池中是否存在与日志统计信息相同或相似的文件,并在确认统一资源池中不存在相同或者相似的文件时,对待存储数据进行整合与标记,得到整合标记文件;通过商用服务器对整合标记文件进行拆分,得到拆分文件,并获取拆分文件的类型信息,从统一资源池中选择与类型信息所匹配的目标存储磁盘,将拆分文件存储至目标存储磁盘中。本发明可自动实现对数据的分布式存储,实现资源自动分配,实现高效通信。

Description

一种基于超融合结构的分布式存储方法、***及存储介质
技术领域
本发明涉及数据存储技术领域,尤其涉及一种基于超融合结构的分布式存储方法、***及存储介质。
背景技术
存储***是计算机的重要组成部分之一。存储***提供写入和读出计算机工作需要的信息(程序和数据)的能力,实现计算机的信息记忆功能。现代计算机***中常采用寄存器、高速缓存、主存、外存的多级存储体系结构;计算机存储***的核心是存储器,存储器是计算机中必不可少、用来存储程序和数据的记忆设备;内部存储器(简称内存)主要存储计算机当前工作需要的程序和数据,包括高速缓冲存储器(Cache,简称缓存)和主存储器。目前构成内存的主要是半导体存储器。外部存储器(简称外存)主要有磁性存储器、光存储器和半导体存储器三种实现方式,存储介质有硬磁盘、光盘、磁带和移动存储器等。
但是,在现有技术中,对于数据的存储的效率比较低,且当数据发生变化或者需要更新时,可能需要将所有数据进行重新分布。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于超融合结构的分布式存储方法,旨在解决现有技术中对于数据的存储的效率比较低,且当数据发生变化或者需要更新时,可能需要将所有数据进行重新分布的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
第一方面,本发明提供一种基于超融合结构的分布式存储方法,其特征在于,所述方法包括:
获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息;
根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件;
通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。
在一种实现方式中,所述根据所述待存储数据生成日志统计信息,包括:
获取所述待存储数据中的文件名称、关键词、文件大小以及文件类型;
根据所述文件名称、关键词、文件大小以及文件类型生成所述日志统计信息。
在一种实现方式中,所述根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,包括:
依次根据所述文件名称、关键词、文件大小以及文件类型,在所述统一资源池中进行搜索,确定所述统一资源中分别与所述文件名称、关键词、文件大小以及文件类型所匹配的候选文件;
若所述候选文件中存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中存在与所述日志统计信息相同的文件;
若所述候选文件中不存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中不存在与所述日志统计信息相同的文件。
在一种实现方式中,所述根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,包括:
依次将所述文件名称、关键词、文件大小以及文件类型与所述统一资源池中的已有文件进行相似性分析;
若所述已有文件中存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中存在与所述日志统计信息相似的文件;
若所述已有文件中不存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中不存在与所述日志统计信息相似的文件。
在一种实现方式中,所述方法,还包括:
若所述统一资源池中存在与所述日志统计信息相同或相似的文件,则提示选择项,所述选择项包括:替换相似文件、另存为新文件或不保存文件;
接收输入的指令,确定所述指令所对应的选择项,并执行所述选择项所对应的操作。
在一种实现方式中,所述通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,包括:
通过所述商用服务器中计算节点确定所述整合标记文件的不同处,以及通过所述商用服务器中融合节点确定所述整合标记文件的相同处;
基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件。
在一种实现方式中,所述获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中,包括:
基于所述日志统计信息中的所述文件类型,确定所述拆分文件的所述类型信息;
根据所述类型信息,从所述统一资源池中找出与所述类型信息具有相同存储类型的所述目标存储磁盘;
将所述拆分文件存储至所述目标存储磁盘中。
第二方面,本发明实施例还提供一种基于超融合结构的分布式存储***,其中,所述***包括:超融合一体机、与所述超融合一体机连接的商用服务器以及与所述商用服务器连接的统一资源池;其中,所述超融合一体机包括:
日志统计信息获取模块,用于获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息;
整合标记文件获取模块,用于根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件;
文件拆分与存储模块,用于通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。
第三方面,本发明实施例还提供一种超融合一体机,所述超融合一体机包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于超融合结构的分布式存储程序,所述处理器执行所述基于超融合结构的分布式存储程序时,实现如上述方案中任一项所述的基于超融合结构的分布式存储方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于超融合结构的分布式存储程序,所述基于超融合结构的分布式存储程序被处理器执行时,实现如上述方案中任一项所述的基于超融合结构的分布式存储方法的步骤。
有益效果:与现有技术相比,本发明提供了一种基于超融合结构的分布式存储方法,本发明获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。然后,根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件。最后,通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。本发明可自动实现对数据的分布式存储,实现资源自动分配,并且超融合结构没有主从节点的设置,每一个计算/数据节点都有能力承担另一计算/数据节点的功能,节点之间通过内部高效的分布式协议完成相互协作,实现高效通信。
附图说明
图1为本发明实施例提供的基于超融合结构的分布式存储方法的具体实施方式的流程图。
图2为本发明实施例提供的基于超融合结构的分布式存储***的框架示意图。
图3为本发明实施例提供的基于超融合结构的分布式存储***中超融合一体机的原理框图。
图4为本发明实施例提供的超融合一体机的功能原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供一种基于超融合结构的分布式存储方法,基于本实施例的方法可实现数据的高效存储。具体实施时,本实施例获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。然后,根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件。最后,通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。本实施例可自动实现对数据的分布式存储,实现资源自动分配,并且超融合结构没有主从节点的设置,每一个计算/数据节点都有能力承担另一计算/数据节点的功能,节点之间通过内部高效的分布式协议完成相互协作,实现高效通信。
示例性方法
本实施例的基于超融合结构的分布式存储方法可应用于终端设备中,所述终端设备可为超融合一体机,所述超融合一体机集群具备非常好的弹性扩展能力,在***运行过程中,当新增或删除节点和硬盘时,超融合架构能实现集群内数据优化,自动重新分布和均衡;而整个数据的迁移和重新均衡的过程不会影响应用对数据的访问;在所有数据的重新分布和均衡过程中,***能够保证只需尽可能少的数据进行重新分配,而无需对***内所有数据进行调整和迁移,提升了***稳定性和性能。具体地,如图1中所示,本实施例的基于超融合结构的分布式存储方法具体包括如下步骤:
步骤S100、获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。
在本实施例中,如图2中所示,PC端首先将待存储数据上传,被超融合一体机接收并进行临时保存。本实施例中的PC端通过协议通道与多个超融合一体机连接,所述协议通道采用TCP/IP协议,实现数据传输,超融合一体机通过该TCP/IP协议获取到PC端上传的待存储数据后,将所述待存储数据进行临时保存。接着,超融合一体机根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。
具体地,本实施例的超融合一体机获取所述待存储数据中的文件名称、关键词、文件大小以及文件类型,然后根据所述文件名称、关键词、文件大小以及文件类型生成所述日志统计信息。
步骤S200、根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件。
当得到日志统计信息后,本实施例的超融合一体机可按照日志统计信息在预设的统一资源池中搜索,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件。具体地,本实施例的超融合一体机可依次根据所述文件名称、关键词、文件大小以及文件类型,在所述统一资源池中进行搜索,确定所述统一资源中分别与所述文件名称、关键词、文件大小以及文件类型所匹配的候选文件。若所述候选文件中存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中存在与所述日志统计信息相同的文件。而若所述候选文件中不存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中不存在与所述日志统计信息相同的文件。又或者,本实施例的超融合一体机还可以依次将所述文件名称、关键词、文件大小以及文件类型与所述统一资源池中的已有文件进行相似性分析。若所述已有文件中存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中存在与所述日志统计信息相似的文件。若所述已有文件中不存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中不存在与所述日志统计信息相似的文件。而若所述统一资源池中存在与所述日志统计信息相同或相似的文件,则提示选择项,所述选择项包括:替换相似文件、另存为新文件或不保存文件,接着,超融合一体机接收输入的指令,确定所述指令所对应的选择项,并执行所述选择项所对应的操作。具体地,本实施例的超融合一体机可接收指令,并根据指令将上传的相似文件通过PC端替换统一资源池中的相似文件或者另存为新文件或者不保存。而当所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,将待存储数据判断为新文件,对所述待存储数据进行整合与标记,得到整合标记文件。本实施例对所述待存储数据进行整合与标记,是为了区分已有文件,避免与已有文件混淆,并且有利于更好地保存所述待存储数据。
步骤S300、通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。
在本实施例中,每一个超融合一体机均通过商用服务器与同一资源池连接,当得到所述整合标记文件后,可通过商用服务器对所述整合标记文件进行拆分,得到拆分文件。接着可获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。也就是说,本实施例在将整合标记文件进行存储时是先进行拆分,然后再按照类型信息来进行存储的,便于数据的管理。
在一种实现方式中,所述步骤S300具体包括如下步骤:
步骤S301、通过所述商用服务器中计算节点确定所述整合标记文件的不同处,以及通过所述商用服务器中融合节点确定所述整合标记文件的相同处;
步骤S302、基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件。
具体实施时,本实施例中的商用服务器包括计算节点和融合节点,所述计算节点用于确定所述整合标记文件的不同处,所述融合节点用于确定所述整合标记文件的相同处。当确定出不同处和相同处之后,本实施例可基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件。换句话说,本实施例是将所述整合标记文件的相同处拆分成一个文件,将所述整合标记文件的不同处拆分成一个文件。本实施例中的一资源池内由多个存储磁盘构成,各存储磁盘用于存储不同类型的数据文件。为此,本实施例在得到拆分文件后,可进一步获取到拆分文件的类型信息是,然后根据类型信息来将拆分文件存储至对应的存储磁盘中,从而实现分布式存储。
具体地,本实施例可基于所述日志统计信息中的所述文件类型,确定所述拆分文件的所述类型信息。由于日志统计信息是基于所述待存储数据中的文件名称、关键词、文件大小以及文件类型得到的,因此该日志统计信息中包括文件类型。而拆分文件又是从待存储数据整合标记而成的整合标记文件进行拆分得到,因此当根据日志统计信息确定文件类型后,就可以确定出拆分文件的类型信息。然后,本实施例根据所述类型信息,从所述统一资源池中找出与所述类型信息具有相同存储类型的所述目标存储磁盘;最后将所述拆分文件存储至所述目标存储磁盘中,这样就可以将不同类型信息分布式有序地存储至对应的存储磁盘中。
在一种实现方式中,本实施例在拆分文件存储至目标存储磁盘中后,可对统一资源池中各个存储磁盘中的数据进行加密操作,并且加密时融入身份信息。只有通过身份验证后,PC端才可以对该统一资源池中的数据进行调用,从而保证数据的安全性。
本实施例中的所述超级融合一体机采用分布式、无共享的设计理念,通过分布式算法,将数据分散式存放在集群中的所有节点上,可以拥有跨节点2/3副本的数据冗余模式,大大提升了数据可靠性;超融合架构没有主从节点的设置,每一个计算/数据节点都有能力承担另一计算/数据节点的功能,节点之间通过内部高效的分布式协议完成相互协作和通信。所述超级融合一体机将计算虚拟化和分布式存储部署在同一服务器硬件内,针对虚拟化、数据库等对 I/O 延迟要求高的应用将数据存放在本地物理服务器上,减少传统外置共享存储(SAN/NAS)带来的网络开销,用户可根据自身需要来设定计算和存储资源的服务等级,实际资源的分配可由管理平台自动完成,管理变得轻松而简单。
综上,本实施例首先获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。然后,根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件。最后,通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。本实施例可自动实现对数据的分布式存储,实现资源自动分配,并且超融合结构没有主从节点的设置,每一个计算/数据节点都有能力承担另一计算/数据节点的功能,节点之间通过内部高效的分布式协议完成相互协作,实现高效通信。
示例性***
基于上述实施例,本发明还提供一种基于超融合结构的分布式存储***,所述***包括:超融合一体机、与所述超融合一体机连接的商用服务器以及与所述商用服务器连接的统一资源池。其中,如图3中所示,所述超融合一体机包括:日志统计信息获取模块10、整合标记文件获取模块20以及文件拆分与存储模块30。具体地,本实施例中的所述日志统计信息获取模块10,用于获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息。所述整合标记文件获取模块20,用于根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件。所述文件拆分与存储模块30,用于通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。
在一种实现方式中,所述日志统计信息获取模块10,包括:
信息获取单元,用于获取所述待存储数据中的文件名称、关键词、文件大小以及文件类型;
信息生成单元,用于根据所述文件名称、关键词、文件大小以及文件类型生成所述日志统计信息。
在一种实现方式中,所述整合标记文件获取模块20,包括:
候选匹配单元,用于依次根据所述文件名称、关键词、文件大小以及文件类型,在所述统一资源池中进行搜索,确定所述统一资源中分别与所述文件名称、关键词、文件大小以及文件类型所匹配的候选文件;
判定相同单元,用于若所述候选文件中存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中存在与所述日志统计信息相同的文件;
判定不同单元,用于若所述候选文件中不存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中不存在与所述日志统计信息相同的文件。
在一种实现方式中,所述整合标记文件获取模块20,包括:
相似性分析单元,用于依次将所述文件名称、关键词、文件大小以及文件类型与所述统一资源池中的已有文件进行相似性分析;
判定相似单元,用于若所述已有文件中存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中存在与所述日志统计信息相似的文件;
判定不相似单元,用于若所述已有文件中不存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中不存在与所述日志统计信息相似的文件。
在一种实现方式中,所述***,还包括:
选择提示模块,用于若所述统一资源池中存在与所述日志统计信息相同或相似的文件,则提示选择项,所述选择项包括:替换相似文件、另存为新文件或不保存文件;
选择操作模块,用于接收输入的指令,确定所述指令所对应的选择项,并执行所述选择项所对应的操作。
在一种实现方式中,所述文件拆分与存储模块30,还包括:
文件分析单元,用于通过所述商用服务器中计算节点确定所述整合标记文件的不同处,以及通过所述商用服务器中融合节点确定所述整合标记文件的相同处;
文件拆分单元,用于基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件。
在一种实现方式中,所述文件拆分与存储模块30,还包括:
类型确定单元,用于基于所述日志统计信息中的所述文件类型,确定所述拆分文件的所述类型信息;
类型分析单元,用于根据所述类型信息,从所述统一资源池中找出与所述类型信息具有相同存储类型的所述目标存储磁盘;
文件存储单元,用于将所述拆分文件存储至所述目标存储磁盘中。
本实施例的基于超融合结构的分布式存储***中各个模块的工作原理与上述方法实施例中各个步骤的原理相同,此处不再赘述。
基于上述实施例,本发明还提供了一种超融合一体机,其原理框图可以如图4所示。该超融合一体机包括通过***总线连接的处理器、存储器,所述处理器与所述存储器设置在主机中。其中,该超融合一体机的处理器用于提供计算和控制能力。该超融合一体机的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该超融合一体机的网络接口用于与外部的终端通过网络通讯连接通信。该计算机程序被处理器执行时以实现一种基于超融合结构的分布式存储方法。
本领域技术人员可以理解,图4中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的超融合一体机的限定,具体的超融合一体机以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种超融合一体机,超融合一体机包括存储器、处理器及存储在存储器中并可在处理器上运行的基于超融合结构的分布式存储方法程序,处理器执行基于超融合结构的分布式存储方法程序时,实现如下操作指令:
获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息;
根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件;
通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种基于超融合结构的分布式存储方法、***及存储介质,方法包括:获取待存储数据,并根据待存储数据生成日志统计信息;根据日志统计信息,确定预设的统一资源池中是否存在与日志统计信息相同或相似的文件,并在确认统一资源池中不存在相同或者相似的文件时,对待存储数据进行整合与标记,得到整合标记文件;通过商用服务器对整合标记文件进行拆分,得到拆分文件,并获取拆分文件的类型信息,从统一资源池中选择与类型信息所匹配的目标存储磁盘,将拆分文件存储至目标存储磁盘中。本发明可自动实现对数据的分布式存储,实现资源自动分配,实现高效通信。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于超融合结构的分布式存储方法,其特征在于,所述方法包括:
获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息;
根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件;通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中;
所述获取待存储数据,对所述待存储数据进行临时保存,包括:
PC端通过协议通道与多个超融合一体机连接,所述协议通道采用TCP/IP协议;超融合一体机通过所述TCP/IP协议获取到PC端上传的待存储数据后,将所述待存储数据进行临时保存,其中,每一个超融合一体机均通过商用服务器与统一资源池连接;
所述根据所述待存储数据生成日志统计信息,包括:
获取所述待存储数据中的文件名称、关键词、文件大小以及文件类型;
根据所述文件名称、关键词、文件大小以及文件类型生成所述日志统计信息;所述根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,包括:
依次根据所述文件名称、关键词、文件大小以及文件类型,在所述统一资源池中进行搜索,确定所述统一资源池中分别与所述文件名称、关键词、文件大小以及文件类型所匹配的候选文件;
若所述候选文件中存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中存在与所述日志统计信息相同的文件;
若所述候选文件中不存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中不存在与所述日志统计信息相同的文件;所述根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,包括:
依次将所述文件名称、关键词、文件大小以及文件类型与所述统一资源池中的已有文件进行相似性分析;
若所述已有文件中存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中存在与所述日志统计信息相似的文件;若所述已有文件中不存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中不存在与所述日志统计信息相似的文件;
所述方法,还包括:
若所述统一资源池中存在与所述日志统计信息相同或相似的文件,则提示选择项,所述选择项包括:替换相似文件、另存为新文件或不保存文件;
接收输入的指令,确定所述指令所对应的选择项,并执行所述选择项所对应的操作;
所述通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,包括:
通过所述商用服务器中计算节点确定所述整合标记文件的不同处,以及通过所述商用服务器中融合节点确定所述整合标记文件的相同处;
基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件;
所述获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中,包括:基于所述日志统计信息中的所述文件类型,确定所述拆分文件的所述类型信息;根据所述类型信息,从所述统一资源池中找出与所述类型信息具有相同存储类型的所述目标存储磁盘;
将所述拆分文件存储至所述目标存储磁盘中;
所述方法还包括:
在将所述拆分文件存储至目标存储磁盘中后,对所述统一资源池中各个存储磁盘中的数据进行加密操作,并且加密时融入身份信息。
2.一种基于超融合结构的分布式存储***,其特征在于,所述***包括:超融合一体机、与所述超融合一体机连接的商用服务器以及与所述商用服务器连接的统一资源池;其中,所述超融合一体机包括:
日志统计信息获取模块,用于获取待存储数据,对所述待存储数据进行临时保存,并根据所述待存储数据生成日志统计信息,所述日志统计信息用于反映所述待存储数据中的属性信息;
整合标记文件获取模块,用于根据所述日志统计信息,确定预设的统一资源池中是否存在与所述日志统计信息相同或相似的文件,并在确认所述统一资源池中不存在与所述日志统计信息相同或者相似的文件时,对所述待存储数据进行整合与标记,得到整合标记文件;
文件拆分与存储模块,用于通过商用服务器对所述整合标记文件进行拆分,得到拆分文件,并获取所述拆分文件的类型信息,并从所述统一资源池中选择与所述类型信息所匹配的目标存储磁盘,将所述拆分文件存储至所述目标存储磁盘中;所述日志统计信息获取模块,包括:
PC端通过协议通道与多个超融合一体机连接,所述协议通道采用TCP/IP协议;超融合一体机通过所述TCP/IP协议获取到PC端上传的待存储数据后,将所述待存储数据进行临时保存,其中,每一个超融合一体机均通过商用服务器与统一资源池连接;
所述日志统计信息获取模块,包括:
信息获取单元,用于获取所述待存储数据中的文件名称、关键词、文件大小以及文件类型;
信息生成单元,用于根据所述文件名称、关键词、文件大小以及文件类型生成所述日志统计信息;
所述整合标记文件获取模块,包括:
候选匹配单元,用于依次根据所述文件名称、关键词、文件大小以及文件类型,在所述统一资源池中进行搜索,确定所述统一资源池中分别与所述文件名称、关键词、文件大小以及文件类型所匹配的候选文件;
判定相同单元,用于若所述候选文件中存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中存在与所述日志统计信息相同的文件;
判定不同单元,用于若所述候选文件中不存在与所述文件名称、关键词、文件大小以及文件类型均相同的文件,则确定所述统一资源池中不存在与所述日志统计信息相同的文件;
所述整合标记文件获取模块,包括:
相似性分析单元,用于依次将所述文件名称、关键词、文件大小以及文件类型与所述统一资源池中的已有文件进行相似性分析;
判定相似单元,用于若所述已有文件中存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中存在与所述日志统计信息相似的文件;
判定不相似单元,用于若所述已有文件中不存在与所述文件名称、关键词、文件大小以及文件类型之间相似性超过阈值,则确定所述统一资源池中不存在与所述日志统计信息相似的文件;
所述***,还包括:
选择提示模块,用于若所述统一资源池中存在与所述日志统计信息相同或相似的文件,则提示选择项,所述选择项包括:替换相似文件、另存为新文件或不保存文件;
选择操作模块,用于接收输入的指令,确定所述指令所对应的选择项,并执行所述选择项所对应的操作;
所述文件拆分与存储模块,还包括:
文件分析单元,用于通过所述商用服务器中计算节点确定所述整合标记文件的不同处,以及通过所述商用服务器中融合节点确定所述整合标记文件的相同处;文件拆分单元,用于基于所述相同处与所述不同处对所述整合标记文件进行拆分,得到所述拆分文件;
所述文件拆分与存储模块,还包括:
类型确定单元,用于基于所述日志统计信息中的所述文件类型,确定所述拆分文件的所述类型信息;
类型分析单元,用于根据所述类型信息,从所述统一资源池中找出与所述类型信息具有相同存储类型的所述目标存储磁盘;
文件存储单元,用于将所述拆分文件存储至所述目标存储磁盘中;
所述***还包括:
在将所述拆分文件存储至目标存储磁盘中后,对所述统一资源池中各个存储磁盘中的数据进行加密操作,并且加密时融入身份信息。
3.一种超融合一体机,其特征在于,所述超融合一体机包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于超融合结构的分布式存储程序,所述处理器执行所述基于超融合结构的分布式存储程序时,实现如权利要求1所述的基于超融合结构的分布式存储方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于超融合结构的分布式存储程序,所述基于超融合结构的分布式存储程序被处理器执行时,实现如权利要求1所述的基于超融合结构的分布式存储方法的步骤。
CN202210778538.XA 2022-07-04 2022-07-04 一种基于超融合结构的分布式存储方法、***及存储介质 Active CN114840488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210778538.XA CN114840488B (zh) 2022-07-04 2022-07-04 一种基于超融合结构的分布式存储方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210778538.XA CN114840488B (zh) 2022-07-04 2022-07-04 一种基于超融合结构的分布式存储方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN114840488A CN114840488A (zh) 2022-08-02
CN114840488B true CN114840488B (zh) 2023-05-02

Family

ID=82574251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210778538.XA Active CN114840488B (zh) 2022-07-04 2022-07-04 一种基于超融合结构的分布式存储方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN114840488B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555874B (zh) * 2024-01-11 2024-03-29 成都大成均图科技有限公司 一种分布式数据库的日志存储方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238240A (zh) * 2022-02-14 2022-03-25 柏科数据技术(深圳)股份有限公司 一种分布式多集群的数据存储方法、装置及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0104227D0 (en) * 2001-02-21 2001-04-11 Ibm Information component based data storage and management
US10785294B1 (en) * 2015-07-30 2020-09-22 EMC IP Holding Company LLC Methods, systems, and computer readable mediums for managing fault tolerance of hardware storage nodes
US10642516B2 (en) * 2015-12-30 2020-05-05 Seagate Technology Llc External hard drive device with cloud drive support
CN105912587A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 一种数据采集方法和***
US10540212B2 (en) * 2016-08-09 2020-01-21 International Business Machines Corporation Data-locality-aware task scheduling on hyper-converged computing infrastructures
CN110019048A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 基于MongoDB的文件处理方法、装置、***及服务器
CN107807796B (zh) * 2017-11-17 2021-03-05 北京联想超融合科技有限公司 一种基于超融合存储***的数据分层方法、终端及***
CN109558404B (zh) * 2018-10-19 2023-12-01 中国平安人寿保险股份有限公司 数据存储方法、装置、计算机设备和存储介质
CN109542861B (zh) * 2018-11-08 2023-06-09 浪潮软件集团有限公司 一种文件管理方法、装置和***
CN109960587A (zh) * 2019-02-27 2019-07-02 厦门市世纪网通网络服务有限公司 超融合云计算***的存储资源分配方法和装置
CN110209633A (zh) * 2019-06-06 2019-09-06 深圳龙图腾创新设计有限公司 一种文件处理方法、***、计算机设备及存储介质
CN111488198B (zh) * 2020-04-16 2023-05-23 湖南麒麟信安科技股份有限公司 一种超融合环境下的虚拟机调度方法、***及介质
US11886720B2 (en) * 2020-07-15 2024-01-30 EMC IP Holding Company LLC Determining storage system configuration recommendations based on vertical sectors and size parameters using machine learning techniques
CN113590033B (zh) * 2021-06-30 2023-11-03 郑州云海信息技术有限公司 一种超融合***的信息同步方法及装置
CN113448938A (zh) * 2021-07-20 2021-09-28 恒安嘉新(北京)科技股份公司 数据处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238240A (zh) * 2022-02-14 2022-03-25 柏科数据技术(深圳)股份有限公司 一种分布式多集群的数据存储方法、装置及存储介质

Also Published As

Publication number Publication date
CN114840488A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN107391758B (zh) 数据库切换方法、装置及设备
US7685459B1 (en) Parallel backup
US20070239747A1 (en) Methods, systems, and computer program products for providing read ahead and caching in an information lifecycle management system
CN110147407B (zh) 一种数据处理方法、装置及数据库管理服务器
KR102031588B1 (ko) 파일 저장 시의 색인 구현 방법 및 시스템
EP3432157A1 (en) Data table joining mode processing method and apparatus
US10708379B1 (en) Dynamic proxy for databases
US10515228B2 (en) Commit and rollback of data streams provided by partially trusted entities
CN111475483A (zh) 数据库迁移方法、装置及计算设备
CN113760847A (zh) 日志数据处理方法、装置、设备及存储介质
CN111324665A (zh) 一种日志回放方法及装置
CN114840488B (zh) 一种基于超融合结构的分布式存储方法、***及存储介质
US10545667B1 (en) Dynamic data partitioning for stateless request routing
US11726743B2 (en) Merging multiple sorted lists in a distributed computing system
US20180260463A1 (en) Computer system and method of assigning processing
CN110597459B (zh) 存储方法、主、副节点及包含其的***
CN109542860B (zh) 基于hdfs的业务数据管理方法、终端设备
CN109388651B (zh) 一种数据处理方法和装置
US9684668B1 (en) Systems and methods for performing lookups on distributed deduplicated data systems
US10592530B2 (en) System and method for managing transactions for multiple data store nodes without a central log
CN112711606A (zh) 数据库访问方法、装置、计算机设备和存储介质
CN111930684A (zh) 基于hdfs的小文件处理方法、装置、设备及存储介质
US9537941B2 (en) Method and system for verifying quality of server
US10452492B2 (en) Method, apparatus, and computer program stored in computer readable medium for recovering block in database system
CN112783866B (zh) 数据读取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant