CN114115730A - 一种应用容器存储引擎平台 - Google Patents

一种应用容器存储引擎平台 Download PDF

Info

Publication number
CN114115730A
CN114115730A CN202111288414.5A CN202111288414A CN114115730A CN 114115730 A CN114115730 A CN 114115730A CN 202111288414 A CN202111288414 A CN 202111288414A CN 114115730 A CN114115730 A CN 114115730A
Authority
CN
China
Prior art keywords
data
stored
sub
module
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111288414.5A
Other languages
English (en)
Other versions
CN114115730B (zh
Inventor
刘坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yindun Tai'an Network Technology Co ltd
Original Assignee
Beijing Yindun Tai'an Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yindun Tai'an Network Technology Co ltd filed Critical Beijing Yindun Tai'an Network Technology Co ltd
Priority to CN202111288414.5A priority Critical patent/CN114115730B/zh
Publication of CN114115730A publication Critical patent/CN114115730A/zh
Application granted granted Critical
Publication of CN114115730B publication Critical patent/CN114115730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45579I/O management, e.g. providing access to device drivers or storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用容器存储引擎平台,包括分配模块,用于为所述应用容器分配存储卷;获取模块,用于获取所述应用容器运行时产生的待存储数据;第一控制模块,用于对所述待存储数据进行数据处理,将经过数据处理后的待存储数据存储至所述存储卷中。有益效果:对应用容器进行私有存储,对应用容器产生的数据进行分布式存储,极大的增加了后期管理的效率,保证用户查询数据时的快速性及准确性。

Description

一种应用容器存储引擎平台
技术领域
本发明涉及存储技术领域,特别涉及一种应用容器存储引擎平台。
背景技术
应用容器技术已经引起了业内的广泛关注,有充分的证据表明,应用容器技术能够大大提升工作效率。但在应用容器运行过程中,会产生大量的运行数据,以往对应用容器的运行数据进行存储时,都是将运行数据存储到一起,不仅会增加后续查找的时间,且不方便对数据进行管理。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的目的在于提出了一种应用容器存储引擎平台,对应用容器进行私有存储,对应用容器产生的数据进行分布式存储,极大的增加了后期管理的效率,保证用户查询数据时的快速性及准确性。
为达到上述目的,本发明提出了一种应用容器存储引擎平台,包括:
分配模块,用于为所述应用容器分配存储卷;
获取模块,用于获取所述应用容器运行时产生的待存储数据;
第一控制模块,用于对所述待存储数据进行数据处理,将经过数据处理后的待存储数据存储至所述存储卷中。
进一步地,所述获取模块,还用于获取所述应用容器中的镜像文件;
所述第一控制模块,还用于将所述镜像文件保存至与当前存储卷相邻的上一个存储卷中。
进一步地,所述镜像文件包括所述应用容器的内核及所述应用容器中安装的软件。
进一步地,所述分配模块包括:
标识获取模块,用于获取所述应用容器的标识;
第二控制模块,用于根据所述标识为所述应用容器分配相应的存储卷。
进一步地,所述存储卷中包括若干个存储节点。
进一步地,所述第一控制模块包括:
数据处理模块,用于:
根据所述待存储数据生成第一数据矩阵;
计算所述第一数据矩阵中每列的均值,得到若干个列均值,根据所述若干个列均值生成所述待存储数据的列均值矩阵;
根据所述第一数据矩阵计算得到所述待存储数据的协方差矩阵;
对所述协方差矩阵进行分解,得到所述协方差矩阵的对角阵;
对所述对角阵中的包括的数值按照从大到小的顺序进行排序,筛选出排序后的前预设个数的数值,作为第一特征值,并生成特征值矩阵;
根据所述列均值矩阵及所述特征值矩阵对所述待存储数据进行降维处理,得到所述待存储数据的低维矩阵;
根据所述特征值矩阵及所述低维矩阵生成第二数据矩阵,根据所述第二数据矩阵得到处理后的待存储数据;
数据分割模块,用于对处理后的待存储数据进行数据分割处理,得到若干个第一子待存储数据;
模型建立模块,用于:
构建类型信息获取模型;
获取样本子待存储数据及样本子待存储数据相对应的类型;
基于样本子待存储数据及样本子待存储数据相对应的类型对构建的类型信息获取模型进行训练;
在对类型信息获取模型训练的过程中,计算训练误差,在确定所述训练误差小于预设训练误差时,得到所述类型信息获取模型的目标模型参数;
将所述目标模型参数作为所述类型信息获取模型的模型参数,得到训练好的类型信息获取模型;
数据存储模块,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,根据所述类型分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中。
进一步地,还包括:
检测模块,用于:
在所述数据存储模块对所述第一子待存储数据存储前,获取所述第一子待存储数据的数据量;
计算所述第一子待存储数据相对应的存储节点的剩余存储容量;
扩容模块,用于在所述第一子待存储数据的数据量大于所述子待存储数据相对应的存储节点的剩余存储容量时,对所述存储节点的存储空间进行扩容。
进一步地,所述第一控制模块,还包括:
数据清洗模块,用于:
在所述数据处理模块对所述待存储数据进行数据处理前,对所述待存储数据进行数据分割处理,得到若干个第二子待存储数据;
分别将每个所述第二子待存储数据输入预先训练好的第一特征向量获取模型中,输出每个所述第二子待存储数据的第一特征向量;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的分别对应的第二特征值,每个空间维度对应一个第二特征值;
分别将每个第二子待存储数据的第二特征值与所述第二特征值对应的空间维度上的预设特征值进行比较,筛选出所述第二特征值大于预设特征值的空间维度,作为目标空间维度,将所述目标空间维度上的第二特征值作为第二子待存储数据的第二特征向量;
对所述第二特征向量进行降维处理,得到每个第二子待存储数据的哈希值;
将所述哈希值与预设数据库中的哈希值进行匹配,计算得到匹配度,筛选出所述匹配度大于等于预设匹配度的哈希值对应的第二子待存储数据,并作为冗余数据;
将所述冗余数据从待存储数据中进行剔除处理;
基于第一数据清洗策略对冗余数据剔除处理后的待存储数据进行数据清洗;
在基于所述第一数据清洗策略进行数据清洗时,获取所述待存储数据的当前清洗进度,根据所述当前清洗进度计算得到所述第一数据清洗策略的清洗速率;
判断所述清洗速率是否小于预设清洗速率,在确定所述清洗速率小于预设清洗速率时,计算所述清洗速率与预设清洗速率的差值,根据所述差值对所述第一清洗策略进行调整,得到第二清洗策略;
获取所述待存储数据中已清洗数据及未清洗数据;
根据所述第二清洗策略对所述未清洗数据进行清洗。
进一步地,所述第一控制模块,还包括:
数据加密模块,用于在所述数据存储模块对所述第一子待存储数据存储前,对所述第一子待存储数据进行加密。
进一步地,所述数据加密模块,包括:
加密指令获取模块,用于根据所述第一子待存储数据的类型查询预设数据类型-加密指令表,得到相对应的加密指令;
第三控制模块,用于根据所述加密指令对所述第一子待存储数据进行加密处理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一种应用容器存储引擎平台的框图;
图2为根据本发明一实施例的一种应用容器存储引擎平台的框图;
图3为根据本发明又一实施例的一种应用容器存储引擎平台的框图。
附图标记:
分配模块1、获取模块2、第一控制模块3、标识获取模块4、第二控制模块5、数据清洗模块6、数据处理模块7、数据分割模块8、模型建立模块9、数据存储模块10。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
下面参考图1至图3来描述本发明实施例提出的一种应用容器存储引擎平台。
如图1所示,一种应用容器存储引擎平台,包括:
分配模块1,用于为所述应用容器分配存储卷;
获取模块2,用于获取所述应用容器运行时产生的待存储数据;
第一控制模块3,用于对所述待存储数据进行数据处理,将经过数据处理后的待存储数据存储至所述存储卷中。
上述方案的工作原理:分配模块1,用于为所述应用容器分配存储卷;获取模块2,用于获取所述应用容器运行时产生的待存储数据;第一控制模块3用于对所述待存储数据进行数据处理,将经过数据处理后的待存储数据存储至所述存储卷中。
上述方案的有益效果:应用容器中的应用在运行过程中,会产生大量的运行数据,对运行数据的存储成了一个大的问题,对应用容器进行私有存储,对应用容器产生的数据进行分布式存储,极大的增加了后期管理的效率,保证用户查询数据时的快速性及准确性。
根据本发明的一些实施例,所述获取模块2,还用于获取所述应用容器中的镜像文件;所述第一控制模块3,还用于将所述镜像文件保存至与当前存储卷相邻的上一个存储卷中。
上述方案的工作原理:所述获取模块2,还用于获取所述应用容器中的镜像文件;所述第一控制模块3,还用于将所述镜像文件保存至与当前存储卷相邻的上一个存储卷中。
上述方案的有益效果:若存储应用容器相对应存储卷中的服务器损坏,会导致应用容器中的应用无法运行,进而造成用户的体验感下降,将应用容器中的镜像文件保存至与当前存储卷相邻的上一个存储卷中,可以防止因服务器故障导致应用容器中的应用无法运行的情况,在服务器发发生故障时,连接至当前存储卷相邻的上一个存储卷,进而实现应用的正常运行,提高用户的体验感。
根据本发明的一些实施例,所述镜像文件包括所述应用容器的内核及所述应用容器中安装的软件。
上述方案的工作原理及有益效果:所述镜像文件包括所述应用容器的内核及所述应用容器中安装的软件。
如图2所示,根据本发明的一些实施例,所述分配模块1包括:
标识获取模块4,用于获取所述应用容器的标识;
第二控制模块5,用于根据所述标识为所述应用容器分配相应的存储卷。
上述方案的工作原理:标识获取模块4用于获取所述应用容器的标识;第二控制模块5用于根据所述标识为所述应用容器分配相应的存储卷。
上述方案的有益效果:每个应用容器都有相对应的标识,根据标识为应用容器分配存储卷,生成标识与存储卷的关联关系,便于后续的管理。
根据本发明的一些实施例,所述存储卷中包括若干个存储节点。
上述方案的工作原理及有益效果:所述存储卷中包括若干个存储节点,每个存储节点中数据的格式不同。
如图3所示,根据本发明的一些实施例,所述第一控制模块3包括:
数据处理模块7,用于:
根据所述待存储数据生成第一数据矩阵;
计算所述第一数据矩阵中每列的均值,得到若干个列均值,根据所述若干个列均值生成所述待存储数据的列均值矩阵;
根据所述第一数据矩阵计算得到所述待存储数据的协方差矩阵;
对所述协方差矩阵进行分解,得到所述协方差矩阵的对角阵;
对所述对角阵中的包括的数值按照从大到小的顺序进行排序,筛选出排序后的前预设个数的数值,作为第一特征值,并生成特征值矩阵;
根据所述列均值矩阵及所述特征值矩阵对所述待存储数据进行降维处理,得到所述待存储数据的低维矩阵;
根据所述特征值矩阵及所述低维矩阵生成第二数据矩阵,根据所述第二数据矩阵得到处理后的待存储数据;
数据分割模块8,用于对处理后的待存储数据进行数据分割处理,得到若干个第一子待存储数据;
模型建立模块9,用于:
构建类型信息获取模型;
获取样本子待存储数据及样本子待存储数据相对应的类型;
基于样本子待存储数据及样本子待存储数据相对应的类型对构建的类型信息获取模型进行训练;
在对类型信息获取模型训练的过程中,计算训练误差,在确定所述训练误差小于预设训练误差时,得到所述类型信息获取模型的目标模型参数;
将所述目标模型参数作为所述类型信息获取模型的模型参数,得到训练好的类型信息获取模型;
数据存储模块10,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,根据所述类型分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中。
上述方案的工作原理:数据处理模块7,用于根据所述待存储数据生成第一数据矩阵;计算所述第一数据矩阵中每列的均值,得到若干个列均值,根据所述若干个列均值生成所述待存储数据的列均值矩阵;根据所述第一数据矩阵计算得到所述待存储数据的协方差矩阵;对所述协方差矩阵进行分解,得到所述协方差矩阵的对角阵;对所述对角阵中的包括的数值按照从大到小的顺序进行排序,筛选出排序后的前预设个数的数值,作为第一特征值,并生成特征值矩阵;根据所述列均值矩阵及所述特征值矩阵对所述待存储数据进行降维处理,得到所述待存储数据的低维矩阵;根据所述特征值矩阵及所述低维矩阵生成第二数据矩阵,根据所述第二数据矩阵得到处理后的待存储数据;数据分割模块8用于对处理后的待存储数据进行数据分割处理,得到若干个第一子待存储数据;模型建立模块9用于构建类型信息获取模型;获取样本子待存储数据及样本子待存储数据相对应的类型;基于样本子待存储数据及样本子待存储数据相对应的类型对构建的类型信息获取模型进行训练;在对类型信息获取模型训练的过程中,计算训练误差,在确定所述训练误差小于预设训练误差时,得到所述类型信息获取模型的目标模型参数;将所述目标模型参数作为所述类型信息获取模型的模型参数,得到训练好的类型信息获取模型;数据存储模块10,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,在一实施例中,根据所述类型得到每个第一子待存储数据的存储方式,根据第一子待存储数据的类型及存储方式分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中。
上述方案的有益效果:数据处理模块7,用于根据所述待存储数据生成第一数据矩阵;计算所述第一数据矩阵中每列的均值,得到若干个列均值,根据所述若干个列均值生成所述待存储数据的列均值矩阵;根据所述第一数据矩阵计算得到所述待存储数据的协方差矩阵;对所述协方差矩阵进行分解,得到所述协方差矩阵的对角阵;对所述对角阵中的包括的数值按照从大到小的顺序进行排序,筛选出排序后的前预设个数的数值,作为第一特征值,并生成特征值矩阵;根据所述列均值矩阵及所述特征值矩阵对所述待存储数据进行降维处理,得到所述待存储数据的低维矩阵;根据所述特征值矩阵及所述低维矩阵生成第二数据矩阵,根据所述第二数据矩阵得到处理后的待存储数据;通过上述方法对待存储数据进行处理后节省了存储节点的存储空间,同时,降低了存储数据出错的概率,进而在读取该存储数据时,提高了数据容错保护的效果,数据分割模块8用于对处理后的待存储数据进行数据分割处理,得到若干个第一子待存储数据;对处理后的待存储数据进行数据分割处理是为了实现根据数据类型对数据进行分布式的存储;模型建立模块9用于构建类型信息获取模型;类型信息获取模型为神经网络模块;获取样本子待存储数据及样本子待存储数据相对应的类型;基于样本子待存储数据及样本子待存储数据相对应的类型对构建的类型信息获取模型进行训练;在对类型信息获取模型训练的过程中,计算训练误差,在确定所述训练误差小于预设训练误差时,得到所述类型信息获取模型的目标模型参数更加的精确,提高最后检测数据类型的准确性,增加数据分类的精确性;将所述目标模型参数作为所述类型信息获取模型的模型参数,得到训练好的类型信息获取模型;数据存储模块10,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,根据所述类型分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中;数据存储模块10,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,在一实施例中,根据所述类型得到每个第一子待存储数据的存储方式,根据第一子待存储数据的类型及存储方式分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中;通过第一子待存储数据的类型确认存储方式及存储节点,节省了存储空间,便于后续对数据的管理,减少了管理的复杂性,提高了数据存储的精确性。
根据本发明的一些实施例,所述的应用容器存储引擎平台,还包括:
检测模块,用于:
在所述数据存储模块10对所述第一子待存储数据存储前,获取所述第一子待存储数据的数据量;
计算所述第一子待存储数据相对应的存储节点的剩余存储容量;
扩容模块,用于在所述第一子待存储数据的数据量大于所述子待存储数据相对应的存储节点的剩余存储容量时,对所述存储节点的存储空间进行扩容。
上述方案的工作原理:检测模块用于在所述数据存储模块10对所述第一子待存储数据存储前,获取所述第一子待存储数据的数据量;计算所述第一子待存储数据相对应的存储节点的剩余存储容量;扩容模块用于在所述第一子待存储数据的数据量大于所述子待存储数据相对应的存储节点的剩余存储容量时,对所述存储节点的存储空间进行扩容。
上述方案的有益效果:对待存储数据进行存储时,考虑存储节点的剩余存储空间是候必要的,在剩余存储空间小于待存储数据的数据量时,对存储节点的存储空间进行扩容,避免待存储数据无法存储到存储节点中,进而造成数据丢失的情况;保证了待存储数据的完整性。
根据本发明的一些实施例,所述第一控制模块3,还包括:
数据清洗模块6,用于:
在所述数据处理模块7对所述待存储数据进行数据处理前,对所述待存储数据进行数据分割处理,得到若干个第二子待存储数据;
分别将每个所述第二子待存储数据输入预先训练好的第一特征向量获取模型中,输出每个所述第二子待存储数据的第一特征向量;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的分别对应的第二特征值,每个空间维度对应一个第二特征值;
分别将每个第二子待存储数据的第二特征值与所述第二特征值对应的空间维度上的预设特征值进行比较,筛选出所述第二特征值大于预设特征值的空间维度,作为目标空间维度,将所述目标空间维度上的第二特征值作为第二子待存储数据的第二特征向量;
对所述第二特征向量进行降维处理,得到每个第二子待存储数据的哈希值;
将所述哈希值与预设数据库中的哈希值进行匹配,计算得到匹配度,筛选出所述匹配度大于等于预设匹配度的哈希值对应的第二子待存储数据,并作为冗余数据;
将所述冗余数据从待存储数据中进行剔除处理;
基于第一数据清洗策略对冗余数据剔除处理后的待存储数据进行数据清洗;
在基于所述第一数据清洗策略进行数据清洗时,获取所述待存储数据的当前清洗进度,根据所述当前清洗进度计算得到所述第一数据清洗策略的清洗速率;
判断所述清洗速率是否小于预设清洗速率,在确定所述清洗速率小于预设清洗速率时,计算所述清洗速率与预设清洗速率的差值,根据所述差值对所述第一清洗策略进行调整,得到第二清洗策略;
获取所述待存储数据中已清洗数据及未清洗数据;
根据所述第二清洗策略对所述未清洗数据进行清洗。
上述方案的工作原理:数据清洗模块6,用于在所述数据处理模块7对所述待存储数据进行数据处理前,对所述待存储数据进行数据分割处理,得到若干个第二子待存储数据;分别将每个所述第二子待存储数据输入预先训练好的第一特征向量获取模型中,输出每个所述第二子待存储数据的第一特征向量;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的分别对应的第二特征值,每个空间维度对应一个第二特征值;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的第二特征值,所谓空间维度,可以简单的理解为空间不断延伸的方向,不同的维度就是不同的方向。第二特征值表征在第二子待存储数据在不同维度空间中的强度;分别将每个第二子待存储数据的第二特征值与所述第二特征值对应的空间维度上的预设特征值进行比较,示例的,若所有空间维度的预设特征值都为0,筛选出所述第二特征值大于预设特征值的空间维度,作为目标空间维度,,即筛选出第二特征值不为0的空间维度,最大限度的保证原始数据的数据特征;将所述目标空间维度上的第二特征值作为第二子待存储数据的第二特征向量;那么,第二特征向量相对于第一特征向量,更加精确的表征着第二子待存储数据的数据特征;对所述第二特征向量进行降维处理,得到每个第二子待存储数据的哈希值;将所述哈希值与预设数据库中的哈希值进行匹配,计算得到匹配度,筛选出所述匹配度大于等于预设匹配度的哈希值对应的第二子待存储数据,并作为冗余数据;将所述冗余数据从待存储数据中进行剔除处理;基于第一数据清洗策略对冗余数据剔除处理后的待存储数据进行数据清洗;在基于所述第一数据清洗策略进行数据清洗时,获取所述待存储数据的当前清洗进度,根据所述当前清洗进度计算得到所述第一数据清洗策略的清洗速率;判断所述清洗速率是否小于预设清洗速率,在确定所述清洗速率小于预设清洗速率时,计算所述清洗速率与预设清洗速率的差值,根据所述差值对所述第一清洗策略进行调整,得到第二清洗策略;获取所述待存储数据中已清洗数据及未清洗数据;根据所述第二清洗策略对所述未清洗数据进行清洗。
上述方案的有益效果:数据清洗模块6,用于在所述数据处理模块7对所述待存储数据进行数据处理前,对所述待存储数据进行数据分割处理,得到若干个第二子待存储数据;分别将每个所述第二子待存储数据输入预先训练好的第一特征向量获取模型中,输出每个所述第二子待存储数据的第一特征向量;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的分别对应的第二特征值,每个空间维度对应一个第二特征值;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的第二特征值,所谓空间维度,可以简单的理解为空间不断延伸的方向,不同的维度就是不同的方向。第二特征值表征在第二子待存储数据在不同维度空间中的强度;分别将每个第二子待存储数据的第二特征值与所述第二特征值对应的空间维度上的预设特征值进行比较,示例的,若所有空间维度的预设特征值都为0,筛选出所述第二特征值大于预设特征值的空间维度,作为目标空间维度,最大限度的保证第二子待存储数据的特征,使得最终得到的第二子待存储数据的哈希值更加的精确;将所述目标空间维度上的第二特征值作为第二子待存储数据的第二特征向量;第二特征向量相对于第一特征向量,更加精确的表征着第二子待存储数据的特征;对所述第二特征向量进行降维处理,是将第二特征向量中包括的目标空间维度直接降维到相应的汉明空间,得到每个第二子待存储数据的哈希值;此种方法生成的哈希值即保留了原始数据的相似度信息,其内部各维之间也能够相互线性无关,将所述哈希值与预设数据库中的哈希值进行匹配,计算得到匹配度,筛选出所述匹配度大于等于预设匹配度的哈希值对应的第二子待存储数据,并作为冗余数据;将所述冗余数据从待存储数据中进行剔除处理;使得待存储数据数据更加的精简且精确,减少存储空间,基于第一数据清洗策略对冗余数据剔除处理后的待存储数据进行数据清洗;对待存储数据进行数据清洗,剔除掉待存储数据中的异常数据及无关数据;在待存储数据过多时,若清洗速率过低,会使得大量的运行数据聚集在一起,造成机器卡顿,在基于所述第一数据清洗策略进行数据清洗时,获取所述待存储数据的当前清洗进度,根据所述当前清洗进度计算得到所述第一数据清洗策略的清洗速率;判断所述清洗速率是否小于预设清洗速率,在确定所述清洗速率小于预设清洗速率时,计算所述清洗速率与预设清洗速率的差值,根据所述差值对所述第一清洗策略进行调整,得到第二清洗策略;获取所述待存储数据中已清洗数据及未清洗数据;根据所述第二清洗策略对所述未清洗数据进行清洗,保证对待存储数据的清洗速率,进而提高对待存储数据存储时的存储效率,增加待存储数据的精确性,减少存储节点的存储空间。
根据本发明的一些实施例,所述第一控制模块3,还包括:
数据加密模块,用于在所述数据存储模块10对所述第一子待存储数据存储前,对所述第一子待存储数据进行加密。
上述方案的工作原理:数据加密模块用于在所述数据存储模块10对所述第一子待存储数据存储前,对所述第一子待存储数据进行加密。
上述方案的有益效果:对第一子待存储数据进行加密,保证第一子待存储数据的安全性,避免不法分子盗走数据。
根据本发明的一些实施例,所述数据加密模块,包括:
加密指令获取模块,用于根据所述第一子待存储数据的类型查询预设数据类型-加密指令表,得到相对应的加密指令;
第三控制模块,用于根据所述加密指令对所述第一子待存储数据进行加密处理。
上述方案的工作原理:加密指令获取模块,用于根据所述第一子待存储数据的类型查询预设数据类型-加密指令表,得到相对应的加密指令;第三控制模块,用于根据所述加密指令对所述第一子待存储数据进行加密处理。
上述方案的有益效果:根据待存储数据的类型查询预设数据类型-加密指令表,得到的加密指令更加的精确,保证加密指令的复杂性及唯一性,进而保证第一子待存储数据的安全性。
根据本发明的一些实施例,计算一个存储节点的剩余存储容量,包括:
计算所述存储节点的负载K,如公式(1)所示:
Figure BDA0003334058740000141
其中,λ为所述存储节点的可靠度;M为所述存储节点的节点度;ζ为所述存储节点的临界因子;
根据计算所述存储节点的负载K,计算所述存储节点的剩余存储容量ψ,如公式(2)所示:
ψ=K(1+δ)×μ-W (2)
其中,δ为所述存储节点对已存储数据的最大调整系数;μ为所述存储节点的容量系数;W为所述存储节点已存储的数据量。
上述方案的工作原理及有益效果:在计算存储节点的剩余存储容量时,考虑所述存储节点对已存储数据的最大调整系数、所述存储节点的容量系数、所述存储节点已存储的数据量等因素,使得计算出来的剩余存储容量更加的精确,提高判断所述第一子待存储数据的数据量与所述剩余存储容量的精确性,便于在所述数据量大于所述剩余存储容量时,对所述存储节点的存储空间进行扩容,保证所述第一子待存储数据全部存储进去,保证了数据的完整性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种应用容器存储引擎平台,其特征在于,包括:
分配模块,用于为所述应用容器分配存储卷;
获取模块,用于获取所述应用容器运行时产生的待存储数据;
第一控制模块,用于对所述待存储数据进行数据处理,将经过数据处理后的待存储数据存储至所述存储卷中。
2.根据权利要求1所述的应用容器存储引擎平台,其特征在于,
所述获取模块,还用于获取所述应用容器中的镜像文件;
所述第一控制模块,还用于将所述镜像文件保存至与当前存储卷相邻的上一个存储卷中。
3.根据权利要求2所述的应用容器存储引擎平台,其特征在于,所述镜像文件包括所述应用容器的内核及所述应用容器中安装的软件。
4.根据权利要求1所述的应用容器存储引擎平台,其特征在于,所述分配模块包括:
标识获取模块,用于获取所述应用容器的标识;
第二控制模块,用于根据所述标识为所述应用容器分配相应的存储卷。
5.根据权利要求1所述的应用容器存储引擎平台,其特征在于,所述存储卷中包括若干个存储节点。
6.根据权利要求1所述的应用容器存储引擎平台,其特征在于,所述第一控制模块包括:
数据处理模块,用于:
根据所述待存储数据生成第一数据矩阵;
计算所述第一数据矩阵中每列的均值,得到若干个列均值,根据所述若干个列均值生成所述待存储数据的列均值矩阵;
根据所述第一数据矩阵计算得到所述待存储数据的协方差矩阵;
对所述协方差矩阵进行分解,得到所述协方差矩阵的对角阵;
对所述对角阵中的包括的数值按照从大到小的顺序进行排序,筛选出排序后的前预设个数的数值,作为第一特征值,并生成特征值矩阵;
根据所述列均值矩阵及所述特征值矩阵对所述待存储数据进行降维处理,得到所述待存储数据的低维矩阵;
根据所述特征值矩阵及所述低维矩阵生成第二数据矩阵,根据所述第二数据矩阵得到处理后的待存储数据;
数据分割模块,用于对处理后的待存储数据进行数据分割处理,得到若干个第一子待存储数据;
模型建立模块,用于:
构建类型信息获取模型;
获取样本子待存储数据及样本子待存储数据相对应的类型;
基于样本子待存储数据及样本子待存储数据相对应的类型对构建的类型信息获取模型进行训练;
在对类型信息获取模型训练的过程中,计算训练误差,在确定所述训练误差小于预设训练误差时,得到所述类型信息获取模型的目标模型参数;
将所述目标模型参数作为所述类型信息获取模型的模型参数,得到训练好的类型信息获取模型;
数据存储模块,用于将每个第一子待存储数据分别输入训练好的类型信息获取模型中,输出每个第一子待存储数据相对应的类型,根据所述类型分别将每个第一子待存储数据存储至所述存储卷中相对应的存储节点中。
7.根据权利要求6所述的应用容器存储引擎平台,其特征在于,还包括:
检测模块,用于:
在所述数据存储模块对所述第一子待存储数据存储前,获取所述第一子待存储数据的数据量;
计算所述第一子待存储数据相对应的存储节点的剩余存储容量;
扩容模块,用于在所述第一子待存储数据的数据量大于所述子待存储数据相对应的存储节点的剩余存储容量时,对所述存储节点的存储空间进行扩容。
8.根据权利要求6所述的应用容器存储引擎平台,其特征在于,所述第一控制模块,还包括:
数据清洗模块,用于:
在所述数据处理模块对所述待存储数据进行数据处理前,对所述待存储数据进行数据分割处理,得到若干个第二子待存储数据;
分别将每个所述第二子待存储数据输入预先训练好的第一特征向量获取模型中,输出每个所述第二子待存储数据的第一特征向量;所述第一特征向量包括每个第二子待存储数据在若干个空间维度上的分别对应的第二特征值,每个空间维度对应一个第二特征值;
分别将每个第二子待存储数据的第二特征值与所述第二特征值对应的空间维度上的预设特征值进行比较,筛选出所述第二特征值大于预设特征值的空间维度,作为目标空间维度,将所述目标空间维度上的第二特征值作为第二子待存储数据的第二特征向量;
对所述第二特征向量进行降维处理,得到每个第二子待存储数据的哈希值;
将所述哈希值与预设数据库中的哈希值进行匹配,计算得到匹配度,筛选出所述匹配度大于等于预设匹配度的哈希值对应的第二子待存储数据,并作为冗余数据;
将所述冗余数据从待存储数据中进行剔除处理;
基于第一数据清洗策略对冗余数据剔除处理后的待存储数据进行数据清洗;
在基于所述第一数据清洗策略进行数据清洗时,获取所述待存储数据的当前清洗进度,根据所述当前清洗进度计算得到所述第一数据清洗策略的清洗速率;
判断所述清洗速率是否小于预设清洗速率,在确定所述清洗速率小于预设清洗速率时,计算所述清洗速率与预设清洗速率的差值,根据所述差值对所述第一清洗策略进行调整,得到第二清洗策略;
获取所述待存储数据中已清洗数据及未清洗数据;
根据所述第二清洗策略对所述未清洗数据进行清洗。
9.根据权利要求6所述的应用容器存储引擎平台,其特征在于,所述第一控制模块,还包括:
数据加密模块,用于在所述数据存储模块对所述第一子待存储数据存储前,对所述第一子待存储数据进行加密。
10.根据权利要求9所述的应用容器存储引擎平台,其特征在于,所述数据加密模块,包括:
加密指令获取模块,用于根据所述第一子待存储数据的类型查询预设数据类型-加密指令表,得到相对应的加密指令;
第三控制模块,用于根据所述加密指令对所述第一子待存储数据进行加密处理。
CN202111288414.5A 2021-11-02 2021-11-02 一种应用容器存储引擎平台 Active CN114115730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288414.5A CN114115730B (zh) 2021-11-02 2021-11-02 一种应用容器存储引擎平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288414.5A CN114115730B (zh) 2021-11-02 2021-11-02 一种应用容器存储引擎平台

Publications (2)

Publication Number Publication Date
CN114115730A true CN114115730A (zh) 2022-03-01
CN114115730B CN114115730B (zh) 2023-06-13

Family

ID=80380115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288414.5A Active CN114115730B (zh) 2021-11-02 2021-11-02 一种应用容器存储引擎平台

Country Status (1)

Country Link
CN (1) CN114115730B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018032368A1 (zh) * 2016-08-13 2018-02-22 深圳市樊溪电子有限公司 基于压缩感知和稀疏重构算法的区块链***数据处理方法
CN108984340A (zh) * 2018-06-06 2018-12-11 深圳先进技术研究院 存储器数据的容错保护方法、装置、设备及存储介质
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN110019205A (zh) * 2017-10-30 2019-07-16 杭州海康威视数字技术股份有限公司 一种数据存储、还原方法、装置及计算机设备
CN110362277A (zh) * 2019-07-19 2019-10-22 重庆大学 基于混合存储***的数据分类存储方法
CN112579008A (zh) * 2020-12-24 2021-03-30 深信服科技股份有限公司 容器编排引擎的存储部署方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018032368A1 (zh) * 2016-08-13 2018-02-22 深圳市樊溪电子有限公司 基于压缩感知和稀疏重构算法的区块链***数据处理方法
CN110019205A (zh) * 2017-10-30 2019-07-16 杭州海康威视数字技术股份有限公司 一种数据存储、还原方法、装置及计算机设备
CN108984340A (zh) * 2018-06-06 2018-12-11 深圳先进技术研究院 存储器数据的容错保护方法、装置、设备及存储介质
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN110362277A (zh) * 2019-07-19 2019-10-22 重庆大学 基于混合存储***的数据分类存储方法
CN112579008A (zh) * 2020-12-24 2021-03-30 深信服科技股份有限公司 容器编排引擎的存储部署方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114115730B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
Bennett et al. Density-based indexing for approximate nearest-neighbor queries
Wan et al. An algorithm for multidimensional data clustering
CN111709491A (zh) 基于自编码器的异常检测方法、装置、设备及存储介质
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
JP5976115B2 (ja) 画像検索方法
US20070299835A1 (en) Search engine for software components and a search program for software components
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN115412371B (zh) 基于物联网的大数据安全防护方法、***及云平台
CN111708794B (zh) 基于大数据平台的数据比对方法、装置和计算机设备
US20210263903A1 (en) Multi-level conflict-free entity clusters
CN112446557B (zh) 一种基于深度学习的磁盘故障预测规避方法及***
CN115277189B (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN113836806A (zh) 一种phm模型构建方法、***、存储介质及电子设备
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
CN114115730A (zh) 一种应用容器存储引擎平台
US20030149698A1 (en) System and method for positioning records in a database
Alippi et al. Cluster partitioning in image analysis classification: a genetic algorithm approach
CN114332745B (zh) 一种基于深度神经网络的近重复视频大数据清洗方法
CN113052534B (zh) 基于半监督聚类的地址分配方法、装置、设备及存储介质
US11501020B2 (en) Method for anonymizing personal information in big data and combining anonymized data
CN111522873B (zh) 区块生成方法、装置、计算机设备和存储介质
CN114385080A (zh) 一种区块链数据的存储方法及***
CN117473094B (zh) 日志分类方法及***
CN113805852B (zh) 一种提高数据安全性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant