CN106066890B - 一种分布式高性能数据库一体机*** - Google Patents

一种分布式高性能数据库一体机*** Download PDF

Info

Publication number
CN106066890B
CN106066890B CN201610427650.3A CN201610427650A CN106066890B CN 106066890 B CN106066890 B CN 106066890B CN 201610427650 A CN201610427650 A CN 201610427650A CN 106066890 B CN106066890 B CN 106066890B
Authority
CN
China
Prior art keywords
storage
performance
data
database
storage equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610427650.3A
Other languages
English (en)
Other versions
CN106066890A (zh
Inventor
游录金
叶磊
彭俊杰
夏浩
焦圣品
钱忠宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Original Assignee
SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DRAGONNET TECHNOLOGY CO LTD filed Critical SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Priority to CN201610427650.3A priority Critical patent/CN106066890B/zh
Publication of CN106066890A publication Critical patent/CN106066890A/zh
Application granted granted Critical
Publication of CN106066890B publication Critical patent/CN106066890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明涉及一种分布式高性能数据库一体机***,包括数据库一体机和架设在数据库一体机上的辅助模块,数据库一体机包括:用户主机,用于进行业务处理;Oracle应用主机,用于向用户主机并返回处理结果;存储设备,用于存储用户主机所需数据;数据存储网络,用于连接Oracle应用主机和存储设备;辅助模块包括:存储设备管理模块,用于统一调度存储设备;分布式高性能智能存储模块;用于与存储设备管理模块通讯,实现存储设备的分布式高性能智能存储;Oracle主机适配模块,用于将存储设备映射为标准存储硬件资源。与现有技术相比,本发明具有处理数据量大、处理速度快、处理性能强以及可靠性高等优点。

Description

一种分布式高性能数据库一体机***
技术领域
本发明涉及Oracle数据库存储管理领域,尤其涉及一种分布式高性能数据库一体机***。
背景技术
Oracle数据库是Oracle公司推出的十分优秀的DMBS,当前Oracle DBMS以及相关产品几乎在全世界各个工业领域中都有应用。无论大型企业的在线事物处理及数据仓库应用,还是中小型的联机事物处理业务,都有众多Oracle数据库***成功使用的典范应用。
为了部署Oracle数据库,最常见的结构为多节点RAC(Real ApplicationCluster)加共享存储的方式来实现。图1是典型建设方式,包括1为用户主机1、Oracle RAC节点2和共享存储设备3,这样的结构模式在数据中心中已经存在十多年,成熟可靠,相当稳定。
一般选择小型机或者高端PC服务器部署为Oracle RAC Node,也就是常说的数据库高可用节点,通过高速的FC存储网络,访问共享存储设备(Shared Storage)。用户(User)通过TCP/IP网络连接Oracle数据库的RAC节点,Oracle RAC节点可以处理结果返回用户,当其中一个数据库节点出现异常时,不影响用户使用。
新技术高速发展的今天,伴随着数据量的高速增长,产生了海量的数据需要处理,数据规模动辄几十TB,上百TB,甚至达到PB的数据。这种情况下传统的Oracle共享式存储架构就因为有太多的存储输入/输出的等待不仅产生巨大的浪费,同时因产生的性能瓶颈,使得这种低效率架构方式不能满足用户的业务需求。同时这种***结构的在存储性能、容量扩展和管理方面越来越成为信息化发展的瓶颈。
当前传统架构下的共享存储设备,即使在大量磁盘支持下,IOPS值维持在5~10万/秒。当前FC网路最高能够达到16Gb/s的接口速率,即使中高端的存储,采用多端口并行,其吞吐率也只能到4~5GB/s的水平,这在面对TB级别的数据处理来说,一般业务时间都要超过20小时,明显是无法满足用户业务需求。
所以,传统Oracle RAC结构下的数据库部署模式,在现在大数据量处理中存在较为严重的性能瓶颈问题。
发明内容
本发明的目的是针对上述问题提供一种处理数据量大、处理速度快、处理性能强以及可靠性高的分布式高性能数据库一体机***。
为实现本发明所述目的,本发明提供一种分布式高性能数据库一体机***,包括数据库一体机和架设在数据库一体机上的辅助模块,所述数据库一体机包括:
用户主机,用于进行业务处理;
Oracle应用主机,通过TCP/IP网络连接用户主机,用于向用户主机返回处理结果;
存储设备,用于存储用户主机所需的数据;
数据存储网络,分别连接Oracle应用主机和存储设备,用于使Oracle应用主机可以访问存储设备;
所述辅助模块包括:
存储设备管理模块,架设于存储设备上,用于统一调度存储设备,完成存储设备的基础管理工作;
分布式高性能智能存储模块,架设于存储设备上,用于与存储设备管理模块通讯,实现存储设备的分布式高性能智能存储;
Oracle主机适配模块,架设于Oracle应用主机上,用于将存储设备映射为标准存储硬件资源使Oracle应用主机访问存储设备。
所述Oracle应用主机为开放的X86架构的服务器。
所述数据存储网络为InfiniBand网络。
所述存储设备为分布式高性能并行存储***,包含多个存储节点,每个存储节点包括PC服务器本地磁盘和相应容量的高性能Flash SSD。
所述存储设备管理模块包括:
存储调度单元,用于将PC服务器本地磁盘划分为不同的区块,并将各个区块标记为对象数据空间,同时将Flash SSD标记为缓存空间;
存储通讯单元,用于与分布式高性能智能存储模块通讯,实现对存储设备的高性能智能存储;
存储驱动单元,用于根据调度单元和通讯单元的命令,实现存储设备的读写操作。
所述分布式高性能智能存储模块包括:
通讯单元,用于与存储设备管理模块通讯,实现对存储设备的数据存取操作;
分布存储单元,用于将数据均匀的分布在所有对象数据空间之中,并根据访问频度调入Flash SSD中,同时在每一个存储节点保留2份或3份数据副本防止节点故障导致数据丢失;
智能调度单元,用于将故障的PC服务器本地磁盘标记为失效并将该故障磁盘中的数据策略冗余分布至剩余磁盘,并在故障磁盘被替换后重新均匀分布数据。
所述InfiniBand网络中的交换机每端口的交换速率为56Gb/s。
所述每个存储节点包含的PC服务器本地磁盘的数量在12块至24块之间。
与现有技术相比,本发明具有以下有益效果:
(1)Oracle应用主机采用开放的X86架构的服务器,满足大规模的在TB级数据量以上的OLTP/OLAP应用需要。
(2)数据存储网络选择了技术新颖、网络带宽高、网络延迟小并在超级计算机中广泛应用的InfiniBand网络交换技术,并采用每端口56Gb/s的交换速率的交换机,相对传统FC网络交换机带宽提升3.5倍,极大的提高数据库的IO吞吐能力。
(3)存储设备为分布式高性能的并行存储***,相对于传统的专用共享存储架构,存储的IOPS和吞吐能力都有了大幅度的提高。
(4)设有高性能智能存储模块,实现了对存储数据的高性能分布,并在存储设备中出现问题时自动按照新的冗余策略分布数据,保证了数据库一体机的高效性。
(5)高性能智能存储模块中对数据设有备份,不存在单点故障,任何一个存储节点的损坏不会影响业务应用,保证了数据库一体机的可靠性。
(6)存储设备管理模块中,引入高性能SSD磁盘及高效率的热点数据缓存技术,使得存储节点同时具备高性能SSD特性和传统磁盘存储特性。
附图说明
图1为传统Oracle RAC架构示意图;
图2为分布式高性能存储Oracle RAC架构示意图;
图3为本发明的结构示意图;
图4为存储节点内部磁盘管理逻辑示意图;
图5为缓存管理示意图。
图中:1为用户主机,2为Oracle RAC节点,3为共享存储设备,4为分布式高性能存储***,5为Oracle主机适配模块,6为分布式高性能智能存储模块,7为存储设备管理模块,8为磁盘管理软件,9为内存DRAM,10为NVDIMM,11为Flash SDD,12为磁盘HDD。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示为传统Oracle RAC架构,本发明是基于Oracle数据库应用,在保障其Oracle RAC高可用的同时,通过标准硬件上实现一系列新架构软件集成***,机在开放标准化PC服务器和分布式、高性能软件,组建一套高性能的数据库技术架构。
如图2-图3所示,本实施例提供一种分布式高性能数据库一体机***,其存储设备为分布式高性能存储***4,其核心组件包括Oracle主机适配模块5、分布式高性能智能存储模块6和存储设备管理模块7,通过这些组件的协同工作来完成数据库一体机的协同工作,提升数据库应用性能。
在本方案中,Oracle RAC节点采用开放的X86架构的服务器,满足大规模的OLTP/OLAP应用需要,部署基于Oracle RAC业务应用。数据存储网络选择技术新颖、网络带宽高、网络延迟小,而且在超级计算机中广泛应用的InfiniBand网络交换技术,本方案中采用每端口56Gb/s的交换速率的交换机,相对传统FC网络交换机网络带宽提升3.5倍,极大的提高数据库的IO吞吐能力。
存储***应用放弃传统的专用共享存储架构,通过使用开放的标准化PC服务器本地磁盘的模式来充当存储节点,建立一个分布式高性能的并行存储***。新型分布式高性能存储用PC服务器节点将拥有12~24块物理磁盘,并且配置相应容量的高性能Flash SSD。通过存储节点内部的热点数据缓存调度优化技术,提升存储的IOPS和吞吐能力。
如图3所示为高性能数据库一体机的技术架构的主要逻辑结构。其中各个模块完成的主要功能如下:
1、存储设备管理模块
存储设备管理模块(磁盘管理模块)统一调度管理PC服务器的磁盘以及高速FlashSSD的重要组件,完成磁盘的基础管理工作。该模块将本地的磁盘划分成不同的区块(Unit),每一个区块将成为智能存储软件管理的对象数据空间(Data Unit,简称DU),同时将Flash SSD标记为缓存空间(Flash Unit),设备驱动模块同时承担实际的数据写入工作。存储设备管理模块软件负责和分布式高性能智能存储软件通讯。
如图4所示为本实施例使用的混合存储介质访问的数据迁移,在存储节点配置缓存是提高存储***性能的重要方法。通过将共享数据临时存储在高速的DRAM内存中,海量共享数据的操作速度得到显著提升。尽管具有纳秒(ns)级的读写速度,DRAM较低的存储容量和高昂的成本限制了其用于大规模缓存来提升HDD读写访问的能力。Flash SSD(闪存固态硬盘)作为新型存储介质,具有功耗小、速度快、容量大的优势,其成本和性能介于DRAM和HDD之间,因此可以作为DRAM与HDD之间的二级缓存,来有效提高I/O带宽和IOPS。尽管FlashSSD作为缓存非常具有吸引力,但其在读写操作上存在较大的不对称性(即读远快于写),闪存的擦除次数有限。现有的缓存内容替换算法主要针对于DRAM操作,较少考虑闪存作为缓存的特征,以及多级缓存的架构。因此,本实施例基于业务特性,联合设计两级缓存管理策略。
2、分布式高性能智能存储软件
分布式高性能智能存储软件是整个数据存储过程的核心所在。智能存储软件负责了多存储节点数据的性能均衡分布存储,将数据均匀的分布在所有的DU之中,并且将数据根据访问频度调入Flash SSD中,提高***整体访问性能。
分布式高性能智能存储软件的另一大功能是负责数据的可靠性,智能存储软件根据服务策略,会在不同的存贮节点间保留2~3份数据副本,从而保证当一个节点故障时,既不会引起数据的任何丢失,又不影响上层数据库节点应用。同样,当单一磁盘发生故障的时候,智能存储软件会将故障磁盘标记为失效状态的同时数据在剩余的磁盘中进一步策略冗余分布,以保证数据的可靠性。当故障磁盘被替换后,自动的完成新加入磁盘数据的均衡分布,恢复初始状态。分布式高性能智能存储软件负责与存储设备管理模块和设备驱动模块相互通讯,协调完成数据的存取。
因此,本实施例基于业务特性,联合设计缓存管理策略。如图5所示,针对DRAM较低的容量和Flash SSD写操作上不足,引入由DRAM和非易失性内存芯片构成的超级内存NVDIMM,设计新型的读写分离技术。设计新型的读写分离方法:针对金融数据业务具有较多的、随机的小文件写操作特点,引入超级内存NVDIMM。易失性的DRAM将小的脏数据先写入非易失性的NVDIMM,当NVDIMM的脏数据汇集到一定的阈值再将连续块批量写入HDD,随机块写入Flash SSD。本实施例与DRAM到HDD的直接写入相比,显著降低了I/O操作次数;与DRAM到Flash SSD的写入相比,降低了对Flash SSD的擦除次数,提高了数据一致性。NVDIMM主要用于HDD的写缓存,而Flash SDD主要用于HDD的读缓存,从而实现了较大程度上的读写操作分离。
3、Oracle主机适配软件
Oracle数据库并不能直接识别后端分布式高性能存储***,所以需要在Oracle应用主机中部署Oracle主机适配软件。通过Oracle主机适配软件将分布式高性能存储映射为标准存储硬件资源,即映射传统Oracle ASM可识别的标准磁盘。使得Oracle应用主机就不需要做任何改动,直接通过该软件模块访问存储硬件资源。Oracle主机适配软件模块负责和分布式高性能智能存储软件通讯。
通过上述存储设备管理模块、分布式高性能智能存储软件模块和Oracle主机适配软件模块的有机组合,以开放式标准化PC服务器为基础,以数据存储的高效率和可靠性的分布式高性能智能存储软件为核心,结合高速的Flash SSD、高速、低延迟的InfiniBand交换机。通过软硬件整合创新,达到了远超传统主机和存储***数据库结构的性能,简化管理负担。

Claims (6)

1.一种分布式高性能数据库一体机***,包括数据库一体机和架设在数据库一体机上的辅助模块,其特征在于,所述数据库一体机包括:
用户主机,用于进行业务处理;
Oracle应用主机,通过TCP/IP网络连接用户主机,用于向用户主机返回处理结果;
存储设备,用于存储用户主机所需的数据,该存储设备为分布式高性能并行存储***,包含多个存储节点,每个存储节点包括PC服务器本地磁盘和相应容量的高性能Flash SSD;
数据存储网络,分别连接Oracle应用主机和存储设备,用于使Oracle应用主机可以访问存储设备;
所述辅助模块包括:
存储设备管理模块,架设于存储设备上,用于统一调度存储设备,完成存储设备的基础管理工作;
分布式高性能智能存储模块,架设于存储设备上,用于与存储设备管理模块通讯,实现存储设备的分布式高性能智能存储;
Oracle主机适配模块,架设于Oracle应用主机上,用于将存储设备映射为标准存储硬件资源使Oracle应用主机访问存储设备;
所述分布式高性能智能存储模块包括:
通讯单元,用于与存储设备管理模块通讯,实现对存储设备的数据存取操作;
分布存储单元,用于将数据均匀的分布在所有对象数据空间之中,并根据访问频度调入Flash SSD中,同时在每一个存储节点保留2份或3份数据副本防止节点故障导致数据丢失;
智能调度单元,用于将故障的PC服务器本地磁盘标记为失效并将该故障磁盘中的数据策略冗余分布至剩余磁盘,并在故障磁盘被替换后重新均匀分布数据。
2.根据权利要求1所述的分布式高性能数据库一体机***,其特征在于,所述Oracle应用主机为开放的X86架构的服务器。
3.根据权利要求1所述的分布式高性能数据库一体机***,其特征在于,所述数据存储网络为InfiniBand网络。
4.根据权利要求1所述的分布式高性能数据库一体机***,其特征在于,所述存储设备管理模块包括:
存储调度单元,用于将PC服务器本地磁盘划分为不同的区块,并将各个区块标记为对象数据空间,同时将Flash SSD标记为缓存空间;
存储通讯单元,用于与分布式高性能智能存储模块通讯,实现对存储设备的高性能智能存储;
存储驱动单元,用于根据存储调度单元和存储通讯单元的命令,实现存储设备的读写操作。
5.根据权利要求3所述的分布式高性能数据库一体机***,其特征在于,所述InfiniBand网络中的交换机每端口的交换速率为56Gb/s。
6.根据权利要求1所述的分布式高性能数据库一体机***,其特征在于,所述每个存储节点包含的PC服务器本地磁盘的数量在12块至24块之间。
CN201610427650.3A 2016-06-16 2016-06-16 一种分布式高性能数据库一体机*** Active CN106066890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610427650.3A CN106066890B (zh) 2016-06-16 2016-06-16 一种分布式高性能数据库一体机***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610427650.3A CN106066890B (zh) 2016-06-16 2016-06-16 一种分布式高性能数据库一体机***

Publications (2)

Publication Number Publication Date
CN106066890A CN106066890A (zh) 2016-11-02
CN106066890B true CN106066890B (zh) 2020-02-18

Family

ID=57421256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610427650.3A Active CN106066890B (zh) 2016-06-16 2016-06-16 一种分布式高性能数据库一体机***

Country Status (1)

Country Link
CN (1) CN106066890B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153759B (zh) * 2016-12-05 2021-07-09 ***通信集团公司 一种分布式数据库的数据传输方法、中间层服务器及***
CN106843770A (zh) * 2017-01-23 2017-06-13 北京思特奇信息技术股份有限公司 一种分布式文件***中小文件数据存储、读取方法及装置
CN106991120A (zh) * 2017-02-22 2017-07-28 杭州沃趣科技股份有限公司 一种实现Oracle数据库同机房零数据丢失的方法
CN106933514A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种asm磁盘组冷热数据自动分布方法及***
CN109213827B (zh) * 2017-07-03 2022-07-08 阿里云计算有限公司 一种数据处理***、方法、路由器及从数据库
CN107463336B (zh) * 2017-08-07 2020-09-22 苏州浪潮智能科技有限公司 一种ssd缓存中固态磁盘失效的处理方法及***
CN107544757A (zh) * 2017-08-11 2018-01-05 郑州云海信息技术有限公司 一种基于MCS***快速查询磁盘id和Firmware版本的方法及***
CN109144412A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种iSCSI适配器批量扫描方法和***
CN110161930B (zh) * 2019-06-05 2021-11-09 安徽三实信息技术服务有限公司 一种数据监控***及其数据监控方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385628A (zh) * 2011-11-14 2012-03-21 北京锐安科技有限公司 一种基于jdbc的数据分布式处理方法
CN103516809A (zh) * 2013-10-22 2014-01-15 浪潮电子信息产业股份有限公司 一种高扩展、高性能的分布式存储体系结构
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机
CN104035522A (zh) * 2014-06-16 2014-09-10 南京云创存储科技有限公司 大数据库一体机

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9185054B2 (en) * 2010-09-15 2015-11-10 Oracle International Corporation System and method for providing zero buffer copying in a middleware machine environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385628A (zh) * 2011-11-14 2012-03-21 北京锐安科技有限公司 一种基于jdbc的数据分布式处理方法
CN103516809A (zh) * 2013-10-22 2014-01-15 浪潮电子信息产业股份有限公司 一种高扩展、高性能的分布式存储体系结构
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机
CN104035522A (zh) * 2014-06-16 2014-09-10 南京云创存储科技有限公司 大数据库一体机

Also Published As

Publication number Publication date
CN106066890A (zh) 2016-11-02

Similar Documents

Publication Publication Date Title
CN106066890B (zh) 一种分布式高性能数据库一体机***
CN107967124B (zh) 一种分布式持久性内存存储***及方法
US11029853B2 (en) Dynamic segment allocation for write requests by a storage system
CN102012791B (zh) 基于Flash的数据存储PCIE板卡
CN103873559A (zh) 一种高速存储的数据库一体机
US20180107601A1 (en) Cache architecture and algorithms for hybrid object storage devices
CN102024044A (zh) 分布式文件***
CN102637147A (zh) 利用固态硬盘作为计算机写缓存的存储***以及相应的管理调度方法
CN103516549B (zh) 一种基于共享对象存储的文件***元数据日志机制
CN103049220A (zh) 存储控制方法、存储控制装置和固态存储***
CN105468297A (zh) 一种云存储***内主从设备数据快速同步的方法
CN109240603A (zh) 全闪存服务器
CN111736764B (zh) 一种数据库一体机的存储***及数据请求处理方法、装置
CN112379825B (zh) 基于数据特征分池的分布式数据存储方法及装置
CN113760796B (zh) 一种基于hbm缓存的ssd固态盘
US11416403B2 (en) Method and apparatus for performing pipeline-based accessing management in storage server with aid of caching metadata with hardware pipeline module during processing object write command
WO2017107162A1 (zh) 一种异构混合内存组件、***及存储方法
CN102929813A (zh) 一种pci-e接口固态硬盘控制器的设计方法
CN100383721C (zh) 一种异构双***总线的对象存储控制器
CN208622084U (zh) 全闪存服务器
CN101859232A (zh) 一种可变长度数据存储接口
CN114661637B (zh) 针对射电天文数据密集型科学运算的数据处理***及方法
Imazaki et al. EFFICIENT SNAPSHOT METHOD FOR ALL-FLASH ARRAY.
CN114415985A (zh) 一种基于数控分离架构的存储数据处理单元
KR20230163238A (ko) 분산된 스토리지 장치들을 관리하는 컴퓨팅 시스템, 및 그것의 동작하는 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant