CN104503867B - 一种扩展柜掉线并重连后的灾难自动恢复方法 - Google Patents
一种扩展柜掉线并重连后的灾难自动恢复方法 Download PDFInfo
- Publication number
- CN104503867B CN104503867B CN201410817445.9A CN201410817445A CN104503867B CN 104503867 B CN104503867 B CN 104503867B CN 201410817445 A CN201410817445 A CN 201410817445A CN 104503867 B CN104503867 B CN 104503867B
- Authority
- CN
- China
- Prior art keywords
- extension cabinet
- data
- extension
- cabinet
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种扩展柜掉线并重连后的灾难自动恢复方法,属于计算机存储技术领域;包括以下步骤:1、扫描硬件设备建立硬件拓扑图,创建循环缓存队列,保存扩展柜状态标识信息;2、数据写入扩展柜时同步写入缓存队列,若写入成功,更新状态标识信息;若写入失败,检查扩展柜是否正常连接,如是则读取循环缓存队列中的数据,再次写入;否则保存相关信息;3、扩展柜接入***后,检查其是否为***原有设备,如是则根据相关信息恢复存储,恢复配置,并导入其掉线前的数据;如否,则为新加入的设备创建循环缓存队列,保存状态标识信息。对比现有技术,本发明方法提高了磁盘阵列产品的易用性、数据的安全性,减少了现场维护人次,降低了产品维护成本。
Description
技术领域
本发明涉及一种扩展柜掉线并重连后的灾难自动恢复的方法,属于计算机存储技术领域。
背景技术
当前数据存储经常采用磁盘阵列(Redundant Arrays of independent Disks,RAID),即独立磁盘冗余阵列,它在弥补单个磁盘空间有限、性能不强这些缺陷的同时,提高了数据的安全性,从而得到广泛的应用。然而装载多块磁盘的主柜,其存储空间亦不足以应对数据爆发式的增长,所以引入了作为主柜容量扩展单元而存在的扩展柜。这就决定了扩展柜并非独立部件,不能脱离主柜而单独存在。然而扩展柜的引入,给存储***带来新的问题。
现有技术中,当扩展柜在使用过程中掉线后重新连接到主柜,***只能发现扩展柜上的存储介质,无法自动恢复相应的文件级和块级存储导出服务,客户需中断现有主柜的存储服务来重启整个***,或需联系专业人员去手工恢复配置,以使扩展柜能提供存储服务;而在扩展柜掉线过程中丢失的数据,则不可能再找回。
发明内容
本发明的目的是为解决现有扩展柜掉线时正在写入的数据丢失,重连后业务无法自动恢复的问题,提供一种扩展柜掉线并重连后的灾难自动恢复的方法。
本发明的目的是通过以下技术方案实现的:
一种扩展柜掉线并重连后的灾难自动恢复的方法,包括以下步骤:
步骤一、启动守护进程,守护进程根据硬件的连接关系,创建硬件拓扑结构图、循环缓存队列,搜集并保存扩展柜的状态标识信息;
在所述步骤一中,存储***加电后,加载控制器的驱动程序,驱动程序将启动守护进程,该进程扫描直接或间接连接在HBA卡上的背板、磁盘,创建HBA卡之下的硬件拓扑结构图。并以扩展柜为一个整体,为每个扩展柜创建一个循环缓存队列,搜集扩展柜的状态标识信息并保存。
扩展柜状态标识信息包含的信息如扩展柜中每个磁盘的最后一次写入时间、用于标识扩展柜中存储介质是否使用的位图信息等。
步骤二、数据写入扩展柜时进行数据一致性保护;
在所述步骤二中,守护进程接收到***向扩展柜写入数据的请求后,在将数据写入磁盘的同时,写入步骤一中所创建的扩展柜相应的循环缓存队列中。当扩展柜返回正确写入时,删除缓存队列中写入的数据,更新扩展柜状态标识信息。如果数据写入扩展柜失败,执行步骤三。
步骤三、数据写入扩展柜失败时检查扩展柜是否正常连接;
在所述步骤三中,检查扩展柜是否正常连接。如果扩展柜正常连接,则重新下发步骤二中循环缓存队列所保存的数据,成功写入后更新扩展柜的状态标识信息,删除扩展柜循环缓存队列中的数据;如果检测到扩展柜掉线,则保存扩展柜状态标识信息和掉线扩展柜的拓扑结构图(掉线扩展柜的拓扑结构图,是步骤一中保存的硬件拓扑结构图的一个子图),同时更新硬件拓扑结构图。
步骤四、守护进程定时检查缓存数据的时效性。
在所述步骤四中,守护进程定时扫描缓存数据,检查数据的保存时间与当前的***时间。对于超过一定时间的缓存数据选择丢弃。释放扩展柜的循环缓存队列、扩展柜状态标识信息、扩展柜拓扑结构图所使用的空间。
作为优选,可以为缓存的数据设置一个默认的失效时间T并保存在配置文件中,用户可以更改配置文件中的失效时间T。
步骤五、扩展柜接入***时进行业务恢复;
在所述步骤五中,扫描加入扩展柜的信息,与步骤三中保存的扩展柜的拓扑结构图进行匹配。如果识别到该扩展柜为新设备,则更新硬件拓扑结构图,并为新加入的扩展柜创建循环缓存队列,搜集扩展柜状态标识信息并保存;如果识别到该扩展柜为***原有的扩展柜,更新硬件拓扑结构图,并根据扩展柜磁盘中的超级块信息和配置信息自动配置相关存储导出服务,恢复相关存储导出服务到扩展柜掉线前的状态。
步骤六、扩展柜业务恢复的前提下进行数据恢复;
在所述步骤六中,检查扩展柜的状态标识信息与记录的扩展柜状态标识信息是否一致,如果一致,将相应循环缓存队列中的数据恢复到扩展柜,并更新扩展柜状态标识信息;如果不一致,丢弃循环缓存队列中的数据,重新搜集扩展柜状态标识信息并保存。
有益效果
本发明实现了一种扩展柜掉线并重连后的灾难自动恢复方法,无论扩展柜因为什么原因而失去连接,或是连接线故障,或是误操作等等,当扩展柜在规定的时间内再次连接到主机的时候,只要扩展柜中的数据能够恢复,***识别到扩展柜后就会自动根据扩展柜原有的超级块信息和相关配置信息进行恢复,在不中断主柜的存储服务的情况下恢复扩展柜相关的存储导出服务并恢复扩展柜掉线时的缓存数据。
重新连接后自动恢复扩展柜的存储和配置,并能恢复扩展柜掉线时的缓存数据,大大提高了产品的易用性、数据的安全性,明显减少维护人员现场维护的次数,从而大幅降低公司产品的维护成本,进而赢得更高的客户满意度。
附图说明
图1为现有存储***框架结构示意图;
图2为本发明方法数据写入的处理流程图
图3为扩展柜接入的处理流程图
具体实施方式
下面将结合附图和实施例对本发明加以详细说明,同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示为现有存储***框架结构示意图,主柜上的存储介质通过主柜上的背板,连接到内核;扩展柜上的存储介质,通过扩展柜的级连(可多级级连),连接到内核。为了满足不同的应用需求,内核通过控制器驱动、RAID驱动、Volume驱动,在存储介质上创建NAS卷、ISCSI卷或FC卷,并启动相应的服务进程。云端的客户端通过网络访问存储***,存储***在收到客户端的请求后,会根据客户端所使用的不同协议,提供不同的导出服务。
下面通过将***启动,扩展柜掉电,之后扩展柜重新上电的过程对本发明方法进行说明。
根据步骤一、***上电后,会自动加载控制器的驱动程序,驱动程序启动守护进程。守护进程扫描直接或间接连接在HBA卡上的硬件,以扩展柜为单位,创建硬件拓扑结构图,为每个扩展柜创建一个循环缓存队列,同时搜集扩展柜的状态标识信息并保存;
在创建硬件拓扑图时,可用硬件的序号SN来区分不同的硬件设备。
循环缓存队列可根据实际的使用情况动态的调节自己的空间,循环缓存队列包括头指针和尾指针。
在扩展柜上创建RAID、卷组、逻辑卷,并向扩展柜写入数据,接下来说明数据写入扩展柜的处理流程。
如图2所示为数据写入的流程图,对应于步骤二和步骤三。
根据步骤二,当***向扩展柜写入数据时,同时写入步骤一中所创建的扩展柜相应的循环缓存队列中。当扩展柜返回正确写入时,删除缓存队列中写入的数据,对于缓存循环队列,可以通过将循环缓存队列尾指针的值赋给头指针实现,同时更新扩展柜状态标识信息。如果数据写入扩展柜失败,把循环缓存队列中的数据保存起来。
在写入数据的过程中,切断扩展柜的电源线,使扩展柜掉线,说明扩展柜掉线后的处理流程。
数据在写入扩展柜时失败,可能原因是扩展柜突然掉线,也可能是扩展柜在线,其它原因导致写入失败,此时需要检查扩展柜是否正常连接。
根据步骤三,如果扩展柜正常连接,则重新下发步骤二中循环缓存队列所保存的数据,成功写入后更新扩展柜的状态标识信息,删除扩展柜循环缓存队列中的数据;如果检测到扩展柜掉线,则更新扩展柜状态标识信息,并把扩展柜状态标识信息和扩展柜的拓扑结构图进行保存,同时更新步骤一所述的硬件拓扑结构图。
由于不确定扩展柜是否会再次连接到主柜,所以需要对保存的缓存数据进行清理。
根据步骤四,守护进程定时扫描缓存数据,检查数据的保存时间与当前的***时间。对于超过一定时间的缓存数据选择丢弃,释放扩展柜的循环缓存队列、扩展柜状态标识信息、扩展柜拓扑结构图所使用的空间。
作为优选,可以为缓存的数据设置一个默认的失效时间T并保存在配置文件中,用户可以更改配置文件中的失效时间T。
如图3所示为扩展柜加入***后的处理流程图,对应步骤五和步骤六。
根据步骤五,扫描加入扩展柜的信息,与步骤三中保存的扩展柜的拓扑图进行匹配。如果识别到该扩展柜为新设备,则更新硬件拓扑结构图,并为新加入的扩展柜创建循环缓存队列,搜集扩展柜状态标识信息并保存;如果识别到该扩展柜为***原有的扩展柜,则根据扩展柜磁盘中的超级块信息和配置信息自动配置相关存储导出服务,恢复相关存储导出服务到扩展柜掉线前的状态。
在恢复存储,恢复配置成功的基础上,尝试恢复扩展柜掉线时未保存的缓存数据。根据步骤六,检查扩展柜的状态信息标识与记录的扩展柜状态标识信息是否一致,如果一致,将相应循环缓存队列中的数据恢复到扩展柜,并更新扩展柜状态标识信息;如果不一致,丢弃循环缓存队列中的数据,重新搜集扩展柜状态标识信息并保存。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:包括以下步骤:
步骤一、启动守护进程,守护进程根据硬件的连接关系,创建硬件拓扑结构图、循环缓存队列,搜索并保存扩展柜的状态标识信息;
步骤二、数据写入扩展柜时进行数据一致性保护,过程如下:
守护进程接收到***向扩展柜写入数据的请求后,在将数据写入磁盘的同时,写入步骤一中所创建的扩展柜相应的循环缓存队列中;当扩展柜返回正确写入时,删除循环缓存队列中写入的数据,更新扩展柜状态标识信息;如果数据写入扩展柜失败,执行步骤三;
步骤三、数据写入扩展柜失败时检查扩展柜是否正常连接并进行相应处理,具体过程如下所述:
如果扩展柜正常连接,则重新下发步骤二中循环缓存队列所保存的数据,成功写入后更新所述扩展柜的状态标识信息,删除扩展柜循环缓存队列中的数据;如果检测到扩展柜掉线,则保存扩展柜状态标识信息和掉线扩展柜的拓扑结构图,同时更新所述硬件拓扑结构图;
步骤四、定时检查缓存数据的时效性,并对过期数据进行丢弃处理;
步骤五、扩展柜接入***时进行如下业务恢复过程:
扫描加入扩展柜的信息,与所述步骤三中保存的扩展柜的拓扑结构图进行匹配;如果识别到该扩展柜为新设备,则更新所述硬件拓扑结构图,并为新加入的扩展柜创建循环缓存队列,搜集并保存扩展柜状态标识信息;如果识别到该扩展柜为***原有的扩展柜,则更新所述硬件拓扑结构图,并根据扩展柜磁盘中的超级块信息和配置信息配置相关存储导出服务,恢复相关存储导出服务到扩展柜掉线前的状态;
步骤六、扩展柜业务恢复的前提下进行如下数据恢复过程:
检查扩展柜的状态标识信息与所述步骤三中保存的扩展柜状态标识信息是否一致,如果一致,将相应循环缓存队列中的数据恢复到扩展柜,并更新扩展柜状态标识信息;如果不一致,丢弃循环缓存队列中的数据,重新搜集并保存扩展柜状态标识信息。
2.根据权利要求1所述的一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:在创建所述硬件拓扑结构图时,用硬件的序号SN区分不同的硬件设备。
3.根据权利要求1所述的一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:所述扩展柜状态标识信息包括扩展柜中每个磁盘的最后一次写入时间信息以及用于标识扩展柜中存储介质是否使用的位图信息。
4.根据权利要求1所述的一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:步骤三所述删除扩展柜循环缓存队列中的数据,通过为循环缓存队列设置首、尾指针,并在删除数据时将尾指针的值赋给头指针实现。
5.根据权利要求1所述的一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:所述步骤四采用以下过程完成:定时扫描缓存数据,检查数据的保存时间与当前的***时间,对于超过失效时间T的缓存数据选择丢弃,释放扩展柜的循环缓存队列、扩展柜状态标识信息、扩展柜拓扑结构图所使用的空间。
6.根据权利要求5所述的一种扩展柜掉线并重连后的灾难自动恢复方法,其特征在于:对失效时间T设置一个默认的阈值,并将T保存在配置文件中,用户可以对之进行更改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410817445.9A CN104503867B (zh) | 2014-12-24 | 2014-12-24 | 一种扩展柜掉线并重连后的灾难自动恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410817445.9A CN104503867B (zh) | 2014-12-24 | 2014-12-24 | 一种扩展柜掉线并重连后的灾难自动恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104503867A CN104503867A (zh) | 2015-04-08 |
CN104503867B true CN104503867B (zh) | 2017-07-11 |
Family
ID=52945267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410817445.9A Active CN104503867B (zh) | 2014-12-24 | 2014-12-24 | 一种扩展柜掉线并重连后的灾难自动恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104503867B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148221B (zh) * | 2020-09-18 | 2024-02-13 | 北京浪潮数据技术有限公司 | 一种磁盘冗余阵列的巡检方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832489A (zh) * | 2006-04-19 | 2006-09-13 | 杭州华为三康技术有限公司 | 一种对目的磁盘进行访问的方法和扩展磁盘容量的*** |
CN101141659A (zh) * | 2006-09-07 | 2008-03-12 | 国际商业机器公司 | 动态确定多构建块服务器***中***拓扑的方法和*** |
CN101256526A (zh) * | 2008-03-10 | 2008-09-03 | 清华大学 | 检查点容错技术中文件状态一致性维护的实现方法 |
CN102073458A (zh) * | 2009-11-19 | 2011-05-25 | 上海圣桥信息科技有限公司 | 磁盘阵列存储***的开关机时序控制装置 |
CN102508793A (zh) * | 2011-10-11 | 2012-06-20 | 浪潮电子信息产业股份有限公司 | 一种防止磁盘存储***扩配磁盘的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4940967B2 (ja) * | 2007-01-30 | 2012-05-30 | 富士通株式会社 | ストレージシステム、ストレージ装置、ファームウェアの活***換方法、ファームウェアの活***換プログラム |
-
2014
- 2014-12-24 CN CN201410817445.9A patent/CN104503867B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832489A (zh) * | 2006-04-19 | 2006-09-13 | 杭州华为三康技术有限公司 | 一种对目的磁盘进行访问的方法和扩展磁盘容量的*** |
CN101141659A (zh) * | 2006-09-07 | 2008-03-12 | 国际商业机器公司 | 动态确定多构建块服务器***中***拓扑的方法和*** |
CN101256526A (zh) * | 2008-03-10 | 2008-09-03 | 清华大学 | 检查点容错技术中文件状态一致性维护的实现方法 |
CN102073458A (zh) * | 2009-11-19 | 2011-05-25 | 上海圣桥信息科技有限公司 | 磁盘阵列存储***的开关机时序控制装置 |
CN102508793A (zh) * | 2011-10-11 | 2012-06-20 | 浪潮电子信息产业股份有限公司 | 一种防止磁盘存储***扩配磁盘的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104503867A (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3519969B1 (en) | Physical media aware spacially coupled journaling and replay | |
US11086850B2 (en) | Persisting of a low latency in-memory database | |
CN102857554B (zh) | 基于分布式存储***进行数据冗余处理方法 | |
US9170888B2 (en) | Methods and apparatus for virtual machine recovery | |
US20050198062A1 (en) | Method and apparatus for accelerating data access operations in a database system | |
CN106557539A (zh) | 分层存储中的压缩采样 | |
CN109947596A (zh) | Pcie设备故障***宕机处理方法、装置及相关组件 | |
CN107329708A (zh) | 一种分布式存储***实现缓存数据的方法及*** | |
CN104520802B (zh) | 数据发送方法、数据接收方法和存储设备 | |
CN101944066A (zh) | 固态硬盘的接口处理方法、固态硬盘以及存储*** | |
US12045137B2 (en) | Data backup method, apparatus, and system | |
US20170075776A1 (en) | Methods for preserving state across a failure and devices thereof | |
CN109614044A (zh) | 一种固态硬盘写错误的处理方法、装置及设备 | |
CN107533495A (zh) | 用于数据备份和恢复的技术 | |
US20130151769A1 (en) | Hard Disk Drive Reliability In Server Environment Using Forced Hot Swapping | |
US9727626B2 (en) | Marking local regions and providing a snapshot thereof for asynchronous mirroring | |
US11226898B2 (en) | Data caching method and apparatus | |
US9798638B2 (en) | Systems and methods providing mount catalogs for rapid volume mount | |
CN104503867B (zh) | 一种扩展柜掉线并重连后的灾难自动恢复方法 | |
CN107682356B (zh) | 数据的更新方法及装置、设备以及存储介质 | |
CN101464790B (zh) | 命令排程装置及其方法 | |
CN113051428B (zh) | 一种摄像机前端存储备份的方法及装置 | |
US11176034B2 (en) | System and method for inline tiering of write data | |
US11249666B2 (en) | Storage control apparatus | |
US20170031630A1 (en) | Handling shingled magnetic recording (smr) drives in a tiered storage system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |