CN107463458A - 一种ipsan异常状态监测及恢复*** - Google Patents

一种ipsan异常状态监测及恢复*** Download PDF

Info

Publication number
CN107463458A
CN107463458A CN201710668491.0A CN201710668491A CN107463458A CN 107463458 A CN107463458 A CN 107463458A CN 201710668491 A CN201710668491 A CN 201710668491A CN 107463458 A CN107463458 A CN 107463458A
Authority
CN
China
Prior art keywords
ipsan
abnormal
monitoring
client
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710668491.0A
Other languages
English (en)
Inventor
陈潇威
余文进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WELLTRANS O&E TECHNOLOGIES Co Ltd
Original Assignee
WELLTRANS O&E TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WELLTRANS O&E TECHNOLOGIES Co Ltd filed Critical WELLTRANS O&E TECHNOLOGIES Co Ltd
Priority to CN201710668491.0A priority Critical patent/CN107463458A/zh
Publication of CN107463458A publication Critical patent/CN107463458A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种IPSAN异常状态监测及恢复***,包括状态检测模块,从配置文件读取需要检测的IPSAN信息,定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,将异常状态报告分别发送给异常恢复模块和监视客户端;异常恢复模块,接收所述状态检测模块发送的所述异常状态报告,执行恢复操作;监视客户端,接收状态检测模块发送的异常状态报告,在客户端界面显示IPSAN实时状态,并保存状态变化日志,本发明实现了IPSAN异常状态监测和恢复的自动化,让操作人员及时了解IPSAN的状态,减少了由于IPSAN状态异常导致的视频存储失败。

Description

一种IPSAN异常状态监测及恢复***
技术领域
本发明涉及数据存储技术领域,尤其涉及一种IPSAN异常状态监测及恢复***。
背景技术
在做大规模视频存储时经常出现由于IPSAN(IP存储区域网络)状态异常,而出现存储异常,进而导致视频数据的丢失。针对这种情况,通常的做法是:登录到服务器,查看存储服务及IPSAN状态,来判断IPSAN异常。但此方法需工作人员查看来判断***的异常,而且经常出现IPSAN异常后,工作人员未能及时发现该问题,从而导致视频数据的大量丢失。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种IPSAN异常状态监测及恢复***,能够解决IPSAN异常导致视频数据丢失的问题,在IPSAN出现异常后能及时通知到客户端,让操作人员及时了解该异常情况的发生,并自动尝试恢复IPSAN出现的异常。
为实现上述目的,本发明采用了如下技术方案:
本发明提供了一种IPSAN异常状态监测及恢复***,包括检测服务端和监视客户端,所述检测服务端包括状态检测模块和异常恢复模块,
1)状态检测模块,从配置文件读取需要检测的IPSAN信息,定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,将异常状态报告分别发送给异常恢复模块和监视客户端;
2)异常恢复模块,接收所述状态检测模块发送的所述异常状态报告,执行恢复操作;
3)监视客户端,接收状态检测模块发送的异常状态报告,在客户端界面显示IPSAN实时状态,并保存状态变化日志。
进一步,所述状态检测模块定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,具体包括以下步骤:
a)、通过iscsiadm命令获取iSCSI的会话状态;
b)、判断能否从iSCSI的会话状态中,提取指定的IPSAN的会话状态;
若能,对提取到的结果继续分析,判断IPSAN会话状态是否正常,如果不正常则生成会话断开的报告;
若不能,生成会话未登录的报告。
进一步,所述异常恢复模块执行恢复操作,具体包括以下步骤:
ⅰ)、关闭MSS服务;
ⅱ)、登录IPSAN,挂载目录;
ⅲ)、再启动MSS服务。
进一步,在所述状态检测模块从配置文件读取需要检测的IPSAN信息之前,还包括:监视客户端从配置文件中读取需要连接的检测服务端的IP地址和端口,与检测服务端建立连接。
进一步,所述监视客户端与检测服务端建立连接后,监视客户端发出IPSAN地址列表查询请求,所述状态检测模块返回IPSAN地址列表,所述监视客户端缓存IPSAN地址列表。
进一步,所述异常状态报告是利用iSCSI会话状态,分析指定时间内IPSAN连接状态的异常变化而生成。
进一步,一个所述监视客户端能够同时与多个所述检测服务端进行网络连接。
本发明的有益效果为:本发明通过状态检测模块读取IPSAN状态信息,并将IPSAN异常情况及时通知异常恢复模块和监视客户端,异常恢复模块自动尝试恢复IPSAN出现的异常,监视客户端及时更新客户端界面上的IPSAN状态显示信息。实现了IPSAN异常状态监测和恢复的自动化,让操作人员及时了解IPSAN的状态,且准确性高,误差小,减少了由于IPSAN状态异常导致的视频存储失败。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种IPSAN异常状态监测及恢复***,包括检测服务端和监视客户端,所述检测服务端包括状态检测模块和异常恢复模块,
1)状态检测模块,从配置文件读取需要检测的IPSAN信息,定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,将异常状态报告分别发送给异常恢复模块和监视客户端;
2)异常恢复模块,接收所述状态检测模块发送的所述异常状态报告,执行恢复操作;
3)监视客户端,接收状态检测模块发送的异常状态报告,在客户端界面显示IPSAN实时状态,并保存状态变化日志。
所述状态检测模块进行检测,具体包括以下步骤:
a)、通过iscsiadm命令获取iSCSI的会话状态;
b)、判断能否从iSCSI的会话状态中,提取指定的IPSAN的会话状态;
若能,对提取到的结果继续分析,判断IPSAN会话状态是否正常,如果不正常则生成会话断开的报告;
若不能,生成会话未登录的报告。
所述异常恢复模块执行恢复操作,具体包括以下步骤:
ⅰ)、关闭MSS服务;
ⅱ)、登录IPSAN,挂载目录;
ⅲ)、再启动MSS服务。
在所述状态检测模块从配置文件读取需要检测的IPSAN信息之前,还包括:监视客户端从配置文件中读取需要连接的检测服务端的IP地址和端口,与检测服务端建立连接。
所述监视客户端与检测服务端建立连接后,监视客户端发出IPSAN地址列表查询请求,状态检测模块返回IPSAN地址列表,监视客户端缓存IPSAN地址列表。
所述异常状态报告是利用iSCSI会话状态,分析指定时间内IPSAN连接状态的异常变化而生成。
一个所述监视客户端能够同时与多个所述检测服务端进行网络连接。
具体实施例一
一种IPSAN异常状态监测及恢复***,该***包括检测服务端和监视客户端,检测服务端包括状态检测模块和异常恢复模块。
状态监测模块,用于
从配置文件中读取需要检测的IPSAN信息列表并缓存,为执行检测操作提供必要的信息。IPSAN信息列表包括IPSAN的target名称、IPSAN的IP地址、MSS的IP地址。
通过iscsiadm命令获取iSCSI的会话状态,从iSCSI的会话状态中,提取指定的IPSAN的会话状态。若从iSCSI会话中无法读取指定的IPSAN状态时,则IPSAN状态为会话未登录。
IPSAN的会话状态有:
会话未登录(服务器未曾与IPSAN建立会话,会话状态为No Session)
会话断开(服务器与IPSAN建立会话后断开,会话状态为FAILED)
会话正常(服务器与IPSAN会话正常,会话状态为LOGIN_IN)
获取iSCSI会话状态,并分析IPSAN状态的频率默认为5分钟。
当IPSAN出现会话未登录或会话断开的情况,生成包括IPSAN的IP地址、IPSAN当前状态、MSS的IP地址、当前时间在内的异常状态报告并将异常状态报告分别发送给异常恢复模块和监视客户端。
状态监测模块还可为客户端提供获取IPSAN的IP地址列表、IPSAN连接状态的查询功能。
异常恢复模块,用于
接收状态检测模块发送的异常状态报告,保存到异常状态队列;
从异常状态列表中读取异常状态,执行恢复操作。
监视客户端,用于
从配置文件中读取需要连接的检测服务端的地址列表,检测服务端的地址列表包括检测服务端的IP地址和端口,与检测服务端建立连接。
从检测服务端的状态监测模块查询IPSAN地址列表,缓存IPSAN地址列表,并显示在客户端界面上。一个监视客户端可以同时与多个检测服务端进行网络连接。当连接多个检测服务端时客户端需要执行该操作多次。
与检测服务端断开连接时,监视客户端需将该检测服务端所检测的IPSAN状态删除或者不显示;当重新连接时需再次查询IPSAN地址列表,并查询IPSAN的当前状态。
接收状态检测模块发送的异常状态报告,更新客户端界面上的IPSAN状态显示信息,并保存状态变化日志。
具体实施例二
一种IPSAN异常状态监测及恢复方法,包括以下步骤:
监视客户端从配置文件中读取需要连接的检测服务端的IP地址和端口,与检测服务端建立连接。发出IPSAN地址列表查询请求。
状态检测模块返回IPSAN地址列表。
监视客户端缓存IPSAN地址列表,并指定需检测的IPSAN。
状态检测模块从配置文件中获取需检测的IPSAN信息,开始检测。通过执行iscsiadm命令查询iSCSI状态,根据iSCSI会话结果进行分析,通过匹配Target和CurrentPortal,获取当前连接的会话。在iSCSI会话中,如果找到目标IPSAN会话,则对查询到的结果继续分析,得到iSCSI Session State字段的值,根据这个值来判断IPSAN会话的状态,如果状态为LOGGED_IN,则会话正常,否则报告会话断开。如果未找到目标IPSAN会话,则报告会话未登录。如果iscsiadm命令不存在,会返回-bash:iscsiadm:command not found,报告无法检测,停止检测程序的启动。
状态检测模块在IPSAN连接状态发生异常变化时生成包括IPSAN的IP地址、IPSAN当前状态、MSS的IP地址、当前时间在内的异常状态报告上报给客户端,并将该异常状态报告发送给异常恢复模块。
异常恢复模块接收状态检测模块发送的异常状态报告,保存到异常状态队列;从异常状态列表中读取异常状态,执行恢复操作,首先关闭MSS服务,然后登录IPSAN,挂载目录,再启动MSS服务。
监视客户端接收状态检测模块发送的异常状态报告,更新客户端界面上的IPSAN状态显示信息,并保存状态变化日志。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种IPSAN异常状态监测及恢复***,其特征在于:包括检测服务端和监视客户端,所述检测服务端包括状态检测模块和异常恢复模块,
1)状态检测模块,从配置文件读取需要检测的IPSAN信息,定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,将异常状态报告分别发送给异常恢复模块和监视客户端;
2)异常恢复模块,接收所述状态检测模块发送的所述异常状态报告,执行恢复操作;
3)监视客户端,接收状态检测模块发送的异常状态报告,在客户端界面显示IPSAN实时状态,并保存状态变化日志。
2.根据权利要求1所述的一种IPSAN异常状态监测及恢复***,其特征在于:所述状态检测模块定期检测IPSAN状态,当IPSAN出现异常时生成异常状态报告,具体包括以下步骤:
a)、通过iscsiadm命令获取iSCSI的会话状态;
b)、判断能否从iSCSI的会话状态中,提取指定的IPSAN的会话状态;
若能,对提取到的结果继续分析,判断IPSAN会话状态是否正常,如果不正常则生成会话断开的报告;
若不能,生成会话未登录的报告。
3.根据权利要求1所述的一种IPSAN异常状态监测及恢复***,其特征在于:所述异常恢复模块执行恢复操作,具体包括以下步骤:
ⅰ)、关闭MSS服务;
ⅱ)、登录IPSAN,挂载目录;
ⅲ)、再启动MSS服务。
4.根据权利要求1所述的一种IPSAN异常状态监测及恢复***,其特征在于:在所述状态检测模块从配置文件读取需要检测的IPSAN信息之前,还包括:监视客户端从配置文件中读取需要连接的检测服务端的IP地址和端口,与检测服务端建立连接。
5.根据权利要求4所述的一种IPSAN异常状态监测及恢复***,其特征在于:所述监视客户端与检测服务端建立连接后,监视客户端发出IPSAN地址列表查询请求,所述状态检测模块返回IPSAN地址列表,所述监视客户端缓存IPSAN地址列表。
6.根据权利要求1所述的一种IPSAN异常状态监测及恢复***,其特征在于:所述异常状态报告是利用iSCSI会话状态,分析指定时间内IPSAN连接状态的异常变化而生成。
7.根据权利要求1所述的一种IPSAN异常状态监测及恢复***,其特征在于:一个所述监视客户端能够同时与多个所述检测服务端进行网络连接。
CN201710668491.0A 2017-08-08 2017-08-08 一种ipsan异常状态监测及恢复*** Pending CN107463458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710668491.0A CN107463458A (zh) 2017-08-08 2017-08-08 一种ipsan异常状态监测及恢复***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710668491.0A CN107463458A (zh) 2017-08-08 2017-08-08 一种ipsan异常状态监测及恢复***

Publications (1)

Publication Number Publication Date
CN107463458A true CN107463458A (zh) 2017-12-12

Family

ID=60547372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710668491.0A Pending CN107463458A (zh) 2017-08-08 2017-08-08 一种ipsan异常状态监测及恢复***

Country Status (1)

Country Link
CN (1) CN107463458A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299182A (zh) * 2018-11-13 2019-02-01 郑州云海信息技术有限公司 数据库的会话连接的管理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945537A (zh) * 2006-07-27 2007-04-11 清华大学 基于存储区域网络的高速固态存储设备的实现方法
CN101162974A (zh) * 2007-11-21 2008-04-16 杭州华三通信技术有限公司 一种组播视频存储的方法、***及设备
CN104660616A (zh) * 2015-03-18 2015-05-27 上海斐讯数据通信技术有限公司 一种会话可保持的服务端及其会话处理方法
CN105516640A (zh) * 2015-12-15 2016-04-20 Tcl集团股份有限公司 一种视频通讯会话异常的检测方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945537A (zh) * 2006-07-27 2007-04-11 清华大学 基于存储区域网络的高速固态存储设备的实现方法
CN101162974A (zh) * 2007-11-21 2008-04-16 杭州华三通信技术有限公司 一种组播视频存储的方法、***及设备
CN104660616A (zh) * 2015-03-18 2015-05-27 上海斐讯数据通信技术有限公司 一种会话可保持的服务端及其会话处理方法
CN105516640A (zh) * 2015-12-15 2016-04-20 Tcl集团股份有限公司 一种视频通讯会话异常的检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299182A (zh) * 2018-11-13 2019-02-01 郑州云海信息技术有限公司 数据库的会话连接的管理方法和装置

Similar Documents

Publication Publication Date Title
CN110716842B (zh) 集群故障检测方法和装置
CN102355368B (zh) 一种网络设备的故障处理方法及***
CN104219091A (zh) 一种网络运行故障检测***及其方法
CN103810076B (zh) 数据复制的监控方法及装置
CN111371623B (zh) 业务性能和安全的监测方法、装置、存储介质及电子设备
CN111314115A (zh) 一种基于idl日志的告警方法、装置、设备及可读介质
CN108199901B (zh) 硬件报修方法、***、设备、硬件管理服务器与存储介质
CN113872795A (zh) 一种分布式服务器智能监控分析及故障处理***及方法
CN104052634A (zh) 信息安全监控***及方法
CN113835836B (zh) 动态发布容器服务的***、方法、计算机设备及介质
CN102333206A (zh) 一种监控存储***和一种提高监控存储可靠性的方法
CN111193643A (zh) 一种云服务器状态监控***及方法
CN106911510B (zh) 网络准入***的可用性监测***及方法
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
CN104734895B (zh) 业务监控***及业务监控方法
CN105099762A (zh) 一种***运维功能的自检方法及自检***
CN113676723B (zh) 一种基于物联网的非同源网络视频监控故障定位方法及装置
CN105490847B (zh) 一种私有云存储***中节点故障实时检测及处理方法
CN111083176B (zh) 一种监控摄像机云端自适应上线方法及装置
CN107463458A (zh) 一种ipsan异常状态监测及恢复***
CN114143171A (zh) 一种基于tr069协议的告警根源定位方法及***
CN106897189A (zh) 一种基于数据实时推送的日志监控***
CN107682166A (zh) 基于大数据的安全运维服务平台远程数据采集的实现方法
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
CN113778709B (zh) 接口调用方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication