CN104994173A - 一种消息处理方法和*** - Google Patents

一种消息处理方法和*** Download PDF

Info

Publication number
CN104994173A
CN104994173A CN201510419766.8A CN201510419766A CN104994173A CN 104994173 A CN104994173 A CN 104994173A CN 201510419766 A CN201510419766 A CN 201510419766A CN 104994173 A CN104994173 A CN 104994173A
Authority
CN
China
Prior art keywords
node
service node
blacklist
communication
replica
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510419766.8A
Other languages
English (en)
Inventor
程瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510419766.8A priority Critical patent/CN104994173A/zh
Publication of CN104994173A publication Critical patent/CN104994173A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种消息处理方法和***,包括:当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。暂时中断黑名单中的所述服务节点与其他服务节点和/或客户端的通信。将与所述黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。通过本发明的方案,能够节省网络通信损耗,提升整个云存储***的处理速度。

Description

一种消息处理方法和***
技术领域
本发明涉及云存储***领域,尤其涉及一种消息处理方法和***。
背景技术
在云存储***中,集群节点由监控节点、服务节点构成,合并对外提供服务。其中监控节点和服务节点之间有心跳交互,当监控节点收到服务节点心跳超时时会认为该服务节点已宕机,不能对外提供服务。由此会启动内部故障恢复机制,或者试图恢复宕机节点上的数据,以保证云存储***内数据副本的数目。由于***一般内部故障恢复时间较长,所以心跳超时的时间通常都数分钟的级别。但是在这数分钟里,监控节点和其他服务节点,甚至客户端节点都将认为该节点是可用的,所以会持续与此节点通信往来,具体如图1所示。如果是由于该节点网络拥堵造成通信不良,此举会进一步加剧网络拥堵矛盾,有效信息将更缓慢送达对端,甚至导致心跳严重超时启动故障恢复机制。
发明内容
为了解决上述问题,本发明提出了一种消息处理方法和***,能够节省网络通信损耗,提升整个云存储***的处理速度。
为了达到上述目的,本发明提出了一种消息处理方法,该方法包括:
当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。
暂时中断黑名单中的服务节点与其他服务节点和/或客户端的通信。
将与黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。
优选地,该方法还包括:
将服务节点加入预设的黑名单中时,以当前时刻为基准,记录服务节点加入黑名单的时间;当时间达到预设的释放时间时,将服务节点从黑名单中释放出来,并重新为该服务节点建立通信连接。
优选地,
将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上包括:
从副本节点中调用黑名单中的服务节点的数据副本,并建立副本节点与其他服务节点和/或客户端的通信。
优选地,该方法还包括:
将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上之前,检测监控节点收到副本节点的心跳时间是否大于或等于预设的心跳时间阈值,并根据检测结果判定副本节点是否通信正常;将与黑名单中的服务节点相关的通信转移到通讯正常的副本节点上。
为了达到上述目的,本发明还提出了一种消息处理***,该***包括:判定模块、中断模块和转移模块。
判定模块,用于当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。
中断模块,用于暂时中断黑名单中的服务节点与其他服务节点和/或客户端的通信。
转移模块,用于将与黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。
优选地,该***还包括:记录模块和释放模块。
记录模块,用于将服务节点加入预设的黑名单中时,以当前时刻为基准,记录服务节点加入黑名单的时间。
释放模块,用于当时间达到预设的释放时间时,将服务节点从黑名单中释放出来,并重新为该服务节点建立通信连接。
优选地,
转移模块将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上是指:
从副本节点中调用黑名单中的服务节点的数据副本,并建立副本节点与其他服务节点和/或客户端的通信。
优选地,
判定模块,还用于将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上之前,检测监控节点收到副本节点的心跳时间是否大于或等于预设的心跳时间阈值,并根据检测结果判定副本节点是否通信正常。
转移模块,还用于将与黑名单中的服务节点相关的通信转移到通讯正常的副本节点上。
与现有技术相比,本发明包括:当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。暂时中断黑名单中的所述服务节点与其他服务节点和/或客户端的通信。将与所述黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。通过本发明的方案,能够节省网络通信损耗,提升整个云存储***的处理速度。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为常规的未添加黑名单机制的云存储***的通信示意图;
图2为本发明的消息处理方法流程图;
图3为本发明实施例的添加了黑名单机制的云存储***的通信示意图;
图4为本发明的消息处理***组成框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
本发明公开了一种云存储***消息处理优化方法,该方法的主要创新点在于构造了黑名单机制。当网络状态不佳时,触发黑名单机制,监控节点把该通信不畅的节点加入黑名单列表,使通信不畅的节点暂时无法与其他节点和客户端通信。对外提供服务选择通信良好的副本服务节点。待一定的时间间隔后释放黑名单列表里的节点,可再次建立连接。由于黑名单机制只是使通信不佳的服务节点无法对外提供服务,因此在这一阶段里,无需启动故障恢复流程,其他节点也不必与此节点通信;而其他通信良好的节点上因为存有通信不佳服务节点上的数据副本,***也可以继续提供优质服务。此法避免了无意义的网络通信,极大程度上降低了网络开销,提升了整个云存储***对外提供服务的处理速度。
为了达到上述目的,本发明提出了一种消息处理方法,如图2所示,该方法包括:
S101、当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。
在本发明实施例中,由于监控节点和各个服务节点之间有心跳交互,因此,为了及时发现某个服务节点的通讯异常,我们预先设置了心跳时间阈值,当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,就会判定该服务节点出现了通信异常,如图3所示,当某服务节点,如,服务节点2,的网络状态不佳,如,监控节点和该服务节点的心跳连接缓慢,甚至短暂失联时,服务节点2的心跳时间就会大于预设的心跳时间阈值,监控节点便会判定服务节点2通讯异常,并将服务节点2放入预先设置的黑名单中,在该黑名单中放置的都是通讯异常的服务节点。
S102、暂时中断黑名单中的服务节点与其他服务节点和/或客户端的通信。
在本发明实施例中,将通讯异常的服务节点放入黑名单之后,就会中断该服务节点与客户端或者其他服务节点的通信,以免其他服务节点或客户端持续与此服务节点通信往来,进一步避免如果是由于该节点网络拥堵造成通信不良,从而带来的进一步加剧网络拥堵,有效信息将更缓慢送达对端的问题。
优选地,该方法还包括:
将服务节点加入预设的黑名单中时,以当前时刻为基准,记录服务节点加入黑名单的时间;当时间达到预设的释放时间时,将服务节点从黑名单中释放出来,并重新为该服务节点建立通信连接。
在本发明实施例中,讲通讯异常的服务节点放入黑名单之后,并不是永远不再使用该服务节点,而是设置了一个释放时间,在这段时间里,也许网络已经过了拥堵时期,因此,当达到预设的释放时间之后,就会释放该服务节点,并重新为该服务节点建立通信连接,使该服务节点投入服务。
S103、将与黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。
在本发明实施例中,将通讯异常的服务节点与其他服务节点和/或客户端的通信中断以后,由于该服务节点与其他服务节点或客户端还有通信来往,因此,将会将与该服务节点相关的通信都转移到该服务节点的副本节点上,因为对于每一个服务节点来说,都有一个或多个副本节点,在该副本节点上存储了该服务节点的数据副本,副本节点可以在其对应的服务节点出现异常时接替该服务节点的工作。在本发明实施例中,如图3所示,服务节点1就是服务节点2的副本节点,在服务节点1上保存有服务节点2的数据副本,当服务节点2出现异常时,讲服务节点2上的工作转移到服务节点1上,由服务节点1继续与客户端完成通信。
优选地,
将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上包括:
从副本节点中调用黑名单中的服务节点的数据副本,并建立副本节点与其他服务节点和/或客户端的通信。
优选地,该方法还包括:
将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上之前,检测监控节点收到副本节点的心跳时间是否大于或等于预设的心跳时间阈值,并根据检测结果判定副本节点是否通信正常;将与黑名单中的服务节点相关的通信转移到通讯正常的副本节点上。
在本发明实施例中,在将出现异常的服务节点上的通信转移到其相应的副本节点上时,也得预先判断该副本节点是否都通讯正常,只有在副本节点通讯正常的情况下才会转移到该副本节点上。
为了达到上述目的,本发明还提出了一种消息处理***01,如图4所示,该***包括:判定模块02、中断模块03和转移模块04。
判定模块02,用于当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。
中断模块03,用于暂时中断黑名单中的服务节点与其他服务节点和/或客户端的通信。
转移模块04,用于将与黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。
优选地,
转移模块04将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上是指:
从副本节点中调用黑名单中的服务节点的数据副本,并建立副本节点与其他服务节点和/或客户端的通信。
优选地,该***还包括:记录模块05和释放模块06。
记录模块05,用于将服务节点加入预设的黑名单中时,以当前时刻为基准,记录服务节点加入黑名单的时间。
释放模块06,用于当时间达到预设的释放时间时,将服务节点从黑名单中释放出来,并重新为该服务节点建立通信连接。
优选地,
判定模块02,还用于将与黑名单中的服务节点相关的通信转移到服务节点的副本节点上之前,检测监控节点收到副本节点的心跳时间是否大于或等于预设的心跳时间阈值,并根据检测结果判定副本节点是否通信正常。
转移模块04,还用于将与黑名单中的服务节点相关的通信转移到通讯正常的副本节点上。
与现有技术相比,本发明包括:当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定该服务节点通信异常,将该服务节点加入预设的黑名单中。暂时中断黑名单中的所述服务节点与其他服务节点和/或客户端的通信。将与所述黑名单中的服务节点相关的通信转移到该服务节点的副本节点上。通过本发明的方案,能够节省网络通信损耗,提升整个云存储***的处理速度。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (8)

1.一种消息处理方法,其特征在于,所述方法包括:
当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定所述服务节点通信异常,将所述服务节点加入预设的黑名单中;
暂时中断所述黑名单中的所述服务节点与其他服务节点和/或客户端的通信;
将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上。
2.如权利要求1所述的消息处理方法,其特征在于,所述方法还包括:
将所述服务节点加入预设的黑名单中时,以当前时刻为基准,记录所述服务节点加入所述黑名单的时间;当所述时间达到预设的释放时间时,将所述服务节点从所述黑名单中释放出来,并重新为所述服务节点建立通信连接。
3.如权利要求1所述的消息处理方法,其特征在于,
将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上包括:
从所述副本节点中调用所述黑名单中的所述服务节点的数据副本,并建立所述副本节点与所述其他服务节点和/或客户端的通信。
4.如权利要求1所述的消息处理方法,其特征在于,所述方法还包括:
将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上之前,检测所述监控节点收到所述副本节点的心跳时间是否大于或等于所述预设的心跳时间阈值,并根据检测结果判定所述副本节点是否通信正常;将与所述黑名单中的所述服务节点相关的通信转移到通讯正常的所述副本节点上。
5.一种消息处理***,其特征在于,所述***包括:判定模块、中断模块和转移模块;
所述判定模块,用于当监控节点收到服务节点的心跳时间大于或等于预设的心跳时间阈值时,判定所述服务节点通信异常,将所述服务节点加入预设的黑名单中;
所述中断模块,用于暂时中断所述黑名单中的所述服务节点与其他服务节点和/或客户端的通信;
所述转移模块,用于将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上。
6.如权利要求5所述的消息处理***,其特征在于,所述***还包括:记录模块和释放模块;
所述记录模块,用于将所述服务节点加入预设的黑名单中时,以当前时刻为基准,记录所述服务节点加入所述黑名单的时间;
所述释放模块,用于当所述时间达到预设的释放时间时,将所述服务节点从所述黑名单中释放出来,并重新为所述服务节点建立通信连接。
7.如权利要求5所述的消息处理***,其特征在于,
所述转移模块将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上是指:
从所述副本节点中调用所述黑名单中的所述服务节点的数据副本,并建立所述副本节点与所述其他服务节点和/或客户端的通信。
8.如权利要求5所述的消息处理***,其特征在于,
所述判定模块,还用于将与所述黑名单中的所述服务节点相关的通信转移到所述服务节点的副本节点上之前,检测所述监控节点收到所述副本节点的心跳时间是否大于或等于预设的心跳时间阈值,并根据检测结果判定所述副本节点是否通信正常;
所述转移模块,还用于将与所述黑名单中的所述服务节点相关的通信转移到通讯正常的所述副本节点上。
CN201510419766.8A 2015-07-16 2015-07-16 一种消息处理方法和*** Pending CN104994173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510419766.8A CN104994173A (zh) 2015-07-16 2015-07-16 一种消息处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510419766.8A CN104994173A (zh) 2015-07-16 2015-07-16 一种消息处理方法和***

Publications (1)

Publication Number Publication Date
CN104994173A true CN104994173A (zh) 2015-10-21

Family

ID=54305924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510419766.8A Pending CN104994173A (zh) 2015-07-16 2015-07-16 一种消息处理方法和***

Country Status (1)

Country Link
CN (1) CN104994173A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776142A (zh) * 2016-12-23 2017-05-31 深圳市深信服电子科技有限公司 一种数据存储方法以及数据存储装置
CN108933824A (zh) * 2018-06-28 2018-12-04 郑州云海信息技术有限公司 一种保持RabbitMQ服务的方法、***及相关装置
CN110022227A (zh) * 2019-03-07 2019-07-16 阿里巴巴集团控股有限公司 业务处理方法、装置、设备及存储介质
CN110278227A (zh) * 2018-03-15 2019-09-24 阿里巴巴集团控股有限公司 服务处理方法、装置以及电子设备
CN114862401A (zh) * 2022-03-11 2022-08-05 山东浪潮通软信息科技有限公司 一种支付异常的处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179432A (zh) * 2007-12-13 2008-05-14 浪潮电子信息产业股份有限公司 一种多机环境中实现***高可用的方法
CN101771686A (zh) * 2009-12-31 2010-07-07 卓望数码技术(深圳)有限公司 一种通信方法和网络适配器
CN102394914A (zh) * 2011-09-22 2012-03-28 浪潮(北京)电子信息产业有限公司 集群脑裂处理方法和装置
US20140115176A1 (en) * 2012-10-22 2014-04-24 Cassidian Communications, Inc. Clustered session management
CN104348842A (zh) * 2013-07-23 2015-02-11 腾讯科技(深圳)有限公司 分布式存储***路由方法、路由管理服务器及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179432A (zh) * 2007-12-13 2008-05-14 浪潮电子信息产业股份有限公司 一种多机环境中实现***高可用的方法
CN101771686A (zh) * 2009-12-31 2010-07-07 卓望数码技术(深圳)有限公司 一种通信方法和网络适配器
CN102394914A (zh) * 2011-09-22 2012-03-28 浪潮(北京)电子信息产业有限公司 集群脑裂处理方法和装置
US20140115176A1 (en) * 2012-10-22 2014-04-24 Cassidian Communications, Inc. Clustered session management
CN104348842A (zh) * 2013-07-23 2015-02-11 腾讯科技(深圳)有限公司 分布式存储***路由方法、路由管理服务器及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776142A (zh) * 2016-12-23 2017-05-31 深圳市深信服电子科技有限公司 一种数据存储方法以及数据存储装置
CN106776142B (zh) * 2016-12-23 2020-09-01 深信服科技股份有限公司 一种数据存储方法以及数据存储装置
CN110278227A (zh) * 2018-03-15 2019-09-24 阿里巴巴集团控股有限公司 服务处理方法、装置以及电子设备
CN108933824A (zh) * 2018-06-28 2018-12-04 郑州云海信息技术有限公司 一种保持RabbitMQ服务的方法、***及相关装置
CN110022227A (zh) * 2019-03-07 2019-07-16 阿里巴巴集团控股有限公司 业务处理方法、装置、设备及存储介质
CN114862401A (zh) * 2022-03-11 2022-08-05 山东浪潮通软信息科技有限公司 一种支付异常的处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112866004B (zh) 控制面设备的切换方法、装置及转控分离***
CN110149220B (zh) 一种管理数据传输通道的方法及装置
EP2245472B1 (en) System and method for network recovery from multiple link failures
CN104994173A (zh) 一种消息处理方法和***
CN105827419B (zh) 一种转发设备故障处理的方法、设备和控制器
EP2352253A1 (en) Method and apparatus for protecting link aggregation group of ethernet ring
CN111372272B (zh) 无线桥接网络的异常恢复方法和装置
US20220400415A1 (en) Information reporting method, information receiving method, terminal and network device
WO2011157145A2 (zh) 通信设备间的主备倒换方法、通信设备和***及服务请求设备
US20130235718A1 (en) Path switch-back method and apparatus in transport network
CN107547301B (zh) 一种主备设备倒换方法及装置
US9013977B2 (en) Method and system for reducing traffic disturbance in a communication network caused by intermittent failure
CN111142801B (zh) 分布式存储***网络亚健康检测方法及装置
WO2016095344A1 (zh) 链路切换方法、装置及线卡
CN104901834A (zh) 一种网络服务器自动切换的方法及***
WO2011157146A2 (zh) 通信设备间的主备倒换方法、通信设备和***及服务请求设备
WO2017000096A1 (zh) 一种链路恢复方法和网络设备
KR20100114521A (ko) 이더넷 멀티캐스트의 연속성 체크를 위한 방법 및 시스템
WO2016070530A1 (zh) 主备设备的运行处理方法及***
CN107872822B (zh) 一种业务的承载方法及承载装置
CN110224872B (zh) 一种通信方法、装置及存储介质
CN102918802B (zh) 确定故障指示状态的方法、节点和***
CN101695046B (zh) 一种设置rrpp阻塞点的方法及设备
CN103414591A (zh) 一种端口故障恢复时的快速收敛方法和***
CN110768816B (zh) 多媒体业务异常保护方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151021

RJ01 Rejection of invention patent application after publication