CN103812675A - 一种实现业务交付平台异地容灾切换的方法和*** - Google Patents

一种实现业务交付平台异地容灾切换的方法和*** Download PDF

Info

Publication number
CN103812675A
CN103812675A CN201210443595.9A CN201210443595A CN103812675A CN 103812675 A CN103812675 A CN 103812675A CN 201210443595 A CN201210443595 A CN 201210443595A CN 103812675 A CN103812675 A CN 103812675A
Authority
CN
China
Prior art keywords
module
service
website
standby
home site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210443595.9A
Other languages
English (en)
Inventor
周朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210443595.9A priority Critical patent/CN103812675A/zh
Priority to US14/429,078 priority patent/US9684574B2/en
Priority to PCT/CN2013/081036 priority patent/WO2013185727A2/zh
Priority to EP13804437.5A priority patent/EP2882136B1/en
Publication of CN103812675A publication Critical patent/CN103812675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种实现业务交付平台异地容灾切换的***,包括:双向监控模块、智能识别模块、自动切换模块,其中:双向监控模块监控业务交付平台的主站点和备站点,当检测到主站点或备站点发生异常且满足告警上报条件时,上报告警信息至智能识别模块;智能识别模块接收告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给自动切换模块;自动切换模块接收到容灾切换指令后,启动主站点和备站点之间的主备切换。本发明还提供一种实现业务交付平台异地容灾切换的方法。本发明可以自动实现容灾切换。

Description

一种实现业务交付平台异地容灾切换的方法和***
技术领域
本发明涉及移动互联网领域,尤其涉及一种实现业务交付平台异地容灾切换的方法和***。
背景技术
业务交付平台(SDP,Service Delivery Platform),作为运营商跨越电信域和互联网域,进行集成、融合、开放、创新的核心业务平台,得到蓬勃的发展,随着平台商用,承载的用户量越来越大,业务数据以指数方式增长,大量的用户和业务给运营商创造更大的价值的同时,也将因***崩溃或数据丢失而带来越来越大的损失,因此运营商对业务交付平台的安全性、可靠性和高可用性提出了越来越高的要求。目前业务交付平台通常会采用如下几种方案,提供相对应的保障机制:
1、在同一个机房或地点为业务交付平台的核心网元,采用双机或集群方式部署,提供容灾保障。这种方式的缺点是,只能保护因为服务器单点故障引起的问题;
2、在相隔一定距离的异地部署一套业务交付平台备份***,备份***保持与主站点的数据同步,这种方式可以保证主站点即使发生了人为损坏、洪灾、火灾、地震等不可控的灾难时,仍然能够在一定的时间内,将服务切换到异地备站点(也称容灾站点),使业务***经历短暂中断后,继续投入使用,从而进一步提高业务交付平台抵抗各种可能安全因素的容灾能力。
对于第二种采用Active-Standby(主备)异地容灾方式,由于业务交付平台内部模块的复杂性,外部接口的多样性和复杂性,目前只能实现人工切换,所需要执行的操作步骤多,操作复杂。对于自动化切换方式,由于平台的差异性和复杂性,目前还没有成熟的技术和手段,实现异地容灾切换。
发明内容
本发明要解决的技术问题是提供一种业务交付平台异地容灾切换的方法和***,简化切换操作,提高切换效率。
为了解决上述问题,本发明提供了一种实现业务交付平台异地容灾切换的***,包括:双向监控模块、智能识别模块、自动切换模块,其中:
所述双向监控模块用于,监控所述业务交付平台的主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,上报告警信息至所述智能识别模块;
所述智能识别模块用于,接收所述双向监控模块上报的告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给所述自动切换模块;
所述自动切换模块用于,接收到所述智能识别模块发送的容灾切换指令后,启动所述主站点和备站点之间的主备切换。
上述***还可具有以下特点,所述***还包括:服务侦听模块和客户侦听模块:
所述自动切换模块启动所述主站点和备站点之间的主备切换包括:
所述自动切换模块发送指令给所述服务侦听模块和客户侦听模块,触发所述业务交付平台内部各子***的内部逻辑切换;
所述服务侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令将服务侦听端口设置为可用或不可用;
所述客户侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令启动或关闭所述业务交付平台与业务引擎之间的链路。
上述***还可具有以下特点,所述服务侦听模块根据指令将服务侦听端口设置为可用或不可用包括:
所述服务侦听模块根据指令将所述主站点的服务侦听端口设置为不可用,和/或,将所述备站点的服务侦听端口设置为可用。
上述***还可具有以下特点,所述客户侦听模块根据指令启动或关闭所述业务交付平台与业务引擎之间的链路包括:
所述客户侦听模块根据指令启动所述备站点上所述业务交付平台与业务引擎之间的链路,和/或,关闭所述主站点上所述业务交付平台与业务引擎之间的链路。
上述***还可具有以下特点,所述智能识别模块判断是否满足切换规则包括:
如果预定义的业务交付平台的核心进程,或者,关键链路,或者,核心进程与关键链路的组合,在一个预设时间窗内发生异常的次数达到预设的阈值,和/或,发生异常的时长超过容忍时长阈值,则满足切换规则。
上述***还可具有以下特点,所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块位于所述主站点或备站点上,或者,所述***中包括两组所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块,分别位于所述主站点和备站点上,且部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
上述***还可具有以下特点,所述双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。
上述***还可具有以下特点,所述智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,对所述两个站点上自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,各自,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
上述***还可具有以下特点,所述双向监控模块同时部署在所述主站点和备站点时,如果两个站点上的所述双向监控模块均正常,则均处于工作状态,且由和处于工作状态的智能识别模块同一站点的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息,如果只有一个站点上的双向监控模块正常,则由该正常的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息。
本发明还提供一种实现业务交付平台异地容灾切换方法,包括:
监控业务交付平台的主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,生成告警信息;
根据所述告警信息判断是否满足预设的切换规则,如果满足,则启动所述主站点和备站点之间的主备切换。
上述方法还可具有以下特点,所述启动所述主站点和备站点之间的主备切换包括:
触发所述业务交付平台内部各子***的内部逻辑切换,将所述主站点的服务侦听端口设置为不可用,关闭所述主站点上所述业务交付平台与业务引擎之间的链路;和/或,将所述备站点的服务侦听端口设置为可用,启动所述备站点上所述业务交付平台与业务引擎之间的链路。
上述方法还可具有以下特点,所述判断是否满足切换规则包括:
如果预定义的业务交付平台的核心进程,或者,关键链路或者,核心进程与关键链路的组合,在一个预设时间窗内发生异常的次数达到预设的阈值,和/或,发生异常的时长超过容忍时长阈值,则满足切换规则。
上述方法还可具有以下特点,所述主站点和备站点至少其中之一部署双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块,其中:
所述双向监控模块监控业务交付平台主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,上报告警信息至所述智能识别模块;
所述智能识别模块接收所述双向监控模块上报的告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给所述自动切换模块;
所述自动切换模块接收到所述容灾切换指令后,所述发送指令给所述服务侦听模块和客户侦听模块,触发所述业务交付平台内部各子***的内部逻辑切换;
所述服务侦听模块接收到所述自动切换模块发送的指令后,根据指令将服务侦听端口设置为可用或不可用;
所述客户侦听模块接收到所述自动切换模块发送的指令后,根据指令启动或关闭所述业务交付平台与业务引擎之间的链路。
上述方法还可具有以下特点:所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块同时部署于所述主站点和备站点上时,部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
上述方法还可具有以下特点:所述双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。
上述方法还可具有以下特点:
所述智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,对所述两个站点上的自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
上述方法还可具有以下特点:
所述双向监控模块同时部署在所述主站点和备站点时,如果两个站点上的所述双向监控模块均正常,则均处于工作状态,且由和处于工作状态的智能识别模块同一站点的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息,如果只有一个站点上的双向监控模块正常,则由该正常的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息。
通过本发明实施例提供的方法和***,可以保证在可预见的各种复杂情况下,有效地对业务交付平台主站点和备站点实施监控,并且在主站点出现问题,无法对外提供服务时,及时捕捉到异常,根据预设的条件,结合异常情况进行智能识别,确保是一次有效且有必要的切换,然后自动触发一系列切换操作,快速实现自动容灾切换。
附图说明
图1是本发明实施例实现业务交付平台异地容灾切换***框图;
图2为本发明实施例一种实现业务交付平台异地容灾切换方法流程图;
图3为本发明实施例一种实现业务交付平台异地容灾切换方法主站点切换流程图;
图4为本发明实施例一种实现业务交付平台异地容灾切换方法备站点切换流程图;
图5是本发明实施例主站点和备站点间模块交互示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例一
如图1所示,本实施例提供一种实现业务交付平台异地容灾切换***,包括双向监控模块、智能识别模块、自动切换模块、服务侦听模块和客户侦听模块,其中:
所述双向监控模块用于,监控业务交付平台的主站点和备站点,当主站点或备站点发生异常且满足告警上报条件时,上报告警信息至智能识别模块,其中,还可将告警信息同时上报给被部署在各自站点的网络管理***;
所述智能识别模块用于,接收双向监控模块上报的告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给自动切换模块;
所述自动切换模块用于,接收到所述智能识别模块发送的容灾切换指令后,启动所述主站点和备站点之间的主备切换。切换包括外部服务端口和外部链路的切换,以及,业务交付平台内部逻辑切换,具体的,包括:所述自动切换模块发送指令给所述服务侦听模块和客户侦听模块,触发所述业务交付平台内部各子***的内部逻辑切换;即:触发业务交付平台主站点内部各子***,关闭对外服务,成为业务交付平台的备站点。同时对备站点做相反的操作,即对备站点实施切换,启动对外服务,成为业务交付平台的主站点,完成容灾切换。
所述服务侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令将服务侦听端口设置为可用或不可用;
所述客户侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令启动或关闭所述业务交付平台与业务引擎之间的链路。
其中,智能识别模块可定义影响业务交付平台对外服务的核心进程或关键链路或核心进程与关键链路的组合,定义核心进程或关键链路或核心进程与关键链路的组合被监控的状态(正常、异常),定义核心进程或关键链路或核心进程与关键链路的组合发生异常次数的阀值和发生异常的容忍时长阀值,定义核心进程或关键链路或核心进程与关键链路的组合异常发生次数阀值对应的时间窗(一段时间)。当智能识别模块发现业务交付平台被监控的核心进程或关键链路或核心进程与关键链路的组合在一个时间窗内,发生异常次数达到阀值,和/或,发生异常的时长超过发生异常的容忍时长阀值,则通知自动切换模块,进行容灾切换,避免了两个站点进行频繁的无效切换。
服务侦听模块包含一个独立于业务交付平台现有业务端口的服务侦听端口,该端口用于标识业务交付平台作为服务端时,是否可以提供服务。当服务侦听模块收到自动切换模块的容灾切换指令后,将根据实际指令,确定将服务侦听端口置为可用或者不可用,即对主站点上的服务侦听端口置为不可用,对备站点上的服务侦听端口置为可用。当设置为不可用时,四层网络设备将侦听到该端口不可用,而切换到端口可用的业务交付平台的站点,这样从外部服务端/客户端(web/client)向业务交付平台发起的HTTP请求将被重定向到可用的业务交付平台站点。
客户侦听模块用于侦听来自自动切换模块的指令,并根据指令,对业务交付平台作为客户端的链路进行启动或关闭。客户侦听模块收到自动切换模块的切换指令后,修改业务交付平台主站点与业务引擎之间的链路配置文件,屏蔽业务交付平台与业务引擎之间的链路,使主站点与各业务引擎之间的消息中断;修改业务交付平台备站点与业务引擎之间的链路配置文件,启动业务交付平台与业务引擎之间的链路,使备站点与各业务引擎之间建立正常的消息接收和发送通道。
其中,自动切换模块根据智能识别模块发送过来的容灾切换指令,按照预置的协同切换步骤,按照先后顺序,先启动对外服务端的切换,再启动对外作为客户端的切换,然后触发业务交付平台内部各子***的内部逻辑切换,完成容灾切换。当然,不限于该顺序。
其中,一种切换方式为:当自动切换模块收到智能识别模块的容灾切换指令后,将对主站点首先实施切换,即通知位于主站点的服务侦听模块和客户侦听模块,由服务侦听模块将服务侦听端口设置为不可用,由客户侦听模块修改业务交付平台与各个业务引擎之间的链路配置文件,屏蔽业务交付平台与各个业务引擎之间链路。然后对备站点实施切换,即通知位于备站点的服务侦听模块和客户侦听模块,由服务侦听模块将服务侦听端口设置为可用,由客户侦听模块修改业务交付平台与各业务引擎之间的链路配置文件,启动业务交付平台与各业务引擎之间链路。
其中,所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块仅有一组,位于所述主站点或备站点上。此时,所述自动切换模块、服务侦听模块、客户侦听模块对两个站点进行控制,自动切换模块触发位于主站点和备站点的业务交付平台内部各子***的内部逻辑切换,所述服务侦听模块将所述主站点的服务侦听端口设置为不可用,将所述备站点的服务侦听端口设置为可用。所述客户侦听模块根据指令启动所述备站点上所述业务交付平台与业务引擎之间的链路,关闭所述主站点上所述业务交付平台与业务引擎之间的链路。
或者,所述***中包括两组所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块,分别位于所述主站点和备站点上,如图5所示,则:
1)部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
2)两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。即,如果判断需要进行切换,智能识别模块发送容灾切换指令至两个站点上的自动切换模块。优选的,两个智能识别模块都正常时,备站点上的智能识别模块处于工作状态。
3)双向监控模块双方正常工作,则由部署在业务交付平台主站点或备站点(优选的,为备站点)上的双向监控模块负责上报告警信息给位于该站点的智能识别模块。当一方正常工作,一方异常,则由正常的双向监控模块向处于工作状态的智能识别模块上报告警信息。
4)对所述两个站点上的自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
正常情况下,分别位于主、备两个站点的自动切换模块、服务侦听模块、客户侦听模块各自接收上游的指令。分别位于主、备两个站点的自动切换模块、服务侦听模块、客户侦听模块都可以在对方异常时,接管对方的工作。
其中,若位于主站点的自动切换模块异常,则位于备站点上的自动切换模块将接管它的工作,在收到智能识别模块的切换指令时,将同时发指令给位于两个站点的服务侦听模块和客户侦听模块,但发往两个站点的指令不同,具体的,指示主站点上的服务侦听模块将所述主站点的服务侦听端口设置为不可用,指示主站点上的客户侦听模块关闭所述主站点上所述业务交付平台与业务引擎之间的链路;指示备站点上的服务侦听模块将所述备站点的服务侦听端口设置为可用,指示备站点上的客户侦听模块开启所述备站点上所述业务交付平台与业务引擎之间的链路。
上述各模块部署在业务交付平台主站点和/或备站点,通过对主站点和备站点进行实时的监控,及时了解两个站点的运行状态,当发现主站点出现异常,无法对外提供服务时,及时捕捉到异常,并按照管理员预设的条件,结合异常情况进行智能分析,自动触发一系列操作,快速实现自动容灾切换。
实施例二
本实施例提供一种实现业务交付平台异地容灾切换方法,包括:
监控业务交付平台的主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,生成告警信息;
根据所述告警信息判断是否满足预设的切换规则,如果满足,则启动所述主站点和备站点之间的主备切换。
其中,所述启动所述主站点和备站点之间的主备切换包括:
触发所述业务交付平台内部各子***的内部逻辑切换,将所述主站点的服务侦听端口设置为不可用,关闭所述主站点上所述业务交付平台与业务引擎之间的链路;和/或,将所述备站点的服务侦听端口设置为可用,启动所述备站点上所述业务交付平台与业务引擎之间的链路。
其中,所述判断是否满足切换规则包括:
如果预定义的业务交付平台的核心进程,或者,关键链路或者,核心进程与关键链路的组合,在一个预设时间窗内发生异常的次数达到预设的阈值,和/或,发生异常的时长超过容忍时长阈值,则满足切换规则。
其中,上述切换方法由上述***实现。其中,所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块同时部署于所述主站点和备站点上时,部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
其中,所述双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。
其中,所述方法还包括:
所述智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,对所述两个站点上的自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
其中,所述方法还包括:所述双向监控模块同时部署在所述主站点和备站点时,如果两个站点上的所述双向监控模块均正常,则均处于工作状态,则由和处于工作状态的智能识别模块同一站点的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息,如果只有一个站点上的双向监控模块正常,则由该正常的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息。
下面结合附图和具体应用实例对本发明的技术方案进一步详细阐述。
如图2所示,为一种实现业务交付平台异地容灾切换方法的流程图,包括:
201,双向监控模块启动对业务交付平台核心进程的监控;
202,业务交付平台发生异常,并且满足告警上报条件时,双向监控模块将采集到告警信息;
203,双向监控模块向智能识别模块上报告警信息;
204,智能识别模块判断业务交付平台被监控的核心进程或关键链路或核心进程与关键链路的组合在一个时间窗内,发生异常次数是否达到阀值,和/或,发生异常的时长是否超过发生异常的容忍时长阀值;
205,智能识别模块若发现异常发生次数已经达到阀值,和/或,发生异常的时长超过发生异常的容忍时长阀值,则向自动切换模块发送容灾切换指令;
206,自动切换模块收到容灾切换指令后,向服务侦听模块发送服务切换指令;
207,自动切换模块收到容灾切换指令后,向客户侦听模块发送客户切换指令;
208,自动切换模块对业务交付平台内部启动容灾切换。
如图3所示,图3为一种实现业务交付平台异地容灾切换方法的主站点容灾切换图,包括:
301,自动切换模块向业务交付平台主站点的服务侦听模块发送服务切换指令;
302,服务侦听模块将位于主站点的服务侦听端口置为不可用;
303,自动切换模块向业务交付平台主站点的客户侦听模块发送客户切换指令;
304,客户侦听模块屏蔽业务交付平台的主站点与业务引擎之间的链路;
305,自动切换模块向业务交付平台主站点各模块上实施内部模块配置修改和角色修改操作,将主站点设置为备站点。
如图4所示,图4为一种实现业务交付平台异地容灾切换方法的备站点容灾切换图,包括:
401,自动切换模块向业务交付平台备站点的服务侦听模块发送服务切换指令;
402,服务侦听模块将位于备站点的服务侦听端口置为可用;
403,自动切换模块向业务交付平台备站点的客户侦听模块发送客户切换指令;
404,客户侦听模块开启业务交付平台的备站点与业务引擎之间的链路;
405,自动切换模块向业务交付平台备站点各模块上实施内部模块配置修改和角色修改操作,将备站点设置为主站点。完成容灾切换。
综上所述,本发明实施例提供一种实现业务交付平台异地容灾切换的方法和***,通过对业务交付平台进行有效的监控,并对异常告警进行智能分析,将业务交付平台原本复杂的内部逻辑、对外服务的端口、众多的链路和链路类型分门别类进行区别处理,当自动判断需要进行容灾切换时,由***各模块协同处理,自动、快速地完成业务交付平台的异地容灾切换。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

Claims (17)

1.一种实现业务交付平台异地容灾切换的***,其特征在于,包括:双向监控模块、智能识别模块、自动切换模块,其中:
所述双向监控模块用于,监控所述业务交付平台的主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,上报告警信息至所述智能识别模块;
所述智能识别模块用于,接收所述双向监控模块上报的告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给所述自动切换模块;
所述自动切换模块用于,接收到所述智能识别模块发送的容灾切换指令后,启动所述主站点和备站点之间的主备切换。
2.如权利要求1所述的***,其特征在于,所述***还包括:服务侦听模块和客户侦听模块,其中:
所述自动切换模块启动所述主站点和备站点之间的主备切换包括:
所述自动切换模块发送指令给所述服务侦听模块和客户侦听模块,触发所述业务交付平台内部各子***的内部逻辑切换;
所述服务侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令将服务侦听端口设置为可用或不可用;
所述客户侦听模块用于,接收到所述自动切换模块发送的指令后,根据指令启动或关闭所述业务交付平台与业务引擎之间的链路。
3.如权利要求2所述的***,其特征在于,所述服务侦听模块根据指令将服务侦听端口设置为可用或不可用包括:
所述服务侦听模块根据指令将所述主站点的服务侦听端口设置为不可用,和/或,将所述备站点的服务侦听端口设置为可用。
4.如权利要求2所述的***,其特征在于,所述客户侦听模块根据指令启动或关闭所述业务交付平台与业务引擎之间的链路包括:
所述客户侦听模块根据指令启动所述备站点上所述业务交付平台与业务引擎之间的链路,和/或,关闭所述主站点上所述业务交付平台与业务引擎之间的链路。
5.如权利要求1至4任一所述的***,其特征在于,所述智能识别模块判断是否满足切换规则包括:
如果预定义的业务交付平台的核心进程,或者,关键链路,或者,核心进程与关键链路的组合,在一个预设时间窗内发生异常的次数达到预设的阈值,和/或,发生异常的时长超过容忍时长阈值,则满足切换规则。
6.如权利要求1所述的***,其特征在于,所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块位于所述主站点或备站点上,或者,所述***中包括两组所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块,分别位于所述主站点和备站点上,且部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
7.如权利要求6所述的***,其特征在于,所述双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。
8.如权利要求6或7所述的***,其特征在于,
所述智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,对所述两个站点上自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,各自,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
9.如权利要求6或7所述的***,其特征在于,
所述双向监控模块同时部署在所述主站点和备站点时,如果两个站点上的所述双向监控模块均正常,则均处于工作状态,且由和处于工作状态的智能识别模块同一站点的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息,如果只有一个站点上的双向监控模块正常,则由该正常的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息。
10.一种实现业务交付平台异地容灾切换方法,其特征在于,包括:
监控业务交付平台的主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,生成告警信息;
根据所述告警信息判断是否满足预设的切换规则,如果满足,则启动所述主站点和备站点之间的主备切换。
11.如权利要求10所述的方法,其特征在于,所述启动所述主站点和备站点之间的主备切换包括:
触发所述业务交付平台内部各子***的内部逻辑切换,将所述主站点的服务侦听端口设置为不可用,关闭所述主站点上所述业务交付平台与业务引擎之间的链路;和/或,将所述备站点的服务侦听端口设置为可用,启动所述备站点上所述业务交付平台与业务引擎之间的链路。
12.如权利要求10或11所述的方法,其特征在于,所述判断是否满足切换规则包括:
如果预定义的业务交付平台的核心进程,或者,关键链路或者,核心进程与关键链路的组合,在一个预设时间窗内发生异常的次数达到预设的阈值,和/或,发生异常的时长超过容忍时长阈值,则满足切换规则。
13.如权利要求11所述的方法,其特征在于,所述主站点和备站点至少其中之一部署双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块,其中:
所述双向监控模块监控业务交付平台主站点和备站点,当检测到所述主站点或备站点发生异常且满足告警上报条件时,上报告警信息至所述智能识别模块;
所述智能识别模块接收所述双向监控模块上报的告警信息,判断是否满足预设的切换规则,如果满足,则发送容灾切换指令给所述自动切换模块;
所述自动切换模块接收到所述容灾切换指令后,所述发送指令给所述服务侦听模块和客户侦听模块,触发所述业务交付平台内部各子***的内部逻辑切换;
所述服务侦听模块接收到所述自动切换模块发送的指令后,根据指令将服务侦听端口设置为可用或不可用;
所述客户侦听模块接收到所述自动切换模块发送的指令后,根据指令启动或关闭所述业务交付平台与业务引擎之间的链路。
14.如权利要求13所述的方法,其特征在于,所述方法还包括:所述双向监控模块、智能识别模块、自动切换模块,服务侦听模块和客户侦听模块同时部署于所述主站点和备站点上时,部署在所述两个站点上的上述各模块中相同模块之间建立心跳链接,周期性检测对方是否正常工作。
15.如权利要求14所述的方法,其特征在于,所述方法还包括:所述双向监控模块、智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,两个站点上的所述智能识别模块互为备份,其中一个处于工作状态,另一个处于休眠状态,且处于工作状态的所述智能识别模块控制部署在所述主站点和备站点的所述自动切换模块。
16.如权利要求14或15所述的方法,其特征在于,所述方法还包括:
所述智能识别模块、自动切换模块、客户侦听模块和服务侦听模块同时部署在所述主站点和备站点时,对所述两个站点上的自动切换模块、客户侦听模块和服务侦听模块中的任一模块,如果两个站点上的模块均正常,则均处于工作状态,如果一个站点上的模块正常,另一站点上的对应模块异常,则由正常的模块接管异常的对应模块的工作。
17.如权利要求14或15所述的方法,其特征在于,所述方法还包括:所述双向监控模块同时部署在所述主站点和备站点时,如果两个站点上的所述双向监控模块均正常,则均处于工作状态,且由和处于工作状态的智能识别模块同一站点的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息,如果只有一个站点上的双向监控模块正常,则由该正常的双向监控模块向所述处于工作状态的智能识别模块上报所述告警信息。
CN201210443595.9A 2012-11-08 2012-11-08 一种实现业务交付平台异地容灾切换的方法和*** Pending CN103812675A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210443595.9A CN103812675A (zh) 2012-11-08 2012-11-08 一种实现业务交付平台异地容灾切换的方法和***
US14/429,078 US9684574B2 (en) 2012-11-08 2013-08-08 Method and system for implementing remote disaster recovery switching of service delivery platform
PCT/CN2013/081036 WO2013185727A2 (zh) 2012-11-08 2013-08-08 一种实现业务交付平台异地容灾切换的方法和***
EP13804437.5A EP2882136B1 (en) 2012-11-08 2013-08-08 Method and system for implementing remote disaster recovery switching of service delivery platform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210443595.9A CN103812675A (zh) 2012-11-08 2012-11-08 一种实现业务交付平台异地容灾切换的方法和***

Publications (1)

Publication Number Publication Date
CN103812675A true CN103812675A (zh) 2014-05-21

Family

ID=49758795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210443595.9A Pending CN103812675A (zh) 2012-11-08 2012-11-08 一种实现业务交付平台异地容灾切换的方法和***

Country Status (4)

Country Link
US (1) US9684574B2 (zh)
EP (1) EP2882136B1 (zh)
CN (1) CN103812675A (zh)
WO (1) WO2013185727A2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528259A (zh) * 2016-03-01 2016-04-27 浪潮通信信息***有限公司 一种应用级容灾自动化切换控制设计方法
CN105530120A (zh) * 2015-12-01 2016-04-27 中国建设银行股份有限公司 一种业务处理方法、控制器及业务处理***
CN105812191A (zh) * 2016-04-28 2016-07-27 杭州华三通信技术有限公司 一种容灾切换方法及装置
CN107404394A (zh) * 2016-05-20 2017-11-28 中兴通讯股份有限公司 一种iptv***容灾方法及iptv容灾***
CN108667635A (zh) * 2017-03-27 2018-10-16 腾讯科技(深圳)有限公司 一种容灾处理的方法、设备及***
CN108880917A (zh) * 2018-08-23 2018-11-23 华为技术有限公司 控制面设备的切换方法、装置及转控分离***
CN109062184A (zh) * 2018-08-10 2018-12-21 中国船舶重工集团公司第七〇九研究所 双机应急救援设备、故障切换方法和救援***
CN111309515A (zh) * 2018-12-11 2020-06-19 华为技术有限公司 一种容灾控制方法、装置及***
CN113760611A (zh) * 2021-08-30 2021-12-07 银清科技有限公司 ***站点切换方法、装置、电子设备及存储介质
CN115695320A (zh) * 2023-01-04 2023-02-03 苏州浪潮智能科技有限公司 一种前后端负载管理方法、***、设备及计算机存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970174B2 (en) 2017-12-04 2021-04-06 International Business Machines Corporation Pre-emptive data production site swap
CN109101371B (zh) * 2018-08-01 2021-11-16 创新先进技术有限公司 一种容灾切换方法及装置
CN109213639A (zh) * 2018-08-23 2019-01-15 郑州云海信息技术有限公司 一种存储容灾方法及装置
CN110708184A (zh) * 2019-08-27 2020-01-17 国网辽宁省电力有限公司信息通信分公司 一种电网智能数配
CN110633176B (zh) * 2019-09-26 2023-11-10 成都星时代宇航科技有限公司 工作***切换方法、立方星和切换装置
CN111901395B (zh) * 2020-07-07 2024-03-22 青岛海尔科技有限公司 多集群切换方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582787A (zh) * 2008-05-16 2009-11-18 中兴通讯股份有限公司 一种双机备份***及备份方法
CN101902361A (zh) * 2010-07-26 2010-12-01 中兴通讯股份有限公司 容灾业务***及容灾方法
CN102196373A (zh) * 2010-03-04 2011-09-21 新奥特(北京)视频技术有限公司 一种短信告警***及短信告警方法
CN102257759A (zh) * 2011-04-25 2011-11-23 华为技术有限公司 主备倒换方法、***控制单元和通信***
WO2012009923A1 (zh) * 2010-07-19 2012-01-26 中兴通讯股份有限公司 复用段倒换恢复业务的方法、装置和***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678369B2 (en) * 2000-06-09 2004-01-13 Nms Communications Corporation Network interface redundancy
US7515597B1 (en) * 2000-10-03 2009-04-07 Eads Telecom North America Inc. Distributed switching platform and method of operating the same
US7096383B2 (en) * 2002-08-29 2006-08-22 Cosine Communications, Inc. System and method for virtual router failover in a network routing system
US7581003B2 (en) * 2003-12-31 2009-08-25 Microsoft Corporation System and method for automatic recovery from fault conditions in networked computer services
US7634685B2 (en) * 2004-08-13 2009-12-15 Microsoft Corporation Remote computer disaster recovery and migration tool for effective disaster recovery and migration scheme
CN1299204C (zh) 2004-09-14 2007-02-07 中国人民解放军上海警备区司令部指挥自动化工作站 用于数据容灾备份控制***的监控操作***
US20090187413A1 (en) * 2008-01-18 2009-07-23 Timothy Abels Service delivery platform for automated and remote information technology management
EP2107464A1 (en) * 2008-01-23 2009-10-07 Comptel Corporation Convergent mediation system with dynamic resource allocation
CN101505285A (zh) 2009-03-20 2009-08-12 ***集团宽带业务应用国家工程实验室有限公司 内容分发方法、业务交付平台、业务终端和***
CN101674495B (zh) * 2009-10-20 2015-06-03 中兴通讯股份有限公司 数据容灾预处理方法及装置
US20120311614A1 (en) * 2011-06-02 2012-12-06 Recursion Software, Inc. Architecture for pervasive software platform-based distributed knowledge network (dkn) and intelligent sensor network (isn)
CN102890716B (zh) * 2012-09-29 2017-08-08 南京中兴新软件有限责任公司 分布式文件***和分布式文件***的数据备份方法
US9213706B2 (en) * 2013-06-13 2015-12-15 DataGravity, Inc. Live restore for a data intelligent storage system
CN105518651B (zh) * 2013-09-04 2018-10-16 慧与发展有限责任合伙企业 用于云服务的基于策略的资源选择方法、***和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582787A (zh) * 2008-05-16 2009-11-18 中兴通讯股份有限公司 一种双机备份***及备份方法
CN102196373A (zh) * 2010-03-04 2011-09-21 新奥特(北京)视频技术有限公司 一种短信告警***及短信告警方法
WO2012009923A1 (zh) * 2010-07-19 2012-01-26 中兴通讯股份有限公司 复用段倒换恢复业务的方法、装置和***
CN101902361A (zh) * 2010-07-26 2010-12-01 中兴通讯股份有限公司 容灾业务***及容灾方法
CN102257759A (zh) * 2011-04-25 2011-11-23 华为技术有限公司 主备倒换方法、***控制单元和通信***

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105530120A (zh) * 2015-12-01 2016-04-27 中国建设银行股份有限公司 一种业务处理方法、控制器及业务处理***
CN105528259A (zh) * 2016-03-01 2016-04-27 浪潮通信信息***有限公司 一种应用级容灾自动化切换控制设计方法
CN105528259B (zh) * 2016-03-01 2018-08-21 浪潮天元通信信息***有限公司 一种应用级容灾自动化切换控制设计方法
CN105812191A (zh) * 2016-04-28 2016-07-27 杭州华三通信技术有限公司 一种容灾切换方法及装置
CN107404394A (zh) * 2016-05-20 2017-11-28 中兴通讯股份有限公司 一种iptv***容灾方法及iptv容灾***
CN108667635B (zh) * 2017-03-27 2021-01-12 腾讯科技(深圳)有限公司 一种容灾处理的方法、设备及***
CN108667635A (zh) * 2017-03-27 2018-10-16 腾讯科技(深圳)有限公司 一种容灾处理的方法、设备及***
CN109062184A (zh) * 2018-08-10 2018-12-21 中国船舶重工集团公司第七〇九研究所 双机应急救援设备、故障切换方法和救援***
CN109062184B (zh) * 2018-08-10 2021-05-14 中国船舶重工集团公司第七一九研究所 双机应急救援设备、故障切换方法和救援***
CN108880917A (zh) * 2018-08-23 2018-11-23 华为技术有限公司 控制面设备的切换方法、装置及转控分离***
US11765018B2 (en) 2018-08-23 2023-09-19 Huawei Technologies Co., Ltd. Control plane device switching method and apparatus, and forwarding-control separation system
CN112866004A (zh) * 2018-08-23 2021-05-28 华为技术有限公司 控制面设备的切换方法、装置及转控分离***
CN112866004B (zh) * 2018-08-23 2024-04-12 华为技术有限公司 控制面设备的切换方法、装置及转控分离***
CN111309515A (zh) * 2018-12-11 2020-06-19 华为技术有限公司 一种容灾控制方法、装置及***
CN111309515B (zh) * 2018-12-11 2023-11-28 华为技术有限公司 一种容灾控制方法、装置及***
CN113760611A (zh) * 2021-08-30 2021-12-07 银清科技有限公司 ***站点切换方法、装置、电子设备及存储介质
CN113760611B (zh) * 2021-08-30 2024-05-03 银清科技有限公司 ***站点切换方法、装置、电子设备及存储介质
CN115695320A (zh) * 2023-01-04 2023-02-03 苏州浪潮智能科技有限公司 一种前后端负载管理方法、***、设备及计算机存储介质

Also Published As

Publication number Publication date
EP2882136A2 (en) 2015-06-10
WO2013185727A3 (zh) 2014-02-06
WO2013185727A2 (zh) 2013-12-19
US20150278047A1 (en) 2015-10-01
EP2882136A4 (en) 2015-08-26
EP2882136B1 (en) 2018-05-02
US9684574B2 (en) 2017-06-20

Similar Documents

Publication Publication Date Title
CN103812675A (zh) 一种实现业务交付平台异地容灾切换的方法和***
CA2723552C (en) Method and device for processing cell out-of-service failures
CN108880917B (zh) 控制面设备的切换方法、装置及转控分离***
CN101072125B (zh) 集群结构及其控制单元
CN108173911B (zh) 一种微服务故障检测处理方法及装置
CN106856489A (zh) 一种分布式存储***的服务节点切换方法和装置
CN102932466B (zh) 基于内容分发网络的分布式源监控方法和***
CN102355368B (zh) 一种网络设备的故障处理方法及***
CN108429629A (zh) 设备故障恢复方法和装置
CN103810076B (zh) 数据复制的监控方法及装置
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和***
EP2637102B1 (en) Cluster system with network node failover
CN104980524A (zh) 一种weblogic连接池失效监测方法
CN104065526A (zh) 一种服务器故障报警的方法和装置
CN109600264A (zh) CloudStack云平台
CN101989933A (zh) 一种故障检测的方法和***
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
CN105630647A (zh) 一种设备检测方法及检测设备
CN110620813A (zh) 一种基于NBIoT的设备故障报警***和方法
CN102833115B (zh) 一种端口的告警处理方法及***
CN105812191A (zh) 一种容灾切换方法及装置
CN101958925A (zh) 一种控制远程设备的方法以及装置
CN103248505B (zh) 基于视图的网络监控方法及装置
WO2014176969A1 (zh) 一种自动容灾切换方法及装置
CN116016244A (zh) 监控网络故障处理过程的方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140521