CN109451189A - 一种基于事件驱动的95598异地双活***全景切换***及方法 - Google Patents

一种基于事件驱动的95598异地双活***全景切换***及方法 Download PDF

Info

Publication number
CN109451189A
CN109451189A CN201811112670.7A CN201811112670A CN109451189A CN 109451189 A CN109451189 A CN 109451189A CN 201811112670 A CN201811112670 A CN 201811112670A CN 109451189 A CN109451189 A CN 109451189A
Authority
CN
China
Prior art keywords
data center
data
event
module
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811112670.7A
Other languages
English (en)
Other versions
CN109451189B (zh
Inventor
李子乾
杨维
张晓慧
刘旭生
马永波
朱克
唐振营
穆松鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co Ltd Customer Service Center
Original Assignee
State Grid Co Ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co Ltd Customer Service Center filed Critical State Grid Co Ltd Customer Service Center
Priority to CN201811112670.7A priority Critical patent/CN109451189B/zh
Publication of CN109451189A publication Critical patent/CN109451189A/zh
Application granted granted Critical
Publication of CN109451189B publication Critical patent/CN109451189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及一种基于事件驱动的95598异地双活***全景切换***及方法。***包括:资源层、数据层、应用层、接入层;全景切换方法包括如下过程:状态监控模块实时对数据中心进行监控,将产生灾难性事件并获取数据中心A的运行数据和故障数据同时上传给切换测量模块;切换测量模块构建评价灾难性事件危险等级的评价指标体系;切换决策模形成综合的灾难事件危险等级指标值A;数据中心A和数据中心B,通过三次握手协议,完成切换准备工作,并告知切换执行模块可以开始执行切换操作;切换执行模块触发回切执行模块;回切执行模块执行回切操作。本发明最大限度地降低核心业务***的单点异常对整体业务功能连续性的影响。

Description

一种基于事件驱动的95598异地双活***全景切换***及 方法
技术领域:
本发明涉及智能客服***,进一步涉及一种基于事件驱动的95598异地双活***全景切换***及方法。
背景技术:
国家电网95598供电服务面向千家万户,服务要求高、社会影响力大。客户服务中心作为国家电网公司的窗口部门,其信息***的安全性、可靠性将直接关系到国家电网公司的社会形象,特别是95598核心业务***的业务连续性保障体系建设尤为重要。通过业务连续性保障体系的建设,可以提高客户服务中心核心业务***抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失,确保客户服务中心重要信息***的数据安全和作业持续性,避免引起社会重要服务功能的严重中断,从而保障社会经济的稳定。
目前国家电网公司客户服务中心95598核心业务***已基本建设完成,并已在整个公司范围内实现了网省信息***与95598核心业务***的对接,客户服务中心建设95598核心业务连续性保障***的技术准备条件已经基本成熟。结合国内外的业务连续性保障实践,探索适合国家电网公司客户服务中心特点的95598核心业务连续性保障***建设已非常必要。结合客服中心应用特点,以及业界多种应用双/多活的成熟经验和先进案例,探讨并设计面向国网95598核心业务***应用双活方案,达到未来客服核心***双活运行的目的,有效提高资源的利用率和灾难恢复效率]。
业务连续性保障是95598核心业务***灾备建设的目标。通过对业务中断事件分类可知,针对各种事件必须要有相应的应急对策。既要做到针对全局性灾害的快速接管与恢复,同时还须兼顾本地故障的应急,才能构建一个全方位的、强有力的故障应急体系,才能为企业的业务连续性提供有力的保障。建设客服中心95598核心业务灾备***,将最大限度降低核心业务***的单点异常对整体业务功能连续性的影响。灾备***建成后,日常运行情况,95598核心业务***双活运行,即数据中心A、数据中心B,双中心同时分区域受理用户业务访问,业务运行在本中心内完成,双中心之间的数据通过数据库逻辑复制技术进行互备。当某一个中心发生灾难或故障事件时,为了满足业务连续性保障,两个数据中心必须能分别对故障中心的远程用户提供访问服务,因此必须设计一种可对数据中心灾难性事件危险级别进行识别,并针对其危险级别做出相应切换操作的全景切换***,通过该平台智能的判别灾难性事件危险级别,并作出相应的切换操作,满足业务连续性保障,最大限度降低核心业务***的单点异常对整体业务功能连续性的影响。
发明内容:
本发明目的在于提出一种基于事件驱动的95598异地双活***全景切换***及方法。具体技术方案如下:
本***基于SoTower平台设计。SoTower平台是以电力为导向的、可快速构建应用的软件平台,SoTower平台采用J2EE技术路线,并部署于J2EE应用服务器之上,为应用***开发提供所需的各项基础技术构件和业务构件,并保证了应用***的运行的安全、稳定的运行支撑环境。J2EE架构是目前企业开发最为流行的架构之一,包含Servlet、JMS、EJB等众多规范,这些规范全面的解决了涵盖企业级应用建设可能会面对的问题,同时J2EE真正满足企业级信息化建设要求是其包含多层体系在内的良好架构。SoTower是一个介于应用服务器和应用***的中间件,***平台开发过程所需要的各项基础技术业务组件,它都可以提供,并有与之相应的、方便易用的开发与维护管理工具。SoTower屏蔽了J2EE的标准复杂性,从而减少软件开发难度和风险,避免项目成本的提高和开发效率的下降。
SoTower平台总体框架如图1所示。从图1中可以看出,数据库和J2EE应用服务器在其总体框架中为最底层,为SoTower平台提供坚实的基础服务;SoTower的底层框架为***开发提供预制的客户端构件、展现构件、业务逻辑构件、持久化构件和基础功能包;通过底层框架结构延伸出业务服务体系、应用集成和业务流程管理等平台功能。BSP业务服务平台为电力企业的组织机构、权限管理、工作日历、单点登录提供了统一的管理。应用集成为电力企业众多跨平台、跨***应用提供接口和数据整合业务。BMP业务流程管理,为SoTower提供了功能强大的工作流管理机制。同时SoTower平台结合业务应用软件和简洁方便的开发工具,使用开发人员开发强度减轻、开发难度减少、开发效率提高。
SoTower平台的技术特点:
(1)良好的封装性:通过对应用开发常用的技术点和功能点进行封装,形成高内聚、松耦合的技术构件和业务构件,并对外提供一致的接口,使得开发人员不需要关注底层实现,程序员不需要关注技术细节,从而完全的投入到应用的需求分析和代码设计中,进而提高开发的效率,确保产品的质量。
(2)配置的灵活性:通过使用配置文件的形式对各构件进行定义和配置,解决了软件复用度低的问题,并能通过管理控制界面实时动态改变构件特性从而满足用户需求。
(3)可视化的易用性:通过为开发人员提供可视化的设计和开发攻击,实现数据建模、数据对象映射、展现界面定制、自定义扩展等方面的可视化开发和代码自动生成。降低了开发以及学习成本,减少项目先期的投入成本,保证***进度和质量。
(4)应用开发的可扩展性:不同于传统平台的扩展方式,SoTower平台为开发人员提供事件驱动和业务流2种方式来实现自定义的个性化需求,并通过继承和接口的方式来实现应用的扩展,保证了原有代码的完整性。
SoTower虽然不是一个电力企业应用集成开发平台,但它与电力业务应用紧密结合:
(1)SoTower平台的业务构件需求来源于对“SG186”业务应用软件通用业务的分析,在组织机构、权限、安全、数据字典、待办工作、任务计划等方面都充分考虑了国家电网公司的业务需求。SoTower平台自发布以来,已在国家电网公司SG186工程中的法律、人力资源辅助决策***、机关工作、审计纪检、安监、招投标二期、企协、松耦合业务应、法律、信息工作管理业务应用研究与开发(一期)、农电业务应用、宁夏电力营销、湖南电力营销、安徽电力营销项目、国家电网公司招投标等项目中得到了验证。
(2)符合国家电网公司相关标准规范,SoTower平台在设计之初就充分考虑并支持国家电网公司在信息化方面的标准规范,如编码标准、业务流程规范等。严格标准来开发电力企业应用并按照每个业务都使用相同的技术标准,通过遵循相同标准的方式来保证电力应用***之间集成的低成本。
(3)SoTower平台使得每个应用都具有一致的底层结构,通过SoTower内置的与门户、目录、数据交换平台、商业智能软件等的集成构件,应用开发人员不需要了解复杂多变的集成工作,只需通过构件接口进行数据传输即可在此平台上对开发的应用***实现很好地集成,大大降低了集成开发的工作量和难度。
SoTower满足了电力应用在大并发、大数据量下的性能要求。SoTower平台的高效性、稳定性与健壮性,直接决定了南北切换平台的高效性、稳定性与健壮性。
从***编程实现角度考虑,本平台采用MVC 3层架构设计,使结构更加清晰,平台整体逻辑结构如图2所示。
显示层:为用户提供方便、易用和友好界面,用户可以通过页面浏览和查询数据中心核心业务状态,并可以利用平台提供的公共API接口,执行相应的切换操作。
逻辑层:并行处理海量数据,并对整个平台***配置管理。
资源层:是整个平台的基础,存储和管理海量95598异地双活灾备***运行数据。
基于事件驱动的全景切换***主要实现数据中心之间的快速切换,保证业务的连续性。正常情况下,多个生产中心,都为用户提供服务,当出现异常时,基于事件驱动的全景切换***通过状态监控设备获取生产中心的运行状态数据和生产中心自身的故障状态数据,并采用专家评级的方法,通过对故障数据的分析推理,结合数据中心的运行过程自适应控制数据中心之间的切换并能在数据中心恢复后自动回切。从而实现数据中心之间的高效智能的切换。
从***功能角度考虑,采用专门面向电力行业的基于J2EE技术的SoTower快速开发平台构建的一种基于事件驱动的95598异地双活***全景切换***,包括:资源层、数据层、应用层、接入层;
所述资源层表示95598异地双活灾备***正常运行时为用户提供服务的物理设备;所述数据层通过对资源层设备的运行状态数据和故障数据进行采集并存储;对于海量设备信息,在存取数据时不会只局限对一种设备的操作,本层需要对各种设备提供的不同数据源进行屏蔽,提供数据库访问服务,这样平台才能够适应处理存储海量设备信息的要求,具有较好的可扩展性和完备性,方便管理和部署;
所述应用层包括:基于用户GUI界面和基于算法库API;基于用户GUI界面:用户可以通过简单应用的操作界面工具,手动进行数据中心的切换;基于算法库API:用户可以编写应用***,调用算法库中的API来扩展本***,实现所需的应用功能;
所述接入层主要通过负载均衡的方法,完成用户到数据中心的分配,分为全局负载均衡和局部负载均衡。全局负载均衡:通过DNS、重定向、路由协议实现全局负载均衡,对外提供整体服务,探测本地资源状态,实现数据中心级故障动态转移;局部负载均衡:检测本地WEB和应用资源状态,动态分发业务实现本地业务流量的负载均衡。
作为优选方案,所述数据层包括:状态监控模块、切换测量模块、切换决策模块、切换准备模块、切换执行模块以及回切执行模块;
所述状态监控模块实时对数据中心进行监测,当监测到数据中心A有故障事件发生时,该模块首先通过事件发生器,产生一个灾难性事件,并执行故障信息和运行状态信息收集操作,获取故障数据和运行状态数据;
所述切换测量模块由状态监控模块产生的灾难性事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
所述切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值,结合各指标的权重值,采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值,从而得出灾难性事件的危险等级的最终定义;
所述切换准备模块触发切换,进入切换准备阶段。切换准备阶段主要进行三次握手协议,分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
所述切换执行模块根据切换决策模块的决策结果进行相应的切换操作;所述回切执行模块通过状态监控模块调取数据中心A的运行状态数据,判断当前数据中心A的运行状态是否满足回切条件,若满足,则将用户流量及相应的***间调用访问回切到对应的数据中心;将数据中心A从灾难运行方式切换为日常运行方式,通知用户开始切换,调整路由表,贯通性测试,对端承担业务,启动数据复制。
在优选方案平台上实现的一种基于事件驱动的95598异地双活***全景切换方法,包括如下过程:
步骤1:状态监控模块实时对数据中心进行监控,当监控到数据中心A有故障事件发生时,将产生灾难性事件并获取数据中心A的运行数据和故障数据同时上传给切换测量模块;
步骤2:切换测量模块受状态监控模块的安全事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
步骤3:切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值(A1,A2,A3),给出各指标的权重值(W1,W2,W3),采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值A;计算公式为:
A=A1W1+A2W2+A3W3
步骤4:在切换准备模块的协调下,数据中心A和数据中心B,通过三次握手协议,完成切换准备工作,并告知切换执行模块可以开始执行切换操作;三次握手协议分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
步骤5:切换执行模块根据切换决策模块的决策结果选择相应的切换操作,将数据中心A的用户流量及相应的***间调用访问切换至数据中心B,并触发回切执行模块;
步骤6,回切执行模块通过调用状态监控模块,获取数据中心A的运行状态数据,从而分析数据中心A的当前状态,判断数据中心A是否恢复;当数据中心A满足回切条件,则执行回切操作;将数据中心A从灾难运行方式切换为日常运行方式,通知用户开始切换,调整路由表,贯通性测试,对端承担业务,启动数据复制。
切换方法的优选方案之一,所述状态监控模块收集两类监测数据,一部分是故障数据中心的设备数据,一部分是其余数据中心的设备数据。
切换方法的优选方案之二,其切换测量大致分为3个步骤:指标生成和专家评分和指标判定;
指标生成是根据权威专家的分析,从灾难性事件影响的各个指标中,选出对于95598异地双活灾备***的总体影响较大的指标,构建评价灾难性事件危险等级的评价指标体系;本平台的指标体系从事件的影响范围、影响程度和影响时间三个维度出发,综合评价灾难性事件对95598异地双活灾备***的总体影响;用表1所示三标度法来对同一层元素进行两两比较,建立比较矩阵A;A如下:
表1比例标度值体系别(重要性分数xij)
专家评分根据从状态监控模块获得的数据进行分析,通过专家对灾难性事件对95598异地双活灾备***的影响因素的每个层次的指标进行评分,从而为确定当前事件灾难性事件危险等级的评价指标的具体取值提供标准;
指标判定是切换测量模块对从状态监控模块获得的数据进行分析,并根据专家评分得到灾难性事件危险等级的每项评价指标的指标值(A1,A2,A3)。
切换方法的优选方案之三,步骤3中切换决策模块按照其决策依据可以将切换决策分为四类:本地切换事件A、典型日常切换事件B、典型应急切换事件C;典型灾难切换事件D;
所述本地切换事件A不执行跨平台切换操作,数据中心本地恢复;
所述典型日常切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,关闭所有应用服务器,确认数据同步完成,调整路由表,贯通性测试,灾备端承担业务,调整数据复制方向;
所述典型应急切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,调整路由表,贯通性测试,灾备端承担业务,两端数据补差,调整数据复制方向;
所述典型灾难切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,调整路由表,灾备端承担业务;
下表2给出了灾难性事件的综合评价结果。
表2灾难性事件综合评价
本发明设计并开发了基于事件驱动的全景切换***。该平台充分利用SoTower平台的技术特点和电力行业特色,并结合国网95598异地双活灾备***的特点,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系,从而对数据中心灾难性事件危险级别进行识别,并针对其危险级别做出相应切换操作。该平台的搭建极大地降低了灾备***切换的恢复时间,保障业务连续性,最大限度地降低核心业务***的单点异常对整体业务功能连续性的影响。
附图说明:
图1是SoTower架构示意图。
图2是基于事件驱动的全景切换***逻辑架构示意图。
图3是本发明***结构示意图。
图4是本发明切换方法流程示意图。
图5是实施例中验证***的架构示意图。
图6是实施例中验证的***切换的流程示意图。
具体实施方式:
实施例:
从***功能角度考虑,采用专门面向电力行业的基于J2EE技术的SoTower快速开发平台构建的一种基于事件驱动的95598异地双活***全景切换***,包括:资源层、数据层、应用层、接入层;
所述资源层表示95598异地双活灾备***正常运行时为用户提供服务的物理设备;所述数据层通过对资源层设备的运行状态数据和故障数据进行采集并存储;所述应用层包括:基于用户GUI界面和基于算法库API;所述接入层主要通过负载均衡的方法,完成用户到数据中心的分配,分为全局负载均衡和局部负载均衡。
作为优选方案,所述数据层包括:状态监控模块、切换测量模块、切换决策模块、切换准备模块、切换执行模块以及回切执行模块;
所述状态监控模块实时对数据中心进行监测,当监测到数据中心A有故障事件发生时,该模块首先通过事件发生器,产生一个灾难性事件,并执行故障信息和运行状态信息收集操作,获取故障数据和运行状态数据;
所述切换测量模块由状态监控模块产生的灾难性事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
所述切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值,结合各指标的权重值,采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值,从而得出灾难性事件的危险等级的最终定义;
所述切换准备模块触发切换,进入切换准备阶段。切换准备阶段主要进行三次握手协议,分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
所述切换执行模块根据切换决策模块的决策结果进行相应的切换操作;所述回切执行模块通过状态监控模块调取数据中心A的运行状态数据,判断当前数据中心A的运行状态是否满足回切条件,若满足,则将用户流量及相应的***间调用访问回切到对应的数据中心;将数据中心A从灾难运行方式切换为日常运行方式,通知用户开始切换,调整路由表,贯通性测试,对端承担业务,启动数据复制。
在优选方案平台上实现的一种基于事件驱动的95598异地双活***全景切换方法,包括如下过程:
步骤1:状态监控模块实时对数据中心进行监控,当监控到数据中心A有故障事件发生时,将产生灾难性事件并获取数据中心A的运行数据和故障数据同时上传给切换测量模块;
步骤2:切换测量模块受状态监控模块的安全事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
步骤3:切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值(A1,A2,A3),给出各指标的权重值(W1,W2,W3),采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值A;计算公式为:
A=A1W1+A2W2+A3W3
步骤4:在切换准备模块的协调下,数据中心A和数据中心B,通过三次握手协议,完成切换准备工作,并告知切换执行模块可以开始执行切换操作;三次握手协议分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
步骤5:切换执行模块根据切换决策模块的决策结果选择相应的切换操作,将数据中心A的用户流量及相应的***间调用访问切换至数据中心B,并触发回切执行模块;
步骤6,回切执行模块通过调用状态监控模块,获取数据中心A的运行状态数据,从而分析数据中心A的当前状态,判断数据中心A是否恢复;当数据中心A满足回切条件,则执行回切操作;将数据中心A从灾难运行方式切换为日常运行方式,通知用户开始切换,调整路由表,贯通性测试,对端承担业务,启动数据复制。
所述状态监控模块收集两类监测数据,一部分是故障数据中心的设备数据,一部分是其余数据中心的设备数据。
其切换测量大致分为3个步骤:指标生成和专家评分和指标判定;
指标生成是根据权威专家的分析,从灾难性事件影响的各个指标中,选出对于95598异地双活灾备***的总体影响较大的指标,构建评价灾难性事件危险等级的评价指标体系;本平台的指标体系从事件的影响范围、影响程度和影响时间三个维度出发,综合评价灾难性事件对95598异地双活灾备***的总体影响;用表1所示三标度法来对同一层元素进行两两比较,建立比较矩阵A;A如下:
专家评分根据从状态监控模块获得的数据进行分析,通过专家对灾难性事件对95598异地双活灾备***的影响因素的每个层次的指标进行评分,从而为确定当前事件灾难性事件危险等级的评价指标的具体取值提供标准;
指标判定是切换测量模块对从状态监控模块获得的数据进行分析,并根据专家评分得到灾难性事件危险等级的每项评价指标的指标值(A1,A2,A3)。
步骤3中切换决策模块按照其决策依据可以将切换决策分为四类:本地切换事件A、典型日常切换事件B、典型应急切换事件C;典型灾难切换事件D;
所述本地切换事件A不执行跨平台切换操作,数据中心本地恢复;
所述典型日常切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,关闭所有应用服务器,确认数据同步完成,调整路由表,贯通性测试,灾备端承担业务,调整数据复制方向;
所述典型应急切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,调整路由表,贯通性测试,灾备端承担业务,两端数据补差,调整数据复制方向;
所述典型灾难切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,调整路由表,灾备端承担业务;表2给出了灾难性事件的综合评价结果。
为了验证本文基于事件驱动的全景切换***的有效性,本实施例进行了北京的核心业务***切换至上海数据中心的演练,以便对其可用性、稳定性、安全性进行检测。验证切换场景如下表3所示。
表3验证切换场景
按照验证工作统一安排,各省(市)公司营销***生产环境分三批接入上海数据中心核心业务***验证环境,开展验证工作。验证开始时,参与验证的省公司需将营销***生产环境Webservice数据源由原来指向北京生产环境修改为指向北京测试环境,所有服务请求将由北京测试负载均衡转发至上海负载均衡,进而连接到部署在上海的核心业务***验证环境进行工单流转验证。验证***架构如图6所示。
本实施例对国家电网客服服务中心进行全局灾难和局部灾难的切换演练,验证了本文核心业务切换的有效性,验证结果如下表4所示。
表4验证结果
验证指标 全局灾难 局部灾难
有效切换是否成功 成功 成功
业务流程完整性 基本完整 基本完整
业务可用性 接入可用,应用可用 接入可用,应用可用
能否提供有效的对外服务
切换流程的可操作性 操作性强 操作性强
恢复点目标(RPO≤15min) 7min 15min
恢复时间目标(RTO≤60min) 55minn 43min
从验证结果可以看出,本发明基于事件驱动的全景切换***可以在国网客服南(北)中心***发生灾难时向对端***进行有效切换,满足国家电网客服中心的高业务连续性的要求。

Claims (6)

1.一种基于事件驱动的95598异地双活***全景切换***,其特征在于,包括:资源层、数据层、应用层、接入层;
所述资源层表示95598异地双活灾备***正常运行时为用户提供服务的物理设备;所述数据层通过对资源层设备的运行状态数据和故障数据进行采集并存储;所述应用层包括:基于用户GUI界面和基于算法库API;所述接入层主要通过负载均衡的方法,完成用户到数据中心的分配,分为全局负载均衡和局部负载均衡。
2.根据权利要求1所述一种基于事件驱动的95598异地双活***全景切换***,其特征在于,所述数据层包括:状态监控模块、切换测量模块、切换决策模块、切换准备模块、切换执行模块以及回切执行模块;
所述状态监控模块实时对数据中心进行监测,当监测到数据中心A有故障事件发生时,该模块首先通过事件发生器,产生一个灾难性事件,并执行故障信息和运行状态信息收集操作,获取故障数据和运行状态数据;
所述切换测量模块由状态监控模块产生的灾难性事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
所述切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值,结合各指标的权重值,采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值,从而得出灾难性事件的危险等级的最终定义;
所述切换准备模块触发切换,进入切换准备阶段;切换准备阶段进行三次握手协议,分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
所述切换执行模块根据切换决策模块的决策结果进行相应的切换操作;
所述回切执行模块通过状态监控模块调取数据中心A的运行状态数据,判断当前数据中心A的运行状态是否满足回切条件,若满足,则将用户流量及相应的***间调用访问回切到对应的数据中心。
3.在权利要求2平台上实现的一种基于事件驱动的95598异地双活***全景切换***,其特征在于,包括如下过程:
步骤1:状态监控模块实时对数据中心进行监控,当监控到数据中心A有故障事件发生时,将产生灾难性事件并获取数据中心A的运行数据和故障数据同时上传给切换测量模块;
步骤2:切换测量模块受状态监控模块的安全事件触发,通过熟悉灾难性事件的权威专家,按照层次分析方法,构建评价灾难性事件危险等级的评价指标体系;
步骤3:切换决策模块根据切换测量模块提供的灾难性事件危险等级的评价指标的指标值(A1,A2,A3),给出各指标的权重值(W1,W2,W3),采用综合权重的方法,对各类指标按照加权求和,形成综合的灾难事件危险等级指标值A;计算公式为:
A=A1W1+A2W2+A3W3
步骤4:在切换准备模块的协调下,数据中心A和数据中心B,通过三次握手协议,完成切换准备工作,并告知切换执行模块可以开始执行切换操作;三次握手协议分为三个步骤,即:数据中心A向其灾备数据中心B发起切换请求;数据中心B根据切换请求,准备执行接纳控制;数据中心A接受切换确认,确认切换准备完成;
步骤5:切换执行模块根据切换决策模块的决策结果选择相应的切换操作,将数据中心A的用户流量及相应的***间调用访问切换至数据中心B,并触发回切执行模块;
步骤6,回切执行模块通过调用状态监控模块,获取数据中心A的运行状态数据,从而分析数据中心A的当前状态,判断数据中心A是否恢复;当数据中心A满足回切条件,则执行回切操作;将数据中心A从灾难运行方式切换为日常运行方式,通知用户开始切换,调整路由表,贯通性测试,对端承担业务,启动数据复制。
4.根据权利要求3所述一种基于事件驱动的95598异地双活***全景切换***,其特征在于,所述状态监控模块收集两类监测数据,一部分是故障数据中心的设备数据,一部分是其余数据中心的设备数据。
5.在根据权利要求3所述全景切换***上实现的一种基于事件驱动的95598异地双活***全景切换方法,其特征在于,其切换测量大致分为3个步骤:指标生成、专家评分和指标判定;
指标生成是根据权威专家的分析,从灾难性事件影响的各个指标中,选出对于95598异地双活灾备***的总体影响较大的指标,构建评价灾难性事件危险等级的评价指标体系;本平台的指标体系从事件的影响范围、影响程度和影响时间三个维度出发,综合评价灾难性事件对95598异地双活灾备***的总体影响;用表1所示三标度法来对同一层元素进行两两比较,建立比较矩阵A;A如下:
表1比例标度值体系别(重要性分数xij)
专家评分根据从状态监控模块获得的数据进行分析,通过专家对灾难性事件对95598异地双活灾备***的影响因素的每个层次的指标进行评分,从而为确定当前事件灾难性事件危险等级的评价指标的具体取值提供标准;
指标判定是切换测量模块对从状态监控模块获得的数据进行分析,并根据专家评分得到灾难性事件危险等级的每项评价指标的指标值(A1,A2,A3)。
6.根据权利要求5所述一种基于事件驱动的95598异地双活***全景切换方法,其特征在于,步骤3中切换决策模块按照其决策依据可以将切换决策分为四类:本地切换事件A、典型日常切换事件B、典型应急切换事件C;典型灾难切换事件D;
所述本地切换事件A不执行跨平台切换操作,数据中心本地恢复;
所述典型日常切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,关闭所有应用服务器,确认数据同步完成,调整路由表,贯通性测试,灾备端承担业务,调整数据复制方向;
所述典型应急切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,断开数据中心A全局负载GTM,调整路由表,贯通性测试,灾备端承担业务,两端数据补差,调整数据复制方向;
所述典型灾难切换事件将数据中心A从日常运行方式切换为灾难运行方式,通知用户开始切换,调整路由表,灾备端承担业务;下表2给出了灾难性事件的综合评价结果。
表2灾难性事件综合评价
CN201811112670.7A 2018-09-25 2018-09-25 一种基于事件驱动的95598异地双活***全景切换***及方法 Active CN109451189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811112670.7A CN109451189B (zh) 2018-09-25 2018-09-25 一种基于事件驱动的95598异地双活***全景切换***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811112670.7A CN109451189B (zh) 2018-09-25 2018-09-25 一种基于事件驱动的95598异地双活***全景切换***及方法

Publications (2)

Publication Number Publication Date
CN109451189A true CN109451189A (zh) 2019-03-08
CN109451189B CN109451189B (zh) 2020-08-25

Family

ID=65533025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811112670.7A Active CN109451189B (zh) 2018-09-25 2018-09-25 一种基于事件驱动的95598异地双活***全景切换***及方法

Country Status (1)

Country Link
CN (1) CN109451189B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110635950A (zh) * 2019-09-30 2019-12-31 深圳供电局有限公司 一种双数据中心容灾***
CN111178911A (zh) * 2019-12-26 2020-05-19 朗新科技集团股份有限公司 一种基于双活技术的客服工单处理方法及***
CN111767151A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 批量负载处理方法、批量***、计算机***和介质
CN116754936A (zh) * 2023-06-28 2023-09-15 山东卓海能源科技有限公司 一种无触点开关运行监测分析***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937523A (zh) * 2006-08-09 2007-03-28 江苏移动通信有限责任公司 一种客服应急***及其实现方法
US20110216647A1 (en) * 2008-11-21 2011-09-08 Kabushiki Kaisha Toshiba Telephone system, gateway for telephone system, and redundancy switching method
CN104239164A (zh) * 2013-06-19 2014-12-24 国家电网公司 基于云存储的灾备切换***
CN102055605B (zh) * 2009-11-11 2015-03-04 中兴通讯股份有限公司 一种应用于aaa服务器的容灾***及方法
CN106506588A (zh) * 2016-09-23 2017-03-15 北京许继电气有限公司 多地多中心的数据中心双活方法和***
CN106815097A (zh) * 2017-01-18 2017-06-09 北京许继电气有限公司 数据库容灾***和方法
CN107612960A (zh) * 2017-07-21 2018-01-19 国网重庆市电力公司 电网调度中一体化控制***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937523A (zh) * 2006-08-09 2007-03-28 江苏移动通信有限责任公司 一种客服应急***及其实现方法
US20110216647A1 (en) * 2008-11-21 2011-09-08 Kabushiki Kaisha Toshiba Telephone system, gateway for telephone system, and redundancy switching method
CN102055605B (zh) * 2009-11-11 2015-03-04 中兴通讯股份有限公司 一种应用于aaa服务器的容灾***及方法
CN104239164A (zh) * 2013-06-19 2014-12-24 国家电网公司 基于云存储的灾备切换***
CN106506588A (zh) * 2016-09-23 2017-03-15 北京许继电气有限公司 多地多中心的数据中心双活方法和***
CN106815097A (zh) * 2017-01-18 2017-06-09 北京许继电气有限公司 数据库容灾***和方法
CN107612960A (zh) * 2017-07-21 2018-01-19 国网重庆市电力公司 电网调度中一体化控制***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110635950A (zh) * 2019-09-30 2019-12-31 深圳供电局有限公司 一种双数据中心容灾***
CN111178911A (zh) * 2019-12-26 2020-05-19 朗新科技集团股份有限公司 一种基于双活技术的客服工单处理方法及***
CN111767151A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 批量负载处理方法、批量***、计算机***和介质
CN111767151B (zh) * 2020-07-08 2023-09-15 中国工商银行股份有限公司 批量负载处理方法、批量***、计算机***和介质
CN116754936A (zh) * 2023-06-28 2023-09-15 山东卓海能源科技有限公司 一种无触点开关运行监测分析***
CN116754936B (zh) * 2023-06-28 2023-12-22 山东卓海能源科技有限公司 一种无触点开关运行监测分析***

Also Published As

Publication number Publication date
CN109451189B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Kandaperumal et al. Resilience of the electric distribution systems: concepts, classification, assessment, challenges, and research needs
CN109451189A (zh) 一种基于事件驱动的95598异地双活***全景切换***及方法
Dehghanian et al. Maintaining electric system safety through an enhanced network resilience
Younesi et al. Assessing the resilience of multi microgrid based widespread power systems against natural disasters using Monte Carlo Simulation
Bajwa et al. Enhancing power system resilience leveraging microgrids: A review
Eusgeld et al. “System-of-systems” approach for interdependent critical infrastructures
Ouyang et al. A three-stage resilience analysis framework for urban infrastructure systems
Nan et al. Adopting HLA standard for interdependency study
Sampaio et al. Automatic restoration system for power distribution networks based on multi‐agent systems
Eusgeld et al. Comparative evaluation of modeling and simulation techniques for interdependent critical infrastructures
Liu et al. Electric power grid resilience with interdependencies between power and communication networks–a review
CN101807816A (zh) 异构环境下电力数据公共访问服务接口的实现方法及***
Abualkishik et al. Disaster recovery in cloud computing systems: An overview
Kandaperumal et al. AWR: Anticipate, withstand, and recover resilience metric for operational and planning decision support in electric distribution system
Stapelberg Infrastructure systems interdependencies and risk informed decision making (RIDM): impact scenario analysis of infrastructure risks induced by natural, technological and intentional hazards
Lim et al. System-reliability-based disaster resilience analysis: Framework and applications to structural systems
Panwar et al. Integration of flow battery for resilience enhancement of advanced distribution grids
Kröger Achieving resilience of large-scale engineered infrastructure systems
Sharma et al. Modeling the time-varying performance of electrical infrastructure during post disaster recovery using tensors
Matsuno et al. Towards a language for communication among stakeholders
Martí et al. I2Sim modelling and simulation framework for scenario development, training, and real-time decision support of multiple interdependent critical infrastructures during large emergencies
Miller et al. Threats to the electric grid and the impact on organisational resilience
Vasenev et al. A hazus-based method for assessing robustness of electricity supply to critical smart grid consumers during flood events
Ventura et al. Understanding interdependencies among critical infrastructures
Baycik et al. Interdiction-based approaches to identify damage in disrupted critical infrastructures with dependencies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant