CN112783682B - 一种基于云手机服务的异常自动修复方法 - Google Patents

一种基于云手机服务的异常自动修复方法 Download PDF

Info

Publication number
CN112783682B
CN112783682B CN202110133683.8A CN202110133683A CN112783682B CN 112783682 B CN112783682 B CN 112783682B CN 202110133683 A CN202110133683 A CN 202110133683A CN 112783682 B CN112783682 B CN 112783682B
Authority
CN
China
Prior art keywords
abnormal
event
abnormal condition
mobile phone
cloud mobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110133683.8A
Other languages
English (en)
Other versions
CN112783682A (zh
Inventor
汪小烽
连寿哲
杨重魁
李晶莹
郭志斌
林道桢
李毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Duoduoyun Technology Co ltd
Original Assignee
Fujian Duoduoyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Duoduoyun Technology Co ltd filed Critical Fujian Duoduoyun Technology Co ltd
Priority to CN202110133683.8A priority Critical patent/CN112783682B/zh
Publication of CN112783682A publication Critical patent/CN112783682A/zh
Application granted granted Critical
Publication of CN112783682B publication Critical patent/CN112783682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于云手机服务的异常自动修复方法,所述异常自动修复方法应用于云手机服务***中,该云手机服务***包括用户终端和云手机服务中心,用户终端通过网络与云手机服务中心进行数据交互。本发明通过自动检测设备状态,当出现异常状况时,则根据异常状态码自动选择修复策略,并尝试修复,并通知修复结果,整体过程自动化方便快捷,不需要人工干预。

Description

一种基于云手机服务的异常自动修复方法
【技术领域】
本发明涉及异常检测和告警技术领域,具体涉及一种基于云手机服务的异常自动修复方法。
【背景技术】
通过云手机以及云服务能够较好的满足网民需求,提供的资源十分丰富。云网络中,由于负担重,不少的服务器都会出现***崩溃的问题,这就导致云服务存在较高的不确定性。故障检测是保障云网络安全的重要因素,在这方面,现有技术中提出了多种故障检测的方法,但是,这些算法在可靠性方面均不能令人满意,例如,通过建议设立指标(包括实际故障检测速度、虚假检测率等),对检测器服务质量进行定量描述,在此基础上基于概率来进行故障的检测,然而,这种方法很明显与网络的动态性特点不适应,服务质量不高。目前,故障检测方面面临的难题主要包括:
(1)自动化分析,云计算环境下的分布式软件应用通常由成百上千个节点构成,同时又分为众多层次,面对如此规模巨大的***,***管理员无法根据经验人工分析***所出现的问题;(2)问题组件定位,计算环境下的分布式软件应用通常由众多组件构成,分布在不同节点,调用各种服务,组件间交互关系复杂、关联度高,难以准确定位引起***故障的故障组件;(3)在线检测,许多软件***的故障经常是在大规模运行过程中表现出来的,而***运维人员难以在离线环境下重现产品运行中所出现的问题,以跟踪定位问题原因;(4)环境适应性,执行环境在应用运行过程中会发生动态变化(如外部负载波动、应用在多主机迁移、虚拟机资源动态调整),应用也会随之表现出与环境相应的行为,难以采用离线建立的模型对***状态进行准确刻画。如何进行云手机服务的异常自动修复已成为了亟需解决的技术问题。
【发明内容】
本申请提供了一种基于云手机服务的异常自动修复方法,以解决上述提到的一种或多种技术问题。通过自动检测设备状态,当出现异常状况时,则根据异常状态码自动选择修复策略,并尝试修复,并通知修复结果,整体过程自动化方便快捷,不需要人工干预。
本申请所采用的技术方案如下:
一种基于云手机服务的异常自动修复方法,所述异常自动修复方法应用于云手机服务***中,该云手机服务***包括用户终端和云手机服务中心,用户终端通过网络与云手机服务中心进行数据交互,该方法具体包括:
步骤1、获取云手机应用服务的异常情况事件数据,并发送至异常情况分类模块;
步骤2、异常情况分类模块解析异常情况事件数据中包含的日志描述信息,根据预设的异常情况类别判断出异常情况事件数据的确定分类;
步骤3、异常情况加权分析模块根据确定分类获取相应的异常情况事件训练集合,并计算异常情况事件数据的特征信息权值;
步骤4、状态通知模块对特征信息权值按照从大到小的顺序进行排序,根据预设的特征信息权值阈值,对大于特征信息权值阈值的特征信息所对应的异常情况事件数据,状态通知模块生成状态通知信息,并将状态通知信息发送给运维人员;
步骤5、异常情况事件修复模块根据特征信息权值确定相应的异常情况事件修复策略,并启动修复进程,将修复结果通知信息通过状态通知模块发送给运维人员。
进一步的,云手机服务中心设置有监测装置和数据库装置,所述监测装置用于搜集各层次的监测数据,对监测数据进行分析和处理,并根据分析和处理结果执行相应的控制策略。
进一步的,该监测装置包括异常情况分类模块、异常情况加权分析模块、状态通知模块以及异常情况事件修复模块。
进一步的,所述数据库装置中暂存有周期性搜集到的异常情况事件数据。
进一步的,所述状态通知信息包括影响业务、影响情况、以及异常信息描述3个部分。
进一步的,异常情况事件分为网络传输异常事件、程序设备异常事件、应用服务异常事件这3类;
其中,程序设备异常事件包括虚拟化层异常事件、物理层异常事件;
网络传输异常事件包括消息中间件异常事件、操作***平台异常事件、网络异常事件、以及交易中间件异常事件;
应用服务异常事件包括Web应用服务异常事件、浏览器异常事件。
进一步的,所述异常情况事件修复策略包括主动修复模式、协商修复模式以及被动修复模式。
进一步的,所述主动修复模式中,异常情况事件影响的服务数据流是不具有服务质量保证的,不需要与云手机服务中心进行实时性的数据交互。
进一步的,所述协商修复模式中,异常情况事件影响的服务数据流是具有服务质量保证的,需要与云手机服务中心进行实时性的数据交互。
进一步的,所述被动修复模式通过向云手机服务中心发送修复请求来启动,由于受到异常情况事件的影响,冗余服务资源无法进行分配和切换致使保护机制无法正常的启动修复,服务中心需要在人工的干预并采取相应措施的情况下才能够实现冗余服务资源的分配和切换。
通过本申请实施例,可以获得如下技术效果:
1)相对于现有技术本申请的技术方案将分类方法创新性地应用于云手机应用服务异常情况的分类上,并通过训练可供后续异常情况信息分类使用。本申请的方法能够实现更有针对性地发布告警,减少告警的误判,支撑运维人员更快速准确地去定位故障原因;
2)本发明中面向云手机应用服务异常情况事件的上述分类方法可以直接应用在云手机服务中心或者应用服务运维平台上,排除大类的异常情况,发布与类别相关的告警,收敛无关告警,将相关告警推送给运维人员,而且,由于关联关系可以通过更新和动态调整进行更改扩展,因而可以根据实际需求,来保证分类的时效性。
3)本发明通过自动检测设备状态,当出现异常状况时,则根据异常状态码自动选择修复策略,并尝试修复,并通知修复结果,整体过程自动化方便快捷,不需要人工干预。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为云手机服务***的组成结构示意图;
图2为异常情况事件的检测流程示意图;
图3为状态通知信息的基本格式示意图;
图4为异常情况事件的组成结构示意图;
图5为异常情况事件修复策略的组成结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
本发明的设备状态通知方法应用于云手机服务***中,图1为云手机服务***的组成结构示意图。该云手机服务***包括用户终端1和云手机服务中心2,用户终端通过无线网络与云手机服务中心进行数据交互。
云手机服务中心设置有监测装置和数据库装置,所述监测装置用于搜集各层次的监测数据,对监测数据进行分析和处理,并根据分析和处理结果执行相应的控制策略,该监测装置包括异常情况分类模块、异常情况加权分析模块、状态通知模块以及异常情况事件修复模块。所述数据库装置中暂存有周期性搜集到的异常情况事件数据。在云手机应用的后台运维中,维护人员每天会对云手机用户的反馈信息进行记录。由于云手机应用服务发生异常情况时会产生大量的用户反馈,因此云手机服务中心需要从大量的用户反馈中聚类出有效信息,经过整理后形成云手机应用服务异常情况列表,并交由负责相应应用服务的维护人员处理。
每个云手机应用服务异常情况列表中记录了一个突发的云手机应用服务告警事件,例如,应用闪退、长时间未响应等等,在现有的异常情况处理方式中,通常会将异常情况事件直接发送至相应的维护人员。由于云手机服务中心所涉及服务种类的多样性,发生在同一时间的异常情况会产生各种类型的告警,这样的处理方式的效率不高,并且如果出现异常情况误判或者误报,还会耽误异常情况的处理时间,浪费维护资源。
图2为本发明中异常情况事件的检测流程示意图,包括如下步骤:
步骤1、获取云手机应用服务的异常情况事件数据,并发送至异常情况分类模块;
步骤2、异常情况分类模块解析异常情况事件数据中包含的日志描述信息,根据预设的异常情况类别判断出异常情况事件数据的确定分类;
步骤3、异常情况加权分析模块根据确定分类获取相应的异常情况事件训练集合,并计算异常情况事件数据的特征信息权值;
步骤4、状态通知模块对特征信息权值按照从大到小的顺序进行排序,根据预设的特征信息权值阈值,对大于特征信息权值阈值的特征信息所对应的异常情况事件数据,状态通知模块生成状态通知信息,并将状态通知信息发送给运维人员;
步骤5、异常情况事件修复模块根据特征信息权值确定相应的异常情况事件修复策略,并启动修复进程,将修复结果通知信息通过状态通知模块发送给运维人员。
所述状态通知信息的基本格式图3所示,所述状态通知信息包括影响业务、影响情况、以及异常信息描述3个部分。
在本申请中,根据异常情况事件中各项特征的分析结果,对异常情况事件进行评估计算,并按照评估结果将异常情况事件分为网络传输异常事件、程序设备异常事件、应用服务异常事件这3类,图4为本发明中异常情况事件的组成结构示意图。
其中,程序设备异常事件包括虚拟化层异常事件、物理层异常事件;所述虚拟化层异常事件包括VMM异常事件、虚拟软件异常事件、VM异常事件、以及虚拟网络异常事件;所述物理层异常事件包括服务器异常事件、数据库异常事件、存储设施异常事件、处理机异常事件、以及物理网络异常事件;
网络传输异常事件包括消息中间件异常事件、操作***平台异常事件、网络异常事件、以及交易中间件异常事件;所述消息中间件异常事件包括服务器堵塞异常事件、传输超时异常事件、队列过载异常事件、数组越界异常事件;所述操作***平台异常事件包括内存异常事件、CPU异常事件、磁盘IO异常事件;所述网络异常事件包括网络丢包异常事件、网络延迟异常事件;所述交易中间件异常事件包括配置错误异常事件、数据库死锁异常事件、队列删除异常事件;
应用服务异常事件包括Web应用服务异常事件、浏览器异常事件;
所述Web应用服务异常事件包括***端口异常事件、软件冲突异常事件;
所述浏览器异常事件包括浏览器堵塞异常事件、浏览器关闭异常事件、浏览器崩溃异常事件、浏览器报错异常事件;
云手机应用异常检测将从图4第一层开始判断,如果待检测云手机应用异常事件数据属于其中的一种或几种,则只需沿着对应的分类分支进行检测,并根据分类情况分别向相应的维护人员发送设备状态相关的异常情况通知消息。
异常情况分类模块,用于解析异常情况的日志描述信息,根据预设的异常情况事件类别判断出异常情况的确定分类,所述预设的异常情况事件类别包括网络传输异常事件、程序设备异常事件、应用服务异常事件这3类。通过异常情况分类模块可以减少异常情况的误报,使异常情况的状态通知更具有针对性。
异常情况分类模块包括依次连接的预处理单元、映射关联单元以及类型识别单元;
预处理单元,用于异常情况事件数据的整理,并从整理后的异常情况事件数据中提取特征信息;
映射关联单元,用于对提取的所述特征信息进行初始异常情况事件类别标注,并将所述特征信息与已标注类别进行映射关联,形成每个初始异常情况事件类别的特征信息库,将所述特征信息库与映射关联的已标注类别进行关联存储,形成特征信息库与已标注类别的对应关联关系;
类型识别单元,用于根据特征信息库与已标注类别的对应关联关系进行异常情况事件类别分析计算,将具有最大权重的计算结果作为最终确定的异常情况事件类别,并完成异常情况事件分类。
所获取的云手机应用服务的异常情况事件数据,在经过异常情况分类模块处理后自动分类到了3种异常情况事件类别中,即网络传输异常事件、程序设备异常事件、应用服务异常事件。经过分类,能够对无关的异常情况事件进行收敛,以实现异常情况事件的有针对性的通知。
下面分别对上述异常情况分类模块中的各个单元进行详细介绍:
·预处理单元
描述云手机应用服务的异常情况事件的数据是从云手机用户处反馈信息中提取的,其中包括一些云手机应用服务用户的用户信息(例如用户标识、设备识别号、登录时长等等)和问题描述,由于这些信息可能包含很多与异常情况无关的内容、或者并不是与异常情况直接相关、或者对于运维人员来说没有实际的意义,因此需要对异常情况事件的数据进行预处理,通过对数据进行整理并从整理后的异常情况事件数据中提取特征信息,从而最终形成描述该异常情况事件的特征信息集合。
所述从整理后的异常情况事件数据中提取特征信息,具体包括:
设定sentencej为整理后的异常情况事件j的问题描述项,wordi为sentencej中的第i个关键词,异常情况事件的数据整理方法通过如下方式来实现:
sentencej=clean(data)
wordi=extra(sentencej)
其中,clean为数据整理函数,extra为数据提取函数,将整理后的异常情况事件数据进行数据提取操作以获得特征信息,并将特征信息提供给映射关联单元。
·映射关联单元
用于对提取的所述特征信息进行初始异常情况事件类别标注,并将所述特征信息与已标注类别进行映射关联,形成每个初始异常情况事件类别的特征信息库,并将所述特征信息库与映射关联的已标注类别进行关联存储;
所述形成特征信息库与已标注类别的关联关系,具体包括:
步骤201、针对已标注类别的异常情况事件,利用如下公式来提取每个异常情况事件数据中出现频率排名前三的特征信息,并构建相应异常情况事件类别的特征信息库;
wij=tfij×idfj=tfij×log(N/nj)
其中,tj是特征信息,tfij指的是tj在异常情况事件的数据di中出现的次数;idfj表示逆频率,N表示信息总数量,nj表示tj的数量,wij表示出现频率;
步骤202、对比相同特征信息在不同特征信息库中的出现频率wij值,并将该相同特征信息划分到出现频率wij值较高的特征信息库中;
建立每个类别下的特征信息库,因为在异常情况表述中,不同类别下的异常情况描述内容可能相同,不同的特征信息库可能包含相同特征信息,所以需要对比相同特征信息在不同特征信息库下的出现频率wij值,以确保所建立特征信息库的准确性;
步骤203、将所述特征信息库与映射关联的已标注类别进行关联存储;
例如网络传输异常事件的描述会涉及到“网络传输”这个词,而程序设备异常事件也会频繁地提及“网络传输”这个词。因此“网络传输”这个词在两个类别下的出现频率wij值都比较高,被同时纳入网络传输异常事件和程序设备异常事件的特征信息库,这时通过比较得到“网络传输”在网络传输异常事件的总值,和在程序设备异常事件的总值,由于“网络传输”这个词在网络传输异常事件的总值更高,这个词被包含到网络传输异常事件的特征信息库中,依次类推。
通过以上过程,建立了针对网络传输异常事件、程序设备异常事件、应用服务异常事件这3个类别与相应特征信息库的关联关系,提供给下一过程的分类使用。该关联关系可以直接使用,但后续异常情况描述如果有更新,也可以通过上述方法对关联关系进行更新和动态调整。
·类型识别单元
用于根据关联存储的所述特征信息库与映射关联的已标注类别进行异常情况事件类别分析计算,将具有最大权重的计算结果作为最终确定的异常情况事件类别,并完成异常情况事件分类;
所述异常情况事件类别分析计算通过如下方式实现:
步骤301、获取每个异常情况事件的问题描述项sentencej以及其所包含的关键词wordi,计算该异常情况事件的问题描述项属于每个类别的概率Pk,每个类别的概率Pk通过映射到每个类别Classk的个数除以该异常情况事件的问题描述项sentencej的长度来计算,具体计算公式如下:
Pk=count(wordi∈Classk)/length(sentencej),其中k=1、2、3;
当P1>(P2&P3)时,Label=1;
当P2>(P1&P3)时,Label=2;
当P3>(P1&P2)时,Label=3;
其中,Pk为每个类别下的概率,k对应各个类别的顺序,网络传输异常事件顺序为1、程序设备异常事件顺序为2、应用服务异常事件顺序为3,Classk为关联关系中特征信息库的类别,此处标记网络传输异常事件的特征信息库为Class1,程序设备异常事件的特征信息库为Class2,应用服务异常事件的特征信息库为Class3,Label表示最终确定的异常情况类别;
步骤302、比较每个类别的概率Pk的大小,如果是P1的概率最高,则判断为网络传输异常事件,Label为1;如果概率P2最高,则判断为程序设备异常事件,Label为2;如果概率P3最高,则判断为应用服务异常事件,Label为3;如果概率相同,则判断为程序设备异常事件,Label为2;
对于概率相同的情况是非常少见的,可以允许有一定程度的容错,考虑到出现程序设备异常事件的异常情况最多,因此将相同概率的情况标注为程序设备异常事件,即Label为2,由此完成分类的这个过程。
本发明中面向云手机应用服务异常情况事件的上述分类方法可以直接应用在云手机服务中心或者应用服务运维平台上,排除大量的异常情况,发布与类别相关的告警信息,将相关告警推送给运维人员,整体过程自动化方便快捷,不需要人工干预。而且,由于关联关系可以通过更新和动态调整进行更改扩展,因而可以根据实际需求,来保证分类的时效性。
在完成了对异常情况事件的分类之后,接下来将对分类后的异常情况事件进行加权处理,异常情况事件的加权处理由异常情况事件加权分析模块来实现。通过对异常情况事件进行加权不但可以为异常情况事件相关性事件中的各种异常情况事件确定不同的加权值,还可以作为异常情况事件之间的优先级提供相应的参考,通过将异常情况事件按加权值进行排序,能够为后期进行异常情况事件的通知、定位、运维或者自动恢复提供重要程度、优先顺序等方面的参考,更有利于云手机应用服务故障的诊断和恢复。
所述异常情况加权分析模块获取异常情况事件训练集合,并计算特征信息权值,所述异常情况事件训练集合E={(xi,ci,μ(xi))|i=1,…,n},其中,xi为训练集合中的样本数据项,ci为与xi相对应的异常情况事件的分类,μ(xi)为训练集合中的样本数据项xi的依附程度值;
所述计算特征信息权值,具体包括:
步骤401、对所述异常情况事件训练集合E的各个样本数据项进行归一化处理,确定所述异常情况事件训练集合E的典型特征向量idt,所述典型特征向量idt通过对每个异常情况事件分类中所有样本进行均值运算来确定;
步骤402、计算所述异常情况事件训练集合E中的样本数据项xi与该异常情况事件分类的典型特征向量idt的每个特征的相似度,所述相似度的计算公式如下:
Figure BDA0002926306710000131
其中,xil为所述异常情况事件训练集合E中第i个样本数据项的第l个特征,idtl为样本数据项xi对应的典型特征向量idt的第l个特征,通过相似度计算得到一个n×p阶的相似度矩阵S;
Figure BDA0002926306710000132
步骤403、根据所述相似度矩阵S,并将每个样本数据项的特征所对应的相似度作为依附程度值,采用如下公式计算每个样本数据项的特征的熵值:
Figure BDA0002926306710000133
其中l=1,…,p为样本数据项的第l个特征;
步骤403、计算所述异常情况事件训练集合E中第i个样本数据项的第l个特征与其他特征之间的关联信息和,具体计算公式如下:
Figure BDA0002926306710000141
其中,r=1,2,…,p,I(l)为所述异常情况事件训练集合E中第i个样本数据项的第l个特征与其他特征之间的关联信息和,H(r)为所述异常情况事件训练集合E中样本数据项的第r个特征的熵值,H(l,r)为样本数据项的第l个特征和第r个特征的联合熵值,所述联合熵值采用如下公式计算:
Figure BDA0002926306710000142
步骤404、根据所述关联信息和I(l)计算各个样本数据项的特征的权值wl,具体计算公式如下:
Figure BDA0002926306710000143
其中,wl表示所述异常情况事件训练集合E中样本数据项的第l个特征的权值。
图5为异常情况事件修复策略的组成结构示意图。在本申请中异常情况事件修复策略根据特征信息权值划分为3种修复策略模式,包括主动修复模式、协商修复模式以及被动修复模式。
主动修复模式通过向云手机服务中心发送修复请求,触发冗余服务资源的分配和切换,实现异常情况的修复。例如,异常情况能够成功的通过冗余服务资源来进行修复,受影响的服务数据流是不具有服务质量保证的(对实时性要求不高的),不需要与服务中心进行实时性的数据交互。
例如,在出现网络传输异常事件的情况下,如果只有主传输链路发生异常,通过将服务数据流切换到冗余副传输链路即可实现服务数据流的传输恢复。然而,主传输链路通常情况下选择的是最优选的传输链路,在主传输链路出现异常情况时,不能确保冗余副传输链路是当前网络传输环境下的最优选的传输链路。对于实时性要求不高的、不具有服务质量保证的服务数据流,由于时延的存在并不会影响服务数据流的交互效果,也不会对云手机的用户体验带来负面影响,因此并非一定要切换到另外一条最优的传输链路,可以采用主动修复模式直接由服务中心主动切换至冗余副传输链路。
但是对于具有服务质量保证的服务数据流,例如高带宽实时多媒体服务数据的流,对传输时延以及数据的丢包率要求较高,需要选择冗余副传输链路并及时进行切换以满足服务质量保证的需求,即协商修复模式。协商修复模式同样也通过向云手机服务中心发送修复请求,触发冗余服务资源的分配和切换,与主动修复模式不同的是,协商修复模式所针对的是受影响的服务数据流是具有服务质量保证的(对于实时性要求较高的),需要与服务中心进行实时性的数据交互,以保证数据流的时效性和用户体验,对于这种情况服务中心应当根据服务数据流的特性变更为最优的冗余服务资源,并进行快速切换,以保证快速的异常情况修复,例如,云手机应用服务中的高带宽实时音视频数据流服务。
被动修复模式也是通过向云手机服务中心发送修复请求来启动,但对于被动修复模式而言,由于受到异常情况事件的影响,冗余服务资源无法进行分配和切换致使保护机制无法正常的启动修复,服务中心需要在人工的干预并采取相应措施的情况下才能够实现冗余服务资源的分配和切换。例如,在主传输链路和副传输链路均出现异常情况的情况下,只能采用被动式的修复模式重新选择一条传输链路,但是这种修复模式会额外占用硬件设备的存储空间,并且产生计算负载,因此在此情形下通常采用被动修复模式来修复异常情况。
本申请提出的技术方案,通过对异常情况事件数据进行加权处理,在提供优先顺序参考的同时,还解决了异常情况事件检测的准确性问题,克服了现有技术的缺陷,具有良好的实用性,应用场景较丰富。
在一些实施例中,计算机程序的部分或者全部可以经由ROM而被载入和/或安装到设备上。当计算机程序加载并被执行时,可以执行上文描述的方法的一个或多个步骤。
本发明中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (4)

1.一种基于云手机服务的异常自动修复方法,所述异常自动修复方法应用于云手机服务***中,该云手机服务***包括用户终端和云手机服务中心,用户终端通过网络与云手机服务中心进行数据交互,其特征在于,该方法具体包括:
步骤1、获取云手机应用服务的异常情况事件数据,并发送至异常情况分类模块;
步骤2、异常情况分类模块解析异常情况事件数据中包含的日志描述信息,根据预设的异常情况类别判断出异常情况事件数据的确定分类,异常情况事件分为网络传输异常事件、程序设备异常事件、应用服务异常事件这3类;
步骤3、异常情况加权分析模块根据确定分类获取相应的异常情况事件训练集合,并计算异常情况事件数据的特征信息权值;
步骤4、状态通知模块对特征信息权值按照从大到小的顺序进行排序,根据预设的特征信息权值阈值,对大于特征信息权值阈值的特征信息所对应的异常情况事件数据,状态通知模块生成状态通知信息,并将状态通知信息发送给运维人员;
步骤5、异常情况事件修复模块根据特征信息权值确定相应的异常情况事件修复策略,并启动修复进程,将修复结果通知信息通过状态通知模块发送给运维人员;
所述异常情况事件修复策略包括主动修复模式、协商修复模式以及被动修复模式;
所述主动修复模式中,异常情况事件影响的服务数据流是不具有服务质量保证的,不需要与云手机服务中心进行实时性的数据交互;所述主动修复模式中通过向云手机服务中心发送修复请求,触发冗余服务资源的分配和切换,实现异常情况的修复;
所述协商修复模式中,异常情况事件影响的服务数据流是具有服务质量保证的,需要与云手机服务中心进行实时性的数据交互;
所述被动修复模式通过向云手机服务中心发送修复请求来启动,由于受到异常情况事件的影响,冗余服务资源无法进行分配和切换致使保护机制无法正常的启动修复,服务中心需要在人工的干预并采取相应措施的情况下才能够实现冗余服务资源的分配和切换;
云手机服务中心设置有监测装置和数据库装置,所述监测装置用于搜集各层次的监测数据,对监测数据进行分析和处理,并根据分析和处理结果执行相应的控制策略;
该监测装置包括异常情况分类模块、异常情况加权分析模块、状态通知模块以及异常情况事件修复模块;
异常情况分类模块,用于解析异常情况的日志描述信息,根据预设的异常情况事件类别判断出异常情况的确定分类;异常情况分类模块包括依次连接的预处理单元、映射关联单元以及类型识别单元;
预处理单元,用于异常情况事件数据的整理,并从整理后的异常情况事件数据中提取特征信息;
映射关联单元,用于对提取的所述特征信息进行初始异常情况事件类别标注,并将所述特征信息与已标注类别进行映射关联,形成每个初始异常情况事件类别的特征信息库,将所述特征信息库与映射关联的已标注类别进行关联存储,形成特征信息库与已标注类别的对应关联关系;
类型识别单元,用于根据特征信息库与已标注类别的对应关联关系进行异常情况事件类别分析计算,将具有最大权重的计算结果作为最终确定的异常情况事件类别,并完成异常情况事件分类。
2.根据权利要求1所述的异常自动修复方法,其特征在于,所述数据库装置中暂存有周期性搜集到的异常情况事件数据。
3.根据权利要求1所述的异常自动修复方法,其特征在于,所述状态通知信息包括影响业务、影响情况、以及异常信息描述3个部分。
4.根据权利要求1所述的异常自动修复方法,其特征在于,异常情况事件分为网络传输异常事件、程序设备异常事件、应用服务异常事件这3类;
其中,程序设备异常事件包括虚拟化层异常事件、物理层异常事件;
网络传输异常事件包括消息中间件异常事件、操作***平台异常事件、网络异常事件、以及交易中间件异常事件;
应用服务异常事件包括Web应用服务异常事件、浏览器异常事件。
CN202110133683.8A 2021-02-01 2021-02-01 一种基于云手机服务的异常自动修复方法 Active CN112783682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133683.8A CN112783682B (zh) 2021-02-01 2021-02-01 一种基于云手机服务的异常自动修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133683.8A CN112783682B (zh) 2021-02-01 2021-02-01 一种基于云手机服务的异常自动修复方法

Publications (2)

Publication Number Publication Date
CN112783682A CN112783682A (zh) 2021-05-11
CN112783682B true CN112783682B (zh) 2022-02-22

Family

ID=75760221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133683.8A Active CN112783682B (zh) 2021-02-01 2021-02-01 一种基于云手机服务的异常自动修复方法

Country Status (1)

Country Link
CN (1) CN112783682B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114025037B (zh) * 2021-10-28 2024-04-30 北京百度网讯科技有限公司 一种云手机的检修方法、装置、电子设备和存储介质
CN114567539B (zh) * 2022-03-22 2024-04-12 中国农业银行股份有限公司 一种网络***异常处理方法、装置、设备及介质
CN114968761B (zh) * 2022-04-11 2023-07-21 杭州德适生物科技有限公司 一种基于互联网的软件运行环境******
CN115098294B (zh) * 2022-08-24 2022-11-15 摩尔线程智能科技(北京)有限责任公司 异常事件的处理方法、电子设备及管理终端

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103227734A (zh) * 2013-04-27 2013-07-31 华南理工大学 一种OpenStack云平台异常的检测方法
CN103428026A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 用于共享动态云中的问题确定和诊断的方法和***
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算***自适应监测方法
CN109861844A (zh) * 2018-12-07 2019-06-07 中国人民大学 一种基于日志的云服务问题细粒度智能溯源方法
CN110505283A (zh) * 2019-07-31 2019-11-26 湖南微算互联信息技术有限公司 一种基于云手机的自动维护***及方法
CN110825545A (zh) * 2019-08-31 2020-02-21 武汉理工大学 一种云服务平台异常检测方法与***
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构***的故障的方法和***
CN111245648A (zh) * 2020-01-06 2020-06-05 华云数据(厦门)网络有限公司 一种云手机故障告警与自动恢复的方法
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112052109A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于日志分析的云服务平台事件异常检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996409B2 (en) * 2016-03-28 2018-06-12 Ca, Inc. Identification of distinguishable anomalies extracted from real time data streams
CN106209826A (zh) * 2016-07-08 2016-12-07 瑞达信息安全产业股份有限公司 一种网络安全设备监测的安全事件分析方法
KR102587127B1 (ko) * 2017-12-26 2023-10-11 삼성전자주식회사 고장 예측을 위해 가전기기의 운영데이터를 관리하는 방법 및 장치
US11757906B2 (en) * 2019-04-18 2023-09-12 Oracle International Corporation Detecting behavior anomalies of cloud users for outlier actions
US10908788B2 (en) * 2019-05-16 2021-02-02 Oracle International Corporation Automated process discovery and facilitation within a cloud business application
CN111193616A (zh) * 2019-12-13 2020-05-22 广州朗国电子科技有限公司 自动运维方法、装置、***、存储介质及自动运维服务器

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428026A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 用于共享动态云中的问题确定和诊断的方法和***
CN103227734A (zh) * 2013-04-27 2013-07-31 华南理工大学 一种OpenStack云平台异常的检测方法
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算***自适应监测方法
CN109861844A (zh) * 2018-12-07 2019-06-07 中国人民大学 一种基于日志的云服务问题细粒度智能溯源方法
CN110505283A (zh) * 2019-07-31 2019-11-26 湖南微算互联信息技术有限公司 一种基于云手机的自动维护***及方法
CN110825545A (zh) * 2019-08-31 2020-02-21 武汉理工大学 一种云服务平台异常检测方法与***
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构***的故障的方法和***
CN111245648A (zh) * 2020-01-06 2020-06-05 华云数据(厦门)网络有限公司 一种云手机故障告警与自动恢复的方法
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112052109A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于日志分析的云服务平台事件异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
文本分类TF_IDF算法的改进研究;叶雪梅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第1期);I138-2532 *
文本聚类分析若干问题研究;高茂庭;《中国博士学位论文全文数据库 信息科技辑》;20090415(第4期);I138-45 *

Also Published As

Publication number Publication date
CN112783682A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112783682B (zh) 一种基于云手机服务的异常自动修复方法
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
US8655623B2 (en) Diagnostic system and method
US8635498B2 (en) Performance analysis of applications
CN110704231A (zh) 一种故障处理方法及装置
CN112954031B (zh) 一种基于云手机的设备状态通知方法
US11886276B2 (en) Automatically correlating phenomena detected in machine generated data to a tracked information technology change
CN111290913A (zh) 一种基于运维数据预测的故障定位可视化***和方法
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
CN111488265A (zh) 故障预测方法、装置、设备及可读存储介质
CN111027591B (zh) 一种面向大规模集群***的节点故障预测方法
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN112969172B (zh) 一种基于云手机的通讯流量控制方法
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
CN116264541A (zh) 一种基于多维度的数据库容灾方法及装置
CN114881112A (zh) 一种***异常检测方法、装置、设备及介质
CN111835566A (zh) 一种***故障管理方法、装置及***
JP2001014188A (ja) 監視システム
CN117596133B (zh) 基于多维数据的业务画像及异常监测***及监测方法
CN116841792B (zh) 一种应用程序开发故障修复方法
CN112667464A (zh) 一种信息***状态智能化分析方法、***及设备
CN117827608A (zh) 一种基于历史监控数据的智能化预警和处置方法
CN115587725A (zh) 具大数据关联脚本式决策管理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant