CN112699002A - 多云资源报警管控的方法与设备 - Google Patents

多云资源报警管控的方法与设备 Download PDF

Info

Publication number
CN112699002A
CN112699002A CN202011559612.6A CN202011559612A CN112699002A CN 112699002 A CN112699002 A CN 112699002A CN 202011559612 A CN202011559612 A CN 202011559612A CN 112699002 A CN112699002 A CN 112699002A
Authority
CN
China
Prior art keywords
information
alarm
cloud
metadata
cloud resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011559612.6A
Other languages
English (en)
Inventor
赵平
高海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lianwei Panyun Technology Co ltd
Original Assignee
Shanghai Lianwei Panyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lianwei Panyun Technology Co ltd filed Critical Shanghai Lianwei Panyun Technology Co ltd
Priority to CN202011559612.6A priority Critical patent/CN112699002A/zh
Publication of CN112699002A publication Critical patent/CN112699002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种多云资源报警管控的方法,应用于一用户终端,所述方法包括:获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;接收所述多台云端设备基于所述元数据请求而发送的多条元数据,所述多条元数据包含相应公有云的云资源信息;对所述云资源信息进行分类管理;根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则;接收所述多台云端设备基于所述报警规则而发送的报警信息元数据,所述报警信息元数据包含相应公有云的报警信息;对所述报警信息元数据依次执行清洗和持久化存储操作;根据已存储的报警信息优化报警规则。

Description

多云资源报警管控的方法与设备
技术领域
本发明涉及云计算领域,尤其涉及一种多云资源报警管控的方法与设备。
背景技术
随着企业对多公有云的大规模使用,多云资源使用的种类和数量得以不断增加,在多云资源使用的过程中,每朵云分别有自己的一套报警规则,使得企业IT部门、IT管理人员、IT运维人员必须熟悉各云平台各云资源的报警规则配置以及管理,带来多云多资源管理的困难,导致使用异常的资源难以捕获和精准的定位,为快速排错增加了障碍。
发明内容
鉴于现有技术中的问题,本发明提供了一种多云资源报警管控的方法,应用于一用户终端,所述方法包括:
获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;
基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;
接收所述多台云端设备基于所述元数据请求而发送的多条元数据,所述多条元数据包含相应公有云的云资源信息;
对所述云资源信息进行分类管理;
根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则;
接收所述多台云端设备基于所述报警规则而发送的报警信息元数据,所述报警信息元数据包含相应公有云的报警信息;
对所述报警信息元数据依次执行清洗和持久化存储操作;
根据已存储的报警信息优化报警规则。
进一步地,所述分别向多台云端设备发送多个元数据请求的步骤,包括:
基于预设的时间间隔分别向多台云端设备发送多个元数据请求。
进一步地,所述根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则,包括:
采用在线二部图匹配确定推送的信息,其中将报警规则项作为已知的顶点,将所述已分类完成的云资源信息作为在线到达的顶点,当在线顶点到达后,最大化所述报警规则项和所述已分类完成的云资源信息的匹配数量。
进一步地,所述根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则,包括:
采用基于矩阵分解的自定义推送方式,其中将报警规则项按特征进行分类并形成矩阵。
进一步地,所述报警信息元数据的清洗操作包括按照云分类报警信息、云资源分类报警信息和报警等级信息的顺序依次进行清洗操作。
进一步地,在对所述报警信息元数据执行清洗操作时,标记符合预设条件的报警信息;将被标记的报警信息推送至用户。
进一步地,所述根据已存储的报警信息优化报警规则,包括:
通过策略梯度优化报警规则,其中根据所述已存储的报警信息针对特定环境形成相应报警规则项变化的轨迹曲线,从而获得当前参数下对梯度的估计,进而优化相应报警规则项的阈值设置。
进一步地,响应于用户在所述用户终端的单一界面输入的操作指令,基于至少一项云资源信息和/或报警信息执行对应的操作。
本发明还提供了一种多云资源报警管控的设备,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述方法的操作。
本发明还提供了一种存储指令的计算机可读介质,所述指令在被执行时使得***执行上述方法的操作。
与现有技术相比,本发明的多云资源报警管控的方法与设备将多云中获取到的报警信息,进行归类并持久化,持续优化报警规则,并做统一的报警信息推送与展示;使企业IT人员在多云多账号的环境下,快速准确定位多公有云环境下云资源的报警异常情况,减轻工作量的同时提升工作效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一个实施例的一种***架构;
图2示出本发明一个实施例的一种多云资源报警管控的方法的流程;
图3是本发明一个实施例中任务队列的示意;
图4是图3中任务队列中当前任务的示意;
图5是本发明一个实施例的任务执行状态的转换示意图;
图6是本发明一个实施例中队列任务执行的流程示意图;
图7是本发明一个实施例中自匹配报警规则推送的流程示意图;
图8是本发明一个实施例中自定义推送报警规则的流程示意图;
图9是本发明一个实施例中报警信息管理的流程示意图;
图10是本发明一个实施例中报警信息接收的示意图;
图11是本发明一个实施例中报警信息清洗的流程示意图;
图12示出可用于本发明各实施例的一种示例性***的功能模块。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本发明的一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)、动态随机存取存储器(Dynamic Random AccessMemory,DRAM)、其他类型的随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-ErasableProgrammable Read-Only Memory,EEPROM)、快闪记忆体(Flash Memory)或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作***,如Android操作***、iOS操作***等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc Network)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在本发明的实施方式的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
本实施例首先提供了一种多云资源报警管控的***架构。如图1所示,该***采用B/S模式和微服务架构,总体设计分为用户层、中间层、数据层和云层四层结构,其中:
-用户层:用户通过PC电脑或第三方***访问本***。
-中间层:考虑***的可扩展性进行前后端分离设计,可快速进行分布式部署,前端页面进行单独部署到Web服务器,后端应用进行单独部署到应用服务器;应用服务可构建集群提供服务,包括统一安全认证、统计分析服务、查询服务、可视化服务、数据库访问服务、配置服务、定时任务服务和计算服务等,接口服务器为第三方提供单独的服务,设计为了防止第三方交互时对业务***的影响,用户层通过Webservices或者Restful与中间层进行数据请求交互。
-数据层:数据库服务器能进行双机热备、主从等运行,增加单独的缓存服务器,对页面和常用数据进行缓存,用以减轻数据库的压力,解决数据库读写瓶颈,保证数据库的正常运行。
-云层:根据不同云账号信息,自定义定时任务,请求API或者SDK定时从云(阿里云、Azure、AWS、腾讯云)中同步资源和接收原生报警数据,根据各个云的特性自动推送相应的报警规则。
基于上述架构,具体而言,本实施例提供了一种多云资源报警管控的方法。该方法应用于一用户终端,并由相应的网络设备(例如云端服务器)提供支撑。参考图2,该方法包括步骤S100、步骤S200、步骤S300、步骤S400、步骤S500、步骤S600、步骤S700、步骤S800和步骤S900。以下以一用户终端为例描述本实施例的具体实施方式。
具体地,在步骤S100中,用户终端获取用户的身份验证信息。例如,用户在用户终端输入自己的用户标识(例如***账号名称)及认证信息(例如账号密码)。
在步骤S200中,用户终端基于所述身份验证信息匹配对应的多个公有云账号识别信息,其中每个公有云账号识别信息分别对应一公有云账号。例如,管理员所登录的用户账号对应于其所管理的若干个公有云账号;在一些情形下,对于同一套***而言,不同的管理员可能管理不同的公有云账号。
在步骤S300中,用户终端分别向多台云端设备发送多个元数据请求,其中每个元数据请求包括一公有云账号识别信息,所述公有云账号识别信息用于确定用户对相应公有云账号的访问权限。例如,多台云端设备分别对应于多个不同的云平台。用户对某个云账号的访问权限,在一些实施例中由用户提供的相关账号信息确定,例如阿里云需要获取录入accessKeyId、accessSecret字段,而Azure(亚马逊所提供的云服务平台)需要获取录入subscriptionId、clientSecret字段。录入成功以后验证录入账号是否可用。
在步骤S400中,用户终端接收所述多台云端设备基于所述元数据请求而发送的多条元数据。其中,所述多条元数据包含相应公有云的云资源信息。在一些实施例中,将多云账号同步的资源监控数据做持久化,作为优化节约分析计算的基础数据。
在步骤S500中,用户终端对所述云资源信息进行分类管理。在一些实施例中,会先根据各云平台不同的数据清洗规则,将元数据的内容清洗至相应的数据结构中,包括检查数据一致性,处理无效值和缺失值等。
在步骤S600中,用户终端根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则。在一些实施例中,设置报警信息规则库用于报警规则的设置、匹配和调用等。
在步骤S700中,用户终端接收并管理所述多台云端设备基于所述报警规则而发送的报警信息,包括对报警信息元数据的清洗操作、报警信息的持久化存储操作、报警信息的推送,以及报警规则的优化等。
在步骤S800中,响应于用户在所述用户终端的单一界面输入的操作指令,基于至少一项云资源信息和/或报警信息执行对应的操作。
从而,用户仅在一个单一的用户界面中,即可实现对多个云账号的云资源报警进行管控,无需分别进入各个云账号进行监控管理。
其中在一些实施例中,在上述步骤S300中,用户终端基于预设的时间间隔分别向多台网络设备发送多个元数据请求。例如,在获取用户的身份验证信息后,***自行地每隔一定时间执行前述操作,以减轻用户的操作负担和提高本地数据的实时性。
在一些实施例中,上述步骤S300包括子步骤S310、子步骤S320、子步骤S330和子步骤S340(图中未示出)。在子步骤S310中,用户终端创建任务队列,所述任务队列包括对应于所述多个公有云账号识别信息的多个元数据请求任务;在子步骤S320中,用户终端获取所述任务队列中的当前任务,并确定所述当前任务的可执行状态;在子步骤S330中,用户终端若所述当前任务的可执行状态为不可执行,将所述当前任务移至所述任务队列的队尾;在子步骤S340中,若所述当前任务的可执行状态为可以执行,用户终端执行所述当前任务以向相应的网络设备发送相应的元数据请求,并在所述当前任务执行完毕后移除所述当前任务。其中,为自动执行某些任务而减轻管理员负担,一些任务设置有循环状态,该循环状态用于表征该任务是否在本次执行后仍需再次自动执行。相应地在一些实施例中,在子步骤S340中,若所述当前任务的可执行状态为可以执行,用户终端执行所述当前任务以向相应的网络设备发送相应的元数据请求;若所述当前任务的循环状态为真,在所述当前任务执行完毕后将所述当前任务移至所述任务队列的队尾;否则在所述当前任务执行完毕后移除所述当前任务。
例如,***对各个云账号资源(基础资源、资源监控等)信息同步的管理;同步任务创建成功以后,会保存到待执行的任务队列中,如图3所示。任务队列中一个账号任务包含多个资源信息的子任务,而每个账号任务有且只有一个状态,任务状态分为(可执行、待执行、执行中、执行完成、执行错误),并且任务记录下次执行时间,标记是否循环任务(例如,0-否,1-是)。参考图6示出的任务执行流程,***首先获取队列中的第一个任务(即“当前任务”),判断其是否可执行,其中图4示出一个示例性的当前任务的逻辑结构;若当前不可执行,将该当前任务移至队尾,否则将其状态置为执行中(以便在并行处理时避免发生冲突),将任务放入执行线程池,并通过子任务并发协程执行。在当前任务执行完毕后,将该当前任务的完成状态标记为“已完成”;检查循环标识,若该当前任务为循环任务,仍将该任务移至队尾,否则从队列中移除该任务。为便于说明,图5示出了任务状态之间的转换过程。
在一些实施例中,在步骤S500中,用户终端将从(Azure、阿里云、AWS、腾讯云)中同步下来的云资源信息进行归类统一管理,表1提供了一种可采用的云资源分类管理表。
表1
Figure BDA0002859124740000081
Figure BDA0002859124740000091
在一些实施例中,在步骤S600中,报警规则由用户终端自动匹配并推送到多云端资源事件中心中,如图7所示。
用户终端匹配推送采用在线匹配,找出最大匹配项,此处采用在线二部图匹配。对于二部图G(U,V,E),U和V是二部图的两个部分,E是G中的边,其中V中的顶点已经提前知道,U中的顶点在线到达且提前不知道,它们一旦到达就需要决定和V中顶点的匹配关系,这种关系确定后就不能更改。匹配目标是当U中所有的顶点都到达后,最大化匹配的数量。
具体地,初始化:随机生成V的一个排列σ,V为提前知道的顶点。
在线:当u∈U在线到达的时候,如果N(u)是u所有还没有匹配的邻居顶点,并且N(u)≠0,则u和N(u)中排位最小的那个顶点匹配,算法为:
Figure BDA0002859124740000092
其中,CR(Competitive Ratio)表示竞争比,反映匹配的好坏,e是匹配上的概率。
如将表1中经分类的云资源作为需要推送报警规则的资源,其是确定的为U,如表2示例性地列举了报警规则项为V,根据资源和报警规则项会生成一个排列σ,从而得到每个资源与报警规则的匹配,将用户终端生成的与资源相匹配的报警规则项推送到各个云中的资源事件中心。
表2
Figure BDA0002859124740000093
Figure BDA0002859124740000101
在一些实施例中,在步骤S600中,用户终端采用自定义报警规则推送,如图8所示。
自定义推送报警规则基于矩阵分解的推荐方法(特征分解)。
矩阵分解中特征值和特征向量的含义,基本定义如下:
Ax=λx
其中矩阵A是一个n×n的矩阵,x是一个n维的向量,则λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。特征向量的几何含义是:特征向量x通过方阵A变换只进行缩放,而方向并不会变化。
如果可以求到矩阵A的n个特征值,则可以得到对角矩阵∑,其展开为以下形式:
Figure BDA0002859124740000102
则矩阵A就可以用下式的特征分解表示:
A=U∑U-1
其中U是这个n个特征向量所生成的n×n维矩阵,而∑为这个n个特征值为主对角线的n×n维矩阵。
一般会把U的这n个特征向量标准化,即满足U-1=UT,此时矩阵A的特征分解表达式进一步写成:
A=UΣ'UT
以上分解针对方阵行列数目一致的情况,当存在不一致情况时,可以采用奇异值分解(SVD)。
在一个示例中,表3示例性地列出了根据特征分类的报警规则项。
表3
报警规则项 单位 特征
host.cpu.total cpu
预支CPU积分 count cpu
已消耗CPU积分 count cpu
***盘总读BPS Mbytes/s 磁盘
磁盘读取IOPS 次/秒 磁盘
***盘总写BPS Mbytes/s 磁盘
***写IOPS 次/秒 磁盘
公网流入带宽 Mbytes/s 网络
公网流出带宽 Mbytes/s 网络
公网流出带宽使用率 网络
内网流入带宽 Mbytes/s 网络
内网流出带宽 Mbytes/s 网络
超额CPU积分 count cpu
累计CPU积分 count cpu
ECS同时连接数 count 网络
host.cpu.idle cpu
host.cpu.other cpu
host.cpu.system cpu
host.cpu.user cpu
host.cpu.iawait cpu
host.dist.readybytes Mbytes/s 磁盘
根据表4中特征分类的报警规则项会形成一个矩阵A,λ为特征(如cpu、磁盘、网络),该推荐方法针对特征对应的规则项数量一致的情况下,如果特征的规则项数量不一致,将规则项的使用率进行取舍,保持特征的最小规则项匹配数。
在一些实施例中,在步骤S700中,用户终端接收多台云端设备基于推送的报警规则而发送的报警信息,并接收到的报警信息元数据执行清洗操作,并将清洗后的报警信息持久化存储,将需要推送的报警信息推送给用户,如图9所示。
具体地,当阿里云、腾讯云、Azure和AWS发生报警时,调用用户终端提供的报警信息接收地址,如通过规则配置的Http/Https接口,将报警信息推送到用户终端的报警平台,如图10所示。
用户终端接收到报警信息以后,对报警信息进行清洗、自动识别、分类、标记报警信息。具体地,将获取的未清洗的多云报警信息元数据,进入报警信息清洗流队列,首先清洗云分类报警信息、再次清洗云资源分类报警信息、最后清洗报警等级信息,如图11所示。如若该报警信息符合推送信息的要求,对该报警信息打上推送标记。
对于已完成清洗的报警信息,进入持久化队列,依次进行持久化操作。
获取标记为推送的报警信息,放入消息推送队列,根据配置的推送规则,推送报警信息,推送成功标记为已完成,如推送失败,则放入队列尾部。对上述需推送的报警信息,根据配置的不同渠道进行统一的推送,可采用的推送方式如Email、短信、微信、钉钉、小程序等。
在一些实施例中,在步骤S700中,用户终端还对于已经持久化且未做优化计算的报警信息,做统一的报警信息规则库优化计算,通过计算模型以使规则库更加丰富、精确和智能。
在此使用策略梯度的方法来实现对于报警信息规则库的优化。
在策略梯度中,考虑前后两个状态之间的关系为St+1~P(St+1|St,at),其中St、St+1是相继两个状态,at是t步时所采取的行动,P是环境所决定的下个时刻状态分布。而动作at的生成模型(策略)为at~πθ(At|St),其中πθ是以θ为参变量的一个分布,at从这个分布进行采样。这样,在同一个环境下,强化学习的总收益函数,即:
Figure BDA0002859124740000121
完全由θ所决定,其中E()是从0到T时间的一个梯度导数,rt是某个时间的状态得分,zt是某个时间的一个梯度。策略梯度的基本思想就是直接用梯度方法来优化R(θ)。
使用梯度法前,首先计算R(θ)的导数。设τ为某一次0到T时间所有状态及行动的集合(称作一条轨迹),则R(θ)=E(r(τ)),其中函数r计算了轨迹τ的得分。有R(θ)=E(r(τ))=∫pθ(τ)r(τ)dτ,因此,
Figure BDA0002859124740000131
最后一步中鉴于p(Sk+1|ak,Sk)由环境决定,从而与θ无关,因此
Figure BDA0002859124740000132
每个轨迹τ所对应的梯度为
Figure BDA0002859124740000133
其中Sk,ak为轨迹τ上每一步的状态和动作。这样,给定一个策略πθ,可以通过模拟获得一些轨迹,对于每一条轨迹,可获得其收益r(τ)以及每一步的<状态、行为>对,从而可以获得当前参数下对梯度的估计。
在一些实际应用中,P环境可以是开发环境、测试环境、UAT环境或生产环境,表4示出了一个P测试环境,以报警规则项“已消耗CPU积分”与“公网流入带宽”作为St的以对报警信息规则库进行优化的示例。
表4
已消耗CPU积分 1000 2000 2500 3000 6000
公网流入带宽 10% 20% 30% 50% 80%
a<sub>t</sub>采取行动:标记 正常 正常 正常 中风险 高风险
根据初始报警规则项获得的值,形成轨迹曲线,从而获得一个梯度,达到每个资源的告警项阈值设置的一个最优范围,从而使之后的报警规则项配置更加合理和准确。
在一些实施例中,在步骤S800中,用户终端检测用户在所述用户终端的浏览器应用中的单一界面输入的操作指令;响应于所述操作指令,基于至少一项云资源信息和/或报警信息执行对应的操作。在此,上述对应的操作包括但不限于云资源信息和/或报警信息的筛选、展示、图形化、汇总、输出等。图10示出了一种用户终端的示例性显示界面,可通过界面中的选择键或下拉菜单栏(相当于操作指令)进行云资源信息和/或报警信息的筛选及多维度展示等。
本实施例还提供了一种计算机程序产品,当所述计算机程序产品
被计算机设备执行时,如前任一项所述的方法被执行。
本实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
图12示出了可被用于实施本发明中所述的各个实施例的示例性***。
如图12所示,在一些实施例中,***1000能够作为各所述实施例中的任意一个用户终端设备。在一些实施例中,***1000可包括具有指令的一个或多个计算机可读介质(例如,***存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本发明中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。
对于一个实施例,***控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与***控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
***控制模块1010可包括存储器控制器模块1030,以向***存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
***存储器1015可被用于例如为***1000加载和存储数据和/或指令。对于一个实施例,***存储器1015可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,***存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,***控制模块1010可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。
例如,NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(Hard Disk,HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1020可包括在物理上作为***1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
(一个或多个)通信接口1025可为***1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。***1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。
在各个实施例中,***1000可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,***1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,***1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个***传送到另一***的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机***使用的计算机可读信息/数据。
在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种多云资源报警管控的方法,其特征在于,应用于一用户终端,所述方法包括:
获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;
基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;
接收所述多台云端设备基于所述元数据请求而发送的多条元数据,所述多条元数据包含相应公有云的云资源信息;
对所述云资源信息进行分类管理;
根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则;
接收所述多台云端设备基于所述报警规则而发送的报警信息元数据,所述报警信息元数据包含相应公有云的报警信息;
对所述报警信息元数据依次执行清洗和持久化存储操作;
根据已存储的报警信息优化报警规则。
2.根据权利要求1所述的方法,其特征在于,所述分别向多台云端设备发送多个元数据请求的步骤,包括:
基于预设的时间间隔分别向多台云端设备发送多个元数据请求。
3.根据权利要求1所述的方法,其特征在于,所述根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则,包括:
采用在线二部图匹配确定推送的信息,其中将报警规则项作为已知的顶点,将所述已分类完成的云资源信息作为在线到达的顶点,当在线顶点到达后,最大化所述报警规则项和所述已分类完成的云资源信息的匹配数量。
4.根据权利要求1所述的方法,其特征在于,所述根据已分类完成的云资源信息分别向所述多台云端设备推送相应的报警规则,包括:
采用基于矩阵分解的自定义推送方式,其中将报警规则项按特征进行分类并形成矩阵。
5.根据权利要求1所述的方法,其特征在于,所述报警信息元数据的清洗操作包括按照云分类报警信息、云资源分类报警信息和报警等级信息的顺序依次进行清洗操作。
6.根据权利要求1所述的方法,其特征在于,在对所述报警信息元数据执行清洗操作时,标记符合预设条件的报警信息;将被标记的报警信息推送至用户。
7.根据权利要求1所述的方法,其特征在于,所述根据已存储的报警信息优化报警规则,包括:
通过策略梯度优化报警规则,其中根据所述已存储的报警信息针对特定环境形成相应报警规则项变化的轨迹曲线,从而获得当前参数下对梯度的估计,进而优化相应报警规则项的阈值设置。
8.根据权利要求1所述的方法,其特征在于,响应于用户在所述用户终端的单一界面输入的操作指令,基于至少一项云资源信息和/或报警信息执行对应的操作。
9.一种多云环境下云资源自动化运维的设备,其特征在于,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至8中任一项所述方法的操作。
10.一种存储指令的计算机可读介质,其特征在于,所述指令在被执行时使得***执行根据权利要求1至8中任一项所述方法的操作。
CN202011559612.6A 2020-12-25 2020-12-25 多云资源报警管控的方法与设备 Pending CN112699002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011559612.6A CN112699002A (zh) 2020-12-25 2020-12-25 多云资源报警管控的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011559612.6A CN112699002A (zh) 2020-12-25 2020-12-25 多云资源报警管控的方法与设备

Publications (1)

Publication Number Publication Date
CN112699002A true CN112699002A (zh) 2021-04-23

Family

ID=75510350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011559612.6A Pending CN112699002A (zh) 2020-12-25 2020-12-25 多云资源报警管控的方法与设备

Country Status (1)

Country Link
CN (1) CN112699002A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108696369A (zh) * 2017-04-06 2018-10-23 华为技术有限公司 一种告警信息处理设备及方法
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于***数据监控的报警设置方法及***
CN110879774A (zh) * 2019-11-27 2020-03-13 北京天元创新科技有限公司 一种网元性能数据告警方法及装置
CN111049904A (zh) * 2019-12-12 2020-04-21 上海联蔚信息科技有限公司 多公有云资源监控的方法与设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108696369A (zh) * 2017-04-06 2018-10-23 华为技术有限公司 一种告警信息处理设备及方法
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于***数据监控的报警设置方法及***
CN110879774A (zh) * 2019-11-27 2020-03-13 北京天元创新科技有限公司 一种网元性能数据告警方法及装置
CN111049904A (zh) * 2019-12-12 2020-04-21 上海联蔚信息科技有限公司 多公有云资源监控的方法与设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马庆祥 等: "基于Storm的实时报警服务的设计与实现", 信息技术, no. 12, 25 December 2016 (2016-12-25), pages 162 - 166 *

Similar Documents

Publication Publication Date Title
US11106994B1 (en) Tuning of machine learning models using accuracy metrics selected to increase performance
CN111049904A (zh) 多公有云资源监控的方法与设备
US20160171121A1 (en) Method, Controller, Program, and Data Storage System for Performing Reconciliation Processing
CN110719320B (zh) 公有云配置调整信息的生成方法和设备
CN110727664A (zh) 用于对公有云数据执行目标操作的方法与设备
US10182104B1 (en) Automatic propagation of resource attributes in a provider network according to propagation criteria
US20210263931A1 (en) Elimination of Measurement Lag for Operations Across a Large Number of Customer Nodes
CN113342500B (zh) 任务执行方法、装置、设备及存储介质
CN110704851A (zh) 公有云数据处理方法和设备
US20220129786A1 (en) Framework for rapidly prototyping federated learning algorithms
US20220138557A1 (en) Deep Hybrid Graph-Based Forecasting Systems
US20210255868A1 (en) Scaling Performance Across a Large Number of Customer Nodes
CN110008261B (zh) 外部变化检测
Al-Hashimi et al. Fog-cloud scheduling simulator for reinforcement learning algorithms
US11816020B2 (en) Online query execution using a big data framework
CN112699002A (zh) 多云资源报警管控的方法与设备
CN112667468B (zh) 多云环境下云资源自动化运维的方法与设备
CN112769782A (zh) 多云安全基线管理的方法与设备
CN112764957A (zh) 应用故障定界方法及装置
US10402357B1 (en) Systems and methods for group manager based peer communication
US11941421B1 (en) Evaluating and scaling a collection of isolated execution environments at a particular geographic location
US12047439B1 (en) System and method for management of workload distribution in shared environment
US20240177027A1 (en) System and method for managing inference model performance through proactive communication system analysis
US11811862B1 (en) System and method for management of workload distribution
US20240177179A1 (en) System and method for management of inference models of varying complexity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination