CN111193643A - 一种云服务器状态监控***及方法 - Google Patents

一种云服务器状态监控***及方法 Download PDF

Info

Publication number
CN111193643A
CN111193643A CN201911421081.1A CN201911421081A CN111193643A CN 111193643 A CN111193643 A CN 111193643A CN 201911421081 A CN201911421081 A CN 201911421081A CN 111193643 A CN111193643 A CN 111193643A
Authority
CN
China
Prior art keywords
cloud server
fault
state monitoring
fault information
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911421081.1A
Other languages
English (en)
Inventor
左强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911421081.1A priority Critical patent/CN111193643A/zh
Publication of CN111193643A publication Critical patent/CN111193643A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云服务器状态监控***,包括:故障信息采集终端、云计算平台、虚拟交换机和云服务器;所述云服务器通过虚拟交换机的端口组进行网络通信和隔离;所述故障信息采集终端通过云计算平台与虚拟交换机的端口组相连,采集并分析云服务器的异常记录。本发明还公开了一种云服务器状态监控方法,包括:创建监控任务;监控任务触发后,读取配置文件,初始化故障信息采集终端;采集云服务器运行日志;分析云服务器运行日志,汇总故障信息;生成并发送故障报告。本发明能够实现自动化监控并报告云服务器状态,及时发现云服务器异常状态。

Description

一种云服务器状态监控***及方法
技术领域
本发明涉及云服务器领域,具体涉及一种云服务器状态监控***及方法。
背景技术
云服务器(Elastic Compute Service,ECS)也称云主机,是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务,是在一个硬件平台中同时独立的虚拟若干主机,每个云服务器使用独立的CPU、硬盘、内存、I/O、网卡等硬件设备。同时虚拟机上可以安装不同的操作***,用来满足不同用户的不同需求。
云服务器的管理方式比物理服务器更加简单高效。用户通过在云平台进行相关申请,就可以创建自定义的云主机进行相关应用的部署使用。
在云服务器运行过程中,可能出现多种异常状态,如果不能及时发现,将影响用户服务的正常运行。
发明内容
为了解决上述技术问题,本发明提出了一种云服务器状态监控***及方法,能够实现自动化监控并报告云服务器状态,及时发现云服务器异常状态。
为实现上述目的,本发明采用以下技术方案:
一种云服务器状态监控***,包括:故障信息采集终端、云计算平台、虚拟交换机和云服务器;
所述云服务器通过虚拟交换机的端口组进行网络通信和隔离;
所述故障信息采集终端通过云计算平台与虚拟交换机的端口组相连,采集并分析云服务器的异常记录。
进一步地,所述故障信息采集终端为Jenkins服务器。
进一步地,所述故障信息采集终端包括:故障采集模块、故障分析模块和故障报告模块;
所述故障采集模块用于采集云服务器的运行日志记录;
所述故障分析模块用于根据异常关键字,分析云服务器的运行日志记录,找出故障信息;
所述故障报告模块用于汇总故障信息,生成报告并发送至环境维护人员。
进一步地,所述故障分析模块根据正则表达式匹配异常关键字。
本发明还提出了一种云服务器状态监控方法,包括:
创建监控任务;
监控任务触发后,读取配置文件,初始化故障信息采集终端;
采集云服务器运行日志;
分析云服务器运行日志,汇总故障信息;
生成并发送故障报告。
进一步地,所述监控任务定时触发。
进一步地,采集的云服务器运行日志存储在故障信息采集终端本地。
进一步地,所述分析云服务器运行日志,汇总故障信息,包括:根据异常关键字,按照正则表达式匹配异常关键字,分析云服务器的运行日志记录,找出故障信息。
进一步地,所述故障信息包括故障所在云服务器的日志时间信息和云服务器的设备信息。
本发明的有益效果是:
本发明通过提出一种云服务器状态监控***及方法,能够实时获取云服务器的运行日志信息,并在Jenkins服务器对采集到的运行日志信息进行分析,匹配到异常故障后,自动生成并发送报告,及时通知环境运维负责人。而且,能够搜集日志信息中关于故障所在云服务器的日志时间信息和云服务器的设备信息,便于运维人员快速找出问题和修复问题。
附图说明
图1是本发明云服务器状态监控***结构示意图;
图2是本发明云服务器状态监控方法流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例公开了一种云服务器状态监控***,包括:故障信息采集终端、云计算平台、虚拟交换机和云服务器;
所述云服务器通过虚拟交换机的端口组进行网络通信和隔离;
所述故障信息采集终端通过云计算平台与虚拟交换机的端口组相连,采集并分析云服务器的异常记录。
具体地,所述故障信息采集终端可选为Jenkins服务器。
Jenkins是一个功能强大的应用程序,允许持续集成和持续交付项目,可以处理任何类型的构建或持续集成。
虚拟交换机是对云服务器进行流量转发的二层网络设备,云服务器使用虚拟交换机的端口组进行网络通信。所述云服务器状态监控***可同时监控多个虚拟交换机连接的多个云服务器。
所述故障信息采集终端包括:故障采集模块、故障分析模块和故障报告模块;
所述故障采集模块用于采集云服务器的运行日志记录;
所述故障分析模块用于根据异常关键字,分析云服务器的运行日志记录,找出故障信息;
所述故障报告模块用于汇总故障信息,生成报告并发送至环境维护人员。
所述故障分析模块根据正则表达式匹配异常关键字。
本发明实施例还公开了一种云服务器状态监控方法,该方法流程示意图如图2所示,包括:
创建监控任务;
监控任务触发后,读取配置文件,初始化故障信息采集终端;
采集云服务器运行日志;
分析云服务器运行日志,汇总故障信息;
生成并发送故障报告。
具体地,所述监控任务由故障信息采集终端创建,根据定时自动触发,从而开启对云计算平台云服务器的状态自动监控。在任务触发之后,读取相关配置文件,对Jenkins服务器的网络、日志分析配置文件初始化,网络通信后对云服务器的运行日志进行采集和保存。根据异常关键字,使用正则表达式匹配方法,分析设备运行日志,找出故障,将筛选出来的故障信息汇总,触发自动发送报告,发送给环境维护人员,从而完成自动监控过程中发现云主机异常后,把采集到的日志信息自动发送给运维人员。
具体地,所述异常关键字包括不限于内存溢出、死锁、重启、关机、开机。
匹配异常关键字成功后,对异常信息进行故障判断,将故障信息生成报告并发送,所述故障信息包括但不限于故障所在云主机的日志时间信息、云主机的设备信息。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种云服务器状态监控***,其特征在于,包括:故障信息采集终端、云计算平台、虚拟交换机和云服务器;
所述云服务器通过虚拟交换机的端口组进行网络通信和隔离;
所述故障信息采集终端通过云计算平台与虚拟交换机的端口组相连,采集并分析云服务器的异常记录。
2.根据权利要求1所述的云服务器状态监控***,其特征在于,所述故障信息采集终端为Jenkins服务器。
3.根据权利要求1所述的云服务器状态监控***,其特征在于,所述故障信息采集终端包括:故障采集模块、故障分析模块和故障报告模块;
所述故障采集模块用于采集云服务器的运行日志记录;
所述故障分析模块用于根据异常关键字,分析云服务器的运行日志记录,找出故障信息;
所述故障报告模块用于汇总故障信息,生成报告并发送至环境维护人员。
4.根据权利要求3所述的云服务器状态监控***,其特征在于,所述故障分析模块根据正则表达式匹配异常关键字。
5.一种云服务器状态监控方法,其特征在于,包括:
创建监控任务;
监控任务触发后,读取配置文件,初始化故障信息采集终端;
采集云服务器运行日志;
分析云服务器运行日志,汇总故障信息;
生成并发送故障报告。
6.根据权利要求5所述的云服务器状态监控方法,其特征在于,所述监控任务定时触发。
7.根据权利要求5所述的云服务器状态监控方法,其特征在于,采集的云服务器运行日志存储在故障信息采集终端本地。
8.根据权利要求5所述的云服务器状态监控方法,其特征在于,所述分析云服务器运行日志,汇总故障信息,包括:根据异常关键字,按照正则表达式匹配异常关键字,分析云服务器的运行日志记录,找出故障信息。
9.根据权利要求8所述的云服务器状态监控方法,其特征在于,所述故障信息包括故障所在云服务器的日志时间信息和云服务器的设备信息。
CN201911421081.1A 2019-12-31 2019-12-31 一种云服务器状态监控***及方法 Pending CN111193643A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911421081.1A CN111193643A (zh) 2019-12-31 2019-12-31 一种云服务器状态监控***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911421081.1A CN111193643A (zh) 2019-12-31 2019-12-31 一种云服务器状态监控***及方法

Publications (1)

Publication Number Publication Date
CN111193643A true CN111193643A (zh) 2020-05-22

Family

ID=70709631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911421081.1A Pending CN111193643A (zh) 2019-12-31 2019-12-31 一种云服务器状态监控***及方法

Country Status (1)

Country Link
CN (1) CN111193643A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235373A (zh) * 2020-09-30 2021-01-15 北京联众国际通信有限公司 基于应用ai的云桌面调度***及其调度方法
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理***
CN114139936A (zh) * 2021-11-29 2022-03-04 合肥安达创展科技股份有限公司 一种基于展项互动数据的云端智能预警报修***
CN115022162A (zh) * 2022-05-23 2022-09-06 安徽英福泰克信息科技有限公司 一种云服务器故障查漏***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105991361A (zh) * 2015-02-12 2016-10-05 苏宁云商集团股份有限公司 一种云计算平台中云服务器的监控方法和监控***
CN107566152A (zh) * 2017-06-13 2018-01-09 ***股份有限公司 用于虚拟网络链路检测的方法及装置
CN107864126A (zh) * 2017-10-30 2018-03-30 国云科技股份有限公司 一种云平台虚拟网络行为检测方法
CN109039795A (zh) * 2017-06-12 2018-12-18 贵州白山云科技股份有限公司 一种云服务器资源监控方法和***
CN109586999A (zh) * 2018-11-12 2019-04-05 深圳先进技术研究院 一种容器云平台状态监控预警***、方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105991361A (zh) * 2015-02-12 2016-10-05 苏宁云商集团股份有限公司 一种云计算平台中云服务器的监控方法和监控***
CN109039795A (zh) * 2017-06-12 2018-12-18 贵州白山云科技股份有限公司 一种云服务器资源监控方法和***
CN107566152A (zh) * 2017-06-13 2018-01-09 ***股份有限公司 用于虚拟网络链路检测的方法及装置
CN107864126A (zh) * 2017-10-30 2018-03-30 国云科技股份有限公司 一种云平台虚拟网络行为检测方法
CN109586999A (zh) * 2018-11-12 2019-04-05 深圳先进技术研究院 一种容器云平台状态监控预警***、方法及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235373A (zh) * 2020-09-30 2021-01-15 北京联众国际通信有限公司 基于应用ai的云桌面调度***及其调度方法
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理***
CN114139936A (zh) * 2021-11-29 2022-03-04 合肥安达创展科技股份有限公司 一种基于展项互动数据的云端智能预警报修***
CN115022162A (zh) * 2022-05-23 2022-09-06 安徽英福泰克信息科技有限公司 一种云服务器故障查漏***及方法

Similar Documents

Publication Publication Date Title
CN111193643A (zh) 一种云服务器状态监控***及方法
JP7325584B2 (ja) アラームログ圧縮方法、装置、およびシステム、並びに記憶媒体
Oliner et al. What supercomputers say: A study of five system logs
CN107508722B (zh) 一种业务监控方法和装置
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
US10489232B1 (en) Data center diagnostic information
CA2835446C (en) Data analysis system
CN107547273B (zh) 一种电力***虚拟实例高可用的保障方法及***
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN110750377A (zh) 一种故障定位方法及装置
CN105165054A (zh) 网络服务故障处理方法,服务管理***和***管理模块
CN103812699A (zh) 基于云计算的监控管理***
CN103729280A (zh) 一种虚拟机高可用机制
CN105302661A (zh) 一种实现虚拟化管理平台高可用的***和方法
CN110851320A (zh) 一种服务器宕机监管方法、***、终端及存储介质
CN106775929A (zh) 一种虚拟化平台安全监控方法及***
CN101197621A (zh) 一种对网管***故障进行远程诊断定位的方法及其***
CN108984332A (zh) 一种定位服务器宕机故障的装置及方法
CN111865695A (zh) 一种云环境下自动故障处理的方法及***
US10341182B2 (en) Method and system for detecting network upgrades
CN106789398A (zh) 一种媒体大数据hadoop集群监控的方法
CN108762886A (zh) 虚拟机的故障检测恢复方法及***
CN112601216B (zh) 一种基于Zigbee的可信平台告警方法与***
CN105224441A (zh) 虚拟机信息采集装置、方法及虚拟机信息维护方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200522

RJ01 Rejection of invention patent application after publication