CN107544832B - 一种虚拟机进程的监控方法、装置和*** - Google Patents

一种虚拟机进程的监控方法、装置和*** Download PDF

Info

Publication number
CN107544832B
CN107544832B CN201610500743.4A CN201610500743A CN107544832B CN 107544832 B CN107544832 B CN 107544832B CN 201610500743 A CN201610500743 A CN 201610500743A CN 107544832 B CN107544832 B CN 107544832B
Authority
CN
China
Prior art keywords
virtual machine
information
log
service
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610500743.4A
Other languages
English (en)
Other versions
CN107544832A (zh
Inventor
王长捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610500743.4A priority Critical patent/CN107544832B/zh
Publication of CN107544832A publication Critical patent/CN107544832A/zh
Application granted granted Critical
Publication of CN107544832B publication Critical patent/CN107544832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例提供了一种虚拟机进程的监控方法、装置和***,该***统包括代理组件、代理服务组件和日志服务组件;其中,代理组件包括服务信息采集单元、日志信息采集单元、服务信息发送单元、日志信息发送单元,采集并发送虚拟机中进程的服务信息、日志信息至代理服务组件、日志服务组件;代理服务组件包括服务信息接收单元、第一运行状态监控单元,根据服务信息对虚拟机中进程的第一运行状态进行监控;日志服务组件包括日志信息接收单元、第二运行状态监控单元,根据日志信息对虚拟机中进程的第二运行状态进行监控,本申请实施例可以大大减少虚拟机中的计算量,从而大大降低了虚拟机所在的宿主机的资源消耗,保证宿主机可用于业务处理的资源。

Description

一种虚拟机进程的监控方法、装置和***
技术领域
本申请涉及计算机处理的技术领域,特别是涉及一种虚拟机进程的监控方法、一种虚拟机进程的监控装置和一种虚拟机进程的监控***。
背景技术
在云计算的IaaS(Infrastructure as a Service,基础设施即服务)中,云运营商提供托管的物理机、虚拟机及其他设施,供不同的用户根据自己的实际需要进行使用。
虚拟机(Virtual Machine)服务是IaaS的核心服务之一,是指***虚拟机,即可以进行模拟的、具有完整硬件***功能的,运行在一个完全隔离环境中的完整计算机***。
为了对虚拟机中的进程进行监控,在每台宿主机中通常安装代理组件,代理组件从监控服务器获取要监控的配置信息,并将配置信息应用到要监控的宿主机上。
代理组件采集虚拟机上的日志文件和进程的运行状态,并采用这些日志文件和进程的运行状态进行统计,统一发送给监控服务器。
当要监控的集群规模达到百台或者千台时,并且每台机器要监控的数据指标很大时,依据现有Client(客户端)和Server(服务器端)的处理架构,由于主要的处理会在代理组件进行,这样会占用宿主机较多的资源,导致宿主机可用于业务处理的资源变少,处理能力不足的问题凸显,并且,面对海量的监控信息指标,服务器端因为集中式的数据处理架构,处理能力会严重不足,导致报警延迟或失效。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种虚拟机进程的监控方法和相应的一种虚拟机进程的监控装置、一种虚拟机进程的监控***。
为了解决上述问题,本申请实施例公开了一种虚拟机进程的监控***,所述***包括代理组件、代理服务组件和日志服务组件;其中,
所述代理组件包括:
服务信息采集单元,用于采集虚拟机中进程的服务信息;
日志信息采集单元,用于采集虚拟机中进程的日志信息;
服务信息发送单元,用于发送虚拟机中进程的服务信息至所述代理服务组件;
日志信息发送单元,用于发送虚拟机中进程的日志信息至所述日志服务组件;
所述代理服务组件包括:
服务信息接收单元,用于接收虚拟机中进程的服务信息;
第一运行状态监控单元,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
所述日志服务组件包括:日志信息接收单元,用于接收虚拟机中进程的日志信息;
第二运行状态监控单元,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
可选地,所述服务信息发送单元包括:
服务信息合并子单元,用于合并虚拟机中进程的服务信息;
合并信息发送子单元,用于将合并后的服务信息发送至所述代理服务组件。
可选地,所述服务信息发送单元包括:
第一单独发送子单元,用于在第一传输通道、通过第一进程发送进程的服务信息;
所述服务信息接收单元包括:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息。
可选地,所述日志信息发送单元包括:
第二单独发送子单元,用于在第二传输通道、通过第二进程发送进程的日志信息;
所述日志信息接收单元包括:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
可选地,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
可选地,所述第一运行状态监控单元包括:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
可选地,所述第二运行状态监控单元包括:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
可选地,所述***还包括监控报警组件;
所述代理服务组件还包括:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
所述日志服务组件还包括:
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息;
所述监控报警组件包括:
第一报警单元,用于在接收到所述第一异常通知消息,执行第一报警操作;
第二报警单元,用于在接收到所述第二异常通知消息,执行第二报警操作。
可选地,所述***还包括流式处理组件;
所述第二运行状态监控单元包括:
日志信息发送子单元,用于将所述日志信息发送至所述流式处理组件;
运行状态读取子单元,用于读取所述流式处理组件检测获得的第二运行状态;
所述流式处理组件包括:
日志信息切分单元,用于在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
日志文本数据块转换单元,用于将所述日志文本数据块转为为弹性分布式数据集;
并行检测单元,用于并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
可选地,所述日志服务组件还包括:
日志文件写单元,用于将所述日志信息写入日志文件中;
索引信息生成单元,用于针对所述日志文件生成索引信息;
索引信息同步单元,用于将所述索引信息同步至监控报警组件。
本申请实施例还公开了一种虚拟机进程的监控装置,包括:
服务信息接收单元,用于接收虚拟机中进程的服务信息;
日志信息接收单元,用于接收虚拟机中进程的日志信息;
第一运行状态监控单元,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
第二运行状态监控单元,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
可选地,所述服务信息接收单元包括:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息;
所述日志信息接收单元包括:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
可选地,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
可选地,所述第一运行状态监控单元包括:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
可选地,所述第二运行状态监控单元包括:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
可选地,还包括:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息。
可选地,还包括:
日志信息切分单元,用于在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
日志文本数据块转换单元,用于将所述日志文本数据块转为为弹性分布式数据集;
并行检测单元,用于并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
可选地,还包括:
日志文件写单元,用于将所述日志信息写入日志文件中;
索引信息生成单元,用于针对所述日志文件生成索引信息;
索引信息同步单元,用于将所述索引信息同步至监控报警组件。
本申请实施例还公开了一种虚拟机进程的监控方法,包括:
接收虚拟机中代理组件经由第一传输通道发送的虚拟机中进程的服务信息;
接收虚拟机中代理组件经由第二传输通道发送的虚拟机中进程的日志信息;
根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
可选地,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
可选地,所述根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控的步骤包括:
从所述服务信息中查询不可服务信息;
统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
可选地,所述根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控的步骤包括:
从所述日志信息中查询异常关键字;
统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
可选地,还包括:
在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息。
可选地,所述根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控的步骤包括:
在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
将所述日志文本数据块转为为弹性分布式数据集;
并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
可选地,还包括:
将所述日志信息写入日志文件中;
针对所述日志文件生成索引信息;
将所述索引信息同步至监控报警组件。
本申请实施例包括以下优点:
本申请实施例将监控数据的传输通道由一条分成了两条,即将要监控的虚拟机进程的服务信息和数据量较大的日志信息分开单独上报,针对进程的服务信息可以经过简单处理,直接上报服务端;而进程的日志信息则是不做处理,直接通过传输通道实时发送到服务端,在服务端针对虚拟机上报的服务信息、日志信息检测虚拟机中进程的运行状态,将计算量集中在服务端中,可以大大减少虚拟机中的计算量,从而大大降低了虚拟机所在的宿主机的资源消耗,保证宿主机可用于业务处理的资源,提高处理能力。
此外,将日志信息的监控处理集中在服务端,可以充分利用流失处理***的高性能处理特性,实现日志信息的实时聚合,并且处理能力可以水平扩展,大大提高了监控大规模集群的多维度指标的处理能力,提高了报警的实时性,避免报警延时或无效。
附图说明
图1是本申请的一种虚拟机进程的监控方法实施例的步骤流程图;
图2是本申请实施例的一种***架构示意图;
图3是本申请的一种虚拟机进程的监控装置实施例的结构框图;
图4是本申请的一种虚拟机进程的监控***实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种虚拟机进程的监控方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,接收虚拟机中代理组件经由第一传输通道发送的虚拟机中进程的服务信息。
一般而言,虚拟机技术通过在物理设备(又称宿主机)上添加一层虚拟机监控程序(Virtual Machine Monitor,VMM),从而实现虚拟化,如虚拟化处理器、虚拟内存管理器(Memory Management Unit,MMU)和虚拟I/O***等等。
在同一个物理设备中,可以生成多个不同的虚拟机,分别运行多个不同或相同的操作***
虚拟机监控程序又称为监管程序(Hypervisor),从应用程序的角度看,程序运行在虚拟机上同运行在宿主机上是一样的。
在实际应用中,虚拟机可以包括Hyper-V,Xen,KVM(Kernel-based VirtualMachine),Vmware等等。
为使本领域技术人员更好地理解本申请实施例,在本说明书中,将Xen作为虚拟机的一种示例进行说明。
Xen属于硬件虚拟化技术的一种实现方案,本质上是一种虚拟机监控器,可以运行在多个平台上,比如IA-32,x86-64和ARM。
Xen允许多个虚拟***并发地运行在同一个硬件环境上,对虚拟***运行情况、硬件资源和其他计算机资源进行管理和分配。
Xen Hypervisor是Xen***中最重要的部分之一,运行在虚拟***和物理平台中,是最靠近物理层的也是具有最高的优先级的部分。Hypervisor负责调度在它之上运行的虚拟***。
在申请实施例中,可以在虚拟机中部署代理组件(Agent),用于采集该虚拟机中进程(Daemon)的服务信息。
进一步而言,代理组件采集的服务信息可以表示虚拟机中进程是否可以提供服务,即进程是否存活。
目前可以在虚拟机上执行ps命令,使用该ps命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多的资源等等,通过分析ps命令的返回结果,判断进程是否存活。
在本申请实施例中,代理组件可以单独发送虚拟机进程的服务信息至服务端,例如,代理服务组件(AgentServer)。
其中,代理服务组件可以为独立的服务器或服务器集群,也可以为服务器或服务器集群中的某个单元,本申请实施例对此不加以限制。
所谓单独,是相对于日志信息而言的,即服务信息与日志信息分开传输,具体可以体现在:
1、单独的进程;
代理组件中的第一进程负责发送服务信息至代理服务组件。
所谓单独,是指代理组件中发送服务信息的第一进程,与,代理组件中发送日志信息的第二进程相互单独。
2、单独的传输通道;
代理组件通过第一传输通道发送服务信息至代理服务组件,如TCP(TransmissionControl Protocol传输控制协议)长连接,即client(客户端)与server(服务器端)先建立连接,连接建立后不断开,然后再进行报文发送和接收。
所谓单独,是指代理组件中发送服务信息的第一传输通道,与,代理组件中发送日志信息的第二传输通道相互单独。
即代理组件在第一传输通道、通过第一进程发送进程的服务信息,相对而言,代理服务组件可以在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息。
在具体实现中,代理组件可以合并虚拟机中进程的服务信息,将合并之后的服务信息发送至代理服务组件,一方面,某些进程的服务信息需要综合多个进程的服务信息判断,例如,在MapReduce的分布式***中,综合判断ResourceManager进程和NodeMananger进程是否正常,以判定yarn(资源管理器)是否正常。另一方面,减少上报的信息量,以减小代理服务组件的计算量。
相对而言,代理服务组件所接收的虚拟机中进程的服务信息为对原始的服务信息合并获得。
当然,为了保证用户的隐私权和知情权,可以先检查该虚拟机的用户是否授权服务信息的采集,如果用户已经授权,则可以继续执行服务信息的发送流程,如果用户么有授权,则可以终止执行服务信息的发送流程。
步骤102,接收虚拟机中代理组件经由第二传输通道发送的虚拟机中进程的日志信息。
在申请实施例中,可以在虚拟机中部署代理组件,用于采集该虚拟机中进程的日志信息。
在一个应用***(如宿主机)中,日志通常是一个非常重要的功能组成部分,记录应用***产生的所有行为,包括业务操作行为以及***框架本身的行为,并按照某种规范表达出来。
在本申请实施例中,日志信息,是指原始生成的日志数据,一般以行作为单位,并未经过写入文件等处理。
进一步而言,在虚拟机中指定进程启动的时候,可以把进程运行产生的日志信息重定向到了执行目录,而后通过部署在虚拟机的代理组件实时扫描该执行目录,读取日志信息。
在本申请实施例中,代理组件可以单独发送日志信息至服务端,例如,日志服务组件(LogServer)。
其中,日志服务组件可以为单独的服务器或服务器集群,也可以为服务器或服务器集群中的某个单元,本申请实施例对此不加以限制。
所谓单独,是相对于服务信息而言的,即服务信息与日志信息分开传输,具体可以体现在:
1、单独的进程;
代理组件中的第二进程负责发送日志信息至日志服务组件。
所谓单独,是指代理组件中发送服务信息的第一进程,与,代理组件中发送日志信息的第二进程相互单独。
2、单独的传输通道;
代理组件通过第二传输通道发送日志信息至日志服务组件,如TCP长连接。
所谓单独,是指代理组件中发送服务信息的第一传输通道,与,代理组件中发送日志信息的第二传输通道相互单独。
即代理组件可以在第二传输通道、通过第二进程发送进程的日志信息,相对而言,日志服务组件可以在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
当然,为了保证用户的隐私权和知情权,可以先检查该虚拟机的用户是否授权日志信息的采集,如果用户已经授权,则可以继续执行日志信息的发送流程,如果用户么有授权,则可以终止执行日志信息的发送流程。
步骤103,根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控。
由于进程的服务信息为运行时所产生的数据,在服务端(如代理服务组件)中,可以通过分析该数据,监控进程的第一运行状态,其中,第一运行状态具有第一异常状态和第一正常状态,即表示进程运行异常的信息和表示进程运行正常的信息。
在本申请的一个实施例中,步骤103可以包括如下子步骤:
子步骤S11,从所述服务信息中查询不可服务信息;
在本申请实施例中,服务信息可以包括可服务信息和不可服务信息。
其中,可服务信息表示虚拟机中进程正常运行,可提供服务。
不可服务信息表示执虚拟机中进程异常关闭,不可提供服务。
一般情况下,如果进程在虚拟机的ps列表中存在,则认为该进程正常运行,如果进程在虚拟机的ps列表中不存在,则认为该进程异常关闭。
子步骤S12,统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
在服务端(如代理服务组件)中,可以对进程离散的服务信息进行汇总,并同级在一定时间内,如最近5min、15min、30min等,进程的不可服务信息的数量。
子步骤S13,当所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
若该进程在一定时间内进程关闭信息的第一数量超过预设的第一阈值,可以认为该进程的异常频率较高,确定该进程的第一运行状态为第一异常状态。
反之,可以该进程的第一运行状态为第一正常状态。
进一步地,若代理服务组件监测到进程的第一运行状态为第一异常状态,则可以触发报警操作,如弹窗、电子邮件、短信等等,通知用户进行异常处理。
在一种报警方式中,代理服务组件在监测到所述第一运行状态为第一异常状态时,向监控报警组件发送第一异常通知消息,以通知监控报警组件执行第一报警操作。
监控报警组件可以连接前端的UI(User Interface,用户界面)组件,与用户进行交互。
其中,监控报警组件可以为单独的服务器或服务器集群,也可以为服务器或服务器集群中的某个单元,本申请实施例对此不加以限制
监控报警组件在接收到第一异常通知消息,执行第一报警操作,在前端通知用户进行异常处理。
当然,代理服务组件也可以直接执行报警操作,本申请实施例对此不加以限制。
步骤104,根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
由于进程的日志信息为运行时所产生的数据,在服务端(如日志服务组件)中,可以通过分析该数据,监控进程的第而运行状态,其中,第二运行状态具有第二异常状态和第二正常状态,即表示进程运行异常的信息和表示进程运行正常的信息。
在本申请的一个实施例中,步骤104可以包括如下子步骤:
子步骤S21,从所述日志信息中查询异常关键字;
在具体实现中,可以是将发送的每行日志信息和预先设置好的异常关键字(即用于表征运行异常的关键字)进行匹配,匹配的过程可以理解为看该日志信息中是否包含该异常关键字,即看这个关键字是否为该日志信息的子串。
例如,若日志信息中出现异常关键字RegisterException,则可以就认为是代理组件不能注册到代理服务组件上。
又例如,若日志信息中出现异常关键字FileNotFoundException,则可以认为任务程序期待的目标文件没有生成。
子步骤S22,统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
在日志服务组件中,可以对进程离散的日志信息进行汇总,并同级在一定时间内,如最近5min、15min、30min等,进程的异常关键字的数量。
子步骤S23,当所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
若该进程在一定时间内异常关键字的第二数量超过预设的第二阈值,可以认为该进程的异常频率较高,确定该进程的第二运行状态为第二异常状态。反之,可以该进程的第二运行状态为第二正常状态。
需要说明的是,第一异常状态的异常程度可能比第二异常状态的异常程度高,若虚拟机的进程处于第一异常状态,一般不能提供服务,但是,若虚拟机的进程处于第二异常状态,还可能提供服务。
此外,一般情况下,若进程存活,那么,该进程一直打印日志信息,代理组件就可以一直发送日志信息,形成数据流。
当日志信息为数据流时,可以在***中部署流式处理组件,如Storm,Spark和Samza等等,日志服务组件可以将日志信息发送至所述流式处理组件,流式处理组件采用日志信息检测虚拟机中进程的第二运行状态,日志服务组件读取流式处理组件检测获得的地热运行状态。
其中,流式处理组件可以为单独的服务器或服务器集群,也可以为服务器或服务器集群中的某个单元,本申请实施例对此不加以限制。
为使本领域技术人员更好地理解本申请实施例,在本说明书中,将基于spark搭建的spark streaming作为流式处理组件的一种示例进行说明。
Spark Streaming是Spark核心API(Application Programming Interface,应用程序编程接口)的一个扩展,在处理前按时间间隔预先将其切分为一段一段的批处理作业。
Spark针对持续性数据流的抽象称为DStream(DiscretizedStream),一个DStream是一个微批处理(micro-batching)的RDD(弹性分布式数据集);而RDD则是一种分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。
具体而言,在流式处理组件中可以启动一个***,用来监听某个时间窗内是否有消息流通过网络通道写过来,如果有,则定位为任务有数据流写入,如果没有则记为没有。
针对写入的数据流(即日志信息),可以每间隔一定的时间(batch size,如1秒)将日志信息切分成一段一段的日志文本数据块(Discretized Stream)。
将每一段日志文本数据块转为Spark的弹性分布式数据集(ResilientDistributed Dataset,DDR);
然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,并行采用多个弹性分布式数据集检测虚拟机中进程的第二运行状态。
将RDD经过操作变成中间结果保存在内存中,整个流式计算根据业务的需求可以对中间的结果进行叠加或者存储到外部设备。
当然,若通过流式处理组件采用日志信息检测虚拟机中进程的运行状态,除了Spark之外,还可以使用Strom,本申请实施例对此不加以限制。
此外,除了流式处理组件之外,也可以通过集中式处理集群采用日志信息检测虚拟机中进程的运行状态,类似于alimonitor,本申请实施例对此不加以限制。进一步地,若代理服务组件监测到进程的第一运行状态为第一异常状态,则可以触发报警操作,如弹窗、电子邮件、短信等等,通知用户进行异常处理。
在一种报警方式中,代理服务组件在监测到所述第一运行状态为第一异常状态时,向监控报警组件发送第一异常通知消息。
监控报警组件可以连接前端的UI(User Interface,用户界面)组件,与用户进行交互。
其中,监控报警组件可以为单独的服务器或服务器集群,也可以为服务器或服务器集群中的某个单元,本申请实施例对此不加以限制
监控报警组件在接收到所述第一异常通知消息,执行第一报警操作。
进一步地,若日志服务组件监测到第二运行状态为异常状态,则可以触发报警操作,如弹窗、电子邮件、短信等等,通知用户进行异常处理。
在一种报警方式中,若日志服务组件在监测到第二运行状态为第二异常状态时,向监控报警组件发送第二异常通知消息,以通知监控报警组件执行第二报警操作。
监控报警组件在接收到所述第二异常通知消息,执行第二报警操作,在前端通知用户进行异常处理。
当然,日志服务组件也可以直接执行报警操作,本申请实施例对此不加以限制。
此外,日志服务组件可以将日志信息写入日志文件中,并针对日志文件生成索引信息,将索引信息同步至监控报警组件,让用户可以在前端进行查看。
本申请实施例将监控数据的传输通道由一条分成了两条,即将要监控的虚拟机进程的服务信息和数据量较大的日志信息分开单独上报,针对进程的服务信息可以经过简单处理,直接上报服务端;而进程的日志信息则是不做处理,直接通过传输通道实时发送到服务端,在服务端针对虚拟机上报的服务信息、日志信息检测虚拟机中进程的运行状态,将计算量集中在服务端中,可以大大减少虚拟机中的计算量,从而大大降低了虚拟机所在的宿主机的资源消耗,保证宿主机可用于业务处理的资源,提高处理能力。
此外,将日志信息的监控处理集中在服务端,可以充分利用流失处理***的高性能处理特性,实现监控数据的实时聚合,并且处理能力可以水平扩展,大大提高了处理大规模集群监控的多维度指标的处理能力,提高了报警的实时性,避免报警延时或无效。
为使本领域技术人员更好地理解本申请实施例,以下通过具体的示例来说明本申请实施例中虚拟机进程的监控方法。
如图2所示,在虚拟机中部署代理组件201,采集虚拟机中进程的服务信息,以及,采集虚拟机中进程的日志信息。
服务信息在合并之后,在第一传输通道、通过第一进程发送进程的服务信息至代理服务组件202。
日志信息不经过处理,在第二传输通道、通过第二进程发送进程的日志信息至日志服务组件203。
代理服务组件202从服务信息中查询不可服务信息,统计在5min内不可服务信息的第一数量,假设第一数量为20,第一阈值为10,由于第一数量为大于第一阈值,可以确认该进程的处于第一异常状态。
因此,代理服务组件202可以向监控报警组件205发送第一异常通知消息,通知监控报警组件205进行报警操作。
日志服务组件203调用流式处理组件204,即spark streaming,从日志信息中查询异常关键字,统计在5min内异常关键字的第二数量,假设异常关键字FileNotFoundException的第二数量为7,第二阈值为5,由于第二数量为大于第二阈值,可以确认该进程的处于第二异常状态。
因此,日志服务组件203可以向监控报警组件205发送第二异常通知消息,通知监控报警组件205进行报警操作。
此外,日志服务组件203可以将日志信息写入日志文件中,并针对日志文件生成索引信息,将索引信息同步至监控报警组件205。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图3,示出了本申请的一种虚拟机进程的监控装置实施例的结构框图,具体可以包括如下单元:
服务信息接收单元301,用于接收虚拟机中进程的服务信息;
日志信息接收单元302,用于接收虚拟机中进程的日志信息;
第一运行状态监控单元303,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
第二运行状态监控单元304,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
在本发明的一个实施例中,所述服务信息接收单元301可以包括如下子单元:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息;
所述日志信息接收单元302可以包括如下子单元:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
在具体实现中,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
在本发明的一个实施例中,所述第一运行状态监控单元303可以包括如下子单元:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
在本发明的一个实施例中,所述第二运行状态监控单元304可以包括如下子单元:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
在本发明的一个实施例中,还可以包括如下单元:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息。
在本发明的一个实施例中,还可以包括如下单元:
日志信息切分子单元,用于在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
日志文本数据块转换子单元,用于将所述日志文本数据块转为为弹性分布式数据集;
并行检测子单元,用于并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
在本发明的一个实施例中,还可以包括如下单元:
日志文件写单元,用于将所述日志信息写入日志文件中;
索引信息生成单元,用于针对所述日志文件生成索引信息;
索引信息同步单元,用于将所述索引信息同步至监控报警组件。
参照图4,示出了本申请的一种虚拟机进程的监控***实施例的结构框图,所述***可以包括代理组件410、代理服务组件420和日志服务组件430;其中,
所述代理组件410可以包括如下单元:
服务信息采集单元411,用于采集虚拟机中进程的服务信息;
日志信息采集单元412,用于采集虚拟机中进程的日志信息;
服务信息发送单元413,用于发送虚拟机中进程的服务信息至所述代理服务组件;
日志信息发送单元414,用于发送虚拟机中进程的日志信息至所述日志服务组件;
所述代理服务组件420可以包括如下单元:
服务信息接收单元421,用于接收虚拟机中进程的服务信息;
第一运行状态监控单元422,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
所述日志服务组件430可以包括如下单元:
日志信息接收单元431,用于接收虚拟机中进程的日志信息;
第二运行状态监控单元432,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
在本申请的一个实施例中,所述服务信息发送单元413可以包括如下子单元:
服务信息合并子单元,用于合并虚拟机中进程的服务信息;
合并信息发送子单元,用于将合并后的服务信息发送至所述代理服务组件。
在本申请的一个实施例中,所述服务信息发送单元413可以包括如下子单元:
第一单独发送子单元,用于在第一传输通道、通过第一进程发送进程的服务信息;
所述服务信息接收单元421可以包括如下子单元:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息。
在本申请的一个实施例中,所述日志信息发送单元414可以包括如下子单元:
第二单独发送子单元,用于在第二传输通道、通过第二进程发送进程的日志信息;
所述日志信息接收单元431可以包括如下单元:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
在具体实现中,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
在本申请的一个实施例中,所述第一运行状态监控单元422可以包括如下子单元:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
在本申请的一个实施例中,所述第二运行状态监控单元432可以包括如下单元:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
在本申请的一个实施例中,所述***还可以包括监控报警组件;
所述代理服务组件还可以包括如下单元:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
所述日志服务组件还可以包括如下单元:
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息;
所述监控报警组件可以包括如下单元:
第一报警单元,用于在接收到所述第一异常通知消息,执行第一报警操作;
第二报警单元,用于在接收到所述第二异常通知消息,执行第二报警操作。
在本申请的一个实施例中,所述***还可以包括流式处理组件;
所述第二运行状态监控单元可以包括如下单元:
日志信息发送子单元,用于将所述日志信息发送至所述流式处理组件;
运行状态读取子单元,用于读取所述流式处理组件检测获得的第二运行状态;
所述流式处理组件可以包括如下单元:
日志信息切分单元,用于在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
日志文本数据块转换单元,用于将所述日志文本数据块转为为弹性分布式数据集;
并行检测单元,用于并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
在本申请的一个实施例中,所述日志服务组件还可以包括如下单元:
日志文件写单元,用于将所述日志信息写入日志文件中;
索引信息生成单元,用于针对所述日志文件生成索引信息;
索引信息同步单元,用于将所述索引信息同步至监控报警组件。
对于装置、***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种虚拟机进程的监控方法、一种虚拟机进程的监控装置和一种虚拟机进程的监控***,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (19)

1.一种虚拟机进程的监控***,其特征在于,所述虚拟机运行在宿主机,所述***包括代理组件、代理服务组件和日志服务组件;其中,
所述代理组件包括:
服务信息采集单元,用于采集虚拟机中进程的服务信息;
日志信息采集单元,用于采集虚拟机中进程的日志信息;
服务信息发送单元,用于发送虚拟机中进程的服务信息至所述代理服务组件;所述服务信息为经过所述宿主机处理后的服务信息;
日志信息发送单元,用于发送虚拟机中进程的日志信息至所述日志服务组件;其中,用于发送所述服务信息与所述日志信息的进程不同;所述日志信息包括原始生成的日志数据,且为未经过所述宿主机进行处理的日志信息;所述代理服务组件包括:
服务信息接收单元,用于接收虚拟机中进程的服务信息;
第一运行状态监控单元,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
所述日志服务组件包括:
日志信息接收单元,用于接收虚拟机中进程的日志信息;
第二运行状态监控单元,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控;所述代理服务组件和所述日志服务组件为服务端。
2.根据权利要求1所述的***,其特征在于,所述服务信息发送单元包括:
服务信息合并子单元,用于合并虚拟机中进程的服务信息;
合并信息发送子单元,用于将合并后的服务信息发送至所述代理服务组件。
3.根据权利要求1所述的***,其特征在于,所述服务信息发送单元包括:
第一单独发送子单元,用于在第一传输通道、通过第一进程发送进程的服务信息;
所述服务信息接收单元包括:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息。
4.根据权利要求1所述的***,其特征在于,所述日志信息发送单元包括:
第二单独发送子单元,用于在第二传输通道、通过第二进程发送进程的日志信息;
所述日志信息接收单元包括:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
5.根据权利要求1所述的***,其特征在于,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
6.根据权利要求1所述的***,其特征在于,所述第一运行状态监控单元包括:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
7.根据权利要求1所述的***,其特征在于,所述第二运行状态监控单元包括:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
8.根据权利要求1或2或3或4或5或6或7所述的***,其特征在于,所述***还包括监控报警组件;
所述代理服务组件还包括:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向所述监控报警组件发送第一异常通知消息;
所述日志服务组件还包括:
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息;
所述监控报警组件包括:
第一报警单元,用于在接收到所述第一异常通知消息,执行第一报警操作;
第二报警单元,用于在接收到所述第二异常通知消息,执行第二报警操作。
9.根据权利要求1或5或7所述的***,其特征在于,所述***还包括流式处理组件;
所述第二运行状态监控单元包括:
日志信息发送子单元,用于将所述日志信息发送至所述流式处理组件;
运行状态读取子单元,用于读取所述流式处理组件检测获得的第二运行状态;
所述流式处理组件包括:
日志信息切分单元,用于在所述日志信息为数据流时,每间隔一定的时间将所述日志信息切分成日志文本数据块;
日志文本数据块转换单元,用于将所述日志文本数据块转为为弹性分布式数据集;
并行检测单元,用于并行采用多个弹性分布式数据集检测所述虚拟机中进程的运行状态。
10.根据权利要求8所述的***,其特征在于,所述日志服务组件还包括:
日志文件写单元,用于将所述日志信息写入日志文件中;
索引信息生成单元,用于针对所述日志文件生成索引信息;
索引信息同步单元,用于将所述索引信息同步至监控报警组件。
11.一种虚拟机进程的监控装置,其特征在于,应用于服务端,所述服务端包括代理服务组件和日志服务组件,所述代理服务组件和所述日志服务组件,所述代理服务组件和所述日志服务组件分别与代理组件连接,包括:
服务信息接收单元,位于所述代理服务组件,用于接收虚拟机中进程的服务信息;所接收的虚拟机中进程的服务信息通过所述代理组件的服务信息采集单元采集,以及通过所述代理组件的服务信息发送单元发送;所述服务信息为经过所述虚拟机所在宿主机处理后的服务信息;
日志信息接收单元,位于所述日志服务组件,用于接收虚拟机中进程的日志信息;所接收的虚拟机中进程的日志信息通过所述代理组件的日志信息采集单元采集,以及通过所述代理组件的日志信息发送单元发送;其中,用于发送所述服务信息与所述日志信息的进程不同;所述日志信息包括原始生成的日志数据,且为未经过所述宿主机进行处理的日志信息;第一运行状态监控单元,位于所述代理服务组件,用于根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
第二运行状态监控单元,位于所述日志服务组件,用于根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
12.根据权利要求11所述的装置,其特征在于,
所述服务信息接收单元包括:
第一单独接收子单元,用于在第一传输通道接收由虚拟机中代理组件的第一进程发送的进程的服务信息;
所述日志信息接收单元包括:
第二单独接收子单元,用于在第二传输通道接收由虚拟机中代理组件的第二进程发送的进程的日志信息。
13.根据权利要求11所述的装置,其特征在于,所述第一运行状态具有第一异常状态和第一正常状态、所述第二运行状态具有第二异常状态和第二正常状态;
其中,所述第一异常状态的异常程度比所述第二异常状态的异常程度高。
14.根据权利要求11或12或13所述的装置,其特征在于,所述第一运行状态监控单元包括:
不可服务信息查询子单元,用于从所述服务信息中查询不可服务信息;
第一数量统计子单元,用于统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
第一确定子单元,用于在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
15.根据权利要求11或12或13所述的装置,其特征在于,所述第二运行状态监控单元包括:
异常关键字查询子单元,用于从所述日志信息中查询异常关键字;
第二数量统计子单元,用于统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
第二确定子单元,用于在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
16.根据权利要求11或12或13所述的装置,其特征在于,还包括:
第一通知单元,在监测到所述第一运行状态为第一异常状态时,向监控报警组件发送第一异常通知消息;
第二通知单元,用于在监测到所述第二运行状态为第二异常状态时,向所述监控报警组件发送第二异常通知消息。
17.一种虚拟机进程的监控方法,其特征在于,应用于服务端,所述服务端包括代理服务组件和日志服务组件,所述代理服务组件和所述日志服务组件,所述代理服务组件和所述日志服务组件分别与代理组件连接,包括:
通过所述代理服务组件接收虚拟机中代理组件经由第一传输通道发送的虚拟机中进程的服务信息;所接收的虚拟机中进程的服务信息通过所述代理组件的服务信息采集单元采集,以及通过所述代理组件的服务信息发送单元发送;所述服务信息为经过所述虚拟机所在宿主机处理后的服务信息;
通过所述日志服务组件接收虚拟机中代理组件经由第二传输通道发送的虚拟机中进程的日志信息;所接收的虚拟机中进程的日志信息通过所述代理组件的日志信息采集单元采集,以及通过所述代理组件的日志信息发送单元发送;其中,用于发送所述服务信息与所述日志信息的进程不同;所述日志信息包括原始生成的日志数据,且为未经过所述宿主机进行处理的日志信息;
通过所述代理服务组件根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控;
通过所述日志服务组件根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控。
18.根据权利要求17所述的方法,其特征在于,所述根据所述服务信息对所述虚拟机中进程的第一运行状态进行监控的步骤包括:
从所述服务信息中查询不可服务信息;
统计所述虚拟机中进程在一定时间内不可服务信息的第一数量;
在所述第一数量超过预设的第一阈值时,确定所述虚拟机的进程的第一运行状态为第一异常状态。
19.根据权利要求17所述的方法,其特征在于,所述根据所述日志信息对所述虚拟机中进程的第二运行状态进行监控的步骤包括:
从所述日志信息中查询异常关键字;
统计所述虚拟机中进程在一定时间内异常关键字的第二数量;
在所述第二数量超过预设的第二阈值时,确定所述虚拟机中进程的第二运行状态为第二异常状态。
CN201610500743.4A 2016-06-29 2016-06-29 一种虚拟机进程的监控方法、装置和*** Active CN107544832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610500743.4A CN107544832B (zh) 2016-06-29 2016-06-29 一种虚拟机进程的监控方法、装置和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610500743.4A CN107544832B (zh) 2016-06-29 2016-06-29 一种虚拟机进程的监控方法、装置和***

Publications (2)

Publication Number Publication Date
CN107544832A CN107544832A (zh) 2018-01-05
CN107544832B true CN107544832B (zh) 2021-03-16

Family

ID=60966576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610500743.4A Active CN107544832B (zh) 2016-06-29 2016-06-29 一种虚拟机进程的监控方法、装置和***

Country Status (1)

Country Link
CN (1) CN107544832B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365694B (zh) * 2019-07-23 2022-07-05 中国工商银行股份有限公司 虚拟主机与真实主机间数据同步处理的***及方法
CN110751384A (zh) * 2019-09-30 2020-02-04 口碑(上海)信息技术有限公司 业务监控方法和装置
CN110874291B (zh) * 2019-10-31 2022-10-21 北京中科云脑智能技术有限公司 一种异常容器实时检测方法
CN112003835B (zh) * 2020-08-03 2022-10-14 奇安信科技集团股份有限公司 安全威胁的检测方法、装置、计算机设备和存储介质
CN112383502B (zh) * 2020-09-11 2022-08-26 深圳市证通云计算有限公司 物理机和虚拟机统一监控的方法、***和电子装置
CN113326072B (zh) * 2021-05-24 2023-11-24 北京计算机技术及应用研究所 一种飞腾服务器平台下基于非易失内存的实时监控方法
CN113791867B (zh) * 2021-09-16 2022-05-20 江苏安超云软件有限公司 调整kvm虚拟机服务进程优先级的方法及应用
CN114401273A (zh) * 2022-01-18 2022-04-26 中国建设银行股份有限公司 一种设备控制方法及***
CN114564422B (zh) * 2022-01-26 2023-11-21 中国人民解放军国防科技大学 用于多通道dram的动态同步刷新控制器和动态同步刷新控制方法
CN114615013B (zh) * 2022-01-29 2022-12-02 北京永信至诚科技股份有限公司 一种网络靶场的综合审计方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113243A (ja) * 2009-11-26 2011-06-09 Hitachi Solutions Ltd 仮想化環境において稼動中のアプリケーション監視システム
CN103365702A (zh) * 2013-07-11 2013-10-23 中国科学院合肥物质科学研究院 IaaS云环境下轻量级虚拟机进程追踪***和方法
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105550015A (zh) * 2015-12-08 2016-05-04 国云科技股份有限公司 一种监控Linux虚拟机内部进程的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113243A (ja) * 2009-11-26 2011-06-09 Hitachi Solutions Ltd 仮想化環境において稼動中のアプリケーション監視システム
CN103365702A (zh) * 2013-07-11 2013-10-23 中国科学院合肥物质科学研究院 IaaS云环境下轻量级虚拟机进程追踪***和方法
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105550015A (zh) * 2015-12-08 2016-05-04 国云科技股份有限公司 一种监控Linux虚拟机内部进程的方法

Also Published As

Publication number Publication date
CN107544832A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107544832B (zh) 一种虚拟机进程的监控方法、装置和***
US10560465B2 (en) Real time anomaly detection for data streams
US20180365085A1 (en) Method and apparatus for monitoring client applications
US10776174B2 (en) Managing hosted resources across different virtualization platforms
CN108039964B (zh) 基于网络功能虚拟化的故障处理方法及装置、***
US9876673B2 (en) Self-learning automated remediation of changes that cause performance degradation of applications
US10440136B2 (en) Method and system for resource scheduling
US9841986B2 (en) Policy based application monitoring in virtualized environment
US9710165B1 (en) Identifying volume candidates for space reclamation
US10521279B2 (en) System and method for dynamic log level control
US11368372B2 (en) Detection of outlier nodes in a cluster
US9058330B2 (en) Verification of complex multi-application and multi-node deployments
US10303678B2 (en) Application resiliency management using a database driver
JP6633642B2 (ja) 分散データベースにおけるデータブロックを処理する方法およびデバイス
CN112306802A (zh) ***的数据获取方法、装置、介质和电子设备
WO2019205788A1 (zh) 数据存储方法、存储服务器及云存储***
CN106815318B (zh) 一种时序数据库的集群化方法及***
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
US11048665B2 (en) Data replication in a distributed file system
US9436697B1 (en) Techniques for managing deduplication of data
US10552265B1 (en) Method of tracking and analyzing data integrity issues by leveraging cloud services
CN110569172B (zh) 一种业务层级的性能监控***
KR101630088B1 (ko) 가상머신의 라이프사이클 모니터링 방법 및 그 장치
JP2023530996A (ja) クラスタの容量縮小・拡張方法及びシステム、容量縮小・拡張制御端末、及び媒体
US11050768B1 (en) Detecting compute resource anomalies in a group of computing resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230530

Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Aliyun Computing Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.