CN114553867A - 一种云原生的跨云网络监控方法、装置及存储介质 - Google Patents

一种云原生的跨云网络监控方法、装置及存储介质 Download PDF

Info

Publication number
CN114553867A
CN114553867A CN202210071429.4A CN202210071429A CN114553867A CN 114553867 A CN114553867 A CN 114553867A CN 202210071429 A CN202210071429 A CN 202210071429A CN 114553867 A CN114553867 A CN 114553867A
Authority
CN
China
Prior art keywords
network monitoring
cloud
pingmesh
agent
pinglist
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210071429.4A
Other languages
English (en)
Inventor
别路
吕亚霖
董晓聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunsizhixue Technology Co ltd
Original Assignee
Beijing Yunsizhixue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunsizhixue Technology Co ltd filed Critical Beijing Yunsizhixue Technology Co ltd
Priority to CN202210071429.4A priority Critical patent/CN114553867A/zh
Publication of CN114553867A publication Critical patent/CN114553867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种云原生的跨云网络监控方法、装置及存储介质,云原生的跨云网络监控方法包括:在各个云端的容器服务***中分别部署网络监测节点Pingmesh Agent;各个云端上的网络监测节点Pingmesh Agent由网络监测控制中心Pingmesh Controller获取网络监控列表pinglist,所述的网络监控列表pinglist包含各个网络监测节点Pingmesh Agent所部署云端的地址信息;各个云端上的网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测;各个云端上的网络监测节点Pingmesh Agent将ICMP探测的数据上报至网络监测控制中心Pingmesh Controller。本发明解决了多云之间网络模型不统一,监控数据不能互通导致的跨云网络监控难题,弥补了云原生领域跨云网络监控的空白,具有较高的新颖性和实用价值。

Description

一种云原生的跨云网络监控方法、装置及存储介质
技术领域
本发明涉及云计算技术领域,具体的涉及一种云原生的跨云网络监控方法、装置及存储介质。
背景技术
云原生,云计算领域的一种技术生态,是基于分布部署和统一运维的分布式云,以容器、微服务、DevOps等技术为基础建立的一套云技术产品体系。
随着云计算的发展,多云部署成了避免单云故障的有效手段,同时也给一系列的挑战,跨云网络监控就是其中一项。掌握跨云的网络状况,对提前防范潜在网络问题和快速发现网络故障具有重要意义,目前,各个云厂商的网络模型不统一,各家的监控自成一体,数据无法互通,而业界K8s(即Kubernetes,云原生领域的标准的开源容器编排和调度平台)的网络监控解决方案blackbox也只能在单一集群内发挥作用。在云原生领域目前还没有针对跨云网络监控的解决方案,这就导致跨云网络问题无法被及时发现和处理,需要运维工程师人工排查才能发现,效率低下。
有鉴于此,特提出本发明专利。
发明内容
为了解决上述问题,本发明提供一种云原生的跨云网络监控方法、装置及存储介质,具体地,采用了如下技术方案:
一种云原生的跨云网络监控方法,包括:
在各个云端的容器服务***中分别部署网络监测节点Pingmesh Agent;
各个云端上的网络监测节点Pingmesh Agent由网络监测控制中心PingmeshController获取网络监控列表pinglist,所述的网络监控列表pinglist包含各个网络监测节点Pingmesh Agent所部署云端的地址信息;
各个云端上的网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测;
各个云端上的网络监测节点Pingmesh Agent将ICMP探测的数据上报至网络监测控制中心Pingmesh Controller。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,所述网络监测节点Pingmesh Agent启动时会自动注册到网络监测控制中心PingmeshController,网络监测控制中心Pingmesh Controller获取并维护包含有各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,各个云端上的所述网络监测节点Pingmesh Agent和网络监测控制中心Pingmesh Controller之间维持着心跳;
所述网络监测节点Pingmesh Agent定时请求网络监测控制中心PingmeshController获取最新的网络监控列表pinglist版本号;
如果获取到的网络监控列表pinglist版本号大于网络监测节点PingmeshAgent本地的版本号,则网络监测节点Pingmesh Agent获取网络监测控制中心PingmeshController的网络监控列表pinglist版本并更新至本地;
如果获取到的网络监控列表pinglist版本号不大于网络监测节点PingmeshAgent本地的版本号,则网络监测节点Pingmesh Agent针对本地网络监控列表pinglist版本中的地址并发进行ICMP探测。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,如果所述网络监测控制中心Pingmesh Controller在预设时间段T内未收到所述网络监测节点Pingmesh Agent的心跳请求,则判定相应的网络监测节点Pingmesh Agent下线,所述网络监测控制中心Pingmesh Controller将下线的网络监测节点Pingmesh Agent进行摘除,并同步更新所述网络监控列表pinglist中的数据。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,所述网络监测节点Pingmesh Agent的ICMP探测的数据包括云端服务器的平均响应延时,最大响应延时和丢包率。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,定期采集所述网络监测控制中心Pingmesh Controller接收到的各个云端上的网络监测节点Pingmesh Agent的ICMP探测数据,用作后续的监控图表绘制和报警的数据源。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,所述的网络监测控制中心Pingmesh Controller包括:
数据库,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
注册器,用于云端上新部署网络监测节点Pingmesh Agent时,在网络监测控制中心Pingmesh Controller中进行注册;
网络监控列表生成器,在数据库中生成网络监控列表pinglist,新增含有新的网络监测节点Pingmesh Agent所部署云端的地址信息,以及摘除已下线网络监测节点Pingmesh Agent所部署云端的地址信息;
Web服务模块,用于向***界面发送展示信息,以及用于监控报警***和时序列数据库Prometheus实时采集所述网络监测控制中心Pingmesh Controller接收到的各个云端上的网络监测节点Pingmesh Agent的ICMP探测数据。
作为本发明的可选实施方式,本发明的一种云原生的跨云网络监控方法中,各个云端的容器服务***为K8s集群,所述的网络监测节点Pingmesh Agent以Deployment的方式部署在各个云端的K8s集群内。
本发明同时提供一种云原生的跨云网络监控装置,包括:
网络监测节点模块,分别被部署在各个云端的容器服务***中;
网络监测控制中心模块,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
各个云端上的网络监测节点模块由网络监测控制中心模块获取网络监控列表pinglist,针对网络监控列表pinglist中的地址并发进行ICMP探测,并将ICMP探测的数据上报至网络监测控制中心模块。
本发明还提供了一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的一种云原生的跨云网络监控方法。
与现有技术相比,本发明的有益效果:
本发明提出了一种以云原生方式运行的跨云网络监控方法,通过在各个云端分别部署网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测,实现多云之间的网络质量的实时监控,再通过网络监测控制中心Pingmesh Controller同步各个网络监测节点Pingmesh Agent的ICMP探测的数据,用于帮助集群管理人员更好的了解跨云网络的质量,大幅提高网络问题发现的效率。
因此,本发明提出的一种云原生的跨云网络监控方法,解决了多云之间网络模型不统一,监控数据不能互通导致的跨云网络监控难题,弥补了云原生领域跨云网络监控的空白,具有较高的新颖性和实用价值。
附图说明:
图1本发明实施例云原生的跨云网络监控方法的流程图一;
图2本发明实施例云原生的跨云网络监控方法的整体架构图;
图3本发明施例云原生的跨云网络监控方法的流程图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
参见图1-图3所示,本实施例的一种云原生的跨云网络监控方法,包括:
在各个云端的容器服务***中分别部署网络监测节点Pingmesh Agent;
各个云端上的网络监测节点Pingmesh Agent由网络监测控制中心PingmeshController获取网络监控列表pinglist,所述的网络监控列表pinglist包含各个网络监测节点Pingmesh Agent所部署云端的地址信息;
各个云端上的网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测;
各个云端上的网络监测节点Pingmesh Agent将ICMP探测的数据上报至网络监测控制中心Pingmesh Controller。
本实施例提出了一种以云原生方式运行的跨云网络监控方法,通过在各个云端分别部署网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测,实现多云之间的网络质量的实时监控,再通过网络监测控制中心PingmeshController同步各个网络监测节点Pingmesh Agent的ICMP探测的数据,用于帮助集群管理人员更好的了解跨云网络的质量,大幅提高网络问题发现的效率。
因此,本实施例提出的一种云原生的跨云网络监控方法,解决了多云之间网络模型不统一,监控数据不能互通导致的跨云网络监控难题,弥补了云原生领域跨云网络监控的空白,具有较高的新颖性和实用价值。
本实施例的ICMP探测为利用ICMP协议进行网络质量探测的方式,ICMP(InternetControl Message Protocol)Internet控制报文协议,它是TCP/IP协议簇的一个子协议,用于在IP主机、路由器之间传递控制消息。ICMP协议属于网络层协议,主要用于在主机与路由器之间传递控制信息,包括报告错误、交换受限控制和状态信息等。
作为本实施例的可选实施方式,所述的网络监测节点Pingmesh Agent通过Ping命令来进行ICMP探测,在网络中Ping命令是一个十分好用的TCP/IP工具,它主要的功能是用来检测网络的连通情况和分析网络速度。ping命令就是借助ICMP,发出要求回应的Echo(ping)request消息。若远端的网络功能没有问题,就会回应Echo(ping)reply信息,因而得知该运作正常。因此用户可以通过ping命令来判断目标是否启用以及网络是否正常。
一般来说,网络连通问题是由许多原因引起的,如本地配置错误、远程主机协议失效等,当然还包括设备等造成的故障。使用Ping命令测试网络连通的步骤:
1.使用ipconfig/all观察本地网络设置是否正确。
2.Ping回送地址是为了检查本地的TCP/IP协议有没有设置好。
3.Ping本机IP地址,这样是为了检查本机的IP地址是否设置有误。
4.Ping本网网关或本网IP地址,这样的是为了检查硬件设备是否有问题,也可以检查本机与本地网络连接是否正常。
5.Ping远程IP地址,这主要是检查本网或本机与外部的连接是否正常。
Ping命令后返回信息的分析:
1.Request timed out,至少有下几种情况。
(1)对方已关机,或者网络上根本没有这个地址。
(2)对方与自己不在同一网段内,通过路由也无法找到对方,但有时对方确实是存在的,当然不存在也是返回超时的信息。
(3)对方确实存在,但设置了ICMP数据包过滤(比如防火墙设置)。
(4)错误设置IP地址
2.Destination host Unreachable
(1)对方与自己不在同一网段内,而自己又未设置默认的路由。
(2)网线出了故障
这里要说明一下“destination host unreachable”和“time out”的区别,如果所经过的路由器的路由表中具有到达目标的路由,而目标因为其他原因不可到达,这时候会出现“time out”,如果路由表中连到达目标的路由都没有,那就会出现“destination hostunreachable”。
3.Bad IP address
这个信息表示您可能没有连接到DNS服务器,所以无法解析这个IP地址,也可能是IP地址不存在。
4.Source quench received
这个信息比较特殊,它出现的机率很少。它表示对方或中途的服务器繁忙无法回应。
5.Unknown host
这种出错信息的意思是,该远程主机的名字不能被域名服务器(DNS)转换成IP地址。故障原因可能是域名服务器有故障,或者其名字不正确,或者网络管理员的***与远程主机之间的通信线路有故障。
6.No answer
这种故障说明本地***有一条通向中心主机的路由,但却接收不到它发给该中心主机的任何信息。故障原因可能是下列之一:中心主机没有工作;本地或中心主机网络配置不正确;本地或中心的路由器没有工作;通信线路有故障;中心主机存在路由选择问题。
7.Ping 127.0.0.1:127.0.0.1是本地循环地址
如果本地址无法Ping通,则表明本地机TCP/IP协议不能正常工作。
8.no rout to host:网卡工作不正常。
9.transmit failed,error code:10043网卡驱动不正常。
10.unknown host name:DNS配置不正确。
作为本实施例的可选实施方式,本实施例所述的一种云原生的跨云网络监控方法,所述网络监测节点Pingmesh Agent启动时会自动注册到网络监测控制中心PingmeshController,网络监测控制中心Pingmesh Controller获取并维护包含有各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist。本实施例所有的网络监测节点Pingmesh Agent启动时,都会将所部署的云端地址信息注册到网络监测控制中心Pingmesh Controller,并由网络监测控制中心Pingmesh Controller进行统一维护监控,实现对所有云端上的网络监测节点Pingmesh Agent的启用状态进行同步和监控。
进一步地,本实施例的一种云原生的跨云网络监控方法,各个云端上的所述网络监测节点Pingmesh Agent和网络监测控制中心Pingmesh Controller之间维持着心跳;
所述网络监测节点Pingmesh Agent定时请求网络监测控制中心PingmeshController获取最新的网络监控列表pinglist版本号;
如果获取到的网络监控列表pinglist版本号大于网络监测节点Pingmesh Agent本地的版本号,则网络监测节点Pingmesh Agent获取网络监测控制中心PingmeshController的网络监控列表pinglist版本并更新至本地;
如果获取到的网络监控列表pinglist版本号不大于网络监测节点PingmeshAgent本地的版本号,则网络监测节点Pingmesh Agent针对本地网络监控列表pinglist版本中的地址并发进行ICMP探测。
本实施例的网络监测控制中心Pingmesh Controller针对各个云端的网络监测节点Pingmesh Agent的网络监控列表pinglist进行维护,通过网络监测控制中心PingmeshController实现对任意云端的网络监测节点Pingmesh Agent的网络监控列表pinglist的版本号进行升级,从而满足针对各个云端的网络监测要求,实现跨云的网络监测统一控制。
进一步地,本实施例的一种云原生的跨云网络监控方法,如果所述网络监测控制中心Pingmesh Controller在预设时间段T内未收到所述网络监测节点Pingmesh Agent的心跳请求,则判定相应的网络监测节点Pingmesh Agent下线,所述网络监测控制中心Pingmesh Controller将下线的网络监测节点Pingmesh Agent进行摘除,并同步更新相应的pinglist。本实施例不仅针对启用状态的网络监测节点Pingmesh Agent进行监控和数据同步,针对下线的网络监测节点Pingmesh Agent及时做出摘除处理,防止下线的网络监测节点Pingmesh Agent占用***资源,确保***资源运行的效率和稳定性。
本实施例所述网络监测节点Pingmesh Agent的ICMP探测的数据包括云端服务器的平均响应延时,最大响应延时和丢包率。响应延时指的是用户从发出请求到接收完响应之间的总耗时,它由网络传输耗时、服务处理耗时等多个部分组成。通常以毫秒(ms)作为单位。平均响应延时指的是所有请求平均花费的时间,如果有100个请求,其中98个耗时为1ms,其他两个为100ms。那么平均响应时间为(98*1+2*100)/100.0=2.98ms。最大响应延时是所有请求中花费的最长时间。丢包率(Loss Tolerance或Packet Loss Rate)是指测试中所丢失数据包数量占所发送数据组的比率,计算方法是:“[(输入报文-输出报文)/输入报文]*100%”,丢包率与数据包长度以及包发送频率相关。
进一步地,本实施例的一种云原生的跨云网络监控方法,定期采集所述网络监测控制中心Pingmesh Controller接收到的各个云端上的网络监测节点Pingmesh Agent的ICMP探测数据,用作后续的监控图表绘制和报警的数据源。
本实施例通过将上报的ICMP探测数据用作后续的监控图表绘制和报警的数据源,可以帮助集群管理人员更好的了解跨云网络的质量,大幅提高网络问题发现的效率。
作为本实施例的可选实施方式,本实施例的一种云原生的跨云网络监控方法,所述的网络监测控制中心Pingmesh Controller包括:
数据库,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
注册器,用于新的云端上部署网络监测节点Pingmesh Agent时,在网络监测控制中心Pingmesh Controller中进行注册;
网络监控列表生成器,在数据库中生成网络监控列表pinglist,新增含有新的网络监测节点Pingmesh Agent所部署云端的地址信息,以及摘除已下线网络监测节点Pingmesh Agent所部署云端的地址信息;
Web服务模块,用于向***界面发送展示信息,以及用于监控报警***和时序列数据库Prometheus实时采集所述网络监测控制中心Pingmesh Controller接收到的各个云端上的网络监测节点Pingmesh Agent的ICMP探测数据。
本实施例的网络监测控制中心Pingmesh Controller还具有交互UI,用于集群管理人员进行ICMP探测的数据的分析,了解跨云网络的质量,及时发现网络问题。
本实施例的Prometheus是由SoundCloud开发的开源监控报警***和时序列数据库(TSDB)。Prometheus的特点:多维度数据模型;灵活的查询语言;不依赖分布式存储,单个服务器节点是自主的;通过基于HTTP的pull方式采集时序数据;可以通过中间网关进行时序列数据推送;通过服务发现或者静态配置来发现目标服务对象;支持多种多样的图表和界面展示,比如Grafana等。
作为本实施例的可选实施方式,各个云端的容器服务***为K8s集群,所述的网络监测节点Pingmesh Agent以Deployment的方式部署在各个云端的K8s集群内。
K8s全称kubernetes,Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署、规划、更新、维护的一种机制。Deployment是最常用的用于部署无状态服务的方式。Deployment控制器使得您能够以声明的方式更新Pod(容器组)和ReplicaSet(副本集)。以“声明”的方式管理Pod和ReplicaSet,其本质是将一些特定场景的一系列运维步骤固化下来,以便快速准确无误的执行。Deployment为我们确定了如下几种运维场景:
创建Deployment:创建Deployment后,Deployment控制器将立刻创建一个ReplicaSet副本集,并由ReplicaSet创建所需要的Pod。
更新Deployment:更新Deployment中Pod的定义(例如,发布新版本的容器镜像)。此时Deployment控制器将为该Deployment创建一个新的ReplicaSet副本集,并且逐步在新的副本集中创建Pod,在旧的副本集中删除Pod,以达到滚动更新的效果。
回滚Deployment:回滚到一个早期Deployment版本。
伸缩Deployment:水平扩展Deployment,以便支持更大的负载,或者水平收缩Deployment,以便节省服务器资源。
暂停和继续Deployment。
查看Deployment状态。
本实施例同时提供一种云原生的跨云网络监控装置,包括:
网络监测节点模块,分别被部署在各个云端的容器服务***中;
网络监测控制中心模块,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
各个云端上的网络监测节点模块由网络监测控制中心模块获取网络监控列表pinglist,针对网络监控列表pinglist中的地址并发进行ICMP探测,并将ICMP探测的数据上报至网络监测控制中心模块。
本实施例提出了一种以云原生方式运行的跨云网络监控装置,通过在各个云端分别部署网络监测节点模块针对网络监控列表pinglist中的地址并发进行ICMP探测,实现多云之间的网络质量的实时监控,再通过网络监测控制中心模块同步各个网络监测节点Pingmesh Agent的ICMP探测的数据,用于帮助集群管理人员更好的了解跨云网络的质量,大幅提高网络问题发现的效率。
因此,本实施例提出的一种云原生的跨云网络监控装置,解决了多云之间网络模型不统一,监控数据不能互通导致的跨云网络监控难题,弥补了云原生领域跨云网络监控的空白,具有较高的新颖性和实用价值。
本实施例的ICMP探测为利用ICMP协议进行网络质量探测的方式,ICMP(InternetControl Message Protocol)Internet控制报文协议,它是TCP/IP协议簇的一个子协议,用于在IP主机、路由器之间传递控制消息。ICMP协议属于网络层协议,主要用于在主机与路由器之间传递控制信息,包括报告错误、交换受限控制和状态信息等。
作为本实施例的可选实施方式,所述的网络监测节点模块通过Ping命令来进行ICMP探测,在网络中Ping命令是一个十分好用的TCP/IP工具,它主要的功能是用来检测网络的连通情况和分析网络速度。ping命令就是借助ICMP,发出要求回应的Echo(ping)request消息。若远端的网络功能没有问题,就会回应Echo(ping)reply信息,因而得知该运作正常。因此用户可以通过ping命令来判断目标是否启用以及网络是否正常。
一般来说,网络连通问题是由许多原因引起的,如本地配置错误、远程主机协议失效等,当然还包括设备等造成的故障。使用Ping命令测试网络连通的步骤:
1.使用ipconfig/all观察本地网络设置是否正确。
2.Ping回送地址是为了检查本地的TCP/IP协议有没有设置好。
3.Ping本机IP地址,这样是为了检查本机的IP地址是否设置有误。
4.Ping本网网关或本网IP地址,这样的是为了检查硬件设备是否有问题,也可以检查本机与本地网络连接是否正常。
5.Ping远程IP地址,这主要是检查本网或本机与外部的连接是否正常。
Ping命令后返回信息的分析:
1.Request timed out,至少有下几种情况。
(1)对方已关机,或者网络上根本没有这个地址。
(2)对方与自己不在同一网段内,通过路由也无法找到对方,但有时对方确实是存在的,当然不存在也是返回超时的信息。
(3)对方确实存在,但设置了ICMP数据包过滤(比如防火墙设置)。
(4)错误设置IP地址
2.Destination host Unreachable
(1)对方与自己不在同一网段内,而自己又未设置默认的路由。
(2)网线出了故障
这里要说明一下“destination host unreachable”和“time out”的区别,如果所经过的路由器的路由表中具有到达目标的路由,而目标因为其他原因不可到达,这时候会出现“time out”,如果路由表中连到达目标的路由都没有,那就会出现“destination hostunreachable”。
3.Bad IP address
这个信息表示您可能没有连接到DNS服务器,所以无法解析这个IP地址,也可能是IP地址不存在。
4.Source quench received
这个信息比较特殊,它出现的机率很少。它表示对方或中途的服务器繁忙无法回应。
5.Unknown host
这种出错信息的意思是,该远程主机的名字不能被域名服务器(DNS)转换成IP地址。故障原因可能是域名服务器有故障,或者其名字不正确,或者网络管理员的***与远程主机之间的通信线路有故障。
6.No answer
这种故障说明本地***有一条通向中心主机的路由,但却接收不到它发给该中心主机的任何信息。故障原因可能是下列之一:中心主机没有工作;本地或中心主机网络配置不正确;本地或中心的路由器没有工作;通信线路有故障;中心主机存在路由选择问题。
7.Ping 127.0.0.1:127.0.0.1是本地循环地址
如果本地址无法Ping通,则表明本地机TCP/IP协议不能正常工作。
8.no rout to host:网卡工作不正常。
9.transmit failed,error code:10043网卡驱动不正常。
10.unknown host name:DNS配置不正确。
作为本实施例的可选实施方式,本实施例所述的一种云原生的跨云网络监控装置,所述网络监测节点模块启动时会自动注册到网络监测控制中心模块,网络监测控制中心模块获取并维护包含有各个网络监测节点模块所部署云端的地址信息的网络监控列表pinglist。本实施例所有的网络监测节点模块启动时,都会将所部署的云端地址信息注册到网络监测控制中心模块,并由网络监测控制中心模块进行统一维护监控,实现对所有云端上的网络监测节点模块的启用状态进行同步和监控。
进一步地,本实施例的一种云原生的跨云网络监控装置,各个云端上的所述网络监测节点模块分别具有心跳模块,各个网络监测节点模块分别与网络监测控制中心模块之间通过心跳模块维持着心跳;
所述网络监测节点模块定时请求网络监测控制中心模块获取最新的网络监控列表pinglist版本号;
如果获取到的网络监控列表pinglist版本号大于网络监测节点模块本地的版本号,则网络监测节点模块获取网络监测控制中心模块的网络监控列表pinglist版本并更新至本地;
如果获取到的网络监控列表pinglist版本号不大于网络监测节点模块本地的版本号,则网络监测节点模块针对本地网络监控列表pinglist版本中的地址并发进行ICMP探测。
本实施例的网络监测控制中心模块针对各个云端的网络监测节点模块的网络监控列表pinglist进行维护,通过网络监测控制中心模块实现对任意云端的网络监测节点模块的网络监控列表pinglist的版本号进行升级,从而满足针对各个云端的网络监测要求,实现跨云的网络监测统一控制。
进一步地,本实施例的一种云原生的跨云网络监控装置,如果所述网络监测控制中心模块在预设时间段T内未收到所述网络监测节点模块的心跳请求,则判定相应的网络监测节点模块下线,所述网络监测控制中心模块将下线的网络监测节点模块进行摘除,并同步更新相应的pinglist。本实施例不仅针对启用状态的网络监测节点模块进行监控和数据同步,针对下线的网络监测节点模块及时做出摘除处理,防止下线的网络监测节点模块占用***资源,确保***资源运行的效率和稳定性。
本实施例所述网络监测节点模块的ICMP探测的数据包括云端服务器的平均响应延时,最大响应延时和丢包率。响应延时指的是用户从发出请求到接收完响应之间的总耗时,它由网络传输耗时、服务处理耗时等多个部分组成。通常以毫秒(ms)作为单位。平均响应延时指的是所有请求平均花费的时间,如果有100个请求,其中98个耗时为1ms,其他两个为100ms。那么平均响应时间为(98*1+2*100)/100.0=2.98ms。最大响应延时是所有请求中花费的最长时间。丢包率(Loss Tolerance或Packet Loss Rate)是指测试中所丢失数据包数量占所发送数据组的比率,计算方法是:“[(输入报文-输出报文)/输入报文]*100%”,丢包率与数据包长度以及包发送频率相关。
进一步地,本实施例的一种云原生的跨云网络监控装置还包括监控模块,监控模块定期采集所述网络监测控制中心模块接收到的各个云端上的网络监测节点模块的ICMP探测数据,用作后续的监控图表绘制和报警的数据源。
本实施例通过将上报的ICMP探测数据用作后续的监控图表绘制和报警的数据源,可以帮助集群管理人员更好的了解跨云网络的质量,大幅提高网络问题发现的效率。
作为本实施例的可选实施方式,本实施例的一种云原生的跨云网络监控装置,所述的网络监测控制中心模块包括:
数据库,存储包含各个网络监测节点模块所部署云端的地址信息的网络监控列表pinglist;
注册器,用于新的云端上部署网络监测节点模块时,在网络监测控制中心模块中进行注册;
网络监控列表生成器,在数据库中生成网络监控列表pinglist,新增含有新的网络监测节点模块所部署云端的地址信息,以及摘除已下线网络监测节点模块所部署云端的地址信息;
Web服务单元,用于向***界面发送展示信息,以及用于监控报警***和时序列数据库Prometheus实时采集所述网络监测控制中心模块接收到的各个云端上的网络监测节点模块的ICMP探测数据。
本实施例的网络监测控制中心模块还具有交互UI单元,用于集群管理人员进行ICMP探测的数据的分析,了解跨云网络的质量,及时发现网络问题。
本实施例的Prometheus是由SoundCloud开发的开源监控报警***和时序列数据库(TSDB)。Prometheus的特点:多维度数据模型;灵活的查询语言;不依赖分布式存储,单个服务器节点是自主的;通过基于HTTP的pull方式采集时序数据;可以通过中间网关进行时序列数据推送;通过服务发现或者静态配置来发现目标服务对象;支持多种多样的图表和界面展示,比如Grafana等。
作为本实施例的可选实施方式,各个云端的容器服务***为K8s集群,所述的网络监测节点模块以Deployment的方式部署在各个云端的K8s集群内。本实施例提供了一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现任意一项所述的一种云原生的跨云网络监控方法。
本实施例所述存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本实施例还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述一种云原生的跨云网络监控方法。
电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
应当理解,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的***,以及***中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种云原生的跨云网络监控方法,其特征在于,包括:
在各个云端的容器服务***中分别部署网络监测节点Pingmesh Agent;
各个云端上的网络监测节点Pingmesh Agent由网络监测控制中心PingmeshController获取网络监控列表pinglist,所述的网络监控列表pinglist包含各个网络监测节点Pingmesh Agent所部署云端的地址信息;
各个云端上的网络监测节点Pingmesh Agent针对网络监控列表pinglist中的地址并发进行ICMP探测;
各个云端上的网络监测节点Pingmesh Agent将ICMP探测的数据上报至网络监测控制中心Pingmesh Controller。
2.根据权利要求1所述的一种云原生的跨云网络监控方法,其特征在于,所述网络监测节点Pingmesh Agent启动时会自动注册到网络监测控制中心Pingmesh Controller,网络监测控制中心Pingmesh Control ler获取并维护包含有各个网络监测节点PingmeshAgent所部署云端的地址信息的网络监控列表pinglist。
3.根据权利要求2所述的一种云原生的跨云网络监控方法,其特征在于,各个云端上的所述网络监测节点Pingmesh Agent和网络监测控制中心Pingmesh Controller之间维持着心跳;
所述网络监测节点Pingmesh Agent定时请求网络监测控制中心Pingmesh Controller获取最新的网络监控列表pinglist版本号;
如果获取到的网络监控列表pinglist版本号大于网络监测节点Pingmesh Agent本地的版本号,则网络监测节点Pingmesh Agent获取网络监测控制中心Pingmesh Controller的网络监控列表pinglist版本并更新至本地;
如果获取到的网络监控列表pinglist版本号不大于网络监测节点Pingmesh Agent本地的版本号,则网络监测节点Pingmesh Agent针对本地网络监控列表pinglist版本中的地址并发进行ICMP探测。
4.根据权利要求3所述的一种云原生的跨云网络监控方法,其特征在于,如果所述网络监测控制中心Pingmesh Controller在预设时间段T内未收到所述网络监测节点PingmeshAgent的心跳请求,则判定相应的网络监测节点Pingmesh Agent下线,所述网络监测控制中心Pingmesh Control ler将下线的网络监测节点Pingmesh Agent进行摘除,并同步更新所述网络监控列表pinglist中的数据。
5.根据权利要求1所述的一种云原生的跨云网络监控方法,其特征在于,所述网络监测节点Pingmesh Agent的ICMP探测的数据包括云端服务器的平均响应延时,最大响应延时和丢包率。
6.根据权利要求1所述的一种云原生的跨云网络监控方法,其特征在于,定期采集所述网络监测控制中心Pingmesh Controller接收到的各个云端上的网络监测节点PingmeshAgent的ICMP探测数据,用作后续的监控图表绘制和报警的数据源。
7.根据权利要求6所述的一种云原生的跨云网络监控方法,其特征在于,所述的网络监测控制中心Pingmesh Controller包括:
数据库,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
注册器,用于云端上新部署网络监测节点Pingmesh Agent时,在网络监测控制中心Pingmesh Controller中进行注册;
网络监控列表生成器,在数据库中生成网络监控列表pinglist,新增含有新的网络监测节点Pingmesh Agent所部署云端的地址信息,以及摘除已下线网络监测节点PingmeshAgent所部署云端的地址信息;
Web服务模块,用于向***界面发送展示信息,以及用于监控报警***和时序列数据库Prometheus实时采集所述网络监测控制中心Pingmesh Control ler接收到的各个云端上的网络监测节点Pingmesh Agent的ICMP探测数据。
8.根据权利要求1所述的一种云原生的跨云网络监控方法,其特征在于,各个云端的容器服务***为K8s集群,所述的网络监测节点Pingmesh Agent以Deployment的方式部署在各个云端的K8s集群内。
9.一种云原生的跨云网络监控装置,其特征在于,包括:
网络监测节点模块,分别被部署在各个云端的容器服务***中;
网络监测控制中心模块,存储包含各个网络监测节点Pingmesh Agent所部署云端的地址信息的网络监控列表pinglist;
各个云端上的网络监测节点模块由网络监测控制中心模块获取网络监控列表pinglist,针对网络监控列表pinglist中的地址并发进行ICMP探测,并将ICMP探测的数据上报至网络监测控制中心模块。
10.一种存储介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求1-8任意一项所述的一种云原生的跨云网络监控方法。
CN202210071429.4A 2022-01-21 2022-01-21 一种云原生的跨云网络监控方法、装置及存储介质 Pending CN114553867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210071429.4A CN114553867A (zh) 2022-01-21 2022-01-21 一种云原生的跨云网络监控方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210071429.4A CN114553867A (zh) 2022-01-21 2022-01-21 一种云原生的跨云网络监控方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114553867A true CN114553867A (zh) 2022-05-27

Family

ID=81672117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210071429.4A Pending CN114553867A (zh) 2022-01-21 2022-01-21 一种云原生的跨云网络监控方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114553867A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883400A (zh) * 2022-11-10 2023-03-31 中国联合网络通信集团有限公司 一种网络监测方法、装置及存储介质
CN116781564A (zh) * 2023-07-26 2023-09-19 上海道客网络科技有限公司 一种容器云平台的网络检测方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516744A (zh) * 2013-09-27 2015-04-15 无锡华润微电子有限公司 软件更新方法及***
US20170250887A1 (en) * 2016-02-26 2017-08-31 Arista Networks, Inc. System and method of a cloud service provider tracer
CN110224883A (zh) * 2019-05-29 2019-09-10 中南大学 一种应用于电信承载网的灰色故障诊断方法
CN110784337A (zh) * 2019-09-26 2020-02-11 平安科技(深圳)有限公司 一种云服务质量监控方法及相关产品
CN111193727A (zh) * 2019-12-23 2020-05-22 成都烽创科技有限公司 运行监测***及运行监测方法
CN112527354A (zh) * 2020-12-11 2021-03-19 山东中创软件商用中间件股份有限公司 一种监控软件升级方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516744A (zh) * 2013-09-27 2015-04-15 无锡华润微电子有限公司 软件更新方法及***
US20170250887A1 (en) * 2016-02-26 2017-08-31 Arista Networks, Inc. System and method of a cloud service provider tracer
CN110224883A (zh) * 2019-05-29 2019-09-10 中南大学 一种应用于电信承载网的灰色故障诊断方法
CN110784337A (zh) * 2019-09-26 2020-02-11 平安科技(深圳)有限公司 一种云服务质量监控方法及相关产品
CN111193727A (zh) * 2019-12-23 2020-05-22 成都烽创科技有限公司 运行监测***及运行监测方法
CN112527354A (zh) * 2020-12-11 2021-03-19 山东中创软件商用中间件股份有限公司 一种监控软件升级方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUO, CX ET AL: "Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis", ACM SIGCOMM COMPUTER COMMUNICATION REVIEW, pages 139 - 152 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883400A (zh) * 2022-11-10 2023-03-31 中国联合网络通信集团有限公司 一种网络监测方法、装置及存储介质
CN115883400B (zh) * 2022-11-10 2024-06-11 中国联合网络通信集团有限公司 一种网络监测方法、装置及存储介质
CN116781564A (zh) * 2023-07-26 2023-09-19 上海道客网络科技有限公司 一种容器云平台的网络检测方法和***
CN116781564B (zh) * 2023-07-26 2024-02-13 上海道客网络科技有限公司 一种容器云平台的网络检测方法、***、介质和电子设备

Similar Documents

Publication Publication Date Title
CN106790595B (zh) 一种Docker容器主动负载均衡装置及方法
US10389596B2 (en) Discovering application topologies
US20210328856A1 (en) Scalability, fault tolerance and fault management for twamp with a large number of test sessions
CN108259215B (zh) 一种设备管理方法及装置
US20080016115A1 (en) Managing Networks Using Dependency Analysis
CN107947960A (zh) 配置信息的推送方法及***、配置信息的接收方法及***
CN114553867A (zh) 一种云原生的跨云网络监控方法、装置及存储介质
US11012306B2 (en) Autonomous datacenter management plane
CN110659109A (zh) 一种openstack集群虚拟机监控***及方法
CN111538763A (zh) 一种确定集群中主节点的方法、电子设备和存储介质
CN101621548A (zh) 基于对等连接***的终端资源共享的实现方法及***
US20160092537A1 (en) Polling based synchronization in managed networks
CN105591782A (zh) 测试设备的管理方法及装置
US7792045B1 (en) Method and apparatus for configuration and analysis of internal network routing protocols
JP5686027B2 (ja) 仮想マシン環境におけるネットワーク障害検知方法、装置、およびプログラム
CN112511595B (zh) 一种消息推送方法及消息服务***
EP1222724A1 (en) Identyfying a failed device in a network
CN103080913B (zh) 发现与通信网络连接的通信装置的方法及管理装置
JP2003006068A (ja) ネットワークデバイス管理装置、管理方法及び管理プログラム
CN112787868B (zh) 一种信息同步的方法和装置
CN112804313B (zh) 基于跨域边缘节点的数据同步方法、装置、设备及介质
EP1654653B1 (en) Active storage area network discovery system and method
CN112073322B (zh) 一种网络测试仪的发现方法和装置
JP2003015973A (ja) ネットワークデバイス管理装置、管理方法及び管理プログラム
CN109756543B (zh) 程序关联关系的解耦***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination