CN108683569B - 一种面向云服务基础设施的业务监测方法及*** - Google Patents

一种面向云服务基础设施的业务监测方法及*** Download PDF

Info

Publication number
CN108683569B
CN108683569B CN201810585690.XA CN201810585690A CN108683569B CN 108683569 B CN108683569 B CN 108683569B CN 201810585690 A CN201810585690 A CN 201810585690A CN 108683569 B CN108683569 B CN 108683569B
Authority
CN
China
Prior art keywords
log
dial testing
data
dial
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810585690.XA
Other languages
English (en)
Other versions
CN108683569A (zh
Inventor
严寒冰
李佳
马莉雅
李志辉
温森浩
姚力
朱芸茜
王小群
张腾
陈阳
李世淙
徐剑
王适文
饶毓
肖崇蕙
贾子骁
张帅
吕志泉
韩志辉
雷君
周彧
周昊
高川
楼书逸
文静
杜飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruichi Xinan Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Ruichi Xinan Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruichi Xinan Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Beijing Ruichi Xinan Technology Co ltd
Priority to CN201810585690.XA priority Critical patent/CN108683569B/zh
Publication of CN108683569A publication Critical patent/CN108683569A/zh
Application granted granted Critical
Publication of CN108683569B publication Critical patent/CN108683569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0273Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种面向云服务基础设施的业务监测方法及***,属于云服务的基础设施领域。包括控制中心服务器以及布置在各地区的拨测服务器。其中,在各拨测服务器上布置有云服务拨测模块,在控制中心服务器上布置有拨测任务下发模块、数据采集模块、拨测数据分析模块、拨测告警模块和数据库;通过在不同地区设置拨测服务器,在控制中心服务器的WEB界面配置监测任务、拨测任务下发模块将监测任务的配置文件下发到各拨测服务器验证任务的目的IP正确性,采用了大范围异步拨测的监测方法,针对路由器、提供服务的DNS递归服务器,实现了对云服务基础设施的监测,减少数据包的丢失,实现负载均衡,具有较高的鲁棒性和稳定性。

Description

一种面向云服务基础设施的业务监测方法及***
技术领域
本发明属于云服务的基础设施领域,涉及一种云服务基础设施网络通连性的测试验证的方法和***。
背景技术
随着云计算和移动互联网的高速发展,越来越多的企业业务在云端开展,云服务在我们的工作中不可或缺,而云服务中的基础设施更是重中之重,只有基础完善才能保证***的健壮性、数据的准确性。
云服务是计算机发展到互联网时代所产生的商业流通过程。云服务主要表现为计算机与网络、信息资源的存储、读取、下载、信息安全监控、分析等多个层面的服务。由于具有安全稳定、海量存储的特点,云服务开始为当前社会企业与个人所青睐。随之而来,如何保证云服务的稳定性也成为关注焦点,而如何在云服务的大环境下解决云服务连通性,验证云服务的安全稳定、数据的完整性是其中重要的一项。
云服务厂商在多个局点存在大范围的网络,并且在不同地区存在多台服务器,而网络状况不好、线路不佳会造成云服务的不稳定,从而造成数据的丢失,对用户、对企业来说是非常大的损失。
当前监测方法大多是黑盒测试,只能根据最终的结果知道有问题,但是并不能确定问题。不同的应用场景有不同的方法,当数据出现问题时,精准的定位到问题所在是高效解决云服务的故障的关键。因此可通过对路由器、DNS(域名***)服务器、业务模块进行拨测,从而对云服务厂商基础设施的网络通连性进行测试。
现有的采用组织特定TCP/IP协议(传输控制协议/因特网互联协议)的网络报文进行主动探测的方式来对不同业务***的运行状态进行监测的相关技术主要包括:
1)国家应用网络研究实验室(NLANER),关于分布式、关注于高性能连接的研究[参考文件1:Mcgregor T,Braun H W,Brown J.The NLANR Network AnalysisInfrastructure[J].Communications Magazine IEEE,2000,38(5):122-128],NLANER支持被动流量监测、主动测量及控制信息监控三种监控模式,其中AMP(Active MeasurementProgram)为主动测量项目,主要测量站点间的往返时间(RTT)、丢包率、拓扑结构、吞吐量等。在AMP中,监测器每分钟互相发送ICMP(Internet Control Message Protocol)报文,每十分钟traceroute到其他监测器的路由。吞吐量测试可以通过大量TCP数据传输、大量UDP(用户数据报协议)数据传输、ping-F和treno进行测量。
2)Ethernet OAM信息探测[参考文件2:张瀚之.以太网OAM中实现故障检测及故障隔离[C].中国科协年会信息化与社会发展学术讨论会分会场.2008],使用连续性检查消息(Continuity Check messages)作为心跳信号,以检测终端间的连通情况;使用链路跟踪消息(Link Trace messages)用于记录端到端之间的hop(跳)路径,与IP层的Traceroute工具相似;环回消息(Loopback messages)与ICMP的Ping功能相似,用于探测终端之间的连通性。
3)思科服务保证代理(Cisco Service Assurance Agent)/思科IOS IP服务水平协议(IOS IP Service Level Agreements),内置于Cisco IOS设备,允许主动探测及主动监控,可以配置大量选项,例如UDP/TCP端口号、ToS字段、VRF实例、源IP、目的IP和web URL等。该工具可以测量下述性能参数:单向延迟、往返延迟、延迟变化、丢包率、包次序、声音质量评分、网络资源可获得性、应用性能、服务器响应时间。
在以上的技术中,均无法满足云服务基础设施业务测试的要求。针对云服务网络大、范围广、局点多的特点,需要针对云服务厂商在多局点进行大范围拨测,针对不同协议(UDP、TCP、HTTP)、不同局点、不同运营商进行精准的异步测试,实现拨测***与数据分析***分离,针对异常可以精确的找到其问题的原因,帮助工作人员定位云服务***问题所在。
发明内容
针对上述需求,为了实现云服务环境下,面向云服务基础设施的业务监测,本发明提供了一种面向云服务基础设施的业务监测方法及***,以对路由器、DNS递归服务器的数据进行监测,并针对云服务范围广、局点多的特点,实现异步大范围分时拨测。
本发明提供了一种面向云服务基础设施的业务监测***,包括控制中心服务器以及布置在各地区的拨测服务器。其中,在各拨测服务器上布置有云服务拨测模块,在控制中心服务器上布置有拨测任务下发模块、数据采集模块、拨测数据分析模块、拨测告警模块和数据库。
用户通过拨测任务下发模块配置监测任务,并将配置文件下发给相应的拨测服务器;配置文件中记载用户配置的多个源IP、多目的IP、多种协议的监测任务。所述的拨测任务下发模块对配置文件中的目的IP进行验证,对验证不通过的任务不下发。
所述的云服务拨测模块接收到配置文件后,遍历配置文件中的任务,验证任务的目的IP的正确性,对验证通过的任务,配置符合规则的数据包,采用异步分时拨测方式进行数据拨测。所述的云服务拨测模块包括两种拨测数据:一种是对云服务内提供服务的DNS递归服务器发送制定格式域名的数据包;一种是根据获得的云服务流量经过的路由器列表及路由器的采样比设置拨测的数据包数量,对目的IP发送数据包。云服务拨测模块在向目的IP以及提供服务的DNS递归服务器发送数据包后,记录发包日志S-Log并发送给控制中心服务器的拨测数据分析模块。
所述的数据采集模块根据发包日志S-Log获取数据指纹信息,遍历局点数据库,在数据查询前先验证局点数据库的连接,如果连接失败或者查询超时,将问题记录到问题日志E-Log中,如果连接成功,则查询局点数据库的入库数据,当局点数据库遍历完成后,生成数据采集文件及数据采集文件日志R-Log。所述的数据指纹信息表示为一个六元组信息(源IP、目的IP、源端口、目的端口、协议号、规则ID)。
所述的拨测数据分析模块获取某个任务对应的数据采集文件的日志R-Log、问题日志E-Log以及发包日志S-Log,首先遍历问题日志E-Log,对有问题的局点数据库在数据库中进行标记,并记录相应的局点数据库问题;其次遍历发包日志S-Log,与日志R-Log进行比对,若拨测数据为向目的IP发送的流数据,根据数据指纹信息,计算所经过路由器的平均采样比,计算任务的入库率;若拨测数据是向DNS递归服务器发送的数据,根据数据指纹信息进行对比,计算任务的入库率。
所述的拨测告警模块针对路由器的流监测与针对提供服务的DNS递归服务器的监测,都预设有阈值,将拨测数据分析模块计算的任务的入库率与阈值比较,对入库率低于阈值的任务进行告警提示。
本发明提出的一种面向云服务基础设施的业务监测方法,分以下步骤:
步骤1:在不同地区设置拨测服务器,设置拨测服务器采用异步分时拨测方式;所述的异步分时拨测方式是指设置拨测数据发送不同步,每隔设定时间发送设定数量的数据包;
步骤2:用户在控制中心服务器的WEB界面配置监测任务,拨测任务下发模块验证任务的目的IP正确性,如果正确生成监测任务的配置文件;通过在IP库中查询IP的信息(国家、省、市、运营商)是否正确,来验证目的IP的正确性;
步骤3:拨测任务下发模块将监测任务的配置文件下发到各拨测服务器,拨测服务器对配置文件中的目的IP正确性进行验证,如果错误,对该目的IP不进行拨测,并将错误信息反馈给控制中心服务器;
步骤4:获得云服务流量经过的路由器列表以及路由器的采样比,根据路由器的采样比和设置的流日志被采样的概率条件,设置拨测服务器对目的IP的拨测数据包;拨测服务器在每次发送拨测数据包后生成发包日志S-Log发送给控制中心服务器。
设路由器的采样比为1/X,要求流日志被采样的概率大于G%,拨测数据包的数量为Y,则存在关系:发送数据包数量Y时,流日志被采样的概率为
Figure BDA0001686183370000041
步骤5:拨测服务器获得云服务内提供服务的DNS递归服务器列表,向递归DNS服务器发送指定格式域名的数据包,并且进行抓包,生成PCAP文件;
步骤6:拨测服务器发送PCAP文件到中间人机器,中间人机器进行数据包验证以保证安全性;拨测服务器通过中间人机器将数据包发送出去并生成发包日志S-Log发送给控制中心服务器;
步骤7:控制中心服务器验证局点数据库的连接状态,如果连接失败或者查询超时,将问题记录到问题日志E-Log中;
步骤8:控制中心服务器根据接收的发包日志获取数据包的指纹信息,从各局点数据库进行数据查询,生成数据采集文件;所述的指纹信息为(源IP、目的IP、源端口、目的端口、协议号、规则ID)。
步骤9:针对某个任务,控制中心服务器获取数据采集文件的日志R-Log和问题日志E-Log,查找对应发包日志S-Log;通过遍历问题日志E-Log,对问题局点数据库在控制中心的数据库中进行标记,并标记所存在的问题;
步骤10:控制中心服务器遍历发包日志S-Log,对正常的局点数据库,将发包日志S-Log与日志R-Log进行比对,若拨测数据为向目的IP发送的流数据,根据数据指纹信息,计算所经过路由器的平均采样比,计算任务的入库率,若拨测数据是向DNS递归服务器发送的数据,根据数据指纹信息进行对比,计算任务的入库率;
步骤11:将计算的入库率与预设的对应的入库率阈值比较,如果小于阈值则在WEB界面进行提示。
本发明方法与***与传统的业务监测技术相比,具有如下优点和积极效果:
(1)本发明的方法和***提供了一种针对路由器、DNS递归服务器的数据监测方案,能够利用路由器采样的特性、递归服务器提供域名解析的功能进行针对特定数据的识别、比对和分析,采用黑盒测试的方法,在不影响现有业务***的前提下对业务***进行故障测试。本发明的方法和***中,通过针对路由器的流监测,计算入库率可确定云服务链路的问题,经过中间机器人转发的DNS数据的监测分析,进行身份验证,提供了安全的DNS监测,验证了DNS服务器的解析功能。
(2)本发明的方法和***采用异步的大范围分时监测,针对云服务范围广、局点多的特点,进行异步的大范围分时拨测,并将拨测与监测分析平台分离,降低了服务器的压力,减少了数据包的丢失,很大程度上提高了流数据采集率,实现负载均衡,对被测***的影响较小,具有较高的鲁棒性和稳定性,提高了业务监测***的健壮性和有效性。
(3)本发明的***采用分布式的方式部署,云服务拨测模块和拨测数据分析模块相分离,可以对不同局点、不同运营商的业务局点进行精准的异步测试。本发明将负载均衡技术引入本方法,实现了对数据的并行处理,实现拨测模块与统计模块分离的异步监测,统计数据不受拨测模块影响,增强了***的可用性、提高了***的性能和扩展性。
附图说明
图1为本发明的面向云服务基础设施的业务监测***的整体结构图;
图2为本发明***中云服务拨测模块的功能实现流程图;
图3为本发明***中数据采集模块的功能实现流程图;
图4为本发明***中拨测数据分析模块的功能实现流程图。
具体实施方式
下面结合附图和实施例来说明本发明的技术方案。
本发明提供的面向云服务基础设施的业务监测方法和***,采用了大范围异步拨测的监测方法,针对路由器、提供服务的DNS递归服务器,实现了对云服务基础设施的监测,具有实施监测,实时提示的功能,精确到基础设施,为云服务排查错误提供了有效支持。
如图1所示,本发明公开了一种面向云服务基础设施的业务监测***,包括布置在各地区的拨测服务器以及控制中心服务器,其中,在各拨测服务器上布置有云服务拨测模块,在控制中心服务器上布置有拨测任务下发模块、数据采集模块、拨测数据分析模块、拨测告警模块和数据库。
控制中心服务器是一个服务集群,上述布置在控制中心服务器的模块可用单独的服务器来实现。或者限于资源,将其中若干模块集成在一台服务器上实现。
用户通过拨测任务下发模块配置检测任务,并将配置文件下发给相应的拨测服务器。拨测任务下发模块中,用户通过WEB界面配置下发任务,配置多个源IP(不同省份)、多局点的目的IP、多种协议(TCP、UDP、HTTP)的拨测任务,将不同的任务下发到相应拨测服务器,以供拨测服务器进行拨测。拨测任务下发模块提供IP验证功能,对目的IP进行验证,对不符合的IP任务不给予下发。
云服务拨测模块接收到拨测任务下发模块下发的配置文件后,对目的IP信息验证后进行拨测,进行分时、间隔性拨测,以保证拨测的稳定性,通过向相应的目的IP以及提供服务的递归服务器发送大量数据包,记录发包日志,并且将发包日志进行压缩发送,发送到拨测数据分析服务器。如图2所示,云服务拨测模块读取配置文件,遍历配置文件中的任务,对每个任务的目的IP地址的正确性进行验证,验证通过时,配置任务相应的规则,给目的IP发送数据包,并将发包记录添加到发包日志S-Log中,当配置文件中的所有任务结束后,将发包日志S-Log返回给控制中心服务器。
拨测任务下发模块和云服务拨测模块对目的IP地址的正确性验证,都是通过IP库查询目的IP的信息(国家、省、市、运营商)是否正确,若正确则验证通过,否则验证不通过。
云服务拨测模块采用异步分时拨测方式,并根据获得的云服务流量经过的路由器列表及路由器的采样比设置拨测的数据包数量。对云服务内提供服务的DNS递归服务器发送制定格式域名的数据包。云服务拨测模块分时、间隔发送的数据包根据各地不同的网络环境可以进行灵活的配置,以避免对目标服务器正常业务的影响和对本地网络带宽的消耗。
数据采集模块根据发包日志S-Log获取数据指纹信息,如图3所示,遍历局点数据库,在数据查询前先验证局点数据库的连接,如果连接失败或者查询超时,将问题记录到问题日志E-Log中,如果连接成功,则查询局点数据库的入库数据,当局点数据库遍历完成,完成查询任务时,生成数据采集文件,该文件的后缀名为.ok,并生成数据采集文件的日志R-Log。所述的数据指纹信息表示为一个六元组信息(源IP、目的IP、源端口、目的端口、协议号、规则ID)。数据指纹信息也叫染色信息,可以唯一标识一条拨测的数据报文,染色的方法和标记是由测试***的组件信息构成的,具有很大的灵活性和可操作性。
拨测数据分析模块获取某个任务对应的数据采集文件的日志R-Log、问题日志E-Log以及发包日志S-Log,如图4所示,首先根据问题日志E-Log对有问题的局点数据库进行标记,然后对每个任务,遍历其发包日志S-Log,将日志R-Log与S-Log进行比对。遇到问题局点数据库时,在控制中心服务器的数据库中进行标记并记录相应的局点数据库问题。对正常的局点数据库,如果拨测数据为向目的IP发送的流数据,根据数据指纹信息,计算所经过路由器的平均采样比,计算每个任务的入库率;如果拨测数据是向DNS递归服务器发送的数据,根据数据指纹信息进行对比,计算每个任务的入库率。拨测数据分析模块还统计分析出各个时间段内的入库率变化,提供趋势变化。在图4中,若对某个任务的发包日志遍历结束后,将参与分析的数据采集文件日志R-Log、问题日志E-Log和发包日志S-Log从当前的分析目录移动到备份目录下。
拨测告警模块针对路由器的流监测与针对提供服务的DNS递归服务器的监测,都预先设置有阈值,将拨测数据分析模块计算的任务的入库率与对应的阈值进行比较,针对入库率低于阈值的任务进行告警提示。
数据库为控制中心服务器的本地数据库,其中存储采集到的流日志信息,流日志信息中除了所包含的指纹信息(源IP、目的IP、源端口、目的端口、协议号、规则ID)外,还包含一部分数据包中的内容。
本发明提供的面向云服务基础设施的业务监测方法,包括如下步骤1~11。
步骤1:采用异步的大范围分时拨测技术,实现异步的测试模式,将拨测与监测分析进行分离,并进行分时拨测,减小目的IP服务器的压力,减少数据包的丢失。
在该步骤中,提供多台拨测服务器,对于P个不同省份,每个省份都有拨测服务器,实现负载均衡功能,以保证算法的鲁棒性和收敛性。P为大于2的整数。
每台拨测服务器采用异步分时拨测方式,即拨测数据发送不同步,对每K个数据包,设置拨测间隔t,可以很大程度上提高入库率。K为正整数。进行分时拨测,减小目的IP服务器的压力,减少数据包的丢失。本发明实施例中每1000个数据包,设置拨测间隔1s,可以很大程度上提高入库率。
本发明方法中的异步模式还体现在,因拨测数据入库存在延迟(10min-30min),将云服务拨测与拨测数据分析进行分离,即拨测数据分析不与拨测服务器位于同一平台上,二者互不影响。
步骤2:用户通过控制中心服务器的WEB界面下发监测任务,拨测任务下发模块验证监测任务的目的IP的正确性,通过IP库查询IP的信息(国家、省、市、运营商)是否正确,不正确进行提示,如果都正确生成监测任务配置文件,进入步骤3。
步骤3:拨测任务下发模块将监测任务的配置文件下发到拨测服务器,拨测服务器同样验证配置文件中目的IP的正确性,通过IP库查询IP的信息(国家、省、市、运营商)是否正确,如果错误,对该目的IP不进行拨测,并反馈错误提示给控制中心服务器。
步骤4:设置各拨测服务器向目的IP发送的数据包数量,数据包组成的流记录会被途径目标IP地址的路由器采样捕获到。获得云服务流量经过的路由器列表,并获得其路由器的采样比。设路由器存在采样比1/X,路由器的日志同样是采样数据。针对路由器的流测试,由于路由器产生的流日志是采样的,需要保证报文产生的流日志能够在采样下被捕获。
设路由器的采样比为1/X,要求流日志被采样的概率大于G%,拨测数据包的数量为Y,即发送的流数量为Y。X、Y均为正整数,G为小于100的正数。
Y=1时,流日志被采集到的概率为
Figure BDA0001686183370000071
此时若X=1000,则捕获概率为1/1000。
Y>1时,流日志被采样的概率为
Figure BDA0001686183370000072
则此时,在采样比1:1000下,流日志被采样的概率大于99.99%,Y需取值10000,该概率为99.995483%;
在采样比1:2000下,Y需要取值20000,流日志被采样的概率为99.995471%;
在采样比1:5000下,Y需要取值50000,流日志被采样的概率为99.995465%。
另外鉴于路由器进行流日志输出,需要考虑发送间隔t,保证接包的稳定性。针对云服务进行大范围拨测,每个目的IP拨测50000个数据包。拨测服务器在每次发送拨测数据包后生成发包日志S-Log发送给控制中心服务器。
步骤5:拨测服务器获得云服务内提供服务的DNS递归服务器列表,向递归DNS服务器发送指定格式域名的数据包,并且进行抓包,获得PCAP文件。
PCAP文件格式是常用的数据包存储格式,包括wireshark在内的主流抓包软件都可以生成这种格式的数据包。
步骤6:拨测服务器发送PCAP文件到中间人机器,中间人机器进行数据包验证以保证安全性。中间人机器验证数据包的源IP是否为控制中心的白名单列表中的IP,域名是否为规则域名,如果不是白名单中的IP或者域名不是规则域名,解析PCAP文件,重组数据包,伪造源IP为白名单列表中的IP,伪造特定规格域名等。中间人机器将验证通过的数据包及重组的数据包发送出去。拨测服务器在每次通过中间机器人发送拨测数据包后生成发包日志S-Log发送给控制中心服务器。
步骤7:验证局点数据库的连接状态。因数据存储在多地相应的局点数据库中,因此增加数据库验证功能。控制中心服务器验证数据库的连接状态,如果连接失败或者查询超时,将问题进行记录到问题日志E-Log中。
步骤8:控制中心根据拨测服务器发来的发包日志获取数据的指纹信息,获得指纹六元组信息(源IP、目的IP、源端口、目的端口、协议号、规则ID),然后根据指纹信息进行多局点的数据查询,生成数据采集.ok文件;
步骤9:控制中心服务器获取任务的数据采集文件的日志R-Log,查找对应发包日志S-Log,遍历问题日志E-Log,确定有问题的局点数据库以及存在的问题,并在控制中心的数据库中进行标记;
步骤10:遍历发包日志S-Log,对正常的局点数据库则通过指纹信息与数据采集日志R-Log进行比对。如果拨测数据为流数据,通过流经过的路由器计算平均采样比,最终分析出入库数量,计算出任务的入库率;如果为DNS数据则直接根据指纹进行数据比对,计算任务的入库率;
步骤11:根据预设的阈值,将计算的入库率与阈值进行比对,如果小于阈值则在WEB界面提示,并给出相应的问题提示。在本发明实施例中,该步骤中设置入库率阈值都为65%。
相比于现有技术,本发明方法通过针对路由器的流监测,计算入库率,确定了云服务链路的问题;经过中间人转发的DNS数据监测分析方法,进行身份验证,提供了安全的DNS监测,验证DNS服务器的解析功能。本发明提供的一种异步的大范围分时监测的方法,分时拨测,减少数据包的丢失,实现负载均衡,对被测***的影响较小,具有较高的鲁棒性和稳定性。

Claims (5)

1.一种面向云服务基础设施的业务监测***,其特征在于,包括控制中心服务器以及布置在各地区的拨测服务器;其中,在各拨测服务器上布置有云服务拨测模块,在控制中心服务器上布置有拨测任务下发模块、数据采集模块、拨测数据分析模块、拨测告警模块和数据库;
用户通过拨测任务下发模块配置监测任务,并将配置文件下发给相应的拨测服务器;配置文件中记载用户配置的多个源IP、多目的IP、多种协议的监测任务;所述的拨测任务下发模块对配置文件中的目的IP进行验证,对验证不通过的任务不下发;
所述的云服务拨测模块接收到配置文件后,遍历配置文件中的任务,验证任务的目的IP的正确性,对验证通过的任务,配置符合规则的数据包,采用异步分时拨测方式进行数据拨测;所述的云服务拨测模块包括两种拨测数据:一种是对云服务内提供服务的DNS递归服务器发送制定格式域名的数据包;一种是根据获得的云服务流量经过的路由器列表及路由器的采样比设置拨测的数据包数量,对目的IP发送数据包;云服务拨测模块在向目的IP以及提供服务的DNS递归服务器发送数据包后,记录发包日志S-Log并发送给控制中心服务器的拨测数据分析模块;
所述的数据采集模块根据发包日志S-Log获取数据指纹信息,遍历局点数据库,在数据查询前先验证局点数据库的连接,如果连接失败或者查询超时,将问题记录到问题日志E-Log中,如果连接成功,则查询局点数据库的入库数据,当局点数据库遍历完成后,生成数据采集文件及数据采集文件日志R-Log;
所述的拨测数据分析模块获取某个任务对应的数据采集文件的日志R-Log、问题日志E-Log以及发包日志S-Log,首先遍历问题日志E-Log,对有问题的局点数据库在数据库中进行标记,并记录相应的局点数据库问题;其次遍历发包日志S-Log,与日志R-Log进行比对,若拨测数据为向目的IP发送的流数据,根据数据指纹信息,计算所经过路由器的平均采样比,计算任务的入库率;若拨测数据是向DNS递归服务器发送的数据,根据数据指纹信息进行对比,计算任务的入库率;
所述的拨测告警模块针对路由器的流监测与针对提供服务的DNS递归服务器的监测,都预设有阈值,将拨测数据分析模块计算的任务的入库率与阈值比较,对入库率低于阈值的任务进行告警提示。
2.根据权利要求1所述的一种面向云服务基础设施的业务监测***,其特征在于,所述的控制中心服务器是一个服务集群,所述布置在控制中心服务器的各模块用单独的服务器来实现。
3.根据权利要求1所述的一种面向云服务基础设施的业务监测***,其特征在于,所述的拨测任务下发模块对监测任务的目的IP,通过IP库查询IP的信息是否正确,若正确则验证通过。
4.根据权利要求1所述的一种面向云服务基础设施的业务监测***,其特征在于,所述的数据指纹信息表示为一个六元组信息:源IP、目的IP、源端口、目的端口、协议号、规则ID。
5.一种面向云服务基础设施的业务监测方法,其特征在于,包括如下步骤:
步骤1:在不同地区设置拨测服务器,设置拨测服务器采用异步分时拨测方式;所述的异步分时拨测方式是指设置拨测数据发送不同步,每隔设定时间发送设定数量的数据包;
步骤2:用户在控制中心服务器的WEB界面配置监测任务,拨测任务下发模块验证任务的目的IP正确性,如果正确生成监测任务的配置文件;
步骤3:拨测任务下发模块将监测任务的配置文件下发到各拨测服务器,拨测服务器对配置文件中的目的IP正确性进行验证,如果错误,对该目的IP不进行拨测,并反馈给控制中心服务器;
步骤4:获得云服务流量经过的路由器列表以及路由器的采样比,根据路由器的采样比和设置的流日志被采样的概率条件,设置拨测服务器对目的IP的拨测数据包;拨测服务器在每次发送拨测数据包后生成发包日志S-Log发送给控制中心服务器;
设路由器的采样比为1/X,要求流日志被采样的概率大于G%,拨测数据包的数量为Y,则存在关系:发送数据包数量Y时,流日志被采样的概率为
Figure FDA0002401756090000021
步骤5:拨测服务器获得云服务内提供服务的DNS递归服务器列表,向递归DNS服务器发送指定格式域名的数据包,并且进行抓包,生成PCAP文件;
步骤6:拨测服务器发送PCAP文件到中间人机器,中间人机器进行数据包验证以保证安全性;拨测服务器通过中间人机器将数据包发送出去并生成发包日志S-Log发送给控制中心服务器;
步骤7:控制中心服务器验证局点数据库的连接状态,如果连接失败或者查询超时,将问题记录到问题日志E-Log中;
步骤8:控制中心服务器从拨测服务器发来的发包日志中获取指纹信息,根据指纹信息进行多局点的数据查询,生成数据采集文件;所述的指纹信息为:源IP、目的IP、源端口、目的端口、协议号、规则ID;
步骤9:对某个任务,控制中心服务器获取数据采集文件的日志R-Log和问题日志E-Log,查找对应发包日志S-Log;通过遍历问题日志E-Log,对问题局点数据库在控制中心的数据库中进行标记,并标记所存在的问题;
步骤10:控制中心服务器遍历发包日志S-Log,对正常的局点数据库,将发包日志S-Log与日志R-Log进行比对,若拨测数据为向目的IP发送的流数据,根据数据指纹信息,计算所经过路由器的平均采样比,计算任务的入库率,若拨测数据是向DNS递归服务器发送的数据,根据数据指纹信息进行对比,计算任务的入库率;
步骤11:将计算的入库率与预设的对应的入库率阈值比较,如果小于阈值则在WEB界面进行提示。
CN201810585690.XA 2018-06-06 2018-06-06 一种面向云服务基础设施的业务监测方法及*** Active CN108683569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585690.XA CN108683569B (zh) 2018-06-06 2018-06-06 一种面向云服务基础设施的业务监测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585690.XA CN108683569B (zh) 2018-06-06 2018-06-06 一种面向云服务基础设施的业务监测方法及***

Publications (2)

Publication Number Publication Date
CN108683569A CN108683569A (zh) 2018-10-19
CN108683569B true CN108683569B (zh) 2020-06-09

Family

ID=63810284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585690.XA Active CN108683569B (zh) 2018-06-06 2018-06-06 一种面向云服务基础设施的业务监测方法及***

Country Status (1)

Country Link
CN (1) CN108683569B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109921925B (zh) * 2019-02-15 2022-04-22 北京奇艺世纪科技有限公司 一种拨测方法及装置
CN112463572B (zh) * 2019-09-06 2023-09-15 福建天泉教育科技有限公司 一种跨境多服务拨测的软件测试***及其方法
CN110519303B (zh) * 2019-09-30 2022-02-18 北京市天元网络技术股份有限公司 跨隔离设备的通信方法和***
CN112100133A (zh) * 2020-11-04 2020-12-18 广州市玄武无线科技股份有限公司 一种分布式的日志处理***
CN112866053A (zh) * 2020-12-31 2021-05-28 天翼物联科技有限公司 一种物联网测试方法、***、装置及存储介质
CN113572644B (zh) * 2021-07-26 2024-01-23 武汉众邦银行股份有限公司 一种互联网云拨测自动化监控方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727389B (zh) * 2009-11-23 2012-11-14 中兴通讯股份有限公司 一种分布式综合业务自动化测试***及方法
CN201601833U (zh) * 2009-12-28 2010-10-06 福建邮科通信技术有限公司 无线网络自动拨测***
CN102546269B (zh) * 2010-12-07 2015-08-19 ***通信集团广东有限公司 一种快速监控ip网络的方法和***
KR101847199B1 (ko) * 2012-09-25 2018-05-28 에스케이텔레콤 주식회사 데이터 서비스 품질 분석 장치 및 방법
CN104753735B (zh) * 2013-12-31 2018-09-07 ***通信集团上海有限公司 一种拨测***及方法

Also Published As

Publication number Publication date
CN108683569A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN108683569B (zh) 一种面向云服务基础设施的业务监测方法及***
Sherwood et al. Discarte: a disjunctive internet cartographer
US7076547B1 (en) System and method for network performance and server application performance monitoring and for deriving exhaustive performance metrics
US8443074B2 (en) Constructing an inference graph for a network
US9210050B2 (en) System and method for a testing vector and associated performance map
US7804787B2 (en) Methods and apparatus for analyzing and management of application traffic on networks
US8135828B2 (en) Cooperative diagnosis of web transaction failures
CN109617743B (zh) 网络性能监测与业务测试***及测试方法
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
US20030005145A1 (en) Network service assurance with comparison of flow activity captured outside of a service network with flow activity captured in or at an interface of a service network
Azzouni et al. Fingerprinting OpenFlow controllers: The first step to attack an SDN control plane
CN109995582B (zh) 基于实时状态的资产设备管理***及方法
US20140280904A1 (en) Session initiation protocol testing control
CN111934936B (zh) 网络状态检测方法、装置、电子设备及存储介质
CN114389792B (zh) 一种web日志nat前后关联方法及***
CN114157554A (zh) 故障排查方法、装置、存储介质及计算机设备
CN111327539A (zh) 一种业务调度的方法、装置及设备
WO2012002849A1 (en) Apparatus and method for monitoring of connectivity services
CN112532614A (zh) 一种用于电网终端的安全监测方法和***
Lin et al. Low-storage capture and loss recovery selective replay of real flows
Mahmood et al. Network traffic analysis and SCADA security
Aceto et al. Open source platforms for Internet Monitoring and Measurement
Polverini et al. Investigating on black holes in segment routing networks: Identification and detection
Marchetta et al. Measuring networks using IP options
Viipuri Traffic analysis and modeling of IP core networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant