CN112463422A - 物联网故障运维方法、装置、计算机设备及存储介质 - Google Patents

物联网故障运维方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112463422A
CN112463422A CN202011219233.2A CN202011219233A CN112463422A CN 112463422 A CN112463422 A CN 112463422A CN 202011219233 A CN202011219233 A CN 202011219233A CN 112463422 A CN112463422 A CN 112463422A
Authority
CN
China
Prior art keywords
fault
maintenance
state value
data
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011219233.2A
Other languages
English (en)
Inventor
董学帅
陈旃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cormorant Technology Suzhou Co ltd
Original Assignee
Cormorant Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cormorant Technology Suzhou Co ltd filed Critical Cormorant Technology Suzhou Co ltd
Priority to CN202011219233.2A priority Critical patent/CN112463422A/zh
Publication of CN112463422A publication Critical patent/CN112463422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/20Analytics; Diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种物联网故障运维方法、装置、计算机设备及存储介质,涉及物联网网络技术领域,所述方法包括获取故障数据,将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型,根据预设的故障运维策略,触发故障类型对应的运维措施,从而减少了人工运维的工作量,提高了运维效率。

Description

物联网故障运维方法、装置、计算机设备及存储介质
技术领域
本申请涉及物联网网络技术领域,尤其涉及物联网故障运维方法、装置、计算机设备及存储介质。
背景技术
在传统物联网网络中,现有的运维管理平台及方法,关注的是基础设施(计算、存储、网络),依赖于人员的经验,是人工运维的方法。其中需要运维人员在设备/***发生或出现故障后进行检修,对故障原因判断、故障原因测试、维修方法等维修过程数据没有进行登记汇总,无法形成有效的维修故障数据池和知识库,在下次发生同样故障时,所有的维修方法和维修过程均又重复操作,无法对历次的故障维修方法进行知识共享。可见,当前的运维工作量大,效率低的问题。
发明内容
本申请实施例的目的在于提出一种物联网故障运维方法,以解决物联网网络中的网络故障运维效率低的问题。
为了解决上述技术问题,本申请实施例提供一种物联网故障运维方法,包括如下步骤:
获取故障数据;
将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型;
根据预设的故障运维策略,触发故障类型对应的运维措施。
进一步地,获取故障数据包括:
实时获取应用节点的运行数据,其中,应用节点包括虚拟服务器和真实服务器,运行数据包括状态值;
根据预设的正常状态参考表,从状态值中确定出异常状态值;
将异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
进一步地,当故障诊断模型为深度神经网络模型时,将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型包括:
通过深度神经网络模型对异常状态值进行检测;
若检测到异常状态值所对应的已知故障类型,则输出该故障类型;
若检测不到异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将异常变量值存储到运维数据库中。
进一步地,深度神经网络模型的训练方式包括:
对异常变量值进行标记;
将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果;
若输出结果的匹配概率小于预设的匹配阈值,则对深度神经网络模型进行参数调节,直至输出结果的匹配概率达到匹配阈值时,停止训练。
进一步地,将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果包括:
根据所述异常变量值和所述深度神经网络模型中预先设置的每个故障类型,计算所述每个故障类型的故障权重值;
将所述故障权重值大于预设权重阈值的故障类型作为输出结果。
为了解决上述技术问题,本申请实施例还提供一种物联网故障运维装置,物联网故障运维装置包括:
获取模块,用于获取故障数据;
诊断模块,用于将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型;
运维模块,用于根据预设的故障运维策略,触发故障类型对应的运维措施。
进一步地,获取模块包括:
获取单元,用于实时获取应用节点的运行数据,其中,应用节点包括虚拟服务器和真实服务器,运行数据包括状态值;
确定单元,用于根据预设的正常状态参考表,从状态值中确定出异常状态值;
存储单元,用于将异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
进一步地,当故障诊断模型为深度神经网络模型时,诊断模块包括:
检测单元,用于通过深度神经网络模型对异常状态值进行检测;
输出单元,用于若检测到异常状态值所对应的已知故障类型,则输出该故障类型;
异常单元,用于若检测不到异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将异常变量值存储到运维数据库中。
进一步地,物联网故障运维装置还包括;
标记模块,用于对异常变量值进行标记;
训练模块,用于将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果;
调节模块,用于若输出结果的匹配概率小于预设的匹配阈值,则对深度神经网络模型进行参数调节,直至输出结果的匹配概率达到匹配阈值时,停止训练。
进一步地,训练模块包括:
计算单元,用于根据所述异常变量值和所述深度神经网络模型中预先设置的每个故障类型,计算所述每个故障类型的故障权重值;
结果单元,用于将所述故障权重值大于预设权重阈值的故障类型作为输出结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述物联网故障运维方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的物联网故障运维方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
通过获取故障数据,将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型,根据预设的故障运维策略,触发故障类型对应的运维措施,从而减少了人工运维的工作量,提高了运维效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是本申请提供的物联网故障运维方法的一个实施例的结构示意图;
图3是本申请提供的物联网故障运维的方法的一个实施例的流程图
图4是本申请提供的物联网故障运维装置的一个实施例的结构示意图;
图5是本申请提供的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E物联网故障运维perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture E物联网故障运维perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的物联网故障运维方法一般由服务器/终 设备执行,相应地,物联网故障运维装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2为本申请提供的物联网故障运维方法的一个实施例的结构示意图。以物联网网络作为本实施例的应用场景,执行物联网故障运维方法的主体为物联网应用交付器,物联网应用交付器包括有物联网网络数据解析模块、机器学习模块和人工智能控制模块,经过物联网网络数据解析模块对其运行数据进行解析,使其转换成符合要求的数据格式,并从运行数据中筛选出故障数据,将故障数据输入到机器学习模块中的已训练好的故障诊断模型,以获取该故障数据的故障类型,从人工智能控制模块中的故障运维策略中触发该故障类型对应的运维措施,以实现网络运维智能化。
进一步地,本申请的物联网网络为七层网络,七层网络是指OSI(Open SystemInterconnection,七层模型),其中,OSI通过七个层次化的结构模型使不同的***不同的网络之间实现可靠的通讯,OSI包括应用层、表示层、会话层、传输层、网络层、数据链路层、物理层。
继续参考图3,示出了本申请的物联网故障运维的方法的一个实施例的流程图。所述的物联网故障运维方法,包括以下步骤:
S301:获取故障数据。
在本申请实施例中,通过实时采集每个应用交付节点的运行数据、虚拟服务器的运行数据以及每个真实服务器的运行数据,其中运行数据为性能数据,性能数据包括状态值,例如CPU使用率、内存使用率、连接数量、宽带数量。
进一步地,获取故障数据的具体过程包括:
实时获取应用节点的运行数据,其中,应用节点包括虚拟服务器和真实服务器,运行数据包括状态值;
根据预设的正常状态参考表,从状态值中确定出异常状态值;
将异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
具体地,当应用节点为虚拟服务器时,对每个虚拟服务器进行实时采集,采集的运行数据包括:当前活动连接数量、当前活动数据包数量、当前活动带宽数量、虚拟服务器对客户端请求的第一个数据包的最大/平均/最小响应时间、虚拟服务器对客户端请求处理之后返回所有数据包的最大/平均/最小响应时间、当前RTT(RoundTripTime,往返时延)最大/平均/最小、WAF(webapplicationfirewalls)入侵数量、WAF处理数量,其中,RTT由链路的传播时间(propagationdelay)、末端***的处理时间和路由器的缓存中的排队和处理时间。
具体地,当应用节点为对真实服务器时,采集当前活动连接数量、当前活动带宽数量、真实服务器对客户端请求的第一个数据包的最大/平均/最小响应时间、真实服务器对客户端请求处理之后返回所有数据包的最大/平均/最小响应时间、当前RTT最大/平均/最小以及当前会话保持的连接数量。
具体地,当应用节点为应用交付节点时,实时采集CPU使用率、内存使用率、总连接数量、总数据包数量、总带宽、UP/DOWN/DISABLED等虚拟服务器实时状态、UP/DOWN/DISABLED等虚拟服务子节点实时状态、UP/DOWN/DISABLED等真实服务器实时状态、当前活动连接数量、当前活动数据包数量以及当前活动带宽数量。
预设的正常状态参考表为不同应用节点在正常运行时的运行数据,即正常状态参考表记录了不同应用节点的正常状态值范围。根据应用节点的正常状态值范围比对当前采集到的应用节点的状态值,当状态值不在正常状态值范围时,将该状态值标记为异常状态值,例如标记方式可以为携带预设字段的标签或在该状态值所在的字段进行颜色标记等,实现精准定位故障来源。
进一步地,将异常状态值以及产生该异常状态值的应用节点作为故障数据存储在运维数据库中,使得后续采用故障诊断模型能更精准识别对应的故障类型,同时也为训练故障诊断模型提供了数据基础。
S302:将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型。
其中,已训练好的故障诊断模型包括每个故障类型具备的异常状态值和对应的应用节点等感兴趣信息,以及每个故障类型的感兴趣信息分别对应的权重值,不同故障类型的同一感兴趣信息对应的权重值可以相同或者不同。
进一步地,确定故障数据对应的故障类型具体包括:
通过深度神经网络模型对异常状态值进行检测;
若检测到异常状态值所对应的已知故障类型,则输出该故障类型;
若检测不到异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将异常变量值存储到运维数据库中。
在本申请实施例中,利用深度神经网络模型对异常状态值进行检测,包括检测异常状态值匹配到对应的故障类型具备的感兴趣信息,例如异常状态值为虚拟服务器的活动数据包数量为m、虚拟服务器对客户端请求的第一个数据包的响应时间为n,故障类型A的感兴趣信息包括m和n、故障类型B的感兴趣信息包括m、n和x’,则此时检测到该异常状态值初次对应的故障类型有故障类型A和故障类型B,并进一步根据故障类型A和故障类型B中的权重计算m和n,计算异常状态值分别在故障类型A的故障权重值A'和故障类型B的故障权重值B',并分别比较故障权重值A'和故障权重值B'是否大于预设的权重阈值,若大于,则说明该异常状态值是该故障类型故障的关键因素,即该状态异常值影响了应用节点的正常运行,进而可以确定出该异常状态值对应的故障类型,输出的故障类型可以是至少1个,例如故障权重值A'和故障权重值B'都大于预设的权重阈值,则分别输出故障类型A和故障类型B,输出可以按照故障权重大小的排列顺序。计算故障权重值的方式可以是相乘累加的方式,例如故障类型A中的m和n分别对应的权重值a和b,则故障权重值A'可以为m*a+n*b,其中,a和b为已知设定的百分比值,且均满足于(0,1)的范围。
进一步地,若检测不到异常状态值所对应的的已知故障类型,例如异常状态值包括以及WAF入侵数量为x,而所有的故障类型中并不存在该感兴趣信息,此时将该异常状态值作为异常变量值,此时可以进一步发出警报,提示人工诊断和人工运维,并将经过人工运维后重新定义的新的故障类型和对应的运维措施一同存储在运维数据库中,以作为后续调整该深度神经网络模型的样本数据。
进一步地,深度神经网络模型的训练方式包括:
对异常变量值进行标记;
将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果;
若输出结果的匹配概率小于预设的匹配阈值,则对深度神经网络模型进行参数调节,直至输出结果的匹配概率达到匹配阈值时,停止训练。
在本申请实施例中,训练深度神经网络模型的训练数据可以从运维数据库中采集历史运行数据中的异常变量值,历史运行数据可以按照天/月/年对每个应用交付节点进行采集,包括连接数量、数据包数量、带宽、TPS(Transactions Per Second,每秒钟事务数量)、SSL(安全套接字协议)连接数量;对每个虚拟服务器的历史运行数据,包括活动连接数量、活动带宽数量、虚拟服务器对客户端请求的第一个数据包的最大/平均/最小响应时间、虚拟服务器对客户端请求处理之后返回所有数据包的最大/平均/最小响应时间、最大/平均/最小RTT、WAF入侵数量、WAF处理数量、WEB数据压缩;对每个真实服务器的历史运行数据包括活动连接数量、活动带宽数量、真实服务器对客户端请求的第一个数据包的最大/平均/最小响应时间、真实服务器对客户端请求处理之后返回所有数据包的最大/平均/最小响应时间、最大/平均/最小RTT、会话保持连接等。
具体地,将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果包括:
根据所述异常变量值和所述深度神经网络模型中预先设置的每个故障类型,计算所述每个故障类型的故障权重值;
将所述故障权重值大于预设权重阈值的故障类型作为输出结果。
在本申请实施例中,基于监督学习,对异常变量值进行标记,标记方式可以采用标签的形式,并输入到初始的深度神经网络模型中训练,初始的神经网络模型配置好已知故障类型对应的参数,并得到训练后的输出结果,将输出结果与标记的状态变量值对应的诊断类型进行匹配,以得到匹配概率,匹配概率即为故障类型比对准确率,例如将输出的1000个标记了的异常变量值所对应的故障类型与实际对应的故障类型进行比对,比对一致的则说明异常变量值比对相应的故障类型成功,例如比对成功有950个,则匹配概率为p=950÷1000×100%=95%,如果预设的匹配阈值为98%,则对深度神经网络模型进行参数调节,参数调节可以是将聚类处理过的具有明显感兴趣信息特点的异常变量值作为深度神经网络模型中新故障类型的异常状态值,分配该异常状态值对应的权重,并重新使标记好的异常变量值输入到调节后的深度神经网络模型中训练,使得异常变量值输入到调整后的深度神经网络模型中能更好地匹配到对应的故障类型,以此方式不断训练该深度神经网络模型,直至输出结果的匹配概率达到匹配阈值,使得更多异常状态值能识别到对应的故障类型,提高了识别的准确率和效率。
S303:根据预设的故障运维策略,触发故障类型对应的运维措施。
预设的故障运维策略是通过运维人员在运维数据库中预先录入的每个已知故障类型对应的运维措施,运维措施包括运维代码段、扩容工具、文件调用工具等。例如,当故障类型为链路抖动、丢包、延迟情况时,获取对应的运维措施为扩容,则可以利用扩容工具进行扩容。
在本申请实施例中,获取故障数据,将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型,根据预设的故障运维策略,触发故障类型对应的运维措施,从而减少了人工运维的工作量,提高了运维效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图3所示方法的实现,本申请提供了一种物联网故障运维装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的物联网故障运维装置包括:获取模块401、诊断模块402以及运维模块403。其中:
获取模块401,用于获取故障数据;
诊断模块402,用于将故障数据输入到已训练好的故障诊断模型中,以确定故障数据对应的故障类型;
运维模块403,用于根据预设的故障运维策略,触发故障类型对应的运维措施。
进一步地,获取模块包括:
获取单元,用于实时获取应用节点的运行数据,其中,应用节点包括虚拟服务器和真实服务器,运行数据包括状态值;
确定单元,用于根据预设的正常状态参考表,从状态值中确定出异常状态值;
存储单元,用于将异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
进一步地,当故障诊断模型为深度神经网络模型时,诊断模块包括:
检测单元,用于通过深度神经网络模型对异常状态值进行检测;
输出单元,用于若检测到异常状态值所对应的已知故障类型,则输出该故障类型;
异常单元,用于若检测不到异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将异常变量值存储到运维数据库中。
进一步地,物联网故障运维装置还包括;
标记模块,用于对异常变量值进行标记;
训练模块,用于将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果;
调节模块,用于若输出结果的匹配概率小于预设的匹配阈值,则对深度神经网络模型进行参数调节,直至输出结果的匹配概率达到匹配阈值时,停止训练。
进一步地,训练模块包括:
计算单元,用于根据所述异常变量值和所述深度神经网络模型中预先设置的每个故障类型,计算所述每个故障类型的故障权重值;
结果单元,用于将所述故障权重值大于预设权重阈值的故障类型作为输出结果。
关于上述实施例中物联网故障运维装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备5包括通过***总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D物联网故障运维存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作***和各类应用软件,例如物联网故障运维方法的程序代码等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的程序代码或者处理数据,例如运行所述物联网故障运维方法的程序代码。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有物联网故障运维程序,所述物联网故障运维程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的物联网故障运维方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种物联网故障运维方法,其特征在于,所述方法包括:
获取故障数据;
将所述故障数据输入到已训练好的故障诊断模型中,以确定所述故障数据对应的故障类型;
根据预设的故障运维策略,触发所述故障类型对应的运维措施。
2.根据权利要求1所述的物联网故障运维方法,其特征在于,所述获取故障数据包括:
实时获取应用节点的运行数据,其中,所述应用节点包括虚拟服务器和真实服务器,所述运行数据包括状态值;
根据预设的正常状态参考表,从所述状态值中确定出异常状态值;
将所述异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
3.根据权利要求2所述的物联网故障运维方法,其特征在于,当所述故障诊断模型为深度神经网络模型时,所述将所述故障数据输入到已训练好的故障诊断模型中,以确定所述故障数据对应的故障类型包括:
通过所述深度神经网络模型对所述异常状态值进行检测;
若检测到所述异常状态值所对应的已知故障类型,则输出该故障类型;
若检测不到所述异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将所述异常变量值存储到所述运维数据库中。
4.根据权利要求3所述的物联网故障运维方法,其特征在于,所述深度神经网络模型的训练方式包括:
对所述异常变量值进行标记;
将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果;
若所述输出结果的匹配概率小于预设的匹配阈值,则对所述深度神经网络模型进行参数调节,直至输出结果的匹配概率达到所述匹配阈值时,停止训练。
5.根据权利要求4所述的物联网故障运维方法,其特征在于,所述将标记好的异常变量值输入到深度神经网络模型进行训练,并输出结果包括:
根据所述异常变量值和所述深度神经网络模型中预先设置的每个故障类型,计算所述每个故障类型的故障权重值;
将所述故障权重值大于预设权重阈值的故障类型作为输出结果。
6.一种物联网故障运维装置,其特征在于,包括:
获取模块,用于获取故障数据;
诊断模块,用于将所述故障数据输入到已训练好的故障诊断模型中,以确定所述故障数据对应的故障类型;
运维模块,用于根据预设的故障运维策略,触发所述故障类型对应的运维措施。
7.根据权利要求6所述的物联网故障运维装置,其特征在于,所述获取模块包括:
获取单元,用于实时获取应用节点的运行数据,其中,所述应用节点包括虚拟服务器和真实服务器,所述运行数据包括状态值;
确定单元,用于根据预设的正常状态参考表,从所述状态值中确定出异常状态值;
存储单元,用于将所述异常状态值和异常状态值对应的应用节点作为故障数据,并存储运维数据库中。
8.根据权利要求7所述的物联网故障运维装置,其特征在于,当所述故障诊断模型为深度神经网络模型时,所述诊断模块包括:
检测单元,用于通过所述深度神经网络模型对所述异常状态值进行检测;
输出单元,用于若检测到所述异常状态值所对应的已知故障类型,则输出该故障类型;
异常单元,用于若检测不到所述异常状态值所对应的的已知故障类型,则将该异常状态值作为异常变量值,并将所述异常变量值存储到所述运维数据库中。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的物联网故障运维方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的物联网故障运维方法的步骤。
CN202011219233.2A 2020-11-04 2020-11-04 物联网故障运维方法、装置、计算机设备及存储介质 Pending CN112463422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011219233.2A CN112463422A (zh) 2020-11-04 2020-11-04 物联网故障运维方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219233.2A CN112463422A (zh) 2020-11-04 2020-11-04 物联网故障运维方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112463422A true CN112463422A (zh) 2021-03-09

Family

ID=74835111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219233.2A Pending CN112463422A (zh) 2020-11-04 2020-11-04 物联网故障运维方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112463422A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435307A (zh) * 2021-06-23 2021-09-24 国网天津市电力公司 一种基于视觉识别技术的运维方法、***及存储介质
CN113434326A (zh) * 2021-07-12 2021-09-24 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络***故障定位的方法及装置、处理器及其计算机可读存储介质
CN114500235A (zh) * 2022-04-06 2022-05-13 深圳粤讯通信科技有限公司 一种基于物联网的通信设备安全管理***
CN114490303A (zh) * 2022-04-07 2022-05-13 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN116155956A (zh) * 2023-04-18 2023-05-23 武汉森铂瑞科技有限公司 一种基于梯度决策树模型的多路复用通信方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109163913A (zh) * 2018-09-30 2019-01-08 深圳市元征科技股份有限公司 一种汽车故障诊断方法及相关设备
CN110362068A (zh) * 2019-08-02 2019-10-22 苏州容思恒辉智能科技有限公司 一种基于工业物联网的机械设备故障预警方法、***和可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109163913A (zh) * 2018-09-30 2019-01-08 深圳市元征科技股份有限公司 一种汽车故障诊断方法及相关设备
CN110362068A (zh) * 2019-08-02 2019-10-22 苏州容思恒辉智能科技有限公司 一种基于工业物联网的机械设备故障预警方法、***和可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435307A (zh) * 2021-06-23 2021-09-24 国网天津市电力公司 一种基于视觉识别技术的运维方法、***及存储介质
CN113434326A (zh) * 2021-07-12 2021-09-24 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络***故障定位的方法及装置、处理器及其计算机可读存储介质
CN113434326B (zh) * 2021-07-12 2024-05-31 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络***故障定位的方法及装置、处理器及其计算机可读存储介质
CN114500235A (zh) * 2022-04-06 2022-05-13 深圳粤讯通信科技有限公司 一种基于物联网的通信设备安全管理***
CN114490303A (zh) * 2022-04-07 2022-05-13 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN114490303B (zh) * 2022-04-07 2022-07-12 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN116155956A (zh) * 2023-04-18 2023-05-23 武汉森铂瑞科技有限公司 一种基于梯度决策树模型的多路复用通信方法及***
CN116155956B (zh) * 2023-04-18 2023-08-22 武汉森铂瑞科技有限公司 一种基于梯度决策树模型的多路复用通信方法及***

Similar Documents

Publication Publication Date Title
CN112463422A (zh) 物联网故障运维方法、装置、计算机设备及存储介质
CN112052111B (zh) 服务器异常预警的处理方法、装置、设备及存储介质
CN103678372B (zh) 一种用于获取页面的应用性能的方法和设备
CN110347694B (zh) 一种基于物联网的设备监控方法、装置及***
CN115941322B (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质
CN113038396B (zh) 短信通道的调度方法、装置、设备及存储介质
CN114039918A (zh) 一种信息年龄优化方法、装置、计算机设备及存储介质
CN113986564A (zh) 应用数据的流量监控方法、装置、计算机设备及介质
CN112184169A (zh) 用户待办事项的动态规划方法、装置、设备及存储介质
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
WO2019209503A1 (en) Unsupervised anomaly detection for identifying anomalies in data
CN114095567A (zh) 数据访问请求的处理方法、装置、计算机设备及介质
CN115237724A (zh) 基于人工智能的数据监控方法、装置、设备及存储介质
CN112395351A (zh) 可视化的识别群诉风险方法、装置、计算机设备及介质
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN110807050A (zh) 性能分析方法、装置、计算机设备及存储介质
JP2022000775A (ja) 交通流監視測定システムのテスト方法、装置及び機器
CN113242301A (zh) 真实服务器的选定方法、装置、计算机设备及存储介质
CN116843395A (zh) 一种业务***的告警分级方法、装置、设备及存储介质
CN109889399A (zh) RocketMQ客户端连接数监控方法、装置、电子设备及存储介质
CN115396142A (zh) 基于零信任的信息访问方法、装置、计算机设备及介质
CN115222181B (zh) 机器人运营状态监控***及方法
CN114090407A (zh) 基于线性回归模型的接口性能预警方法及其相关设备
CN114637651A (zh) 内存帧率检测方法、装置、计算机设备及存储介质
CN114036551A (zh) 隐私数据的数据处理方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309

RJ01 Rejection of invention patent application after publication