CN106055452B - 创建交换机日志模板的方法和装置 - Google Patents

创建交换机日志模板的方法和装置 Download PDF

Info

Publication number
CN106055452B
CN106055452B CN201610355129.3A CN201610355129A CN106055452B CN 106055452 B CN106055452 B CN 106055452B CN 201610355129 A CN201610355129 A CN 201610355129A CN 106055452 B CN106055452 B CN 106055452B
Authority
CN
China
Prior art keywords
message
log
type
keyword
interchanger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610355129.3A
Other languages
English (en)
Other versions
CN106055452A (zh
Inventor
董辉
宋磊
侯翔宇
孟伟彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610355129.3A priority Critical patent/CN106055452B/zh
Publication of CN106055452A publication Critical patent/CN106055452A/zh
Application granted granted Critical
Publication of CN106055452B publication Critical patent/CN106055452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了创建交换机日志模板的方法和装置。所述方法的一具体实施方式包括:获取一个型号的交换机的原始日志;获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。该实施方式创建交换机日志模板,使用该模板对日志进行压缩。

Description

创建交换机日志模板的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及创建交换机日志模板的方法和装置。
背景技术
交换机日志是交换机设备在存活周期内产生的重要数据,通过交换机日志可以获取交换机的状态,包括端口的抖动、协议的抖动、板卡故障、电源故障等,而传统的设备监控***都是基于交换机日志,通过特定的规则匹配日志,从而发现故障点并进行报警。
随着互联网数据的***性增长以及业务的增多,很多互联网企业对自建网络的投入也越来越大,IDC(Internet Data Center,互联网数据中心)中涉及到的网络设备也越来越多,尤其是交换机设备。
一个典型的案例是在企业自建IDC中,存在大规模的交换机设备,这些设备分别来自不同的厂商、存在多种型号,同时分布在多个IDC中。过多的设备会产生大规模的交换机日志,对于报警规则的挖掘以及排障都带来了困难,需要一种自动化手段对日志进行压缩。
发明内容
本申请的目的在于提出一种创建交换机日志模板的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了创建交换机日志模板的方法,所述方法包括:获取一个型号的交换机的原始日志;获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
在一些实施例中,所述方法还包括:获取一个型号的交换机的新增日志;获取所述新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;使用所述日志模板过滤所述新增日志;将所述日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的新增日志模板。
在一些实施例中,如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。
在一些实施例中,所述创建聚类标签作为消息类型,包括:将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号;提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量;计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
在一些实施例中,当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束。
在一些实施例中,将每个消息类型中的日志模板按照树的深度排序,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的日志模板进行匹配。
第二方面,本申请提供了一种创建交换机日志模板的装置,其特征在于,所述装置包括:获取单元,配置用于获取一个型号的交换机的原始日志;解析单元,配置用于获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;处理单元,配置用于对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;创建单元,配置用于根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
在一些实施例中,所述装置还配置用于:获取一个型号的交换机的新增日志;获取所述新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;使用所述日志模板过滤所述新增日志;将所述日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的新增日志模板。
在一些实施例中,所述创建单元还配置用于:如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。
在一些实施例中,所述创建聚类标签作为消息类型,包括:将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号;提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量;计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
在一些实施例中,所述创建单元还配置用于:当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束。
在一些实施例中,所述创建单元还配置用于:将每个消息类型中的模板按照树的深度排序,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的模板进行匹配。
本申请提供的创建交换机日志模板的方法和装置,通过获取所述原始日志中的消息类型和详细消息,根据详细消息中的关键词创建多叉树,根据多叉树中的路径创建交换机的每个消息类型所对应的日志模板,以采用增量迭代训练方式对交换机日志进行压缩。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的创建交换机日志模板的方法的一个实施例的流程图;
图3是根据本申请的创建交换机日志模板的方法的词频向量的示意图;
图4a、4b和4c是根据本申请的创建交换机日志模板的方法的一个应用场景的示意图;
图5是根据本申请的创建交换机日志模板的方法的又一个实施例的流程图;
图6是根据本申请的创建交换机日志模板的装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的创建交换机日志模板的方法或创建交换机日志模板的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括交换机101、102、103,网络104和服务器105。网络104用以在交换机101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
交换机101、102、103的日志通过网络104传输到服务器105。交换机101、102、103上可以安装有各种日志采集工具的客户端,例如安装有可以将其内部的日志信息传输到远程的日志服务器的rsyslog等。
交换机101、102、103可以是为接入交换机的任意两个网络节点提供独享的电信号通路的网络设备,包括但不限于以太网交换机、快速以太网交换机、千兆以太网交换机、FDDI交换机、ATM交换机和令牌环交换机等。
服务器105可以是提供各种服务的服务器,例如采集交换机101、102、103的日志,对采集到的日志进行结构化处理并创建日志模板的服务器。
需要说明的是,本申请实施例所提供的创建交换机日志模板的方法一般由服务器105执行,相应地,创建交换机日志模板的装置一般设置于服务器105中。
应该理解,图1中的交换机、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的交换机、网络和服务器。
继续参考图2,示出了根据本申请的创建交换机日志模板的方法的一个实施例的流程200。所述的创建交换机日志模板的方法,包括以下步骤:
步骤201,获取一个型号的交换机的原始日志。
在本实施例中,创建交换机日志模板的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从交换机获取原始日志。
步骤202,获取原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型。
在本实施例中,获取原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型。其中,所述详细消息需要去除变量。
在本实施例的一些可选的实现方式中,所述创建聚类标签作为消息类型,包括:将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号,如表1中所示;提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量,如图3所示;计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
表1
步骤203,对详细消息进行分词,得到关键词。
在本实施例中,采用Luene进行分词,得到关键词。
步骤204,根据关键词的词频对关键词重新排序,将词频高的关键词排在前面。
在本实施例中,根据关键词的词频对关键词重新排序,将词频高的关键词排在前面。
步骤205,根据重新排序的关键词创建多叉树。
在本实施例中,根据步骤204中重新排序的关键词创建多叉树。
在本实施例的一些可选的实现方式中,如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。例如,如果一个节点的子节点超过10个(经验值),则砍掉该节点的所有子节点,该节点作为最后一个子节点。这样做的目的是防止模板膨胀,因为针对每一个消息类型,一般不会超过10个有效的状态。例如,以登录日志为例,处理用户名其它部分关键词一致,如果不进行子节点数量的限制,就会导致过多的模板表示同一含义。
步骤206,深度优先遍历多叉树,根据多叉树中的路径创建该型号交换机的每个消息类型所对应的日志模板。
在本实施例中,深度优先遍历步骤205创建的多叉树,根据多叉树中的路径创建该型号交换机的每个消息类型所对应的日志模板。
在本实施例的一些可选的实现方式中,当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束(该节点可能不是最长路径的结束)。
在本实施例的一些可选的实现方式中,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的日志模板进行匹配。在节点不是最长路径的结束的情况下,用路径最长的匹配。
继续参见图4a-4c,图4a-4c是根据本实施例的创建交换机日志模板的方法的应用场景的一个示意图。在图4a-4c的应用场景中,在图4a中,图左侧为经过按照词频排序后的日志,图右侧为构造出的多叉树。在图4b中,节点down的子节点数目多于10个,因此删除down的子节点,并将down作为最后一个子节点。在图4c中,节点up是一条路径的结束,对其打上标签,但它不是最长路径,第一模板的路径比第二模板的路径长。采用模板进行日志匹配时优先采用第一模板进行匹配。
本申请的上述实施例提供的方法通过对已经消息类型的日志进行分词处理得到关键词后创建多叉树,创建了交换机日志模板,可用于增量迭代训练方式压缩日志,日志压缩比可达到2000:1。
进一步参考图5,其示出了创建交换机日志模板的方法的又一个实施例的流程500。该创建交换机日志模板的方法的流程500,包括以下步骤:
步骤501,获取一个型号的交换机的新增日志。
在本实施例中,该步骤与步骤201基本相同,区别在于该步骤获取的是新增的日志。
步骤502,获取新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型。
步骤502与步骤202基本相同,在此不再赘述。
步骤503,使用日志模板过滤新增日志。
在本实施例中,使用在步骤206中创建的日志模板过滤新增日志,得到原日志模板无法匹配的日志进行增量训练。
步骤504,将日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词。
步骤504与步骤203基本相同,在此不再赘述。
步骤505,根据关键词的词频对关键词重新排序,将词频高的关键词排在前面。
步骤506,根据重新排序的关键词创建多叉树。
步骤507,深度优先遍历多叉树,根据多叉树中的路径创建该型号交换机的每个消息类型所对应的新增日志模板。
步骤505-507与步骤204-206基本相同,在此不再赘述。
从图5中可以看出,与图2对应的实施例相比,本实施例中的创建交换机日志模板的方法的流程500突出了对新增日志进行过滤的步骤。由此,本实施例描述的方案可以采用增量迭代训练的方式对日志进行压缩。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种创建交换机日志模板的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例所述的创建交换机日志模板的装置600包括:获取单元601、解析单元602、处理单元603和创建单元604。其中,获取单元601配置用于获取一个型号的交换机的原始日志;解析单元602配置用于获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;处理单元603配置用于对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;创建单元604配置用于根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
在本实施例的一些可选的实现方式中,该创建交换机日志模板的装置600还配置用于:获取一个型号的交换机的新增日志;获取所述新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;使用所述日志模板过滤所述新增日志;将所述日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的新增日志模板。
在本实施例的一些可选的实现方式中,创建单元604还配置用于:如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。
在本实施例的一些可选的实现方式中,创建聚类标签作为消息类型,包括:将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号;提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量;计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
在本实施例的一些可选的实现方式中,创建单元604还配置用于:当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束。
在本实施例的一些可选的实现方式中,创建单元604还配置用于:将每个消息类型中的模板按照树的深度排序,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的模板进行匹配。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机***700的结构示意图。
如图7所示,计算机***700包括中央处理单元603(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元603(CPU)701执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、解析单元、处理单元和创建单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取一个型号的交换机的原始日志的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取一个型号的交换机的原始日志;获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种创建交换机日志模板的方法,其特征在于,所述方法包括:
获取一个型号的交换机的原始日志;
获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;
对所述详细消息进行分词,得到关键词;
根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;
根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;
深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
2.根据权利要求1所述的创建交换机日志模板的方法,其特征在于,所述方法还包括:
获取一个型号的交换机的新增日志;
获取所述新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;
使用所述日志模板过滤所述新增日志;
将所述日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词;
根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;
根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;
深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的所述新增日志中的每个消息类型所对应的新增日志模板。
3.根据权利要求1或2所述的创建交换机日志模板的方法,其特征在于,如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。
4.根据权利要求1或2所述的创建交换机日志模板的方法,其特征在于,所述创建聚类标签作为消息类型,包括:
将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号;
提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量;
计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
5.根据权利要求1或2所述的创建交换机日志模板的方法,其特征在于,当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束。
6.根据权利要求5所述的创建交换机日志模板的方法,其特征在于,将每个消息类型中的日志模板按照树的深度排序,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的日志模板进行匹配。
7.一种创建交换机日志模板的装置,其特征在于,所述装置包括:
获取单元,配置用于获取一个型号的交换机的原始日志;
解析单元,配置用于获取所述原始日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;
处理单元,配置用于对所述详细消息进行分词,得到关键词;根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;
创建单元,配置用于根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的每个消息类型所对应的日志模板。
8.根据权利要求7所述的创建交换机日志模板的装置,其特征在于,所述装置还配置用于:
获取一个型号的交换机的新增日志;
获取所述新增日志中的消息类型和详细消息,如果获取不到消息类型,则创建聚类标签作为消息类型;
使用所述日志模板过滤所述新增日志;
将所述日志模板无法匹配的新增日志中的详细消息进行分词,得到关键词;
根据所述关键词的词频对所述关键词重新排序,将词频高的关键词排在前面;
根据所述重新排序的关键词创建多叉树,每个消息类型作为树的根节点,所述重新排序的关键词作为树的节点,每个消息类型对应一个多叉树;
深度优先遍历所述多叉树,根据所述多叉树中的路径创建所述型号交换机的所述新增日志中的每个消息类型所对应的新增日志模板。
9.根据权利要求7或8所述的创建交换机日志模板的装置,其特征在于,所述创建单元还配置用于:
如果所述多叉树中一个节点的子节点超过节点阈值数目,则删除所述节点的所有子节点,所述节点作为最后一个子节点。
10.根据权利要求7或8所述的创建交换机日志模板的装置,其特征在于,所述创建聚类标签作为消息类型,包括:
将每一条消息类型未知的日志按照语义分成了五种类别并分别赋予权重值,所述五种类别包括:只有数字或数字与符号,数字、字母和符号,符号和字母,只有字母,只有符号;
提取所述日志中五类语义的频度,将所述日志转化为一个固定五个长度的词频向量;
计算所述词频向量与已知的消息类型集合的相似度,得到一组相似度结果,如果最大相似度大于等于预设的相似度阈值,则将所述日志归到对应的消息类型;如果最大相似度小于预设的相似度阈值,则将所述词频向量作为一个新的消息类型。
11.根据权利要求7或8所述的创建交换机日志模板的装置,其特征在于,所述创建单元还配置用于:
当一个日志模板是另外一个日志模板的子集时,通过对节点打标签的形式来标识一个节点是否是一条路径的结束。
12.根据权利要求11所述的创建交换机日志模板的装置,其特征在于,所述创建单元还配置用于:
将每个消息类型中的模板按照树的深度排序,当一个日志模板是另外一个日志模板的子集时,优先采用树的深度较大的模板进行匹配。
CN201610355129.3A 2016-05-25 2016-05-25 创建交换机日志模板的方法和装置 Active CN106055452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610355129.3A CN106055452B (zh) 2016-05-25 2016-05-25 创建交换机日志模板的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610355129.3A CN106055452B (zh) 2016-05-25 2016-05-25 创建交换机日志模板的方法和装置

Publications (2)

Publication Number Publication Date
CN106055452A CN106055452A (zh) 2016-10-26
CN106055452B true CN106055452B (zh) 2019-06-14

Family

ID=57175843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610355129.3A Active CN106055452B (zh) 2016-05-25 2016-05-25 创建交换机日志模板的方法和装置

Country Status (1)

Country Link
CN (1) CN106055452B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108696899B (zh) * 2017-04-07 2021-09-03 北京京东尚科信息技术有限公司 Sip消息传输与接收方法及传输与接收装置
CN111435343B (zh) * 2019-01-15 2023-02-24 北京大学 计算机***日志模板的自动生成和在线更新方法与***
CN110096411A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联分析和时间窗的日志模板快速提取方法及***
CN110134615B (zh) * 2019-04-10 2022-03-01 百度在线网络技术(北京)有限公司 应用程序获取日志数据的方法及装置
CN112559474A (zh) * 2019-09-26 2021-03-26 中国电信股份有限公司 日志处理方法和装置
CN113821491A (zh) * 2021-02-22 2021-12-21 京东科技控股股份有限公司 用于生成网络设备日志模板的方法、装置、服务器和介质
CN114116410A (zh) * 2022-01-28 2022-03-01 北京安帝科技有限公司 一种日志解析方法及***
CN115329748B (zh) * 2022-10-14 2023-01-10 北京优特捷信息技术有限公司 一种日志解析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320348A (zh) * 2008-06-25 2008-12-10 中兴通讯股份有限公司 一种嵌入式***的日志功能实现方法
CN103379136A (zh) * 2012-04-17 2013-10-30 ***通信集团公司 一种日志采集数据压缩方法、解压缩方法及装置
CN104408100A (zh) * 2014-11-19 2015-03-11 北京融海恒信咨询有限公司 结构化网站日志的压缩方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050203934A1 (en) * 2004-03-09 2005-09-15 Microsoft Corporation Compression of logs of language data
US7676282B2 (en) * 2005-12-02 2010-03-09 International Business Machines Corporation Compression of servo control logging entries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320348A (zh) * 2008-06-25 2008-12-10 中兴通讯股份有限公司 一种嵌入式***的日志功能实现方法
CN103379136A (zh) * 2012-04-17 2013-10-30 ***通信集团公司 一种日志采集数据压缩方法、解压缩方法及装置
CN104408100A (zh) * 2014-11-19 2015-03-11 北京融海恒信咨询有限公司 结构化网站日志的压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于差分压缩的大规模日志压缩***;唐球等;《通信学报》;20151130;第1-6页
基于网格的TCP网络日志二次聚类算法;张珠玉等;《暨南大学学报(自然科学版)》;20110430;第1-6页

Also Published As

Publication number Publication date
CN106055452A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055452B (zh) 创建交换机日志模板的方法和装置
CN106055608B (zh) 自动采集和分析交换机日志的方法和装置
CN110855473B (zh) 一种监控方法、装置、服务器及存储介质
CN108847977B (zh) 一种业务数据的监控方法、存储介质和服务器
US10360196B2 (en) Grouping and managing event streams generated from captured network data
US20170279840A1 (en) Automated event id field analysis on heterogeneous logs
CN111752799A (zh) 一种业务链路跟踪方法、装置、设备及储存介质
CN105072196B (zh) 分布式数据包存储、回溯方法及***
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
CN111756706A (zh) 一种异常流量检测方法、装置及存储介质
WO2022048668A1 (zh) 知识图谱构建方法和装置、检查方法、存储介质
CN104778178B (zh) 一种应用分类方法、装置、及业务服务器
US8326982B2 (en) Method and apparatus for extracting and visualizing execution patterns from web services
CN112311571B (zh) 网络拓扑生成方法及装置、电子设备和非暂态存储介质
US11989161B2 (en) Generating readable, compressed event trace logs from raw event trace logs
CN110061931B (zh) 工控协议的聚类方法、装置、***及计算机存储介质
CN111222547B (zh) 一种面向移动应用的流量特征提取方法及***
CN110096411A (zh) 基于关联分析和时间窗的日志模板快速提取方法及***
CN113760730A (zh) 一种自动化测试的方法和装置
CN115914033A (zh) 设备信息的监控方法、装置、电子设备及存储介质
US20190289480A1 (en) Smart Building Sensor Network Fault Diagnostics Platform
CN111291028A (zh) 一种面向高速工业现场数据采集***及方法
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
JP6078485B2 (ja) 運用履歴分析装置及び方法及びプログラム
CN106612207B (zh) 以太网设备rstp信息的管控方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant