CN114491044A - 日志的处理方法及装置 - Google Patents

日志的处理方法及装置 Download PDF

Info

Publication number
CN114491044A
CN114491044A CN202210129688.8A CN202210129688A CN114491044A CN 114491044 A CN114491044 A CN 114491044A CN 202210129688 A CN202210129688 A CN 202210129688A CN 114491044 A CN114491044 A CN 114491044A
Authority
CN
China
Prior art keywords
error
log
processed
reporting
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210129688.8A
Other languages
English (en)
Inventor
丁凯文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210129688.8A priority Critical patent/CN114491044A/zh
Publication of CN114491044A publication Critical patent/CN114491044A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及大数据技术领域,尤其涉及日志的处理方法及装置。本申请的日志的处理方法包括:获取待处理的报错日志;使用预设的文本分类模型基于待处理的报错日志获取待处理的报错日志的分类结果,该分类结果包括至少一个报错的类型,至少一个报错的类型包括语法报错、词语报错和/或符号报错;其中,预设的文本分类模型是根据历史报错日志和历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。本申请提供的日志的处理方法可以提高报错任务日志分析的准确性。

Description

日志的处理方法及装置
技术领域
本申请涉及大数据技术领域,尤其涉及日志的处理方法及装置。
背景技术
随着机器学习平台集成算法及大数据处理方式越来越丰富,提交到服务器的报错任务日志种类及数量也越来越多种多样,对报错任务日志的分析对相关***性能的改善具有重要意义。
目前相关技术中,服务器单纯地提供任务日志下载功能,即相关技术人员可以将报错任务日志下载下来,从而基于报错任务日志的内容判断出报错任务日志的类型,并基于该类型选择对应的解决方案对***可能存在的问题进行处理。
然而,在实际对报错任务日志进行分析实现的过程中,人为进行报错任务日志的分类不够准确,从而导致了报错任务日志相应的解决方案的选择不准确的情况发生,因此,如何提高报错任务日志分析的准确性成为亟待解决的技术问题。
发明内容
本申请提供日志的处理方法及装置,用以提高报错任务日志分析的准确性。
第一方面,本申请提供一种日志的处理方法,该方法包括:获取待处理的报错日志;使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,所述分类结果包括至少一个报错的类型,所述至少一个报错的类型包括语法报错、词语报错和/或符号报错;其中,所述预设的文本分类模型是根据历史报错日志和所述历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
该方法中,基于预先训练好的文本分类模型对待处理的报错日志进行分类,可以更加准确地对报错日志进行分类,且这种方式相比于人工根据报错日志的字段等信息进行分类,效率也更高。其中,文本分类模型的训练基于技术人员的经验,采用已经确定出的报错的文本类型和相应的报错日志,准确度较高。
结合第一方面,在一种可能的实现方式中,所述使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,包括:通过所述文本分类模型的输入层对所述待处理的报错日志进行编码处理,得到所述待处理的报错日志的编码向量;通过所述文本分类模型的隐藏层对所述编码向量进行融合处理,得到融合向量;通过所述文本分类模型的输出层对所述融合向量进行非线性映射处理,得到所述待处理的报错日志的N个类型以及所述N个类型中每个类型的可能性占比,N为正整数;根据所述N个类型中每个类型的可能性占比的大小,对每个类型进行排序,得到排序结果;将所述排序结果中前M个类型以及对应的可能性占比作为所述待处理的报错日志的分类结果,所述M小于或等于所述N。
该实现方式中,通过将待处理的报错日志输入至文本分类模型中,得到待处理的报错日志的类型以及每个类型的可能性占比,根据可能性占比的排序得到预设数量的待处理的报错日志的分类结果,而对该待处理的报错日志可能的分类结果可能性排序靠前的至少一个类别进行确定,能够提供给技术人员更有效、更可靠的参考。
结合第一方面,在一种可能的实现方式中,在所述使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果之前,所述方法还包括:获取所述历史报错日志和所述历史报错日志对应的报错的类型;根据所述历史报错日志和所述历史报错日志对应的报错的类型,对快速文本分类算法模型进行训练,得到所述文本分类模型。
该实现方式中,可以根据多个报错日志,以及技术人员对这些报错日志进行分类之后得到的类型,对快速文本分类算法模型进行训练,得到能够对报错日志进行分类的文本分类模型,而该文本分类模型也为后续进行待处理的报错日志进行分类提供了基础。
结合第一方面,在一种可能的实现方式中,所述方法还包括:使用预设的数据库基于所述分类结果获取所述分类结果对应的处理方案,所述预设的数据库中存储有与所述历史报错日志的分类结果对应的处理方案;返回所述处理方案和所述待处理的报错日志。
该实现方式中,在数据库中存储了不同分类类型对应的处理方案,这些方案都是技术人员依据不同的分类类型而制定的处理策略。而根据分类结果在数据库中找到对应的方案并返回,可以直接为技术人员对***可能存在的问题提供修改或更新等建议,可以更加快速解决***可能存在的问题。
结合第一方面,在一种可能的实现方式中,所述获取待处理的报错日志,包括:获取服务器的所有运行日志;基于关键字和报错堆栈对所述所有运行日志进行过滤,得到所述待处理的报错日志。
该实现方式中,为了提升或完善***的性能,需要在获取的运行日志中找到报错日志,即能反映出***哪里出现问题的日志,而这些日志的关键字和报错堆栈与正常的运行日志不同,利用日志的关键字和报错堆栈,可以过滤筛选出存在问题的运行日志。
结合第一方面,在一种可能的实现方式中,所述方法还包括:若所述处理方案不能正确解决所述待处理的报错日志,记录所述待处理的报错日志。
该实现方式中,如果处理方案不能正确解决待处理的报错日志,那么可以将该日志标记出来,推给技术人员,技术人员可以人工进行解决后,确保可以对***存在的问题进行改正。
第二方面,本申请提供一种日志的处理***,该处理***包括计算机设备和应用于执行如第一方面或者其中任意一种可能的实现方式所述的方法的服务器;所述服务器用于将待处理的报错日志的分类结果和所述分类结果对应的处理方案发送至所述计算机设备;所述计算机设备用于通过图形用户界面显示所述待处理的报错日志的分类结果和所述分类结果对应的处理方案。
第三方面,本申请提供一种日志的处理装置,该装置包括:获取模块,用于获取待处理的报错日志;所述获取模块还用于使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,所述分类结果包括至少一个报错的类型,所述至少一个报错的类型包括语法报错、词语报错和/或符号报错;其中,所述预设的文本分类模型是根据历史报错日志和所述历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
结合第三方面,在一种可能的实现方式中,所述获取模块具体用于:通过所述文本分类模型的输入层对所述待处理的报错日志进行编码处理,得到所述待处理的报错日志的编码向量;通过所述文本分类模型的隐藏层对所述编码向量进行融合处理,得到融合向量;通过所述文本分类模型的输出层对所述融合向量进行非线性映射处理,得到所述待处理的报错日志的N个类型以及所述N个类型中每个类型的可能性占比,N为正整数;根据所述N个类型中每个类型的可能性占比的大小,对每个类型进行排序,得到排序结果;将所述排序结果中前M个类型以及对应的可能性占比作为所述待处理的报错日志的分类结果,所述M小于或等于所述N。
结合第三方面,在一种可能的实现方式中,在所述使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果之前,所述装置还包括:训练模块;所述获取模块还用于获取所述历史报错日志和所述历史报错日志对应的报错的类型;所述训练模块,用于根据所述历史报错日志和所述历史报错日志对应的报错的类型,对快速文本分类算法模型进行训练,得到所述文本分类模型。
结合第三方面,在一种可能的实现方式中,所述获取模块还用于使用预设的数据库基于所述分类结果获取所述分类结果对应的处理方案,所述预设的数据库中存储有与所述历史报错日志的分类结果对应的处理方案;返回所述处理方案和所述待处理的报错日志。
结合第三方面,在一种可能的实现方式中,所述获取模块具体用于:获取服务器的所有运行日志;基于关键字和报错堆栈对所述所有运行日志进行过滤,得到所述待处理的报错日志。
结合第三方面,在一种可能的实现方式中,所述装置还包括:记录模块,用于若所述处理方案不能正确解决所述待处理的报错日志,记录所述待处理的报错日志。
第四方面,本申请提供一种服务器,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用所述存储器中的程序指令执行如第一方面或者其中任意一种可能的实现方式所述的方法。
第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面或者其中任意一种可能的实现方式所述的方法。
第六方面,本申请提供一种计算机程序产品,所述计算机程序产品中包括计算机程序,所述计算机程序被处理器执行时用于实现如第一方面或者其中任意一种可能的实现方式所述的方法。
本申请提供的日志的处理方法中,通过获取待处理的报错日志;使用预设的文本分类模型基于待处理的报错日志获取待处理的报错日志的分类结果,进一步地,使用预设的数据库基于分类结果获取分类结果对应的处理方案,再返回至客户端。该日志的处理方法可以提高报错日志分析的准确性,进而为无经验的机器学习平台建模人员提供解决报错的方案,为有经验的建模人员简化日志分析工作。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请一个实施例提供的应用场景示意图;
图2为本申请一个实施例提供的日志的处理方法的流程图;
图3为本申请一个实施例提供的日志的处理***示意图;
图4为本申请一个实施例提供的日志的处理方法的整体流程图;
图5为本申请一个实施例提供的日志的处理装置的示意图;
图6为本申请另一个实施例提供的装置示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请一个实施例提供的应用场景示意图,该场景包括客户端101和服务器102。客户端101和服务器102之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可选地,客户端101可以是安装在终端设备上的应用程序。
可选地,当客户端101相关的应用程序运行时,会随着应用程序的运行,产生相应的运行日志,而服务器102基于应用程序的运行,不断收集客户端101产生的运行日志。
当应用程序运行发生错误时,用户通过客户端101从服务器102上下载报错任务日志,对报错任务日志的相关类型进行确定后,以相应的解决方案对报错任务日志对应的问题进行解决,从而优化或维护应用程序的平稳运行。
随着机器学习平台集成算法及大数据处理方式越来越丰富,提交到大数据集群任务运行失败的日志种类及数量也越来越多种多样,对报错任务日志的分析对相关***性能的改善具有重要意义。
在目前相关技术中,服务器只是简单提供任务日志下载功能,没有对用户分析日志或处理报错提供有效帮助,即相关技术人员可以将报错任务日志下载下来,从而基于报错任务日志的内容判断出报错任务日志的类型,并基于该类型选择对应的解决方案对***可能存在的问题进行处理。
然而,在实际对报错任务日志进行分析实现的过程中,人为进行报错任务日志的分类不够准确,从而导致了报错任务日志相应的解决方案的选择不准确的情况发生。且服务器单纯提供大数据任务日志下载功能使得机器学***台的使用门槛;对有经验的用户也需要从大量日志中查找有用信息,导致开发效率降低。
因此,如何提高报错任务日志分析的准确性成为亟待解决的技术问题。
有鉴于此,本申请提供日志的处理方法,旨在解决现有技术的如上技术问题。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
结合图1所示的应用场景,图2为本申请一个实施例提供的日志的处理方法的流程图,应用于服务器102。如图2所示,本申请实施例提供的方法包括S201和S202。下面详细说明图2所示的方法中的各个步骤。
S201,获取待处理的报错日志。
该步骤中,当应用程序在客户端101上运行失败时,用户点击下载报错任务日志,服务器102从集群中拉取任务日志。例如,在运行集群计算平台“SPARK”任务失败后,用户点击下载报错任务日志,然后从资源管理器中的另一种资源协调者(yet another resourcenegotiator,YARN)集群中拉取任务日志,并保存到服务器中。
可选地,用户在点击下载报错任务日志后,会提示用户是否在下载完成后对日志文件进行解析,默认会对日志进行解析。
其中,报错任务日志包含了服务器102所有的运行日志,数据量较大,内容比较丰富,且格式比较复杂,对于筛查排错的作用并不显著,且不能直接使用快速文本分类算法(FASTTEXT)进行预测,因此需要对该报错任务日志文件进行处理,例如进行分割,根据关键字(如错误“ERROR”等)和报错堆栈(如用于处理异常栈的模块“TRACE BACK”等)的一般格式对日志文件进行过滤筛选,最后的结果是得到含有关键信息的句子,即待处理的报错日志。
S202,使用预设的文本分类模型基于待处理的报错日志获取待处理的报错日志的分类结果,分类结果包括至少一个报错的类型,至少一个报错的类型包括语法报错、词语报错和/或符号报错;其中,预设的文本分类模型是根据历史报错日志和历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
其中,预设的文本分类模型使用历史报错日志和历史报错日志对应的报错的类型训练得到,即获取经过服务器分割筛选过后的历史报错日志,以及该历史报错日志对应的报错的类型,使用FASTTEXT算法模型进行训练,得到文本分类模型。
可选地,FASTTEXT算法模型以查表和用向量表示身份标识号(Identitydocument,ID)“embedding”作为特征,并且引入字符级N元语法模型(N-gram)特征,会屏蔽一些由于数据源不同带来的报错信息细微的差别,从而达到更好的分类效果。由于在训练和预测的过程中,模型的速度也是一个重要的指标,所以将FASTTEXT算法略作改动,在输出层使用简单的函数“softmax”来分类,而不使用一般FASTTEXT算法使用的层次(Hierachical)“softmax”,其中,“softmax”分类主要是对属性标签进行内部的一个编码操作,能缩小模型预测目标的时间,提高效率。
具体地,通过文本分类模型的输入层对待处理的报错日志进行编码处理,得到待处理的报错日志的编码向量;通过文本分类模型的隐藏层对该编码向量进行融合处理,得到融合向量;通过文本分类模型的输出层对该融合向量进行非线性映射处理,得到待处理的报错日志的N个类型以及N个类型中每个类型的可能性占比,也即每个类型的预测概率,N为正整数。根据所述N个类型中每个类型的可能性占比的大小,对每个类型进行排序,得到排序结果;将排序结果中前M个类型以及对应的可能性占比作为待处理的报错日志的分类结果,M小于或等于N。
也就是说,服务器102根据文本分类模型给出的各个分类的预测概率,拿到概率排序最高的前M(可手动设置)项,作为待处理的报错日志的分类结果。
进一步地,使用预设的数据库基于分类结果获取该分类结果对应的处理方案,然后向客户端101返回该处理方案和待处理的报错日志。
其中,预设的数据库中存储有与历史报错日志的分类结果对应的处理方案。
客户端101在拿到日志原文件、日志分析的结果及相对应的解决方案后,通过对比分析结果和原文件,对原文件中关键报错信息进行高亮处理,并在日志最后追加日志分析报告,将可能的报错原因从高到低排列,并给出相应的解决办法。
可选地,若上述处理方案不能正确解决待处理的报错日志,服务器102会记录该待处理的报错日志,同时上述文本分类模型会持续记录用户使用过程中的反馈,把用户反馈日志解析错误的数据单独报错,并在支持人员人工标注后周期性训练,以达到模型不断优化的效果。
该实施例中的日志的处理方法,通过获取待处理的报错日志;使用预设的文本分类模型基于待处理的报错日志获取待处理的报错日志的分类结果,进一步地,使用预设的数据库基于分类结果获取分类结果对应的处理方案,再返回至客户端,克服了现有大数据日志提供方式中的不足,提高了报错任务日志分析的准确性。进一步地,对于无经验的机器学***台的开发人员,可以降低在支持方面的工作量,将更多精力放在开发上面。
在上述实施例的基础上,图3为本申请一个实施例提供的日志的处理***示意图,该***包括服务器102,该服务器102包括日志下载存储单元301、文本分类训练单元302、日志分析单元303和结果展示单元304,各模块之间可以进行通信。
其中,日志下载存储单元301提供通用的运行日志下载单元,支持将日志直接下载到用户的客户端,同时也保存到服务器,或者直接下载存储到服务器中,并且对下载的日志文件进行分割过滤筛选,方便后续分析使用。所有下载的历史记录都会保存起来,在进行分割标记后用于文本快速分类算法的训练。
文本分类训练单元302通过标记过的历史日志文件即历史报错日志,采用FASTTEXT算法,对模型进行训练优化,生成一个针对日志内容的文本分类模型。
日志分析单元303在训练好的文本分类模型接收到待分析的日志后,会分割过滤筛选日志内容,得到待处理的报错日志,并根据这些内容生成该报错日志各种可能的报错分类和各个分类的可能性数据值,即分类结果,并依据各种类型报错对应的排查方法生成一系列可能生效的处理方案。
结果展示单元304将日志分析单元303生成的分析结果进行渲染展示。例如将日志文件中重要的报错信息进行高亮展示,并展示对应的报错信息可能的错误分类,并提供一系列有效解决方案。
可选地,在结果展示单元可以提供用户反馈功能,对算法提供的解决方法没有正确解决报错的日志进行单独记录保存,在人工分析解决后,将日志再次送入模型进行训练,以达到完善模型,提高分析准确率的目的。
作为一种示例,在上述实施例的基础上,图4为本申请一个实施例提供的日志的处理方法的整体流程图。如图4所示,该日志的处理方法的整体流程包括S401、S402、S403、S404、S405、S406、S407和S408。下面以用户和服务器的角度详细说明图4所示的方法中的各个步骤。
S401,用户下载运行报错日志。
该步骤中,当应用程序在服务器上运行失败时,用户点击下载运行报错日志。
S402,下载单元从集群拉取日志。
S403,判断是否进行日志解析,若是,则执行S404,否则执行S408。
该步骤中,服务器会提示用户是否在下载完成后对日志文件进行解析,默认会对日志进行解析,即执行S404。
S404,分割日志文件,过滤筛选出报错及相关日志。
该步骤中,由于从集群拉取得到的日志文件数据量较大,内容比较丰富,且格式比较复杂,对于筛查排错的作用并不显著,且不能直接使用快速文本分类(FASTTEXT)算法进行预测,因此通过分割日志,过滤筛选出待处理的报错日志。
S405,使用训练好的模型对分割后的日志进行预测。
该步骤中,将上述分割好的待处理的报错日志输入至训练好的文本训练模型中,得到待处理的报错日志的错误类型以及每个类型对应的预测概率。
S406,根据预测结果类型对比历史报错数据库,查找解决方案。
该步骤中,根据上述步骤中得到的待处理的报错日志的错误类型以及每个类型对应的预测概率,选择概率排序的前M项的预测结果类型对比预设的历史报错数据库,得到对应的解决方案,其中M为用户的预设值。
S407,渲染日志。
该步骤中,将上述得到的待处理的报错日志的分析结果进行渲染,例如将日志文件中重要的报错信息进行高亮展示。
S408,展示日志。
该步骤中,将待处理的报错日志对应的报错信息可能的错误类型,以及相应的有效解决方案进行展示。
该实施例中的日志的处理方法可以提高报错任务日志分析的准确性,进而能够为无经验的机器学习平台建模人员提供解决报错的方案,为有经验的建模人员简化日志分析工作。
图5示出了本申请实施例提供的日志的处理装置500,该装置500包括:获取模块501、训练模块502和记录模块503。
其中,获取模块501,用于获取待处理的报错日志;所述获取模块501还用于使用预设的文本分类模型基于待处理的报错日志获取待处理的报错日志的分类结果,分类结果包括至少一个报错的类型,至少一个报错的类型包括语法报错、词语报错和/或符号报错;其中,预设的文本分类模型是根据历史报错日志和历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
作为一种示例,装置500可以用于执行图2所示的方法,例如,获取模块501用于执行S201和S202。
在一种可能的实现方式中,获取模块501具体用于:通过文本分类模型的输入层对待处理的报错日志进行编码处理,得到待处理的报错日志的编码向量;通过文本分类模型的隐藏层对编码向量进行融合处理,得到融合向量;通过文本分类模型的输出层对融合向量进行非线性映射处理,得到待处理的报错日志的N个类型以及所述N个类型中每个类型的可能性占比,N为正整数;根据N个类型中每个类型的可能性占比的大小,对每个类型进行排序,得到排序结果;将排序结果中前M个类型以及对应的可能性占比作为待处理的报错日志的分类结果,所述M小于或等于所述N。
在一种可能的实现方式中,获取模块501还用于获取历史报错日志和历史报错日志对应的报错的类型;训练模块502,用于根据历史报错日志和历史报错日志对应的报错的类型,对快速文本分类算法模型进行训练,得到文本分类模型。
在一种可能的实现方式中,获取模块501还用于使用预设的数据库基于分类结果获取分类结果对应的处理方案,预设的数据库中存储有与历史报错日志的分类结果对应的处理方案;返回处理方案和待处理的报错日志。
在一种可能的实现方式中,获取模块501具体用于:获取服务器的所有运行日志;基于关键字和报错堆栈对所有运行日志进行过滤,得到待处理的报错日志。
在一种可能的实现方式中,记录模块503,用于若处理方案不能正确解决待处理的报错日志,记录待处理的报错日志。
图6为本申请另一个实施例提供的装置示意图。图6所示的装置可以用于执行前述任意一个实施例所述的方法。
如图6所示,本实施例的装置600包括:存储器601、处理器602、通信接口603以及总线604。其中,存储器601、处理器602、通信接口603通过总线604实现彼此之间的通信连接。
存储器601可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器601可以存储程序,当存储器601中存储的程序被处理器602执行时,处理器602用于执行上述实施例中所示的方法的各个步骤。
处理器602可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例中所示的各个方法。
处理器602还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例的方法的各个步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器602还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、ASIC、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601,处理器602读取存储器601中的信息,结合其硬件完成本申请装置包括的单元所需执行的功能。
通信接口603可以使用但不限于收发器一类的收发装置,来实现装置600与其他设备或通信网络之间的通信。
总线604可以包括在装置600各个部件(例如,存储器601、处理器602、通信接口603)之间传送信息的通路。
应理解,本申请实施例所示的装置600可以是电子设备,或者,也可以是配置于电子设备中的芯片。
需要说明的是,本申请中的日志的处理方法及装置可用于大数据领域,也可用于除大数据领域以外的任意领域。本申请对该日志的处理方法及装置的应用领域不作限定。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种日志的处理方法,其特征在于,包括:
获取待处理的报错日志;
使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,所述分类结果包括至少一个报错的类型,所述至少一个报错的类型包括语法报错、词语报错和/或符号报错;
其中,所述预设的文本分类模型是根据历史报错日志和所述历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,包括:
通过所述文本分类模型的输入层对所述待处理的报错日志进行编码处理,得到所述待处理的报错日志的编码向量;
通过所述文本分类模型的隐藏层对所述编码向量进行融合处理,得到融合向量;
通过所述文本分类模型的输出层对所述融合向量进行非线性映射处理,得到所述待处理的报错日志的N个类型以及所述N个类型中每个类型的可能性占比,N为正整数;
根据所述N个类型中每个类型的可能性占比的大小,对每个类型进行排序,得到排序结果;
将所述排序结果中前M个类型以及对应的可能性占比作为所述待处理的报错日志的分类结果,所述M小于或等于所述N。
3.根据权利要求1或2所述的方法,其特征在于,在所述使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果之前,所述方法还包括:
获取所述历史报错日志和所述历史报错日志对应的报错的类型;
根据所述历史报错日志和所述历史报错日志对应的报错的类型,对快速文本分类算法模型进行训练,得到所述文本分类模型。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
使用预设的数据库基于所述分类结果获取所述分类结果对应的处理方案,所述预设的数据库中存储有与所述历史报错日志的分类结果对应的处理方案;
返回所述处理方案和所述待处理的报错日志。
5.根据权利要求1或2所述的方法,其特征在于,所述获取待处理的报错日志,包括:
获取服务器的所有运行日志;
基于关键字和报错堆栈对所述所有运行日志进行过滤,得到所述待处理的报错日志。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若所述处理方案不能正确解决所述待处理的报错日志,记录所述待处理的报错日志。
7.一种日志的处理***,其特征在于,包括计算机设备和应用于执行权利要求1至6中任一项所述的方法的服务器;
所述服务器用于将待处理的报错日志的分类结果和所述分类结果对应的处理方案发送至所述计算机设备;
所述计算机设备用于通过图形用户界面显示所述待处理的报错日志的分类结果和所述分类结果对应的处理方案。
8.一种日志的处理装置,其特征在于,包括:
获取模块,用于获取待处理的报错日志;
所述获取模块还用于使用预设的文本分类模型基于所述待处理的报错日志获取所述待处理的报错日志的分类结果,所述分类结果包括至少一个报错的类型,所述至少一个报错的类型包括语法报错、词语报错和/或符号报错;
其中,所述预设的文本分类模型是根据历史报错日志和所述历史报错日志对应的报错的类型对快速文本分类算法模型进行训练得到的。
9.一种服务器,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品中包括计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1至6中任一项所述的方法。
CN202210129688.8A 2022-02-11 2022-02-11 日志的处理方法及装置 Pending CN114491044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210129688.8A CN114491044A (zh) 2022-02-11 2022-02-11 日志的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210129688.8A CN114491044A (zh) 2022-02-11 2022-02-11 日志的处理方法及装置

Publications (1)

Publication Number Publication Date
CN114491044A true CN114491044A (zh) 2022-05-13

Family

ID=81481400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210129688.8A Pending CN114491044A (zh) 2022-02-11 2022-02-11 日志的处理方法及装置

Country Status (1)

Country Link
CN (1) CN114491044A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997158A (zh) * 2022-06-22 2022-09-02 ***数智科技有限公司 一种基于Openstack的日志关键错误自动识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997158A (zh) * 2022-06-22 2022-09-02 ***数智科技有限公司 一种基于Openstack的日志关键错误自动识别方法及装置

Similar Documents

Publication Publication Date Title
US8453027B2 (en) Similarity detection for error reports
US10289541B2 (en) Source code flow analysis using information retrieval
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和***
US20190243753A1 (en) Intermittent failure metrics in technological processes
US20170039554A1 (en) Method And System For Real-Time, Load-Driven Multidimensional And Hierarchical Classification Of Monitored Transaction Executions For Visualization And Analysis Tasks Like Statistical Anomaly Detection
CN110688307B (zh) JavaScript代码检测方法、装置、设备和存储介质
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN1664810A (zh) 辅助表格填充
CN111108481B (zh) 故障分析方法及相关设备
US11449488B2 (en) System and method for processing logs
CN106156355A (zh) 日志处理方法及装置
US9706005B2 (en) Providing automatable units for infrastructure support
US20230161947A1 (en) Mathematical models of graphical user interfaces
CN105630656A (zh) 基于日志模型的***健壮性分析方法及装置
CN108460068A (zh) 报表导入导出的方法、装置、存储介质及终端
CN105260290A (zh) 应用异常信息收集方法和装置
US11792081B2 (en) Managing telecommunication network event data
US11734159B2 (en) Ranking test cases specific to changes in software code
CN114491044A (zh) 日志的处理方法及装置
CN113392000A (zh) 测试用例执行结果分析方法、装置、设备及存储介质
Al-Sabbagh et al. Selective regression testing based on big data: comparing feature extraction techniques
CN111475405A (zh) 回归测试的方法、装置、计算机设备及存储介质
US20110231360A1 (en) Persistent flow method to define transformation of metrics packages into a data store suitable for analysis by visualization
CN115185797A (zh) 视觉算法模型的测试方法、***、电子设备及存储介质
CN111382068B (zh) 一种大批量数据的层次测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination