CN114328076B - 日志信息提取方法、装置、计算机设备和存储介质 - Google Patents

日志信息提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114328076B
CN114328076B CN202111111333.8A CN202111111333A CN114328076B CN 114328076 B CN114328076 B CN 114328076B CN 202111111333 A CN202111111333 A CN 202111111333A CN 114328076 B CN114328076 B CN 114328076B
Authority
CN
China
Prior art keywords
log information
log
history
log data
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111111333.8A
Other languages
English (en)
Other versions
CN114328076A (zh
Inventor
黄文昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111111333.8A priority Critical patent/CN114328076B/zh
Publication of CN114328076A publication Critical patent/CN114328076A/zh
Application granted granted Critical
Publication of CN114328076B publication Critical patent/CN114328076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种日志信息提取方法、装置、计算机设备和存储介质。可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括:获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。采用本方法能够在无具体关键字的前提下,能够提高日志信息提取效率。

Description

日志信息提取方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种日志信息提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了日志信息提取技术,日志信息提取技术主要用于提取***日志中的有效信息,以便利用有效信息对***进行分析和处理。
传统技术中,由于各个***间打印日志的方式不尽相同,无法使用通用的关键字对***日志进行过滤,因此需要在每次提取***日志中的有效信息时自行设置具体关键字。
然而,传统方法由于需要在每次提取有效信息时逐个设置关键字,操作繁琐,存在日志信息提取效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高日志信息提取效率的日志信息提取方法、装置、计算机设备、存储介质和程序产品。
一种日志信息提取方法,所述方法包括:
获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
一种日志信息提取装置,所述装置包括:
获取模块,用于获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
特征提取模块,用于对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
第一过滤模块,用于根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
处理模块,用于采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
第二过滤模块,用于根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理日志信息、历史日志信息以及历史关键字集合,历史日志信息包含历史关键字;
对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
上述日志信息提取方法、装置、计算机设备、存储介质和程序产品,通过获取历史日志信息以及历史关键字集合,对包含历史关键字的历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集,利用公共特征参数集和历史关键字集合对待处理日志信息进行过滤,能够实现对待处理日志信息的初步过滤,得到满足历史关键字要求以及公共特征参数要求的初步过滤日志信息,通过采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串,以最长公共子串作为关键字,对待处理日志信息进行过滤,能够得到包含最长公共子串的目标日志信息,整个过程,能够在无具体关键字的前提下,利用基于历史日志信息以及历史关键字集合所得到的最长公共子串实现对待处理日志信息中目标日志信息的获取,能够提高日志信息提取效率。
附图说明
图1为一个实施例中日志信息提取方法的流程示意图;
图2为一个实施例中日志信息提取方法的应用场景图;
图3为一个实施例中得到初步过滤日志信息的流程示意图;
图4为一个实施例中得到目标日志信息的流程示意图;
图5为一个实施例中日志信息提取装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种日志信息提取方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、车载终端、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,也可以是区块链中的节点。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本实施例中,该方法包括以下步骤:
步骤102,获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字。
其中,待处理日志信息是指需要提取有效信息的日志信息。比如,待处理日志信息具体可以是指组件日志信息。又比如,待处理日志信息具体可以是指业务日志信息。再比如,待处理日志信息具体可以是组件日志信息和业务日志信息组成的集合。其中的组件是指让***运行起来所必须的控件,比如消息队列。历史关键字集合是指历史关键字的集合,历史关键字是指与过去提取出的历史有效信息对应的关键字,可通过对历史有效信息进行统计分析得到。比如,历史关键字具体可以是指与历史有效信息对应的字符串。历史日志信息是指在过去已提取出历史有效信息的、包含历史关键字的日志信息。
具体的,当需要进行日志信息提取时,服务器会获取待处理日志信息、历史日志信息以及历史关键字集合。其中,日志信息提取具体可以为定时触发,即根据预先设置的时间间隔定期进行日志信息提取。进一步的,当开始进行日志信息提取时,服务器会触发待测***服务器上部署的agent(代理),使agent上报待处理日志信息,并从预设数据库中获取历史日志信息以及历史关键字集合。
进一步的,服务器可按照预设历史日志选取规则从预设数据库中获取历史日志信息。其中,预设历史日志选取规则可按照需要自行设置。比如,预设历史日志选取规则具体可以是与各业务类型对应的、随机选取的、给定数量要求的日志数据。需要说明的是,日志数据都有对应的业务标识,根据业务标识可确定与各业务类型对应的日志数据。
步骤104,对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集。
其中,公共特征参数集是指公共特征参数的集合,公共特征参数是指在历史日志信息中历史日志数据中均存在的特征数据。比如,公共特征参数具体可以是指在历史日志信息中历史日志数据中均存在的字符串。
具体的,服务器会对历史日志信息中历史日志数据进行特征提取,确定在历史日志数据中均存在的特征参数,将在历史日志数据中均存在的特征参数作为公共特征参数,归集公共特征参数,得到与历史日志信息对应的公共特征参数集。
步骤106,根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息。
具体的,服务器会先利用历史关键字集合中历史关键字对待处理日志信息中日志数据进行遍历,以筛选出包含历史关键字的日志数据,再利用公共特征参数集对筛选出的包含历史关键字的日志数据进行遍历,以得到与每条包含历史关键字的日志数据对应的公共特征参数数量,根据公共特征参数数量以及预设公共特征参数数量要求对包含历史关键字的日志数据进行过滤,得到初步过滤日志信息。其中,在筛选出包含历史关键字的日志数据后,服务器会对其进行过滤转换,统一编码格式,将其转换为字符串信息以等待过滤。其中,编码格式具体可以为UTF-8(8位元,Universal Character Set/UnicodeTransformation Format)编码。公共特征参数数量是指在日志数据中出现的公共特征参数的数量,此处需要说明的是,此处的公共特征参数数量是指不同的公共特征参数的数量,即若在某条日志数据中仅重复出现同一公共特征参数,该条日志数据的公共特征参数数量为1。预设公共特征参数数量要求可按照需要自行设置,比如,预设公共特征参数数量要求具体可以为包括至少两个公共特征参数。
步骤108,采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串。
其中,最长公共子串是指字符串与子串的所有公共子串中长度最大的子串,其中,字符串S是将n个字符顺次排列形成的数组,n称为字符串S的长度,表示为len(S),S的第i字符表示为S[i],字符串S的子串S[i:j](i≤j)表示字符串S中从i到j这一段,也就是排列S[i],S[i+1],…,S[j]形成的字符串。最长公共子串算法用于对业务日志数据进行字符串匹配,确定出与业务日志数据对应的最长公共子串。比如,最长公共子串算法具体可以是KMP(Knuth-Morris-Pratt)算法。
具体的,在初步过滤日志信息中包括与各业务类型对应的日志数据,因此在确定与初步过滤日志信息对应的最长公共子串时,服务器会先获取初步过滤日志信息中日志数据的业务标识,以根据业务标识,从初步过滤日志信息中选取出与各业务类型对应的业务日志数据,再采用最长公共子串算法,从业务日志数据中提取出与初步过滤日志信息对应的最长公共子串,通过这种方式,能够确保最长公共子串的普适性。其中,业务标识是指用于区分不同业务类型的标识。比如,业务标识具体可以是指用于区分不同业务类型的字符串。每条日志数据都有对应的业务标识表明其来源。
进一步的,可根据预设的业务日志数据选取要求从初步过滤日志信息中选取出与各业务类型对应的业务日志数据,业务日志数据选取要求可按照需要自行设置,具体可以包括业务类型数量要求以及每种业务类型的日志数据数量要求,比如,业务类型数量要求可以为3,每种业务类型的日志数据数量要求可以为1,则服务器需要获取初步过滤日志信息中3条不同业务流产生的日志数据作为业务日志数据。
步骤110,根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
其中,目标日志信息是指从待处理日志信息中提取出的有效信息,这里的有效信息是指可用于对***进行分析和处理的信息。
具体的,服务器会以最长公共子串作为关键字,对待处理日志信息进行过滤,筛选出包括最长公共子串的日志数据,得到第二日志信息,再通过最长公共子串以及检测第二日志信息中日志数据中是否存在给定的分割符,对第二日志信息中日志数据进行分割,得到分割后日志数据,最后利用公共特征参数集对分割后日志数据进行过滤,得到目标日志信息。
上述日志信息提取方法,通过获取历史日志信息以及历史关键字集合,对包含历史关键字的历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集,利用公共特征参数集和历史关键字集合对待处理日志信息进行过滤,能够实现对待处理日志信息的初步过滤,得到满足历史关键字要求以及公共特征参数要求的初步过滤日志信息,通过采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串,以最长公共子串作为关键字,对待处理日志信息进行过滤,能够得到包含最长公共子串的目标日志信息,整个过程,能够在无具体关键字的前提下,利用基于历史日志信息以及历史关键字集合所得到的最长公共子串实现对待处理日志信息中目标日志信息的获取,能够提高日志信息提取效率。
在一个实施例中,对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集包括:
对历史日志信息中历史日志数据进行拆分,得到与历史日志信息对应的备选特征参数集合;
根据备选特征参数集合遍历历史日志数据,确定在历史日志数据中均存在的公共特征参数;
归集公共特征参数,得到与历史日志信息对应的公共特征参数集。
其中,备选特征参数集合是备选特征参数的集合,备选特征参数是指从历史日志数据中拆分出的、可能为公共特征参数的特征参数。比如,特征参数具体可以是指字符串,则备选特征参数具体可以是指从历史日志数据中拆分出的、可能为公共字符串的字符串。公共特征参数是指在历史日志数据中均存在的备选特征参数。
具体的,服务器会先对历史日志信息中历史日志数据进行拆分,将历史日志数据拆分为多个备选特征参数,得到与历史日志信息对应的备选特征参数集合,再根据备选特征参数集合遍历历史日志数据,确定在历史日志数据中均存在的备选特征参数,将该在历史日志数据中均存在的备选特征参数作为公共特征参数,最后归集所有公共特征参数,得到与历史日志信息对应的公共特征参数集。
进一步的,上述对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集的过程可利用文本特征抽取算法实现。比如,文本特征抽取算法具体可以是指独热编码,通过利用独热编码对历史日志数据进行编码,可以得到与历史日志信息对应的备选特征参数集合(即词袋),再通过备选特征参数集合对历史日志数据进行特征值提取,可以确定在历史日志数据中均存在的公共特征参数。
本实施例中,通过对历史日志信息中历史日志数据进行拆分,得到与历史日志信息对应的备选特征参数集合,根据备选特征参数集合遍历历史日志数据,能够确定在历史日志数据中均存在的公共特征参数,得到与历史日志信息对应的公共特征参数集。
在一个实施例中,根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息包括:
根据历史关键字集合对待处理日志信息进行过滤,得到第一日志信息;
根据公共特征参数集中公共特征参数,对第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量;
根据公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,得到初步过滤日志信息。
具体的,服务器会根据历史关键字集合中历史关键字对待处理日志信息中日志数据进行过滤,以筛选出包含历史关键字的日志数据,得到第一日志信息,再利用公共特征参数集中公共特征参数对第一日志信息中日志数据进行遍历,统计得到与每条日志数据对应的公共特征参数数量,比对公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,得到初步过滤日志信息。其中,在对第一日志信息中日志数据进行过滤时,服务器会滤除公共特征参数数量不满足预设公共特征参数数量要求的日志数据。举例说明,当预设公共特征参数数量要求为公共特征参数数量为至少两个时,服务器会滤除公共特征参数数量仅为1个的日志数据。
本实施例中,通过根据历史关键字集合对待处理日志信息进行过滤,得到第一日志信息,根据公共特征参数集中公共特征参数,对第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量,根据公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,能够利用两次过滤,得到初步过滤日志信息。
在一个实施例中,采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串包括:
获取初步过滤日志信息中日志数据的业务标识;
根据业务标识,选取与各业务类型对应的业务日志数据;
采用最长公共子串算法,得到与业务日志数据对应的最长公共子串;
将与业务日志数据对应的最长公共子串,作为与初步过滤日志信息对应的最长公共子串。
其中,业务标识是指用于区分不同业务类型的标识。比如,业务标识具体可以是指用于区分不同业务类型的字符串。每条日志数据都有对应的业务标识表明其来源。
具体的,服务器会先获取初步过滤日志信息中日志数据的业务标识,根据业务标识以及预设的业务日志数据选取要求,从初步过滤日志信息中选取出满足业务日志数据选取要求的、与各业务类型对应的业务日志数据,采用最长公共子串算法,对业务日志数据进行字符串查找,得到与业务日志数据对应的最长公共子串,将与业务日志数据对应的最长公共子串,作为与初步过滤日志信息对应的最长公共子串。
具体的,在采用最长公共子串算法,对业务日志数据进行字符串查找时,服务器会先采用最长公共子串算法,确定业务日志数据中每两条相邻日志数据之间的最长公共子串,再对每两条相邻日志数据之间的最长公共子串进行字符串查找,以得到与初步过滤日志信息对应的最长公共子串。其中,每两条相邻日志数据是指在业务日志数据中存储顺序相邻的日志数据。比如,当业务日志数据中包括来自3条不同业务流产生的日志数据1、日志数据2以及日志数据3时,日志数据1与日志数据2为相邻日志数据,日志数据2与日志数据3为相邻日志数据。
举例说明,当业务日志数据中包括来自3条不同业务流产生的日志数据1、日志数据2以及日志数据3时,在确定最长公共子串时,服务器会先利用最长公共子串算法,确定日志数据1与日志数据2之间的第一最长公共子串,以及日志数据2与日志数据3之间的第二最长公共子串,再利用最长公共子串算法,确定第一最长公共子串以及第二最长公共子串之间的第三最长公共子串,将该第三最长公共子串作为与初步过滤日志信息对应的最长公共子串。
本实施例中,通过获取初步过滤日志信息中日志数据的业务标识,根据业务标识,选取与各业务类型对应的业务日志数据,采用最长公共子串算法,得到与业务日志数据对应的最长公共子串,能够利用与业务日志数据对应的最长公共子串,得到与初步过滤日志信息对应的最长公共子串。
在一个实施例中,根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息包括:
根据最长公共子串,对待处理日志信息进行过滤,得到第二日志信息;
对第二日志信息中日志数据进行分割符检测;
根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割,得到分割后日志数据;
根据公共特征参数集对分割后日志数据进行过滤,得到目标日志信息。
其中,分割符用于标识文本分隔的位置。比如,分割符具体可以是指“|”。
具体的,在得到最长公共子串后,服务器会利用最长公共子串对待处理日志信息进行过滤,以筛选出所有包含最长公共子串的日志数据,得到第二日志信息,再对第二日志信息中日志数据进行分割符检测,以判断第二日志信息中日志数据中是否存在分割符,当第二日志信息中日志数据中存在分割符时,服务器需要先按照分割符对第二日志信息中日志数据进行分割,得到分割切片集合。在利用分割符完成分割后,服务器会进一步利用最长公共子串对分割切片集合进行二次分割,得到分割后日志数据。在得到分割后日志数据后,服务器会利用公共特征参数集中公共特征参数对分割后日志数据进行过滤,以筛选出满足公共特征参数数量要求的目标日志信息。
本实施例中,通过根据最长公共子串,对待处理日志信息进行过滤,得到第二日志信息,对第二日志信息中日志数据进行分割符检测,根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割,得到分割后日志数据,根据公共特征参数集对分割后日志数据进行过滤,能够实现对目标日志信息的获取。
在一个实施例中,根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割,得到分割后日志数据包括:
当分割符检测结果为存在分割符时,根据分割符,对第二日志信息中日志数据进行分割,得到分割切片集合;
确定分割切片集合中每个分割切片对应的最长公共子串片段数;
根据最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。
其中,分割切片集合中包括根据分割符进行分割后的第二日志信息中日志数据以及不存在分割符的第二日志信息中日志数据。最长公共子串片段数是指最长公共子串在分割切片中出现的次数。
具体的,当分割符检测结果为存在分割符时,服务器会根据分割符,对第二日志信息中日志数据进行分割,将第二日志信息中日志数据分割为多个分割切片,得到分割切片集合,再确定分割切片集合中每个分割切片对应的最长公共子串片段数,根据最长公共子串在分割切片中的位置,对最长公共子串片段数不为1的分割切片进行二次分割,得到分割后日志数据。需要说明的是,当分割符检测结果为不存在分割符时,表示并不需要对第二日志信息中日志数据进行分割,服务器会直接将第二日志信息中日志数据作为分割切片集合。
其中,根据最长公共子串在分割切片中的位置,对最长公共子串片段数不为1的分割切片进行二次分割是指以每个最长公共子串在分割切片中的位置为开头,对分割切片进行分割。举例说明,当分割切片中存在两个最长公共子串时,服务器会根据这两个最长公共子串的位置,对分割切片进行二次分割,将分割切片拆分为两条分割后日志数据。
本实施例中,通过在分割符检测结果为存在分割符时,根据分割符,对第二日志信息中日志数据进行分割,得到分割切片集合,确定分割切片集合中每个分割切片对应的最长公共子串片段数,能够根据最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。
在一个实施例中,根据公共特征参数集对分割后日志数据进行过滤,得到目标日志信息包括:
获取与分割后日志数据对应的目标业务标识;
根据目标业务标识,对分割后日志数据进行业务信息提取,得到备选日志信息;
根据公共特征参数集对备选日志信息进行过滤,得到目标日志信息。
其中,目标业务标识是指与分割后日志数据对应的业务标识。备选日志信息是指符合业务需求的日志信息,不同业务类型所对应的业务需求不同,所以需要根据业务类型有针对性的提取日志信息。举例说明,若业务需求为生成业务分析树,则备选日志信息需要为从分割后日志数据中提取出来的、能够生成业务分析树的日志信息。
具体的,服务器会获取与分割后日志数据对应的目标业务标识,根据目标业务标识调用对应的业务配置脚本,根据业务配置脚本对分割后日志数据进行分析,以确定分割后日志数据是否符合业务需求,当分割后日志数据符合业务需求时,将分割后日志数据归为备选日志信息。其中,业务配置脚本用于对分割后日志数据是否能够满足业务需求进行判断。进一步的,在根据业务配置脚本对分割后日志数据进行分析时,服务器会提取出分割后日志数据中最长公共子串后的日志数据,利用业务配置脚本对该最长公共子串后的日志数据进行分析。
具体的,在得到备选日志信息后,服务器会进一步根据公共特征参数集中公共特征参数对备选日志信息中日志数据进行遍历,统计得到与每条日志数据对应的公共特征参数数量,比对公共特征参数数量以及预设公共特征参数数量要求,筛选出满足预设公共特征参数数量要求的日志数据作为目标日志信息。
本实施例中,通过获取与分割后日志数据对应的目标业务标识,根据目标业务标识,对分割后日志数据进行业务信息提取,得到备选日志信息,根据公共特征参数集对备选日志信息进行过滤,能够实现对目标日志信息的获取。
如图2所示,本申请还提供一种应用场景,该应用场景应用上述的日志信息提取方法。具体地,该日志信息提取方法在该应用场景的应用如下:
数据源即待处理日志信息,包括组件日志以及业务日志,控制中心、监督学习中心以及字串生成中心组成服务器,其具体可以为服务器中的模块,可全部或部分通过软件、硬件及其组合来实现。
在控制中心中包括收集器,当需要进行日志信息提取时,收集器会触发待测***服务器上部署的agent,使agent上报组件日志以及业务日志。在获取待处理日志信息时,收集器会同时获取历史日志信息以及预存的历史关键字集合,根据历史关键字集合对待处理日志信息进行过滤初筛,得到第一日志信息,并将历史日志信息、历史关键字集合以及第一日志信息输出至监督学习中心。
监督学习中心会根据对历史日志信息中历史日志数据进行拆分,得到与历史日志信息对应的备选特征参数集合,根据备选特征参数集合遍历历史日志数据,确定在历史日志数据中均存在的公共特征参数,归集公共特征参数,得到与历史日志信息对应的公共特征参数集,根据公共特征参数集中公共特征参数,对第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量,根据公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,得到初步过滤日志信息并输出至控制中心中的键值生成器。举例说明,监督学习中心可使用独热编码对历史日志数据进行特征提取,提取出历史日志数据中都存在的参数作为公共特征参数。
键值生成器在接收到初步过滤日志信息后,会获取初步过滤日志信息中日志数据的业务标识,根据业务标识,选取与各业务类型对应的业务日志数据,采用最长公共子串算法,得到与业务日志数据对应的最长公共子串,将与业务日志数据对应的最长公共子串,作为与初步过滤日志信息对应的最长公共子串并反馈至收集器。其中,业务日志数据由不同业务流产生的日志数据组成,通过这种方式能够保证最长公共子串的最大普适性。
收集器在接收到最长公共子串后,会根据最长公共子串,对待处理日志信息进行过滤,得到第二日志信息,对第二日志信息中日志数据进行分割符检测,根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割,得到分割后日志数据,根据公共特征参数集对分割后日志数据进行过滤,得到目标日志信息,根据目标日志信息生成并输出报告,触达项目干系人。
其中,在根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割时,若分割符检测结果为存在分割符时,收集器会根据分割符,对第二日志信息中日志数据进行分割,得到分割切片集合,确定分割切片集合中每个分割切片对应的最长公共子串片段数,根据最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。举例说明,得到分割后日志数据的过程可以为,首先检查第二日志信息中日志数据中是否存在给定的分割符,若存在分割符,则对分割符进行切片,以筛选出包含最长公共子串的片段,其次判断切片中存在几份最长公共子串,若存在单份,直接提取出最长公共子串后部分即可,若存在多份,再对切片进行二次切片,提取出每个最长公共子串后部分,得到分割后日志数据。
其中,根据公共特征参数集对分割后日志数据进行过滤,得到目标日志信息时,收集器会获取与分割后日志数据对应的目标业务标识,根据目标业务标识,对分割后日志数据进行业务信息提取,得到备选日志信息,根据公共特征参数集对备选日志信息进行过滤,得到目标日志信息。
在一个实施例中,如图3所示,通过一个实施例来说明本申请中得到初步过滤日志信息的方式,该方式具体包括以下步骤:
步骤302,获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
步骤304,对历史日志信息中历史日志数据进行拆分,得到与历史日志信息对应的备选特征参数集合;
步骤306,根据备选特征参数集合遍历历史日志数据,确定在历史日志数据中均存在的公共特征参数;
步骤308,归集公共特征参数,得到与历史日志信息对应的公共特征参数集;
步骤310,根据历史关键字集合对待处理日志信息进行过滤,得到第一日志信息;
步骤312,根据公共特征参数集中公共特征参数,对第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量;
步骤314,根据公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,得到初步过滤日志信息。
在一个实施例中,如图4所示,通过一个实施例来说明本申请中根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息的方式,该方式具体包括以下步骤:
步骤402,根据最长公共子串,对待处理日志信息进行过滤,得到第二日志信息;
步骤404,对第二日志信息中日志数据进行分割符检测;
步骤406,当分割符检测结果为存在分割符时,根据分割符,对第二日志信息中日志数据进行分割,得到分割切片集合;
步骤408,确定分割切片集合中每个分割切片对应的最长公共子串片段数;
步骤410,根据最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据;
步骤412,获取与分割后日志数据对应的目标业务标识;
步骤414,根据目标业务标识,对分割后日志数据进行业务信息提取,得到备选日志信息;
步骤416,根据公共特征参数集对备选日志信息进行过滤,得到目标日志信息。
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种日志信息提取装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块502、特征提取模块504、第一过滤模块506、处理模块508和第二过滤模块510,其中:
获取模块502,用于获取待处理日志信息、历史日志信息以及预存的历史关键字集合,历史日志信息包含历史关键字;
特征提取模块504,用于对历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集;
第一过滤模块506,用于根据公共特征参数集和历史关键字集合对待处理日志信息进行过滤,得到初步过滤日志信息;
处理模块508,用于采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串;
第二过滤模块510,用于根据最长公共子串,对待处理日志信息进行过滤,得到目标日志信息。
上述日志信息提取装置,通过获取历史日志信息以及历史关键字集合,对包含历史关键字的历史日志信息进行特征提取,得到与历史日志信息对应的公共特征参数集,利用公共特征参数集和历史关键字集合对待处理日志信息进行过滤,能够实现对待处理日志信息的初步过滤,得到满足历史关键字要求以及公共特征参数要求的初步过滤日志信息,通过采用最长公共子串算法,确定与初步过滤日志信息对应的最长公共子串,以最长公共子串作为关键字,对待处理日志信息进行过滤,能够得到包含最长公共子串的目标日志信息,整个过程,能够在无具体关键字的前提下,利用基于历史日志信息以及历史关键字集合所得到的最长公共子串实现对待处理日志信息中目标日志信息的获取,能够提高日志信息提取效率。
在一个实施例中,特征提取模块还用于对历史日志信息中历史日志数据进行拆分,得到与历史日志信息对应的备选特征参数集合,根据备选特征参数集合遍历历史日志数据,确定在历史日志数据中均存在的公共特征参数,归集公共特征参数,得到与历史日志信息对应的公共特征参数集。
在一个实施例中,第一过滤模块还用于根据历史关键字集合对待处理日志信息进行过滤,得到第一日志信息,根据公共特征参数集中公共特征参数,对第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量,根据公共特征参数数量以及预设公共特征参数数量要求,对第一日志信息中日志数据进行过滤,得到初步过滤日志信息。
在一个实施例中,处理模块还用于获取初步过滤日志信息中日志数据的业务标识,根据业务标识,选取与各业务类型对应的业务日志数据,采用最长公共子串算法,得到与业务日志数据对应的最长公共子串,将与业务日志数据对应的最长公共子串,作为与初步过滤日志信息对应的最长公共子串。
在一个实施例中,第二过滤模块还用于根据最长公共子串,对待处理日志信息进行过滤,得到第二日志信息,对第二日志信息中日志数据进行分割符检测,根据分割符检测结果和最长公共子串,对第二日志信息中日志数据进行分割,得到分割后日志数据,根据公共特征参数集对分割后日志数据进行过滤,得到目标日志信息。
在一个实施例中,第二过滤模块还用于当分割符检测结果为存在分割符时,根据分割符,对第二日志信息中日志数据进行分割,得到分割切片集合,确定分割切片集合中每个分割切片对应的最长公共子串片段数,根据最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。
在一个实施例中,第二过滤模块还用于获取与分割后日志数据对应的目标业务标识,根据目标业务标识,对分割后日志数据进行业务信息提取,得到备选日志信息,根据公共特征参数集对备选日志信息进行过滤,得到目标日志信息。
关于日志信息提取装置的具体限定可以参见上文中对于日志信息提取方法的限定,在此不再赘述。上述日志信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史日志信息以及历史关键字集合等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种日志信息提取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种日志信息提取方法,其特征在于,所述方法包括:
获取待处理日志信息、历史日志信息以及预存的历史关键字集合,所述历史日志信息包含历史关键字;
对所述历史日志信息进行特征提取,得到与所述历史日志信息对应的公共特征参数集;
根据所述历史关键字集合对所述待处理日志信息进行过滤,得到第一日志信息;
根据所述公共特征参数集中公共特征参数,对所述第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量;
根据所述公共特征参数数量以及预设公共特征参数数量要求,对所述第一日志信息中日志数据进行过滤,得到初步过滤日志信息;
采用最长公共子串算法,确定与所述初步过滤日志信息对应的最长公共子串;
根据所述最长公共子串,对所述待处理日志信息进行过滤,得到目标日志信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史日志信息进行特征提取,得到与所述历史日志信息对应的公共特征参数集包括:
对所述历史日志信息中历史日志数据进行拆分,得到与所述历史日志信息对应的备选特征参数集合;
根据所述备选特征参数集合遍历所述历史日志数据,确定在所述历史日志数据中均存在的公共特征参数;
归集所述公共特征参数,得到与所述历史日志信息对应的公共特征参数集。
3.根据权利要求1所述的方法,其特征在于,所述采用最长公共子串算法,确定与所述初步过滤日志信息对应的最长公共子串包括:
获取所述初步过滤日志信息中日志数据的业务标识;
根据所述业务标识,选取与各业务类型对应的业务日志数据;
采用最长公共子串算法,得到与所述业务日志数据对应的最长公共子串;
将所述与所述业务日志数据对应的最长公共子串,作为与所述初步过滤日志信息对应的最长公共子串。
4.根据权利要求1所述的方法,其特征在于,所述根据所述最长公共子串,对所述待处理日志信息进行过滤,得到目标日志信息包括:
根据所述最长公共子串,对所述待处理日志信息进行过滤,得到第二日志信息;
对所述第二日志信息中日志数据进行分割符检测;
根据分割符检测结果和所述最长公共子串,对所述第二日志信息中日志数据进行分割,得到分割后日志数据;
根据所述公共特征参数集对所述分割后日志数据进行过滤,得到目标日志信息。
5.根据权利要求4所述的方法,其特征在于,所述根据分割符检测结果和所述最长公共子串,对所述第二日志信息中日志数据进行分割,得到分割后日志数据包括:
当所述分割符检测结果为存在分割符时,根据所述分割符,对所述第二日志信息中日志数据进行分割,得到分割切片集合;
确定所述分割切片集合中每个分割切片对应的最长公共子串片段数;
根据所述最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。
6.根据权利要求4所述的方法,其特征在于,所述根据所述公共特征参数集对所述分割后日志数据进行过滤,得到目标日志信息包括:
获取与所述分割后日志数据对应的目标业务标识;
根据所述目标业务标识,对所述分割后日志数据进行业务信息提取,得到备选日志信息;
根据所述公共特征参数集对所述备选日志信息进行过滤,得到目标日志信息。
7.一种日志信息提取装置,其特征在于,所述装置包括:
获取模块,用于获取待处理日志信息、历史日志信息以及预存的历史关键字集合,所述历史日志信息包含历史关键字;
特征提取模块,用于对所述历史日志信息进行特征提取,得到与所述历史日志信息对应的公共特征参数集;
第一过滤模块,用于根据所述历史关键字集合对所述待处理日志信息进行过滤,得到第一日志信息,根据所述公共特征参数集中公共特征参数,对所述第一日志信息中日志数据进行遍历,得到与每条日志数据对应的公共特征参数数量,根据所述公共特征参数数量以及预设公共特征参数数量要求,对所述第一日志信息中日志数据进行过滤,得到初步过滤日志信息;
处理模块,用于采用最长公共子串算法,确定与所述初步过滤日志信息对应的最长公共子串;
第二过滤模块,用于根据所述最长公共子串,对所述待处理日志信息进行过滤,得到目标日志信息。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块还用于对所述历史日志信息中历史日志数据进行拆分,得到与所述历史日志信息对应的备选特征参数集合,根据所述备选特征参数集合遍历所述历史日志数据,确定在所述历史日志数据中均存在的公共特征参数,归集所述公共特征参数,得到与所述历史日志信息对应的公共特征参数集。
9.根据权利要求7所述的装置,其特征在于,所述处理模块还用于获取所述初步过滤日志信息中日志数据的业务标识,根据所述业务标识,选取与各业务类型对应的业务日志数据,采用最长公共子串算法,得到与所述业务日志数据对应的最长公共子串,将所述与所述业务日志数据对应的最长公共子串,作为与所述初步过滤日志信息对应的最长公共子串。
10.根据权利要求7所述的装置,其特征在于,所述第二过滤模块还用于根据所述最长公共子串,对所述待处理日志信息进行过滤,得到第二日志信息,对所述第二日志信息中日志数据进行分割符检测,根据分割符检测结果和所述最长公共子串,对所述第二日志信息中日志数据进行分割,得到分割后日志数据,根据所述公共特征参数集对所述分割后日志数据进行过滤,得到目标日志信息。
11.根据权利要求10所述的装置,其特征在于,所述第二过滤模块还用于当所述分割符检测结果为存在分割符时,根据所述分割符,对所述第二日志信息中日志数据进行分割,得到分割切片集合,确定所述分割切片集合中每个分割切片对应的最长公共子串片段数,根据所述最长公共子串片段数对每个分割切片进行二次分割,得到分割后日志数据。
12.根据权利要求10所述的装置,其特征在于,所述第二过滤模块还用于获取与所述分割后日志数据对应的目标业务标识,根据所述目标业务标识,对所述分割后日志数据进行业务信息提取,得到备选日志信息,根据所述公共特征参数集对所述备选日志信息进行过滤,得到目标日志信息。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202111111333.8A 2021-09-18 2021-09-18 日志信息提取方法、装置、计算机设备和存储介质 Active CN114328076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111111333.8A CN114328076B (zh) 2021-09-18 2021-09-18 日志信息提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111111333.8A CN114328076B (zh) 2021-09-18 2021-09-18 日志信息提取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN114328076A CN114328076A (zh) 2022-04-12
CN114328076B true CN114328076B (zh) 2024-04-30

Family

ID=81045626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111111333.8A Active CN114328076B (zh) 2021-09-18 2021-09-18 日志信息提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114328076B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165141A (ja) * 2009-01-15 2010-07-29 Kyowa Exeo Corp テキストログからの特定箇所抽出方法およびプログラム
JP2011113354A (ja) * 2009-11-27 2011-06-09 Nec Corp ログ出力装置、ログ出力方法、ログ出力用プログラム
WO2017166644A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 一种数据采集方法和***
CN107301120A (zh) * 2017-07-12 2017-10-27 北京京东尚科信息技术有限公司 用于处理非结构化日志的方法及装置
CN109271356A (zh) * 2018-09-03 2019-01-25 中国平安人寿保险股份有限公司 日志文件格式处理方法、装置、计算机设备和存储介质
CN111400361A (zh) * 2020-02-13 2020-07-10 中国平安人寿保险股份有限公司 数据实时存储方法、装置、计算机设备和存储介质
CN111475324A (zh) * 2020-04-03 2020-07-31 西安广和通无线软件有限公司 日志信息的分析方法、装置、计算机设备和存储介质
CN111582341A (zh) * 2020-04-29 2020-08-25 中国工商银行股份有限公司 用户异常操作预测方法及装置
CN112199937A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种短文本相似度分析方法及其***、计算机设备、介质
CN112235327A (zh) * 2020-12-16 2021-01-15 中移(苏州)软件技术有限公司 异常日志检测方法、装置、设备和计算机可读存储介质
JP2021039488A (ja) * 2019-09-02 2021-03-11 富士通株式会社 辞書作成装置及び辞書作成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461842B (zh) * 2013-09-23 2018-02-16 伊姆西公司 基于日志相似性来处理故障的方法和装置
US11113317B2 (en) * 2016-09-29 2021-09-07 Micro Focus Llc Generating parsing rules for log messages

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165141A (ja) * 2009-01-15 2010-07-29 Kyowa Exeo Corp テキストログからの特定箇所抽出方法およびプログラム
JP2011113354A (ja) * 2009-11-27 2011-06-09 Nec Corp ログ出力装置、ログ出力方法、ログ出力用プログラム
WO2017166644A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 一种数据采集方法和***
CN107301120A (zh) * 2017-07-12 2017-10-27 北京京东尚科信息技术有限公司 用于处理非结构化日志的方法及装置
CN109271356A (zh) * 2018-09-03 2019-01-25 中国平安人寿保险股份有限公司 日志文件格式处理方法、装置、计算机设备和存储介质
JP2021039488A (ja) * 2019-09-02 2021-03-11 富士通株式会社 辞書作成装置及び辞書作成方法
CN111400361A (zh) * 2020-02-13 2020-07-10 中国平安人寿保险股份有限公司 数据实时存储方法、装置、计算机设备和存储介质
CN111475324A (zh) * 2020-04-03 2020-07-31 西安广和通无线软件有限公司 日志信息的分析方法、装置、计算机设备和存储介质
CN111582341A (zh) * 2020-04-29 2020-08-25 中国工商银行股份有限公司 用户异常操作预测方法及装置
CN112199937A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种短文本相似度分析方法及其***、计算机设备、介质
CN112235327A (zh) * 2020-12-16 2021-01-15 中移(苏州)软件技术有限公司 异常日志检测方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN114328076A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US10721256B2 (en) Anomaly detection based on events composed through unsupervised clustering of log messages
CN111355697B (zh) 僵尸网络域名家族的检测方法、装置、设备及存储介质
CN114244603B (zh) 异常检测及对比嵌入模型训练、检测方法、装置及介质
CN113254255B (zh) 一种云平台日志的分析方法、***、设备及介质
CN111368289B (zh) 一种恶意软件检测方法和装置
CN113422763B (zh) 基于攻击场景构建的报警关联分析方法
CN112070120A (zh) 威胁情报的处理方法、装置、电子装置和存储介质
CN112733146B (zh) 基于机器学习的渗透测试方法、装置、设备及存储介质
KR102425525B1 (ko) 베이지안 확률 및 폐쇄 패턴 마이닝 방식을 이용한 로그 이상 탐지 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN113656254A (zh) 基于日志信息的异常检测方法、***和计算机设备
CN111240942A (zh) 日志异常检测方法及装置
CN110333990B (zh) 数据处理方法以及装置
CN111625342A (zh) 一种数据溯源方法、装置及服务器
KR20210054799A (ko) Url 클러스터링을 위한 url의 요약을 생성하는 방법 및 장치
CN105243327B (zh) 一种文件安全处理方法
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN111966339B (zh) 埋点参数的录入方法、装置、计算机设备和存储介质
CN114328076B (zh) 日志信息提取方法、装置、计算机设备和存储介质
CN116821053A (zh) 数据上报方法、装置、计算机设备和存储介质
CN113128213A (zh) 日志模板提取方法及装置
KR20180070247A (ko) 네트워크 침입 탐지 규칙을 생성하는 방법 및 장치
CN116821903A (zh) 检测规则确定及恶意二进制文件检测方法、设备及介质
CN116155589A (zh) 一种基于机器学习的攻击事件类型的识别方法和***
CN107305540B (zh) 地址切分识别方法
CN111475380B (zh) 一种日志分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant