CN106844143A - 一种日志去重处理方法及装置 - Google Patents

一种日志去重处理方法及装置 Download PDF

Info

Publication number
CN106844143A
CN106844143A CN201611225828.2A CN201611225828A CN106844143A CN 106844143 A CN106844143 A CN 106844143A CN 201611225828 A CN201611225828 A CN 201611225828A CN 106844143 A CN106844143 A CN 106844143A
Authority
CN
China
Prior art keywords
daily record
sample
compared
default
cryptographic hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611225828.2A
Other languages
English (en)
Inventor
邱帅兵
徐长龙
任文越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201611225828.2A priority Critical patent/CN106844143A/zh
Publication of CN106844143A publication Critical patent/CN106844143A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种日志去重处理方法及装置,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。利用样本日志遍历预设存储空间中的日志,以样本日志的哈希值分别与遍历到的各个日志的哈希值进行比对,若相似,则更新与样本日志相似的日志对应的相似日志条数;若不相似,则存储该样本日志,并为样本日志设置初始化的统计信息,从而不需要对相似日志进行存储,而仅对不相似的日志进行存储,实现去重归并处理,减少了存储的日志的数量,降低了观察识别的难度,以便于及时发现故障原因。

Description

一种日志去重处理方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种日志去重处理方法及装置。
背景技术
日志,是网络设备、***及服务程序等在运作时产生的事件记录,用于以字符串的方式记载日期、时间、使用者及动作等相关操作的描述。
在现有的分布式***中,为了保证***能够正常运行,需要对业务***的运行状态进行监控,以便于在发生故障时能够及时通知开发以及运维人员进行维护、调试等管理。
目前,主要通过浏览日志的信息内容的方式对业务***的运行状态进行监控,然而,在业务***的运行过程中,日志是连续产生的,且针对同一故障产生的日志数量很大,大多是由于可变参数的不同而出现的重复日志,致使工作人员不易对日志的信息内容进行观察,进而无法及时发现故障原因,降低维护效率。
发明内容
本申请实施例提供一种日志去重处理方法,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。
本申请实施例还提供一种日志去重处理装置,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。
本申请实施例采用下述技术方案:
一种日志去重处理方法,包括:
获取待去重处理的样本日志;
检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;
若检测到与所述样本日志相比满足预设相似度条件的日志,则更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;
若未检测到与所述样本日志相比满足预设相似度条件的日志,则存储所述样本日志,并为所述样本日志设置初始化的统计信息。
一种日志去重处理装置,包括:
获取单元,用于获取待去重处理的样本日志;
检测单元,用于检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;
更新单元,用于在检测到与所述样本日志相比满足预设相似度条件的日志时,更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;
存储单元,用于在未检测到与所述样本日志相比满足预设相似度条件的日志时,存储所述样本日志,并为所述样本日志设置初始化的统计信息。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
在本发明中,利用样本日志遍历预设存储空间中的日志,以样本日志的哈希值分别与遍历到的各个日志的哈希值进行比对,从而不需要对相似日志进行存储,而仅对不相似的日志进行存储,实现去重归并处理,减少了存储的日志的数量,降低了观察识别的难度,以便于及时发现故障原因。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一提供的一种日志去重方法的步骤示意图;
图2为本发明实施例中通过服务接口传输预设存储空间中存储信息的示意图;
图3为本发明提供的日志去重处理流程示意图;
图4(a)-图4(c)为本发明所涉及的三张预设日志列表示意图;
图5为本发明实施例二提供的一种日志去重处理装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本发明以下实施例中“预设存储空间”中以及“预设日志列表”中所涉及的日志均为由于故障而产生的错误、异常或警告类型的日志。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例一
如图1所示,为本发明实施例一提供的一种日志去重方法的步骤示意图,其中,该日志去重方法的执行主体可以为一种服务器,用以实现***业务运行服务,具体地,该服务器可以为电脑、手机或者大型分布式计算机***;该日志去重过程主要包括以下步骤:
步骤11:获取待去重处理的样本日志。
本发明中所涉及的样本日志可以理解为业务***由于故障而产生的日志,主要包括错误、异常、警告这三类,而每一条日志可以包含时间信息、所处位置(具体至哪一文件夹、哪一行)、返回值以及日志类型等。
在实际的业务***运行过程中,会不间断的产生日志到kafka中,其中,kafka是专门用于进行日志处理的分布式消息队列。针对存入kafka中的日志进行故障识别,具体可根据读取每条日志中的日志类型来识别该日志是否为由故障而产生的日志,若识别到该日志中的日志类型为错误、异常、警告中的任一种,则提取该日志作为本发明方案中的样本日志,否则,识别为正常运行产生的日志,不作处理。
步骤12:检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志,若检测到与所述样本日志相比满足预设相似度条件的日志,则执行步骤13,否则,执行步骤14。
其中,该步骤12中所涉及的预设存储空间可以为执行主体中用户存储空间,用以临时存储一些所需数据,例如,本发明中用以存储去重归并后的日志。
具体地,在本发明中,该步骤12可具体执行为以下步骤:
第一步,根据Simhash算法计算样本日志的哈希值。
Simhash算法是一种文档去重的哈希hash算法,其去重速度较快且高效。考虑到本发明中所涉及样本日志的日志信息包含有英文字母、数字以及特殊符号等字符串,虽然采用Simhash算法,但是,不同于现有技术中的文档分词方式,而是对Simhash算法进行了改进,利用空格、特殊字符等除数字和字母以外的字符对样本日志的日志信息这一字符串进行分割来实现分词处理,然后,对分割后的单词进行Simhash计算,得到该样本日志的哈希值(即hashcode)。举例说明:当前样本日志的日志信息为:“Connect DB Error IP:xx1Port:xx2”,按照本发明中的方式,采用空格对该日志信息进行分词处理,得到以下分词结果:分词1“Connect”,分词2“DB”,分词3“Error”,分词4“IP:xx1”,分词5“Port:xx2”;之后,按照现有的Simhash算法分配相应权重并计算出该样本日志的哈希值。通过改进后的Simhash算法对样本日志进行哈希值的计算,可提升该样本日志的哈希值的精准度,且能够较好的反映样本日志的性能,便于后续进行相似度匹配。
第二步,将样本日志的哈希值与预设存储空间中日志的哈希值进行比对,确定预设存储空间中是否存在比对结果大于等于相似度阈值的日志。
在该步骤中,通过上述确定的样本日志的哈希值,遍历预设存储空间中的所有日志,第一种情况是:预设存储空间还未存储日志,显然预设存储空间中不存在与样本日志相似的日志;第二种情况是:预设存储空间存储有至少一条日志,且样本日志的哈希值与预设存储空间中的任一条日志的哈希值比对后,都小于相似度阈值,则确定预设存储空间中不存在与样本日志相似的日志;第三种情况是:预设存储空间存储有至少一条日志,且样本日志的哈希值与预设存储空间中的其中一条日志的哈希值比对后,大于等于相似度阈值,则确定预设存储空间中存在与样本日志相似的日志。
可选地,在本发明实施例中,考虑到日志信息的长度对日志的相似度比对影响较大,因此,可以根据样本日志的日志信息的长度确定合适的相似度阈值,具体地,考虑到日志信息的长度与其包含的可变参数的数量呈正相关,即日志信息的长度越长,其中的可变参数可能越多,那么,可设置较低的相似度阈值,例如相似度阈值设置为0.7;日志信息的长度越短,可变参数越少,可设置较高的相似度阈值,例如相似度阈值设置为0.8或0.9。
一种较佳的相似度阈值设置方案:大致统计日志的字符数,根据字符数大小将日志分为三个等级,一级:包含字符数0-100的日志;二级:包含字符数100-200的日志;三级:包含字符数200-500的日志。其中,一级的日志对应相似度阈值可配置为0.9;二级日志对应相似度阈值可配置为0.8;对应相似度阈值可配置为0.7。从而,通过这种方式将相似度条件的粒度精细化处理,尽可能将相似的日志归并在一起,提升去重的精度。
步骤13:更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息。其中,统计信息至少包含相似日志条数。
针对第三种情况,在确定预设存储空间中存在与样本日志相似的日志后,说明与样本日志相似的日志已经被记录,不需要再次存储该样本日志,而是采用对所述日志对应的统计信息进行更新的方式对该样本日志进行归并处理。举例说明,在确定已存储有与样本日志x1相似的日志x2后,不对该样本日志x1进行存储,而仅是对日志x2对应的统计信息中的相似日志条数进行更新,假设当前日志x2对应的统计信息中记录的相似日志条数为4条,那么,对该统计信息进行更新的操作即为:在当前相似日志条数4条的基础上加1,将相似日志条数更新为5条。从而,通过这种归并处理,对重复的样本日志进行条数的累加,以便于运维人员获知该类重复的日志的出现概率。
步骤14:存储样本日志,并为样本日志设置初始化的统计信息。
针对第一种情况以及第二种情况,在确定预设存储空间中不存在与样本日志相似的日志后,说明该样本日志在***运行过程中第一次出现,需要对该样本日志进行记录,以展示给运维人员进行处理。举例说明,在确定未发现与样本日志y1相似的日志后,对该样本日志y1进行存储,可选地,按照上述Simhash算法确定出样本日志y1的哈希值后,可将该样本日志y1的哈希值作为键值信息进行保存,将样本日志y1的日志信息作为实值信息进行保存,同时,在实值信息中设置该样本日志y1对应的相似日志条数为初始值1。通过该方式对样本日志进行存储,即存储样本日志的日志信息的同时,还存储样本日志的哈希值,便于后续直接利用哈希值与下一个样本日志的哈希值进行比对;而且,不需要额外为样本日志分配标识以区分存储了的各个日志;可见,本发明通过将哈希值作为键值存储,既实现了区分日志的目的,同时还避免了后续比对时重新计算哈希值的繁琐。
可选地,参照图2所示,为本发明实施例中通过服务接口传输预设存储空间中存储信息的示意图,其中,日志去重处理装置21设置有http接口22,并通过该http接口22与显示界面23连接,用以将预设存储空间中的存储的信息通过一种轻量级的数据交换方式进行信息汇总,即转换成JavaScript对象表示法(JavaScript Object Notation,JSON)格式,并传输到显示界面23进行展示。从而,便于运维人员更为直观的发现错误、异常和警告日志的详细信息,并及时解决。需要说明的是,该展示操作可以在日志去重处理装置21与显示界面23连接之后就开启,即实时传输展示,也可以在对一条样本日志进行去重处理之后进行展示更新。其实,在本发明中,采用JSON方式进行数据格式的转换是一种优选实现方案,也可以不对存储信息进行数据格式转换,直接展示存储信息。
考虑到业务***中的错误、异常和警告日志可能是由于有限的几处代码运行产生的,但是,由于每个代码处可设置不同的参数,因此,每处代码会重复发送类似的日志(错误或异常或警告),这种重复数量很大,导致产生成千上万条日志,若不对这些日志进行去重处理,将会全部展示给运维人员,而运维人员对大量日志进行观察并从中发现问题,这种管理实现难度相当大,且效率很低。通过本发明实施例,通过上述方案对样本日志进行去重归并,即使有很多由于相同故障而产生的日志,也可以通过在日志的统计信息中记录相似日志条数的方式进行去重归并处理,而不对所有日志进行存储。从而,保证展示的日志是没有重复的,减少了展示给运维人员的日志数量;便于运维人员直观发现日志所反映出的故障原因,并及时查看和调用。
可选地,在本发明实施例中,考虑到运维人员并不是时刻对展示界面进行观察,因此,当运维人员外出或是下班期间,一方面通过JSON的方式将预设存储空间中的信息展示至显示界面,另一方面,可通过向运维人员发送报警邮件的方式汇报当前的故障事件;具体地,在确定不存在相似的日志时,向已绑定的运维人员的邮箱发出报警邮件,较佳地,报警邮件中可携带有该样本日志的日志信息,以便于运维人员提前大致了解问题的严重程度,进而做出合适的调度工作。在运维人员获知该报警邮件后,可以通过观察显示界面展示的内容及时发现由于故障而产生的日志,进而及时对该日志进行调用处理以解决该故障。
其实,在相关技术中,在检测到错误、异常或警告等类型的日志时,即会通过发送报警邮件的方式向运维人员报警,而由于故障产生的日志数量较大,运维人员可能会在很短的时间内收到成千上万封邮件,这种邮件积压以及短时间内的大量接收,会给邮箱负载带来压力,且不便于运维人员查看。为了避免这种问题的发生,本发明中所涉及的统计信息还包含:存储日志时的初始时间以及更新相似日志条数的更新时间;那么,当检测到与样本日志相比满足预设相似度条件的日志之后,且在更新与样本日志相比满足预设相似度条件的日志对应的统计信息之前,可根据日志对应的统计信息中的初始时间以及更新时间,判断此时的更新时间是否落入当前报警周期内,若是,则不作处理;否则,发出报警消息。
下面通过具体的实例对本发明实施例一所涉及的方案进行更为详细的说明。
如图3所示,为本发明提供的日志去重处理流程示意图,本流程仅示出对任意一个类型为异常的样本日志的处理过程,其他类型的样本日志类似。
步骤31:从kafka中提取待去重处理的异常日志A。
步骤32:利用空格对该异常日志A进行分词处理,并计算该异常日志A的哈希值。
假设计算得到异常日志A的哈希值为200。
步骤33:将该异常日志A的哈希值遍历预设日志列表中的日志的哈希值,若遍历到相似的日志B,则执行步骤34,否则,执行步骤35。
所述预设日志列表为上述实施例中预设存储空间的一种具体实现形式,该预设日志列表中设置有键值项以及实值项,参照图4(a)所示的一种可能实现的预设日志列表示意图,该列表中存储有三条日志,其中,键值项存储有每条日志的哈希值,实值项存储有每条日志的日志信息、相似日志条数以及初始时间、更新时间。
其实,该预设日志列表中可以为空,即未存储有任何日志。
在本步骤33中,首先确定该异常日志A的字符数,假设为256,之后,根据确定的字符数从预设的日志等级中选择合适的相似度阈值,该异常日志A对应的相似度阈值为0.7;接着,将该异常日志A分别与预设日志列表中的日志进行比对,其实质是得到异常日志A的哈希值分别与预设日志列表中的日志的哈希值的百分比(其中,若异常日志A的哈希值小于预设日志列表中的日志的哈希值,则异常日志A的哈希值作为分子;反之,异常日志A的哈希值作为分母)。然后,将得到的百分比与选择的相似度阈值进行比较,若大于等于相似度阈值,则表示该异常日志A与进行比对的日志相似,若小于相似度阈值,则表示该异常日志A与进行比对的日志不相似。
步骤34:判断更新时间是否落入当前报警周期内,若是,则更新日志B对应的相似日志条数以及更新时间,否则,执行步骤36。
为了避免用户在一段时间内反复收到由于同一故障发送的相似邮件,可为相似日志触发发送邮件设置一报警周期,例如,假设,发现预设日志列表中存在与异常日志A相似的日志B,且日志B的报警周期设置为1小时,而发现日志B中初始时间为2:30,而更新时间为2:50,当前时间为3:00进而可以确定在当前报警周期2:30-3:30之间已经报警了,因此,当该异常日志来到后,不需要发送报警邮件,仅执行去重归并时更新处理操作即可。若发现日志B中初始时间为2:30,而更新时间为2:50,当前时间为4:00,进而可以确定在当前报警周期3:30-4:30之间还未报警,因此,当该异常日志来到后,可以发送报警邮件。从而,通过这种方式减少由于相似日志而发送大量类似报警邮件的问题,便于用户观察及解决故障。
步骤36:更新日志B对应的相似日志条数以及更新时间,并发出报警邮件。
其实,该步骤是对异常日志A的一种归并处理,即不对异常日志A进行重复存储,而是在已存储的且与异常日志A相似的日志对应的相似日志条数中进行加1处理,表示该类重复日志又出现一条;并在对更新时间进行更新处理。假设,图4(a)中键值为236的日志与异常日志A相似,那么,参照图4(b)所示,不会在该预设日志列表中添加异常日志A,而是在键值为236的日志对应的相似日志条数处更新为3,同时,初始时间不做处理,更新时间更新为当前时刻3:00。
步骤35:存储异常日志A,并为该异常日志A设置初始化的相似日志条数、初始时间以及更新时间,并发出报警邮件。
参照图4(c)所示,在该预设日志列表中添加异常日志A,具体地,在键值位置处添加200,实值位置处添加该异常日志A的日志信息,同时,设置相似日志条数为1,初始时间为3:00,更新时间为3:00。其中,初始时间为存储该异常日志A的时刻,不会更新,而更新时间会随着相似日志条数的更新而更新。
之后,会通过发送报警邮件的方式通知运维人员进行维护。
其实,在上述实施例中,并没有对错误、异常、警告这三类日志进行区分,即这三类日志可以统一在一张预设日志列表中进行去重归并,而实际上,为了便于维护人员及时发现并维护***运行安全,可以根据日志的三种类型进行分类,即可以通过分别设置错误日志列表、异常日志列表以及警告日志列表的方式来实现,其具体可以根据日志信息中的日志类型来识别区分。
同时,考虑到在发送报警邮件的同时,还会将预设日志列表中更新的内容实时转换并展示至显示界面,因此,该方案还可以包括:
步骤37:将预设日志列表转换为JSON形式的数据。
步骤38:通过服务接口将转换后的预设日志列表进行展示。
由此,采用以上技术方案,利用样本日志遍历预设存储空间中的日志,以样本日志的哈希值分别与遍历到的各个日志的哈希值进行比对,若相似,则更新与样本日志相似的日志对应的相似日志条数;若不相似,则存储该样本日志,并为样本日志设置初始化的统计信息,从而不需要对相似日志进行存储,而仅对不相似的日志进行存储,实现去重归并处理,减少了存储的日志的数量,降低了观察识别的难度,以便于及时发现故障原因。
实施例二
与上述实施例一提供的一种日志去重处理方法属于同一发明构思,本发明还提供了一种日志去重处理装置。
如图5所示,为本发明实施例二提供的一种日志去重处理装置结构示意图,该装置主要包括以下功能单元:
获取单元51,用于获取一待去重处理的样本日志.
检测单元52,用于检测预设存储空间中是否存在与样本日志相比满足预设相似度条件的日志。
更新单元53,用于在检测到与样本日志相比满足预设相似度条件的日志时,更新与样本日志相比满足预设相似度条件的日志对应的统计信息,其中,统计信息至少包含相似日志条数;
存储单元54,用于在未检测到与样本日志相比满足预设相似度条件的日志时,存储样本日志,并为样本日志设置初始化的统计信息。
可选地,为了实现快速有效的相似度检测,检测单元具体用于根据Simhash算法确定所述样本日志的哈希值;将样本日志的哈希值与所述预设存储空间中日志的哈希值进行比对,确定所述预设存储空间中是否存在比对结果大于等于相似度阈值的日志。
可选地,为了提高确定哈希值的准确性以及完整反映日志的性能,检测单元在根据Simhash算法确定所述样本日志的哈希值时,具体用于利用空格和/或特殊字符对样本日志的日志信息进行分词处理;根据Simhash算法计算分词处理后的样本日志的哈希值。
可选地,为了提高去重精度,相似度阈值与预设存储空间中日志的日志信息的长度呈负相关,其中,日志信息的长度与所述日志中可变参数的数量呈正相关。
可选地,该去重处理装置还包括:处理单元用于采用JSON的方式对预设存储空间中存储的信息进行数据转换,通过服务接口将转换后的信息对应的内容进行展示。
其中,该服务接口可以为http接口,例如,可以通过输入网址的方式实现数据转换并展示。
可选地,为了保证运维人员能够及时获知由于故障而产生的日志,以及减少相同故障发送的相似邮件的数量,该去重处理装置还包括:报警单元,用于未检测到与所述样本日志相比满足预设相似度条件的日志时,发出报警消息;
所述统计信息还包含:存储所述日志时的初始时间以及更新相似日志条数的更新时间;所述装置还包括:判断单元,用于在检测到与所述样本日志相比满足预设相似度条件的日志之后,且在更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息之前,根据所述日志对应的统计信息中的初始时间以及更新时间,判断所述更新时间是否落入当前报警周期内,若是,则不作处理,否则,触发所述报警单元发出报警消息。
实施例三
基于上述实施例二提供的一种日志去重处理装置,本发明实施例三还提供了一种服务器,该服务器包括上述任一日志去重处理装置。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种日志去重处理方法,其特征在于,包括:
获取待去重处理的样本日志;
检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;
若检测到与所述样本日志相比满足预设相似度条件的日志,则更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;
若未检测到与所述样本日志相比满足预设相似度条件的日志,则存储所述样本日志,并为所述样本日志设置初始化的统计信息。
2.如权利要求1所述的方法,其特征在于,检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志,具体包括:
根据Simhash算法确定所述样本日志的哈希值;
将所述样本日志的哈希值与所述预设存储空间中日志的哈希值进行比对,确定所述预设存储空间中是否存在比对结果大于等于相似度阈值的日志。
3.如权利要求2所述的方法,其特征在于,根据Simhash算法确定所述样本日志的哈希值,具体包括:
利用除数字和字母以外的字符对所述样本日志的日志信息进行分词处理;
根据Simhash算法计算分词处理后的样本日志的哈希值。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
采用JSON的方式对预设存储空间中存储的信息进行数据转换;
通过服务接口将转换后的信息对应的内容进行展示。
5.如权利要求4所述的方法,其特征在于,当未检测到与所述样本日志相比满足预设相似度条件的日志时,所述方法还包括:发出报警消息;
所述统计信息还包含:存储所述日志时的初始时间以及更新相似日志条数的更新时间;
当检测到与所述样本日志相比满足预设相似度条件的日志之后,且在更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息之前,所述方法还包括:
根据所述日志对应的统计信息中的初始时间以及更新时间,判断所述更新时间是否落入当前报警周期内,若是,则不作处理,否则,发出报警消息。
6.一种日志去重处理装置,其特征在于,包括:
获取单元,用于获取待去重处理的样本日志;
检测单元,用于检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;
更新单元,用于在检测到与所述样本日志相比满足预设相似度条件的日志时,更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;
存储单元,用于在未检测到与所述样本日志相比满足预设相似度条件的日志时,存储所述样本日志,并为所述样本日志设置初始化的统计信息。
7.如权利要求6所述的装置,其特征在于,所述检测单元,具体用于:
根据Simhash算法确定所述样本日志的哈希值;
将所述样本日志的哈希值与所述预设存储空间中日志的哈希值进行比对,确定所述预设存储空间中是否存在比对结果大于等于相似度阈值的日志。
8.如权利要求7所述的装置,其特征在于,所述检测单元在根据Simhash算法确定所述样本日志的哈希值时,具体用于:
利用除数字和字母以外的字符对所述样本日志的日志信息进行分词处理;
根据Simhash算法计算分词处理后的样本日志的哈希值。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
处理单元,用于采用JSON的方式对预设存储空间中存储的信息进行数据转换,通过服务接口将转换后的信息对应的内容进行展示。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
报警单元,用于未检测到与所述样本日志相比满足预设相似度条件的日志时,发出报警消息;
所述统计信息还包含:存储所述日志时的初始时间以及更新相似日志条数的更新时间;
所述装置还包括:
判断单元,用于在所述检测单元检测到与所述样本日志相比满足预设相似度条件的日志之后,且在所述更新单元更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息之前,根据所述日志对应的统计信息中的初始时间以及更新时间,判断所述更新时间是否落入当前报警周期内,若是,则不作处理,否则,触发所述报警单元发出报警消息。
CN201611225828.2A 2016-12-27 2016-12-27 一种日志去重处理方法及装置 Pending CN106844143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611225828.2A CN106844143A (zh) 2016-12-27 2016-12-27 一种日志去重处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611225828.2A CN106844143A (zh) 2016-12-27 2016-12-27 一种日志去重处理方法及装置

Publications (1)

Publication Number Publication Date
CN106844143A true CN106844143A (zh) 2017-06-13

Family

ID=59135724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611225828.2A Pending CN106844143A (zh) 2016-12-27 2016-12-27 一种日志去重处理方法及装置

Country Status (1)

Country Link
CN (1) CN106844143A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766222A (zh) * 2017-10-31 2018-03-06 努比亚技术有限公司 黑屏检测方法、移动终端及计算机可读存储介质
CN107832406A (zh) * 2017-11-03 2018-03-23 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
CN108923972A (zh) * 2018-06-30 2018-11-30 平安科技(深圳)有限公司 一种去重流量提示方法、装置、服务器及存储介质
CN109508446A (zh) * 2017-09-14 2019-03-22 北京国双科技有限公司 一种日志处理方法和装置
CN109684157A (zh) * 2018-08-28 2019-04-26 平安科技(深圳)有限公司 基于报错日志的告警方法、设备、存储介质及装置
CN109697036A (zh) * 2018-12-29 2019-04-30 北京金山安全软件有限公司 一种信息处理方法及装置
CN110191005A (zh) * 2019-06-25 2019-08-30 北京九章云极科技有限公司 一种告警日志处理方法及***
CN110929002A (zh) * 2018-09-03 2020-03-27 广州神马移动信息科技有限公司 相似文章去重的方法、装置、终端及计算机可读存储介质
CN111045782A (zh) * 2019-11-20 2020-04-21 北京奇艺世纪科技有限公司 日志处理方法、装置、电子设备和计算机可读存储介质
CN111124836A (zh) * 2019-12-26 2020-05-08 珠海金山网络游戏科技有限公司 一种程序日志记录方法及装置
CN111858486A (zh) * 2020-07-03 2020-10-30 北京天空卫士网络安全技术有限公司 一种文件分类方法和装置
CN111930701A (zh) * 2020-08-13 2020-11-13 工银科技有限公司 日志结构化处理方法及装置
CN113420032A (zh) * 2021-07-20 2021-09-21 奇安信科技集团股份有限公司 一种日志的分类存储方法及装置
CN114449628A (zh) * 2021-12-30 2022-05-06 荣耀终端有限公司 日志数据处理方法、电子设备及其介质
CN114647651A (zh) * 2022-05-19 2022-06-21 同日云联信息技术(苏州)有限公司 异构数据库同步方法及***
CN115866067A (zh) * 2022-11-24 2023-03-28 吉林亿联银行股份有限公司 日志处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605028A (zh) * 2009-02-17 2009-12-16 北京安天电子设备有限公司 一种日志记录合并方法和***
CN101710323A (zh) * 2008-09-11 2010-05-19 威睿公司 计算机存储去复制操作
CN103235811A (zh) * 2013-04-24 2013-08-07 微梦创科网络科技(中国)有限公司 一种数据存储方法及装置
CN105049260A (zh) * 2015-08-24 2015-11-11 浪潮(北京)电子信息产业有限公司 日志管理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710323A (zh) * 2008-09-11 2010-05-19 威睿公司 计算机存储去复制操作
CN101605028A (zh) * 2009-02-17 2009-12-16 北京安天电子设备有限公司 一种日志记录合并方法和***
CN103235811A (zh) * 2013-04-24 2013-08-07 微梦创科网络科技(中国)有限公司 一种数据存储方法及装置
CN105049260A (zh) * 2015-08-24 2015-11-11 浪潮(北京)电子信息产业有限公司 日志管理方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508446A (zh) * 2017-09-14 2019-03-22 北京国双科技有限公司 一种日志处理方法和装置
CN107766222A (zh) * 2017-10-31 2018-03-06 努比亚技术有限公司 黑屏检测方法、移动终端及计算机可读存储介质
CN107832406B (zh) * 2017-11-03 2020-09-11 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
CN107832406A (zh) * 2017-11-03 2018-03-23 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
CN108923972A (zh) * 2018-06-30 2018-11-30 平安科技(深圳)有限公司 一种去重流量提示方法、装置、服务器及存储介质
CN108923972B (zh) * 2018-06-30 2021-06-04 平安科技(深圳)有限公司 一种去重流量提示方法、装置、服务器及存储介质
CN109684157A (zh) * 2018-08-28 2019-04-26 平安科技(深圳)有限公司 基于报错日志的告警方法、设备、存储介质及装置
CN110929002A (zh) * 2018-09-03 2020-03-27 广州神马移动信息科技有限公司 相似文章去重的方法、装置、终端及计算机可读存储介质
CN109697036A (zh) * 2018-12-29 2019-04-30 北京金山安全软件有限公司 一种信息处理方法及装置
CN110191005A (zh) * 2019-06-25 2019-08-30 北京九章云极科技有限公司 一种告警日志处理方法及***
CN111045782A (zh) * 2019-11-20 2020-04-21 北京奇艺世纪科技有限公司 日志处理方法、装置、电子设备和计算机可读存储介质
CN111045782B (zh) * 2019-11-20 2024-01-12 北京奇艺世纪科技有限公司 日志处理方法、装置、电子设备和计算机可读存储介质
CN111124836A (zh) * 2019-12-26 2020-05-08 珠海金山网络游戏科技有限公司 一种程序日志记录方法及装置
CN111858486A (zh) * 2020-07-03 2020-10-30 北京天空卫士网络安全技术有限公司 一种文件分类方法和装置
CN111930701A (zh) * 2020-08-13 2020-11-13 工银科技有限公司 日志结构化处理方法及装置
CN111930701B (zh) * 2020-08-13 2023-08-18 中国工商银行股份有限公司 日志结构化处理方法及装置
CN113420032A (zh) * 2021-07-20 2021-09-21 奇安信科技集团股份有限公司 一种日志的分类存储方法及装置
CN114449628A (zh) * 2021-12-30 2022-05-06 荣耀终端有限公司 日志数据处理方法、电子设备及其介质
CN114449628B (zh) * 2021-12-30 2023-01-06 荣耀终端有限公司 日志数据处理方法、电子设备及其介质
CN114647651A (zh) * 2022-05-19 2022-06-21 同日云联信息技术(苏州)有限公司 异构数据库同步方法及***
CN115866067A (zh) * 2022-11-24 2023-03-28 吉林亿联银行股份有限公司 日志处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN106844143A (zh) 一种日志去重处理方法及装置
US20210019674A1 (en) Risk profiling and rating of extended relationships using ontological databases
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
EP3552363B1 (en) Near real-time detection of suspicious outbound traffic
US20200320431A1 (en) System and method for detecting anomalies in prediction generation systems
CN107171819B (zh) 一种网络故障诊断方法及装置
US10785244B2 (en) Anomaly detection method, learning method, anomaly detection device, and learning device
JP6419987B2 (ja) 出現しつつある脅威のプロアクティブな検出
US20210092160A1 (en) Data set creation with crowd-based reinforcement
CN113342564A (zh) 日志审计方法、装置、电子设备和介质
US20210281609A1 (en) Rating organization cybersecurity using probe-based network reconnaissance techniques
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
US20150172302A1 (en) Interface for analysis of malicious activity on a network
CN112328425A (zh) 一种基于机器学习的异常检测方法和***
CN102447707A (zh) 一种基于映射请求的DDoS检测与响应方法
CN114781510A (zh) 一种故障定位方法、装置、***和存储介质
CN111464510B (zh) 基于快速梯度提升树分类模型的网络实时入侵检测方法
US20200104233A1 (en) System operational analytics using normalized likelihood scores
CN110061854A (zh) 一种无边界网络智能运维管理方法与***
US20180181611A1 (en) Methods and apparatus for detecting anomalies in electronic data
CN117312098B (zh) 一种日志异常告警方法及装置
CN113132393A (zh) 异常检测方法、装置、电子设备以及存储介质
US11829425B1 (en) Social warning system
Gyanchandani et al. Intrusion detection using C4. 5: performance enhancement by classifier combination
CN115659351A (zh) 一种基于大数据办公的信息安全分析方法、***及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613

RJ01 Rejection of invention patent application after publication