CN113934547A - 一种集群环境下告警日志的记录方法、装置、设备及产品 - Google Patents

一种集群环境下告警日志的记录方法、装置、设备及产品 Download PDF

Info

Publication number
CN113934547A
CN113934547A CN202111007872.7A CN202111007872A CN113934547A CN 113934547 A CN113934547 A CN 113934547A CN 202111007872 A CN202111007872 A CN 202111007872A CN 113934547 A CN113934547 A CN 113934547A
Authority
CN
China
Prior art keywords
alarm
alarm log
file
value
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111007872.7A
Other languages
English (en)
Other versions
CN113934547B (zh
Inventor
何新洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Science Research Institute Co Ltd
Original Assignee
Shandong Inspur Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Science Research Institute Co Ltd filed Critical Shandong Inspur Science Research Institute Co Ltd
Priority to CN202111007872.7A priority Critical patent/CN113934547B/zh
Publication of CN113934547A publication Critical patent/CN113934547A/zh
Application granted granted Critical
Publication of CN113934547B publication Critical patent/CN113934547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/524Deadlock detection or avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种集群环境下告警日志的记录方法、装置、设备及产品,涉及微服务技术领域,该方法包括以下步骤:部署集群环境;确定集群环境的节点中的记录者节点;所有节点向记录者节点上报告警日志;初始化记录者节点的文件引用和最大告警序号计数器;其中,文件引用指向第一告警日志文件,第一告警日志文件为正在书写的且用于记录告警日志的文件,最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;拉取已上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用将告警日志记录至第一告警日志文件中,本发明在部署的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。

Description

一种集群环境下告警日志的记录方法、装置、设备及产品
技术领域
本发明涉及微服务技术领域,尤其涉及一种集群环境下告警日志的记录方法、装置、设备及产品。
背景技术
微服务架构很大程度上解决了传统单体架构带来的高部署成本、高改动成本、低部署频率等问题,微服务的快速扩容、弹性伸缩等特性也与目前火热的容器与云计算技术十分投契,但微服务的引入使得应用的部署数量上升为多个,***的复杂度成倍提升,出现问题后的排查难度也随之提升,因此对于微服务***而言,日志的合理记录就变的十分重要,因为漏洞(bug)的解决,数据的统计等都要依赖日志进行。
通常情况下,分布式及集群环境下的日志收集工作可以使用ELK (ElasticSearch、Logstash、Kibana)完成,但ELK本身较复杂,在技术层面,其组件数量多,学习、部署和维护的成本均比较高;在业务层面,在集群环境中,每个集群节点都会向外上报告警消息,各节点中同一条告警日志的序号是全局唯一的,各节点上报的告警日志序号在节点内部是有序递增的,但各节点之间的告警日志序号是无序的且会出现重复,因此需要对所有节点上报的无序重复告警日志进行有序无重复的记录,ELK没有提供可行的解决方案,仍然需要对 Logstash进行定制化开发。
因此,鉴于业内常用的ELK与记录告警日志需求的不契合,需要提供一种新的集群环境下告警日志记录方案。
发明内容
本发明提供一种集群环境下告警日志的记录方法、装置、设备及产品,用以解决现有技术中ELK与记录告警日志需求的不契合的缺陷,实现在部署的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。
本发明提供一种集群环境下告警日志的记录方法,包括以下步骤:
部署集群环境;其中,所述集群环境中部署有缓存中间件;
确定所述集群环境的节点中的记录者节点;
所有所述节点向所述记录者节点上报告警日志;
初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
根据本发明提供的一种集群环境下告警日志的记录方法,所述确定所述集群环境的节点中的记录者节点,具体包括以下步骤:
所述集群环境的所有节点通过所述缓存中间件竞争分布式锁;
竞争成功的所述节点为所述记录者节点,且,所述记录者节点开启守护线程;其中,竞争成功的所述节点具有预设锁有效期,所述守护线程为每隔预设时间后对所述分布式锁重新设置预设锁有效期;
竞争失败的所述节点在预设休眠时间内进行休眠,并在所述预设休眠时间结束后重新竞争分布式锁。
根据本发明提供的一种集群环境下告警日志的记录方法,所述所有所述节点向所述记录者节点上报告警日志,具体包括以下步骤:
所述节点从本地第一队列中拉取用户的所述告警日志;
当所述节点接收到用户的告警同步请求后,将拉取到的所述告警日志存放至本地第二队列;
缓存中间件的第三队列获取存放在所述本地第二序列的所述告警日志。
根据本发明提供的一种集群环境下告警日志的记录方法,所述拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中,具体包括以下步骤:
所述记录者节点从所述第三队列拉取并移除所述告警日志;
若当前所述告警日志的序号的值不大于所述最大告警序号计数器的值时,舍弃当前所述告警日志;
若当前所述告警日志的序号的值为所述最大告警序号计数器的值加一时,通过所述文件引用将当前所述告警日志追加写入所述第一告警日志文件的最后一行,且,将所述最大告警序号计数器的值加一;
若当前所述告警日志的序号的值大于所述最大告警序号计数器的值加一时,将序号为当前所述告警日志的序号的值减一至所述最大告警序号计数器的值加一对应的所有所述告警日志补写到所述第一告警日志文件的末尾,之后,通过所述文件引用将当前所述告警日志追加写入所述第一告警日志文件的最后一行,且,将所述最大告警序号计数器的值更新为当前所述告警日志的序号的值。
根据本发明提供的一种集群环境下告警日志的记录方法,所述拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中,具体包括:
若当前正在书写的所述第一告警日志文件的大小超过预设大小时,生成第二告警日志文件并更新所述文件引用,并将所述第二告警日志文件作为所述第一告警日志文件。
根据本发明提供的一种集群环境下告警日志的记录方法,所述缓存中间件为远程字典服务。
本发明还提供一种集群环境下告警日志的记录装置,包括:
部署模块,用于部署集群环境;其中,所述集群环境中部署有缓存中间件;
加锁模块,用于确定所述集群环境的节点中的记录者节点;
上报模块,用于通过所有所述节点向所述记录者节点上报告警日志;
初始化模块,用于初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
记录模块,用于拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种集群环境下告警日志的记录方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种集群环境下告警日志的记录方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种集群环境下告警日志的记录方法的步骤。
本发明提供的集群环境下告警日志的记录方法、装置、设备及产品,关于告警日志的收集放弃使用ELK,通过在部署的集群环境中选举出记录者节点,通过该记录者节点拉取所有节点上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用记录告警日志,在不额外引入复杂度的同时,高可用且高性能的完成告警日志的记录,实现在部署的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的集群环境下告警日志的记录方法的流程示意图;
图2是本发明提供的集群环境下告警日志的记录方法中步骤 S200具体的流程示意图;
图3是本发明提供的集群环境下告警日志的记录方法中步骤 S300具体的流程示意图;
图4是本发明提供的集群环境下告警日志的记录方法中步骤 S500具体的流程示意图;
图5是本发明提供的集群环境下告警日志的记录装置的结构示意图;
图6是本发明提供的集群环境下告警日志的记录装置中加锁模块具体的结构示意图;
图7是本发明提供的集群环境下告警日志的记录装置中上报模块具体的结构示意图;
图8是本发明提供的集群环境下告警日志的记录装置中记录模块具体的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通常情况下,分布式及集群环境下的日志收集工作可以使用ELK 完成,但ELK本身较复杂,在技术层面,其组件数量多,学习、部署和维护的成本均比较高;在业务层面,对所有节点上报的无序重复告警日志进行有序无重复的记录,ELK没有提供可行的解决方案,仍然需要对Logstash进行定制化开发。
下面结合图1描述本发明的集群环境下告警日志的记录方法,该方法包括以下步骤:
S100、部署集群环境,该方法的集群环境中部署有缓存中间件。优选的,缓存中间件为Redis(远程字典服务)。该方法的集群环境中还部署了消息中间件Kafka以及处理线程的工具包JUC等组件。
S200、确定集群环境的节点中的记录者节点,即选举出集群环境所有节点中的记录者节点,该记录者节点用于进行告警日志的记录。
S300、所有节点向记录者节点上报告警日志。
S400、初始化记录者节点的文件引用File和最大告警序号计数器。该方法中,文件引用File指向第一告警日志文件,第一告警日志文件为正在书写的且用于记录告警日志的文件;最大告警序号计数器的值为目前已记录的最后一条告警日志的序号,同时,该序号也是目前已记录的告警日志的最大序号。
S500、拉取已上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用File将告警日志记录至第一告警日志文件中。
为了提高在第一告警日志文件中进行历史告警信息搜索的效率,对每个第一告警日志文件的大小进行了限制,同时,将第一告警日志文件的命令规律为alarm-n.log,n为该第一告警日志文件中记录的第一条告警日志对应的序号的值。当第一告警日志文件的大小超出预设大小时,按照第一告警日志文件的命名规律生成下一个(新的)告警日志文件并更新文件引用File,即生成了第二告警日志文件,并且将该第二告警日志文件作为第一告警日志文件,由于该第二告警日志文件作为第一告警日志文件后供后续拉取的告警日志写入,可以理解的是,此时文件引用File指向的就是该第二告警日志文件。
本发明的集群环境下告警日志的记录方法,关于告警日志的收集放弃使用ELK,通过在部署的集群环境中选举出记录者节点,通过该记录者节点拉取所有节点上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用 File记录告警日志,在不额外引入复杂度的同时,高可用且高性能的完成告警日志的记录,实现在部署的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。并且,可以为集群或分布式环境下的告警日志记录提供一种轻量级的解决思路。
本发明的集群环境下告警日志的记录方法,具体的是通过部署在集群环境中的分布式锁、缓存中间件Redis、消息中间件Kafka以及处理线程的工具包JUC的阻塞队列的协同配合,在不额外引入复杂度的同时,高可用且高性能的完成告警日志的记录,实现了在部署上述组件的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。
下面结合图2描述本发明的集群环境下告警日志的记录方法,步骤S200具体包括以下步骤:
S210、集群环境的所有节点通过缓存中间件Redis竞争分布式锁。
S220、竞争成功的节点为记录者节点,且,记录者节点开启守护线程。且,在该方法中,竞争成功的节点具有预设锁有效期,守护线程为每隔预设时间后对分布式锁重新设置预设锁有效期。
S230、竞争失败的节点在预设休眠时间内进行休眠(sleep),并在预设休眠时间结束后(sleep结束后)重新竞争分布式锁。
以预设锁有效期为30秒,预设时间为10秒,预设休眠时间为 10秒举例说明。在步骤S200中,集群启动时,所有节点都通过缓存中间件Redis的SETNXEX命令竞争分布式锁即加锁,锁键值对的值为每个节点随机生成的通用唯一识别码(Universally UniqueIdentifier,UUID),由于缓存中间件Redis的单线程特性,有且只有一个节点能成功设置,此时认为成功竞争到键值对的节点为记录者节点,因此该记录者节点在整个集群环境中只有一个,并由该记录者节点负责记录所有节点上报的告警日志,竞争失败的节点会休眠10秒,休眠结束后再次尝试加锁。
节点争到锁时即持有锁时会具有30秒的锁有效期,同时持有锁的节点会开启守护线程,守护线程每10秒对锁重新设置30秒的有效期。因此,即使记录者节点宕机后,最多30秒后,其持有的锁会因为过期而自动释放,集群环境中的其他节点可以再次竞争出新的记录者节点。
下面结合图3描述本发明的集群环境下告警日志的记录方法,步骤S300具体包括以下步骤:
S310、节点从本地第一队列中拉取用户的告警日志。在该方法中,本地第一队列为消息中间件Kafka中的队列Queue1。
S320、当节点接收到用户的告警同步请求后,将拉取到的告警日志存放至本地第二队列。在该方法中,本地第二队列为本地共享的处理线程的工具包JUC中的阻塞队列Queue2。
S330、缓存中间件的第三队列获取存放在本地第二序列的告警日志。在该方法中,缓存中间件Redis的第三队列为缓存中间件Redis Server中的队列Queue3。
步骤S300中,对所有节点而言,告警日志的来源是同一个消息中间件Kafka中的队列Queue1。因此,当有告警日志产生后会存放在消息中间件Kafka中的队列Queue1的尾部,当集群启动后,节点上部署的告警管理应用开始对外提供服务,当某节点收到一个用户的告警同步请求后,该节点将从该用户上次告警同步期间同步的最后一条告警日志的下一条告警日志开始,发送告警日志给用户;如果该用户是首次登录,则从消息中间件Kafka中的队列Queue1的头部即第一条告警日志开始,依次顺序地为该用户同步所有的告警日志。
每个用户与节点建立的连接都是一个独立的线程,每个连接在连接保持期间发送给对应的用户的每条告警日志最终都要上报给记录者节点进行日志记录,在线程内部上报的流程如下:
节点从kafka队列Queue1拉取告警后,在发送告警日志给对应的用户后,将该告警日志写进一个本地共享的处理线程的工具包JUC 中的阻塞队列Queue2中,循环此流程,并继续拉取下一条告警;
每个节点在启动时会开启一个获取线程,该获取线程尝试从本地共享的处理线程的工具包JUC中的阻塞队列Queue2中获取告警日志,获取到告警日志后,会发送至缓存中间件Redis Server中的队列 Queue3。
当本地共享的处理线程的工具包JUC中的阻塞队列Queue2中无数据时线程会挂起避免忙循环,当本地共享的处理线程的工具包JUC 中的阻塞队列Queue2有告警日志会重新唤醒获取线程。通过本地共享的处理线程的工具包JUC中的阻塞队列Queue2进行一次中转可以避免在给用户同步告警日志时频繁与缓存中间件Redis交互影响吞吐量,即先将已发送给用户的告警日志存放到本地队列后再异步的发送至缓存中间件Redis。
经过步骤S100至步骤S400的处理后,告警日志的记录者节点已被选定,待记录的全部告警日志也已存放在了缓存中间件Redis Server中的队列Queue3。下面结合图4描述本发明的集群环境下告警日志的记录方法,步骤S500具体包括以下步骤:
S510、记录者节点从第三队列拉取并移除告警日志,步骤S510 可以理解为批量地从缓存中间件Redis Server中的队列Queue3的头部拉取并移除N条告警日志,此过程通过缓存中间件Redis进行确保拉取和移除的原子性。
拉取到N条告警日志后,假设当前告警日志的序号的值为B,已记录的最大告警序号计数器的值为A,在每条告警日志记录前都需要比较自身序号B与已记录的最大告警序号计数器的值A,不同的比较结果有不同的处理方式:
S520、若当前告警日志的序号的值不大于最大告警序号计数器的值时(B≤A),舍弃当前告警日志。当步骤S520的情况出现时,表示该告警日志在当前用户登录之前已被发送给别的用户,且该告警日志已被记录进日志文件,因此直接舍弃该告警日志,不计入告警日志文件中。
S530、若当前告警日志的序号的值为最大告警序号计数器的值加一时(B=A+1),通过文件引用File将当前告警日志追加写入第一告警日志文件的最后一行,且,将最大告警序号计数器的值加一。当步骤S530的情况出现时,通过文件引用File将序号为B告警日志追加写入第一告警日志文件的最后一行,并将最大告警序号计数器的值A 更新为A+1。
S540、若当前告警日志的序号的值大于最大告警序号计数器的值加一时(B>A+1),将序号为当前告警日志的序号的值减一(B-1) 至最大告警序号计数器的值加一(A+1)对应的所有告警日志补写到第一告警日志文件的末尾,之后,通过文件引用File将当前告警日志追加写入第一告警日志文件的最后一行,且,将最大告警序号计数器的值更新为当前告警日志的序号的值。步骤S540的情况很少出现,出现时一般代表网络抖动导致告警日志从本地共享的处理线程的工具包JUC中的阻塞队列Queue2发送至缓存中间件Redis Server中的队列Queue3的请求失败,因此,首先需要通过数据库查询并补写序号A+1至B-1的所有告警日志,在补写完成后,再通过文件引用File 将序号为B告警日志追加写入第一告警日志文件的最后一行,并将最大告警序号计数器的值A更新为B。
可以理解的是,步骤S500中,在拉取的N条告警日志全部写入后,检测此时的第一告警日志文件的大小是否超出预设大小,若超出,按照第一告警日志文件的命名规律生成下一个(新的)告警日志文件并更新文件引用File,即生成了第二告警日志文件,并且将该第二告警日志文件作为第一告警日志文件,此时文件引用File指向的就是该第二告警日志文件,后续再拉取的告警日志将写入到该第二告警日志文件也就是新的第一告警日志文件中。
下面对本发明提供的集群环境下告警日志的记录装置进行描述,下文描述的集群环境下告警日志的记录装置与上文描述的集群环境下告警日志的记录方法可相互对应参照。
下面结合图5描述本发明的集群环境下告警日志的记录装置,该装置包括:
部署模块100,用于部署集群环境,该装置的集群环境中部署有缓存中间件。优选的,缓存中间件为Redis(远程字典服务)。该装置的集群环境中还部署了消息中间件Kafka以及处理线程的工具包 JUC等组件。
加锁模块200,用于确定集群环境的节点中的记录者节点,即选举出集群环境所有节点中的记录者节点,该记录者节点用于进行告警日志的记录。
上报模块300,用于通过所有节点向记录者节点上报告警日志。
初始化模块400,用于初始化记录者节点的文件引用File和最大告警序号计数器。该装置中,文件引用File指向第一告警日志文件,第一告警日志文件为正在书写的且用于记录告警日志的文件;最大告警序号计数器的值为目前已记录的最后一条告警日志的序号,同时,该序号也是目前已记录的告警日志的最大序号。
记录模块500,用于拉取已上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用File将告警日志记录至第一告警日志文件中。
为了提高在第一告警日志文件中进行历史告警信息搜索的效率,对每个第一告警日志文件的大小进行了限制,同时,将第一告警日志文件的命令规律为alarm-n.log,n为该第一告警日志文件中记录的第一条告警日志对应的序号的值。当第一告警日志文件的大小超出预设大小时,按照第一告警日志文件的命名规律生成下一个(新的)告警日志文件并更新文件引用File,即生成了第二告警日志文件,并且将该第二告警日志文件作为第一告警日志文件,由于该第二告警日志文件作为第一告警日志文件后供后续拉取的告警日志写入,可以理解的是,此时文件引用File指向的就是该第二告警日志文件。
本发明的集群环境下告警日志的记录装置,关于告警日志的收集放弃使用ELK,通过在部署的集群环境中选举出记录者节点,通过该记录者节点拉取所有节点上报的告警日志,并根据已拉取的告警日志的序号的值与最大告警序号计数器的值的对应关系,通过文件引用File记录告警日志,在不额外引入复杂度的同时,高可用且高性能的完成告警日志的记录,实现在部署的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。并且,可以为集群或分布式环境下的告警日志记录提供一种轻量级的解决思路。
本发明的集群环境下告警日志的记录装置,具体的是通过部署在集群环境中的分布式锁、缓存中间件Redis、消息中间件Kafka以及处理线程的工具包JUC的阻塞队列的协同配合,在不额外引入复杂度的同时,高可用且高性能的完成告警日志的记录,实现了在部署上述组件的集群环境中异步无阻塞且有序无重复的记录所有节点上报的告警日志。
下面结合图6描述本发明的集群环境下告警日志的记录装置,加锁模块200具体包括:
第一加锁单元210,用于集群环境的所有节点通过缓存中间件 Redis竞争分布式锁。
第二加锁单元220,用于竞争成功的节点为记录者节点,且,记录者节点开启守护线程。且,在该装置中,竞争成功的节点具有预设锁有效期,守护线程为每隔预设时间后对分布式锁重新设置预设锁有效期。
第三加锁单元230,用于竞争失败的节点在预设休眠时间内进行休眠(sleep),并在预设休眠时间结束后(sleep结束后)重新竞争分布式锁。
以预设锁有效期为30秒,预设时间为10秒,预设休眠时间为 10秒举例说明。在步骤S200中,集群启动时,所有节点都通过缓存中间件Redis的SETNXEX命令竞争分布式锁即加锁,锁键值对的值为每个节点随机生成的UUID,由于缓存中间件Redis的单线程特性,有且只有一个节点能成功设置,此时认为成功竞争到键值对的节点为记录者节点,因此该记录者节点在整个集群环境中只有一个,并由该记录者节点负责记录所有节点上报的告警日志,竞争失败的节点会休眠10秒,休眠结束后再次尝试加锁。
节点争到锁时即持有锁时会具有30秒的锁有效期,同时持有锁的节点会开启守护线程,守护线程每10秒对锁重新设置30秒的有效期。因此,即使记录者节点宕机后,最多30秒后,其持有的锁会因为过期而自动释放,集群环境中的其他节点可以再次竞争出新的记录者节点。
下面结合图7描述本发明的集群环境下告警日志的记录装置,上报模块300具体包括:
第一上报单元310,用于通过节点从本地第一队列中拉取用户的告警日志。在该装置中,本地第一队列为消息中间件Kafka中的队列 Queue1。
第二上报单元320,用于当节点接收到用户的告警同步请求后,将拉取到的告警日志存放至本地第二队列。在该装置中,本地第二队列为本地共享的处理线程的工具包JUC中的阻塞队列Queue2。
第三上报单元330,用于通过缓存中间件的第三队列获取存放在本地第二序列的告警日志。在该装置中,缓存中间件Redis的第三队列为缓存中间件Redis Server中的队列Queue3。
上报模块300中,对所有节点而言,告警日志的来源是同一个消息中间件Kafka中的队列Queue1。因此,当有告警日志产生后会存放在消息中间件Kafka中的队列Queue1的尾部,当集群启动后,节点上部署的告警管理应用开始对外提供服务,当某节点收到一个用户的告警同步请求后,该节点将从该用户上次告警同步期间同步的最后一条告警日志的下一条告警日志开始,发送告警日志给用户;如果该用户是首次登录,则从消息中间件Kafka中的队列Queue1的头部即第一条告警日志开始,依次顺序地为该用户同步所有的告警日志。
每个用户与节点建立的连接都是一个独立的线程,每个连接在连接保持期间发送给对应的用户的每条告警日志最终都要上报给记录者节点进行日志记录,在线程内部上报的流程如下:
节点从kafka队列Queue1拉取告警后,在发送告警日志给对应的用户后,将该告警日志写进一个本地共享的处理线程的工具包JUC 中的阻塞队列Queue2中,循环此流程,并继续拉取下一条告警;
每个节点在启动时会开启一个获取线程,该获取线程尝试从本地共享的处理线程的工具包JUC中的阻塞队列Queue2中获取告警日志,获取到告警日志后,会发送至缓存中间件Redis Server中的队列 Queue3。
当本地共享的处理线程的工具包JUC中的阻塞队列Queue2中无数据时线程会挂起避免忙循环,当本地共享的处理线程的工具包JUC 中的阻塞队列Queue2有告警日志会重新唤醒获取线程。通过本地共享的处理线程的工具包JUC中的阻塞队列Queue2进行一次中转可以避免在给用户同步告警日志时频繁与缓存中间件Redis交互影响吞吐量,即先将已发送给用户的告警日志存放到本地队列后再异步的发送至缓存中间件Redis。
经过部署模块100至初始化模块400的处理后,告警日志的记录者节点已被选定,待记录的全部告警日志也已存放在了缓存中间件 Redis Server中的队列Queue3。下面结合图8描述本发明的集群环境下告警日志的记录装置,记录模块500具体包括:
第一记录单元510,用于通过记录者节点从第三队列拉取并移除告警日志,第一记录单元510可以理解为批量地从缓存中间件Redis Server中的队列Queue3的头部拉取并移除N条告警日志,此过程通过缓存中间件Redis进行确保拉取和移除的原子性。
拉取到N条告警日志后,假设当前告警日志的序号的值为B,已记录的最大告警序号计数器的值为A,在每条告警日志记录前都需要比较自身序号B与已记录的最大告警序号计数器的值A,不同的比较结果有不同的处理方式:
第二记录单元520,用于若当前告警日志的序号的值不大于最大告警序号计数器的值时(B≤A),舍弃当前告警日志。当第二记录单元520的情况出现时,表示该告警日志在当前用户登录之前已被发送给别的用户,且该告警日志已被记录进日志文件,因此直接舍弃该告警日志,不计入告警日志文件中。
第三记录单元530,用于若当前告警日志的序号的值为最大告警序号计数器的值加一时(B=A+1),通过文件引用File将当前告警日志追加写入第一告警日志文件的最后一行,且,将最大告警序号计数器的值加一。当第三记录单元530的情况出现时,通过文件引用File 将序号为B告警日志追加写入第一告警日志文件的最后一行,并将最大告警序号计数器的值A更新为A+1。
第四记录单元540,用于若当前告警日志的序号的值大于最大告警序号计数器的值加一时(B>A+1),将序号为当前告警日志的序号的值减一(B-1)至最大告警序号计数器的值加一(A+1)对应的所有告警日志补写到第一告警日志文件的末尾,之后,通过文件引用File将当前告警日志追加写入第一告警日志文件的最后一行,且,将最大告警序号计数器的值更新为当前告警日志的序号的值。第四记录单元540的情况很少出现,出现时一般代表网络抖动导致告警日志从本地共享的处理线程的工具包JUC中的阻塞队列Queue2发送至缓存中间件Redis Server中的队列Queue3的请求失败,因此,首先需要通过数据库查询并补写序号A+1至B-1的所有告警日志,在补写完成后,再通过文件引用File将序号为B告警日志追加写入第一告警日志文件的最后一行,并将最大告警序号计数器的值A更新为B。
可以理解的是,记录模块500中,在拉取的N条告警日志全部写入后,检测此时的第一告警日志文件的大小是否超出预设大小,若超出,按照第一告警日志文件的命名规律生成下一个(新的)告警日志文件并更新文件引用File,即生成了第二告警日志文件,并且将该第二告警日志文件作为第一告警日志文件,此时文件引用File指向的就是该第二告警日志文件,后续再拉取的告警日志将写入到该第二告警日志文件也就是新的第一告警日志文件中。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行集群环境下告警日志的记录方法,该方法包括以下步骤:
S100、部署集群环境;其中,所述集群环境中部署有缓存中间件;
S200、确定所述集群环境的节点中的记录者节点;
S300、所有所述节点向所述记录者节点上报告警日志;
S400、初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
S500、拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的集群环境下告警日志的记录方法,该方法包括以下步骤:
S100、部署集群环境;其中,所述集群环境中部署有缓存中间件;
S200、确定所述集群环境的节点中的记录者节点;
S300、所有所述节点向所述记录者节点上报告警日志;
S400、初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
S500、拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的集群环境下告警日志的记录方法,该方法包括以下步骤:
S100、部署集群环境;其中,所述集群环境中部署有缓存中间件;
S200、确定所述集群环境的节点中的记录者节点;
S300、所有所述节点向所述记录者节点上报告警日志;
S400、初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
S500、拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种集群环境下告警日志的记录方法,其特征在于,包括以下步骤:
部署集群环境;其中,所述集群环境中部署有缓存中间件;
确定所述集群环境的节点中的记录者节点;
所有所述节点向所述记录者节点上报告警日志;
初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
2.根据权利要求1所述的集群环境下告警日志的记录方法,其特征在于,所述确定所述集群环境的节点中的记录者节点,具体包括以下步骤:
所述集群环境的所有节点通过所述缓存中间件竞争分布式锁;
竞争成功的所述节点为所述记录者节点,且,所述记录者节点开启守护线程;其中,竞争成功的所述节点具有预设锁有效期,所述守护线程为每隔预设时间后对所述分布式锁重新设置预设锁有效期;
竞争失败的所述节点在预设休眠时间内进行休眠,并在所述预设休眠时间结束后重新竞争分布式锁。
3.根据权利要求1所述的集群环境下告警日志的记录方法,其特征在于,所述所有所述节点向所述记录者节点上报告警日志,具体包括以下步骤:
所述节点从本地第一队列中拉取用户的所述告警日志;
当所述节点接收到用户的告警同步请求后,将拉取到的所述告警日志存放至本地第二队列;
缓存中间件的第三队列获取存放在所述本地第二序列的所述告警日志。
4.根据权利要求3所述的集群环境下告警日志的记录方法,其特征在于,所述拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中,具体包括以下步骤:
所述记录者节点从所述第三队列拉取并移除所述告警日志;
若当前所述告警日志的序号的值不大于所述最大告警序号计数器的值时,舍弃当前所述告警日志;
若当前所述告警日志的序号的值为所述最大告警序号计数器的值加一时,通过所述文件引用将当前所述告警日志追加写入所述第一告警日志文件的最后一行,且,将所述最大告警序号计数器的值加一;
若当前所述告警日志的序号的值大于所述最大告警序号计数器的值加一时,将序号为当前所述告警日志的序号的值减一至所述最大告警序号计数器的值加一对应的所有所述告警日志补写到所述第一告警日志文件的末尾,之后,通过所述文件引用将当前所述告警日志追加写入所述第一告警日志文件的最后一行,且,将所述最大告警序号计数器的值更新为当前所述告警日志的序号的值。
5.根据权利要求4所述的集群环境下告警日志的记录方法,其特征在于,所述拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中,具体包括:
若当前正在书写的所述第一告警日志文件的大小超过预设大小时,生成第二告警日志文件并更新所述文件引用,并将所述第二告警日志文件作为所述第一告警日志文件。
6.根据权利要求1所述的集群环境下告警日志的记录方法,其特征在于,所述缓存中间件为远程字典服务。
7.一种集群环境下告警日志的记录装置,其特征在于,包括:
部署模块,用于部署集群环境;其中,所述集群环境中部署有缓存中间件;
加锁模块,用于确定所述集群环境的节点中的记录者节点;
上报模块,用于通过所有所述节点向所述记录者节点上报告警日志;
初始化模块,用于初始化所述记录者节点的文件引用和最大告警序号计数器;其中,所述文件引用指向第一告警日志文件,所述第一告警日志文件为正在书写的且用于记录所述告警日志的文件,所述最大告警序号计数器的值为目前已记录的最后一条告警日志的序号;
记录模块,用于拉取已上报的所述告警日志,并根据已拉取的所述告警日志的序号的值与所述最大告警序号计数器的值的对应关系,通过所述文件引用将所述告警日志记录至所述第一告警日志文件中。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述集群环境下告警日志的记录方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述集群环境下告警日志的记录方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述集群环境下告警日志的记录方法的步骤。
CN202111007872.7A 2021-08-30 2021-08-30 一种集群环境下告警日志的记录方法、装置、设备及产品 Active CN113934547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111007872.7A CN113934547B (zh) 2021-08-30 2021-08-30 一种集群环境下告警日志的记录方法、装置、设备及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111007872.7A CN113934547B (zh) 2021-08-30 2021-08-30 一种集群环境下告警日志的记录方法、装置、设备及产品

Publications (2)

Publication Number Publication Date
CN113934547A true CN113934547A (zh) 2022-01-14
CN113934547B CN113934547B (zh) 2024-05-17

Family

ID=79274881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111007872.7A Active CN113934547B (zh) 2021-08-30 2021-08-30 一种集群环境下告警日志的记录方法、装置、设备及产品

Country Status (1)

Country Link
CN (1) CN113934547B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114500096A (zh) * 2022-02-28 2022-05-13 浪潮电子信息产业股份有限公司 一种告警方法、***、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106972978A (zh) * 2017-05-27 2017-07-21 郑州云海信息技术有限公司 一种***告警推送方法及装置
CN110175154A (zh) * 2019-05-17 2019-08-27 深圳前海微众银行股份有限公司 一种日志记录的处理方法、服务器及存储介质
CN111475480A (zh) * 2020-04-13 2020-07-31 上海达梦数据库有限公司 一种日志处理方法及***
CN111866016A (zh) * 2020-07-29 2020-10-30 中国平安财产保险股份有限公司 日志的分析方法及***
CN112131196A (zh) * 2020-09-09 2020-12-25 华人运通(上海)云计算科技有限公司 一种分布式日志处理方法、装置、终端设备及存储介质
CN113297322A (zh) * 2020-10-30 2021-08-24 阿里巴巴集团控股有限公司 数据同步方法、***以及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106972978A (zh) * 2017-05-27 2017-07-21 郑州云海信息技术有限公司 一种***告警推送方法及装置
CN110175154A (zh) * 2019-05-17 2019-08-27 深圳前海微众银行股份有限公司 一种日志记录的处理方法、服务器及存储介质
CN111475480A (zh) * 2020-04-13 2020-07-31 上海达梦数据库有限公司 一种日志处理方法及***
CN111866016A (zh) * 2020-07-29 2020-10-30 中国平安财产保险股份有限公司 日志的分析方法及***
CN112131196A (zh) * 2020-09-09 2020-12-25 华人运通(上海)云计算科技有限公司 一种分布式日志处理方法、装置、终端设备及存储介质
CN113297322A (zh) * 2020-10-30 2021-08-24 阿里巴巴集团控股有限公司 数据同步方法、***以及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114090644B (zh) * 2022-01-20 2022-04-26 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114500096A (zh) * 2022-02-28 2022-05-13 浪潮电子信息产业股份有限公司 一种告警方法、***、设备及计算机可读存储介质
CN114500096B (zh) * 2022-02-28 2023-10-10 浪潮电子信息产业股份有限公司 一种告警方法、***、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113934547B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN110222091B (zh) 一种海量数据实时统计分析方法
CN113934547A (zh) 一种集群环境下告警日志的记录方法、装置、设备及产品
CN106021468B (zh) 分布式缓存和本地缓存的更新方法和***
CN108563502B (zh) 一种任务调度方法和装置
CN109325016B (zh) 数据迁移方法、装置、介质及电子设备
CN109815248B (zh) 一种基于Zookeeper的分布式架构数据一致性方法
CN108566291B (zh) 一种事件处理的方法、服务器及***
CN112039970B (zh) 一种分布式业务锁服务方法、服务端、***及存储介质
CN112256401B (zh) 基于Kubernetes环境下的Prometheus高可用***及实现方法
US20180121531A1 (en) Data Updating Method, Device, and Related System
CN110019510A (zh) 一种进行增量同步的方法及装置
CN109144787A (zh) 一种数据恢复方法、装置、设备及可读存储介质
CN112241400A (zh) 一种基于数据库实现分布式锁的方法
CN111708793A (zh) 一种分布式应用锁实现方法及装置
CN109710679B (zh) 数据抽取方法及装置
CN110888739B (zh) 延迟任务的分布式处理方法与装置
CN111367921A (zh) 数据对象的刷新方法及装置
US20180309702A1 (en) Method and device for processing data after restart of node
CN112804313B (zh) 基于跨域边缘节点的数据同步方法、装置、设备及介质
CN110955669B (zh) 基于事件与内存数据库的前后端数据一致性方法及***
CN111208949B (zh) 一种确定分布式存储***中的数据回滚时段的方法
CN113342511A (zh) 一种分布式任务管理***及方法
CN114205354A (zh) 事件管理***、事件管理方法、服务器及存储介质
CN113672346A (zh) 一种基于rook实现多MGR服务部署的方法
CN107948316B (zh) 一种文件同步方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant