CN115460214B - 一种分布式网络通联日志存储检索方法及装置 - Google Patents

一种分布式网络通联日志存储检索方法及装置 Download PDF

Info

Publication number
CN115460214B
CN115460214B CN202211402538.6A CN202211402538A CN115460214B CN 115460214 B CN115460214 B CN 115460214B CN 202211402538 A CN202211402538 A CN 202211402538A CN 115460214 B CN115460214 B CN 115460214B
Authority
CN
China
Prior art keywords
storage
module
retrieval
storage node
communication logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211402538.6A
Other languages
English (en)
Other versions
CN115460214A (zh
Inventor
赵泽祺
王凯峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuantek Technology Co ltd
Original Assignee
Beijing Yuantek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuantek Technology Co ltd filed Critical Beijing Yuantek Technology Co ltd
Priority to CN202211402538.6A priority Critical patent/CN115460214B/zh
Publication of CN115460214A publication Critical patent/CN115460214A/zh
Application granted granted Critical
Publication of CN115460214B publication Critical patent/CN115460214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种分布式网络通联日志存储检索方法及装置,该方法通过分发模块接收互联网上的通联日志,分发模块支持多种负载分发算法,能够适配不同业务场景通联日志的下发;存储模块各存储节点接收到分发模块下发的通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;由检索模块接收来自客户端的检索命令,从存储模块中检索,将检索到的所需通联日志整理后发送给客户端;通过管理模块管理存储模块中各的存储节点,定期对其进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到分发模块和检索模块,以使存储节点全局状态信息一致。本发明具有适用广泛、存储方式灵活、检索速度高效、检索结果准确、***运行稳定的特点。

Description

一种分布式网络通联日志存储检索方法及装置
技术领域
本申请属于日志存储及检索技术领域,具体涉及一种分布式网络通联日志存储检索方法及装置。
背景技术
随着互联网的建设和发展,上网用户数量迅速增长,网络流量也随之剧增,面对每天数十亿,甚至数百亿条目的海量用户上网日志数据,如何安全高效地对海量日志进行存储、以及如何在海量日志中进行快速检索,成为目前亟待解决的两个问题。
以往关于通联日志的存储一般采用集中式的存储模式,虽然实现方式简单,但一旦集中式存储节点出现故障,所有的存储数据都将丢失,存在稳定性低的问题,同时,多个骨干网生成的通联日志每秒钟可以达到千万级别,在集中式存储模式下,磁盘I/O严重限制了存储节点的处理效率,这使得传统集中式存储方案越来越不能满足需求。
发明内容
有鉴于此,本申请的目的在于提出一种分布式网络通联日志存储检索方法及装置,用以解决或部分解决上述技术问题。
基于上述目的,本申请的第一方面提供了一种分布式网络通联日志存储检索方法,包括:
分发模块接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
由检索模块接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
通过管理模块管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。
作为分布式网络通联日志存储检索方法优选方案,所述分发模块对接收的通联日志进行解封装操作,读取通联日志的五元组信息;
所述分发模块根据负载分发算法将相应通联日志发送到所述存储模块对应的存储节点。
作为分布式网络通联日志存储检索方法优选方案,对于不需要考虑通联日志内容,每个存储节点的处理性能相同的业务场景,所述分发模块支持采用轮询调度算法,使通联日志完全平均的被分发到不同的存储节点中;
对于不需要考虑通联日志内容,每个存储节点处理性能不同的业务场景,根据存储节点的处理性能,为每个存储节点设置一个权值,支持利用加权轮询调度算法按权值的高低,以轮询方式把通联日志分配到各个存储节点上;
对于需要考虑通联日志内容进行存储的业务场景,所述分发模块支持采用基于源和目的地址的哈希算法以及基于五元组的哈希算法,根据用户需求进行通联日志的分发。
作为分布式网络通联日志存储检索方法优选方案,所述存储节点在磁盘根据不同的IP地址属性,建立不同的存储目录;
若按照地理位置属性进行分类,通联日志分别被存储到以城市命名的不同子目录中;
若按照用户属性进行分类,通联日志被存储到以具体IP地址命名的子目录中。
作为分布式网络通联日志存储检索方法优选方案,所述检索模块采用的检索关键字包括开始时间、结束时间、源IP地址、目的IP地址、源端口及目的端口;
每个检索命令至少包含源IP地址以及开始时间和结束时间。
作为分布式网络通联日志存储检索方法优选方案,所述检索模块在收到检索命令后,对检索命令进行分析,为每个检索命令启动一个检索任务,每个检索任务启动若干线程共同完成。
作为分布式网络通联日志存储检索方法优选方案,对存储节点的磁盘清理过程,所述管理模块对不同性能存储节点的磁盘设定相应的阈值,当磁盘的使用率超过设定的阈值时,所述管理模块按照预设时间单位删除存储节点中最早的通联日志。
作为分布式网络通联日志存储检索方法优选方案,对存储节点的故障检测过程,所述管理模块实时监测各存储节点,当存储节点无法提供写盘功能但能提供查询功能时,判定为写故障,所述管理模块通知到所述分发模块,使所述分发模块动态的调整分发算法,将通联日志发送到正常存储节点上;
当存储节点能正常地提供写盘操作但无法提供查询功能时,判定为读故障,所述管理模块通知到所述分发模块及所述检索模块,使所述分发模块、所述检索模块对正常存储节点进行分发和检索操作。
作为分布式网络通联日志存储检索方法优选方案,对存储节点状态的更新及全局状态推送过程,所述存储模块将自己维护的存储节点状态信息实时汇报到所述管理模块中,当存储节点有状态信息的变动时,所述管理模块将最新的状态信息推送给所述分发模块及所述检索模块,所述分发模块及所述检索模块根据变动进行调整。
本申请的第二方面提供了一种分布式网络通联日志存储检索装置,采用第一方面或其任意可能实现方式的分布式网络通联日志存储检索方法,包括:
分发模块,用于接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
存储模块,所述存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
检索模块,用于接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
管理模块,用于管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块、所述存储模块和所述检索模块,以使存储节点全局状态信息一致。
本申请的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的分布式网络通联日志存储检索方法。
本申请的第四方面提出了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行实现第一方面所述的分布式网络通联日志存储检索方法。
从上面所述可以看出,本申请提供的技术方案,通过分发模块接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;由检索模块接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;通过管理模块管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。本发明可以适配不同的业务场景;同时各模块间能够统一存储节点的状态信息,当存储节点增加或故障时,其他模块能够快速进行调整,保证了***的稳定性;具有快速检索的特点,解决了现存方案中通联日志存储效率低、检索速率慢、不能互相协调等问题,具有广泛的适用性。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的分发模块处理流程示意图;
图2为本发明实施例中的通联日志的存储目录结构;
图3为本发明实施例中的检索模块处理流程示意图;
图4为本发明实施例中的存储节点正常运行情况下的实施例图;
图5为本发明实施例中的存储节点发生故障情况下的实施例图;
图6为本发明实施例中的分布式网络通联日志存储检索装置架构图;
图7为本申请实施例的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的 “包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
通联日志是网络会话日志的统称,其能够很好地从会话级别描述网络行为,例如:Netflow,sFlow都属于通联日志。传统关于通联日志的存储一般采用集中式的存储模式,虽然实现方式简单,但一旦集中式存储节点出现故障,所有的存储数据都将丢失,存在稳定性低的问题,同时,多个骨干网生成的通联日志每秒钟可以达到千万级别,在集中式存储模式下,磁盘I/O严重限制了存储节点的处理效率,这使得传统集中式存储方案越来越不能满足需求。
相关技术中,一些存储方案借助了分布式框架,利用分布式框架来提供可扩展的存储性能,但是这些方案的存储引擎大多基于传统关系型数据库,存储性能有限,检索效率也很低,无法满足数据的高效存储和快速检索要求。现有的面向通联日志的存储方案不能够很好地兼顾存储和检索两个方面,使得它们的适用性受到限制。
有鉴于此,为了解决现有的日志存储及检索中存在的存储速度慢,可扩展性、可靠性差,检索效率低的问题,本发明实施例提供一种分布式网络通联日志存储检索方法及装置,以下为本发明实施例的具体内容。
参见图1、图2和图3,辅助图6,本发明实施例提供一种分布式网络通联日志存储检索方法,包括以下步骤:
S1、分发模块接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
S2、存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
S3、由检索模块接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
S4、通过管理模块管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。
本实施例中,所述分发模块对接收的通联日志进行解封装操作,读取通联日志的五元组信息;所述分发模块根据负载分发算法将相应通联日志发送到所述存储模块对应的存储节点。对于不需要考虑通联日志内容,每个存储节点的处理性能相同的业务场景,所述分发模块采用轮询调度算法,使通联日志完全平均的被分发到不同的存储节点中;对于不需要考虑通联日志内容,每个存储节点处理性能不同的业务场景,根据存储节点的处理性能,为每个存储节点设置一个权值,利用加权轮询调度算法按权值的高低,以轮询方式把通联日志分配到各个存储节点上;对于需要考虑通联日志内容进行存储的业务场景,所述分发模块采用基于源和目的地址的哈希算法以及基于五元组的哈希算法,根据用户需求进行通联日志的分发。
具体的,对于通联日志的分发,分发模块支持多种负载均衡策略,能够适配不同的业务场景:
其中,对于不需要考虑通联日志内容,且每个存储节点的处理性能都相同的场景,分发模块支持采用轮询调度等算法,使通联日志能够完全平均的被分发到不同的存储节点中,访问任意节点都能检索到需要的通联日志。
而对于不需要考虑通联日志内容,但存储节点的处理性能不相同的场景,分发模块支持采用加权轮询调度等算法,充分考虑每个存储节点的处理性能,根据处理性能为每个节点设置一个权值。加权轮询调度算法按权值的高低,以轮询方式把通联日志分配到各个存储节点上,权值大的节点比权值小的节点存储更多的通联日志。
其中,对于需要根据通联日志的内容进行存储的场景,分发模块支持采用基于源和目的地址的哈希算法以及基于五元组的哈希算法等,根据不同需求进行通联日志的分发。
本实施例中,所述存储节点在磁盘根据不同的IP地址属性,建立不同的存储目录;若按照地理位置属性进行分类,通联日志分别被存储到以城市命名的不同子目录中;若按照用户属性进行分类,通联日志被存储到以具体IP地址命名的子目录中。所述检索模块采用的检索关键字包括开始时间、结束时间、源IP地址、目的IP地址、源端口及目的端口;每个检索命令至少包含源IP地址以及开始时间和结束时间。
具体的,存储模块的各存储节点在接收到分发模块发送来的通联日志后,会对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储,如:地理位置属性、用户属性等,不同类型的通联日志有不同的存储路径,管理员能够根据需求选用不同分类方式,以此来提高通联日志的检索效率。
其中,存储节点在磁盘上能够根据不同的IP属性,建立不同的存储目录,例如:按照地理位置属性进行分类的,通联日志会分别被存储到以城市命名的不同子目录中;按照用户属性进行分类的,通联日志会被存储到以具体IP地址命名的子目录中。在它们之下的子目录按照时间建立,通联日志在存储节点中的存储目录结构如下图2所示:
具体的,子目录按照年、月、日、小时和文件名进行构建,最终组成如下格式的目录:CL_ROOT/分类方式/YYYY/MM/DD/HH/filename。存储节点隔5分钟生成一个文件,并从00-11对每个文件进行编号,组成如图2中所示的文件名称。
其中,通联日志在存储节点中按照固定的格式组成物理文件,通联日志的文件格式包含head和data两个部分。其中head占128个字节,前32位表示通联日志长度,之后的32位表示通联日志版本,最后64位表示时间戳。Data部分包含多个block,每一个block对应存储节点的一次通联日志缓存。每一个block包含两个部分,第一部分为block头信息:前32位表示该文件是否结束;后32位表示当前block包含多少个通联日志,block的第二部分用来存储通联日志。通联日志文件的组成格式如表1所示:
表1 通联日志文件格式
Figure 107220DEST_PATH_IMAGE001
本实施例中,所述检索模块在收到检索命令后,对检索命令进行分析,为每个检索命令启动一个检索任务,每个检索任务启动若干线程共同完成。
具体的,检索模块负责与客户端和存储模块对接,接收来自客户端的检索命令,从存储模块中进行检索,并将检索到的所需通联日志进行整理后发送给客户端。为了充分利用分类存储带来的检索性能的提升,并减少检索范围,一条完整的检索命令至少包含源IP地址以及开始时间和结束时间。
具体的,检索模块在收到检索命令后,对检索命令进行分析,为每个检索命令启动一个检索任务,为了提高检索效率,每个检索任务能够启动多个线程共同完成,但在多个线程返回检索结果的过程中,存在着以下四种现象:
(1)单个线程返回的通联日志是有序的;
(2)多个线程返回的通联日志之间是无序的;
(3)每个线程返回的通联日志个数不确定;
(4)每个线程返回通联日志的开始时间和结束时间不确定。
本实施例中,充分考虑以上现象,检索模块能够对多个检索线程返回的通联日志进行合并及排序,保证了检索结果的准确性,且能够支持多个检索任务并行处理,极大的提高了检索效率。
本实施例中,管理模块主要用来管理存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息、并将存储节点信息通知到各模块,保证***存储节点全局状态信息的一致。
具体的,对存储节点的磁盘清理过程,所述管理模块对不同性能存储节点的磁盘设定相应的阈值,当磁盘的使用率超过设定的阈值时,所述管理模块按照预设时间单位删除存储节点中最早的通联日志。对存储节点的故障检测过程,所述管理模块实时监测各存储节点,当存储节点无法提供写盘功能但能提供查询功能时,判定为写故障,所述管理模块通知到所述分发模块,使所述分发模块动态的调整分发算法,将通联日志发送到正常存储节点上;当存储节点能正常地提供写盘操作但无法提供查询功能时,判定为读故障,所述管理模块通知到所述分发模块及所述检索模块,使所述分发模块、所述检索模块对正常存储节点进行分发和检索操作。对存储节点状态的更新及全局状态推送过程,所述存储模块将自己维护的存储节点状态信息实时汇报到所述管理模块中,当存储节点有状态信息的变动时,所述管理模块将最新的状态信息推送给所述分发模块及所述检索模块,所述分发模块及所述检索模块根据变动进行调整,从而实时更新存储节点的状态信息,保证存储节点的状态被各模块知悉,使各模块间能够互相协调,遇到突发情况能够及时调整策略,维护***稳定性。
参见图4,描述的是对于不需要考虑通联日志内容,且每个存储节点的处理性能都相同的应用场景下的正常运行情况。
在本应用场景中,各存储节点的处理性能均相同,由于不需要考虑通联日志内容,这里的分发节点结合当前的场景,采用轮询调度算法进行通联日志的分发;存储节点在收到通联日志后,将通联日志按照国内国外进行区分,之后按照时间建立文件目录,进行存储;检索服务器根据客户端发来的检索命令,启动多线程在存储节点中进行检索,并将返回的结果进行排序合并后发送给客户端;在运转的整个流程中,管理服务器实时更新存储节点的状态信息,确保整个环节全局状态信息的统一。
参见图5,描述的是对于不需要考虑通联日志内容,且每个存储节点的处理性能都相同的应用场景下的存储节点发生故障情况。当存储节点中有节点出现故障时,故障信息会上报到管理服务器,管理服务器会将信息更新,并通知到分发节点和检索服务器,分发节点和检索服务器在接收到信息后,会进行相应调整,分发节点在分发通联日志时会避开故障的存储节点,向其他存储节点进行发送;检索服务器在检索时也会避免在故障的存储节点中检索,***依然能够稳定运行。
综上所述,本发明通过分发模块接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;由检索模块接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;通过管理模块管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。本发明在通联日志的分发及存储方面,能够根据不同业务需求采用不同的分发方式对通联日志进行灵活存储,存储效率高的同时也适用于多种业务场景。在通联日志的检索方面,能够同时进行多个任务的检索,每个任务还能够启动多个线程共同完成一个检索任务,极大地提高了通联日志的检索效率,同时,本发明能够将多个线程返回的针对同一任务的检索结果进行排序及合并,保证了检索结果的准确性。本发明的管理模块对各个模块进行监测,实时更新存储节点的状态信息,保证存储节点的状态被各模块知悉,使各模块间能够互相协调,遇到突发情况能够及时调整策略,维护***稳定性。
需要说明的是,本申请实施例的方法可以应用于分布式场景下,由多台设备相互配合来完成,也可以由单个设备执行,例如一台计算机或服务器。在这种单个设备的场景情况下,由多个功能模块相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
参见图6,基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种分布式网络通联日志存储检索装置,采用上述实施例或其任意可能实现方式的分布式网络通联日志存储检索方法,包括:
分发模块1,用于接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
存储模块2,所述存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
检索模块3,用于接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
管理模块4,用于管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。
上述实施例的装置用于实现前述任一实施例中相应地分布式网络通联日志存储检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的分布式网络通联日志存储检索方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应地分布式网络通联日志存储检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的分布式网络通联日志存储检索方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的分布式网络通联日志存储检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种分布式网络通联日志存储检索方法,包括:
分发模块接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
由检索模块接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
通过管理模块管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致;
所述分发模块对接收的通联日志进行解封装操作,读取通联日志的五元组信息;
所述分发模块根据负载分发算法将相应通联日志发送到所述存储模块对应的存储节点;
对于不需要考虑通联日志内容,每个存储节点的处理性能相同的业务场景,所述分发模块支持采用轮询调度算法,使通联日志完全平均的被分发到不同的存储节点中;
对于不需要考虑通联日志内容,每个存储节点处理性能不同的业务场景,根据存储节点的处理性能,为每个存储节点设置一个权值,支持利用加权轮询调度算法按权值的高低,以轮询方式把通联日志分配到各个存储节点上;
对于需要考虑通联日志内容进行存储的业务场景,所述分发模块支持采用基于源和目的地址的哈希算法以及基于五元组的哈希算法,根据用户需求进行通联日志的分发。
2.根据权利要求1所述的一种分布式网络通联日志存储检索方法,其中,所述存储节点在磁盘根据不同的IP地址属性,建立不同的存储目录;
若按照地理位置属性进行分类,通联日志分别被存储到以城市命名的不同子目录中;
若按照用户属性进行分类,通联日志被存储到以具体IP地址命名的子目录中。
3.根据权利要求1所述的一种分布式网络通联日志存储检索方法,其中,所述检索模块采用的检索关键字包括开始时间、结束时间、源IP地址、目的IP地址、源端口及目的端口;
每个检索命令至少包含源IP地址以及开始时间和结束时间。
4.根据权利要求3所述的一种分布式网络通联日志存储检索方法,其中,所述检索模块在收到检索命令后,对检索命令进行分析,为每个检索命令启动一个检索任务,每个检索任务启动若干线程共同完成。
5.根据权利要求4所述的一种分布式网络通联日志存储检索方法,其中,对存储节点的磁盘清理过程,所述管理模块对不同性能存储节点的磁盘设定相应的阈值,当磁盘的使用率超过设定的阈值时,所述管理模块按照预设时间单位删除存储节点中最早的通联日志。
6.根据权利要求5所述的一种分布式网络通联日志存储检索方法,其中,对存储节点的故障检测过程,所述管理模块实时监测各存储节点,当存储节点无法提供写盘功能但能提供查询功能时,判定为写故障,所述管理模块通知到所述分发模块,使所述分发模块动态的调整分发算法,将通联日志发送到正常存储节点上;
当存储节点能正常地提供写盘操作但无法提供查询功能时,判定为读故障,所述管理模块通知到所述分发模块及所述检索模块,使所述分发模块、所述检索模块对正常存储节点进行分发和检索操作。
7.根据权利要求6所述的一种分布式网络通联日志存储检索方法,其中,对存储节点状态的更新及全局状态推送过程,所述存储模块将自己维护的存储节点状态信息实时汇报到所述管理模块中,当存储节点有状态信息的变动时,所述管理模块将最新的状态信息推送给所述分发模块及所述检索模块,所述分发模块及所述检索模块根据变动进行调整。
8.一种分布式网络通联日志存储检索装置,采用权利要求1至7任一项所述的分布式网络通联日志存储检索方法,其中,包括:
分发模块,用于接收互联网上的通联日志,并根据负载分发算法进行通联日志的下发;
存储模块,所述存储模块的各存储节点接收到所述分发模块下发的通联日志,对通联日志进行预处理,将通联日志按照IP地址属性进行分类存储;
检索模块,用于接收来自客户端的检索命令,从所述存储模块中进行检索,将检索到的所需通联日志进行整理后发送给客户端;
管理模块,用于管理所述存储模块中的各存储节点,按照预定时间进行磁盘清理、故障检测,实时更新存储节点的状态信息,并将存储节点信息通知到所述分发模块和所述检索模块,以使存储节点全局状态信息一致。
CN202211402538.6A 2022-11-10 2022-11-10 一种分布式网络通联日志存储检索方法及装置 Active CN115460214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211402538.6A CN115460214B (zh) 2022-11-10 2022-11-10 一种分布式网络通联日志存储检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211402538.6A CN115460214B (zh) 2022-11-10 2022-11-10 一种分布式网络通联日志存储检索方法及装置

Publications (2)

Publication Number Publication Date
CN115460214A CN115460214A (zh) 2022-12-09
CN115460214B true CN115460214B (zh) 2023-02-07

Family

ID=84295808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211402538.6A Active CN115460214B (zh) 2022-11-10 2022-11-10 一种分布式网络通联日志存储检索方法及装置

Country Status (1)

Country Link
CN (1) CN115460214B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532754A (zh) * 2013-10-12 2014-01-22 北京首信科技股份有限公司 一种通过高速内存、分布式处理海量日志的***及方法
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及***
CN108874614A (zh) * 2017-05-11 2018-11-23 上海宏时数据***有限公司 一种大数据日志智能分析***及方法
CN110442559A (zh) * 2019-07-05 2019-11-12 深圳中兴网信科技有限公司 日志检索方法、装置以及服务器
CN111176932A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种异常事件日志的记录方法、设备及可读介质
WO2021000494A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 基于区块链的操作日志记录方法、装置、设备及存储介质
CN113157545A (zh) * 2021-05-20 2021-07-23 京东方科技集团股份有限公司 业务日志的处理方法、装置、设备及存储介质
CN113420032A (zh) * 2021-07-20 2021-09-21 奇安信科技集团股份有限公司 一种日志的分类存储方法及装置
CN114020893A (zh) * 2021-11-05 2022-02-08 作业帮教育科技(北京)有限公司 一种基于分布式存储的日志检索方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019061458A (ja) * 2017-09-26 2019-04-18 京セラドキュメントソリューションズ株式会社 電子機器およびログアプリケーション

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532754A (zh) * 2013-10-12 2014-01-22 北京首信科技股份有限公司 一种通过高速内存、分布式处理海量日志的***及方法
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及***
CN108874614A (zh) * 2017-05-11 2018-11-23 上海宏时数据***有限公司 一种大数据日志智能分析***及方法
WO2021000494A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 基于区块链的操作日志记录方法、装置、设备及存储介质
CN110442559A (zh) * 2019-07-05 2019-11-12 深圳中兴网信科技有限公司 日志检索方法、装置以及服务器
CN111176932A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种异常事件日志的记录方法、设备及可读介质
CN113157545A (zh) * 2021-05-20 2021-07-23 京东方科技集团股份有限公司 业务日志的处理方法、装置、设备及存储介质
CN113420032A (zh) * 2021-07-20 2021-09-21 奇安信科技集团股份有限公司 一种日志的分类存储方法及装置
CN114020893A (zh) * 2021-11-05 2022-02-08 作业帮教育科技(北京)有限公司 一种基于分布式存储的日志检索方法、装置及存储介质

Also Published As

Publication number Publication date
CN115460214A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
US10474682B2 (en) Data replication in a clustered computing environment
US10496627B2 (en) Consistent ring namespaces facilitating data storage and organization in network infrastructures
US9971823B2 (en) Dynamic replica failure detection and healing
US8676951B2 (en) Traffic reduction method for distributed key-value store
US9400800B2 (en) Data transport by named content synchronization
CN106599308B (zh) 一种分布式元数据管理方法及***
US20170031948A1 (en) File synchronization method, server, and terminal
US8208477B1 (en) Data-dependent overlay network
EP4310689A1 (en) Data archiving method and apparatus, device, storage medium, and computer program product
EP3779692B1 (en) Blockchain data processing
CN111131079B (zh) 一种策略查询方法及装置
US11599547B2 (en) Data replication and site replication in a clustered computing environment
CN103501319A (zh) 一种低延迟的面向小文件的分布式存储***
CN114610680A (zh) 分布式文件***元数据管理方法、装置、设备及存储介质
CN107180034A (zh) MySQL数据库的集群***
Qi Digital forensics and NoSQL databases
CN115460214B (zh) 一种分布式网络通联日志存储检索方法及装置
CN110633322A (zh) 一种资源信息同步方法、装置、电子设备及存储介质
CN115914404A (zh) 集群流量管理方法、装置、计算机设备和存储介质
CN109062694B (zh) 一种将应用程序迁移到云平台的方法
US20150058296A1 (en) Data storage method and computing device using same
CN106527982B (zh) 一种针对由异构存储设备组成的对象存储***的对象分布算法
JP2016081492A (ja) 異種記憶サーバおよびそのファイル記憶方法
US11537559B2 (en) Client generated aggregated indices
CN117539962B (zh) 数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant