CN106503079A - 一种日志管理方法及*** - Google Patents

一种日志管理方法及*** Download PDF

Info

Publication number
CN106503079A
CN106503079A CN201610880904.7A CN201610880904A CN106503079A CN 106503079 A CN106503079 A CN 106503079A CN 201610880904 A CN201610880904 A CN 201610880904A CN 106503079 A CN106503079 A CN 106503079A
Authority
CN
China
Prior art keywords
daily record
log
data
module
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610880904.7A
Other languages
English (en)
Inventor
蔡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201610880904.7A priority Critical patent/CN106503079A/zh
Publication of CN106503079A publication Critical patent/CN106503079A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种日志管理方法,其特征是包括以下步骤:进行日志收集,将需求端产生的若干日志收集;进行日志集中,并推送;进行日志预处理,所述日志预处理的步骤包括格式整理,数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;进行日志存储,将冷数据存入分布式文件存储***,将热数据存入分布式搜索引擎;进行日志搬迁,将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;进行日志检索分析;进行结果输出,旨在为开发工程师和数据工程师提供一个方便的日志管理***,可以对已结构化的数据进行搜索、统计分析,减少用脚本处理文本日志的消耗,大幅提高工作的效率,适用于大量日志管理。

Description

一种日志管理方法及***
技术领域
本发明属于计算机软件,尤其涉及一种日志管理方法及***。
背景技术
随着信息时代的到来,即使是中小型公司每天产生的日志数据量也能到数亿这个级别,传统的开源关系型数据库无法支撑如此大量的日志数据,如何高效收集、管理、分析日常各项业务产生的海量数据已经成为当前急需解决的问题。
现在没有成套的日志管理***,只是简单的把各个应用产生的日志从应用的节点定期的搬迁到一个中心节点。然后又开发工程师或者数据工程师在中心节点使用脚本分析搜索日志,非常不方便。搜索日志由于没有索引所以非常消耗时间,分析日志由于需求变化巨大导致分析脚本的复用程度很低,每次分析都需要重新实现分析脚本,耗时耗力并且中心节点的承载能力是有极限的当日志量超过中心节点的最大上限整个流程就无法工作,并且一旦中心节点出现单点故障就会造成数据丢失。
发明内容
本发明所要解决的技术问题是旨在为开发工程师和数据工程师提供一个方便的日志管理***,可以对已结构化的数据进行搜索、统计分析,减少用脚本处理文本日志的消耗,大幅提高工作的效率,适用于大量日志管理。
为解决上述技术问题,本发明提供了一种日志管理方法,其特征是包括以下步骤:
进行日志收集,将需求端产生的若干日志收集;
进行日志集中,并推送;
进行日志预处理,所述日志预处理的步骤包括格式整理, 数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;
进行日志存储,将冷数据存入分布式文件存储***,将热数据存入分布式搜索引擎;
进行日志搬迁,将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
进行日志检索分析;
进行结果输出。
进一步所述日志分类是根据时间和/或访问次数的阈值分为冷数据和热数据。
进一步所述进行日志检索分析包括对日志进行SQL解析的步骤。
本发明还提供一种日志管理***,其特征是包括日志分布式收集模块,日志集中传输模块,日志预处理模块,分布式文件存储***,分布式搜索引擎,日志搬迁模块,日志检索分析模块;
所述日志分布式收集模块,用于将需求端产生的若干日志收集;
所述日志集中传输模块,用于进行日志集中,并推送;
所述日志预处理模块,用于进行日志预处理,所述日志预处理的步骤包括格式整理,数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;
所述分布式文件存储***,用于存储冷数据;
所述分布式搜索引擎,用于存储热数据;
所述日志搬迁模块,用于将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
所述日志检索分析模块,用于对日志进行检索分析。
优选地,所述日志分布式收集模块是开源的Logstash工具。
优选地,所述日志集中传输模块是开源的Apache Kafka集群。
优选地,所述分布式文件存储***是开源的Hadoop分布式文件***。
优选地,所述分布式搜索引擎是ElasticSearch工具。
优选地,所述日志检索分析模块包括SQL解析模块。
采用上述技术方案,可达到以下效果:
1.使用集群代替中心节点既可以保证扩容性也能避免单点故障造成的数据丢失;
2.日志预处理模块,格式整理提升日志分析的效率,减少存储日志的成本, 脏数据清理防止分析过程中的解析错误,提升***稳定性;日志分类用于将日志区分为冷数据和热数据,使日志的分析搜索更具有针对性;
3.所述日志检索分析模块包括SQL解析模块, SQL复用程度高,写起来比较省时省力,而不用每次都写一个统计、分析的脚本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种日志管理方法的流程示意图;
图2示出了一种日志管理***的结构框图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种日志管理方法,如图1所示,
图1示出了一种日志管理方法的流程示意图,其特征是包括以下步骤:
(1)进行日志收集,将需求端产生的若干日志收集,用开源的Logstash工具收集若干个应用节点产生的若干日志;
(2)将上述步骤收集的若干日志进行日志集中,优先用开源的Apache Kafka集群进行日志集中,并推送到日志预处理模块;
(3)将上述集中的数据接收后,进行日志预处理,所述日志预处理的步骤包括格式整理, 数据过滤,及日志分类,所述日志分类,用于将日志区分为冷数据和热数据,使日志的分析搜索更具有针对性;
(4)进行日志存储,包括将冷数据存入分布式文件存储***,优选地,所述分布式文件存储***是开源的Hadoop分布式文件***;还包括将热数据存入分布式搜索引擎,优选地,所述分布式搜索引擎是ElasticSearch工具;上述冷数据和热数据是根据时间和/或访问次数的阈值划分的;
(5)进行日志搬迁,将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
(6)进行日志检索分析,包括日志检索和日志分析,日志分析提供SQL解析功能;
(7)对分析/检索结果输出。
为解决上述技术问题,本发明提供了一种日志管理***,如图2示,
图2出了一种日志管理方法的结构示意图,其特征是包括:
日志分布式收集模块,日志集中传输模块,日志预处理模块,分布式文件存储***,分布式搜索引擎,日志搬迁模块,日志检索分析模块;
所述日志分布式收集模块,用于将需求端产生的若干日志收集,优选地,所述日志分布式收集模块是开源的Logstash工具;
所述日志集中传输模块,用于进行日志集中,并推送,优选地,所述日志集中传输模块是开源的Apache Kafka集群;
所述日志预处理模块,用于进行日志预处理,所述日志预处理的步骤包括格式整理,数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;
所述分布式文件存储***,用于存储冷数据,所述分布式文件存储***是开源的Hadoop分布式文件***;
所述分布式搜索引擎,用于存储热数据,优选地,所述分布式搜索引擎是ElasticSearch工具;
所述日志搬迁模块,用于将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
所述日志检索分析模块,用于对日志进行检索分析,优选地,所述日志检索分析模块包括SQL解析模块。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种日志管理方法,其特征是包括以下步骤:
进行日志收集,将需求端产生的若干日志收集;
进行日志集中,并推送;
进行日志预处理,所述日志预处理的步骤包括格式整理, 数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;
进行日志存储,将冷数据存入分布式文件存储***,将热数据存入分布式搜索引擎;
进行日志搬迁,将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
进行日志检索分析;
进行结果输出。
2.根据权利要求1所述的日志管理方法,其特征是所述日志分类是根据时间和/或访问次数的阈值分为冷数据和热数据。
3.根据权利要求1所述的日志管理方法,其特征是所述进行日志检索分析包括对日志进行SQL解析的步骤。
4.一种日志管理***,其特征是包括日志分布式收集模块,日志集中传输模块,日志预处理模块,分布式文件存储***,分布式搜索引擎,日志搬迁模块,日志检索分析模块;
所述日志分布式收集模块,用于将需求端产生的若干日志收集;
所述日志集中传输模块,用于进行日志集中,并推送;
所述日志预处理模块,用于进行日志预处理,所述日志预处理的步骤包括格式整理,数据过滤,及日志分类,所述日志分类,用于将日志分为冷数据和热数据;
所述分布式文件存储***,用于存储冷数据;
所述分布式搜索引擎,用于存储热数据;
所述日志搬迁模块,用于将分布式搜索引擎中冷却的日志搬迁到分布式文件存储***;
所述日志检索分析模块,用于对日志进行检索分析。
5.根据权利要求4所述的日志管理***,其特征是所述日志分布式收集模块是开源的Logstash工具。
6.根据权利要求4所述的日志管理***,其特征是所述日志集中传输模块是开源的Apache Kafka集群。
7.根据权利要求4所述的日志管理***,其特征是所述分布式文件存储***是开源的Hadoop分布式文件***。
8.根据权利要求4所述的日志管理***,其特征是所述分布式搜索引擎是ElasticSearch工具。
9.根据权利要求4所述的日志管理***,其特征是所述日志检索分析模块包括SQL解析模块。
CN201610880904.7A 2016-10-10 2016-10-10 一种日志管理方法及*** Pending CN106503079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880904.7A CN106503079A (zh) 2016-10-10 2016-10-10 一种日志管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880904.7A CN106503079A (zh) 2016-10-10 2016-10-10 一种日志管理方法及***

Publications (1)

Publication Number Publication Date
CN106503079A true CN106503079A (zh) 2017-03-15

Family

ID=58294974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880904.7A Pending CN106503079A (zh) 2016-10-10 2016-10-10 一种日志管理方法及***

Country Status (1)

Country Link
CN (1) CN106503079A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934062A (zh) * 2017-03-28 2017-07-07 广东工业大学 一种查询elasticsearch的实现方法及***
CN108363813A (zh) * 2018-03-15 2018-08-03 北京小度信息科技有限公司 数据存储方法、装置和***
CN109274540A (zh) * 2018-11-16 2019-01-25 四川长虹电器股份有限公司 一种基于storm的Web访问日志处理方法
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN110223520A (zh) * 2019-07-16 2019-09-10 网链科技集团有限公司 电动自行车超速识别方法
CN110288838A (zh) * 2019-07-19 2019-09-27 网链科技集团有限公司 电动自行车闯红灯识别***及方法
CN111639016A (zh) * 2020-05-29 2020-09-08 北京合力思腾科技股份有限公司 大数据日志分析方法、装置及计算机存储介质
CN113282618A (zh) * 2021-06-18 2021-08-20 福建天晴数码有限公司 一种Elasticsearch活跃集群检索优化方案及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138762A1 (en) * 2000-12-01 2002-09-26 Horne Donald R. Management of log archival and reporting for data network security systems
CN101369451A (zh) * 2007-08-14 2009-02-18 三星电子株式会社 固态存储器、包含其的计算机***和操作其的方法
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储***的日志管理优化方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法
CN105579999A (zh) * 2013-07-31 2016-05-11 慧与发展有限责任合伙企业 日志分析
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138762A1 (en) * 2000-12-01 2002-09-26 Horne Donald R. Management of log archival and reporting for data network security systems
CN101369451A (zh) * 2007-08-14 2009-02-18 三星电子株式会社 固态存储器、包含其的计算机***和操作其的方法
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储***的日志管理优化方法
CN105579999A (zh) * 2013-07-31 2016-05-11 慧与发展有限责任合伙企业 日志分析
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934062A (zh) * 2017-03-28 2017-07-07 广东工业大学 一种查询elasticsearch的实现方法及***
CN106934062B (zh) * 2017-03-28 2020-05-19 广东工业大学 一种查询elasticsearch的实现方法及***
CN108363813A (zh) * 2018-03-15 2018-08-03 北京小度信息科技有限公司 数据存储方法、装置和***
CN108363813B (zh) * 2018-03-15 2020-06-02 北京星选科技有限公司 数据存储方法、装置和***
CN109274540A (zh) * 2018-11-16 2019-01-25 四川长虹电器股份有限公司 一种基于storm的Web访问日志处理方法
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN109902070B (zh) * 2019-01-22 2023-12-12 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN110223520A (zh) * 2019-07-16 2019-09-10 网链科技集团有限公司 电动自行车超速识别方法
CN110288838A (zh) * 2019-07-19 2019-09-27 网链科技集团有限公司 电动自行车闯红灯识别***及方法
CN111639016A (zh) * 2020-05-29 2020-09-08 北京合力思腾科技股份有限公司 大数据日志分析方法、装置及计算机存储介质
CN113282618A (zh) * 2021-06-18 2021-08-20 福建天晴数码有限公司 一种Elasticsearch活跃集群检索优化方案及***

Similar Documents

Publication Publication Date Title
CN106503079A (zh) 一种日志管理方法及***
US11449481B2 (en) Data storage and query method and device
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN106547918B (zh) 一种统计数据的整合方法及***
CN103440288A (zh) 一种大数据存储方法及装置
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及***
CN105512167A (zh) 一种基于混合数据库的多业务用户数据管理***及其方法
CN104899314A (zh) 一种数据仓库的血统分析方法和装置
CN102509001B (zh) 一种自动去除时序数据野值点的方法
CN106528877A (zh) word文档的模块化方法及***
CN104216979B (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN104615734B (zh) 一种社区管理服务大数据处理***及其处理方法
CN106844782B (zh) 一种面向网络的多通道大数据采集***及方法
CN103049581A (zh) 一种基于一致性聚类的Web文本分类方法
CN103399924A (zh) 一种水文水资源数据目录生成***及方法
CN102012936A (zh) 基于云计算平台的海量数据聚合方法和***
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及***
Morris et al. Slideimages: a dataset for educational image classification
CN102937984A (zh) 一种收集数据的***、客户端和方法
CN110287379B (zh) 一种基于逻辑树的表格拆分与数据提取方法
CN104408128B (zh) 一种基于b+树异步更新索引的读优化方法
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN109523031B (zh) 一种用于深度分析的大数据智能机器学习***
CN104657422A (zh) 一种基于分类决策树的内容发布智能分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication