CN115470090A - 一种日志数据采集方法 - Google Patents
一种日志数据采集方法 Download PDFInfo
- Publication number
- CN115470090A CN115470090A CN202211179346.3A CN202211179346A CN115470090A CN 115470090 A CN115470090 A CN 115470090A CN 202211179346 A CN202211179346 A CN 202211179346A CN 115470090 A CN115470090 A CN 115470090A
- Authority
- CN
- China
- Prior art keywords
- log
- data
- module
- acquisition
- printing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000007639 printing Methods 0.000 claims abstract description 38
- 238000012550 audit Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000586 desensitisation Methods 0.000 claims abstract description 11
- 238000013480 data collection Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000000872 buffer Substances 0.000 claims 1
- 238000012423 maintenance Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明属于软件技术领域,具体涉及一种日志数据采集方法。一种日志数据采集方法,其特征在于,包括步骤:S1:在配置文件中配置的采集规则;S2:根据配置文件预先的配置对日志组件进行初始化;S3:判断日志采集请求是否需要记录审计日志;当不需要记录审计日志时拒绝日志采集请求,当需要记录审计日志时拒绝日志采集请求,根据采集规则对日志文件进行数据脱敏处理。本发明可将应用业务日志与审计操作日志分离,实现了松耦合、可配置、高性能、可动态解析的日志打印采集组件。
Description
技术领域
本发明属于软件技术领域,具体涉及一种日志数据采集方法。
背景技术
日志,是记录服务器等电脑设备或软件的运作。日志文件提供精确的***记录,根据日志最终定位到错误详情和根源。日志的特点是,它描述一些离散的(不连续的)事件。例如:应用通过一个滚动的文件输出 INFO 或 ERROR 信息,并通过日志收集***,存储到一些存储引擎(如Elasticsearch)中方便查询。应用日志框架技术架构一般包括日志门面和日志实现(请参考图1)。
日志门面:解决***与日志实现框架的耦合性,提供了一个日志抽象层,可以在后台使用任意一个日志类库。日志实现:包含目前市面上主流的日志框架(如Log4j、LogBack、Log4j2、JUL等)。每一种框架都有自己的API,使用对应框架就需要对应的API,这样就大大增加了程序代码对日志框架的耦合度,所以应用程序和日志框架之间应该有一个沟通的桥梁,无论底层的日志框架如何变,应用程序都不需要有任何感知。有了日志门面之后,应用开发人员永远都是面向日志门面编程就算更换日志框架,应用程序也不需要更改代码。日志门面主要的作用是提供接口,其他的由日志框架来实现。日志框架的具体架构请参考图2,具体内容如下:1、应用使用日志门面,可以选择接入任一种日志框架,达到灵活可插拔的目的,减少因更换底层日志框架带来的代码改动适配风险。2、使用日志门面作为接入层,提供统一的操作API,应用选择具体某一个日志框架就可以根据标准统一的API进行相关日志打印操作。
现有技术的局限和缺点:1、随着业务规范及监管要求需要将应用业务日志与审计操作日志分离,现有日志框架组件配置繁琐,开发人员需要修改程序来进行适配,需要通过修改日志配置来解决日益增长的日志存档监管需求。2、伴随新应用增加,需要进行审计日志与业务日志分离的需求越来越强烈,因此开发人员需要对应用进行程序修改来进行适配,每个应用重复开发审计日志打印逻辑,增加开发人员负担,同时也增加了应用运行和维护的风险。3、随着应用上容器云,传统日志文件输出到共享文件***会存在文件名一样从而导致日志采查询存在混乱等问题,区分不出文件里哪行日志是哪个应用打印的。4、由于业务日志打印要求根据每个业务场景要求不一样,有的日志字段值存在数据量大而不需要打印的情况,现有的日志框架没法灵活配置日志字段打印,同时也存在日志存储空间的浪费,降低了资源利用率。5、当某个HTTP请求到来时,没有自动的日志打印机制打印其请求参数及响应参数。
发明内容
针对现有技术的不足,本发明提供日志数据采集方法。
本发明提供一种日志数据采集方法,其包括步骤:
S1:在配置文件中配置的采集规则;
S2:根据配置文件预先的配置对日志组件进行初始化;
S3:判断日志采集请求是否需要记录审计日志;当不需要记录审计日志时拒绝日志采集请求,当需要记录审计日志时拒绝日志采集请求,根据采集规则对日志文件进行数据脱敏处理。
优选地,在S2步骤后还包括如下步骤:根据当前运行环境是属于虚拟机还是容器云环境,生成对应的日志文件。
优选地,在S3步骤中,通过HTTP Filter拦截机制动态根据采集规则判断该次请求是否存在敏感数据,如果存在敏感数据则进行数据脱敏处理。
优选地,在S2步骤时,根据读取配置文件动态判断日志采集请求是否存在数据量大的字段,如果存在数据量大的字段则忽略该字段的打印。
优选地,所述日志组件提供***接入口,通过***接入口与应用通讯连接;所述日志组件还包括显示模块,通过所述显示模块控制日志的打印及日志的字段显示。
优选地,所述日志组件包括数据采集模块、数据接入模块、流式计算模块和数据输出模块,通过数据采集模块从各节点上实时采集数据,通过数据接入模块在采集数据和数据处理之间进行消息缓冲,流式计算模块对采集到的数据进行实时分析,数据输出模块对对分析后的数据进行输出。
优选地,所述日志组件还包括异步打印模块和链路跟踪模块,通过异步打印模块异步对日志文件进行读取,通过链路跟踪模块对采集的数据进行链路跟踪。
本发明在另一方面提供一种计算机设备,其包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现根据权利要求1至7中任一项所述的日志数据采集方法。
本发明在另一方面提供一种计算机可读存储介质,其中存储有程序,所述程序被计算机执行时实现根据上述的日志数据采集方法。
本发明提供的日志数据采集方法在配置文件中配置的采集规则,应用可据配置文件预先的配置对日志组件进行初始化,判断日志采集请求是否需要记录审计日志;当不需要记录审计日志时拒绝日志采集请求,当需要记录审计日志时拒绝日志采集请求,根据采集规则对日志文件进行数据脱敏处理。本发明可将应用业务日志与审计操作日志分离,实现了松耦合、可配置、高性能、可动态解析的日志打印采集组件。
附图说明
通过附图中所示的本发明优选实施例更具体说明,本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本的主旨。
图1为现有的日志框架技术架构图;
图2为现有的日志体系架构图;
图3为实施例提供的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。
需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。本文所使用的术语“安装”、“一端”、“另一端”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术领域的技术人员通常理解的含义相同。本文中说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明提供的日志数据采集方法在配置文件中配置的采集规则,应用可据配置文件预先的配置对日志组件进行初始化,判断日志采集请求是否需要记录审计日志;当不需要记录审计日志时拒绝日志采集请求,当需要记录审计日志时拒绝日志采集请求,根据采集规则对日志文件进行数据脱敏处理。从而实现了松耦合、可配置、高性能、可动态解析的日志打印采集组件。
优选地,在S2步骤后还包括如下步骤:根据当前运行环境是属于虚拟机还是容器云环境,生成对应的日志文件。随着应用上容器云,传统日志文件输出到共享文件***会存在文件名一样从而导致日志采查询存在混乱等问题,区分不出文件里哪行日志是哪个应用打印的。当前运行环境是容器云环境时,根据应用容器镜像id生成日志文件存储至共享目录中;当前运行环境是属于虚拟机环境时,根据应用唯一的ID生成日志文件。本发明应用根据当前运行环境是属于虚拟机还是容器云环境,根据应用唯一ID还是容器ID动态选择生成日志文件,便于开发人员和运维人员查看日志;基于应用的唯一ID名或者容器HOSTNAME区分应用日志,避免日志文件名给日志采集程序造成困扰及开发人员查看问题造成混淆。
优选地,在S3步骤中,通过HTTP Filter拦截机制动态根据采集规则判断该次请求是否存在敏感数据,如果存在敏感数据则进行数据脱敏处理。金融行业通常涉及对客户姓名、银行***、手机号、身份证号、密码等隐私数据的采集与处理,若直接把这些隐私数据记录到***日志里,当管理不善时就会造成客户隐私数据的泄露,而且这么做也不符合监管要求。数据脱敏是使用给定的脱敏规则和策略,对隐私数据进行变形处理,从而达到保护隐私数据安全的一种方法。本发明能根据业务要求在配置文件配置屏蔽打印敏感字段,或者在对日志打印时对敏感字段的段值加星号打印展示,从而实现字段的打印达到脱敏效果,避免信息泄露。
优选地,在S2步骤时,根据读取配置文件动态判断日志采集请求是否存在数据量大的字段,如果存在数据量大的字段则忽略该字段的打印。由于业务日志打印要求根据每个业务场景要求不一样,有的日志字段值存在数据量大而不需要打印的情况,现有的日志框架没法灵活配置日志字段打印,同时也存在日志存储空间的浪费,降低了资源利用率。本申请通过读取配置文件动态判断日志采集请求是否存在数据量大的字段,如果存在数据量大的字段则忽略该字段的打印可以很好解决上述问题。
优选地,所述日志组件提供***接入口,通过***接入口与应用通讯连接;所述日志组件还包括显示模块,通过所述显示模块控制日志的打印及日志的字段显示。本发明基于开源日志框架,通过将可配置及动态解析的功能统一成日志组件的形式;日志组件提供***接入口,通过***接入口与应用通讯连接;所述日志组件还包括显示模块,通过所述显示模块控制日志的打印及日志的字段显示,以达到灵活控制日志的打印及字段的显示,并且以日志工厂的方式灵活选择业务日志与审计日志打印。
优选地,所述日志组件包括数据采集模块、数据接入模块、流式计算模块和数据输出模块,通过数据采集模块从各节点上实时采集数据,通过数据接入模块在采集数据和数据处理之间进行消息缓冲,由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件作为缓冲;通过选用Kafka来实现,从而大大降低运维工作压力和保证***可用性。流式计算模块对采集到的数据进行实时分析,数据输出模块对对分析后的数据进行输出,数据输出模块可以使用HDFS、MySQL等。
优选地,所述日志组件还包括异步打印模块和链路跟踪模块,通过异步打印模块异步对日志文件进行读取,通过链路跟踪模块对采集的数据进行链路跟踪。本发明增加异步打印模块提升***的并发处理能力,日志采集平台进行数据采集时异步对日志文件进行读取,供日志查询平台进行检索;通过在日志组件打印链路跟踪唯一ID,能方便应用开发人员及运维人员准确定位问题,提高开发运维效率。
本发明建立灵活可配置及可动态解析的日志打印采集机制,将应用和日志打印逻辑进行解耦,统一关键日志输出格式方便日后进行可视化统计与分析,通过应用引入日志组件的形式实现日志打印规则可配置化及日志内容动态解析,能根据业务要求配置屏蔽打印敏感字段或者敏感字段值加星号部分打印展示,操作简单、收集方便,能减少业务依赖,增加同步与异步打印机制提升***的并发处理能力,从而取代通用的日志打印框架,实现了松耦合、可配置、高性能、可动态解析的日志打印采集组件。
在优选实施例中,日志组件还设计配置中心,计配置中心为日志配置项提供统一配置中心进行集中配置,将应用和配置进行解耦;日志组件还设计动态配置组件,其实现参数配置变更热加载,当日志配置项发生变更时可以实现热加载。
在本申请中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“优选实施例”、“再一实施例”、“其他实施例”或“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种日志数据采集方法,其特征在于,包括步骤:
S1:在配置文件中配置的采集规则;
S2:根据配置文件预先的配置对日志组件进行初始化;
S3:判断日志采集请求是否需要记录审计日志;当不需要记录审计日志时拒绝日志采集请求,当需要记录审计日志时拒绝日志采集请求,根据采集规则对日志文件进行数据脱敏处理。
2.如权利要求1所述日志数据采集方法,其特征在于,在S2步骤后还包括如下步骤:根据当前运行环境是属于虚拟机还是容器云环境,生成对应的日志文件。
3.如权利要求1所述日志数据采集方法,其特征在于,在S3步骤中,通过HTTP Filter拦截机制动态根据采集规则判断该次请求是否存在敏感数据,如果存在敏感数据则进行数据脱敏处理。
4.如权利要求1所述日志数据采集方法,其特征在于,在S2步骤时,根据读取配置文件动态判断日志采集请求是否存在数据量大的字段,如果存在数据量大的字段则忽略该字段的打印。
5.如权利要求1所述日志数据采集方法,其特征在于,所述日志组件提供***接入口,通过***接入口与应用通讯连接;所述日志组件还包括显示模块,通过所述显示模块控制日志的打印及日志的字段显示。
6.如权利要求1所述日志数据采集方法,其特征在于,所述日志组件包括数据采集模块、数据接入模块、流式计算模块和数据输出模块,通过数据采集模块从各节点上实时采集数据,通过数据接入模块在采集数据和数据处理之间进行消息缓冲,流式计算模块对采集到的数据进行实时分析,数据输出模块对对分析后的数据进行输出。
7.如权利要求1所述日志数据采集方法,其特征在于,所述日志组件还包括异步打印模块和链路跟踪模块,通过异步打印模块异步对日志文件进行读取,通过链路跟踪模块对采集的数据进行链路跟踪。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现根据权利要求1至7中任一项所述的日志数据采集方法。
9.一种计算机可读存储介质,其中存储有程序,其特征在于,所述程序被计算机执行时实现根据权利要求1至7中任一项所述的日志数据采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179346.3A CN115470090A (zh) | 2022-09-27 | 2022-09-27 | 一种日志数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179346.3A CN115470090A (zh) | 2022-09-27 | 2022-09-27 | 一种日志数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470090A true CN115470090A (zh) | 2022-12-13 |
Family
ID=84335508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211179346.3A Pending CN115470090A (zh) | 2022-09-27 | 2022-09-27 | 一种日志数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470090A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662218A (zh) * | 2023-08-01 | 2023-08-29 | 北京德塔精要信息技术有限公司 | 日志实时收集处理方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181927A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种微服务架构下的日志审计方法 |
CN113407421A (zh) * | 2021-08-19 | 2021-09-17 | 北京江融信科技有限公司 | 微服务网关的动态日志记录管理方法及*** |
CN115098890A (zh) * | 2022-08-25 | 2022-09-23 | 北京融数联智科技有限公司 | 一种隐私计算安全审计方法和*** |
-
2022
- 2022-09-27 CN CN202211179346.3A patent/CN115470090A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181927A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种微服务架构下的日志审计方法 |
CN113407421A (zh) * | 2021-08-19 | 2021-09-17 | 北京江融信科技有限公司 | 微服务网关的动态日志记录管理方法及*** |
CN115098890A (zh) * | 2022-08-25 | 2022-09-23 | 北京融数联智科技有限公司 | 一种隐私计算安全审计方法和*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662218A (zh) * | 2023-08-01 | 2023-08-29 | 北京德塔精要信息技术有限公司 | 日志实时收集处理方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9037555B2 (en) | Asynchronous collection and correlation of trace and communications event data | |
US10853082B1 (en) | Pipeline set selection based on duty cycle estimation of pipeline threads | |
US8626702B2 (en) | Method and system for validation of data extraction | |
US6754704B1 (en) | Methods, systems, and computer program product for remote monitoring of a data processing system events | |
WO2007036932A2 (en) | Data table management system and methods useful therefor | |
CN111221591A (zh) | 探测基于Kubernetes部署的微服务的可用性的方法、***及介质 | |
US11681707B1 (en) | Analytics query response transmission | |
CN112039701A (zh) | 接口调用监控方法、装置、设备及存储介质 | |
CN113760641A (zh) | 业务监控方法、装置、计算机***和计算机可读存储介质 | |
CN114880240B (zh) | 一种物联网设备自动化测试***、方法、存储介质及设备 | |
CN111813629A (zh) | 一种Web页面的监控数据生成方法、装置及设备 | |
CN115470090A (zh) | 一种日志数据采集方法 | |
CN112084005A (zh) | 一种容器行为审计方法、装置、终端及存储介质 | |
US20070055574A1 (en) | Commonly available device statistics for POS devices | |
CN110764962B (zh) | 日志处理方法和装置 | |
CN112559525B (zh) | 数据检查***、方法、装置和服务器 | |
JP4928480B2 (ja) | ジョブ処理システムおよびジョブ管理方法 | |
CN109189652A (zh) | 一种封闭网络终端行为数据的采集方法及*** | |
US10997057B2 (en) | Debugging asynchronous functions | |
CN115766527A (zh) | 信创环境下基于api网关进出流量的业务化分析***及其方法 | |
CN115617612A (zh) | 一种日志上报方法、装置、计算机设备和存储介质 | |
CN111881025B (zh) | 一种自动化测试任务调度方法、装置及*** | |
CN111639936B (zh) | 交易信息的获取方法、装置、电子设备及可读存储介质 | |
CN113077340A (zh) | 面向金融交易的性能监控方法及装置 | |
JP2009181494A (ja) | ジョブ処理システムおよびジョブ情報取得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221213 |
|
RJ01 | Rejection of invention patent application after publication |