CN114610576A - 一种日志生成监控方法和装置 - Google Patents

一种日志生成监控方法和装置 Download PDF

Info

Publication number
CN114610576A
CN114610576A CN202210252421.8A CN202210252421A CN114610576A CN 114610576 A CN114610576 A CN 114610576A CN 202210252421 A CN202210252421 A CN 202210252421A CN 114610576 A CN114610576 A CN 114610576A
Authority
CN
China
Prior art keywords
corpus
word
lda
topic
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210252421.8A
Other languages
English (en)
Inventor
张馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202210252421.8A priority Critical patent/CN114610576A/zh
Publication of CN114610576A publication Critical patent/CN114610576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种日志生成监控方法和装置,属于大数据,该方法包括:使用切面作用于业务领域***的交易接口,确定初始交易日志数据;对初始交易日志数据进行分词处理,生成语料库;对语料库进行采样,训练得到基于语料库的LDA模型;根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,不用人力去分析和确定各业务领域的流水日志标准,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。

Description

一种日志生成监控方法和装置
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种日志生成监控方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
商业银行各个***的流水日志是用来评估***运行情况的一种重要手段。针对流水日志的分析及监控能够有效跟踪具体业务领域的交易参数变化情况,及时发现***运行风险,防患于未然,有效保障***平稳运行。
但是,由于不同业务领域的金融交易差异性,传统的流水日志生成需要根据每个产品***、每个交易的特性去分析金融交易的特点,确定流水日志需要的字段及获取方式,不能够快速生成流水日志,也很难做到快速推广。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种日志生成监控方法,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全,该方法包括:
使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
对初始交易日志数据进行分词处理,生成语料库;
对语料库进行采样,训练得到基于语料库的LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)模型;
根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
对目标业务领域***的流水日志文件进行监控。
本发明实施例还提供一种日志生成监控装置,包括:
初始交易日志数据确定模块,用于使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
语料库生成模块,用于对初始交易日志数据进行分词处理,生成语料库;
基于语料库的LDA模型训练模块,用于对语料库进行采样,训练得到基于语料库的LDA模型;
流水日志文件生成模块,用于根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
流水日志文件监控模块,用于对目标业务领域***的流水日志文件进行监控。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种日志生成监控方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种日志生成监控方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述一种日志生成监控方法。
本发明实施例提供的一种日志生成监控方法和装置,包括:使用切面作用于业务领域***的交易接口,确定初始交易日志数据;对初始交易日志数据进行分词处理,生成语料库;对语料库进行采样,训练得到基于语料库的LDA模型;根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;对目标业务领域***的流水日志文件进行监控。本发明利用切面技术获取各业务领域***的初始交易日志数据,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性;通过对不同业务领域***采集得到的初始交易日志数据进行训练,生成基于语料库的LDA模型,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的基于语料库的LDA模型,采用关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种日志生成监控方法示意图。
图2为本发明实施例一种日志生成监控方法的确定初始交易日志数据过程示意图。
图3为本发明实施例一种日志生成监控方法的生成语料库过程示意图。
图4为本发明实施例一种日志生成监控方法的生成目标业务领域***的流水日志文件过程示意图。
图5为运行本发明实施的一种日志生成监控方法的计算机设备示意图。
图6为本发明实施例一种日志生成监控装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明属于大数据。图1为本发明实施例一种日志生成监控方法示意图,如图1所示,本发明实施例提供一种日志生成监控方法,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全,该方法包括:
步骤101:使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
步骤102:对初始交易日志数据进行分词处理,生成语料库;
步骤103:对语料库进行采样,训练得到基于语料库的LDA模型;
步骤104:根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
步骤105:对目标业务领域***的流水日志文件进行监控。
本发明实施例提供的一种日志生成监控方法和装置,包括:使用切面作用于业务领域***的交易接口,确定初始交易日志数据;对初始交易日志数据进行分词处理,生成语料库;对语料库进行采样,训练得到基于语料库的LDA模型;根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;对目标业务领域***的流水日志文件进行监控。本发明利用切面技术获取各业务领域***的初始交易日志数据,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性;通过对不同业务领域***采集得到的初始交易日志数据进行训练,生成基于语料库的LDA模型,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的基于语料库的LDA模型,采用关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。
对于***日志的生成分析,现有的方式是:1.各业务领域***根据各自***的特点进行具体分析,确定各自的流水日志标准,生成独特形式的流水日志,进而实现***流水日志的分析和监控,可扩展性较差;2.各产品***通过筛选接***易码、调用时间等公共参数信息生成格式统一的***流水日志,最后按照统一指标进行监控。
现有方式的技术缺点:方案1当产品***发生变化或新接入产品***时需要重新分析、确定流水日志形式,可扩展性较差,推广成本大,实施速度慢;方案2没有考虑具体金融场景的交易特点,流水日志监控粒度粗,难以实现精确监控。
本发明实施例通过对不同业务领域的***日志进行训练,生成主题模型即各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的主题模型,采用基于LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)的S-LDA(Subject-Latent Dirichlet Allocation,主题-潜在狄利克雷分布)关键词提取算法对新的***日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本。
在本发明实施例中,前述的潜在狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是一种词袋模型,它认为文档是一组词构成的集合,词与词之间是无序的。一篇文档可以包含多个主题,文档中的每个词都是由某个主题生成的,LDA给出文档属于每个主题的概率分布,同时给出每个主题上词的概率分布。LDA是一种无监督学习,在文本主题识别、文本分类、文本相似度计算和文章相似推荐等方面都有应用。而主题-潜在狄利克雷分布(Subject-Latent Dirichlet Allocation,简称S-LAD),是基于潜在狄利克雷分布的基础上,以主题作为主要分类项所实现的概率分布,以实现关键词提取的一种算法模型。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,该方法包括:
使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
对初始交易日志数据进行分词处理,生成语料库;
对语料库进行采样,训练得到基于语料库的LDA模型;
根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
对目标业务领域***的流水日志文件进行监控。
本发明利用切面技术获取各业务领域***的初始交易日志数据,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性;通过对不同业务领域***采集得到的初始交易日志数据进行训练,生成基于语料库的LDA模型,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的基于语料库的LDA模型,采用关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。
图2为本发明实施例一种日志生成监控方法的确定初始交易日志数据过程示意图,如图2所示,具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,使用切面作用于业务***的交易接口,确定初始交易日志数据,包括:
步骤201:使用切面算法创建切面类,作用于全部业务领域***的交易接口,获取交易参数详情;
步骤202:根据交易参数详情,生成初始交易日志数据。
实施例中,为得到初始交易日志数据,主要过程包括:在各业务领域***正常运行的情况下,首先使用切面算法创建切面类,作用于全部业务领域***的交易接口,获取交易参数详情;然后,根据交易参数详情,生成初始交易日志数据。
图3为本发明实施例一种日志生成监控方法的生成语料库过程示意图,如图3所示,具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,对初始交易日志数据进行分词处理,生成语料库,包括:
步骤301:获取设定时长内的初始交易日志数据;
步骤302:对设定时长内的初始交易日志数据进行交易参数字段名提取;
步骤303:对提取到的交易参数字段名使用分词工具进行英文分词操作,生成语料库。
实施例中,生成语料库的过程,主要包括:首先,获取设定时长内的初始交易日志数据;在一个实例中,可以获取全部业务领域***为期半年的初始交易日志数据;然后,对设定时长内的初始交易日志数据进行交易参数字段名提取;在一个实例中,可以对全部业务领域***为期半年的初始交易日志数据进行交易参数字段名提取;最后,对提取到的交易参数字段名使用分词工具进行英文分词操作,生成语料库。具体的,对各业务领域***的为期半年的初始交易日志数据进行交易参数字段名提取,并且使用分词工具完成英文分词操作,生成语料库。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,对语料库进行采样,训练得到基于语料库的LDA模型,包括:
采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题;
根据每个词的主题,训练得到基于语料库的LDA模型。
实施例中,训练得到基于语料库的LDA模型的过程,主要包括:首先采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题;然后根据每个词的主题,训练得到基于语料库的LDA模型。
基于LDA主题模型,采用Gibbs采样算法进行采样,待到采样收敛后即可知道各个词的主题,通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布,最终得到基于语料库的LDA模型。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题,包括:
确定主题数目和超参向量;
随机为语料库中每一个语料的每一个词赋予一个主题编号;
重新扫描语料库,对于每一个词,利用Gibbs采样公式重新采样更新该词的主题编号,并且更新该词在语料中的编号;
重复执行采样更新,直至采样收敛,确定语料库中每个词的主题。
实施例中,Gibbs采样,属于一种特殊的马尔可夫链算法,常被用于解决包括矩阵分解、张量分解等在内的一系列问题,也被称为交替条件采样(alternating conditionalsampling),其中,“交替”一词是指Gibbs采样是一种迭代算法,并且相应的变量会在迭代的过程中交替使用,除此之外,加上“条件”一词是因为Gibbs采样的核心是贝叶斯理论,围绕先验知识和观测数据,以观测值作为条件从而推断出后验分布。本发明实施例以Gibbs采样构建的Gibbs采样公式,重新采样更新该词的主题编号,并且更新该词在语料中的编号。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,根据每个词的主题,训练得到基于语料库的LDA模型,包括:
统计语料库中每个语料每个词的主题编号,得到文档-主题分布参数;
统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布参数;
根据文档-主题分布参数,确定语料库中文档的主题分布;
根据LDA模型的主题-词分布参数,确定语料库中每个主题的词分布;
根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练,得到基于语料库的LDA模型。
实施例中,采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题,根据每个词的主题,训练得到基于语料库的LDA模型,具体过程可以包括:
确定主题数目和超参向量;
随机为语料库中每一个语料的每一个词赋予一个主题编号;
重新扫描语料库,对于每一个词,利用Gibbs采样公式重新采样更新该词的主题编号,并且更新该词在语料中的编号;
重复执行采样更新,直至采样收敛,确定语料库中每个词的主题;
统计语料库中每个语料每个词的主题编号,得到文档-主题分布参数;
统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布参数;
根据文档-主题分布参数,确定语料库中文档的主题分布;
根据LDA模型的主题-词分布参数,确定语料库中每个主题的词分布;
根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练,得到基于语料库的LDA模型。
具体的,基于LDA主题模型,采用Gibbs采样算法对上述得到的语料库进行采样,基于Gibbs采样的LDA模型训练流程如下:
(1)确定合适的主题数目K,并且选择合适的超参向量
Figure BDA0003547327300000081
(2)随机为语料库中每一个语料的每一个词w赋予一个主题编号k;
(3)重新扫描语料库,对于每一个词w,利用Gibbs采样公式重新采样更新它的主题编号,并且更新该词在语料中的编号;
(4)重复第3步的Gibbs采样过程,采样收敛则转至第5步;
(5)统计语料库中的每个语料每个词的主题编号,得到文档-主题分布
Figure BDA0003547327300000082
然后统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布
Figure BDA0003547327300000083
(6)通过统计计算进而可以得到文档的主题分布以及每个主题的词分布,最终得到基于语料库训练后的LDA模型。
图4为本发明实施例一种日志生成监控方法的生成目标业务领域***的流水日志文件过程示意图,如图4所示,具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件,包括:
步骤401:根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法;
步骤402:根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库;
步骤403:根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件。
实施例中,生成目标业务领域***的流水日志文件是本发明实施例的核心创造点,主要过程包括:
首先,根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法;然后,根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库;最后,根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件。
本发明实施例提出基于LDA的S-LDA关键词提取算法,采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。根据步骤101生成的初始交易日志和关键词库,生成目标业务领域***的流水日志文件。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法,包括:
根据给定的文本文件集,构建模型训练所需的训练语料库,利用基于语料库的LDA模型对训练语料库进行训练得到LDA模型;
根据目标文本文件,构建目标语料,采用Gibbs采样算法预测得到目标语料的主题分布;
对目标文本文件的主题进行过滤,得到过滤后的主题集;
对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重,按照主题分布从大到小的概率顺序,依次从每个主题中选出设定数量的词,并保持选出的词出现的先后顺序构建关键词候选词集合;
对关键词候选词集合进行过滤,确定目标文本文件的关键词。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,对目标文本文件的主题进行过滤,得到过滤后的主题集,包括:
设定第一辅助向量;
计算目标文本文件中各个主题的词分布与第一辅助向量的相似度,确定第一JS散度值;
当第一JS散度值小于第一设定散度阈值时,将当前主题从目标文本文件的主题分布中删除,得到过滤后的主题集。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,对关键词候选词集合进行过滤,确定目标文本文件的关键词,包括:
设定第二辅助向量;
计算关键词候选词集合中每一个候选词的主题分布与第二辅助向量的相似度,确定第二JS散度值;
当第二JS散度值小于第二设定散度阈值时,将当前候选词从关键词候选词集合中删除,从剩余的关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前S名的候选词作为目标文本文件的关键词;所述排名前S名的候选词,是按照候选词出现频率进行从大到小的排序,取排序前S个候选词所得。
本发明实施例根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法,本发明实施例建立的基于LDA的S-LDA关键词提取算法过程如表1所示:
表1
Figure BDA0003547327300000101
Figure BDA0003547327300000111
基于LDA的S-LDA关键词提取算法,算法具体流程如下:
(1)根据给定的文档集构建模型训练所需语料库,基于LDA主题模型对语料库进行训练从而得到LDA模型。
(2)根据目标文档构建目标语料,采用Gibbs采样算法预测目标语料的主题分布。
(3)对目标文本文件的主题进行过滤:根据JS散度计算公式,计算出目标文本文件中各个主题的词分布与第一辅助向量
Figure BDA0003547327300000112
的相似度,确定第一JS散度值,
Figure BDA0003547327300000113
的计算公式如公式(1-1)、第一JS散度值计算公式如公式(1-2)。设定一个第一设定散度阈值,在实验中的取值为0.2。当JS散度值小于第一设定散度阈值时,则将当前主题从目标文本文件的主题分布中删除,从而得到过滤后的主题集。
Figure BDA0003547327300000121
Figure BDA0003547327300000122
其中,
Figure BDA0003547327300000123
表示第一辅助向量;JS(Vz_i||Aux1)表示第一JS散度值;V表示辅助向量
Figure BDA0003547327300000124
的特征维度数量;KL(P||Q)表示概率分布P和Q的KL散度(Kullback LeiblerDivergence);zi表示目标文档文件经预测后得到的第i个主题;Vz_i表示主题zi对应的词分布。
(4)根据主题i对应在目标文本文件主题分布中的比重proi构建主题i的选词权重weighti,它的具体表达式如公式(5-3)所示。按照主题分布从大到小的概率顺序,根据公式(5-4)依次从每个主题中选出一定数量的词,并保持词出现的先后顺序构建关键词候选词集合。
Figure BDA0003547327300000125
select_numi=weighti·5n
=5weighti·n (1-4)
其中,i表示主题;weighti表示主题i的选词权重;proi表示主题i对应在目标文本文件主题分布中的比重;n表示个数;select_numi表示从主题zi的主题词中选出的关键词候选词数目;·表示点乘。
(5)设定第二辅助向量
Figure BDA0003547327300000126
它的表达式如公式(1-5)所示。根据JS散度计算公式,计算关键词候选词集合中每一个词的主题分布和辅助向量的相似度,确定第二JS散度值,具体计算公式如公式(1-6)所示。设定散度阈值,在实验中的取值为0.2。然后将相似度较高的词从候选词集合中过滤删除,最后从关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前s名的词作为目标文本的关键词,其中s为正整数且s∈[3,10],s可随机选择某一值。
Figure BDA0003547327300000127
Figure BDA0003547327300000128
其中,
Figure BDA0003547327300000131
表示第二辅助向量;JS(Tw_i||Aux2)表示第二JS散度值;K表示辅助向量
Figure BDA0003547327300000132
的特征维度数量;KL(P||Q)表示概率分布P和Q的KL散度(Kullback LeiblerDivergence);wi表示关键词候选词集合中第i个词;Tw_i表示词wi对应的主题分布。
前述提到的公式(1-1)至公式(1-6)的表达式为举例说明,本领域技术人员可以理解,在实施时还可以根据需要对上述公式进行一定形式的变形和添加其它的参数或数据,或者提供其它的具体公式,这些变化例均应落入本发明的保护范围。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库,包括:
对目标业务领域交易日志进行分词处理;
采用基于LDA的S-LDA关键词提取算法,对分词处理后的目标业务领域交易日志进行关键词提取,建立关键词库。
实施例中,根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库,主要过程包括:首先,对目标业务领域交易日志进行分词处理;然后,采用基于LDA的S-LDA关键词提取算法,对分词处理后的目标业务领域交易日志进行关键词提取,建立关键词库。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件,包括:
依次取关键词库中的每个关键词,从初始交易日志数据中查询出关键词对应的值,生成目标业务领域***的流水日志文件。
实施例中,采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。依次取关键词库中的每个关键词,从步骤101生成的初始交易日志中查询出关键词(交易参数)对应的值,生成目标业务领域***的流水日志文件。本发明实施例提出基于LDA的S-LDA关键词提取算法,采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。根据步骤101生成的初始交易日志和关键词库,生成目标业务领域***的流水日志文件。
具体实施本发明实施例提供的一种日志生成监控方法时,在一个实施例中,对目标业务领域***的流水日志文件进行监控,包括:
针对生成的目标业务领域***的流水日志文件,按照关键词进行监控,实时获取目标业务领域***的运行状态信息。
***运行过程中,针对生成的流水日志按照关键词进行监控,实时获取***的运行状态,保障***运行安全。当金融交易进入产品***时,通过流水日志生成模块得到包含关键词(交易参数字段名称)的流水日志。针对生成的流水日志进行监控,监控***运行状态。
本发明利用切面技术获取各业务领域***的初始交易日志数据,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性;通过对不同业务领域***采集得到的初始交易日志数据进行训练,生成基于语料库的LDA模型,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的基于语料库的LDA模型,采用基于LDA的S-LDA关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。
下面结合具体场景,对本发明实施例提供的一种日志生成监控方法进行简要描述:
本发明实施例提供的一种日志生成监控方法,主要包括:
在各业务领域***正常运行的情况下,使用切面并作用于各个交易接口,获取交易参数详情,生成初始的交易日志。
采集步骤101生成的银行不同业务领域为期半年的初始交易日志,对交易日志进行处理,提取出各交易参数字段名并进行英文分词,生成语料库。基于LDA主题模型,采用Gibbs采样算法进行采样,待到采样收敛后即可知道各个词的主题,通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布,最终得到基于语料库的LDA模型。
提出基于LDA的S-LDA关键词提取算法,采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。根据步骤101生成的初始交易日志和关键词库,生成目标业务领域***的流水日志文件。
***运行过程中,针对生成的流水日志按照关键词进行监控,实时获取***的运行状态,保障***运行安全。
从开发的角度而言,技术人员需要完成切面类创建操作、各个业务领域***的***初始交易日志获取操作、日志-关键词模型建立操作、流水日志生成操作以及流水日志监控操作。其中,流水日志模型建立操作和流水日志生成操作对于本发明而言是最重要的。
具体实现本发明实施例一种日志生成监控方法的过程,主要包括:
步骤1:使用切面技术,创建切面类并使其作用于各个业务领域***的各交易接口,获取交易参数详情,输出并生成初始的交易日志。
步骤2:采集步骤1生成的银行不同业务领域为期半年的初始交易日志,对交易日志进行处理,提取出各交易参数字段名并进行英文分词,生成语料库。
步骤3:基于LDA主题模型,采用Gibbs采样算法对步骤2得到的语料库进行采样。LDA模型基于Gibbs采样的模型训练流程如下:
(1)确定合适的主题数目K,并且选择合适的超参数向量
Figure BDA0003547327300000151
(2)随机为语料库中每一个语料的每一个词w赋予一个主题编号k。
(3)重新扫描语料库,对于每一个词w,利用Gibbs采样公式重新采样更新它的主题编号,并且更新该词在语料中的编号。
(4)重复第3步的Gibbs采样过程,采样收敛则转至第5步。
(5)统计语料库中的每个语料每个词的主题编号,得到文档-主题分布
Figure BDA0003547327300000152
然后统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布
Figure BDA0003547327300000153
通过统计计算进而可以得到文档的主题分布以及每个主题的词分布,最终得到基于语料库训练后的LDA模型。
步骤4:提出基于LDA的S-LDA关键词提取算法,算法具体流程如下:
(1)根据给定的文档集构建模型训练所需语料库,基于LDA主题模型对语料库进行训练从而得到LDA模型。
(2)根据目标文档构建目标语料,采用Gibbs采样算法预测目标语料的主题分布。
(3)对目标文本文件的主题进行过滤:根据JS散度计算公式,计算出目标文本文件中各个主题的词分布与辅助向量
Figure BDA0003547327300000154
的相似度,
Figure BDA0003547327300000155
的计算公式如公式(1-1)、相似度计算公式如公式(1-2)。设定一个散度阈值,在实验中的取值为0.2。当JS散度值小于阈值时,则将当前主题从目标文本文件的主题分布中删除,从而得到过滤后的主题集。
(4)根据主题i对应在目标文本文件主题分布中的比重proi构建主题i的选词权重weighti,它的具体表达式如公式(1-3)所示。按照主题分布从大到小的概率顺序,根据公式(1-4)依次从每个主题中选出一定数量的词,并保持词出现的先后顺序构建关键词候选词集合。
(5)设定辅助向量
Figure BDA0003547327300000161
它的表达式如公式(1-5)所示。根据JS散度,计算关键词候选词集合中每一个词的主题分布和辅助向量的相似度,具体计算公式如公式(1-6)所示。设定散度阈值,在实验中的取值为0.2。然后将相似度较高的词从候选词集合中过滤删除,最后从关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前s名的词作为目标文本的关键词,其中s为正整数且s∈[3,10],s可随机选择某一值。
步骤5:采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。依次取关键词库中的每个关键词,从步骤1生成的初始交易日志中查询出关键词(交易参数)对应的值,生成目标业务领域***的流水日志文件。
步骤6:***运行过程中,针对生成的流水日志按照关键词进行监控,实时获取***的运行状态,保障***运行安全。
本发明实施例还提供一种日志生成监控方法的模块化实例,包括:基于切面的***初始交易日志获取模块、日志-关键词模型建立模块、流水日志生成模块、流水日志监控模块。
基于切面的***初始交易日志获取模块:在各业务领域***正常运行的情况下,使用切面并作用于各个交易接口,获取交易参数详情,生成初始的交易日志。
日志-关键词模型建立模块:对各业务领域***的初始交易日志数据进行交易参数字段名提取,并且使用分词工具完成分词操作,生成语料库。基于LDA主题模型,采用Gibbs采样算法进行采样,待到采样收敛后即可知道各个词的主题,通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布,最终得到基于语料库的LDA模型。
流水日志生成模块:采用提出的基于LDA的S-LDA关键词提取算法,对分词后的目标业务领域交易日志进行关键词提取,建立关键词库。根据各业务领域***的初始交易日志和关键词库,生成目标业务领域***的流水日志文件。
流水日志监控模块:当金融交易进入产品***时,通过流水日志生成模块得到包含关键词(交易参数字段名称)的流水日志。针对生成的流水日志进行监控,监控***运行状态。
本发明实施例利用切面技术获取各业务领域***的切面交易日志,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性。利用提出的基于LDA的S-LDA关键词提取算法针对***的切面交易日志进行分析,降低人力成本,提高流水日志监控的准确性。
图5为运行本发明实施的一种日志生成监控方法的计算机设备示意图,如图5所示,本发明实施例还提供一种计算机设备500,包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序530,所述处理器执行所述计算机程序时实现上述一种日志生成监控方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种日志生成监控方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述一种日志生成监控方法。
本发明实施例中还提供了一种日志生成监控装置,如下面的实施例所述。由于该装置解决问题的原理与一种日志生成监控方法相似,因此该装置的实施可以参见一种日志生成监控方法的实施,重复之处不再赘述。
图6为本发明实施例一种日志生成监控装置示意图,如图6所示,本发明实施例还提供一种日志生成监控装置,具体实施时可以包括:
初始交易日志数据确定模块601,用于使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
语料库生成模块602,用于对初始交易日志数据进行分词处理,生成语料库;
基于语料库的LDA模型训练模块603,用于对语料库进行采样,训练得到基于语料库的LDA模型;
流水日志文件生成模块604,用于根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
流水日志文件监控模块605,用于对目标业务领域***的流水日志文件进行监控。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,初始交易日志数据确定模块,具体用于:
使用切面算法创建切面类,作用于全部业务领域***的交易接口,获取交易参数详情;
根据交易参数详情,生成初始交易日志数据。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,语料库生成模块,具体用于:
获取设定时长内的初始交易日志数据;
对设定时长内的初始交易日志数据进行交易参数字段名提取;
对提取到的交易参数字段名使用分词工具进行英文分词操作,生成语料库。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,基于语料库的LDA模型训练模块,用于:
采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题;
根据每个词的主题,训练得到基于语料库的LDA模型。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,基于语料库的LDA模型训练模块,还用于:
确定主题数目和超参向量;
随机为语料库中每一个语料的每一个词赋予一个主题编号;
重新扫描语料库,对于每一个词,利用Gibbs采样公式重新采样更新该词的主题编号,并且更新该词在语料中的编号;
重复执行采样更新,直至采样收敛,确定语料库中每个词的主题。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,基于语料库的LDA模型训练模块,还用于:
统计语料库中每个语料每个词的主题编号,得到文档-主题分布参数;
统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布参数;
根据文档-主题分布参数,确定语料库中文档的主题分布;
根据LDA模型的主题-词分布参数,确定语料库中每个主题的词分布;
根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练,得到基于语料库的LDA模型。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,具体用于:
根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法;
根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库;
根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,还用于:
根据给定的文本文件集,构建模型训练所需的训练语料库,利用基于语料库的LDA模型对训练语料库进行训练得到LDA模型;
根据目标文本文件,构建目标语料,采用Gibbs采样算法预测得到目标语料的主题分布;
对目标文本文件的主题进行过滤,得到过滤后的主题集;
对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重,按照主题分布从大到小的概率顺序,依次从每个主题中选出设定数量的词,并保持选出的词出现的先后顺序构建关键词候选词集合;
对关键词候选词集合进行过滤,确定目标文本文件的关键词。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,还用于:
设定第一辅助向量;
计算目标文本文件中各个主题的词分布与第一辅助向量的相似度,确定第一JS散度值;
当第一JS散度值小于第一设定散度阈值时,将当前主题从目标文本文件的主题分布中删除,得到过滤后的主题集。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,还用于:
设定第二辅助向量;
计算关键词候选词集合中每一个候选词的主题分布与第二辅助向量的相似度,确定第二JS散度值;
当第二JS散度值小于第二设定散度阈值时,将当前候选词从关键词候选词集合中删除,从剩余的关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前S名的候选词作为目标文本文件的关键词;所述排名前S名的候选词,是按照候选词出现频率进行从大到小的排序,取排序前S个候选词所得。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,还用于:
对目标业务领域交易日志进行分词处理;
采用基于LDA的S-LDA关键词提取算法,对分词处理后的目标业务领域交易日志进行关键词提取,建立关键词库。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件生成模块,还用于:
依次取关键词库中的每个关键词,从初始交易日志数据中查询出关键词对应的值,生成目标业务领域***的流水日志文件。
具体实施本发明实施例提供的一种日志生成监控装置时,在一个实施例中,流水日志文件监控模块,具体用于:
针对生成的目标业务领域***的流水日志文件,按照关键词进行监控,实时获取目标业务领域***的运行状态信息。
综上,本发明实施例提供的一种日志生成监控方法和装置,包括:使用切面作用于业务领域***的交易接口,确定初始交易日志数据;对初始交易日志数据进行分词处理,生成语料库;对语料库进行采样,训练得到基于语料库的LDA模型;根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;对目标业务领域***的流水日志文件进行监控。本发明利用切面技术获取各业务领域***的初始交易日志数据,无需按照业务领域***的具体情况编写日志生成代码,提高流水日志生成的可扩展性;通过对不同业务领域***采集得到的初始交易日志数据进行训练,生成基于语料库的LDA模型,建立各业务领域的流水日志标准,不用人力去分析和确定各业务领域的流水日志标准。同时,基于训练后得到的基于语料库的LDA模型,采用基于LDA的S-LDA关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库,自动生成目标业务领域***的流水日志文件,有效降低人力成本,针对目标业务领域***的流水日志文件进行监控,可以实时获取***的运行状态,提高流水日志监控的准确性,保障***运行安全。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (29)

1.一种日志生成监控方法,其特征在于,包括:
使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
对初始交易日志数据进行分词处理,生成语料库;
对语料库进行采样,训练得到基于语料库的LDA模型;
根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
对目标业务领域***的流水日志文件进行监控。
2.如权利要求1所述的方法,其特征在于,使用切面作用于业务***的交易接口,确定初始交易日志数据,包括:
使用切面算法创建切面类,作用于全部业务领域***的交易接口,获取交易参数详情;
根据交易参数详情,生成初始交易日志数据。
3.如权利要求1所述的方法,其特征在于,对初始交易日志数据进行分词处理,生成语料库,包括:
获取设定时长内的初始交易日志数据;
对设定时长内的初始交易日志数据进行交易参数字段名提取;
对提取到的交易参数字段名使用分词工具进行英文分词操作,生成语料库。
4.如权利要求1所述的方法,其特征在于,对语料库进行采样,训练得到基于语料库的LDA模型,包括:
采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题;
根据每个词的主题,训练得到基于语料库的LDA模型。
5.如权利要求4所述的方法,其特征在于,采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题,包括:
确定主题数目和超参向量;
随机为语料库中每一个语料的每一个词赋予一个主题编号;
重新扫描语料库,对于每一个词,利用Gibbs采样公式重新采样更新该词的主题编号,并且更新该词在语料中的编号;
重复执行采样更新,直至采样收敛,确定语料库中每个词的主题。
6.如权利要求5所述的方法,其特征在于,根据每个词的主题,训练得到基于语料库的LDA模型,包括:
统计语料库中每个语料每个词的主题编号,得到文档-主题分布参数;
统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布参数;
根据文档-主题分布参数,确定语料库中文档的主题分布;
根据LDA模型的主题-词分布参数,确定语料库中每个主题的词分布;
根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练,得到基于语料库的LDA模型。
7.如权利要求1所述的方法,其特征在于,根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件,包括:
根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法;
根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库;
根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件。
8.如权利要求7所述的方法,其特征在于,根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法,包括:
根据给定的文本文件集,构建模型训练所需的训练语料库,利用基于语料库的LDA模型对训练语料库进行训练得到LDA模型;
根据目标文本文件,构建目标语料,采用Gibbs采样算法预测得到目标语料的主题分布;
对目标文本文件的主题进行过滤,得到过滤后的主题集;
对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重,按照主题分布从大到小的概率顺序,依次从每个主题中选出设定数量的词,并保持选出的词出现的先后顺序构建关键词候选词集合;
对关键词候选词集合进行过滤,确定目标文本文件的关键词。
9.如权利要求8所述的方法,其特征在于,对目标文本文件的主题进行过滤,得到过滤后的主题集,包括:
设定第一辅助向量;
计算目标文本文件中各个主题的词分布与第一辅助向量的相似度,确定第一JS散度值;
当第一JS散度值小于第一设定散度阈值时,将当前主题从目标文本文件的主题分布中删除,得到过滤后的主题集。
10.如权利要求8所述的方法,其特征在于,对关键词候选词集合进行过滤,确定目标文本文件的关键词,包括:
设定第二辅助向量;
计算关键词候选词集合中每一个候选词的主题分布与第二辅助向量的相似度,确定第二JS散度值;
当第二JS散度值小于第二设定散度阈值时,将当前候选词从关键词候选词集合中删除,从剩余的关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前S名的候选词作为目标文本文件的关键词;所述排名前S名的候选词,是按照候选词出现频率进行从大到小的排序,取排序前S个候选词所得。
11.如权利要求7所述的方法,其特征在于,根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库,包括:
对目标业务领域交易日志进行分词处理;
采用基于LDA的S-LDA关键词提取算法,对分词处理后的目标业务领域交易日志进行关键词提取,建立关键词库。
12.如权利要求7所述的方法,其特征在于,根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件,包括:
依次取关键词库中的每个关键词,从初始交易日志数据中查询出关键词对应的值,生成目标业务领域***的流水日志文件。
13.如权利要求1所述的方法,其特征在于,对目标业务领域***的流水日志文件进行监控,包括:
针对生成的目标业务领域***的流水日志文件,按照关键词进行监控,实时获取目标业务领域***的运行状态信息。
14.一种日志生成监控装置,其特征在于,包括:
初始交易日志数据确定模块,用于使用切面作用于业务领域***的交易接口,确定初始交易日志数据;
语料库生成模块,用于对初始交易日志数据进行分词处理,生成语料库;
基于语料库的LDA模型训练模块,用于对语料库进行采样,训练得到基于语料库的LDA模型;
流水日志文件生成模块,用于根据基于语料库的LDA模型,对目标业务领域交易日志进行关键词提取,建立关键词库,结合初始交易日志数据,生成目标业务领域***的流水日志文件;
流水日志文件监控模块,用于对目标业务领域***的流水日志文件进行监控。
15.如权利要求14所述的装置,其特征在于,初始交易日志数据确定模块,具体用于:
使用切面算法创建切面类,作用于全部业务领域***的交易接口,获取交易参数详情;
根据交易参数详情,生成初始交易日志数据。
16.如权利要求14所述的装置,其特征在于,语料库生成模块,具体用于:
获取设定时长内的初始交易日志数据;
对设定时长内的初始交易日志数据进行交易参数字段名提取;
对提取到的交易参数字段名使用分词工具进行英文分词操作,生成语料库。
17.如权利要求14所述的装置,其特征在于,基于语料库的LDA模型训练模块,用于:
采用Gibbs采样算法对语料库进行采样,在采样收敛后确定每个词的主题;
根据每个词的主题,训练得到基于语料库的LDA模型。
18.如权利要求17所述的装置,其特征在于,基于语料库的LDA模型训练模块,还用于:
确定主题数目和超参向量;
随机为语料库中每一个语料的每一个词赋予一个主题编号;
重新扫描语料库,对于每一个词,利用Gibbs采样公式重新采样更新该词的主题编号,并且更新该词在语料中的编号;
重复执行采样更新,直至采样收敛,确定语料库中每个词的主题。
19.如权利要求18所述的装置,其特征在于,基于语料库的LDA模型训练模块,还用于:
统计语料库中每个语料每个词的主题编号,得到文档-主题分布参数;
统计语料库中各个主题-词的分布,获取LDA模型的主题-词分布参数;
根据文档-主题分布参数,确定语料库中文档的主题分布;
根据LDA模型的主题-词分布参数,确定语料库中每个主题的词分布;
根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练,得到基于语料库的LDA模型。
20.如权利要求14所述的装置,其特征在于,流水日志文件生成模块,具体用于:
根据基于语料库的LDA模型,建立基于LDA的S-LDA关键词提取算法;
根据基于LDA的S-LDA关键词提取算法,对目标业务领域交易日志进行关键词提取,建立关键词库;
根据关键词库和初始交易日志数据,生成目标业务领域***的流水日志文件。
21.如权利要求20所述的装置,其特征在于,流水日志文件生成模块,还用于:
根据给定的文本文件集,构建模型训练所需的训练语料库,利用基于语料库的LDA模型对训练语料库进行训练得到LDA模型;
根据目标文本文件,构建目标语料,采用Gibbs采样算法预测得到目标语料的主题分布;
对目标文本文件的主题进行过滤,得到过滤后的主题集;
对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重,按照主题分布从大到小的概率顺序,依次从每个主题中选出设定数量的词,并保持选出的词出现的先后顺序构建关键词候选词集合;
对关键词候选词集合进行过滤,确定目标文本文件的关键词。
22.如权利要求21所述的装置,其特征在于,流水日志文件生成模块,还用于:
设定第一辅助向量;
计算目标文本文件中各个主题的词分布与第一辅助向量的相似度,确定第一JS散度值;
当第一JS散度值小于第一设定散度阈值时,将当前主题从目标文本文件的主题分布中删除,得到过滤后的主题集。
23.如权利要求21所述的装置,其特征在于,流水日志文件生成模块,还用于:
设定第二辅助向量;
计算关键词候选词集合中每一个候选词的主题分布与第二辅助向量的相似度,确定第二JS散度值;
当第二JS散度值小于第二设定散度阈值时,将当前候选词从关键词候选词集合中删除,从剩余的关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前S名的候选词作为目标文本文件的关键词;所述排名前S名的候选词,是按照候选词出现频率进行从大到小的排序,取排序前S个候选词所得。
24.如权利要求20所述的装置,其特征在于,流水日志文件生成模块,还用于:
对目标业务领域交易日志进行分词处理;
采用基于LDA的S-LDA关键词提取算法,对分词处理后的目标业务领域交易日志进行关键词提取,建立关键词库。
25.如权利要求20所述的装置,其特征在于,流水日志文件生成模块,还用于:
依次取关键词库中的每个关键词,从初始交易日志数据中查询出关键词对应的值,生成目标业务领域***的流水日志文件。
26.如权利要求14所述的装置,其特征在于,流水日志文件监控模块,具体用于:
针对生成的目标业务领域***的流水日志文件,按照关键词进行监控,实时获取目标业务领域***的运行状态信息。
27.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13任一项所述方法。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至13任一所述方法。
29.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至13任一所述方法。
CN202210252421.8A 2022-03-15 2022-03-15 一种日志生成监控方法和装置 Pending CN114610576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210252421.8A CN114610576A (zh) 2022-03-15 2022-03-15 一种日志生成监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210252421.8A CN114610576A (zh) 2022-03-15 2022-03-15 一种日志生成监控方法和装置

Publications (1)

Publication Number Publication Date
CN114610576A true CN114610576A (zh) 2022-06-10

Family

ID=81862985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210252421.8A Pending CN114610576A (zh) 2022-03-15 2022-03-15 一种日志生成监控方法和装置

Country Status (1)

Country Link
CN (1) CN114610576A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069595A (zh) * 2023-04-06 2023-05-05 华能信息技术有限公司 一种基于日志的运维监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069595A (zh) * 2023-04-06 2023-05-05 华能信息技术有限公司 一种基于日志的运维监控方法
CN116069595B (zh) * 2023-04-06 2023-06-09 华能信息技术有限公司 一种基于日志的运维监控方法

Similar Documents

Publication Publication Date Title
CA3088692C (en) Visualizing comment sentiment
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN114610576A (zh) 一种日志生成监控方法和装置
CN113780418A (zh) 一种数据的筛选方法、***、设备和存储介质
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN116841869A (zh) 基于代码结构化信息及审查知识的Java代码审查评论生成方法及装置
CN115329173A (zh) 一种基于舆情监控的企业信用确定方法及装置
Eken et al. Predicting defects with latent and semantic features from commit logs in an industrial setting
Jain et al. An extensible parsing pipeline for unstructured data processing
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
Li Feature and variability extraction from natural language software requirements specifications
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及***
CN112632229A (zh) 文本聚类方法及装置
Lee et al. Automatic stop word generation for mining software artifact using topic model with pointwise mutual information
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及***
CN111079448A (zh) 一种意图识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination