CN114610576A

CN114610576A - 一种日志生成监控方法和装置

Info

Publication number: CN114610576A
Application number: CN202210252421.8A
Authority: CN
Inventors: 张馨
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-10

Abstract

本发明提供了一种日志生成监控方法和装置，属于大数据，该方法包括：使用切面作用于业务领域***的交易接口，确定初始交易日志数据；对初始交易日志数据进行分词处理，生成语料库；对语料库进行采样，训练得到基于语料库的LDA模型；根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，不用人力去分析和确定各业务领域的流水日志标准，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全。

Description

一种日志生成监控方法和装置

技术领域

本发明涉及计算机数据处理技术领域，尤其涉及一种日志生成监控方法和装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

商业银行各个***的流水日志是用来评估***运行情况的一种重要手段。针对流水日志的分析及监控能够有效跟踪具体业务领域的交易参数变化情况，及时发现***运行风险，防患于未然，有效保障***平稳运行。

但是，由于不同业务领域的金融交易差异性，传统的流水日志生成需要根据每个产品***、每个交易的特性去分析金融交易的特点，确定流水日志需要的字段及获取方式，不能够快速生成流水日志，也很难做到快速推广。

因此，如何提供一种新的方案，其能够解决上述技术问题是本领域亟待解决的技术难题。

发明内容

本发明实施例提供一种日志生成监控方法，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全，该方法包括：

使用切面作用于业务领域***的交易接口，确定初始交易日志数据；

对初始交易日志数据进行分词处理，生成语料库；

对语料库进行采样，训练得到基于语料库的LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)模型；

根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；

对目标业务领域***的流水日志文件进行监控。

本发明实施例还提供一种日志生成监控装置，包括：

初始交易日志数据确定模块，用于使用切面作用于业务领域***的交易接口，确定初始交易日志数据；

语料库生成模块，用于对初始交易日志数据进行分词处理，生成语料库；

基于语料库的LDA模型训练模块，用于对语料库进行采样，训练得到基于语料库的LDA模型；

流水日志文件生成模块，用于根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；

流水日志文件监控模块，用于对目标业务领域***的流水日志文件进行监控。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种日志生成监控方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种日志生成监控方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述一种日志生成监控方法。

本发明实施例提供的一种日志生成监控方法和装置，包括：使用切面作用于业务领域***的交易接口，确定初始交易日志数据；对初始交易日志数据进行分词处理，生成语料库；对语料库进行采样，训练得到基于语料库的LDA模型；根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；对目标业务领域***的流水日志文件进行监控。本发明利用切面技术获取各业务领域***的初始交易日志数据，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性；通过对不同业务领域***采集得到的初始交易日志数据进行训练，生成基于语料库的LDA模型，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准。同时，基于训练后得到的基于语料库的LDA模型，采用关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例一种日志生成监控方法示意图。

图2为本发明实施例一种日志生成监控方法的确定初始交易日志数据过程示意图。

图3为本发明实施例一种日志生成监控方法的生成语料库过程示意图。

图4为本发明实施例一种日志生成监控方法的生成目标业务领域***的流水日志文件过程示意图。

图5为运行本发明实施的一种日志生成监控方法的计算机设备示意图。

图6为本发明实施例一种日志生成监控装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明属于大数据。图1为本发明实施例一种日志生成监控方法示意图，如图1所示，本发明实施例提供一种日志生成监控方法，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全，该方法包括：

步骤101：使用切面作用于业务领域***的交易接口，确定初始交易日志数据；

步骤102：对初始交易日志数据进行分词处理，生成语料库；

步骤103：对语料库进行采样，训练得到基于语料库的LDA模型；

步骤104：根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；

步骤105：对目标业务领域***的流水日志文件进行监控。

对于***日志的生成分析，现有的方式是：1.各业务领域***根据各自***的特点进行具体分析，确定各自的流水日志标准，生成独特形式的流水日志，进而实现***流水日志的分析和监控，可扩展性较差；2.各产品***通过筛选接***易码、调用时间等公共参数信息生成格式统一的***流水日志，最后按照统一指标进行监控。

现有方式的技术缺点：方案1当产品***发生变化或新接入产品***时需要重新分析、确定流水日志形式，可扩展性较差，推广成本大，实施速度慢；方案2没有考虑具体金融场景的交易特点，流水日志监控粒度粗，难以实现精确监控。

本发明实施例通过对不同业务领域的***日志进行训练，生成主题模型即各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准。同时，基于训练后得到的主题模型，采用基于LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)的S-LDA(Subject-Latent Dirichlet Allocation，主题-潜在狄利克雷分布)关键词提取算法对新的***日志进行关键词提取并建立关键词库，自动生成目标业务领域***的流水日志文件，有效降低人力成本。

在本发明实施例中，前述的潜在狄利克雷分布(Latent Dirichlet Allocation，简称LDA)是一种词袋模型，它认为文档是一组词构成的集合，词与词之间是无序的。一篇文档可以包含多个主题，文档中的每个词都是由某个主题生成的，LDA给出文档属于每个主题的概率分布，同时给出每个主题上词的概率分布。LDA是一种无监督学习，在文本主题识别、文本分类、文本相似度计算和文章相似推荐等方面都有应用。而主题-潜在狄利克雷分布(Subject-Latent Dirichlet Allocation，简称S-LAD)，是基于潜在狄利克雷分布的基础上，以主题作为主要分类项所实现的概率分布，以实现关键词提取的一种算法模型。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，该方法包括：

对初始交易日志数据进行分词处理，生成语料库；

对语料库进行采样，训练得到基于语料库的LDA模型；

对目标业务领域***的流水日志文件进行监控。

本发明利用切面技术获取各业务领域***的初始交易日志数据，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性；通过对不同业务领域***采集得到的初始交易日志数据进行训练，生成基于语料库的LDA模型，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准。同时，基于训练后得到的基于语料库的LDA模型，采用关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全。

图2为本发明实施例一种日志生成监控方法的确定初始交易日志数据过程示意图，如图2所示，具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，使用切面作用于业务***的交易接口，确定初始交易日志数据，包括：

步骤201：使用切面算法创建切面类，作用于全部业务领域***的交易接口，获取交易参数详情；

步骤202：根据交易参数详情，生成初始交易日志数据。

实施例中，为得到初始交易日志数据，主要过程包括：在各业务领域***正常运行的情况下，首先使用切面算法创建切面类，作用于全部业务领域***的交易接口，获取交易参数详情；然后，根据交易参数详情，生成初始交易日志数据。

图3为本发明实施例一种日志生成监控方法的生成语料库过程示意图，如图3所示，具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，对初始交易日志数据进行分词处理，生成语料库，包括：

步骤301：获取设定时长内的初始交易日志数据；

步骤302：对设定时长内的初始交易日志数据进行交易参数字段名提取；

步骤303：对提取到的交易参数字段名使用分词工具进行英文分词操作，生成语料库。

实施例中，生成语料库的过程，主要包括：首先，获取设定时长内的初始交易日志数据；在一个实例中，可以获取全部业务领域***为期半年的初始交易日志数据；然后，对设定时长内的初始交易日志数据进行交易参数字段名提取；在一个实例中，可以对全部业务领域***为期半年的初始交易日志数据进行交易参数字段名提取；最后，对提取到的交易参数字段名使用分词工具进行英文分词操作，生成语料库。具体的，对各业务领域***的为期半年的初始交易日志数据进行交易参数字段名提取，并且使用分词工具完成英文分词操作，生成语料库。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，对语料库进行采样，训练得到基于语料库的LDA模型，包括：

采用Gibbs采样算法对语料库进行采样，在采样收敛后确定每个词的主题；

根据每个词的主题，训练得到基于语料库的LDA模型。

实施例中，训练得到基于语料库的LDA模型的过程，主要包括：首先采用Gibbs采样算法对语料库进行采样，在采样收敛后确定每个词的主题；然后根据每个词的主题，训练得到基于语料库的LDA模型。

基于LDA主题模型，采用Gibbs采样算法进行采样，待到采样收敛后即可知道各个词的主题，通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布，最终得到基于语料库的LDA模型。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，采用Gibbs采样算法对语料库进行采样，在采样收敛后确定每个词的主题，包括：

确定主题数目和超参向量；

随机为语料库中每一个语料的每一个词赋予一个主题编号；

重新扫描语料库，对于每一个词，利用Gibbs采样公式重新采样更新该词的主题编号，并且更新该词在语料中的编号；

重复执行采样更新，直至采样收敛，确定语料库中每个词的主题。

实施例中，Gibbs采样，属于一种特殊的马尔可夫链算法，常被用于解决包括矩阵分解、张量分解等在内的一系列问题，也被称为交替条件采样(alternating conditionalsampling)，其中，“交替”一词是指Gibbs采样是一种迭代算法，并且相应的变量会在迭代的过程中交替使用，除此之外，加上“条件”一词是因为Gibbs采样的核心是贝叶斯理论，围绕先验知识和观测数据，以观测值作为条件从而推断出后验分布。本发明实施例以Gibbs采样构建的Gibbs采样公式，重新采样更新该词的主题编号，并且更新该词在语料中的编号。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，根据每个词的主题，训练得到基于语料库的LDA模型，包括：

统计语料库中每个语料每个词的主题编号，得到文档-主题分布参数；

统计语料库中各个主题-词的分布，获取LDA模型的主题-词分布参数；

根据文档-主题分布参数，确定语料库中文档的主题分布；

根据LDA模型的主题-词分布参数，确定语料库中每个主题的词分布；

根据语料库中文档的主题分布和语料库中每个主题的词分布对LDA主题模型进行训练，得到基于语料库的LDA模型。

实施例中，采用Gibbs采样算法对语料库进行采样，在采样收敛后确定每个词的主题，根据每个词的主题，训练得到基于语料库的LDA模型，具体过程可以包括：

确定主题数目和超参向量；

随机为语料库中每一个语料的每一个词赋予一个主题编号；

重复执行采样更新，直至采样收敛，确定语料库中每个词的主题；

根据文档-主题分布参数，确定语料库中文档的主题分布；

具体的，基于LDA主题模型，采用Gibbs采样算法对上述得到的语料库进行采样，基于Gibbs采样的LDA模型训练流程如下：

(1)确定合适的主题数目K，并且选择合适的超参向量

(2)随机为语料库中每一个语料的每一个词w赋予一个主题编号k；

(3)重新扫描语料库，对于每一个词w，利用Gibbs采样公式重新采样更新它的主题编号，并且更新该词在语料中的编号；

(4)重复第3步的Gibbs采样过程，采样收敛则转至第5步；

(5)统计语料库中的每个语料每个词的主题编号，得到文档-主题分布

然后统计语料库中各个主题-词的分布，获取LDA模型的主题-词分布

(6)通过统计计算进而可以得到文档的主题分布以及每个主题的词分布，最终得到基于语料库训练后的LDA模型。

图4为本发明实施例一种日志生成监控方法的生成目标业务领域***的流水日志文件过程示意图，如图4所示，具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件，包括：

步骤401：根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法；

步骤402：根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库；

步骤403：根据关键词库和初始交易日志数据，生成目标业务领域***的流水日志文件。

实施例中，生成目标业务领域***的流水日志文件是本发明实施例的核心创造点，主要过程包括：

首先，根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法；然后，根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库；最后，根据关键词库和初始交易日志数据，生成目标业务领域***的流水日志文件。

本发明实施例提出基于LDA的S-LDA关键词提取算法，采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。根据步骤101生成的初始交易日志和关键词库，生成目标业务领域***的流水日志文件。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法，包括：

根据给定的文本文件集，构建模型训练所需的训练语料库，利用基于语料库的LDA模型对训练语料库进行训练得到LDA模型；

根据目标文本文件，构建目标语料，采用Gibbs采样算法预测得到目标语料的主题分布；

对目标文本文件的主题进行过滤，得到过滤后的主题集；

对主题集的主题对应在目标文本文件主题分布中的比重构建主题的选词权重，按照主题分布从大到小的概率顺序，依次从每个主题中选出设定数量的词，并保持选出的词出现的先后顺序构建关键词候选词集合；

对关键词候选词集合进行过滤，确定目标文本文件的关键词。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，对目标文本文件的主题进行过滤，得到过滤后的主题集，包括：

设定第一辅助向量；

计算目标文本文件中各个主题的词分布与第一辅助向量的相似度，确定第一JS散度值；

当第一JS散度值小于第一设定散度阈值时，将当前主题从目标文本文件的主题分布中删除，得到过滤后的主题集。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，对关键词候选词集合进行过滤，确定目标文本文件的关键词，包括：

设定第二辅助向量；

计算关键词候选词集合中每一个候选词的主题分布与第二辅助向量的相似度，确定第二JS散度值；

当第二JS散度值小于第二设定散度阈值时，将当前候选词从关键词候选词集合中删除，从剩余的关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前S名的候选词作为目标文本文件的关键词；所述排名前S名的候选词，是按照候选词出现频率进行从大到小的排序，取排序前S个候选词所得。

本发明实施例根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法，本发明实施例建立的基于LDA的S-LDA关键词提取算法过程如表1所示：

表1

基于LDA的S-LDA关键词提取算法，算法具体流程如下：

(1)根据给定的文档集构建模型训练所需语料库，基于LDA主题模型对语料库进行训练从而得到LDA模型。

(2)根据目标文档构建目标语料，采用Gibbs采样算法预测目标语料的主题分布。

(3)对目标文本文件的主题进行过滤：根据JS散度计算公式，计算出目标文本文件中各个主题的词分布与第一辅助向量

的相似度，确定第一JS散度值，

的计算公式如公式(1-1)、第一JS散度值计算公式如公式(1-2)。设定一个第一设定散度阈值，在实验中的取值为0.2。当JS散度值小于第一设定散度阈值时，则将当前主题从目标文本文件的主题分布中删除，从而得到过滤后的主题集。

其中，

表示第一辅助向量；JS(V_{z_i}||Aux₁)表示第一JS散度值；V表示辅助向量

的特征维度数量；KL(P||Q)表示概率分布P和Q的KL散度(Kullback LeiblerDivergence)；z_i表示目标文档文件经预测后得到的第i个主题；V_{z_i}表示主题z_i对应的词分布。

(4)根据主题i对应在目标文本文件主题分布中的比重pro_i构建主题i的选词权重weight_i，它的具体表达式如公式(5-3)所示。按照主题分布从大到小的概率顺序，根据公式(5-4)依次从每个主题中选出一定数量的词，并保持词出现的先后顺序构建关键词候选词集合。

select_num_i＝weight_i·5n

＝5weight_i·n (1-4)

其中，i表示主题；weight_i表示主题i的选词权重；pro_i表示主题i对应在目标文本文件主题分布中的比重；n表示个数；select_num_i表示从主题z_i的主题词中选出的关键词候选词数目；·表示点乘。

(5)设定第二辅助向量

它的表达式如公式(1-5)所示。根据JS散度计算公式，计算关键词候选词集合中每一个词的主题分布和辅助向量的相似度，确定第二JS散度值，具体计算公式如公式(1-6)所示。设定散度阈值，在实验中的取值为0.2。然后将相似度较高的词从候选词集合中过滤删除，最后从关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前s名的词作为目标文本的关键词，其中s为正整数且s∈[3,10]，s可随机选择某一值。

其中，

表示第二辅助向量；JS(T_{w_i}||Aux₂)表示第二JS散度值；K表示辅助向量

的特征维度数量；KL(P||Q)表示概率分布P和Q的KL散度(Kullback LeiblerDivergence)；w_i表示关键词候选词集合中第i个词；T_{w_i}表示词w_i对应的主题分布。

前述提到的公式(1-1)至公式(1-6)的表达式为举例说明，本领域技术人员可以理解，在实施时还可以根据需要对上述公式进行一定形式的变形和添加其它的参数或数据，或者提供其它的具体公式，这些变化例均应落入本发明的保护范围。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库，包括：

对目标业务领域交易日志进行分词处理；

采用基于LDA的S-LDA关键词提取算法，对分词处理后的目标业务领域交易日志进行关键词提取，建立关键词库。

实施例中，根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库，主要过程包括：首先，对目标业务领域交易日志进行分词处理；然后，采用基于LDA的S-LDA关键词提取算法，对分词处理后的目标业务领域交易日志进行关键词提取，建立关键词库。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，根据关键词库和初始交易日志数据，生成目标业务领域***的流水日志文件，包括：

依次取关键词库中的每个关键词，从初始交易日志数据中查询出关键词对应的值，生成目标业务领域***的流水日志文件。

实施例中，采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。依次取关键词库中的每个关键词，从步骤101生成的初始交易日志中查询出关键词(交易参数)对应的值，生成目标业务领域***的流水日志文件。本发明实施例提出基于LDA的S-LDA关键词提取算法，采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。根据步骤101生成的初始交易日志和关键词库，生成目标业务领域***的流水日志文件。

具体实施本发明实施例提供的一种日志生成监控方法时，在一个实施例中，对目标业务领域***的流水日志文件进行监控，包括：

针对生成的目标业务领域***的流水日志文件，按照关键词进行监控，实时获取目标业务领域***的运行状态信息。

***运行过程中，针对生成的流水日志按照关键词进行监控，实时获取***的运行状态，保障***运行安全。当金融交易进入产品***时，通过流水日志生成模块得到包含关键词(交易参数字段名称)的流水日志。针对生成的流水日志进行监控，监控***运行状态。

本发明利用切面技术获取各业务领域***的初始交易日志数据，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性；通过对不同业务领域***采集得到的初始交易日志数据进行训练，生成基于语料库的LDA模型，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准。同时，基于训练后得到的基于语料库的LDA模型，采用基于LDA的S-LDA关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全。

下面结合具体场景，对本发明实施例提供的一种日志生成监控方法进行简要描述：

本发明实施例提供的一种日志生成监控方法，主要包括：

在各业务领域***正常运行的情况下，使用切面并作用于各个交易接口，获取交易参数详情，生成初始的交易日志。

采集步骤101生成的银行不同业务领域为期半年的初始交易日志，对交易日志进行处理，提取出各交易参数字段名并进行英文分词，生成语料库。基于LDA主题模型，采用Gibbs采样算法进行采样，待到采样收敛后即可知道各个词的主题，通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布，最终得到基于语料库的LDA模型。

提出基于LDA的S-LDA关键词提取算法，采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。根据步骤101生成的初始交易日志和关键词库，生成目标业务领域***的流水日志文件。

***运行过程中，针对生成的流水日志按照关键词进行监控，实时获取***的运行状态，保障***运行安全。

从开发的角度而言，技术人员需要完成切面类创建操作、各个业务领域***的***初始交易日志获取操作、日志-关键词模型建立操作、流水日志生成操作以及流水日志监控操作。其中，流水日志模型建立操作和流水日志生成操作对于本发明而言是最重要的。

具体实现本发明实施例一种日志生成监控方法的过程，主要包括：

步骤1：使用切面技术，创建切面类并使其作用于各个业务领域***的各交易接口，获取交易参数详情，输出并生成初始的交易日志。

步骤2：采集步骤1生成的银行不同业务领域为期半年的初始交易日志，对交易日志进行处理，提取出各交易参数字段名并进行英文分词，生成语料库。

步骤3：基于LDA主题模型，采用Gibbs采样算法对步骤2得到的语料库进行采样。LDA模型基于Gibbs采样的模型训练流程如下：

(1)确定合适的主题数目K,并且选择合适的超参数向量

(2)随机为语料库中每一个语料的每一个词w赋予一个主题编号k。

(3)重新扫描语料库，对于每一个词w，利用Gibbs采样公式重新采样更新它的主题编号，并且更新该词在语料中的编号。

(4)重复第3步的Gibbs采样过程，采样收敛则转至第5步。

通过统计计算进而可以得到文档的主题分布以及每个主题的词分布，最终得到基于语料库训练后的LDA模型。

步骤4：提出基于LDA的S-LDA关键词提取算法，算法具体流程如下：

(3)对目标文本文件的主题进行过滤：根据JS散度计算公式，计算出目标文本文件中各个主题的词分布与辅助向量

的相似度，

的计算公式如公式(1-1)、相似度计算公式如公式(1-2)。设定一个散度阈值，在实验中的取值为0.2。当JS散度值小于阈值时，则将当前主题从目标文本文件的主题分布中删除，从而得到过滤后的主题集。

(4)根据主题i对应在目标文本文件主题分布中的比重pro_i构建主题i的选词权重weight_i，它的具体表达式如公式(1-3)所示。按照主题分布从大到小的概率顺序，根据公式(1-4)依次从每个主题中选出一定数量的词，并保持词出现的先后顺序构建关键词候选词集合。

(5)设定辅助向量

它的表达式如公式(1-5)所示。根据JS散度，计算关键词候选词集合中每一个词的主题分布和辅助向量的相似度，具体计算公式如公式(1-6)所示。设定散度阈值，在实验中的取值为0.2。然后将相似度较高的词从候选词集合中过滤删除，最后从关键词候选词集合中选取词性为名词或动词、在目标文本中出现且排名前s名的词作为目标文本的关键词，其中s为正整数且s∈[3,10]，s可随机选择某一值。

步骤5：采用S-LDA关键词提取算法对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。依次取关键词库中的每个关键词，从步骤1生成的初始交易日志中查询出关键词(交易参数)对应的值，生成目标业务领域***的流水日志文件。

步骤6：***运行过程中，针对生成的流水日志按照关键词进行监控，实时获取***的运行状态，保障***运行安全。

本发明实施例还提供一种日志生成监控方法的模块化实例，包括：基于切面的***初始交易日志获取模块、日志-关键词模型建立模块、流水日志生成模块、流水日志监控模块。

基于切面的***初始交易日志获取模块：在各业务领域***正常运行的情况下，使用切面并作用于各个交易接口，获取交易参数详情，生成初始的交易日志。

日志-关键词模型建立模块：对各业务领域***的初始交易日志数据进行交易参数字段名提取，并且使用分词工具完成分词操作，生成语料库。基于LDA主题模型，采用Gibbs采样算法进行采样，待到采样收敛后即可知道各个词的主题，通过统计计算进而可以得到语料库的主题分布以及每个主题的词分布，最终得到基于语料库的LDA模型。

流水日志生成模块：采用提出的基于LDA的S-LDA关键词提取算法，对分词后的目标业务领域交易日志进行关键词提取，建立关键词库。根据各业务领域***的初始交易日志和关键词库，生成目标业务领域***的流水日志文件。

流水日志监控模块：当金融交易进入产品***时，通过流水日志生成模块得到包含关键词(交易参数字段名称)的流水日志。针对生成的流水日志进行监控，监控***运行状态。

本发明实施例利用切面技术获取各业务领域***的切面交易日志，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性。利用提出的基于LDA的S-LDA关键词提取算法针对***的切面交易日志进行分析，降低人力成本，提高流水日志监控的准确性。

图5为运行本发明实施的一种日志生成监控方法的计算机设备示意图，如图5所示，本发明实施例还提供一种计算机设备500，包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序530，所述处理器执行所述计算机程序时实现上述一种日志生成监控方法。

本发明实施例中还提供了一种日志生成监控装置，如下面的实施例所述。由于该装置解决问题的原理与一种日志生成监控方法相似，因此该装置的实施可以参见一种日志生成监控方法的实施，重复之处不再赘述。

图6为本发明实施例一种日志生成监控装置示意图，如图6所示，本发明实施例还提供一种日志生成监控装置，具体实施时可以包括：

初始交易日志数据确定模块601，用于使用切面作用于业务领域***的交易接口，确定初始交易日志数据；

语料库生成模块602，用于对初始交易日志数据进行分词处理，生成语料库；

基于语料库的LDA模型训练模块603，用于对语料库进行采样，训练得到基于语料库的LDA模型；

流水日志文件生成模块604，用于根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；

流水日志文件监控模块605，用于对目标业务领域***的流水日志文件进行监控。

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，初始交易日志数据确定模块，具体用于：

使用切面算法创建切面类，作用于全部业务领域***的交易接口，获取交易参数详情；

根据交易参数详情，生成初始交易日志数据。

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，语料库生成模块，具体用于：

获取设定时长内的初始交易日志数据；

对设定时长内的初始交易日志数据进行交易参数字段名提取；

对提取到的交易参数字段名使用分词工具进行英文分词操作，生成语料库。

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，基于语料库的LDA模型训练模块，用于：

根据每个词的主题，训练得到基于语料库的LDA模型。

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，基于语料库的LDA模型训练模块，还用于：

确定主题数目和超参向量；

随机为语料库中每一个语料的每一个词赋予一个主题编号；

根据文档-主题分布参数，确定语料库中文档的主题分布；

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，流水日志文件生成模块，具体用于：

根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法；

根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库；

根据关键词库和初始交易日志数据，生成目标业务领域***的流水日志文件。

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，流水日志文件生成模块，还用于：

对目标文本文件的主题进行过滤，得到过滤后的主题集；

设定第一辅助向量；

设定第二辅助向量；

对目标业务领域交易日志进行分词处理；

具体实施本发明实施例提供的一种日志生成监控装置时，在一个实施例中，流水日志文件监控模块，具体用于：

综上，本发明实施例提供的一种日志生成监控方法和装置，包括：使用切面作用于业务领域***的交易接口，确定初始交易日志数据；对初始交易日志数据进行分词处理，生成语料库；对语料库进行采样，训练得到基于语料库的LDA模型；根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件；对目标业务领域***的流水日志文件进行监控。本发明利用切面技术获取各业务领域***的初始交易日志数据，无需按照业务领域***的具体情况编写日志生成代码，提高流水日志生成的可扩展性；通过对不同业务领域***采集得到的初始交易日志数据进行训练，生成基于语料库的LDA模型，建立各业务领域的流水日志标准，不用人力去分析和确定各业务领域的流水日志标准。同时，基于训练后得到的基于语料库的LDA模型，采用基于LDA的S-LDA关键词提取算法对新的目标业务领域***的交易日志进行关键词提取并建立关键词库，自动生成目标业务领域***的流水日志文件，有效降低人力成本，针对目标业务领域***的流水日志文件进行监控，可以实时获取***的运行状态，提高流水日志监控的准确性，保障***运行安全。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种日志生成监控方法，其特征在于，包括：

对初始交易日志数据进行分词处理，生成语料库；

对语料库进行采样，训练得到基于语料库的LDA模型；

对目标业务领域***的流水日志文件进行监控。

2.如权利要求1所述的方法，其特征在于，使用切面作用于业务***的交易接口，确定初始交易日志数据，包括：

根据交易参数详情，生成初始交易日志数据。

3.如权利要求1所述的方法，其特征在于，对初始交易日志数据进行分词处理，生成语料库，包括：

获取设定时长内的初始交易日志数据；

4.如权利要求1所述的方法，其特征在于，对语料库进行采样，训练得到基于语料库的LDA模型，包括：

根据每个词的主题，训练得到基于语料库的LDA模型。

5.如权利要求4所述的方法，其特征在于，采用Gibbs采样算法对语料库进行采样，在采样收敛后确定每个词的主题，包括：

确定主题数目和超参向量；

随机为语料库中每一个语料的每一个词赋予一个主题编号；

6.如权利要求5所述的方法，其特征在于，根据每个词的主题，训练得到基于语料库的LDA模型，包括：

根据文档-主题分布参数，确定语料库中文档的主题分布；

7.如权利要求1所述的方法，其特征在于，根据基于语料库的LDA模型，对目标业务领域交易日志进行关键词提取，建立关键词库，结合初始交易日志数据，生成目标业务领域***的流水日志文件，包括：

8.如权利要求7所述的方法，其特征在于，根据基于语料库的LDA模型，建立基于LDA的S-LDA关键词提取算法，包括：

对目标文本文件的主题进行过滤，得到过滤后的主题集；

9.如权利要求8所述的方法，其特征在于，对目标文本文件的主题进行过滤，得到过滤后的主题集，包括：

设定第一辅助向量；

10.如权利要求8所述的方法，其特征在于，对关键词候选词集合进行过滤，确定目标文本文件的关键词，包括：

设定第二辅助向量；

11.如权利要求7所述的方法，其特征在于，根据基于LDA的S-LDA关键词提取算法，对目标业务领域交易日志进行关键词提取，建立关键词库，包括：

对目标业务领域交易日志进行分词处理；

12.如权利要求7所述的方法，其特征在于，根据关键词库和初始交易日志数据，生成目标业务领域***的流水日志文件，包括：

13.如权利要求1所述的方法，其特征在于，对目标业务领域***的流水日志文件进行监控，包括：

14.一种日志生成监控装置，其特征在于，包括：

15.如权利要求14所述的装置，其特征在于，初始交易日志数据确定模块，具体用于：

根据交易参数详情，生成初始交易日志数据。

16.如权利要求14所述的装置，其特征在于，语料库生成模块，具体用于：

获取设定时长内的初始交易日志数据；

17.如权利要求14所述的装置，其特征在于，基于语料库的LDA模型训练模块，用于：

根据每个词的主题，训练得到基于语料库的LDA模型。

18.如权利要求17所述的装置，其特征在于，基于语料库的LDA模型训练模块，还用于：

确定主题数目和超参向量；

随机为语料库中每一个语料的每一个词赋予一个主题编号；

19.如权利要求18所述的装置，其特征在于，基于语料库的LDA模型训练模块，还用于：

根据文档-主题分布参数，确定语料库中文档的主题分布；

20.如权利要求14所述的装置，其特征在于，流水日志文件生成模块，具体用于：

21.如权利要求20所述的装置，其特征在于，流水日志文件生成模块，还用于：

对目标文本文件的主题进行过滤，得到过滤后的主题集；

22.如权利要求21所述的装置，其特征在于，流水日志文件生成模块，还用于：

设定第一辅助向量；

23.如权利要求21所述的装置，其特征在于，流水日志文件生成模块，还用于：

设定第二辅助向量；

24.如权利要求20所述的装置，其特征在于，流水日志文件生成模块，还用于：

对目标业务领域交易日志进行分词处理；

25.如权利要求20所述的装置，其特征在于，流水日志文件生成模块，还用于：

26.如权利要求14所述的装置，其特征在于，流水日志文件监控模块，具体用于：

27.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任一项所述方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至13任一所述方法。

29.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至13任一所述方法。