CN111125042A

CN111125042A - 一种确定风险操作事件的方法和装置

Info

Publication number: CN111125042A
Application number: CN201911105990.4A
Authority: CN
Inventors: 李晓敦; 闫立志; 黄建德; 江春丽; 胡海斌; 张敏健
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-05-08

Abstract

本发明公开了一种确定风险操作事件的方法和装置，涉及信息技术领域。该方法的一具体实施方式包括：从文件***中获取操作日志数据；对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息；基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。该实施方式将海量的操作日志数据存储至文件***，便于快速有效的对日志数据进行解压、结构化处理等。不仅能够快速获取海量的操作日志数据，而且可及时有效的对该操作日志数据进行处理，以识别出风险操作事件，实现对了员工操作行为风险的有效识别。

Description

一种确定风险操作事件的方法和装置

技术领域

本发明涉及信息技术领域，尤其涉及一种确定风险操作事件的方法和装置。

背景技术

随着网络信息技术的发展，科技技术已经成为一个国家的经济命脉，伴随着的网络信息安全也越来越受到大家的重视。但是，涉及信息安全的一些海量日志数据分布零散，日志数据价值密度低，占用资源大。在现有技术中，没有有效的方式对海量的日志数据进行存储和管理，导致日志数据利用率低。基于上述情况，在确定员工操作行为是否存在风险的过程中，无法有效的基于海量的操作日志数据进行分析，以及各种安全事件之间缺乏必要关联，因此难以挖掘员工操作行为中深层的风险问题。

发明内容

有鉴于此，本发明实施例提供一种确定风险操作事件的方法和装置，能够快速获取海量的操作日志数据，及时有效的对该操作日志数据进行处理，以识别出风险操作事件。

为实现上述目的，根据本发明实施例的一个方面，提供了一种确定风险操作事件的方法，包括：从文件***中获取操作日志数据；对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息；基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。

可选地，在从文件***中获取操作日志数据之前，还包括：将在操作日志服务器中读取的日志压缩包，存储至分布式集群文件***的缓冲区；其中，所述文件***为分布式集群文件***；读取所述缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件；将所述解包后的日志文件加载至所述分布式集群文件***，使得所述分布式集群文件***存储有所述操作日志数据。

可选地，所述从文件***中获取操作日志数据的步骤包括：读取所述分布式集群文件***中的日志文件并进行解压；其中，所述日志文件为gz文件；基于分布式集群的操作组件，将解压后的日志文件进行单行处理，得到所述操作日志数据。

可选地，所述分布式集群为Hadoop集群、CDH集群或者ES集群；和/或，所述操作组件为MapReduce组件、zookeeper组件或者spark组件。

可选地，对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息的步骤包括：根据筛选标识对所述操作日志数据进行过滤；从过滤后的操作日志数据中，抽取出包含日志明细的日志报文；识别所述日志报文的报文格式，以得到JSON报文数据；对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息。

可选地，所述筛选标识为交易码；和/或，在对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息之后，还包括：将所述字段信息存储至hive表中。

可选地，在将提取的所述字段信息与采集到的比对信息进行关联分析之前，还包括：从关联渠道中采集比对信息；所述关联渠道至少包括以下一种：基础设施、技术组件、安全组件、应用组件；所述比对信息至少包括以下一种：操作人员信息、用户信息、卡信息、交易信息。

可选地，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件之后，还包括：确定所述风险操作事件的主题；根据所述主题，将所述风险操作事件进行展示。

根据本发明实施例的再一个方面，提供了一种确定风险操作事件的装置，包括：获取模块，用于从文件***中获取操作日志数据；结构化模块，用于对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息；关联模块，用于基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。

可选地，还包括预处理模块，用于将在操作日志服务器中读取的日志压缩包，存储至分布式集群文件***的缓冲区；其中，所述文件***为分布式集群文件***；读取所述缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件；将所述解包后的日志文件加载至所述分布式集群文件***，使得所述分布式集群文件***存储有所述操作日志数据。

可选地，所述获取模块还用于，读取所述分布式集群文件***中的日志文件并进行解压；其中，所述日志文件为gz文件；基于分布式集群的操作组件，将解压后的日志文件进行单行处理，得到所述操作日志数据。

可选地，所述结构化模块还用于，根据筛选标识对所述操作日志数据进行过滤；从过滤后的操作日志数据中，抽取出包含日志明细的日志报文；识别所述日志报文的报文格式，以得到JSON报文数据；对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息。

可选地，所述筛选标识为交易码；和/或，所述结构化模块还用于，将所述字段信息存储至hive表中。

可选地，还包括比对信息获取模块，用于从关联渠道中采集比对信息；所述关联渠道至少包括以下一种：基础设施、技术组件、安全组件、应用组件；所述比对信息至少包括以下一种：操作人员信息、用户信息、卡信息、交易信息。

可选地，还包括展示模块，用于确定所述风险操作事件的主题；根据所述主题，将所述风险操作事件进行展示。

根据本发明实施例的另一个方面，提供了一种确定风险操作事件的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明提供的确定风险操作事件方法。

根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的确定风险操作事件方法。

上述发明中的一个实施例具有如下优点或有益效果：可将海量的操作日志数据存储至文件***，以便于快速有效的对日志数据进行解压、结构化处理等。以及，该操作日志数据可以为***某个渠道的操作行为的数据，比对信息为区别于上述某个渠道的其他渠道信息，该比对信息与该某个渠道的操作行为是相关联的。通过对操作日志数据的结构化处理，提取操作日志数据的关键信息。并且，通过将提取的关键信息与采集到的比对信息进行关联分析，以确定出风险操作事件。因此，实现了对员工操作行为风险的有效识别。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的确定风险操作事件的方法的主要流程的示意图；

图2是根据本发明实施例的确定风险操作事件的方法的示意图；

图3是根据本发明实施例的数据解压上传至HDFS的示意图；

图4是根据本发明实施例的用于单行处理的RecordReader类的示意图；

图5是根据本发明实施例的确定风险操作事件的方法的示意图；

图6是根据本发明实施例的结构化处理的示意图；

图7是根据本发明实施例的确定风险操作事件的方法实现的***示意图；

图8是根据本发明实施例的任务调度流程的示意图；

图9是根据本发明实施例的关联分析流程的示意图；

图10是根据本发明实施例的确定风险操作事件的装置的主要模块的示意图；

图11是本发明实施例可以应用于其中的示例性***架构图；

图12是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的确定风险操作事件的方法的主要流程的示意图。如图1所示，本发明实施例的确定风险操作事件的方法主要包括：

步骤S101：从文件***中获取操作日志数据。其中，该操作日志数据为待分析操作渠道风险的行为数据。

步骤S102：对操作日志数据进行结构化处理，以提取操作日志数据的字段信息。其中，区别于现有技术中非结构化的日志数据，本发明实施例中提取的字段信息为操作日志数据的结构化信息。

步骤S103：基于预设的风险规则，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件。该风险规则，可根据不同风险识别的要求进行设置，基于该风险规则对提取的字段信息与采集到的比对信息进行关联分析，可确知操作行为的行为属性。例如，对于银行***，通过步骤S103可知员工(如银行柜员)的操作行为是否为无卡操作等。其中，有卡与无卡的判断标准为员工在操作时是否持有客户的银行卡或者身份证等证件，如果有则其操作行为为有卡操作，否则为无卡操作。

根据本发明实施例，可将海量的操作日志数据存储至文件***，以便于快速有效的对日志数据进行解压、结构化处理等。优选的，本发明实施例中的文件***为分布式文件***，便于实现大数据的存储和管理。以及，该操作日志数据可以为***某个渠道的操作行为的数据，比对信息为区别于上述某个渠道的其他渠道信息，该比对信息与该某个渠道的操作行为是相关联的。例如，***某个渠道为银行的员工渠道，员工渠道作为银行员工操作的入口，对银行员工的所有操作行为都进行了详细记录(操作日志数据)。比对信息可以为储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息、员工信息等。通过对操作日志数据的结构化处理，得到结构化数据(也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理)，进一步可基于该结构化数据提取到操作日志数据的关键信息。并且，通过将提取的关键信息与采集到的比对信息进行集中关联分析，以确定出风险操作事件。因此，实现了对员工操作行为风险的有效识别。例如，通过对存储至分布式文件***的银行员工的操作日志数据处理，以将银行员工操作行为与客户、柜员相关信息等孤立信息进行关联，可确定银行员工是否存在无卡查询客户信息、无卡查询异地客户信息、查询客户量异常等风险行为。

在本发明实施例中，分布式集群可以为Hadoop集群、CDH集群或者ES集群等。操作组件可以为MapReduce组件、zookeeper组件或者spark组件等。其中，Hadoop由许多元素构成，其最底部是Hadoop集群文件***，它存储Hadoop集群中所有存储节点上的文件。Hadoop分布式计算平台最核心的为Hadoop集群文件***、MapReduce。Hadoop集群文件***为海量的数据提供了存储，而MapReduce为海量的数据提供了计算。因此，利用Hadoop高密存储方式，既满足大数据量存储需求，同时也可节约服务器资源。CDH(Cloudera’s DistributionIncluding Apache Hadoop)集群由Cloudera维护，基于稳定版本的Apache Hadoop构建。ES(Elasticsearch)集群由若干节点组成，一个节点就是一个ES实例，该集群(cluster)中的一个或多个节点具有相同的cluster.name，它们协同工作，分享数据和负载。以及，ES集群中一个节点会被选举为主节点(master)，它将临时管理集群级别的一些变更，例如新建或删除索引、增加或移除节点等。优选的，分布式集群为Hadoop集群，操作组件为MapReduce组件。图2是根据本发明实施例的确定风险操作事件的方法的示意图；图3是根据本发明实施例的数据解压上传至HDFS的示意图；图4是根据本发明实施例的用于单行处理的RecordReader类的示意图。

如图2所示，本发明实施例的确定风险操作事件的方法包括：

步骤S201：将在操作日志服务器中读取的日志压缩包，存储至Hadoop集群文件***的缓冲区。在本发明实施例中，文件***为分布式集群文件***，并且该分布式文件***为Hadoop集群文件***HDFS(Hadoop Distributed File System)。在其他实施例中，文件***可为任一存储数据的文件***。以及在其他实施例中，可基于选用的分布式集群的不同，相应选择分布式文件***。

现有技术中，***一般会对所有的操作行为进行详细记录，但由于该操作日志量级比较大，为了有效存储利用，并节约网络宽带压力，会将对日志进行压缩归档并备份到日志服务器。以及，备份到日志服务器中的日志数据，文件格式存在tar、gz等各种压缩格式，以及结构化、半结构化相互并存。所以，日志服务器中的日志数据价值密度低，资源占用率低，处理要求高等问题，很难直接分析利用。在本发明实施例中，操作日志服务器可以为logp服务器，logp作为存放日志的服务器，满足空间大、安装行内NFT的组件、网络开通，如果有满足这些条件的别的服务器也可以作为日志服务器。

步骤S202：读取缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件。在本发明实施例中，通过步骤S201可将tar的压缩包存储至Hadoop集群文件***缓冲区NAS。NAS作为存放数据的存储器，Hadoop集群可以到缓冲区NAS读取数据。以及，从NAS获取日志压缩包并进行解包，每个文件可有多个gz格式的压缩文件，并暂存在NAS。

步骤S203：将解包后的日志文件加载至Hadoop集群文件***。使得Hadoop集群文件***存储有操作日志数据。其中，ETL服务器将该tar包解压成多个gz格式的压缩文件，通过Hadoop fs命令上传到Hadoop集群文件***中，上述数据解压上传至Hadoop集群文件***的处理如图3所示。其中，Hadoop文件***(FS)默认提供了各种shell命令，可用于与Hadoop分布式文件***或任何其他使用Hadoop Shell的支持文件***进行交互。一些最常用的命令是用于诸如创建目录，复制文件，查看文件内容，更改文件的所有权或权限等操作。

步骤S204：读取Hadoop集群文件***中的日志文件并进行解压。其中，日志文件为gz文件。因此，由于该Hadoop集群文件***中存储的日志文件的压缩格式一致，后续可直接对海量日志数据进行解压、筛选等处理。

步骤S205：基于Hadoop集群的MapReduce组件，将解压后的日志文件进行单行处理，以得到操作日志数据。通过步骤S204读取Hadoop集群文件***中的gz文件后，进行解压。然后利用Hadoop集群的MapReduce分布式组件，根据日志特点，例如以“[CCB][P2]”开头为标识，通过调度自定义InputFormat类与RecordReader类去除多余的回车符，完成非结构日志转单行处理。本发明实施例的用于单行处理的RecordReader类如图4所示。在其他实施例中，也可通过不同于本发明实施例的MapReduce组件完成上述步骤S205，该操作组件可根据分布式集群的不同进行选择。

步骤S206：对操作日志数据进行结构化处理，以提取操作日志数据的字段信息。通过上述步骤S201至步骤S205，得到的操作日志数据可利用Spark技术分布式处理，可有效提高结构化处理性能。

步骤S207：基于预设的风险规则，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件。可选地，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件之后，还可以确定风险操作事件的主题。以及根据主题，将风险操作事件进行展示

图5是根据本发明实施例的确定风险操作事件的方法的示意图；图6是根据本发明实施例的结构化处理的示意图。

如图5和图6所示，本发明实施例的确定风险操作事件的方法包括：

步骤S501：从分布式文件***中获取操作日志数据。

步骤S502：根据筛选标识对操作日志数据进行过滤。在本发明实施例中，该筛选标识为交易码。由于原始日志包含了很多信息，可按行过滤，只保留操作渠道中属于某些交易码的日志进行后续处理。例如，交易码编号为A00421502、A00421517、A00421538、A00421547、CR0500500的话，则通过步骤S502过滤后的日志数据只属于上述交易码。

步骤S503：从过滤后的操作日志数据中，抽取出包含日志明细的日志报文。具体的，按照正则表达式匹配抽取日志，该正则表达式如下：

"\[CCB\]\[P2\]\[(.+？)\]\[(.+？)(.+？)\d+\]\[(.+？)\]\[(.+？)\]

\[(.+？)\]\[(.+？)\]\[(.+)\]")

抽取数据项：

className,tx_date,tx_time,log_level,evtTraceId,vcId,transactionCode,blog

其中，blog为大数据项，包含日志明细报文。上述关键字CCB P2；+？等表示日志的规律，即表示按照日志特点进行过滤。

步骤S504：识别日志报文的报文格式，以得到JSON报文数据。JSON(JavaScriptObject Notation,JS对象简谱)是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。JSON报文：'com.opensymphony.xwork2.interceptor.ParametersInterceptor'

XML报文：

′com.ccb.openframework.communi.client.http.HttpClientAdapter′

步骤S505：对JSON报文数据进行解释，得到操作日志数据的字段信息。以及，将字段信息存储至hive表中。具体的，按照正则表达式提取报文头与报文体：′Setting params(.*？)jsonData＝＞\[(.*？)\]′。报文头使用正则表达式转成KV结构：′(.+？)＝＞\[(.+？)\]′，报文体使用适配性较好的JSON解释库：demjson.py库。其中，在本发明实施例中，XML报文数据的解析进行废弃。

例如对于银行***中的柜员操作日志数据，可通过下述脚本提取出字段信息：

[CCB][P2][com.opensymphony.xwcrk2.interceptor.ParametersInterceptor][2016-05-03 10：02：48 947][DEBUG][evtTraceId＝]

[svcId＝][transactionCode＝][Setting params REQ_LANG＝＞[zh-cn]_fw_3ervice_ia＝＞[simpieTransacticn]adapterId＝＞

[ecpJscn]fmtPrintId＝＞[A00421517]jsonData＝＞[′REQ_LANG′：′zh-cn′，′OPER_CODE′：′09305301′，′OPER_NAME′：′张卉茹′，......]

对于上述示例的脚本，相应解释如下：

对于上述示例，通过JSON报文解释，提取到如下表格的结构化信息：

在本发明实施例中，在获取到初步处理的日志数据后，可通过Hadoop分布式平台、Python实现脚本，利用Spark技术调度对存储在Hadoop的海量操作日志数据进行筛选与结构化处理，并将处理后的小批量数据存储在hive表中。其中，hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

步骤S506：基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。

图7是根据本发明实施例的确定风险操作事件的方法实现的***示意图；图8是根据本发明实施例的任务调度流程的示意图；图9根据本发明实施例的关联分析流程的示意图。

现今，银行作为重要的金融机构，其安全与经济安全相息相存。如何有效发现、防护信息安全是现阶段一个重要课题。目前，信息安全存在以下几个问题：安全信息和事件分布零散；海量异构多源日志信息，人员精力有限；日志格式存在形式多种多样；日志数据价值密度低，占用资源大，利用率低；关键***的日志量大，但结构化处理分析性能要求高；各种安全事件之间缺乏必要关联，难以挖掘深层的问题根源。

以及，随着信息技术的高速发展，新的日志接入需求也层出不穷，现有的安全日志存在格式多种多样，包括syslog、file、数据库、ftp/sftp、snmp，而file也存在tar、gz等各种压缩格式；结构化、半结构化相互并存；日志数据价值密度低，资源占用率低，性能要求高等问题，这给采集、结构化、关联分析都带来了相应的技术难题。不仅要求能灵活采集各种形式的日志，并解压、筛选、提取真正有价值的信息，进行格式化处理，整合各个孤立的事件信息快速进行关联分析，及时对违规操作、风险事件进行有效告警与处置。

银行***中客户团队庞大，每天的交易信息不断增大，随之而来如何保障客户信息的安全、避免员工违规操作、防止客户信息泄露、造成数据资产的重大流失、监控交易日志，及时发现违规操作以及时有效阻断员工的风险违规操作。

员工渠道作为银行***中员工操作的入口，对员工的所有操作行为都进行了详细记录，以及员工渠道对日志进行了及时压缩归档并备份到服务器logp(日志服务器)中。客户排队机信息、智慧柜员机交易信息、现场交易信息、机构信息、员工信息、卡信息等信息通过现有的flume(日志收集***)方式实时采集、通过ETL服务对日志数据进行结构化处理，存放到hive数据库中。但是员工渠道日志存放在日志服务器logp中，以压缩、归档方式存放，一天压缩包大小800G+，解压后一天增量数据量达到4T以上，且是xml格式、json格式混合存放在方式，且无用信息多，属于典型的非结构化、数据量大、数据价值密度低场景。该类型日志通过普通的ETL服务器处理，性能上完全无法满足风险分析需求。

对于上述问题，图7所示的本发明实施例的确定风险操作事件的方法实现的***，可统一采集各个基础平台、运行环境和设备的安全日志、应用***的访问与控制信息、用户对数据的异常操作、用户行为等关键数据。即本发明实施例的***不仅可获取员工渠道日志，同时还可从基础设施、技术组件、安全组件、应用组件获取储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息(验密、改密、电子签约、存取钱等)、机构信息、员工信息等。并且，在传统ETL服务器处理***上，针对员工渠道海量非结构化数据，可采用Hadoop分布式、Spark技术对数据进行合并解压、筛选、转结构化处理，并与客户、柜员相关信息等孤立信息进行关联分析，实现对柜员查询客户量异常、无卡查询客户信息、无卡查询异地客户信息等风险操作事件的识别，以对柜员操作行为进行有效的风险监控。

如图7所示，本发明实施例的确定风险操作事件的方法实现的***在安全信息采集过程中，从基础设施、技术组件、安全组件、应用组件中同syslog、file、数据库等多种方式收集涉及安全的日志信息。处理后，传送至安全信息处理分析模块进行处理。其中，可从技术组件中采集到机构信息、员工信息；从各个应用组件中采集储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息(验密、改密、电子签约、存取钱等)。

对于员工渠道的海量操作日志数据，员工渠道服务器产生的应用日志会按天备份到logp服务器中，每台服务器压缩打包成一个日志文件，若500个应用日志文件压缩后总大小约为800G+。对于该海量日志数据，具体处理过程如下：员工渠道将备份到logp服务器上的应用日志文件按T+1传输到Hadoop集群NAS数据缓冲中。从NAS获取应用日志文件并进行解包，每个文件有24个.gz的压缩文件(以.gz为后缀的一种压缩文件)，并暂存在NAS。将解包后的gz压缩文件利用HadoopFs命令加载到Hadoop集群文件***中，加载完成后清理解包后暂存的数据文件。

本发明实施例的确定风险操作事件的方法实现的***在安全信息处理分析过程中，对日志信息进行规范化、装载、关联处理后确定风险操作事件。进一步，可根据风险主题分析模型，确定对风险操作事件的类型。以及，生成风险报告并进行风险告警。示例性的，如图7所示的安全风险呈现和分发部分，风险主题可包括：业务风险、攻击威胁、违规操作、信息泄露。风险分发对象接口包括：定制报表、用户查询、审计取证、监控跟踪等。

在本发明实施例中，安全信息处理分析过程具体包括：利用Hadoop集群MapReduce组件，调度单行处理类完成日志的初步筛选与处理。以及，如图8所示，通过Hadoop分布式平台、Python实现脚本，利用Spark技术调度对存储在Hadoop的员工渠道海量日志数据进行筛选与结构化处理，并将处理后的小批量数据存储在hive表中。然后，如图9所示，结合员工渠道筛选后的格式化信息与机构信息、员工信息、储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息(验密、改密、电子签约、存取钱操作等)，按照风险规则进行关联分析，得到风险事件与明细。

在本发明实施例中，预设的风险规则包括是否是本地操作和是否是无卡操作。具体的，基于预设的风险规则，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件包括以下步骤：

步骤一：判断是否是本地操作。判断规则为柜员所属一级机构与客户所属一级机构是否一致，一致的话则柜员的操作行为为本地操作，否则柜员的操作行为为异地操作。柜员所属一级机构，可通过机构信息与员工信息来获取。客户的所属一级机构无法通过其身份证判断，且客户可以在多个城市办理银行卡。因此如果员工渠道日志记录的是银行卡，那么该银行卡的开户机构即为客户所属一级机构；如果记录的是身份证，就获取该客户所有的储蓄卡与信息卡信息，所有银行卡开户机构均为客户所属一级机构。只要柜员所属一级机构与客户其中一个机构相同，即判断为本地操作，否则为异地操作。要实现该规则，需要结合储蓄卡、***、机构信息、员工信息进行信息补全，然后再根据补全后的信息判断增加本地异地标志。

步骤二：判断是否是无卡操作。有卡与无卡的判断标准：柜员在操作时是否持有客户的银行卡或者身份证等证件，如果有则柜员的操作行为为有卡操作，否则柜员的操作行为为无卡操作。柜员持有卡会通过鉴别仪刷身份证或者银行卡进行信息输入来操作业务，客户本人也可以直接在排队机上刷卡获取排队号码，或者直接通过在智慧柜员机上进行操作；另外金融机构规定，只要客户要办理验密、改密、开户、销户、现金存取款、电子银行签约等业务，必须持有本人身份证才可以办理，考虑到员工渠道记录鉴别仪信息有部分缺失，因此判断只要客户办理此类业务，默认为有卡操作。基于以上规则，结合排队机信息、智慧柜员机信息、现场交易信息，即可判断柜员操作有卡与无卡类型。

步骤三：根据上述步骤一和步骤二，对筛选后的员工渠道日志信息进行统计后，可进一步通过风险展示界面提供给风险监控人员，以便风险监控人员对柜员的风险操作行为进行排查。

以及，本发明实施例的确定风险操作事件的方法实现的***在安全风险呈现和分发过程中，可对风险事件按主题进行展现，并支持报表数据和风险事件的分发。风险监控人员对风险事件进行及时排查与处置，有效处理违规风险各种事项，保障全行的信息安全。

根据本发明实施例，可以实现采集海量的日志，并根据其日志的特殊特点，进行特殊处理，能满足大数据的分布处理，并且及时分析。本发明实施例提供的***不仅可以满足处理海量日志的需求，还可以从价值密度低的大量数据里，有效提取关键信息。并且，可利用Spark分布式处理，有效提高结构化处理性能；利用Hadoop高密存储方式，既满足大数据量存储需求，同时节约服务器资源。该***还通过从多渠道采集各类相关信息，结合各种孤立安全事件，进行有效关联，有效发现安全问题，挖掘深层次的风险并发出警告。

图10是根据本发明实施例的确定风险操作事件的装置的主要模块的示意图；如图10所示，本发明实施例的确定风险操作事件的装置主要包括获取模块1001、结构化模块1002、关联模块1003。

获取模块1001，用于从分布式文件***中获取操作日志数据。

结构化模块1002：用于对操作日志数据进行结构化处理，以提取操作日志数据的字段信息。结构化模块还用于，根据筛选标识对操作日志数据进行过滤；从过滤后的操作日志数据中，抽取出包含日志明细的日志报文；识别日志报文的报文格式，以得到JSON报文数据；对JSON报文数据进行解释，得到操作日志数据的字段信息。筛选标识为交易码。和/或，结构化模块还用于，将字段信息存储至hive表中。

关联模块1003：用于基于预设的风险规则，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件。

本发明实施例的确定风险操作事件的装置还包括预处理模块，在获取模块1001从分布式文件***中获取操作日志数据之前，用于将在操作日志服务器中读取的日志压缩包，存储至分布式集群文件***的缓冲区；其中，分布式文件***为分布式集群文件***；读取缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件；将解包后的日志文件加载至分布式集群文件***，使得分布式集群文件***存储有操作日志数据。获取模块1001还用于，读取分布式集群文件***中的日志文件并进行解压；其中，日志文件为gz文件；基于分布式集群的操作组件，将解压后的日志文件进行单行处理，以得到操作日志数据。在本发明实施例中，分布式集群可以为Hadoop集群、CDH集群或者ES集群等。操作组件可以为MapReduce组件、zookeeper组件或者spark组件等。

本发明实施例的确定风险操作事件的装置还包括比对信息获取模块，在关联模块1003将提取的字段信息与采集到的比对信息进行关联分析之前，用于从关联渠道中采集比对信息；关联渠道至少包括以下一种：基础设施、技术组件、安全组件、应用组件；比对信息至少包括以下一种：操作人员信息、用户信息、卡信息、交易信息。

本发明实施例的确定风险操作事件的装置还包括展示模块，在关联模块1003将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件之后，用于确定风险操作事件的主题；根据主题，将风险操作事件进行展示。

根据本发明实施例，可将海量的操作日志数据存储至分布式文件***，以便于快速有效的对日志数据进行解压、结构化处理等。以及，该操作日志数据可以为***某个渠道的操作行为的数据，比对信息为区别于上述某个渠道的其他渠道信息，该比对信息与该某个渠道的操作行为是相关联的。通过对操作日志数据的结构化处理，提取操作日志数据的关键信息。并且，通过将提取的关键信息与采集到的比对信息进行关联分析，以确定出风险操作事件。因此，实现了对员工操作行为风险的有效识别。

以及，对于银行***，基于本发明实施例，可从基础设施、技术组件、安全组件、应用组件中同syslog、file、数据库等多种方式收集涉及安全的日志信息。处理后，传送至安全信息处理分析模块进行处理。其中，可从技术组件中采集到机构信息、员工信息；从各个应用组件中采集储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息(验密、改密、电子签约、存取钱等交易)。

对于银行***的员工渠道的海量操作日志数据，员工渠道服务器产生的应用日志会按天备份到logp服务器中，对于该海量日志数据，具体可进行如下过程：员工渠道将备份到logp服务器上的应用日志文件按T+1传输到Hadoop集群NAS数据缓冲中。从NAS获取应用日志文件并进行解包，得到.gz的压缩文件，并暂存在NAS。将解包后的gz压缩文件利用HadoopFs命令加载到Hadoop集群文件***中，加载完成后清理解包后暂存的数据文件。

在本发明实施例中，可利用Hadoop集群MapReduce组件，调度单行处理类完成日志的初步筛选与处理。以及，通过Hadoop分布式平台、Python实现脚本，利用Spark技术调度对存储在Hadoop的员工渠道海量日志数据进行筛选与结构化处理，并将处理后的小批量数据存储在hive表中。然后，结合员工渠道筛选后的格式化信息与机构信息、员工信息、储蓄卡信息、***信息、客户排队机信息、智慧柜员机交易信息、现场交易信息(验密、改密、电子签约、存取钱操作等)，按照风险规则进行关联分析，得到风险事件与明细。

图11示出了可以应用本发明实施例的确定风险操作事件的方法或确定风险操作事件的装置的示例性***架构1100。

如图11所示，***架构1100可以包括终端设备1101、1102、1103，网络1104和服务器1105。网络1104用以在终端设备1101、1102、1103和服务器1105之间提供通信链路的介质。网络1104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1101、1102、1103通过网络1104与服务器1105交互，以接收或发送消息等。终端设备1101、1102、1103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1101、1102、1103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1105可以是提供各种服务的服务器，例如对用户利用终端设备1101、1102、1103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的确定风险操作事件的方法一般由服务器1105执行，相应地，确定风险操作事件的装置一般设置于服务器1105中。

应该理解，图11中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图12，其示出了适于用来实现本发明实施例的终端设备的计算机***1200的结构示意图。图12示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机***1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有***1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、结构化模块、关联模块。。其中，这些模块的名称在某种情况下并不构成对该单元本身的限定，例如，获取模块还可以被描述为“从分布式文件***中获取操作日志数据的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：分布式文件***中获取操作日志数据；对操作日志数据进行结构化处理，以提取操作日志数据的字段信息；基于预设的风险规则，将提取的字段信息与采集到的比对信息进行关联分析，以确定出风险操作事件。

根据本发明实施例的技术方案，可将海量的操作日志数据存储至分布式文件***，以便于快速有效的对日志数据进行解压、结构化处理等。以及，该操作日志数据可以为***某个渠道的操作行为的数据，比对信息为区别于上述某个渠道的其他渠道信息，该比对信息与该某个渠道的操作行为是相关联的。通过对操作日志数据的结构化处理，提取操作日志数据的关键信息。并且，通过将提取的关键信息与采集到的比对信息进行关联分析，以确定出风险操作事件。因此，实现了对员工操作行为风险的有效识别。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种确定风险操作事件的方法，其特征在于，包括：

从文件***中获取操作日志数据；

对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息；

基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。

2.根据权利要求1所述的方法，其特征在于，在从文件***中获取操作日志数据之前，还包括：

将在操作日志服务器中读取的日志压缩包，存储至分布式集群文件***的缓冲区；其中，所述文件***为分布式集群文件***；

读取所述缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件；

将所述解包后的日志文件加载至所述分布式集群文件***，使得所述分布式集群文件***存储有所述操作日志数据。

3.根据权利要求2所述的方法，其特征在于，所述从文件***中获取操作日志数据的步骤包括：

读取所述分布式集群文件***中的日志文件并进行解压；其中，所述日志文件为gz文件；

基于分布式集群的操作组件，将解压后的日志文件进行单行处理，得到所述操作日志数据。

4.根据权利要求3所述的方法，其特征在于，所述分布式集群为Hadoop集群、CDH集群或者ES集群；和/或

所述操作组件为MapReduce组件、zookeeper组件或者spark组件。

5.根据权利要求1所述的方法，其特征在于，对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息的步骤包括：

根据筛选标识对所述操作日志数据进行过滤；

从过滤后的操作日志数据中，抽取出包含日志明细的日志报文；

识别所述日志报文的报文格式，以得到JSON报文数据；

对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息。

6.根据权利要求5所述的方法，其特征在于，所述筛选标识为交易码；和/或，

在对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息之后，还包括：将所述字段信息存储至hive表中。

7.根据权利要求1所述的方法，其特征在于，在将提取的所述字段信息与采集到的比对信息进行关联分析之前，还包括：

从关联渠道中采集比对信息；所述关联渠道至少包括以下一种：基础设施、技术组件、安全组件、应用组件；所述比对信息至少包括以下一种：操作人员信息、用户信息、卡信息、交易信息。

8.根据权利要求1所述的方法，其特征在于，在将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件之后，还包括：

确定所述风险操作事件的主题；

根据所述主题，将所述风险操作事件进行展示。

9.一种确定风险操作事件的装置，其特征在于，包括：

获取模块，用于从文件***中获取操作日志数据；

结构化模块，用于对所述操作日志数据进行结构化处理，提取所述操作日志数据的字段信息；

关联模块，用于基于预设的风险规则，将提取的所述字段信息与采集到的比对信息进行关联分析，确定出风险操作事件。

10.根据权利要求9所述的装置，其特征在于，还包括预处理模块，用于将在操作日志服务器中读取的日志压缩包，存储至分布式集群文件***的缓冲区；其中，所述文件***为分布式集群文件***；读取所述缓冲区的日志压缩包并进行解包操作，得到解包后的日志文件；将所述解包后的日志文件加载至所述分布式集群文件***，使得所述分布式集群文件***存储有所述操作日志数据。

11.根据权利要求9所述的装置，其特征在于，所述获取模块还用于，读取所述分布式集群文件***中的日志文件并进行解压；其中，所述日志文件为gz文件；基于分布式集群的操作组件，将解压后的日志文件进行单行处理，得到所述操作日志数据。

12.根据权利要求9所述的装置，其特征在于，所述结构化模块还用于，根据筛选标识对所述操作日志数据进行过滤；从过滤后的操作日志数据中，抽取出包含日志明细的日志报文；识别所述日志报文的报文格式，以得到JSON报文数据；对所述JSON报文数据进行解释，得到所述操作日志数据的字段信息。

13.根据权利要求9所述的装置，其特征在于，还包括展示模块，用于确定所述风险操作事件的主题；根据所述主题，将所述风险操作事件进行展示。

14.一种确定风险操作事件的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。