CN109710233A

CN109710233A - 一种企业风险规则引擎的指标运算方法

Info

Publication number: CN109710233A
Application number: CN201811604910.5A
Authority: CN
Inventors: 陈玮; 刘德彬; 孙世通; 严开
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-03

Abstract

一种企业风险规则引擎的指标运算方法，包括以下步骤：S1、在总服务器上配置Spark集群；S2、在总服务器上设置指标脚本驱动模块，在设置脚本驱动模块时设置逻辑控制参数和SparkContext，所述逻辑控制参数通过SparkContext传输给Spark集群的Cluster管理器；S3、脚本驱动模块将指标运算任务指派给Spark集群中的Cluster管理器；S4、通过MapReduce机制，将整体的指标运算任务进行拆解；S5、Cluster管理器将拆解后的指标运算任务依据其他服务器的“繁忙程度”，挂载到相对闲置的其他服务器上；S6、每台服务器在执行完指标运算任务后，将执行结果传输至缓存模块进行存储并返回至总服务器。本发明能够针对半结构化文本的规则引擎能够快速计算出结果，缓解规则引擎计算能力不足的情况。

Description

一种企业风险规则引擎的指标运算方法

技术领域

本发明涉及计算机科学软件信息技术领域，特别是涉及一种企业风险规则引擎的指标运算方法。

背景技术

规则引擎近年来被广泛应用于金融及反欺诈领域，帮助监控和发现目标客户群体中的异常、风险、商机等。大多规则引擎在整体设计上大致可划分为两个大块，其一为规则体系的构建，其二为数据流的运算体系构建。目前，业内对于被规则引擎使用的数据而言，主要包含了用户行为(如登录、注册、浏览、收藏、消费等)数据、企业财务数据等；这类数据大多有着结构化、可度量的特性。例如用户行为数据就离不开次数、频率、价格、时间等概念。而在基于半结构化文本的规则引擎中，指标是用以描述客户某些具体应用场景的量化值，与结构化的规则引擎中次数、频率的概念雷同，规则为指标与阈值的一种逻辑比较。在整个规则引擎运作过程中，指标作为最底层、可复用性最高的基础元素，其运算的效率直接影响了***的实时性。而在批量执行规则结果计算时，存在高并发、高连接数以及整体算力不足的问题。

发明内容

针对上述现有技术的不足，本发明提供了一种企业风险规则引擎的指标运算方法，针对半结构化文本的规则引擎能够快速计算出结果，缓解规则引擎计算能力不足的情况。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种企业风险规则引擎的指标运算方法，包括以下步骤：

S1、在总服务器上配置Spark集群，将除总服务器以外的所有服务器的IP地址设置到总服务器的Spark集群中；

S2、在总服务器上设置指标脚本驱动模块，在设置脚本驱动模块时设置逻辑控制参数和SparkContext，所述逻辑控制参数通过SparkContext传输给Spark集群的Cluster管理器；

S3、脚本驱动模块将指标运算任务指派给Spark集群中的Cluster管理器；

S4、通过MapReduce机制，所述Cluster管理器将整体的指标运算任务进行拆解；

S5、Cluster管理器将拆解后的指标运算任务依据其他服务器的“繁忙程度”，挂载到相对闲置的其他服务器上；

S6、每台服务器在执行完指标运算任务后，将执行结果传输至缓存模块进行存储并返回至总服务器。

作为优化，步骤S5中，判断其他服务器的“繁忙程度”是根据Nginx负载均衡进行判断的。

作为优化，所述Nginx实现负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到其他服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

作为优化，所述Nginx实现负载均衡的策略为权重分配法，通过监控其他服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

作为优化，所述缓存模块为cache，即高速缓冲存储器。

作为优化，所述Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到其他服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

作为优化，所述Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为权重分配法，通过监控其他服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

本发明的有益效果是：

本发明能够针对半结构化文本的规则引擎能够快速计算出结果，缓解规则引擎计算能力不足的情况。

附图说明

图1为本发明一种企业风险规则引擎的指标运算方法的方法流程图。

图2为指标的群集运算的局部***架构图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，一种企业风险规则引擎的指标运算方法，包括以下步骤：

S1、在总服务器上配置Spark集群，将除总服务器以外的所有服务器的IP地址设置到总服务器的Spark集群中。

例如：

Spark1：192.168.156.101

Spark2：192.168.156.102

Spark3：192.168.156.103

Spark4：192.168.156.104

其中，192.168.156.101、192.168.156.102、192.168.156.103、192.168.156.104是服务器的IP地址。

S2、在总服务器上设置指标脚本驱动模块，在设置脚本驱动模块时设置逻辑控制参数和SparkContext，逻辑控制参数通过SparkContext传输给Spark集群的Cluster管理器。SparkContext是连接脚本驱动模块和Cluster管理器的API接口。

S3、脚本驱动模块将指标运算任务指派给Spark集群中的Cluster管理器。

S4、通过MapReduce机制，Cluster管理器将整体的指标运算任务进行拆解。

MapReduce是一种分布式计算模型，由两个阶段组成：Map和Reduce。Map的应用在于我们需要数据一对一的元素的映射转换，比如说进行截取，进行过滤，或者任何的转换操作，这些一对一的元素转换就称作是Map；Reduce主要就是元素的聚合，就是多个元素对一个元素的聚合，比如求Sum等，这就是Reduce。

S5、Cluster管理器将拆解后的指标运算任务依据其他服务器的“繁忙程度”，挂载到相对闲置的其他服务器上。

具体步骤为：

1.Map读取整体指标运算任务，以指标为最小单位将整体指标任务解析成<key,vaule>，每一个<key,vaule>调用一次map函数，例如整体指标任务中包含10个指标，则整体指标可以解析成<1,A1>、<2,A2>、<3,A1>、<4,A3>、<5,A2>、<6,A1>、<7,A2>、<8,A2>、<9,A3>、<10,A1>；

2.覆盖map()，接收1产生的<key,vaule>，转换为新的<key,vaule>输出：

<A1,1>、<A1,1>、<A1,1>、<A1,1>；<A2,1>、<A2,1>、<A2,1>、<A2,1>；<A3,1>、<A3,1>；

3.对2输出的<key,vaule>进行分组。

4.按照不同的key值对数据进行分组，相同的key的value放到一个集合中。分组后为：<A1,{1,1,1,1}>、<A2,{1,1,1,1}>、<A3,{1,1}>。

5.Cluster管理器判断其他服务器的“繁忙程度”将多个map任务按照不同的分组，通过网络copy到其他服务器进行处理。

6.其他服务器最终输出<A1,{4}>、<A2,{4}>、<A3,{2}>。

实施例一，Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到其他服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

实施例二，Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为权重分配法，通过监控其他服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

实施例二为在实施例一的基础上的升级方法，通过在upstream参数中添加的应用服务器IP后添加指定参数即可实现，如：

通过以上配置，所有指标运算任务都会先通过nginx反向代理服务器，在总服务器将请求转发给其他服务器时，读取upstream为tomcatsever1的地址，读取分发策略，配置tomcat1权重为3，所以nginx会将大部分请求发送给49服务器上的tomcat1，也就是8080端口；较少部分给tomcat2来实现有条件的负载均衡。

最后应说明的是：本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种企业风险规则引擎的指标运算方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种企业风险规则引擎的指标运算方法，其特征在于，步骤S5中，判断其他服务器的“繁忙程度”是根据Nginx负载均衡进行判断的。

3.根据权利要求2所述的一种企业风险规则引擎的指标运算方法，其特征在于，所述Nginx实现负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到其他服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

4.根据权利要求2所述的一种企业风险规则引擎的指标运算方法，其特征在于，所述Nginx实现负载均衡的策略为权重分配法，通过监控其他服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

5.根据权利要求1所述的一种企业风险规则引擎的指标运算方法，其特征在于，所述缓存模块为cache，即高速缓冲存储器。

6.根据权利要求1所述的一种企业风险规则引擎的指标运算方法，其特征在于，步骤S5中，所述Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到其他服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

7.根据权利要求1所述的一种企业风险规则引擎的指标运算方法，其特征在于，步骤S5中，所述Cluster管理器判断其他服务器的“繁忙程度”的nginx负载均衡的策略为权重分配法，通过监控其他服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。