CN112214207A

CN112214207A - 一种基于分布式及大数据反洗钱批处理架构的设计方法

Info

Publication number: CN112214207A
Application number: CN202011120633.8A
Authority: CN
Inventors: 李�真; 张荣燕; 杨富安; 王维龙; 赵新浪; 杨章春
Original assignee: Tianyi Electronic Commerce Co Ltd
Current assignee: Tianyi Electronic Commerce Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-12

Abstract

本发明公开了一种基于分布式及大数据反洗钱批处理架构的设计方法，包括数据装载器、数据计算器、数据存储器、作业执行器和作业控制器。本发明具有以下优点和效果：采用KAFKA分布式发布订阅消息技术，高吞吐量装载源数据，解决源数据装载性能问题；采用分布式反洗钱批处理计算应用程序+spark内存计算引擎，实现高性能数据计算，解决批处理计算性能问题；采用TiDB分布式数据库的TiKV数据存储引擎，多副本、分布式、高效存储，实现数据Key‑Value结构的存储，解决数据查询性能和数据备份的问题；该架构可水平扩展TiDB分布式数据库服务器、应用服务器、Spark服务器、KAFKA服务器，能通过扩展机器资源，达到***性能提升。

Description

一种基于分布式及大数据反洗钱批处理架构的设计方法

技术领域

本发明涉及计算机软件应用技术领域，特别涉及一种基于分布式及大数据反洗钱批处理架构的设计方法。

背景技术

随着电信诈骗、非法集资、走私贩毒甚至恐怖活动等犯罪行为的日益猖獗，洗钱活动越发扰乱社会秩序。金融机构在面对海量的数据时，要想从中及时发现可疑交易，获得有价值的情报线索，阻断犯罪行为，仅靠人工分析识别难以实现，必须建设科学有效的反洗钱***，辅助开展反洗钱工作。然而，现有技术中，反洗钱***建设正面临如下问题：（1）随着金融机构数据量的增加，在面对巨大的数据量计算时，传统的关系型数据库管理体系，已不能满足反洗钱批处理计算时效性，影响大额可疑交易报送时效；（2）传统反洗钱批处理计算架构大都基于单机、有状态计算，无法进行高效的容错处理，一旦***故障，则需停机处置；（3）面对海量数据的大额可疑交易计算、客户洗钱风险评级及名单回溯等，反洗钱***计算节点无法支持水平扩展，单节点的批处理计算，渐渐显露出疲软。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于分布式及大数据反洗钱批处理架构的设计方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于分布式及大数据反洗钱批处理架构的设计方法，包括数据装载器、数据计算器、数据存储器、作业执行器和作业控制器，所述数据装载器负责将源数据装载入库，其主要构成部件是KAFKA集群；数据计算器负责数据加工、清洗、转换、可疑交易计算、评级计算、名单回溯计算，其主要构成部件是Spark集群；数据存储器负责存储计算结果，其主要构成部件是TiDB数据库服务器集群；作业执行器负责数据装载器、数据计算器、数据存储器间工作任务的协同计算及监控，其主要构成部件是反洗钱批处理计算应用程序；作业控制器负责作业执行器内的任务调度，其主要构成部件是反洗钱批处理调度应用程序。数据装载器、数据计算器、数据存储器、作业执行器、作业控制器各部件具体实施步骤如下：

S11、分布式作业控制器：作业控制器在每日零点下发当日作业任务，作业任务涵盖数据装载、清洗、转换、可疑指标、规则、模型计算、可疑案例计算、可疑报告计算、风险评级计算、名单回溯计算、历史数据归档，作业任务间依赖关系有日期依赖和任务依赖，日期依赖即前一天任务未执行完成，当日任务则待执行，直至前一天任务执行完成，当日任务才开始执行，任务依赖即上一个任务未执行完成，则当前任务待执行，直至上一个任务执行完成，当前任务才开始执行，第一个任务依赖源数据准备，人工设置好作业任务依赖关系，交由作业控制器调度；

S12、分布式作业执行器：当批处理作业任务满足任务执行依赖关系时，作业控制器会调度作业执行器执行当前作业任务，作业执行器工作时，会记录任务执行状态及日志，若任务执行报错，可通过日志信息定位错误地方，通过日志分析协助定位原因，数据装载器、数据计算器、数据存储器协同作业执行器完成批处理作业任务执行；

S13、源数据：源数据文件即为按固定分隔符出的文本文件，批处理作业任务均依赖源数据文件是否准备好，可设置定时任务，每天零点开始探测源数据文件是否生成，若已生成，则执行任务，若未生成，则继续待源数据，作业控制器会定时去文件服务器上探测源数据生成情况，若源数据已生成，则作业控制器会调度作业执行器去文件服务器上拉取源文件至作业执行器本机装载入库；

S14、分布式数据装载器：单节点作业执行器每次拉取一个源文件，并将该源文件内容读取至KAFKA集群，作业执行器集群监听到KAFKA队列消息后，开始消费KAFKA队列内容，分布式装载入库，多节点作业执行器构成分布式部署，可同时进行不同的源数据文件拉取并装载入库；

S15、分布式数据计算器：针对海量数据计算时，作业执行器通过SparkLauncher调起Spark计算接口，Spark集群master节点获取到调度信息后，master节点上部署的ApacheLivy组件会去作业执行器中拿到待执行的jar包程序并提交给Spark集群计算，待其计算完成，Ti-Spark组件会将Spark的计算结果写入TiDB数据库TiKV服务器；

S16、分布式数据存储器：作业调度器、作业执行器任务状态信息、日志信息直接通过JDBC连接TiDB分布式数据库写入TiKV集群存储，Spark计算结果通过Ti-Spark组件连接TiDB分布式数据库写入TiKV集群存储。

与现有技术相比，本发明的有益效果如下：

（1）该架构设计数据装载部分，采用KAFKA分布式发布订阅消息技术，高吞吐量装载源数据，解决源数据装载性能问题；

（2）该架构设计数据计算部分，采用分布式反洗钱批处理计算应用程序+spark内存计算引擎，实现高性能数据计算，解决批处理计算性能问题；

（3）该架构设计数据存储部分，采用TiDB分布式数据库的TiKV数据存储引擎，多副本、分布式、高效存储，数据Key-Value结构的存储，解决数据查询性能和数据备份的问题，且TiDB分布式数据库管理体系，结合分布式反洗钱批处理计算应用，实现大额可疑交易T+1报送人行（T为交易发生日期），保障大额可疑交易报送时效；

（4）反洗钱批处理计算应用、反洗钱批处理调度应用、Spark计算服务、TiDB分布式数据库服务均为分布式部署，任一台机器***故障，反洗钱***本身无需停机处置，均能正常运行；

（5）采用该架构，可通过水平扩展KAFKA服务器、应用程序服务器、Spark服务器、TiDB分布式数据服务器，解决反洗钱***批处理性能问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的数据装载器、数据计算器、数据存储器、作业执行器、作业控制器关系图；

图2是本发明的数据装载架构图；

图3是本发明的数据计算架构图；

图4是本发明的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明的核心在于采用分布式的架构设计，能够实现海量数据高性能批处理计算，通过分布式作业控制器、分布式作业执行器、分布式数据装载器、分布式数据计算器、分布式数据存储器，能够实现源数据快速装载，实现数据高效计算及存储。

本发明提供一种基于分布式数据库、大数据反洗钱监测分析***架构的设计与方法，包括数据装载器、数据计算器、数据存储器、作业执行器、作业控制器；数据装载器负责将源数据装载入库，其主要构成部件是KAFKA集群；数据计算器负责数据加工、清洗、转换、可疑交易计算、评级计算、名单回溯计算等，其主要构成部件是Spark集群；数据存储器负责存储计算结果（包括中间结果和最终结果数据），其主要构成部件是TiDB数据库服务器集群；作业执行器负责数据装载器、数据计算器、数据存储器间工作任务的协同计算及监控，其主要构成部件是反洗钱批处理计算应用程序；作业控制器负责作业执行器内的任务调度，其主要构成部件是反洗钱批处理调度应用程序。数据装载器、数据计算器、数据存储器、作业执行器、作业控制器，其间关系如图1所示；

（1）数据装载器：文本格式的源数据文件，存储在文件服务器（或sftp服务器）上，作业执行器首先拉取源文件至本身服务器，接着读取源文件内容，并将读取的内容组装提供给KAFKA集群，此时作业执行器充当KAFKA集群生产者角色，待作业执行器监听到KAFKA队列消息，此时作业执行器充当KAFKA集群消费者角色，作业执行器开始消费KAFKA队列数据，写入TiDB库，数据转载过程中，因作业执行器是分布式部署，故多节点同时生产、消费源数据文件内容，达到源数据文件快速入库目的，通过水平扩展KAFKA服务器，可以提高数据转载效率，数据装载架构设计如图2所示；

（2）数据计算器：数据计算器能够实现贴源数据加工、清洗并输出标准接口数据，实现大额可疑指标、规则、模型计算输出疑似洗钱案例，实现风险评级特征计算输出客户洗钱风险等级，实现道琼斯、政要名单回溯计算输出名单预警等等，作业执行器首先向Spark发出计算请求，Spark集群master节点上部署的ApacheLivy组件获知计算请求后，去作业执行器中拿到待执行的jar包程序并提交给Spark集群，Spark集群计算完成后，Ti-Spark组件会将Spark的计算结果写入TiDB数据库TiKV服务器，数据计算过程中，因作业执行器是分布式部署，故可多节点同时请求Spark计算，达到高效计算，数据存储入库目的，通过水平扩展Spark服务器，可以提高计算能力，数据计算架构设计如图3所示；

（3）数据存储器：作业控制器、作业执行器均可通过JDBC连接TiDB分布式数据库，此外Ti-Spark组件可将Spark与TiDB数据库TiKV组件连接实现数据入库，TiDB数据库分布式部署，多副本存储数据，故无需单独备份数据库，且数据多节点存储能够提高查询效率，通过水平扩展TiKV服务器，可以提高数据存储能力，通过水平扩展TiDB数据库PD服务器，可以提升数据查询效率；

（4）作业执行器：作业执行器为批处理计算的java程序，可分布式部署，其主要负责数据装载器、数据计算器、数据存储器间工作任务的协同计算及监控，开发主要的涉及的技术框架为Springboot+Mybatis+dubbo+zookeeper；

（5）作业控制器：作业控制器为批处理调度的java程序，可分布式部署，其主要负责每日批处理任务实例的生成、任务的调度管理及任务的日志记录等，开发主要的涉及的技术框架为Springboot+Mybatis+dubbo+zookeeper。

具体实施步骤如下：

S11、分布式作业控制器：作业控制器在每日零点下发当日作业任务，作业任务涵盖数据装载、清洗、转换、可疑指标、规则、模型计算、可疑案例计算、可疑报告计算、风险评级计算、名单回溯计算、历史数据归档等，作业任务间依赖关系有日期依赖和任务依赖，日期依赖即前一天任务未执行完成，当日任务则等待执行，直至前一天任务执行完成，当日任务才开始执行，任务依赖即上一个任务未执行完成，则当前任务等待执行，直至上一个任务执行完成，当前任务才开始执行，第一个任务依赖源数据准备，人工设置好作业任务依赖关系（任务执行顺序），交由作业控制器调度；

S13、源数据（文件）：源数据文件即为按固定分隔符（如逗号分隔符）导出的文本文件，批处理作业任务均依赖源数据文件是否准备好，可设置定时任务，每天零点开始探测源数据文件是否生成，若已生成，则执行任务，若未生成，则继续等待源数据，作业控制器会定时去文件服务器（如stfp服务器）上探测源数据生成情况，若源数据已生成，则作业控制器会调度作业执行器去文件服务器上拉取源文件至作业执行器本机装载入库；

S16、分布式数据存储器：作业调度器、作业执行器任务状态信息、日志信息等直接通过JDBC连接TiDB分布式数据库写入TiKV集群存储，Spark计算结果通过Ti-Spark组件连接TiDB分布式数据库写入TiKV集群存储。

与现有技术相比，可以弥补现有技术对反洗钱批处理计算性能的不足，本发明的有益效果如下：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式及大数据反洗钱批处理架构的设计方法，其特征在于，包括数据装载器、数据计算器、数据存储器、作业执行器和作业控制器，所述数据装载器负责将源数据装载入库，其主要构成部件是KAFKA集群；数据计算器负责数据加工、清洗、转换、可疑交易计算、评级计算、名单回溯计算，其主要构成部件是Spark集群；数据存储器负责存储计算结果，其主要构成部件是TiDB数据库服务器集群；作业执行器负责数据装载器、数据计算器、数据存储器间工作任务的协同计算及监控，其主要构成部件是反洗钱批处理计算应用程序；作业控制器负责作业执行器内的任务调度，其主要构成部件是反洗钱批处理调度应用程序;

数据装载器、数据计算器、数据存储器、作业执行器、作业控制器各部件具体实施步骤如下：