CN113347170B

CN113347170B - 一种基于大数据框架的智能分析平台设计方法

Info

Publication number: CN113347170B
Application number: CN202110585911.5A
Authority: CN
Inventors: 唐延辉; 冯政鑫; 闫子淇; 于丰齐
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-04-18
Anticipated expiration: 2041-05-27
Also published as: CN113347170A

Abstract

本发明涉及一种基于大数据框架的智能分析平台设计方法，涉及网络安全技术领域。本发明提供的一种基于大数据框架的智能分析平台设计方法依托大数据处理分析架构，结合人工智能赋能的安全分析工具，收集安全大数据，挖掘安全事件，感知安全威胁，提前预警防范，实现网络安全态势的智能分析，提升智能化安全防护水平。本发明提出的一种基于大数据框架的智能分析平台在技术体制上采用大数据框架，汇聚网络流量、用户行为、网络边界、业务***、主机端点等安全态势数据，采用机器学习、深度学习、自然语言处理、知识图谱等人工智能技术，实现对态势数据的融合分析和深度挖掘，实现安全威胁事件实时感知、网络安全态势直观呈现，提升网络空间中安全的持续保障能力。

Description

一种基于大数据框架的智能分析平台设计方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于大数据框架的智能分析平台设计方法。

背景技术

随着大数据、人工智能、物联网、云计算、移动互联网等新技术的出现和发展，网络在信息安全领域面临比以往更为复杂的局面，新的安全问题不断浮出水面、新的安全事件层出不穷。这里面既有来自于外部的层出不穷的入侵和攻击，也有来自于内部的操作违规、管理不当等带来的信息安全风险。

近两年人工智能技术的广泛应用，网络信息***面临更加智能化、自动化、武器化的网络攻击趋势，传统安全防御体系存在着严重的风险与不足，已无法解决越来越复杂和隐蔽的高级威胁：①单点式、片段式安全防护手段，信息是割裂的、散乱的，缺乏协同；②特征式威胁检测，无法应对高级性攻击威胁，技术单一、疏于甄别；③被动式防御体系，无法提供预警机制，体系缺失、忽视设计；④安全噪音大，价值信息容易淹没，人员不足、管理难度大。

针对以上需求，迫切需要构建一套智能安全大脑，用于“感知”内外部的安全问题和网络威胁，就像人能够通过调动全身的各个器官感知环境并通过大脑做出综合判断一样，安全大脑可通过基于人工智能的行为分析服务，包括恶意代码分析、异常行为分析、异常流量分析、加密流量分析、综合关联分析等引擎，检测网络空间中的细微差异，汇总分析最终给出决策建议，辅助安全管理人员的值班和运维等工作。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何实现对态势数据的融合分析和深度挖掘，实现安全威胁事件实时感知、网络安全态势直观呈现，提升网络空间中安全的持续保障能力。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于大数据框架的智能分析平台设计方法，该方法将智能分析平台设计为包括数据接入子***、大数据服务子***、智能分析框架子***和智能分析引擎子***；

所述数据接入子***支持结构化数据、非结构化数据和半结构化数据的接入；

大数据服务子***的第一步是从数据接入子***采集数据并进行预处理操作，为后继流程提供统一的数据集，并对数据进行初步分析和组织，包括特性提取、关系分析、合规性分析、模型分析，并为大数据的应用提供负载均衡、数据路由功能，通过分布式消息总线和数据服务总线实现大数据存储，大数据服务子***同时包括对原始数据的存储、结构化和非结构化数据的存储功能，通过分布式消息总线和数据服务总线提供持久化服务，以支持后继更深度的数据分析流程，大数据服务子***采用的大数据计算模型和框架，提供实时的计算、查询和索引，能够进行持续不断的大数据流计算，包括任务分派、任务调度、任务获取、任务执行、任务提交功能；

针对智能分析引擎子***中不同的分析引擎，智能分析框架子***提供引擎基础运行环境，并能实现分析引擎安装、引擎配置管理、引擎状态分析功能，支持引擎集成和扩展，自动分配引擎资源，实时监控引擎资源状态、运行状态功能，智能分析框架子***的目标，是构建一套标准的引擎集成框架，并依靠这套框架方便的按标准集成、扩展、管理不同的智能分析引擎，支撑不同引擎基本运行环境和资源自动分配的同时，提供引擎管控、引擎配置修改、引擎状态管控这些基础能力；

智能分析引擎子***以智能分析框架子***为基础运行环境，按智能分析框架子***提供的标准接口接入经大数据服务子***处理后的多源数据，提供基于人工智能的行为分析服务。

优选地，所述数据接入子***通过数据接入管理技术实现数据接入状态监控、调度与安全审计。

优选地，所述结构化数据利用sqoop来传输，sqoop作为数据采集工具在源数据与RDBMS中结构化数据存储之间传输数据，对于非结构化数据和半结构化数据，采用Flume对日志数据和事件数据的采集提供支持。

优选地，所述大数据服务子***采用MapReduce对数据进行分类，对来自不同采集设备的数据进行整理、清洗、转换和数据规约，完成对数据的预处理工作，在经过数据预处理后，数据的存储以HDFS为主，一个HDFS集群是由一个Namenode和一定数据的Datanode组成，Namenode作为中心服务器负责管理文件命名空间的寻址路径；Datanode是实际的存储接点，数据以Block的形式存储，通过Zookeeper实现多个Namenode作为热备份，在Namenode挂掉后通过选举产生新的Namenode，以Yarn作为调度基础，计算的原始数据和计算结果存储在HDFS上，利用数据节点将每个数据单元动态进行记录，将数据总量进行实时更新，同时计算每个数据单元负载指数，然后将节点的负载指数进行汇总发送到管理服务器，然后由节点重新分配资源，且将数据进行分片并建立数据路由，进而建立Elaticearch搜索引擎方便数据查找。

优选地，所述智能分析引擎子***初始时内置了恶意代码分析引擎、异常行为分析引擎、异常流量分析引擎、加密流量分析引擎、综合关联分析引擎五种分析引擎，各分析引擎从不同的技术维度对从前端探针获取到的数据日志进行分析，从而检测识别各类威胁行为，***采用松耦合、模块化设计，可扩展更多的分析引擎，智能分析引擎子***基于AI智能技术对各类网络威胁提供智能分析，可发现已知威胁、已知威胁变种、未知威胁。

优选地，所述恶意代码分析引擎利用决策树和随机森林这些机器学习算法对静态、动态的恶意代码进行分析，同时，对恶意家族进行分类；异常行为分析引擎对日志数据与威胁情报数据进行分析，对邮件威胁、网页挂马威胁、微博攻击威胁、端口扫描威胁、病毒慢速***威胁和通联行为威胁这些攻击行为数据进行分类；异常流量分析引擎将流量元数据进行分析，对失陷主机、命令控制、DGA域名攻击、横向移动攻击、数据泄露、基线、协议异常、隐蔽隧道进行分析；加密流量分析引擎对恶意代码加密通道、加密应用、SSL信道进行分析；综合关联分析引擎对恶意代码分析引擎、异常流量分析引擎、异常流量分析引擎和加密流量分析引擎的结果进行收集、汇总，然后进行综合关联分析，将结果返回给业务***。

优选地，每类分析引擎按照ATT&CK模型，对攻击方法的技术点进行对抗性智能分析，同时智能分析引擎子***集成智能算法硬件实现智能分析引擎子***的加速运算。

优选地，所述智能分析引擎子***基于机器学习技术对各类网络威胁提供智能分析。

本发明还提供了一种利用所述方法设计得到的基于大数据框架的智能分析平台。

本发明还提供了一种所述智能分析平台的工作方法。

(三)有益效果

本发明提供的一种基于大数据框架的智能分析平台设计方法依托大数据处理分析架构，结合人工智能赋能的安全分析工具，收集安全大数据，挖掘安全事件，感知安全威胁，提前预警防范，实现网络安全态势的智能分析，提升智能化安全防护水平。本发明提出的一种基于大数据框架的智能分析平台在技术体制上采用大数据框架，汇聚网络流量、用户行为、网络边界、业务***、主机端点等安全态势数据，采用机器学习、深度学习、自然语言处理、知识图谱等人工智能技术，实现对态势数据的融合分析和深度挖掘，实现安全威胁事件实时感知、网络安全态势直观呈现，提升网络空间中安全的持续保障能力。

附图说明

图1为本发明的智能分析平台逻辑关系图；

图2为本发明的智能分析平台服务架构图；

图3为本发明中的智能分析框架子***架构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明以融合“大数据处理框架”、“人工智能框架”为一体的平台化思想，构建能够容纳多维数据、多级阶梯的数据汇聚、分层计算的处理流程，完成基于机器学***台计算能力的关联分析、聚类分析和统计分析等综合分析处理平台。

本发明设计的一种基于大数据框架的智能分析平台包括以下四个部分，数据接入：采用消息总线方式与外交互，数据接入提供日志数据、流量元数据、资产数据、威胁情报、安全态势数据、运维态势数据等结构化和非结构化数据汇聚。大数据服务：为智能分析引擎、数据接入、智能分析框架等提供负载均衡、数据路由、大数据采集、大数据预处理、大数据存储等服务，为态势呈现***提供综合态势数据服务。智能分析框架：智能分析框架提供分析引擎安装、引擎配置管理、引擎状态分析和引擎基础运行环境，支持引擎集成和扩展，自动分配引擎资源，实时监控引擎资源状态、运行状态。智能分析引擎：智能分析引擎提供基于人工智能的行为分析服务，包括恶意代码分析、异常行为分析、异常流量分析、加密流量分析、综合关联分析引擎。

本发明设计的一种基于大数据框架的智能分析平台内部的逻辑关系图如图1所示，包括以下几个部分：

(1)数据接入子***

数据接入子***支持结构化数据与非结构化数据的接入，包括网络日志、安全日志、终端日志和业务日志。网络日志包括流量会话、应用行为、文件传输、登陆账号等；安全日志包括网络设备、主机、数据库、中间件、虚拟设备、应用***、网关设备等实体产生的日志信息；终端日志包括文件行为、进程行为、邮件行为、注册表访问行为等；业务日志包括业务登陆、业务查询、交易记录、应用信息等。利用分布式消息总线与外交互。数据接入子***通过数据接入管理技术实现数据接入状态监控、调度与安全审计。

(2)大数据服务子***

大数据服务子***的第一步是从数据接入子***采集数据并进行预处理操作，为后继流程提供统一的高质量的数据集，并对数据进行初步分析和组织，包括特性提取、关系分析、合规性分析、模型分析等，并为大数据的应用提供负载均衡、数据路由等功能，通过分布式消息总线和数据服务总线实现大数据存储。大数据服务子***同时包括对原始数据的存储、结构化和非结构化数据的存储，通过分布式消息总线和数据服务总线提供持久化服务，以支持后继更深度的数据分析流程。为了提高数据吞吐量，降低存储成本，通常采用分布式架构来存储大数据。采用的大数据计算模型和框架，具有分布式、高容错特性，并提供实时的计算、查询和索引。能够进行持续不断的大数据流计算，包括任务分派、任务调度、任务获取、任务执行、任务提交等功能。计算框架是整个***的核心，通过分布式消息总线和数据服务总线协调数据接入、数据组织、数据存储、数据分析和数据服务等功能。

(3)智能分析框架子***

针对智能分析引擎子***中不同的分析引擎，智能分析框架子***提供引擎基础运行环境，并能实现分析引擎安装、引擎配置管理、引擎状态分析功能。支持引擎集成和扩展，自动分配引擎资源，实时监控引擎资源状态、运行状态等功能。智能分析框架子***的目标，是构建一套标准的引擎集成框架，并依靠这套框架方便的按标准集成、扩展、管理不同的智能分析引擎，支撑不同引擎基本运行环境和资源自动分配的同时，提供引擎管控、引擎配置修改、引擎状态管控等基础能力。

(4)智能分析引擎子***

智能分析引擎子***以智能分析框架子***为基础运行环境，按智能分析框架子***提供的标准接口接入经大数据服务子***处理后的多源数据，提供基于人工智能的行为分析服务。该智能分析引擎子***初始时内置了恶意代码分析引擎、异常行为分析引擎、异常流量分析引擎、加密流量分析引擎、综合关联分析引擎五种分析引擎，各引擎从不同的技术维度对从前端探针获取到的数据日志进行分析，从而检测识别各类威胁行为。***采用松耦合、模块化设计，可扩展更多的分析引擎。智能分析引擎子***基于机器学习等AI智能技术对各类网络威胁提供智能分析，可有效发现已知威胁、已知威胁变种、未知威胁。每类分析引擎中可以按照ATT&CK模型，对攻击方法的技术点进行对抗性智能分析，同时智能分析引擎子***可集成智能算法硬件实现智能分析引擎子***的加速运算。

本发明设计的一种基于大数据的智能分析平台是一套能够运行在国产化硬件上的智能数据分析软硬一体化装备，能够使用各类数据通过基于机器学***台具体的逻辑架构如图2所示。方案设计将严格遵循总体设计目标和设计原则，按技术架构、功能架构、接口设计来分层设计。整套平台是由多台软硬一体服务器设备组成，分为硬件平台、数据接入、大数据服务、智能分析框架、智能分析引擎五个部分。

一种基于大数据框架的智能分析平台基于hadoop作为技术选型；通过采集结构化和非结构化数据进行预处理、存储、计算、利用大数据管理框架对分析引擎进行管理，根据业务，利用人工智能算法设计不同功能的分析引擎，将分析结果呈现。各子***具体设计方法如下：

数据接入子***作为***最底层，直接与数据源进行接入并采集，为智能分析引擎子***提供数据，其中接入数据分为结构化数据与非结构化数据。结构化数据利用sqoop来传输，sqoop作为数据采集工具在源数据与RDBMS中结构化数据存储之间传输数据。对于非结构化数据和半结构化数据，采用Flume对日志数据和事件数据的采集提供较好的支持，同时，利用kafka作为消息订阅***，配合Flume作为实施数据处理的数据源。数据接入子***主要以数据调度、数据接入状态监控、数据安全审计作为主要功能，DAG工作流类调度***主要服务业务作业繁多，作业之间的流程依赖比较复杂的场景，在本子***中，数据采集任务调度往往依赖合适的工作流类调度进行辅助数据采集工作的完成。数据接入状态监控采用Zabbix开源监控***用来监控数据接入状态，完成使用者对数据的状态悉知，进而调整和完善接入策略。对于接入数据的安全审计，本子***采用DAS技术，对接入的数据进行第一层筛选与过滤，同时对恶意数据、脏数据的接入进行初步过滤与筛选。

高质量的数据是人工智能算法得到有效结果的必要元素，而通过采集得到的数据大多是不完整的、结构不一致、含噪声的脏数据，无法直接用于数据分析和挖掘。大数据服务子***作为整体框架中连接数据采集与数据计算之间的桥梁。数据在采集来以后采用MapReduce对产生的数据进行分类，对来自不同采集设备的数据进行整理、清洗、转换和数据规约，完成对数据的预处理工作。在经过数据预处理后，数据的存储以HDFS为主，一个HDFS集群是由一个Namenode和一定数据的Datanode组成，Namenode作为中心服务器负责管理文件命名空间的寻址路径；Datanode是实际的存储接点，数据以Block的形式存储在上面，通过Zookeeper实现多个Namenode作为热备份，在Namenode挂掉后通过选举产生新的Namenode实现高可用；Hbase是一种Master/Slave架构的数据存储技术，每次客户端通过Zookeeper获得需要数据，然后直接和其它通讯进行查询。平台以Yarn作为调度基础，计算的原始数据和计算结果存储在HDFS上；同样的基于Hbase存储的负载均衡可有效利用计算机资源进行数据的交互与合理的调度分配，利用数据接点将每个数据单元动态进行记录，将数据总量进行实时更新，同时计算每个数据单元负载指数，然后将接点的负载指数进行汇总发送到管理服务器，然后由节点重新分配资源，进而达到计算资源的负载均衡。为了更高效的读取和计算存储的数据，将数据进行分片并建立数据路由，进而建立Elaticearch搜索引擎方便数据查找。

针对智能分析引擎子***中不同的分析引擎，智能分析框架子***提供引擎基础运行环境的管理，并能实现分析引擎安装、引擎配置管理、引擎状态分析功能。支持引擎集成和扩展，自动分配引擎资源，实时监控引擎资源状态、运行状态等功能。对于基础运营环境，如TensorFlow、DeepMind Lab等进行集成并统一管理，开发语言主要为Python和C++为主。通过开源算法框架，根据自身业务需求，实现算法的定制化、模块化封装，每一个算法引擎都采用统一的数据接口，提供了较高的灵活性。同时，智能分析框架对目前引擎的运行状态、资源占用情况进行监控。

大数据智能分析引擎子***部署在大数据智能分析框架子***之上，利用智能分析框架子***提供的基础开发环境进行智能分析。其中，智能分析引擎子***分为恶意代码分析引擎、异常行为分析引擎、异常流量分析引擎、加密流量分析引擎、综合关联分析引擎五个引擎。恶意代码分析引擎利用决策树和随机森林等机器学习算法对静态、动态的恶意代码进行分析，同时，对恶意家族进行分类。异常行为分析引擎对日志数据与威胁情报数据进行分析，对邮件威胁、网页挂马威胁、微博攻击威胁、端口扫描威胁、病毒慢速***威胁和通联行为威胁等攻击行为数据进行分类，分类算法主要为SVM、拟退火算法等机器学习算法。异常流量分析引擎将流量元数据进行分析，对失陷主机、C&C(命令控制)、DGA域名攻击、横向移动攻击、数据泄露、基线、协议异常、隐蔽隧道进行分析，分析算法主要以CNN(卷积神经网络)算法，SVM等为主。加密流量分析引擎对恶意代码加密通道、加密应用、SSL信道进行分析，分析的主要算法为决策树与随机森林。综合关联分析引擎对恶意代码分析引擎、异常流量分析引擎、异常流量分析引擎和加密流量分析引擎的结果进行收集、汇总，然后进行综合关联分析，将结果返回给业务***。

本发明智能分析平台的具体工作流程为：利用外部数据采集模块对不同的数据源进行采集，利用数据接入子***对采集到的结构化和非结构化数据进行管理，数据接入子***包括安全审计，状态监控，数据接入调度功能。大数据服务子***负责将采集到的数据进行预处理，然后存储到分布式数据库中以方便查询与调用，其中，大数据服务子***提供数据路由和负载均衡服务，对数据的共享、优化提供了帮助。智能分析框架子***作为本发明重点提出的模块，目的是建立数据存储与数据计算之间的桥梁，对智能分析引擎子***中的数据管理、资源管理等功能进行解耦合。智能分析框架子***提供基础运行环境，包括各类机器学习框架、编译环境等，同时，包含了集成扩展模块、配置管理模块、引擎状态分析模块、计算资源管理模块，为智能分析引擎子***的扩展、配置管理、运行状态分析、资源调配提供可视化服务。智能分析引擎子***作为***的“智能大脑”，将经过预处理的数据进行计算，提供恶意代码分析引擎、异常行为分析引擎、异常流量分析引擎、加密流量分析引擎，并将各分析引擎的分析结果进行汇总进行综合关联分析，最后将结果提供给服务业务。

可以看出，本发明实现了一种面向海量数据处理的整体性设计方法，基于大数据架构，实现基于结构化、非结构化类型的多源数据汇聚，并针对网络威胁智能发现业务面临的数据汇聚、计算、分析和展现，实现“多源数据收集、疑似威胁筛选、威胁数据汇总、检测数据分析、分析结果展示”完整处理全过程。

本发明提出了一种面向可持续扩展的分析能力设计方法，提供一套完整的基于机器学***台框架，平台以各类组件库及组件为基础，遵循体系化、层次化、迭代过程的设计，融入客户具体业务应用特性，实现对多源异构数据的集中统一处理，按照开放性、可移植性、兼容性和可扩展性等要求，提供开放的应用接口，可以方便地与其他厂家同类型应用***进行软、硬件平台互连，便于***未来的扩展。

本发明提出了一种面向威胁模型的智能分析能力设计方法。随着攻防对抗相关技术的知识化普及，威胁检测分析开始越来越贴近攻击者所使用的各种技术，也越来越全面化和体系化。所以在设计智能分析引擎的检测能力点时，重点考虑对标KillChain模型和ATT&CK模型，使检测能力点能够覆盖各种威胁攻击方法，这样才能够成体系化的持续积累检测能力，实现威胁检测点的全链条和全局覆盖。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于大数据框架的智能分析平台设计方法，其特征在于，该方法将智能分析平台设计为包括数据接入子***、大数据服务子***、智能分析框架子***和智能分析引擎子***；

智能分析引擎子***以智能分析框架子***为基础运行环境，按智能分析框架子***提供的标准接口接入经大数据服务子***处理后的多源数据，提供基于人工智能的行为分析服务；

所述智能分析引擎子***初始时内置了恶意代码分析引擎、异常行为分析引擎、异常流量分析引擎、加密流量分析引擎、综合关联分析引擎五种分析引擎，各分析引擎从不同的技术维度对从前端探针获取到的数据日志进行分析，从而检测识别各类威胁行为，***采用松耦合、模块化设计，可扩展更多的分析引擎，智能分析引擎子***基于AI智能技术对各类网络威胁提供智能分析，可发现已知威胁、已知威胁变种、未知威胁。

2.如权利要求1所述的方法，其特征在于，所述数据接入子***通过数据接入管理技术实现数据接入状态监控、调度与安全审计。

3.如权利要求1所述的方法，其特征在于，所述结构化数据利用sqoop来传输，sqoop作为数据采集工具在源数据与RDBMS中结构化数据存储之间传输数据，对于非结构化数据和半结构化数据，采用Flume对日志数据和事件数据的采集提供支持。

4.如权利要求1所述的方法，其特征在于，所述恶意代码分析引擎利用决策树和随机森林这些机器学习算法对静态、动态的恶意代码进行分析，同时，对恶意家族进行分类；异常行为分析引擎对日志数据与威胁情报数据进行分析，对邮件威胁、网页挂马威胁、微博攻击威胁、端口扫描威胁、病毒慢速***威胁和通联行为威胁这些攻击行为数据进行分类；异常流量分析引擎将流量元数据进行分析，对失陷主机、命令控制、DGA域名攻击、横向移动攻击、数据泄露、基线、协议异常、隐蔽隧道进行分析；加密流量分析引擎对恶意代码加密通道、加密应用、SSL信道进行分析；综合关联分析引擎对恶意代码分析引擎、异常流量分析引擎、异常流量分析引擎和加密流量分析引擎的结果进行收集、汇总，然后进行综合关联分析，将结果返回给业务***。

5.如权利要求1所述的方法，其特征在于，每类分析引擎按照ATT&CK模型，对攻击方法的技术点进行对抗性智能分析，同时智能分析引擎子***集成智能算法硬件实现智能分析引擎子***的加速运算。

6.如权利要求1所述的方法，其特征在于，所述智能分析引擎子***基于机器学习技术对各类网络威胁提供智能分析。