CN113961969B

CN113961969B - 一种安全威胁协同建模方法及***

Info

Publication number: CN113961969B
Application number: CN202111575617.2A
Authority: CN
Inventors: 胡文友; 曲武; 胡永亮
Original assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Current assignee: Jinjing Yunhua Shenyang Technology Co ltd; Beijing Jinjingyunhua Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-15
Anticipated expiration: 2041-12-22
Also published as: CN113961969A

Abstract

本发明属于安全威胁鉴别技术领域，具体涉及一种安全威胁协同建模方法及***，方法包括如下步骤：数据共享；数据融合；数据特征提取；建模；审计。本发明对数据的分享行为通过贡献分的形式进行量化和结算，鼓励数据交易和数据共享；实体ID以脱敏方式交换，在保障数据安全的前提下仍能支持联合建模能力和威胁IOC匹配能力；支持普通的本地机器学习和联邦学习，各参与方可按需选择数据开放程度，根据自身预算取得外部数据资源，独立或合作性地完成AI建模，增强安全智能。

Description

一种安全威胁协同建模方法及***

技术领域

本发明属于安全威胁鉴别技术领域，具体涉及一种安全威胁协同建模方法及***。

背景技术

目前，AI技术在网络安全威胁检测领域发挥着日益重要的作用。网络空间中的域名、IP、URL、恶意程序等网络实体所遗留的行为痕迹经AI处理程序分析挖掘，形成了丰富的行为特征，为有监督研判和无监督探索提供了数据支撑。基于行为特征的恶意性研判是这一领域的重要任务。当安全防护***发现未知的网络实体时，需要有能力研判其是否存在恶意，以做出进一步决策。需要进行恶意性研判的实体类型包括域名、IP、URL和恶意程序等。当提取出的特征越能全面地反映实体的行为，就越有希望揭示实体的意图。此外，对于有监督学习任务，还需要收集和掌握高质量的训练标签。然而，行为特征的提取和训练标签的收集都是困难的，其中一个重要原因是，行为痕迹往往是分散的。这种分散性体现在如下几个层面：（1）机构划界。行为数据和标签数据被不同的机构或部门掌握，互相没有打通。这种现象的成因，一方面是组织的安全保密需求，另一方面是缺乏一致性利益的驱动。（2）设备隔阂。企业中不同的安全设备分别从自身的视角对网络实体进行观察，产生盲人摸象式的观测记录，未能有效集成。（3）实体割裂。攻击团伙的基础设施包括主机、域名、恶意程序等多种资源类型，在攻击事件中，这些资源可以集团化作战，需要整体性看待。防护者如未能将相关资源进行关联，则会失去一些重要信息。（4）人机分离。训练数据集是机器学习模型的饲料。机器学习模型需要大量的标注样本作为训练数据集。网络安全的算法模型，以安全专家的研判标注为饲料。这些数据集是稀缺而宝贵的，是安全AI技术落地的瓶颈。究其原因，首先，安全专家是稀缺的；其次，安全专家的分析研判工作成果往往不能对接AI场景，即被处理成可供机器学习模型所用的形式。我们需要安全专家同时提供判断依据和判断结果，分别作为模型的训练特征及训练标签。然而，由于安全专家的主要工作并非AI导向，其分析研判过程，往往停留在专家自身的脑海里，或飘零在杂乱无章的报告中，常常难以被其他人类所理解，遑论被机器识别和认知。因此，安全行业应主动提取和整合人类个体的输出，产生可机读的研判依据和研判结果，从而形成适合AI场景的训练数据集。

因此，防护方需要打通不同参与方提供的数据源，为AI模型提供充分的数据燃料。联邦学习及威胁情报共享是解决机构边界造成的数据孤岛的途径。XDR（扩展的检测响应）是打通设备隔阂的机制。为了解决实体割裂问题，则需要引入图分析。将这些手段整合起来，需要一种协同化机制，将不同的机构、不同的岗哨所输出的安全数据加以融合。

AI标签数据是模型或专家的智慧结晶。威胁情报，尤其是运营类的机读威胁情报，就是一种AI标签数据。AI落地最难的环境就是对标签数据的搜集和管理。

AI特征数据，一般是通过主动探测或被动观测获取，代表一个客观事件。例如，沙箱可以记录样本的行为序列，网闸可以统计特定IP的流量水平，而有些IDS则可针对IOC访问进行告警。这些设备产生的日志，可以被抽象为行为特征，通过数据预处理手段，构建安全数据集，作为AI模型训练和预测的输入。然而，企业如果直接将这类数据如果对外共享，可能会暴露自身的网络细节，存在一定的数据安全风险。

安全行业普遍认同情报共享的重要性，但仍没有找到一种被普遍接受的共享机制。安全团队和安全企业纷纷建立情报社区。这种社区需要出台激励机制，以促进信息共享。提供出有价值情报的参与方，应该得到名声上的和物质上的报酬。这就意味着，要对信息的流转进行审计，对情报的价值进行验证，对各方的共享进行量化。这一方法也适用于企业同监管机构进行信息交换的场景。

发明内容

为了解决上述技术问题，本发明提供一种安全威胁协同建模方法及***。

本发明是这样实现的，提供一种安全威胁协同建模方法，包括如下步骤：

1）数据共享，多个参与方提供的数据源之间进行网络实体数据的不完全共享，在共享前，对有必要进行脱敏的网络实体数据进行脱敏；

2）数据融合，对步骤1）中共享后的数据进行属性融合、关系融合、行为融合和标签融合，形成属性融合数据、关系融合数据、行为融合数据和标签融合数据；

3）数据特征提取，对步骤2）中得到的属性融合数据、关系融合数据、行为融合数据分别进行数据特征提取；

4）建模，根据需要选择不同类型的建模方法，选择性载入数据特征和标签融合数据，进行机器学习具体训练过程，生成训练模型，并将训练模型输出；

5）审计，运行于多参与方共享的区块链或协作平台，根据步骤1）、步骤2）、步骤3）、步骤4）中的数据流转进行记账，根据设定的规则给不同的参与方计贡献分，根据贡献分对参与方进行奖励。

优选地，步骤1）中，共享的数据包括如下类型：

实体属性数据、实体间的关联关系数据、实体行为记录数据和实体研判标签数据。

进一步优选，步骤1）中，通过不同的记号来标识不同的网络实体，对有必要进行脱敏的网络实体数据通过脱敏记号来标识，建立有必要进行脱敏的网络实体数据的记号与脱敏记号之间的彩虹表。

进一步优选，步骤1）中，数据共享的触发方式包括主动分享和求助-响应分享；数据共享的方式包括社群发布和点对点发布；数据共享的情景包括自愿分享和法定义务分享。

进一步优选，步骤2）中：

属性融合指通过预先定义融合策略，将同一网络实体在不同参与方处获得的属性加以融合，具体为对同一网络实体在不同数据源处记录到的不同属性信息进行相互补充，相同属性信息进行去重、纠歧；

关系融合指将一对网络实体之间的关联关系加以融合，形成图谱化的网络实体关系库，具体为对这对网络实体在不同数据源处记录到的不同关系信息进行相互补充，对相同关系信息进行去重、纠歧；

行为融合指对同一网络实体在不同数据源处所记录的行为信息加以融合，通过整合多源、零散的行为信息，形成对各网络实体更全面、完整的观察记录，具体为对同一网络实体的不同行为信息按时间顺序进行排列，对来自不同参与方处的相同行为信息进行去重，纠歧；

标签融合指不同的参与方分别提供对同一实体的研判标签，各读取方收到其他参与方发来的研判标签后，执行本地的采信策略，对各方信息进行综合，对多方给出的同一标签给与较大信任度，对多方给出的不同标签进行互相补充，从而获得各标签的置信度。

进一步优选，步骤3）中：

属性融合数据的数据特征包括：IP的位置、域名注册时间、文件更改时间；

关系融合数据的数据特征包括：图节点出入度、域名关联IP数、域名关联NS服务器数、域名节点限定IP类型邻居节点的出入度；

行为融合数据的数据特征包括：统计特征和敏感行为特征，统计特征包括横向通信次数、外联次数、文件访问数；敏感行为特征包括修改启动项、境外外联、访问注册边。

进一步优选，步骤4）中，建模方法包括本地训练、联邦学习、情报聚合和集成学习，具体的：

本地训练，任一参与方根据其掌握的数据特征和标签融合数据，按需执行机器学习训练任务，获得AI模型；

联邦学习，多个参与方在不完全共享数据的情形下，约定共同训练AI模型；

情报聚合，参与方对被标记为恶意的网络实体执行自定义的采信策略，将脱敏后的具有恶意标签的网络实体当做自定义IOC指标，IOC指标连通各参与方自定义的置信度阈值构成了一类决策模型，能够判断输入的网络实体数据是否以大于置信度阈值的置信度匹配已知IOC指标，即得到IOC模型；

集成学习，综合运行不同参数设定下的本地训练、联邦学习和情报聚合手段，产生多个威胁研判模型，并通过投票方式综合各个模型的初始研判结果，产生可信度更高的最终研判结果，单独使用本地训练、联邦学习或情报聚合视作集成学习的特例。

进一步优选，步骤5）中，计贡献分的规则设定为：

分享属性数据，并被其他参与方读取，单个属性对应基本贡献分记作Sa；

分享关系数据，并被其他参与方读取，单个关系对应基本贡献分记作Sr；

分享行为数据，并被其他参与方读取，单个行为事件对应基本贡献分记作Sb；

分享标签数据，并被其他参与方读取，单个标签对应的基本贡献分为Sl；

分享透明数据，并被用于机器学习，单个透明数据对应的贡献分为Sf；

在其他参与方的要求下定向分享网络实体数据，单个网络实体数据对应的贡献分为St；

读取方读取数据后，应扣除读取方相应的贡献分，并且读取方可选择性地对读取的数据进行评价，给出评分，如果读取方给出的评分与该数据获得的平均评分差距在一定范围内，读取方获得一定的贡献分，当该数据平均评分高于一定值时，分享该数据的参与者获得分值奖励，低于一定值时，分享该数据的参与者扣除一定分值；

参与方在初始时，默认拥有一定的初始分值。

本发明还提供一种安全威胁协同建模***，包括如下模块：

数据共享单元，用于多个参与方之间进行网络实体数据的不完全共享，在共享前，对有必要进行脱敏的网络实体数据进行脱敏；

数据融合单元，用于对共享后的数据进行属性融合、关系融合、行为融合和标签融合，形成属性融合数据、关系融合数据、行为融合数据和标签融合数据；

数据特征提取单元，用于对属性融合数据、关系融合数据、行为融合数据分别进行数据特征提取；

建模单元，包括数据载入单元、模型训练单元和模型输出单元，根据需要选择不同类型的建模方法，数据载入单元用于选择性载入数据特征和标签融合数据，模型训练单元用于进行机器学习具体训练过程，生成训练模型，模型输出单元用于训练模型输出；

审计单元，运行于各个参与方共享的区块链或协作平台，用于对数据共享单元、数据融合单元、数据特征提取单元、建模单元中的数据流转进行记账，根据设定的规则给不同的参与方计贡献分，根据贡献分对参与方进行奖励。

与现有技术相比，本发明的优点在于：

1、针对威胁情报的行业共享和监管共享提供了统一的数据流通框架，对数据的分享行为通过贡献分的形式进行量化和结算，鼓励数据交易和数据共享，并通过区块链或协作平台技术对各方贡献达成共识；

2、实体ID以脱敏方式交换，在保障数据安全的前提下仍能支持联合建模能力和威胁IOC匹配能力；

3、支持普通的本地机器学习和联邦学习，各参与方可按需选择数据开放程度，根据自身预算取得外部数据资源，独立或合作性地完成AI建模，增强安全智能。

附图说明

图1为本发明提供的方法流程图；

图2为建模流程图；

图3为本发明提供的装置模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

针对现有技术中的问题，本发明主要讨论AI特征数据和AI标签数据的融合问题，并基于这种融合机制实现协作化的机器学习能力。提倡将数据进行一定的脱敏，仅在少数必要情形对脱敏后的数据进行还原。具体的：

参考图1，本发明提供一种安全威胁协同建模方法，包括如下步骤：

在步骤1）中，这些参与方可能是不同的机构、部门、人员或设备，它们之间进行着数据的不完全分享，对于每一个数据项，认为该数据项由分享者提供给读取者。

在步骤1）中，共享的数据包括如下类型：

实体属性数据、实体间的关联关系数据、实体行为记录数据和实体研判标签数据。具体的：

实体属性数据是对网络实体的描述，一般用于构造AI特征数据。例如，IP实体的属性包括归属地、运营商、属主单位等。域名实体的属性包括域名文本本身、注册日期、首次观测日期、末次观测日期等。文件样本的属性特征包括文件格式、存储空间、更改时间等。

实体间的关联关系数据，比如域名与IP间的解析关系，恶意样本与域名之间的执行关系，域名与URL之间的从属关系等。域名与其注册商、注册局、注册人、注册邮箱之间的关系也属于此类。

实体行为记录数据，如防火墙日志、IDS日志、DNS日志等。

实体研判标签数据，代表了各参与方对网络实体的黑灰度的研判。

在步骤1）中，为了唯一标注实体，通过不同的记号来标识不同的网络实体，对有必要进行脱敏的网络实体数据通过脱敏记号来标识，建立有必要进行脱敏的网络实体数据的记号与脱敏记号之间的彩虹表。具体的：

记号：记号是指以惯用表示法对网络实体进行唯一标识。如IPv4地址的记号为点分十进制记法，IPv6地址的记号为冒号分隔4位十六进制数字组，端口服务的记号为特定IP与端口号记号的组合，域名、URL的记号为文本。文件样本的记号为为其多种散列值的组合，如(MD5,SHA256,SHA512)。综上所述，记号是网络实体的一种文本表达式。

脱敏记号：文件样本无须脱敏，其脱敏记号定义为其记号本身。其他网络实体的记号通过其记号的多种散列值的组合，如(MD5,SHA256,SHA512)。各参与方自行维护记号与脱敏记号的映射关系，即彩虹表。散列值的性质决定了，数据在共享后，读取方一般无法直接获得原始记号，但仍可以利用自身的数据进行碰撞，仅当成功碰撞到的记号才可以根据彩虹表读懂原始记号。此外，如果未能碰撞成功，读取者若仍希望获得原始记号信息，它可以向数据提供者进行点对点发布申请，并提供酬金。分享者可以准许这一申请，并将答案点对点发布给读取者，同时获得贡献分，这一过程称作实体标识的透明化。

除网络实体标识可以用选择性脱敏外，网络实体的属性、关系、行为及标签信息的具体取值也可进行脱敏。参与者可以仅对外通告其掌握了这个信息，但不透露具体取值。其他参与者在接受到这类通告时，将缺失的取值取作一个特殊值，并记录原始信息来源，即真正掌握了该取值的参与方ID。这种数据称为不透明数据。读取方可以向数据分享者提出请求，请求获取不透明数据的真实取值。如果分享者同意了这一申请，则称相关数据被透明化。此外，不透明数据可用于联邦学习建模。

步骤1）中，数据共享的触发方式包括主动分享和求助-响应分享；数据共享的方式包括社群发布和点对点发布；数据共享的情景包括自愿分享和法定义务分享。

在主动分享触发方式下，各参与方建立订阅关系，分别承担发布方和订阅方角色。各发布方自行将其掌握的部分数据按批次公开，订阅方按需选择是否接受本批次的数据，只有选择接受的订阅方才有权对数据进行读取。对于求助-响应分享，订阅方对某一网络实体感兴趣，但缺少对该实体的知识，于是它将脱敏记号或原始记号进行通告，申请其他参与方提供情报协助。其他参与方根据自身掌握的信息，按需提供相关数据，并由发起求助的订阅方决定是否接受。

在特定的监管环境下，本方法支持法定义务分享机制的实现。监管机构可以作为一个特殊参与方执行数据共享职能。对于法规规定必须由监管机构公开的信息，监管机构需要通过主动分享模式向所有其他参与方提供；对于按照有关法规必须主动上报监管机构的信息，其他参与方必须将对应监管机构作为主动分享模式下的订阅方；对于必须响应监管机构查询的信息，信息发布方必须按照有关法规正确响应监管机构的求助请求。如无法定义务，则各参与方的数据分享属于行业自愿分享。

在步骤2）中，各参与方自愿地共享其观测到的一批网络实体属性数据。

步骤2）中：

数据融合的过程，要记录数据来源，便于对数据的审计、追溯，为问题排查和价值交易提供支撑。

步骤3）建立在数据融合的基础上，以组队资源为单位进行特征提取和研判分析，而不是孤立地对单个网络实体进行分析。

步骤3）中：

关系融合数据的数据特征包括：图节点出入度、域名关联IP数、域名关联NS服务器数、域名节点限定IP类型邻居节点的出入度；基于实体间的关联关系，构建拓扑结构，可以进一步从这一拓扑结构中提取特征信息。

在步骤3）中，特定外部参与方所共享出的标签数据也可用作特征数据，而不是最终模型的训练标签。不同参与方的可信度不同，低可信度的参与方所提供的研判标签未必能直接信任，并投喂给机器学习模型；此外，学习目标未必相同。例如，外部参与方可能会提供一个被打上“广告”标签的URL链接，而其他参与方可能更关注网络入侵行为，这种业务目标的不一致性也导致了部分外部标签只能作为候选特征使用。

机器学习模型要求特征数据为连续型实数、离散有序数、布尔型变量等特定形式。部分属性数据不符合这一要求，但可以经过一定的预处理，转换为有价值的特征信息。这个过程一般需要结合业务语义，按需抽取信息。

特征提取过程由各参与方自行决定。参与方应采用PDCA方法论，即不断根据业务方向和模型效果持续调整特征工程具体方式。

4）建模，参考图2，根据需要选择不同类型的建模方法，选择性载入数据特征和标签融合数据，进行机器学习具体训练过程，生成训练模型，并将训练模型输出；

步骤4）中，建模方法包括本地训练、联邦学习、情报聚合和集成学习，具体的：

选择性载入数据特征和标签融合数据时，特征数据和标签数据进行选择性的载入。如果类型策略被设定为本地训练或联邦学习，则根据建模需要设定载入策略，执行特征选择功能。如果类型策略被设定为情报聚合，则按照采信策略载入符合要求的脱敏记号，生成自定义IOC指标。

进行机器学习具体训练过程，生成训练模型时，执行本地有监督训练或联邦学习训练的具体过程。如果类型策略被设定为情报聚合，则模型训练过程将自定义IOC指标转换为IOC匹配模型，这一模型提供出IOC匹配能力，负责判断被输入的脱敏记号是否命中IOC指标。

将训练模型输出，即对外输出模型能力，包括AI模型的预测能力及IOC模型的匹配判断能力。

5）审计，在多方共享的区块链或协作平台运行，根据步骤1）、步骤2）、步骤3）、步骤4）中的数据流转进行记账，根据设定的规则给不同的参与方计贡献分，根据贡献分对参与方进行奖励。

步骤5）中，在多方共享的区块链或协作平台运行审计。将数据交换记录存储于区块之上，并不断增长新的区块；也可以将审计过程运行于公共的协作平台之上，将数据交换记录存储于平台数据库中，审计***通过读取数据库的内容获得各方的贡献情况。

步骤5）中，计贡献分的规则设定为：

仅当被分享的数据被其他参与方读取后，方可获得贡献分。获得的贡献分为基本贡献分与读取方数量的乘积。比如，如果某个关联数据被3个参与方读取，则共享方可获得3Sr的贡献分。

读取方读取数据后，应扣除读取方相应的贡献分，例如，当读取方读入了3个关联数据，则扣除3Sr的贡献分。并且读取方可选择性地对读取的数据进行评价，给出评分，比如0-10，如果读取方给出的评分与该数据获得的平均评分差距在一定范围内，比如2分，读取方获得一定的贡献分，记作Ss。当该数据平均评分高于一定值时，比如8分，分享该数据的参与者获得分值奖励，基本奖励分Sw，分享者将获得贡献分Sw(r-8)。低于一定值时，比如3分，分享该数据的参与者扣除一定分值，记为Sw(3-r)；

参与方在初始时，默认拥有一定的初始分值。

***中各参与方当前持有的贡献分的总和是不断变化的。

参考图3，本发明还提供一种安全威胁协同建模***，包括如下模块：

数据共享单元，用于多个参与方之间进行网络实体数据的不完全共享，在共享前，对有必要进行脱敏的网络实体数据进行脱敏；如果网络实体的原始记号在当前环境下并不算敏感，可关闭脱敏功能，即直接将脱敏记号取成原始记号。例如，当各参与方隶属同一部门，或彼此完全信任时，在信息交换过程中无需脱敏。

数据融合单元，用于对共享后的数据进行属性融合、关系融合、行为融合和标签融合，形成属性融合数据、关系融合数据、行为融合数据和标签融合数据；数据融合单元对上述过程提供界面支持，同时可提供可视化界面呈现实体及关系的融合过程。网络实体间的关联关系可以通过图的方式进行可视化呈现，并为用户提供编辑更改的便捷接口。为了区分数据来源，点和线打上不同的标签图标，不同的图标代表不同的参与方。点和线的颜色和形状可用于反映实体或关系的类型。

Claims

1.一种安全威胁协同建模方法，其特征在于，包括如下步骤：

标签融合指不同的参与方分别提供对同一实体的研判标签，各读取方收到其他参与方发来的研判标签后，执行本地的采信策略，对各方信息进行综合，对多方给出的同一标签给与较大信任度，对多方给出的不同标签进行互相补充，从而获得各标签的置信度；

5）审计，运行于多参与方共享的区块链或协作平台，根据步骤1）、步骤2）、步骤3）、步骤4）中的数据流转进行记账，根据设定的规则给不同的参与方计贡献分，根据贡献分对参与方进行奖励；

计贡献分的规则设定为：

读取方读取数据后，应扣除读取方相应的贡献分，并且读取方选择性地对读取的数据进行评价，给出评分，如果读取方给出的评分与该数据获得的平均评分差距在一定范围内，读取方获得一定的贡献分，当该数据平均评分高于一定值时，分享该数据的参与者获得分值奖励，低于一定值时，分享该数据的参与者扣除一定分值；

参与方在初始时，默认拥有一定的初始分值。

2.根据权利要求1所述的安全威胁协同建模方法，其特征在于，步骤1）中，共享的数据包括如下类型：

3.根据权利要求1所述的安全威胁协同建模方法，其特征在于，步骤1）中，通过不同的记号来标识不同的网络实体，对有必要进行脱敏的网络实体数据通过脱敏记号来标识，建立有必要进行脱敏的网络实体数据的记号与脱敏记号之间的彩虹表。

4.根据权利要求1所述的安全威胁协同建模方法，其特征在于，步骤1）中，数据共享的触发方式包括主动分享和求助-响应分享；数据共享的方式包括社群发布和点对点发布；数据共享的情景包括自愿分享和法定义务分享。

5.根据权利要求1所述的安全威胁协同建模方法，其特征在于，步骤3）中：

行为融合数据的数据特征包括：统计特征和敏感行为特征，统计特征包括横向通信次数、外联次数、文件访问数；敏感行为特征包括修改启动项、境外外联、访问注册表。

6.根据权利要求1所述的安全威胁协同建模方法，其特征在于，步骤4）中，建模方法包括本地训练、联邦学习、情报聚合和集成学习，具体的：

7.一种利用权利要求1所述的安全威胁协同建模方法进行安全威胁协同建模的***，其特征在于，包括如下模块：