CN112149806B

CN112149806B - 一种基于机器学习的访问控制策略生成方法及装置

Info

Publication number: CN112149806B
Application number: CN202011022708.9A
Authority: CN
Inventors: 苏铓; 赵银艳; 梅东; 侯金鹏; 付安民; 俞研; 徐玉婷
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-07-29
Anticipated expiration: 2040-09-25
Also published as: CN112149806A

Abstract

本发明提出了一种基于机器学习的访问控制策略生成方法，包括：获取授权日志，以及访问日志中不同访问资源的历史授权记录，通过所述授权日志对所述历史授权记录构造属性元组对；通过所述属性元组对训练属性权重神经网络；根据所述属性权重神经网络获取属性的向量表示，通过资源属性的向量表示计算访问资源之间的相关性；计算所述属性元组对出现的频率，并当所述属性元组对出现的频率超过给定阈值时，生成频繁项集；根据所述频繁项集获得候选规则；根据所述访问日志和访问资源之间的相关性计算所述候选规则的置信度和支持度；根据所述置信度和支持度生成访问控制策略。本发明利用访问资源的相似性可以帮助增加统计强度，解决授权数据稀疏的问题。

Description

一种基于机器学习的访问控制策略生成方法及装置

技术领域

本申请涉及访问控制领域，尤其涉及一种基于机器学习的访问控制策略生成方法及装置。

背景技术

在数据访问***中，访问设备相互连接并且都连接到开放的网络环境中，给数据安全和隐私保护带来了严峻的挑战。目前的ABAC访问控制模型根据用户属性、资源属性、环境属性、操作属性制定访问策略并基于访问策略对用户的访问请求进行授权。因为ABAC的灵活性和易用性被广泛应用在访问控制中，但ABAC的访问控制策略需要手工制定，且需要在***运行期间持续的添加新的访问规则，耗费人工。自动化的访问控制策略生成方法可以帮助管理员减少人工制定规则的成本，关联规则挖掘技术可以构造if-then的规则，利用关联规则挖掘方法处理访问日志中的历史授权数据可以自动制定出访问策略，但这种方法依赖于目标资源大量的授权记录，如果目标访问资源的授权记录数不足时，传统的访问控制策略生成方法难以自动构造出规则。

发明内容

为解决上述技术问题之一，本发明提供了一种基于机器学习的访问控制策略生成方法及装置。

本发明实施例第一方面提供了一种基于机器学习的访问控制策略生成方法，所述方法包括：

获取授权日志，以及访问日志中不同访问资源的历史授权记录，通过所述授权日志对所述历史授权记录构造属性元组对，所述属性元组对中包含每条授权记录中任意两个及以上的属性；

通过所述属性元组对训练属性权重神经网络；

根据所述属性权重神经网络获取属性的向量表示，通过资源属性的向量表示计算访问资源之间的相关性；

计算所述属性元组对出现的频率，并当所述属性元组对出现的频率超过给定阈值时，生成频繁项集；

根据所述频繁项集获得候选规则；

根据所述访问日志和访问资源之间的相关性计算所述候选规则的置信度和支持度；

根据所述置信度和支持度生成访问控制策略。

优选地，所述属性权重神经网络包括输入层、编码层和分类层，所述通过所述属性元组对训练属性权重神经网络的过程包括：

将所述属性元组对中的一个属性通过输入层映射成向量，再经过编码层转换为语义向量；

通过所述语义向量在分类层预测所述属性元组对中包含的其他属性，并将所述语义向量映射成基于所有属性类型的概率分布；

通过属性元组对中真实的属性类型计算误差，更新参数。

优选地，所述根据所述属性权重神经网络获取属性的向量表示，通过资源属性的向量表示计算访问资源之间的相关性的过程包括：

将所述访问日志的访问资源中的资源属性输入所述属性权重神经网络，获得编码层的向量输出；

通过向量内积计算访问资源之间的相关性。

优选地，所述根据所述频繁项集获得候选规则的过程包括：

将所述频繁项集中的任意一个属性当作结论，其他属性当作前提，当所述结论为授权结果时生成一个候选规则。

优选地，所述访问日志的访问资源包括目标访问资源和相关访问资源，所述根据所述访问日志和访问资源之间的相关性计算所述候选规则的置信度和支持度的过程包括：

计算所述候选规则的前提和结论共同构成的事务，在所有访问记录中出现的次数与候选规则的前提单独在访问记录中出现的次数比值，获得置信度；

计算所述候选规则的前提，在所有访问记录中出现的次数与访问记录总数的比值，获得支持度。

本发明实施例第二方面提供了一种基于机器学习的访问控制策略生成装置，所述装置包括处理器，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过所述属性元组对训练属性权重神经网络；

根据所述频繁项集获得候选规则；

根据所述置信度和支持度生成访问控制策略。

优选地，所述属性权重神经网络包括输入层、编码层和分类层，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过属性元组对中真实的属性类型计算误差，更新参数。

优选地，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过向量内积计算访问资源之间的相关性。

本发明的有益效果如下：本发明所提出的方法首先通过访问日志中访问资源的授权记录训练神经网络模型，获得访问资源的向量表示。基于不同访问资源的向量表示计算获得访问资源的相似度。在使用关联规则构造访问规则时，根据相关资源的的授权结果，为当前规则构造访问规则。由于相关的资源其访问控制规则是相似的。利用访问资源的相似性可以帮助增加统计强度，解决授权数据稀疏的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例所述的一种基于机器学习的访问控制策略生成方法的流程图；

图2为本发明实施例所述的属性权重神经网络的训练过程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提出了一种基于机器学习的访问控制策略生成方法，所述方法包括：

S101、获取授权日志，以及访问日志中不同访问资源的历史授权记录，通过所述授权日志对所述历史授权记录构造属性元组对。

具体的，本实施例中，授权日志中的每一条访问记录都包括用户属性、资源属性、操作属性。每条授权记录中，任意两个及以上的属性，构成一个属性元组，比如授权记录包含属性：a,b,c；则得到属性元组:(a,b),(a,c),(b,c),(a,b,c)，从而构造出多个属性元组对。

S102、通过所述属性元组对训练属性权重神经网络。

具体的，本实施例中，属性权重神经网络包括输入层、编码层和分类层，通过所述属性元组对训练属性权重神经网络的具体过程如下：

通过属性元组对中真实的属性类型计算误差，更新参数。

更为具体的，本实施例中，访问日志中包含了针对不同访问资源的访问请求。在访问请求中，不同访问资源的上下文存在着差异，可以用于量化访问资源之间的相关性。因此，使用属性元组对以及神经网络编码属性的表示之后，预测上下文中的属性(对应着属性元组对中的其他属性)可以捕捉属性的上下文差异。如图2所示显示了属性权重神经网络的训练过程，给定属性元组对(a₁,a₂)，网络首先将属性a₁映射成one-hot向量，经过一层非线性变换后，转换为隐层表示，在训练阶段该表示被送入softmax层预测属性a₂，对应着图2的左下部分。

S103、根据所述属性权重神经网络获取属性的向量表示，通过资源属性的向量表示计算访问资源之间的相关性。

具体的，属性权重神经网络的隐藏层表示可以当作属性的向量表示，对应着图2的右下部分。因为在神经网络训练过程中，该向量表示被用于预测属性的上下文。因此，训练完成后，属性的向量表示捕获了属性的上下文差异。使用不同访问资源的向量表示，计算向量内积等获得访问资源之间的相关性。

S104、计算所述属性元组对出现的频率，并当所述属性元组对出现的频率超过给定阈值时，生成频繁项集。

具体的，本实施例中首先计算所有的一阶频繁项，在一阶频繁项基础上计算出所有二阶、三阶频繁项等，最终获得所有满足条件的频繁项组成频繁项集。

S105、根据所述频繁项集获得候选规则。

具体的，将频繁项集中的任意一个属性当作结论，其他属性当作前提，当结论为授权结果时生成一个候选规则。

S106、根据所述访问日志和访问资源之间的相关性计算所述候选规则的置信度和支持度。

具体的，计算所述属性元组对和授权结果组成的事务，在访问日志中出现的次数。将属性元组对中的资源属性替换成相关资源的属性后，得到的事务，统计其在访问日志中出现的次数。将两者之和作为分子。将所述属性元组对单独出现在访问日志中的次数作为分母。通过比值，获得置信度；

计算所述属性元组对及将属性元组对中包含的资源替换成其相关访问资源后，得到的事务在访问日志中出现的次数之和与所有记录数的比值，获得支持度。

更为具体的，对于候选规则X→Y,得到事务(X,Y)。通过将候选规则前提中的访问资源替换成相关资源，得到事务(X′,Y).置信度的计算过程如下：计算事务(X,Y)及事务(X′,Y)出现的访问记录之和与事务X出现的记录数的比值获得置信度。该置信度的计算公式如下所示：

支持度的计算过程如下：计算事务X和事务X′在访问记录中出现的次数之和与所有记录数的比值，获得支持度。该支持度的计算公式如下所示：

上面两个公式中count表示在访问日志中，给定属性组出现的记录数目。规则的前置条件X是属性元组对，包含资源属性和其他属性。Y是授权结果，且Y＝{permit,deny}。当计算count(X,Y)时，由于目标访问资源的授权记录数不足，导致无法产生规则，因此在计算时，将X中的目标访问资源替换成相关资源计算count(X′,Y),其中，相关资源由资源的向量表示，通过余弦相似度获得。

S107、根据所述置信度和支持度生成访问控制策略，将满足最低置信度条件和支持度条件的候选规则当作访问控制策略并输出。

实施例2

对应实施例1，本实施例提出了一种基于机器学习的访问控制策略生成装置，所述装置包括处理器，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过所述属性元组对训练属性权重神经网络；

根据所述频繁项集获得候选规则；

根据所述置信度和支持度生成访问控制策略。

具体的，本实施例所提出的装置的具体工作原理和计算过程可参照实施例1所记载的内容，本实施例不再进行赘述。本实施例首先通过访问日志中访问资源的授权记录训练神经网络模型，获得访问资源的向量表示。基于不同访问资源的向量表示计算获得访问资源的相似度。在使用关联规则构造访问规则时，根据相关资源的的授权结果，为当前规则构造访问规则。由于相关的资源其访问控制规则是相似的。利用访问资源的相似性可以帮助增加统计强度，解决授权数据稀疏的问题。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习的访问控制策略生成方法，其特征在于，所述方法包括：

通过所述属性元组对训练属性权重神经网络；

根据所述频繁项集获得候选规则；

根据所述置信度和支持度生成访问控制策略；

所述根据所述频繁项集获得候选规则的过程包括：

将所述频繁项集中的任意一个属性当作结论，其他属性当作前提，当所述结论为授权结果时生成一个候选规则；

所述访问日志的访问资源包括目标访问资源和相关访问资源，所述根据所述访问日志和访问资源之间的相关性计算所述候选规则的置信度和支持度的过程包括：

2.根据权利要求1所述的方法，其特征在于，所述属性权重神经网络包括输入层、编码层和分类层，所述通过所述属性元组对训练属性权重神经网络的过程包括：

通过属性元组对中真实的属性类型计算误差，更新参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述属性权重神经网络获取属性的向量表示，通过资源属性的向量表示计算访问资源之间的相关性的过程包括：

通过向量内积计算访问资源之间的相关性。

4.一种基于机器学习的访问控制策略生成装置，其特征在于，所述装置包括处理器，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过所述属性元组对训练属性权重神经网络；

根据所述频繁项集获得候选规则；

根据所述置信度和支持度生成访问控制策略；

所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

5.根据权利要求4所述的装置，其特征在于，所述属性权重神经网络包括输入层、编码层和分类层，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过属性元组对中真实的属性类型计算误差，更新参数。

6.根据权利要求5所述的装置，其特征在于，所述处理器，其内部被配置有处理器可执行的操作指令，以执行如下操作：

通过向量内积计算访问资源之间的相关性。