CN116205296A

CN116205296A - 一种融合自顶向下与自底向上的abac策略工程方法

Info

Publication number: CN116205296A
Application number: CN202211722659.9A
Authority: CN
Inventors: 孙伟; 袁晓亚; 杨玚
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-02

Abstract

本发明公开了一种融合自顶向下与自底向上的ABAC策略工程方法，包括以下步骤：S1：自顶向下ABAC策略工程元素提取；S2：自底向上ABAC策略的挖掘，对于给定的访问日志文档，将具有相似特征的访问权限元组聚为一类，根据聚类中心点的属性值以及聚类成员的属性值，利用数据字典对聚类属性值进行预处理，确定与访问策略相关的有效属性集，并挖掘初始ABAC规则集；S3：ABAC规则的进一步提取，构造新矩阵并结合无监督学习方法挖掘的聚类结果及初始规则集，从底层日志中进一步提取出蕴含的ABAC规则；S4：ABAC策略的优化，在规则提取阶段，有可能从两个聚类中提取相同或相似的规则，为确定并消除其中一部分冗余规则，通过规则修剪优化提高所提取ABAC策略的质量。

Description

一种融合自顶向下与自底向上的ABAC策略工程方法

技术领域

本发明涉及访问控制技术领域，具体为一种融合自顶向下与自底向上的ABAC策略工程方法。

背景技术

随着移动通信技术及高性能计算的飞速发展与广泛应用，安全性现已成为诸如物联网、智能合约、区块链及工业信息集成***等领域的一项基本需求。大规模、分布式协同管理***中存在大量信息存储与资源共享，企业组织应采用相应访问控制机制以保证***的安全性。然而，传统访问控制机制依赖于身份，缺乏灵活性与可扩展性，不能满足细粒度以及实际应用场景中动态性功能需求。作为一种选择性替换，基于属性的访问控制(Attribute-based Access Control,ABAC)克服了传统访问控制机制的缺陷，具有很高的灵活性与可表达性，尤其对于大规模分布式协同工作环境能够满足细粒度、动态的访问请求，近些年在学术界与工业界均获得了广泛关注与深入研究。

与角色***工程相似，基于ABAC的策略工程同样存在自顶向下与自底向上两种构造方法。前者通过精确评估业务流程并将其分解成若干独立的单位，再与访问权限相关联；后者从现有访问权限模式中提取规则，并自动构建ABAC***框架。研究者们相继提出了各种不同的策略工程方法。Xu和Stoller从访问控制列表(Access Control List,ACL)及其相应的属性数据中发现ABAC策略，首次提出了一种自底向上的挖掘方法。该方法首先循环遍历给定的ACL来选择访问模式，以构造候选规则集；再从候选规则集中挑选能够覆盖ACL中更多的模式。Das等人提出一种使用Gini impurity求解ABAC策略挖掘问题的解决方案，挖掘策略的同时考虑环境属性。Talukdar等人指出策略挖掘类似于识别数据库表中的功能依赖项，提出的策略挖掘算法能够精确枚举所有可能的主体-客体对。Iyer等人提出一种能够构造肯定和否定的ABAC授权规则的策略挖掘方法。Das等人认为基于ABAC的策略工程问题与角色工程问题相似，对于构造相应访问控制模型同等重要，并给出了两种技术的详细综述。然而，现有研究方法存在以下主要问题：(1)自顶向下方法通过手工筛选自然语言描述的策略文档，以确定并提取访问控制策略，这是耗时费力且容易出错的；(2)自底向上方法挖掘规模庞大，且未考虑企业组织的实际应用功能需求；(3)策略中相同或相似的规则增加了策略工程问题的复杂性，进而影响策略质量。

发明内容

本发明的目的在于提供一种融合自顶向下与自底向上的ABAC策略工程方法，以解决上述背景技术提出的目前市场上的问题。

为实现上述目的，本发明提供如下技术方案：一种融合自顶向下与自底向上的ABAC策略工程方法，包括以下步骤：

S1：自顶向下ABAC策略工程元素提取

对于给定自然语言描述的需求文档，利用语法解析、访问策略句子识别、语义角色标注，以及后处理操作，提取其中包含的策略工程元素；

S2：自底向上ABAC策略的挖掘

对于给定的访问日志文档，将具有相似特征的访问权限元组聚为一类，根据聚类中心点的属性值以及聚类成员的属性值，利用数据字典对聚类属性值进行预处理，确定与访问策略相关的有效属性集，并挖掘初始ABAC规则集；

S3：ABAC规则的进一步提取

通过主体、对象、属性及操作之间广义笛卡尔乘积形式构造新矩阵，并结合无监督学习方法挖掘的聚类结果及初始规则集，从底层日志中进一步提取出蕴含的ABAC规则；

S4：ABAC策略的优化

在规则提取阶段，有可能从两个聚类中提取相同或相似的规则，为确定并消除其中一部分冗余规则，通过规则修剪优化提高所提取ABAC策略的质量。

进一步的，S1自顶向下ABAC策略元素提取具体包括以下步骤：

S11：预处理时，通读整个自然语言访问控制策略文档，并对句子进行词法分析和关联消解，以确定句子边界，并检测文本中单词、标点符号及其它关联项，为使需求描述中文本信息便于评估，使用工具包CoreNLP确定句子，使每个句子单独成行；

为判断文本中不同表达形式是否描述同一个实体或事件，采用代词消解算法将文本中代词进行实体替换以确定同一实体的所有不同表现形式；

S12：从整个自然语言访问控制策略文档中识别并提取访问策略句子时，根据已分类项与当前测试项中最接近的项来分类测试项，使用监督学习方法如K-NN分类器，将欧几里得距离作为属性值的度量，在文本实例空间寻找某个实例的k个最邻近的实例，并将该实例标记为与大多数邻居类相同的实例，采用ACRE方法确定并提取策略句子；

S13：使用语义角色标注工具，检测与策略句子中动词相关联的语义参数，分析句子中所有目标动词所表达的命题，针对每个目标动词/谓词提取出句子中所有填补该动词语义角色的成分；

对于给定的句子，语义角色标注工具的主要任务是分析句子中动词/谓词表示的部分，并确定句子中的哪些部分对应具体哪个语义角色；

语义角色标注工具的一般形式为：{A；B；C}，其中A代表Arg0，即主体，B代表动词/谓词，即行为，C代表Arg1，客体或资源，即动词/谓词作用的对象；

使用SENNA方法作为语义角色标注器。

S14：使用语义角色标注工具标注动词/谓词参数后，需对生成的标注部分进行后处理操作，包括命名实体识别和参数扩展；其中

命名实体识别是确定句子中属于预定义类别中的命名实体和单词序列，如人名、地点、机构组织、时间表达式等，生成一个带注释的文本，以突出显示实体名称；

参数扩展是基于从用自然语言陈述且复杂的句子分离出的多个主体和客体对象，结合句子中标注的动词/谓词，组合出只含单一主体与客体对象的不同简单策略元素集。

进一步的，S2自底向上ABAC策略挖掘的具体步骤如下：

S21：使用无监督学习算法，如k-modes算法，对现有访问权限元组进行训练，检测聚类模式，并将ABAC规则挖掘看作是从访问日志到聚类集的一种映射f:AL→C，其中，AL表示访问元组集，C表示聚类中心点标签集，每个中心点c_i对应一条规则ρ_i；

S22：根据现有访问日志及数据库中的属性信息集，结合S1中以自然语言形式描述的属性名及属性取值范围所定义的数据字典，将现有数据库中用符号和缩写词编辑的属性-值对，替换成数据字典中与之等价表示的语义表达式；例如，考虑大学***定义的属性名为position可以取值1,2,3，如果数据字典中这些属性值分别对应”professor”，”lecturer”，”student”，那么用数据字典中的这些值取代数值型属性值；

S23：聚类中心点表示聚类中属性值最频繁出现的那部分，然而，聚类中心点的属性并非都是有效的，结合S1中提取的原始策略元素，定义有效属性；c_i表示聚类i的中心点，S_ci＝{(a,v)}是c_i中所有主体包含的属性-属性值对的集合，其中v∈Val_Att(c_i,a_j)，对于任意(a_j,v_j)∈S_ci及给定阈值Γ，如果属性值v_j分别出现在底层聚类与顶层策略元素频率的差值高于Γ，则称a_j对于聚类规则ρi是有效属性，并将属性条件(a_j,v_j)添加到规则ρi中；

进一步的，S3ABAC规则的进一步提取具体步骤如下：

S31：定义给出主体-属性关联关系UUA、对象-属性关联关系OOA以及访问日志AL的布尔矩阵表示形式：

其中行表示主体，列为形如(a_u,v)的属性取值；

其中行表示对象，列为形如(a_o,v)的属性取值；

其中行表示主体，列表示对象，op表示操作权限；

S32：根据S2的聚类结果，将访问日志矩阵划分成k个不同的子矩阵：AL_op1，AL_op2，…，AL_opk，划分矩阵中列对应的对象集是相同的，行对应不同的主体集，并根据分割的k个用户集，将UUA分成k个子矩阵：UUA₁，UUA₂，…，UUA_k；

S33：对于UUA₁，UUA₂，…，UUA_k的任意矩阵UUA_i，将其与OOA做广义笛卡尔乘积，构造矩阵

其中行对应所有可能的主体-对象对，列对应所有实体的属性-值对以及操作权限；

S34：对于

的任意矩阵/>

将其分成/>

与/>

其中/>

表示允许访问请求执行操作权限op，/>

表示不允许执行op，并结合S2挖掘的初始ABAC规则集，从底层日志中进一步提取出蕴含的ABAC规则；

进一步的，S4ABAC策略优化的具体步骤如下：

S41：定义计算任意两规则ρ₁与ρ₂的相似度如下：

即规则间共有属性条件规模与它们联合属性条件规模的比值，其中/>

分别表示规则ρ_i、ρ_j关于实体e的属性条件，当该值超过给定的相似度阈值T_sim时，称ρ₁与ρ₂相似；

S42：对于一个给定的ABAC策略，加权结构复杂度WSC对策略规模进行一种概括性评估，计算表示如下：

其中，WSC(AC_e)＝|AC_e|，|AC_e|是规则ρ关于实体e的属性条件规模，即属性表达式的个数，w_e是规则ρ关于实体e的某种指定权重；

S43：基于策略质量的评价标准，对于规则集中的任意两规则ρ_i与ρ_j，如果它们的相似度sim(ρ_i,ρ_j)大于某个给定的阈值T_sim，那么对该规则集进行优化处理。

与现有技术相比，本发明的有益效果是：

(1)对于给定自然语言描述的需求文档，使用自然语言处理技术能够自动、准确地提取出访问控制策略元素；

(2)对于给定***授权决定的访问日志，使用无监督学习方法聚类访问权限模式，并划分构造的访问控制矩阵，能够降低规则挖掘规模；

(3)基于相似度计算标准及策略质量评价标准，进一步修剪优化策略规则，并在构造与真实数据集上验证了方法的有效性与效率，所提取策略的质量更高，具有显著的经济和社会效益。

附图说明

图1为本发明本发明融合自顶向下与自底向上的ABAC策略工程流程图；

图2为本发明提取策略规则数随实体数变化的比较图；

图3为本发明策略工程执行时间随实体数变化的比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：一种融合自顶向下与自底向上的ABAC策略工程方法，该方法根据顶层使用自然语言描述的策略文档，结合底层给定的访问日志或访问授权列表，能够提取出更高质量的ABAC策略，具体包含以下步骤：

S1：自顶向下ABAC策略元素提取

对于给定自然语言描述的需求文档，利用预处理、访问策略句子识别、语义角色标注以及后处理操作，提取其中包含的策略工程元素；

自顶向下ABAC策略元素提取具体包括以下步骤：

S13：使用语义角色标注工具(Semantic Role Labeling,SRL)，检测与策略句子中动词相关联的语义参数，分析句子中所有目标动词所表达的命题，针对每个目标动词/谓词提取出句子中所有填补该动词语义角色的成分；

使用SENNA方法作为语义角色标注器。

S2：自底向上ABAC策略挖掘

对于给定的访问日志文档，将具有相似特征的访问权限元组聚为一类，即用户、对象、环境等属性；根据聚类中心点的属性值以及聚类成员的属性值，利用数据字典对聚类属性值进行预处理，确定与访问策略相关的有效属性集，并挖掘初始ABAC规则集；

自底向上ABAC策略挖掘的具体步骤如下：

S3：ABAC规则的进一步提取

ABAC规则的进一步提取具体步骤如下：

其中行表示主体，列为形如(a_u,v)的属性取值；

其中行表示对象，列为形如(a_o,v)的属性取值；

其中行表示主体，列表示对象，op表示操作权限；

S34：对于

的任意矩阵/>

将其分成/>

与/>

其中/>

表示允许访问请求执行操作权限op，/>

表示不允许执行op，并结合S2挖掘的初始ABAC规则集，进一步提取出蕴含的ABAC规则；

S4：ABAC策略优化

在规则提取阶段，会出现从两个聚类中提取相同或相似的规则，为确定并消除其中一部分冗余规则，通过规则修剪优化并提高所提取策略的质量；

ABAC策略优化的具体步骤如下：

S41：定义计算任意两规则ρ₁与ρ₂的相似度如下：

即规则间共有属性条件(即交集)规模与它们联合属性条件(即并集)规模的比值，其中/>

S42：加权结构复杂度(Weighted Structural Complexity,WSC)是评价策略质量的一种重要方法，对于一个给定的ABAC策略，加权结构复杂度WSC对策略规模进行一种概括性评估，计算表示如下：

其中，WSC(AC_e)＝|AC_e|，|AC_e|是规则ρ关于实体e的属性条件规模，即属性表达式的个数，w_e是规则ρ关于实体e的某种指定权重，显然，加权结构复杂度WSC值越小，策略越简洁、越好管理；

S43：基于策略质量的评价标准，对于规则集中的任意两规则ρ_i与ρ_j，如果它们的相似度sim(ρ_i,ρ_j)大于某个给定的阈值T_sim，那么对该规则集进行优化处理，修剪掉相似规则中的一个规则能够使策略的加权结构复杂度WSC(P)更小、策略更加简洁。

以下通过实验评估，进一步验证本发明方法的有效性及效率，所有实验的硬软件环境包括：Inteli5-7400CPU，16GB内存和64位Windows10操作***；在Python3软件开发环境下实现本发明中的算法；

(1)评估所提取ABAC策略元素的有效性

在现有研究中经常使用到的四个真实数据集上执行本发明方法，这些数据集来自于不同领域，包括医疗健康、教育及会议管理等，具体来说，对于医疗领域，使用Xiao等人从一种开放数据集iTrust提取的访问策略句子数、策略数及语义角色标注数分别为418,1070,1559；对于教育领域，利用Slankas等人之前用于数据集IBM Course RegistrationSystem，提取的策略句子数、策略数及语义角色标注数分别为169,375,912；对于会议管理领域，使用来源于CyberChair的需求文档数据集，提取的策略句子数、策略数及语义角色标注数分别为139,386,696；还使用一个来自于18个资源，包含114个策略句子、258个策略数及650个角色标注的合并数据集Collected。

使用正确率(Precision)、召回率(Recall)及F1值作为评价提取ABAC策略元素的标准，计算如下，其中TP表示正确提取出真正的策略元素部分，FP表示将提取的非策略元素部分认为是真的，FN表示不能识别真正的策略元素(即将提取的真正策略元素部分认为是假的)：

/>

在不同数据集上反复运行本发明方法10次，根据准确率、召回率及F1值等不同的评价指标，取其结果的平均值，并与单一使用ACRE或SENNA方法的实验结果进行比较，比较结果如表1所示。

从表中实验结果可以看出，本发明方法在准确性方面的表现并不是非常好。然而，从F1值的角度本发明方法表现出色，并在多数情况下优于其他两种方法。这是因为ACRE或SENNA方法要求句子结构上具有重复性；本发明方法结合ACRE与SENNA方法的优势，不要求句子结构具有重复性，每个句子独立存在且与文档结构无关，只要存在为谓词定义的角色集，本发明方法就能够找到大多数的ABAC策略元素。

表1.策略元素提取比较

(2)评估ABAC规则挖掘及优化的有效性及效率

接下来，使用特定参数构造数据集，进一步评估本发明方法的有效性及效率。具体地说，实验中用户数从100变化到1000、步长为100，对象数分别设置100,200,500和1000，实体属性模拟选用上述真实数据集上的属性特征，以构造不同的数据集，图2、图3分别表示随用户数、对象数的变化，本发明方法的规则数及执行时间的变化情况。

从图2可以看出，如果对象数固定为100，用户数从100变化到1000，规则数从19缓慢地变化到47；然而，如果对象数为1000，规则数则从31变化到113，变化趋势非常明显。同样地，如果用户数分别设置为100和1000，挖掘规则数也是随对象数的增大而增长。

从图3可以看出，如果对象数小于500，执行时间始终保持在335s以下，变化趋势非常平缓；然而，如果对象数大于500，执行时间呈指数级增长，当用户数、对象数均达到1000时，时间约为1100s。这是因为随用户数、对象数的增长，访问日志矩阵规模变得也越来越大。根据策略挖掘的聚类结果，划分子矩阵数会增大，因此，规则提取及优化阶段的执行时间随问题规模的增大而急剧增长。

本发明方法根据顶层使用自然语言描述的策略文档，结合底层给定的访问日志(或访问授权列表)，能够提取出更高质量的ABAC策略。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合自顶向下与自底向上的ABAC策略工程方法，其特征在于：包括以下步骤：

S1：自顶向下ABAC策略工程元素提取

S2：自底向上ABAC策略的挖掘

S3：ABAC规则的进一步提取

S4：ABAC策略的优化

2.根据权利要求1所述的一种融合自顶向下与自底向上的ABAC策略工程方法，其特征在于，S1自顶向下ABAC策略元素提取具体包括以下步骤：

使用SENNA方法作为语义角色标注器。

3.根据权利要求1所述的一种融合自顶向下与自底向上的ABAC策略工程方法，其特征在于：S2自底向上ABAC策略挖掘的具体步骤如下：

S23：聚类中心点表示聚类中属性值最频繁出现的那部分，然而，聚类中心点的属性并非都是有效的，结合S1中提取的原始策略元素，定义有效属性；c_i表示聚类i的中心点，S_ci＝{(a，v)}是c_i中所有主体包含的属性-属性值对的集合，其中v∈Val_Att(c_i,a_j)，对于任意(a_j,v_j)∈S_ci及给定阈值Γ，如果属性值v_j分别出现在底层聚类与顶层策略元素频率的差值高于Γ，则称a_j对于聚类规则ρi是有效属性，并将属性条件(a_j,v_j)添加到规则ρi中。

4.根据权利要求1所述的一种融合自顶向下与自底向上的ABAC策略工程方法，其特征在于：S3ABAC规则的进一步提取具体步骤如下：