CN117436063B

CN117436063B - 基于层次聚类和关系提取的abac策略生成方法及***

Info

Publication number: CN117436063B
Application number: CN202311233165.9A
Authority: CN
Inventors: 刘敖迪; 杜学绘; 尚思远; 王娜; 单棣斌; 王文娟; 曹利峰; 任志宇; 吴翔宇
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-05-31
Anticipated expiration: 2043-09-22
Also published as: CN117436063A

Abstract

本发明涉及访问控制技术领域，特别涉及一种基于层次聚类和关系提取的ABAC策略生成方法及***，结合实体属性生成ABAC日志并基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集；基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化并确认输出最终的ABAC策略集合。本发明将访问控制日志与属性数据结合，利用聚类算法从相似的数据内容中提取安全意图，构建ABAC策略集，有助于访问控制***的构建与迁移，能够解决现有异构策略迁移的问题，并通过策略优化提升策略集的可用性与安全性，便于实际访问控制场景中的应用部署。

Description

基于层次聚类和关系提取的ABAC策略生成方法及***

技术领域

本发明涉及访问控制技术领域，特别涉及一种基于层次聚类和关系提取的ABAC策略生成方法及***。

背景技术

访问控制模型定义了如何控制用户对***资源的访问，能够保护***资源免受未经授权的访问。在分布式的大数据应用场景中，如何管理不同计算环境下应用程序、业务***中的大量用户访问权限成为一项挑战。传统的访问控制模型如DAC(Discretionaryaccess control)、MAC(Mandatory access control)、RBAC(Role-Based access control)已经不能满足新兴应用的细粒度、富有表现力的安全需求。基于属性的访问控制(Attribute-Based Access Control，ABAC)模型将主体和客体的属性作为访问控制的决策要素，根据ABAC策略安全意图，结合实体所具有的属性集合判决是否赋予其相应的访问权限，具有高度的灵活性。如今，越来越多的企业和组织选择使用ABAC作为主导机制来保护其关键信息资产。

访问控制策略是访问控制模型安全意图与使用意图的直接体现，也是访问控制实施的重要前提，对于信息***中的数据安全至关重要。大型企业需要为分布在各种计算环境和应用程序中的用户提供访问权限，尽管采用ABAC模型进行访问控制具有许多优势，但不同应用程序可能具有不同的访问控制模型。如何将非ABAC模型迁移至ABAC模型，依据原有访问控制策略的安全意图构建ABAC策略集，实现异构策略迁移，向可能分布在不同异构计算环境中的用户群体授权，已经成为ABAC模型推广与应用的一大难题。

现有针对异构策略迁移问题，大多数是结合用户资源权限关系与属性数据来进行ABAC策略挖掘。通常，不同访问控制模型下的异构策略迁移，如DAC、MAC或RBAC迁移至ABAC，多是提取两种用户资源权限关系作为策略挖掘的起始输入，一种是从原有访问控制策略的安全意图，包括用户权限元组、ACL等；另一种是访问控制日志，即***对于访问控制行为的记录。但其在策略挖掘过程中难以避免遍历过程，导致在规模较小的策略挖掘情况下性能较好，但随着策略挖掘规模增大，性能大幅下降。尽管部分方法尝试采用优化算法提高策略挖掘效率，但性能提升有限。另外，大部分方法专注于策略挖掘过程，缺乏对策略挖掘结果的安全性分析，难以保证挖掘后策略集的安全性。

发明内容

为此，本发明提供一种基于层次聚类和关系提取的ABAC策略生成方法及***，解决现有挖掘ABAC策略集安全性难以保证等问题，且能够适用于属性数量较大情况下的ABAC策略挖掘。

按照本发明所提供的设计方案，一方面，提供一种基于层次聚类和关系提取的ABAC策略生成方法，包含：

获取异构访问控制***的访问控制日志，结合实体属性生成ABAC日志，其中，ABAC日志包含实体属性关系集和操作属性关系集；

基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，并根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集；

基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化并确认输出最终的ABAC策略集合。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，获取异构访问控制***的访问控制日志，包括：

首先，利用异构访问控制***中各实体属性关系及操作属性关系生成各访问控制请求授权元组，所述授权元组包括对访问控制请求的访问控制策略；

然后，基于各访问控制请求授权元组组成访问控制日志集合。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，结合实体属性生成ABAC日志，还包含：

对ABAC日志进行数据处理，将实体属性缺失的属性值填充为预设标识；并通过字符串拼接的方式将每条ABAC日志处理为预设长度字符串。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，包含：

首先，将ABAC日志字符串分段为多子字符串，并以字符串向量形式表示；

接着，利用余弦距离计算不同字符串向量表示之间的相似度，基于相似度生成对应的距离矩阵；

然后，基于距离矩阵并利用层次聚类算法对ABAC日志进行层次聚类。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，将ABAC日志字符串分段为多子字符串，并以字符串向量形式表示，包含：

首先，基于ABAC日志字符串生成输入矩阵输入矩阵/>中的第i个字符串表示为/>其中，N为ABAC日志数量，K为ABAC日志中日志长度最大值，/>为第i个字符串的第K-1个字符；

接着，依据预设参数分段长度对输入矩阵中每个字符串进行分段，以利用分段后的多个子字符串来生成输入矩阵扩展表示；

然后，基于随机森林将输入矩阵扩展表示中的每个子字符串以不同决策树的叶子节点表示，并基于各叶子节点生成对应二进制输出，以将输入矩阵扩展表示转化为字符串向量表示。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，基于距离矩阵并利用层次聚类算法对ABAC日志进行层次聚类，包含：

使用误差平方和增量的层次聚类方法对所有字符串向量表示中最为相似的两个字符串向量表示进行组合，以通过反复迭代方法来将全部数据划分为预设聚类数量的簇。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，使用误差平方和增量的层次聚类方法对所有字符串向量表示中最为相似的两个字符串向量表示进行组合，包含：

首先，依据距离矩阵中各元素值计算每个簇的误差平方和增量及总的误差平方和增量；

然后，枚举所有可能进行合并的两个簇，通过遍历来计算合并后总的误差平方和增量，并选择总的误差平方和增量值最小的两个簇进行合并，直至簇的数量减少到1。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，根据属性出现频率从簇中提取对应的属性关系，包含：

针对每个聚类簇，基于用户和资源两个实体中的属性并依据预设频率阈值提取每个簇中的实体属性关系，基于属性间各属性值关系并依据预设频率阈值提取每个簇中的属性间关系，基于用户属性与资源属性间的关系并依据预设频率阈值提取每个簇中操作属性关系。

作为本发明基于层次聚类和关系提取的ABAC策略生成方法，进一步地，基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化，包含：

基于ABAC策略集、预先收集的针对同一控制访问请求的错误决策记录以及预设安全原则约束集，利用similarity函数计算ABAC策略集中策略间相似度，并通过将预设安全原则约束集中元素转化为SMT编码，利用预设检验函数检测ABAC策略集是否违背预设安全原则约束集中的安全原则约束。

进一步地，本发明还提供一种基于层次聚类和关系提取的ABAC策略生成***，包含：处理模块、生成模块和优化模块，其中，

处理模块，用于获取异构访问控制***的访问控制日志，结合实体属性生成ABAC日志，其中，ABAC日志包含实体属性关系集和操作属性关系集；

生成模块，用于基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，并根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集；

优化模块，用于基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化并确认输出最终的ABAC策略集合。

本发明的有益效果：

本发明将访问控制日志与属性数据结合，利用聚类算法从相似的数据内容中提取安全意图，构建ABAC策略集，有助于访问控制***的构建与迁移，能够解决现有异构策略迁移的问题，并通过策略优化提升策略集的可用性与安全性，便于实际访问控制场景中的应用部署。并进一步通过实验结果表明，与现有对照方法相比，本案方案中的F-score平均提升5.7％，WSC值降低41.4％；对于稀疏日志与噪声日志数据集上的ABAC策略挖掘，F-score平均提升12.5％，WSC平均下降29.4％，本案方案性能明显优于现有方法。

附图说明

图1为实施例中基于层次聚类和关系提取的ABAC策略生成流程示意；

图2为实施例中异构策略迁移原理示意；

图3为实施例中策略挖掘流程示意；

图4为实施例中nTreeClus表示示意；

图5为实施例中层次聚类示意；

图6为实施例中策略优化示意；

图7为实施例中使用SMT解决访问控制策略安全性分析示意；

图8为实施例中不同c值下F-score变化示意；

图9为实施例中不同m值下F-score变化示意；

图10为实施例中不同m值下运行时间示意；

图11为实施例中不同k值下F-score变化示意；

图12为实施例中不同阈值下策略质量变化示意；

图13为实施例中不同阈值下F-score变化

图14为实施例中Recall对比示意；

图15为实施例中Precision对比示意；

图16为实施例中ACC对比示意；

图17为实施例中F-score对比示意；

图18为实施例中WSC对比示意；

图19为实施例中M_π对比示意；

图20为实施例中稀疏日志与噪声日志上Recall对比示意；

图21为实施例中稀疏日志与噪声日志上Precision对比示意；

图22为实施例中稀疏日志与噪声日志上ACC对比示意；

图23为实施例中稀疏日志与噪声日志上F-score对比示意；

图24为实施例中稀疏日志与噪声日志上WSC对比示意；

图25为实施例中稀疏日志与噪声日志上M_π对比示意。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

ABAC模型提供一种更灵活的方法来解决复杂动态***的授权需求，而不同业务***都可能存在特定访问控制模型，如DAC、MAC、RBAC。在将旧有访问控制***迁移至ABAC访问控制***的过程中，需要重新构建ABAC策略集，即实现异构策略迁移。为整个组织手动开发单个策略框架是繁琐、昂贵且易出错的，为保留原有***的安全意图，需要使用策略挖掘方法，从原有***的访问控制策略中挖掘ABAC策略。

对于ABAC模型与ABAC策略语言的形式化表示具有较强的表达力且易于理解，ABAC模型可被简化表示为实体集在属性集与策略集的限定下进行访问控制决策。ABAC策略主要描述实体具有哪些属性关系，包括实体属性关系、操作属性关系及属性间关系。

使用E＝U∪R分别表示实体集，U,R分别对应用户集与资源集。使用A＝A_U∪A_R表示属性集，A_U,A_R分别对应用户属性集、资源属性集。为了便于算法使用，可只考虑单值属性的情况。对于多值属性，可以进行数据预处理，转变为单值属性，并在算法执行后恢复为多值属性。

用实体属性关系表示用户与资源实体和具体属性间的关系，即具有哪些属性与属性值，其包括用户属性关系与资源属性关系。对于集合A中的属性a，S_a表示其属性有效值集合。可设置F＝{(a,s|！s)|a∈A∧s∈S_a}为实体属性关系集，F_U为用户属性关系集，F_R为资源属性关系集。某一实体属性关系f＝(a,s)表示属性a具有属性值s，f＝(a,！s)与之相反。

例1：(subject,！math)表示属性subject不具有属性值math。

利用操作属性关系表示用户属性与资源属性间的关系，即具有何种属性的用户能够对具有何种属性的资源执行何种操作。对于操作属性关系集O，o对应具体操作属性关系。

利用属性间关系表示两属性间属性值具有何种关系。对于集合A中的属性a和属性b，s_a和s_b分别表示其属性值，V＝{(a,b|！b)|a,b∈A∧a≠b}是对不同属性间关系的描述，可称为属性间关系集。某一属性间关系v＝(a,b)表示两个不同属性具有相同的属性值，即s_a＝s_b，v＝(a,！b)与之相反。

例2：(classtaken,class)表示属性classtaken与属性class具有相同的属性值。

利用q＝＜u,r,o＞表示用户u∈U在对r∈R的资源在操作属性关系o∈O下的请求。

利用t＝＜q,d＞作为授权元组，表示对某访问控制请求q的决策d，决策d分为允许与拒绝两种，即d＝permit或d＝deny。授权元组的集合L称为访问控制日志，L⁺和L^-分别代表决策允许与决策拒绝的访问控制日志集合，即

L⁺＝{＜q,d＞|＜q,d＞∈L∧d＝permit}

L^-＝{＜q,d＞|＜q,d＞∈L∧d＝deny}

ABAC日志表示为L_ABAC＝＜F_U,F_R,O＞，需要将访问控制日志L结合实体属性关系与操作属性关系，即将L预处理为L_ABAC作为初始输入。

p＝＜F_U,F_R,V,o＞为一条ABAC策略，π＝＜F_U,F_R,V,O＞为所有ABAC策略p的集合，称为ABAC策略集。ABAC策略由实体属性关系、操作属性关系与属性间关系组成。另外，可使用d_π(q)表示ABAC策略π对某一请求q的决策。

基于上述的理论，本发明实施例，提供一种基于层次聚类和关系提取的ABAC策略生成方法，参见图1所示，包含如下内容：

S101、获取异构访问控制***的访问控制日志，结合实体属性生成ABAC日志，其中，ABAC日志包含实体属性关系集和操作属性关系集。

参见图2所示的异构策略迁移示意，在将旧有访问控制***迁移至ABAC访问控制***的过程中，需要重新构建ABAC策略集，即实现异构策略迁移。本案实施例中，参见图3所示，从异构访问控制***中获取访问控制日志，以访问控制日志L为初始输入，将其预处理为L_ABAC，从中提取实体属性关系、操作属性关系与属性间关系，构建ABAC策略集π，使其与L具有一致的安全意图，通过策略优化过程提升策略集质量并进行安全性分析，获得挖掘结果，实现异构策略迁移。

其中，获取异构访问控制***的访问控制日志，可设置为包括如下内容：

对缺失的属性值进行处理，可使用na来表示该属性值缺失，以确保该缺失值不会对后续的聚类处理产生影响。使用字符串拼接的方式将每条L_ABAC处理为一个长字符串，作为后续聚类算法的输入，字符串拼接示例如下：

S102、基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，并根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集。

具体的，基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，可设计为包含如下内容：

其中，将ABAC日志字符串分段为多子字符串，并以字符串向量形式表示，可包含：

nTreeClus(a Tree-based Sequence Encoder for Clustering CategoricalSeries)算法是一种以层次聚类算法为基础的聚类算法，算法以字符串为输入，首先分段形成多种子字符串，并以向量的形式进行表示；随后利用余弦距离来计算不同字符串向量表示间的相似度，生成距离矩阵；最后以此距离矩阵作为层次聚类算法的输入，得到聚类结果。本案实施例中，可使用nTreeClus算法进行聚类。

nTreeClus算法以预处理后的L_ABAC字符串为输入，并生成输入矩阵其中，N为L_ABAC的数量，K为其字符串长度。在实际情况中，不同字符串长度可能不同，算法取K＝max{L₁,L₂,...,L_N}作为该值的输入，长度不足K的字符部分保持空值。可使用/>表示第a个字符串的第b个字符，对应矩阵/>第a行第b列的字符。因此，/>矩阵中的第i个字符串可以表示为：

矩阵的总体表示如下：

输入矩阵生成后，算法对每个字符串进行处理，生成新的矩阵表示。以某一简单字符串为例来展示算法的处理过程。假设字符串为(userreadbook)，将算法的预设参数分段长度c设置为5，则字符串被从头开始分为一定数量长度为c+1的子串，最后一列用来表示前c个字符对于之后字符的预测。例如，(userr)的下一个字符是e，则第一个字串为userr|e，依此类推。字符串被表示如下所示。

对于矩阵当c＝5时，矩阵按照上述方式被扩展为7×100行6列，即((K-c)×N)行c+1列的矩阵。

生成输入矩阵后，算法使用随机森林(Random Forset)进行进一步处理，将每个子串以不同决策树的叶子节点来表示并生成二进制输出。随机森林综合了多棵决策树，可以很好的避免单棵决策树的过拟合问题。以子串(userr)为例，若决策树数量m设置为3，且叶子节点3、6、8对应其在不同决策树下的表示，则子串(userr)处理后的输出为向量(0010010100)，处理过程如图4所示。

将输入矩阵每行进行同样处理，输入矩阵转化为如下矩阵。

随后，将每一列具有叶子节点表示的数量相加，矩阵转化为如下向量表示。

ψ_(refined)＝(3223221213)

经过上述处理，字符串(userreadbook)转化为向量(3223221213)。同样，不同字符串按照相同方式被转化为能够表达其含义的向量表示，作为后续处理的输入。

其中，基于距离矩阵并利用层次聚类算法对ABAC日志进行层次聚类，可包含：

具体可为：

nTreeClus算法使用余弦相似度作为向量间的相似度度量，对于两个n维向量与/>其余弦相似度计算公式为：

算法将不同字符串间的相似度进行度量，并计算余弦距离，生成余弦距离矩阵。两向量间余弦距离的计算公式为：

随后，算法使用ward提出的误差平方和增量法进行层次聚类，即以SSE(The sumof squares due to error)增量最小为计算方法不断实现聚类，SSE的具体计算公式如下：

其中，y_i(i＝1,2,...,n)代表余弦距离矩阵内不同值。

层次聚类过程对所有字符串向量中最为相似的两个数据进行组合，并反复迭代这一过程，生成聚类树，具体步骤如下：

(1)计算每个簇的SSE值。

(2)计算总SSE值。

(3)枚举所有可能进行合并的两个簇，遍历计算合并这两个簇后的总SSE值。

(4)选择总SSE值增长最小的那两个簇进行合并。

(5)重复以上过程直到簇的数量减少到1。

按照输入的聚类数量，算法将全部数据分为k个簇，完成聚类。以字符串X₁,X₂,..X₈为例，若聚类数量k＝2，所有字符串被分为两簇，示意如图5所示。

其中，根据属性出现频率从簇中提取对应的属性关系，可设计为包含如下内容：

策略提取部分是整个方案的核心。可通过nTreeClus算法对所有ABAC日志进行聚类后，在每个簇中提取属性关系。可首先对实体属性关系与属性间关系进行提取，随后单独设置阈值，对操作属性关系进行提取，防止出现因阈值设定不当导致操作属性关系被淹没的情况。

设C_i为某一聚类簇，为该簇内的属性关系集。对于/>中的实体属性关系(a,s)与(a,！s)，当v_i出现的频率显著高于或低于其在ABAC日志中的频率时，该实体属性关系被提取。对于/>中的属性间关系(a,b)与(a,！b)，当a和b属性值相等的频率显著高于或低于其在ABAC日志中的频率时，该属性间关系被提取。具体的频率差值取决于阈值η_P(η_N)。对于/>中的操作属性关系o，当其出现的频率显著高于其在ABAC日志中的频率时，该操作属性关系被提取。具体的频率差值取决于阈值η_O。具体操作的伪代码如算法1所示。

将C_i中提取出的属性关系组合并生成一条ABAC策略。对于每个聚类簇，可采取相同的提取方法，以此构建ABAC策略集，实现策略提取。

S103、基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化并确认输出最终的ABAC策略集合。

具体地，基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化，可设计为包含如下内容：

策略挖掘方法的效果如何，需要一个量化的指标进行度量，其中一个有效的度量方法就是评估挖掘出的策略与原有访问控制策略安全意图的一致性。例如，对于同一访问控制请求q，若原有访问控制策略给出允许决策，则挖掘出的ABAC策略应该具有同样的允许决策。可利用TP,FP,TN,FN分别表示相对真阳性率、相对假阳性率、相对真阴性率与相对假阴性率，具体定义如下。

相对真阳性率：对于访问控制请求q，原有访问控制策略给出允许决策，挖掘结果中的ABAC策略π同样给出允许决策。

相对假阳性率：对于访问控制请求q，原有访问控制策略给出拒绝决策，挖掘结果中的ABAC策略π错误给出允许决策。

相对真阴性率：对于访问控制请求q，原有访问控制策略给出拒绝决策，挖掘结果中的ABAC策略π同样给出拒绝决策。

相对假阴性率：对于访问控制请求q，原有访问控制策略给出允许决策，挖掘结果中的ABAC策略π错误给出拒绝决策。

相对精确率、相对召回率、相对准确率的计算方式可分别如下：

通常来说，可以使用相对准确率表示计算正确决策的比例，对策略挖掘效果进行度量。然而，在实际应用中，可能存在平衡性较差的数据集，使用相对准确率度量可能存在误导。因此，可使用一种更加全面的评价指标F-score，其计算方法如下：

F-score值越高，表明挖掘后策略与原有访问控制策略安全意图的一致性越好，策略挖掘算法的效果越好。

相比于F-score在安全意图一致性上对挖掘后策略的度量，加权结构复杂性(WSC)对挖掘后策略的简洁性进行度量，也是一种有效的度量标准，其计算方法为：

其中，|z|是一条ABAC策略中属性关系的数量，w_i为针对不同情况自行定义的权重，。通常情况下，WSC值越低，挖掘出的ABAC策略越简洁，策略挖掘效果越好。

将数据集划分为一定数量的簇，每个簇由不同数量的ABAC日志组成。若某一属性关系在簇内ABAC日志出现的频率显著高于其在全部ABAC日志出现的频率时，该属性关系即被提取。将该频率差值设置为阈值η。可利用WSC_max作为阈值取0值时提取策略的WSC值，即简单地将ABAC日志划分为一定数量的簇后构建成的策略集，定义WSC_π为不同阈值下构建策略集的WSC值。ΔWSC_π如下：

通过实验可发现，阈值高时，属性关系提取的要求较高，提取出的属性关系数量变少，构建的ABAC策略集WSC较小，ΔWSC_π值高；阈值低时，属性关系提取的要求较低，提取出的属性关系数量变多，构建的ABAC策略集WSC较大，ΔWSC_π值低。可认为，ΔWSC_π值高时，严格的属性关系提取要求更能体现蕴含在ABAC日志中的安全意图，减少不必要或错误的提取结果。

然而，ΔWSC_π值的高低对策略挖掘效果的评价过于片面，F-score直接度量策略挖掘前后安全意图的一致性，在策略评价过程中权重更大。利用该指标来综合衡量阈值变化对策略挖掘的影响。在本案实施例中，可将两种评价指标结合，定义策略质量指标M_π来实现对最佳阈值的选择，其计算方法如下：

其中，α,β分别表示参数F-score与ΔWSC_π的重要程度且α+β＝1。M_π值越大，策略挖掘效果越好。

在策略提取步骤后，初步获得了ABAC策略集，但这些策略可能存在复杂度较高、错误决策过多以及安全性不足等问题。因此，在策略优化环节，可引入策略修剪与策略细化两个步骤进行策略复杂度的降低以及错误决策的修正，引入安全性分析步骤检验挖掘后策略是否存在安全隐患，并能够根据需要判断是否满足指定安全需求。策略优化步骤具体流程如图6所示。

当聚类过程中两个聚类簇提取出属性关系的相似度较高，生成两条相似ABAC策略时，策略集整体质量会有所下降。策略修剪步骤主要针对这种情况进行优化。可使用Jaccard相似度来计算两个策略之间的相似度，当相似度超过0.5时，通过比较删除其中某一策略后的F-score，对策略进行重新筛选，即删除某一策略后F-score没有降低时，可将该冗余策略删除。

针对L_ABAC中错误决策的内容进行处理。以FN记录为例，当访问控制请求被错误决策拒绝时，可能是由于挖掘后的策略集中缺少某条策略或已有的策略包含的属性关系过于严格。在错误记录中重新进行策略提取，生成策略集π_FN。随后可使用Jaccard相似度挑选出与原策略集相似度高于0.5的策略，并依照上述两种可能情况进行策略细化，即加入某条策略或删除某条策略的属性关系，进行放宽处理。

确保访问控制策略配置的正确性是确保访问控制机制顺利实施的关键。对于使用策略挖掘算法生成的ABAC策略集，提供策略安全性的分析方法至关重要，其应具备从访问控制策略的安全性、一致性、可用性、完备性等方面进行综合分析的能力。可使用SMT(Satisfiability Modulo Theories,SMT)对访问控制策略语义的表达具有一定的优势，能够较好地兼顾不同场景下的数据的安全性与可用性需求。其中，使用SMT解决访问控制策略安全性分析问题的具体流程，如图7所示：

(1)输入访问控制策略集，该策略集为通过ABAC策略挖掘方法生成的ABAC策略集。

(2)将具体的ABAC策略转化为形式化的谓词逻辑表达式，即对某类主体能够对某类客体在某条件下进行的某类操作进行描述。

(3)对策略的谓词逻辑表达式进行SMT编码，将策略转化为命题表示，例如策略“学生能够阅读成绩”对应SMT编码：u＝"student"∧o＝"read"∧r＝"grades"。

(4)生成相应的策略评估约束，即通过使用SMT编码表达策略需满足的安全原则约束，用于后续检测。

(5)通过以上步骤，策略的安全性分析问题被转化为安全原则的可满足性理论问题，编程实现SMT求解器，对访问控制策略是否满足相应的安全原则约束进行检测，输出检测结果并判断。

使用SMT解决访问控制策略的安全性分析问题，其以安全原则约束集M作为策略优化算法的输入，包括安全性约束、职责分离约束、一致性约束等，以实现其对ABAC策略安全性、职责分离、一致性等方面的衡量。算法将安全原则约束转化为相应SMT编码以实现对策略集的安全性分析。当时，不使用任何安全原则约束对策略集安全性进行检测。常见的安全原则约束与对应的SMT编码如下：

表1安全原则约束示例

策略优化步骤中，以挖掘后策略集π，错误记录中提取的策略集π_FN,π_FP以及安全原则约束集M为输入，通过Similarity函数计算策略间相似度以展开策略修剪与策略细化操作。随后定义isSafe变量，使用SMTcoder函数将M转化为SMT编码并输入到check函数进行检验，通过isSafe变量展示策略集π是否违背某一安全原则约束，并且能够发现产生冲突的具体策略。

具体操作的伪代码可如算法2所示。

/>

进一步地，基于上述的方法，本发明实施例还提供一种基于层次聚类和关系提取的ABAC策略生成***，包含：处理模块、生成模块和优化模块，其中，

为验证本案方案有效性，下面结合实验数据做进一步解释说明：

使用多个数据集验证性能。使用策略集生成访问控制日志，并将其处理为ABAC日志作为数据集，以决策结果为允许的部分作为输入。另外，将数据集中部分决策结果为拒绝的数据改写为决策允许，构成噪声日志(部分决策结果错误)；从数据集中随机选取部分数据构成稀疏日志(仅为部分数据)。各数据集具体参数与名称如下。

表2数据集参数

使用python进行编程，在一台CPU为AMD Ryzen 5 4500U with Radeon Graphics2.38GHz，内存大小为16GB的笔记本电脑上进行实验，Python版本为3.9.13。在各实验中，WSC参数均取w_i＝1。

在前四个数据集上进行参数实验，在一定范围内改变各参数值来选取最优值，并观察各参数对性能的影响。当对任一参数进行实验时，其余参数设置均为固定合理值。

根据ntreeClus算法，在(5,15)区间内改变c值，并选取达到最高F-score的取值来作为后续参数实验的参数设置。不同数据集的c值实验如图8所示。同理，在(5,15)区间内改变m值，并选取达到最高F-score的取值来作为后续参数实验的参数设置；随着m值的增大，运行时间增长；因此，在同样F-score下，可选取较小的m值；不同数据集的m值实验与运行时间如下图9和10所示。一般情况下，随着k值的增大，聚类簇数量增多，策略的WSC增大；因此，在同样F-score下，选取较小的k值；在(5,15)区间内改变k值，并选取达到最高F-score的取值来作为后续参数实验的参数设置，不同数据集的k值实验如图11所示。在(0.3,0.9)区间内改变阈值，使用策略质量指标M_π来确定最佳阈值。在M_π公式中，取α＝0.7，β＝0.3，不同阈值选择下M_π与变化F-score如图12和13所示。

通过以上参数实验，能够确定最优参数值。对于参数c、m、k的选择，选择使F-score达到最高的对应值。对于阈值η的选择，在实际应用中，可使用M_π进行衡量，该指标综合考虑了F-score与WSC，能够使算法表现出更理想的效果；在后续对比环节，可仍选择具有最佳F-score的阈值进行实验。不同数据集下最优参数选择如下表所示。

表3不同数据集最优参数选择

在数据集π₁上进行策略挖掘，该数据集由Xu and Stoller手动编写的大学策略生成，用户属性包括position,isChair,udepartment,crs,crstaught,crstaken等，资源属性包括type,crs，等操作属性包括read,addscore,checkstatus,readmyscore等。按照之前选择的最优参数进行实验，重复策略修剪与策略细化，找到最优结果后以为安全约束集输入进行策略挖掘，生成ABAC策略集如下：

表4安全约束集为时的实验结果

将安全输入集由更换为M₁重新进行实验，安全输入集M₁包括一个职责分离约束，安全需求如下：

A faculty cannot read roster and gradebook at the same time

对应SMT编码：

生成ABAC策略集如下：

表5安全约束集包含职责分离约束时的实验结果

实验结果表明，策略1与策略7不满足职责分离约束性，需要进行调整。同样，根据安全需求构建任意安全原则约束集，对生成的策略集进行安全性分析。

以Xu和Stoller与Karimi等人提出的策略挖掘方法作为对照，以验证本案方案中策略挖掘方法的性能。在实验准备上，继续采用之前确定的最佳参数；对于Xu和Stoller提出的策略挖掘方法，将数据集转化成用户权限元组，作为算法的输入；对于Karimi等人提出的策略挖掘方法，使用上述参数选择，确保其具有最佳性能。记录不同策略挖掘方法在不同数据集上Recall、Precision、ACC、F-score、WSC与M_π的变化并使用图像直观展示对比结果。对于参数M_π，由于并不适用于衡量Xu和Stoller提出的策略挖掘方法的性能，将其与Karimi等人提出的策略挖掘方法进行比较。数据记录表如下所示，性能对比图如图14～19所示。

表6运行结果

将本案方案在稀疏日志与噪声日志上的性能与Karimi等人提出的策略挖掘方法比较，衡量其在处理特殊情况下策略挖掘的性能。数据记录表如下表所示，性能对比图如图20～25所示。

表7稀疏日志与噪声日志数据集上运行结果

通过以上实验数据能够表明，对于不同数据集上的ABAC策略挖掘，与Karimi等人提出的策略挖掘方法相比，本案方案算法在总体上性能更好，在前三个数据集上F-score平均提升5.7％。虽然在数据集π₄上表现略差，但仍在可接受范围内。另外，本案方案算法策略挖掘结果WSC平均下降41.4％，具有显著降低。对于稀疏日志与噪声日志数据集上的ABAC策略挖掘，本案方案算法的F-score平均提升12.5％，WSC平均下降29.4％，证明其能够有效处理这两种情况下的策略挖掘。

分析可知，本案方案算法中采用ntreeClus算法，该算法采用层次聚类的方式，并通过树结构来组织数据，可以有效地处理大规模与高维度数据集，更适用于策略挖掘。层次聚类采用自底向上的聚类策略，从单个样本开始，逐步合并成越来越大的聚类。在这个过程中，每个样本都可以被分配到一个聚类中，而不需要考虑聚类的形状。因此，对于噪声点较多导致的非凸形状复杂聚类，层次聚类能够更好地进行处理，有效解决噪声数据集上的策略挖掘。另外，层次聚类一次性获得聚类树，根据实际情况调整聚类数量获得结果，可以有效解决其他聚类算法根据不同聚类数量重复聚类过程的弊端，便于不同计算环境下应用程序、业务***中访问控制应用。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

Claims

1.一种基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，包含：

基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，并根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集；其中，根据属性出现频率从簇中提取对应的属性关系，包含：针对每个聚类簇，基于用户和资源两个实体中的属性并依据预设频率阈值提取每个簇中的实体属性关系，基于属性间各属性值关系并依据预设频率阈值提取每个簇中的属性间关系，基于用户属性与资源属性间的关系并依据预设频率阈值提取每个簇中操作属性关系；

2.根据权利要求1所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，获取异构访问控制***的访问控制日志，包括：

3.根据权利要求1所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，结合实体属性生成ABAC日志，还包含：

4.根据权利要求1或3所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，包含：

5.根据权利要求4所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，将ABAC日志字符串分段为多子字符串，并以字符串向量形式表示，包含：

首先，基于ABAC日志字符串生成输入矩阵X_N ^K，输入矩阵X_N ^K中的第i个字符串表示为X_i＝x_i ¹x_i ²...x_i ^K-1x_i ^K，其中，N为ABAC日志数量，K为ABAC日志中日志长度最大值，x_i ^K-1为第i个字符串的第K-1个字符；

6.根据权利要求4所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，基于距离矩阵并利用层次聚类算法对ABAC日志进行层次聚类，包含：

7.根据权利要求6所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，使用误差平方和增量的层次聚类方法对所有字符串向量表示中最为相似的两个字符串向量表示进行组合，包含：

8.根据权利要求1所述的基于层次聚类和关系提取的ABAC策略生成方法，其特征在于，基于修正错误决策和降低策略复杂度的安全意图优化准则对ABAC策略集进行优化，包含：

9.一种基于层次聚类和关系提取的ABAC策略生成***，其特征在于，包含：处理模块、生成模块和优化模块，其中，

生成模块，用于基于相似度对ABAC日志进行层次聚类，将语义相似的日志信息聚集成簇，并根据属性出现频率从簇中提取对应的属性关系，基于提取的属性关系构建ABAC策略集；其中，根据属性出现频率从簇中提取对应的属性关系，包含：针对每个聚类簇，基于用户和资源两个实体中的属性并依据预设频率阈值提取每个簇中的实体属性关系，基于属性间各属性值关系并依据预设频率阈值提取每个簇中的属性间关系，基于用户属性与资源属性间的关系并依据预设频率阈值提取每个簇中操作属性关系；