CN113486191B

CN113486191B - 一种涉密电子文件定解密方法

Info

Publication number: CN113486191B
Application number: CN202110709394.8A
Authority: CN
Inventors: 王坤龙; 田宗凯; 宋颖毅; 杨雨婷; 韩富英
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2024-04-05
Anticipated expiration: 2041-06-25
Also published as: CN113486191A

Abstract

本发明涉及一种涉密电子文件定解密方法，属于文件定解密领域。本发明包括如下步骤：S1、涉密电子文件密点分析与样本收集；S2、基于信息增益的密点关键词挖掘；S3、基于知识图谱的密点关联规则库构建；S4融合军工密点规则集的知识图谱构建；S5、智能匹配对比与快速定解密。本发明通过智能化分析技术，加强涉密电子文件定解密工作的准确化、规范化；利用电子文件密点动态追踪手段，提升电子文件密级解除工作的及时性、准确性和智能性；通过密点比对和基于语义分析的智能匹配技术，实现涉密电子文件密级的实时确定、智能化变更和及时解密。

Description

一种涉密电子文件定解密方法

技术领域

本发明属于文件定解密领域，具体涉及一种涉密电子文件定解密方法。

背景技术

军工涉密网目前在国家的涉密单位中有大范围的使用，虽然大多数与广域网之间进行了物理隔绝，但仍存在有高密低传，或者高密底存等现象。目前，存在一些可在某些军工涉密网中应用的监控方法，北交大也有学者做相关工作，航天四院也有基于关键词的密点挖掘工具，能够基于关键词匹配的方式进行密点挖掘，为涉密电子文件定解密提供支撑。

现有的密点监控技术大部分都基于关键词匹配进行密点挖掘，多只针对单个密点，未考虑密点之间的关联性。目前，存在的一些可基于关键词的密点挖掘工具，但无法做关联挖掘。此外，密点广泛存在与新闻宣传稿件中，使用单个关键词匹配存在密点泛化的问题，且误报率较高，人工确认工作量大。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种涉密电子文件定解密方法，以解决现有技术中存在的涉密信息定密不准、密点泛化、解密不规范问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种涉密电子文件定解密方法，该方法包括如下步骤：

S1、涉密电子文件密点分析与样本收集；

开展涉密电子文件密点分析与样本收集，形成多源涉密电子文件样本库；

S2、基于信息增益的密点关键词挖掘；

以多源涉密电子文件样本库作为数据集输入，引入信息增益技术对密点关键词进行挖掘分析，获得不同关键词的信息增益，根据信息增益阈值实现无效或低效密点关键词的过滤；

S3、基于知识图谱的密点关联规则库构建；

以步骤S2获得的密点关键词为基础，利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系，记为密点关联规则；

S4融合军工密点规则集的知识图谱构建；

借助知识图谱RDF存储方法，将密点关联规则集合统一存储于知识图谱；

S5、智能匹配对比与快速定解密；

将包含候选密点的短文本电子文件转换为RDF数据模型，进而与密点规则知识图谱开展匹配对比，确定电子文件的密级。

进一步地，所述步骤S1具体包括如下步骤：

S11、进行涉密电子文件的特点分析，确定定解密流程，根据定密原则和解密原则分析涉密电子文件的特征，形成一套定解密的指导原则；

S12、使用定解密的指导原则指导多源涉密知识数据的加工与整合，对涉密电子文件进行属性分析，对密级属性进行划分，以此作为研究基础和依据，开展电子文件的整合，分别对项目类文件和综合管理类文件进行收集与分类；

S13、针对整合后的电子文件，开展涉密信息的提取，最终形成多源涉密电子文件样本库。

进一步地，所述步骤S2具体包括：

使用从涉密文档中抽取的所有关键词作为待挖掘关键词库，将涉密文档与普通文档作为两种文本类别；对涉密文档和普通文档进行分类的过程中，关键词t对文本分类过程贡献的信息熵，也称为信息增益；

在基于信息增益的密点关键词挖掘技术中，关键词即为特征，文档包含或者不含该关键词，该关键词取值为“1”或“0”，使用关键词t进行信息熵的计算公式如下：

H(C|t)＝P(t＝1)H(C|t＝1)+P(t＝0)H(C|t＝0) (3)

上式中，P(t＝1)表示关键词t出现的概率，P(t＝0)表示关键词t不出现的概率；H(C|t＝1)为条件为t＝1时的熵，H(C|t＝0)为条件为t＝0时的熵；

熵可以表示为：

其中，类别变量C的可能取值是C₁，C₂，...，C_n，每一个类别出现的概率为 P(C₁)，P(C₂)，...，P(C_n)，n为类别总数；

将公式(1)代入式(3)，则式(3)展开为如下公式：

关键词t给文本分类带来的信息增益表示为原信息熵与固定关键词t之后的条件熵的差值，计算公式如下：

IG(T)＝H(C)-H(C|T) (5)

展开为下式：

上式中，P(C_i)表示类别C_i出现的概率。

进一步地，t＝1表示关键词t出现；t＝0表示关键词t不出现。

进一步地，P(C_i)表示类别C_i出现的概率，使用极大似然估计作为它们的估计值。

进一步地，所述步骤S3具体包括如下步骤：首先收集密点组合集合与密级的数据集，记为({密点1，密点2，……，密点n}，密级)，然后利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系。

进一步地，所述利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系具体包括如下步骤：

S31、设定最小支持度s和最小置信度c；

S32、Apriori算法使用候选项集；首先产生出候选项的集合，即候选项集，若候选项集的支持度大于或等于最小支持度，则该候选项集为频繁项集；候选项集中为密点关键词；

S33、在Apriori算法的过程中，首先从数据集读入所有的数据，每个数据都被看作候选1-项集，得出各项的支持度，再使用频繁1-项集集合来产生候选 2-项集集合，因为先验原理保证所有非频繁的1-项集的超集都是非频繁的；

S34、再扫描数据库，得出候选2-项集集合，再找出频繁2-项集，并利用这些频繁2-项集集合来产生候选3-项集；

S35、重复扫描数据库，与最小支持度比较，产生更高层次的频繁项集，再从该集合里产生下一级候选项集，直到不再产生新的候选项集为止；

S36、获得密点频繁项集后，针对每个密点频繁项集，产生密点关联规则，然后与最小置信度c进行比较，从而筛选出强密点关联规则。

进一步地，所述步骤S4具体包括：首先引入KGB密点规则，将挖掘到的相似密点短文本融合为统一的密点规则；然后，结合挖掘到的不同涉密文件的主题类型和主题关键词信息，进一步获取主题与密点规则之间的关联关系，构建军工密点规则知识图谱；通过规则抽取出内容加上相应的参数构成知识图谱的三元组，实现知识图谱构建。

进一步地，所述步骤S5具体包括：首先基于密点关键词对待定密文件进行解析与扫描，形成密点短文本，然后基于各种表示方法对密点短文本进行表示；进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图，通过对语义图的构造来实现对密点短文本的理解；采用构造语义图的算法，将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句，基于图匹配的思想，将包含密点的各种表示转换为SPARQL查询语言，并在知识图谱中找到符合该匹配模式的所有子图，并结合待查文本中所有的密点子图的最高密级，综合确定电子文件的最高密级。

进一步地，各种表示方法包括词袋模型、句法树和依存关系树。

(三)有益效果

本发明提出一种涉密电子文件定解密方法，本专利提出一种涉密电子文件定解密方法，面对亟待解决的涉密信息定密不准、密点泛化、解密不规范的现实问题，本专利具有以下优点：

(1)通过智能化分析技术，加强涉密电子文件定解密工作的准确化、规范化。

(2)利用电子文件密点动态追踪手段，提升电子文件密级解除工作的及时性、准确性和智能性。

(3)通过密点比对和基于语义分析的智能匹配技术，实现涉密电子文件密级的实时确定、智能化变更和及时解密。

附图说明

图1为本发明涉密电子文件密点分析与样本收集框图；

图2为本发明的Apriori算法流程图；

图3为本发明的智能匹配对比与快速定解密流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明的智能匹配对比与快速定解密方案具体包括如下步骤：

步骤S1、涉密电子文件密点分析与样本收集

开展涉密电子文件密点分析与样本收集，形成多源涉密电子文件样本库。

具体包括如下步骤：

S11、进行涉密电子文件的特点分析，确定定解密流程，根据定密原则和解密原则分析涉密电子文件的特征，形成一套定解密的指导原则。

S12、使用定解密的指导原则指导多源涉密知识数据的加工与整合，对涉密电子文件进行属性分析，对密级属性进行划分，以此作为研究基础和依据，开展电子文件的整合，分别对项目类文件和综合管理类文件进行收集与分类。

步骤S2、基于信息增益的密点关键词挖掘

以步骤一的多源涉密电子文件样本库作为数据集输入，引入信息增益技术对密点关键词进行挖掘分析，获得不同关键词的信息增益，根据信息增益阈值实现无效或低效密点关键词的过滤。

信息熵(Entropy)是衡量变量混乱度的一种方法，而信息增益使用信息熵进行信息的量化。对于一个变量X，它有m个可能的取值，分别是x₁，x₂，...，x_m，取到每个值的概率分别是P₁，P₂，...，P_n，类别变量C的可能取值是C₁，C₂，...，C_n，每一个类别出现的概率为P(C₁)，P(C₂)，...，P(C_n)，n为类别总数，此时熵可以表示为：

使用从涉密文档中抽取的所有关键词作为待挖掘关键词库，将涉密文档与普通文档作为两种文本类别。对涉密文档和普通文档进行分类的过程中，关键词t对文本分类过程贡献的信息熵，也称为信息增益。

在基于信息增益的密点关键词挖掘技术中，关键词即为特征，文档包含或者不含该关键词，可形式化为该关键词取值为“1”或“0”，使用关键词t进行文本分类后的信息熵的计算，应该将该关键词取值固定为“0”和“1”各计算一次，然后根据该关键词的出现概率取加权平均值，即可得到条件熵。

通常，条件熵的计算公式如下：

H(C|X)＝P₁H(C|X＝x₁)+P₂H(C|X＝x₂)+...+P_nH(C|X＝x_n) (2)

H(C|X＝x_i)表示特征X被固定为值x_i时的条件熵，H(C|X)表示最终计算得到的特征X被固定时的条件熵。

在基于信息增益的密点关键词挖掘技术中，关键词即为特征，本专利使用 t＝1表示关键词t出现；t＝0表示关键词t不出现，则条件熵计算公式可表示为：

H(C|t)＝P(t＝1)H(C|t＝1)+P(t＝0)H(C|t＝0)

(3)

上式中，P(t＝1)表示关键词t出现的概率，P(t＝0)表示关键词t不出现的概率。H(C|t＝1)为条件为t＝1时的熵，H(C|t＝0)为条件为t＝0时的熵，可套用公式1得到。

将公式(1)代入式(3)，则式(3)展开为如下公式：

因此，关键词t给文本分类带来的信息增益可以表示为原信息熵与固定关键词t之后的条件熵的差值，计算公式如下：

IG(T)＝H(C)-H(C|T) (5)

可以展开为下式：

上式中，P(C_i)表示类别C_i出现的概率，一般使用极大似然估计作为它们的估计值。

通过设置信息增益阈值，即可实现无效或低效密点关键词的过滤。

步骤S3、基于知识图谱的密点关联规则库构建

以步骤二获得的密点关键词为基础，将密点关联词挖掘转化为密点频繁项集挖掘问题，即密点的不同组合关系对密级的影响。本专利首先收集密点组合集合与密级的数据集，记为({密点1，密点2，……，密点n}，密级)，然后利用 Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系，记为密点关联规则。

Apriori算法主要步骤分为两步，首先产生候选项集，其次是对候选项集进行剪枝产生频繁项集，由频繁1-项集L₁开始，反复迭代重复，直至找到含有最多项的频繁项集为止，Aprior算法的流程图如图2所示：

算法步骤如下：

S31、设定最小支持度s和最小置信度c。

S32、Apriori算法使用候选项集。首先产生出候选项的集合，即候选项集，若候选项集的支持度大于或等于最小支持度，则该候选项集为频繁项集。候选项集中为密点关键词。

S33、在Apriori算法的过程中，首先从数据集读入所有的数据，每个数据都被看作候选1-项集，得出各项的支持度，再使用频繁1-项集集合来产生候选 2-项集集合，因为先验原理保证所有非频繁的1-项集的超集都是非频繁的。

S34、再扫描数据库，得出候选2-项集集合，再找出频繁2-项集，并利用这些频繁2-项集集合来产生候选3-项集。

S35、重复扫描数据库，与最小支持度比较，产生更高层次的频繁项集，再从该集合里产生下一级候选项集，直到不再产生新的候选项集为止。

如秘密级密点频繁项集I＝{I1,I2,I5}，其中，I1,I2,I5分别为三个密点。密点频繁项集I＝的非空子集有{I1,I2,I5}、{I1,I2}、{I1,I5}、{I2,I5}、{I1}、 {I2}和{I5}。结果关联规则如下，每个都列出置信度。假设各规则置信度如下：

I1∩I2∩I5→秘密：63％

I1∩I2→秘密：57％

I1∩I5→秘密：100％

I2∩I5→秘密：100％

I1→秘密：33％

I2→秘密：29％

I5→秘密：100％

如果最小置信度阈值为70％，则只有I1∩I5→秘密、I2∩I5→秘密和最后一个规则可以作为密点关联规则，因为只有这些才是强规则。

步骤S4、融合军工密点规则集的知识图谱构建

为融合各涉密文档类型规则，实现密点规则实体可拓展、关系可拓展，本文借助知识图谱RDF存储方法，将密点关联规则集合统一存储于知识图谱中。首先引入KGB密点规则，将挖掘到的相似密点短文本融合为统一的密点规则；然后，结合挖掘到的不同涉密文件的主题类型和主题关键词信息，进一步获取主题与密点规则之间的关联关系，构建军工密点规则知识图谱。融合军工密点规则集的知识图谱有利于减少密点及其关系的存储规模，将相似密点采用统一的KGB规则存储，有助于知识本体的扩建，可随时进行规则的添加和维护。通过规则抽取出内容加上相应的参数(关系)构成知识图谱的三元组，实现知识图谱构建。

KGB密点规则示例：

Knowledge：{[/n]}s+N+{[/m]}s+{[km；千米；公里]}

Action:Extract

Argument:distance

表示的是：如果前面出现了名词，接着动词后边出现了数词，后面跟了km、千米、公里等任意一种，则认定为第一个选择的区和第二个选择的区是密点，对选择区执行抽取动作，并加上这个规则相应的参数存入三元组。

步骤S5、智能匹配对比与快速定解密

步骤S4中构建了融合军工密点规则的知识图谱，智能匹配对比与快速定解密需要将包含候选密点的短文本电子文件转换为RDF数据模型，进而与密点规则知识图谱开展匹配对比，确定电子文件的最高密级，技术方案如下图3所示：

首先基于密点关键词对待定密文件进行解析与扫描，形成密点短文本，然后基于词袋模型、句法树、依存关系树等表示方法对密点短文本进行表示；进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图，通过对语义图的构造来实现对密点短文本的理解。采用构造语义图的算法，可以将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句，基于图匹配的思想，将包含密点的句法树/词袋模型转换为SPARQL查询语言，并在知识图谱中找到符合该匹配模式的所有子图，并结合待查文本中所有的密点子图的最高密级，综合确定电子文件的最高密级。

本专利提出一种涉密电子文件定解密方法，面对亟待解决的涉密信息定密不准、密点泛化、解密不规范的现实问题，本专利具有以下优点：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种涉密电子文件定解密方法，其特征在于，该方法包括如下步骤：

S1、涉密电子文件密点分析与样本收集；

S2、基于信息增益的密点关键词挖掘；

S3、基于知识图谱的密点关联规则库构建；

S4融合军工密点规则集的知识图谱构建；

S5、智能匹配对比与快速定解密；

将包含候选密点的短文本电子文件转换为RDF数据模型，进而与密点规则知识图谱开展匹配对比，确定电子文件的密级；

其中，

所述步骤S2具体包括：

H(C|t)＝P(t＝1)H(C|t＝1)+P(t＝0)H(C|t＝0) (3)

熵表示为：

其中，类别变量C的可能取值是C₁,C₂,…,C_n，每一个类别出现的概率为P(C₁),P(C₂),…,P(C_n)，n为类别总数；

将公式(1)代入式(3)，则式(3)展开为如下公式：

IG(T)＝H(C)-H(C|T) (5)

展开为下式：

上式中，P(C_i)表示类别C_i出现的概率；

所述步骤S4具体包括：首先引入KGB密点规则，将挖掘到的相似密点短文本融合为统一的密点规则；然后，结合挖掘到的不同涉密文件的主题类型和主题关键词信息，进一步获取主题与密点规则之间的关联关系，构建军工密点规则知识图谱；通过规则抽取出内容加上相应的参数构成知识图谱的三元组，实现知识图谱构建；

所述步骤S5具体包括：首先基于密点关键词对待定密文件进行解析与扫描，形成密点短文本，然后基于各种表示方法对密点短文本进行表示；进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图，通过对语义图的构造来实现对密点短文本的理解；采用构造语义图的算法，将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句，基于图匹配的思想，将包含密点的各种表示转换为SPARQL查询语言，并在知识图谱中找到符合该SPARQL查询语言的所有子图，并结合待查文本中所有的密点子图的最高密级，综合确定电子文件的最高密级。

2.如权利要求1所述的涉密电子文件定解密方法，其特征在于，所述步骤S1具体包括如下步骤：

3.如权利要求1所述的涉密电子文件定解密方法，其特征在于，t＝1表示关键词t出现；t＝0表示关键词t不出现。

4.如权利要求1所述的涉密电子文件定解密方法，其特征在于，P(C_i)表示类别C_i出现的概率，使用极大似然估计作为它们的估计值。

5.如权利要求3或4所述的涉密电子文件定解密方法，其特征在于，所述步骤S3具体包括如下步骤：首先收集密点组合集合与密级的数据集，记为({密点1，密点2，…，密点n}，密级)，然后利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系。

6.如权利要求5所述的涉密电子文件定解密方法，其特征在于，所述利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系具体包括如下步骤：

S31、设定最小支持度s和最小置信度c；

S33、在Apriori算法的过程中，首先从数据集读入所有的数据，每个数据都被看作候选1-项集，得出各项的支持度，再使用频繁1-项集集合来产生候选2-项集集合，因为先验原理保证所有非频繁的1-项集的超集都是非频繁的；

7.如权利要求1所述的涉密电子文件定解密方法，其特征在于，各种表示方法包括词袋模型、句法树和依存关系树。