CN113486191B - 一种涉密电子文件定解密方法 - Google Patents
一种涉密电子文件定解密方法 Download PDFInfo
- Publication number
- CN113486191B CN113486191B CN202110709394.8A CN202110709394A CN113486191B CN 113486191 B CN113486191 B CN 113486191B CN 202110709394 A CN202110709394 A CN 202110709394A CN 113486191 B CN113486191 B CN 113486191B
- Authority
- CN
- China
- Prior art keywords
- secret
- point
- keyword
- dense
- electronic file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005065 mining Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种涉密电子文件定解密方法,属于文件定解密领域。本发明包括如下步骤:S1、涉密电子文件密点分析与样本收集;S2、基于信息增益的密点关键词挖掘;S3、基于知识图谱的密点关联规则库构建;S4融合军工密点规则集的知识图谱构建;S5、智能匹配对比与快速定解密。本发明通过智能化分析技术,加强涉密电子文件定解密工作的准确化、规范化;利用电子文件密点动态追踪手段,提升电子文件密级解除工作的及时性、准确性和智能性;通过密点比对和基于语义分析的智能匹配技术,实现涉密电子文件密级的实时确定、智能化变更和及时解密。
Description
技术领域
本发明属于文件定解密领域,具体涉及一种涉密电子文件定解密方法。
背景技术
军工涉密网目前在国家的涉密单位中有大范围的使用,虽然大多数与广域网之间进行了物理隔绝,但仍存在有高密低传,或者高密底存等现象。目前,存在一些可在某些军工涉密网中应用的监控方法,北交大也有学者做相关工作,航天四院也有基于关键词的密点挖掘工具,能够基于关键词匹配的方式进行密点挖掘,为涉密电子文件定解密提供支撑。
现有的密点监控技术大部分都基于关键词匹配进行密点挖掘,多只针对单个密点,未考虑密点之间的关联性。目前,存在的一些可基于关键词的密点挖掘工具,但无法做关联挖掘。此外,密点广泛存在与新闻宣传稿件中,使用单个关键词匹配存在密点泛化的问题,且误报率较高,人工确认工作量大。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种涉密电子文件定解密方法,以解决现有技术中存在的涉密信息定密不准、密点泛化、解密不规范问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种涉密电子文件定解密方法,该方法包括如下步骤:
S1、涉密电子文件密点分析与样本收集;
开展涉密电子文件密点分析与样本收集,形成多源涉密电子文件样本库;
S2、基于信息增益的密点关键词挖掘;
以多源涉密电子文件样本库作为数据集输入,引入信息增益技术对密点关键词进行挖掘分析,获得不同关键词的信息增益,根据信息增益阈值实现无效或低效密点关键词的过滤;
S3、基于知识图谱的密点关联规则库构建;
以步骤S2获得的密点关键词为基础,利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系,记为密点关联规则;
S4融合军工密点规则集的知识图谱构建;
借助知识图谱RDF存储方法,将密点关联规则集合统一存储于知识图谱;
S5、智能匹配对比与快速定解密;
将包含候选密点的短文本电子文件转换为RDF数据模型,进而与密点规则知识图谱开展匹配对比,确定电子文件的密级。
进一步地,所述步骤S1具体包括如下步骤:
S11、进行涉密电子文件的特点分析,确定定解密流程,根据定密原则和解密原则分析涉密电子文件的特征,形成一套定解密的指导原则;
S12、使用定解密的指导原则指导多源涉密知识数据的加工与整合,对涉密电子文件进行属性分析,对密级属性进行划分,以此作为研究基础和依据,开展电子文件的整合,分别对项目类文件和综合管理类文件进行收集与分类;
S13、针对整合后的电子文件,开展涉密信息的提取,最终形成多源涉密电子文件样本库。
进一步地,所述步骤S2具体包括:
使用从涉密文档中抽取的所有关键词作为待挖掘关键词库,将涉密文档与普通文档作为两种文本类别;对涉密文档和普通文档进行分类的过程中,关键词t对文本分类过程贡献的信息熵,也称为信息增益;
在基于信息增益的密点关键词挖掘技术中,关键词即为特征,文档包含或者不含该关键词,该关键词取值为“1”或“0”,使用关键词t进行信息熵的计算公式如下:
H(C|t)=P(t=1)H(C|t=1)+P(t=0)H(C|t=0) (3)
上式中,P(t=1)表示关键词t出现的概率,P(t=0)表示关键词t不出现的概率;H(C|t=1)为条件为t=1时的熵,H(C|t=0)为条件为t=0时的熵;
熵可以表示为:
其中,类别变量C的可能取值是C1,C2,...,Cn,每一个类别出现的概率为 P(C1),P(C2),...,P(Cn),n为类别总数;
将公式(1)代入式(3),则式(3)展开为如下公式:
关键词t给文本分类带来的信息增益表示为原信息熵与固定关键词t之后的条件熵的差值,计算公式如下:
IG(T)=H(C)-H(C|T) (5)
展开为下式:
上式中,P(Ci)表示类别Ci出现的概率。
进一步地,t=1表示关键词t出现;t=0表示关键词t不出现。
进一步地,P(Ci)表示类别Ci出现的概率,使用极大似然估计作为它们的估计值。
进一步地,所述步骤S3具体包括如下步骤:首先收集密点组合集合与密级的数据集,记为({密点1,密点2,……,密点n},密级),然后利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系。
进一步地,所述利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系具体包括如下步骤:
S31、设定最小支持度s和最小置信度c;
S32、Apriori算法使用候选项集;首先产生出候选项的集合,即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集;候选项集中为密点关键词;
S33、在Apriori算法的过程中,首先从数据集读入所有的数据,每个数据都被看作候选1-项集,得出各项的支持度,再使用频繁1-项集集合来产生候选 2-项集集合,因为先验原理保证所有非频繁的1-项集的超集都是非频繁的;
S34、再扫描数据库,得出候选2-项集集合,再找出频繁2-项集,并利用这些频繁2-项集集合来产生候选3-项集;
S35、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止;
S36、获得密点频繁项集后,针对每个密点频繁项集,产生密点关联规则,然后与最小置信度c进行比较,从而筛选出强密点关联规则。
进一步地,所述步骤S4具体包括:首先引入KGB密点规则,将挖掘到的相似密点短文本融合为统一的密点规则;然后,结合挖掘到的不同涉密文件的主题类型和主题关键词信息,进一步获取主题与密点规则之间的关联关系,构建军工密点规则知识图谱;通过规则抽取出内容加上相应的参数构成知识图谱的三元组,实现知识图谱构建。
进一步地,所述步骤S5具体包括:首先基于密点关键词对待定密文件进行解析与扫描,形成密点短文本,然后基于各种表示方法对密点短文本进行表示;进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图,通过对语义图的构造来实现对密点短文本的理解;采用构造语义图的算法,将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句,基于图匹配的思想,将包含密点的各种表示转换为SPARQL查询语言,并在知识图谱中找到符合该匹配模式的所有子图,并结合待查文本中所有的密点子图的最高密级,综合确定电子文件的最高密级。
进一步地,各种表示方法包括词袋模型、句法树和依存关系树。
(三)有益效果
本发明提出一种涉密电子文件定解密方法,本专利提出一种涉密电子文件定解密方法,面对亟待解决的涉密信息定密不准、密点泛化、解密不规范的现实问题,本专利具有以下优点:
(1)通过智能化分析技术,加强涉密电子文件定解密工作的准确化、规范化。
(2)利用电子文件密点动态追踪手段,提升电子文件密级解除工作的及时性、准确性和智能性。
(3)通过密点比对和基于语义分析的智能匹配技术,实现涉密电子文件密级的实时确定、智能化变更和及时解密。
附图说明
图1为本发明涉密电子文件密点分析与样本收集框图;
图2为本发明的Apriori算法流程图;
图3为本发明的智能匹配对比与快速定解密流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明的智能匹配对比与快速定解密方案具体包括如下步骤:
步骤S1、涉密电子文件密点分析与样本收集
开展涉密电子文件密点分析与样本收集,形成多源涉密电子文件样本库。
具体包括如下步骤:
S11、进行涉密电子文件的特点分析,确定定解密流程,根据定密原则和解密原则分析涉密电子文件的特征,形成一套定解密的指导原则。
S12、使用定解密的指导原则指导多源涉密知识数据的加工与整合,对涉密电子文件进行属性分析,对密级属性进行划分,以此作为研究基础和依据,开展电子文件的整合,分别对项目类文件和综合管理类文件进行收集与分类。
S13、针对整合后的电子文件,开展涉密信息的提取,最终形成多源涉密电子文件样本库。
步骤S2、基于信息增益的密点关键词挖掘
以步骤一的多源涉密电子文件样本库作为数据集输入,引入信息增益技术对密点关键词进行挖掘分析,获得不同关键词的信息增益,根据信息增益阈值实现无效或低效密点关键词的过滤。
信息熵(Entropy)是衡量变量混乱度的一种方法,而信息增益使用信息熵进行信息的量化。对于一个变量X,它有m个可能的取值,分别是x1,x2,...,xm,取到每个值的概率分别是P1,P2,...,Pn,类别变量C的可能取值是C1,C2,...,Cn,每一个类别出现的概率为P(C1),P(C2),...,P(Cn),n为类别总数,此时熵可以表示为:
使用从涉密文档中抽取的所有关键词作为待挖掘关键词库,将涉密文档与普通文档作为两种文本类别。对涉密文档和普通文档进行分类的过程中,关键词t对文本分类过程贡献的信息熵,也称为信息增益。
在基于信息增益的密点关键词挖掘技术中,关键词即为特征,文档包含或者不含该关键词,可形式化为该关键词取值为“1”或“0”,使用关键词t进行文本分类后的信息熵的计算,应该将该关键词取值固定为“0”和“1”各计算一次,然后根据该关键词的出现概率取加权平均值,即可得到条件熵。
通常,条件熵的计算公式如下:
H(C|X)=P1H(C|X=x1)+P2H(C|X=x2)+...+PnH(C|X=xn) (2)
H(C|X=xi)表示特征X被固定为值xi时的条件熵,H(C|X)表示最终计算得到的特征X被固定时的条件熵。
在基于信息增益的密点关键词挖掘技术中,关键词即为特征,本专利使用 t=1表示关键词t出现;t=0表示关键词t不出现,则条件熵计算公式可表示为:
H(C|t)=P(t=1)H(C|t=1)+P(t=0)H(C|t=0)
(3)
上式中,P(t=1)表示关键词t出现的概率,P(t=0)表示关键词t不出现的概率。H(C|t=1)为条件为t=1时的熵,H(C|t=0)为条件为t=0时的熵,可套用公式1得到。
将公式(1)代入式(3),则式(3)展开为如下公式:
因此,关键词t给文本分类带来的信息增益可以表示为原信息熵与固定关键词t之后的条件熵的差值,计算公式如下:
IG(T)=H(C)-H(C|T) (5)
可以展开为下式:
上式中,P(Ci)表示类别Ci出现的概率,一般使用极大似然估计作为它们的估计值。
通过设置信息增益阈值,即可实现无效或低效密点关键词的过滤。
步骤S3、基于知识图谱的密点关联规则库构建
以步骤二获得的密点关键词为基础,将密点关联词挖掘转化为密点频繁项集挖掘问题,即密点的不同组合关系对密级的影响。本专利首先收集密点组合集合与密级的数据集,记为({密点1,密点2,……,密点n},密级),然后利用 Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系,记为密点关联规则。
Apriori算法主要步骤分为两步,首先产生候选项集,其次是对候选项集进行剪枝产生频繁项集,由频繁1-项集L1开始,反复迭代重复,直至找到含有最多项的频繁项集为止,Aprior算法的流程图如图2所示:
算法步骤如下:
S31、设定最小支持度s和最小置信度c。
S32、Apriori算法使用候选项集。首先产生出候选项的集合,即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集。候选项集中为密点关键词。
S33、在Apriori算法的过程中,首先从数据集读入所有的数据,每个数据都被看作候选1-项集,得出各项的支持度,再使用频繁1-项集集合来产生候选 2-项集集合,因为先验原理保证所有非频繁的1-项集的超集都是非频繁的。
S34、再扫描数据库,得出候选2-项集集合,再找出频繁2-项集,并利用这些频繁2-项集集合来产生候选3-项集。
S35、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止。
S36、获得密点频繁项集后,针对每个密点频繁项集,产生密点关联规则,然后与最小置信度c进行比较,从而筛选出强密点关联规则。
如秘密级密点频繁项集I={I1,I2,I5},其中,I1,I2,I5分别为三个密点。密点频繁项集I=的非空子集有{I1,I2,I5}、{I1,I2}、{I1,I5}、{I2,I5}、{I1}、 {I2}和{I5}。结果关联规则如下,每个都列出置信度。假设各规则置信度如下:
I1∩I2∩I5→秘密:63%
I1∩I2→秘密:57%
I1∩I5→秘密:100%
I2∩I5→秘密:100%
I1→秘密:33%
I2→秘密:29%
I5→秘密:100%
如果最小置信度阈值为70%,则只有I1∩I5→秘密、I2∩I5→秘密和最后一个规则可以作为密点关联规则,因为只有这些才是强规则。
步骤S4、融合军工密点规则集的知识图谱构建
为融合各涉密文档类型规则,实现密点规则实体可拓展、关系可拓展,本文借助知识图谱RDF存储方法,将密点关联规则集合统一存储于知识图谱中。首先引入KGB密点规则,将挖掘到的相似密点短文本融合为统一的密点规则;然后,结合挖掘到的不同涉密文件的主题类型和主题关键词信息,进一步获取主题与密点规则之间的关联关系,构建军工密点规则知识图谱。融合军工密点规则集的知识图谱有利于减少密点及其关系的存储规模,将相似密点采用统一的KGB规则存储,有助于知识本体的扩建,可随时进行规则的添加和维护。通过规则抽取出内容加上相应的参数(关系)构成知识图谱的三元组,实现知识图谱构建。
KGB密点规则示例:
Knowledge:{[/n]}s+N+{[/m]}s+{[km;千米;公里]}
Action:Extract
Argument:distance
表示的是:如果前面出现了名词,接着动词后边出现了数词,后面跟了km、千米、公里等任意一种,则认定为第一个选择的区和第二个选择的区是密点,对选择区执行抽取动作,并加上这个规则相应的参数存入三元组。
步骤S5、智能匹配对比与快速定解密
步骤S4中构建了融合军工密点规则的知识图谱,智能匹配对比与快速定解密需要将包含候选密点的短文本电子文件转换为RDF数据模型,进而与密点规则知识图谱开展匹配对比,确定电子文件的最高密级,技术方案如下图3所示:
首先基于密点关键词对待定密文件进行解析与扫描,形成密点短文本,然后基于词袋模型、句法树、依存关系树等表示方法对密点短文本进行表示;进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图,通过对语义图的构造来实现对密点短文本的理解。采用构造语义图的算法,可以将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句,基于图匹配的思想,将包含密点的句法树/词袋模型转换为SPARQL查询语言,并在知识图谱中找到符合该匹配模式的所有子图,并结合待查文本中所有的密点子图的最高密级,综合确定电子文件的最高密级。
本专利提出一种涉密电子文件定解密方法,面对亟待解决的涉密信息定密不准、密点泛化、解密不规范的现实问题,本专利具有以下优点:
(1)通过智能化分析技术,加强涉密电子文件定解密工作的准确化、规范化。
(2)利用电子文件密点动态追踪手段,提升电子文件密级解除工作的及时性、准确性和智能性。
(3)通过密点比对和基于语义分析的智能匹配技术,实现涉密电子文件密级的实时确定、智能化变更和及时解密。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种涉密电子文件定解密方法,其特征在于,该方法包括如下步骤:
S1、涉密电子文件密点分析与样本收集;
开展涉密电子文件密点分析与样本收集,形成多源涉密电子文件样本库;
S2、基于信息增益的密点关键词挖掘;
以多源涉密电子文件样本库作为数据集输入,引入信息增益技术对密点关键词进行挖掘分析,获得不同关键词的信息增益,根据信息增益阈值实现无效或低效密点关键词的过滤;
S3、基于知识图谱的密点关联规则库构建;
以步骤S2获得的密点关键词为基础,利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系,记为密点关联规则;
S4融合军工密点规则集的知识图谱构建;
借助知识图谱RDF存储方法,将密点关联规则集合统一存储于知识图谱;
S5、智能匹配对比与快速定解密;
将包含候选密点的短文本电子文件转换为RDF数据模型,进而与密点规则知识图谱开展匹配对比,确定电子文件的密级;
其中,
所述步骤S2具体包括:
使用从涉密文档中抽取的所有关键词作为待挖掘关键词库,将涉密文档与普通文档作为两种文本类别;对涉密文档和普通文档进行分类的过程中,关键词t对文本分类过程贡献的信息熵,也称为信息增益;
在基于信息增益的密点关键词挖掘技术中,关键词即为特征,文档包含或者不含该关键词,该关键词取值为“1”或“0”,使用关键词t进行信息熵的计算公式如下:
H(C|t)=P(t=1)H(C|t=1)+P(t=0)H(C|t=0) (3)
上式中,P(t=1)表示关键词t出现的概率,P(t=0)表示关键词t不出现的概率;H(C|t=1)为条件为t=1时的熵,H(C|t=0)为条件为t=0时的熵;
熵表示为:
其中,类别变量C的可能取值是C1,C2,…,Cn,每一个类别出现的概率为P(C1),P(C2),…,P(Cn),n为类别总数;
将公式(1)代入式(3),则式(3)展开为如下公式:
关键词t给文本分类带来的信息增益表示为原信息熵与固定关键词t之后的条件熵的差值,计算公式如下:
IG(T)=H(C)-H(C|T) (5)
展开为下式:
上式中,P(Ci)表示类别Ci出现的概率;
所述步骤S4具体包括:首先引入KGB密点规则,将挖掘到的相似密点短文本融合为统一的密点规则;然后,结合挖掘到的不同涉密文件的主题类型和主题关键词信息,进一步获取主题与密点规则之间的关联关系,构建军工密点规则知识图谱;通过规则抽取出内容加上相应的参数构成知识图谱的三元组,实现知识图谱构建;
所述步骤S5具体包括:首先基于密点关键词对待定密文件进行解析与扫描,形成密点短文本,然后基于各种表示方法对密点短文本进行表示;进一步基于查询语义图构造技术将密点短文本转化为一张语义相同的实体关系图,通过对语义图的构造来实现对密点短文本的理解;采用构造语义图的算法,将密点短文本与密点规则知识图谱的匹配转化为多个单关系的查询问句,基于图匹配的思想,将包含密点的各种表示转换为SPARQL查询语言,并在知识图谱中找到符合该SPARQL查询语言的所有子图,并结合待查文本中所有的密点子图的最高密级,综合确定电子文件的最高密级。
2.如权利要求1所述的涉密电子文件定解密方法,其特征在于,所述步骤S1具体包括如下步骤:
S11、进行涉密电子文件的特点分析,确定定解密流程,根据定密原则和解密原则分析涉密电子文件的特征,形成一套定解密的指导原则;
S12、使用定解密的指导原则指导多源涉密知识数据的加工与整合,对涉密电子文件进行属性分析,对密级属性进行划分,以此作为研究基础和依据,开展电子文件的整合,分别对项目类文件和综合管理类文件进行收集与分类;
S13、针对整合后的电子文件,开展涉密信息的提取,最终形成多源涉密电子文件样本库。
3.如权利要求1所述的涉密电子文件定解密方法,其特征在于,t=1表示关键词t出现;t=0表示关键词t不出现。
4.如权利要求1所述的涉密电子文件定解密方法,其特征在于,P(Ci)表示类别Ci出现的概率,使用极大似然估计作为它们的估计值。
5.如权利要求3或4所述的涉密电子文件定解密方法,其特征在于,所述步骤S3具体包括如下步骤:首先收集密点组合集合与密级的数据集,记为({密点1,密点2,…,密点n},密级),然后利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系。
6.如权利要求5所述的涉密电子文件定解密方法,其特征在于,所述利用Apriori算法分析挖掘不同个数的密点关键词相互出现时对密级的影响关系具体包括如下步骤:
S31、设定最小支持度s和最小置信度c;
S32、Apriori算法使用候选项集;首先产生出候选项的集合,即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集;候选项集中为密点关键词;
S33、在Apriori算法的过程中,首先从数据集读入所有的数据,每个数据都被看作候选1-项集,得出各项的支持度,再使用频繁1-项集集合来产生候选2-项集集合,因为先验原理保证所有非频繁的1-项集的超集都是非频繁的;
S34、再扫描数据库,得出候选2-项集集合,再找出频繁2-项集,并利用这些频繁2-项集集合来产生候选3-项集;
S35、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止;
S36、获得密点频繁项集后,针对每个密点频繁项集,产生密点关联规则,然后与最小置信度c进行比较,从而筛选出强密点关联规则。
7.如权利要求1所述的涉密电子文件定解密方法,其特征在于,各种表示方法包括词袋模型、句法树和依存关系树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709394.8A CN113486191B (zh) | 2021-06-25 | 2021-06-25 | 一种涉密电子文件定解密方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709394.8A CN113486191B (zh) | 2021-06-25 | 2021-06-25 | 一种涉密电子文件定解密方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486191A CN113486191A (zh) | 2021-10-08 |
CN113486191B true CN113486191B (zh) | 2024-04-05 |
Family
ID=77936153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110709394.8A Active CN113486191B (zh) | 2021-06-25 | 2021-06-25 | 一种涉密电子文件定解密方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486191B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555983B (zh) * | 2023-04-19 | 2024-07-12 | 北京盛科沃科技发展有限公司 | 一种基于机器学习的辅助定密方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101969475A (zh) * | 2010-11-15 | 2011-02-09 | 张军 | 基于云计算的商业数据可控分发与融合应用*** |
CN102254127A (zh) * | 2011-08-11 | 2011-11-23 | 华为技术有限公司 | 文件的加密和解密方法、装置及*** |
CN103618652A (zh) * | 2013-12-17 | 2014-03-05 | 沈阳觉醒软件有限公司 | 一种业务数据的审计和深度分析***及其方法 |
CN105337742A (zh) * | 2015-11-18 | 2016-02-17 | 哈尔滨工业大学 | 基于人脸图像特征和gps信息的lfsr文件加密及解密方法 |
CN106126577A (zh) * | 2016-06-17 | 2016-11-16 | 北京理工大学 | 一种基于数据源划分矩阵的加权关联规则挖掘方法 |
CN107464194A (zh) * | 2017-09-21 | 2017-12-12 | 合肥集知网知识产权运营有限公司 | 一种基于Apriori数据挖掘算法的大数据专利管理*** |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和*** |
CN112597537A (zh) * | 2020-12-23 | 2021-04-02 | 珠海格力电器股份有限公司 | 文件处理方法、装置、智能设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8176568B2 (en) * | 2005-12-30 | 2012-05-08 | International Business Machines Corporation | Tracing traitor coalitions and preventing piracy of digital content in a broadcast encryption system |
US8787567B2 (en) * | 2011-02-22 | 2014-07-22 | Raytheon Company | System and method for decrypting files |
-
2021
- 2021-06-25 CN CN202110709394.8A patent/CN113486191B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101969475A (zh) * | 2010-11-15 | 2011-02-09 | 张军 | 基于云计算的商业数据可控分发与融合应用*** |
CN102254127A (zh) * | 2011-08-11 | 2011-11-23 | 华为技术有限公司 | 文件的加密和解密方法、装置及*** |
CN103618652A (zh) * | 2013-12-17 | 2014-03-05 | 沈阳觉醒软件有限公司 | 一种业务数据的审计和深度分析***及其方法 |
CN105337742A (zh) * | 2015-11-18 | 2016-02-17 | 哈尔滨工业大学 | 基于人脸图像特征和gps信息的lfsr文件加密及解密方法 |
CN106126577A (zh) * | 2016-06-17 | 2016-11-16 | 北京理工大学 | 一种基于数据源划分矩阵的加权关联规则挖掘方法 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和*** |
CN107464194A (zh) * | 2017-09-21 | 2017-12-12 | 合肥集知网知识产权运营有限公司 | 一种基于Apriori数据挖掘算法的大数据专利管理*** |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
CN112597537A (zh) * | 2020-12-23 | 2021-04-02 | 珠海格力电器股份有限公司 | 文件处理方法、装置、智能设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
disclose more and risk less:privacy preserving online social network data sharing;jiayi chen等;IEEE Transactions on dependable and secure computing;第17卷(第6期);1173-1187 * |
Linux文件加密***设计;李春杰;张启军;谭嘉瑞;颜智润;;物联网技术(第02期);77-79+82 * |
信息时代电子文件档案的保密和利用;余秋花;;广播电视信息(第07期);87-89 * |
军工涉密电子文件智能化定密方法研究;高欣等;保密科学技术(第11期);63-66 * |
Also Published As
Publication number | Publication date |
---|---|
CN113486191A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11528290B2 (en) | Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning-based digital threat mitigation platform | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
Santana et al. | Incremental author name disambiguation by exploiting domain‐specific heuristics | |
US20040141354A1 (en) | Query string matching method and apparatus | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
WO2004013772A2 (en) | System and method for indexing non-textual data | |
KR20090022375A (ko) | 컨텐츠 태그를 이용하여 사용자 프로파일을 구성하는 방법및 장치, 그리고 생성된 사용자 프로파일을 이용하여컨텐츠를 추천하는 방법 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN110516210B (zh) | 文本相似度的计算方法和装置 | |
CN113297457B (zh) | 一种高精准性的信息资源智能推送***及推送方法 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
Shim et al. | Predicting movie market revenue using social media data | |
CN113486191B (zh) | 一种涉密电子文件定解密方法 | |
CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析***及其方法 | |
CN117473571A (zh) | 一种数据信息安全处理方法及*** | |
Saad et al. | Efficient skyline computation on uncertain dimensions | |
Kaur et al. | Assessing lexical similarity between short sentences of source code based on granularity | |
Zhang et al. | Text information classification method based on secondly fuzzy clustering algorithm | |
Fisun et al. | Methods of Searching for Association Dependencies in Multidimensional Databases | |
Li et al. | Automatic classification algorithm for multisearch data association rules in wireless networks | |
CN115544225A (zh) | 基于语义的数字档案信息关联检索方法 | |
Horban et al. | Principles of Searching for a Variety of Types of Associative Rules in OLAP-cubes. | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及*** | |
CN112100670A (zh) | 一种基于大数据的隐私数据分级保护方法 | |
Ramzan et al. | A comprehensive review on Data Stream Mining techniques for data classification; and future trends |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |