CN103870758B

CN103870758B - 基于词归类组合判定与概率统计的涉密信息密级归属方法

Info

Publication number: CN103870758B
Application number: CN201410103973.8A
Authority: CN
Inventors: 陈建; 欧阳国华; 杨兴; 李楠; 史章军; 向音; 吕慧芳
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2016-05-11
Anticipated expiration: 2034-03-20
Also published as: CN103870758A

Abstract

一种基于词归类组合判定与概率统计的涉密信息密级归属方法，模拟人工学习涉密归属过程建立涉密条件数据库和词归类数据库，涉密条件依据保密条例以词类的组合中的每一个类作为涉密必要条件，与带分析文章中的词类组合比较，判断涉密级别。本发明通过计算机分析文章的语句内容，忽略语句的语法表达，将语句抽象成为词类的逻辑组合，并对照保密规定的组合条件，判定文章涉密信息密级，为客观、快速的判定涉密文章和涉密级别提供了可行的基础。

Description

基于词归类组合判定与概率统计的涉密信息密级归属方法

技术领域

本发明涉及涉密信息的密级归属技术，具体说是一种基于词归类组合判定与概率统计的涉密信息密级归属方法。

背景技术

传统的文件定密方式，由于缺乏密级认定的有效技术手段，定密时对密级界限把握不准，定密工作主观性较强。对于内容相似的文件，不同认定人的认定方式不同、认定角度不同、认定依据不同，导致认定结果可能存在差异，严重影响了我军密级认定工作的严肃性和权威性。

我国信息化基础设施经过多年建设，已形成较大规模，大部分政府、军队的部门已建设了WWW、FTP、DNS、Email、OA等***。客观事实反映出，很多机关工作人员已经养成了用字处理软件(如WORD、PPT、TXT等)来撰写、保存、传递文件的习惯。电子文件已经成为军队各部门和其它各种组织的重要信息载体和传输方法。很明显，信息化为各部门日常工作带来了很大便利，同时也大幅度提高了工作效率。但是，在享受到计算机所带来的方便性的同时，也出现了目前受到广泛关注的信息安全问题。由于政府、军队在管理运行中涉及到大量密级的信息，为了有效的保证各部门的正常运行和信息安全性，有必要对以涉密信息为中心的信息安全实施准确有效的级别归属划分，以便规范信息的流通范围。依靠计算机技术，解决当前密级鉴定方法单一、主观性强的问题，为密级鉴定工作提供科学依据，提高密级鉴定工作效率，实现涉密定级数字化、信息归类电子化、辅助决策智能化早已经成为目前急于解决的课题。

发明内容

本发明所要解决的技术问题是解决当前密级鉴定方法单一、主观性强的问题。达到为密级鉴定工作提供科学依据，提高密级鉴定工作效率，实现保密定级数字化、辅助决策智能化的目的。提供一种基于词归类组合判定与概率统计的涉密信息密级归属方法。

所述基于词归类组合判定与概率统计的涉密信息密级归属方法，其特征是：按下述步骤顺次进行：

第一步：建立密级条件数据库：

逐条分析保密条例，并收集与该保密条例相关的文章，将文章中与条例对应的涉密信息归纳为若干必要条件的相关词和相关词组合，包括相关词和相关词组合、涉及条件类别、涉及领域、对应的条例编号建立逻辑关联，录入密级条件数据库；分别按照“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”三个子库进行独立收集；

第二步：建立和丰富词归类数据库：

(一)、在与对应保密条例相关的文章中统计所有该条例涉及到的必要条件的组合，并归纳为若干条件大类；

(二)、分析每个条件大类，确定每个条件大类所包含的类的集合；将每一词归类再逐级分解为若干类的子集，直至集合不可再分；

(三)、分析每一个末端子集，列出其中具有代表性的词语或词组，依照逐级从属的逻辑关系建立词归类数据库；

(四)、从词归类数据库中读取词语或词组，运用抓词技术，根据代表词语或词组，扫描现有密级文章，根据词归类数据库所保存的词的类抓取具体词汇，排除错词、误词，丰富词归类数据库；

第三步：对待定密级文章初定密级：

(一)、扫描文章的段落或语句，利用正则表达式表述已经在词归类数据库中归类的信息，根据该信息特征将文章语句中符合词归类数据库的词语提取出来；

(二)、索引词归类数据库，判断词汇所属的类；

(三)、确定语句或段落中的类的组合；

(四)、判断语句或段落中类的组合是否完全满足密级条件数据库中的任一组合条件，满足则认定该语句或段落所属部分的密级为该组合条件所在数据库的密级，文章的涉密级别按照文章中全部语句或段落之中密级的最高级定义，密级的高低顺序依次为绝密>机密>秘密，如果不满足任何涉密条件，则文章不涉密；

第四步：确定密级：文章中出现多处满足秘密或机密级的条件时，由下述方式确定是否将文章密级升级：

(一)、在不同领域中，找出涉密领域为i的文章m篇，m≥500，分析与该领域直接相关的涉密信息，发现密级升高的情况为k篇，该领域内涉密文章密级上升所需要的最少信息的数量为b_i，

b_i＝MIN(集合{a_ij})，

表示为涉密领域i中的k篇密级升高文章中每篇涉密信息的数量中的最小值，其中a_ij表示涉密领域i中的第j篇文章的涉密信息的数量，其中j表示1～k之中的一个数；

(二)、对于初步判定为非绝密级的涉密文件，依照公式

α = \frac{c_{i}}{b_{i}},

其中，c_i表示文章中在领域i中的涉密信息的数量，当密级升级条件α≥1则判定文章密级升级。

进一步地，在第三步中，如果文章的初定密级与人为设定不符，则需要在词归类数据库中添加新的涉密词汇或词归类的组合，添加时关联新词、新词的类和具体的保密条例。

优化方案为，在第四步中，当α＜1时，设定最优误差率为β，当1-β≤α＜1时，该文章的整体密级为可上升密级，β的计算值为：

{(\frac{\sqrt{5} - 1}{2})}^{4} \approx {(0.618)}^{4} = 14.58659418 % .

本发明通过计算机分析文章的语句内容，达到忽略语句的语法表达，将语句抽象成为词归类的逻辑组合，并对照保密规定的组合条件，判定文章涉密信息密级。

涉密条件数据库的建立模拟人工根据保密条例对现有涉密文章学习过程，将涉密条件抽象为在不同领域内的组合条件的词汇组合，以此作为必要条件，满足在该领域内的组合词类的必要条件的判定为满足涉密条件，可后台人工修补组合条件。

是否符合密级条件并非简单地将待评价文章与涉密关键词对比，关键在于对涉密条例抽象化成为对不同领域内的各方面条件的组合，在该领域内各方面的必要条件的类别分别组成数据集，在作为必要条件的类别组合中所抓词汇或短语分别满足了涉密信息的要求，则该组合满足了涉密条件的要求，这些组合条件是分别从属于不同领域内的条件，只有在一个领域范围内满足了涉密组合条件才算是满足一处涉密，这些涉密组合组成了涉密条件数据库。因而使得涉密分析严谨可行，突破了国外大型软件技术公司长期研究终究未得以突破的智能分析屏障。

对于多处出现秘密级或机密级信息的文章升级密级提供了评判方法，该评判方法同样学习了人工升级密级的过程。在每一个特定的涉密领域内总结出允许密级升级的规律，突破了该规律所限定的涉密信息数量方可允许密级升级，在最优误差率内的文章作为可升级密级文章。

整个涉密评定过程严谨、可靠、快速、客观，为计算机客观、快速处理大批涉密文章并对涉密自动评级提供了切实可行的途径。

附图说明

图1是密级条件数据库和词归类数据库建设流程图，

图2是词归类数据库涉密信息归属结构示意图，

图3是词归类数据涉密信息录入示意图，

图4是文章涉密级别判定流程图，

图5是词归类数据库编码和结构示意图，

图6是密级条件组合示意图。

具体实施方式

下面结合实施例和附图对本发明进一步说明：

本发明的总体思路是“以个体丰富群体，以群体判定个体，基于概率统计，判定密级归属”。由于条令条例的叙述是高度概括的、抽象的，人之所以能够理解条文，是因为人在之前接触过涉密文件，已经通过经验学习建立了保密条文与具体文字表述的关系。如果试图让计算机判断文章密集的归属，必须将人的认知过程转换为计算机能够识别的方式。要想完成这一目标，须经过以下三个阶段。

1.经验学习阶段：

1.1根据文章标题，大量收集符合某一保密条例的文章。

1.2人工分析该文章之所以被判定为该密级的原因即涉密信息。

1.3人工将涉密信息分解为词语和词语组合。

1.4依照保密条例逐条重复1-3步。

1.5将词语和词语组合归类。

1.6建立词归类数据库。

利用已经归类的词语，建成词归类数据库，利用计算机抓词技术找到更多同类的词语，丰富数据库。此处词归类是将涉密信息的词语类依据保密条例分解为地点类、武器类、建筑类、工具类、主体类、单位类、行为类、方向类等。词归类数据库涉密信息归属结构示意图如图2所示。大批量涉密信息录入示意图如图3所示。词归类数据库编码和结构示意图如图5所示。

假设a＝主体类词语，b＝行为类词语，c＝地点类词语，d＝武器类词语，e＝建筑类词语，f＝工具类词语，g＝方向类词语，h＝数量类词语。

1.7建立密级条件数据库。根据词归类数据库将词语组合抽象为词归类组合，将词归类组合关联到保密条例的具体条款。词归类数据库和密级条件数据库的初步建设方式如图1所示。密级条件组合示意图如图6所示。

设密级条件数据库中的所有信息组合为Φ＝g(x)，x∈(x₁，x₂，x₃)，x₁代表秘密，x₂代表机密，x₃代表绝密，即：g(x₁)代表数据库中所有秘密级信息的表达组合，g(x₂)代表数据库中所有机密级信息的表达组合，g(x₃)代表数据库中所有绝密级信息的表达组合。

具体做法是：

第一步，分析保密条例，收集相关文章，将文章中与条例对应的涉密信息抽象为若干必要条件的组合，将这些必要条件组合以及对应的条例编号录入密级条件数据库，并建立逻辑关联，如图1进程①所示。该数据库包含三个子库，分别为“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”，如图6所示。

例如，可将“战略、战役的规划方针”，解析为时间、地点、主体、武器、行为等必要条件组合，再将条例和必要条件组合录入数据库。

第二步，将所有条例涉及到的必要条件进行统计，并将其抽象归集为若干条件大类。如图1进程②、进程③所示。

例如，时间类、地点类、主体类、武器类、行为类、数量类、动词归类、文种类等。如图2进程①所示。

第三步，分析每个条件大类，确定其所包含的词归类集合。如图1进程④所示。

例如，可将“武器类”分解为“陆战武器类”、“空战武器类”、“海战武器类”等。如图2进程②所示。

第四步，将某一词归类分解为若干词归类的子集，如果子集还可继续分解，则继续分解直至集合不可再分。如图1进程⑤、进程⑥、进程⑦所示。

例如，“海战武器类”可再分解为“潜艇类”、“驱逐舰类”、“护卫舰类”、“***”、“综合补给舰”等，“护卫舰类”再继续细分为“江东级”、“江凯I型”等。如图2进程③、进程④所示。

第五步，分析每一个子集，列出子集中具有代表性的词语或词组。如图1进程⑧所示。

例如，“江凯I型”中的代表词组为“529舰”或“054A”或“舟山号”。如图2进程⑤所示。

第六步，依照“条件大类、词归类集合、词归类子集、代表词语或词组”的从属逻辑关系建立词归类数据库。如图1进程⑨，图5所示。

第七步，从词归类数据库中读取代表词语或词组。如图3进程①所示。

例如，读取“武器类”——“海战武器类”——“护卫舰类”——“江凯I型”——“529舰”

第八步，运用抓词技术，根据代表词语或词组，使用搜索引擎扫描大量现有密级文章，根据词归类抓取具体词汇，排除错词、误词，丰富词归类数据库。如图3进程②、进程③、进程④所示。

例如，根据“529舰”的特征，可设定“5？？舰”的抓词方式，可抓取出“530舰”、“568舰”、“570舰”、“569舰”等同特征的词语，将这些具体词语丰富进词归类数据库。如图2进程⑥所示。

2.初步判定文章密级归属阶段：

初步判定文章密级归属遵循以下六项原则：第一，文章的文体不是判定文章密级的因素。第二，文章的标题、关键词、发文单位、签发人员的信息是判断文章密级归属的重要因素。第三，如果文章中只有一处涉密信息，那么该文章的密级就是该涉密信息的密级。第四，如果文章有一处绝密级信息，多处其他密级信息，那么该文章是绝密级。第五，如果文章中有多处机密级信息，多处秘密级信息，那么该文章的密级不低于机密。第六，如果文章中有多处秘密级信息，那么该文章的密级不低于秘密。

2.1词归类检测。扫描文章语句，根据词归类数据库判定涉密信息归属的词归类。

2.2涉密条件检测。依照密级条件数据库中的数据，检索待检测文章中的涉密信息词归类组合。若二者词归类组合信息相符，则该句话涉密并且存在密级。密级条件数据库中的每一个涉密密级条件都是一个词归类组合，组合中的每一类词都是必要条件，满足这个词归类组合的所有必要条件即满足了涉密条件。

2.3文章密级归属判定。综合词归类检测模块和语义智能检测模块的结果，判定整篇文章的密集归属。文章密级判定流程图如图4所示。

2.4智能学习。如果在文章密级的归属判定中出现失误，需要添加新的涉密词汇或词归类组合，可以人工进行后期操作，添加时要明确新词归属的词归类(新词进入词归类数据库)，还要明确新的词归类组合关联的具体保密条例(新组合进密级条件数据库)，以不断提高文章密级归属判定的准确性。

初步判定文章密级归属即判断词归类组合是否与密级条件数据库中的信息相匹配，设y为文章中的涉密信息，设δ＝f(y)为文章中涉密信息的表达组合，即a，b，c，d，e，f，g，h……这些涉密信息的各种组合。若δ∈Φ，则信息被判定为相关密级。

即：判断是否δ＝f(y)∈Φ＝g(x)，若成立，则δ涉密，并归属为相关密级。

举例：密级条件数据库中，秘密级数据结构之一为以下表达式

(主体类：团级单位+行为类：编制+行为类：调整+数字类：数字+量词归类：量词)∈x₁

文章内容为“31团的官兵人数由2000人精简为1800人。”

其中，“31团”∈(主体类的团级单位)，“官兵人数”∈(行为类的编制)，“精简”∈(行为类的调整)，“2000，1800”∈(数字类的数字)，“人”(∈量词归类的量词)，即δ＝f(31团+官兵人数+精简+2000+1800+人)，且δ∈Φ＝g(x₁)，则认为文章内容涉密，且密级归属为秘密级。

具体做法是：

第一步，将文章录入计算机，使用计算机扫描文章语句，利用正则表达式表述已经在词归类数据库中归类的信息，根据该信息特征将文章语句中符合词归类数据库的词语提取出来。如图4进程①所示。

第二步，索引词归类数据库，判断词汇所属的词归类。如图4进程②所示。

第三步，确定语句或段落中的词归类组合。如图4进程③所示。

第四步，判断语句或段落中词归类的组合是否满足密级条件数据库中的某一条件，如图4进程④所示。如果文章某部分表达出的语义符合某一密级数据库的一个条件，则认定该部分的密级为条件所在数据库的密级，如图4进程⑤所示。文章的涉密级别按照全部内容中密级的最高级定义，密级的高低顺序依次为绝密>机密>秘密。如果不满足任何涉密条件，则文章不涉密。

例如，“下月中旬A军计划从B县、C山两个方向攻打甲城。”依据图5解析如下表。

词语或词组	所属词归类
		下月中旬	1.2
A军	3.1
		B县、C山两个方向	8.5
攻打	5.7
		甲城	2.4

该句话的词归类组合为1.2、3.1、8.5、5.7、2.4。对照图6，符合绝密第五条，则将该语句的密级归属为绝密级。若该语句为全文唯一的绝密语句，则无论其他文意表达了多少机密、秘密级别的内容，该文章的级别都是绝密。然而，判定文章为机密、秘密需要进一步分析。

3.基于概率统计，判定密级归属

最终判定文章密级归属遵循以下三项原则：第一，存在多处机密级信息的文章，有归属于绝密级的可能性。存在多处秘密级信息的文章，有归属于机密级的可能性。第二，分析一个领域内的大量涉密文章，发现在原来的文件中含有若干项涉密要素，经过统计，当这些要素的出现概率符合一定的数学规律时，文章的整体密级会升高，那么就认为，只要以后出现的同领域的文章，拥有符合该数学规律的特征，就认为该文章的整体密级要比初步判定的密级结果高。第二，最终密级的判定要分析多处涉密信息分别属于哪个领域，例如编制体质、作战方针、指示政策等，根据历史统计数据，各领域的涉密信息能否影响文章升高密级，具体升高几个级别，需要由不同的情况来判断。

3.1计算密级升高条件。收集不同领域的原有已经人工定义密级归属的文章，经确认密级归属无误后，运用阶段二的工作成果，统计出“文章密级>初步判定密级”的情况，即统计密级升高情况。不同领域的文章为：体制编制、战略战役、部署调动、后勤建设等，分别设为n₁,n₂,n₃,n₄……。找出涉密领域n_i的文章m篇(m≥500)，发现总有一个自然数b_i，在某篇文章归属于同类但不同单位的秘密级或机密级的信息的数量为c_i的情况下，如果设由于本发明用于判定涉密信息的密级归属，要控制误差率，在要求准确率不小于85％的情况下，最优误差率为即准确率为85.4％，则认定在涉密领域n_i中：

若α≥100％文章整体密级上升为机密级或绝密

若85.4％≤α文章整体密级有α的可能上升为机密

若α＜85.4％文章整体密级不变。

具体实施是：

第一步，针对各种领域的现有已经定密的文章开展分析，梳理出现实密级高于初步判定密级的情况。

第二步，依照公式判定文章最终密集归属。

例如，如果该文章的涉及到编制体制(n₁)领域，那么收集该领域秘密级文章500篇，发现总有一个自然数b₁＝2，当出现2条同类不同单位的编制体制信息的时候，文章秘密级上升为机密级。若一篇初步判定为秘密级文章中的c₁＝3，则文章整体密级上升为机密级。

Claims

1.一种基于词归类组合判定与概率统计的涉密信息密级归属方法，其特征是：按下述步骤顺次进行：

第一步：建立密级条件数据库：

逐条分析保密条例，并收集与该保密条例相关的文章，将文章中与条例对应的涉密信息归纳为若干必要条件的相关词和相关词组合，包括相关词和相关词组合、涉及条件类别、涉及领域、对应的条例编号，建立逻辑关联，录入密级条件数据库；分别按照“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”三个子库进行独立收集；

第二步：建立和丰富词归类数据库：

第三步：对待定密级文章初定密级：

(二)、索引词归类数据库，判断词汇所属的类；

(三)、确定语句或段落中的类的组合；

则：b_i＝MIN(集合{a_ij})，

(二)、对于初步判定为非绝密级的涉密文件，依照公式

α = \frac{c_{i}}{b_{i}},

2.根据权利要求1所述的基于词归类组合判定与概率统计的涉密信息密级归属方法，其特征是：在第三步中，如果文章的初定密级与人为设定不符，则需要在词归类数据库中添加新的涉密词汇或词归类的组合，添加时关联新词、新词的类和具体的保密条例。

3.根据权利要求1所述的基于词归类组合判定与概率统计的涉密信息密级归属方法，其特征是：在第四步中，当α＜1时，设定最优误差率为β，当1-β≤α＜1时，该文章的整体密级为可上升密级，β的计算值为：

{(\frac{\sqrt{5} - 1}{2})}^{4} \approx {(0.618)}^{4} = 14.58659418 % .