CN109871426B

CN109871426B - 一种涉密数据的监测识别方法

Info

Publication number: CN109871426B
Application number: CN201811550257.9A
Authority: CN
Inventors: 张黎明; 高小飞; 徐劲榕; 王伟; 徐宏; 金鑫; 刘书涵; 花志伟; 金海松; 胡遨洋; 张振威; 杨泰
Original assignee: Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tongxiang Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2021-08-10
Anticipated expiration: 2038-12-18
Also published as: CN109871426A

Abstract

本发明涉及涉密信息监控技术领域，具体涉及一种涉密数据的监测识别方法，包括以下步骤：A）获取网关通信数据，使用通用解密方式解密数据，若解密成功进入C；B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A，若无则发出告警；C）列举明文中出现次数超过阈值N的短语，若短语与涉密关键词匹配则发出告警，反之，则对短语进行语义识别，若语义识别成功则回到步骤A，若语义识别失败，则发出告警。本发明的实质性效果是：通过解密方法初步判断密级，通过明文短语匹配监测识别涉密资料，及时发现正在泄露的资料，通过短语语义识别，及时发现风险数据传输活动，及时发出警告并由人工甄别，进一步提高数据安全性。

Description

一种涉密数据的监测识别方法

技术领域

本发明涉及涉密信息监控技术领域，具体涉及一种涉密数据的监测识别方法。

背景技术

为应对全球变暖，在应对气候变化中发挥更大的作用，我国近期大力推广无纸化办公。无纸化办公即采用计算机的信息化，将数据资料全部数字化，存储到服务器中。这样就带来了信息数据泄露的风险。在信息化时代，数据资料已经成为了企业的重要资产，这些资料一旦泄漏，将会对企业造成难以估量的损失。目前为了防止资料外泄，各企业均采用了多种加密方法将数据加密。但过于复杂的加密方法会严重降低资料传输效率，使用过于复杂的加密方式并不现实。而采用一般复杂程度的加密方式，就会存在被解密的风险。虽然目前企业多采用两级加密，即普通密级资料使用简单加密，高密级资料使用复杂加密方法，用于缓解加密可靠性与效率的矛盾。但单纯依靠数据加密，只要窃密方获取到秘钥，就能够获得原文，因而不能有效保护企业的数据资产。而对企业的对外网关数据进行监控，能够起到补漏的作用，及时发现正在外泄的数据，及时告警拦截，通常能够有效避免损失。因而需要研发一种能够快速在网关数据中检索到涉密信息的监测方法。

中国专利CN105357009B，公开日2018年7月24日，一种涉密数据的传输回收***，包括权限验证模块、数据读取模块、数据验证模块、数据传输模块、回收销毁模块、传输显示模块、数据存储模块，数据接收终端模块。本发明通过数据验证模块验证传输数据的格式和内容、通过数据传输模块建立与接收终端的数据连接、通过回收销毁模块进行数据接收终端的数据销毁，解决了现在技术中软件层面对数据的非授权使用、数据误传、隐秘数据泄露等问题，提高了数据传输的正确性、安全性，具有较好的应用推广价值。但其不能对网关数据进行快速识别监测，不能有效保护企业数据资料的安全。

发明内容

本发明要解决的技术问题是：目前企业缺乏网关快速涉密资料监测识别方法的技术问题。提出了一种使用多种识别验证方法的效率高的能够识别风险数据传输活动的涉密数据的监测识别方法。

为解决上述技术问题，本发明所采取的技术方案为：一种涉密数据的监测识别方法，包括以下步骤：A）获取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，所述发送非通用加解密方式资料的资质为按次限时发放；C）导入解密得到的明文，列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，而后回到步骤A重新执行，若短语与所有涉密关键词均不匹配则对短语进行语义识别，若语义识别成功则回到步骤A重新执行，若语义识别失败，则发出告警，而后回到步骤A重新执行。所述发送非通用加解密方式资料的资质为按次限时发放，超过次数或者超过时间均为无发送非通用加解密方式资料的资质，因而能够有效保护高密级资料的安全。通用加密资料解密后，进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输，此时发出告警能够及时发现涉密资料的外泄，若短语与涉密关键词均不匹配，则进行语义识别，若无法识别出语义，则列为风险数据传输，发出告警并由人工标注语义或发现泄密活动。

作为优选，所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤：C1）统计明文中每个单字出现的数量，并按升序排列形成排列E；C2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；C3）重复步骤C2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

作为优选，所述对短语进行语义识别的方法包括以下步骤：C101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤C102，反之进入步骤C103；C102）将短语与人工标定表比对，若人工标定表中不存在与所述短语匹配的记录时，发出告警，并由人工标定，若所述短语不涉密则加入人工标定表，若所述短语涉密则进入涉密流程。

作为优选，所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。

作为优选，所述短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。

本发明的实质性效果是：通过解密方法初步判断密级，通过明文短语匹配监测识别涉密资料，及时发现正在泄露的资料，通过短语语义识别，及时发现风险数据传输活动，及时发出警告并由人工甄别，进一步提高数据安全性。

附图说明

图1为实施例一监测识别方法流程框图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的具体实施方式作进一步具体说明。

实施例一：

一种涉密数据的监测识别方法，如图1所示，为实施例一监测识别方法流程框图，本实施例包括以下步骤：A）获取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，发送非通用加解密方式资料的资质为按次限时发放；C）导入解密得到的明文，列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，而后回到步骤A重新执行，若短语与所有涉密关键词均不匹配则对短语进行语义识别，若语义识别成功则回到步骤A重新执行，若语义识别失败，则发出告警，而后回到步骤A重新执行。发送非通用加解密方式资料的资质为按次限时发放，超过次数或者超过时间均为无发送非通用加解密方式资料的资质，因而能够有效保护高密级资料的安全。

列举出现次数超过设定阈值N的短语的方法，包括以下步骤：C1）统计明文中每个单字出现的数量，并按升序排列形成排列E；C2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；C3）重复步骤C2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

对短语进行语义识别的方法包括以下步骤：C101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤C102，反之进入步骤C103；C102）将短语与人工标定表比对，若人工标定表中不存在与短语匹配的记录时，发出告警，并由人工标定，若短语不涉密则加入人工标定表，若短语涉密则进入涉密流程。

通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。

通用加密资料解密后，进行涉密关键词匹配能够识别通过普通加密方式进行的资料传输，此时发出告警能够及时发现涉密资料的外泄，若短语与涉密关键词均不匹配，则进行语义识别，若无法识别出语义，则列为风险数据传输，发出告警并由人工标注语义或发现泄密活动。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种涉密数据的监测识别方法，其特征在于，

包括以下步骤：

A）获取网关通信数据，使用通用解密方式解密数据，若解密成功则进入步骤C，若解密失败则进入步骤B；

B）验证数据发送源是否有资质发送非通用加解密方式资料，若有则回到步骤A重新执行，若无资质则发出告警，而后回到步骤A重新执行，所述发送非通用加解密方式资料的资质为按次限时发放；

C）导入解密得到的明文，列举明文中出现次数超过设定阈值N的短语，将所列举的短语与涉密关键词比对，若短语与涉密关键词匹配则发出告警，而后回到步骤A重新执行，若短语与所有涉密关键词均不匹配则对短语进行语义识别，若语义识别成功则回到步骤A重新执行，若语义识别失败，则发出告警，而后回到步骤A重新执行；

所述列举明文中出现次数超过设定阈值N的短语的方法包括以下步骤：

C1）统计明文中每个单字出现的数量，并按升序排列形成排列E；

C2）从排列E的第一个单字开始，将单字依次与后续的单字组成词e，在明文中搜索词e出现的次数，若词e在明文中出现次数超过设定阈值N，则将词e在明文中第一次出现时的前面的单字加入词e形成向前扩展词e，而后在明文中搜索，若向前扩展词e在明文中出现次数仍超过设定阈值N，则将向前扩展词e在明文中第一次出现时的前面的单字继续扩展，直到向前扩展词e在明文中出现次数仍低于设定阈值N，而后将词e在明文中第一次出现时的前面的单字加入向前扩展词e形成向后扩展词e，并统计向后扩展词e在明文中出现的次数，若出现次数仍超过设定阈值N，则继续向后扩展，直到向后扩展词e在明文中出现次数低于设定阈值N，将向后扩展词e列入出现次数超过设定阈值N的短语；

C3）重复步骤C2，直到遍历排列E，形成最终的出现次数超过设定阈值N的短语。

2.根据权利要求1所述的一种涉密数据的监测识别方法，其特征在于，

所述对短语进行语义识别的方法包括以下步骤：

C101）将短语在网关历史明文数据中搜索，若出现次数少于设定阈值Nt，则进入步骤C102，反之进入步骤C103；

C102）将短语与人工标定表比对，若人工标定表中不存在与所述短语匹配的记录时，发出告警，并由人工标定，若所述短语不涉密则加入人工标定表，若所述短语涉密则进入涉密流程。

3.根据权利要求1所述的一种涉密数据的监测识别方法，其特征在于，

所述通用解密方式包括行业通用加解密方式和企业自行制定的无需使用权限的加解密方式。

4.根据权利要求2所述的一种涉密数据的监测识别方法，其特征在于，

5.根据权利要求1所述的一种涉密数据的监测识别方法，其特征在于，

所述短语与涉密关键词匹配的方法为：依次计算短语与涉密关键词的相似度，将与短语相似度最高且相似度高于设定阈值的涉密关键词作为与短语匹配的涉密关键词。

6.根据权利要求2所述的一种涉密数据的监测识别方法，其特征在于，