CN108566372A

CN108566372A - 基于哈希算法的文件信息防泄漏方法、介质及设备

Info

Publication number: CN108566372A
Application number: CN201810172266.2A
Authority: CN
Inventors: 刘立军; 周建波; 汪楫人
Original assignee: Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd
Current assignee: Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-09-21

Abstract

本发明提供了一种基于哈希算法的文件信息防泄漏方法、介质及设备。所述方法，通过拦截数据传输过程中的待检测文件，计算待检测文件的待检测模糊哈希值，根据预先计算的样本文件的样本模糊哈希值，计算样本模糊哈希值与待检测模糊哈希值的相似度，再根据相似度判断待检测文件是否泄密，进而能够及时检测数据传输过程中的泄密文件，若泄密，则阻止待检测文件通过，这样，能够防止重要文件信息的泄露，保护重要信息。

Description

基于哈希算法的文件信息防泄漏方法、介质及设备

技术领域

本发明涉及信息防泄露技术领域，具体涉及一种基于哈希算法的文件信息防泄漏方法、介质及设备。

背景技术

在互联网领域中，数据的存在形式有多种多样，除存在于数据库内的数据之外，剩下的大多以各种文件形式存在，比如纯文本文件、有格式的文本文件、图片文件、声音文件等。网络用户经常会通过邮件附件，网上传送，U盘拷贝，光盘刻录等方式来传输文件，在传输过程中，并不会检测传输的文件是否为泄密文件，可能会引起重要信息泄露，造成不可挽回的损失。

发明内容

针对现有技术中的缺陷，本发明提供一种基于哈希算法的文件信息防泄漏方法、介质及设备，能够防止重要文件信息的泄露。

第一方面，本发明提供一种基于哈希算法的文件信息防泄漏方法，包括，信息防护过程：

拦截数据传输过程中的待检测文件；

计算所述待检测文件的待检测模糊哈希值；

根据预先计算的样本文件的样本模糊哈希值，计算所述样本模糊哈希值与待检测模糊哈希值的相似度；

根据所述相似度，判断所述待检测文件是否泄密；

阻止判断结果为泄密的所述待检测文件通过。

可选的，还包括，前期设置过程：

确定需要保护的样本文件以及样本文件的样本模糊哈希值；其中，所述样本文件包括至少一个样本文件；所述样本模糊哈希值包括至少一个样本模糊哈希值；

在泄露通道设置拦截文件的拦截助手。

可选的，所述待检测文件，包括：纯文本文件、有格式的文本文件、图片文件、音频文件、视频文件、混合文件中的一种或多种。

可选的，在信息防护过程中，所述计算所述待检测文件的待检测模糊哈希值，包括：

对所述待检测文件进行预处理；

计算预处理后的待检测文件的待检测模糊哈希值。

可选的，所述待检测文件，包括混合文件；

对所述待检测文件进行预处理，包括：

按内容形式对所述混合文件进行拆分；

将拆分内容生成至少一个单独文件。

可选的，在信息防护过程中，根据所述相似度，判断所述待检测文件是否泄密，包括：

将所述相似度与预设阈值进行对比，判断所述待检测文件是否泄密。

可选的，在信息防护过程中，计算所述待检测文件的待检测模糊哈希值，包括：

采用分配哈希算法、感知哈希算法和差异哈希算法中的一种或多种，计算所述待检测文件的待检测模糊哈希值。

可选的，在所述拦截数据传输过程中的待检测文件的步骤之后，还包括：

备份所述待检测文件。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述一种基于哈希算法的文件信息防泄漏方法。

第三方面，本发明提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种基于哈希算法的文件信息防泄漏方法。

本发明提供一种基于哈希算法的文件信息防泄漏方法，通过拦截数据传输过程中的待检测文件，计算待检测文件的待检测模糊哈希值，根据预先计算的样本文件的样本模糊哈希值，计算样本模糊哈希值与待检测模糊哈希值的相似度，再根据相似度判断待检测文件是否泄密，进而能够及时检测数据传输过程中的泄密文件，若泄密，则阻止待检测文件通过，这样，能够防止重要文件信息的泄露，保护重要信息。

本发明提供的一种计算机可读存储介质和一种计算机设备，与上述一种基于哈希算法的文件信息防泄漏方法出于相同的发明构思，具有相同的有益效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明提供的一种基于哈希算法的文件信息防泄漏方法中信息防护过程的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明提供了一种基于哈希算法的文件信息防泄漏方法、介质及设备。下面结合附图对本发明的实施例进行说明。

第一实施例：

请参考图1，图1为本发明第一实施例提供的一种基于哈希算法的文件信息防泄漏方法中信息防护过程的流程图，本实施例提供的一种基于哈希算法的文件信息防泄漏方法，包括，信息防护过程：

步骤S101：拦截数据传输过程中的待检测文件。

步骤S102：计算所述待检测文件的待检测模糊哈希值；

步骤S103：根据预先计算的样本文件的样本模糊哈希值，计算所述样本模糊哈希值与待检测模糊哈希值的相似度。

步骤S104：根据所述相似度，判断所述待检测文件是否泄密。

步骤S105：阻止判断结果为泄密的所述待检测文件通过。

通过拦截数据传输过程中的待检测文件，计算待检测文件的待检测模糊哈希值，根据预先计算的样本文件的样本模糊哈希值，计算样本模糊哈希值与待检测模糊哈希值的相似度，再根据相似度判断待检测文件是否泄密，进而能够及时检测数据传输过程中的泄密文件，若泄密，则阻止待检测文件通过，这样，能够防止重要文件信息的泄露，保护重要信息。

其中，待检测文件可以包括：纯文本文件、有格式的文本文件、图片文件、音频文件、视频文件、混合文件等中的一种或多种。其中，混合文件是指包含有文本、图片、音频、视频等格式的文件。

例如，纯文本文件(如各种编码的txt文件)；有格式的文本文件(如word文件、pdf文件等，此处只考虑内容均为文本的情况)；图片文件(如bmp文件、gif文件等)；音频文件(如mp3文件、aac文件等)；视频文件(如mp4文件、avi文件等)；混合文件(如word文件、ppt文件等，其中不仅有文本内容，还有图片等信息)。

在对信息进行防护之前，还包括：前期设置过程：确定需要保护的样本文件以及样本文件的样本模糊哈希值；其中，所述样本文件包括至少一个样本文件；所述样本模糊哈希值包括至少一个样本模糊哈希值；在泄露通道设置拦截文件的拦截助手。

在本发明中，可以包括一个或多个样本文件，这都在本发明的保护范围内。

在计算样本文件的样本模糊哈希值时，用的方法与计算待检测文件的待检测模糊哈希值的方法相同。

通过在泄露通道设置拦截文件的拦截助手，该拦截助手可以拦截通过泄露通道传输的待检测文件。

其中，泄露通道可以包括邮件附件、网上传送、U盘拷贝、光盘刻录等。通过拦截泄露通道传输的文件，再检测文件内容，判断文件内容是否为泄密信息，进而能够保护重要信息。

在本发明提供的一个具体实施例中，在信息防护过程中，所述计算所述待检测文件的待检测模糊哈希值，包括：对所述待检测文件进行预处理；计算预处理后的待检测文件的待检测模糊哈希值。

在对待检测文件进行预处理时，不同格式的文件需要做的处理工作不同，具体如下：

纯文本文件：这类文件需要做的就是编码格式的统一。可采用Apache Tika等内容分析工具，将文件转码为统一的UTF8格式文本文件。

有格式的文本文件：这类文件需要做去格式操作，即内容提取工作。这类文件同样可以用Apache Tika等内容分析工具，去提取转化文本为统一的UTF8格式的文本文件。

图片文件：这类文件目前不需要额外的处理。

音频文件：这类文件目前不需要额外的处理。

视频文件：这类文件目前不需要额外的处理。

混合文件：这类文件是比较复杂的。可以包括：按内容形式对所述混合文件进行拆分；将拆分内容生成至少一个单独文件。

具体处理方式有如下：

对混合文件的首要处理方式就是按文件内容形式进行拆分，即按文本、图片、音频和视频几类内容进行拆分，后续操作有几种方案，如下：

方案一：

直接将拆分内容生成多个单独文件。

例如，一个Word文件，其中由多段文本和多个图片，多个图片将多段文本分割开来。在拆分完文件内容后，将每段文本生成一个单独文件，这样，可以生成多个单独文件，每段文件对应一个单独文件。并且，每个图片对应一个图片文件，多个图片就会生成多个图片文件。

文件的命名方式：按文件名为根目录，并以主目录+编号规则进行命名。

方案二：

将拆分内容按类组合，然后再生成单独文件，即将拆分出的文本内容组合到一块，生成一个单独文件；图片、音频和视频内容不作合并处理，单独生成各类文件。

例如，一个Word文件，其中由多段文本和多个图片，多个图片将多段文本分割开来。在拆分完文件内容后，将每段文本合并起来生成一个单独文件。每个图片都生成一个图片文件。每个图片对应一个图片文件，多个图片就会生成多个图片文件。

以上方案各有侧重点，方案一，主要针对机密性比较高的文件，即文件中的内容哪怕只有一小部分被泄露就会产生重大的影响。方案二，主要针对机密性一般，整体泄露会产生重大影响，而一小部分内容泄露并不会产生重大影响的情况。

方案一与方案二各有优缺点。方案一处理精细，但速度会稍慢；方案二处理相对粗糙，但胜在速度较快。

在本发明提供的一个具体实施例中，在信息防护过程中，计算所述待检测文件的待检测模糊哈希值，包括：采用分片哈希算法、感知哈希算法和差异哈希算法等中的一种或多种，计算所述待检测文件的待检测模糊哈希值。

对于不同类型的文件，计算待检测模糊哈希值时采用的算法不同，具体如下：

针对文本文件：

处理的方法即利用当前比较成熟的基于文本分割的分片哈希算法(contexttriggered piecewise hashing,CTPH)进行处理，计算出文件的一个模糊哈希值。

算法如下：

1)分片：通常逐字节读取固定长度的内容，给弱哈希算法，得到一个哈希值。为便捷，通常可以采用滚动哈希算法(rolling hashing)。比如原来已经计算了abcdefgh的哈希值ha1，若需要计算cdefghi的哈希值时，不需要完全重新计算，只需要ha1-X(ab)+Y(i)即可。其中X和Y是两个函数，即只需要相应增减差量对哈希值的影响即可。

常用的Alder-32[4]算法、CRC32算法均可作为分片用的弱哈希算法。除了弱哈希算法还需要一个分片触发值n，由它来控制分片条件。

为了避免分片数量太小导致整个文件只触发一次分片条件，或者没有触发分片这种情况，可以根据文件的长度和文件的实际内容来决定如何分片。

2)求Hash值

求Hash值，可用传统的算法如MD5即可。也可以用Fowler-Noll-Vo hash[5]这样的哈希算法来求哈希值。

3)连接哈希值

将每片压缩后的哈希值连接在一起，即可得到整个文件的模糊哈希值。如果分片条件参数n对不同文件有不同的值，还需要将n纳入模糊哈希值中。

针对图片文件：

针对图片文件，可以利用感知哈希算法或差异哈希算法来计算出其模糊哈希值。

步骤如下：

1)缩小尺寸

通过缩小图片到一定程度(如常见的8X8，32X32等大小)以除去图片大小和纵横比的差异。

2)简化色彩

改变图片为灰度图以滤掉其冗杂无用信息。

3)计算平均值

计算图片的DCT变换，得到32*32的DCT系数矩阵。虽然DCT的结果是32*32大小的矩阵，但我们只要保留左上角的8*8的矩阵，这部分呈现了图片中的最低频率。然后计算DCT的均值。

4)计算hash值

这是最主要的一步，根据8*8的DCT矩阵，设置0或1的64位的hash值，大于等于DCT均值的设为”1”，小于DCT均值的设为“0”。组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。

针对音频文件：

针对音频文件，同样是通过哈希算法，比如Google的simhash，对音频文件的特征值(提取方法一般可通过傅里叶变换，对其形状进行处理，比如向上趋势为1，向下趋势为0，类似的方式来提取其特征值)进行处理，得到其模糊哈希值。

通过傅里叶变换，将音频叠加得出特征值,即为音频的模糊哈希值。

针对视频文件：

针对视频文件同样通过模糊哈希算法，对视频关键帧提取其SURF特征后，得到的BOVW(bag of words，视觉词袋模型)向量进行处理，然后取得视频模糊哈希值。

步骤如下：

1)Hession矩阵构建以提取关键点

a)对每个像素点计算图像在X方向Y方向的二阶偏导数，计算图像的XY方向的导数

b)根据第一步的计算结果，有Hessian Matrix计算D(h)＝Ixx*Iyy-Ixy*Ixy

其中Ixx表示X方向的二阶偏导数；Iyy表示Y方向的二阶偏导数；Ixy表XY方向的二阶导数。

c)根据第二步计算出来的值使用3×3窗口实现非最大信号压制

2)尺度空间生成

3)利用非极大值抑制初步确定特征点和精确定位特征点

将经过hessian矩阵处理过的每个像素点与其3维领域的26个点进行大小比较，如果它是这26个点中的最大值或者最小值，则保留下来，当做初步的特征点。检测过程中使用与该尺度层图像解析度相对应大小的滤波器进行检测，以3×3的滤波器为例，该尺度层图像中9个像素点之一.然后，采用3维线性插值法得到亚像素级的特征点，同时也去掉那些值小于一定阈值的点，增加极值使检测到的特征点数量减少，最终只有几个特征最强点会被检测出来。

4)选取特征点主方向确定

为了保证旋转不变性，在SURF中，不统计其梯度直方图，而是统计特征点领域内的Harr小波特征。即以特征点为中心，计算半径为6s(S为特征点所在的尺度值)的邻域内，统计60度扇形内所有点在x(水平)和y(垂直)方向的Haar小波响应总和(Haar小波边长取4s)，并给这些响应值赋高斯权重系数，使得靠近特征点的响应贡献大，而远离特征点的响应贡献小，然后60度范围内的响应相加以形成新的矢量，遍历整个圆形区域，选择最长矢量的方向为该特征点的主方向。这样，通过特征点逐个进行计算，得到每一个特征点的主方向。

5)构造SURF特征点描述算子。

6)之后采用K-means方法对得到的特征向量进行聚类得到真正无冗余的特征表示视觉词袋向量。

通过以上步骤可以得到视频模糊哈希值。

在本发明中，在计算完待测文件的待检测模糊哈希值后，需要将样本模糊哈希值与待检测模糊哈希值进行对比，获得相似度。可以采用海明距离或最小编辑距离等距离算法来计算出距离值，以此值来评估相似度。

具体计算方法为：

对于不同hash算法，得到的哈希值类型不同。对于相同长度的二进制码类型，可计算海明距离，根据计算出的海明距离与整个二进制码串的长度相除，得到的比值乘以100，即映射到0－100的整个数据值。100表示完全一致。0表示完全不相似。

详细如下：

11011xor 01101＝10110

即有3个1，表示海明距离为3。

(5-3)/5*100＝40

即相似度为40。

同样道理，对于ASCII字符类型，可计算其“加权编辑距离”(weighted editdistance)作为评价依据。

如：设有两个文件的模糊哈希值分别为s1和s2，同时，设操作及权重配置如下：

***：1

删除：1

修改：2

然后计算最小编辑距离，原理如下：

建立动态规划方程如下：

其中：

用edit[i][j]表示s1和s2的编辑距离。edit[i][j]表示s1串从第0个字符开始到第i个字符和s2串从第0个字符开始到第j个字符，这两个字串的编辑距离。字符串的下标从1开始。

edit[0][0]表示s1和s2都为空的时候，此时他们的Edit Distance为0。很明显可以得出的，edit[0][j]就是s1为空，s2长度为j的情况，此时他们的Edit Distance为j，也就是从空，添加j个字符转换成s2的最小Edit Distance为j；同理edit[i][0]就是，s1长度为i，s2为空时，s1需要删除i个字符才能转换成空，所以转换成s2的最小Edit Distance为i。

上式中的min()函数中的三个部分，对应三种字符操作方式：

edit[i-1][j]+1相当于给s2的最后***了s1的最后的字符，***操作使得edit+1，之后计算edit[i-1][j]；

edit[i][j-1]+1相当于将s2的最后字符删除，删除操作edit+1，之后计算edit[i][j-1]；

edit[i-1][j-1]+flag相当于通过将s2的最后一个字符替换为s1的最后一个字符。flag标记替换的有效次数。

在本发明提供的一个具体实施例中，在信息防护过程中，根据所述相似度，判断所述待检测文件是否泄密，包括：将所述相似度与预设阈值进行对比，判断所述待检测文件是否泄密。

在本发明中，可以包括多个样本文件，且每个样本文件的重要程度可以不同，不同重要程度的样本文件的预设阈值不同，对于较重要的样本文件，可以通过降低结果阈值来尽可能防止信息外泄。例如，设置阈值为60％左右。

对于一般重要文件，可设置相对较高的阈值来防止文件信息外泄。例如，设置80％左右。

在本发明中，预设阈值可以经过多次的比较评估进行设定。可以根据需求做多次测试，得到一个相对合适的结果。

例如，设置一个样本文件，并计算该样本文件的样本模糊哈希值，再采集多个待检测文件，按照上述方法，计算待检测文件的待检测模糊哈希值与样本模糊哈希值进行对比，获得相似度，其中，待检测文件可以包括包含有样本文件信息的内容，寻找合适的相似度，利用该相似度，能够检测出多个待检测文件中的含有样本文件信息内容的待检测文件，然后将该相似度作为阈值。

在本发明提供的一个具体实施例中，在所述拦截数据传输过程中的待检测文件的步骤之后，还包括：备份所述待检测文件。

在拦截到待检测文件后，还可以备份待检测文件，可以留作之后查询的证据。

在得到判断结果后，如果判断该待检测文件为泄密文件，则阻止该待检测文件通过；同时，还可以向管理终端发送判断结果信息。

如果判断该待检测文件非泄密文件，则放行该待检测文件；同时还可以向管理终端发送判断结果新。

以上，为本发明提供的一种基于哈希算法的文件信息防泄漏方法。

第二实施例：

在上述的第一实施例中，提供了一种基于哈希算法的文件信息防泄漏方法，结合上述第一实施例，本发明第二实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一实施例提供的一种重定向访问请求的方法。

由上述技术方案可知，本实施例提供的计算机可读存储介质，能够在处理器的控制下，拦截数据传输过程中的待检测文件，计算待检测文件的待检测模糊哈希值，根据预先计算的样本文件的样本模糊哈希值，计算样本模糊哈希值与待检测模糊哈希值的相似度，再根据相似度判断待检测文件是否泄密，进而能够及时检测数据传输过程中的泄密文件，若泄密，则阻止待检测文件通过，这样，能够防止重要文件信息的泄露，保护重要信息。

第三实施例：

结合第一实施例提供的一种基于哈希算法的文件信息防泄漏方法，本发明还提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一实施例提供的一种基于哈希算法的文件信息防泄漏方法。

由上述技术方案可知，本实施例提供的计算机设备，可以拦截数据传输过程中的待检测文件，计算待检测文件的待检测模糊哈希值，根据预先计算的样本文件的样本模糊哈希值，计算样本模糊哈希值与待检测模糊哈希值的相似度，再根据相似度判断待检测文件是否泄密，进而能够及时检测数据传输过程中的泄密文件，若泄密，则阻止待检测文件通过，这样，能够防止重要文件信息的泄露，保护重要信息。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于哈希算法的文件信息防泄漏方法，其特征在于，包括，信息防护过程：

拦截数据传输过程中的待检测文件；

计算所述待检测文件的待检测模糊哈希值；

根据所述相似度，判断所述待检测文件是否泄密；

阻止判断结果为泄密的所述待检测文件通过。

2.根据权利要求1所述的方法，其特征在于，还包括，前期设置过程：

在泄露通道设置拦截文件的拦截助手。

3.根据权利要求1所述的方法，其特征在于，所述待检测文件，包括：纯文本文件、有格式的文本文件、图片文件、音频文件、视频文件、混合文件中的一种或多种。

4.根据权利要求3所述的方法，其特征在于，在信息防护过程中，所述计算所述待检测文件的待检测模糊哈希值，包括：

对所述待检测文件进行预处理；

计算预处理后的待检测文件的待检测模糊哈希值。

5.根据权利要求4所述的方法，其特征在于，所述待检测文件，包括混合文件；

对所述待检测文件进行预处理，包括：

按内容形式对所述混合文件进行拆分；

将拆分内容生成至少一个单独文件。

6.根据权利要求1所述的方法，其特征在于，在信息防护过程中，根据所述相似度，判断所述待检测文件是否泄密，包括：

7.根据权利要求1所述的方法，其特征在于，在信息防护过程中，计算所述待检测文件的待检测模糊哈希值，包括：

8.根据权利要求1所述的方法，其特征在于，在所述拦截数据传输过程中的待检测文件的步骤之后，还包括：

备份所述待检测文件。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8之一所述的方法。

10.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8之一所述的方法。