CN105843916A

CN105843916A - 基于文件归并的敏感数据检测方法及设备

Info

Publication number: CN105843916A
Application number: CN201610173130.4A
Authority: CN
Inventors: 李梦雅; 张敬强; 耿鹏飞
Original assignee: Upper Marine Infotech Share Co Ltd Of Interrogating
Current assignee: Upper Marine Infotech Share Co Ltd Of Interrogating
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2016-08-10

Abstract

本申请提供一种基于文件归并的敏感数据检测方法及设备，用以解决现有技术中无法实现对分片传输的文件进行监控的问题。具体地，获取用户传输的分片文件以及所述分片文件的属性信息；基于分片文件的属性信息对所述分片文件进行合并，生成合并文件；对所述合并文件进行敏感数据检测。与现有技术相比，在监测用户传输的分片文件时，同时获取所述分片文件的属性信息，并基于所述属性信息对所述分片文件进行合并，尽量将所述分片文件合并成完整的文件，再对其进行敏感数据检测，从而实现对分片传输的文件进行监控，提升对敏感信息的监控能力。

Description

基于文件归并的敏感数据检测方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种基于文件归并的敏感数据检测方法及设备。

背景技术

在企业内网终端上都存在一些不允许被泄漏到企业应用环境之外的敏感信息，如技术文档、源代码等，而且随着网络技术的不断发展，泄露方式多样化，如云盘上传、通讯软件传输、邮件发送等。为了对敏感信息的泄露进行监控，现有技术中主要采用以下几种方法：

1)在用户客户端本地安装监控客户端，监控本地程序如即时通讯工具、邮件客户端、浏览器等，在本地程序访问文件之前对文件进行分析并报警。采用本地客户端进行监控，需要针对不同客户端***环境，及不同的应用程序开发不同的客户端，开发成本较大，部署时需要对每一台客户端进行安装，部署成本大，遗漏风险高。

2)使用专门的服务器对用户传输数据时的网络流量进行监控，通过协议分析找出敏感数据进行进一步分析并报警。本方案只需要部署在企业内网的接入点，部署成本较小，但是仅能对完整文件进行检测。若用户采用断点续传等方式将文件分片传输，则无法实现监控。

申请内容

本申请的一个目的是提供一种基于文件归并的敏感数据检测方法及设备，用以解决现有技术中无法实现对分片传输的文件进行监控的问题。

为实现上述目的，本申请提供了一种基于文件归并的敏感数据检测方法，该方法包括：

获取用户传输的分片文件以及所述分片文件的属性信息；

基于分片文件的属性信息对所述分片文件进行合并，生成合并文件；

对所述合并文件进行敏感数据检测。

进一步地，所述属性信息包括用于确定分片文件归属的标记信息以及用于确定分片文件在合并文件中的写入位置的偏移信息；

基于分片文件的属性信息对所述分片文件进行合并，生成合并文件，包括：

根据所述标记信息确定属于同一原始文件的分片文件；

根据所述偏移信息确定分片文件在原始文件中的写入位置，对属于同一原始文件的分片文件进行合并，生成合并文件。

进一步地，所述标记信息包括所述分片文件的文件名、文件格式以及传输时的IP地址、端口。

进一步地，对所述合并文件进行敏感数据检测，包括：

对所述合并文件进行完整性检测，若所述合并文件为完整文件，则对所述完整文件进行敏感数据检测。

进一步地，对所述合并文件进行完整性检测，包括：

基于原始文件大小、原始文件哈希值或原始文件格式对所述合并文件进行完整性检测。

进一步地，该方法还包括：

若所述合并文件为不完整文件，根据偏移信息判断所述合并文件是否位于原始文件的起始位置；

若为是，则对所述合并文件进行敏感数据检测。

进一步地，该方法还包括：

获取所述分片文件对应的用户的过滤信息；

对所述合并文件进行敏感数据检测，包括：

根据所述过滤信息对所述合并文件进行白名单过滤，确定待检测的合并文件；

对所述待检测的合并文件进行敏感数据检测。

基于本申请的另一方面，还提供了一种基于文件归并的敏感数据检测设备，该设备包括：

获取装置，用于获取用户传输的分片文件以及所述分片文件的属性信息；

合并装置，用于基于分片文件的属性信息对所述分片文件进行合并，生成合并文件；

检测装置，用于对所述合并文件进行敏感数据检测。

所述合并装置，用于根据所述标记信息确定属于同一原始文件的分片文件，以及根据所述偏移信息确定分片文件在原始文件中的写入位置，对属于同一原始文件的分片文件进行合并，生成合并文件。

进一步地，所述检测装置，用于对所述合并文件进行完整性检测，若所述合并文件为完整文件，则对所述完整文件进行敏感数据检测。

进一步地，所述检测装置，用于基于原始文件大小、原始文件哈希值或原始文件格式对所述合并文件进行完整性检测。

进一步地，所述检测装置，还用于在所述合并文件为不完整文件时，根据偏移信息判断所述合并文件是否位于原始文件的起始位置，以及在判断结果为是时，对所述合并文件进行敏感数据检测。

进一步地，所述获取装置，还用于获取所述分片文件对应的用户的过滤信息；

所述检测装置，用于根据所述过滤信息对所述合并文件进行白名单过滤，确定待检测的合并文件，对所述待检测的合并文件进行敏感数据检测。

与现有技术相比，本申请的技术方案在监测用户传输的分片文件时，同时获取所述分片文件的属性信息，并基于所述属性信息对所述分片文件进行合并，尽量将所述分片文件合并成完整的文件，再对其进行敏感数据检测，从而实现对分片传输的文件进行监控，提升对敏感信息的监控能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种基于文件归并的敏感数据检测方法的流程图；

图2为本申请实施例提供的一种基于文件归并的敏感数据检测方法的部署示意图；

图3为本申请实施例提供的一种基于文件归并的敏感数据检测方法中分片文件合并的详细处理流程图；

图4为本申请实施例提供的一种基于文件归并的敏感数据检测方法中分片文件合并过程的示意图；

图5为本申请实施例提供的一种基于文件归并的敏感数据检测方法中敏感数据检测的详细处理流程图；

图6为本申请实施例提供的一种基于文件归并的敏感数据检测设备的结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出了本申请实施例提供的一种基于文件归并的敏感数据检测方法，该方法包括以下步骤：

步骤S101，获取用户传输的分片文件以及所述分片文件的属性信息。

步骤S102，基于分片文件的属性信息对所述分片文件进行合并，生成合并文件。

步骤S103，对所述合并文件进行敏感数据检测。

该方案在监测用户传输的分片文件时，同时获取所述分片文件的属性信息，并基于所述属性信息对所述分片文件进行合并，尽量将所述分片文件合并成完整的文件，再对其进行敏感数据检测，从而实现对分片传输的文件进行监控，提升对敏感信息的监控能力。

该方案可以部署在网关处，在用户向外部互联网发送的数据时，基于网络协议解析数据，然后实现分片文件的归并，进行敏感数据解析，如图2所示。其中，获取分片文件的方式时可以针对不同的网络协议进行解析，例如HTTP、FTP、SMTP、POP3、IMAP等，进行相应的流量分析，提取用户传输的数据，例如邮件的附件、论坛发帖内容、网盘上传的文件等。在获取到上述分片文件的同时，获取这些分片文件的属性信息，并保存在缓存或者数据库中，在满足条件时对分片文件进行合并。

具体地，所述属性信息可以包括用于确定分片文件归属的标记信息以及用于确定分片文件在合并文件中的写入位置的偏移信息。基于所述标记信息和偏移信息，所述步骤S102具体包括以下步骤，如图3所示：

步骤S1021，根据所述标记信息确定属于同一原始文件的分片文件。

例如，所述标记信息可以是IP地址、端口、文件名、文件格式等信息中的一个或者多个，根据实际监测的文件传输方式的不同，可以采用不同的组合。例如，在本实施例中，若获取到的多个分片文件的文件名符合预设条件、文件格式相同，并且传输时的IP地址、端口也相同，则可以确定这些分片文件由同一原始文件拆分而出，是属于同一原始文件的分片文件。

步骤S1022，根据所述偏移信息确定分片文件在原始文件中的写入位置，对属于同一原始文件的分片文件进行合并，生成合并文件。

所述偏移信息的形式可以为整型数字，单位为字节。若某一分片文件的偏移信息为12345，则表示该分片文件的位于原始文件的12345字节处。由此，将属于同一原始文件的分片文件进行合并，生成合并文件。

分片文件合并的处理流程一般如图4所示，在获取到用户的数据时，先判断是否是分片文件，若属于分片文件，根据标记信息由数据库中取出属于同一原始文件的其它分片文件，然后进行合并，若没有其它分片文件，则将获取到的分片文件存入数据库中等待可以与其进行合并的其它分片文件。

在实际场景中，为提高响应速度，在每次获取到分片文件时，都对尝试对该分片文件进行合并。例如，在获取到原始文件a的分片文件a1时，提取该文件的标记信息与数据库中已有的分片文件的标记信息进行匹配，如果查找到属于同一原始文件的其它分片文件a2，则根据偏移信息对其进行合并，生成包含分片a1和a2的合并文件。

基于上述场景，若合并文件并非完整文件或者完整度未达到要求，此时对其进行敏感数据检测将没有意义。因此，在敏感数据检测时，可以先对合并文件进行文件完整性的检测，以确定该合并后的文件是否是完整的文件。具体地，所述步骤S103包括：对所述合并文件进行完整性检测，若所述合并文件为完整文件，则对所述完整文件进行敏感数据检测。

对合并文件进行完整性检测的方式包括但不限于以下方式：例如基于原始文件哈希值，采用MD5(Message-Digest Algorithm 5，信息摘要算法第五版)等算法，将合并文件和对应的原始文件的哈希值进行对比，若一致，则确定所述合并文件为完整文件；还如可以基于原始文件大小，将合并文件和对应的原始文件的大小进行比较，若一致，则确定所述合并文件为完整文件；此外，还可以基于原始文件格式，例如对于rar/zip等压缩文件格式，能够通过格式信息判断文件是否完整，可以尝试打开合并的压缩文件，若文件不完整，则无法打开。在实际场景中，可以根据实际需求采用任意一种或者多种方式的结合进行完整性的校验，此外，本领域技术人员应当理解，上述对合并文件进行完整性检测的方式仅为举例，其他现有的或今后可能出现的其它方式如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

进一步地，对于完整度达到一定要求的不完整文件，可以进行后续的敏感数据检测。具体地，该方法还包括：若所述合并文件为不完整文件，根据偏移信息判断所述合并文件是否位于原始文件的起始位置；若为是，则对所述合并文件进行敏感数据检测。对于大部分类型的文件，在获取到从起始位置开始的连续数据之后，也可以对其进行敏感数据检测，提升本方案对于分片文件中敏感数据的监测能力。

此外，本申请实施例还提供了一种优选的基于文件归并的敏感数据检测方法，该方法还包括：获取所述分片文件对应的用户的过滤信息。且所述步骤S103具体包括如图5所示的步骤：

步骤S1031，根据所述过滤信息对所述合并文件进行白名单过滤，确定待检测的合并文件。

步骤S1032，对所述待检测的合并文件进行敏感数据检测。

所述过滤信息可以是任意可以识别用户身份的信息，例如传输分片文件的用户在传输时所使用的IP地址，对于通过邮件传输的场景，还可以包括发件人信息等数据。例如，基于SMTP协议分析获取到邮件的附件，此时提取的过滤信息包括发件人IP地址、发件人邮箱地址等。在进行敏感数据检测之前，先对过滤信息进行白名单过滤，如果用户的过滤信息中符合预设的白名单上的某些属性，则可以无需进行敏感数据检测。由此，方便企业为敏感数据设置特定的出口，提高敏感数据监测的灵活性。

若待检测的合并文件被检测出包含敏感数据，可以进一步触发报警等操作，告知特定用户(如管理员)进行后续处理。例如，可以上报发送者的IP地址、邮箱地址等，以便于定位发送者。

基于本申请的另一方面，还提供了一种基于文件归并的敏感数据检测设备，该设备的结构如图6所示，包括获取装置610、合并装置620和检测装置630。具体地，所述获取装置610用于获取用户传输的分片文件以及所述分片文件的属性信息；所述合并装置620用于基于分片文件的属性信息对所述分片文件进行合并，生成合并文件；所述检测装置630用于对所述合并文件进行敏感数据检测。

在此，所述设备可以包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备，例如服务器、或者服务器和用户的浏览器通过网络相集成所构成的设备。所述用户设备包括但不限于个人计算机、触控终端等实现；所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(Cloud Computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。

该方案可以部署在网关处，在用户向外部互联网发送的数据时，基于传输的网络协议解析数据，然后实现分片文件的归并，进行敏感数据解析，如图2所示。其中，获取分片文件的方式时可以针对不同的网络协议进行解析，例如HTTP、FTP、SMTP、POP3、IMAP等，进行相应的流量分析，提取用户传输的数据，例如邮件的附件、论坛发帖内容、网盘上传的文件等。在获取到上述分片文件的同时，获取这些分片文件的属性信息，并保存在缓存或者数据库中，在满足条件时对分片文件进行合并。

具体地，所述属性信息可以包括用于确定分片文件归属的标记信息以及用于确定分片文件在合并文件中的写入位置的偏移信息。所述合并装置620具体用于根据所述标记信息确定属于同一原始文件的分片文件，以及根据所述偏移信息确定分片文件在原始文件中的写入位置，对属于同一原始文件的分片文件进行合并，生成合并文件。

基于上述场景，若合并文件并非完整文件或者完整度未达到要求，此时对其进行敏感数据检测将没有意义。因此，在敏感数据检测时，可以先对合并文件进行文件完整性的检测，以确定该合并后的文件是否是完整的文件。具体地，所述检测装置630用于对所述合并文件进行完整性检测，若所述合并文件为完整文件，则对所述完整文件进行敏感数据检测。

进一步地，对于完整度达到一定要求的不完整文件，可以进行后续的敏感数据检测。具体地，所述检测装置630还用于在所述合并文件为不完整文件时，根据偏移信息判断所述合并文件是否位于原始文件的起始位置，以及在判断结果为是时，对所述合并文件进行敏感数据检测。对于大部分类型的文件，在获取到从起始位置开始的连续数据之后，也可以对其进行敏感数据检测，提升本方案对于分片文件中敏感数据的监测能力。

此外，本申请实施例还提供了一种优选的基于文件归并的敏感数据检测设备，该设备中所述获取装置610还用于获取所述分片文件对应的用户的过滤信息；所述检测装置620用于根据所述过滤信息对所述合并文件进行白名单过滤，确定待检测的合并文件，对所述待检测的合并文件进行敏感数据检测。

综上所述，本申请的技术方案在监测用户传输的分片文件时，同时获取所述分片文件的属性信息，并基于所述属性信息对所述分片文件进行合并，尽量将所述分片文件合并成完整的文件，再对其进行敏感数据检测，从而实现对分片传输的文件进行监控，提升对敏感信息的监控能力。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于文件归并的敏感数据检测方法，其中，该方法包括：

获取用户传输的分片文件以及所述分片文件的属性信息；

对所述合并文件进行敏感数据检测。

2.根据权利要求1所述的方法，其中，所述属性信息包括用于确定分片文件归属的标记信息以及用于确定分片文件在合并文件中的写入位置的偏移信息；

根据所述标记信息确定属于同一原始文件的分片文件；

3.根据权利要求2所述的方法，其中，所述标记信息包括所述分片文件的文件名、文件格式以及传输时的IP地址、端口。

4.根据权利要求1所述的方法，其中，对所述合并文件进行敏感数据检测，包括：

5.根据权利要求4所述的方法，其中，对所述合并文件进行完整性检测，包括：

6.根据权利要求4或5所述的方法，其中，该方法还包括：

若为是，则对所述合并文件进行敏感数据检测。

7.根据权利要求1所述的方法，其中，该方法还包括：

获取所述分片文件对应的用户的过滤信息；

对所述合并文件进行敏感数据检测，包括：

对所述待检测的合并文件进行敏感数据检测。

8.一种基于文件归并的敏感数据检测设备，其中，该设备包括：

检测装置，用于对所述合并文件进行敏感数据检测。

9.根据权利要求8所述的设备，其中，所述属性信息包括用于确定分片文件归属的标记信息以及用于确定分片文件在合并文件中的写入位置的偏移信息；

10.根据权利要求9所述的设备，其中，所述标记信息包括所述分片文件的文件名、文件格式以及传输时的IP地址、端口。

11.根据权利要求8所述的设备，其中，所述检测装置，用于对所述合并文件进行完整性检测，若所述合并文件为完整文件，则对所述完整文件进行敏感数据检测。

12.根据权利要求11所述的设备，其中，所述检测装置，用于基于原始文件大小、原始文件哈希值或原始文件格式对所述合并文件进行完整性检测。

13.根据权利要求11或12所述的设备，其中，所述检测装置，还用于在所述合并文件为不完整文件时，根据偏移信息判断所述合并文件是否位于原始文件的起始位置，以及在判断结果为是时，对所述合并文件进行敏感数据检测。

14.根据权利要求8所述的设备，其中，所述获取装置，还用于获取所述分片文件对应的用户的过滤信息；