CN104506545B - 数据泄露防护方法及装置 - Google Patents

数据泄露防护方法及装置 Download PDF

Info

Publication number
CN104506545B
CN104506545B CN201410844357.8A CN201410844357A CN104506545B CN 104506545 B CN104506545 B CN 104506545B CN 201410844357 A CN201410844357 A CN 201410844357A CN 104506545 B CN104506545 B CN 104506545B
Authority
CN
China
Prior art keywords
data
data content
server
sensitive data
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410844357.8A
Other languages
English (en)
Other versions
CN104506545A (zh
Inventor
许立广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201410844357.8A priority Critical patent/CN104506545B/zh
Publication of CN104506545A publication Critical patent/CN104506545A/zh
Application granted granted Critical
Publication of CN104506545B publication Critical patent/CN104506545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据泄露防护方法及装置,其中,所述方法包括:获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包;从所述网络封包中解析出所需传输的数据内容;判断当前数据内容中是否包括敏感性数据;如果所述数据内容中包括所述敏感性数据,则获取与所述指定进程对应的控制策略,根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。上述方法提高了数据的外发效率,减少资源浪费,降低负载,提高了用户体验。

Description

数据泄露防护方法及装置
技术领域
本发明涉及网络安全技术,具体涉及一种数据泄露防护方法及装置。
背景技术
随着信息技术的飞速发展,计算机和网络已成为日常办公、通讯交流和协作互动的必备工具和途径。但是,信息***在提高人们工作效率的同时,也对信息的存储、访问控制及信息***中的终端及服务器的访问控制提出了安全需求。目前,信息安全日益成为企业安全管理和风险控制的核心内容。许多企业为了防止员工在外发数据时造成的信息泄露,在其内部网络中部署了数据防泄漏(Data Loss Prevent,简称DLP)服务器,以保护其数据安全。
现有的DLP实现方案中,可以通过网页代理(web proxy)服务器或者邮件传送代理服务器将来自客户端的外发的数据(网页数据或者邮件)传输到DLP服务器中,DLP服务器采用现有算法对外发的数据流中的数据的安全性进行判定,发送通过安全性判定的数据至目的地址,拦截未通过安全性判定的数据或者选择性的发送该数据至目的地址。
现有技术中,DLP服务器在进行安全性判定时,对于***监控范围内的所有用户的外发数据都执行同样的判定流程,导致外发数据的安全性判定时延较大,影响数据的外发效率,影响用户体验。
现有技术中另一种方案是对客户端中所有文件进行加密,使得有权限的终端才能解密打开,否则打开是乱码,该方案对于很多不涉密的文件也进行加密,造成了资源的浪费,且加重了设备的负载。
发明内容
针对现有技术中的缺陷,本发明提供了一种数据泄露防护方法及装置,该方法能够提高数据的外发效率,减少资源浪费,降低负载,提高用户体验。
第一方面,本发明提供一种数据泄露防护装置,包括:
数据内容获取单元,用于获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从所述网络封包中解析出所需传输的数据内容;
判断单元,用于判断当前数据内容中是否包括敏感性数据;
控制策略获取单元,用于在所述判断单元确定所述数据内容中包括所述敏感性数据时,获取与所述指定进程对应的控制策略;
控制单元,用于根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
可选地,所述数据内容包括:
即时通信的聊天信息,和/或,即时通信传输的图片/文档。
可选地,所述装置还包括:
接收单元,用于在判断单元之前,接收服务器发送的至少一个判断规则;
相应地,所述判断单元,具体用于根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据。
可选地,所述判断规则为:正则表达式,或者模式匹配规则;
或者,所述判断规则为所述服务器训练预设的敏感性数据获取的关键字匹配规则。
可选地,控制策略获取单元,具体用于
向服务器发送所述指定进程的控制策略请求;
接收所述服务器根据所述控制策略请求发送的所述指定进程对应的控制策略。
可选地,所述装置还包括:
发送单元,用于向服务器上传所述终端中缓存的操作行为记录,以使所述服务器根据所述操作行为记录确定所述敏感性数据传输的路径。
可选地,所述装置还包括:
发送单元,用于在判断单元判断当前数据内容中不包括敏感性数据时,将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据;
接收单元,用于在所述服务器确定所述数据内容中包括敏感性数据时,接收所述服务器发送的所述数据内容包括敏感性数据的信息;
相应地,控制策略获取单元,还用于在所述接收单元接收所述信息之后,获取与所述指定进程对应的控制策略。
可选地,所述判断单元,具体用于
将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,以及
接收所述服务器发送的所述数据内容中是否包括敏感性数据的信息。
可选地,所述控制单元,具体用于
在所述指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,禁止当前打印操作,并在所述客户端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,
在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,采用标识乱码的字段替换所述指定进程对应的需要传输的数据内容中的部分/全部信息。
第二方面,本发明提供一种服务器,包括:
接收单元,用于接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
判断单元,用于根据相似度匹配规则确定所述数据内容中是否包括敏感性数据;
发送单元,用于在判断单元确定所述数据内容中包括敏感性数据时,向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
可选地,所述发送单元,还用于
在所述接收单元接收所述数据内容之前或之后,向所述数据泄露防护装置发送至少一个判断规则;
和/或,
所述接收单元,在接收所述数据内容之前或之后,接收所述数据泄露防护装置发送的指定进程的控制策略请求;
所述发送单元,还用于根据所述控制策略请求,向所述数据泄露防护装置发送指定进程对应的控制策略。
可选地,所述服务器还包括:
规则建立单元,用于根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
可选地,所述判断单元,具体用于
获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
在所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值时,确定所述数据内容中包括敏感性数据。
可选地,所述判断单元,具体用于
采用词频TF方式建立所述关键词对应所述数据内容的关键词向量,采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
在所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值时,确定所述数据内容中包括敏感性数据。
第三方面,本发明提供一种数据泄露防护方法,包括:
获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包;
从所述网络封包中解析出所需传输的数据内容;
判断当前数据内容中是否包括敏感性数据;
如果所述数据内容中包括所述敏感性数据,则获取与所述指定进程对应的控制策略,根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
可选地,从所述网络封包中解析出所需传输的数据内容,包括:
即时通信的聊天信息,和/或,即时通信传输的图片/文档。
可选地,所述判断当前数据内容中是否包括敏感性数据之前,所述方法还包括:
接收服务器发送的至少一个判断规则;
相应地,判断当前数据内容中是否包括敏感性数据,包括:
根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据。
可选地,所述判断规则为:正则表达式,或者模式匹配规则;
或者,所述判断规则为所述服务器训练预设的敏感性数据获取的关键字匹配规则。
可选地,所述获取与所述指定进程对应的控制策略,包括:
向服务器发送所述指定进程的控制策略请求;
接收所述服务器根据所述控制策略请求发送的所述指定进程对应的控制策略。
可选地,所述方法还包括:
向服务器上传所述终端中缓存的操作行为记录,以使所述服务器根据所述操作行为记录确定所述敏感性数据传输的路径。
可选地,所述判断当前数据内容中是否包括敏感性数据之后,所述方法还包括:
如果所述数据内容中不包括敏感性数据,则将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,
在所述服务器确定所述数据内容中包括敏感性数据时,接收所述服务器发送的所述数据内容包括敏感性数据的信息,并执行获取与所述指定进程对应的控制策略的步骤。
可选地,所述判断当前数据内容中是否包括敏感性数据,包括:
将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,以及
接收所述服务器发送的所述数据内容中是否包括敏感性数据的信息。
可选地,在所述指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,所述根据与指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制,包括:
禁止当前打印操作,并在所述客户端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,
在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,所述根据与指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制,包括:
采用标识乱码的字段替换所述指定进程对应的需要传输的数据内容中的部分/全部信息。
第四方面,本发明提供一种数据泄露防护方法,包括:
接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
根据相似度匹配规则确定所述数据内容中是否包括敏感性数据;
如果确定所述数据内容中包括敏感性数据,则向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
可选地,所述接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容之前或之后,所述方法还包括:
向所述数据泄露防护装置发送至少一个判断规则;
和/或,
接收所述数据泄露防护装置发送的指定进程的控制策略请求,根据所述控制策略请求,向所述数据泄露防护装置发送指定进程对应的控制策略。
可选地,所述接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容之前,所述方法还包括:
根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
可选地,根据相似度匹配规则确定所述数据内容中是否包括敏感性数据,包括:
获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
如果所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值,则确定所述数据内容中包括敏感性数据。
可选地,所述建立所述关键词对应所述数据内容中各数据的关键词向量,包括:
采用词频TF方式建立所述关键词对应所述数据内容的关键词向量;
建立所述特征词对应所述敏感性数据的特征词向量,包括:
采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量。
由上述技术方案可知,本发明提供的一种数据泄露防护方法及装置,防护方法能够获取指定进程的操作行为,截获终端中来自指定进程的网络封包,进而从网络封包中解析出所需传输的数据内容,进而确定该数据内容是否包括敏感性数据,在数据内容中包括敏感性数据时,根据指定进程对应的控制策略对网络包/操作行为进行控制。由此,上述方法能够提高数据的外发效率,减少资源浪费,降低负载,提高用户体验。
附图说明
图1为本发明一实施例提供的数据泄露防护方法的流程示意图;
图2为本发明另一实施例提供的数据泄露防护方法的流程示意图;
图3为本发明另一实施例提供的数据泄露防护方法的流程示意图;
图4为本发明另一实施例提供的数据泄露防护方法的流程示意图;
图5为本发明另一实施例提供的数据泄露防护方法的流程示意图;
图6A为本发明一实施例提供的词项倒排索引表的示意图;
图6B为本发明一实施例提供的向量正排索引表的示意图;
图7为本发明一实施例提供的数据泄露防护装置的结构示意图;
图8为本发明一实施例提供的服务器的结构示意图。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
目前,数据泄漏的途径可归类为三种:在使用状态下的泄密、在存储状态下的泄密和在传输状态下的泄密。一般企业可通过安装防火墙、杀毒软件等方法来阻挡外部的入侵,但是事实上97%的信息泄密事件源于企业内部,所以就以上三种泄密途径分析,信息外泄的根源在于:使用泄漏;第一、操作失误导致技术数据泄漏或损坏;第二、通过打印、剪切、复制、粘贴、另存为、重命名等操作泄漏数据。
存储泄漏:第一、数据中心、服务器、数据库的数据被随意下载、共享泄漏;第二、离职人员通过U盘、CD/DVD、移动硬盘随意拷走机密资料;第三、移动笔记本被盗、丢失或维修造成数据泄漏。
传输泄漏:第一、通过email、QQ、MSN等轻易传输机密资料;第二、通过网络监听、拦截等方式篡改、伪造传输数据。
由此,本发明实施例通过对使用、存储、传输过程中的数据内容进行分析,确定是否属于涉密内容如敏感性数据,进而实现对企业内涉密数据的有效保护,且能够提高数据的外发效率,减少资源浪费,提高用户体验。
以下对本发明实施例中提及的部分词语进行举例说明。
本发明实施例中提及的终端/客户端可指企业内与企业的管理服务器连接的多个终端/客户端,例如,企业员工的电脑等。
本发明实施例中提及的服务器可指企业的私有服务器,如私有云服务器,该服务器可创建各种判断规则,并向终端发送判断规则,用于实现使用判断规则监控终端中用户的操作。本实施例中的私有云服务器位于企业的防火墙内。
本发明实施例中的敏感性数据为企业内的核心数据,应属于机密数据,不具有权限的员工或终端不允许复制、拷贝、打印等操作。
本发明实施例就是对敏感性数据泄露进行防护,提高数据的外发效率,同时减少现有技术中非涉密文件加密时的资源浪费,同时可降低各设备中的负载,提高了用户体验。
图1示出了本发明一实施例提供的数据泄露防护方法的流程示意图,如图1所示,本实施例的数据泄露防护方法如下所述。
101、获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从所述网络封包中解析出所需传输的数据内容。
举例来说,可实时监控用户在终端中当前操作的指定进程的数据内容,例如,某一进程的操作行为包括:打印word文档、上传文件,U盘拷贝等操作行为。
可理解的是,本实施例中的数据内容可包括:即时通信的聊天信息,即时通信传输的图片/文档、存储在所述终端中的文档、和/或,用户临时输入的数据/信息等。本实施例仅为举例说明,不限定数据内容的含义。在实际应用中,用户在终端中操作的指定进程操作行为对应的数据均属于数据内容。102、判断当前数据内容中是否包括敏感性数据,如果包括执行步骤103,否则执行步骤104。
本实施例中,判断用户当前操作的数据内容中是否包括敏感性数据,可能部分数据为敏感性数据,部分数据不属于敏感性数据,只要该数据内容中部分数据属于敏感性数据,均可认为该数据内容中包括敏感性数据。
103、如果所述数据内容中包括所述敏感性数据,则获取与所述指定进程对应的控制策略,根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
本实施例中的敏感性数据可为企业内的机密数据,在用户对指定进程进行操作时,先判断用户操作行为对应的网络封包中的数据内容是否包括机密数据,进而在属于机密数据时可判断是否允许当前指定进程的操作,由此可防止企业员工对企业内的敏感性数据/机密数据外发泄露。
例如,用户通过邮件、即时通信等程序上传文档时,如果确定当前上传文档属于涉密文件,数据泄露防护装置可以选择禁止或者对上传的文档进行加密处理。
当然,用户在终端中对某一文档进行保存、打印、复制、U盘拷贝等操作,都会触发该操作对应的控制策略,比如保存操作对应触发加密策略,打印和复制会触发禁止策略等。
可以理解的是,本实施例中的控制策略可具体针对某一员工的级别,以及该员工的分组/部门等信息进行具体设定。
通常,针对某一员工的操作的控制策略,可有管理者预先配置,并存储在服务器中,由服务器发送给数据泄露防护装置,进而实现对每一终端的监控。
如果研发部门一员工向市场部门发送一涉密文件,则可采用标识乱码的字段替换所述涉密文件中的部分字段/全部字段,将替换后的包括标识乱码的字段的文件发送市场部门。
104、如果所述数据内容中不包括敏感性数据,则不对当前操作行为进行拦截/控制。
需要特别说明的是,本实施例中对即时通信的抓包可在采用如科来网络分析***等软件将终端中发出的对应地址/端口的网络封包抓取,进而判断网络封包中的数据内容是否包括敏感性数据。
本实施例的数据泄露防护方法,获取指定进程的操作行为,截获终端中来自指定进程的网络封包,进而从网络封包中解析出所需传输的数据内容,进而确定该数据内容是否包括敏感性数据,在数据内容中包括敏感性数据时,根据指定进程对应的控制策略对网络包/操作行为进行控制,进而能够提高数据的外发效率,减少资源浪费,降低负载,提高用户体验。
另外,可说明的是,在前述步骤103中在确定数据内容中包括敏感性数据时,可对该数据内容对应的文档增加涉密标识,以供后续在判断时可直接使用。例如,实际应用中,可在步骤102中判断当前数据内容中是否包括敏感性数据之前,首先判断涉及该数据内容的文档/文件/信息是否有涉密标识,如果有,则可直接确定指定进程的操作行为对应的数据内容包括敏感性数据,如果涉及数据内容的文档/文件/信息没有涉密标识,则可执行步骤102的步骤。由此,可以提高数据的判断效率,提高数据判断的准确性。
图2示出了本发明一实施例提供的数据泄露防护方法的流程示意图,如图2所示,本实施例的数据泄露防护方法如下所述。
201、数据泄露防护装置接收服务器发送的至少一个判断规则。
举例来说,该步骤中的判断规则可为:正则表达式,或模式匹配规则;或者,该步骤中的判断规则还可为服务器训练预设的敏感性数据获取的关键字匹配规则。该服务器可为云服务器。
本实施例不对判断规则进行限定,任一能够识别数据内容中包括敏感性数据的规则均属于该判断规则,本实施例仅为举例说明。
图2所示的方法流程中的执行主体可为数据泄露防护装置。
另外,需要说明的是,由于本实施例涉及的是数据泄露防护,由此,步骤201中的服务器可为该企业的私有云服务器,进而可有效对企业内的数据进行防护。
202、获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从所述网络封包中解析出所需传输的数据内容。
举例来说,即时通信程序对应的进程可为指定进程时,可实时监控用户在终端中即时通信的操作行为,例如,上传图片或者通过即时通信上传文件等操作行为。
203、根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据的特征字段,如果包括,执行步骤204,否则执行步骤204a。
204、如果当前数据内容中包括敏感性数据的特征字段,则确定所述数据内容包括敏感性数据。
205、获取与指定进程对应的控制策略,根据与指定进程对应的控制策略对网络封包和/或指定进程的操作行为进行控制。
举例来说,在指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,步骤205可为:禁止当前打印操作,并在所述终端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,在所述当前操作为保存操作(如另存为操作),且控制策略为加密保存数据内容/添加涉密标识时,步骤205可为:执行所述保存操作,且将所保存的网络封包进行加密处理或添加涉密标识;
或者,在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,步骤205可为:采用标识乱码的字段替换指定进程对应的需要传输的数据内容中的部分/全部信息。
204a、如果当前数据内容中不包括敏感性数据的特征字段,可确定该数据内容不包括敏感性数据,进而可结束当前操作行为的判断流程,可不对当前操作进行拦截/控制。
本实施例可减少现有技术中对非涉密文件的拦截动作,且能够提高数据的外发效率,提高用户体验。
可选地,在具体应用中,如果有数据泄密行为发生,则每一客户端内的数据泄露防护装置还可将该终端中本地缓存的用户的操作行为记录上传服务器,以使服务器根据所述操作行为记录确定所述敏感性数据的流转路径即传输的路径,可定位到一个企业员工的泄露行为,进而可有效防护企业内的涉密数据。
当然,如果一段时间内企业内无泄密行为发生,每一终端/客户端中的数据泄露防护装置也可定期向服务器(如云服务器)上传终端/客户端中缓存的用户的操作行为记录,以使所述服务器保存该些操作行为记录,以便后续使用。
也即是说,用户在终端/客户端对涉密文件的操作行为都会在本地缓存中记录,该些记录包括创建、修改、删除、转发等,本实施例中定期获取本地缓存中的操作行为记录一方面可以对企业泄露人员进行溯源,另一方面可以知道涉密文件的流转途径,知道哪些员工掌握了哪些涉密文件等,由此,可较好的保护企业内的数据。
图3示出了本发明一实施例提供的数据泄露防护方法的流程示意图,如图3所示,本实施例的数据泄露防护方法如下所述。
301、数据泄露防护装置接收服务器发送的至少一个判断规则。
在实际应用中,管理者可以预先设置敏感性数据的关键词/特征词,进而通过训练方式训练部分判断规则提取敏感性数据的关键词/特征词,并进行进一步的判断,如相似度判断等,由此可实现对用户在当前操作的数据内容的判断。
具体在应用中,可采用中文自然语言处理技术对数据内容进行处理。
302、获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从网络封包中解析出所需传输的数据内容。
303、根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据,如果包括执行步骤304,否则执行步骤304a。
304、如果当前数据内容中包括敏感性数据,则向服务器发送指定进程的控制策略请求。
举例来说,该控制策略请求中可包括指定进程的标识,以便服务器根据该标识确定与指定进程对应控制策略。
305、接收服务器根据所述控制策略请求发送的指定进程对应的控制策略。
306、根据与所述指定进程对应的控制策略对所述网络封包和/或指定进程的操作行为进行控制。
304a、如果数据内容中不包括敏感性数据,则将所述数据内容发送服务器,以使服务器确定数据内容中是否包括敏感性数据。
304b、在服务器确定数据内容中包括敏感性数据时,接收服务器发送的数据内容包括敏感性数据的信息,以及后续执行上述的步骤304。
如果服务器确定数据内容中不包括敏感性数据,则可接收服务器发送的数据内容不包括敏感性数据的信息,进而对指定进程的操作行为不进行控制。
应说明的是,在具体应用中,并不是针对企业内的每一员工的终端/客户端均执行步骤304a,可选择性的执行步骤304a。例如针对重要岗位的离职员工可在一段时间内执行步骤304a等。
另外,前述的服务器可为云服务器,在本实施例中,云服务器中中存储的规则可为检测性能高,且准确度高的规则,进而可有效提高检测准确率,较好的保护企业内的数据安全。
可选地,若服务器确定当前数据内容不包括敏感性数据,则可接收所述服务器发送的当前操作的数据内容不包括敏感性数据的信息,则结束对当前操作行为监控。
应说明的是,在步骤304a中,并不是所有的终端/客户端中判断数据内容不包括敏感性数据的都发送服务器进行再次判断。针对特定终端/客户端,例如公司高管,或者,公司新近人员/公司准备离职人员等可在预设时间段内执行步骤304a。
另外,需要说明的是,本实施例中借助服务器对终端/客户端判断之后的数据内容进行二次判断,可有效防护企业内数据的泄露,同时还可提高数据的外发效率,进而提高用户体验。
当然,如果服务器确定当前的数据内容不包括敏感性数据,可不向数据防护装置发送任何信息,数据防护装置在预设时间段内没有收到服务器发送的任何信息,可默认为需要服务器判断的数据内容中不包括敏感性数据,可直接外发或者其他操作等,本实施例仅为举例说明。
进一步地,在实际应用中,还可采用边界检测方式对企业内的所有网络封包中的数据内容进行进一步的安全检测。例如,采用防火墙检测所有外发数据的内容。
图4示出了本发明一实施例提供的数据泄露防护方法的流程示意图,如图4所示,本实施例的数据泄露防护方法如下所述。
401、服务器接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容。
本实施例中的数据内容是,数据防护装置在获取指定进程的操作行为之后,截获终端中来自所述指定进程的网络封包,从网络封包中解析出的所需传输的数据内容。
402、服务器根据相似度匹配规则确定所述数据内容中是否包括敏感性数据。
举例来说,本实施例中的相似度匹配规则可为终端/客户端预先建立的,例如,可根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。该些预设的敏感性数据可为企业内预先设定的属于企业内的涉密数据。
本实施例中的服务器可为云服务器,即企业内的私有云服务器。
403、如果服务器确定所述数据内容中包括敏感性数据,则向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
当然,如果服务器确定数据内容不包括敏感性数据,则向所述泄露防护装置发送数据内容不包括敏感性数据的信息,此时,数据泄露防护装置可根据该信息不对用户当前操作行为进行任何控制。
可选地,在实际应用中,服务器可预先向所述数据泄露防护装置发送至少一个判断规则,以使所述数据泄露防护装置根据所述判断规则对用户在客户端中操作的数据内容进行判断。
例如,服务器可向数据泄露防护装置发送判断规则,以使数据泄露防护装置监控到指定进程的操作行为时,可根据该判断规则确定操作行为对应的网路封包中的数据内容是否包括涉密数据内容/敏感性数据。
另外,服务器还用于接收数据泄露防护装置发送的指定进程的控制策略请求,根据所述控制策略请求,向数据泄露防护装置发送指定进程对应的控制策略,进而使数据防护装置根据指定进程对应的控制策略对该指定进程的操作行为的网络封包和/或指定进程的操作行为进行控制。
由此,服务器和终端/客户端的数据泄露防护装置结合能够有效保护终端/客户端中数据不被泄露,且能够提高数据的外发效率,进而提高用户体验。
图5示出了本发明一实施例提供的数据泄露防护方法的流程示意图,如图5所示,本实施例的数据泄露防护方法如下所述。
500、服务器根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
501、服务器接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
502、服务器获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
503、服务器建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量。
举例来说,可采用词频(Term Frequency,简称TF)方式建立所述关键词对应所述数据内容中各数据的关键词向量;或者,可采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量。
通常,词频指的是文档/数据内容中某个词/字段出现的次数除以该文档/数据包的总词数/总字段数。
504、服务器获取所述数据内容中每一关键词向量与所有特征词向量的相似度;
505、服务器根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
506、如果所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值,则确定所述数据内容中包括敏感性数据。
当然,如果数据内容中所有数据与所述敏感性数据的相似度小于等于预设阈值,可确定数据内容中不包括敏感性数据。
507、服务器向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
举例来说,在前述步骤505中,获取所述数据内容中每一关键词向量与所有特征词向量的相似度,可具体说明如下:
根据公式(1)获取所述数据内容中每一关键词向量与所有特征词向量的相似度;
Sim(ti,tj)=wf×CosSim(ti,tj) (1);
其中,ti=(wi1,wi2,…,win),表示所述数据内容中各数据的关键词向量,tj=(wj1,wj2,…,wjm),表示所述敏感性数据中的特征词向量,wf表示ti和tj之间相似度的加权因子;pi表示关键词在所述数据内容中的占比,pj表示特征词在所述敏感性数据中的占比;
CosSim(ti,tj)表示ti和tj之间的余弦相似度。
本实施例中的余弦相似度CosSim(ti,tj)是由向量ti和tj之间的相同关键词及每个向量的模长所决定的。
举例来说,
其中,fim表示第m个关键词在所述数据内容中的TF值,fjm表示第m个特征词在所述数据内容中的TF值,k为参数。
在实际应用中,可在前述图5所述的步骤504之前,方法中还可初始化数据内容中所有关键词的词项倒排索引表,所有关键词向量的向量正排索引表,以及所述敏感性数据中所有特征词的词项倒排索引表,所有特征词向量的向量正排索引表;
由此,可根据关键词的词项倒排索引表、向量正排索引表,特征词的词项倒排索引表、向量正排索引表,获取所述数据内容中各数据的每一关键词向量与所有特征词向量的相似度,
其中,所述词项倒排索引表包括:词表、向量索引表、词项信息的对应关系;所述向量正排索引表包括:向量索引表、词表、词项信息的对应关系。
以下对相似度匹配规则进行举例说明:
第一、选取待处理的至少两个短文本信息,通过自然语言处理技术预处理短文本信息。
例如,采用ICTCLAS分词***,将短文本信息进行一级标注的词语切分,并统计标注好的切分词语的词频。或者,采用基于语义分析的方法,对切分后的词语进行词性分析,只保留被标注为名词、形容词、副词、动词的词语。
可理解的是,在下述对短文本信息建立词频向量之前需要删除短文本信息中对应的停用词,如中文的“的”、“了”、英文的“a”、“is”等。本实施例中需要对词项进行语义分析,除了删除停用词外还需要进行关键词的选取,这些关键词就是最能表征文本含义的实词,即该词项的词性是名词、动词、形容词和副词等。
第二、关键词词项选择,例如短文本信息预处理后,需要对每篇短文本信息的词项进行TF值的计算,将短文本信息中的各个词项的TF值表示成一个短文本向量,以此来计算短文本信息间的相似度。
通常,上述获取的短文本向量是高维的,为此,本实施例中可以从每篇短文本信息中挑选关键词,以此来表征短文本信息,从而最大可能地减少短文本向量的维度。
具体做法是:选取每篇短文本信息中的动词、名词、形容词和副词作为关键词项,获取关键词向量。如果设关键词项个数占整个短文本百分比为p,这样一篇关键词向量的维度可以下降1-p,进而可提高计算的效率。
第三、文本相似度计算,在上述步骤中得到了每篇短文本信息的短文本向量之后,可计算两篇短文本信息之间的相似度。
由于关键词项代表了一篇文本中最重要的信息,因此短文本信息之间的相似度就可以用关键词向量间的相似度来描述。
设ti,tj是两篇不同的短文本中关键词向量,pi和pj分别对应所有关键词在i短文本和j短文本中的占比。其中,ti=(wi1,wi2,…,win),tj=(wj1,wj2,…,wjm),n、m取整数;
相似度定义为:Sim(ti,tj)=wf×CosSim(ti,tj) (1-1)
其中wf表示关键词向量ti和tj之间相似度的加权因子,可选地,CosSim(ti,tj)表示关键词向量ti和tj之间的余弦相似度。
具体的余弦相似度计算公式由式(2-1)给出。
式(2-1)中wim表示每一个关键词的TF值,可选地:
式(3-1)fij表示向量i中关键词j对应的词频,表示所有向量包含关键词j的总词频,表示关键词的总词频最大值。
将式(3-1)代入式(2-1)得到式(4-1):
由式(4-1)知,余弦相似度CosSim(ti,tj)是由向量ti和tj之间的共同关键词及每个向量的模长所决定的。
因此,本实施例中为了更好地根据词项计算相似度,可预先获取一个词项倒排索引表(Term Inverted Index Table,简称TIIT)和一个向量正排索引表(Vector ForwardIndex Table,简称VFIT),进而根据TIIT和VFIT进行相似度的计算。
例如,首先,利用通过关键词向量建模法,将原始短文本信息表示成一个个关键向量,然后分别初始化TIIT和VFIT。
接着,采用公式(4-1)来计算两向量之间的余弦相似性。
通常,TIIT可分为词典正文表、向量索引表、词项信息等3级。通过词典正文表可以将指定词定位到向量索引表,在向量索引表中很容易定位到指定词在指定向量中的TF和向量的模长,如图6A所示的TIIT的示意图。
VFIT可分为向量索引表、向量内容索引表、词信息等3级。在向量索引表中,通过指定向量号找到对应的向量内容索引表,后通过指定的词在向量内容索引表中找到词信息,为了更新两个向量合并后的信息,如图6B所示的VFIT的示意图。
另外,在具体应用中,可以自动高效构建TIIT和VFIT:
对原始短文本按1w行的粒度切分,对原始短文本建立文件hash表,在文件hash表中key为文件编号(FileNum),value为文件路径(FilePath),其中文件编号(FileNum)与向量编号(VecNum)之间的对应关系为FileNum=(VecNum-1)/10000,这样很容易通过向量编号(VecNum)找到对应的文件路径。用该文件分别构建TIIT和VFIT。
按照前述公式(4-1)计算两关键词向量的相似度举例说明如下。
例如,关键词向量ti和tj,TIIT,VFIT,预设的相似度阀值μ(例如,μ=0.5),关键词向量ti和tj的相似度Sim(ti,tj)。
第一、初始化TIIT和VFIT。
第二、由式(4-1)知,分子是向量ti和tj所有共同词项wim与wjn的乘积和,分母是向量ti和tj模长乘积。因此,只要从向量ti中的词项w1开始,在TIIT中查找词项w1对应的向量,判断是否包含tj,如果包含,则计算TF值wi1与wj1的乘积,并得到向量ti和tj的模长;否则,乘积为0。
第三、累加第二步结果,计算式(4-1)的分子、分母,得到相似度,以此作为向量ti和tj的相似度CosSim(ti,tj)。
第四、根据前述步骤,对关键词向量ti和tj的相似度进行加权处理后得到短文本相似度Sim(ti,tj)。
第五、更新索引表。
本实施例中的Sim算法要求预先确定阀值,计算两向量ti和tj的相似度,如果相似度Sim(ti,tj)>μ,将ti和tj合并为一个新的簇tk=Simti∪tj,则组成的新簇的关键向量为即如果两向量ti和tj有共同词w1,则将tk新向量中词w1的权值表示为否则,保留ti和tj;为了减少存储空间,这里将向量ti和tj合并到向量tj。因此,需要调整TIIT和VFIT,以减少存储空间,加快计算速度。
更新/调整索引表的具体步骤如下:
1)在VFIT表中,建立临时变量,将向量ti中词win与向量tj中词wjm合并,同时更新向量的模长,保存到临时变量中,然后在VFIT表中将向量ti和向量tj删除,再将临时变量***到VFIT表中,向量编号为tj
2)在TIIT表,依据更新后的VFIT表,查找向量tj对应在每个词wjm,删除词wjm对应向量ti,同时更新对应的向量tj,完成对TIIT表的更新。
上述举例说明服务器中相似度匹配规则的计算过程,由此,在本实施例中,可采用上述方法确定服务器接收数据泄露防护装置发送的数据内容中各数据是否与敏感性数据相似,如果相似,则可确定服务器接收的数据泄露防护装置发送的数据内容中包括敏感性数据。
图7示出了本发明一实施例提供的数据泄露防护装置的结构示意图,如图7所示,本实施例的数据泄露防护装置包括:数据内容获取单元71、判断单元72、控制策略获取单元73和控制单元74;
其中,数据内容获取单元71用于获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从所述网络封包中解析出所需传输的数据内容;例如,数据内容可包括:即时通信的聊天信息,和/或,即时通信传输的图片/文档。
判断单元72用于判断当前数据内容中是否包括敏感性数据;
控制策略获取单元73用于在所述判断单元确定所述数据内容中包括所述敏感性数据时,获取与所述指定进程对应的控制策略;
控制单元74用于根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
例如,所述控制单元,具体用于,在所述指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,禁止当前打印操作,并在所述终端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,采用标识乱码的字段替换所述指定进程对应的需要传输的数据内容中的部分/全部信息。
在一可选的实施例中,控制策略获取单元73可具体用于,向服务器发送所述指定进程的控制策略请求;接收所述服务器根据所述控制策略请求发送的所述指定进程对应的控制策略。
在另一可选的实施例中,所述判断单元72具体用于,将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,以及接收所述服务器发送的所述数据内容中是否包括敏感性数据的信息。
在一种可能的实现方式中,前述的数据泄露防护装置还可包括下述图中未示出的接收单元75;其中,该接收单元75用于在判断单元72之前,接收服务器发送的至少一个判断规则;
相应地,所述判断单元72具体用于根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据。;
举例来说,所述判断规则为:正则表达式,或者模式匹配规则;
或者,所述判断规则为所述服务器训练预设的敏感性数据获取的关键字匹配规则。
在另一种可能的实现方式,前述的数据泄露防护装置还可包括下述图中未示出的发送单元76,其中,发送单元76用于向服务器上传所述终端中缓存的操作行为记录,以使所述服务器根据所述操作行为记录确定所述敏感性数据传输的路径。
可选地,发送单元76用于在判断单元72判断当前数据内容中不包括敏感性数据时,将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据;
接收单元75用于在所述服务器确定所述数据内容中包括敏感性数据时,接收所述服务器发送的所述数据内容包括敏感性数据的信息;
相应地,控制策略获取单元73还用于在所述接收单元接收所述信息之后,获取与所述指定进程对应的控制策略。
可理解的是,本实施例中是对企业内的所有终端/客户端中指定进程的监控,由此,本实施例中提及的服务器可为该终端/客户端所属企业的私有云服务器。
此外,本实施例的数据泄露防护装置可执行前述的图1至图3所示的方法实施例中的流程,本实施例不在此进行详述。
本实施例中的数据泄露防护装置通过编程实现的软件程序,属于安全软件内程序,能够对任一客户端/终端/服务器内的数据进行防护,其可以监控客户端/终端/服务器内指定进程的操作行为对应的数据内容是否包括敏感性数据。
本实施例的数据泄露防护装置,能够提高数据的外发效率,减少资源浪费,降低负载,提高用户体验。
图8示出了本发明一实施例提供的服务器的结构示意图,如图8所示,本实施例的服务器包括:接收单元81、判断单元82、发送单元83;
其中,接收单元81用于接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
判断单元82用于根据相似度匹配规则确定所述数据内容中是否包括敏感性数据;
发送单元83用于在判断单元82确定所述数据内容中包括敏感性数据时,向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
在一种可能的实现方式中,所述发送单元83还用于在所述接收单元81接收所述数据内容之前或之后,向所述数据泄露防护装置发送至少一个判断规则;
和/或,所述接收单元81在接收所述数据内容之前或之后,接收所述数据泄露防护装置发送的指定进程的控制策略请求;
所述发送单元83还用于根据所述控制策略请求,向所述数据泄露防护装置发送指定进程对应的控制策略。
在具体实现过程中,所述服务器还可包括图中未示出的规则建立单元84,该规则建立单元84用于根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
可选地,判断单元82具体用于,
获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
例如,根据公式一获取所述数据内容中各数据的每一关键词向量与所有特征词向量的相似度;
Sim(ti,tj)=wf×CosSim(ti,tj)公式一;
其中,ti=(wi1,wi2,…,win),表示所述数据内容中的关键词向量,tj=(wj1,wj2,…,wjm),表示所述敏感性数据中的特征词向量,wf表示ti和tj之间相似度的加权因子;pi表示关键词在所述数据内容中的占比,pj表示特征词在所述敏感性数据中的占比;
CosSim(ti,tj)表示ti和tj之间的余弦相似度。
其中,fim表示第m个关键词在所述数据内容中的TF值,fjm表示第m个特征词在所述数据内容中的TF值,k为参数;
接着,根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
在所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值时,确定所述数据内容中包括敏感性数据;
举例来说,所述判断单元82还可具体用于,采用词频TF方式建立所述关键词对应所述数据内容中的关键词向量;
采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量。
本实施例中的服务器可执行前述图4和图5所示的方法流程,本实施例仅为举例说明,不限定服务器的实现流程。
本实施例中的服务器可与客户端的数据泄露防护装置结合能够有效保护客户端中数据不被泄露,且能够提高数据的外发效率,进而提高用户体验。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (26)

1.一种数据泄露防护装置,其特征在于,包括:
数据内容获取单元,用于获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包,从所述网络封包中解析出所需传输的数据内容,所述数据内部包括即时通信的聊天信息,和/或,即时通信传输的图片/文档;
判断单元,用于判断当前数据内容中是否包括敏感性数据;
控制策略获取单元,用于在所述判断单元确定所述数据内容中包括所述敏感性数据时,获取与所述指定进程对应的控制策略;
控制单元,用于根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括:
接收单元,用于在判断单元之前,接收服务器发送的至少一个判断规则;
相应地,所述判断单元,具体用于根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据。
3.根据权利要求2所述的装置,其特征在于,所述判断规则为:正则表达式,或者模式匹配规则;
或者,所述判断规则为所述服务器训练预设的敏感性数据获取的关键字匹配规则。
4.根据权利要求1所述的装置,其特征在于,控制策略获取单元,具体用于
向服务器发送所述指定进程的控制策略请求;
接收所述服务器根据所述控制策略请求发送的所述指定进程对应的控制策略。
5.根据权利要求1至4任一所述的装置,其特征在于,所述装置还包括:
发送单元,用于向服务器上传所述终端中缓存的操作行为记录,以使所述服务器根据所述操作行为记录确定所述敏感性数据传输的路径。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
发送单元,用于在判断单元判断当前数据内容中不包括敏感性数据时,将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据;
接收单元,用于在所述服务器确定所述数据内容中包括敏感性数据时,接收所述服务器发送的所述数据内容包括敏感性数据的信息;
相应地,控制策略获取单元,还用于在所述接收单元接收所述信息之后,获取与所述指定进程对应的控制策略。
7.根据权利要求6所述的装置,其特征在于,所述判断单元,具体用于
将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,以及
接收所述服务器发送的所述数据内容中是否包括敏感性数据的信息。
8.根据权利要求7所述的装置,其特征在于,所述控制单元,具体用于
在所述指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,禁止当前打印操作,并在所述终端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,
在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,采用标识乱码的字段替换所述指定进程对应的需要传输的数据内容中的部分/全部信息。
9.一种服务器,其特征在于,包括:
接收单元,用于接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
判断单元,用于根据相似度匹配规则确定所述数据内容中是否包括敏感性数据;
发送单元,用于在判断单元确定所述数据内容中包括敏感性数据时,向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
10.根据权利要求9所述的服务器,其特征在于,所述发送单元,还用于
在所述接收单元接收所述数据内容之前或之后,向所述数据泄露防护装置发送至少一个判断规则;
和/或,
所述接收单元,在接收所述数据内容之前或之后,接收所述数据泄露防护装置发送的指定进程的控制策略请求;
所述发送单元,还用于根据所述控制策略请求,向所述数据泄露防护装置发送指定进程对应的控制策略。
11.根据权利要求9所述的服务器,其特征在于,所述服务器还包括:
规则建立单元,用于根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
12.根据权利要求9至11任一所述的服务器,其特征在于,所述判断单元,具体用于
获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
在所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值时,确定所述数据内容中包括敏感性数据。
13.根据权利要求12所述的服务器,其特征在于,所述判断单元,具体用于
采用词频TF方式建立关键词对应所述数据内容的关键词向量,采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
在所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值时,确定所述数据内容中包括敏感性数据。
14.一种数据泄露防护方法,其特征在于,包括:
获取指定进程的操作行为,截获终端中来自所述指定进程的网络封包;
从所述网络封包中解析出所需传输的数据内容,所述数据内容包括:即时通信的聊天信息,和/或,即时通信传输的图片/文档;
判断当前数据内容中是否包括敏感性数据;
如果所述数据内容中包括所述敏感性数据,则获取与所述指定进程对应的控制策略,根据与所述指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制。
15.根据权利要求14所述的方法,其特征在于,所述判断当前数据内容中是否包括敏感性数据之前,所述方法还包括:
接收服务器发送的至少一个判断规则;
相应地,判断当前数据内容中是否包括敏感性数据,包括:
根据所述至少一个判断规则判断当前数据内容中是否包括敏感性数据。
16.根据权利要求15所述的方法,其特征在于,所述判断规则为:正则表达式,或者模式匹配规则;
或者,所述判断规则为所述服务器训练预设的敏感性数据获取的关键字匹配规则。
17.根据权利要求14所述的方法,其特征在于,所述获取与所述指定进程对应的控制策略,包括:
向服务器发送所述指定进程的控制策略请求;
接收所述服务器根据所述控制策略请求发送的所述指定进程对应的控制策略。
18.根据权利要求14至17任一所述的方法,其特征在于,所述方法还包括:
向服务器上传所述终端中缓存的操作行为记录,以使所述服务器根据所述操作行为记录确定所述敏感性数据传输的路径。
19.根据权利要求18所述的方法,其特征在于,所述判断当前数据内容中是否包括敏感性数据之后,所述方法还包括:
如果所述数据内容中不包括敏感性数据,则将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,
在所述服务器确定所述数据内容中包括敏感性数据时,接收所述服务器发送的所述数据内容包括敏感性数据的信息,并执行获取与所述指定进程对应的控制策略的步骤。
20.根据权利要求19所述的方法,其特征在于,所述判断当前数据内容中是否包括敏感性数据,包括:
将所述数据内容发送服务器,以使所述服务器确定所述数据内容中是否包括敏感性数据,以及
接收所述服务器发送的所述数据内容中是否包括敏感性数据的信息。
21.根据权利要求20所述的方法,其特征在于,
在所述指定进程的操作行为为打印操作,且该进程对应的控制策略为禁止打印时,所述根据与指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制,包括:
禁止当前打印操作,并在所述终端界面显示禁止所述指定进程进行打印操作的提示信息;
或者,
在所述指定进程的操作行为为发送操作,且控制策略为乱码字符串发送策略时,所述根据与指定进程对应的控制策略对所述网络封包和/或所述指定进程的操作行为进行控制,包括:
采用标识乱码的字段替换所述指定进程对应的需要传输的数据内容中的部分/全部信息。
22.一种数据泄露防护方法,其特征在于,包括:
接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容;
根据相似度匹配规则确定所述数据内容中是否包括敏感性数据;
如果确定所述数据内容中包括敏感性数据,则向所述数据泄露防护装置发送所述数据内容中包括敏感性数据的信息,以使所述数据泄露防护装置在接收该信息之后,获取与所述指定进程对应的控制策略,采用所述控制策略对所述指定进程的操作行为和/或所述数据内容进行控制。
23.根据权利要求22所述的方法,其特征在于,所述接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容之前或之后,所述方法还包括:
向所述数据泄露防护装置发送至少一个判断规则;
和/或,
接收所述数据泄露防护装置发送的指定进程的控制策略请求,根据所述控制策略请求,向所述数据泄露防护装置发送指定进程对应的控制策略。
24.根据权利要求23所述的方法,其特征在于,所述接收数据泄露防护装置发送的指定进程的操作行为对应的数据内容之前,所述方法还包括:
根据预设的敏感性数据,建立判断数据内容中是否包括敏感性数据的相似度匹配规则。
25.根据权利要求22至24任一所述的方法,其特征在于,根据相似度匹配规则确定所述数据内容中是否包括敏感性数据,包括:
获取所述数据内容中的关键词,所述敏感性数据中的特征词,所述关键词为表征所述数据内容中文本含义的实词,所述特征词为表征所述敏感性数据中文本含义的实词;
建立所述关键词对应所述数据内容中各数据的关键词向量,所述特征词对应所述敏感性数据的特征词向量;
获取所述数据内容中每一关键词向量与所述特征词向量的相似度;
根据所有关键词向量的相似度,获取所述数据内容中各数据与所述敏感性数据的相似度;
如果所述数据内容中部分数据与所述敏感性数据的相似度大于预设阈值,则确定所述数据内容中包括敏感性数据。
26.根据权利要求25所述的方法,其特征在于,所述建立所述关键词对应所述数据内容中各数据的关键词向量,包括:
采用词频TF方式建立所述关键词对应所述数据内容中各数据的关键词向量;
建立所述特征词对应所述敏感性数据的特征词向量,包括:
采用词频TF方式建立所述特征词对应所述敏感性数据的特征词向量。
CN201410844357.8A 2014-12-30 2014-12-30 数据泄露防护方法及装置 Active CN104506545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410844357.8A CN104506545B (zh) 2014-12-30 2014-12-30 数据泄露防护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410844357.8A CN104506545B (zh) 2014-12-30 2014-12-30 数据泄露防护方法及装置

Publications (2)

Publication Number Publication Date
CN104506545A CN104506545A (zh) 2015-04-08
CN104506545B true CN104506545B (zh) 2017-12-22

Family

ID=52948260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410844357.8A Active CN104506545B (zh) 2014-12-30 2014-12-30 数据泄露防护方法及装置

Country Status (1)

Country Link
CN (1) CN104506545B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488428A (zh) * 2015-11-24 2016-04-13 北京华夏威科软件技术有限公司 应用于操作行为审计***的操作行为记录方法及***
CN107229873B (zh) * 2016-03-24 2020-07-17 阿里巴巴集团控股有限公司 一种图片处理方法和设备
CN105955978B (zh) * 2016-04-15 2019-07-02 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105893859B (zh) * 2016-04-15 2019-05-03 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105956482B (zh) * 2016-04-15 2019-06-04 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105844118B (zh) * 2016-04-15 2020-02-21 量子创新(北京)信息技术有限公司 用于数据泄露防护的方法和***
CN106453366A (zh) * 2016-10-27 2017-02-22 北京锐安科技有限公司 一种信息传输方法、***、发送终端和接收终端
CN108024005B (zh) * 2016-11-04 2020-08-21 北京搜狗科技发展有限公司 信息处理方法、装置、智能终端、服务器和***
CN108270735A (zh) * 2016-12-31 2018-07-10 ***通信集团陕西有限公司 一种数据防泄漏方法及设备
CN107391671B (zh) * 2017-07-21 2019-11-26 华中科技大学 一种文档泄露检测方法及***
CN108011809A (zh) * 2017-12-04 2018-05-08 北京明朝万达科技股份有限公司 基于用户行为和文档内容的数据防泄漏分析方法及***
CN108566358B (zh) * 2017-12-22 2021-03-26 广州赛意信息科技股份有限公司 一种基于iPhone手机下的iOS***网络通信拦截方法及***
CN109214206A (zh) * 2018-08-01 2019-01-15 武汉普利商用机器有限公司 云备份存储***及方法
CN110222170B (zh) * 2019-04-25 2024-05-24 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110135128A (zh) * 2019-05-22 2019-08-16 北京明朝万达科技股份有限公司 一种文件处理方法及装置
CN110399485B (zh) * 2019-07-01 2022-04-08 上海交通大学 基于词向量和机器学习的数据溯源方法和***
CN111241565B (zh) * 2020-01-14 2022-10-18 中移(杭州)信息技术有限公司 文件控制方法、装置、电子设备及存储介质
CN111629027B (zh) * 2020-04-10 2023-06-23 云南电网有限责任公司信息中心 一种基于区块链的可信文件储存处理的方法
CN111858094B (zh) * 2020-07-14 2021-05-18 北京海泰方圆科技股份有限公司 一种数据复制粘贴方法、***及电子设备
CN112613031A (zh) * 2020-11-26 2021-04-06 新华三技术有限公司 一种数据流的检测方法和装置
CN112839077A (zh) * 2020-12-29 2021-05-25 北京安华金和科技有限公司 一种敏感数据确定方法及装置
CN113342449A (zh) * 2021-06-29 2021-09-03 北京天空卫士网络安全技术有限公司 一种数据防护方法和装置
CN113342288B (zh) * 2021-06-29 2024-03-22 北京天空卫士网络安全技术有限公司 一种数据防护方法、客户端、服务端和***
CN113449350A (zh) * 2021-06-30 2021-09-28 中国工商银行股份有限公司 Usb外发敏感信息的管理方法、装置、设备及介质
CN117290659B (zh) * 2023-11-24 2024-04-02 华信咨询设计研究院有限公司 一种基于回归分析的数据溯源方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827102A (zh) * 2010-04-20 2010-09-08 中国人民解放军理工大学指挥自动化学院 基于内容过滤的数据防护方法
CN101984603A (zh) * 2010-11-11 2011-03-09 湖北电力信息通信中心 一种基于邮件截获的电力敏感信息检测方法
CN102624699A (zh) * 2012-01-19 2012-08-01 歌尔声学股份有限公司 一种保护数据的方法和***
CN103209174A (zh) * 2013-03-12 2013-07-17 华为技术有限公司 一种数据防护方法、装置及***
CN103327183A (zh) * 2013-06-13 2013-09-25 中国科学院信息工程研究所 基于标签的安卓用户隐私数据黑盒防护方法及***
CN103916233A (zh) * 2014-03-28 2014-07-09 小米科技有限责任公司 一种信息加密方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050172234A1 (en) * 2004-02-03 2005-08-04 Chuchla Jonathan E. Video display system
CN101098224B (zh) * 2006-06-28 2010-08-25 中色科技股份有限公司 对数据文件动态加解密的方法
US8446607B2 (en) * 2007-10-01 2013-05-21 Mcafee, Inc. Method and system for policy based monitoring and blocking of printing activities on local and network printers
CN101520833B (zh) * 2009-04-10 2010-12-01 武汉大学 基于虚拟机的数据防泄漏***及其方法
CN102082704A (zh) * 2009-11-30 2011-06-01 ***通信集团河北有限公司 安全监控方法及***
CN102143158B (zh) * 2011-01-13 2013-10-09 北京邮电大学 基于tpm的数据防泄漏方法
US8800031B2 (en) * 2011-02-03 2014-08-05 International Business Machines Corporation Controlling access to sensitive data based on changes in information classification
CN103336927A (zh) * 2013-06-07 2013-10-02 杭州世平信息科技有限公司 一种基于数据分类的数据防泄漏方法及其***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827102A (zh) * 2010-04-20 2010-09-08 中国人民解放军理工大学指挥自动化学院 基于内容过滤的数据防护方法
CN101984603A (zh) * 2010-11-11 2011-03-09 湖北电力信息通信中心 一种基于邮件截获的电力敏感信息检测方法
CN102624699A (zh) * 2012-01-19 2012-08-01 歌尔声学股份有限公司 一种保护数据的方法和***
CN103209174A (zh) * 2013-03-12 2013-07-17 华为技术有限公司 一种数据防护方法、装置及***
CN103327183A (zh) * 2013-06-13 2013-09-25 中国科学院信息工程研究所 基于标签的安卓用户隐私数据黑盒防护方法及***
CN103916233A (zh) * 2014-03-28 2014-07-09 小米科技有限责任公司 一种信息加密方法及装置

Also Published As

Publication number Publication date
CN104506545A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104506545B (zh) 数据泄露防护方法及装置
CN107577939B (zh) 一种基于关键字技术的数据防泄漏方法
CA2504680C (en) A method and system for managing confidential information
US8544060B1 (en) Method and system for detecting and protecting against potential data loss from unknown applications
US9215197B2 (en) System, method, and computer program product for preventing image-related data loss
US8141159B2 (en) Method and system for protecting confidential information
US10607016B2 (en) Decrypting files for data leakage protection in an enterprise network
US9330376B2 (en) System and method for assigning a business value rating to documents in an enterprise
US9652597B2 (en) Systems and methods for detecting information leakage by an organizational insider
TW201937390A (zh) 用於網路資料管理之資料界定架構
US9043247B1 (en) Systems and methods for classifying documents for data loss prevention
CN104956376A (zh) 虚拟化环境中应用和设备控制的方法和技术
EP3987728B1 (en) Dynamically controlling access to linked content in electronic communications
TWI484357B (zh) 量化式資料分析方法以及量化式資料分析裝置
Actoriano et al. Forensic Investigation on WhatsApp Web Using Framework Integrated Digital Forensic Investigation Framework Version 2
Shuba et al. Antmonitor: Network traffic monitoring and real-time prevention of privacy leaks in mobile devices
US9245132B1 (en) Systems and methods for data loss prevention
CN105912946A (zh) 一种文件检测的方法与设备
JP2012182737A (ja) 秘密資料流出防止システム、判定装置、秘密資料流出防止方法およびプログラム
US9146704B1 (en) Document fingerprinting for mobile phones
CN113449350A (zh) Usb外发敏感信息的管理方法、装置、设备及介质
Alouneh et al. Toward big data analysis to improve enterprise information security
KR20120069130A (ko) 로그 데이터에 기초한 실시간 감시 방법
US11757837B2 (en) Sensitive data identification in real time for data streaming
CN110417743B (zh) 一种加密压缩包分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170117

Address after: 100015 Chaoyang District Road, Jiuxianqiao, No. 10, building No. 3, floor 15, floor 17, 1701-26,

Applicant after: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Applicant before: Qizhi software (Beijing) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee after: QAX Technology Group Inc.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201225

Address after: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Patentee after: QAX Technology Group Inc.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee before: QAX Technology Group Inc.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Patentee after: QAX Technology Group Inc.

Address before: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Patentee before: QAX Technology Group Inc.