CN114077722A

CN114077722A - 数据泄密追踪方法、装置、电子设备和计算机存储介质

Info

Publication number: CN114077722A
Application number: CN202111223255.0A
Authority: CN
Inventors: 刘余
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-22

Abstract

本发明实施例提供了一种数据泄密追踪方法、装置、电子设备和计算机存储介质，该方法包括：获取至少一个数据的信息，至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为；获取泄露的数据，将泄露的数据与至少一个数据的内容进行匹配，确定匹配结果，匹配结果包括所述泄露的数据与至少一个数据每个数据的内容的匹配度；根据匹配结果，在至少一个数据中确定至少一个候选泄露的数据；对至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果；根据分析结果，确定泄露数据的访问账号。

Description

数据泄密追踪方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及数据泄密追踪技术，尤其涉及一种数据泄密追踪方法、装置、电子设备和计算机存储介质。

背景技术

大数据时代，数据蕴藏着巨大的价值，为了便于对数据的使用和管理，一般将数据存储在大数据平台中。大数据平台有益于数据的共享，但由于不同的使用方可以使用大数据平台中的数据，则必然存在数据泄密的安全问题，尤其是针对一些敏感数据的泄露，如，身份证号码，银行***、电话号码等等。对泄密的数据进行有效的追溯可以帮助大数据平台管理数据，目前对于数据泄密后的溯源还没有好的方法，因此，如何对泄密的数据进行追溯是亟待解决的技术问题。

发明内容

本发明实施例提供了数据泄密追踪方法、装置、电子设备和计算机存储介质。

本发明实施例提供了一种数据泄密追踪方法，所述方法包括：

获取至少一个数据的信息，所述至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为；

获取泄露的数据，将泄露的数据与所述至少一个数据的内容进行匹配，确定匹配结果，所述匹配结果包括所述泄露的数据与所述至少一个数据每个数据的内容的匹配度；根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据；

对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果；

根据所述分析结果，确定泄露数据的访问账号。

上述方案中，根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据，包括：

在所述至少一个数据中，将满足设定条件的数据作为所述至少一个候选泄露的数据，所述设定条件包括：与所述泄露的数据的内容的匹配度大于设定的阈值。

上述方案中，对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果，包括：

对所述至少一个候选泄露的数据的信息进行分析，确定至少一个候选泄露的数据的访问账号；

根据所述至少一个候选泄露的数据的访问账号，确定至少一个候选泄露的数据的访问账号中每个访问账号的访问行为；

对所述至少一个候选泄露的数据的访问账号的访问行为进行异常检测，确定至少一个候选泄露的数据的分析结果，所述候选泄露的数据的分析结果包括数据的访问账号的异常访问行为。

上述方案中，当所述至少一个候选泄露的数据的数量为两个或两个以上时，所述根据所述分析结果，确定泄露数据的访问账号，包括：

针对所述候选泄露的数据的访问账号的异常访问行为，确定对应的权重值；

根据所述分析结果和异常访问行为对应的权重值，确定所述候选泄露的数据的访问账号的排序；

根据所述候选泄露的数据的访问账号的排序，确定泄露数据的访问账号。

上述方案中，所述泄露的数据与所述至少一个数据中每个数据的内容的匹配度为所述每个数据的内容占所述泄露的数据的内容的占比。

上述方案中，所述获取至少一个数据的信息，包括：

对从大数据中心和/或数据共享平台获取的至少一个数据的加密信息进行解密，得到所述至少一个数据的原始信息；

根据所述至少一个数据的原始信息，得到所述至少一个数据的信息。

上述方案中，根据所述至少一个数据的原始信息，得到所述至少一个数据的信息，包括：

根据所述至少一个数据的原始信息，确定至少一个数据的内容和日志信息；

根据所述至少一个数据的日志信息，确定至少一个数据的会话标识；

根据所述至少一个数据的会话标识，确定至少一个数据的访问账号；

根据至少一个数据的访问账号，确定访问账号的访问行为。

上述方案中，所述访问账号的访问行为包括以下至少一项：访问源网际互联协议的地址、访问时间、访问频率。

本发明实施例还提供了一种数据泄密追踪装置，所述装置包括：获取模块、第一确定模块、分析模块和第二确定模块，其中，

获取模块，用于获取至少一个数据的信息，所述至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为；

第一确定模块，用于获取泄露的数据，将泄露的数据与所述至少一个数据的内容进行匹配，确定匹配结果，所述匹配结果包括所述泄露的数据与所述至少一个数据每个数据的内容的匹配度；根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据；

分析模块，用于对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果；

第二确定模块，用于根据所述分析结果，确定泄露数据的访问账号。

在一种实现方式中，所述第一确定模型，用于根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据，包括：

在所述至少一个数据中，将满足设定条件的数据作为所述至少一个候选泄露的数据，所述设定条件包括：与所述泄露的数据的内容的匹配度大于设定阈值。

在一种实现方式中，所述分析模块，用于对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果，包括：

在一种实现方式中，所述第二确定模块，当所述至少一个候选泄露的数据的数量为两个或两个以上时，用于根据所述分析结果，确定泄露数据的访问账号，包括：

在一种实现方式中，所述泄露的数据与所述至少一个数据中每个数据的内容的匹配度为所述每个数据的内容占所述泄露的数据的内容的占比。

在一种实现方式中，所述获取模块，用于获取至少一个数据的信息，包括：

在一种实现方式中，所述获取模块，用于根据所述至少一个数据的原始信息，得到所述至少一个数据的信息，包括：

根据至少一个数据的访问账号，确定访问账号的访问行为。

在一种实现方式中，所述访问账号的访问行为包括以下至少一项：访问源网际互联协议的地址、访问时间、访问频率。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种数据泄密追踪方法。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种数据泄密追踪方法。

基于本发明实施例提供的数据泄密追踪方法、装置、电子设备和计算机存储介质中，获取至少一个数据的信息，所述至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为；获取泄露的数据，将泄露的数据与所述至少一个数据的内容进行匹配，确定匹配结果，所述匹配结果包括所述泄露的数据与所述至少一个数据每个数据的内容的匹配度；根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据；对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果；根据所述分析结果，确定泄露数据的访问账号。可以看出，本发明实施例以数据的内容与泄露的数据的匹配度为判断基础，确定出至少一个候选泄露的数据，从而确定至少一个候选泄露的数据的访问账号，通过对访问账号进行访问行为的异常检测，根据候选泄露的数据的匹配度和访问账号的异常访问行为可以有效地确定泄露数据的访问账号。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本发明的实施例，并与说明书一起用于说明本发明的技术方案；

图1为本发明实施例提供的数据泄密追踪方法的应用场景图；

图2为本发明实施例提供的数据泄密追踪方法的流程示意图；

图3为相关技术中数据泄密追踪平台的示意图；

图4为本发明实施例提供的确定至少一个数据的内容和日志信息的一个具体实现的流程示意图；

图5为本发明实施例提供的确定至少一个数据的访问账号的一个具体实现的流程示意图；

图6为本发明实施例提供的一种数据泄密追踪装置的示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

在相关技术中，在大数据时代，数据的存储方式从分散到集中，一般都存储在大数据中心和/或数据共享平台中。示例性地，政府的政务数据、民生数据等会存储在各省、市的大数据中心；科研院校的教研数据，科研项目数据等会存储在科研院校的信息中心的大数据平台中。在数据共享的场景下，不同的使用方可以使用大数据中心和/或数据共享平台中的数据，因此，必然存在数据泄露的安全问题，尤其是针对一些敏感数据的泄露，示例性地，身份证号码，银行***、电话号码等。为了提高大数据中心和/或数据共享平台中数据的安全性，需要找出泄露数据的使用方，以及泄露数据的时间等信息，在这种情况下，如何有效地对泄露的数据进行追踪，是亟待解决的技术问题。

针对上述技术问题，提出本公开实施例的技术方案。以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

例如，本发明实施例提供的数据泄密追踪方法包含了一系列的步骤，但是本发明实施例提供的数据泄密追踪方法不限于所记载的步骤，同样地，本发明实施例提供的数据泄密追踪装置包括了一系列模块，但是本发明实施例提供的数据泄密追踪装置不限于包括所明确记载的模块，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本发明实施例可以基于终端和/或服务器实现，这里，终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***，等等。服务器可以是小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

服务器等电子设备可以包括执行计算机指令的程序模块。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本发明实施例提出了数据泄密追踪的技术方案，可以应用于针对数据共享场景下泄露的数据的追踪。

图1示出了本发明实施例提供的一种数据泄密追踪方法的应用场景图。参见图1，数据提供方将数据存储在大数据中心和/或数据共享平台中，数据使用方1和数据使用方2可以通过应用程序接口(Application Programming Interface，API)访问方式访问Web服务器，从而获取数据；数据使用方3可以通过数据库访问方式访问数据库，从而获取数据。当数据使用方访问共享数据时，数据被自动传输到数据泄密追踪平台。当出现数据泄密时，将泄露的数据导入数据泄密追踪平台，通过日志关联分析、账号关联分析和数据访问异常关联分析，确定泄露数据的访问账号。

基于图1所示的应用场景，提出本发明实施例的技术方案。

图2为本发明实施例提供的数据泄密追踪方法的流程示意图，如图2所示，该流程可以包括：

步骤A201：获取至少一个数据的信息，至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为。

本发明实施例中，至少一个数据是指大数据中心和/或数据共享平台中的数据。对大数据中心和/或数据共享平台中的至少一个数据进行加密，将加密后的至少一个数据传输到数据泄密追踪平台，数据泄密追踪平台，如图3所示。

在一些实施方式中，对从大数据中心和/或数据共享平台获取的至少一个数据的加密信息进行解密，得到所述至少一个数据的原始信息；

本发明实施例中，数据的提供方将数据存储在大数据中心和/或数据共享平台中，数据的使用方可以通过申请，具有访问数据的权限，并通过数据库访问方式或API接口访问方式获取数据。

本发明实施例中，API是一组定义、程序和协议的集合，通过API接口实现计算机软件自己的相互通信，可以提供应用程序与开发人员基于软件或硬件访问一组例程的能力，同时，不需要访问源代码，也不需要理解内部工作机制的细节。

本发明实施例中，对大数据中心和/或数据共享平台中的至少一个数据进行加密，将至少一个加密的数据传输至数据泄密追踪平台，可以保证传输过程中数据的安全性。对至少一个加密的数据进行解密，重组数据的数据包，可以得到至少一个数据的原始信息。对至少一个数据的原始信息进行解析，可以得到至少一个数据的信息。

需要说明的是，数据的数据包指的是通信传输中的基本单位，一般通信传输是将一个数据流分成若干个数据包进行传输，每个数据包中都包括一条源IP地址、目的IP地址和包长度的日志信息。

本发明实施例中，数据的内容是指数据所包含的实质性事物，示例性地，某公司信息中心存储着员工信息的数据，数据内容包括：姓名、电话号码、身份证号码、邮箱、地址。

本发明实施例中，数据的访问账号用于实现数据访问的功能，方便在大数据中心和/或数据共享平台中的操作，需要说明的是，因为多个不同的账号可以访问同一个数据，因此一个数据可以存在多个访问账号。示例性地，员工拥有公司信息中心的账号，可以登录信息中心，执行对本人信息查询、修改、下载的操作，及查询他人的信息的操作。

本发明实施例中，访问账号的访问行为是指访问账号在访问大数据中心和/或数据共享平台时的属性信息，示例性地，访问行为包括以下至少一项：访问源网际互联协议(Internet Protocol，IP)的地址、访问时间、访问频率。

步骤A202：获取泄露的数据，将泄露的数据与至少一个数据的内容进行匹配，确定匹配结果，匹配结果包括所述泄露的数据与至少一个数据每个数据的内容的匹配度；根据匹配结果，在至少一个数据中确定至少一个候选泄露的数据。

本发明实施例中，可以从网络中获取泄露的数据，泄露的数据的信息包括数据的内容，泄露的数据的内容包括以下至少一项：大数据中心和/或数据共享平台中的某一条数据的内容、大数据中心和/或数据共享平台中的多条数据的内容的组合、大数据中心和/或数据共享平台中的至少一条数据与其它数据的内容的组合。本发明实施例中，至少一个候选泄露的数据是指至少一个数据中满足设定条件的数据，所述设定条件包括：与泄露的数据的内容的匹配度大于设定的阈值。匹配度是指每个数据去重后的内容占所述泄露的数据去重后的内容的占比。

本发明实施例中，可以根据历史阈值或已有经验设定阈值，示例性地，设定阈值为60％、65％或70％。

本发明实施例中，将泄露的数据与所述至少一个数据中每个数据的内容进行匹配，得到泄露的数据与每个数据的内容的匹配度，从而可以确定匹配结果。根据匹配结果，可以在至少一个数据中确定至少一个候选泄露的数据，并将至少一个候选泄露的数据的信息存储在Elasticsearch(ES)***中。

本发明实施例中，ES***是一个分布式、高扩展、高实时的搜索与数据分析引擎，它可以快速地存储、查询和分析大数据中心和/或数据共享平台中的数据海量数据。

步骤A203：对至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果。

本发明实施例中，至少一个候选泄露的数据的分析结果是指对至少一个候选泄露的数据的访问账号的异常访问行为的分析结果，分析结果包括以下至少一项：访问源IP地址的异常检测结果、访问时间的异常检测结果、访问频率的异常检测结果。

本发明实施例中，根据至少一个候选泄露的数据，确定至少一个候选泄露的数据的账号，对至少一个候选泄露的数据的访问账号的异常访问行为进行分析，得到至少一个候选泄露的数据的分析结果。

步骤A204：根据分析结果，确定泄露数据的访问账号。

本发明实施例中，根据至少一个候选泄露的数据的访问账号的异常访问行为的分析结果，对异常访问行为设定对应的权重值，并确定至少一个候选泄露的数据的访问账号的异常访问行为的总值，根据至少一个候选泄露的数据的访问账号的异常访问行为的总值，结合对应的候选泄露的数据的内容的匹配度，确定至少一个候选泄露的数据的访问账号的排序，从而可以确定泄露数据的访问账号。

在实际应用中，步骤A201至步骤A204以基于电子设备的处理器实现，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central ProcessingUnit，CPU)、控制器、微控制器、微处理器中的至少一种。

可以看出，本发明实施例中，将泄露的数据与至少一个数据中每个数据的内容进行匹配，得到每个数据的内容的匹配度，根据每个数据的内容的匹配度和设定的阈值，确定至少一个候选泄露的数据，当数据的匹配度大于设定的阈值时，说明该条数据存在泄露的可能性，因此，通过确定泄露的数据与至少一个数据中的每个数据的内容的匹配度，可以全面精确地找出可能发生泄露的数据。通过对至少一个候选泄露的数据的访问账号的访问行为进行异常检测，得到访问行为的分析结果，结合数据的内容的匹配度和访问行为的分析结果可以确定泄露数据的访问账号，可以看出，本发明实施例通过多维度全面精准的分析，提高了数据泄密追踪的准确度，能够有效地找出泄露数据的账号。

在一些实施方式中，根据至少一个数据的原始信息，确定至少一个数据的内容和日志信息；

根据至少一个数据的日志信息，至少一个数据的会话标识；

根据至少一个数据的会话标识，至少一个数据的访问账号；

根据至少一个数据的访问账号，确定访问账号的访问行为。

本发明实施例中，根据至少一个数据的原始信息，对访问至少一个数据的超文本传输协议(Hyper Text Transfer Protocol，HTTP)的访问方向进行双向解析，解析包括HTTP请求方向的解析和HTTP响应方向的解析，可以得到至少一个数据的内容和日志信息，并将至少一个数据的内容和日志信息存储在ES***中。

需要说明的是，HTTP是一个请求和响应的协议。HTTP处理事务的过程包括：(1)客户与服务器建立连接；(2)客户向服务器提出请求；(3)服务器接收请求，并根据请求返回相应的文件作为响应；(4)客户与服务器关闭连接。客户与服务器之间的HTTP连接是一次性的连接，每次连接只处理一个请求，当服务器返回本次请求的响应后便关闭连接，下次请求再建立新的连接。

本发明实施例中，HTTP请求方向的解析包括提取请求方向的通用资源标识符(Uniform Resource Identifier，URI)、主机(Host)、令牌(Token)、用户凭证(Authorization)，及获取源IP地址、目的IP地址和目的端口。需要说明的是，URI是用于标识互联网资源名称的字符串，网络中的资源如，文档、图形、程序等可以由一个URI进行定位，这里URI是获取数据的接口；Host是一个可读可写的字符串，这里，Host是目的服务器的IP地址或域名；Token可以用于访问请求认证，请求方向的请求经服务器认证后，服务器会返回Token，Token可以用于判断访问请求是否具有权限；Authorization是根据用户提供的身份凭证，生成权限，并为用户授予相应的权限。

本发明实施例中，HTTP响应方向的解析包括对响应数据(Extensible MarkupLanguage，xml、)和(JavaScript Object Notation，JSON)的解析，需要说明的是，xml和JSON是可以用来描述数据和交换数据的数据交换格式，服务器响应的数据一般采用xml或JSON格式。

示例性地，一个服务器响应的数据为JSON格式，数据为：[{“name”：“test1”，“age”：10，“tel”：13155262731}，{“name”：“test2”，“age”：20，“tel”：13155262712}]。对响应数据进行解析，提取数据的值，可以得到：test1，10，13155262731；test2，20，13155262712。

本发明实施例中，根据至少一个数据的日志信息，可以得到至少一个数据HTTP的访问方向的解析结果，HTTP的访问方向包括请求方向和响应方向，从而可以得到URI和服务器返回的会话标识Token，至少一个数据HTTP的请求方向和响应方向都会带有会话标识Token。可以通过获取至少一个数据HTTP的请求方向和响应方向的会话标识Token来确定至少一个数据的访问账号。

本发明实施例中，建立至少一个数据的访问账号和对应会话标识Token的哈希表，可以用于后续至少一个数据HTTP访问方向的解析结果的查询，当查询至少一个数据的访问账号时，通过至少一个数据的请求方向或响应方向的会话标识Token，在关系表中查找对应的访问账号。

示例性地，一个数据的访问账号为：“test1”，数据的请求方向或响应方向的会话标识Token为：“zkWyIg+HTFilsTya5xjCCGe4c1W106FG9riLC＝＝”，需要说明的是，服务器返回的会话标识Token经过base64编码。

对访问账号和会话标识Token建立一个哈希表，哈希表中存储：account＝“test1”，Token＝“zkWyIg+HTFilsTya5xjCCGe4c1W106FG9riLC＝＝”，当需要查询该数据的访问账号时，只需要得到该数据请求方向或响应方向的会话标识Token，就可以确定数据的访问账号。

本发明实施例中，根据对至少一个数据HTTP访问方向的解析结果，可以得到至少一个数据的访问账号，及访问账号的源IP地址、目的IP地址、访问的次数和访问的时间，从而可以确定访问账号的访问行为。

在一个示例中，确定至少一个数据的内容和日志信息可以通过以下过程计算得出。

图4为本发明实施例确定至少一个数据的内容和日志信息的一个具体实现的流程示意图，如图4所示，该流程可以包括：

步骤41：获取至少一个数据的原始信息。

本发明实施例中，至少一个数据的原始信息表示从大数据中心和/或数据共享平台获取的解密后的数据。

步骤42：判断至少一个数据的HTTP访问方向是否为响应方向，如果是，执行步骤43，否则，执行步骤45。

本发明实施例中，对至少一个数据的HTTP访问方向进行双向解析，包括HTTP请求方向的解析和HTTP响应方向的解析。

步骤43：判断响应方向数据的格式是否为xml或JSON格式，如果是，则执行步骤44，如果否，则结束流程。

这里，服务器响应的数据一般采用xml或JSON格式进行传输。

步骤44：解析响应方向的数据，获取响应方向的数据的值。

这里，通过解析xml或JSON格式的数据，可以得到对应数据的值。

步骤45：对HTTP请求方向进行解析，提取URI、Host、Token、Authorization、源IP地址、目的IP地址和目的端口。

本发明实施例中，当HTTP访问方向为请求方向时，对HTTP请求方向进行解析，这里，访问账号存储在URI或Authorization中。

步骤46：将解析结果存储在ES***中。

这里，解析结果为对至少一个数据HTTP的请求方向和响应方向进行解析得到的值，HTTP的请求方向的解析结果包括：URI、Host、Token、Authorization、源IP地址、目的IP地址和目的端口；HTTP的响应方向的解析结果包括解析xml或JSON格式的数据得到的值。

本发明实施例中，对至少一个数据的HTTP访问方向的解析结果存储在ES***中，ES***存储至少一个数据的内容和日志信息。

在一个示例中，确定至少一个数据的访问账号可以通过以下过程计算得出。

图5为本发明实施例确定至少一个数据的访问账号的一个具体实现的流程示意图，如图5所示，该流程可以包括：

步骤51：获取至少一个数据的原始信息。

步骤52：判断至少一个数据的HTTP访问方向，如果为HTTP的响应方向时，执行步骤53，如果为HTTP的请求方向时，执行步骤55。

步骤53：判断HTTP的响应方向是否包含会话标识Token，如果是，执行步骤54，如果否，则结束流程。

步骤54：提取会话标识Token，执行步骤59。

这里，得到服务器返回的会话标识Token。

步骤55：判断URI中是否包含访问账号，如果是，则执行步骤56，如果否，执行步骤58。

这里，当至少一个数据的HTTP访问方向为请求方向时，可以得到URI，URI中可能存在访问账号。

步骤56：提取访问账号。

这里，得到至少一个数据的访问账号。

步骤57：将访问账号保存在HTTP信息中，执行步骤59。

步骤58：判断HTTP请求方向是否包含访问账号，如果是，则执行步骤56，否则，结束流程。

本发明实施例中，对HTTP请求方向进行解析，访问账号一般存储在URI或Authorization中。

步骤59：建立访问账号和会话标识Token的哈希表。

本发明实施例中，建立至少一个数据的访问账号和对应会话标识Token的哈希表，可以用户后续至少一个数据的HTTP访问的查询。

在一些实施方式中，对至少一个候选泄露的数据的信息进行分析，确定至少一个候选泄露的数据的访问账号；

根据至少一个候选泄露的数据的访问账号，确定至少一个候选泄露的数据的访问账号中每个访问账号的访问行为；

对至少一个候选泄露的数据的访问账号的访问行为进行异常检测，确定至少一个候选泄露的数据的分析结果，候选泄露的数据的分析结果包括数据的访问账号的异常访问行为。

本发明实施例中，在ES***中查询至少一个候选泄露的数据，可以得到至少一个候选泄露的数据的信息，由于至少一个候选泄露的数据的信息包括：数据的内容、数据的访问账号、访问账号的访问行为，因此，可以确定至少一个候选泄露的数据的访问账号；针对至少一个候选泄露的数据的访问账号中的每个访问账号，根据每个访问账号，可以确定对应账号访问候选泄露的数据时的访问行为。

本发明实施例中，针对至少一个候选泄露的数据的访问账号中的每个访问账号的访问行为，对每个账号的访问行为进行异常检测，异常检测包括以下至少一项：访问源IP地址的异常检测、访问时间的异常检测、访问频率的异常检测。

本发明实施例中，访问源IP地址的异常检测是指基于地理位置的变化判断访问行为是否存在异常。在数据泄密追踪平台中内置IP地理位置库，通过分析访问源IP，确定访问源IP的地理位置，当访问源IP地址突然出现变化，说明访问行为存在异常，该访问账号可能泄露了大数据中心和/或数据共享平台中的数据。

示例性地，员工拥有公司信息中心的访问账号，正常情况下，该员工访问账号的源IP地址为固定的某个地理位置，当检测到某次该员工访问账号的源IP地址为其它地理位置时，说明此次访问行为存在异常。

本发明实施例中，访问时间的异常检测是基于时间维度判断访问行为是否存在异常。在数据泄密追踪平台中存储着访问账号访问大数据中心和/或数据共享平台的时间，当访问时间突然出现变化，说明访问行为存在异常。

示例性地，员工使用访问账号访问公司信息中心，正常情况下，该员工访问信息中心的时间为工作时间(8:00至18:00)，当检测到某次该员工访问时间为23:00时，说明此次访问行为存在异常。

本发明实施例中，访问频率的异常检测是基于访问的次数判断访问行为是否存在异常。基于机器学习，可以对访问账号每天访问数据的频率和数据量的大小，以及每月访问数据的频率和数据量的大小，建立每个账号的访问频率和访问量的基准模型。当访问账号的访问频率和访问量突然出现变化，说明访问行为存在异常。

示例性地，员工使用访问账号访问公司信息中心，正常情况下，该员工每天访问公司信息中心的次数为100次，当检测到某次该员工一天访问的次数为500次时，说明此次访问行为存在异常。

在一些实施方式中，当至少一个候选泄露的数据的数量为两个或两个以上时，针对候选泄露的数据的访问账号的异常访问行为，确定对应的权重值；

根据分析结果和异常访问行为对应的权重值，确定候选泄露的数据的访问账号的排序；

本发明实施例中，当至少一个候选泄露的数据的数量为一个时，可以不进行分析，即确定候选该候选泄露的数据为泄露的数据，从而该候选泄露的数据的访问账号为泄露数据的账号。当至少一个候选泄露的数据的数量为两个或两个以上时，需要针对候选泄露的数据的访问账号的异常访问行为进行分析，从而确定泄露数据的账号。

本发明实施例中，可以根据已有经验或候选泄露的数据的信息，对候选泄露的数据的访问账号的异常访问行为设定对应的权重值；根据分析结果和异常访问行为对应的权重值，确定候选泄露的数据的访问账号的异常访问行为的值的总和。

本发明实施例中，根据候选泄露的数据的内容匹配度，确定候选泄露的数据的内容匹配度的排序，需要说明的是，匹配度越高，候选泄露的数据的匹配度的排序越高；针对候选泄露的数据的内容匹配度的排序，当存在排序相同时，比较排序相同的候选泄露的数据的访问账号的异常访问行为的总值，确定候选泄露的数据的访问账号的排序。

本发明实施例中，根据候选泄露的数据的访问账号的排序，可以选取排序靠前的至少一个访问账号，作为泄露数据的访问账号。

在一个具体的示例中，以某公司信息中心存储的员工信息数据为例进行说明，员工信息数据包括：姓名、电话号码、身份证号码、邮箱、地址、性别。员工信息数据为公司的内部数据，不允许对外公布，当存在数据泄露时，需要追踪泄露数据的账号，方便更好地管理员工信息数据。

假设泄露了一批员工信息数据，举例如下表1所示，表1为泄露的员工信息数据。

姓名	电话	身份证	邮箱	地址	性别
						张三	13112345601	3306xxxx01	[email protected]	addr1	男
李四	13112345602	3306xxxx02	[email protected]	addr2	男
						王二	13112345603	3306xxxx03	[email protected]	addr3	女
孙六	13112345604	3306xxxx04	[email protected]	addr4	女

表1

将泄露的员工信息数据与信息中心的员工信息数据进行匹配，得到信息中心的员工信息数据与泄露的员工信息数据的匹配度，将匹配度大于0的数据作为候选泄露的数据，需要说明的是，数据的匹配度是基础，当匹配度大于0时，说明可能产生数据的泄露。

在ES***中查询候选泄露的数据，可以得到候选泄露的数据的信息，举例如下表2所示，表2为候选泄露的数据的信息。

数据	数据的访问账号
		张三、13112345601、[email protected]	User1
李四、13112345602	User1
		王二、13112345603	User2
张三、addr1	User2
		孙六、女	User3
李四、13112345602、男	User3
		王二、3306xxxx03	User4

表2

根据候选泄露的数据的信息，可以得到候选泄露的数据的匹配度。User1的访问内容的匹配度为20.8％；User2的访问内容的匹配度为16.7％；User3的访问内容的匹配度为20.8％；User4的访问内容的匹配度为8.3％。

根据匹配度，可以得到候选泄露的数据的匹配度的排名：User1＝User3>User2>User4。因此，从匹配度来看，User1和User3泄露数据的可能性最大，User2次之，User4泄露数据的可能性最小。

对候选泄露的数据的访问账号的访问行为进行异常检测，包括：访问源IP地址的异常检测、访问时间的异常检测、访问频率的异常检测，得到候选泄露的数据的访问账号的异常访问行为结果。对三种异常访问行为设定权重值，访问源IP地址的异常为0.5、访问时间的异常为0.25、访问频率的异常为0.25，可以得到候选泄露的数据的访问账号的访问情况，举例如下表3所示，表3为候选泄露的数据的访问账号的异常访问情况。

表3

计算候选泄露的数据的访问账号的异常访问行为的总值，可以得到：User1的总值为0.25；User2的总值为0.5；User3的总值为0.75；User4的总值为1。根据候选泄露的数据的匹配度的排名：User1＝User3>User2>User4，可以得到候选泄露的数据的访问账号的排名：User3>Uer1>User2>User4。

因此，可以判定User3为泄露数据的访问账号。

基于前述实施例相同的技术构思，参见图6，本发明实施例提供的数据泄密追踪装置，可以包括：

获取模块601，用于获取至少一个数据的信息，所述至少一个数据中每个数据的信息包括数据的内容、数据的访问账号和访问账号的访问行为；

第一确定模块602，用于获取泄露的数据，将泄露的数据与所述至少一个数据的内容进行匹配，确定匹配结果，所述匹配结果包括所述泄露的数据与所述至少一个数据每个数据的内容的匹配度；根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据；

分析模块603，用于对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果；

第二确定模块604，用于根据所述分析结果，确定泄露数据的访问账号。

在一种实现方式中，所述第一确定模块602，用于根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据，包括：

在一种实现方式中，所述分析模块603，用于对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果，包括：

在一种实现方式中，所述第二确定模块604，当所述至少一个候选泄露的数据的数量为两个或两个以上时，用于根据所述分析结果，确定泄露数据的访问账号，包括：

在一种实现方式中，所述获取模块601，用于获取至少一个数据的信息，包括：

在一种实现方式中，所述获取模块601，用于根据所述至少一个数据的原始信息，得到所述至少一个数据的信息，包括：

根据至少一个数据的访问账号，确定访问账号的访问行为。

在实际应用中，获取模块601、第一确定模块602、分析模块603、第二确定模块604均可以采用电子设备的处理器实现，上述处理器可以是ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种，本发明实施例对此不作限制。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本发明实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令用于实现本发明实施例提供的任意一种数据泄密追踪方法。

相应的，本发明实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令用于实现上述实施例提供的任意一种数据泄密追踪方法。

在一些实施例中，本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于前述实施例相同的技术构思，参见图7，本发明实施例提供的电子设备700，可以包括：存储器710和处理器720；其中，

存储器710，用于存储计算机程序和数据；

处理器720，用于执行存储器中存储的计算机程序，以实现前述实施例中的任意一种数据泄密追踪方法。

上文对各个实施例的描述倾向于强调各个实施例间的不同处，其相同或相似处可以互相参考，为了简洁，本文不再赘述。

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，示例性地，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网格单元上；可以根据实际的可以选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据泄密的追踪方法，其特征在于，所述方法包括：

根据所述分析结果，确定泄露数据的访问账号。

2.根据权利要求1所述的方法，其特征在于，所述根据所述匹配结果，在所述至少一个数据中确定至少一个候选泄露的数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述至少一个候选泄露的数据的信息进行分析，得到至少一个候选泄露的数据的分析结果，包括：

4.根据权利要求3所述的方法，其特征在于，当所述至少一个候选泄露的数据的数量为两个或两个以上时，所述根据所述分析结果，确定泄露数据的访问账号，包括：

5.根据权利要求1所述的方法，其特征在于，所述泄露的数据与所述至少一个数据中每个数据的内容的匹配度为所述每个数据的内容占所述泄露的数据的内容的占比。

6.根据权利要求1所述的方法，其特征在于，所述获取至少一个数据的信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述至少一个数据的原始信息，得到所述至少一个数据的信息，包括：

根据至少一个数据的访问账号，确定访问账号的访问行为。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述访问账号的访问行为包括以下至少一项：访问源网际互联协议的地址、访问时间、访问频率。

9.一种数据泄密追踪装置，其特征在于，所述装置至少包括：

10.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-8中任一项所述的数据泄密追踪方法。

11.一种计算机存储介质，所述存储介质存储有计算机程序；其特征在于，所述计算机程序被执行后能够实现权利要求1-8中任一项所述的数据泄密追踪方法。