CN109815736A

CN109815736A - 一种数据库脱敏方法、装置及脱敏设备

Info

Publication number: CN109815736A
Application number: CN201910069913.1A
Authority: CN
Inventors: 彭徵; 刘华春
Original assignee: SHENZHEN ANTECH TECHNOLOGY CO LTD
Current assignee: SHENZHEN ANTECH TECHNOLOGY CO LTD
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-05-28

Abstract

本发明实施例涉及数据处理技术领域，例如涉及一种数据库脱敏方法、装置、脱敏设备及存储介质。方法包括：提取数据，提取数据基于分布式***执行；对数据进行分析，获得分析结果，对数据进行分析基于分布式***执行；根据分析结果对数据进行脱敏，获得脱敏后的数据；由此能够实现对大数据快速脱敏。

Description

一种数据库脱敏方法、装置及脱敏设备

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种数据库脱敏方法、装置、脱敏设备及存储介质。

背景技术

随着大数据时代的发展，数据成为国家基础性战略资源，大数据所蕴含的巨大商业价值也愈发受到各方关注，然而大数据往往包含用户大量的敏感信息，而未经处理直接发布或共享原始数据,将不可避免地泄露用户隐私信息。

现如今很多数据库和数据库安全厂商推出了相应的数据脱敏产品，传统的数据脱敏产品基于单计算节点下运行，计算速度慢，难以应对当前海量数据的计算需求。

发明内容

本发明的主要目的在于提供一种数据库脱敏方法、装置、脱敏设备及存储介质，能够实现对大数据快速脱敏。

第一方面，本发明实施例提供了一种数据库脱敏方法，所述方法包括：

提取数据，所述提取数据基于分布式***执行；

对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行；

根据所述分析结果对所述数据进行脱敏，获得脱敏后的数据。

在一些实施例中，所述提取数据，包括：

使用数据库连接工具获取数据并存储至分布式文件***中，再从所述分布式文件***提取数据；及

使用订阅消息***提取数据和/或接收采集任务的数据流。

在一些实施例中，所述方法还包括：

获取样本数据，并基于所述样本数据提取样本特征向量；

将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型。

在一些实施例中，所述将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型，包括：

将所述样本特征向量及对应的标签输入决策树模型进行***计算，获得分类模型；和/或，

将所述样本特征向量及对应的标签输入神经网络模型进行迭代训练，获得分类模型。

在一些实施例中，所述对所述数据进行分析，获得分析结果，包括:

获取数据；

利用所述数据仓库工具和Spark SQL模块对数据进行处理并提取特征向量；

将所述特征向量输入所述分类模型，获得数据类标签。

在一些实施例中，所述对所述数据进行分析，获得分析结果，包括：

获取数据；

把数据流以时间为单元切分成数据块，对每个数据块均进行脱敏处理，获得脱敏后的数据；

将所述脱敏后的数据提供给外部应用***使用。

第二方面，本方面实施例还提供了一种数据脱敏装置，所述装置包括：

提取模块，用于提取数据，所述提取数据基于分布式***执行；

分析模块，用于对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行；

脱敏模块，用于根据所述分析对所述数据进行脱敏，获得脱敏后的数据。

在一些实施例中，所述提取模块还包括：

获取模块：用于获取样本数据，并基于所述样本数据提取样本特征向量；

输入模块：用于将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型。

在一些实施例中，所述提取模块具体用于：

使用订阅消息***提取数据和/或接收采集任务的数据流；

利用数据仓库工具和Spark SQL模块对数据进行处理并提取特征向量。

在一些实施例中，所述脱敏模块具体用于：

把数据流以时间为单元切分成数据块，对每个数据块均进行脱敏处理，获得脱敏后的数据。

在一些实施例中，所述获取模块具体用于：

获取数据。

在一些实施例中，所述输入模块具体用于：

将所述样本特征向量及对应的标签输入神经网络模型进行迭代训练，获得分类模型；

将所述特征向量输入所述分类模型，获得数据类标签。

第三方面，本方面实施例还提供了一种脱敏设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

第四方面，本方面实施例还提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被脱敏设备所执行时，使所述脱敏设备执行上述的方法。

本发明实施例提供的数据库脱敏方法，通过提取数据，所述提取数据基于分布式***执行，并对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行，然后根据所述分析结果对所述数据继续脱敏，获得脱敏后的数据，基于分布式***能够实现对大数据快速脱敏。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明数据库脱敏方法的一个实施例的流程图；

图2是本发明数据库脱敏方法的一个实施例中模型训练的流程图；

图3是本发明数据库脱敏装置的一个实施例的结构框图；

图4是本发明数据库脱敏装置的另一个实施例的结构框图；

图5是本发明脱敏设备的一个实施例的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。再者，本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

如图1所示，本发明实施例提供了一种数据库脱敏方法，该方法包括但不限于以下步骤：

步骤102，提取数据，所述提取数据基于分布式***执行。

具体的，数据库脱敏分为数据库静态脱敏和数据库动态脱敏。数据库静态脱敏用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景，脱敏效果好。数据库动态脱敏用于不脱离生产环境，对敏感数据的查询和调用结果进行实时脱敏，适用面广且更加灵活，由于数据库动态脱敏一般用于访问敏感数据当时对数据进行脱敏，需要较好的实时计算能力，因此，在本实施例中，采用上述两种不同的脱敏方式，并基于分布式计算框架Spark和Hadoop，实现对数据库脱敏。Spark是专为大规模数据处理而设计的快速通用计算引擎。Hadoop是一个分布式***基础架构。

提取数据分为两种情况，一种是基于数据库静态脱敏***提取数据，另一种是基于数据库动态脱敏***提取数据。数据库静态脱敏***提取数据通过数据库连接工具JDBC(Java DataBase Connectivity：Java数据库连接)连接原始数据库，从所述原始数据库中获取数据存储至分布式文件***HDFS(Hadoop Distributed File System，分布式文件***)中，之后再从所述分布式文件***HDFS中提取数据。需要说明的是，基于数据库静态脱敏***提取数据时还可以通过其他的工具连接原始数据库获取数据存储至分布式文件***中，无需拘泥于本实施例中的限定。基于数据库动态脱敏***提取数据通过订阅消息***Kafka从原始数据库中提取数据，或者接收采集任务的数据流，数据流为正在传输的数据。

步骤104，对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行。

对所述数据进行分析包括对数据库静态脱敏***中的数据进行分析，以及对数据库动态脱敏***中的数据分析。具体的，当对数据库静态脱敏***中的数据进行分析时，从分布式文件***HDFS中获取数据，利用数据库中的数据仓库工具Hive和Spark SQL模块对数据进行计算和处理，之后并提取数据的特征向量，Spark SQL模块是用于结构化数据处理，最后将提取的特征向量输入分类模型当中进行分析，输出数据类标签，数据类标签为敏感数据类别。

当对数据库动态脱敏***中数据进行分析时，利用订阅消息***Kafka从原始数据库提取数据，或者接收采集任务的数据流，并将数据传输到Spark Streaming模块，SparkStreaming模块用于对流式数据做实时计算。具体的，Spark Streaming模块把实时输入的数据流以时间为单位切分为数据块，每个数据块都会生成一个Spark Job，Spark Job是Spark框架的任务，提取每个数据的特征向量，将提取的特征向量输入分类模型进行分析，得到分析结果，根据分析结果对每个数据块中的敏感数据进行脱敏处理，获得脱敏后的数据，最终将脱敏后的数据直接提供给外部应用***使用。

步骤106，根据所述分析结果对所述数据进行脱敏，获得脱敏后的数据。

根据所述分析结果对数据进行脱敏，去掉其中的敏感数据，得到脱敏后不包含敏感字符的数据。数据库静态脱敏***将脱敏后的数据存至HBase(Hadoop Database：分布式存储***)和/或RDBMS(Relational Database Management System：关系数据库管理***)中，形成一个脱敏镜像数据库供外部应用***访问，数据库动态脱敏***将脱敏后的数据直接提供给外部应用***使用。

在本实施例中，通过提取数据，所述提取数据基于分布式***执行，并对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行，然后根据所述分析结果对所述数据继续脱敏，获得脱敏后的数据，基于分布式***能够实现对大数据快速脱敏。

在一些实施例中，如图2所示，所述方法还包括:

步骤202，获取样本数据，并基于所述样本数据提取样本特征向量。

样本数据可以为数据库中的数据，或者为TXT文本，亦可为Execl表格中的数据等。样本特征向量为能够体现样本数据特征的向量，提取样本特征向量的目的是提取出样本数据的特征来标示该特定的样本数据。从所述数据中获取样本数据，并基于所述样本数据提取出样本数据的特征来标示该特定的样本数据。

具体的，以样本数据由数字和字符组成为例。获取样本数据后，对样本数据进行预处理，提取样本数据的字符长度、数字和字母占比、是否有特殊字符、数据的第一个字符和最后一个字符等特征。然后将样本数据转换为由各个特征值组成的特征向量。

步骤204，将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型。

决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。将所述样本特征向量及对应的标签输入决策树模型继续***计算，获取分类模型。神经网络是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络***，神经网络模型为一种数学模型，在此模型上跑数据来学习。将样本特征向量及对应的标签输入神经网络模型进行迭代训练，得到分类模型。由此可自动对数据进行分类，发现潜在的敏感数据，有利于减少开发时间以及降低维护成本。

需要说明的是，在上述各个实施例中，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

相应的，本发明实施例提供了一种数据库脱敏装置，如图3所示，数据库脱敏装置300，包括：

提取模块302，用于提取数据，所述提取数据基于分布式***执行。

分析模块304，用于对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行。

脱敏模块306，用于根据所述分析结果对所述数据进行脱敏，获得脱敏后的数据。

本发明实施例提供的数据库脱敏装置，通过提取数据，所述提取数据基于分布式***执行，并对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行，然后根据所述分析结果对所述数据继续脱敏，获得脱敏后的数据，基于分布式***能够实现对大数据快速脱敏。

可选的，在装置的其他实施例中，请参照图4，提取模块302包括：

获取模块3021：用于获取样本数据，并基于所述样本数据提取样本特征向量；

输入模块3022：用于将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型。

具体的，在一些实施例中，所述提取模块302具体用于：

使用订阅消息***提取数据和/或接收采集任务的数据流；

具体的，在一些实施例中，所述脱敏模块306具体用于：

具体的，在一些实施例中，所述获取模块3021具体用于：

获取数据。

具体的，在一些实施例中，所述输入模块3022具体用于：

将所述特征向量输入所述分类模型，获得数据类标签。

其中，通过提取模块基于分布式***提取数据，需要说明的是，基于分布式***提取数据，分为两种情况，其中一种是基于数据库静态脱敏***提取数据，通过数据库连接工具连接原始数据库从中获取数据，利用存储模块将获取的数据存储至分布式文件***中，然后再利用分析模块对所述数据进行分析，获得数据分析结果，其次根据分析结果使用脱敏模块对所述数据进行脱敏，得到脱敏后的数据，最终将所述脱敏后的数据通过存储模块存储至分布式存储***和/或关系数据库管理***以使外部应用***访问。另一种是基于数据库动态脱敏***提取数据，通过订阅消息***提取数据和/或接收采集任务的数据流，并将所述数据传输到Spark Streaming模块，利用所述Spark Streaming模块把数据流以时间为单元切分成数据块，每个数据块均生成一个Spark Job，提取每个数据的特征向量，将提取的特征向量输入分类模型进行分析，得到分析结果，根据分析结果对每个数据块中的敏感数据进行脱敏处理，获得脱敏后的数据，最后将所述脱敏后的数据提供给外部应用***使用，实现了对大数据快速脱敏。

需要说明的是，上述数据库脱敏装置可执行本发明实施例所提供的数据库脱敏方法，具备执行方法相应的功能模块和有益效果。未在数据库脱敏装置实施例中详尽描述的技术细节，可参见本发明实施例所提供的数据库脱敏方法。

图5是本发明实施例提供的脱敏设备的硬件结构示意图，如图5所示，该脱敏设备50包括：

一个或多个处理器51以及存储器52，图5中以一个处理器51为例。

处理器51和存储器52可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器52作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中数据库脱敏方法对应的程序指令/模块(例如，附图3所示的提取模块302、分析模块304和脱敏模块306)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块，从而执行脱敏设备的各种功能应用以及数据处理，即实现上述方法实施例的数据库脱敏方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据数据库脱敏装置使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至数据库脱敏装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中，当被所述一个或者多个脱敏设备50执行时，执行上述任意方法实施例中的数据库脱敏方法，例如，执行以上描述的图1中的方法步骤102至步骤106、图2中的方法步骤202至步骤204；实现图3中的模块302至306、图4中模块302至3022的功能。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本实施例提供的脱敏设备，通过提取数据，所述提取数据基于分布式***执行，并对所述数据进行分析，获得分析结果，所述对所述数据进行分析基于分布式***执行，然后根据所述分析结果对所述数据继续脱敏，获得脱敏后的数据，基于分布式***能够实现对大数据快速脱敏。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据库脱敏方法，其特征在于，所述方法包括：

提取数据，所述提取数据基于分布式***执行；

2.根据权利要求1所述的方法，其特征在于，所述提取数据，包括：

使用订阅消息***提取数据和/或接收采集任务的数据流。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取样本数据，并基于所述样本数据提取样本特征向量；

4.根据权利要求3所述的方法，其特征在于，所述将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习，获得分类模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述数据进行分析，获得分析结果，包括：

获取数据；

利用数据仓库工具和Spark SQL模块对数据进行处理并提取特征向量；

将所述特征向量输入所述分类模型，获得数据类标签。

6.根据权利要求4或5所述的方法，其特征在于，所述对所述数据进行分析，获得分析结果，包括：

获取数据；

将所述脱敏后的数据提供给外部应用***使用。

7.一种数据库脱敏装置，其特征在于，所述装置包括：

8.根据权利要求7所述的数据库脱敏装置，其特征在于，所述提取模块包括：

9.一种脱敏设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6任一项所述的方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被脱敏设备所执行时，使所述脱敏设备执行权利要求1-6任一项所述的方法。