CN115080827B

CN115080827B - 一种敏感数据处理方法及装置

Info

Publication number: CN115080827B
Application number: CN202210767076.1A
Authority: CN
Inventors: 张翼飞; 徐雪莲
Original assignee: Boc Financial Technology Co ltd
Current assignee: Boc Financial Technology Co ltd
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2024-05-24
Anticipated expiration: 2042-07-01
Also published as: CN115080827A

Abstract

本发明提供了一种敏感数据处理方法及装置，可应用于金融领域或其他领域，该方法包括：响应于敏感数据识别指令，确定数据识别指令对应的数据源；按预设的扫描方式对数据源进行扫描，获得数据源中的数据字典；对数据字典进行检测，以确定出数据字典中的各个敏感数据；获取每个敏感数据的脱敏规则；应用每个敏感数据的脱敏规则对每个敏感数据进行脱敏，获得每个敏感数据对应的脱敏数据；接收预设应用端发送的查询请求；查询请求用于请求获取数据源中的目标数据；在目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。应用本发明实施例提供的方法，能够向应用端发送脱敏处理后的数据，保障敏感数据的安全。

Description

一种敏感数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种敏感数据处理方法及装置。

背景技术

随着互联网技术的快速发展，大多数企业都会开放一些接口供外部***使用，外部***可以使用接口访问企业提供的数据，其中也包括一些敏感数据，例如资产数据、身份证号码、电话号码等涉及到个人信息的隐私数据。

但现如今存在外部***用户账户被盗，或外部***用户将账户出借后被滥用的情况，如果这些敏感数据不加任何处理而任由非法用户获取，将造成严重的信息安全问题。

发明内容

本发明所要解决的技术问题是提供一种敏感数据处理方法，能够向应用端发送脱敏处理后的数据，保障敏感数据的安全。

本发明还提供了一种敏感数据处理装置，用以保证上述方法在实际中的实现及应用。

一种敏感数据处理方法，包括：

响应于敏感数据识别指令，确定所述数据识别指令对应的数据源；

按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典；

对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据；

获取每个所述敏感数据的脱敏规则；

应用每个所述敏感数据的脱敏规则对每个所述敏感数据进行脱敏，获得每个所述敏感数据对应的脱敏数据；

接收预设应用端发送的查询请求；所述查询请求用于请求获取所述数据源中的目标数据；

在所述目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。

上述的方法，可选的，所述按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典，包括：

确定所述数据源的数据源类型；

根据所述数据源的数据源类型对应的通信方式与所述数据源建立通信连接；

在与所述数据源成功建立通信连接的情况下，根据预设的扫描方式中的定时计划对所述数据源进行扫描，获得所述数据源中的数据字典。

上述的方法，可选的，所述对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据，包括：

获取所述数据字典中包含的各个待检测数据；

利用预设的敏感识别技术对各个所述待检测数据进行检测，获得每个待检测数据的检测结果；所述敏感识别技术包括敏感数据语义分析、敏感数据识别算法以及敏感字段正则匹配中的至少一种；

根据每个所述待检测数据的检测结果，在各个所述待检测数据中确定出敏感数据。

上述的方法，可选的，所述获取每个所述敏感数据的脱敏规则，包括：

确定每个所述敏感数据的数据类型和敏感级别；

根据每个所述敏感数据的数据类型和敏感级别，在预设的各个备选脱敏规则中获得每个所述敏感数据的脱敏规则。

上述的方法，可选的，确定每个所述敏感数据的数据类型的过程，包括：

获取每个所述敏感数据中的字段标识；

利用每个所述敏感数据中的字段标识与预设的各个敏感字段进行匹配；

对于每个所述敏感数据，将与所述敏感数据的字段标识匹配成功的敏感字段所对应的数据类型，确定为所述敏感数据的数据类型。

上述的方法，可选的，确定每个所述敏感数据的敏感级别，包括：

获取预先设置的分级规则；

将每个所述敏感数据与所述分级规则进行匹配，获得每个所述敏感数据的敏感级别。

一种敏感数据处理装置，包括：

第一确定单元，用于响应于敏感数据识别指令，确定所述数据识别指令对应的数据源；

扫描单元，用于按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典；

检测单元，用于对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据；

获取单元，用于获取每个所述敏感数据的脱敏规则；

脱敏单元，用于应用每个所述敏感数据的脱敏规则对每个所述敏感数据进行脱敏，获得每个所述敏感数据对应的脱敏数据；

接收单元，用于接收预设应用端发送的查询请求；所述查询请求用于请求获取所述数据源中的目标数据；

发送单元，用于在所述目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。

上述的装置，可选的，所述扫描单元，包括：

第一确定子单元，用于确定所述数据源的数据源类型；

第一执行子单元，用于根据所述数据源的数据源类型对应的通信方式与所述数据源建立通信连接；

扫描子单元，用于在与所述数据源成功建立通信连接的情况下，根据预设的扫描方式中的定时计划对所述数据源进行扫描，获得所述数据源中的数据字典。

上述的装置，可选的，所述检测单元，包括：

第一获取子单元，用于获取所述数据字典中包含的各个待检测数据；

检测子单元，用于利用预设的敏感识别技术对各个所述待检测数据进行检测，获得每个待检测数据的检测结果；所述敏感识别技术包括敏感数据语义分析、敏感数据识别算法以及敏感字段正则匹配中的至少一种；

第二确定子单元，用于根据每个所述待检测数据的检测结果，在各个所述待检测数据中确定出敏感数据。

上述的装置，可选的，所述获取单元，包括：

第三确定子单元，用于确定每个所述敏感数据的数据类型和敏感级别；

第二获取子单元，用于根据每个所述敏感数据的数据类型和敏感级别，在预设的各个备选脱敏规则中获得每个所述敏感数据的脱敏规则。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的敏感数据处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的敏感数据处理方法。

基于上述本发明实施提供的一种敏感数据处理方法及装置、存储介质及电子设备，该方法包括：响应于敏感数据识别指令，确定所述数据识别指令对应的数据源；按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典；对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据；获取每个所述敏感数据的脱敏规则；应用每个所述敏感数据的脱敏规则对每个所述敏感数据进行脱敏，获得每个所述敏感数据对应的脱敏数据；接收预设应用端发送的查询请求；所述查询请求用于请求获取所述数据源中的目标数据；在所述目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。应用本发明实施例提供的方法，能够向应用端发送脱敏处理后的数据，保障敏感数据的安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种敏感数据处理方法的方法流程图；

图2为本发明提供的一种获得数据源中的数据字典的过程的流程图；

图3为本发明提供的一种对数据字典进行检测的过程的流程图；

图4为本发明提供的一种获取每个敏感数据的脱敏规则的过程的流程图；

图5为本发明提供的一种敏感数据处理装置的结构示意图；

图6为本发明提供的一种电子设备的结构示意图；

图7为本发明提供的一种敏感数据处理过程的示例图；

图8为本发明提供的一种数据脱敏过程的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种敏感数据处理方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：

S101：响应于敏感数据识别指令，确定所述数据识别指令对应的数据源。

在本实施例中，敏感数据识别指令可以是存在敏感数据处理需求的情况下触发的指令，敏感数据处理指令可以是由用户点击预设的控件触发的，也可以是应用程序在运行过程中自动触发的。

可选的，可以对敏感数据识别指令进行解析，获得指令信息，从指令信息中获得数据源标识，根据数据源标识在各个预设的备选数据源中确定出数据识别指令对应的数据源。

其中，数据源可以是结构化数据源，例如，也可以是关系型数据库，mysql数据库、oracle数据库等；数据源还可以是非结构化数据源，例如，可以是大数据平台、云数据库等。

S102：按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典。

在本实施例中，数据源中数据字典的数量可以为一个或多个，通过对数据源进行扫描，可以获得数据源中的数据字典。

S103：对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据。

在本实施例中，数据字典中包含多个数据，可以对数据字典中的每一数据进行检测，以确定出数据字典中的敏感数据。

S104：获取每个所述敏感数据的脱敏规则。

在本实施例中，可以根据敏感数据的数据类型和敏感级别获得每个敏感数据的脱敏规则，每个敏感数据的脱敏规则可以相同或不同。

具体的，可以将敏感数据的数据类型和敏感级别与各个备选敏感规则进行匹配，以获得敏感数据的敏感规则；也可以获取用户为每个敏感数据设置的脱敏规则。

S105：应用每个所述敏感数据的脱敏规则对每个所述敏感数据进行脱敏，获得每个所述敏感数据对应的脱敏数据。

在本实施例中，脱敏规则可以指定敏感数据所采用的脱敏算法，脱敏算法可以是替换脱敏算法、随机脱敏算法、重排脱敏算法、模糊化脱敏算法等其中至少一种。

S106：接收预设应用端发送的查询请求；所述查询请求用于请求获取所述数据源中的目标数据。

在本实施例中，查询请求中可以包含数据标识或者查询语句，数据标识可以是查询请求请求获取的目标数据的标识，查询语句可以用于查询目标数据。

S107：在所述目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。

在本实施例中，可以根据查询请求中的数据标识或查询语句确定其该查询请求所请求的目标数据是否为敏感数据，若目标数据为敏感数据，则在查询请求包含查询语句的情况下，修改查询语句，使得修改后的查询语句指向目标数据对应的脱敏数据，从而向应用端发送目标数据对应的脱敏数据；也可以拦截数据源响应查询请求返回的目标数据，将目标数据替换为目标数据对应的脱敏数据，并将该脱敏数据发送到应用端。

应用本发明实施例提供的方法，能够向应用端发送脱敏处理后的数据，保障敏感数据的安全。

在本发明提供的一实施例中，基于上述的实时过程，具体的，所述按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典，如图2所示，具体包括：

S201：确定所述数据源的数据源类型。

在本实施例中，数据源可以是关系型数据库，mysql数据库、oracle数据库、大数据平台、云数据库等其中一种类型。

S202：根据所述数据源的数据源类型对应的通信方式与所述数据源建立通信连接。

在本实施例中，可以先确定数据源的数据源类型对应的通信方式，根据该通信方式中的通信协议与数据源建立通信连接。

可选的，不同数据源类型对应不同的通信方式。

S203：在与所述数据源成功建立通信连接的情况下，根据预设的扫描方式中的定时计划对所述数据源进行扫描，获得所述数据源中的数据字典。

在本实施例中，定时计划可以根据实际的需求进行设定，例如，可以按5分钟、1小时或一天的时间间隔扫描数据源。

其中，可以根据数据源所属行业的行业模板、内置数据标准并结合数据源所属的行业、所属的企业自身特点扫描数据源中表及其数据。

在本发明提供的一实施例中，基于上述的实时过程，具体的，所述对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据，如图3所示，包括：

S301：获取所述数据字典中包含的各个待检测数据。

在本实施例中，可以对数据字典进行解析，获得数据字典中的各个数据，将数据字典中的各个数据作为待检测数据。

S302：利用预设的敏感识别技术对各个所述待检测数据进行检测，获得每个待检测数据的检测结果；所述敏感识别技术包括敏感数据语义分析、敏感数据识别算法以及敏感字段正则匹配中的至少一种。

在本实施例中，可以获取待检测数据的字段注释进行敏感数据语义分析，获得待检测数据的分析结果，将分析结果作为敏感数据识别结果；可以通过敏感数据识别算法，可以对数据表中存储的待检测数据进行扫描分析，根据实际存储数据判断数据内容，获得敏感数据识别结果；可以通过敏感字段正则匹配，以确定数据源中的敏感数据识别结果。

可选的，可以根据各个敏感数据识别结果确定待检测数据的检测结果，具体的，当待检测数据存在至少一种敏感识别技术的敏感数据识别结果表征待检测数据为敏感数据，则确定该检测数据的检测结果表征待检测数据为敏感数据。

S303：根据每个所述待检测数据的检测结果，在各个所述待检测数据中确定出敏感数据。

应用本发明实施例提供的方法，能够快速准确的从各个待检测数据中确定出敏感数据。

在本发明提供的一实施例中，基于上述的实时过程，具体的，所述获取每个所述敏感数据的脱敏规则的过程，如图4所示，具体包括：

S401：确定每个所述敏感数据的数据类型和敏感级别。

在本实施例中，每个所述敏感数据的敏感级别表征每个所述敏感数据的重要程度，具体可以是表征敏感数据的安全性遭受破坏后的影响对象和所造成的影响程度。

S402：根据每个所述敏感数据的数据类型和敏感级别，在预设的各个备选脱敏规则中获得每个敏感数据的脱敏规则。

在本实施例中，可以将敏感数据的数据类型和敏感级别与各个备选敏感规则进行匹配，对于每个敏感数据，将与该敏感数据的数据类型和敏感级别匹配成功的备选脱敏规则确定为该敏感数据的脱敏规则。

在本发明提供的一实施例中，基于上述的实时过程，具体的，确定每个所述敏感数据的数据类型的过程，包括：

获取每个所述敏感数据中的字段标识；

在本实施例中，不同的敏感字段对应的数据类型不同，通过将每个敏感数据与各个敏感字段进行匹配，可以确定出敏感数据的数据类型，敏感数据与敏感字段的匹配方式可以是正则匹配。

应用本发明实施例提供的方法，能够快速的确定敏感数据的数据类型。

在本发明提供的一实施例中，基于上述的实时过程，具体的，确定每个所述敏感数据的敏感级别，包括：

获取预先设置的分级规则；

在本实施例中，可以确定每个敏感数据的影响信息，影响信息包括影响对象和影响范围；将敏感数据的影响信息和分级规则进行匹配，以确定出敏感数据的敏感级别，其中，影响对象越重要且影响范围越大，则确定敏感数据的敏感级别越高。

可选的，敏感级别可以从高到低划分为5级、4级、3级、2级、1级。

与图1所述的方法相对应，本发明实施例还提供了一种敏感数据处理装置，用于对图1中方法的具体实现，本发明实施例提供的敏感数据处理装置可以应用于电子设备中，其结构示意图如图5所示，具体包括：

第一确定单元501，用于响应于敏感数据识别指令，确定所述数据识别指令对应的数据源；

扫描单元502，用于按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典；

检测单元503，用于对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据；

获取单元504，用于获取每个所述敏感数据的脱敏规则；

脱敏单元505，用于应用每个所述敏感数据的脱敏规则对每个所述敏感数据进行脱敏，获得每个所述敏感数据对应的脱敏数据；

接收单元506，用于接收预设应用端发送的查询请求；所述查询请求用于请求获取所述数据源中的目标数据；

发送单元507，用于在所述目标数据为敏感数据的情况下，向所述应用端发送所述目标数据对应的脱敏数据。

在本发明提供的一实施例中，基于上述的方案，可选的，所述扫描单元，包括：

第一确定子单元，用于确定所述数据源的数据源类型；

在本发明提供的一实施例中，基于上述的方案，可选的，所述检测单元，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述获取单元，包括：

上述本发明实施例公开的敏感数据处理装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的敏感数据处理方法相同，可参见上述本发明实施例提供的敏感数据处理方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述敏感数据处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器501中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

获取每个所述敏感数据的脱敏规则；

参见图7，为在本发明实施例提供的一种敏感数据处理过程的示例图，其中，本方案可以对结构化和非结构化数据源进行自动化扫描，实现金融企业数据资产的发现及识别。扫描过程中使用内置的金融行业模板、内置数据标准并结合行业、自身特点，使用语义内容分析、敏感数据识别算法、敏感字段正则匹配等策略和手段，最终获得金融企业数据资产数据发现和分类分级报告。金融企业通过扫描报告获得并明确数据资产的分布、数据类别、敏感级别，进而为企业提供数据安全建设和资产盘点的依据，从而可以执行资产发现作业，并对结果进行展示，能够减少数据泄露的风险。

在本发明提供的一实施例中，提供了一种敏感数据处理***，具体包括：分类分级组件、脱敏组件和敏感数据保护查询组件；

在本实施例中，分类分级组件具有以下功能：

1.连接数据源；

2.制定扫描计划扫描数据源获取数据字典；

3.依据扫描规则扫描数据字典获取敏感数据分布；

4.对识别出的敏感数据自动分类；

5.对识别出的敏感数据级别判定；

6.获取数据资产梳理情况报告。

在本实施例中，脱敏组件具有以下功能：

1.获得分类分级工具的扫描结果；

2.为敏感数据自动匹配脱敏规则，也可手动设置脱敏规则；

3.发起脱敏计划任务实现对敏感数据的脱敏。

在本实施例中，敏感数据保护查询组件具有以下功能：

1.连接数据源；

2.编写sql语句实时查询数据源，获取脱敏后的数据。

参见图8，为本发明实施例提供的一种数据脱敏过程的示例图，其中，可以从数据库、文本文件和大数据平台等数据源中获得数据字典，然后识别数据字典中的敏感数据，并获取每个敏感数据的脱敏规则，根据每个敏感数据的脱敏规则为各脱敏数据设置脱敏任务，到达预设的时间节点后，执行脱敏任务，以完成对敏感数据的脱敏，对脱敏任务进行监控，生成数据水印和任务日志。

需要说明的是，本发明提供的一种敏感数据处理方法及装置可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例，并不对本发明提供的一种敏感数据处理方法及装置的应用领域进行限定。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种敏感数据处理方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种敏感数据处理方法，其特征在于，包括：

获取每个所述敏感数据的脱敏规则；

2.根据权利要求1所述的方法，其特征在于，所述按预设的扫描方式对所述数据源进行扫描，获得所述数据源中的数据字典，包括：

确定所述数据源的数据源类型；

3.根据权利要求1所述的方法，其特征在于，所述对所述数据字典进行检测，以确定出所述数据字典中的各个敏感数据，包括：

获取所述数据字典中包含的各个待检测数据；

4.根据权利要求1所述的方法，其特征在于，所述获取每个所述敏感数据的脱敏规则，包括：

确定每个所述敏感数据的数据类型和敏感级别；

5.根据权利要求4所述的方法，其特征在于，确定每个所述敏感数据的数据类型的过程，包括：

获取每个所述敏感数据中的字段标识；

6.根据权利要求4所述的方法，其特征在于，确定每个所述敏感数据的敏感级别，包括：

获取预先设置的分级规则；

7.一种敏感数据处理装置，其特征在于，包括：

获取单元，用于获取每个所述敏感数据的脱敏规则；

8.根据权利要求7所述的装置，其特征在于，所述扫描单元，包括：

第一确定子单元，用于确定所述数据源的数据源类型；

9.根据权利要求7所述的装置，其特征在于，所述检测单元，包括：

10.根据权利要求7所述的装置，其特征在于，所述获取单元，包括：