CN117951747A

CN117951747A - 一种自适应脱敏方法、***、设备及介质

Info

Publication number: CN117951747A
Application number: CN202410350656.XA
Authority: CN
Inventors: 刘大炜; 罗佳丽; 刘翔锋; 欧阳森山; 赵炜煜; 王攀; 雷霭荻; 刘志波; 高信
Original assignee: Chengdu Aircraft Industrial Group Co Ltd
Current assignee: Chengdu Aircraft Industrial Group Co Ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117951747B

Abstract

本发明涉及数据安全技术领域，具体地说，涉及一种自适应脱敏方法、***、设备及介质；首先获取发送方用户的当前待脱敏文件的关键词；然后根据关键词增删改当前敏感词库，得到新的敏感词库；最后根据新的敏感词库生成正则表达式，并根据正则表达式定位敏感词位置得到敏感词，脱敏得到脱敏文件；实现了多种类型的数据脱敏，脱敏前后数据类型保持不变，保障了脱敏数据安全性的同时也确保了脱敏文件的可读性，进一步提高了脱敏速度；根据收发用户角色的不同，自适应的选择脱敏强度，防止重要信息外泄给不可信人员，解决了现有的脱敏算法无法抵抗共谋攻击、暴力枚举攻击的缺点；采用多线程并发处理敏感词检索和敏感词脱敏操作，大大加快了脱敏速度。

Description

一种自适应脱敏方法、***、设备及介质

技术领域

本发明涉及数据安全技术领域，具体地说，涉及一种自适应脱敏方法、***、设备及介质。

背景技术

现有技术的自适应数据脱敏方法，包括如下步骤：步骤一，数据抽取利用Sqoop技术从常用数据库、时序数据库、以及文件或FTP接口进行抽取，数据抽取过程保证原始数据的完整性，以及数据之间的逻辑关系完整；步骤二，数据脱敏通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换，在脱敏过程中保持数据的关联性和完整性，确保数据在同一***中的一致性；步骤三，数据分发数据脱敏后，通过数据库、文件、FTP接口进行分发。本发明以应用需求为导向，以脱敏策略驱动脱敏规则动态生成的方法，使脱敏结果有据可依且具有可重复性。使用成本低，并且便于算法和应用的扩展。

该脱敏方法是基于脱敏规则库，在文件传输前，通过正则匹配等方式检索定位敏感词的位置，然后根据脱敏规则库中的对应规则，对敏感字段进行截断、移位、替换等操作。针对于数字类型数据，现有的截断，移位等操作，无法应对暴力枚举攻击。针对于字符类型数据，现有的替换操作均缺乏抗共谋攻击的能力，多个攻击者通过联合审视其脱敏后的文档，可以猜解出真实的敏感字段。

发明内容

本发明针对现有的数据脱敏方法无法抵抗共媒攻击、暴利枚举攻击的问题，提出一种自适应脱敏方法、***、设备及介质，首先获取发送方用户的当前待脱敏文件的关键词；然后根据关键词增删改当前敏感词库，得到新的敏感词库；最后根据新的敏感词库生成正则表达式，并根据正则表达式定位敏感词位置得到敏感词，脱敏得到脱敏文件；实现了多种类型的数据脱敏，脱敏前后数据类型保持不变，保障了脱敏数据安全性的同时也确保了脱敏文件的可读性，进一步提高了脱敏速度。

本发明具体实现内容如下：

一种自适应脱敏方法，具体包括以下步骤：

步骤S1：获取发送方用户的当前待脱敏文件的关键词；

步骤S2：根据所述关键词增删改当前敏感词库，得到新的敏感词库；

步骤S3：根据新的敏感词库生成正则表达式，并根据所述正则表达式定位敏感词位置得到敏感词，根据所述敏感词脱敏得到脱敏文件。

为了更好地实现本发明，进一步地，在所述步骤S1前，所述自适应脱敏方法包括：

判断当前用户是否为已注册用户，若是已注册用户，则判断当前用户输入的用户信息与后台管理的用户信息是否匹配，若匹配则输出登录成功弹窗，若不匹配则输出用户名/密码错误弹窗；若不是已注册用户，则输出注册界面引导当前用户注册。

为了更好地实现本发明，进一步地，在所述步骤S2具体包括以下步骤：

步骤S21：根据所述关键词增删改当前敏感词库，得到新的敏感词库；

步骤S22：获取发送方用户输入的接收方ID，判断所述接收方ID是否属于后台管理的用户ID，若是则执行步骤S3，否则输出当前用户ID无效弹窗。

为了更好地实现本发明，进一步地，所述步骤S3具体包括以下步骤：

步骤S31：以字符流形式读取当前待脱敏文件，得到字符串；

步骤S32：根据所述新的敏感词库，生成正则表达式；

步骤S33：根据所述字符串和所述正则表达式定位敏感词位置，并保存至预设文件列表中；

步骤S34：并发循环扫描预设文件列表，根据所述敏感词位置获取敏感词；

步骤S35：将所述敏感词转换为进制串，并将所述进制串转换为矩阵；

步骤S36：根据发送方用户的类型和接收方角色的类型，确定脱敏算法迭代的轮数；

步骤S37：将所述矩阵作为脱敏算法的输入，根据所述轮数进行迭代处理，得到迭代结果secret；

步骤S38：根据所述迭代结果secret替换当前待脱敏文件的敏感词位置；

步骤S39：重复步骤S31-步骤S38，直至当前待脱敏文件的所有敏感词替换完成，得到与当前待脱敏文件对应的脱敏文件。

为了更好地实现本发明，进一步地，所述步骤S31的具体操作为：读取当前待脱敏文件的后缀，若当前待脱敏文件的后缀为txt，则根据BufferReader解析输入流，若当前待脱敏文件的后缀为doc/docx，则调用poi库的WordExtractor类解析输入流，然后将解析的输入流结果以行为单位读入字符串s，得到字符串s。

为了更好地实现本发明，进一步地，所述步骤S37具体包括以下步骤：

步骤S371：以所述矩阵的行为单位，将每行元素循环左移特定的位数，得到移位后的矩阵；

步骤S372：将移位后的矩阵和设定的特征值矩阵进行乘法运算，得到输出矩阵；

步骤S373：将所述输出矩阵作为作为脱敏算法的输入，返回步骤S371，直至完成轮数循环，并将最后一轮的输出矩阵作为迭代结果secret。

为了更好地实现本发明，进一步地，步骤S372中所述设定的特征值矩阵为每一列相加都为1的矩阵。

为了更好地实现本发明，进一步地，步骤S33中所述敏感词位置包括敏感词起始位置和敏感词终止位置。

基于上述提出的自适应脱敏方法，为了更好地实现本发明，进一步地，提出一种自适应脱敏***，包括获取单元、增删改单元、脱敏单元；

所述获取单元，用于获取发送方用户的当前待脱敏文件的关键词；

所述增删改查单元，用于根据所述关键词增删改当前敏感词库，得到新的敏感词库；

所述脱敏单元，用于根据新的敏感词库生成正则表达式，并根据所述正则表达式定位敏感词位置得到敏感词，根据所述敏感词脱敏得到脱敏文件。

基于上述提出的自适应脱敏方法，为了更好地实现本发明，进一步地，提出一种电子设备，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现上述的自适应脱敏方法。

基于上述提出的自适应脱敏方法，为了更好地实现本发明，进一步地，提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在上述的电子设备上执行时，实现上述的自适应脱敏方法。

本发明具有以下有益效果：

（1）本发明同时适用于多种类型的数据脱敏，并且脱敏前后数据类型保持不变，保障了数据脱敏安全性的同时也确保了脱敏文件的可读性。

（2）本发明根据收发用户角色的不同，自适应的选择脱敏强度，防止重要信息外泄给不可信人员，解决了现有的脱敏算法无法抵抗共谋攻击、暴力枚举攻击的缺点。

（3）本发明采用多线程并发处理敏感词检索和敏感词脱敏操作，大大加快了脱敏速度。

附图说明

图1为本发明提供的自适应脱敏方法的流程示意框图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例提出一种自适应脱敏方法，具体包括以下步骤：

在进行步骤S1前包括：

步骤S1：获取发送方用户的当前待脱敏文件的关键词。

步骤S2：根据所述关键词增删改当前敏感词库，得到新的敏感词库。

所述步骤S2具体包括以下步骤：

所述步骤S3具体包括以下步骤：

步骤S31：以字符流形式读取当前待脱敏文件，得到字符串。

进一步地，所述步骤S31的具体操作为：读取当前待脱敏文件的后缀，若当前待脱敏文件的后缀为txt，则根据BufferReader解析输入流，若当前待脱敏文件的后缀为doc/docx，则调用poi库的WordExtractor类解析输入流，然后将解析的输入流结果以行为单位读入字符串s，得到字符串s。

步骤S32：根据所述新的敏感词库，生成正则表达式。

步骤S33：根据所述字符串和所述正则表达式定位敏感词位置，并保存至预设文件列表中。

进一步地，步骤S33中所述敏感词位置包括敏感词起始位置和敏感词终止位置。

步骤S34：并发循环扫描预设文件列表，根据所述敏感词位置获取敏感词。

步骤S35：将所述敏感词转换为进制串，并将所述进制串转换为矩阵。

步骤S36：根据发送方用户的类型和接收方角色的类型，确定脱敏算法迭代的轮数。

步骤S37：将所述矩阵作为脱敏算法的输入，根据所述轮数进行迭代处理，得到迭代结果secret。

进一步地，所述步骤S37具体包括以下步骤：

步骤S372：将移位后的矩阵和设定的特征值矩阵进行乘法运算，得到输出矩阵。

进一步地，步骤S372中所述设定的特征值矩阵为每一列相加都为1的矩阵。

步骤S38：根据所述迭代结果secret替换当前待脱敏文件的敏感词位置。

工作原理：本实施例首先获取发送方用户的当前待脱敏文件的关键词；然后根据关键词增删改当前敏感词库，得到新的敏感词库；最后根据新的敏感词库生成正则表达式，并根据正则表达式定位敏感词位置得到敏感词，脱敏得到脱敏文件；实现了多种类型的数据脱敏，脱敏前后数据类型保持不变，保障了脱敏数据安全性的同时也确保了脱敏文件的可读性，进一步提高了脱敏速度。

实施例2：

本实施例在上述实施例1的基础上，如图1所示，具体包括以下步骤：

步骤S1：获取当前发送方用户账户中当前待脱敏文件的相关关键词；

步骤S2：根据所述相关关键词对当前敏感词库进行增删改操作，得到新的敏感词库；

步骤S3：基于所述新的敏感词库对所述当前待脱敏文件进行脱敏操作，得到与所述当前待脱敏文件相对应的脱敏文件。

可选择地，在所述步骤S1之前，所述自适应脱敏方法包括：

判断当前用户是否为已注册用户，若是：

对比所述当前用户输入的用户信息和后台管理的用户信息是否匹配，若是，输出登录成功弹窗，否则，输出用户名/密码错误弹窗；

否则，输出注册界面引导所述当前用户进行注册。

可选择地，在所述步骤S2和步骤S3之间，所述自适应脱敏方法还包括：

获取所述发送方用户输入的接收方id；

判断所述接收方id是否属于后台管理的用户id，若是，进入步骤S3，否则，输出当前用户id无效弹窗。

可选择地，所述步骤S3包括：

步骤S31：以字符流形式读取所述当前待脱敏文件，得到字符串；

步骤S32：根据所述新的敏感词库生成正则表达式；

步骤S33：根据所述正则表达式和所述字符串，定位敏感词位置并将其保存预设文件列表中，其中，所述敏感词位置包括起始位置和终止位置；

步骤S34：并发循环扫描预设文件列表中的数据，根据所述起始位置和终止位置定位获取敏感词；

步骤S35：将所述敏感词转换为32位16进制串，并将所述32位16进制串转换成4*4列的矩阵，矩阵中的每个元素都是2位的16进制数；

步骤S36：根据发送方用户的类型和接收方角色类型，确定脱敏算法迭代的轮数；

步骤S37：将所述4*4列的矩阵作为所述脱敏算法的输入，根据所述轮数进行迭代处理，得到迭代结果secret；

步骤S38：利用所述迭代结果secret替换所述当前待脱敏文件中的敏感词的位置；

步骤S39：重复步骤S31-步骤S38，直到所述待脱敏文件中所有敏感词完成替换，得到与所述当前待脱敏文件相对应的脱敏文件。

可选择地，所述步骤S31包括：所述当前待脱敏文件中后缀为txt的文件利用BufferReader解析输入流，后缀为doc/docx的文件使用poi库的WordExtractor类解析输入流，并将解析输入流结果以行为单位读入字符串s中，即：

其中InputStream是输入流，BufferReader、WordExtractor是解析器，s是字符串。

可选择地，所述步骤S32包括：

其中，regex是正则表达式，s是字符串，start是敏感词的起始位置，end是敏感词的终止位置。

可选择地，所述步骤S37包括：

步骤S371：根据所述4*4列的矩阵的行为单位，每行元素循环左移特定的位数，得到移位后的矩阵；

步骤S372：对所述移位后的矩阵和特征值矩阵进行乘法运算，得到输出矩阵；

步骤S373：将所述输出矩阵作为所述4*4列的矩阵并返回步骤S371，直到完成所述轮数的循环，并将最后一轮的输出矩阵作为所述迭代结果secret。

可选择地，所述步骤步骤S372中，所述特征值矩阵为每一列相加都为1的矩阵。

工作原理：本实施例能够同时适用于中文、英文、数字类型数据脱敏，并且脱敏前后数据类型保持不变，保障了安全性的同时也确保了文件的可读性；根据收发用户角色不同，***可以自适应的选择脱敏强度，防止重要信息外泄给不可信人员；解决了之前的脱敏算法无法抵抗共谋攻击、暴力枚举攻击的缺点；采用多线程并发处理敏感词检索和敏感词脱敏操作，大大加快了脱敏速度。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1-实施例2任一项的基础上，如图1所示，以一个具体的实施例进行详细说明。

如图1所示，所述自适应脱敏方法包括：

在此之前，首先判断当前用户是否为已注册用户，若是：

否则，输出注册界面引导所述当前用户进行注册。

S2：根据所述相关关键词对当前敏感词库进行增删改操作，得到新的敏感词库；

本实施例中，用户可以建立多个敏感词库，因此对当前敏感词进行增删改操作不限于对原敏感词库的操作，还包括增加新的敏感词库。但当前发送方用户账户中的敏感词库在其他用户账户中不可见且不可操作。

除此之外，在所述步骤S2和步骤S3之间，所述自适应脱敏方法还包括：

获取所述发送方用户输入的接收方id；

可选择地，所述步骤S3包括：

所述当前待脱敏文件中后缀为txt的文件利用BufferReader解析输入流，后缀为doc/docx的文件使用poi库的WordExtractor类解析输入流，并将解析输入流结果以行为单位读入字符串s中，即：

步骤S32：根据所述新的敏感词库生成正则表达式；

英文敏感词和中文敏感词所对应的正则表达式生成方式有所不同，前者单词之间以空格进行分隔，在搜索敏感词的过程中，本发明只关注真正意义上的敏感字段，因此要使用\b来匹配一个字边界，即字与空格间的位置，否则搜索结果可能会显示一个单词的内部字符是敏感字段。相反，后者不以空格作为分界，因此正则表达式可以直接使用原字符串，具体参考表1。

表1 正则表达式生成示例表

步骤S33：根据所述正则表达式和所述字符串，定位敏感词位置并将其保存预设文件列表中，其中，所述敏感词位置包括起始位置和终止位置；即：

作为一种实施例，将敏感词位置保存至名为wordloc的ArrayList列表中，wordloc中的每一个元素都是一个描述字符串起始地址和终止地址的长度为2的数组。

步骤S35：将所述敏感词转换为32位16进制串，

本发明中，单个英文字母占用一个字节即两个十六进制位，单个中文汉字占用两个字节即四个十六进制位；

其中，word是定位到的原始敏感内容，code16是16进制串；

并将所述32位16进制串转换成4*4列的矩阵，矩阵中的每个元素都是2位的16进制数；

其中，TRA是经过转换后生成的4*4列的字节矩阵。

S36：根据发送方用户的类型和接收方角色类型，确定脱敏算法迭代的轮数，循环次数越高，被破解的可能性越低；

不同用户角色对应的算法的轮数如表2所示。

其中，Role_A是发送方的角色信息，Role_B是接收方的角色信息，round是算法迭代的轮数。

表2 收发用户角色对应迭代轮数表

步骤S37：将所述4*4列的矩阵作为所述脱敏算法的输入，根据所述轮数进行迭代处理，得到迭代结果secret；即以TRA作为输入，脱敏算法对该矩阵进行round***作，每一轮的计算结果作为下一轮的输入。

所述步骤S37包括：

特征值矩阵为Feature矩阵且每一列相加都为1的矩阵。设F0，F1，F2，F3是Feature矩阵的第一列的四个元素。

其中，random函数会返回大于0且小于指定数区间的小数点后两位的随机小数。矩阵生成算法首先生成第一列第一行的元素S1，接下来根据S1的值生成S2，以此类推。每一轮的Feature矩阵都需要重新生成。

矩阵相乘使用M_TRA矩阵和Feature矩阵进行乘法运算，Feature矩阵的每一列相加都为1，由于中文、英文、数字转换成16进制后的数字区间范围都是不同且特定的，并且***对不同类型，如中英文、数字的敏感词分开处理，列之和为1保证了乘法运算后字符的属性不会改变，例如不会由一个数字型字符转换为字符型，也不会由一个中文字符变为英文字符。

每轮的输出矩阵TRB作为下一轮的输入，进行循环操作。

本实施例的其他部分与上述实施例1-实施例2任一项相同，故不再赘述。

实施例4：

本实施例在上述实施例1-实施例3任一项的基础上，提出一种自适应脱敏***，包括获取单元、增删改单元、脱敏单元；

本实施例还提出一种电子设备，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现上述的自适应脱敏方法。

本实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在上述的电子设备上执行时，实现上述的自适应脱敏方法。

本实施例的其他部分与上述实施例1-实施例3任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种自适应脱敏方法，其特征在于，具体包括以下步骤：

步骤S1：获取发送方用户的当前待脱敏文件的关键词；

2.根据权利要求1所述的一种自适应脱敏方法，其特征在于，在所述步骤S1前，所述自适应脱敏方法包括：

判断当前用户是否为已注册用户，若是已注册用户，则判断当前用户输入的用户信息与后台管理的用户信息是否匹配，若匹配则输出登录成功弹窗，若不匹配则输出用户名错误弹窗或密码错误弹窗；若不是已注册用户，则输出注册界面引导当前用户注册。

3.根据权利要求1所述的一种自适应脱敏方法，其特征在于，在所述步骤S2具体包括以下步骤：

4.根据权利要求3所述的一种自适应脱敏方法，其特征在于，所述步骤S3具体包括以下步骤：

步骤S31：以字符流形式读取当前待脱敏文件，得到字符串；

步骤S32：根据所述新的敏感词库，生成正则表达式；

5.根据权利要求4所述的一种自适应脱敏方法，其特征在于，所述步骤S31的具体操作为：读取当前待脱敏文件的后缀，若当前待脱敏文件的后缀为txt，则根据BufferReader解析输入流，若当前待脱敏文件的后缀为doc或docx，则调用poi库的WordExtractor类解析输入流，然后将解析的输入流结果以行为单位读入字符串s，得到字符串s。

6.根据权利要求4所述的一种自适应脱敏方法，其特征在于，所述步骤S37具体包括以下步骤：

7.根据权利要求6所述的一种自适应脱敏方法，其特征在于，步骤S372中所述设定的特征值矩阵为每一列相加都为1的矩阵。

8.根据权利要求4所述的一种自适应脱敏方法，其特征在于，步骤S33中所述敏感词位置包括敏感词起始位置和敏感词终止位置。

9.一种自适应脱敏***，其特征在于，包括获取单元、增删改单元、脱敏单元；

10.一种电子设备，其特征在于，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现如权利要求1-8任一项所述的自适应脱敏方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在如权利要求10所述的电子设备上执行时，实现如权利要求1-8任一项所述的自适应脱敏方法。