CN115544560A

CN115544560A - 一种敏感信息的脱敏方法、装置、计算机设备及存储介质

Info

Publication number: CN115544560A
Application number: CN202211170352.2A
Authority: CN
Inventors: 李连钢
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-30

Abstract

本申请实施例属于信息安全领域，涉及一种敏感信息的脱敏方法，包括创建脱敏工具，将训练好的敏感数据识别模型封装于脱敏工具中；响应于客户端发送的敏感数据访问请求，获得敏感数据访问请求对应的响应数据；通过敏感数据识别模型识别响应数据中的敏感信息；基于敏感数据访问请求中携带的访问接口配置敏感信息的脱敏规则，将脱敏规则下发至脱敏工具；通过脱敏工具使用脱敏规则对敏感信息进行脱敏，得到脱敏数据，并将脱敏数据返回至客户端。本申请还提供一种敏感信息的脱敏装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，敏感信息可存储于区块链中_。本申请能够提升响应数据的安全性，避免隐私泄露。

Description

一种敏感信息的脱敏方法、装置、计算机设备及存储介质

技术领域

本申请涉及信息安全技术领域，尤其涉及一种敏感信息的脱敏方法、装置、计算机设备及存储介质。

背景技术

随着信息时代的发展，人们对数据信息的安全要求越来越重视。随着计算机技术的发展，通过向服务器发送数据访问请求，来获取应答数据越来越普遍，然而服务器反馈的应答数据中可能包含如身份证号、手机号、***和客户号等敏感信息。因此需要对敏感信息进行脱敏，传统的脱敏技术中，采用基于正则表达式匹配、关键字码表映射、数据类型定义判别、数据特征计算等技术手段对敏感信息进行识别和定位，进而对敏感信息进行脱敏，但这些方式识别准确率低，容易遗漏敏感信息，间接导致隐私数据泄露。

发明内容

本申请实施例的目的在于提出一种敏感信息的脱敏方法、装置、计算机设备及存储介质，以解决相关技术中

为了解决上述技术问题，本申请实施例提供一种敏感信息的脱敏方法，采用了如下所述的技术方案：

创建脱敏工具，将训练好的敏感数据识别模型封装于所述脱敏工具中；

响应于客户端发送的敏感数据访问请求，获得所述敏感数据访问请求对应的响应数据；

通过所述敏感数据识别模型识别所述响应数据中的敏感信息；

基于所述敏感数据访问请求中携带的访问接口配置所述敏感信息的脱敏规则，将所述脱敏规则下发至所述脱敏工具；

通过所述脱敏工具使用所述脱敏规则对所述敏感信息进行脱敏，得到脱敏数据，并将所述脱敏数据返回至所述客户端。

进一步的，在所述将训练好的敏感数据识别模型封装于所述脱敏工具中的步骤之前还包括：

获取历史业务数据集，对所述历史业务数据集中的业务数据进行分词处理，得到分词数据；

将所述分词数据输入预构建的初始敏感数据识别模型，所述初始敏感数据识别模型包括词向量层、Bi-LSTM层、CRF层和输出层；

通过所述词向量层将所述分词数据中的分词转换为词向量；

将所述词向量输入所述Bi-LSTM层进行特征提取，得到语义特征向量；

将所述语义特征向量输入所述CRF层进行计算，输出概率最大的最优标注序列；

根据所述最优标注序列计算损失函数值，基于所述损失函数值调整所述初始敏感数据识别模型的模型参数，继续进行迭代训练，直至模型收敛，输出最终的敏感数据识别模型。

进一步的，所述通过所述词向量层将所述分词数据中的分词转换为词向量的步骤包括：

将每个所述分词进行编码处理转换为词汇表向量；

将所述词汇表向量输入到所述词向量层中，根据每个所述分词的上下文信息得到词向量映射表；

基于所述词向量映射表得到每个所述分词对应的词向量。

进一步的，所述将所述词向量输入所述Bi-LSTM层进行特征提取，得到语义特征向量的步骤包括：

通过所述Bi-LSTM层的前向层和后向层对所述词向量进行特征提取，分别得到前向隐藏特征和后向隐藏特征；

将所述前向隐藏特征和所述后向隐藏特征按照位置拼接得到全局隐藏特征；

根据所述全局隐藏特征获得所述语义特征向量。

进一步的，所述基于所述敏感数据访问请求中携带的访问接口配置所述敏感信息的脱敏规则的步骤包括：

基于所述敏感数据访问请求中携带的访问接口确定业务类型；

根据所述业务类型为所述敏感信息配置对应的脱敏规则。

进一步的，所述根据所述业务类型为所述敏感信息配置对应的脱敏规则的步骤包括：

根据所述业务类型识别所述敏感信息中的第一敏感数据和第二敏感数据；

对所述第一敏感数据和所述第二敏感数据分别标注对应的第一注解信息和第二注解信息；

配置所述第一注解信息和所述第二注解信息对应的第一脱敏规则和第二脱敏规则。

进一步的，在所述根据所述业务类型为所述敏感信息配置对应的脱敏规则的步骤之后还包括：

建立所述业务类型、所述敏感信息和所述脱敏规则之间的映射关系；

将所述映射关系配置到脱敏规则表中。

为了解决上述技术问题，本申请实施例还提供一种敏感信息的脱敏装置，采用了如下所述的技术方案：

创建模块，用于创建脱敏工具，将训练好的敏感数据识别模型封装于所述脱敏工具中；

响应模块，用于响应于客户端发送的敏感数据访问请求，获得所述敏感数据访问请求对应的响应数据；

识别模块，用于通过所述敏感数据识别模型识别所述响应数据中的敏感信息；

配置模块，用于基于所述敏感数据访问请求中携带的访问接口配置所述敏感信息的脱敏规则，将所述脱敏规则下发至所述脱敏工具；

脱敏模块，用于通过所述脱敏工具使用所述脱敏规则对所述敏感信息进行脱敏，得到脱敏数据，并将所述脱敏数据返回至所述客户端。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的敏感信息的脱敏方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的敏感信息的脱敏方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过创建脱敏工具，将训练好的敏感数据识别模型封装于脱敏工具中；响应于客户端发送的敏感数据访问请求，获得敏感数据访问请求对应的响应数据；通过敏感数据识别模型识别响应数据中的敏感信息；基于敏感数据访问请求中携带的访问接口配置敏感信息的脱敏规则，将脱敏规则下发至脱敏工具；通过脱敏工具使用脱敏规则对敏感信息进行脱敏，得到脱敏数据，并将脱敏数据返回至客户端；本申请通过敏感数据识别模型对响应数据中的敏感信息进行识别，并将识别到的敏感信息对应的访问接口作为敏感接口，配置相应的脱敏规则，可以提高敏感信息的识别效率和准确率，同时提升响应数据的安全性，避免隐私泄露。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的敏感信息的脱敏方法的一个实施例的流程图；

图3是根据本申请的敏感信息的脱敏方法的另一个实施例的流程图；

图4是根据本申请的敏感信息的脱敏装置的一个实施例的结构示意图；

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请提供了一种敏感信息的脱敏方法，涉及人工智能，可以应用于如图1所示的***架构100中，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的敏感信息的脱敏方法一般由服务器/终端设备执行，相应地，敏感信息的脱敏装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的敏感信息的脱敏方法的一个实施例的流程图，包括以下步骤：

步骤S201，创建脱敏工具，将训练好的敏感数据识别模型封装于脱敏工具中。

其中，脱敏工具是指包含业务***中不同业务类型下敏感信息的脱敏规则的工具包，可以采用SDK工具包，好处在于方便将脱敏工具包应用于各个业务***，实现脱敏功能和业务功能完全解耦。

在本实施例中，脱敏工具中还封装有训练好的敏感数据识别模型，用于高效、准确地识别数据中的敏感信息。

在本实施例中，参见图3，在上述将训练好的敏感数据识别模型封装于脱敏工具中的步骤之前还包括：

步骤S301，获取历史业务数据集，对历史业务数据集中的业务数据进行分词处理，得到分词数据。

业务***提供多种类型的业务供用户办理，如转账业务、贷款业务以及投保业务等，业务***根据业务类型提供各个接口以供调用，通过调用接口访问相应的业务。在实际业务场景中，会产生大量的业务数据。业务数据中包括敏感信息和非敏感信息，敏感信息标注有敏感标签，可以采用BIO、BIOE、BIOES和BMES等实体标注的方式进行标注，例如，如果采用BMES的标注方式进行标注，B表示敏感信息的第一个字符，M表示敏感信息中的中间字符，E表示敏感信息的最后一个字符，S表示单个字符敏感信息。

在一些可选的实现方式中，对获取到的历史业务数据集进行预处理，包括文本去重、去特殊符号等，将预处理后的业务数据进行分词处理，得到分词数据。按照预设比例将历史业务数据集随机划分为训练数据集和测试数据集，比如训练数据集和测试数据集划分的预设比例为7：3。

步骤S302，将分词数据输入预构建的初始敏感数据识别模型，初始敏感数据识别模型包括词向量层、Bi-LSTM层、CRF层和输出层。

将携带有敏感标签的分词数据输入预构建的初始敏感数据识别模型中，初始敏感数据识别模型包括词向量层、Bi-LSTM(Bidirectional LSTM，双向长短期记忆神经网络)层、CRF(Conditional Random Fields，条件随机场)层和输出层。其中，词向量层是将单词从一维空间映射成更低维度的稠密向量，即单词通过向量表示，形成向量空间，将文字信息嵌入到数学空间中，可用作底层输入表示，属于词嵌入层；Bi-LSTM层是以词向量为输入，进一步构建上下文信息的高层特征表达；CRF层是输出概率最大的标签序列，从而达到识别敏感信息的目的；输出层，其作用是直接输出预测的敏感标签。

步骤S303，通过词向量层将分词数据中的分词转换为词向量。

具体的，将分词数据输入词向量层，使用Word2Vec算法将每个数据实体包含的上下文信息转换为词向量，得到与每个分词对应的词向量。

步骤S304，将词向量输入Bi-LSTM层进行特征提取，得到语义特征向量。

长短时记忆(LongShort-Term Memory network，LSTM)神经网络是一种时间循环神经网络，是为了解决一般的RNN(Recurrent Neural Network，RNN循环神经网络)存在的长期依赖问题而专门设计出来的时间循环神经网络。

单向LSTM的一个劣势在于神经网络只能利用到上文的输入信息，而没有办法得到当前词的下文语义信息，因此，本实施例选用了能够充分利用过去和未来上下文信息的Bi-LSTM神经网络层进行特征提取。

Bi-LSTM层可以自动获取句子特征，对输入的每一句话分别采用顺序与逆序的循环神经网络来得到两个独立的隐藏层表示，然后对这两个隐藏层表示进行一定的计算(拼接或相加)，得到一个最终的隐藏层表示，送入CRF层进行后续的计算。这种隐藏层表示对句子中的每个单词来说都同时包含了来自上文和下文的语义信息。

步骤S305，将语义特征向量输入CRF层进行计算，输出概率最大的最优标注序列。

其中，CRF层能够有效地利用句子级的标签信息，为进一步挖掘不同敏感信息之间的关系，设置约束条件确保最终的预测有效，该约束条件能够在训练数据时被CRF层自动学习。

根据语义特征向量计算出每个分词的标记概率，具体过程如下：

CRF层的参数是一个(k+2)次幂的矩阵A，由于要为句子首部和尾部分别添加一个起始状态和一个终止状态，所以需要加2，其中A_ij代表从第i个标注位置到第j个标注位置的转移概率，从而使得在为某个位置进行标注时，能够充分利用先前已标注过的信息。假设需要识别敏感信息的句子x表示为(x₁,x₂…,x_n)，一个长度等于句子长度的标签序列y为(y₁,y₂,…,y_n)，则确定识别敏感信息对应语句对应的分值如下：

其中，A是转移分数矩阵，A_yi，yi+1表示从标签y_i转移到标签y_i+1的分数，其中y₀和y_n分别是句子的开始和结束标签；所以A的纬度为(k+2)*(k+2)(k为标签数)；P是Bi-LSTM层输出的语义特征向量，纬度为n*k(k为标签数)，Pi，y_i表示句子中第i个词对应标签为y_i的概率值。

使用softmax激活函数将分值值进行归一化处理，得到标签y的概率，计算公式如下：

其中，y’表示句子x对应的可能的标注序列，也就是说句子对应的每个标注序列都有一个分值还有一个概率，目的是让句子对应的真实标注序列概率最大。

步骤S306，根据最优标注序列计算损失函数值，基于损失函数值调整初始敏感数据识别模型的模型参数，继续进行迭代训练，直至模型收敛，输出最终的敏感数据识别模型。

具体的，设计一个损失函数，以获得最小损失函数值，计算公式如下：

最后用维特比viterbi算法来算出最优的标注序列：

根据损失函数值调整模型参数，继续进行迭代训练，模型训练到一定程度，此时，模型的性能达到最优状态，损失函数值无法继续下降，即收敛。而判断收敛的方式只需要计算前后两轮迭代中的损失函数值，若损失函数值仍在变化，则继续选择训练数据对模型继续进行迭代训练；若损失函数值没有显著变化，则可认为模型收敛，输出最终的敏感数据识别模型。

在一些可选的实现方式中，在得到敏感数据识别模型之后，对敏感数据识别模型进行评估测试，测试指标为：准确率P(Precision)、召回率R(Recall)及F值(F-Score)。

需要说明，F值是准确率和召回率的调和平均，充分考虑了准确率和召回率的影响，相当于准确率和准确率的综合评价指标，因此，本实施例采用F值作为模型的主要评价指标。

具体的，将测试数据集输入敏感数据识别模型，输出标注结果，基于标注结果计算出敏感信息识别评估标准F值，F值作为评估结果，根据F值评估敏感数据识别模型。

评估计算方法如下：

准确率：

召回率：

F值：

其中，F值越高，则说明模型的敏感信息识别越准确。当F值大于等于预设阈值时，敏感数据识别模型符合条件；当F值小于预设阈值时，重新获取训练数据集，执行步骤S301至步骤306，直到F值大于等于预设阈值。

本实施例中，通过对构建的敏感数据识别模型进行训练，可以提升敏感信息识别的效率和准确率。

步骤S202，响应于客户端发送的敏感数据访问请求，获得敏感数据访问请求对应的响应数据。

在本实施例中，脱敏工具还用于监控客户端发送的敏感数据访问请求，将响应数据进行拦截，异步分析响应数据中是否含有敏感信息，敏感信息包括但不限于姓名、手机号、身份证号、银行***、地址等。

数据访问请求是指当客户端需要获取网络数据时发出的访问请求，敏感数据访问请求则是客户端需要访问敏感功能获取数据时发出的访问请求。响应数据是访问对象根据客户端的访问请求，向客户端反馈的客户端所要获取的网络数据。

具体的，通过脱敏工具实时监测访问接口是否接收到客户端发送的敏感数据访问请求。当客户端向访问接口发出访问请求时，访问接口根据客户端的访问请求向客户端反馈响应数据，脱敏工具在监测到客户端向访问接口发出敏感数据访问请求时，拦截并获取访问对象向客户端反馈的响应数据。

步骤S203，通过敏感数据识别模型识别响应数据中的敏感信息。

脱敏工具拦截并获取访问对象的响应数据并传送至敏感数据识别模型，响应数据经词向量层、Bi-LSTM层、CRF层和输出层依次处理，输出识别的敏感信息。

需要强调的是，为进一步保证敏感信息的私密和安全性，上述敏感信息还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S204，基于敏感数据访问请求中携带的访问接口配置敏感信息的脱敏规则，将脱敏规则下发至脱敏工具。

在本实施例中，访问对象可以是应用程序，也可以是应用程序中的某个功能。客户端通过访问接口访问对应的应用程序，脱敏工具中的敏感数据识别模型识别到应用程序根据敏感数据访问请求反馈的响应数据中有敏感信息，则异步记录对应的访问接口，该访问接口为敏感接口，为敏感接口配置相应的脱敏规则，并将脱敏规则下发至脱敏工具。

步骤S205，通过所述脱敏工具使用脱敏规则对敏感信息进行脱敏，得到脱敏数据，并将脱敏数据返回至客户端。

在本实施例中，针对不同的敏感信息可以配置不同的脱敏规则，保留敏感信息预设数位范围和/或多个指定数位的字符，并以预设的非敏感字符代替上述敏感信息的其他数位字符，还可以将敏感信息中的部分字符删除。

例如，需要脱敏的数据为手机号码1566668888，配置的脱敏规则表示为(3，4，“*”)，其中，3，4，表示替换位置指令，3表示需要脱敏的数据中由前向方向显示的字符，4表示需要脱敏的数据中由后向方向显示的字符，即由前向方向显示3个字符同时后向方向显示4个字符，其余的中间字符为待替换字符，用预设的非敏感字符“*”替换，则按照上述脱敏规则脱敏后输出156****8888；需要脱敏的数据为身份证号110100000006024713，配置的脱敏规则为(ID Card No，3，4，“*”)，脱敏后输出110***********4713。

通过脱敏规则对敏感信息进行脱敏，可以有效的保护业务数据的安全性，且能够对脱敏规则进行设置，可以符合多种使用场景。

本实施例中的脱敏工具可以接入任何的业务***，自动监测业务***中是否有敏感功能，并通过邮件、短信等方式通知接入方，可以提前发现安全问题，提升***的安全可靠性。

下面以开发测试为例进行详细说明。

业务***接入本实施例的脱敏工具，每次上线前进行功能测试时，通过脱敏工具监控客户端对新开发功能的访问请求，并拦截获取基于访问请求生成的响应数据，通过脱敏工具中的敏感数据识别模型对响应数据进行识别，识别到响应数据中有敏感信息后，确定对应的访问请求中携带的访问接口为敏感接口，记录下该敏感接口，并通知到开发测试人员，接收开发测试人员为敏感接口配置的脱敏规则，并将脱敏规则下发至脱敏工具，脱敏工具使用脱敏规则对敏感信息进行脱敏处理，得到脱敏数据返回给客户端。

本申请通过敏感数据识别模型对响应数据中的敏感信息进行识别，并将识别到的敏感信息对应的访问接口作为敏感接口，配置相应的脱敏规则，可以提高敏感信息的识别效率和准确率，同时提升响应数据的安全性，避免隐私泄露，进一步提升***的安全可靠性。

在本实施例的一些可选的实现方式中，上述通过词向量层将分词数据中的分词转换为词向量的步骤包括：

将每个分词进行编码处理转换为词汇表向量；

将词汇表向量输入到所述词向量层中，根据每个分词的上下文信息得到词向量映射表；

基于词向量映射表得到每个分词对应的词向量。

在本实施例中，采用One-hot编码(独热编码)对分词进行编码处理。编码前需确定样本空间文字数量，并将文字以One-hot编码形式进行转换。One-hot编码又称一位有效码，是使用N位状态寄存器来对N个状态进行编码，在任意时仅有一位有效。将编码后的分词进行向量转换，向量转换则是设定嵌入向量的维度，将文字对应的One-hot编码转化为低维度的稠密向量，最终得到文字的数值向量表示。

通过Skip-gram算法，根据每个分词的上下文信息将词汇表向量映射为词向量映射表。词向量映射表中的某列与每个分词一一对应，则从词向量映射表中即可得到每个分词对应的词向量。

通过词向量层得到每个分词包含上下文信息的词向量，使得得到的词向量更加准确，保证后续敏感信息识别的准确性。

在本实施例中，上述将词向量输入Bi-LSTM层进行特征提取，得到语义特征向量的步骤包括：

通过Bi-LSTM层的前向层和后向层对词向量进行特征提取，分别得到前向隐藏特征和后向隐藏特征；

将前向隐藏特征和后向隐藏特征按照位置拼接得到全局隐藏特征；

根据全局隐藏特征获得所述语义特征向量。

其中，Bi-LSTM层的输入为每个句子中各个词语的词向量序列，通过Bi-LSTM层的前向层获取到增强词向量的前向隐藏特征

通过Bi-LSTM层的后向层获取到词向量的后向隐藏特征

将前向隐藏特征和后向隐藏特征在各个位置输出的隐藏层状态按照位置进行拼接，得到h_t为

h_t∈R^m，进而获得完整的全局隐藏特征(h₁,h₂,…,h_n)∈R^n×m。

在进入下一层之前，设置dropout机制来解决过拟合的问题。在设置dropout机制之后，将隐状态向量从m维映射为k维，k表示敏感标签数，进而获得自动学习句子特征p，句子特征p即为语义特征向量，表示为(P₁,P₂,…,P_n)∈R^n×k，可以把P_i∈R^k的每一维P_ij都当作将词x_i分类到第j个标签的概率值。

本实施例可以充分利用过去和未来上下文信息，提高语义特征向量提取的准确率。

在一些可选的实现方式中，上述基于敏感数据访问请求中携带的访问接口配置敏感信息的脱敏规则的步骤包括：

基于敏感数据访问请求中携带的访问接口确定业务类型；

根据业务类型为敏感信息配置对应的脱敏规则。

在本实施例中，业务***根据业务类型提供各个接口以供调用，通过调用接口访问相应的业务，即访问接口对应业务类型，不同的业务类型对敏感信息的处理方式不同。例如，一些业务类型可以直接将敏感信息进行脱敏处理，有一些业务类型需要查看敏感信息，存在无法脱敏的敏感信息。

具体的，根据业务类型识别敏感信息中的第一敏感数据和第二敏感数据；对第一敏感数据和第二敏感数据分别标注对应的第一注解信息和第二注解信息；配置第一注解信息和第二注解信息对应的第一脱敏规则和第二脱敏规则。

其中，第一敏感数据为需要进行脱敏处理的敏感信息，第二敏感数据为不需要进行脱敏处理的敏感信息。注解信息用于对敏感信息进行表征，敏感信息通过@SensitiveInfo注解方法进行定义，得到敏感信息的注解信息。

在本实施例中，第一敏感数据标注第一注解信息，第二敏感数据标注第二注解信息。配置第一注解信息对应的第一脱敏规则，第一脱敏规则为：将敏感信息字段中的部分或全部字符替换为预设字符，例如，对于客户名称，可以将客户名称中的姓氏和名字择一替换为预设字符，或全部替换为预设字符；对于证件号码，可以将证件号码中的一部分号码替换为预设字符，或将证件号码中的全部号码替换为预设字符。需要说明的是，预设字符可以为“*”，或其它非敏感字符。

配置第二注解信息对应的第二脱敏规则，第二脱敏规则为按照预设格式记录下访问信息，用于通知相关人员，避免异常访问。

本实施例中，根据不同业务类型配置相应的敏感信息脱敏规则，在保护脱敏数据的安全性的同时，避免无法脱敏的敏感信息的异常访问，进而保护无法脱敏的敏感信息的安全。

在一些可选的实现方式中，在上述根据业务类型为敏感信息配置对应的脱敏规则的步骤之后还包括：

建立业务类型、敏感信息和脱敏规则之间的映射关系；

将映射关系配置到脱敏规则表中。

配置脱敏规则表，将业务类型、敏感信息和脱敏规则存储至脱敏规则表，在根据访问接口确定业务类型后，可以根据业务类型和敏感信息调用对应的脱敏规则进行脱敏处理，提升脱敏规则的配置效率。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种敏感信息的脱敏装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的敏感信息的脱敏装置400包括：创建模块401、响应模块402、识别模块403、配置模块404以及脱敏模块405。其中：

创建模块401用于创建脱敏工具，将训练好的敏感数据识别模型封装于所述脱敏工具中；

响应模块402用于响应于客户端发送的敏感数据访问请求，获得所述敏感数据访问请求对应的响应数据；

识别模块403用于通过所述敏感数据识别模型识别所述响应数据中的敏感信息；

配置模块404用于基于所述敏感数据访问请求中携带的访问接口配置所述敏感信息的脱敏规则，将所述脱敏规则下发至所述脱敏工具；

脱敏模块405用于通过所述脱敏工具使用所述脱敏规则对所述敏感信息进行脱敏，得到脱敏数据，并将所述脱敏数据返回至所述客户端。

基于上述敏感信息的脱敏装置，通过敏感数据识别模型对响应数据中的敏感信息进行识别，并将识别到的敏感信息对应的访问接口作为敏感接口，配置相应的脱敏规则，可以提高敏感信息的识别效率和准确率，同时提升响应数据的安全性，避免隐私泄露，进一步提升***的安全可靠性。

在本实施例的一些可选的实现方式中，上述敏感信息的脱敏装置400还包括训练模块，所述训练模块包括分词子模块、输入子模块、转换子模块、特征提取子模块、计算子模块和迭代子模块，其中：

分词子模块用于获取历史业务数据集，对所述历史业务数据集中的业务数据进行分词处理，得到分词数据；

输入子模块用于将所述分词数据输入预构建的初始敏感数据识别模型，所述初始敏感数据识别模型包括词向量层、Bi-LSTM层、CRF层和输出层；

转换子模块用于通过所述词向量层将所述分词数据中的分词转换为词向量；

特征提取子模块用于将所述词向量输入所述Bi-LSTM层进行特征提取，得到语义特征向量；

计算子模块用于将所述语义特征向量输入所述CRF层进行计算，输出概率最大的最优标注序列；

迭代子模块用于根据所述最优标注序列计算损失函数值，基于所述损失函数值调整所述初始敏感数据识别模型的模型参数，继续进行迭代训练，直至模型收敛，输出最终的敏感数据识别模型。

通过对构建的敏感数据识别模型进行训练，可以提升敏感信息识别的效率和准确率。

在本实施例中，转换子模块进一步用于：

将每个所述分词进行编码处理转换为词汇表向量；

基于所述词向量映射表得到每个所述分词对应的词向量。

在本实施例中，特征提取子模块进一步用于：

根据所述全局隐藏特征获得所述语义特征向量。

在本实施例的一些可选的实现方式中，配置模块404包括确定子模块和配置子模块，其中：

确定子模块用于基于所述敏感数据访问请求中携带的访问接口确定业务类型；

配置子模块用于根据所述业务类型为所述敏感信息配置对应的脱敏规则。

在本实施例中，配置子模块进一步用于：

在一些可选的实现方式中，配置模块404还包括映射子模块，用于：

将所述映射关系配置到脱敏规则表中。

本实施例根据业务类型和敏感信息调用对应的脱敏规则进行脱敏处理，提升脱敏规则的配置效率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备5包括通过***总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是，图中仅示出了具有组件51-53的计算机设备5，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器51可以是所述计算机设备5的内部存储单元，例如该计算机设备5的硬盘或内存。在另一些实施例中，所述存储器51也可以是所述计算机设备5的外部存储设备，例如该计算机设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中，所述存储器51通常用于存储安装于所述计算机设备5的操作***和各类应用软件，例如敏感信息的脱敏方法的计算机可读指令等。此外，所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中，所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据，例如运行所述敏感信息的脱敏方法的计算机可读指令。

所述网络接口53可包括无线网络接口或有线网络接口，该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例敏感信息的脱敏方法的步骤，通过敏感数据识别模型对响应数据中的敏感信息进行识别，并将识别到的敏感信息对应的访问接口作为敏感接口，配置相应的脱敏规则，可以提高敏感信息的识别效率和准确率，同时提升响应数据的安全性，避免隐私泄露，进一步提升***的安全可靠性。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的敏感信息的脱敏方法的步骤，通过敏感数据识别模型对响应数据中的敏感信息进行识别，并将识别到的敏感信息对应的访问接口作为敏感接口，配置相应的脱敏规则，可以提高敏感信息的识别效率和准确率，同时提升响应数据的安全性，避免隐私泄露，进一步提升***的安全可靠性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种敏感信息的脱敏方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的敏感信息的脱敏方法，其特征在于，在所述将训练好的敏感数据识别模型封装于所述脱敏工具中的步骤之前还包括：

通过所述词向量层将所述分词数据中的分词转换为词向量；

3.根据权利要求2所述的敏感信息的脱敏方法，其特征在于，所述通过所述词向量层将所述分词数据中的分词转换为词向量的步骤包括：

将每个所述分词进行编码处理转换为词汇表向量；

基于所述词向量映射表得到每个所述分词对应的词向量。

4.根据权利要求2所述的敏感信息的脱敏方法，其特征在于，所述将所述词向量输入所述Bi-LSTM层进行特征提取，得到语义特征向量的步骤包括：

根据所述全局隐藏特征获得所述语义特征向量。

5.根据权利要求1所述的敏感信息的脱敏方法，其特征在于，所述基于所述敏感数据访问请求中携带的访问接口配置所述敏感信息的脱敏规则的步骤包括：

根据所述业务类型为所述敏感信息配置对应的脱敏规则。

6.根据权利要求5所述的敏感信息的脱敏方法，其特征在于，所述根据所述业务类型为所述敏感信息配置对应的脱敏规则的步骤包括：

7.根据权利要求5所述的敏感信息的脱敏方法，其特征在于，在所述根据所述业务类型为所述敏感信息配置对应的脱敏规则的步骤之后还包括：

将所述映射关系配置到脱敏规则表中。

8.一种敏感信息的脱敏装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的敏感信息的脱敏方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的敏感信息的脱敏方法的步骤。