CN117391076A

CN117391076A - 敏感数据的识别模型的获取方法、装置、电子设备及介质

Info

Publication number: CN117391076A
Application number: CN202311685176.0A
Authority: CN
Inventors: 翁志鹏; 洪建帮; 陈春旺; 伍思文; 罗卓尔; 裴雷; 陈志�; 金鑫; 代军堂; 丁有韬; 王悦; 丁征涛; 李系能; 张方昌
Original assignee: Bank Of East Asia China Co ltd
Current assignee: Bank Of East Asia China Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117391076B

Abstract

本申请涉及数据处理技术领域，提供了一种敏感数据的识别模型的获取方法、装置、电子设备及介质。该方法在获取训练样本和相应样本标注信息构建的样本数据集后，训练样本包括非涉敏和不同涉敏类型的数据字段，对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量；之后，基于不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。该方法可实时识别敏感信息字段，高效地实现敏感数据的动态脱敏。

Description

敏感数据的识别模型的获取方法、装置、电子设备及介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种敏感数据的识别模型的获取方法、装置、电子设备及介质。

背景技术

企业对个人敏感数据的使用日趋保守。目前，如需使用个人敏感信息用于数据分析挖掘工作，如黑名单扫描模型优化、集团内不同专业公司客户信息匹配模型建设等，均只能按次、按需经过审批后，由数据中心的操作员到生产环境导出至本地，手工加密发送用户使用。待用户使用完成后，用户需及时销毁数据并提供销毁证据，公司层面需定期对敏感数据使用进行评审，确保数据***露。

目前的数据脱敏，均需要花费大量的人力物力梳理和辨别全行几百个应用***几十万张数据表，确定每张表是否涉及敏感信息，并根据梳理结果进行脱敏处理，以满足敏感信息安全管理条例，涉及的工作量较大。且一旦数据表发生变更，应用***的SIC需同步更新，无法保证及时、准确和不遗漏。

发明内容

本申请实施例的目的在于提供一种敏感数据的识别模型的获取方法、装置、电子设备及介质，用以可实时识别敏感信息字段，高效地实现敏感数据的动态脱敏。

第一方面，提供了一种敏感数据的识别模型的获取方法，该方法可以包括：

获取训练样本和相应样本标注信息构建的样本数据集；所述训练样本包括所述非涉敏类型的数据字段和不同涉敏类型的数据字段；

对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量；

基于所述不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。

在一个可能的实现中，所述敏感信息识别模型包括输入层、第一隐藏层、第二隐藏层和一个softmax层；

所述待训练的深度学习模型的训练过程包括：

输入层输入任一类型下的任一样本分词的文本向量，并将其传输至第一隐藏层；

第一隐藏层对所述不同样本分词的文本向量进行叠加平均，得到相应类型对应的平均向量，并将其传输至第二隐藏层；

第二隐藏层基于配置的线性处理算法，对接收的各类型对应的平均向量进行线性变换，并将数据变换结果输出至softmax层；所述配置的线性处理算法中不同类型赋予不同的权重参数；

softmax层对接收的数据变换结果进行分类；

若分类结果与相应文本向量对应的样本标注信息不满足预设损失条件，则对所述待训练的深度学习模型中的各参数进行调节，并返回向第一隐藏层输入任一类型下其他样本分词的文本向量，直至分类结果与相应文本向量对应的样本标注信息满足预设损失条件。

在一个可能的实现中，所述非涉敏类型或不同涉敏类型的数据字段包括英文名字段、中文名字段和数据内容字段。

在一个可能的实现中，对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量，包括：

按照字段字符顺序，对任一类型的数据字段进行分词，得到相应数据字段的不同样本分词，所述不同样本分词包括数据字段中至少两个字符组合的样本分词；

使用word2vec，将所述不同样本分词转化为相应的文本向量。

在一个可能的实现中，得到敏感信息识别模型之后，所述方法还包括：

搭建虚拟桌面，同时PC段的用户通过虚拟桌面的浏览器或客户端，向配置的分布式涉敏数据库发送数据请求；

对所述数据请求对应的请求数据进行字段识别，确定所述不同类型的当前数据字段；

对所述任一类型的当前数据字段进行分词处理，得到相应类型的不同样本分词的当前文本向量；

将当前文本向量输入所述敏感信息识别模型，得到所述敏感信息识别模型输出的识别结果；

若所述识别结果为所述当前文本向量是敏感数据，则对所述当前文本向量进行加密后通过所述虚拟桌面实现数据与PC端的互传。

在一个可能的实现中，获取训练样本和相应样本标注信息构建的样本数据集，构建样本数据集，包括：

获取初始训练集中的各少数类初始训练样本；初始训练集包括少数类初始训练样本、多数类初始训练样本和相应样本标注信息；

采用预设插值算法，对各少数类初始训练样本进行插值，得到各少数类初始训练样本对应的插值训练样本；其中，所述插值训练样本的样本标注信息与相应***值的少数类初始训练样本的样本标注信息相同；

基于插值训练样本、多数类初始训练样本和相应样本标注信息，构建样本数据集。

第二方面，提供了一种敏感数据的识别模型的获取装置，该装置可以包括：

获取单元，用于获取训练样本和相应样本标注信息构建的样本数据集；所述训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段；

分词单元，用于对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量；

训练单元，用于基于所述不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。

所述待训练的深度学习模型的训练过程包括：

softmax层对接收的数据变换结果进行分类；

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本申请提供的敏感数据的识别模型的获取方法在获取训练样本和相应样本标注信息构建的样本数据集；训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段，对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量；之后，基于不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。该方法可实时识别敏感信息字段，高效地实现敏感数据的动态脱敏。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种敏感数据的识别模型的获取方法的流程示意图；

图2为本申请实施例提供的一种敏感信息识别模型的结构示意图；

图3为本申请实施例提供的一种敏感数据的识别模型的获取装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的敏感数据的识别模型的获取方法可以应用在服务器或终端中。该服务器可以是物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理（PDA）、平板电脑（PAD）等用户设备（User Equipment，UE）、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台（Mobile Station，MS）、移动终端（Mobile Terminal）等。终端与服务器可以通过有线或无线的通信方式进行直接或间接的连接，本申请在此不做限定。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1为本申请实施例提供的一种业务数据的处理方法的流程示意图。如图1所示，该方法可以包括：

步骤S110、获取训练样本和相应样本标注信息构建的样本数据集。

在执行该步骤之前，建设数据实验室的分布式涉敏数据库，每天通过晚间批量形式，将客户、交易、行为、产品等数据表同步至数据实验室脱敏环境。

具体实施中，获取敏感训练样本和相应样本标注信息构建的敏感数据集。其中，敏感训练样本可以包括非涉敏类型的数据字段和不同涉敏类型的数据字段。不同类型的数据字段可以包括涉敏数据的英文名字段、中文名字段和数据内容字段。

步骤S120、对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量。

按照字段字符顺序，对任一类型的数据字段进行分词，得到相应数据字段的不同样本分词，其中，不同样本分词可以包括数据字段中至少两个字符组合的样本分词；之后，使用word2vec，将所述不同样本分词转化为相应的文本向量。

（1）字段英文名分词：根据行内规范，为多个缩写单词及“_”连接而成，故字段英文名只需根据“_”进行分词即可。如“CARD_NUM_ID_NUM”分词后的结果为“<CARD| NUM| ID|NUM>”。

（2）字段中文名分词：根据python-jieba进行分词。如“卡片所属产品编号”，分词后结果为“<卡片|所属|产品|编号>”。

（3）字段描述分词：根据python-jieba进行分词。如“银行内部客户编号”，分词后结果为“<银行|内部|客户|编号>”。

进一步的，如“卡片所属产品编号”还可以按顺序将分词结果进行组合，得到“卡片所属”，“所属产品”，“产品编号”等。

步骤S130、基于不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。

为了适应本场景的预测，提升模型准确率，本模型采用神经网络框架，对三项输入文本特征“字段英文名、字段中文名、字段描述”进行区分权重，并结合embedding及N-gram技术确保模型的准确性；

具体的设计如下：字段英文名文本，字段中文名文本，字段描述信息文本，分词后生成词向量及2-gram向量，分别组成三组向量作为输入；对三组向量实施叠加平均，作为模型的第一个隐藏层(hidden layer2)；生成的三个文本向量实施线性变换，赋予不同的权重，作为模型的第二个隐藏层(hidden layer3)；使用分层softmax对其进行多分类，实现文本分类预测。

其中，如图2所示，敏感信息识别模型包括输入层、第一隐藏层、第二隐藏层和一个softmax层。

具体的，待训练的深度学习模型的训练过程，包括：

输入层输入任一类型下的任一样本分词的文本向量（X₁₁,X₁₂,X₁₃,…,X_1M；或者，X₂₁,X₂₂,X₂₃,…,X_2N；或者，X₃₁,X₃₂,X₃₃,…,X_3K），并将其传输至第一隐藏层；M、N、K均为不为零的正整数。

第一隐藏层对不同样本分词的文本向量进行叠加平均，得到相应类型对应的平均向量（X₁,X₂,X₃），并将其传输至第二隐藏层；

第二隐藏层基于配置的线性处理算法，对接收的各类型对应的平均向量进行线性变换，并将数据变换结果（X）输出至softmax层；配置的线性处理算法中不同类型赋予不同的权重参数；

softmax层对接收的数据变换结果进行分类；

若分类结果（Y）与相应文本向量对应的样本标注信息不满足预设损失条件，则对待训练的深度学习模型中的各参数进行调节，并返回向第一隐藏层输入任一类型下其他样本分词的文本向量，直至分类结果与相应文本向量对应的样本标注信息满足预设损失条件。

在一些实施例中，针对模型的任一迭代，具体为：先初始化模型参数，计算模型输出的分类结果与样本标注信息，对预设的损失函数计算当前迭代的梯度；采用预设学习率和当前梯度，动态调整和迭代模型参数，得到新的模型参数，并进行下一次迭代，直到达到预设的迭代终止条件，将最后得到的模型参数，作为训练完成的多层神经网络分类器的模型参数。

在一些实施例中，softmax层的目标函数利用哈夫曼树进行优化。

在一些实施例中，在得到敏感信息识别模型之后，可以搭建虚拟桌面，同时PC段的用户通过虚拟桌面的浏览器或客户端，向配置的分布式涉敏数据库发送数据请求；

对数据请求对应的请求数据进行字段识别，确定不同类型的当前数据字段；

对任一类型的当前数据字段进行分词处理，得到相应类型的不同样本分词的当前文本向量；

将当前文本向量输入敏感信息识别模型，得到敏感信息识别模型输出的识别结果；

若识别结果为敏感数据，则对当前请求结果数据按预设的脱敏方法进行自动脱敏，再展示给客户浏览。用户如需下载数据，通过文件摆渡方式实现虚拟桌面数据与PC端的互传。

若识别结果为非敏感数据，则将请求结果数据直接展示给客户浏览。用户如需下载数据，通过文件摆渡方式实现虚拟桌面数据与PC端的互传。

在一些实施例中，由于获取的训练样本可以包括非涉敏类型的样本和不同涉敏类型的样本，若某一类型的样本数量较少会导致训练出的模型准确性不高，故可以采用预设插值算法，对各少数类初始训练样本进行插值，得到相应插值后的训练样本；其中，插值训练样本的样本标注信息与相应***值的少数类初始训练样本的样本标注信息相同；从而基于插值训练样本、多数类初始训练样本和相应样本标注信息，构建样本数据集。

基于上述实施例，在另一些实施方式中，可以通过以下方式获取训练样本，可以包括：

获取初始训练集中的各少数类初始训练样本以及各少数类初始训练样本分别与各多数类初始训练样本间的欧氏距离；

基于预设随机森林分类器，对初始训练集进行分类得到的各初始训练样本的分类准确率，以及少数类初始训练样本的权重因子，确定样本调节系数，权重因子是基于欧氏距离的个数确定的；

基于少数类初始训练样本、第二数量个欧氏距离和样本调节系数，生成少数类初始训练样本对应的少数类新训练样本；

利用模糊聚类算法，对少数类初始训练样本、少数类新训练样本和多数类训练样本进行聚类，确定不同聚集类的聚类中心和聚类半径；

基于不同聚集类的聚类中心和聚类半径，获取训练样本，从而将其和相应样本标注信息构建样本数据集。

与上述方法对应的，本申请实施例还提供一种敏感数据的识别模型的获取装置，如图3所示，该敏感数据的识别模型的获取装置包括：

获取单元310，用于获取训练样本和相应样本标注信息构建的样本数据集；所述训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段；

分词单元320，用于对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量；

训练单元330，用于基于所述不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型。

本申请上述实施例提供的敏感数据的识别模型的获取装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本申请实施例提供的敏感数据的识别模型的获取装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本申请实施例还提供了一种电子设备，如图4所示，包括处理器410、通信接口420、存储器430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。

存储器430，用于存放计算机程序；

处理器410，用于执行存储器430上所存放的程序时，实现如下步骤：

获取训练样本和相应样本标注信息构建的样本数据集；所述训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段；

上述提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本申请实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的敏感数据的识别模型的获取方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的敏感数据的识别模型的获取方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、***、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种敏感数据的识别模型的获取方法，其特征在于，所述方法包括：

基于不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型；

其中，所述敏感信息识别模型包括输入层、第一隐藏层、第二隐藏层和一个softmax层；

所述待训练的深度学习模型的训练过程包括：

softmax层对接收的数据变换结果进行分类；

2.如权利要求1所述的方法，其特征在于，所述非涉敏类型或不同涉敏类型的数据字段包括英文名字段、中文名字段和数据内容字段。

3.如权利要求1所述的方法，其特征在于，对任一类型的数据字段进行分词处理，得到相应类型的不同样本分词的文本向量，包括：

使用word2vec，将所述不同样本分词转化为相应的文本向量。

4.如权利要求1所述的方法，其特征在于，得到敏感信息识别模型之后，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，获取训练样本和相应样本标注信息构建的样本数据集，构建样本数据集，包括：

6.一种敏感数据的识别模型的获取装置，其特征在于，所述装置包括：

训练单元，用于基于不同类型下不同样本分词的文本向量和相应的样本标注信息，对待训练的深度学习模型进行迭代训练，得到敏感信息识别模型；

所述待训练的深度学习模型的训练过程包括：

softmax层对接收的数据变换结果进行分类；

7.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法。