CN112528315A

CN112528315A - 识别敏感数据的方法和装置

Info

Publication number: CN112528315A
Application number: CN201910888348.1A
Authority: CN
Inventors: 余吉文
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2021-03-19

Abstract

本申请公开了识别敏感数据的方法和装置，涉及计算机技术领域，有助于提高敏感数据的识别准确度。该方法包括获取待处理数据表中的多个字段的字段名；计算所述多个字段的字段名的向量；计算所述多个字段的字段名的向量的综合向量；计算所述综合向量分别与至少两个候选敏感类别的预设向量之间的距离，所述候选敏感类别是所述待处理数据表中的目标字段的候选类别，每个候选敏感类别具有一个预设向量；确定所述至少两个候选敏感类别中的与所述综合向量之间的距离最短的预设向量所对应的候选敏感类别，为所述目标字段对应的内容的敏感类别。

Description

识别敏感数据的方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及识别敏感数据的方法和装置。

背景技术

互联网和智能设备给企业和个人提供了更便捷的数据共享渠道，但同时也使得不法份子更加容易非法获取企业和个人的隐私数据，恶意利用这些信息进行欺诈等活动，给企业和个人带来严重经济损失。因此，在实际应用场景下，一旦数据中涉及到企业或者个人敏感信息时，数据必须经过脱敏处理，以保证数据的安全性。其中，数据脱敏(datamasking)是指对某些敏感数据通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。

然而，数据脱敏在一定程度上会移除或者掩盖一些敏感属性，这会导致数据的重要属性或者统计学信息丢失。而在大数据分析和人工智能等技术领域，要求数据具备较高质量，即保持数据的重要属性不丢失，重要的统计学信息不改变，这样才能从中发现规律、挖掘价值。

为了数据安全性和数据质量之间取得平衡，如何识别敏感数据，从而提高敏感数据的识别准确度，成为亟待解决的技术问题。

发明内容

本申请实施例提供了识别敏感数据的方法和装置，有助于提高敏感数据的识别准确度。

第一方面，提供了一种识别敏感数据的方法，包括：获取待处理数据表中的多个字段的字段名；计算该多个字段的字段名的向量；计算该多个字段的字段名的向量的综合向量；计算该综合向量分别与至少两个候选敏感类别的预设向量之间的距离，候选敏感类别是待处理数据表中的目标字段的候选类别，每个候选敏感类别具有一个预设向量；确定该至少两个候选敏感类别中的与该综合向量之间的距离最短的预设向量所对应的候选敏感类别，为所述目标字段对应的内容的敏感类别。本技术方案中，基于目标字段的上下文信息，识别目标字段对应的内容的敏感类别。由于同一字段在不同的数据表中具有不同的上下文信息，并且，同一字段的上下文信息会影响该字段对应的内容的敏感类别，因此，基于目标字段所属的数据表中的多个字段的字段名，确定目标字段对应的内容的敏感类别，有助于提高敏感类别的识别准确度。另外，通过目标字段的上下文信息在向量空间中的分布特征来确定目标字段对应的内容的敏感类别。这样，与基于正则表达式识别目标字段对应的内容的敏感类别的技术方案相比，一方面，可以避免因编写和维护规则库而带来的成本问题；另一方面，即使在训练阶段没有使用到目标字段，也可以借助目标字段的上下文信息识别出目标字段的敏感类别，也就是说，有助于提升敏感数据识别的算法的鲁棒性和通用性。

其中，字段名的向量，是指将该字段名映射到实数域上得到的向量。综合向量可以理解为用于表征该多个字段的字段名的一个向量。候选敏感类别的预设向量，可以认为是该候选敏感类别在N个字段名的向量所构成的向量空间中的表征。

在一种可能的设计中，该多个字段是待处理数据表中的与目标字段之间间隔的字段个数小于或等于阈值的字段。这是在考虑到“具有相关性的字段通常位于数据表的相对集中的位置”而提出的技术方案。这样有助于提高识别结果的准确性。

在一种可能的设计中，计算该多个字段的字段名的向量的综合向量，包括：根据第一预设算法和该多个字段的字段名的向量，计算该综合向量；其中，该综合向量是使得与该多个字段的字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

例如，第一预设算法可以包括：K均值算法或均值漂移聚类算法等。

在一种可能的设计中，至少两个候选敏感类别包括第一候选敏感类别；第一候选敏感类别可以是该至少两个候选敏感类别中的任意一个候选敏感类别。该方法还包括：获取第一候选敏感类别的多个相关字段名，该相关字段名是用于表征第一候选敏感类别的字段名；计算该多个相关字段名的向量；根据第一预设算法和该多个相关字段名的向量，计算第一候选敏感类别的预设向量；第一候选敏感类别的预设向量是使得与该多个相关字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

在一种可能的设计中，该方法还包括：获取多个数据表中的N个字段的字段名；N是大于或等于2的整数；根据第二预设算法，对该N个字段的字段名进行训练，得到该N个字段的字段名的向量；不同字段出现在同一数据表中的概率越高，该不同字段的字段名的向量之间的距离越短。该情况下，计算该多个字段的字段名的向量，包括：在该N个字段的字段名的向量中，获取该多个字段的字段名的向量。

例如，第二预设算法可以包括：skip-gram算法或者CBOW算法等。

第二方面，提供了一种识别敏感数据的装置，可以用于执行第一方面提供的任一种方法。

在一种可能的设计中，可以根据第一方面提供的任一种方法，对该装置进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

在一种可能的设计中，该装置可以包括存储器和处理器，该存储器用于存储计算机程序，该计算机程序被该处理器执行时，使得第一方面提供的任一种方法被执行。示例的，该装置可以是计算机设备或芯片。

第三方面，提供了一种计算机可读存储介质，该计算机可读存储介质中包含指令，当该指令在计算机上运行时，使得该计算机执行第一方面提供的任一种方法。

第四方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面提供的任一种方法被执行。

可以理解的是，上述提供的任一种识别敏感数据的装置、计算机可读存储介质或计算机程序产品等均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种向量空间的示意图；

图2为本申请实施例提供的一种敏感数据的类别的示意图；

图3为本申请实施例基于图2提供的一种敏感数据的类别的示意图；

图4为本申请实施例提供的一种计算机***的架构示意图；

图5为本申请实施例提供的一种计算机设备的结构示意图；

图6为本申请实施例提供的一种训练方法的流程示意图；

图7为本申请实施例提供的一种训练得到的向量空间的示意图；

图8为本申请实施例提供的一种获取预设向量的方法的流程示意图；

图9为本申请实施例提供的一种候选敏感类型的预设向量的示意图；

图10为本申请实施例提供的一种识别敏感数据的方法的流程示意图；

图11为本申请实施例提供的一种计算机设备的逻辑结构示意图；

图12为本申请实施例提供的一种综合向量的示意图；

图13为本申请实施例提供的一种识别敏感数据的装置的结构示意图。

具体实施方式

以下，对本申请实施例中所涉及的术语进行解释说明：

1)、数据、数据表、字段、字段名、字段对应的内容

本申请中涉及的数据是指结构化数据。其中，结构化数据是指由二维表(即数据表)结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。结构化数据也称作行数据，其一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。一种数据表如表1所示：

表1

名称	性别	地址	电话
				张一	女	陕西省西安市	012345678900
王二	男	广东省深圳市	012345678901
				李三	男	广东省深圳市	012345678903

数据表中的每一列表示一个字段，例如表1中包含4个字段。每个字段具有一个字段名，例如表1中各字段的字段名分别为“名称、性别、地址和电话”。一个字段的非字段名所在的单元格中的信息被称作是该字段的字段对应的内容，字段名通常在数据表的第一行。例如，表1中字段名“名称”对应的内容是“张一、王二、李三”，字段名“地址”对应的内容是“陕西省西安市、广东省深圳市、广东省深圳市”。

2)、字段名的向量，词向量空间

在对字段名的向量进行解释说明之前，首先简单对词向量进行介绍：

词向量(word embedding)，也可称为词嵌入，是自然语言处理(natural languageprocessing，NLP)中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。它旨在基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。

基于训练模型对训练数据(即多个单词或词组)进行训练，可以得到每个单词/词组的向量。本申请实施例对训练模型及使用该训练模型进行训练的实现方式均不进行限定。示例的，该训练模型可以包括连续词袋模型(continuous bag of words，CBOW)或skip-gram等。

字段名的向量，是指将该字段名映射到实数域上得到的向量。

向量空间，是多个字段名的向量构成的空间。每个字段名的向量是该向量空间中的一个元素。以向量的维度是3为例，三维向量空间中的任意一点都可以用坐标(x,y,z)来表征。假设三维空间中的点(1,2,1)可以表征字段名“名称”，那么“名称”的向量就是(1,2,1)，如图1所示。假设三维空间中的点(2,1,0)可以表征字段名“地址”，那么“地址”的向量就是(2,1,0)，如图1所示。类似的，可以将所有字段名都以三维空间中的一个点来表征。

3)、敏感数据、敏感类别

敏感数据，是指数据表中的涉及隐私、安全等敏感信息的数据。例如，地址、联系方式、证件信息、账户信息等通常被认为是敏感数据。

敏感类别，是指对敏感数据进行分类得到的类别。敏感类别可以是预定义的，且预定义之后是可以更新的。在对敏感数据进行数据脱敏时，可以基于敏感数据的类别进行脱敏处理。

在本申请的一些实施例中，敏感类别可以包括一级类别和二级类别。

一级类别是按照敏感数据的内容对敏感数据进行分类的结果。一级类别可以被称作是敏感数据的粗分类别。如图2所示，C-i表示第i个一级类别。其中，i是大于或等于2的整数。

二级类别是对一级类别进行进一步分类的结果。二级类别可以被称作是敏感数据的细分类别。如图2所示，C-i-j表示第i个一级类别中的第j个二级类别。其中，j是大于或等于2的整数。

需要说明的是，敏感类别包括哪些一级类别，每个一级类别包括哪些二级类别，均可以是预定义的，例如根据对大量的数据进行统计分析后预定义的。并且，敏感数据的一级类别和二级类别预定义之后是可以更新的。

可选的，在进行敏感数据识别之前，还可以预定义每个二级类别对应的敏感级别，例如，可以定义C-i-j的敏感级别为P-i-j，在一个示例中，P-i-j可以为集合{0,1,2,3,4}中的一个值。P-i-j的取值越大，表示C-i-j的敏感级别越高。在对敏感数据进行数据脱敏处理时，敏感级别越高，对数据进行脱敏的程度越高。

如图3所示，为一种敏感数据的类别的具体示例。图3中，敏感数据的一级类别可以包括地址信息、证件号码和账户信息。其中，地址信息的二级类别可以包括个人类别和组织类别，也就是说，地址信息可以进一步划分为个人地址信息和组织地址信息，通常，个人地址信息的敏感程度高于组织地址信息的敏感程度。证件号码的二级类别可以包括个人类别和组织类别，也就是说，证件号码可以进一步划分为个人证件号码和组织证件号码，通常，个人证件号码的敏感程度高于组织证件号码的敏感程度。账户信息的二级类别可以包括银行卡类别和即时通信软件类别，也就是说，账户信息可以进一步划分为银行卡账户信息和即时通信软件账号(如微信号等)，通常，银行卡账户信息的敏感程度高于组织证件号码的敏感程度。

需要说明的是，上述仅为示例，其不对本申请实施例所适用的敏感类别构成限定。示例1：敏感类别可以包括多个一级类别，且该多个一级类别中的部分或全部一级类别可以进一步划分为多个二级类别。例如，图3所示的账户信息可以不再区分二级类别。示例2：敏感类别可以包括：多个一级类别，且该多个一级类别中的部分或全部一级类别可以进一步划分为多个二级类别，任意一个或多个二级类别可以进一步划分为多个三级类别。例如图3中的即时通信软件账号可以进一步划分为：邮箱账号和微信号等。

4)、候选敏感类别

候选敏感类别，是指一个字段可能的敏感类别。例如，参见图3，如果已经确定一个字段的一级类别为地址信息，那么，该字段的候选敏感类别是个人类别和组织类别。又如，参见上述示例2，如果已经确定一个字段的二级类别为即时通信软件类别，那么该字段的候选敏感类别可以是邮箱类别和微信类别。

5)、其他术语

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例中，“至少一个”是指一个或多个。“多个”是指两个或两个以上。

在本申请实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于计算机***中。如图4所示，该计算机***包括数据库1和计算机设备2。其中，数据库1用于存储包含敏感数据的数据表。计算机设备2用于执行本申请实施例提供的方法。可选的，计算机设备2还用于执行数据脱敏处理。

在一个示例中，数据库1可以集成在计算机设备2中。在另一个示例中，数据库1可以位于计算机设备2之外的一个设备上。

在一个示例中，如图5所示，计算机设备2包括：至少一个处理器201，通信线路202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路202与处理器相连接。存储器也可以和处理器集成在一起。本申请实施例提供的存储器通常可以具有非易失性。其中，存储器203用于存储执行本申请方案的计算机执行指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的计算机执行指令，从而实现本申请下述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，计算机设备2可以包括多个处理器，例如图5中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备2还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接收用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

需要说明的是，为了更清楚地描述本申请实施例提供的技术方案，以下基于训练阶段、预设向量获取阶段和敏感数据识别阶段进行说明。其中，训练阶段和预设向量获取阶段可以认为是执行敏感数据识别阶段的预处理过程，这两个阶段可以是线上或线下执行的。

训练阶段：

如图6所示，训练阶段可以包括以下步骤：

S101：计算机设备获取多个数据表中的N个字段的字段名；N是大于或等于2的整数。

具体的，计算机设备可以从数据库中获取多个数据表。该数据库可以是计算机设备内部的数据库，或者，可以是计算机设备外部的数据库。该多个数据表可以是数据库中所存储的任意多个数据表，例如，该多个数据表可以包括：工资表、销售表、个人健康信息表、个人信息登记表、企业基本情况表等。N个字段可以是该多个数据表中的部分或全部字段。

S102：计算机设备基于训练模型(如skip-gram模型或者CBOW模型等)对该N个字段的字段名进行训练，得到该N个字段的字段名中每个字段的字段名的向量。其中，不同字段出现在同一张表中的概率越高，该不同字段的字段名的向量之间的距离越近。

步骤S102的具体实现方式可以参考现有技术。

以下，对训练模型进行简单说明：

训练模型的输入信息可以包括：N个字段名及每个字段名所属的数据表的标识信息。例如，训练模型的输入信息可以包括：个人健康信息表所包括的名称、性别、出生日期、住址、联系方式、体重、视力等字段名；个人信息登记表所包括的名称、性别、出生日期、住址、联系方式、教育背景等字段名；工资表所包括的名称、工号、级别、基本工资、提成、扣税、实发工资等字段名。

可选的，训练模型的输入信息还可以包括字段名的向量的维度。其中，字段名的向量的维度是指向量所包含的元素的个数。向量的维度可以是几维度，或者几十维度，或者几百维度，甚至上千维度等。向量的维度越高，该向量越能精确反映该向量所指示的字段名与其他字段名之间的关系，这样，使用训练结果进行敏感数据识别所得到的识别结果就会越精确。然而，向量的维度越高，训练过程及后续使用训练结果进行敏感数据的过程就会越复杂。因此，可以基于对敏感数据的识别结果的精确度和计算复杂度，合理选择向量的维度。向量的维度可以是预定义的，或者可以是自定义的值(如用户输入的值)。在实际应用中，可以根据训练数据的总量和特性，选择向量的维度。

训练目标为：在满足“不同字段出现在同一张表中的概率越高，该不同字段的字段名的向量之间的距离越近”的条件下，得到该N个字段名的向量。

训练模型的输出信息包括：N个字段名的向量。

如图7所示，为本申请实施例提供的一种训练得到的向量空间的示例。图7所示的a维向量空间(如坐标轴X1～Xa所示)包括N个字段名的向量，图7中的每个点表示一个字段的向量。a是大于或等于3的整数。

可以理解的是，将字段名映射到词向量空间得到字段名的向量，这样，可以通过计算向量之间的距离，计算字段名之间相似度。常见的计算相似度的算法包括：欧氏距离、哈曼顿距离、切比雪夫距离和余弦距离等。以余弦距离为例，在几何中夹角余弦可以用来衡量两个向量方向的差异。

二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式为：

可扩展地，两个N维度向量点(x11,x12,…,x1n)和(x21,x22,…,x2n)的夹角余弦公式为：

夹角余弦取值范围为[-1,1]。在实际实现时，加以约束，可以得到该N个字段名的向量全为整数，因此余弦距离的计算范围为[0,1]。数值越接近1，表示两个向量相似度越高，越接近0，表示两个向量越不相关。

预设向量获取阶段：

如图8所示，获取预设向量的方法可以包括如下步骤：

S201：计算机设备获取待处理候选敏感类别的多个相关字段名。

待处理候选敏感类别的多个相关字段名，是用于表征待处理候选敏感类别的多个字段的字段名。例如，当待处理候选敏感类别是个人类别时，由于最常用的表征个人信息的字段是“名称、性别、出生日期、电话、邮箱”等，因此，可以将这几个字段的字段名作为个人类别的相关字段名。又如，当待处理候选敏感类别是企业类别时，由于最常用的表示企业信息的字段是“名称、地址、电话、创建时间和规模”等，因此，可以将这几个字段的字段名作为企业类别的相关字段名。又如，当第一候选敏感类型是银行卡类别时，由于最常用的表征银行卡信息的字段是“银行卡所属银行名称(如中国银行、交通银行等)”因此，可以将银行卡所属银行名称作为银行卡类别的相关字段名。

待处理候选敏感类别可以是预定义的任意一种候选敏感类别。例如，第一候选类别可以是图2中的个人类别、组织类别、银行卡类别和即使通信软件类别中的任一种。

待处理候选敏感类别的相关字段名可以是预定义的或者用户指示的。例如，基于对大量数据表中的字段名进行统计分析而预定义的。

S202：计算机设备计算该多个相关字段名的向量。

具体的，训练阶段结束之后，计算机设备中可以存储N个字段名中的每个字段名与其所对应的向量之间的对应关系；在执行S202时，对于每个相关字段名来说，计算机设备可以根据从该N个字段名中查找该相关字段名，然后获取该相关字段名所对应的向量。

例如，基于S201中的示例，假设待处理候选敏感类别是个人类别，那么，计算机设备可以从训练阶段得到的N个字段名中分别获取“名称、性别、年龄、地址、电话、邮箱”这些字段名的向量。例如，通过查找表5，可以得到这些字段名的向量。

S203：计算机设备根据预设算法计算待处理候选敏感类别的预设向量，使得该预设向量与该多个相关字段名的向量中的每个向量之间的距离差的绝对值之和最小。

待处理候选敏感类别的预设向量，可以认为是待处理候选敏感类别在N个字段名的向量所构成的向量空间中的表征。

步骤S203中计算待处理候选敏感类别的预设向量是一个简单的最优化问题。

示例的，假设将待处理候选敏感类别的多个相关字段名的向量分别标记为{V1，V2，……Vi……Vn}，其中，1＜i≤n，i和n均是整数，将待处理候选敏感类别的预设向量标记为Vc，那么，步骤S203计算待处理候选敏感类别的预设向量具体为求解以下最优化方程：

目标函数：minf(V_C)。

约束条件：

即Vc到Vi的距离之和；

即Vc属于N维向量。

可选的，求解最优化方程常用的算法(即S203中的预设算法)可以包括：K均值算法或均值漂移聚类算法等。

将每个候选敏感类型分别作为待处理候选敏感类型，执行上述S201～S203，可以计算得到每个候选敏感类别的预设向量。例如，基于图3，可以分别获得个人类别的预设向量、组织类别的预设向量、银行卡类别的预设向量和即时通信软件类别的预设向量。

如图9所示，为一种候选敏感类型的预设向量的示意图。图9是基于图8进行绘制的，且图9示意出了个人类别和组织类别这两种候选敏感类型的预设向量。图9中是以“与个人类别相关的多个字段名是：名称、性别、年龄、地址、电话、邮箱；与组织类别相关的多个字段名是：名称、地址、电话、创建时间和规模”为例进行说明的。

需要说明的是，训练阶段、预设向量获取阶段和敏感数据识别阶段中任意多个阶段的执行主体可以相同或不同。例如，由一个计算机设备执行训练阶段和预设向量获取阶段，再将这两个阶段的执行结果(即N个字段名的向量和每个候选敏感类型的预设向量)输入到另一计算机设备，由该另一计算机设备执行敏感数据识别阶段。又如，由一个计算机设备执行训练阶段，再将该阶段的执行结果(即N个字段名的向量)输入到另一计算机设备，由该另一计算机设备执行预设向量获取阶段和敏感数据识别阶段。其他示例不再一一列举。

敏感数据识别阶段：

如图10所示，识别敏感数据的方法可以包括如下步骤：

S301：计算机设备根据检索请求确定符合检索请求的待处理数据表。

待处理数据表是计算机设备根据用户的检索请求在数据库中检索到的符合用户检索请求中的检索条件的数据表。待处理数据表可以是S101中的多个数据表中的一个数据表，或者可以除S101中的多个数据表之外的一个数据表。在将待处理数据表传输给用户之前，需要识别出该待处理数据表中是否有敏感数据，并对识别出的敏感数据进行脱敏处理。

在一个示例中，如图11所示，计算机设备包括软件应用、数据库引擎和敏感数据识别模块。软件应用如数据展示平台、数据交换平台、数据处理平台或数据消费平台等，向数据库引擎发送数据检索请求。数据库引擎根据该数据检索请求从数据库中检索到符合该检索请求的待处理数据表，然后将将读取到的数据表发送给敏感数据识别模块。敏感数据识别模块用于根据数据库引擎发送的信息，对待处理数据表中的敏感数据进行识别(如执行S302～S308)。

可选的，计算机设备还可以包括脱敏模块，用于根据敏感数据识别模块的识别结果对敏感数据进行脱敏处理，并将脱敏处理后得到的数据返回给发送数据检索请求的软件应用。

在一个示例中，图11中的软件应用可以是安装在其他计算机设备上的软件应用。

S302：计算机设备根据待处理数据表中目标字段所对应的内容，确定目标字段所对应的内容的一级类别。关于一级类别的相关说明及具体示例可以参考上文，此处不再赘述。

在本申请实施例中，在对待处理数据表进行脱敏处理时，可以一个字段一个字段进行，对于每个字段采用相同的方法进行敏感数据的识别，在下面的描述中，仅以其中的一个字段为例进行说明，其中当前进行敏感数据识别的字段为目标字段。

例如，计算机设备基于正则表达式和目标字段所对应的内容，确定目标字段所对应的内容的一级类别。其中，正则表达式(regular expression)，又称规则表达式，是计算机科学的一个概念，通常被用来检索或替换符合某个模式(或规则)的文本。计算机设备基于正则表达式和目标字段所对应的内容确定目标字段所对应的内容的一级类别的具体实现方式可以参考现有基础，此处不再赘述。

S303：计算机设备判断目标字段所对应的内容的一级类别是否包含二级类别。

若否，则执行S304；若是，则执行S305。

S304：计算机设备将S302中所确定的一级类别作为目标字段所对应的内容的敏感类别。

S305：计算机设备获取待处理数据表中的多个字段的字段名。

其中，该多个字段可以是待处理数据表中的任意多个字段。基于S301中的示例，该多个字段可以是数据库引擎发送给敏感数据识别模块的多个字段。例如，假设待处理数据表是表1，且目标字段是地址，则S305中所获取的字段名可以是名称、性别和电话。

可选的，该多个字段是待处理数据表中的与目标字段之间间隔的字段个数小于或等于阈值的字段。其中，目标字段可以是待处理数据表中的任意一个字段。本申请实施例对阈值的具体取值以及具体取值的确定方法均不进行限定。这是在考虑到“具有相关性的字段通常位于数据表的相对集中的位置”而提出的技术方案。这样有助于提高识别结果的准确性。例如，以该多个字段是待处理数据表中的与目标字段之间间隔的字段个数为1的字段为例，假设待处理数据表是表1，且目标字段是地址，则S305中所获取的字段名可以是性别和电话。

以下，通过一个示例，说明具有相关性的字段通常位于数据表的相对集中的位置。例如，如果一个表格包含的字段较多，且包括表征多种类型信息的字段，如销售表中既包括表征个人信息的字段如名称、地址、电话等，也包括表征销售信息的字段如商品名、商品价格、销售时间等，那么，通常用于表征同一类信息(如个人信息或销售信息)的字段往往较为集中，如销售表中记录的字段依次为：名称、地址、电话、商品名、商品价格、销售时间等。

S306：计算机设备计算该多个字段的字段名的向量。具体的，计算机设备从训练阶段所得到的N个字段名的向量中查找该多个字段中每个字段的字段名的向量。

例如，假设待处理数据表是表1，目标字段是地址，S305中所获取的字段名是名称、性别和电话，那么，在S306中，计算机设备可以从训练阶段所得到的N个字段名的向量中查找名称、性别和电话分别对应的向量，如图12所示。

S307：计算机设备根据预设算法，计算该多个字段的字段名的向量的综合向量，使得该综合向量与该多个字段的字段名的向量中的每个向量之间的距离差的绝对值之和最小。

其中，综合向量可以理解为用于表征该多个字段的字段名的一个向量。计算综合向量一个简单的最优化问题，其中一个示例可以参考上述S203中的示例。该过程中所使用的预设算法可以包括：K均值算法或均值漂移聚类算法等。

基于S306中的示例，字段“名称、性别和电话”的向量的综合向量如图12所示。

S308：计算机设备计算该综合向量分别与至少两个候选敏感类别的预设向量之间的距离。其中，候选敏感类别是待处理数据表中的目标字段的候选类别。每个候选敏感类别具有一个预设向量，关于候选敏感类别的预设向量的获取方式可以参考上文，此处不再赘述。

例如，假设基于图3，执行S302之后所获得的目标字段的一级类别是地址信息，那么，S308中的“至少两个候选敏感类别”包括个人类别和组织类别。

又如，假设基于图3，执行S302之后所获得的目标字段的一级类别是账号信息，那么，S308中的“至少两个候选敏感类别”包括银行卡类别和即时通信软件类别。

S309：计算机设备确定该至少两个候选敏感类别的预设向量中的与该综合向量之间的距离最短的预设向量所对应的候选敏感类别，为目标字段对应的内容的敏感类别。

也就是说，该至少两个候选敏感类别中的与目标字段相关的多个字段最相似的候选敏感类别作为目标字段对应的内容的敏感类别。其中，每个候选敏感类别用一个预设向量来表征，与目标字段相关的多个字段用综合向量来表征。

示例的，基于图3，执行S308所确定的敏感类别是指二级类别。

如图12所示，基于S307中的示例可知，表1中的目标字段“地址”的二级类别是个人类别。也就是说，目标字段对应的内容是个人地址信息。

本申请实施例提供的敏感数据识别方法，基于待处理数据表中的多个字段的字段名的向量与待处理数据表中的目标字段的候选敏感类别的向量之间的距离，识别目标字段对应的内容的敏感类别，也就是说，基于目标字段的上下文信息，识别目标字段对应的内容的敏感类别。由于同一字段在不同的数据表中具有不同的上下文信息，并且，同一字段的上下文信息会影响该字段对应的内容的敏感类别，因此，基于目标字段所属的数据表中的多个字段的字段名，确定目标字段对应的内容的敏感类别，有助于提高敏感类别的识别准确度。

另外，本技术方案将目标字段的上下文信息映射到了向量空间中，通过计算向量之间的相似度来识别目标字段对应的内容的敏感类别，也就是说，通过目标字段的上下文信息在向量空间中的分布特征来确定目标字段对应的内容的敏感类别。这样，与基于正则表达式识别目标字段对应的内容的敏感类别的技术方案相比，一方面，由于基于正则表达式识别敏感类别需要编写和维护规则库，因此本技术方案可以避免因编写和维护规则库而带来的成本问题；另一方面，如果识别目标字段的敏感类别(如上述二级类别)的规则没有收纳在规则库中，则使用基于该规则库不能识别出目标字段的敏感类别，而本技术方案中，即使在训练阶段没有使用到目标字段，也可以借助目标字段的上下文信息识别出目标字段的敏感类别，也就是说，本技术方案有助于提升敏感数据识别的算法的鲁棒性和通用性。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对计算机设备进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图13所示，为本申请实施例提供的一种识别敏感数据的装置130的结构示意图。在一个示例中，该装置130可以是计算机设备，用于执行上文中计算机设备所执行的步骤。该装置130可以包括：获取单元1301、计算单元1302和确定单元1303。可选的，该装置还可以包括训练单元1304。

获取单元1301，用于获取待处理数据表中的多个字段的字段名。计算单元1302，用于计算该多个字段的字段名的向量；计算该多个字段的字段名的向量的综合向量；计算该综合向量分别与至少两个候选敏感类别的预设向量之间的距离，候选敏感类别是待处理数据表中的目标字段的候选类别，每个候选敏感类别具有一个预设向量。确定单元1303，用于确定该至少两个候选敏感类别中的与综合向量之间的距离最短的预设向量所对应的候选敏感类别，为目标字段对应的内容的敏感类别。例如，结合图10，获取单元1301可以用于执行S305，计算单元1302可以用于执行S306、S307和S308，确定单元1303可以用于执行S309。

可选的，该多个字段是待处理数据表中的与目标字段之间间隔的字段个数小于或等于阈值的字段。

可选的，计算单元1302具体用于：根据第一预设算法和多个字段的字段名的向量，计算综合向量；其中，该综合向量是使得与多个字段的字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。例如，结合图10，计算单元1302可以用于执行S307。

可选的，该至少两个候选敏感类别包括第一候选敏感类别；获取单元1301还用于，获取第一候选敏感类别的多个相关字段名，该相关字段名是用于表征第一候选敏感类别的字段名.计算单元1302还用于，计算该多个相关字段名的向量；以及，根据第一预设算法和该多个相关字段名的向量，计算第一候选敏感类别的预设向量；第一候选敏感类别的预设向量是使得与该多个相关字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。例如，结合图8，获取单元1301可以用于执行S201，计算单元1302可以用于执行S202和S203。

可选的，获取单元1301还用于，获取多个数据表中的N个字段的字段名；N是大于或等于2的整数。训练单元1304用于，根据第二预设算法，对N个字段的字段名进行训练，得到N个字段的字段名的向量；不同字段出现在同一数据表中的概率越高，不同字段的字段名的向量之间的距离越短。计算单元1302具体用于，在该N个字段的字段名的向量中，获取该多个字段的字段名的向量。例如，结合图7，获取单元1301可以用于执行S101，训练单元1304可以用于执行S102。

上述识别敏感数据的装置130可以是一个通用设备或者是一个专用设备。

作为一个示例，上述识别敏感数据的装置130可以通过图5中的计算机设备2来实现。上述获取单元1301、计算单元1302、确定单元1303和训练单元1304中的部分或全部所执行的功能可以通过处理器201调用存储器203中存储的计算机程序来实现。

上述提供的任一种识别敏感数据的装置130的相关内容的解释以及有益效果的描述等均可参考上述方法实施例，此处不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种识别敏感数据的方法，其特征在于，所述方法包括：

获取待处理数据表中的多个字段的字段名；

计算所述多个字段的字段名的向量；

计算所述多个字段的字段名的向量的综合向量；

计算所述综合向量分别与至少两个候选敏感类别的预设向量之间的距离，所述候选敏感类别是所述待处理数据表中的目标字段的候选类别，每个候选敏感类别具有一个预设向量；

确定所述至少两个候选敏感类别中的与所述综合向量之间的距离最短的预设向量所对应的候选敏感类别，为所述目标字段对应的内容的敏感类别。

2.根据权利要求1所述的方法，其特征在于，所述多个字段是所述待处理数据表中的与所述目标字段之间间隔的字段个数小于或等于阈值的字段。

3.根据权利要求1或2所述的方法，其特征在于，所述计算所述多个字段的字段名的向量的综合向量，包括：

根据第一预设算法和所述多个字段的字段名的向量，计算所述综合向量；其中，所述综合向量是使得与所述多个字段的字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述至少两个候选敏感类别包括第一候选敏感类别；所述方法还包括：

获取所述第一候选敏感类别的多个相关字段名，所述相关字段名是用于表征所述第一候选敏感类别的字段名；

计算所述多个相关字段名的向量；

根据第一预设算法和所述多个相关字段名的向量，计算所述第一候选敏感类别的预设向量；所述第一候选敏感类别的预设向量是使得与所述多个相关字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取多个数据表中的N个字段的字段名；所述N是大于或等于2的整数；

根据第二预设算法，对所述N个字段的字段名进行训练，得到所述N个字段的字段名的向量；不同字段出现在同一数据表中的概率越高，所述不同字段的字段名的向量之间的距离越短；

所述计算所述多个字段的字段名的向量，包括：

在所述N个字段的字段名的向量中，获取所述多个字段的字段名的向量。

6.一种识别敏感数据的装置，其特征在于，所述装置包括：

获取单元，用于获取待处理数据表中的多个字段的字段名；

计算单元，用于计算所述多个字段的字段名的向量；计算所述多个字段的字段名的向量的综合向量；计算所述综合向量分别与至少两个候选敏感类别的预设向量之间的距离，所述候选敏感类别是所述待处理数据表中的目标字段的候选类别，每个候选敏感类别具有一个预设向量；

确定单元，用于确定所述至少两个候选敏感类别中的与所述综合向量之间的距离最短的预设向量所对应的候选敏感类别，为所述目标字段对应的内容的敏感类别。

7.根据权利要求6所述的装置，其特征在于，所述多个字段是所述待处理数据表中的与所述目标字段之间间隔的字段个数小于或等于阈值的字段。

8.根据权利要求6或7所述的装置，其特征在于，

所述计算单元具体用于：根据第一预设算法和所述多个字段的字段名的向量，计算所述综合向量；其中，所述综合向量是使得与所述多个字段的字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

9.根据权利要求6至8任一项所述的装置，其特征在于，所述至少两个候选敏感类别包括第一候选敏感类别；

所述获取单元还用于，获取所述第一候选敏感类别的多个相关字段名，所述相关字段名是用于表征所述第一候选敏感类别的字段名；

所述计算单元还用于，计算所述多个相关字段名的向量；以及，根据第一预设算法和所述多个相关字段名的向量，计算所述第一候选敏感类别的预设向量；所述第一候选敏感类别的预设向量是使得与所述多个相关字段名的向量中的每个向量之间的距离差的绝对值之和最小的向量。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括训练单元；

所述获取单元还用于，获取多个数据表中的N个字段的字段名；所述N是大于或等于2的整数；

所述训练单元用于，根据第二预设算法，对所述N个字段的字段名进行训练，得到所述N个字段的字段名的向量；不同字段出现在同一数据表中的概率越高，所述不同字段的字段名的向量之间的距离越短；

所述计算单元具体用于，在所述N个字段的字段名的向量中，获取所述多个字段的字段名的向量。

11.一种识别敏感数据的装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1至5任一项所述的方法。