CN112541193A

CN112541193A - 隐私数据的保护方法和装置

Info

Publication number: CN112541193A
Application number: CN202011432591.1A
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-23
Anticipated expiration: 2040-12-10
Also published as: CN112541193B

Abstract

本说明书实施例提供了一种隐私数据的保护方法和装置。根据该实施例的方法，首先，获取目标用户在目标平台上传过的历史数据；然后，从历史数据中提取身份数据和身份关联性数据，身份数据为唯一对应用户身份的数据，身份关联性数据为可推测用户身份的数据；接着，对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定目标用户在目标平台的隐私泄露风险等级；最后，根据隐私泄露风险等级，对目标用户在目标平台上传的数据进行数据脱敏处理。

Description

隐私数据的保护方法和装置

技术领域

本说明书一个或多个实施例涉及网络安全技术领域，尤其涉及隐私数据的保护方法和装置。

背景技术

互联网技术是社会发展和进步的重要支柱。然而，互联网技术在为人们带来优质服务的同时，用户隐私数据泄露的问题也变得愈发严重，这不仅大大降低了用户的使用体验，而且会给用户带来经济损失，甚至威胁到用户的人身安全。因此，在互联网技术中，对用户的隐私数据进行保护具有重要意义。

目前，对隐私数据进行保护的方法通常采用的是强隐私数据保护方法，即将用户的直接身份数据如证件号等进行保护。但在互联网应用过程中，会涉及到大量与用户相关的非直接身份数据如地址信息等，一些不法人员会通过这些非直接身份数据综合分析出用户的直接身份数据，故而现有的隐私数据保护方法无法可靠保证用户的隐私数据安全。为此，有必要提供一种更加可靠的隐私数据保护方案。

发明内容

本说明书一个或多个实施例描述了隐私数据的保护方法和装置，能够更可靠地保护用户的隐私数据。

根据第一方面，提供了一种隐私数据的保护方法，包括：

获取目标用户在目标平台上传过的历史数据；

从所述历史数据中提取身份数据和身份关联性数据，所述身份数据为唯一对应用户身份的数据，所述身份关联性数据为可推测用户身份的数据；

对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定所述目标用户在所述目标平台的隐私泄露风险等级；

根据所述隐私泄露风险等级，对所述目标用户在所述目标平台上传的数据进行数据脱敏处理。

在一个实施例中，其中，所述身份数据包括人脸图像和证件号中的至少一种，从所述历史数据中提取身份数据，包括：

利用人脸检测模型识别所述历史数据中是否有人脸图像；如果所述历史数据中有人脸图像，则提取人脸图像并将人脸图像作为身份数据；

和/或，利用OCR模型识别所述历史数据中是否有证件号；如果所述历史数据中有证件号，则提取证件号并将证件号作为身份数据。

在一个实施例中，其中，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的至少一种；

从所述历史数据中提取身份关联性数据，包括：

识别所述历史数据中是否有定位数据；如果所述历史数据中有定位数据，则提取定位数据并将定位数据作为身份关联性数据；

和/或，利用OCR模型识别所述历史数据中是否有地址信息；如果所述历史数据中有地址信息，则提取地址信息并将地址信息作为身份关联性数据；

和/或，利用OCR模型识别所述历史数据中是否有通讯号码；如果所述历史数据中有通讯号码，则提取通讯号码并将通讯号码作为身份关联性数据；

和/或，利用地标检测模型识别所述历史数据中是否有地标建筑；如果所述历史数据中有地标建筑，则提取地标建筑并将取地标建筑作为身份关联性数据。

在一个实施例中，其中，所述确定所述目标用户在所述目标平台的隐私泄露风险等级，包括：

对所提取的身份数据进行分析，并根据分析结果确定身份数据对应的风险等级；

对所提取的身份关联性数据进行分析，并根据分析结果确定身份关联性数据对应的风险等级；

根据所述身份数据对应的风险等级和所述身份关联性数据对应的风险等级，确定所述目标用户在所述目标平台的隐私泄露风险等级。

在一个实施例中，所述对所提取的身份数据进行分析，并根据分析结果确定身份数据对应的风险等级，包括：

如果所提取的身份数据中包括人脸图像，则对所提取的人脸图像进行聚类，并根据聚类结果确定属于所述目标用户的人脸图像的概率；根据所述概率确定人脸图像对应的风险等级；

如果所提取的身份数据中包括证件号，则根据提取到的证件号的类型和/或数量确定所述证件号对应的风险等级；

根据所述人脸图像对应的风险等级和所述证件号对应的风险等级确定身份数据对应的风险等级。

在一个实施例中，所述对所提取的身份关联性数据进行分析，并根据分析结果确定身份关联性数据对应的风险等级，包括：

如果所提取的身份关联性数据中包括定位数据、地址信息和地标建筑，则根据所提取的定位数据、地址信息和地标建筑，计算所述目标用户每天的运动路径；根据每天的运动路径中同一条路径的占比确定地址数据对应的风险等级；

如果所提取的身份关联性数据中包括通讯号码，则根据所提取的通讯号码是否完整确定所述通讯号码对应的风险等级；

根据所述地址数据对应的风险等级和所述通讯号码对应的风险等级确定身份关联性数据对应的风险等级。

在一个实施例中，其中，所述身份数据包括人脸图像，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑；

所述对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定所述目标用户在所述目标平台的隐私泄露风险等级，包括：

对所提取的身份数据中的人脸图像进行聚类，根据聚类结果确定所提取的人脸图像中属于所述目标用户的人脸图像，并提取属于所述目标用户的人脸图像的人脸特征，得到人脸特征向量；

提取定位数据、地址信息、通讯号码和地标建筑的特征，并基于所提取的特征构建身份关联性数据特征向量；

对所述人脸特征向量和所述身份关联性数据特征向量分别进行球面数据增广，并将增广后的数据划分为训练集和测试集；

使用所述训练集训练风险识别双层感知机，并使用所述测试集计算训练好的风险识别双层感知机的损失函数的值；

根据所述损失函数的值确定所述目标用户在所述目标平台的隐私泄露风险等级。

在一个实施例中，其中，所述对所述人脸特征向量和所述身份关联性数据特征向量分别进行球面数据增广，并将增广后的数据划分为训练集和测试集，包括：

定义增广所述人脸特征向量的第一球面半径，并在第一球面半径内对人脸特征向量进行随机采样，得到增广后的人脸特征向量，选取增广后的人脸特征向量中的一部分数据作为人脸特征向量的训练集，将增广后的人脸特征向量中的另一部分数据作为人脸特征向量的测试集；

定义增广所述身份关联性数据特征向量的第二球面半径，并在第二球面半径内对身份关联性数据特征向量进行随机采样，得到增广后的身份关联性数据特征向量，选取增广后的身份关联性数据特征向量中的一部分数据作为身份关联性数据特征向量的训练集，将增广后的身份关联性数据特征向量中的另一部分数据作为身份关联性数据特征向量的测试集；

在一个实施例中，其中，所述使用所述训练集训练风险识别双层感知机，并使用所述测试集计算训练好的风险识别双层感知机的损失函数的值，包括：

使用所述训练集中增广后的身份关联性数据特征向量作为风险识别双层感知机的输入，使用所述训练集中增广后的人脸特征向量作为风险识别双层感知机的输出，对所述风险识别双层感知机进行预设次数的数据拟合后，得到训练好的风险识别双层感知机；

使用所述测试集中增广后的身份关联性数据特征向量作为风险识别双层感知机的输入，计算所述训练好的风险识别双层感知机的余弦相似度的值，将所述余弦相似度的值作为损失函数的值。

在一个实施例中，其中，所述对所述目标用户在所述目标平台上传的数据进行数据脱敏处理，包括：

如果确定所述目标用户指令不进行隐私保护，则对所述目标用户在所述目标平台上传的数据不进行脱敏处理；

如果确定所述目标用户指令中等级隐私保护，则对所述目标用户在所述目标平台上传的身份数据和身份关联性数据中的通讯号码进行脱敏处理，对所述身份关联性数据中除通讯号码外的其它身份关联性数据不进行脱敏处理；

如果确定所述目标用户指令高等级隐私保护，则对所述目标用户在所述目标平台上传的身份数据及身份关联性数据中的通讯号码、地址信息和地标建筑进行脱敏处理，对所述身份关联性数据中的定位数据进行随机处理。

根据第二方面，提供了一种隐私数据的保护装置，包括：

获取单元，配置为获取目标用户在目标平台上传过的历史数据；

提取单元，配置为从所述历史数据中提取身份数据和身份关联性数据，所述身份数据为唯一对应用户身份的数据，所述身份关联性数据为可推测用户身份的数据；

分析单元，配置为对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定所述目标用户在所述目标平台的隐私泄露风险等级；

数据脱敏处理单元，配置为根据所述隐私泄露风险等级，对所述目标用户在所述目标平台上传的数据进行数据脱敏处理。

在一个实施例中，其中，所述身份数据包括人脸图像和证件号中的至少一种，所述提取单元配置为：

所述提取单元配置为：

和/或，利用地标检测模型识别所述历史数据中是否有地标建筑；如果所述历史数据中有地标建筑，则提取地标建筑并将地标建筑作为身份关联性数据。

在一个实施例中，其中，所述分析单元配置为：

如果所提取的身份数据中包括证件及其证件号，则根据提取到的证件及其证件号的类型和/或数量确定所述证件及其证件号对应的风险等级；

根据所述人脸图像对应的风险等级和所述证件及其证件号对应的风险等级确定身份数据对应的风险等级。

在一个实施例中，所述分析单元配置为：

所述分析单元配置为：

对所述人脸特征向量和所述身份关联性数据的特征向量进行球面数据增广，并将增广后的数据划分为训练集和测试集；

在一个实施例中，其中，所述分析单元配置为：

在一个实施例中，其中，所述数据脱敏处理单元配置为：

如果确定所述目标用户指令不进行隐私保护，则对所述目标用户在所述目标平台上传的数据不进行任何脱敏处理；

根据第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行上述第一方面所述的方法。

根据说明书实施例提供的方法和装置，通过提取目标用户在目标平台上传过的历史数据中的身份数据和身份关联性数据，并分析身份数据和身份关联性数据得到目标用户在目标平台的隐私泄露风险等级后，可以基于目标用户的隐私泄露风险等级对目标用户在目标平台上传的数据进行数据脱敏处理，从而可以满足不同用户的隐私保护需求。由于隐私泄露风险等级是在对目标用户的身份数据和身份关联性数据进行全面分析的基础上得到的，因而根据隐私泄露风险等级对目标用户在目标平台上传的数据进行数据脱敏处理，能够全方位保护目标用户的隐私数据，从而可以防止攻击者从身份关联性数据进行身份数据的推理攻击。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书一个实施例提供的隐私数据的保护方法的流程图；

图2是本说明书一个实施例提供的确定隐私泄露风险等级方法的流程图；

图3是本说明书一个实施例提供的确定身份数据对应的风险等级方法的流程图；

图4是本说明书一个实施例提供的确定身份关联性数据对应的风险等级方法的流程图；

图5是本说明书一个实施例提供的确定隐私泄露风险等级方法的流程图；

图6是本说明书另一个实施例提供的隐私数据的保护装置的示意图。

具体实施方式

近年来，随着互联网的发展，获取用户的数据变得越来越简单。例如，在各种社交平台上，可以获取用户发布的人脸图像、定位数据、昵称等等。虽然，单纯从人脸图像、定位数据等数据无法直接得到用户的身份数据(姓名，身份证等)，但是，如果获取了一定量的此类数据，则攻击者可以大概率推测出用户的身份数据。例如，攻击者一旦掌握了一些身份数据-非身份数据(比如掌握了一个人的身份证，就知道此人的住址，此时身份证-住址就形成了一个数据对)的关联数据库。结合从互联网上爬取的非身份数据，就可以反向定位、查询出用户的身份数据。例如，攻击者已知张三居住在A小区，在B公司做职员且常去C餐厅消费。那么，如果攻击者发现在网络上有一个匿名账号发布过类似的轨迹信息，就可以推测出此用户是张三，从而可以通过此匿名账号发布的内容获取张三的更多隐私数据，例如人脸图像等，引起严重的隐私数据泄漏。

综上，目前的隐私保护方法通常仅对强隐私数据进行保护，例如仅对人脸识别***中的人脸区域进行保护。但是，却都忽略了对弱隐私数据(即本说明书实施例所述的身份关联性数据)的保护，使攻击者可以通过一系列身份关联性数据推测出用户的强隐私信息(即本说明书实施例所述的身份数据)，从而造成更加严重的隐私数据泄漏(身份数据和身份关联性数据都泄漏了)。为了解决这个问题，本方案提出了一种更加可靠的隐私数据保护方案。

下面介绍本说明书实施例构思的实现方式。

图1为根据一个实施例的隐私数据的保护方法流程图，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。该方法可以应用于各种社交平台上，如各种购物平台、即时通信平台、视频平台、短视频平台或广播式社交网络平台等等。如图1所示，该方法包括：

步骤101，获取目标用户在目标平台上传过的历史数据；

步骤103，从历史数据中提取身份数据和身份关联性数据，身份数据为唯一对应用户身份的数据，身份关联性数据为可推测用户身份的数据；

步骤105，对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定目标用户在目标平台的隐私泄露风险等级；

步骤107，根据隐私泄露风险等级，对目标用户在目标平台上传的数据进行数据脱敏处理。

本说明书实施例提供的方法，通过提取目标用户在目标平台上传过的历史数据中的身份数据和身份关联性数据，并分析身份数据和身份关联性数据得到目标用户在目标平台的隐私泄露风险等级后，可以基于目标用户的隐私泄露风险等级对目标用户在目标平台上传的数据进行数据脱敏处理，从而可以满足不同用户的隐私保护需求。由于隐私泄露风险等级是在对目标用户的身份数据和身份关联性数据进行全面分析的基础上得到的，因而根据隐私泄露风险等级对目标用户在目标平台上传的数据进行数据脱敏处理，能够全方位保护目标用户的隐私数据，从而可以防止攻击者从身份关联性数据进行身份数据的推理攻击。

下面描述图1所示的各个步骤的执行方式。

首先，步骤101中目标用户为使用某社交平台的可以通过本说明书实施例所述方法进行隐私数据保护的用户。目标平台为可以实施或应用本说明书实施例所述方法的平台，如微博、短视频平台等。

在一个实施例中，步骤101中获取目标用户在目标平台上传过的历史数据，是在获得目标用户的授权后进行的，即获得目标用户的授权后执行获取目标用户在目标平台上传过的历史数据的步骤。如果未获得目标用户的授权，则停止执行本说明书实施例的后续步骤，确保获取目标用户在目标平台上传过的历史数据是在目标用户允准的基础上进行的，避免私自获取并使用目标用户的历史数据而使目标用户出现反感情绪。步骤101中获取到的目标用户在目标平台上传过的历史数据包括文字、图形图像、定位、视频等。

其次，步骤103所述的身份数据为唯一对应用户身份的数据，即一个用户能够区别于其他用户的唯一标识数据，如身份证或驾驶证等证件或声纹或指纹等生物特征。步骤103所述的身份关联性数据为可推测用户身份的数据，例如，在匿名社交平台，通过用户分享的数据直接得到用户的住址(定位或者室内图像)、单位(定位或者室内图像)以及常消费的地点(定位)即可大概率推测出用户身份，进而导致用户隐私数据泄漏(将用户身份和住址等已经知道的信息进行关联)的数据。

在一个实施例中，身份数据包括人脸图像和证件号中的至少一种。在此基础上，步骤103在从历史数据中提取身份数据时，包括提取人脸图像和/或证件号。

具体在提取人脸图像时可以：利用人脸检测模型识别历史数据中是否有人脸图像；如果历史数据中有人脸图像，则提取人脸图像并将人脸图像作为身份数据。此处提取到的人脸图像为历史数据中全部图像中包括的全部人脸图像，这些人脸图像可以为同一用户的，也可以为不同用户的。例如，从历史数据中提取到的人脸图像包括八张A用户的人脸图像、两张B用户的人脸图像和一张C用户的人脸图像等。

具体在提取证件号时可以：利用OCR模型识别历史数据中是否有证件号；如果历史数据中有证件号，则提取证件号并将证件号作为身份数据。证件号可以包括身份证号、驾驶证号、结婚证号等，证件及其证件号可以包括身份证号、驾驶证号、结婚证号等。此处提取到的证件号为历史数据中包括的全部证件号，包括同一用户不同证件的号码和不同用户的同类型的、不同类型的证件号。例如，从历史数据中提取到的证件号包括张三的身份证号和驾驶证号、李四的结婚证号、王五的驾驶证号等。

在一个实施例中，身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的至少一种。在此基础上，步骤103在从历史数据中提取身份关联性数据时，包括提取定位数据、地址信息、通讯号码和地标建筑中的一种或多种。

具体在提取定位数据时可以：识别历史数据中是否有定位数据；如果历史数据中有定位数据，则提取定位数据并将定位数据作为身份关联性数据。例如，如果用户在微博上传的某个动态中包括A市X公园的定位，则将A市X公园作为身份关联性数据中的一个数据。

具体在提取地址信息时可以：利用OCR模型识别历史数据中是否有地址信息；如果历史数据中有地址信息，则提取地址信息并将地址信息作为身份关联性数据。此处提取到的地址信息包括文字地址信息和图片中的地址信息等，例如，提取到的地址信息为购物平台上保存的收货地址及上传的快递单号图片中的收货地址或寄件地址等。

具体在提取通讯号码时可以：利用OCR模型识别历史数据中是否有通讯号码；如果历史数据中有通讯号码，则提取通讯号码并将通讯号码作为身份关联性数据。此处提取到的通讯号码包括手机号、即时通信应用账号、邮箱账号等。

具体在提取地标建筑时可以：利用地标检测模型识别历史数据中是否有地标建筑；如果历史数据中有地标建筑，则提取地标建筑并将地标建筑作为身份关联性数据。此处提取到的地标建筑包括各个图片中包括的标志性建筑，例如，某一个图片中包括的大雁塔、另一个图片中包括的东方明珠等。

接下来，介绍步骤105的具体实现方式。步骤105在具体实施时，包括但不限于有如下两种方式：

第一种方式为分别对身份数据和身份关联性数据进行分析，并分析身份数据和身份关联性数据各自对应的风险等级，最后综合确定目标用户在目标平台的隐私泄露风险等级。具体地，如图2所示，该种方式包括：

步骤1051，对所提取的身份数据进行分析，并根据分析结果确定身份数据对应的风险等级；步骤1053，对所提取的身份关联性数据进行分析，并根据分析结果确定身份关联性数据对应的风险等级；步骤1055，根据身份数据对应的风险等级和身份关联性数据对应的风险等级，确定目标用户在目标平台的隐私泄露风险等级。

在一个实施例中，结合上述身份数据包括人脸图像和证件号的内容，如图3所示，步骤1051在对所提取的身份数据进行分析，并根据分析结果确定身份数据对应的风险等级时，包括：步骤10511，如果所提取的身份数据中包括人脸图像，则对所提取的人脸图像进行聚类，并根据聚类结果确定属于目标用户的人脸图像的概率；根据概率确定人脸图像对应的风险等级。步骤10513，如果所提取的身份数据中包括证件号，则根据提取到的证件号的类型和/或数量，确定证件号对应的风险等级。步骤10515，根据人脸图像对应的风险等级和证件号对应的风险等级确定身份数据对应的风险等级。

首先，步骤10511中对所提取的人脸图像进行聚类时，可以利用人脸识别模型提取人脸图像的特征后进行KMeans聚类。通常用户在社交平台上传的人脸图像中有很大一部分都是用户自身的人脸图像，因此，在根据聚类结果确定属于目标用户的人脸图像的概率时，计算数量最多的人脸图像占全部人脸图像的占比即可。例如，所提取的人脸图像包括八张A用户的人脸图像、两张B用户的人脸图像和一张C用户的人脸图像，则可以确定A用户为目标用户，且属于目标用户的人脸图像的概率为8/11。进一步地，为确保划分不同的风险等级，本说明书实施例对不同的概率会预先定义一个对应的风险等级，例如，数目最多的人脸图像概率占50％以上，风险等级+2；数目最多的人脸占30％以上但是小于50％，风险等级+1；数目最多的人脸占30％以下，则风险等级+0。在此基础上，当确定属于目标用户的人脸图像的概率后，即可根据该概率及预先定义的概率与风险等级之间的对应关系确定人脸图像对应的风险等级。

其次，如果所提取的身份数据中包括证件号，而由于证件号泄露的话将会导致比较严重的后果，因此，本说明书实施例可以对所提取的身份数据中是否包括证件号定义了不同的风险等级，还可以对不同类型的证件号定义不同级别的风险等级，如：所提取的身份数据中包括证件号，定义风险等级+2；所提取的身份数据中不包括证件号，定义风险等级+0；所提取的身份数据中包括身份证号，定义风险等级+2；所提取的身份数据中包括驾驶证号，定义风险等级+1等。在此基础上，步骤10513中如果所提取的身份数据中包括证件号，则根据预先定义的证件号与风险等级之间的对应关系确定证件号对应的风险等级。

最后，步骤10515将人脸图像对应的风险等级和证件号对应的风险等级叠加后即可确定定身份数据对应的风险等级。例如，如果步骤10511中确定人脸图像对应的风险等级为+3，步骤10513中确定证件号对应的风险等级为+1，则可确定定身份数据对应的风险等级为+4。

在另一个实施例中，结合上述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的内容，如图4所示，步骤1053在对所提取的身份关联性数据进行分析，并根据分析结果确定身份关联性数据对应的风险等级时，包括：步骤10531，如果所提取的身份关联性数据中包括定位数据、地址信息和地标建筑，则根据所提取的定位数据、地址信息和地标建筑，计算目标用户每天的运动路径；根据每天的运动路径中同一条路径的占比确定地址数据对应的风险等级。步骤10533，如果所提取的身份关联性数据中包括通讯号码，则根据所提取的通讯号码的类型和/或数量确定通讯号码对应的风险等级。步骤10535，根据地址数据对应的风险等级和通讯号码对应的风险等级确定身份关联性数据对应的风险等级。

首先，步骤10531，根据所提取的定位数据、地址信息和地标建筑可以对用户进行常用运动路径的分析，本说明书实施例定义每天经过的路径算一条运动路径，则根据同一天的定位数据、地址信息和地标建筑即可计算当天的运动路径。如果在所有运动路径中，相同的运动路径占比超过一定比例，则证明用户经常往返这条运动路径，根据这个信息即可推断出用户的家等信息，因此，本说明书实施例对同一条运动路径的不同占比定义了不同的风险等级，如同一条运动路径的占比大于50％，风险等级+2；如果同一条运动路径的占比在30％以上但是小于50％，则风险等级+1。在此基础上，当确定了同一条运动路径的占比后，即可根据预先定义的运动路径占比与风险等级之间的对应关系确定地址数据对应的风险等级。

其次，如果所提取的身份数据中包括通讯号码，而由于通讯号码泄露的话将会导致比较严重的后果，因此，本说明书实施例可以对所提取的身份数据中是否包括完整的通讯号码定义不同的风险等级。其中，判断通讯号码是否完整是根据通讯号码的特征确定的。例如，手机号通常包括11位数字，如果提取到的某个号码由10位数字组成，则可以确定其不是完整的通讯号码。例如：所提取的身份数据中包括完整的通讯号码定义风险等级+2；所提取的身份数据中不包括完整的通讯号码定义风险等级+0。另外，本说明书实施例还可以进一步对不同类型的通讯号码定义不同级别的风险等级，例如：所提取的身份数据中包括完整的手机号，定义风险等级+2；所提取的身份数据中包括完整的即时通信应用号码，定义风险等级+1等。在此基础上，步骤10533在确定通讯号码对应的风险等级时，基于所提取的身份数据中是否包括完整的通讯号码及预先定义的通讯号码与风险等级之间的对应关系来实现的。

第二种方式为对身份数据和身份关联性数据进行综合分析得出目标用户在目标平台的隐私泄露风险等级，该种方式在实现时要求身份数据包括人脸图像。具体地，如图5所示，该种方式包括：

步骤1051′，对所提取的身份数据中的人脸图像进行聚类，根据聚类结果确定所提取的人脸图像中属于目标用户的人脸图像，并提取属于目标用户的人脸图像的人脸特征，得到人脸特征向量。步骤1053′，提取定位数据、地址信息、通讯号码和地标建筑的特征，并基于所提取的特征构建身份关联性数据特征向量。步骤1055′，对人脸特征向量和身份关联性数据特征向量分别进行球面数据增广，并将增广后的数据划分为训练集和测试集。步骤1057′，使用训练集训练风险识别双层感知机，并使用测试集计算训练好的风险识别双层感知机的损失函数的值。步骤1059′，根据损失函数的值确定目标用户在目标平台的隐私泄露风险等级。

首先，步骤1051′中对所提取的身份数据中的人脸图像进行聚类的方法与步骤1051中对所提取的人脸图像进行聚类的方法类似，此处不再赘述。在根据聚类结果确定所提取的人脸图像中属于目标用户的人脸图像时，由于目标用户通常会上传比较多自己的人脸图像中，因此，本说明书实施例将目标用户上传的人脸图像中，数量最多的人脸图像作为目标用户的人脸图像。进一步地，在提取属于目标用户的人脸图像的人脸特征得到人脸特征向量时，可以先提取每张属于目标用户的人脸图像的人脸特征，然后求所有属于目标用户的人脸图像的人脸特征的平均值，将该平均值作为人脸特征向量，并将人脸特征向量记为F。

其次，步骤1053′在提取身份关联性数据特征向量时，可以分别提取定位数据、地址信息、通讯号码和地标建筑的特征向量，并将它们组合得到身份关联性数据的特征向量。其中，对于定位数据、地址信息或通讯号码等文字类身份关联性数据，可以使用word2vector模型，将定位数据和地址信息中的文字转换成向量特征f_text；对于地标建筑等图像类身份关联性数据，可以使用地标分类器(或者imagenet预训练模型)提取得到相应的特征f_image。此时，得到身份关联性数据特征向量F’＝[f_text,f_image]。

接下来，步骤1055′在对人脸特征向量和身份关联性数据特征向量进行球面数据增广，并将增广后的数据划分为训练集和测试集时，具体方法为：定义增广人脸特征向量的第一球面半径，并在第一球面半径内对人脸特征向量进行随机采样，得到增广后的人脸特征向量，选取增广后的人脸特征向量中的一部分数据作为人脸特征向量的训练集，将增广后的人脸特征向量中的另一部分数据作为人脸特征向量的测试集；定义增广身份关联性数据特征向量的第二球面半径，并在第二球面半径内对身份关联性数据特征向量进行随机采样，得到增广后的身份关联性数据特征向量，选取增广后的身份关联性数据特征向量中的一部分数据作为身份关联性数据特征向量的训练集，将增广后的身份关联性数据特征向量中的另一部分数据作为身份关联性数据特征向量的测试集。

其中，第一球面半径和第二球面半径均为一个接近0的数。得到增广后的人脸特征向量后，选取其中一定比值的数据作为人脸特征向量的训练集，数据作为人脸特征向量的训练集。如选取50％的数据作为人脸特征向量的训练集，另外50％的数据作为人脸特征向量的测试集。对增广后的身份关联性数据特征向量中训练集和测试集的划分方法同理。需要说明的是，划分训练集和测试集时，所选取的数据比例可以根据需要设定，在具体实施时，为保证训练得到的风险识别双层感知机比较准确，可以划分得训练集的数据占比大于测试集的数据占比。

接着，步骤1057′在使用训练集训练风险识别双层感知机，并使用测试集计算训练好的风险识别双层感知机的损失函数的值时，可以：使用训练集中增广后的身份关联性数据特征向量作为风险识别双层感知机的输入，使用训练集中增广后的人脸特征向量作为风险识别双层感知机的输出，对风险识别双层感知机进行预设次数的数据拟合后，得到训练好的风险识别双层感知机；使用测试集中增广后的身份关联性数据特征向量作为风险识别双层感知机的输入，计算训练好的风险识别双层感知机的余弦相似度的值，将余弦相似度的值作为损失函数的值。其中，预设次数可以根据需要设定，在保证计算量和训练结果准确性的基础上选择一个平衡数。当然，损失函数也可以根据需要选择欧式距离。选择余弦相似度作为损失函数的好处是其数值为归一化的，以便于后续直观地根据余弦相似度的值确定隐私泄露风险等级。

最后，步骤1059′在根据损失函数的值确定目标用户在目标平台的隐私泄露风险等级时，步骤1057′计算得到的损失函数的值(余弦相似度)越高，说明利用身份关联性数据越能够拟合出身份数据，这样暴露隐私的风险就越高。进一步地，本说明书实施例会预先定义不同损失函数的值对应不同的风险等级，如：余弦相似度>＝0.5，风险等级+2；余弦相似度>＝0.2且余弦相似度<0.5，风险等级+1，因此，在得到余弦相似度的值后，根据该预先定义的损失函数的值与风险等级之间的对应关系，即可直观地确定目标用户在目标平台的隐私泄露风险等级。

在一个实施例中，步骤105在确定目标用户在目标平台的隐私泄露风险等级后，还可以：根据隐私泄露风险等级向目标用户推荐隐私保护方案。具体地，可以根据隐私泄露风险等级向目标用户推荐不进行隐私保护、中等级隐私保护或高等级隐私保护。例如，如果本说明书实施例定义隐私泄露风险等级为从0-8，共有9级，且0-2级为低风险，可以不做隐私保护；3-5级为中风险，可以进行中等级隐私保护；6-8级为高风险，可以进行高等级隐私保护。此时，当目标用户的隐私泄露风险等级为7级时，可以向目标用户推荐高等级隐私保护。推荐的目的为为用户提供比较合适的隐私保护方案，然而，基于用户选择自由的原则，目标用户也可以不接受所推荐的隐私保护方案而根据实际需求选择其它隐私保护方案。

在一个实施例中，步骤107在根据隐私泄露风险等级，对目标用户在目标平台上传的数据进行数据脱敏处理时，对于目标用户指令的不同隐私保护方案，有不同的处理方式，具体如下：

如果目标用户指令不进行隐私保护，则对目标用户在目标平台上传的数据不进行脱敏处理，即对目标用户在目标平台上传的身份数据和身份关联性数据均不进行任何脱敏处理。

如果目标用户指令中等级隐私保护，则对目标用户在目标平台上传的身份数据和身份关联性数据中的通讯号码进行脱敏处理，对身份关联性数据中除通讯号码外的其它身份关联性数据不进行脱敏处理。例如，对身份数据和身份关联性数据中的手机号进行脱敏处理，对定位数据等则不进行脱敏处理。其中，对身份数据和身份关联性数据中的通讯号码进行脱敏处理时，可以进行高斯模糊或随机化等操作。

如果目标用户指令高等级隐私保护，则对目标用户在目标平台上传的身份数据及身份关联性数据中的通讯号码、地址信息和地标建筑进行脱敏处理，对身份关联性数据中的定位数据进行随机处理。例如，除了中等级隐私保护的一些处理外，该种选择可以进一步对定位数据进行随机，对地址信息和地标建筑也进行脱敏处理。其中，在对定位数据进行随机时，可以从以该定位数据为中心的一定距离内随机选择定位数据，如从1500m范围内随机选取定位数据。

在另一个实施例中，由于目标用户在目标平台上传的数据是不断更新的，因此，为了确保能够向目标用户推荐比较准确的隐私保护方案，本说明书实施例的方法还包括：定期评估目标用户在目标平台上的隐私泄露风险等级是否提升，且如果目标用户在目标平台上的隐私泄露风险等级提升，则提示目标用户进行隐私保护方案升级。例如，每隔一个月/一年等通过步骤101至步骤105所描述的方式重新确定目标用户在目标平台的隐私泄露风险等级。当确定目标用户在目标平台上的隐私泄露风险等级提升时，如目标用户的隐私泄露风险等级从5级上升至6级时，及时提示目标用户进行隐私保护方案升级。并且，当目标用户选择升级隐私保护方案后，基于目标用户选择的隐私保护方案采用步骤107所述的方式对其身份数据和身份关联性数据进行数据脱敏处理。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种隐私数据的保护装置。图6示出根据一个实施例的该隐私数据的保护装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图6所示，该装置600包括：

获取单元601，配置为获取目标用户在目标平台上传过的历史数据；

提取单元603，配置为从历史数据中提取身份数据和身份关联性数据，身份数据为唯一对应用户身份的数据，身份关联性数据为可推测用户身份的数据；

分析单元605，配置为对所提取的身份数据和身份关联性数据进行分析，并根据分析结果确定目标用户在目标平台的隐私泄露风险等级；

数据脱敏处理单元607，配置为根据所述隐私泄露风险等级，对目标用户在目标平台上传的数据进行数据脱敏处理。

在一个实施例中，其中，身份数据包括人脸图像和证件号中的至少一种；

提取单元603配置为：

利用人脸检测模型识别历史数据中是否有人脸图像；如果历史数据中有人脸图像，则提取人脸图像并将人脸图像作为身份数据；和/或，利用OCR模型识别历史数据中是否有证件号；如果历史数据中有证件号，则提取证件号并将证件号作为身份数据。

在一个实施例中，其中，身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的至少一种；

提取单元603配置为：

识别历史数据中是否有定位数据；如果历史数据中有定位数据，则提取定位数据并将定位数据作为身份关联性数据；

和/或，利用OCR模型识别历史数据中是否有地址信息；如果历史数据中有地址信息，则提取地址信息并将地址信息作为身份关联性数据；

和/或，利用OCR模型识别历史数据中是否有通讯号码；如果历史数据中有通讯号码，则提取通讯号码并将通讯号码作为身份关联性数据；

和/或，利用地标检测模型识别历史数据中是否有地标建筑；如果历史数据中有地标建筑，则提取地标建筑并将地标建筑作为身份关联性数据。

在一个实施例中，其中，分析单元605配置为：

根据身份数据对应的风险等级和身份关联性数据对应的风险等级，确定目标用户在目标平台的隐私泄露风险等级。

在一个实施例中，其中，身份数据包括人脸图像和证件号，分析单元605配置为：

如果所提取的身份数据中包括人脸图像，则对所提取的人脸图像进行聚类，并根据聚类结果确定属于目标用户的人脸图像的概率；根据概率确定人脸图像对应的风险等级；

如果所提取的身份数据中包括证件号，则确定证件号对应的风险等级；

根据人脸图像对应的风险等级和证件号对应的风险等级确定身份数据对应的风险等级。

在一个实施例中，分析单元605配置为：

如果所提取的身份关联性数据中包括定位数据、地址信息和地标建筑，则根据所提取的定位数据、地址信息和地标建筑，计算目标用户每天的运动路径；根据每天的运动路径中同一条路径的占比确定地址数据对应的风险等级；

如果所提取的身份关联性数据中包括通讯号码，则根据所提取的通讯号码的数量和/或类型确定通讯号码对应的风险等级；

根据地址数据对应的风险等级和通讯号码对应的风险等级确定身份关联性数据对应的风险等级。

在一个实施例中，其中，身份数据包括人脸图像，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑；

分析单元605配置为：

对所提取的身份数据中的人脸图像进行聚类，根据聚类结果确定所提取的人脸图像中属于目标用户的人脸图像，并提取属于目标用户的人脸图像的人脸特征，得到人脸特征向量；

对人脸特征向量和身份关联性数据特征向量分别进行球面数据增广，并将增广后的数据划分为训练集和测试集；

使用训练集训练风险识别双层感知机，并使用测试集计算训练好的风险识别双层感知机的损失函数的值；

根据损失函数的值确定目标用户在目标平台的隐私泄露风险等级。

在一个实施例中，其中，分析单元605配置为：

在一个实施例中，其中，数据脱敏处理单元607配置为：

如果确定目标用户指令不进行隐私保护，则对目标用户在目标平台上传的数据不进行任何脱敏处理；

如果确定目标用户指令中等级隐私保护，则对目标用户在目标平台上传的身份数据和身份关联性数据中的通讯号码进行脱敏处理，对身份关联性数据中除通讯号码外的其它身份关联性数据不进行脱敏处理；

如果确定目标用户指令高等级隐私保护，则对目标用户在目标平台上传的身份数据及身份关联性数据中的通讯号码、地址信息和地标建筑进行脱敏处理，对身份关联性数据中的定位数据进行随机处理。

在一个实施例中，其中，装置还包括：

评估单元，配置为定期评估目标用户在目标平台上的隐私泄露风险等级是否提升；

提示单元，配置为如果目标用户在目标平台上的隐私泄露风险等级提升，则提示目标用户进行隐私保护方案升级。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图1至图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图1至图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.隐私数据的保护方法，包括：

获取目标用户在目标平台上传过的历史数据；

2.根据权利要求1所述的方法，其中，所述身份数据包括人脸图像和证件号中的至少一种；

从所述历史数据中提取身份数据，包括：

3.根据权利要求1所述的方法，其中，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的至少一种；

从所述历史数据中提取身份关联性数据，包括：

4.根据权利要求1所述的方法，其中，确定所述目标用户在所述目标平台的隐私泄露风险等级，包括：

5.根据权利要求4所述的方法，其中，

所述对所提取的身份数据进行分析，并根据分析结果确定身份数据对应的风险等级，包括：

6.根据权利要求4所述的方法，其中，

所述对所提取的身份关联性数据进行分析，并根据分析结果确定身份关联性数据对应的风险等级，包括：

如果所提取的身份关联性数据中包括通讯号码，则根据所提取的通讯号码的类型和/或数量确定所述通讯号码对应的风险等级；

7.根据权利要求1所述的方法，其中，所述身份数据包括人脸图像，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑；

使用所述训练集训练风险识别双层感知机，并使用所述测试集计算训练好的风险识别双层感知机的损失函数的值。

8.根据权利要求7所述的方法，其中，所述对所述人脸特征向量和所述身份关联性数据特征向量分别进行球面数据增广，并将增广后的数据划分为训练集和测试集，包括：

定义增广所述身份关联性数据特征向量的第二球面半径，并在第二球面半径内对身份关联性数据特征向量进行随机采样，得到增广后的身份关联性数据特征向量，选取增广后的身份关联性数据特征向量中的一部分数据作为身份关联性数据特征向量的训练集，将增广后的身份关联性数据特征向量中的另一部分数据作为身份关联性数据特征向量的测试集。

9.根据权利要求7所述的方法，其中，所述使用所述训练集训练风险识别双层感知机，并使用所述测试集计算训练好的风险识别双层感知机的损失函数的值，包括：

10.根据权利要求1所述的方法，其中，所述对所述目标用户在所述目标平台上传的数据进行数据脱敏处理，包括：

11.隐私数据的保护装置，包括：

12.根据权利要求11所述的装置，其中，所述身份数据包括人脸图像和证件号中的至少一种，所述提取单元配置为：

13.根据权利要求11所述的装置，其中，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑的至少一种；

所述提取单元配置为：

14.根据权利要求11所述的装置，其中，所述分析单元配置为：

15.根据权利要求14所述的装置，其中，

所述分析单元配置为：

16.根据权利要求14所述的装置，其中，

所述分析单元配置为：

17.根据权利要求11所述的装置，其中，所述身份数据包括人脸图像，所述身份关联性数据包括定位数据、地址信息、通讯号码和地标建筑；

所述分析单元配置为：

18.根据权利要求17所述的装置，其中，所述分析单元配置为：

19.根据权利要求17所述的装置，其中，所述分析单元配置为：

20.根据权利要求11所述的装置，其中，所述数据脱敏处理单元配置为：

21.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。