CN113066094B

CN113066094B - 一种基于生成对抗网络的地理栅格智能化局部脱敏方法

Info

Publication number: CN113066094B
Application number: CN202110264025.2A
Authority: CN
Inventors: 宋军; 杨帆; 张坤; 刘宇
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2024-01-30
Anticipated expiration: 2041-03-09
Also published as: CN113066094A

Abstract

本发明提出了一种基于生成对抗网络的地理栅格智能化局部脱敏方法，包括：获取地理栅格数据集，并对数据集进行识别和裁剪预处理，得到预处理后的数据集；构建脱敏边缘生成网络；设计脱敏边缘生成网络的脱敏损失函数，并进行训练，最终输出已经脱敏完成的地理栅格脱敏边缘图；构建图像补全网络；设计图像补全网络损失函数，根据输入数据进行训练，最终输出脱敏彩色地理栅格。本发明的有益效果是：可按需求产生不同的脱敏结果，以达到智能化、高共享、结果多样的脱敏目标；实际解决了地理栅格共享共建需求，重点解决传统地理栅格数据脱敏保护方案自动化程度较低、脱敏后数据缺乏可用性以及脱敏结果失真的问题。

Description

一种基于生成对抗网络的地理栅格智能化局部脱敏方法

技术领域

本发明涉及地质数据脱敏和深度学习领域，具体涉及一种基于生成对抗网络的地理栅格智能化局部脱敏方法。

背景技术

生成对抗网络(Generative Adversarial Nets,GANs)是一种无监督学习的训练方法，包括两部分：一个生成器网络D和一个辨别器网络G。生成器网络用于生成逼真的样本，鉴别器用于从中分辨出生成样本和原样本。GANs的学习过程是同时训练识别器D和生成器G。G的目标是学习数据x上的分布P_a。G从均匀分布或高斯分布的P_z(z)中对输入变量z采样，然后通过另一个网络将输入变量z映射到数据空间。另一方面D是分类器，目的是识别影像是来自训练数据还是来自G。GANs的极大极小目标损失函数可以表述如下：

通过迭代交替训练，判别模型完成辨别输入样本来自于真实数据还是生成模型的任务。同时，生成模型经过训练生成使判别模型无法分辨的数据。在训练期间，两种模型迭代训练竞争，最终生成与两部分模型学习到的数据分布最接近的数据。

脱敏领域使用的变换方法主要分全局变换方法和局部变换方法。全局变换方法中，置乱加密主要通过破坏数据的邻域相关性和空间有序性来实现数据脱敏；在局部变换方法中有分块变换和BP神经网络方法。地图局部变换处理是在保证其拓扑结构不变基础上进行不可逆的非线性变换，有分块变换、神经网络和图像补全。分块变换模型能够对不同的区域使用不同的变换参数进行变换，即每一个脱敏的特征点都作为脱敏的参数进行变换，保密性高于线性和非线性全局变换模型。但分块变形模型难以保持要素的拓扑关系，不符合变换光滑连续的原则。神经网络已在多个领域取得了显著的成效，一些学者提出利用BP神经网络进行影像的变换和配准，以达到影像光滑的变形效果，具有较高的转换精度，但在地理栅格脱敏方面，相关研究较少。

图像补全应用在地理信息方面已有一定的研究成果。传统的图像补全技术主要分为基于结构的图像补全技术和基于纹理的图像补全技术。基于结构的图像补全算法使用几何方法对影像中的空缺进行修复，较好的体现影像信息中的结构性原则；在基于纹理的图像补全方面，随着神经网络和计算机视觉的发展，产生了基于生成对抗网络的图像补全技术。Kamyar Nazeri等人提出一个包含边缘生成网络和图像补全网络的二阶对抗模型EdgeConnect，针对一般影像得到具有精细细节的补全结果。图像补全技术从传统的基于理论方法发展到基于生成对抗网络，补全效果显著增强。但现在图像补全技术大多都是针对一般影像的研究和应用，对于地理栅格的补全研究还很少，目前尚无文献将该方法应用在局部脱敏领域的案例。

反馈方法在人工智能中应用广泛，在神经网络、尤其是循环神经网络以及强化学习中都存在着反馈的应用。在神经网络方面，反馈应用的场景很多，如利用选择性正负反馈来产生WTA竞争，提出一个通过利用p范数与神经元的相互作用的模型。V J等设计了包含正负反馈的神经网络模型，用于预测在细胞控制***中遗传网络的稳定性和冗余性。J Fei等提出了包含两种不同的反馈回路的双回路递归神经网络(DLRNN)结构的控制***。强化学习是一种在与环境的交互中获得反馈的模型训练方法，强化学习的学习过程需要环境反馈的奖励信号，因此强化学习与反馈密不可分，但反馈方法在智能化脱敏方面却尚无文献应用。

现有的局部脱敏的方法几点不足：

(1)神经网络已在多个领域取得了显著的成效，但在地理栅格脱敏方面，相关研究较少。

(2)传统地理栅格数据脱敏保护方案中，涉密地理栅格可用性不足、脱敏效果灵活性不足和脱敏结果细节粗糙，失真度高。

(3)现有图像补全技术大多都是针对一般影像的研究和应用，对于地理栅格的补全研究还很少，目前尚无文献将该方法应用在局部脱敏领域的案例。

(4)反馈方法应用广泛与强化学习等人工智能算法上，但反馈方法在智能化脱敏方面却尚无文献应用。

发明内容

针对上述缺陷，本发明提供了一种基于生成对抗网络的地理栅格智能化局部脱敏方法，通过生成对抗网络实现智能化局部脱敏。设计了边缘生成网络和图像补全网络结合的结构，根据敏感区域生成高精度脱敏地理栅格；并设计了边缘生成网络的局部脱敏损失函数，脱敏时在敏感区域产生区别于原始地理栅格的高频细节特征；以及设计了基于负反馈的参数调节方法，可按需求产生不同的脱敏结果。在Massachusetts Roads Datasets遥感影像数据集上测试了方案，在生成效果指标和灰度共生矩阵评价指标中均证实了本发明的智能化局部脱敏效果。

本发明提供的一种基于生成对抗网络的地理栅格智能化局部脱敏方法，具体包括以下步骤：

S101：获取地理栅格数据集，并对数据集进行识别和裁剪预处理，得到预处理后的数据集；

S102：构建脱敏边缘生成网络；所述脱敏边缘生成网络包括边缘生成器G1和边缘判别器D1；根据预处理后的数据集中人工标注的源数据敏感区域位置，得到边缘判别器D1的输入数据；所述边缘判别器D1的输入数据包括：敏感区域的灰度掩膜mask M，非敏感区域的边缘地图和非敏感区域对应的灰度图/>

S103：设计脱敏边缘生成网络的脱敏损失函数，并进行训练，最终利用边缘生成器G1输出已经脱敏完成的地理栅格脱敏边缘图C_pred；

S104：构建图像补全网络；所述图像补全网络包括边缘图引导补全生成器G2和边缘图引导补全判别器D2；将脱敏完成的地理栅格脱敏边缘图C_pred、敏感区域的灰度掩膜mask M、预处理后的数据集输入至所述边缘图引导补全判别器D2；

S105：设计图像补全网络损失函数，根据输入数据进行训练，最终利用边缘图引导补全生成器G2输出脱敏彩色地理栅格I_pred。

进一步地，步骤S101中，对数据集进行识别和裁剪预处理，具体为：

步骤S101中，对数据集进行识别和裁剪预处理，具体为：

S201：对地理栅格数据集中的原始影像灰度化处理，随后再进行二值化处理，得到二值化影像；

S202：以3×3矩形结构元素对二值化影像进行形态学开运算，得到形态学处理后的影像；

S203：以4连通方式标出开运算后影像的所有连通区域，排序得到最大连通域并标识出区域的外接边框；

S204：通过接边框裁切原始影像得到有效影像部分，并以256×256分割得到预处理后的数据集。

进一步地，步骤S102中，根据预处理后的数据集中人工标注的源数据敏感区域位置，得到边缘判别器D1的输入数据，具体包括以下步骤:

S301：对地理栅格数据集中原始影像边缘图C_gt灰度化操作，得到对应的灰度图I_gray；

S302：利用人工标注的mask区域，用黑色对影像地理栅格的敏感位置进行填充遮罩，标记出地图的敏感区域，得到敏感区域的掩膜影像mask M；

S303：使用canny边缘检测算法，将边缘图和敏感区域的掩膜影像mask M进行哈达玛积运算，如式(1)所示，得到非敏感区域的边缘图

式(1)中，⊙为矩阵的哈达玛积运算，M是敏感区域的掩膜影像mask M；

S304：将灰度图I_gray与敏感区域的掩膜影像mask M进行哈达玛积运算后去除敏感区域，如式(2)所示，得到非敏感区域灰度图

S305：将以上得到的敏感区域的掩膜影像mask M，非敏感区域的边缘地图以及非敏感区域对应的灰度图/>三者输入到边缘判别器D1。

进一步地，步骤S103具体为：

步骤S103具体为：

S401：设计脱敏损失函数；所述脱敏损失函数包含对抗损失和脱敏损失，公式如式(3)：

式(3)中，λ_adv，1和λ_FM是正则化参数；为对抗损失，/>为脱敏损失，其中对抗损失λ_adv，1定义为式(4)：

E表示数学期望；脱敏损失定义为式(5)：

式(5)中，L表示判别器的最后卷积层，L～M表示mask M对应的卷积层区域，即表示敏感区域的卷积层部分；表示非敏感区域的卷积层，N_i表示i层的特征向量个数，/>表示当前层的单个特征向量，α为预设的脱敏参数因子；脱敏损失/>是非敏感区域特征与敏感区域特征的欧几里得距离乘以脱敏因子的差；

S402：引入负反馈机制，向脱敏损失函数并利用预设的脱敏参数因子更新出新的脱敏参数因子，迫使网络向设定的脱敏目标继续训练，最终收敛于设定的脱敏参数因子；脱敏参数因子更新公式如式(6)：

其中δ表示脱敏系数设置为1时敏感区域的SSIM评分，为网络训练稳定后的SSIM评分，γ为负反馈的权重值；

S403：根据敏感区域的掩膜影像mask M，非敏感区域的边缘地图以及非敏感区域对应的灰度图/>通过脱敏边缘生成网络进行迭代训练，得到脱敏边缘图C_pred：

式(7)中，C_pred为最终得到的脱敏边缘图。

进一步地，步骤S104具体如下：

步骤S104具体如下：

S501：将敏感区域掩膜影像mask M和预处理后数据集的地理栅格I_gt进行哈达玛积运算，得到非敏感区域彩色地图栅格如式(8)：

S502：将敏感区域掩膜影像mask M、原始影像边缘图C_gt与脱敏边缘图C_pred进行组合，构造复合边缘图C_comp，如式(9)：

C_comp＝C_gt⊙(1-M)+C_pred⊙M (9)

S503：将S502得到的复合边缘图C_comp、敏感区域掩膜影像mask M和非敏感区域彩色地图栅格作为输入，输入到边缘图引导补全判别器D2。

步骤S105具体包括以下步骤：

S601：构建图像补全网络的损失函数，共包含四项，分别为损失、对抗损失感知损失/>和风格损失/>利用脱敏边缘生成网络和图像补全网络联合训练；

其中，对抗损失公式如式(10)：

式(10)中，D₂(I_pred，C_comp)表示图像补全网络的判别器，其中I_gt表示预处理后数据集的地理栅格，C_comp表示复合边缘图；

感知损失计算公式如式(11)：

式(11)中，L表示最后的卷积层；i表示第i层预训练网络；φ_i表示预训练网络第i层的激活图；

风格损失定义如式(12)：

式(12)中，表示由激活映射构造的Gram矩阵；

整体损失函数如式(13)：

式(13)中，λ_adv，2、λ_p、λ_s为权重参数；

S604：根据整体损失函数，对每个像素的色彩精度以及拼接区域的平滑度进行对抗训练，得到低失真局部脱敏彩色地理栅格I_pred；

S605：边缘图引导补全生成器G2输出脱敏彩色地理栅格I_pred。

本发明提供的有益效果是：可按需求产生不同的脱敏结果，以达到智能化、高共享、结果多样的脱敏目标；实际解决了地理栅格共享共建需求，重点解决传统地理栅格数据脱敏保护方案自动化程度较低、脱敏后数据缺乏可用性以及脱敏结果失真的问题。

附图说明

图1为本发明一种基于生成对抗网络的地理栅格智能化局部脱敏方法的流程图；

图2为本发明数据预处理流程图；

图3为本发明边缘生成网络脱敏边缘生成图；

图4为本发明图像补全网络生成补全彩色地理栅格图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1为本发明一种基于生成对抗网络的地理栅格智能化局部脱敏方法的流程图；一种基于生成对抗网络的地理栅格智能化局部脱敏方法，包括以下：

请参考图2，步骤S101中，对数据集进行识别和裁剪预处理，具体为：

优选的，对Massachusetts Roads Datasets遥感影像数据集采用加权平均法灰度化处理，归一化到后以0.99为阈值，转化为二值影像，共得到影像19195张。灰度化处理公式如下：

Gray(i，j)＝0.299*R(i，j)+0.587*G(i，j)+0.114*B(i，j)

将Massachusetts Roads Datasets遥感影像数据影像的R、G、B三分量以不同的权重进行加权。其中，平均加权系数0.299、0.587及0.114取值为通用标准化参数；

优选的，开运算的公式如下：

dst＝open(src，element)＝dilate(eroide(src，element))

其中src为二值影像，element为3×3矩形结构元素，eroide为腐蚀操作，dilate为膨胀操作；

优选的，S203采用的是skimage中的label函数，而标识外接框采用的是regionprops函数；

步骤S102中，根据预处理后的数据集中人工标注的源数据敏感区域位置，得到边缘判别器D1的输入数据，具体包括以下步骤:

优选的，对Massachusetts Roads Datasets遥感影像数据集边缘图C_gt灰度化操作，得到对应的灰度图I_gray；

请参考图3，图3为本发明边缘生成网络脱敏边缘生成图；步骤S103具体为：

E表示数学期望；脱敏损失定义为式(5)：

式(7)中，C_pred为最终得到的脱敏边缘图请参考图4，图4为本发明图像补全网络生成补全彩色地理栅格图；

步骤S104具体如下：

C_comp＝C_gt⊙(1-M)+C_pred⊙M (9)

步骤S105具体包括以下步骤：

其中，对抗损失公式如式(10)：

感知损失计算公式如式(11)：

风格损失定义如式(12)：

式(12)中，表示由激活映射构造的Gram矩阵；

整体损失函数如式(13)：

式(13)中，λ_adv，2、λ_p、λ_s为权重参数；

S605：边缘图引导补全生成器G2输出脱敏彩色地理栅格I_pred。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的地理栅格智能化局部脱敏方法，其特征在于：具体包括以下步骤：

S105：设计图像补全网络损失函数，根据边缘图引导补全判别器D2输入数据进行训练，最终利用边缘图引导补全生成器G2输出脱敏彩色地理栅格I_pred；

步骤S101中，对数据集进行识别和裁剪预处理，具体为：

S204：通过接边框裁切原始影像得到有效影像部分，并以256×256分割得到预处理后的数据集；

步骤S102中，根据预处理后的数据集中人工标注的源数据敏感区域位置，得到边缘判别器D1的输入数据，具体包括以下步骤：

S305：将以上得到的敏感区域的掩膜影像mask M，非敏感区域的边缘地图以及非敏感区域对应的灰度图/>三者输入到边缘判别器D1；

步骤S103具体为：

E表示数学期望；脱敏损失定义为式(5)：

式(7)中，C_pred为最终得到的脱敏边缘图。

2.如权利要求1所述的一种基于生成对抗网络的地理栅格智能化局部脱敏方法，其特征在于：步骤S104具体如下：

C_comp＝C_gt⊙(1-M)+C_pred⊙M (9)

3.如权利要求2所述的一种基于生成对抗网络的地理栅格智能化局部脱敏方法，其特征在于：步骤S105具体包括以下步骤：

S601：构建图像补全网络的损失函数，共包含四项，分别为损失、对抗损失/>感知损失/>和风格损失/>利用脱敏边缘生成网络和图像补全网络联合训练；

其中，对抗损失公式如式(10)：

感知损失计算公式如式(11)：

风格损失定义如式(12)：

式(12)中，表示由激活映射构造的Gram矩阵；

整体损失函数如式(13)：

式(13)中，λ_adv，2、λ_p、λ_s为权重参数；

S605：边缘图引导补全生成器G2输出脱敏彩色地理栅格I_pred。