CN114330287A

CN114330287A - 异构网络中敏感数据的伪处理方法、装置及相关产品

Info

Publication number: CN114330287A
Application number: CN202111593300.1A
Authority: CN
Inventors: 魏明; 阮安邦; 陈凯
Original assignee: Beijing Octa Innovations Information Technology Co Ltd
Current assignee: Beijing Octa Innovations Information Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-12

Abstract

本申请公开一种异构网络中敏感数据的伪处理方法、装置及相关产品，一种异构网络中敏感数据的伪处理方法包括：确定所述伪处理方法针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中，降低或者避免了安全隐患，尤其对于敏感数据来说。

Description

异构网络中敏感数据的伪处理方法、装置及相关产品

技术领域

本申请涉及异构技术领域，特别是涉及一种异构网络中敏感数据的伪处理方法、装置及相关产品。

背景技术

随着云计算领域技术的不断发展，各种云平台产品也不断丰富，不同的云服务厂商在私有云，公有云，社区云领域都推出自己的基础社区云平台产品。随着选择越来越多，越来越多的云计算用户也将自身业务部署到不同的云平台之上，呈现混合云，多云部署的发展趋势。但是，多云部署导致存在较高的安全隐患，尤其对于敏感数据来说。

发明内容

基于上述问题，本申请实施例提供了一种异构网络中敏感数据的伪处理方法、装置及相关产品。

本申请实施例公开了如下技术方案：

一种异构网络中敏感数据的伪处理方法，其包括：

确定所述伪处理方法针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；

根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；

根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中。

可选地，所述根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中包括：

根据所述敏感字或者敏感词的敏感程度值，确定所述对应敏感字或者敏感词的隐藏程度权重；

根据所述隐藏程度权重，将所述敏感字或者敏感词***到预先构建的同义抽象集合中。

可选地，所述根据所述隐藏程度权重，将所述敏感字或者敏感词***到预先构建的同义抽象集合中，包括：根据所述隐藏程度权重，对所述敏感字或者敏感词进行排序，形成敏感对象序列；将所述敏感对象序列，***到预先构建的同义抽象集合中。

可选地，所述将所述敏感对象序列，***到预先构建的同义抽象集合中，包括：确定每个所述敏感字或者敏感词在所述敏感对象序列的语义位置和顺序，并将所述语义位置和顺序，***到预先构建的同义抽象集合中。

可选地，所述将所述语义位置和顺序，***到***到预先构建的同义抽象集合中，包括：以所述语义位置和顺序对应的所述敏感字或者敏感词为键值对中的key，将所述语义位置和顺序作为value，将包括所述key和value的键值对***到预先构建的同义抽象集合中。

可选地，所述将所述语义位置和顺序，***到预先构建的同义抽象集合中，包括：使用随机数序列对所述语义位置和顺序进行哈希运算得到对应的哈希值，将所述哈希值***到预先构建的同义抽象集合中。

可选地，所述统计所述敏感数据的敏感程度描述数据，包括：提取所述敏感数据中的敏感成分，基于所述敏感数据，统计所述所述敏感数据的敏感程度描述数据。

可选地，所述统计所述敏感数据的敏感程度描述数据，之前包括：使用敏感数据样本训练敏感成分提取模型；

所述提取所述敏感数据中的敏感成分，包括：基于所述敏感成分提取模型提取所述敏感数据中的敏感成分。

可选地，所述将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中，包括：将所述敏感字或者敏感词进行排序，按照敏感字或者敏感词的逻辑排序，将敏感字或者敏感词***到预先构建的伪同义抽象集合中。

一种异构网络中敏感数据的伪处理装置，其包括：

第一处理单元，用于确定所述伪处理装置针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；

第二处理单元，用于根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；

第三处理单元，用于根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中。

可选地，所述第三处理单元具体用于：

可选地，所述第三处理单元具体用于：根据所述隐藏程度权重，对所述敏感字或者敏感词进行排序，形成敏感对象序列；将所述敏感对象序列，***到预先构建的同义抽象集合中。

可选地，所述第三处理单元具体用于：确定每个所述敏感字或者敏感词在所述敏感对象序列的语义位置和顺序，并将所述语义位置和顺序，***到预先构建的同义抽象集合中。

可选地，所述第三处理单元具体用于：以所述语义位置和顺序对应的所述敏感字或者敏感词为键值对中的key，将所述语义位置和顺序作为value，将包括所述key和value的键值对***到预先构建的同义抽象集合中。

可选地，所述第三处理单元具体用于：使用随机数序列对所述语义位置和顺序进行哈希运算得到对应的哈希值，将所述哈希值***到预先构建的同义抽象集合中。

可选地，所述第一处理单元具体用于：提取所述敏感数据中的敏感成分，基于所述敏感数据，统计所述所述敏感数据的敏感程度描述数据。

可选地，所述第一处理单元还用于在所述统计所述敏感数据的敏感程度描述数据之前，使用敏感数据样本训练敏感成分提取模型；

所述第一处理单元具体用于基于所述敏感成分提取模型提取所述敏感数据中的敏感成分。

可选地，所述第三处理单元具体用于：将所述敏感字或者敏感词进行排序，按照敏感字或者敏感词的逻辑排序，将敏感字或者敏感词***到预先构建的伪同义抽象集合中。

一种电子设备，其包括：存储器以及处理器，所述存储器上存储有计算机可执行程序，所述处理器用于执行所述计算机可执行程序以实施本申请实施例任一项所述的方法。

一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行程序，所述计算机可执行程序被运行时实施本申请实施例任一项所述的方法。

本申请实施例中，确定所述伪处理方法针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中，降低或者避免了安全隐患，尤其对于敏感数据来说。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一种异构网络中敏感数据的伪处理方法的流程示意图；

图2为本申请实施例一种异构网络中敏感数据的伪处理装置的结构示意图；

图3为本申请实施例电子设备结构示意图；

图4为本申请实施例电子设备的硬件结构示意图。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请下述实施例中，所述方法的执行主体的可以为服务器。

图1为本申请实施例一种异构网络中敏感数据的伪处理方法流程示意图；如图1所示，其包括：

S101、确定所述伪处理方法针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；

本实施例中，可以通过搭建的过滤器来确定所述敏感数据，具体地，所述过滤器为能识别出敏感数据的模型，或者是，基于正则表达式进行正则匹配的过滤器。

具体地，本实施例中，所述能识别出敏感数据的模型比如可以为神经网络模型，比如具体地为针对文本进行处理的神经网络模型，比如fasttext模型。

具体地，所述正则匹配中会基于构建的正则表达式，该正则表达式包括若干个正则关键词，以及这些正则关键词之间的逻辑关系特征，从而可快速地确定出所述敏感数据。

进一步地，本实施例中，所述统计所述敏感数据的敏感程度描述数据，包括：提取所述敏感数据中的敏感成分，基于所述敏感数据，统计所述所述敏感数据的敏感程度描述数据。

具体地，所述敏感成分根据应用场景的需求来定，比如可以是电话号码，身份证号码，姓名等。

此处需要说明的是，关于敏感成分的划分并不绝对，对于本领域普通技术人员来说，可以进行灵活的定义。

为此，在进行上述模型训练或者正则表达式构建时，基于这些可能能提取到的敏感成分进行构建或者训练。即使用包括这些可能敏感成分的敏感数据样本进行模型训练，或者进行正则表达式构建。

具体地，本实施例中，所述统计所述敏感数据的敏感程度描述数据，之前包括：使用敏感数据样本训练敏感成分提取模型；

本实施例中，所述敏感数据样本可以分类两组，一组用于训练，一组用于测试模型的准确性。

在训练所述敏感成分提取模型时，将所述敏感数据输入到所述敏感成分提取模型与设置的权重参数进行卷积处理，得到预测的敏感成分，然后与敏感数据样本的实际敏感成分进行比对，计算信息熵减，基于信息熵减，确定权重参数的搜索方向和调整目标，以对所述权重参数进行调整，直至信息熵减满足设定的熵减函数即可。

具体地，所述熵减函数以连续两次训练得到的预测的敏感成分为自变量，计算两者的熵，从而得到能量损失，能量损失越小，表明敏感成分提取模型越准确。

S102、根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；

本实施例中，所述敏感程度描述数据包括若干个维度，以从不同的维度对所述敏感数据的敏感程度进行描述，比如如果基于色彩管理的话，所述敏感程度描述数据可以包括敏感的饱和度数据，敏感的色彩数据、敏感的亮度数据等，对此，对敏感的饱和度数据，敏感的色彩数据、敏感的亮度数据分配不同的权重指数，进而所述敏感程度描述数据与权重指数矩阵进行乘积，得到敏感程度值。

具体地，本实施例中，对敏感数据进行字符切分，得到敏感字或者敏感词，将所述敏感程度描述数据分配到敏感字或者敏感词上，从而基于敏感字或者敏感词对应的所述敏感程度描述数据，以及权重指数矩阵，得到基于敏感字或者敏感词的敏感程度值，对这些敏感字或者敏感词的敏感程度值叠加处理，从而得到最终的敏感程度值，以参与到步骤S103的处理。

本实施例中，基于敏感字或者敏感词的敏感程度值，增加了敏感程度的确定粒度，使得确定出的敏感程度更加准确。

S103、根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中。

本实施例中，所述根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中包括：

本实施例中，同义抽象集合为与所述敏感字或者敏感词具有预定程度的同义词组合，该同义抽象集合可以整体形成一个矩阵，为此，所述***比如通过卷积运算实现，从而保证了敏感数据不会失去含义，同时实现了脱密处理。

具体地，本实施例中，所述根据所述隐藏程度权重，将所述敏感字或者敏感词***到预先构建的同义抽象集合中，包括：根据所述隐藏程度权重，对所述敏感字或者敏感词进行排序，形成敏感对象序列；将所述敏感对象序列，***到预先构建的同义抽象集合中，基于敏感对象序列可快速地的实现批量化***，提高了数据处理的速度，同时保证了不会出现乱序现象。

进一步地，所述将所述敏感对象序列，***到预先构建的同义抽象集合中，包括：确定每个所述敏感字或者敏感词在所述敏感对象序列的语义位置和顺序，并将所述语义位置和顺序，***到预先构建的同义抽象集合中，基于语义位置和顺序，使得所述敏感对象序列***到同义抽象集合保持原本的语义含义。

进一步地，所述将所述语义位置和顺序，***到***到预先构建的同义抽象集合中，包括：以所述语义位置和顺序对应的所述敏感字或者敏感词为键值对中的key，将所述语义位置和顺序作为value，将包括所述key和value的键值对***到预先构建的同义抽象集合中，基于键值对的方式，可以准确地将所述敏感字或者敏感词简单便捷地***到同义抽象集合。

进一步地，所述将所述语义位置和顺序，***到预先构建的同义抽象集合中，包括：使用随机数序列对所述语义位置和顺序进行哈希运算得到对应的哈希值，将所述哈希值***到预先构建的同义抽象集合中，所述哈希运算进一步增强了安全性，保证在***到同义抽象集合不会被篡改。

可选地，所述将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中，包括：将所述敏感字或者敏感词进行排序，按照敏感字或者敏感词的逻辑排序，将敏感字或者敏感词***到预先构建的伪同义抽象集合中。所述逻辑排序比如基于上述语义以及位置来生成。

图2为本申请实施例一种异构网络中敏感数据的伪处理装置的结构示意图；如图2所示，其包括：

第一处理单元201，用于确定所述伪处理装置针对的敏感数据，并统计所述敏感数据的敏感程度描述数据；

第二处理单元202，用于根据所述敏感程度描述数据，计算所述敏感数据中的敏感字或者敏感词的敏感程度值；

第三处理单元203，用于根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中。

可选地，所述第三处理单元具体用于：

本申请实施例还提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行程序，所述计算机可执行程序被运行时实施本申请实施例任一项所述的方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品上存储有计算机可执行程序，所述计算机可执行程序被运行时实施本申请实施例任一项所述的方法。

图3为本申请实施例电子设备结构示意图；如图3所示，其包括：存储器301以及处理器302，所述存储器上存储有计算机可执行程序，所述处理器用于执行所述计算机可执行程序以实施本申请任一实施例所述的方法。

图4为本申请实施例电子设备的硬件结构示意图；如图4所示，该电子设备的硬件结构可以包括：处理器401，通信接口402，计算机可读介质403和通信总线404；

其中，处理器401、通信接口402、计算机可读介质403通过通信总线404完成相互间的通信；

可选的，通信接口402可以为通信模块的接口，如GSM模块的接口；

其中，处理器401具体可以配置为运行存储器上存储的可执行程序，从而执行上述任一方法实施例的所有处理步骤或者其中部分处理步骤。

处理器401可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器710、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的校验码生成方法。此外，当通用计算机访问用于实现在此示出的校验码生成方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的校验码生成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种异构网络中敏感数据的伪处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述敏感字或者敏感词的敏感程度值，将所述敏感字或者敏感词进行排序，***到预先构建的同义抽象集合中包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述隐藏程度权重，将所述敏感字或者敏感词***到预先构建的同义抽象集合中，包括：根据所述隐藏程度权重，对所述敏感字或者敏感词进行排序，形成敏感对象序列；将所述敏感对象序列，***到预先构建的同义抽象集合中。

4.根据权利要求3所述的方法，其特征在于，所述将所述敏感对象序列，***到预先构建的同义抽象集合中，包括：确定每个所述敏感字或者敏感词在所述敏感对象序列的语义位置和顺序，并将所述语义位置和顺序，***到预先构建的同义抽象集合中。

5.一种异构网络中敏感数据的伪处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述第三处理单元具体用于：

7.根据权利要求6所述的装置，其特征在于，所述第三处理单元具体用于：根据所述隐藏程度权重，对所述敏感字或者敏感词进行排序，形成敏感对象序列；将所述敏感对象序列，***到预先构建的同义抽象集合中。

8.根据权利要求7所述的装置，其特征在于，所述第三处理单元具体用于：确定每个所述敏感字或者敏感词在所述敏感对象序列的语义位置和顺序，并将所述语义位置和顺序，***到预先构建的同义抽象集合中。

9.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器上存储有计算机可执行程序，所述处理器用于执行所述计算机可执行程序以实施权利要求1-4任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行程序，所述计算机可执行程序被运行时实施权利要求1-4任一项所述的方法。