CN117972792B

CN117972792B - 一种银行开发环境中海量用户信息脱敏方法

Info

Publication number: CN117972792B
Application number: CN202410362774.2A
Authority: CN
Inventors: 唐军; 孙金泉; 史婷婷; 彭向南
Original assignee: Jiangsu Kaibo Technology Co ltd
Current assignee: Jiangsu Kaibo Technology Co ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-07
Anticipated expiration: 2044-03-28
Also published as: CN117972792A

Abstract

本发明涉及数据处理技术领域，具体涉及一种银行开发环境中海量用户信息脱敏方法，包括：采集每个用户业务类型在每个用户中的若干用户业务数据；获取若干用户数据点集，根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度；根据用户数据点集的数据敏感度，对所有用户数据点集进行聚类得到若干级别聚类簇；对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据。本发明更准确地识别需要进行脱敏的数据，提高了脱敏结果的准确性，提高了银行用户信息的脱敏效率。

Description

一种银行开发环境中海量用户信息脱敏方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种银行开发环境中海量用户信息脱敏方法。

背景技术

在银行的业务***中存在大量不同类型的用户数据，随着业务的快速迭代，用户数据的数据量不断扩大，为了保证用户信息的数据安全；需要对用户数据中的敏感数据进行脱敏。

现有方法通常利用数据泛化的方式对所有用户数据统一进行脱敏处理，但在银行开发环境中若干外界因素一直处于动态变化的状态，使不同维度的数据受外界影响程度并不相同，使不同维度的数据存在不同的敏感情况，导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据，降低了脱敏结果的准确性，降低了信息的脱敏效率。

发明内容

本发明提供一种银行开发环境中海量用户信息脱敏方法，以解决现有的问题：在银行开发环境中若干外界因素一直处于动态变化的状态，使不同维度的数据受外界影响程度并不相同，使不同维度的数据存在不同的敏感情况，导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据。

本发明的一种银行开发环境中海量用户信息脱敏方法采用如下技术方案：

包括以下步骤：

采集每个用户业务类型在每个用户中的若干用户业务数据，所述每个用户业务类型对应多个记录时刻，每个记录时刻对应多个用户业务数据；

对于任意一个用户以及任意一个记录时刻，将用户在记录时刻下所有用户业务类型的用户业务数据整体构成的数据集记为用户在记录时刻下的用户数据点集，根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度；根据用户数据点集的数据敏感度，对所有用户数据点集进行聚类得到若干级别聚类簇；

对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据。

优选的，所述根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度，包括的具体方法为：

根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况，得到每个用户业务类型的数据波动因子；

根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况，得到每个用户业务类型的用户维度互相关程度；

根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度；

获取每个用户的核心业务程度；

根据所有用户数据点集内每个用户业务类型的用户维度互相关程度、对应用户的核心业务程度以及第个用户数据点集的综合维度敏感度，得到第/>个用户数据点集的数据敏感度；具体方法为：

式中，表示第/>个用户数据点集的数据敏感度；/>表示第/>个用户数据点集的综合维度敏感度；/>表示所有用户数据点集的数量；/>表示所有用户业务类型的数量；表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度；/>表示第/>个用户数据点集对应用户的核心业务程度；/>表示第/>个用户数据点集在第个用户业务类型的用户维度互相关程度；/>表示取绝对值。

优选的，所述根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况，得到每个用户业务类型的数据波动因子，包括的具体方法为：

获取每个用户业务类型的所有核心用户；

式中，表示第/>个用户业务类型的数据波动因子；/>表示第/>个用户业务类型的所有核心用户的数量；/>表示第/>个用户业务类型在第/>个核心用户中所有用户业务数据的数量；/>表示第/>个用户业务类型在第/>个核心用户中的第/>个用户业务数据；/>表示第/>个用户业务类型在所有核心用户中的所有用户业务数据的均值；/>表示取绝对值。

优选的，所述获取每个用户业务类型的所有核心用户，包括的具体方法为：

对于任意一个用户以及任意一个用户业务类型，若用户业务类型在用户中的用户业务数据不为0，将用户记为用户业务类型的核心用户。

优选的，所述根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况，得到每个用户业务类型的用户维度互相关程度，包括的具体方法为：

获取第个用户业务类型的所有对照用户业务类型；

式中，表示第/>个用户业务类型的用户维度互相关程度；/>表示第/>个用户业务类型的所有对照用户业务类型的数量；/>表示第/>个用户业务类型的数据波动因子；/>表示第/>个用户业务类型的第/>个对照用户业务类型的数据波动因子；/>表示所有对照用户业务类型的数据波动因子的最大值；/>表示以自然常数为底的指数函数；/>表示取绝对值。

优选的，所述获取第个用户业务类型的所有对照用户业务类型，包括的具体方法为：

将除第个用户业务类型以外的每个用户业务类型记为对照用户业务类型。

优选的，所述根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度，包括的具体方法为：

将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第个用户数据点集的综合维度敏感度。

优选的，所述获取每个用户的核心业务程度，包括的具体方法为：

对于任意一个用户、任意一个记录时刻以及任意一个用户业务类型，若用户是用户业务类型的核心用户，将用户业务类型记为用户的核心用户业务类型；将用户的所有核心用户业务类型数量与用户的所有用户业务类型数量的比值，记为用户的核心业务程度。

优选的，所述根据用户数据点集的数据敏感度，对所有用户数据点集进行聚类得到若干级别聚类簇，包括的具体方法为：

预设一个邻域半径以及一个最小点数/>，将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量，根据/>以及距离度量对所有用户数据点集进行DBSCAN聚类得到若干聚类簇，并将每个聚类簇记为级别聚类簇。

优选的，所述对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据，包括的具体方法为：

对每个级别聚类簇内的所有用户业务数据分别进行数据置换处理，得到若干置换后的用户业务数据；对所有置换后的用户业务数据进行数据泛化处理，得到若干泛化后的用户业务数据。

本发明的技术方案的有益效果是：通过分析不同用户业务类型之间与外界因素之间联系情况，以及用户业务数据整体的数据变化情况，将所有用户业务数据划分为若干级别聚类簇，从而对每个级别聚类簇进行防护处理；首先根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度，其中数据敏感度用于描述用户业务数据受外界影响容易丢失的程度，更易观察到用户业务数据与外界因素之间的联系，并且在一定程度上表示了用户业务数据对于银行以及用户的重要性；然后根据用户数据点集的数据敏感度，进行聚类得到若干级别聚类簇，其中级别聚类簇用于描述用户业务数据的防护等级，将需要进行脱敏的用户业务数据更好地划分为同一个聚类簇中，提高了进行数据脱敏的效率；本发明通过不同用户业务类型之间与外界因素之间联系情况，以及用户业务数据整体的数据变化情况，将所有用户业务数据自适应划分为若干级别聚类簇，从而进行防护处理；更准确地识别需要进行脱敏的数据，提高了脱敏结果的准确性，提高了银行用户信息的脱敏效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种银行开发环境中海量用户信息脱敏方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种银行开发环境中海量用户信息脱敏方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种银行开发环境中海量用户信息脱敏方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种银行开发环境中海量用户信息脱敏方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集每个用户业务类型在每个用户中的若干用户业务数据。

需要说明的是，现有方法通常利用数据泛化的方式对所有用户数据统一进行脱敏处理，但在银行开发环境中若干外界因素一直处于动态变化的状态，使不同维度的数据受外界影响程度并不相同，使不同维度的数据存在不同的敏感情况，导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据，降低了脱敏结果的准确性，降低了信息的脱敏效率。

具体的，首先需要采集核心用户的用户业务数据，具体过程为：从银行业务***的用户数据库中获取近三个月内30名用户的用户***、联系方式、理财产品投资数量、资金存取次数、资金存储总金额、资金取出总金额以及用户余额这七个用户业务类型的若干历史用户业务数据；获取所有用户业务类型在若干用户中的若干用户业务数据。特别说明的是，本实施例的用户数据库每隔1天作为一个记录时间，更新记录一次所有用户的所有用户业务类型的用户业务数据。

所需说明的是，本实施例以用户数量为30，用户业务类型数量为7，这7个用户业务类型的内容依次为用户***、联系方式、理财产品投资数量、资金存取次数以及用户余额为例进行叙述，本实施例不进行具体限定，其中用户数量、用户业务类型的内容以及数量可根据具体实施情况而定。

至此，通过上述方法得到每个用户业务类型在每个用户中的若干用户业务数据。

步骤S002：根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度；根据用户数据点集的数据敏感度，对所有用户数据点集进行聚类得到若干级别聚类簇。

需要说明的是，在银行业务的开发运维的环境中，银行业务***会不断受到外界部分IP（Internet Protocol，网络之间互连的协议）的入侵，可能会导致部分用户业务数据被泄露，从而造成对应用户个人隐私信息丢失。每个用户受生活环境、收入水平、消费习惯等经济关联因素影响的不同，导致该用户的用户业务数据整体的变化情况也不同，对应所表征出的用户业务特征也不同；而对于单个用户而言，不同的用户业务类型对用户业务数据的影响程度也存在不同的差异，并且这些用户业务类型在实际生活环境中会互相影响。为了降低数据信息被泄露的可能性，需要分析不同用户业务类型的分布结构性特征，对用户业务数据进行分级，以便后续处理。

优选的，在本发明的一个实施例中，根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况，得到每个用户业务类型的数据波动因子，包括的具体方法为：

以任意一个用户以及任意一个用户业务类型为例，若该用户业务类型在该用户中的用户业务数据不为0，将该用户记为该用户业务类型的核心用户；获取该用户业务类型的所有核心用户，获取所有用户业务类型的所有核心用户。

进一步的，作为一种示例，可通过如下公式计算第个用户业务类型的数据波动因子：

所需说明的是，通过用户业务类型在相邻核心用户之间用户业务数据的变化差异来量化第个用户业务类型的数据波动因子；若第/>个用户业务类型的数据波动因子越大，说明第/>个用户业务类型对于用户而言属于越容易变化的类型，第/>个用户业务类型越容易受用户行为的影响，反映第/>个用户业务类型越能体现用户个人的业务数据特征。

优选的，在本发明的一个实施例中，根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况，得到每个用户业务类型的用户维度互相关程度，包括的具体方法为：

将除第个用户业务类型以外的每个用户业务类型记为对照用户业务类型；根据第/>个用户业务类型与每个对照用户业务类型之间数据波动因子的变化差异，得到第/>个用户业务类型的用户维度互相关程度。作为一种示例，可通过如下公式计算第/>个用户业务类型的用户维度互相关程度：

式中，表示第/>个用户业务类型的用户维度互相关程度；/>表示第/>个用户业务类型的所有对照用户业务类型的数量；/>表示第/>个用户业务类型的数据波动因子；/>表示第/>个用户业务类型的第/>个对照用户业务类型的数据波动因子；/>表示所有对照用户业务类型的数据波动因子的最大值；/>表示取绝对值；/>表示以自然常数为底的指数函数，实施例采用/>模型来呈现反比例关系及归一化处理，/>为模型的输入，实施者可根据实际情况选择反比例函数及归一化函数。

所需说明的是，通过不同对照用户业务类型与第个用户业务类型之间数据波动因子的变化差异来量化第/>个用户业务类型的用户维度互相关程度；若第/>个用户业务类型的用户维度互相关程度越大，说明对于第/>个用户业务类型的所有核心用户而言，第/>个用户业务类型的所有对照用户业务类型与第/>个用户业务类型关联关系越紧密，第/>个用户业务类型对其他对照用户业务类型的影响越大，反映第/>个用户业务类型对于体现用户个人信息的重要性越大。

优选的，在本发明的一个实施例中，根据每个用户业务类型的用户维度互相关程度以及所有用户业务数据之间的关联情况，对每个用户在每个记录时刻下的用户业务数据进行聚类得到若干级别聚类簇，包括的具体方法为：

以任意一个用户、任意一个记录时刻以及任意一个用户业务类型为例，若该用户是该用户业务类型的核心用户，那么将该用户业务类型记为该用户的核心用户业务类型；将该用户的所有核心用户业务类型数量与该用户的所有用户业务类型数量的比值，记为该用户的核心业务程度；将该用户在该记录时刻下所有用户业务类型的用户业务数据整体构成的数据集记为该用户在该记录时刻下的用户数据点集；获取该用户在所有记录时刻下的用户数据点集；获取所有用户在所有记录时刻下的用户数据点集。其中每个用户数据点集对应一个用户、一个记录时刻以及多个用户业务类型。

进一步的，将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第/>个用户数据点集的综合维度敏感度；根据所有用户数据点集内每个用户业务类型的用户维度互相关程度、对应用户的核心业务程度以及第/>个用户数据点集的综合维度敏感度，得到第/>个用户数据点集的数据敏感度。作为一种示例，可通过如下公式计算第/>个用户数据点集的数据敏感度：

所需说明的是，通过不同用户数据点集对应用户维度互相关程度与核心业务程度的比值之间的差异值，以及第个用户数据点集的综合维度敏感度来量化第/>个用户数据点集的数据敏感度；若第/>个用户数据点集的数据敏感度越大，说明第/>个用户数据点集越容易受各个用户业务类型的影响发现较大程度的变化，反映第/>个用户数据点集越需要进行脱敏处理。

进一步的，预设一个邻域半径以及一个最小点数/>，其中本实施例以为例进行叙述，本实施例不进行具体限定，其中/>可根据具体实施情况而定，将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量，根据/>以及距离度量对所有用户数据点集进行DBSCAN聚类得到若干聚类簇，并将每个聚类簇记为级别聚类簇。其中根据/>以及距离度量进行聚类的过程是DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)聚类算法的公知内容，本实施例不再赘述。

可选的，在其他实施例中，以任意一个用户业务类型为例，将该用户业务类型下所有用户业务数据构成的序列记为单维业务类型数据序列，获取所有单维业务类型数据序列；将任意两个单维业务类型数据序列之间的皮尔逊相关系数记为维度业务相关性，将所有任意两个单维业务类型数据序列的维度业务相关性的标准差记为维度业务综合相关因子。其中皮尔逊相关系数的获取是公知技术，本实施例不再赘述。

进一步的，以任意一个用户数据点集为例，将该用户数据点集内所有用户业务类型的用户业务数据进行线性归一化，将归一化后的每个用户业务数据记为用户业务标准值；将该用户数据点集中任意两个用户业务标准值的差值的绝对值记为局部数据相似性，将该用户数据点集中所有任意两个用户业务标准值的局部相似性的均值记为该用户数据点集的抗干扰系数；将该用户数据点集的抗干扰系数与维度业务综合相关因子的乘积记为该用户数据点集的数据敏感度。

进一步的，预设一个聚类数量，其中本实施例以/>为例进行叙述，本实施例不进行具体限定，其中/>可根据具体实施情况而定；将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量，根据聚类数量/>以及距离度量，对所有用户数据点集进行k-means聚类得到若干聚类簇，并将每个聚类簇记为级别聚类簇。其中根据聚类数量/>以及距离度量进行聚类的过程是k-means聚类算法的公知内容，本实施例不再赘述。

至此，通过上述方法得到所有级别聚类簇。

步骤S003：对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据。

优选的，在本发明的一个实施例中，对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据，包括的具体方法为：

对每个级别聚类簇内的所有用户业务数据分别进行数据置换处理，得到若干置换后的用户业务数据；对所有置换后的用户业务数据进行数据泛化处理，得到若干泛化后的用户业务数据，将所有泛化后的用户业务数据重新存储在***数据库中，完成基于银行多数据库上运维信息的分级防护。其中对数据进行数据置换处理的过程和对数据进行数据泛化的过程均为本领域的公知内容，不在本发明的保护范围内，在此不再赘述。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种银行开发环境中海量用户信息脱敏方法，其特征在于，该方法包括以下步骤：

对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据；

所述根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况，得到每个用户数据点集的数据敏感度，包括的具体方法为：

获取每个用户的核心业务程度；

式中，表示第/>个用户数据点集的数据敏感度；/>表示第/>个用户数据点集的综合维度敏感度；/>表示所有用户数据点集的数量；/>表示所有用户业务类型的数量；/>表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度；/>表示第/>个用户数据点集对应用户的核心业务程度；/>表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度；/>表示取绝对值；

所述对每个级别聚类簇进行数据防护处理，得到若干泛化后的用户业务数据，包括的具体方法为：

2.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况，得到每个用户业务类型的数据波动因子，包括的具体方法为：

获取每个用户业务类型的所有核心用户；

3.根据权利要求2所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述获取每个用户业务类型的所有核心用户，包括的具体方法为：

4.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况，得到每个用户业务类型的用户维度互相关程度，包括的具体方法为：

获取第个用户业务类型的所有对照用户业务类型；

式中，表示第/>个用户业务类型的用户维度互相关程度；/>表示第/>个用户业务类型的所有对照用户业务类型的数量；/>表示第/>个用户业务类型的数据波动因子；/>表示第个用户业务类型的第/>个对照用户业务类型的数据波动因子；/>表示所有对照用户业务类型的数据波动因子的最大值；/>表示以自然常数为底的指数函数；/>表示取绝对值。

5.根据权利要求4所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述获取第个用户业务类型的所有对照用户业务类型，包括的具体方法为：

6.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度，包括的具体方法为：

将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第/>个用户数据点集的综合维度敏感度。

7.根据权利要求2所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述获取每个用户的核心业务程度，包括的具体方法为：

8.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法，其特征在于，所述根据用户数据点集的数据敏感度，对所有用户数据点集进行聚类得到若干级别聚类簇，包括的具体方法为：