CN117972792B - 一种银行开发环境中海量用户信息脱敏方法 - Google Patents

一种银行开发环境中海量用户信息脱敏方法 Download PDF

Info

Publication number
CN117972792B
CN117972792B CN202410362774.2A CN202410362774A CN117972792B CN 117972792 B CN117972792 B CN 117972792B CN 202410362774 A CN202410362774 A CN 202410362774A CN 117972792 B CN117972792 B CN 117972792B
Authority
CN
China
Prior art keywords
user
data
user service
service type
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410362774.2A
Other languages
English (en)
Other versions
CN117972792A (zh
Inventor
唐军
孙金泉
史婷婷
彭向南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Kaibo Technology Co ltd
Original Assignee
Jiangsu Kaibo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Kaibo Technology Co ltd filed Critical Jiangsu Kaibo Technology Co ltd
Priority to CN202410362774.2A priority Critical patent/CN117972792B/zh
Publication of CN117972792A publication Critical patent/CN117972792A/zh
Application granted granted Critical
Publication of CN117972792B publication Critical patent/CN117972792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种银行开发环境中海量用户信息脱敏方法,包括:采集每个用户业务类型在每个用户中的若干用户业务数据;获取若干用户数据点集,根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度;根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇;对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据。本发明更准确地识别需要进行脱敏的数据,提高了脱敏结果的准确性,提高了银行用户信息的脱敏效率。

Description

一种银行开发环境中海量用户信息脱敏方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种银行开发环境中海量用户信息脱敏方法。
背景技术
在银行的业务***中存在大量不同类型的用户数据,随着业务的快速迭代,用户数据的数据量不断扩大,为了保证用户信息的数据安全;需要对用户数据中的敏感数据进行脱敏。
现有方法通常利用数据泛化的方式对所有用户数据统一进行脱敏处理,但在银行开发环境中若干外界因素一直处于动态变化的状态,使不同维度的数据受外界影响程度并不相同,使不同维度的数据存在不同的敏感情况,导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据,降低了脱敏结果的准确性,降低了信息的脱敏效率。
发明内容
本发明提供一种银行开发环境中海量用户信息脱敏方法,以解决现有的问题:在银行开发环境中若干外界因素一直处于动态变化的状态,使不同维度的数据受外界影响程度并不相同,使不同维度的数据存在不同的敏感情况,导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据。
本发明的一种银行开发环境中海量用户信息脱敏方法采用如下技术方案:
包括以下步骤:
采集每个用户业务类型在每个用户中的若干用户业务数据,所述每个用户业务类型对应多个记录时刻,每个记录时刻对应多个用户业务数据;
对于任意一个用户以及任意一个记录时刻,将用户在记录时刻下所有用户业务类型的用户业务数据整体构成的数据集记为用户在记录时刻下的用户数据点集,根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度;根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇;
对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据。
优选的,所述根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度,包括的具体方法为:
根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况,得到每个用户业务类型的数据波动因子;
根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况,得到每个用户业务类型的用户维度互相关程度;
根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度;
获取每个用户的核心业务程度;
根据所有用户数据点集内每个用户业务类型的用户维度互相关程度、对应用户的核心业务程度以及第个用户数据点集的综合维度敏感度,得到第/>个用户数据点集的数据敏感度;具体方法为:
式中,表示第/>个用户数据点集的数据敏感度;/>表示第/>个用户数据点集的综合维度敏感度;/>表示所有用户数据点集的数量;/>表示所有用户业务类型的数量;表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户数据点集对应用户的核心业务程度;/>表示第/>个用户数据点集在第个用户业务类型的用户维度互相关程度;/>表示取绝对值。
优选的,所述根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况,得到每个用户业务类型的数据波动因子,包括的具体方法为:
获取每个用户业务类型的所有核心用户;
式中,表示第/>个用户业务类型的数据波动因子;/>表示第/>个用户业务类型的所有核心用户的数量;/>表示第/>个用户业务类型在第/>个核心用户中所有用户业务数据的数量;/>表示第/>个用户业务类型在第/>个核心用户中的第/>个用户业务数据;/>表示第/>个用户业务类型在所有核心用户中的所有用户业务数据的均值;/>表示取绝对值。
优选的,所述获取每个用户业务类型的所有核心用户,包括的具体方法为:
对于任意一个用户以及任意一个用户业务类型,若用户业务类型在用户中的用户业务数据不为0,将用户记为用户业务类型的核心用户。
优选的,所述根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况,得到每个用户业务类型的用户维度互相关程度,包括的具体方法为:
获取第个用户业务类型的所有对照用户业务类型;
式中,表示第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户业务类型的所有对照用户业务类型的数量;/>表示第/>个用户业务类型的数据波动因子;/>表示第/>个用户业务类型的第/>个对照用户业务类型的数据波动因子;/>表示所有对照用户业务类型的数据波动因子的最大值;/>表示以自然常数为底的指数函数;/>表示取绝对值。
优选的,所述获取第个用户业务类型的所有对照用户业务类型,包括的具体方法为:
将除第个用户业务类型以外的每个用户业务类型记为对照用户业务类型。
优选的,所述根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度,包括的具体方法为:
将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第个用户数据点集的综合维度敏感度。
优选的,所述获取每个用户的核心业务程度,包括的具体方法为:
对于任意一个用户、任意一个记录时刻以及任意一个用户业务类型,若用户是用户业务类型的核心用户,将用户业务类型记为用户的核心用户业务类型;将用户的所有核心用户业务类型数量与用户的所有用户业务类型数量的比值,记为用户的核心业务程度。
优选的,所述根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇,包括的具体方法为:
预设一个邻域半径以及一个最小点数/>,将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量,根据/>以及距离度量对所有用户数据点集进行DBSCAN聚类得到若干聚类簇,并将每个聚类簇记为级别聚类簇。
优选的,所述对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据,包括的具体方法为:
对每个级别聚类簇内的所有用户业务数据分别进行数据置换处理,得到若干置换后的用户业务数据;对所有置换后的用户业务数据进行数据泛化处理,得到若干泛化后的用户业务数据。
本发明的技术方案的有益效果是:通过分析不同用户业务类型之间与外界因素之间联系情况,以及用户业务数据整体的数据变化情况,将所有用户业务数据划分为若干级别聚类簇,从而对每个级别聚类簇进行防护处理;首先根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度,其中数据敏感度用于描述用户业务数据受外界影响容易丢失的程度,更易观察到用户业务数据与外界因素之间的联系,并且在一定程度上表示了用户业务数据对于银行以及用户的重要性;然后根据用户数据点集的数据敏感度,进行聚类得到若干级别聚类簇,其中级别聚类簇用于描述用户业务数据的防护等级,将需要进行脱敏的用户业务数据更好地划分为同一个聚类簇中,提高了进行数据脱敏的效率;本发明通过不同用户业务类型之间与外界因素之间联系情况,以及用户业务数据整体的数据变化情况,将所有用户业务数据自适应划分为若干级别聚类簇,从而进行防护处理;更准确地识别需要进行脱敏的数据,提高了脱敏结果的准确性,提高了银行用户信息的脱敏效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种银行开发环境中海量用户信息脱敏方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种银行开发环境中海量用户信息脱敏方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种银行开发环境中海量用户信息脱敏方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种银行开发环境中海量用户信息脱敏方法的步骤流程图,该方法包括以下步骤:
步骤S001:采集每个用户业务类型在每个用户中的若干用户业务数据。
需要说明的是,现有方法通常利用数据泛化的方式对所有用户数据统一进行脱敏处理,但在银行开发环境中若干外界因素一直处于动态变化的状态,使不同维度的数据受外界影响程度并不相同,使不同维度的数据存在不同的敏感情况,导致传统利用数据泛化进行脱敏的方式无法有效地识别需要进行脱敏的数据,降低了脱敏结果的准确性,降低了信息的脱敏效率。
具体的,首先需要采集核心用户的用户业务数据,具体过程为:从银行业务***的用户数据库中获取近三个月内30名用户的用户***、联系方式、理财产品投资数量、资金存取次数、资金存储总金额、资金取出总金额以及用户余额这七个用户业务类型的若干历史用户业务数据;获取所有用户业务类型在若干用户中的若干用户业务数据。特别说明的是,本实施例的用户数据库每隔1天作为一个记录时间,更新记录一次所有用户的所有用户业务类型的用户业务数据。
所需说明的是,本实施例以用户数量为30,用户业务类型数量为7,这7个用户业务类型的内容依次为用户***、联系方式、理财产品投资数量、资金存取次数以及用户余额为例进行叙述,本实施例不进行具体限定,其中用户数量、用户业务类型的内容以及数量可根据具体实施情况而定。
至此,通过上述方法得到每个用户业务类型在每个用户中的若干用户业务数据。
步骤S002:根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度;根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇。
需要说明的是,在银行业务的开发运维的环境中,银行业务***会不断受到外界部分IP(Internet Protocol,网络之间互连的协议)的入侵,可能会导致部分用户业务数据被泄露,从而造成对应用户个人隐私信息丢失。每个用户受生活环境、收入水平、消费习惯等经济关联因素影响的不同,导致该用户的用户业务数据整体的变化情况也不同,对应所表征出的用户业务特征也不同;而对于单个用户而言,不同的用户业务类型对用户业务数据的影响程度也存在不同的差异,并且这些用户业务类型在实际生活环境中会互相影响。为了降低数据信息被泄露的可能性,需要分析不同用户业务类型的分布结构性特征,对用户业务数据进行分级,以便后续处理。
优选的,在本发明的一个实施例中,根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况,得到每个用户业务类型的数据波动因子,包括的具体方法为:
以任意一个用户以及任意一个用户业务类型为例,若该用户业务类型在该用户中的用户业务数据不为0,将该用户记为该用户业务类型的核心用户;获取该用户业务类型的所有核心用户,获取所有用户业务类型的所有核心用户。
进一步的,作为一种示例,可通过如下公式计算第个用户业务类型的数据波动因子:
式中,表示第/>个用户业务类型的数据波动因子;/>表示第/>个用户业务类型的所有核心用户的数量;/>表示第/>个用户业务类型在第/>个核心用户中所有用户业务数据的数量;/>表示第/>个用户业务类型在第/>个核心用户中的第/>个用户业务数据;/>表示第/>个用户业务类型在所有核心用户中的所有用户业务数据的均值;/>表示取绝对值。
所需说明的是,通过用户业务类型在相邻核心用户之间用户业务数据的变化差异来量化第个用户业务类型的数据波动因子;若第/>个用户业务类型的数据波动因子越大,说明第/>个用户业务类型对于用户而言属于越容易变化的类型,第/>个用户业务类型越容易受用户行为的影响,反映第/>个用户业务类型越能体现用户个人的业务数据特征。
优选的,在本发明的一个实施例中,根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况,得到每个用户业务类型的用户维度互相关程度,包括的具体方法为:
将除第个用户业务类型以外的每个用户业务类型记为对照用户业务类型;根据第/>个用户业务类型与每个对照用户业务类型之间数据波动因子的变化差异,得到第/>个用户业务类型的用户维度互相关程度。作为一种示例,可通过如下公式计算第/>个用户业务类型的用户维度互相关程度:
式中,表示第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户业务类型的所有对照用户业务类型的数量;/>表示第/>个用户业务类型的数据波动因子;/>表示第/>个用户业务类型的第/>个对照用户业务类型的数据波动因子;/>表示所有对照用户业务类型的数据波动因子的最大值;/>表示取绝对值;/>表示以自然常数为底的指数函数,实施例采用/>模型来呈现反比例关系及归一化处理,/>为模型的输入,实施者可根据实际情况选择反比例函数及归一化函数。
所需说明的是,通过不同对照用户业务类型与第个用户业务类型之间数据波动因子的变化差异来量化第/>个用户业务类型的用户维度互相关程度;若第/>个用户业务类型的用户维度互相关程度越大,说明对于第/>个用户业务类型的所有核心用户而言,第/>个用户业务类型的所有对照用户业务类型与第/>个用户业务类型关联关系越紧密,第/>个用户业务类型对其他对照用户业务类型的影响越大,反映第/>个用户业务类型对于体现用户个人信息的重要性越大。
优选的,在本发明的一个实施例中,根据每个用户业务类型的用户维度互相关程度以及所有用户业务数据之间的关联情况,对每个用户在每个记录时刻下的用户业务数据进行聚类得到若干级别聚类簇,包括的具体方法为:
以任意一个用户、任意一个记录时刻以及任意一个用户业务类型为例,若该用户是该用户业务类型的核心用户,那么将该用户业务类型记为该用户的核心用户业务类型;将该用户的所有核心用户业务类型数量与该用户的所有用户业务类型数量的比值,记为该用户的核心业务程度;将该用户在该记录时刻下所有用户业务类型的用户业务数据整体构成的数据集记为该用户在该记录时刻下的用户数据点集;获取该用户在所有记录时刻下的用户数据点集;获取所有用户在所有记录时刻下的用户数据点集。其中每个用户数据点集对应一个用户、一个记录时刻以及多个用户业务类型。
进一步的,将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第/>个用户数据点集的综合维度敏感度;根据所有用户数据点集内每个用户业务类型的用户维度互相关程度、对应用户的核心业务程度以及第/>个用户数据点集的综合维度敏感度,得到第/>个用户数据点集的数据敏感度。作为一种示例,可通过如下公式计算第/>个用户数据点集的数据敏感度:
式中,表示第/>个用户数据点集的数据敏感度;/>表示第/>个用户数据点集的综合维度敏感度;/>表示所有用户数据点集的数量;/>表示所有用户业务类型的数量;表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户数据点集对应用户的核心业务程度;/>表示第/>个用户数据点集在第个用户业务类型的用户维度互相关程度;/>表示取绝对值。
所需说明的是,通过不同用户数据点集对应用户维度互相关程度与核心业务程度的比值之间的差异值,以及第个用户数据点集的综合维度敏感度来量化第/>个用户数据点集的数据敏感度;若第/>个用户数据点集的数据敏感度越大,说明第/>个用户数据点集越容易受各个用户业务类型的影响发现较大程度的变化,反映第/>个用户数据点集越需要进行脱敏处理。
进一步的,预设一个邻域半径以及一个最小点数/>,其中本实施例以为例进行叙述,本实施例不进行具体限定,其中/>可根据具体实施情况而定,将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量,根据/>以及距离度量对所有用户数据点集进行DBSCAN聚类得到若干聚类簇,并将每个聚类簇记为级别聚类簇。其中根据/>以及距离度量进行聚类的过程是DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)聚类算法的公知内容,本实施例不再赘述。
可选的,在其他实施例中,以任意一个用户业务类型为例,将该用户业务类型下所有用户业务数据构成的序列记为单维业务类型数据序列,获取所有单维业务类型数据序列;将任意两个单维业务类型数据序列之间的皮尔逊相关系数记为维度业务相关性,将所有任意两个单维业务类型数据序列的维度业务相关性的标准差记为维度业务综合相关因子。其中皮尔逊相关系数的获取是公知技术,本实施例不再赘述。
进一步的,以任意一个用户数据点集为例,将该用户数据点集内所有用户业务类型的用户业务数据进行线性归一化,将归一化后的每个用户业务数据记为用户业务标准值;将该用户数据点集中任意两个用户业务标准值的差值的绝对值记为局部数据相似性,将该用户数据点集中所有任意两个用户业务标准值的局部相似性的均值记为该用户数据点集的抗干扰系数;将该用户数据点集的抗干扰系数与维度业务综合相关因子的乘积记为该用户数据点集的数据敏感度。
进一步的,预设一个聚类数量,其中本实施例以/>为例进行叙述,本实施例不进行具体限定,其中/>可根据具体实施情况而定;将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量,根据聚类数量/>以及距离度量,对所有用户数据点集进行k-means聚类得到若干聚类簇,并将每个聚类簇记为级别聚类簇。其中根据聚类数量/>以及距离度量进行聚类的过程是k-means聚类算法的公知内容,本实施例不再赘述。
至此,通过上述方法得到所有级别聚类簇。
步骤S003:对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据。
优选的,在本发明的一个实施例中,对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据,包括的具体方法为:
对每个级别聚类簇内的所有用户业务数据分别进行数据置换处理,得到若干置换后的用户业务数据;对所有置换后的用户业务数据进行数据泛化处理,得到若干泛化后的用户业务数据,将所有泛化后的用户业务数据重新存储在***数据库中,完成基于银行多数据库上运维信息的分级防护。其中对数据进行数据置换处理的过程和对数据进行数据泛化的过程均为本领域的公知内容,不在本发明的保护范围内,在此不再赘述。
至此,本实施例完成。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种银行开发环境中海量用户信息脱敏方法,其特征在于,该方法包括以下步骤:
采集每个用户业务类型在每个用户中的若干用户业务数据,所述每个用户业务类型对应多个记录时刻,每个记录时刻对应多个用户业务数据;
对于任意一个用户以及任意一个记录时刻,将用户在记录时刻下所有用户业务类型的用户业务数据整体构成的数据集记为用户在记录时刻下的用户数据点集,根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度;根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇;
对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据;
所述根据不同用户业务类型之间受外界因素影响的关联情况以及用户业务数据整体的数据变化情况,得到每个用户数据点集的数据敏感度,包括的具体方法为:
根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况,得到每个用户业务类型的数据波动因子;
根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况,得到每个用户业务类型的用户维度互相关程度;
根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度;
获取每个用户的核心业务程度;
根据所有用户数据点集内每个用户业务类型的用户维度互相关程度、对应用户的核心业务程度以及第个用户数据点集的综合维度敏感度,得到第/>个用户数据点集的数据敏感度;具体方法为:
式中,表示第/>个用户数据点集的数据敏感度;/>表示第/>个用户数据点集的综合维度敏感度;/>表示所有用户数据点集的数量;/>表示所有用户业务类型的数量;/>表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户数据点集对应用户的核心业务程度;/>表示第/>个用户数据点集在第/>个用户业务类型的用户维度互相关程度;/>表示取绝对值;
所述对每个级别聚类簇进行数据防护处理,得到若干泛化后的用户业务数据,包括的具体方法为:
对每个级别聚类簇内的所有用户业务数据分别进行数据置换处理,得到若干置换后的用户业务数据;对所有置换后的用户业务数据进行数据泛化处理,得到若干泛化后的用户业务数据。
2.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述根据每个用户业务类型在若干用户中的用户业务数据整体的变化情况,得到每个用户业务类型的数据波动因子,包括的具体方法为:
获取每个用户业务类型的所有核心用户;
式中,表示第/>个用户业务类型的数据波动因子;/>表示第/>个用户业务类型的所有核心用户的数量;/>表示第/>个用户业务类型在第/>个核心用户中所有用户业务数据的数量;/>表示第/>个用户业务类型在第/>个核心用户中的第/>个用户业务数据;/>表示第/>个用户业务类型在所有核心用户中的所有用户业务数据的均值;/>表示取绝对值。
3.根据权利要求2所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述获取每个用户业务类型的所有核心用户,包括的具体方法为:
对于任意一个用户以及任意一个用户业务类型,若用户业务类型在用户中的用户业务数据不为0,将用户记为用户业务类型的核心用户。
4.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述根据每个用户业务类型与其他用户业务类型之间数据波动因子的差异情况,得到每个用户业务类型的用户维度互相关程度,包括的具体方法为:
获取第个用户业务类型的所有对照用户业务类型;
式中,表示第/>个用户业务类型的用户维度互相关程度;/>表示第/>个用户业务类型的所有对照用户业务类型的数量;/>表示第/>个用户业务类型的数据波动因子;/>表示第个用户业务类型的第/>个对照用户业务类型的数据波动因子;/>表示所有对照用户业务类型的数据波动因子的最大值;/>表示以自然常数为底的指数函数;/>表示取绝对值。
5.根据权利要求4所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述获取第个用户业务类型的所有对照用户业务类型,包括的具体方法为:
将除第个用户业务类型以外的每个用户业务类型记为对照用户业务类型。
6.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述根据每个用户业务类型的用户维度互相关程度得到每个用户数据点集的综合维度敏感度,包括的具体方法为:
将第个用户数据点集中所有用户业务类型的用户维度互相关程度的均值记为第/>个用户数据点集的综合维度敏感度。
7.根据权利要求2所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述获取每个用户的核心业务程度,包括的具体方法为:
对于任意一个用户、任意一个记录时刻以及任意一个用户业务类型,若用户是用户业务类型的核心用户,将用户业务类型记为用户的核心用户业务类型;将用户的所有核心用户业务类型数量与用户的所有用户业务类型数量的比值,记为用户的核心业务程度。
8.根据权利要求1所述一种银行开发环境中海量用户信息脱敏方法,其特征在于,所述根据用户数据点集的数据敏感度,对所有用户数据点集进行聚类得到若干级别聚类簇,包括的具体方法为:
预设一个邻域半径以及一个最小点数/>,将不同用户数据点集之间数据敏感度的差值的绝对值作为距离度量,根据/>以及距离度量对所有用户数据点集进行DBSCAN聚类得到若干聚类簇,并将每个聚类簇记为级别聚类簇。
CN202410362774.2A 2024-03-28 2024-03-28 一种银行开发环境中海量用户信息脱敏方法 Active CN117972792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410362774.2A CN117972792B (zh) 2024-03-28 2024-03-28 一种银行开发环境中海量用户信息脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410362774.2A CN117972792B (zh) 2024-03-28 2024-03-28 一种银行开发环境中海量用户信息脱敏方法

Publications (2)

Publication Number Publication Date
CN117972792A CN117972792A (zh) 2024-05-03
CN117972792B true CN117972792B (zh) 2024-06-07

Family

ID=90846271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410362774.2A Active CN117972792B (zh) 2024-03-28 2024-03-28 一种银行开发环境中海量用户信息脱敏方法

Country Status (1)

Country Link
CN (1) CN117972792B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013202438A1 (en) * 2011-05-05 2013-05-02 Centrifuge Pty Ltd Data analysis
JP2013239118A (ja) * 2012-05-17 2013-11-28 Osaka Prefecture Univ データ匿名化クラスタリング方法、装置およびプログラム
CN107133652A (zh) * 2017-05-17 2017-09-05 国网山东省电力公司烟台供电公司 基于K‑means聚类算法的用电客户价值评估方法及***
CN107491472A (zh) * 2017-06-22 2017-12-19 浙江力石科技股份有限公司 一种基于生命周期的大数据平台敏感数据安全共享***和方法
US11157526B1 (en) * 2021-04-09 2021-10-26 WARPSPEED, Inc. Data segmentation using machine learning
US11567975B1 (en) * 2021-11-05 2023-01-31 NVISNX, Inc. System and method for user interactive contextual model classification based on metadata

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8477888B2 (en) * 2008-06-24 2013-07-02 Qualcomm Incorporated Phase-noise resilient generation of a channel quality indicator
US10649449B2 (en) * 2013-03-04 2020-05-12 Fisher-Rosemount Systems, Inc. Distributed industrial performance monitoring and analytics
US20240080341A1 (en) * 2019-12-20 2024-03-07 Cambrian Designs, Inc. System & Method for Implementing A Privacy Policy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013202438A1 (en) * 2011-05-05 2013-05-02 Centrifuge Pty Ltd Data analysis
JP2013239118A (ja) * 2012-05-17 2013-11-28 Osaka Prefecture Univ データ匿名化クラスタリング方法、装置およびプログラム
CN107133652A (zh) * 2017-05-17 2017-09-05 国网山东省电力公司烟台供电公司 基于K‑means聚类算法的用电客户价值评估方法及***
CN107491472A (zh) * 2017-06-22 2017-12-19 浙江力石科技股份有限公司 一种基于生命周期的大数据平台敏感数据安全共享***和方法
US11157526B1 (en) * 2021-04-09 2021-10-26 WARPSPEED, Inc. Data segmentation using machine learning
US11567975B1 (en) * 2021-11-05 2023-01-31 NVISNX, Inc. System and method for user interactive contextual model classification based on metadata

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
复杂时空域下多维度智能车间数据的关联网络建模;张万达,阴艳超,顾文娟,唐军,;控制与决策;20230413;1-9 *
面向精准营销的寿险客户聚类算法研究;徐华杰;信息科技;20231101;93 *

Also Published As

Publication number Publication date
CN117972792A (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
US10572885B1 (en) Training method, apparatus for loan fraud detection model and computer device
Khandani et al. Consumer credit-risk models via machine-learning algorithms
CN112561598A (zh) 基于客户画像的客户流失预测及挽回方法和***
WO2022105525A1 (zh) 预测用户概率的方法、装置和计算机设备
CN117992809B (zh) 一种用于银行多数据库运维信息的分级防护方法
WO2009010950A1 (en) System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records
CN109829721A (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN110728301A (zh) 一种个人用户的信用评分方法、装置、终端及存储介质
CN111428092B (zh) 基于图模型的银行精准营销方法
Ruyu et al. A comparison of credit rating classification models based on spark-evidence from lending-club
CN117729264B (zh) 一种数字化金融服务海量信息传输方法
CN101599165A (zh) 一种动态金融网络监测分析方法
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
CN115205011A (zh) 基于lsf-fc算法的银行用户画像模型生成方法
Liu et al. Stock price trend prediction model based on deep residual network and stock price graph
CN115310752A (zh) 面向能源大数据的数据资产价值评价方法及***
CN117972792B (zh) 一种银行开发环境中海量用户信息脱敏方法
Ke et al. Loan repayment behavior prediction of provident fund users using a stacking-based model
CN112348220A (zh) 一种基于企业行为模式的信用风险评估预测方法及***
Yang et al. Automatic Feature Engineering‐Based Optimization Method for Car Loan Fraud Detection
Guo et al. Statistical decision research of long-term deposit subscription in banks based on decision tree
CN113744042A (zh) 基于优化Boruta和XGBoost的信贷违约预测方法及***
CN112529712A (zh) 用户运营分析rfm的建模方法与***
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
CN116800831B (zh) 一种业务数据推送方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant