CN111753331B - 数据漂白方法和装置 - Google Patents

数据漂白方法和装置 Download PDF

Info

Publication number
CN111753331B
CN111753331B CN202010597178.4A CN202010597178A CN111753331B CN 111753331 B CN111753331 B CN 111753331B CN 202010597178 A CN202010597178 A CN 202010597178A CN 111753331 B CN111753331 B CN 111753331B
Authority
CN
China
Prior art keywords
data
determining
data set
tables
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010597178.4A
Other languages
English (en)
Other versions
CN111753331A (zh
Inventor
黄琳莉
黄煜辉
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010597178.4A priority Critical patent/CN111753331B/zh
Publication of CN111753331A publication Critical patent/CN111753331A/zh
Application granted granted Critical
Publication of CN111753331B publication Critical patent/CN111753331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据漂白方法和装置,该方法包括:获取生产数据;对生产数据进行数据预处理,确定预处理数据;将预处理数据进行特征工程,确定特征数据;根据特征数据对预处理数据进行漂白处理,确定脱敏数据。本发明实施例的数据漂白方法,实现了对脱敏数据的高质量提取,可以减少开发人员前期的工作量,提高工作效率和工作质量,有利于将受限于现有技术而没有进行挖掘的存量数据进行有效利用,提高数据分析和数据建模结果的准确性。

Description

数据漂白方法和装置
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种数据漂白方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
大数据技术和机器学习的快速发展,在各个领域的应用层出不穷且表现不俗。数据分析与建模离不开大数据,但当前大量公司企业的存量数据都没有得到充分挖掘。银行***的海量信息也面临同样困境。
对银行***数据进行数据挖掘存在如下问题:(1)每日生成大量数据,原始数据的噪声大,数据质量难于保证;(2)开发人员必须与生产数据隔离,但大数据技术应用离不开海量数据;(3)涉及用户大量贷款信息和信用信息等敏感数据,必须保障用户隐私安全,因此未经漂白的数据不能直接应用于开发,而现有的漂白方法涉及的字段较少,会导致丢失重要信息,直接影响到数据分析和数据建模结果的准确性。
基于现有的技术,在数据分析前需要消耗大量时间对数据进行预处理后才能进行数据挖掘,这样的模式效率低下耗费时间;同时简单漂白也会直接影响到数据分析和数据建模结果的准确性。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种数据漂白方法,提供了高质量的脱敏数据,该方法包括:
获取生产数据;
对生产数据进行数据预处理,确定预处理数据;
将预处理数据进行特征工程,确定特征数据;
根据特征数据对预处理数据进行漂白处理,确定脱敏数据。
本发明实施例还提供一种数据漂白装置,包括:
数据获取模块,用于获取生产数据;
预处理模块,用于对生产数据进行数据预处理,确定预处理数据;
特征工程模块,用于将预处理数据进行特征工程,确定特征数据;
漂白模块,用于根据特征数据对预处理数据进行漂白处理,确定脱敏数据。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种数据漂白方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种数据漂白方法的计算机程序。
本发明实施例提供的一种数据漂白方法和装置,从银行***中获取生产数据,通过对生产数据进行预处理,去除生产数据中的噪声和不规范数据,提高数据质量,得到预处理数据;然后把预处理数据进行特征工程,提取更多关键和有效信息,构成特征数据,可以减少后续漂白处理过程中的信息丢失,增强对用户隐私的保护;最后根据特征数据对预处理数据进行漂白处理,确定脱敏数据。本发明实施例的数据漂白方法,实现了对脱敏数据的高质量提取,可以减少开发人员前期的工作量,提高工作效率和工作质量,有利于将受限于现有技术而没有进行挖掘的存量数据进行有效利用,提高数据分析和数据建模结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种数据漂白方法示意图。
图2为本发明实施例一种数据漂白方法的预处理示意图。
图3为本发明实施例一种数据漂白方法的确定关联数据示意图。
图4为本发明实施例一种数据漂白方法的数据流程图。
图5为运行本发明实施的一种数据漂白方法的计算机装置示意图。
图6为本发明实施例一种数据漂白装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例一种数据漂白方法示意图,如图1所示,本发明实施例提供一种数据漂白方法,提供了高质量的脱敏数据,该方法包括:
步骤101:获取生产数据;
步骤102:对生产数据进行数据预处理,确定预处理数据;
步骤103:将预处理数据进行特征工程,确定特征数据;
步骤104:根据特征数据对预处理数据进行漂白处理,确定脱敏数据。
本发明实施例提供的一种数据漂白方法,从银行***中获取生产数据,通过对生产数据进行预处理,去除生产数据中的噪声和不规范数据,提高数据质量,得到预处理数据;然后把预处理数据进行特征工程,提取更多关键和有效信息,构成特征数据,可以减少后续漂白处理过程中的信息丢失,增强对用户隐私的保护;最后根据特征数据对预处理数据进行漂白处理,确定脱敏数据。本发明实施例的数据漂白方法,实现了对脱敏数据的高质量提取,可以减少开发人员前期的工作量,提高工作效率和工作质量,有利于将受限于现有技术而没有进行挖掘的存量数据进行有效利用,提高数据分析和数据建模结果的准确性。
银行***在日常运行过程中,会产生生产数据,前述生产数据包含用户大量贷款信息和信用信息等敏感数据,必须保障用户隐私安全,因此需要对生产数据进行漂白;当前针对银行***存量数据的数据挖掘流程一般如下:先直接使用程序对生产数据进行简单漂白,再把漂白后的数据交给开发人员进行数据挖掘。然而上述简单漂白涉及的字段较少,只涉及客户号、账号、证件号、客户姓名等少量个人敏感信息,没有重视地址、企业信息等文本信息的漂白,同时也丢失了部分重要信息。另一方面提供给开发人员的数据质量并不高,可能存在冗余数据、过时数据、不规范的数据等等。需要消耗大量时间对数据进行预处理后才能进行数据挖掘。
因此为了解决上述问题,本发明实施例提供一种数据漂白方法,可以包括:
获取生产数据;对生产数据进行数据预处理,确定预处理数据;将预处理数据进行特征工程,确定特征数据;根据特征数据对预处理数据进行漂白处理,确定脱敏数据。
图2为本发明实施例一种数据漂白方法的预处理示意图,如图2所示,具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的对生产数据进行数据预处理,确定预处理数据,包括:
步骤201:从生产数据中获取数据表、关联字段和主表,确定关联数据集;
步骤202:对关联数据集进行相关性检验,去除冗余数据,确定精简数据集;
步骤203:对精简数据集进行标准格式化处理,确定标准数据集;
步骤204:去除标准数据集中的脏数据和无效用户数据,确定预处理数据。
实施例中,通过对生产数据进行数据预处理,可以将生产数据中的冗余数据、过时数据、不规范的数据剔除,保留规范的数据,有利于提高数据漂白的准确性,能够更好的保护用户的隐私。数据预处理的过程,可以包括:从生产数据中获取数据表、关联字段和主表,确定关联数据集;对关联数据集进行相关性检验,去除冗余数据,确定精简数据集;对精简数据集进行标准格式化处理,确定标准数据集;去除标准数据集中的脏数据和无效用户数据,确定预处理数据。
图3为本发明实施例一种数据漂白方法的确定关联数据示意图,如图3所示,具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的从生产数据中获取数据表、关联字段和主表,确定关联数据集,包括:
步骤301:从生产数据中获取多张数据表、关联字段和主表;
步骤302:对每张数据表的每个字段统计原始空值总量占比,将原始空值总占比大于第一阈值的字段剔除掉,确定多张低空值数据表;
步骤303:通过关联字段,将主表与多张低空值数据表进行匹配,统计无法匹配数据量占比,若该低空值数据表的无法匹配数据量占比大于第一阈值,则弃用这张低空值数据表,反之保留,确定多张待关联数据表;
步骤304:通过关联字段,将多张待关联数据表拼接成一张宽表,确定关联数据集。
实施例中,在数据表的整体中有效值(非空)比例太低的字段,不能提供具有区分度的信息,不适用于数据挖掘。因此不需要原始数据中空值占比较大的字段,具体操作是:从生产数据中获取多张数据表、关联字段和主表,对每张数据表的每个字段统计原始空值总量占比,将原始空值总占比大于第一阈值的字段剔除掉,反之保留,确定多张低空值数据表;另一方面,由于数据表来源于不同***,主表的部分个体在某些数据表中可能不存在记录,主表与部分表匹配的数据量过小,也不符合数据挖掘的需要。故将主表与数据表进行匹配,具体包括:通过关联字段,将主表与多张低空值数据表进行匹配,前述匹配的方式为左连接,统计无法匹配数据量占比,若该低空值数据表的无法匹配数据量占比大于第一阈值,则弃用这张低空值数据表,反之保留,确定多张待关联数据表;最后通过关联字段将所有待关联数据表拼接成一张宽表,作为关联数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的对关联数据集进行相关性检验,去除冗余数据,确定精简数据集,包括:
根据关联数据集,确定关联数据集特征;
将关联数据集特征中的特征进行比较;
在关联数据集特征的特征之间的相关性高于第二阈值时,删除其中数据量少的特征;
在设有目标特征时,检验其他特征与目标特征的相关性,在相关性低于第三阈值时,删除该特征;
将保留的关联数据集特征的冗余数据剔除,确定精简数据集。
实施例中,冗余数据的存在,会导致漂白数据时性能的降低,会浪费较多的数据处理时间,因此需要将冗余数据剔除。首先,分析关联数据集,获取关联数据集特征;其中关联数据集特征中包括多个特征;然后将关联数据集特征中的特征两两之间进行比较,在关联数据集特征的特征之间的相关性高于第二阈值时,删除其中数据量少的特征;在设有目标特征(target特征)时,检验其他特征与目标特征(target特征)的相关性,在相关性低于第三阈值时,删除该特征;将保留的关联数据集特征的冗余数据剔除,确定精简数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的对精简数据集进行标准格式化处理,确定标准数据集,包括:
对精简数据集进行标准格式化处理,校验修正精简数据集中特征的标准格式,统一时间特征和数值特征的表示格式,确定标准数据集。
实施例中,为了加速漂白数据的处理,需要对处理数据的格式进行统一;标准格式化处理主要包括:对精简数据集进行标准格式化处理,校验修正精简数据集中特征的标准格式,统一时间特征和数值特征的表示格式,确定标准数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的去除标准数据集中的脏数据和无效用户数据,包括:
将标准数据集中不符合数据处理要求的用户数据按照删除规则删除;
将标准数据集按行统计有效信息率,将有效信息率低于第四阈值的行数据删除。
实施例中,脏数据和无效用户数据,会影响脱敏数据的精度;因此为了解决上述问题,需要将标准数据集中不符合数据处理要求的用户数据按照删除规则删除;其中,不符合数据处理要求的用户数据,可以包括:没有身份证信息或者客户号等数据;将标准数据集按行统计有效信息率,将有效信息率低于第四阈值的行数据删除,其中有效信息率即客户的特征非空比例。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的将预处理数据进行特征工程,确定特征数据,包括:
从预处理数据中获取基础敏感数据;其中,所述基础敏感数据,包括:个人基础敏感数据和银行企业基础敏感数据;
将基础敏感数据进行特征工程,提取特征数据;其中,所述特征数据,包括:个人敏感数据特征和银行企业敏感数据特征。
实施例中,前述的预处理数据已经剔除了冗余数据、过时数据和不规范的数据,因此可以直接用于特征工程,从预处理数据中获取基础敏感数据;基础敏感数据进行特征工程,提取特征数据。其中,所述基础敏感数据,包括:个人基础敏感数据和银行企业基础敏感数据;所述特征数据,包括:个人敏感数据特征和银行企业敏感数据特征。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的个人基础敏感数据,至少包括:身份证号码,电话号码,地址信息,邮箱信息等多种;
所述提取特征数据,包括:
从身份证号码中提取区域码、年龄和性别等多种特征数据;
从电话号码中提取运营商和区域信息等多种特征数据;
从地址信息中提取周边网点、大型商超、公共文化设施和公共交通站点等多种特征数据;
从邮箱信息中提取邮箱类型、所属单位和网龄等多种特征数据;其中,邮箱类型可以包括:个人邮箱、企业邮箱、高校邮箱;所属单位,可以包括:政府单位,事业单位,企业单位,个体经营单位等多种,网龄可以通过QQ邮箱推算得出。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的银行企业基础敏感数据,至少包括:银行***客户号和企业信息等多种;
所述提取特征数据,包括:
从银行***客户号中提取客户注册时长等多种特征数据;
从企业信息中提取企业规模、创建时长、是否五百强企业等多种特征数据。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,前述的根据特征数据对预处理数据进行漂白处理,确定脱敏数据,包括:
根据特征数据,从预处理数据中找出敏感信息;
在通用场景下,将敏感信息替换为统一值,确定脱敏数据;
在反欺诈应用场景下,将敏感信息使用MD5加密,确定脱敏数据。
实施例中,脱敏数据拥有多种应用场景,主要分为通用场景和反欺诈应用场景;首先,根据特征数据,从预处理数据中找出敏感信息;在通用场景下,将敏感信息替换为统一值,确定脱敏数据,可以实现脱敏数据的快读生成;在反欺诈应用场景下,因为手机号、地址信息和企业信息对识别欺诈团伙有重要作用,一旦替换成统一值就失去意义了,因此将敏感信息使用MD5加密,确定脱敏数据。
图4为本发明实施例一种数据漂白方法的数据流程图,如图4所示,本发明实施例一种数据漂白方法在应用时,包括如下数据流程:首先从银行***中获取生产数据,对生产数据进行数据预处理,包括:数据表关联,相关性检验,统一特征格式实现标准格式化处理,删除脏数据和无效用户数据。然后对预处理数据进行特征工程,包括:取特个人敏感数据特征和银行企业敏感数据特征。最后根据特征数据对预处理数据进行漂白处理,确定脱敏数据,直接用于数据挖掘。过上述处理的脱敏数据已没有敏感信息,不涉及用户隐私,可供开发人员使用。同时经过预处理后,数据质量较高,减少了数据分析和建模前的大量琐碎工作。
图5为运行本发明实施的一种数据漂白方法的计算机装置示意图,如图5所示,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种数据漂白方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种数据漂白方法的计算机程序。
本发明实施例中还提供了一种数据漂白装置,如下面的实施例所述。由于该装置解决问题的原理与一种数据漂白方法相似,因此该装置的实施可以参见一种数据漂白方法的实施,重复之处不再赘述。
图6为本发明实施例一种数据漂白装置示意图,如图6所示,本发明实施例还提供一种数据漂白装置,具体实施时可以包括:
数据获取模块601,用于获取生产数据;
预处理模块602,用于对生产数据进行数据预处理,确定预处理数据;
特征工程模块603,用于将预处理数据进行特征工程,确定特征数据;
漂白模块604,用于根据特征数据对预处理数据进行漂白处理,确定脱敏数据。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,预处理模块,具体用于:
从生产数据中获取数据表、关联字段和主表,确定关联数据集;
对关联数据集进行相关性检验,去除冗余数据,确定精简数据集;
对精简数据集进行标准格式化处理,确定标准数据集;
去除标准数据集中的脏数据和无效用户数据,确定预处理数据。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,预处理模块,还用于:
从生产数据中获取多张数据表、关联字段和主表;
对每张数据表的每个字段统计原始空值总量占比,将原始空值总占比大于第一阈值的字段剔除掉,确定多张低空值数据表;
通过关联字段,将主表与多张低空值数据表进行匹配(匹配方式为左连接),统计无法匹配数据量占比,若该低空值数据表的无法匹配数据量占比大于第一阈值,则弃用这张低空值数据表,反之保留,确定多张待关联数据表;
通过关联字段,将多张待关联数据表拼接成一张宽表,确定关联数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,预处理模块,还用于:
根据关联数据集,确定关联数据集特征;
将关联数据集特征中的特征进行比较;
在关联数据集特征的特征之间的相关性高于第二阈值时,删除其中数据量少的特征;
在设有目标特征时,检验其他特征与目标特征的相关性,在相关性低于第三阈值时,删除该特征;
将保留的关联数据集特征的冗余数据剔除,确定精简数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,预处理模块,还用于:
对精简数据集进行标准格式化处理,校验修正精简数据集中特征的标准格式,统一时间特征和数值特征的表示格式,确定标准数据集。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,预处理模块,还用于:
将标准数据集中不符合数据处理要求的用户数据按照删除规则删除;
将标准数据集按行统计有效信息率,将有效信息率低于第四阈值的行数据删除。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,特征工程模块,具体用于:
从预处理数据中获取基础敏感数据;其中,所述基础敏感数据,包括:个人基础敏感数据和银行企业基础敏感数据;
将基础敏感数据进行特征工程,提取特征数据;其中,所述特征数据,包括:个人敏感数据特征和银行企业敏感数据特征。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,所述个人基础敏感数据,至少包括:身份证号码,电话号码,地址信息,邮箱信息;
特征工程模块,还用于:
从身份证号码中提取区域码、年龄和性别特征数据;
从电话号码中提取运营商和区域信息特征数据;
从地址信息中提取周边网点、大型商超、公共文化设施和公共交通站点特征数据;
从邮箱信息中提取邮箱类型、所属单位和网龄特征数据。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,所述银行企业基础敏感数据,至少包括:银行***客户号和企业信息;
特征工程模块,还用于:
从银行***客户号中提取客户注册时长特征数据;
从企业信息中提取企业规模、创建时长、是否五百强企业特征数据。
具体实施本发明实施例提供的一种数据漂白装置时,在一个实施例中,漂白模块,具体用于:
根据特征数据,从预处理数据中找出敏感信息;
在通用场景下,将敏感信息替换为统一值,确定脱敏数据;
在反欺诈应用场景下,将敏感信息使用MD5加密,确定脱敏数据。
综上,本发明实施例提供的一种数据漂白方法,从银行***中获取生产数据,通过对生产数据进行预处理,去除生产数据中的噪声和不规范数据,提高数据质量,得到预处理数据;然后把预处理数据进行特征工程,提取更多关键和有效信息,构成特征数据,可以减少后续漂白处理过程中的信息丢失,增强对用户隐私的保护;最后根据特征数据对预处理数据进行漂白处理,确定脱敏数据。本发明实施例的数据漂白方法,实现了对脱敏数据的高质量提取,可以减少开发人员前期的工作量,提高工作效率和工作质量,有利于将受限于现有技术而没有进行挖掘的存量数据进行有效利用,提高数据分析和数据建模结果的准确性。
在数据挖掘的传统步骤中,数据预处理和特征工程加工步骤是在数据采集、数据漂白之后,本发明是把数据预处理和受数据漂白影响的部分特征加工步骤提前,放到数据采集和数据漂白中间。减少了数据漂白造成信息损失并提高了开发人员工作效率。当前银行***保存了大量的贷款数据,却得不到有效的利用,正是由于缺乏高效的数据预处理和合理的数据漂白方法。本发明实现自动化进行数据预处理和数据漂白的方法和***,不仅数据分析和建模的开发人员和报表分析工作人员可以节省大量时间和工作量,更普遍的优点是之前没有得到挖掘的存量数据将得到有效利用,银行***的贷款数据可快速应用于风控和授信领域的应用上,帮助银行提前发现违约客户,扩大授信群,提高银行风控管理和授信管理的能力和效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据漂白方法,其特征在于,包括:
获取生产数据;
对生产数据进行数据预处理,确定预处理数据;
将预处理数据进行特征工程,确定特征数据;
根据特征数据对预处理数据进行漂白处理,确定脱敏数据;
对生产数据进行数据预处理,确定预处理数据,包括:
从生产数据中获取数据表、关联字段和主表,确定关联数据集;
对关联数据集进行相关性检验,去除冗余数据,确定精简数据集;
对精简数据集进行标准格式化处理,确定标准数据集;
去除标准数据集中的脏数据和无效用户数据,确定预处理数据;
从生产数据中获取数据表、关联字段和主表,确定关联数据集,包括:
从生产数据中获取多张数据表、关联字段和主表;
对每张数据表的每个字段统计原始空值总量占比,将原始空值总占比大于第一阈值的字段剔除掉,确定多张低空值数据表;
通过关联字段,将主表与多张低空值数据表进行匹配,统计无法匹配数据量占比,若该低空值数据表的无法匹配数据量占比大于第一阈值,则弃用这张低空值数据表,反之保留,确定多张待关联数据表;
通过关联字段,将多张待关联数据表拼接成一张宽表,确定关联数据集。
2.如权利要求1所述的方法,其特征在于,对关联数据集进行相关性检验,去除冗余数据,确定精简数据集,包括:
根据关联数据集,确定关联数据集特征;
将关联数据集特征中的特征进行比较;
在关联数据集特征的特征之间的相关性高于第二阈值时,删除其中数据量少的特征;
在设有目标特征时,检验其他特征与目标特征的相关性,在相关性低于第三阈值时,删除该特征;
将保留的关联数据集特征的冗余数据剔除,确定精简数据集。
3.如权利要求1所述的方法,其特征在于,对精简数据集进行标准格式化处理,确定标准数据集,包括:
对精简数据集进行标准格式化处理,校验修正精简数据集中特征的标准格式,统一时间特征和数值特征的表示格式,确定标准数据集。
4.如权利要求1所述的方法,其特征在于,去除标准数据集中的脏数据和无效用户数据,包括:
将标准数据集中不符合数据处理要求的用户数据按照删除规则删除;
将标准数据集按行统计有效信息率,将有效信息率低于第四阈值的行数据删除。
5.如权利要求1所述的方法,其特征在于,将预处理数据进行特征工程,确定特征数据,包括:
从预处理数据中获取基础敏感数据;其中,所述基础敏感数据,包括:个人基础敏感数据和银行企业基础敏感数据;
将基础敏感数据进行特征工程,提取特征数据;其中,所述特征数据,包括:个人敏感数据特征和银行企业敏感数据特征。
6.如权利要求5所述的方法,其特征在于,所述个人基础敏感数据,至少包括:身份证号码,电话号码,地址信息,邮箱信息;
所述提取特征数据,包括:
从身份证号码中提取区域码、年龄和性别特征数据;
从电话号码中提取运营商和区域信息特征数据;
从地址信息中提取周边网点、大型商超、公共文化设施和公共交通站点特征数据;
从邮箱信息中提取邮箱类型、所属单位和网龄特征数据。
7.如权利要求5所述的方法,其特征在于,所述银行企业基础敏感数据,至少包括:银行***客户号和企业信息;
所述提取特征数据,包括:
从银行***客户号中提取客户注册时长特征数据;
从企业信息中提取企业规模、创建时长、是否五百强企业特征数据。
8.如权利要求1所述的方法,其特征在于,根据特征数据对预处理数据进行漂白处理,确定脱敏数据,包括:
根据特征数据,从预处理数据中找出敏感信息;
在通用场景下,将敏感信息替换为统一值,确定脱敏数据;
在反欺诈应用场景下,将敏感信息使用MD5加密,确定脱敏数据。
9.一种数据漂白装置,其特征在于,包括:
数据获取模块,用于获取生产数据;
预处理模块,用于对生产数据进行数据预处理,确定预处理数据;
特征工程模块,用于将预处理数据进行特征工程,确定特征数据;
漂白模块,用于根据特征数据对预处理数据进行漂白处理,确定脱敏数据;
预处理模块,具体用于:
从生产数据中获取数据表、关联字段和主表,确定关联数据集;
对关联数据集进行相关性检验,去除冗余数据,确定精简数据集;
对精简数据集进行标准格式化处理,确定标准数据集;
去除标准数据集中的脏数据和无效用户数据,确定预处理数据;
预处理模块,还用于:
从生产数据中获取多张数据表、关联字段和主表;
对每张数据表的每个字段统计原始空值总量占比,将原始空值总占比大于第一阈值的字段剔除掉,确定多张低空值数据表;
通过关联字段,将主表与多张低空值数据表进行匹配,统计无法匹配数据量占比,若该低空值数据表的无法匹配数据量占比大于第一阈值,则弃用这张低空值数据表,反之保留,确定多张待关联数据表;
通过关联字段,将多张待关联数据表拼接成一张宽表,确定关联数据集。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法。
CN202010597178.4A 2020-06-28 2020-06-28 数据漂白方法和装置 Active CN111753331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010597178.4A CN111753331B (zh) 2020-06-28 2020-06-28 数据漂白方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010597178.4A CN111753331B (zh) 2020-06-28 2020-06-28 数据漂白方法和装置

Publications (2)

Publication Number Publication Date
CN111753331A CN111753331A (zh) 2020-10-09
CN111753331B true CN111753331B (zh) 2023-09-19

Family

ID=72678464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010597178.4A Active CN111753331B (zh) 2020-06-28 2020-06-28 数据漂白方法和装置

Country Status (1)

Country Link
CN (1) CN111753331B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110737651A (zh) * 2019-09-29 2020-01-31 武汉海昌信息技术有限公司 一种可还原脱敏的数据清洗及交换办法
CN111079174A (zh) * 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110737651A (zh) * 2019-09-29 2020-01-31 武汉海昌信息技术有限公司 一种可还原脱敏的数据清洗及交换办法
CN111079174A (zh) * 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及***

Also Published As

Publication number Publication date
CN111753331A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN109034993A (zh) 对账方法、设备、***及计算机可读存储介质
CN111262730B (zh) 一种告警信息的处理方法及装置
CN111125118B (zh) 关联数据查询方法、装置、设备及介质
CN111666346A (zh) 信息归并方法、交易查询方法、装置、计算机及存储介质
CN105630656A (zh) 基于日志模型的***健壮性分析方法及装置
CN105095436A (zh) 数据源数据自动建模方法
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
CN114547696A (zh) 文件脱敏方法、装置、电子设备及存储介质
CN111753331B (zh) 数据漂白方法和装置
CN111400187B (zh) 基于定制数据源的参数动态化校验***及方法
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
CN112561538B (zh) 风险模型创制方法、装置、计算机设备及可读存储介质
CN113987206A (zh) 异常用户的识别方法、装置、设备及存储介质
CN114511330A (zh) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及***
CN114579711A (zh) 诈骗应用程序的识别方法、装置、设备及存储介质
CN109977385B (zh) 一种数据智能填充方法、装置、存储介质及终端
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN111984798A (zh) 图谱数据预处理方法及装置
CN112256685A (zh) 基于电子表格的分割去重导入方法及相关产品
CN110765236A (zh) 一种非结构化海量数据的预处理方法及***
CN111078668A (zh) 数据生成方法、装置、电子设备和存储介质
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
CN117112846B (zh) 一种多信息源证照信息管理方法、***及介质
CN116663003A (zh) 攻击检测方法、装置、计算机设备及存储介质
CN112200655A (zh) 一种申请审核方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant