CN112069540A - 敏感信息处理方法、装置及介质 - Google Patents

敏感信息处理方法、装置及介质 Download PDF

Info

Publication number
CN112069540A
CN112069540A CN202010926974.8A CN202010926974A CN112069540A CN 112069540 A CN112069540 A CN 112069540A CN 202010926974 A CN202010926974 A CN 202010926974A CN 112069540 A CN112069540 A CN 112069540A
Authority
CN
China
Prior art keywords
field
sensitive
suspected
acquiring
sensitive field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010926974.8A
Other languages
English (en)
Inventor
李佳佳
左颖辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010926974.8A priority Critical patent/CN112069540A/zh
Publication of CN112069540A publication Critical patent/CN112069540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及区块链技术领域,具体涉及一种敏感信息处理方法、装置及介质,其中方法包括:获取测试数据中的第一疑似敏感字段;若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。采用本申请,可避免脱敏规则对应的敏感信息泄露,提高了数据的安全性。

Description

敏感信息处理方法、装置及介质
技术领域
本申请涉及区块链技术领域,主要涉及了一种敏感信息处理方法、装置及介质。
背景技术
在日常的项目开发测试中,需要用到海量的测试数据。为了消除测试数据和实际生产中的生产数据之间数据量级和数据分布上的差异,将生产数据作为测试数据进行测试。且为了避免敏感信息泄露,在生产数据库导入测试数据库之前,将生产数据中的敏感信息(例如,姓名、身份证号、电话号码、邮箱等)进行脱敏处理。在现有技术中,脱敏处理按照人工配置的脱敏规则执行。然而,人工配置存在配置不及时、配置不完整的问题,易导致敏感信息泄露。
发明内容
本申请实施例提供了一种敏感信息处理方法、装置及介质,能够避免敏感信息泄露,可提高数据的安全性。
第一方面,本申请实施例提供一种敏感信息处理方法,其中:
获取测试数据中的第一疑似敏感字段;
若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;
若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
第二方面,本申请实施例提供一种敏感信息处理装置,其中:
存储单元,用于存储预设敏感信息表和预设敏感信息例外表;
处理单元,用于获取测试数据中的第一疑似敏感字段;若所述第一疑似敏感字段不属于所述预设敏感信息表,且所述第一疑似敏感字段不属于所述预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
所述存储单元,还用于将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
第三方面,本申请实施例提供另一种敏感信息处理装置,包括处理器、存储器、通信接口以及一个或至少一个程序,其中,上述一个或至少一个程序被存储在上述存储器中,并且被配置由上述处理器执行,所述程序包括用于如第一方面中所描述的部分或全部步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行以实现如第一方面中所描述的部分或全部步骤。
实施本申请实施例,将具有如下有益效果:
采用了上述的敏感信息处理方法、装置及介质之后,若测试数据中的第一疑似敏感字段不属于预设敏感信息表,且也不属于预设敏感信息例外表,则获取该第一疑似敏感字段的敏感概率。并在第一敏感概率大于第一阈值时,获取第一疑似敏感字段的第一脱敏规则。然后将第一疑似敏感字段和第一脱敏规则添加至预设敏感信息表,可提高预设敏感信息表的全面性,避免脱敏规则对应的敏感信息泄露,提高了数据的安全性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请实施例提供的一种敏感信息处理方法的流程示意图;
图2为本申请实施例提供的另一种敏感信息处理方法的流程示意图;
图3为本申请实施例提供的一种测试项目中管理终端的设置页面的示意图;
图4为本申请实施例提供的一种管理终端的显示页面的示意图;
图5为本申请实施例提供的一种敏感信息处理装置的逻辑结构示意图;
图6为本申请实施例提供的一种敏感信息处理装置的实体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例应用的网络架构包括服务器和电子设备。其中,电子设备可以是个人计算机(personal computer,PC)、笔记本电脑或智能手机,还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。PC端用户终端,例如一体机等,其操作***可以包括但不限于Linux***、Unix***、Windows系列***(例如Windowsxp、Windows 7等)、Mac OS X***(苹果电脑的操作***)等操作***。移动端用户终端,例如智能手机等,其操作***可以包括但不限于安卓***、IOS(苹果手机的操作***)、Window***等操作***。
服务器与通用的计算机架构类似,包括处理器、硬盘、内存、***总线等,用于为电子设备提供服务。该服务器可以运行于单独的设备,也可以运行于多个服务器组成的服务器集群,在此不做限定。
本申请实施例中的电子设备可以安装并运行应用程序,服务器可以是电子设备所安装的应用程序对应的服务器,为应用程序提供应用服务。其中,应用程序可以是项目开发管理平台,也可以是敏感信息处理平台等,也可以是单独集成的应用程序,或其它应用中嵌入的小程序,获取网页上的***等,在此不做限定。本申请实施例不限定电子设备和服务器的数量,服务器可同时为多个电子设备提供服务。服务器可以用独立的服务器或者多个服务器组成的服务器集群来实现。
在本申请实施例中,可预先存储预设敏感信息表和预设敏感信息例外表。其中,预设敏感信息表,例如,sensitive_info_shield,包括敏感字段和该敏感字段对应的脱敏规则。预设敏感信息例外表,例如,test_sensitive_info_exclude,包括疑似敏感字段中的非敏感字段。可见,预设敏感信息表用于记录测试数据库中已经识别为敏感字段的信息,预设敏感信息例外表用于记录测试数据库中已经识别为非敏感字段的疑似敏感字段的信息。也就是说,若预设敏感信息表包括疑似敏感字段,则可确定该疑似敏感字段为敏感字段。若预设敏感信息例外表包括疑似敏感字段,则可排除该疑似敏感字段为敏感字段,该疑似敏感字段为非敏感字段。若预设敏感信息表和预设敏感信息例外表,均不包括该疑似敏感字段,则既不能确定该疑似敏感字段为敏感字段,也不能排除该疑似敏感字段为敏感字段。需要说明的是,敏感字段的脱敏规则可单独存储。
预设敏感信息表和预设敏感信息例外表还可包括字段列名、字段内容、表格标识、数据标识、表格名称等属性信息。其中,字段列名为字段的属性类名,例如:姓名、身份证号、电话号码等。字段内容为字段列名对应的值,即字段列名和字段内容属于属性-值的关系。表格标识用于表示表格,表格名称为该字段对应的测试数据的表格名称称。数据标识为测试数据的用户标识。
在本申请实施例中,上述的预设敏感信息表、预设敏感信息例外表和脱敏规则可存储于存储器,也可以存储于网络中的指定位置,例如,统一资源定位符(UniformResource Locator,URL)等。举例来说,预设敏感信息表的存储路径:http://XXX.com.cn/sensitive。
上述的预设敏感信息表、预设敏感信息例外表和脱敏规则还可存储于区块链网络上创建一个区块中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。可见,通过区块链分布式存储数据,在保证数据安全性的同时,可实现信息在不同平台之间的数据共享。
本申请实施例提出的一种敏感信息处理方法,该方法可以由敏感信息处理装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器中,可提高需求排期的效率。
请参照图1,图1是本申请提供的一种敏感信息处理方法的流程示意图。以该方面应用在服务器为例进行举例说明,包括如下步骤:
S101:获取测试数据中的第一疑似敏感字段。
在本申请实施例中,测试数据可以是测试数据库中的任一数据,也可以是新导入的数据或新修改的数据等,在此不做限定。第一疑似敏感字段为测试数据中的疑似敏感字段,可包括字段列名、字段内容、表格标识、数据标识、表格名称等,在此不做限定。
本申请对于获取第一疑似敏感字段的方法不做限定,可将测试数据与生产数据进行对比,选取修改的字段进行关键词检测。关键词可以是姓名对应的敏感字段包括客户姓名、投保人、被保人、用户名、中文名或英文名等,联系方式对应的敏感字段包括电话、手机、地址、邮件、传真机等,标识信息对应的敏感字段包括护照、身份证号、驾驶证、账号、籍贯、公司、股票代码、企业主页等。需要说明的是,上述敏感字段可以是中文字符,也可以是英文字符,或者其他语言等,在此不做限定。
在一种可能的示例中,步骤S101包括:根据预设敏感信息表获取多个敏感类别;根据所述多个敏感类别构建多个关键词;根据所述多个关键词生成关键词检测脚本;根据所述关键词检测脚本,获取测试数据中的第一疑似敏感字段。
其中,敏感类别包括姓名、联系方式和标识信息等个人信息类别。预设敏感信息表如前所述包括敏感字段,即针对已查询的敏感字段获取敏感字段涉及的敏感类别,再根据敏感类别构建关键词,可提高关键词的全面性。
关键词检测脚本是根据关键词检测敏感字段的方法,本申请对于生成关键词检测脚本的方法不做限定,可通过上述得到的多个关键词,以及关键词对应的正则表达式获取。例如:手机号码为11位数字,且首位为1;中国的身份证号码为18位数字,或17位数字和最后一位为大写英文字母X;邮箱包括特殊字符“@”和“.com”等。因此,可根据上述规则构建正则表达式。例如,手机号码的正则表达式可以是:1(3\d|47|5(?!4\d)|7(0|1|[6-8])|8\d)\d{8,8}。
举例来说,关键词检测脚本包括如下所示的查询代码,该查询代码根据结构化查询语言(Structured Query Language,SQL)。其中,sid为表格标识,owner为数据标识,table_name为表格名称,comment_name为字段列名,comments为字段内容。表格标识用于表示表格,表格名称为该字段对应的测试数据的表格名称称。
查询代码:
selectsid,owner,table_name,column_name,comments from all_col_comments
where(column_name like'%APP%NAME%'or column_name like'%CLIENT%NAME%'or column_name like'CHINESE%NAME%'or column_name like'%ENGLISH%NAME%'
orcolumn_name like'%ADDR%'or column_name like'%TEL%'or column_name like'%EML%'
or comments like'%客户姓名%'or comments like'%住址%'or commentslike'%电话%'or comments like'%证件号码%'or comments like'%帐号%'orcomments like'%公司%'
and(owner not in('SYS','APPMGR','APPQOSSYS','DBMGR','XDB','ORDSYS'))
and(owner||table_name in(select owner||object_name from All_objects awhere a.last_ddl_time>to_date('2019-10-26','yyyy-mm-dd')))
根据上述查询代码,可从all_col_comments的表格中查找日期在2019-10-26之后的表格,且字段列名中包括“APP NAME”、“CLIENT NAME”、“CHINESE NAME”、“ENGLISHNAME”、“ADDR”、“TEL”、“EML”字段的、或者字段内容包括“客户姓名”、“电话”、“住址”、“证件号码”、“帐号”、“公司”字段的,和数据标识不是'SYS','APPMGR','APPQOSSYS','DBMGR','XDB','ORDSYS'中的一个。
可以理解,在上述示例中,根据所述预设敏感信息表获取多个敏感类别,即针对已查询的敏感字段获取敏感字段涉及的敏感类别,再根据敏感类别构建关键词,可提高关键词的全面性。再根据多个关键词生成关键词检测脚本,并根据该关键词检测脚本获取测试数据中的第一疑似敏感字段,可提高获取疑似敏感字段的准确率。
本申请对于获取第一疑似敏感字段的时间不做限定,可以是在测试数据库更新之后,也可以是定时查询,例如14小时,24小时等。
在一种可能的示例中,在步骤S101之前,所述方法还包括:获取测试数据对应的测试数据库的敏感比例;根据所述敏感比例确定第一定时时长;在第一定时器的时间到达所述第一定时时长时,执行步骤S101。
其中,测试数据库可以是所有的测试数据的集合,也可以是测试数据对应的测试小组的数据集合,在此不做限定。敏感比例是指敏感字段占测试数据库的比例值,可以是敏感字段的数量与测试数据库中数据总量之间的比值,在此也不做限定。
第一定时器为服务器中的一个定时装置,用于计时,并在时间到达第一定时时长时执行步骤S101。在执行步骤S101时重新计时,或者在测试数据库中的测试数据均检测完成之后重新计时,在此不做限定。
本申请可根据预先设置的敏感比例与定时时长之间的映射关系确定第一定时时长,如下表所示,在敏感比例为0.5时,定时时长为1周。
敏感比例 定时时长
(0,0.3] 12小时
(0.3,0.7] 1周
(0.7,1] 1月
可以理解,在敏感比例越大时,表示该测试数据库中遗漏的敏感字段的概率越小。在该示例中,根据测试数据库的敏感比例确定第一定时时长,并在第一定时器的时间到达第一定时时长时,执行步骤S101,可避免电子设备频繁检测疑似敏感字段,减少了功耗。
进一步的,在一种可能的示例中,获取所述预设敏感信息表的第一更新频率,以及所述预设敏感信息例外表的第二更新频率;根据所述敏感比例获取第二定时时长;根据所述第一更新频率和所述第二更新频率获取第三定时时长;根据所述第二定时时长和所述第三定时时长获取第一定时时长。
其中,第一更新频率用于描述单位时间(例如,一天、一周、一月等)内更新预设敏感信息表的数量,第二更新频率用于描述单位时间内更新预设敏感信息例外表的数量。可见,第一更新频率和第二更新频率分别用于描述对应表的更新频率。更新频率越大,表示测试数据库中遗漏的敏感字段的概率越大。
可以理解,根据敏感比例获取第二定时时长,以及根据第一更新频率和第二更新频率获取第三定时时长。再根据第二定时时长和第三定时时长获取定时时长,可提高定时监控的有效性。
S102:若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率。
在本申请实施例中,敏感概率用于描述第一疑似敏感字段为敏感字段的概率值。如前所述,若第一疑似敏感字段不属于预设敏感信息表,且也不属于预设敏感信息例外表,则既不能确定该疑似敏感字段为敏感字段,也不能排除该疑似敏感字段为敏感字段。因此,获取第一疑似敏感字段的敏感概率,可提高识别敏感字段的准确率。
本申请对于获取敏感概率的方法不做限定,在一种可能的示例中,步骤S302包括:从生产数据库中,根据所述测试数据的数据标识,获取所述测试数据对应的生产数据;从所述生产数据中,根据所述第一疑似敏感字段的目标字段列名,获取第一字段;获取所述第一字段和所述第一疑似敏感字段之间的相似值;根据所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
其中,测试数据的数据标识具有唯一性,且非敏感字段,用于获取生产数据库中与测试数据对应的生成数据,即原数据。目标字段列名可以是在获取第一疑似敏感字段的过程确定为疑似敏感字段的关键字。相似值用于第一字段和第一疑似敏感字段之间的相似度。
可以理解,根据测试数据的数据标识,先从生产数据库中获取测试数据对应的生产数据,再根据第一疑似敏感字段的目标字段列名,从生产数据获取第一字段。然后获取第一字段和第一疑似敏感字段之间的相似值,根据该相似值获取第一疑似敏感字段的第一敏感概率。也就是说,根据脱敏之后的字段和脱敏之前的字段之间的差异性获取敏感概率,可提高获取敏感概率的准确率。
进一步的,在一种可能的示例中,在所述获取所述第一字段和所述第一疑似敏感字段之间的相似值之后,所述方法还包括:获取所述测试数据的操作信息;根据所述操作信息获取所述第一疑似敏感字段的第二敏感概率;根据所述第二敏感概率和所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
其中,操作信息可以包括操作表名、操作字段名称、操作字段内容、操作类型(例如,数据增加、删除、修改和查询)等信息。本申请对于获取操作信息的方法不做限定,可获取第三方应用的交互操作指令,再识别该交互操作指令得到操作信息。
可以理解,操作信息是一种动态的交互信息,在脱敏之后的字段和脱敏之前的字段之间的相似值的基础上,通过对动态的交互信息进行校验,可提高识别敏感信息的准确率。
S103:若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则。
在本申请实施例中,第一阈值不做限定,可以是50%。在一种可能的示例中,所述方法还包括:根据所述敏感比例获取所述第一阈值。可以理解,敏感比例用于描述敏感字段占测试数据库的比例,依据该敏感比例动态设置第一阈值,可提高识别敏感信息的准确率。
在本申请实施例中,第一脱敏规则为第一字段转化为第一疑似敏感字段的规则。第一脱敏规则可根据敏感字段的字段列名进行确定,也可根据生产数据的源数据进行比对,再反计算得到,在此不做限定。
在一种可能的示例中,步骤S103包括:从所述预设敏感信息表中,根据所述数据标识,获取所述生产数据对应的第二脱敏规则;根据所述第二脱敏规则,对所述第一字段进行脱敏处理,得到第二字段;根据所述第二字段和所述第一疑似敏感字段,获取所述第一疑似敏感字段的第一脱敏规则。
其中,第二脱敏规则可以是生产数据对应的预设脱敏规则,也可以是生产数据对应的数据表格的脱敏规则。第二字段为依据第二脱敏规则,对第一字段进行脱敏处理得到的字段。
可以理解,在该示例中,先根据之前约定的第二脱敏规则,对第一字段进行脱敏处理得到第二字段,再对第二字段和第一疑似敏感字段进行分析,得到第一脱敏规则,可进一步提高获取脱敏规则的准确率。
S104:将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
如前所述,预设敏感信息表包括敏感字段和敏感字段的脱敏规则。在第一敏感概率大于第一阈值时,表示该第一疑似敏感字段为敏感字段。因此,将第一疑似敏感字段和第一脱敏规则添加至预设敏感信息表,可提高预设敏感信息表的全面性,避免该脱敏规则对应的敏感信息泄露,提高了数据的安全性。
在图1所示的方法中,若测试数据中的第一疑似敏感字段不属于预设敏感信息表,且也不属于预设敏感信息例外表,则获取该第一疑似敏感字段的敏感概率。并在第一敏感概率大于第一阈值时,获取第一疑似敏感字段的第一脱敏规则。然后将第一疑似敏感字段和第一脱敏规则添加至预设敏感信息表,可提高预设敏感信息表的全面性,避免该脱敏规则对应的敏感信息泄露,提高了数据的安全性。
在一种可能的示例中,在步骤S102之后,若所述第一敏感概率小于或等于所述第一阈值,则将所述第一疑似敏感字段添加至所述预设敏感信息例外表。
可以理解,在第一敏感概率小于或等于第一阈值时,表示第一疑似敏感字段为敏感字段的概率较小,可确定第一疑似敏感字段为非敏感字段。然后,将第一疑似敏感字段添加至预设敏感信息例外表,可提高预设敏感信息例外表的全面性,在下次识别到该第一疑似敏感字段时,可直接确定为非敏感字段,可提高识别效率。
请参照图2,图2是本申请提供的另一种敏感信息处理方法的流程示意图。以该方面应用在服务器为例进行举例说明,包括如下步骤:
S201:获取测试数据中的第一疑似敏感字段。
S202:若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率。
其中,步骤S201和步骤S202可参照步骤S101和步骤S102的描述,在此不再赘述。
S203:若所述第一敏感概率小于或等于第一阈值,则向所述测试数据对应的管理终端发送所述第一疑似敏感字段的属性信息。
在本申请实施例中,管理终端是预先绑定的管理人员的联系方式对应的显示设备。例如,联系方式为邮件,则管理终端为管理人员登录邮件应用(或小程序,公众号等)的电子设备。
第一疑似敏感字段的属性信息可包括字段的表格标识、数据标识、表格名称、字段列名和字段内容,也可包括敏感概率等,在此不做限定。
该管理人员可以与测试项目对应。如图3所示,测试项目的设置页面中,包括项目名称、联系邮箱、邮件模板和内容类型。其中,项目名称为“【敏感信息检查】ABC测试库敏感信息检查”,即ABC测试库的敏感信息检查。联系邮箱为管理人员的邮箱,在图3中为[email protected]。邮件模板为向管理人员发送邮件的模板,内容类型为邮件模板的编写语言。在图3中采用超级文本标记语言(Hyper Text Markup Language,HTML)设置邮件格式。如此,可通过管理人员的联系方式([email protected]),向管理终端发送第一疑似敏感字段的属性信息,且属性信息按照邮件模板的形式发送。
如图4所示,管理终端的显示页面中,包括管理人员的头像和联系邮箱(即收件人)、接收时间(2020.07.25(周六)14:30)、项目名称(【敏感信息检查】ABC测试库敏感信息检查)和第一疑似敏感字段的属性信息。其中,属性信息以表格的形式呈现。该表格包括字段的表格标识、数据标识、表格名称、字段列名和字段内容。如此,管理人员在查看该邮件时,获取第一疑似敏感字段的属性信息,从而判断该第一疑似敏感字段是否为敏感字段。
S204:若接收到所述管理终端针对所述属性信息的确认指令,则获取所述第一疑似敏感字段的第一脱敏规则。
在本申请实施例中,确认指令用于指示第一疑似敏感字段为敏感字段。第一脱敏规则可参照步骤S103的描述,在此不再赘述。
S205:将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
在图2所示的方法中,若测试数据中的第一疑似敏感字段不属于预设敏感信息表,且也不属于预设敏感信息例外表,则获取该第一疑似敏感字段的敏感概率。并在第一敏感概率小于或等于第一阈值时,向测试数据对应的管理终端发送第一疑似敏感字段的属性信息。在接收到管理终端针对属性信息的确认指令,则确定第一疑似敏感字段为敏感字段。然后获取第一疑似敏感字段的第一脱敏规则,将第一疑似敏感字段和第一脱敏规则添加至预设敏感信息表,可提高预设敏感信息表的全面性,避免该脱敏规则对应的敏感信息泄露,提高了数据的安全性。
在一种可能的示例中,在步骤S203之后,若接收到所述管理终端针对所述属性信息的否认指令,则将所述第一疑似敏感字段添加至所述预设敏感信息例外表。
在本申请实施例中,否认指令用于指示第一疑似敏感字段为非敏感字段。可以理解,在接收到管理终端发送的否认指令时,可确定第一疑似敏感字段为非敏感字段。然后,将第一疑似敏感字段添加至预设敏感信息例外表,可提高预设敏感信息例外表的全面性,在下次识别到该第一疑似敏感字段时,可直接确定为非敏感字段,可提高识别效率。
在一种可能的示例中,若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则向所述测试数据对应的管理终端发送所述第一疑似敏感字段的属性信息。
可以理解,在预设敏感信息表和预设敏感信息例外表不能确定疑似敏感字段为敏感字段,或非敏感字段时,引入人工判断,可避免自动化处理造成的错误识别,提高了确定敏感信息的准确性。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
与图1和图2所示的实施例一致,请参照图5,图5是本申请提出的一种敏感信息处理装置的结构示意图,如图5所示,上述敏感信息处理装置500包括:
存储单元503,用于存储预设敏感信息表和预设敏感信息例外表;
处理单元501,用于获取测试数据中的第一疑似敏感字段;若所述第一疑似敏感字段不属于所述预设敏感信息表,且所述第一疑似敏感字段不属于所述预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
所述存储单元503,还用于将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
在一个可能的示例中,所述处理单元501具体用于从生产数据库中,根据所述测试数据的数据标识,获取所述测试数据对应的生产数据;从所述生产数据中,根据所述第一疑似敏感字段的目标字段列名,获取第一字段;获取所述第一字段和所述第一疑似敏感字段之间的相似值;根据所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
在一个可能的示例中,在所述获取所述第一字段和所述第一疑似敏感字段之间的相似值之后,所述处理单元501还用于获取所述测试数据的操作信息;根据所述操作信息获取所述第一疑似敏感字段的第二敏感概率;根据所述第二敏感概率和所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
在一个可能的示例中,所述处理单元501具体用于从所述预设敏感信息表中,根据所述数据标识,获取所述生产数据对应的第二脱敏规则;根据所述第二脱敏规则,对所述第一字段进行脱敏处理,得到第二字段;根据所述第二字段和所述第一疑似敏感字段,获取所述第一疑似敏感字段的第一脱敏规则。
在一个可能的示例中,所述处理单元501具体用于根据所述预设敏感信息表获取多个敏感类别;根据所述多个敏感类别构建多个关键词;根据所述多个关键词生成关键词检测脚本;根据所述关键词检测脚本,获取测试数据中的第一疑似敏感字段。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的第一敏感概率之后,所述敏感信息处理装置500还包括通信单元502,用于若所述敏感概率小于或等于所述第一阈值,则向所述测试数据对应的管理终端发送所述第一疑似敏感字段的属性信息;
所述处理单元501还用于若所述通信单元502接收到所述管理终端针对所述属性信息的确认指令,则执行所述获取所述第一疑似敏感字段的第一脱敏规则的步骤;或者,若所述通信单元502接收到所述管理终端针对所述属性信息的否认指令,则将所述第一疑似敏感字段添加至所述预设敏感信息例外表。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的脱敏规则之前,所述处理单元501还用于获取所述测试数据对应的测试数据库的敏感比例;根据所述敏感比例获取定时时长;在第一定时器的时间到达所述第一定时时长时,执行所述获取所述第一疑似敏感字段的脱敏规则的步骤。
该敏感信息处理装置500中各个单元执行详细过程可以参见前述方法实施例中的执行步骤,此处不在赘述。
与图2的实施例一致,请参照图6,图6是本申请实施例提供的另一种敏感信息处理装置的结构示意图,该敏感信息处理装置为电子设备或需求文档处理应用对应的服务器。如图6所示,该敏感信息处理装置600包括处理器610、存储器620、通信接口630以及一个或至少一个程序640。图5所示的通信单元502所实现的相关功能可通过通信接口630来实现,图5所示的存储单元503所实现的相关功能可通过存储器620来实现,图5所示的处理单元501所实现的相关功能可通过处理器610来实现。
上述一个或至少一个程序640被存储在上述存储器620中,并且被配置由上述处理器610执行,上述程序640包括用于执行以下步骤的指令:
获取测试数据中的第一疑似敏感字段;
若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;
若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的第一敏感概率方面,所述程序640具体用于执行以下步骤的指令:
从生产数据库中,根据所述测试数据的数据标识,获取所述测试数据对应的生产数据;
从所述生产数据中,根据所述第一疑似敏感字段的目标字段列名,获取第一字段;
获取所述第一字段和所述第一疑似敏感字段之间的相似值;
根据所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
在一个可能的示例中,在所述获取所述第一字段和所述第一疑似敏感字段之间的相似值之后,所述程序640还用于执行以下步骤的指令:
获取所述测试数据的操作信息;
根据所述操作信息获取所述第一疑似敏感字段的第二敏感概率;
根据所述第二敏感概率和所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的第一脱敏规则方面,所述程序640具体用于执行以下步骤的指令:
从所述预设敏感信息表中,根据所述数据标识,获取所述生产数据对应的第二脱敏规则;
根据所述第二脱敏规则,对所述第一字段进行脱敏处理,得到第二字段;
根据所述第二字段和所述第一疑似敏感字段,获取所述第一疑似敏感字段的第一脱敏规则。
在一个可能的示例中,在所述获取测试数据中的第一疑似敏感字段方面,所述程序640具体用于执行以下步骤的指令:
根据所述预设敏感信息表获取多个敏感类别;
根据所述多个敏感类别构建多个关键词;
根据所述多个关键词生成关键词检测脚本;
根据所述关键词检测脚本,获取测试数据中的第一疑似敏感字段。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的第一敏感概率之后,所述程序640还用于执行以下步骤的指令:
若所述敏感概率小于或等于所述第一阈值,则向所述测试数据对应的管理终端发送所述第一疑似敏感字段的属性信息;
若接收到所述管理终端针对所述属性信息的确认指令,则执行所述获取所述第一疑似敏感字段的第一脱敏规则的步骤;或者,
若接收到所述管理终端针对所述属性信息的否认指令,则将所述第一疑似敏感字段添加至所述预设敏感信息例外表。
在一个可能的示例中,在所述获取所述第一疑似敏感字段的脱敏规则之前,所述程序640还用于执行以下步骤的指令:
获取所述测试数据对应的测试数据库的敏感比例;
根据所述敏感比例获取定时时长;
在第一定时器的时间到达所述第一定时时长时,执行所述获取所述第一疑似敏感字段的脱敏规则的步骤。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于存储计算机程序,该计算机程序使得计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤,计算机包括电子设备和服务器。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机程序可操作来使计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件第一安装包,计算机包括电子设备和服务器。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模式并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如至少一个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到至少一个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模式的形式实现。
集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。根据这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种敏感信息处理方法,其特征在于,包括:
获取测试数据中的第一疑似敏感字段;
若所述第一疑似敏感字段不属于预设敏感信息表,且所述第一疑似敏感字段不属于预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;
若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一疑似敏感字段的第一敏感概率,包括:
从生产数据库中,根据所述测试数据的数据标识,获取所述测试数据对应的生产数据;
从所述生产数据中,根据所述第一疑似敏感字段的目标字段列名,获取第一字段;
获取所述第一字段和所述第一疑似敏感字段之间的相似值;
根据所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
3.根据权利要求2所述的方法,其特征在于,在所述获取所述第一字段和所述第一疑似敏感字段之间的相似值之后,所述方法还包括:
获取所述测试数据的操作信息;
根据所述操作信息获取所述第一疑似敏感字段的第二敏感概率;
根据所述第二敏感概率和所述相似值,获取所述第一疑似敏感字段的第一敏感概率。
4.根据权利要求2所述的方法,其特征在于,所述获取所述第一疑似敏感字段的第一脱敏规则,包括:
从所述预设敏感信息表中,根据所述数据标识,获取所述生产数据对应的第二脱敏规则;
根据所述第二脱敏规则,对所述第一字段进行脱敏处理,得到第二字段;
根据所述第二字段和所述第一疑似敏感字段,获取所述第一疑似敏感字段的第一脱敏规则。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取测试数据中的第一疑似敏感字段,包括:
根据所述预设敏感信息表获取多个敏感类别;
根据所述多个敏感类别构建多个关键词;
根据所述多个关键词生成关键词检测脚本;
根据所述关键词检测脚本,获取测试数据中的第一疑似敏感字段。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述获取所述第一疑似敏感字段的第一敏感概率之后,所述方法还包括:
若所述敏感概率小于或等于所述第一阈值,则向所述测试数据对应的管理终端发送所述第一疑似敏感字段的属性信息;
若接收到所述管理终端针对所述属性信息的确认指令,则执行所述获取所述第一疑似敏感字段的第一脱敏规则的步骤;或者,
若接收到所述管理终端针对所述属性信息的否认指令,则将所述第一疑似敏感字段添加至所述预设敏感信息例外表。
7.根据权利要求1-4中任一项所述的方法,其特征在于,在所述获取所述第一疑似敏感字段的脱敏规则之前,所述方法还包括:
获取所述测试数据对应的测试数据库的敏感比例;
根据所述敏感比例获取定时时长;
在第一定时器的时间到达所述第一定时时长时,执行所述获取所述第一疑似敏感字段的脱敏规则的步骤。
8.一种敏感信息处理装置,其特征在于,包括:
存储单元,用于存储预设敏感信息表和预设敏感信息例外表;
处理单元,用于获取测试数据中的第一疑似敏感字段;若所述第一疑似敏感字段不属于所述预设敏感信息表,且所述第一疑似敏感字段不属于所述预设敏感信息例外表,则获取所述第一疑似敏感字段的第一敏感概率;若所述第一敏感概率大于第一阈值,则获取所述第一疑似敏感字段的第一脱敏规则;
所述存储单元,还用于将所述第一疑似敏感字段和所述第一脱敏规则添加至所述预设敏感信息表。
9.一种敏感信息处理装置,其特征在于,包括处理器、存储器、通信接口以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-7任一项所述的方法。
CN202010926974.8A 2020-09-04 2020-09-04 敏感信息处理方法、装置及介质 Pending CN112069540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010926974.8A CN112069540A (zh) 2020-09-04 2020-09-04 敏感信息处理方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010926974.8A CN112069540A (zh) 2020-09-04 2020-09-04 敏感信息处理方法、装置及介质

Publications (1)

Publication Number Publication Date
CN112069540A true CN112069540A (zh) 2020-12-11

Family

ID=73663683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010926974.8A Pending CN112069540A (zh) 2020-09-04 2020-09-04 敏感信息处理方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112069540A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835903A (zh) * 2021-02-01 2021-05-25 上海上讯信息技术股份有限公司 一种敏感数据识别的方法及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
WO2019134339A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 脱敏方法、程序、应用服务器及计算机可读存储介质
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN111191281A (zh) * 2019-12-25 2020-05-22 平安信托有限责任公司 数据脱敏处理方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
WO2019134339A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 脱敏方法、程序、应用服务器及计算机可读存储介质
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN111191281A (zh) * 2019-12-25 2020-05-22 平安信托有限责任公司 数据脱敏处理方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘聪 等: "结合触发事件及词性分析的敏感信息识别方法", 《计算机工程与应用》, 30 October 2019 (2019-10-30), pages 1 - 8 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835903A (zh) * 2021-02-01 2021-05-25 上海上讯信息技术股份有限公司 一种敏感数据识别的方法及设备

Similar Documents

Publication Publication Date Title
CN111400765B (zh) 一种隐私数据的访问方法、装置及电子设备
CN105391674B (zh) 一种信息处理方法及***、服务器、客户端
CN106713579B (zh) 一种电话号码识别方法及装置
CN109446837B (zh) 基于敏感信息的文本审核方法、设备及可读存储介质
CN108009435B (zh) 数据脱敏方法、装置及存储介质
CN105653947B (zh) 一种评估应用数据安全风险的方法及装置
CN113364753B (zh) 反爬虫方法、装置、电子设备及计算机可读存储介质
CN110389941B (zh) 数据库校验方法、装置、设备及存储介质
CN111783138A (zh) 敏感数据检测方法、装置、计算机设备及存储介质
CN109711189B (zh) 数据脱敏方法及装置、存储介质、终端
CN115238286A (zh) 一种数据防护方法、装置、计算机设备及存储介质
CN116432604A (zh) 一种数据校验方法、装置及电子设备
CN108684044B (zh) 一种用户行为检测***、方法及装置
CN111737746A (zh) 一种基于java注解的动态配置数据脱敏的方法
CN113282591B (zh) 权限过滤方法、装置、计算机设备及存储介质
CN114491646A (zh) 数据脱敏方法、装置、电子设备及存储介质
CN112069540A (zh) 敏感信息处理方法、装置及介质
CN113869789A (zh) 一种风险监控的方法、装置、计算机设备及存储介质
CN110472121B (zh) 名片信息搜索方法、装置、电子设备以及计算机可读存储介质
CN115544566A (zh) 日志脱敏方法、装置、设备及存储介质
CN115544558A (zh) 敏感信息检测方法、装置、计算机设备及存储介质
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN114662114A (zh) 基于日志的代码脱敏漏洞检测方法及相关设备
CN114912003A (zh) 文档搜索方法、装置、计算机设备及存储介质
CN114707180A (zh) 日志脱敏方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination