CN109740359B - 用于数据脱敏的方法、装置及存储介质 - Google Patents
用于数据脱敏的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109740359B CN109740359B CN201811622137.5A CN201811622137A CN109740359B CN 109740359 B CN109740359 B CN 109740359B CN 201811622137 A CN201811622137 A CN 201811622137A CN 109740359 B CN109740359 B CN 109740359B
- Authority
- CN
- China
- Prior art keywords
- sequence
- data
- replacement
- character
- value character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明的实施例公开了一种用于数据脱敏的方法、装置及存储介质。该方法包括:确定数据表格中待脱敏的多个数据字段;为数据表格的每一行计算用于对该多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;逐行地利用相应行的脱敏字符串序列对多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。通过以上方法,使得可以高效地对数据表格中的敏感数据进行脱敏,并且能够有效地确保脱敏结果不会发生重复。
Description
技术领域
本发明的实施例总体上涉及数据处理领域,并且更具体地涉及用于数据脱敏的方法、装置及存储介质。
背景技术
数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形,其是指对某些敏感信息通过脱敏规则进行数据的变形,以实现对敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反***规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、银行***、客户号等个人信息都需要进行数据脱敏。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
发明内容
针对现有技术中存在的技术问题以及其他潜在的技术问题,本发明的实施例提供了用于数据脱敏的方法、装置及存储介质。
在本发明的第一方面,提供了一种用于数据脱敏的方法,包括:确定数据表格中待脱敏的多个数据字段;为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;以及逐行地利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。
在本发明的第二方面,提供了一种用于数据脱敏的装置,包括:处理器;存储器,所述存储器耦合至所述处理器并且存储有指令,当所述指令执行时使得所述处理器执行以下动作:确定数据表格中待脱敏的多个数据字段;为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;以及逐行地利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。
在本发明的第三方面,提供了一种计算机可读存储介质,其具有存储在其上的计算机可执行指令,所述计算机可执行指令在设备中运行时使得所述设备执行根据本发明的第一方面所述的方法。
经由本发明的第一方面所述的方法,使得可以高效地对数据表格中的敏感数据进行脱敏,并且能够有效地确保脱敏结果不会发生重复。
附图说明
图1例示了根据本发明的实施例的用于数据脱敏的方法100的流程图;
图2例示了为数据表格的每一行计算脱敏字符串序列的过程200的流程图。
图3例示了利用相应行的脱敏字符串序列对多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的过程300的流程图。
图4例示了基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配替换字符串序列的过程400的流程图。
图5例示了在数据值字符序列中不包括前面提到的数据值字符子序列的情况下,从为该数据值字符序列分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换的过程500的流程图。
图6例示了在该数据值字符序列中包括前面提到的数据值字符子序列的情况下,从为该数据值字符序列分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换的过程600的流程图。
图7例示了根据本发明的实施例的用于数据脱敏的方法700的流程图
图8例示了用于实施本发明的实施例的用于数据脱敏的装置800的示意性框图。
具体实施方式
下面将参照附图更详细地描述本发明的各个示例性实施例。虽然附图中流程图和示意图显示了本发明的一些实施例,然而应当理解的,本发明可以通过各种形式来实现,而且不应被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于说明性作用,并非用于限制本发明的保护范围。
为了便于描述,下面对本发明中出现的一些术语进行说明,应当理解,本申请所使用的术语应解释为具有与其在本申请说明书的上下文以及有关领域中的意义一致的意义。本发明中的术语“包括”、“包含”及类似术语应当被理解为是开放性的术语,即“包括但不限于”,表示还可以包括其他内容。
在本发明的实施例中,“待脱敏的多个数据字段”是用于指示其在数据表格的每一行的数据值需要被脱敏的多个列的数据字段。
在本发明的实施例中,“数据值字符序列”是指由某个数据字段在数据表格的某一行中的数据值中包括的所有字符形成的序列,例如数据值1234abc的字符序列指由字符1、2、3、4、a、b、c组成的序列。
在本发明的实施例中,“脱敏字符串序列”是指可用于对数据表格中待脱敏的多个数据字段中的每一数据字段在该数据表格的相应行的数据值字符序列进行脱敏的字符串序列。
在本发明的实施例中,“替换字符串序列”是指为相应的数据值字符序列分配的字符串序列,可从该字符串序列中选择多个字符来用于对该数据值字符序列进行替换。
在本发明的实施例中,“替换值字符序列”是指为相应的数据值字符序列分配的替换字符串序列中最终用于对该相应的数据值字符序列进行脱敏的字符串序列。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
应当理解,给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解并实现被公开的实施例,而并非以任何方式限制发明的范围。
在工作和生活中,对于数据的使用需求是多种多样的,比如:需要使用数据来进行应用***的测试、与合作方间进行***对接测试、数据分析和报告等。然而,当在此类测试或报表等工作上使用数据时,如果使用明文数据则可能造成重大的安全隐患及法律风险。
目前,通常使用以下三种方式来处理这种情况:
方式1:使用少量明文生产数据。
方式2:使用通过特定的算法计算的原始数据的哈希散列值来替代明文数据。
方式3:对原始数据进行一定程序的变更以达到遮盖部分明文数据的目的。
上述方式1主要通过控制所使用的明文数据的量来降低当在数据使用过程中发生数据泄漏时可能产生的风险及损失。但是该方式存在一定的问题,一来无法界定什么样的数据量是能够接受的,二来数据本身是不存在优先级的,即便是少量的数据,泄露了也一定会对数据的所有者造成影响,因此是当前注重安全的公司中不会采用的一种方式。
上述方式2和方式3可用于提供大量的数据的场景,但是其普遍存在的问题就是对数据原始格式的损坏,如将包含18个数字的身份证号变化为哈希散列后可能是总共包含512个英文字符和数字字符的字符串序列,虽然达到了脱敏的目的,但是破坏了原始的数据结构,从而导致数据的可用性大大降低,并可能对实际的测试和报表统计结果造成不可预知的影响。
为此,本发明的实施例提供了一种用于数据脱敏的方法、装置及存储介质,其通过利用数据表格中的某个数据字段在各行的数据值字符序列进行加密计算以得到针对该行的脱敏字符串序列,并利用计算出的脱敏字符串序列对该数据表格中需要脱敏的各个数据字段的数据值字符序列进行替换,使得可以至少部分地实现以下益处:(1)脱敏的结果是定向的,即对同样的数据值字符序列多次执行脱敏能保持得到同样的脱敏结果;(2)脱敏的结果是平台产品的,即脱敏结果不会发生重复;(3)脱敏的结果与原数据值字符序列可保持同样的数据格式;(4)脱敏规则无法被容易地解析出。
图1例示了根据本发明的实施例的用于数据脱敏的方法100的流程图。该方法可由一个计算设备或可通过网络进行有线或无线通信的多个计算设备自动执行。计算设备可以是例如台式计算机、膝上型计算机、笔记本电脑、平台设备、蜂窝电话、智能电话等等。
在步骤101中,确定数据表格中待脱敏的多个数据字段。在一个实现中,该数据表格可以是单个数据表格。在另一实现中,该数据表格也可以是数据库***中通过一个或多个关键字段(例如,作为主键和外键的数据字段)相互关联的多个数据表格。仅作为示例,这里提到的多个数据字段可包括身份证号、手机号、银行***、用户姓名、区号或其他其数据值可涉及敏感信息的数据字段。
在步骤102中,为数据表格的每一行计算用于对该多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列。
如图2所示,例示了与图1中的步骤102有关的为数据表格的每一行计算脱敏字符串序列的过程200的流程图。
在步骤201中,从数据表格中选择用作计算该脱敏字符串序列的基础的基础字段。所选的基础字段可以是相关联的数据表格中的任一字段。优选地,所选的基础字段为数据表格中相应的数据值字符序列不会发生重复的数据字段,诸如用户标识、客户标识、交易标识等。在数据表格为数据库***中通过一个或多个关键字段相互关联的多个数据表格的情况下,所选的基础字段优选为最大范围地关联这些数据表格的数据字段,例如前面提到的一个或多个关键字段之一。
在步骤202中,通过对所选的基础字段在相应行的数据值字符序列应用第一杂凑算法来计算第一散列值。仅作为示例,第一杂凑算法可以是例如第一代安全哈希算法(SHA1)、第二代安全哈希算法(SHA2)、第512代安全哈希算法(SHA512)、第五代消息摘要算法(MD5)、高级加密标准算法(AES)、RSA或SALA等。优选地,第一杂凑算法可以用SHA1和MD5之一。
在步骤203中,通过对所选的基础字段在相应行的数据值字符序列应用不同于第一杂凑算法的第二杂凑算法来计算第二散列值。仅作为示例,第二杂凑算法也可以是例如SHA1、SHA2、SHA512、MD5、AES、RSA或SHLA等,只要该第二杂凑算法与第一杂凑算法不同就可以了。优选地,第二杂凑算法可以用SHA1和MD5中的另一者。
在步骤204中,通过将第一散列值和第二散列值拼接在一起来获得相应行的脱敏字符串序列。在本发明的实施例中,由于用于对需要脱敏的数据值字符序列进行替换的脱敏字符串序列是通过拼接利用两种不同的算法计算出的散列值来得到的,因此在脱敏的过程中发生替换值字符序列重复的可能性被大大地降低。
在本发明的实施例中,通过以上方法200计算出的脱敏字符串序列的长度通常为1024,但是该脱敏字符串序列的长度是可调整的。在本发明的实施例中脱敏字符串序列的长度指脱敏字符串序列中可包括的字符的数目。在本发明的实施例中,在该脱敏字符串序列的每一位置上的字符都为0-9和A-F之一,并且其中数字字符0-9中的一个字符通常能够替换数据值字符序列中的一个数字字符,字母字符A-F中的一个字符通常能够替换数据值字符序列中的两个数字字符。在本发明的实施例中,还可指定用于指示脱敏字符串序列中各个字符的位置的索引编号,该索引编号是从0开始步进1的自然证书序列(基于python规则)。在脱敏字符串序列的长度为1024的情况下,最大索引编号为1023。例如,对于以下脱敏字符串序列102BC90EA218DF49B82148374F98……,其中在索引编号为0的位置的字符为1,在索引编号为1的位置的字符为0,在索引编号为2的位置的字符为2,并以此类推。在以上示例中,当需要从脱敏字符串序列中选取保留字符串序列时,可使用索引编号来对该脱敏字符串序列进行分割,从而当例如需要定位在该脱敏字符串序列的第二个位置至第四个位置的字符时,可利用索引编号可快速得到结果“029”。
一般情况下,长度为1024的脱敏字符串序列对于对数据表格中的多个数据字段进行脱敏已经足够了,因为脱敏字符串序列的每一位置均可能是16个可能的字符之一(即,0-9和A-F之一),因此长度为1024的脱敏字符串序列存在16的1024次方的可能性,其远远超出了一般企业级数据库的行数。
但是,如果遇到数据表格中包括的待脱敏的数据字段非常多,从而长度为1024的脱敏字符串序列无法满足其脱敏需求的情况,则可从数据表格中选择第二基础字段或更多的基础字段作为计算该脱敏字符串序列的基础。并利用以上如图2所示的方法来利用该第二基础字段或更多的基础字段计算该第二脱敏字符串序列或其他脱敏字符串序列。随后,就可利用这些脱敏字符串序列来对需要脱敏的数据字段的数据值字符序列进行脱敏了。
回到图1所述的方法,在步骤103中,将计算出的脱敏字符串序列存储在相关联的存储设备中。例如,将计算出的脱敏字符串序列存储在远程字典服务器(redis)数据库中。在本发明的实施例中,存储设备(例如,redis数据库)可用于以键值对的形式存储与脱敏有关的数据,其中键的部分用于存储为每一行计算出的脱敏字符串序列,值的部分用于存储此后确定的用来替换各个需要脱敏的数据字段在相应行的数据值字符序列的替换值字符序列(关于替换值字符序列的确定将在以后作更详细的描述)。表1例示了在存储设备(例如,redis数据库)中针对数据表格中的某一行所存储的与脱敏有关的数据。
表1
在步骤104中,逐行地利用相应行的脱敏字符串序列对多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。
如图3所示,例示了涉及图1中的步骤104的利用相应行的脱敏字符串序列对多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的过程300的流程图。下面以对数据表格中的某一行进行脱敏为例,对该过程进行说明。
在步骤301中,判断针对该相应行的脱敏字符串序列是否已被获得(例如,被确定、被计算出、被存储等),例如,是否已被存储在存储设备(例如,redis数据库)中。
在步骤302中,在针对该相应行的脱敏字符串序列已被获得的情况下,判断用来替换相应数据字段在该相应行的数据值字符序列的替换值字符序列是否已被确定(例如,被选择、被计算出、被存储等),例如已被存储在存储设备(例如,redis数据库)中。否则(即在针对该相应行的脱敏字符串序列尚未被确定的情况下),根据图2所述的方法为该行计算相应的脱敏字符串序列。
在步骤303中,在用来替换相应数据字段在该相应行的数据值字符序列的替换值字符序列已被存储在存储设备中的情况下,前进至下一数据字段并对下一数据字段进行步骤302的操作,直到为该行的最后一个数据字段为止。如果是该行的最后一个数据字段,就可前进至下一行执行方法300。
在步骤304中,在用来替换相应数据字段在相应行的数据值字符序列的替换值字符序列尚未被确定(例如,尚未被存储在存储设备中)的情况下,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列,其中为不同数据字段在相应行的数据值字符序列分配的替换字符串序列不同。数据值字符序列的长度是指该数据值字符序列中可包括的字符(例如,数字字符、英文字符、中文字符、特殊字符等)的数目。例如,如果数据值字符序列为123456,则可认为该数据值字符序列的长度为6。又如,如果数据值字符序列为ABCDEF,则可认为该数据值字符序列的长度也为6。再如,如果数据值字符序列为李小明,则可认为该数据值字符序列的长度为3。在本发明的实施例中,数据格式可以指相应的数据值字符序列中包括字符的个数、包括字符的类型(数字、英文字母、中文字符、特殊字符等)、是否选自固定取值集合等等。
在步骤305中,从为相应数据字段在相应行的数据值字符序列分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换。
在步骤306中,将所选的替换值字符序列存储在存储设备中。例如按照以上表1的格式将所确定的替换值字符序列存储在例如redis数据库中。
如图4所示,例示了涉及图3中的步骤304的基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配替换字符串序列的过程400的流程图。
在步骤401,判断该数据值字符序列中是否包括来自固定取值集合的数据值字符子序列。例如,手机号码的前3位为号段,该号段的取值范围是固定的,均选自以下取值集合的一个:133、149、153、173、177、180、181、189、199、130、131、132、145、155、156、166、171、175、176、185、186、134、135、136、137、138、139、147、150、151、152、157、158、159、172、178、182、183、184、187、188、198。因此,在本发明的实施例中,此类数据值字符子序列可以按索引的方式被存储在固定取值集合中,并在替换时通过用另一索引值来在该固定取值集合中选择用于对该数据值字符子序列进行替换的替换值字符序列,从而实现对该类数据值字符序列的快速存取,并且还可确保其信息有效性不会因为替换而遭到破坏。例如,对于以上手机号码的号段的示例,在相关的固定取值集合中,例如可通过索引号0来获取序列133,通过索引号1来获取序列149……。在本发明的实施例中,银行贷记***中的用于识别卡组织及发卡行信息的银行标识代码(即BIN码)也属于这种情况。例如,国内银行卡按照数字开头的不同,分为不同的银行卡组织归属,其中以BIN号“4”字打头的银行卡属于VISA卡组织,以“5”字打头的属于MasterCard卡组织,以“9”字和“62”、“60”打头的属于***,而“62”、“60”打头的银联卡是符合国际标准的银联标准卡,可以在国外使用,这也是***近几年来主要发行的银行卡片。再如,在本发明的实施例中,中文字符、英文字符以及其他特殊字符均可被认为属于这种情况。例如,人的姓名中的姓氏均来自百家姓合集,因此可事先准备好这样的百家姓固定取值集合,以供用于对在姓名中出现的姓氏进行替换。在一种实现中,这种固定取值集合以索引的方式来存储各个相关的数据值字符序列。
在步骤402中,在该数据值字符序列中不包括这种数据值字符子序列的情况下,基于该数据值字符序列的长度来为该数据值字符序列分配替换字符串序列。优选地,为数据值字符序列分配的替换字符串序列的长度为该数据值字符序列的长度的2倍。
在步骤403中,在该数据值字符序列中包括这种数据值字符子序列的情况下,基于固定取值集合中包括的可选数据值字符序列的数量以及该数据值字符序列除去该数据值字符子序列以后的剩余数据值字符序列的长度来分配替换字符串序列。这时,针对数据值字符序列的数据值字符子序列和剩余数据值字符序列,所分配的替换字符串序列可包括两个部分,即分别用于数据值字符子序列和剩余数据值字符序列的替换的索引替换字符串序列和关键替换字符串序列,其中索引替换字符串序列的长度取决于固定取值集合中包括的可选数据值字符序列的数量,关键替换字符串序列的长度取决于剩余数据值字符序列的长度(其优选为剩余数据值字符序列的长度的2倍)。例如,在一个示例中,假设固定取值集合中包括的可选数据值字符序列的数量为Z,且剩余数据值字符序列的长度为L,则可例如基于公式16^n>Z获取n的最小解来确定要分配的索引替换字符串序列的长度n(因为如先前提到的,脱敏字符串序列的每一位置均可能是16个可能的字符之一),并且关键替换字符串序列的长度可被设为2L。
在一种实现中,如图5所示,例示了在数据值字符序列中不包括前面提到的数据值字符子序列的情况下,涉及图3中的步骤305的从为该数据值字符序列分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换的过程500的流程图。
在步骤501中,选择替换字符串序列最前面的多个字符(如先前所提到的,这些字符可以是0-9和A-F之一)作为该数据值字符序列的第一替换值字符序列。在一种实现中,在替换字符串序列中所选的字符的数目取决于替换字符串序列的值以及该数据值字符序列,因为正如前面所提到的,替换字符串序列中的数字字符0-9中的一个字符能替换数据值字符序列中的一个数字字符,而字母字符A-F中的一个字符通常能够替换数据值字符序列中的两个数字字符。例如,如果要替换的数据值字符序列为42315678,替换字符串序列为ABCDEFAF218DF49B,则需要利用替换字符串序列中的前4个字符(即ABCD)来形成数据值字符序列42315678的第一替换值字符序列。而如果替换字符串序列为102BC90EA218DF49,则需要利用替换字符串序列中的前6个字符(即102BC9)来形成数据值字符序列42315678的第一替换值字符序列。如果替换字符串序列为1024569023DF49b8,则需要利用该替换字符串序列中的前8个字符(即10245690)来形成数据值字符序列42315678的第一替换值字符序列。
在步骤502中,判断该第一替换值字符序列是否与先前使用过的替换值字符序列发生重复。例如,对于以上要替换的数据值字符序列为42315678,替换字符串序列为ABCDEFAF218DF49B的情况,如果第一替换值字符序列ABCD之前已作为替换值字符序列被用于替换过其他数据值字符序列,则说明该第一替换值字符序列与先前使用过的替换值字符序列发生了重复。
在步骤503中,在该第一替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用该第一替换值字符序列来替换该数据值字符序列。
在步骤504中,在该第一替换值字符序列与先前使用过的替换值字符序列发生重复的情况下,至少部分地基于该替换字符串序列中的其余字符(即,该替换字符串序列除去步骤301中利用的最前面的多个字符以后的各个字符的序列)将该第一替换值字符序列修改为第二替换值字符序列。在一种实现中,该修改可包括选择该替换字符串序列中的其余字符中的一个字符,并利用该所选的字符将第一替换值字符序列修改为第二替换值字符序列。例如,将所选的字符补充至该第一替换值字符序列的末尾,并去除该经修改的第一替换值字符序列的第一个字符来生成第二替换值字符序列。例如,对于以上要替换的数据值字符序列为42315678,替换字符串序列为ABCDEFAF218DF49B的情况,如果第一替换值字符序列ABCD发生了重复,则可将该替换字符串序列的剩余位EFAF218DF49B的某一位例如E补充至第一替换值字符序列ABCD的最后一位从而形成ABCDE,并去除ABCDE的第一位,从而形成BCDE作为第二替换值字符序列。
在步骤505中,判断该第二替换值字符序列是否与先前使用过的替换值字符序列发生重复。
在步骤506中,在该第二替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用该第二替换值字符序列来替换该数据值字符序列。
在步骤507中,在该第二替换值字符序列与先前使用过的替换值字符序列发生重复的情况下,基于至少部分地基于该替换字符串序列中的其余字符将第二替换值字符序列修改为第三替换值字符序列,并以此类推直到找到替换值字符序列为止。在一种实现中,基于至少部分地基于该替换字符串序列中的其余字符将第二替换值字符序列修改为第三替换值字符序列包括选择该替换字符串序列中的其余字符中的另一个字符(即与在将第一替换值字符序列修改为第一替换值字符序列时所选的字符不同的字符),并利用该所选的字符将第二替换值字符序列修改为第三替换值字符序列。
例如,以包括8个数字字符的用户标识在相应行的数据值字符序列为例,并且在该数据值字符序列中不包括选自固定取值集合的数据值字符子序列的情况下,为了完全替换该数据值字符序列,最少需要脱敏字符串序列中的4个字符(在当前轮到的前4位均为字母字符的情况下),或者最多需要脱敏字符串序列中的8个字符(在当前轮到的前8个字符均为数字字符的情况下)。因此,可为该数据值字符序列分配针对相应行的脱敏字符串序列中的长度为16的替换字符串序列,其中,第0-7个字符被部分地用于对该用户标识数据进行首次替换,首次替换后,长度为16的替换字符串序列中可能剩余8-12个字符未用于该首次替换,因此上述字符用于在数据重复时作为补充替换使用。例如,如果使用替换字符串序列中的5个字符(例如,替换字符串序列最前面的3个字母字符和2个数字字符)生成了长度为8的用户标识的第一替换值字符序列,但是经过判断确定该第一替换值字符序列与先前使用过的替换值字符序列发生了重复,则可通过例如将替换字符串序列中其余的11个字符中的某一字符补充至该第一替换值字符序列的末尾,并去除该第一替换值字符序列的第一个字符来生成第二替换值字符序列。然后,判断该第二替换值字符序列是否与先前使用过的替换值字符序列发生重复,并且在没有发生重复的情况下,使用该第二替换值字符序列来替换该数据值字符序列,而在发生重复的情况下可继续将剩余的11位序列中的其他位的值来继续生成进一步的替换值字符序列,直到找到合适的替换值字符序列为止。
在另一实现中,如图6所示,例示了在该数据值字符序列中包括前面提到的数据值字符子序列的情况下,涉及图3中的步骤305的从为该数据值字符序列分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换的过程600的流程图。
在步骤601中,基于为该数据值字符序列分配的替换字符串序列中的索引替换字符串序列来确定替换索引值。在一个实现中,例如可通过将索引替换字符串序列中的各个字符所表示的数字相乘并除以固定取值集合中包括的可选数据值字符序列的数量(值得注意的是,在本发明的实施例中,在进行该计算时,索引替换字符串序列中包括的字母字符A-F分别表示数字10、11、12、13、14和15)并取该除法所得的商的余数来作为替换索引值。
在步骤602中,在固定取值集合的该替换索引值所指示的位置处获取替换值字符子序列。
在步骤603中,使用该替换值字符子序列来替换该数据值字符子序列。
在步骤604中,利用为该数据值字符序列分配的替换字符串序列中的关键替换字符串序列来对剩余数据值字符序列进行替换。在本发明的实施例中,对剩余字符值序列进行替换可基于图5所述的过程来进行,只是图5中的替换字符串序列在此处被关键替换字符串序列替代,并且图5中的替换值字符序列在此处被剩余数据值字符序列替代。
下面通过一个具体的示例对该过程进行描述。例如,需要对为贷记***的数据字段进行脱敏,贷记***的数据值字符序列包括长度为6个数字字符的银行标识代码(即BIN码)以及长度为8个数字字符的随机数。如之前已经提到的,BIN码选自固定取值集合,因此需利用图6所述的方法对该贷记***的数据值字符序列进行替换。假设关于贷记***的BIN码的固定取值集合中包括300个数字字符序列(此300个数字字符序列在固定取值集合中的索引从0开始一直到299),则由于16^3>300,由此可确定要分配的索引替换字符串序列的长度为3。另外,由于随机数的长度为8,因此可确定要分配的关键替换字符串序列的长度为16。假设在针对某个bin码序列进行替换时,利用为该BIN码(假设为601939)分配的索引替换字符串序列(假设该索引替换字符串序列为3A)可确定相应的替换索引值为3*10=30,因此通过从相应的固定取值集合中获取位于索引位置30的替换值字符子序列(假设为601288),然后用该替换值字符子序列来替换该BIN码,从而实现对BIN码进行脱敏的目的,而且其格式得到了保留而没有被破坏。
图7例示了根据本发明的实施例的用于数据脱敏的方法700的流程图
在步骤701中,确定数据表格中待脱敏的多个数据字段。
在步骤702中,为该数据表格的每一行计算用于对该多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列。
在步骤703中,逐行地利用相应行的脱敏字符串序列对该多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。
上文描述的方法100-700至少可以实现以下有益效果:(1)能够高效地对数据表格中的敏感数据进行脱敏;(2)脱敏的结果是定向的,即对同样的数据值字符序列多次执行脱敏能保持得到同样的脱敏结果;(3)脱敏结果不会发生重复;(4)脱敏的结果与原数据值字符序列可保持同样的数据格式;(5)脱敏规则无法被容易地解析出。
图8例示了用于实施本发明的实施例的用于数据脱敏的装置800的示意性框图,其中装置800可包括处理器810和存储器820,存储器820耦合至处理器810并且存储有指令,当这些指令执行时使得处理器710执行上文描述的方法100-700中的一个或多个动作或步骤。
具体而言,当存储器820中存储的指令执行时使得处理器810执行以下动作:确定数据表格中待脱敏的多个数据字段;为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;以及逐行地利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏。
在一个实现中,对于所述数据表格的每一行,利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏包括:在用于替换相应数据字段在相应行的数据值字符序列的替换值字符序列尚未被确定的情况下,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列;从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换。
在一个实现中,为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列包括:从所述数据表格中选择用作计算所述脱敏字符串序列的基础的基础字段;通过对所选的基础字段在相应行的数据值字符序列应用第一杂凑算法来计算第一散列值;通过对所选的基础字段在相应行的数据值字符序列应用不同于所述第一杂凑算法的第二杂凑算法来计算第二散列值;以及通过将所述第一散列值和所述第二散列值拼接在一起来获得相应行的脱敏字符串序列。
在一个实现中,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列包括:判断该数据值字符序列中是否包括来自固定取值集合的数据值字符子序列;在该数据值字符序列中不包括所述数据值字符子序列的情况下,基于该数据值字符序列的长度来为所述数据值字符序列分配所述替换字符串序列;在该数据值字符序列中包括所述数据值字符子序列的情况下,基于所述固定取值集合中包括的可选数据值字符序列的数量以及与该数据值字符序列除去所述数据值字符子序列以后的剩余数据值字符序列的长度来分配所述替换字符串序列,其中所述替换字符串序列包括分别用于所述数据值字符子序列和所述剩余数据值字符序列的替换的索引替换字符串序列和关键替换字符串序列。
在一个实现中,在该数据值字符序列中不包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括:在该数据值字符序列中不包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括:选择所述替换字符串序列最前面的多个字符作为该数据值字符序列的第一替换值字符序列;判断所述第一替换值字符序列是否与先前使用过的替换值字符序列发生重复;在所述第一替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第一替换值字符序列来替换该数据值字符序列;在所述第一替换值字符序列与先前使用过的替换值字符序列发生重复的情况下,至少部分地基于所述替换字符串序列中的其余字符将所述该第一替换值字符序列修改为第二替换值字符序列;判断所述第二替换值字符序列是否与先前使用过的替换值字符序列发生重复;在所述第二替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第二替换值字符序列来替换该数据值字符序列。
在一个实现中,在该数据值字符序列中包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括,对于所述数据值字符子序列:基于所分配的替换字符串序列中的所述索引替换字符串序列来确定替换索引值;从所述固定取值集合的所述替换索引值所指示的位置处获取替换值字符子序列;使用所述替换值字符子序列来替换所述数据值字符子序列。
本发明可以被具体实现为一种用于数据脱敏的方法、装置和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
本发明中所描述的方法和功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于,可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)等。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
附图中的流程图和框图显示了根据本发明的多个实施例的方法、区块链节点和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。
例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
通过以上描述和相关附图中所给出的教导,这里所给出的本发明的许多修改形式和其它实施方式将被本发明相关领域的技术人员所意识到。因此,所要理解的是,本发明的实施方式并不局限于所公开的具体实施方式,并且修改形式和其它实施方式意在包括在本发明的范围之内。此外,虽然以上描述和相关附图在部件和/或功能的某些示例组合形式的背景下对示例实施方式进行了描述,但是应当意识到的是,可以由备选实施方式提供部件和/或功能的不同组合形式而并不背离本发明的范围。就这点而言,例如,与以上明确描述的有所不同的部件和/或功能的其它组合形式也被预期处于本发明的范围之内。虽然这里采用了具体术语,但是它们仅以一般且描述性的含义所使用而并非意在进行限制。
Claims (11)
1.一种用于数据脱敏的方法,包括:
确定数据表格中待脱敏的多个数据字段;
为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;以及
逐行地利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏,
其中,为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列包括:
从所述数据表格中选择用作计算所述脱敏字符串序列的基础的基础字段;
通过对所选的基础字段在相应行的数据值字符序列应用第一杂凑算法来计算第一散列值;
通过对所选的基础字段在相应行的数据值字符序列应用不同于所述第一杂凑算法的第二杂凑算法来计算第二散列值;以及
通过将所述第一散列值和所述第二散列值拼接在一起来获得相应行的脱敏字符串序列。
2.根据权利要求1所述的方法,其特征在于,对于所述数据表格的每一行,利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏包括:
在用于替换相应数据字段在相应行的数据值字符序列的替换值字符序列尚未被确定的情况下,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列;
从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换。
3.根据权利要求2所述的方法,其特征在于,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列包括:
判断该数据值字符序列中是否包括来自固定取值集合的数据值字符子序列;
在该数据值字符序列中不包括所述数据值字符子序列的情况下,基于该数据值字符序列的长度来为所述数据值字符序列分配所述替换字符串序列;
在该数据值字符序列中包括所述数据值字符子序列的情况下,基于所述固定取值集合中包括的可选数据值字符序列的数量以及与该数据值字符序列除去所述数据值字符子序列以后的剩余数据值字符序列的长度来分配所述替换字符串序列,其中所述替换字符串序列包括分别用于所述数据值字符子序列和所述剩余数据值字符序列的替换的索引替换字符串序列和关键替换字符串序列。
4.根据权利要求3所述的方法,其特征在于,在该数据值字符序列中不包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括:
选择所述替换字符串序列最前面的多个字符作为该数据值字符序列的第一替换值字符序列;
判断所述第一替换值字符序列是否与先前使用过的替换值字符序列发生重复;
在所述第一替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第一替换值字符序列来替换该数据值字符序列;
在所述第一替换值字符序列与先前使用过的替换值字符序列发生重复的情况下,至少部分地基于所述替换字符串序列中的其余字符将所述该第一替换值字符序列修改为第二替换值字符序列;
判断所述第二替换值字符序列是否与先前使用过的替换值字符序列发生重复;
在所述第二替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第二替换值字符序列来替换该数据值字符序列。
5.根据权利要求3所述的方法,其特征在于,在该数据值字符序列中包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括,对于所述数据值字符子序列:
基于所分配的替换字符串序列中的所述索引替换字符串序列来确定替换索引值;
在所述固定取值集合的所述替换索引值所指示的位置处获取替换值字符子序列;
使用所述替换值字符子序列来替换所述数据值字符子序列。
6.一种用于数据脱敏的装置,包括:
处理器;
存储器,所述存储器耦合至所述处理器并且存储有指令,当所述指令执行时使得所述处理器执行以下动作:
确定数据表格中待脱敏的多个数据字段;
为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列;以及
逐行地利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏,
其中,为所述数据表格的每一行计算用于对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏的脱敏字符串序列包括:
从所述数据表格中选择用作计算所述脱敏字符串序列的基础的基础字段;
通过对所选的基础字段在相应行的数据值字符序列应用第一杂凑算法来计算第一散列值;
通过对所选的基础字段在相应行的数据值字符序列应用不同于所述第一杂凑算法的第二杂凑算法来计算第二散列值;以及
通过将所述第一散列值和所述第二散列值拼接在一起来获得相应行的脱敏字符串序列。
7.根据权利要求6所述的装置,其特征在于,对于所述数据表格的每一行,利用相应行的脱敏字符串序列对所述多个数据字段中的每一数据字段在相应行的数据值字符序列进行脱敏包括:
在用于替换相应数据字段在相应行的数据值字符序列的替换值字符序列尚未被确定的情况下,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列;
从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换。
8.根据权利要求7所述的装置,其特征在于,基于相应数据字段在相应行的数据值字符序列的长度和数据格式为该数据值字符序列分配作为针对相应行的脱敏字符串序列的一部分的替换字符串序列包括:
判断该数据值字符序列中是否包括来自固定取值集合的数据值字符子序列;
在该数据值字符序列中不包括所述数据值字符子序列的情况下,基于该数据值字符序列的长度来为所述数据值字符序列分配所述替换字符串序列;
在该数据值字符序列中包括所述数据值字符子序列的情况下,基于所述固定取值集合中包括的可选数据值字符序列的数量以及与该数据值字符序列除去所述数据值字符子序列以后的剩余数据值字符序列的长度来分配所述替换字符串序列,其中所述替换字符串序列包括分别用于所述数据值字符子序列和所述剩余数据值字符序列的替换的索引替换字符串序列和关键替换字符串序列。
9.根据权利要求8所述的装置,其特征在于,在该数据值字符序列中不包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括:
在该数据值字符序列中不包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括:
选择所述替换字符串序列最前面的多个字符作为该数据值字符序列的第一替换值字符序列;
判断所述第一替换值字符序列是否与先前使用过的替换值字符序列发生重复;
在所述第一替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第一替换值字符序列来替换该数据值字符序列;
在所述第一替换值字符序列与先前使用过的替换值字符序列发生重复的情况下,至少部分地基于所述替换字符串序列中的其余字符将所述该第一替换值字符序列修改为第二替换值字符序列;
判断所述第二替换值字符序列是否与先前使用过的替换值字符序列发生重复;
在所述第二替换值字符序列不与先前使用过的替换值字符序列发生重复的情况下,使用所述第二替换值字符序列来替换该数据值字符序列。
10.根据权利要求8所述的装置,其特征在于,在该数据值字符序列中包括所述数据值字符子序列的情况下,从所分配的替换字符串序列中选择替换值字符序列来对该数据值字符序列进行替换包括,对于所述数据值字符子序列:
基于所分配的替换字符串序列中的所述索引替换字符串序列来确定替换索引值;
在所述固定取值集合的所述替换索引值所指示的位置处获取替换值字符子序列;
使用所述替换值字符子序列来替换所述数据值字符子序列。
11.一种计算机可读存储介质,其具有存储在其上的计算机可执行指令,所述计算机可执行指令在设备中运行时使得所述设备执行根据权利要求1-5中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811622137.5A CN109740359B (zh) | 2018-12-28 | 2018-12-28 | 用于数据脱敏的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811622137.5A CN109740359B (zh) | 2018-12-28 | 2018-12-28 | 用于数据脱敏的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740359A CN109740359A (zh) | 2019-05-10 |
CN109740359B true CN109740359B (zh) | 2021-02-09 |
Family
ID=66361773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811622137.5A Active CN109740359B (zh) | 2018-12-28 | 2018-12-28 | 用于数据脱敏的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740359B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362630B (zh) * | 2019-07-19 | 2023-11-28 | 深圳前海微众银行股份有限公司 | 数据管理方法、装置、设备与计算机可读存储介质 |
CN112560112B (zh) * | 2020-12-15 | 2022-09-02 | 杭州趣链科技有限公司 | 基于区块链的信息屏蔽方法、装置、设备和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358121A (zh) * | 2017-07-12 | 2017-11-17 | 张�诚 | 一种脱敏数据集的数据融合方法及装置 |
CN108549824A (zh) * | 2018-04-17 | 2018-09-18 | 杭州橙鹰数据技术有限公司 | 一种数据脱敏方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203139A (zh) * | 2016-07-13 | 2016-12-07 | 成都知道创宇信息技术有限公司 | 一种数据局部脱敏方法 |
CN106649587B (zh) * | 2016-11-17 | 2020-06-16 | 国家电网公司 | 一种基于大数据信息***的高安全性脱敏方法 |
US10614236B2 (en) * | 2017-03-01 | 2020-04-07 | International Business Machines Corporation | Self-contained consistent data masking |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107871083A (zh) * | 2017-11-07 | 2018-04-03 | 平安科技(深圳)有限公司 | 脱敏规则配置方法、应用服务器及计算机可读存储介质 |
-
2018
- 2018-12-28 CN CN201811622137.5A patent/CN109740359B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358121A (zh) * | 2017-07-12 | 2017-11-17 | 张�诚 | 一种脱敏数据集的数据融合方法及装置 |
CN108549824A (zh) * | 2018-04-17 | 2018-09-18 | 杭州橙鹰数据技术有限公司 | 一种数据脱敏方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109740359A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468192B2 (en) | Runtime control of automation accuracy using adjustable thresholds | |
Melicher et al. | Fast, lean, and accurate: Modeling password guessability using neural networks | |
CN107609418B (zh) | 文本数据的脱敏方法、装置、存储设备以及计算机设备 | |
US9460310B2 (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
US10242203B2 (en) | Format preservation based masking system and method | |
US20190362102A1 (en) | Techniques for masking electronic data | |
WO2020192007A1 (zh) | 数据脱敏方法和相关装置 | |
CN109740359B (zh) | 用于数据脱敏的方法、装置及存储介质 | |
CN111770063B (zh) | 数字身份信息的派生、验证方法、装置及设备 | |
US10796092B2 (en) | Token matching in large document corpora | |
US20190089544A1 (en) | Validation code encryption manager | |
CN114840861A (zh) | 数据处理方法、装置、设备及存储介质 | |
US10169398B2 (en) | Identifying corrupted text segments | |
US20150120682A1 (en) | Automated recognition of patterns in a log file having unknown grammar | |
US11822629B2 (en) | Method and apparatus for generating digital identity and storage medium | |
US20180309579A1 (en) | Secure representation via a format preserving hash function | |
US9722780B2 (en) | Complex format-preserving tokenization scheme | |
CN111221690A (zh) | 针对集成电路设计的模型确定方法、装置及终端 | |
US11954213B2 (en) | Obfuscating intelligent data while preserving reserve values | |
CN113992345B (zh) | 网页敏感数据加解密方法、装置、电子设备及存储介质 | |
KR102208082B1 (ko) | 서버 장치, 정보관리 시스템, 정보관리 방법 및 컴퓨터 프로그램을 저장한 기록매체 | |
CN110569659B (zh) | 数据处理方法、装置和电子设备 | |
CN114124469A (zh) | 数据处理的方法、装置和设备 | |
CN112559497A (zh) | 一种数据处理方法、一种信息传输方法、装置及电子设备 | |
CN113591440B (zh) | 一种文本处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |