CN108776762B

CN108776762B - 一种数据脱敏的处理方法及装置

Info

Publication number: CN108776762B
Application number: CN201810586230.9A
Authority: CN
Inventors: 林鸿; 欧阳红; 袁葆; 江再玉; 赵加奎; 熊根鑫; 王宇坤; 于喻; 宋振世; 王奕; 郑倩
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2022-01-28
Anticipated expiration: 2038-06-08
Also published as: CN108776762A

Abstract

本申请提供了一种数据脱敏的处理方法及装置，确定目标数据的类型；根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。通过对目标数据进行分词得到具有一定结构的数据，对存在主要敏感信息的部分进行脱敏处理，对敏感信息的全部或大部分进行掩码，提高了数据脱敏的有效性，保障数据资产安全，最大程度保护客户信息的安全，避免非正常查询、导出等方式造成的客户信息泄露。

Description

一种数据脱敏的处理方法及装置

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种数据脱敏的处理方法及装置。

背景技术

为落实国家《网络安全法》关于保护客户敏感信息的工作要求，保障电力营销客户数据资产安全，保障电力营销客户合法权益，需要对电力营销客户敏感信息进行数据脱敏，目的是在满足正常业务需要的同时，最大程度保护电力客户信息的安全，避免非正常查询、导出等方式造成的电力客户信息泄露。

目前电力营销数据脱敏主要规则主要采用掩码脱敏方法，保留部分信息，保证信息的长度不变，主要规则如下：

(1)联系人地址

格式：格式不固定，为不定长的字符串。

脱敏规则：按长度分阶梯保留，长度5个字及以下的，保留第1个字和最后2个字；长度6-9个字的，保留最后5个字；长度为10个字及以上的，隐去最后5个字之前的4个字；隐藏字用*代替。

(2)企业类户名

格式：企业类户名与营业执照一致，为公司名称，由若干个汉字组成。

脱敏规则：按长度分阶梯保留：长度4个字及以下的，首尾各保留1个字；长度5-6个字的，首尾各保留2个字；长度7个字及以上奇数，隐去中间3个字；长度8个字及以上偶数，隐去中间4个字；隐藏字用*代替。

现有电力营销数据脱敏规则的主要缺点在于：

用电地址和企业类户这两类电力营销数据按照目前数据脱敏规则进行数据脱敏后，非关键字掩码，而关键字却还保留着。比如，按照企业类户名的脱敏规则，脱敏后的户名地址仍然可能存在敏感信息，部分关键字得到保留，脱敏效果不明显。如下所示：青岛惠丰电机制造有限公司->青岛惠丰****有限公司；青岛贰零贰零商业服务有限公司->青岛贰******务有限公司。

按照联系人地址的脱敏规则，也存在类似的问题，如下所示：山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑小区2-1-101->山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑****1-101。

发明内容

有鉴于此，本发明公开了一种数据脱敏的处理方法及装置，在数据脱敏之前通过调用分词基准词库对目标数据进行分词，实现更加有效的数据脱敏。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种数据脱敏的处理方法，包括：

确定目标数据的类型；

根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；

根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。

可选的，所述方法还包括：

构建分词基准词库，所述分词基准词库中包括多个子词库，每个子词库分别包括一种类型的敏感词。

可选的，当所述目标数据的类型为用电地址时，所述根据所述目标数据的类型调用分词基准词库中的相应子词库，采用与所述目标数据的类型相对应的分词方法进行分词，包括：

调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库，采用最大正向匹配中文分词对所述目标数据进行分词。

可选的，当所述目标数据的类型为企业类户名时，所述根据所述目标数据的类型调用分词基准词库中的相应子词库，采用与所述目标数据的类型相对应的分词方法进行分词，包括：

调用区域集合子词库、行业集合子词库和公司组织集合子词库，采用双向最大匹配中文分词方法进行分词。

可选的，在所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法之前，所述方法还包括：

计算所述目标数据的分词结果的正确率；

判断所述目标数据的分词结果的正确率是否大于第一预设值；

若是，执行所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法；

若否，基于隐马尔柯夫模型对所述目标数据进行分词，并执行所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法。

可选的，当所述目标数据的类型为用电地址时，所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理，包括：

判断所述目标数据的长度是否大于第二预设值；

当所述目标数据的长度大于所述第二预设值时，确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法；

采用所述第一用户地址数据脱敏方法，从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据，得到剩余部分数据；

保留所述门牌号数据的后5位数据和所述省市区县数据，对所述目标数据的剩余部分数据进行掩码，得到所述目标数据脱敏后的数据；

当所述目标数据的长度不大于所述第二预设值时，确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法；

采用所述第二用户地址数据脱敏方法，根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

可选的，当所述目标数据的类型为企业类户名时，所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理，包括：

判断所述目标数据的长度是否大于第三预设值；

当所述目标数据的长度大于所述第三预设值时，确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法；

采用所述第一企业类户名数据脱敏方法，从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字，得到所述字号数据的剩余数据和所述行业数据的剩余数据；

对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码，保留所述目标数据的其他数据，得到所述目标数据脱敏后的数据；

当所述目标数据的长度不大于所述第三预设值时，确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法；

采用所述第二企业类户名数据脱敏方法，根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

一种数据脱敏的处理装置，包括：

类型确定单元，用于确定目标数据的类型；

第一分词处理单元，用于根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；

脱敏处理单元，用于根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。

可选的，所述装置还包括：

词库构建单元，用于构建分词基准词库，所述分词基准词库中包括多个子词库，每个子词库分别包括一种类型的敏感词。

可选的，当所述目标数据的类型为用电地址时，所述第一分词处理单元具体用于：

可选的，当所述目标数据的类型为企业类户名时，所述第一分词处理单元具体用于：

可选的，所述装置还包括：

计算单元，用于计算所述目标数据的分词结果的正确率；

判断端元，用于判断所述目标数据的分词结果的正确率是否大于第一预设值；

若是，触发所述脱敏处理单元；

若否，触发第二分词处理单元，所述第二分词处理单元，用于基于隐马尔柯夫模型对所述目标数据进行分词，并触发所述脱敏处理单元。

可选的，当所述目标数据的类型为用电地址时，所述脱敏处理单元包括：

第一判断子单元，用于判断所述目标数据的长度是否大于第二预设值；

第一确定子单元，用于当所述目标数据的长度大于所述第二预设值时，确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法；

第一提取子单元，用于采用所述第一用户地址数据脱敏方法，从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据，得到剩余部分数据；

第一脱敏处理子单元，用于保留所述门牌号数据的后5位数据和所述省市区县数据，对所述目标数据的剩余部分数据进行掩码，得到所述目标数据脱敏后的数据；

第二确定子单元，用于当所述目标数据的长度不大于所述第二预设值时，确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法；

第二脱敏处理子单元，用于采用所述第二用户地址数据脱敏方法，根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

可选的，当所述目标数据的类型为企业类户名时，所述脱敏处理单元包括：

第二判断子单元，用于判断所述目标数据的长度是否大于第三预设值；

第三确定子单元，用于当所述目标数据的长度大于所述第三预设值时，确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法；

第二提取子单元，用于采用所述第一企业类户名数据脱敏方法，从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字，得到所述字号数据的剩余数据和所述行业数据的剩余数据；

第三脱敏处理子单元，用于对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码，保留所述目标数据的其他数据，得到所述目标数据脱敏后的数据；

第四确定子单元，用于当所述目标数据的长度不大于所述第三预设值时，确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法；

第四脱敏处理子单元，用于采用所述第二企业类户名数据脱敏方法，根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

相对于现有技术，本发明的有益效果如下：

本发明提供的一种数据脱敏的处理方法及装置，在数据脱敏之前通过调用分词基准词库对目标数据进行分词，得到具有一定结构的数据，对存在主要敏感信息的部分进行脱敏处理，对敏感信息的全部或大部分进行掩码，提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库，并采用与目标数据的类型相对应的分词方法进行分词，提高了分词的准确性，并根据目标数据的类型和长度确定目标数据的脱敏方法，实现了不同类型不同长度数据的差异化脱敏，提高了数据脱敏的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种数据脱敏的处理方法流程图；

图2为本发明实施例公开的通用地址子词库示意图；

图3为本发明实施例公开的地名词库子词库示意图；

图4为本发明实施例公开的小区名称子词库示意图；

图5为本发明实施例公开的行政区划分集合子词库示意图；

图6为本发明实施例公开的区域集合子词库示意图；

图7为本发明实施例公开的行业集合子词库示意图；

图8为本发明实施例公开的公司组织集合子词库示意图；

图9为本发明实施例公开的最大正向匹配中文分词方法示意图；

图10为本发明实施例公开的用电地址数据脱敏处理方法流程图；

图11为本发明实施例公开的企业类户名数据脱敏处理方法流程图；

图12为本发明实施例公开的另一种数据脱敏的处理方法流程图；

图13为本发明实施例公开的一种数据脱敏的处理装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例公开了一种数据脱敏的处理方法，具体包括以下步骤：

S101：确定目标数据的类型；

目标数据为需要进行脱敏处理的数据，目标数据的类型可以包括电话类数据、地址类数据、用户名数据、银行账户类数据等。

S102：根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；

分词是将一个汉字序列切分成一个一个单独的词。分词是将连续的字序列按照一定的规范重新组合成词序列的过程。

为了更准确的对目标数据进行分词，根据目标数据的类型调用分词基准词库中的相应子词库对目标数据进行分词。

需要说明的是，所述数据脱敏的处理方法还包括：

构建分词基准词库。

所述分词基准词库中包括多个子词库，每个子词库分别包括一种类型的敏感词。

请参阅图2～8，分别为分词基准词库中的通用地址子词库、地名子词库、小区名称子词库、行政区划分集合子词库、区域集合子词库、行业集合子词库和公司组织集合子词库。

为了更准确的对目标数据进行分词，根据所述目标数据的类型调用分词基准词库中的相应子词库，采用与所述目标数据的类型相对应的分词方法进行分词。例如，当所述目标数据的类型为用电地址时，调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库，采用最大正向匹配中文分词对所述目标数据进行分词。当所述目标数据的类型为企业类户名时，调用区域集合子词库、行业集合子词库和公司组织集合子词库，采用双向最大匹配中文分词方法进行分词。

如图9所示，在用电地址数据分词时采用最大正向匹配中文分词算法，具体算法如下：

从左到右将目标数据中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。如待分词文本：

content[]＝{"洪"，"山"，"街"，"道"，"双"，"河"，"社"，"区"，……}

词表：dict[]＝{"长沙市","开福区","洪山","洪山街道",……}

(1)从content[1]开始，当扫描到content[2]的时候，发现"洪山"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)；

(2)继续扫描content[3]，发现"洪山街"并不是dict[]中的词。但是我们还不能确定是否前面找到的"洪山"已经是最大的词了，因为"洪山街"是dict[2]的前缀；

(3)扫描content[4]，发现"洪山街道"是dict[]中的词。继续扫描下去；

(4)当扫描content[5]的时候，发现"洪山街道双"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——"洪山街道"。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。利用最大正向匹配算法，继续循环，完成剩余分词。如“长沙市开福区洪山街道双河社区福元西路199号当代万国城三期10栋二单元1706”这个地址的最后分词结果如下：

“长沙市|开福区|洪山街道|双河社区|福元西路|199|号|当代万国城三期|10|栋|二|单元|1706”。

在企业类户名数据分词时采用双向最大匹配中文分词方法。双向最大匹配中文分词方法首先分别进行最大正向匹配和最大逆向匹配中文分词，在此基础上对分词结果进行比较，根据不同的结果采用不同的分词策略，比如可以根据大颗粒度词越多越好、非词典词和单字词越少越好的原则，选取其中一种分词结果输出。

最大正向匹配中文分词算法已经详细描述。最大逆向匹配中文分词算法跟最大正向匹配算法类似，不同的是扫描的方向，它是从右往左取子串进行匹配。算法流程可描述为：

(1)输入经过预处理后待分词句子content，并初始化index＝content.length；

(2)获得字典数据库内各个子字典的长度；

(3)获得分词单词的长度，并和字典数据库内最长的子字典比较，如果子字典的最大长度大于要分词的长度，则取剩于要分词的字符串为最大长度，否则则以最大长度分词；

(4)用二分法查找与当前最大匹配长度相同的子字典，如果找到该字典则转(5)，否则最大长度减一转(4)；

(5)取得要分词的字符串SubStr，在字典里找该字符串，如果找到则将该字符串添加到List内，如果没有找到则判断SubStr是否大于1，如果大于1，则删除SubStr最后一个字转(5)，否则置切分标志，转(6)；

(6)判断Index是否大于1，如果小于则转(3)否则保存List，退出。

双向最大匹配算法将正向匹配与逆向匹配算法相结合起来，对于待分字符串，首先分别用最大正向匹配和最大逆向匹配算法进行分词，对于分词结果进行比较，比较正向和反向两个最大匹配，返回分词结果；当两个方向的分词结果一致，返回字符串当不一致，返回长度小的；当长度一致，返回反向的。双向最大匹配中文分词算法步骤如下：

(1)输入待分词的句子content；

(2)对content进行预处理后分别用最大正向匹配算法和最大逆向匹配算法进行分词，对分词结果进行比较，如果分词结果完全相同则转(3)，如果分词结果不同则转(4)；

(3)任意选出一种分词结果，将分词结果输出算法结束；

(4)比较分词数目是否相同，如果相同则选取逆向分词结果，将分词结果输出，算法结束；否则选取分词数目较小的分词结果进行输出，算法结束。

S103：根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。

请参阅图10，当所述目标数据的类型为用电地址时，S103的执行过程如下：

S201：判断所述目标数据的长度是否大于第二预设值；若是执行S202，若否执行S203：

S202：确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法；

S204：采用所述第一用户地址数据脱敏方法，从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据，得到剩余部分数据；

S205：保留所述门牌号数据的后5位数据和所述省市区县数据，对所述目标数据的剩余部分数据进行掩码，得到所述目标数据脱敏后的数据；

S203：确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法；

S206：采用所述第二用户地址数据脱敏方法，根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

例如，对于长度10个字及以下的用电地址数据按第二用户地址数据脱敏方法进行数据脱敏，按长度分阶梯保留，长度5个字及以下的，保留第1个字和最后2个字；长度6-9个字的，保留最后5个字。

对于长度10个字及以上的用电地址数据按第一用户地址数据脱敏方法进行数据脱敏。用电地址一般由省、市、区县、街道/乡镇居委会/村、道路、小区、门牌号部分组成。门牌号部分保留最后5位，省、市、区县保留，其他部分全部用*代替。如下所示：

山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑小区2-1-101->山东省济南市市中区**********************1-101。

请参阅图11，当所述目标数据的类型为用电地址时，S103的执行过程如下：

S301：判断所述目标数据的长度是否大于第三预设值；若是，执行S302，若否执行S303；

S302：确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法；

S304：采用所述第一企业类户名数据脱敏方法，从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字，得到所述字号数据的剩余数据和所述行业数据的剩余数据；

S305：对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码，保留所述目标数据的其他数据，得到所述目标数据脱敏后的数据；

S303：确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法；

S306：采用所述第二企业类户名数据脱敏方法，根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

例如，对于长度6个字以下的企业类户名数据按第二用电地址数据脱敏方法进行数据脱敏，按长度分阶梯保留，长度4个字及以下的，首尾各保留1个字；长度5-6个字的，首尾各保留2个字。

对于长度6个字及以上的企业类户名数据按第一用电地址数据脱敏方法进行数据脱敏。企业类户名一般由区域、字号、行业、公司组织四部分组成。保留前后的区域和组织部分不变，对字号和行业进行掩码操作。字号部分保留第一个字，其他部分全部用*代替；行业部分保留最后一个字，其他部分全部用*代替。如下所示：

青岛惠丰电机制造有限公司->青岛惠****造有限公司；

青岛贰零贰零商业服务有限公司->青岛贰******务有限公司。

本实施例公开的一种数据脱敏的处理方法，在数据脱敏之前通过调用分词基准词库对目标数据进行分词，得到具有一定结构的数据，对存在主要敏感信息的部分进行脱敏处理，对敏感信息的全部或大部分进行掩码，提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库，并采用与目标数据的类型相对应的分词方法进行分词，提高了分词的准确性，并根据目标数据的类型和长度确定目标数据的脱敏方法，实现了不同类型不同长度数据的差异化脱敏，提高了数据脱敏的有效性。

请参阅图12，本实施例公开了另一种数据脱敏的处理方法，具体包括以下步骤：

S401：确定目标数据的类型；

S402：根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；

S403：计算所述目标数据的分词结果的正确率；

S404：判断所述目标数据的分词结果的正确率是否大于第一预设值；若是，执行S405，若否，执行S406；

S405：根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理；

S406：基于隐马尔柯夫模型对所述目标数据进行分词，并执行S405。

采用隐马尔柯夫模型(HMM Hidden Markov Model)对企业类户名和用电地址两类数据进行中文分词处理。HMM算法在训练语料规模足够大和覆盖领域足够多的情况下，可以获得更高的切分正确率。这类分词算法基于人工标注的词性和统计特征，对中文进行建模，即根据观测到的数据(标注好的语料)对模型参数进行估计即训练。在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。常见的序列标注模型就有HMM算法，该算法能够很好地处理歧义和未登录词问题，效果比基于字符串匹配效果更好。

隐马尔柯夫模型是一个双重随机过程，我们不知道具体的状态序列，只知道状态转移的概率，即模型的状态转换过程是不可观察的(隐蔽的)，而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数。

HMM的组成包括：

模型中的状态数为N；

从每一个状态可能输出的不同的符号数M；

状态转移概率矩阵A＝a_ij，其中a_ij为状态S_i转移到状态S_j的概率；

从状态C_j观察到某一特定符号O_k的概率分布矩阵为：B＝b_j(k)，观察符号的概率又称符号发射概率；

初始状态的概率分布为：π＝{π_i}。

一般地，一个HMM记为一个五元组μ＝(C，K，A，B，π)，其中，C为状态的集合，O为输出符号的集合，π，A和B分别是初始状态的概率分布、状态转移概率和符号发射概率。

中文分词使用语料用以训练HMM。使用经典的字符标注模型，四类标签的集合C是C＝{B，E，M，S}，其含义如下：

B：一个词的开始

E：一个词的结束

M：一个词的中间

S：单字成词

用四类标签做好标记后，就可以开始用统计的方法构建一个HMM模型，每个字符的标签分类只受前一个字符分类的影响。求得HMM的状态转移矩阵A以及符号发射概率B。其中：

公式中C＝{B，E，M，S}，O＝{字符集合}，Count代表频率。在计算B_ij时，由于数据的稀疏性，很多字符未出现在训练集中，这导致概率为0的结果出现在B中，为了修补这个问题，采用加1的数据平滑技术，即：

我们设定初始向量π＝{0.5，0.0，0.0，0.5}，M和E不可能出现在句子的首位。至此，HMM模型构建完毕。基于这个HMM模型，对于一个观察序列，用Viterbi算法获得一个隐藏序列{B，E，M，S}。

Viterbi搜索算法为：

1、初始化：δ₁(i)＝π_ib_i(O₁),1≤i≤N,

概率最大的路径变量：

2、递归计算：

3、记忆回退路径：

4、终结：

通过回溯得到路径(状态序列)：

Viterbi算法的时间复杂性是O(N²T)。如“长沙市开福区洪山街道双河社区福元西路199号当代万国城三期10栋二单元1706”这个地址的输出状态序列为：

“BMEBMEBMMEBMMEBMMEBMMEBMMMMMEBMEBMEBMME”

根据这个状态序列可以进行中文切词为：

最后中文切词结果如下:

“长沙市|开福区|洪山街道|双河社区|福元西路|199号|当代万国城三期|10栋|二单元|1706”。

本实施例公开的数据脱敏的处理方法，首先采用算法复杂度较小的最大正向匹配方法或双向最大匹配中文分词方法对目标分词进行分词处理，保证了分词处理的处理速度。对分词结果的正确率进行计算，当分词结果正确率低于阈值时采用算法复杂度较高但分词准确率也较高的隐马尔柯夫模型对目标数据进行分词，保证了分词结果的准确性。

基于上述实施例公开的一种数据脱敏的处理方法，请参阅图13，本实施例对应公开了一种数据脱敏的处理装置，包括：

类型确定单元501，用于确定目标数据的类型；

第一分词处理单元502，用于根据所述目标数据的类型调用分词基准词库中的相应子词库，并采用与所述目标数据的类型相对应的分词方法进行分词；

脱敏处理单元503，用于根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。

可选的，所述装置还包括：

可选的，当所述目标数据的类型为用电地址时，所述第一分词处理单元502具体用于：

可选的，当所述目标数据的类型为企业类户名时，所述第一分词处理单元502具体用于：

可选的，所述装置还包括：

计算单元，用于计算所述目标数据的分词结果的正确率；

若是，触发所述脱敏处理单元；

可选的，当所述目标数据的类型为用电地址时，所述脱敏处理单元503包括：

可选的，当所述目标数据的类型为企业类户名时，所述脱敏处理单元503包括：

本实施例公开的一种数据脱敏的处理装置，在数据脱敏之前通过调用分词基准词库对目标数据进行分词，得到具有一定结构的数据，对存在主要敏感信息的部分进行脱敏处理，对敏感信息的全部或大部分进行掩码，提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库，并采用与目标数据的类型相对应的分词方法进行分词，提高了分词的准确性，并根据目标数据的类型和长度确定目标数据的脱敏方法，实现了不同类型不同长度数据的差异化脱敏，提高了数据脱敏的有效性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据脱敏的处理方法，其特征在于，包括：

确定目标数据的类型；

根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理；

其中，当所述目标数据的类型为用电地址时，所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理，包括：判断所述目标数据的长度是否大于第二预设值；当所述目标数据的长度大于所述第二预设值时，确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法；采用所述第一用电地址数据脱敏方法，从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据，得到剩余部分数据；保留所述门牌号数据的后5位数据和所述省市区县数据，对所述目标数据的剩余部分数据进行掩码，得到所述目标数据脱敏后的数据；当所述目标数据的长度不大于所述第二预设值时，确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法；采用所述第二用电地址数据脱敏方法，根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，当所述目标数据的类型为用电地址时，所述根据所述目标数据的类型调用分词基准词库中的相应子词库，采用与所述目标数据的类型相对应的分词方法进行分词，包括：

4.根据权利要求1所述的方法，其特征在于，当所述目标数据的类型为企业类户名时，所述根据所述目标数据的类型调用分词基准词库中的相应子词库，采用与所述目标数据的类型相对应的分词方法进行分词，包括：

5.根据权利要求1所述的方法，其特征在于，在所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法之前，所述方法还包括：

计算所述目标数据的分词结果的正确率；

6.根据权利要求1所述的方法，其特征在于，当所述目标数据的类型为企业类户名时，所述根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理，包括：

判断所述目标数据的长度是否大于第三预设值；

7.一种数据脱敏的处理装置，其特征在于，包括：

类型确定单元，用于确定目标数据的类型；

脱敏处理单元，用于根据所述目标数据的类型和所述目标数据的长度，确定所述目标数据的脱敏方法，并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理；

其中，当所述目标数据的类型为用电地址时，所述脱敏处理单元包括：第一判断子单元，用于判断所述目标数据的长度是否大于第二预设值；第一确定子单元，用于当所述目标数据的长度大于所述第二预设值时，确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法；第一提取子单元，用于采用所述第一用电地址数据脱敏方法，从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据，得到剩余部分数据；第一脱敏处理子单元，用于保留所述门牌号数据的后5位数据和所述省市区县数据，对所述目标数据的剩余部分数据进行掩码，得到所述目标数据脱敏后的数据；第二确定子单元，用于当所述目标数据的长度不大于所述第二预设值时，确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法；第二脱敏处理子单元，用于采用所述第二用电地址数据脱敏方法，根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分，并对所述目标数据的剩余部分进行掩码，得到所述目标数据脱敏后的数据。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，当所述目标数据的类型为用电地址时，所述第一分词处理单元具体用于：

10.根据权利要求7所述的装置，其特征在于，当所述目标数据的类型为企业类户名时，所述第一分词处理单元具体用于：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

计算单元，用于计算所述目标数据的分词结果的正确率；

若是，触发所述脱敏处理单元；

12.根据权利要求7所述的装置，其特征在于，当所述目标数据的类型为企业类户名时，所述脱敏处理单元包括：