CN108776762B - 一种数据脱敏的处理方法及装置 - Google Patents

一种数据脱敏的处理方法及装置 Download PDF

Info

Publication number
CN108776762B
CN108776762B CN201810586230.9A CN201810586230A CN108776762B CN 108776762 B CN108776762 B CN 108776762B CN 201810586230 A CN201810586230 A CN 201810586230A CN 108776762 B CN108776762 B CN 108776762B
Authority
CN
China
Prior art keywords
data
target data
word
desensitization
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810586230.9A
Other languages
English (en)
Other versions
CN108776762A (zh
Inventor
林鸿
欧阳红
袁葆
江再玉
赵加奎
熊根鑫
王宇坤
于喻
宋振世
王奕
郑倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Beijing China Power Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Beijing China Power Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810586230.9A priority Critical patent/CN108776762B/zh
Publication of CN108776762A publication Critical patent/CN108776762A/zh
Application granted granted Critical
Publication of CN108776762B publication Critical patent/CN108776762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种数据脱敏的处理方法及装置,确定目标数据的类型;根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。通过对目标数据进行分词得到具有一定结构的数据,对存在主要敏感信息的部分进行脱敏处理,对敏感信息的全部或大部分进行掩码,提高了数据脱敏的有效性,保障数据资产安全,最大程度保护客户信息的安全,避免非正常查询、导出等方式造成的客户信息泄露。

Description

一种数据脱敏的处理方法及装置
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种数据脱敏的处理方法及装置。
背景技术
为落实国家《网络安全法》关于保护客户敏感信息的工作要求,保障电力营销客户数据资产安全,保障电力营销客户合法权益,需要对电力营销客户敏感信息进行数据脱敏,目的是在满足正常业务需要的同时,最大程度保护电力客户信息的安全,避免非正常查询、导出等方式造成的电力客户信息泄露。
目前电力营销数据脱敏主要规则主要采用掩码脱敏方法,保留部分信息,保证信息的长度不变,主要规则如下:
(1)联系人地址
格式:格式不固定,为不定长的字符串。
脱敏规则:按长度分阶梯保留,长度5个字及以下的,保留第1个字和最后2个字;长度6-9个字的,保留最后5个字;长度为10个字及以上的,隐去最后5个字之前的4个字;隐藏字用*代替。
(2)企业类户名
格式:企业类户名与营业执照一致,为公司名称,由若干个汉字组成。
脱敏规则:按长度分阶梯保留:长度4个字及以下的,首尾各保留1个字;长度5-6个字的,首尾各保留2个字;长度7个字及以上奇数,隐去中间3个字;长度8个字及以上偶数,隐去中间4个字;隐藏字用*代替。
现有电力营销数据脱敏规则的主要缺点在于:
用电地址和企业类户这两类电力营销数据按照目前数据脱敏规则进行数据脱敏后,非关键字掩码,而关键字却还保留着。比如,按照企业类户名的脱敏规则,脱敏后的户名地址仍然可能存在敏感信息,部分关键字得到保留,脱敏效果不明显。如下所示:青岛惠丰电机制造有限公司->青岛惠丰****有限公司;青岛贰零贰零商业服务有限公司->青岛贰******务有限公司。
按照联系人地址的脱敏规则,也存在类似的问题,如下所示:山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑小区2-1-101->山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑****1-101。
发明内容
有鉴于此,本发明公开了一种数据脱敏的处理方法及装置,在数据脱敏之前通过调用分词基准词库对目标数据进行分词,实现更加有效的数据脱敏。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种数据脱敏的处理方法,包括:
确定目标数据的类型;
根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。
可选的,所述方法还包括:
构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
可选的,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:
调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。
可选的,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:
调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
可选的,在所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法之前,所述方法还包括:
计算所述目标数据的分词结果的正确率;
判断所述目标数据的分词结果的正确率是否大于第一预设值;
若是,执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法;
若否,基于隐马尔柯夫模型对所述目标数据进行分词,并执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法。
可选的,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:
判断所述目标数据的长度是否大于第二预设值;
当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;
采用所述第一用户地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;
保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;
当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;
采用所述第二用户地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
可选的,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:
判断所述目标数据的长度是否大于第三预设值;
当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
一种数据脱敏的处理装置,包括:
类型确定单元,用于确定目标数据的类型;
第一分词处理单元,用于根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
脱敏处理单元,用于根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。
可选的,所述装置还包括:
词库构建单元,用于构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
可选的,当所述目标数据的类型为用电地址时,所述第一分词处理单元具体用于:
调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。
可选的,当所述目标数据的类型为企业类户名时,所述第一分词处理单元具体用于:
调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
可选的,所述装置还包括:
计算单元,用于计算所述目标数据的分词结果的正确率;
判断端元,用于判断所述目标数据的分词结果的正确率是否大于第一预设值;
若是,触发所述脱敏处理单元;
若否,触发第二分词处理单元,所述第二分词处理单元,用于基于隐马尔柯夫模型对所述目标数据进行分词,并触发所述脱敏处理单元。
可选的,当所述目标数据的类型为用电地址时,所述脱敏处理单元包括:
第一判断子单元,用于判断所述目标数据的长度是否大于第二预设值;
第一确定子单元,用于当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;
第一提取子单元,用于采用所述第一用户地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;
第一脱敏处理子单元,用于保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;
第二确定子单元,用于当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;
第二脱敏处理子单元,用于采用所述第二用户地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
可选的,当所述目标数据的类型为企业类户名时,所述脱敏处理单元包括:
第二判断子单元,用于判断所述目标数据的长度是否大于第三预设值;
第三确定子单元,用于当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
第二提取子单元,用于采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
第三脱敏处理子单元,用于对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
第四确定子单元,用于当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
第四脱敏处理子单元,用于采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
相对于现有技术,本发明的有益效果如下:
本发明提供的一种数据脱敏的处理方法及装置,在数据脱敏之前通过调用分词基准词库对目标数据进行分词,得到具有一定结构的数据,对存在主要敏感信息的部分进行脱敏处理,对敏感信息的全部或大部分进行掩码,提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库,并采用与目标数据的类型相对应的分词方法进行分词,提高了分词的准确性,并根据目标数据的类型和长度确定目标数据的脱敏方法,实现了不同类型不同长度数据的差异化脱敏,提高了数据脱敏的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种数据脱敏的处理方法流程图;
图2为本发明实施例公开的通用地址子词库示意图;
图3为本发明实施例公开的地名词库子词库示意图;
图4为本发明实施例公开的小区名称子词库示意图;
图5为本发明实施例公开的行政区划分集合子词库示意图;
图6为本发明实施例公开的区域集合子词库示意图;
图7为本发明实施例公开的行业集合子词库示意图;
图8为本发明实施例公开的公司组织集合子词库示意图;
图9为本发明实施例公开的最大正向匹配中文分词方法示意图;
图10为本发明实施例公开的用电地址数据脱敏处理方法流程图;
图11为本发明实施例公开的企业类户名数据脱敏处理方法流程图;
图12为本发明实施例公开的另一种数据脱敏的处理方法流程图;
图13为本发明实施例公开的一种数据脱敏的处理装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例公开了一种数据脱敏的处理方法,具体包括以下步骤:
S101:确定目标数据的类型;
目标数据为需要进行脱敏处理的数据,目标数据的类型可以包括电话类数据、地址类数据、用户名数据、银行账户类数据等。
S102:根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
分词是将一个汉字序列切分成一个一个单独的词。分词是将连续的字序列按照一定的规范重新组合成词序列的过程。
为了更准确的对目标数据进行分词,根据目标数据的类型调用分词基准词库中的相应子词库对目标数据进行分词。
需要说明的是,所述数据脱敏的处理方法还包括:
构建分词基准词库。
所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
请参阅图2~8,分别为分词基准词库中的通用地址子词库、地名子词库、小区名称子词库、行政区划分集合子词库、区域集合子词库、行业集合子词库和公司组织集合子词库。
为了更准确的对目标数据进行分词,根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词。例如,当所述目标数据的类型为用电地址时,调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。当所述目标数据的类型为企业类户名时,调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
如图9所示,在用电地址数据分词时采用最大正向匹配中文分词算法,具体算法如下:
从左到右将目标数据中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。如待分词文本:
content[]={"洪","山","街","道","双","河","社","区",……}
词表:dict[]={"长沙市","开福区","洪山","洪山街道",……}
(1)从content[1]开始,当扫描到content[2]的时候,发现"洪山"已经在词表dict[]中了。但还不能切分出来,因为我们不知道后面的词语能不能组成更长的词(最大匹配);
(2)继续扫描content[3],发现"洪山街"并不是dict[]中的词。但是我们还不能确定是否前面找到的"洪山"已经是最大的词了,因为"洪山街"是dict[2]的前缀;
(3)扫描content[4],发现"洪山街道"是dict[]中的词。继续扫描下去;
(4)当扫描content[5]的时候,发现"洪山街道双"并不是词表中的词,也不是词的前缀。因此可以切分出前面最大的词——"洪山街道"。
由此可见,最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。利用最大正向匹配算法,继续循环,完成剩余分词。如“长沙市开福区洪山街道双河社区福元西路199号当代万国城三期10栋二单元1706”这个地址的最后分词结果如下:
“长沙市|开福区|洪山街道|双河社区|福元西路|199|号|当代万国城三期|10|栋|二|单元|1706”。
在企业类户名数据分词时采用双向最大匹配中文分词方法。双向最大匹配中文分词方法首先分别进行最大正向匹配和最大逆向匹配中文分词,在此基础上对分词结果进行比较,根据不同的结果采用不同的分词策略,比如可以根据大颗粒度词越多越好、非词典词和单字词越少越好的原则,选取其中一种分词结果输出。
最大正向匹配中文分词算法已经详细描述。最大逆向匹配中文分词算法跟最大正向匹配算法类似,不同的是扫描的方向,它是从右往左取子串进行匹配。算法流程可描述为:
(1)输入经过预处理后待分词句子content,并初始化index=content.length;
(2)获得字典数据库内各个子字典的长度;
(3)获得分词单词的长度,并和字典数据库内最长的子字典比较,如果子字典的最大长度大于要分词的长度,则取剩于要分词的字符串为最大长度,否则则以最大长度分词;
(4)用二分法查找与当前最大匹配长度相同的子字典,如果找到该字典则转(5),否则最大长度减一转(4);
(5)取得要分词的字符串SubStr,在字典里找该字符串,如果找到则将该字符串添加到List内,如果没有找到则判断SubStr是否大于1,如果大于1,则删除SubStr最后一个字转(5),否则置切分标志,转(6);
(6)判断Index是否大于1,如果小于则转(3)否则保存List,退出。
双向最大匹配算法将正向匹配与逆向匹配算法相结合起来,对于待分字符串,首先分别用最大正向匹配和最大逆向匹配算法进行分词,对于分词结果进行比较,比较正向和反向两个最大匹配,返回分词结果;当两个方向的分词结果一致,返回字符串当不一致,返回长度小的;当长度一致,返回反向的。双向最大匹配中文分词算法步骤如下:
(1)输入待分词的句子content;
(2)对content进行预处理后分别用最大正向匹配算法和最大逆向匹配算法进行分词,对分词结果进行比较,如果分词结果完全相同则转(3),如果分词结果不同则转(4);
(3)任意选出一种分词结果,将分词结果输出算法结束;
(4)比较分词数目是否相同,如果相同则选取逆向分词结果,将分词结果输出,算法结束;否则选取分词数目较小的分词结果进行输出,算法结束。
S103:根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。
请参阅图10,当所述目标数据的类型为用电地址时,S103的执行过程如下:
S201:判断所述目标数据的长度是否大于第二预设值;若是执行S202,若否执行S203:
S202:确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;
S204:采用所述第一用户地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;
S205:保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;
S203:确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;
S206:采用所述第二用户地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
例如,对于长度10个字及以下的用电地址数据按第二用户地址数据脱敏方法进行数据脱敏,按长度分阶梯保留,长度5个字及以下的,保留第1个字和最后2个字;长度6-9个字的,保留最后5个字。
对于长度10个字及以上的用电地址数据按第一用户地址数据脱敏方法进行数据脱敏。用电地址一般由省、市、区县、街道/乡镇居委会/村、道路、小区、门牌号部分组成。门牌号部分保留最后5位,省、市、区县保留,其他部分全部用*代替。如下所示:
山东省济南市市中区山川大街天桥北居委会纬三路齐鲁安康苑小区2-1-101->山东省济南市市中区**********************1-101。
请参阅图11,当所述目标数据的类型为用电地址时,S103的执行过程如下:
S301:判断所述目标数据的长度是否大于第三预设值;若是,执行S302,若否执行S303;
S302:确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
S304:采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
S305:对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
S303:确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
S306:采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
例如,对于长度6个字以下的企业类户名数据按第二用电地址数据脱敏方法进行数据脱敏,按长度分阶梯保留,长度4个字及以下的,首尾各保留1个字;长度5-6个字的,首尾各保留2个字。
对于长度6个字及以上的企业类户名数据按第一用电地址数据脱敏方法进行数据脱敏。企业类户名一般由区域、字号、行业、公司组织四部分组成。保留前后的区域和组织部分不变,对字号和行业进行掩码操作。字号部分保留第一个字,其他部分全部用*代替;行业部分保留最后一个字,其他部分全部用*代替。如下所示:
青岛惠丰电机制造有限公司->青岛惠****造有限公司;
青岛贰零贰零商业服务有限公司->青岛贰******务有限公司。
本实施例公开的一种数据脱敏的处理方法,在数据脱敏之前通过调用分词基准词库对目标数据进行分词,得到具有一定结构的数据,对存在主要敏感信息的部分进行脱敏处理,对敏感信息的全部或大部分进行掩码,提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库,并采用与目标数据的类型相对应的分词方法进行分词,提高了分词的准确性,并根据目标数据的类型和长度确定目标数据的脱敏方法,实现了不同类型不同长度数据的差异化脱敏,提高了数据脱敏的有效性。
请参阅图12,本实施例公开了另一种数据脱敏的处理方法,具体包括以下步骤:
S401:确定目标数据的类型;
S402:根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
S403:计算所述目标数据的分词结果的正确率;
S404:判断所述目标数据的分词结果的正确率是否大于第一预设值;若是,执行S405,若否,执行S406;
S405:根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理;
S406:基于隐马尔柯夫模型对所述目标数据进行分词,并执行S405。
采用隐马尔柯夫模型(HMM Hidden Markov Model)对企业类户名和用电地址两类数据进行中文分词处理。HMM算法在训练语料规模足够大和覆盖领域足够多的情况下,可以获得更高的切分正确率。这类分词算法基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型就有HMM算法,该算法能够很好地处理歧义和未登录词问题,效果比基于字符串匹配效果更好。
隐马尔柯夫模型是一个双重随机过程,我们不知道具体的状态序列,只知道状态转移的概率,即模型的状态转换过程是不可观察的(隐蔽的),而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数。
HMM的组成包括:
模型中的状态数为N;
从每一个状态可能输出的不同的符号数M;
状态转移概率矩阵A=aij,其中aij为状态Si转移到状态Sj的概率;
从状态Cj观察到某一特定符号Ok的概率分布矩阵为:B=bj(k),观察符号的概率又称符号发射概率;
初始状态的概率分布为:π={πi}。
一般地,一个HMM记为一个五元组μ=(C,K,A,B,π),其中,C为状态的集合,O为输出符号的集合,π,A和B分别是初始状态的概率分布、状态转移概率和符号发射概率。
中文分词使用语料用以训练HMM。使用经典的字符标注模型,四类标签的集合C是C={B,E,M,S},其含义如下:
B:一个词的开始
E:一个词的结束
M:一个词的中间
S:单字成词
用四类标签做好标记后,就可以开始用统计的方法构建一个HMM模型,每个字符的标签分类只受前一个字符分类的影响。求得HMM的状态转移矩阵A以及符号发射概率B。其中:
Figure BDA0001689566350000131
Figure BDA0001689566350000132
公式中C={B,E,M,S},O={字符集合},Count代表频率。在计算Bij时,由于数据的稀疏性,很多字符未出现在训练集中,这导致概率为0的结果出现在B中,为了修补这个问题,采用加1的数据平滑技术,即:
Figure BDA0001689566350000133
我们设定初始向量π={0.5,0.0,0.0,0.5},M和E不可能出现在句子的首位。至此,HMM模型构建完毕。基于这个HMM模型,对于一个观察序列,用Viterbi算法获得一个隐藏序列{B,E,M,S}。
Viterbi搜索算法为:
1、初始化:δ1(i)=πibi(O1),1≤i≤N,
概率最大的路径变量:
Figure BDA0001689566350000134
2、递归计算:
Figure BDA0001689566350000135
3、记忆回退路径:
Figure BDA0001689566350000136
4、终结:
Figure BDA0001689566350000141
Figure BDA0001689566350000142
通过回溯得到路径(状态序列):
Figure BDA0001689566350000143
Viterbi算法的时间复杂性是O(N2T)。如“长沙市开福区洪山街道双河社区福元西路199号当代万国城三期10栋二单元1706”这个地址的输出状态序列为:
“BMEBMEBMMEBMMEBMMEBMMEBMMMMMEBMEBMEBMME”
根据这个状态序列可以进行中文切词为:
“BME|BME|BMME|BMME|BMME|BMME|BMMMMME|BME|BME|BM ME”
最后中文切词结果如下:
“长沙市|开福区|洪山街道|双河社区|福元西路|199号|当代万国城三期|10栋|二单元|1706”。
本实施例公开的数据脱敏的处理方法,首先采用算法复杂度较小的最大正向匹配方法或双向最大匹配中文分词方法对目标分词进行分词处理,保证了分词处理的处理速度。对分词结果的正确率进行计算,当分词结果正确率低于阈值时采用算法复杂度较高但分词准确率也较高的隐马尔柯夫模型对目标数据进行分词,保证了分词结果的准确性。
基于上述实施例公开的一种数据脱敏的处理方法,请参阅图13,本实施例对应公开了一种数据脱敏的处理装置,包括:
类型确定单元501,用于确定目标数据的类型;
第一分词处理单元502,用于根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
脱敏处理单元503,用于根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。
可选的,所述装置还包括:
词库构建单元,用于构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
可选的,当所述目标数据的类型为用电地址时,所述第一分词处理单元502具体用于:
调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。
可选的,当所述目标数据的类型为企业类户名时,所述第一分词处理单元502具体用于:
调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
可选的,所述装置还包括:
计算单元,用于计算所述目标数据的分词结果的正确率;
判断端元,用于判断所述目标数据的分词结果的正确率是否大于第一预设值;
若是,触发所述脱敏处理单元;
若否,触发第二分词处理单元,所述第二分词处理单元,用于基于隐马尔柯夫模型对所述目标数据进行分词,并触发所述脱敏处理单元。
可选的,当所述目标数据的类型为用电地址时,所述脱敏处理单元503包括:
第一判断子单元,用于判断所述目标数据的长度是否大于第二预设值;
第一确定子单元,用于当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;
第一提取子单元,用于采用所述第一用户地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;
第一脱敏处理子单元,用于保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;
第二确定子单元,用于当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;
第二脱敏处理子单元,用于采用所述第二用户地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
可选的,当所述目标数据的类型为企业类户名时,所述脱敏处理单元503包括:
第二判断子单元,用于判断所述目标数据的长度是否大于第三预设值;
第三确定子单元,用于当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
第二提取子单元,用于采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
第三脱敏处理子单元,用于对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
第四确定子单元,用于当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
第四脱敏处理子单元,用于采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
本实施例公开的一种数据脱敏的处理装置,在数据脱敏之前通过调用分词基准词库对目标数据进行分词,得到具有一定结构的数据,对存在主要敏感信息的部分进行脱敏处理,对敏感信息的全部或大部分进行掩码,提高了数据脱敏的有效性。根据目标数据的类型调用分词基准词库中相应子词库,并采用与目标数据的类型相对应的分词方法进行分词,提高了分词的准确性,并根据目标数据的类型和长度确定目标数据的脱敏方法,实现了不同类型不同长度数据的差异化脱敏,提高了数据脱敏的有效性。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种数据脱敏的处理方法,其特征在于,包括:
确定目标数据的类型;
根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理;
其中,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:判断所述目标数据的长度是否大于第二预设值;当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;采用所述第一用电地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;采用所述第二用电地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
3.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:
调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。
4.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:
调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法之前,所述方法还包括:
计算所述目标数据的分词结果的正确率;
判断所述目标数据的分词结果的正确率是否大于第一预设值;
若是,执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法;
若否,基于隐马尔柯夫模型对所述目标数据进行分词,并执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法。
6.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:
判断所述目标数据的长度是否大于第三预设值;
当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
7.一种数据脱敏的处理装置,其特征在于,包括:
类型确定单元,用于确定目标数据的类型;
第一分词处理单元,用于根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;
脱敏处理单元,用于根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理;
其中,当所述目标数据的类型为用电地址时,所述脱敏处理单元包括:第一判断子单元,用于判断所述目标数据的长度是否大于第二预设值;第一确定子单元,用于当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;第一提取子单元,用于采用所述第一用电地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;第一脱敏处理子单元,用于保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;第二确定子单元,用于当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;第二脱敏处理子单元,用于采用所述第二用电地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
词库构建单元,用于构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。
9.根据权利要求7所述的装置,其特征在于,当所述目标数据的类型为用电地址时,所述第一分词处理单元具体用于:
调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。
10.根据权利要求7所述的装置,其特征在于,当所述目标数据的类型为企业类户名时,所述第一分词处理单元具体用于:
调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
计算单元,用于计算所述目标数据的分词结果的正确率;
判断端元,用于判断所述目标数据的分词结果的正确率是否大于第一预设值;
若是,触发所述脱敏处理单元;
若否,触发第二分词处理单元,所述第二分词处理单元,用于基于隐马尔柯夫模型对所述目标数据进行分词,并触发所述脱敏处理单元。
12.根据权利要求7所述的装置,其特征在于,当所述目标数据的类型为企业类户名时,所述脱敏处理单元包括:
第二判断子单元,用于判断所述目标数据的长度是否大于第三预设值;
第三确定子单元,用于当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;
第二提取子单元,用于采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;
第三脱敏处理子单元,用于对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;
第四确定子单元,用于当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;
第四脱敏处理子单元,用于采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第二分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。
CN201810586230.9A 2018-06-08 2018-06-08 一种数据脱敏的处理方法及装置 Active CN108776762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810586230.9A CN108776762B (zh) 2018-06-08 2018-06-08 一种数据脱敏的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810586230.9A CN108776762B (zh) 2018-06-08 2018-06-08 一种数据脱敏的处理方法及装置

Publications (2)

Publication Number Publication Date
CN108776762A CN108776762A (zh) 2018-11-09
CN108776762B true CN108776762B (zh) 2022-01-28

Family

ID=64025970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810586230.9A Active CN108776762B (zh) 2018-06-08 2018-06-08 一种数据脱敏的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108776762B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382457B (zh) * 2018-12-28 2023-08-18 神州数码医疗科技股份有限公司 一种数据风险评估方法和装置
CN111767565B (zh) * 2019-03-15 2024-04-12 北京京东尚科信息技术有限公司 一种数据脱敏的处理方法、处理装置和存储介质
CN110610196B (zh) * 2019-08-14 2023-04-28 平安科技(深圳)有限公司 脱敏方法、***、计算机设备和计算机可读存储介质
CN110532805B (zh) * 2019-09-05 2023-01-24 国网山西省电力公司阳泉供电公司 数据脱敏方法及装置
CN110750984B (zh) * 2019-10-24 2023-11-21 深圳前海微众银行股份有限公司 命令行字符串处理方法、终端、装置及可读存储介质
CN110851864A (zh) * 2019-11-08 2020-02-28 国网浙江省电力有限公司信息通信分公司 一种敏感数据自动识别和处理方法及***
CN115062338A (zh) * 2019-12-31 2022-09-16 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN110928931B (zh) * 2020-02-17 2020-06-30 深圳市琦迹技术服务有限公司 敏感数据的处理方法及装置、电子设备、存储介质
CN112132238A (zh) * 2020-11-23 2020-12-25 支付宝(杭州)信息技术有限公司 一种识别隐私数据的方法、装置、设备和可读介质
CN116719907B (zh) * 2023-06-26 2024-06-11 阿波罗智联(北京)科技有限公司 数据处理方法、装置、设备以及存储介质
CN117272996B (zh) * 2023-11-23 2024-02-27 山东网安安全技术有限公司 一种数据脱敏***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2998903A1 (en) * 2014-09-18 2016-03-23 Kaspersky Lab, ZAO System and method for robust full-drive encryption
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及***
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及***
CN107609418A (zh) * 2017-08-31 2018-01-19 深圳市牛鼎丰科技有限公司 文本数据的脱敏方法、装置、存储设备以及计算机设备
CN107885876A (zh) * 2017-11-29 2018-04-06 北京安华金和科技有限公司 一种基于sql语句改写的动态脱敏方法
CN107992771A (zh) * 2017-12-20 2018-05-04 北京明朝万达科技股份有限公司 一种数据脱敏方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731976B (zh) * 2015-04-14 2018-03-30 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
CN104750852B (zh) * 2015-04-14 2018-03-09 海量云图(北京)数据技术有限公司 中文地址数据的发现与分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2998903A1 (en) * 2014-09-18 2016-03-23 Kaspersky Lab, ZAO System and method for robust full-drive encryption
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及***
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及***
CN107609418A (zh) * 2017-08-31 2018-01-19 深圳市牛鼎丰科技有限公司 文本数据的脱敏方法、装置、存储设备以及计算机设备
CN107885876A (zh) * 2017-11-29 2018-04-06 北京安华金和科技有限公司 一种基于sql语句改写的动态脱敏方法
CN107992771A (zh) * 2017-12-20 2018-05-04 北京明朝万达科技股份有限公司 一种数据脱敏方法和装置

Also Published As

Publication number Publication date
CN108776762A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN108776762B (zh) 一种数据脱敏的处理方法及装置
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
JP2008243227A (ja) 手書き文字認識で使用されるテンプレートを生成する方法および装置
CN109344263A (zh) 一种地址匹配方法
CN109284358B (zh) 一种中文地址名词分层级的方法和装置
CN108268440A (zh) 一种未登录词识别方法
Gilbert et al. A probabilistic context-free grammar for melodic reduction
Tsai et al. Mencius: A Chinese named entity recognizer using the maximum entropy-based hybrid model
CN116414824A (zh) 行政区划信息识别和标准化处理的方法、装置及存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
Skylaki et al. Named entity recognition in the legal domain using a pointer generator network
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
Sarikaya et al. Shrinkage based features for slot tagging with conditional random fields.
CN109871536B (zh) 地名识别方法和装置
Kumar Saha et al. Named entity recognition in Hindi using maximum entropy and transliteration
CN115146635B (zh) 一种基于领域知识增强的地址分节方法
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN116821326A (zh) 基于自注意力和相对位置编码的文本摘要生成方法及装置
CN112632526B (zh) 一种基于综合分段的用户口令建模与强度评估方法
Whitelaw et al. Named entity recognition using a character-based probabilistic approach
Lu et al. Learning Chinese word embeddings by discovering inherent semantic relevance in sub-characters
Wang et al. Accurate Braille-Chinese translation towards efficient Chinese input method for blind people
Diewald Matrix and double-array representations for efficient finite state tokenization
CN111428475A (zh) 分词词库的构建方法、分词方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant