CN110941720B

CN110941720B - 一种基于知识库的特定人员信息纠错方法

Info

Publication number: CN110941720B
Application number: CN201910865592.6A
Authority: CN
Inventors: 黄瑞章
Original assignee: Guizhou Cloud Pioneer Tech Co ltd; Guizhou University
Current assignee: Guizhou Cloud Pioneer Tech Co ltd; Guizhou University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2023-06-09
Anticipated expiration: 2039-09-12
Also published as: CN110941720A

Abstract

本发明公开了一种基于知识库的特定人员信息纠错方法，涉及计算机文字识别技术领域。本方法利用Double‑LSTM边界模型识别提取待检测文本中特定人员人名以及其他信息，用提取到的文本中信息与特定人员知识库中的特定人员信息进行对比计算相似度，判断当前文本中人名及其相关信息是否正确，建立正确人名信息库，同时筛选出疑似错误人名信息，优先使用本文中正确人名信息库其次使用特定人员知识库中信息对疑似错误信息进行相似度计算，以及其他辅助信息匹配，对疑似错误信息进行纠错。本方法解决了在句子中含有错误字符对文本语义的改变而导致人名识别困难的技术难点，同时大大提升了人名及称谓信息识别的效果，并实现了对文本中特定人员名及其相关信息的端对端直接纠错。

Description

一种基于知识库的特定人员信息纠错方法

技术领域

本发明涉及计算机文字识别技术领域，尤其涉及一种基于知识库的特定人员信息纠错方法。

背景技术

目前大多数纠错技术仅限于对目标字段进行常见词匹配编辑距离计算，并在小于编辑距离阀值的候选词中选择与目标字段编辑距离最小的词进行纠错。然而，在实际文本应用场景中，只单纯进行编辑距离对比并不能准确确定目标字段是否有误，往往上下文中的信息更能为发现错误与纠错提供帮助，但现有技术很少用到了提取文本中上下文信息并用于纠错中。同样，在现有技术中用来与目标字段进行匹配纠错的备选库中，往往只有目标候选词，而缺少相关辅助信息，这样使判断及纠错准确率大大降低。

现有的人名实体提取方法中多用序列标注模型，尤其是近期有很多神经网络技术也被多方面的运用到了序列标注识别模型中，在一些应用场景中也取得不错的效果。而在含有错误信息的句子中，序列标注实现实体名称提取尤其是人名提取的效果将大打折扣。因为序列标注模型在遇到错误字的时候往往不能判断当前错字是否为一个新词或者是其他词中的一个字。

发明内容

本发明的目的在于提供一种基于知识库的特定人员信息纠错方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于知识库的特定人员信息纠错方法，包括如下步骤：

S1，对目标文本进行预处理，同时建立常见错误词典；

S2，使用常见错误词典对目标文本进行匹配纠错；

S3,对预处理之后的文本进行识别，获取人名或/和称谓信息；

S4,对识别获取到的人名与知识库中人名进行对比，并计算相似度。

优选地，步骤S1中预处理包括分句预处理，将文本中句子按文中分句符进行分句。

优选地，步骤S2具体包括：按分句句子特征输入计算，对每一个文本序列使用字符串匹配的方式匹配输入序列中是否含有常见错误词典中的错误，若包含常见错误，则将错误字段保存为识别结果并进行纠错；若不包含常见错误，则直接进入步骤S3。

优选地，步骤S3中文本识别的方式：

S3.1，使用HanLP工具辅助Double-LSTM边界识别模型对句子中的人名及称谓等信息进行识别；

S3.2，提取人名字符串的拼音特征、五笔特征。

优选地，步骤S31中具体包括：

1)遍历待识别句子中的每个字，以当前字为中心将句子分为左子句和右子句；

2)将所述左子句和所述右子句分别输入两个不同的LSTM进行编码；

3)将编码后的向量级联输入全链接层进行分类，判断当前字是否为实体开始边界；

4)取以边界为开头的2-gram和3-gram作为候选人名，并使用HanLP工具对句子进行分词，按词性nr识别人名；

5)通过分词后的词性来识别称谓nnt，在称谓上下文寻找距离最近的人名作为称谓所属的人名。

优选地，步骤S3.2中具体包括：

对人名字符串，提取拼音特征，包括每个字的拼音，并且对平舌翘舌、边音鼻音进行了统一，将翘舌统一为平舌，将鼻音统一为边音；提取人名字符串的五笔特征，包括每个字的五笔编码。

优选地，步骤S4中具体包括：

S4.1,判断识别后的人名是否与知识库中人名相同，若识别出的人名是知识库中特定人员人名，则将识别出的人名存入“本文特定人员人名集合”，否则存入“疑似错误人名集合”；

S4.2,计算疑似错误人名与本文特定人员人名的人名相似度；当相似度大于阈值，则通过本文特定人员人名进行纠正；否则，进入步骤S43；

S4.3，计算疑似错误人名与知识库人名的人名相似度；判断人名相似度是否大于阈值，若是则通过知识库人名进行纠正，否则，判断该人名不是人名。

优选地，步骤S42具体包括：

人名相似度计算：人名相似度＝人名拼写相似度+称谓相似度；人名拼写相似度及称谓相似度计算如下；

人名拼写相似度计算：分别计算本文特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离，拼音/五笔的编辑距离为每个字拼音/五笔编码的编辑距离的平均，最后计算三个编辑距离的加权平均作为综合距离；比较综合距离是否大于给定阈值，若小于阈值的话，则人名相似度＝阈值-综合距离，否则人名相似度＝0，该阀值可视具体应用情况对拼写相似要求的松还是严而由人为给定，通常取值范围为0-1；

称谓相似度计算：称谓相似度＝当前人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/当前人名称谓集元素个数；如果当前人名称谓集不为空，但交集为空，则称谓相似度为负。

优选地，步骤S4.3具体包括：

人名相似度II计算：人名相似度II＝人名拼写相似度II+称谓相似度II；人名拼写相似度II及称谓相似度II计算如下；

人名拼写相似度II计算：分别计算知识库的特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离，最后计算三个编辑距离的加权平均作为综合距离；比较综合距离是否大于给定阈值，若小于阈值的话，则人名拼写相似度II＝阈值-综合距离，否则人名拼写相似度II＝0。

称谓相似度计算：称谓相似度II＝疑似错误人人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/疑似错误人人名称谓集元素个数；如果疑似错误人人名称谓集不为空，但交集为空，则称谓相似度II为负。

本发明的有益效果是：

本发明提出和实现了一套完整的基于知识库的特定人员信息纠错方法，首先对输入文本中的待识别人名不仅仅只单纯计算其与知识库中人名的编辑距离，在提取人名信息的同时，将会同时提取句子中特定人员称谓等信息作为判断的辅助信息，与知识库中信息一同计算比对，使得句中上下文语义信息利用起来使纠错判断更为合理准确，同时可以实现除了人名纠错之外的其他信息识别、纠正。其次，本发明在识别人名与其他信息时使用了Double-LSTM模型，避免了在句子中有错别字无法识别人名时的技术难点，在获取句子信息时，将针对句子每一个字进行其(除当前字之外的)左右两边信息进行提取，这样有效的解决了句子中错别字对整个句子语义产生影响的问题，同时大大提升了人名及称谓信息识别的效果。

附图说明

图1是实施例1中基于知识库的特定人员信息纠错方法实现流程图；

图2是是实施例1中的常见错误词典示例；

图3是是实施例1中采用的Double-LSTM模型结构示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于知识库的特定人员信息纠错方法，包括如下步骤：

1)对输入文本进行分句处理。以下模型方法以句子作为序列单位进行计算。对传入的文本按分句符号(,，。？？！！；；\n\r)进行分句处理。

2)使用常见错误词典进行匹配：我们将会维护一个常见错误词典，对每一个输入序列使用字符串匹配的方式匹配输入序列中是否含有常见错误词典中的错误，若包含常见错误，则将错误字段保存为识别结果并进行纠错，已在常见错误词典中识别过的字段将不再进入后续计算中。常见错误词典见图2中。

3)识别句中人名：结合了HanLP分词工具和Double-LSTM边界识别模型对人名进行识别，边界识别模型对人名进行识别，边界识别模型的作用是提升人名识别的效果，避免人名写错的情况下分词无法正确识别出，对实体开始边界进行识别。

对每个输入序列，首先使用Double-LSTM模型识别出人名边界，遍历序列中的每个字，以当前字为中心将句子分为左子句和右子句，左子句和右子句分别输入两个不同的LSTM模型进行编码，将编码后的向量级联输入全连接层进行分类，分类为二分类问题，判断当前字是否为实体开始边界。Double-LSTM模型见图中。

对边界识别的结果，取以边界为开头的2-gram和3-gram作为候选人名，将候选人名与知识库中的特定人员人名进行对比，保留编辑距离为1或2的候选人名作为疑似特定人员人名。将疑似特定人员人名加入分词词典，对句子进行分词，按分词词性nr进行人名识别。

4)识别句中称谓，并根据距离判断所属人名，得到人名称谓特征。通过分词后的词性来识别称谓nnt，在称谓上下文寻找距离(除顿号、称谓外的词数) 最近的人名作为称谓所属的人名。

5)提取人名字符串的拼音特征、五笔特征：对人名字符串，提取拼音特征 (每个字的拼音，并且对平舌翘舌、边音鼻音进行了统一，将翘舌统一为平舌，将鼻音统一为边音)、五笔特征(每个字的五笔编码)。

6)判断人名是否与知识库人名相同：对识别出的人名判断是否为知识库中的特定人员人名，是的话就存入“本文特定人员人名集合”，否则存入“疑似错误人名集合”。

7)计算疑似错误人名与本文特定人员人名的人名相似度I：计算“疑似错误人名集合”中人名和“本文特定人员人名集合”中人名的相似度，人名相似度由两部分组成，一部分为人名拼写相似度I，另一部分为称谓相似度I。

人名拼写相似度I，分别计算两人名的字符串、拼音、五笔的编辑距离，拼音/五笔的编辑距离为每个字拼音/五笔编码的编辑距离的平均，最后计算三个编辑距离的加权平均作为综合距离，比较综合距离是否大于给定阈值，若小于阈值的话，则人名拼写相似度I＝阈值-综合距离，否则人名相似度＝0，该阀值可视具体应用情况由认为给定。

称谓相似度I＝当前人名的称谓集与特定人员人名的称谓集的交集元素个数/ 前人名称谓集元素个数，如果当前人名称谓集不为空，但交集为空，则称谓相似度I为负，本实施例中取值-0.2。

8)计算疑似错误人名与知识库人名的人名相似度II：

称谓相似度计算：称谓相似度II＝疑似错误人人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/疑似错误人人名称谓集元素个数；如果疑似错误人人名称谓集不为空，但交集为空，则称谓相似度II为负，本实施例中取值-0.2。

实施例2

本实施例以具体的一段话为例，采用实施例1中的方法进行信息纠错，包括以下步骤：

1)从各类网页信息中提取关于特定人员的姓名、称谓等信息，将这些信息形成特定人员信息知识库。

2)参考网络常见特定人员信息易错词，提取形成常见错误词典。

3)输入待识别文本，经过本方法识别纠错即可得到结果，本方法识别纠错输入输出示例：

a)输入样例

{"docId":"9","title":"**大学校友新春交流会举行","text":"教育基金会消息：1月 14日，**大学校友新春交流会在举行。近30位长期以来情系母校、关心教育，为学校各项事业的发展出资出力的校友代表与校领导、学校相关职能部门负责人汇聚一堂，同贺新春，共同为学校的未来发展建言献策。富华国际集团总裁赵勇、蓝色光标传播集团董事长兼首席执行官赵文全、东方剑桥教育集团总裁于越等校友与**大学副校长、教育基金会副理事长王博，校友办公室主任、校友会副会长兼***李文胜，怀柔科学城校区筹建办公室主任李航，产业党工委***、资产经营有限公司总裁韦俊民，党委办公室校长办公室副主任付帅，教育基金会副***耿姝、赵琳等共同出席。交流会由教育基金会***李宁宇主持。"}

b)识别结果：

{"sentence":["富华国际集团总裁赵勇、蓝色光标传播集团董事长兼首席执行官赵文全"],"correct":"赵文权","wrong":"赵文全"}

{"sentence":["交流会由教育基金会***李宁宇主持"],"correct":"李宇宁","wrong":"李宁宇"}

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于知识库的特定人员信息纠错方法，其特征在于，包括如下步骤：

S1，对目标文本进行预处理，同时建立常见错误词典；

S2，使用常见错误词典对目标文本进行匹配纠错；

S3，对目标文本进行识别，获取人名或/和称谓信息；

S4，对识别获取到的人名与本文人名信息库和知识库中人名进行对比，并计算人名相似度；

S5，判断目标文本中人名相关信息是否正确，对错误项进行纠错并将正确信息加入本文人名信息库；

步骤S3中文本识别的方式：

S3.1，使用HanLP工具辅助Double-LSTM边界识别模型对句子中的人名及称谓信息进行识别；

S3.2，提取人名字符串的拼音特征、五笔特征；

步骤S31中具体包括：

1)遍历目标文本中的每个字，以当前字为中心将句子分为左子句和右子句；

5)通过分词后的词性来识别称谓nnt，在称谓上下文寻找距离最近的人名作为称谓所属的人名；

步骤S4中具体包括：

S4.2,计算疑似错误人名与本文特定人员人名的人名相似度I；当人名相似度I大于阈值，则通过本文特定人员人名进行纠正；否则，进入步骤S43；

S4.3，计算疑似错误人名与知识库人名的人名相似度II，判断人名相似度II是否大于阈值，若是则通过知识库人名进行纠正，否则，判断该人名不是需要纠错的人名；

步骤S4.2具体包括：

人名相似度I计算：人名相似度I＝人名拼写相似度I+称谓相似度I；人名拼写相似度及称谓相似度计算如下；

人名拼写相似度I计算：分别计算本文特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离，最后计算三个编辑距离的加权平均作为综合距离；比较综合距离是否大于给定阈值，若小于阈值的话，则人名拼写相似度＝阈值-综合距离，否则人名拼写相似度I＝0；该阀值可视具体应用情况由认为给定；

称谓相似度I计算：称谓相似度I＝当前人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/当前人名称谓集元素个数；如果当前人名称谓集不为空，但交集为空，则称谓相似度I为负；

步骤S4.3具体包括：

人名拼写相似度II计算：分别计算知识库的特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离，最后计算三个编辑距离的加权平均作为综合距离；比较综合距离是否大于给定阈值，若小于阈值的话，则人名拼写相似度II＝阈值-综合距离，否则人名拼写相似度II＝0；

2.根据权利要求1所述的基于知识库的特定人员信息纠错方法，其特征在于，步骤S1中预处理包括分句预处理，将文本中句子按文中分句符进行分句；本方法以句子为序列单位进行计算。

3.根据权利要求1所述的基于知识库的特定人员信息纠错方法，其特征在于，步骤S2具体包括：按分句句子特征输入计算，对每一个文本序列使用字符串匹配的方式匹配输入序列中是否含有常见错误词典中的错误，若包含常见错误，则将错误字段保存为识别结果并进行纠错；若不包含常见错误，则直接进入步骤S3。

4.根据权利要求1所述的基于知识库的特定人员信息纠错方法，其特征在于，步骤S3.2中具体包括：