CN108363701B

CN108363701B - 命名实体识别方法及***

Info

Publication number: CN108363701B
Application number: CN201810332013.7A
Authority: CN
Inventors: 杨慧宇; 高翔; 纪达麒; 陈运文
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-06-28
Anticipated expiration: 2038-04-13
Also published as: CN108363701A

Abstract

本申请公开了一种命名实体识别方法及***。该命名实体识别方法包括：获取少量标注数据；根据所述少量标注数据为每个目标命名实体生成一个或多个正则表达式；根据每个所述目标命名实体的正则表达式生成命名实体识别模型。该命名实体识别方法***包括：正则生成模块、正则处理模块、正则评估模块、以及识别模型生成模块。本申请解决了现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题，以及现有的基于机器学习的命名实体识别方法缺乏直观的解释，一旦出现识别错误后，无法快速的定位及纠错的问题。

Description

命名实体识别方法及***

技术领域

本申请涉及文本识别领域，具体而言，涉及一种命名实体识别方法及***。

背景技术

随着大数据技术的日益发展，企业越来越需要通过各种数据进行分析以挖掘其中的重要价值。而其中，各种非结构化的文本数据却无法直接进行分析从而不能得到充分的利用。因此文本的结构化技术对于文本挖掘来说就显得十分重要，而命名实体识别又是文本结构化技术的重要手段之一。随着人工智能技术的大力发展，机器学习和深度学习方法在命名实体识别上有广泛的应用。

在机器学习方法和深度学习方法在命名实体识别上应用时，发明人发现，该方法包括至少如下缺点：

1.传统的机器学习方法，如隐马尔科夫模型(HMM)、条件随机场(CRF)等，往往都需要大量的标注数据，而深度学习方法，例如LSTM网络等则更需要海量的标注数据。在命名实体识别领域，尤其是特定领域的命名实体识别，几乎没有任何高质量的公开数据。而手工标注实体数据，相比文本或者图片分类又是更加昂贵。同时，训练数据所需要的量往往也很难评估，不同的实体因为上下文语境的不同可能需要不同量级的训练样本。

2.对于机器学习，尤其是深度学习***，训练出的模型往往被视为黑盒***，对于***为何能够识别出相关实体缺乏直观的解释。一旦出现识别错误后，也无法快速的定位及纠错。

针对上述在命名实体识别上的问题，发明人提出了一种解决方案。

发明内容

本申请的主要目的在于提供一种命名实体识别方法，以解决现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题，以及现有的基于机器学习的命名实体识别方法缺乏直观的解释，一旦出现识别错误后，无法快速的定位及纠错的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种命名实体识别方法。

根据本申请的命名实体识别方法包括：获取带标注的训练数据；根据所述训练数据为每个目标命名实体生成一个或多个正则表达式；根据每个所述目标命名实体的正则表达式生成命名实体识别模型。

进一步的，在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前，包括：判断每个所述正则表达式是否满足预设的处理条件；根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。

进一步的，所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型，包括：获取每个所述正则表达式的特征字符；根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引。

进一步的，在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前，包括：根据预设的评估模型对每个所述正则表达式进行评分。

进一步的，所述的命名实体识别方法还包括：获取待识别的文本数据；根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别，并确定出识别结果。

进一步的，所述根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别，并确定出识别结果，包括：确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式；用每个所述对应的正则表达式对所述待识别的文本数据进行匹配，获得每个所述对应的正则表达式匹配出的命名实体；对所有所述对应的正则表达式匹配出的命名实体进行筛选，确定出识别结果。

进一步的，所述对所有所述对应的正则表达式匹配出的命名实体进行筛选，确定出识别结果，包括：根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估，并得到评估结果；根据所述评估结果对所有的所述命名实体进行筛选，确定出识别结果。

为了实现上述目的，根据本申请的另一方面，提供了一种命名实体识别***。

根据本申请的命名实体识别***包括：

正则生成模块，用于根据带标注的训练数据为每个目标命名实体生成一个或多个正则表达式；

正则处理模块，用于根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理；

正则评估模块，用于根据预设的评估模型对每个所述正则表达式进行评分；

识别模型生成模块，用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型。

进一步的，所述命名实体识别***还包括：

正则识别模块，用于根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别，并得到所有的识别结果；

识别内容评估模块，用于对所述正则识别模块得到的所有的识别结果进行筛选，确定出最终识别结果。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现所述命名实体识别方法。

在本申请实施例中，采用正则表达式来对命名实体进行识别，通过少量标注数据为目标命名实体训练出对应的一个或多个正则表达式，进一步通过标注数据不断的对正则表达式进行筛选评估，达到了只需少量的训练数据就能生成命名实体识别模型的目的，解决现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题。并且由于正则表达式非常直观，可以对识别结果进行很好的解释，解决了现有的基于机器学习的命名实体识别方法缺乏直观的解释，一旦出现识别错误后，无法快速的定位及纠错的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是第一实施例命名实体识别方法流程示意图；

图2是第二实施例命名实体识别方法流程示意图；

图3是第三实施例命名实体识别方法流程示意图；

图4是第四实施例命名实体识别方法流程示意图；以及

图5是第一实施例命名实体识别***结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，基于本申请的一个方面提供了一种命名实体识别方法，该方法包括步骤S101至步骤S105。

步骤S101，获取带标注的训练数据。在本步骤中，所述带标注的训练数据为在文本中已经标注出命名实体的训练数据，由于正则表达式的优点，在训练阶段只需要数量相对较少的训练数据。

步骤S102，根据所述训练数据为每个目标命名实体生成一个或多个正则表达式。在本步骤中，根据训练样本，截取训练样本中所标注实体一定长度的上下文，长度可根据具体字段的情况进行配置。然后，对每个标注实体所对应的上下文的长度不断删减，直至上下文都只剩下一个字符。在删减的同时，根据不同长度的上下文生成一些基本的正则表达式，作为该命名实体的候选正则表达式。从而对每一种目标命名实体，会生成若干个正则表达式候选集。

步骤S103，根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。本步骤为，对在所述步骤S102中生成的大量正则表达式进行清洗。首先，根据先验知识，命名实体的上文的信息通常是更重要的。如果这时正则表达式中的上文不包含汉字字符，则排除掉该条正则表达式。其次，如果正则表达式中含有空格、\t等空白字符，要对该正则表达式进行清洗。然后，正则表达式中所包含的转义字符要进行转义处理。此外，对正则表达式中的数字字符需要用\d进行替换处理，使正则表达式的泛化性能增强。

步骤S104，根据预设的评估模型对每个所述正则表达式进行评分。在本步骤中，对每个目标命名实体的所有正则表达式，从最大长度正则表达式开始，去所述训练数据中进行匹配。当某个长度的正则表达式匹配的结果超过最大长度正则表达式所匹配到的内容数目时，则停止。取匹配的内容和最大长度正则表达式相等的最短正则表达式，作为该候选集里的正则中的最佳长度。进一步对每个所述正则表达式进行评分，正则表达式的评估分数可以通过匹配数除以总文本数得到，若得分超过1，则取1。同时，若正则表达式的前文中出现表示is a关系的字符，可以对分数乘以一定系数。

步骤S105，根据每个所述目标命名实体的正则表达式生成命名实体识别模型。在本步骤中，根据经过上述步骤S103和步骤S104进行评估和筛选过后的正则表达式建立用于识别目标命名实体的命名实体识别模型。由于正则表达式具有的良好的可解释性，模型本身可以依据领域知识进行更改，例如对正则表达式中的中英文符号进行替换等。

如图2所示，所述步骤S105，根据每个所述目标命名实体的正则表达式生成命名实体识别模型，包括步骤S201至步骤S202。

步骤S201，获取每个所述正则表达式的特征字符。在本步骤中，提取所述命名实体识别模型中的所有正则表达式的首字符，进而通过首字符对所有的正则表达式进行排序。

步骤S202，根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引。在本步骤中，考虑到后续命名实体识别阶段匹配时的效率，无法将所有正则表达式去全文中进行匹配，因此，根据正则表达式的首字符建立首字符与正则表达式之间的倒排索引，便于提高后续命名实体识别阶段匹配时的效率。

如图3所示，本申请的命名实体识别方法还包括步骤S301至步骤S302，其中：

步骤S301，获取待识别的文本数据；以及

步骤S302，根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别，并确定出识别结果。

如图4所示，所述步骤S302，根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别，并确定出识别结果，具体包括步骤S401至步骤S402。

步骤S401，确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式。在本步骤中，在用正则表达式对待识别的文本数据进行匹配识别时，为了提高识别效率，并不是直接将所有正则表达式去所述待识别的文本数据中进行匹配识别，而是对所述待识别的文本数据中的字符进行逐字符扫描，若字符和倒排中的索引字符相同则使用相应的正则表达式进行匹配识别，从而可以大大提升识别的效率。

步骤S402，用每个所述对应的正则表达式对所述待识别的文本数据进行匹配，获得每个所述对应的正则表达式匹配出的命名实体。

步骤S403，根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估，并得到评估结果。在本步骤中，对所有匹配出来的命名实体进行置信度评估，在本申请的一可选实施例中可以按照如下规则进行评估

1.匹配出的命名实体的长度超过或者不到特定阈值时，要进行过滤。

2.匹配出的命名实体(不)包含特定字符，例如中文，数字，字母，标点等。

3.匹配出的命名实体的位置是否与训练样本中大部分实体的位置是否一致，可以按照偏离度给出一定的置信度。如简历中提取的姓名大多在开头，若匹配到的人名在全文靠后的位置，则置信度较低。

4.匹配出的命名实体也要结合所对应的正则表达式的分数，正则表达式的分数越高对应的命名实体置信度也越高。

根据上述评估规则对所有匹配出来的命名实体进行置信度评估，并得出评估结果。

步骤S404，根据所述评估结果对所有的所述命名实体进行筛选，确定出识别结果。在本步骤中，根据所述评估结果对所有匹配出来的命名实体进行排序，选取置信度较高的命名实体作为最终的识别结果。

从以上的描述中，可以看出，本发明具有至少如下优点：

1.该方法结合了正则表达式和机器学习的思想，无须人工总结大量的正则表达式，同时对于识别结果有着较好的解释性，方便业务人员查找问题和及时纠错。通过评估模块，能够灵活的调整抽取的准确率和召回率。

2.使用倒排索引的方法解决了多正则表达式预测时的效率问题。同时训练阶段，较之于机器学习和深度学习方法有较大的性能优势。

3.提供了命名实体识别领域一种新的思路，可以作为专家***和机器学习方法的补充，对结果进行交叉验证。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述命名实体识别方法的命名实体识别***，如图5所示，该***包括：正则生成模块1、正则处理模块2、正则评估模块3、以及识别模型生成模块4，其中：

所述正则生成模块1，用于根据带标注的训练数据为每个目标命名实体生成一个或多个正则表达式；

所述正则处理模块2，用于根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理；

所述正则评估模块3，用于根据预设的评估模型对每个所述正则表达式进行评分；

所述识别模型生成模块4，用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型。

如图5所示，该命名实体识别***还包括：正则识别模块5和识别内容评估模块6，其中：

所述正则识别模块5，用于根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别，并得到所有的识别结果；

所述识别内容评估模块6，用于对所述正则识别模块得到的所有的识别结果进行筛选，确定出最终识别结果。

基于本申请的另一方面，还提供了一种一种计算机设备，包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现所述命名实体识别方法。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

获取带标注的训练数据；

根据所述训练数据为每个目标命名实体生成一个或多个正则表达式；

根据每个所述目标命名实体的正则表达式生成命名实体识别模型；

其中，所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型，包括：

获取每个所述正则表达式的特征字符；

根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引；

根据预设的评估模型对每个所述正则表达式进行评分，包括：

对每个目标命名实体的所有正则表达式，从最大长度正则表达式开始，去所述训练数据中进行匹配；当某个长度的正则表达式匹配的结果超过最大长度正则表达式所匹配到的内容数目时，则停止；取匹配的内容和最大长度正则表达式相等的最短正则表达式，作为候选集里的正则表达式中的最佳长度；每个所述正则表达式进行评分，正则表达式的评估分数可以通过匹配数除以总文本数得到，若得分超过1，则取1。

2.根据权利要求1所述的命名实体识别方法，其特征在于，在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前，包括：

判断每个所述正则表达式是否满足预设的处理条件；

根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。

3.根据权利要求1所述的命名实体识别方法，其特征在于，所述的命名实体识别方法还包括：

获取待识别的文本数据；

根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别，并确定出识别结果。

4.根据权利要求3所述的命名实体识别方法，其特征在于，所述根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别，并确定出识别结果，包括：

确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式；

用每个所述对应的正则表达式对所述待识别的文本数据进行匹配，获得每个所述对应的正则表达式匹配出的命名实体；

对所有所述对应的正则表达式匹配出的命名实体进行筛选，确定出识别结果。

5.根据权利要求4所述的命名实体识别方法，其特征在于，所述对所有所述对应的正则表达式匹配出的命名实体进行筛选，确定出识别结果，包括：

根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估，并得到评估结果；

根据所述评估结果对所有的所述命名实体进行筛选，确定出识别结果。

6.一种命名实体识别***，其特征在于，包括：

识别模型生成模块，用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型；

其中，识别模型生成模块，用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型，包括：获取每个所述正则表达式的特征字符；

正则评估模块，用于根据预设的评估模型对每个所述正则表达式进行评分，包括：

7.根据权利要求6所述的命名实体识别***，其特征在于，所述命名实体识别***还包括：

8.一种计算机设备，包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。