CN113139382A

CN113139382A - 命名实体识别方法及装置

Info

Publication number: CN113139382A
Application number: CN202010063782.9A
Authority: CN
Inventors: 彭程; 王志立
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-07-20

Abstract

本发明公开了一种命名实体识别方法及装置，本发明并未直接调用使用特定领域的训练样本训练得到的神经网络模型，而是采用现有的预训练语言模型得到待分析文本对应的向量集合，进而不需要生成适用于待分析文本所在领域、且用于将文本转换成词向量的神经网络模型，并且，预训练语言模型的结构复杂，训练样本数量较多、且可以在各个领域通用，则采用预训练语言模型确定待分析文本的向量的方式，相比于调用神经网络模型确定待分析文本的向量的方式，能够提高生成的待分析文本的向量集合的准确度，进而使得命名实体识别结果更准确。

Description

命名实体识别方法及装置

技术领域

本发明涉及命名实体识别领域，更具体的说，涉及一种命名实体识别方法及装置。

背景技术

命名实体识别是自然语言处理(NLP)领域中的一项重要任务，也是知识图谱领域的一项基础技术，该技术可以对不定长度的文本提取特定的命名实体，如地点、人物、公司名等。

在对文本进行命名实体识别之前，需要将文本转换成词向量，此时会调用一个用于将文本转换成词向量的神经网络模型(如词向量模型)来将该文本转换成词向量。该神经网络模型的结构简单、且训练样本数量较少，使得训练的用于将文本转换成词向量的神经网络模型生成的词向量的准确度较差，进而使得命名实体识别结果不准确。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种命名实体识别方法及装置。

一种命名实体识别方法，包括：

获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；

调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；

对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。

可选地，获取待分析文本，包括：

获取目标文本；

对所述目标文本进行文本切割，得到所述待分析文本；所述待分析文本的文字数量在预设范围内。

可选地，确定所述待分析文本中所包含字符对应的标识信息，包括：

获取字符与标识信息的对应关系；

依据所述对应关系，确定所述待分析文本中的字符对应的标识信息；

对所述待分析文本中的字符对应的标识信息进行整合，得到所述待分析文本中所包含字符对应的标识信息。

可选地，所述预训练语言模型中包括多个网络层，不同网络层对应的权重不同，并且，调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合，包括：

将所述标识信息输入到所述预训练语言模型，获取所述预训练语言模型中每一所述网络层的输出结果；

根据每一所述网络层的输出结果与相应的权重值，对所述多个网络层的输出结果进行加权求和，得到所述待分析文本对应的向量集合。

可选地，对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据，包括：

调用神经网络模型对所述待分析文本对应的向量集合进行处理，得到所述待分析文本中的命名实体数据；所述神经网络模型用于进行命名实体识别。

一种命名实体识别装置，包括：

数据获取模块，用于获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；

标识处理模块，用于调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；

实体识别模块，用于对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。

可选地，所述数据获取模块用于获取待分析文本时，具体用于：

获取目标文本，对所述目标文本进行文本切割，得到所述待分析文本；所述待分析文本的文字数量在预设范围内。

可选地，所述数据获取模块包括：

关系获取子模块，用于获取字符与标识信息的对应关系；

标识确定子模块，用于依据所述对应关系，确定所述待分析文本中的字符对应的标识信息；

整合子模块，用于对所述待分析文本中的字符对应的标识信息进行整合，得到所述待分析文本中所包含字符对应的标识信息。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的命名实体识别方法。

一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述的命名实体识别方法。

借由上述技术方案，本发明提供了一种命名实体识别方法及装置，在确定待分析文本对应的向量时，采用的是确定所述待分析文本中所包含字符对应的标识信息，调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合的方式。由于本发明并未直接调用使用特定领域的训练样本训练得到的神经网络模型，而是采用现有的预训练语言模型得到待分析文本对应的向量集合，进而不需要生成适用于待分析文本所在领域、且用于将文本转换成词向量的神经网络模型，并且，预训练语言模型的结构复杂，训练样本数量较多、且可以在各个领域通用，则采用预训练语言模型确定待分析文本的向量的方式，相比于调用神经网络模型确定待分析文本的向量的方式，能够提高生成的待分析文本的向量集合的准确度，进而使得命名实体识别结果更准确。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种命名实体识别方法的方法流程图；

图2示出了本发明实施例提供的一种待分析文本的场景示意图；

图3示出了本发明实施例提供的另一种命名实体识别方法的方法流程图；

图4示出了本发明实施例提供的一种预训练语言模型的场景示意图；

图5示出了本发明实施例提供的一种命名实体识别方法的场景流程图；

图6示出了本发明实施例提供的一种命名实体识别装置的结构示意图；

图7示出了本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决上述的问题，本发明经过研究发现，预训练语言模型可以生成文字的字向量，从而可以将该预训练语言模型应用在命名实体识别领域，从而可以不用生成适用于一特定领域、且用于将文本转换成词向量的神经网络模型。

具体的，参照图1，一种命名实体识别方法可以包括：

S11、获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息。

本发明实施例中国的命名实体识别方法的执行主体可以是服务器。

在实际应用中，在进行命名实体识别时，需要获取待进行文本识别的文本，此时称为目标文本，本发明实施例并不需要限定待分析文本的领域，可以是司法领域，也可以是其他的领域。

目标文本可能是文字数量很小的文本，如仅有200字，也可能是文字数量较大的文本，如有2000字，本发明实施例中，限定了每次进行命名实体识别的文字的数量，如小于300字，设定300字，既可以避免文本过长而导致占用执行命名实体识别的服务器较多的资源而导致服务器瘫痪的问题，也可以避免因为文本过短而导致多次使用该服务器而导致服务器频繁被占用的问题，并且可以保证整个目标文本被全部使用。

因此，在得到目标文本之后，需要对目标文本进行文本切割，在文本切割时，可以将段落和标点符号作为切割的分割点，具体的，在将目标文本进行文本切割，得到步骤S11中的待分析文本时，需要保证待分析文本的文字数量在预设范围内，如小于300字。

将目标文本中的第一个字开始计数，当计数到接近300字时，找到满足300字的文字，将该文字前边的标点符号或者至少一个段落作为切割得到的第一个待分析文本，然后从切割处重新进行计数，当计数到300字时，再次将该文字前边的标点符号或者一段作为切割得到的第二个待分析文本，重复上述步骤，直至将整个目标文本切割完毕，就可以得到多个待分析文本，并且可以保证每一待分析文本的文字数量在统一的一个预设范围内，如不超过300字，每一待分析文本作为一个需要进行命名实体识别的文本，并单独执行一次命名实体识别的过程。

参照图2，图2给出了一种待分析文本的示意，该待分析文本为司法领域中的一个文本，文本中重点标注的部分可以是人工认为是需要识别出的命名实体，如法条名称、公司名、人物等。

通过上述的方法得到待分析文本之后，需要将待分析文本输入到预训练语言模型中，由于预训练语言模型并不能直接解析该待分析文本，只能识别待分析文本的标识信息，所以需要确定待分析文本中所包含字符对应的标识信息，其中，标识信息可以是01、02、05、44等一些数字。

在本实施例中，参照图3，确定所述待分析文本对应的标识信息的过程可以包括：

S21、获取字符与标识信息的对应关系。

本实施例中，预先构建了所有的字符与标识信息的对应关系，字符包括文字，也包括标点符号，即对应关系确定了每一字符对应的标识信息，举例来说，“我是小学生”中的字符按顺序依次对应的标识信息可以是01、05、23、28以及50。

字符与标识信息的对应关系可以是Excel的形式保存在上述服务器中的数据库中，此外，也可以保存到其他的服务器中，本实施例中的服务器与其他服务器进行通信，以获取到该字符与标识信息的对应关系。通信方式可以是无线通信、有线通信等方式，本实施例并不做具体的限定。

S22、依据所述对应关系，确定所述待分析文本中的字符对应的标识信息。

由于已经获取了上述的字符与标识信息的对应关系，可以从该对应关系中查询出待分析文本中的每一字符对应的标识信息。

需要说明的是，在确定待分析文本中的每一字符对应的标识信息时，若遇到待分析文本中的标点符号，则可以也作为一个字符对待，得到该标点符号对应的标识信息。

S23、对所述待分析文本中的字符对应的标识信息进行整合，得到所述待分析文本中所包含字符对应的标识信息。

得到待分析文本中的每一字符对应的标识信息之后，将所有的标识信息按照字符在待分析文本中的排列顺序进行汇总，就可以得到一串数字标识，可以组成一个多维的向量。

S12、调用预训练语言模型对所述待分析文本对应的标识信息进行处理，得到所述待分析文本对应的向量集合。

在实际应用中，所述预训练语言模型中包括多个网络层，不同网络层对应的权重不同。

具体的，本实施例中的预训练语言模型可以是BERT(Bidirectional EncoderRepresentation fromTransformers)、ERNIE(Enhanced Representation from kNowledgeIntEgration)和RoBERTa(a Robustly Optimized BERT Pretraining Approach)。

预训练语言模型的训练样本来源广泛，且涉及各个领域，如通过网络爬虫爬取的网页上的内容，涉及的领域较广，则对各个领域的通用性较强，进而可以适用于任何领域的文本的向量的生成，如司法领域、矿井领域、无人机领域等等，此外，预训练语言模型的结构复杂，样本来源多样，进而得到的样本的数量也较多，则使用大量的样本训练得到的预训练语言模型的准确度也会较高，也即向量的表达能力强。

目前开发的预训练语言模型一般是由12-24层Transformer结构构成，预训练语言模型的深度特征的表达能力强度浅度特征的表达能力，所以一般将除最后一层的每一层输出的权重设置为零，将最后一层的输出权重设置为一，则最后一层的输出作为该预训练语言模型的输出，但是在实际应用中，发明人经过实践发现，除最后一层之外的每一层对输出结果均有影响，且基于每一层的输出结果来确定最终的模型输出结果的方式，相较于直接将最后一层的输出作为模型的输出结果的方式来说，在特定领域，如命名实体识别领域，其得到的向量表达能力更好，进而本实施例考虑到每一层的输出特征都对预训练语言模型的输入有不同的理解，对预训练语言模型进行了改进，为每一层的输出结果赋予一权重值，并且该预训练语言模型的输出是各个层输出的输出结果与相应权重的乘积之和。

在实际应用中，每一层的权重是在样本训练时训练得到的，以保证预训练语言模型能够使用最有利于准确输出结果的特征。

参照公式(1)和公式(2)，现对公式中的各个字母的含义进行介绍：i:12层transformer中的第i层(1、2、3…)

某层transformer输出的特征矩阵，其形状为T*C(T为最大文本长度，一般小于300，如设定在150-300，C为每个字符的表示向量，此处可以为768维向量)；

：一个全连接层，unit＝1说明输出向量长度为1，即只输出一个浮点数数值，Dense_unit＝512指输出一个长度为512的向量，对一个样本中的每个文字的特征表达

为长度是768的向量，则整个文本的表达为T*768，经过这个全连接层后变成T*512。

α_i为第i层transformer输出向量的权重。

Output：最终输出，即上面提到的每个样本输出一个T*512的二维矩阵。

参照图4，图4给出了预训练语言模型的工作过程，对于每一网络层输入一个768维的向量，然后乘以对应的权重α_i，经过一个全连接层Dense Layer进行降维，对输入文本的每个中文文字获得一个长度为512的特征向量，就可以得到一个T*512维的向量。

具体的，步骤S12的具体实现过程可以是：

1)将所述标识信息输入到所述预训练语言模型，获取所述预训练语言模型中每一所述网络层的输出结果；

2)根据每一所述网络层的输出结果与相应的权重值，对所述多个网络层的输出结果进行加权求和，得到所述待分析文本对应的向量集合。

步骤1和2的具体实现过程参照上述相应说明。

S13、对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。

本实施例中，在进行命名实体识别处理时，需要调用一个用于进行命名实体识别的神经网络模型，该神经网络模型可以是以双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)构成的深度学习模型。该神经网络模型可以更好的理解文本的上下关系，最终通过CRF层获得每个字位置的分类结果，进而可以识别出文本中的命名实体。

具体的，参照图5，图5中的文本是指本实施例中的待分析文本，将该待分析文本切分成多个独立的汉字，即为Tok1、Tok2……Tokn。需要说明的是，在Tok前边设置一标识CLS，该标识表征是一文本的开头，后续将CLS、Tok1、Tok2……Tokn输入至预训练语言模型中，本实施例中的预训练语言模型可以是BERT模型，在输入至BERT模型之前，需要将CLS、Tok1、Tok2……Tokn转换成对应的标识信息E_[CLS]、E₁、E₂、E_n，经过BERT模型，得到待分析文本的向量集合，其中，该向量集合是由每一文字对应的向量组合得到，即由C、T1、T2……Tn组成，然后将C、T1、T2……Tn输入至一层Bi-LSTM中，这一层的目的有两个1.加强、T1、T2……Tn的上下文关联，2.获得初步的实体解码结果。Bi-LSTM的输出经过一层全连接层，输出的特征长度与命名实体识别数据标注的类别数N相同，得到Pc、P1、P2……P_N，以此获得对文本进行分类的能力。全连接层的输出将作为CRF层的输入，利用CRF层中的一个N*N大小的可训练类别转移矩阵，可以得到文本的最佳实体标注序列，即得到Tag₁，Tag₂、Tag₃.......Tag_N，Tag₁，Tag₂、Tag₃.......Tag_N即为识别得到的命名实体。

通过使用预训练语言模型的深层特征和浅层特征的动态融合提升了特征的表达能力，能够为后续模块提供更有效的特征。在命名实体识别模块中，通过Bi-LSTM和CRF层进行解码，以获取准确的实***置和类别。

本实施例中，在确定待分析文本对应的向量时，采用的是确定所述待分析文本中所包含字符对应的标识信息，调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合的方式。由于本发明并未直接调用使用特定领域的训练样本训练得到的神经网络模型，而是采用现有的预训练语言模型得到待分析文本对应的向量集合，进而不需要生成适用于待分析文本所在领域、且用于将文本转换成词向量的神经网络模型，并且，预训练语言模型的结构复杂，训练样本数量较多、且可以在各个领域通用，则采用预训练语言模型确定待分析文本的向量的方式，相比于调用神经网络模型确定待分析文本的向量的方式，能够提高生成的待分析文本的向量集合的准确度，进而使得命名实体识别结果更准确。

另外，通过引入大规模的预训练语言模型，该模块通过在海量中文文本上的训练，可以学习到更多的语言文本模式，据有强大的文本建模能力，配合特征动态融合方法可以解决命名实体识别模型训练所依赖数据样本较多的问题，极大提高了模型进行命名实体识别的效果，尤其是在小样本上的效果。同时，减少了训练模型所需要的是分词和词向量的训练的步骤带来的误差积累问题，分词工具可能引入因为分词错误产生的误差，而词向量训练过程由于算法能力的不足，也会对某些歧义词(如苹果公司的苹果和作为水果的苹果)产生错误的词向量。而本实施例中的预训练语言模型的训练样本较多，进而得到的文本对应的字向量更准确，并且，得到的每一文字的向量，不需要进行分词，进而避免由于分词错误带来的误差。

可选地，在上述命名实体识别方法的实施例的基础上，本发明的另一实施例提供了一种命名实体识别装置，参照图6，可以包括：

数据获取模块11，用于获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；

标识处理模块12，用于调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；

实体识别模块13，用于对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。

进一步，所述数据获取模块用于获取待分析文本时，具体用于：

进一步，所述数据获取模块包括：

关系获取子模块，用于获取字符与标识信息的对应关系；

进一步，所述预训练语言模型中包括多个网络层，不同网络层对应的权重不同，并且，标识处理模块12用于调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合时，具体用于：

进一步，实体识别模块13用于对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据时，具体用于：

所述命名实体识别装置包括处理器和存储器，上述数据获取模块、标识处理模块和实体识别模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高命名实体识别结果更准确。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述命名实体识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述命名实体识别方法。

本发明实施例提供了一种设备70，参照图7，设备70包括至少一个处理器701、以及与处理器连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行上述的命名实体识别方法。本文中的设备70可以是服务器、PC等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

一种命名实体识别方法，包括：

可选地，获取待分析文本，包括：

获取目标文本；

获取字符与标识信息的对应关系；

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述的命名实体识别方法，其特征在于，获取待分析文本，包括：

获取目标文本；

3.根据权利要求1所述的命名实体识别方法，其特征在于，确定所述待分析文本中所包含字符对应的标识信息，包括：

获取字符与标识信息的对应关系；

4.根据权利要求1所述的命名实体识别方法，其特征在于，所述预训练语言模型中包括多个网络层，不同网络层对应的权重不同，并且，调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合，包括：

5.根据权利要求1所述的命名实体识别方法，其特征在于，对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据，包括：

6.一种命名实体识别装置，其特征在于，包括：

7.根据权利要求6所述的命名实体识别装置，其特征在于，所述数据获取模块用于获取待分析文本时，具体用于：

8.根据权利要求6所述的命名实体识别装置，其特征在于，所述数据获取模块包括：

关系获取子模块，用于获取字符与标识信息的对应关系；

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的命名实体识别方法。

10.一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1-5中任一项所述的命名实体识别方法。