WO2019228466A1

WO2019228466A1 - 命名实体识别的方法、装置、设备及存储介质

Info

Publication number: WO2019228466A1
Application number: PCT/CN2019/089325
Authority: WO
Inventors: 温海娇; 陈虹; 牛国扬; 董修岗
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-06-01
Filing date: 2019-05-30
Publication date: 2019-12-05
Also published as: CN110555206A

Abstract

本公开提供了一种命名实体识别的方法、装置、设备及存储介质。所述方法包括：对新领域文本数据进行实体识别，得到新领域种子实体词；根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据；利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型；以及利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。

Description

命名实体识别的方法、装置、设备及存储介质

技术领域

本公开涉及(但不选用)自然语言处理、语义分析与理解、人工智能技术领域。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理(Natural Language Processing，NLP)的一个基础分支，也是信息抽取中的关键技术之一，用于识别某一领域内的专有名词，比如银行领域的“***”、“借记卡”等。

发明内容

根据本公开实施例，提供一种命名实体识别的方法，包括：对新领域文本数据进行实体识别，得到新领域种子实体词；根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据；利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型；以及利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。

根据本公开实施例提供的一种命名实体识别的装置，包括：实体识别模块，其构造为对新领域文本数据进行实体识别，得到新领域种子实体词；文本打标模块，其构造为根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据；模型训练模块，其构造为利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型；以及模型应用模块，其构造为利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。

根据本公开实施例提供的一种命名实体识别的设备，包括处理器以及与所述处理器耦接的存储器，其中，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，所述处理器执行根据本公开的命名实体识别的方法。

根据本公开实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行根据本公开的命名实体识别的方法。

附图说明

图1是根据本公开实施例的命名实体识别的方法的流程图；

图2是根据本公开实施例的命名实体识别的装置的框图；

图3是根据本公开实施例的命名实体识别的设备的框图；

图4是根据本公开实施例的实体识别***的架构图；

图5是根据本公开实施例的自动化实体识别***的架构图；

图6是根据本公开实施例的新词发现挖掘种子实体词的流程图；

图7是根据本公开实施例的新词发现算法的流程图；

图8是根据本公开实施例的句式挖掘种子实体词的流程图；

图9是根据本公开实施例的句式挖掘算法的流程图；

图10是领域概念图谱的示例性结构示意图；

图11是根据本公开实施例的语料自动打标的流程图；

图12是根据本公开实施例的仅有新领域的半自动化实体识别的流程图；以及

图13是根据本公开实施例的已有领域和新领域相结合的半自动化实体识别的流程图。

具体实施方式

以下结合附图对本公开的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本公开，并不用于限定本公开。

相关技术可以分为三类，一是基于词典和规则的方法，该方法依赖于词典和规则的构造，在处理新词和新领域有很大的局限性；二是基于统计学的方法：该方法依赖于人工特征选取，需要花费大量人力和时间；三是基于深度学习的方法，减少人工特征选取的工作量。统计学方法以及深度学习方法在NER任务中有良好的表现。但是在实际应用中有两个不足之处：需要大量标注数据，人工工作量大；以及模型领域迁移性差，领域切换时需要重新标注大规模数据集。

图1是根据本公开实施例的命名实体识别的方法的流程图。

如图1所示，所述方法包括步骤S101至S 104。

在步骤S101，对新领域文本数据进行实体识别，得到新领域种子实体词。

在本公开的上下文中，“新领域”指尚未挖掘实体词的领域或实体词挖掘不充分的领域，在这类待挖掘实体词的领域中，没有或缺乏已标注的语料。

作为实现步骤S101的一种方式，可以将所述新领域文本数据拆分为新领域单句，然后根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词，并根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到所述新领域种子实体词。即，利用挖掘种子实体词的算法(例如Nagao算法)，基于发现的新词来确定所述新领域种子实体词，对新领域文本数据进行实体识别，得到新领域种子实体词。

作为一种实施例，根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词的步骤包括：对于每个新领域单句，统计新领域单句中满足新领域种子实体词的允许长度的短语，然后根据每个短语的特征，对每个短语进行过滤，得到新词。

新领域种子实体词的允许长度可以是小于或等于预先设定的新领域实体的最长长度的任意长度。每个短语的特征可以包括词频、词性等。

对每个短语进行过滤的步骤可以包括：利用特征与经验阈值进行过滤。例如，将词频大于已知经验词频的短语作为新词，又例如，通过利用每个特征的特征值和权重计算得到的平均特征值和已知经验词频，确定新词。

作为一种实施例，根据所述新词与所述新领域的相关性，对所述新词进行过滤的步骤包括：利用表征领域间相关性的领域概念图谱和词频-逆向文档频率算法，确定表征所述新词与所述新领域的相关性的相关分数，并根据所述相关分数和经验阈值，对所述新词进行过滤，得到所述相关分数高于所述经验阈值的新词作为所述新领域种子实体词。

确定相关分数的步骤可以包括：按照所述领域概念图谱，获取所述新领域与其它领域的相关性权重，利用所述词频-逆向文档频率算法，确定表征所述新词对所述新领域的重要程度的概率分数，然后利用所述相关性权重和所述概率分数，确定所述新词与所述新领域的相关分数。

领域概念图谱可以组织和表征领域之间的关系，例如上下位关系，是领域间关系的图形化表征。

词频-逆向文档频率算法是现有算法，本公开实施例使用该算法过滤掉各领域常见的词语，而保留新领域内重要的词语作为新领域种子实体词。即，每个新领域单句中的新词也可能出现在其他领域文本数据中。在新领域文本数据和其他领域文本数据组成的文本数据集中，通过该算法能够确定所述新词对所述文本数据集中的新领域文本数据的重要程度，进而实现新词过滤。

其它领域可以是与新领域的上位领域不同的任何领域，例如上位领域是金融，其它领域可以是运营商、科技等。

上述实现步骤S101的方式适用于仅有新领域文本数据的场景。

作为实现步骤S101的另一种方式，可以将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句，然后利用所述已有领域单句，生成句式模板，并通过匹配所述新领域单句与所述句式模板，确定所述新领域单句中的所述新领域种子实体词。即，利用挖掘种子实体词的算法，利用句式模板挖掘所述新领域的种子实体词来对新领域文本数据进行实体识别，得到新领域种子实体词。

作为一种实施例，句式模板包括第一句式模板和第二句式模板，并且利用所述已有领域单句，生成句式模板的步骤包括：将每个所述已有领域单句中存在的已有领域实体词替换为预设的实体词挖掘符号，得到第一句式模板，并将所述第一句式模板中的词或短语替换为同义词或同义短语，得到第二句式模板。所述第一句式模板和所述第二句式模板均为种子句式模板。

作为另一实施例，所述句式模板还可以包括第三句式模板，所述第三句式模板是根据所述种子句式模板衍生出来的句式模板，例如可以采用自扩展技术(例如，Bootstrapping算法)实现衍生过程。

当已有领域与新领域为相近领域时(例如，两者从属于同一上位领域)，能够生成更适于新领域的句式模板。因此在准备已有领域的语料时，可以通过领域概念图谱来确定新领域的相近领域，进而准备相近领域的语料。例如，在生成用来挖掘“建行“”(即，建设银行的简称)的种子实体词的句式模板时，可以选择其他银行的文本数据生成句式模板。

上述实现步骤S101的方式适用于缺乏足够的新领域文本数据或其他领域标注文本的场景。

作为实现步骤S101的又一种实施方式，可以将以上两种实施方式结合，即，可以包括：将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句；根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词；根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到过滤后的新领域种子实体词；利用所述已有领域单句，生成句式模板；通过匹配所述新领域单句与所述句式模板，得到匹配后的新领域种子实体词；以及将所述过滤后的新领域种子实体词和所述匹配后的新领域种子实体词进行合并，得到所述新领域种子实体词。即，利用挖掘种子实体词的算法，基于发现的新词来确定所述新领域种子实体词，并且利用句式模板挖掘所述新领域的种子实体词来对新领域文本数据进行实体识别，得到新领域种子实体词。

本实施例的新领域种子实体词是新领域的典型实体词，是发现新领域其它实体词的初始条件，也就是说，可以利用种子实体词实现新领域实体词的扩充。

在步骤S102，根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据。

作为实现步骤S102的一种方式，可以对于每个所述新领域单句进行按字分词处理，得到组成所述新领域单句的字，然后根据每个字在所述新领域单句包含的新领域种子实体词中的位置，对所述新领域单句的每个字进行标注，并且在对所有新领域单句进行标注处理后，得到已标注的新领域文本数据。

在对中文的命名实体进行识别时，所述字可以是汉字，在对其它语言的命名实体进行识别时，所述字可以是针对该种语言的组成单句的最小单位，例如，英语中的一个单词。

在步骤S103，利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型。

在步骤S104，利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。

作为一种实施例，所述命名实体识别模型可以是通用的基于深度学习框架双向长短期记忆(Long Short-Term Memory，LSTM)+条件随机场(Conditional Random Field，CRF)的NER模型。

作为另一种实施方式，在步骤S101之后，还可以将所述种子实体词发送至用户界面，以供用户对所述种子实体词进行人工校验。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中。本公开还可以提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器可以执行根据本公开各实施例的命名实体识别的方法。所述存储介质可以包括(但不限于)ROM/RAM、磁碟、光盘、U盘。

图2是根据本公开实施例的命名实体识别的装置的框图。

如图2所示，所述装置包括实体识别模块201、文本打标模块202。模型训练模块203和模型应用模块204。

实体识别模块201构造为对新领域文本数据进行实体识别，得到新领域种子实体词，即，可以实现图1步骤S101。

文本打标模块202构造为根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据，即，可以实现图1步骤S102。

模型训练模块203构造为利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型，即，可以实现图1步骤S103。

模型应用模块204构造为利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词，即，可以实现图1的步骤S104。

此外，上述各个模块还可以进一步构造为实现结合图1描述的各个步骤的具体实现方式。出于清楚的目的，在此不再赘述。

图3是根据本公开实施例的命名实体识别的设备的框图。

如图3所示，所述设备包括处理器以及与所述处理器耦接的存储器。所述存储器上存储有计算机程序。所述计算机程序被所述处理器执行时，所述处理器可以执行根据本公开各实施例的命名实体识别的方法。

图4是根据本公开实施例的实体识别***的架构图，该***是用于实现一种通用的中文实体识别算法的***，用以解决数据标注工作量大，领域迁移困难的问题。

如图4所示，该***主要包括四大模块：挖掘种子实体词(相当于图2的实体识别模块201)、语料自动打标(相当于图2的文本打标模块202)、离线训练NER模型(相当于图2的模型训练模块203)和在线使用NER模型(相当于图2的模型应用模块204)。下面分别对各个主要模块进行详细说明。

1.挖掘种子实体词

该模块可以有效解决领域迁移，实体识别缺少标准语料的问题，是一个核心模块。该模块可以包括两个子模块：新词发现挖掘种子实体词、句式挖掘种子实体词。

新词发现方法适用于仅有新领域语料的实体识别场景，比如，需要对电信领域进行实体识别，但是缺乏电信或者其他领域标注语料。句式挖掘方法适用于已有领域和新领域相结合的实体识别场景，比如， “建行”领域已有一定量的实体词库，可以借助句式快速挖掘“中行”或者“电信”等领域的实体词。

2.语料自动打标

在挖掘种子实体词后，***自动标注新领域语料，避免繁琐的人工标注工作，以为NER模型训练提供数据支撑，是另一核心模块。

3.离线训练NER模型

该模块借助深度学习框架双向LSTM+CRF训练NER模型，用于提高实体识别***的泛化能力，是一个必备模块。

4.在线使用NER模型

该模块为***的必备模块，而非核心模块，可以采用传统的NER模型的使用流程。

为了便于本领域技术人员的理解，下面结合附图5至图13对本公开作进一步的描述，以下描述并不用来限制本公开的保护范围。

图5是根据本公开实施例的自动化实体识别***的架构图。

为进一步提高***准确率，可以在语料自动打标之前引入人工校验，如图5所示。该***可应用于多种设备，比如智能呼叫中心、智能机顶盒、智能知识库等，以提高设备准确率，减少人工工作量。

图6是根据本公开实施例的新词发现挖掘种子实体词的流程图。

如图6所示，该流程适用于仅有新领域语料的实体识别场景，比如，需要对电信领域进行实体识别，但是缺乏电信或者其他领域标注语料。借助新词发现算法挖掘种子领域实体词，可以很快应用到产品或者后续的实体识别模型训练过程当中。新领域只需要提供对应的语料库，无需重标注。

领域的文本数据可以是常用问题解答(Frequently Asked Question，FAQ)问答对也可以是篇章及文本语料。

把已准备的文本数据、领域信息、该领域实体最长长度作为输入参数，生成包含输入参数的入参消息，并经由接口进行输入。例如入参消息可以是JavaScript对象简谱(JavaScript Object Notation，json)消息，具体格式如下：

下面对图6的各个步骤进行详细描述。

在步骤301，获取新领域语料。

提取入参消息(例如json消息)中的新领域语料(即新领域的文本数据)，并存入缓存。

在步骤302，子句拆分。

根据标点符号和停用词停用短语将文本数据拆分为单句。

在步骤303，挖掘新词。

图7示出了步骤303的流程，包括：获取断句文本(即，获取子句或单句)(步骤401)；统计每个断句文本中所有满足长度(即，该领域实体最长长度)的短语(步骤402)；统计每个短语的特征(步骤403)；以及根据每个短语的特征，进行阈值过滤，得到最终的新词作为候选新词(步骤404)。即首先统计符合长度的短语组合。然后统计每个短语的特征，如互信息、左右信息熵、词频、词性等特征，得到候选新词。最后根据经验阈值过滤得到最终的新词。

在步骤304，新词过滤。

判断新词是否与其他行业有关，并进行过滤。可以借助领域概念图谱、关键词提取算法等得到新词和其他行业的相关性。可以根据概念图谱上下位关系来判断当前领域所处的行业。图10是领域概念图谱的示例性结构示意图。通过词频-逆向文档频率(Term Frequency–Inverse Document Frequency，TF-IDF)关键词提取算法判断每个新词在当前领域的重要程度，将TF-IDF作为实体词的概率分数。最终按照经验阈值得到实体词结果。

在步骤305，输出种子实体词。

可以生成领域实体词的json消息，便于采集信息。消息格式如下：

“zxner_domain”为实体所在领域，“zxner_result”是实体识别结果，其数据形式为数组，包括实体词以及与该词对应的分数。

图8是根据本公开实施例的句式挖掘种子实体词的流程图。

如图8所示，该流程适用于已有领域和新领域相结合的实体识别场景，比如，“建行”领域已有一定量的实体词库，可以借助句式快速挖掘“中行”或者“电信”等领域的实体词。借助句式结构挖掘领域实体词，可以很快应用到产品或者后续的实体识别模型训练过程当中。新的场景扩充只需要提供对应的语料库，无需重标注。

新领域的文本数据可以是FAQ问答对也可以是篇章及文本语料。此外，还需要准备已有领域的实体词库以及文本数据，以用于句式挖掘。

把已准备的新领域的文本数据、新领域信息、新领域实体最长长度、已有领域文本数据、已有领域信息、已有领域实体词作为输入参数，生成包含输入参数的入参消息，并经由接口进行输入。例如所述入参消息可以是json消息，具体格式如下：

下面对图8的各个步骤进行详细描述。

在步骤501，获取已有领域语料，包括实体词。

提取入参消息中已有领域文本数据以及实体词。

在步骤502，子句拆分。

根据标点符号和停用词停用短语将已有领域文本数据拆分为单句。

在步骤503，句式挖掘。

图9示出了步骤503的流程，包括：获取断句文本(即，子句或单句)(步骤601)；将断句文本中的实体词替换为[E](即，预设的实体词挖掘符号)(步骤602)；将断句文本中除实体词外的其它词或短语替换为同义词或同义短语，得到种子句式模板(步骤603)；以及利用Bootstrapping算法，得到句式模板(步骤604)。

首先将步骤502中得到的单句中的实体词替换为[E]，然后用同义词或者同义短语替换形成种子句式模板，最后采用Bootstrapping算法挖掘更多的句式模板。

在步骤504，存储句式模板。

例如，存储的句式模板的结构如下：

模板(pattern)	领域(domain)
[E]怎么办理	建行

在步骤505，获取新领域语料。

提取入参消息中的新领域文本数据。

在步骤506，子句拆分。

根据标点符号和停用词停用短语将新领域文本数据拆分为单句。

在步骤507，句式匹配。

根据新领域与已有领域的相关性进行排序，匹配句式模板，提取可能的实体词。

领域相关性依赖于领域概念图谱(参见图10)中两部分内容：行业之间的上下位关系，具有上下位关系的领域，相关性最大，比如图10所示，“建行”和“银行“之前具有上下位关系；以及行业之间句式结构相似性关系，比如图10所示，“金融”领域和“运营商”领域具有相似的句式结构(相似度0.75)。

在步骤508，输出种子实体词。

生成领域实体词的json消息，便于采集信息。消息格式如下：

“zxner_domain”为实体所在领域，“zxner_result”是实体识别结果，其数据形式为数组，包括实体词以及与该词对应的模板。

图11是根据本公开实施例的语料自动打标的流程图。通过该流程，可以根据种子实体词自动对新领域语料打标(即，标注新领域文本数据)，减少了人工标注工作。

语料自动打标流程除了可以应用于本公开的各实施例，还可以应用于其他序列标注任务***，比如，分词***等。当应用于其他***时，把语料所在领域、实体词以及相应的语料作为输入参数，生成包含输入参数的入参消息，并经由接口进行输入。例如所述入参消息可以是json消息，具体格式如下：

下面对图11的各个步骤进行详细描述。

在步骤801，获取新领域语料。

提取入参消息中的新领域语料，包括领域文本数据以及种子实体词。

在步骤802，子句拆分。

在步骤803，按字分词。

将所有子句按字分词，减少分词错误对***的结果的影响。

在步骤804，判断字在种子实体词中的位置，将起始位置标为B、中间位置标为I、结束位置标为E，不在实体词中标为O。

生成标注语料的json消息，便于采集信息。消息格式如下：

“zxner_domain”为实体所在领域，“zxner_result”是语料标记结果，其数据形式为数组，包括单句语料以及每个字的标记结果。

图12是根据本公开实施例的仅有新领域的半自动化实体识别的流程图。该实施例用于说明仅有新领域实体识别的应用场。

在步骤901，获取新领域语料。

接收入参消息，并从入参消息中提取新领域语料，包括新领域文本数据：“乾元满溢是理财产品吗？乾元满溢收益怎么样？乾元满溢是稳健的理财产品吗？”以及新领域信息：“建设银行”。

在步骤902，通过新词发现挖掘种子实体词。

1)子句拆分结果

子句1：乾元满溢是理财产品

子句2：乾元满溢收益怎么样

子句3：乾元满溢是稳健的理财产品吗

2)挖掘新词

新词：乾元，乾元满溢，理财产品，收益

3)新词过滤

通过领域概念图谱(参见图10)确定当前数据属于“金融”领域，并且通过TF-IDF计算新词与“运营商”、“科技”等其他领域的相关性，分数越大与“建行”领域相关性越高，与其他领域相关性越低。得到如下计算结果：

乾元：2.34

乾元满溢：2.12

理财产品：2.08

收益：1.83

4)挖掘种子实体词

在步骤903，人工校验，确定实体词为：乾元，乾元满溢，理财产品。

在步骤904，语料自动打标。可以采用通用的BIEO标注语料。打标结果如下：

字	标记	字	标记	字	标记
乾	B	乾	B	乾	B
元	I	元	I	元	I
满	I	满	I	满	I
溢	E	溢	E	溢	E
是	O	收	O	是	O
理	B	益	O	稳	O
财	I	怎	O	健	O

产	I	么	O	的	O
品	E	样	O	理	B
吗	O			财	I
				产	I
				品	E
				吗	O

在步骤905，训练模型。

可以采用常用的训练方式相同，这里不做详细描述。

图13是根据本公开实施例的已有领域和新领域相结合的半自动化实体识别的流程图。该实施例用于说明已有领域和新领域相结合的实体识别的应用场景。

在步骤1001，获取新领域语料和已有领域语料。

接收入参消息，并从入参消息中提取新领域语料，包括新领域文本数据：“***密码修改？我想知道借记卡的办理方式是什么？***怎么办理？”，新领域信息：“建行”，已有领域信息“电信”，已有领域实体词：“天翼领航A8套餐，***套餐，校园套餐”和已有领域文本数据：“我想知道***套餐的办理方式是什么？天翼领航A8套餐怎么办理？”。

在步骤1002，通过新词发现和句式挖掘种子实体词。

1)新领域语料子句拆分结果

子句1：***密码修改

子句2：借记卡的办理方式是什么

子句3：***怎么办理

2)已有领域语料子句拆分结果

子句1：***套餐的办理方式是什么

子句2：天翼领航A8套餐怎么办理

3)挖掘新词

新词：***

4)挖掘句式

句式1：[E]的办理方式是什么

句式2：[E]怎么办理

句式3：[E]的开通方式是什么

句式4：[E]怎么开通

5)新词过滤

***：2.39

6)句式匹配

根据领域概念图谱(参见图10)，新领域属于“金融”领域，与“电信”领域相关性比较高，可以匹配句式模板，得到结果：

[E]的办理方式是什么借记卡

[E]怎么办理 ***

7)挖掘种子实体词

在步骤1003，人工校验，确定实体词为：***，借记卡。

在步骤1004，语料自动打标。可以采用通用的BIEO标注语料。打标结果如下：

字	标记	字	标记	字	标记
信	B	借	B	信	B
用	I	记	I	用	I
卡	E	卡	E	卡	E
密	O	的	O	怎	O
码	O	办	O	么	O
修	O	理	O	办	O

改	O	方	O	理	O
		式	O
		是	O
		什	O
		么	O

在步骤1005，训练模型。

可以采用常用的训练方式，这里不做详细描述。

根据本公开实施例，增加了挖掘种子实体词的功能模块(图2的实体识别模块201)，采用新词发现、关键词提取、句式挖掘、领域概念图谱等技术手段，在新领域自动挖掘种子实体词的集合，并对语料自动打标，然后再进行深度学习利用双向LSTM+CRF训练NER模型，从而可以减少数据标注工作量，降低模型迁移训练时的要求，提高了算法的领域通用性，适合应用于多种场景，包括(但不限于)语音助手、智能客服、智能知识库等各种涉及人工智能(Artificial Intelligence，AI)的应用。

尽管上文对本公开进行了详细说明，但是本公开不限于此，本技术领域技术人员可以根据本公开的原理进行各种修改。因此，凡按照本公开原理所作的修改，都应当理解为落入本公开的保护范围。

Claims

一种命名实体识别的方法，包括：

对新领域文本数据进行实体识别，得到新领域种子实体词；

根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据；

利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型；以及

利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。
根据权利要求1所述的方法，其中，对新领域文本数据进行实体识别，得到新领域种子实体词的步骤包括：

将所述新领域文本数据拆分为新领域单句；

根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词；以及

根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到所述新领域种子实体词。
根据权利要求1所述的方法，其中，对新领域文本数据进行实体识别，得到新领域种子实体词的步骤包括：

将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句；

利用所述已有领域单句，生成句式模板；以及

通过匹配所述新领域单句与所述句式模板，确定所述新领域单句中的所述新领域种子实体词。
根据权利要求1所述的方法，其中，对新领域文本数据进行实体识别，得到新领域种子实体词的步骤包括：

将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句；

根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词；

根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到过滤后的新领域种子实体词；

利用所述已有领域单句，生成句式模板；

通过匹配所述新领域单句与所述句式模板，得到匹配后的新领域种子实体词；以及

将所述过滤后的新领域种子实体词和所述匹配后的新领域种子实体词进行合并，得到所述新领域种子实体词。
根据权利要求2或4所述的方法，其中，根据所述新词与所述新领域的相关性，对所述新词进行过滤的步骤包括：

利用表征领域间相关性的领域概念图谱和词频-逆向文档频率算法，确定表征所述新词与所述新领域的相关性的相关分数；以及

根据所述相关分数和经验阈值，对所述新词进行过滤，得到所述相关分数高于所述经验阈值的新词作为所述新领域种子实体词。
根据权利要求5所述的方法，其中，利用表征领域间相关性的领域概念图谱和词频-逆向文档频率算法，确定表征所述新词与所述新领域的相关性的相关分数的步骤包括：

按照所述领域概念图谱，获取所述新领域与其它领域的相关性权重；

利用所述词频-逆向文档频率算法，确定表征所述新词对所述新领域的重要程度的概率分数；以及

利用所述相关性权重和所述概率分数，确定所述新词与所述新领域的相关分数。
根据权利要求2-4任意一项所述的方法，其中，根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据的步骤包括：

对于每个所述新领域单句进行按字分词处理，得到组成所述新领域单句的字；

根据每个字在所述新领域单句包含的新领域种子实体词中的位置，对所述新领域单句的每个字进行标注；以及

在对所有新领域单句进行标注处理后，得到已标注的新领域文本数据。
一种命名实体识别的装置，包括：

实体识别模块，其构造为对新领域文本数据进行实体识别，得到新领域种子实体词；

文本打标模块，其构造为根据所述新领域种子实体词，对所述新领域文本数据进行标注，得到已标注的新领域文本数据；

模型训练模块，其构造为利用所述已标注的新领域文本数据，对命名实体识别模型进行训练，得到适用于所述新领域的命名实体识别模型；以及

模型应用模块，其构造为利用适用于所述新领域的命名实体识别模型，识别所述新领域的其它文本数据中的实体词。
根据权利要求8所述的装置，其中，所述实体识别模块构造为：

将所述新领域文本数据拆分为新领域单句；

根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词；以及

根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到所述新领域种子实体词。
根据权利要求8所述的装置，其中，所述实体识别模块构造为：

将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句；

利用所述已有领域单句，生成句式模板；以及

通过匹配所述新领域单句与所述句式模板，确定所述新领域单句中的所述新领域种子实体词。
根据权利要求8所述的装置，其中，所述实体识别模块构造为：

将所述新领域文本数据和已有领域的文本数据分别拆分为新领域单句和已有领域单句；

根据所述新领域种子实体词的允许长度，确定每个新领域单句中的新词；

根据所述新词与所述新领域的相关性，对所述新词进行过滤，得到过滤后的新领域种子实体词；

利用所述已有领域单句，生成句式模板；

通过匹配所述新领域单句与所述句式模板，得到匹配后的新领域种子实体词；以及

将所述过滤后的新领域种子实体词和所述匹配后的新领域种子实体词进行合并，得到所述新领域种子实体词。
根据权利要求9或11所述的装置，其中，所述实体识别模块进一步构造为：

利用表征领域间相关性的领域概念图谱和词频-逆向文档频率算法，确定表征所述新词与所述新领域的相关性的相关分数；以及

根据所述相关分数和经验阈值，对所述新词进行过滤，得到所述相关分数高于所述经验阈值的新词作为所述新领域种子实体词。
根据权利要求12所述的装置，其中，所述实体识别模块进一步构造为：

按照所述领域概念图谱，获取所述新领域与其它领域的相关性权重；

利用所述词频-逆向文档频率算法，确定表征所述新词对所述新领域的重要程度的概率分数；以及

利用所述相关性权重和所述概率分数，确定所述新词与所述新领域的相关分数。
根据权利要求9-11任意一项所述的装置，其中，所述文本打标模块构造为：

对于每个所述新领域单句进行按字分词处理，得到组成所述新领域单句的字；

根据每个字在所述新领域单句包含的新领域种子实体词中的位置，对所述新领域单句的每个字进行标注；以及

在对所有新领域单句进行标注处理后，得到已标注的新领域文本数据。
一种命名实体识别的设备，包括处理器以及与所述处理器耦接的存储器，其中，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，所述处理器执行根据权利要求1至7中任一项所述的命名实体识别的方法。
一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行根据权利要求1至7中任一项所述的命名实体识别的方法。