CN112420205A

CN112420205A - 实体识别模型生成方法、装置及计算机可读存储介质

Info

Publication number: CN112420205A
Application number: CN202011422415.XA
Authority: CN
Inventors: 何国平; 甄化春; 王旭英; 杨逸文; 尹伟东; 郭亚强
Original assignee: Ewell Technology Co ltd
Current assignee: Ewell Technology Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-26

Abstract

本申请公开了一种实体识别模型生成方法、装置及计算机可读存储介质。其中，实体识别模型包括生成器和判别器，方法包括预先基于深度学习方法利用已标注文本医疗数据训练生成器，利用生成器的文本医疗数据标签预测结果和已标注文本医疗数据训练判别器；利用已标注文本医疗数据和未标注文本医疗数据同时再训练生成器，以使判别器无法确定预测的标签是正确还是错误，不断训练生成器和判别器直至满足生成器的模型训练截止条件。本申请解决了现有技术中为保证实体识别的准确度需要大量训练样本数据的弊端问题，无需大量训练样本数据也可得到高性能的实体识别模型。

Description

实体识别模型生成方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种实体识别模型生成方法、装置及计算机可读存储介质。

背景技术

随着人工智能技术的快速发展及广泛应用，自然语言处理技术作为实现人与计算机之间有效通信的保障也需要相应的发展。实体识别为自然语言处理的一个方面，其可从一段语音中识别出里面包含的实体信息。现有的实体识别模型分为三大类：一类为基于规则的实体识别模型，一类为基于统计方法的实体识别模型，还有一类为基于深度学习的实体识别模型。其中，基于规则的实体识别模型一般需要专家经验知识和复杂的维护与升级工作，基于统计方法的实体识别模型尽管可有效解决基于规则的实体识别模型存在的问题，但是这种方法在训练模型之前，需要繁琐的特征工程的工作。而基于深度学习的实体识别模型在训练模型之前，无需做特征工程。相比另外两种方法，基于深度学习构建的实体识别模型可更高效、准确度更高的识别实体。

现有技术中基于深度学习构建的实体识别模型为网络架构Transformer，该方法注重文本之间的相互关系计算，而弱化以往具体的网络结构，例如多层双向的Transformer架构模型BERT(Bidirectional Encoder Representations from Transformers)。然而，基于BERT的网络模型包含的计算参数巨大，预测结果的速度往往不能满足实体识别效率的现实需求。于是，基于Transformer更加轻量级的模型在近些年成为研究热点。FLAT(Flat-Lattice Transformer)利用一层Transformer，基于中文的特性，在输入阶段同时进行字与词之间的相互计算。在中文实体识别领域，FLAT对比BERT有效提升了准确率和速度。但是，相关技术在基于深度学习构建实体识别模型的过程中，为了保证最终实体识别的准确度，还是需要大量的训练样本数据。

发明内容

本申请提供了一种实体识别模型生成方法、装置及计算机可读存储介质，解决了现有技术中为保证实体识别的准确度需要大量训练样本数据的弊端问题，无需大量训练样本数据便可得到高性能的实体识别模型。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种实体识别模型生成方法，包括：

获取实体识别模型的训练样本集，所述训练样本集包括多个已标注文本医疗数据和多个未标注文本医疗数据；所述实体识别模型包括生成器和判别器；

预先基于深度学习方法，利用所述已标注文本医疗数据训练所述生成器；利用所述生成器的文本医疗数据标签预测结果和所述已标注文本医疗数据训练所述判别器；利用所述已标注文本医疗数据和所述未标注文本医疗数据同时训练所述生成器，以使所述判别器无法确定预测的标签是正确还是错误；不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件。

可选的，所述不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件之后，还包括：

将所述训练样本集中的已标注文本医疗数据输入至训练好的判别器中，得到每条已标注文本医疗数据的标注准确度分数；

从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据；

从各候选文本医疗数据中选择标签标注错误的文本医疗数据。

可选的，所述从各候选文本医疗数据中选择标签标注错误的文本医疗数据包括：

将各候选文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工筛查；

根据用户反馈的筛选结果从各候选文本医疗数据中确定标签标注错误的文本医疗数据。

根据所述生成器和所述判别器的输出结果从所述训练样本数据集中选择待标注文本医疗数据；

根据所述待标注文本医疗数据的标注结果更新所述训练样本集。

可选的，所述根据所述待标注文本医疗数据的标注结果更新所述训练样本集包括：

将各待标注文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工标注；

根据用户反馈的人工标注结果将各待标注文本医疗数据更新为已标注文本医疗数据。

可选的，所述根据所述实体识别模型的输出结果从所述训练样本数据集中选择待标注文本医疗数据为：

根据第n次训练的实体识别模型中的生成器和判别器的输出结果，基于优先选择条件从所述训练样本数据集中选择待标注文本医疗数据，所述优先选择条件为：

式中，1≤n≤m且为正整数，m为所述实体识别模型的训练总次数，U为未标注文本医疗数据，x为一条文本医疗数据，x^U为一条未标注文本医疗数据，T(.)为待标注文本医疗数据，L为已标注文本医疗数据，V为文本医疗数据的隐含变量，v^U对应一个未标注文本医疗数据x^U的隐含变量，V^L为所有标注的文本医疗数据的隐含变量，sim(v^U,V^L)为所述判别器的输出，α、γ为设定的阈值，P(y^*|x^U)为对应未标注文本医疗数据x^U的标签y^*的概率。

本发明实施例另一方面提供了一种实体识别模型生成装置，包括：

样本数据集获取模块，用于获取实体识别模型的训练样本集，所述训练样本集包括多个已标注文本医疗数据和多个未标注文本医疗数据；所述实体识别模型包括生成器和判别器；

模型训练模块，用于预先基于深度学习方法，利用所述已标注文本医疗数据训练得到生成器；利用所述生成器的文本医疗数据标签预测结果和所述已标注文本医疗数据训练所述判别器；利用所述已标注文本医疗数据和所述未标注文本医疗数据同时训练所述生成器，以使所述判别器无法确定预测的标签是正确还是错误；不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件。

可选的，还包括错误数据检测模块，用于将所述训练样本集中的已标注文本医疗数据输入至训练好的判别器中，得到每条已标注文本医疗数据的标注准确度分数；从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据；从各候选文本医疗数据中选择标签标注错误的文本医疗数据。

本发明实施例还提供了一种实体识别模型生成装置，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述实体识别模型生成方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有实体识别模型生成程序，所述实体识别模型生成程序被处理器执行时实现如前任一项所述实体识别模型生成方法的步骤。

本申请提供的技术方案的优点在于，在模型训练过程中，利用判别器同生成器互相对抗训练不断优化自身，从而具备了鉴别正确标签与错误标签或者带有瑕疵标签的能力，有效提升模型识别性能；除了文本医疗标注数据外，本申请还利用未标注文本医疗数据训练模型，增多训练样本数据集中可训练模型的训练样本数据，在最少标注量的情况下还能使模型训练的效果很优，无需大量标注训练样本数据也可得到高性能的实体识别模型，有效提升实体识别能力，有利于提升实体识别模型的识别准确度。

此外，本发明实施例还针对实体识别模型生成方法提供了相应的实现装置及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置及计算机可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实体识别模型生成方法的流程示意图；

图2为本发明实施例提供的一种对抗网络生成方法的流程示意图；

图3为本发明实施例提供的实体识别模型的框架示意图；

图4为本发明实施例提供的生成器利用未标注文本医疗数据来提升实体识别的效果的示意图；

图5为本发明实施例提供的实体识别模型的作为主动学习的框架示意图；

图6为本发明实施例提供的实体识别模型检测错误标签的流程示意图；

图7为本发明实施例提供的实体识别模型生成装置的一种具体实施方式结构图；

图8为本发明实施例提供的实体识别模型生成装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种实体识别模型生成方法的流程示意图，本发明实施例可包括以下内容：

S101：获取实体识别模型的训练样本集。

本申请的实体识别模型包括生成器和判别器，生成器和判别器构成对抗网络GAN，如图2所示为对抗网络的原理示意图，生成器和判别器两者之间相互博弈，相互对抗学习。即生成器的目的是其生成的文本医疗数据让判别器难以判别真假，而判别器的目标则是区分生成器生成的文本医疗数据和真实的文本医疗数据，判别生成器生成的文本医疗数据为假文本医疗数据。两者不断博弈与优化自己，直至在理想情况下，生成器生成的文本医疗数据‘逼真’，让判别器难以判断其真假。生成器和判别器可为任何一种网络结构如卷积神经网路CNN，或者是长短期记忆人工神经网络LSTM，这均不影响本申请的实现。生成器的目标是自己预测的标签接近真实标签，从而具备实体识别的基本能力，通过训练的过程赋予生成器预测未文本医疗标注数据标签的能力。判别器输入已标注文本医疗数据和生成器对未标注文本医疗数据的预测结果，不断训练自己，使自己具备区分已文本医疗标注数据的标签和预测标签的能力。生成器和判别器在训练过程中使用的训练样本数据的集合为训练样本集，训练样本集中可包括多个已标注文本医疗数据和多个未标注文本医疗数据。

S102：预先基于深度学习方法，利用已标注文本医疗数据训练生成器；利用生成器的文本医疗数据标签预测结果和已标注文本医疗数据训练判别器；利用已标注文本医疗数据和未标注文本医疗数据同时训练生成器，以使判别器无法确定预测的标签是正确还是错误；不断训练生成器和判别器直至满足生成器的模型训练截止条件。

本步骤是用于训练S101中的实体识别模型的，具体训练过程可包括：

A1：利用训练样本集中的已标注文本医疗数据，基于深度学习预先训练生成器，得到具备实体识别的基本功能的生成器。

A2：将训练样本集中的已标注文本医疗数据、A1步骤中的生成器对未标注文本医疗数据的预测结果输入至判别器中，基于深度学习训练判别器，使判别器具备区分已标注文本医疗数据的标签和带有瑕疵标签的能力；或者具备区分已标注文本医疗数据的标签和预测的标签能力。已标注文本医疗数据的标签是百分之百正确的标签，带有瑕疵标签的医疗数据是医疗数据对应的部分标签或者全部标签是错误的。而预测的标签是生成器对未标注文本医疗数据预测出来的标签，所以在预测的标签里，局部标签可能是错误的。该步骤使判别器能够区分已标注的标签和带有瑕疵标签的差异性。也就是说，判别器用于识别已标注文本医疗数据的标签和用于预测标签。

A3：利用训练样本集中的已标注文本医疗数据和未标注文本医疗数据同时训练A1中的生成器，增强自己实体识别的能力，并能够蒙蔽通过A2训练后的判别器，让判别器难以区分其预测的标签是正确的还是错误。该步骤在A1基础上增加了对未标注文本医疗数据的训练，对于已标注文本医疗数据，生成器的目标同A1目标一样，而对于未标注文本医疗数据，生成器的目标是使在A2训练后的判别器难以区分其预测的标签是正确的还是错误的，从而增强自己预测标签的能力。

A4：循环执行进行A1、A2和A3，从而不断优化生成器和判别器，直到生成器具备满意的识别实体的能力停止循环。具备满意的识别实体能力即为模型训练截止条件，这个条件可根据实际需求进行选择，例如模型训练截止条件可为生成器的损失函数值趋于稳定。

本步骤除了使用文本医疗标注数据外，还利用未标注文本医疗数据训练自己，提升实体识别的能力。利用对抗的思想，判别器同生成器互相对抗训练，不断优化自身，从而具备了鉴别正确标签与错误标签或者带有瑕疵标签的能力。

在本发明实施例提供的技术方案中，在模型训练过程中，利用判别器同生成器互相对抗训练不断优化自身，从而具备了鉴别正确标签与错误标签或者带有瑕疵标签的能力，有效提升模型识别性能；除了文本医疗标注数据外，本申请还利用未标注文本医疗数据训练模型，增多训练样本数据集中可训练模型的训练样本数据，在最少标注量的情况下还能使模型训练的效果很优，无需大量标注训练样本数据也可得到高性能的实体识别模型，有效提升实体识别能力，有利于提升实体识别模型的识别准确度。

需要说明的是，本申请中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1只是一种示意方式，并不代表只能是这样的执行顺序。

可以理解的是，错误的文本医疗标注数据作为训练样本数据会影响实体识别模型的训练效果和预测结果，因此检测出错误的文本医疗标注数据进行修正变得尤为重要。目前检测错误文本医疗标注数据的方法是基于规则和统计的方法。比如最近Mahato等人利用UMLS进行错误文本医疗标注数据的检测。而这些方法都是基于统计和规则的方法，它们都需要专业的领域知识和复杂的***设计。本申请还提供了一种错误文本医疗数据的检测方法，基于上述实施例，在S103之后，还可包括：

将训练样本集中的已标注文本医疗数据输入至训练好的判别器中，得到每条已标注文本医疗数据的标注准确度分数；从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据；从各候选文本医疗数据中选择标签标注错误的文本医疗数据。

在本实施例中，可从S101的训练样本集中随机选择一批文本医疗数据，包括已标注文本医疗数据和未标注文本医疗数据，按照S102步骤生成实体识别模型。将上述已标注文本医疗数据输入到已经训练好的实体识别模型的判别器，判别器输出每条文本医疗标注数据的分数，低于分数阈值的句子被挑选出来。判别器具备区分正确序列标签与错误序列标签的能力。对于每个序列医疗数据，判别器判断其标签的准确程度，并输出对应的分数，标签错误的程度越高，判别器输出其分数越低。在被挑选的句子中，筛选出标注错误的文本医疗数据。其中，标注错误的文本医疗数据可基于下述方式执行：

将各候选文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工筛查；根据用户反馈的筛选结果从各候选文本医疗数据中确定标签标注错误的文本医疗数据。

本实施例利用深度学习模型自动检测错误文本医疗标注数据，而不需要专业的领域知识和复杂的规则设计来检测错误文本医疗标注数据，进一步保证实体识别模型的高性能。

可以理解的是，作为模型训练样本数据的已标注文本医疗数据的数据量较少时，模型训练的结果就会受到制约。而基于深度学习的框架则需要大量的文本医疗标注数据作为训练样本，这样其训练的结果才会令人满意。但是对医疗数据的标注往往费时费力，且需要专业的背景知识才能保证医疗数据标注的准确性。基于此，为了使用最少标注数据得到最优效果的训练模型，本申请还提供了另外一个实施例，在S102之后，还可包括下述内容：

根据实体识别模型的输出结果从训练样本数据集中选择待标注文本医疗数据，并根据待标注文本医疗数据的标注结果更新训练样本集。

深度学习模型的准确度与其训练样本数量在一定范围内成正比。本申请的实体识别模型是基于深度学习模型训练得到的，而训练样本集中已标注文本医疗数据的数据量较少时，模型训练的结果就会受到制约，为了保证训练得到高性能的实体识别模型，本步骤采用主动学习在训练样本集中众多的未标注文本医疗数据里选择出包含信息量最多的医疗数据进行优先标注，从而在最少标注量的情况下使模型训练的效果最优。举例说明：当前有10000条已标注文本医疗数据，模型通过这些医疗数据训练后的准确率为80％，现在想增加1000条文本医疗标注数据来提升模型的准确率，可通过两种方法选择1000条未标注文本医疗数据。1.通过本步骤选择出1000条医疗数据进行人工标注。2.随机选择1000条医疗数据进行人工标注。最后会发现，模型通过本步骤标注后的11000医疗数据训练的准确率要高于通过方法2标注后的11000条医疗数据的准确率。本步骤中的实体识别模型可为S102步骤中任意一次训练得到的实体识别模型，当然也可是每训练得到的最新的实体识别模型，就可利用该模型执行S103一次，本步骤的一种可选的实现方式可包括：

B1：从S101的训练样本集中随机选择一批医疗数据，包括已标注和未文本医疗标注数据建立初始版本的实体识别模型。

B2：同时参考B1的实体识别模型的生成器的输出和判别器的输出，选择优先文本医疗标注数据，然后将这些医疗数据进行人工标注后，放入S101中的训练样本集里，从而更新了文本医疗标注数据。这些优先文本医疗标注数据具备以下特征：模型通过已有的和这些新添加的文本医疗标注数据进行训练，训练后的模型表现提升效果达到最大化。优先选择的文本医疗数据是根据生成器和判别器两者的输出进行综合考虑，而不是只根据一方的输出，通过这种方法选择的医疗数据比只根据一方选择的医疗数据更能提升模型性能。

B3：实体识别模型基于更新后的训练样本集按照S102的步骤再次训练实体识别模型。

B4：循环B2和B3直到循环条件结束。

本步骤促进了基于GAN的主动学习算法发展，尤其是促进了基于GAN的主动学习算法在序列识别领域的发展。优先选择的医疗数据是根据生成器和判别器两者的输出进行综合考虑，而不是只根据一方的输出，通过这种方法选择的医疗数据更能提升模型的效果。其中，文本医疗数据的标注过程可为：

将各待标注文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工标注；根据用户反馈的人工标注结果将各待标注文本医疗数据更新为已标注文本医疗数据。用户端例如可为预先设置的信息发送的IP地址或者是设备端的ID号或者是文件存储路径，基于这些信息将待标注文本医疗数据发送给用户。

本实施例从大量未标注文本医疗数据里挑选出信息量高的医疗数据进行优先标注，从而在最少标注量的情况下使模型训练的效果最优，无需大量训练样本数据也可得到高性能的实体识别模型。

作为本实施例的一种可选的实施方式，待标注文本医疗数据的选择方式可根据下述内容来实现：

根据第n次训练的实体识别模型中的生成器和判别器的输出结果，基于优先选择条件从训练样本数据集中选择待标注文本医疗数据，优先选择条件为：

式中，1≤n≤m且为正整数，m为实体识别模型的训练总次数，U为未标注文本医疗数据，x为一条文本医疗数据，x^U为一条未标注文本医疗数据，T(.)为待标注文本医疗数据，L为已标注文本医疗数据，V为文本医疗数据的隐含变量，v^U对应一个未标注文本医疗数据x^U的隐含变量，V^L为所有标注的文本医疗数据的隐含变量，sim(v^U,V^L)为判别器的输出，α、γ为设定的阈值，P(y^*|x^U)为对应未标注文本医疗数据x^U的最有可能的标签y^*的概率。

为了使所述领域技术人员清楚明白本申请的实体识别模型的训练过程，本申请以生成器的网络为FLAT-CRF(conditional random field，条件随机场)，判别器的网络为任意一种可选的深度学习网络为例来阐述整个模型训练过程，可包括：

生成器FLAT-CRF利用已标注文本医疗数据进行预训练，从而具备实体识别的基本能力。以医学文本医疗标注数据为例，医学领域的实体一般包括：疾病、症状、药物、检查、体征、治疗大类。每类对应的标签如表1。以‘BIO’标注方式为例，B表示实体的开头，I表示实体的中间或结尾，O表示无关紧要的字。表2为一条文本医疗标注数据示例。

表1实体类别及对应的标签

实体类别	标签
		疾病(disease)	di_name
症状(symptom)	sy_name
		药物(medicine)	me_name
检查(examination)	ex_name
		治疗(cure)	cu_name
体征(vital sign)	vi_name

表2.序列及对应的标签

FLAT利用单层Transformr在输入阶段计算字与字、字与词之间的关系。Transformer是由多头自注意力网络和全连接层网络这两部分网络结构组成。注意力机制是给定一个查找(query)和一个键值表(key-value pairs)，query由键值表来表示。此处的query、key、value都是句子里表示字的向量。而query由键值对与其权重相乘之和得到。FLAT的输入是在一个句子里，字与字、字与词之间通过注意计算后的混合输入。举例来说，针对一句话“重庆人和医院”，FLAT的输入则是[‘重’，‘庆’，‘人’，‘和’，‘医’，‘院’，‘重庆’，‘人和药店’，‘药店’]。CRF(Conditional Random Fields，条件随机场)网络层建立在FLAT层之上，所以CRF的输入就是FLAT网络层的输出。输出则是对输入序列预测的标签。CRF网络层计算的是标签之间的转移矩阵，比如之前用到的标签方法‘BIO’，当第一个字的标签是B时，CRF的目则是计算下一个字的标签是‘I’的概率远大于‘B’或者‘O’的概率，这就避免了‘BBI’，‘BOI’，‘BII’这些错误标签的产生。生成器FLAT-CRF的目的是缩小对已标注文本医疗数据预测的标签和其真实标签的差异，从而使自己预测标签的准确度越来越高。判别器输入已标注文本医疗数据和生成器对未标注文本医疗数据的预测结果，不断训练自己，使自己具备区分已标注文本医疗数据的标签和预测的标签的能力。

训练样本集中的已标注文本医疗数据输入至FLAT，而后输出对应的向量表示。接着，这些向量表与文本医疗标注数据的标签相乘，输出一个隐含变量，这个隐含变量则代表已标注文本医疗数据的分布，如图3所示。类似的，未标注文本医疗数据因为没有标签，所以它的隐含变量则由FLAT输出的向量同CRF层预测的标签进行相乘。这两个隐含变量分别代表了已标注文本医疗数据和未标注文本医疗数据，判别器则输入这两个隐含变量，学习这两个隐含变量的差异。在这里，两个变量的差异其实是已标注文本医疗数据的标签和对未标注文本医疗数据预测标签之间的差异，因为FLAT对于已标注文本医疗数据和未标注文本医疗数据的输出向量的分布是一样的，它们并无差异。自此，判别器已经具备了识别正确标签和带有瑕疵标签或者错误标签的能力。生成器利用已标注文本医疗数据和未标注文本医疗数据同时训练自己，增强自己实体识别的能力，并使自己具备蒙蔽通过训练后的判别器的能力。

像上述步骤所述，对于已标注文本医疗数据，生成器FLAT-CRF的目的则是缩小CRF层对医疗数据预测的标签与其真实标签的差异性。而对未标注文本医疗数据，如图4所示，生成器的目的则是蒙蔽判别器，让判别器难以区分‘真假医疗数据’。在经过上述步骤训练判别器后，判别器已经具备了区分正确标签和预测标签的差异性。在这一步骤里，生成器的目的则是对预测标签里面的那些‘错误’部分进行修正，使这部分错误标签变成正确的标签。因此，预测标签变成了正确的标签，判别器在这种情况下就难以判别了。由于生成器通过这一步骤的训练，具备了修正错误标签的能力，因此，它的实体识别能力进一步增强了。这就是生成器如何利用未标注文本医疗数据训练自己，进一步完善了自己预测标签的能力。循环进行上述步骤从而不断优化生成器和判别器。直到生成器具备满意的识别实体的能力，停止循环。

如图5所示，对于主动学习可包括如下步骤：

根据实体识别的权利要求，随机选择一批包括已标注文本医疗数据和未标注文本医疗数据建立初始版本的实体识别模型GAN-FLAT-CRF。同时参考生成器的输出和判别器的输出，选择优先文本医疗标注数据。而后将这些医疗数据进行人工标注后，放入文本医疗标注数据集里，从而更新了文本医疗标注数据集。在总医疗数据量不变的情况下，使原有已标注文本医疗数据量增加，未标注文本医疗数据量减少。

如前面所述，生成器FLAT-CRF的输出是预测的标签，在预测标签产生之前，生成器是根据概率来预测序列标签的。针对一条序列，CRF的输出是这条序列对应的所有预测的标签和其对应的概率，而CRF选择概率最高的那条标签作为序列的预测标签。当我们选择一条未标注文本医疗数据进行预测时，CRF输出所有预测标签的概率都很接近时，说明模型对这条医疗数据的预测把握性很低。一般情况下，可会选择把握性很低的医疗数据进行优先标注，因为这种类型的医疗数据对于模型是未知的，包含更多的信息量。

本实施例不仅考虑生成器的输出，还会参考判别器的输出，对于一条未标注文本医疗数据，判别器对其输出低分值时，表示它对应的预测标签与正确的标签差异很大，说明模型对其难以预测。现有技术中只参考模型的预测的概率，应用在这里指的是CRF的输出概率。而本实施例同时通过生成器和判别器的输出，选择出模型最难预测的数据。这相当于经过CRF的输出概率筛选后，又增加了一轮筛选过程。共同决定的数据对于模型来说是最未知的，包含的信息量是最多的。因此，通过两者的共同输出来决定优先标注的数据更加能提升模型的表现。具体的关系式可如下：

U(unlabeled)表示未标注的文本医疗数据。x表示一条文本医疗数据，那么x^U表示一条未标注的文本医疗数据。T(.)则表示优先选择，并且需要标注的文本医疗数据。L(labeled)：表示已标注的文本医疗数据。V代表文本医疗数据的隐含变量，那么v^U对应一个未标注文本医疗数据x^U的隐含变量，那么V^L则代表所有标注的文本医疗数据的隐含变量，sim(v^U,V^L)则是判别器的输出，计算v^U与V^L的差异性。α、γ表示设定的阈值P(y^*|x^U)则对应未标注文本医疗数据x^U的最有可能的标签y^*的概率。

基于更新后的医疗数据集重新训练实体识别模型：实体识别的模型GAN-FLAT-CRF基于更新后的医疗数据集，再次建立实体识别模型。循环上述步骤3直到循环条件结束。循环条件是根据自己的需求设定的，比如循环条件为所有的未标注文本医疗数据通过主动学习都被挑选出来进行了人工标注。

对于检测错误文本医疗标注数据，结合图6所示，可包括：

随机选择包括已标注和未标注文本医疗数据，建立实体识别模型GAN-FLAT-CRF。在已标注文本医疗数据里面，人为地将一小部分正确的标签改正错误的标签，以验证模型。实际上，在真实标注的世界里，很难保证所有文本医疗标注数据都是正确的，原因是多样的，比如标注人员缺乏专业知识。因此，人为地将一小部分正确的标签改正错误的标签一方面是为了验证模型的检测能力，另一方面旨在模拟真实的标注世界。

将上述已标注文本医疗数据输入到已经训练好的判别器，判别器输出每条文本医疗标注数据的分数，低于分数阈值的句子被挑选出来。经过训练，判别器具备了区分真实标签和错误标签的能力。因此，对于那些错误标的医疗数据，判别器很有可能输出低分数。因此，低于某分数阈值的句子被挑选出来。在被挑选的句子中，筛选出标注错误的医疗数据。在被挑选的句子中，存在一些正确文本医疗标注数据，因此，在这里需要人工甄别一下，筛选出错误文本医疗标注数据。

由上可知，本发明实施例的实体识别模型利用对抗的思想，并利用已经文本医疗标注数据和未文本医疗标注数据同时进行，或者独立进行识别实体、主动学习、以及检测错误文本医疗标注数据的任务。也就是说，当利用未标注和已文本医疗标注数据训练好一个实体识别的模型后，除了识别的能力外，该模型也同时具备了主动学习和检测错误标注数据的能力，有效提升模型的整体性能。

本发明实施例还针对实体识别模型生成方法提供了相应的装置，进一步使得所述方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的实体识别模型生成装置进行介绍，下文描述的实体识别模型生成装置与上文描述的实体识别模型生成方法可相互对应参照。

基于功能模块的角度，参见图7，图7为本发明实施例提供的实体识别模型生成装置在一种具体实施方式下的结构图，该装置可包括：

样本数据集获取模块701，用于获取实体识别模型的训练样本集，训练样本集包括多个已标注文本医疗数据和多个未标注文本医疗数据；实体识别模型包括生成器和判别器。

模型训练模块702，用于预先基于深度学习方法，利用已标注文本医疗数据训练得到生成器；利用生成器的文本医疗数据标签预测结果和已标注文本医疗数据训练判别器；利用已标注文本医疗数据和未标注文本医疗数据同时训练生成器，以使判别器无法确定预测的标签是正确还是错误；不断训练生成器和判别器直至满足生成器的模型训练截止条件。

可选的，在本实施例的一些实施方式中，上述装置例如还可以包括错误数据检测模块，用于将训练样本集中的已标注文本医疗数据输入至训练好的判别器中，得到每条已标注文本医疗数据的标注准确度分数；从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据；从各候选文本医疗数据中选择标签标注错误的文本医疗数据。

作为本实施例的一种可选实施方式，错误数据检测模块还可包括人工筛查子模块，该模块用于将各候选文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工筛查；根据用户反馈的筛选结果从各候选文本医疗数据中确定标签标注错误的文本医疗数据。

可选的，在本实施例的另一些实施方式中，上述装置例如还可保留训练样本更新模块，用于根据实体识别模型的输出结果从训练样本数据集中选择待标注文本医疗数据，并根据待标注文本医疗数据的标注结果更新训练样本集。

作为本实施例的一种可选的实施方式，上述训练样本更新模块可具体用于：

作为另外一些可选的实施方式，上述训练样本更新模块可包括人工标注子模块，该模块用于将各待标注文本医疗数据发送至预先绑定的用户端，以展示给用户进行人工标注；根据用户反馈的人工标注结果将各待标注文本医疗数据更新为已标注文本医疗数据。

本发明实施例所述实体识别模型生成装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例解决了现有技术中为保证最终实体识别的准确度需要大量训练样本数据的弊端问题，无需大量训练样本数据便可得到高性能的实体识别模型。

上文中提到的实体识别模型生成装置是从功能模块的角度描述，进一步的，本申请还提供一种实体识别模型生成装置，是从硬件角度描述。图8为本申请实施例提供的另一种实体识别模型生成装置的结构图。如图8所示，该装置包括存储器80，用于存储计算机程序；处理器81，用于执行计算机程序时实现如上述任一实施例提到的实体识别模型生成方法的步骤。

其中，处理器81可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器81可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器81可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器81还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器80可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器80还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器80至少用于存储以下计算机程序801，其中，该计算机程序被处理器81加载并执行之后，能够实现前述任一实施例公开的实体识别模型生成方法的相关步骤。另外，存储器80所存储的资源还可以包括操作***802和数据803等，存储方式可以是短暂存储或者永久存储。其中，操作***802可以包括Windows、Unix、Linux等。数据803可以包括但不限于实体识别模型生成结果对应的数据等。

在一些实施例中，实体识别模型生成装置还可包括有显示屏82、输入输出接口83、通信接口84、电源85以及通信总线86。

本领域技术人员可以理解，图8中示出的结构并不构成对实体识别模型生成装置的限定，可以包括比图示更多或更少的组件，例如还可包括传感器87。

可以理解的是，如果上述实施例中的实体识别模型生成方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明实施例还提供了一种计算机可读存储介质，存储有实体识别模型生成程序，所述实体识别模型生成程序被处理器执行时如上任意一实施例所述实体识别模型生成方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本申请所提供的一种实体识别模型生成方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种实体识别模型生成方法，其特征在于，包括：

2.根据权利要求1所述的实体识别模型生成方法，其特征在于，所述不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件之后，还包括：

3.根据权利要求2所述的实体识别模型生成方法，其特征在于，所述从各候选文本医疗数据中选择标签标注错误的文本医疗数据包括：

4.根据权利要求1所述的实体识别模型生成方法，其特征在于，所述不断训练所述生成器和所述判别器直至满足所述生成器的模型训练截止条件之后，还包括：

5.根据权利要求4所述的实体识别模型生成方法，其特征在于，所述根据所述待标注文本医疗数据的标注结果更新所述训练样本集包括：

6.根据权利要求4所述的实体识别模型生成方法，其特征在于，所述根据所述生成器和所述判别器的输出结果从所述训练样本数据集中选择待标注文本医疗数据为：

7.一种实体识别模型生成装置，其特征在于，包括：

8.根据权利要求7所述的实体识别模型生成装置，其特征在于，还包括错误数据检测模块，用于将所述训练样本集中的已标注文本医疗数据输入至训练好的判别器中，得到每条已标注文本医疗数据的标注准确度分数；从各已标注文本医疗数据中选择标注准确度分数低于预设设置的准确度阈值的候选文本医疗数据；从各候选文本医疗数据中选择标签标注错误的文本医疗数据。

9.一种实体识别模型生成装置，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6任一项所述实体识别模型生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实体识别模型生成程序，所述实体识别模型生成程序被处理器执行时实现如权利要求1至6任一项所述实体识别模型生成方法的步骤。