CN111651992A

CN111651992A - 命名实体标注方法、装置、计算机设备和存储介质

Info

Publication number: CN111651992A
Application number: CN202010333674.9A
Authority: CN
Inventors: 陈桢博; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-11
Also published as: WO2021212749A1

Abstract

本申请涉及人工智能领域，提供一种命名实体标注方法及相关设备，包括：构建简历文本中语句的字向量；通过TextCNN模型的多层卷积层对字向量进行多层卷积运算，得到字向量矩阵；对字向量矩阵进行计算，得到查询向量、键向量、值向量；从而计算得到语句中的每两个字符之间的注意力权重矩阵，并基于值向量对进行调整；基于字向量矩阵、调整后的注意力权重矩阵，通过全连接层处理后输入至融合高斯误差的softmax分类层中进行分类，得到语句中的每个字符的第一命名实体标注。本申请增强了捕获局部上下文的能力。此外，本申请还涉及区块链领域，简历文本可存储于区块链中。

Description

命名实体标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及分类模型的技术领域，特别涉及一种命名实体标注方法、装置、计算机设备和存储介质。

背景技术

命名实体识别(Named Entity Recognition,NER)任务主要是识别出对应文本中出现的人名、地名、机构名等专有名称并加以归类，它是信息抽取、信息检索、问答***等多种自然语言处理任务的基础。例如，在简历识别场景中，通常需要识别简历文本中的校名、地名等命名实体。

命名实体标注任务是命名实体识别中的必要过程，其是指对文本中每个字符进行分类标注处理的过程。传统的深度学习方法虽然有较好的效果，但是由于对所有语句中的长距离特征都赋予相同的特征权重进行模型运算，所以在短距离关键特征的识别精度上达不到理想的效果。

发明内容

本申请的主要目的为提供一种命名实体标注方法、装置、计算机设备和存储介质，克服命名实体标注时在短距离关键特征的识别精度不高的缺陷。

为实现上述目的，本申请提供了一种命名实体标注方法，包括以下步骤：

获取简历文本中的语句，并构建所述语句的字向量；

通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；

基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；

根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；

基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。

进一步地，所述基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量的步骤，包括：

基于所述TextCNN模型的全连接层中预先训练得到的查询向量计算参数，对所述字向量矩阵进行计算，得到所述查询向量；

基于所述TextCNN模型的全连接层中预先训练得到的键向量计算参数，对所述字向量矩阵进行计算，得到所述键向量；

基于所述TextCNN模型的全连接层中预先训练得到的值向量计算参数，对所述字向量矩阵进行计算，得到所述值向量。

进一步地，所述基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注的步骤之后，包括：

将所述语句中的每个字符添加分类得到的所述命名实体标注，生成第一训练样本；

对所述第一训练样本进行放回抽样，得到多组训练样本集；并基于每一组训练样本集分别对一个初始TextCNN模型进行训练，得到对应个数的TextCNN子模型；

将同一个无标注简历文本输入至所有的所述TextCNN子模型中，以输出每一个所述TextCNN子模型预测的命名实体标注结果；

判断所有所述TextCNN子模型预测的命名实体标注结果是否相同，若相同，则验证所述TextCNN子模型训练完成，以及验证所述语句中的每个字符的第一命名实体标注正确。

进一步地，所述获取简历文本中的语句，并构建所述语句的字向量的步骤，包括：

获取简历文本；

将所述简历文本输入至预设的文本检测模型中，以检测所述简历文本中的各个文字区域；其中，所述文本检测模型为基于自然场景文本检测模型训练得到；

分别在各个所述文字区域外添加一个标记框；

基于图像识别技术识别每个所述标记框，并通过文字识别模型对各个所述标记框中的文字内容进行文字识别，以识别到各个所述标记框中的文字信息，并将识别到的各所述文字信息分别作为一个语句；

基于预设的词嵌入模型构建每一个语句中每一个字符对应的字向量。

进一步地，所述根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整的步骤，包括：

根据所述查询向量与所述键向量，基于对应的权重矩阵计算参数计算得到权重矩阵；

根据所述查询向量与所述键向量，基于对应的高斯偏差矩阵计算参数计算得到所述高斯偏差矩阵；

将所述权重矩阵与所述高斯偏差矩阵进行加和，并进行归一化处理后得到所述注意力权重矩阵；

将所述注意力权重矩阵与所述值向量进行相乘计算，以对所述注意力权重矩阵进行调整。

本申请还提供了一种命名实体标注装置，包括：

获取单元，用于获取简历文本中的语句，并构建所述语句的字向量；

第一计算单元，用于通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；

第二计算单元，用于基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；

第三计算单元，用于根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；

分类单元，用于基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。

进一步地，所述第二计算单元，包括：

第一计算子单元，用于基于所述TextCNN模型的全连接层中预先训练得到的查询向量计算参数，对所述字向量矩阵进行计算，得到所述查询向量；

第二计算子单元，用于基于所述TextCNN模型的全连接层中预先训练得到的键向量计算参数，对所述字向量矩阵进行计算，得到所述键向量；

第三计算子单元，用于基于所述TextCNN模型的全连接层中预先训练得到的值向量计算参数，对所述字向量矩阵进行计算，得到所述值向量。

进一步地，所述命名实体标注装置，还包括：

生成单元，用于将所述语句中的每个字符添加分类得到的所述命名实体标注，生成第一训练样本；

训练单元，用于对所述第一训练样本进行放回抽样，得到多组训练样本集；并基于每一组训练样本集分别对一个初始TextCNN模型进行训练，得到对应个数的TextCNN子模型；

输出单元，用于将同一个无标注简历文本输入至所有的所述TextCNN子模型中，以输出每一个所述TextCNN子模型预测的命名实体标注结果；

验证单元，用于判断所有所述TextCNN子模型预测的命名实体标注结果是否相同，若相同，则验证所述TextCNN子模型训练完成，以及验证所述语句中的每个字符的第一命名实体标注正确。

进一步地，所述获取单元，包括：

获取子单元，用于获取简历文本；

检测子单元，用于将所述简历文本输入至预设的文本检测模型中，以检测所述简历文本中的各个文字区域；其中，所述文本检测模型为基于自然场景文本检测模型训练得到；

添加子单元，用于分别在各个所述文字区域外添加一个标记框；

识别子单元，用于基于图像识别技术识别每个所述标记框，并通过文字识别模型对各个所述标记框中的文字内容进行文字识别，以识别到各个所述标记框中的文字信息，并将识别到的各所述文字信息分别作为一个语句；

构建子单元，用于基于预设的词嵌入模型构建每一个语句中每一个字符对应的字向量。

进一步地，所述第三计算单元，包括：

第四计算子单元，用于根据所述查询向量与所述键向量，基于对应的权重矩阵计算参数计算得到权重矩阵；

第五计算子单元，用于根据所述查询向量与所述键向量，基于对应的高斯偏差矩阵计算参数计算得到所述高斯偏差矩阵；

加和子单元，用于将所述权重矩阵与所述高斯偏差矩阵进行加和，并进行归一化处理后得到所述注意力权重矩阵；

调整子单元，用于将所述注意力权重矩阵与所述值向量进行相乘计算，以对所述注意力权重矩阵进行调整。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的命名实体标注方法、装置、计算机设备和存储介质，包括：获取简历文本中的语句，并构建所述语句的字向量；通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。本申请引入了可学习的高斯偏差矩阵的的加权，引入局部范围的中心位置和移动窗口来计算高斯偏差放入softmax函数中以修正局部强化的权重分布，增强了捕获局部上下文的能力。

附图说明

图1是本申请一实施例中命名实体标注方法步骤示意图；

图2是本申请一实施例中命名实体标注装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种命名实体标注方法，包括以下步骤：

步骤S1，获取简历文本中的语句，并构建所述语句的字向量；

步骤S2，通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；

步骤S3，基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；

步骤S4，根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；

步骤S5，基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。

在本实施例中，上述命名实体标注方法应用于自动化提取简历文本中的学校名、公司名、专业信息等命名实体的场景中。

如上述步骤S1所述的，在本实施例中，简历文本中通常包括有多个语句，本实施例中获取出简历文本中的每一个语句，并针对每一个语句构建对应的字向量；可以理解的是，在构建每个所述语句的字向量之前，还可以对上述语句进行预处理，预处理包括去除特殊符号、停用词等字符，并将非格式化文本转为算法可以运算处理的格式。预处理完成后，输入词嵌入模型的嵌入层(即embedding层)以将上述语句中的每一文字(字符)转化为对应的字向量(该字向量通常为300维)。上述嵌入层中的字向量字典预先通过Word2Vec或Glove算法训练得到，在此不做赘述。

如上述步骤S2所述的，上述TextCNN模型是利用卷积神经网络对文本进行分类的算法，其可以很好的提取文本中所有的信息。其所具有的向前传播层和向后传播层，分别用于学习上文和下文信息，同时连接到输出层。在本实施例中，上述TextCNN模型通过多层卷积层对输入的字向量进行运算得到字向量矩阵。其中，TextCNN模型的卷积核为1维形式，长度可设置为2至3，卷积通道数在本方案中设置为128，卷积层激活函数为ReLU。在本实施例中，上述语句以长度为m为例，进过嵌入层处理后将被转为m*300的矩阵，随后基于所述TextCNN模型的多层卷积层处理运算后输出m*128的字向量矩阵。

如上述步骤S3所述的，在上述步骤运算得到字向量矩阵之后，通过TextCNN模型的全连接层对上述字向量矩阵进行运算得到三个向量，分别为查询向量Q，键向量K，值向量V，上述三个向量均为m*n的矩阵。上述查询向量Q，键向量K，值向量V均是通过全连接层针对同一个字向量矩阵进行运算得到，区别仅在于其计算参数不同；而构建上述查询向量Q，键向量K的目的在于，计算同一语句中各字符之间的影响权重。当识别命名实体时，需要参考语句其他位置的文字进行判断，则必然需要考虑其他文字的影响权重。上述查询向量Q与键向量K则构造了类似的权重矩阵，用于计算语句中各文字之间的权重，以量化这一影响关系。

应当理解的是，本实施例中的TextCNN模型与现有模型不同，其在全连接层中引入了查询向量Q，键向量K，值向量V的计算参数，以及权重矩阵、高斯偏差矩阵的计算参数；而在上述TextCNN模型训练时，经过迭代训练，得到最优的查询向量Q，键向量K，值向量V的计算参数，以及权重矩阵、高斯偏差矩阵的计算参数。

如上述步骤S4所述的，根据上述查询向量、键向量，结合高斯偏差矩阵计算得到所述语句中的每两个字符之间的注意力权重矩阵，在本实施例中，引入了可学习的高斯偏差矩阵的的加权，引入局部范围的中心位置和移动窗口来计算高斯偏差放入softmax函数中以修正局部强化的权重分布，增强了捕获局部上下文的能力。

上述每两个字符之间的注意力权重矩阵指的是针对每一个字符，用整句话中每一个字符来对该字符进行打分，这个打分的分数决定了该字符对句子其他部分字符的重视程度。具体地，将上述查询向量与键向量进行相乘并进行归一化可得到上述注意力权重矩阵；更为具体的是，在将上述查询向量与键向量进行相乘之后，为了控制这一结果的分布范围，以免出现极大值导致梯度更新量过大，因此将上述相乘的结果所得到的向量除以

然后再进行归一化，从而使得梯度更加稳定。其中，d是键向量K的维度。

如上述步骤S5所述的，将字向量矩阵、调整后的所述注意力权重矩阵首先进行相加，并通过上述全连接层处理，得到分类矩阵，再将上述分类矩阵输入至上述softmax分类层，通过softmax函数的分类计算，输出每一字符所属BIOES标注的概率，随后可直接输出概率最高者作为每个字符对应的第一命名实体标注，或者也可以叠加CRF算法进行标注输出处理。

其中，在本实施例中，采用BIOES标注方式，B代表实体开头，I代表实体内部，O代表非实体，E代表实体结尾，S表示单字实体。而对于不同类型的命名实体，也需要进行对应的区分；例如，某个字符可能标注为人名中的开头，也可能标注为地名中的实体内部。

在一实施例中，本实施例中的TextCNN模型与现有模型不同，其在全连接层中引入了查询向量Q，键向量K，值向量V的计算参数，而在上述TextCNN模型训练时，经过迭代训练，得到最优的查询向量Q，键向量K，值向量V的计算参数。

因此，所述基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量的步骤S3，包括：

基于所述TextCNN模型的全连接层中预先训练得到的键向量计算参数，对所述字向量矩阵进行计算，得到所述键向量；构建上述查询向量Q，键向量K的目的在于，计算同一语句中各字符之间的影响权重。

基于所述TextCNN模型的全连接层中预先训练得到的值向量计算参数，对所述字向量矩阵进行计算，得到所述值向量。构建上述值向量，则为了对上述注意力权重矩阵进行调整。

在一实施例中，所述基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注的步骤S5之后，包括：

步骤S6，将所述语句中的每个字符添加分类得到的所述命名实体标注，生成第一训练样本；

步骤S7，对所述第一训练样本进行放回抽样，得到多组训练样本集；并基于每一组训练样本集分别对一个初始TextCNN模型进行训练，得到对应个数的TextCNN子模型；

步骤S8，将同一个无标注简历文本输入至所有的所述TextCNN子模型中，以输出每一个所述TextCNN子模型预测的命名实体标注结果；

步骤S9，判断所有所述TextCNN子模型预测的命名实体标注结果是否相同，若相同，则验证所述TextCNN子模型训练完成，以及验证所述语句中的每个字符的第一命名实体标注正确。

可以理解的是，上述TextCNN子模型采用的训练集均为简历领域中的文本，在经过上述迭代训练之后，其对专业领域的针对性更强。同时，在训练上述TextCNN子模型时，采用的多组TextCNN子模型同时训练，只有当所有的结果都相同时，才可以验证为训练最终完成。同时，多组TextCNN子模型同时训练，当所有的结果都相同时，也可以表明上述语句中的每个字符的第一命名实体标注正确。

而在后续使用上述TextCNN子模型进行命名实体标注时，也可以是将同一简历文本输入到多个TextCNN子模型中进行预测，只有当所有TextCNN子模型预测的命名实体标注结果都相同时，才将相同的命名实体标注结果作为该简历文本的命名实体标注结果。

在一实施例中，所述获取简历文本中的语句，并构建所述语句的字向量的步骤S1，包括：

步骤S11，获取简历文本；该简历文本可以是word电子文档或者图片。

需要强调的是，为进一步保证上述简历文本的私密和安全性，上述简历文本还可以存储于一区块链的节点中。

步骤S12，将所述简历文本输入至预设的文本检测模型中，以检测所述简历文本中的各个文字区域；其中，所述文本检测模型为基于自然场景文本检测模型训练得到；上述文本检测模型用于检测出上述简历文本中出现文本的区域，其仅用于检测出文本所在的区域，不用于识别出区域内的文字具体是什么。

步骤S13，分别在各个所述文字区域外添加一个标记框；添加标记框之后可以便于识别出对应的文字区域，可以简化后续的识别处理量。

步骤S14，基于图像识别技术识别每个所述标记框，并通过文字识别模型对各个所述标记框中的文字内容进行文字识别，以识别到各个所述标记框中的文字信息，并将识别到的各所述文字信息分别作为一个语句；在识别出每个标记框后，采用文字识别模型则可以直接识别出每个标记框中的文字内容，而每一个标记框中的内容分别作为一个语句。

步骤S15，基于预设的词嵌入模型构建每一个语句中每一个字符对应的字向量。上述词嵌入模型通过Word2Vec或Glove算法训练得到，用于将每一个语句中的字符转换成对应的一个字向量。

在一实施例中，所述根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整的步骤S4，包括：

步骤S41，根据所述查询向量与所述键向量，基于对应的权重矩阵计算参数计算得到权重矩阵；根据所述查询向量与所述键向量，基于对应的高斯偏差矩阵计算参数计算得到所述高斯偏差矩阵；其中，计算得到上述权重矩阵与高斯偏差矩阵所采用的计算参数不同；应当理解的是，上述计算参数由迭代训练上述TextCNN模型时所得到。

步骤S42，将所述权重矩阵与所述高斯偏差矩阵进行加和，并进行归一化处理后得到所述注意力权重矩阵；

步骤S43，将所述注意力权重矩阵与所述值向量进行相乘计算，以对所述注意力权重矩阵进行调整。

其中，计算得到上述M与G所采用的计算参数不同；应当理解的是，上述计算参数由迭代训练上述TextCNN模型时所得到。

上述高斯误差矩阵G用于对上述权重矩阵M进行调整，以引入局部范围的中心位置和移动窗口来计算高斯偏差放入softmax函数中以修正局部强化的权重分布，增强了捕获局部上下文的能力。

进而，根据上述权重矩阵M以及高斯偏差矩阵G；计算得到注意力权重矩阵ATT，其中，ATT(Q,K)＝Softmax(M+G)。

为了对上述注意力权重矩阵进行调整，将上述得到的注意力权重矩阵与上述值向量进行相乘，即ATT*V。在本实施例中，构造得到的注意力权重矩阵，将其作为权重用于值向量V的计算。可以理解的是，上述模型在训练时，在监督学习任务下，优化算法会根据结果对参数进行自动优化，以得到最优的计算参数；从而在模型的具体预测过程中，便于寻找最优的矩阵Q与K，因此能够获得准确的注意力权重矩阵。

在一实施例中，所述基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注的计算过程为：

将所述字向量矩阵与调整后的所述注意力权重矩阵进行结合，即得到L1＝C+ATT*V1；其中，C为字向量矩阵；再通过全连接层处理，即得到L2＝FC(L1)；最后通过softmax分类层进行分类，得到上述语句中每一个字符所属的BIOES标注的概率，即L3＝softmax(L2)。其中，通常将概率最高的标注最为该字符对应的标注结果。

在本实施例中，将高斯偏差矩阵G加入到softmax分类层中的softmax激活函数中，其中高斯偏差矩阵G是一个L*L的矩阵，L是语句中的字符长度，G_ij衡量了字符x_j和所预测的中心位置P_i之间的紧密度，D_i是窗口大小也是两倍的高斯误差。

上述每两个字符之间的注意力权重矩阵为：

ATT(Q,K)＝Softmax(M+G)

G_ij为：

其中，P_i和D_i的计算方法如下：为了使得P_i和D_i介于0到L之间，加入了标注化因子L。因为每一个中心位置取决于对应的查询向量，所以应用向前反馈机制将该向量转换为隐藏状态，用线性映射映射到标量。

其中

和W_p是可训练的线性映射，Q_i是查询向量。

在本实施例中，引入了可学习的高斯误差的的加权，引入局部范围的中心位置和移动窗口来计算高斯误差放入softmax函数中以修正局部强化的权重分布，在保证获得长距离依赖性的同时学习了小范围内部的邻关系，增强了捕获局部上下文的能力。

参照图2，本申请一实施例中还提供了一种命名实体标注装置，包括：

获取单元10，用于获取简历文本中的语句，并构建所述语句的字向量；

第一计算单元20，用于通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；

第二计算单元30，用于基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；

第三计算单元40，用于根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；

分类单元50，用于基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。

在一实施例中，所述第二计算单元30，包括：

在一实施例中，所述命名实体标注装置，还包括：

在一实施例中，所述获取单元10，包括：

获取子单元，用于获取简历文本；

在一实施例中，所述第三计算单元40，包括：

在本实施例中，上述单元/子单元的具体实现请参照上述方法实施例中对应部分，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据、训练数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种命名实体标注方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种命名实体标注方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的命名实体标注方法、装置、计算机设备和存储介质，包括：获取简历文本中的语句，并构建所述语句的字向量；通过预先训练得到的TextCNN模型的多层卷积层对所述字向量进行多层卷积运算，得到字向量矩阵；基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量；根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整；基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注。本申请引入了可学习的高斯偏差矩阵的的加权，引入局部范围的中心位置和移动窗口来计算高斯偏差放入softmax函数中以修正局部强化的权重分布，增强了捕获局部上下文的能力。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种命名实体标注方法，其特征在于，包括以下步骤：

获取简历文本中的语句，并构建所述语句的字向量；

2.根据权利要求1所述的命名实体标注方法，其特征在于，所述基于所述TextCNN模型的全连接层，对所述字向量矩阵进行计算，得到查询向量、键向量、值向量的步骤，包括：

3.根据权利要求1所述的命名实体标注方法，其特征在于，所述基于所述字向量矩阵、调整后的所述注意力权重矩阵，通过所述TextCNN模型进行全连接层处理后再输入至融合高斯误差的softmax分类层中进行分类，得到所述语句中的每个字符的第一命名实体标注的步骤之后，包括：

4.根据权利要求1所述的命名实体标注方法，其特征在于，所述获取简历文本中的语句，并构建所述语句的字向量的步骤，包括：

获取简历文本，所述简历文本存储于区块链中；

分别在各个所述文字区域外添加一个标记框；

5.根据权利要求1所述的命名实体标注方法，其特征在于，所述根据所述查询向量、键向量，并结合高斯偏差矩阵，计算得到所述语句中的每两个字符之间的注意力权重矩阵，并基于所述值向量对所述注意力权重矩阵进行调整的步骤，包括：

6.一种命名实体标注装置，其特征在于，包括：

7.根据权利要求6所述的命名实体标注装置，其特征在于，所述第二计算单元，包括：

8.根据权利要求6所述的命名实体标注装置，其特征在于，所述命名实体标注装置，还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。