CN115422939B

CN115422939B - 一种基于大数据的细粒度商品命名实体识别方法

Info

Publication number: CN115422939B
Application number: CN202211260276.4A
Authority: CN
Inventors: 王进; 陈怡雯; 朴昌浩; 刘彬; 杜雨露; 邓欣; 孙开伟
Original assignee: Yami Technology Guangzhou Co ltd
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2024-04-02
Anticipated expiration: 2042-10-14
Also published as: CN115422939A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于大数据的细粒度商品命名实体识别方法，包括：采用无标注的商品数据S对预训练NEZHA模型进行增量训练，得到继续预训练模型M；构建GPNER模型包括文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层；GPNER模型使用特征融合层融入词组信息，增强实体识别的准确率；采用实体边界层和实体分类层多任务的方式对模型参数进行调优。本发明不仅使用了无标注数据对预训练模型NEZHA模型进行了继续预训练，能模型更加适应垂直领域，同时GPNER模型利用了文本长度、词汇信息等知识融入到数据，使模型更加精准的识别到实体边界和辨别实体的种类。

Description

一种基于大数据的细粒度商品命名实体识别方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于大数据的细粒度商品命名实体识别方法。

背景技术

近年来，随着互联网的兴起和计算机科学技术的飞速发展，自然语言处理技术得到了广泛的应用。如何准确识别商品标题实体是自然语言处理应用中的一项核心基础任务，能为多种下游场景所复用，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。然而商品标题实体识别区别于传统命名识别，具有实体密度高，实体粒度细等难点。

目前，主流的命名实体识别技术是基于大规模语料预训练模型的方法BERT+‘X’，其中‘X’表示不同的解码器，如CRF、GlobalPoint、Biaffine等。因为利用了大规模语料预训练模型提供了更好的模型初始化参数，使得在目标任务上有更好的泛化性能和更快的收敛速度。然而，当实体类别较多以及实体粒度较细时，传统的BERT+‘X’模型框架无法与实际应用需求相符合，不能训练出适合商品标题实体识别应用场景的模型。

发明内容

为解决上述技术问题，本发明提出一种基于大数据的细粒度商品命名实体识别方法，包括：

S1：获取有标注的商品信息数据和无标注的商品信息数据，根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集；

S2：将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练，得到预训练模型M；

S3：建立GPNER模型，所述GPNER模型包括：文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层；

S4：将待进行实体命名识别的商品文本数据输入文本处理层，融合文本长度和文本中的实体个数信息；

S5：编码层对文本中的实体个数采用[Mask]进行掩盖，并通过预训练模型M进行编码，得到文本的隐藏层状态向量，并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息，得到词语向量表征h_last；

S6：特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征h_last，得到特征融合向量h_merge；

S7：将特征融合向量h_merge输入卷积层的三层卷积网络，根据感受野r_n*r_n学习不同r_n级别的片段信息来获取商品标题实体内部的关联特征，并将每一层的关联特征与特征融合向量h_merge进行拼接，得到商品的词语向量h_cnn；

S8：实体边界层采用GlobalPointer解码方法将商品的词语向量h_cnn线性变换为两个序列向量q_α、k_α，根据序列向量q_α、k_α利用实体分数计算函数计算文本中每一个位置上的实体分数s_α(i，j)，当s_α(i，j)>0时，句子文本[i，j]为实体片段，得到商品实体边界i和j；

S9：实体分类层挑选文本中实体分数大于0的位置上的词语向量h_cnn通过全连接层进行m类分类，得到商品实体的种类。

优选的，进行增量训练，得到预训练模型M，具体包括：

对无标注数据集使用动态遮蔽策略，将数据集复制五份，将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代，字词有50％的概率会被选中，当一个字被选中的同时，策略选取与这个字左右相关的n个词进行遮蔽，选中的字词中有80％会使用[MASK]进行遮蔽，10％是随机挑选一个词来代替[MASK],10％的概率会保持不变，得到新的遮蔽文本，重复上述过程，直到NEZHA模型不再生成新的遮蔽文本，得到当前预训练模型M。

进一步的，当一个字被选中的同时，策略选取与这个字左右相关的n个词进行遮蔽，表示为：

其中，n_i表示遮蔽文本的长度，p(n_i)为n_i遮蔽长度被选中的概率，e表示自然底数，λ表示遮蔽长度均值，

优选的，融合文本长度和文本中的实体个数信息，具体包括：

统计一条文本的长度，在模版“文本中有x个字”中填入统计的文本长度信息，拼接到文本后面，统计一条文本中拥有的实体个数，在模版“x种实体在文本中”中填入统计的实体个数信息，拼接在文本的最后面，得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。

优选的，在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息，得到词语向量表征h_last，表示为：

h_last＝Sum(h_bert，Expand(h_cls))

其中，h_bert表示隐藏层状态向量，h_cls表示[CLS]的类别向量信息，Expand()表示扩展向量第一维度的函数，Sum()表示根据向量的第一维度进行按位相加操作的求和函数。

优选的，所述S6具体包括：

特征融合层根据已标注商品数据集的标注信息的词组构建字典，按照词组的字典大小初始化一个200维的词向量，对于每一个输入字符，使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词，根据匹配到的词语，在初始化的200维词向量中查找得到对应的匹配词语向量h_gaz，针对BIE三个位置，构建三个不同的图神经网络GAT₁、GAT₂、GAT₃，B开始位置的词向量进入GAT₁网络，提取当前开始位置的词组与它前后开始位置词组之间的关系，得到GAT₁的邻接矩阵，I中间位置的词向量进入GAT₂网络，捕捉当前词组字符之间的关系，得到GAT₂的邻接矩阵，E结束位置的词向量进入GAT₃网络，捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系，得到GAT₃的邻接矩阵，将匹配的词语向量h_gaz与词语向量表征h_last进行拼接得到拼接向量通过拼接/>与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α，再将重要性系数矩阵中的重要性系数与/>相乘得到三个神经网络的输出，将三个图神经网络GAT₁、GAT₂、GAT₃的输出与词语向量表征h_last进行加权融合，得到特征融合向量h_merge。

进一步的，重要性系数矩阵α，表示为：

α＝Softmax(MASK(Adj,e))

其中，Softmax()表示softmax函数，MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值，LeakyRelu()表示leakyrelu激活函数，W₁表示第一可学习的权重矩阵，W₂表示第二可学习的权重矩阵，表示拼接向量，||表示对向量进行竖向拼接，T表示转置操作。

进一步的，将三个图神经网络GAT₁、GAT₂、GAT₃的输出与词语向量表征h_last进行加权融合，得到特征融合向量h_merge，表示为：

h_merge＝W₁h_gat1[0:seqlen-m]+W₂h_gat2[0:seqlen-m]+W₃h_gat3[0:seqlen-m]+W₄h_last[0:seqlen-m]

其中，h_gat1、h_gat2、h_gat3分别表示神经网络GAT₁、GAT₂、GAT₃的输出,W₁表示第一可学习的权重矩阵，W₂表示第二可学习的权重矩阵，W₃表示第三可学习的权重矩阵，W₄表示第四可学习的权重矩阵，k表示GAT神经网络的输出的维度，seqlen表示输入特征融合层最初的维度，m表示文本处理层实体模版的文本长度。

优选的，感受野r_n的计算公式如下：

其中，r_n-1表示上一个感受野，k是原始卷积核大小，s_i表示第i层卷积的步长，int()表示仅保留数值整数部分，n表示第n层的卷积网络。

优选的，根据序列向量q_α、k_α利用实体分数计算函数计算文本中每一个位置上的实体分数，表示为：

s_α(i，j)＝q_α ^Tk_α

其中，s_α(i，j)表示文本下标从i到j位置是实体类型α的得分，i表示文本中的i片段，j表示文本中的j片段，q_α、k_α表示h_cnn属于实体类别α的两个序列向量，T表示转置操作。

本发明的有益效果：

1、本发明使用了无标注商品标题领域数据对预训练模型NEZHA模型进行了继续预训练，使大规模预训练模型适应这一垂直领域任务商品命名实体识别；

2、本发明基于BERT+Global Pointer设计了GPNER模型，该模型充分利用了文本长度、实体种类、词汇信息等知识，同时为模型设计了三个任务，识别实体边界和辨别实体分类，使模型更加精准的识别到实体边界，辨别实体的种类。

附图说明

图1为本发明的一个实施例的流程图；

图2为本发明的GPNER模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于大数据的细粒度商品命名实体识别方法，如图1所示，包括：

S3：建立GPNER模型，如图2所示，所述GPNER模型包括：文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层；

进行增量训练，得到预训练模型M，具体包括：

在本实施例中，无标注数据集不复制直接遮蔽的话，每次数据遮蔽的位置是一样的，通过复制五份，确保数据文本中所有的字词在迭代过程中能够得到遮蔽，每次数据遮蔽的位置会变；比如原文本是我在北京，不复制它可能遮蔽后文本一直是我在[MASK][MASK],复制五分后，这次进入模型的是我在[MASK][MASK],下次就是[MASK]在北京。

当一个字被选中的同时，策略选取与这个字左右相关的n个词进行遮蔽，表示为：

其中，n_i表示遮蔽文本的长度，p(n_i)为n_i遮蔽长度被选中的概率，e表示自然底数，λ表示遮蔽长度均值。

融合文本长度和文本中的实体个数信息，具体包括：

在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息，得到词语向量表征h_last，表示为：

h_last＝Sum(h_bert，Expand(h_cls))

所述S6具体包括：

进一步的，图神经网络GAT的定义如下：

G_i＝(V,E)，i＝1,2,3

V＝{word₁,word₂,..,word_n,gaz₁,..,gaz_n}

其中，G_i表示图神经网络GAT，V表示图神经网络中的节点，E表示图神经网络中的边的集合，word_n表示文本中的第n个单字，gaz_n表示文本中匹配到的第n个词组。

其中，B开始位置的词向量进入GAT₁网络，GAT₁网络是为了提取当前开始位置的词组与它前后开始位置词组之间的关系，GAT₁网络中的邻接矩阵设计如下：

其中，G₁.arcs[i][j]表示GAT₁邻接矩阵，word_i表示第i个单字，word_j表示第j个单字，E表示图神经网络中的边的集合，E边集合包含单字与单字之间，词组与它在文本中的前一个单字，词组与它在文本中的后一个单字，词组与相邻的词组之间，gaz_i表示第i个词组，gaz_j表示第j个词组。

进一步的，I中间位置的词向量进入GAT₂网络，GAT₂主要是能捕捉当前词组字符之间的关系。故GAT₂网络中的邻接矩阵设计如下：

其中，G₂.arcs[i][j]表示GAT₂邻接矩阵，word_i表示第i个单字，word_j表示第j个单字，E表示图神经网络中的边的集合，E边集合包含单字与单字之间，词组与构成此词组的每一个单字之间，gaz_i表示第j个词组。

进一步的，E结束位置的词向量进入GAT₃网络，GAT₃主要是能捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系。故GAT₃网络中的邻接矩阵设计如下：

其中，G₃.arcs[i][j]表示GAT₃邻接矩阵，word_i表示第i个单字，word_j表示第j个单字，E表示图神经网络中的边的集合，E边集合包含单字与单字之间，词组与它的第一个单字，词语与它的最后一个单字，词组与包含它的词组，gaz_i表示第i个词组，gaz_j表示第j个词组。

通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α；重要性系数矩阵α，表示为：

α＝Softmax(MASK(Adj,e))

将三个图神经网络GAT₁、GAT₂、GAT₃的输出与词语向量表征h_last进行加权融合，得到特征融合向量h_merge，表示为：

h_merge＝W₁h_gat[0:seqlen-m]+W₂h_gat2[0:seqlen-m]+W₃h_gat3[0:seqlen-m]+W₄h_last[0:seqlen-m]

感受野r_n的计算公式如下：

根据序列向量q_α、k_α利用实体分数计算函数计算文本中每一个位置上的实体分数，表示为：

s_α(i，j)＝q_α ^Tk_α

实体识别、实体分类和掩码MLM三个任务的损失值分别是loss_gp、loss_cl、loss_mlm。总损失值Loss＝loss_gp+loss_cl+loss_mlm，模型以最小化总损失值Loss为目标，迭代更新每一层的可优化参数至模型收敛。

进一步的，实体边界的损失函数(多标签损失函数)计算方式如下：

其中，P_α表示所有实体类型为α的实体首位集合，Q_α表示所有非实体或者实体类型非α的实体首位集合，s_α(i，j)表示文本下标从i到j位置是实体类型α的得分。需要注意的是P_α和Q_α的并集为一个大小为[seqlen,seqlen]的上三角矩阵，即1≤i≤j≤seqlen，其中seqlen为句子长度。

所述实体分类层即一个全连接层，根据交叉熵损失函数，计算实体分类的损失值loss_cl，loss_cl计算方式如下：

其中，seqlen表示句子长度，p_j表示文本中每个字符属于某个实体类别的概率。

进一步的，在文本处理层设置了实体个数模板，mask了实体种类的具体个数，取词汇向量h_last[m:m+2]与未掩码前的文本进行损失计算，得损失值为loss_mlm。

进一步的，实体种类掩码损失值计算公式如下：

其中，被mask的词集合为G，|V|表示模型词表大小，word_m表示模型词表中的字。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大数据的细粒度商品命名实体识别方法，其特征在于，包括以下步骤：

对无标注商品数据集使用动态遮蔽策略，将无标注商品数据集复制五份，将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代，字词有50％的概率会被选中，当一个字被选中的同时，策略选取与这个字左右相关的n个词进行遮蔽，选中的字词中有80％会使用[MASK]进行遮蔽，10％是随机挑选一个词来代替[MASK],10％的概率会保持不变，得到新的遮蔽文本，重复上述过程，直到NEZHA模型不再生成新的遮蔽文本，得到当前预训练模型M；

特征融合层根据已标注商品数据集的标注信息的词组构建字典，按照词组的字典大小初始化一个200维的词向量，对于每一个输入字符，使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词，根据匹配到的词语，在初始化的200维词向量中查找得到对应的匹配词语向量h_gaz，针对BIE三个位置，构建三个不同的图神经网络GAT₁、GAT₂、GAT₃，B开始位置的词向量进入GAT₁网络，提取当前开始位置的词组与它前后开始位置词组之间的关系，得到GAT₁的邻接矩阵，I中间位置的词向量进入GAT₂网络，捕捉当前词组字符之间的关系，得到GAT₂的邻接矩阵，E结束位置的词向量进入GAT₃网络，捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系，得到GAT₃的邻接矩阵，将匹配的词语向量h_gaz与词语向量表征h_last进行拼接得到拼接向量通过拼接/>与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α，再将重要性系数矩阵中的重要性系数与/>相乘得到三个神经网络的输出，将三个图神经网络GAT₁、GAT₂、GAT₃的输出与词语向量表征h_last进行加权融合，得到特征融合向量h_merge；

S8：实体边界层采用GlobalPointer解码方法将商品的词语向量h_cnn线性变换为两个序列向量q_α、k_α，根据序列向量q_α、k_α利用实体分数计算函数计算文本中每一个字符的实体分数s_α(i，j)，当s_α(i，j)＞0时，句子文本[i，j]为实体片段，得到商品实体边界i和j；

2.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，当一个字被选中的同时，策略选取与这个字左右相关的n个词进行遮蔽，表示为：

3.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，融合文本长度和文本中的实体个数信息，具体包括：

4.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息，得到词语向量表征h_last，表示为：

h_last＝Sum(h_bert，Expand(h_cls))

其中，h_bert表示隐藏层状态向量，h_cls表示[CLS]的类别向量信息，Expand( )表示扩展向量第一维度的函数，Sum( )表示根据向量的第一维度进行按位相加操作的求和函数。

5.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，重要性系数矩阵α，表示为：

α＝Softmax(MASK(Adj，e))

6.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，将三个图神经网络GAT₁、GAT₂、GAT₃的输出与词语向量表征h_last进行加权融合，得到特征融合向量h_merge，表示为：

其中，h_gat1、h_gat2、h_gat3分别表示神经网络GAT₁、GAT₂、GAT₃的输出，W₁表示第一可学习的权重矩阵，W₂表示第二可学习的权重矩阵，W₃表示第三可学习的权重矩阵，W₄表示第四可学习的权重矩阵，k表示GAT神经网络的输出的维度，seqlen表示输入特征融合层最初的维度，m表示文本处理层实体模版的文本长度。

7.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，感受野r_n的计算公式如下：

其中，r_n-1表示上一个感受野，k是原始卷积核大小，s_i表示第i层卷积的步长，int( )表示仅保留数值整数部分，n表示第n层的卷积网络。

8.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法，其特征在于，根据序列向量q_α、k_α利用实体分数计算函数计算文本中每一个位置上的实体分数，表示为：

s_α(i，j)＝q_α ^Tk_α