CN115422939B - 一种基于大数据的细粒度商品命名实体识别方法 - Google Patents

一种基于大数据的细粒度商品命名实体识别方法 Download PDF

Info

Publication number
CN115422939B
CN115422939B CN202211260276.4A CN202211260276A CN115422939B CN 115422939 B CN115422939 B CN 115422939B CN 202211260276 A CN202211260276 A CN 202211260276A CN 115422939 B CN115422939 B CN 115422939B
Authority
CN
China
Prior art keywords
text
entity
commodity
layer
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211260276.4A
Other languages
English (en)
Other versions
CN115422939A (zh
Inventor
王进
陈怡雯
朴昌浩
刘彬
杜雨露
邓欣
孙开伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Yami Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yami Technology Guangzhou Co ltd filed Critical Yami Technology Guangzhou Co ltd
Priority to CN202211260276.4A priority Critical patent/CN115422939B/zh
Publication of CN115422939A publication Critical patent/CN115422939A/zh
Application granted granted Critical
Publication of CN115422939B publication Critical patent/CN115422939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法,包括:采用无标注的商品数据S对预训练NEZHA模型进行增量训练,得到继续预训练模型M;构建GPNER模型包括文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;GPNER模型使用特征融合层融入词组信息,增强实体识别的准确率;采用实体边界层和实体分类层多任务的方式对模型参数进行调优。本发明不仅使用了无标注数据对预训练模型NEZHA模型进行了继续预训练,能模型更加适应垂直领域,同时GPNER模型利用了文本长度、词汇信息等知识融入到数据,使模型更加精准的识别到实体边界和辨别实体的种类。

Description

一种基于大数据的细粒度商品命名实体识别方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法。
背景技术
近年来,随着互联网的兴起和计算机科学技术的飞速发展,自然语言处理技术得到了广泛的应用。如何准确识别商品标题实体是自然语言处理应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。然而商品标题实体识别区别于传统命名识别,具有实体密度高,实体粒度细等难点。
目前,主流的命名实体识别技术是基于大规模语料预训练模型的方法BERT+‘X’,其中‘X’表示不同的解码器,如CRF、GlobalPoint、Biaffine等。因为利用了大规模语料预训练模型提供了更好的模型初始化参数,使得在目标任务上有更好的泛化性能和更快的收敛速度。然而,当实体类别较多以及实体粒度较细时,传统的BERT+‘X’模型框架无法与实际应用需求相符合,不能训练出适合商品标题实体识别应用场景的模型。
发明内容
为解决上述技术问题,本发明提出一种基于大数据的细粒度商品命名实体识别方法,包括:
S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
优选的,进行增量训练,得到预训练模型M,具体包括:
对无标注数据集使用动态遮蔽策略,将数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M。
进一步的,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:
其中,ni表示遮蔽文本的长度,p(ni)为ni遮蔽长度被选中的概率,e表示自然底数,λ表示遮蔽长度均值,
优选的,融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
优选的,在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand()表示扩展向量第一维度的函数,Sum()表示根据向量的第一维度进行按位相加操作的求和函数。
优选的,所述S6具体包括:
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接/>与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与/>相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge
进一步的,重要性系数矩阵α,表示为:
α=Softmax(MASK(Adj,e))
其中,Softmax()表示softmax函数,MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu()表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。
进一步的,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
hmerge=W1hgat1[0:seqlen-m]+W2hgat2[0:seqlen-m]+W3hgat3[0:seqlen-m]+W4hlast[0:seqlen-m]
其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
优选的,感受野rn的计算公式如下:
其中,rn-1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int()表示仅保留数值整数部分,n表示第n层的卷积网络。
优选的,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
本发明的有益效果:
1、本发明使用了无标注商品标题领域数据对预训练模型NEZHA模型进行了继续预训练,使大规模预训练模型适应这一垂直领域任务商品命名实体识别;
2、本发明基于BERT+Global Pointer设计了GPNER模型,该模型充分利用了文本长度、实体种类、词汇信息等知识,同时为模型设计了三个任务,识别实体边界和辨别实体分类,使模型更加精准的识别到实体边界,辨别实体的种类。
附图说明
图1为本发明的一个实施例的流程图;
图2为本发明的GPNER模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于大数据的细粒度商品命名实体识别方法,如图1所示,包括:
S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
S3:建立GPNER模型,如图2所示,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
进行增量训练,得到预训练模型M,具体包括:
对无标注数据集使用动态遮蔽策略,将数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M。
在本实施例中,无标注数据集不复制直接遮蔽的话,每次数据遮蔽的位置是一样的,通过复制五份,确保数据文本中所有的字词在迭代过程中能够得到遮蔽,每次数据遮蔽的位置会变;比如原文本是我在北京,不复制它可能遮蔽后文本一直是我在[MASK][MASK],复制五分后,这次进入模型的是我在[MASK][MASK],下次就是[MASK]在北京。
当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:
其中,ni表示遮蔽文本的长度,p(ni)为ni遮蔽长度被选中的概率,e表示自然底数,λ表示遮蔽长度均值。
融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand()表示扩展向量第一维度的函数,Sum()表示根据向量的第一维度进行按位相加操作的求和函数。
所述S6具体包括:
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络gAT1、gAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接/>与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与/>相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge
进一步的,图神经网络GAT的定义如下:
Gi=(V,E),i=1,2,3
V={word1,word2,..,wordn,gaz1,..,gazn}
其中,Gi表示图神经网络GAT,V表示图神经网络中的节点,E表示图神经网络中的边的集合,wordn表示文本中的第n个单字,gazn表示文本中匹配到的第n个词组。
其中,B开始位置的词向量进入GAT1网络,GAT1网络是为了提取当前开始位置的词组与它前后开始位置词组之间的关系,GAT1网络中的邻接矩阵设计如下:
其中,G1.arcs[i][j]表示GAT1邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与它在文本中的前一个单字,词组与它在文本中的后一个单字,词组与相邻的词组之间,gazi表示第i个词组,gazj表示第j个词组。
进一步的,I中间位置的词向量进入GAT2网络,GAT2主要是能捕捉当前词组字符之间的关系。故GAT2网络中的邻接矩阵设计如下:
其中,G2.arcs[i][j]表示GAT2邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与构成此词组的每一个单字之间,gazi表示第j个词组。
进一步的,E结束位置的词向量进入GAT3网络,GAT3主要是能捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系。故GAT3网络中的邻接矩阵设计如下:
其中,G3.arcs[i][j]表示GAT3邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与它的第一个单字,词语与它的最后一个单字,词组与包含它的词组,gazi表示第i个词组,gazj表示第j个词组。
通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α;重要性系数矩阵α,表示为:
α=Softmax(MASK(Adj,e))
其中,Softmax()表示softmax函数,MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu()表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。
将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
hmerge=W1hgat[0:seqlen-m]+W2hgat2[0:seqlen-m]+W3hgat3[0:seqlen-m]+W4hlast[0:seqlen-m]
其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
感受野rn的计算公式如下:
其中,rn-1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int()表示仅保留数值整数部分,n表示第n层的卷积网络。
根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
实体识别、实体分类和掩码MLM三个任务的损失值分别是lossgp、losscl、lossmlm。总损失值Loss=lossgp+losscl+lossmlm,模型以最小化总损失值Loss为目标,迭代更新每一层的可优化参数至模型收敛。
进一步的,实体边界的损失函数(多标签损失函数)计算方式如下:
其中,Pα表示所有实体类型为α的实体首位集合,Qα表示所有非实体或者实体类型非α的实体首位集合,sα(i,j)表示文本下标从i到j位置是实体类型α的得分。需要注意的是Pα和Qα的并集为一个大小为[seqlen,seqlen]的上三角矩阵,即1≤i≤j≤seqlen,其中seqlen为句子长度。
所述实体分类层即一个全连接层,根据交叉熵损失函数,计算实体分类的损失值losscl,losscl计算方式如下:
其中,seqlen表示句子长度,pj表示文本中每个字符属于某个实体类别的概率。
进一步的,在文本处理层设置了实体个数模板,mask了实体种类的具体个数,取词汇向量hlast[m:m+2]与未掩码前的文本进行损失计算,得损失值为lossmlm
进一步的,实体种类掩码损失值计算公式如下:
其中,被mask的词集合为G,|V|表示模型词表大小,wordm表示模型词表中的字。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于大数据的细粒度商品命名实体识别方法,其特征在于,包括以下步骤:
S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
对无标注商品数据集使用动态遮蔽策略,将无标注商品数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M;
S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接/>与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与/>相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个字符的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
2.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:
其中,ni表示遮蔽文本的长度,p(ni)为ni遮蔽长度被选中的概率,e表示自然底数,λ表示遮蔽长度均值,
3.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
4.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand( )表示扩展向量第一维度的函数,Sum( )表示根据向量的第一维度进行按位相加操作的求和函数。
5.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,重要性系数矩阵α,表示为:
α=Softmax(MASK(Adj,e))
其中,Softmax()表示softmax函数,MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu()表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。
6.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
7.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,感受野rn的计算公式如下:
其中,rn-1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int( )表示仅保留数值整数部分,n表示第n层的卷积网络。
8.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
CN202211260276.4A 2022-10-14 2022-10-14 一种基于大数据的细粒度商品命名实体识别方法 Active CN115422939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211260276.4A CN115422939B (zh) 2022-10-14 2022-10-14 一种基于大数据的细粒度商品命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211260276.4A CN115422939B (zh) 2022-10-14 2022-10-14 一种基于大数据的细粒度商品命名实体识别方法

Publications (2)

Publication Number Publication Date
CN115422939A CN115422939A (zh) 2022-12-02
CN115422939B true CN115422939B (zh) 2024-04-02

Family

ID=84207767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211260276.4A Active CN115422939B (zh) 2022-10-14 2022-10-14 一种基于大数据的细粒度商品命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115422939B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935994B (zh) * 2022-12-12 2024-03-08 芽米科技(广州)有限公司 一种智能识别电商标题方法
CN117236338B (zh) * 2023-08-29 2024-05-28 北京工商大学 一种稠密实体文本的命名实体识别模型及其训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN114492441A (zh) * 2022-01-18 2022-05-13 北京工业大学 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087086B2 (en) * 2019-07-12 2021-08-10 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network
US12001798B2 (en) * 2021-01-13 2024-06-04 Salesforce, Inc. Generation of training data for machine learning based models for named entity recognition for natural language processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN114492441A (zh) * 2022-01-18 2022-05-13 北京工业大学 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
不规则文本中商品名称识别的特征选择;杨美妮;何涛;沈静;张建军;;计算机工程与科学;第38卷(第10期);第2153-2157页 *
基于层级残差连接LSTM的命名实体识别;王进;江苏大学学报(自然科学版);第43卷(第04期);第446-452页 *
基于细粒度词表示的命名实体识别研究;林广和;张绍武;林鸿飞;;中文信息学报;32(11);62-71 *
基于迁移学习的细粒度实体分类方法的研究;冯建周;马祥聪;;自动化学报;第46卷(第08期);第1759-1766页 *

Also Published As

Publication number Publication date
CN115422939A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN108415906B (zh) 基于领域自动识别篇章机器翻译方法、机器翻译***
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114254645A (zh) 一种人工智能辅助写作***
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN117252264B (zh) 一种结合语言模型与图神经网络的关系抽取方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN113435192A (zh) 一种基于改变神经网络通道基数的中文文本情感分析方法
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法
CN117094325A (zh) 水稻病虫害领域命名实体识别方法
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN115422362A (zh) 一种基于人工智能的文本匹配方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Wang et al. Chinese-Korean Weibo Sentiment Classification Based on Pre-trained Language Model and Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231103

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant