CN114443845A - 一种基于bert的多特征细粒度中文短文本情感分类方法 - Google Patents

一种基于bert的多特征细粒度中文短文本情感分类方法 Download PDF

Info

Publication number
CN114443845A
CN114443845A CN202210066218.1A CN202210066218A CN114443845A CN 114443845 A CN114443845 A CN 114443845A CN 202210066218 A CN202210066218 A CN 202210066218A CN 114443845 A CN114443845 A CN 114443845A
Authority
CN
China
Prior art keywords
bert
model
features
probability
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210066218.1A
Other languages
English (en)
Inventor
丁晓静
卓胜祥
范华俊
左宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuxu Network Technology Shanghai Co ltd
Original Assignee
Xuxu Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuxu Network Technology Shanghai Co ltd filed Critical Xuxu Network Technology Shanghai Co ltd
Priority to CN202210066218.1A priority Critical patent/CN114443845A/zh
Publication of CN114443845A publication Critical patent/CN114443845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT的多特征细粒度中文短文本情感分类方法,包含以下步骤:步骤A、多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征;四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达,该特征经过BERT模型后得到最终的特征表达;BERT Transformer叠加了多个多头自注意与前向神经网络模块,本发明加入的字形与拼音特征一定程度上可兼容输入文本中的字形相似或者同音字的错误,即使发生了这类错误也可正确提取相关语义,使模型可自适应于真实世界中的错误文本,提高模型预测的准确度。

Description

一种基于BERT的多特征细粒度中文短文本情感分类方法
技术领域
本发明涉及网络技术领域,具体是一种基于BERT的多特征细粒度中文短文本情感分类方法。
背景技术
情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。随着微博等社交媒体以及电商平台的发展而产生大量带有情感倾向的内容,给情感分析提供了所需的数据基础。时至今日,情感分析已经在多个领域被广泛的应用。例如:在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣;在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向;在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力;在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
现有流行的情感分析模型可大致分为两个部分:
1、对文本进行特征提取,即进行编码表示。编码的方式分为两种,自回归与自编码。自回归是单向模型,基于Transformer模型中的解码部分;自编码是双向模型,基于Transformer模型中的编码部分。
Transformer是 Google 团队在2017年6月提出的 NLP 经典之作, 由AshishVaswani 等人在 2017 年发表的论文Attention Is All You Need中提出。它的模型结构如图1所示:
实现特征到情感类别的映射,一般是外接一个全连接层与softmax层,将特征转变为情感类别数维度的特征后将其归一化得到各类别的概率。
现有技术大多是直接在原始的BERT预训练模型基础上加入分类层进行微调。将在大量通用语料上预训练得到的BERT模型再使用某特定领域语料以及特定任务标注语料进行微调训练,充分抽取出特定语料在特征任务下的token的内在含义。
现有技术一的缺点如下:
a)原始BERT模型特征过于单一,输入encode部分的特征仅独热编码向量、位置编码向量以及token类型向量,其中因为情感分析场景中输入仅单句,因此token类型向量固定,不具备有效信息。
b)在标注数据稀少的情况下采用现有技术直接进行微调,容易陷入过拟合,无法保证模型的鲁棒性。
c)模型会受到分类层初始化以及学习率,batch大小,权重衰减率等其他超参数影响陷入不同的极值点,而各个极值点在不同测试集上的表现优劣不同,如果最终只采用单一模型结果可能在效果上会有所偏颇。
d)业界大多的情感分类标注为2-3个类别,如正向、负向、中性等。在实际应用中这样 的分类过于简陋,人类的情感表现与倾向会更细致复杂,因此这样粗粒度的情感分类信息量过少,不利于后续的深度分析。
发明内容
本发明的目的在于提供一种基于BERT的多特征细粒度中文短文本情感分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于BERT的多特征细粒度中文短文本情感分类方法,包含以下步骤:
步骤A、多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征;四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达,该特征经过BERT模型后得到最终的特征表达;BERT Transformer 叠加了多个多头自注意与前向神经网络模块,其中自注意模块使用双向注意机制,即每个token同时关注到其左右侧的上下文,多头自注意模块公式为MultiHead (Q ,K ,V)=Concat(head1 ,...,headh )W0,headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,其中中Attention的计算公式为
Figure 619288DEST_PATH_IMAGE001
,Q,K,V分别为输入query、key、value向量,dk为向量度,多头自注意模块通过减少维度来降低计算所消耗的资源;
步骤B、文本向量特征到情感分类概率化特征的映射:通过一个分类层实现上一步得到的文本向量特征到情感分类特征的映射,此时得到一个class_size的特征表示,经过softmax层将该表示概率化,即实现每一维度值处于0-1之间且所有维度值加和等于1,分类层公式为 S=(WT X+b),W为n×j的全连接权重矩阵,b为偏置项,X是特征提取层输出的向量,得到的S进入softmax层,公式为
Figure 536297DEST_PATH_IMAGE002
,其中Pi为文本类别i的概率,Si为分类层输出的第i个神经元内的数值,j为预测类别数;
步骤C、模型融合:将通过不通超参数设置得到的前3个模型预测结果进行加权平均。
作为本发明的进一步技术方案:所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵,由token的字典id在编码矩阵中进行查询得到。
作为本发明的进一步技术方案:所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵,最多可对512长度的文本进行编码。
作为本发明的进一步技术方案:所述字形特征采用了三种字体:仿宋、行楷和隶书,图形化表达进行卷积与池化操作得到。
作为本发明的进一步技术方案:所述拼音特征是将汉字的全拼字母进行embedding映射后求平均得到。
作为本发明的进一步技术方案:所述BERT模型结构是一系列Transformer编码器的叠加,旨在通过联合调节所有层中的上下文来预先训练深度双向表示。
作为本发明的进一步技术方案:所述分类层为embedding_size*class_size的前向网络。
作为本发明的进一步技术方案:模型的训练过程分为两步:
1)Mask ML无监督训练,对于特定领域未标注文本,通过Mask ML策略构造训练数据,对模型进行预训练,即对于每一个句子中的token:
85%的概率,保留原词不变;
15%的概率,使用以下方式替换:
80%的概率,使用字符[MASK],替换当前token;
10%的概率,使用词表随机抽取的token,替换当前token;
10%的概率,保留原词不变;
2)文本分类的有监督训练:根据标注标签计算在[CLS]位置输出的概率结果与真实标注结果的交叉熵损失,再通过梯度的反向传播计算各个参数的梯度,进行参数更新。
与现有技术相比,本发明的有益效果是:本发明加入的字形与拼音特征一定程度上可兼容输入文本中的字形相似或者同音字的错误,即使发生了这类错误也可正确提取相关语义,使模型可自适应于真实世界中的错误文本,提高模型预测的准确度;模型训练过程中充分利用了无监督的文本预训练作为有监督训练的基础,从无监督文本中学***均化模型结果使得模型效果更加稳定。
附图说明
图1为现有流行的情感分析模型图。
图2为直接在原始的BERT预训练模型基础上加入分类层进行微调示意图。
图3为Transformer编码器的叠加示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,实施例1:一种基于BERT的多特征细粒度中文短文本情感分类方法,分为3步:
步骤A:多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征。其中,独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵,由token的字典id在编码矩阵中进行查询得到;位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵,最多可对512长度的文本进行编码;字形特征采用了三种字体:仿宋、行楷和隶书,的图形化表达进行卷积与池化操作得到;拼音特征则是将汉字的全拼字母进行embedding映射后求平均得到。四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达。该特征经过BERT模型后得到最终的特征表达。BERT模型结构是一系列Transformer编码器的叠加(如下图所示),旨在通过联合调节所有层中的上下文来预先训练深度双向表示。
BERT Transformer 叠加了多个多头自注意与前向神经网络模块,其中自注意模块使用双向注意机制,即每个token同时关注到其左右侧的上下文,多头自注意模块公式为MultiHead (Q ,K ,V)=Concat(head1 ,...,headh )W0,headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,其中中Attention的计算公式为
Figure 914496DEST_PATH_IMAGE001
,Q,K,V分别为输入query、key、value向量,dk为向量度,多头自注意模块通过减少维度来降低计算所消耗的资源。
步骤B、文本向量特征到情感分类概率化特征的映射:
通过一个分类层(embedding_size*class_size的前向网络)实现上一步得到的文本向量特征到情感分类特征的映射,此时得到一个class_size的特征表示,经过softmax层将该表示概率化,即实现每一维度值处于0-1之间且所有维度值加和等于1。分类层公式为S=(WT X+b),W为n×j的全连接权重矩阵,b为偏置项,X是特征提取层输出的向量。得到的S进入softmax层,公式为
Figure 875237DEST_PATH_IMAGE002
,其中Pi为文本类别i的概率,Si为分类层输出的第i个神经元内的数值,j为预测类别数。
步骤C、模型融合:将通过不通超参数设置得到的前3个模型预测结果进行加权平均。
模型输出的[CLS]位置增加一层所有情感类别的softmax,预测其输出是否为:喜悦。
实施例2,在实施例1的基础上,模型的训练过程分为两步:
1)Mask ML无监督训练:对于特定领域未标注文本,通过Mask ML策略构造训练数据,对模型进行预训练,即对于每一个句子中的token:
85%的概率,保留原词不变;
15%的概率,使用以下方式替换:
80%的概率,使用字符[MASK],替换当前token。
10%的概率,使用词表随机抽取的token,替换当前token。
10%的概率,保留原词不变;
如:
原始句子:我喜欢它。
模型输入:[CLS] 我 喜 欢 [MASK] 。
模型输出的[MASK]位置增加一层所有词的softmax,预测其输出是否为:它;
2)文本分类的有监督训练:根据标注标签计算在[CLS]位置输出的概率结果与真实标注结果的交叉熵损失,再通过梯度的反向传播计算各个参数的梯度,进行参数更新。
如:
原始句子:我喜欢它。
模型输入:[CLS] 我 喜 欢 它 。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,包含以下步骤:
步骤A、多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征;四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达,该特征经过BERT模型后得到最终的特征表达;BERT Transformer 叠加了多个多头自注意与前向神经网络模块,其中自注意模块使用双向注意机制,即每个token同时关注到其左右侧的上下文,多头自注意模块公式为MultiHead (Q ,K ,V)=Concat(head1,...,headh )W0,headi=Attention(QWiQ ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,其中中Attention的计算公式为
Figure DEST_PATH_IMAGE001
,Q,K,V分别为输入query、key、value向量,dk为向量度,多头自注意模块通过减少维度来降低计算所消耗的资源;
步骤B、文本向量特征到情感分类概率化特征的映射:通过一个分类层实现上一步得到的文本向量特征到情感分类特征的映射,此时得到一个class_size的特征表示,经过softmax层将该表示概率化,即实现每一维度值处于0-1之间且所有维度值加和等于1,分类层公式为 S=(WT X+b),W为n×j的全连接权重矩阵,b为偏置项,X是特征提取层输出的向量,得到的S进入softmax层,公式为
Figure DEST_PATH_IMAGE002
,其中Pi为文本类别i的概率,Si为分类层输出的第i个神经元内的数值,j为预测类别数;
步骤C、模型融合:将通过不通超参数设置得到的前3个模型预测结果进行加权平均。
2.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵,由token的字典id在编码矩阵中进行查询得到。
3.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵,最多可对512长度的文本进行编码。
4.根据权利要求3所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述字形特征采用了三种字体:仿宋、行楷和隶书,图形化表达进行卷积与池化操作得到。
5.根据权利要求4所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述拼音特征是将汉字的全拼字母进行embedding映射后求平均得到。
6.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述BERT模型结构是一系列Transformer编码器的叠加,旨在通过联合调节所有层中的上下文来预先训练深度双向表示。
7.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述分类层为embedding_size*class_size的前向网络。
8.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,模型的训练过程分为两步:
Mask ML无监督训练,对于特定领域未标注文本,通过Mask ML策略构造训练数据,对模型进行预训练,即对于每一个句子中的token:
85%的概率,保留原词不变;
15%的概率,使用以下方式替换:
80%的概率,使用字符[MASK],替换当前token;
10%的概率,使用词表随机抽取的token,替换当前token;
10%的概率,保留原词不变;
2)文本分类的有监督训练:根据标注标签计算在[CLS]位置输出的概率结果与真实标注结果的交叉熵损失,再通过梯度的反向传播计算各个参数的梯度,进行参数更新。
CN202210066218.1A 2022-01-20 2022-01-20 一种基于bert的多特征细粒度中文短文本情感分类方法 Pending CN114443845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066218.1A CN114443845A (zh) 2022-01-20 2022-01-20 一种基于bert的多特征细粒度中文短文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066218.1A CN114443845A (zh) 2022-01-20 2022-01-20 一种基于bert的多特征细粒度中文短文本情感分类方法

Publications (1)

Publication Number Publication Date
CN114443845A true CN114443845A (zh) 2022-05-06

Family

ID=81367463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066218.1A Pending CN114443845A (zh) 2022-01-20 2022-01-20 一种基于bert的多特征细粒度中文短文本情感分类方法

Country Status (1)

Country Link
CN (1) CN114443845A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN112395417A (zh) * 2020-11-18 2021-02-23 长沙学院 基于深度学习的网络舆情演化仿真方法及***
KR20210040851A (ko) * 2020-06-03 2021-04-14 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
CN113239690A (zh) * 2021-03-24 2021-08-10 浙江工业大学 基于Bert与全连接神经网络融合的中文文本意图识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
KR20210040851A (ko) * 2020-06-03 2021-04-14 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
CN112395417A (zh) * 2020-11-18 2021-02-23 长沙学院 基于深度学习的网络舆情演化仿真方法及***
CN113239690A (zh) * 2021-03-24 2021-08-10 浙江工业大学 基于Bert与全连接神经网络融合的中文文本意图识别方法

Similar Documents

Publication Publication Date Title
Poria et al. Aspect extraction for opinion mining with a deep convolutional neural network
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN112417854A (zh) 中文文档抽取式摘要方法
CN115687626A (zh) 一种基于提示学习融合关键词的法律文书分类方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN116595975A (zh) 一种基于句信息进行词信息增强的方面级情感分析方法
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
Zeng et al. Pyramid hybrid pooling quantization for efficient fine-grained image retrieval
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、***、设备及介质
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及***
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Shao et al. Controllable image caption with an encoder-decoder optimization structure
Yong et al. A new emotion analysis fusion and complementary model based on online food reviews
CN117670017B (zh) 一种基于事件的风险识别方法、装置以及电子设备
CN111858930A (zh) 一种社交电商用户画像的建立方法
CN114443845A (zh) 一种基于bert的多特征细粒度中文短文本情感分类方法
CN113032558B (zh) 融合维基知识的变分半监督百度百科分类方法
CN112733526B (zh) 一种自动识别财税文件中征税对象的抽取方法
CN114925689A (zh) 一种基于bi-lstm-mhsa的医疗文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination