CN114564565A

CN114564565A - 面向公共安全事件分析的深度语义识别模型及其构建方法

Info

Publication number: CN114564565A
Application number: CN202210203781.9A
Authority: CN
Inventors: 游兰; 彭庆喜; 金红
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-05-31

Abstract

本发明属于自然语言处理情感分析技术领域，公开了一种面向公共安全事件分析的深度语义识别模型及其构建方法，通过BERT预训练模型获取评论文本的上下文语义特征表示，再结合双向GRU提取深层非线性特征向量，实现单模型下的最优效果；基于BERT系列预训练模型训练出表现优异且具有差异化的多个情感分类器；利用数据扰动和投票策略的集成学习方法，实现各模型深层特征的充分融合。本发明充分利用模型间的差异性，采用集成学习和投票策略融合多个模型，训练稳定且各方面表现均衡的情感分类模型；实验结果显示，BERT‑BiGRU模型相较于其他传统模型在两个公开数据集上具有更优的情感识别效果。

Description

面向公共安全事件分析的深度语义识别模型及其构建方法

技术领域

本发明属于自然语言处理情感分析技术领域，尤其涉及一种面向公共安全事件分析的深度语义识别模型及其构建方法。

背景技术

目前，情感识别是从机器角度感知、理解人类通过文本、图像等介质所表达的情感意图，是人工智能的关键技术之一。当前，社交网站是人们关注时事和分享个人观点的重要平台，每天会产生海量的非结构化文本评论，这些评论通常带有发表者的主观情感意图。社交评论的情感识别对于舆情管控、商业营销、社会治理等有极为重要的意义，是近年自然语言处理领域的研究热点之一。

社交网络文本具有情感语义丰富、文本长度不一等典型特征，如何从长短不一的文本中判断情感极性是当前情感识别***迫切需要解决的关键问题。传统的word2vec或glove词向量预训练模型在一定程度上能够学习到词语的上下文信息，但存在不同语境下同一词语表达了相同语义的模型语义偏差。例如，“这台车的性价比真高”和“这台车的油耗真高”，其中“真高”在前者表达积极评论，在后者中表达消极评论，该方法难以识别。采用传统卷积神经网络模型(Convolution Neural Network，CNN)进行文本分类任务时，虽然能够有效提取词语表示中的局部特征，但忽略了长距离上下文之间的语义关联性。

如今，多数模型采用机器学习或者深度学习的方法对文本情感进行预测，取得了较大进展。然而多数模型均为单一模型，由于单一模型具有随机性，只能在某一方面表现较好，但泛化能力不足。

通过上述分析，现有技术存在的问题及缺陷为：

(1)传统的word2vec或glove词向量预训练模型，存在不同语境下同一词语表达了相同语义的模型语义偏差，难以识别。

(2)采用传统卷积神经网络模型(Convolution Neural Network，CNN)进行文本分类任务时，忽略了长距离上下文之间的语义关联性。

(3)现有的多数模型均为单一模型，由于单一模型具有随机性，只能在某一方面表现较好，但泛化能力不足。

解决以上问题及缺陷的难度为：

传统机器学习的准确率较情感词典的方法有所提升，但其需要借助高质量的特征构造和专业领域知识，不具备良好的泛化能力，在捕获长距离上下文之间的语义关联性时，较难判断舍弃或者保留哪些信息，单一模型往往仅针对某个特定领域的效果较好，提高其泛化能力有较大的难度。

解决以上问题及缺陷的意义为：

针对特定任务可以挖掘文本评论间的深层语义信息，得到单模型下的最优情感识别效果，可以达到单个模型多次运用的目的，使集成模型获得最佳的预测结果和泛化性能。

发明内容

针对现有技术存在的问题，本发明提供了一种面向公共安全事件分析的深度语义识别模型及其构建方法，旨在解决现有技术对文本的深层情感语义特征的提取不足以及泛化能力有限等问题。

本发明是这样实现的，一种面向公共安全事件分析的深度语义识别模型的构建方法，所述面向公共安全事件分析的深度语义识别模型的构建方法包括：

通过BERT预训练模型获取评论文本的上下文语义特征表示，再结合双向GRU提取深层非线性特征向量，实现单模型下的最优效果；基于BERT系列预训练模型训练出表现优异且具有差异化的多个情感分类器；利用数据扰动和投票策略的集成学习方法，实现各模型深层特征的充分融合。

进一步，所述面向公共安全事件分析的深度语义识别模型的构建方法包括以下步骤：

步骤一，对原始数据集进行预处理，去除噪声数据；

步骤二，构建单个情感识别模型，将BERT预训练语言模型与BiGRU拼接得到文本分类模型，利用文本分类模型得到分类结果；

步骤三，构建集成情感识别模型，分别通过数据扰动的方式和基于BERT系列预训练模型得到多个情感基分类器，将步骤二的分类结果与集成模块输出的结果进行投票决策。

进一步，所述步骤二中的BERT模型采用Transformer的编码器作为主体模型结构，基于注意力机制挖掘词语之间的关系，用于并行训练并考虑全局信息。

在文本分类任务中，文本通常由词向量表示，BERT模型在使用词向量和段向量的基础上，加入位置向量，通过位置嵌入方式保存词序信息，从而对不同位置的字或词附加不同的向量以示区分：

其中，pos表示位置索引，d_model为词向量维度，PE表示在pos位置处对应的位置编码，由正弦sin和余弦cos函数生成，再与对应位置词向量相加；句子的开头使用[CLS]标记，句子的分隔和结尾使用[SEP]标记。

在得到句子的输入表示后，BERT使用遮蔽语言模型MLM和下一句预测NSP联合训练。MLM是指将文本中的词随机使用[MASK]进行遮蔽，让模型进行预测。NSP是指从语料库中随机选择两句话拼接，预测是否来自同一文本。

BERT模型的核心是采用Transformer模型的编码器，多头注意力是Transformer重要组成部分，attention机制将目标字Query和其上下文字Key的相似性作为权重，将上下字的Value融入到目标字的Query中，得到目标字的增强语义向量表示；通过多次线性变换对Q(Query)，K(Key)，V(Value)投影，最后将不同的attention结果进行拼接组成多头注意力，使模型在不同的表示子空间学习到相关信息，从而获得不同语义空间下词语的增强语义向量。

MultiHead(Q，K，V)＝Concat(head₁，...，head_k)W^O；

Transformer编码器加入残差和标准化模块，接在Encoder端和Decoder端每个子模块的后面；残差用于解决多层网络训练的问题，让网络只关注当前差异的部分，用于防止网络退化，加速收敛。标准化指Layer Normalization，用于对每一层的激活值进行归一化；α，β为训练参数，μ和σ表示偏差和方差；经过前馈神经网络，进行线性转换和ReLu激活函数得到编码器的输出，如公式所示：

FNN＝max(0，xW₁+b₁)W₂+b₂。

进一步，将经过BERT模型得到的语义表示作为双向GRU模型的输入。在双向GRU中，每个GRU单元包含两种门结构，更新门、重置门，分别表示为r_t，z_t，以此来保持和更新状态信息并进行传递。更新门的作用类似LSTM的遗忘门和输入门，决定上一时刻的状态信息被带入当前状态的程度。重置门控制上一时刻的状态信息被忽略的程度，重置门的值越小代表忽略越多。通过双向GRU模型处理时序性问题，利用整个文本序列的信息，包括各个词之间的相互关系信息，并将所述信息用于对每个词的处理。

进一步，将BERT的输出通过正向

获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

其中，w为连接两层的权重，b为偏置向量，f为激活函数，

和

分别为正向GRU和负向GRU输出。

双向GRU在正负向的隐藏层上对输入表示d_n进行计算，得到d_n隐藏状态h_t，将正负GRU采用拼接策略：

得到双向GRU的隐藏状态，计算公式如下：

H＝(h₁,h₁,...,h_d}；

使用全局平均池化来代替全连接层，全局平均池化层没有参数，整合全局信息，将输出的多维度特征，经过全局平均池化得到一维的特征向量，送入softmax函数得到评论文本的情感类别，如公式所示：

TEXT_C＝softmax(W_t·H+b_t)；

其中，W_t表示全局平均池化层的权重参数，b_t表示偏置值，最后得到BERT-BiGRU模型的输出TEXT_C。

进一步，所述步骤三中，在得到多个具有差异性的基分类器后，通过结合策略对基分类器的结果进行融合，使通过集成学习后的模型预测效果达到最好。将多个BERT、BERT-BiLSTM和BERT-BiGRU模型作为基分类器，统计所有分类器的输出类别，在生成情感识别的类别概率分布基础上采用多数投票策略进行决策。给定所有个体分类器的分类结果同样的权重，各个基分类器均只能投一票，采用少数服从多数原则，得票数最高的类别将作为该条评论的最终预测结果，投票公式如下所示：

其中，n和T分别表示情感分类的类别数和基分类器的个数，C_i，j表示基分类器i在测试集x的预测类别为j，

表示测试集x在所有基分类器的预测类别结果为j的总票数，取票数最多的类别作为该预测样本x的最后类别结果。

本发明的另一目的在于提供一种应用所述的面向公共安全事件分析的深度语义识别模型的构建各个构建得到的面向公共安全事件分析的深度语义识别模型。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的面向公共安全事件分析的深度语义识别模型。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的面向公共安全事件分析的深度语义识别模型，使用基于Transformer的双向编码表征模型(Bidirectional Encoder Representations from Transformers，BERT)，通过动态调整词向量语义特征，并采用双向门控循环单元(Bidirectional Gated Recurrent Unit，BiGRU)进行语义编码，以增强文本的语义表达，从而挖掘网络文本中更深层次的长距离上下文情感语义信息。本发明充分利用模型间的差异性，研究采用集成学习和投票策略融合多个模型，旨在训练稳定且各方面表现均衡的情感分类模型。实验结果显示，BERT-BiGRU模型相较于其他传统模型，在两个公开数据集(COV19和ChnSenti)上具有更优的情感识别效果。

本发明采用BERT预训练模型代替以往传统模型的词嵌入层，获得评论文本的隐含语义词向量表示，再通过双向GRU提取上下文的深层语义特征，提高模型对评论文本情感语义的提取能力；通过数据扰动和投票策略的集成学习，融合多个优异且具有差异性的情感识别模型，得到一个稳定且性能均衡的情感分类器，提高了模型的泛化能力；在公共数据集上进行多组对比实验，结果表明本发明提出的面向公共安全事件分析的深度语义识别模型，能够有效识别情感倾向性，情感分类效果更好。

围绕社交网络文本的情感识别研究热点，本发明提出了基于BERT-BiGRU多模集成学习的深层情感语义识别模型。首先该模型采用BERT预训练模型代替以往传统模型的词嵌入层，获得评论文本的隐含语义词向量表示，再通过双向GRU提取上下文的深层语义特征，解决了传统语言模型存在的不同语境下多义词和深层情感语义抽取能力较弱的问题，实现了单模型下最优的情感识别效果。为了提高模型的泛化能力，该模型在综合分析模型的方差和偏差的基础上，将集成学习的思想应用到情感识别上，观测不同模型在不同参数和数据集上的表现，采用交叉验证的方式训练数据集，然后以投票策略结合多个BERT预训练模型组成的基分类器，使得它们具有互相纠错的能力，从而获得更优的集成结果。最后，通过在三分类和二分类语料上分别设计实验，展示出BERT-BiGRU模型在多个评价指标上优于现有大多数情感识别模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的BERT输入表示图。

图2是本发明实施例提供的GRU单元架构图。

图3是本发明实施例提供的BERT-BiGRU模型结构图。

图4是本发明实施例提供的算法流程图。

图5是本发明实施例提供的集成学习框架下多模融合情感语义识别模型图。

图6是本发明实施例提供的面向公共安全事件分析的深度语义识别模型的构建方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

传统的word2vec或glove词向量预训练模型，存在不同语境下同一词语表达了相同语义的模型语义偏差，难以识别。采用传统卷积神经网络模型(Convolution NeuralNetwork，CNN)进行文本分类任务时，忽略了长距离上下文之间的语义关联性。现有的多数模型均为单一模型，由于单一模型具有随机性，只能在某一方面表现较好，但泛化能力不足。

针对现有技术存在的问题，本发明提供了一种面向公共安全事件分析的深度语义识别模型及其构建方法，下面结合附图对本发明作详细的描述。

如图6所示，本发明实施例提供的面向公共安全事件分析的深度语义识别模型的构建方法包括以下步骤：

S101，通过BERT预训练模型获取评论文本的上下文语义特征表示；

S102，结合双向GRU提取深层非线性特征向量，实现单模型下的最优效果；

S103，基于BERT系列预训练模型训练得到多个情感分类器；利用数据扰动和投票策略的集成学习方法，实现各模型深层特征的充分融合。

下面结合具体实施例对本发明的技术方案作进一步描述。

目前，情感识别领域常用的分类模型大多为浅层架构，通常需要复杂的特征工程，而且忽略了词语间的语义关系，集中于浅层特征的分类输出。本发明提出一种面向公共安全事件分析的深度语义识别模型。首先通过BERT预训练语言模型提取文本评论的特征向量，它能够有效捕捉句子双向上下文信息，动态调整词向量，避免了传统语言模型的局限性。然后，将通过BERT提取出的文本特征向量作为BiGRU网络的输入，通过正反方向上GRU的叠加，将前后的特征信息进行关联，更好地挖掘出各个情感特征之间的潜在联系，获得评论文本的情感倾向性。

另外，由于单一模型学***衡模型的方差和偏差，使集成后的分类模型性能更优。

本发明提出的面向公共安全事件分析的深度语义识别模型的算法模型流程，主要分为以下三个步骤。第一步是对原始数据集进行预处理，去除噪声数据；第二步是构建单个情感识别模型，将BERT预训练语言模型与BiGRU拼接得到文本分类模型，在性能上优于其他单一模型；第三步，为了增强情感识别模型的通用性，本发明构建集成情感识别模型。分别通过数据扰动的方式和基于BERT系列预训练模型得到多个情感基分类器，将步骤二的分类结果与集成模块输出的结果进行投票决策，从而提高整体的分类效果和模型泛化能力。

BERT指中文BERT预训练模型，使用了中文***的数据进行大规模的训练得到最终的模型。BERT-wwm-ext相对于BERT使用的是中文***数据和通用(百科、新闻、问答)数据，同时增加了训练步数。BERT-BiLSTM使用BERT预训练模型得到每条文本的特征向量，将其作为双向LSTM的输入，挖掘网络文本中更深层次的长距离上下文情感语义信息。

本发明使用了BERT系列的预训练语言模型获取输入文本的语义表示，其中表示模型的输入最大长度。如果文本长度小于n，则将通过BERT模型得到的小于n的输出文本语义表示进行填充，填充多个m维零向量直至输出序列长度为n；如果文本长度大于n，则只输出前n长度的文本语义表示。

在本实施例中，面向公共安全事件分析的深度语义识别模型适用于句子级情感分类。图1是本发明中使用到的BERT输入表示。

BERT模型采用Transformer的编码器作为主体模型结构，基于注意力机制挖掘词语之间的关系，使模型既能并行训练，也能考虑到全局信息。

在文本分类任务中，文本通常由词向量来表示，与Word2Vec、Glove等语言模型不同的是，BERT模型是在使用词向量和段向量的基础上，加入了位置向量，通过位置嵌入方式来保存词序信息，从而对不同位置的字或词附加不同的向量以示区分：

其中，pos表示位置索引，d_model为词向量维度，PE表示在pos位置处对应的位置编码，由正弦sin和余弦cos函数生成，再与对应位置词向量相加。输入表示如图1所示，其中句子的开头使用[CLS]标记，句子的分隔和结尾使用[SEP]标记。

在得到句子的输入表示后，BERT为了能在海量语料上进行无监督训练，提出了一种新的训练方法，使用遮蔽语言模型(Masked Language Model，MLM)和下一句预测(NextSentence Prediction，NSP)联合训练。MLM是指将文本中的一些词随机使用[MASK]进行遮蔽，让模型进行预测。相较于传统语言模型的单向预测，MLM任务可从任意方向预测被遮蔽的单词，使模型更多学习单词级别的领域知识。NSP是指从语料库中随机选择两句话拼接，预测它们是否来自同一文本，进一步考虑了句对关系的学习。这两种方式的结合，使模型既能识别噪音数据，还能更准确理解句子的深层语义。

BERT模型的核心是采用Transformer模型的编码器，如图2所示，而多头注意力(Multi-Head Attention)又是Transformer重要组成部分，首先attention机制将目标字Query和其上下文字Key的相似性作为权重，将上下字的Value融入到目标字的Query中，得到目标字的增强语义向量表示。其次为了获取不同空间下的增强向量表示，通过多次线性变换对Q(Query)，K(Key)，V(Value)投影，最后将不同的attention结果进行拼接组成多头注意力，使模型在不同的表示子空间学习到相关信息，从而获得不同语义空间下词语的增强语义向量。

MultiHead(Q，K，V)＝Concat(head₁，...，head_k)W^O

在此之上，Transformer编码器加入了残差和标准化模块，它接在Encoder端和Decoder端每个子模块的后面。残差通常用于解决多层网络训练的问题，可以让网络只关注当前差异的部分。用于防止网络退化，加速收敛。标准化指Layer Normalization，用于对每一层的激活值进行归一化，如上述公式所示。α，β为训练参数，μ和σ表示偏差和方差。最后经过前馈神经网络(Feedforward Neural Network)，对其进行线性转换和ReLu激活函数得到编码器的输出，如公式所示：

FNN＝max(0，xW₁+b₁)W₂+b₂

图2是GRU单元架构图。

如图2所示，为了进一步得到文本间的内在联系，本发明将经过BERT模型得到的语义表示作为双向GRU模型的输入。在双向GRU中，每个GRU单元包含两种门结构，更新门、重置门，分别表示为r_t，z_t，以此来保持和更新状态信息并进行传递，如图3所示。更新门的作用类似LSTM的遗忘门和输入门，它决定上一时刻的状态信息被带入当前状态的程度。重置门控制上一时刻的状态信息被忽略的程度，重置门的值越小代表忽略越多。相比LSTM，GRU的张量操作更少，所以速度也更快。因此，双向GRU模型常用来处理时序性问题，能够充分利用整个文本序列的信息，包括各个词之间的相互关系信息，并将该种信息用于对每个词的处理。

图3是BERT-BiGRU模型结构。

将BERT的输出通过正向

来获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

其中，w为连接两层的权重，b为偏置向量，f为激活函数，

和

分别为正向GRU和负向GRU输出。

双向GRU在正负向的隐藏层上对输入表示d_n进行计算，得到d_n隐藏状态h_t，本发明将正负GRU采用拼接策略：

得到双向GRU的隐藏状态，计算公式如下：

H＝(h₁,h_i,...,h_d}

最后，使用全局平均池化来代替全连接层，全局平均池化层没有参数，能够避免过拟合产生。同时还可以整合全局信息，将输出的多维度特征，经过全局平均池化得到一维的特征向量，送入softmax函数得到评论文本的情感类别。如公式所示：

TEXT_C＝softmax(W_t·H+b_t)

其中，W_t表示全局平均池化层的权重参数，b_t表示偏置值，最后得到BERT-BiGRU模型的输出TEXT_C。模型结构如图3所示。

图4是算法流程图。

如图4所示，BERT指中文BERT预训练模型，使用了中文***的数据进行大规模的训练得到最终的模型。BERT-wwm-ext相对于BERT使用的是中文***数据和通用(百科、新闻、问答)数据，同时增加了训练步数。BERT-BiLSTM使用BERT预训练模型得到每条文本的特征向量，将其作为双向LSTM的输入，挖掘网络文本中更深层次的长距离上下文情感语义信息。

图5是集成学习框架下的多模融合情感语义识别模型。

为了使模型间具有差异性，本发明采用不同的中文BERT预训练模型，这些模型使用了大量的无标注文本语料并通过不断的改进超参数，最后训练而成。如BERT-base模型是使用中文***的数据，BERT-wwm-ext使用的是中文***数据和通用(百科、新闻、问答)数据，同时增加了训练步数。因此，本发明使用BERT预训练模型及在BERT预训练模型后加入BiLSTM和BiGRU的两种方式，得到不同的情感识别结果。除此之外，本发明对样本进行分析后，分别采用不同的训练参数，如学习率、训练批次、文本切分长度等等。通过这种并行训练得到多个基分类器的方式，能够有效降低方差，解决过拟合问题。

通过上述方式得到多个具有差异性的基分类器后，本发明通过结合策略对基分类器的结果进行融合，使通过集成学习后的模型预测效果达到最好。首先将多个BERT、BERT-BiLSTM和BERT-BiGRU模型作为基分类器，统计所有分类器的输出类别，在生成情感识别的类别概率分布基础上采用多数投票策略进行决策。给定所有个体分类器的分类结果同样的权重，各个基分类器均只能投一票，采用少数服从多数原则，最后得票数最高的类别将作为该条评论的最终预测结果，如图5所示。投票公式如下所示：

下面结合具体实施例对本发明的技术方案作进一步描述。

本发明采用两组对比实验，实验一是本发明BERT-BiGRU与传统深度学习模型的对比，包括经典TextCNN、BiGRU、BiGRU-ATT及BERT等模型。

(1)TextCNN。使用word2vec对输入文本编码，送入卷积神经网络中，利用多个不同大小的卷积核提取文本特征，最后通过全连接层进行分类。

(2)BiGRU。使用word2vec训练词向量，送入双向GRU中，通过正反方向上GRU的叠加，将前后的特征信息进行关联，挖掘出各个情感特征之间的潜在联系，获得评论文本的情感倾向性。

(3)BiGRU-ATT。在使用双向GRU抽取文本特征的基础上，引用注意力机制，来捕获评论文本中的每个词对情感语义贡献程度大小，进行加权计算，得到最终的分类结果。

(4)BERT。使用深度双向Transformer模型，利用词语的上下文信息提取特征，并随时根据上下文信息动态调整词向量，获取评论文本的上下文语义特征表示。

(5)BERT-BiGRU。首先通过BERT预训练模型表达文本的隐含语义，再采用比双向LSTM结构更简单、运算速度更快的双向GRU模型，挖掘文本评论间的深层语义信息，得到最终的情感识别结果。

表1多个模型在COV19上的实验结果

表1展示了本发明模型和对比模型在COV19数据集上的精准率、召回率和F1值对比结果。可以看出，BERT模型的F1值达到71.7％的分类准确率，对比CNN模型的63.4％、BiGRU模型的66.1％，分别提升了8.3％和5.6％，验证了BERT预训练模型明显优于基于传统的词向量训练模型。其中，基于word2vec的词向量模型各项指标较低，主要是受中文表达一词多义的影响。难以理解同一词语在不同语义下表达的含义，从而导致抽取特征不准确。而BERT模型会根据上下文的含义动态变化词向量，更能准确的反映出句子的语义信息。同样BERT模型内部多个注意力的加入也非常关键，它是输入文本权重分配的关注，区别文本中每个词语对情感语义的贡献度。可见BERT模型比在BiGRU加入单个注意力机制的BiGRU-ATT模型提高了5.3％。在相同的word2vec词向量模型下，BiGRU模型比CNN模型高了2.7％，可以看出使用BiGRU比CNN提取文本特征的效果更佳。这是由于文本是天然的长时序信息，循环神经网络更擅长捕获长时序特征，而卷积神经网络擅长空间特征的学习，集中于局部特征，长距离建模能力较弱。故BERT后接入BiGRU的分类效果取得了最佳的分类效果，说明在BERT的输出中加入BiGRU能够提取句子中更深层次的情感特征，从而提升分类准确性。

实验一的结果展示了本发明模型在情感识别上能达到更好的分类效果。但本发明研究目标不仅仅考虑模型效果最优，还要使模型适用性更好。为了验证集成思想在情感识别领域的通用性，实验二将BERT预训练模型接入不同的网络，利用其训练语料和训练步数的不同，使用不同的训练批次和训练方式来达到差异性效果。最后使用投票策略达到集成效果，实验分别在情感二分类和三分类的数据集上进行。模型说明如下：

(1)BERT。使用BERT-base预训练模型提取文本特征，获取评论文本的上下文语义特征表示，训练批次分别设为32和16，最大文本截取长度分别为128和140，经过3轮训练分别得到模型1(M1)和模型2(M2)。

(2)预训练模型使用BERT-wwm-ext，训练批次为32，最大文本截取长度为128，训练得到模型3(M3)。

(3)BERT-BiLSTM。使用BERT-base预训练模型得到每条文本的特征，经过双向LSTM挖掘网络文本中更深层次的长距离上下文情感语义信息。再进行5折交叉验证，训练批次设为16，最大文本截取长度为140，训练得到模型4(M4)。

(4)BERT-BiLSTM。训练方法同(3)，批次设为48，训练得到模型5(M5)。

(5)BERT-BiGRU。使用BERT-base预训练模型得到每条文本的特征，经过双向GRU的输出，进行5折交叉验证，训练批次分别设为16、48和64，最大文本截取长度别设为140、140、128，训练得到模型6(M6)、模型7(M7)和模型8(M8)。

表2基分类器在COV19上的实验结果

实验将各个基分类器在COV19数据集上单独预测的分类效果进行比较分析。针对不同的基分类器分别使用不同的超参数集训练，观察该模型在测试集上的分类效果，从而来选择最优分类器。

表2展示了各个基分类器的预测结果。由表可见同样的网络结构，使用不同的超参数集进行训练，所表现的分类结果差别很大。比如BERT模型之间的差距达到了1.0％，而BERT-BiLSTM和BERT-BiGRU使用不同的超参数，差异性在0.2％～0.4％之间。对比于传统的数据集单次划分，本发明加入的五折交叉验证，多次划分训练数据集使数据集间互不交叉，大幅度降低了随机划分数据集带来的偶然性，增强了模型的稳定性。同时发现BERT-BiLSTM、BERT-BiGRU在批次48和最大文本截取长度140上分别达到了同类模型最优。

综上所述，本发明依据集成学习的两个前提条件，一是基分类器的分类效果要达到一定的优越性，如果基分类器的分类错误率过高将会导致集成学习的准确率降低；二是基分类器之间要具有差异性，即预测结果需要多样性，如果差异性过小，那集成结果基本无变化。因此，由表2得出，本发明选取M2，M3，M5，M7作集成学习的基分类器，对测试集的预测结果使用多数投票法得到最终的分类结果，集成结果如表3所示。

表3COV19的最终集成实验结果

集成后的结果达到73.2％，相比最优的单模型BERT-BiGRU提升了0.3％，为了进一步验证本发明所提模型的泛化能力，将以上模型在ChnSenti语料上进行测试，结果如表4所示。

表4集成学习在ChnSenti上的实验结果

表4展示了4个单模型和集成后的模型在酒店语料上的分类效果。由表可见，BERT-BiGRU在评价指标上都超越了其他三种模型，分别提高了1.4％，2.8％和0.8％。证明了BERT-BiGRU比其他模型能够挖掘更深层次的语义特征，也验证了本发明提出在BERT输出表示后接入BiGRU模型的方法具有有效性和优越性。各模型的F1值均在0.92以上，表明在二分类上各单模型表现均较为优异，导致模型间的差异性不够强，集成后的F1值提升不够明显。仅比最佳模型BERT-BiGRU提高了0.1％，由此可见本发明所使用的集成学习方法的正确性，需要集成表现优异且差距性较大的模型，才能获得明显的提升效果。

BERT-BiGRU模型应用在食品安全大数据情感分析***，该***从多维角度下分析食品安全事件的舆情热度、网民情感极性和关注话题的变化，展现与食品安全事件相关的风险知识图谱、食品安全全链条轨迹，获得食品安全事件所包含食品的知识图谱和抽检信息，通过BERT-BiGRU模型可以准确的分析出全国各地网民的情感极性，针对每一条用户的评论可以获取评论的文本倾向性，对数据进行可视化从而能看出舆情的时空演化趋势，辅助决策者进行舆情研判。对互联网信息进行多维统计分析，计算地域、情绪、热词等舆情指数，为舆情研判提供支持。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，所述面向公共安全事件分析的深度语义识别模型的构建方法包括：通过BERT预训练模型获取评论文本的上下文语义特征表示，再结合双向GRU提取深层非线性特征向量，进行单模型优化；基于BERT系列预训练模型训练出表现优异且具有差异化的多个情感分类器；利用数据扰动和投票策略的集成学习方法进行各模型深层特征的融合。

2.如权利要求1所述的面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，所述面向公共安全事件分析的深度语义识别模型的构建方法包括以下步骤：

步骤一，对原始数据集进行预处理，去除噪声数据；

3.如权利要求2所述的面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，所述步骤二中的BERT模型采用Transformer的编码器作为主体模型结构，基于注意力机制挖掘词语之间的关系，用于并行训练并考虑全局信息；

其中，pos表示位置索引，d_model为词向量维度，PE表示在pos位置处对应的位置编码，由正弦sin和余弦cos函数生成，再与对应位置词向量相加；句子的开头使用[CLS]标记，句子的分隔和结尾使用[SEP]标记；

在得到句子的输入表示后，BERT使用遮蔽语言模型MLM和下一句预测NSP联合训练；MLM是指将文本中的词随机使用[MASK]进行遮蔽，让模型进行预测；NSP是指从语料库中随机选择两句话拼接，预测是否来自同一文本；

BERT模型的核心是采用Transformer模型的编码器，多头注意力是Transformer重要组成部分，attention机制将目标字Query和其上下文字Key的相似性作为权重，将上下字的Value融入到目标字的Query中，得到目标字的增强语义向量表示；通过多次线性变换对Q(Query)，K(Key)，V(Value)投影，最后将不同的attention结果进行拼接组成多头注意力，使模型在不同的表示子空间学习到相关信息，从而获得不同语义空间下词语的增强语义向量；

Transformer编码器加入残差和标准化模块，接在Encoder端和Decoder端每个子模块的后面；残差用于解决多层网络训练的问题，让网络只关注当前差异的部分，用于防止网络退化，加速收敛；标准化指Layer Normalization，用于对每一层的激活值进行归一化；α，β为训练参数，μ和σ表示偏差和方差；经过前馈神经网络，进行线性转换和ReLu激活函数得到编码器的输出，如公式所示：

FNN＝max(0，xW₁+b₁)W₂b₂。

4.如权利要求3所述的面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，将经过BERT模型得到的语义表示作为双向GRU模型的输入；在双向GRU中，每个GRU单元包含两种门结构，更新门、重置门，分别表示为r_t，z_t，用于保持和更新状态信息并进行传递；更新门的作用类似LSTM的遗忘门和输入门，决定上一时刻的状态信息被带入当前状态的程度；重置门控制上一时刻的状态信息被忽略的程度，重置门的值越小代表忽略越多；通过双向GRU模型处理时序性问题，利用整个文本序列的信息，包括各个词之间的相互关系信息，并将所述信息用于对每个词的处理。

5.如权利要求3所述的面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，将BERT的输出通过正向

获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

其中，w为连接两层的权重，b为偏置向量，f为激活函数，

和

分别为正向GRU和负向GRU输出；

得到双向GRU的隐藏状态，计算公式如下：

H＝{h₁，h₁，...，h_d}；

TEXT_C＝softmax(W_t·H+b_t)；

6.如权利要求2所述的面向公共安全事件分析的深度语义识别模型的构建方法，其特征在于，所述步骤三中，在得到多个具有差异性的基分类器后，通过结合策略对基分类器的结果进行融合，使通过集成学习后的模型预测效果达到最好；将多个BERT、BERT-BiLSTM和BERT-BiGRU模型作为基分类器，统计所有分类器的输出类别，在生成情感识别的类别概率分布基础上采用多数投票策略进行决策；给定所有个体分类器的分类结果同样的权重，各个基分类器均只能投一票，采用少数服从多数原则，得票数最高的类别将作为该条评论的最终预测结果，投票公式如下所示：

7.一种应用如权利要求1～6任意一项所述的面向公共安全事件分析的深度语义识别模型的构建各个构建得到的面向公共安全事件分析的深度语义识别模型。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的面向公共安全事件分析的深度语义识别模型。