CN112231472B

CN112231472B - 融入领域术语词典的司法舆情敏感信息识别方法

Info

Publication number: CN112231472B
Application number: CN202010984681.5A
Authority: CN
Inventors: 余正涛; 张泽锋; 黄于欣; 郭军军; 相艳; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-07-29
Anticipated expiration: 2040-09-18
Also published as: CN112231472A

Abstract

本发明涉及融入领域术语词典的司法舆情敏感信息识别方法。本发明首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码，抽取显著特征；其次将领域术语词典作为分类的指导知识，与舆情文本构建相似矩阵，得到融入领域术语词典的文本表征；然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征，最终实现敏感信息分类。本发明将领域术语词典与司法舆情上下文信息进行融合，技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳，又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示，从而提高司法舆情敏感信息识别的性能。

Description

融入领域术语词典的司法舆情敏感信息识别方法

技术领域

本发明涉及融入领域术语词典的司法舆情敏感信息识别方法，属于自然语言处理技术领域。

背景技术

在社交网络中，用户可以随时随地表达自己的观点，其中针对司法部门审判相关工作有大量误解和片面的言论，它们具有传播迅速、敏感度高、易引发网络舆情等特点。为了更好地辅助司法部门开展工作，从海量的舆情新闻中快速、准确识别涉及司法的敏感信息显得尤为重要。

针对司法领域的敏感信息识别来讲，并不能将其看为一个简单的二分类任务，需要同时考虑是否涉及司法领域以及是否为敏感信息，会出现敏感和不敏感，且同样有一些虽然敏感但不涉及司法的。因此本发明将司法敏感信息识别任务转化为一个四分类任务，需要识别敏感性和领域性。

司法舆情文本具有描述不规范、冗余信息多等问题导致难以对其进行有效的表征，涉及司法领域的敏感信息中包含导致文本敏感的短语、而这些短语又属于司法领域敏感专有词汇，这些词语对于涉法敏感信息的识别起主导作用，但是这些短语在通用领域的敏感术语词典中不会出现，所以直接进行词匹配工作无法有效识别司法领域的敏感信息。为了获得更好的表征，让模型能够学习到司法敏感信息相关的表示，构造领域敏感术语词典，将术语词典作为外部指导融入到深度学习框架中，可以进行有效的特征增强。

发明内容

为解决上述问题，本发明构建领域术语词典，利用领域术语词典指导模型进行领域特征的学习，并针对司法舆情的文本描述特性，提出融入领域术语词典的司法舆情敏感信息识别模型，进行司法舆情敏感信息的分类。

本发明的技术方案是：融入领域术语词典的司法舆情敏感信息识别方法，所述方法包括：

构建融入领域术语词典的司法敏感信息识别模型来进行敏感信息识别；融入领域术语词典的司法敏感信息识别模型包括编码层、领域术语词典融入层、局部特征提取层和分类层；

通过编码层将舆情文本和领域术语词典进行编码和特征关注；

通过领域术语词典融入层将领域术语词典与舆情文本计算相似度并融入文本表征中；

通过局部特征提取层在领域术语词典融入层的基础上提取重要特征提取；

通过分类层将提取的重要特征进行类别概率的预测。

作为本发明发进一步方案，构建融入领域术语词典的司法敏感信息识别模型之前进行司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理，具体步骤如下：

Step1.1、爬取舆情文本并经过人工筛选和标注后构成共若干条舆情文本；

Step1.2、构建领域术语词典，其中包括司法领域词汇和敏感词汇，司法领域词汇由裁判文书网和中国法院网构建，其中敏感词汇有两部分构成：(1)、根据司法舆情数据特点手动构建，(2)、筛选公开的中文敏感词汇，词汇由字、词及短语组成；

Step1.3、利用搜狗新闻数据集、司法舆情敏感信息数据集、领域术语词典以及word2vec算法预训练司法敏感的词向量作为司法敏感信息识别模型的司法敏感先验知识。

作为本发明发进一步方案，所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下：

Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵，分别为

和

Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征

输入一个能理解上下文的编码机制；采用双向长短期记忆神经网络Bi-LSTM作为理解上下文信息的嵌入机制，模拟单词之间的特征交互，并将两个方向的输出进行简单拼接,得到该网络层的输出H，其中每列向量表示舆情描述上下文的表征；

其中，Bi-LSTM表示经过双向循环神经网络，D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征；

Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算：

multiHead(Q,K,V)＝concat(head₁,…,head_h)W^O

wherehead_i＝att(QW_i ^Q,KW_i ^k,VW_i ^V)(4)

其中，softmax为归一化操作，connect表示拼接操作，其中

Step2.4、为防止丢失原文本语义，对于输出的结果进行残差连接：

A^h＝residualConnect(D_M^d,D_H) (5)

K^h＝residualConnect(W_M^d,W_H) (6)

其中，residualConnect表示残差连接，D_M^d，W_M^d分别表示舆情文本和领域词典经过多头注意力机制的输出结果，A^h，K^h分别表示舆情文本经过残差连接后的结果；

Step2.5、将领域术语词典的表征K^h与舆情文本表征A^h计算相似矩阵：

其中，S_ik表示术语词典表征K^h中的第i个领域词与文本特征A^h的第k个隐向量之间的相似性,

表示对应词典第i个领域词表征向量，

表示A^h的第k列向量，sim表示计算

与

之间相似度的可训练函数，计算过程如下所示：

其中

是待训练的权重向量，

表示元素依次相乘，(；)表示向量在行上进行拼接，k与K^h的列向量对应,a与A^h的列向量对应；

Step2.6、将S_ik进行归一化后与词汇嵌入矩阵

进行相乘后得到具有权重信息的相关矩阵

最终相似矩阵与原文本进行拼接，得到融入词典信息的文本表征

其中softmax是归一化函数，[；]为拼接操作；

Step2.7、将已经融入词典信息的文本表征

进行卷积操作，将舆情内容信息与词典信息进行特征的提取工作，然后进行最大池化操作max-pooling，过程如下所示：

其中k表示CNN网络的输出通道；

Step2.8、将

进行多头注意力操作，获取到具有权重信息的特征矩阵；

Step2.9、在分类层中为得到文本分类概率分布，将在局部特征提取层中得到的O^k，利用归一化softmax后将其映射到分类空间如下所示：

P(D)＝softmax(O^k) (13)

本发明的有益效果是：本发明将领域术语词典与司法舆情上下文信息进行融合，技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳，又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示，从而提高司法舆情敏感信息识别的性能；

实验结果表明本发明提出的方法在精确率、召回率以及宏平均F1值和微平均F1值等指标表现上均优于基线***。

附图说明

图1为本发明中的模型构建示意图；

图2为本发明中的流程图。

具体实施方式

实施例1：如图1-2所示，融入领域术语词典的司法舆情敏感信息识别方法，首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码，抽取显著特征；其次将领域术语词典作为分类的指导知识，与舆情文本构建相似矩阵，得到融入领域术语词典的文本表征；然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征，最终实现敏感信息分类；

具体步骤为：

Step1、司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理；

Step1.1、从2020年3月1日到2020年6月1日对新浪微博、github等网站进行爬取，经过人工筛选和标注后构成共2万条舆情文本；

Step1.2、构建领域术语词典，其中包括司法领域词汇和敏感词汇，司法领域词汇有裁判文书网和中国法院网构建，其中敏感词汇有两部分构成：(1)、根据司法舆情数据特点手动构建，(2)、筛选公开的中文敏感词汇，词汇由字、词及短语组成；

Step1.3、利用搜狗新闻数据集(约500M)，和司法舆情敏感信息数据集和领域术语词典以及word2vec算法预训练司法敏感的词向量作为模型的司法敏感先验知识；

和

输入一个可以理解上下文的编码机制。采用Bi-LSTM(双向长短期记忆神经网络)作为理解上下文信息的嵌入机制，模拟单词之间的特征交互，并将两个方向的输出进行简单拼接,得到该网络层的输出H，其中每列向量表示舆情描述上下文的表征；

其中，Bi-LSTM表示经过双向循环神经网络，D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征。

multiHead(Q,K,V)＝concat(head₁,…,head_h)W^O

wherehead_i＝att(QW_i ^Q,KW_i ^k,VW_i ^V) (4)

其中，softmax为归一化操作，connect表示拼接操作，其中

A^h＝residualConnect(D_M^d,D_H) (5)

K^h＝residualConnect(W_M^d,W_H) (6)

其中，residualConnect表示残差连接，D_M^d，W_M^d分别表示舆情文本和领域词典经过多头注意力机制的输出结果，A^h，K^h分别表示舆情文本经过残差连接后的结果。

表示对应词典第i个领域词表征向量，

表示A^h的第k列向量，sim表示计算

与

之间相似度的可训练函数，计算过程如下所示：

其中

是待训练的权重向量，

表示元素依次相乘，(；)表示向量在行上进行拼接，k与K^h的列向量对应,a与A^h的列向量对应。

Step2.6、将S_ik进行归一化后与词汇嵌入矩阵

进行相乘后得到具有权重信息的相关矩阵

其中softmax是归一化函数，[；]为拼接操作。

Step2.7、将已经融入词典信息的文本表征

进行卷积操作，将舆情内容信息与词典信息进行特征的提取工作，然后进行max-pooling(最大池化操作)，过程如下所示：

其中k表示CNN网络的输出通道。

Step2.8、将

进行多头注意力操作，获取到具有权重信息的特征矩阵。

Step2.9、在分类层中为得到文本分类概率分布，将在局部特征提取层中得到的O^k，利用softmax(归一化)将其映射到分类空间如下所示：

P(D)＝softmax(O^k) (13)

利用梯度下降算法训练参数，由此构建融入领域术语词典的司法敏感信息识别模型。

为更好的训练模型和验证模型的有效性，依据8:1:1的比例构建训练集、验证集和测试集，其中具体数据信息如表1所示：

表1数据大小及数据集划分

领域术语词典构建对于识别司法敏感信息极为重要，本发明为利用领域知识增强模型对领域术语的表征，将司法领域术语词汇和敏感术语词汇一同融入领域术语词典，其中司法领域术语由裁判文书网和中国法院网内容经过人工筛后构建；敏感术语由两部分构成：(1)、根据司法舆情数据特点手动构建，(2)、筛选后公开中文敏感词汇。其中术语的组成有字、词及短语，具体词汇数量及示例如表2所示：

表2领域术语词典大小

本发明中，设计训练轮次为20轮，模型的学习率为0.0001，设置舆情文本最大截取长度为300字，词嵌入维度512，Dropout为0.5，卷积神经网络模型中滤波器个数为256，滑动窗口大小为(2,3,4)，优化算法使用Adam。

对于本发明来讲通过计算其宏平均和微平均更能评价司法敏感信息分类模型的效果，主要采用微平均F1值(Micro-F1)、宏平均精确率(Macro_Precision)、宏平均召回率(Macro_Recall)、宏平均F1值(Macro-F1)作为评价指标，其中计算过程如公式(13-16)所示：

这些指标基于“混淆矩阵[18]”，其中TP表示真正例，FP为假正例，TN为真反例，FN为假反例，

分别为混淆矩阵对应元素的平均值。

本发明所采用的对比模型如下：

CNN(卷积神经网络)模型：Kim等人提出将CNN应用于文本分类中，主要包括一个卷积层和一个池化层，最后再通过一个全连接层进行分类。

Bi-LSTM Attention(基于注意力机制-双向长短期记忆神经网络)模型：使用双向循环神经网络和一个Attention层，再通过一个全连接层进行分类。

RCNN(循环卷积神经网络)模型：Lai等人提出的一种结合RNN和CNN进行分类的神经网络模型，主要包括一个循环神经网络层和一个卷积层，再通过一个全连接层进行分类。

Bert(双向Transformer编码器)模型：通过Bart预训练模型进行文本表征后通过全连接网络进行分类。

Transformer模型：使用transformer中的两个encoder编码，后通过一个前连接层进行分类。

FastText()模型：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后利用将文档向量进行归一化后做多分类。

SVM(支持向量机)：定义在特征空间上的间隔最大的线性分类器，通常用于文本分类任务，模型的文本特征提取和表示方法与文献一致。

表3 MARC-SI与基线模型实验结果对比

从表3中可以看出，MARC-SI对比基线模型、预训练模型和机器学习模型，都有不错的效果，说明本文中所提出的融入领域术语词典的方法，对于司法领域敏感信息识别任务是有效的。从实验结果中分析，RCNN、Fasttext模型均有不错的效果，表明本文中所选用的模型架构和基于局部特征提取的思想是合理的，而其中BERT预训练模型由于其分词结构固定反而不适用于本任务。对于多数任务效果不错的Transformer模型，在本任务中效果不佳，可能是由于舆情文本中融入信息过多，而其中自注意机制不能有效的进行特征提取。从结果可以看出，本文所提模型MARC-SI在司法舆情敏感信息分类中具有明显的优势。

为验证MARC-SI模型中每一层网络对于整体分类有效，设计了消融实验，其中(-)编码层是将Bi-LSTM Attention层去除代替为全连接层，(-)领域术语词典融入层是将领域术语词典融入层去除，(-)局部特征提取层是将CNN Self-Attention层替换为全连接层，实验结果如表4所示。

表4消融实验

分析表4中的结果，去除编码层的效果比MARC-SI的F1值低7％，说明对于舆情文本和领域词典的编码仍然是重要的一块；而融入领域术语词典可以提升整体的模型效果有1％左右，说明对于本任务来讲，领域术语词典对于模型的学习是有指导作用的；对于去除局部特征提取网络其比MARC-SI的F1值低2％，说明对于融入术语词典过后，整体网络还是需要进行特征的提取。从消融实验中可以看出，本文所提出的网络模型对于司法敏感信息识别任务均是有效的。

由于领域词典的类型对模型影响比较大，为比较领域术语词典对于模型的影响，将不同领域术语词汇分别输入MARC-SI模型进行实验。其中分别融入手动构建的司法领域术语词汇和公开敏感信息术语词汇进行实验。

表5不同词汇融入实验

分析表5中的结果，手动构建的司法领域术语词汇对比公开的敏感词汇其F1有1％的提升，说明领域术语词汇的质量对于增强领域术语词汇的表征有一定影响。而整体的领域术语词典的融入对比少量的领域术语效果更佳，表示领域知识的覆盖面对于增强领域术语的表征有很大的影响。分析表5和表3的实验结果，表明本文所提出的融入领域术语词典的方法对比基线模型没有融入领域术语的方法均可以提升不错的效果，反映出领域知识的融入可以增强专业术语的表征。

为验证MARC-SI是否注意到带有转发、特殊符号、信息语义层次过多网络舆情，为此本发明举例如表6中所示例1和例2，其均为司法敏感信息。基线模型设置为CNN和Bi-LSTMAttn(Bi-LSTM Attention)模型。

表6案例分析

从表6的结果中可以看出，由于冗余信息过多Bi-LSTM Attn模型不能进行有效的识别，CNN模型对于局部信息进行提取后可以关注到敏感比重过高的句子，但是MARC-SI可以关注到司法领域专有的敏感术语，如例1中的“双开”、“公然醉驾违法”等敏感术语。从结果可以看出，本文设计的MARC-SI对于描述不规范、具有冗余信息的文本有更好的表征能力，同时也可以很好的利用司法敏感信息词汇进行更好的分类。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。