CN112231472B - 融入领域术语词典的司法舆情敏感信息识别方法 - Google Patents

融入领域术语词典的司法舆情敏感信息识别方法 Download PDF

Info

Publication number
CN112231472B
CN112231472B CN202010984681.5A CN202010984681A CN112231472B CN 112231472 B CN112231472 B CN 112231472B CN 202010984681 A CN202010984681 A CN 202010984681A CN 112231472 B CN112231472 B CN 112231472B
Authority
CN
China
Prior art keywords
judicial
domain
term dictionary
public opinion
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010984681.5A
Other languages
English (en)
Other versions
CN112231472A (zh
Inventor
余正涛
张泽锋
黄于欣
郭军军
相艳
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010984681.5A priority Critical patent/CN112231472B/zh
Publication of CN112231472A publication Critical patent/CN112231472A/zh
Application granted granted Critical
Publication of CN112231472B publication Critical patent/CN112231472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融入领域术语词典的司法舆情敏感信息识别方法。本发明首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码,抽取显著特征;其次将领域术语词典作为分类的指导知识,与舆情文本构建相似矩阵,得到融入领域术语词典的文本表征;然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征,最终实现敏感信息分类。本发明将领域术语词典与司法舆情上下文信息进行融合,技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳,又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示,从而提高司法舆情敏感信息识别的性能。

Description

融入领域术语词典的司法舆情敏感信息识别方法
技术领域
本发明涉及融入领域术语词典的司法舆情敏感信息识别方法,属于自然语言处理技术领域。
背景技术
在社交网络中,用户可以随时随地表达自己的观点,其中针对司法部门审判相关工作有大量误解和片面的言论,它们具有传播迅速、敏感度高、易引发网络舆情等特点。为了更好地辅助司法部门开展工作,从海量的舆情新闻中快速、准确识别涉及司法的敏感信息显得尤为重要。
针对司法领域的敏感信息识别来讲,并不能将其看为一个简单的二分类任务,需要同时考虑是否涉及司法领域以及是否为敏感信息,会出现敏感和不敏感,且同样有一些虽然敏感但不涉及司法的。因此本发明将司法敏感信息识别任务转化为一个四分类任务,需要识别敏感性和领域性。
司法舆情文本具有描述不规范、冗余信息多等问题导致难以对其进行有效的表征,涉及司法领域的敏感信息中包含导致文本敏感的短语、而这些短语又属于司法领域敏感专有词汇,这些词语对于涉法敏感信息的识别起主导作用,但是这些短语在通用领域的敏感术语词典中不会出现,所以直接进行词匹配工作无法有效识别司法领域的敏感信息。为了获得更好的表征,让模型能够学习到司法敏感信息相关的表示,构造领域敏感术语词典,将术语词典作为外部指导融入到深度学习框架中,可以进行有效的特征增强。
发明内容
为解决上述问题,本发明构建领域术语词典,利用领域术语词典指导模型进行领域特征的学习,并针对司法舆情的文本描述特性,提出融入领域术语词典的司法舆情敏感信息识别模型,进行司法舆情敏感信息的分类。
本发明的技术方案是:融入领域术语词典的司法舆情敏感信息识别方法,所述方法包括:
构建融入领域术语词典的司法敏感信息识别模型来进行敏感信息识别;融入领域术语词典的司法敏感信息识别模型包括编码层、领域术语词典融入层、局部特征提取层和分类层;
通过编码层将舆情文本和领域术语词典进行编码和特征关注;
通过领域术语词典融入层将领域术语词典与舆情文本计算相似度并融入文本表征中;
通过局部特征提取层在领域术语词典融入层的基础上提取重要特征提取;
通过分类层将提取的重要特征进行类别概率的预测。
作为本发明发进一步方案,构建融入领域术语词典的司法敏感信息识别模型之前进行司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理,具体步骤如下:
Step1.1、爬取舆情文本并经过人工筛选和标注后构成共若干条舆情文本;
Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇由裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;
Step1.3、利用搜狗新闻数据集、司法舆情敏感信息数据集、领域术语词典以及word2vec算法预训练司法敏感的词向量作为司法敏感信息识别模型的司法敏感先验知识。
作为本发明发进一步方案,所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:
Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵,分别为
Figure BDA0002688811510000021
Figure BDA0002688811510000022
Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征
Figure BDA0002688811510000023
输入一个能理解上下文的编码机制;采用双向长短期记忆神经网络Bi-LSTM作为理解上下文信息的嵌入机制,模拟单词之间的特征交互,并将两个方向的输出进行简单拼接,得到该网络层的输出H,其中每列向量表示舆情描述上下文的表征;
Figure BDA0002688811510000024
Figure BDA0002688811510000025
其中,Bi-LSTM表示经过双向循环神经网络,D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征;
Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算:
Figure BDA0002688811510000026
multiHead(Q,K,V)=concat(head1,…,headh)WO
whereheadi=att(QWi Q,KWi k,VWi V)(4)
其中,softmax为归一化操作,connect表示拼接操作,其中
Figure BDA0002688811510000031
Figure BDA0002688811510000032
Step2.4、为防止丢失原文本语义,对于输出的结果进行残差连接:
Ah=residualConnect(D_Md,D_H) (5)
Kh=residualConnect(W_Md,W_H) (6)
其中,residualConnect表示残差连接,D_Md,W_Md分别表示舆情文本和领域词典经过多头注意力机制的输出结果,Ah,Kh分别表示舆情文本经过残差连接后的结果;
Step2.5、将领域术语词典的表征Kh与舆情文本表征Ah计算相似矩阵:
Figure BDA0002688811510000033
其中,Sik表示术语词典表征Kh中的第i个领域词与文本特征Ah的第k个隐向量之间的相似性,
Figure BDA0002688811510000034
表示对应词典第i个领域词表征向量,
Figure BDA0002688811510000035
表示Ah的第k列向量,sim表示计算
Figure BDA0002688811510000036
Figure BDA0002688811510000037
之间相似度的可训练函数,计算过程如下所示:
Figure BDA0002688811510000038
其中
Figure BDA0002688811510000039
是待训练的权重向量,
Figure BDA00026888115100000310
表示元素依次相乘,(;)表示向量在行上进行拼接,k与Kh的列向量对应,a与Ah的列向量对应;
Step2.6、将Sik进行归一化后与词汇嵌入矩阵
Figure BDA00026888115100000311
进行相乘后得到具有权重信息的相关矩阵
Figure BDA00026888115100000312
最终相似矩阵与原文本进行拼接,得到融入词典信息的文本表征
Figure BDA00026888115100000313
Figure BDA00026888115100000314
Figure BDA00026888115100000315
其中softmax是归一化函数,[;]为拼接操作;
Step2.7、将已经融入词典信息的文本表征
Figure BDA00026888115100000316
进行卷积操作,将舆情内容信息与词典信息进行特征的提取工作,然后进行最大池化操作max-pooling,过程如下所示:
Figure BDA0002688811510000041
其中k表示CNN网络的输出通道;
Step2.8、将
Figure BDA0002688811510000042
进行多头注意力操作,获取到具有权重信息的特征矩阵;
Figure BDA0002688811510000043
Step2.9、在分类层中为得到文本分类概率分布,将在局部特征提取层中得到的Ok,利用归一化softmax后将其映射到分类空间如下所示:
P(D)=softmax(Ok) (13)
本发明的有益效果是:本发明将领域术语词典与司法舆情上下文信息进行融合,技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳,又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示,从而提高司法舆情敏感信息识别的性能;
实验结果表明本发明提出的方法在精确率、召回率以及宏平均F1值和微平均F1值等指标表现上均优于基线***。
附图说明
图1为本发明中的模型构建示意图;
图2为本发明中的流程图。
具体实施方式
实施例1:如图1-2所示,融入领域术语词典的司法舆情敏感信息识别方法,首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码,抽取显著特征;其次将领域术语词典作为分类的指导知识,与舆情文本构建相似矩阵,得到融入领域术语词典的文本表征;然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征,最终实现敏感信息分类;
具体步骤为:
Step1、司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理;
Step1.1、从2020年3月1日到2020年6月1日对新浪微博、github等网站进行爬取,经过人工筛选和标注后构成共2万条舆情文本;
Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇有裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;
Step1.3、利用搜狗新闻数据集(约500M),和司法舆情敏感信息数据集和领域术语词典以及word2vec算法预训练司法敏感的词向量作为模型的司法敏感先验知识;
作为本发明发进一步方案,所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:
Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵,分别为
Figure BDA0002688811510000051
Figure BDA0002688811510000052
Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征
Figure BDA0002688811510000053
输入一个可以理解上下文的编码机制。采用Bi-LSTM(双向长短期记忆神经网络)作为理解上下文信息的嵌入机制,模拟单词之间的特征交互,并将两个方向的输出进行简单拼接,得到该网络层的输出H,其中每列向量表示舆情描述上下文的表征;
Figure BDA0002688811510000054
Figure BDA0002688811510000055
其中,Bi-LSTM表示经过双向循环神经网络,D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征。
Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算:
Figure BDA0002688811510000056
multiHead(Q,K,V)=concat(head1,…,headh)WO
whereheadi=att(QWi Q,KWi k,VWi V) (4)
其中,softmax为归一化操作,connect表示拼接操作,其中
Figure BDA0002688811510000057
Figure BDA0002688811510000058
Step2.4、为防止丢失原文本语义,对于输出的结果进行残差连接:
Ah=residualConnect(D_Md,D_H) (5)
Kh=residualConnect(W_Md,W_H) (6)
其中,residualConnect表示残差连接,D_Md,W_Md分别表示舆情文本和领域词典经过多头注意力机制的输出结果,Ah,Kh分别表示舆情文本经过残差连接后的结果。
Step2.5、将领域术语词典的表征Kh与舆情文本表征Ah计算相似矩阵:
Figure BDA0002688811510000059
其中,Sik表示术语词典表征Kh中的第i个领域词与文本特征Ah的第k个隐向量之间的相似性,
Figure BDA0002688811510000061
表示对应词典第i个领域词表征向量,
Figure BDA0002688811510000062
表示Ah的第k列向量,sim表示计算
Figure BDA0002688811510000063
Figure BDA0002688811510000064
之间相似度的可训练函数,计算过程如下所示:
Figure BDA0002688811510000065
其中
Figure BDA0002688811510000066
是待训练的权重向量,
Figure BDA0002688811510000067
表示元素依次相乘,(;)表示向量在行上进行拼接,k与Kh的列向量对应,a与Ah的列向量对应。
Step2.6、将Sik进行归一化后与词汇嵌入矩阵
Figure BDA0002688811510000068
进行相乘后得到具有权重信息的相关矩阵
Figure BDA0002688811510000069
最终相似矩阵与原文本进行拼接,得到融入词典信息的文本表征
Figure BDA00026888115100000610
Figure BDA00026888115100000611
Figure BDA00026888115100000612
其中softmax是归一化函数,[;]为拼接操作。
Step2.7、将已经融入词典信息的文本表征
Figure BDA00026888115100000613
进行卷积操作,将舆情内容信息与词典信息进行特征的提取工作,然后进行max-pooling(最大池化操作),过程如下所示:
Figure BDA00026888115100000614
其中k表示CNN网络的输出通道。
Step2.8、将
Figure BDA00026888115100000615
进行多头注意力操作,获取到具有权重信息的特征矩阵。
Figure BDA00026888115100000616
Step2.9、在分类层中为得到文本分类概率分布,将在局部特征提取层中得到的Ok,利用softmax(归一化)将其映射到分类空间如下所示:
P(D)=softmax(Ok) (13)
利用梯度下降算法训练参数,由此构建融入领域术语词典的司法敏感信息识别模型。
为更好的训练模型和验证模型的有效性,依据8:1:1的比例构建训练集、验证集和测试集,其中具体数据信息如表1所示:
表1数据大小及数据集划分
Figure BDA0002688811510000071
领域术语词典构建对于识别司法敏感信息极为重要,本发明为利用领域知识增强模型对领域术语的表征,将司法领域术语词汇和敏感术语词汇一同融入领域术语词典,其中司法领域术语由裁判文书网和中国法院网内容经过人工筛后构建;敏感术语由两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选后公开中文敏感词汇。其中术语的组成有字、词及短语,具体词汇数量及示例如表2所示:
表2领域术语词典大小
Figure BDA0002688811510000072
本发明中,设计训练轮次为20轮,模型的学习率为0.0001,设置舆情文本最大截取长度为300字,词嵌入维度512,Dropout为0.5,卷积神经网络模型中滤波器个数为256,滑动窗口大小为(2,3,4),优化算法使用Adam。
对于本发明来讲通过计算其宏平均和微平均更能评价司法敏感信息分类模型的效果,主要采用微平均F1值(Micro-F1)、宏平均精确率(Macro_Precision)、宏平均召回率(Macro_Recall)、宏平均F1值(Macro-F1)作为评价指标,其中计算过程如公式(13-16)所示:
Figure BDA0002688811510000073
Figure BDA0002688811510000074
Figure BDA0002688811510000075
Figure BDA0002688811510000076
这些指标基于“混淆矩阵[18]”,其中TP表示真正例,FP为假正例,TN为真反例,FN为假反例,
Figure BDA0002688811510000077
分别为混淆矩阵对应元素的平均值。
本发明所采用的对比模型如下:
CNN(卷积神经网络)模型:Kim等人提出将CNN应用于文本分类中,主要包括一个卷积层和一个池化层,最后再通过一个全连接层进行分类。
Bi-LSTM Attention(基于注意力机制-双向长短期记忆神经网络)模型:使用双向循环神经网络和一个Attention层,再通过一个全连接层进行分类。
RCNN(循环卷积神经网络)模型:Lai等人提出的一种结合RNN和CNN进行分类的神经网络模型,主要包括一个循环神经网络层和一个卷积层,再通过一个全连接层进行分类。
Bert(双向Transformer编码器)模型:通过Bart预训练模型进行文本表征后通过全连接网络进行分类。
Transformer模型:使用transformer中的两个encoder编码,后通过一个前连接层进行分类。
FastText()模型:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后利用将文档向量进行归一化后做多分类。
SVM(支持向量机):定义在特征空间上的间隔最大的线性分类器,通常用于文本分类任务,模型的文本特征提取和表示方法与文献一致。
表3 MARC-SI与基线模型实验结果对比
Figure BDA0002688811510000081
从表3中可以看出,MARC-SI对比基线模型、预训练模型和机器学习模型,都有不错的效果,说明本文中所提出的融入领域术语词典的方法,对于司法领域敏感信息识别任务是有效的。从实验结果中分析,RCNN、Fasttext模型均有不错的效果,表明本文中所选用的模型架构和基于局部特征提取的思想是合理的,而其中BERT预训练模型由于其分词结构固定反而不适用于本任务。对于多数任务效果不错的Transformer模型,在本任务中效果不佳,可能是由于舆情文本中融入信息过多,而其中自注意机制不能有效的进行特征提取。从结果可以看出,本文所提模型MARC-SI在司法舆情敏感信息分类中具有明显的优势。
为验证MARC-SI模型中每一层网络对于整体分类有效,设计了消融实验,其中(-)编码层是将Bi-LSTM Attention层去除代替为全连接层,(-)领域术语词典融入层是将领域术语词典融入层去除,(-)局部特征提取层是将CNN Self-Attention层替换为全连接层,实验结果如表4所示。
表4消融实验
Figure BDA0002688811510000091
分析表4中的结果,去除编码层的效果比MARC-SI的F1值低7%,说明对于舆情文本和领域词典的编码仍然是重要的一块;而融入领域术语词典可以提升整体的模型效果有1%左右,说明对于本任务来讲,领域术语词典对于模型的学习是有指导作用的;对于去除局部特征提取网络其比MARC-SI的F1值低2%,说明对于融入术语词典过后,整体网络还是需要进行特征的提取。从消融实验中可以看出,本文所提出的网络模型对于司法敏感信息识别任务均是有效的。
由于领域词典的类型对模型影响比较大,为比较领域术语词典对于模型的影响,将不同领域术语词汇分别输入MARC-SI模型进行实验。其中分别融入手动构建的司法领域术语词汇和公开敏感信息术语词汇进行实验。
表5不同词汇融入实验
Figure BDA0002688811510000092
分析表5中的结果,手动构建的司法领域术语词汇对比公开的敏感词汇其F1有1%的提升,说明领域术语词汇的质量对于增强领域术语词汇的表征有一定影响。而整体的领域术语词典的融入对比少量的领域术语效果更佳,表示领域知识的覆盖面对于增强领域术语的表征有很大的影响。分析表5和表3的实验结果,表明本文所提出的融入领域术语词典的方法对比基线模型没有融入领域术语的方法均可以提升不错的效果,反映出领域知识的融入可以增强专业术语的表征。
为验证MARC-SI是否注意到带有转发、特殊符号、信息语义层次过多网络舆情,为此本发明举例如表6中所示例1和例2,其均为司法敏感信息。基线模型设置为CNN和Bi-LSTMAttn(Bi-LSTM Attention)模型。
表6案例分析
Figure BDA0002688811510000101
从表6的结果中可以看出,由于冗余信息过多Bi-LSTM Attn模型不能进行有效的识别,CNN模型对于局部信息进行提取后可以关注到敏感比重过高的句子,但是MARC-SI可以关注到司法领域专有的敏感术语,如例1中的“双开”、“公然醉驾违法”等敏感术语。从结果可以看出,本文设计的MARC-SI对于描述不规范、具有冗余信息的文本有更好的表征能力,同时也可以很好的利用司法敏感信息词汇进行更好的分类。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.融入领域术语词典的司法舆情敏感信息识别方法,其特征在于:所述方法包括:
构建融入领域术语词典的司法敏感信息识别模型来进行敏感信息识别;融入领域术语词典的司法敏感信息识别模型包括编码层、领域术语词典融入层、局部特征提取层和分类层;
通过编码层将舆情文本和领域术语词典进行编码和特征关注;
通过领域术语词典融入层将领域术语词典与舆情文本计算相似度并融入文本表征中;
通过局部特征提取层在领域术语词典融入层的基础上提取重要特征提取;
通过分类层将提取的重要特征进行类别概率的预测;
其中,领域术语词典与舆情文本计算相似度包括:
将领域术语词典的表征Kh与舆情文本表征Ah计算相似矩阵,然后,将相似矩阵Sik进行归一化后与词汇嵌入矩阵
Figure FDA0003657606540000011
进行相乘后得到具有权重信息的相关矩阵
Figure FDA0003657606540000012
进而得到最终的相似矩阵。
2.根据权利要求1所述的融入领域术语词典的司法舆情敏感信息识别方法,其特征在于:构建融入领域术语词典的司法敏感信息识别模型之前进行司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理,具体步骤如下:
Step1.1、爬取舆情文本并经过人工筛选和标注后构成共若干条舆情文本;
Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇由裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;
Step1.3、利用搜狗新闻数据集、司法舆情敏感信息数据集、领域术语词典以及word2vec算法预训练司法敏感的词向量作为司法敏感信息识别模型的司法敏感先验知识。
3.根据权利要求1所述的融入领域术语词典的司法舆情敏感信息识别方法,其特征在于:所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:
Step2.1、输入是舆情文本和领域术语词典的经过词嵌入的矩阵,分别为
Figure FDA0003657606540000013
Figure FDA0003657606540000014
Step2.2、由于此前向量表征未考虑上下文语义特征,将舆情文本向量表征
Figure FDA0003657606540000015
输入一个能理解上下文的编码机制;采用双向长短期记忆神经网络Bi-LSTM作为理解上下文信息的嵌入机制,模拟单词之间的特征交互,并将两个方向的输出进行简单拼接,得到双向长短期记忆神经网络Bi-LSTM的输出H,其中每列向量表示舆情描述上下文的表征;
Figure FDA0003657606540000021
Figure FDA0003657606540000022
其中,Bi-LSTM表示经过双向循环神经网络,D_H和W_H分别是舆情文本和领域术语词典领过编码后的向量表征;
Step2.3、这里利用多头注意力机制对上下文表征H进行权重的计算:
Figure FDA0003657606540000023
multiHead(Q,K,V)=concat(head1,…,headh)WO
where headi=att(QWi Q,KWi k,VWi V) (4)
其中,softmax为归一化操作,connect表示拼接操作,其中
Figure FDA0003657606540000024
Figure FDA0003657606540000025
Step2.4、为防止丢失原文本语义,对于输出的结果进行残差连接:
Ah=residualConnect(D_Md,D_H) (5)
Kh=residualConnect(W_Md,W_H) (6)
其中,residualConnect表示残差连接,D_Md,W_Md分别表示舆情文本和领域词典经过多头注意力机制的输出结果;
Step2.5、将领域术语词典的表征Kh与舆情文本表征Ah计算相似矩阵:
Figure FDA0003657606540000026
其中,Sik表示术语词典表征Kh中的第i个领域词与文本特征Ah的第k个隐向量之间的相似性,
Figure FDA0003657606540000027
表示对应词典第i个领域词表征向量,
Figure FDA0003657606540000028
表示Ah的第k列向量,sim表示计算
Figure FDA0003657606540000029
Figure FDA00036576065400000210
之间相似度的可训练函数,计算过程如下所示:
Figure FDA00036576065400000211
其中
Figure FDA0003657606540000031
是待训练的权重向量,
Figure FDA0003657606540000032
表示元素依次相乘,(;)表示向量在行上进行拼接,k与Kh的列向量对应,a与Ah的列向量对应;
Step2.6、将Sik进行归一化后与词汇嵌入矩阵
Figure FDA0003657606540000033
进行相乘后得到具有权重信息的相关矩阵
Figure FDA0003657606540000034
最终相似矩阵与原文本进行拼接,得到融入词典信息的文本表征
Figure FDA0003657606540000035
Figure FDA0003657606540000036
Figure FDA0003657606540000037
其中softmax是归一化函数,[;]为拼接操作;
Step2.7、将已经融入词典信息的文本表征
Figure FDA0003657606540000038
进行卷积操作,将舆情内容信息与词典信息进行特征的提取工作,然后进行最大池化操作max-pooling,过程如下所示:
Figure FDA0003657606540000039
其中k表示CNN网络的输出通道;
Step2.8、将
Figure FDA00036576065400000310
进行多头注意力操作,获取到具有权重信息的特征矩阵;
Figure FDA00036576065400000311
Step2.9、在分类层中为得到文本分类概率分布,将在局部特征提取层中得到的Ok,利用归一化softmax后将其映射到分类空间如下所示:
P(D)=softmax(Ok) (13)。
CN202010984681.5A 2020-09-18 2020-09-18 融入领域术语词典的司法舆情敏感信息识别方法 Active CN112231472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010984681.5A CN112231472B (zh) 2020-09-18 2020-09-18 融入领域术语词典的司法舆情敏感信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010984681.5A CN112231472B (zh) 2020-09-18 2020-09-18 融入领域术语词典的司法舆情敏感信息识别方法

Publications (2)

Publication Number Publication Date
CN112231472A CN112231472A (zh) 2021-01-15
CN112231472B true CN112231472B (zh) 2022-07-29

Family

ID=74107203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010984681.5A Active CN112231472B (zh) 2020-09-18 2020-09-18 融入领域术语词典的司法舆情敏感信息识别方法

Country Status (1)

Country Link
CN (1) CN112231472B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836054B (zh) * 2021-03-08 2022-07-26 重庆大学 一种基于共生注意力表示学习的服务分类方法
CN113177831B (zh) * 2021-03-12 2024-05-17 西安理工大学 一种应用公开数据构建的金融预警***及预警方法
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113609301A (zh) * 2021-07-05 2021-11-05 上海交通大学 一种基于知识图谱的对话方法、介质及***
CN113901990A (zh) * 2021-09-15 2022-01-07 昆明理工大学 多视角集成学习的案件与新闻相关性分析方法
CN116108171B (zh) * 2022-12-19 2023-10-31 中国邮政速递物流股份有限公司广东省分公司 基于ai循环神经网络深度学习技术的司法材料处理***
CN117009533B (zh) * 2023-09-27 2023-12-26 戎行技术有限公司 一种基于分聚类抽取与词向量模型的暗语识别方法
CN117453863B (zh) * 2023-12-22 2024-03-29 珠海博维网络信息有限公司 一种舆情文本归类方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN108984667A (zh) * 2018-06-29 2018-12-11 郑州中博奥信息技术有限公司 一种舆情监测***
CN109582875A (zh) * 2018-12-17 2019-04-05 武汉泰乐奇信息科技有限公司 一种在线医疗教育资源的个性化推荐方法及***
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
GB2497529B (en) * 2011-12-12 2014-07-23 Samsung Electronics Co Ltd Reporting dual-mode capabilities in a long-term evolution network
WO2016190861A1 (en) * 2015-05-27 2016-12-01 Hewlett Packard Enterprise Development Lp Identifying algorithmically generated domains
CN105022725B (zh) * 2015-07-10 2018-04-20 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN107133220B (zh) * 2017-06-07 2020-11-24 东南大学 一种地理学科领域命名实体识别方法
CN109543180B (zh) * 2018-11-08 2020-12-04 中山大学 一种基于注意力机制的文本情感分析方法
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及***
CN111597304B (zh) * 2020-05-15 2023-04-07 上海财经大学 一种中文企业名实体精准识别二次匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN108984667A (zh) * 2018-06-29 2018-12-11 郑州中博奥信息技术有限公司 一种舆情监测***
CN109582875A (zh) * 2018-12-17 2019-04-05 武汉泰乐奇信息科技有限公司 一种在线医疗教育资源的个性化推荐方法及***
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法

Also Published As

Publication number Publication date
CN112231472A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN106557462A (zh) 命名实体识别方法和***
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别***
CN110532549A (zh) 一种基于双通道深度学习模型的文本情感分析方法
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112015862B (zh) 基于层级多通道注意力的用户异常评论检测方法及***
CN110414009A (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN108052504A (zh) 数学主观题解答结果的结构分析方法及***
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112052319B (zh) 一种基于多特征融合的智能客服方法及***
CN112270187A (zh) 一种基于bert-lstm的谣言检测模型
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant