CN112364225A

CN112364225A - 一种结合用户评论的司法舆情文本摘要方法

Info

Publication number: CN112364225A
Application number: CN202011061155.8A
Authority: CN
Inventors: 余正涛; 黄于欣; 相艳; 于志强; 郭军军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-12
Anticipated expiration: 2040-09-30
Also published as: CN112364225B

Abstract

本发明涉及结合用户评论的司法舆情文本摘要方法。本发明首先利用基于双向长短期记忆网络的新闻正文编码器和用户评论编码器，分别对新闻正文和用户评论进行建模；然后构造双路选择门控去噪网络，对评论中的噪声信息进行去除，抽取评论中包含的案件要素；构造基于双向注意力机制的融合模块，对新闻评论和新闻正文进行融合，生成融合用户评论的上下文向量；最后利用基于单向长短期记忆网络的解码器逐词生成摘要。本发明能生成质量更高的文本摘要，为开展司法舆情文本摘要研究提供了可借鉴的方法，同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

Description

一种结合用户评论的司法舆情文本摘要方法

技术领域

本发明涉及一种结合用户评论的司法舆情文本摘要方法，属于自然语言处理技术领域。

背景技术

如何及时有效的引导和处置司法舆情，消除负面影响对于社会稳定至关重要。文本摘要任务能够为长的司法舆情新闻文档生成简短的、流畅的、阅读性好的文本摘要，有利于理解司法舆情新闻，为快速有效的舆情处置提供技术支撑。

发明内容

本发明提供了一种结合用户评论的司法舆情文本摘要方法，以用于解决传统序列到序列模型无法获得对新闻摘要至关重要的案件要素信息，生成摘要效果不理想的问题。

本发明的技术方案是：一种结合用户评论的司法舆情文本摘要方法，所述方法包括：

Step1、编码器分别对新闻正文和对应的新闻评论进行编码，得到新闻正文隐状态序列和对应的新闻评论隐状态序列；

Step2、基于得到的新闻正文和对应的新闻评论隐状态序列，利用双路选择门控去噪网络生成去噪新闻评论隐状态序列；

Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列，利用基于双向注意力的融合模块，生成融合用户评论的上下文向量；

Step4、利用注意力机制和单向长短期记忆网络进行解码，得到输出的摘要序列。

作为本发明的进一步方案，所述Step1中，编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的：

从互联网采集数据，对数据进行预处理，构造司法舆情新闻摘要数据集；所述司法舆情新闻摘要数据集的数据格式为：新闻正文-新闻评论-摘要。

作为本发明的进一步方案，获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下：

A、从互联网采集舆情数据并进行格式化处理，得到新闻正文、新闻评论和新闻标题，构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集；

B、利用人工标注的方式，对得到的数据集进行标注，判断每条新闻是否属于司法舆情相关新闻，得到司法舆情新闻摘要数据集；

C、基于步骤A及B得到的司法舆情新闻数据集，进行数据预处理。

作为本发明的进一步方案，所述步骤C的具体步骤：

C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据；

C2、过滤新闻评论少于5条的数据；

C3、正文和标题中所有数字以#替代；

C4、过滤正文和标题中的特殊字符；

C5、利用jieba对新闻正文和标题进行分词；

C6、构造词汇表；

C7、划分训练集、开发集和测试集。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、新闻正文编码器对输入的新闻文本序列

进行编码，利用下式计算得到编码后的新闻正文隐状态序列

其中N为新闻文本序列长度；

其中，BI-LSTM^d为用于新闻正文编码的双向长短期记忆网络，即新闻正文编码器，

为BI-LSTM^d时间步n的隐状态；

Step1.2、用户评论编码器对输入的评论序列

进行编码，得到用户评论编码后的隐状态序列

其中M为评论个数，L为每个评论包含的单词个数，评论输入序列

中sep为不同评论的分隔符，具体为“||”。

作为本发明的进一步方案，所述步骤Step1.2的具体步骤：

Step1.2.1利用评论编码器进行编码过程中，设定分割指示器γ_m,l，通过下式计算得到：

Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态；

其中，BI-LSTM^c为用于新闻评论编码的双向长短期记忆网络，即新闻评论编码器，多个用户评论之间共享编码器参数；

Step1.2.3通过下式，利用Step1.2.1生成的分割指示器γ_m,l对隐状态

进行重置；

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、首先构造评论到评论的选择性门控去噪模块，其权重计算公式如下：

其中

为第m个评论最后一个时刻，即L时刻的隐状态，

为第m个评论l时刻的隐状态，W_c1，W_c2为权重矩阵，b_c为偏置向量，σ为sigmod函数；

Step2.2、构造新闻正文到评论的选择性门控去噪模块，其权重计算公式如下：

其中

为新闻正文最后一个时刻的隐状态，

为第m个评论l时刻的隐状态， W_s1，W_s2为权重矩阵，b_s为偏置向量，σ为sigmod函数；

Step2.3、对Step2.1得到的

和Step2.2得到的

进行线性合并，合并后的权重计算公式如下：

其中μ_m,l为线性合并系数，其计算公式如下：

其中w为权重矩阵，σ为sigmod函数，[；]为拼接操作；

Step2.4、利用Step2.3得到的权重和Step1得到的隐状态，计算得到去噪新闻评论隐状态,计算公式如下：

其中⊙表示按照元素相乘；

Step2.5、最后为了方便表示，将Step2.4得到的去噪新闻评论隐状态序列

表示为

其中K＝M*L。

作为本发明的进一步方案，所述步骤Step3的具体步骤：

Step3.1利用Step1得到的编码后的新闻正文隐状态序列

和Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素

构造相似度矩阵S，S中每个元素计算公式如下：

其中W_s为权重矩阵，[；]为拼接操作；

Step3.2利用Step3.1得到的相似度矩阵S，计算新闻正文到新闻评论的注意力权重：

α_n＝softmax(S_n,:)

其中softmax为归一化函数，S_n,:表示相似度矩阵S的第n行；

Step3.3通过下式计算得到新闻正文到评论的注意力向量；

其中α_n,k为Step3.2得到的α_n向量的第k个元素，

为Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素；

Step3.4利用Step3.1得到的相似度矩阵S，计算新闻评论到新闻正文的注意力权重：

β＝softmax(max-pooling_col(S))

其中max-pooling_col表示对相似度矩阵S按列执行最大池化操作，softmax为归一化函数；

Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1得到的新闻正文隐状态序列，利用下式计算得到新闻评论到新闻正文的注意力向量：

其中β_n为Step3.4得到的注意力权重的第n个元素；

Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量

和Step3.5得到的新闻评论到新闻正文的注意力向量

进行拼接，计算得到双向注意力向量：

其中W_h为权重矩阵，[；]为拼接操作；

Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码，得到编码上下文向量：

其中BI-LSTM^r为用于进行重编码的双向长短期记忆网络。

作为本发明的进一步方案，所述步骤Step4的具体步骤：

Step4.1、解码器包括嵌入层和循环神经网络层；词嵌入层读入解码器前一时刻输出的词，转化为词嵌入向量y_t-1，根据嵌入层输出的y_t-1，前一时刻的隐状态s_t-1和注意力向量c_t生成t时刻的隐藏状态s_t，计算过程如下；

s_t＝LSTM(s_t-1,y_t-1,c_t-1)

其中LSTM为用于解码的单向长短期记忆网络；

Step4.2、根据注意力机制计算s_t-1和Step3生成的编码上下文向量计算得到注意力向量c_t；

Step4.3、根据下式，利用注意力向量c_t和隐状态s_t计算生成t时刻的解码向量o_t

o_t＝tanh(W_o[s_t；c_t]+b_o),

其中W_o为权重矩阵，b_o为偏置向量，tanh为激活函数，[；]为拼接操作；

Step4.4、根据Step4.3计算得到的解码向量o_t，通过下式计算解码向量在目标词汇表的分布P_vocab(y_t)；

P_vocab(y_t)＝softmax(W_po_t+b_p)

其中softmax为归一化函数，W_p为权重矩阵，b_p为偏置向量；

Step4.5根据步骤Step4.4得到的P_vocab(y_t)，利用下式计算得到摘要Y＝{y₁,y₂,…,y_M}；

y_t＝argmax(P_vocab(y_t))

其中argmax为最大位置函数。

本发明的有益效果是：本发明首先构造司法舆情文本摘要数据集，并对数据集进行清洗和去噪；然后利用双向长短期记忆网络分别对新闻正文和新闻评论进行建模；通过双路选择门控去噪网络去除评论中含有的噪声，生成去噪用户评论隐状态序列；利用双向注意力机制联合建模新闻正文和新闻评论，得到融合用户评论的上下文向量；最后利用单向长短期记忆网络，依据上下文向量进行解码，最后输出相应摘要，本发明生成的文本摘要质量更高，为开展司法舆情文本摘要研究提供了可借鉴的方法，同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

附图说明

图1为本发明中的总的流程图；

图2为本发明中司法舆情摘要数据集构建流程图；

图3为本发明中双路选择门控网络结构示意图；

图4为本发明中双向注意力模块结构示意图。

具体实施方式

实施例1：如图1-4所示，一种结合用户评论的司法舆情文本摘要方法，所述方法包括：

其中，编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的：

具体的，获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下：

所述步骤C的具体步骤：

C2、过滤新闻评论少于5条的数据；

C3、正文和标题中所有数字以#替代；

C4、过滤正文和标题中的特殊字符；

C5、利用jieba对新闻正文和标题进行分词；

C6、构造词汇表；

C7、划分训练集、开发集和测试集。

所述步骤Step1的具体步骤为：

Step1.1、新闻正文编码器对输入的新闻文本序列

进行编码，利用下式计算得到编码后的新闻正文隐状态序列

其中N为新闻文本序列长度；

为BI-LSTM^d时间步n的隐状态；

Step1.2、用户评论编码器对输入的评论序列

进行编码，得到用户评论编码后的隐状态序列

中sep为不同评论的分隔符，具体为“||”。

所述步骤Step1.2的具体步骤：

进行重置；

样例数据如表1所示。

表1为样例数据

处理后的训练集、开发集和测试集的统计信息如表2所示。本发明在训练集上训练模型，利用开发集调整模型超参数，最后在测试表上验证模型的有效性。

表2数据集统计信息

所述步骤Step2的具体步骤：

其中

为第m个评论最后一个时刻，即L时刻的隐状态，

其中

为新闻正文最后一个时刻的隐状态，

Step2.3、对Step2.1得到的

和Step2.2得到的

进行线性合并，合并后的权重计算公式如下：

其中μ_m,l为线性合并系数，其计算公式如下：

其中w为权重矩阵，σ为sigmod函数，[；]为拼接操作；

Step2.4、利用Step2.3得到的权重和Step1.2.3得到的隐状态，计算得到去噪新闻评论隐状态,计算公式如下：

其中⊙表示按照元素相乘；

表示为

其中K＝M*L。

所述步骤Step3的具体步骤：

Step3.1利用Step1.1得到的编码后的新闻正文隐状态序列

和Step2.5得到的对应的去噪新闻评论隐状态序列中的第k个元素

构造相似度矩阵S，S中每个元素计算公式如下：

其中W_s为权重矩阵，[；]为拼接操作；

α_n＝softmax(S_n,:)

其中softmax为归一化函数，S_n,:表示相似度矩阵S的第n行；

Step3.3通过下式计算得到新闻正文到评论的注意力向量；

其中α_n,k为Step3.2得到的α_n向量的第k个元素，

为Step2.5得到的对应的去噪新闻评论隐状态序列中的第k个元素；

β＝softmax(max-pooling_col(S))

Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1.1得到的新闻正文隐状态序列，利用下式计算得到新闻评论到新闻正文的注意力向量：

其中β_n为Step3.4得到的注意力权重的第n个元素；

Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量

和Step3.5得到的新闻评论到新闻正文的注意力向量

进行拼接，计算得到双向注意力向量：

其中W_h为权重矩阵，[；]为拼接操作；

其中BI-LSTM^r为用于进行重编码的双向长短期记忆网络。

Step4、利用注意力机制和单向长短期记忆网络进行解码，得到输出的摘要序列。所述步骤Step4的具体步骤：

s_t＝LSTM(s_t-1,y_t-1,c_t-1)

其中LSTM为用于解码的单向长短期记忆网络；

o_t＝tanh(W_o[s_t；c_t]+b_o),

P_vocab(y_t)＝softmax(W_po_t+b_p)

其中softmax为归一化函数，W_p为权重矩阵，b_p为偏置向量；

y_t＝argmax(P_vocab(y_t))

其中argmax为最大位置函数。

为了说明本发明的在司法舆情文本摘要任务上的有效性，采用基线***和本发明产生的摘要进行对比，表3展示了模型带来的摘要质量提升；表4为不同基线***的模型评价结果。

表3不同模型的摘要结果

表4不同模型的性能对比

从以上结果可以看出，本发明提出的方法，通过挖掘用户评论中的案件要素信息，并通过扩展序列到序列模型，通过降噪模块和双向注意力模块生成更好的上下文向量，从而提高司法舆情文本摘要任务的摘要质量，帮助模型捕获原文中重要的案件要素。与不同的模型相比同样表明，通过联合建模用户评论，能够大幅度提升模型的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种结合用户评论的司法舆情文本摘要方法，其特征在于，所述方法包括：

2.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述Step1中，编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的：

3.根据权利要求2所述的结合用户评论的司法舆情文本摘要方法，其特征在于：获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下：

4.根据权利要求3所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤C的具体步骤：

C2、过滤新闻评论少于5条的数据；

C3、正文和标题中所有数字以#替代；

C4、过滤正文和标题中的特殊字符；

C5、利用jieba对新闻正文和标题进行分词；

C6、构造词汇表；

C7、划分训练集、开发集和测试集。

5.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、新闻正文编码器对输入的新闻文本序列

进行编码，利用下式计算得到编码后的新闻正文隐状态序列

其中N为新闻文本序列长度；

为BI-LSTM^d时间步n的隐状态；

Step1.2、用户评论编码器对输入的评论序列

进行编码，得到用户评论编码后的隐状态序列

中sep为不同评论的分隔符，具体为“||”。

6.根据权利要求5所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤Step1.2的具体步骤：

进行重置；

7.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤Step2的具体步骤：

其中

为第m个评论最后一个时刻，即L时刻的隐状态，

其中

为新闻正文最后一个时刻的隐状态，

为第m个评论l时刻的隐状态，W_s1，W_s2为权重矩阵，b_s为偏置向量，σ为sigmod函数；

Step2.3、对Step2.1得到的

和Step2.2得到的

进行线性合并，合并后的权重计算公式如下：

其中μ_m,l为线性合并系数，其计算公式如下：

其中w为权重矩阵，σ为sigmod函数，[；]为拼接操作；

其中⊙表示按照元素相乘；

表示为

其中K＝M*L。

8.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤Step3的具体步骤：

Step3.1利用Step1得到的编码后的新闻正文隐状态序列

和Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素

构造相似度矩阵S，S中每个元素计算公式如下：

其中W_s为权重矩阵，[；]为拼接操作；

α_n＝softmax(S_n,:)

其中softmax为归一化函数，S_n,:表示相似度矩阵S的第n行；

Step3.3通过下式计算得到新闻正文到评论的注意力向量；

其中α_n,k为Step3.2得到的α_n向量的第k个元素，

β＝softmax(max-pooling_col(S))

其中β_n为Step3.4得到的注意力权重的第n个元素；

Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量

和Step3.5得到的新闻评论到新闻正文的注意力向量

进行拼接，计算得到双向注意力向量：

其中W_h为权重矩阵，[；]为拼接操作；

其中BI-LSTM^r为用于进行重编码的双向长短期记忆网络。

9.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法，其特征在于：所述步骤Step4的具体步骤：

s_t＝LSTM(s_t-1,y_t-1,c_t-1)

其中LSTM为用于解码的单向长短期记忆网络；

o_t＝tanh(W_o[s_t；c_t]+b_o),

P_vocab(y_t)＝softmax(W_po_t+b_p)

其中softmax为归一化函数，W_p为权重矩阵，b_p为偏置向量；

y_t＝argmax(P_vocab(y_t))

其中argmax为最大位置函数。