CN112364225A - 一种结合用户评论的司法舆情文本摘要方法 - Google Patents

一种结合用户评论的司法舆情文本摘要方法 Download PDF

Info

Publication number
CN112364225A
CN112364225A CN202011061155.8A CN202011061155A CN112364225A CN 112364225 A CN112364225 A CN 112364225A CN 202011061155 A CN202011061155 A CN 202011061155A CN 112364225 A CN112364225 A CN 112364225A
Authority
CN
China
Prior art keywords
news
text
comment
hidden state
comments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011061155.8A
Other languages
English (en)
Other versions
CN112364225B (zh
Inventor
余正涛
黄于欣
相艳
于志强
郭军军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011061155.8A priority Critical patent/CN112364225B/zh
Publication of CN112364225A publication Critical patent/CN112364225A/zh
Application granted granted Critical
Publication of CN112364225B publication Critical patent/CN112364225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及结合用户评论的司法舆情文本摘要方法。本发明首先利用基于双向长短期记忆网络的新闻正文编码器和用户评论编码器,分别对新闻正文和用户评论进行建模;然后构造双路选择门控去噪网络,对评论中的噪声信息进行去除,抽取评论中包含的案件要素;构造基于双向注意力机制的融合模块,对新闻评论和新闻正文进行融合,生成融合用户评论的上下文向量;最后利用基于单向长短期记忆网络的解码器逐词生成摘要。本发明能生成质量更高的文本摘要,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

Description

一种结合用户评论的司法舆情文本摘要方法
技术领域
本发明涉及一种结合用户评论的司法舆情文本摘要方法,属于自然语言处理技术领域。
背景技术
如何及时有效的引导和处置司法舆情,消除负面影响对于社会稳定至关重要。文本摘要任务能够为长的司法舆情新闻文档生成简短的、流畅的、阅读性好的文本摘要,有利于理解司法舆情新闻,为快速有效的舆情处置提供技术支撑。
发明内容
本发明提供了一种结合用户评论的司法舆情文本摘要方法,以用于解决传统序列到序列模型无法获得对新闻摘要至关重要的案件要素信息,生成摘要效果不理想的问题。
本发明的技术方案是:一种结合用户评论的司法舆情文本摘要方法,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。
作为本发明的进一步方案,所述Step1中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
作为本发明的进一步方案,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
作为本发明的进一步方案,所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列
Figure RE-GDA0002892412040000021
进行编码,利用下式计算得到编码后的新闻正文隐状态序列
Figure RE-GDA0002892412040000022
其中N为新闻文本序列长度;
Figure RE-GDA0002892412040000023
其中,BI-LSTMd为用于新闻正文编码的双向长短期记忆网络,即新闻正文编码器,
Figure RE-GDA0002892412040000024
为BI-LSTMd时间步n的隐状态;
Step1.2、用户评论编码器对输入的评论序列
Figure RE-GDA0002892412040000025
进行编码,得到用户评论编码后的隐状态序列
Figure RE-GDA0002892412040000026
其中M为评论个数,L为每个评论包含的单词个数,评论输入序列
Figure RE-GDA0002892412040000027
中sep为不同评论的分隔符,具体为“||”。
作为本发明的进一步方案,所述步骤Step1.2的具体步骤:
Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γm,l,通过下式计算得到:
Figure RE-GDA0002892412040000031
Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;
Figure RE-GDA0002892412040000032
其中,BI-LSTMc为用于新闻评论编码的双向长短期记忆网络,即新闻评论编码器,多个用户评论之间共享编码器参数;
Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γm,l对隐状态
Figure RE-GDA0002892412040000033
进行重置;
Figure RE-GDA0002892412040000034
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:
Figure RE-GDA0002892412040000035
其中
Figure RE-GDA0002892412040000036
为第m个评论最后一个时刻,即L时刻的隐状态,
Figure RE-GDA0002892412040000037
为第m个评论l时刻的隐状态,Wc1,Wc2为权重矩阵,bc为偏置向量,σ为sigmod函数;
Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:
Figure RE-GDA0002892412040000038
其中
Figure RE-GDA0002892412040000039
为新闻正文最后一个时刻的隐状态,
Figure RE-GDA00028924120400000310
为第m个评论l时刻的隐状态, Ws1,Ws2为权重矩阵,bs为偏置向量,σ为sigmod函数;
Step2.3、对Step2.1得到的
Figure RE-GDA00028924120400000311
和Step2.2得到的
Figure RE-GDA00028924120400000312
进行线性合并,合并后的权重计算公式如下:
Figure RE-GDA00028924120400000313
其中μm,l为线性合并系数,其计算公式如下:
Figure RE-GDA00028924120400000314
其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;
Step2.4、利用Step2.3得到的权重和Step1得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:
Figure RE-GDA0002892412040000041
其中⊙表示按照元素相乘;
Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列
Figure RE-GDA0002892412040000042
表示为
Figure RE-GDA0002892412040000043
其中K=M*L。
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1利用Step1得到的编码后的新闻正文隐状态序列
Figure RE-GDA0002892412040000044
和Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素
Figure RE-GDA0002892412040000045
构造相似度矩阵S,S中每个元素计算公式如下:
Figure RE-GDA0002892412040000046
其中Ws为权重矩阵,[;]为拼接操作;
Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:
αn=softmax(Sn,:)
其中softmax为归一化函数,Sn,:表示相似度矩阵S的第n行;
Step3.3通过下式计算得到新闻正文到评论的注意力向量;
Figure RE-GDA0002892412040000047
其中αn,k为Step3.2得到的αn向量的第k个元素,
Figure RE-GDA0002892412040000048
为Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素;
Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:
β=softmax(max-poolingcol(S))
其中max-poolingcol表示对相似度矩阵S按列执行最大池化操作,softmax为归一化函数;
Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:
Figure RE-GDA0002892412040000049
其中βn为Step3.4得到的注意力权重的第n个元素;
Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量
Figure RE-GDA0002892412040000051
和Step3.5得到的新闻评论到新闻正文的注意力向量
Figure RE-GDA0002892412040000052
进行拼接,计算得到双向注意力向量:
Figure RE-GDA0002892412040000053
其中Wh为权重矩阵,[;]为拼接操作;
Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:
Figure RE-GDA0002892412040000054
其中BI-LSTMr为用于进行重编码的双向长短期记忆网络。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量yt-1,根据嵌入层输出的yt-1,前一时刻的隐状态st-1和注意力向量ct生成t时刻的隐藏状态st,计算过程如下;
st=LSTM(st-1,yt-1,ct-1)
其中LSTM为用于解码的单向长短期记忆网络;
Step4.2、根据注意力机制计算st-1和Step3生成的编码上下文向量计算得到注意力向量ct
Step4.3、根据下式,利用注意力向量ct和隐状态st计算生成t时刻的解码向量ot
ot=tanh(Wo[st;ct]+bo),
其中Wo为权重矩阵,bo为偏置向量,tanh为激活函数,[;]为拼接操作;
Step4.4、根据Step4.3计算得到的解码向量ot,通过下式计算解码向量在目标词汇表的分布Pvocab(yt);
Pvocab(yt)=softmax(Wpot+bp)
其中softmax为归一化函数,Wp为权重矩阵,bp为偏置向量;
Step4.5根据步骤Step4.4得到的Pvocab(yt),利用下式计算得到摘要Y={y1,y2,…,yM};
yt=argmax(Pvocab(yt))
其中argmax为最大位置函数。
本发明的有益效果是:本发明首先构造司法舆情文本摘要数据集,并对数据集进行清洗和去噪;然后利用双向长短期记忆网络分别对新闻正文和新闻评论进行建模;通过双路选择门控去噪网络去除评论中含有的噪声,生成去噪用户评论隐状态序列;利用双向注意力机制联合建模新闻正文和新闻评论,得到融合用户评论的上下文向量;最后利用单向长短期记忆网络,依据上下文向量进行解码,最后输出相应摘要,本发明生成的文本摘要质量更高,为开展司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中司法舆情摘要数据集构建流程图;
图3为本发明中双路选择门控网络结构示意图;
图4为本发明中双向注意力模块结构示意图。
具体实施方式
实施例1:如图1-4所示,一种结合用户评论的司法舆情文本摘要方法,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
其中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
具体的,获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列
Figure RE-GDA0002892412040000071
进行编码,利用下式计算得到编码后的新闻正文隐状态序列
Figure RE-GDA0002892412040000072
其中N为新闻文本序列长度;
Figure RE-GDA0002892412040000073
其中,BI-LSTMd为用于新闻正文编码的双向长短期记忆网络,即新闻正文编码器,
Figure RE-GDA0002892412040000074
为BI-LSTMd时间步n的隐状态;
Step1.2、用户评论编码器对输入的评论序列
Figure RE-GDA0002892412040000075
进行编码,得到用户评论编码后的隐状态序列
Figure RE-GDA0002892412040000076
其中M为评论个数,L为每个评论包含的单词个数,评论输入序列
Figure RE-GDA0002892412040000077
中sep为不同评论的分隔符,具体为“||”。
所述步骤Step1.2的具体步骤:
Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γm,l,通过下式计算得到:
Figure RE-GDA0002892412040000078
Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;
Figure RE-GDA0002892412040000079
其中,BI-LSTMc为用于新闻评论编码的双向长短期记忆网络,即新闻评论编码器,多个用户评论之间共享编码器参数;
Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γm,l对隐状态
Figure RE-GDA0002892412040000081
进行重置;
Figure RE-GDA0002892412040000082
样例数据如表1所示。
表1为样例数据
Figure RE-GDA0002892412040000083
处理后的训练集、开发集和测试集的统计信息如表2所示。本发明在训练集上训练模型,利用开发集调整模型超参数,最后在测试表上验证模型的有效性。
表2数据集统计信息
Figure RE-GDA0002892412040000084
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
所述步骤Step2的具体步骤:
Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:
Figure RE-GDA0002892412040000085
其中
Figure RE-GDA0002892412040000086
为第m个评论最后一个时刻,即L时刻的隐状态,
Figure RE-GDA0002892412040000087
为第m个评论l时刻的隐状态,Wc1,Wc2为权重矩阵,bc为偏置向量,σ为sigmod函数;
Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:
Figure RE-GDA0002892412040000088
其中
Figure RE-GDA0002892412040000091
为新闻正文最后一个时刻的隐状态,
Figure RE-GDA0002892412040000092
为第m个评论l时刻的隐状态, Ws1,Ws2为权重矩阵,bs为偏置向量,σ为sigmod函数;
Step2.3、对Step2.1得到的
Figure RE-GDA0002892412040000093
和Step2.2得到的
Figure RE-GDA0002892412040000094
进行线性合并,合并后的权重计算公式如下:
Figure RE-GDA0002892412040000095
其中μm,l为线性合并系数,其计算公式如下:
Figure RE-GDA0002892412040000096
其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;
Step2.4、利用Step2.3得到的权重和Step1.2.3得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:
Figure RE-GDA0002892412040000097
其中⊙表示按照元素相乘;
Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列
Figure RE-GDA0002892412040000098
表示为
Figure RE-GDA0002892412040000099
其中K=M*L。
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
所述步骤Step3的具体步骤:
Step3.1利用Step1.1得到的编码后的新闻正文隐状态序列
Figure RE-GDA00028924120400000910
和Step2.5得到的对应的去噪新闻评论隐状态序列中的第k个元素
Figure RE-GDA00028924120400000911
构造相似度矩阵S,S中每个元素计算公式如下:
Figure RE-GDA00028924120400000912
其中Ws为权重矩阵,[;]为拼接操作;
Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:
αn=softmax(Sn,:)
其中softmax为归一化函数,Sn,:表示相似度矩阵S的第n行;
Step3.3通过下式计算得到新闻正文到评论的注意力向量;
Figure RE-GDA0002892412040000101
其中αn,k为Step3.2得到的αn向量的第k个元素,
Figure RE-GDA0002892412040000102
为Step2.5得到的对应的去噪新闻评论隐状态序列中的第k个元素;
Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:
β=softmax(max-poolingcol(S))
其中max-poolingcol表示对相似度矩阵S按列执行最大池化操作,softmax为归一化函数;
Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1.1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:
Figure RE-GDA0002892412040000103
其中βn为Step3.4得到的注意力权重的第n个元素;
Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量
Figure RE-GDA0002892412040000104
和Step3.5得到的新闻评论到新闻正文的注意力向量
Figure RE-GDA0002892412040000105
进行拼接,计算得到双向注意力向量:
Figure RE-GDA0002892412040000106
其中Wh为权重矩阵,[;]为拼接操作;
Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:
Figure RE-GDA0002892412040000107
其中BI-LSTMr为用于进行重编码的双向长短期记忆网络。
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。所述步骤Step4的具体步骤:
Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量yt-1,根据嵌入层输出的yt-1,前一时刻的隐状态st-1和注意力向量ct生成t时刻的隐藏状态st,计算过程如下;
st=LSTM(st-1,yt-1,ct-1)
其中LSTM为用于解码的单向长短期记忆网络;
Step4.2、根据注意力机制计算st-1和Step3生成的编码上下文向量计算得到注意力向量ct
Step4.3、根据下式,利用注意力向量ct和隐状态st计算生成t时刻的解码向量ot
ot=tanh(Wo[st;ct]+bo),
其中Wo为权重矩阵,bo为偏置向量,tanh为激活函数,[;]为拼接操作;
Step4.4、根据Step4.3计算得到的解码向量ot,通过下式计算解码向量在目标词汇表的分布Pvocab(yt);
Pvocab(yt)=softmax(Wpot+bp)
其中softmax为归一化函数,Wp为权重矩阵,bp为偏置向量;
Step4.5根据步骤Step4.4得到的Pvocab(yt),利用下式计算得到摘要Y={y1,y2,…,yM};
yt=argmax(Pvocab(yt))
其中argmax为最大位置函数。
为了说明本发明的在司法舆情文本摘要任务上的有效性,采用基线***和本发明产生的摘要进行对比,表3展示了模型带来的摘要质量提升;表4为不同基线***的模型评价结果。
表3不同模型的摘要结果
Figure RE-GDA0002892412040000111
表4不同模型的性能对比
Figure RE-GDA0002892412040000112
Figure RE-GDA0002892412040000121
从以上结果可以看出,本发明提出的方法,通过挖掘用户评论中的案件要素信息,并通过扩展序列到序列模型,通过降噪模块和双向注意力模块生成更好的上下文向量,从而提高司法舆情文本摘要任务的摘要质量,帮助模型捕获原文中重要的案件要素。与不同的模型相比同样表明,通过联合建模用户评论,能够大幅度提升模型的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.一种结合用户评论的司法舆情文本摘要方法,其特征在于,所述方法包括:
Step1、编码器分别对新闻正文和对应的新闻评论进行编码,得到新闻正文隐状态序列和对应的新闻评论隐状态序列;
Step2、基于得到的新闻正文和对应的新闻评论隐状态序列,利用双路选择门控去噪网络生成去噪新闻评论隐状态序列;
Step3、基于新闻正文隐状态序列和对应的去噪新闻评论隐状态序列,利用基于双向注意力的融合模块,生成融合用户评论的上下文向量;
Step4、利用注意力机制和单向长短期记忆网络进行解码,得到输出的摘要序列。
2.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述Step1中,编码器编码的新闻正文和对应的新闻评论是通过如下方式获取的:
从互联网采集数据,对数据进行预处理,构造司法舆情新闻摘要数据集;所述司法舆情新闻摘要数据集的数据格式为:新闻正文-新闻评论-摘要。
3.根据权利要求2所述的结合用户评论的司法舆情文本摘要方法,其特征在于:获取编码器编码的新闻正文和对应的新闻评论的具体步骤如下:
A、从互联网采集舆情数据并进行格式化处理,得到新闻正文、新闻评论和新闻标题,构造以新闻正文和新闻评论为输入、新闻标题为输出的数据集;
B、利用人工标注的方式,对得到的数据集进行标注,判断每条新闻是否属于司法舆情相关新闻,得到司法舆情新闻摘要数据集;
C、基于步骤A及B得到的司法舆情新闻数据集,进行数据预处理。
4.根据权利要求3所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤C的具体步骤:
C1、过滤新闻正文少于10个字或者新闻标题少于5个字的噪声数据;
C2、过滤新闻评论少于5条的数据;
C3、正文和标题中所有数字以#替代;
C4、过滤正文和标题中的特殊字符;
C5、利用jieba对新闻正文和标题进行分词;
C6、构造词汇表;
C7、划分训练集、开发集和测试集。
5.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、新闻正文编码器对输入的新闻文本序列
Figure FDA0002712424080000021
进行编码,利用下式计算得到编码后的新闻正文隐状态序列
Figure FDA0002712424080000022
其中N为新闻文本序列长度;
Figure FDA0002712424080000023
其中,BI-LSTMd为用于新闻正文编码的双向长短期记忆网络,即新闻正文编码器,
Figure FDA0002712424080000024
为BI-LSTMd时间步n的隐状态;
Step1.2、用户评论编码器对输入的评论序列
Figure FDA0002712424080000025
进行编码,得到用户评论编码后的隐状态序列
Figure FDA0002712424080000026
其中M为评论个数,L为每个评论包含的单词个数,评论输入序列
Figure FDA0002712424080000027
中sep为不同评论的分隔符,具体为“||”。
6.根据权利要求5所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤Step1.2的具体步骤:
Step1.2.1利用评论编码器进行编码过程中,设定分割指示器γm,l,通过下式计算得到:
Figure FDA0002712424080000028
Step1.2.2利用双向长短期记忆网络为每个新闻评论生成对应的隐状态;
Figure FDA0002712424080000029
其中,BI-LSTMc为用于新闻评论编码的双向长短期记忆网络,即新闻评论编码器,多个用户评论之间共享编码器参数;
Step1.2.3通过下式,利用Step1.2.1生成的分割指示器γm,l对隐状态
Figure FDA00027124240800000210
进行重置;
Figure FDA00027124240800000211
7.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、首先构造评论到评论的选择性门控去噪模块,其权重计算公式如下:
Figure FDA0002712424080000031
其中
Figure FDA0002712424080000032
为第m个评论最后一个时刻,即L时刻的隐状态,
Figure FDA0002712424080000033
为第m个评论l时刻的隐状态,Wc1,Wc2为权重矩阵,bc为偏置向量,σ为sigmod函数;
Step2.2、构造新闻正文到评论的选择性门控去噪模块,其权重计算公式如下:
Figure FDA0002712424080000034
其中
Figure FDA0002712424080000035
为新闻正文最后一个时刻的隐状态,
Figure FDA0002712424080000036
为第m个评论l时刻的隐状态,Ws1,Ws2为权重矩阵,bs为偏置向量,σ为sigmod函数;
Step2.3、对Step2.1得到的
Figure FDA0002712424080000037
和Step2.2得到的
Figure FDA0002712424080000038
进行线性合并,合并后的权重计算公式如下:
Figure FDA0002712424080000039
其中μm,l为线性合并系数,其计算公式如下:
Figure FDA00027124240800000310
其中w为权重矩阵,σ为sigmod函数,[;]为拼接操作;
Step2.4、利用Step2.3得到的权重和Step1得到的隐状态,计算得到去噪新闻评论隐状态,计算公式如下:
Figure FDA00027124240800000311
其中⊙表示按照元素相乘;
Step2.5、最后为了方便表示,将Step2.4得到的去噪新闻评论隐状态序列
Figure FDA00027124240800000312
表示为
Figure FDA00027124240800000313
其中K=M*L。
8.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1利用Step1得到的编码后的新闻正文隐状态序列
Figure FDA00027124240800000314
和Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素
Figure FDA00027124240800000315
构造相似度矩阵S,S中每个元素计算公式如下:
Figure FDA0002712424080000041
其中Ws为权重矩阵,[;]为拼接操作;
Step3.2利用Step3.1得到的相似度矩阵S,计算新闻正文到新闻评论的注意力权重:
αn=softmax(Sn,:)
其中softmax为归一化函数,Sn,:表示相似度矩阵S的第n行;
Step3.3通过下式计算得到新闻正文到评论的注意力向量;
Figure FDA0002712424080000042
其中αn,k为Step3.2得到的αn向量的第k个元素,
Figure FDA0002712424080000043
为Step2得到的对应的去噪新闻评论隐状态序列中的第k个元素;
Step3.4利用Step3.1得到的相似度矩阵S,计算新闻评论到新闻正文的注意力权重:
β=softmax(max-poolingcol(S))
其中max-poolingcol表示对相似度矩阵S按列执行最大池化操作,softmax为归一化函数;
Step3.5利用Step3.4得到的新闻评论到新闻正文的注意力权重β和Step1得到的新闻正文隐状态序列,利用下式计算得到新闻评论到新闻正文的注意力向量:
Figure FDA0002712424080000044
其中βn为Step3.4得到的注意力权重的第n个元素;
Step3.5利用下式对Step3.3得到的新闻正文到评论的注意力向量
Figure FDA0002712424080000045
和Step3.5得到的新闻评论到新闻正文的注意力向量
Figure FDA0002712424080000046
进行拼接,计算得到双向注意力向量:
Figure FDA0002712424080000047
其中Wh为权重矩阵,[;]为拼接操作;
Step3.6通过下式对Step3.5得到的双向注意力向量进行重编码,得到编码上下文向量:
Figure FDA0002712424080000051
其中BI-LSTMr为用于进行重编码的双向长短期记忆网络。
9.根据权利要求1所述的结合用户评论的司法舆情文本摘要方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、解码器包括嵌入层和循环神经网络层;词嵌入层读入解码器前一时刻输出的词,转化为词嵌入向量yt-1,根据嵌入层输出的yt-1,前一时刻的隐状态st-1和注意力向量ct生成t时刻的隐藏状态st,计算过程如下;
st=LSTM(st-1,yt-1,ct-1)
其中LSTM为用于解码的单向长短期记忆网络;
Step4.2、根据注意力机制计算st-1和Step3生成的编码上下文向量计算得到注意力向量ct
Step4.3、根据下式,利用注意力向量ct和隐状态st计算生成t时刻的解码向量ot
ot=tanh(Wo[st;ct]+bo),
其中Wo为权重矩阵,bo为偏置向量,tanh为激活函数,[;]为拼接操作;
Step4.4、根据Step4.3计算得到的解码向量ot,通过下式计算解码向量在目标词汇表的分布Pvocab(yt);
Pvocab(yt)=softmax(Wpot+bp)
其中softmax为归一化函数,Wp为权重矩阵,bp为偏置向量;
Step4.5根据步骤Step4.4得到的Pvocab(yt),利用下式计算得到摘要Y={y1,y2,…,yM};
yt=argmax(Pvocab(yt))
其中argmax为最大位置函数。
CN202011061155.8A 2020-09-30 2020-09-30 一种结合用户评论的司法舆情文本摘要方法 Active CN112364225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011061155.8A CN112364225B (zh) 2020-09-30 2020-09-30 一种结合用户评论的司法舆情文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011061155.8A CN112364225B (zh) 2020-09-30 2020-09-30 一种结合用户评论的司法舆情文本摘要方法

Publications (2)

Publication Number Publication Date
CN112364225A true CN112364225A (zh) 2021-02-12
CN112364225B CN112364225B (zh) 2021-11-23

Family

ID=74507818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011061155.8A Active CN112364225B (zh) 2020-09-30 2020-09-30 一种结合用户评论的司法舆情文本摘要方法

Country Status (1)

Country Link
CN (1) CN112364225B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、***、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110532554A (zh) * 2019-08-26 2019-12-03 南京信息职业技术学院 一种中文摘要生成方法、***及存储介质
CN110909152A (zh) * 2019-10-21 2020-03-24 昆明理工大学 一种融合主题信息的司法舆情文本摘要方法
US20200285662A1 (en) * 2019-03-09 2020-09-10 Wipro Limited Method and System for Generating Review Summaries

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
US20200285662A1 (en) * 2019-03-09 2020-09-10 Wipro Limited Method and System for Generating Review Summaries
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110532554A (zh) * 2019-08-26 2019-12-03 南京信息职业技术学院 一种中文摘要生成方法、***及存储介质
CN110909152A (zh) * 2019-10-21 2020-03-24 昆明理工大学 一种融合主题信息的司法舆情文本摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苗家等: "一种基于HITS算法的Blog文摘方法", 《中文信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN112364225B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及***
Xu et al. A skeleton-based model for promoting coherence among sentences in narrative story generation
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110909152B (zh) 一种融合主题信息的司法舆情文本摘要方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析***及方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN109800390A (zh) 一种个性化情感摘要的计算方法与装置
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN112364225B (zh) 一种结合用户评论的司法舆情文本摘要方法
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN110377902B (zh) 描述文本生成模型的训练方法和装置
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN110162592A (zh) 一种基于万有引力改进的TextRank的新闻关键词提取方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN108550173A (zh) 基于语音生成口型视频的方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant