CN113743113A

CN113743113A - 基于TextRank和深度神经网络的情感摘要抽取方法

Info

Publication number: CN113743113A
Application number: CN202111022446.0A
Authority: CN
Inventors: 金勇�; 胡林利; 陈宏明
Original assignee: WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Current assignee: WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-03

Abstract

本发明公开了基于TextRank和深度神经网络的情感摘要抽取方法，包括如下步骤：数据采集、监督式模型训练、无监督式摘要提取、文本情感摘要生成。本发明基于TextRank和深度神经网络的情感摘要抽取方法，采用LSTM+ATT+CNN的监督式方法训练情感句子向量，用来更新TextRank文本网络中的权重得分，进而提取具有情感色彩的摘要。针对较长文本，利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离，相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句，更能显示文章作者的情感核心内容，更具可读性。

Description

基于TextRank和深度神经网络的情感摘要抽取方法

技术领域

本发明涉及文本理解和机器学习分析领域，尤其涉及基于TextRank和深度神经网络的情感摘要抽取方法。

背景技术

随着互联网信息技术的突飞猛进，网路平台中存在海量信息，而针对这些海量信息进行有效筛选和读取是一个重要研究方向。特别地，对于长文本信息，提取出带有情感色彩的简短摘要，可以大大提高阅读效率。

摘要提取一般分为生成式方法和抽取式方法。生成式方法是根据文档表达的重要内容来自行组织语言，从而对源文档进行概括。抽取式方法是通过抽取源文档中的关键句子来组合生成摘要的。目前文本生成算法存在一定的技术瓶颈，虽然最新的GPT算法在文本生成方面取得了较好的成绩，但是产业化中的可读性与准确性还存在一定的差异。因此本发明中主要考虑抽取式摘要生成方法，即将长文本拆分成若干短句，然后根据权重重要性对短句进行排序，进而提取出若干短句组成摘要。

普通TextRank摘要抽取方法，句子间的权重衡量一般是基于BM25算法的相关性度量方法，即将文档定义为含有规范化BM25 TF值的元素，其中每个词的权重一般采取IDF(Inverse Document Frequency)方法。本发明基于TextRank方法，结合深度学习神经网络方法，针对长文本进行摘要提取，并且摘要中尽可能包含文档情感观点信息，使得可读性更强。为此，我们提出基于TextRank和深度神经网络的情感摘要抽取方法。

发明内容

基于背景技术存在的技术问题，本发明提出了基于TextRank和深度神经网络的情感摘要抽取方法，采用TextRank的无监督方法和LSTM+注意力机制(ATT)+卷积神经网络(CNN)的情感监督式方法相结合的方法提取情感摘要，解决了现有文本生成算法，产业化中的可读性与准确性还存在一定的差异的问题。

本发明提供如下技术方案：基于TextRank和深度神经网络的情感摘要抽取方法，包括如下步骤：

S1、数据采集：采集源数据经过数据清洗之后，进行相应的数据标注和知识整理得到数据集；

S2、监督式模型训练：针对LSTM+ATT+CNN网络模型进行训练，训练得到文档短句子向量；

S3、无监督式摘要提取：根据pearson系数计算句子向量相似度矩阵，利用监督式的句子向量更新文本网络权重；

S4、文本情感摘要生成：根据最新的网络权重得分进行排序，按照TopK原则选取关键句，并根据关键词在文中出现的顺序，组合成情感摘要。

优选的，所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次：输入层、LSTM层、注意力机制层以及卷积全连接层，处理过程是：以sentence2vec得到的句子向量作为初始向量；通过LSTM网络学习序列间的初始序列特征；构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式；最后结合卷积神经网络全连接方式进行监督式训练网络参数。

优选的，所述步骤S3中根据得到的句子向量计算句子权重W2，从而更新上述的句子权重，得到W3＝λ*W1+(1-λ)*W2，其中λ是调节系数；针对W3构成的TextRank文本网络图，进行句子重要性排序。

优选的，所述步骤S3中通过对文本进行分拆，以每一个句子或短语为节点，构建TextRank文本网络图；

上式中，WS(Vi)表示句子i的权重，右侧的求和表示每个相邻句子对本句子的贡献程度，d是阻尼系数，设置为0.85；

文本图结构中，节点之间的边代表权重，也就是句子之间的相似度，利用BM25模型计算得到句子Q在文档d中的权重W；

IDF指逆文档频率，n指文档数量，k₁,b是经验调节参数，k₁＝2,b＝0.75；fi表示词qi在文档d中出现的频率，dl为文档d的长度，avgdl为文档D集合中所有文档的平均长度。

优选的，所述步骤S4中根据句子重要性，截取TopK的关键句，根据在文中出现的顺序组合成最终情感摘要，其中K为关键句数量，设置为文档总数量的20％至40％之间。

本发明提供了基于TextRank和深度神经网络的情感摘要抽取方法，采用LSTM+ATT+CNN的监督式方法训练情感句子向量，用来更新TextRank文本网络中的权重得分，进而提取具有情感色彩的摘要。针对较长文本，利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离，相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句，更能显示文章作者的情感核心内容，更具可读性。

附图说明

图1为本发明整体框架图；

图2为本发明LSTM+ATT+CNN监督式网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：基于TextRank和深度神经网络的情感摘要抽取方法，包括如下步骤：

如图2所示，对LSTM+ATT+CNN网络模型的结构依次包括四个层次：输入层、LSTM层、注意力机制层以及卷积全连接层，处理过程是：以sentence2vec得到的句子向量作为初始向量；通过LSTM网络学习序列间的初始序列特征；构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式；最后结合卷积神经网络全连接方式进行监督式训练网络参数。

通过对文本进行分拆，以每一个句子或短语为节点，构建TextRank文本网络图；

根据得到的句子向量计算句子权重W2，从而更新上述的句子权重，得到W3＝λ*W1+(1-λ)*W2，其中λ是调节系数；针对W3构成的TextRank文本网络图，进行句子重要性排序。

根据句子重要性，截取TopK的关键句，根据在文中出现的顺序组合成最终情感摘要，其中K为关键句数量，设置为文档总数量的20％至40％之间。

实施例：

第一步，数据采集。以新冠状病毒疫情情绪监测为背景，对新闻、微博、论坛、微信、博客等不同数据源站点进行爬取，2019年12月份到2020年12月份的全量数据主要关键词配置如下：肺炎、疫情、冠状病毒、胸闷、发烧等。采集的源数据需要经过数据清洗之后，进行相应的数据标注和知识整理得到如下数据：

(a)情感标注类别：正面、负面、中立；

(b)情感摘要样本；

(c)文档中文字数筛选1000字以上；

第二步，监督式模型训练。针对LSTM+ATT+CNN网络模型，训练过程中的数据集比例为：训练集、验证集、测试集的比例为7:2:1。训练得到文档短句子向量。

第三步，无监督式摘要提取。根据图1中的流程，根据pearson系数计算句子向量相似度矩阵，利用监督式的句子向量更新文本网络权重。

第四步，文本情感摘要生成。根据最新的网络权重得分进行排序，按照TopK原则选取关键句，并根据关键词在文中出现的顺序，组合成情感摘要。

第五步，结果应用。根据实际效果保存模型结构参数，提供模型服务。

本发明中，基于TextRank和深度神经网络的情感摘要抽取方法，采用LSTM+ATT+CNN的监督式方法训练情感句子向量，用来更新TextRank文本网络中的权重得分，进而提取具有情感色彩的摘要。针对较长文本，利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离，相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句，更能显示文章作者的情感核心内容，更具可读性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次：输入层、LSTM层、注意力机制层以及卷积全连接层，处理过程是：以sentence2vec得到的句子向量作为初始向量；通过LSTM网络学习序列间的初始序列特征；构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式；最后结合卷积神经网络全连接方式进行监督式训练网络参数。

3.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S3中根据得到的句子向量计算句子权重W2，从而更新上述的句子权重，得到W3＝λ*W1+(1-λ)*W2，其中λ是调节系数；针对W3构成的TextRank文本网络图，进行句子重要性排序。

4.根据权利要求1或3中所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S3中通过对文本进行分拆，以每一个句子或短语为节点，构建TextRank文本网络图；

5.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S4中根据句子重要性，截取TopK的关键句，根据在文中出现的顺序组合成最终情感摘要，其中K为关键句数量，设置为文档总数量的20％至40％之间。