CN110019814A

CN110019814A - 一种基于数据挖掘与深度学习的新闻信息聚合方法

Info

Publication number: CN110019814A
Application number: CN201810743949.9A
Authority: CN
Inventors: 翁健; 黄芝琪; 李文灏; 陈杰彬; 罗伟其; 张悦
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2019-07-16
Anticipated expiration: 2038-07-09
Also published as: CN110019814B

Abstract

本发明公开了一种基于数据挖掘与深度学***台的内容及读者评论。

Description

一种基于数据挖掘与深度学习的新闻信息聚合方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种新闻信息聚合及摘要生成、评论概括方法。

背景技术

在互联网时代下，每日的信息数据量呈现***增长，新闻是生活中人们获取信息的主要途径之一。不同于传统的纸质新闻，网络新闻传播广、受众大、更新快，且运营成本远低于传统模式，已经受到了社会的普遍认可。对于读者来说，阅读网上新闻的成本低、内容丰富，节约时间，并且读者可以选择自己感兴趣的内容进行阅读，而不会局限于传统报纸给我们提供的固定内容。此外，几乎所有的新闻网站都为读者提供了发言、讨论的平台，在这里，读者可以自由地表达自己的观点。同时，对于一些热门事件，读者的主要评论内容可以反映舆论的方向，也涌现出了一批分析网络舆论信息的公司。热门新闻、热门评论也是大多数读者最喜欢阅读的内容。

与此同时，新闻平台众多，内容质量参差不齐，又会给读者带来一些问题，描述相同内容的新闻会分散在不同平台上，表现形式也各不相同，并且各个平台的操作不一致性也对读者阅读效果产生不好的影响。因此，如何从多个形式内容不一致的新闻平台中找到有用的信息，并生成其摘要，概括读者评论，从而使读者能够进行高效的阅读，是一个亟待解决的问题。

在现有的文本相似识别方法中，通常采用了直接按照特征权值向量的夹角值来表示文本相似度，虽然大多数情况下这类***都运作良好，但是该方法对于同义词缺乏有效的处理；此外，传统的收集***将新闻内容摘要与读者评论采用相似的抽取式方法，抽取重点内容显示，这类方法在句法方面表现良好，读者评论由于其短小精炼的原因，采用这种抽取式方法表现优秀，但整体行文的抽取质量及内容流畅度均差强人意，没有一个清晰的编写逻辑。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于数据挖掘与深度学习的新闻信息聚合方法，结合同义词林的方法对特征权值向量夹角法进行改进，对新闻内容采用深度学习的方法生成摘要，对评论采用抽取式方法进行概括。

本发明的目的通过以下的技术方案实现：一种基于数据挖掘与深度学习的新闻信息聚合方法，包括以下步骤：

1、采用爬虫框架对指定网站平台的新闻与评论进行数据爬取；

2、将所有新闻进行分类，结合向量空间模型、cos相似值、TF-IDF算法、同义词词林方法，对各个新闻的内容进行分类；

3、生成文章摘要，采用深度神经网络结构生成文本摘要；

4、对新闻对应的评论进行概括，通过对评论文本进行预处理，直接采用TF-IDF算法抽取出关键的评论，作为文本的概括。

优选的，用scrapy爬虫框架进行数据爬取。

优选的，对新闻进行分类等同于：给定两个文本，判断这两个文本的内容是否相同；

将一个文本看成一个空间向量文本中的每个单词在向量空间中表示一个维度，这个单词在文本中出现的次数表示向量在这个维度上的长度，这样一个文本就完全转换成空间中的一个向量；

假设现在有n个文本，那么就有n个这样的向量，这n个向量所处的空间是由n个文本中所有不重复词语代表的维度构成的；为了判断两个文本相似，计算它们对应向量的夹角cosin值，值越接近1，表示两个文本越是相似，值越接近0，表示两个文本越不相似；

假设两个向量和都是n维向量，计算两个向量的夹角余弦值方法如下：

计算出来的相似度超过设置阈值就认为文本内容是相同的。

进一步的，判断两个文本是否相似时，选定其中一个文本作为基准文本，从基准文本中依据单词的TF-IDF权重选出k个基准文本的关键词，并取这些关键词作为向量空间的维度建立向量空间R_k，分别在两个文本中统计各个关键词出现的次数，构成对应的k维向量计算两个向量夹角的cosin值，当值大于一个设定的阈值时，认为这两个向量对应的文本相似；

使用TF-IDF模型进行计算时，假设一个词表示为a，a在文本i中出现的次数为n_a,i，文本i的单词总数为N_i，所有文本的数量为D，a在其中的d_a个文本中出现，那么这个词在文本i中的权重公式为：

w_a,i值越大，代表a在文本i中越重要；将文本进行分词，对所有不重复的单词计算其TF-IDF值，然后由大到小进行排序，取前X个词语当作关键字词。

进一步的，考虑词语的同义词和近义词，用词语相似度来衡量词的同义程度，词语相似度是个数值，设定取值范围在[0，1]之间，基于同义词词林计算词语之间的词语相似度，超过一定阈值则判断两个词语是相同的，基于此，通过基于同义词词林的方法得到词语a及其同义近义词后，对词语权重计算公式进行修改，将d_a的定义由“词语a在多少个文本中出现”修改为“词语a及其同义近义词在多少个文本中出现”，同时词语权重计算公式保持不变：

具体的，词语相似度计算方法为：

在中文词语中，一个词语往往表达了很多的意思，也就是说有很多个义项，计算词语相似度要考虑到所有的义项，义项相似度计算基于同义词词林结构，利用词语中义项的编号，根据两个义项的语义距离进行计算；

首先判断在同义词林中作为叶子节点的两个义项在哪一层分支，即两个义项的编号在哪一层不同，从第1层开始判断，相同则乘1，否则在分支层乘以相应的系数，然后乘以作为义项相似度的归一化处理，使义项相似度控制在[0，1]之间，其中n是分支层的节点总数；

词语所在树的密度，分支的多少直接影响到相似度，密度较大的相似度的值相比密度小的相似度的值精确，于是再乘以一个参数(n-k+1)/n，其中n是分支层的节点总数，k是两个分支间的距离；

假设两个义项的编号在S层不同，S层相应的系数为s，设A、B两个义项的相似度用Sim表示：

在计算词语相似度时，把两个词语的义项分别两两计算，取最大值作为两个词语的相似度值。

优选的，依靠深度神经网络结构实现生成文本摘要，采用Seq2Seq技术，又称为Encoder-Decoder架构，其中Encoder、Decoder均由数层RNN/LSTM构成，Encoder负责把原文编码为一个向量C；Decoder负责从这个向量C中提取信息，获取语义，生成文本摘要。

优选的，概括评论内容的具体实现方法包括：

a)实时获取评论内容，对文本进行分词，统计所有词语分别出现的次数；

b)选出词频最高N个词语作为关键词；

c)对文本进行分句，计算每个句子中关键词的数量后除以句子的长度，得到的值作为这个句子权重值；

d)将权重最大的几个句子按照在本文中出现的次序拼接起来，形成一个概括文本，输出。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明提供的***能获取不同新闻平台信息，对他们进行分类，从而避免了多个新闻平台信息的差异化与不一致性导致阅读体验差的问题，减少了无效新闻对读者的影响。

2.本发明在处理相似文本中，采用了同义词词林的技术，较以往***更好地避免了同义词误判的问题。

3.本发明采用深度学习技术进行文章的摘要处理，避免了现有抽取式摘要生成方法可读性差、内容不连贯等不足，从而使文章摘要与评论概括更接近标准自然语言，提高了读者阅读新闻内容的效率。

4.本发明对评论进行了抽取与概括，完善了新闻信息聚合***的功能，进一步提高了读者阅读评论的效率。

附图说明

图1是实施例新闻信息聚合方法基本流程图。

图2是实施例新闻分类步骤流程图。

图3是实施例概括新闻评论内容并展示流程图。

图4是实施例同义词词林5层结构。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

一种基于数据挖掘与深度学习的新闻信息聚合方法，包括以下步骤：

1.爬取指定网站平台的新闻与评论，采用scrapy爬虫框架对新浪、搜狐、腾讯、网易、环球网五大新闻门户网站进行数据爬取。

2.将所有新闻进行分类，采用向量空间模型，cos相似值，TF-IDF算法，同义词词林等方法，对各个新闻的内容进行分类。

3.生成文章摘要，采用改进的深度神经网络结构生成文本摘要。

4.对新闻对应的评论进行概括，通过对评论文本进行预处理，进行直接采用TF-IDF算法抽取出关键的评论，作为文本的概括。

步骤一，数据爬取。

采用scrapy爬虫框架对新浪、搜狐、腾讯、网易、环球网五大新闻门户网站进行数据爬取。Scrapy是一个Python的数据抓取框架，可用于从网页端抓取数据保存到本地。

步骤二，对获取到的新闻进行分类。

(1)对本地新闻进行分类的主要流程如图2所示。

(2)向量空间模型及cosin相似值

要对下载好的新闻内容进行分类，实际上需要解决的问题是：给定两个文本，如何判断这两个文本的内容是大致相同的。

将一个文本看成一个空间向量文本中的每个单词在向量空间中表示一个维度，这个单词在文本中出现的次数表示向量在这个维度上的长度，这样一个文本就完全转换成空间中的一个向量。例如一段文本的内容是“今天北京下雨，我很高兴”，那么分词的结果是“今天/北京/下雨/，/我/很/高兴”，这一段文本可以看成是一个在七维空间中的向量，其向量表示法为：

[1 1 1 1 1 1 1]^T

对应的行中的数字依次为“今天”，“北京”，“下雨”，“我”，“很”，“，”，“高兴”出现的次数。这个时候，文本就被抽象成一个向量进行表示。假设现在有n个文本，那么就有n个这样的向量，这n个向量所处的空间是由n个文本中所有不重复词语代表的维度构成的。为了判断两个文本相似，计算它们对应向量的夹角cosin值，值越接近1，表示两个文本越是相似，值越接近0，表示两个文本越不相似。

举例，如果有以下三个文本：

第一个文本的内容是“无论我们在什么地方，我们都觉得很高兴”，分词结果是——“无论/我们/在/什么/地方/，/我们/都/觉得/很/高兴”；

第二个文本的内容是“我们无论在什么地方都觉得很高兴”，分词结果是——“我们/无论/在/什么/地方/都/觉得/很/高兴”；

第三个文本的内容是“今天我们很高兴，因为今天是周五”，分词结果是——“今天/我们/很/高兴/，/因为/今天/是/周五”。

可以判断三个文本之间的相似性，首先统计所有文本中出现过的词语如下，以“|”分割：无论|我们|在|什么|地方|，|都|觉得|很|高兴|因为|是|周五。一共有十四个词语，因此对上述三个文本可以分别使用一个十四维的向量表示，每个维度依次对应上面的十四个词语出现的次数。因此得到三个文本对应的向量分别如下：

第一个文本：

第二个文本：

第三个文本：

然后开始计算三个文本之间的相似度，假设两个向量和都是n维向量，计算两个向量的夹角余弦值方法如下：

文本一与文本二的cosin相似度：

文本一与文本三的cosin相似度：

文本二与文本三的cosin相似度：

从计算结果可以得知文本一与文本二的相似度是最高的，文本二与文本三的相似度是最低的。在实际应用中，可以设置一个阈值，例如计算出来的相似度超过0.75就认为文本内容是几乎相同的，另外对于分词时得到的标点符号或者各种如“是”、“在”这样的词语也应该剔除。

在这个算法的设计中，对两个文本的相似性比较进行了性能上的优化。但是，上述算法中存在一个问题，当文本数量非常多时，对应的向量空间维度会变得十分高，而且一个文本对应的向量在这个向量空间中，绝大多数维度上的值都为0，导致时间复杂度和空间复杂度都非常高。

为了避免向量空间维度过高而造成的性能下降问题，对算法作出如下改进：判断两个文本是否相似时，选定其中一个文本作为基准文本，从基准文本中依据单词的TF-IDF权重选出k个基准文本的关键词，并取这些关键词作为向量空间的维度建立向量空间R_k，分别在两个文本中统计各个关键词出现的次数，构成对应的k维向量计算两个向量夹角的cosin值，当值大于一个设定的阈值(通过多次实验，取阈值为0.75较佳)时，认为这两个向量对应的文本相似。

依然取上面的三个文本作为例子，如果要判断文本二、文本三是否与文本一相似，那么首先对文本一分词得到结果“无论/我们/在/什么/地方/，/我们/都/觉得/很/高兴”，出现过的词语为：无论|我们|在|什么|地方|，|都|觉得|很|高兴。共10个词，现在使用三个10维的向量分别描述文本一、文本二和文本三：

文本一：

文本二：

文本三：

计算相似度：

文本一与文本二的cosin相似度：

文本一与文本三的cosin相似度：

如果要判断文本三与文本二是否相似，那么对文本二分词得到结果“我们/无论/在/什么/地方/都/觉得/很/高兴”，出现过的词语为：我们|无论|在|什么|地方|都|觉得|很|高兴。共9个词，现在使用两个9维的向量分别描述文本二和文本三：

文本二：

文本三：

计算相似度：

文本二与文本三的cosin相似度：

对于新闻的分类，使用上述优化基于如下经验：两篇新闻如果报道内容相同，那么它们的关键字几乎是一样的。从实际运行结果来看，这样的优化是值得肯定的，节省了存储空间以及运算时间。

(3)TF-IDF算法

TF-IDF的主要思想由以下两点构成：1.一个词在一个文本中出现次数越多，它在这个文本中就越重要；2.一个词在所有的文本中出现的次数越少，它越重要。在这里，“所有的文本”指的一个资料库中所有的文本。TF指的就是一个词在文本中出现的频率，而IDF指的就是一个词在所有文本中出现的频率。

w_a,i值越大，代表a在文本i中越重要。

有了TF-IDF的计算方法，就可以抽取文本中的关键词。一个基本的思路就是将文本进行分词，对所有不重复的单词计算其TF-IDF值，然后进行排序，取值最大的几个词语当作关键字词。至于取多少个词语当作关键词，需要按照实际的情况进行权衡，取的关键词少则可能难以较好地通过关键词描述一篇文本的主要内容，取的关键词多则可能在计算文本相似度时花费更多的计算资源。在本项目中，选取的关键词个数为10个。

(4)基于同义词词林对TF-IDF算法进行改进

在上述算法中，成功对多个文本进行关键词获取、相似度匹配，并达到较高的准确率。然而，在实际测试过程中，上述算法仍然存在一个问题，当对文本采用TF-IDF算法取出关键词后，如果只凭借关键词内容是否相同来计算出词语重要性权重并用于判断相似的话，会出现同义近义词判断失败的问题，例如在多篇文本中同时出现了“学校、高校、大学、本科”等词语，使用上述算法无法将其归入为一类，而明显在某些环境下需要将他们看做相同的词来处理。因此，采用基于同义词词林的思想进行词语的相似度计算来对该算法进行优化。

同义词词林是一本词典，这本词典中不仅包括了一个词语的同义词，也包含了一定数量的同类词，即广义的相关词。同义词词林按照树状的层次结构把所有收录的词条组织到一起。把词汇分成大、中、小3类。每个小类里有很多的词，这些词根据词义的远近和相关性分成了若干个词群。每个词群中的词语又进一步分成了若干个行，同一行的词语要么词义相同，要么词义有很强的相关性。例如，大豆、毛豆和黄豆在同一行；西红柿和番茄在同一行；雇农、贫农、下中农、中农、上中农、富农也在同一行。

同义词词林词典分类采用层级体系，具备5层结构，如图4所示。随着级别的递增，词义刻画越来越细，到了第5层，每个分类里词语数量已经不大。选取第五层的分类词汇来对关键词做替换，由于第5层有的是同义词，有的是相关词，在这里，将同义词与相关词视为一样的词。

用词语相似度来衡量词的同义程度，词语相似度是个数值，设定取值范围在[0，1]之间。一个词语与自身的相似度为1，相似度为0表示两个词语在任何上下文中都不可替换。

计算词语相似度时，首先需要计算义项相似度。在中文词语中，一个词语往往表达了很多的意思，也就是说有很多个义项。例如“骄傲”，既可以表示褒义，也可以表示贬义。因此计算词语相似度要考虑到所有的义项。义项相似度计算基于同义词词林结构，利用词语中义项的编号，根据两个义项的语义距离进行计算。

首先判断在同义词林中作为叶子节点的两个义项在哪一层分支，即两个义项的编号在哪一层不同。假设在第4层分支，从第1层开始判断，相同则乘1，否则在分支层乘以相应的系数，然后乘以作为义项相似度的归一化处理，使义项相似度控制在[0，1]之间，其中n是分支层的节点总数。

词语所在树的密度，分支的多少直接影响到相似度，密度较大的相似度的值相比密度小的相似度的值精确。再乘以一个参数(n-k+1)/n，其中n是分支层的节点总数，k是两个分支间的距离。这样可以细化计算得到的值，使计算结果更精确。

设两个义项的相似度用Sim表示：

若两个词语不在同一棵树上，

Sim(A,B)＝f

若在第2层分支，系数为a，X为参数(n-k+1)/n，

若在第3层分支，系数为b，

若在第4层分支，系数为c，

若在第5层分支，系数为d，

按照上述方法，以词语“人民”为例进行相似度计算，结果如表1所示：

表1词语“人民”与其他词语的语义相似度

可以看出，语义相似度的计算结果与人类认知判断的语义相似度基本一致，可以真实地反应客观现实，也就是说，该算法能准确客观地反映词语之间的语义相关关系，为词语间的语义相关关系提供一种有效的度量。

经过对多个词语进行测试，假定，当词语相似度值大于0.7时，近似认为这两个词语是相同的。

通过基于同义词词林的方法得到词语a及其同义近义词后，对词语权重计算公式进行修改，将d_a的定义由“词语a在多少个文本中出现”修改为“词语a及其同义近义词在多少个文本中出现”，同时词语权重计算公式保持不变：

从实际运行结果来看，这样的改进可以很好地减轻上述提到的无法判断同义近义词的缺陷。

被比较的新闻不断替换，把所有相似的找出来。对于i平台的每一个新闻，跟其余平台的所有新闻做一次比较；然后再对i平台的第二个新闻，跟其余平台的新闻做一次比较，以此类推。

步骤三，采用深度神经网络自动生成文本摘要。

文本摘要由于其特有的连贯性，高度总结性，使得抽取式方法并不能达到很好的效果；而依靠深度神经网络结构实现的生成式文本摘要则可以很好解决这个问题。本发明采用GoogleBrain团队提出的Seq2Seq技术，又称为Encoder-Decoder架构，其中Encoder、Decoder均由数层RNN/LSTM构成，Encoder负责把原文编码为一个向量C；Decoder负责从这个向量C中提取信息，获取语义，生成文本摘要。

步骤四，概括新闻评论内容。

(1)对新闻评论内容进行概括并展示的主要流程如图3所示。

(2)概括评论内容的具体实现方法

新闻的评论内容与新闻正文内容不同，评论内容实时更新，而新闻正文的内容一旦发布则基本不会变化，因此对于新闻正文内容，采取了爬虫获取并且进行分析的方法，而在应对评论的概括问题上，所有的热门评论都是通过实时获取的方式，在内存中保存并进行概括后显示。

要对评论进行概括，一个转化问题的思想是：将所有的评论拼接形成一个文本，然后对这个文本进行概括。这里使用的一种方法利用了词频(TF)越高越可能成为关键字的思想作为文本概括的依据，具体步骤如下：

a)对文本进行分词，统计所有词语分别出现的次数；

b)选出词频最高几个词语作为关键词；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，包括以下步骤：

S1、采用爬虫框架对指定网站平台的新闻与评论进行数据爬取；

S2、将所有新闻进行分类，结合向量空间模型、cos相似值，对各个新闻的内容进行分类；

S3、生成文章摘要，采用深度神经网络结构生成文本摘要；

S4、对新闻对应的评论进行概括，通过对评论文本进行预处理，直接采用TF-IDF算法抽取出关键的评论，作为文本的概括。

2.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，用scrapy爬虫框架进行数据爬取。

3.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，步骤S2中，对新闻进行分类等同于：给定两个文本，判断这两个文本的内容是否相同；

计算出来的相似度超过设置阈值就认为文本内容是相同的。

4.根据权利要求3所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，判断两个文本是否相似时，选定其中一个文本作为基准文本，从基准文本中依据单词的TF-IDF权重选出k个基准文本的关键词，并取这些关键词作为向量空间的维度建立向量空间R_k，分别在两个文本中统计各个关键词出现的次数，构成对应的k维向量计算两个向量夹角的cosin值，当值大于一个设定的阈值时，认为这两个向量对应的文本相似；

使用TF-IDF模型进行计算时，假设一个词表示为a，a在文本i中出现的次数为n_a，i，文本i的单词总数为N_i，所有文本的数量为D，a在其中的d_a个文本中出现，那么这个词在文本i中的权重公式为：

5.根据权利要求4所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，考虑词语的同义词和近义词，用词语相似度来衡量词的同义程度，词语相似度是个数值，设定取值范围在[0，1]之间，基于同义词词林计算词语之间的词语相似度，超过一定阈值则判断两个词语是相同的，基于此，通过基于同义词词林的方法得到词语a及其同义近义词后，对词语权重计算公式进行修改，将d_a的定义由“词语a在多少个文本中出现”修改为“词语a及其同义近义词在多少个文本中出现”，同时词语权重计算公式保持不变：

6.根据权利要求5所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，词语相似度计算方法为：

7.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，依靠深度神经网络结构实现生成文本摘要，采用Seq2Seq技术，又称为Encoder-Decoder架构，其中Encoder、Decoder均由数层RNN/LSTM构成，Encoder负责把原文编码为一个向量C；Decoder负责从这个向量C中提取信息，获取语义，生成文本摘要。

8.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于，概括评论内容的具体实现方法包括：

b)选出词频最高N个词语作为关键词；