CN110377823A

CN110377823A - 一种Hadoop框架下的热点挖掘***的构建

Info

Publication number: CN110377823A
Application number: CN201910570822.6A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-25

Abstract

一种Hadoop框架下的热点挖掘***的构建，包括以下具体步骤：使用云端计算机Hadoop集群模块从网络上采集数据信息A并对其预处理，得到预处理数据信息B并将其发送给挖掘***；对预处理数据信息B进行分词，得到关键词集合C；将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选；将各个关键词D由高到低进行排序，筛选出热词E，并构建热词集合F；根据热词集合F中各个热词D之间的相关性构建词共现网络；根据词共现网络采用聚类算法对热词集合F进行划分，得到热点话题集合。本发明能快速得到热点话题集合，且能提高从网络上获得热点话题获得的精准度。

Description

一种Hadoop框架下的热点挖掘***的构建

技术领域

本发明涉及语言数据处理技术领域，尤其涉及一种Hadoop框架下的热点挖掘***的构建。

背景技术

随着互联网的快速发展，越来越多的用户参与到互联网中，用户可以在互联网上发布信息或者获取自己需要的信息，互联网中的信息每日递增；但是由于信息量巨大，给用户在寻找和关注重点热点信息是，带来困扰；现在越来越多的用户对热点的关注，但是人们往往无法有效的从网络上获得自己需要的热点信息；为此，本申请中提出一种Hadoop框架下的热点挖掘***的构建，以帮助用户能快速从网络上得到热点话题集合，且能提高从网络上获得热点话题获得的精准度。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种Hadoop框架下的热点挖掘***的构建，本发明能快速得到热点话题集合，且能提高从网络上获得热点话题获得的精准度。

(二)技术方案

为解决上述问题，本发明提供了一种Hadoop框架下的热点挖掘***的构建，包括以下具体步骤：

S1、使用云端计算机Hadoop集群模块从网络上采集数据信息A，并对数据信息A进行预处理，得到预处理数据信息B；

S2、云端计算机Hadoop集群模块将预处理数据信息B发送给挖掘***；

S3、对预处理数据信息B进行分词，得到关键词集合C；

S4、将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选；

当关键词D是以往热点信息词库中出现的热点词，则将关键词D舍弃；

当关键词D不是以往热点信息词库中出现的热点词，则执行S5中的操作；

S5、根据各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名，将各个关键词D由高到低进行排序，筛选出热词E，并构建热词集合F；

S6、根据热词集合F中各个热词D之间的相关性构建词共现网络；

S7、根据词共现网络采用聚类算法对热词集合F进行划分，得到热点话题集合。

优选的，对数据信息A进行预处理包括去重处理和过滤乱码处理。

优选的，云端计算机Hadoop集群模块包括数据采集模块和数据处理模块；数据采集模块与数据处理模块通讯连接，数据采集模块用于从网络上采集数据信息A，并将数据信息A发送给数据处理模块；

数据处理模块与挖掘***通讯连接，数据处理模块用于对数据信息A预处理，得到预处理数据信息B。

优选的，数据采集模块采用web爬虫的方式从网络上获取数据信息A。

优选的，挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块；

存储模块用于存储以往热点信息，存储模块内存储的以往热点信息组成以往热点信息词库；

分词模块与数据处理模块通讯连接，分词模块用于对预处理数据信息B进行分词，得到关键词集合C；

筛选判断模块与分词模块通讯连接，且筛选判断模块与存储模块通讯连接，筛选判断模块用于对关键词集合C中的每个关键词D通过以往热点信息词库进行筛选；

热点信息排序模块与筛选判断模块通讯连接，热点信息排序模块用于对筛选后的各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名，将各个关键词D由高到低进行排序，筛选出热词E，并构建热词集合F；

词共现网络构建模块与热点信息排序模块通讯连接，词共现网络构建模块用于计算热词集合F中各个热词E的相关性，并构造词共现网络；

聚类计算模块与词共现网络构建模块通讯连接，聚类计算模块用于根据词共现网络，使用词聚类算法对热词集合F进行划分，得到热点话题集合。

优选的，筛选判断模块对每个关键词D进行筛选时，

当关键词D不是以往热点信息词库中出现的热点词，则将关键词D发送给热点信息排序模块。

本发明的上述技术方案具有如下有益的技术效果：

本发明中，通过将云计算平台Hadoop和挖掘***相结合使用，利用云计算平台Hadoop的存储高可扩展性为数据挖掘***的实现提供了基础，通过设有的云端计算机Hadoop集群模块从网络上获取数据信息A并对数据信息A进行处理，再通过挖掘***对处理后的数据信息A进一步进行分词、并根据以往热点信息词库对分词后的关键词进行筛选得到热词E，并构建热词集合F，计算热词E相关性后构造热词共现网络，采用热词聚类算法对热词集合F进行划分，快速得到热点话题集合，从而大大提高从网络上获得热点话题获得效率和精准度。

附图说明

图1为本发明提出的一种Hadoop框架下的热点挖掘***的构建的流程图。

图2为本发明提出的一种Hadoop框架下的热点挖掘***的构建的***原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例1

如图1所示，本发明提出的一种Hadoop框架下的热点挖掘***的构建，包括以下具体步骤：

S3、对预处理数据信息B进行分词，得到关键词集合C；

在一个可选的实施例中，对数据信息A进行预处理包括去重处理和过滤乱码处理。

如图2所示，本发明提出的一种Hadoop框架下的热点挖掘***，包括云端计算机Hadoop集群模块和挖掘***；云端计算机Hadoop集群模块和挖掘***通讯连接，云端计算机Hadoop集群模块用于从网络上采集数据信息A并对数据信息A进行处理后发送给挖掘***；挖掘***对处理后的数据信息A进行处理，得到热点话题集合。

在一个可选的实施例中，云端计算机Hadoop集群模块包括数据采集模块和数据处理模块；

数据采集模块与数据处理模块通讯连接，数据采集模块用于从网络上采集数据信息A，并将数据信息A发送给数据处理模块；

在一个可选的实施例中，数据采集模块采用web爬虫的方式从网络上获取数据信息A。

在一个可选的实施例中，挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块；

聚类计算模块与词共现网络构建模块通讯连接，聚类计算模块用于根据词共现网络，使用使用多标签传播的热词聚类算法对热词集合F进行划分，得到热点话题集合。

在一个可选的实施例中，筛选判断模块对每个关键词D进行筛选时，

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种Hadoop框架下的热点挖掘***的构建，其特征在于，包括以下具体步骤：

S3、对预处理数据信息B进行分词，得到关键词集合C；

2.根据权利要求1所述的一种Hadoop框架下的热点挖掘***的构建，其特征在于，对数据信息A进行预处理包括去重处理和过滤乱码处理。

3.根据权利要求1所述的一种Hadoop框架下的热点挖掘***的构建，其特征在于，云端计算机Hadoop集群模块包括数据采集模块和数据处理模块；数据采集模块与数据处理模块通讯连接，数据采集模块用于从网络上采集数据信息A，并将数据信息A发送给数据处理模块；

4.根据权利要求3所述的一种Hadoop框架下的热点挖掘***的构建，其特征在于，数据采集模块采用web爬虫的方式从网络上获取数据信息A。

5.根据权利要求3所述的一种Hadoop框架下的热点挖掘***的构建，其特征在于，挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块；

6.根据权利要求5所述的一种Hadoop框架下的热点挖掘***的构建，其特征在于，筛选判断模块对每个关键词D进行筛选时，