CN110377823A - 一种Hadoop框架下的热点挖掘***的构建 - Google Patents

一种Hadoop框架下的热点挖掘***的构建 Download PDF

Info

Publication number
CN110377823A
CN110377823A CN201910570822.6A CN201910570822A CN110377823A CN 110377823 A CN110377823 A CN 110377823A CN 201910570822 A CN201910570822 A CN 201910570822A CN 110377823 A CN110377823 A CN 110377823A
Authority
CN
China
Prior art keywords
hot
module
keyword
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910570822.6A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910570822.6A priority Critical patent/CN110377823A/zh
Publication of CN110377823A publication Critical patent/CN110377823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种Hadoop框架下的热点挖掘***的构建,包括以下具体步骤:使用云端计算机Hadoop集群模块从网络上采集数据信息A并对其预处理,得到预处理数据信息B并将其发送给挖掘***;对预处理数据信息B进行分词,得到关键词集合C;将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;根据热词集合F中各个热词D之间的相关性构建词共现网络;根据词共现网络采用聚类算法对热词集合F进行划分,得到热点话题集合。本发明能快速得到热点话题集合,且能提高从网络上获得热点话题获得的精准度。

Description

一种Hadoop框架下的热点挖掘***的构建
技术领域
本发明涉及语言数据处理技术领域,尤其涉及一种Hadoop框架下的热点挖掘***的构建。
背景技术
随着互联网的快速发展,越来越多的用户参与到互联网中,用户可以在互联网上发布信息或者获取自己需要的信息,互联网中的信息每日递增;但是由于信息量巨大,给用户在寻找和关注重点热点信息是,带来困扰;现在越来越多的用户对热点的关注,但是人们往往无法有效的从网络上获得自己需要的热点信息;为此,本申请中提出一种Hadoop框架下的热点挖掘***的构建,以帮助用户能快速从网络上得到热点话题集合,且能提高从网络上获得热点话题获得的精准度。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种Hadoop框架下的热点挖掘***的构建,本发明能快速得到热点话题集合,且能提高从网络上获得热点话题获得的精准度。
(二)技术方案
为解决上述问题,本发明提供了一种Hadoop框架下的热点挖掘***的构建,包括以下具体步骤:
S1、使用云端计算机Hadoop集群模块从网络上采集数据信息A,并对数据信息A进行预处理,得到预处理数据信息B;
S2、云端计算机Hadoop集群模块将预处理数据信息B发送给挖掘***;
S3、对预处理数据信息B进行分词,得到关键词集合C;
S4、将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则执行S5中的操作;
S5、根据各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
S6、根据热词集合F中各个热词D之间的相关性构建词共现网络;
S7、根据词共现网络采用聚类算法对热词集合F进行划分,得到热点话题集合。
优选的,对数据信息A进行预处理包括去重处理和过滤乱码处理。
优选的,云端计算机Hadoop集群模块包括数据采集模块和数据处理模块;数据采集模块与数据处理模块通讯连接,数据采集模块用于从网络上采集数据信息A,并将数据信息A发送给数据处理模块;
数据处理模块与挖掘***通讯连接,数据处理模块用于对数据信息A预处理,得到预处理数据信息B。
优选的,数据采集模块采用web爬虫的方式从网络上获取数据信息A。
优选的,挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块;
存储模块用于存储以往热点信息,存储模块内存储的以往热点信息组成以往热点信息词库;
分词模块与数据处理模块通讯连接,分词模块用于对预处理数据信息B进行分词,得到关键词集合C;
筛选判断模块与分词模块通讯连接,且筛选判断模块与存储模块通讯连接,筛选判断模块用于对关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
热点信息排序模块与筛选判断模块通讯连接,热点信息排序模块用于对筛选后的各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
词共现网络构建模块与热点信息排序模块通讯连接,词共现网络构建模块用于计算热词集合F中各个热词E的相关性,并构造词共现网络;
聚类计算模块与词共现网络构建模块通讯连接,聚类计算模块用于根据词共现网络,使用词聚类算法对热词集合F进行划分,得到热点话题集合。
优选的,筛选判断模块对每个关键词D进行筛选时,
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则将关键词D发送给热点信息排序模块。
本发明的上述技术方案具有如下有益的技术效果:
本发明中,通过将云计算平台Hadoop和挖掘***相结合使用,利用云计算平台Hadoop的存储高可扩展性为数据挖掘***的实现提供了基础,通过设有的云端计算机Hadoop集群模块从网络上获取数据信息A并对数据信息A进行处理,再通过挖掘***对处理后的数据信息A进一步进行分词、并根据以往热点信息词库对分词后的关键词进行筛选得到热词E,并构建热词集合F,计算热词E相关性后构造热词共现网络,采用热词聚类算法对热词集合F进行划分,快速得到热点话题集合,从而大大提高从网络上获得热点话题获得效率和精准度。
附图说明
图1为本发明提出的一种Hadoop框架下的热点挖掘***的构建的流程图。
图2为本发明提出的一种Hadoop框架下的热点挖掘***的构建的***原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1为本发明提出的一种Hadoop框架下的热点挖掘***的构建的流程图。
实施例1
如图1所示,本发明提出的一种Hadoop框架下的热点挖掘***的构建,包括以下具体步骤:
S1、使用云端计算机Hadoop集群模块从网络上采集数据信息A,并对数据信息A进行预处理,得到预处理数据信息B;
S2、云端计算机Hadoop集群模块将预处理数据信息B发送给挖掘***;
S3、对预处理数据信息B进行分词,得到关键词集合C;
S4、将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则执行S5中的操作;
S5、根据各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
S6、根据热词集合F中各个热词D之间的相关性构建词共现网络;
S7、根据词共现网络采用聚类算法对热词集合F进行划分,得到热点话题集合。
在一个可选的实施例中,对数据信息A进行预处理包括去重处理和过滤乱码处理。
图2为本发明提出的一种Hadoop框架下的热点挖掘***的构建的***原理框图。
如图2所示,本发明提出的一种Hadoop框架下的热点挖掘***,包括云端计算机Hadoop集群模块和挖掘***;云端计算机Hadoop集群模块和挖掘***通讯连接,云端计算机Hadoop集群模块用于从网络上采集数据信息A并对数据信息A进行处理后发送给挖掘***;挖掘***对处理后的数据信息A进行处理,得到热点话题集合。
在一个可选的实施例中,云端计算机Hadoop集群模块包括数据采集模块和数据处理模块;
数据采集模块与数据处理模块通讯连接,数据采集模块用于从网络上采集数据信息A,并将数据信息A发送给数据处理模块;
数据处理模块与挖掘***通讯连接,数据处理模块用于对数据信息A预处理,得到预处理数据信息B。
在一个可选的实施例中,数据采集模块采用web爬虫的方式从网络上获取数据信息A。
在一个可选的实施例中,挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块;
存储模块用于存储以往热点信息,存储模块内存储的以往热点信息组成以往热点信息词库;
分词模块与数据处理模块通讯连接,分词模块用于对预处理数据信息B进行分词,得到关键词集合C;
筛选判断模块与分词模块通讯连接,且筛选判断模块与存储模块通讯连接,筛选判断模块用于对关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
热点信息排序模块与筛选判断模块通讯连接,热点信息排序模块用于对筛选后的各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
词共现网络构建模块与热点信息排序模块通讯连接,词共现网络构建模块用于计算热词集合F中各个热词E的相关性,并构造词共现网络;
聚类计算模块与词共现网络构建模块通讯连接,聚类计算模块用于根据词共现网络,使用使用多标签传播的热词聚类算法对热词集合F进行划分,得到热点话题集合。
在一个可选的实施例中,筛选判断模块对每个关键词D进行筛选时,
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则将关键词D发送给热点信息排序模块。
本发明中,通过将云计算平台Hadoop和挖掘***相结合使用,利用云计算平台Hadoop的存储高可扩展性为数据挖掘***的实现提供了基础,通过设有的云端计算机Hadoop集群模块从网络上获取数据信息A并对数据信息A进行处理,再通过挖掘***对处理后的数据信息A进一步进行分词、并根据以往热点信息词库对分词后的关键词进行筛选得到热词E,并构建热词集合F,计算热词E相关性后构造热词共现网络,采用热词聚类算法对热词集合F进行划分,快速得到热点话题集合,从而大大提高从网络上获得热点话题获得效率和精准度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种Hadoop框架下的热点挖掘***的构建,其特征在于,包括以下具体步骤:
S1、使用云端计算机Hadoop集群模块从网络上采集数据信息A,并对数据信息A进行预处理,得到预处理数据信息B;
S2、云端计算机Hadoop集群模块将预处理数据信息B发送给挖掘***;
S3、对预处理数据信息B进行分词,得到关键词集合C;
S4、将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则执行S5中的操作;
S5、根据各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
S6、根据热词集合F中各个热词D之间的相关性构建词共现网络;
S7、根据词共现网络采用聚类算法对热词集合F进行划分,得到热点话题集合。
2.根据权利要求1所述的一种Hadoop框架下的热点挖掘***的构建,其特征在于,对数据信息A进行预处理包括去重处理和过滤乱码处理。
3.根据权利要求1所述的一种Hadoop框架下的热点挖掘***的构建,其特征在于,云端计算机Hadoop集群模块包括数据采集模块和数据处理模块;数据采集模块与数据处理模块通讯连接,数据采集模块用于从网络上采集数据信息A,并将数据信息A发送给数据处理模块;
数据处理模块与挖掘***通讯连接,数据处理模块用于对数据信息A预处理,得到预处理数据信息B。
4.根据权利要求3所述的一种Hadoop框架下的热点挖掘***的构建,其特征在于,数据采集模块采用web爬虫的方式从网络上获取数据信息A。
5.根据权利要求3所述的一种Hadoop框架下的热点挖掘***的构建,其特征在于,挖掘***包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块;
存储模块用于存储以往热点信息,存储模块内存储的以往热点信息组成以往热点信息词库;
分词模块与数据处理模块通讯连接,分词模块用于对预处理数据信息B进行分词,得到关键词集合C;
筛选判断模块与分词模块通讯连接,且筛选判断模块与存储模块通讯连接,筛选判断模块用于对关键词集合C中的每个关键词D通过以往热点信息词库进行筛选;
热点信息排序模块与筛选判断模块通讯连接,热点信息排序模块用于对筛选后的各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名,将各个关键词D由高到低进行排序,筛选出热词E,并构建热词集合F;
词共现网络构建模块与热点信息排序模块通讯连接,词共现网络构建模块用于计算热词集合F中各个热词E的相关性,并构造词共现网络;
聚类计算模块与词共现网络构建模块通讯连接,聚类计算模块用于根据词共现网络,使用词聚类算法对热词集合F进行划分,得到热点话题集合。
6.根据权利要求5所述的一种Hadoop框架下的热点挖掘***的构建,其特征在于,筛选判断模块对每个关键词D进行筛选时,
当关键词D是以往热点信息词库中出现的热点词,则将关键词D舍弃;
当关键词D不是以往热点信息词库中出现的热点词,则将关键词D发送给热点信息排序模块。
CN201910570822.6A 2019-06-28 2019-06-28 一种Hadoop框架下的热点挖掘***的构建 Pending CN110377823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570822.6A CN110377823A (zh) 2019-06-28 2019-06-28 一种Hadoop框架下的热点挖掘***的构建

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570822.6A CN110377823A (zh) 2019-06-28 2019-06-28 一种Hadoop框架下的热点挖掘***的构建

Publications (1)

Publication Number Publication Date
CN110377823A true CN110377823A (zh) 2019-10-25

Family

ID=68251202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570822.6A Pending CN110377823A (zh) 2019-06-28 2019-06-28 一种Hadoop框架下的热点挖掘***的构建

Country Status (1)

Country Link
CN (1) CN110377823A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101187A1 (en) * 2001-10-19 2003-05-29 Xerox Corporation Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101187A1 (en) * 2001-10-19 2003-05-29 Xerox Corporation Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN114938477B (zh) * 2022-06-23 2024-05-03 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN105389349B (zh) 词典更新方法及装置
CN105160038B (zh) 一种基于审计知识库的数据分析方法及***
CN107578292B (zh) 一种用户画像构建***
CN106844640B (zh) 一种网页数据分析处理方法
CN103678670A (zh) 一种微博热词与热点话题挖掘***及方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN108038205A (zh) 针对中文微博的观点分析原型***
CN106940679A (zh) 数据处理方法及装置
CN104199974A (zh) 一种面向微博的动态主题检测与演变追踪方法
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN104504024B (zh) 基于微博内容的关键词挖掘方法及***
CN104102658B (zh) 文本内容挖掘方法及装置
CN111831802A (zh) 一种基于lda主题模型的城市领域知识检测***及方法
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
CN111198897B (zh) 科研热点主题分析方法、装置与电子设备
CN103218368B (zh) 一种挖掘热词的方法与装置
CN109492027B (zh) 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN106503256A (zh) 一种基于社交网络文档的热点信息挖掘方法
US10572526B2 (en) Weather-based natural language text processing
CN107704620A (zh) 一种档案管理的方法、装置、设备和存储介质
CN110377823A (zh) 一种Hadoop框架下的热点挖掘***的构建

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication