CN111859065A

CN111859065A - 一种基于大数据的舆情聆听***

Info

Publication number: CN111859065A
Application number: CN202010452790.2A
Authority: CN
Inventors: 张�林
Original assignee: Anhui Yuying Information Technology Co ltd
Current assignee: Anhui Yuying Information Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-10-30

Abstract

本发明公开了一种基于大数据的舆情聆听***，涉及互联网信息处理技术领域，为解决现有舆情聆听***对于数据采集方面不够全面，通常只涉猎到一些常用网址，且信息采集较杂，对于采集信息无初步处理，导致数据库负担较大的问题。所述***内置网点与采集模块相连，所述采集模块与分析聆听模块相连，所述采集模块和分析聆听模块均基于智能网络爬虫***运行，所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。

Description

一种基于大数据的舆情聆听***

技术领域

本发明涉及互联网信息处理技术领域，具体为一种基于大数据的舆情聆听***。

背景技术

从传统的社会学理论上讲，舆情本身是民意理论中的一个概念，它是民意的一种综合反映。从现代舆情理论的严格意义上讲，舆情本身并不是对民意规律的简单概括，而是对“民意及其作用于执政者及其政治取向规律”的一种描述。在实际工作中，舆情信息员对舆情概念的理解，必须把握四层义：1.舆情是民意集合的反映。换句话说，民意是形成舆情的始源，没有民意，就没有舆情；2.舆情所要反映的民意，是那些对执政者决策行为能够产生影响的“民意”，而非民意的全部；3.舆情因变事项是舆情产生的基础，研究、分析舆情，首先要深入研究、分析舆情因变事项的发生、发展和变化的规律；4.舆情空间对舆情传播及其对执政者决策行为的影响有重要作用。这里特别强调的是，舆情定义中的“民众社会政治态度”，是指民众对执政者及其所持有的政治取向的看法、意见和态度。民众的这种社会政治态度说到底是对自身利益需求的一种诉求和表达，它不仅包括民众对国家政治的看法、意见和态度，对社会政治的看法、意见和态度，同时还包括民众对社会事物的看法、意见和态度。

但是，现有舆情聆听***对于数据采集方面不够全面，通常只涉猎到一些常用网址，且信息采集较杂，对于采集信息无初步处理，导致数据库负担较大；因此，不满足现有的需求，对此我们提出了一种基于大数据的舆情聆听***。

发明内容

本发明的目的在于提供一种基于大数据的舆情聆听***，以解决上述背景技术中提出的现有舆情聆听***对于数据采集方面不够全面，通常只涉猎到一些常用网址，且信息采集较杂，对于采集信息无初步处理，导致数据库负担较大的问题。

为实现上述目的，本发明提供如下技术方案：一种基于大数据的舆情聆听***，包括***内置网点，***内置网点与采集模块相连，采集模块与分析聆听模块相连，采集模块和分析聆听模块均基于智能网络爬虫***运行。

优选的，***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。

优选的，微博包括新浪微博、腾讯微博、网易微博、搜狐微博等，博客包括新浪博客、腾讯博客、网易博客、博客网等，社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等，信息资讯网址包括行业资讯网、地方信息网等，政府机构网址包括中国政府网、首都之窗等，新闻资讯网址包括网易、人民网、新浪网等，媒体网站包括***，中国日报等，视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等，搜索引擎包括谷歌、百度、搜狗等，社交网站包括FaceBook、豆瓣、QQ、微信等。

优选的，采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。

优选的，智能提取包括标题、文章正文、作者、日期、来源提取。

优选的，智能去重包括URL去重、标题去重和正文去重。

优选的，分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。

优选的，智能初步分析的信息包括网址，点击数，回复数，转发数等。

与现有技术相比，本发明的有益效果是：

1、本发明通过在该***内设置内置网点，***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站，其中，微博为新浪微博、腾讯微博、网易微博、搜狐微博等，博客为新浪博客、腾讯博客、网易博客、博客网等，社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等，信息资讯网址为行业资讯网、地方信息网等，政府机构网址为中国政府网、首都之窗等，新闻资讯网址为网易、人民网、新浪网等，媒体网站为***，中国日报等，视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等，搜索引擎为谷歌、百度、搜狗等，社交网站为FaceBook、豆瓣、QQ、微信等，涉猎范围广，可从各个方面进行舆情信息的采集，数据较为全面。

2、通过采用智能提取，采集模块在提取舆情数据时，仅截取标题、文章正文、作者、日期和来源信息，过滤掉广告等无用的垃圾信息，有效减少了数据库负担。

3、通过采用智能去重，智能去重包括URL去重、标题去重和正文去重，通过三种方式，有效去除重复或相似内容，进一步减小数据库负担，且方便后续的查询以及检索。

4、通过采用智能初步分析，智能初步分析信息包括网址，点击数，回复数，转发数等，经由以上数据，可判断该舆论的重要度，并且仅将重要度较高的舆情转移至人工二次分析阶段，降低工作人员的工作负担，提高了舆情分析效率

5、通过采用人工二次分析，在***初步分析的基础上，经由舆情分析人员进行数据信息的二次加工处理，从而得出更加准确、合理的分析信息。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的***内置网点结构示意图；

图3为本发明的采集模块结构示意图；

图4为本发明的分析聆听模块结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1-4，本发明提供的一种实施例：一种基于大数据的舆情聆听***，包括***内置网点，***内置网点与采集模块相连，采集模块能够对***内置网点的信息进行采集，并进行智能提取、关键词检索、全文索引、智能去重和分类存储等操作，采集模块与分析聆听模块相连，分析聆听模块能够对采集模块收集到的舆情信息，进行智能初步分析、人工二次分析和上传至信息载体，采集模块和分析聆听模块均基于智能网络爬虫***运行，智能网络爬虫***可以实现舆情数据的高质量以及快速的抓取。

进一步，***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站，内置多网点，可从各个方面进行舆情信息的采集，数据较为全面。

进一步，微博包括新浪微博、腾讯微博、网易微博、搜狐微博等，博客包括新浪博客、腾讯博客、网易博客、博客网等，社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等，信息资讯网址包括行业资讯网、地方信息网等，政府机构网址包括中国政府网、首都之窗等，新闻资讯网址包括网易、人民网、新浪网等，媒体网站包括***，中国日报等，视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等，搜索引擎包括谷歌、百度、搜狗等，社交网站包括FaceBook、豆瓣、QQ、微信等。

进一步，采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储，智能提取能够提取文章中的重要信息，经由关键词检索查找出文章中出现频率较高的关键词，由全文索引查找每个词条的出现频率，以此为基准建立一个以词库为目录的索引，智能去除重复以及相似的内容，并通过关键词以及词库的匹配进行分类存储。

进一步，智能提取包括标题、文章正文、作者、日期、来源提取，仅对关键内容进行提取，过滤掉广告等无用的垃圾信息，有效减少数据库负担。

进一步，智能去重包括URL去重、标题去重和正文去重，通过三种方式，有效去除重复或相似内容，进一步减小数据库负担，且方便查询以及检索。

进一步，分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分，***经由该舆情所在的网址，点击数，回复数，转发数等进行初步分析，在此基础上，经由舆情分析人员进行数据信息的二次加工处理，从而得出较为准确、合理的分析信息，并通过微博等信息载体将分析内容进行展示，方便查看。

进一步，智能初步分析的信息包括网址，点击数，回复数，转发数等，经由以上数据，可判断该舆论的重要度，仅将重要度较高的舆情转移至人工二次分析阶段，降低工作人员的工作负担，提高了舆情分析效率。

工作原理：使用时，该***基于智能网络爬虫***运行，首先由采集模块对***内置网点进行舆情信息的采集，***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站，其中，微博为新浪微博、腾讯微博、网易微博、搜狐微博等，博客为新浪博客、腾讯博客、网易博客、博客网等，社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等，信息资讯网址为行业资讯网、地方信息网等，政府机构网址为中国政府网、首都之窗等，新闻资讯网址为网易、人民网、新浪网等，媒体网站为***，中国日报等，视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等，搜索引擎为谷歌、百度、搜狗等，社交网站为FaceBook、豆瓣、QQ、微信等，内置网点涉猎范围广，可从各个方面进行舆情信息的采集，数据较为全面，信息的采集过程为智能提取，仅提取标题、文章正文、作者、日期以及来源，过滤掉广告等无用的垃圾信息，有效减少数据库负担，再经由关键词检索查找出文章中出现频率较高的关键词，由全文索引查找每个词条的出现频率，以此为基准建立一个以词库为目录的索引，依靠URL去重、标题去重和正文去重三种方式智能去除重复以及相似的内容，并通过关键词以及词库的匹配进行分类存储，存储后的信息经由该舆情所在的网址，点击数，回复数，转发数等进行初步的***分析，在此基础上，经由舆情分析人员进行数据信息的二次加工处理，从而得出较为准确、合理的分析信息，并通过微博等信息载体上将分析内容进行展示，方便用户查看。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于大数据的舆情聆听***，包括***内置网点，其特征在于：所述***内置网点与采集模块相连，所述采集模块与分析聆听模块相连，所述采集模块和分析聆听模块均基于智能网络爬虫***运行。

2.根据权利要求1所述的一种基于大数据的舆情聆听***，其特征在于：所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。

3.根据权利要求2所述的一种基于大数据的舆情聆听***，其特征在于：所述微博包括新浪微博、腾讯微博、网易微博、搜狐微博等，所述博客包括新浪博客、腾讯博客、网易博客、博客网等，所述社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等，所述信息资讯网址包括行业资讯网、地方信息网等，所述政府机构网址包括中国政府网、首都之窗等，所述新闻资讯网址包括网易、人民网、新浪网等，所述媒体网站包括***，中国日报等，所述视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等，所述搜索引擎包括谷歌、百度、搜狗等，所述社交网站包括FaceBook、豆瓣、QQ、微信等。

4.根据权利要求1所述的一种基于大数据的舆情聆听***，其特征在于：所述采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。

5.根据权利要求4所述的一种基于大数据的舆情聆听***，其特征在于：所述智能提取包括标题、文章正文、作者、日期、来源提取。

6.根据权利要求4所述的一种基于大数据的舆情聆听***，其特征在于：所述智能去重包括URL去重、标题去重和正文去重。

7.根据权利要求1所述的一种基于大数据的舆情聆听***，其特征在于：所述分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。

8.根据权利要求7所述的一种基于大数据的舆情聆听***，其特征在于：智能初步分析的信息包括网址，点击数，回复数，转发数等。