CN111859065A - 一种基于大数据的舆情聆听*** - Google Patents
一种基于大数据的舆情聆听*** Download PDFInfo
- Publication number
- CN111859065A CN111859065A CN202010452790.2A CN202010452790A CN111859065A CN 111859065 A CN111859065 A CN 111859065A CN 202010452790 A CN202010452790 A CN 202010452790A CN 111859065 A CN111859065 A CN 111859065A
- Authority
- CN
- China
- Prior art keywords
- information
- website
- websites
- public opinion
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的舆情聆听***,涉及互联网信息处理技术领域,为解决现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大的问题。所述***内置网点与采集模块相连,所述采集模块与分析聆听模块相连,所述采集模块和分析聆听模块均基于智能网络爬虫***运行,所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。
Description
技术领域
本发明涉及互联网信息处理技术领域,具体为一种基于大数据的舆情聆听***。
背景技术
从传统的社会学理论上讲,舆情本身是民意理论中的一个概念,它是民意的一种综合反映。从现代舆情理论的严格意义上讲,舆情本身并不是对民意规律的简单概括,而是对“民意及其作用于执政者及其政治取向规律”的一种描述。在实际工作中,舆情信息员对舆情概念的理解,必须把握四层义:1.舆情是民意集合的反映。换句话说,民意是形成舆情的始源,没有民意,就没有舆情;2.舆情所要反映的民意,是那些对执政者决策行为能够产生影响的“民意”,而非民意的全部;3.舆情因变事项是舆情产生的基础,研究、分析舆情,首先要深入研究、分析舆情因变事项的发生、发展和变化的规律;4.舆情空间对舆情传播及其对执政者决策行为的影响有重要作用。这里特别强调的是,舆情定义中的“民众社会政治态度”,是指民众对执政者及其所持有的政治取向的看法、意见和态度。民众的这种社会政治态度说到底是对自身利益需求的一种诉求和表达,它不仅包括民众对国家政治的看法、意见和态度,对社会政治的看法、意见和态度,同时还包括民众对社会事物的看法、意见和态度。
但是,现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大;因此,不满足现有的需求,对此我们提出了一种基于大数据的舆情聆听***。
发明内容
本发明的目的在于提供一种基于大数据的舆情聆听***,以解决上述背景技术中提出的现有舆情聆听***对于数据采集方面不够全面,通常只涉猎到一些常用网址,且信息采集较杂,对于采集信息无初步处理,导致数据库负担较大的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的舆情聆听***,包括***内置网点,***内置网点与采集模块相连,采集模块与分析聆听模块相连,采集模块和分析聆听模块均基于智能网络爬虫***运行。
优选的,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。
优选的,微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,博客包括新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址包括行业资讯网、地方信息网等,政府机构网址包括中国政府网、首都之窗等,新闻资讯网址包括网易、人民网、新浪网等,媒体网站包括***,中国日报等,视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎包括谷歌、百度、搜狗等,社交网站包括FaceBook、豆瓣、QQ、微信等。
优选的,采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。
优选的,智能提取包括标题、文章正文、作者、日期、来源提取。
优选的,智能去重包括URL去重、标题去重和正文去重。
优选的,分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。
优选的,智能初步分析的信息包括网址,点击数,回复数,转发数等。
与现有技术相比,本发明的有益效果是:
1、本发明通过在该***内设置内置网点,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,其中,微博为新浪微博、腾讯微博、网易微博、搜狐微博等,博客为新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址为行业资讯网、地方信息网等,政府机构网址为中国政府网、首都之窗等,新闻资讯网址为网易、人民网、新浪网等,媒体网站为***,中国日报等,视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎为谷歌、百度、搜狗等,社交网站为FaceBook、豆瓣、QQ、微信等,涉猎范围广,可从各个方面进行舆情信息的采集,数据较为全面。
2、通过采用智能提取,采集模块在提取舆情数据时,仅截取标题、文章正文、作者、日期和来源信息,过滤掉广告等无用的垃圾信息,有效减少了数据库负担。
3、通过采用智能去重,智能去重包括URL去重、标题去重和正文去重,通过三种方式,有效去除重复或相似内容,进一步减小数据库负担,且方便后续的查询以及检索。
4、通过采用智能初步分析,智能初步分析信息包括网址,点击数,回复数,转发数等,经由以上数据,可判断该舆论的重要度,并且仅将重要度较高的舆情转移至人工二次分析阶段,降低工作人员的工作负担,提高了舆情分析效率
5、通过采用人工二次分析,在***初步分析的基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出更加准确、合理的分析信息。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的***内置网点结构示意图;
图3为本发明的采集模块结构示意图;
图4为本发明的分析聆听模块结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-4,本发明提供的一种实施例:一种基于大数据的舆情聆听***,包括***内置网点,***内置网点与采集模块相连,采集模块能够对***内置网点的信息进行采集,并进行智能提取、关键词检索、全文索引、智能去重和分类存储等操作,采集模块与分析聆听模块相连,分析聆听模块能够对采集模块收集到的舆情信息,进行智能初步分析、人工二次分析和上传至信息载体,采集模块和分析聆听模块均基于智能网络爬虫***运行,智能网络爬虫***可以实现舆情数据的高质量以及快速的抓取。
进一步,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,内置多网点,可从各个方面进行舆情信息的采集,数据较为全面。
进一步,微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,博客包括新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址包括行业资讯网、地方信息网等,政府机构网址包括中国政府网、首都之窗等,新闻资讯网址包括网易、人民网、新浪网等,媒体网站包括***,中国日报等,视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎包括谷歌、百度、搜狗等,社交网站包括FaceBook、豆瓣、QQ、微信等。
进一步,采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储,智能提取能够提取文章中的重要信息,经由关键词检索查找出文章中出现频率较高的关键词,由全文索引查找每个词条的出现频率,以此为基准建立一个以词库为目录的索引,智能去除重复以及相似的内容,并通过关键词以及词库的匹配进行分类存储。
进一步,智能提取包括标题、文章正文、作者、日期、来源提取,仅对关键内容进行提取,过滤掉广告等无用的垃圾信息,有效减少数据库负担。
进一步,智能去重包括URL去重、标题去重和正文去重,通过三种方式,有效去除重复或相似内容,进一步减小数据库负担,且方便查询以及检索。
进一步,分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分,***经由该舆情所在的网址,点击数,回复数,转发数等进行初步分析,在此基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出较为准确、合理的分析信息,并通过微博等信息载体将分析内容进行展示,方便查看。
进一步,智能初步分析的信息包括网址,点击数,回复数,转发数等,经由以上数据,可判断该舆论的重要度,仅将重要度较高的舆情转移至人工二次分析阶段,降低工作人员的工作负担,提高了舆情分析效率。
工作原理:使用时,该***基于智能网络爬虫***运行,首先由采集模块对***内置网点进行舆情信息的采集,***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站,其中,微博为新浪微博、腾讯微博、网易微博、搜狐微博等,博客为新浪博客、腾讯博客、网易博客、博客网等,社区论坛网址为天涯论坛、新浪论坛、网易论坛、搜狐社区等,信息资讯网址为行业资讯网、地方信息网等,政府机构网址为中国政府网、首都之窗等,新闻资讯网址为网易、人民网、新浪网等,媒体网站为***,中国日报等,视频网站为Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,搜索引擎为谷歌、百度、搜狗等,社交网站为FaceBook、豆瓣、QQ、微信等,内置网点涉猎范围广,可从各个方面进行舆情信息的采集,数据较为全面,信息的采集过程为智能提取,仅提取标题、文章正文、作者、日期以及来源,过滤掉广告等无用的垃圾信息,有效减少数据库负担,再经由关键词检索查找出文章中出现频率较高的关键词,由全文索引查找每个词条的出现频率,以此为基准建立一个以词库为目录的索引,依靠URL去重、标题去重和正文去重三种方式智能去除重复以及相似的内容,并通过关键词以及词库的匹配进行分类存储,存储后的信息经由该舆情所在的网址,点击数,回复数,转发数等进行初步的***分析,在此基础上,经由舆情分析人员进行数据信息的二次加工处理,从而得出较为准确、合理的分析信息,并通过微博等信息载体上将分析内容进行展示,方便用户查看。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种基于大数据的舆情聆听***,包括***内置网点,其特征在于:所述***内置网点与采集模块相连,所述采集模块与分析聆听模块相连,所述采集模块和分析聆听模块均基于智能网络爬虫***运行。
2.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述***内置网点包括微博、博客、社区论坛网址、信息资讯网址、政府机构网址、新闻资讯网址、媒体网站、视频网站、搜索引擎以及社交网站。
3.根据权利要求2所述的一种基于大数据的舆情聆听***,其特征在于:所述微博包括新浪微博、腾讯微博、网易微博、搜狐微博等,所述博客包括新浪博客、腾讯博客、网易博客、博客网等,所述社区论坛网址包括天涯论坛、新浪论坛、网易论坛、搜狐社区等,所述信息资讯网址包括行业资讯网、地方信息网等,所述政府机构网址包括中国政府网、首都之窗等,所述新闻资讯网址包括网易、人民网、新浪网等,所述媒体网站包括***,中国日报等,所述视频网站包括Youtube、优酷、腾讯视频、爱奇艺、Bilibili等,所述搜索引擎包括谷歌、百度、搜狗等,所述社交网站包括FaceBook、豆瓣、QQ、微信等。
4.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述采集模块包括智能提取、关键词检索、全文索引、智能去重和分类存储。
5.根据权利要求4所述的一种基于大数据的舆情聆听***,其特征在于:所述智能提取包括标题、文章正文、作者、日期、来源提取。
6.根据权利要求4所述的一种基于大数据的舆情聆听***,其特征在于:所述智能去重包括URL去重、标题去重和正文去重。
7.根据权利要求1所述的一种基于大数据的舆情聆听***,其特征在于:所述分析聆听模块包括智能初步分析、人工二次分析和上传至信息载体三部分。
8.根据权利要求7所述的一种基于大数据的舆情聆听***,其特征在于:智能初步分析的信息包括网址,点击数,回复数,转发数等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010452790.2A CN111859065A (zh) | 2020-05-26 | 2020-05-26 | 一种基于大数据的舆情聆听*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010452790.2A CN111859065A (zh) | 2020-05-26 | 2020-05-26 | 一种基于大数据的舆情聆听*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859065A true CN111859065A (zh) | 2020-10-30 |
Family
ID=72985670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010452790.2A Withdrawn CN111859065A (zh) | 2020-05-26 | 2020-05-26 | 一种基于大数据的舆情聆听*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859065A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112650947A (zh) * | 2020-12-31 | 2021-04-13 | 安徽不如信息科技有限公司 | 一种便于携带的舆情收集处理*** |
CN113158066A (zh) * | 2021-05-11 | 2021-07-23 | 两比特(北京)科技有限公司 | 一种云合数据影视剧播放效果分析*** |
CN116701729A (zh) * | 2023-08-01 | 2023-09-05 | 贵州融云信息技术有限公司 | 一种网络舆情检测***及检测方法 |
-
2020
- 2020-05-26 CN CN202010452790.2A patent/CN111859065A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112650947A (zh) * | 2020-12-31 | 2021-04-13 | 安徽不如信息科技有限公司 | 一种便于携带的舆情收集处理*** |
CN113158066A (zh) * | 2021-05-11 | 2021-07-23 | 两比特(北京)科技有限公司 | 一种云合数据影视剧播放效果分析*** |
CN116701729A (zh) * | 2023-08-01 | 2023-09-05 | 贵州融云信息技术有限公司 | 一种网络舆情检测***及检测方法 |
CN116701729B (zh) * | 2023-08-01 | 2023-10-31 | 贵州融云信息技术有限公司 | 一种网络舆情检测***及检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859065A (zh) | 一种基于大数据的舆情聆听*** | |
CN102708096B (zh) | 一种基于语义的网络智能舆情监测***及其工作方法 | |
CN109783815B (zh) | 一种多维度网络舆情大数据对比分析方法 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN101201838A (zh) | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
US20070271228A1 (en) | Documentary search procedure in a distributed system | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施*** | |
Gupta et al. | A review on search engine optimization: Basics | |
Nikhil et al. | A survey on text mining and sentiment analysis for unstructured web data | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
CN103559258A (zh) | 基于云计算的网页排序方法 | |
CN111783456A (zh) | 一种利用语义分析技术的舆情分析方法 | |
Poonkuzhali et al. | Signed approach for mining web content outliers | |
Ahamed et al. | An Efficient Mechanism for Deep Web Data Extraction Based on Tree‐Structured Web Pattern Matching | |
CN104217026A (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN113015172A (zh) | 一种基于大数据的舆情聆听*** | |
Wang et al. | A government policy analysis platform based on knowledge graph | |
Jin et al. | Tise: A temporal search engine for web contents | |
Luo et al. | Structuring T weets for improving T witter search | |
CN102214179A (zh) | 网络信息抓取方法 | |
CN112528196B (zh) | 一种互联网舆情热度指数实时生成自动监测***及方法 | |
Yu et al. | Friend recommendation mechanism for social media based on content matching | |
Yuan et al. | OPO: Online public opinion analysis system over text streams | |
Fen et al. | Research on internet hot topic detection based on MapReduce architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201030 |